JP2015520410A - 音声認識に対する負例(アンチワード)に基づく性能改善 - Google Patents

音声認識に対する負例(アンチワード)に基づく性能改善 Download PDF

Info

Publication number
JP2015520410A
JP2015520410A JP2015509160A JP2015509160A JP2015520410A JP 2015520410 A JP2015520410 A JP 2015520410A JP 2015509160 A JP2015509160 A JP 2015509160A JP 2015509160 A JP2015509160 A JP 2015509160A JP 2015520410 A JP2015520410 A JP 2015520410A
Authority
JP
Japan
Prior art keywords
keyword
word
words
confidence value
negative example
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015509160A
Other languages
English (en)
Inventor
ガナパティラジュ,アラビンド
アイヤー,アナンス,ナガラジャ
ワイス,フェリックス,イマニュエル
Original Assignee
インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インタラクティブ・インテリジェンス・インコーポレイテッド filed Critical インタラクティブ・インテリジェンス・インコーポレイテッド
Publication of JP2015520410A publication Critical patent/JP2015520410A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

音声認識に対する負例に基づく性能改善のためのシステムおよび方法が提示される。本開示の実施形態は、自動音声認識(ASR)システムにおける、識別される誤検知、および、キーワードの負例の識別に対処する。キーワードの負例を識別するのに様々な方法が使用されてもよい。そのような方法は、たとえば、分野特有の大きいテキストソースからの人間による聴き取りおよび学習可能な負例を含んでもよい。少なくとも1つの実施形態において、キーワードの負例は、誤検知を低減することによってASRシステムの性能を改善するのに使用されてもよい。【選択図】図1

Description

本開示の実施形態は、概して、遠隔通信システムおよび方法、ならびに自動音声認識システムに関する。より詳細には、本開示の実施形態は、自動音声認識システム内での音声認識に対する負例またはアンチワードに基づく性能改善に係る。
音声認識に対する負例に基づく性能改善のためのシステムおよび方法が提示される。本開示の実施形態は、自動音声認識(ASR)システムにおける、識別される誤検知、および、キーワードの負例の識別に対処する。キーワードの負例を識別するのに様々な方法が使用されてもよい。そのような方法は、たとえば、分野特有の大きいテキストソースからの人間による聴き取りおよび学習可能な負例を含んでもよい。少なくとも1つの実施形態において、キーワードの負例は、誤検知を低減することによってASRシステムの性能を改善するのに使用されてもよい。
一実施形態において、音声認識システムにおいて単語の負例を使用するための方法が説明されており、方法は、単語のセットを定義するステップと、前記単語の負例のセットを識別するステップと、単語の前記セットおよび負例の前記セットに対してキーワード認識を実行するステップと、単語の前記セット内の単語の信頼値を決定するステップと、負例の前記セット内の単語の信頼値を決定するステップと、単語の前記セットから、単語の前記セット内の前記信頼値は第1の基準を満たす、少なくとも1つの候補単語を識別するステップと、前記少なくとも1つの候補単語の前記信頼値を、単語の負例の前記セット内の少なくとも1つの単語の前記信頼値と比較するステップと、前記比較が第2の基準を満たす場合、前記少なくとも1つの候補単語を一致として受け入れるステップとを含む。
別の実施形態において、音声認識システムにおいて単語の負例を使用するための方法が説明されており、方法は、単語のセットを定義するステップと、単語の前記セットによる第1のキーワード認識を実行するステップと、単語の前記セット内の単語の信頼値を決定するステップと、単語の前記セットから、単語の前記セット内の前記信頼値は第1の基準を満たす、少なくとも1つの候補単語を識別するステップと、前記少なくとも1つの候補単語の負例のセットを選択するステップと、負例の前記セットによる第2のキーワード認識を実行するステップと、負例の前記セット内の単語の信頼値を決定するステップと、前記少なくとも1つの候補単語の前記信頼値を、負例の前記セット内の少なくとも1つの単語の前記信頼値と比較するステップと、前記比較が第2の基準を満たす場合、前記少なくとも1つの候補単語を一致として受け入れるステップとを含む。
別の実施形態において、キーワードの負例を識別するためのシステムが説明されており、システムは、オーディオストリーム内のキーワードを検出するための手段と、オーディオストリーム内の前記キーワードの負例を検出するための手段と、前記検出されたキーワードと前記キーワードの検出された負例とからの情報を組み合わせるための手段と、検出された単語がキーワードの負例であるか否かを判定するための手段とを備える。
キーワードスポッタの一実施形態における基本構成要素を示す図である。 人間による聴き取りに基づくキーワードの負例の識別のためのプロセスの一実施形態を示す流れ図である。 キーワードの負例の提案を自動的に決定するためのプロセスの一実施形態を示す図である。 キーワードの負例の使用のためのプロセスの一実施形態を示す図である。
本発明の原理の理解を促進する目的で、ここで、図面に示されている実施形態を参照し、特定の用語がこれを説明するために使用される。しかし、本発明の範囲の限定はそれによって意図されていないことが理解されよう。説明されている実施形態における任意の変更およびさらなる修正、ならびに本明細書に記載されている本発明の原理の任意のさらなる応用は、本発明が関連する技術分野における当業者に一般的に想起されるように企図されている。
自動音声認識(ASR)システムは、発話された単語を分析し、音声を音声単位のモデルに統計的に一致させる。これらのシステムの性能は、一般的に、精度、および、音声が認識され得る速度に基づいて評価される。多くの要因が、ASRシステムの精度に影響を及ぼし得る。これらの要因は、アクセント、明瞭さ、発話速度、発音、背景雑音などを含み得る。
ASRシステムの一例としては、キーワードスポッタが挙げられ得る。キーワードスポッタにおいては、特有の所定の単語および語句のみが、オーディオストリーム内で認識され得る。しかしながら、キーワードスポッタの性能は、検出および誤検知によって影響を受け得る。検出は、キーワードスポッタが、指定されたキーワードが発話されたときに、オーディオストリーム内でそのキーワードを確認すると、発生し得る。誤検知は、オーディオストリーム内で発話されなかった指定されたキーワードをキーワードスポッタが確認するときに発生するタイプの誤りであり得る。キーワードスポッタは、指定されたキーワードを、発話された別の単語または単語フラグメントと混同している場合がある。キーワードスポッタは、高検出率および低誤検知率での性能を有することが理想的である。キーワードのアンチワードまたは負例は、一般的に特定のキーワードと混同される単語として定義され得る。アンチワードの識別は、誤検知を低減することによって、特にキーワードスポッティングにおいて、一般的に任意の他の形態の音声認識において、音声認識システムを改善するのに使用され得る。
一実施形態において、ASRシステムにおいてキーワードスポッタによって識別される誤検知およびアンチワードの識別が対処される。たとえば、株式仲買業の分野に特有のASRシステムにおいて、キーワード「share」がシステムにおいて指定され得る。話者によって単語「chair」が発話される結果として、システムが単語「share」を誤って認識する確率が高くなり得る。この誤りが予測通りに発生する場合、システムは、キーワード「share」と、「chair」のような単語との間のこの混同に気づくようにすることができる。単語「chair」の検出は、システムに、単語「share」と結果として仮定しないように示し得る。単語「chair」は、単語「share」の負例、またはアンチワードになる。代替的に、ASRシステムが家具店の分野に特有である場合、単語「share」の発話は、キーワードスポッタに、キーワード「chair」と誤って仮定させる場合がある。したがって、「share」は単語「chair」のアンチワードになる。
別の実施形態において、キーワードスポッタの方法と類似の方法を使用して、任意のタイプの音声認識システムが調整されてもよい。たとえば、文法に基づく音声認識システムは、ユーザが語句「call Diane」を発話するときはいつでも、単語「Dial」と誤って認識し得る。次いで、システムは、「Diane」または別の類似の単語が発話されるときに単語「Dial」がトリガされる確率の増大を表示し得る。したがって、「Diane」は「Dial」のアンチワードとして識別され得る。
正確なアンチワードの識別は、誤検知を低減するために少なくとも1つの実施形態に不可欠である。アンチワードを識別するのにいくつかの方法が使用され得る。1つのそのような方法は、大規模な実験からの結果の分析に基づいてアンチワードを提案するために専門家の人間の知識を使用してもよい。専門家は、単語が互いに誤解されていることが示されている既存の実験から示される結果に基づいて、混同する単語の人知によってリストを編集する。この方法は非常に効果的であると考えられるが、冗長で費用がかかり得、人間の主題専門家、分析すべき大量のデータ、および、このデータを処理してアンチワードのライブラリーを構築するための相当の時間の利用可能性を負う。
別の実施形態において、時間およびリソースの利用可能性に対する上記の必要性を緩和する自動アンチワード提案メカニズムが使用されてもよい。たとえば、いくつかの利用可能なメトリックを使用して所与のキーワードに近く一致する単語および語句について、指定された言語における大きい単語−発音辞書全体の検索が実行される。そのような混同しやすい単語の候補リストが、キーワードを指定する時点でそこから選ぶために、ユーザに提示され得る。
図1は、全体的に100で示されるキーワードスポッタの一実施形態における基本構成要素を示す図である。キーワードスポッタ100の基本構成要素は、ユーザデータ/キーワード105と、キーワードモデル110と、音響モデル120および発音辞書/予測器125を含んでもよい知識ソース115と、オーディオストリーム130と、フロントエンド特徴計算器135と、認識エンジン(パターンマッチング)140と、報告された結果145とを含んでもよい。
ユーザデータ/キーワード105は、システムのユーザによってユーザの嗜好に従って定義されてもよい。キーワードモデル110は、ユーザによって定義されるユーザデータ/キーワード105、および、知識ソース115に基づくキーワードモデル110への入力に基づいて構成されてもよい。そのような知識ソースは、音響モデル120および発音辞書/予測器125を含んでもよい。
音素は、音の基本単位であると想定され得る。そのような音素の所定のセットは、特定の言語のすべての音を完全に記述すると想定され得る。知識ソース115は、発音(音素)と、音声信号から抽出される一連の特徴ベクトルのような音響事象との間の関係の確率モデル、たとえば、隠れマルコフモデル−ガウス混合モデル(HMM−GMM)を記憶してもよい。隠れマルコフモデル(HMM)は、観察されたオーディオ信号と観察されない音素との関係を符号化し得る。次いで、トレーニングプロセスが、転記されたトレーニングデータの大きい収集物にわたって所与の音素に対応するHMM状態によって放出される特徴ベクトルの統計的特性を研究し得る。音素の所与のHMM状態における特徴ベクトルの放出確率密度が、トレーニングプロセスにより学習され得る。このプロセスは、音響モデルトレーニングと称される場合もある。トレーニングは、トライフォンについても実行されてもよい。トライフォンの一例は、中心音に対応する発音表記シーケンス内の3つの音素のタプルであり得る。トライフォンのいくつかのHMM状態が、共通の放出確率密度関数を共有するためにともに結び付けられる。一般的に、放出確率密度関数は、ガウス混合モデル(GMM)を使用してモデル化される。これらのGMMおよびHMMのセットが、音響モデルと称される。
知識ソース115は、大量のオーディオデータを分析することによって開発され得る。音響モデル120および発音辞書/予測器125は、たとえば、「hello」のような単語およびその単語を含む音素を調査することによって作成される。システム内のすべてのキーワードは、音素と呼ばれるその構成サブワード単位の統計モデルによって表され得る。標準音素辞書において定義されている「hello」の音素は、「hh」、「eh」、「l」、および「ow」である。次いで、これらは一連のトライフォン、たとえば、「sil−hh+eh」、「hh−eh+l」、「eh−l+ow」、および「l−ow+sil」に変換され、ここで、「sil」は無音音素である。最後に、前述のように、すべての可能性のあるトライフォンのHMM状態は、結び付けられた状態にマッピングされ得る。結び付けられた状態は、音響モデルトレーニングが実行され得る固有の状態である。これらのモデルは言語依存であり得る。多言語サポートも提供するために、複数の知識ソースが提供されてもよい。
音響モデル120は、特定の言語で発生する様々な音を統計的にモデル化することによって形成され得る。発音辞書125は、単語を一連の音素に分解する役割を担い得る。たとえば、ユーザから提示される単語は、特定の言語の書記素/アルファベットのような、人間による読解可能な形態にあり得る。しかしながら、パターンマッチングアルゴリズムは、キーワードの発音を表す一連の音素に依拠し得る。一連の音素が得られると、音響モデル内の音素の各々の対応する統計モデルが調査され得る。これらの統計モデルの連結が、対象の単語のキーワードスポッティングを実行するのに使用され得る。辞書に存在しない単語について、言語学的規則に基づく予測器が、発音を分解するのに使用されてもよい。
オーディオストリーム130はフロントエンド特徴計算器135に供給されてもよく、フロントエンド特徴計算器は、オーディオストリーム130をオーディオストリームの表現、または一連のスペクトル特徴に変換し得る。オーディオストリーム130は、ユーザによってシステムへと発話される単語から構成され得る。オーディオ分析は、スペクトル特徴、たとえば、メル周波数ケプストラム係数(MFCC)および/またはその変換を計算することによって実行されてもよい。
次いで、音素隠れマルコフモデル(HMM)を連結することによって形成されてもよいキーワードモデル110とオーディオストリーム130からの信号との両方が、パターンマッチングのための認識エンジン140に供給され得る。たとえば、認識エンジン140のタスクは、語彙とも称される単語のセットをとること、および音響モデル120からの確率を使用して、提示されたオーディオストリーム130全体を検索して、そのオーディオ信号内で発話されている最も可能性の高い文を決定することであり得る。音声認識エンジンの一例としては、それに限定ではないが、キーワードスポッティングシステムが挙げられ得る。たとえば、特徴計算器135によって構築される多次元空間において、発話されている単語は、音響空間における軌跡を形成する一連のMFCCベクトルになり得る。ここで、キーワードスポッティングは、キーワードモデルを所与として軌跡を生成する確率を計算する問題になり得る。この演算は、キーワードモデルをオーディオ信号の最良のセグメントに整列させる結果として一致スコアをもたらす、動的プログラミングの公知の原理、特にビタビアルゴリズムを使用して達成されてもよい。一致スコアが大きい場合、キーワードスポッティングアルゴリズムは、キーワードが発話されたと推測し得、したがって、キーワードスポッティングされた事象を報告し得る。
次いで、結果としてもたらされた一連の単語が、リアルタイムで報告される、145。たとえば、報告は、キーワードが見出されたという信頼値を有する、オーディオストリーム内のキーワードの開始および終了時刻として提示されてもよい。基礎的な信頼値は、キーワードがどのように発話されるかの関数であってもよい。たとえば、単一の単語に複数の発音がある場合、キーワード「tomato」は、「T OW M AA T OW」および「T OW M EY T OW」として発話され得る。基礎的な信頼値は、単語がより一般的でない発音において発話されたとき、または単語があまり明瞭に発音されなかったときにはより低くなり得る。特定の認識の一部である発音の特有の異型も、報告において表示される。
図2に示されているように、人間による聴き取りに基づくキーワードの負例の識別のためのプロセス200の一実施形態が提供される。プロセス200は、システム100(図1)において動作し得る。
動作205において、会話が収集される。たとえば、会話は、コールセンターまたは他のシステム発生源から収集されてもよい。任意の数の会話が収集されてもよい。一実施形態において、キーワードスポッティングは、これらの会話に対してそれらの収集時点においてリアルタイムで実行されてもよい。制御は動作210に移り、プロセス200は継続する。
動作210において、キーワードスポッティングが実行される。たとえば、キーワードスポッティングは、指定されたキーワードが収集された会話内に出現するすべての事例を決定するために、検索可能データベースとして保存された会話に対して実行されてもよい。制御は動作215に移り、プロセス200は継続する。
動作215において、会話および会話内に見出されたキーワードが検索可能データベースとして保存される。たとえば、録音機構成要素が会話を獲得し、キーワードについて検索され得る検索可能データベースとして会話を保存してもよい。制御は動作220に移り、プロセス200は継続する。
動作220において、キーワードが、録音されたもの内でタグ付けされる。たとえば、会話は、キーワードが存在するとタグ付け(またはインデックス付け)される。タグは、キーワードがオーディオストリーム内でスポッティングされた位置に関する情報を表し得る。タグはまた、キーワードスポットにおけるシステムの信頼性、および、キーワードスポットに使用される実際の音素発音のような他の情報も含み得る。制御は動作225に移り、プロセス200は継続する。
動作225において、大きいデータファイルが生成される。たとえば、システムは、スポッティングされたその特定のキーワードのすべての事例を含む会話の部分をつなぎ合わせてもよい。制御は動作230に移り、プロセス200は継続する。
動作230において、結果が保存される。たとえば、キーワードスポッティングの結果が、元の会話およびキーワードスポットとともに保存される。制御は動作235に移り、プロセス200は継続する。
動作235において、会話が調査される。たとえば、タグ付けされた会話が、人間による聴き取りによって調査される。次いで、人は、会話内で発生しているパターンの認識を開始するために、置かれているタグを使用して1つの事例から次の事例へと移り得る。それらの会話は、キーワードが誤検出される最も一般的な場所を決定するために、タグを使用して調査され得る。たとえば、単語「three thousand」が発話されているとき、単語「breakout」が検出される場合がある。これは、システムが、音「three thou」を、単語からの「break ou」と混同した結果であり得る。制御は次いで、動作240に移り、プロセス200は継続する。
動作240において、分析者がシステムの混同を書き留める。たとえば、システムは、単語「three thousand」および「breakout」を混同している場合がある。「three thousand」は、検出されたキーワードの他の負例について、「breakout」などのアンチワードとして識別され、次いで、この混同が書き留められる。プロセス200は終了する。
図3に示されているように、キーワードの負例の提案を自動的に決定するためのプロセス300の一実施形態が提供される。プロセス300は、図2のステップ235において動作し得る。
動作305において、単語の大きい語彙が選ばれる。たとえば、20000のような多数の単語が選択されてもよい。しかしながら、選らばれる数が識別される適用分野における人々によって発話される言葉の大部分を包含するように、任意の数の単語が選ばれてもよい。聴き取るための分析者なしに、たとえば保険産業のような産業に特有に関連する言葉が対象とされ得る。識別される分野は、たとえば、保険産業または仲買店のような、任意の分野を含んでもよい。制御は動作310に移り、プロセス300は継続する。
動作310において、キーワードが定義される。次いで、ギガバイト単位の情報に含まれている言葉が、1つの単語から別の単語への距離メトリックを決定するために識別される。制御は動作315に移り、プロセス300は継続する。
動作315において、指定されたキーワードが分野特有の単語と比較される。たとえば、指定されたキーワードは、識別された分野特有の単語と比較されてもよく、次いで、そのキーワードに最も近い混同しやすい単語が、単語の大きい語彙から選択される。これは、音素距離測定または文法経路分析を使用して実行されてもよい。たとえば、近い一致が構成するものが、音韻的類似性に基づいて最小編集距離として定義されてもよい。このメトリックは、認識システムにおいて符号化される言語音のモデルに特有の情報によって増強される。
音素距離測定は、キーワードスポッティングタイプの用途において最も一般的に使用されているが、アンチワードを決定するために音素距離測定を使用することは、アンチワードセットを構築することに固有の手法である。キーワードスポッタは、オーディオのストリーム内で試行および識別するために聴き取らなければならない単語の所定のセットを有する。任意の単語があらゆる場所に起こり得る。文法に基づくシステムにおいて、キーワードスポッタは、所定の構文に言及する。文法は、単語「call」の発語の後に、7桁数のファーストネームまたはファーストネームとラストネームとの組合せのタイプが続く可能性があることとして定義され得る。これは、この状況においては単語「call」が数に先行しなければならないため、いつでも/どこでも桁が起こり得ると指定することよりも制約される。
文法は、どのタイプの文がシステムに発声され得るか、または、代替的にどのタイプの文をシステムが予測するかを制約する。同じ混同または音素距離分析が、文法に対して行われ、適用され得る。文法が定義されると、その文法によって解剖され得る文のセットが、網羅的に生成され得る。限られた数の文が得られる。次いで、システムは、対象のキーワードを使用して、そのキーワードがテキスト全体にわたって他の単語として類似の位置に発生するか否かを調査する。システムは、これらの他の単語がこのキーワードと混同され得るか、または、類似に聞こえ得るかを調査する。そうである場合、これらの単語は、この特定のキーワードのアンチワードセットの一部になる。
以下は、図3に関連する音素距離測定の説明のいくつかの例である。
例1:単語「cat」および「bat」内の音素距離
CAT−>k ae t
BAT−>b ae t
異なるすべての音素について1のスコアが結果としてもたらされ、完全な一致について0のスコアと想定される場合、1つの音素(k <−> b)のみが異なっているため、この例について、スコアは1である。
例2:異なる数の音素を有する単語「cat」と「vacate」との間の音素距離
CAT−>x x k ae t
VACATE:−>w ah k ey t
音素の挿入に1消費し、「ae」と「ey」との間の距離が0.3であると想定される場合、単語間の合計距離は2.3である。「ae」と「ey」との間の距離は、音響モデル120(図1)内の収集物として記憶されている統計モデル間の距離であり得る。
例3:異なる数の音素、ならびに、音素の挿入、欠失および置換を含む誤りを有する単語「cat」と「fall」との間の音素距離
CAT:k ae t x
AFT:x ae f t
音素の挿入に1消費し、欠失に2消費し、音素「t」と「f」との間の距離が0.7であると想定される場合、2つの単語間の合計距離は3.7である。このスコアは、音素の1つの挿入、1つの欠失および1つの置換からなる。
別の実施形態において、システムが互いに類似している単語を見出すために所与の言語における大きい単語−発音辞書全体を自動的に検索する方法が利用され得る。自動提案を利用する代わりにアンチワードを手作業で入力することを好むユーザに対して、複数の手動入力モードが可能にされ得る。モードは、たとえば、単語および/またはそれらの音素発音の通常のスペリングを含み得る。
動作320において、キーワードアンチワードセットが決定される。たとえば、アンチワードを決定するのにボキャブラリに関する分野の知識が利用される。それらの近い一致の単語が、次いで、キーワードのアンチワードになる。キーワードアンチワードセットの選択に人間が介入することはない。プロセス300は終了する。
図4に示されているように、キーワードスポッティング中にキーワードの負例を使用するためのプロセス400の一実施形態が提示される。プロセス400は、図1の認識エンジン140内のパターンマッチングにおいて動作し得る。
動作405において、音声データが入力される。たとえば、フロントエンド分析を含み得る音声データが、キーワード検索モジュールに入力される。制御は動作410に移り、プロセス400は継続する。
動作410において、検索が実行される。たとえば、音声データ内のキーワードおよびアンチワードのパターンについて検索が実行されてもよい。そのようなパターンは、キーワードおよびキーワードの負例について、図1のキーワードモデル110内で決定されたものであり得る。制御は動作415に移り、プロセス400は継続する。
動作415において、キーワードおよびアンチワードについて確率または信頼値が計算される。たとえば、特定の音声ストリーム内のキーワード、アンチワードなどが見出された確率が計算される。制御は動作420に移り、プロセス400は継続する。
動作420において、最良のアンチワードが決定される。たとえば、キーワードに対する最良のアンチワードは、決定された各単語の確率に基づき得る。任意の数のアンチワードが検索の結果として調査されてもよく、図4に示す例には限定されない。
動作425において、キーワードの確率が閾値よりも大きいか否か、および、最良のアンチワードの確率が閾値よりも大きいか否か、および、アンチワードとの重なりが閾値よりも大きいか否かが判定される。キーワードの確率が閾値よりも大きい、最良のアンチワードの確率が閾値よりも大きい、アンチワードとの重なりが閾値よりも大きいと決定される場合、制御は動作430に移り、プロセス400は継続する。それらの条件のうちの少なくとも1つが満たされないと決定される場合、制御は動作435に移り、プロセス400は継続する。
動作425における判定は任意の適切な様式で行われてもよい。たとえば、キーワードの確率およびアンチワードの確率が、それらのそれぞれの閾値と比較される。キーワードの確率が、そのキーワードのユーザ定義の閾値よりも大きく、最良のアンチワードの確率が、経験的に定義されたアンチワード閾値よりも良好であり、キーワードと最良のアンチワードとが、オーディオストリーム内の所定の百分率の時間よりも長く重なる場合、キーワードは拒絶されている。キーワードのアンチワードの確率が大きくない場合、キーワードは受け入れられている。たとえば、アンチワード閾値は0.5に設定され得、拒絶が起こるためのキーワードとアンチワードとの時間的重なりは、50パーセントである。確率閾値数はユーザ指定である。したがって、(p(KW)≧thresholdKW)および(p(BestAW)≧thresholdAW)および(overlap(KW,BestAW)≧thresholdOV)であり、式中、pは確率であり、KWはキーワードであり、AWはアンチワードである。誤検知に関して短い単語が問題になる場合、より高い数が閾値として使用されてもよい。一実施形態において、たとえば、1の値が、より厳密な音響一致があることを示し得る。0に近い値は、厳密でないまたは不正確な一致があることを示し得る。
動作430においてキーワードが拒絶され、プロセス400は終了する。
動作435においてキーワードが受け入れられ、プロセス400は終了する。
キーワードとアンチワードとを比較するためのより洗練された方式が使用され得、上述した例に限定されない。キーワードの負例は、スペリングを使用したアンチワード検索により指定することができる。文字列または音素スペリングが定義として指定および/または使用され得る。人間による聴き取りと自動化との組合せも使用され得る。自動的に決定または提案されたアンチワードの語彙も、タグが決定されている人間による聴き取りから決定されたアンチワードに加えられてもよい。このように、一般的にまたは頻繁に発生するアンチワードのみがシステム内に含められる。自動的方法が、分野特有の大きいデータの語彙から導出される統計に基づいて、いずれの混同されやすい単語が「一般的」であるかを判定する。人間の聴き手が、聴き取り方法によってアンチワードを決定し、アンチワードのリストを構成する。人間の聴き手によって編集されたリスト内の単語は、自動化システムによって「一般的」として認証される。
本発明は図面および前記の説明において詳細に図示および説明されたが、これは本質的に例示であり限定ではないとして考えられるべきであり、好ましい実施形態のみが図示および説明されていること、ならびに、本明細書においておよび/または添付の特許請求の範囲によって記載されているような本発明の精神の中に入るすべての均等物、変更、および修正が保護されるべきであることを理解されたい。

Claims (30)

  1. 音声認識システムにおいて単語の負例を使用するための方法であって、
    a.単語のセットを定義するステップと、
    b.前記単語の負例のセットを識別するステップと、
    c.単語の前記セットおよび負例の前記セットに対してキーワード認識を実行するステップと、
    d.単語の前記セット内の単語の信頼値を決定するステップと、
    e.負例の前記セット内の単語の信頼値を決定するステップと、
    f.単語の前記セットから、単語の前記セット内の単語の前記信頼値は第1の基準を満たす、少なくとも1つの候補単語を識別するステップと、
    g.前記少なくとも1つの候補単語の前記信頼値を、単語の負例の前記セット内の少なくとも1つの単語の前記信頼値と比較するステップと、
    h.前記比較が第2の基準を満たす場合に、前記少なくとも1つの候補単語を一致として受け入れるステップと
    を含む、方法。
  2. ステップ(a)は、
    a.1)録音された会話をシステム発生源から収集するステップと、
    a.2)前記会話を検索可能データベースとして保存するステップと、
    a.3)検索可能データベースとして保存された前記会話内の識別のためのキーワードの数を決定するステップと、
    a.4)検索可能データベースとして保存された前記会話内の前記キーワードについて検索するステップと、
    a.5)検索可能データベースとして保存された前記会話内でキーワードを識別するステップと、
    a.6)前記識別されたキーワードを調査するステップと、
    a.7)キーワードの負例を検出するステップと、
    a.8)キーワードの前記負例を識別するステップと
    をさらに含む、請求項1に記載の方法。
  3. ステップ(a.5)は、
    a.5.1)前記会話内に存在するキーワードにタグ付けするステップをさらに含む、請求項2に記載の方法。
  4. ステップ(a.5.1)は、
    a.5.1.1)前記キーワードの誤検出の前記保存された会話内に発生するパターンを識別するステップをさらに含む、請求項3に記載の方法。
  5. ステップ(a.5)は、
    a.5.1)前記システムの混同を書き留めるステップをさらに含む、請求項2に記載の方法。
  6. ステップ(a)は、
    a.1)単語の大きい語彙を選択するステップと、
    a.2)キーワードの数を定義するステップと、
    a.3)前記キーワードの間の距離メトリックを決定するステップと、
    a.4)指定されたキーワードを単語の前記語彙と比較するステップと、
    a.5)少なくとも1つの識別される分野特有の単語に最も近い少なくとも1つの混同しやすい単語を単語の前記語彙から選択するステップと
    をさらに含む、請求項1に記載の方法。
  7. ステップ(a.1)は、
    a.1.1)単語の前記語彙を特定の分野に対象とするステップをさらに含む、請求項6に記載の方法。
  8. ステップ(a.4)は、
    a.4.1)音素距離測定を実行するステップをさらに含む、請求項6に記載の方法。
  9. ステップ(a.4)は、
    a.4.1)文法経路分析を実行するステップをさらに含む、請求項6に記載の方法。
  10. ステップ(a.3)は、
    a.3.1)類似した発音を有する単語について、所与の言語における単語−発音辞書を検索するステップをさらに含む、請求項6に記載の方法。
  11. ステップ(b)は、
    b.1)キーワードの負例を手作業で入力するステップをさらに含む、請求項1に記載の方法。
  12. ステップ(a)は、
    a.1)音声データを入力するステップと、
    a.2)検索を実行するステップと、
    a.3)キーワードおよび前記キーワードの少なくとも1つの負例の信頼値を計算するステップと、
    a.4)前記キーワードの最良の負例を決定するステップと、
    a.5)信頼値が基準を満たすか否かを判定するステップと、
    a.6)前記信頼値が前記基準を満たさない場合、前記キーワードを拒絶するステップと
    をさらに含む、請求項1に記載の方法。
  13. ステップ(a.5)は、
    a.5.1)前記キーワードの前記信頼値が前記基準を満たすか否かを判定するステップと、
    a.5.2)前記キーワードの前記最良の負例の前記信頼値が基準を満たすか否かを判定するステップと、
    a.5.3)前記キーワードの負例との重なりの信頼値が基準を満たすか否かを判定するステップと
    をさらに含む、請求項12に記載の方法。
  14. ステップ(a.5.3)は、
    a.5.3.1)前記キーワードの負例の時間的な所定の百分率による前記重なりがオーディオストリームに出現すると決定するステップをさらに含む、請求項13に記載の方法。
  15. 音声認識システムにおいて単語の負例を使用するための方法であって、
    a.単語のセットを定義するステップと、
    b.単語の前記セットによる第1のキーワード認識を実行するステップと、
    c.単語の前記セット内の単語の信頼値を決定するステップと、
    d.単語の前記セットから、単語の前記セット内の単語の前記信頼値は第1の基準を満たす、少なくとも1つの候補単語を識別するステップと、
    e.前記少なくとも1つの候補単語の負例のセットを選択するステップと、
    f.負例の前記セットによる第2のキーワード認識を実行するステップと、
    g.負例の前記セット内の単語の信頼値を決定するステップと、
    h.前記少なくとも1つの候補単語の前記信頼値を、負例の前記セット内の少なくとも1つの単語の前記信頼値と比較するステップと、
    i.前記比較が第2の基準を満たす場合に、前記少なくとも1つの候補単語を一致として受け入れるステップと
    を含む、方法。
  16. ステップ(a)は、
    a.1)録音された会話をシステム発生源から収集するステップと、
    a.2)前記会話を検索可能データベースとして保存するステップと、
    a.3)検索可能データベースとして保存された前記会話内の識別のためのキーワードの数を決定するステップと、
    a.4)検索可能データベースとして保存された前記会話内の前記キーワードについて検索するステップと、
    a.5)検索可能データベースとして保存された前記会話内でキーワードを識別するステップと、
    a.6)前記識別されたキーワードを調査するステップと、
    a.7)キーワードの負例を検出するステップと、
    a.8)キーワードの前記負例を識別するステップと
    をさらに含む、請求項15に記載の方法。
  17. ステップ(a.5)は、
    a.5.1)前記会話内に存在するキーワードにタグ付けするステップをさらに含む、請求項16に記載の方法。
  18. a.5.1.1)前記キーワードの誤検出の前記保存された会話内に発生するパターンを識別するステップをさらに含む、請求項17に記載の方法。
  19. a.5.1.1.1)前記システムの混同を書き留めるステップをさらに含む、請求項18に記載の方法。
  20. ステップ(a)は、
    a.1)単語の大きい語彙を選択するステップと、
    a.2)キーワードの数を定義するステップと、
    a.3)前記キーワードの間の距離メトリックを決定するステップと、
    a.4)指定されたキーワードを単語の前記語彙と比較するステップと、
    a.5)少なくとも1つの識別される分野特有の単語に最も近い少なくとも1つの混同しやすい単語を単語の前記語彙から選択するステップと
    をさらに含む、請求項15に記載の方法。
  21. ステップ(a.1)は、
    a.1.1)単語の前記語彙を特定の分野に対象とするステップをさらに含む、請求項20に記載の方法。
  22. ステップ(a.4)は、
    a.4.1)音素距離測定を実行するステップをさらに含む、請求項20に記載の方法。
  23. ステップ(a.4)は、
    a.4.1)文法経路分析を実行するステップをさらに含む、請求項20に記載の方法。
  24. ステップ(a.3)は、
    a.3.1)類似した発音を有する単語について、所与の言語における単語−発音辞書全体を検索するステップをさらに含む、請求項20に記載の方法。
  25. ステップ(e)は、
    e.1)キーワードの負例を手作業で入力するステップをさらに含む、請求項15に記載の方法。
  26. ステップ(a)は、
    a.1)音声データを入力するステップと、
    a.2)検索を実行するステップと、
    a.3)キーワードおよび前記キーワードの少なくとも1つの負例の信頼値を計算するステップと、
    a.4)前記キーワードの最良の負例を決定するステップと、
    a.5)信頼値が基準を満たすか否かを判定するステップと、
    a.6)前記信頼値が基準を満たす場合、前記キーワードを拒絶するステップと
    をさらに含む、請求項15に記載の方法。
  27. ステップ(a.5)は、
    a.5.1)前記キーワードの前記信頼値が基準を満たすか否かを判定するステップと、
    a.5.2)前記キーワードの前記最良の負例の前記信頼値が基準を満たすか否かを判定するステップと、
    a.5.3)前記キーワードの負例との重なりの前記信頼値が基準を満たすか否かを判定するステップと
    をさらに含む、請求項26に記載の方法。
  28. ステップ(a.5.3)は、
    a.5.3.1)前記キーワードの負例の時間的な所定の百分率による前記重なりがオーディオストリームに出現すると決定するステップをさらに含む、請求項27に記載の方法。
  29. ステップ(i)は、
    i.1)前記受け入れを実行するステップであって、前記第2の基準は、前記候補単語の認識の、負例の前記セット内の前記単語の認識に対する時間的近似性を含む、実行するステップをさらに含む、請求項15に記載の方法。
  30. キーワードの負例を識別するためのシステムであって、
    a.オーディオストリーム内のキーワードを検出するための手段と、
    b.オーディオストリーム内の前記キーワードの負例を検出するための手段と、
    c.前記検出されたキーワードと、前記キーワードの検出された負例とからの情報を組み合わせるための手段と、
    d.検出された単語がキーワードの負例であるか否かを判定するための手段と
    を備える、システム。
JP2015509160A 2012-04-27 2013-04-26 音声認識に対する負例(アンチワード)に基づく性能改善 Pending JP2015520410A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261639242P 2012-04-27 2012-04-27
US61/639,242 2012-04-27
PCT/US2013/038319 WO2013163494A1 (en) 2012-04-27 2013-04-26 Negative example (anti-word) based performance improvement for speech recognition

Publications (1)

Publication Number Publication Date
JP2015520410A true JP2015520410A (ja) 2015-07-16

Family

ID=49478067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015509160A Pending JP2015520410A (ja) 2012-04-27 2013-04-26 音声認識に対する負例(アンチワード)に基づく性能改善

Country Status (9)

Country Link
US (1) US20130289987A1 (ja)
EP (1) EP2842124A4 (ja)
JP (1) JP2015520410A (ja)
AU (1) AU2013251457A1 (ja)
BR (1) BR112014026148A2 (ja)
CA (1) CA2869530A1 (ja)
CL (1) CL2014002859A1 (ja)
NZ (1) NZ700273A (ja)
WO (1) WO2013163494A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022545557A (ja) * 2019-08-29 2022-10-27 株式会社ソニー・インタラクティブエンタテインメント キーワード適合を伴うカスタマイズ可能なキーワードスポッティングシステム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544140A (zh) * 2012-07-12 2014-01-29 国际商业机器公司 一种数据处理方法、展示方法和相应的装置
JP6451171B2 (ja) * 2014-09-22 2019-01-16 富士通株式会社 音声認識装置、音声認識方法、及び、プログラム
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
JP6731581B2 (ja) * 2015-03-27 2020-07-29 パナソニックIpマネジメント株式会社 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
US20170337923A1 (en) * 2016-05-19 2017-11-23 Julia Komissarchik System and methods for creating robust voice-based user interface
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10872599B1 (en) * 2018-06-28 2020-12-22 Amazon Technologies, Inc. Wakeword training
US11107475B2 (en) * 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response
US11308273B2 (en) * 2019-05-14 2022-04-19 International Business Machines Corporation Prescan device activation prevention
US11232786B2 (en) * 2019-11-27 2022-01-25 Disney Enterprises, Inc. System and method to improve performance of a speech recognition system by measuring amount of confusion between words

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06118990A (ja) * 1992-10-02 1994-04-28 Nippon Telegr & Teleph Corp <Ntt> ワードスポッティング音声認識装置
JPH06289893A (ja) * 1993-02-02 1994-10-18 Sony Corp 音声認識装置
JPH09106297A (ja) * 1995-10-12 1997-04-22 Nec Corp 音声認識装置
JP2005092310A (ja) * 2003-09-12 2005-04-07 Kddi Corp 音声キーワード認識装置
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2008129263A (ja) * 2006-11-20 2008-06-05 Fujitsu Ltd 音声認識装置、音声認識方法、および、音声認識プログラム
WO2008150003A1 (ja) * 2007-06-06 2008-12-11 Nec Corporation キーワード抽出モデル学習システム、方法およびプログラム
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
JP2010020102A (ja) * 2008-07-10 2010-01-28 Fujitsu Ltd 音声認識装置、音声認識方法及びコンピュータプログラム
US20100082343A1 (en) * 2008-09-29 2010-04-01 Microsoft Corporation Sequential speech recognition with two unequal asr systems

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US6026410A (en) * 1997-02-10 2000-02-15 Actioneer, Inc. Information organization and collaboration tool for processing notes and action requests in computer systems
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
US6195634B1 (en) * 1997-12-24 2001-02-27 Nortel Networks Corporation Selection of decoys for non-vocabulary utterances rejection
US6473735B1 (en) * 1999-10-21 2002-10-29 Sony Corporation System and method for speech verification using a confidence measure
JP2001154685A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US6988063B2 (en) * 2002-02-12 2006-01-17 Sunflare Co., Ltd. System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model
US7092883B1 (en) * 2002-03-29 2006-08-15 At&T Generating confidence scores from word lattices
US7191129B2 (en) * 2002-10-23 2007-03-13 International Business Machines Corporation System and method for data mining of contextual conversations
JP4714694B2 (ja) * 2003-11-05 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声−テキストトランスクリプションシステムの誤り検出
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7634409B2 (en) * 2005-08-31 2009-12-15 Voicebox Technologies, Inc. Dynamic speech sharpening
US20070088436A1 (en) * 2005-09-29 2007-04-19 Matthew Parsons Methods and devices for stenting or tamping a fractured vertebral body
KR100679051B1 (ko) * 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
US8401842B1 (en) * 2008-03-11 2013-03-19 Emc Corporation Phrase matching for document classification
US8548812B2 (en) * 2008-12-22 2013-10-01 Avaya Inc. Method and system for detecting a relevant utterance in a voice session
US8423363B2 (en) * 2009-01-13 2013-04-16 CRIM (Centre de Recherche Informatique de Montréal) Identifying keyword occurrences in audio data
US8700665B2 (en) * 2009-04-27 2014-04-15 Avaya Inc. Intelligent conference call information agents
US8619965B1 (en) * 2010-05-07 2013-12-31 Abraham & Son On-hold processing for telephonic systems
DE102010040553A1 (de) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Spracherkennungsverfahren
US9213978B2 (en) * 2010-09-30 2015-12-15 At&T Intellectual Property I, L.P. System and method for speech trend analytics with objective function and feature constraints
US20130110511A1 (en) * 2011-10-31 2013-05-02 Telcordia Technologies, Inc. System, Method and Program for Customized Voice Communication
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06118990A (ja) * 1992-10-02 1994-04-28 Nippon Telegr & Teleph Corp <Ntt> ワードスポッティング音声認識装置
JPH06289893A (ja) * 1993-02-02 1994-10-18 Sony Corp 音声認識装置
JPH09106297A (ja) * 1995-10-12 1997-04-22 Nec Corp 音声認識装置
JP2005092310A (ja) * 2003-09-12 2005-04-07 Kddi Corp 音声キーワード認識装置
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2008129263A (ja) * 2006-11-20 2008-06-05 Fujitsu Ltd 音声認識装置、音声認識方法、および、音声認識プログラム
WO2008150003A1 (ja) * 2007-06-06 2008-12-11 Nec Corporation キーワード抽出モデル学習システム、方法およびプログラム
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
JP2010020102A (ja) * 2008-07-10 2010-01-28 Fujitsu Ltd 音声認識装置、音声認識方法及びコンピュータプログラム
US20100082343A1 (en) * 2008-09-29 2010-04-01 Microsoft Corporation Sequential speech recognition with two unequal asr systems

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022545557A (ja) * 2019-08-29 2022-10-27 株式会社ソニー・インタラクティブエンタテインメント キーワード適合を伴うカスタマイズ可能なキーワードスポッティングシステム
JP7288143B2 (ja) 2019-08-29 2023-06-06 株式会社ソニー・インタラクティブエンタテインメント キーワード適合を伴うカスタマイズ可能なキーワードスポッティングシステム

Also Published As

Publication number Publication date
BR112014026148A2 (pt) 2018-05-08
NZ700273A (en) 2016-10-28
CA2869530A1 (en) 2013-10-31
EP2842124A1 (en) 2015-03-04
US20130289987A1 (en) 2013-10-31
WO2013163494A1 (en) 2013-10-31
CL2014002859A1 (es) 2015-05-08
EP2842124A4 (en) 2015-12-30
AU2013251457A1 (en) 2014-10-09

Similar Documents

Publication Publication Date Title
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
JP2015520410A (ja) 音声認識に対する負例(アンチワード)に基づく性能改善
Ferrer et al. Is the speaker done yet? Faster and more accurate end-of-utterance detection using prosody
EP1936606B1 (en) Multi-stage speech recognition
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
JP4221379B2 (ja) 音声特性に基づく電話発信者の自動識別
US6985861B2 (en) Systems and methods for combining subword recognition and whole word recognition of a spoken input
US20200118564A1 (en) Contextual voice user interface
EP1800293B1 (en) Spoken language identification system and methods for training and operating same
US9361879B2 (en) Word spotting false alarm phrases
US20100223056A1 (en) Various apparatus and methods for a speech recognition system
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
Zhang et al. Improved mandarin keyword spotting using confusion garbage model
JP2011053569A (ja) 音響処理装置およびプログラム
Mary et al. Searching speech databases: features, techniques and evaluation measures
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
Norouzian et al. An approach for efficient open vocabulary spoken term detection
Nouza et al. Fast keyword spotting in telephone speech
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
Smídl et al. Comparison of keyword spotting methods for searching in speech
Norouzian et al. Facilitating open vocabulary spoken term detection using a multiple pass hybrid search algorithm
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법
Zacharie et al. Keyword spotting on word lattices
Knill et al. Low-cost implementation of open set keyword spotting
ŠMÍDL et al. Improving a Keyword Spotting System Using Phoneme Sequence Generated by a Filler Model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170131

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170420

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171010