JP2012063611A - 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム - Google Patents
音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム Download PDFInfo
- Publication number
- JP2012063611A JP2012063611A JP2010208220A JP2010208220A JP2012063611A JP 2012063611 A JP2012063611 A JP 2012063611A JP 2010208220 A JP2010208220 A JP 2010208220A JP 2010208220 A JP2010208220 A JP 2010208220A JP 2012063611 A JP2012063611 A JP 2012063611A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition
- score
- speech
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる音声認識結果検索装置を提供する。
【解決手段】 音声認識結果検索装置は、入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段とを備える。
【選択図】 図1
【解決手段】 音声認識結果検索装置は、入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段とを備える。
【選択図】 図1
Description
本発明は、音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラムに関する。
近年、音声認識に関する技術が進んでいる。例えば、入力された音声の音声認識を行い、その音声認識結果に所定のキーワードが含まれるかどうかを判定する音声認識結果検索システムが開発されている。
このような音声認識結果検索システムは、音声認識辞書を参照しながら音声認識を行う。音声認識辞書の単語単位と検索したいキーワードの単語単位とが異なる場合、該キーワードが正しく検出されない場合が生じるという問題がある。
特許文献1は、上記問題を解決する音声認識結果検索システムの一例を開示する。この音声認識結果検索システムは、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを判定できる。
具体的には、上記音声認識結果検索システムは、音声認識辞書にない単語を扱うための連続音節モデルを組み込んだ言語モデルを用いて音声認識を行う。音声認識結果検索システムは、音声認識結果中の連続音節モデルが適用された部分を、音声認識辞書にない未知語部分とみなし、その部分が所定のキーワードと音韻的に近い場合にそのキーワードが音声認識結果に含まれているとみなす。
上述したように、特許文献1に記載される音声認識結果検索システムは、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合に対処するため、音声認識処理において音声認識辞書に含まれない単語を扱うための未知語処理(連続音節モデル)を組み込んでいる。しかしながら、このような音声認識結果検索システムにおいて、音声認識結果中のキーワードの検索の性能は低いという課題がある。
その理由は、連続音節モデルによる未知語部分の判定精度は一般に低く、また未知語の音韻列の認識精度も一般に低いためである。
また、キーワードの単語単位と音声認識辞書の単語単位は、互いに常に異なるとは限らず、一部重複する場合も多い。例えば、所定のキーワードの一部分が音声認識辞書に含まれていたり、逆に音声認識辞書に登録される単語の一部分が所定のキーワードに含まれていたりすることも多い。上記音声認識結果検索システムは、キーワードの単語単位と音声認識辞書の単語単位とが異なる場合に対処しているとはいえ、そのような、連続単語音声認識結果の情報を十分に活用できていないという課題がある。
本願発明は、上記課題を鑑みてなされたものであり、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラムを提供することを主要な目的とする。
本発明に係る音声認識結果検索装置は、入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段とを備える。
本発明に係る音声認識結果検索方法は、入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算し、前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出し、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定することを備える。
なお同目的は、上記の各構成を有する音声認識結果検索装置、並びに対応する方法を、コンピュータによって実現するコンピュータ・プログラム、およびそのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な記憶媒体によっても達成される。
本発明によれば、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる効果が得られる。
第1の実施形態
次に、本発明の実施形態について図面を参照して詳細に説明する。
次に、本発明の実施形態について図面を参照して詳細に説明する。
図1は、本発明の第1の実施形態に係る音声認識結果検索装置10の構成を示すブロック図である。図1に示すように、音声認識結果検索装置10は、音声認識スコア再計算部11、キーワード探索部12および距離計算部13を備える。
図1の音声認識結果検索装置10は、コンピュータにより実現した場合、図2に示すハードウエア構成を有する。図2に示す構成は、CPU(Central Processing Unit)40、メモリ等の記憶媒体41および記憶媒体41に含まれるプログラム42を備える。音声認識結果検索装置10のCPU40は、各種ソフトウエア・プログラム(コンピュータ・プログラム)を実行することにより、音声認識結果検索装置10の全体的な動作を司る。本実施形態および以下に示す他の実施形態において、CPU40が、メモリ等の記憶媒体41を適宜参照しながら、以下に示す音声認識結果検索装置10が備える各機能(各部)のソフトウエア・プログラムを実行する。
より具体的には、CPU40は、メモリ等の記憶媒体41を適宜参照しながら、音声認識結果検索装置10が備える音声認識スコア再計算部11、キーワード探索部12および距離計算部13のソフトウエア・プログラムを実行する。
音声認識結果検索装置10は、入力された音声認識結果に、所定のキーワードが含まれるか否かを判定する装置である。音声認識結果検索装置10の各部は、概略以下のように動作する(詳細は後述する)。すなわち、音声認識スコア再計算部11は、入力された音声認識結果に含まれる認識候補および各認識候補に付与された音声認識スコアを、所定の特徴に基づいて再計算する。キーワード探索部12は、音声認識スコア再計算部11の計算結果と、距離計算部13の計算結果とに基づいて、音声認識結果に所定のキーワードが含まれているか否かを判定する。距離計算部13は、所定のキーワードと音声認識結果との距離を計算する。
次に、上記各部の詳細について説明する。
まず、音声認識スコア再計算部11の動作について説明する。音声認識スコア再計算部11は、入力した音声の認識結果である音声認識結果を音声認識装置20から取得する。音声認識装置20は、音声認識辞書の単語単位に基づいて音声認識を実施する。音声認識結果には、入力音声に対する認識処理の結果の候補である認識候補と、各認識候補に付与された音声認識スコアとが含まれる。音声認識スコア再計算部11は、取得した音声認識結果に含まれる認識候補に付与された音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する。ここで、特徴とは、認識候補を構成する文字列の文字数や読み方等から得られる文字情報である。
図3は、音声認識スコア再計算部11が取得する音声認識結果を示す図である。ここでは、「人工知能学会」と発声された場合の音声認識結果を示す。このような音声認識結果を取得する技術は、例えば特許文献2に記載されるので、その詳細な説明は省略する。
音声認識結果には、入力音声の認識結果の候補である1または複数の認識候補が含まれる。ここでは、「人工」、「知能」、「学会」という音声認識辞書の単語単位で、それぞれの認識候補が挙げられている。例えば、「学会」の候補として、「学科(がっか)」、「各界(かっかい)」、「がっかり(がっかり)」、「高い(たかい)」、「合体(がったい)」および「画家(がか)」が、挙げられたとする。
各認識候補には、それぞれ音声認識スコアが付与される。音声認識スコアとは、入力音声と類似する度合いを示す値である。図3では、上述した認識候補に、それぞれ「0.3」、「0.2」、「0.2」、「0.1」、「0.1」、「0.1」という音声認識スコアが付与されたとする。音声認識スコアの高い順に、1位候補、2位候補、・・・下位候補が音声認識結果に含まれるとする。
音声認識スコア再計算部11は、取得した音声認識結果に含まれる認識候補に付与された音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する。具体的には、例えば、最も高い音声認識スコアが付与された認識候補、すなわち1位候補に付与された音声認識スコアに、その1位候補の文字列と共通(同一)の特徴を有する他の認識候補の音声認識スコアの総和を加えたものを、1位候補の音声認識スコアとする。
ここでは、所定の特徴として、例えば「音節数」を用いることを説明する。ここで、促音「っ」は、1音節と数えることとする。
音声認識スコア再計算部11は、1位候補の音節数と音節数が等しい他の認識候補に付与された音声認識スコアの総和を、1位候補の音声認識スコアに加える。ここで、1位候補「学科」の音節数は「3」である。したがって、同じ音節数を持つ他の認識候補「高い」の音声認識スコア「0.1」を、「学科」の音声認識スコア「0.3」に加える。この結果、「学科」の音声認識スコアは「0.4」と再計算される。
音声認識スコア再計算部11はまた、1位候補の音声認識スコアの再計算だけでなく、1位候補と上記特徴の異なる最上位の認識候補の音声認識スコアの再計算を行ってもよい。例えば、2位候補「各界」の音節数は4である。これと同じ音節数を持つ他の認識候補「がっかり」、「合体」の、各音声認識スコア「0.2」、「0.1」の総和を、「各界」の音声認識スコアに加える。この結果、「各界」の音声認識スコアは「0.5」と再計算される。
なお、所定の特徴としては、上述の音節数に限定されず、表記、読み、母音、子音、読み前方一致、読み後方一致およびそれらの組み合わせ等を用いることができる。
このように、音声認識スコアが再計算されることにより、音声認識結果に含まれる各認識候補に対して上記特徴の度合いをより強く反映することができる。すなわち、ここでは正しい認識結果である「がっかい」と同一の音節数を持つ「かっかい」の音声認識スコア(0.5)を、誤りの認識結果である「がっか」の音声認識スコア(0.4)よりも、高くできる。このように、入力音声に近い認識候補の音声認識スコアをより高くできる。したがって、より正確な音声認識スコアを用いて音声認識結果に所定のキーワードが含まれるか否かを後述のように判定するので、音声認識結果検索装置10は、精度よくその判定ができる。
次に、距離計算部13の動作について説明する。
距離計算部13は、入力音声と音声認識結果との類似度を示す距離を計算する。距離計算部13は、距離の計算にあたり、confusion matrix等に基づく音韻類似度と、上述した音声認識スコア再計算部11により再計算された音声認識スコアとを用いる。
confusion matrixとは、どの音韻を、どの音韻に、どの程度誤るかを、例えば実験結果から推定することにより表した行列である。例えば、音韻「あいうえお」を用いて説明する。「あ」と発声したときに、実験の結果、認識結果が、「あ」が5回、「い」が0回、「う」が2回、「え」が1回、「お」が2回、となったとする。この場合、「あ」という音韻を、「あ」に「0.5」、「い」に「0」、「う」に「0.2」、「え」に「0.1」、「お」に「0.2」の各程度に、認識すると推測される。同様に、「い」と発声したときに、実験の結果、「あ」が1回、「い」が7回、「う」が0回、「え」が2回、「お」が0回、となったとする。この場合、「い」という音韻を、「あ」に「0.1」、「い」に「0.7」、「う」に「0.0」、「え」に「0.2」、「お」に「0.0」の各程度に、認識すると推測される。このような推測値を、全音韻と認識結果との間の関係値として算出したものが、confusion matrixと呼ばれる行列である。
ここで、confusion matrixにおいて、音韻と認識結果の間の関係値が大きい場合、そのペア(音韻と認識結果)は、類似度が高いと考えられる。したがって、confusion matrixにおける音韻と認識結果との間の関係値を、「音韻類似度」として用いることができる。
距離計算部13は、以下の式により、2つの文字列間の距離を計算する。
距離=w1×(音韻類似度を考慮した編集距離)+
w2×(1÷音声認識スコア)・・・(式1)
ここで、編集距離とは、2つの文字列がどの程度異なっているかを示す値である。具体的には、文字の挿入、削除または置換によって、ある文字列を別の文字列に変形するのに必要な手順の最小回数を編集距離という。挿入・削除・置換の各回数を、それぞれ挿入コスト、削除コスト、置換コストと呼ぶ。編集距離は、ある文字列をある文字列に変換する際に必要とされる各コストの総和の最小値である。
w2×(1÷音声認識スコア)・・・(式1)
ここで、編集距離とは、2つの文字列がどの程度異なっているかを示す値である。具体的には、文字の挿入、削除または置換によって、ある文字列を別の文字列に変形するのに必要な手順の最小回数を編集距離という。挿入・削除・置換の各回数を、それぞれ挿入コスト、削除コスト、置換コストと呼ぶ。編集距離は、ある文字列をある文字列に変換する際に必要とされる各コストの総和の最小値である。
「音韻類似度を考慮した編集距離」とは、例えば、上記コストのうち「置換コスト」に上述した「音韻類似度」を考慮した値を用いて算出した編集距離をいう。例えば、「置換コスト」に「音韻類似度」に反比例する値を用いて算出した編集距離を、「音韻類似度を考慮した編集距離」としてもよい。
なお、w1およびw2はスカラー量であり、「音韻類似度を考慮した編集距離」と「1÷(音声認識スコア)」とを足し合わせる際の重み係数である。
距離計算部13は、上記式1により、所定のキーワードの部分文字列と認識候補との距離を計算する。所定のキーワードの部分文字列とは、キーワード探索部12により抽出される部分文字列である(詳細は後述する)。
次に、キーワード探索部12の動作について説明する。
キーワード探索部12は、キーワード入力装置30から取得した所定のキーワードが、音声認識結果に含まれるか否かを判定する。キーワード探索部12は、まず、キーワードを取得すると、該キーワードから部分文字列を抽出する。このとき、キーワード探索部12は、音声認識装置20が用いた音声認識辞書の単語単位で部分文字列を抽出する。
キーワード探索部12は、抽出した部分文字列を距離計算部13に通知する。距離計算部13は、取得した部分文字列について、その部分文字列と各認識候補との各距離を上述のように式1を用いて算出する。距離計算部13は、算出した各距離をキーワード探索部12に通知する。
キーワード探索部12は、距離計算部13により計算された距離に基づいて、部分文字列が音声認識結果に含まれるか否かを判定する。すなわち、キーワード探索部12は、距離計算部13から取得した距離と、所定の閾値とを比較し、該距離が所定の閾値よりも小さい場合、その部分文字列は音声認識結果に含まれると判断する。キーワード探索部12は、キーワードに含まれる複数の部分文字列に対し繰り返しこの処理を行い、最終的に、音声認識結果の認識候補に対する距離が所定の閾値よりも小さい部分文字列で、時間順を保って、過不足なく元のキーワードをカバーする場合、そのキーワードは音声認識結果に含まれると判断する。
図4は、音声認識結果検索装置10の動作を示すフローチャートである。図4を参照して、音声認識結果検索装置10の動作について説明する。
音声認識スコア再計算部11はまず、音声認識結果を取得する(ステップST101)。続いて、音声認識スコア再計算部11は、取得した音声認識結果に含まれる音声認識スコアを、所定の特徴に基づいて再計算する(ステップST102)。上述したように、音声認識スコア再計算部11は、例えば所定の特徴として音節数を用い、最上位の認識候補と音節数が等しい他の認識候補に付与された音声認識スコアの総和を、最上位の認識候補の音声認識スコアに加える。
続いて、キーワード探索部12は、以下のようにキーワードの探索を行う。すなわち、キーワード探索部12はまず、キーワードを取得し(ステップST103)、続いて、キーワードの部分文字列を抽出する(ステップST104)。部分文字列とは、キーワードのうち音声認識辞書の単位単語の文字列である。ここで、例えばキーワードが「人工知能」であるとすると、キーワード探索部12は、部分文字列として、まず「人工」を抽出する。なお、このキーワードは、音声認識辞書の単語単位と異なる単語単位の文字列である。
続いて、距離計算部13は、キーワードの部分文字列と音声認識結果に含まれる各候補との距離を算出する(ステップST105)。距離計算部13は、上述したように再計算した音声認識スコアを用いて、上記式1により、キーワードの部分文字列と音声認識結果に含まれる各認識候補との距離を算出する。式1で用いられる音声認識スコアには、ステップST102において音声認識スコア再計算部11により再計算された値を用いる。ここでは、キーワードの部分文字列「人工」に対し、全ての音声認識結果の認識候補の文字列との距離を計算する。全ての音声認識結果の認識候補でなく、前記所定の特徴に基づく最上位の認識候補とのみ距離を計算してもよい。
続いて、キーワード探索部12は、上記算出された距離に基づいて、上記キーワードの部分文字列が音声認識結果に含まれるか否かを調べる(ステップST106)。このとき、キーワード探索部12は、上記算出された距離のうち、部分文字列と同一の認識候補の距離が、所定の閾値よりも小さい場合、その部分文字列は、音声認識結果に含まれると判断する(ステップST107)。キーワード探索部12は、キーワードのすべての部分文字列について同様の判断が終了していない場合は、ステップST104に戻り、キーワードの残りの部分について同様の処理を行う(ステップST108)。
キーワード探索部12は、キーワードの残りの部分について同様の処理を行い、キーワードのすべての部分文字列について、該部分文字列と同一の認識候補の距離が所定の閾値よりも小さい場合、キーワード探索部12は、キーワードは音声認識結果に含まれると判定する(ステップST109)。
一方、ステップST105において算出された、部分文字列と同一の認識候補の距離が、所定の閾値以上の場合、キーワード探索部12は、キーワードは音声認識結果に含まれないと判定する(ステップST110)。
なお、キーワード探索部12は、抽出されたキーワードの部分文字列と同一の認識候補がない場合、キーワードは音声認識結果に含まれないと判定してもよい。また、キーワード探索部12は、所定の閾値に基づいてキーワードが音声認識結果に含まれるか否かだけでなく、キーワードが含まれる度合いを算出してもよい。
以上のように、本第1の実施形態によれば、音声認識スコア再計算部11は、取得した音声認識結果に含まれる認識候補に付与された音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する。距離計算13は、再計算された音声認識スコアに基づいて、認識候補と所定のキーワードの部分文字列との距離を算出する。キーワード探索部12は、算出された距離に基づいて、キーワードが音声認識結果に含まれるか否かを判定する。上記構成により、本第1の実施形態によれば、キーワードの部分文字列ごとに再計算された音声認識スコアを用いて該部分文字列が音声認識結果に含まれるか否かを判定することができる。よって、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる効果が得られる。
第2の実施形態
図5は、本発明の第2の実施形態に係る音声認識結果検索装置50の構成を示すブロック図である。図5に示すように、音声認識結果検索装置50は、音声認識スコア再計算部51、距離計算部52およびキーワード探索部53を備える。
図5は、本発明の第2の実施形態に係る音声認識結果検索装置50の構成を示すブロック図である。図5に示すように、音声認識結果検索装置50は、音声認識スコア再計算部51、距離計算部52およびキーワード探索部53を備える。
音声認識スコア再計算部51は、入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、それら各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する。
距離計算部52は、再計算された音声認識スコアに基づいて、所定のキーワードと音声認識結果との距離を算出する。キーワード探索部53は、算出された距離に基づいて、所定のキーワードが音声認識結果に含まれるか否かを判定する。
以上のように、本第2の実施形態によれば、上記構成を有するので、キーワードの部分文字列ごとに再計算された音声認識スコアを用いて該部分文字列が音声認識結果に含まれるか否かを判定することができる。よって、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる効果が得られる。
本発明は、例えばテキスト入力をインタフェースとして音声メディアを検索する情報検索装置に適用できる。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段と
を備えた音声認識結果検索装置。
(付記2)
前記音声認識スコア再計算手段は、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する付記1記載の音声認識結果検索装置。
(付記3)
前記音声認識スコア再計算手段は、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する付記2記載の音声認識結果検索装置。
(付記4)
前記距離計算手段は、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出する付記1ないし付記3のいずれか1項記載の音声認識結果検索装置。
(付記5)
前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出する付記4記載の音声認識結果検索装置。
(付記6)
前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とする付記5記載の音声認識結果検索装置。
(付記7)
前記キーワード探索手段は、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出する付記1ないし付記6のいずれか1項記載の音声認識結果検索装置。
(付記8)
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算し、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出し、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定すること
を備えた音声認識結果検索方法。
(付記9)
前記音声認識スコアを再計算するに際して、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることを含む付記8記載の音声認識結果検索方法。
(付記10)
前記音声認識スコアを再計算するに際して、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることを含む付記9記載の音声認識結果検索方法。
(付記11)
前記距離の算出に際して、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出することを含む付記8ないし付記10のいずれか1項記載の音声認識結果検索方法。
(付記12)
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出することを含む付記11記載の音声認識結果検索方法。
(付記13)
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とすることを含む付記12記載の音声認識結果検索方法。
(付記14)
前記所定のキーワードが前記音声認識結果に含まれるか否かの判定に際して、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出することを含む付記8ないし付記13のいずれか1項記載の音声認識結果検索方法。
(付記15)
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する処理と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する処理と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定する処理とを
コンピュータに実行させる音声認識結果検索プログラム。
(付記16)
前記音声認識スコアを再計算するに際して、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加える処理をコンピュータに実行させる付記15記載の音声認識結果検索プログラム。
(付記17)
前記音声認識スコアを再計算するに際して、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加える処理をコンピュータに実行させる付記16記載の音声認識結果検索プログラム。
(付記18)
前記距離の算出に際して、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出する処理をコンピュータに実行させる付記15ないし付記17のいずれか1項記載の音声認識結果検索プログラム。
(付記19)
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出する処理をコンピュータに実行させる付記18記載の音声認識結果検索プログラム。
(付記20)
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とする処理をコンピュータに実行させる付記19記載の音声認識結果検索プログラム。
(付記21)
前記所定のキーワードが前記音声認識結果に含まれるか否かの判定に際して、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出する処理をコンピュータに実行させる付記15ないし付記20のいずれか1項記載の音声認識結果検索プログラム。
(付記1)
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段と
を備えた音声認識結果検索装置。
(付記2)
前記音声認識スコア再計算手段は、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する付記1記載の音声認識結果検索装置。
(付記3)
前記音声認識スコア再計算手段は、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する付記2記載の音声認識結果検索装置。
(付記4)
前記距離計算手段は、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出する付記1ないし付記3のいずれか1項記載の音声認識結果検索装置。
(付記5)
前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出する付記4記載の音声認識結果検索装置。
(付記6)
前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とする付記5記載の音声認識結果検索装置。
(付記7)
前記キーワード探索手段は、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出する付記1ないし付記6のいずれか1項記載の音声認識結果検索装置。
(付記8)
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算し、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出し、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定すること
を備えた音声認識結果検索方法。
(付記9)
前記音声認識スコアを再計算するに際して、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることを含む付記8記載の音声認識結果検索方法。
(付記10)
前記音声認識スコアを再計算するに際して、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることを含む付記9記載の音声認識結果検索方法。
(付記11)
前記距離の算出に際して、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出することを含む付記8ないし付記10のいずれか1項記載の音声認識結果検索方法。
(付記12)
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出することを含む付記11記載の音声認識結果検索方法。
(付記13)
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とすることを含む付記12記載の音声認識結果検索方法。
(付記14)
前記所定のキーワードが前記音声認識結果に含まれるか否かの判定に際して、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出することを含む付記8ないし付記13のいずれか1項記載の音声認識結果検索方法。
(付記15)
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する処理と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する処理と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定する処理とを
コンピュータに実行させる音声認識結果検索プログラム。
(付記16)
前記音声認識スコアを再計算するに際して、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加える処理をコンピュータに実行させる付記15記載の音声認識結果検索プログラム。
(付記17)
前記音声認識スコアを再計算するに際して、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加える処理をコンピュータに実行させる付記16記載の音声認識結果検索プログラム。
(付記18)
前記距離の算出に際して、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出する処理をコンピュータに実行させる付記15ないし付記17のいずれか1項記載の音声認識結果検索プログラム。
(付記19)
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出する処理をコンピュータに実行させる付記18記載の音声認識結果検索プログラム。
(付記20)
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とする処理をコンピュータに実行させる付記19記載の音声認識結果検索プログラム。
(付記21)
前記所定のキーワードが前記音声認識結果に含まれるか否かの判定に際して、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出する処理をコンピュータに実行させる付記15ないし付記20のいずれか1項記載の音声認識結果検索プログラム。
10 音声認識結果検索装置
11 音声認識スコア再計算部
12 キーワード探索部
13 距離計算部
20 音声認識装置
30 キーワード入力装置
11 音声認識スコア再計算部
12 キーワード探索部
13 距離計算部
20 音声認識装置
30 キーワード入力装置
Claims (10)
- 入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段と
を備えた音声認識結果検索装置。 - 前記音声認識スコア再計算手段は、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する請求項1記載の音声認識結果検索装置。
- 前記音声認識スコア再計算手段は、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する請求項2記載の音声認識結果検索装置。
- 前記距離計算手段は、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出する請求項1ないし請求項3のいずれか1項記載の音声認識結果検索装置。
- 前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出する請求項4記載の音声認識結果検索装置。
- 前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とする請求項5記載の音声認識結果検索装置。
- 前記キーワード探索手段は、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出する請求項1ないし請求項6のいずれか1項記載の音声認識結果検索装置。
- 入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算し、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出し、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定すること
を備えた音声認識結果検索方法。 - 前記音声認識スコアを再計算するに際して、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることを含む請求項8記載の音声認識結果検索方法。
- 入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する処理と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する処理と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定する処理とを
コンピュータに実行させる音声認識結果検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010208220A JP2012063611A (ja) | 2010-09-16 | 2010-09-16 | 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010208220A JP2012063611A (ja) | 2010-09-16 | 2010-09-16 | 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012063611A true JP2012063611A (ja) | 2012-03-29 |
Family
ID=46059378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010208220A Withdrawn JP2012063611A (ja) | 2010-09-16 | 2010-09-16 | 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012063611A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015206906A (ja) * | 2014-04-21 | 2015-11-19 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
JP6033927B1 (ja) * | 2015-06-24 | 2016-11-30 | ヤマハ株式会社 | 情報提供システムおよび情報提供方法 |
WO2017065266A1 (ja) * | 2015-10-15 | 2017-04-20 | ヤマハ株式会社 | 情報管理システムおよび情報管理方法 |
CN111210172A (zh) * | 2020-04-21 | 2020-05-29 | 成都派沃特科技股份有限公司 | 派遣警员的方法、装置、设备及存储介质 |
CN113395580A (zh) * | 2020-10-08 | 2021-09-14 | 刘风华 | 一种基于视频通信的音视频同步方法 |
-
2010
- 2010-09-16 JP JP2010208220A patent/JP2012063611A/ja not_active Withdrawn
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015206906A (ja) * | 2014-04-21 | 2015-11-19 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
JP6033927B1 (ja) * | 2015-06-24 | 2016-11-30 | ヤマハ株式会社 | 情報提供システムおよび情報提供方法 |
WO2016208366A1 (ja) * | 2015-06-24 | 2016-12-29 | ヤマハ株式会社 | 情報提供システム、情報提供方法、およびコンピュータ読み取り可能な記録媒体 |
US10621997B2 (en) | 2015-06-24 | 2020-04-14 | Yamaha Corporation | Information providing system, information providing method, and computer-readable recording medium |
WO2017065266A1 (ja) * | 2015-10-15 | 2017-04-20 | ヤマハ株式会社 | 情報管理システムおよび情報管理方法 |
JP6160794B1 (ja) * | 2015-10-15 | 2017-07-12 | ヤマハ株式会社 | 情報管理システムおよび情報管理方法 |
CN111210172A (zh) * | 2020-04-21 | 2020-05-29 | 成都派沃特科技股份有限公司 | 派遣警员的方法、装置、设备及存储介质 |
CN111210172B (zh) * | 2020-04-21 | 2020-08-21 | 成都派沃特科技股份有限公司 | 派遣警员的装置 |
CN113395580A (zh) * | 2020-10-08 | 2021-09-14 | 刘风华 | 一种基于视频通信的音视频同步方法 |
CN113395579A (zh) * | 2020-10-08 | 2021-09-14 | 刘风华 | 一种音频处理方法及视频通信系统 |
CN113395579B (zh) * | 2020-10-08 | 2022-06-28 | 武汉智能融合通信技术有限公司 | 一种音频处理方法及视频通信系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
US11955119B2 (en) | Speech recognition method and apparatus | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
US8321218B2 (en) | Searching in audio speech | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP2020505650A (ja) | 音声認識システム及び音声認識の方法 | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
JP6541673B2 (ja) | モバイル機器におけるリアルタイム音声評価システム及び方法 | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
JP6762819B2 (ja) | 入力支援装置およびプログラム | |
JP6599219B2 (ja) | 読み付与装置、読み付与方法、およびプログラム | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
JP2012063611A (ja) | 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム | |
JP4738847B2 (ja) | データ検索装置および方法 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Fujimura et al. | Simultaneous speech recognition and acoustic event detection using an LSTM-CTC acoustic model and a WFST decoder | |
JP6577900B2 (ja) | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム | |
JP5590549B2 (ja) | 音声検索装置および音声検索方法 | |
JP5980142B2 (ja) | 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム | |
CN111540363B (zh) | 关键词模型及解码网络构建方法、检测方法及相关设备 | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
JP5755603B2 (ja) | 言語モデル作成装置、言語モデル作成方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20131203 |