JP2012063611A

JP2012063611A - 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム

Info

Publication number: JP2012063611A
Application number: JP2010208220A
Authority: JP
Inventors: Seiichi Miki; 清一三木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-09-16
Filing date: 2010-09-16
Publication date: 2012-03-29

Abstract

【課題】音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる音声認識結果検索装置を提供する。
【解決手段】音声認識結果検索装置は、入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段とを備える。
【選択図】図１

Description

本発明は、音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラムに関する。

近年、音声認識に関する技術が進んでいる。例えば、入力された音声の音声認識を行い、その音声認識結果に所定のキーワードが含まれるかどうかを判定する音声認識結果検索システムが開発されている。

このような音声認識結果検索システムは、音声認識辞書を参照しながら音声認識を行う。音声認識辞書の単語単位と検索したいキーワードの単語単位とが異なる場合、該キーワードが正しく検出されない場合が生じるという問題がある。

特許文献１は、上記問題を解決する音声認識結果検索システムの一例を開示する。この音声認識結果検索システムは、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを判定できる。

具体的には、上記音声認識結果検索システムは、音声認識辞書にない単語を扱うための連続音節モデルを組み込んだ言語モデルを用いて音声認識を行う。音声認識結果検索システムは、音声認識結果中の連続音節モデルが適用された部分を、音声認識辞書にない未知語部分とみなし、その部分が所定のキーワードと音韻的に近い場合にそのキーワードが音声認識結果に含まれているとみなす。

特許第４１１５７２３号公報特許第３３６９１２１号公報

上述したように、特許文献１に記載される音声認識結果検索システムは、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合に対処するため、音声認識処理において音声認識辞書に含まれない単語を扱うための未知語処理（連続音節モデル）を組み込んでいる。しかしながら、このような音声認識結果検索システムにおいて、音声認識結果中のキーワードの検索の性能は低いという課題がある。

その理由は、連続音節モデルによる未知語部分の判定精度は一般に低く、また未知語の音韻列の認識精度も一般に低いためである。

また、キーワードの単語単位と音声認識辞書の単語単位は、互いに常に異なるとは限らず、一部重複する場合も多い。例えば、所定のキーワードの一部分が音声認識辞書に含まれていたり、逆に音声認識辞書に登録される単語の一部分が所定のキーワードに含まれていたりすることも多い。上記音声認識結果検索システムは、キーワードの単語単位と音声認識辞書の単語単位とが異なる場合に対処しているとはいえ、そのような、連続単語音声認識結果の情報を十分に活用できていないという課題がある。

本願発明は、上記課題を鑑みてなされたものであり、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラムを提供することを主要な目的とする。

本発明に係る音声認識結果検索装置は、入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段とを備える。

本発明に係る音声認識結果検索方法は、入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算し、前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出し、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定することを備える。

なお同目的は、上記の各構成を有する音声認識結果検索装置、並びに対応する方法を、コンピュータによって実現するコンピュータ・プログラム、およびそのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な記憶媒体によっても達成される。

本発明によれば、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる効果が得られる。

本発明の第１の実施形態に係る音声認識結果検索装置の構成を示すブロック図である。本発明の第１の実施形態に係る音声認識結果検索装置のハードウエア構成を例示する図である。本発明の第１の実施形態に係る音声認識結果検索装置の音声認識スコア再計算部が取得する音声認識結果を示す図である。本発明の第１の実施形態に係る音声認識結果検索装置の動作を示すフローチャートである。本発明の第２の実施形態に係る音声認識結果検索装置の構成を示すブロック図である。

第１の実施形態
次に、本発明の実施形態について図面を参照して詳細に説明する。

図１は、本発明の第１の実施形態に係る音声認識結果検索装置１０の構成を示すブロック図である。図１に示すように、音声認識結果検索装置１０は、音声認識スコア再計算部１１、キーワード探索部１２および距離計算部１３を備える。

図１の音声認識結果検索装置１０は、コンピュータにより実現した場合、図２に示すハードウエア構成を有する。図２に示す構成は、ＣＰＵ（Central Processing Unit）４０、メモリ等の記憶媒体４１および記憶媒体４１に含まれるプログラム４２を備える。音声認識結果検索装置１０のＣＰＵ４０は、各種ソフトウエア・プログラム（コンピュータ・プログラム）を実行することにより、音声認識結果検索装置１０の全体的な動作を司る。本実施形態および以下に示す他の実施形態において、ＣＰＵ４０が、メモリ等の記憶媒体４１を適宜参照しながら、以下に示す音声認識結果検索装置１０が備える各機能（各部）のソフトウエア・プログラムを実行する。

より具体的には、ＣＰＵ４０は、メモリ等の記憶媒体４１を適宜参照しながら、音声認識結果検索装置１０が備える音声認識スコア再計算部１１、キーワード探索部１２および距離計算部１３のソフトウエア・プログラムを実行する。

音声認識結果検索装置１０は、入力された音声認識結果に、所定のキーワードが含まれるか否かを判定する装置である。音声認識結果検索装置１０の各部は、概略以下のように動作する（詳細は後述する）。すなわち、音声認識スコア再計算部１１は、入力された音声認識結果に含まれる認識候補および各認識候補に付与された音声認識スコアを、所定の特徴に基づいて再計算する。キーワード探索部１２は、音声認識スコア再計算部１１の計算結果と、距離計算部１３の計算結果とに基づいて、音声認識結果に所定のキーワードが含まれているか否かを判定する。距離計算部１３は、所定のキーワードと音声認識結果との距離を計算する。

次に、上記各部の詳細について説明する。

まず、音声認識スコア再計算部１１の動作について説明する。音声認識スコア再計算部１１は、入力した音声の認識結果である音声認識結果を音声認識装置２０から取得する。音声認識装置２０は、音声認識辞書の単語単位に基づいて音声認識を実施する。音声認識結果には、入力音声に対する認識処理の結果の候補である認識候補と、各認識候補に付与された音声認識スコアとが含まれる。音声認識スコア再計算部１１は、取得した音声認識結果に含まれる認識候補に付与された音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する。ここで、特徴とは、認識候補を構成する文字列の文字数や読み方等から得られる文字情報である。

図３は、音声認識スコア再計算部１１が取得する音声認識結果を示す図である。ここでは、「人工知能学会」と発声された場合の音声認識結果を示す。このような音声認識結果を取得する技術は、例えば特許文献２に記載されるので、その詳細な説明は省略する。

音声認識結果には、入力音声の認識結果の候補である１または複数の認識候補が含まれる。ここでは、「人工」、「知能」、「学会」という音声認識辞書の単語単位で、それぞれの認識候補が挙げられている。例えば、「学会」の候補として、「学科（がっか）」、「各界（かっかい）」、「がっかり（がっかり）」、「高い（たかい）」、「合体（がったい）」および「画家（がか）」が、挙げられたとする。

各認識候補には、それぞれ音声認識スコアが付与される。音声認識スコアとは、入力音声と類似する度合いを示す値である。図３では、上述した認識候補に、それぞれ「０．３」、「０．２」、「０．２」、「０．１」、「０．１」、「０．１」という音声認識スコアが付与されたとする。音声認識スコアの高い順に、１位候補、２位候補、・・・下位候補が音声認識結果に含まれるとする。

音声認識スコア再計算部１１は、取得した音声認識結果に含まれる認識候補に付与された音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する。具体的には、例えば、最も高い音声認識スコアが付与された認識候補、すなわち１位候補に付与された音声認識スコアに、その１位候補の文字列と共通（同一）の特徴を有する他の認識候補の音声認識スコアの総和を加えたものを、１位候補の音声認識スコアとする。

ここでは、所定の特徴として、例えば「音節数」を用いることを説明する。ここで、促音「っ」は、１音節と数えることとする。

音声認識スコア再計算部１１は、１位候補の音節数と音節数が等しい他の認識候補に付与された音声認識スコアの総和を、１位候補の音声認識スコアに加える。ここで、１位候補「学科」の音節数は「３」である。したがって、同じ音節数を持つ他の認識候補「高い」の音声認識スコア「０．１」を、「学科」の音声認識スコア「０．３」に加える。この結果、「学科」の音声認識スコアは「０．４」と再計算される。

音声認識スコア再計算部１１はまた、１位候補の音声認識スコアの再計算だけでなく、１位候補と上記特徴の異なる最上位の認識候補の音声認識スコアの再計算を行ってもよい。例えば、２位候補「各界」の音節数は４である。これと同じ音節数を持つ他の認識候補「がっかり」、「合体」の、各音声認識スコア「０．２」、「０．１」の総和を、「各界」の音声認識スコアに加える。この結果、「各界」の音声認識スコアは「０．５」と再計算される。

なお、所定の特徴としては、上述の音節数に限定されず、表記、読み、母音、子音、読み前方一致、読み後方一致およびそれらの組み合わせ等を用いることができる。

このように、音声認識スコアが再計算されることにより、音声認識結果に含まれる各認識候補に対して上記特徴の度合いをより強く反映することができる。すなわち、ここでは正しい認識結果である「がっかい」と同一の音節数を持つ「かっかい」の音声認識スコア（０．５）を、誤りの認識結果である「がっか」の音声認識スコア（０．４）よりも、高くできる。このように、入力音声に近い認識候補の音声認識スコアをより高くできる。したがって、より正確な音声認識スコアを用いて音声認識結果に所定のキーワードが含まれるか否かを後述のように判定するので、音声認識結果検索装置１０は、精度よくその判定ができる。

次に、距離計算部１３の動作について説明する。

距離計算部１３は、入力音声と音声認識結果との類似度を示す距離を計算する。距離計算部１３は、距離の計算にあたり、ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ等に基づく音韻類似度と、上述した音声認識スコア再計算部１１により再計算された音声認識スコアとを用いる。

ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘとは、どの音韻を、どの音韻に、どの程度誤るかを、例えば実験結果から推定することにより表した行列である。例えば、音韻「あいうえお」を用いて説明する。「あ」と発声したときに、実験の結果、認識結果が、「あ」が５回、「い」が０回、「う」が２回、「え」が１回、「お」が２回、となったとする。この場合、「あ」という音韻を、「あ」に「０．５」、「い」に「０」、「う」に「０．２」、「え」に「０．１」、「お」に「０．２」の各程度に、認識すると推測される。同様に、「い」と発声したときに、実験の結果、「あ」が１回、「い」が７回、「う」が０回、「え」が２回、「お」が０回、となったとする。この場合、「い」という音韻を、「あ」に「０．１」、「い」に「０．７」、「う」に「０．０」、「え」に「０．２」、「お」に「０．０」の各程度に、認識すると推測される。このような推測値を、全音韻と認識結果との間の関係値として算出したものが、ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘと呼ばれる行列である。

ここで、ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘにおいて、音韻と認識結果の間の関係値が大きい場合、そのペア（音韻と認識結果）は、類似度が高いと考えられる。したがって、ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘにおける音韻と認識結果との間の関係値を、「音韻類似度」として用いることができる。

距離計算部１３は、以下の式により、２つの文字列間の距離を計算する。

距離＝ｗ_１×（音韻類似度を考慮した編集距離）＋
ｗ_２×（１÷音声認識スコア）・・・（式１）
ここで、編集距離とは、２つの文字列がどの程度異なっているかを示す値である。具体的には、文字の挿入、削除または置換によって、ある文字列を別の文字列に変形するのに必要な手順の最小回数を編集距離という。挿入・削除・置換の各回数を、それぞれ挿入コスト、削除コスト、置換コストと呼ぶ。編集距離は、ある文字列をある文字列に変換する際に必要とされる各コストの総和の最小値である。

「音韻類似度を考慮した編集距離」とは、例えば、上記コストのうち「置換コスト」に上述した「音韻類似度」を考慮した値を用いて算出した編集距離をいう。例えば、「置換コスト」に「音韻類似度」に反比例する値を用いて算出した編集距離を、「音韻類似度を考慮した編集距離」としてもよい。

なお、ｗ_１およびｗ_２はスカラー量であり、「音韻類似度を考慮した編集距離」と「１÷（音声認識スコア）」とを足し合わせる際の重み係数である。

距離計算部１３は、上記式１により、所定のキーワードの部分文字列と認識候補との距離を計算する。所定のキーワードの部分文字列とは、キーワード探索部１２により抽出される部分文字列である（詳細は後述する）。

次に、キーワード探索部１２の動作について説明する。

キーワード探索部１２は、キーワード入力装置３０から取得した所定のキーワードが、音声認識結果に含まれるか否かを判定する。キーワード探索部１２は、まず、キーワードを取得すると、該キーワードから部分文字列を抽出する。このとき、キーワード探索部１２は、音声認識装置２０が用いた音声認識辞書の単語単位で部分文字列を抽出する。

キーワード探索部１２は、抽出した部分文字列を距離計算部１３に通知する。距離計算部１３は、取得した部分文字列について、その部分文字列と各認識候補との各距離を上述のように式１を用いて算出する。距離計算部１３は、算出した各距離をキーワード探索部１２に通知する。

キーワード探索部１２は、距離計算部１３により計算された距離に基づいて、部分文字列が音声認識結果に含まれるか否かを判定する。すなわち、キーワード探索部１２は、距離計算部１３から取得した距離と、所定の閾値とを比較し、該距離が所定の閾値よりも小さい場合、その部分文字列は音声認識結果に含まれると判断する。キーワード探索部１２は、キーワードに含まれる複数の部分文字列に対し繰り返しこの処理を行い、最終的に、音声認識結果の認識候補に対する距離が所定の閾値よりも小さい部分文字列で、時間順を保って、過不足なく元のキーワードをカバーする場合、そのキーワードは音声認識結果に含まれると判断する。

図４は、音声認識結果検索装置１０の動作を示すフローチャートである。図４を参照して、音声認識結果検索装置１０の動作について説明する。

音声認識スコア再計算部１１はまず、音声認識結果を取得する（ステップＳＴ１０１）。続いて、音声認識スコア再計算部１１は、取得した音声認識結果に含まれる音声認識スコアを、所定の特徴に基づいて再計算する（ステップＳＴ１０２）。上述したように、音声認識スコア再計算部１１は、例えば所定の特徴として音節数を用い、最上位の認識候補と音節数が等しい他の認識候補に付与された音声認識スコアの総和を、最上位の認識候補の音声認識スコアに加える。

続いて、キーワード探索部１２は、以下のようにキーワードの探索を行う。すなわち、キーワード探索部１２はまず、キーワードを取得し（ステップＳＴ１０３）、続いて、キーワードの部分文字列を抽出する（ステップＳＴ１０４）。部分文字列とは、キーワードのうち音声認識辞書の単位単語の文字列である。ここで、例えばキーワードが「人工知能」であるとすると、キーワード探索部１２は、部分文字列として、まず「人工」を抽出する。なお、このキーワードは、音声認識辞書の単語単位と異なる単語単位の文字列である。

続いて、距離計算部１３は、キーワードの部分文字列と音声認識結果に含まれる各候補との距離を算出する（ステップＳＴ１０５）。距離計算部１３は、上述したように再計算した音声認識スコアを用いて、上記式１により、キーワードの部分文字列と音声認識結果に含まれる各認識候補との距離を算出する。式１で用いられる音声認識スコアには、ステップＳＴ１０２において音声認識スコア再計算部１１により再計算された値を用いる。ここでは、キーワードの部分文字列「人工」に対し、全ての音声認識結果の認識候補の文字列との距離を計算する。全ての音声認識結果の認識候補でなく、前記所定の特徴に基づく最上位の認識候補とのみ距離を計算してもよい。

続いて、キーワード探索部１２は、上記算出された距離に基づいて、上記キーワードの部分文字列が音声認識結果に含まれるか否かを調べる（ステップＳＴ１０６）。このとき、キーワード探索部１２は、上記算出された距離のうち、部分文字列と同一の認識候補の距離が、所定の閾値よりも小さい場合、その部分文字列は、音声認識結果に含まれると判断する（ステップＳＴ１０７）。キーワード探索部１２は、キーワードのすべての部分文字列について同様の判断が終了していない場合は、ステップＳＴ１０４に戻り、キーワードの残りの部分について同様の処理を行う（ステップＳＴ１０８）。

キーワード探索部１２は、キーワードの残りの部分について同様の処理を行い、キーワードのすべての部分文字列について、該部分文字列と同一の認識候補の距離が所定の閾値よりも小さい場合、キーワード探索部１２は、キーワードは音声認識結果に含まれると判定する（ステップＳＴ１０９）。

一方、ステップＳＴ１０５において算出された、部分文字列と同一の認識候補の距離が、所定の閾値以上の場合、キーワード探索部１２は、キーワードは音声認識結果に含まれないと判定する（ステップＳＴ１１０）。

なお、キーワード探索部１２は、抽出されたキーワードの部分文字列と同一の認識候補がない場合、キーワードは音声認識結果に含まれないと判定してもよい。また、キーワード探索部１２は、所定の閾値に基づいてキーワードが音声認識結果に含まれるか否かだけでなく、キーワードが含まれる度合いを算出してもよい。

以上のように、本第１の実施形態によれば、音声認識スコア再計算部１１は、取得した音声認識結果に含まれる認識候補に付与された音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する。距離計算１３は、再計算された音声認識スコアに基づいて、認識候補と所定のキーワードの部分文字列との距離を算出する。キーワード探索部１２は、算出された距離に基づいて、キーワードが音声認識結果に含まれるか否かを判定する。上記構成により、本第１の実施形態によれば、キーワードの部分文字列ごとに再計算された音声認識スコアを用いて該部分文字列が音声認識結果に含まれるか否かを判定することができる。よって、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる効果が得られる。

第２の実施形態
図５は、本発明の第２の実施形態に係る音声認識結果検索装置５０の構成を示すブロック図である。図５に示すように、音声認識結果検索装置５０は、音声認識スコア再計算部５１、距離計算部５２およびキーワード探索部５３を備える。

音声認識スコア再計算部５１は、入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、それら各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する。

距離計算部５２は、再計算された音声認識スコアに基づいて、所定のキーワードと音声認識結果との距離を算出する。キーワード探索部５３は、算出された距離に基づいて、所定のキーワードが音声認識結果に含まれるか否かを判定する。

以上のように、本第２の実施形態によれば、上記構成を有するので、キーワードの部分文字列ごとに再計算された音声認識スコアを用いて該部分文字列が音声認識結果に含まれるか否かを判定することができる。よって、音声認識辞書の単語単位とキーワードの単語単位とが異なる場合でも、音声認識結果に所定のキーワードが含まれるかどうかを精度よく判定できる効果が得られる。

本発明は、例えばテキスト入力をインタフェースとして音声メディアを検索する情報検索装置に適用できる。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段と
を備えた音声認識結果検索装置。
（付記２）
前記音声認識スコア再計算手段は、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する付記１記載の音声認識結果検索装置。
（付記３）
前記音声認識スコア再計算手段は、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する付記２記載の音声認識結果検索装置。
（付記４）
前記距離計算手段は、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出する付記１ないし付記３のいずれか1項記載の音声認識結果検索装置。
（付記５）
前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出する付記４記載の音声認識結果検索装置。
（付記６）
前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とする付記５記載の音声認識結果検索装置。
（付記７）
前記キーワード探索手段は、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出する付記１ないし付記６のいずれか１項記載の音声認識結果検索装置。
（付記８）
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算し、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出し、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定すること
を備えた音声認識結果検索方法。
（付記９）
前記音声認識スコアを再計算するに際して、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることを含む付記８記載の音声認識結果検索方法。
（付記１０）
前記音声認識スコアを再計算するに際して、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることを含む付記９記載の音声認識結果検索方法。
（付記１１）
前記距離の算出に際して、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出することを含む付記８ないし付記１０のいずれか1項記載の音声認識結果検索方法。
（付記１２）
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出することを含む付記１１記載の音声認識結果検索方法。
（付記１３）
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とすることを含む付記１２記載の音声認識結果検索方法。
（付記１４）
前記所定のキーワードが前記音声認識結果に含まれるか否かの判定に際して、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出することを含む付記８ないし付記１３のいずれか１項記載の音声認識結果検索方法。
（付記１５）
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する処理と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する処理と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定する処理とを
コンピュータに実行させる音声認識結果検索プログラム。
（付記１６）
前記音声認識スコアを再計算するに際して、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加える処理をコンピュータに実行させる付記１５記載の音声認識結果検索プログラム。
（付記１７）
前記音声認識スコアを再計算するに際して、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加える処理をコンピュータに実行させる付記１６記載の音声認識結果検索プログラム。
（付記１８）
前記距離の算出に際して、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出する処理をコンピュータに実行させる付記１５ないし付記１７のいずれか1項記載の音声認識結果検索プログラム。
（付記１９）
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出する処理をコンピュータに実行させる付記１８記載の音声認識結果検索プログラム。
（付記２０）
前記距離の算出に際して、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とする処理をコンピュータに実行させる付記１９記載の音声認識結果検索プログラム。
（付記２１）
前記所定のキーワードが前記音声認識結果に含まれるか否かの判定に際して、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出する処理をコンピュータに実行させる付記１５ないし付記２０のいずれか１項記載の音声認識結果検索プログラム。

１０音声認識結果検索装置
１１音声認識スコア再計算部
１２キーワード探索部
１３距離計算部
２０音声認識装置
３０キーワード入力装置

Claims

入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する音声認識スコア再計算手段と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する距離計算手段と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定するキーワード探索手段と
を備えた音声認識結果検索装置。
前記音声認識スコア再計算手段は、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する請求項１記載の音声認識結果検索装置。
前記音声認識スコア再計算手段は、最も高い音声認識スコアが付与された認識候補の音声認識スコアに、該認識候補と同一の音節数を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることにより、前記音声認識スコアを再計算する請求項２記載の音声認識結果検索装置。
前記距離計算手段は、前記所定のキーワードから抽出された部分文字列と、前記音声認識結果に含まれる各認識候補との距離を、前記再計算された音声認識スコアに基づいて算出する請求項１ないし請求項３のいずれか1項記載の音声認識結果検索装置。
前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離と、前記再計算された音声認識スコアとに基づいて、前記距離を算出する請求項４記載の音声認識結果検索装置。
前記距離計算手段は、前記入力音声との音韻類似度を考慮した前記部分文字列と前記各認識候補との編集距離に、前記再計算された音声認識スコアに反比例する値を加えたものを、前記距離とする請求項５記載の音声認識結果検索装置。
前記キーワード探索手段は、前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれる度合いを算出する請求項１ないし請求項６のいずれか1項記載の音声認識結果検索装置。
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算し、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出し、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定すること
を備えた音声認識結果検索方法。
前記音声認識スコアを再計算するに際して、所定の特徴を有する認識候補のうち最も高い音声認識スコアが付与された認識候補の音声認識スコアに、前記所定の特徴を有する他の各認識候補にそれぞれ付与された音声認識スコアの総和を加えることを含む請求項８記載の音声認識結果検索方法。
入力音声に対する認識処理の結果の候補である認識候補と、該各認識候補に付与された前記入力音声と類似する度合いを示す音声認識スコアとを、音声認識結果として取得すると共に、前記各音声認識スコアを、互いに共通の所定の特徴を有する認識候補にそれぞれ付与された音声認識スコアを用いて再計算する処理と、
前記再計算された音声認識スコアに基づいて、所定のキーワードと前記音声認識結果との距離を算出する処理と、
前記算出された距離に基づいて、前記所定のキーワードが前記音声認識結果に含まれるか否かを判定する処理とを
コンピュータに実行させる音声認識結果検索プログラム。