JP5673239B2 - 音声認識装置、音声認識方法、および音声認識プログラム - Google Patents

音声認識装置、音声認識方法、および音声認識プログラム Download PDF

Info

Publication number
JP5673239B2
JP5673239B2 JP2011053568A JP2011053568A JP5673239B2 JP 5673239 B2 JP5673239 B2 JP 5673239B2 JP 2011053568 A JP2011053568 A JP 2011053568A JP 2011053568 A JP2011053568 A JP 2011053568A JP 5673239 B2 JP5673239 B2 JP 5673239B2
Authority
JP
Japan
Prior art keywords
word
evaluation value
occurrence
recognition target
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011053568A
Other languages
English (en)
Other versions
JP2012189829A (ja
Inventor
岩見田 均
均 岩見田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011053568A priority Critical patent/JP5673239B2/ja
Publication of JP2012189829A publication Critical patent/JP2012189829A/ja
Application granted granted Critical
Publication of JP5673239B2 publication Critical patent/JP5673239B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声信号を音声認識する音声認識装置、音声認識方法、および音声認識プログラムに係わる。
入力される音声信号を音声認識し、その認識結果を出力する音声認識装置が知られている。音声認識装置は、例えば、マイク等を介して入力される音声信号あるいはデジタル音声ファイルから、所定の単語辞書に登録されている単語の読み情報(または、発音情報)と類似する音声区間を抽出する。そして、音声認識装置は、所定の閾値以上の類似度を有する読み情報に対応する単語を認識結果として出力する。
音声認識装置により得られる認識結果は、例えば、カーナビゲーションシステム、音声自動応答システム等に入力される。そうすると、音声認識装置の認識結果が入力されたシステムは、その認識結果に対応する処理を実行する。
他の音声認識装置は、例えば、人と人との会話または通話を録音したデジタル音声ファイル、あるいは映像音声ファイルの音声信号の全音声区間に渡って、キーボード等から入力される検索語の読み情報との類似度を算出し、所定の閾値以上の類似度を有する音声区間の情報を出力する。この場合、例えば、音声ファイルの中から、検索語に相当する発話が行われている音声区間を検索し、その周辺区間の音声を再生する処理を行うことができる。
音声認識の精度を高めるために、単語共起情報を利用する方法が提案されている。例えば、特許文献1には、下記の音声認識装置が記載されている。共起関係にある中心語と共起語とを組み合わせて認識語句辞書に格納しておく。この認識語句辞書に格納されている中心語を連続的な一つの入力音声から抽出する。この抽出された中心語と共起関係にある共起語を認識語句辞書から読み出して入力音声から抽出する。さらに、認識語句辞書は、中心語と共起語との組み合わせに時間間隔の情報も付与されており、語句認識手段は、中心語と共起語とを時間間隔に対応して入力音声から認識する。
特開平10−55196号公報
一般に、発話中には、文脈に直接的には係わりのない不要語(例えば、「えーと」「あのー」など)が含まれることが多い。そして、発話中の不要語は、単語共起情報を利用する音声認識の精度を低下させることがある。
単語共起情報を利用する音声認識においては、共起関係を有する第1単語および第2単語は時間的に互いに隣接して存在する確率が高いとの前提の下で、例えば、音声信号から第1単語が抽出されたときは、その第1単語の抽出位置から所定の時間範囲(すなわち、検索範囲)内で第2単語が検索される。ところが、第1単語と第2単語との間に上述のような不要語が挿入されると、第1単語と第2単語との間の時間間隔が長くなり、第2の単語が検出されなくなることがある。すなわち、検出漏れが発生し得る。
検出漏れの問題は、例えば、上述の検索範囲を広くすることにより解決可能である。しかし、単に検索範囲を広くすると、「共起関係を有する1組の単語は時間的に互いに隣接して存在する」という制約が働かなくなる。この場合、ターゲット単語と異なる単語を誤ってターゲット単語と認識してしまう誤検出が発生する可能性が高くなる。
なお、上述の問題は、不要語によってのみ発生するものではない。すなわち、上述の問題は、1組の共起語が登場する時間間隔が他の要因(例えば、沈黙)によって長くなる場合にも発生し得る。
本発明の課題は、単語共起情報を利用する音声認識において、認識精度の低下を抑えることである。
本発明の1つの態様の音声認識装置は、音声データから認識対象単語および前記認識対象単語の共起単語を検出する単語検出部と、前記認識対象単語が検出された第1の音声区間と前記共起単語が検出された第2の音声区間との間の時間間隔に基づいて、前記認識対象単語および前記共起単語の組合せに対する評価値を算出する評価値算出部、を備える。
上述の態様によれば、単語共起情報を利用する音声認識において、認識精度の低下を抑えることができる。
第1の実施形態の音声認識装置の機能構成を示す図である。 第2の実施形態の音声認識装置の機能構成を示す図である。 単語リストの一例を示す図である。 共起単語情報の一例を示す図である。 単語検出部による検出結果の一例を示す図である。 補正計算の一例を示す図である。 評価値算出部の処理を示すフローチャートである。 比較方式1における共起単語情報の例を示す図である。 比較方式1による認識結果の例を示す図である。 比較方式2における共起単語情報の例を示す図である。 比較方式2による認識結果の例を示す図である。 実施形態の音声認識装置の認識結果の例を示す図である。 共起単語情報の別例を示す図である。 共起範囲基準時間と補正値との関係を示す図である。 他の実施形態において使用される共起単語情報の例を示す図である。 他の実施形態の音声認識装置の認識結果の例を示す図である。 音声認識装置を実現するためのコンピュータシステムのハードウェア構成を示す図である。
図1は、第1の実施形態の音声認識装置の機能構成を示す。第1の実施形態の音声認識装置1には、音声データが入力される。また、音声認識装置1には、認識対象単語が与えられる。認識対象単語は、入力音声データから検出すべき単語であり、例えば、ユーザによって指定される。そして、音声認識装置1は、単語検出部11および評価値算出部12を有する。
単語検出部11は、共起単語情報13を参照して、認識対象単語に対応する共起単語を特定する。共起単語情報13は、文またはフレーズ等の中に共に出現しやすい単語の組合せを記述する。そして、単語検出部11は、音声認識により、入力音声データから認識対象単語およびその認識対象単語の共起単語を検出する。
評価値算出部12は、認識対象単語が検出された第1の音声区間と共起単語が検出された第2の音声区間との間の時間間隔に基づいて、認識対象単語および共起単語の組合せに対する評価値を算出する。この評価値は、音声認識の信頼性または確からしさを表す指標である。そして、音声認識装置1は、評価値算出部12により得られる評価値が所定の条件を満たしていれば、単語検出部11により検出された認識対象単語および共起単語を、入力音声データから認識された単語として出力する。
共起関係を有する1組の単語は、通常の発話においては、比較的短い時間間隔で出現する確率が高い。ところが、共起関係を有する1組の単語間に不要語(例えば、「えーと」「あのー」など)が挿入されると、その1組の単語間の時間間隔が長くなる。この場合、従来技術においては、上述したように、検出漏れまたは誤検出が発生するおそれがある。
これに対して、第1の実施形態においては、音声データから検出された認識対象単語と共起単語との間の時間間隔に基づいて、認識対象単語および共起単語の組合せに対する評価値が算出される。すなわち、認識対象単語と共起単語との間に挿入された不要語等に起因して、認識対象単語と共起単語との間の時間間隔が長くなったときは、音声認識装置1は、そのようにして長くなった時間間隔に応じて評価値を算出する。したがって、第1の実施形態の構成または方法によれば、認識対象単語と共起単語との間に不要語等が挿入された場合であっても、検出漏れおよび/または誤検出が抑制される。
図2は、第2の実施形態の音声認識装置の機能構成を示す。第2の実施形態の音声認識装置2は、図2に示すように、単語検出部11、評価値算出部12、音声入力部21、単語リスト22、共起情報格納部23を有する。なお、第2の実施形態の音声認識装置2が備える単語検出部11および評価値算出部12は、第1の実施形態と実質的に同じである。
音声入力部21は、ユーザが発話した音声信号を、マイクを利用して集音し、その音声信号をアナログ/デジタル変換することによりデジタル音響信号を生成する。そして、音声入力部21は、そのデジタル音響信号を単語検出部11に入力する。なお、音声入力部21は、上述の機能を備える構成に限定されるものではない。例えば、ユーザが発話した音声を表す音声データを含むデジタル音声ファイルが音声認識装置2に入力されるときには、音声入力部21は、そのデジタル音声ファイルを受信して単語検出部11へ導く入力インタフェースとして動作する。
単語検出部11には、音声認識装置2が音声認識処理を実行すべき音声データ、および単語リスト22が入力される。音声データは、上述の例では、アナログ/デジタル変換により得られるデジタル音響信号、或いはデジタル音声ファイルである。
単語リスト22は、入力音声データから認識すべき1以上の単語(すなわち、認識対象単語)を格納する。図3に示す例では、単語リスト22には、認識対象単語およびその読みを表す読み情報(または、発音情報)が登録されている。なお、単語リスト22は、例えば、ユーザにより作成され音声認識装置2に入力される。
共起情報格納部23は、共起単語情報13を格納する。共起情報格納部23は、音声認識装置2が備えるメモリまたは記憶装置を利用して実現される。或いは、共起情報格納部23は、音声認識装置2に接続する記憶装置に設けられてもよい。
共起単語情報13は、文またはフレーズ等のひとかたまりの音声の中で、短い期間内に一緒に出現しやすい単語の組合せを記述する。図4に示す例では、共起単語情報13は、ある単語(対象単語)に対して、その単語と共に出現しやすい単語(共起単語)が登録されている。共起単語情報13においては、1つの対象単語に対して2以上の共起単語が登録されてもよい。なお、共起単語情報13は、例えば、大量のテキストデータを解析し、その中に出現する単語の情報に基づいて生成される。或いは、共起単語情報13は、経験等に基づいて、人手で作成してもよい。
単語検出部11は、単語リスト22および共起単語情報13を参照し、入力音声データに対して音声認識処理を実行する。すなわち、単語検出部11は、入力音声データから、単語リスト22に登録されている各認識対象単語、および各認識対象単語に対応する共起単語を検出する。各単語(認識対象単語および共起単語)の検出は、例えば、ワードスポッティング技術を利用して実行される。この場合、単語検出部11は、例えば、入力音声データから抽出した特徴量の時系列パターンにおいて、認識対象単語または共起単語の読み情報に対する評価値が所定レベル以上の区間を検出する。そして、単語検出部11は、検出結果として、音声データから検出した単語、検出した単語に対する評価値、検出した単語が音声データ内で出現する時間位置を出力する。
図5は、単語検出部11による検出結果の一例を示す。図5に示す例では、認識対象単語の1つとして単語検出部11に「パソコン」が与えられている。この結果、音声データの時刻2.22〜2.81秒の区間において、評価値90で認識対象単語「パソコン」が検出されている。また、音声データの時刻3.81〜4.20秒の区間において、評価値96で、「パソコン」の共起単語である「メモリー」が検出されている。なお、評価値は、この実施例では、0〜100の値をとり、値が大きいほど、その検出結果が確からしく信頼性が高いことを表す。
評価値算出部12は、単語検出部11により検出された各単語の時間情報および各単語の評価値に基づいて、共起関係を有する単語ペアについての評価値を算出する。時間情報は、図5に示す例では、各単語が検出された音声区間の開始時刻および終了時刻に相当する。なお、以下の説明では、単語検出部11により検出された共起関係を有する単語ペアを「共起単語ペア」と呼ぶことがある。また、共起単語ペアに属する一方の単語を「認識対象単語」、他方を「対応共起単語」と呼ぶことがある。
評価値算出部12は、例えば、まず、認識対象単語の評価値(第1の評価値)および対応共起単語の評価値(第2の評価値)の平均を算出することにより、共起単語ペアのベース評価値を得る。例えば、図5に示す実施例では、「パソコン」の評価値90および「メモリー」の評価値96から、ベース評価値93が得られる。なお、評価値算出部12は、他の方法でベース評価値を算出してもよい。例えば、認識対象単語の評価値または対応共起単語の評価値の小さい方の値を、ベース評価値として出力してもよい。
続いて、評価値算出部12は、認識対象単語が検出された音声区間と対応共起単語が検出された音声区間との間の時間間隔を算出する。図5に示す実施例では、「パソコン」が検出された音声区間の終了時刻「2.81秒」と、「メモリー」が検出された音声区間の開始時刻「3.81秒」との差分を計算することで、時間間隔=1.0秒が得られる。
さらに、評価値算出部12は、共起単語ペアのベース評価値を、認識対象単語と対応共起単語との間の時間間隔に基づいて補正することにより、共起単語ペアについての評価値を算出する。このとき、評価値算出部12は、認識対象単語と対応共起単語との間の時間間隔が長いほど共起単語ペアの評価値が小さくなるように、共起単語ペアのベース評価値を補正する。
図6は、補正計算の一例を示す図である。共起単語ペアのベース評価値を補正するための補正値は、認識対象単語と対応共起単語との間の時間間隔に依存する。図6に示す例では、認識対象単語と対応共起単語との間の時間間隔が0〜0.5秒であるときは、補正値はゼロである。時間間隔が0.5秒よりも長くなると、補正値は、その時間間隔に比例して変化する。図6では、時間間隔0.5〜1.5秒の範囲で、補正値が「0」から「−20」へ直線的に変化している。なお、評価値算出部12には、例えば、補正計算を実現するための計算式が予め与えられているものとする。図6に示す補正計算を実現するための計算式は、下記の通りである。
C=0(0≦T≦0.5)
C=10−20T(0.5<T)
Cは、補正値を表す。Tは、認識対象単語と対応共起単語との間の時間間隔を表す。そして、評価値算出部12は、上述のベース評価値に補正値を加算することにより、共起単語ペアの評価値を得る。すなわち、この実施例では、評価値算出部12は、認識対象単語と対応共起単語との間の時間間隔が所定の閾値(ここでは、0.5秒)以下であれば、ベース評価値を変えることなく共起単語ペアに対する評価値として出力する。一方、時間間隔が閾値よりも長ければ、その時間間隔が長いほど共起単語ペアに対する評価値が小さくなるようにベース評価値を補正する。
図7は、評価値算出部12の処理を示すフローチャートである。このフローチャートの処理は、単語検出部11により入力音声データから1または複数の共起単語ペアが検出されたときに実行される。
ステップS1において、評価値算出部12は、単語検出部11により検出された共起単語ペアの中で、ステップS2〜S7の処理が実行されていない共起単語ペアが残っているか判定する。そして、すべての共起単語ペアに対してステップS2〜S7の処理が実行されていれば、評価値算出部12の処理は終了する。
ステップS2において、評価値算出部12は、ステップS3〜S7の処理が実行されていない共起単語ペアを1つ選択する。このとき、評価値算出部12は、例えば、入力音声データの先頭から末尾に向かって、未処理の共起単語ペアをサーチする。
ステップS3において、評価値算出部12は、共起単語ペアの単語間の時間間隔を算出する。すなわち、ステップS2で選択された共起単語ペアに属する認識対象単語と対応共起単語との間の時間間隔が算出される。
ステップS4において、評価値算出部12は、ステップS3で算出された時間間隔から単語間の評価値を算出する。ここで、単語間の評価値は、図6を参照しながら説明した共起単語ペアの補正値に相当する。すなわち、評価値算出部12は、ステップS2で選択された共起単語ペアについて、その共起単語ペアに属する認識対象単語と対応共起単語との間の時間間隔に基づいて、補正値を算出する。
ステップS5において、評価値算出部12は、認識対象単語の評価値および対応共起単語の評価値の平均(すなわち、ベース評価値)に、ステップS4で得られた補正値を加算することにより、全体の評価値(すなわち、共起単語ペアの評価値)を算出する。
ステップS6において、評価値算出部12は、ステップS5で得られた共起単語ペアの評価値が閾値以上であるかを判定する。そして、共起単語ペアの評価値が閾値以上であれば、評価値算出部12は、ステップS7において、その共起単語ペアに属する認識対象単語および対応共起単語を、認識結果として出力する。一方、共起単語ペアの評価値が閾値よりも小さければ、評価値算出部12の処理はステップS1に戻る。すなわち、評価値算出部12は、すべての共起単語ペアに対してステップS2〜S7の処理を実行する。
一例を示す。ここでは、図5に示す検出結果が評価値算出部12に与えられるものとする。また、補正値は、図6に示す関数に従って計算されるものとする。さらに、ステップS6の閾値は80であるものとする。
この場合、ステップS3において、共起単語ペアの単語間の時間間隔=1.0秒が得られる。また、ステップS4において、図6に示す関数に「時間間隔=1.0秒」を与えることにより補正値「−10」が得られる。ここで、共起単語ペアに属する2つの単語の評価値の平均は「93」である。よって、ステップS5において、共起単語ペアについての評価値として「83(=93−10)」が得られる。さらに、ステップS6において、共起単語ペアについての評価値「83」が閾値「80」以上と判定される。したがって、ステップS7において、入力音声データに対する音声認識の結果として「パソコン」および「メモリー」が出力される。
<実施形態の音声認識方法による効果>
実施形態(上述した第1または第2の実施形態)の音声認識方法による効果について記載する。ただし、以下では、実施形態の音声認識方法による効果の理解を助けるために、まず、2つの比較方式を示す。
比較方式1においては、図8に示す共起単語情報31を利用して音声データから共起単語が検出される。比較方式1の共起単語情報31は、各単語(対象単語)に対して、対応する1または複数の共起単語および共起範囲を記述する。共起範囲は、対象単語を基準として音声データから共起単語を検索する時間範囲(すなわち、検索範囲)を表す。図8に示す例では、例えば、対象単語「パソコン」に対して、共起単語として「メモリー」「価格」「FMV」「CPU」が登録され、共起範囲として「0.6秒」が設定されている。この場合、比較方式1の音声認識装置は、入力音声データから「パソコン」を検出すると、その音声区間に続く0.6秒間の音声データから「メモリー」「価格」「FMV」「CPU」を検索する。
図9は、比較方式1による認識結果の例を示す。図9(a)に示す例1においては、入力音声1「パソコンのメモリーについて教えて」が音声認識装置に入力される。音声認識装置は、評価値90で「パソコン」を検出するとともに、評価値96で「メモリー」を検出する。このとき、「パソコン」と「メモリー」との間の時間間隔は0.2秒である。このケースでは、2つの単語の時間間隔「0.2秒」は、共起範囲「0.6秒」以内である。また、2つの単語の評価値の平均「93」は、閾値「80」以上である。したがって、音声認識装置は、認識結果として「パソコン」「メモリー」を出力する。すなわち、音声認識装置の認識結果は、正しい。
図9(b)に示す例2においては、入力音声2「パソコンの、えーっと、メモリーについて教えて」が音声認識装置に入力される。例2では、不要語「えーっと」が発話されたことにより、「パソコン」と「メモリー」との間の時間間隔は1.0秒に広がっている。このケースでは、2つの単語の時間間隔「1.0秒」は共起範囲「0.6秒」を超えている。したがって、音声認識装置は、「パソコン」および「メモリー」を共起単語ペアと認識しない。すなわち、このケースでは、共起関係を有する1組の単語が共起単語ペアとして認識されず、検出漏れが発生する。
図9(c)に示す例3においては、入力音声3「パソコンの他にですねー、FMラジオは扱ってますか」が音声認識装置に入力される。ここで、音声認識装置は、評価値90で「パソコン」を検出するとともに、入力音声中の「FMラジオ」を表す区間の音声データを評価値86で誤って「FMV」と認識するものとする。ただし、例3では「パソコン」と「FMV」との間の時間間隔は1.5秒であり、共起範囲「0.6秒」を超えている。したがって、音声認識装置は、「パソコン」および「FMV」を共起単語ペアと認識しない。すなわち、このケースでは、「FMラジオ」を誤って「FMV」と認識してしまう誤検出は回避されている。
このように、比較方式1においては、不要語の発話等に起因して、共起関係を有する1組の単語間の時間間隔が長くなると、検出漏れが発生するおそれがある。なお、比較方式1は、上述した特許文献1に記載の方法を模擬したものである。
比較方式2においては、図10に示す共起単語情報32を利用して音声データから共起単語が検出される。比較方式1の共起単語情報31と比較方式2の共起単語情報32との差異は、共起範囲の幅である。すなわち、比較方式2においては、図9(b)に示す検出漏れを防ぐために、各対象単語の共起範囲の幅がそれぞれ比較方式1よりも広く設定されている。例えば、図10に示す共起単語情報32において、対象単語「パソコン」の共起範囲として「1.6秒」が設定されている。この場合、比較方式2の音声認識装置は、入力音声データから「パソコン」を検出すると、その区間に続く1.6秒間の音声データから「メモリー」「価格」「FMV」「CPU」を検索する。
図11は、比較方式2による認識結果の例を示す。なお、図11(a)〜図11(c)に示す入力音声は、それぞれ図9(a)〜図9(c)と同じである。また、音声認識装置が入力音声データから個々の単語を認識する処理は、比較方式1、2において互いに同じである。
図11(a)に示す例1においては、評価値90で「パソコン」が検出され、評価値96で「メモリー」が検出される。また、時間間隔は0.2秒である。このケースでは、2つの単語間の時間間隔「0.2秒」は、共起範囲「1.6秒」以内であり、2つの単語の評価値の平均「93」は、閾値「80」以上である。したがって、比較方式1と同様に、音声認識装置は、認識結果として「パソコン」「メモリー」を出力する。すなわち、音声認識装置の認識結果は、正しい。
図11(b)に示す例2においては、入力音声2から検出される「パソコン」と「メモリー」との間の時間間隔は1.0秒である。ところが、比較方式2では、対象単語「パソコン」に対する共起範囲は、1.6秒に設定されている。すなわち、2つの単語間の時間間隔「1.0秒」は、共起範囲「1.6秒」以内である。また、2つの単語の評価値の平均「93」は、閾値「80」以上である。したがって、音声認識装置は、認識結果として「パソコン」および「メモリー」を出力する。すなわち、入力音声2に対しても正しい認識結果が得られる。このように、比較方式2では、共起範囲の幅を広げることにより、検出漏れの発生が抑制される。
図11(c)に示す例3においては、評価値90で「パソコン」が検出され、入力音声中の「FMラジオ」を表す区間の音声データが評価値86で誤って「FMV」と認識される。ここで、2つの単語間の時間間隔は1.5秒であり、共起範囲「1.6秒」以内である。また、2つの単語の評価値の平均「88」は、閾値「80」以上である。したがって、音声認識装置は、認識結果として「パソコン」および「FMV」を出力する。すなわち、このケースでは、「FMラジオ」が誤って「FMV」と認識される誤検出が発生している。このように、比較方式2では、共起範囲の幅を広げることにより、検出漏れは抑制されるが、誤検出の発生頻度が高くなる。
図12は、実施形態の音声認識装置の認識結果の例を示す。なお、図12(a)〜図12(c)に示す入力音声は、それぞれ図9(a)〜図9(c)、または図11(a)〜図11(c)と同じである。また、実施形態の音声認識装置が音声データから個々の単語を認識する処理は、比較方式1、2と同じである。ただし、実施形態の音声認識装置は、図6に示す補正値を利用して、図7に示すフローチャートの手順で評価値を算出する。
図12(a)に示す例1においては、評価値90で「パソコン」が検出され、評価値96で「メモリー」が検出される。また、時間間隔は0.2秒である。そうすると、評価値算出部12は、ステップS4において、時間間隔「0.2秒」に応じて補正値を計算する。この場合、図6に示す例では、時間間隔「0.2秒」に対して補正値=ゼロが得られる。続いて、評価値算出部12は、ステップS5において、2つの単語の評価値の平均「93」を補正値で補正する。ただし、例1では補正値はゼロなので、上述の共起単語ペア(パソコン、メモリー)についての評価値は「93」である。そして、この評価値「93」は閾値「80」以上である。したがって、実施形態の音声認識装置は、認識結果として「パソコン」「メモリー」を出力する。すなわち、実施形態の音声認識装置の認識結果は、正しい。
図12(b)に示す例2においては、入力音声2から検出される「パソコン」と「メモリー」との間の時間間隔は1.0秒である。この場合、評価値算出部12は、ステップS4において、時間間隔「1.0秒」に対応する補正値として「−10」を得る。続いて、評価値算出部12は、ステップS5において、2つの単語の評価値の平均「93」に補正値「−10」を加算する。この結果、上述の共起単語ペア(パソコン、メモリー)についての評価値として「83」が得られる。ここで、この評価値「83」は、ステップS6において、閾値「80」以上である。したがって、実施形態の音声認識装置は、認識結果として「パソコン」「メモリー」を出力する。すなわち、実施形態の音声認識装置は、入力音声2に対しても正しい認識結果を得ることができる。
このように、実施形態の音声認識方法においては、不要語の発話等に起因して共起単語ペアの単語間の時間間隔が長くなると、その時間間隔が長いほど共起単語ペアに対する評価値が低くなるように、補正計算が行われる。換言すれば、不要語の発話等に起因する単語間の時間間隔の拡大幅がさほど大きくないときは、補正による評価値の低下幅は比較的小さい。このため、共起単語ペアに属する各単語の評価値が大きく、且つ、不要語の発話等に起因する単語間の時間間隔の拡大幅がさほど大きくなければ、共起単語ペアに対する評価値は閾値以上のままである。この場合、共起単語ペアに属する各単語が正しく認識される。図12(b)に示す例では、「パソコン」および「メモリー」の評価値がそれぞれ高く、且つ、不要語「えーっと」に起因する時間間隔の拡大幅は比較的小さいので、「パソコン」および「メモリー」が正しく認識されている。したがって、実施形態の音声認識方法においては、比較方式1による図9(b)に示す検出漏れが抑制される。
図12(c)に示す例3においては、評価値90で「パソコン」が検出され、入力音声中の「FMラジオ」を表す区間の音声データが評価値86で誤って「FMV」と認識される。ここで、2つの単語間の時間間隔は1.5秒であり、評価値算出部12は、ステップS4において、時間間隔「1.5秒」に対応する補正値として「−20」を得る。続いて、評価値算出部12は、ステップS5において、2つの単語の評価値の平均「88」に補正値「−20」を加算する。この結果、上述の共起単語ペア(パソコン、FMV)についての評価値として「68」が得られる。ここで、この評価値「68」は、閾値「80」よりも小さい。したがって、実施形態の音声認識装置は、「パソコン」および「FMV」を共起単語ペアと認識しない。すなわち、実施形態の音声認識装置の認識結果は、正しい。
このように、実施形態の音声認識方法においては、不要語の発話等に起因して共起単語ペアの単語間の時間間隔が長くなるほど共起単語ペアに対する評価値が低くなる。したがって、実施形態の音声認識方法においては、比較方式2による図11(c)に示す誤検出が抑制される。
なお、実施形態の音声認識装置は、共起情報を利用して共起単語ペアを検出する機能だけでなく、音声データから個々の単語を検出する機能を備えるようにしてもよい。たとえば、図12(c)に示す例では、入力音声3から比較的高い評価値で「パソコン」が検出されている。この場合、音声認識装置は、「パソコン」を、共起単語ペアに属する単語としては検出しないが、入力音声3に含まれる1つの単語として検出してもよい。
また、図6に示す例では、すべての共起単語ペアに対して同じ補正値が使用される。しかし、本発明はこの方法に限定されるものではない。例えば、音声認識装置は、図13に示す共起単語情報14を参照して音声認識を実行するようにしてもよい。共起単語情報14は、たとえば、共起情報格納部23に格納され、共起単語情報13の代わりに使用される。共起範囲基準時間は、共起単語ペアのベース評価値を補正する補正値を生成するための計算式を識別する。
図14は、共起範囲基準時間と補正値との関係を示す図である。この例では、共起範囲基準時間は、補正値がゼロである領域を指定する。例えば、図13に示す例では、共起単語ペア(富士通、パソコン)に対して、共起範囲基準時間=0.5秒が設定されている。この場合、この共起単語ペアのベース評価値を補正する補正値を得るために、図14に示す関数A(0.5)が使用される。すなわち、音声認識装置は、入力音声から「富士通」および「パソコン」を検出すると、それら2つの単語間の時間間隔の値を関数A(0.5)に与えることにより、対応する補正値を取得する。また、共起単語ペア(パソコン、メモリー)に対しては、共起範囲基準時間=0.6秒が設定されている。この場合、この共起単語ペアのベース評価値を補正する補正値を得るために、図14に示す関数A(0.6)が使用される。同様に、共起範囲基準時間=1.0秒が設定されている共起単語ペアについては、図14に示す関数A(1.0)が使用される。このように、共起単語ペア毎に補正値を得るための関数を設定する手順を採用すれば、検出漏れのさらなる抑制、および/または、誤検出のさらなる抑制を実現することができる。
なお、本発明は、共起単語ペアの評価値を算出するための関数として、様々なバリエーションを採用することができる。例えば、図6または図14に示す例では、時間間隔に対する補正値の変化の傾きは一定であるが、共起単語ペアごとにこの傾きを設定可能としてもよい。また、図6または図14に示す例では、時間間隔に対して補正値が直線的に変化するが、補正値は、時間間隔に対して非直線的に変化してもよい。
また、音声入力部21は、wavファイルあるいはその他のデジタル音声データから復元した音声データを利用し、入力音声の中からユーザが検索したい単語の読み情報を生成して単語検出部11に与えるようにしてもよい。この場合、音声認識装置は、入力音声の中から、ユーザが検索したい単語が音声として発話されている音声区間の情報を認識結果として出力できる。
<他の実施形態>
他の実施形態においては、ある単語に対して複数の共起単語が存在するときに、それら複数の共起単語の中の1つのみが共起することを設定することができる。この設定を実現するために、他の実施形態の音声認識装置は、図15に示す共起単語情報15を参照して音声認識を実行する。共起単語情報15は、例えば、共起情報格納部23に格納され、共起単語情報13の代わりに使用される。なお、他の実施形態の音声認識装置は、図1または図2に示す単語検出部11および評価値算出部12を備える。ただし、評価値算出部12の処理は、図7に示すフローチャートの処理と一部が異なっている。
図15に示す共起単語情報15おいては、対象単語「パソコン」に対して、2つの共起単語「デスクトップ」および「ノート」が登録されている。ここで、{ |} は、{ } 内のいずれか1つの単語のみが共起することを表している。すなわち、この例では、「パソコン」に対して、「デスクトップ」または「ノート」のいずれか一方のみが共起単語として認識される。
図16は、他の実施形態の音声認識装置の認識結果の例を示す。図16に示す例では、入力音声「パソコンで、ノートじゃなかった、デスクトップはどんなものがありますか」が音声認識装置に入力される。音声認識装置は、評価値90で「パソコン」を検出し、評価値92で「ノート」を検出し、評価値94で「デスクトップ」を検出する。このとき、「パソコン」と「ノート」との間の時間間隔は0.2秒であり、「パソコン」と「デスクトップ」との間の時間間隔は1.0秒である。
この場合、評価値算出部12は、認識対象単語「パソコン」と、時間的に後に検出された共起単語「デスクトップ」との間の時間間隔に基づいて、共起単語ペア(パソコン、デスクトップ)の評価値を算出する。この例では、「パソコン」および「デスクトップ」の評価値の平均は「92」である。また、図6に示す関数で補正値を計算する場合は、時間間隔「1.0秒」に対応して補正値「−10」が得られる。したがって、共起単語ペア(パソコン、デスクトップ)の評価値として「82」が算出される。この評価値「82」は閾値「80」以上なので、音声認識装置は、認識結果として「パソコン」「デスクトップ」を出力する。
このように、他の実施形態の方法においては、入力音声データから検出された対象単語に対して複数の共起単語が存在するときに、時間的に後に存在する共起単語が、その対象単語に共起する単語として採用される。このため、他の実施形態の方法は、例えば、図16を参照しながら説明したように、話者が言い間違えた単語「ノート」を無視することができる。したがって、この方法によれば、入力音声の文脈に沿った単語の抽出が可能となる。
<音声認識装置のハードウェア構成>
図17は、音声認識装置を実現するためのコンピュータシステムのハードウェア構成を示す図である。コンピュータシステム100は、図17に示すように、CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、および入出力装置107を備える。CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、入出力装置107は、例えば、バス108を介して互いに接続されている。
CPU101は、メモリ102を利用して音声認識プログラムを実行することにより、単語検出部11、評価値算出部12の一部または全部の機能を提供する。このとき、CPU101は、図7に示すフローチャートの処理を記述したプログラムを実行することにより、評価値算出部12の機能を提供してもよい。
メモリ102は、例えば半導体メモリであり、RAM領域およびROM領域を含んで構成される。記憶装置103は、例えばハードディスクであり、実施形態の音声認識に係わる音声認識プログラムを格納する。なお、記憶装置103は、フラッシュメモリ等の半導体メモリであってもよい。また、記憶装置103は、外部記録装置であってもよい。共起情報格納部23は、メモリ102または記憶装置103を利用して実現される。
読み取り装置104は、CPU101の指示に従って着脱可能記録媒体105にアクセスする。着脱可能記録媒体105は、たとえば、半導体デバイス(USBメモリ等)、磁気的作用により情報が入出力される媒体(磁気ディスク等)、光学的作用により情報が入出力される媒体(CD−ROM、DVD等)などにより実現される。通信インタフェース106は、CPU101の指示に従ってネットワークを介してデータを送受信する。入出力装置107は、例えば、ユーザからの指示を受け付けるデバイス、認識結果を出力するインタフェース等に相当する。
実施形態の音声認識プログラムは、例えば、下記の形態でコンピュータシステム100に提供される。
(1)記憶装置103に予めインストールされている。
(2)着脱可能記録媒体105により提供される。
(3)プログラムサーバ110から提供される。
なお、実施形態の音声認識方法は、複数のコンピュータを利用して上述の処理を提供してもよい。この場合、あるコンピュータが、上述の処理の一部を、ネットワークを介して他のコンピュータに依頼し、その処理結果を受け取るようにしてもよい。
さらに、実施形態の音声認識装置の一部は、ハードウェアで実現してもよい。或いは、実施形態の音声認識装置は、ソフトウェアおよびハードウェアの組み合わせで実現してもよい。
1、2 音声認識装置
11 単語検出部
12 評価値算出部
13〜15 共起単語情報
21 音声入力部
22 単語リスト
23 共起情報格納部

Claims (5)

  1. 音声データから認識対象単語および前記認識対象単語の共起単語を検出し、前記認識対象単語についての認識結果の確からしさを表す第1の評価値、及び前記共起単語についての認識結果の確からしさを表す第2の評価値を出力する単語検出部と、
    前記第1の評価値および前記第2の評価値から得られるベース評価値を、前記認識対象単語が検出された第1の音声区間と前記共起単語が検出された第2の音声区間との間の時間間隔に基づいて補正することにより、前記認識対象単語および前記共起単語の組合せに対する評価値を算出する評価値算出部と、を備え、
    前記評価値算出部は、前記時間間隔が閾値時間以下であれば、前記ベース評価値を変えることなく前記認識対象単語および前記共起単語の組合せに対する評価値として出力し、前記時間間隔が前記閾値時間よりも長ければ、前記時間間隔が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が小さくなるように前記ベース評価値を補正する
    ことを特徴とする音声認識装置。
  2. 音声データから認識対象単語および前記認識対象単語の共起単語を検出し、前記認識対象単語についての認識結果の確からしさを表す第1の評価値、及び前記共起単語についての認識結果の確からしさを表す第2の評価値を出力する単語検出部と、
    前記第1の評価値および前記第2の評価値から得られるベース評価値を、前記認識対象単語が検出された第1の音声区間と前記共起単語が検出された第2の音声区間との間の時間間隔に基づいて補正することにより、前記認識対象単語および前記共起単語の組合せに対する評価値を算出する評価値算出部と、
    共起関係を有する各単語ペアに対してそれぞれ共起範囲基準時間を表す情報を格納する共起情報格納部と、を備え、
    前記評価値算出部は、前記単語検出部により検出された認識対象単語および共起単語の組合せに基づいて前記共起情報格納部を参照することで得られる共起範囲基準時間が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が大きくなり、且つ、前記時間間隔が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が小さくなるように、前記ベース評価値を補正する
    ことを特徴とする音声認識装置。
  3. 音声データから認識対象単語および前記認識対象単語の共起単語を検出する単語検出部と、
    前記認識対象単語が検出された第1の音声区間と前記共起単語が検出された第2の音声区間との間の時間間隔に基づいて、前記認識対象単語および前記共起単語の組合せに対する評価値を算出する評価値算出部と、を備え、
    前記単語検出部により前記認識対象単語に対して複数の共起単語が検出されたときは、前記評価値算出部は、前記認識対象単語および前記単語検出部により時間的に後に検出された共起単語の組合せに対する評価値を算出する
    ことを特徴とする音声認識装置。
  4. コンピュータを用いて、
    音声データから認識対象単語および前記認識対象単語の共起単語を検出し、
    前記認識対象単語についての認識結果の確からしさを表す第1の評価値、及び前記共起単語についての認識結果の確からしさを表す第2の評価値を算出し、
    前記第1の評価値および前記第2の評価値から得られるベース評価値を、前記認識対象単語が検出された第1の音声区間と前記共起単語が検出された第2の音声区間との間の時間間隔に基づいて補正することにより、前記認識対象単語および前記共起単語の組合せに対する評価値を算出するときに、前記時間間隔が閾値時間以下であれば、前記ベース評価値を変えることなく前記認識対象単語および前記共起単語の組合せに対する評価値として出力し、前記時間間隔が前記閾値時間よりも長ければ、前記時間間隔が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が小さくなるように前記ベース評価値を補正する
    ことを特徴とする音声認識方法。
  5. 音声データから認識対象単語および前記認識対象単語の共起単語を検出し、
    前記認識対象単語についての認識結果の確からしさを表す第1の評価値、及び前記共起単語についての認識結果の確からしさを表す第2の評価値を算出し、
    前記第1の評価値および前記第2の評価値から得られるベース評価値を、前記認識対象単語が検出された第1の音声区間と前記共起単語が検出された第2の音声区間との間の時間間隔に基づいて補正することにより、前記認識対象単語および前記共起単語の組合せに対する評価値を算出するときに、前記時間間隔が閾値時間以下であれば、前記ベース評価値を変えることなく前記認識対象単語および前記共起単語の組合せに対する評価値として出力し、前記時間間隔が前記閾値時間よりも長ければ、前記時間間隔が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が小さくなるように前記ベース評価値を補正する
    処理をコンピュータに実行させる音声認識プログラム。
JP2011053568A 2011-03-10 2011-03-10 音声認識装置、音声認識方法、および音声認識プログラム Expired - Fee Related JP5673239B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011053568A JP5673239B2 (ja) 2011-03-10 2011-03-10 音声認識装置、音声認識方法、および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011053568A JP5673239B2 (ja) 2011-03-10 2011-03-10 音声認識装置、音声認識方法、および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2012189829A JP2012189829A (ja) 2012-10-04
JP5673239B2 true JP5673239B2 (ja) 2015-02-18

Family

ID=47083051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011053568A Expired - Fee Related JP5673239B2 (ja) 2011-03-10 2011-03-10 音声認識装置、音声認識方法、および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP5673239B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6805503B2 (ja) * 2016-02-24 2020-12-23 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
US10964311B2 (en) * 2018-02-23 2021-03-30 Kabushiki Kaisha Toshiba Word detection system, word detection method, and storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1055196A (ja) * 1996-08-09 1998-02-24 Ricoh Co Ltd 音声認識装置および方法、情報記憶媒体
JP3660512B2 (ja) * 1998-12-07 2005-06-15 日本電信電話株式会社 音声認識方法、その装置及びプログラム記録媒体
JP5189413B2 (ja) * 2008-06-09 2013-04-24 株式会社日立製作所 音声データ検索システム
JP4890518B2 (ja) * 2008-08-29 2012-03-07 ヤフー株式会社 複数言語モデルによる統合音声認識装置

Also Published As

Publication number Publication date
JP2012189829A (ja) 2012-10-04

Similar Documents

Publication Publication Date Title
US10037758B2 (en) Device and method for understanding user intent
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
KR100717385B1 (ko) 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US20140019131A1 (en) Method of recognizing speech and electronic device thereof
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JPWO2005122144A1 (ja) 音声認識装置、音声認識方法、及びプログラム
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
JP5673239B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP5546565B2 (ja) 単語追加装置、単語追加方法、およびプログラム
JP4861941B2 (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
KR100915638B1 (ko) 고속 음성 인식 방법 및 시스템
US20230117535A1 (en) Method and system for device feature analysis to improve user experience
JP5696638B2 (ja) 対話制御装置、対話制御方法及び対話制御用コンピュータプログラム
JP2011022476A (ja) 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
JP2017211513A (ja) 音声認識装置、その方法、及びプログラム
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
JP4362054B2 (ja) 音声認識装置及び音声認識プログラム
JPWO2010024052A1 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141215

R150 Certificate of patent or registration of utility model

Ref document number: 5673239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees