JP5152020B2

JP5152020B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP5152020B2
Application number: JP2009021360A
Authority: JP
Inventors: 将治原田; 賢司阿部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-02-02
Filing date: 2009-02-02
Publication date: 2013-02-27
Anticipated expiration: 2029-02-02
Also published as: JP2010176067A

Description

本発明は、音声認識装置における音声認識方式の技術に関するものであって、対話音声などの自然な音声信号を認識するための音声認識装置及び音声認識方法に関する。

音声認識装置では、単語とその読み情報とを対応付けて記憶している音声認識用辞書が用意されており、この音声認識用辞書に記憶されている読み情報に基づいて、所定の音響モデルから音節または音素モデル列を生成し、音声信号と音節または音素モデル列との類似度に基づいて音声認識処理を行っている。したがって、音声認識処理において、音声認識用辞書に記憶されている各単語に対応付けて記憶されている読み情報が、音声認識の精度に大きく影響を及ぼすこととなる。

特に、ワードスポッティング音声認識では、所定のキーワードに対する音声認識が行われることから、認識結果がないという事象も正常な認識動作の一つとなることから、認識失敗数を極力減らすことが望ましい。

音声認識処理における認識失敗数は、音声認識用辞書内に記憶されている単語であって音声信号に対応する読み情報を検出できなかった件数である未検出数と、音声認識用辞書内に記憶されている他の単語として認識してしまった件数である誤認識数との和で表される。音声認識処理における認識失敗数のうち、未検出数を削減するための方策として、特許文献１や特許文献２などのように、音声認識用辞書における各単語の読み情報として、標準的な読み情報以外の拡張読み情報をその単語と対応付けて記憶しておくことが提案されている。

特許文献１に係る音声認識装置は、標準読み情報に対応して発声された音声信号を、所定の音響モデルより生成される音節または音素モデル列と比較して得られた認識結果読み情報を、拡張読み情報としてその単語に対応する拡張読み情報として追加している。

また、特許文献２に係る音声認識装置では、テキスト解析を行って標準読み情報以外に想定される読み情報を拡張読み情報として音声認識用辞書に記憶させる構成が示されている。

前述したような特許文献１に係る音声認識装置では、実際の音声信号に基づいて学習した読み情報を拡張情報として音声認識用辞書に追加していることから、標準読み情報と拡張読み情報との類似度が低くなり、異なる単語の読み情報と一致して誤認識数が増加するおそれがある。

また、特許文献２に係る音声認識装置では、たとえば、複数の漢字で構成される単語について、各漢字の異なる読みから得られる読み情報を拡張読み情報として追加していることから、標準読み情報とは全く異なる読みであるような単語を誤認識するおそれがある。

特に、音節や音素数が少ない単語の場合、上述したような従来技術における音声認識装置を用いて音声認識を行うと、拡張読み情報に類似する異なる単語の読み情報が、認識結果として得られるおそれがあり、誤認識数が増加してその結果認識失敗数が増加するという問題がある。

本発明は、単語の音節数や音素数、検出頻度などに応じて、音声認識処理に用いる音節また音素モデルを生成するための読み情報やその数に自由度を持たせ、認識失敗数を軽減することを目的とする。

本発明に係る音声認識装置は、単語と複数の読み情報とを対応付けて記憶し、かつ複数の読み情報のうちの基準となる基準読み情報と他の読み情報との異同度合いを示す揺らぎ度を記憶する音声認識用辞書と、音声信号の入力を受け付ける音声信号入力部と、音声認識用辞書に記憶されている単語に対応する複数の読み情報のうち、揺らぎ度に関する所定条件を満たす読み情報を、音声認識用の音節または音素モデル列を生成するための読み情報として選択する読み情報選択部と、音声信号入力部から入力された音声信号を、読み情報選択部で選択された読み情報に基づいて所定の音響モデルから生成される音節または音素モデル列を用いて音声認識し、音声認識用辞書に記憶されている単語に相当する音声信号が含まれているか否かを判定し、含まれている場合には該当する単語を音声認識結果として出力する音声認識部とを含む。

本発明に係る音声認識方法をコンピュータに実行させるためのプログラムは、単語と複数の読み情報とを対応付けて記憶し、かつ複数の読み情報のうちの基準となる基準読み情報と他の読み情報との異同度合いを示す揺らぎ度を音声認識用辞書に記憶させる段階と、音声信号の入力を受け付ける段階と、音声認識用辞書に記憶されている単語に対応する複数の読み情報のうち、揺らぎ度に関する所定条件を満たす読み情報を、音声認識用の音節または音素モデル列を生成するための読み情報として選択する段階と、入力された音声信号を、選択された読み情報に基づいて所定の音響モデルから生成される音節または音素モデル列を用いて音声認識し、音声認識用辞書に記憶されている単語に相当する音声信号が含まれているか否かを判定して、含まれている場合には該当する単語を音声認識結果として出力する段階とを含む。

ここで、揺らぎ度とは、単語に対して複数の読み情報が設定されている場合に、基準となる基準読み情報に対してどの程度異なる読みであるかの異同度合いを示すものであって、たとえば、基準読み情報との文字列間の距離を用いて表すことが可能である。一例として、揺らぎ度＝（基準読み情報の音節数）−（一致する音節数）で算出することができる。また、基準読み情報と他の読み情報との間の距離を前述したような所定の方法で算出し、さらに所定のアルゴリズムを用いてその他の要因を加味して揺らぎ度を決定することも可能である。

本発明によれば、音声認識用辞書の各単語に対応して記憶された複数の読み情報を、それぞれ基準読み情報との異同度合いを示す揺らぎ度を算出して記憶しておき、揺らぎ度に関する所定条件に基づいて選択された読み情報に基づいて、音声認識処理に用いる音節または音素モデル列を生成している。このことから、音声認識用辞書の各単語に対応して、基準読み情報以外の読み情報が複数追加されているような場合であって、揺らぎ度に関する所定条件を適宜設定することによって、誤認識数を軽減することが可能となり、認識失敗数を軽減できる。

第１実施形態に係る音声認識装置の機能ブロック図である。第１実施形態に係る音声認識方法のフローチャートである。第１実施形態に用いられる揺らぎ度テーブルの一例を示す説明図である。第１実施形態に用いられる閾値設定テーブルの一例を示す説明図である。第１実施形態に用いられる閾値設定テーブルの一例を示す説明図である。第２実施形態に係る音声認識装置の示す機能ブロック図である。第２実施形態に係る音声認識方法のフローチャートである。認識頻度−閾値対応テーブルの一例を示す説明図である。認識スコアの認識頻度による閾値設定テーブルの一例を示す説明図である。第３実施形態に係る音声認識装置の機能ブロック図である。第３実施形態に係る音声認識方法のフローチャートである。再設定された揺らぎ度テーブルの一例を示す説明図である。音声認識用辞書作成装置を構成するハードウェア構成例を示す説明図である。

本発明の詳細を添付した図面に基づいて説明する。

〈第１実施形態〉
図１は、本発明に係る音声認識装置の構成を示す機能ブロック図である。

音声認識装置10は、音声信号入力部11、音声認識部12、読み情報選択部13、音声認識用辞書14を備えている。

さらに、音声認識装置10は、実際に発声された音声データから作成した音響モデル15を備えており、音響モデル15に記憶された音節または音素毎のモデルにより、音節または音素のモデル列を生成し、これを参照して音声認識を行うように構成される。

音声信号入力部11は、利用者が発声する音声信号の入力を受け付けるものである。

音声認識用辞書14は、単語と複数の読み情報とを対応付けて記憶し、かつ複数の読み情報のうちの基準となる基準読み情報と他の読み情報との異同度合いを示す揺らぎ度を記憶する。

読み情報選択部13は、音声認識用辞書14に記憶されている単語に対応する複数の読み情報のうち、揺らぎ度に関する所定条件を満たす読み情報を、音声認識用の音節または音素モデルを生成するための読み情報として選択する。

音声認識部12は、音声信号入力部11から入力された音声信号を、読み情報選択部13で選択された読み情報に基づいて、音響モデル15から生成される音節または音素モデル列を用いて音声認識し、音声認識用辞書14に記憶されている単語に相当する音声信号が含まれているか否かを判定する。

音声認識装置10は、さらに認識結果保存部16を備えており、音声認識部12で音声認識した認識結果をこの認識結果保存部16に出力し保存する。

図２は、本発明の第１実施形態に係る音声認識装置における音声認識方法のフローチャートである。

ステップ21において、音声認識装置10は、音声信号入力部11により音声信号の入力を受け付けて、音声認識部12に送信する。

ステップS22において、音声認識装置10は、読み情報選択部13により揺らぎ度に関する所定条件を読み込む。ここで言う揺らぎ度は、前述したように、基準読み情報に対してどの程度異なる読みであるかの異同程度を示す数値である。例えば、基準読み情報とその他の読み情報との文字列間の距離を用いて表すことができる。また、揺らぎ度は、（基準読み情報の音節数）−（一致する音節数）で表すことが可能であり、このような所定の数式で算出された数値に更にその他の要因を加味して調整された数値で表すことが可能である。

図３は、単語に対応する複数の読み情報に対してそれぞれ揺らぎ度を設定した揺らぎ度テーブルの一例を示す説明図である。図３に示す揺らぎ度テーブル31は、表記欄32、読み情報欄33、揺らぎ度欄34で構成されている。たとえば、「沖縄」と表記である単語に対して、標準的な読み情報である「おきなわ」、追加された拡張読み情報である「おきなあ」及び「きなー」が対応して記憶されているものとする。初期的な設定では、標準読み情報である「おきなわ」が優先的に選択される基準読み情報に設定されており、この基準読み情報と他の読み情報との異同程度を決定して揺らぎ度欄34に格納されている。ここで、標準読み情報とは、その単語に対して発声揺らぎのない標準的な読み情報であり、拡張読み情報は標準読み情報による発声が変化し易いとの知見に基づいて設定される読み情報である。たとえば、「沖縄」という単語に対して、発声揺らぎのない標準読み情報として「おきなわ」を設定した場合に、この「おきなわ」という発声が「おきなあ」と変化し易いとの経験に基づいて、この「おきなあ」を拡張読み情報として追加する。また、発声の変形規則に対応する所定のアルゴリズムに基づいて、標準読み情報に対する拡張読み情報を追加することも可能である。

たとえば、「なわ」に対して「なー」という変形容易性の規則がある場合に、このような変形規則に基づいて、自動的に拡張読み情報を追加するように構成することが可能である。さらに、単語の標準読み情報に対応して発声された音声信号を音声認識して、得られた認識結果読み情報を拡張読み情報として追加するように構成することも可能である。このような揺らぎ度テーブル31は、音声認識用辞書14内に各単語及び対応する読み情報に対して設定され記憶されているものとする。

図４は、所定条件の設定に関する所定条件テーブルの一例を示す説明図である。

所定条件テーブル41は、単語欄42、選択方法欄43、閾値欄44で構成されており、単語欄42に格納される単語に対して、揺らぎ度の閾値で読み情報を選択するか、あるいは揺らぎ度の小さい順に上位Ｎ個の読み情報を選択するかの選択方法が選択方法欄43に格納され、閾値44に選択方法に対する閾値が格納される。図４に示す所定条件テーブルでは、初期設定として、全ての単語に対して、揺らぎ度が閾値以下である読み情報を選択する選択方法であって、その閾値が10であることが設定された例を示している。

図５は、所定条件テーブルの内容を単語毎に変更した場合の一例を示す説明図である。この図５で示す所定条件テーブル41では、「沖縄」という単語に対しては、揺らぎ度が閾値以下の読み情報を選択する選択方法が設定され、その閾値が４であることが設定されている。また、「北海道」という単語に対しては、揺らぎ度の小さい順に上位Ｎ個の読み情報を選択する選択方法が設定されており、その閾値（Ｎの値）が３に設定されている。さらに、その他残りの全ての単語に対しては、揺らぎ度が閾値以下となる読み情報を選択する選択方法が設定されており、その閾値が10に設定されている。このような所定条件設定テーブル41は、音声認識装置10内の記憶装置の所定領域に記憶させておくことが可能であり、音声認識用辞書14内に記憶させておくことも可能であり、さらに外部の記憶装置に記憶させておくことも可能である。

また、所定条件テーブルにおける選択条件や閾値は、利用者情報やタスク情報と関連付けて記憶しておくことも可能であり、利用者やタスク毎に該当する選択条件や閾値を用いて読み情報の選択を行うように構成することが可能である。

読み情報選択部13は、ステップS22において、所定条件テーブル41で設定された選択方法及び閾値に基づいて、音声認識用辞書14の各単語に対応する読み情報を選択する。

ステップS23において、音声認識装置10は、読み情報選択部13によって選択された読み情報に基づいて、音響モデル15に記憶されている音節または音素モデルを用いて音節または音素モデル列を生成する。

ステップS24において、音声認識装置10の音声認識部12は、読み情報選択部13で選択された読み情報に基づいて生成した音節または音素モデル列を用いて、音声信号入力部11から入力された音声信号に対して音声認識処理を実行する。

ステップS25において、音声認識装置10の音声認識部12は、音声認識を実行した認識結果を出力する。音声認識部12による音声認識結果は、ディスプレイ装置などに表示するように構成することも可能であり、認識結果保存部16に保存するように構成することも可能である。

以上のように、本発明の第１実施形態に係る音声認識装置10では、標準読み情報と拡張読み情報とを含む複数の読み情報にうちから、所定条件で選択された読み情報に基づいて音節または音素モデル列を生成して音声認識を行っていることから、所定条件を適宜設定することによって、標準読み情報との揺らぎ度が大きい読み情報に基づいて誤認識を発生する件数を減少することが可能となり、認識失敗数を減少することが可能となる。

〈第２実施形態〉
図６は、本発明の第２実施形態に係る音声認識装置の構成を示す機能ブロック図である。

この第２実施形態に係る音声認識装置60は、第１実施形態に係る音声認識装置10と同様の構成を備えており、同一部分については同一符号を付して説明する。

音声認識装置60は、音声信号入力部11、音声認識部12、読み情報選択部13、音声認識用辞書14、認識頻度計数部61を備えている。

さらに、音声認識装置10は、実際に発声された音声データから作成した音響モデル15を備えており、音響モデル15に記憶された音節または音素モデルにより、音節または音素毎のモデル列を生成し、これを参照して音声認識を行うように構成される。

音声認識用辞書14は、単語と複数の読み情報とを対応付けて記憶し、かつ複数の読み情報のうちの基準となる基準読み情報と他の読み情報との異同度合いを示す揺らぎ度を記憶するものである。

読み情報選択部13は、音声認識用辞書14に記憶されている単語に対応する複数の読み情報のうち、揺らぎ度に関する所定条件を満たす読み情報を、音声認識用の音節または音素モデル列を生成するための読み情報として選択する。

音声認識部12は、音声信号入力部11から入力された音声信号を、読み情報選択部13で選択された読み情報に基づいて、音響モデル15中の音節または音素モデルから生成される音節または音素モデル列を用いて音声認識し、音声認識用辞書14に記憶されている単語に相当する音声信号が含まれているか否かを判定する。

認識頻度計数部61は、音声認識部12における単語毎の認識回数を計数するものである。

図７は、本発明の第２実施形態に係る音声認識装置60における音声認識方法のフローチャートである。

ステップ71において、音声認識装置60は、音声信号入力部11により音声信号の入力を受け付けて、音声認識部12に送信する。

ステップS72において、音声認識装置60は、読み情報選択部13により揺らぎ度に関する所定条件を読み込む。各単語の読み情報に設定された揺らぎ度及び揺らぎ度に関する所定条件に関しては、第１実施形態と同様であり、図３〜図５に示したようなテーブルで構成することが可能である。

音声認識部12では、読み情報選択部13において選択された読み情報に基づいて、音響モデル15に記憶されている音節または音素モデルから音節または音素モデル列を生成し、音声信号入力部11から入力された音声信号に対して、生成された音節または音素モデル列を用いて音声認識処理を実行する。

この時、音声認識部12において音声認識に成功した認識回数を認識頻度計数部61により計数する。認識頻度計数部61は、音声認識用辞書14内に記憶されている単語毎の認識回数を計数する。

ステップS75において、音声認識装置60の音声認識部12は、音声認識を実行した認識結果を出力する。音声認識部12による音声認識結果は、ディスプレイ装置などに表示するように構成することも可能であり、認識結果保存部16に保存するように構成することも可能である。

ステップS76では、音声認識装置60の認識頻度計数部61は、計数した認識頻度に応じて読み情報選択部13により読み情報を選択する際の揺らぎ度の閾値を変更する。

図８は、認識頻度と揺らぎ度の閾値との対応を表す認識頻度−閾値対応テーブルの一例を示す説明図である。

図８の例では、直近の過去100回の認識結果に含まれる単語Ａの認識数を計数した結果、認識頻度が０〜１の単語については揺らぎ度の閾値を10に設定し、認識頻度が２〜５の単語については揺らぎ度の閾値を５に設定し、認識頻度が６〜９の単語については揺らぎ度の閾値を２に設定し、認識頻度が10以上の単語については揺らぎ度の閾値を０に設定することを規定している。

この結果に基づいて、認識頻度計数部61は、図４〜図５に示す所定条件テーブル41の各単語に対応する閾値を変更する。第１実施形態と同様に、所定条件テーブル41の選択方法や閾値は、利用者情報やタスク情報と関連付けて記憶しておき、利用者やタスクに応じて該当する選択方法や閾値を用いて読み情報の選択を行うように構成することが可能である。

以上のように、本発明の第２実施形態に係る音声認識装置60では、標準読み情報と拡張読み情報とを含む複数の読み情報にうちから、所定条件で選択された読み情報に基づいて音節または音素モデルを生成して音声認識を行っていることから、所定条件を適宜設定することによって、標準読み情報との揺らぎ度が大きい読み情報に基づいて誤認識を発声する件数を減少させることが可能となり、認識失敗数を減少することが可能となる。特に、読み情報選択部13において読み情報を選択するための閾値を、認識頻度計数部61による単語毎の認識頻度に基づいて変更していることから、単語毎の認識頻度に基づいてその揺らぎ度の閾値を適切な値に設定することが可能となる。

〈第２実施形態の変形例〉
第２実施形態に係る音声認識装置60の認識頻度計数部61により頻度計数を行う際に、音声認識部12における認識スコア毎の認識頻度を計数し、この認識スコア毎の認識頻度に基づいて、読み情報選択部13において読み情報を選択する際の閾値を決定することが可能である。

音声認識部12では、読み情報選択部13において選択された読み情報に基づいて音響モデル15中の音節または音素モデルにより生成された音節または音素モデル列と、音声信号入力部11から入力された音声信号とを比較し、類似度を数値で表した認識スコアとして算出している。音声認識部12は、認識スコアが０に近い程、入力された音声信号中の音響的特徴が、選択された読み情報に基づいて生成された音節または音素モデル列に類似していると判断するものであって、認識スコアが所定の認識閾値以下であれば該当する単語として認識する。

認識スコアが所定の認識閾値以下であり音声認識部12が認識できた単語について、さらに認識閾値以下の所定の認識スコアα以上のものについての認識頻度Ａ、認識スコアα未満のものについての認識頻度Ｂをそれぞれ計数し、認識頻度Ａ，Ｂに基づいて読み情報選択時の揺らぎ度に関する閾値を決定することができる。

図９は、認識スコアの認識頻度による閾値設定テーブルの一例を示す説明図である。

図９に示す閾値設定テーブル91は、認識スコアα以上の認識頻度Ａが０〜１、２〜５、６〜９、10以上の各列と、認識スコアα未満の認識頻度Ｂが０〜１、２〜５、６〜９、10以上の各行で構成されている。なお、この閾値設定テーブル91は、所定条件の選択方法が揺らぎ度の小さい順に上位Ｎ個の読み情報を選択するものであって、認識頻度Ａ、Ｂに基づいてＮの値が設定されている。この閾設定テーブル91は、読み情報を選択する際の揺らぎ度の閾値を設定することもできる。

音声信号入力部11から入力された音声信号に対して、音声認識部12により音声認識を行った際に、認識頻度計数部61は、それぞれ単語毎に音節または音素モデル列との認識スコア値がα以上であった場合とα未満であった場合に分けて認識頻度を計数する。認識頻度計数部61は、この単語毎の認識頻度に基づいて閾値設定テーブル91を参照し、各単語に設定された所定条件テーブル41の閾値欄44の値を変更する。

このように構成した場合には、認識頻度の少ない単語に関しては、認識閾値を大きく設定する（ここでは上位Ｎ個の読み情報を選択する場合のＮの値を大きく設定する）ことで、認識スコアが離れているような場合でも音声認識できるようにして認識率を上げることができる。また、認識頻度が多い単語に関しては、認識閾値を小さく設定する（ここでは上位Ｎ個の読み情報を選択する場合のＮの値を小さく設定する）ことで、誤認識を防止することができる。

〈第３実施形態〉
図10は、本発明の第３実施形態に係る音声認識装置の構成を示す機能ブロック図である。

この第３実施形態に係る音声認識装置100は、第１実施形態に係る音声認識装置10及び第２実施形態に係る音声認識装置60と同様の構成を備えており、同一部分については同一符号を付して説明する。

音声認識装置100は、音声信号入力部11、音声認識部12、読み情報選択部13、音声認識用辞書14、辞書更新部101を備えている。

さらに、音声認識装置10は、実際に発声された音声データから作成した音響モデル15を備えており、音響モデル15に記憶された音節または音素モデルにより、音節または音素モデル列を生成し、これを参照して音声認識を行うように構成される。

辞書更新部101は、音声認識部12における認識結果に基づいて、音声認識用辞書14の各単語の基準読み情報及び拡張読み情報を再設定し、新たな基準読み情報と拡張読み情報とに基づいて拡張読み情報の揺らぎ度を再計算し、音声認識用辞書14に記憶させる。

図11は、本発明の第３実施形態に係る音声認識装置101における音声認識方法のフローチャートである。

ステップS101において、音声認識装置100は、音声信号入力部11により音声信号の入力を受け付けて、音声認識部12に送信する。

ステップS102において、音声認識装置100は、読み情報選択部13により揺らぎ度に関する所定条件を読み込む。各単語の読み情報に設定された揺らぎ度及び揺らぎ度に関する所定条件に関しては、第１実施形態及び第２実施形態と同様であり、図３〜図５に示したようなテーブルで構成することが可能である。

ステップS103において、音声認識装置100の音声認識部12は、読み情報選択部13において選択された読み情報に基づいて、音響モデル15に記憶されている音節または音素モデルから音節または音素モデル列を生成する。

ステップS104において、音声認識装置100の音声認識部12は、音声信号入力部11から入力された音声信号に対して、生成された音節または音素モデル列を用いて音声認識処理を実行する。

この時、音声認識部12において音声認識に成功した音節モデルまたは音素モデル列について、その生成元となった読み情報毎に認識頻度を辞書更新部101により計数する。

ステップS105において、音声認識装置100の音声認識部12は、音声認識を実行した認識結果を出力する。音声認識部12による音声認識結果は、ディスプレイ装置などに表示するように構成することも可能であり、認識結果保存部16に保存するように構成することも可能である。

ステップS106において、音声認識装置100の辞書更新部101は、各単語の認識頻度のうち、認識頻度が多かった読み情報を新たな基準読み情報に決定し、その他の読み情報を拡張読み情報として決定する。辞書更新部101が新たな基準読み情報を決定する際に、認識頻度に代えて、認識スコアが０に近い読み情報を基準読み情報とするように構成することも可能である。

ステップS107において、音声認識装置100の辞書更新部101は、新たに決定された基準読み情報に基づいて、他の拡張読み情報の揺らぎ度を再計算する。

ステップS108において、音声認識装置100の辞書更新部101は、新たに決定された基準読み情報、拡張読み情報及び揺らぎ度に基づいて、音声認識用辞書14の単語毎の読み情報を更新する。

「音楽会」という単語には、標準読み情報として「おんがくかい」が定義されている場合であっても、実際の発声では「おんがっかい」と発声される場合が多いと考えられる。この場合、「おんがっかい」という拡張読み情報を基準読み情報として、新たな基準読み情報に基づいてその他の読み情報の揺らぎ度を算出し、この揺らぎ度を用いて音声認識処理時の所定条件を設定することで、誤認識を抑制することができる。

図12は、辞書更新部101により再設定された揺らぎ度テーブルの一例を示す説明図である。

図３に示すような揺らぎ度テーブル31では、「沖縄」という単語に対して標準読み情報である「おきなわ」が基準読み情報と設定されており、揺らぎ度が０に設定されている。また、この基準読み情報である「おきなわ」に対して揺らぎ度が２である読み情報「おきなあ」及び揺らぎ度が６である読み情報「きなー」が拡張情報として設定されている。

音声認識部12において「沖縄」という単語を認識する際に、標準読み情報「おきなわ」を用いて生成された音節または音素モデル列を使用する場合よりも、拡張読み情報「おきなあ」を用いて生成された音節または音素モデル列を使用する場合の方が、認識頻度が高い、または認識スコアが良かった時には、辞書更新部101は、読み情報「おきなあ」を新たな基準読み情報に決定し、新たな基準読み情報に基づいて他の読み情報の揺らぎ度を再計算する。

この結果、図12に示すように、拡張読み情報「おきなあ」が新たな基準読み情報となり、標準読み情報である「おきなわ」は基準読み情報に対して揺らぎ度が２の読み情報として再設定される。なお、拡張読み読み情報「きなー」の揺らぎ度は、４と設定されている。

第３実施形態に係る音声認識装置100では、単語に定義された標準読み情報が、実際に発声される音声信号と差異を生じる場合には、実際の発声により近い読み情報を基準読み情報とし、新たに設定された基準読み情報に基づいて他の読み情報の揺らぎ度を再計算することで、誤認識の発生を抑制することができ、認識失敗数を減少することが可能となる。

図13は、本発明の音声認識用辞書作成装置を構成するハードウェア構成例を示すものであり、所定のプログラムを実行することによりコンピュータ133により音声認識用辞書作成装置を実現することができる。

本発明の実施形態に係る音声認識用辞書作成装置を実現するためのプログラムは、図13に示すように、CD-ROMやフレキシブルディスク、DVD、USBメモリなどの可搬形記録媒体132だけでなく、ネットワークを介して接続される記憶装置131や、コンピュータ133のハードディスクやRAMなどの記録装置134のいずれに記録されるものであってもよく、プログラム実行時にはコンピュータ133の主メモリ上にロードされて実行される。

また、本発明の実施形態に係る音声認識用辞書作成装置により用いられる音声認識用辞書14についても、図13に示すCD-ROMやフレキシブルディスク、DVD、USBメモリなどの可搬形記録媒体132だけでなく、ネットワークを介して接続される記憶装置131、コンピュータのハードディスクやRAMなどの記憶装置134のいずれに記憶されるものであってもよい。

本発明に係る音声認識装置は、単語に対して複数の拡張読み情報と各拡張読み情報の基準読み情報からの揺らぎ度を格納しておき、音声認識時の音節または音素モデル列を生成するための読み情報を設定された揺らぎ度に基づいて選択するように構成することで、タスクに応じて適切な音節または音素モデル列を生成して、未認識や誤認識を含む認識失敗率を軽減することができる。したがって、地名認識タスク、ニュース音声認識タスク、その他複数のタスクを備える音声認識装置に適用して、認識失敗率を軽減することができる。

１１：音声信号入力部
１２：音声認識部
１３：読み情報選択部
１４：音声認識用辞書
１５：音響モデル
１６：認識結果保存部

特許第3992586号明細書特開2003-271183号公報

Claims

単語と複数の読み情報とを対応付けて記憶し、かつ前記複数の読み情報のうちの基準となる基準読み情報と他の読み情報との異同度合いを示し、読み情報と基準読み情報との文字列間の距離に基づいて決定される揺らぎ度を記憶する音声認識用辞書と、
音声信号の入力を受け付ける音声信号入力部と、
前記音声認識用辞書に記憶されている単語に対応する複数の読み情報のうち、前記揺らぎ度に関する所定条件を満たす読み情報を、音声認識用の音節または音素モデル列を生成するための読み情報として選択する読み情報選択部と、
前記音声信号入力部から入力された音声信号を、前記読み情報選択部で選択された読み情報に基づいて所定の音響モデルから生成される音節または音素モデル列を用いて音声認識し、前記音声認識用辞書に記憶されている単語に相当する音声信号が含まれているか否かを判定し、含まれている場合は前記単語を音声認識結果として出力する音声認識部と、
を含む音声認識装置。
前記読み情報選択部は、前記複数の読み情報のうち前記揺らぎ度が所定値以下である読み情報を、前記音声認識部で用いる音節または音素モデル列を生成するための読み情報として選択する、請求項１に記載の音声認識装置。
前記読み情報選択部は、前記複数の読み情報のうち、前記揺らぎ度が低いものから順に所定個数の読み情報を選択し、
前記音声認識部は、前記選択された所定個数の読み情報を用いて音節または音素モデル列を用いて音声認識し、音声認識結果を出力する、請求項１に記載の音声認識装置。
単語と複数の読み情報とを対応付けて記憶し、かつ前記複数の読み情報のうちの基準となる基準読み情報と他の読み情報との異同度合いを示す揺らぎ度を記憶する音声認識用辞書と、
音声信号の入力を受け付ける音声信号入力部と、
前記音声認識用辞書に記憶されている単語に対応する複数の読み情報のうち、前記揺らぎ度に関する所定条件を満たす読み情報を、音声認識用の音節または音素モデル列を生成するための読み情報として選択する読み情報選択部と、
前記音声信号入力部から入力された音声信号を、前記読み情報選択部で選択された読み情報に基づいて所定の音響モデルから生成される音節または音素モデル列を用いて音声認識し、前記音声認識用辞書に記憶されている単語に相当する音声信号が含まれているか否かを判定し、含まれている場合は前記単語を音声認識結果として出力する音声認識部と、
を含み、
前記読み情報選択部は、前記複数の読み情報のうち、前記基準読み情報の音素または音節数に基づいて、前記揺らぎ度に関する所定条件を決定する音声認識装置。
単語と複数の読み情報とを対応付けて記憶し、かつ前記複数の読み情報のうちの基準となる基準読み情報と他の読み情報との異同度合いを示す揺らぎ度を記憶する音声認識用辞書と、
音声信号の入力を受け付ける音声信号入力部と、
前記音声認識用辞書に記憶されている単語に対応する複数の読み情報のうち、前記揺らぎ度に関する所定条件を満たす読み情報を、音声認識用の音節または音素モデル列を生成するための読み情報として選択する読み情報選択部と、
前記音声信号入力部から入力された音声信号を、前記読み情報選択部で選択された読み情報に基づいて所定の音響モデルから生成される音節または音素モデル列を用いて音声認識し、前記音声認識用辞書に記憶されている単語に相当する音声信号が含まれているか否かを判定し、含まれている場合は前記単語を音声認識結果として出力する音声認識部と、
前記音声認識部おける単語毎の認識回数を計数する認識頻度計数部と、
を含み、
前記読み情報選択部は、前記認識頻度計数部において計数された認識回数に基づいて、前記揺らぎ度に関する所定条件を決定する音声認識装置。
前記音声認識部は、選択した読み情報に基づいて生成した音節または音素モデル列と前記入力された音声信号とが音節または音素毎に類似しているか否かの度合いを示す認識スコアを算出し、算出した認識スコアに基づいて音声認識を行い、
前記認識頻度計数部は前記認識スコア別の認識回数を計数する、請求項５に記載の音声認識装置。
単語と複数の読み情報とを対応付けて記憶し、かつ前記複数の読み情報のうちの基準となる基準読み情報と他の読み情報との異同度合いを示す揺らぎ度を記憶する音声認識用辞書と、
音声信号の入力を受け付ける音声信号入力部と、
前記音声認識用辞書に記憶されている単語に対応する複数の読み情報のうち、前記揺らぎ度に関する所定条件を満たす読み情報を、音声認識用の音節または音素モデル列を生成するための読み情報として選択する読み情報選択部と、
前記音声信号入力部から入力された音声信号を、前記読み情報選択部で選択された読み情報に基づいて所定の音響モデルから生成される音節または音素モデル列を用いて音声認識し、前記音声認識用辞書に記憶されている単語に相当する音声信号が含まれているか否かを判定し、含まれている場合は前記単語を音声認識結果として出力する音声認識部と、
を含み、
前記音声認識用辞書は、各単語の標準的な読み情報である標準読み情報を前記基準読み情報とし、前記単語に対応する標準読み情報以外の読み情報を拡張読み情報とする初期設定がなされており、
前記音声認識部における認識結果に基づいて、前記音声認識用辞書の各単語の基準読み情報及び拡張読み情報を再設定し、新たな基準読み情報と拡張読み情報とに基づいて前記拡張読み情報の揺らぎ度を再計算して前記音声認識用辞書に記憶させる辞書更新部をさらに含む音声認識装置。
単語と複数の読み情報とを対応付けて記憶し、かつ前記複数の読み情報のうちの基準となる基準読み情報と他の読み情報との異同度合いを示し、読み情報と基準読み情報との文字列間の距離に基づいて決定される揺らぎ度を音声認識用辞書に記憶させる段階と、
音声信号の入力を受け付ける段階と、
前記音声認識用辞書に記憶されている単語に対応する複数の読み情報のうち、揺らぎ度に関する所定条件を満たす読み情報を、音声認識用の音節または音素モデル列を生成するための読み情報として選択する段階と、
前記入力された音声信号を、前記選択された読み情報に基づいて所定の音響モデルから生成される音節または音素モデル列を用いて音声認識し、前記音声認識用辞書に記憶されている単語に相当する音声信号が含まれているか否かを判定し、含まれている場合は前記単語を音声認識結果として出力する段階と、
を含む音声認識方法のプログラムをコンピュータに実行させるためのプログラム。