JP3578587B2

JP3578587B2 - 音声認識装置および音声認識方法

Info

Publication number: JP3578587B2
Application number: JP09529397A
Authority: JP
Inventors: 勝黒田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-03-28
Filing date: 1997-03-28
Publication date: 2004-10-20
Anticipated expiration: 2017-03-28
Also published as: JPH10274993A; US6157911A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置および音声認識方法に関する。
【０００２】
【従来の技術】
従来、音声認識の手法として、音声区間検出を行なって音声認識を行なう方法が知られている。音声区間検出を行なって音声認識を行なう方法では、音声のパワー情報などを使用して、認識すべき音声区間の始端と終端を決定し、この音声区間情報に基づいて認識処理を行なうようになっている。図９は音声区間検出を行なって音声認識を行なう方法の処理例を示すフローチャートであり、音声区間検出を行なって音声認識を行なう方法では、認識開始の起動を行なった後（ステップＳ１）、話者が発声することで音声区間検出を行ない（ステップＳ２）、その後、音声区間の音声情報と辞書との照合を行ない（ステップＳ３）、最も類似度の高い認識対象（辞書単語）を認識結果として出力する。この場合、ステップＳ２において、音声区間の始端はパワー情報によって容易に検出できるが、音声区間の終端は、音声中の破裂性の子音の前の無音や促音の無音とを区別するために、無音が一定時間以上継続する場合に音声区間の終端として判定するようになっている。
【０００３】
しかしながら、音声区間の終端を判定するための無音の継続時間は、促音の無音とを区別するために、一般に２５０〜３５０ｍ秒程度であり、従って、この方法では、音声入力が終了しても、２５０〜３５０ｍ秒程度の時間が経過するまでは認識結果を出力することができず、応答の遅い認識システムとなってしまう。また、応答を速くするために、終端判定のための無音継続時間を短かくすると、発声が終了する前に促音で結果が出力されて、誤った認識結果が出力されるという欠点があった。
【０００４】
また、一般的に、ある発声をするときに、話者は「え〜」や「あの〜」といった認識とは無関係な不要語を発声することがよくある。認識対象となる音声に対して、辞書との照合は音声区間の始端から始めるので、「え〜」や「あの〜」という発声が入ると、類似度が著しく悪くなり、誤認識の原因となる。
【０００５】
上記各々の欠点を解消する方法として、ワードスポッティング法がある。図１０はワードスポッティング法の処理例を示すフローチャートであり、ワードスポッティング法では、認識開始の起動を行なった後（ステップＳ１１）、話者が音声を発声すると、音声区間検出を行なうことなく、発声した音声情報を辞書と照合する（ステップＳ１２）。そして、この照合の結果の類似度が所定の閾値を越えたか否かを判断し（ステップＳ１３）、所定の閾値を越えていないときには、再びステップＳ１２に戻り、音声情報の辞書との照合を継続する。そして、ステップＳ１３において、類似度が所定の閾値を越えたときに、この類似度を与えた認識対象を認識結果として出力する（ステップＳ１４）。このようなワードスポッティング法は、音声区間検出を必要としないので、応答の速いシステムを構築し易く、また、不要語に対しても、発声全体から不要語を取り除いて認識結果を出力するので、良好な認識結果を得ることができるという利点がある。
【０００６】
【発明が解決しようとする課題】
しかしながら、ワードスポッティング法にも次のような問題がある。
【０００７】
すなわち、ワードスポッティング法では、例えば、電話番号のような数字を認識するときに、例えば「５６７７」という発声があった場合、図１１に示すように、「５（ゴ）」，「６（ロク）」の発声に対して、「５」，「６」の認識結果が出力されるが、「７（ナナ）」，「７（ナナ）」に対しては同じ音が並ぶために、「７」の認識結果が３回出力されてしまう。すなわち、図１１に示すように、「ナナナナ」という発声の中において、「ナナ」という音が３ヶ所でスポッティングされるため、「７」の認識結果が１回余分に出力されてしまうという問題があった。
【０００８】
本発明は、「ナナナナ」のように音節が連続してなる認識対象（認識単語）に対しても、ワードスポッティング特有の不要な認識結果が出力されないようにすることの可能な音声認識装置および音声認識方法を提供することを目的としている。
【０００９】
【課題を解決するための手段】
上記目的を達成するために、請求項１記載の発明は、音声を入力する入力手段と、入力手段から入力された音声から特徴量を抽出する特徴抽出手段と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書と、特徴抽出手段で抽出された入力音声の特徴量を標準辞書に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合手段と、照合手段の照合結果に基づき、類似度が高い認識対象を認識結果として出力する結果出力手段とを有しており、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することを特徴としている。
【００１０】
また、請求項２記載の発明は、音声を入力する入力手段と、入力手段から入力された音声から特徴量を抽出する特徴抽出手段と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書と、特徴抽出手段で抽出された入力音声の特徴量を標準辞書に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合手段と、照合手段の照合結果に基づき、類似度が高い認識対象を認識結果として出力する結果出力手段とを有しており、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定することを特徴としている。
【００１１】
また、請求項３記載の発明は、ワードスポッティング法により音声認識を行なう音声認識方法において、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することを特徴としている。
【００１２】
また、請求項４記載の発明は、ワードスポッティング法により音声認識を行なう音声認識方法において、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定することを特徴としている。
【００１３】
【発明の実施の形態】
以下、本発明の実施形態を図面に基づいて説明する。図１は本発明に係る音声認識装置の構成例を示す図である。図１を参照すると、この音声認識装置は、音声を入力する入力部（例えばマイクロホン）１と、入力部１から入力された音声から特徴量を抽出する特徴抽出部２と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書３と、特徴抽出部１で抽出された入力音声の特徴量を標準辞書３に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合部４と、照合部４の照合結果に基づき、例えば、類似度が最も高い認識対象であって、該類似度（の最大値）が所定の閾値（リジェクト閾値）を越えた認識対象を認識結果として出力する結果出力部５とを有している。
【００１４】
ここで、特徴抽出部２，標準辞書３，照合部４，結果出力部５には、例えば、音声区間を必要としないワードスポッティング法による認識技術が用いられる。なお、ワードスポッティング法による認識技術としては、例えば継続時間制御型状態遷移モデルを用いた単語音声認識法を用いることができ、単語音声認識法による認識を行なえば、音声の終了付近で類似度が最大となり、類似度のピーク点を検出することで認識結果を出力することができる。
【００１５】
次に、図１の音声認識装置の動作について説明する。音声が入力部１に入力されると、入力された音声は、特徴抽出部２で所定の特徴量に変換される。ここで、特徴量としては、周波数帯域でのパワー値を示すＴＳＰやケプストラム値などが一般的である。
【００１６】
特徴抽出部２で得られた入力音声の特徴量は、照合部４において、標準辞書３に予め格納されている各認識対象の標準的な特徴量と比較され、各認識対象の類似度が計算される。そして、結果出力部５は、照合部４の照合結果に基づき、例えば、類似度が最も高い認識対象であって、該類似度（の最大値）が所定の閾値（リジェクト閾値）を越えた認識対象を認識結果として出力する。
【００１７】
次に、具体的な動作例について説明する。上記のような構成の音声認識装置において、実際に図２に示すような「ゼロ」という発声が行なわれた時には、この入力音声の特徴量を標準辞書３内の標準的な特徴量と照合して類似度を計算する際、計算された類似度は「ゼロ」という発声が終わったところで最大となる。しかし、この類似度が最大となったか否かは、類似度が最大値となった後、ある時間を経過しないと検出できない。すなわち、類似度が最大値となった後、類似度が最大値に達したか否かは、ある時間を経過しないとわからない。ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間ｔ_ｉを、本発明では、この認識対象の応答時間（ｔ_ｉ）と定義する。
【００１８】
この応答時間ｔ_ｉを考慮して、図３に示すように、認識対象となる単語毎に、その単語に対する辞書に応答時間ｔ_ｉの属性を付加することができる。例えば、標準辞書３として、認識対象となる単語毎に、標準的な特徴量とともに、応答時間ｔ_ｉを付加することができる。なお、図３の例では、全ての認識対象について、一率に同じ応答時間ｔ_ｉ（＝０．２秒）が付加されている場合が示されている。しかしながら、図３の例のように、全ての認識対象について、一率に同じ応答時間ｔ_ｉ（＝０．２秒）を付加する場合、前述のように、「ナナナナ」のように音節が連続してなる認識対象（認識単語）に対しても、ワードスポッティング特有の不要な認識結果が出力されてしまうという問題が生ずる。すなわち、この場合、「えーとナナナナの…」のように、連続して発声した時は、図４に示すように、「ナナナナ」の発声に対し３回の類似度ピークＰ_１，Ｐ_２，Ｐ_３が得られ、「ナナ」の認識結果が３回出力されてしまう。
【００１９】
このような問題を回避するため、本発明の第１の実施形態では、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間ｔ _i を、この認識対象の応答時間 ( ｔ _i ) とするとき、連続する同一の音節によって構成される認識対象(認識単語)が標準辞書に存在するときには、その認識単語の応答時間ｔ_iを、標準辞書に含まれる他の認識単語の応答時間よりも長く設定するようになっている。
【００２０】
ここで、連続する音節によって構成される認識単語の認識結果出力の応答時間ｔ_iとしては、実際に測定される(考えられうる)応答時間ｔ_iの最大の時間、あるいは、実際に測定される(考えられうる)応答時間ｔ_iよりも長い応答時間を設定することができる。
【００２１】
しかしながら、辞書に設定される応答時間ｔ_iを長くすることは、認識結果の出力がユーザから見て遅くなることになるため、設定される応答時間ｔ_iは、最大でも０．５〜０．８秒程度が限界である。また、連続する同一の音節によって構成される認識単語以外の認識単語については、認識結果出力が迅速になされるよう、応答時間ｔ_iが短かく設定されるのが良い。
【００２２】
図５には、本発明の第１の実施形態による応答時間ｔ_ｉの付加例が示されており、図５の例では、認識対象「７（ナナ）」についての応答時間ｔ_ｉが、他の認識対象の応答時間ｔ_ｉに比べて長く設定されている。すなわち、「０（ゼロ）」や「１（イチ）」などは、応答時間ｔ_ｉが０．２秒に設定されているのに対し、「７（ナナ）」については応答時間ｔ_ｉが０．５秒と長く設定されている。
【００２３】
このような設定では、「ゼロ」や「イチ」をそれぞれ発声した時は、応答時間が０．２秒であるので、各々の発声終了後０．２秒で認識結果が出力される。また、これらを例えば「えーとゼロイチの…」のように連続して発声したときも、同様に、「ゼロ」，「イチ」をワードスポッティングした後、０．２秒で認識結果が出力される。また、「ナナ」と発声した時は、応答時間が０．５秒であるので、「ナナ」の発声終了後、０．５秒で認識結果が出力される。また、「えーとナナナナの…」のように、連続して発声した時は、図６に示すように、「ナナナナ」の発声に対し３回の類似度ピークＰ_１，Ｐ_２，Ｐ_３が得られる。このとき、２番目の「ナナ」は１番目の「ナナ」や３番目の「ナナ」と異なり、発声に微妙な間（ま）があるため、２番目の「ナナ」の類似度ピークＰ_２は、１番目，３番目の「ナナ」の類似度ピークＰ_１，Ｐ_３に比べていくらか下がり、このことから、２番目の「ナナ」は不要語であることがわかる。本発明では、認識対象「ナナ」については、応答時間ｔ_ｉを０．５秒と長くすることにより、２番目の類似度ピークＰ_２は１番目の類似度ピークＰ_１に隠れて、その認識結果は出力されなくなる。従って、全体として、１番目の類似度ピークＰ_１と３番目の類似度ピークＰ_３とによる２つの「ナナ」の認識結果だけが出力され、２番目の類似度ピークＰ_２によるものは棄却される。
【００２４】
このように、本発明の第１の実施形態では、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することで、「ナナナナ」のように音節が連続してなる認識対象(認識単語)に対しても、ワードスポッティング特有の不要な認識結果が出力されないようにすることができる。
【００２５】
また、本発明の第２の実施形態では、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定するようになっている。具体的に、ｑを無音区間とするとき、「ナナ」に無音区間「ｑ」を付加した「ナナｑ」をも認識対象として辞書に登録するようにしている。
【００２６】
図７は、この第２の実施形態の処理例を説明するための図である。図７からわかるように、例えば「えーとナナナナ」の発声について、通常の場合は、「ナナナナ」の２つ目の「ナ」を発声し終えたところで類似度が最大となるところを、辞書に「ナナｑ」の認識対象をも付加したことによって、すなわち、「ナナｑ」の辞書を新たに設けたことによって、「ナナ」を発声し終わった後、僅かの時間を置いて類似度が最大となる。従って、「えーとナナナナの…」と発声した場合、「ナナナナ」の部分については、類似度のピークは、認識対象「ナナｑ」によるピークＰ_ａと、その後の認識対象「ナナ」によるピークＰ_ｂとの２つとなり、類似度のピークが「ナナ」の発声直後「ｑ］の時間分遅れて２回だけ現われ、第１の実施形態と同様に、「ナナ」の認識結果が３回生起するのを有効に防止できる。なお、この第２の実施形態では、「ナナｑ」をも含めた各認識対象の応答時間は、例えば図３に示すように、全て同じものに設定することができる。このように、１番目の「ナナ」の発声部分と３番目の「ナナ」の発声部分との間の無音区間ｑを辞書に取り込むことによっても、「ナナ」の認識結果が３回生起するのを有効に防止できる。
【００２７】
このように、本発明の音声認識装置においては、「ナナナナ」のように同一の音節が連続してなる認識対象(認識単語)に対しても、ワードスポッティング特有の不要な認識結果が出力されないようにすることができる。
【００２８】
図８は図１の音声認識装置のハードウェア構成例を示す図である。図８を参照すると、この音声認識装置は、例えばパーソナルコンピュータ等で実現され、全体を制御するＣＰＵ２１と、ＣＰＵ２１の制御プログラム等が記憶されているＲＯＭ２２と、ＣＰＵ２１のワークエリア等として使用されるＲＡＭ２３と、音声を入力する入力装置２４と、音声認識結果を出力する結果出力装置（例えば、ディスプレイやプリンタなど）２６とを有している。
【００２９】
ここで、ＣＰＵ２１は、図１の特徴抽出部２，照合部４などの機能を有している。
【００３０】
なお、ＣＰＵ２１におけるこのような特徴抽出部２，照合部４等としての機能は、例えばソフトウェアパッケージ（具体的には、ＣＤ−ＲＯＭ等の情報記録媒体）の形で提供することができ、このため、図８の例では、情報記録媒体３０がセットさせるとき、これを駆動する媒体駆動装置３１が設けられている。
【００３１】
換言すれば、本発明の音声認識装置は、汎用の計算機システムにＣＤ−ＲＯＭ等の情報記録媒体に記録されたプログラムを読み込ませて、この汎用計算機システムのマイクロプロセッサに音声認識処理を実行させる装置構成においても実施することが可能である。この場合、本発明の音声認識処理を実行するためのプログラム（すなわち、ハードウェアシステムで用いられるプログラム）は、媒体に記録された状態で提供される。プログラムなどが記録される情報記録媒体としては、ＣＤ−ＲＯＭに限られるものではなく、ＲＯＭ，ＲＡＭ，フレキシブルディスク，メモリカード等が用いられても良い。媒体に記録されたプログラムは、ハードウェアシステムに組み込まれている記憶装置、例えばハードディスク装置にインストールされることにより、このプログラムを実行して、上述した本発明の音声認識処理機能を実現する音声認識装置の構築に寄与する。
【００３２】
また、本発明の音声認識処理機能を実現するためのプログラムは、媒体の形で提供されるのみならず、通信によって（例えばサーバによって）提供されるものであっても良い。
【００３３】
【発明の効果】
以上に説明したように、請求項１，請求項３記載の発明によれば、ワードスポッティング法により音声認識を行なう場合、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定するので、同一の音節が連続してなる認識単語に対しても、ワードスポッティング特有の不要な認識結果を出力させないようにすることができる。
【００３４】
また、請求項２，請求項４記載の発明によれば、ワードスポッティング法により音声認識を行なう場合、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定するので、同一の音節が連続してなる認識単語に対しても、ワードスポッティング特有の不要な認識結果を出力させないようにすることができる。
【図面の簡単な説明】
【図１】本発明に係る音声認識装置の構成例を示す図である。
【図２】応答時間を説明するための図である。
【図３】全ての認識対象について、一率に同じ応答時間ｔ_ｉ（＝０．２秒）が付加されている場合を示す図である。
【図４】応答時間が図３のように設定されている場合の認識結果の出力例を示す図である。
【図５】本発明の第１の実施形態による応答時間ｔ_ｉの付加例を示す図である。
【図６】応答時間が図５のように設定されている場合の認識結果の出力例を示す図である。
【図７】本発明の第２の実施形態の処理例を説明するための図である。
【図８】本発明の音声認識装置のハードウェア構成例を示す図である。
【図９】音声区間検出を行なって音声認識を行なう方法の処理例を示すフローチャートである。
【図１０】ワードスポッティング法の処理例を示すフローチャートである。
【図１１】従来の認識結果出力例を説明するための図である。
【符号の説明】
１入力部
２特徴抽出部
３標準辞書
４照合部
５結果出力部

Claims

音声を入力する入力手段と、入力手段から入力された音声から特徴量を抽出する特徴抽出手段と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書と、特徴抽出手段で抽出された入力音声の特徴量を標準辞書に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合手段と、照合手段の照合結果に基づき、類似度が高い認識対象を認識結果として出力する結果出力手段とを有しており、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することを特徴とする音声認識装置。
音声を入力する入力手段と、入力手段から入力された音声から特徴量を抽出する特徴抽出手段と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書と、特徴抽出手段で抽出された入力音声の特徴量を標準辞書に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合手段と、照合手段の照合結果に基づき、類似度が高い認識対象を認識結果として出力する結果出力手段とを有しており、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定することを特徴とする音声認識装置。
ワードスポッティング法により音声認識を行なう音声認識方法において、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することを特徴とする音声認識方法。
ワードスポッティング法により音声認識を行なう音声認識方法において、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定することを特徴とする音声認識方法。