JP6221267B2

JP6221267B2 - 音声認識装置及び方法、並びに、半導体集積回路装置

Info

Publication number: JP6221267B2
Application number: JP2013042664A
Authority: JP
Inventors: 勉野中
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2013-03-05
Filing date: 2013-03-05
Publication date: 2017-11-01
Anticipated expiration: 2033-03-05
Also published as: JP2014170163A

Description

本発明は、自動販売機、家電製品、住宅設備、車載装置（ナビゲーション装置等）、及び、携帯端末等におけるヒューマンインターフェース技術の一環として、音声を認識し、その認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置において用いられる半導体集積回路装置等に関する。

音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン（「テンプレート」ともいう）と照合することによって、認識結果を得る技術である。しかしながら、照合される範囲に制限が設けられていない場合には、比較すべき特徴パターンと標準パターンとの組み合わせが膨大な数となって、認識結果を得るのに多くの時間を要すると共に、類似の標準パターンを有する単語又は文章の数も多くなることで認識率が低下してしまう傾向にある。

また、音声認識において、音声信号に基づいて単語又は文章を認識する際に要求される認識精度の厳密さ又は曖昧さは、類似の表示パターンを有する単語又は文章の数に関わらず一定に設定されている。

関連する従来技術として、特許文献１には、使用者の発話が曖昧な場合にも、使用者の発話を精度良く認識することを目的とする音声認識装置が開示されている。この音声認識装置は、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識装置であって、制御内容を表すタスクの種類を所定の決定入力に基づいて決定するタスク種類決定手段と、タスク種類決定手段により決定された種類のタスクを判断対象として、入力された音声を認識する音声認識手段とを備えている。

特許文献１の音声認識装置は、音声信号に基づいてユーザーの言葉が良好に認識されると、ユーザーの言葉において何を制御するかが特定されていなくても、どのように制御するかという指標に従って認識対象を限定して、制御対象の制御内容を決定することが可能である。しかしながら、音声信号に基づいてユーザーの言葉を認識する際に要求される認識精度の厳密さ又は曖昧さは一定であり、音声認識における認識率を向上させることはできない。

特開２００８−６４８８５号公報（段落０００６−００１０）

上述したように、音声認識において、音声信号に基づいて単語又は文章を認識する際に要求される認識精度の厳密さ又は曖昧さは、類似の表示パターンを有する単語又は文章の数に関わらず一定に設定されている。そのため、選択肢の数が多い場合と少ない場合とにおいて、又は、選択肢の中に類似する言葉が多い場合と少ない場合とにおいて、同一の認識条件で音声認識が行われるので、音声認識における認識率が向上しないという問題があった。

そこで、上記の点に鑑み、本発明の目的の１つは、音声認識における選択肢の数を適切に制限すると共に、音声認識に要求される認識精度の厳密さ又は曖昧さを選択肢に応じて変化させることにより、音声認識における認識率を向上させることである。本発明は、上述した課題若しくは問題の少なくとも１つを解決するためになされたものである。

本発明の第１の観点に係る半導体集積回路装置は、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、変換候補となる単語又は文章を表すテキストデータ、及び、変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定する変換情報設定部と、変換リストを格納する変換リスト格納部と、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出する標準パターン抽出部と、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する認識精度調整部と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部とを具備する。

また、本発明の第１の観点に係る音声認識装置は、本発明の第１の観点に係る半導体集積回路装置と、変換候補となる複数の単語又は文章を表すテキストデータ、及び、該複数の単語又は文章に応じて選択された認識精度パラメーターを、コマンドと共に半導体集積回路装置に送信する制御部とを具備する。

さらに、本発明の第１の観点に係る音声認識方法は、変換候補となる単語又は文章を表すテキストデータ、及び、変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定するステップ（ａ）と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ（ｂ）と、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整するステップ（ｃ）と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ（ｄ）と、音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ（ｅ）とを具備する。

本発明の第１の観点によれば、深い階層メニューに従って音声認識を行う場合に、選択肢の数を適切に制限すると共に、各々の選択肢の組み合わせに適した認識精度パラメーターを設定して、認識精度パラメーターに従って標準パターンの広がりの範囲を調整することにより、音声認識における認識率を向上させることができる。

本発明の第２の観点に係る半導体集積回路装置は、音声認識結果に対する応答内容を表す応答データを受信し、応答データに基づいて出力音声信号を合成する音声信号合成部をさらに具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出すことができる。

本発明の第２の観点に係る音声認識装置は、本発明の第２の観点に係る半導体集積回路装置と、半導体集積回路装置から出力される音声認識結果に応じて複数の応答内容の中から応答内容を選択し、選択された応答内容を表す応答データ、応答内容に対する回答として変換候補となる単語又は文章を表すテキストデータ、及び、変換候補となる単語又は文章に応じて選択された認識精度パラメーターを、コマンドと共に半導体集積回路装置に送信する制御部とを具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対応する複数の単語又は文章を表すテキストデータを変換リストに設定すると共に、それらの単語又は文章に応じて選択された認識精度パラメーターを認識精度調整部に設定することができる。

本発明の第３の観点に係る半導体集積回路装置においては、信号処理部が、音声信号のレベルが所定の値を超えたときに音声検出信号を活性化する。これにより、ユーザーからの要求又は回答の有無を判定することができる。

本発明の第３の観点に係る音声認識装置は、本発明の第３の観点に係る半導体集積回路装置と、音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、新たな認識精度パラメーターを新たなコマンドと共に半導体集積回路装置に送信し、一致検出を行うように半導体集積回路装置を制御する制御部とを具備する。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、認識精度パラメーターを変更して一致検出を再度行うことができる。

本発明の一実施形態に係る音声認識装置の構成例を示す図。図１に示す音声認識装置によって実施される音声認識方法を示すフロー図。食品メニューに表示されている複数の食品名を含む変換リストＡを示す図。質問に対する複数の回答を含む変換リストＢを示す図。

以下、本発明の実施形態について、図面を参照しながら詳しく説明する。
図１は、本発明の一実施形態に係る音声認識装置の構成例を示す図である。この音声認識装置は、例えば、自動販売機、家電製品、住宅設備、車載装置（ナビゲーション装置等）、又は、携帯端末等に搭載され、ユーザーの音声を認識し、その認識結果に対応する応答や処理を行うものである。

図１に示すように、音声認識装置は、音声入力部１０と、Ａ／Ｄ変換器２０と、音声認識用の半導体集積回路装置３０と、Ｄ／Ａ変換器４０と、音声出力部５０と、制御部６０とを含んでいる。なお、音声入力部１０、Ａ／Ｄ変換器２０、Ｄ／Ａ変換器４０、及び、音声出力部５０の少なくとも一部を、半導体集積回路装置３０に内蔵しても良い。

制御部６０は、ホストＣＰＵ（中央演算装置）６１と、格納部６２とを含んでいる。ホストＣＰＵ６１は、格納部６２の記録媒体に記録されているソフトウェア（音声認識制御プログラム）に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、ＭＯ、ＭＴ、ＣＤ−ＲＯＭ、又は、ＤＶＤ−ＲＯＭ等を用いることができる。ホストＣＰＵ６１は、半導体集積回路装置３０に制御信号を供給することにより、半導体集積回路装置３０における音声認識動作を制御する。

音声入力部１０は、音声を電気信号（音声信号）に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルターとを含んでいる。Ａ／Ｄ変換器２０は、音声入力部１０から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号（音声データ）に変換する。例えば、音声データにおける音声周波数帯域は１２ｋＨｚであり、ビット数は１６ビットである。

半導体集積回路装置３０は、信号処理部３１と、音声認識ＤＢ（データベース）格納部３２と、変換情報設定部３３と、変換リスト格納部３４と、標準パターン抽出部３５と、認識精度調整部３６と、一致検出部３７とを含んでいる。さらに、半導体集積回路装置３０は、音声信号合成部３８、及び／又は、音声合成ＤＢ（データベース）格納部３９を含んでも良い。

信号処理部３１は、入力された音声信号にフーリエ変換を施すことにより音声信号の複数の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。生成された特徴パターンは一致検出部３７に出力される。また、信号処理部３１は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部３７及びホストＣＰＵ６１に出力する。これにより、ユーザーからの要求又は回答の有無を判定することができる。

ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部３１は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部３１は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部３１は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部３１は、各々の周波数成分の絶対値を求める。

信号処理部３１は、それらの周波数成分に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部３１は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が２０個であれば、２０個の数値が得られる。

このようにして得られた数値の内で低次のもの（例えば、１２個）が、ＭＦＣＣ（メル周波数ケプストラム係数）と呼ばれる。信号処理部３１は、フレーム毎にＭＦＣＣを算出し、ＨＭＭ（隠れマルコフモデル）に従ってＭＦＣＣを連結して、時系列で入力された音声信号に含まれている各々の音素に対応するＭＦＣＣとして特徴パターンを求める。

ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」の母音と、「ｋ」、「ｓ」、「ｔ」、「ｎ」等の子音と、「ｊ」、「ｗ」の半母音と、「Ｎ」、「Ｑ」、「Ｈ」の特殊モーラとが該当する。

音声認識データベース格納部３２は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられている。

標準パターンは、多数（例えば、２００人程度）の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からＭＦＣＣが求められる。ただし、多数の話者が発した音声を用いて作成されたＭＦＣＣにおいては、それぞれの数値がばらつきを有している。

従って、各々の音素についての標準パターンは、多次元空間（例えば、１２次元空間）において、ばらつきを含む広がりを有している。信号処理部３１に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。

また、１つの音声認識データベースではなく、複数の音声認識データベースを用いるようにしても良い。例えば、音声認識データベース格納部３２は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数の音声認識データベースを格納しても良い。その場合に、一致検出部３７は、複数の音声認識データベースの内から、音素の一致を良好に検出できる音声認識データベースを選択して使用することができる。

あるいは、音声認識装置を使用するユーザーの年齢及び性別を特定できる場合には、音声認識データベース格納部３２は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声データに基づいて生成された複数の音声認識データベースを、年齢及び性別を特定する情報に対応付けて格納しても良い。その場合に、一致検出部３７は、音声認識データベース格納部３２に格納されている複数の音声認識データベースの内から、音声認識装置を使用するユーザーの年齢及び性別を特定する情報に従って１つの音声認識データベースを選択して使用することができる。

変換情報設定部３３は、変換候補となる複数の単語又は文章を表すテキストデータ、及び、音声信号に基づいて単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共にホストＣＰＵ６１から受信する。また、変換情報設定部３３は、受信されたコマンドに従って、変換リストにテキストデータを設定すると共に、認識精度調整部３６に認識精度パラメーターを設定する。変換リスト格納部３４は、変換リストを格納する。

コマンドとしては、例えば、変換リストにおける全てのテキストデータ及び認識精度パラメーターを新規設定するための設定コマンドと、変換リストに一部のテキストデータを追加するための追加コマンドと、変換リストから一部のテキストデータを削除するための削除コマンドとが用いられる。従って、変換リスト全体を置き換えることなく、変換リストの一部を任意に変更することも可能である。また、認識精度パラメーターのみを変更するための変更コマンドが用いられても良い。尚、変換リストには、予め所定のテキストデータの設定がなされていても良い。

変換リスト格納部３４において、変換リストに新たなテキストデータが設定されると、標準パターン抽出部３５は、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを、音声認識データベースから抽出する。

認識精度調整部３６は、変換情報設定部３３によって設定された認識精度パラメーターに従って、音声認識データベース３２から抽出された標準パターンの広がりの範囲を調整する。標準パターン抽出部３５によって音声認識データベース３２から抽出された標準パターンは、多次元空間において、ばらつきを含む広がりを有しているが、認識精度調整部３６は、この標準パターンの広がりの範囲を調整する。

以下の例においては、認識精度パラメーターによって表される認識精度の厳密さ又は曖昧さが、最も曖昧なランク１から最も厳密なランクＭまでのＭ個のランクに分類される（Ｍは、２以上の自然数）。ある標準パターンＡのＮ次元空間（Ｎは自然数）における広がりをＡ１（ｉ）〜Ａ２（ｉ）で表すと（ｉ＝１、２、・・・、Ｎ）、認識精度調整部３６によって調整された標準パターンＡの広がりの範囲Ａ１ａ（ｉ）〜Ａ２ａ（ｉ）は、ランクＲ（１≦Ｒ≦Ｍ）を用いて、例えば、次式によって表される。
Ａ１ａ（ｉ）＝Ａ１（ｉ）−ｋ・（Ｍ−Ｒ）・（Ａ２（ｉ）−Ａ１（ｉ））
Ａ２ａ（ｉ）＝Ａ２（ｉ）＋ｋ・（Ｍ−Ｒ）・（Ａ２（ｉ）−Ａ１（ｉ））
ここで、ｋは定数である。

例えば、自動車の制御に音声認識を適用するような場合には、誤った制御が行われることを防止するために、最も厳密なランクＭを表す認識精度パラメーター「Ｍ」が設定される。一方、変換リストに含まれている２つの単語の内の一方を選択するような場合には、音声認識において誤りが生じる可能性が低いので、最も曖昧なランク１を表す認識精度パラメーター「１」が設定される。

あるいは、変換リストにおいて選択肢の数が所定の数よりも多いか少ないかに応じて異なる認識精度パラメーターを設定しても良い。また、変換リストにおいて選択肢に含まれている類似する言葉が所定の数よりも多いか少ないかに応じて異なる認識精度パラメーターを設定しても良い。

一致検出部３７は、音声検出信号が活性化されているときに動作し、信号処理部３１によって生成された特徴パターンと、認識精度調整部３６によって広がりの範囲が調整された標準パターンとを比較する。そして、一致検出部３７は、入力された音声信号の少なくとも一部から生成された特徴パターンが、認識精度調整部３６によって調整された標準パターンの広がりの範囲内に入っているか否かを判定する。

比較はＮ次元空間における各成分について行われ、ｉ＝１、２、・・・、Ｎについて次式が満たされれば、特徴パターンＢが標準パターンＡの広がりの範囲内に入っていると判定される。
Ａ１ａ（ｉ）≦Ｂ（ｉ）≦Ａ２ａ（ｉ）
一致検出部３７は、入力された音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の一致を検出する。

例えば、一致検出部３７は、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。変換リストにおいて、一致が検出された音節を先頭に有する変換候補が１つだけ存在する場合には、その変換候補が、変換後の単語又は文章となる。一方、変換リストにおいて、一致が検出された音節を先頭に有する複数の変換候補が存在する場合には、一致検出部３７は、変換候補が１つに絞られるまで、一致を検出すべき音節の範囲を拡大する。

ここで、「音節」とは、１個の母音を主音とし、その母音単独で、あるいは、その母音の前後に１つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、１つの音節は、１つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。

例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「ａ」についての標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第１番目の音素「ｋ」についての標準パターンと、音節「か」を構成する第２番目の音素「ａ」についての標準パターンとのことである。

入力された音声信号の１つの音節が１つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の１つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。

特徴パターンと標準パターンとの一致が検出されると、一致検出部３７は、一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。これにより、ホストＣＰＵ６１は、半導体集積回路装置３０に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。

ホストＣＰＵ６１は、半導体集積回路装置３０から出力される音声認識結果に応じて複数の応答内容（質問又はメッセージ）の中から１つの応答内容を選択し、選択された応答内容を表す応答データを半導体集積回路装置３０に送信する。

半導体集積回路装置３０の音声信号合成部３８は、ホストＣＰＵ６１から音声認識結果に対する応答内容を表す応答データを受信し、受信された応答データに基づいて、出力すべき音声を表す音声信号を合成する。音声信号を合成するためには、音声合成データベース格納部３９に格納されている音声合成データベースを用いても良いが、音声認識データベース格納部３２に格納されている音声認識データベースを用いて音声信号を合成することも可能である。

その場合には、例えば、音声信号合成部３８は、応答内容に含まれている各々の音素について、音声認識データベースに含まれている標準パターンから周波数スペクトルを求める。さらに、音声信号合成部３８は、周波数スペクトルを逆フーリエ変換して音声波形を求め、応答内容に含まれている複数の音素についての複数の音声波形を繋ぎ合わせることにより、応答内容に対応する音声信号を合成する。

Ｄ／Ａ変換器４０は、音声信号合成部３８から出力されるディジタルの音声信号を、アナログの音声信号に変換する。音声出力部５０は、Ｄ／Ａ変換器４０から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、ホストＣＰＵ６１から供給される応答データによって表される応答内容を、音声として出力する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出すことができる。

また、ホストＣＰＵ６１は、選択された質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータ、及び、それらの単語又は文章に応じて選択された認識精度パラメーターを、設定コマンドと共に半導体集積回路装置３０に送信する。

半導体集積回路装置３０の変換情報設定部３３は、ホストＣＰＵ６１からテキストデータ及び認識精度パラメーターを設定コマンドと共に受信すると、受信された設定コマンドに従って、変換リストにテキストデータを設定すると共に、認識精度調整部３６に認識精度パラメーターを設定する。これにより、応答データに基づいて発せられる質問又はメッセージに対応する複数の単語又は文章を表すテキストデータを変換リストに設定すると共に、それらの単語又は文章に応じて選択された認識精度パラメーターを認識精度調整部３６に設定することができる。

次に、本発明の一実施形態に係る音声認識方法について、図１及び図２を参照しながら説明する。図２は、図１に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。

図２のステップＳ１において、ホストＣＰＵ６１が、半導体集積回路装置３０の電源投入時又はリセット後に、１つの質問又はメッセージを表す交信データと、その質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータと、それらの単語又は文章に応じて選択された認識精度パラメーターとを、設定コマンドと共に半導体集積回路装置３０に送信する。

ステップＳ２において、半導体集積回路装置３０の変換情報設定部３３が、テキストデータ及び認識精度パラメーターを、設定コマンドと共にホストＣＰＵ６１から受信する。変換情報設定部３３は、受信された設定コマンドに従って、変換リストにテキストデータを設定すると共に、認識精度調整部３６に認識精度パラメーターを設定する。

変換リストに新たなテキストデータが設定されると、ステップＳ３において、標準パターン抽出部３５が、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。また、ステップＳ４において、認識精度調整部３６が、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。

ステップＳ５において、音声信号合成部３８が、受信された交信データに基づいて音声信号を合成することにより、音声出力部５０から質問又はメッセージが発せられる。これに回答してユーザーが音声を発すると、ステップＳ６において、信号処理部３１が、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。また、信号処理部３１は、音声検出信号を活性化する。

音声検出信号が活性化されると、ステップＳ７において、一致検出部３７が、入力された音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する。

音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、ホストＣＰＵ６１は、ランクの低い新たな認識精度パラメーターを変更コマンドと共に半導体集積回路装置３０に送信し、一致検出を再度行うように半導体集積回路装置３０を制御しても良い。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、音声認識における認識精度の厳密さを緩めて一致検出を再度行うことができる。

あるいは、ホストＣＰＵ６１は、「もう一度お願いします」等のメッセージを表す応答データを半導体集積回路装置３０に送信しても良いし、分かり易いように言い直した質問を表す応答データを半導体集積回路装置３０に送信しても良い。音声信号合成部３８は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成し、音声出力部５０から新たなメッセージ又は質問が発せられる。

音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られると、ステップＳ８において、ホストＣＰＵ６１が、一連の音声認識動作が完了したか否かを判定する。一連の音声認識動作が完了していれば、処理が終了する。一方、一連の音声認識動作が完了していなければ、処理がステップＳ９に移行する。

ステップＳ９において、ホストＣＰＵ６１が、半導体集積回路装置３０から出力される音声認識結果に応じて複数の応答内容の中から１つの応答内容を選択し、選択された応答内容を表す応答データと、選択された応答内容に対する回答として変換候補となる複数の単語又は文章を表すテキストデータと、それらの単語又は文章に応じて選択された認識精度パラメーターとを、設定コマンドと共に半導体集積回路装置３０に送信する。これにより、ステップＳ２以降の処理が繰り返される。

本発明の一実施形態によれば、音声認識シナリオに従った変換リストを用いることにより、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンに絞り込むことができる。ここで、音声認識シナリオとは、ある質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出して音声認識を行うことをいう。

その際に、音声認識における認識精度の厳密さ又は曖昧さは、ホストＣＰＵ６１からコマンド及び認識精度パラメーターを半導体集積回路装置３０に送信することにより、音声認識シナリオに沿って自由に設定可能である。その結果、音声認識における認識精度を厳密にして誤認識を防止したり、あるいは、音声認識における認識精度を緩くして認識率を向上させたりすることができる。

次に、本発明の一実施形態に係る音声認識装置における音声認識動作の具体例について説明する。ここでは、図１に示す音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。

自動販売機には、複数の食品名を含む食品メニューが表示されている。食品メニューには、「そば」、「うどん」、「カレー」、「カツ丼」等の文字が表されているものとする。その場合には、ユーザーが発する最初の言葉が、食品メニューに表示されている「そば」、「うどん」、「カレー」、「カツ丼」等の内のいずれかになることが予測される。

そこで、ホストＣＰＵ６１は、自動販売機の電源投入時又はリセット後に、食品メニューに表示されている複数の食品名を表すテキストデータを、認識精度パラメーター及び設定コマンドと共に半導体集積回路装置３０に送信する。その際に、ホストＣＰＵ６１は、食品メニューに表示されている食品名の数が所定の数よりも多い場合に認識精度を厳密にし、食品メニューに表示されている食品名の数が所定の数よりも少ない場合に認識精度を緩くするように、認識精度パラメーターを設定しても良い。

半導体集積回路装置３０の変換情報設定部３３は、受信された設定コマンドに従って、受信されたテキストデータを変換リストに設定すると共に、受信された認識精度パラメーターを認識精度調整部３６に設定する。

このようにして、図３に示す変換リストＡが作成される。図３には、食品名に対応する番号と、食品名の日本語表記と、食品名に含まれている音素のローマ字表記とが示されているが、変換リストには、食品名に含まれている音素を特定できるローマ字表記又はカナ表記が少なくとも含まれていれば良い。

変換リストＡが作成されると、標準パターン抽出部３５は、変換リストＡに含まれている食品名「そば」、「うどん」、「カレー」、「カツ丼」等の先頭の音節「そ」、「う」、「カ」、「カ」等に含まれている音素「ｓ・ｏ」、「ｕ」、「ｋ・ａ」、「ｋ・ａ」等のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。また、認識精度調整部３６は、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。

また、ホストＣＰＵ６１は、「どの食品にしますか？食品名を言って下さい。」という質問又はメッセージを表す交信データを半導体集積回路装置３０に送信する。半導体集積回路装置３０の音声信号合成部３８は、この交信データに基づいて音声信号を合成してＤ／Ａ変換器４０に出力し、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「どの食品にしますか？食品名を言って下さい。」という質問又はメッセージが発せられる。

音声出力部５０から発せられた質問又はメッセージに対して、ユーザーが、表示された食品メニューを見て「カツ丼を下さい。」と言うと、信号処理部３１は、音素「ｋ・ａ・ｔ・ｕ・ｄ・ｏ・Ｎ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３７は、信号処理部３１によって生成された先頭の音節の第１番目の音素「ｋ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ｓ」、「ｕ」、「ｋ」、「ｋ」等の標準パターンとを比較することにより、音素「ｋ」の一致を検出する。

一致が検出された音素が子音を表している場合には、さらに、一致検出部３７が、先頭の音節の第２番目の音素を比較する。一致検出部３７は、信号処理部３１によって生成された先頭の音節の第２番目の音素「ａ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第２番目の音素「ｏ」、「ａ」、「ａ」等の標準パターンとを比較することにより、音素「ａ」の一致を検出する。

これにより、音節「カ」の一致が検出される。一致が検出された食品名が１つであれば、ここで音声認識結果が得られる。しかしながら、変換リストには、食品名「カレー」と食品名「カツ丼」とが含まれているので、いずれが該当するかを認識することができない。そのような場合に、一致検出部３７は、一致を検出すべき音節の範囲を拡大する。

即ち、一致検出部３７は、変換リストに含まれている上記食品名の第２番目の音節に対応する標準パターンの抽出を依頼する信号を標準パターン抽出部３５に出力する。これにより、標準パターン抽出部３５は、変換リストに含まれている食品名「カレー」及び「カツ丼」の第２番目の音節「レ」及び「ツ」に含まれている音素「ｒ・ｅ」及び「ｔ・ｕ」のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。また、認識精度調整部３６は、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。

一致検出部３７は、信号処理部３１によって生成された第２番目の音節の第１番目の音素「ｔ」の特徴パターンと、音声認識データベースから抽出された第２番目の音節の第１番目の音素「ｒ」及び「ｔ」の標準パターンとを比較することにより、音素「ｔ」の一致を検出する。

さらに、一致検出部３７は、信号処理部３１によって生成された第２番目の音節の第２番目の音素「ｕ」の特徴パターンと、音声認識データベースから抽出された第２番目の音節の第２番目の音素「ｅ」及び「ｕ」の標準パターンとを比較することにより、音素「ｕ」の一致を検出する。

これにより、音節「ツ」の一致が検出される。先頭の音節「カ」及び第２番目の音節「ツ」を有する食品名が他にも存在する場合には、一致検出部３７は、一致を検出すべき音節の範囲をさらに拡大すれば良い。一致検出部３７は、一致が検出された先頭の音節「カ」及び第２番目の音節「ツ」を有する食品名「カツ丼」を特定する音声認識結果をホストＣＰＵ６１に出力する。

食品名「カツ丼」を特定する情報としては、図３に示す番号、食品名の日本語表記「カツ丼」又はその一部「カツ」、食品名に含まれている音素のローマ字表記「ｋａｔｕｄｏＮ」又はその一部「ｋａｔｕ」等が該当する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する食品名「カツ丼」を認識することができる。

このようにして第１回目の音声認識動作が終了すると、ホストＣＰＵ６１は、第２回目の音声認識動作を開始する。ホストＣＰＵ６１は、受け取った音声認識結果に応じて、格納部６２に格納されている応答データによって表される複数の応答内容の中から１つの適切な応答内容を選択し、選択された応答内容を表す応答データ、及び、選択された応答内容に対する回答として複数の変換候補を表すテキストデータを、認識精度パラメーター及び設定コマンドと共に半導体集積回路装置３０に送信する。

半導体集積回路装置３０の変換情報設定部３３は、受信された設定コマンドに従って、現在のテキストデータの全てを変換リストから削除した後、受信されたテキストデータを変換リストに設定すると共に、受信された認識精度パラメーターを認識精度調整部３６に設定する。

例えば、ホストＣＰＵ６１は、「いくつですか？」という質問を表す応答データを音声信号合成部３８に供給する。その場合には、この質問に対してユーザーが発する最初の言葉が、「１つ」、「２つ」、「３つ」等の複数の回答の内のいずれかになることが予測される。そこで、ホストＣＰＵ６１は、「１つ」、「２つ」、「３つ」等の複数の回答を表すテキストデータを、認識精度パラメーター及び設定コマンドと共に半導体集積回路装置３０に送信する。

このようにして、図４に示す変換リストＢが作成される。変換リストＢが作成されると、標準パターン抽出部３５は、変換リストＢに含まれているテキストデータによって表される単語「１つ」、「２つ」、「３つ」等の先頭の音節「ひ」、「ふ」、「み」等に含まれている音素「ｈ・ｉ」、「ｈ・ｕ」、「ｍ・ｉ」等のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。さらに、認識精度調整部３６は、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。

音声信号合成部３８は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成してＤ／Ａ変換器４０に出力し、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０からユーザーに対して、「いくつですか？」という質問が発せられる。

音声出力部５０から発せられた質問に対して、ユーザーが、「１つです。」と言うと、信号処理部３１は、音素「ｈ・ｉ・ｔ・ｏ・ｔ・ｕ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３７は、信号処理部３１によって生成された先頭の音節の第１番目の音素「ｈ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ｈ」、「ｈ」、「ｍ」等の標準パターンとを比較することにより、音素「ｈ」の一致を検出する。

一致が検出された音素が子音を表している場合には、さらに、一致検出部３７が、信号処理部３１によって生成された先頭の音節の第２番目の音素「ｉ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第２番目の音素「ｉ」、「ｕ」、「ｉ」等の標準パターンとを比較することにより、音素「ｉ」の一致を検出する。

これにより、音節「ひ」の一致が検出される。一致検出部３７は、一致が検出された音節「ひ」を先頭に有する単語「１つ」を特定する音声認識結果をホストＣＰＵ６１に出力する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する単語「１つ」を認識することができる。

そこで、ホストＣＰＵ６１は、「○○○円を投入して下さい。」というメッセージを表す応答データを音声信号合成部３８に供給する。音声信号合成部３８は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成してＤ／Ａ変換器４０に出力し、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０からユーザーに対して、「○○○円を投入して下さい。」というメッセージが発せられる。

以上の実施形態においては、本発明を自動販売機に適用した具体例について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。

１０…音声入力部、２０…Ａ／Ｄ変換器、３０…半導体集積回路装置、３１…信号処理部、３２…音声認識データベース格納部、３３…変換情報設定部、３４…変換リスト格納部、３５…標準パターン抽出部、３６…認識精度調整部、３７…一致検出部、３８…音声信号合成部、３９…音声合成データベース格納部、４０…Ｄ／Ａ変換器、５０…音声出力部、６０…制御部、６１…ホストＣＰＵ、６２…格納部

Claims

所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、
変換候補となる単語又は文章を表すテキストデータ、及び、前記変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、前記コマンドに従って、変換リストにテキストデータを設定する変換情報設定部と、
前記変換リストを格納する変換リスト格納部と、
前記変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する前記標準パターンを前記音声認識データベースから抽出する標準パターン抽出部と、
前記認識精度パラメーターに従って、前記音声認識データベースから抽出された前記標準パターンの広がりの範囲を調整する認識精度調整部と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
前記音声信号の少なくとも一部から生成された前記特徴パターンが前記標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部と、
を具備する半導体集積回路装置。
前記音声認識結果に対する応答内容を表す応答データを受信し、前記応答データに基づいて出力音声信号を合成する音声信号合成部をさらに具備する、請求項１記載の半導体集積回路装置。
前記信号処理部が、前記音声信号のレベルが所定の値を超えたときに音声検出信号を活性化する、請求項１又は２記載の半導体集積回路装置。
請求項１記載の半導体集積回路装置と、
前記変換候補となる単語又は文章を表すテキストデータ、及び、前記認識精度パラメーターを、前記コマンドと共に前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。
請求項２記載の半導体集積回路装置と、
前記半導体集積回路装置から出力される前記音声認識結果に応じて複数の応答内容の中から前記応答内容を選択し、選択された前記応答内容を表す前記応答データ、前記応答内容に対する回答として前記変換候補となる単語又は文章を表すテキストデータ、及び、前記変換候補となる単語又は文章に応じて選択された前記認識精度パラメーターを、前記コマンドと共に前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。
請求項３記載の半導体集積回路装置と、
前記音声検出信号が活性化されてから所定の期間内に前記特徴パターンと前記標準パターンとの一致を表す前記音声認識結果が得られない場合に、新たな前記認識精度パラメーターを新たな前記コマンドと共に前記半導体集積回路装置に送信し、一致検出を行うように前記半導体集積回路装置を制御する制御部と、
を具備する音声認識装置。
変換候補となる単語又は文章を表すテキストデータ、及び、前記変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、前記コマンドに従って、変換リストにテキストデータを設定するステップ（ａ）と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する前記標準パターンを抽出するステップ（ｂ）と、
前記認識精度パラメーターに従って、前記音声認識データベースから抽出された前記標準パターンの広がりの範囲を調整するステップ（ｃ）と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ（ｄ）と、
前記音声信号の少なくとも一部から生成された前記特徴パターンが前記標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、前記変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ（ｅ）と、
を具備する音声認識方法。