JP6127422B2

JP6127422B2 - 音声認識装置及び方法、並びに、半導体集積回路装置

Info

Publication number: JP6127422B2
Application number: JP2012210456A
Authority: JP
Inventors: 勉野中
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2012-09-25
Filing date: 2012-09-25
Publication date: 2017-05-17
Anticipated expiration: 2032-09-25
Also published as: US20140088960A1; JP2014066779A; US9390709B2

Description

本発明は、自動販売機、携帯端末、ナビゲーション装置等の電子機器において、音声を認識し、その認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置において用いられる半導体集積回路装置等に関する。

音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン（「テンプレート」ともいう）と照合することによって、認識結果を得る技術である。しかしながら、照合される範囲に制限が設けられていない場合には、比較すべき特徴パターンと標準パターンとの組み合わせが膨大な数となって、認識率が低下してしまう。

関連する従来技術として、特許文献１には、認識辞書の更新を効率良く行うことを目的とする携帯電子機器が開示されている。この携帯電子機器は、所定の処理と編集可能な読み仮名とが対応付けられた読み仮名対応データを記憶する読み仮名記憶部と、音声認識の結果と照合する読み仮名の選択肢を含む認識辞書を、読み仮名対応データと関連付けて記憶する認識辞書記憶部と、音声認識結果と照合された読み仮名に対応する所定の処理を実行する実行部と、読み仮名対応データと認識辞書との読み仮名の差分を示す更新データを記憶する更新データ記憶部と、読み仮名対応データが更新された場合に、当該更新の内容を示す更新データを更新データ記憶部に記憶し、所定のタイミングで更新データに基づいて認識辞書を更新する更新部とを備え、更新部は、認識辞書の更新前に読み仮名対応データが複数回更新された場合に、所定の処理に対して最後に更新された読み仮名に認識辞書を更新するための差分を、１つの更新データに最適化して記憶することを特徴とする。

また、特許文献２には、処理量を増加させることなく、突発的な音に対しても人間と同じように判別かつ認識することを目的とする音声認識装置が開示されている。この音声認識装置は、分析対象音声に対して所定長の時間窓を所定周期で設定し、この時間窓を処理単位として、音声の周波数に関する周波数軸系特徴パラメータと、音声の振幅に関するパワー系特徴パラメータとからなる特徴量を抽出し、この抽出された特徴量に基づいて、分析対象音声を認識するものであって、パワー系特徴パラメータのみを抽出する時間窓の長さを周波数軸系特徴パラメータのみを抽出する時間窓の長さに比べて短くして特徴量を抽出することを特徴とする。

特開２０１１−３３９０２（段落０００６−０００７）特開２００５−７０３７７（段落００１３−００１４）

これらの従来技術は、音声認識におけるデータ処理を効率良く行うことを目的とする点において共通している。しかしながら、入力される音声信号を解析して得られる特徴パターンを音声認識データベース内の標準パターンと照合する際に、比較すべきパターンの組み合わせ数は依然として膨大であり、音声認識における認識率を向上させることは期待できない。そこで、本発明の目的の１つは、音声認識において比較すべきパターンの組み合わせ数を大幅に低減して、認識率を向上させることである。

以上の課題を解決するため、本発明の幾つかの観点に係る半導体集積回路装置は、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、文字データで表され、変換候補となる複数の単語又は文章を含む変換リストを格納する変換リスト格納部と、変換リストに含まれている各々の単語又は文章の、先頭の音節を示す文字データに対応する標準パターンを音声認識データベースから抽出する標準パターン抽出部と、音声信号の先頭の音節から生成された特徴パターンと標準パターン抽出部によって抽出された標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定する情報を出力する一致検出部とを含む。

上記の構成によれば、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに含まれている各々の単語又は文章の先頭の音節を表す文字データに対応する標準パターンに絞り込むことができる。その結果、音声認識において比較すべきパターンの組み合わせ数を大幅に低減して、認識率を向上させることが可能となる。

本発明の第１の観点においては、変換リストが、先頭の音節が互いに異なる複数の単語又は文章を含むようにしても良い。その場合には、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに含まれている文字データによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較するだけで、音声認識が可能となる。

また、本発明の第２の観点においては、一致が検出された音節を先頭に有する複数の単語又は文章が変換リストに含まれている場合に、一致検出部が、一致を検出すべき音節の範囲を拡大するようにしても良い。その場合には、先頭の音節が同一の複数の単語又は文章を含む変換リストを用いることが可能となる。

さらに、本発明の第３の観点においては、半導体集積回路装置が、応答データに基づいて出力音声信号を合成する音声信号合成部をさらに含み、一致検出部が、音声信号合成部によって合成された出力音声信号に基づいて音声が発せられてから所定の期間内に入力された音声信号の先頭の音節から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較するようにしても良い。これにより、所定の期間内におけるユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出すことができる。

その場合に、変換リストが、応答データに対応付けられていることが望ましい。これにより、応答データに基づいて発せられる質問又はメッセージに対応する単語又は文章を表す文字データを含む変換リストを音声認識に用いることができる。

本発明の１つの観点に係る音声認識装置は、本発明の第３の観点に係る半導体集積回路装置と、該半導体集積回路装置による音声認識の結果に応じて複数の応答内容の中から１つの応答内容を選択し、選択された応答内容を表す応答データを音声信号合成部に供給すると共に、選択された応答内容に対応する変換リストを変換リスト格納部に供給する制御部とを含んでいる。これにより、適切な応答内容を選択することができる。

本発明の１つの観点に係る音声認識方法は、文字データで表され、変換候補となる複数の単語又は文章を含む変換リストを格納するステップ（ａ）と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに含まれている各々の単語又は文章の、先頭の音節を表す文字データに対応する標準パターンを抽出するステップ（ｂ）と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ（ｃ）と、音声信号の先頭の音節から生成された特徴パターンと抽出された標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定する情報を出力するステップ（ｄ）とを含む。

このような音声認識方法によれば、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに含まれている各々の単語又は文章の先頭の音節を表す文字データに対応する標準パターンに絞り込むことができる。その結果、音声認識において比較すべきパターンの組み合わせ数を大幅に低減して、認識率を向上させることが可能となる。

本発明の各実施形態に係る音声認識装置の構成例を示す図。図１に示す音声認識装置によって実施される音声認識方法を示すフロー図。食品メニューに表示されている複数の食品名を含む変換リストＡを示す図。質問に対する複数の回答を含む変換リストＢを示す図。

以下、本発明の実施形態について、図面を参照しながら詳しく説明する。
図１は、本発明の各実施形態に係る音声認識装置の構成例を示す図である。この音声認識装置は、例えば、自動販売機、携帯端末、ナビゲーション装置等の電子機器に搭載され、音声を認識し、その認識結果に対応する応答や処理を行うものである。

図１に示すように、音声認識装置は、音声入力部１０と、Ａ／Ｄ変換器２０と、音声認識用の半導体集積回路装置３０と、Ｄ／Ａ変換器４０と、音声出力部５０と、制御部６０とを含んでいる。制御部６０は、ホストＣＰＵ（中央演算装置）６１と、格納部６２とによって構成される。なお、音声入力部１０、Ａ／Ｄ変換器２０、Ｄ／Ａ変換器４０、又は、音声出力部５０を、半導体集積回路装置３０に内蔵しても良い。

音声入力部１０は、音声を電気信号（音声信号）に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。Ａ／Ｄ変換器２０は、音声入力部１０から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号（音声データ）に変換する。例えば、音声データにおける音声周波数帯域は１２ｋＨｚであり、ビット数は１６ビットである。

半導体集積回路装置３０は、信号処理部３１と、音声認識ＤＢ（データベース）格納部３２と、変換リスト格納部３３と、標準パターン抽出部３４と、一致検出部３５とを含んでいる。さらに、半導体集積回路装置３０は、音声信号合成部３６と、音声合成ＤＢ（データベース）格納部３７とを含んでも良い。

信号処理部３１は、入力された音声信号にフーリエ変換を施すことにより複数の周波数成分を抽出し、それらの周波数成分の分布状態を表す特徴パターンを生成する。また、信号処理部３１は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部３５に出力する。

ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部３１は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部３１は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部３１は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部３１は、各々の周波数成分の絶対値を求める。

信号処理部３１は、それらの周波数成分に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部３１は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が２０個であれば、２０個の数値が得られる。

このようにして得られた数値の内で低次のもの（例えば、１２個）が、ＭＦＣＣ（メル周波数ケプストラム係数）と呼ばれる。信号処理部３１は、フレーム毎にＭＦＣＣを算出し、ＨＭＭ（隠れマルコフモデル）に従ってＭＦＣＣを連結して、時系列で入力された音声信号に含まれている各々の音素に対応するＭＦＣＣとして特徴パターンを求める。

ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる例について説明する。日本語の音素としては、「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」の母音と、「ｋ」、「ｓ」、「ｔ」、「ｎ」等の子音と、「ｊ」、「ｗ」の半母音と、「Ｎ」、「Ｑ」、「Ｈ」の特殊モーラとが該当する。

音声認識データベース格納部３２は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。標準パターンは、多数（例えば、２００人程度）の話者が発した音声を用いて予め作成される。

標準パターンの作成においては、各々の音素を表す音声信号からＭＦＣＣが求められる。ただし、多数の話者が発した音声を用いて作成されたＭＦＣＣにおいては、それぞれの数値がばらつきを有している。従って、各々の音素についての標準パターンは、多次元空間（例えば、１２次元空間）において、ばらつきを含む広がりを有している。信号処理部３１に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると認定される。

また、１つの音声認識データベースではなく、複数の音声認識データベースを用いるようにしても良い。例えば、音声認識データベース格納部３２は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数の音声認識データベースを格納しても良い。その場合に、一致検出部３５は、複数の音声認識データベースの内から、音素の一致を良好に検出できる音声認識データベースを選択して使用することができる。

あるいは、音声認識装置を使用するユーザーの年齢及び性別を特定できる場合には、音声認識データベース格納部３２は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声データに基づいて生成された複数の音声認識データベースを、年齢及び性別を特定する情報に対応付けて格納しても良い。その場合に、一致検出部３５は、音声認識データベース格納部３２に格納されている複数の音声認識データベースの内から、音声認識装置を使用するユーザーの年齢及び性別を特定する情報に従って１つの音声認識データベースを選択して使用することができる。

変換リスト格納部３３は、変換候補となる複数の単語又は文章を表す文字データを含む変換リストを格納する。変換リスト格納部３３が新たな変換リストを格納すると、標準パターン抽出部３４は、変換リストに含まれている文字データによって表される各々の単語又は文章の先頭の音節に対応する標準パターンを音声認識データベースから抽出する。

ここで、「音節」とは、１個の母音を主音とし、その母音単独で、あるいは、その母音の前後に１つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、１つの音節は、１つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。

例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「ａ」についての標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第１番目の音素「ｋ」についての標準パターンと、音節「か」を構成する第２番目の音素「ａ」についての標準パターンとのことである。

一致検出部３５は、音声検出信号又は応答終了信号が活性化されているときに動作する。一致検出部３５は、入力された音声信号の先頭の音節から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、音節の一致を検出する。

ここで、入力された音声信号の先頭の音節が１つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の先頭の音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。

さらに、一致検出部３５は、一致が検出された音節を先頭に有する単語又は文章を特定する情報、例えば、その単語又は文章を表す文字データを、認識結果としてホストＣＰＵ６１に出力する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。

音声信号合成部３６は、ホストＣＰＵ６１から応答内容（質問又はメッセージ）を表す応答データが供給されると、応答データに基づいて音声信号を合成する。音声信号を合成するためには、音声合成データベース格納部３７に格納されている音声合成データベースを用いても良いが、音声認識データベース格納部３２に格納されている音声認識データベースを用いて音声信号を合成することも可能である。

その場合には、例えば、音声信号合成部３６は、応答内容に含まれている各々の音素について、音声認識データベースに含まれている標準パターンから周波数スペクトルを求める。さらに、音声信号合成部３６は、周波数スペクトルを逆フーリエ変換して音声波形を求め、応答内容に含まれている複数の音素についての複数の音声波形を繋ぎ合わせることにより、応答内容に対応する音声信号を合成する。

Ｄ／Ａ変換器４０は、音声信号合成部３６から出力されるディジタルの音声信号（音声データ）を、アナログの音声信号に変換する。音声出力部５０は、Ｄ／Ａ変換器４０から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。

音声信号合成部３６は、ホストＣＰＵ６１から供給された応答データによって表される応答内容に対応する音声信号を合成してＤ／Ａ変換器４０に出力した後、応答内容の長さに応じた期間の経過後に、応答終了信号を所定の期間だけ活性化する。従って、一致検出部３５は、音声信号合成部３６によって合成された音声信号に基づいて音声が発せられてから所定の期間内に入力された音声信号の先頭の音節から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較する。

これにより、質問又はメッセージに対して所定の期間内に得られたユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出すことができる。さらに、変換リストが質問又はメッセージに対応付けられていることにより、応答データに基づいて発せられる質問又はメッセージに対応する単語又は文章を表す文字データを含む変換リストを音声認識に用いることができる。

ホストＣＰＵ６１は、格納部６２の記録媒体に記録されているソフトウェア（音声認識プログラム）に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、ＭＯ、ＭＴ、ＣＤ−ＲＯＭ、又は、ＤＶＤ−ＲＯＭ等を用いることができる。

ホストＣＰＵ６１は、半導体集積回路装置３０に制御信号を供給することにより、半導体集積回路装置３０における音声認識動作を制御することができる。また、ホストＣＰＵ６１は、半導体集積回路装置３０による音声認識の結果に応じて複数の応答内容の中から１つの応答内容を選択し、選択された応答内容を表す応答データを音声信号合成部３６に供給すると共に、選択された応答内容に対応する変換リストを変換リスト格納部３３に供給しても良い。これにより、適切な応答内容を選択することが可能となる。

本発明の各実施形態によれば、音声認識シナリオに従った変換リストを用いることにより、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに含まれている単語又は文章の先頭の音節に対応する標準パターンに絞り込むことができる。その結果、音声認識において比較すべきパターンの組み合わせ数を大幅に低減して認識率を向上させることが可能となる。ここで、音声認識シナリオとは、ある質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出して音声認識を行うことをいう。

次に、本発明の各実施形態に係る音声認識方法について、図１及び図２を参照しながら説明する。図２は、図１に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。

図２のステップＳ１において、ホストＣＰＵ６１が、ある質問又はメッセージを表す応答データを音声信号合成部３６に供給すると共に、その質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表す文字データを含む変換リストを変換リスト格納部３３に供給する。

ステップＳ２において、変換リスト格納部３３が、変換候補となる複数の単語又は文章を表す文字データを含む変換リストを格納する。変換リスト格納部３３に新たな変換リストが格納されると、ステップＳ３において、標準パターン抽出部３４が、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに含まれている文字データによって表される各々の単語又は文章の先頭の音節に対応する標準パターンを抽出する。

ステップＳ４において、音声信号合成部３６が、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成し、音声出力部５０から質問又はメッセージが発せられる。これに回答してユーザーが音声を発すると、ステップＳ５において、信号処理部３１が、入力された音声信号にフーリエ変換を施すことにより周波数成分を抽出し、周波数成分の分布状態を表す特徴パターンを生成する。

ステップＳ６において、一致検出部３５が、入力された音声信号の先頭の音節から生成された特徴パターンを音声認識データベースから抽出された標準パターンと比較することによって音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定する情報を出力する。

一致検出部３５は、音節の一致を検出できなかった場合に、検出不能信号をホストＣＰＵ６１に出力する。これにより、ホストＣＰＵ６１は、「もう一度お願いします」等のメッセージを表す応答データを音声信号合成部３６に供給する。あるいは、ホストＣＰＵ６１は、分かり易いように言い直した質問を表す応答データを音声信号合成部３６に供給しても良い。音声信号合成部３６は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成し、音声出力部５０から新たなメッセージ又は質問が発せられる。

次に、本発明の第１の実施形態について説明する。本発明の第１の実施形態においては、変換リスト格納部３３が、先頭の音節が互いに異なる複数の単語又は文章を表す文字データを含む変換リストを格納する。具体例として、第１の実施形態に係る音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。

自動販売機には、先頭の音節が互いに異なる複数の食品名を含む食品メニューが表示されている。食品メニューには、「そば」、「うどん」、「カレー」等の文字が表されているものとする。その場合には、ユーザーが発する最初の言葉が、食品メニューに表示されている「そば」、「うどん」、「カレー」等の内のいずれかになることが予測される。

そこで、ホストＣＰＵ６１は、「どの食品にしますか？食品名を言って下さい。」という質問又はメッセージを表す応答データを音声信号合成部３６に供給する。また、ホストＣＰＵ６１は、食品メニューに表示されている複数の食品名を表す文字データを含む変換リストＡ（図３参照）を変換リスト格納部３３に供給する。なお、図３には、食品名に対応する番号と、日本語表記と、ローマ字表記とが示されているが、変換リストには、食品名の発音を特定できるローマ字表記又はカナ表記が少なくとも含まれていれば良い。

変換リスト格納部３３が変換リストＡを格納すると、標準パターン抽出部３４は、変換リストＡに含まれている文字データによって表される食品名「そば」、「うどん」、「カレー」等の先頭の音節「そ」、「う」、「カ」等に含まれている音素「ｓ・ｏ」、「ｕ」、「ｋ・ａ」等のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。その際に、食品名における先頭の音素が子音である場合には、それに続く母音の標準パターンも抽出される。

一方、音声信号合成部３６は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成してＤ／Ａ変換器４０に出力し、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０からユーザーに、「どの食品にしますか？食品名を言って下さい。」という質問又はメッセージが発せられる。また、音声信号合成部３６は、応答終了信号を活性化して一致検出部３５に出力するので、一致検出部３５が音声認識動作を開始する。

音声出力部５０から発せられた質問又はメッセージに対して、ユーザーが、表示されている食品メニューを見て、「そばを下さい。」と言うと、信号処理部３１は、音素「ｓ・ｏ・ｂ・ａ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３５は、信号処理部３１によって生成された先頭の音節の第１番目の音素「ｓ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ｓ」、「ｕ」、「ｋ」等の標準パターンとを比較することにより、音素「ｓ」の一致を検出する。

一致が検出された音素が子音を表している場合には、さらに、一致検出部３５が、信号処理部３１によって生成された先頭の音節の第２番目の音素「ｏ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第２番目の音素「ｏ」、「ａ」等の標準パターンとを比較することにより、音素「ｏ」の一致を検出する。

これにより、音節「そ」の一致が検出される。一致検出部３５は、一致が検出された音節「そ」を先頭に有する食品名「そば」を特定する情報を、認識結果としてホストＣＰＵ６１に出力する。食品名「そば」を特定する情報としては、図３に示す番号、日本語表記「そば」又はその一部「そ」、ローマ字表記「ｓｏｂａ」又はその一部「ｓｏ」等が該当する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する食品名「そば」を認識することができる。

ホストＣＰＵ６１は、受け取った認識結果に応じて、格納部６２に格納されている応答データによって表される複数の応答内容の中から１つの適切な応答内容を選択する。さらに、ホストＣＰＵ６１は、選択された応答内容を表す応答データを音声信号合成部３６に供給すると共に、選択された応答内容に対応する変換リストを変換リスト格納部３３に供給する。

例えば、ホストＣＰＵ６１は、「いくつですか？」という質問を表す応答データを音声信号合成部３６に供給する。その場合には、この質問に対してユーザーが発する最初の言葉が、「１つ」、「２つ」、「３つ」等の複数の回答の内のいずれかになることが予測される。そこで、ホストＣＰＵ６１は、「１つ」、「２つ」、「３つ」等の複数の回答を表す文字データを含む変換リストＢ（図４参照）を半導体集積回路装置３０の変換リスト格納部３３に供給する。

変換リスト格納部３３が変換リストＢを格納すると、標準パターン抽出部３４は、変換リストＢに含まれている文字データによって表される単語「１つ」、「２つ」、「３つ」等の先頭の音節「ひ」、「ふ」、「み」等に含まれている音素「ｈ・ｉ」、「ｈ・ｕ」、「ｍ・ｉ」等のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。

音声信号合成部３６は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成してＤ／Ａ変換器４０に出力し、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０からユーザーに対して、「いくつですか？」という質問が発せられる。また、音声信号合成部３６は、応答終了信号を活性化して一致検出部３５に出力するので、一致検出部３５が音声認識動作を開始する。

音声出力部５０から発せられた質問に対して、ユーザーが、「１つです。」と言うと、信号処理部３１は、音素「ｈ・ｉ・ｔ・ｏ・ｔ・ｕ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３５は、信号処理部３１によって生成された先頭の音節の第１番目の音素「ｈ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ｈ」、「ｈ」、「ｍ」等の標準パターンとを比較することにより、音素「ｈ」の一致を検出する。

一致が検出された音素が子音を表している場合には、さらに、一致検出部３５が、信号処理部３１によって生成された先頭の音節の第２番目の音素「ｉ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第２番目の音素「ｉ」、「ｕ」、「ｉ」等の標準パターンとを比較することにより、音素「ｉ」の一致を検出する。

これにより、音節「ひ」の一致が検出される。一致検出部３５は、一致が検出された音節「ひ」を先頭に有する単語「１つ」を特定する情報を、認識結果としてホストＣＰＵ６１に出力する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する単語「１つ」を認識することができる。

そこで、ホストＣＰＵ６１は、「○○○円を投入して下さい。」というメッセージを表す応答データを音声信号合成部３６に供給する。音声信号合成部３６は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成してＤ／Ａ変換器４０に出力し、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０からユーザーに対して、「○○○円を投入して下さい。」というメッセージが発せられる。

本発明の第１の実施形態によれば、変換リストに含まれている複数の単語又は文章の先頭の音節が互いに異なるので、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに含まれている文字データによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較するだけで、音声認識が可能となる。

次に、本発明の第２の実施形態について説明する。第１の実施形態においては、先頭の音節が同一の複数の単語又は文章を区別することができない。そこで、第２の実施形態は、先頭の音節が同一の複数の単語又は文章を含む変換リストを用いる場合にも適用できるようにしている。そのために、一致が検出された音節を先頭に有する複数の単語又は文章が変換リストに存在する場合に、図１に示す一致検出部３５が、一致を検出すべき音節の範囲を拡大する。その他の点に関しては、第１の実施形態におけるのと同様である。

第１の実施形態の説明と同様に、第２の実施形態に係る音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。第２の実施形態においては、自動販売機に、先頭の音節が同一の複数の食品名を含む食品メニューが表示される。食品メニューには、「そば」、「うどん」、「カレー」、「カツ丼」等の文字が表されているものとする。

その場合には、ユーザーが発する最初の言葉が、「そば」、「うどん」、「カレー」、「カツ丼」等の食品メニューに表示されている複数の食品名の内のいずれかになることが予測される。そこで、ホストＣＰＵ６１は、食品メニューに表示されている複数の食品名を含む変換リストを変換リスト格納部３３に供給する。

変換リスト格納部３３に変換リストが格納されると、標準パターン抽出部３４は、変換リストに含まれている食品名「そば」、「うどん」、「カレー」、「カツ丼」等の先頭の音節「そ」、「う」、「カ」、「カ」等に含まれている音素「ｓ・ｏ」、「ｕ」、「ｋ・ａ」、「ｋ・ａ」等のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。

例えば、表示された食品メニューを見たユーザーが、「カツ丼を下さい。」と言うと、信号処理部３１は、音素「ｋ・ａ・ｔ・ｕ・ｄ・ｏ・Ｎ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３５は、信号処理部３１によって生成された先頭の音節の第１番目の音素「ｋ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ｓ」、「ｕ」、「ｋ」、「ｋ」等の標準パターンとを比較することにより、音素「ｋ」の一致を検出する。

さらに、一致検出部３５は、信号処理部３１によって生成された先頭の音節の第２番目の音素「ａ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第２番目の音素「ｏ」、「ａ」、「ａ」等の標準パターンとを比較することにより、音素「ａ」の一致を検出する。

これにより、音節「カ」の一致が検出される。しかしながら、変換リストには、食品名「カレー」と食品名「カツ丼」とが含まれているので、いずれが該当するかを認識することができない。そのような場合に、一致検出部３５は、一致を検出すべき音節の範囲を拡大する。

即ち、一致検出部３５は、変換リストに含まれている上記食品名の第２番目の音節に対応する標準パターンの抽出を依頼する信号を標準パターン抽出部３４に出力する。これにより、標準パターン抽出部３４は、変換リストに含まれている食品名「カレー」及び「カツ丼」の第２番目の音節「レ」及び「ツ」に含まれている音素「ｒ・ｅ」及び「ｔ・ｕ」のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。

一致検出部３５は、信号処理部３１によって生成された第２番目の音節の第１番目の音素「ｔ」の特徴パターンと、音声認識データベースから抽出された第２番目の音節の第１番目の音素「ｒ」及び「ｔ」の標準パターンとを比較することにより、音素「ｔ」の一致を検出する。

さらに、一致検出部３５は、信号処理部３１によって生成された第２番目の音節の第２番目の音素「ｕ」の特徴パターンと、音声認識データベースから抽出された第２番目の音節の第２番目の音素「ｅ」及び「ｕ」の標準パターンとを比較することにより、音素「ｕ」の一致を検出する。

これにより、音節「ツ」の一致が検出される。一致検出部３５は、一致が検出された先頭の音節「カ」及び第２番目の音節「ツ」を有する食品名「カツ丼」を特定する情報を、認識結果としてホストＣＰＵ６１に出力する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する食品名「カツ丼」を認識することができる。

先頭の音節「カ」及び第２番目の音節「ツ」を有する食品名が他にも存在する場合には、一致検出部３５は、一致を検出すべき音節の範囲をさらに拡大すれば良い。このように、第２の実施形態によれば、先頭の音節が同一の複数の単語又は文章を含む変換リストを用いることが可能となる。

以上の実施形態においては、本発明を自動販売機に適用した場合について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。

１０…音声入力部、２０…Ａ／Ｄ変換器、３０…半導体集積回路装置、３１…信号処理部、３２…音声認識データベース格納部、３３…変換リスト格納部、３４…標準パターン抽出部、３５…一致検出部、３６…音声信号合成部、３７…音声合成データベース格納部、４０…Ｄ／Ａ変換器、５０…音声出力部、６０…制御部、６１…ホストＣＰＵ、６２…格納部

Claims

入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、
変換候補となる複数の単語又は文章を含む変換リストを格納する変換リスト格納部と、
前記変換リストに含まれている各々の単語又は文章の、先頭の音節に対応する前記標準パターンを前記音声認識データベースから抽出する標準パターン抽出部と、
前記音声信号の先頭の音節から生成された前記特徴パターンと前記標準パターン抽出部によって抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定する情報を出力する一致検出部と、
を含み、
一致が検出された音節を先頭に有する複数の単語又は文章が前記変換リストに含まれている場合に、
標準パターン抽出部は、先頭から２番目の音節に対応する前記標準パターンを前記音声認識データベースから抽出し、
前記一致検出部は、前記先頭から２番目の音節から生成された前記特徴パターンと前記標準パターン抽出部によって抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭から２番目に有する単語又は文章を特定する情報を出力する半導体集積回路装置。
前記変換リスト格納部は、ホストＣＰＵから前記変換リストを受信して格納し、
前記一致検出部は、一致が検出された音節を先頭に有する単語又は文章を特定する情報を認識結果として前記ホストＣＰＵに出力する、請求項１記載の半導体集積回路装置。
前記標準パターン抽出部は、先頭の音素が子音の場合は、前記先頭の音素と前記先頭の音素に続く母音とを先頭の音節とし、前記標準パターンを抽出する、請求項１又は２記載の半導体集積回路装置。
応答データに基づいて出力音声信号を合成する音声信号合成部をさらに含み、
前記一致検出部が、前記音声信号合成部によって合成された前記出力音声信号に基づいて音声が発せられてから所定の期間内に入力された前記音声信号の先頭の音節から生成された前記特徴パターンを、前記音声認識データベースから抽出された前記標準パターンと比較する、
請求項１記載の半導体集積回路装置。
前記変換リストが、前記応答データに対応付けられている、請求項４記載の半導体集積回路装置。
請求項４記載の半導体集積回路装置と、
前記半導体集積回路装置による音声認識の結果に応じて複数の応答内容の中から１つの応答内容を選択し、選択された応答内容を表す前記応答データを前記音声信号合成部に供給すると共に、前記選択された応答内容に対応する前記変換リストを前記変換リスト格納部に供給する制御部と、
を含む音声認識装置。
変換候補となる複数の単語又は文章を含む変換リストを格納するステップ（ａ）と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記変換リストに含まれている各々の単語又は文章の、先頭の音節に対応する前記標準パターンを抽出するステップ（ｂ）と、
入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ（ｃ）と、を有し、
前記音声信号の先頭の音節から生成された前記特徴パターンと前記抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定するステップ（ｄ）と、
一致が検出された音節を先頭に有する複数の単語又は文章が前記変換リストに含まれている場合に、
標準パターン抽出部は、先頭から２番目の音節に対応する前記標準パターンを前記音声認識データベースから抽出するステップ（ｅ）と、
前記一致検出部は、前記先頭から２番目の音節から生成された前記特徴パターンと前記標準パターン抽出部によって抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭から２番目に有する単語又は文章を特定する情報を出力するステップ（ｅ）と、
を含む音声認識方法。