JP6127422B2 - 音声認識装置及び方法、並びに、半導体集積回路装置 - Google Patents

音声認識装置及び方法、並びに、半導体集積回路装置 Download PDF

Info

Publication number
JP6127422B2
JP6127422B2 JP2012210456A JP2012210456A JP6127422B2 JP 6127422 B2 JP6127422 B2 JP 6127422B2 JP 2012210456 A JP2012210456 A JP 2012210456A JP 2012210456 A JP2012210456 A JP 2012210456A JP 6127422 B2 JP6127422 B2 JP 6127422B2
Authority
JP
Japan
Prior art keywords
syllable
standard pattern
speech recognition
conversion list
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012210456A
Other languages
English (en)
Other versions
JP2014066779A (ja
JP2014066779A5 (ja
Inventor
勉 野中
勉 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2012210456A priority Critical patent/JP6127422B2/ja
Priority to US14/032,906 priority patent/US9390709B2/en
Publication of JP2014066779A publication Critical patent/JP2014066779A/ja
Publication of JP2014066779A5 publication Critical patent/JP2014066779A5/ja
Application granted granted Critical
Publication of JP6127422B2 publication Critical patent/JP6127422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Description

本発明は、自動販売機、携帯端末、ナビゲーション装置等の電子機器において、音声を認識し、その認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置において用いられる半導体集積回路装置等に関する。
音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン(「テンプレート」ともいう)と照合することによって、認識結果を得る技術である。しかしながら、照合される範囲に制限が設けられていない場合には、比較すべき特徴パターンと標準パターンとの組み合わせが膨大な数となって、認識率が低下してしまう。
関連する従来技術として、特許文献1には、認識辞書の更新を効率良く行うことを目的とする携帯電子機器が開示されている。この携帯電子機器は、所定の処理と編集可能な読み仮名とが対応付けられた読み仮名対応データを記憶する読み仮名記憶部と、音声認識の結果と照合する読み仮名の選択肢を含む認識辞書を、読み仮名対応データと関連付けて記憶する認識辞書記憶部と、音声認識結果と照合された読み仮名に対応する所定の処理を実行する実行部と、読み仮名対応データと認識辞書との読み仮名の差分を示す更新データを記憶する更新データ記憶部と、読み仮名対応データが更新された場合に、当該更新の内容を示す更新データを更新データ記憶部に記憶し、所定のタイミングで更新データに基づいて認識辞書を更新する更新部とを備え、更新部は、認識辞書の更新前に読み仮名対応データが複数回更新された場合に、所定の処理に対して最後に更新された読み仮名に認識辞書を更新するための差分を、1つの更新データに最適化して記憶することを特徴とする。
また、特許文献2には、処理量を増加させることなく、突発的な音に対しても人間と同じように判別かつ認識することを目的とする音声認識装置が開示されている。この音声認識装置は、分析対象音声に対して所定長の時間窓を所定周期で設定し、この時間窓を処理単位として、音声の周波数に関する周波数軸系特徴パラメータと、音声の振幅に関するパワー系特徴パラメータとからなる特徴量を抽出し、この抽出された特徴量に基づいて、分析対象音声を認識するものであって、パワー系特徴パラメータのみを抽出する時間窓の長さを周波数軸系特徴パラメータのみを抽出する時間窓の長さに比べて短くして特徴量を抽出することを特徴とする。
特開2011−33902(段落0006−0007) 特開2005−70377(段落0013−0014)
これらの従来技術は、音声認識におけるデータ処理を効率良く行うことを目的とする点において共通している。しかしながら、入力される音声信号を解析して得られる特徴パターンを音声認識データベース内の標準パターンと照合する際に、比較すべきパターンの組み合わせ数は依然として膨大であり、音声認識における認識率を向上させることは期待できない。そこで、本発明の目的の1つは、音声認識において比較すべきパターンの組み合わせ数を大幅に低減して、認識率を向上させることである。
以上の課題を解決するため、本発明の幾つかの観点に係る半導体集積回路装置は、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、文字データで表され、変換候補となる複数の単語又は文章を含む変換リストを格納する変換リスト格納部と、変換リストに含まれている各々の単語又は文章の、先頭の音節を示す文字データに対応する標準パターンを音声認識データベースから抽出する標準パターン抽出部と、音声信号の先頭の音節から生成された特徴パターンと標準パターン抽出部によって抽出された標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定する情報を出力する一致検出部とを含む。
上記の構成によれば、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに含まれている各々の単語又は文章の先頭の音節を表す文字データに対応する標準パターンに絞り込むことができる。その結果、音声認識において比較すべきパターンの組み合わせ数を大幅に低減して、認識率を向上させることが可能となる。
本発明の第1の観点においては、変換リストが、先頭の音節が互いに異なる複数の単語又は文章を含むようにしても良い。その場合には、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに含まれている文字データによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較するだけで、音声認識が可能となる。
また、本発明の第2の観点においては、一致が検出された音節を先頭に有する複数の単語又は文章が変換リストに含まれている場合に、一致検出部が、一致を検出すべき音節の範囲を拡大するようにしても良い。その場合には、先頭の音節が同一の複数の単語又は文章を含む変換リストを用いることが可能となる。
さらに、本発明の第3の観点においては、半導体集積回路装置が、応答データに基づいて出力音声信号を合成する音声信号合成部をさらに含み、一致検出部が、音声信号合成部によって合成された出力音声信号に基づいて音声が発せられてから所定の期間内に入力された音声信号の先頭の音節から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較するようにしても良い。これにより、所定の期間内におけるユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出すことができる。
その場合に、変換リストが、応答データに対応付けられていることが望ましい。これにより、応答データに基づいて発せられる質問又はメッセージに対応する単語又は文章を表す文字データを含む変換リストを音声認識に用いることができる。
本発明の1つの観点に係る音声認識装置は、本発明の第3の観点に係る半導体集積回路装置と、該半導体集積回路装置による音声認識の結果に応じて複数の応答内容の中から1つの応答内容を選択し、選択された応答内容を表す応答データを音声信号合成部に供給すると共に、選択された応答内容に対応する変換リストを変換リスト格納部に供給する制御部とを含んでいる。これにより、適切な応答内容を選択することができる。
本発明の1つの観点に係る音声認識方法は、文字データで表され、変換候補となる複数の単語又は文章を含む変換リストを格納するステップ(a)と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに含まれている各々の単語又は文章の、先頭の音節を表す文字データに対応する標準パターンを抽出するステップ(b)と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(c)と、音声信号の先頭の音節から生成された特徴パターンと抽出された標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定する情報を出力するステップ(d)とを含む。
このような音声認識方法によれば、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに含まれている各々の単語又は文章の先頭の音節を表す文字データに対応する標準パターンに絞り込むことができる。その結果、音声認識において比較すべきパターンの組み合わせ数を大幅に低減して、認識率を向上させることが可能となる。
本発明の各実施形態に係る音声認識装置の構成例を示す図。 図1に示す音声認識装置によって実施される音声認識方法を示すフロー図。 食品メニューに表示されている複数の食品名を含む変換リストAを示す図。 質問に対する複数の回答を含む変換リストBを示す図。
以下、本発明の実施形態について、図面を参照しながら詳しく説明する。
図1は、本発明の各実施形態に係る音声認識装置の構成例を示す図である。この音声認識装置は、例えば、自動販売機、携帯端末、ナビゲーション装置等の電子機器に搭載され、音声を認識し、その認識結果に対応する応答や処理を行うものである。
図1に示すように、音声認識装置は、音声入力部10と、A/D変換器20と、音声認識用の半導体集積回路装置30と、D/A変換器40と、音声出力部50と、制御部60とを含んでいる。制御部60は、ホストCPU(中央演算装置)61と、格納部62とによって構成される。なお、音声入力部10、A/D変換器20、D/A変換器40、又は、音声出力部50を、半導体集積回路装置30に内蔵しても良い。
音声入力部10は、音声を電気信号(音声信号)に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。A/D変換器20は、音声入力部10から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号(音声データ)に変換する。例えば、音声データにおける音声周波数帯域は12kHzであり、ビット数は16ビットである。
半導体集積回路装置30は、信号処理部31と、音声認識DB(データベース)格納部32と、変換リスト格納部33と、標準パターン抽出部34と、一致検出部35とを含んでいる。さらに、半導体集積回路装置30は、音声信号合成部36と、音声合成DB(データベース)格納部37とを含んでも良い。
信号処理部31は、入力された音声信号にフーリエ変換を施すことにより複数の周波数成分を抽出し、それらの周波数成分の分布状態を表す特徴パターンを生成する。また、信号処理部31は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部35に出力する。
ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部31は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部31は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部31は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部31は、各々の周波数成分の絶対値を求める。
信号処理部31は、それらの周波数成分に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部31は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が20個であれば、20個の数値が得られる。
このようにして得られた数値の内で低次のもの(例えば、12個)が、MFCC(メル周波数ケプストラム係数)と呼ばれる。信号処理部31は、フレーム毎にMFCCを算出し、HMM(隠れマルコフモデル)に従ってMFCCを連結して、時系列で入力された音声信号に含まれている各々の音素に対応するMFCCとして特徴パターンを求める。
ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる例について説明する。日本語の音素としては、「a」、「i」、「u」、「e」、「o」の母音と、「k」、「s」、「t」、「n」等の子音と、「j」、「w」の半母音と、「N」、「Q」、「H」の特殊モーラとが該当する。
音声認識データベース格納部32は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。標準パターンは、多数(例えば、200人程度)の話者が発した音声を用いて予め作成される。
標準パターンの作成においては、各々の音素を表す音声信号からMFCCが求められる。ただし、多数の話者が発した音声を用いて作成されたMFCCにおいては、それぞれの数値がばらつきを有している。従って、各々の音素についての標準パターンは、多次元空間(例えば、12次元空間)において、ばらつきを含む広がりを有している。信号処理部31に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると認定される。
また、1つの音声認識データベースではなく、複数の音声認識データベースを用いるようにしても良い。例えば、音声認識データベース格納部32は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数の音声認識データベースを格納しても良い。その場合に、一致検出部35は、複数の音声認識データベースの内から、音素の一致を良好に検出できる音声認識データベースを選択して使用することができる。
あるいは、音声認識装置を使用するユーザーの年齢及び性別を特定できる場合には、音声認識データベース格納部32は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声データに基づいて生成された複数の音声認識データベースを、年齢及び性別を特定する情報に対応付けて格納しても良い。その場合に、一致検出部35は、音声認識データベース格納部32に格納されている複数の音声認識データベースの内から、音声認識装置を使用するユーザーの年齢及び性別を特定する情報に従って1つの音声認識データベースを選択して使用することができる。
変換リスト格納部33は、変換候補となる複数の単語又は文章を表す文字データを含む変換リストを格納する。変換リスト格納部33が新たな変換リストを格納すると、標準パターン抽出部34は、変換リストに含まれている文字データによって表される各々の単語又は文章の先頭の音節に対応する標準パターンを音声認識データベースから抽出する。
ここで、「音節」とは、1個の母音を主音とし、その母音単独で、あるいは、その母音の前後に1つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、1つの音節は、1つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。
例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「a」についての標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第1番目の音素「k」についての標準パターンと、音節「か」を構成する第2番目の音素「a」についての標準パターンとのことである。
一致検出部35は、音声検出信号又は応答終了信号が活性化されているときに動作する。一致検出部35は、入力された音声信号の先頭の音節から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、音節の一致を検出する。
ここで、入力された音声信号の先頭の音節が1つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の先頭の音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。
さらに、一致検出部35は、一致が検出された音節を先頭に有する単語又は文章を特定する情報、例えば、その単語又は文章を表す文字データを、認識結果としてホストCPU61に出力する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。
音声信号合成部36は、ホストCPU61から応答内容(質問又はメッセージ)を表す応答データが供給されると、応答データに基づいて音声信号を合成する。音声信号を合成するためには、音声合成データベース格納部37に格納されている音声合成データベースを用いても良いが、音声認識データベース格納部32に格納されている音声認識データベースを用いて音声信号を合成することも可能である。
その場合には、例えば、音声信号合成部36は、応答内容に含まれている各々の音素について、音声認識データベースに含まれている標準パターンから周波数スペクトルを求める。さらに、音声信号合成部36は、周波数スペクトルを逆フーリエ変換して音声波形を求め、応答内容に含まれている複数の音素についての複数の音声波形を繋ぎ合わせることにより、応答内容に対応する音声信号を合成する。
D/A変換器40は、音声信号合成部36から出力されるディジタルの音声信号(音声データ)を、アナログの音声信号に変換する。音声出力部50は、D/A変換器40から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。
音声信号合成部36は、ホストCPU61から供給された応答データによって表される応答内容に対応する音声信号を合成してD/A変換器40に出力した後、応答内容の長さに応じた期間の経過後に、応答終了信号を所定の期間だけ活性化する。従って、一致検出部35は、音声信号合成部36によって合成された音声信号に基づいて音声が発せられてから所定の期間内に入力された音声信号の先頭の音節から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較する。
これにより、質問又はメッセージに対して所定の期間内に得られたユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出すことができる。さらに、変換リストが質問又はメッセージに対応付けられていることにより、応答データに基づいて発せられる質問又はメッセージに対応する単語又は文章を表す文字データを含む変換リストを音声認識に用いることができる。
ホストCPU61は、格納部62の記録媒体に記録されているソフトウェア(音声認識プログラム)に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、MO、MT、CD−ROM、又は、DVD−ROM等を用いることができる。
ホストCPU61は、半導体集積回路装置30に制御信号を供給することにより、半導体集積回路装置30における音声認識動作を制御することができる。また、ホストCPU61は、半導体集積回路装置30による音声認識の結果に応じて複数の応答内容の中から1つの応答内容を選択し、選択された応答内容を表す応答データを音声信号合成部36に供給すると共に、選択された応答内容に対応する変換リストを変換リスト格納部33に供給しても良い。これにより、適切な応答内容を選択することが可能となる。
本発明の各実施形態によれば、音声認識シナリオに従った変換リストを用いることにより、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに含まれている単語又は文章の先頭の音節に対応する標準パターンに絞り込むことができる。その結果、音声認識において比較すべきパターンの組み合わせ数を大幅に低減して認識率を向上させることが可能となる。ここで、音声認識シナリオとは、ある質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出して音声認識を行うことをいう。
次に、本発明の各実施形態に係る音声認識方法について、図1及び図2を参照しながら説明する。図2は、図1に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。
図2のステップS1において、ホストCPU61が、ある質問又はメッセージを表す応答データを音声信号合成部36に供給すると共に、その質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表す文字データを含む変換リストを変換リスト格納部33に供給する。
ステップS2において、変換リスト格納部33が、変換候補となる複数の単語又は文章を表す文字データを含む変換リストを格納する。変換リスト格納部33に新たな変換リストが格納されると、ステップS3において、標準パターン抽出部34が、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに含まれている文字データによって表される各々の単語又は文章の先頭の音節に対応する標準パターンを抽出する。
ステップS4において、音声信号合成部36が、ホストCPU61から供給された応答データに基づいて音声信号を合成し、音声出力部50から質問又はメッセージが発せられる。これに回答してユーザーが音声を発すると、ステップS5において、信号処理部31が、入力された音声信号にフーリエ変換を施すことにより周波数成分を抽出し、周波数成分の分布状態を表す特徴パターンを生成する。
ステップS6において、一致検出部35が、入力された音声信号の先頭の音節から生成された特徴パターンを音声認識データベースから抽出された標準パターンと比較することによって音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定する情報を出力する。
一致検出部35は、音節の一致を検出できなかった場合に、検出不能信号をホストCPU61に出力する。これにより、ホストCPU61は、「もう一度お願いします」等のメッセージを表す応答データを音声信号合成部36に供給する。あるいは、ホストCPU61は、分かり易いように言い直した質問を表す応答データを音声信号合成部36に供給しても良い。音声信号合成部36は、ホストCPU61から供給された応答データに基づいて音声信号を合成し、音声出力部50から新たなメッセージ又は質問が発せられる。
次に、本発明の第1の実施形態について説明する。本発明の第1の実施形態においては、変換リスト格納部33が、先頭の音節が互いに異なる複数の単語又は文章を表す文字データを含む変換リストを格納する。具体例として、第1の実施形態に係る音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。
自動販売機には、先頭の音節が互いに異なる複数の食品名を含む食品メニューが表示されている。食品メニューには、「そば」、「うどん」、「カレー」等の文字が表されているものとする。その場合には、ユーザーが発する最初の言葉が、食品メニューに表示されている「そば」、「うどん」、「カレー」等の内のいずれかになることが予測される。
そこで、ホストCPU61は、「どの食品にしますか? 食品名を言って下さい。」という質問又はメッセージを表す応答データを音声信号合成部36に供給する。また、ホストCPU61は、食品メニューに表示されている複数の食品名を表す文字データを含む変換リストA(図3参照)を変換リスト格納部33に供給する。なお、図3には、食品名に対応する番号と、日本語表記と、ローマ字表記とが示されているが、変換リストには、食品名の発音を特定できるローマ字表記又はカナ表記が少なくとも含まれていれば良い。
変換リスト格納部33が変換リストAを格納すると、標準パターン抽出部34は、変換リストAに含まれている文字データによって表される食品名「そば」、「うどん」、「カレー」等の先頭の音節「そ」、「う」、「カ」等に含まれている音素「s・o」、「u」、「k・a」等のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。その際に、食品名における先頭の音素が子音である場合には、それに続く母音の標準パターンも抽出される。
一方、音声信号合成部36は、ホストCPU61から供給された応答データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50からユーザーに、「どの食品にしますか? 食品名を言って下さい。」という質問又はメッセージが発せられる。また、音声信号合成部36は、応答終了信号を活性化して一致検出部35に出力するので、一致検出部35が音声認識動作を開始する。
音声出力部50から発せられた質問又はメッセージに対して、ユーザーが、表示されている食品メニューを見て、「そばを下さい。」と言うと、信号処理部31は、音素「s・o・b・a・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部35は、信号処理部31によって生成された先頭の音節の第1番目の音素「s」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「s」、「u」、「k」等の標準パターンとを比較することにより、音素「s」の一致を検出する。
一致が検出された音素が子音を表している場合には、さらに、一致検出部35が、信号処理部31によって生成された先頭の音節の第2番目の音素「o」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「o」、「a」等の標準パターンとを比較することにより、音素「o」の一致を検出する。
これにより、音節「そ」の一致が検出される。一致検出部35は、一致が検出された音節「そ」を先頭に有する食品名「そば」を特定する情報を、認識結果としてホストCPU61に出力する。食品名「そば」を特定する情報としては、図3に示す番号、日本語表記「そば」又はその一部「そ」、ローマ字表記「soba」又はその一部「so」等が該当する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する食品名「そば」を認識することができる。
ホストCPU61は、受け取った認識結果に応じて、格納部62に格納されている応答データによって表される複数の応答内容の中から1つの適切な応答内容を選択する。さらに、ホストCPU61は、選択された応答内容を表す応答データを音声信号合成部36に供給すると共に、選択された応答内容に対応する変換リストを変換リスト格納部33に供給する。
例えば、ホストCPU61は、「いくつですか?」という質問を表す応答データを音声信号合成部36に供給する。その場合には、この質問に対してユーザーが発する最初の言葉が、「1つ」、「2つ」、「3つ」等の複数の回答の内のいずれかになることが予測される。そこで、ホストCPU61は、「1つ」、「2つ」、「3つ」等の複数の回答を表す文字データを含む変換リストB(図4参照)を半導体集積回路装置30の変換リスト格納部33に供給する。
変換リスト格納部33が変換リストBを格納すると、標準パターン抽出部34は、変換リストBに含まれている文字データによって表される単語「1つ」、「2つ」、「3つ」等の先頭の音節「ひ」、「ふ」、「み」等に含まれている音素「h・i」、「h・u」、「m・i」等のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。
音声信号合成部36は、ホストCPU61から供給された応答データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50からユーザーに対して、「いくつですか?」という質問が発せられる。また、音声信号合成部36は、応答終了信号を活性化して一致検出部35に出力するので、一致検出部35が音声認識動作を開始する。
音声出力部50から発せられた質問に対して、ユーザーが、「1つです。」と言うと、信号処理部31は、音素「h・i・t・o・t・u・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部35は、信号処理部31によって生成された先頭の音節の第1番目の音素「h」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「h」、「h」、「m」等の標準パターンとを比較することにより、音素「h」の一致を検出する。
一致が検出された音素が子音を表している場合には、さらに、一致検出部35が、信号処理部31によって生成された先頭の音節の第2番目の音素「i」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「i」、「u」、「i」等の標準パターンとを比較することにより、音素「i」の一致を検出する。
これにより、音節「ひ」の一致が検出される。一致検出部35は、一致が検出された音節「ひ」を先頭に有する単語「1つ」を特定する情報を、認識結果としてホストCPU61に出力する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する単語「1つ」を認識することができる。
そこで、ホストCPU61は、「○○○円を投入して下さい。」というメッセージを表す応答データを音声信号合成部36に供給する。音声信号合成部36は、ホストCPU61から供給された応答データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50からユーザーに対して、「○○○円を投入して下さい。」というメッセージが発せられる。
本発明の第1の実施形態によれば、変換リストに含まれている複数の単語又は文章の先頭の音節が互いに異なるので、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに含まれている文字データによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較するだけで、音声認識が可能となる。
次に、本発明の第2の実施形態について説明する。第1の実施形態においては、先頭の音節が同一の複数の単語又は文章を区別することができない。そこで、第2の実施形態は、先頭の音節が同一の複数の単語又は文章を含む変換リストを用いる場合にも適用できるようにしている。そのために、一致が検出された音節を先頭に有する複数の単語又は文章が変換リストに存在する場合に、図1に示す一致検出部35が、一致を検出すべき音節の範囲を拡大する。その他の点に関しては、第1の実施形態におけるのと同様である。
第1の実施形態の説明と同様に、第2の実施形態に係る音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。第2の実施形態においては、自動販売機に、先頭の音節が同一の複数の食品名を含む食品メニューが表示される。食品メニューには、「そば」、「うどん」、「カレー」、「カツ丼」等の文字が表されているものとする。
その場合には、ユーザーが発する最初の言葉が、「そば」、「うどん」、「カレー」、「カツ丼」等の食品メニューに表示されている複数の食品名の内のいずれかになることが予測される。そこで、ホストCPU61は、食品メニューに表示されている複数の食品名を含む変換リストを変換リスト格納部33に供給する。
変換リスト格納部33に変換リストが格納されると、標準パターン抽出部34は、変換リストに含まれている食品名「そば」、「うどん」、「カレー」、「カツ丼」等の先頭の音節「そ」、「う」、「カ」、「カ」等に含まれている音素「s・o」、「u」、「k・a」、「k・a」等のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。
例えば、表示された食品メニューを見たユーザーが、「カツ丼を下さい。」と言うと、信号処理部31は、音素「k・a・t・u・d・o・N・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部35は、信号処理部31によって生成された先頭の音節の第1番目の音素「k」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「s」、「u」、「k」、「k」等の標準パターンとを比較することにより、音素「k」の一致を検出する。
さらに、一致検出部35は、信号処理部31によって生成された先頭の音節の第2番目の音素「a」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「o」、「a」、「a」等の標準パターンとを比較することにより、音素「a」の一致を検出する。
これにより、音節「カ」の一致が検出される。しかしながら、変換リストには、食品名「カレー」と食品名「カツ丼」とが含まれているので、いずれが該当するかを認識することができない。そのような場合に、一致検出部35は、一致を検出すべき音節の範囲を拡大する。
即ち、一致検出部35は、変換リストに含まれている上記食品名の第2番目の音節に対応する標準パターンの抽出を依頼する信号を標準パターン抽出部34に出力する。これにより、標準パターン抽出部34は、変換リストに含まれている食品名「カレー」及び「カツ丼」の第2番目の音節「レ」及び「ツ」に含まれている音素「r・e」及び「t・u」のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。
一致検出部35は、信号処理部31によって生成された第2番目の音節の第1番目の音素「t」の特徴パターンと、音声認識データベースから抽出された第2番目の音節の第1番目の音素「r」及び「t」の標準パターンとを比較することにより、音素「t」の一致を検出する。
さらに、一致検出部35は、信号処理部31によって生成された第2番目の音節の第2番目の音素「u」の特徴パターンと、音声認識データベースから抽出された第2番目の音節の第2番目の音素「e」及び「u」の標準パターンとを比較することにより、音素「u」の一致を検出する。
これにより、音節「ツ」の一致が検出される。一致検出部35は、一致が検出された先頭の音節「カ」及び第2番目の音節「ツ」を有する食品名「カツ丼」を特定する情報を、認識結果としてホストCPU61に出力する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する食品名「カツ丼」を認識することができる。
先頭の音節「カ」及び第2番目の音節「ツ」を有する食品名が他にも存在する場合には、一致検出部35は、一致を検出すべき音節の範囲をさらに拡大すれば良い。このように、第2の実施形態によれば、先頭の音節が同一の複数の単語又は文章を含む変換リストを用いることが可能となる。
以上の実施形態においては、本発明を自動販売機に適用した場合について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。
10…音声入力部、20…A/D変換器、30…半導体集積回路装置、31…信号処理部、32…音声認識データベース格納部、33…変換リスト格納部、34…標準パターン抽出部、35…一致検出部、36…音声信号合成部、37…音声合成データベース格納部、40…D/A変換器、50…音声出力部、60…制御部、61…ホストCPU、62…格納部

Claims (7)

  1. 入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
    所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、
    変換候補となる複数の単語又は文章を含む変換リストを格納する変換リスト格納部と、
    前記変換リストに含まれている各々の単語又は文章の、先頭の音節に対応する前記標準パターンを前記音声認識データベースから抽出する標準パターン抽出部と、
    前記音声信号の先頭の音節から生成された前記特徴パターンと前記標準パターン抽出部によって抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定する情報を出力する一致検出部と、
    を含み、
    一致が検出された音節を先頭に有する複数の単語又は文章が前記変換リストに含まれている場合に、
    標準パターン抽出部は、先頭から2番目の音節に対応する前記標準パターンを前記音声認識データベースから抽出し、
    前記一致検出部は、前記先頭から2番目の音節から生成された前記特徴パターンと前記標準パターン抽出部によって抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭から2番目に有する単語又は文章を特定する情報を出力する半導体集積回路装置。
  2. 前記変換リスト格納部は、ホストCPUから前記変換リストを受信して格納し、
    前記一致検出部は、一致が検出された音節を先頭に有する単語又は文章を特定する情報を認識結果として前記ホストCPUに出力する、請求項1記載の半導体集積回路装置。
  3. 前記標準パターン抽出部は、先頭の音素が子音の場合は、前記先頭の音素と前記先頭の音素に続く母音とを先頭の音節とし、前記標準パターンを抽出する、請求項1又は2記載の半導体集積回路装置。
  4. 応答データに基づいて出力音声信号を合成する音声信号合成部をさらに含み、
    前記一致検出部が、前記音声信号合成部によって合成された前記出力音声信号に基づいて音声が発せられてから所定の期間内に入力された前記音声信号の先頭の音節から生成された前記特徴パターンを、前記音声認識データベースから抽出された前記標準パターンと比較する、
    請求項1記載の半導体集積回路装置。
  5. 前記変換リストが、前記応答データに対応付けられている、請求項4記載の半導体集積回路装置。
  6. 請求項4記載の半導体集積回路装置と、
    前記半導体集積回路装置による音声認識の結果に応じて複数の応答内容の中から1つの応答内容を選択し、選択された応答内容を表す前記応答データを前記音声信号合成部に供給すると共に、前記選択された応答内容に対応する前記変換リストを前記変換リスト格納部に供給する制御部と、
    を含む音声認識装置。
  7. 変換候補となる複数の単語又は文章を含む変換リストを格納するステップ(a)と、
    所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記変換リストに含まれている各々の単語又は文章の、先頭の音節に対応する前記標準パターンを抽出するステップ(b)と、
    入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(c)と、を有し、
    前記音声信号の先頭の音節から生成された前記特徴パターンと前記抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定するステップ(d)と、
    一致が検出された音節を先頭に有する複数の単語又は文章が前記変換リストに含まれている場合に、
    標準パターン抽出部は、先頭から2番目の音節に対応する前記標準パターンを前記音声認識データベースから抽出するステップ(e)と、
    前記一致検出部は、前記先頭から2番目の音節から生成された前記特徴パターンと前記標準パターン抽出部によって抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭から2番目に有する単語又は文章を特定する情報を出力するステップ(e)と、
    を含む音声認識方法。
JP2012210456A 2012-09-25 2012-09-25 音声認識装置及び方法、並びに、半導体集積回路装置 Active JP6127422B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012210456A JP6127422B2 (ja) 2012-09-25 2012-09-25 音声認識装置及び方法、並びに、半導体集積回路装置
US14/032,906 US9390709B2 (en) 2012-09-25 2013-09-20 Voice recognition device and method, and semiconductor integrated circuit device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012210456A JP6127422B2 (ja) 2012-09-25 2012-09-25 音声認識装置及び方法、並びに、半導体集積回路装置

Publications (3)

Publication Number Publication Date
JP2014066779A JP2014066779A (ja) 2014-04-17
JP2014066779A5 JP2014066779A5 (ja) 2015-09-24
JP6127422B2 true JP6127422B2 (ja) 2017-05-17

Family

ID=50339721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012210456A Active JP6127422B2 (ja) 2012-09-25 2012-09-25 音声認識装置及び方法、並びに、半導体集積回路装置

Country Status (2)

Country Link
US (1) US9390709B2 (ja)
JP (1) JP6127422B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134424B2 (en) * 2015-06-25 2018-11-20 VersaMe, Inc. Wearable word counter
US10789939B2 (en) 2015-06-25 2020-09-29 The University Of Chicago Wearable word counter
US10959648B2 (en) 2015-06-25 2021-03-30 The University Of Chicago Wearable word counter
CN109036461A (zh) * 2017-06-12 2018-12-18 杭州海康威视数字技术股份有限公司 一种通知信息的输出方法、服务器及监控系统
US10319626B1 (en) 2017-12-07 2019-06-11 Globalfoundries Inc. Interconnects with cuts formed by block patterning
US10395926B1 (en) 2018-04-17 2019-08-27 Globalfoundries Inc. Multiple patterning with mandrel cuts formed using a block mask
CN111489743B (zh) * 2019-01-28 2024-06-25 国家电网有限公司客户服务中心 一种基于智能语音技术的运营管理分析系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6048099A (ja) * 1983-08-26 1985-03-15 松下電器産業株式会社 音声認識装置
US4908864A (en) * 1986-04-05 1990-03-13 Sharp Kabushiki Kaisha Voice recognition method and apparatus by updating reference patterns
GB8613327D0 (en) 1986-06-02 1986-07-09 British Telecomm Speech processor
JP3865149B2 (ja) * 1995-08-22 2007-01-10 株式会社リコー 音声認識装置および方法、辞書作成装置および情報記憶媒体
FI114247B (fi) 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
JP2000047690A (ja) * 1998-07-29 2000-02-18 Meidensha Corp 音声認識装置における音素計算処理量削減方法
GB2352933A (en) * 1999-07-31 2001-02-07 Ibm Speech encoding in a client server system
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
JP4524866B2 (ja) 2000-06-16 2010-08-18 カシオ計算機株式会社 音声認識装置、及び音声認識方法
JP2004163448A (ja) 2002-11-08 2004-06-10 Matsushita Electric Ind Co Ltd 音声認識装置、方法、およびそのプログラム
US7280651B2 (en) * 2003-05-20 2007-10-09 At&T Bls Intellectual Property, Inc. Method and system for performing automated telemarketing
JP4301896B2 (ja) 2003-08-22 2009-07-22 シャープ株式会社 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器
JP4479191B2 (ja) 2003-08-25 2010-06-09 カシオ計算機株式会社 音声認識装置、音声認識方法及び音声認識処理プログラム
US7966183B1 (en) * 2006-05-04 2011-06-21 Texas Instruments Incorporated Multiplying confidence scores for utterance verification in a mobile telephone
US20080109305A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Using internet advertising as a test bed for radio advertisements
US8515757B2 (en) * 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP2011039902A (ja) 2009-08-17 2011-02-24 Mitsubishi Electric Corp データ処理装置及びデータ処理方法及びプログラム

Also Published As

Publication number Publication date
US20140088960A1 (en) 2014-03-27
JP2014066779A (ja) 2014-04-17
US9390709B2 (en) 2016-07-12

Similar Documents

Publication Publication Date Title
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
JP5208352B2 (ja) 声調言語用分節声調モデリング
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
US9190060B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
US9886947B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP2008139568A (ja) 音声処理装置および音声処理方法、並びに、プログラム
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP5029884B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
CN107251137B (zh) 利用语音改善至少一种语义单元的集合的方法、装置及计算机可读记录介质
Sayem Speech analysis for alphabets in Bangla language: automatic speech recognition
Hatala Speech recognition for Indonesian language and its application to home automation
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2011180308A (ja) 音声認識装置及び記録媒体
JP6221267B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP5028599B2 (ja) 音声処理装置、およびプログラム
Yong et al. Low footprint high intelligibility Malay speech synthesizer based on statistical data
JP2013195928A (ja) 音声素片切出装置
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150807

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160609

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20160621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160913

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170327

R150 Certificate of patent or registration of utility model

Ref document number: 6127422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150