JP6221267B2 - Speech recognition apparatus and method, and semiconductor integrated circuit device - Google Patents
Speech recognition apparatus and method, and semiconductor integrated circuit device Download PDFInfo
- Publication number
- JP6221267B2 JP6221267B2 JP2013042664A JP2013042664A JP6221267B2 JP 6221267 B2 JP6221267 B2 JP 6221267B2 JP 2013042664 A JP2013042664 A JP 2013042664A JP 2013042664 A JP2013042664 A JP 2013042664A JP 6221267 B2 JP6221267 B2 JP 6221267B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- integrated circuit
- circuit device
- semiconductor integrated
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000004065 semiconductor Substances 0.000 title claims description 53
- 238000000034 method Methods 0.000 title claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 94
- 230000005236 sound signal Effects 0.000 claims description 59
- 230000004044 response Effects 0.000 claims description 54
- 238000001514 detection method Methods 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 235000013305 food Nutrition 0.000 description 31
- 235000021438 curry Nutrition 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 3
- 240000008620 Fagopyrum esculentum Species 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、自動販売機、家電製品、住宅設備、車載装置(ナビゲーション装置等)、及び、携帯端末等におけるヒューマンインターフェース技術の一環として、音声を認識し、その認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置において用いられる半導体集積回路装置等に関する。 The present invention recognizes speech as part of human interface technology in vending machines, home appliances, residential equipment, in-vehicle devices (navigation devices, etc.) and mobile terminals, and performs responses and processing corresponding to the recognition results. The present invention relates to a speech recognition apparatus and a speech recognition method. Furthermore, the present invention relates to a semiconductor integrated circuit device used in such a speech recognition device.
音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン(「テンプレート」ともいう)と照合することによって、認識結果を得る技術である。しかしながら、照合される範囲に制限が設けられていない場合には、比較すべき特徴パターンと標準パターンとの組み合わせが膨大な数となって、認識結果を得るのに多くの時間を要すると共に、類似の標準パターンを有する単語又は文章の数も多くなることで認識率が低下してしまう傾向にある。 In speech recognition, input speech signals are analyzed, and the resulting feature patterns are collated with standard patterns (also called “templates”) prepared in a speech recognition database based on prerecorded speech signals. This is a technique for obtaining a recognition result. However, if there is no restriction on the range to be collated, the number of combinations of feature patterns and standard patterns to be compared becomes enormous, and it takes a lot of time to obtain recognition results and is similar. The recognition rate tends to decrease as the number of words or sentences having the standard pattern increases.
また、音声認識において、音声信号に基づいて単語又は文章を認識する際に要求される認識精度の厳密さ又は曖昧さは、類似の表示パターンを有する単語又は文章の数に関わらず一定に設定されている。 In speech recognition, the accuracy or ambiguity of recognition accuracy required when recognizing a word or sentence based on a speech signal is set to be constant regardless of the number of words or sentences having a similar display pattern. ing.
関連する従来技術として、特許文献1には、使用者の発話が曖昧な場合にも、使用者の発話を精度良く認識することを目的とする音声認識装置が開示されている。この音声認識装置は、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識装置であって、制御内容を表すタスクの種類を所定の決定入力に基づいて決定するタスク種類決定手段と、タスク種類決定手段により決定された種類のタスクを判断対象として、入力された音声を認識する音声認識手段とを備えている。 As a related prior art, Patent Document 1 discloses a speech recognition device for accurately recognizing a user's utterance even when the user's utterance is ambiguous. This speech recognition device is a speech recognition device that determines the control content of a control target based on a recognition result for an input speech, and a task that determines a task type representing the control content based on a predetermined determination input Type determination means, and voice recognition means for recognizing an input voice with the type of task determined by the task type determination means as a determination target.
特許文献1の音声認識装置は、音声信号に基づいてユーザーの言葉が良好に認識されると、ユーザーの言葉において何を制御するかが特定されていなくても、どのように制御するかという指標に従って認識対象を限定して、制御対象の制御内容を決定することが可能である。しかしながら、音声信号に基づいてユーザーの言葉を認識する際に要求される認識精度の厳密さ又は曖昧さは一定であり、音声認識における認識率を向上させることはできない。 The speech recognition apparatus disclosed in Patent Document 1 indicates how to control a user's words even if the user's words are well recognized based on the audio signal, even if what is to be controlled in the user's words is not specified. Thus, it is possible to limit the recognition target and determine the control content of the control target. However, the accuracy or ambiguity of recognition accuracy required when recognizing a user's words based on a speech signal is constant, and the recognition rate in speech recognition cannot be improved.
上述したように、音声認識において、音声信号に基づいて単語又は文章を認識する際に要求される認識精度の厳密さ又は曖昧さは、類似の表示パターンを有する単語又は文章の数に関わらず一定に設定されている。そのため、選択肢の数が多い場合と少ない場合とにおいて、又は、選択肢の中に類似する言葉が多い場合と少ない場合とにおいて、同一の認識条件で音声認識が行われるので、音声認識における認識率が向上しないという問題があった。 As described above, in speech recognition, the accuracy or ambiguity of recognition accuracy required when recognizing a word or sentence based on a speech signal is constant regardless of the number of words or sentences having a similar display pattern. Is set to Therefore, speech recognition is performed under the same recognition conditions when the number of options is large and small, or when there are many similar words in the options and when there are few similar words. There was a problem of not improving.
そこで、上記の点に鑑み、本発明の目的の1つは、音声認識における選択肢の数を適切に制限すると共に、音声認識に要求される認識精度の厳密さ又は曖昧さを選択肢に応じて変化させることにより、音声認識における認識率を向上させることである。本発明は、上述した課題若しくは問題の少なくとも1つを解決するためになされたものである。 Accordingly, in view of the above points, one of the objects of the present invention is to appropriately limit the number of options in speech recognition and change the accuracy or ambiguity of recognition accuracy required for speech recognition according to the options. By doing so, the recognition rate in speech recognition is improved. The present invention has been made to solve at least one of the above-described problems or problems.
本発明の第1の観点に係る半導体集積回路装置は、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、変換候補となる単語又は文章を表すテキストデータ、及び、変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定する変換情報設定部と、変換リストを格納する変換リスト格納部と、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出する標準パターン抽出部と、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する認識精度調整部と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部とを具備する。 A semiconductor integrated circuit device according to a first aspect of the present invention includes a speech recognition database storage unit that stores a speech recognition database including a standard pattern that represents a distribution state of frequency components of a plurality of phonemes used in a predetermined language, and a conversion Receives text data representing a candidate word or sentence and a recognition accuracy parameter representing the accuracy of recognition accuracy applied when recognizing a word or sentence as a conversion candidate together with the command, and converts according to the command. A conversion information setting unit for setting text data in a conversion list, a conversion list storage unit for storing a conversion list, and a standard pattern corresponding to at least a part of each word or sentence represented by the text data set in the conversion list According to the standard pattern extraction unit that extracts from the speech recognition database and the recognition accuracy parameter A recognition accuracy adjustment unit that adjusts the range of spread of the standard pattern extracted from the speech recognition database, and the frequency component of the speech signal is extracted by performing Fourier transform on the input speech signal, and the frequency component distribution of the speech signal A signal processing unit that generates a feature pattern that represents a state and a word that is a candidate for conversion by detecting a match between the feature pattern generated from at least a part of the audio signal and within the range of the standard pattern Or a coincidence detection unit that outputs a speech recognition result specifying a word or sentence in which a coincidence is detected in the sentence.
また、本発明の第1の観点に係る音声認識装置は、本発明の第1の観点に係る半導体集積回路装置と、変換候補となる複数の単語又は文章を表すテキストデータ、及び、該複数の単語又は文章に応じて選択された認識精度パラメーターを、コマンドと共に半導体集積回路装置に送信する制御部とを具備する。 The speech recognition apparatus according to the first aspect of the present invention includes a semiconductor integrated circuit device according to the first aspect of the present invention, text data representing a plurality of words or sentences that are candidates for conversion, and the plurality of And a control unit that transmits the recognition accuracy parameter selected according to the word or sentence to the semiconductor integrated circuit device together with the command.
さらに、本発明の第1の観点に係る音声認識方法は、変換候補となる単語又は文章を表すテキストデータ、及び、変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定するステップ(a)と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ(b)と、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整するステップ(c)と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(d)と、音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ(e)とを具備する。 Furthermore, the speech recognition method according to the first aspect of the present invention includes text data representing a word or sentence that is a conversion candidate, and the accuracy of recognition accuracy that is applied when recognizing the word or sentence that is a conversion candidate. A recognition accuracy parameter representing the number of phonemes, and a standard pattern representing a distribution state of frequency components of a plurality of phonemes used in a predetermined language. Extracting a standard pattern corresponding to at least a part of each word or sentence represented by the text data set in the conversion list from the speech recognition database, and extracting from the speech recognition database according to the recognition accuracy parameter Step (c) for adjusting the extent of the spread of the standard pattern made, and A step (d) of extracting a frequency component of the voice signal by performing Fourier transform on the voice signal and generating a feature pattern representing a distribution state of the frequency component of the voice signal; and a feature generated from at least a part of the voice signal If the pattern falls within the range of the standard pattern, a match between the two is detected, and a speech recognition result for specifying a word or sentence in which a match is detected among the words or sentences as conversion candidates is output ( e).
本発明の第1の観点によれば、深い階層メニューに従って音声認識を行う場合に、選択肢の数を適切に制限すると共に、各々の選択肢の組み合わせに適した認識精度パラメーターを設定して、認識精度パラメーターに従って標準パターンの広がりの範囲を調整することにより、音声認識における認識率を向上させることができる。 According to the first aspect of the present invention, when speech recognition is performed according to a deep hierarchical menu, the number of options is appropriately limited, and a recognition accuracy parameter suitable for each combination of options is set to recognize recognition accuracy. The recognition rate in speech recognition can be improved by adjusting the range of spread of the standard pattern according to the parameters.
本発明の第2の観点に係る半導体集積回路装置は、音声認識結果に対する応答内容を表す応答データを受信し、応答データに基づいて出力音声信号を合成する音声信号合成部をさらに具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出すことができる。 The semiconductor integrated circuit device according to the second aspect of the present invention further includes an audio signal synthesizer that receives response data representing response contents for the speech recognition result and synthesizes an output audio signal based on the response data. This can create a situation where a user's answer to a question or message that is issued based on response data is predicted to be one of several words or sentences.
本発明の第2の観点に係る音声認識装置は、本発明の第2の観点に係る半導体集積回路装置と、半導体集積回路装置から出力される音声認識結果に応じて複数の応答内容の中から応答内容を選択し、選択された応答内容を表す応答データ、応答内容に対する回答として変換候補となる単語又は文章を表すテキストデータ、及び、変換候補となる単語又は文章に応じて選択された認識精度パラメーターを、コマンドと共に半導体集積回路装置に送信する制御部とを具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対応する複数の単語又は文章を表すテキストデータを変換リストに設定すると共に、それらの単語又は文章に応じて選択された認識精度パラメーターを認識精度調整部に設定することができる。 A speech recognition device according to a second aspect of the present invention includes a semiconductor integrated circuit device according to the second aspect of the present invention and a plurality of response contents according to a speech recognition result output from the semiconductor integrated circuit device. Selection of response content, response data representing the selected response content, text data representing a word or sentence as a conversion candidate as an answer to the response content, and recognition accuracy selected according to the word or sentence as a conversion candidate And a control unit that transmits the parameter together with the command to the semiconductor integrated circuit device. As a result, text data representing a plurality of words or sentences corresponding to the question or message issued based on the response data is set in the conversion list, and the recognition accuracy parameter selected according to the words or sentences is recognized as the recognition accuracy. It can be set in the adjustment unit.
本発明の第3の観点に係る半導体集積回路装置においては、信号処理部が、音声信号のレベルが所定の値を超えたときに音声検出信号を活性化する。これにより、ユーザーからの要求又は回答の有無を判定することができる。 In the semiconductor integrated circuit device according to the third aspect of the present invention, the signal processing unit activates the voice detection signal when the level of the voice signal exceeds a predetermined value. Thereby, the presence or absence of a request or answer from the user can be determined.
本発明の第3の観点に係る音声認識装置は、本発明の第3の観点に係る半導体集積回路装置と、音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、新たな認識精度パラメーターを新たなコマンドと共に半導体集積回路装置に送信し、一致検出を行うように半導体集積回路装置を制御する制御部とを具備する。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、認識精度パラメーターを変更して一致検出を再度行うことができる。 A speech recognition apparatus according to a third aspect of the present invention includes a semiconductor integrated circuit device according to the third aspect of the present invention, a feature pattern and a standard pattern within a predetermined period after the speech detection signal is activated. A control unit that controls the semiconductor integrated circuit device to transmit a new recognition accuracy parameter together with a new command to the semiconductor integrated circuit device when the voice recognition result indicating the match cannot be obtained, and to perform the match detection. . As a result, when a speech recognition result indicating a match between the feature pattern and the standard pattern cannot be obtained within a predetermined period, the match detection can be performed again by changing the recognition accuracy parameter.
以下、本発明の実施形態について、図面を参照しながら詳しく説明する。
図1は、本発明の一実施形態に係る音声認識装置の構成例を示す図である。この音声認識装置は、例えば、自動販売機、家電製品、住宅設備、車載装置(ナビゲーション装置等)、又は、携帯端末等に搭載され、ユーザーの音声を認識し、その認識結果に対応する応答や処理を行うものである。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a diagram illustrating a configuration example of a speech recognition apparatus according to an embodiment of the present invention. This voice recognition device is mounted on, for example, a vending machine, a home appliance, a housing facility, an in-vehicle device (navigation device, etc.), a portable terminal, etc., recognizes the user's voice, The processing is performed.
図1に示すように、音声認識装置は、音声入力部10と、A/D変換器20と、音声認識用の半導体集積回路装置30と、D/A変換器40と、音声出力部50と、制御部60とを含んでいる。なお、音声入力部10、A/D変換器20、D/A変換器40、及び、音声出力部50の少なくとも一部を、半導体集積回路装置30に内蔵しても良い。
As shown in FIG. 1, the speech recognition apparatus includes a
制御部60は、ホストCPU(中央演算装置)61と、格納部62とを含んでいる。ホストCPU61は、格納部62の記録媒体に記録されているソフトウェア(音声認識制御プログラム)に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、MO、MT、CD−ROM、又は、DVD−ROM等を用いることができる。ホストCPU61は、半導体集積回路装置30に制御信号を供給することにより、半導体集積回路装置30における音声認識動作を制御する。
The
音声入力部10は、音声を電気信号(音声信号)に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルターとを含んでいる。A/D変換器20は、音声入力部10から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号(音声データ)に変換する。例えば、音声データにおける音声周波数帯域は12kHzであり、ビット数は16ビットである。
The
半導体集積回路装置30は、信号処理部31と、音声認識DB(データベース)格納部32と、変換情報設定部33と、変換リスト格納部34と、標準パターン抽出部35と、認識精度調整部36と、一致検出部37とを含んでいる。さらに、半導体集積回路装置30は、音声信号合成部38、及び/又は、音声合成DB(データベース)格納部39を含んでも良い。
The semiconductor
信号処理部31は、入力された音声信号にフーリエ変換を施すことにより音声信号の複数の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。生成された特徴パターンは一致検出部37に出力される。また、信号処理部31は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部37及びホストCPU61に出力する。これにより、ユーザーからの要求又は回答の有無を判定することができる。
The
ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部31は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部31は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部31は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部31は、各々の周波数成分の絶対値を求める。
Here, an example of a method for obtaining a feature pattern from an audio signal will be described. The
信号処理部31は、それらの周波数成分に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部31は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が20個であれば、20個の数値が得られる。
The
このようにして得られた数値の内で低次のもの(例えば、12個)が、MFCC(メル周波数ケプストラム係数)と呼ばれる。信号処理部31は、フレーム毎にMFCCを算出し、HMM(隠れマルコフモデル)に従ってMFCCを連結して、時系列で入力された音声信号に含まれている各々の音素に対応するMFCCとして特徴パターンを求める。
Of the numerical values obtained in this way, the lower ones (for example, 12) are called MFCC (Mel Frequency Cepstrum Coefficient). The
ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「a」、「i」、「u」、「e」、「o」の母音と、「k」、「s」、「t」、「n」等の子音と、「j」、「w」の半母音と、「N」、「Q」、「H」の特殊モーラとが該当する。 Here, “phoneme” means an element of a sound that is regarded as the same in a certain language. Below, the case where Japanese is used as a language is demonstrated. Japanese phonemes include “a”, “i”, “u”, “e”, “o” vowels, “k”, “s”, “t”, “n” and other consonants, The semi-vowels of “j” and “w” and the special mora of “N”, “Q”, and “H” are applicable.
音声認識データベース格納部32は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられている。
The speech recognition
標準パターンは、多数(例えば、200人程度)の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からMFCCが求められる。ただし、多数の話者が発した音声を用いて作成されたMFCCにおいては、それぞれの数値がばらつきを有している。 The standard pattern is created in advance using speech uttered by a large number of speakers (for example, about 200 speakers). In creating a standard pattern, an MFCC is obtained from an audio signal representing each phoneme. However, in the MFCC created using voices uttered by a large number of speakers, each numerical value varies.
従って、各々の音素についての標準パターンは、多次元空間(例えば、12次元空間)において、ばらつきを含む広がりを有している。信号処理部31に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。
Therefore, the standard pattern for each phoneme has a spread including variation in a multidimensional space (for example, a 12-dimensional space). If the feature pattern generated from the audio signal input to the
また、1つの音声認識データベースではなく、複数の音声認識データベースを用いるようにしても良い。例えば、音声認識データベース格納部32は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数の音声認識データベースを格納しても良い。その場合に、一致検出部37は、複数の音声認識データベースの内から、音素の一致を良好に検出できる音声認識データベースを選択して使用することができる。
A plurality of voice recognition databases may be used instead of one voice recognition database. For example, the voice recognition
あるいは、音声認識装置を使用するユーザーの年齢及び性別を特定できる場合には、音声認識データベース格納部32は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声データに基づいて生成された複数の音声認識データベースを、年齢及び性別を特定する情報に対応付けて格納しても良い。その場合に、一致検出部37は、音声認識データベース格納部32に格納されている複数の音声認識データベースの内から、音声認識装置を使用するユーザーの年齢及び性別を特定する情報に従って1つの音声認識データベースを選択して使用することができる。
Alternatively, when the age and gender of the user who uses the speech recognition device can be specified, the speech recognition
変換情報設定部33は、変換候補となる複数の単語又は文章を表すテキストデータ、及び、音声信号に基づいて単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共にホストCPU61から受信する。また、変換情報設定部33は、受信されたコマンドに従って、変換リストにテキストデータを設定すると共に、認識精度調整部36に認識精度パラメーターを設定する。変換リスト格納部34は、変換リストを格納する。
The conversion
コマンドとしては、例えば、変換リストにおける全てのテキストデータ及び認識精度パラメーターを新規設定するための設定コマンドと、変換リストに一部のテキストデータを追加するための追加コマンドと、変換リストから一部のテキストデータを削除するための削除コマンドとが用いられる。従って、変換リスト全体を置き換えることなく、変換リストの一部を任意に変更することも可能である。また、認識精度パラメーターのみを変更するための変更コマンドが用いられても良い。尚、変換リストには、予め所定のテキストデータの設定がなされていても良い。 The commands include, for example, a setting command for newly setting all text data and recognition accuracy parameters in the conversion list, an addition command for adding a part of text data to the conversion list, and a part of the conversion list. A delete command for deleting text data is used. Therefore, it is possible to arbitrarily change a part of the conversion list without replacing the entire conversion list. Further, a change command for changing only the recognition accuracy parameter may be used. Note that predetermined text data may be set in advance in the conversion list.
変換リスト格納部34において、変換リストに新たなテキストデータが設定されると、標準パターン抽出部35は、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを、音声認識データベースから抽出する。
When new text data is set in the conversion list in the conversion
認識精度調整部36は、変換情報設定部33によって設定された認識精度パラメーターに従って、音声認識データベース32から抽出された標準パターンの広がりの範囲を調整する。標準パターン抽出部35によって音声認識データベース32から抽出された標準パターンは、多次元空間において、ばらつきを含む広がりを有しているが、認識精度調整部36は、この標準パターンの広がりの範囲を調整する。
The recognition
以下の例においては、認識精度パラメーターによって表される認識精度の厳密さ又は曖昧さが、最も曖昧なランク1から最も厳密なランクMまでのM個のランクに分類される(Mは、2以上の自然数)。ある標準パターンAのN次元空間(Nは自然数)における広がりをA1(i)〜A2(i)で表すと(i=1、2、・・・、N)、認識精度調整部36によって調整された標準パターンAの広がりの範囲A1a(i)〜A2a(i)は、ランクR(1≦R≦M)を用いて、例えば、次式によって表される。
A1a(i)=A1(i)−k・(M−R)・(A2(i)−A1(i))
A2a(i)=A2(i)+k・(M−R)・(A2(i)−A1(i))
ここで、kは定数である。
In the following example, the accuracy or ambiguity of the recognition accuracy represented by the recognition accuracy parameter is classified into M ranks from the most ambiguous rank 1 to the most exact rank M (M is 2 or more). Natural number). When the spread of a certain standard pattern A in an N-dimensional space (N is a natural number) is represented by A1 (i) to A2 (i) (i = 1, 2,. Further, the range A1a (i) to A2a (i) of the standard pattern A is expressed by, for example, the following expression using the rank R (1 ≦ R ≦ M).
A1a (i) = A1 (i) -k. (MR). (A2 (i) -A1 (i))
A2a (i) = A2 (i) + k. (MR). (A2 (i) -A1 (i))
Here, k is a constant.
例えば、自動車の制御に音声認識を適用するような場合には、誤った制御が行われることを防止するために、最も厳密なランクMを表す認識精度パラメーター「M」が設定される。一方、変換リストに含まれている2つの単語の内の一方を選択するような場合には、音声認識において誤りが生じる可能性が低いので、最も曖昧なランク1を表す認識精度パラメーター「1」が設定される。 For example, when voice recognition is applied to the control of an automobile, a recognition accuracy parameter “M” representing the strictest rank M is set in order to prevent erroneous control. On the other hand, when one of the two words included in the conversion list is selected, there is a low possibility of an error in speech recognition, so the recognition accuracy parameter “1” representing the most ambiguous rank 1 is used. Is set.
あるいは、変換リストにおいて選択肢の数が所定の数よりも多いか少ないかに応じて異なる認識精度パラメーターを設定しても良い。また、変換リストにおいて選択肢に含まれている類似する言葉が所定の数よりも多いか少ないかに応じて異なる認識精度パラメーターを設定しても良い。 Alternatively, different recognition accuracy parameters may be set depending on whether the number of options in the conversion list is larger or smaller than a predetermined number. Further, different recognition accuracy parameters may be set depending on whether the number of similar words included in the options in the conversion list is larger or smaller than a predetermined number.
一致検出部37は、音声検出信号が活性化されているときに動作し、信号処理部31によって生成された特徴パターンと、認識精度調整部36によって広がりの範囲が調整された標準パターンとを比較する。そして、一致検出部37は、入力された音声信号の少なくとも一部から生成された特徴パターンが、認識精度調整部36によって調整された標準パターンの広がりの範囲内に入っているか否かを判定する。
The
比較はN次元空間における各成分について行われ、i=1、2、・・・、Nについて次式が満たされれば、特徴パターンBが標準パターンAの広がりの範囲内に入っていると判定される。
A1a(i)≦B(i)≦A2a(i)
一致検出部37は、入力された音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の一致を検出する。
The comparison is performed for each component in the N-dimensional space, and if the following expression is satisfied for i = 1, 2,..., N, it is determined that the feature pattern B is within the range of the standard pattern A. The
A1a (i) ≦ B (i) ≦ A2a (i)
If the feature pattern generated from at least a part of the input audio signal is within the spread range of the standard pattern, the
例えば、一致検出部37は、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。変換リストにおいて、一致が検出された音節を先頭に有する変換候補が1つだけ存在する場合には、その変換候補が、変換後の単語又は文章となる。一方、変換リストにおいて、一致が検出された音節を先頭に有する複数の変換候補が存在する場合には、一致検出部37は、変換候補が1つに絞られるまで、一致を検出すべき音節の範囲を拡大する。
For example, the
ここで、「音節」とは、1個の母音を主音とし、その母音単独で、あるいは、その母音の前後に1つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、1つの音節は、1つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。 Here, the “syllable” means a set of sounds that are composed of one vowel as a main sound and that vowels alone or with one or more consonants before and after the vowel. Semi-vowels and special mora can also constitute syllables. That is, one syllable is composed of one or more phonemes. Japanese syllables include “a”, “i”, “u”, “e”, “o”, “ka”, “ki”, “ku”, “ke”, “ko”, etc. .
例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「a」についての標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第1番目の音素「k」についての標準パターンと、音節「か」を構成する第2番目の音素「a」についての標準パターンとのことである。 For example, the standard pattern corresponding to the syllable “a” is a standard pattern for the phoneme “a” that constitutes the syllable “a”. The standard pattern corresponding to the syllable “ka” is the standard pattern for the first phoneme “k” constituting the syllable “ka” and the second phoneme “a” constituting the syllable “ka”. It is a standard pattern about.
入力された音声信号の1つの音節が1つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の1つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。 When one syllable of the input speech signal is composed of one phoneme, if the phoneme match is detected, the syllable match is detected. On the other hand, when one syllable of the input speech signal is composed of a plurality of phonemes, if a coincidence of these phonemes is detected, a coincidence of syllables is detected.
特徴パターンと標準パターンとの一致が検出されると、一致検出部37は、一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。これにより、ホストCPU61は、半導体集積回路装置30に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。
When a match between the feature pattern and the standard pattern is detected, the
ホストCPU61は、半導体集積回路装置30から出力される音声認識結果に応じて複数の応答内容(質問又はメッセージ)の中から1つの応答内容を選択し、選択された応答内容を表す応答データを半導体集積回路装置30に送信する。
The
半導体集積回路装置30の音声信号合成部38は、ホストCPU61から音声認識結果に対する応答内容を表す応答データを受信し、受信された応答データに基づいて、出力すべき音声を表す音声信号を合成する。音声信号を合成するためには、音声合成データベース格納部39に格納されている音声合成データベースを用いても良いが、音声認識データベース格納部32に格納されている音声認識データベースを用いて音声信号を合成することも可能である。
The
その場合には、例えば、音声信号合成部38は、応答内容に含まれている各々の音素について、音声認識データベースに含まれている標準パターンから周波数スペクトルを求める。さらに、音声信号合成部38は、周波数スペクトルを逆フーリエ変換して音声波形を求め、応答内容に含まれている複数の音素についての複数の音声波形を繋ぎ合わせることにより、応答内容に対応する音声信号を合成する。
In that case, for example, the
D/A変換器40は、音声信号合成部38から出力されるディジタルの音声信号を、アナログの音声信号に変換する。音声出力部50は、D/A変換器40から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、ホストCPU61から供給される応答データによって表される応答内容を、音声として出力する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出すことができる。
The D /
また、ホストCPU61は、選択された質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータ、及び、それらの単語又は文章に応じて選択された認識精度パラメーターを、設定コマンドと共に半導体集積回路装置30に送信する。
The
半導体集積回路装置30の変換情報設定部33は、ホストCPU61からテキストデータ及び認識精度パラメーターを設定コマンドと共に受信すると、受信された設定コマンドに従って、変換リストにテキストデータを設定すると共に、認識精度調整部36に認識精度パラメーターを設定する。これにより、応答データに基づいて発せられる質問又はメッセージに対応する複数の単語又は文章を表すテキストデータを変換リストに設定すると共に、それらの単語又は文章に応じて選択された認識精度パラメーターを認識精度調整部36に設定することができる。
When the conversion
次に、本発明の一実施形態に係る音声認識方法について、図1及び図2を参照しながら説明する。図2は、図1に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。 Next, a speech recognition method according to an embodiment of the present invention will be described with reference to FIGS. FIG. 2 is a flowchart showing a speech recognition method performed by the speech recognition apparatus shown in FIG.
図2のステップS1において、ホストCPU61が、半導体集積回路装置30の電源投入時又はリセット後に、1つの質問又はメッセージを表す交信データと、その質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータと、それらの単語又は文章に応じて選択された認識精度パラメーターとを、設定コマンドと共に半導体集積回路装置30に送信する。
In step S1 of FIG. 2, when the
ステップS2において、半導体集積回路装置30の変換情報設定部33が、テキストデータ及び認識精度パラメーターを、設定コマンドと共にホストCPU61から受信する。変換情報設定部33は、受信された設定コマンドに従って、変換リストにテキストデータを設定すると共に、認識精度調整部36に認識精度パラメーターを設定する。
In step S2, the conversion
変換リストに新たなテキストデータが設定されると、ステップS3において、標準パターン抽出部35が、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。また、ステップS4において、認識精度調整部36が、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。
When new text data is set in the conversion list, in step S3, the standard
ステップS5において、音声信号合成部38が、受信された交信データに基づいて音声信号を合成することにより、音声出力部50から質問又はメッセージが発せられる。これに回答してユーザーが音声を発すると、ステップS6において、信号処理部31が、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。また、信号処理部31は、音声検出信号を活性化する。
In step S <b> 5, the
音声検出信号が活性化されると、ステップS7において、一致検出部37が、入力された音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する。
When the voice detection signal is activated, in step S7, the
音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、ホストCPU61は、ランクの低い新たな認識精度パラメーターを変更コマンドと共に半導体集積回路装置30に送信し、一致検出を再度行うように半導体集積回路装置30を制御しても良い。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、音声認識における認識精度の厳密さを緩めて一致検出を再度行うことができる。
When a voice recognition result indicating a match between the feature pattern and the standard pattern is not obtained within a predetermined period after the voice detection signal is activated, the
あるいは、ホストCPU61は、「もう一度お願いします」等のメッセージを表す応答データを半導体集積回路装置30に送信しても良いし、分かり易いように言い直した質問を表す応答データを半導体集積回路装置30に送信しても良い。音声信号合成部38は、ホストCPU61から供給された応答データに基づいて音声信号を合成し、音声出力部50から新たなメッセージ又は質問が発せられる。
Alternatively, the
音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られると、ステップS8において、ホストCPU61が、一連の音声認識動作が完了したか否かを判定する。一連の音声認識動作が完了していれば、処理が終了する。一方、一連の音声認識動作が完了していなければ、処理がステップS9に移行する。
When a voice recognition result indicating a match between the feature pattern and the standard pattern is obtained within a predetermined period after the voice detection signal is activated, in step S8, the
ステップS9において、ホストCPU61が、半導体集積回路装置30から出力される音声認識結果に応じて複数の応答内容の中から1つの応答内容を選択し、選択された応答内容を表す応答データと、選択された応答内容に対する回答として変換候補となる複数の単語又は文章を表すテキストデータと、それらの単語又は文章に応じて選択された認識精度パラメーターとを、設定コマンドと共に半導体集積回路装置30に送信する。これにより、ステップS2以降の処理が繰り返される。
In step S9, the
本発明の一実施形態によれば、音声認識シナリオに従った変換リストを用いることにより、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンに絞り込むことができる。ここで、音声認識シナリオとは、ある質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出して音声認識を行うことをいう。 According to an embodiment of the present invention, by using a conversion list according to a voice recognition scenario, a standard pattern to be compared with a feature pattern of an input voice signal is represented by text data set in the conversion list. To a standard pattern corresponding to at least a portion of each word or sentence. Here, the speech recognition scenario refers to performing speech recognition by creating a situation where a user's answer to a certain question or message is predicted to be one of several words or sentences.
その際に、音声認識における認識精度の厳密さ又は曖昧さは、ホストCPU61からコマンド及び認識精度パラメーターを半導体集積回路装置30に送信することにより、音声認識シナリオに沿って自由に設定可能である。その結果、音声認識における認識精度を厳密にして誤認識を防止したり、あるいは、音声認識における認識精度を緩くして認識率を向上させたりすることができる。
At this time, the strictness or ambiguity of the recognition accuracy in speech recognition can be freely set according to the speech recognition scenario by transmitting a command and a recognition accuracy parameter from the
次に、本発明の一実施形態に係る音声認識装置における音声認識動作の具体例について説明する。ここでは、図1に示す音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。 Next, a specific example of the speech recognition operation in the speech recognition apparatus according to an embodiment of the present invention will be described. Here, the case where the voice recognition apparatus shown in FIG. 1 is applied to a vending machine for a meal ticket in a cafeteria will be described.
自動販売機には、複数の食品名を含む食品メニューが表示されている。食品メニューには、「そば」、「うどん」、「カレー」、「カツ丼」等の文字が表されているものとする。その場合には、ユーザーが発する最初の言葉が、食品メニューに表示されている「そば」、「うどん」、「カレー」、「カツ丼」等の内のいずれかになることが予測される。 A food menu including a plurality of food names is displayed on the vending machine. It is assumed that characters such as “Soba”, “Udon”, “Curry”, “Katsudon” are displayed on the food menu. In that case, it is predicted that the first word spoken by the user will be any one of “Soba”, “Udon”, “Curry”, “Katsudon”, etc. displayed on the food menu.
そこで、ホストCPU61は、自動販売機の電源投入時又はリセット後に、食品メニューに表示されている複数の食品名を表すテキストデータを、認識精度パラメーター及び設定コマンドと共に半導体集積回路装置30に送信する。その際に、ホストCPU61は、食品メニューに表示されている食品名の数が所定の数よりも多い場合に認識精度を厳密にし、食品メニューに表示されている食品名の数が所定の数よりも少ない場合に認識精度を緩くするように、認識精度パラメーターを設定しても良い。
Therefore, the
半導体集積回路装置30の変換情報設定部33は、受信された設定コマンドに従って、受信されたテキストデータを変換リストに設定すると共に、受信された認識精度パラメーターを認識精度調整部36に設定する。
The conversion
このようにして、図3に示す変換リストAが作成される。図3には、食品名に対応する番号と、食品名の日本語表記と、食品名に含まれている音素のローマ字表記とが示されているが、変換リストには、食品名に含まれている音素を特定できるローマ字表記又はカナ表記が少なくとも含まれていれば良い。 In this way, the conversion list A shown in FIG. 3 is created. FIG. 3 shows the number corresponding to the food name, the Japanese notation of the food name, and the Romanized notation of the phoneme included in the food name. It is sufficient that at least romaji notation or kana notation that can identify a phoneme is included.
変換リストAが作成されると、標準パターン抽出部35は、変換リストAに含まれている食品名「そば」、「うどん」、「カレー」、「カツ丼」等の先頭の音節「そ」、「う」、「カ」、「カ」等に含まれている音素「s・o」、「u」、「k・a」、「k・a」等のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。また、認識精度調整部36は、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。
When the conversion list A is created, the standard
また、ホストCPU61は、「どの食品にしますか? 食品名を言って下さい。」という質問又はメッセージを表す交信データを半導体集積回路装置30に送信する。半導体集積回路装置30の音声信号合成部38は、この交信データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「どの食品にしますか? 食品名を言って下さい。」という質問又はメッセージが発せられる。
Further, the
音声出力部50から発せられた質問又はメッセージに対して、ユーザーが、表示された食品メニューを見て「カツ丼を下さい。」と言うと、信号処理部31は、音素「k・a・t・u・d・o・N・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
In response to a question or message issued from the
一致検出部37は、信号処理部31によって生成された先頭の音節の第1番目の音素「k」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「s」、「u」、「k」、「k」等の標準パターンとを比較することにより、音素「k」の一致を検出する。
The
一致が検出された音素が子音を表している場合には、さらに、一致検出部37が、先頭の音節の第2番目の音素を比較する。一致検出部37は、信号処理部31によって生成された先頭の音節の第2番目の音素「a」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「o」、「a」、「a」等の標準パターンとを比較することにより、音素「a」の一致を検出する。
When the phoneme in which the match is detected represents a consonant, the
これにより、音節「カ」の一致が検出される。一致が検出された食品名が1つであれば、ここで音声認識結果が得られる。しかしながら、変換リストには、食品名「カレー」と食品名「カツ丼」とが含まれているので、いずれが該当するかを認識することができない。そのような場合に、一致検出部37は、一致を検出すべき音節の範囲を拡大する。
Thereby, the coincidence of the syllable “K” is detected. If there is one food name for which a match is detected, a speech recognition result is obtained here. However, since the food name “curry” and the food name “katsudon” are included in the conversion list, it is not possible to recognize which one is applicable. In such a case, the
即ち、一致検出部37は、変換リストに含まれている上記食品名の第2番目の音節に対応する標準パターンの抽出を依頼する信号を標準パターン抽出部35に出力する。これにより、標準パターン抽出部35は、変換リストに含まれている食品名「カレー」及び「カツ丼」の第2番目の音節「レ」及び「ツ」に含まれている音素「r・e」及び「t・u」のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。また、認識精度調整部36は、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。
That is, the
一致検出部37は、信号処理部31によって生成された第2番目の音節の第1番目の音素「t」の特徴パターンと、音声認識データベースから抽出された第2番目の音節の第1番目の音素「r」及び「t」の標準パターンとを比較することにより、音素「t」の一致を検出する。
The
さらに、一致検出部37は、信号処理部31によって生成された第2番目の音節の第2番目の音素「u」の特徴パターンと、音声認識データベースから抽出された第2番目の音節の第2番目の音素「e」及び「u」の標準パターンとを比較することにより、音素「u」の一致を検出する。
Further, the
これにより、音節「ツ」の一致が検出される。先頭の音節「カ」及び第2番目の音節「ツ」を有する食品名が他にも存在する場合には、一致検出部37は、一致を検出すべき音節の範囲をさらに拡大すれば良い。一致検出部37は、一致が検出された先頭の音節「カ」及び第2番目の音節「ツ」を有する食品名「カツ丼」を特定する音声認識結果をホストCPU61に出力する。
Thereby, the coincidence of the syllable “tsu” is detected. If there are other food names having the first syllable “K” and the second syllable “T”, the
食品名「カツ丼」を特定する情報としては、図3に示す番号、食品名の日本語表記「カツ丼」又はその一部「カツ」、食品名に含まれている音素のローマ字表記「katudoN」又はその一部「katu」等が該当する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する食品名「カツ丼」を認識することができる。
Information identifying the food name “Katsudon” includes the numbers shown in FIG. 3, the Japanese name of the food name “Katsudon” or part thereof “Katsu”, and the romaji of the phoneme included in the food name “katudoN” Or a part thereof “katu” or the like. Thereby, the
このようにして第1回目の音声認識動作が終了すると、ホストCPU61は、第2回目の音声認識動作を開始する。ホストCPU61は、受け取った音声認識結果に応じて、格納部62に格納されている応答データによって表される複数の応答内容の中から1つの適切な応答内容を選択し、選択された応答内容を表す応答データ、及び、選択された応答内容に対する回答として複数の変換候補を表すテキストデータを、認識精度パラメーター及び設定コマンドと共に半導体集積回路装置30に送信する。
When the first speech recognition operation is thus completed, the
半導体集積回路装置30の変換情報設定部33は、受信された設定コマンドに従って、現在のテキストデータの全てを変換リストから削除した後、受信されたテキストデータを変換リストに設定すると共に、受信された認識精度パラメーターを認識精度調整部36に設定する。
The conversion
例えば、ホストCPU61は、「いくつですか?」という質問を表す応答データを音声信号合成部38に供給する。その場合には、この質問に対してユーザーが発する最初の言葉が、「1つ」、「2つ」、「3つ」等の複数の回答の内のいずれかになることが予測される。そこで、ホストCPU61は、「1つ」、「2つ」、「3つ」等の複数の回答を表すテキストデータを、認識精度パラメーター及び設定コマンドと共に半導体集積回路装置30に送信する。
For example, the
このようにして、図4に示す変換リストBが作成される。変換リストBが作成されると、標準パターン抽出部35は、変換リストBに含まれているテキストデータによって表される単語「1つ」、「2つ」、「3つ」等の先頭の音節「ひ」、「ふ」、「み」等に含まれている音素「h・i」、「h・u」、「m・i」等のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。さらに、認識精度調整部36は、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。
In this way, the conversion list B shown in FIG. 4 is created. When the conversion list B is created, the standard
音声信号合成部38は、ホストCPU61から供給された応答データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50からユーザーに対して、「いくつですか?」という質問が発せられる。
The
音声出力部50から発せられた質問に対して、ユーザーが、「1つです。」と言うと、信号処理部31は、音素「h・i・t・o・t・u・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
In response to a question issued from the
一致検出部37は、信号処理部31によって生成された先頭の音節の第1番目の音素「h」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「h」、「h」、「m」等の標準パターンとを比較することにより、音素「h」の一致を検出する。
The
一致が検出された音素が子音を表している場合には、さらに、一致検出部37が、信号処理部31によって生成された先頭の音節の第2番目の音素「i」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「i」、「u」、「i」等の標準パターンとを比較することにより、音素「i」の一致を検出する。
When the phoneme in which the match is detected represents a consonant, the
これにより、音節「ひ」の一致が検出される。一致検出部37は、一致が検出された音節「ひ」を先頭に有する単語「1つ」を特定する音声認識結果をホストCPU61に出力する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する単語「1つ」を認識することができる。
Thereby, the coincidence of the syllable “hi” is detected. The
そこで、ホストCPU61は、「○○○円を投入して下さい。」というメッセージを表す応答データを音声信号合成部38に供給する。音声信号合成部38は、ホストCPU61から供給された応答データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50からユーザーに対して、「○○○円を投入して下さい。」というメッセージが発せられる。
Therefore, the
以上の実施形態においては、本発明を自動販売機に適用した具体例について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。 In the above embodiment, a specific example in which the present invention is applied to a vending machine has been described. However, the present invention is not limited to this embodiment, and can be applied to general electronic devices. Many modifications within the technical idea of the present invention are possible by those having ordinary knowledge in the art.
10…音声入力部、20…A/D変換器、30…半導体集積回路装置、31…信号処理部、32…音声認識データベース格納部、33…変換情報設定部、34…変換リスト格納部、35…標準パターン抽出部、36…認識精度調整部、37…一致検出部、38…音声信号合成部、39…音声合成データベース格納部、40…D/A変換器、50…音声出力部、60…制御部、61…ホストCPU、62…格納部
DESCRIPTION OF
Claims (7)
変換候補となる単語又は文章を表すテキストデータ、及び、前記変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、前記コマンドに従って、変換リストにテキストデータを設定する変換情報設定部と、
前記変換リストを格納する変換リスト格納部と、
前記変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する前記標準パターンを前記音声認識データベースから抽出する標準パターン抽出部と、
前記認識精度パラメーターに従って、前記音声認識データベースから抽出された前記標準パターンの広がりの範囲を調整する認識精度調整部と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
前記音声信号の少なくとも一部から生成された前記特徴パターンが前記標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部と、
を具備する半導体集積回路装置。 A speech recognition database storage unit for storing a speech recognition database including a standard pattern representing a distribution state of frequency components of a plurality of phonemes used in a predetermined language;
Text data representing a word or sentence as a conversion candidate, and a recognition accuracy parameter representing the accuracy of recognition accuracy applied when recognizing the word or sentence as a conversion candidate are received together with the command, and according to the command A conversion information setting section for setting text data in the conversion list;
A conversion list storage unit for storing the conversion list;
A standard pattern extraction unit for extracting the standard pattern corresponding to at least a part of each word or sentence represented by the text data set in the conversion list from the speech recognition database;
A recognition accuracy adjustment unit that adjusts a range of spread of the standard pattern extracted from the speech recognition database according to the recognition accuracy parameter;
A signal processing unit that extracts a frequency component of the audio signal by performing a Fourier transform on the input audio signal, and generates a feature pattern representing a distribution state of the frequency component of the audio signal;
If the feature pattern generated from at least a part of the audio signal is within the range of the standard pattern, a match between the two is detected, and a match is detected in a word or sentence as a conversion candidate. A match detection unit that outputs a speech recognition result that identifies a word or sentence;
A semiconductor integrated circuit device comprising:
前記変換候補となる単語又は文章を表すテキストデータ、及び、前記認識精度パラメーターを、前記コマンドと共に前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。 A semiconductor integrated circuit device according to claim 1;
Text data representing the word or sentence as the conversion candidate, and the control unit for transmitting the recognition accuracy parameter to the semiconductor integrated circuit device together with the command;
A speech recognition apparatus comprising:
前記半導体集積回路装置から出力される前記音声認識結果に応じて複数の応答内容の中から前記応答内容を選択し、選択された前記応答内容を表す前記応答データ、前記応答内容に対する回答として前記変換候補となる単語又は文章を表すテキストデータ、及び、前記変換候補となる単語又は文章に応じて選択された前記認識精度パラメーターを、前記コマンドと共に前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。 A semiconductor integrated circuit device according to claim 2;
The response content is selected from a plurality of response contents according to the voice recognition result output from the semiconductor integrated circuit device, the response data representing the selected response content, and the conversion as an answer to the response content A text data representing a word or sentence as a candidate, and a control unit for transmitting the recognition accuracy parameter selected according to the word or sentence as a candidate for conversion to the semiconductor integrated circuit device together with the command;
A speech recognition apparatus comprising:
前記音声検出信号が活性化されてから所定の期間内に前記特徴パターンと前記標準パターンとの一致を表す前記音声認識結果が得られない場合に、新たな前記認識精度パラメーターを新たな前記コマンドと共に前記半導体集積回路装置に送信し、一致検出を行うように前記半導体集積回路装置を制御する制御部と、
を具備する音声認識装置。 A semiconductor integrated circuit device according to claim 3;
When the voice recognition result indicating the match between the feature pattern and the standard pattern is not obtained within a predetermined period after the voice detection signal is activated, a new recognition accuracy parameter is set together with the new command. A control unit for controlling the semiconductor integrated circuit device to transmit to the semiconductor integrated circuit device and perform coincidence detection;
A speech recognition apparatus comprising:
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する前記標準パターンを抽出するステップ(b)と、
前記認識精度パラメーターに従って、前記音声認識データベースから抽出された前記標準パターンの広がりの範囲を調整するステップ(c)と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(d)と、
前記音声信号の少なくとも一部から生成された前記特徴パターンが前記標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、前記変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ(e)と、
を具備する音声認識方法。 Text data representing a word or sentence as a conversion candidate, and a recognition accuracy parameter representing the accuracy of recognition accuracy applied when recognizing the word or sentence as a conversion candidate are received together with the command, and according to the command Setting the text data in the conversion list (a);
Corresponding to at least a part of each word or sentence represented by the text data set in the conversion list from a speech recognition database including a standard pattern representing a distribution state of frequency components of a plurality of phonemes used in a predetermined language Extracting the standard pattern to be (b);
Adjusting a range of the spread of the standard pattern extracted from the speech recognition database according to the recognition accuracy parameter;
(D) generating a feature pattern representing a distribution state of the frequency components of the audio signal by extracting a frequency component of the audio signal by performing Fourier transform on the input audio signal;
If the feature pattern generated from at least a part of the audio signal is within the range of the standard pattern, a match between the two is detected, and a match is detected in the word or sentence as the conversion candidate. Outputting a speech recognition result that identifies the word or sentence
A speech recognition method comprising:
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013042664A JP6221267B2 (en) | 2013-03-05 | 2013-03-05 | Speech recognition apparatus and method, and semiconductor integrated circuit device |
US14/180,672 US9886947B2 (en) | 2013-02-25 | 2014-02-14 | Speech recognition device and method, and semiconductor integrated circuit device |
CN201410065495.6A CN104008752B (en) | 2013-02-25 | 2014-02-25 | Speech recognition equipment and method and conductor integrated circuit device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013042664A JP6221267B2 (en) | 2013-03-05 | 2013-03-05 | Speech recognition apparatus and method, and semiconductor integrated circuit device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014170163A JP2014170163A (en) | 2014-09-18 |
JP6221267B2 true JP6221267B2 (en) | 2017-11-01 |
Family
ID=51692584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013042664A Active JP6221267B2 (en) | 2013-02-25 | 2013-03-05 | Speech recognition apparatus and method, and semiconductor integrated circuit device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6221267B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02106800A (en) * | 1988-10-17 | 1990-04-18 | Matsushita Refrig Co Ltd | Voice recognizing system |
JPH03231297A (en) * | 1990-02-06 | 1991-10-15 | Matsushita Refrig Co Ltd | Voice recognizing system |
JP3006496B2 (en) * | 1996-03-21 | 2000-02-07 | 日本電気株式会社 | Voice recognition device |
JP4471128B2 (en) * | 2006-11-22 | 2010-06-02 | セイコーエプソン株式会社 | Semiconductor integrated circuit device, electronic equipment |
-
2013
- 2013-03-05 JP JP2013042664A patent/JP6221267B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014170163A (en) | 2014-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9886947B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
US11450313B2 (en) | Determining phonetic relationships | |
US9190060B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
US20140303958A1 (en) | Control method of interpretation apparatus, control method of interpretation server, control method of interpretation system and user terminal | |
EP1701338B1 (en) | Speech recognition method | |
CN110675866B (en) | Method, apparatus and computer readable recording medium for improving at least one semantic unit set | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
JP6127422B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
US11302329B1 (en) | Acoustic event detection | |
KR20230056741A (en) | Synthetic Data Augmentation Using Voice Transformation and Speech Recognition Models | |
JP2018159788A (en) | Information processing device, method and program | |
JP2015055653A (en) | Speech recognition device and method and electronic apparatus | |
CN112908308B (en) | Audio processing method, device, equipment and medium | |
JP2010197644A (en) | Speech recognition system | |
KR102140770B1 (en) | Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor | |
CN107251137B (en) | Method, apparatus and computer-readable recording medium for improving collection of at least one semantic unit using voice | |
JP6221253B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
JP6221267B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
KR20210098250A (en) | Electronic device and Method for controlling the electronic device thereof | |
Prasangini et al. | Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka | |
JP2017068153A (en) | Semiconductor device, system, electronic apparatus, and voice recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151210 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160609 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20160621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170918 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6221267 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |