JP2015055653A - Speech recognition device and method and electronic apparatus - Google Patents
Speech recognition device and method and electronic apparatus Download PDFInfo
- Publication number
- JP2015055653A JP2015055653A JP2013187147A JP2013187147A JP2015055653A JP 2015055653 A JP2015055653 A JP 2015055653A JP 2013187147 A JP2013187147 A JP 2013187147A JP 2013187147 A JP2013187147 A JP 2013187147A JP 2015055653 A JP2015055653 A JP 2015055653A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- acoustic
- acoustic models
- option
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、話者が発する音声を認識し、音声認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置を搭載した電子機器等に関する。 The present invention relates to a speech recognition apparatus and a speech recognition method for recognizing speech uttered by a speaker and performing a response and processing corresponding to a speech recognition result. Furthermore, the present invention relates to an electronic device equipped with such a voice recognition device.
例えば、音声再生機能及び音声認識機能を有する音声認識装置は、ホストシステムとの間で通信を行うホストインターフェースを備えており、ホストシステムからコマンドや音声再生データを受信することによって音声を発生する。また、音声認識装置は、ホストシステムからコマンドや選択肢リスト又は選択肢リスト指定情報を受信して、選択肢リストに含まれている複数の選択肢の内から発話音声に最も近い選択肢を検出することによって音声認識を行い、音声認識結果をホストシステムに送信する。 For example, a voice recognition device having a voice playback function and a voice recognition function includes a host interface that communicates with a host system, and generates voice by receiving commands and voice playback data from the host system. The voice recognition device receives a command, a choice list or choice list designation information from the host system, and recognizes a voice by detecting a choice closest to the uttered voice from a plurality of choices included in the choice list. To transmit the voice recognition result to the host system.
また、音声認識装置は、通常、予め収録された音声に基づいてメモリー等の格納部に用意されている音響モデル(「標準パターン」又は「テンプレート」ともいう)を用いて、話者が発する音声を解析して得られる特徴パターンと音響モデルとのパターンマッチングを行うことにより、音声認識処理を行う。 In addition, the speech recognition apparatus usually uses a sound model (also referred to as “standard pattern” or “template”) prepared in a storage unit such as a memory based on prerecorded speech, and the speech uttered by the speaker. Speech recognition processing is performed by performing pattern matching between a feature pattern obtained by analyzing the above and an acoustic model.
ただし、話者によっては、予め用意されている音響モデルを用いると、音声認識処理における認識率が良くない場合がある。そのような場合には、話者の音声に適応するように音響モデルをトレーニングするスピーカー・アダプテーション機能により、認識率を向上させたり誤認識を改善したりすることができる。 However, depending on the speaker, when an acoustic model prepared in advance is used, the recognition rate in the speech recognition process may not be good. In such a case, the recognition rate can be improved or misrecognition can be improved by the speaker adaptation function that trains the acoustic model to adapt to the voice of the speaker.
しかしながら、一般的には、選択肢リストに含まれている複数の選択肢の内容に関係なく、不特定話者用の同一の音響モデルを用いて音声認識処理が行われるので、選択肢の内容又は話者の声質等の条件によっては認識率が低下する場合がある。そこで、複数の音響モデルを用いて音声認識処理を行うことが考えらえる。 However, in general, since the speech recognition process is performed using the same acoustic model for unspecified speakers regardless of the contents of a plurality of options included in the option list, the contents of options or speakers The recognition rate may decrease depending on the voice quality and other conditions. Therefore, it is conceivable to perform speech recognition processing using a plurality of acoustic models.
関連する従来技術として、特許文献1には、認識精度を向上させると共に正しい認識結果を得るまでの操作を簡略化することを目的とする音声認識システムが開示されている。この音声認識システムは、話者が発声した音声を保存する音声保存手段と、第1の認識辞書を用いて、音声保存手段に保存された音声に対して音声認識処理を行う第1の音声認識手段と、第1の認識辞書と異なる第2の認識辞書を用いて、音声保存手段に保存された音声に対して音声認識処理を行う第2の音声認識手段と、第1及び第2の音声認識手段の認識結果に基づいて、音声保存手段に保存された音声に対応する認識候補を決定する認識結果決定手段とを備えている。
As a related art,
しかしながら、このように、第1及び第2の認識辞書と第1及び第2の音声認識手段とを用いて同じ音声に対して音声認識処理を行う音声認識システムにおいては、第1の認識辞書を用いて得られた認識結果と第2の認識辞書を用いて得られた認識結果とが互いに異なる場合に、正しい認識結果を判断することが難しいという問題がある。 However, in the speech recognition system that performs speech recognition processing on the same speech using the first and second recognition dictionaries and the first and second speech recognition means, the first recognition dictionary is When the recognition result obtained by using and the recognition result obtained by using the second recognition dictionary are different from each other, there is a problem that it is difficult to determine a correct recognition result.
また、特許文献1には、第2の音声認識手段による音声認識処理によって複数の認識候補に絞られたときに、それらの認識候補に対応する第1の認識辞書を作成し、第1の認識辞書を用いた第1の音声認識手段の音声認識処理によってそれらの認識候補の中から入力音声に最も近いものを抽出することも開示されている。しかしながら、第1の認識辞書を用いて入力音声を正しく認識することができたとしても、第2の認識辞書を用いて入力音声を正しく認識することが難しい場合には、正しい認識結果を得られない可能性が高い。
Further, in
そこで、上記の点に鑑み、本発明の目的の1つは、選択肢リストに含まれている複数の選択肢の内から発話音声に近い選択肢を検出する音声認識処理において、選択肢の内容又は話者の声質等の条件が異なっても、認識率の低下を防止することである。 Accordingly, in view of the above points, one of the objects of the present invention is to select the content of an option or the speaker's content in a speech recognition process for detecting an option close to the uttered speech from among a plurality of options included in the option list. Even if conditions such as voice quality are different, the recognition rate is prevented from decreasing.
以上の課題を解決するため、本発明の第1の観点に係る音声認識装置は、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルを格納する音響モデル格納部と、選択肢を表す選択肢データと複数組の音響モデルの内から1組の音響モデルを特定する音響モデル特定情報とを含む選択肢リストを格納する選択肢リスト格納部と、音響モデル特定情報によって特定される1組の音響モデルを選択する音響モデル選択部と、入力された音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号の少なくとも一部から生成された特徴パターンを、選択された1組の音響モデルの内で、選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力する一致検出部とを具備する。 In order to solve the above problems, the speech recognition apparatus according to the first aspect of the present invention is obtained by collecting frequency component distribution states of a plurality of phonemes used in a predetermined language under a plurality of different conditions. An option for storing an option list including an acoustic model storage unit for storing a plurality of sets of acoustic models, option data representing options, and acoustic model specifying information for specifying one set of acoustic models from the plurality of sets of acoustic models Features that represent a list storage unit, an acoustic model selection unit that selects a set of acoustic models specified by acoustic model specification information, and a frequency component of an input audio signal, and represents a distribution state of the frequency component of the audio signal A signal processing unit for generating a pattern, and a feature pattern generated from at least a part of the audio signal are selected from a set of selected acoustic models. Performs speech recognition processing as compared with the acoustic model corresponding to the part, and a coincidence detecting section for outputting a speech recognition result.
また、本発明の第1の観点に係る音声認識方法は、選択肢を表す選択肢データと音響モデルの組を特定する音響モデル特定情報とを含む選択肢リストを格納する選択肢リスト格納部から、選択肢データ及び音響モデル特定情報を読み出すステップ(a)と、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルの内から、音響モデル特定情報によって特定される1組の音響モデルを選択するステップ(b)と、入力された音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(c)と、音声信号の少なくとも一部から生成された特徴パターンを、選択された1組の音響モデルの内で、ステップ(a)において読み出された選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力するステップ(d)とを具備する。 Further, the speech recognition method according to the first aspect of the present invention includes: an option list storage unit that stores an option list including option data representing options and acoustic model specifying information for specifying a set of acoustic models; The step (a) of reading out the acoustic model specifying information, and from among a plurality of sets of acoustic models obtained by collecting the distribution states of frequency components of a plurality of phonemes used in a predetermined language under a plurality of different conditions, A step (b) of selecting a set of acoustic models specified by the acoustic model specifying information, a step of extracting a frequency component of the input voice signal, and generating a feature pattern representing a distribution state of the frequency component of the voice signal (C) and a feature pattern generated from at least a part of the audio signal is read in step (a) within the selected set of acoustic models. Compared with the acoustic model corresponding to at least part of the selection data issued performs speech recognition processing comprises a step (d) for outputting a speech recognition result.
本発明の第1の観点によれば、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルが用意され、複数組の音響モデルの内から、選択肢リストに含まれている音響モデル特定情報によって特定される1組の音響モデルが選択される。これにより、選択肢リストに含まれている選択肢データの内容等の条件に応じて設定された音響モデルを用いて音声認識処理が行われるので、音声認識処理における認識率を向上させることができる。 According to the first aspect of the present invention, a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language under a plurality of different conditions are prepared. One set of acoustic models specified by the acoustic model specifying information included in the option list is selected from the set of acoustic models. Thereby, since the speech recognition process is performed using the acoustic model set according to the conditions such as the contents of the option data included in the option list, the recognition rate in the speech recognition process can be improved.
本発明の第1の観点に係る音声認識装置において、複数の音響モデルが、所定の言語において用いられる不特定の種類の用語に含まれる音素の周波数成分の分布状態を収集して得られた音響モデルの組と、所定の言語において用いられる特定の種類の用語に含まれる音素の周波数成分の分布状態を収集して得られた音響モデルの組とを含むようにしても良い。その場合には、用語の種類に応じて設定された音響モデルを用いて音声認識処理を行うことができる。 In the speech recognition apparatus according to the first aspect of the present invention, acoustics obtained by collecting a distribution state of phoneme frequency components included in unspecified types of terms used in a predetermined language by a plurality of acoustic models. A set of models and a set of acoustic models obtained by collecting distribution states of frequency components of phonemes included in specific types of terms used in a predetermined language may be included. In that case, speech recognition processing can be performed using an acoustic model set according to the type of term.
本発明の第2の観点に係る音声認識装置は、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数組の音響モデルを格納する音響モデル格納部と、選択肢を表す選択肢データを含む選択肢リストを格納する選択肢リスト格納部と、入力された音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号における声質の種類を判定する声質判定部と、複数組の音響モデルの内から、声質判定部によって判定された声質の種類に対応する1組の音響モデルを選択する音響モデル選択部と、音声信号の少なくとも一部から生成された特徴パターンを、選択された1組の音響モデルの内で、選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力する一致検出部とを具備する。 The speech recognition apparatus according to the second aspect of the present invention stores a plurality of sets of acoustic models obtained by collecting frequency component distribution states of a plurality of phonemes used in a predetermined language for a plurality of different types of voice qualities. An acoustic model storage unit, an option list storage unit that stores an option list including option data representing options, and a feature pattern that extracts a frequency component of an input audio signal and represents a distribution state of the frequency component of the audio signal A signal processing unit to be generated, a voice quality determination unit that determines the type of voice quality in the audio signal, and a set of acoustic models corresponding to the type of voice quality determined by the voice quality determination unit are selected from a plurality of sets of acoustic models An acoustic model selection unit, and a feature pattern generated from at least a part of the audio signal, at least of the selection data in the set of selected acoustic models. Performs speech recognition processing as compared with the acoustic model corresponding to the part comprises a coincidence detection unit for outputting a speech recognition result.
また、本発明の第2の観点に係る音声認識方法は、選択肢を表す選択肢データを含む選択肢リストを格納する選択肢リスト格納部から、選択肢データを読み出すステップ(a)と、入力された音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(b)と、音声信号における声質の種類を判定するステップ(c)と、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数組の音響モデルの内から、ステップ(c)において判定された声質の種類に対応する1組の音響モデルを選択するステップ(d)と、音声信号の少なくとも一部から生成された特徴パターンを、選択された1組の音響モデルの内で、ステップ(a)において読み出された選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力するステップ(e)とを具備する。 The speech recognition method according to the second aspect of the present invention includes a step (a) of reading out option data from an option list storage unit that stores an option list including option data representing options, and an input voice signal A step (b) of extracting a frequency component and generating a feature pattern representing a distribution state of the frequency component of the audio signal; a step (c) of determining a voice quality type in the audio signal; and a plurality of types used in a predetermined language A set of acoustic models corresponding to the type of voice quality determined in step (c) is obtained from a plurality of sets of acoustic models obtained by collecting the distribution of the frequency components of phonemes for a plurality of different types of voice qualities. Selecting (d) a feature pattern generated from at least a portion of the audio signal within a set of selected acoustic models, step (a) Performs speech recognition processing as compared with the acoustic model corresponding to at least a portion of the selection data read Oite comprises a step (e) for outputting a speech recognition result.
本発明の第2の観点によれば、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数組の音響モデルが用意され、複数組の音響モデルの内から、入力された音声信号に基づいて判定された声質の種類に対応する1組の音響モデルが選択される。これにより、話者の声質の種類に応じて設定された音響モデルを用いて音声認識処理が行われるので、音声認識処理における認識率を向上させることができる。 According to the second aspect of the present invention, a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language for a plurality of different types of voice qualities are prepared. A set of acoustic models corresponding to the type of voice quality determined based on the input audio signal is selected from the set of acoustic models. Thereby, since the speech recognition process is performed using the acoustic model set according to the type of voice quality of the speaker, the recognition rate in the speech recognition process can be improved.
本発明の第2の観点に係る音声認識装置において、選択肢リスト格納部が、特定の声質の種類について音声認識処理を許可又は禁止する制御情報をさらに含む選択肢リストを格納し、一致検出部が、声質判定部によって判定された声質の種類と制御情報とに基づいて、選択肢リストについて音声認識処理を開始するか否かを判定しても良い。その場合には、音声認識による電子機器の操作等におけるセキュリティレベルを制御することができる。例えば、子供がエアコンの温度設定を行うことを禁止することにより、エアコンの危険な操作を防止することが可能である。 In the speech recognition apparatus according to the second aspect of the present invention, the option list storage unit stores an option list further including control information for permitting or prohibiting speech recognition processing for a specific voice quality type, and the match detection unit is Based on the type of voice quality determined by the voice quality determination unit and the control information, it may be determined whether or not to start the speech recognition process for the option list. In that case, it is possible to control the security level in operation of the electronic device by voice recognition. For example, by prohibiting children from setting the temperature of the air conditioner, it is possible to prevent dangerous operation of the air conditioner.
本発明の第3の観点に係る音声認識装置は、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルを格納する音響モデル格納部と、選択肢を表す選択肢データを含む選択肢リストを格納する選択肢リスト格納部と、入力された音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号の少なくとも一部から生成された特徴パターンを、複数組の音響モデルの内で、選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、複数組の音響モデルに対応する複数の音声認識結果及び複数の認識確度を出力する一致検出部と、複数の認識確度の内で最も高い認識確度が得られた音声認識結果を、最終的な音声認識結果として出力する認識確度判定部とを具備する。 The speech recognition apparatus according to the third aspect of the present invention stores a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language under a plurality of different conditions. An acoustic model storage unit, an option list storage unit that stores an option list including option data representing options, and a feature pattern that extracts a frequency component of an input audio signal and represents a distribution state of the frequency component of the audio signal Performs speech recognition processing by comparing the feature pattern generated from the signal processing unit to be generated and at least a part of the speech signal with an acoustic model corresponding to at least a part of the choice data among a plurality of sets of acoustic models. The coincidence detection unit that outputs a plurality of speech recognition results and a plurality of recognition accuracy corresponding to a plurality of sets of acoustic models, and the highest recognition accuracy among the plurality of recognition accuracy were obtained. The voice recognition result comprises a recognition accuracy determining unit which outputs as a final speech recognition result.
また、本発明の第3の観点に係る音声認識方法は、選択肢を表す選択肢データを含む選択肢リストを格納する選択肢リスト格納部から、選択肢データを読み出すステップ(a)と、入力された音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(b)と、音声信号の少なくとも一部から生成された特徴パターンを、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルの内で、ステップ(a)において読み出された選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、複数組の音響モデルに対応する複数の音声認識結果及び複数の認識確度を出力するステップ(c)と、複数の認識確度の内で最も高い認識確度が得られた音声認識結果を、最終的な音声認識結果として出力するステップ(d)とを具備する。 The speech recognition method according to the third aspect of the present invention includes a step (a) of reading out option data from an option list storage unit that stores an option list including option data representing options, and an input voice signal A step (b) of extracting a frequency component and generating a feature pattern representing a distribution state of the frequency component of the audio signal; and a feature pattern generated from at least a part of the audio signal, a plurality of phonemes used in a predetermined language An acoustic model corresponding to at least a part of the option data read out in step (a) among a plurality of sets of acoustic models obtained by collecting the distribution state of the frequency components under a plurality of different conditions; A step (c) of performing a speech recognition process in comparison and outputting a plurality of speech recognition results and a plurality of recognition accuracy corresponding to a plurality of sets of acoustic models; The speech recognition result with the highest recognition certainty is obtained within the recognition accuracy, it comprises a step (d) to output as a final speech recognition result.
本発明の第3の観点によれば、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルが用意され、複数組の音響モデルを用いて同時に音声認識処理を行うことにより、複数組の音響モデルに対応する複数の音声認識結果及び複数の認識確度が得られる。さらに、複数の認識確度の内で最も高い認識確度が得られた音声認識結果が、最終的な音声認識結果として出力される。これにより、複数の異なる条件に応じて設定された複数組の音響モデルを用いて同時に行われた音声認識処理において最も高い認識確度が得られた音声認識結果が得られるので、音声認識処理における認識率を向上させることができる。 According to the third aspect of the present invention, a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language under a plurality of different conditions are prepared. By performing speech recognition processing simultaneously using a set of acoustic models, a plurality of speech recognition results and a plurality of recognition accuracy corresponding to a plurality of sets of acoustic models can be obtained. Furthermore, the speech recognition result that provides the highest recognition accuracy among the plurality of recognition accuracy is output as the final speech recognition result. As a result, a speech recognition result with the highest recognition accuracy can be obtained in speech recognition processing performed simultaneously using a plurality of sets of acoustic models set according to a plurality of different conditions. The rate can be improved.
本発明の第3の観点に係る音声認識装置において、複数組の音響モデルが、所定の言語において用いられる不特定の種類の用語に含まれる音素の周波数成分の分布状態を収集して得られた音響モデルの組と、所定の言語において用いられる特定の種類の用語に含まれる音素の周波数成分の分布状態を収集して得られた音響モデルの組とを含むようにしても良い。その場合には、用語の種類に応じて設定された音響モデルを用いて音声認識処理を行うことができる。 In the speech recognition apparatus according to the third aspect of the present invention, a plurality of sets of acoustic models are obtained by collecting distribution states of frequency components of phonemes included in unspecified types of terms used in a predetermined language. A set of acoustic models and a set of acoustic models obtained by collecting the distribution states of the frequency components of phonemes included in specific types of terms used in a predetermined language may be included. In that case, speech recognition processing can be performed using an acoustic model set according to the type of term.
あるいは、複数組の音響モデルが、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数の音響モデルから構成されるようにしても良い。その場合には、声質の種類に応じて設定された音響モデルを用いて音声認識処理を行うことができる。 Alternatively, the plurality of sets of acoustic models may be composed of a plurality of acoustic models obtained by collecting frequency component distribution states of a plurality of phonemes used in a predetermined language for a plurality of different types of voice qualities. good. In that case, the speech recognition process can be performed using an acoustic model set according to the type of voice quality.
本発明の1つの観点に係る電子機器は、上記いずれかの音声認識装置を具備する。これにより、家電製品、住宅設備、車載装置(ナビゲーション装置等)、自動販売機、又は、携帯端末等の電子機器において、音声認識による操作を実現することができる。 An electronic apparatus according to one aspect of the present invention includes any one of the above speech recognition apparatuses. Thereby, operation by voice recognition can be realized in electronic devices such as home appliances, housing equipment, in-vehicle devices (navigation devices, etc.), vending machines, or mobile terminals.
以下、本発明の実施形態について、図面を参照しながら詳しく説明する。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
<第1の実施形態に係る音声認識装置>
図1は、本発明の第1の実施形態に係る音声認識装置を搭載した電子機器の構成の一部を示すブロック図である。この電子機器は、例えば、家電製品、住宅設備、車載装置(ナビゲーション装置等)、自動販売機、又は、携帯端末等であり、図1においては、音声認識機能及び音声再生機能に関する部分のみが示されている。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In addition, the same referential mark is attached | subjected to the same component and the overlapping description is abbreviate | omitted.
<Voice Recognition Device According to First Embodiment>
FIG. 1 is a block diagram showing a part of the configuration of an electronic apparatus equipped with the speech recognition apparatus according to the first embodiment of the present invention. This electronic device is, for example, a home appliance, a housing facility, a vehicle-mounted device (navigation device, etc.), a vending machine, a portable terminal, or the like. FIG. Has been.
図1に示すように、この電子機器は、音声認識装置100と、ホストシステムの制御部200とを含んでいる。音声認識装置100は、制御部200から受信したコマンド等に従って、ユーザーに質問又はメッセージを発すると共に、ユーザーの音声を認識して音声認識結果を制御部200に送信する。
As shown in FIG. 1, the electronic device includes a
音声認識装置100は、コマンド解析部10と、音声入力部20と、A/D変換器30と、音声認識処理部40と、メモリー50と、音声再生部60と、D/A変換器70と、音声出力部80とを含んでいる。なお、コマンド解析部10〜音声出力部80の一部を、半導体集積回路装置に内蔵しても良い。
The
制御部200は、ホストCPU(中央演算装置)91と、格納部92とを含んでいる。ホストCPU91は、格納部92の記録媒体に記録されているソフトウェア(音声認識制御プログラム)に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、MO、MT、CD−ROM、又は、DVD−ROM等を用いることができる。
The
ホストCPU91は、音声認識制御プログラムにおいて予め設定されたシナリオに沿って、音声再生開始コマンド及び音声再生データを音声認識装置100に送信することにより、音声認識装置100に音声再生動作を行わせる。また、ホストCPU91は、音声認識開始コマンド及び選択肢リスト指定情報を音声認識装置100に送信することにより、音声認識装置100に音声認識動作を行わせる。
The host CPU 91 causes the
音声認識装置100において、コマンド解析部10は、ホストCPU91から送信されるコマンドを解析し、コマンドに従って、音声再生動作及び音声認識動作を独立に又は一体として制御することができる。例えば、音声認識制御プログラムにおいて予め設定されたシナリオに沿って音声再生動作及び音声認識動作を行うことにより、音声認識の候補となる選択肢(単語又は文章)の数を制限して、音声認識処理における認識率の向上を図ることが可能である。
In the
音声入力部20は、音声を電気信号(音声信号)に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。A/D変換器30は、音声入力部20から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号(音声データ)に変換する。例えば、音声データにおける音声周波数帯域は12kHzであり、ビット数は16ビットである。
The
音声認識処理部40は、CPUとソフトウェア、ディジタル回路、又は、アナログ回路によって構成され、信号処理部41と、音響モデル選択部42と、一致検出部43とを含んでいる。また、メモリー50は、例えば、ROM(リードオンリーメモリー)又はフラッシュメモリー等によって構成され、音響モデル格納部51と、選択肢リスト格納部52とを含んでいる。
The speech
信号処理部41は、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、周波数成分の分布状態を表す特徴パターンを生成する。生成された特徴パターンは、一致検出部43に出力される。また、信号処理部41は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部43及びホストCPU91に出力する。これにより、ユーザーからの要求又は回答の有無を判定することができる。
The
ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部41は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部41は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部41は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部41は、各々の周波数成分の絶対値を求める。
Here, an example of a method for obtaining a feature pattern from an audio signal will be described. The
信号処理部41は、それらの周波数成分の絶対値に、メル尺度(音高の知覚的尺度)に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部41は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が20個であれば、20個の数値が得られる。
The
このようにして得られた数値の内で低次のもの(例えば、12個)が、MFCC(メル周波数ケプストラム係数)と呼ばれる。信号処理部41は、フレーム毎にMFCCを算出し、HMM(隠れマルコフモデル)に従って複数のMFCCを連結することにより、連結されたMFCCを求める。この連結されたMFCCが、特徴パターンに相当し、多次元空間(例えば、12次元空間)において点として表される。
Of the numerical values obtained in this way, the lower ones (for example, 12) are called MFCC (Mel Frequency Cepstrum Coefficient). The
ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「a」、「i」、「u」、「e」、「o」の母音と、「k」、「s」、「t」、「n」等の子音と、「j」、「w」の半母音と、「N」、「Q」、「H」の特殊モーラとが該当する。 Here, “phoneme” means an element of a sound that is regarded as the same in a certain language. Below, the case where Japanese is used as a language is demonstrated. Japanese phonemes include “a”, “i”, “u”, “e”, “o” vowels, “k”, “s”, “t”, “n” and other consonants, The semi-vowels of “j” and “w” and the special mora of “N”, “Q”, and “H” are applicable.
音響モデル格納部51は、複数組の音響モデルを格納する部分である。ここでいう音響モデルとは、所定の言語において用いられる音素の周波数成分の分布状態を表したもの、即ち、音素の特徴パターンに相当する。異なる音素であれば周波数成分も異なり、異なる音響モデルとなる。ある条件の下で複数の音素について音響モデルを収集することにより、1組の音響モデルが得られる。従って、複数の異なる条件の下で音響モデルを収集することにより、複数組の音響モデルを構成することができる。例えば、用語の種類を条件として複数組の音響モデルが構成された場合に、音響モデル格納部51は、複数の異なる種類の用語に応じて、汎用の1組の音響モデル0と、特定用語用の少なくとも1組の音響モデル(図1においては、複数組の音響モデル1、2、・・・を示す)とを格納している。
The acoustic
汎用の1組の音響モデル0は、所定の言語において用いられる不特定の種類の用語に含まれている複数の音素の周波数成分の分布状態を収集して得られた複数の音響モデルを含んでいる。また、特定用語用の各組の音響モデル1、2、・・・は、所定の言語において用いられる特定の種類の用語に含まれている複数の音素の周波数成分の分布状態を収集して得られた複数の音響モデルを含んでいる。これにより、用語の種類に応じて設定された音響モデルを用いて音声認識処理を行うことができる。
The general-purpose set of
例えば、数字認識用の1組の音響モデル1は、温度設定や時刻設定等において用いられる数字を含む用語を認識するために特化してトレーニングされた複数の音響モデルを含んでいる。また、外来語用の1組の音響モデル2は、日本語におけるカタカナの用語や和製英語等の外来語を含む用語を認識するために特化してトレーニングされた複数の音響モデルを含んでいる。
For example, a set of
ここで、各組の音響モデルは、所定の言語において用いられる複数の音素について、多数(例えば、200人程度)の話者が発した音声を用いて予め作成される。音響モデルの作成においては、各々の音素を表す音声信号からMFCCが求められる。ただし、多数の話者が発した音声を用いて作成されたMFCCにおいては、それぞれの数値がばらつきを有している。 Here, each set of acoustic models is created in advance using a plurality of (for example, about 200) speakers uttered for a plurality of phonemes used in a predetermined language. In creating an acoustic model, an MFCC is obtained from a speech signal representing each phoneme. However, in the MFCC created using voices uttered by a large number of speakers, each numerical value varies.
従って、各々の音素についての音響モデルは、MFCCを表す多次元空間において、ばらつきを含む広がりを有している。信号処理部41に入力された音声信号から生成された特徴パターンが音響モデルの広がりの範囲内に入っていれば、特徴パターンが音響モデルに一致していると判定される。
Therefore, the acoustic model for each phoneme has a spread including variation in the multidimensional space representing the MFCC. If the feature pattern generated from the audio signal input to the
選択肢リスト格納部52は、複数の選択肢をそれぞれ表す複数の選択肢データと、音響モデルの組を特定する音響モデル特定情報とを含む選択肢リストを格納している。図1においては、選択肢リスト格納部52が、複数の選択肢リストA、B、C、・・・を格納している。
The option
例えば、不特定の種類の用語を選択肢として含む選択肢リストには、汎用の1組の音響モデル0を特定する音響モデル特定情報が付加されている。また、特定の種類の用語を選択肢として含む選択肢リストには、特定用語用の複数組の音響モデル1、2、・・・の内のいずれか1組を特定する音響モデル特定情報が付加されている。
For example, acoustic model specifying information for specifying a general-purpose set of
コマンド解析部10は、音声認識開始コマンド及び選択肢リスト指定情報をホストCPU91から受信すると、選択肢リスト指定情報に従って、選択肢リスト格納部52に格納されている複数の選択肢リストA、B、C、・・・の内から1つの選択肢リストを指定する。
When the
音響モデル選択部42は、コマンド解析部10によって指定された選択肢リストに含まれている音響モデル特定情報を選択肢リスト格納部52から読み出し、音響モデル格納部51に格納されている複数組の音響モデルの内から、音響モデル特定情報によって特定される1組の音響モデルを選択する。
The acoustic
一致検出部43は、コマンド解析部10によって指定された選択肢リストに含まれている複数の選択肢データを選択肢リスト格納部52から順次読み出すと共に、音響モデル選択部42によって選択された1組の音響モデルの内で、選択肢データの少なくとも一部に対応する音響モデル(例えば、1音節分の音響モデル)を音響モデル格納部51から読み出す。
The
これにより、一致検出部43は、音声検出信号が活性化されているときに、信号処理部41に入力された音声信号の少なくとも一部から生成された特徴パターンを、音響モデル選択部42によって選択された1組の音響モデルの内で、コマンド解析部10によって指定された選択肢リストに含まれている各々の選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理(パターンマッチング)を行い、音声認識結果を出力する。
As a result, the
ここで、一致検出部43は、音響モデル選択部42によって選択された1組の音響モデルの内で、選択肢リストに含まれている複数の選択肢データに対応する複数の音響モデルを読み出してから、特徴パターンとそれらの音響モデルとの比較を行っても良い。あるいは、一致検出部43は、音響モデル選択部42によって選択された1組の音響モデルの内で、選択肢リストに含まれている1つの選択肢データに対応する1つの音響モデルを読み出して特徴パターンとその音響モデルとの比較を行い、複数の選択肢データについてその動作を繰り返しても良い。
Here, the
また、一致検出部43は、特徴パターンと音響モデルとの一致が検出された場合に、その音響モデルに対応する選択肢が、入力された音声信号に一致すると判定しても良い。なお、特徴パターンと音響モデルとの一致が検出されなかった場合には、一致検出部43は、音声認識不能を表す音声認識結果を出力しても良い。あるいは、一致検出部43は、MFCCを表す多次元空間における特徴パターンの位置と音響モデルの広がりの中心との間の距離を求め、特徴パターンの位置に最も近い音響モデルに対応する選択肢が、入力された音声信号に一致すると判定しても良い。
Further, when a match between the feature pattern and the acoustic model is detected, the
例えば、一致検出部43は、入力された音声信号の先頭の音節から生成された特徴パターンを、選択肢リストに含まれている各々の選択肢データによって表される選択肢の先頭の音節に対応する音響モデルと比較する。選択肢リストにおいて、一致が検出された音節を先頭に有する選択肢が1つだけ存在する場合には、一致検出部43は、その選択肢が、入力された音声信号に一致すると判定しても良い。一方、選択肢リストにおいて、一致が検出された音節を先頭に有する複数の選択肢が存在する場合には、一致検出部43は、選択肢が1つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。
For example, the
ここで、「音節」とは、1個の母音を主音とし、その母音単独で、あるいは、その母音の前後に1つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、1つの音節は、1つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。 Here, the “syllable” means a set of sounds that are composed of one vowel as a main sound and that vowels alone or with one or more consonants before and after the vowel. Semi-vowels and special mora can also constitute syllables. That is, one syllable is composed of one or more phonemes. Japanese syllables include “a”, “i”, “u”, “e”, “o”, “ka”, “ki”, “ku”, “ke”, “ko”, etc. .
例えば、音節「あ」に対応する音響モデルとは、音節「あ」を構成する音素「a」を表す音響モデルのことである。また、音節「か」に対応する音響モデルとは、音節「か」を構成する第1番目の音素「k」を表す音響モデルと、音節「か」を構成する第2番目の音素「a」を表す音響モデルとの組み合わせのことである。 For example, the acoustic model corresponding to the syllable “a” is an acoustic model representing the phoneme “a” constituting the syllable “a”. The acoustic model corresponding to the syllable “ka” includes the acoustic model representing the first phoneme “k” that constitutes the syllable “ka” and the second phoneme “a” that constitutes the syllable “ka”. It is a combination with an acoustic model that represents.
入力された音声信号の1つの音節が1つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の1つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。 When one syllable of the input speech signal is composed of one phoneme, if the phoneme match is detected, the syllable match is detected. On the other hand, when one syllable of the input speech signal is composed of a plurality of phonemes, if a coincidence of these phonemes is detected, a coincidence of syllables is detected.
1つの選択肢と入力された音声信号との間で上述したような一致が検出されると、一致検出部43は、選択肢リストに含まれている複数の選択肢の内で一致が検出された選択肢を特定する情報(例えば、その選択肢の番号又はその選択肢を表す選択肢データ)を含む音声認識結果を出力する。これにより、ホストCPU91は、音声認識処理部40に入力された音声信号の少なくとも一部に対応する選択肢を認識することができる。
When a match as described above is detected between one option and the input audio signal, the
ホストCPU91は、音声認識結果に基づいて、音声認識制御プログラムにおいて予め設定されたシナリオに沿って、質問又はメッセージを表す音声再生データを音声再生開始コマンドと共にコマンド解析部10に送信する。また、ホストCPU91は、新たな選択肢リスト指定情報を音声認識開始コマンドと共にコマンド解析部10に送信する。
Based on the voice recognition result, the host CPU 91 transmits voice reproduction data representing a question or a message together with a voice reproduction start command to the
コマンド解析部10は、音声再生開始コマンドに従って、音声再生データを音声再生部60に供給する。音声再生データは、所定の圧縮フォーマットに従う音声データであっても良いし、テキストデータであっても良い。音声再生部60は、コマンド解析部10から供給された音声再生データに基づいて、出力すべき音声を表す出力音声信号を生成する。
The
音声再生データがテキストデータである場合には、音声再生部60が、各種の音素について音声波形を表す音声データが含まれている音声合成データベースを用いて、テキストデータによって表される単語又は文章に含まれている複数の音素について音声データを繋ぎ合わせることにより、出力音声信号を合成する。
When the voice reproduction data is text data, the
D/A変換器70は、音声再生部60から供給されるディジタルの出力音声信号を、アナログの出力音声信号に変換する。音声出力部80は、D/A変換器70から供給されるアナログの出力音声信号を電力増幅する電力増幅器と、電力増幅された出力音声信号に応じて音声を発するスピーカーとを含んでいる。
The D /
スピーカーは、ホストCPU91から送信された音声再生データによって表される質問又はメッセージを、音声として出力する。これにより、音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの選択肢の内の1つに予測される状況を作り出し、それらの選択肢を表す選択肢データを含む選択肢リストを適用することができる。 The speaker outputs a question or message represented by the sound reproduction data transmitted from the host CPU 91 as sound. This creates a situation where a user's answer to a question or message that is uttered based on audio playback data is predicted to be one of several options, and applies an option list that includes option data representing those options be able to.
<第1の実施形態の変形例>
図2は、本発明の第1の実施形態の変形例に係る音声認識装置を搭載した電子機器の構成の一部を示すブロック図である。第1の実施形態の変形例においては、制御部200の格納部92が複数の選択肢リストA、B、C、・・・を格納し、それらの内から順次選択された選択肢リストが音声認識装置100に送信される。これに伴い、音声認識装置100において、図1に示すメモリー50の替わりに、メモリー50a及び50bが用いられる。その他の点に関しては、第1の実施形態と同様である。
<Modification of First Embodiment>
FIG. 2 is a block diagram showing a part of the configuration of an electronic apparatus equipped with a speech recognition apparatus according to a modification of the first embodiment of the present invention. In the modification of the first embodiment, the
制御部200のホストCPU91は、音声認識制御プログラムにおいて予め設定されたシナリオに沿って、音声再生開始コマンド及び音声再生データを音声認識装置100に送信することにより、音声認識装置100に音声再生動作を行わせる。また、ホストCPU91は、格納部92に格納されている複数の選択肢リストA、B、C、・・・の内から1つの選択肢リストを選択して、音声認識開始コマンド及び選択された選択肢リストを音声認識装置100に送信することにより、音声認識装置100に音声認識動作を行わせる。
The host CPU 91 of the
音声認識装置100において、メモリー50aは、例えば、ROM(リードオンリーメモリー)又はフラッシュメモリー等によって構成され、音響モデル格納部51を含んでいる。また、メモリー50bは、例えば、RAM(ランダムアクセスメモリー)等によって構成され、選択肢リスト格納部52を含んでいる。
In the
コマンド解析部10は、音声認識開始コマンド及び選択肢リストをホストCPU91から受信すると、音声認識開始コマンドに従って、受信した選択肢リストを選択肢リスト格納部52に格納する。図2においては、選択肢リスト格納部52が選択肢リストAを格納している状態が示されている。
When the
音響モデル選択部42は、選択肢リスト格納部52に格納されている選択肢リストに含まれている音響モデル特定情報を読み出し、音響モデル格納部51に格納されている複数組の音響モデルの内から、音響モデル特定情報によって特定される1組の音響モデルを選択する。
The acoustic
一致検出部43は、選択肢リスト格納部52に格納されている選択肢リストに含まれている複数の選択肢データを順次読み出すと共に、音響モデル選択部42によって選択された1組の音響モデルの内で、選択肢データの少なくとも一部に対応する音響モデル(例えば、1音節分の音響モデル)を音響モデル格納部51から読み出す。
The
これにより、一致検出部43は、音声検出信号が活性化されているときに、信号処理部41に入力された音声信号の少なくとも一部から生成された特徴パターンを、音響モデル選択部42によって選択された1組の音響モデルの内で、選択肢リスト格納部52に格納されている選択肢リストに含まれている各々の選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理(パターンマッチング)を行い、音声認識結果を出力する。
As a result, the
例えば、一致検出部43は、入力された音声信号の先頭の音節から生成された特徴パターンを、選択肢リストに含まれている各々の選択肢データによって表される選択肢の先頭の音節に対応する音響モデルと比較する。選択肢リストにおいて、一致が検出された音節を先頭に有する選択肢が1つだけ存在する場合には、一致検出部43は、その選択肢が、入力された音声信号に一致すると判定しても良い。一方、選択肢リストにおいて、一致が検出された音節を先頭に有する複数の選択肢が存在する場合には、一致検出部43は、選択肢が1つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。
For example, the
<第1の実施形態に係る音声認識方法>
次に、本発明の第1の実施形態に係る音声認識方法について、図1〜図3を参照しながら説明する。図3は、図1又は図2に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。
<Voice Recognition Method According to First Embodiment>
Next, a speech recognition method according to the first embodiment of the present invention will be described with reference to FIGS. FIG. 3 is a flowchart showing a speech recognition method implemented by the speech recognition apparatus shown in FIG. 1 or 2.
図3のステップS11において、複数の選択肢をそれぞれ表す複数の選択肢データと、音響モデルの組を特定する音響モデル特定情報とを含む選択肢リストを格納する選択肢リスト格納部52から、一致検出部43が、複数の選択肢データを読み出すと共に、音響モデル選択部42が、音響モデル特定情報を読み出す。
In step S11 of FIG. 3, the
ステップS12において、音響モデル選択部42が、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルの内から、音響モデル特定情報によって特定される1組の音響モデルを選択する。一方、ステップS13において、信号処理部41が、入力された音声信号の周波数成分を抽出し、その周波数成分の分布状態を表す特徴パターンを生成する。
In step S12, the acoustic
ステップS14において、一致検出部43が、信号処理部41に入力された音声信号の少なくとも一部から生成された特徴パターンを、音響モデル選択部42によって選択された1組の音響モデルの内で、ステップS11において読み出された各々の選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力する。これにより、1回の音声認識動作が終了する。
In step S <b> 14, the
<第1の実施形態の具体例>
次に、本発明の第1の実施形態に係る音声認識装置が行う音声認識動作の具体例について、図1及び図4を参照しながら説明する。以下においては、図1に示す電子機器がエアコンであり、音声認識装置がエアコンの操作に適用される場合について説明する。
<Specific Example of First Embodiment>
Next, a specific example of the speech recognition operation performed by the speech recognition apparatus according to the first embodiment of the present invention will be described with reference to FIGS. In the following, the case where the electronic device shown in FIG. 1 is an air conditioner and the speech recognition apparatus is applied to the operation of the air conditioner will be described.
図4は、図1に示す選択肢リスト格納部に格納されている選択肢リストの例を示す図である。図4(A)は、選択肢リストAの内容を示しており、図4(B)は、選択肢リストBの内容を示している。選択肢を表す選択肢データは、選択肢に含まれている音素を特定できるローマ字表記又はカナ表記を表すデータを含んでいる。 FIG. 4 is a diagram illustrating an example of an option list stored in the option list storage unit illustrated in FIG. 4A shows the contents of the option list A, and FIG. 4B shows the contents of the option list B. The option data representing the options includes data representing Roman notation or Kana notation that can identify the phonemes included in the options.
例えば、制御部200のホストCPU91は、エアコンの電源投入時に、「冷房にしますか、あるいは暖房にしますか?」という質問を表す音声再生データを音声再生開始コマンドと共にコマンド解析部10に送信する。また、ホストCPU91は、選択肢リストAを指定する選択肢リスト指定情報を音声認識開始コマンドと共にコマンド解析部10に送信する。
For example, when the air conditioner is turned on, the host CPU 91 of the
音声認識装置100のコマンド解析部10は、選択肢リスト指定情報に従って、選択肢リスト格納部52に格納されている複数の選択肢リストの内から選択肢リストAを指定する。選択肢リストAは、選択肢番号に対応してエアコンの動作設定に関する複数の選択肢を表す選択肢データと、音響モデル特定情報として音響モデル番号とを含んでいる。
The
音響モデル選択部42は、音響モデル格納部51に格納されている複数組の音響モデルの内から、選択肢リストAに含まれている音響モデル番号「0」によって特定される汎用の1組の音響モデル0を選択する。
The acoustic
一致検出部43は、選択肢リストAの選択肢1「冷房」及び選択肢2「暖房」の先頭の音節「れ」及び「だ」に含まれている音素「r・e」及び「d・a」のそれぞれに対応する音響モデルを、音響モデル格納部51に格納されている汎用の1組の音響モデル0の内から読み出す。
The
一方、コマンド解析部10は、音声再生開始コマンドに従って、音声再生データを音声再生部60に供給する。音声再生部60は、音声再生データに基づいて出力音声信号を生成してD/A変換器70に供給する。また、D/A変換器70は、ディジタルの出力音声信号をアナログの出力音声信号に変換して、アナログの出力音声信号を音声出力部80に供給する。これにより、音声出力部80から、「冷房にしますか、あるいは暖房にしますか?」という質問が発せられる。
On the other hand, the
音声出力部80から発せられた質問に対して、ユーザーが、「冷房にします。」と言うと、信号処理部41は、音素「r・e・i・b・o・u・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
In response to a question issued from the
一致検出部43は、信号処理部41によって生成された先頭の音節の第1番目の音素「r」の特徴パターンを、選択肢1及び選択肢2の先頭の音節の第1番目の音素「r」及び「d」の音響モデルと比較することにより、音素「r」の一致を検出する。
The
一致が検出された音素が子音を表している場合には、さらに、一致検出部43が、先頭の音節の第2番目の音素を比較する。一致検出部43は、信号処理部41によって生成された先頭の音節の第2番目の音素「e」の特徴パターンを、選択肢1及び選択肢2の先頭の音節の第2番目の音素「e」及び「a」の音響モデルと比較することにより、音素「e」の一致を検出する。
When the phoneme in which the match is detected represents a consonant, the
これにより、先頭の音節「れ」の一致が検出される。この場合には、一致が検出された選択肢が1つであるので、ここで音声認識結果が得られる。なお、一致が検出された選択肢が複数であれば、いずれが該当するかを認識することができないので、一致検出部43は、次の音節に含まれている音素について、対応する音響モデルを音響モデル格納部51に格納されている汎用の1組の音響モデル0の内から読み出して、一致を検出すべき音節の範囲を拡大する。
Thereby, the coincidence of the first syllable “re” is detected. In this case, since there is only one option for which a match is detected, a speech recognition result is obtained here. Note that if there are a plurality of options for which a match is detected, it is not possible to recognize which one is applicable, so the
一致検出部43は、一致が検出された先頭の音節「れ」を有する選択肢1「冷房」を特定する情報を含む音声認識結果をホストCPU91に出力する。選択肢1「冷房」を特定する情報としては、例えば、選択肢番号「1」や、選択肢に含まれている音素のローマ字表記「reibou」又はその一部「re」等が該当する。
The
これにより、制御部200のホストCPU91は、入力された音声信号の少なくとも一部に対応する選択肢1「冷房」を認識することができる。このようにして第1回目の音声認識動作が終了すると、ホストCPU91は、エアコンの動作を「冷房」に設定する。
Thereby, the host CPU 91 of the
次に、ホストCPU91は、「設定温度は何度にしますか?」という質問を表す音声再生データを音声再生開始コマンドと共にコマンド解析部10に送信する。また、ホストCPU91は、選択肢リストBを指定する選択肢リスト指定情報を音声認識開始コマンドと共にコマンド解析部10に送信する。
Next, the host CPU 91 transmits voice reproduction data representing a question “How many times should the set temperature be?” To the
音声認識装置100のコマンド解析部10は、選択肢リスト指定情報に従って、選択肢リスト格納部52に格納されている複数の選択肢リストの内から選択肢リストBを指定する。選択肢リストBは、選択肢番号に対応してエアコンの温度設定に関する複数の選択肢を表す選択肢データと、音響モデル特定情報として音響モデル番号とを含んでいる。
The
音響モデル選択部42は、音響モデル格納部51に格納されている複数組の音響モデルの内から、選択肢リストBに含まれている音響モデル番号「1」によって特定される数字認識用の1組の音響モデル1を選択する。
The acoustic
一致検出部43は、選択肢リストBに含まれている選択肢1「20℃」、選択肢2「21℃」、・・・の先頭の音節「に」、「に」、・・・に含まれている音素「n・i」、「n・i」、・・・のそれぞれに対応する音響モデルを、音響モデル格納部51に格納されている数字認識用の1組の音響モデル1の内から読み出す。
The
一方、コマンド解析部10は、音声再生開始コマンドに従って、音声再生データを音声再生部60に供給する。音声再生部60は、音声再生データに基づいて出力音声信号を生成してD/A変換器70に供給する。また、D/A変換器70は、ディジタルの出力音声信号をアナログの出力音声信号に変換して、アナログの出力音声信号を音声出力部80に供給する。これにより、音声出力部80から、「設定温度は何度にしますか?」という質問が発せられる。
On the other hand, the
音声出力部80から発せられた質問に対して、ユーザーが、「27℃にします。」と言うと、信号処理部41は、音素「n・i・j・u・u・n・a・n・a・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
In response to a question issued from the
一致検出部43は、信号処理部41によって生成された先頭の音節の第1番目の音素「n」の特徴パターンを、選択肢1、選択肢2、・・・の先頭の音節の第1番目の音素「n」、「n」、・・・の音響モデルと比較することにより、音素「n」の一致を検出する。
The
一致が検出された音素が子音を表している場合には、さらに、一致検出部43が、先頭の音節の第2番目の音素を比較する。一致検出部43は、信号処理部41によって生成された先頭の音節の第2番目の音素「i」の特徴パターンを、選択肢1、選択肢2、・・・の先頭の音節の第2番目の音素「i」、「i」、・・・の音響モデルと比較することにより、音素「i」の一致を検出する。
When the phoneme in which the match is detected represents a consonant, the
この場合には、先頭の音節「に」の一致が検出された選択肢が複数存在しており、いずれが該当するかを認識することができないので、一致検出部43は、次の音節に含まれている音素のそれぞれについて、対応する音響モデルを音響モデル格納部51に格納されている数字認識用の1組の音響モデル1の内から読み出して、一致を検出すべき音節の範囲を拡大する。
In this case, since there are a plurality of options in which the match of the first syllable “ni” is detected and it cannot be recognized which matches, the
一致検出部43は、最終的に一致が唯一検出された複数の音節「にじゅうな」を有する選択肢8「27℃」を特定する情報を含む音声認識結果をホストCPU91に出力する。選択肢8「27℃」を特定する情報としては、例えば、選択肢番号「8」、選択肢に含まれている音素のローマ字表記「nijuunanado」又はその一部「nijuunana」等が該当する。
The
これにより、制御部200のホストCPU91は、入力された音声信号の少なくとも一部に対応する選択肢8「27℃」を認識することができる。このようにして第2回目の音声認識動作が終了すると、ホストCPU91は、エアコンの設定温度を「27℃」に設定する。
Thereby, the host CPU 91 of the
さらに、ホストCPU91は、次の音声認識動作を継続しても良いし、一連の音声認識動作を終了しても良い。一連の音声認識動作を終了するときには、ホストCPU91は、「承知しました。」というメッセージを表す音声再生データを音声再生開始コマンドと共にコマンド解析部10に送信する。
Further, the host CPU 91 may continue the next voice recognition operation or may end a series of voice recognition operations. When the series of voice recognition operations is completed, the host CPU 91 transmits voice reproduction data representing a message “acknowledged” together with the voice reproduction start command to the
コマンド解析部10は、音声再生開始コマンドに従って、音声再生データを音声再生部60に供給する。音声再生部60は、音声再生データに基づいて出力音声信号を生成してD/A変換器70に供給する。また、D/A変換器70は、ディジタルの出力音声信号をアナログの出力音声信号に変換して、アナログの出力音声信号を音声出力部80に供給する。これにより、音声出力部80から、「承知しました。」というメッセージが発せられる。
The
本発明の第1の実施形態によれば、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルが用意され、複数組の音響モデルの内から、選択肢リストに含まれている音響モデル特定情報によって特定される1組の音響モデルが選択される。これにより、選択肢リストに含まれている複数の選択肢データの内容等の条件に応じて設定された音響モデルを用いて音声認識処理が行われるので、音声認識処理における認識率を向上させることができる。 According to the first embodiment of the present invention, a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language under a plurality of different conditions are prepared, One set of acoustic models specified by the acoustic model specifying information included in the option list is selected from the plurality of sets of acoustic models. Thereby, since the speech recognition process is performed using the acoustic model set according to the conditions such as the contents of the plurality of option data included in the option list, the recognition rate in the speech recognition process can be improved. .
<第2の実施形態に係る音声認識装置>
図5は、本発明の第2の実施形態に係る音声認識装置を搭載した電子機器の構成の一部を示すブロック図である。第2の実施形態においては、入力される音声信号における声質の特徴に基づいて、複数組の音響モデルの内から1組の音響モデルが選択される。
<Voice Recognition Device According to Second Embodiment>
FIG. 5 is a block diagram showing a part of the configuration of an electronic apparatus equipped with a speech recognition apparatus according to the second embodiment of the present invention. In the second embodiment, a set of acoustic models is selected from a plurality of sets of acoustic models based on the characteristics of voice quality in the input audio signal.
そのために、図1に示す第1の実施形態に対し、声質判定部44と、声質判定情報格納部53とが追加されている。一方、選択肢リスト格納部52に格納されている各々の選択肢リストは、音響モデル特定情報を含んでいなくても良い。その他の点に関しては、第1の実施形態と同様である。
Therefore, a voice
図5に示す音響モデル格納部51は、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数組の音響モデルを格納している。これにより、声質の種類に応じて設定された音響モデルを用いて音声認識処理を行うことができる。
The acoustic
例えば、音響モデル格納部51は、年齢又は性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数組の音響モデルを格納しても良い。図5においては、音響モデル格納部51が、子供用の1組の音響モデル0と、女性用の1組の音響モデル1と、男性用の1組の音響モデル2と、老人用の1組の音響モデル3とを格納している。ここで、「女性」とは、ある範囲の年齢の女性のことであり、「男性」とは、ある範囲の年齢の男性のことである。
For example, the acoustic
声質判定情報格納部53は、話者の声質の種類を判定するために用いられる声質の特徴を表す声質判定情報を格納している。声質判定情報は、例えば、話者の年齢又は性別に対応して、音声の基本周波数の範囲又はフォルマント周波数(声道の共振周波数)の範囲等を特定する情報である。
The voice quality determination
図5においては、声質判定情報格納部53が、子供の声質の特徴を表す声質判定情報と、女性の声質の特徴を表す声質判定情報と、男性の声質の特徴を表す声質判定情報と、老人の声質の特徴を表す声質判定情報とを格納している。ここで、「女性」とは、ある範囲の年齢の女性のことであり、「男性」とは、ある範囲の年齢の男性のことである。
In FIG. 5, the voice quality determination
声質判定部44は、入力される音声信号によって表される音声における声質の特徴に基づいて、その音声信号における声質の種類を判定する。例えば、声質判定部44は、入力される音声信号から基本周波数又はフォルマント周波数等を抽出して、声質判定情報格納部53に格納されている声質判定情報によって表される周波数範囲と比較することにより、抽出された周波数に最も近い周波数範囲を有する声質の種類(子供、女性、男性、又は、老人)を判定し、判定結果を音響モデル選択部42に出力する。
The voice
音響モデル選択部42は、声質判定部44から出力される判定結果に従って、音響モデル格納部51に格納されている複数組の音響モデルの内から、声質判定部44によって判定された声質の種類に対応する1組の音響モデルを選択する。
According to the determination result output from the voice
一致検出部43は、コマンド解析部10によって指定された選択肢リストに含まれている複数の選択肢データを選択肢リスト格納部52から順次読み出すと共に、音響モデル選択部42によって選択された1組の音響モデルの内で、選択肢データの少なくとも一部に対応する音響モデル(例えば、1音節分の音響モデル)を音響モデル格納部51から読み出す。
The
これにより、一致検出部43は、音声検出信号が活性化されているときに、信号処理部41に入力された音声信号の少なくとも一部から生成された特徴パターンを、音響モデル選択部42によって選択された1組の音響モデルの内で、コマンド解析部10によって指定された選択肢リストに含まれている各々の選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理(パターンマッチング)を行い、音声認識結果を出力する。
As a result, the
例えば、一致検出部43は、入力された音声信号の先頭の音節から生成された特徴パターンを、選択肢リストに含まれている各々の選択肢データによって表される選択肢の先頭の音節に対応する音響モデルと比較する。選択肢リストにおいて、一致が検出された音節を先頭に有する選択肢が1つだけ存在する場合には、一致検出部43は、その選択肢が、入力された音声信号に一致すると判定しても良い。一方、選択肢リストにおいて、一致が検出された音節を先頭に有する複数の選択肢が存在する場合には、一致検出部43は、選択肢が1つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。
For example, the
ここで、選択肢リスト格納部52は、特定の声質の種類について音声認識処理を許可又は禁止する制御情報をさらに含む選択肢リストを格納しても良い。制御情報は、声質の種類毎に音声認識処理の許可又は禁止を表す情報を含んでも良い。例えば、エアコンの温度設定に関する選択肢リストB(図4(B)参照)は、子供について音声認識処理を禁止し、それ以外について音声認識処理を許可する情報を含んでも良い。
Here, the option
その場合に、一致検出部43は、声質判定部44によって判定された声質の種類と選択肢リストに含まれている制御情報とに基づいて、その選択肢リストについて音声認識処理を開始するか否かを判定する。これにより、音声認識による電子機器の操作等におけるセキュリティレベルを制御することができる。例えば、子供がエアコンの温度設定を行うことを禁止することにより、エアコンの危険な操作を防止することが可能である。
In that case, the
また、第2の実施形態においても、第1の実施形態の変形例と同様に、制御部200の格納部92が複数の選択肢リストA、B、C、・・・を格納し、音声認識装置100において、図5に示すメモリー50の替わりに、図2に示すメモリー50a及び50bを用いても良い。
Also in the second embodiment, as in the modification of the first embodiment, the
<第2の実施形態の変形例>
図6は、本発明の第2の実施形態の変形例に係る音声認識装置の構成の一部を示すブロック図である。第2の実施形態の変形例においては、特定の話者に適合するようにトレーニング(話者最適化処理)された音響モデルが用いられる。そのために、第2の実施形態に対し、音響モデルトレーニング部45と、声質判定情報抽出部46とが追加されている。その他の点に関しては、第2の実施形態と同様である。
<Modification of Second Embodiment>
FIG. 6 is a block diagram showing a part of the configuration of a speech recognition apparatus according to a modification of the second embodiment of the present invention. In the modification of the second embodiment, an acoustic model that has been trained (speaker optimization processing) to be adapted to a specific speaker is used. For this purpose, an acoustic
図6に示す音響モデル格納部51は、不特定話者用の1組の初期音響モデルを格納している。特定の話者によってトレーニングが行われる際に、音響モデルトレーニング部45は、信号処理部41から出力される特徴パターン及び外部から供給される音素列情報に基づいて、スピーカー・アダプテーション機能により、トレーニング話者の音声に適応するように1組の初期音響モデルをトレーニングする。
The acoustic
音響モデルトレーニング部45は、トレーニングされた1組の音響モデルを音響モデル格納部51に格納する。これにより、音響モデル格納部51は、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数組の音響モデルを格納することになる。
The acoustic
一方、声質判定情報抽出部46は、トレーニング話者の声質を判定するために用いられる声質の特徴を表す声質判定情報を抽出して、その声質判定情報を声質判定情報格納部53に格納する。声質判定情報は、例えば、トレーニング話者の音声の基本周波数の範囲又はフォルマント周波数の範囲等を特定する情報である。
On the other hand, the voice quality determination
トレーニング後に音声認識が行われる際に、声質判定部44は、入力される音声信号における声質の特徴に基づいて、音声信号における声質がトレーニング話者の声質であるか否かを判定する。例えば、声質判定部44は、入力される音声信号から基本周波数又はフォルマント周波数等を抽出して、声質判定情報格納部53に格納されている声質判定情報によって表される周波数範囲と比較することにより、音声信号における声質がトレーニング話者の声質であるか否かを判定し、判定結果を音響モデル選択部42に出力する。
When speech recognition is performed after training, the voice
音響モデル選択部42は、声質判定部44から出力される判定結果に従って、音響モデル格納部51に格納されている複数組の音響モデルの内から、声質判定部44によって判定された声質の種類に対応する1組の音響モデルを選択する。即ち、音響モデル選択部42は、音声信号における声質がトレーニング話者の声質であると判定された場合に、音響モデル格納部51に格納されているトレーニングされた1組の音響モデルを選択する。一方、音響モデル選択部42は、音声信号における声質がトレーニング話者の声質でないと判定された場合に、音響モデル格納部51に格納されている1組の初期音響モデルを選択する。
According to the determination result output from the voice
一致検出部43は、コマンド解析部10(図5)によって指定された選択肢リストに含まれている複数の選択肢データを選択肢リスト格納部52から順次読み出すと共に、音響モデル選択部42によって選択された1組の音響モデルの内で、選択肢データの少なくとも一部に対応する音響モデル(例えば、1音節分の音響モデル)を音響モデル格納部51から読み出す。
The
これにより、一致検出部43は、音声検出信号が活性化されているときに、信号処理部41に入力された音声信号の少なくとも一部から生成された特徴パターンを、音響モデル選択部42によって選択された1組の音響モデルの内で、コマンド解析部10によって指定された選択肢リストに含まれている各々の選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理(パターンマッチング)を行い、音声認識結果を出力する。
As a result, the
例えば、一致検出部43は、入力された音声信号の先頭の音節から生成された特徴パターンを、選択肢リストに含まれている各々の選択肢データによって表される選択肢の先頭の音節に対応する音響モデルと比較する。選択肢リストにおいて、一致が検出された音節を先頭に有する選択肢が1つだけ存在する場合には、一致検出部43は、その選択肢が、入力された音声信号に一致すると判定しても良い。一方、選択肢リストにおいて、一致が検出された音節を先頭に有する複数の選択肢が存在する場合には、一致検出部43は、選択肢が1つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。
For example, the
<第2の実施形態に係る音声認識方法>
次に、本発明の第2の実施形態に係る音声認識方法について、図5〜図7を参照しながら説明する。図7は、図5又は図6に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。
<Voice Recognition Method According to Second Embodiment>
Next, a speech recognition method according to the second embodiment of the present invention will be described with reference to FIGS. FIG. 7 is a flowchart showing a speech recognition method implemented by the speech recognition apparatus shown in FIG.
図7のステップS21において、一致検出部43が、複数の選択肢をそれぞれ表す複数の選択肢データを含む選択肢リストを格納する選択肢リスト格納部52から、複数の選択肢データを読み出す。
In step S21 of FIG. 7, the
ステップS22において、信号処理部41が、入力された音声信号の周波数成分を抽出し、その周波数成分の分布状態を表す特徴パターンを生成する。ステップS23において、声質判定部44が、入力される音声信号における声質の種類を判定する。
In step S22, the
ステップS24において、音響モデル選択部42が、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数組の音響モデルの内から、ステップS23において判定された声質の種類に対応する1組の音響モデルを選択する。
In step S24, the acoustic
ステップS25において、一致検出部43が、信号処理部41に入力された音声信号の少なくとも一部から生成された特徴パターンを、音響モデル選択部42によって選択された1組の音響モデルの内で、ステップS21において読み出された各々の選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力する。これにより、1回の音声認識動作が終了する。
In step S <b> 25, the
本発明の第2の実施形態によれば、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数組の音響モデルが用意され、複数組の音響モデルの内から、入力された音声信号に基づいて判定された声質の種類に対応する1組の音響モデルが選択される。これにより、話者の声質の種類に応じて設定された音響モデルを用いて音声認識処理が行われるので、音声認識処理における認識率を向上させることができる。 According to the second embodiment of the present invention, a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language for a plurality of different types of voice qualities are prepared, One set of acoustic models corresponding to the type of voice quality determined based on the input voice signal is selected from the plurality of sets of acoustic models. Thereby, since the speech recognition process is performed using the acoustic model set according to the type of voice quality of the speaker, the recognition rate in the speech recognition process can be improved.
<第3の実施形態に係る音声認識装置>
図8は、本発明の第3の実施形態に係る音声認識装置を搭載した電子機器の構成の一部を示すブロック図である。第3の実施形態においては、入力される音声信号から生成された特徴パターンが複数組の音響モデルと比較され、最も高い認識確度が得られた音声認識結果が最終的な音声認識結果として出力される。
<Voice Recognition Device According to Third Embodiment>
FIG. 8 is a block diagram showing a part of the configuration of an electronic device equipped with a speech recognition apparatus according to the third embodiment of the present invention. In the third embodiment, feature patterns generated from input speech signals are compared with a plurality of sets of acoustic models, and a speech recognition result with the highest recognition accuracy is output as a final speech recognition result. The
そのために、図1に示す第1の実施形態における一致検出部43が複数の部分(図8においては4つの部分43a〜43dを示す)を含み、認識確度判定部47が追加される。一方、選択肢リスト格納部52に格納されている各々の選択肢リストは、音響モデル特定情報を含んでいなくても良い。その他の点に関しては、第1の実施形態と同様である。
For this purpose, the
図8に示す音響モデル格納部51は、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルを格納している。
The acoustic
例えば、音響モデル格納部51は、第1の実施形態と同様に、所定の言語において用いられる不特定の種類の用語に含まれている複数の音素の周波数成分の分布状態を収集して得られた1組の音響モデルと、所定の言語において用いられる特定の種類の用語に含まれている複数の音素の周波数成分の分布状態を収集して得られた少なくとも1組の音響モデルとを格納しても良い。その場合には、用語の種類に応じて設定された音響モデルを用いて音声認識処理を行うことができる。
For example, as in the first embodiment, the acoustic
あるいは、音響モデル格納部51は、第2の実施形態と同様に、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数組の音響モデルを格納しても良い。その場合には、声質の種類に応じて設定された音響モデルを用いて音声認識処理を行うことができる。
Alternatively, as in the second embodiment, the acoustic
図8においては、音響モデル格納部51が、子供用の1組の音響モデル0と、女性用の1組の音響モデル1と、男性用の1組の音響モデル2と、老人用の1組の音響モデル3とを格納している。ここで、「女性」とは、ある範囲の年齢の女性のことであり、「男性」とは、ある範囲の年齢の男性のことである。
In FIG. 8, the acoustic
一致検出部43a〜43dは、コマンド解析部10によって指定された選択肢リストに含まれている複数の選択肢データを選択肢リスト格納部52から順次読み出すと共に、音響モデル格納部51に格納されている複数組の音響モデルの内で、選択肢データの少なくとも一部に対応する音響モデル(例えば、1音節分の音響モデル)をそれぞれ読み出す。
The
これにより、一致検出部43a〜43dは、音声検出信号が活性化されているときに、信号処理部41に入力された音声信号の少なくとも一部から生成された特徴パターンを、音響モデル格納部51に格納されている複数組の音響モデルの内で、コマンド解析部10によって指定された選択肢リストに含まれている各々の選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理(パターンマッチング)を行い、複数組の音響モデルに対応する複数の音声認識結果及び複数の認識確度をそれぞれ出力する。
As a result, the
例えば、一致検出部43a〜43dは、入力された音声信号の先頭の音節から生成された特徴パターンを、選択肢リストに含まれている各々の選択肢データによって表される選択肢の先頭の音節に対応する音響モデルと比較する。選択肢リストにおいて、一致が検出された音節を先頭に有する選択肢が1つだけ存在する場合には、一致検出部43a〜43dは、その選択肢が、入力された音声信号に一致すると判定しても良い。一方、選択肢リストにおいて、一致が検出された音節を先頭に有する複数の選択肢が存在する場合には、一致検出部43a〜43dは、選択肢が1つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。
For example, the
ここで、一致検出部43a〜43dは、MFCCを表す多次元空間における特徴パターンの位置と音響モデルの広がりの中心との間の距離Dを求め、所定の値Eと距離Dとの差(E−D)を認識確度としても良い。ここで、所定の値Eは、距離Dがゼロであるときの認識確度の最大値を表している。また、音声認識結果が得られるまでに複数(N個)の音素について特徴パターンと音響モデルとの比較が行われた場合には、一致検出部43a〜43dは、それぞれの音素について求められた距離D(i)の平均値ΣD(i)/Nを求め、所定の値Eと平均値ΣD(i)/Nとの差(E−ΣD(i)/N)を認識確度としても良い。
Here, the
図8に示す例において、一致検出部43aは、音声信号の少なくとも一部から生成された特徴パターンを、子供用の1組の音響モデル0に含まれている音響モデルと比較して音声認識処理を行い、第1の音声認識結果及び第1の認識確度を出力する。一致検出部43bは、音声信号の少なくとも一部から生成された特徴パターンを、女性用の1組の音響モデル1に含まれている音響モデルと比較して音声認識処理を行い、第2の音声認識結果及び第2の認識確度を出力する。
In the example illustrated in FIG. 8, the
また、一致検出部43cは、音声信号の少なくとも一部から生成された特徴パターンを、男性用の1組の音響モデル2に含まれている音響モデルと比較して音声認識処理を行い、第3の音声認識結果及び第3の認識確度を出力する。一致検出部43dは、音声信号の少なくとも一部から生成された特徴パターンを、老人用の1組の音響モデル3に含まれている音響モデルと比較して音声認識処理を行い、第4の音声認識結果及び第4の認識確度を出力する。
Further, the
認識確度判定部47は、一致検出部43a〜43dから出力される複数の認識確度の内で最も高い認識確度が得られた音声認識結果を、最終的な音声認識結果として出力する。例えば、話者が子供である場合には、第1の認識確度が第2〜4の認識確度よりも高くなる場合が一般的であり、その場合には、認識確度判定部47が、第1の音声認識結果を最終的な音声認識結果として出力する。
The recognition
また、第3の実施形態においても、第1の実施形態の変形例と同様に、制御部200の格納部92が複数の選択肢リストA、B、C、・・・を格納し、音声認識装置100において、図8に示す音響モデル格納部51及び選択肢リスト格納部52を記憶するために、図2に示すメモリー50a及び50bを用いても良い。
Also in the third embodiment, as in the modification of the first embodiment, the
<第3の実施形態に係る音声認識方法>
次に、本発明の第3の実施形態に係る音声認識方法について、図8及び図9を参照しながら説明する。図9は、図8に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。
<Voice Recognition Method According to Third Embodiment>
Next, a speech recognition method according to the third embodiment of the present invention will be described with reference to FIGS. FIG. 9 is a flowchart showing a speech recognition method performed by the speech recognition apparatus shown in FIG.
図9のステップS31において、一致検出部43が、複数の選択肢をそれぞれ表す複数の選択肢データを含む選択肢リストを格納する選択肢リスト格納部52から、複数の選択肢データを読み出す。ステップS32において、信号処理部41が、入力された音声信号の周波数成分を抽出し、その周波数成分の分布状態を表す特徴パターンを生成する。
In step S31 of FIG. 9, the
ステップS33において、一致検出部43a〜43dが、信号処理部41に入力された音声信号の少なくとも一部から生成された特徴パターンを、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルの内で、ステップS31において読み出された各々の選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、複数組の音響モデルに対応する複数の音声認識結果及び複数の認識確度を出力する。
In step S <b> 33, the
ステップS34において、認識確度判定部47が、一致検出部43a〜43dから出力された複数の認識確度の内で最も高い認識確度が得られた音声認識結果を、最終的な音声認識結果として出力する。これにより、1回の音声認識動作が終了する。
In step S <b> 34, the recognition
本発明の第3の実施形態によれば、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルが用意され、複数組の音響モデルを用いて同時に音声認識処理を行うことにより、複数組の音響モデルに対応する複数の音声認識結果及び複数の認識確度が得られる。さらに、複数の認識確度の内で最も高い認識確度が得られた音声認識結果が、最終的な音声認識結果として出力される。これにより、複数の異なる条件に応じて設定された複数組の音響モデルを用いて同時に行われた音声認識処理において最も高い認識確度が得られた音声認識結果が得られるので、音声認識処理における認識率を向上させることができる。 According to the third embodiment of the present invention, a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language under a plurality of different conditions are prepared, By simultaneously performing speech recognition processing using a plurality of sets of acoustic models, a plurality of speech recognition results and a plurality of recognition accuracy corresponding to the plurality of sets of acoustic models can be obtained. Furthermore, the speech recognition result that provides the highest recognition accuracy among the plurality of recognition accuracy is output as the final speech recognition result. As a result, a speech recognition result with the highest recognition accuracy can be obtained in speech recognition processing performed simultaneously using a plurality of sets of acoustic models set according to a plurality of different conditions. The rate can be improved.
なお、音声認識処理を繰り返す中で所定の組の音響モデルにおける認識確度が他の組の音響モデルにおける認識確度よりも高いことが多い場合には、その所定の組の音響モデルのみを用いて音声認識処理を行い、その所定の組の音響モデルにおける認識確度が予め設定した閾値以下となった場合には、再び複数組の音響モデルを用いる音声認識処理に変えるようにしても良い。 If the recognition accuracy of a predetermined set of acoustic models is often higher than the recognition accuracy of another set of acoustic models during repeated speech recognition processing, the speech is obtained using only the predetermined set of acoustic models. When the recognition processing is performed and the recognition accuracy in the predetermined set of acoustic models is equal to or lower than a preset threshold value, the recognition processing may be changed to the voice recognition processing using a plurality of sets of acoustic models again.
以上の実施形態においては、本発明をエアコンに適用した具体例について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。 In the above embodiment, a specific example in which the present invention is applied to an air conditioner has been described. However, the present invention is not limited to this embodiment, and can be applied to general electronic devices. Many modifications are possible within the technical idea of the present invention by those having ordinary knowledge in the field.
100…音声認識装置、10…コマンド解析部、20…音声入力部、30…A/D変換器、40…音声認識処理部、41…信号処理部、42…音響モデル選択部、43、43a〜43d…一致検出部、44…声質判定部、45…音響モデルトレーニング部、46…声質判定情報抽出部、47…認識確度判定部、50、50a、50b…メモリー、51…音響モデル格納部、52…選択肢リスト格納部、53…声質判定情報格納部、60…音声再生部、70…D/A変換器、80…音声出力部、200…制御部、91…ホストCPU、92…格納部
DESCRIPTION OF
Claims (11)
選択肢を表す選択肢データと前記複数組の音響モデルの内から1組の音響モデルを特定する音響モデル特定情報とを含む選択肢リストを格納する選択肢リスト格納部と、
前記音響モデル特定情報によって特定される前記1組の音響モデルを選択する音響モデル選択部と、
入力された音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
前記音声信号の少なくとも一部から生成された前記特徴パターンを、選択された前記1組の音響モデルの内で、前記選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力する一致検出部と、
を具備する音声認識装置。 An acoustic model storage unit that stores a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language under a plurality of different conditions;
An option list storage unit for storing an option list including option data representing options and acoustic model specifying information for specifying one set of acoustic models from the plurality of sets of acoustic models;
An acoustic model selection unit that selects the set of acoustic models identified by the acoustic model identification information;
A signal processing unit that extracts a frequency component of the input audio signal and generates a feature pattern representing a distribution state of the frequency component of the audio signal;
The feature pattern generated from at least a part of the speech signal is compared with an acoustic model corresponding to at least a part of the option data in the selected set of acoustic models, and speech recognition processing is performed. A coincidence detection unit that outputs a speech recognition result;
A speech recognition apparatus comprising:
選択肢を表す選択肢データを含む選択肢リストを格納する選択肢リスト格納部と、
入力された音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
前記音声信号における声質の種類を判定する声質判定部と、
前記複数組の音響モデルの内から、前記声質判定部によって判定された声質の種類に対応する1組の音響モデルを選択する音響モデル選択部と、
前記音声信号の少なくとも一部から生成された前記特徴パターンを、選択された前記1組の音響モデルの内で、前記選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力する一致検出部と、
を具備する音声認識装置。 An acoustic model storage unit for storing a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language for a plurality of different types of voice qualities;
An option list storage unit that stores an option list including option data representing options;
A signal processing unit that extracts a frequency component of the input audio signal and generates a feature pattern representing a distribution state of the frequency component of the audio signal;
A voice quality determination unit that determines the type of voice quality in the audio signal;
An acoustic model selection unit that selects one set of acoustic models corresponding to the type of voice quality determined by the voice quality determination unit from the plurality of sets of acoustic models;
The feature pattern generated from at least a part of the speech signal is compared with an acoustic model corresponding to at least a part of the option data in the selected set of acoustic models, and speech recognition processing is performed. A coincidence detection unit that outputs a speech recognition result;
A speech recognition apparatus comprising:
前記一致検出部が、前記声質判定部によって判定された前記声質の種類と前記制御情報とに基づいて、前記選択肢リストについて音声認識処理を開始するか否かを判定する、
請求項3記載の音声認識装置。 The option list storage unit stores an option list further including control information for permitting or prohibiting voice recognition processing for the specific voice quality type,
The coincidence detection unit determines whether to start voice recognition processing for the option list based on the voice quality type determined by the voice quality determination unit and the control information.
The speech recognition apparatus according to claim 3.
選択肢を表す選択肢データを含む選択肢リストを格納する選択肢リスト格納部と、
入力された音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
前記音声信号の少なくとも一部から生成された前記特徴パターンを、前記複数組の音響モデルの内で、前記選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、前記複数組の音響モデルに対応する複数の音声認識結果及び複数の認識確度を出力する一致検出部と、
前記複数の認識確度の内で最も高い認識確度が得られた音声認識結果を、最終的な音声認識結果として出力する認識確度判定部と、
を具備する音声認識装置。 An acoustic model storage unit that stores a plurality of sets of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language under a plurality of different conditions;
An option list storage unit that stores an option list including option data representing options;
A signal processing unit that extracts a frequency component of the input audio signal and generates a feature pattern representing a distribution state of the frequency component of the audio signal;
The feature pattern generated from at least a part of the speech signal is compared with an acoustic model corresponding to at least a part of the option data in the plurality of sets of acoustic models, and a speech recognition process is performed. A coincidence detector that outputs a plurality of speech recognition results and a plurality of recognition accuracy corresponding to a set of acoustic models;
A recognition accuracy determination unit that outputs a speech recognition result having the highest recognition accuracy among the plurality of recognition accuracy as a final speech recognition result;
A speech recognition apparatus comprising:
所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルの内から、前記音響モデル特定情報によって特定される1組の音響モデルを選択するステップ(b)と、
入力された音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(c)と、
前記音声信号の少なくとも一部から生成された前記特徴パターンを、選択された前記1組の音響モデルの内で、ステップ(a)において読み出された前記選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力するステップ(d)と、
を具備する音声認識方法。 A step (a) of reading out the option data and the acoustic model specifying information from an option list storage unit that stores an option list including option data representing options and acoustic model specifying information for specifying a set of acoustic models;
A set of acoustic models specified by the acoustic model identification information from a plurality of acoustic models obtained by collecting distribution states of frequency components of a plurality of phonemes used in a predetermined language under a plurality of different conditions Selecting an acoustic model (b);
Extracting a frequency component of the input voice signal and generating a feature pattern representing a distribution state of the frequency component of the voice signal;
An acoustic model corresponding to at least a part of the option data read out in step (a), among the selected set of acoustic models, the feature pattern generated from at least a part of the audio signal. A step (d) of performing speech recognition processing and outputting a speech recognition result in comparison with
A speech recognition method comprising:
入力された音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(b)と、
前記音声信号における声質の種類を判定するステップ(c)と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる種類の声質について収集して得られた複数組の音響モデルの内から、ステップ(c)において判定された声質の種類に対応する1組の音響モデルを選択するステップ(d)と、
前記音声信号の少なくとも一部から生成された前記特徴パターンを、選択された前記1組の音響モデルの内で、ステップ(a)において読み出された前記選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、音声認識結果を出力するステップ(e)と、
を具備する音声認識方法。 A step (a) of reading out the option data from an option list storage unit that stores an option list including option data representing options;
(B) extracting a frequency component of the input audio signal and generating a feature pattern representing a distribution state of the frequency component of the audio signal;
Determining the type of voice quality in the audio signal (c);
From the plurality of sets of acoustic models obtained by collecting the distribution states of frequency components of a plurality of phonemes used in a predetermined language for a plurality of different types of voice qualities, the types of voice qualities determined in step (c) Selecting a corresponding set of acoustic models (d);
An acoustic model corresponding to at least a part of the option data read out in step (a), among the selected set of acoustic models, the feature pattern generated from at least a part of the audio signal. A step (e) of performing speech recognition processing and outputting a speech recognition result in comparison with
A speech recognition method comprising:
入力された音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(b)と、
前記音声信号の少なくとも一部から生成された前記特徴パターンを、所定の言語において用いられる複数の音素の周波数成分の分布状態を複数の異なる条件の下で収集して得られた複数組の音響モデルの内で、ステップ(a)において読み出された前記選択肢データの少なくとも一部に対応する音響モデルと比較して音声認識処理を行い、前記複数組の音響モデルに対応する複数の音声認識結果及び複数の認識確度を出力するステップ(c)と、
前記複数の認識確度の内で最も高い認識確度が得られた音声認識結果を、最終的な音声認識結果として出力するステップ(d)と、
を具備する音声認識方法。 A step (a) of reading out the option data from an option list storage unit that stores an option list including option data representing options;
(B) extracting a frequency component of the input audio signal and generating a feature pattern representing a distribution state of the frequency component of the audio signal;
A plurality of sets of acoustic models obtained by collecting the feature patterns generated from at least a part of the speech signal under a plurality of different conditions of frequency component distribution states of a plurality of phonemes used in a predetermined language And performing speech recognition processing in comparison with an acoustic model corresponding to at least a part of the option data read in step (a), and a plurality of speech recognition results corresponding to the plurality of sets of acoustic models; Outputting a plurality of recognition accuracy (c);
A step (d) of outputting a speech recognition result having the highest recognition accuracy among the plurality of recognition accuracy as a final speech recognition result;
A speech recognition method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013187147A JP2015055653A (en) | 2013-09-10 | 2013-09-10 | Speech recognition device and method and electronic apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013187147A JP2015055653A (en) | 2013-09-10 | 2013-09-10 | Speech recognition device and method and electronic apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015055653A true JP2015055653A (en) | 2015-03-23 |
Family
ID=52820110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013187147A Pending JP2015055653A (en) | 2013-09-10 | 2013-09-10 | Speech recognition device and method and electronic apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015055653A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020052370A1 (en) * | 2018-09-10 | 2020-03-19 | 阿里巴巴集团控股有限公司 | Method and apparatus for using self-service, and electronic device |
CN111226274A (en) * | 2017-11-28 | 2020-06-02 | 国际商业机器公司 | Automatic blocking of sensitive data contained in an audio stream |
JP2021501912A (en) * | 2017-11-02 | 2021-01-21 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Filtering model training method and speech recognition method |
JP2021513119A (en) * | 2018-04-16 | 2021-05-20 | グーグル エルエルシーGoogle LLC | Automated assistants dealing with multiple age groups and / or vocabulary levels |
CN113518153A (en) * | 2021-04-25 | 2021-10-19 | 上海淇玥信息技术有限公司 | Method and device for identifying user call response state and electronic equipment |
-
2013
- 2013-09-10 JP JP2013187147A patent/JP2015055653A/en active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11211052B2 (en) | 2017-11-02 | 2021-12-28 | Huawei Technologies Co., Ltd. | Filtering model training method and speech recognition method |
JP7034279B2 (en) | 2017-11-02 | 2022-03-11 | 華為技術有限公司 | Filtering model training method and speech recognition method |
JP2021501912A (en) * | 2017-11-02 | 2021-01-21 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Filtering model training method and speech recognition method |
JP2021505032A (en) * | 2017-11-28 | 2021-02-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Automatic blocking of sensitive data contained in audio streams |
CN111226274A (en) * | 2017-11-28 | 2020-06-02 | 国际商业机器公司 | Automatic blocking of sensitive data contained in an audio stream |
JP7255811B2 (en) | 2017-11-28 | 2023-04-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Automatic blocking of sensitive data in audio streams |
CN111226274B (en) * | 2017-11-28 | 2023-09-22 | 国际商业机器公司 | Automatically blocking sensitive data contained in an audio stream |
JP2021513119A (en) * | 2018-04-16 | 2021-05-20 | グーグル エルエルシーGoogle LLC | Automated assistants dealing with multiple age groups and / or vocabulary levels |
JP7064018B2 (en) | 2018-04-16 | 2022-05-09 | グーグル エルエルシー | Automated assistant dealing with multiple age groups and / or vocabulary levels |
US11495217B2 (en) | 2018-04-16 | 2022-11-08 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
US11756537B2 (en) | 2018-04-16 | 2023-09-12 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
WO2020052370A1 (en) * | 2018-09-10 | 2020-03-19 | 阿里巴巴集团控股有限公司 | Method and apparatus for using self-service, and electronic device |
CN113518153A (en) * | 2021-04-25 | 2021-10-19 | 上海淇玥信息技术有限公司 | Method and device for identifying user call response state and electronic equipment |
CN113518153B (en) * | 2021-04-25 | 2023-07-04 | 上海淇玥信息技术有限公司 | Method and device for identifying call response state of user and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
US9886947B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
JP4882899B2 (en) | Speech analysis apparatus, speech analysis method, and computer program | |
US9190060B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
JP2008139568A (en) | Voice processing device and method, and program | |
CN104462912B (en) | Improved biometric password security | |
CN110675866B (en) | Method, apparatus and computer readable recording medium for improving at least one semantic unit set | |
JP2015055653A (en) | Speech recognition device and method and electronic apparatus | |
JP2018159788A (en) | Information processing device, method and program | |
US9390709B2 (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
KR20170073113A (en) | Method and apparatus for recognizing emotion using tone and tempo of voice signal | |
JP4353202B2 (en) | Prosody identification apparatus and method, and speech recognition apparatus and method | |
JP5152588B2 (en) | Voice quality change determination device, voice quality change determination method, voice quality change determination program | |
KR102140770B1 (en) | Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor | |
JP4839970B2 (en) | Prosody identification apparatus and method, and speech recognition apparatus and method | |
JP2010060846A (en) | Synthesized speech evaluation system and synthesized speech evaluation method | |
US20210065684A1 (en) | Information processing apparatus, keyword detecting apparatus, and information processing method | |
JP6221253B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
CN107039046B (en) | Voice sound effect mode detection method based on feature fusion | |
JP2009058548A (en) | Speech retrieval device | |
JP6221267B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
JP2015087557A (en) | Utterance mode detection device, and utterance mode detection method | |
JP4621936B2 (en) | Speech synthesis apparatus, learning data generation apparatus, pose prediction apparatus, and program | |
JP2017068153A (en) | Semiconductor device, system, electronic apparatus, and voice recognition method | |
JP2011158515A (en) | Device and method for recognizing speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160609 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20160623 |