JP2009276365A - Processor, voice recognition device, voice recognition system and voice recognition method - Google Patents
Processor, voice recognition device, voice recognition system and voice recognition method Download PDFInfo
- Publication number
- JP2009276365A JP2009276365A JP2008124497A JP2008124497A JP2009276365A JP 2009276365 A JP2009276365 A JP 2009276365A JP 2008124497 A JP2008124497 A JP 2008124497A JP 2008124497 A JP2008124497 A JP 2008124497A JP 2009276365 A JP2009276365 A JP 2009276365A
- Authority
- JP
- Japan
- Prior art keywords
- reverberation
- component
- pattern
- acoustic model
- initial reflection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、話者が発生する音声の音声認識技術に関して、特に、残響パターンを初期反射成分と拡散残響成分とに良好に分割して処理が可能な処理装置、音声認識装置、音声認識システム、音声認識方法に関する。 The present invention relates to a speech recognition technique for speech generated by a speaker. The present invention relates to a speech recognition method.
実環境における音声認識では、話者の発生した音声がその残響に起因して不明瞭となり、認識性能が低下するという問題がある。特に、ハンズフリーマイクなどの非接触型のマイクロフォンによる集音では、部屋やマイク周辺の形状による残響に強く影響を受ける。従来、残響パターンを考慮して音声認識処理を行う技術が知られている(例えば、特許文献1)。
しかしながら、従来の音声認識技術では、残響パターンの全部分を考慮して音響モデルを学習するため、十分な認識性能を得ることができないものであった。残響成分を、一次反射成分である初期反射成分と、それ以降の成分である二次反射成分、三次反射成分等を含む拡散残響成分とに分解する。分解したこれら残響パターンは、パワーやスペクトル形状等の特徴に関してそれぞれ大きく異なる性質を有する。話者の発生した音声の初期反射成分が混入した初期反射成分においては、認識対象である音声の音響特性は依然として強く残存しているのに対して、拡散残響成分が混入した音響成分においては、認識対象である音声の音響特性は既に性質が異なったものとなっている。従って、拡散残響成分が混入した音響成分に関しては、認識対象である音声の音響特性は消失しているものと考えられる。このため、音響モデルで残響を学習する際に、音響モデルのフレーム長を超えて影響するこのような拡散残響成分が、正確な音韻学習の妨げとなっていた。 However, in the conventional speech recognition technique, since the acoustic model is learned in consideration of all parts of the reverberation pattern, sufficient recognition performance cannot be obtained. The reverberation component is decomposed into an initial reflection component, which is a primary reflection component, and a diffuse reverberation component including secondary reflection components, tertiary reflection components, and the like, which are subsequent components. These decomposed reverberation patterns have greatly different properties with respect to characteristics such as power and spectral shape. In the initial reflection component mixed with the initial reflection component of the voice generated by the speaker, the acoustic characteristics of the speech to be recognized remain strong, whereas in the acoustic component mixed with the diffuse reverberation component, The acoustic characteristics of the speech to be recognized are already different in nature. Therefore, regarding the acoustic component mixed with the diffuse reverberation component, it is considered that the acoustic characteristics of the speech to be recognized have disappeared. For this reason, when learning reverberation with an acoustic model, such diffuse reverberation components that affect beyond the frame length of the acoustic model hinder accurate phonological learning.
ところで、本出願人の特許出願(特願2008−122288号)によれば、インパルス応答から予め残響パターンを測定し、測定した残響パターンを、音響モデルの学習に用いるフレーム長を基準として、残響パターンの前半部である初期反射成分と、初期反射成分以降の拡散残響成分とに分割して扱う音声認識方法が開示されている。残響パターンをこのように分割した後、音響モデルを予め学習する際には、初期反射成分を音響モデル学習により吸収する。そして、入力音声を認識する際には、入力音声から拡散残響成分をスペクトル減算によって除去するとともに、初期反射成分を考慮した音響モデルを参照して入力音声を認識する。即ち、残響パターンを分割して、初期反射成分を音響モデルに反映させると共に、拡散残響成分を入力音声から除去する。音声認識処理をこのように行うことで、より正確な音声認識を実現することが可能となる。 By the way, according to the patent application of the present applicant (Japanese Patent Application No. 2008-122288), a reverberation pattern is measured in advance from an impulse response, and the reverberation pattern is determined based on a frame length used for learning an acoustic model. A speech recognition method that divides and treats an initial reflection component that is the first half of the first and a diffuse reverberation component after the initial reflection component is disclosed. After the reverberation pattern is divided in this way, when the acoustic model is learned in advance, the initial reflection component is absorbed by the acoustic model learning. Then, when recognizing the input speech, the diffuse reverberation component is removed from the input speech by spectral subtraction, and the input speech is recognized with reference to an acoustic model considering the initial reflection component. That is, the reverberation pattern is divided so that the initial reflection component is reflected in the acoustic model and the diffuse reverberation component is removed from the input speech. By performing the voice recognition process in this way, more accurate voice recognition can be realized.
しかし、残響パターンは部屋やマイク周辺の形状によってもその特徴が異なるため、残響パターンを初期反射成分と拡散残響成分とに分割する境界を、音響モデルの学習に用いるフレーム長を基準として決定するものとしては、環境に対して必ずしも良好な境界であるとは限らない。即ち、予め定めた音響モデル学習用のフレーム長に基づいて、残響パターンを初期反射成分と拡散残響成分とに分割するものとしては、残響パターンを環境に対して良好に分割することができないという問題があった。また、残響パターン測定結果を観察したユーザが残響パターンの境界を決定するものとしては、残響測定後、その都度、決定処理が発生し、手間が掛かるという問題があった。このように、残響パターンを初期反射成分と拡散残響成分とに分割する境界を、環境に対して良好に決定して、残響パターンを分割した初期反射成分を良好に学習することが可能な汎用的な方法が求められている。 However, since the characteristics of reverberation patterns differ depending on the shape of the room and the surroundings of the microphone, the boundary that divides the reverberation pattern into the initial reflection component and the diffuse reverberation component is determined based on the frame length used for learning the acoustic model. As such, it is not always a good boundary for the environment. In other words, if the reverberation pattern is divided into the initial reflection component and the diffuse reverberation component based on the predetermined acoustic model learning frame length, the reverberation pattern cannot be divided well with respect to the environment. was there. In addition, the user who observes the reverberation pattern measurement result determines the boundary of the reverberation pattern, and there is a problem that a determination process occurs every time after the reverberation measurement, which takes time. In this way, the boundary that divides the reverberation pattern into the initial reflection component and the diffuse reverberation component can be determined well with respect to the environment, and the initial reflection component obtained by dividing the reverberation pattern can be learned well. Is needed.
本発明は、かかる課題を解決するためになされたものであり、残響パターンを初期反射成分と拡散残響成分とに良好に分割して処理可能な処理装置、音声認識装置、音声認識システム、音声認識方法を提供することを目的とする。 The present invention has been made to solve such a problem, and a processing device, a speech recognition device, a speech recognition system, and a speech recognition that can divide and process a reverberation pattern into an initial reflection component and a diffuse reverberation component. It aims to provide a method.
本発明に係る処理装置は、インパルス応答から残響パターンを測定し、前記測定した残響パターンを、該残響パターンの前半部である初期反射成分と、該残響パターンの後半部である拡散残響成分とに分割して、入力音声の音声認識を行うための処理装置であって、前記残響パターンの減衰曲線を計算し、該減衰曲線に基づいて前記初期反射成分と前記拡散残響成分との時間的な境界を示す減衰時間境界を計算する減衰時間境界計算部と、前記計算した減衰時間境界に基づいて、音響モデルで用いる分析フレーム長と、フレームシフトと、動的特徴量の数と、を決定する音響モデル用パラメタ決定部と、を備えるものである。 The processing apparatus according to the present invention measures a reverberation pattern from an impulse response, and converts the measured reverberation pattern into an initial reflection component that is the first half of the reverberation pattern and a diffuse reverberation component that is the second half of the reverberation pattern. A processing device for dividing and recognizing input speech, calculating an attenuation curve of the reverberation pattern, and based on the attenuation curve, a temporal boundary between the initial reflection component and the diffuse reverberation component An attenuation time boundary calculating unit for calculating an attenuation time boundary indicating the acoustic frame length, an analysis frame length used in the acoustic model, a frame shift, and the number of dynamic features based on the calculated attenuation time boundary A model parameter determination unit.
これにより、測定した残響パターンの減衰状況に応じて、残響パターンを分割するための減衰境界時間を計算し、計算した減衰境界時間に基づいて音響モデル用パラメタ(分析フレーム長と、フレームシフトと、動的特徴量の数。)を決定することで、残響パターンを初期反射成分と拡散残響成分とに良好に分割することができる。 Thereby, the attenuation boundary time for dividing the reverberation pattern is calculated according to the measured attenuation state of the reverberation pattern, and the parameters for the acoustic model (analysis frame length, frame shift, By determining the number of dynamic feature quantities, the reverberation pattern can be favorably divided into the initial reflection component and the diffuse reverberation component.
また、前記減衰時間境界計算部による減衰時間境界の計算方法としては、前記残響パターンが所定量減少した際の時間を前記減衰時間境界としてもよいし、前記残響パターンの減衰曲線の変化量が所定の閾値を下回った際の時間を前記減衰時間境界とするようにしてもよい。 In addition, as a method for calculating the decay time boundary by the decay time boundary calculation unit, a time when the reverberation pattern is decreased by a predetermined amount may be set as the decay time boundary, and a change amount of the decay curve of the reverberation pattern is predetermined. The time when the value falls below the threshold may be set as the decay time boundary.
さらに、前記音響モデルで用いる分析フレーム長Tfと、フレームシフトTsと、動的特徴量の数Nと、の値の組合せを予め記憶した記憶部を更に備え、前記音響モデル用パラメタ決定部は、前記減衰時間境界計算部で計算した減衰時間境界Taに対して、次の式を満足する前記分析フレーム長Tfと、前記フレームシフトTsと、前記動的特徴量の数Nと、の値の組合せを選択するようにしてもよい。
Ta≒Tf+N×(2×Ts)
Further, the acoustic model parameter determination unit further includes a storage unit that stores in advance a combination of values of the analysis frame length Tf, the frame shift Ts, and the number of dynamic features N used in the acoustic model. A combination of values of the analysis frame length Tf, the frame shift Ts, and the number N of the dynamic feature quantities satisfying the following expression with respect to the decay time boundary Ta calculated by the decay time boundary calculation unit: May be selected.
Ta≈Tf + N × (2 × Ts)
本発明に係る音声認識装置は、インパルス応答から残響パターンを測定し、前記測定した残響パターンを、該残響パターンの前半部である初期反射成分と、該残響パターンの後半部である拡散残響成分とに分割して、入力音声を認識する音声認識装置であって、前記残響パターンの減衰曲線を計算し、該減衰曲線に基づいて、前記初期反射成分と前記拡散残響成分との時間的な境界を示す減衰時間境界を計算する減衰時間境界計算部と、前記計算した減衰時間境界に基づいて、音響モデルで用いる分析フレーム長と、フレームシフトと、動的特徴量の数と、を決定する音響モデル用パラメタ決定部と、前記測定した残響パターンを前記減衰時間境界で分割して、前記初期反射成分と、前記拡散残響成分とを抽出する残響成分抽出部と、前記抽出した初期反射成分を学習用音声データに反映させて、前記決定した分析フレーム長と、フレームシフトと、動的特徴量の数と、に基づいて音響モデルを学習する学習部と、前記入力音声から前記抽出した拡散残響成分を除去するとともに、前記学習した音響モデルを参照して前記入力音声を認識する認識部と、を備えるものである。 The speech recognition apparatus according to the present invention measures a reverberation pattern from an impulse response, and the measured reverberation pattern includes an initial reflection component that is the first half of the reverberation pattern, and a diffuse reverberation component that is the second half of the reverberation pattern. A speech recognition device for recognizing input speech, calculating an attenuation curve of the reverberation pattern, and determining a temporal boundary between the initial reflection component and the diffuse reverberation component based on the attenuation curve. An attenuation time boundary calculation unit for calculating an attenuation time boundary to be shown; and an acoustic model for determining an analysis frame length, a frame shift, and the number of dynamic features used in the acoustic model based on the calculated attenuation time boundary A parameter determination unit for use, a reverberation component extraction unit that divides the measured reverberation pattern at the attenuation time boundary to extract the initial reflection component and the diffuse reverberation component, and the extraction A learning unit that reflects the initial reflection component in the learning speech data and learns an acoustic model based on the determined analysis frame length, frame shift, and number of dynamic features, and the input speech A recognition unit that removes the extracted diffuse reverberation component and recognizes the input speech with reference to the learned acoustic model.
これにより、測定した残響パターンの減衰状況に応じて、残響パターンを分割するための減衰境界時間を計算し、計算した減衰境界時間に基づいて音響モデル用パラメタ(分析フレーム長と、フレームシフトと、動的特徴量の数。)を決定することで、残響パターンを初期反射成分と拡散残響成分とに良好に分割することができる。分割した初期反射成分を学習用音声データに反映させることでより優れた音響モデルを構築することができ、また、入力音声から拡散残響成分を除去することで、入力音声の認識率を向上させることができる。 Thereby, the attenuation boundary time for dividing the reverberation pattern is calculated according to the measured attenuation state of the reverberation pattern, and the parameters for the acoustic model (analysis frame length, frame shift, By determining the number of dynamic feature quantities, the reverberation pattern can be favorably divided into the initial reflection component and the diffuse reverberation component. By reflecting the divided early reflection components in the speech data for learning, a better acoustic model can be constructed, and the recognition rate of the input speech can be improved by removing the diffuse reverberation component from the input speech. Can do.
本発明に係る音声認識装置は、上記の音声認識装置と、環境中で発生した音を受音して、前記音声認識装置に音声信号を出力するマイクロフォンと、を有するものである。 A voice recognition apparatus according to the present invention includes the voice recognition apparatus described above and a microphone that receives a sound generated in the environment and outputs a voice signal to the voice recognition apparatus.
本発明に係る音声認識方法は、インパルス応答から残響パターンを測定し、前記測定した残響パターンを、該残響パターンの前半部である初期反射成分と、該残響パターンの後半部である拡散残響成分とに分割して、入力音声を認識する音声認識方法であって、前記残響パターンの減衰曲線を計算し、該減衰曲線に基づいて、前記初期反射成分と前記拡散残響成分との時間的な境界を示す減衰時間境界を計算するステップと、前記計算した減衰時間境界に基づいて、音響モデルで用いる分析フレーム長と、フレームシフトと、動的特徴量の数と、を決定するステップと、前記測定した残響パターンを前記減衰時間境界で分割して、前記初期反射成分と、前記拡散残響成分とを抽出するステップと、前記抽出した初期反射成分を学習用音声データに反映させて、前記決定した分析フレーム長と、フレームシフトと、動的特徴量の数と、に基づいて音響モデルを学習するステップと、前記入力音声から前記抽出した拡散残響成分を除去するとともに、前記学習した音響モデルを参照して前記入力音声を認識するステップと、を備えるものである。 The speech recognition method according to the present invention measures a reverberation pattern from an impulse response, and the measured reverberation pattern includes an initial reflection component that is the first half of the reverberation pattern, and a diffuse reverberation component that is the second half of the reverberation pattern. A speech recognition method for recognizing an input speech by calculating an attenuation curve of the reverberation pattern and determining a temporal boundary between the initial reflection component and the diffuse reverberation component based on the attenuation curve. Calculating an attenuation time boundary to be indicated; determining an analysis frame length used in the acoustic model, a frame shift, and a number of dynamic features based on the calculated attenuation time boundary; Dividing the reverberation pattern at the attenuation time boundary to extract the initial reflection component and the diffuse reverberation component; and extracting the extracted initial reflection component into the learning audio data. Reflecting an acoustic model based on the determined analysis frame length, frame shift, and number of dynamic features, and removing the extracted diffuse reverberation component from the input speech And recognizing the input speech with reference to the learned acoustic model.
これにより、測定した残響パターンの減衰状況に応じて、残響パターンを良好に分割することができる。そして、計算した減衰境界時間に基づいて音響モデル用パラメタ(分析フレーム長と、フレームシフトと、動的特徴量の数。)を決定することで、分割した初期反射成分を学習用音声データに反映させる際に、より適した音響モデル用パラメタを決定することができる。これによって、より優れた音響モデルを構築することができ、さらに、入力音声から拡散残響成分を除去することで、入力音声の認識率を向上させることができる。 Thereby, a reverberation pattern can be divided | segmented favorably according to the attenuation condition of the measured reverberation pattern. Then, by determining acoustic model parameters (analysis frame length, frame shift, and number of dynamic features) based on the calculated attenuation boundary time, the divided initial reflection components are reflected in the learning speech data. In this case, a more suitable acoustic model parameter can be determined. As a result, a better acoustic model can be constructed, and the recognition rate of the input speech can be improved by removing the diffuse reverberation component from the input speech.
本発明によれば、残響パターンを初期反射成分と拡散残響成分とに良好に分割して処理が可能な処理装置、音声認識装置、音声認識システム、音声認識方法を提供することができる。 According to the present invention, it is possible to provide a processing device, a speech recognition device, a speech recognition system, and a speech recognition method that can perform processing by dividing a reverberation pattern into an initial reflection component and a diffuse reverberation component.
以下、本発明を実施するための最良の形態について、図面を参照しながら詳細に説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡潔化がなされている。各図面において同一の構成又は機能を有する構成要素及び相当部分には、同一の符号を付し、その説明を省略する。 Hereinafter, the best mode for carrying out the present invention will be described in detail with reference to the drawings. For clarity of explanation, the following description and drawings are omitted and simplified as appropriate. In the drawings, components having the same configuration or function and corresponding parts are denoted by the same reference numerals, and description thereof is omitted.
発明の実施の形態1.
本実施の形態1に係る音声認識システムは、インパルス応答から残響パターンを測定し、測定した残響パターンの減衰曲線に基づいて、測定した残響パターンの前半部である初期反射成分と、その後半部である拡散残響成分との時間的な境界を示す減衰時間境界を計算する機能を有する。そして、音声認識システムは、計算した減衰時間境界に基づいて、音響モデルで用いる分析フレーム長と、フレームシフトと、動的特徴量の数と、を決定する機能を有する。
The speech recognition system according to the first embodiment measures a reverberation pattern from an impulse response, and based on the measured decay curve of the reverberation pattern, an initial reflection component that is the first half of the measured reverberation pattern, and the latter half It has a function of calculating a decay time boundary indicating a temporal boundary with a certain diffuse reverberation component. The speech recognition system has a function of determining the analysis frame length, the frame shift, and the number of dynamic features used in the acoustic model based on the calculated decay time boundary.
まず、図1を参照して、本実施の形態1に係る音声認識システムの特徴的な構成部分について説明する。図1は本実施の形態1に係る音声認識システムの構成を示すブロック図である。本実施の形態1に係る音声認識システムは、マイクロフォン1(以下、マイク1)と、音声認識装置2とを備えている。音声認識装置2は、残響パターンを処理する残響処理部3と、音響モデルを学習する学習部4と、入力音声を認識する認識部5と、を備える。尚、残響成分抽出部8と、学習部4と、認識部5の詳細については後述する。
First, with reference to FIG. 1, characteristic components of the speech recognition system according to the first embodiment will be described. FIG. 1 is a block diagram showing the configuration of the speech recognition system according to the first embodiment. The voice recognition system according to the first embodiment includes a microphone 1 (hereinafter referred to as a microphone 1) and a
マイク1は、環境中に設けられ、環境中で発生した音を受音する。従って、マイク1は、発話者が話した音声を集音して、受音した音声に応じた音声信号を音声認識装置2に出力する。マイク1は、例えば、建物の部屋内に設置されている。マイク1は、環境内の予め定められた場所に設置されている。
The
音声認識装置2は、マイク1からの音声信号に対してデータ処理を行って音声認識を行う。音声認識装置2は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、通信用のインターフェースなどを有する処理装置であり、音声認識に必要なデータ処理を行う。さらに、音声認識装置2は、着脱可能なHDD、光ディスク、光磁気ディスク等を有し、各種プログラムや制御パラメタなどを記憶し、そのプログラムやデータを必要に応じてメモリ(不図示)等に供給する。例えば、音声認識装置2は、マイク1からの信号をデジタル信号に変換して、演算処理を行う。さらに、音声認識装置2は、ROMやHDDに格納されたプログラムに従って音声認識処理を実行する。すなわち、音声認識装置2は、音声認識するためのプログラムが格納されており、そのプログラムにより音声認識装置2がデジタル信号に対して各種処理を行う。
The
残響処理部3は、減衰時間境界計算部6と、音響モデル用パラメタ決定部7と、残響成分抽出部8と、を備える。残響処理部3に対して、インパルス応答が入力される。残響処理部3は、音響モデルで用いる音響モデル用パラメタ(分析フレーム長と、フレームシフトと、動的特徴量の数。)を学習部4に出力する。また、残響処理部3は、残響パターンから初期反射成分と拡散残響成分とを抽出して、抽出した初期反射成分と拡散残響成分とを出力する。残響処理部3から、抽出された初期反射成分が学習部4に出力される。残響処理部3から、抽出された拡散残響成分が認識部5に出力される。
The
減衰時間境界計算部6は、入力されたインパルス応答から残響パターンを測定する。そして、残響パターンの減衰曲線を計算し、計算した減衰曲線に基づいて、初期反射成分と拡散残響成分との時間的な境界を示す減衰時間境界を計算する。 The decay time boundary calculation unit 6 measures a reverberation pattern from the input impulse response. Then, an attenuation curve of the reverberation pattern is calculated, and an attenuation time boundary indicating a temporal boundary between the initial reflection component and the diffuse reverberation component is calculated based on the calculated attenuation curve.
ここで、残響パターンに含まれる初期反射成分及び拡散残響成分について、図2及び3を用いて説明する。図2は、室内で発生した音が反射する様子を模式的に示す図である。図3は、環境中に設置されたマイク1で検出された信号の一例を示す図である。図3において、横軸は時間、縦軸は信号のパワーを示している。図3では、環境中においてインパルス応答を測定した場合の、測定信号の波形が離散的に示されている。
Here, the initial reflection component and the diffuse reverberation component included in the reverberation pattern will be described with reference to FIGS. FIG. 2 is a diagram schematically illustrating how the sound generated in the room is reflected. FIG. 3 is a diagram illustrating an example of a signal detected by the
図2では、図1で示した音声認識システムをロボット44に搭載した例を示している。図2に示すように、室内で発話者45が発話した音は、ロボット44に搭載されたマイク1に到達して、測音される。測音される発話音は、直接マイク1に伝播する場合と、壁面43で反射してマイク1まで伝播する場合がある。もちろん、壁面43だけではなく、天井や床や机などで反射することもある。壁面43などで反射した音は、マイク1に直接、到達した音に比べて遅れる。すなわち、マイク1に直接、到達した直接音と、壁面43で反射してからマイク1に到達した反射音とは、マイク1で測音されるタイミングが異なっている。さらに、壁面43で反射した音のうち、繰り返し反射した音には、さらに時間遅れが生じる。このように音の伝播距離等に応じて、測音タイミングが異なっている。尚、室内では、壁面43だけでなく、天井や床面や机などでも音が反射される。
FIG. 2 shows an example in which the speech recognition system shown in FIG. As shown in FIG. 2, the sound uttered by the
図2に示すような室内で、非常に幅の狭い単一パルスからなるインパルスを発生させた場合、測定信号は、図3に示す波形となる。インパルスの時間応答では、壁面43で反射されずに直接マイク1に到達した直接音が最も早い時間(t=0)に測音される。そして、壁面43で反射された反射音が、直接音の後に測音されていく。反射音は、壁面43などでの吸収があるため、直接音よりもパワーが低くなっている。そして、繰り返し反射した反射音が時間とともに測音されていく。
When an impulse composed of a single pulse having a very narrow width is generated in a room as shown in FIG. 2, the measurement signal has the waveform shown in FIG. In the impulse time response, the direct sound that directly reaches the
ここで、インパルス応答の残響パターンを、初期反射成分と拡散残響成分とに分割する。そのため、インパルス応答から残響成分を測定し、測定した残響成分を初期反射成分と、拡散残響成分とに分割する。残響パターンのうち、前半部分を初期反射成分とし、後半部分を拡散残響成分とする。従って、初期反射成分の後が拡散残響成分となる。初期反射成分は、1次反射や2次反射などの低次反射成分が含まれている。また、拡散残響成分には高次反射成分が含まれている。 Here, the reverberation pattern of the impulse response is divided into an initial reflection component and a diffuse reverberation component. Therefore, a reverberation component is measured from the impulse response, and the measured reverberation component is divided into an initial reflection component and a diffuse reverberation component. Of the reverberation pattern, the first half is the initial reflection component and the second half is the diffuse reverberation component. Therefore, the diffuse reverberation component follows the initial reflection component. The initial reflection component includes low-order reflection components such as primary reflection and secondary reflection. Further, the diffuse reverberation component includes a high-order reflection component.
ここで、初期反射成分と拡散残響成分を区切る時間的な境界を減衰時間境界とする。従って、直接音がマイク1で測音された時間から減衰時間境界までの成分が初期反射成分となり、減衰時間境界以降の成分が拡散残響成分となる。例えば、減衰時間境界を65msecとすると、t=0のデータが直接音となり、0〜65msecの範囲(t=0、t=65は含まず)のデータが初期反射成分となり、65msec以降のデータが拡散残響成分となる。
Here, a temporal boundary that divides the initial reflection component and the diffuse reverberation component is defined as an attenuation time boundary. Therefore, the component from the time when the direct sound is measured by the
減衰時間境界計算部6は、図4に示すように、例えば残響パターンの振幅レベル(パワーP)が所定量x減少した際の時間tを減衰時間境界Taとして計算することができる。図においては、時間0におけるパワーP(0)が、x[db]減衰した際のパワーP(t)の時間tをTaとする(即ち、P(0)−P(t)>xを満足する時間tをTaとして扱う)。ここでは、所定量xを、例えば20dbとする。尚、減衰時間境界計算部6は、上述したように残響パターンの振幅レベル(パワーP)の減少量に応じて減衰時間境界を計算してもよいし、残響パターンの減衰曲線の変化量が所定の閾値を下回った際の時間を減衰時間境界として計算するようにしてもよい。
As shown in FIG. 4, the decay time boundary calculation unit 6 can calculate, for example, the time t when the amplitude level (power P) of the reverberation pattern decreases by a predetermined amount x as the decay time boundary Ta. In the figure, the time t of the power P (t) when the power P (0) at
音響モデル用パラメタ決定部7は、減衰時間境界計算部6で計算した減衰時間境界Taに基づいて、音響モデルで用いる分析フレーム長Tfと、フレームシフトTsと、動的特徴量Δの数Nと、を決定する。より具体的には、音響モデル用パラメタ決定部7は、減衰時間境界計算部6で計算した減衰時間境界Taに対して、次の式を満足する分析フレーム長Tfと、フレームシフトTsと、動的特徴量の数Nと、の値の組合せを計算することで決定することができる。
Ta≒Tf+N×(2×Ts)
Based on the decay time boundary Ta calculated by the decay time boundary calculation unit 6, the acoustic model
Ta≈Tf + N × (2 × Ts)
尚、音響モデル用パラメタ決定部7は、上式を満足するような分析フレーム長Tfと、フレームシフトTsと、動的特徴量の数Nと、の値の組合せを上述したようにして計算してもよいし、分析フレーム長Tfと、フレームシフトTsと、動的特徴量の数Nと、の値の組合せを予め記憶しておき、記憶されたこれら値の組合せのなかから、上式を満足する分析フレーム長Tfと、フレームシフトTsと、動的特徴量の数Nと、の値の組合せを選択することで決定するようにしてもよい。これら予め記憶しておく値の組合せ{Tf,N,Ts}としては、例えば、{25,2,10}、{32,3,16}、{20,2,5}などを利用することができる。
The acoustic model
このように、測定した残響パターンの減衰状況に応じて、残響パターンを分割するための減衰境界時間を計算し、計算した減衰境界時間に基づいて音響モデル用パラメタ(分析フレーム長と、フレームシフトと、動的特徴量の数。)を決定することで、残響パターンを初期反射成分と拡散残響成分とに良好に分割することができる。 Thus, the attenuation boundary time for dividing the reverberation pattern is calculated according to the measured attenuation state of the reverberation pattern, and the parameters for the acoustic model (analysis frame length, frame shift, and By determining the number of dynamic feature quantities, the reverberation pattern can be favorably divided into the initial reflection component and the diffuse reverberation component.
残響成分抽出部8では、このようにして計算した減衰時間Taを境界として、残響パターンを初期反射成分と拡散残響成分とに分割して抽出する。そして、後述する学習部4において、分割した初期反射成分を学習用音声データに畳み込む。学習部4は、畳み込んだデータを、音響モデル用パラメタ決定部7で決定した音響モデル用パラメタ(分析フレーム長Tfと、フレームシフトTsと、動的特徴量の数N)に従って学習する。これによって、初期反射成分を反映させて音響モデルの学習を実行する。さらに、認識部5は、入力音声から抽出した拡散残響成分を除去すると共に、初期反射成分を反映させて学習させた音響モデルを参照して、入力音声の認識を行う。
The reverberation
続いて、残響成分抽出部8と、学習部4と、認識部5とによる処理の詳細について説明する。音声認識装置2が入力音声を認識する際には、認識部5において、話者が発話した入力音声から残響処理部3で分割した拡散残響成分を除去するとともに、学習部5で予め学習させておいた音響モデルを参照して、入力音声を認識する。
Next, details of processing by the reverberation
図5は、音声認識システムの詳細な構成を示すブロック図である。音声認識システムはマイク1と、音声認識装置2とを備えている。音声認識装置2は、残響成分抽出部8と、学習部4と、認識部5とを備えている。尚、図5においては、残響処理部3と、減衰時間境界計算部6と、音響モデル用パラメタ決定部7の図示は省略している。
FIG. 5 is a block diagram showing a detailed configuration of the voice recognition system. The voice recognition system includes a
残響成分抽出部8は、初期反射成分抽出処理部11と、拡散残響成分抽出処理部21と、を備えている。学習部4は、畳み込み処理部12と、学習用音声データベース13と、音響モデル学習処理部14と、音響モデル15と、を備えている。認識部5は、スペクトル変換処理部22と、フィルタ作成部23と、スペクトル変換処理部31と、スペクトル減算処理部32と、音声認識特徴量変換部33と、パターンマッチング処理部34と、を備えている。
The reverberation
初期反射成分抽出処理部11と、畳み込み処理部12と、学習用音声データベース13と、音響モデル学習処理部14とは、音声認識に必要な音響モデル15を作成するための処理を行う。これにより、音声信号の残響パターンの初期反射成分を反映した音響モデル15が作成される。ここでは音響モデル15として、隠れマルコフモデル(HMM)が用いられている。ここでの処理は、予めオフラインで行われている。すなわち、音声認識する音声信号を検出する前に、音響モデル15を予め作成しておく。
The initial reflection component
拡散残響成分抽出処理部21と、スペクトル変換処理部22と、フィルタ作成部23とは、拡散残響成分を除去するための処理を行う。これにより、拡散残響成分を減算するための減算フィルタが作成される。ここでの処理は、予めオフラインで行われている。すなわち、音声認識する音声信号を検出する前に、減算フィルタを予め作成しておく。
The diffusion reverberation component
スペクトル変換処理部31と、スペクトル減算処理部32、音声認識特徴量変換部33と、パターンマッチング処理部34とは、入力音声に対して音声認識処理を行う。音声認識処理は、上記の減算フィルタ、及び音響モデル15を用いて行われる。そして、これらの処理が、入力音声に対してオンラインで行われることで、随時、音声を認識していく。
The spectrum
次に、初期反射成分を用いた音響モデル15の学習について図5及び6を用いて説明する。図6は、音響モデルの学習フローを示す図である。尚、図6で示した処理はオフラインで行われる。すなわち、音声認識対象の音声信号を取得するより前に、図6に示す処理フローにより音響モデル15を作成する。
Next, learning of the
図5に示したように、初期反射成分抽出処理部11は、インパルス応答入力から、拡散残響成分を取り除いた初期反射成分を抽出する。すなわち、上記のように、マイク1でインパルス応答を測定し、測定されたインパルス応答の残響成分のうち、減衰時間境界よりも前のデータを初期反射成分として抽出する。図6に示すように、初期反射成分をhEとする。畳み込み処理部12は、初期反射成分hEを用いて畳み込み処理を行う。
As shown in FIG. 5, the initial reflection component
学習用音声データベース13には、クリーンな学習用の音声データが記憶されている。例えば、学習用音声データベース13には、音素単位の音声データがデータベースとして記憶されている。この音声データは、雑音や残響がない場所で測定されたものであり、例えば、1時間分の会話をコーパスとしている。そして、コーパスに含まれるそれぞれの音素に対して、「あ」、「い」などのラベルが付けられている。このように、学習用音声データベース13には、音素に対するクリーンな音声データが記憶されている。そして、畳み込み処理部12は、学習用音声データベース13に記憶されているクリーンな音声データsに対して、初期反射成分hEを畳み込む。これにより、初期反射成分hEが反映された畳み込みデータxEが生成される。音素単位のそれぞれの音声データsに対して初期反射成分hEを畳み込むことで、それぞれの音素に対する畳み込みデータxEが算出される。
The
音響モデル学習処理部14は、初期反射成分が反映された畳み込みデータxEに基づいて、音響モデル学習処理を行う。音響モデル15がHMMである場合、音響モデル学習処理部14は、HMM学習を行う。HMM学習を行う際には、上述した分析フレーム長Tfと、フレームシフトTsと、動的特徴量Δの数Nと、に基づいて学習を行う。より具体的には、畳み込みデータxEから特徴量を抽出する。そして、音素単位の特徴量をデータベースとして記憶させる。すなわち、各音素に対する特徴量ベクトルがテンプレートモデルとなる。特徴量ベクトルは、例えば、分析長毎に抽出される。
Acoustic model
具体的には、畳み込みデータxEをFFT(高速フーリエ変換)等によってスペクトルデータに変換する。そして、人間の聴覚特性に合わせたフィルタを用いて、スペクトルデータを対数変換し、さらにIFFT(逆高速フーリエ変換)によって、時間データに変換する。このようにすることで、メルケプストラムが求められる。メルケプストラム空間では、スペクトルの包絡が低次に表れ、微細な振動が高次に表れる。そして、低次の部分を取り出して、MFCCを算出する。ここでは、12次元のMFCCを算出している。さらには、その1次差分と、パワーの1次差分を特徴量として抽出している。この場合、特徴量ベクトルは25次元(12+12+1)となる。もちろん、特徴量を抽出するための処理がこれに限られるものではない。 Specifically, it converted into spectral data by FFT convolution data x E (Fast Fourier Transform) or the like. Then, the spectral data is logarithmically converted using a filter matched to human auditory characteristics, and further converted into time data by IFFT (Inverse Fast Fourier Transform). In this way, a mel cepstrum is required. In the mel cepstrum space, the spectral envelope appears in the lower order and the fine vibrations appear in the higher order. Then, the low order part is taken out and the MFCC is calculated. Here, a 12-dimensional MFCC is calculated. Further, the primary difference and the power primary difference are extracted as feature quantities. In this case, the feature quantity vector has 25 dimensions (12 + 12 + 1). Of course, the process for extracting the feature quantity is not limited to this.
そして、MFCCのデータ群によって学習を行う。尚、大量のコーパスに含まれる音声データsに対して処理を行うことで、1つの音素に対する特徴量が平均と分散を持っている。音響モデル15は、平均と分散の値を保持する。そして、音響モデル学習処理部14は、特徴量の平均と分散に応じてHMMの状態遷移確率や出力確率などを決定する。音響モデル学習処理部14は、例えば、EMアルゴリズムによってHMMを学習する。もちろん、EMアルゴリズム以外の公知のアルゴリズムを用いてもよい。このようにして、音響モデル15が学習される。
Then, learning is performed using the MFCC data group. It should be noted that by processing the speech data s included in a large amount of corpus, the feature amount for one phoneme has an average and a variance. The
音響モデル学習処理部14で学習された音響モデル15がデータベースとして記憶される。この音響モデル15は、残響パターンの初期反射成分を考慮したものとなる。すなわち、初期反射成分をHMMでモデル化推定する。これにより、初期反射成分を学習済みの音響モデル15が構築される。この音響モデル15を用いることで、音声信号に含まれる初期反射成分の影響を低減することができ、認識率を向上することができる。
The
次に、拡散残響成分を用いたフィルタ作成処理について、図5、7、8を用いて説明する。図7は、フィルタを作成するための近似計算を説明するための概念図である。図8は、フィルタ作成の処理フローを示す図である。 Next, filter creation processing using a diffuse reverberation component will be described with reference to FIGS. FIG. 7 is a conceptual diagram for explaining approximate calculation for creating a filter. FIG. 8 is a diagram showing a processing flow for creating a filter.
図5に示すように、拡散残響成分抽出処理部21は、インパルス応答入力に対して、拡散残響成分抽出処理を行う。これにより、インパルス応答の残響パターンの中から初期反射成分が取り除かれた拡散残響成分が抽出される。すなわち、マイク1で計測されたインパルス応答の残響成分のうち、減衰時間境界よりも後のデータを拡散残響成分が抽出される。スペクトル変換処理部22は、インパルス応答の時間データをスペクトルデータに変換する。すなわち、時間領域の拡散残響成分のデータを周波数領域のデータに変換する。ここでは、フーリエ変換などを用いて、拡散残響成分のデータを変換している。すなわち、FFT(高速フーリエ変換)などによって、周波数領域のデータに変換する。尚、スペクトル変換処理部22は、スペクトルデータに変換する前に、上記の分析フレーム長、及びフレームシフトに応じてフレーム化処理を行っている。
As shown in FIG. 5, the diffusion reverberation component
フィルタ作成部23は、拡散残響成分のデータを用いて、拡散残響を除去するための減算フィルタを作成する。まず、図7を用いてフィルタを作成するための近似計算について説明する。図7は、音声認識を行うためのオンライン処理が示されている。
The
図7に示すように、発話者が話した音声による音声信号を入力xとし、インパルス応答での拡散残響成分を後部インパルス応答hLとする。入力xに対する後部拡散残響xLを入力xから除去するためにスペクトル減算処理を行う。スペクトル減算をした後、特徴量に変換し、パターンマッチングにより音声認識を行う。 As shown in FIG. 7, a speech signal by speech spoken by the speaker as an input x, the diffuse reverberation components in the impulse response a rear impulse response h L. Spectral subtraction processing is performed to remove the back diffuse reverberation x L for the input x from the input x. After subtracting the spectrum, it is converted into a feature value, and voice recognition is performed by pattern matching.
しかしながら、入力xに対する後部拡散残響xLを直接観測することができない。すなわち、後部拡散残響xLのみを観察することは不可能である。そこで、事前に観測した後部インパルス応答hLを用いて後部拡散残響xLを近似する。すなわち、x'L(=x*hL)をxLに近似することができれば、拡散残響成分のスペクトル成分を減算することが可能になる。従って、入力xに後部インパルス応答を畳み込んだものを後部拡散残響xLと近似することができるようなフィルタを作成する。 However, the back diffuse reverberation x L for the input x cannot be observed directly. In other words, it is not possible to observe only the rear diffusion reverberation x L. Therefore, the rear diffuse reverberation x L is approximated using the rear impulse response h L observed in advance. That is, if x ′ L (= x * h L ) can be approximated to x L , the spectrum component of the diffuse reverberation component can be subtracted. Therefore, to create a filter that what convolving a rear impulse response to an input x can be approximated to the rear spreading reverberation x L.
このように近似するためのオフライン処理について図8を用いて説明する。ここでは、インパルス応答を計測して、クリーンな学習用の音声データsからフィルタδを作成している。学習用音声データベース13に記憶されている音声データsに後部インパルス応答hL(t)を畳み込む。これにより、後部拡散残響xLが作成される。また、学習用音声データベース13に記憶されている音声データsに対してインパルス応答hを畳み込む。すなわち、インパルス応答hの全部を音声データsに対して畳み込む。これにより、クリーンな音声を発した場合における入力xが生成される。さらに、入力xに対して、後部インパルス応答hL(t)を畳み込む。すなわち、音声データsに対してインパルス応答hを畳み込んだ後、そのデータに後部インパルス応答hL(t)をさらに畳み込む。この後部インパルス応答hL(t)は、クリーンな音声データに畳み込まれた後部インパルス応答hL(t)と同一のものである。
The off-line processing for approximating in this way will be described with reference to FIG. Here, an impulse response is measured, and a filter δ is created from clean learning speech data s. The rear impulse response h L (t) is convolved with the voice data s stored in the
上記の処理を学習用音声データベース13に含まれる音声データsに対してそれぞれ行う。そして、算出された後部拡散残響xLとx'Lが近くなるようなフィルタδを推定する。すなわち、xL≒δx'Lとなる係数を算出する。ここでは、最小2乗誤差計算によって、フィルタδを推定している。すなわち、xLがδx'Lとの誤差関数を最小にするように処理を行う。これにより、δx'LがxLに最も近くなるようなδを算出することができる。ここで、周波数帯で最適な係数が異なる。従って、フィルタδを、周波数帯別に推定する。図8の右上に示すように、周波数帯毎に最適な係数を算出する。具体的には、12次元のフィルタδ(δ1、δ2、δ3、δ4、・・・・δ12)を推定する。このフィルタδを用いて、スペクトル減算することで、音声信号から拡散残響成分を除去することができる。すなわち、フィルタδは、拡散残響成分を減算することができる減算フィルタとなる。
The above processing is performed for each of the voice data s included in the
次に、オンラインの音声認識処理について図5及び9を用いて説明する。図9は、音声認識の処理フローを示す図である。まず、マイク1で検出された入力音声が音声認識装置2に入力される。図9では、入力音声を入力xとしている。スペクトル変換処理部31は、入力xをスペクトルデータに変換する。すなわち、FFTなどによって、時間領域のデータを周波数領域のデータに変換する。スペクトル変換処理部31は、スペクトルデータに変換する前に、上記の分析フレーム長、及びフレームシフトに応じてフレーム化処理を行っている。
Next, online speech recognition processing will be described with reference to FIGS. FIG. 9 is a diagram showing a processing flow of voice recognition. First, the input voice detected by the
スペクトル減算処理部32は、フィルタδを用いてスペクトルデータから拡散残響成分を減算する。このようにフィルタδを用いたスペクトル減算処理を行うことで、音声信号から拡散残響成分の影響が除去される。拡散残響成分のスペクトルが減算された減算データに基づいて、以下のように音声が認識される。
The spectrum
音声認識特徴量変換部33は、スペクトルデータを音声認識の特徴量に変換する。音声認識特徴量変換部33は、拡散残響成分が減算された減算データに基づいて特徴量を抽出する。特徴量としては、例えば、12次元のメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)を用いることができる。そのため、メルフィルタによるフィルタバンク分析を行う。そして、対数変換(Log変換)を行い、離散コサイン変換(DCT)を行うことでMFCCが算出される。ここでは、上記のように、MFCCの1次差分と、パワーの1次差分を含む25次元の特徴量ベクトルが算出される。
The voice recognition feature
音声認識の特徴量にMFCCを用いる場合、認識率をより向上することができる。すなわち、スペクトル減算のような非線形処理は、音声信号に戻す場合には、ひずみの原因となるが、MFCCに変換する場合は全く問題とならない。すなわち、音声信号に戻さずに、拡散残響成分が除去されたスペクトルデータをMFCCに直接変換するので、ひずみの発生を防ぐことができる。 When MFCC is used as a feature amount for speech recognition, the recognition rate can be further improved. That is, nonlinear processing such as spectral subtraction causes distortion when returning to an audio signal, but does not pose any problem when converted to MFCC. That is, since the spectrum data from which the diffuse reverberation component is removed is directly converted to MFCC without returning to the audio signal, the occurrence of distortion can be prevented.
そして、パターンマッチング処理部34は、音響モデル15の特徴量ベクトルを用いてパターンマッチング処理を行う。これにより、検出した音声信号に対する特徴量ベクトルに最も近いパターンの音素が認識される。すなわち、パターンマッチング処理部34は、音響モデル15を参照して、音声認識処理を行う認識処理部となる。
And the pattern
以上説明したように、音声認識処理の実行に際して、初期反射成分が反映された音響モデル15が用いられているため、より優れた音響モデル15を構築することができる。学習する分析長を超えて影響する拡散残響成分(高次反射成分)を除去した初期反射成分を学習に用いているため、正確な音韻学習を行うことができる。初期反射成分による影響をHMM学習によって吸収することができるため、音声の認識率を向上することができる。
As described above, since the
さらに、拡散残響成分はスペクトル減算のフィルタδに利用されている。このため、入力音声の拡散残響成分を除去することができる。これにより、拡散残響成分の影響を低減することができ、音声の認識率を向上することができる。 Furthermore, the diffuse reverberation component is used as a filter δ for spectral subtraction. For this reason, the diffuse reverberation component of the input speech can be removed. Thereby, the influence of a diffuse reverberation component can be reduced and the speech recognition rate can be improved.
本実施形態では、実際に音声認識される音声信号が取得される環境と同一環境でインパルス応答を測定し、測定したインパルス応答の残響パターンから初期反射成分と拡散残響成分とを抽出する。ここでは、マイク1が設置された部屋でインパルス応答計測を行っている。部屋の残響やマイク周辺の形状は部屋を移るなどの大きな変化がない限り、ほぼ同一とすることができる。したがって、環境が同じであれば、拡散残響成分は、直接音によらず、ほぼ一定とみなすことができる。すなわち、拡散残響成分は、発話した音声によらず、ほぼ一定となる。マイクを設置する方法を定めた後、部屋のインパルス応答に対する残響を1回だけ測定することで、初期反射成分と拡散残響成分を分割推定することが可能になる。
In the present embodiment, the impulse response is measured in the same environment as the environment in which the voice signal that is actually recognized is acquired, and the initial reflection component and the diffuse reverberation component are extracted from the reverberation pattern of the measured impulse response. Here, impulse response measurement is performed in a room where the
すなわち、環境中でインパルス応答を予め計測して、初期反射成分と拡散反射成分を抽出する。そして、初期反射成分が反映された音響モデル15と、拡散反射成分に基づいて作成されたフィルタδとを、その環境における音声認識に繰り返し使用する。すなわち、同じ環境中で検出された音声信号に対して同じフィルタδ、及び音響モデル15を用いる。予めインパルス応答を一度計測するだけでよいため、音響モデル15の学習、及びフィルタδの作成を簡便に行うことができる。また、予め作成された音響モデル15とフィルタδを用いているため、オンラインでの処理量を低減することができる。よって、簡便な処理で、認識率の高い音声認識を行うことができる。
That is, the impulse response is measured in advance in the environment, and the initial reflection component and the diffuse reflection component are extracted. The
発話者5が部屋を移るなどして環境が変わった場合は、その環境でインパルス応答計測を一度行う。そして、同様の処理によって音響モデル15の学習、及びフィルタδの作成を行う。環境に応じてモデル学習、及びフィルタ作成を行うことで、認識率を向上することができる。あるいは、マイク1を交換した場合も、交換したマイク1でインパルス応答計測を行い、同様に処理する。もちろん、環境は室内に限らず、車内や屋外であってもよい。例えば、音声認識システムをカーナビゲーションシステムなどに搭載してもよい。
When the environment changes due to the
尚、音響モデル15はHMM以外の音響モデルであってもよい。すなわち、HMM以外の音響モデル15の学習に、初期反射成分を用いてもよい。また、1つのマイク1で残響を除去することができるため、システムの構成を簡素化することができる。
The
さらに、各処理が異なるコンピュータによって行われていてもよい。例えば、音響モデル学習、及びフィルタ作成の処理を行うコンピュータと、音声認識を行うコンピュータを物理的に異なるものとしてもよい。この場合、オンライン処理とオフライン処理が異なる装置によって行われる。 Furthermore, each process may be performed by different computers. For example, a computer that performs acoustic model learning and filter creation processing may be physically different from a computer that performs speech recognition. In this case, online processing and offline processing are performed by different devices.
具体的には、初期反射成分抽出処理部11と畳み込み処理部12と学習用音声データベース13と音響モデル学習処理部14と、拡散残響成分抽出処理部21とスペクトル変換処理部22とフィルタ作成部23とを有する処理装置で、音響モデル15とフィルタδを予め作成する。そして、スペクトル変換処理部31とスペクトル減算処理部32と音声認識特徴量変換部33とパターンマッチング処理部34と有する音声認識装置に、作成された音響モデル15とフィルタδを予め記憶させておく。そして、音声認識装置2に接続されたマイク1で音声信号を検出して、その音声信号に上記の処理を行う。このようにしても、認識率の高い音声認識処理を簡便に行うことができる。あるいは、処理装置などの他のコンピュータに格納されている音響モデル15、及びフィルタδを参照して、音声認識を行うコンピュータが処理を行ってもよい。
Specifically, the initial reflection component
さらには、音響モデル学習を行うコンピュータと、フィルタ作成を行うコンピュータを物理的に異なるものとしてもよい。また、フィルタ作成と音響モデル学習との間で異なるインパルス応答の計測結果を用いてもよい。すなわち、異なるインパルス応答測定から、初期反射成分と、拡散残響成分を抽出してもよい。例えば、インパルス応答計測を2回行い、一方のインパルス応答計測に基づき初期反射成分を抽出し、他方のインパルス応答計測に基づき拡散残響成分を抽出してもよい。上記の音声認識システムを音声応答型のロボットに搭載することで、的確な音声応答を行うことができる。尚、連続音声による音声信号が入力される場合は、さらに、言語モデルを用いて音声を認識してもよい。 Furthermore, the computer that performs acoustic model learning and the computer that performs filter creation may be physically different. Further, different impulse response measurement results may be used between filter creation and acoustic model learning. That is, the initial reflection component and the diffuse reverberation component may be extracted from different impulse response measurements. For example, impulse response measurement may be performed twice, an initial reflection component may be extracted based on one impulse response measurement, and a diffuse reverberation component may be extracted based on the other impulse response measurement. By mounting the voice recognition system on a voice response type robot, an accurate voice response can be performed. In addition, when the audio | voice signal by a continuous audio | voice is input, you may recognize a audio | voice further using a language model.
1 マイク、 2 音声認識装置、
3 残響処理部、 4 学習部、 5 認識部、
6 減衰時間境界計算部、 7 音響モデル用パラメタ決定部、
8 残響成分抽出部、 11 初期反射成分抽出処理部、
12 畳み込み処理部、 13 学習用音声データベース、
14 音響モデル学習処理部、 15 音響モデルデータベース、
21 拡散残響成分抽出処理部、 22 スペクトル変換処理部、
23 フィルタ作成部、 31 スペクトル変換処理部、
32 スペクトル減算処理部、 33 音声認識特徴量変換部、
34 パターンマッチング処理部
1 microphone, 2 speech recognition device,
3 reverberation processing unit, 4 learning unit, 5 recognition unit,
6 Decay time boundary calculation unit, 7 Acoustic model parameter determination unit,
8 reverberation component extraction unit, 11 initial reflection component extraction processing unit,
12 convolution processing unit, 13 learning speech database,
14 acoustic model learning processing unit, 15 acoustic model database,
21 diffuse reverberation component extraction processing unit, 22 spectrum conversion processing unit,
23 filter creation unit, 31 spectrum conversion processing unit,
32 spectrum subtraction processing unit, 33 speech recognition feature amount conversion unit,
34 Pattern matching processing section
Claims (10)
前記残響パターンの減衰曲線を計算し、該減衰曲線に基づいて前記初期反射成分と前記拡散残響成分との時間的な境界を示す減衰時間境界を計算する減衰時間境界計算部と、
前記計算した減衰時間境界に基づいて、音響モデルで用いる分析フレーム長と、フレームシフトと、動的特徴量の数と、を決定する音響モデル用パラメタ決定部と、
を備える処理装置。 The reverberation pattern is measured from the impulse response, and the measured reverberation pattern is divided into an initial reflection component that is the first half of the reverberation pattern and a diffuse reverberation component that is the second half of the reverberation pattern, A processing device for performing recognition,
An attenuation time boundary calculation unit that calculates an attenuation curve of the reverberation pattern and calculates an attenuation time boundary indicating a temporal boundary between the initial reflection component and the diffuse reverberation component based on the attenuation curve;
An acoustic model parameter determination unit that determines an analysis frame length, a frame shift, and the number of dynamic features used in the acoustic model based on the calculated decay time boundary;
A processing apparatus comprising:
前記残響パターンが所定量減少した際の時間を前記減衰時間境界とする
ことを特徴とする請求項1記載の処理装置。 The decay time boundary calculation unit includes:
The processing apparatus according to claim 1, wherein a time when the reverberation pattern decreases by a predetermined amount is set as the decay time boundary.
前記残響パターンの減衰曲線の変化量が所定の閾値を下回った際の時間を前記減衰時間境界とする
ことを特徴とする請求項1又は2記載の処理装置。 The decay time boundary calculation unit includes:
The processing apparatus according to claim 1, wherein a time when the amount of change in the decay curve of the reverberation pattern falls below a predetermined threshold is set as the decay time boundary.
前記音響モデル用パラメタ決定部は、
前記減衰時間境界計算部で計算した減衰時間境界Taに対して、次の式を満足する前記分析フレーム長Tfと、前記フレームシフトTsと、前記動的特徴量の数Nと、の値の組合せを選択する
Ta≒Tf+N×(2×Ts)
ことを特徴とする請求項1乃至3いずれか1項記載の処理装置。 A storage unit that stores in advance a combination of values of the analysis frame length Tf, the frame shift Ts, and the number N of dynamic features used in the acoustic model;
The acoustic model parameter determination unit
A combination of values of the analysis frame length Tf, the frame shift Ts, and the number N of the dynamic feature quantities satisfying the following expression with respect to the decay time boundary Ta calculated by the decay time boundary calculation unit: Ta≈Tf + N × (2 × Ts)
The processing apparatus according to any one of claims 1 to 3.
前記残響パターンの減衰曲線を計算し、該減衰曲線に基づいて、前記初期反射成分と前記拡散残響成分との時間的な境界を示す減衰時間境界を計算する減衰時間境界計算部と、
前記計算した減衰時間境界に基づいて、音響モデルで用いる分析フレーム長と、フレームシフトと、動的特徴量の数と、を決定する音響モデル用パラメタ決定部と、
前記測定した残響パターンを前記減衰時間境界で分割して、前記初期反射成分と、前記拡散残響成分とを抽出する残響成分抽出部と、
前記抽出した初期反射成分を学習用音声データに反映させて、前記決定した分析フレーム長と、フレームシフトと、動的特徴量の数と、に基づいて音響モデルを学習する学習部と、
前記入力音声から前記抽出した拡散残響成分を除去するとともに、前記学習した音響モデルを参照して前記入力音声を認識する認識部と、
を備える音声認識装置。 Reverberation pattern is measured from impulse response, and the measured reverberation pattern is divided into an initial reflection component that is the first half of the reverberation pattern and a diffuse reverberation component that is the second half of the reverberation pattern to recognize input speech A voice recognition device that
An attenuation time boundary calculation unit that calculates an attenuation curve of the reverberation pattern, and calculates an attenuation time boundary indicating a temporal boundary between the initial reflection component and the diffuse reverberation component based on the attenuation curve;
An acoustic model parameter determination unit that determines an analysis frame length, a frame shift, and the number of dynamic features used in the acoustic model based on the calculated decay time boundary;
Dividing the measured reverberation pattern at the decay time boundary to extract the initial reflection component and the diffuse reverberation component;
A learning unit that reflects the extracted initial reflection component in learning audio data and learns an acoustic model based on the determined analysis frame length, frame shift, and number of dynamic features,
A recognition unit that removes the extracted diffuse reverberation component from the input speech and recognizes the input speech with reference to the learned acoustic model;
A speech recognition apparatus comprising:
環境中で発生した音を受音して、前記音声認識装置に音声信号を出力するマイクロフォンと、
を有する音声認識システム。 A voice recognition device according to claim 5;
A microphone that receives sound generated in the environment and outputs a voice signal to the voice recognition device;
A speech recognition system.
前記残響パターンの減衰曲線を計算し、該減衰曲線に基づいて、前記初期反射成分と前記拡散残響成分との時間的な境界を示す減衰時間境界を計算するステップと、
前記計算した減衰時間境界に基づいて、音響モデルで用いる分析フレーム長と、フレームシフトと、動的特徴量の数と、を決定するステップと、
前記測定した残響パターンを前記減衰時間境界で分割して、前記初期反射成分と、前記拡散残響成分とを抽出するステップと、
前記抽出した初期反射成分を学習用音声データに反映させて、前記決定した分析フレーム長と、フレームシフトと、動的特徴量の数と、に基づいて音響モデルを学習するステップと、
前記入力音声から前記抽出した拡散残響成分を除去するとともに、前記学習した音響モデルを参照して前記入力音声を認識するステップと、
を備える音声認識方法。 Reverberation pattern is measured from impulse response, and the measured reverberation pattern is divided into an initial reflection component that is the first half of the reverberation pattern and a diffuse reverberation component that is the second half of the reverberation pattern to recognize input speech A voice recognition method for
Calculating an attenuation curve of the reverberation pattern, and calculating an attenuation time boundary indicating a temporal boundary between the initial reflection component and the diffuse reverberation component based on the attenuation curve;
Determining an analysis frame length, a frame shift, and a number of dynamic features to be used in the acoustic model based on the calculated decay time boundary;
Dividing the measured reverberation pattern at the decay time boundary to extract the initial reflection component and the diffuse reverberation component;
Reflecting the extracted initial reflection component in learning speech data, and learning an acoustic model based on the determined analysis frame length, frame shift, and number of dynamic features;
Removing the extracted diffuse reverberation component from the input speech and recognizing the input speech with reference to the learned acoustic model;
A speech recognition method comprising:
ことを特徴とする請求項7記載の音声認識方法。 The speech recognition method according to claim 7, wherein an attenuation curve of the reverberation pattern is calculated, and a time when the calculated attenuation curve decreases by a predetermined amount is set as the attenuation time boundary.
ことを特徴とする請求項7又は8記載の音声認識方法。 The speech recognition method according to claim 7 or 8, wherein an attenuation curve of the reverberation pattern is calculated, and a time when a change amount of the calculated attenuation curve falls below a predetermined threshold is used as the attenuation time boundary. .
Ta≒Tf+N×(2×Ts)
ことを特徴とする請求項7乃至9いずれか1項記載の音声認識方法。 A pre-stored analysis of combinations of values of the analysis frame length Tf, the frame shift Ts, and the number N of dynamic feature quantities satisfying the following expression with respect to the calculated decay time boundary Ta Determined by selecting from combinations of values of the frame length Tf, the frame shift Ts, and the number N of dynamic feature quantities Ta≈Tf + N × (2 × Ts)
The speech recognition method according to claim 7, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008124497A JP2009276365A (en) | 2008-05-12 | 2008-05-12 | Processor, voice recognition device, voice recognition system and voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008124497A JP2009276365A (en) | 2008-05-12 | 2008-05-12 | Processor, voice recognition device, voice recognition system and voice recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009276365A true JP2009276365A (en) | 2009-11-26 |
Family
ID=41441901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008124497A Pending JP2009276365A (en) | 2008-05-12 | 2008-05-12 | Processor, voice recognition device, voice recognition system and voice recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009276365A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011232691A (en) * | 2010-04-30 | 2011-11-17 | Honda Motor Co Ltd | Dereverberation device and dereverberation method |
JP2015519614A (en) * | 2012-06-18 | 2015-07-09 | ゴーアテック インコーポレイテッドGoertek Inc | Single channel speech dereverberation method and apparatus |
JP2019219468A (en) * | 2018-06-18 | 2019-12-26 | Zホールディングス株式会社 | Generation device, generation method and generation program |
WO2022209171A1 (en) * | 2021-03-31 | 2022-10-06 | ソニーグループ株式会社 | Signal processing device, signal processing method, and program |
WO2022230450A1 (en) * | 2021-04-30 | 2022-11-03 | ソニーグループ株式会社 | Information processing device, information processing method, information processing system, and program |
-
2008
- 2008-05-12 JP JP2008124497A patent/JP2009276365A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011232691A (en) * | 2010-04-30 | 2011-11-17 | Honda Motor Co Ltd | Dereverberation device and dereverberation method |
US9002024B2 (en) | 2010-04-30 | 2015-04-07 | Honda Motor Co., Ltd. | Reverberation suppressing apparatus and reverberation suppressing method |
JP2015519614A (en) * | 2012-06-18 | 2015-07-09 | ゴーアテック インコーポレイテッドGoertek Inc | Single channel speech dereverberation method and apparatus |
JP2017021385A (en) * | 2012-06-18 | 2017-01-26 | ゴーアテック インコーポレイテッドGoertek Inc | Method and device for dereverberation of single-channel speech |
JP2019219468A (en) * | 2018-06-18 | 2019-12-26 | Zホールディングス株式会社 | Generation device, generation method and generation program |
WO2022209171A1 (en) * | 2021-03-31 | 2022-10-06 | ソニーグループ株式会社 | Signal processing device, signal processing method, and program |
WO2022230450A1 (en) * | 2021-04-30 | 2022-11-03 | ソニーグループ株式会社 | Information processing device, information processing method, information processing system, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4532576B2 (en) | Processing device, speech recognition device, speech recognition system, speech recognition method, and speech recognition program | |
EP1993320B1 (en) | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium | |
JP5572445B2 (en) | Reverberation suppression apparatus and reverberation suppression method | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
JP6261043B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP6077957B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JPH1115491A (en) | Environmentally compensated method of processing speech | |
US9530432B2 (en) | Method for determining the presence of a wanted signal component | |
US7797157B2 (en) | Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances | |
JP2011033717A (en) | Noise suppression device | |
JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
JP2009276365A (en) | Processor, voice recognition device, voice recognition system and voice recognition method | |
US20050010406A1 (en) | Speech recognition apparatus, method and computer program product | |
KR100784456B1 (en) | Voice Enhancement System using GMM | |
JP2011191682A (en) | Speech recognition device, speech recognition method and speech recognition program | |
KR102051966B1 (en) | Speech recognition enhancement apparatus and method | |
TW200926141A (en) | Speech recognition system and method with cepstral noise subtraction | |
JP2007093630A (en) | Speech emphasizing device | |
US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
JP4464797B2 (en) | Speech recognition method, apparatus for implementing the method, program, and recording medium therefor | |
JP6891144B2 (en) | Generation device, generation method and generation program | |
Tachioka et al. | Dereverberation method with reverberation time estimation using floored ratio of spectral subtraction | |
JP2005258215A (en) | Signal processing method and signal processing device | |
Pacheco et al. | Spectral subtraction for reverberation reduction applied to automatic speech recognition | |
JP2009069305A (en) | Sound echo canceler and in-vehicle device |