JP6466762B2 - Speech recognition apparatus, speech recognition method, and program - Google Patents
Speech recognition apparatus, speech recognition method, and program Download PDFInfo
- Publication number
- JP6466762B2 JP6466762B2 JP2015074838A JP2015074838A JP6466762B2 JP 6466762 B2 JP6466762 B2 JP 6466762B2 JP 2015074838 A JP2015074838 A JP 2015074838A JP 2015074838 A JP2015074838 A JP 2015074838A JP 6466762 B2 JP6466762 B2 JP 6466762B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- model
- index
- speech
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、音声認識モデルのパラメータを自動的に決定し、それを用いて音声認識を行う技術に関する。 The present invention relates to a technology for automatically determining parameters of a speech recognition model and performing speech recognition using the parameters.
GMM-HMM音声認識装置によるデコードを表現する音声認識モデルは1個の言語重みパラメータ(モデルパラメータ)を含む。このモデルパラメータは経験則的パラメータ(ヒューリスティックパラメータ)であり、実用上、このパラメータ値を設定する必要がある(例えば、非特許文献1等参照)。また、音響モデルとして混合正規分布の代わりにニューラルネットワークを用いることでGMM-HMM音声認識装置より多くの入力情報を扱うことのできるANN-HMM Hybrid音声認識装置が知られている。ANN-HMM Hybrid音声認識装置によるデコードを表現する音声認識モデルは2個のヒューリスティックパラメータを含み、これらのパラメータ値を設定する必要がある(例えば、非特許文献2等参照)。 The speech recognition model expressing the decoding by the GMM-HMM speech recognition device includes one language weight parameter (model parameter). This model parameter is an empirical parameter (heuristic parameter), and it is necessary to set this parameter value for practical use (see, for example, Non-Patent Document 1). Also, an ANN-HMM Hybrid speech recognition device is known that can handle more input information than a GMM-HMM speech recognition device by using a neural network instead of a mixed normal distribution as an acoustic model. The speech recognition model expressing the decoding by the ANN-HMM Hybrid speech recognition device includes two heuristic parameters, and these parameter values need to be set (see, for example, Non-Patent Document 2).
また、GMM-HMM音声認識装置におけるヒューリスティックパラメータを自動的に設定する従来方法として、非特許文献3に記載された方法がある。
Further, as a conventional method for automatically setting heuristic parameters in the GMM-HMM speech recognition apparatus, there is a method described in Non-Patent
しかしながら、非特許文献3の方法では、入力音響信号に含まれる雑音成分を考慮することなくパラメータ値の設定が行われる。そのため、雑音成分に応じて適切なパラメータ値が異なる音声認識モデルの場合には、雑音成分の影響で音声認識精度または音声認識率が低下する場合がある。事前に入力音響信号に雑音抑圧処理を行うことも考えられるが、雑音抑圧処理によって音声認識の観点から不適切な歪みが加えられる可能性がある。
However, in the method of Non-Patent
本発明の課題は、入力音響信号に含まれた雑音成分に応じた適切なモデルパラメータを自動設定することである。 An object of the present invention is to automatically set an appropriate model parameter according to a noise component included in an input acoustic signal.
入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択し、選択したモデルパラメータまたはモデルパラメータの組み合わせに応じた音声認識モデルを入力音響信号に適用する。 Select the model parameter of the speech recognition model or the combination of model parameters of the speech recognition model according to the relationship between the magnitude of the speech component and noise component contained in the input acoustic signal, and according to the selected model parameter or combination of model parameters Apply the speech recognition model to the input acoustic signal.
これにより、入力音響信号に含まれた雑音成分に応じた適切なモデルパラメータを自動設定できる。 Thereby, an appropriate model parameter according to the noise component contained in the input acoustic signal can be automatically set.
以下、本発明の実施形態を説明する。
[概要]
まず、実施形態の概要を説明する。
各実施形態では、音声認識装置が、音声認識対象となる「入力音響信号」に含まれる「音声成分」と「雑音成分」との関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択し、選択したモデルパラメータまたはモデルパラメータの組み合わせに応じた音声認識モデルを当該入力音響信号に適用する。「音声成分と雑音成分との関係」に応じてモデルパラメータを選択することで、「雑音成分」に応じて適切なパラメータ値が異なる音声認識モデルであっても、適切なモデルパラメータを自動設定できる。「音声成分と雑音成分との大きさの関係」は、例えば、「音声成分」の大きさと「雑音成分」の大きさとの間の相対値または相対値の関数値である。「音声成分と雑音成分との大きさの関係」は、例えば、「雑音成分」の大きさに対する「音声成分」の大きさの比(S/N比)であってもよいし、「音声成分」の大きさに対する「雑音成分」の大きさの比であってもよいし、「音声成分」および「雑音成分」を含む「音響信号」の大きさに対する「雑音成分」の大きさの比であってもよいし、「音響信号」の大きさに対する「音声成分」の大きさの比であってもよいし、「音響信号」の大きさから「音声成分」の大きさを減じた値であってもよいし、「音響信号」の大きさから「雑音成分」の大きさを減じた値であってもよいし、そのような比または値の関数値であってもよい。「音声認識モデル」の具体例は、GMM-HMM音声認識装置によるデコードを表現する音声認識モデルであってもよいし(例えば、非特許文献1等参照)、ANN-HMM Hybrid音声認識装置によるデコードを表現する音声認識モデルであってもよいし(例えば、非特許文献2等参照)、その他の音声認識モデルであってもよい。「モデルパラメータ」は、例えば「ヒューリスティックパラメータ」である。ただし、「モデルパラメータ」の少なくとも一部が「ヒューリスティックパラメータ」以外のパラメータであってもよい。
Embodiments of the present invention will be described below.
[Overview]
First, an outline of the embodiment will be described.
In each embodiment, the speech recognition apparatus determines whether the speech recognition model model parameter or the speech recognition model model corresponds to the relationship between the “speech component” and the “noise component” included in the “input acoustic signal” to be speech recognition target. A combination of parameters is selected and a speech recognition model corresponding to the selected model parameter or combination of model parameters is applied to the input acoustic signal. By selecting model parameters according to the “relation between speech and noise components”, appropriate model parameters can be automatically set even for speech recognition models with different appropriate parameter values according to “noise components”. . The “relationship between the size of the speech component and the noise component” is, for example, a relative value between the size of the “speech component” and the size of the “noise component” or a function value of the relative value. The “relationship between the size of the speech component and the noise component” may be, for example, a ratio (S / N ratio) of the size of the “sound component” to the size of the “noise component”. The ratio of the size of the “noise component” to the size of the “noise component” may be the ratio of the “noise component” to the size of the “acoustic signal” including the “voice component” and the “noise component”. It may be the ratio of the size of the “sound component” to the size of the “acoustic signal”, or a value obtained by subtracting the size of the “sound component” from the size of the “acoustic signal”. It may be a value obtained by subtracting the magnitude of the “noise component” from the magnitude of the “acoustic signal”, or may be a function value of such a ratio or value. A specific example of the “speech recognition model” may be a speech recognition model that expresses decoding by the GMM-HMM speech recognition device (see, for example, Non-Patent Document 1), or decoding by the ANN-HMM Hybrid speech recognition device. (For example, refer to Non-Patent
各実施形態では、「音声成分と雑音成分との大きさの関係」を表す「第1指標」と、「第1指標」が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておく。音声認識装置は、「入力音響信号」に含まれる「音声成分と雑音成分との大きさの関係」に対応する「第1指標」に対応付けられたモデルパラメータまたはモデルパラメータの組み合わせを選択し、選択したモデルパラメータまたはモデルパラメータの組み合わせを用いた音声認識モデルを当該「入力音響信号」に適用する。これにより、「音声成分と雑音成分との大きさの関係」に応じ、高い音声認識精度または音声認識率を実現できる。なお「第1指標」の例は、上述の「音声成分と雑音成分との大きさの関係」の例を表す指標であり、例えば、S/N比を表す値である。 In each embodiment, speech recognition accuracy or speech recognition when applied to an acoustic signal having a relationship represented by “first index” and “first index” representing “a relationship between the magnitudes of speech components and noise components” A model parameter or a combination of model parameters of a speech recognition model having a maximum rate or a predetermined value or more is associated with the rate. The speech recognition apparatus selects a model parameter or a combination of model parameters associated with the “first index” corresponding to “a relationship between the magnitudes of the speech component and the noise component” included in the “input acoustic signal”, A speech recognition model using the selected model parameter or a combination of model parameters is applied to the “input acoustic signal”. Accordingly, high speech recognition accuracy or speech recognition rate can be realized in accordance with the “relationship between the magnitudes of the speech component and the noise component”. The example of the “first index” is an index that represents the above-described example of “the relationship between the magnitudes of the voice component and the noise component”, and is, for example, a value that represents the S / N ratio.
より具体的には、音声認識装置は、「入力音響信号」に含まれる「音声成分と雑音成分との大きさの関係」を表す「第2指標」に最も近い「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせを選択する。これにより、「第2指標」に一致する「第1指標」が存在しない場合であっても、高い音声認識精度または音声認識率を実現可能なモデルパラメータまたはモデルパラメータの組み合わせを選択できる。 More specifically, the speech recognition apparatus corresponds to the “first index” that is closest to the “second index” that represents “the relationship between the magnitudes of the speech component and the noise component” included in the “input acoustic signal”. Select model parameters or model parameter combinations. As a result, even when there is no “first index” that matches the “second index”, it is possible to select a model parameter or a combination of model parameters that can realize high speech recognition accuracy or speech recognition rate.
あるいは、音声認識装置が、「第2指標」と同一または近傍の「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせのうち、音声認識精度または音声認識率を最大にするものを選択してもよい。「第2指標の近傍の第1指標」とは、「第2指標」からの距離が所定の範囲内にある「第1指標」を意味する。「第2指標の近傍の第1指標」が1個のみ存在していてもよいし、2個存在していてもよいし、3個以上存在していてもよい。「第2指標の近傍の第1指標」の例は、「第2指標」よりも大きく当該「第2指標」に最も近い「第1指標」、「第2指標」よりも小さく当該「第2指標」に最も近い「第1指標」、それら両方、「第2指標」との距離が所定値以内の3個以上の「第1指標」などである。 Alternatively, the speech recognition apparatus selects a model parameter or a combination of model parameters corresponding to the “first index” that is the same as or close to the “second index” and that maximizes the speech recognition accuracy or the speech recognition rate. May be. The “first index in the vicinity of the second index” means a “first index” whose distance from the “second index” is within a predetermined range. There may be only one “first index in the vicinity of the second index”, two, or three or more. Examples of the “first index in the vicinity of the second index” are the “second index” that is larger than the “second index” and closest to the “second index”, and smaller than the “second index”. The “first index” closest to the “index”, both of them, three or more “first indices” whose distance from the “second index” is within a predetermined value, and the like.
あるいは、音声認識装置が、「第2指標」と同一または近傍の「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせのうち、音声認識精度または音声認識率の「重み付け値」を最大にするものを選択してもよい。「重み付け値」は、音声認識精度または音声認識率に「第2指標」と「第1指標」との距離が小さいほど大きな重みを乗じた値である。これにより、「第2指標」と「第1指標」との距離および音声認識精度または音声認識率の両方の指標に基づいて、適切なモデルパラメータまたはモデルパラメータの組み合わせを選択できる。 Alternatively, the speech recognition apparatus maximizes the “weighting value” of the speech recognition accuracy or speech recognition rate among the model parameters or the combination of model parameters corresponding to the “first index” that is the same as or close to the “second index”. You may choose what to do. The “weighting value” is a value obtained by multiplying the voice recognition accuracy or the voice recognition rate by a larger weight as the distance between the “second index” and the “first index” is smaller. Thus, an appropriate model parameter or combination of model parameters can be selected based on both the distance between the “second index” and the “first index” and the indexes of both the speech recognition accuracy and the speech recognition rate.
また、離散的な「第1指標」およびモデルパラメータまたはモデルパラメータの組み合わせではなく、それらの補完値が用いられてもよい。すなわち音声認識装置は、「第1指標」またはその補完値と「第2指標」とが一致するかを判定し、「第2指標」に一致した「第1指標」に対応付けられたモデルパラメータもしくはモデルパラメータの組み合わせ、または「第2指標」に一致した「第1指標」の補完値に対応するモデルパラメータの補完値もしくはモデルパラメータの補完値の組み合わせを選択してもよい。言い換えると、音声認識装置は、入力音響信号に含まれる「音声成分と雑音成分との大きさの関係」を表す「第2指標」と一致する「第1指標」または「第1指標」の補完値に対応するモデルパラメータもしくはモデルパラメータの補完値またはモデルパラメータもしくはモデルパラメータの補完値の組み合わせを選択してもよい。補完方法に限定はなく、例えば、線形補完、多項式補完、スプライン補完等の公知の方法を用いることができる。 Further, not the discrete “first index” and the model parameter or the combination of model parameters, but their complementary values may be used. That is, the speech recognition apparatus determines whether the “first index” or its complementary value matches the “second index”, and the model parameter associated with the “first index” that matches the “second index”. Alternatively, a combination of model parameters, or a complementary value of a model parameter or a combination of complementary values of a model parameter corresponding to the complementary value of the “first index” that matches the “second index” may be selected. In other words, the speech recognition apparatus complements the “first index” or the “first index” that matches the “second index” representing the “relationship between the magnitudes of the speech component and the noise component” included in the input acoustic signal. A model parameter corresponding to the value or a complementary value of the model parameter or a combination of the model parameter or the complementary value of the model parameter may be selected. There is no limitation on the complementing method, and for example, known methods such as linear complementing, polynomial complementing, and spline complementing can be used.
[第1実施形態]
次に、第1実施形態を説明する。
<構成>
図1に例示するように、本形態の学習装置11は、音声信号記憶部111a、雑音信号記憶部111b、正解単語列記憶部111c、雑音付き音声信号記憶部111e、音声認識結果記憶部111f、成分調整加算部113、指標生成部114、音声認識部116、比較部117、および対応表生成部118を有する。図2に例示するように、本形態の音声認識装置12は、対応表記憶部121a、入力音響信号記憶部121b、雑音成分記憶部121c、入力部122、音声/非音声区間判別部123、指標生成部124、選択部125、および音声認識部126を有する。各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
[First Embodiment]
Next, the first embodiment will be described.
<Configuration>
As illustrated in FIG. 1, the learning device 11 of the present embodiment includes a speech
<学習処理>
図3を用いて学習装置11の処理を説明する。学習装置11は、「音声成分と雑音成分との大きさの関係(例えば、S/N比)」と、音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせ(例えば、ANN-HMM Hybridモデル音声認識装置のヒューリスティックパラメータの組み合わせ)と、が音声認識精度または音声認識率に与える影響を事前に学習する。すなわち学習装置11は、「音声成分と雑音成分との大きさの関係」を表す「第1指標」を複数種類設定し、それぞれの「音声成分と雑音成分との大きさの関係」を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせを得、それらを対応する「第1指標」に対応付けた対応表を得て出力する。
<Learning process>
The process of the learning apparatus 11 is demonstrated using FIG. The learning device 11 uses a “relationship between magnitudes of speech components and noise components (for example, S / N ratio)” and model parameters of speech recognition models or a combination of model parameters (for example, ANN-HMM Hybrid model speech recognition devices). Of heuristic parameters) and the influence of the combination on the speech recognition accuracy or speech recognition rate. In other words, the learning device 11 sets a plurality of “first indicators” representing “a relationship between the magnitudes of the speech component and the noise component”, and each has a “relationship between the sizes of the speech component and the noise component”. Correspondence table that obtains a model parameter or a combination of model parameters of a speech recognition model whose speech recognition accuracy or speech recognition rate when applied to a signal is the maximum or a predetermined value or more and associates them with the corresponding “first index” And output.
学習処理の前提として、音声信号記憶部111aに時系列の音声信号が格納され、雑音信号記憶部111bに雑音信号が格納される。音声信号は事前に静音環境で音声(例えば、発話音声)を収録することによって得られたものであってもよいし、音声合成技術によって生成されたものであってもよい。雑音信号も事前に収録されたものであってもよいし、雑音生成アルゴリズムによって生成されたもの(例えば、白色雑音)であってもよい。正解単語列記憶部111cには、音声信号記憶部111aに格納された音声信号の正解単語列が記憶される。
As a premise of the learning process, a time-series audio signal is stored in the audio
図3に例示するように、成分調整加算部113が音声信号記憶部111aおよび雑音信号記憶部111bから音声信号および雑音信号をそれぞれ読み込み、「音声成分と雑音成分との大きさの関係」がαiとなるようにこれらを加算した時系列信号である雑音付き音声信号Xiを得る。ただし、i=0,・・・,I−1であり、Iは2以上の整数である。すなわち、成分調整加算部113は、複数種類の「音声成分と雑音成分との大きさの関係」α0,・・・,αI−1で音声信号および雑音信号を加算し、複数種類の雑音付き音声信号X0,・・・,XI−1を得る。例えば、成分調整加算部113は、i=0,・・・,I−1のそれぞれについて、S/N比がαiとなるように音声信号および雑音信号を加算した雑音付き音声信号Xiを得て出力する。言い換えると、成分調整加算部113は、例えば、複数種類のS/N比α0,・・・,αI−1で音声信号および雑音信号を加算し、複数種類の雑音付き音声信号X0,・・・,XI−1を得る。例えば、α0,・・・,αI−1は互いに異なる離散値である。S/N比は、各時点でのS/N比であってもよいし、各時間区間での平均S/N比であってもよいし、全時間区間での平均S/N比であってもよい。S/N比等の「音声成分と雑音成分との大きさの関係」は、音声信号の実効値と雑音信号の実効値とから定めてもよいし、実行値に代えて平均値または最大値または絶対値から定めてもよい。例えば、(音声信号の実効値)/(雑音信号の実効値)をS/N比としてもよいし、この実行値に代えて平均値または最大値または絶対値を用いてもよい。このような雑音付き音声信号Xiの生成方法に限定はないが、例えば、成分調整加算部113は、音声信号記憶部111aから読み込んだ音声信号に、雑音信号記憶部111bから読み込んだ雑音信号にαi(ただし、i=0,・・・,I−1)に応じた係数を乗じた雑音成分Niを加えて雑音付き音声信号Xiを得る。成分調整加算部113は、雑音付き音声信号Xiを雑音付き音声信号記憶部111eに格納するとともに、雑音付き音声信号Xiと雑音成分Ni(ただし、i=0,・・・,I−1)とを指標生成部114に送る(ステップS113)。
As illustrated in FIG. 3, the component
指標生成部114は、雑音付き音声信号Xiと雑音成分Ni(ただし、i=0,・・・,I−1)を入力とし、雑音付き音声信号Xiの信号実行値と雑音成分Niの信号実行値とから、新たに「音声成分と雑音成分との大きさの関係」を表す「第1指標」riを得て出力する。例えば、指標生成部114は、雑音付き音声信号Xiの信号実行値と雑音成分Niの信号実行値とから、新たにS/N比riを得て出力する。例えば、ri=(雑音付き音声信号Xiの信号実行値−雑音成分Niの信号実行値)/(雑音成分Niの信号実行値)としてもよいし、この信号実行値に代えて平均値または最大値または絶対値を用いてもよい。雑音付き音声信号Xiと雑音成分Niとからriを求めることで、雑音付き音声信号Xiの音声区間信号と非音声区間信号とから求める「音声成分と雑音成分との大きさの関係」に近い値を得ることができる(ステップS114)。得られたriは雑音付き音声信号Xiに対応付けられて雑音付き音声信号記憶部111eに格納される(ステップS111e)。
The
モデルパラメータ設定部109は、所定の音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせを複数種類設定し、それらを音声認識部116に出力する。以下では、モデルパラメータまたはモデルパラメータの組み合わせをhmと表現する。ただし、m=0,・・・,M−1であり、Mは2以上の整数である。hmがモデルパラメータである場合、hmはパラメータ値を表すスカラであり、hmがモデルパラメータの組み合わせである場合、hmはパラメータ値を要素とするベクトルである。
The model
音声認識モデルの具体例は、ANN-HMM Hybrid音声認識装置によるデコードを表現する以下の音声認識モデルである(例えば、非特許文献2等参照)。
音声認識モデルとして、GMM-HMM音声認識装置によるデコードを表現する以下の音声認識モデルが用いられてもよい(例えば、非特許文献1等参照)。
音声認識部116は、雑音付き音声信号記憶部111eからriおよびXi(ただし、i=0,・・・,I−1)を読み込み、モデルパラメータ設定部109から送られたhm(ただし、m=0,・・・,M−1)を用いた音声認識モデルでXiの音声認識を行い、その音声認識結果である単語列を出力する。音声認識結果はすべての(i,m)の組み合わせについて得られ、得られた音声認識結果はriおよび(i,m)に対応付けられて音声認識結果記憶部111fに格納される(ステップS115)。
The
比較部117は、正解単語列記憶部111cから読み込んだ正解単語列と、音声認識結果記憶部111fから読み込んだ音声認識結果とを比較し、各(i,m)について音声認識結果の音声認識精度を求める。あるいは、比較部117は、音声認識精度に代えて各(i,m)について音声認識率を求めてもよい。得られた音声認識精度または音声認識率は、対応する(i,m)およびriとともに対応表生成部118に送られる(ステップS116)。
The
対応表生成部118は、iごとに音声認識精度または音声認識率が最大となるm(i)∈{0,・・・,M−1}を選択する。あるいは、対応表生成部118は、iごとに音声認識精度または音声認識率が所定値以上となる1個のm(i)∈{0,・・・,M−1}を選択してもよい。対応表生成部118は、riとhm(i)とを対応付けた対応表[ri,hm(i)]を生成して出力する。図5Aは、I=8、riがS/N比、hm(i)がモデルパラメータβおよびγの組み合わせである場合の対応表[ri,hm(i)]の例である(ステップS117)。対応表[ri,hm(i)]は音声認識装置12(図2)の対応表記憶部121aに格納される。
The correspondence
<音声認識処理>
図4を用いて音声認識装置12の処理を説明する。音声認識装置12は入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択する。すなわち、入力音響信号に含まれる音声成分と雑音成分との大きさの関係に対応する「第1指標」riに対応するモデルパラメータまたはモデルパラメータの組み合わせhm(i)を選択する。音声認識装置12は、選択したモデルパラメータまたはモデルパラメータの組み合わせに応じた音声認識モデルを当該入力音響信号に適用し、音声認識を行う。
<Voice recognition processing>
The process of the
まず、入力音響信号が入力部122に入力され、入力音響信号記憶部121bに格納される。入力音響信号は時系列信号であり、例えば、雑音成分が重畳された音声信号である(ステップS121)。音声/非音声区間判別部123は、入力音響信号記憶部121bから入力音響信号を読み込み、入力音響信号の音声区間と非音声区間とを判別する。この判別には、例えば、参考文献1(Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based Voice Activity Detection,” IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999.)等の周知の方法を用いる。非音声区間の信号は雑音成分として雑音成分記憶部121cに格納され、入力音響信号は指標生成部124に送られる(ステップS122)。
First, an input acoustic signal is input to the
指標生成部124は、入力音響信号、および雑音成分記憶部121cから読み込んだ非音声区間の信号を用い、「音声成分と雑音成分との大きさの関係」を表す「第2指標」uを得て出力する。音声認識処理での「音声成分と雑音成分との大きさの関係」は、前述の学習処理の「音声成分と雑音成分との大きさの関係」と同じ基準に基づくことが望ましい。すなわち、「音声成分と雑音成分との大きさの関係」として学習処理でS/N比が用いられた場合、音声認識処理でもS/N比が用いられることが望ましい。各時点でuが得られてもよいし、所定の時間区間ごとにuが得られてもよいし、入力音響信号の全時間区間に対してuが得られてもよい。入力音響信号の実効値と非音声区間の信号の実効値とから定めてもよいし、実行値に代えて平均値または最大値または絶対値から定めてもよい。例えば、u=(入力音響信号の信号実効値−非音声区間の信号の信号実効値)/(非音声区間の信号の信号実効値)としてもよいし、この信号実行値に代えて平均値または最大値または絶対値から定めてもよい。得られたuは選択部125に送られる(ステップS123)。
The
選択部125は、対応表記憶部121aに格納された対応表[ri,hm(i)]を参照し、「第2指標」uに最も近い「第1指標」riに対応するモデルパラメータまたはモデルパラメータの組み合わせhm(i)を選択する。例えば、図5Aおよび図5Bの例では、uにr2が最も近いため、r2に対応するモデルパラメータの組み合わせhm(2)=(γ5,β3)が選択される。uが隣接する2個のriの中間値である場合、uに最も近いriが2個存在することになる。このような場合には、例えば、予め定められた何れか一方のriに対応するhm(i)が選択される。なお、riは雑音付き音声信号Xiと雑音成分Niとから得られているため、入力音響信号(雑音付き音声信号に相当)と非音声区間の信号(雑音成分に相当)とから得られるuに対して適切なhm(i)を選択できる。選択されたhm(i)は音声認識部126に送られる(ステップS124)。
Selecting
音声認識部126は、送られたモデルパラメータまたはモデルパラメータの組み合わせhm(i)を用いた音声認識モデルを、入力音響信号記憶部121bから読み込んだ入力音響信号に適用して音声認識を行い、その音声認識結果を出力する(ステップS125)。
The
<本形態の特徴>
本形態では、入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択するため、入力音響信号に含まれた雑音成分に応じた適切なモデルパラメータを自動設定できる。
<Features of this embodiment>
In this embodiment, since the model parameter of the speech recognition model or the combination of model parameters of the speech recognition model is selected according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, it is included in the input acoustic signal. Appropriate model parameters can be automatically set according to noise components.
特に、ANN-HMM Hybrid音声認識では、パラメータ値の決定に関して入力音響信号に含まれる雑音成分の影響を受ける性質がある。したがって従来のGMM-HMM音声認識での雑音成分を考慮しないヒューリスティックパラメータ自動決定手法(例えば、非特許文献3参照)と同様の手法をANN-HMM Hybrid音声認識に適用することは困難であり、手動でパラメータ値を設定する必要があった。事前に入力音響信号に雑音抑圧処理を行うことも考えられるが、一般にこれらの雑音抑圧処理によって音声認識の観点から適していない歪みが音声に加わることになる。そのため、雑音成分を含む入力音響信号から直接HMM状態を判別するニューラルネットワークを学習した方が、音声認識を考慮した処理を行っている点で適していると考えられる。本形態の手法により、入力音響信号から、音声認識精度または音声認識率に対して最適なヒューリスティックパラメータを自動的に決定でき、人手による設定作業をなくし、雑音成分による音声認識精度または音声認識率の低下を防ぐことができる。
In particular, ANN-HMM Hybrid speech recognition has the property of being influenced by noise components included in the input acoustic signal when determining parameter values. Therefore, it is difficult to apply the same method to the ANN-HMM Hybrid speech recognition as the conventional heuristic parameter automatic determination method that does not consider the noise component in the conventional GMM-HMM speech recognition (see
[第2実施形態]
次に、第2実施形態を説明する。第2実施形態は第1実施形態の変形例である。本形態では、入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す「第2指標」と同一または近傍の「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせのうち、音声認識精度または音声認識率を最大にするものを選択する。以下では、これまで説明した事項との相違点を中心に説明し、すでに説明した事項については同じ参照番号を引用して説明を簡略化する。
[Second Embodiment]
Next, a second embodiment will be described. The second embodiment is a modification of the first embodiment. In the present embodiment, among the model parameters or combinations of model parameters corresponding to the “first index” that is the same as or close to the “second index” that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal Select the one that maximizes speech recognition accuracy or speech recognition rate. In the following, differences from the items described so far will be mainly described, and the items already described will be simplified by quoting the same reference numerals.
<構成>
図1に例示するように、本形態の学習装置21は、音声信号記憶部111a、雑音信号記憶部111b、正解単語列記憶部111c、雑音付き音声信号記憶部111e、音声認識結果記憶部111f、成分調整加算部113、指標生成部114、音声認識部116、比較部117、および対応表生成部218を有する。図2に例示するように、本形態の音声認識装置22は、対応表記憶部221a、入力音響信号記憶部121b、雑音成分記憶部121c、入力部122、音声/非音声区間判別部123、指標生成部124、選択部225、および音声認識部126を有する。
<Configuration>
As illustrated in FIG. 1, the learning device 21 according to the present embodiment includes a speech
<学習処理>
第1実施形態との相違点は、図3のステップS117に代えてステップS217の処理が行われる点のみである。ステップS217では、対応表生成部218が、iごとに音声認識精度または音声認識率が最大となるm(i)∈{0,・・・,M−1}を選択し、この音声認識精度または音声認識率の最大値をaiとする。あるいは、対応表生成部218は、iごとに音声認識精度または音声認識率が所定値以上となる1個のm(i)∈{0,・・・,M−1}を選択し、この音声認識精度または音声認識率をaiとする。対応表生成部118は、riとhm(i)とaiとを対応付けた対応表[ri,hm(i),ai]を生成して出力する。図5Cは、I=8、riがS/N比、hm(i)がモデルパラメータβおよびγの組み合わせ、aiが音声認識精度である場合の対応表[ri,hm(i),ai]例である(ステップS217)。対応表[ri,hm(i),ai]は音声認識装置22(図2)の対応表記憶部221aに格納される。
<Learning process>
The only difference from the first embodiment is that the process of step S217 is performed instead of step S117 of FIG. In step S217, the correspondence table generation unit 218 selects m (i) ε {0,..., M−1} that maximizes the speech recognition accuracy or speech recognition rate for each i, and this speech recognition accuracy or Let the maximum value of the speech recognition rate be a i . Alternatively, the correspondence table generation unit 218 selects one m (i) ε {0,..., M−1} for which the voice recognition accuracy or the voice recognition rate is greater than or equal to a predetermined value for each i, and this voice Let a i be the recognition accuracy or speech recognition rate. Correspondence
<音声認識処理>
第1実施形態との相違点は図4のステップS124に代えてステップS224の処理が行われる点のみである。ステップS224では、選択部225が、対応表記憶部221aに格納された対応表[ri,hm(i),ai]を参照し、「第2指標」uと同一または近傍の「第1指標」riに対応するモデルパラメータまたはモデルパラメータの組み合わせhm(i)のうち、音声認識精度または音声認識率aiを最大にするものを選択する。例えば、図5Bおよび図5Cの例で、uの近傍のriをr2,r2,r3とする場合、r2,r2,r3にそれぞれ対応するa2,a2,a3のうち最大のaiに対応するhm(i)を選択する。選択されたhm(i)は音声認識部126に送られる。なお、複数のaiが互いに同一の場合には何れに対応するhm(i)が選択されてもよい。例えば、複数のaiが互いに同一の場合には、それらのaiのうち、uに最も近いriに対応するaiに対応付けられたhm(i)が選択されてもよい(ステップS224)。
<Voice recognition processing>
The only difference from the first embodiment is that the process of step S224 is performed instead of step S124 of FIG. In step S224, the
[第2実施形態の変形例]
「第2指標」と同一または近傍の「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせのうち、音声認識精度または音声認識率の重み付け値を最大にするものを選択してもよい。ただし、「重み付け値」は、音声認識精度または音声認識率に「第2指標」と「第1指標」との距離が小さいほど大きな重みを乗じた値である。
[Modification of Second Embodiment]
Of the model parameters or combinations of model parameters corresponding to the “first index” that is the same as or close to the “second index”, the one that maximizes the weight value of the speech recognition accuracy or the speech recognition rate may be selected. However, the “weighting value” is a value obtained by multiplying the voice recognition accuracy or the voice recognition rate by a larger weight as the distance between the “second index” and the “first index” is smaller.
<構成>
図2に例示するように、本変形例の音声認識装置22’は、対応表記憶部221a、入力音響信号記憶部121b、雑音成分記憶部121c、入力部122、音声/非音声区間判別部123、指標生成部124、選択部225’、および音声認識部126を有する。
<Configuration>
As illustrated in FIG. 2, the speech recognition device 22 ′ of the present modification includes a correspondence
<学習処理>
第2実施形態と同じである。
<Learning process>
The same as in the second embodiment.
<音声認識処理>
第2実施形態との相違点は図4のステップS224に代えてステップS224’の処理が行われる点のみである。ステップS224’では、選択部225’が、対応表記憶部221aに格納された対応表[ri,hm(i),ai]を参照し、「第2指標」uと同一または近傍の「第1指標」riに対応するモデルパラメータまたはモデルパラメータの組み合わせhm(i)のうち、音声認識精度または音声認識率aiに重みciを乗じた重み付け値を最大にするものを選択する。ただし、ciは正値であり、uとriとの距離|u−ri|が小さいほど大きい。例えば、図5Bおよび図5Cの例で、uの近傍のriをr2,r2,r3とする場合、r2,r2,r3にそれぞれ対応するc1・a2,c2・aa2,c3・aa3のうち最大のci・aiに対応するhm(i)を選択する。この例では、c2>c3>c1となる。選択されたhm(i)は音声認識部126に送られる(ステップS224’)。
<Voice recognition processing>
The difference from the second embodiment is only that step S224 ′ is performed instead of step S224 in FIG. ', The selector 225' step S224 is, the correspondence table [r i, h m (i ), a i] stored in the correspondence
[第3実施形態]
次に、第3実施形態を説明する。第3実施形態は第1実施形態の変形例である。本形態では、「第2指標」と一致する「第1指標」または「第1指標」の補完値に対応するモデルパラメータもしくはモデルパラメータの補完値またはモデルパラメータもしくはモデルパラメータの補完値の組み合わせを選択する。
[Third Embodiment]
Next, a third embodiment will be described. The third embodiment is a modification of the first embodiment. In this embodiment, the model parameter or the complement value of the model parameter or the combination of the model parameter or the complement value of the model parameter corresponding to the “first index” or the complement value of the “first index” that matches the “second index” is selected. To do.
<構成>
図1に例示するように、本形態の学習装置31は、音声信号記憶部111a、雑音信号記憶部111b、正解単語列記憶部111c、雑音付き音声信号記憶部111e、音声認識結果記憶部111f、成分調整加算部113、指標生成部114、音声認識部116、比較部117、および対応表生成部318を有する。図2に例示するように、本変形例の音声認識装置32は、対応表記憶部221a、入力音響信号記憶部121b、雑音成分記憶部121c、入力部122、音声/非音声区間判別部123、指標生成部124、選択部325、および音声認識部126を有する。
<Configuration>
As illustrated in FIG. 1, the learning device 31 of the present embodiment includes a speech
<学習処理>
第1実施形態との相違点は、図3のステップS117に代えてステップS317の処理が行われる点のみである。ステップS317では、対応表生成部318が、iごとに音声認識精度または音声認識率が最大となるm(i)∈{0,・・・,M−1}(ただし、i=0,・・・,I−1)を選択する。あるいは、対応表生成部318は、iごとに音声認識精度または音声認識率が所定値以上となる1個のm(i)∈{0,・・・,M−1}を選択してもよい。さらに対応表生成部318は、r0,・・・,rI−1を線形補完等によって補完し、r0,・・・,rI−1およびそれらの補完値からなる連続値r’0,・・・,r’Z−1(ただし、ZはIよりも大きな整数)を得る。また対応表生成部318は、hm(0),・・・,hm(I−1)を線形補完等によって補完し、hm(0),・・・,hm(I−1)およびそれらの補完値からなる連続値h’m(0),・・・,h’m(Z−1)を得る。対応表生成部318は、r’zとh’m(z)とを対応付けた対応表[r’z,h’m(z)](ただし、z=0,・・・,Z−1)を生成して出力する。対応表[r’z,h’m(z)]は音声認識装置32(図2)の対応表記憶部321aに格納される。
<Learning process>
The only difference from the first embodiment is that the process of step S317 is performed instead of step S117 of FIG. In step S317, the correspondence table generation unit 318 sets m (i) ε {0,..., M−1} (where i = 0,...) That maximizes the speech recognition accuracy or the speech recognition rate for each i. ., I-1) is selected. Alternatively, the correspondence table generation unit 318 may select one m (i) ε {0,..., M−1} for which the voice recognition accuracy or the voice recognition rate is greater than or equal to a predetermined value for each i. . Further correspondence table generation unit 318, r 0, · · ·, r a I-1 supplemented by linear interpolation or the like, r 0, · · ·, r I-1 and the continuous value r consisting of complementary value '0 ,..., R ′ Z−1 (where Z is an integer greater than I). Also, the correspondence table generation unit 318 complements hm (0) ,..., Hm (I-1) by linear interpolation or the like, and hm (0) ,..., Hm (I-1). And continuous values h ′ m (0) ,..., H ′ m (Z−1) composed of their complementary values. The correspondence table generation unit 318 associates r ′ z with h ′ m (z) [r ′ z , h ′ m (z) ] (where z = 0,..., Z−1). ) Is generated and output. The correspondence table [r ′ z , h ′ m (z) ] is stored in the correspondence
<音声認識処理>
第1実施形態との相違点は、図4のステップS124に代えてステップS324の処理が行われる点のみである。ステップS324では、選択部325は、対応表記憶部121aに格納された対応表[r’z,h’m(z)]を参照し、入力されたuと一致するr’zに対応付けられたモデルパラメータもしくはモデルパラメータの組み合わせまたはその補完値h’m(z)を選択する。選択されたh’m(z)は音声認識部126に送られる(ステップS324)。以降の処理は、hm(i)に代えてh’m(z)が用いられる以外、第1実施形態と同じである。
<Voice recognition processing>
The only difference from the first embodiment is that the process of step S324 is performed instead of step S124 of FIG. In step S324, the
[第3実施形態の変形例]
第1実施形態の学習処理によって生成された対応表[ri,hm(i)]を用い、音声認識処理時に対応表[ri,hm(i)]を補完した対応表[r’z,h’m(z)]を生成し、ステップS324の処理が実行されてもよい。
[Modification of Third Embodiment]
Correspondence table generated by the learning process of the first embodiment [r i, h m (i )] was used, the correspondence table during the speech recognition process [r i, h m (i )] correspondence table complements [r ' z , h ′ m (z) ] may be generated, and the process of step S324 may be executed.
[その他の変形例等]
なお、本発明は上述の実施の形態に限定されるものではない。例えば、各装置がネットワークを通じて情報をやり取りするのではなく、少なくとも一部の組の装置が可搬型記録媒体を介して情報をやり取りしてもよい。或いは、少なくとも一部の組の装置が非可搬型の記録媒体を介して情報をやり取りしてもよい。すなわち、これらの装置の一部からなる組み合わせが、同一の装置であってもよい。
[Other variations]
The present invention is not limited to the embodiment described above. For example, instead of each device exchanging information via a network, at least some of the devices may exchange information via a portable recording medium. Alternatively, at least some of the devices may exchange information via a non-portable recording medium. That is, the combination which consists of a part of these apparatuses may be the same apparatus.
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。 When the above configuration is realized by a computer, the processing contents of the functions that each device should have are described by a program. By executing this program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads a program stored in its own recording device and executes a process according to the read program. As another execution form of the program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer. The processing according to the received program may be executed sequentially. The above-described processing may be executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. Good.
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。 In the above embodiment, the processing functions of the apparatus are realized by executing a predetermined program on a computer. However, at least a part of these processing functions may be realized by hardware.
学習装置 11,21,31
音声認識装置 12,22,22’,32
Learning device 11, 21, 31
Claims (5)
音声成分と雑音成分との大きさの関係を表す第1指標と、前記第1指標が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておき、
前記入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す第2指標と同一または近傍の前記第1指標に対応する前記モデルパラメータまたはモデルパラメータの組み合わせのうち、前記音声認識精度または音声認識率を最大にするものを選択する、音声認識装置。 A model parameter of the speech recognition model or a combination of model parameters of the speech recognition model is selected according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, and the selected model parameter or the combination of model parameters is selected. A speech recognition apparatus that applies the speech recognition model according to the method to the input acoustic signal ,
A voice having a maximum voice recognition rate or a voice recognition rate equal to or greater than a predetermined value when applied to an acoustic signal having a relationship represented by the first index and the first index representing the magnitude relationship between a voice component and a noise component The model parameter or combination of model parameters of the recognition model is associated with
Among the model parameters or combinations of model parameters corresponding to the first index that is the same as or close to the second index that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, the speech recognition accuracy Or a speech recognition device that selects the one that maximizes the speech recognition rate.
音声成分と雑音成分との大きさの関係を表す第1指標と、前記第1指標が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておき、
前記入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す第2指標と同一または近傍の前記第1指標に対応する前記モデルパラメータまたはモデルパラメータの組み合わせのうち、前記音声認識精度または音声認識率の重み付け値を最大にするものを選択し、
前記重み付け値は、前記音声認識精度または音声認識率に前記第2指標と前記第1指標との距離が小さいほど大きな重みを乗じた値である、音声認識装置。 A model parameter of the speech recognition model or a combination of model parameters of the speech recognition model is selected according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, and the selected model parameter or the combination of model parameters is selected. A speech recognition apparatus that applies the speech recognition model according to the method to the input acoustic signal,
A voice having a maximum voice recognition rate or a voice recognition rate equal to or greater than a predetermined value when applied to an acoustic signal having a relationship represented by the first index and the first index representing the magnitude relationship between a voice component and a noise component The model parameter or combination of model parameters of the recognition model is associated with
Among the model parameters or combinations of model parameters corresponding to the first index that is the same as or close to the second index that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, the speech recognition accuracy Or select the one that maximizes the weight of the speech recognition rate,
The weight recognition value is a voice recognition device, which is a value obtained by multiplying the voice recognition accuracy or the voice recognition rate by a larger weight as the distance between the second index and the first index is smaller.
音声成分と雑音成分との大きさの関係を表す第1指標と、前記第1指標が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておき、
前記入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す第2指標と同一または近傍の前記第1指標に対応する前記モデルパラメータまたはモデルパラメータの組み合わせのうち、前記音声認識精度または音声認識率を最大にするものを選択する、音声認識方法。 A model parameter of the speech recognition model or a combination of model parameters of the speech recognition model is selected according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, and the selected model parameter or the combination of model parameters is selected. A speech recognition method that applies the speech recognition model according to the method to the input acoustic signal ,
A voice having a maximum voice recognition rate or a voice recognition rate equal to or greater than a predetermined value when applied to an acoustic signal having a relationship represented by the first index and the first index representing the magnitude relationship between a voice component and a noise component The model parameter or combination of model parameters of the recognition model is associated with
Among the model parameters or combinations of model parameters corresponding to the first index that is the same as or close to the second index that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, the speech recognition accuracy Or a speech recognition method that selects the one that maximizes the speech recognition rate.
音声成分と雑音成分との大きさの関係を表す第1指標と、前記第1指標が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておき、 A voice having a maximum voice recognition rate or a voice recognition rate equal to or greater than a predetermined value when applied to an acoustic signal having a relationship represented by the first index and the first index representing the magnitude relationship between a voice component and a noise component The model parameter or combination of model parameters of the recognition model is associated with
前記入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す第2指標と同一または近傍の前記第1指標に対応する前記モデルパラメータまたはモデルパラメータの組み合わせのうち、前記音声認識精度または音声認識率の重み付け値を最大にするものを選択し、 Among the model parameters or combinations of model parameters corresponding to the first index that is the same as or close to the second index that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, the speech recognition accuracy Or select the one that maximizes the weight of the speech recognition rate,
前記重み付け値は、前記音声認識精度または音声認識率に前記第2指標と前記第1指標との距離が小さいほど大きな重みを乗じた値である、音声認識方法。 The speech recognition method, wherein the weighting value is a value obtained by multiplying the speech recognition accuracy or speech recognition rate by a greater weight as the distance between the second index and the first index is smaller.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015074838A JP6466762B2 (en) | 2015-04-01 | 2015-04-01 | Speech recognition apparatus, speech recognition method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015074838A JP6466762B2 (en) | 2015-04-01 | 2015-04-01 | Speech recognition apparatus, speech recognition method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016194628A JP2016194628A (en) | 2016-11-17 |
JP6466762B2 true JP6466762B2 (en) | 2019-02-06 |
Family
ID=57323141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015074838A Active JP6466762B2 (en) | 2015-04-01 | 2015-04-01 | Speech recognition apparatus, speech recognition method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6466762B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6794809B2 (en) * | 2016-12-07 | 2020-12-02 | 富士通株式会社 | Voice processing device, voice processing program and voice processing method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6242198A (en) * | 1985-08-20 | 1987-02-24 | 松下電器産業株式会社 | Voice recognition equipment |
JPH03276196A (en) * | 1990-03-27 | 1991-12-06 | Matsushita Refrig Co Ltd | Speech recognizing system |
JP2001272994A (en) * | 2000-03-27 | 2001-10-05 | Ricoh Co Ltd | Device and method for study, device and method for recognizing pattern, and recording medium |
JP4858663B2 (en) * | 2001-06-08 | 2012-01-18 | 日本電気株式会社 | Speech recognition method and speech recognition apparatus |
JP2008501991A (en) * | 2004-06-04 | 2008-01-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Performance prediction for interactive speech recognition systems. |
JP2007233308A (en) * | 2006-03-03 | 2007-09-13 | Mitsubishi Electric Corp | Speech recognition device |
-
2015
- 2015-04-01 JP JP2015074838A patent/JP6466762B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016194628A (en) | 2016-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891944B2 (en) | Adaptive and compensatory speech recognition methods and devices | |
CN106328127B (en) | Speech recognition apparatus, speech recognition method, and electronic device | |
JP6415705B2 (en) | Method for converting a noisy audio signal into an enhanced audio signal | |
US9767790B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
US20120130716A1 (en) | Speech recognition method for robot | |
JP2018109947A (en) | Device and method for increasing processing speed of neural network, and application of the same | |
WO2022079848A1 (en) | Hyper-parameter optimization system, method, and program | |
JP5150542B2 (en) | Pattern recognition apparatus, pattern recognition method, and program | |
WO2019198306A1 (en) | Estimation device, learning device, estimation method, learning method, and program | |
JP2008203469A (en) | Speech recognition device and method | |
JP6543820B2 (en) | Voice conversion method and voice conversion apparatus | |
JP5994639B2 (en) | Sound section detection device, sound section detection method, and sound section detection program | |
JP6466762B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
WO2012105385A1 (en) | Sound segment classification device, sound segment classification method, and sound segment classification program | |
WO2020071213A1 (en) | Acoustic model learning device, voice synthesis device, and program | |
JP6216809B2 (en) | Parameter adjustment system, parameter adjustment method, program | |
JP6647475B2 (en) | Language processing apparatus, language processing system, and language processing method | |
JP7109071B2 (en) | Learning device, learning method, speech synthesizer, speech synthesis method and program | |
JP5914119B2 (en) | Acoustic model performance evaluation apparatus, method and program | |
JP6082657B2 (en) | Pose assignment model selection device, pose assignment device, method and program thereof | |
JP2019079102A (en) | Learning device, generation device, classification device, learning method, learning program, and operation program | |
JP7231181B2 (en) | NOISE-RESISTANT SPEECH RECOGNITION APPARATUS AND METHOD, AND COMPUTER PROGRAM | |
JP6067760B2 (en) | Parameter determining apparatus, parameter determining method, and program | |
JP7205635B2 (en) | Audio signal processing device, audio signal processing method, audio signal processing program, learning device, learning method and learning program | |
JP2007249050A (en) | Language model generating device, language model generating method, program thereof, and recording medium thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180612 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6466762 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |