JP6466762B2 - Speech recognition apparatus, speech recognition method, and program - Google Patents

Speech recognition apparatus, speech recognition method, and program Download PDF

Info

Publication number
JP6466762B2
JP6466762B2 JP2015074838A JP2015074838A JP6466762B2 JP 6466762 B2 JP6466762 B2 JP 6466762B2 JP 2015074838 A JP2015074838 A JP 2015074838A JP 2015074838 A JP2015074838 A JP 2015074838A JP 6466762 B2 JP6466762 B2 JP 6466762B2
Authority
JP
Japan
Prior art keywords
speech recognition
model
index
speech
acoustic signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015074838A
Other languages
Japanese (ja)
Other versions
JP2016194628A (en
Inventor
祐太 河内
祐太 河内
浩和 政瀧
浩和 政瀧
太一 浅見
太一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015074838A priority Critical patent/JP6466762B2/en
Publication of JP2016194628A publication Critical patent/JP2016194628A/en
Application granted granted Critical
Publication of JP6466762B2 publication Critical patent/JP6466762B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識モデルのパラメータを自動的に決定し、それを用いて音声認識を行う技術に関する。   The present invention relates to a technology for automatically determining parameters of a speech recognition model and performing speech recognition using the parameters.

GMM-HMM音声認識装置によるデコードを表現する音声認識モデルは1個の言語重みパラメータ(モデルパラメータ)を含む。このモデルパラメータは経験則的パラメータ(ヒューリスティックパラメータ)であり、実用上、このパラメータ値を設定する必要がある(例えば、非特許文献1等参照)。また、音響モデルとして混合正規分布の代わりにニューラルネットワークを用いることでGMM-HMM音声認識装置より多くの入力情報を扱うことのできるANN-HMM Hybrid音声認識装置が知られている。ANN-HMM Hybrid音声認識装置によるデコードを表現する音声認識モデルは2個のヒューリスティックパラメータを含み、これらのパラメータ値を設定する必要がある(例えば、非特許文献2等参照)。   The speech recognition model expressing the decoding by the GMM-HMM speech recognition device includes one language weight parameter (model parameter). This model parameter is an empirical parameter (heuristic parameter), and it is necessary to set this parameter value for practical use (see, for example, Non-Patent Document 1). Also, an ANN-HMM Hybrid speech recognition device is known that can handle more input information than a GMM-HMM speech recognition device by using a neural network instead of a mixed normal distribution as an acoustic model. The speech recognition model expressing the decoding by the ANN-HMM Hybrid speech recognition device includes two heuristic parameters, and these parameter values need to be set (see, for example, Non-Patent Document 2).

また、GMM-HMM音声認識装置におけるヒューリスティックパラメータを自動的に設定する従来方法として、非特許文献3に記載された方法がある。   Further, as a conventional method for automatically setting heuristic parameters in the GMM-HMM speech recognition apparatus, there is a method described in Non-Patent Document 3.

鹿野清宏,伊藤克亘,河原達也,山本幹雄,“IT Text 音声認識システム”, オーム社(2001): 104-105.Kiyohiro Shikano, Katsunobu Ito, Tatsuya Kawahara, Mikio Yamamoto, “IT Text Speech Recognition System”, Ohmsha (2001): 104-105. Dahl, George E., et al, “Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition,” Audio, Speech, and Language Processing, IEEE Transactions on 20.1 (2012): 30-42.Dahl, George E., et al, “Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition,” Audio, Speech, and Language Processing, IEEE Transactions on 20.1 (2012): 30-42. Mak, Brian, and Tom Ko, “Min-max discriminative training of decoding parameters using iterative linear programming,” INTERSPEECH, 2008.Mak, Brian, and Tom Ko, “Min-max discriminative training of decoding parameters using iterative linear programming,” INTERSPEECH, 2008.

しかしながら、非特許文献3の方法では、入力音響信号に含まれる雑音成分を考慮することなくパラメータ値の設定が行われる。そのため、雑音成分に応じて適切なパラメータ値が異なる音声認識モデルの場合には、雑音成分の影響で音声認識精度または音声認識率が低下する場合がある。事前に入力音響信号に雑音抑圧処理を行うことも考えられるが、雑音抑圧処理によって音声認識の観点から不適切な歪みが加えられる可能性がある。   However, in the method of Non-Patent Document 3, the parameter value is set without considering the noise component included in the input acoustic signal. Therefore, in the case of a speech recognition model in which appropriate parameter values differ depending on the noise component, the speech recognition accuracy or speech recognition rate may be reduced due to the influence of the noise component. Although it is conceivable to perform noise suppression processing on the input acoustic signal in advance, noise distortion processing may add inappropriate distortion from the viewpoint of speech recognition.

本発明の課題は、入力音響信号に含まれた雑音成分に応じた適切なモデルパラメータを自動設定することである。   An object of the present invention is to automatically set an appropriate model parameter according to a noise component included in an input acoustic signal.

入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択し、選択したモデルパラメータまたはモデルパラメータの組み合わせに応じた音声認識モデルを入力音響信号に適用する。   Select the model parameter of the speech recognition model or the combination of model parameters of the speech recognition model according to the relationship between the magnitude of the speech component and noise component contained in the input acoustic signal, and according to the selected model parameter or combination of model parameters Apply the speech recognition model to the input acoustic signal.

これにより、入力音響信号に含まれた雑音成分に応じた適切なモデルパラメータを自動設定できる。   Thereby, an appropriate model parameter according to the noise component contained in the input acoustic signal can be automatically set.

図1は、実施形態の学習装置の機能構成を例示したブロック図である。FIG. 1 is a block diagram illustrating a functional configuration of the learning device according to the embodiment. 図2は、実施形態の音声認識装置の機能構成を例示したブロック図である。FIG. 2 is a block diagram illustrating a functional configuration of the speech recognition apparatus according to the embodiment. 図3は、実施形態の対応表生成処理を例示するためのフロー図である。FIG. 3 is a flowchart for illustrating the correspondence table generation processing according to the embodiment. 図4は、実施形態の音声認識処理を例示するためのフロー図である。FIG. 4 is a flowchart for illustrating the speech recognition processing according to the embodiment. 図5A,5Cは実施形態の対応表を例示するための図であり、図5Bは対応表のS/N比と入力音響信号のS/N比との対応関係を例示するための図である。5A and 5C are diagrams for illustrating the correspondence table of the embodiment, and FIG. 5B is a diagram for illustrating the correspondence relationship between the S / N ratio of the correspondence table and the S / N ratio of the input acoustic signal. .

以下、本発明の実施形態を説明する。
[概要]
まず、実施形態の概要を説明する。
各実施形態では、音声認識装置が、音声認識対象となる「入力音響信号」に含まれる「音声成分」と「雑音成分」との関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択し、選択したモデルパラメータまたはモデルパラメータの組み合わせに応じた音声認識モデルを当該入力音響信号に適用する。「音声成分と雑音成分との関係」に応じてモデルパラメータを選択することで、「雑音成分」に応じて適切なパラメータ値が異なる音声認識モデルであっても、適切なモデルパラメータを自動設定できる。「音声成分と雑音成分との大きさの関係」は、例えば、「音声成分」の大きさと「雑音成分」の大きさとの間の相対値または相対値の関数値である。「音声成分と雑音成分との大きさの関係」は、例えば、「雑音成分」の大きさに対する「音声成分」の大きさの比(S/N比)であってもよいし、「音声成分」の大きさに対する「雑音成分」の大きさの比であってもよいし、「音声成分」および「雑音成分」を含む「音響信号」の大きさに対する「雑音成分」の大きさの比であってもよいし、「音響信号」の大きさに対する「音声成分」の大きさの比であってもよいし、「音響信号」の大きさから「音声成分」の大きさを減じた値であってもよいし、「音響信号」の大きさから「雑音成分」の大きさを減じた値であってもよいし、そのような比または値の関数値であってもよい。「音声認識モデル」の具体例は、GMM-HMM音声認識装置によるデコードを表現する音声認識モデルであってもよいし(例えば、非特許文献1等参照)、ANN-HMM Hybrid音声認識装置によるデコードを表現する音声認識モデルであってもよいし(例えば、非特許文献2等参照)、その他の音声認識モデルであってもよい。「モデルパラメータ」は、例えば「ヒューリスティックパラメータ」である。ただし、「モデルパラメータ」の少なくとも一部が「ヒューリスティックパラメータ」以外のパラメータであってもよい。
Embodiments of the present invention will be described below.
[Overview]
First, an outline of the embodiment will be described.
In each embodiment, the speech recognition apparatus determines whether the speech recognition model model parameter or the speech recognition model model corresponds to the relationship between the “speech component” and the “noise component” included in the “input acoustic signal” to be speech recognition target. A combination of parameters is selected and a speech recognition model corresponding to the selected model parameter or combination of model parameters is applied to the input acoustic signal. By selecting model parameters according to the “relation between speech and noise components”, appropriate model parameters can be automatically set even for speech recognition models with different appropriate parameter values according to “noise components”. . The “relationship between the size of the speech component and the noise component” is, for example, a relative value between the size of the “speech component” and the size of the “noise component” or a function value of the relative value. The “relationship between the size of the speech component and the noise component” may be, for example, a ratio (S / N ratio) of the size of the “sound component” to the size of the “noise component”. The ratio of the size of the “noise component” to the size of the “noise component” may be the ratio of the “noise component” to the size of the “acoustic signal” including the “voice component” and the “noise component”. It may be the ratio of the size of the “sound component” to the size of the “acoustic signal”, or a value obtained by subtracting the size of the “sound component” from the size of the “acoustic signal”. It may be a value obtained by subtracting the magnitude of the “noise component” from the magnitude of the “acoustic signal”, or may be a function value of such a ratio or value. A specific example of the “speech recognition model” may be a speech recognition model that expresses decoding by the GMM-HMM speech recognition device (see, for example, Non-Patent Document 1), or decoding by the ANN-HMM Hybrid speech recognition device. (For example, refer to Non-Patent Document 2 etc.) or other speech recognition models. The “model parameter” is, for example, a “heuristic parameter”. However, at least a part of the “model parameter” may be a parameter other than the “heuristic parameter”.

各実施形態では、「音声成分と雑音成分との大きさの関係」を表す「第1指標」と、「第1指標」が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておく。音声認識装置は、「入力音響信号」に含まれる「音声成分と雑音成分との大きさの関係」に対応する「第1指標」に対応付けられたモデルパラメータまたはモデルパラメータの組み合わせを選択し、選択したモデルパラメータまたはモデルパラメータの組み合わせを用いた音声認識モデルを当該「入力音響信号」に適用する。これにより、「音声成分と雑音成分との大きさの関係」に応じ、高い音声認識精度または音声認識率を実現できる。なお「第1指標」の例は、上述の「音声成分と雑音成分との大きさの関係」の例を表す指標であり、例えば、S/N比を表す値である。   In each embodiment, speech recognition accuracy or speech recognition when applied to an acoustic signal having a relationship represented by “first index” and “first index” representing “a relationship between the magnitudes of speech components and noise components” A model parameter or a combination of model parameters of a speech recognition model having a maximum rate or a predetermined value or more is associated with the rate. The speech recognition apparatus selects a model parameter or a combination of model parameters associated with the “first index” corresponding to “a relationship between the magnitudes of the speech component and the noise component” included in the “input acoustic signal”, A speech recognition model using the selected model parameter or a combination of model parameters is applied to the “input acoustic signal”. Accordingly, high speech recognition accuracy or speech recognition rate can be realized in accordance with the “relationship between the magnitudes of the speech component and the noise component”. The example of the “first index” is an index that represents the above-described example of “the relationship between the magnitudes of the voice component and the noise component”, and is, for example, a value that represents the S / N ratio.

より具体的には、音声認識装置は、「入力音響信号」に含まれる「音声成分と雑音成分との大きさの関係」を表す「第2指標」に最も近い「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせを選択する。これにより、「第2指標」に一致する「第1指標」が存在しない場合であっても、高い音声認識精度または音声認識率を実現可能なモデルパラメータまたはモデルパラメータの組み合わせを選択できる。   More specifically, the speech recognition apparatus corresponds to the “first index” that is closest to the “second index” that represents “the relationship between the magnitudes of the speech component and the noise component” included in the “input acoustic signal”. Select model parameters or model parameter combinations. As a result, even when there is no “first index” that matches the “second index”, it is possible to select a model parameter or a combination of model parameters that can realize high speech recognition accuracy or speech recognition rate.

あるいは、音声認識装置が、「第2指標」と同一または近傍の「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせのうち、音声認識精度または音声認識率を最大にするものを選択してもよい。「第2指標の近傍の第1指標」とは、「第2指標」からの距離が所定の範囲内にある「第1指標」を意味する。「第2指標の近傍の第1指標」が1個のみ存在していてもよいし、2個存在していてもよいし、3個以上存在していてもよい。「第2指標の近傍の第1指標」の例は、「第2指標」よりも大きく当該「第2指標」に最も近い「第1指標」、「第2指標」よりも小さく当該「第2指標」に最も近い「第1指標」、それら両方、「第2指標」との距離が所定値以内の3個以上の「第1指標」などである。   Alternatively, the speech recognition apparatus selects a model parameter or a combination of model parameters corresponding to the “first index” that is the same as or close to the “second index” and that maximizes the speech recognition accuracy or the speech recognition rate. May be. The “first index in the vicinity of the second index” means a “first index” whose distance from the “second index” is within a predetermined range. There may be only one “first index in the vicinity of the second index”, two, or three or more. Examples of the “first index in the vicinity of the second index” are the “second index” that is larger than the “second index” and closest to the “second index”, and smaller than the “second index”. The “first index” closest to the “index”, both of them, three or more “first indices” whose distance from the “second index” is within a predetermined value, and the like.

あるいは、音声認識装置が、「第2指標」と同一または近傍の「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせのうち、音声認識精度または音声認識率の「重み付け値」を最大にするものを選択してもよい。「重み付け値」は、音声認識精度または音声認識率に「第2指標」と「第1指標」との距離が小さいほど大きな重みを乗じた値である。これにより、「第2指標」と「第1指標」との距離および音声認識精度または音声認識率の両方の指標に基づいて、適切なモデルパラメータまたはモデルパラメータの組み合わせを選択できる。   Alternatively, the speech recognition apparatus maximizes the “weighting value” of the speech recognition accuracy or speech recognition rate among the model parameters or the combination of model parameters corresponding to the “first index” that is the same as or close to the “second index”. You may choose what to do. The “weighting value” is a value obtained by multiplying the voice recognition accuracy or the voice recognition rate by a larger weight as the distance between the “second index” and the “first index” is smaller. Thus, an appropriate model parameter or combination of model parameters can be selected based on both the distance between the “second index” and the “first index” and the indexes of both the speech recognition accuracy and the speech recognition rate.

また、離散的な「第1指標」およびモデルパラメータまたはモデルパラメータの組み合わせではなく、それらの補完値が用いられてもよい。すなわち音声認識装置は、「第1指標」またはその補完値と「第2指標」とが一致するかを判定し、「第2指標」に一致した「第1指標」に対応付けられたモデルパラメータもしくはモデルパラメータの組み合わせ、または「第2指標」に一致した「第1指標」の補完値に対応するモデルパラメータの補完値もしくはモデルパラメータの補完値の組み合わせを選択してもよい。言い換えると、音声認識装置は、入力音響信号に含まれる「音声成分と雑音成分との大きさの関係」を表す「第2指標」と一致する「第1指標」または「第1指標」の補完値に対応するモデルパラメータもしくはモデルパラメータの補完値またはモデルパラメータもしくはモデルパラメータの補完値の組み合わせを選択してもよい。補完方法に限定はなく、例えば、線形補完、多項式補完、スプライン補完等の公知の方法を用いることができる。   Further, not the discrete “first index” and the model parameter or the combination of model parameters, but their complementary values may be used. That is, the speech recognition apparatus determines whether the “first index” or its complementary value matches the “second index”, and the model parameter associated with the “first index” that matches the “second index”. Alternatively, a combination of model parameters, or a complementary value of a model parameter or a combination of complementary values of a model parameter corresponding to the complementary value of the “first index” that matches the “second index” may be selected. In other words, the speech recognition apparatus complements the “first index” or the “first index” that matches the “second index” representing the “relationship between the magnitudes of the speech component and the noise component” included in the input acoustic signal. A model parameter corresponding to the value or a complementary value of the model parameter or a combination of the model parameter or the complementary value of the model parameter may be selected. There is no limitation on the complementing method, and for example, known methods such as linear complementing, polynomial complementing, and spline complementing can be used.

[第1実施形態]
次に、第1実施形態を説明する。
<構成>
図1に例示するように、本形態の学習装置11は、音声信号記憶部111a、雑音信号記憶部111b、正解単語列記憶部111c、雑音付き音声信号記憶部111e、音声認識結果記憶部111f、成分調整加算部113、指標生成部114、音声認識部116、比較部117、および対応表生成部118を有する。図2に例示するように、本形態の音声認識装置12は、対応表記憶部121a、入力音響信号記憶部121b、雑音成分記憶部121c、入力部122、音声/非音声区間判別部123、指標生成部124、選択部125、および音声認識部126を有する。各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
[First Embodiment]
Next, the first embodiment will be described.
<Configuration>
As illustrated in FIG. 1, the learning device 11 of the present embodiment includes a speech signal storage unit 111a, a noise signal storage unit 111b, a correct word string storage unit 111c, a noise-added speech signal storage unit 111e, a speech recognition result storage unit 111f, The component adjustment adding unit 113, the index generating unit 114, the voice recognizing unit 116, the comparing unit 117, and the correspondence table generating unit 118 are included. As illustrated in FIG. 2, the speech recognition apparatus 12 according to the present exemplary embodiment includes a correspondence table storage unit 121a, an input acoustic signal storage unit 121b, a noise component storage unit 121c, an input unit 122, a speech / non-speech segment determination unit 123, an index. A generation unit 124, a selection unit 125, and a voice recognition unit 126 are included. Each device is, for example, a general-purpose or dedicated computer provided with a processor (hardware processor) such as a CPU (central processing unit) and a memory such as RAM (random-access memory) and ROM (read-only memory). It is configured by executing the program. The computer may include a single processor and memory, or may include a plurality of processors and memory. This program may be installed in a computer, or may be recorded in a ROM or the like in advance. In addition, some or all of the processing units are configured using an electronic circuit that realizes a processing function without using a program, instead of an electronic circuit (circuitry) that realizes a functional configuration by reading a program like a CPU. May be. In addition, an electronic circuit constituting one device may include a plurality of CPUs.

<学習処理>
図3を用いて学習装置11の処理を説明する。学習装置11は、「音声成分と雑音成分との大きさの関係(例えば、S/N比)」と、音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせ(例えば、ANN-HMM Hybridモデル音声認識装置のヒューリスティックパラメータの組み合わせ)と、が音声認識精度または音声認識率に与える影響を事前に学習する。すなわち学習装置11は、「音声成分と雑音成分との大きさの関係」を表す「第1指標」を複数種類設定し、それぞれの「音声成分と雑音成分との大きさの関係」を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせを得、それらを対応する「第1指標」に対応付けた対応表を得て出力する。
<Learning process>
The process of the learning apparatus 11 is demonstrated using FIG. The learning device 11 uses a “relationship between magnitudes of speech components and noise components (for example, S / N ratio)” and model parameters of speech recognition models or a combination of model parameters (for example, ANN-HMM Hybrid model speech recognition devices). Of heuristic parameters) and the influence of the combination on the speech recognition accuracy or speech recognition rate. In other words, the learning device 11 sets a plurality of “first indicators” representing “a relationship between the magnitudes of the speech component and the noise component”, and each has a “relationship between the sizes of the speech component and the noise component”. Correspondence table that obtains a model parameter or a combination of model parameters of a speech recognition model whose speech recognition accuracy or speech recognition rate when applied to a signal is the maximum or a predetermined value or more and associates them with the corresponding “first index” And output.

学習処理の前提として、音声信号記憶部111aに時系列の音声信号が格納され、雑音信号記憶部111bに雑音信号が格納される。音声信号は事前に静音環境で音声(例えば、発話音声)を収録することによって得られたものであってもよいし、音声合成技術によって生成されたものであってもよい。雑音信号も事前に収録されたものであってもよいし、雑音生成アルゴリズムによって生成されたもの(例えば、白色雑音)であってもよい。正解単語列記憶部111cには、音声信号記憶部111aに格納された音声信号の正解単語列が記憶される。   As a premise of the learning process, a time-series audio signal is stored in the audio signal storage unit 111a, and a noise signal is stored in the noise signal storage unit 111b. The voice signal may be obtained by recording voice (for example, speech voice) in a silent environment in advance, or may be generated by a voice synthesis technique. The noise signal may be recorded in advance, or may be generated by a noise generation algorithm (for example, white noise). The correct word string storage unit 111c stores a correct word string of the audio signal stored in the audio signal storage unit 111a.

図3に例示するように、成分調整加算部113が音声信号記憶部111aおよび雑音信号記憶部111bから音声信号および雑音信号をそれぞれ読み込み、「音声成分と雑音成分との大きさの関係」がαとなるようにこれらを加算した時系列信号である雑音付き音声信号Xを得る。ただし、i=0,・・・,I−1であり、Iは2以上の整数である。すなわち、成分調整加算部113は、複数種類の「音声成分と雑音成分との大きさの関係」α,・・・,αI−1で音声信号および雑音信号を加算し、複数種類の雑音付き音声信号X,・・・,XI−1を得る。例えば、成分調整加算部113は、i=0,・・・,I−1のそれぞれについて、S/N比がαとなるように音声信号および雑音信号を加算した雑音付き音声信号Xを得て出力する。言い換えると、成分調整加算部113は、例えば、複数種類のS/N比α,・・・,αI−1で音声信号および雑音信号を加算し、複数種類の雑音付き音声信号X,・・・,XI−1を得る。例えば、α,・・・,αI−1は互いに異なる離散値である。S/N比は、各時点でのS/N比であってもよいし、各時間区間での平均S/N比であってもよいし、全時間区間での平均S/N比であってもよい。S/N比等の「音声成分と雑音成分との大きさの関係」は、音声信号の実効値と雑音信号の実効値とから定めてもよいし、実行値に代えて平均値または最大値または絶対値から定めてもよい。例えば、(音声信号の実効値)/(雑音信号の実効値)をS/N比としてもよいし、この実行値に代えて平均値または最大値または絶対値を用いてもよい。このような雑音付き音声信号Xの生成方法に限定はないが、例えば、成分調整加算部113は、音声信号記憶部111aから読み込んだ音声信号に、雑音信号記憶部111bから読み込んだ雑音信号にα(ただし、i=0,・・・,I−1)に応じた係数を乗じた雑音成分Nを加えて雑音付き音声信号Xを得る。成分調整加算部113は、雑音付き音声信号Xを雑音付き音声信号記憶部111eに格納するとともに、雑音付き音声信号Xと雑音成分N(ただし、i=0,・・・,I−1)とを指標生成部114に送る(ステップS113)。 As illustrated in FIG. 3, the component adjustment adding unit 113 reads the audio signal and the noise signal from the audio signal storage unit 111a and the noise signal storage unit 111b, respectively, and “the relationship between the magnitudes of the audio component and the noise component” is α as a i obtain noise with audio signal X i is a time-series signal by adding them. However, i = 0,..., I-1, and I is an integer of 2 or more. That is, component adjustment adder 113, a plurality of types of "size of the relationship between speech and noise components" alpha 0, · · ·, adds the audio signals and noise signals in alpha I-1, a plurality of types of noise Accompanying audio signals X 0 ,..., X I-1 are obtained. For example, the component adjustment adding unit 113 adds the audio signal X i with noise obtained by adding the audio signal and the noise signal so that the S / N ratio is α i for each of i = 0,. Output. In other words, the component adjustment adding unit 113 adds a sound signal and a noise signal with a plurality of types of S / N ratios α 0 ,..., Α I−1 , for example, and adds a plurality of types of sound signals with noise X 0 ,. ..., X I-1 is obtained. For example, α 0 ,..., Α I-1 are discrete values different from each other. The S / N ratio may be an S / N ratio at each time point, an average S / N ratio in each time interval, or an average S / N ratio in all time intervals. May be. The “relationship between the magnitude of the audio component and the noise component” such as the S / N ratio may be determined from the effective value of the audio signal and the effective value of the noise signal, or an average value or maximum value instead of the effective value. Or you may determine from an absolute value. For example, (the effective value of the audio signal) / (the effective value of the noise signal) may be used as the S / N ratio, or an average value, a maximum value, or an absolute value may be used instead of the effective value. There is no limitation on the generation method of such a noise-added audio signal X i . For example, the component adjustment adder 113 converts the noise signal read from the noise signal storage unit 111 b into the noise signal read from the audio signal storage unit 111 a. A noise component N i multiplied by a coefficient corresponding to α i (where i = 0,..., I−1) is added to obtain a speech signal X i with noise. The component adjustment adding unit 113 stores the noise-added audio signal X i in the noise-added audio signal storage unit 111e, and also includes the noise-added audio signal X i and the noise component N i (where i = 0,..., I− 1) is sent to the index generation unit 114 (step S113).

指標生成部114は、雑音付き音声信号Xと雑音成分N(ただし、i=0,・・・,I−1)を入力とし、雑音付き音声信号Xの信号実行値と雑音成分Nの信号実行値とから、新たに「音声成分と雑音成分との大きさの関係」を表す「第1指標」rを得て出力する。例えば、指標生成部114は、雑音付き音声信号Xの信号実行値と雑音成分Nの信号実行値とから、新たにS/N比rを得て出力する。例えば、r=(雑音付き音声信号Xの信号実行値−雑音成分Nの信号実行値)/(雑音成分Nの信号実行値)としてもよいし、この信号実行値に代えて平均値または最大値または絶対値を用いてもよい。雑音付き音声信号Xと雑音成分Nとからrを求めることで、雑音付き音声信号Xの音声区間信号と非音声区間信号とから求める「音声成分と雑音成分との大きさの関係」に近い値を得ることができる(ステップS114)。得られたrは雑音付き音声信号Xに対応付けられて雑音付き音声信号記憶部111eに格納される(ステップS111e)。 The index generation unit 114 receives the noise-added speech signal X i and the noise component N i (where i = 0,..., I−1) as input, and the signal execution value of the noise-added speech signal X i and the noise component N. From the signal execution value of i , a “first index” r i representing “a relationship between the magnitudes of the speech component and the noise component” is newly obtained and output. For example, the index generation unit 114 newly obtains and outputs the S / N ratio r i from the signal execution value of the noise-added speech signal X i and the signal execution value of the noise component N i . For example, r i = (signal execution value of the noise signal X i with noise−signal execution value of the noise component N i ) / (signal execution value of the noise component N i ), or an average instead of this signal execution value A value or a maximum or absolute value may be used. By determining r i from the noise-added speech signal X i and the noise component N i , the “relationship between the size of the speech component and the noise component obtained from the speech interval signal and the non-speech interval signal of the noise-added speech signal X i Can be obtained (step S114). The obtained r i is stored in the noisy audio signal storage unit 111e in association with the noisy audio signal X i (step S111e).

モデルパラメータ設定部109は、所定の音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせを複数種類設定し、それらを音声認識部116に出力する。以下では、モデルパラメータまたはモデルパラメータの組み合わせをhと表現する。ただし、m=0,・・・,M−1であり、Mは2以上の整数である。hがモデルパラメータである場合、hはパラメータ値を表すスカラであり、hがモデルパラメータの組み合わせである場合、hはパラメータ値を要素とするベクトルである。 The model parameter setting unit 109 sets a plurality of types of model parameters or combinations of model parameters of a predetermined speech recognition model, and outputs them to the speech recognition unit 116. Hereinafter, the combination of the model parameters or model parameters is expressed as h m. However, m = 0,..., M−1, and M is an integer of 2 or more. If h m is the model parameter, h m is a scalar representing the parameter values, if h m is a combination of the model parameters, h m is a vector of parameter values as elements.

音声認識モデルの具体例は、ANN-HMM Hybrid音声認識装置によるデコードを表現する以下の音声認識モデルである(例えば、非特許文献2等参照)。

Figure 0006466762
ここで、tは時刻、xは各時刻tの音響特徴量ベクトル、sはHMM状態系列、sは各時刻tのHMM状態、wは単語列、P(s|x)はニューラルネットワークによる音響モデル、P(s)は各HMM状態に関するユニグラムモデルであるHMM State Unigramモデル、P(s|w)は辞書、P(w)は言語モデルを表している。βおよびγはヒューリスティックパラメータ(モデルパラメータ)である。この例の場合、モデルパラメータ設定部109は、βおよびγの組み合わせ(βおよびγを要素とするベクトル)hを複数種類設定する。例えば、所定の範囲内のβ,γから取り得るすべてのβおよびγの組み合わせh(ただし、m=0,・・・,M−1)を設定する。 A specific example of the speech recognition model is the following speech recognition model that expresses decoding by the ANN-HMM Hybrid speech recognition device (see, for example, Non-Patent Document 2).
Figure 0006466762
Here, t is time, x t is the acoustic feature vector, s is HMM state sequence at each time t, s t is HMM states at each time t, w is the word sequence, P (s t | x t ) is a neural A network acoustic model, P (s t ) represents a HMM State Unigram model that is a unigram model for each HMM state, P (s | w) represents a dictionary, and P (w) represents a language model. β and γ are heuristic parameters (model parameters). In this example, the model parameter setting unit 109, (vector and the β and gamma components) a combination of β and gamma h m a multiple type setting. For example, beta within a predetermined range, all the beta and combinations of gamma h m can take from gamma (although, m = 0, ···, M -1) to set the.

音声認識モデルとして、GMM-HMM音声認識装置によるデコードを表現する以下の音声認識モデルが用いられてもよい(例えば、非特許文献1等参照)。

Figure 0006466762
ここで、P(x|s)は混合正規分布による音響モデルである。この例の場合、モデルパラメータ設定部109は、h=βを複数種類設定する。例えば、所定の範囲内のすべてのβをh(ただし、m=0,・・・,M−1)として設定する(ステップS114)。 As the speech recognition model, the following speech recognition model that expresses decoding by the GMM-HMM speech recognition device may be used (see, for example, Non-Patent Document 1).
Figure 0006466762
Here, P (x t | s t ) is an acoustic model with a mixed normal distribution. In the case of this example, the model parameter setting unit 109 sets plural types of h m = β. For example, all β within a predetermined range are set as h m (where m = 0,..., M−1) (step S114).

音声認識部116は、雑音付き音声信号記憶部111eからrおよびX(ただし、i=0,・・・,I−1)を読み込み、モデルパラメータ設定部109から送られたh(ただし、m=0,・・・,M−1)を用いた音声認識モデルでXの音声認識を行い、その音声認識結果である単語列を出力する。音声認識結果はすべての(i,m)の組み合わせについて得られ、得られた音声認識結果はrおよび(i,m)に対応付けられて音声認識結果記憶部111fに格納される(ステップS115)。 The speech recognition unit 116, from the noise with sound signal storage unit 111e r i and X i (however, i = 0, ···, I -1) reads, h m (but sent from the model parameter setting portion 109 , M = 0,..., M−1) is used for speech recognition of X i and a word string that is the speech recognition result is output. Speech recognition result is obtained for all combinations of (i, m), the speech recognition result obtained is stored in association with the r i and (i, m) in the speech recognition result storage unit 111f (step S115 ).

比較部117は、正解単語列記憶部111cから読み込んだ正解単語列と、音声認識結果記憶部111fから読み込んだ音声認識結果とを比較し、各(i,m)について音声認識結果の音声認識精度を求める。あるいは、比較部117は、音声認識精度に代えて各(i,m)について音声認識率を求めてもよい。得られた音声認識精度または音声認識率は、対応する(i,m)およびrとともに対応表生成部118に送られる(ステップS116)。 The comparison unit 117 compares the correct word string read from the correct word string storage unit 111c with the speech recognition result read from the speech recognition result storage unit 111f, and the speech recognition accuracy of the speech recognition result for each (i, m). Ask for. Alternatively, the comparison unit 117 may obtain the speech recognition rate for each (i, m) instead of the speech recognition accuracy. The resulting speech recognition accuracy or the speech recognition rate is sent corresponding (i, m) and with r i in the correspondence table generation unit 118 (step S116).

対応表生成部118は、iごとに音声認識精度または音声認識率が最大となるm(i)∈{0,・・・,M−1}を選択する。あるいは、対応表生成部118は、iごとに音声認識精度または音声認識率が所定値以上となる1個のm(i)∈{0,・・・,M−1}を選択してもよい。対応表生成部118は、rとhm(i)とを対応付けた対応表[r,hm(i)]を生成して出力する。図5Aは、I=8、rがS/N比、hm(i)がモデルパラメータβおよびγの組み合わせである場合の対応表[r,hm(i)]の例である(ステップS117)。対応表[r,hm(i)]は音声認識装置12(図2)の対応表記憶部121aに格納される。 The correspondence table generation unit 118 selects m (i) ε {0,..., M−1} that maximizes the speech recognition accuracy or speech recognition rate for each i. Alternatively, the correspondence table generation unit 118 may select one m (i) ε {0,..., M−1} for which the speech recognition accuracy or the speech recognition rate is greater than or equal to a predetermined value for each i. . Correspondence table generation unit 118, the correspondence table [r i, h m (i )] that associates r i and h m (i) to generate and output. FIG. 5A is an example of a correspondence table [r i , h m (i) ] when I = 8, r i is the S / N ratio, and h m (i) is a combination of model parameters β and γ ( Step S117). Correspondence table [r i, h m (i )] are stored in the correspondence table storage unit 121a of the voice recognition device 12 (FIG. 2).

<音声認識処理>
図4を用いて音声認識装置12の処理を説明する。音声認識装置12は入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択する。すなわち、入力音響信号に含まれる音声成分と雑音成分との大きさの関係に対応する「第1指標」rに対応するモデルパラメータまたはモデルパラメータの組み合わせhm(i)を選択する。音声認識装置12は、選択したモデルパラメータまたはモデルパラメータの組み合わせに応じた音声認識モデルを当該入力音響信号に適用し、音声認識を行う。
<Voice recognition processing>
The process of the speech recognition apparatus 12 will be described with reference to FIG. The speech recognition device 12 selects a model parameter of the speech recognition model or a combination of model parameters of the speech recognition model according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal. That is, a model parameter or a combination of model parameters hm (i) corresponding to the “first index” r i corresponding to the magnitude relationship between the speech component and the noise component included in the input acoustic signal is selected. The speech recognition device 12 performs speech recognition by applying a speech recognition model corresponding to the selected model parameter or combination of model parameters to the input acoustic signal.

まず、入力音響信号が入力部122に入力され、入力音響信号記憶部121bに格納される。入力音響信号は時系列信号であり、例えば、雑音成分が重畳された音声信号である(ステップS121)。音声/非音声区間判別部123は、入力音響信号記憶部121bから入力音響信号を読み込み、入力音響信号の音声区間と非音声区間とを判別する。この判別には、例えば、参考文献1(Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based Voice Activity Detection,” IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999.)等の周知の方法を用いる。非音声区間の信号は雑音成分として雑音成分記憶部121cに格納され、入力音響信号は指標生成部124に送られる(ステップS122)。   First, an input acoustic signal is input to the input unit 122 and stored in the input acoustic signal storage unit 121b. The input acoustic signal is a time-series signal, for example, an audio signal on which a noise component is superimposed (step S121). The voice / non-speech section discriminating unit 123 reads the input acoustic signal from the input acoustic signal storage unit 121b and discriminates between the voice section and the non-speech section of the input acoustic signal. For this determination, for example, Reference 1 (Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based Voice Activity Detection,” IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999.) etc. A well-known method is used. The signal in the non-voice section is stored as a noise component in the noise component storage unit 121c, and the input acoustic signal is sent to the index generation unit 124 (step S122).

指標生成部124は、入力音響信号、および雑音成分記憶部121cから読み込んだ非音声区間の信号を用い、「音声成分と雑音成分との大きさの関係」を表す「第2指標」uを得て出力する。音声認識処理での「音声成分と雑音成分との大きさの関係」は、前述の学習処理の「音声成分と雑音成分との大きさの関係」と同じ基準に基づくことが望ましい。すなわち、「音声成分と雑音成分との大きさの関係」として学習処理でS/N比が用いられた場合、音声認識処理でもS/N比が用いられることが望ましい。各時点でuが得られてもよいし、所定の時間区間ごとにuが得られてもよいし、入力音響信号の全時間区間に対してuが得られてもよい。入力音響信号の実効値と非音声区間の信号の実効値とから定めてもよいし、実行値に代えて平均値または最大値または絶対値から定めてもよい。例えば、u=(入力音響信号の信号実効値−非音声区間の信号の信号実効値)/(非音声区間の信号の信号実効値)としてもよいし、この信号実行値に代えて平均値または最大値または絶対値から定めてもよい。得られたuは選択部125に送られる(ステップS123)。   The index generation unit 124 obtains a “second index” u representing “a relationship between the magnitudes of the voice component and the noise component” by using the input acoustic signal and the signal of the non-voice section read from the noise component storage unit 121c. Output. The “relationship between the size of the speech component and the noise component” in the speech recognition process is preferably based on the same standard as the “relationship between the size of the speech component and the noise component” in the learning process described above. That is, when the S / N ratio is used in the learning process as “the relationship between the magnitudes of the voice component and the noise component”, it is desirable that the S / N ratio is also used in the voice recognition process. U may be obtained at each time point, u may be obtained for each predetermined time interval, or u may be obtained for all time intervals of the input acoustic signal. It may be determined from the effective value of the input acoustic signal and the effective value of the signal in the non-speech section, or may be determined from an average value, a maximum value, or an absolute value instead of the execution value. For example, u = (signal effective value of input acoustic signal−signal effective value of signal in non-speech section) / (signal effective value of signal in non-speech section), or an average value or It may be determined from a maximum value or an absolute value. The obtained u is sent to the selection unit 125 (step S123).

選択部125は、対応表記憶部121aに格納された対応表[r,hm(i)]を参照し、「第2指標」uに最も近い「第1指標」rに対応するモデルパラメータまたはモデルパラメータの組み合わせhm(i)を選択する。例えば、図5Aおよび図5Bの例では、uにrが最も近いため、rに対応するモデルパラメータの組み合わせhm(2)=(γ,β)が選択される。uが隣接する2個のrの中間値である場合、uに最も近いrが2個存在することになる。このような場合には、例えば、予め定められた何れか一方のrに対応するhm(i)が選択される。なお、rは雑音付き音声信号Xと雑音成分Nとから得られているため、入力音響信号(雑音付き音声信号に相当)と非音声区間の信号(雑音成分に相当)とから得られるuに対して適切なhm(i)を選択できる。選択されたhm(i)は音声認識部126に送られる(ステップS124)。 Selecting unit 125, the correspondence table [r i, h m (i )] stored in the correspondence table storage unit 121a with reference to, corresponding to the "second index" closest "first index" to u r i Model A parameter or model parameter combination hm (i) is selected. For example, in the example of FIGS. 5A and 5B, since r 2 is closest to u, a combination of model parameters h m (2) = (γ 5 , β 3 ) corresponding to r 2 is selected. If u is an intermediate value of the two r i adjacent, so that the closest r i in u there are two. In such a case, for example, hm (i) corresponding to one of the predetermined r i is selected. Since r i is obtained from the noise-added speech signal X i and the noise component N i , it is obtained from the input acoustic signal (corresponding to the noise-added speech signal) and the non-speech interval signal (corresponding to the noise component). An appropriate hm (i) can be selected for u. The selected hm (i) is sent to the speech recognition unit 126 (step S124).

音声認識部126は、送られたモデルパラメータまたはモデルパラメータの組み合わせhm(i)を用いた音声認識モデルを、入力音響信号記憶部121bから読み込んだ入力音響信号に適用して音声認識を行い、その音声認識結果を出力する(ステップS125)。 The speech recognition unit 126 performs speech recognition by applying the speech recognition model using the sent model parameter or model parameter combination hm (i) to the input acoustic signal read from the input acoustic signal storage unit 121b, The voice recognition result is output (step S125).

<本形態の特徴>
本形態では、入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択するため、入力音響信号に含まれた雑音成分に応じた適切なモデルパラメータを自動設定できる。
<Features of this embodiment>
In this embodiment, since the model parameter of the speech recognition model or the combination of model parameters of the speech recognition model is selected according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, it is included in the input acoustic signal. Appropriate model parameters can be automatically set according to noise components.

特に、ANN-HMM Hybrid音声認識では、パラメータ値の決定に関して入力音響信号に含まれる雑音成分の影響を受ける性質がある。したがって従来のGMM-HMM音声認識での雑音成分を考慮しないヒューリスティックパラメータ自動決定手法(例えば、非特許文献3参照)と同様の手法をANN-HMM Hybrid音声認識に適用することは困難であり、手動でパラメータ値を設定する必要があった。事前に入力音響信号に雑音抑圧処理を行うことも考えられるが、一般にこれらの雑音抑圧処理によって音声認識の観点から適していない歪みが音声に加わることになる。そのため、雑音成分を含む入力音響信号から直接HMM状態を判別するニューラルネットワークを学習した方が、音声認識を考慮した処理を行っている点で適していると考えられる。本形態の手法により、入力音響信号から、音声認識精度または音声認識率に対して最適なヒューリスティックパラメータを自動的に決定でき、人手による設定作業をなくし、雑音成分による音声認識精度または音声認識率の低下を防ぐことができる。   In particular, ANN-HMM Hybrid speech recognition has the property of being influenced by noise components included in the input acoustic signal when determining parameter values. Therefore, it is difficult to apply the same method to the ANN-HMM Hybrid speech recognition as the conventional heuristic parameter automatic determination method that does not consider the noise component in the conventional GMM-HMM speech recognition (see Non-Patent Document 3, for example). It was necessary to set the parameter value. Although noise suppression processing may be performed on the input acoustic signal in advance, generally, distortion that is not suitable from the viewpoint of speech recognition is added to the speech by these noise suppression processing. Therefore, it is considered that learning a neural network that directly discriminates the HMM state from an input acoustic signal including a noise component is more suitable in terms of performing processing considering speech recognition. The method of this embodiment can automatically determine the most suitable heuristic parameters for the speech recognition accuracy or speech recognition rate from the input acoustic signal, eliminates manual setting work, and reduces the speech recognition accuracy or speech recognition rate due to noise components. Decline can be prevented.

[第2実施形態]
次に、第2実施形態を説明する。第2実施形態は第1実施形態の変形例である。本形態では、入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す「第2指標」と同一または近傍の「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせのうち、音声認識精度または音声認識率を最大にするものを選択する。以下では、これまで説明した事項との相違点を中心に説明し、すでに説明した事項については同じ参照番号を引用して説明を簡略化する。
[Second Embodiment]
Next, a second embodiment will be described. The second embodiment is a modification of the first embodiment. In the present embodiment, among the model parameters or combinations of model parameters corresponding to the “first index” that is the same as or close to the “second index” that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal Select the one that maximizes speech recognition accuracy or speech recognition rate. In the following, differences from the items described so far will be mainly described, and the items already described will be simplified by quoting the same reference numerals.

<構成>
図1に例示するように、本形態の学習装置21は、音声信号記憶部111a、雑音信号記憶部111b、正解単語列記憶部111c、雑音付き音声信号記憶部111e、音声認識結果記憶部111f、成分調整加算部113、指標生成部114、音声認識部116、比較部117、および対応表生成部218を有する。図2に例示するように、本形態の音声認識装置22は、対応表記憶部221a、入力音響信号記憶部121b、雑音成分記憶部121c、入力部122、音声/非音声区間判別部123、指標生成部124、選択部225、および音声認識部126を有する。
<Configuration>
As illustrated in FIG. 1, the learning device 21 according to the present embodiment includes a speech signal storage unit 111a, a noise signal storage unit 111b, a correct word string storage unit 111c, a speech signal storage unit with noise 111e, a speech recognition result storage unit 111f, A component adjustment adding unit 113, an index generating unit 114, a speech recognition unit 116, a comparing unit 117, and a correspondence table generating unit 218 are included. As illustrated in FIG. 2, the speech recognition apparatus 22 according to the present exemplary embodiment includes a correspondence table storage unit 221a, an input acoustic signal storage unit 121b, a noise component storage unit 121c, an input unit 122, a speech / non-speech segment determination unit 123, an index. A generation unit 124, a selection unit 225, and a voice recognition unit 126 are included.

<学習処理>
第1実施形態との相違点は、図3のステップS117に代えてステップS217の処理が行われる点のみである。ステップS217では、対応表生成部218が、iごとに音声認識精度または音声認識率が最大となるm(i)∈{0,・・・,M−1}を選択し、この音声認識精度または音声認識率の最大値をaとする。あるいは、対応表生成部218は、iごとに音声認識精度または音声認識率が所定値以上となる1個のm(i)∈{0,・・・,M−1}を選択し、この音声認識精度または音声認識率をaとする。対応表生成部118は、rとhm(i)とaとを対応付けた対応表[r,hm(i),a]を生成して出力する。図5Cは、I=8、rがS/N比、hm(i)がモデルパラメータβおよびγの組み合わせ、aが音声認識精度である場合の対応表[r,hm(i),a]例である(ステップS217)。対応表[r,hm(i),a]は音声認識装置22(図2)の対応表記憶部221aに格納される。
<Learning process>
The only difference from the first embodiment is that the process of step S217 is performed instead of step S117 of FIG. In step S217, the correspondence table generation unit 218 selects m (i) ε {0,..., M−1} that maximizes the speech recognition accuracy or speech recognition rate for each i, and this speech recognition accuracy or Let the maximum value of the speech recognition rate be a i . Alternatively, the correspondence table generation unit 218 selects one m (i) ε {0,..., M−1} for which the voice recognition accuracy or the voice recognition rate is greater than or equal to a predetermined value for each i, and this voice Let a i be the recognition accuracy or speech recognition rate. Correspondence table generation unit 118, the correspondence table that associates a i and r i and h m (i) [r i , h m (i), a i] to generate and output. Figure 5C, I = 8, r i is the S / N ratio, the combination of h m (i) is the model parameters β and gamma, the correspondence table when a i is a speech recognition accuracy [r i, h m (i ), it is a i] example (step S217). Correspondence table [r i, h m (i ), a i] is stored in the correspondence table storage unit 221a of the voice recognition device 22 (FIG. 2).

<音声認識処理>
第1実施形態との相違点は図4のステップS124に代えてステップS224の処理が行われる点のみである。ステップS224では、選択部225が、対応表記憶部221aに格納された対応表[r,hm(i),a]を参照し、「第2指標」uと同一または近傍の「第1指標」rに対応するモデルパラメータまたはモデルパラメータの組み合わせhm(i)のうち、音声認識精度または音声認識率aを最大にするものを選択する。例えば、図5Bおよび図5Cの例で、uの近傍のrをr,r,rとする場合、r,r,rにそれぞれ対応するa,a,aのうち最大のaに対応するhm(i)を選択する。選択されたhm(i)は音声認識部126に送られる。なお、複数のaが互いに同一の場合には何れに対応するhm(i)が選択されてもよい。例えば、複数のaが互いに同一の場合には、それらのaのうち、uに最も近いrに対応するaに対応付けられたhm(i)が選択されてもよい(ステップS224)。
<Voice recognition processing>
The only difference from the first embodiment is that the process of step S224 is performed instead of step S124 of FIG. In step S224, the selection unit 225 refers to the correspondence table [r i , hm (i) , a i ] stored in the correspondence table storage unit 221a, and the “second index” u is the same as or near the “second index”. Among the model parameters or model parameter combinations hm (i) corresponding to “1 index” r i , the one that maximizes the speech recognition accuracy or speech recognition rate a i is selected. For example, in the example of FIG. 5B and FIG. 5C, when r i near u is r 2 , r 2 , r 3 , a 2 , a 2 , a 3 corresponding to r 2 , r 2 , r 3 , respectively. Hm (i) corresponding to the largest a i is selected. The selected hm (i) is sent to the speech recognition unit 126. When a plurality of a i are the same as each other, hm (i) corresponding to any of them may be selected. For example, if a plurality of a i are identical to each other, of those a i, h m (i) is may be selected associated with the corresponding a i closest r i in u (step S224).

[第2実施形態の変形例]
「第2指標」と同一または近傍の「第1指標」に対応するモデルパラメータまたはモデルパラメータの組み合わせのうち、音声認識精度または音声認識率の重み付け値を最大にするものを選択してもよい。ただし、「重み付け値」は、音声認識精度または音声認識率に「第2指標」と「第1指標」との距離が小さいほど大きな重みを乗じた値である。
[Modification of Second Embodiment]
Of the model parameters or combinations of model parameters corresponding to the “first index” that is the same as or close to the “second index”, the one that maximizes the weight value of the speech recognition accuracy or the speech recognition rate may be selected. However, the “weighting value” is a value obtained by multiplying the voice recognition accuracy or the voice recognition rate by a larger weight as the distance between the “second index” and the “first index” is smaller.

<構成>
図2に例示するように、本変形例の音声認識装置22’は、対応表記憶部221a、入力音響信号記憶部121b、雑音成分記憶部121c、入力部122、音声/非音声区間判別部123、指標生成部124、選択部225’、および音声認識部126を有する。
<Configuration>
As illustrated in FIG. 2, the speech recognition device 22 ′ of the present modification includes a correspondence table storage unit 221 a, an input acoustic signal storage unit 121 b, a noise component storage unit 121 c, an input unit 122, and a speech / non-speech section determination unit 123. , An index generation unit 124, a selection unit 225 ′, and a voice recognition unit 126.

<学習処理>
第2実施形態と同じである。
<Learning process>
The same as in the second embodiment.

<音声認識処理>
第2実施形態との相違点は図4のステップS224に代えてステップS224’の処理が行われる点のみである。ステップS224’では、選択部225’が、対応表記憶部221aに格納された対応表[r,hm(i),a]を参照し、「第2指標」uと同一または近傍の「第1指標」rに対応するモデルパラメータまたはモデルパラメータの組み合わせhm(i)のうち、音声認識精度または音声認識率aに重みcを乗じた重み付け値を最大にするものを選択する。ただし、cは正値であり、uとrとの距離|u−r|が小さいほど大きい。例えば、図5Bおよび図5Cの例で、uの近傍のrをr,r,rとする場合、r,r,rにそれぞれ対応するc・a,c・aa,c・aaのうち最大のc・aに対応するhm(i)を選択する。この例では、c>c>cとなる。選択されたhm(i)は音声認識部126に送られる(ステップS224’)。
<Voice recognition processing>
The difference from the second embodiment is only that step S224 ′ is performed instead of step S224 in FIG. ', The selector 225' step S224 is, the correspondence table [r i, h m (i ), a i] stored in the correspondence table storage unit 221a refers to the "second index" u identical or near Of the model parameters or model parameter combinations hm (i) corresponding to the “first index” r i , the one that maximizes the weighting value obtained by multiplying the speech recognition accuracy or speech recognition rate a i by the weight c i is selected. To do. However, c i is a positive value, and is larger as the distance | u−r i | between u and r i is smaller. For example, in the example of FIGS. 5B and 5C, when r i near u is r 2 , r 2 , r 3 , c 1 , a 2 , c 2 corresponding to r 2 , r 2 , r 3 , respectively. · aa 2, of c 3 · aa 3 selects h m (i) corresponding to the maximum of c i · a i. In this example, c 2 > c 3 > c 1 is satisfied. The selected hm (i) is sent to the speech recognition unit 126 (step S224 ′).

[第3実施形態]
次に、第3実施形態を説明する。第3実施形態は第1実施形態の変形例である。本形態では、「第2指標」と一致する「第1指標」または「第1指標」の補完値に対応するモデルパラメータもしくはモデルパラメータの補完値またはモデルパラメータもしくはモデルパラメータの補完値の組み合わせを選択する。
[Third Embodiment]
Next, a third embodiment will be described. The third embodiment is a modification of the first embodiment. In this embodiment, the model parameter or the complement value of the model parameter or the combination of the model parameter or the complement value of the model parameter corresponding to the “first index” or the complement value of the “first index” that matches the “second index” is selected. To do.

<構成>
図1に例示するように、本形態の学習装置31は、音声信号記憶部111a、雑音信号記憶部111b、正解単語列記憶部111c、雑音付き音声信号記憶部111e、音声認識結果記憶部111f、成分調整加算部113、指標生成部114、音声認識部116、比較部117、および対応表生成部318を有する。図2に例示するように、本変形例の音声認識装置32は、対応表記憶部221a、入力音響信号記憶部121b、雑音成分記憶部121c、入力部122、音声/非音声区間判別部123、指標生成部124、選択部325、および音声認識部126を有する。
<Configuration>
As illustrated in FIG. 1, the learning device 31 of the present embodiment includes a speech signal storage unit 111a, a noise signal storage unit 111b, a correct word string storage unit 111c, a noise-added speech signal storage unit 111e, a speech recognition result storage unit 111f, A component adjustment adding unit 113, an index generating unit 114, a voice recognition unit 116, a comparing unit 117, and a correspondence table generating unit 318 are included. As illustrated in FIG. 2, the speech recognition device 32 according to the present modification includes a correspondence table storage unit 221a, an input acoustic signal storage unit 121b, a noise component storage unit 121c, an input unit 122, a speech / non-speech segment determination unit 123, An index generation unit 124, a selection unit 325, and a voice recognition unit 126 are included.

<学習処理>
第1実施形態との相違点は、図3のステップS117に代えてステップS317の処理が行われる点のみである。ステップS317では、対応表生成部318が、iごとに音声認識精度または音声認識率が最大となるm(i)∈{0,・・・,M−1}(ただし、i=0,・・・,I−1)を選択する。あるいは、対応表生成部318は、iごとに音声認識精度または音声認識率が所定値以上となる1個のm(i)∈{0,・・・,M−1}を選択してもよい。さらに対応表生成部318は、r,・・・,rI−1を線形補完等によって補完し、r,・・・,rI−1およびそれらの補完値からなる連続値r’,・・・,r’Z−1(ただし、ZはIよりも大きな整数)を得る。また対応表生成部318は、hm(0),・・・,hm(I−1)を線形補完等によって補完し、hm(0),・・・,hm(I−1)およびそれらの補完値からなる連続値h’m(0),・・・,h’m(Z−1)を得る。対応表生成部318は、r’とh’m(z)とを対応付けた対応表[r’,h’m(z)](ただし、z=0,・・・,Z−1)を生成して出力する。対応表[r’,h’m(z)]は音声認識装置32(図2)の対応表記憶部321aに格納される。
<Learning process>
The only difference from the first embodiment is that the process of step S317 is performed instead of step S117 of FIG. In step S317, the correspondence table generation unit 318 sets m (i) ε {0,..., M−1} (where i = 0,...) That maximizes the speech recognition accuracy or the speech recognition rate for each i. ., I-1) is selected. Alternatively, the correspondence table generation unit 318 may select one m (i) ε {0,..., M−1} for which the voice recognition accuracy or the voice recognition rate is greater than or equal to a predetermined value for each i. . Further correspondence table generation unit 318, r 0, · · ·, r a I-1 supplemented by linear interpolation or the like, r 0, · · ·, r I-1 and the continuous value r consisting of complementary value '0 ,..., R ′ Z−1 (where Z is an integer greater than I). Also, the correspondence table generation unit 318 complements hm (0) ,..., Hm (I-1) by linear interpolation or the like, and hm (0) ,..., Hm (I-1). And continuous values h ′ m (0) ,..., H ′ m (Z−1) composed of their complementary values. The correspondence table generation unit 318 associates r ′ z with h ′ m (z) [r ′ z , h ′ m (z) ] (where z = 0,..., Z−1). ) Is generated and output. The correspondence table [r ′ z , h ′ m (z) ] is stored in the correspondence table storage unit 321a of the speech recognition device 32 (FIG. 2).

<音声認識処理>
第1実施形態との相違点は、図4のステップS124に代えてステップS324の処理が行われる点のみである。ステップS324では、選択部325は、対応表記憶部121aに格納された対応表[r’,h’m(z)]を参照し、入力されたuと一致するr’に対応付けられたモデルパラメータもしくはモデルパラメータの組み合わせまたはその補完値h’m(z)を選択する。選択されたh’m(z)は音声認識部126に送られる(ステップS324)。以降の処理は、hm(i)に代えてh’m(z)が用いられる以外、第1実施形態と同じである。
<Voice recognition processing>
The only difference from the first embodiment is that the process of step S324 is performed instead of step S124 of FIG. In step S324, the selection unit 325 refers to the correspondence table [r ′ z , h ′ m (z) ] stored in the correspondence table storage unit 121a, and is associated with r ′ z that matches the input u. A model parameter or a combination of model parameters or a complementary value h ′ m (z) thereof is selected. The selected h ′ m (z) is sent to the speech recognition unit 126 (step S324). The subsequent processing is the same as that of the first embodiment except that h ′ m (z) is used instead of h m (i) .

[第3実施形態の変形例]
第1実施形態の学習処理によって生成された対応表[r,hm(i)]を用い、音声認識処理時に対応表[r,hm(i)]を補完した対応表[r’,h’m(z)]を生成し、ステップS324の処理が実行されてもよい。
[Modification of Third Embodiment]
Correspondence table generated by the learning process of the first embodiment [r i, h m (i )] was used, the correspondence table during the speech recognition process [r i, h m (i )] correspondence table complements [r ' z , h ′ m (z) ] may be generated, and the process of step S324 may be executed.

[その他の変形例等]
なお、本発明は上述の実施の形態に限定されるものではない。例えば、各装置がネットワークを通じて情報をやり取りするのではなく、少なくとも一部の組の装置が可搬型記録媒体を介して情報をやり取りしてもよい。或いは、少なくとも一部の組の装置が非可搬型の記録媒体を介して情報をやり取りしてもよい。すなわち、これらの装置の一部からなる組み合わせが、同一の装置であってもよい。
[Other variations]
The present invention is not limited to the embodiment described above. For example, instead of each device exchanging information via a network, at least some of the devices may exchange information via a portable recording medium. Alternatively, at least some of the devices may exchange information via a non-portable recording medium. That is, the combination which consists of a part of these apparatuses may be the same apparatus.

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。   When the above configuration is realized by a computer, the processing contents of the functions that each device should have are described by a program. By executing this program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.

このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads a program stored in its own recording device and executes a process according to the read program. As another execution form of the program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer. The processing according to the received program may be executed sequentially. The above-described processing may be executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. Good.

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。   In the above embodiment, the processing functions of the apparatus are realized by executing a predetermined program on a computer. However, at least a part of these processing functions may be realized by hardware.

学習装置 11,21,31
音声認識装置 12,22,22’,32
Learning device 11, 21, 31
Voice recognition device 12, 22, 22 ', 32

Claims (5)

入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択し、選択した前記モデルパラメータまたは前記モデルパラメータの組み合わせに応じた前記音声認識モデルを前記入力音響信号に適用する、音声認識装置であって、
音声成分と雑音成分との大きさの関係を表す第1指標と、前記第1指標が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておき、
前記入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す第2指標と同一または近傍の前記第1指標に対応する前記モデルパラメータまたはモデルパラメータの組み合わせのうち、前記音声認識精度または音声認識率を最大にするものを選択する、音声認識装置。
A model parameter of the speech recognition model or a combination of model parameters of the speech recognition model is selected according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, and the selected model parameter or the combination of model parameters is selected. A speech recognition apparatus that applies the speech recognition model according to the method to the input acoustic signal ,
A voice having a maximum voice recognition rate or a voice recognition rate equal to or greater than a predetermined value when applied to an acoustic signal having a relationship represented by the first index and the first index representing the magnitude relationship between a voice component and a noise component The model parameter or combination of model parameters of the recognition model is associated with
Among the model parameters or combinations of model parameters corresponding to the first index that is the same as or close to the second index that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, the speech recognition accuracy Or a speech recognition device that selects the one that maximizes the speech recognition rate.
入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択し、選択した前記モデルパラメータまたは前記モデルパラメータの組み合わせに応じた前記音声認識モデルを前記入力音響信号に適用する、音声認識装置であって、
音声成分と雑音成分との大きさの関係を表す第1指標と、前記第1指標が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておき、
前記入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す第2指標と同一または近傍の前記第1指標に対応する前記モデルパラメータまたはモデルパラメータの組み合わせのうち、前記音声認識精度または音声認識率の重み付け値を最大にするものを選択し、
前記重み付け値は、前記音声認識精度または音声認識率に前記第2指標と前記第1指標との距離が小さいほど大きな重みを乗じた値である、音声認識装置。
A model parameter of the speech recognition model or a combination of model parameters of the speech recognition model is selected according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, and the selected model parameter or the combination of model parameters is selected. A speech recognition apparatus that applies the speech recognition model according to the method to the input acoustic signal,
A voice having a maximum voice recognition rate or a voice recognition rate equal to or greater than a predetermined value when applied to an acoustic signal having a relationship represented by the first index and the first index representing the magnitude relationship between a voice component and a noise component The model parameter or combination of model parameters of the recognition model is associated with
Among the model parameters or combinations of model parameters corresponding to the first index that is the same as or close to the second index that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, the speech recognition accuracy Or select the one that maximizes the weight of the speech recognition rate,
The weight recognition value is a voice recognition device, which is a value obtained by multiplying the voice recognition accuracy or the voice recognition rate by a larger weight as the distance between the second index and the first index is smaller.
入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択し、選択した前記モデルパラメータまたは前記モデルパラメータの組み合わせに応じた前記音声認識モデルを前記入力音響信号に適用する、音声認識方法であって、
音声成分と雑音成分との大きさの関係を表す第1指標と、前記第1指標が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておき、
前記入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す第2指標と同一または近傍の前記第1指標に対応する前記モデルパラメータまたはモデルパラメータの組み合わせのうち、前記音声認識精度または音声認識率を最大にするものを選択する、音声認識方法。
A model parameter of the speech recognition model or a combination of model parameters of the speech recognition model is selected according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, and the selected model parameter or the combination of model parameters is selected. A speech recognition method that applies the speech recognition model according to the method to the input acoustic signal ,
A voice having a maximum voice recognition rate or a voice recognition rate equal to or greater than a predetermined value when applied to an acoustic signal having a relationship represented by the first index and the first index representing the magnitude relationship between a voice component and a noise component The model parameter or combination of model parameters of the recognition model is associated with
Among the model parameters or combinations of model parameters corresponding to the first index that is the same as or close to the second index that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, the speech recognition accuracy Or a speech recognition method that selects the one that maximizes the speech recognition rate.
入力音響信号に含まれる音声成分と雑音成分との大きさの関係に応じ、音声認識モデルのモデルパラメータまたは音声認識モデルのモデルパラメータの組み合わせを選択し、選択した前記モデルパラメータまたは前記モデルパラメータの組み合わせに応じた前記音声認識モデルを前記入力音響信号に適用する、音声認識方法であって、  A model parameter of the speech recognition model or a combination of model parameters of the speech recognition model is selected according to the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, and the selected model parameter or the combination of model parameters is selected. A speech recognition method that applies the speech recognition model according to the method to the input acoustic signal,
音声成分と雑音成分との大きさの関係を表す第1指標と、前記第1指標が表す関係を持つ音響信号に適用したときの音声認識精度または音声認識率が最大または所定値以上となる音声認識モデルのモデルパラメータまたはモデルパラメータの組み合わせと、を対応付けておき、  A voice having a maximum voice recognition rate or a voice recognition rate equal to or greater than a predetermined value when applied to an acoustic signal having a relationship represented by the first index and the first index representing the magnitude relationship between a voice component and a noise component The model parameter or combination of model parameters of the recognition model is associated with
前記入力音響信号に含まれる音声成分と雑音成分との大きさの関係を表す第2指標と同一または近傍の前記第1指標に対応する前記モデルパラメータまたはモデルパラメータの組み合わせのうち、前記音声認識精度または音声認識率の重み付け値を最大にするものを選択し、  Among the model parameters or combinations of model parameters corresponding to the first index that is the same as or close to the second index that represents the relationship between the magnitudes of the speech component and the noise component included in the input acoustic signal, the speech recognition accuracy Or select the one that maximizes the weight of the speech recognition rate,
前記重み付け値は、前記音声認識精度または音声認識率に前記第2指標と前記第1指標との距離が小さいほど大きな重みを乗じた値である、音声認識方法。  The speech recognition method, wherein the weighting value is a value obtained by multiplying the speech recognition accuracy or speech recognition rate by a greater weight as the distance between the second index and the first index is smaller.
請求項1または2の音声認識装置としてコンピュータを機能させるためのプログラム。 Program for causing a computer to function as a speech recognition apparatus according to claim 1 or 2.
JP2015074838A 2015-04-01 2015-04-01 Speech recognition apparatus, speech recognition method, and program Active JP6466762B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015074838A JP6466762B2 (en) 2015-04-01 2015-04-01 Speech recognition apparatus, speech recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015074838A JP6466762B2 (en) 2015-04-01 2015-04-01 Speech recognition apparatus, speech recognition method, and program

Publications (2)

Publication Number Publication Date
JP2016194628A JP2016194628A (en) 2016-11-17
JP6466762B2 true JP6466762B2 (en) 2019-02-06

Family

ID=57323141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015074838A Active JP6466762B2 (en) 2015-04-01 2015-04-01 Speech recognition apparatus, speech recognition method, and program

Country Status (1)

Country Link
JP (1) JP6466762B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6794809B2 (en) * 2016-12-07 2020-12-02 富士通株式会社 Voice processing device, voice processing program and voice processing method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6242198A (en) * 1985-08-20 1987-02-24 松下電器産業株式会社 Voice recognition equipment
JPH03276196A (en) * 1990-03-27 1991-12-06 Matsushita Refrig Co Ltd Speech recognizing system
JP2001272994A (en) * 2000-03-27 2001-10-05 Ricoh Co Ltd Device and method for study, device and method for recognizing pattern, and recording medium
JP4858663B2 (en) * 2001-06-08 2012-01-18 日本電気株式会社 Speech recognition method and speech recognition apparatus
JP2008501991A (en) * 2004-06-04 2008-01-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Performance prediction for interactive speech recognition systems.
JP2007233308A (en) * 2006-03-03 2007-09-13 Mitsubishi Electric Corp Speech recognition device

Also Published As

Publication number Publication date
JP2016194628A (en) 2016-11-17

Similar Documents

Publication Publication Date Title
US10891944B2 (en) Adaptive and compensatory speech recognition methods and devices
CN106328127B (en) Speech recognition apparatus, speech recognition method, and electronic device
JP6415705B2 (en) Method for converting a noisy audio signal into an enhanced audio signal
US9767790B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
US20120130716A1 (en) Speech recognition method for robot
JP2018109947A (en) Device and method for increasing processing speed of neural network, and application of the same
WO2022079848A1 (en) Hyper-parameter optimization system, method, and program
JP5150542B2 (en) Pattern recognition apparatus, pattern recognition method, and program
WO2019198306A1 (en) Estimation device, learning device, estimation method, learning method, and program
JP2008203469A (en) Speech recognition device and method
JP6543820B2 (en) Voice conversion method and voice conversion apparatus
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
JP6466762B2 (en) Speech recognition apparatus, speech recognition method, and program
WO2012105385A1 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
WO2020071213A1 (en) Acoustic model learning device, voice synthesis device, and program
JP6216809B2 (en) Parameter adjustment system, parameter adjustment method, program
JP6647475B2 (en) Language processing apparatus, language processing system, and language processing method
JP7109071B2 (en) Learning device, learning method, speech synthesizer, speech synthesis method and program
JP5914119B2 (en) Acoustic model performance evaluation apparatus, method and program
JP6082657B2 (en) Pose assignment model selection device, pose assignment device, method and program thereof
JP2019079102A (en) Learning device, generation device, classification device, learning method, learning program, and operation program
JP7231181B2 (en) NOISE-RESISTANT SPEECH RECOGNITION APPARATUS AND METHOD, AND COMPUTER PROGRAM
JP6067760B2 (en) Parameter determining apparatus, parameter determining method, and program
JP7205635B2 (en) Audio signal processing device, audio signal processing method, audio signal processing program, learning device, learning method and learning program
JP2007249050A (en) Language model generating device, language model generating method, program thereof, and recording medium thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190110

R150 Certificate of patent or registration of utility model

Ref document number: 6466762

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150