JP2013160930A - Sound model adaptation device, voice recognition device, methods therefor, and program - Google Patents
Sound model adaptation device, voice recognition device, methods therefor, and program Download PDFInfo
- Publication number
- JP2013160930A JP2013160930A JP2012022908A JP2012022908A JP2013160930A JP 2013160930 A JP2013160930 A JP 2013160930A JP 2012022908 A JP2012022908 A JP 2012022908A JP 2012022908 A JP2012022908 A JP 2012022908A JP 2013160930 A JP2013160930 A JP 2013160930A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- speech
- acoustic model
- vector
- adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、教師なし音響モデル適応を行う音響モデル適応装置とその音響モデルを用いた音声認識装置とそれらの方法と、プログラムに関する。 The present invention relates to an acoustic model adaptation device that performs unsupervised acoustic model adaptation, a speech recognition device that uses the acoustic model, a method thereof, and a program.
音声認識に使用する音響モデルを更新する際には、学習データ中の事例ができるだけ多く成り立つようにモデルのパラメータの最適化処理を行う。この処理を「音響モデルの適応」と呼び、一般に、音声ファイルと当該音声ファイルの発話内容を表す正解テキストとを学習(適応)データとして用いる。音響モデルの適応は、正解テキストを、音声ファイルに対応する読みを人間が書き起こすことにより得る教師あり適応と、音声ファイルの音声認識結果として得る教師なし適応とに大別される。教師なし適応の方が、人手による正解テキストを必要としない分、音声認識システムの開発コストを低く抑えることができる。 When updating the acoustic model used for speech recognition, model parameter optimization processing is performed so that as many examples as possible are included in the learning data. This process is called “acoustic model adaptation” and generally uses a speech file and a correct text representing the utterance content of the speech file as learning (adaptive) data. The adaptation of the acoustic model is broadly classified into supervised adaptation in which correct text is obtained by human writing up the reading corresponding to the speech file, and unsupervised adaptation obtained as a speech recognition result of the speech file. Unsupervised adaptation can reduce the development cost of a speech recognition system because it does not require manual correct text.
例えば非特許文献1に、教師なし音響モデル適応を行う際、システムに蓄積された音声を音響的な類似度に基づいていくつかのクラスに分類し、各クラスに対して教師なし音響モデル適応を行うことによってクラスごとに音響モデルを生成し、システムに音声が入力された時に適切なクラスの音響モデルを選択して音声認識に用いることで、通常の教師なし音響モデル適応よりも音声認識精度を高められる技術が開示されている。
For example, in Non-Patent
その技術は、蓄積された音声を、はじめはランダムに分類したクラスごとに音声GMM(Gaussian Mixture Model)を学習し、各音声をGMM尤度が最大となるクラスに割り当て直すことを繰り返して音声をクラスに分類してクラスごとに教師なし音響モデル適応を行う方法である。そして、音声認識を行う際は、各クラスの音声GMMで入力音声に対する尤度を算出し、尤度が最大となったクラスの音響モデルを選択して音声認識を行う。 The technology learns the speech GMM (Gaussian Mixture Model) for each class of the accumulated speech at random, and then reassigns each speech to the class that maximizes the GMM likelihood. This is a method of classifying into classes and applying the unsupervised acoustic model for each class. When speech recognition is performed, the likelihood for the input speech is calculated by the speech GMM of each class, and the acoustic model of the class having the maximum likelihood is selected to perform speech recognition.
非特許文献1に開示された従来の方法では、音声間の類似度として音声GMMにより算出した尤度を用いている。音声GMMの学習では、音声の中で発声されている音素の種類を考慮せず、全ての音素を同一視して一つの音声GMMパラメータを決定する。そのため、音声GMM間の距離を音声間の類似度として用いると、音素別に詳細に見れば違いのある2つの音素の類似度を高く見積もってしまい大きく異なる音素が同じクラスに分類されてしまう場合がある。このようなクラスに対して音響モデル適応を行っても、異なりの大きい音素を正しく認識できるようにパラメータを設定することが困難(一方に合わせればもう一方が認識できない)であるため、適応の効果が小さくなってしまう。
In the conventional method disclosed in Non-Patent
この発明は、このような課題に鑑みてなされたものであり、音素別に類似度を評価して類似度が高い音声が同じクラスに分類されるようにして教師なし音響モデル適応を行う音響モデル適応装置と、音声認識装置とそれらの方法とプログラムを提供することを目的とする。 The present invention has been made in view of such a problem, and is an acoustic model adaptation that performs unsupervised acoustic model adaptation by evaluating similarity for each phoneme and classifying voices with high similarity into the same class. It is an object to provide a device, a speech recognition device, and a method and program thereof.
この発明の音響モデル適応装置は、音声認識部と、音素誤り傾向ベクトル生成部と、クラスタリング部と、ベース音響モデルと、ベース音響モデル適応部と、適応後音響モデル記録部と、を具備する。音声認識部は、複数の音声から成る音声群を入力として、入力音声をベース音響モデルに基づいて音声認識処理した結果の音声認識結果テキストとその音声を出力する。音素誤り傾向ベクトル生成部は、入力音声の音響特徴量抽出をフレーム毎に行い当該フレームの音響特徴量の出力確率をベース音響モデルに含まれる全音素の全状態について求め、当該出力確率の最大値を当該フレームの出力確率の総和で除して1位音素の事後確率とし、当該1位音素の事後確率の音素毎の平均値を音声単位で求めた音素事後確率を当該音声単位で並べて事後確率ベクトルとし当該事後確率ベクトルから、予め求めた上記音声群全体の音声群全体事後確率ベクトルを減算して上記音声の音素誤り傾向ベクトルとして生成する。クラスタリング部は、上記音声と音声認識結果テキストと音素誤り傾向ベクトルとの3つの組群を入力として、音素誤り傾向ベクトル間の類似度を尺度に、3つの組群を所定のクラスのクラスタに分類すると共に当該クラスタ中の音素誤り傾向ベクトルの平均ベクトルであるセントロイドを求め、クラスタとセントロイドを出力する。ベース音響モデル適応部は、クラスタとセントロイドを入力として、各クラスタに含まれる音声と音声認識結果に基づいて、ベース音響モデルをクラスタごとに適応させた適応後音響モデルを生成する。適応後音響モデル記録部は、クラスタごとに適応後音響モデルを記録する。 The acoustic model adaptation device of the present invention includes a speech recognition unit, a phoneme error tendency vector generation unit, a clustering unit, a base acoustic model, a base acoustic model adaptation unit, and a post-adaptation acoustic model recording unit. The voice recognition unit receives a voice group composed of a plurality of voices, and outputs a voice recognition result text obtained as a result of voice recognition processing of the input voice based on the base acoustic model and the voice. The phoneme error tendency vector generation unit performs acoustic feature extraction of the input speech for each frame, obtains the output probability of the acoustic feature of the frame for all states of all phonemes included in the base acoustic model, and calculates the maximum value of the output probability Is divided by the sum of the output probabilities of the corresponding frame to obtain the posterior probability of the first phoneme, and the posterior probability obtained by arranging the phoneme posterior probabilities obtained by calculating the average value of each first phoneme posterior probability in units of speech. The speech group overall posterior probability vector of the entire speech group obtained in advance is subtracted from the posterior probability vector as a vector to generate the phoneme error tendency vector of the speech. The clustering unit receives the three groups of the speech, the speech recognition result text, and the phoneme error tendency vector as input, and classifies the three groups into clusters of a predetermined class on the basis of the similarity between the phoneme error tendency vectors. In addition, a centroid that is an average vector of phoneme error tendency vectors in the cluster is obtained, and the cluster and the centroid are output. The base acoustic model adaptation unit generates a post-adaptation acoustic model in which the base acoustic model is adapted for each cluster, based on the speech and speech recognition results included in each cluster, with the cluster and centroid as inputs. The post-adaptation acoustic model recording unit records the post-adaptation acoustic model for each cluster.
また、この発明の音声認識装置は、適応後音響モデル記録部と、音素誤り傾向ベクトル生成部と、近傍セントロイド選択部と、適用音響モデルと、音声認識部と、を具備する。適応後音響モデル記録部は、上記した音響モデル適応装置によって生成された適応後音響モデルを含む複数のクラスタとそのセントロイドとを組みにして記録する。音素誤り傾向ベクトル生成部は、認識対象音声の音響特徴量抽出をフレーム毎に行い当該フレームの音響特徴量の出力確率をベース音響モデルに含まれる全音素の全状態について求め、当該出力確率の最大値を当該フレームの出力確率の総和で除して1位音素の事後確率とし、当該1位音素の事後確率の音素毎の平均値を音声単位で求めた音素事後確率を当該音声単位で並べて事後確率ベクトルとし当該事後確率ベクトルから、外部から入力される予め求めた上記音声群全体の音声群全体事後確率ベクトルを減算して認識時音素誤り傾向ベクトルとして生成する。最近傍セントロイド選択部は、認識時音素誤り傾向ベクトルと、複数のクラスタと組みのセントロイドとの類似度が最大となる適応後音響モデルを選択して適用音響モデルとして出力する。音声認識部は、認識対象音声を、適用音響モデルに基づいて音声認識処理して音声認識結果テキストを出力する。 The speech recognition apparatus of the present invention further includes an after-adaptation acoustic model recording unit, a phoneme error tendency vector generation unit, a neighborhood centroid selection unit, an applied acoustic model, and a speech recognition unit. The post-adaptation acoustic model recording unit records a plurality of clusters including the post-adaptation acoustic model generated by the above-described acoustic model adaptation device and their centroids. The phoneme error tendency vector generation unit performs acoustic feature extraction of the recognition target speech for each frame, obtains the output probability of the acoustic feature of the frame for all states of all phonemes included in the base acoustic model, and calculates the maximum of the output probability The value is divided by the sum of the output probabilities of the frame to obtain the posterior probability of the first phoneme, and the posterior probabilities obtained by calculating the average value for each phoneme of the posterior probability of the first phoneme in units of speech A probability vector is generated as a phoneme error tendency vector at the time of recognition by subtracting the entire speech group a posteriori probability vector of the entire speech group input in advance from the posterior probability vector. The nearest neighbor centroid selection unit selects the post-adaptation acoustic model that maximizes the similarity between the recognition-time phoneme error tendency vector and the centroid of a plurality of clusters and pairs, and outputs the selected acoustic model as an applied acoustic model. The speech recognition unit performs speech recognition processing on the recognition target speech based on the applied acoustic model, and outputs a speech recognition result text.
この発明の音響モデル適応装置は、音声毎に音素別の傾向を考慮した音素数次元の音素誤り傾向ベクトルを求め、その音素誤り傾向ベクトル間の類似度に基づいて各音声とその音声認識結果テキストを複数のクラスタに分類する。よって、各クラスタには音素誤り傾向が似ている音声が分類される。その音素誤り傾向が似ている音声とその音声認識結果テキストを用いて、ベース音響モデルを教師なし適応させるので音響モデルの適応効果を高めることが可能になる。 The acoustic model adaptation device according to the present invention obtains a phoneme-number-dimensional phoneme error tendency vector in consideration of a tendency for each phoneme for each voice, and each voice and its speech recognition result text based on the similarity between the phoneme error tendency vectors. Are classified into a plurality of clusters. Therefore, voices having similar phoneme error tendencies are classified into each cluster. Using the speech with similar phoneme error tendency and the speech recognition result text, the base acoustic model is adapted unsupervised, so that the adaptation effect of the acoustic model can be enhanced.
また、この発明の音声認識装置によれば、認識対象音声の認識時音素誤り傾向ベクトルを求め、その認識時音素誤り傾向ベクトルと、上記したこの発明の音響モデル適応装置で適応させた適応後音響モデルのセントロイド(音素誤り傾向ベクトル)との類似度の高い適応後音響モデルを選択した適用音響モデルを用いて音声認識処理するので、音声認識の認識精度を高めることができる。 Further, according to the speech recognition apparatus of the present invention, the phoneme error tendency vector at the time of recognition of the recognition target speech is obtained, and the post-adaptive sound adapted by the above-described acoustic model adaptation device of the present invention and the recognized phoneme error tendency vector. Since the speech recognition process is performed using the applied acoustic model in which the post-adaptation acoustic model having a high similarity with the model centroid (phoneme error tendency vector) is selected, the recognition accuracy of speech recognition can be improved.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
図1に、この発明の音響モデル適応装置100の機能構成例を示す。その動作フローを図2に示す。音響モデル適応装置100は、音声認識部10と、音素誤り傾向ベクトル生成部20と、クラスタリング部30と、ベース音響モデル40と、ベース音響モデル適応部50と、適応後音響モデル記録部60と、を具備する。音響モデル適応装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 1 shows a functional configuration example of an acoustic model adaptation apparatus 100 of the present invention. The operation flow is shown in FIG. The acoustic model adaptation apparatus 100 includes a
音声認識部10は、複数の音声から成る音声群を入力として、その音声をベース音響モデル40に基づいて音声認識処理した結果の音声認識結果テキストとその音声を出力する(ステップS10)。音声はディジタル信号で与えられ、所定の数の音声ディジタル信号を1フレーム(例えば20ms)としたフレーム毎に、音声認識処理が施される。音声認識した結果の音声認識結果テキストは、その音声と組で出力される。なお、音声認識部10は従来技術で構成される。
The
音素誤り傾向ベクトル生成部20は、上記音声ディジタル信号の音響特徴量抽出をフレーム毎に行い当該フレームの音響特徴量の出力確率をベース音響モデル40に含まれる全音素の全状態について求め、その出力確率の最大値を当該フレームの出力確率の総和で除して1位音素の事後確率とし、その1位音素の事後確率の音素毎の平均値を音声単位で求めた音素事後確率をその音声単位で並べて事後確率ベクトルとしその事後確率ベクトルから、予め求めた上記音声群全体の音声群全体事後確率ベクトルを減算してその音声単位の音素誤り傾向ベクトルとして生成する(ステップS20)。ここで、音声群を成す複数の音声のそれぞれは、例えば数分間の電話会話や1時間程度の講演会の講義を録音した音声や動画の音声等である。ここで、音声群全体の音声群全体事後確率ベクトルとは、音素誤り傾向ベクトル生成部20が行う音響モデルを作る為に入力される音声群に対して事後確率ベクトルを生成するまでの処理を施して生成した事後確率ベクトルのことであり、予め求めておく。音声群全体事後確率ベクトルは、外部から入力してもよいし、音素誤り傾向ベクトル生成部20に予め記録させておいてもよい。音声群全体事後確率ベクトルを含めた音素誤り傾向ベクトル生成部20の詳しい動作説明は後述する。
The phoneme error tendency
クラスタリング部30は、音声認識部10が出力する音声認識結果テキストとその音声と、音素誤り傾向ベクトル生成部20が出力するその音声の音素誤り傾向ベクトルとの3つの組群の集まりである全体集合を入力として、音素誤り傾向ベクトル間の類似度を尺度に、3つの組群を所定の数(k個)のクラスのクラスタに分類すると共に、当該クラスタ中の音素誤り傾向ベクトルの平均ベクトルであるセントロイドとを求め、クラスタとセントロイドを出力する(ステップS30)。1個のクラスタは、音声、音声認識結果テキスト、音素誤り傾向ベクトル、の3つの組が集合した部分集合である。分類数kは、所望のクラスタ数に全体集合を分割する数であり、例えばk=48とされる。分類数kは、外部からクラスタリング部30に与えてもよいし、予めクラスタリング部30に設定しておいてもよい。分類数kは50位〜100位を目安に設定する。
The
ベース音響モデル適応部50は、クラスタリング部30が出力するクラスタとセントロイドを入力として、各クラスタに含まれる音声と音声認識結果テキストに基づいて、ベース音響モデル40をクラスタ毎に適応させた適応後音響モデルを生成し、適応後音響モデルと当該クラスタのセントロイドのペアを出力する(ステップS50)。ベース音響モデル適応部50は、クラスタの数k個にそれぞれ対応するk個の音響モデル適応部501〜50kで構成される。
The base acoustic
適応後音響モデル記録部60は、クラスタ毎の適応後音響モデルとセントロイドのペアを記録する(ステップS60)。複数の適応後音響モデル1〜kは、それぞれ適応後音響モデル601〜60kとして別々に記録される。
The post-adaptation acoustic
以上のように動作することで、ベース音響モデル40は、音素誤り傾向が似た音声の部分集合(クラスタ)毎に、その音声と音声認識結果テキストを用いた教師なし音響モデル適応処理によって適応後音響モデルに変換される。したがって、音響モデル適応装置100は、従来の音響モデル適応装置よりも音響モデルの適応効果を高めることができる。
By operating as described above, the base
〔音素誤り傾向ベクトル生成部〕
音響モデル適応装置100の各部の機能を具体的に示して更に詳しく説明する。図3に、音素誤り傾向ベクトル生成部20の機能構成例を示す。音素誤り傾向ベクトル生成部20は、音響特徴量抽出手段21と、出力確率算出手段22と、出力確率総和計算手段23と、最大出力確率音素の事後確率計算手段24と、音素事後確率計算手段25と、事後確率ベクトル生成手段26と、音素誤り傾向ベクトル生成手段27と、を備える。
[Phoneme error tendency vector generator]
The function of each part of the acoustic model adaptation apparatus 100 will be specifically described and described in detail. FIG. 3 shows a functional configuration example of the phoneme error tendency
音響特徴量抽出手段21は、複数の音声Uall(U1,U2,…,Un)の音声Uiの音響特徴量Oitをフレーム毎に抽出する。tは音声Ui中でのフレーム番号を表す。音響特徴量Oitは、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。音響特徴量Oitは、音声認識部10から入手してもよい。その場合、音響特徴量抽出手段21は不要である。
The acoustic feature
出力確率算出手段22は、各フレームにおいて、ベース音響モデル40に含まれる全音素のモノフォンモデルの全状態について、当該フレームの音響特徴量Oitの出力確率を算出する。第tフレームの音響特徴量Oitの出力確率をP(Oit|sj)と表記する。ここで、sjはベース音響モデル40に含まれるモノフォンHMMのj番目の状態を表す。
Output
図4に、フレーム毎の音響特徴量Oitと出力確率の関係を模式的に示す。音声Uiの先頭から、例えば20msの時間幅のフレーム毎にその音響特徴量Oitが抽出される。第8番目のフレームti8の音響特徴量Oi8の出力確率を、ベース音響モデル40に含まれる全音素のモノフォンモデルの全状態について算出する。全音素とは、例えば/a/,/i/,/u/,…/N/のローマ字の表記に相当する音素のことであり、その数は例えば26個である。音素のモノフォンモデルの全状態とは、/a/〜/N/の第1状態〜第3状態の全ての状態のことであり、音素数を26個、状態数を3個とすると78個になる。出力確率算出手段22は、この全状態についての出力確率P(Oi8|a1)〜P(Oi8|N3)を算出する。P(Oi8|a1)〜P(Oi8|N3)は、P(Oi8|s1)〜P(Oi8|s78)である。
FIG. 4 schematically shows the relationship between the acoustic feature amount Oit and the output probability for each frame. The acoustic feature value Oit is extracted for each frame having a time width of 20 ms, for example, from the head of the sound U i . The output probability of the acoustic feature value O i8 of the eighth frame t i8 is calculated for all states of all phoneme monophone models included in the base
出力確率総和算出手段23は、各フレームの出力確率の総和P(Oit)を式(1)で計算する。 The output probability sum calculating means 23 calculates the sum P (O it ) of the output probabilities of each frame by the equation (1).
最大出力確率音素の事後確率算出手段24は、各フレームにおいて、当該フレームで最大の出力確率となる音素を^pとして、その最大出力確率(式(2))を各フレームの出力確率の総和P(Oit)で除した値を、当該フレームの1位音素の事後確率P(^p|Oit)として計算する(式(3))。図4は、音素/i/の第2状態を最大出力確率とした例を示す。 The a posteriori probability calculating means 24 of the maximum output probability phoneme takes the maximum output probability (formula (2)) as the sum of the output probabilities P of each frame, where ^ p is the phoneme having the maximum output probability in that frame. The value divided by (O it ) is calculated as the posterior probability P (^ p | O it ) of the first phoneme of the frame (formula (3)). FIG. 4 shows an example in which the second state of phonemes / i / is set as the maximum output probability.
なお、式(3)の分子は、最大出力確率を示す状態の出力確率でもよいし、その音素の第1状態〜第3状態の出力確率の和でもよい。 The numerator of equation (3) may be an output probability in a state indicating the maximum output probability, or may be a sum of output probabilities of the first state to the third state of the phoneme.
音素事後確率計算手段25は、各フレームの1位音素の事後確率の音素毎のフレーム平均値を、音声Ui単位で求めて音素毎の事後確率とする。図5に、1位音素の事後確率と音素毎の事後確率との関係を模式的に示す。図5では、音声Ui内のフレームt8とt24とtnの1位音素が/i/であった場合を示している。他の音素の1位音素の事後確率の表記は省略している。 The phoneme posterior probability calculation means 25 obtains the frame average value for each phoneme of the posterior probability of the first phoneme of each frame in units of speech U i and sets it as the posterior probability for each phoneme. FIG. 5 schematically shows the relationship between the posterior probability of the first phoneme and the posterior probability of each phoneme. FIG. 5 shows a case where the first phoneme of frames t 8 , t 24 and t n in speech U i is / i /. The notation of the posterior probability of the first phoneme of other phonemes is omitted.
音素事後確率計算手段25は、音素/i/の事後確率が1位のフレームの事後確率を音声Ui内の全フレームにわたって合計した値を、音素/i/の事後確率が1位のフレーム数で除して音素毎の音素事後確率を計算する。他の各々の音素についての音素事後確率も同様に計算される。 The phoneme posterior probability calculating means 25 calculates the sum of the posterior probabilities of the frame with the first posterior probability of the phoneme / i / over all the frames in the speech U i , and the number of frames with the first posterior probability of the phoneme / i /. Divide by to calculate the phoneme posterior probability for each phoneme. The phoneme posterior probabilities for each other phoneme are calculated similarly.
事後確率ベクトル生成手段26は、音素毎の音素事後確率を並べて事後確率ベクトルを生成する。音素事後確率を並べる順序としては、例えば音素名を辞書式順序で昇順に並べた順序とすればよい。事後確率ベクトルは、音声Uiの時間長が短い場合には出現する音素が少ないのでスパースになる場合が想定される。しかし、音声Uiは上記したように例えば電話会話における一通話のような長い単位を1つの適応データとするので全音素の音素事後確率が並べられる場合が多い。音素数を例えば26個とすると、事後確率ベクトルは26次元のベクトルとなる。 The posterior probability vector generating means 26 generates a posterior probability vector by arranging phoneme posterior probabilities for each phoneme. The order in which phoneme posterior probabilities are arranged may be, for example, an order in which phoneme names are arranged in ascending order in a lexicographic order. The posterior probability vector is assumed to be sparse because there are few phonemes that appear when the time length of the speech U i is short. However, as described above, since the voice U i uses a long unit such as one call in a telephone conversation as one adaptation data, the phoneme posterior probabilities of all phonemes are often arranged. For example, when the number of phonemes is 26, the posterior probability vector is a 26-dimensional vector.
音素誤り傾向ベクトル生成手段27は、事後確率ベクトル生成手段26が出力する事後確率ベクトルから、外部から入力される予め求めた音声群全体事後確率ベクトルを減算することで各音声Uiの音素誤り傾向ベクトルを生成する。音声群全体事後確率ベクトルは、音響モデル適応装置100に入力される全ての音声Uiについて、音素誤り傾向ベクトル生成部20が行う事後確率ベクトルを生成するまでの処理を施して生成したものである。ベース音響モデル40を同じものとすることで、事後確率ベクトルと音声群全体事後確率ベクトルの次元数は同じになる。
The phoneme error tendency vector generation means 27 subtracts the previously obtained speech group overall posterior probability vector input from the outside from the posterior probability vector output from the posterior probability vector generation means 26 to thereby obtain the phoneme error tendency of each voice U i. Generate a vector. The entire speech group posterior probability vector is generated by performing processing until the posterior probability vector generated by the phoneme error tendency
音素誤り傾向ベクトル生成手段27は、各音声Uiの各音素の事後確率を、音響モデルを造る為の全音声の事後確率で正規化する処理を行う。この処理によって得られた音素誤り傾向ベクトルの各要素の値は、その音素の認識誤り傾向を表す音素の誤り傾向スコアとなる。ある音声Uiにおいて、音素の誤り傾向スコアの値が正の場合はその音素は通常よりも正しく認識できることを表す。負の場合は、当該音素は通常よりも誤認識し易いことを表す。 The phoneme error tendency vector generation means 27 performs processing for normalizing the posterior probability of each phoneme of each speech U i with the posterior probability of all speeches for creating an acoustic model. The value of each element of the phoneme error tendency vector obtained by this processing is a phoneme error tendency score representing the recognition error tendency of the phoneme. In a certain voice U i , when the error tendency score value of a phoneme is positive, it indicates that the phoneme can be recognized more correctly than usual. A negative value indicates that the phoneme is more likely to be erroneously recognized than usual.
〔クラスタリング部〕
クラスタリング部30は、音声認識部10が出力する音声認識結果テキストと音声Uiと、音素誤り傾向ベクトル生成部20が出力するその音声Uiの音素誤り傾向ベクトルとの3つの組群を入力として、音素誤り傾向ベクトル間の類似度を尺度に、3つの組群を所定の数(k個)のクラスのクラスタに分類すると共に、当該クラスタ中の音素誤り傾向ベクトルの平均ベクトルであるセントロイドとを求め、上記クラスタとセントロイドを出力する。
[Clustering section]
The
k個のクラスタの分類は、ベクトル間の類似度を尺度にして行う。ベクトル間の類似度の尺度としては、例えばコサイン類似度を用いることができる。次元数が等しい2つのベクトルV1とV2の間のコサイン類似度S(V1,V2)は、式(4)で計算される。 The k clusters are classified based on the similarity between vectors. As a measure of similarity between vectors, for example, cosine similarity can be used. The cosine similarity S (V 1 , V 2 ) between two vectors V 1 and V 2 having the same number of dimensions is calculated by Expression (4).
V1・V2はベクトルV1とV2の内積、|V1|と|V2|はそれぞれベクトルV1とV2のノルムを表す。 V 1 · V 2 represents the inner product of the vectors V 1 and V 2 , and | V 1 | and | V 2 | represent the norms of the vectors V 1 and V 2 , respectively.
クラスタリング部30は、各音声Uiの音素誤り傾向ベクトルをV1,V2として、各音声間のコサイン類似度を式(4)で計算し、そのコサイン類似度の値を用いて各々の音声Uiを、k個のクラスタに分類する。そして、各クラスタ内の音素誤り傾向ベクトルを平均してそのクラスタのセントロイドを求める。複数の音声Uiを、k個のクラスタに分類する処理は、例えば大規模データでも比較的に高速に処理できる周知のk-means法を用いることができる。分類処理そのものは、この発明の主要部では無いので詳しい説明は省略する。
The
〔ベース音響モデル適応部〕
ベース音響モデル適応部50は、クラスタの数k個に対応する数の音響モデル適応部501〜50kで構成される。音響モデル適応部501〜50kは、音声、音声認識結果テキスト、音素誤り傾向ベクトル、の3つの組群の部分集合で構成されるk個のクラスタをそれぞれ入力として、各クラスタに含まれる音声Uiと音声認識結果テキストに基づいて、ベース音響モデル40を、クラスタ毎に教師なし適応させて適応後音響モデルを生成し、適応後音響モデルと当該クラスタのセントロイドのペアを出力する。
[Base acoustic model adaptation section]
The base acoustic
音響モデル適応アルゴリズムは従来技術であり、例えば参考文献(J.-L. Gauvain and C.-H. Lee,”Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains,”IEEE trans. on Speech and Audio processing, 2(2), pp.291-298,1994.)に記載された方法で行う。 The acoustic model adaptation algorithm is a conventional technique, for example, J.-L. Gauvain and C.-H. Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains,” IEEE trans. On Speech and Audio. processing, 2 (2), pp.291-298, 1994).
ベース音響モデル40をクラスタ毎に教師なし適応させた適応後音響モデルは、セントロイドと組み(ペア)でクラスタ毎に適応後音響モデル記録部60に記録される。その適応後音響モデルは、類似度の高い音声単位ごとに教師なし音響モデル適応を行わせたものなので、適応効果の高い音響モデルにすることができる。
The post-adaptation acoustic model in which the base
次に、この発明の音響モデル適応装置100で生成した適応後音響モデルを用いて音声認識処理を行う音声認識装置200を説明する。 Next, a speech recognition device 200 that performs speech recognition processing using the post-adaptation acoustic model generated by the acoustic model adaptation device 100 of the present invention will be described.
〔音声認識装置〕
図6に、この発明の音声認識装置200の機能構成例を示す。その動作フローを図7に示す。音声認識装置200は、適応後音響モデル記録部60と、認識時音素誤り傾向ベクトル生成部210と、ベース音響モデル40と、最近傍セントロイド選択部220と、適用音響モデル230と、音声認識部240と、を具備する。適応後音響モデル記録部60とベース音響モデル40は、参照符号から明らかなように音響モデル適応装置100と同じものである。音響モデル適応装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
[Voice recognition device]
FIG. 6 shows a functional configuration example of the speech recognition apparatus 200 of the present invention. The operation flow is shown in FIG. The speech recognition apparatus 200 includes an after-adaptation acoustic
適応後音響モデル記録部60は、上記した音響モデル適応装置100によって生成された適応後音響モデルを記録した複数のクラスタとそのセントロイドとを組みにして記録する。
The post-adaptation acoustic
認識時音素誤り傾向ベクトル生成部210は、認識対象音声の音響特徴量抽出をフレーム毎に行い当該フレームの音響特徴量の出力確率をベース音響モデルに含まれる全音素の全状態について求め、当該出力確率の最大値を当該フレームの出力確率の総和で除して1位音素の事後確率とし、当該1位音素の事後確率の音素毎の平均値を上記音声単位で求めた音素事後確率を当該音声単位で並べて事後確率ベクトルとし当該事後確率ベクトルから、予め求めた上記音声群全体の音声群全体事後確率ベクトルを減算して上記音声の認識時音素誤り傾向ベクトルとして生成する(ステップS210)。認識時音素誤り傾向ベクトル生成部210で行われる処理は、音響モデル適応装置100の音素誤り傾向ベクトル生成部20で行う処理と同じである。認識時音素誤り傾向ベクトル生成部210には、音声認識対象の認識対象音声が入力される点のみが異なる。
The recognition-time phoneme error tendency
最近傍セントロイド選択部220は、認識時音素誤り傾向ベクトルと、適応後音響モデル記録部60に記録された複数のクラスタと組みのセントロイドとの類似度が最大となる適応後音響モデルを、適用音響モデルとして選択して出力する(ステップS220)。適応後音響モデル記録部60に記録された複数のクラスタと組みのセントロイドは、各クラスタ内の音素誤り傾向ベクトルを平均したものである。最近傍セントロイド選択部220は、そのセントロイド(音素誤り傾向ベクトル)と認識時音素誤り傾向ベクトルとの類似度を、音響モデル適応装置100のクラスタリング部30で用いたのと同じコサイン類似度(式(4))を用いて評価し、類似度が最大となる適応後音響モデルを選択して適用音響モデル230として出力する。
The nearest-neighbor
音声認識部240は、認識対象音声を、最近傍セントロイド選択部220で選択された適用音響モデル230に基づいて音声認識処理して音声認識結果テキストを出力する(ステップS240)。
The
音声認識装置200によれば、認識対象音声と音素誤り傾向が類似する音声に適応した音響モデルを用いて音声認識処理が行われるので、認識率を向上させることができる。また、従来の方法では、複数の音響モデルごとに音声に対する尤度を計算して適切な音響モデルを選択するのに対し、この発明の方法では、1個のベース音響モデルから求めた1個の認識時音素誤り傾向ベクトルを生成することで、各音声の音素誤り傾向を評価するので高速に適切な音響モデルを選択することができる。その結果、音声を入力してから音声認識結果が出力されるまでのタイムラグを小さくすることができる。 According to the speech recognition apparatus 200, since the speech recognition process is performed using an acoustic model adapted to speech with a similar phoneme error tendency to the recognition target speech, the recognition rate can be improved. Further, in the conventional method, the likelihood for speech is calculated for each of a plurality of acoustic models and an appropriate acoustic model is selected, whereas in the method of the present invention, one piece obtained from one base acoustic model is used. By generating the phoneme error tendency vector at the time of recognition, the phoneme error tendency of each voice is evaluated, so that an appropriate acoustic model can be selected at high speed. As a result, it is possible to reduce the time lag from when the voice is input until the voice recognition result is output.
〔評価実験〕
この発明の音響モデル適応方法と音声認識方法の効果を確認する目的で評価実験を行った。その結果について説明する。
[Evaluation experiment]
An evaluation experiment was conducted for the purpose of confirming the effects of the acoustic model adaptation method and the speech recognition method of the present invention. The result will be described.
まず実験条件について説明する。評価実験用の音声データとして24名の話者による電話会話音声391通話を用いた。1名当たり12通話から22通話を収録した。各話者の通話の半数を集めたデータセット(196通話)と、残りの通話を集めたデータセット(196通話)を作成し、一方のデータセットを認識する際にはもう一方のデータセットを適応データとして用い、両実験の平均認識率で評価を行った。 First, experimental conditions will be described. As voice data for the evaluation experiment, a telephone conversation voice 391 call by 24 speakers was used. Twelve to twenty-two calls were recorded per person. Create a data set that collects half of each speaker's call (196 calls) and a data set that collects the remaining calls (196 calls). When recognizing one data set, the other data set It was used as adaptive data and evaluated using the average recognition rate of both experiments.
適応データのクラスタリングにはk-means法を用いクラスタ数は48とした。音響モデルの教師なし適応にはMAP適応(参考文献:「Gauvain et al., IEEE Trans. SAP, 2(2), 291-298,1994」)を用いた。 The k-means method was used for clustering of the adaptive data, and the number of clusters was 48. MAP adaptation (reference: “Gauvain et al., IEEE Trans. SAP, 2 (2), 291-298, 1994”) was used for unsupervised adaptation of acoustic models.
以上の前提で、次の4条件の認識率を比較した。その結果を図8に示す。横軸は話者ID、縦軸は認識率である。図8中の表記、■はベース音響モデルをそのまま用いた認識率(ベースライン)、×はクラスタリングを行わないで全ての適応データを用いて作成した1つの適応モデルを用いた認識率(1クラスタ)、●はクラスタリングした音響モデルを選択して用いた認識率(この発明)、▲は適応データを話者ごとに手動分類して適応を行った音響モデルを用いた認識率(話者既知の条件)である。 Based on the above assumptions, the recognition rates of the following four conditions were compared. The result is shown in FIG. The horizontal axis is the speaker ID, and the vertical axis is the recognition rate. The notation in FIG. 8, ■ indicates a recognition rate (baseline) using the base acoustic model as it is, and × indicates a recognition rate using one adaptive model (one cluster) created using all adaptive data without performing clustering. ), ● are recognition rates using selected clustered acoustic models (this invention), ▲ are recognition rates using acoustic models that have been adapted by manually classifying adaptation data for each speaker (speaker known) Condition).
1クラスタ(×)と比較して、この発明(●)は24名中23名の話者で認識率の改善が得られた。残りの話者(ID=12)の認識率もほぼ同等であることから、この発明の音素誤り傾向に着目したクラスタリングとモデル選択の有効性が確認された。また、図8に示すようにこの発明の認識率(●)は、理想的な条件と考えられる話者既知の条件(▲)に近い認識率を示した。この発明と話者既知の条件とにおける話者24名の平均認識率は、それぞれ84.55%と84.50%であり、この発明の方法によって話者既知の条件と同等の認識性能が得られることが確認できた。 Compared with one cluster (×), this invention (●) improved the recognition rate for 23 speakers out of 24. Since the recognition rates of the remaining speakers (ID = 12) are almost the same, the effectiveness of clustering and model selection focusing on the phoneme error tendency of the present invention was confirmed. Further, as shown in FIG. 8, the recognition rate (●) of the present invention is a recognition rate close to the speaker known condition (▲) considered to be an ideal condition. The average recognition rates of the 24 speakers in the present invention and the known speaker conditions are 84.55% and 84.50%, respectively, and it is confirmed that the recognition performance equivalent to the known speaker conditions can be obtained by the method of the present invention. did it.
このように、音声データによる音素誤り傾向の類似性に着目して適応データをクラスタリングし、分類されたクラスタ毎にベース音響モデルを教師なし適応させて適応後音響モデルを生成する音響モデル適応装置100と、その適応後音響モデルを選択して用いる音声認識装置200は、音声認識率を向上させることができる。 As described above, the adaptive data clustering is performed by clustering the adaptive data by paying attention to the similarity of the phoneme error tendency based on the speech data, and generating the post-adaptation acoustic model by applying the base acoustic model unsupervised for each classified cluster. The speech recognition apparatus 200 that selects and uses the post-adaptation acoustic model can improve the speech recognition rate.
上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The processes described in the above apparatuses and methods are not only executed in time series according to the order of description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. .
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (6)
上記音声の音響特徴量抽出をフレーム毎に行い当該フレームの音響特徴量の出力確率を上記ベース音響モデルに含まれる全音素の全状態について求め、当該出力確率の最大値を当該フレームの出力確率の総和で除して1位音素の事後確率とし、当該1位音素の事後確率の音素毎の平均値を上記音声単位で求めた音素事後確率を当該音声単位で並べて事後確率ベクトルとし当該事後確率ベクトルから、予め求めた上記音声群全体の音声群全体事後確率ベクトルを減算して上記音声の音素誤り傾向ベクトルとして生成する音素誤り傾向ベクトル生成部と、
上記音声と上記音声認識結果テキストと上記音素誤り傾向ベクトルとの3つの組群を入力として、上記音素誤り傾向ベクトル間の類似度を尺度に、上記3つの組群を所定の数のクラスのクラスタに分類すると共に当該クラスタ中の上記音素誤り傾向ベクトルの平均ベクトルであるセントロイドを求め、上記クラスタとセントロイドを出力するクラスタリング部と、
上記クラスタとセントロイドを入力として、各クラスタに含まれる音声と音声認識結果テキストに基づいて、上記ベース音響モデルを上記クラスタ毎に適応させた適応後音響モデルを生成するベース音響モデル適応部と、
上記クラスタ毎に上記適応後音響モデルを記録する適応後音響モデル記録部と、
を具備する音響モデル適応装置。 A voice recognition unit that outputs a voice recognition result text and a voice as a result of voice recognition processing based on a base acoustic model, with a voice group including a plurality of voices as an input;
The acoustic feature extraction of the voice is performed for each frame, and the output probability of the acoustic feature of the frame is obtained for all states of all phonemes included in the base acoustic model, and the maximum value of the output probability is calculated as the output probability of the frame. Divide by the sum to make the posterior probability of the first phoneme, arrange the phoneme posterior probabilities obtained by the above speech units for the average value for each phoneme of the posterior probability of the first phoneme as the posterior probability vector A phoneme error tendency vector generation unit that subtracts a speech group posterior probability vector of the entire speech group obtained in advance to generate a phoneme error tendency vector of the speech;
Three sets of the speech, the speech recognition result text, and the phoneme error tendency vector are input, and the three sets are clustered in a predetermined number of classes using the similarity between the phoneme error tendency vectors as a scale. A centroid that is an average vector of the phoneme error tendency vectors in the cluster and outputs the cluster and the centroid;
Based on the cluster and centroid as an input, based on the speech and speech recognition result text included in each cluster, a base acoustic model adaptation unit that generates an adaptive acoustic model in which the base acoustic model is adapted for each cluster;
A post-adaptation acoustic model recording unit that records the post-adaptation acoustic model for each cluster;
An acoustic model adaptation apparatus comprising:
上記音素誤り傾向ベクトル生成部は、
上記音声を入力としてフレームごとに音響特徴量抽出を行い音響特徴量を出力する音響特徴量抽出手段と、
上記フレームごとの音響特徴量の出力確率を、ベース音響モデルの全てのモノフォンモデルの全状態について算出する出力確率算出手段と、
上記全てのモノフォンモデルについて算出された出力確率の総和を、フレームごとに計算する出力確率総和計算手段と、
各フレームで最大の上記出力確率を1位音素の最大出力確率とし、当該1位音素の最大出力確率を上記全状態の出力確率の総和で除して1位音素の事後確率として計算する最大出力確率音素の事後確率計算手段と、
上記1位音素の事後確率を全フレームにわたって合計した値を、当該音素が1位音素である場合の数で除して音素ごとの音素事後確率を計算する音素事後確率計算手段と、
上記音素事後確率を上記音声単位で並べて事後確率ベクトルを生成する事後確率ベクトル生成手段と、
上記事後確率ベクトルを、外部から入力される予め求めた上記音声群全体の音声群全体事後確率ベクトルを減算して上記音声の音素誤り傾向ベクトルとして生成する音素誤り傾向ベクトル生成手段と、
を備えることを特徴とする音響モデル適応装置。 The acoustic model adaptation device according to claim 1,
The phoneme error tendency vector generation unit
An acoustic feature quantity extraction means for extracting the acoustic feature quantity for each frame using the voice as input and outputting the acoustic feature quantity;
Output probability calculation means for calculating the output probability of the acoustic feature amount for each frame for all states of all monophone models of the base acoustic model;
Output probability sum calculation means for calculating the sum of output probabilities calculated for all the monophone models for each frame;
The maximum output probability of each first frame is defined as the maximum output probability of the first phoneme, and the maximum output probability of the first phoneme is calculated by dividing the maximum output probability of the first phoneme by the sum of the output probabilities of all the states. A means for calculating the posterior probability of a stochastic phoneme;
A phoneme posterior probability calculating means for calculating a phoneme posterior probability for each phoneme by dividing a value obtained by summing the posterior probability of the first phoneme over all frames by a number when the phoneme is the first phoneme;
A posterior probability vector generating means for generating the posterior probability vector by arranging the phoneme posterior probabilities in units of the speech;
A phoneme error tendency vector generation means for subtracting a speech group posterior probability vector of the whole speech group obtained in advance from the outside, and generating the phoneme error trend vector of the speech as the posterior probability vector;
An acoustic model adaptation device comprising:
認識対象音声の音響特徴量抽出をフレームごとに行い当該フレームの音響特徴量の出力確率をベース音響モデルに含まれる全音素の全状態について求め、当該出力確率の最大値を当該フレームの出力確率の総和で除して1位音素の事後確率とし、当該1位音素の事後確率の音素毎の平均値を上記音声単位で求めた音素事後確率を当該音声単位で並べて事後確率ベクトルとし当該事後確率ベクトルから、外部から入力される予め求めた上記音声群全体の音声群全体事後確率ベクトルを減算して認識時音素誤り傾向ベクトルとして生成する認識時音素誤り傾向ベクトル生成部と、
上記認識時音素誤り傾向ベクトルと、上記複数のクラスタと組みのセントロイドとの類似度が最大となる適応後音響モデルを適用音響モデルとして選択して出力する最近傍セントロイド選択部と、
上記認識対象音声を、上記選択音響モデルに基づいて音声認識処理して音声認識結果テキストを出力する音声認識部と、
を具備する音声認識装置。 A post-adaptation acoustic model recording unit that records a plurality of clusters including the post-adaptation acoustic model generated by the acoustic model adaptation device according to claim 1 and the centroid, and
The acoustic feature extraction of the recognition target speech is performed for each frame, the output probability of the acoustic feature of the frame is obtained for all the states of all phonemes included in the base acoustic model, and the maximum value of the output probability is calculated as the output probability of the frame. Divide by the sum to make the posterior probability of the first phoneme, arrange the phoneme posterior probabilities obtained by the above speech units for the average value for each phoneme of the posterior probability of the first phoneme as the posterior probability vector A recognition-time phoneme error tendency vector generation unit that generates a recognition-time phoneme error tendency vector by subtracting the entire speech group posterior probability vector of the entire speech group that is input in advance from the outside;
The nearest-neighbor centroid selection unit that selects and outputs the applied acoustic model as an applied acoustic model that maximizes the degree of similarity between the recognition phoneme error tendency vector and the centroid of the set of the plurality of clusters,
A speech recognition unit that performs speech recognition processing on the recognition target speech based on the selected acoustic model and outputs a speech recognition result text; and
A speech recognition apparatus comprising:
上記音声の音響特徴量抽出をフレーム毎に行い当該フレームの音響特徴量の出力確率を上記ベース音響モデルに含まれる全音素の全状態について求め、当該出力確率の最大値を当該フレームの出力確率の総和で除して1位音素の事後確率とし、当該1位音素の事後確率の音素毎の平均値を上記音声単位で求めた音素事後確率を当該音声単位で並べて事後確率ベクトルとし当該事後確率ベクトルから、予め求めた上記音声群全体の音声群全体事後確率ベクトルを減算して上記音声の音素誤り傾向ベクトルとして生成する音素誤り傾向ベクトル生成過程と、
上記音声と上記音声認識結果テキストと上記音素誤り傾向ベクトルとの3つの組群を入力として、上記音素誤り傾向ベクトル間の類似度を尺度に、上記3つの組群を所定の数のクラスのクラスタに分類すると共に当該クラスタ中の上記音素誤り傾向ベクトルの平均ベクトルであるセントロイドを求め、上記クラスタとセントロイドを出力するクラスタリング過程と、
上記クラスタとセントロイドを入力として、各クラスタに含まれる音声と音声認識結果テキストに基づいて、上記ベース音響モデルを上記クラスタ毎に適応させた適応後音響モデルを生成するベース音響モデル適応過程と、
上記クラスタ毎に上記適応後音響モデルを記録する適応後音響モデル記録過程と、
を備える音響モデル適応方法。 A speech recognition process for outputting a speech recognition result text and a speech as a result of speech recognition processing based on a base acoustic model, with a speech group consisting of a plurality of speeches as input,
The acoustic feature extraction of the voice is performed for each frame, and the output probability of the acoustic feature of the frame is obtained for all states of all phonemes included in the base acoustic model, and the maximum value of the output probability is calculated as the output probability of the frame. Divide by the sum to make the posterior probability of the first phoneme, arrange the phoneme posterior probabilities obtained by the above speech units for the average value for each phoneme of the posterior probability of the first phoneme as the posterior probability vector A phoneme error tendency vector generation process for subtracting a speech group posterior probability vector of the entire speech group obtained in advance to generate a phoneme error tendency vector of the speech;
Three sets of the speech, the speech recognition result text, and the phoneme error tendency vector are input, and the three sets are clustered in a predetermined number of classes using the similarity between the phoneme error tendency vectors as a scale. A clustering process for obtaining a centroid that is an average vector of the phoneme error tendency vectors in the cluster and outputting the cluster and the centroid;
Based on the cluster and centroid as input, based on speech and speech recognition result text included in each cluster, a base acoustic model adaptation process for generating an adapted acoustic model in which the base acoustic model is adapted for each cluster;
A post-adaptive acoustic model recording process for recording the post-adaptation acoustic model for each cluster;
An acoustic model adaptation method comprising:
上記認識時音素誤り傾向ベクトルと、請求項1又は2に記載した適応後音響モデル記録部に記録された複数のクラスタと組みのセントロイドとの類似度が最大となる適応後音響モデルを適用音響モデルとして選択して出力する最近傍セントロイド選択過程と、
上記認識対象音声を、上記適用音響モデルに基づいて音声認識処理して音声認識結果テキストを出力する音声認識過程と、
を備える音声認識方法。 The acoustic feature extraction of the recognition target speech is performed for each frame, the output probability of the acoustic feature of the frame is obtained for all the states of all phonemes included in the base acoustic model, and the maximum value of the output probability is calculated as the output probability of the frame. Divide by the sum to make the posterior probability of the first phoneme, arrange the phoneme posterior probabilities obtained by the above speech units for the average value for each phoneme of the posterior probability of the first phoneme as the posterior probability vector A recognition-time phoneme error tendency vector generation process for generating a recognition-time phoneme error tendency vector by subtracting a speech group posterior probability vector of the entire speech group obtained in advance input from the outside;
A post-adaptive acoustic model in which the similarity between the recognition phoneme error tendency vector and the centroid of a set of a plurality of clusters and a set recorded in the post-adaptation acoustic model recording unit according to claim 1 or 2 is applied. The nearest centroid selection process to select and output as a model,
A speech recognition process in which the recognition target speech is subjected to speech recognition processing based on the applied acoustic model and a speech recognition result text is output;
A speech recognition method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012022908A JP5749186B2 (en) | 2012-02-06 | 2012-02-06 | Acoustic model adaptation device, speech recognition device, method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012022908A JP5749186B2 (en) | 2012-02-06 | 2012-02-06 | Acoustic model adaptation device, speech recognition device, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013160930A true JP2013160930A (en) | 2013-08-19 |
JP5749186B2 JP5749186B2 (en) | 2015-07-15 |
Family
ID=49173212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012022908A Expired - Fee Related JP5749186B2 (en) | 2012-02-06 | 2012-02-06 | Acoustic model adaptation device, speech recognition device, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5749186B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015049398A (en) * | 2013-09-02 | 2015-03-16 | 本田技研工業株式会社 | Sound recognition device, sound recognition method, and sound recognition program |
CN112133325A (en) * | 2020-10-14 | 2020-12-25 | 北京猿力未来科技有限公司 | Wrong phoneme recognition method and device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325936A (en) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | Speech recognition device, speech recognition method, and speech recognition program, and recording medium recorded with its program |
WO2007105409A1 (en) * | 2006-02-27 | 2007-09-20 | Nec Corporation | Reference pattern adapter, reference pattern adapting method, and reference pattern adapting program |
JP2007248730A (en) * | 2006-03-15 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | Sound model adaptive apparatus, method, and program, and recording medium |
US20080270133A1 (en) * | 2007-04-24 | 2008-10-30 | Microsoft Corporation | Speech model refinement with transcription error detection |
JP2010055030A (en) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | Acoustic processor and program |
-
2012
- 2012-02-06 JP JP2012022908A patent/JP5749186B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325936A (en) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | Speech recognition device, speech recognition method, and speech recognition program, and recording medium recorded with its program |
WO2007105409A1 (en) * | 2006-02-27 | 2007-09-20 | Nec Corporation | Reference pattern adapter, reference pattern adapting method, and reference pattern adapting program |
JP2007248730A (en) * | 2006-03-15 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | Sound model adaptive apparatus, method, and program, and recording medium |
US20080270133A1 (en) * | 2007-04-24 | 2008-10-30 | Microsoft Corporation | Speech model refinement with transcription error detection |
JP2010055030A (en) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | Acoustic processor and program |
Non-Patent Citations (1)
Title |
---|
JPN6014044146; Francoise Beaufays, et al.: 'Unsupervised Discovery and Training of Maximally Dissimilar Cluster Models' 11th Annual Conference of the International Speech Communication Association(INTERSPEECH 2010) , 20100926, pp.66-69, International Speech Communication Association * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015049398A (en) * | 2013-09-02 | 2015-03-16 | 本田技研工業株式会社 | Sound recognition device, sound recognition method, and sound recognition program |
US9911436B2 (en) | 2013-09-02 | 2018-03-06 | Honda Motor Co., Ltd. | Sound recognition apparatus, sound recognition method, and sound recognition program |
CN112133325A (en) * | 2020-10-14 | 2020-12-25 | 北京猿力未来科技有限公司 | Wrong phoneme recognition method and device |
CN112133325B (en) * | 2020-10-14 | 2024-05-07 | 北京猿力未来科技有限公司 | Wrong phoneme recognition method and device |
Also Published As
Publication number | Publication date |
---|---|
JP5749186B2 (en) | 2015-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636860B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
US10109280B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
JP5052449B2 (en) | Speech section speaker classification apparatus and method, speech recognition apparatus and method using the apparatus, program, and recording medium | |
Friedland et al. | The ICSI RT-09 speaker diarization system | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP5692493B2 (en) | Hidden Markov Model Creation Program, Information Storage Medium, Hidden Markov Model Creation System, Speech Recognition System, and Speech Recognition Method | |
JP6622681B2 (en) | Phoneme Breakdown Detection Model Learning Device, Phoneme Breakdown Interval Detection Device, Phoneme Breakdown Detection Model Learning Method, Phoneme Breakdown Interval Detection Method, Program | |
JP5749186B2 (en) | Acoustic model adaptation device, speech recognition device, method and program thereof | |
Fauziya et al. | A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling | |
JP4964194B2 (en) | Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof | |
JP6220733B2 (en) | Voice classification device, voice classification method, and program | |
JP7107377B2 (en) | Speech processing device, speech processing method, and program | |
Hmich et al. | Automatic speaker identification by using the neural network | |
JP5104732B2 (en) | Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof | |
US20240153494A1 (en) | Techniques for generating training data for acoustic models using domain adaptation | |
Sahu et al. | An overview: context-dependent acoustic modeling for LVCSR | |
KR20180057315A (en) | System and method for classifying spontaneous speech | |
George et al. | AMRITATCS-IITGUWAHATI combined system for the Speakers in the Wild (SITW) speaker recognition challenge | |
Ghalehjegh | New paradigms for modeling acoustic variation in speech processing | |
Asami et al. | Speech Data Clustering Based on Phoneme Error Trend for Unsupervised Acoustic Model Adaptation. | |
Elenius et al. | On extending VTLN to phoneme-specific warping in automatic speech recognition | |
Tran | Noise-robust voice conversion | |
Bharathi et al. | A two-level approach for speaker recognition using speaker-specific-text | |
GUANGSEN | Context-Dependent Acoustic Modelling for Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141021 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150513 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5749186 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |