JP4951035B2 - Likelihood ratio model creation device by speech unit, Likelihood ratio model creation method by speech unit, speech recognition reliability calculation device, speech recognition reliability calculation method, program - Google Patents
Likelihood ratio model creation device by speech unit, Likelihood ratio model creation method by speech unit, speech recognition reliability calculation device, speech recognition reliability calculation method, program Download PDFInfo
- Publication number
- JP4951035B2 JP4951035B2 JP2009161463A JP2009161463A JP4951035B2 JP 4951035 B2 JP4951035 B2 JP 4951035B2 JP 2009161463 A JP2009161463 A JP 2009161463A JP 2009161463 A JP2009161463 A JP 2009161463A JP 4951035 B2 JP4951035 B2 JP 4951035B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- phoneme
- speech
- frame
- likelihood ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、音声単位別の尤度比モデルの作成およびこの尤度比モデルを用いて音声認識の信頼度を算出する技術に関する。 The present invention relates to a technique for creating a likelihood ratio model for each speech unit and calculating the reliability of speech recognition using the likelihood ratio model.
音声認識技術では、音声認識結果の信頼度を計算し、この信頼度で音声認識結果の正誤などを判断することがあるため、このような信頼度が重要な指標の一つとなっている。 In the speech recognition technology, since the reliability of the speech recognition result is calculated and the correctness / incorrectness of the speech recognition result may be determined based on this reliability, such reliability is one of important indexes.
例えば、音節認識結果の尤度(音節尤度)を参照尤度として用いる信頼度の算出方法として非特許文献1が挙げられる。この技術は、図1に示すように、特徴量分析部901が入力されたフレームごとのテジタル音声信号の音響特徴量を求め、認識処理部902は、音響モデル903と辞書・言語モデル904を用いてフレームごとの音響特徴量に対する音声認識処理を行い音声認識結果とその認識尤度(タスク尤度)を算出し、音節尤度算出部905がフレームごとの音響特徴量から音節尤度を求め、信頼度算出部906が、タスク尤度を音節尤度で正規化して信頼度を得ている。このように、この技術は、認識対象辞書を用いた音声認識によるタスク尤度を音節認識による音節尤度で正規化し、語彙外入力における正誤判別能力を高めている。
For example, Non-Patent
また、特許文献1には、認識尤度(スコア)が第1位の単語と異なる認識尤度が第2位以降の単語のうち認識尤度の最も高い単語の認識尤度と、第1位の認識尤度との尤度差を参照尤度として用いる、N-bestによる信頼度算出方法が開示されている。
Further, in
また、音声認識システムの開発などのためのオープンソースの汎用大語彙連続音声認識エンジンとしてJulius(非特許文献2参照)などが存在する。 Also, Julius (see Non-Patent Document 2) and the like exist as open source general-purpose large vocabulary continuous speech recognition engines for developing speech recognition systems.
上記非特許文献1に開示される技術によると、音節尤度の算出処理が累積されるため認識処理全体の処理量が大きい。
According to the technique disclosed in
上記特許文献1に開示される技術によると、N-bestを求めることで参照尤度が求まるため算出処理は少ないが、語彙外入力に対して正誤判別能力が必ずしも良好とは言えない。
According to the technique disclosed in
また、従来技術における信頼度の計算はフレーム長やフレーム数に依存しているため、認識尤度および参照尤度の値域が定まらない。このため、言語的単位(例えば単語)や発声時間によらず普遍的に信頼度を正規化する(例えば0〜100の値に収める)ことが困難である。 In addition, since the calculation of reliability in the prior art depends on the frame length and the number of frames, the range of recognition likelihood and reference likelihood is not determined. For this reason, it is difficult to universally normalize the reliability (for example, fall within a value of 0 to 100) regardless of the linguistic unit (for example, word) and the utterance time.
このような状況に鑑みて、本発明は、音声単位別の正規化された尤度比モデルの作成およびこの尤度比モデルを用いて正規化された音声認識の信頼度を算出する各技術を提供することを目的とする。 In view of such a situation, the present invention creates a normalized likelihood ratio model for each speech unit and calculates each technique for calculating the reliability of speech recognition normalized using this likelihood ratio model. The purpose is to provide.
本発明は、音声単位別の正規化された尤度比モデルを作成する技術に関して、音響モデルと、音声データとこの音声データに対応付けられた正解ラベルで構成される開発データと、混合正規分布(GMM)とを用いて、音声データの音響特徴量をフレームごとに算出し(特徴量分析)、フレームごとの音響特徴量に対して、正解ラベルと音響モデルを用いて、正解ラベルに含まれる音声単位の正解尤度を算出し(正解尤度算出)、フレームごとの音響特徴量に対して、GMMによる尤度(GMM尤度)を算出し(GMM尤度算出)、フレームごとに、正解尤度とGMM尤度の比(音声単位別尤度比)を算出し(音声単位別尤度比算出)、開発データに含まれる音声単位ごとに、音声単位に対応する音声単位別尤度比を確率変数とする確率分布関数を正規化した正規化確率分布関数(音声単位別尤度比モデル)を作成する(音声単位別尤度比モデル作成)。 The present invention relates to a technique for creating a normalized likelihood ratio model for each speech unit, an acoustic model, development data composed of speech data and correct labels associated with the speech data, and a mixed normal distribution. (GMM) is used to calculate the acoustic feature amount of the voice data for each frame (feature amount analysis), and the correct feature label and the acoustic model are used for the acoustic feature amount for each frame and included in the correct label. The correct likelihood of each speech is calculated (correct likelihood calculation), and the likelihood by GMM (GMM likelihood) is calculated for each frame acoustic feature (GMM likelihood calculation). The ratio between likelihood and likelihood of GMM (likelihood ratio for each voice unit) is calculated (likelihood ratio for each voice unit), and for each voice unit included in the development data, the likelihood ratio for each voice unit corresponding to the voice unit Probability distribution with a random variable The number to create a normalized normalized probability distribution function (audio unit by the likelihood ratio model) (by speech unit likelihood ratio modeling).
このGMMは、学習用音声データの有声区間から学習された混合正規分布であるとし、GMM尤度算出では、学習用音声データの無声区間から学習された無声モデルも用いて、上記GMM尤度を算出するようにしてもよい。 This GMM is assumed to be a mixed normal distribution learned from the voiced interval of the learning speech data, and the GMM likelihood is calculated using the unvoiced model learned from the unvoiced interval of the learning speech data. You may make it calculate.
また、本発明は、この尤度比モデルを用いて正規化された音声認識の信頼度を算出する技術に関して、音響モデルと、上記作成された音声単位別尤度比モデルと、混合正規分布(GMM)とを用いて、認識対象である音声信号の音響特徴量をフレームごとに算出し(特徴量分析)、フレームごとの音響特徴量に対して、音響モデルを用いて、音声認識結果と当該音声認識結果に含まれる音声単位の認識結果尤度を算出し(認識処理)、フレームごとの音響特徴量に対して、GMMによる尤度(参照尤度)を算出し(参照尤度算出)、フレームごとに、認識結果尤度と参照尤度の比(音声単位別尤度比)を算出し(音声単位別尤度比算出)、音声認識結果に含まれる音声単位ごとに、当該音声単位に対応するフレームごとの音声単位別尤度比を入力としたときの音声単位別尤度比モデルの出力値(フレーム信頼度)をそれぞれ求め、これらフレーム信頼度のフレーム平均値を音声単位信頼度として求める(音声単位信頼度算出)。 Further, the present invention relates to a technique for calculating the reliability of speech recognition normalized using this likelihood ratio model, an acoustic model, the above-described likelihood unit model for speech units, and a mixed normal distribution ( GMM) is used to calculate the acoustic feature amount of the speech signal to be recognized for each frame (feature amount analysis), and for the acoustic feature amount for each frame, using the acoustic model, The recognition result likelihood of the speech unit included in the speech recognition result is calculated (recognition processing), the likelihood (reference likelihood) by GMM is calculated for the acoustic feature amount for each frame (reference likelihood calculation), For each frame, the ratio of the recognition result likelihood to the reference likelihood (likelihood ratio for each voice unit) is calculated (likelihood ratio for each voice unit), and for each voice unit included in the voice recognition result, Likelihood ratio by speech unit for each corresponding frame Output value of the audio unit by the likelihood ratio model when a force determined (frame reliability), respectively, the frame average value of the frame confidence determined as a speech unit reliability (speech unit reliability calculation).
音声認識結果に含まれる各音声単位に対応する音声単位信頼度の平均値を音声認識結果の信頼度として算出(信頼度算出)してもよい。 The average value of the speech unit reliability corresponding to each speech unit included in the speech recognition result may be calculated (reliability calculation) as the reliability of the speech recognition result.
信頼度算出技術に関して、音響モデルを音声単位別尤度比モデルを作成する際に用いられた音響モデルと同じ音響モデルとし、GMMを音声単位別尤度比モデルを作成する際に用いられたGMMと同じGMMとすることが好ましい。 Regarding the reliability calculation technique, the acoustic model is the same acoustic model as that used when creating the speech unit likelihood ratio model, and the GMM used when creating the speech unit likelihood ratio model Is preferably the same GMM.
また、本発明の音声単位別尤度比モデル作成装置としてコンピュータを機能させるプログラムによって、コンピュータを音声単位別尤度比モデル作成装置として作動処理させることができる。同様に、本発明の音声認識信頼度算出装置としてコンピュータを機能させるプログラムによって、コンピュータを音声認識信頼度算出装置として作動処理させることができる。詳細は実施形態で説明するが、音声単位別尤度比モデル作成装置と音声認識信頼度算出装置を単一装置として実現することも可能であり、このような場合、本発明の音声単位別尤度比モデル作成装置および音声認識信頼度算出装置としてコンピュータを機能させるように記述されたプログラムによって、コンピュータを音声単位別尤度比モデル作成装置および音声認識信頼度算出装置として作動処理させることができる。 Further, the computer can be operated as a speech unit likelihood ratio model creation device by a program that causes the computer to function as the speech unit likelihood ratio model creation device of the present invention. Similarly, the computer can be operated as a speech recognition reliability calculation device by a program that causes the computer to function as the speech recognition reliability calculation device of the present invention. Although the details will be described in the embodiment, it is also possible to realize the speech unit likelihood ratio model creation device and the speech recognition reliability calculation device as a single device. The computer can be operated as a speech unit-specific likelihood ratio model creation device and a speech recognition reliability calculation device by a program written to cause the computer to function as the degree ratio model creation device and the speech recognition reliability calculation device. .
本発明に拠れば、音声単位別の正規化された尤度比モデルの作成し、この尤度比モデルを用いて正規化された音声認識の信頼度を算出するから、言語的単位や発声時間によらず普遍的に正規化された信頼度を得ることができ、また、その取り扱いが便利である。 According to the present invention, a normalized likelihood ratio model for each speech unit is created, and the reliability of speech recognition normalized using this likelihood ratio model is calculated. Regardless of this, universally normalized reliability can be obtained, and its handling is convenient.
図面を参照して本発明の実施形態を説明する。
本発明の実施形態である音声単位別尤度比モデル作成装置1は、それ単体で独立に存在するよりは、作成された音声単位別尤度比モデルを用いて音声認識を行う装置(本発明の実施形態である音声認識信頼度算出装置2)を構成する構成要素として存在することが実用的な場合がある。さらに云えば、音声単位別尤度比モデル作成装置1は、音声認識信頼度算出装置2とは容易に分離可能に音声認識信頼度算出装置2を構成する構成要素ではなく、音声認識信頼度算出装置2自体を或る機能に着眼して片面的に評価したものと云うこともできる。要するに、音声単位別尤度比モデル作成装置1は、音声認識信頼度算出装置2そのものであることが凡そ実用的と言うことができる。
ただし、音声単位別尤度比モデル作成装置1が、単体独立の構成要素として存在すること、音声認識信頼度算出装置2とは容易に分離可能に音声認識信頼度算出装置2を構成する構成要素であることを排除する趣旨ではない。例えば音声単位別尤度比モデルの作成自体を目的とするならば、音声単位別尤度比モデル作成装置1を単体独立の構成要素として実現することに何らの妨げは無い。
ここで音声認識信頼度算出装置2は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、単体独立の構成要素として音声単位別尤度比モデル作成装置1を実現する場合も同様である。
Embodiments of the present invention will be described with reference to the drawings.
The speech unit likelihood ratio
However, the likelihood unit
Here, the speech recognition
音声認識信頼度算出装置2を単体単独の構成要素として、これをコンピュータで実現する場合のハードウェア構成例を説明する。音声単位別尤度比モデル作成装置1は、音声認識信頼度算出装置2を構成する構成要素として説明する。
A hardware configuration example in the case where the speech recognition
<音声認識信頼度算出装置2のハードウェア構成例>
音声認識信頼度算出装置2は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声認識信頼度算出装置2に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Hardware Configuration Example of Speech Recognition
The speech recognition
音声認識信頼度算出装置2の外部記憶装置には、音声単位別尤度比モデル作成のためのプログラム、音声認識信頼度算出のためのプログラム並びにこれらのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
The external storage device of the speech recognition
実施形態では、記憶部の所定の記憶領域に、開発データ200がデータとして記憶されている。開発データ200は、音声データ(肉声のアナログデータ)とこの音声データに対応付けられた音声単位(例えば音素、音節、半音節などであり、本実施形態では音素とする。)による正解ラベルから構成される開発データリストを複数含んでいる。但し、このような構成に限定されるものではなく、例えば、音響分析結果とこの音響分析結果に対応付けた音声単位による正解ラベルから構成するとしてもよいし、あるいは、ディジタル化された音声データとこの音声データに対応付けられた音声単位による正解ラベルから構成されるとしてもよい。このような開発データ200は、音響モデルの学習などに用いる既存の学習データと同じであってもよく、例えば総音声時間長で100時間を越えるデータ量を擁していることが望ましい。 In the embodiment, the development data 200 is stored as data in a predetermined storage area of the storage unit. The development data 200 is composed of voice data (analog data of real voice) and correct answer labels based on voice units (for example, phonemes, syllables, semi-syllables, etc., which are phonemes in this embodiment) associated with the voice data. Contains multiple development data lists. However, the present invention is not limited to such a configuration. For example, it may be composed of an acoustic analysis result and a correct answer label in units of speech associated with the acoustic analysis result, or digitized speech data and It may be composed of correct labels in units of speech associated with the speech data. Such development data 200 may be the same as existing learning data used for acoustic model learning or the like. For example, the development data 200 preferably has a data amount exceeding 100 hours in terms of the total speech time length.
また、記憶部の所定の記憶領域に、GMM(Gaussian Mixture Model;混合正規分布(混合ガウス分布))210と無声モデル220がデータとして記憶されている。GMM210は、例えば音声認識に用いる音響モデルを学習するための学習用音声データ(この学習用音声データに特別の限定は無い。)の無声区間を除く全音声区間から学習された、いわば可能な限り多くの音素(最良には全音素)の特徴を包含するように学習された一種の音響モデルである。また、無声モデル220は、例えば音声認識に用いる音響モデルを学習するための学習用音声データ(この学習用音声データに特別の限定は無く、GMMを学習する際に用いた学習用音声データと異なる学習用音声データでもよい。)の無声区間から学習された一種の音響モデルである。
Further, a GMM (Gaussian Mixture Model) 210 and a
音声認識信頼度算出装置2の記憶部には、音響特徴量を算出するためのプログラム、正解尤度を算出するためのプログラム、GMM尤度を算出するためのプログラム、正解尤度とGMM尤度を用いて音素別尤度比を算出するためのプログラム、音素別尤度比モデルを作成するためのプログラム、音声認識を行うためのプログラム、参照尤度を算出するためのプログラム、認識結果尤度と参照尤度を用いて音素別尤度比を算出するためのプログラム、音素ごとに信頼度を算出するためのプログラム、認識結果に対する信頼度を算出するためのプログラムが記憶されている。
The storage unit of the speech recognition
音声認識信頼度算出装置2では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(特徴量分析部、正解尤度算出部、GMM尤度算出部、第1音素別尤度比算出部、音素別尤度比モデル作成部、認識処理部、参照尤度算出部、第2音素別尤度比算出部、音素信頼度算出部、認識信頼度算出部)を実現することで音素別尤度比モデルの作成並びに音声認識信頼度の算出が実現される。
なお、正解尤度算出部、GMM尤度算出部、第1音素別尤度比算出部、音素別尤度比モデル作成部は、音声認識信頼度算出装置2の必須の構成要素ではない。また、実施形態の音声単位別尤度比モデル作成装置1は、特徴量分析部、正解尤度算出部、GMM尤度算出部、第1音素別尤度比算出部、音素別尤度比モデル作成部を含んで構成されるが、認識処理部、参照尤度算出部、第2音素別尤度比算出部、音素信頼度算出部、認識信頼度算出部は、音声単位別尤度比モデル作成装置1の必須の構成要素ではない。
In the speech recognition
The correct likelihood calculation unit, the GMM likelihood calculation unit, the first phoneme-specific likelihood ratio calculation unit, and the phoneme-specific likelihood ratio model creation unit are not essential components of the speech recognition
次に、実施形態として、図2−図8を参照しながら、音声単位別尤度比モデル作成装置1による音声単位別尤度比モデル作成処理を含む音声認識信頼度算出装置2による音声認識信頼度算出処理の流れを叙述的に説明する。
Next, as an embodiment, with reference to FIG. 2 to FIG. 8, the speech recognition reliability by the speech recognition
<音素別尤度比モデル作成処理>
開発データリストごとに以下の処理を行う(ステップS1−S6)。
図示しないA/D変換部などでテジタル化された、開発データリストに含まれる音声データを入力音声信号として、特徴量分析部101は、入力音声信号の複数サンプルのまとまり(以下、フレームという。)ごとにケプストラム、音声パワー(例えば参考文献1)など音声認識処理に用いるものと同じ種類の音響特徴量を算出する(ステップS2)。
(参考文献1)古井貞煕、“ディジタル音声処理”、東海大学出版会
<Process for creating likelihood ratio model by phoneme>
The following processing is performed for each development data list (steps S1-S6).
The feature
(Reference 1) Sadaaki Furui, “Digital Audio Processing”, Tokai University Press
次に正解尤度算出部102は、フレームごとの音響特徴量に対して、その入力音声信号に対応する正解ラベルと音響モデル280(音素環境依存モデル、音素環境独立モデルなど)とを用いて音声認識を行い、正解ラベルに含まれる音素の発声区間位置(以下、音素アライメントという。)Acorrect(f,T)[fはファイル名、Tはフレーム番号]を検出すると共に、フレームTの音響特徴量に対する音素α(f,T)の音響モデル280の正解尤度Pcorrect(f,T)を各フレームにおいて算出する(ステップS3)。ここで用いる音響モデル280は音声認識時に用いる音響モデルと同じものである。
Next, the correct
具体例を図4に示して説明する。例えば、発声内容が「とうきょう」である音声データ(便宜的にデータ名を1.pcmとする。)[フレーム長29]と、その正解ラベルの音素列「t/ou/k/y/ou」(記号"/"で区切られている単位が音素である。)が与えられた場合、正解尤度算出部102は、例えば正解ラベルに含まれる音素「t」の発声区間である第5〜7フレームについて音素アライメントAcorrect(‘1.pcm’,5≦T≦7)=「t」を検出し、それと共に、第5フレームの音響特徴量に対する音素「t」の音響モデルの正解尤度Pcorrect(‘1.pcm’,5)、第6フレームの音響特徴量に対する音素「t」の音響モデルの正解尤度Pcorrect(‘1.pcm’,6)、といったように順に正解尤度Pcorrect(‘1.pcm’,T)[T=5,6,7]を求める。また、正解尤度算出部102は、次の第8〜13フレームが正解ラベルに含まれる音素「ou」の発声区間であるから、第8〜13フレームについて音素アライメントAcorrect(‘1.pcm’,8≦T≦13)=「ou」を検出し、それと共に、その区間の各フレームの音響特徴量に対する音素「ou」の音響モデルの正解尤度Pcorrect(‘1.pcm’,8)、・・・、Pcorrect(‘1.pcm’,13)を得る。以降のフレームも同様である。
なお、図4中の「sil」とは「silence」すなわち無声区間のことである。この無声区間についても同様に音素アライメントAcorrect(f,T)と正解尤度Pcorrect(f,T)が求められる。
A specific example will be described with reference to FIG. For example, speech data whose utterance content is “Tokyo” (the data name is 1.pcm for convenience) [frame length 29] and the phoneme string “t / ou / k / y / ou” of the correct label (The unit delimited by the symbol “/” is a phoneme), the correct
Note that “sil” in FIG. 4 is “silence”, that is, a silent section. Similarly, the phoneme alignment A correct (f, T) and the correct likelihood P correct (f, T) are also obtained for this unvoiced section.
次に、GMM尤度算出部103は、フレームごとの音響特徴量とGMM210と無声モデル220を用いて音声認識を行い、音響特徴量に対するGMM尤度PGMM(f,T)をフレームごとに算出する(ステップS4)。GMM210は学習データの無声区間を除く全音声区間から学習された一種の音響モデルであるところ、実際の音声認識では認識対象音声に無声区間が含まれることが通常であるから、GMM尤度算出部103は、無声モデル220も用いて音声認識を行いその尤度を求める。すなわち、GMM尤度算出部103は、図8に示すようなGMM210と無声モデル220からなる辞書(文法)を用いて、両モデルによる音響特徴量に対する尤度をそれぞれ求め、その大きい方をGMM尤度PGMM(f,T)とする。なお、GMMによる尤度計算自体は例えば上記非特許文献2などで行われている手法を使えばよい。
Next, the GMM
図4に示す具体例の場合、GMM尤度算出部103は、音声データ1.pcmから算出した音響特徴量に対するGMM尤度PGMM(‘1.pcm’,1)、PGMM(‘1.pcm’,2)、・・・、PGMM(‘1.pcm’,29)を求める。
In the case of the specific example shown in FIG. 4, the GMM
次に、第1音素別尤度比算出部104は、フレームごとに、先に求められた正解尤度とGMM尤度の比Pcorrect(f,T)÷PGMM(f,T)を音素別尤度比Pratio(f,T)として算出し、その音素アライメントAcorrect(f,T)とともに音素別尤度比記憶部230に記憶する(ステップS5)。
この処理を入力音声信号の全フレームについて実施する。
Next, the first phoneme-specific likelihood
This process is performed for all frames of the input audio signal.
図4に示す具体例の場合、例えば第5フレーム(音素「t」)の音素別尤度比Pratio(‘1.pcm’,5)は、「正解尤度Pcorrect(‘1.pcm’,5)」÷「GMM尤度PGMM(‘1.pcm’,5)」で算出される。また、第8フレーム(音素「ou」)の音素別尤度比Pratio(‘1.pcm’,8)は、「正解尤度Pcorrect(‘1.pcm’,8)」÷「GMM尤度PGMM(‘1.pcm’,8)」で算出される。他のフレームについても同様である。 In the specific example shown in FIG. 4, for example, the likelihood ratio P ratio ('1.pcm', 5) for the fifth frame (phoneme “t”) is “correct likelihood P correct ('1.pcm'). , 5) "÷" GMM likelihood P GMM ('1.pcm', 5) ". Also, the likelihood ratio P ratio ('1.pcm', 8) for the 8th frame (phoneme “ou”) is “correct likelihood P correct ('1.pcm', 8)” ÷ “GMM likelihood. Degree P GMM ('1.pcm', 8) ". The same applies to other frames.
ステップS2−S5の各処理を開発データ200に含まれる全ての開発データリストに対して実施した後(ステップS6)、音素別尤度比モデル作成部105は、音素ごとに尤度比モデルを作成する(ステップS7−S9)。具体的には、音素別尤度比モデル作成部105は、音素別尤度比記憶部230から、開発データ200に含まれる音素の種類ごとに、音素αに対応する音素別尤度比Pratio(f,T)を読み込み、これら音素別尤度比Pratio(f,T)を確率変数とする確率分布関数(例えば正規分布)をその最大値(例えば出現累積値)で正規化した正規化確率分布関数D(α)を音素別尤度比モデルとして、音素別尤度比モデル記憶部240に記憶する。この処理を開発データ200に含まれる音素の全ての種類について実施する。例えば開発データ200に「t」、「ou」など30種類の音素が含まれていた場合には、D(‘t’)、D(‘ou’)など30種類の音素別尤度比モデルが作成されることになる。
上述の一連の処理が、<音素別尤度比モデル作成処理>である。
After each process of steps S2-S5 is performed on all the development data lists included in the development data 200 (step S6), the likelihood ratio
The above-described series of processing is <phoneme-specific likelihood ratio model creation processing>.
音素別尤度比モデル作成処理によって作成された音素別尤度比モデルによれば、後述する音声認識処理にて得られた音素αの音素別尤度比に対して、音素αの音素別尤度比モデルの出力値(確率変数として音素別尤度比を入力とするときの確率分布関数の出力値)は1を上限とする高い値となり、音素α以外の音素別尤度比モデルの出力値は0を下限とする低い値になる。 According to the phoneme-specific likelihood ratio model created by the phoneme-specific likelihood ratio model creation processing, the phoneme-specific likelihood of the phoneme α is compared with the phoneme-specific likelihood ratio of the phoneme α obtained by the speech recognition processing described later. The output value of the frequency ratio model (the output value of the probability distribution function when the phoneme likelihood ratio is input as a random variable) is a high value with an upper limit of 1, and the output of the phoneme likelihood ratio model other than the phoneme α The value is a low value with 0 as the lower limit.
<音声認識信頼度算出処理>
図示しないA/D変換部などでテジタル化された、音声認識対象のデジタル音声信号を入力音声信号として、特徴量分析部101は、入力音声信号の複数サンプルのまとまり(以下、フレームという。)ごとにケプストラム、音声パワー(上記参考文献1参照)など音声認識処理に用いる音響特徴量を算出する(ステップS1p)。
<Voice recognition reliability calculation processing>
Using the digital speech signal to be speech-recognized that has been digitized by an A / D conversion unit (not shown) as an input speech signal, the feature
次に、認識処理部106は、フレームごとの音響特徴量と音響モデル280と音声認識用辞書(場合によっては言語モデルを含む。)282を用いて音声認識処理を行い、認識結果と、認識結果に含まれる音素の音素アライメントAresult(T)と、各フレームの認識結果尤度Presult(T)を求める(ステップS2p)。Tはフレーム番号を表す。
Next, the
具体例を図7に示して説明する。例えば、発声内容が「とうきょう」である入力音声信号[フレーム長27]に対する認識結果第1位の音素列が「t/ou/k/y/ou」であった場合、認識処理部106は、例えば認識結果音素「t」の発声区間である第3〜5フレームについて音素アライメントAresult(3≦T≦5)=「t」を得て、それと共にその区間の各フレームの音響特徴量に対する認識結果音素「t」の音響モデルの認識結果尤度Presult(3)、・・・、Presult(5)を得る。同様に、認識処理部106は、次の認識結果音素「ou」の発声区間である第6〜12フレームについて音素アライメントAresult(6≦T≦12)=「ou」を得て、それと共にその区間の各フレームの音響特徴量に対する認識結果音素「ou」の音響モデルの認識結果尤度Presult(6)、・・・、Presult(12)を得る。以降のフレームも同様である。
なお、図4中の無声区間silについても同様に音素アライメントAresult(T)と認識結果尤度Presult(T)が求められる。
A specific example will be described with reference to FIG. For example, when the first phoneme string of the recognition result for the input voice signal [frame length 27] whose utterance content is “Tokyo” is “t / ou / k / y / ou”, the
Note that the phoneme alignment A result (T) and the recognition result likelihood P result (T) are similarly obtained for the unvoiced section sil in FIG.
また、参照尤度算出部107は、フレームごとの音響特徴量とGMM210と無声モデル220を用いて音声認識を行い、音響特徴量に対する参照尤度Pref(T)をフレームごとに算出する(ステップS3p)。この処理は、GMM尤度算出部103の処理と同様であり、図8に示すようなGMM210と無声モデル220からなる辞書(文法)を用いて、両モデルによる音響特徴量に対する尤度をそれぞれ求め、その大きい方を参照尤度Pref(T)とする。なお、音声認識信頼度算出処理で用いるGMM210と無声モデル220は、音素別尤度比モデル作成処理で用いたGMM210と無声モデル220と同じとする。
Further, the reference
図7に示す具体例の場合、参照尤度算出部107は、入力音声信号から算出した音響特徴量に対する参照尤度Pref(1)、・・・、Pref(27)を求める。
In the case of the specific example shown in FIG. 7, the reference
次に、第2音素別尤度比算出部108は、フレームごとに、認識結果尤度と参照尤度の比Presult(T)÷Pref(T)を音素別尤度比Pratio(T)として算出し、その音素アライメントAcorrect(f,T)とともに音素別尤度比記憶部250に記憶する(ステップS4p)。
Next, the second phoneme-specific likelihood ratio calculation unit 108 obtains the ratio of the recognition result likelihood to the reference likelihood P result (T) ÷ P ref (T) for each frame, by the phoneme-specific likelihood ratio P ratio (T ) And is stored in the phoneme-specific likelihood
図7に示す具体例の場合、例えば第3フレーム(認識結果音素「t」)の音素別尤度比Pratio(3)は、「認識結果正解尤度Presult(3)」÷「参照尤度Pref(3)」で算出される。また、第6フレーム(認識結果音素「ou」)の音素別尤度比Pratio(6)は、「認識結果尤度Presult(6)」÷「参照尤度PGMM(6)」で算出される。他のフレームについても同様である。 In the specific example shown in FIG. 7, for example, the likelihood ratio P ratio (3) for each phoneme of the third frame (recognition result phoneme “t”) is “recognition result correct likelihood P result (3)” ÷ “reference likelihood. Degree P ref (3) ”. Further, the likelihood ratio P ratio (6) for each phoneme of the sixth frame (recognition result phoneme “ou”) is calculated by “recognition result likelihood P result (6)” ÷ “reference likelihood P GMM (6)”. Is done. The same applies to other frames.
続いて音素信頼度算出部109は、一つ以上連続する同一の認識結果音素αに対応する音素アライメントAresult(Tstart(α)≦T≦Tend(α))=「α」について以下の処理を行い、この処理を認識結果に現われる全ての認識結果音素について行う(ステップS5p−S7p)。なお、Tstart(α)は認識結果音素αの開始フレーム番号であり、Tend(α)は認識結果音素αの終了フレーム番号である。また、種類としては同じ認識結果音素であっても、開始フレーム番号が異なる場合には個別に当該処理を適用する。例えば、図7に示す例では、認識結果に認識結果音素「ou」が2回(第6〜12フレーム、第19〜24フレーム)現われるが、種類としては同じ認識結果音素「ou」であっても開始フレーム番号が異なるため個別に当該処理を適用することとし、第6〜12フレームについてTstart(‘ou’)=6、Tend(‘ou’)=12であり、同じく第19〜24フレームについてTstart(‘ou’)=19、Tend(‘ou’)=24である。
当該処理の内実は次のとおりである。音素信頼度算出部109は、音素アライメントAresult(Tstart(α)≦T≦Tend(α))=「α」内の各フレームT=Tstart(α),Tstart(α)+1,・・・,Tend(α)-1,Tend(α)について、音素別尤度比モデル記憶部240に記憶されている音素αの音素別尤度比モデルD(α)を用いて、音素別尤度比記憶部250に記憶されている音素別尤度比Pratio(T)に対応する音素別尤度比モデルD(α)の出力値D(α,Pratio(T))(以下、フレーム信頼度という。)を求める。以下、フレーム信頼度D(α,Pratio(T)) (Tstart(α)≦T≦Tend(α))をCframe(T) (Tstart(α)≦T≦Tend(α))と記す。そして、音素信頼度算出部109は、この音素アライメントAresult(Tstart(α)≦T≦Tend(α))=「α」について、フレーム信頼度Cframe(T) (Tstart(α)≦T≦Tend(α))の累積(総和)をフレーム数(Tend(α)-Tstart(α)+1)で割ったフレーム平均値を音素アライメントAresult(Tstart(α)≦T≦Tend(α))=「α」における音素信頼度Cphone[Tstart(α):Tend(α)]とする。
Subsequently, the phoneme
The details of the process are as follows. The phoneme
図7に示す具体例の場合、先頭から2番目の音素アライメントはAresult(3≦T≦5)=「t」であるため、音素別尤度比モデル記憶部240に記憶されている音素「t」の音素別尤度比モデルD(‘t’)を用いて、フレームTごとに音素別尤度比Pratio(3)、Pratio(4)、Pratio(5)に対する音素別尤度比モデルD(‘t’,Pratio(T))の値であるフレーム信頼度Cframe(3)、Cframe(4)、Cframe(5)を求め、これらのフレーム平均値を求め音素信頼尺度Cphone[3:5]とする。その他の音素アライメントについても同様の処理を行う。 In the case of the specific example shown in FIG. 7, the second phoneme alignment from the beginning is A result (3 ≦ T ≦ 5) = “t”, and therefore the phoneme “ phoneme-specific likelihood ratios P ratio (3), P ratio (4), and P ratio (5) for each frame T using the phoneme-specific likelihood ratio model D ('t') of "t" The frame reliability C frame (3), C frame (4), and C frame (5), which are values of the ratio model D ('t', P ratio (T)), are obtained, and the average value of these frames is obtained to determine the phoneme confidence. Scale C phone [3: 5]. Similar processing is performed for other phoneme alignments.
次に、信頼度算出部110は、音素信頼度算出部109によって計算された音素信頼度Cphoneの全音素アライメントにおける平均値を認識結果の信頼度Cとして算出する(ステップS8p)。
Next, the
図7に示す具体例では、認識結果第1位に対する信頼度Cの算出例を図示したが、認識結果第2位以降の各認識結果についても同様に信頼度を求める実施形態も許容される。
上述の一連の処理が、<音声認識信頼度算出処理>である。
In the specific example illustrated in FIG. 7, an example of calculating the reliability C for the first recognition result is illustrated, but an embodiment in which the reliability is similarly obtained for each recognition result after the second recognition result is also permitted.
The series of processes described above is <voice recognition reliability calculation process>.
信頼度の正規化については、図9に示す認識結果第1位のように、入力音声信号に対する認識結果が正解であった場合、いずれの音素アライメントにおいてもフレーム信頼度Cframe(T)は、1を上限とする高い値になるため、音素信頼尺度Cphone、ひいては信頼度Cも高い値となる。
一方、入力音声信号に対する認識結果が不正解であった場合、例えば図9に示す認識結果第2位のように発声内容が「とうきょう(t/ou/k/y/ou)」である入力音声信号に対する認識結果が「t/ou/ch/y/ou」であった場合、音素「k」を音素「ch」に誤認識したことになる。この音素アライメントにおいて本来「k」と発声している音素特徴量に対して、認識結果音素「ch」の音素別尤度比モデルから低いフレーム信頼度Cframe(T)が出力されることが推測される。そのため認識結果全体の信頼度も、正解時の信頼度と比較して低い値をとることになり、この信頼度の大小によって認識結果に対する確信度合い、つまり信頼度が高ければ正解の可能性が高い、信頼度が低ければ誤認識の可能性が高いことが表現できる。
As for normalization of reliability, as shown in the first recognition result shown in FIG. 9, when the recognition result for the input speech signal is correct, the frame reliability C frame (T) in any phoneme alignment is Since the value is a high value with 1 as the upper limit, the phoneme confidence measure C phone and hence the reliability C are also high values.
On the other hand, if the recognition result for the input voice signal is incorrect, the input voice whose utterance content is “tyo (t / ou / k / y / ou)” as shown in the second recognition result in FIG. When the recognition result for the signal is “t / ou / ch / y / ou”, the phoneme “k” is erroneously recognized as the phoneme “ch”. In this phoneme alignment, it is estimated that a low frame reliability C frame (T) is output from the phoneme-specific likelihood ratio model of the recognition result phoneme “ch” with respect to the phoneme feature amount originally uttered “k”. Is done. Therefore, the reliability of the entire recognition result also takes a low value compared to the reliability at the time of the correct answer, and the degree of confidence in the recognition result, that is, if the reliability is high, the probability of a correct answer is high. If the reliability is low, it can be expressed that the possibility of erroneous recognition is high.
≪補記≫
実施形態において、音声単位別尤度比モデルの作成のみを行う場合には、ステップS1p−S8pの各処理を省略できる。また、実施形態において、音素信頼度のみを必要とする場合、ステップS8pの処理を省略することができる。ここでは、音声単位として音素を例としたが、音節などその他の音声単位を用いる場合には、上記説明において「音素」を「音節」などに読み替えればよい。
≪Supplementary notes≫
In the embodiment, when only the creation of a speech unit likelihood ratio model is performed, each processing of steps S1p-S8p can be omitted. In the embodiment, when only the phoneme reliability is required, the process of step S8p can be omitted. Here, a phoneme is taken as an example of a speech unit. However, when other speech units such as a syllable are used, “phoneme” may be read as “syllable” or the like in the above description.
音声単位別尤度比モデル作成装置1と音声認識信頼度算出装置2を各別の装置として構成する場合などでは、音声単位別尤度比モデル作成装置1の音素別尤度比モデル作成部105が作成した音声単位別尤度比モデルを(例えば記録媒体を介して)音声認識信頼度算出装置2の記憶部に記憶し、音素信頼度算出部109がこの記憶された音声単位別尤度比モデルを用いて音素信頼度Cphoneを得ることができる。この場合、音声認識信頼度算出装置2が用いる音響モデル280は、音声単位別尤度比モデル作成装置1で用いられた音響モデル280と同じであることが好適であるが、必ずしも同一の音響モデルを用いる必要はない。一例として、音響モデルの学習に用いる学習データは重複するが、音響モデルの構造が異なる(HMM(Hidden Markov Model)の状態や混合数が異なるなど)場合には、異なる音響モデルを用いることが可能である。
In a case where the speech unit likelihood ratio
以上の実施形態の他、本発明である音声単位別尤度比モデル作成装置・方法、音声認識信頼度算出装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、各実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 In addition to the above-described embodiments, the speech unit likelihood ratio model creation device / method and the speech recognition reliability calculation device / method according to the present invention are not limited to the above-described embodiments, and depart from the spirit of the present invention. Changes can be made as appropriate without departing from the scope. In addition, the processing described in each embodiment may be executed not only in time series according to the description order, but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
また、上記音声単位別尤度比モデル作成装置/音声認識信頼度算出装置における処理機能をコンピュータによって実現する場合、音声単位別尤度比モデル作成装置/音声認識信頼度算出装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声単位別尤度比モデル作成装置/音声認識信頼度算出装置における処理機能がコンピュータ上で実現される。 Further, when the processing function in the speech unit-specific likelihood ratio model creation device / speech recognition reliability calculation device is realized by a computer, the function that the speech unit-specific likelihood ratio model creation device / speech recognition reliability calculation device should have The processing content of is described by a program. Then, by executing this program on a computer, the processing functions in the above-mentioned speech unit likelihood ratio model creation device / speech recognition reliability calculation device are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音声単位別尤度比モデル作成装置/音声認識信頼度算出装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this embodiment, the speech unit likelihood ratio model creation device / speech recognition reliability calculation device is configured by executing a predetermined program on a computer. However, at least a part of these processing contents is used. May be realized in hardware.
図10に示す表1は信頼度算出を含めた認識速度(RTF: Real Time Factor; 認識処理時間を音声長で正規化した数値)の比較表である。本発明はGMMを用いているところ、例えば本実施例で64混合のガウス分布からなるGMMを用いたとしても、本実施例の方が音節認識結果尤度による従来手法より遙かに計算量が少ない。むしろ、本実施例は計算量の少ないN-bestによる従来手法と同程度の計算量で済むことが比較表から見て取れる。 Table 1 shown in FIG. 10 is a comparison table of recognition speed (RTF: Real Time Factor; a numerical value obtained by normalizing the recognition processing time by the voice length) including reliability calculation. Although the present invention uses a GMM, for example, even if a GMM having a Gaussian distribution of 64 mixtures is used in this embodiment, the calculation amount of this embodiment is far greater than the conventional method based on the likelihood of the syllable recognition result. Few. Rather, it can be seen from the comparison table that the present embodiment only requires the same amount of calculation as the conventional method based on N-best with a small amount of calculation.
図11に示す表2は正誤判別能力の度合いを評価する等誤り率(EER: Equal Error Rate; 正解を誤って棄却する誤棄却率と、誤認識や語彙外を誤って受理する誤受理率が等しくなる値で、等誤り率が小さい方が良いとされる)の比較表である。本発明は音素モデルを包含したGMMを用いているため、本実施例は、音節認識結果尤度による従来手法と等価以上の良好な効果が得られており、かつN-bestによる従来手法よりも等誤り率が低く、正誤判別能力が良いことがわかる。 Table 2 shown in Fig. 11 shows the Equal Error Rate (EER: Equal Error Rate), which evaluates the level of correctness / error discrimination ability, and the false acceptance rate for falsely rejecting correct answers and falsely accepting errors outside the vocabulary. It is a comparison table in which it is better that the equal error rate is smaller with equal values. Since the present invention uses a GMM that includes a phoneme model, the present embodiment achieves an effect that is equal to or better than the conventional method based on the likelihood of syllable recognition results, and is more effective than the conventional method based on N-best. It can be seen that the equal error rate is low and the correct / incorrect discrimination ability is good.
Claims (9)
上記音声データの音響特徴量をフレームごとに算出する特徴量分析手段と、
フレームごとの上記音響特徴量に対して、上記正解ラベルと上記音響モデルを用いて、正解ラベルに含まれる音素の正解尤度を算出する正解尤度算出手段と、
フレームごとの上記音響特徴量に対して、上記GMMによる尤度(GMM尤度)を算出するGMM尤度算出手段と、
フレームごとに、上記正解尤度と上記GMM尤度の比を第1の音素別尤度比として算出する音声単位別尤度比算出手段と、
上記開発データに含まれる音素の種類ごとに、音素に対応する上記第1の音素別尤度比を確率変数とする確率分布関数を正規化した正規化確率分布関数(音素別尤度比モデル)を作成する音声単位別尤度比モデル作成手段と
を含む音声単位別尤度比モデル作成装置。 Storage means for storing an acoustic model, development data composed of speech data and correct labels associated with the speech data, and a mixed normal distribution (GMM);
Feature quantity analysis means for calculating the acoustic feature quantity of the voice data for each frame;
Correct likelihood calculation means for calculating the correct likelihood of phonemes included in the correct label using the correct label and the acoustic model for the acoustic feature amount for each frame;
GMM likelihood calculating means for calculating the likelihood by the GMM (GMM likelihood) for the acoustic feature amount for each frame;
For each frame, speech unit-specific likelihood ratio calculating means for calculating a ratio between the correct likelihood and the GMM likelihood as a first phoneme- specific likelihood ratio;
For each type of phonemes contained in the development data, phoneme corresponding said first phoneme likelihood normalize the probability distribution function of a random variable the ratio was normalized probability distribution function (phoneme likelihood ratio model) A speech unit-specific likelihood ratio model creation device including speech unit-specific likelihood ratio model creation means for creating
上記GMMは、学習用音声データの有声区間から学習された混合正規分布である
ことを特徴とする音声単位別尤度比モデル作成装置。 The likelihood ratio model creation device for each voice unit according to claim 1,
The GMM is a likelihood ratio model creation device by speech unit, characterized in that it is a mixed normal distribution learned from voiced sections of speech data for learning.
上記GMM尤度算出手段は、学習用音声データの無声区間から学習された無声モデルも用いて、上記GMM尤度を算出する
ことを特徴とする音声単位別尤度比モデル作成装置。 In the speech unit likelihood ratio model creation device according to claim 1 or 2,
The speech unit likelihood ratio model creating apparatus characterized in that the GMM likelihood calculating means calculates the GMM likelihood using an unvoiced model learned from an unvoiced section of learning speech data.
上記音声データの音響特徴量をフレームごとに算出する特徴量分析ステップと、
フレームごとの上記音響特徴量に対して、上記正解ラベルと上記音響モデルを用いて、正解ラベルに含まれる音素の正解尤度を算出する正解尤度算出ステップと、
フレームごとの上記音響特徴量に対して、上記GMMによる尤度(GMM尤度)を算出するGMM尤度算出ステップと、
フレームごとに、上記正解尤度と上記GMM尤度の比を第1の音素別尤度比として算出する音声単位別尤度比算出ステップと、
上記開発データに含まれる音素の種類ごとに、音素に対応する上記第1の音素別尤度比を確率変数とする確率分布関数を正規化した正規化確率分布関数(音素別尤度比モデル)を作成する音声単位別尤度比モデル作成ステップと
を有する音声単位別尤度比モデル作成方法。 The storage unit stores an acoustic model, development data including voice data and a correct answer label associated with the voice data, and a mixed normal distribution (GMM).
A feature amount analyzing step for calculating an acoustic feature amount of the voice data for each frame;
A correct likelihood calculation step of calculating a correct likelihood of a phoneme included in the correct label using the correct label and the acoustic model for the acoustic feature amount for each frame;
A GMM likelihood calculating step for calculating a likelihood by the GMM (GMM likelihood) for the acoustic feature amount for each frame;
For each frame, and the ratio of the correct answers likelihood and the GMM likelihood first Ruoto voice unit by the likelihood ratio calculation step to calculate a phoneme likelihood ratio,
For each type of phonemes contained in the development data, phoneme corresponding said first phoneme likelihood normalize the probability distribution function of a random variable the ratio was normalized probability distribution function (phoneme likelihood ratio model) A method of creating a likelihood ratio model for each speech unit, comprising a step of creating a likelihood ratio model for each speech unit for creating a speech unit.
認識対象である音声信号の音響特徴量をフレームごとに算出する特徴量分析手段と、
フレームごとの上記音響特徴量に対して、上記音響モデルを用いて、音声認識結果と当該音声認識結果に含まれる音素の認識結果尤度を算出する認識処理手段と、
フレームごとの上記音響特徴量に対して、上記GMMによる尤度(参照尤度)を算出する参照尤度算出手段と、
フレームごとに、上記認識結果尤度と上記参照尤度の比を第2の音素別尤度比として算出する音声単位別尤度比算出手段と、
上記音声認識結果に含まれる音素ごとに、当該音素に対応するフレームごとの上記第2の音素別尤度比を入力としたときの上記音素別尤度比モデルの出力値(フレーム信頼度)をそれぞれ求め、これらフレーム信頼度のフレーム平均値を音声単位信頼度として求める音声単位信頼度算出手段と
を含む音声認識信頼度算出装置。 Storage means for storing an acoustic model, a likelihood ratio model by phoneme created by the likelihood ratio model creation apparatus by speech unit according to any one of claims 1 to 3, and a mixed normal distribution (GMM) When,
Feature quantity analysis means for calculating the acoustic feature quantity of the speech signal to be recognized for each frame;
Recognition processing means for calculating a speech recognition result and a recognition result likelihood of a phoneme included in the speech recognition result using the acoustic model for the acoustic feature amount for each frame;
Reference likelihood calculating means for calculating a likelihood (reference likelihood) by the GMM for the acoustic feature amount for each frame;
For each frame, speech unit-specific likelihood ratio calculating means for calculating a ratio between the recognition result likelihood and the reference likelihood as a second phoneme- specific likelihood ratio;
For each phoneme contained in the speech recognition result, the output value of the phoneme likelihood ratio model when the inputs the second phoneme likelihood ratio for each frame corresponding to the phoneme (frame reliability) A speech recognition reliability calculation device including speech unit reliability calculation means for determining each frame reliability and obtaining a frame average value of the frame reliability as a speech unit reliability.
上記音声認識結果に含まれる各音素に対応する上記音声単位信頼度の平均値を上記音声認識結果の信頼度として算出する信頼度算出手段を含む
ことを特徴とする音声認識信頼度算出装置。 In the speech recognition reliability calculation apparatus according to claim 5,
A speech recognition reliability calculation device comprising: a reliability calculation means for calculating an average value of the speech unit reliability corresponding to each phoneme included in the speech recognition result as a reliability of the speech recognition result.
上記音響モデルは、上記音素別尤度比モデルを作成する際に用いられた音響モデルと同じ音響モデルであり、
上記GMMは、上記音素別尤度比モデルを作成する際に用いられたGMMと同じGMMである
ことを特徴とする音声認識信頼度算出装置。 In the speech recognition reliability calculation apparatus according to claim 5 or 6,
The acoustic model is the same acoustic model as the acoustic model used in creating the phoneme likelihood ratio model,
The speech recognition reliability calculation apparatus according to claim 1, wherein the GMM is the same GMM as the GMM used when creating the likelihood ratio model for each phoneme .
認識対象である音声信号の音響特徴量をフレームごとに算出する特徴量分析ステップと、
フレームごとの上記音響特徴量に対して、上記音響モデルを用いて、音声認識結果と当該音声認識結果に含まれる音素の認識結果尤度を算出する認識処理ステップと、
フレームごとの上記音響特徴量に対して、上記GMMによる尤度(参照尤度)を算出する参照尤度算出ステップと、
フレームごとに、上記認識結果尤度と上記参照尤度の比を第2の音素別尤度比として算出する音声単位別尤度比算出ステップと、
上記音声認識結果に含まれる音素ごとに、当該音素に対応するフレームごとの上記第2の音素別尤度比を入力としたときの上記音素別尤度比モデルの出力値(フレーム信頼度)をそれぞれ求め、これらフレーム信頼度のフレーム平均値を音声単位信頼度として求める音声単位信頼度算出ステップと
を含む音声認識信頼度算出方法。 The storage means includes an acoustic model, a likelihood ratio model by phoneme created by the speech unit likelihood ratio model creation device according to any one of claims 1 to 3, a mixed normal distribution (GMM), and Is remembered,
A feature amount analyzing step for calculating an acoustic feature amount of a speech signal to be recognized for each frame;
A recognition processing step of calculating a speech recognition result and a phoneme recognition result likelihood included in the speech recognition result using the acoustic model for the acoustic feature amount for each frame;
A reference likelihood calculating step for calculating a likelihood (reference likelihood) by the GMM with respect to the acoustic feature amount for each frame;
For each frame, a speech unit-specific likelihood ratio calculation step of calculating a ratio between the recognition result likelihood and the reference likelihood as a second phoneme- specific likelihood ratio;
For each phoneme contained in the speech recognition result, the output value of the phoneme likelihood ratio model when the inputs the second phoneme likelihood ratio for each frame corresponding to the phoneme (frame reliability) A speech recognition reliability calculation method including: a speech unit reliability calculation step that calculates each frame average value of the frame reliability as a speech unit reliability.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009161463A JP4951035B2 (en) | 2009-07-08 | 2009-07-08 | Likelihood ratio model creation device by speech unit, Likelihood ratio model creation method by speech unit, speech recognition reliability calculation device, speech recognition reliability calculation method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009161463A JP4951035B2 (en) | 2009-07-08 | 2009-07-08 | Likelihood ratio model creation device by speech unit, Likelihood ratio model creation method by speech unit, speech recognition reliability calculation device, speech recognition reliability calculation method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011017818A JP2011017818A (en) | 2011-01-27 |
JP4951035B2 true JP4951035B2 (en) | 2012-06-13 |
Family
ID=43595670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009161463A Active JP4951035B2 (en) | 2009-07-08 | 2009-07-08 | Likelihood ratio model creation device by speech unit, Likelihood ratio model creation method by speech unit, speech recognition reliability calculation device, speech recognition reliability calculation method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4951035B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6183988B2 (en) * | 2012-12-11 | 2017-08-23 | 日本放送協会 | Speech recognition apparatus, error correction model learning method, and program |
JP6006674B2 (en) * | 2013-04-30 | 2016-10-12 | 日本電信電話株式会社 | Acoustic model selection apparatus, method and program thereof |
US10014003B2 (en) | 2015-10-12 | 2018-07-03 | Gwangju Institute Of Science And Technology | Sound detection method for recognizing hazard situation |
CN111508505B (en) * | 2020-04-28 | 2023-11-03 | 讯飞智元信息科技有限公司 | Speaker recognition method, device, equipment and storage medium |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3496706B2 (en) * | 1997-09-12 | 2004-02-16 | 日本電信電話株式会社 | Voice recognition method and its program recording medium |
JP2001175276A (en) * | 1999-12-17 | 2001-06-29 | Denso Corp | Speech recognizing device and recording medium |
KR100631786B1 (en) * | 2005-02-18 | 2006-10-12 | 삼성전자주식회사 | Method and apparatus for speech recognition by measuring frame's confidence |
KR100679044B1 (en) * | 2005-03-07 | 2007-02-06 | 삼성전자주식회사 | Method and apparatus for speech recognition |
-
2009
- 2009-07-08 JP JP2009161463A patent/JP4951035B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011017818A (en) | 2011-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7103544B2 (en) | Method and apparatus for predicting word error rates from text | |
US8355917B2 (en) | Position-dependent phonetic models for reliable pronunciation identification | |
Wester | Pronunciation modeling for ASR–knowledge-based and data-derived methods | |
KR101153078B1 (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
US20080077404A1 (en) | Speech recognition device, speech recognition method, and computer program product | |
EP1557822A1 (en) | Automatic speech recognition adaptation using user corrections | |
US20100191530A1 (en) | Speech understanding apparatus | |
CN104575490A (en) | Spoken language pronunciation detecting and evaluating method based on deep neural network posterior probability algorithm | |
JP6280074B2 (en) | Rephrase detection device, speech recognition system, rephrase detection method, program | |
US20080046247A1 (en) | System And Method For Supporting Text-To-Speech | |
JP4951035B2 (en) | Likelihood ratio model creation device by speech unit, Likelihood ratio model creation method by speech unit, speech recognition reliability calculation device, speech recognition reliability calculation method, program | |
US11495245B2 (en) | Urgency level estimation apparatus, urgency level estimation method, and program | |
JP4829871B2 (en) | Learning data selection device, learning data selection method, program and recording medium, acoustic model creation device, acoustic model creation method, program and recording medium | |
JP4705557B2 (en) | Acoustic model generation apparatus, method, program, and recording medium thereof | |
Horndasch et al. | How to add word classes to the kaldi speech recognition toolkit | |
US20230178099A1 (en) | Using optimal articulatory event-types for computer analysis of speech | |
JP5427140B2 (en) | Speech recognition method, speech recognition apparatus, and speech recognition program | |
Harmath-de Lemos | Detecting word-level stress in continuous speech: A case study of Brazilian Portuguese | |
CN115424616A (en) | Audio data screening method, device, equipment and computer readable medium | |
Ganapathiraju et al. | The ISIP Public Domain Decoder for Large Vocabulary Conversational Speech Recognition | |
JP2011075973A (en) | Recognition device and method, and program | |
JP4981850B2 (en) | Voice recognition apparatus and method, program, and recording medium | |
JP7259988B2 (en) | DETECTION DEVICE, METHOD AND PROGRAM THEREOF | |
Kamath et al. | Automatic Speech Recognition | |
JP4981519B2 (en) | Learning data label error candidate extraction apparatus, method and program thereof, and recording medium thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120306 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120309 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150316 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4951035 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |