JP6027754B2 - Adaptation device, speech recognition device, and program thereof - Google Patents
Adaptation device, speech recognition device, and program thereof Download PDFInfo
- Publication number
- JP6027754B2 JP6027754B2 JP2012048232A JP2012048232A JP6027754B2 JP 6027754 B2 JP6027754 B2 JP 6027754B2 JP 2012048232 A JP2012048232 A JP 2012048232A JP 2012048232 A JP2012048232 A JP 2012048232A JP 6027754 B2 JP6027754 B2 JP 6027754B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- adaptation
- acoustic
- acoustic model
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006978 adaptation Effects 0.000 title claims description 209
- 238000012545 processing Methods 0.000 claims description 95
- 238000000034 method Methods 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 25
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims 1
- 238000013518 transcription Methods 0.000 description 28
- 230000035897 transcription Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Description
本発明は、音響モデルを適応化する適応化装置、およびその適応化装置を用いる音声認識装置、ならびにそのプログラムに関する。 The present invention relates to an adaptation device for adapting an acoustic model, a speech recognition device using the adaptation device, and a program thereof.
音声認識処理においては、音素と音響特徴量との間の統計的関係を表わす音響モデルを用いる。音声認識処理において、認識性能を向上させるために、音響モデルの話者適応が行われる。音響モデルの話者適応とは、認識対象話者の音声データを用いて、話者の声質に合わせて、音響モデルのモデルパラメータを変化させることである。話者適応化は、発声内容に関する教師データを用いる教師あり話者適応と、教師データを用いない教師なし話者適応とに分類される。前者は、人手による書き起こしデータ(教師データ、テキストデータ)などが与えられ、発話内容の音素列が既知である場合の適応手法である。また、後者は、一般に話者非依存の音響モデルにより一度音声認識を行い、その認識結果を教師データとみなして適応化する手法である。 In the speech recognition process, an acoustic model representing a statistical relationship between phonemes and acoustic features is used. In speech recognition processing, speaker adaptation of an acoustic model is performed in order to improve recognition performance. The speaker adaptation of the acoustic model is to change model parameters of the acoustic model in accordance with the voice quality of the speaker using the speech data of the recognition target speaker. Speaker adaptation is classified into supervised speaker adaptation using teacher data relating to utterance content and unsupervised speaker adaptation not using teacher data. The former is an adaptation method when handwritten transcription data (teacher data, text data) or the like is given and the phoneme string of the utterance content is known. The latter is a technique in which speech recognition is generally performed once using a speaker-independent acoustic model, and the recognition result is regarded as teacher data for adaptation.
非特許文献1には、代表的な話者適応化手法として、事前知識を利用し、最大事後確率推定法(Maximum A Posteriori Estimation,MAP)を用いて音響モデルを適応化する技術が記載されている。
また、非特許文献2には、話者間の線形写像を用いて音響モデルを適応化する最尤線形回帰法(Maximum Likelihood Linear Regression,MLLR)が記載されている。
Non-Patent Document 1 describes a technique for adapting an acoustic model using a priori knowledge and using a maximum a posteriori estimation (MAP) as a typical speaker adaptation method. Yes.
Non-Patent
しかしながら、従来技術による教師あり話者適応化手法は、適応化に用いる音声データの各時刻において、音響モデルの初期モデル(適応化前の音響モデル)による認識のし易さを考慮していないという問題があった。
実際には、適応化に用いる音声データにおいて、認識率が例えば100%である(つまり、認識誤りのない)音声区間に比べて、認識誤りのある音声区間の方が教師あり話者適応化の効果が高いと考えられる。しかしながら、従来技術による教師あり話者適応化手法は、音声区間による認識誤りの有無を考慮せず、どの音声区間も同等に話者適応化を行っていた。
つまり、従来技術による手法では、音声データの各時刻で一様に話者適応化を行っていることにより、話者適応化による効果も十分に得られていなかったことが考えられる。
However, the supervised speaker adaptation method according to the prior art does not consider the ease of recognition by the initial model of the acoustic model (acoustic model before adaptation) at each time of the speech data used for adaptation. There was a problem.
Actually, in speech data used for adaptation, a speech section with a recognition error is more suitable for supervised speaker adaptation than a speech section with a recognition rate of, for example, 100% (that is, no recognition error). The effect is considered high. However, the supervised speaker adaptation method according to the prior art does not consider the presence or absence of recognition errors due to speech segments, and performs speaker adaptation equally in any speech segment.
In other words, it is conceivable that with the technique according to the prior art, the speaker adaptation is not performed sufficiently because the speaker adaptation is uniformly performed at each time of the voice data.
本発明は、上記の課題認識に基づいて行なわれたものであり、音声区間ごとの認識のし易さを考慮して音響モデルの適応化を行う適応化装置、および適応化プログラム、ならびにそのような適応化を行なう音声認識装置を提供することを目的とする。 The present invention has been made on the basis of the above problem recognition, an adaptation device and an adaptation program for adapting an acoustic model in consideration of ease of recognition for each speech section, and such a program. An object of the present invention is to provide a speech recognition apparatus that performs adaptive adaptation.
[1]上記の課題を解決するため、本発明の一態様による適応化装置は、音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成する第1アライメント部と、前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント部と、前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出部と、前記重点区間検出部による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理部とを具備する。
また、上記の適応化装置において、前記重点区間検出部は、時刻ごとに、前記第1アライメント結果データに含まれる音響尤度データよりも、前記第2アライメント結果データに含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する、ことを特徴とする。
[1] In order to solve the above-described problem, an adaptation apparatus according to an aspect of the present invention reads an acoustic model including data representing a statistical relationship between phonemes and acoustic features, and loads the acoustic model into the acoustic model. Based on the first alignment result data including the acoustic likelihood data associated with the time by temporally aligning the read voice data and the text data corresponding to the voice data based on the first alignment And the speech likelihood recognition data associated with the time by reading the recognition result data of the speech data and aligning the speech data and the read recognition result data temporally based on the acoustic model. A second alignment unit for generating the second alignment result data, and the first alignment result data at each time An importance interval detection unit that compares the acoustic likelihood data to be included and the acoustic likelihood data included in the second alignment result data, and assigning weights according to the comparison results by the importance interval detection unit to the speech interval And an adaptation processing unit that adapts the acoustic model.
Further, in the above-described adaptation device, the important interval detection unit may detect the acoustic likelihood data included in the second alignment result data rather than the acoustic likelihood data included in the first alignment result data for each time. In the case where the higher likelihood is expressed, the section associated with the time is detected as the priority adaptation section.
この構成によれば、重点区間検出部は、第1アライメント結果データ(音声データと、対応するテキストデータとのアライメント結果)と第2アライメント結果データ(音声データと、その認識結果データとのアライメント結果)とを各時刻で比較する。そして、両者の音響尤度の異なる時刻を含む音声区間を検出する。適応化処理部は、検出された音声区間において音響モデルを重点的に適応化する。よって、より高精度な適応化を行なうことができ、ひいては高精度な音声認識を実現できる。
なお、第1アライメント部が音響モデルとのアライメントを行なう対象のテキストデータとしては、例えば、書き起こしデータ(教師データ)や、認識結果によるテキストデータ(但し、第2アライメント部がアライメントの対象とする認識結果とは異なるもの)や、その他、音声データに対応し得るテキストを用いる。
According to this configuration, the important section detection unit includes the first alignment result data (the alignment result between the voice data and the corresponding text data) and the second alignment result data (the voice data and the recognition result data). ) And each time. And the audio | voice area containing the time from which both acoustic likelihood differs is detected. The adaptation processing unit intensively adapts the acoustic model in the detected speech section. Therefore, higher-accuracy adaptation can be performed, and consequently high-accuracy speech recognition can be realized.
Examples of text data to be aligned with the acoustic model by the first alignment unit include, for example, transcription data (teacher data) and text data based on a recognition result (however, the second alignment unit is to be aligned). Other than the recognition result) or other text that can correspond to voice data.
[2]また、本発明の一態様は、上記の適応化装置において、前記適応化処理部は、前記音響モデルの適応化処理において、前記重点区間検出部が検出した前記重点適応区間に付与する重みを、重点適応区間ではない区間に付与する重みよりも大きくする、ことを特徴とする。
音響尤度データが数値データであり、尤度がより高いほどより大きい数値で表わされる場合には、対応する時刻において、第2アライメント結果データに含まれる音響尤度データの値から、第1アライメント結果データに含まれる音響尤度データの値を減じて、その結果が正である場合に、重点区間検出部は、その区間を重点適応区間として検出する。
これにより、第1アライメントデータに含まれる音響尤度をより高める方向への適応化を、より重点的に行なうこととなる。その結果、より高精度に、音響モデルを適応化することができる。
[ 2 ] Further, according to one aspect of the present invention, in the above-described adaptation device, the adaptation processing unit gives the priority adaptation section detected by the priority section detection unit in the adaptation process of the acoustic model. It is characterized in that the weight is set larger than the weight given to the section that is not the priority adaptation section.
When the acoustic likelihood data is numerical data and is represented by a larger numerical value as the likelihood is higher, the first alignment is calculated from the value of the acoustic likelihood data included in the second alignment result data at the corresponding time. When the value of the acoustic likelihood data included in the result data is subtracted and the result is positive, the important interval detection unit detects the interval as the important adaptation interval.
Thereby, adaptation to the direction which raises the acoustic likelihood contained in 1st alignment data more will be performed more intensively. As a result, the acoustic model can be adapted with higher accuracy.
[3]また、本発明の一態様は、上記の適応化装置において、前記適応化処理部は、前記音響モデルの適応化処理において、前記第2アライメント結果データに含まれる音響尤度データが表わす尤度と前記第1アライメント結果データに含まれる音響尤度データが表わす尤度との差が大きい区間ほど、前記重点適応区間に付与する重みを大きくする、ことを特徴とする。 [ 3 ] Further, according to one aspect of the present invention, in the adaptation apparatus, the adaptation processing unit represents acoustic likelihood data included in the second alignment result data in the acoustic model adaptation processing. In a section where the difference between the likelihood and the likelihood represented by the acoustic likelihood data included in the first alignment result data is larger, the weight given to the priority adaptation section is increased.
[4]また、本発明の一態様は、上記のいずれかの適応化装置と、前記音響モデルを記憶する音響モデル記憶部と、前記音響モデルに記憶されている前記音響モデルを読み出して、入力される前記音声データの認識処理を行なう認識処理部と、を具備し、前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと前記テキストデータとを時間的にアラインし、前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと前記認識処理部による認識処理の結果得られる前記認識結果データとを時間的にアラインし、前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込むことを特徴とする音声認識装置である。 [ 4 ] Further, according to one aspect of the present invention, any one of the above-described adaptation devices, an acoustic model storage unit that stores the acoustic model, and the acoustic model stored in the acoustic model are read and input. A recognition processing unit that performs recognition processing of the voice data, and the first alignment unit included in the adaptation device is configured to recognize the recognition based on the acoustic model read from the acoustic model storage unit. The voice data and the text data to be subjected to recognition processing by the processing unit are temporally aligned, and the second alignment unit included in the adaptation device applies the acoustic model read from the acoustic model storage unit to the acoustic model. Based on the speech data and the recognition result data obtained as a result of the recognition processing by the recognition processing unit, the adaptation device includes: Adaptive processing unit which is a speech recognition apparatus characterized by writing the adapted acoustic models obtained as a result of the adaptation to the acoustic model storage unit.
この構成により、適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを音響モデル記憶部に書き込む。即ち、音響モデル記憶部を更新する。 With this configuration, the adaptation processing unit included in the adaptation apparatus writes the adaptive acoustic model obtained as a result of the adaptation to the acoustic model storage unit. That is, the acoustic model storage unit is updated.
[5]また、本発明の一態様は、上記のいずれかの適応化装置と、前記音響モデルを記憶する音響モデル記憶部と、言語要素の出現頻度に関する統計的データを表わす第1言語モデルを記憶する第1言語モデル記憶部と、言語要素の出現頻度に関する統計的データを表わし、前記第1言語モデルとは異なる第2言語モデルを記憶する第2言語モデル記憶部と、前記音響モデル記憶部に記憶されている前記音響モデルを読み出すとともに、前記第1言語モデル記憶部から読み出した前記第1言語モデルあるいは前記第2言語モデル記憶部から読み出した前記第2言語モデルのいずれかを用いて、入力される前記音声データの認識処理を行なう認識処理部と、を具備し、前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと、前記認識処理部が前記第1言語モデルを用いて前記音声データを認識処理して得られた結果である前記テキストデータとを時間的にアラインし、前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと、前記認識処理部が前記第2言語モデルを用いて前記音声データを認識処理して得られた結果である前記認識結果データとを時間的にアラインし、前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、ことを特徴とする音声認識装置である。 [ 5 ] Further, according to one aspect of the present invention, any one of the above-described adaptation devices, an acoustic model storage unit that stores the acoustic model, and a first language model that represents statistical data regarding the appearance frequency of language elements are provided. A first language model storage unit for storing, a second language model storage unit for representing statistical data relating to the appearance frequency of language elements, and storing a second language model different from the first language model, and the acoustic model storage unit Using the first language model read from the first language model storage unit or the second language model read from the second language model storage unit, A recognition processing unit that performs recognition processing of the input voice data, and the first alignment unit included in the adaptation device includes the acoustic model description. The speech data to be subjected to recognition processing by the recognition processing unit based on the acoustic model read from the unit, and the recognition processing unit obtained by recognizing the speech data using the first language model. The second alignment unit included in the adaptation device is based on the acoustic model read from the acoustic model storage unit, and the text data as a result is temporally aligned. A recognition processing unit temporally aligns the recognition result data, which is a result obtained by recognizing the speech data using the second language model, and the adaptation processing unit included in the adaptation device includes: The speech recognition apparatus is characterized in that an adaptive acoustic model obtained as a result of adaptation is written in the acoustic model storage unit.
この構成により、第1言語モデルを用いて認識処理を行った結果得られるテキストデータを、第1アライメント部におけるアライメントの対象として用いることができる。つまり、テキストデータを用意する必要がない。また、適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを音響モデル記憶部に書き込む。即ち、音響モデル記憶部を更新する。 With this configuration, text data obtained as a result of performing the recognition process using the first language model can be used as an alignment target in the first alignment unit. That is, there is no need to prepare text data. Further, the adaptation processing unit included in the adaptation device writes the adaptive acoustic model obtained as a result of the adaptation to the acoustic model storage unit. That is, the acoustic model storage unit is updated.
[6]また、本発明の一態様は、コンピューターを、音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成する第1アライメント手段、前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント手段、前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出手段、前記重点区間検出手段による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理手段、として機能させるためのプログラムであって、
前記重点区間検出手段は、時刻ごとに、前記第1アライメント結果データに含まれる音響尤度データよりも、前記第2アライメント結果データに含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する、プログラムである。
[ 6 ] Further, according to one embodiment of the present invention, a computer reads an acoustic model including data representing a statistical relationship between phonemes and acoustic features, and audio data to be read based on the acoustic model is read. First alignment means for generating first alignment result data including acoustic likelihood data associated with time by time-aligning and text data corresponding to the speech data, recognition of the speech data Second alignment result data including acoustic likelihood data associated with time by reading result data and aligning the speech data and the read recognition result data in time based on the acoustic model The second alignment means for generating the acoustic likelihood included in the first alignment result data at each time And an acoustic likelihood data included in the second alignment result data, and the acoustic model is adapted while weighting according to the comparison result by the important section detection unit is given to the speech section. A program for functioning as an adaptation processing means ,
In the case where the importance interval detection means represents a higher likelihood for each time, the acoustic likelihood data included in the second alignment result data than the acoustic likelihood data included in the first alignment result data In addition, the program detects a section associated with the time as a priority adaptation section.
[7]また、本発明の一態様は、コンピューターを上のいずれかに記載の音声認識装置として機能させるためのプログラムである。 [ 7 ] One embodiment of the present invention is a program for causing a computer to function as the voice recognition device according to any one of the above.
本発明によれば、音声認識時の認識誤りに応じて重点区間を検出し、効果的に音響モデルの話者適応化処理を行なう。よって、高精度な音響モデルを得ることができる。つまり、より高精度な音声認識が可能となる。 According to the present invention, an important section is detected according to a recognition error at the time of speech recognition, and the speaker adaptation processing of the acoustic model is effectively performed. Therefore, a highly accurate acoustic model can be obtained. That is, more accurate speech recognition is possible.
以下、図面を参照しながら、本発明の複数の実施形態について説明する。 Hereinafter, a plurality of embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
図1は、第1の実施形態による適応化装置の機能構成を示すブロック図である。図示するように、適応化装置1は、書き起こしデータ記憶部11と、認識結果記憶部14と、アライメント部15(第1アライメント部)と、アライメント部16(第2アライメント部)と、アライメント結果記憶部17および18と、重点区間検出部19と、適応化処理部20とを含んで構成される。
[First Embodiment]
FIG. 1 is a block diagram illustrating a functional configuration of the adaptation apparatus according to the first embodiment. As illustrated, the adaptation device 1 includes a transcription
また、適応化装置1は、適応化処理を行う前の初期モデルである音響モデル12と、適応化用音声データ13とを読み込む。適応化用音声データ13は、適応化に用いるための特定話者の音声データである。つまり、適応化用音声データ13は、当該特定話者に特有の音響特徴量を有するものである。また、適応化装置1は、適応化用音声データ13に対応する書き起こしデータと認識結果のデータとを読み込む。そして、適応化装置1は、適応化の結果として得られる話者適応化音響モデル21を出力する。
In addition, the adaptation apparatus 1 reads the
適応化装置1の各部について説明する。
書き起こしデータ記憶部11は、適応化用音声データ13に対応する書き起こしデータを記憶する。書き起こしデータは、予め人手等によって書き起こされたテキストデータである。書き起こしデータは、基本的には適応化用音声データにおける発話内容を表わす正解データであるが、必ずしも完全な正解データでなくても良く、多少の誤りを含んでいても良い。また、言い換えれば、この書き起こしデータは学習用(適応化用)の教師データである。
Each part of the adaptation apparatus 1 is demonstrated.
The transcription
認識結果記憶部14は、認識処理によって予め得られている認識結果のデータを記憶する。認識結果は、不図示の認識装置が、初期モデルである音響モデル12を用いて、適応化用音声データ13の認識処理を行った結果得られたものである。
The recognition
アライメント部15および16は、音響モデル12を用いて、それぞれ、テキストデータと適応化用音声データ13(音声データ)との間の強制アライメント処理を行う。ここで、音響モデル12は、音素と音響特徴量との間の統計的関係を表わすデータを含んで構成されるデータである。音響モデルの詳細については、後述する。
The
そして、アライメント部15は、音響モデル12を読み込み、音響モデル12に基づいて、読み込まれる適応化用音声データ13と、これに対応する書き起こしデータ(書き起こしデータ記憶部11から読み出されるテキストデータ)とを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成し、アライメント結果記憶部17に書き込む。また、アライメント部16は、適応化用音声データ13に対応する認識結果データを認識結果記憶部14から読み込み、音響モデル12に基づいて、適応化用音声データ13と読み込んだ認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成し、アライメント結果記憶部18に書き込む。つまり、アライメント部15は、書き起こしデータ記憶部11から読み出した書き起こしデータのアライメント処理を行う。また、アライメント部16は、認識結果記憶部14から読み出した認識結果のアライメント処理を行う。
Then, the
アライメント結果記憶部17および18は、それぞれ、アライメント部15および16によるアライメント処理の結果を記憶する。アライメント結果記憶部17および18が記憶するデータの構成については後述する。
The alignment
重点区間検出部19は、アライメント結果記憶部17および18のそれぞれからアライメント結果を読み出し、これに基づき、適応化を重点的に行う音声区問(重点適応区問)を検出する。より具体的には、重点区間検出部19は、時刻ごとに、アライメント結果記憶部17が記憶するデータ(第1アライメント結果データ)に含まれる音響尤度データよりも、アライメント結果記憶部18が記憶するデータ(第2アライメント結果データ)に含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する。
The priority
適応化処理部20は、重点区間検出部19が検出した重点区間の重みを、その他の区間の重みよりも大きくしながら、音響モデルの適応化処理を行ない、その結果として話者適応化音響モデル21を出力する。
The
音響モデル12は、前述の通り、音素と音響特徴量との間の統計的関係を表わすデータの集合である。音響モデル12は、音響特徴量(ベクトル)に関するM個の混合ガウス分布を表わすデータと、パラメータθを含む。パラメータθは、ベクトルであり、空間Θに属する。音響モデルは、不特定の話者に関するパラメータθ、あるいは特定の話者ごとのパラメータθ(話者のインデックスを付加して、θ1,θ2,・・・と表わしても良い)を記憶する。複数の話者に対応する場合には、音響モデルは、各々の話者について、話者識別情報と関連付けて音響モデルのパラメータの値θj(j=1,2,・・・)を記憶する。この音響モデルを用いることにより、音声認識装置は、音響特徴量のサンプルx=(x1,・・・,xT)が観測されたとき、時刻tにおける事後確率γt(i,m)を求める。ここで、iは、隠れマルコフモデル(HMM)の状態(トライフォン表記の音素に相当)である。また、m(1≦m≦M)は、音響モデルにおけるM個の混合ガウス分布のうちの一つを指すインデックス値である。
As described above, the
図2は、アライメント結果記憶部17および18がそれぞれ記憶するデータの構成を示す概略図である。図示するように、アライメント結果記憶部17および18のそれぞれは、表形式のデータであり、時刻と、音素と、音響尤度の各項目(桁)を有している。図中の音響尤度は、当該時刻における音響尤度(0より大きく、1未満)の対数値であり、負数である。このデータのレコード(行)は、フレームごとに存在する。また、このデータの全レコードの集合は、適応化用音声データ13の全区間に相当する。時刻は、適応化用音声データの開始位置からの相対時刻に相当するものである。この時刻は、図示するように、フレーム番号で表わされる。フレーム番号は0または1から始まるシリアル番号である。フレーム周期は、例えば、数百分の一秒ないしは数千分の一秒である。この時刻が、この表形式のデータにおける主キーである。音素は、当該時刻における音素のラベルである。ここでは、音素のラベルはトライフォンで表わされる。つまり、現在の音素に対して、直前の音素と直後の音素を並べて表記される。例えば、時刻が「309」である行においては、音素は「t+o」と表わされているが、これは、現在の音素が「t」(日本語においてタ行の音を構成する子音)で、直前の音素が無く、直後の音素が「o」(母音の「オ」)であることを示している。同様に、時刻が「314」である行においては、音素は「t−o+k」と表わされているが、これは、現在の音素が「o」で、直前の音素が「t」で、直後の音素が「k」であることを示している。一般に、現在の音素「X」に対して、直前の音素が「L」で、直後の音素が「R」であるときには、「L−X+R」の形でトライフォンが表わされる。
FIG. 2 is a schematic diagram showing the configuration of data stored in alignment
図3は、適応化装置1による適応化処理の手順を示すフローチャートである。以下、このフローチャートに沿って、詳細な手順を説明する。 FIG. 3 is a flowchart showing the procedure of the adaptation process by the adaptation apparatus 1. The detailed procedure will be described below along this flowchart.
まずステップS1において、アライメント部15および16が、それぞれ、アライメント処理を行う。アライメント部15は、音響モデル12を用いて、書き起こしデータ記憶部11から読み出した書き起こしデータを、適応化用音声データ13に強制アライメントする。また、アライメント部15は、音響モデル12を用いて、認識結果記憶部14から読み出した認識結果のテキストデータを、適応化用音声データ13に強制アライメントする。なお、アライメント処理自体は既存技術を用いて行なうことが可能である。アライメント部15および16は、それぞれ、書き起こしデータおよび認識結果テキストを音素列に変換し、それらの音素列を、時間軸上で最尤の位置となるように、適応化用音声データから得られるフレームごとの音響特徴量の列にアラインする。なお、時間軸上で最尤の位置となるようにアラインするために、アライメント部15および16は、上記の音素列と上記の音響特徴量との間の統計的関係を音響モデル12から読み出し、適宜尤度を計算しながら探索を行うことによって、尤度最大となるようなアライメントを得る。アライメント部15および16は、アライメント処理の結果、音素(トライフォン)と音響尤度のペアを、フレームごとのシーケンスとして、それぞれ、アライメント結果記憶部17および18に書き込む。なお、適応化用音声データにおいては、音響特徴量と時刻(フレーム番号)とは元々関連付けられている。
First, in step S1, the
次にステップS2からS5までの処理で、重点区間検出部19は、重点適応区間の検出を行なう。
Next, in the processes from step S2 to step S5, the important
ステップS2においては、重点区間検出部19は、時刻(フレーム番号)を表わす制御用の記憶領域(変数t)をゼロにリセットする。
次にステップS3において、重点区間検出部19は、時刻tにおける、認識結果と書き起こしデータとの間の音響尤度差を計算する。アライメントされた書き起こしデータによる、時刻tにおける音響尤度(アライメント結果記憶部17の、時刻tの行から読み出される値)をLR(t)とする。また、アライメントされた認識結果による、時刻tにおける音響尤度(アライメント結果記憶部18の、時刻tの行から読み出される値)をLH(t)とする。このとき、時刻tにおける音響尤度差ΔL(t)は、次の式(1)で計算される。
In step S2, the important
Next, in step S3, the
重点区間検出部19は、計算された音響尤度差ΔL(t)の値が正のとき、時刻tによって代表される区間(フレーム)では、認識結果による音響尤度が書き起こしデータによる音響尤度よりも大きいことから、当該区間を重点適応区間として検出する。逆に、ΔL(t)の値が零または負のとき、重点区間検出部19は、時刻tによって代表される区間(フレーム)を重点区間としない。上記のようにΔL(t)の値が正である音声区間を重点適応区間とする理由は、書き起こしデータ(正解データ)よりも認識結果の方が優位である区間が、特に適応化が必要な区間であるからである。
When the value of the calculated acoustic likelihood difference ΔL (t) is positive, the important
次にステップS4において、重点区間検出部19は、時刻を指し示す変数tを次に進める。本実施形態では、時刻がフレームのシリアル番号で表わされているため、変数tをインクリメントする。
次にステップS5において、重点区間検出部19は、適応化用音声データ13を全てサーチし終えたか否かを判断する。全てサーチし終えた場合(ステップS5:YES)には、次のステップS6に進む。まだサーチし終えていない場合(ステップS5:NO)には、ステップS3に戻って次のフレームの処理を続ける。
Next, in step S4, the important
Next, in step S <b> 5, the priority
次にステップS6に進んだ場合には、適応化処理部20が、重点適応区間により大きい重みを与えながら、適応化処理を行う。この適応化処理の詳細を次に記載する。
Next, when the process proceeds to step S6, the
適応化処理部20は、MLLR適応とMAP適応を行なう。これらの適応化処理自体は、既存技術を用いて行える。このとき、適応化処理部20は、適応化用音声データ13から得られる音響特徴量の列と、パラメータベクトルθによる音響モデル12とから、正解候補の音素列の確率を計算する。そして、適応化処理部20は、これにより得られる認識結果候補の音素列(およびその確率)と、教師データである書き起こしデータに対応する音素列との一致度合いから、パラメータベクトルθを評価する。書き起こしデータに対応する音素列は、アライメント結果記憶部17から読み出される。そして、適応化処理部20は、適切に定義された評価関数の値が最適値に近付くように、θを探索する。探索アルゴリズムとしては、例えばEMアルゴリズムを用いる。その際、適応化処理部20は、フォワードバックワードアルゴリズムにより、時刻tにおける事後確率γt(i,m)を求める。ここで、iは、隠れマルコフモデル(HMM)の状態(トライフォン表記の音素に相当)である。また、m(1≦m≦M)は、音響モデルにおけるM個の混合ガウス分布のうちの一つを指すインデックス値である。そして、本実施形態による適応化処理部20は、適応化を行なう際には、上記の事後確率γt(i,m)をそのまま用いるのではなく、重点適応区間により大きい重みを与えるために、下の式(2)によって算出される事後確率γ´t(i,m)を用いる。
The
なお、式(2)において、αは重点適応の重み定数であり、βは閾値である。なお、αおよびβはともに正の設定値である。αおよびβの具体的な値の例については後述する(実施例1)。 In equation (2), α is a weighting constant for priority adaptation, and β is a threshold value. Α and β are both positive set values. Examples of specific values of α and β will be described later (Example 1).
つまり、式(2)で表わされる通り、適応化処理部20は、ΔL(t)≦0である音声区間においては、重みをかけずに、γt(i,m)をそのままγ´t(i,m)の値として用いる。また、0<ΔL(t)である音声区間(重点適応区間)においては、γt(i,m)よりも大きい値をγ´t(i,m)の値として用いる。式(2)の例では、0<ΔL(t)≦βである音声区間においては、ΔL(t)の値に対する線形な増分がγt(i,m)に加算されている。また、β<ΔL(t)である音声区間においては、一律にα・β・γt(i,m)がγt(i,m)に加算されている。つまり、式(2)によってγ´t(i,m)を計算するのは、ΔL(t)が正である音声区間の事後確率γt(i,m)に対して線形に大きな重みを与える例(但し、所定の閾値以上では、一定値にカットオフ)である。
In other words, as represented by the formula (2), the
式(2)の代わりに、非線形な重みを与えてγ´t(i,m)を計算しても良い。非線形な重みを与えるためには、例えば、適応化処理部20は、下の式(3)によってγ´t(i,m)を計算する。
Instead of equation (2), γ ′ t (i, m) may be calculated by giving a non-linear weight. In order to give a non-linear weight, for example, the
式(3)におけるαおよびβは、ともに正の設定値である。また、eはネイピア数である。式(3)によって算出されるγ´t(i,m)の値は、ΔL(t)の増加に対して単調増加である。また、γt(i,m)<γ´t(i,m)<(1+α)・γt(i,m)である。 Α and β in equation (3) are both positive set values. E is the number of Napiers. The value of γ ′ t (i, m) calculated by Equation (3) is monotonically increasing with respect to the increase in ΔL (t). Further, γ t (i, m) <γ ′ t (i, m) <(1 + α) · γ t (i, m).
さらに式(3)の変形例として、適応化処理部20が、下の式(4)によってγ´t(i,m)を計算するようにしても良い。
Further, as a modification of Expression (3), the
このように、適応化処理部20は、時刻tに応じて、tで表わされる区間に対する重み付けをしながら適応化の処理を行なう。式(2)、式(3)、式(4)のいずれを用いる場合も、あるいはその他の重み(ΔL(t)に関してγ´t(i,m)が単調増加となるような重み)を用いる場合も、次の作用を有する。即ち、適応化処理部20は、重点適応区間に関して、ΔL(t)が大きいほど(つまり、LH(t)とLR(t)との差が大きいほど、さらに言い換えれば、アライメント結果記憶部18(第2アライメント結果データ)に含まれる音響尤度データが表わす尤度とアライメント結果記憶部17(第1アライメント結果データ)に含まれる音響尤度データが表わす尤度との差が大きいほど)、より大きな重み付けをその重点適応区間に付与しながら、音響モデルを適応化する、
As described above, the
[第2の実施形態]
図4は、本発明の第2の実施形態による音声認識装置の機能構成を示すブロック図である。本実施形態による音声認識装置2は、第1の実施形態で述べた適応化装置1を内部に備えている。そして、図示するように、音声認識装置2は、適応化装置1と、音響モデル記憶部112と、認識処理部153とを含んで構成される。
[Second Embodiment]
FIG. 4 is a block diagram showing a functional configuration of the speech recognition apparatus according to the second embodiment of the present invention. The
音声認識装置2は、外部から音声データを取得し、この音声データに対応する認識結果を出力する。ここで、認識処理部153は、音響モデル記憶部112から読み出す音響モデルと、不図示の言語モデルとを用いて、音声データに対応する音響特徴量列に対して最尤なテキストを探索し、出力する。認識処理部153のこの処理自体は、既存の音声認識技術を用いて実現される。また、音響モデル記憶部112は、話者ごとに音響モデルを記憶する。言い換えれば、音響モデル記憶部112は、各々の話者について、話者識別情報と関連付けて音響モデルのパラメータの値を記憶する。
The
適応化装置1は、音響モデル記憶部112から音響モデルを読み込む。これは、第1の実施形態において適応化装置1が音響モデル12(図1)を読み込んだことに相当する。また、適応化装置1は、第1の実施形態でも述べたように、認識処理部153が出力した認識結果を取得する。また、適応化装置1は、第1の実施形態でも述べたように、認識処理部153による認識処理とは独立に別途書き起こされた書き起こしデータを読み込む。また、適応化装置1は、外部から入力された音声データを取得する。この音声データは、第1の実施形態で述べた適応化用音声データ13(図1)に相当する。
The adaptation device 1 reads the acoustic model from the acoustic
これら入力されるデータを元に、適応化装置1は、第1の実施形態で述べた手順で適応化の処理を行い、話者適応化された音響モデルを出力する。適応化装置1は、この話者適応化された音響モデルによって、音響モデル記憶部112を更新する。これにより、音声認識装置2の音響モデルは、特定の話者に適応化される。話者適応化のために用いる音声データは、一発話分(ここで、一発話とは、無音区間を始端境界および終端境界として切り出される音声区間とする)であっても良く、数発話分であっても良い。また、所定の時間(例えば、5秒)で区切った音声データを適応化用音声データとして用いても良い。このように特定話者に適応化された音響モデルを用いることにより、音声認識装置2が特定話者の音声を認識する際の認識精度を向上させることができる。
Based on these input data, the adaptation apparatus 1 performs an adaptation process according to the procedure described in the first embodiment, and outputs a speaker-adapted acoustic model. The adaptation apparatus 1 updates the acoustic
また、適応化装置1による音響モデルの適応化を複数回繰り返して行なっても良い。この場合、一回の適応化処理ごとに音響モデル記憶部112が更新される。そして、その一回ごとに当該話者に関して音響モデルが適応化され、その音響モデルを用いた音声認識処理の精度がその都度向上する。
Further, the adaptation of the acoustic model by the adaptation device 1 may be repeated a plurality of times. In this case, the acoustic
本実施形態の構成を整理すると、次の通りである。即ち、適応化装置1が具備するアライメント部15(第1アライメント部)は、音響モデル記憶部112から読み込んだ音響モデルに基づいて、認識処理部153による認識処理の対象となる音声データとテキストデータとを時間的にアラインし、適応化装置1が具備するアライメント部16(第1アライメント部)は、音響モデル記憶部112から読み込んだ音響モデルに基づいて、音声データと認識処理部153による認識処理の結果得られる認識結果データとを時間的にアラインする。また、適応化装置1が具備する適応化処理部20は、適応化した結果得られる適応化音響モデルを音響モデル記憶部112に書き込む。つまり、適応化処理部20が、適応化用音声データ13に対応する話者の音響モデルを更新する。
The configuration of the present embodiment is organized as follows. In other words, the alignment unit 15 (first alignment unit) included in the adaptation apparatus 1 is based on the acoustic model read from the acoustic
[第3の実施形態]
図5は、本発明の第3の実施形態による音声認識装置の機能構成を示すブロック図である。本実施形態による音声認識装置3は、第1の実施形態で述べた適応化装置1を内部に備えている。そして、図示するように、音声認識装置3は、適応化装置1と、音響モデル記憶部112と、認識処理部153と、認識結果記憶部154と、第1言語モデル記憶部161と、第2言語モデル記憶部162とを含んで構成される。
[Third Embodiment]
FIG. 5 is a block diagram showing a functional configuration of a speech recognition apparatus according to the third embodiment of the present invention. The
同図における適応化装置1は、第1の実施形態で述べた構成を有している。また、音響モデル記憶部112と認識処理部153については、第2の実施形態で述べた通りである。本実施形態特有の構成は、第1言語モデル記憶部161および第2言語モデル記憶部162が、それぞれ互いと異なる形態の言語モデルを記憶している点である。
The adaptation apparatus 1 in the figure has the configuration described in the first embodiment. Further, the acoustic
そして、認識処理部153は、まず第1段階で、第1言語モデル記憶部161に記憶されている言語モデルを用いて認識処理を行ない、その認識結果を認識結果記憶部154に書き込む。認識処理部153は、その後の第2段階で、第2言語モデル記憶部162に記憶されている言語モデルを用いて認識処理を行なう。このとき、第1言語モデル記憶部161と第2言語モデル記憶部162に記憶されている言語モデルが互いに異なるため、認識処理部153による認識結果も若干異なったものとなる。そして、適応化装置1は、上記第2段階において、認識結果記憶部154から読み出した認識結果のテキストを、第1の実施形態において説明した書き起こしデータの代わりとして読み込む。また、第2段階において認識処理部153から出力された認識結果のテキストを、第1の実施形態において説明した認識結果として読み込む。これらの入力を用いて、適応化装置1は、適応化処理を行ない、その結果得られる話者適応化音響モデルを用いて、音響モデル記憶部112を更新する。
The
第2の実施形態においては、音声認識装置3では、適応化用音声データに対応する書き起こしデータを手作業等によって予め用意する必要があった。それに対して、この第3の実施形態では、第1段階において第1言語モデル記憶部161を参照しながら行なった認識処理で認識処理部153が出力した認識結果を、一時的に認識結果記憶部154に記憶させ、第2段階において書き起こしデータの代わりに用いる。従って、音声認識装置3は、予め書き起こしデータを作成する必要がなく、手間を削減できる。
In the second embodiment, the
なお、一例としては、第1言語モデル記憶部161には、トライグラム(trigram)の言語モデルを記憶させる。また第2言語モデル記憶部162には、バイグラム(bigram)の言語モデルを記憶させる。バイグラムの言語モデルは、連鎖数が2である言語要素(単語等)の連鎖の統計的出現確率を用いた言語モデルである。トライグラムの言語モデルは、連鎖数が3である言語要素(単語等)の連鎖の統計的出現確率を用いた言語モデルである。
As an example, the first language
なお、上述した各実施形態における適応化装置、音声認識装置の機能の全部または一部をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 In addition, you may make it implement | achieve all or one part of the functions of the adaptation apparatus and speech recognition apparatus in each embodiment mentioned above with a computer. In that case, the program for realizing these functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、単独の話者ごとの音響モデルを適応化する代わりに、音響的に似た特徴を有する複数の話者で構成される話者クラスタごとに、音響モデルを適応化するようにしても良い。
Although a plurality of embodiments have been described above, the present invention can also be implemented in the following modifications.
For example, instead of adapting the acoustic model for each individual speaker, the acoustic model may be adapted for each speaker cluster composed of a plurality of speakers having acoustically similar characteristics. .
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
放送局で用いるための音声認識システムに、本発明の適応化装置1を適用した。同システムは、音声認識処理を利用して、生放送番組に字幕(テキスト)を付与するシステムである。同システムは、生放送の情報番組で流される音声を聞きながらリスピーク(再発話)する2人のリスピーカーの音声を認識する。リスピーカーは十分に訓練された話者である。まず、リスピーカーの役割を果たす特定話者2人(便宜上、AおよびBと呼ぶ)の音声(約3時間分)を用いて、隠れマルコフモデルによる不特定話者用の音響モデルを、事前に、AおよびBのそれぞれ用に適応化しておく。これらを初期音響モデル(それぞれ、モデルA0およびモデルB0)として用いる。そして、2人のリスピーカーは、放送中にオンラインで、適当な発話区切りごとに交替で、交互に発話する。そして、音声認識システムは、話者Aが発話している間には、Aの音声を認識する処理を行なうとともに、話者交替以前の話者Bの発話の認識結果を用いて話者B用のモデルBnを適応化してモデルBn+1に更新する(nは整数)。また、逆に、話者Bが発話している間には、Bの音声を認識する処理を行なうとともに、話者交替以前の話者Aの発話の認識結果を用いて話者A用のモデルAnを適応化してモデルAn+1に更新する。これを繰り返していく。 The adaptation apparatus 1 of the present invention is applied to a voice recognition system for use in a broadcasting station. This system is a system for giving subtitles (text) to a live broadcast program using voice recognition processing. The system recognizes the voices of two re-speakers who are lispeaking (repeating) while listening to the voices played in live broadcast information programs. Respeakers are fully trained speakers. First, an acoustic model for an unspecified speaker based on a hidden Markov model is preliminarily used by using voices (about 3 hours) of two specific speakers (referred to as A and B for convenience) serving as respeakers. , A and B are adapted for each. These are used as initial acoustic models (model A 0 and model B 0 , respectively). Then, the two re-speakers speak in turn during the broadcast, alternately at appropriate utterance breaks. And while the speaker A is speaking, the voice recognition system performs processing for recognizing the voice of A, and for the speaker B using the recognition result of the speaker B's utterance before the speaker change. Model B n is adapted and updated to model B n + 1 (n is an integer). On the other hand, while speaker B is speaking, a process for recognizing B's voice is performed and a model for speaker A is used using the recognition result of speaker A's utterance before speaker change. An is adapted and updated to the model An + 1 . Repeat this.
上記の、不特定話者用の音響モデルは、5状態3自己ループの状態共有トライフォンHMM(4000状態、16混合分布)である。認識用に用いた言語モデルは大量の放送番組の書き起こし等(412M単語)によって学習した語彙サイズ93kのトライグラムモデルと、番組ごとの関連テキスト(17k単語)によって構築したトライグラムモデルを線形補間したものである。
The above acoustic model for unspecified speakers is a 5-
認識実験および話者適応化のための認識仮説の生成には、第1パスでバイグラムによる単語依存N−best探索、第2パスでトライグラムリスコアリングする逐次2パスデコーダを使用した。また、適応化手法としては、次の3手法を用いて比較した。(a)ベースライン:従来の技術によるMLLR、MAPで適応化する。(b)トライグラム:最尤認識仮説として第2パスの最尤仮説を用いて、重点適応区間を決定する。(c)バイグラム:最尤認識仮説として第1パスの最尤仮説を用いて、重点適応区間を決定する。 For the recognition experiment and the generation of recognition hypotheses for speaker adaptation, a sequential 2-pass decoder that uses word-dependent N-best search by bigram in the first pass and trigram rescoring in the second pass was used. As an adaptation method, the following three methods were used for comparison. (A) Baseline: Adaptation using MLLR and MAP according to the conventional technology. (B) Trigram: The priority adaptation interval is determined using the maximum likelihood hypothesis of the second pass as the maximum likelihood recognition hypothesis. (C) Bigram: Uses the maximum likelihood hypothesis of the first pass as the maximum likelihood recognition hypothesis to determine the priority adaptation interval.
ここで、MLLR適応およびMAP適応を行なう際に、重み付き事後確率γ´t(i,m)を算出するためには、前記の式(2)を用いた。また、式(2)における設定値αおよびβとしては、次の値を用いた。即ち、β=25.0(固定値)とした。
また、αは、状況に応じて次の通りとした。
バイグラムの場合(上記(c))、初期の音響モデルの生成時には、MLLR適応ではα=10.0、MAP適応ではα=0.3とした。オンライン適応化時には、MLLR適応ではα=20.0、MAP適応ではα=0.6とした。
トライグラムの場合(上記(b))、初期の音響モデルの生成時には、MLLR適応ではα=20.0、MAP適応ではα=0.3とした。オンライン適応化時には、MLLR適応ではα=100.0、MAP適応ではα=1.5とした。
Here, when performing MLLR adaptation and MAP adaptation, the above formula (2) is used to calculate the weighted posterior probability γ ′ t (i, m). Further, the following values were used as the setting values α and β in the equation (2). That is, β = 25.0 (fixed value).
Α is set as follows according to the situation.
In the case of bigram ((c) above), when generating the initial acoustic model, α = 10.0 for MLLR adaptation and α = 0.3 for MAP adaptation. At online adaptation, α = 20.0 for MLLR adaptation and α = 0.6 for MAP adaptation.
In the case of a trigram (above (b)), α = 20.0 for MLLR adaptation and α = 0.3 for MAP adaptation when generating the initial acoustic model. During online adaptation, α = 100.0 for MLLR adaptation and α = 1.5 for MAP adaptation.
この実施例による結果は、下の表1の通りである。この表は、話者A、話者B、および全体のそれぞれについて、重点適応区間がない場合(上記(a))と重点適応区間がある場合(上記(b)および(c))の、単語誤り率(WER,Word Error Rate)を示している。いずれも、重点適応区間なしで音響モデルを適応化するよりも、重点適応区間ありで音響モデルを適応化したほうが、単語誤り率が下がっている。つまり、重点適応区間ありで適応化したほうが高い効果が得られることが確認された。 The results according to this example are shown in Table 1 below. This table shows the words for speaker A, speaker B, and the whole when there is no important adaptation interval (above (a)) and when there is an important adaptation interval (above (b) and (c)). The error rate (WER, Word Error Rate) is shown. In either case, the word error rate is lower when the acoustic model is adapted with the important adaptation section than when the acoustic model is adapted without the important adaptation section. In other words, it was confirmed that the higher effect can be obtained by adapting with the priority adaptation section.
本発明は、音声の音響的特徴を用いた統計的処理に利用可能である。特に、本発明は、音声認識処理に利用可能である。さらに、本発明は、音声認識処理を利用して放送番組等の音声に対応したテキストデータ(字幕データ)を生成する処理に利用可能である。 The present invention can be used for statistical processing using acoustic features of speech. In particular, the present invention can be used for speech recognition processing. Furthermore, the present invention can be used for a process of generating text data (caption data) corresponding to the sound of a broadcast program or the like using a voice recognition process.
1 適応化装置
2,3 音声認識装置
11 書き起こしデータ記憶部
12 音響モデル
13 適応化用音声データ(音声データ)
14 認識結果記憶部
15 アライメント部(第1アライメント部,第1アライメント手段)
16 アライメント部(第2アライメント部,第2アライメント手段)
17 アライメント結果記憶部(第1アライメント結果データ)
18 アライメント結果記憶部(第2アライメント結果データ)
19 重点区間検出部(重点区間検出手段)
20 適応化処理部(適応化処理手段)
112 音響モデル記憶部
153 認識処理部
154 認識結果記憶部
161 第1言語モデル記憶部
162 第2言語モデル記憶部
DESCRIPTION OF SYMBOLS 1
14 recognition
16 Alignment unit (second alignment unit, second alignment means)
17 Alignment result storage unit (first alignment result data)
18 Alignment result storage unit (second alignment result data)
19 Priority section detection unit (Priority section detection means)
20 Adaptation processing unit (adaptive processing means)
112 acoustic
Claims (7)
前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント部と、
前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出部と、
前記重点区間検出部による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理部と、
を具備し、
前記重点区間検出部は、時刻ごとに、前記第1アライメント結果データに含まれる音響尤度データよりも、前記第2アライメント結果データに含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する、
ことを特徴とする適応化装置。 An acoustic model including data representing a statistical relationship between phonemes and acoustic features is read, and the read voice data and text data corresponding to the voice data are temporally aligned based on the acoustic model. A first alignment unit that generates first alignment result data including acoustic likelihood data associated with the time;
It includes acoustic likelihood data associated with time by reading the recognition result data of the voice data and aligning the voice data and the read recognition result data in time based on the acoustic model. A second alignment unit for generating second alignment result data;
An important interval detection unit that compares the acoustic likelihood data included in the first alignment result data with the acoustic likelihood data included in the second alignment result data for each time;
An adaptation processing unit that adapts the acoustic model while assigning a weight according to a comparison result by the priority section detection unit to a speech section;
Equipped with,
When the important interval detection unit represents a higher likelihood for each time, the acoustic likelihood data included in the second alignment result data than the acoustic likelihood data included in the first alignment result data In addition, the section associated with the time is detected as the priority adaptation section.
It shall be the said adaptation device.
ことを特徴とする請求項1に記載の適応化装置。 The adaptation processing unit, in the adaptation process of the acoustic model, to make the weight to be given to the priority adaptation section detected by the priority section detection unit larger than the weight to be given to a section that is not a priority adaptation section;
The adaptation device according to claim 1 .
ことを特徴とする請求項2に記載の適応化装置。 In the adaptation process of the acoustic model, the adaptation processing unit is configured such that the likelihood represented by the acoustic likelihood data included in the second alignment result data and the likelihood represented by the acoustic likelihood data included in the first alignment result data. The larger the difference from the degree, the greater the weight given to the priority adaptation section,
The adaptation device according to claim 2 .
前記音響モデルを記憶する音響モデル記憶部と、
前記音響モデルに記憶されている前記音響モデルを読み出して、入力される前記音声データの認識処理を行なう認識処理部と、
を具備し、
前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと前記テキストデータとを時間的にアラインし、
前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと前記認識処理部による認識処理の結果得られる前記認識結果データとを時間的にアラインし、
前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、
ことを特徴とする音声認識装置。 An adaptation device according to any one of claims 1 to 3 ,
An acoustic model storage unit for storing the acoustic model;
A recognition processing unit that reads out the acoustic model stored in the acoustic model and performs recognition processing of the input voice data;
Comprising
The first alignment unit included in the adapting device converts the speech data and the text data to be subjected to recognition processing by the recognition processing unit based on the acoustic model read from the acoustic model storage unit. Aligned and
The second alignment unit included in the adaptation device, based on the acoustic model read from the acoustic model storage unit, the voice data and the recognition result data obtained as a result of recognition processing by the recognition processing unit. Aligned in time,
The adaptation processing unit included in the adaptation device writes an adaptive acoustic model obtained as a result of adaptation to the acoustic model storage unit.
A speech recognition apparatus characterized by that.
前記音響モデルを記憶する音響モデル記憶部と、 言語要素の出現頻度に関する統計的データを表わす第1言語モデルを記憶する第1言語モデル記憶部と、
言語要素の出現頻度に関する統計的データを表わし、前記第1言語モデルとは異なる第2言語モデルを記憶する第2言語モデル記憶部と、
前記音響モデル記憶部に記憶されている前記音響モデルを読み出すとともに、前記第1言語モデル記憶部から読み出した前記第1言語モデルあるいは前記第2言語モデル記憶部から読み出した前記第2言語モデルのいずれかを用いて、入力される前記音声データの認識処理を行なう認識処理部と、
を具備し、
前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと、前記認識処理部が前記第1言語モデルを用いて前記音声データを認識処理して得られた結果である前記テキストデータとを時間的にアラインし、
前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと、前記認識処理部が前記第2言語モデルを用いて前記音声データを認識処理して得られた結果である前記認識結果データとを時間的にアラインし、
前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、
ことを特徴とする音声認識装置。 An adaptation device according to any one of claims 1 to 3 ,
An acoustic model storage unit for storing the acoustic model, a first language model storage unit for storing a first language model representing statistical data regarding the appearance frequency of language elements,
A second language model storage unit that represents statistical data related to the appearance frequency of language elements, and stores a second language model different from the first language model;
While reading out the acoustic model stored in the acoustic model storage unit, either the first language model read from the first language model storage unit or the second language model read from the second language model storage unit A recognition processing unit for performing recognition processing of the input voice data using
Comprising
Based on the acoustic model read from the acoustic model storage unit, the first alignment unit included in the adaptation device includes the speech data to be subjected to recognition processing by the recognition processing unit, and the recognition processing unit Temporally aligning the text data, which is the result obtained by recognizing the speech data using the first language model,
The second alignment unit included in the adaptation device is configured to use the voice data based on the acoustic model read from the acoustic model storage unit, and the voice data from the recognition processing unit using the second language model. Time-aligned with the recognition result data, which is the result obtained by recognizing the
The adaptation processing unit included in the adaptation device writes an adaptive acoustic model obtained as a result of adaptation to the acoustic model storage unit.
A speech recognition apparatus characterized by that.
音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成する第1アライメント手段、
前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント手段、
前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出手段、
前記重点区間検出手段による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理手段、
として機能させるためのプログラムであって、
前記重点区間検出手段は、時刻ごとに、前記第1アライメント結果データに含まれる音響尤度データよりも、前記第2アライメント結果データに含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する、
プログラム。 Computer
An acoustic model including data representing a statistical relationship between phonemes and acoustic features is read, and the read voice data and text data corresponding to the voice data are temporally aligned based on the acoustic model. A first alignment means for generating first alignment result data including acoustic likelihood data associated with the time,
It includes acoustic likelihood data associated with time by reading the recognition result data of the voice data and aligning the voice data and the read recognition result data in time based on the acoustic model. Second alignment means for generating second alignment result data;
An important section detection unit that compares the acoustic likelihood data included in the first alignment result data with the acoustic likelihood data included in the second alignment result data for each time.
Adaptation processing means for adapting the acoustic model while assigning a weight according to the comparison result by the priority section detection means to the speech section;
A program for functioning as,
In the case where the importance interval detecting means represents a higher likelihood for each time, the acoustic likelihood data included in the second alignment result data than the acoustic likelihood data included in the first alignment result data. In addition, the section associated with the time is detected as the priority adaptation section.
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012048232A JP6027754B2 (en) | 2012-03-05 | 2012-03-05 | Adaptation device, speech recognition device, and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012048232A JP6027754B2 (en) | 2012-03-05 | 2012-03-05 | Adaptation device, speech recognition device, and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013182261A JP2013182261A (en) | 2013-09-12 |
JP6027754B2 true JP6027754B2 (en) | 2016-11-16 |
Family
ID=49272906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012048232A Active JP6027754B2 (en) | 2012-03-05 | 2012-03-05 | Adaptation device, speech recognition device, and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6027754B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102199246B1 (en) * | 2014-11-18 | 2021-01-07 | 에스케이텔레콤 주식회사 | Method And Apparatus for Learning Acoustic Model Considering Reliability Score |
US20220335951A1 (en) * | 2019-09-27 | 2022-10-20 | Nec Corporation | Speech recognition device, speech recognition method, and program |
CN111243574B (en) * | 2020-01-13 | 2023-01-03 | 苏州奇梦者网络科技有限公司 | Voice model adaptive training method, system, device and storage medium |
EP4443429A1 (en) * | 2021-12-03 | 2024-10-09 | Panasonic Intellectual Property Management Co., Ltd. | Voice registration device and voice registration method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6272462B1 (en) * | 1999-02-25 | 2001-08-07 | Panasonic Technologies, Inc. | Supervised adaptation using corrective N-best decoding |
JP2000305591A (en) * | 1999-04-26 | 2000-11-02 | Mitsubishi Electric Corp | Speaker adaptive acoustic model creating method and speech recognition device |
EP1199704A3 (en) * | 2000-10-17 | 2003-10-15 | Philips Intellectual Property & Standards GmbH | Selection of an alternate stream of words for discriminant adaptation |
JP3795409B2 (en) * | 2001-09-14 | 2006-07-12 | 富士通株式会社 | Speech recognition apparatus and method |
JP2005091504A (en) * | 2003-09-12 | 2005-04-07 | Chubu Electric Power Co Inc | Voice recognition device |
-
2012
- 2012-03-05 JP JP2012048232A patent/JP6027754B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013182261A (en) | 2013-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
US9099082B2 (en) | Apparatus for correcting error in speech recognition | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
US20170206892A1 (en) | Speaker-adaptive speech recognition | |
WO2014025682A2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
US8645139B2 (en) | Apparatus and method of extending pronunciation dictionary used for speech recognition | |
KR102199246B1 (en) | Method And Apparatus for Learning Acoustic Model Considering Reliability Score | |
JPH09160584A (en) | Voice adaptation device and voice recognition device | |
JP6031316B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
US20090055177A1 (en) | Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method | |
JP6690484B2 (en) | Computer program for voice recognition, voice recognition device and voice recognition method | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP2017045027A (en) | Speech language corpus generation device and its program | |
JP5184467B2 (en) | Adaptive acoustic model generation apparatus and program | |
JP4964194B2 (en) | Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof | |
JP5738216B2 (en) | Feature amount correction parameter estimation device, speech recognition system, feature amount correction parameter estimation method, speech recognition method, and program | |
JP5914119B2 (en) | Acoustic model performance evaluation apparatus, method and program | |
JP2008026721A (en) | Speech recognizer, speech recognition method, and program for speech recognition | |
KR100586045B1 (en) | Recursive Speaker Adaptation Automation Speech Recognition System and Method using EigenVoice Speaker Adaptation | |
JP2005091504A (en) | Voice recognition device | |
JP5694976B2 (en) | Distributed correction parameter estimation device, speech recognition system, dispersion correction parameter estimation method, speech recognition method, and program | |
Tatarnikova et al. | Building acoustic models for a large vocabulary continuous speech recognizer for Russian | |
Pirhosseinloo et al. | A combination of maximum likelihood Bayesian framework and discriminative linear transforms for speaker adaptation | |
JP2008083367A (en) | Speech recognizer, speech recognition method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6027754 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |