JP6903613B2 - Speech recognition device, speech recognition method and program - Google Patents
Speech recognition device, speech recognition method and program Download PDFInfo
- Publication number
- JP6903613B2 JP6903613B2 JP2018168708A JP2018168708A JP6903613B2 JP 6903613 B2 JP6903613 B2 JP 6903613B2 JP 2018168708 A JP2018168708 A JP 2018168708A JP 2018168708 A JP2018168708 A JP 2018168708A JP 6903613 B2 JP6903613 B2 JP 6903613B2
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- acoustic model
- label
- data
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明の実施形態は音声認識装置、音声認識方法及びプログラムに関する。 Embodiments of the present invention relate to voice recognition devices, voice recognition methods and programs.
音響モデルと言語モデルとを用いて音声データを認識し、音声データに含まれる発話のテキストを出力する音声認識技術が従来から知られている。音響モデルは予め大量(例えば数百時間以上)のデータを用いて学習される。しかし、どのような条件で用いても高い認識率(例えば85%以上)が得られるような音響モデルを学習することは困難である。例えば、クリーンな環境で収録された音声データを用いて学習された音響モデルが用いられた場合、残響が大きい会議室での認識率が劣化してしまう。認識率の劣化を防ぐ有効な方法の一つとして、音響モデルの適応がある。 A speech recognition technique that recognizes speech data using an acoustic model and a language model and outputs the utterance text included in the speech data has been conventionally known. The acoustic model is learned in advance using a large amount of data (for example, several hundred hours or more). However, it is difficult to learn an acoustic model that can obtain a high recognition rate (for example, 85% or more) under any conditions. For example, when an acoustic model learned using voice data recorded in a clean environment is used, the recognition rate in a conference room with a large reverberation deteriorates. One of the effective methods to prevent the deterioration of the recognition rate is the adaptation of the acoustic model.
しかしながら、従来の技術では、音響モデルの適応を行った場合、悪影響も生じていた。例えば、同じ内容の発話が繰り返された場合、音響モデルの適応によって、この発話を認識しやすくなるが、他の発話を認識しにくくなる。また例えば、音声データには音声及び非音声の両方が含まれているが、非音声の部分が多い場合、音響モデルの適応によって、非音声の認識結果が出やすくなり、音声の認識結果が出にくくなる。本発明が解決しようとする課題は、音響モデルの適応による悪影響を抑制できる音声認識装置、音声認識方法及びプログラムを提供することである。 However, in the conventional technique, when the acoustic model is adapted, an adverse effect also occurs. For example, when utterances of the same content are repeated, the adaptation of the acoustic model makes it easier to recognize this utterance, but makes it difficult to recognize other utterances. Also, for example, voice data includes both voice and non-voice, but when there are many non-voice parts, the non-voice recognition result can be easily obtained by adapting the acoustic model, and the voice recognition result can be obtained. It becomes difficult. An object to be solved by the present invention is to provide a voice recognition device, a voice recognition method, and a program capable of suppressing adverse effects due to adaptation of an acoustic model.
実施形態の音声認識装置は、生成部と決定部と選択部と適応部とを備える。生成部は、言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する。決定部は、前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する。選択部は、前記重みに基づいて前記音声データを選択する。適応部は、前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する。 The voice recognition device of the embodiment includes a generation unit, a determination unit, a selection unit, and an adaptation unit. The generation unit recognizes the voice data using the language model and the first acoustic model, and generates a label that identifies the utterance included in the voice data. The determination unit specifies the number of voice data including the same utterance using the label, and determines the weight to be given to the voice data according to the number. The selection unit selects the voice data based on the weight. The adapting unit generates a second acoustic model by adapting the first acoustic model using the voice data selected by the selection unit.
以下に添付図面を参照して、音声認識装置、音声認識方法及びプログラムの実施形態を詳細に説明する。 The voice recognition device, the voice recognition method, and the embodiment of the program will be described in detail with reference to the accompanying drawings.
はじめに、音響モデルの適応について説明する。音響モデルの適応は、学習された音響モデルに基づき、適応データを用いて当該音響モデルを再学習することにより行われる。以下、はじめに学習された音響モデルをベース音響モデル(第1音響モデル)と呼び、適応させた音響モデルを適応音響モデル(第2音響モデル)と呼ぶ。 First, the adaptation of the acoustic model will be described. The adaptation of the acoustic model is performed by re-learning the acoustic model using the adaptation data based on the learned acoustic model. Hereinafter, the acoustic model learned first is referred to as a base acoustic model (first acoustic model), and the adapted acoustic model is referred to as an adaptive acoustic model (second acoustic model).
音響モデルを適応させる方法は、おおむね二種類ある(教師あり適応及び教師なし適応)。教師あり適応では、音声データ、及び、音声データの正解ラベルの両方を含む適応データが使用される。教師なし適応では、音声データのみを含む適応データが使用される(正解ラベルがない。)。 There are roughly two ways to adapt the acoustic model (supervised adaptation and unsupervised adaptation). In supervised adaptation, adaptive data including both audio data and the correct label of the audio data is used. In unsupervised adaptation, adaptive data containing only audio data is used (there is no correct label).
教師あり適応は正解ラベルがあるため適応に対して良いが、書き起こしなどによって正解ラベルを作成する必要があるので、コストが高い。 Supervised adaptation is good for adaptation because it has a correct label, but it is expensive because it is necessary to create a correct label by transcribing.
一方、教師なし適応は正解ラベルの作成が要らないためコストが低い。教師なし適応では、音声データを認識し、音声認識結果をラベルとして用いる。音声認識結果の誤りは適応に悪影響を及ぼす可能性があるため、基本的には、音声認識精度は高いほどよい。従来の教師なし適応方法では、言語モデルとベース音響モデルとを用いて音声を認識し、ラベル、信頼度及び音響尤度を出力する。従来の教師なし適応方法では、信頼度がより高く、かつ、音響尤度がより小さい音声データを選択して、音響モデルの適応を行う。 On the other hand, unsupervised adaptation is less costly because it does not require the creation of correct labels. In unsupervised adaptation, speech data is recognized and the speech recognition result is used as a label. Basically, the higher the speech recognition accuracy, the better, because an error in the speech recognition result may adversely affect adaptation. In the conventional unsupervised adaptation method, speech is recognized using a language model and a bass acoustic model, and labels, reliability, and acoustic likelihood are output. In the conventional unsupervised adaptation method, the acoustic model is adapted by selecting speech data having higher reliability and lower acoustic likelihood.
(第1実施形態)
はじめに、第1実施形態の音声認識装置10の機能構成の例について説明する。
(First Embodiment)
First, an example of the functional configuration of the
[機能構成の例]
図1は第1実施形態の音声認識装置10の機能構成の例を示す図である。第1実施形態の音声認識装置10は、生成部1、決定部2、選択部3及び適応部4を備える。音声認識装置10の一部又は全ての機能は、ソフトウェア(プログラム)で実現されても良いし、ハードウェアで実現されても良い。
[Example of functional configuration]
FIG. 1 is a diagram showing an example of a functional configuration of the
また、第1実施形態の音声認識装置10は、言語モデル101、ベース音響モデル102及び適応音響モデル103を記憶する。言語モデル101は、音声の言語的な特徴をモデル化したデータである。ベース音響モデル102及び適応音響モデル103は、音声の音響的な特徴をモデル化したデータである。ベース音響モデル102は、はじめに学習されたデータである。適応音響モデル103は、適応データを用いてベース音響モデル102を再学習することにより得られたデータである。なお、言語モデル101、ベース音響モデル102及び適応音響モデル103を記憶する記憶部は、外部の装置に備えられていてもよい。
Further, the
生成部1は、言語モデル101とベース音響モデル102とを用いて音声データを認識し、ラベルを生成する。音声データは、例えば発話毎に区切られたデータである。ラベルは、音声データの音声認識結果から変換されたデータである。ラベルは、音声データに含まれる発話を識別する情報である。
The
決定部2は、ラベルを用いて、同じ発話を含む音声データの個数を特定し、音声データに付与する重みを、当該個数に応じて決定する。
The
ラベル及び当該ラベルの個数は、例えば図2に示すラベル情報として、音声認識装置10に記憶される。
The label and the number of the labels are stored in the
図2は第1実施形態のラベル情報の例を示す図である。第1実施形態のラベル情報は、音声データ、音声認識結果、ラベル、カウント数及び重みを含む。 FIG. 2 is a diagram showing an example of label information of the first embodiment. The label information of the first embodiment includes voice data, a voice recognition result, a label, a count number, and a weight.
音声認識結果は、音声データの認識結果である。図2の例では、ラベルは、音声認識結果をひらがなに変換したデータである。なお、ラベルは、ひらがなに限らずローマ字等でもよい。 The voice recognition result is a recognition result of voice data. In the example of FIG. 2, the label is data obtained by converting the voice recognition result into hiragana. The label is not limited to hiragana, but may be Roman characters or the like.
カウント数は、ラベルの個数を示す。例えば、発話−1、発話−3及び発話−5のラベルは同じである。発話−1のラベル生成時には、当該ラベルのカウント数は1となる。発話−3のラベル生成時には、当該ラベルのカウント数は2となる。発話−5のラベル生成時には、当該ラベルのカウント数は3となる。 The count number indicates the number of labels. For example, the labels of utterance-1, utterance-3, and utterance-5 are the same. When the label of utterance-1 is generated, the count number of the label is 1. When the label of utterance-3 is generated, the count number of the label is 2. When the label of utterance-5 is generated, the count number of the label is 3.
重みは、ラベルの重みを示す。図2の例では、ラベルのカウント数が大きいほど、当該ラベルの重みは小さくなる。 The weight indicates the weight of the label. In the example of FIG. 2, the larger the number of labels counted, the smaller the weight of the label.
生成部1は、例えば下記式(1)により、ラベルの重みを決定する。
The
μ=e1−x・・・(1) μ = e 1-x ... (1)
ここで、μは重みであり、xはカウント数である。図2の例では、式(1)により重みが決定されている。例えば発話−1、発話−3及び発話−5のラベルの重みは、それぞれ1.00、0.37、0.14である。発話−2、発話−4及び発話−6のラベルの重みは、1.00である。 Here, μ is a weight and x is a count number. In the example of FIG. 2, the weight is determined by the equation (1). For example, the weights of the labels of utterance -1, utterance -3, and utterance -5 are 1.00, 0.37, and 0.14, respectively. The weight of the labels of utterance-2, utterance-4 and utterance-6 is 1.00.
なお、重みを決定する式は、上述の式(1)に限られず、他の減少関数でも良い。 The equation for determining the weight is not limited to the above equation (1), and other decreasing functions may be used.
図1に戻り、選択部3は、生成部1により生成されたラベル情報に含まれる重みに基づいて、適応データとして使用する音声データ(発話)を選択する。適応データの中で同じ内容の発話が複数存在する場合、適応によって、同じ内容の発話の事後確率が高くなって、当該発話の認識がしやすくなる。一方、この場合、他の発話の事後確率が低くなるため、他の発話を認識しにくくなる。
Returning to FIG. 1, the
したがって、選択部3は、各発話の重みと重み閾値とを比較し、重み閾値より大きい発話を適応データとして選択する。これにより、適応データを使用して生成された適応音響モデル103を使用して、音声認識をする場合の悪影響を抑制することができる。
Therefore, the
重み閾値は、例えば下記式(2)により決定される。 The weight threshold is determined by, for example, the following equation (2).
θ=e1−αn・・・(2) θ = e 1-αn ... (2)
ここで、θは重み閾値であり、αは発話係数であり、nは全発話数である。つまり、同じ内容の発話については、カウント数xが全発話数nのα倍より小さい場合(x<αn)、適応データとして選択される。 Here, θ is a weight threshold, α is an utterance coefficient, and n is the total number of utterances. That is, for utterances having the same content, when the count number x is smaller than α times the total number of utterances n (x <αn), it is selected as adaptive data.
発話係数αは、例えば0.2である。図2の例では、全発話数nは6であるため、重み閾値θは0.82になる。発話−1、発話−2、発話−3及び発話−5の重みは、重み閾値θより大きいため、選択部3により適応データとして選択される。一方、発話−4及び発話−6の重みは、重み閾値θより小さいため、選択部3により適応データとして選択されない。
The utterance coefficient α is, for example, 0.2. In the example of FIG. 2, since the total number of utterances n is 6, the weight threshold θ is 0.82. Since the weights of utterance-1, utterance-2, utterance-3, and utterance-5 are larger than the weight threshold value θ, they are selected as adaptive data by the
なお、第1実施形態の説明では、発話係数が0.2の場合について説明したが、必要に応じて、発話係数を1以下の他の数値を設定しても良い。また、全発話数nの比率αnではなく、絶対発話数(全発話数n)に基づいて、重み閾値θを決定してもよい。この場合、上述の式(2)のαnをnに変更すればよい。 In the description of the first embodiment, the case where the utterance coefficient is 0.2 has been described, but if necessary, another numerical value of 1 or less may be set as the utterance coefficient. Further, the weight threshold θ may be determined based on the absolute number of utterances (total number of utterances n) instead of the ratio αn of the total number of utterances n. In this case, αn in the above equation (2) may be changed to n.
適応部4は、選択部3により選択された適応データを用いて、ベース音響モデル102を適応させることにより、適応音響モデル103を生成する。具体的には、ベース音響モデル102の適応は、ベース音響モデル102のパラメータを、適応データを用いて最適化することにより行われる。ベース音響モデル102を適応させる方法は、例えばDNN(Deep Neural Network)、CNN(Convolutional Neural Network)、及び、RNN(Recurrent Neural Network)などを使用する方法がある。適応音響モデル103は、音声認識装置10の外部の記憶部に記憶されるようにしてもよい。
The
[動作方法の例]
図3は第1実施形態の音声認識装置10の動作方法の例を示すフローチャートである。はじめに、生成部1が、言語モデル101とベース音響モデル102とを用いて音声データを認識する(ステップS1)。次に、生成部1が、ステップS1の処理により認識された音声データに含まれる発話を識別するラベルを生成する(ステップS2)。
[Example of operation method]
FIG. 3 is a flowchart showing an example of an operation method of the
次に、決定部2が、ラベルを用いて、同じ発話を含む音声データの個数を特定し、当該音声データに付与する重みを当該個数に応じて決定する(ステップS3)。次に、選択部3が、適応データとして使用する音声データを、重みに基づいて選択する(ステップS4)。次に、適応部4が、選択部3により選択された音声データ(適応データ)を用いて、ベース音響モデル102を適応させることにより、適応音響モデル103を生成する(ステップS5)。
Next, the
以上説明したように、第1実施形態の音声認識装置10では、生成部1が、言語モデル101とベース音響モデル102(第1音響モデル)とを用いて音声データを認識し、当該音声データに含まれる発話を識別するラベルを生成する。決定部2が、ラベルを用いて、同じ発話を含む音声データの個数を特定し、当該音声データに付与する重みを当該個数に応じて決定する。選択部3が、重みに基づいて音声データを選択する。そして、適応部4が、選択部3により選択された音声データ(適応データ)を用いて、ベース音響モデル102(第1音響モデル)を適応させることにより、適応音響モデル103(第2音響モデル)を生成する。
As described above, in the
これにより第1実施形態の音声認識装置10によれば、音響モデルを適応させた場合に生じる音声認識に与える悪影響を抑制することができる。
As a result, according to the
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略する。
(Second Embodiment)
Next, the second embodiment will be described. In the description of the second embodiment, the same description as that of the first embodiment will be omitted.
適応データに含まれる非音声の部分が多いほど、当該適応データを用いた適応によって、非音声の確率が高くなる(音声の確率が低くなる)ため、音声の認識結果が非音声になることが多くなる。一方、適応データに含まれる非音声の部分が少ないほど、当該適応データを用いた適応によって、非音声の確率が低くなる(音声の確率が高くなる)ため、非音声の認識結果が音声になることが多くなる。 The more non-speech parts included in the adaptive data, the higher the probability of non-speech (lower the probability of speech) due to the adaptation using the adaptive data, so that the speech recognition result may become non-speech. More. On the other hand, the smaller the non-speech part included in the adaptive data, the lower the probability of non-speech (higher the probability of speech) due to the adaptation using the adaptive data, so that the non-speech recognition result becomes speech. There are many things.
教師あり学習の場合、音声データから手動で発話ごとに切り出すため、非音声の部分のデータ量を制御できる。一方、教師なしの学習の場合、基本的にVAD(voice activity detection)等の音声区間検出処理により、自動的に発話を切り出すため、非音声の部分のデータ量の制御が困難である。 In the case of supervised learning, the amount of data in the non-voice part can be controlled because the voice data is manually cut out for each utterance. On the other hand, in the case of unsupervised learning, it is difficult to control the amount of data in the non-voice portion because the utterance is automatically cut out by the voice section detection process such as VAD (voice activity detection).
第2実施形態では、音声データに含まれる音声(または非音声)の部分が多い場合でも、適応の悪影響を抑制できる構成について説明する。 In the second embodiment, a configuration capable of suppressing the adverse effect of adaptation even when there are many voice (or non-voice) parts included in the voice data will be described.
[機能構成の例]
図4は第2実施形態の音声認識装置10−2の機能構成の例を示すブロック図である。第2実施形態の音声認識装置10−2は、生成部1、選択部3−2、適応部4及び計算部5を備える。生成部1及び適応部4の説明は、第1実施形態と同様なので省略する。
[Example of functional configuration]
FIG. 4 is a block diagram showing an example of the functional configuration of the voice recognition device 10-2 of the second embodiment. The voice recognition device 10-2 of the second embodiment includes a
計算部5は、生成部1により生成されたラベルを用いて、音声データに含まれる音声フレームと、当該音声データに含まれる非音声フレームとの比率を計算する。
The
図5は第2実施形態の音声データの例を示す図である。図5の例では、音声データに含まれるフレームの数が20である場合を示す。1、2、18、19及び20番目のフレームは、非音声フレームの一例である。なお、silは、silenceの略である。3〜17番目のフレームは、音声フレームである。図5の音声データに含まれる発話は、「おはようございます」であり、当該発話のラベルも「おはようございます」である。 FIG. 5 is a diagram showing an example of voice data of the second embodiment. In the example of FIG. 5, the case where the number of frames included in the voice data is 20 is shown. The 1, 2, 18, 19 and 20th frames are examples of non-audio frames. Sil is an abbreviation for silence. The 3rd to 17th frames are audio frames. The utterance included in the voice data of FIG. 5 is "Good morning", and the label of the utterance is also "Good morning".
計算部5は、フレームごとの音素を表すために、生成したラベルを用いてアライメントを行う。発音の長さによって二つ以上のフレームに、一つの音素が対応することもある。図5の例では、例えば、フレーム4及び5に対応する音素は同じになる。
The
計算部5は、音声フレームと非音声フレームとの比率を計算する。図5の例では、音声フレームの比率は15/20=0.75である。非音声フレームの比率は5/20=0.25である。
The
図4に戻り、選択部3−2は、音声フレームの比率が所定の選択範囲以内である音声データを、適応データとして選択する。所定の選択範囲は、例えば0.3〜0.9である。図5の例では、音声フレームの比率は0.75であるので、当該音声フレームは選択部3−2により適応データとして選択される。 Returning to FIG. 4, the selection unit 3-2 selects audio data in which the ratio of audio frames is within a predetermined selection range as adaptive data. The predetermined selection range is, for example, 0.3 to 0.9. In the example of FIG. 5, since the ratio of audio frames is 0.75, the audio frames are selected as adaptive data by the selection unit 3-2.
所定の選択範囲は、適応の目的に応じて設定すれば良い。音声認識装置10−2から、できるだけ音声の認識結果を出力したい場合、所定の選択範囲として、値がより高い区間の範囲を使用する(例えば、0.4〜1.0)。一方、音声データに背景雑音が入っているため、音声認識装置10−2から、できるだけ背景雑音の認識結果を出力したくない場合、所定の選択範囲として、値がより低い区間の範囲を使用する(例えば、0.0〜0.5)。 The predetermined selection range may be set according to the purpose of adaptation. When it is desired to output the voice recognition result as much as possible from the voice recognition device 10-2, a range of a section having a higher value is used as a predetermined selection range (for example, 0.4 to 1.0). On the other hand, since the voice data contains background noise, if the voice recognition device 10-2 does not want to output the background noise recognition result as much as possible, a range of a section having a lower value is used as a predetermined selection range. (For example, 0.0 to 0.5).
以上説明したように、第2実施形態の音声認識装置10−2によれば、例えば非音声フレームの比率が高い(例えば0.7以上)音声データが含まれている場合でも、選択部3−2により、当該音声データが選択されない。これにより、適応音声モデル103を使用した音声認識結果への悪影響を抑制できる。
As described above, according to the voice recognition device 10-2 of the second embodiment, even when voice data having a high ratio of non-voice frames (for example, 0.7 or more) is included, the selection unit 3- Due to 2, the voice data is not selected. As a result, it is possible to suppress an adverse effect on the speech recognition result using the
(第3実施形態)
次に第3実施形態について説明する。第3実施形態の説明では、第1及び第2実施形態と同様の説明については省略する。第3実施形態では、第1及び第2実施形態を組み合わせる場合の動作について説明する。
(Third Embodiment)
Next, the third embodiment will be described. In the description of the third embodiment, the same description as in the first and second embodiments will be omitted. In the third embodiment, the operation when the first and second embodiments are combined will be described.
[機能構成の例]
図6は第3実施形態の音声認識装置10−3の機能構成の例を示すブロック図である。第3実施形態の音声認識装置10−3は、生成部1、決定部2、選択部3−3、適応部4及び計算部5を備える。生成部1、決定部2及び適応部4の説明は、第1実施形態と同様なので省略する。計算部5の説明は、第2実施形態と同様なので省略する。
[Example of functional configuration]
FIG. 6 is a block diagram showing an example of the functional configuration of the voice recognition device 10-3 according to the third embodiment. The voice recognition device 10-3 of the third embodiment includes a
第1実施形態の選択部3による適応データの選択方法を選択方法Aとし、第2実施形態の選択部3−2による適応データの選択方法を選択方法Bとする。選択方法A及びBは独立である。そのため、選択方法A及びBの組み合わせによって、適応データとして使用する音声データを選択することが可能である。
The method of selecting adaptive data by the
選択部3−3は、決定部2により決定された重みと、計算部5により計算された音声フレームの比率とに基づいて、適応データとして使用する音声データを選択する。具体的には、選択部3−3は、例えば選択方法Aにより適応データ候補を選択し、次に、適応データ候補から選択方法Bにより適応データを選択する。また例えば、選択部3−3は、選択方法Bにより適応データ候補を選択し、次に、適応データ候補から選択方法Aにより適応データを選択する。
The selection unit 3-3 selects audio data to be used as adaptive data based on the weight determined by the
これにより第3実施形態の音声認識装置10−3によれば、第1及び第2実施形態の効果を得ることができる。 As a result, according to the voice recognition device 10-3 of the third embodiment, the effects of the first and second embodiments can be obtained.
(第4実施形態)
次に第4実施形態について説明する。第4実施形態の説明では、第1実施形態と同様の説明については省略する。第4実施形態では、適応音響モデル103を使用して、音声認識をする構成について説明する。
(Fourth Embodiment)
Next, the fourth embodiment will be described. In the description of the fourth embodiment, the same description as that of the first embodiment will be omitted. In the fourth embodiment, a configuration for performing voice recognition will be described using the adaptive
[機能構成の例]
図7は第4実施形態の音声認識装置10−4の機能構成の例を示す図である。第4実施形態の音声認識装置10−4は、生成部1、決定部2、選択部3、適応部4及び認識部6を備える。生成部1、決定部2、選択部3及び適応部4の説明は、第1実施形態と同様なので省略する。
[Example of functional configuration]
FIG. 7 is a diagram showing an example of the functional configuration of the voice recognition device 10-4 according to the fourth embodiment. The voice recognition device 10-4 of the fourth embodiment includes a
認識部6は、言語モデル101及び適応音響モデル103を用いて、音声データの音声認識を行う。例えば、適応データが取得された環境と類似する環境で取得された音声データの音声認識をする場合、適応音響モデル103のパラメータは、ベース音響モデル102のパラメータより好ましい。また例えば、適応データに含まれる発話の話者と類似する話者(または同じ話者)の音声データの音声認識をする場合、適応音響モデル103のパラメータは、ベース音響モデル102のパラメータより好ましい。そのため、適応音響モデル103を用いて音声認識を行う場合、より高い音声認識精度が得られる。
The
(第5実施形態)
次に第5実施形態について説明する。第5実施形態の説明では、第1実施形態と同様の説明については省略する。第1実施形態では、言語モデル101及びベース音響モデル102の2種類のモデルを用いて適応を行っていた。第5実施形態では、言語モデル101及びベース音響モデル102を区別せずに、End−to−Endの音声認識方法により、適応を行う場合の構成について説明する。
(Fifth Embodiment)
Next, the fifth embodiment will be described. In the description of the fifth embodiment, the same description as that of the first embodiment will be omitted. In the first embodiment, adaptation is performed using two types of models, a
[機能構成の例]
図8は第5実施形態の音声認識装置10−5の機能構成の例を示す図である。第5実施形態の音声認識装置10−5は、生成部1−2、決定部2、選択部3及び適応部4−2を備える。決定部2及び選択部3の説明は、第1実施形態と同様なので省略する。
[Example of functional configuration]
FIG. 8 is a diagram showing an example of the functional configuration of the voice recognition device 10-5 according to the fifth embodiment. The voice recognition device 10-5 of the fifth embodiment includes a generation unit 1-2, a
第5実施形態の音声認識装置10−5は、音声認識ベースモデル104及び音声認識適応モデル105を記憶する。音声認識ベースモデル104は、音声の言語的な特徴、及び、音声の音響的な特徴の両方を区別せずにモデル化したデータである。
The voice recognition device 10-5 of the fifth embodiment stores the voice
生成部1−2は、音声認識ベースモデル104を用いて音声データを認識し、ラベルを生成する。第5実施形態では、音声認識ベースモデル104が、言語モデル101及びベース音響モデル102の役割を果たす。ラベルの生成方法の説明は、第1実施形態と同じなので省略する。
The generation unit 1-2 recognizes the voice data using the voice
適応部4−2は、選択部3により選択された適応データを用いて、音声認識ベースモデル104を適応させることにより、音声認識適応モデル105を生成する。具体的には、音声認識ベースモデル104の適応は、音声認識ベースモデル104のパラメータを、適応データを用いて最適化することにより行われる。音声認識ベースモデル104を適応させる方法は、例えばDNN、CNN及びRNN(Recurrent Neural Network)などを使用する方法がある。音声認識適応モデル105は、音声認識装置10の外部の記憶部に記憶されるようにしてもよい。
The adaptation unit 4-2 generates the voice
最後に、第1乃至第5実施形態の音声認識装置10(10−2,10−3,10−4,10−5)のハードウェア構成の例について説明する。 Finally, an example of the hardware configuration of the voice recognition device 10 (10-2, 10-3, 10-4, 10-5) of the first to fifth embodiments will be described.
[ハードウェア構成の例]
図9は第1乃至第5実施形態の音声認識装置10(10−2,10−3,10−4,10−5)のハードウェア構成の例を示す図である。以下では、第1実施形態の音声認識装置10の場合を例にして説明する。なお、第2乃至第5実施形態の音声認識装置10−2(10−3,10−4,10−5))のハードウェア構成も、第1実施形態の音声認識装置10のハードウェア構成と同様である。
[Example of hardware configuration]
FIG. 9 is a diagram showing an example of the hardware configuration of the voice recognition device 10 (10-2, 10-3, 10-4, 10-5) of the first to fifth embodiments. Hereinafter, the case of the
第1実施形態の音声認識装置10は、制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306を備える。制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306は、バス310を介して接続されている。
The
制御装置301は、補助記憶装置303から主記憶装置302に読み出されたプログラムを実行する。主記憶装置302は、ROM(Read Only Memory)、及び、RAM(Random Access Memory)等のメモリである。補助記憶装置303は、HDD(Hard Disk Drive)、及び、メモリカード等である。
The
表示装置304は表示情報を表示する。表示装置304は、例えば液晶ディスプレイ等である。入力装置305は、音声認識装置10を操作するためのインタフェースである。入力装置305は、例えばキーボードやマウス等である。音声認識装置10がスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示装置304及び入力装置305は、例えばタッチパネルである。通信装置306は、他の装置と通信するためのインタフェースである。
The
第1実施形態の音声認識装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、メモリカード、CD−R及びDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
The program executed by the
また第1実施形態の音声認識装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第1実施形態の音声認識装置10で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
Further, the program executed by the
また第1実施形態の音声認識装置10のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
Further, the program of the
第1実施形態の音声認識装置10で実行されるプログラムは、上述の機能ブロックのうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置301が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置302上にロードされる。すなわち上記各機能ブロックは主記憶装置302上に生成される。
The program executed by the
なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。 It should be noted that a part or all of the above-mentioned functional blocks may not be realized by software, but may be realized by hardware such as an IC (Integrated Circuit).
また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち1つを実現してもよいし、各機能のうち2以上を実現してもよい。 Further, when each function is realized by using a plurality of processors, each processor may realize one of each function, or may realize two or more of each function.
また第1実施形態の音声認識装置10の動作形態は任意でよい。第1実施形態の音声認識装置10を、例えばネットワーク上のクラウドシステムとして動作させてもよい。
Further, the operation mode of the
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although some embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.
1 生成部
2 決定部
3 選択部
4 適応部
5 計算部
6 認識部
101 言語モデル
102 ベース音響モデル
103 適応音響モデル
104 音声認識ベースモデル
105 音声認識適応モデル
301 制御装置
302 主記憶装置
303 補助記憶装置
304 表示装置
305 入力装置
306 通信装置
310 バス
1
Claims (13)
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
前記重みに基づいて前記音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部と、
を備える音声認識装置。 A generation unit that recognizes voice data using a language model and a first acoustic model and generates a label that identifies an utterance included in the voice data.
Using the label, a determination unit that specifies the number of voice data including the same utterance and determines the weight to be given to the voice data according to the number.
A selection unit that selects the voice data based on the weight, and
An adaptation unit that generates a second acoustic model by adapting the first acoustic model using the voice data selected by the selection unit.
A voice recognition device equipped with.
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
前記音声フレームの比率が所定の選択範囲以内である音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部と、
を備える音声認識装置。 A generation unit that recognizes voice data using a language model and a first acoustic model and generates a label that identifies an utterance included in the voice data.
Using the label, a calculation unit that calculates the ratio of the audio frame included in the audio data to the non-audio frame included in the audio data.
A selection unit that selects audio data for which the ratio of audio frames is within a predetermined selection range, and
An adaptation unit that generates a second acoustic model by adapting the first acoustic model using the voice data selected by the selection unit.
A voice recognition device equipped with.
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
前記重みと、前記音声フレームの比率とに基づいて、前記音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部と、
を備える音声認識装置。 A generation unit that recognizes voice data using a language model and a first acoustic model and generates a label that identifies an utterance included in the voice data.
Using the label, a determination unit that specifies the number of voice data including the same utterance and determines the weight to be given to the voice data according to the number.
Using the label, a calculation unit that calculates the ratio of the audio frame included in the audio data to the non-audio frame included in the audio data.
A selection unit that selects the audio data based on the weight and the ratio of the audio frames.
An adaptation unit that generates a second acoustic model by adapting the first acoustic model using the voice data selected by the selection unit.
A voice recognition device equipped with.
請求項1に記載の音声認識装置。 The determination unit determines the weight to be smaller as the number of the determination units increases.
The voice recognition device according to claim 1.
請求項1に記載の音声認識装置。 The selection unit determines whether or not the weight is larger than the threshold value, and selects voice data to which a weight larger than the threshold value is given.
The voice recognition device according to claim 1.
を更に備える請求項1に記載の音声認識装置。 A recognition unit that performs voice recognition of the voice data using the language model and the second acoustic model.
The voice recognition device according to claim 1.
前記適応部は、前記選択部により選択された音声データを用いて、前記音声認識ベースモデルを適応させる、
請求項1に記載の音声認識装置。 The language model and the first acoustic model are represented by a speech recognition-based model modeled without distinguishing between the linguistic features of speech and the acoustic features of speech.
The adapting unit adapts the voice recognition base model using the voice data selected by the selection unit.
The voice recognition device according to claim 1.
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定するステップと、
前記重みに基づいて前記音声データを選択するステップと、
前記選択するステップにより選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成するステップと、
を含む音声認識方法。 A step of recognizing voice data using a language model and a first acoustic model and generating a label for identifying an utterance included in the voice data.
A step of specifying the number of voice data containing the same utterance using the label and determining the weight to be given to the voice data according to the number.
The step of selecting the voice data based on the weight, and
A step of generating a second acoustic model by adapting the first acoustic model using the voice data selected by the selected step, and a step of generating the second acoustic model.
Speech recognition methods including.
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算するステップと、
前記音声フレームの比率が所定の選択範囲以内である音声データを選択する選択部と、
前記選択するステップにより選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成するステップと、
を含む音声認識方法。 A step of recognizing voice data using a language model and a first acoustic model and generating a label for identifying an utterance included in the voice data.
Using the label, a step of calculating the ratio of the audio frame included in the audio data to the non-audio frame included in the audio data, and
A selection unit that selects audio data for which the ratio of audio frames is within a predetermined selection range, and
A step of generating a second acoustic model by adapting the first acoustic model using the voice data selected by the selected step, and a step of generating the second acoustic model.
Speech recognition methods including.
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定するステップと、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算するステップと、
前記重みと、前記音声フレームの比率とに基づいて、前記音声データを選択するステップと、
前記選択するステップにより選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成するステップと、
を含む音声認識方法。 A step of recognizing voice data using a language model and a first acoustic model and generating a label for identifying an utterance included in the voice data.
A step of specifying the number of voice data containing the same utterance using the label and determining the weight to be given to the voice data according to the number.
Using the label, a step of calculating the ratio of the audio frame included in the audio data to the non-audio frame included in the audio data, and
A step of selecting the audio data based on the weight and the ratio of the audio frames,
A step of generating a second acoustic model by adapting the first acoustic model using the voice data selected by the selected step, and a step of generating the second acoustic model.
Speech recognition methods including.
言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
前記重みに基づいて前記音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部、
として機能させるためのプログラム。 Computer,
A generation unit that recognizes voice data using a language model and a first acoustic model and generates a label that identifies an utterance included in the voice data.
Using the label, a determination unit that specifies the number of voice data including the same utterance and determines the weight to be given to the voice data according to the number.
A selection unit that selects the voice data based on the weight, and
An adaptation unit that generates a second acoustic model by adapting the first acoustic model using the voice data selected by the selection unit.
A program to function as.
言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
前記音声フレームの比率が所定の選択範囲以内である音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部、
として機能させるためのプログラム。 Computer,
A generation unit that recognizes voice data using a language model and a first acoustic model and generates a label that identifies an utterance included in the voice data.
Using the label, a calculation unit that calculates the ratio of the audio frame included in the audio data to the non-audio frame included in the audio data.
A selection unit that selects audio data for which the ratio of audio frames is within a predetermined selection range, and
An adaptation unit that generates a second acoustic model by adapting the first acoustic model using the voice data selected by the selection unit.
A program to function as.
言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
前記重みと、前記音声フレームの比率とに基づいて、前記音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部、
として機能させるためのプログラム。 Computer,
A generation unit that recognizes voice data using a language model and a first acoustic model and generates a label that identifies an utterance included in the voice data.
Using the label, a determination unit that specifies the number of voice data including the same utterance and determines the weight to be given to the voice data according to the number.
Using the label, a calculation unit that calculates the ratio of the audio frame included in the audio data to the non-audio frame included in the audio data.
A selection unit that selects the audio data based on the weight and the ratio of the audio frames.
An adaptation unit that generates a second acoustic model by adapting the first acoustic model using the voice data selected by the selection unit.
A program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018168708A JP6903613B2 (en) | 2018-09-10 | 2018-09-10 | Speech recognition device, speech recognition method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018168708A JP6903613B2 (en) | 2018-09-10 | 2018-09-10 | Speech recognition device, speech recognition method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020042130A JP2020042130A (en) | 2020-03-19 |
JP6903613B2 true JP6903613B2 (en) | 2021-07-14 |
Family
ID=69798141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018168708A Active JP6903613B2 (en) | 2018-09-10 | 2018-09-10 | Speech recognition device, speech recognition method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6903613B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000305589A (en) * | 1999-04-16 | 2000-11-02 | Kobe Steel Ltd | Adaptive type voice recognition device, voice processing device and pet toy |
EP1197949B1 (en) * | 2000-10-10 | 2004-01-07 | Sony International (Europe) GmbH | Avoiding online speaker over-adaptation in speech recognition |
JP5980101B2 (en) * | 2012-11-19 | 2016-08-31 | 日本電信電話株式会社 | Acoustic model learning text creation apparatus, method and program thereof |
-
2018
- 2018-09-10 JP JP2018168708A patent/JP6903613B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020042130A (en) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11545142B2 (en) | Using context information with end-to-end models for speech recognition | |
CN106463113B (en) | Predicting pronunciation in speech recognition | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
US9767790B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
JP5072206B2 (en) | Hidden conditional random field model for speech classification and speech recognition | |
US10249321B2 (en) | Sound rate modification | |
JP7055630B2 (en) | Learning methods, learning devices, computer programs and storage media for speech recognition | |
CN114097026A (en) | Context biasing for speech recognition | |
KR20090083367A (en) | Voice activity detection system and method | |
WO2019065263A1 (en) | Pronunciation error detection device, method for detecting pronunciation error, and program | |
JP6622681B2 (en) | Phoneme Breakdown Detection Model Learning Device, Phoneme Breakdown Interval Detection Device, Phoneme Breakdown Detection Model Learning Method, Phoneme Breakdown Interval Detection Method, Program | |
US11315548B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
JP6552999B2 (en) | Text correction device, text correction method, and program | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
JP6996570B2 (en) | Urgency estimation device, urgency estimation method, program | |
KR101862982B1 (en) | Voiced/Unvoiced Decision Method Using Deep Neural Network for Linear Predictive Coding-10e Vocoder | |
US8438029B1 (en) | Confidence tying for unsupervised synthetic speech adaptation | |
JP6903613B2 (en) | Speech recognition device, speech recognition method and program | |
JP5852550B2 (en) | Acoustic model generation apparatus, method and program thereof | |
JP4922377B2 (en) | Speech recognition apparatus, method and program | |
JP2014102345A (en) | Text creation device for acoustic model learning, method of the same, and program | |
JP5961530B2 (en) | Acoustic model generation apparatus, method and program thereof | |
JP6006674B2 (en) | Acoustic model selection apparatus, method and program thereof | |
EP4068279B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
JP5369079B2 (en) | Acoustic model creation method and apparatus and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210623 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6903613 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |