JP6903613B2 - 音声認識装置、音声認識方法及びプログラム - Google Patents

音声認識装置、音声認識方法及びプログラム Download PDF

Info

Publication number
JP6903613B2
JP6903613B2 JP2018168708A JP2018168708A JP6903613B2 JP 6903613 B2 JP6903613 B2 JP 6903613B2 JP 2018168708 A JP2018168708 A JP 2018168708A JP 2018168708 A JP2018168708 A JP 2018168708A JP 6903613 B2 JP6903613 B2 JP 6903613B2
Authority
JP
Japan
Prior art keywords
voice data
acoustic model
label
data
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018168708A
Other languages
English (en)
Other versions
JP2020042130A (ja
Inventor
寧 丁
寧 丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018168708A priority Critical patent/JP6903613B2/ja
Publication of JP2020042130A publication Critical patent/JP2020042130A/ja
Application granted granted Critical
Publication of JP6903613B2 publication Critical patent/JP6903613B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明の実施形態は音声認識装置、音声認識方法及びプログラムに関する。
音響モデルと言語モデルとを用いて音声データを認識し、音声データに含まれる発話のテキストを出力する音声認識技術が従来から知られている。音響モデルは予め大量(例えば数百時間以上)のデータを用いて学習される。しかし、どのような条件で用いても高い認識率(例えば85%以上)が得られるような音響モデルを学習することは困難である。例えば、クリーンな環境で収録された音声データを用いて学習された音響モデルが用いられた場合、残響が大きい会議室での認識率が劣化してしまう。認識率の劣化を防ぐ有効な方法の一つとして、音響モデルの適応がある。
特許第5852550号公報
しかしながら、従来の技術では、音響モデルの適応を行った場合、悪影響も生じていた。例えば、同じ内容の発話が繰り返された場合、音響モデルの適応によって、この発話を認識しやすくなるが、他の発話を認識しにくくなる。また例えば、音声データには音声及び非音声の両方が含まれているが、非音声の部分が多い場合、音響モデルの適応によって、非音声の認識結果が出やすくなり、音声の認識結果が出にくくなる。本発明が解決しようとする課題は、音響モデルの適応による悪影響を抑制できる音声認識装置、音声認識方法及びプログラムを提供することである。
実施形態の音声認識装置は、生成部と決定部と選択部と適応部とを備える。生成部は、言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する。決定部は、前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する。選択部は、前記重みに基づいて前記音声データを選択する。適応部は、前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する。
第1実施形態の音声認識装置の機能構成の例を示すブロック図。 第1実施形態のラベル情報の例を示す図。 第1実施形態の音声認識装置の動作方法の例を示すフローチャート。 第2実施形態の音声認識装置の機能構成の例を示すブロック図。 第2実施形態の音声データの例を示す図。 第3実施形態の音声認識装置の機能構成の例を示すブロック図。 第4実施形態の音声認識装置の機能構成の例を示すブロック図。 第5実施形態の音声認識装置の機能構成の例を示すブロック図。 第1乃至第5実施形態の音声認識装置のハードウェア構成の例を示す図。
以下に添付図面を参照して、音声認識装置、音声認識方法及びプログラムの実施形態を詳細に説明する。
はじめに、音響モデルの適応について説明する。音響モデルの適応は、学習された音響モデルに基づき、適応データを用いて当該音響モデルを再学習することにより行われる。以下、はじめに学習された音響モデルをベース音響モデル(第1音響モデル)と呼び、適応させた音響モデルを適応音響モデル(第2音響モデル)と呼ぶ。
音響モデルを適応させる方法は、おおむね二種類ある(教師あり適応及び教師なし適応)。教師あり適応では、音声データ、及び、音声データの正解ラベルの両方を含む適応データが使用される。教師なし適応では、音声データのみを含む適応データが使用される(正解ラベルがない。)。
教師あり適応は正解ラベルがあるため適応に対して良いが、書き起こしなどによって正解ラベルを作成する必要があるので、コストが高い。
一方、教師なし適応は正解ラベルの作成が要らないためコストが低い。教師なし適応では、音声データを認識し、音声認識結果をラベルとして用いる。音声認識結果の誤りは適応に悪影響を及ぼす可能性があるため、基本的には、音声認識精度は高いほどよい。従来の教師なし適応方法では、言語モデルとベース音響モデルとを用いて音声を認識し、ラベル、信頼度及び音響尤度を出力する。従来の教師なし適応方法では、信頼度がより高く、かつ、音響尤度がより小さい音声データを選択して、音響モデルの適応を行う。
(第1実施形態)
はじめに、第1実施形態の音声認識装置10の機能構成の例について説明する。
[機能構成の例]
図1は第1実施形態の音声認識装置10の機能構成の例を示す図である。第1実施形態の音声認識装置10は、生成部1、決定部2、選択部3及び適応部4を備える。音声認識装置10の一部又は全ての機能は、ソフトウェア(プログラム)で実現されても良いし、ハードウェアで実現されても良い。
また、第1実施形態の音声認識装置10は、言語モデル101、ベース音響モデル102及び適応音響モデル103を記憶する。言語モデル101は、音声の言語的な特徴をモデル化したデータである。ベース音響モデル102及び適応音響モデル103は、音声の音響的な特徴をモデル化したデータである。ベース音響モデル102は、はじめに学習されたデータである。適応音響モデル103は、適応データを用いてベース音響モデル102を再学習することにより得られたデータである。なお、言語モデル101、ベース音響モデル102及び適応音響モデル103を記憶する記憶部は、外部の装置に備えられていてもよい。
生成部1は、言語モデル101とベース音響モデル102とを用いて音声データを認識し、ラベルを生成する。音声データは、例えば発話毎に区切られたデータである。ラベルは、音声データの音声認識結果から変換されたデータである。ラベルは、音声データに含まれる発話を識別する情報である。
決定部2は、ラベルを用いて、同じ発話を含む音声データの個数を特定し、音声データに付与する重みを、当該個数に応じて決定する。
ラベル及び当該ラベルの個数は、例えば図2に示すラベル情報として、音声認識装置10に記憶される。
図2は第1実施形態のラベル情報の例を示す図である。第1実施形態のラベル情報は、音声データ、音声認識結果、ラベル、カウント数及び重みを含む。
音声認識結果は、音声データの認識結果である。図2の例では、ラベルは、音声認識結果をひらがなに変換したデータである。なお、ラベルは、ひらがなに限らずローマ字等でもよい。
カウント数は、ラベルの個数を示す。例えば、発話−1、発話−3及び発話−5のラベルは同じである。発話−1のラベル生成時には、当該ラベルのカウント数は1となる。発話−3のラベル生成時には、当該ラベルのカウント数は2となる。発話−5のラベル生成時には、当該ラベルのカウント数は3となる。
重みは、ラベルの重みを示す。図2の例では、ラベルのカウント数が大きいほど、当該ラベルの重みは小さくなる。
生成部1は、例えば下記式(1)により、ラベルの重みを決定する。
μ=e1−x・・・(1)
ここで、μは重みであり、xはカウント数である。図2の例では、式(1)により重みが決定されている。例えば発話−1、発話−3及び発話−5のラベルの重みは、それぞれ1.00、0.37、0.14である。発話−2、発話−4及び発話−6のラベルの重みは、1.00である。
なお、重みを決定する式は、上述の式(1)に限られず、他の減少関数でも良い。
図1に戻り、選択部3は、生成部1により生成されたラベル情報に含まれる重みに基づいて、適応データとして使用する音声データ(発話)を選択する。適応データの中で同じ内容の発話が複数存在する場合、適応によって、同じ内容の発話の事後確率が高くなって、当該発話の認識がしやすくなる。一方、この場合、他の発話の事後確率が低くなるため、他の発話を認識しにくくなる。
したがって、選択部3は、各発話の重みと重み閾値とを比較し、重み閾値より大きい発話を適応データとして選択する。これにより、適応データを使用して生成された適応音響モデル103を使用して、音声認識をする場合の悪影響を抑制することができる。
重み閾値は、例えば下記式(2)により決定される。
θ=e1−αn・・・(2)
ここで、θは重み閾値であり、αは発話係数であり、nは全発話数である。つまり、同じ内容の発話については、カウント数xが全発話数nのα倍より小さい場合(x<αn)、適応データとして選択される。
発話係数αは、例えば0.2である。図2の例では、全発話数nは6であるため、重み閾値θは0.82になる。発話−1、発話−2、発話−3及び発話−5の重みは、重み閾値θより大きいため、選択部3により適応データとして選択される。一方、発話−4及び発話−6の重みは、重み閾値θより小さいため、選択部3により適応データとして選択されない。
なお、第1実施形態の説明では、発話係数が0.2の場合について説明したが、必要に応じて、発話係数を1以下の他の数値を設定しても良い。また、全発話数nの比率αnではなく、絶対発話数(全発話数n)に基づいて、重み閾値θを決定してもよい。この場合、上述の式(2)のαnをnに変更すればよい。
適応部4は、選択部3により選択された適応データを用いて、ベース音響モデル102を適応させることにより、適応音響モデル103を生成する。具体的には、ベース音響モデル102の適応は、ベース音響モデル102のパラメータを、適応データを用いて最適化することにより行われる。ベース音響モデル102を適応させる方法は、例えばDNN(Deep Neural Network)、CNN(Convolutional Neural Network)、及び、RNN(Recurrent Neural Network)などを使用する方法がある。適応音響モデル103は、音声認識装置10の外部の記憶部に記憶されるようにしてもよい。
[動作方法の例]
図3は第1実施形態の音声認識装置10の動作方法の例を示すフローチャートである。はじめに、生成部1が、言語モデル101とベース音響モデル102とを用いて音声データを認識する(ステップS1)。次に、生成部1が、ステップS1の処理により認識された音声データに含まれる発話を識別するラベルを生成する(ステップS2)。
次に、決定部2が、ラベルを用いて、同じ発話を含む音声データの個数を特定し、当該音声データに付与する重みを当該個数に応じて決定する(ステップS3)。次に、選択部3が、適応データとして使用する音声データを、重みに基づいて選択する(ステップS4)。次に、適応部4が、選択部3により選択された音声データ(適応データ)を用いて、ベース音響モデル102を適応させることにより、適応音響モデル103を生成する(ステップS5)。
以上説明したように、第1実施形態の音声認識装置10では、生成部1が、言語モデル101とベース音響モデル102(第1音響モデル)とを用いて音声データを認識し、当該音声データに含まれる発話を識別するラベルを生成する。決定部2が、ラベルを用いて、同じ発話を含む音声データの個数を特定し、当該音声データに付与する重みを当該個数に応じて決定する。選択部3が、重みに基づいて音声データを選択する。そして、適応部4が、選択部3により選択された音声データ(適応データ)を用いて、ベース音響モデル102(第1音響モデル)を適応させることにより、適応音響モデル103(第2音響モデル)を生成する。
これにより第1実施形態の音声認識装置10によれば、音響モデルを適応させた場合に生じる音声認識に与える悪影響を抑制することができる。
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略する。
適応データに含まれる非音声の部分が多いほど、当該適応データを用いた適応によって、非音声の確率が高くなる(音声の確率が低くなる)ため、音声の認識結果が非音声になることが多くなる。一方、適応データに含まれる非音声の部分が少ないほど、当該適応データを用いた適応によって、非音声の確率が低くなる(音声の確率が高くなる)ため、非音声の認識結果が音声になることが多くなる。
教師あり学習の場合、音声データから手動で発話ごとに切り出すため、非音声の部分のデータ量を制御できる。一方、教師なしの学習の場合、基本的にVAD(voice activity detection)等の音声区間検出処理により、自動的に発話を切り出すため、非音声の部分のデータ量の制御が困難である。
第2実施形態では、音声データに含まれる音声(または非音声)の部分が多い場合でも、適応の悪影響を抑制できる構成について説明する。
[機能構成の例]
図4は第2実施形態の音声認識装置10−2の機能構成の例を示すブロック図である。第2実施形態の音声認識装置10−2は、生成部1、選択部3−2、適応部4及び計算部5を備える。生成部1及び適応部4の説明は、第1実施形態と同様なので省略する。
計算部5は、生成部1により生成されたラベルを用いて、音声データに含まれる音声フレームと、当該音声データに含まれる非音声フレームとの比率を計算する。
図5は第2実施形態の音声データの例を示す図である。図5の例では、音声データに含まれるフレームの数が20である場合を示す。1、2、18、19及び20番目のフレームは、非音声フレームの一例である。なお、silは、silenceの略である。3〜17番目のフレームは、音声フレームである。図5の音声データに含まれる発話は、「おはようございます」であり、当該発話のラベルも「おはようございます」である。
計算部5は、フレームごとの音素を表すために、生成したラベルを用いてアライメントを行う。発音の長さによって二つ以上のフレームに、一つの音素が対応することもある。図5の例では、例えば、フレーム4及び5に対応する音素は同じになる。
計算部5は、音声フレームと非音声フレームとの比率を計算する。図5の例では、音声フレームの比率は15/20=0.75である。非音声フレームの比率は5/20=0.25である。
図4に戻り、選択部3−2は、音声フレームの比率が所定の選択範囲以内である音声データを、適応データとして選択する。所定の選択範囲は、例えば0.3〜0.9である。図5の例では、音声フレームの比率は0.75であるので、当該音声フレームは選択部3−2により適応データとして選択される。
所定の選択範囲は、適応の目的に応じて設定すれば良い。音声認識装置10−2から、できるだけ音声の認識結果を出力したい場合、所定の選択範囲として、値がより高い区間の範囲を使用する(例えば、0.4〜1.0)。一方、音声データに背景雑音が入っているため、音声認識装置10−2から、できるだけ背景雑音の認識結果を出力したくない場合、所定の選択範囲として、値がより低い区間の範囲を使用する(例えば、0.0〜0.5)。
以上説明したように、第2実施形態の音声認識装置10−2によれば、例えば非音声フレームの比率が高い(例えば0.7以上)音声データが含まれている場合でも、選択部3−2により、当該音声データが選択されない。これにより、適応音声モデル103を使用した音声認識結果への悪影響を抑制できる。
(第3実施形態)
次に第3実施形態について説明する。第3実施形態の説明では、第1及び第2実施形態と同様の説明については省略する。第3実施形態では、第1及び第2実施形態を組み合わせる場合の動作について説明する。
[機能構成の例]
図6は第3実施形態の音声認識装置10−3の機能構成の例を示すブロック図である。第3実施形態の音声認識装置10−3は、生成部1、決定部2、選択部3−3、適応部4及び計算部5を備える。生成部1、決定部2及び適応部4の説明は、第1実施形態と同様なので省略する。計算部5の説明は、第2実施形態と同様なので省略する。
第1実施形態の選択部3による適応データの選択方法を選択方法Aとし、第2実施形態の選択部3−2による適応データの選択方法を選択方法Bとする。選択方法A及びBは独立である。そのため、選択方法A及びBの組み合わせによって、適応データとして使用する音声データを選択することが可能である。
選択部3−3は、決定部2により決定された重みと、計算部5により計算された音声フレームの比率とに基づいて、適応データとして使用する音声データを選択する。具体的には、選択部3−3は、例えば選択方法Aにより適応データ候補を選択し、次に、適応データ候補から選択方法Bにより適応データを選択する。また例えば、選択部3−3は、選択方法Bにより適応データ候補を選択し、次に、適応データ候補から選択方法Aにより適応データを選択する。
これにより第3実施形態の音声認識装置10−3によれば、第1及び第2実施形態の効果を得ることができる。
(第4実施形態)
次に第4実施形態について説明する。第4実施形態の説明では、第1実施形態と同様の説明については省略する。第4実施形態では、適応音響モデル103を使用して、音声認識をする構成について説明する。
[機能構成の例]
図7は第4実施形態の音声認識装置10−4の機能構成の例を示す図である。第4実施形態の音声認識装置10−4は、生成部1、決定部2、選択部3、適応部4及び認識部6を備える。生成部1、決定部2、選択部3及び適応部4の説明は、第1実施形態と同様なので省略する。
認識部6は、言語モデル101及び適応音響モデル103を用いて、音声データの音声認識を行う。例えば、適応データが取得された環境と類似する環境で取得された音声データの音声認識をする場合、適応音響モデル103のパラメータは、ベース音響モデル102のパラメータより好ましい。また例えば、適応データに含まれる発話の話者と類似する話者(または同じ話者)の音声データの音声認識をする場合、適応音響モデル103のパラメータは、ベース音響モデル102のパラメータより好ましい。そのため、適応音響モデル103を用いて音声認識を行う場合、より高い音声認識精度が得られる。
(第5実施形態)
次に第5実施形態について説明する。第5実施形態の説明では、第1実施形態と同様の説明については省略する。第1実施形態では、言語モデル101及びベース音響モデル102の2種類のモデルを用いて適応を行っていた。第5実施形態では、言語モデル101及びベース音響モデル102を区別せずに、End−to−Endの音声認識方法により、適応を行う場合の構成について説明する。
[機能構成の例]
図8は第5実施形態の音声認識装置10−5の機能構成の例を示す図である。第5実施形態の音声認識装置10−5は、生成部1−2、決定部2、選択部3及び適応部4−2を備える。決定部2及び選択部3の説明は、第1実施形態と同様なので省略する。
第5実施形態の音声認識装置10−5は、音声認識ベースモデル104及び音声認識適応モデル105を記憶する。音声認識ベースモデル104は、音声の言語的な特徴、及び、音声の音響的な特徴の両方を区別せずにモデル化したデータである。
生成部1−2は、音声認識ベースモデル104を用いて音声データを認識し、ラベルを生成する。第5実施形態では、音声認識ベースモデル104が、言語モデル101及びベース音響モデル102の役割を果たす。ラベルの生成方法の説明は、第1実施形態と同じなので省略する。
適応部4−2は、選択部3により選択された適応データを用いて、音声認識ベースモデル104を適応させることにより、音声認識適応モデル105を生成する。具体的には、音声認識ベースモデル104の適応は、音声認識ベースモデル104のパラメータを、適応データを用いて最適化することにより行われる。音声認識ベースモデル104を適応させる方法は、例えばDNN、CNN及びRNN(Recurrent Neural Network)などを使用する方法がある。音声認識適応モデル105は、音声認識装置10の外部の記憶部に記憶されるようにしてもよい。
最後に、第1乃至第5実施形態の音声認識装置10(10−2,10−3,10−4,10−5)のハードウェア構成の例について説明する。
[ハードウェア構成の例]
図9は第1乃至第5実施形態の音声認識装置10(10−2,10−3,10−4,10−5)のハードウェア構成の例を示す図である。以下では、第1実施形態の音声認識装置10の場合を例にして説明する。なお、第2乃至第5実施形態の音声認識装置10−2(10−3,10−4,10−5))のハードウェア構成も、第1実施形態の音声認識装置10のハードウェア構成と同様である。
第1実施形態の音声認識装置10は、制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306を備える。制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306は、バス310を介して接続されている。
制御装置301は、補助記憶装置303から主記憶装置302に読み出されたプログラムを実行する。主記憶装置302は、ROM(Read Only Memory)、及び、RAM(Random Access Memory)等のメモリである。補助記憶装置303は、HDD(Hard Disk Drive)、及び、メモリカード等である。
表示装置304は表示情報を表示する。表示装置304は、例えば液晶ディスプレイ等である。入力装置305は、音声認識装置10を操作するためのインタフェースである。入力装置305は、例えばキーボードやマウス等である。音声認識装置10がスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示装置304及び入力装置305は、例えばタッチパネルである。通信装置306は、他の装置と通信するためのインタフェースである。
第1実施形態の音声認識装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、メモリカード、CD−R及びDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
また第1実施形態の音声認識装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第1実施形態の音声認識装置10で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
また第1実施形態の音声認識装置10のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
第1実施形態の音声認識装置10で実行されるプログラムは、上述の機能ブロックのうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置301が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置302上にロードされる。すなわち上記各機能ブロックは主記憶装置302上に生成される。
なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち1つを実現してもよいし、各機能のうち2以上を実現してもよい。
また第1実施形態の音声認識装置10の動作形態は任意でよい。第1実施形態の音声認識装置10を、例えばネットワーク上のクラウドシステムとして動作させてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 生成部
2 決定部
3 選択部
4 適応部
5 計算部
6 認識部
101 言語モデル
102 ベース音響モデル
103 適応音響モデル
104 音声認識ベースモデル
105 音声認識適応モデル
301 制御装置
302 主記憶装置
303 補助記憶装置
304 表示装置
305 入力装置
306 通信装置
310 バス

Claims (13)

  1. 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
    前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
    前記重みに基づいて前記音声データを選択する選択部と、
    前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部と、
    を備える音声認識装置。
  2. 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
    前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
    前記音声フレームの比率が所定の選択範囲以内である音声データを選択する選択部と、
    前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部と、
    を備える音声認識装置。
  3. 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
    前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
    前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
    前記重みと、前記音声フレームの比率とに基づいて、前記音声データを選択する選択部と、
    前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部と、
    を備える音声認識装置。
  4. 前記決定部は、前記個数が多いほど、前記重みを小さく決定する、
    請求項1に記載の音声認識装置。
  5. 前記選択部は、前記重みが閾値より大きいか否かを判定し、前記閾値よりも大きい重みが付与された音声データを選択する、
    請求項1に記載の音声認識装置。
  6. 前記言語モデルと前記第2音響モデルとを用いて、前記音声データの音声認識を行う認識部、
    を更に備える請求項1に記載の音声認識装置。
  7. 前記言語モデル及び前記第1音響モデルは、音声の言語的な特徴、及び、音声の音響的な特徴の両方を区別せずにモデル化された1つの音声認識ベースモデルにより表され、
    前記適応部は、前記選択部により選択された音声データを用いて、前記音声認識ベースモデルを適応させる、
    請求項1に記載の音声認識装置。
  8. 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成するステップと、
    前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定するステップと、
    前記重みに基づいて前記音声データを選択するステップと、
    前記選択するステップにより選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成するステップと、
    を含む音声認識方法。
  9. 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成するステップと、
    前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算するステップと、
    前記音声フレームの比率が所定の選択範囲以内である音声データを選択する選択部と、
    前記選択するステップにより選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成するステップと、
    を含む音声認識方法。
  10. 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成するステップと、
    前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定するステップと、
    前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算するステップと、
    前記重みと、前記音声フレームの比率とに基づいて、前記音声データを選択するステップと、
    前記選択するステップにより選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成するステップと、
    を含む音声認識方法。
  11. コンピュータを、
    言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
    前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
    前記重みに基づいて前記音声データを選択する選択部と、
    前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部、
    として機能させるためのプログラム。
  12. コンピュータを、
    言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
    前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
    前記音声フレームの比率が所定の選択範囲以内である音声データを選択する選択部と、
    前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部、
    として機能させるためのプログラム。
  13. コンピュータを、
    言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
    前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
    前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
    前記重みと、前記音声フレームの比率とに基づいて、前記音声データを選択する選択部と、
    前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部、
    として機能させるためのプログラム。
JP2018168708A 2018-09-10 2018-09-10 音声認識装置、音声認識方法及びプログラム Active JP6903613B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018168708A JP6903613B2 (ja) 2018-09-10 2018-09-10 音声認識装置、音声認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018168708A JP6903613B2 (ja) 2018-09-10 2018-09-10 音声認識装置、音声認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020042130A JP2020042130A (ja) 2020-03-19
JP6903613B2 true JP6903613B2 (ja) 2021-07-14

Family

ID=69798141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018168708A Active JP6903613B2 (ja) 2018-09-10 2018-09-10 音声認識装置、音声認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6903613B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305589A (ja) * 1999-04-16 2000-11-02 Kobe Steel Ltd 適応型音声認識装置,音声処理装置,及びペット玩具
EP1197949B1 (en) * 2000-10-10 2004-01-07 Sony International (Europe) GmbH Avoiding online speaker over-adaptation in speech recognition
JP5980101B2 (ja) * 2012-11-19 2016-08-31 日本電信電話株式会社 音響モデル学習用テキスト作成装置とその方法とプログラム

Also Published As

Publication number Publication date
JP2020042130A (ja) 2020-03-19

Similar Documents

Publication Publication Date Title
KR102803152B1 (ko) 음성 인식을 위한 종단 간 모델과 함께 컨텍스트 정보 사용
US11315548B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
US10741170B2 (en) Speech recognition method and apparatus
US8019602B2 (en) Automatic speech recognition learning using user corrections
US10249321B2 (en) Sound rate modification
JP7055630B2 (ja) 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体
WO2019065263A1 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
US20160180839A1 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
JP6996570B2 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
KR20240068723A (ko) Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN111816164A (zh) 用于语音识别的方法及设备
US20230343332A1 (en) Joint Segmenting and Automatic Speech Recognition
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
US8438029B1 (en) Confidence tying for unsupervised synthetic speech adaptation
JP6903613B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP6006674B2 (ja) 音響モデル選択装置とその方法とプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP3841342B2 (ja) 音声認識装置および音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210623

R151 Written notification of patent or utility model registration

Ref document number: 6903613

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151