JP2017045027A - 音声言語コーパス生成装置およびそのプログラム - Google Patents
音声言語コーパス生成装置およびそのプログラム Download PDFInfo
- Publication number
- JP2017045027A JP2017045027A JP2016031925A JP2016031925A JP2017045027A JP 2017045027 A JP2017045027 A JP 2017045027A JP 2016031925 A JP2016031925 A JP 2016031925A JP 2016031925 A JP2016031925 A JP 2016031925A JP 2017045027 A JP2017045027 A JP 2017045027A
- Authority
- JP
- Japan
- Prior art keywords
- corpus
- speech
- recognition
- program
- language corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 63
- 238000003860 storage Methods 0.000 claims description 63
- 238000013518 transcription Methods 0.000 claims description 48
- 230000035897 transcription Effects 0.000 claims description 48
- 238000004458 analytical method Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 10
- 230000006978 adaptation Effects 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 14
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000007429 general method Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
この字幕放送では、さらに、生放送の番組にリアルタイムで字幕を付与する研究開発が進められている。例えば、特許文献1には、番組の音声を音声認識し、字幕を生成する手法が開示されている。
このように、音声認識によって番組の字幕を生成する場合、さまざまなジャンルの番組を音声認識可能な高精度な音響モデルが必要となる。さらに、このような高精度な音響モデルを学習するためには、さまざまなジャンルをカバーした大規模な音声言語コーパスの構築が必要となる。
この非特許文献1に記載の準教師あり学習の手法では、欠損や要約があるなど、書き起こしとしては精度が低いテキスト(予め付与された字幕)から学習した制約の強い言語モデルを生成する。そして、この手法は、生成した言語モデルを用いて番組音声を認識し、その認識結果である認識仮説と字幕とを照合し、その一部を、音響モデルを学習するための音声言語コーパスとして用いることを特徴としている。
具体的には、非特許文献1に記載の手法では、ニュース番組を対象として、番組の認識仮説と字幕とのアライメント結果から、認識仮説と字幕とがすべて一致する発話区間の音声データのみを、音声言語コーパスとして用いている。
そのため、従来の手法では、ニュース以外のさまざまなジャンルをカバーした大規模な音声言語コーパスを構築することができないという問題がある。
そこで、音声言語コーパス生成装置は、字幕テキストと書き起こしとがミスマッチする確率を予めパターン化しておく。
さらに、音声言語コーパス生成装置は、コーパス選択手段によって、誤り率が閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを音声言語コーパスとして選択することで、コーパス候補認識仮説とコーパス候補字幕テキストとがすべて一致していなくても、コーパス候補番組音声およびコーパス候補字幕テキストを音声言語コーパスとして選択することができる。
本発明によれば、特定の番組単位で、字幕テキストを、音響モデルを学習するためのコーパスとして適用可能な否かを、予め特定の番組において学習したミスマッチ確率により判定することができる。
これによって、本発明は、既存の字幕テキストから大規模な音声言語コーパスを構築することができ、さらに、認識精度を高めた音響モデル生成することが可能になる。
≪第1実施形態≫
〔音声言語コーパス生成装置の概要〕
まず、図1を参照して、本発明の第1実施形態に係る音声言語コーパス生成装置1の概要について説明する。
ここで、特定の番組とは、予め定めた基準で分類された番組であって、例えば、特定の番組タイトル(番組名)や、ニュース番組、スポーツ番組、情報番組等のジャンル別の番組等である。あるいは、生放送番組、事前収録番組等の字幕を生成する方法(音声認識による生成、手入力による手法等)で区分された番組であっても構わない。
このように、音声言語コーパス生成装置1は、番組音声に対応する誤り率の小さい字幕テキストをコーパスとして抽出することで、特定の番組の番組音声を高精度に音声認識することが可能な音響モデルを学習するための音声言語コーパスを生成することができる。
以下、図1を参照して、音声言語コーパス生成装置1の構成について説明する。
図1に示すように、音声言語コーパス生成装置1は、ミスマッチ確率学習手段10と、音響モデル記憶手段20と、ミスマッチ確率記憶手段30と、音声言語コーパス選択手段40と、音声言語コーパス記憶手段50と、を備える。
ここでは、ミスマッチ確率学習手段10は、音声認識手段11と、ミスマッチ確率算出手段12と、を備える。
この音声認識手段11は、認識結果である認識仮説SR1を、ミスマッチ確率算出手段12に出力する。
ここでは、ミスマッチ確率算出手段12は、アライメント手段12aと、確率算出手段12bと、を備える。
このアライメント手段12aは、発話区間ごとに、アライメント結果を確率算出手段12bに出力する。
すなわち、確率算出手段12bは、字幕テキストST1と認識仮説SR1とがどのような対応パターンであるときに、字幕テキストST1が、書き起こしTC1に対してどのようなパターン(ミスマッチパターン)で、また、どれだけの確率でミスマッチが発生するのかを算出する。この書き起こしTC1は、音声認識に誤りがなければ認識仮説SR1と一致し、認識仮説SR1に対する正しい単語列を示すことになる。そこで、ここでは、確率算出手段12bは、書き起こしTC1を基準(正解)としてミスマッチ確率を算出する。
図2に示すように、字幕テキストSTと認識仮説SRとの対応パターンは、4つ(対応パターンI〜IV)ある。
図4に示すように、字幕テキストSTと書き起こしTCとの間には、基本的に、図2で説明した字幕テキストSTと認識仮説SRとの間の対応パターンと同様のパターンが存在する。
なお、この削除ミスマッチDは、字幕テキストSTには対応する単語が存在しないため、図5に示すように、対応パターンIにおいてのみ発生するパターンである。
なお、置換ミスマッチSおよび挿入ミスマッチIは、字幕テキストSTの対応する単語が存在する対応パターンII〜IVにおいて発生するパターンであり、対応パターンIでは発生しない。
図1に戻って、音声言語コーパス生成装置1の構成について説明を続ける。
そして、確率算出手段12bは、対応パターン数とそれぞれの対応パターンにおけるミスマッチ数とから、ミスマッチ確率を算出する。
この確率算出手段12bは、図6に例示したように、対応パターンとミスマッチパターンとにミスマッチ確率を対応付けたミスマッチ確率テーブルを生成し、ミスマッチ確率記憶手段30に記憶する。
この音響モデル記憶手段20は、番組音声を音声認識する際に、音声認識手段11,41によって参照される。
このミスマッチ確率記憶手段30は、音声言語コーパス選択手段40によって参照される。
ここで、番組音声SS2および字幕テキストST2は、音声言語コーパスの候補となるもの(コーパス候補番組音声およびコーパス候補字幕テキスト)で、ミスマッチ確率学習手段10で学習された特定の番組と同じ分類に属する番組の番組音声および字幕テキストである。
ここでは、音声言語コーパス選択手段40は、音声認識手段41と、コーパス選択手段42と、を備える。
この音声認識手段41は、認識結果である認識仮説(コーパス候補認識仮説)SR2を、コーパス選択手段42に出力する。
なお、音声認識手段41の代わりに、音声認識手段11の入力と出力とを切り替えることで、音声認識手段11を用いることとしてもよい。
ここでは、コーパス選択手段42は、アライメント手段42aと、誤り率推定手段42bと、適否判定手段42cと、を備える。
このアライメント手段42aは、発話区間ごとに、アライメント結果を誤り率推定手段42bに出力する。
この誤り率推定手段42bは、事前に学習してあるミスマッチ確率記憶手段30に記憶されているミスマッチ確率テーブルを参照し、発話区間ごとに、字幕テキストST2の誤り率を推定する。
なお、字幕テキストと書き起こしとのアライメント結果において、正解となる書き起こしの単語を基準として、図4で説明した正解Cの単語数をCC、削除ミスマッチDの単語数をDC、置換ミスマッチSの単語数をSC、挿入ミスマッチIの単語数をICとしたとき、字幕テキストの誤り率RCは、以下の式(3)で表すことができる。ただし、挿入ミスマッチIの単語数ICは、挿入ミスマッチIが発生した字幕テキストの単語数である。
この誤り率推定手段42bは、推定した発話区間ごとの字幕テキストの誤り率を適否判定手段42cに出力する。
この適否判定手段42cは、誤り率推定手段42bで推定された発話区間の字幕テキストの誤り率が、閾値(例えば、15%)以下であれば、音声言語コーパスとして適していると判定し、当該発話区間の字幕テキストST2と、対応する番組音声SS2とを、音声言語コーパスとして選択する。ここでは、適否判定手段42cは、選択した音声言語コーパスを音声言語コーパス記憶手段50に記憶する。
なお、音声言語コーパス生成装置1は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音声言語コーパス生成プログラム)で動作させることができる。
次に、音声言語コーパス生成装置1の動作について説明する。ここでは、事前準備段階としてミスマッチ確率を学習する動作(ミスマッチ確率学習動作)と、ミスマッチ確率に基づいて音声言語コーパスを選択する動作(コーパス選択動作)とに分けて説明する。
最初に、図7を参照(構成については適宜図1参照)して、ミスマッチ確率学習動作について説明する。
そして、音声言語コーパス生成装置1は、ミスマッチ確率算出手段12のアライメント手段12aによって、ステップS1で生成された認識仮説SR1と、字幕テキストST1と書き起こしTC1とを単語単位でアライメントする(ステップS2)。
次に、図8を参照(構成については適宜図1参照)して、コーパス選択動作について説明する。
そして、音声言語コーパス生成装置1は、コーパス選択手段42のアライメント手段42aによって、ステップS10で生成された認識仮説SR2と、字幕テキストST2とを単語単位でアライメントする(ステップS11)。
そして、音声言語コーパス生成装置1は、コーパス選択手段42の誤り率推定手段42bによって、前記式(8)により、字幕テキストの誤り率を算出する(ステップS13)。
ここで、誤り率が閾値以下であれば(ステップS14でYes)、適否判定手段42cは、この発話区間jの番組音声と字幕テキストとを、コーパス(音声言語コーパス)として選択し、音声言語コーパス記憶手段50に記憶する(ステップS15)。そして、音声言語コーパス生成装置1は、ステップS16に動作を進める。
一方、誤り率が閾値よりも大きければ(ステップS14でNo)、音声言語コーパス生成装置1は、当該発話区間jをコーパスとすることなく、ステップS16に動作を進める。
ここで、すべての発話区間において適否判定が完了していない場合(ステップS16でNo)、音声言語コーパス生成装置1は、ステップS17において、次の発話区間を設定(内部変数として、jに“1”を加算)し、ステップS13に動作を進める。
一方、すべての発話区間において適否判定が完了した場合(ステップS16でYes)、動作を終了する。
〔音声言語コーパス生成装置の概要〕
次に、図9を参照して、本発明の第2実施形態に係る音声言語コーパス生成装置1Bの概要について説明する。
第1実施形態に係る音声言語コーパス生成装置1(図1参照)では、音声言語コーパスを選択する基準となる閾値を固定としていた。
この第2実施形態に係る音声言語コーパス生成装置1Bは、音声言語コーパス生成装置1に対して、閾値を調整する機能を付加している。
すなわち、音声言語コーパス生成装置1Bは、予め定めた閾値で音声言語コーパス選択手段40が音声言語コーパスを選択した後、音声認識の認識率を高める方向に閾値を適応的に変化させて音声言語コーパスを生成する。
以下、音声言語コーパス生成装置1と異なる点を中心に説明する。
図9を参照して、音声言語コーパス生成装置1Bの構成について説明する。
図9に示すように、音声言語コーパス生成装置1Bは、ミスマッチ確率学習手段10と、音響モデル記憶手段20,20Bと、ミスマッチ確率記憶手段30と、音声言語コーパス選択手段40と、音声言語コーパス記憶手段50と、音響モデル学習手段60と、コーパス判定閾値決定手段70と、を備える。
音響モデル記憶手段20B、音響モデル学習手段60およびコーパス判定閾値決定手段70以外の構成は、図1で説明した音声言語コーパス生成装置1と同じ構成であるため、同一の符号を付して説明を省略する。
この音響モデル記憶手段20Bに記憶される音響モデルは、ミスマッチ確率を考慮して選択された音声言語コーパス記憶手段50に記憶されている音声言語コーパスから学習したものであるため、音響モデル記憶手段20に記憶される音響モデルに比べ、特定の番組に対する音声認識に適した(単語誤り率の低い)音響モデルとなっている。
この音響モデル記憶手段20Bは、番組音声を音声認識する際に、音声認識手段71によって参照される。
なお、音声言語コーパスである音声データ(番組音声)およびテキスト(字幕テキスト)から音響モデルを学習する手法は、一般的な手法を用いればよいため、ここでは説明を省略する。
ここでは、コーパス判定閾値決定手段70は、音声認識手段71と、閾値決定手段72と、を備える。
この音声認識手段71は、認識結果である認識仮説(閾値調整用認識仮説)SR3を、閾値決定手段72に出力する。
なお、音声認識手段71の代わりに、音声認識手段11(図1参照)の入力と出力とを切り替えることで、音声認識手段11を用いることとしてもよい。
ここでは、閾値決定手段72は、アライメント手段72aと、認識率算出手段72bと、閾値適応化手段72cと、を備える。
このアライメント手段72aは、発話区間ごとに、アライメント結果を認識率算出手段72bに出力する。
この認識率算出手段72bは、算出した認識率を閾値適応化手段72cに出力する。
この閾値適応化手段72cは、前回算出した認識率を保持しておき、認識率が向上する方向に閾値を適応化する。例えば、閾値適応化手段72cは、格子探索法、勾配法といった一般的な最適化手法により閾値を適応化する。
なお、音声言語コーパス生成装置1Bは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音声言語コーパス生成プログラム)で動作させることができる。
次に、図10を参照(構成については適宜図9参照)して、音声言語コーパス生成装置1Bの動作について説明する。なお、事前準備段階としてミスマッチ確率を学習する動作(ミスマッチ確率学習動作)と、ミスマッチ確率に基づいて音声言語コーパスを選択する動作(コーパス選択動作)は、図7,図8で説明した音声言語コーパス生成装置1と同じであるため、説明を省略する。
ここでは、図8のステップS14で使用する閾値を決定する動作(閾値決定動作)について説明する。なお、この閾値決定動作は、音声言語コーパス生成装置1Bが予め定めた閾値で、図8で説明した動作を実行後、適宜、1回以上実行する動作である。
図10に示すように、まず、音声言語コーパス生成装置1Bは、音響モデル学習手段60によって、図8のコーパス選択動作で選択した音声言語コーパスから音響モデルを学習する(ステップS20)。
そして、音声言語コーパス生成装置1Bは、音声認識手段71によって、番組音声SS3を発話区間ごとに音声認識して、認識仮説SR3を生成する(ステップS21)。
その後、音声言語コーパス生成装置1Bは、閾値決定手段72のアライメント手段72aによって、ステップS21で生成された認識仮説SR3と、書き起こしTC3とを単語単位でアライメントする(ステップS22)。
さらに、音声言語コーパス生成装置1Bは、閾値決定手段72の閾値適応化手段72cによって、ステップS23で算出された認識率を、前回算出し、保持されている認識率よりも高くする方向に閾値を適応化させて、その値を決定する(ステップS24)。
ここで、図11,図12を参照して、ミスマッチ確率テーブルの具体例について説明する。ここでは、NHKの6本の放送番組(それぞれ10〜15時間程度)を用いて生成したミスマッチ確率テーブルについて示す。
6番組分の字幕テキストと音声認識結果(認識仮説)とは、図11に示すような割合(%)で、それぞれの対応パターンI〜IVに対応していた。
そして、音声言語コーパス生成装置1,1Bでは、この6本の放送番組について、図12に示すようなミスマッチ確率テーブルを生成した。
例えば、放送番組「クローズアップ現代」について、図11で対応パターンIに分類された19.9%の単語のうち、図12に示すように、削除ミスマッチDが77.8%発生している。
本発明では、この特徴を利用して、字幕テキストを音響モデルのコーパスとして利用可能な否かを判定することで、特定の番組に適したコーパスを生成することが可能になる。
なお、従来手法である分類を考慮せずに学習した音響モデルを用いて音声認識したときの単語誤り率が18.1%であったのに対し、本発明によって閾値を15%として生成した音声言語コーパスから学習した音響モデルを用いた場合、単語誤り率が15.3%と改善した。
〔音声言語コーパス生成装置の概要〕
次に、図13を参照して、本発明の第3実施形態に係る音声言語コーパス生成装置1Cの概要について説明する。
第1実施形態に係る音声言語コーパス生成装置1(図1参照)では、特定の番組ごとに、番組音声に対する字幕テキストのミスマッチの傾向に基づいて、字幕テキストの誤り率を推定している。
この第3実施形態に係る音声言語コーパス生成装置1Cは、音声言語コーパス生成装置1に対して、さらにミスマッチの傾向を単語の属性ごとに細分化して求め、字幕テキストの誤り率の精度を高めるものである。
以下、音声言語コーパス生成装置1と異なる点を中心に説明する。
図13を参照して、音声言語コーパス生成装置1Cの構成について説明する。
図13に示すように、音声言語コーパス生成装置1Cは、ミスマッチ確率学習手段10Bと、音響モデル記憶手段20と、ミスマッチ確率記憶手段30Bと、音声言語コーパス選択手段40Bと、音声言語コーパス記憶手段50と、を備える。
音響モデル記憶手段20および音声言語コーパス記憶手段50は、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。
ここでは、ミスマッチ確率学習手段10Bは、音声認識手段11と、ミスマッチ確率算出手段12Bと、属性解析手段13と、を備える。音声認識手段11は、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。以下、属性解析手段13、ミスマッチ確率算出手段12Bの順に説明する。
この属性解析手段13は、解析結果となる属性(品詞)AT1を、字幕テキストST1の各単語に対応付けて、ミスマッチ確率算出手段12Bに出力する。
このように、文頭または文末からの数を属性とすることで、番組音声の音声ファイルが発話の区切りから僅かに前後して分割され、発話区間の前部分に前の発話区間の文末が混入したり、発話区間の後部分に後の発話区間の前文が混入したり等をミスマッチ確率の計算に反映させることができる。また、文末表現は字幕作成時に人手で修正されやすい傾向があるため、文末からの数を属性とすることで、この傾向をミスマッチ確率の計算に反映させることができる。
なお、以降では、属性解析手段13が単語の属性として品詞を解析した例で説明する。
ここでは、ミスマッチ確率算出手段12Bは、アライメント手段12aと、確率算出手段12Bbと、を備える。アライメント手段12aは、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。
なお、単語の対応パターンは、図2,図3で説明したパターンと同じである。また、ミスマッチパターンは、図4,図5で説明したパターンと同じである。
この確率算出手段12Bbは、基本的に確率算出手段12b(図1)と同様のミスマッチ確率を算出するが、その確率の算出を品詞ごとに行う。ただし、図2に示すように、対応パターンIは、字幕テキストで対応する単語がないため対応する品詞はなく、前記式(1)と同様の計算を行う。
すなわち、確率算出手段12Bbは、対応パターンIIの品詞hの対応パターン数をNII,h、対応パターンIIにおける置換ミスマッチSのミスマッチ数をNII,S,hとしたとき、また、対応パターンIIにおける挿入ミスマッチIのミスマッチ数をNII,I,hとしたとき、以下の式(9)により、対応パターンIIの品詞hにおける置換ミスマッチSのミスマッチ確率PII,S,hおよび挿入ミスマッチIのミスマッチ確率PII,I,hを算出する。
この確率算出手段12Bbは、図14に例示したように、対応パターンとミスマッチパターンとに属性(品詞)ごとのミスマッチ確率を対応付けたミスマッチ確率テーブルを生成し、ミスマッチ確率記憶手段30Bに記憶する。
このミスマッチ確率記憶手段30Bは、音声言語コーパス選択手段40Bによって参照される。
ここでは、音声言語コーパス選択手段40Bは、音声認識手段41と、コーパス選択手段42Bと、属性解析手段43と、を備える。音声認識手段41は、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。
ここでは、コーパス選択手段42Bは、アライメント手段42aと、誤り率推定手段42Bbと、適否判定手段42cと、を備える。アライメント手段42aおよび適否判定手段42cは、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。
この誤り率推定手段42Bbは、事前に学習してあるミスマッチ確率記憶手段30Bに記憶されているミスマッチ確率テーブルを参照し、発話区間ごとに、字幕テキストST2の誤り率を推定する。
すなわち、誤り率推定手段42Bbは、前記式(8)の代わりに、ミスマッチ確率を属性ごとに細分化した以下の式(10)により、発話区間jにおける字幕テキストの誤り率の期待値E[RC j]を算出する。
以上説明したように音声言語コーパス生成装置1Cを構成することで、音声言語コーパス生成装置1Cは、番組音声に対する字幕テキストのミスマッチの傾向を単語の属性(品詞等)ごとに細分化して求め、字幕テキストの誤り率の精度を高めることができ、音声言語コーパス生成装置1に比べて、さらに、高精度な音響モデルを学習するため必要となる音声言語コーパスを生成することができる。
この属性解析手段43は、解析結果となる属性(品詞)AT2を、字幕テキストST2の各単語に対応付けて、コーパス選択手段42Bに出力する。
なお、音声言語コーパス生成装置1Cは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音声言語コーパス生成プログラム)で動作させることができる。
次に、音声言語コーパス生成装置1Cの動作について説明する。
音声言語コーパス生成装置1Cの動作は、基本的には、図7,図8で説明した音声言語コーパス生成装置1の動作と同じであるが、以下の点が異なっている。
また、音声言語コーパス生成装置1Cは、ステップS3で、ミスマッチ確率算出手段12Bの確率算出手段12Bbによって、字幕テキストおよび認識仮説の対応パターン(図2参照)および単語の属性(品詞等)ごとに、字幕テキストおよび書き起こしに発生するミスマッチパターン(図4参照)の確率(ミスマッチ確率)を算出する。
また、音声言語コーパス生成装置1Cは、図8に示した動作において、ステップS13で、コーパス選択手段42Bの誤り率推定手段42Bbによって、前記式(10)により、字幕テキストの誤り率を算出する。
ここで、図15,図16を参照して、音声言語コーパス生成装置1Cで用いるミスマッチ確率テーブルの具体例について説明する。ここでは、NHKの放送番組「ひるまえ ほっと」(16時間程度)を用いて生成したミスマッチ確率テーブルについて示す。
字幕テキストの単語の属性(品詞)と音声認識結果(認識仮説)とは、図15に示すような割合(%)で、それぞれの対応パターンII〜IVに対応していた。ここで、パターンIは、認識仮説の単語が字幕テキストに対応しないパターンであるため、図15には存在しない。なお、参考までに、字幕テキストの単語を属性(品詞)で分類しない場合の割合(平均)を最下段に示している。
図15に示すように、品詞の分類を行わない平均に対し、例えば、感動詞については、字幕テキストと認識仮説とが一致する割合が低いことがわかる(対応パターンIV)。
図16に示すように、例えば、感動詞の字幕テキストの単語と認識仮説の単語とが不一致(対応パターンII)の場合、ミスマッチ(置換ミスマッチS)の割合が高いことがわかる。
このように、図15,図16ともに、分類を行わなかった場合の割合から、大きく割合がずれる品詞が存在し、単語の品詞によって、字幕テキストの誤り率に影響を与えることが分かる。
本発明は、字幕テキストの単語の属性を考慮して、字幕テキストの誤り率を求めるため、特定の番組の音響モデルのコーパスとして、より適したコーパスを字幕テキストから選択することが可能になる。
次に、図17を参照して、本発明の第4実施形態に係る音声言語コーパス生成装置1Dについて説明する。
第3実施形態に係る音声言語コーパス生成装置1C(図13参照)では、字幕テキストの単語の属性を、字幕テキストそのものを解析することで求めた。
しかし、この第4実施形態に係る音声言語コーパス生成装置1Dでは、字幕テキストST1に対応する番組音声SS1の音量、音質等の音響特性を属性として、字幕テキストの単語の属性とする。
ミスマッチ確率学習手段10C、音声言語コーパス選択手段40C以外の構成は、図13で説明した音声言語コーパス生成装置1Cと同じ構成であり、使用する属性のみが異なっているため、ここでは説明を省略する。
ここでは、ミスマッチ確率学習手段10Cは、音声認識手段11Bと、ミスマッチ確率算出手段12Cと、属性解析手段13Bと、を備える。
この音声認識手段11Bは、タイムコードを付与した認識仮説SR1をミスマッチ確率算出手段12Cに出力する。
例えば、属性解析手段13Bは、音響特性として、音量レベルを予め定めた範囲区分で分類したり、バックグラウンドの音(雑音、音楽等)の音質で分類したりすることができる。
なお、バックグラウンドの音に関する分類は、一般的手法、例えば、「参考文献:T.Butko and C.Nadeu,“Audio segmentation of broadcast news in the Albayzin-2010 evaluation: overview, results, and discussion”, EURASIP Journal on Audio, Speech, and Music Processing 2011」に記載の手法を用いることができる。
この属性解析手段13Bは、分類した属性に、番組音声のタイムコードを付与してミスマッチ確率算出手段12Cに出力する。
ここでは、ミスマッチ確率算出手段12Cは、アライメント手段12Caと、確率算出手段12Cbと、を備える。
このアライメント手段12Caは、発話区間ごとに、アライメント結果を確率算出手段12Cbに出力する。
この確率算出手段12Cbは、基本的に確率算出手段12Bb(図13)と同様のミスマッチ確率を算出するが、その確率の算出を音響特性ごとに行う。ただし、図2に示すように、対応パターンIIIは、認識仮説で対応する単語がないため対応する音響特性はなく、前記式(2)のように、属性を考慮せずに算出する。
ここでは、音声言語コーパス選択手段40Cは、音声認識手段41と、コーパス選択手段42Bと、属性解析手段43Bと、を備える。音声認識手段41、コーパス選択手段42Bは、図13で説明した音声言語コーパス生成装置1Cと同じ構成であるため説明を省略する。
この属性解析手段43Bは、属性の解析結果を、コーパス選択手段42Bに出力する。
なお、音声言語コーパス生成装置1Dは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音声言語コーパス生成プログラム)で動作させることができる。
音声言語コーパス生成装置1Dの動作については、属性を解析する対象が異なるだけで、基本的に音声言語コーパス生成装置1C(図13)と同じであるため、説明を省略する。
以上、本発明の実施形態に係る音声言語コーパス生成装置1(図1),1B(図9),1C(図13),1D(図17)の構成および動作について説明したが、本発明はこれらの実施形態に限定されるものではない。
すなわち、音声言語コーパス生成装置1,1B,1C,1Dは、外部の音声認識手段で認識された認識仮説を入力することとしてもよい。
しかし、音声言語コーパス生成装置1,1B,1C,1Dは、タイトルの異なる複数の番組、あるいは、異なるジャンル(ニュース、スポーツ等)に分類される複数の番組といったように、所定の分類基準で分類されるそれぞれの番組に対して、対応する複数の音声言語コーパスを生成することとしてもよい。
そして、音声言語コーパス生成装置1,1B,1C,1Dは、ミスマッチ確率算出手段12(12B,12C)によって、図6または図14に示したミスマッチ確率テーブルを生成する際に、ミスマッチ確率を、特定の番組を分類する識別情報ごとに複数生成することとする。
そして、音声言語コーパス生成装置1,1B,1C,1Dは、コーパス選択手段42(42B)によって、ミスマッチ確率テーブルの所定の識別情報に対応するミスマッチ確率を参照して、誤り率を算出し、コーパスを選択すればよい。
10 ミスマッチ確率学習手段
11 音声認識手段
12 ミスマッチ確率算出手段
12a アライメント手段
12b 確率算出手段
13 属性解析手段
20 音響モデル記憶手段
20B 音響モデル記憶手段
30 ミスマッチ確率記憶手段
40 音声言語コーパス選択手段
41 音声認識手段
42 コーパス選択手段
42a アライメント手段
42b 誤り率推定手段(誤り率算出手段)
42c 適否判定手段(コーパス適否判定手段)
43 属性解析手段
50 音声言語コーパス記憶手段
60 音響モデル学習手段
70 コーパス判定閾値決定手段
71 音声認識手段
72 閾値決定手段
72a アライメント手段
72b 認識率算出手段
72c 閾値適応化手段
Claims (8)
- 特定の番組の音声認識に使用する音響モデルを学習するための音声言語コーパスを生成する音声言語コーパス生成装置であって、
前記特定の番組の番組音声を音声認識した認識仮説と字幕テキストと書き起こしとから、前記字幕テキストと前記認識仮説との対応パターンに対応付けて、前記字幕テキストと前記書き起こしとが一致しないミスマッチ確率を算出するミスマッチ確率算出手段と、
前記特定の番組と同じ分類に属する番組の前記音声言語コーパスの候補となるコーパス候補番組音声を音声認識したコーパス候補認識仮説と、予め付されたコーパス候補字幕テキストとの対応パターンに対応した前記ミスマッチ確率により、前記コーパス候補字幕テキストの発話区間ごとの誤り率を算出し、当該誤り率が閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを、前記音声言語コーパスとして選択するコーパス選択手段と、
を備えることを特徴とする音声言語コーパス生成装置。 - 前記ミスマッチ確率算出手段は、
前記認識仮説と前記字幕テキストと前記書き起こしとを単語単位でアライメントするアライメント手段と、
アライメント結果の単語単位で、前記字幕テキストと前記認識仮説との対応パターンに対応付けて前記字幕テキストと前記書き起こしとが一致しない確率を前記ミスマッチ確率として算出する確率算出手段と、
を備えることを特徴とする請求項1に記載の音声言語コーパス生成装置。 - 前記字幕テキストの単語の属性を解析する属性解析手段をさらに備え、
前記ミスマッチ確率算出手段は、前記属性ごとに、前記ミスマッチ確率を算出することを特徴とする請求項1または請求項2に記載の音声言語コーパス生成装置。 - 前記属性は、単語の品詞であることを特徴とする請求項3に記載の音声言語コーパス生成装置。
- 前記コーパス選択手段は、
前記コーパス候補認識仮説と前記コーパス候補字幕テキストとを単語単位でアライメントするアライメント手段と、
アライメント結果の単語単位で、前記ミスマッチ確率により、前記コーパス候補字幕テキストの発話区間ごとの誤り率を算出する誤り率算出手段と、
この誤り率算出手段で算出された誤り率と前記閾値とを比較し、閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを、前記音声言語コーパスとして選択する適否判定手段と、
を備えることを特徴とする請求項1から請求項4のいずれか一項に記載の音声言語コーパス生成装置。 - 前記コーパス選択手段で選択された音声言語コーパスを用いて、音響モデルを学習する音響モデル学習手段と、
この音響モデル学習手段で学習された音響モデルを記憶する音響モデル記憶手段と、
前記音響モデルを参照して、前記特定の番組と同じ分類に属する番組の閾値調整用番組音声を音声認識した閾値調整用認識仮説と、予め付された閾値調整用書き起こしとから、前記音声認識の認識率を算出する認識率算出手段と、
前記認識率を向上させるように適宜前記閾値を調整する閾値適応化手段と、
をさらに備えることを特徴とする請求項1から請求項5のいずれか一項に記載の音声言語コーパス生成装置。 - 前記特定の番組は、特定の番組名で分類される番組、特定のジャンルで分類される番組、または、字幕制作方法により分類される番組のいずれかであることを特徴とする請求項1から請求項6のいずれか一項に記載の音声言語コーパス生成装置。
- コンピュータを、請求項1から請求項7のいずれか一項に記載の音声言語コーパス生成装置として機能させるための音声言語コーパス生成プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015165137 | 2015-08-24 | ||
JP2015165137 | 2015-08-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017045027A true JP2017045027A (ja) | 2017-03-02 |
JP6637332B2 JP6637332B2 (ja) | 2020-01-29 |
Family
ID=58210145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016031925A Active JP6637332B2 (ja) | 2015-08-24 | 2016-02-23 | 音声言語コーパス生成装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6637332B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858427A (zh) * | 2019-01-24 | 2019-06-07 | 广州大学 | 一种语料提取方法、装置及终端设备 |
CN110263322A (zh) * | 2019-05-06 | 2019-09-20 | 平安科技(深圳)有限公司 | 用于语音识别的音频语料筛选方法、装置及计算机设备 |
CN113468305A (zh) * | 2021-06-29 | 2021-10-01 | 竹间智能科技(上海)有限公司 | 一种识别口语冗余成分的方法及装置 |
CN114996506A (zh) * | 2022-05-24 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 语料生成方法、装置、电子设备和计算机可读存储介质 |
US20230247188A1 (en) * | 2022-02-01 | 2023-08-03 | Comcast Cable Communications, Llc | Caption Anomaly Detection |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007248730A (ja) * | 2006-03-15 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 |
JP2010055030A (ja) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
-
2016
- 2016-02-23 JP JP2016031925A patent/JP6637332B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007248730A (ja) * | 2006-03-15 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 |
JP2010055030A (ja) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
Non-Patent Citations (2)
Title |
---|
三村正人他: "統計的言語モデル変換を用いた音響モデルの準教師つき学習", 情報処理学会研究報告 音声言語情報処理(SLP), JPN6019045210, 15 August 2009 (2009-08-15), ISSN: 0004158354 * |
奥貴裕他: "放送音声と字幕テキストを利用した音声言語コーパスの開発", 情報処理学会 研究報告 音声言語情報処理(SLP), vol. 2014−SLP−103, JPN6019045208, 17 October 2014 (2014-10-17), pages 1 - 5, ISSN: 0004158353 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858427A (zh) * | 2019-01-24 | 2019-06-07 | 广州大学 | 一种语料提取方法、装置及终端设备 |
CN110263322A (zh) * | 2019-05-06 | 2019-09-20 | 平安科技(深圳)有限公司 | 用于语音识别的音频语料筛选方法、装置及计算机设备 |
CN110263322B (zh) * | 2019-05-06 | 2023-09-05 | 平安科技(深圳)有限公司 | 用于语音识别的音频语料筛选方法、装置及计算机设备 |
CN113468305A (zh) * | 2021-06-29 | 2021-10-01 | 竹间智能科技(上海)有限公司 | 一种识别口语冗余成分的方法及装置 |
US20230247188A1 (en) * | 2022-02-01 | 2023-08-03 | Comcast Cable Communications, Llc | Caption Anomaly Detection |
CN114996506A (zh) * | 2022-05-24 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 语料生成方法、装置、电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6637332B2 (ja) | 2020-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200211529A1 (en) | Systems and methods for multi-style speech synthesis | |
KR101413327B1 (ko) | 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템 | |
US20180114525A1 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
Huijbregts | Segmentation, diarization and speech transcription: surprise data unraveled | |
JP6637332B2 (ja) | 音声言語コーパス生成装置およびそのプログラム | |
JP4869268B2 (ja) | 音響モデル学習装置およびプログラム | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
Metze | Articulatory features for conversational speech recognition | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2013050605A (ja) | 言語モデル切替装置およびそのプログラム | |
JP6637333B2 (ja) | 音響モデル生成装置およびそのプログラム | |
Perero-Codosero et al. | Exploring Open-Source Deep Learning ASR for Speech-to-Text TV program transcription. | |
Siohan | CTC Training of Multi-Phone Acoustic Models for Speech Recognition. | |
Mizera et al. | Impact of irregular pronunciation on phonetic segmentation of nijmegen corpus of casual czech | |
Akesh et al. | Real-Time Subtitle Generator for Sinhala Speech | |
JP4949310B2 (ja) | 音響処理装置およびプログラム | |
Sundaram | Effects of Transcription Errors on Supervised Learning in Speech Recognition | |
JPH0981182A (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
KR20050043472A (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 | |
Gollan | Efficient setup of acoustic models for large vocabulary continuous speech recognition | |
Kleynhans | Automatic speech recognition for resource–scarce environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6637332 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |