JP2016080832A

JP2016080832A - 学習データ生成装置及びそのプログラム

Info

Publication number: JP2016080832A
Application number: JP2014211298A
Authority: JP
Inventors: 貴裕奥; Takahiro Oku; 庄衛佐藤; Shoe Sato
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 2014-10-16
Filing date: 2014-10-16
Publication date: 2016-05-16
Anticipated expiration: 2034-10-16
Also published as: JP6426971B2

Abstract

【課題】本願発明は、高精度な学習データをより多く生成できる音響モデル生成装置を提供する。【解決手段】音響モデル生成装置１は、適応化言語モデルを生成する適応化言語モデル生成手段１０と、適応化言語モデル及びベースライン音響モデルを用いて放送番組の音声認識を行う音声認識手段２０と、音声認識テキストと字幕テキストとのアライメントを行うアライメント手段３０と、音声認識テキストと字幕テキストとの単語が置換対象である場合、音声認識テキストの単語を字幕テキストの単語に置換する置換手段４０と、置換された音声認識テキストと字幕テキストとから学習データを生成する学習データ生成手段５０と、学習データを用いて音響モデルを適応化する音響モデル適応化手段６０とを備える。【選択図】図１

Description

本願発明は、放送番組の音声認識に用いる音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置及びそのプログラムに関する。

現在、スポーツ番組や情報番組の一部では、リスピーク方式により字幕を制作している。このリスピーク方式とは、字幕キャスタと呼ばれる字幕制作用のリスピーカが復唱した番組音声を音声認識し、字幕を制作するものである（例えば、非特許文献１）。リスピーク方式には、特殊な復唱技術が求められるうえ、リスピーカを介して字幕を制作するため、時間を要する。よって、リスピーク方式によらず、番組音声をリアルタイムで音声認識できる手法が望まれている。

これを実現するには、スポーツ番組や情報番組といった様々なジャンルの放送番組を精度よく音声認識できる音響モデルが必要になる。このとき、音響モデルを構築するための学習データとして、大規模な音声言語コーパスが必要になる。この音声言語コーパスには、実用化レベルの音響モデルを構築するために、高い精度が要求される。

従来より、音声言語コーパスを生成する手法として、準教師あり学習が提案されている（例えば、非特許文献２）。非特許文献２に記載の技術は、番組音声の音声認識結果と字幕テキストとからアライメントを行い、発話区間毎に音声認識結果と字幕テキストとが一致するか否かを判定し、一致する発話区間を抽出するものである。そして、非特許文献２に記載の技術は、抽出した発話区間に対応する音声データと字幕テキストを音響モデルの学習に用いる。

松井他、言い換えを利用したリスピーク方式によるスポーツ中継のリアルタイム字幕制作、電子情報通信学会論文誌、D-11、情報・システム処理,II-パターン処理、Vol.87、No.2、pp.427-435,2004-02-01 Lamel et.al,Lightly Supervised and Unsupervised Acoustic Model Training,Computer Speech and Language,Vol6,pp.115-129,2002

しかし、非特許文献２に記載の技術は、ニュース番組が対象のため、他のジャンルの放送番組に適用した場合、必要な量の学習データを生成できないという問題がある。
具体的には、情報番組では、背景音楽や雑音が含まれていたり、アナウンサ以外の出演者が正確に発話していないことが多い。このため、非特許文献２に記載の技術は、ニュース番組で学習した音響モデルを用いても、情報番組の音声認識精度が低くなり、音声認識結果と字幕テキストとの単語一致区間が減少してしまう。その結果、非特許文献２に記載の技術では、必要な量の学習データを生成できない。

本願発明は、高精度な学習データをより多く生成できる学習データ生成装置及びそのプログラムを提供することを課題とする。

前記した課題に鑑みて、本願発明に係る学習データ生成装置は、放送番組の音声認識に用いる音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置であって、第３言語モデル生成手段と、音声認識手段と、アライメント手段と、置換手段と、学習データ生成手段と、を備える構成とした。

かかる構成によれば、学習データ生成装置は、第３言語モデル生成手段によって、テキストコーパスから予め生成した第１言語モデルと、放送番組の字幕テキストから予め生成した第２言語モデルとを線形補間することで、第３言語モデルを生成する。

学習データ生成装置は、音声認識手段によって、第３言語モデル及び予め生成した音響モデルを用いて、放送番組を音声認識する。そして、学習データ生成装置は、アライメント手段によって、放送番組の音声認識結果を表す音声認識テキストと字幕テキストとの単語を、時刻順で対応付けるアライメントを行う。

ここで、音声認識の精度が字幕制作の精度よりも低いと考えられる。また、音声認識テキストと字幕テキストとの間で対応付けられた単語が異なり、かつ、その単語に前後する単語連鎖が一致する場合、音声認識テキストに含まれるその単語が、誤って音声認識された可能性が非常に高くなる。

そこで、学習データ生成装置は、置換手段によって、音声認識テキストと字幕テキストとの間で対応付けられた単語毎に、その単語が異なり、かつ、その単語の前後で予め設定された単語数の単語連鎖が一致するか否かによりその単語が置換対象であるか否かを判定する。そして、学習データ生成装置は、置換手段によって、その単語が置換対象の場合、音声認識テキストのその単語を字幕テキストの単語に置換する。

このように、学習データ生成装置は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換するので、音声認識テキストと字幕テキストとの単語一致区間を増加させることができる。

学習データ生成装置は、学習データ生成手段によって、放送番組の発話区間毎に、置換手段で置換された音声認識テキストと字幕テキストとが一致するか否かを判定し、一致すると判定された発話区間の音声データに、発話区間に対応した字幕テキストの単語をラベルとして付与する。このとき、学習データ生成装置は、音声認識テキストと字幕テキストとの単語一致区間が増加しているため、一致すると判定される発話区間も増加することになる。

本願発明によれば、以下のような優れた効果を奏する。
本願発明に係る学習データ生成装置は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換する。これにより、学習データ生成装置は、音声認識テキストと字幕テキストとの単語一致区間が増加するため、高精度な学習データをより多く生成することができる。

本願発明の第１実施形態に係る音響モデル生成装置の構成を示すブロック図である。図１の音響モデル生成装置における単語の置換を説明する説明図である。図１の音響モデル生成装置の動作を示すフローチャートである。本願発明の第２実施形態に係る音響モデル生成装置の構成を示すブロック図である。図４の音響モデル生成装置の動作を示すフローチャートである。本願発明の実施例１において、単語数と異なるパターン数との関係を示すグラフである。実施例２，３及び比較例において、『クローズアップ現代』の適応化回数と音声言語コーパスとの関係を示すグラフである。実施例２，３及び比較例において、『まる得マガジン』の適応化回数と音声言語コーパスとの関係を示すグラフである。実施例２，３及び比較例において、『サイエンスＺＥＲＯ』の適応化回数と音声言語コーパスとの関係を示すグラフである。

以下、本願発明の各実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。

（第１実施形態）
［音響モデル生成装置の構成］
図１を参照し、本願発明の第１実施形態に係る音響モデル生成装置（学習データ生成装置）１の構成について説明する。
音響モデル生成装置１は、音響モデルの適応化に必要な学習データを準教師あり学習により生成し、生成した学習データを用いて、音響モデルを適応化（生成）するものである。
この音響モデルは、ニュース番組に限定されず、スポーツ番組、情報番組といった様々なジャンルの放送番組の音声認識に用いることができる。

図１のように、音響モデル生成装置１は、適応化言語モデル生成手段（第３言語モデル生成手段）１０と、音声認識手段２０と、アライメント手段３０と、置換手段４０と、学習データ生成手段５０と、音響モデル適応化手段６０とを備える。

適応化言語モデル生成手段１０は、ベースライン言語モデル（第１言語モデル）と、ドメイン言語モデル（第２言語モデル）とを補間することで、適応化言語モデル（第３言語モデル）を生成するものである。

なお、ベースライン言語モデルとは、大規模テキストコーパスから予め生成した言語モデルのことである。
また、ドメイン言語モデルとは、放送番組に付与された字幕テキストから予め生成した言語モデルのことである。

適応化言語モデル生成手段１０は、ベースライン言語モデル及びドメイン言語モデルが入力される。そして、適応化言語モデル生成手段１０は、入力されたベースライン言語モデルとドメイン言語モデルとを線形補間し、適応化言語モデルを生成する。このとき、適応化言語モデル生成手段１０は、ドメイン言語モデルをベースライン言語モデルより大きく重み付ける。

例えば、ベースライン言語モデル及びドメイン言語モデルがトライグラムの言語モデルであることとする。また、ベースライン言語モデル及びドメイン言語モデルには、下記のように、「今日」、「は」、「私」という同一の単語連鎖のエントリが存在し、それぞれのスコア（確率）が‘７．０’及び‘５．０’であることとする。また、ドメイン言語モデルの補間係数（重み係数）を‘０．９’とし、ベースライン言語モデルの補間係数を‘０．１’とした場合、以下のようになる。

＜各言語モデルの一例＞
ベースライン言語モデル：「今日」、「は」、「私」スコア７．０
ドメイン言語モデル：「今日」、「は」、「私」スコア５．０
適応化言語モデル：「今日」、「は」、「私」スコア５．２

この例では、適応化言語モデル生成手段１０は、ベースライン言語モデルのスコア‘７．０’とベースライン言語モデルの補間係数‘０．１’との乗算値‘０．７’を求める。また、適応化言語モデル生成手段１０は、ドメイン言語モデルのスコア‘５．０’とドメイン言語モデルの補間係数‘０．９’との乗算値‘４．５’を求める。そして、適応化言語モデル生成手段１０は、ベースライン言語モデルの乗算値とドメイン言語モデルとの乗算値を加算したスコア‘５．２’を求め、スコア‘５．２’の「今日」、「は」、「私」という単語連鎖のエントリを適応化言語モデルに追加する。

その後、適応化言語モデル生成手段１０は、生成した適応化言語モデルを音声認識手段２０に出力する。
なお、ベースライン言語モデル、ドメイン言語モデル及び適応化言語モデルは、前記した例に限定されない。また、補間係数も前記した例に限定されない。

音声認識手段２０は、適応化言語モデル生成手段１０から入力された適応化言語モデル及びベースライン音響モデルを用いて、放送番組の音声認識を行うものである。ここで、音声認識手段２０は、放送番組の音声が収録された音声データと、予め生成したベースライン音響モデルとが入力される。そして、音声認識手段２０は、１パスデコーダや２パスデコーダといった任意の音声認識デコーダを用いて、この音声データを発話区間毎に音声認識し、音声認識結果を表す音声認識テキストを生成する。

その後、音声認識手段２０は、生成した音声認識テキストと、音声データ（不図示）とをアライメント手段３０に出力する。
なお、後記する繰り返し処理の場合、音声認識手段２０は、音響モデル適応化手段６０から入力された適応化音響モデルでベースライン音響モデルを更新し、この適応化音響モデルと適応化言語モデルを用いて、放送番組の音声認識を行う。

アライメント手段３０は、音声認識手段２０から入力された音声認識テキストと、字幕テキストとのアライメントを行うものである。
アライメントとは、音声認識テキスト及び字幕テキストに含まれる単語を、時刻順で対応付けることである。

ここで、アライメント手段３０は、放送番組に付与された字幕テキストが入力される。そして、アライメント手段３０は、音声認識テキストに含まれる単語と、字幕テキストに含まれる単語とを時刻順で対応付ける。その後、アライメント手段３０は、アライメントした音声認識テキスト及び字幕テキストと、音声データとを置換手段４０に出力する。

置換手段４０は、アライメント手段３０から入力された音声認識テキストと字幕テキストとの間で対応付けられた単語毎に、その単語が異なり、かつ、その単語に前後する単語連鎖が一致するか否かにより、その単語が置換対象であるか否かを判定するものである。そして、置換手段４０は、その単語が置換対象の場合、音声認識テキストの単語を字幕テキストの単語に置換する。

＜単語の置換＞
図２を参照し、置換手段４０による単語の置換について説明する（適宜図１参照）。
この図２では、音声認識テキスト１００及び字幕テキスト２００に含まれる単語ａ〜単語ｄ、単語Ｘ及び単語Ｙを、「ａ」〜「ｄ」、「Ｘ」及び「Ｙ」と図示した。また、単語ａ，…，単語ｂ及び単語ｃ，…，単語ｄは、それぞれ、Ｎ個の単語が連続する単語連鎖である。また、音声認識テキスト１００及び字幕テキスト２００との間では、単語ａから単語ｂまでの単語及び単語ｃから単語ｄまでの単語が一致することとする。

図２のように、音声認識テキスト１００と字幕テキスト２００との間では、単語ａ，…，単語ｂ及び単語ｃ，…，単語ｄが対応付けられたこととする。また、音声認識テキスト１００の単語Ｘと、字幕テキスト２００の単語Ｙが対応付けられたこととする。

置換手段４０は、任意の値で単語数Ｎを予め設定しておく。この単語数Ｎは、アライメントのずれを抑制すると共に、学習データの量を増加させるため、‘５’に設定することが好ましい（実施例１参照）。

ここで、置換手段４０は、音声認識テキスト１００及び字幕テキスト２００の先頭側から順に、対応付けられた単語が一致するか否かを判定する。まず、置換手段４０は、音声認識テキスト１００の単語ａと、字幕テキスト２００の単語ａとが一致するので、単語ａを置換対象として判定しない。単語ａと同様、置換手段４０は、単語ｂまでを置換対象として判定しない。

また、置換手段４０は、音声認識テキスト１００の単語Ｘと、字幕テキスト２００の単語Ｙとが異なる単語のため、一致しないと判定する。ここで、音声認識テキスト１００の単語Ｘの前、及び、字幕テキスト２００の単語Ｙの前には、同一の単語ａ，…，単語ｂがＮ個連続する。また、音声認識テキスト１００の単語Ｘの後、及び、字幕テキスト２００の単語Ｙの後には、同一の単語ｃ，…，単語ｄがＮ個連続する。このことから、置換手段４０は、音声認識テキスト１００の単語Ｘ及び字幕テキスト２００の単語Ｙに前後するＮ個の単語連鎖とが一致すると判定する。従って、置換手段４０は、音声認識テキスト１００の単語Ｘを置換対象として判定し、この単語Ｘを字幕テキスト２００の単語Ｙに置換する。

すなわち、置換手段４０は、判定基準となる単語が異なっており、判定基準となる単語の前後にする単語連鎖が一致する場合、音声認識テキスト１００の単語が誤って音声認識されたと判定して、字幕テキスト２００の単語で置換する。

続いて、置換手段４０は、単語ｃ，…，単語ｄが音声認識テキスト１００と字幕テキスト２００との間で一致するので、単語ｃ，…，単語ｄを置換対象として判定しない。
その後、置換手段４０は、置換された音声認識テキスト１００と、字幕テキスト２００と、音声データとを学習データ生成手段５０に出力する。

学習データ生成手段５０は、学習データを生成するために、置換手段４０から入力された音声認識テキスト１００と字幕テキスト２００とが一致するか否かを発話区間毎に判定するものである。

ここで、学習データ生成手段５０は、音声認識テキスト１００と字幕テキスト２００との判定単位として、置換手段４０から入力された音声データ及び音声認識テキスト１００の発話区間を検出する。そして、学習データ生成手段５０は、検出した発話区間毎に判定を行い、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、学習データを生成する。

例えば、図２において、単語ａから単語ｄまでが同一の発話区間であることとする。この場合、学習データ生成手段５０は、音声認識テキスト１００の単語Ｘが単語Ｙに置換されているため、音声認識テキスト１００と字幕テキスト２００との間で単語ａから単語ｄまでの発話区間が一致すると判定し、この発話区間から学習データを生成する。

その後、学習データ生成手段５０は、生成した学習データを音響モデル適応化手段６０に出力する。さらに、学習データ生成手段５０は、生成した学習データを音声言語コーパスとして出力してもよい。

図１に戻り、音響モデル生成装置１の構成について、説明を続ける。
音響モデル適応化手段６０は、学習データ生成手段５０から入力された学習データを用いて、音響モデルを適応化するものである。例えば、音響モデル適応化手段６０は、音響モデルとして、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を用いることができる。また、音響モデル適応化手段６０は、音響モデルの適応化手法として、ＭＡＰ（Maximum A. Posteriori estimation）法を用いてもよい。

また、音響モデル適応化手段６０は、適応化した音響モデル（適応化音響モデル）を用いると音響認識の精度が向上するため、繰り返し処理を行うか否かを判定する。具体的には、音響モデル適応化手段６０は、音響モデルを適応化した回数（適応化回数）をインクリメントし、この適応化回数が予め設定された閾値以下であるか否かを判定する。

ここで、適応化回数が閾値以下の場合、音響モデル適応化手段６０は、繰り返し処理を行うと判定し、適応化音響モデルを音声認識手段２０に出力する。
一方、適応化回数が閾値を超える場合、音響モデル適応化手段６０は、繰り返し処理を行わないと判定し、適応化音響モデルを外部に出力し、処理を終了する。

なお、繰り返し処理では、音声認識手段２０がベースライン音響モデルの代わりに適応化音響モデルを用いる以外、音響モデル生成装置１の各手段が同様の処理を行うので、これ以上の説明を省略する。

また、音響モデル生成装置１は、置換手段４０以外の各手段が下記参考文献１に記載されているため、これ以上の説明を省略する。
参考文献１：Lamel et.al,Lightly Supervised and Unsupervised Acoustic Model Training,Computer Speech and Language,Vol6,pp.115-129,2002

［音響モデル生成装置の動作］
図３を参照し、音響モデル生成装置１の動作について説明する（適宜図１参照）。
音響モデル生成装置１は、適応化言語モデル生成手段１０によって、ベースライン言語モデルとドメイン言語モデルとを補間することで、適応化言語モデルを生成する（ステップＳ１）。

音響モデル生成装置１は、音声認識手段２０によって、ステップＳ１で生成した適応化言語モデル及びベースライン音響モデルを用いて放送番組の音声認識を行う（ステップＳ２）。
音響モデル生成装置１は、アライメント手段３０によって、ステップＳ２で生成した音音声認識テキストと、字幕テキストとのアライメントを行う（ステップＳ３）。

音響モデル生成装置１は、置換手段４０によって、ステップＳ３でアライメントした音声認識テキストと字幕テキストとの単語が異なり、かつ、その単語に前後する単語数Ｎの単語連鎖が一致するか否かにより、その単語が置換対象であるか否かを判定する。そして、置換手段４０は、その単語が置換対象の場合、音声認識テキストの単語を字幕テキストの単語に置換する（ステップＳ４）。

音響モデル生成装置１は、学習データ生成手段５０によって、ステップＳ４で置換した音声認識テキストと字幕テキストとが一致するか否かを発話区間毎に判定する。そして、学習データ生成手段５０は、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、学習データを生成する（ステップＳ５）。

音響モデル生成装置１は、音響モデル適応化手段６０によって、ステップＳ５で生成した学習データを用いて、音響モデルを適応化し、適応化回数をインクリメントする（ステップＳ６）。
音響モデル生成装置１は、音響モデル適応化手段６０によって、適応化回数が閾値以下であるか否かにより、繰り返し処理を行うか否かを判定する（ステップＳ７）。

繰り返し処理を行う場合（ステップＳ７でＹｅｓ）、音響モデル生成装置１は、ステップＳ２の処理に戻る。ステップＳ２の処理において、音声認識手段２０は、ベースライン音響モデルの代わりにステップＳ６で適応化した音響モデルを用いて、放送番組の音声認識を行う。その後、音響モデル生成装置１は、ステップＳ３以降の処理を継続する。
繰り返し処理を行わない場合（ステップＳ７でＮｏ）、音響モデル適応化手段６０は、ステップＳ６で適応化した音響モデルを出力し、処理を終了する。

以上のように、本願発明の第１実施形態に係る音響モデル生成装置１は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換する。これにより、音響モデル生成装置１は、音声認識テキストと字幕テキストとの単語一致区間が増加し、高精度な学習データをより多く生成することができる。

（第２実施形態）
［音響モデル生成装置の構成］
図４を参照し、本願発明の第２実施形態に係る音響モデル生成装置１Ｂの構成について、第１実施形態と異なる点を説明する（適宜図１参照）。
第２実施形態では、学習データ及び音声言語コーパスを異なるデータとして扱う点が、第１実施形態と異なる。

図４のように、音響モデル生成装置１Ｂは、適応化言語モデル生成手段１０と、音声認識手段２０と、アライメント手段３０Ｂと、置換手段４０と、学習データ生成手段５０Ｂと、音響モデル適応化手段６０と、音声言語コーパス生成手段７０とを備える。
なお、アライメント手段３０Ｂ、学習データ生成手段５０Ｂ及び音声言語コーパス生成手段７０以外の各手段は、第１実施形態と同様のため、説明を省略する。

アライメント手段３０Ｂは、アライメントした音声認識テキスト及び字幕テキストを置換手段４０及び音声言語コーパス生成手段７０に出力する。他の点、アライメント手段３０Ｂは、第１実施形態と同様のため、説明を省略する。
学習データ生成手段５０Ｂは、音声言語コーパスを出力しない以外、第１実施形態と同様のため、説明を省略する。

音声言語コーパス生成手段７０は、発話区間毎に、アライメント手段３０Ｂから入力された音声認識テキストと字幕テキストとが一致するか否かを判定するものである。そして、音声言語コーパス生成手段７０は、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、音声言語コーパスを生成する。

図１の学習データ生成手段５０は、学習データを生成する際、単語が置換された音声認識テキスト（つまり、置換手段４０から入力された音声認識テキスト）を用いる。一方、音声言語コーパス生成手段７０は、音声言語コーパスを生成する際、単語が置換されていない音声認識テキスト（つまり、アライメント手段３０Ｂから入力された音声認識テキスト）を用いる。
他の点、音声言語コーパス生成手段７０は、図１の学習データ生成手段５０と同様のため、説明を省略する。

［音響モデル生成装置の動作］
図５を参照し、音響モデル生成装置１Ｂの動作について説明する（適宜図３，図４参照）。
図５のステップＳ１〜Ｓ７の処理は、図３の各ステップと同様のため、説明を省略する。

音響モデル生成装置１Ｂは、音声言語コーパス生成手段７０によって、ステップＳ３でアライメントした音声認識テキストと字幕テキストとが一致するか否かを発話区間毎に判定する。そして、音声言語コーパス生成手段７０は、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、音声言語コーパスを生成する（ステップＳ８）。
なお、ステップＳ８の処理は、ステップＳ５の後に制限されず、ステップＳ３の後からステップＳ７の前までに実行すればよい。

以上のように、本願発明の第２実施形態に係る音響モデル生成装置１Ｂは、第１実施形態と同様、音声認識テキストと字幕テキストとの単語一致区間が増加するため、高精度な学習データをより多く生成することができる。

（実施例１）
以下、実施例１として、単語数Ｎの設定について説明する。
なお、字幕テキストは、十分な精度があり、誤っている可能性が低いこととする。

字幕テキスト内に類似した単語連鎖が複数存在する場合、アライメントで対応付けた単語のずれが発生することがある。単語数Ｎを１，２といった小さな値で設定すると、アライメントのずれが解消されず、字幕テキストの誤った単語で音声認識テキストの単語を置換する可能性がある。これに対し、単語数Ｎを大きな値で設定すると、アライメントのずれが解消されるものの、置換対象と判定される単語数が減少し、発話ラベルとして利用可能な発話区間を検出できないことがある。

以上のように、音声認識テキストと、字幕テキストとの不一致区間のうち、音声認識テキストから字幕テキストに置換すべき区間（単語）を精度よく検出するためには、適切な単語数Ｎを設定しなければならない。そこで、ある単語の前後Ｎ個の単語連鎖が一致し、かつ、その単語が異なるパターン数を放送番組から調査した。異なるパターンが１回の放送で多く発生する場合、アライメントのずれが発生する可能性が残るため、高精度な学習データの生成が見込めない。
なお、「ある単語の前後Ｎ個の単語連鎖が一致し、かつ、その単語が異なるパターン」を「異なるパターン」と略記する。

調査対象とした放送番組は、『クローズアップ現代（放送時間２６分）』、『まる得マガジン（放送時間５分）』、『サイエンスＺＥＲＯ（放送時間３０分）』の１００回放送分である。そして、単語数Ｎの値を変えながら、各調査対象の放送番組に含まれる異なるパターン数を調査した。

調査結果を図６に示す。図６の横軸が単語数Ｎを表し、横軸が１放送回あたりの異なるパターン数の平均値を表す。また、図６では、‘■’が『クローズアップ現代』の結果を表し、‘◆’が『まる得マガジン』の結果を表し、‘▲’が『サイエンスＺＥＲＯ』の結果を表す。

この図６において、単語数Ｎは、異なるパターン数が‘０’となり、かつ、その中で最小値を設定すればよい。３種類の調査対象の放送番組について、単語数Ｎ＝５とすれば、異なるパターン数が‘０’となった。このことから、単語数Ｎ＝５に設定すれば、アライメントのずれが発生しなくなると考えられる。

（実施例２，３）
以下、音声言語コーパスの生成実験について説明する。
ここで、図１の音響モデル生成装置１と、図４の音響モデル生成装置１Ｂと、参考文献１に記載の手法とを用いて、音声言語コーパスを生成し、生成した音声言語コーパスを検証した。以下、図１の音響モデル生成装置１を実施例２とし、図４の音響モデル生成装置１Ｂを実施例３とし、参考文献１に記載の手法を比較例とする。

実施例２，３及び比較例では、『クローズアップ現代』、『まる得マガジン』、『サイエンスＺＥＲＯ』それぞれ２時間分の音声認識テキストと字幕テキストとから、学習データを生成した。これら３種類の放送番組は、実施例１のときと放送時間が異なり、２０１４年２月から６月に放送されている。

『クローズアップ現代』は、生放送の報道番組である。『クローズアップ現代』の字幕は、スピードワープロ方式で制作され、番組キャスタの発話内容をそのまま字幕化していることが多く、わずかな誤りが含まれる。
『まる得マガジン』は、オフラインの情報番組である。また、『サイエンスＺＥＲＯ』は、教養番組である。これら『まる得マガジン』及び『サイエンスＺＥＲＯ』の字幕は、予め制作されたものである。

適応化言語モデルは、放送番組の書き起こしから学習した語彙サイズ１００キロバイトのベースライン言語モデルと、字幕テキストから学習したドメイン言語モデルとを用いて、放送回毎に生成した。このとき、ベースライン言語モデル及びドメイン言語モデルの補間係数は、それぞれ、‘０．１’及び‘０．９’である。

音声認識デコーダは、下記参考文献２に記載の２パスデコーダを利用した。この２パスデコーダは、男女の判定を行いながら、性別依存のＨＭＭを用いて音声認識するものである。
参考文献２：今井他、放送用リアルタイム字幕制作のための音声認識技術の改善、第２回ドキュメント処理ワークショップ、pp.113-120、2008

ベースライン音響モデルは、日本放送協会が放送したニュース番組から学習した。このニュース番組では、男性が３４０時間発話し、女性が２４０時間発話している。男女別の音響モデルは、５状態３自己ループのトライフォンＨＭＭであり、状態共有により１６混合分布の約４０００状態を有している。これら男女別の音響モデルは、音声認識テキストと字幕テキストとのアライメント結果から抽出した学習データにより適応化した。

発話区間の検出には、下記参考文献３に記載の手法を用いた。参考文献３に記載の手法は、男女並列の性別依存音響モデルによるエンドレスな音素認識を行い、音声／非音声の累積音素尤度比から発話区間を検出するものである。
参考文献３：T.Imai et.al,Online speech detection and dual-gender speech recognition for captioning broadcast news,IEICE Trans.Inf&Syst,Vol E90-D,no.8,pp.1286-1291,2007

図７〜図９には、音響モデルの適応化回数（横軸）と音声言語コーパスの抽出率（縦軸）との関係を図示した。図７が『クローズアップ現代』の実験結果を表し、図８が『まる得マガジン』の実験結果を表し、図９が『サイエンスＺＥＲＯ』の実験結果を表す。また、図７〜図９では、‘▲’が実施例１を表し、‘■’が実施例２を表し、‘◆’が比較例を表す。

適応化回数が５回のとき、実施例１は、比較例と比べて、全ての放送番組で抽出率が１．３倍以上となった。また、実施例２は、比較例と比べて、全ての放送番組で抽出率が１．２倍以上となった。

適応化回数が５回のとき、音声言語コーパスの発話ラベルの精度を検証した。実施例１では、誤った字幕テキストへの置換が行われ、実施例２よりも誤りが増加した。ここで、実施例１における発話ラベルの誤りは、「あの」、「えー」といった不用語に起因することがわかった。さらに、実施例１，２ともに、音声言語コーパスの精度が９９％を超えるので、音響モデルの構築に十分な精度を有する。

また、適応化回数が５回のとき、３種類の放送番組で音声言語コーパスの抽出率を比較した。その結果、『サイエンスＺＥＲＯ』、『まる得マガジン』、『クローズアップ現代』の順に抽出率が高くなった。

ここで、『クローズアップ現代』は、その放送番組の終了直前に字幕が付与されていなかったため、抽出率が最も低くなったと考えられる。同放送番組では、いくつかの放送回で終了直前まで番組キャスタが発話していたため、スピードワープロ方式で番組音声を全て字幕化できていなかった。
なお、スピードワープロ方式とは、複数のキーを同時に押下して入力する特殊な高速入力用キーボードを用いる字幕制作方式である。

また、『まる得マガジン』の方が『サイエンスＺＥＲＯ』よりも、放送時間内での背景音楽の時間割合が高かった。このため、『サイエンスＺＥＲＯ』が『まる得マガジン』よりも抽出率が高くなったと考えられる。

このことから、音声言語コーパスの抽出率を高くするためには、（１）放送番組の終了まで番組音声が字幕化されているオフライン字幕番組であること、（２)背景音楽が少ない放送番組であることが好ましい。

以上、本願発明の各実施形態及び各実施例を詳述してきたが、本願発明は前記した各実施形態及び各実施例に限られるものではなく、本願発明の要旨を逸脱しない範囲の設計変更等も含まれる。

前記した実施形態では、ベースライン言語モデル、ドメイン言語モデル及びベースライン音響モデルが外部から入力されることとして説明したが、本願発明は、これに限定されない。例えば、音響モデル生成装置は、各言語モデル及び各音響モデルを記憶、管理するデータベースを備え、このデータベースを参照して音響モデルを適応化してもよい。

前記した実施形態では、音響モデル生成装置（学習データ生成装置）を独立したハードウェアとして説明したが、本願発明は、これに限定されない。例えば、本願発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を学習データ生成装置として協調動作させる学習データ生成プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、ＣＤ−ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

１，１Ｂ音響モデル生成装置（学習データ生成装置）
１０適応化言語モデル生成手段（第３言語モデル生成手段）
２０音声認識手段
３０，３０Ｂアライメント手段
４０置換手段
５０，５０Ｂ学習データ生成手段
６０音響モデル適応化手段
７０音声言語コーパス生成手段

Claims

放送番組の音声認識に用いる音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置であって、
テキストコーパスから予め生成した第１言語モデルと、前記放送番組の字幕テキストから予め生成した第２言語モデルとを線形補間することで、第３言語モデルを生成する第３言語モデル生成手段と、
前記第３言語モデル及び予め生成した音響モデルを用いて、前記放送番組を音声認識する音声認識手段と、
前記放送番組の音声認識結果を表す音声認識テキストと前記字幕テキストとの単語を、時刻順で対応付けるアライメントを行うアライメント手段と、
前記音声認識テキストと前記字幕テキストとの間で対応付けられた単語毎に、当該単語が異なり、かつ、当該単語の前後で予め設定された単語数の単語連鎖が一致するか否かにより当該単語が置換対象であるか否かを判定し、当該単語が置換対象の場合、前記音声認識テキストの単語を前記字幕テキストの単語に置換する置換手段と、
前記放送番組の発話区間毎に、前記置換手段で置換された音声認識テキストと前記字幕テキストとが一致するか否かを判定し、一致すると判定された前記発話区間の音声データに、当該発話区間に対応した字幕テキストの単語をラベルとして付与することで、前記学習データを生成する学習データ生成手段と、
を備えることを特徴とする学習データ生成装置。
前記置換手段は、前記予め設定された単語数が５であることを特徴とする請求項１に記載の学習データ生成装置。
前記学習データを用いて、前記音響モデルを適応化する音響モデル適応化手段、をさらに備えることを特徴とする請求項１又は請求項２に記載の学習データ生成装置。
前記音響モデル適応化手段は、前記音響モデルを適応化した回数が予め設定された閾値以下であるか否かを判定し、前記回数が前記閾値以下の場合、適応化した前記音響モデルを前記音声認識手段に出力し、
前記音声認識手段は、前記第３言語モデル及び前記適応化した音響モデルを用いて、前記放送番組を音声認識することを特徴とする請求項１から請求項３の何れか一項に記載の学習データ生成装置。
コンピュータを、請求項１から請求項４の何れか一項に記載の学習データ生成装置として機能させるための学習データ生成プログラム。