JP2017045027A

JP2017045027A - 音声言語コーパス生成装置およびそのプログラム

Info

Publication number: JP2017045027A
Application number: JP2016031925A
Authority: JP
Inventors: 貴裕奥; Takahiro Oku; 愛子萩原; Aiko Hagiwara; 庄衛佐藤; Shoe Sato
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 2015-08-24
Filing date: 2016-02-23
Publication date: 2017-03-02
Anticipated expiration: 2036-02-23
Also published as: JP6637332B2

Abstract

【課題】特定の番組の音声認識に使用する音響モデルを学習するための音声言語コーパスを生成する音声言語コーパス生成装置を提供する。【解決手段】音声言語コーパス生成装置１は、特定の番組を音声認識した認識仮説と字幕テキストと書き起こしとから、字幕テキストと認識仮説との対応パターンに対応付けて字幕テキストと書き起こしとのミスマッチ確率を算出するミスマッチ確率算出手段１２と、音声言語コーパスの候補となるコーパス候補番組音声を音声認識したコーパス候補認識仮説とコーパス候補字幕テキストとの対応パターンに対応したミスマッチ確率により、コーパス候補字幕テキストの誤り率を算出し、誤り率が閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを、音声言語コーパスとして選択するコーパス選択手段４２と、を備える。【選択図】図１

Description

本発明は、音響モデルを学習するためのコーパスを生成する音声言語コーパス生成装置およびそのプログラムに関する。

近年、テレビ番組の映像に字幕を重ねて表示する字幕放送が実現されている。この字幕放送は、テレビの音が聞き取りにくい高齢者や聴覚障害者のための重要な情報保障手段となっている。
この字幕放送では、さらに、生放送の番組にリアルタイムで字幕を付与する研究開発が進められている。例えば、特許文献１には、番組の音声を音声認識し、字幕を生成する手法が開示されている。
このように、音声認識によって番組の字幕を生成する場合、さまざまなジャンルの番組を音声認識可能な高精度な音響モデルが必要となる。さらに、このような高精度な音響モデルを学習するためには、さまざまなジャンルをカバーした大規模な音声言語コーパスの構築が必要となる。

そこで、音響モデルを学習するための大規模な音声言語コーパスを構築する手法として、番組音声とその番組に予め付与された字幕を利用する準教師あり学習（Lightly supervised training）が提案されている（非特許文献１参照）。
この非特許文献１に記載の準教師あり学習の手法では、欠損や要約があるなど、書き起こしとしては精度が低いテキスト（予め付与された字幕）から学習した制約の強い言語モデルを生成する。そして、この手法は、生成した言語モデルを用いて番組音声を認識し、その認識結果である認識仮説と字幕とを照合し、その一部を、音響モデルを学習するための音声言語コーパスとして用いることを特徴としている。
具体的には、非特許文献１に記載の手法では、ニュース番組を対象として、番組の認識仮説と字幕とのアライメント結果から、認識仮説と字幕とがすべて一致する発話区間の音声データのみを、音声言語コーパスとして用いている。

特開２０１０−１７５７６５号公報

L.Lamel, J.Gauvainand G.Adda: Lightly supervised and unsupervised acoustic model training, Computer Speech and Language,Vol.16, pp.115-129, 2002.

しかし、非特許文献１に記載の手法を、ニュース番組以外の番組に適用した場合、字幕の精度が不十分であったり、不明瞭音声や背景雑音のためニュース番組と同等の認識精度が得られなかったり等、認識仮説と字幕とがすべて一致する発話区間は、ニュース番組の場合ほど多くは得られない。
そのため、従来の手法では、ニュース以外のさまざまなジャンルをカバーした大規模な音声言語コーパスを構築することができないという問題がある。

本発明は、このような問題に鑑みてなされたものであり、特定の番組において、発話区間中に認識仮説と字幕（字幕テキスト）とに不一致があっても、ある条件下で、字幕を書き起こしとみなすことで、高精度な音響モデルを学習するために必要な音声言語コーパスを構築する音声言語コーパス生成装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る音声言語コーパス生成装置は、特定の番組の音声認識に使用する音響モデルを学習するための音声言語コーパスを生成する音声言語コーパス生成装置であって、ミスマッチ確率算出手段と、コーパス選択手段と、を備える構成とした。

かかる構成において、音声言語コーパス生成装置は、ミスマッチ確率算出手段によって、特定の番組の番組音声を音声認識した認識仮説と、番組に予め付された字幕テキストと、番組音声の書き起こしとから、字幕テキストと認識仮説との対応パターンに対応付けて、字幕テキストと書き起こしとが一致しないミスマッチ確率を算出する。

この書き起こしは、音声認識結果である認識仮説に対して、正解となるものである。すなわち、字幕テキストと認識仮説に対する正解の書き起こしとの関係は、字幕テキストと特定の番組に特有の音声認識誤りを含んだ認識仮説との関係でパターン化することができる。
そこで、音声言語コーパス生成装置は、字幕テキストと書き起こしとがミスマッチする確率を予めパターン化しておく。

そして、音声言語コーパス生成装置は、コーパス選択手段によって、特定の番組と同じ分類に属する番組の音声言語コーパスの候補となるコーパス候補番組音声を音声認識したコーパス候補認識仮説と、予め付されたコーパス候補字幕テキストとの対応パターンに対応したミスマッチ確率により、コーパス候補字幕テキストの発話区間ごとの誤り率を算出する。
さらに、音声言語コーパス生成装置は、コーパス選択手段によって、誤り率が閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを音声言語コーパスとして選択することで、コーパス候補認識仮説とコーパス候補字幕テキストとがすべて一致していなくても、コーパス候補番組音声およびコーパス候補字幕テキストを音声言語コーパスとして選択することができる。

なお、音声言語コーパス生成装置は、コンピュータを、前記した各手段として機能させるための音声言語コーパス生成プログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、特定の番組単位で、字幕テキストを、音響モデルを学習するためのコーパスとして適用可能な否かを、予め特定の番組において学習したミスマッチ確率により判定することができる。
これによって、本発明は、既存の字幕テキストから大規模な音声言語コーパスを構築することができ、さらに、認識精度を高めた音響モデル生成することが可能になる。

本発明の第１実施形態に係る音声言語コーパス生成装置の構成を示すブロック構成図である。字幕テキストと認識仮説との対応関係を示す図である。字幕テキストと認識仮説との対応関係の例を説明するための図である。字幕テキストと書き起こしとの対応関係を示す図である。字幕テキストと書き起こしとの対応関係の例を説明するための図である。ミスマッチ確率テーブルのデータ構造を示す構造図である。本発明の第１実施形態に係る音声言語コーパス生成装置の動作（ミスマッチ確率学習動作）を示すフローチャートである。本発明の第１実施形態に係る音声言語コーパス生成装置の動作（コーパス選択動作）を示すフローチャートである。本発明の第２実施形態に係る音声言語コーパス生成装置の構成を示すブロック構成図である。本発明の第２実施形態に係る音声言語コーパス生成装置の動作（閾値決定動作）を示すフローチャートである。放送番組ごとの対応パターンの例を示す図である。図１１の放送番組ごとのミスマッチ確率の例を示す図である。本発明の第３実施形態に係る音声言語コーパス生成装置の構成を示すブロック構成図である。属性を考慮したミスマッチ確率テーブルのデータ構造を示す構造図である。属性（品詞）ごとの対応パターンの例を示す図である。図１５の属性（品詞）ごとのミスマッチ確率の例を示す図である。本発明の第４実施形態に係る音声言語コーパス生成装置の構成を示すブロック構成図である。

以下、本発明の実施形態について図面を参照して説明する。
≪第１実施形態≫
〔音声言語コーパス生成装置の概要〕
まず、図１を参照して、本発明の第１実施形態に係る音声言語コーパス生成装置１の概要について説明する。

音声言語コーパス生成装置１は、音声認識に用いる音響モデルを学習するための音声言語コーパスを生成するものである。具体的には、音声言語コーパス生成装置１は、特定の番組の字幕を音声認識により生成する際に適した音響モデルを予め学習するための音声言語コーパスを生成する。
ここで、特定の番組とは、予め定めた基準で分類された番組であって、例えば、特定の番組タイトル（番組名）や、ニュース番組、スポーツ番組、情報番組等のジャンル別の番組等である。あるいは、生放送番組、事前収録番組等の字幕を生成する方法（音声認識による生成、手入力による手法等）で区分された番組であっても構わない。

この音声言語コーパス生成装置１は、特定の番組の番組音声（音声データ）ＳＳ_１と、当該番組に予め付されている字幕テキストＳＴ_１と、番組音声ＳＳ_１の書き起こしＴＣ_１とから、発話区間ごとに、書き起こしＴＣ_１と字幕テキストＳＴ_１とがマッチしない確率（ミスマッチ確率）を予め学習しておく。

そして、音声言語コーパス生成装置１は、学習した番組と同じ分類に属する特定の番組の番組音声（音声データ）ＳＳ_２と、当該番組に予め付されている字幕テキストＳＴ_２と、学習したミスマッチ確率とから、発話区間ごとに、字幕テキストＳＴ_２の誤り率を計算し、閾値判定により、誤り率の小さい字幕テキストＳＴ_２と、それに対応する番組音声ＳＳ_２とを、音声言語コーパスとする。
このように、音声言語コーパス生成装置１は、番組音声に対応する誤り率の小さい字幕テキストをコーパスとして抽出することで、特定の番組の番組音声を高精度に音声認識することが可能な音響モデルを学習するための音声言語コーパスを生成することができる。

〔音声言語コーパス生成装置の構成〕
以下、図１を参照して、音声言語コーパス生成装置１の構成について説明する。
図１に示すように、音声言語コーパス生成装置１は、ミスマッチ確率学習手段１０と、音響モデル記憶手段２０と、ミスマッチ確率記憶手段３０と、音声言語コーパス選択手段４０と、音声言語コーパス記憶手段５０と、を備える。

ミスマッチ確率学習手段１０は、書き起こしＴＣ_１に対して字幕テキストＳＴ_１の単語が一致（マッチ）しない確率（ミスマッチ確率）をミスマッチのパターンごとに学習するものである。
ここでは、ミスマッチ確率学習手段１０は、音声認識手段１１と、ミスマッチ確率算出手段１２と、を備える。

音声認識手段１１は、番組音声を音声認識するものである。ここでは、音声認識手段１１は、音響モデル記憶手段２０に記憶されている音響モデル、言語モデル記憶手段（不図示）に記憶されている言語モデルおよび発音辞書記憶手段（不図示）に記憶されている発音辞書を用いて、入力された番組音声ＳＳ_１を、人が発話した音声区間（発話区間）ごとに音声認識する。
この音声認識手段１１は、認識結果である認識仮説ＳＲ_１を、ミスマッチ確率算出手段１２に出力する。

ミスマッチ確率算出手段１２は、字幕テキストＳＴ_１と認識仮説ＳＲ_１との単語の対応パターンごとに、字幕テキストＳＴ_１と書き起こしＴＣ_１とがミスマッチする確率（ミスマッチ確率）を対応付けたミスマッチ確率テーブルを生成するものである。
ここでは、ミスマッチ確率算出手段１２は、アライメント手段１２ａと、確率算出手段１２ｂと、を備える。

アライメント手段１２ａは、音声認識手段１１で音声認識された発話区間の単語列ごとに、認識仮説ＳＲ_１、字幕テキストＳＴ_１および書き起こしＴＣ_１を単語単位でアライメントするものである。なお、単語単位のアライメントは、一般的な手法を用いればよく、ＤＰマッチング（動的計画法）等を用いることができる。
このアライメント手段１２ａは、発話区間ごとに、アライメント結果を確率算出手段１２ｂに出力する。

確率算出手段１２ｂは、字幕テキストＳＴ_１と認識仮説ＳＲ_１との単語の対応パターンごとに、字幕テキストＳＴ_１と書き起こしＴＣ_１とのミスマッチ確率を算出するものである。
すなわち、確率算出手段１２ｂは、字幕テキストＳＴ_１と認識仮説ＳＲ_１とがどのような対応パターンであるときに、字幕テキストＳＴ_１が、書き起こしＴＣ_１に対してどのようなパターン（ミスマッチパターン）で、また、どれだけの確率でミスマッチが発生するのかを算出する。この書き起こしＴＣ_１は、音声認識に誤りがなければ認識仮説ＳＲ_１と一致し、認識仮説ＳＲ_１に対する正しい単語列を示すことになる。そこで、ここでは、確率算出手段１２ｂは、書き起こしＴＣ_１を基準（正解）としてミスマッチ確率を算出する。

ここで、図２，図３を参照して、字幕テキストＳＴと認識仮説ＳＲとの対応パターンについて説明する。
図２に示すように、字幕テキストＳＴと認識仮説ＳＲとの対応パターンは、４つ（対応パターンI〜IV）ある。

対応パターンIは、認識仮説ＳＲの単語（単語ａ）に対応する字幕テキストＳＴの単語が存在しないパターンである。例えば、図３（ａ）の字幕テキストＳＴの「（＊＊）四十年間元気に …」という発話区間の単語列（ただし、＊＊は単語なしを示す）に対して、認識仮説ＳＲの「もう四十年か元気に …」が発話区間として対応している例において、認識仮説ＳＲの単語「もう」が、字幕テキストＳＴには存在せず、認識仮説ＳＲだけに挿入された場合である。

対応パターンIIは、対応する字幕テキストＳＴの単語（単語ｂ）と認識仮説ＳＲの単語（単語ｃ）とが異なるパターンである。例えば、図３（ａ）の例において、字幕テキストＳＴの単語「間」に対して、認識仮説ＳＲの単語「か」という異なる単語が対応している場合である。

対応パターンIIIは、字幕テキストＳＴの単語（単語ｄ）に対応する認識仮説ＳＲの単語が存在しないパターンである。例えば、図３（ｂ）の字幕テキストＳＴの「（＊＊）長さが四ｃｍぐらいに …」という発話区間の単語列（ただし、＊＊は単語なしを示す）に対して、認識仮説ＳＲの「うん長さ（＊＊）四ｃｍぐらいに …」が発話区間として対応している例において、字幕テキストＳＴの単語「が」が、認識仮説ＳＲには存在せず、認識仮説ＳＲで削除された場合である。

対応パターンIVは、対応する字幕テキストＳＴの単語（単語ｅ）と認識仮説ＳＲの単語（単語ｅ）とが同一のパターンである。例えば、図３（ｂ）の例において、字幕テキストＳＴの単語「長さ」に対して、認識仮説ＳＲの単語「長さ」という同じ単語が対応している場合である。

次に、図４，図５を参照して、単語のアライメント後における字幕テキストＳＴと書き起こしＴＣとのミスマッチパターンについて説明する。
図４に示すように、字幕テキストＳＴと書き起こしＴＣとの間には、基本的に、図２で説明した字幕テキストＳＴと認識仮説ＳＲとの間の対応パターンと同様のパターンが存在する。

ここでは、パターンを区別するため、字幕テキストＳＴと認識仮説ＳＲとの間の対応パターンIに相当する字幕テキストＳＴと書き起こしＴＣとの間のパターンを削除ミスマッチＤと呼ぶ。同様に、対応パターンIIに相当するパターンを置換ミスマッチＳ、対応パターンIIIに相当するパターンを挿入ミスマッチＩと呼ぶ。なお、対応パターンIVに相当するパターンは、ミスマッチではないが、図４では、図２との対応関係を明確にするため、便宜上、正解Ｃとして図示しておく。

削除ミスマッチＤは、書き起こしＴＣの単語（単語ａ）が字幕テキストＳＴの単語に対応しないパターンである。例えば、図５の例において、字幕テキストＳＴには対応しない書き起こしＴＣの単語「もう」または他の単語が存在するパターンである。すなわち、字幕テキストＳＴにおいて、書き起こしＴＣの単語が削除されているパターンである。
なお、この削除ミスマッチＤは、字幕テキストＳＴには対応する単語が存在しないため、図５に示すように、対応パターンIにおいてのみ発生するパターンである。

置換ミスマッチＳは、対応する字幕テキストＳＴの単語（単語ｂ）と書き起こしＴＣの単語（単語ｃ）とが異なるパターンである。例えば、図５の例において、字幕テキストＳＴの単語「間」が、書き起こしＴＣにおいて、「間」以外の異なる単語に対応するパターンである。

挿入ミスマッチＩは、字幕テキストＳＴの単語（単語ｄ）が書き起こしＴＣの単語に対応しないパターンである。例えば、図５の例において、字幕テキストＳＴの単語「間」が、書き起こしＴＣにおいて、「＊＊（単語なし）」に対応するパターンである。すなわち、字幕テキストＳＴにおいて、書き起こしＴＣにはない単語が挿入されているパターンである。
なお、置換ミスマッチＳおよび挿入ミスマッチＩは、字幕テキストＳＴの対応する単語が存在する対応パターンII〜IVにおいて発生するパターンであり、対応パターンIでは発生しない。
図１に戻って、音声言語コーパス生成装置１の構成について説明を続ける。

確率算出手段１２ｂは、まず、図２で説明した対応パターンごとに、字幕テキストＳＴと認識仮説ＳＲとの間の対応する対の数を累計することで、対応パターン数を算出する。また、確率算出手段１２ｂは、図２で説明した対応パターンごとに、図４で説明したミスマッチパターンである字幕テキストＳＴと書き起こしＴＣとの間の対応する対の数を累計することで、それぞれの対応パターンにおけるミスマッチ数を算出する。
そして、確率算出手段１２ｂは、対応パターン数とそれぞれの対応パターンにおけるミスマッチ数とから、ミスマッチ確率を算出する。

具体的には、確率算出手段１２ｂは、対応パターンIの対応パターン数をＮ_Ｉ、対応パターンIにおける削除ミスマッチＤのミスマッチ数をＮ_Ｉ，Ｄとしたとき、以下の式（１）により、対応パターンIにおける削除ミスマッチＤのミスマッチ確率Ｐ_Ｉ，Ｄを算出する。

同様に、確率算出手段１２ｂは、対応パターンIIの対応パターン数をＮ_II、対応パターンIIにおける置換ミスマッチＳのミスマッチ数をＮ_ＩI，Ｓとしたとき、また、対応パターンIIにおける挿入ミスマッチＩのミスマッチ数をＮ_ＩI，Iとしたとき、以下の式（２）により、対応パターンIIにおける置換ミスマッチＳのミスマッチ確率Ｐ_ＩI，Ｓおよび挿入ミスマッチＩのミスマッチ確率Ｐ_ＩI，Ｉを算出する。

なお、確率算出手段１２ｂは、対応パターンIII，IVにおけるミスマッチ確率についても、対象とする対応パターンが異なるだけで、対応パターンIIと同様に算出する。
この確率算出手段１２ｂは、図６に例示したように、対応パターンとミスマッチパターンとにミスマッチ確率を対応付けたミスマッチ確率テーブルを生成し、ミスマッチ確率記憶手段３０に記憶する。

音響モデル記憶手段２０は、音声認識に用いる音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。この音響モデル記憶手段２０に記憶される音響モデルは、大量の音声データから予め学習した音素ごとの音響特徴量（メル周波数ケプストラム係数等）を隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）によってモデル化したものである。この音響モデルは、例えば、従来の音声認識において用いられるトライフォンＨＭＭである。
この音響モデル記憶手段２０は、番組音声を音声認識する際に、音声認識手段１１，４１によって参照される。

ミスマッチ確率記憶手段３０は、ミスマッチ確率学習手段１０（ミスマッチ確率算出手段１２）で生成されたミスマッチ確率テーブルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
このミスマッチ確率記憶手段３０は、音声言語コーパス選択手段４０によって参照される。

音声言語コーパス選択手段４０は、入力される番組音声ＳＳ_２およびそれに対応する字幕テキストＳＴ_２から、特定の番組の音声認識用の音響モデルを学習するために適した音声言語コーパスを選択するものである。
ここで、番組音声ＳＳ_２および字幕テキストＳＴ_２は、音声言語コーパスの候補となるもの（コーパス候補番組音声およびコーパス候補字幕テキスト）で、ミスマッチ確率学習手段１０で学習された特定の番組と同じ分類に属する番組の番組音声および字幕テキストである。
ここでは、音声言語コーパス選択手段４０は、音声認識手段４１と、コーパス選択手段４２と、を備える。

音声認識手段４１は、番組音声を音声認識するものである。ここでは、音声認識手段４１は、音響モデル記憶手段２０に記憶されている音響モデル、言語モデル記憶手段（不図示）に記憶されている言語モデルおよび発音辞書記憶手段（不図示）に記憶されている発音辞書を用いて、入力された番組音声（コーパス候補番組音声）ＳＳ_２を、人が発話した音声区間（発話区間）ごとに音声認識する。
この音声認識手段４１は、認識結果である認識仮説（コーパス候補認識仮説）ＳＲ_２を、コーパス選択手段４２に出力する。
なお、音声認識手段４１の代わりに、音声認識手段１１の入力と出力とを切り替えることで、音声認識手段１１を用いることとしてもよい。

コーパス選択手段４２は、音声認識手段４１で認識された認識仮説（コーパス候補認識仮説）ＳＲ_２、および、対応する字幕テキスト（コーパス候補字幕テキスト）ＳＴ_２に基づいて、特定の番組の音声認識用の音響モデルを学習するための音声言語コーパスを選択するものである。
ここでは、コーパス選択手段４２は、アライメント手段４２ａと、誤り率推定手段４２ｂと、適否判定手段４２ｃと、を備える。

アライメント手段４２ａは、音声認識手段４１で音声認識された発話区間の単語列ごとに、認識仮説ＳＲ_２および字幕テキストＳＴ_２を単語単位でアライメントするものである。
このアライメント手段４２ａは、発話区間ごとに、アライメント結果を誤り率推定手段４２ｂに出力する。

誤り率推定手段（誤り率算出手段）４２ｂは、認識仮説ＳＲ_２に対する字幕テキストＳＴ_２の誤り率を推定（算出）するものである。
この誤り率推定手段４２ｂは、事前に学習してあるミスマッチ確率記憶手段３０に記憶されているミスマッチ確率テーブルを参照し、発話区間ごとに、字幕テキストＳＴ_２の誤り率を推定する。
なお、字幕テキストと書き起こしとのアライメント結果において、正解となる書き起こしの単語を基準として、図４で説明した正解Ｃの単語数をＣ_Ｃ、削除ミスマッチＤの単語数をＤ_Ｃ、置換ミスマッチＳの単語数をＳ_Ｃ、挿入ミスマッチＩの単語数をＩ_Ｃとしたとき、字幕テキストの誤り率Ｒ_Ｃは、以下の式（３）で表すことができる。ただし、挿入ミスマッチＩの単語数Ｉ_Ｃは、挿入ミスマッチＩが発生した字幕テキストの単語数である。

ここで、発話区間ｊにおいて対応パターンｋに対応する対の数をＮ_ｋ ^ｊとしたとき、発話区間ｊの単語数Ｃ_Ｃ，Ｄ_Ｃ，Ｓ_Ｃ，Ｉ_Ｃは、図６で説明したミスマッチ確率を用いると以下の式（４）〜式（７）で表すことができる。

前記式（３）に、前記式（４）〜式（７）を代入してまとめることで、発話区間ｊにおける字幕テキストの誤り率の期待値Ｅ［Ｒ_Ｃ ^ｊ］は、以下の式（８）で表すことができる。

誤り率推定手段４２ｂは、この式（８）で計算した字幕テキストの誤り率の期待値を、発話区間ごとの字幕テキストの誤り率として推定する。
この誤り率推定手段４２ｂは、推定した発話区間ごとの字幕テキストの誤り率を適否判定手段４２ｃに出力する。

適否判定手段（コーパス適否判定手段）４２ｃは、発話区間ごとの字幕テキストＳＴ_２の誤り率と、予め定めた閾値とを比較し、字幕テキストＳＴ_２とそれに対応する番組音声ＳＳ_２とが、音声言語コーパスとして適しているか否かを判定するものである。
この適否判定手段４２ｃは、誤り率推定手段４２ｂで推定された発話区間の字幕テキストの誤り率が、閾値（例えば、１５％）以下であれば、音声言語コーパスとして適していると判定し、当該発話区間の字幕テキストＳＴ_２と、対応する番組音声ＳＳ_２とを、音声言語コーパスとして選択する。ここでは、適否判定手段４２ｃは、選択した音声言語コーパスを音声言語コーパス記憶手段５０に記憶する。

音声言語コーパス記憶手段５０は、音声言語コーパス選択手段４０（コーパス選択手段４２）で選択された音声言語コーパスを記憶するもので、ハードディスク等の一般的な記憶媒体である。

以上説明したように音声言語コーパス生成装置１を構成することで、音声言語コーパス生成装置１は、特定の番組（例えば、過去に放送した放送番組）で学習した番組音声に対する字幕テキストのミスマッチ確率から、高精度な音響モデルを学習するため必要となる音声言語コーパスを生成することができる。
なお、音声言語コーパス生成装置１は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム（音声言語コーパス生成プログラム）で動作させることができる。

〔音声言語コーパス生成装置の動作〕
次に、音声言語コーパス生成装置１の動作について説明する。ここでは、事前準備段階としてミスマッチ確率を学習する動作（ミスマッチ確率学習動作）と、ミスマッチ確率に基づいて音声言語コーパスを選択する動作（コーパス選択動作）とに分けて説明する。

（ミスマッチ確率学習動作）
最初に、図７を参照（構成については適宜図１参照）して、ミスマッチ確率学習動作について説明する。

まず、音声言語コーパス生成装置１は、音声認識手段１１によって、番組音声ＳＳ_１を発話区間ごとに音声認識して、認識仮説ＳＲ_１を生成する（ステップＳ１）。
そして、音声言語コーパス生成装置１は、ミスマッチ確率算出手段１２のアライメント手段１２ａによって、ステップＳ１で生成された認識仮説ＳＲ_１と、字幕テキストＳＴ_１と書き起こしＴＣ_１とを単語単位でアライメントする（ステップＳ２）。

そして、音声言語コーパス生成装置１は、確率算出手段１２ｂによって、字幕テキストおよび認識仮説の対応パターン（図２参照）ごとに、字幕テキストおよび書き起こしに発生するミスマッチパターン（図４参照）の確率（ミスマッチ確率）を算出する（ステップＳ３）。

さらに、音声言語コーパス生成装置１は、確率算出手段１２ｂによって、ステップＳ３で算出されたミスマッチ確率を、対応パターンおよびミスマッチパターンに対応付けたミスマッチ確率テーブルとして、ミスマッチ確率記憶手段３０に記憶する（ステップＳ４）。

以上の動作によって、音声言語コーパス生成装置１は、特定の番組において、字幕テキストと、番組音声の認識結果である認識仮説とが、どのような対応パターンであるときに、字幕テキストが、正解の基準となる書き起こしに対して、どのようなミスマッチパターンをどれだけの確率で発生させるのかを学習することができる。

（コーパス選択動作）
次に、図８を参照（構成については適宜図１参照）して、コーパス選択動作について説明する。

まず、音声言語コーパス生成装置１は、音声認識手段４１によって、番組音声ＳＳ_２を発話区間ごとに音声認識して、認識仮説ＳＲ_２を生成する（ステップＳ１０）。
そして、音声言語コーパス生成装置１は、コーパス選択手段４２のアライメント手段４２ａによって、ステップＳ１０で生成された認識仮説ＳＲ_２と、字幕テキストＳＴ_２とを単語単位でアライメントする（ステップＳ１１）。

そして、音声言語コーパス生成装置１は、コーパス選択手段４２によって、最初の発話区間を設定（ここでは、内部変数として、ｊに“１”を設定）する（ステップＳ１２）。
そして、音声言語コーパス生成装置１は、コーパス選択手段４２の誤り率推定手段４２ｂによって、前記式（８）により、字幕テキストの誤り率を算出する（ステップＳ１３）。

そして、音声言語コーパス生成装置１は、コーパス選択手段４２の適否判定手段４２ｃによって、ステップＳ１３で算出された誤り率が、閾値以下であるか否かを判定する（ステップＳ１４）。
ここで、誤り率が閾値以下であれば（ステップＳ１４でＹｅｓ）、適否判定手段４２ｃは、この発話区間ｊの番組音声と字幕テキストとを、コーパス（音声言語コーパス）として選択し、音声言語コーパス記憶手段５０に記憶する（ステップＳ１５）。そして、音声言語コーパス生成装置１は、ステップＳ１６に動作を進める。
一方、誤り率が閾値よりも大きければ（ステップＳ１４でＮｏ）、音声言語コーパス生成装置１は、当該発話区間ｊをコーパスとすることなく、ステップＳ１６に動作を進める。

そして、音声言語コーパス生成装置１は、コーパス選択手段４２によって、すべての発話区間において、コーパスの適否判定を行ったか否かを判定する（ステップＳ１６）。
ここで、すべての発話区間において適否判定が完了していない場合（ステップＳ１６でＮｏ）、音声言語コーパス生成装置１は、ステップＳ１７において、次の発話区間を設定（内部変数として、ｊに“１”を加算）し、ステップＳ１３に動作を進める。
一方、すべての発話区間において適否判定が完了した場合（ステップＳ１６でＹｅｓ）、動作を終了する。

以上の動作によって、音声言語コーパス生成装置１は、予め学習したミスマッチ確率に基づいて、番組音声と字幕テキストとの対から、発話区間ごとに、音響モデルを生成するために適した番組音声および字幕テキストのみを、音声言語コーパスとして選択することができる。

≪第２実施形態≫
〔音声言語コーパス生成装置の概要〕
次に、図９を参照して、本発明の第２実施形態に係る音声言語コーパス生成装置１Ｂの概要について説明する。
第１実施形態に係る音声言語コーパス生成装置１（図１参照）では、音声言語コーパスを選択する基準となる閾値を固定としていた。
この第２実施形態に係る音声言語コーパス生成装置１Ｂは、音声言語コーパス生成装置１に対して、閾値を調整する機能を付加している。
すなわち、音声言語コーパス生成装置１Ｂは、予め定めた閾値で音声言語コーパス選択手段４０が音声言語コーパスを選択した後、音声認識の認識率を高める方向に閾値を適応的に変化させて音声言語コーパスを生成する。
以下、音声言語コーパス生成装置１と異なる点を中心に説明する。

〔音声言語コーパス生成装置の構成〕
図９を参照して、音声言語コーパス生成装置１Ｂの構成について説明する。
図９に示すように、音声言語コーパス生成装置１Ｂは、ミスマッチ確率学習手段１０と、音響モデル記憶手段２０，２０Ｂと、ミスマッチ確率記憶手段３０と、音声言語コーパス選択手段４０と、音声言語コーパス記憶手段５０と、音響モデル学習手段６０と、コーパス判定閾値決定手段７０と、を備える。
音響モデル記憶手段２０Ｂ、音響モデル学習手段６０およびコーパス判定閾値決定手段７０以外の構成は、図１で説明した音声言語コーパス生成装置１と同じ構成であるため、同一の符号を付して説明を省略する。

音響モデル記憶手段２０Ｂは、音声認識に用いる音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。この音響モデル記憶手段２０Ｂには、音響モデル学習手段６０で学習された音響モデルが記憶される。
この音響モデル記憶手段２０Ｂに記憶される音響モデルは、ミスマッチ確率を考慮して選択された音声言語コーパス記憶手段５０に記憶されている音声言語コーパスから学習したものであるため、音響モデル記憶手段２０に記憶される音響モデルに比べ、特定の番組に対する音声認識に適した（単語誤り率の低い）音響モデルとなっている。
この音響モデル記憶手段２０Ｂは、番組音声を音声認識する際に、音声認識手段７１によって参照される。

音響モデル学習手段６０は、音声言語コーパス記憶手段５０に記憶されている音声言語コーパスから、音響モデルを学習するものである。この音響モデル学習手段６０は、学習により生成した音響モデルを音響モデル記憶手段２０Ｂに記憶する。
なお、音声言語コーパスである音声データ（番組音声）およびテキスト（字幕テキスト）から音響モデルを学習する手法は、一般的な手法を用いればよいため、ここでは説明を省略する。

コーパス判定閾値決定手段７０は、入力される特定の番組の番組音声（閾値調整用番組音声）ＳＳ_３およびその書き起こし（閾値調整用書き起こし）ＴＣ_３から、音声言語コーパス選択手段４０の適否判定手段４２ｃ（図１参照）で使用する閾値を決定するものである。なお、コーパス判定閾値決定手段７０に入力される番組音声ＳＳ_３および書き起こしＴＣ_３は、対象となる特定の番組と同一に分類される番組の音声および書き起こしであればよい。
ここでは、コーパス判定閾値決定手段７０は、音声認識手段７１と、閾値決定手段７２と、を備える。

音声認識手段７１は、番組音声を音声認識するものである。ここでは、音声認識手段７１は、音響モデル記憶手段２０Ｂに記憶されている音響モデル、言語モデル記憶手段（不図示）に記憶されている言語モデルおよび発音辞書記憶手段（不図示）に記憶されている発音辞書を用いて、入力された番組音声ＳＳ_３を、人が発話した音声区間（発話区間）ごとに音声認識する。
この音声認識手段７１は、認識結果である認識仮説（閾値調整用認識仮説）ＳＲ_３を、閾値決定手段７２に出力する。
なお、音声認識手段７１の代わりに、音声認識手段１１（図１参照）の入力と出力とを切り替えることで、音声認識手段１１を用いることとしてもよい。

閾値決定手段７２は、音声認識手段７１で認識された認識仮説ＳＲ_３の認識率を向上させるように、音声言語コーパス選択手段４０で使用する閾値を決定するものである。
ここでは、閾値決定手段７２は、アライメント手段７２ａと、認識率算出手段７２ｂと、閾値適応化手段７２ｃと、を備える。

アライメント手段７２ａは、音声認識手段７１で音声認識された発話区間の単語列ごとに、認識仮説ＳＲ_３および書き起こしＴＣ_３を単語単位でアライメントするものである。
このアライメント手段７２ａは、発話区間ごとに、アライメント結果を認識率算出手段７２ｂに出力する。

認識率算出手段７２ｂは、音声認識手段７１における認識率を算出するものである。この認識率算出手段７２ｂは、アライメント後の認識仮説ＳＲ_３および書き起こしＴＣ_３を単語ごとに比較し、正解である書き起こしＴＣ_３に対する認識仮説ＳＲ_３の正解率を、音声認識の認識率として算出する。
この認識率算出手段７２ｂは、算出した認識率を閾値適応化手段７２ｃに出力する。

閾値適応化手段７２ｃは、認識率算出手段７２ｂで算出される認識率を向上させる方向に、音声言語コーパス選択手段４０で使用する閾値を適応化するものである。
この閾値適応化手段７２ｃは、前回算出した認識率を保持しておき、認識率が向上する方向に閾値を適応化する。例えば、閾値適応化手段７２ｃは、格子探索法、勾配法といった一般的な最適化手法により閾値を適応化する。

以上説明したように音声言語コーパス生成装置１Ｂを構成することで、音声言語コーパス生成装置１Ｂは、音声言語コーパス生成装置１に対してさらに音声認識の認識率を高めた音響モデルを学習するための音声言語コーパスを生成することができる。
なお、音声言語コーパス生成装置１Ｂは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム（音声言語コーパス生成プログラム）で動作させることができる。

〔音声言語コーパス生成装置の動作〕
次に、図１０を参照（構成については適宜図９参照）して、音声言語コーパス生成装置１Ｂの動作について説明する。なお、事前準備段階としてミスマッチ確率を学習する動作（ミスマッチ確率学習動作）と、ミスマッチ確率に基づいて音声言語コーパスを選択する動作（コーパス選択動作）は、図７，図８で説明した音声言語コーパス生成装置１と同じであるため、説明を省略する。
ここでは、図８のステップＳ１４で使用する閾値を決定する動作（閾値決定動作）について説明する。なお、この閾値決定動作は、音声言語コーパス生成装置１Ｂが予め定めた閾値で、図８で説明した動作を実行後、適宜、１回以上実行する動作である。

（閾値決定動作）
図１０に示すように、まず、音声言語コーパス生成装置１Ｂは、音響モデル学習手段６０によって、図８のコーパス選択動作で選択した音声言語コーパスから音響モデルを学習する（ステップＳ２０）。
そして、音声言語コーパス生成装置１Ｂは、音声認識手段７１によって、番組音声ＳＳ_３を発話区間ごとに音声認識して、認識仮説ＳＲ_３を生成する（ステップＳ２１）。
その後、音声言語コーパス生成装置１Ｂは、閾値決定手段７２のアライメント手段７２ａによって、ステップＳ２１で生成された認識仮説ＳＲ_３と、書き起こしＴＣ_３とを単語単位でアライメントする（ステップＳ２２）。

そして、音声言語コーパス生成装置１Ｂは、閾値決定手段７２の認識率算出手段７２ｂによって、認識仮説ＳＲ_３および書き起こしＴＣ_３を単語ごとに比較し、正解である書き起こしＴＣ_３に対する認識仮説ＳＲ_３の正解率を、音声認識の認識率として算出し、保持する（ステップＳ２３）。
さらに、音声言語コーパス生成装置１Ｂは、閾値決定手段７２の閾値適応化手段７２ｃによって、ステップＳ２３で算出された認識率を、前回算出し、保持されている認識率よりも高くする方向に閾値を適応化させて、その値を決定する（ステップＳ２４）。

以上の動作によって、音声言語コーパス生成装置１Ｂは、音響モデルを学習するために適した音声言語コーパスを、特定の番組に応じて最適化した閾値を設定することができる。これによって、音声言語コーパス生成装置１Ｂは、音声言語コーパス生成装置１に対してさらに音声認識の認識率を高めた音響モデルを学習するための音声言語コーパスを生成することができる。

≪実施例≫
ここで、図１１，図１２を参照して、ミスマッチ確率テーブルの具体例について説明する。ここでは、ＮＨＫの６本の放送番組（それぞれ１０〜１５時間程度）を用いて生成したミスマッチ確率テーブルについて示す。
６番組分の字幕テキストと音声認識結果（認識仮説）とは、図１１に示すような割合（％）で、それぞれの対応パターンI〜IVに対応していた。
そして、音声言語コーパス生成装置１，１Ｂでは、この６本の放送番組について、図１２に示すようなミスマッチ確率テーブルを生成した。
例えば、放送番組「クローズアップ現代」について、図１１で対応パターンIに分類された１９．９％の単語のうち、図１２に示すように、削除ミスマッチＤが７７．８％発生している。

このように、ミスマッチ確率は、放送番組ごとにパターン化することができ、特定の特徴を有することになる。
本発明では、この特徴を利用して、字幕テキストを音響モデルのコーパスとして利用可能な否かを判定することで、特定の番組に適したコーパスを生成することが可能になる。
なお、従来手法である分類を考慮せずに学習した音響モデルを用いて音声認識したときの単語誤り率が１８．１％であったのに対し、本発明によって閾値を１５％として生成した音声言語コーパスから学習した音響モデルを用いた場合、単語誤り率が１５．３％と改善した。

≪第３実施形態≫
〔音声言語コーパス生成装置の概要〕
次に、図１３を参照して、本発明の第３実施形態に係る音声言語コーパス生成装置１Ｃの概要について説明する。
第１実施形態に係る音声言語コーパス生成装置１（図１参照）では、特定の番組ごとに、番組音声に対する字幕テキストのミスマッチの傾向に基づいて、字幕テキストの誤り率を推定している。
この第３実施形態に係る音声言語コーパス生成装置１Ｃは、音声言語コーパス生成装置１に対して、さらにミスマッチの傾向を単語の属性ごとに細分化して求め、字幕テキストの誤り率の精度を高めるものである。
以下、音声言語コーパス生成装置１と異なる点を中心に説明する。

〔音声言語コーパス生成装置の構成〕
図１３を参照して、音声言語コーパス生成装置１Ｃの構成について説明する。
図１３に示すように、音声言語コーパス生成装置１Ｃは、ミスマッチ確率学習手段１０Ｂと、音響モデル記憶手段２０と、ミスマッチ確率記憶手段３０Ｂと、音声言語コーパス選択手段４０Ｂと、音声言語コーパス記憶手段５０と、を備える。
音響モデル記憶手段２０および音声言語コーパス記憶手段５０は、図１で説明した音声言語コーパス生成装置１と同じ構成であるため説明を省略する。

ミスマッチ確率学習手段１０Ｂは、書き起こしＴＣ_１に対して字幕テキストＳＴ_１の単語が一致（マッチ）しない確率（ミスマッチ確率）をミスマッチのパターンと単語の属性ごとに学習するものである。
ここでは、ミスマッチ確率学習手段１０Ｂは、音声認識手段１１と、ミスマッチ確率算出手段１２Ｂと、属性解析手段１３と、を備える。音声認識手段１１は、図１で説明した音声言語コーパス生成装置１と同じ構成であるため説明を省略する。以下、属性解析手段１３、ミスマッチ確率算出手段１２Ｂの順に説明する。

属性解析手段１３は、字幕テキストＳＴ_１の各単語の属性を解析するものである。ここでは、属性解析手段１３は、字幕テキストＳＴ_１の各単語の品詞を属性ＡＴ_１として解析する。すなわち、属性解析手段１３は、一般的な形態素手段、例えば、ＭｅＣａｂ等で構成することができる。
この属性解析手段１３は、解析結果となる属性（品詞）ＡＴ_１を、字幕テキストＳＴ_１の各単語に対応付けて、ミスマッチ確率算出手段１２Ｂに出力する。

なお、属性解析手段１３が解析する属性は、必ずしも単語の品詞に限るものではない。例えば、属性解析手段１３は、字幕テキストの単語の発話文頭からの数、発話文末からの数のいずれか一方または両方を単語の属性として解析することしてもよい。その場合、文頭または文末からの数には上限（例えば、“５”）を設け、分類がスパース（疎）にならないようにすることが好ましい。
このように、文頭または文末からの数を属性とすることで、番組音声の音声ファイルが発話の区切りから僅かに前後して分割され、発話区間の前部分に前の発話区間の文末が混入したり、発話区間の後部分に後の発話区間の前文が混入したり等をミスマッチ確率の計算に反映させることができる。また、文末表現は字幕作成時に人手で修正されやすい傾向があるため、文末からの数を属性とすることで、この傾向をミスマッチ確率の計算に反映させることができる。
なお、以降では、属性解析手段１３が単語の属性として品詞を解析した例で説明する。

ミスマッチ確率算出手段１２Ｂは、字幕テキストＳＴ_１と認識仮説ＳＲ_１との単語の対応パターンおよび単語の属性（品詞）ごとに、字幕テキストＳＴ_１と書き起こしＴＣ_１とがミスマッチする確率（ミスマッチ確率）を対応付けたミスマッチ確率テーブルを生成するものである。
ここでは、ミスマッチ確率算出手段１２Ｂは、アライメント手段１２ａと、確率算出手段１２Ｂｂと、を備える。アライメント手段１２ａは、図１で説明した音声言語コーパス生成装置１と同じ構成であるため説明を省略する。

確率算出手段１２Ｂｂは、字幕テキストＳＴ_１と認識仮説ＳＲ_１との単語の対応パターンおよび単語の属性（品詞）ごとに、字幕テキストＳＴ_１と書き起こしＴＣ_１とのミスマッチパターンの確率（ミスマッチ確率）を算出するものである。
なお、単語の対応パターンは、図２，図３で説明したパターンと同じである。また、ミスマッチパターンは、図４，図５で説明したパターンと同じである。
この確率算出手段１２Ｂｂは、基本的に確率算出手段１２ｂ（図１）と同様のミスマッチ確率を算出するが、その確率の算出を品詞ごとに行う。ただし、図２に示すように、対応パターンIは、字幕テキストで対応する単語がないため対応する品詞はなく、前記式（１）と同様の計算を行う。

一方、パターンII〜IVについては、確率算出手段１２Ｂｂは、品詞ごとにミスマッチ確率を算出する。
すなわち、確率算出手段１２Ｂｂは、対応パターンIIの品詞ｈの対応パターン数をＮ_II，ｈ、対応パターンIIにおける置換ミスマッチＳのミスマッチ数をＮ_{ＩI，Ｓ，ｈ}としたとき、また、対応パターンIIにおける挿入ミスマッチＩのミスマッチ数をＮ_{ＩI，I，ｈ}としたとき、以下の式（９）により、対応パターンIIの品詞ｈにおける置換ミスマッチＳのミスマッチ確率Ｐ_{ＩI，Ｓ，ｈ}および挿入ミスマッチＩのミスマッチ確率Ｐ_{ＩI，Ｉ，ｈ}を算出する。

なお、確率算出手段１２Ｂｂは、対応パターンIII，IVにおけるミスマッチ確率についても、対象とする対応パターンが異なるだけで、対応パターンIIと同様に算出する。
この確率算出手段１２Ｂｂは、図１４に例示したように、対応パターンとミスマッチパターンとに属性（品詞）ごとのミスマッチ確率を対応付けたミスマッチ確率テーブルを生成し、ミスマッチ確率記憶手段３０Ｂに記憶する。

ミスマッチ確率記憶手段３０Ｂは、ミスマッチ確率学習手段１０Ｂ（ミスマッチ確率算出手段１２Ｂ）で生成されたミスマッチ確率テーブルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
このミスマッチ確率記憶手段３０Ｂは、音声言語コーパス選択手段４０Ｂによって参照される。

音声言語コーパス選択手段４０Ｂは、入力される番組音声ＳＳ_２およびそれに対応する字幕テキストＳＴ_２から、特定の番組の音声認識用の音響モデルを学習するために適した音声言語コーパスを選択するものである。なお、番組音声ＳＳ_２および字幕テキストＳＴ_２は、図１で説明したものと同じである。
ここでは、音声言語コーパス選択手段４０Ｂは、音声認識手段４１と、コーパス選択手段４２Ｂと、属性解析手段４３と、を備える。音声認識手段４１は、図１で説明した音声言語コーパス生成装置１と同じ構成であるため説明を省略する。

コーパス選択手段４２Ｂは、音声認識手段４１で認識された認識仮説（コーパス候補認識仮説）ＳＲ_２、および、対応する字幕テキスト（コーパス候補字幕テキスト）ＳＴ_２に基づいて、特定の番組の音声認識用の音響モデルを学習するための音声言語コーパスを選択するものである。
ここでは、コーパス選択手段４２Ｂは、アライメント手段４２ａと、誤り率推定手段４２Ｂｂと、適否判定手段４２ｃと、を備える。アライメント手段４２ａおよび適否判定手段４２ｃは、図１で説明した音声言語コーパス生成装置１と同じ構成であるため説明を省略する。

誤り率推定手段（誤り率算出手段）４２Ｂｂは、認識仮説ＳＲ_２に対する字幕テキストＳＴ_２の誤り率を推定（算出）するものである。
この誤り率推定手段４２Ｂｂは、事前に学習してあるミスマッチ確率記憶手段３０Ｂに記憶されているミスマッチ確率テーブルを参照し、発話区間ごとに、字幕テキストＳＴ_２の誤り率を推定する。
すなわち、誤り率推定手段４２Ｂｂは、前記式（８）の代わりに、ミスマッチ確率を属性ごとに細分化した以下の式（１０）により、発話区間ｊにおける字幕テキストの誤り率の期待値Ｅ［Ｒ_Ｃ ^ｊ］を算出する。

ここで、Ｎ_ｋ，ｈ ^ｊは、発話区間ｊにおける品詞ｈごとの対応パターンｋに対応する対の数である。なお、この品詞ｈは、属性解析手段４３によって解析されたものである。

誤り率推定手段４２Ｂｂは、この式（１０）で計算した字幕テキストの誤り率の期待値を、発話区間ごとの字幕テキストの誤り率として、適否判定手段４２ｃに出力する。
以上説明したように音声言語コーパス生成装置１Ｃを構成することで、音声言語コーパス生成装置１Ｃは、番組音声に対する字幕テキストのミスマッチの傾向を単語の属性（品詞等）ごとに細分化して求め、字幕テキストの誤り率の精度を高めることができ、音声言語コーパス生成装置１に比べて、さらに、高精度な音響モデルを学習するため必要となる音声言語コーパスを生成することができる。

属性解析手段４３は、字幕テキストＳＴ_２の各単語の属性を解析するものである。この属性解析手段４３は、属性解析手段１３と同じ属性を解析することとする。
この属性解析手段４３は、解析結果となる属性（品詞）ＡＴ_２を、字幕テキストＳＴ_２の各単語に対応付けて、コーパス選択手段４２Ｂに出力する。
なお、音声言語コーパス生成装置１Ｃは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム（音声言語コーパス生成プログラム）で動作させることができる。

〔音声言語コーパス生成装置の動作〕
次に、音声言語コーパス生成装置１Ｃの動作について説明する。
音声言語コーパス生成装置１Ｃの動作は、基本的には、図７，図８で説明した音声言語コーパス生成装置１の動作と同じであるが、以下の点が異なっている。

すなわち、音声言語コーパス生成装置１Ｃは、図７に示した動作において、ステップＳ１の前後、または、並行して、属性解析手段１３によって、字幕テキストＳＴ_１の各単語の属性を解析する。
また、音声言語コーパス生成装置１Ｃは、ステップＳ３で、ミスマッチ確率算出手段１２Ｂの確率算出手段１２Ｂｂによって、字幕テキストおよび認識仮説の対応パターン（図２参照）および単語の属性（品詞等）ごとに、字幕テキストおよび書き起こしに発生するミスマッチパターン（図４参照）の確率（ミスマッチ確率）を算出する。

そして、音声言語コーパス生成装置１Ｃは、ステップＳ４で、確率算出手段１２Ｂｂによって、対応パターンとミスマッチパターンとに属性（品詞等）ごとのミスマッチ確率を対応付けたミスマッチ確率テーブルを生成し、ミスマッチ確率記憶手段３０Ｂに記憶する。
また、音声言語コーパス生成装置１Ｃは、図８に示した動作において、ステップＳ１３で、コーパス選択手段４２Ｂの誤り率推定手段４２Ｂｂによって、前記式（１０）により、字幕テキストの誤り率を算出する。

≪実施例≫
ここで、図１５，図１６を参照して、音声言語コーパス生成装置１Ｃで用いるミスマッチ確率テーブルの具体例について説明する。ここでは、ＮＨＫの放送番組「ひるまえほっと」（１６時間程度）を用いて生成したミスマッチ確率テーブルについて示す。
字幕テキストの単語の属性（品詞）と音声認識結果（認識仮説）とは、図１５に示すような割合（％）で、それぞれの対応パターンII〜IVに対応していた。ここで、パターンIは、認識仮説の単語が字幕テキストに対応しないパターンであるため、図１５には存在しない。なお、参考までに、字幕テキストの単語を属性（品詞）で分類しない場合の割合（平均）を最下段に示している。
図１５に示すように、品詞の分類を行わない平均に対し、例えば、感動詞については、字幕テキストと認識仮説とが一致する割合が低いことがわかる（対応パターンIV）。

図１６に、音声言語コーパス生成装置１Ｃが、この放送番組について生成したミスマッチ確率テーブルを示す。
図１６に示すように、例えば、感動詞の字幕テキストの単語と認識仮説の単語とが不一致（対応パターンII）の場合、ミスマッチ（置換ミスマッチＳ）の割合が高いことがわかる。
このように、図１５，図１６ともに、分類を行わなかった場合の割合から、大きく割合がずれる品詞が存在し、単語の品詞によって、字幕テキストの誤り率に影響を与えることが分かる。
本発明は、字幕テキストの単語の属性を考慮して、字幕テキストの誤り率を求めるため、特定の番組の音響モデルのコーパスとして、より適したコーパスを字幕テキストから選択することが可能になる。

≪第４実施形態≫
次に、図１７を参照して、本発明の第４実施形態に係る音声言語コーパス生成装置１Ｄについて説明する。
第３実施形態に係る音声言語コーパス生成装置１Ｃ（図１３参照）では、字幕テキストの単語の属性を、字幕テキストそのものを解析することで求めた。
しかし、この第４実施形態に係る音声言語コーパス生成装置１Ｄでは、字幕テキストＳＴ_１に対応する番組音声ＳＳ_１の音量、音質等の音響特性を属性として、字幕テキストの単語の属性とする。

図１７に示すように、音声言語コーパス生成装置１Ｄは、ミスマッチ確率学習手段１０Ｃと、音響モデル記憶手段２０と、ミスマッチ確率記憶手段３０Ｂと、音声言語コーパス選択手段４０Ｂと、音声言語コーパス記憶手段５０と、を備える。
ミスマッチ確率学習手段１０Ｃ、音声言語コーパス選択手段４０Ｃ以外の構成は、図１３で説明した音声言語コーパス生成装置１Ｃと同じ構成であり、使用する属性のみが異なっているため、ここでは説明を省略する。

ミスマッチ確率学習手段１０Ｃは、書き起こしＴＣ_１に対して字幕テキストＳＴ_１の単語が一致（マッチ）しない確率（ミスマッチ確率）をミスマッチのパターンと単語の属性（ここでは、音響特性）ごとに学習するものである。
ここでは、ミスマッチ確率学習手段１０Ｃは、音声認識手段１１Ｂと、ミスマッチ確率算出手段１２Ｃと、属性解析手段１３Ｂと、を備える。

音声認識手段１１Ｂは、番組音声を音声認識するものである。この音声認識手段１１Ｂは、音声認識手段１１（図１）と同じ機能に加え、認識結果である認識仮説ＳＲ_１に番組音声のタイムコードを付与する機能を有する。
この音声認識手段１１Ｂは、タイムコードを付与した認識仮説ＳＲ_１をミスマッチ確率算出手段１２Ｃに出力する。

属性解析手段１３Ｂは、番組音声の音響特性を分類するものである。この属性解析手段１３Ｂは、入力された番組音声ＳＳ_１を単語ごとに分類する。
例えば、属性解析手段１３Ｂは、音響特性として、音量レベルを予め定めた範囲区分で分類したり、バックグラウンドの音（雑音、音楽等）の音質で分類したりすることができる。
なお、バックグラウンドの音に関する分類は、一般的手法、例えば、「参考文献：T.Butko and C.Nadeu,“Audio segmentation of broadcast news in the Albayzin-2010 evaluation: overview, results, and discussion”, EURASIP Journal on Audio, Speech, and Music Processing 2011」に記載の手法を用いることができる。

例えば、属性解析手段１３Ｂは、この参考文献に記載の既知の手法によって、番組音声を、「音声」、「音楽」、「背景に雑音が重畳する音声」、「背景に音楽が重畳する音声」、「その他」の各属性に分類する。
この属性解析手段１３Ｂは、分類した属性に、番組音声のタイムコードを付与してミスマッチ確率算出手段１２Ｃに出力する。

ミスマッチ確率算出手段１２Ｃは、字幕テキストＳＴ_１と認識仮説ＳＲ_１との単語の対応パターンおよび単語の属性（音響特性）ごとに、字幕テキストＳＴ_１と書き起こしＴＣ_１とがミスマッチする確率（ミスマッチ確率）を対応付けたミスマッチ確率テーブルを生成するものである。
ここでは、ミスマッチ確率算出手段１２Ｃは、アライメント手段１２Ｃａと、確率算出手段１２Ｃｂと、を備える。

アライメント手段１２Ｃａは、音声認識手段１１Ｂで音声認識された発話区間の単語列ごとに、認識仮説ＳＲ_１、字幕テキストＳＴ_１および書き起こしＴＣ_１を単語単位でアライメントするものである。このアライメント手段１２Ｃａは、アライメント手段１２ａ（図１）と同じ機能に加え、認識仮説ＳＲ_１に対応する字幕テキストＳＴ_１の単語に、認識仮説ＳＲ_１に付与されているタイムコート同じ時刻の音響分類手段１４で分類された属性を対応付ける。
このアライメント手段１２Ｃａは、発話区間ごとに、アライメント結果を確率算出手段１２Ｃｂに出力する。

確率算出手段１２Ｃｂは、字幕テキストＳＴ_１と認識仮説ＳＲ_１との単語の対応パターンおよび単語の属性（音響特性）ごとに、字幕テキストＳＴ_１と書き起こしＴＣ_１とのミスマッチパターンの確率（ミスマッチ確率）を算出するものである。
この確率算出手段１２Ｃｂは、基本的に確率算出手段１２Ｂｂ（図１３）と同様のミスマッチ確率を算出するが、その確率の算出を音響特性ごとに行う。ただし、図２に示すように、対応パターンIIIは、認識仮説で対応する単語がないため対応する音響特性はなく、前記式（２）のように、属性を考慮せずに算出する。

音声言語コーパス選択手段４０Ｃは、入力される番組音声ＳＳ_２およびそれに対応する字幕テキストＳＴ_２から、特定の番組の音声認識用の音響モデルを学習するために適した音声言語コーパスを選択するものである。なお、番組音声ＳＳ_２および字幕テキストＳＴ_２は、図１で説明したものと同じである。
ここでは、音声言語コーパス選択手段４０Ｃは、音声認識手段４１と、コーパス選択手段４２Ｂと、属性解析手段４３Ｂと、を備える。音声認識手段４１、コーパス選択手段４２Ｂは、図１３で説明した音声言語コーパス生成装置１Ｃと同じ構成であるため説明を省略する。

属性解析手段４３Ｂは、字幕テキストＳＴ_２の各単語の属性を解析するものである。この属性解析手段４３Ｂは、属性解析手段１３Ｂと同じ属性を解析することとする。
この属性解析手段４３Ｂは、属性の解析結果を、コーパス選択手段４２Ｂに出力する。

以上説明したように音声言語コーパス生成装置１Ｄを構成することで、音声言語コーパス生成装置１Ｄは、番組音声に対する字幕テキストのミスマッチの傾向を単語の属性（音響特性）ごとに細分化して求め、字幕テキストの誤り率の精度を高めることができ、音声言語コーパス生成装置１に比べて、さらに、高精度な音響モデルを学習するため必要となる音声言語コーパスを生成することができる。
なお、音声言語コーパス生成装置１Ｄは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム（音声言語コーパス生成プログラム）で動作させることができる。
音声言語コーパス生成装置１Ｄの動作については、属性を解析する対象が異なるだけで、基本的に音声言語コーパス生成装置１Ｃ（図１３）と同じであるため、説明を省略する。

≪変形例≫
以上、本発明の実施形態に係る音声言語コーパス生成装置１（図１），１Ｂ（図９），１Ｃ（図１３），１Ｄ（図１７）の構成および動作について説明したが、本発明はこれらの実施形態に限定されるものではない。

例えば、ここでは、音声言語コーパス生成装置１，１Ｂ，１Ｃ，１Ｄの内部に音声認識手段１１（１１Ｂ），４１，７１を備える構成としたが、これらは、外部に備える構成であってもよい。
すなわち、音声言語コーパス生成装置１，１Ｂ，１Ｃ，１Ｄは、外部の音声認識手段で認識された認識仮説を入力することとしてもよい。

また、ここでは、音声言語コーパス生成装置１，１Ｂ，１Ｃ，１Ｄの内部に各記憶手段を備える構成としたが、これらの記憶手段は、音声言語コーパス生成装置１，１Ｂ，１Ｃ，１Ｄと分離した外部の記憶装置としてもよい。

また、ここでは、音声言語コーパス生成装置１，１Ｂ，１Ｃ，１Ｄは、ある特定の番組を対象として、１つ（１種類）の音声言語コーパスを生成することとした。
しかし、音声言語コーパス生成装置１，１Ｂ，１Ｃ，１Ｄは、タイトルの異なる複数の番組、あるいは、異なるジャンル（ニュース、スポーツ等）に分類される複数の番組といったように、所定の分類基準で分類されるそれぞれの番組に対して、対応する複数の音声言語コーパスを生成することとしてもよい。

その場合、音声言語コーパス生成装置１，１Ｂ，１Ｃ，１Ｄには、特定の番組を分類する識別情報を入力することとし、その分類に対応する番組音声、字幕テキスト、書き起こしを入力することとする。
そして、音声言語コーパス生成装置１，１Ｂ，１Ｃ，１Ｄは、ミスマッチ確率算出手段１２（１２Ｂ，１２Ｃ）によって、図６または図１４に示したミスマッチ確率テーブルを生成する際に、ミスマッチ確率を、特定の番組を分類する識別情報ごとに複数生成することとする。
そして、音声言語コーパス生成装置１，１Ｂ，１Ｃ，１Ｄは、コーパス選択手段４２（４２Ｂ）によって、ミスマッチ確率テーブルの所定の識別情報に対応するミスマッチ確率を参照して、誤り率を算出し、コーパスを選択すればよい。

また、音声言語コーパス生成装置１Ｃ，１Ｄは、音声言語コーパスを選択する基準となる閾値を固定としているが、音声言語コーパス生成装置１Ｂと同様に、さらに、音声言語コーパス記憶手段５０と、音響モデル学習手段６０と、コーパス判定閾値決定手段７０と、音響モデル記憶手段２０Ｂとを備えて閾値を適応化することとしてもよい。

１，１Ｂ音声言語コーパス生成装置
１０ミスマッチ確率学習手段
１１音声認識手段
１２ミスマッチ確率算出手段
１２ａアライメント手段
１２ｂ確率算出手段
１３属性解析手段
２０音響モデル記憶手段
２０Ｂ音響モデル記憶手段
３０ミスマッチ確率記憶手段
４０音声言語コーパス選択手段
４１音声認識手段
４２コーパス選択手段
４２ａアライメント手段
４２ｂ誤り率推定手段（誤り率算出手段）
４２ｃ適否判定手段（コーパス適否判定手段）
４３属性解析手段
５０音声言語コーパス記憶手段
６０音響モデル学習手段
７０コーパス判定閾値決定手段
７１音声認識手段
７２閾値決定手段
７２ａアライメント手段
７２ｂ認識率算出手段
７２ｃ閾値適応化手段

Claims

特定の番組の音声認識に使用する音響モデルを学習するための音声言語コーパスを生成する音声言語コーパス生成装置であって、
前記特定の番組の番組音声を音声認識した認識仮説と字幕テキストと書き起こしとから、前記字幕テキストと前記認識仮説との対応パターンに対応付けて、前記字幕テキストと前記書き起こしとが一致しないミスマッチ確率を算出するミスマッチ確率算出手段と、
前記特定の番組と同じ分類に属する番組の前記音声言語コーパスの候補となるコーパス候補番組音声を音声認識したコーパス候補認識仮説と、予め付されたコーパス候補字幕テキストとの対応パターンに対応した前記ミスマッチ確率により、前記コーパス候補字幕テキストの発話区間ごとの誤り率を算出し、当該誤り率が閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを、前記音声言語コーパスとして選択するコーパス選択手段と、
を備えることを特徴とする音声言語コーパス生成装置。
前記ミスマッチ確率算出手段は、
前記認識仮説と前記字幕テキストと前記書き起こしとを単語単位でアライメントするアライメント手段と、
アライメント結果の単語単位で、前記字幕テキストと前記認識仮説との対応パターンに対応付けて前記字幕テキストと前記書き起こしとが一致しない確率を前記ミスマッチ確率として算出する確率算出手段と、
を備えることを特徴とする請求項１に記載の音声言語コーパス生成装置。
前記字幕テキストの単語の属性を解析する属性解析手段をさらに備え、
前記ミスマッチ確率算出手段は、前記属性ごとに、前記ミスマッチ確率を算出することを特徴とする請求項１または請求項２に記載の音声言語コーパス生成装置。
前記属性は、単語の品詞であることを特徴とする請求項３に記載の音声言語コーパス生成装置。
前記コーパス選択手段は、
前記コーパス候補認識仮説と前記コーパス候補字幕テキストとを単語単位でアライメントするアライメント手段と、
アライメント結果の単語単位で、前記ミスマッチ確率により、前記コーパス候補字幕テキストの発話区間ごとの誤り率を算出する誤り率算出手段と、
この誤り率算出手段で算出された誤り率と前記閾値とを比較し、閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを、前記音声言語コーパスとして選択する適否判定手段と、
を備えることを特徴とする請求項１から請求項４のいずれか一項に記載の音声言語コーパス生成装置。
前記コーパス選択手段で選択された音声言語コーパスを用いて、音響モデルを学習する音響モデル学習手段と、
この音響モデル学習手段で学習された音響モデルを記憶する音響モデル記憶手段と、
前記音響モデルを参照して、前記特定の番組と同じ分類に属する番組の閾値調整用番組音声を音声認識した閾値調整用認識仮説と、予め付された閾値調整用書き起こしとから、前記音声認識の認識率を算出する認識率算出手段と、
前記認識率を向上させるように適宜前記閾値を調整する閾値適応化手段と、
をさらに備えることを特徴とする請求項１から請求項５のいずれか一項に記載の音声言語コーパス生成装置。
前記特定の番組は、特定の番組名で分類される番組、特定のジャンルで分類される番組、または、字幕制作方法により分類される番組のいずれかであることを特徴とする請求項１から請求項６のいずれか一項に記載の音声言語コーパス生成装置。
コンピュータを、請求項１から請求項７のいずれか一項に記載の音声言語コーパス生成装置として機能させるための音声言語コーパス生成プログラム。