JP2017045027A - 音声言語コーパス生成装置およびそのプログラム - Google Patents

音声言語コーパス生成装置およびそのプログラム Download PDF

Info

Publication number
JP2017045027A
JP2017045027A JP2016031925A JP2016031925A JP2017045027A JP 2017045027 A JP2017045027 A JP 2017045027A JP 2016031925 A JP2016031925 A JP 2016031925A JP 2016031925 A JP2016031925 A JP 2016031925A JP 2017045027 A JP2017045027 A JP 2017045027A
Authority
JP
Japan
Prior art keywords
corpus
speech
recognition
program
language corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016031925A
Other languages
English (en)
Other versions
JP6637332B2 (ja
Inventor
貴裕 奥
Takahiro Oku
貴裕 奥
愛子 萩原
Aiko Hagiwara
愛子 萩原
庄衛 佐藤
Shoe Sato
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK filed Critical Nippon Hoso Kyokai NHK
Publication of JP2017045027A publication Critical patent/JP2017045027A/ja
Application granted granted Critical
Publication of JP6637332B2 publication Critical patent/JP6637332B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】特定の番組の音声認識に使用する音響モデルを学習するための音声言語コーパスを生成する音声言語コーパス生成装置を提供する。【解決手段】音声言語コーパス生成装置1は、特定の番組を音声認識した認識仮説と字幕テキストと書き起こしとから、字幕テキストと認識仮説との対応パターンに対応付けて字幕テキストと書き起こしとのミスマッチ確率を算出するミスマッチ確率算出手段12と、音声言語コーパスの候補となるコーパス候補番組音声を音声認識したコーパス候補認識仮説とコーパス候補字幕テキストとの対応パターンに対応したミスマッチ確率により、コーパス候補字幕テキストの誤り率を算出し、誤り率が閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを、音声言語コーパスとして選択するコーパス選択手段42と、を備える。【選択図】図1

Description

本発明は、音響モデルを学習するためのコーパスを生成する音声言語コーパス生成装置およびそのプログラムに関する。
近年、テレビ番組の映像に字幕を重ねて表示する字幕放送が実現されている。この字幕放送は、テレビの音が聞き取りにくい高齢者や聴覚障害者のための重要な情報保障手段となっている。
この字幕放送では、さらに、生放送の番組にリアルタイムで字幕を付与する研究開発が進められている。例えば、特許文献1には、番組の音声を音声認識し、字幕を生成する手法が開示されている。
このように、音声認識によって番組の字幕を生成する場合、さまざまなジャンルの番組を音声認識可能な高精度な音響モデルが必要となる。さらに、このような高精度な音響モデルを学習するためには、さまざまなジャンルをカバーした大規模な音声言語コーパスの構築が必要となる。
そこで、音響モデルを学習するための大規模な音声言語コーパスを構築する手法として、番組音声とその番組に予め付与された字幕を利用する準教師あり学習(Lightly supervised training)が提案されている(非特許文献1参照)。
この非特許文献1に記載の準教師あり学習の手法では、欠損や要約があるなど、書き起こしとしては精度が低いテキスト(予め付与された字幕)から学習した制約の強い言語モデルを生成する。そして、この手法は、生成した言語モデルを用いて番組音声を認識し、その認識結果である認識仮説と字幕とを照合し、その一部を、音響モデルを学習するための音声言語コーパスとして用いることを特徴としている。
具体的には、非特許文献1に記載の手法では、ニュース番組を対象として、番組の認識仮説と字幕とのアライメント結果から、認識仮説と字幕とがすべて一致する発話区間の音声データのみを、音声言語コーパスとして用いている。
特開2010−175765号公報
L.Lamel, J.Gauvainand G.Adda: Lightly supervised and unsupervised acoustic model training, Computer Speech and Language,Vol.16, pp.115-129, 2002.
しかし、非特許文献1に記載の手法を、ニュース番組以外の番組に適用した場合、字幕の精度が不十分であったり、不明瞭音声や背景雑音のためニュース番組と同等の認識精度が得られなかったり等、認識仮説と字幕とがすべて一致する発話区間は、ニュース番組の場合ほど多くは得られない。
そのため、従来の手法では、ニュース以外のさまざまなジャンルをカバーした大規模な音声言語コーパスを構築することができないという問題がある。
本発明は、このような問題に鑑みてなされたものであり、特定の番組において、発話区間中に認識仮説と字幕(字幕テキスト)とに不一致があっても、ある条件下で、字幕を書き起こしとみなすことで、高精度な音響モデルを学習するために必要な音声言語コーパスを構築する音声言語コーパス生成装置およびそのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る音声言語コーパス生成装置は、特定の番組の音声認識に使用する音響モデルを学習するための音声言語コーパスを生成する音声言語コーパス生成装置であって、ミスマッチ確率算出手段と、コーパス選択手段と、を備える構成とした。
かかる構成において、音声言語コーパス生成装置は、ミスマッチ確率算出手段によって、特定の番組の番組音声を音声認識した認識仮説と、番組に予め付された字幕テキストと、番組音声の書き起こしとから、字幕テキストと認識仮説との対応パターンに対応付けて、字幕テキストと書き起こしとが一致しないミスマッチ確率を算出する。
この書き起こしは、音声認識結果である認識仮説に対して、正解となるものである。すなわち、字幕テキストと認識仮説に対する正解の書き起こしとの関係は、字幕テキストと特定の番組に特有の音声認識誤りを含んだ認識仮説との関係でパターン化することができる。
そこで、音声言語コーパス生成装置は、字幕テキストと書き起こしとがミスマッチする確率を予めパターン化しておく。
そして、音声言語コーパス生成装置は、コーパス選択手段によって、特定の番組と同じ分類に属する番組の音声言語コーパスの候補となるコーパス候補番組音声を音声認識したコーパス候補認識仮説と、予め付されたコーパス候補字幕テキストとの対応パターンに対応したミスマッチ確率により、コーパス候補字幕テキストの発話区間ごとの誤り率を算出する。
さらに、音声言語コーパス生成装置は、コーパス選択手段によって、誤り率が閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを音声言語コーパスとして選択することで、コーパス候補認識仮説とコーパス候補字幕テキストとがすべて一致していなくても、コーパス候補番組音声およびコーパス候補字幕テキストを音声言語コーパスとして選択することができる。
なお、音声言語コーパス生成装置は、コンピュータを、前記した各手段として機能させるための音声言語コーパス生成プログラムで動作させることができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、特定の番組単位で、字幕テキストを、音響モデルを学習するためのコーパスとして適用可能な否かを、予め特定の番組において学習したミスマッチ確率により判定することができる。
これによって、本発明は、既存の字幕テキストから大規模な音声言語コーパスを構築することができ、さらに、認識精度を高めた音響モデル生成することが可能になる。
本発明の第1実施形態に係る音声言語コーパス生成装置の構成を示すブロック構成図である。 字幕テキストと認識仮説との対応関係を示す図である。 字幕テキストと認識仮説との対応関係の例を説明するための図である。 字幕テキストと書き起こしとの対応関係を示す図である。 字幕テキストと書き起こしとの対応関係の例を説明するための図である。 ミスマッチ確率テーブルのデータ構造を示す構造図である。 本発明の第1実施形態に係る音声言語コーパス生成装置の動作(ミスマッチ確率学習動作)を示すフローチャートである。 本発明の第1実施形態に係る音声言語コーパス生成装置の動作(コーパス選択動作)を示すフローチャートである。 本発明の第2実施形態に係る音声言語コーパス生成装置の構成を示すブロック構成図である。 本発明の第2実施形態に係る音声言語コーパス生成装置の動作(閾値決定動作)を示すフローチャートである。 放送番組ごとの対応パターンの例を示す図である。 図11の放送番組ごとのミスマッチ確率の例を示す図である。 本発明の第3実施形態に係る音声言語コーパス生成装置の構成を示すブロック構成図である。 属性を考慮したミスマッチ確率テーブルのデータ構造を示す構造図である。 属性(品詞)ごとの対応パターンの例を示す図である。 図15の属性(品詞)ごとのミスマッチ確率の例を示す図である。 本発明の第4実施形態に係る音声言語コーパス生成装置の構成を示すブロック構成図である。
以下、本発明の実施形態について図面を参照して説明する。
≪第1実施形態≫
〔音声言語コーパス生成装置の概要〕
まず、図1を参照して、本発明の第1実施形態に係る音声言語コーパス生成装置1の概要について説明する。
音声言語コーパス生成装置1は、音声認識に用いる音響モデルを学習するための音声言語コーパスを生成するものである。具体的には、音声言語コーパス生成装置1は、特定の番組の字幕を音声認識により生成する際に適した音響モデルを予め学習するための音声言語コーパスを生成する。
ここで、特定の番組とは、予め定めた基準で分類された番組であって、例えば、特定の番組タイトル(番組名)や、ニュース番組、スポーツ番組、情報番組等のジャンル別の番組等である。あるいは、生放送番組、事前収録番組等の字幕を生成する方法(音声認識による生成、手入力による手法等)で区分された番組であっても構わない。
この音声言語コーパス生成装置1は、特定の番組の番組音声(音声データ)SSと、当該番組に予め付されている字幕テキストSTと、番組音声SSの書き起こしTCとから、発話区間ごとに、書き起こしTCと字幕テキストSTとがマッチしない確率(ミスマッチ確率)を予め学習しておく。
そして、音声言語コーパス生成装置1は、学習した番組と同じ分類に属する特定の番組の番組音声(音声データ)SSと、当該番組に予め付されている字幕テキストSTと、学習したミスマッチ確率とから、発話区間ごとに、字幕テキストSTの誤り率を計算し、閾値判定により、誤り率の小さい字幕テキストSTと、それに対応する番組音声SSとを、音声言語コーパスとする。
このように、音声言語コーパス生成装置1は、番組音声に対応する誤り率の小さい字幕テキストをコーパスとして抽出することで、特定の番組の番組音声を高精度に音声認識することが可能な音響モデルを学習するための音声言語コーパスを生成することができる。
〔音声言語コーパス生成装置の構成〕
以下、図1を参照して、音声言語コーパス生成装置1の構成について説明する。
図1に示すように、音声言語コーパス生成装置1は、ミスマッチ確率学習手段10と、音響モデル記憶手段20と、ミスマッチ確率記憶手段30と、音声言語コーパス選択手段40と、音声言語コーパス記憶手段50と、を備える。
ミスマッチ確率学習手段10は、書き起こしTCに対して字幕テキストSTの単語が一致(マッチ)しない確率(ミスマッチ確率)をミスマッチのパターンごとに学習するものである。
ここでは、ミスマッチ確率学習手段10は、音声認識手段11と、ミスマッチ確率算出手段12と、を備える。
音声認識手段11は、番組音声を音声認識するものである。ここでは、音声認識手段11は、音響モデル記憶手段20に記憶されている音響モデル、言語モデル記憶手段(不図示)に記憶されている言語モデルおよび発音辞書記憶手段(不図示)に記憶されている発音辞書を用いて、入力された番組音声SSを、人が発話した音声区間(発話区間)ごとに音声認識する。
この音声認識手段11は、認識結果である認識仮説SRを、ミスマッチ確率算出手段12に出力する。
ミスマッチ確率算出手段12は、字幕テキストSTと認識仮説SRとの単語の対応パターンごとに、字幕テキストSTと書き起こしTCとがミスマッチする確率(ミスマッチ確率)を対応付けたミスマッチ確率テーブルを生成するものである。
ここでは、ミスマッチ確率算出手段12は、アライメント手段12aと、確率算出手段12bと、を備える。
アライメント手段12aは、音声認識手段11で音声認識された発話区間の単語列ごとに、認識仮説SR、字幕テキストSTおよび書き起こしTCを単語単位でアライメントするものである。なお、単語単位のアライメントは、一般的な手法を用いればよく、DPマッチング(動的計画法)等を用いることができる。
このアライメント手段12aは、発話区間ごとに、アライメント結果を確率算出手段12bに出力する。
確率算出手段12bは、字幕テキストSTと認識仮説SRとの単語の対応パターンごとに、字幕テキストSTと書き起こしTCとのミスマッチ確率を算出するものである。
すなわち、確率算出手段12bは、字幕テキストSTと認識仮説SRとがどのような対応パターンであるときに、字幕テキストSTが、書き起こしTCに対してどのようなパターン(ミスマッチパターン)で、また、どれだけの確率でミスマッチが発生するのかを算出する。この書き起こしTCは、音声認識に誤りがなければ認識仮説SRと一致し、認識仮説SRに対する正しい単語列を示すことになる。そこで、ここでは、確率算出手段12bは、書き起こしTCを基準(正解)としてミスマッチ確率を算出する。
ここで、図2,図3を参照して、字幕テキストSTと認識仮説SRとの対応パターンについて説明する。
図2に示すように、字幕テキストSTと認識仮説SRとの対応パターンは、4つ(対応パターンI〜IV)ある。
対応パターンIは、認識仮説SRの単語(単語a)に対応する字幕テキストSTの単語が存在しないパターンである。例えば、図3(a)の字幕テキストSTの「(**) 四十 年 間 元気 に …」という発話区間の単語列(ただし、**は単語なしを示す)に対して、認識仮説SRの「もう 四十 年 か 元気 に …」が発話区間として対応している例において、認識仮説SRの単語「もう」が、字幕テキストSTには存在せず、認識仮説SRだけに挿入された場合である。
対応パターンIIは、対応する字幕テキストSTの単語(単語b)と認識仮説SRの単語(単語c)とが異なるパターンである。例えば、図3(a)の例において、字幕テキストSTの単語「間」に対して、認識仮説SRの単語「か」という異なる単語が対応している場合である。
対応パターンIIIは、字幕テキストSTの単語(単語d)に対応する認識仮説SRの単語が存在しないパターンである。例えば、図3(b)の字幕テキストSTの「(**) 長さ が 四 cm ぐらい に …」という発話区間の単語列(ただし、**は単語なしを示す)に対して、認識仮説SRの「うん 長さ (**) 四 cm ぐらい に …」が発話区間として対応している例において、字幕テキストSTの単語「が」が、認識仮説SRには存在せず、認識仮説SRで削除された場合である。
対応パターンIVは、対応する字幕テキストSTの単語(単語e)と認識仮説SRの単語(単語e)とが同一のパターンである。例えば、図3(b)の例において、字幕テキストSTの単語「長さ」に対して、認識仮説SRの単語「長さ」という同じ単語が対応している場合である。
次に、図4,図5を参照して、単語のアライメント後における字幕テキストSTと書き起こしTCとのミスマッチパターンについて説明する。
図4に示すように、字幕テキストSTと書き起こしTCとの間には、基本的に、図2で説明した字幕テキストSTと認識仮説SRとの間の対応パターンと同様のパターンが存在する。
ここでは、パターンを区別するため、字幕テキストSTと認識仮説SRとの間の対応パターンIに相当する字幕テキストSTと書き起こしTCとの間のパターンを削除ミスマッチDと呼ぶ。同様に、対応パターンIIに相当するパターンを置換ミスマッチS、対応パターンIIIに相当するパターンを挿入ミスマッチIと呼ぶ。なお、対応パターンIVに相当するパターンは、ミスマッチではないが、図4では、図2との対応関係を明確にするため、便宜上、正解Cとして図示しておく。
削除ミスマッチDは、書き起こしTCの単語(単語a)が字幕テキストSTの単語に対応しないパターンである。例えば、図5の例において、字幕テキストSTには対応しない書き起こしTCの単語「もう」または他の単語が存在するパターンである。すなわち、字幕テキストSTにおいて、書き起こしTCの単語が削除されているパターンである。
なお、この削除ミスマッチDは、字幕テキストSTには対応する単語が存在しないため、図5に示すように、対応パターンIにおいてのみ発生するパターンである。
置換ミスマッチSは、対応する字幕テキストSTの単語(単語b)と書き起こしTCの単語(単語c)とが異なるパターンである。例えば、図5の例において、字幕テキストSTの単語「間」が、書き起こしTCにおいて、「間」以外の異なる単語に対応するパターンである。
挿入ミスマッチIは、字幕テキストSTの単語(単語d)が書き起こしTCの単語に対応しないパターンである。例えば、図5の例において、字幕テキストSTの単語「間」が、書き起こしTCにおいて、「**(単語なし)」に対応するパターンである。すなわち、字幕テキストSTにおいて、書き起こしTCにはない単語が挿入されているパターンである。
なお、置換ミスマッチSおよび挿入ミスマッチIは、字幕テキストSTの対応する単語が存在する対応パターンII〜IVにおいて発生するパターンであり、対応パターンIでは発生しない。
図1に戻って、音声言語コーパス生成装置1の構成について説明を続ける。
確率算出手段12bは、まず、図2で説明した対応パターンごとに、字幕テキストSTと認識仮説SRとの間の対応する対の数を累計することで、対応パターン数を算出する。また、確率算出手段12bは、図2で説明した対応パターンごとに、図4で説明したミスマッチパターンである字幕テキストSTと書き起こしTCとの間の対応する対の数を累計することで、それぞれの対応パターンにおけるミスマッチ数を算出する。
そして、確率算出手段12bは、対応パターン数とそれぞれの対応パターンにおけるミスマッチ数とから、ミスマッチ確率を算出する。
具体的には、確率算出手段12bは、対応パターンIの対応パターン数をN、対応パターンIにおける削除ミスマッチDのミスマッチ数をNI,Dとしたとき、以下の式(1)により、対応パターンIにおける削除ミスマッチDのミスマッチ確率PI,Dを算出する。
Figure 2017045027
同様に、確率算出手段12bは、対応パターンIIの対応パターン数をNII、対応パターンIIにおける置換ミスマッチSのミスマッチ数をNII,Sとしたとき、また、対応パターンIIにおける挿入ミスマッチIのミスマッチ数をNII,Iとしたとき、以下の式(2)により、対応パターンIIにおける置換ミスマッチSのミスマッチ確率PII,Sおよび挿入ミスマッチIのミスマッチ確率PII,Iを算出する。
Figure 2017045027
なお、確率算出手段12bは、対応パターンIII,IVにおけるミスマッチ確率についても、対象とする対応パターンが異なるだけで、対応パターンIIと同様に算出する。
この確率算出手段12bは、図6に例示したように、対応パターンとミスマッチパターンとにミスマッチ確率を対応付けたミスマッチ確率テーブルを生成し、ミスマッチ確率記憶手段30に記憶する。
音響モデル記憶手段20は、音声認識に用いる音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。この音響モデル記憶手段20に記憶される音響モデルは、大量の音声データから予め学習した音素ごとの音響特徴量(メル周波数ケプストラム係数等)を隠れマルコフモデル(HMM:Hidden Markov Model)によってモデル化したものである。この音響モデルは、例えば、従来の音声認識において用いられるトライフォンHMMである。
この音響モデル記憶手段20は、番組音声を音声認識する際に、音声認識手段11,41によって参照される。
ミスマッチ確率記憶手段30は、ミスマッチ確率学習手段10(ミスマッチ確率算出手段12)で生成されたミスマッチ確率テーブルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
このミスマッチ確率記憶手段30は、音声言語コーパス選択手段40によって参照される。
音声言語コーパス選択手段40は、入力される番組音声SSおよびそれに対応する字幕テキストSTから、特定の番組の音声認識用の音響モデルを学習するために適した音声言語コーパスを選択するものである。
ここで、番組音声SSおよび字幕テキストSTは、音声言語コーパスの候補となるもの(コーパス候補番組音声およびコーパス候補字幕テキスト)で、ミスマッチ確率学習手段10で学習された特定の番組と同じ分類に属する番組の番組音声および字幕テキストである。
ここでは、音声言語コーパス選択手段40は、音声認識手段41と、コーパス選択手段42と、を備える。
音声認識手段41は、番組音声を音声認識するものである。ここでは、音声認識手段41は、音響モデル記憶手段20に記憶されている音響モデル、言語モデル記憶手段(不図示)に記憶されている言語モデルおよび発音辞書記憶手段(不図示)に記憶されている発音辞書を用いて、入力された番組音声(コーパス候補番組音声)SSを、人が発話した音声区間(発話区間)ごとに音声認識する。
この音声認識手段41は、認識結果である認識仮説(コーパス候補認識仮説)SRを、コーパス選択手段42に出力する。
なお、音声認識手段41の代わりに、音声認識手段11の入力と出力とを切り替えることで、音声認識手段11を用いることとしてもよい。
コーパス選択手段42は、音声認識手段41で認識された認識仮説(コーパス候補認識仮説)SR、および、対応する字幕テキスト(コーパス候補字幕テキスト)STに基づいて、特定の番組の音声認識用の音響モデルを学習するための音声言語コーパスを選択するものである。
ここでは、コーパス選択手段42は、アライメント手段42aと、誤り率推定手段42bと、適否判定手段42cと、を備える。
アライメント手段42aは、音声認識手段41で音声認識された発話区間の単語列ごとに、認識仮説SRおよび字幕テキストSTを単語単位でアライメントするものである。
このアライメント手段42aは、発話区間ごとに、アライメント結果を誤り率推定手段42bに出力する。
誤り率推定手段(誤り率算出手段)42bは、認識仮説SRに対する字幕テキストSTの誤り率を推定(算出)するものである。
この誤り率推定手段42bは、事前に学習してあるミスマッチ確率記憶手段30に記憶されているミスマッチ確率テーブルを参照し、発話区間ごとに、字幕テキストSTの誤り率を推定する。
なお、字幕テキストと書き起こしとのアライメント結果において、正解となる書き起こしの単語を基準として、図4で説明した正解Cの単語数をC、削除ミスマッチDの単語数をD、置換ミスマッチSの単語数をS、挿入ミスマッチIの単語数をIとしたとき、字幕テキストの誤り率Rは、以下の式(3)で表すことができる。ただし、挿入ミスマッチIの単語数Iは、挿入ミスマッチIが発生した字幕テキストの単語数である。
Figure 2017045027
ここで、発話区間jにおいて対応パターンkに対応する対の数をN としたとき、発話区間jの単語数C,D,S,Iは、図6で説明したミスマッチ確率を用いると以下の式(4)〜式(7)で表すことができる。
Figure 2017045027
前記式(3)に、前記式(4)〜式(7)を代入してまとめることで、発話区間jにおける字幕テキストの誤り率の期待値E[R ]は、以下の式(8)で表すことができる。
Figure 2017045027
誤り率推定手段42bは、この式(8)で計算した字幕テキストの誤り率の期待値を、発話区間ごとの字幕テキストの誤り率として推定する。
この誤り率推定手段42bは、推定した発話区間ごとの字幕テキストの誤り率を適否判定手段42cに出力する。
適否判定手段(コーパス適否判定手段)42cは、発話区間ごとの字幕テキストSTの誤り率と、予め定めた閾値とを比較し、字幕テキストSTとそれに対応する番組音声SSとが、音声言語コーパスとして適しているか否かを判定するものである。
この適否判定手段42cは、誤り率推定手段42bで推定された発話区間の字幕テキストの誤り率が、閾値(例えば、15%)以下であれば、音声言語コーパスとして適していると判定し、当該発話区間の字幕テキストSTと、対応する番組音声SSとを、音声言語コーパスとして選択する。ここでは、適否判定手段42cは、選択した音声言語コーパスを音声言語コーパス記憶手段50に記憶する。
音声言語コーパス記憶手段50は、音声言語コーパス選択手段40(コーパス選択手段42)で選択された音声言語コーパスを記憶するもので、ハードディスク等の一般的な記憶媒体である。
以上説明したように音声言語コーパス生成装置1を構成することで、音声言語コーパス生成装置1は、特定の番組(例えば、過去に放送した放送番組)で学習した番組音声に対する字幕テキストのミスマッチ確率から、高精度な音響モデルを学習するため必要となる音声言語コーパスを生成することができる。
なお、音声言語コーパス生成装置1は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音声言語コーパス生成プログラム)で動作させることができる。
〔音声言語コーパス生成装置の動作〕
次に、音声言語コーパス生成装置1の動作について説明する。ここでは、事前準備段階としてミスマッチ確率を学習する動作(ミスマッチ確率学習動作)と、ミスマッチ確率に基づいて音声言語コーパスを選択する動作(コーパス選択動作)とに分けて説明する。
(ミスマッチ確率学習動作)
最初に、図7を参照(構成については適宜図1参照)して、ミスマッチ確率学習動作について説明する。
まず、音声言語コーパス生成装置1は、音声認識手段11によって、番組音声SSを発話区間ごとに音声認識して、認識仮説SRを生成する(ステップS1)。
そして、音声言語コーパス生成装置1は、ミスマッチ確率算出手段12のアライメント手段12aによって、ステップS1で生成された認識仮説SRと、字幕テキストSTと書き起こしTCとを単語単位でアライメントする(ステップS2)。
そして、音声言語コーパス生成装置1は、確率算出手段12bによって、字幕テキストおよび認識仮説の対応パターン(図2参照)ごとに、字幕テキストおよび書き起こしに発生するミスマッチパターン(図4参照)の確率(ミスマッチ確率)を算出する(ステップS3)。
さらに、音声言語コーパス生成装置1は、確率算出手段12bによって、ステップS3で算出されたミスマッチ確率を、対応パターンおよびミスマッチパターンに対応付けたミスマッチ確率テーブルとして、ミスマッチ確率記憶手段30に記憶する(ステップS4)。
以上の動作によって、音声言語コーパス生成装置1は、特定の番組において、字幕テキストと、番組音声の認識結果である認識仮説とが、どのような対応パターンであるときに、字幕テキストが、正解の基準となる書き起こしに対して、どのようなミスマッチパターンをどれだけの確率で発生させるのかを学習することができる。
(コーパス選択動作)
次に、図8を参照(構成については適宜図1参照)して、コーパス選択動作について説明する。
まず、音声言語コーパス生成装置1は、音声認識手段41によって、番組音声SSを発話区間ごとに音声認識して、認識仮説SRを生成する(ステップS10)。
そして、音声言語コーパス生成装置1は、コーパス選択手段42のアライメント手段42aによって、ステップS10で生成された認識仮説SRと、字幕テキストSTとを単語単位でアライメントする(ステップS11)。
そして、音声言語コーパス生成装置1は、コーパス選択手段42によって、最初の発話区間を設定(ここでは、内部変数として、jに“1”を設定)する(ステップS12)。
そして、音声言語コーパス生成装置1は、コーパス選択手段42の誤り率推定手段42bによって、前記式(8)により、字幕テキストの誤り率を算出する(ステップS13)。
そして、音声言語コーパス生成装置1は、コーパス選択手段42の適否判定手段42cによって、ステップS13で算出された誤り率が、閾値以下であるか否かを判定する(ステップS14)。
ここで、誤り率が閾値以下であれば(ステップS14でYes)、適否判定手段42cは、この発話区間jの番組音声と字幕テキストとを、コーパス(音声言語コーパス)として選択し、音声言語コーパス記憶手段50に記憶する(ステップS15)。そして、音声言語コーパス生成装置1は、ステップS16に動作を進める。
一方、誤り率が閾値よりも大きければ(ステップS14でNo)、音声言語コーパス生成装置1は、当該発話区間jをコーパスとすることなく、ステップS16に動作を進める。
そして、音声言語コーパス生成装置1は、コーパス選択手段42によって、すべての発話区間において、コーパスの適否判定を行ったか否かを判定する(ステップS16)。
ここで、すべての発話区間において適否判定が完了していない場合(ステップS16でNo)、音声言語コーパス生成装置1は、ステップS17において、次の発話区間を設定(内部変数として、jに“1”を加算)し、ステップS13に動作を進める。
一方、すべての発話区間において適否判定が完了した場合(ステップS16でYes)、動作を終了する。
以上の動作によって、音声言語コーパス生成装置1は、予め学習したミスマッチ確率に基づいて、番組音声と字幕テキストとの対から、発話区間ごとに、音響モデルを生成するために適した番組音声および字幕テキストのみを、音声言語コーパスとして選択することができる。
≪第2実施形態≫
〔音声言語コーパス生成装置の概要〕
次に、図9を参照して、本発明の第2実施形態に係る音声言語コーパス生成装置1Bの概要について説明する。
第1実施形態に係る音声言語コーパス生成装置1(図1参照)では、音声言語コーパスを選択する基準となる閾値を固定としていた。
この第2実施形態に係る音声言語コーパス生成装置1Bは、音声言語コーパス生成装置1に対して、閾値を調整する機能を付加している。
すなわち、音声言語コーパス生成装置1Bは、予め定めた閾値で音声言語コーパス選択手段40が音声言語コーパスを選択した後、音声認識の認識率を高める方向に閾値を適応的に変化させて音声言語コーパスを生成する。
以下、音声言語コーパス生成装置1と異なる点を中心に説明する。
〔音声言語コーパス生成装置の構成〕
図9を参照して、音声言語コーパス生成装置1Bの構成について説明する。
図9に示すように、音声言語コーパス生成装置1Bは、ミスマッチ確率学習手段10と、音響モデル記憶手段20,20Bと、ミスマッチ確率記憶手段30と、音声言語コーパス選択手段40と、音声言語コーパス記憶手段50と、音響モデル学習手段60と、コーパス判定閾値決定手段70と、を備える。
音響モデル記憶手段20B、音響モデル学習手段60およびコーパス判定閾値決定手段70以外の構成は、図1で説明した音声言語コーパス生成装置1と同じ構成であるため、同一の符号を付して説明を省略する。
音響モデル記憶手段20Bは、音声認識に用いる音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。この音響モデル記憶手段20Bには、音響モデル学習手段60で学習された音響モデルが記憶される。
この音響モデル記憶手段20Bに記憶される音響モデルは、ミスマッチ確率を考慮して選択された音声言語コーパス記憶手段50に記憶されている音声言語コーパスから学習したものであるため、音響モデル記憶手段20に記憶される音響モデルに比べ、特定の番組に対する音声認識に適した(単語誤り率の低い)音響モデルとなっている。
この音響モデル記憶手段20Bは、番組音声を音声認識する際に、音声認識手段71によって参照される。
音響モデル学習手段60は、音声言語コーパス記憶手段50に記憶されている音声言語コーパスから、音響モデルを学習するものである。この音響モデル学習手段60は、学習により生成した音響モデルを音響モデル記憶手段20Bに記憶する。
なお、音声言語コーパスである音声データ(番組音声)およびテキスト(字幕テキスト)から音響モデルを学習する手法は、一般的な手法を用いればよいため、ここでは説明を省略する。
コーパス判定閾値決定手段70は、入力される特定の番組の番組音声(閾値調整用番組音声)SSおよびその書き起こし(閾値調整用書き起こし)TCから、音声言語コーパス選択手段40の適否判定手段42c(図1参照)で使用する閾値を決定するものである。なお、コーパス判定閾値決定手段70に入力される番組音声SSおよび書き起こしTCは、対象となる特定の番組と同一に分類される番組の音声および書き起こしであればよい。
ここでは、コーパス判定閾値決定手段70は、音声認識手段71と、閾値決定手段72と、を備える。
音声認識手段71は、番組音声を音声認識するものである。ここでは、音声認識手段71は、音響モデル記憶手段20Bに記憶されている音響モデル、言語モデル記憶手段(不図示)に記憶されている言語モデルおよび発音辞書記憶手段(不図示)に記憶されている発音辞書を用いて、入力された番組音声SSを、人が発話した音声区間(発話区間)ごとに音声認識する。
この音声認識手段71は、認識結果である認識仮説(閾値調整用認識仮説)SRを、閾値決定手段72に出力する。
なお、音声認識手段71の代わりに、音声認識手段11(図1参照)の入力と出力とを切り替えることで、音声認識手段11を用いることとしてもよい。
閾値決定手段72は、音声認識手段71で認識された認識仮説SRの認識率を向上させるように、音声言語コーパス選択手段40で使用する閾値を決定するものである。
ここでは、閾値決定手段72は、アライメント手段72aと、認識率算出手段72bと、閾値適応化手段72cと、を備える。
アライメント手段72aは、音声認識手段71で音声認識された発話区間の単語列ごとに、認識仮説SRおよび書き起こしTCを単語単位でアライメントするものである。
このアライメント手段72aは、発話区間ごとに、アライメント結果を認識率算出手段72bに出力する。
認識率算出手段72bは、音声認識手段71における認識率を算出するものである。この認識率算出手段72bは、アライメント後の認識仮説SRおよび書き起こしTCを単語ごとに比較し、正解である書き起こしTCに対する認識仮説SRの正解率を、音声認識の認識率として算出する。
この認識率算出手段72bは、算出した認識率を閾値適応化手段72cに出力する。
閾値適応化手段72cは、認識率算出手段72bで算出される認識率を向上させる方向に、音声言語コーパス選択手段40で使用する閾値を適応化するものである。
この閾値適応化手段72cは、前回算出した認識率を保持しておき、認識率が向上する方向に閾値を適応化する。例えば、閾値適応化手段72cは、格子探索法、勾配法といった一般的な最適化手法により閾値を適応化する。
以上説明したように音声言語コーパス生成装置1Bを構成することで、音声言語コーパス生成装置1Bは、音声言語コーパス生成装置1に対してさらに音声認識の認識率を高めた音響モデルを学習するための音声言語コーパスを生成することができる。
なお、音声言語コーパス生成装置1Bは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音声言語コーパス生成プログラム)で動作させることができる。
〔音声言語コーパス生成装置の動作〕
次に、図10を参照(構成については適宜図9参照)して、音声言語コーパス生成装置1Bの動作について説明する。なお、事前準備段階としてミスマッチ確率を学習する動作(ミスマッチ確率学習動作)と、ミスマッチ確率に基づいて音声言語コーパスを選択する動作(コーパス選択動作)は、図7,図8で説明した音声言語コーパス生成装置1と同じであるため、説明を省略する。
ここでは、図8のステップS14で使用する閾値を決定する動作(閾値決定動作)について説明する。なお、この閾値決定動作は、音声言語コーパス生成装置1Bが予め定めた閾値で、図8で説明した動作を実行後、適宜、1回以上実行する動作である。
(閾値決定動作)
図10に示すように、まず、音声言語コーパス生成装置1Bは、音響モデル学習手段60によって、図8のコーパス選択動作で選択した音声言語コーパスから音響モデルを学習する(ステップS20)。
そして、音声言語コーパス生成装置1Bは、音声認識手段71によって、番組音声SSを発話区間ごとに音声認識して、認識仮説SRを生成する(ステップS21)。
その後、音声言語コーパス生成装置1Bは、閾値決定手段72のアライメント手段72aによって、ステップS21で生成された認識仮説SRと、書き起こしTCとを単語単位でアライメントする(ステップS22)。
そして、音声言語コーパス生成装置1Bは、閾値決定手段72の認識率算出手段72bによって、認識仮説SRおよび書き起こしTCを単語ごとに比較し、正解である書き起こしTCに対する認識仮説SRの正解率を、音声認識の認識率として算出し、保持する(ステップS23)。
さらに、音声言語コーパス生成装置1Bは、閾値決定手段72の閾値適応化手段72cによって、ステップS23で算出された認識率を、前回算出し、保持されている認識率よりも高くする方向に閾値を適応化させて、その値を決定する(ステップS24)。
以上の動作によって、音声言語コーパス生成装置1Bは、音響モデルを学習するために適した音声言語コーパスを、特定の番組に応じて最適化した閾値を設定することができる。これによって、音声言語コーパス生成装置1Bは、音声言語コーパス生成装置1に対してさらに音声認識の認識率を高めた音響モデルを学習するための音声言語コーパスを生成することができる。
≪実施例≫
ここで、図11,図12を参照して、ミスマッチ確率テーブルの具体例について説明する。ここでは、NHKの6本の放送番組(それぞれ10〜15時間程度)を用いて生成したミスマッチ確率テーブルについて示す。
6番組分の字幕テキストと音声認識結果(認識仮説)とは、図11に示すような割合(%)で、それぞれの対応パターンI〜IVに対応していた。
そして、音声言語コーパス生成装置1,1Bでは、この6本の放送番組について、図12に示すようなミスマッチ確率テーブルを生成した。
例えば、放送番組「クローズアップ現代」について、図11で対応パターンIに分類された19.9%の単語のうち、図12に示すように、削除ミスマッチDが77.8%発生している。
このように、ミスマッチ確率は、放送番組ごとにパターン化することができ、特定の特徴を有することになる。
本発明では、この特徴を利用して、字幕テキストを音響モデルのコーパスとして利用可能な否かを判定することで、特定の番組に適したコーパスを生成することが可能になる。
なお、従来手法である分類を考慮せずに学習した音響モデルを用いて音声認識したときの単語誤り率が18.1%であったのに対し、本発明によって閾値を15%として生成した音声言語コーパスから学習した音響モデルを用いた場合、単語誤り率が15.3%と改善した。
≪第3実施形態≫
〔音声言語コーパス生成装置の概要〕
次に、図13を参照して、本発明の第3実施形態に係る音声言語コーパス生成装置1Cの概要について説明する。
第1実施形態に係る音声言語コーパス生成装置1(図1参照)では、特定の番組ごとに、番組音声に対する字幕テキストのミスマッチの傾向に基づいて、字幕テキストの誤り率を推定している。
この第3実施形態に係る音声言語コーパス生成装置1Cは、音声言語コーパス生成装置1に対して、さらにミスマッチの傾向を単語の属性ごとに細分化して求め、字幕テキストの誤り率の精度を高めるものである。
以下、音声言語コーパス生成装置1と異なる点を中心に説明する。
〔音声言語コーパス生成装置の構成〕
図13を参照して、音声言語コーパス生成装置1Cの構成について説明する。
図13に示すように、音声言語コーパス生成装置1Cは、ミスマッチ確率学習手段10Bと、音響モデル記憶手段20と、ミスマッチ確率記憶手段30Bと、音声言語コーパス選択手段40Bと、音声言語コーパス記憶手段50と、を備える。
音響モデル記憶手段20および音声言語コーパス記憶手段50は、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。
ミスマッチ確率学習手段10Bは、書き起こしTCに対して字幕テキストSTの単語が一致(マッチ)しない確率(ミスマッチ確率)をミスマッチのパターンと単語の属性ごとに学習するものである。
ここでは、ミスマッチ確率学習手段10Bは、音声認識手段11と、ミスマッチ確率算出手段12Bと、属性解析手段13と、を備える。音声認識手段11は、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。以下、属性解析手段13、ミスマッチ確率算出手段12Bの順に説明する。
属性解析手段13は、字幕テキストSTの各単語の属性を解析するものである。ここでは、属性解析手段13は、字幕テキストSTの各単語の品詞を属性ATとして解析する。すなわち、属性解析手段13は、一般的な形態素手段、例えば、MeCab等で構成することができる。
この属性解析手段13は、解析結果となる属性(品詞)ATを、字幕テキストSTの各単語に対応付けて、ミスマッチ確率算出手段12Bに出力する。
なお、属性解析手段13が解析する属性は、必ずしも単語の品詞に限るものではない。例えば、属性解析手段13は、字幕テキストの単語の発話文頭からの数、発話文末からの数のいずれか一方または両方を単語の属性として解析することしてもよい。その場合、文頭または文末からの数には上限(例えば、“5”)を設け、分類がスパース(疎)にならないようにすることが好ましい。
このように、文頭または文末からの数を属性とすることで、番組音声の音声ファイルが発話の区切りから僅かに前後して分割され、発話区間の前部分に前の発話区間の文末が混入したり、発話区間の後部分に後の発話区間の前文が混入したり等をミスマッチ確率の計算に反映させることができる。また、文末表現は字幕作成時に人手で修正されやすい傾向があるため、文末からの数を属性とすることで、この傾向をミスマッチ確率の計算に反映させることができる。
なお、以降では、属性解析手段13が単語の属性として品詞を解析した例で説明する。
ミスマッチ確率算出手段12Bは、字幕テキストSTと認識仮説SRとの単語の対応パターンおよび単語の属性(品詞)ごとに、字幕テキストSTと書き起こしTCとがミスマッチする確率(ミスマッチ確率)を対応付けたミスマッチ確率テーブルを生成するものである。
ここでは、ミスマッチ確率算出手段12Bは、アライメント手段12aと、確率算出手段12Bbと、を備える。アライメント手段12aは、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。
確率算出手段12Bbは、字幕テキストSTと認識仮説SRとの単語の対応パターンおよび単語の属性(品詞)ごとに、字幕テキストSTと書き起こしTCとのミスマッチパターンの確率(ミスマッチ確率)を算出するものである。
なお、単語の対応パターンは、図2,図3で説明したパターンと同じである。また、ミスマッチパターンは、図4,図5で説明したパターンと同じである。
この確率算出手段12Bbは、基本的に確率算出手段12b(図1)と同様のミスマッチ確率を算出するが、その確率の算出を品詞ごとに行う。ただし、図2に示すように、対応パターンIは、字幕テキストで対応する単語がないため対応する品詞はなく、前記式(1)と同様の計算を行う。
一方、パターンII〜IVについては、確率算出手段12Bbは、品詞ごとにミスマッチ確率を算出する。
すなわち、確率算出手段12Bbは、対応パターンIIの品詞hの対応パターン数をNII,h、対応パターンIIにおける置換ミスマッチSのミスマッチ数をNII,S,hとしたとき、また、対応パターンIIにおける挿入ミスマッチIのミスマッチ数をNII,I,hとしたとき、以下の式(9)により、対応パターンIIの品詞hにおける置換ミスマッチSのミスマッチ確率PII,S,hおよび挿入ミスマッチIのミスマッチ確率PII,I,hを算出する。
Figure 2017045027
なお、確率算出手段12Bbは、対応パターンIII,IVにおけるミスマッチ確率についても、対象とする対応パターンが異なるだけで、対応パターンIIと同様に算出する。
この確率算出手段12Bbは、図14に例示したように、対応パターンとミスマッチパターンとに属性(品詞)ごとのミスマッチ確率を対応付けたミスマッチ確率テーブルを生成し、ミスマッチ確率記憶手段30Bに記憶する。
ミスマッチ確率記憶手段30Bは、ミスマッチ確率学習手段10B(ミスマッチ確率算出手段12B)で生成されたミスマッチ確率テーブルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
このミスマッチ確率記憶手段30Bは、音声言語コーパス選択手段40Bによって参照される。
音声言語コーパス選択手段40Bは、入力される番組音声SSおよびそれに対応する字幕テキストSTから、特定の番組の音声認識用の音響モデルを学習するために適した音声言語コーパスを選択するものである。なお、番組音声SSおよび字幕テキストSTは、図1で説明したものと同じである。
ここでは、音声言語コーパス選択手段40Bは、音声認識手段41と、コーパス選択手段42Bと、属性解析手段43と、を備える。音声認識手段41は、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。
コーパス選択手段42Bは、音声認識手段41で認識された認識仮説(コーパス候補認識仮説)SR、および、対応する字幕テキスト(コーパス候補字幕テキスト)STに基づいて、特定の番組の音声認識用の音響モデルを学習するための音声言語コーパスを選択するものである。
ここでは、コーパス選択手段42Bは、アライメント手段42aと、誤り率推定手段42Bbと、適否判定手段42cと、を備える。アライメント手段42aおよび適否判定手段42cは、図1で説明した音声言語コーパス生成装置1と同じ構成であるため説明を省略する。
誤り率推定手段(誤り率算出手段)42Bbは、認識仮説SRに対する字幕テキストSTの誤り率を推定(算出)するものである。
この誤り率推定手段42Bbは、事前に学習してあるミスマッチ確率記憶手段30Bに記憶されているミスマッチ確率テーブルを参照し、発話区間ごとに、字幕テキストSTの誤り率を推定する。
すなわち、誤り率推定手段42Bbは、前記式(8)の代わりに、ミスマッチ確率を属性ごとに細分化した以下の式(10)により、発話区間jにおける字幕テキストの誤り率の期待値E[R ]を算出する。
Figure 2017045027
ここで、Nk,h は、発話区間jにおける品詞hごとの対応パターンkに対応する対の数である。なお、この品詞hは、属性解析手段43によって解析されたものである。
誤り率推定手段42Bbは、この式(10)で計算した字幕テキストの誤り率の期待値を、発話区間ごとの字幕テキストの誤り率として、適否判定手段42cに出力する。
以上説明したように音声言語コーパス生成装置1Cを構成することで、音声言語コーパス生成装置1Cは、番組音声に対する字幕テキストのミスマッチの傾向を単語の属性(品詞等)ごとに細分化して求め、字幕テキストの誤り率の精度を高めることができ、音声言語コーパス生成装置1に比べて、さらに、高精度な音響モデルを学習するため必要となる音声言語コーパスを生成することができる。
属性解析手段43は、字幕テキストSTの各単語の属性を解析するものである。この属性解析手段43は、属性解析手段13と同じ属性を解析することとする。
この属性解析手段43は、解析結果となる属性(品詞)ATを、字幕テキストSTの各単語に対応付けて、コーパス選択手段42Bに出力する。
なお、音声言語コーパス生成装置1Cは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音声言語コーパス生成プログラム)で動作させることができる。
〔音声言語コーパス生成装置の動作〕
次に、音声言語コーパス生成装置1Cの動作について説明する。
音声言語コーパス生成装置1Cの動作は、基本的には、図7,図8で説明した音声言語コーパス生成装置1の動作と同じであるが、以下の点が異なっている。
すなわち、音声言語コーパス生成装置1Cは、図7に示した動作において、ステップS1の前後、または、並行して、属性解析手段13によって、字幕テキストSTの各単語の属性を解析する。
また、音声言語コーパス生成装置1Cは、ステップS3で、ミスマッチ確率算出手段12Bの確率算出手段12Bbによって、字幕テキストおよび認識仮説の対応パターン(図2参照)および単語の属性(品詞等)ごとに、字幕テキストおよび書き起こしに発生するミスマッチパターン(図4参照)の確率(ミスマッチ確率)を算出する。
そして、音声言語コーパス生成装置1Cは、ステップS4で、確率算出手段12Bbによって、対応パターンとミスマッチパターンとに属性(品詞等)ごとのミスマッチ確率を対応付けたミスマッチ確率テーブルを生成し、ミスマッチ確率記憶手段30Bに記憶する。
また、音声言語コーパス生成装置1Cは、図8に示した動作において、ステップS13で、コーパス選択手段42Bの誤り率推定手段42Bbによって、前記式(10)により、字幕テキストの誤り率を算出する。
≪実施例≫
ここで、図15,図16を参照して、音声言語コーパス生成装置1Cで用いるミスマッチ確率テーブルの具体例について説明する。ここでは、NHKの放送番組「ひるまえ ほっと」(16時間程度)を用いて生成したミスマッチ確率テーブルについて示す。
字幕テキストの単語の属性(品詞)と音声認識結果(認識仮説)とは、図15に示すような割合(%)で、それぞれの対応パターンII〜IVに対応していた。ここで、パターンIは、認識仮説の単語が字幕テキストに対応しないパターンであるため、図15には存在しない。なお、参考までに、字幕テキストの単語を属性(品詞)で分類しない場合の割合(平均)を最下段に示している。
図15に示すように、品詞の分類を行わない平均に対し、例えば、感動詞については、字幕テキストと認識仮説とが一致する割合が低いことがわかる(対応パターンIV)。
図16に、音声言語コーパス生成装置1Cが、この放送番組について生成したミスマッチ確率テーブルを示す。
図16に示すように、例えば、感動詞の字幕テキストの単語と認識仮説の単語とが不一致(対応パターンII)の場合、ミスマッチ(置換ミスマッチS)の割合が高いことがわかる。
このように、図15,図16ともに、分類を行わなかった場合の割合から、大きく割合がずれる品詞が存在し、単語の品詞によって、字幕テキストの誤り率に影響を与えることが分かる。
本発明は、字幕テキストの単語の属性を考慮して、字幕テキストの誤り率を求めるため、特定の番組の音響モデルのコーパスとして、より適したコーパスを字幕テキストから選択することが可能になる。
≪第4実施形態≫
次に、図17を参照して、本発明の第4実施形態に係る音声言語コーパス生成装置1Dについて説明する。
第3実施形態に係る音声言語コーパス生成装置1C(図13参照)では、字幕テキストの単語の属性を、字幕テキストそのものを解析することで求めた。
しかし、この第4実施形態に係る音声言語コーパス生成装置1Dでは、字幕テキストSTに対応する番組音声SSの音量、音質等の音響特性を属性として、字幕テキストの単語の属性とする。
図17に示すように、音声言語コーパス生成装置1Dは、ミスマッチ確率学習手段10Cと、音響モデル記憶手段20と、ミスマッチ確率記憶手段30Bと、音声言語コーパス選択手段40Bと、音声言語コーパス記憶手段50と、を備える。
ミスマッチ確率学習手段10C、音声言語コーパス選択手段40C以外の構成は、図13で説明した音声言語コーパス生成装置1Cと同じ構成であり、使用する属性のみが異なっているため、ここでは説明を省略する。
ミスマッチ確率学習手段10Cは、書き起こしTCに対して字幕テキストSTの単語が一致(マッチ)しない確率(ミスマッチ確率)をミスマッチのパターンと単語の属性(ここでは、音響特性)ごとに学習するものである。
ここでは、ミスマッチ確率学習手段10Cは、音声認識手段11Bと、ミスマッチ確率算出手段12Cと、属性解析手段13Bと、を備える。
音声認識手段11Bは、番組音声を音声認識するものである。この音声認識手段11Bは、音声認識手段11(図1)と同じ機能に加え、認識結果である認識仮説SRに番組音声のタイムコードを付与する機能を有する。
この音声認識手段11Bは、タイムコードを付与した認識仮説SRをミスマッチ確率算出手段12Cに出力する。
属性解析手段13Bは、番組音声の音響特性を分類するものである。この属性解析手段13Bは、入力された番組音声SSを単語ごとに分類する。
例えば、属性解析手段13Bは、音響特性として、音量レベルを予め定めた範囲区分で分類したり、バックグラウンドの音(雑音、音楽等)の音質で分類したりすることができる。
なお、バックグラウンドの音に関する分類は、一般的手法、例えば、「参考文献:T.Butko and C.Nadeu,“Audio segmentation of broadcast news in the Albayzin-2010 evaluation: overview, results, and discussion”, EURASIP Journal on Audio, Speech, and Music Processing 2011」に記載の手法を用いることができる。
例えば、属性解析手段13Bは、この参考文献に記載の既知の手法によって、番組音声を、「音声」、「音楽」、「背景に雑音が重畳する音声」、「背景に音楽が重畳する音声」、「その他」の各属性に分類する。
この属性解析手段13Bは、分類した属性に、番組音声のタイムコードを付与してミスマッチ確率算出手段12Cに出力する。
ミスマッチ確率算出手段12Cは、字幕テキストSTと認識仮説SRとの単語の対応パターンおよび単語の属性(音響特性)ごとに、字幕テキストSTと書き起こしTCとがミスマッチする確率(ミスマッチ確率)を対応付けたミスマッチ確率テーブルを生成するものである。
ここでは、ミスマッチ確率算出手段12Cは、アライメント手段12Caと、確率算出手段12Cbと、を備える。
アライメント手段12Caは、音声認識手段11Bで音声認識された発話区間の単語列ごとに、認識仮説SR、字幕テキストSTおよび書き起こしTCを単語単位でアライメントするものである。このアライメント手段12Caは、アライメント手段12a(図1)と同じ機能に加え、認識仮説SRに対応する字幕テキストSTの単語に、認識仮説SRに付与されているタイムコート同じ時刻の音響分類手段14で分類された属性を対応付ける。
このアライメント手段12Caは、発話区間ごとに、アライメント結果を確率算出手段12Cbに出力する。
確率算出手段12Cbは、字幕テキストSTと認識仮説SRとの単語の対応パターンおよび単語の属性(音響特性)ごとに、字幕テキストSTと書き起こしTCとのミスマッチパターンの確率(ミスマッチ確率)を算出するものである。
この確率算出手段12Cbは、基本的に確率算出手段12Bb(図13)と同様のミスマッチ確率を算出するが、その確率の算出を音響特性ごとに行う。ただし、図2に示すように、対応パターンIIIは、認識仮説で対応する単語がないため対応する音響特性はなく、前記式(2)のように、属性を考慮せずに算出する。
音声言語コーパス選択手段40Cは、入力される番組音声SSおよびそれに対応する字幕テキストSTから、特定の番組の音声認識用の音響モデルを学習するために適した音声言語コーパスを選択するものである。なお、番組音声SSおよび字幕テキストSTは、図1で説明したものと同じである。
ここでは、音声言語コーパス選択手段40Cは、音声認識手段41と、コーパス選択手段42Bと、属性解析手段43Bと、を備える。音声認識手段41、コーパス選択手段42Bは、図13で説明した音声言語コーパス生成装置1Cと同じ構成であるため説明を省略する。
属性解析手段43Bは、字幕テキストSTの各単語の属性を解析するものである。この属性解析手段43Bは、属性解析手段13Bと同じ属性を解析することとする。
この属性解析手段43Bは、属性の解析結果を、コーパス選択手段42Bに出力する。
以上説明したように音声言語コーパス生成装置1Dを構成することで、音声言語コーパス生成装置1Dは、番組音声に対する字幕テキストのミスマッチの傾向を単語の属性(音響特性)ごとに細分化して求め、字幕テキストの誤り率の精度を高めることができ、音声言語コーパス生成装置1に比べて、さらに、高精度な音響モデルを学習するため必要となる音声言語コーパスを生成することができる。
なお、音声言語コーパス生成装置1Dは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音声言語コーパス生成プログラム)で動作させることができる。
音声言語コーパス生成装置1Dの動作については、属性を解析する対象が異なるだけで、基本的に音声言語コーパス生成装置1C(図13)と同じであるため、説明を省略する。
≪変形例≫
以上、本発明の実施形態に係る音声言語コーパス生成装置1(図1),1B(図9),1C(図13),1D(図17)の構成および動作について説明したが、本発明はこれらの実施形態に限定されるものではない。
例えば、ここでは、音声言語コーパス生成装置1,1B,1C,1Dの内部に音声認識手段11(11B),41,71を備える構成としたが、これらは、外部に備える構成であってもよい。
すなわち、音声言語コーパス生成装置1,1B,1C,1Dは、外部の音声認識手段で認識された認識仮説を入力することとしてもよい。
また、ここでは、音声言語コーパス生成装置1,1B,1C,1Dの内部に各記憶手段を備える構成としたが、これらの記憶手段は、音声言語コーパス生成装置1,1B,1C,1Dと分離した外部の記憶装置としてもよい。
また、ここでは、音声言語コーパス生成装置1,1B,1C,1Dは、ある特定の番組を対象として、1つ(1種類)の音声言語コーパスを生成することとした。
しかし、音声言語コーパス生成装置1,1B,1C,1Dは、タイトルの異なる複数の番組、あるいは、異なるジャンル(ニュース、スポーツ等)に分類される複数の番組といったように、所定の分類基準で分類されるそれぞれの番組に対して、対応する複数の音声言語コーパスを生成することとしてもよい。
その場合、音声言語コーパス生成装置1,1B,1C,1Dには、特定の番組を分類する識別情報を入力することとし、その分類に対応する番組音声、字幕テキスト、書き起こしを入力することとする。
そして、音声言語コーパス生成装置1,1B,1C,1Dは、ミスマッチ確率算出手段12(12B,12C)によって、図6または図14に示したミスマッチ確率テーブルを生成する際に、ミスマッチ確率を、特定の番組を分類する識別情報ごとに複数生成することとする。
そして、音声言語コーパス生成装置1,1B,1C,1Dは、コーパス選択手段42(42B)によって、ミスマッチ確率テーブルの所定の識別情報に対応するミスマッチ確率を参照して、誤り率を算出し、コーパスを選択すればよい。
また、音声言語コーパス生成装置1C,1Dは、音声言語コーパスを選択する基準となる閾値を固定としているが、音声言語コーパス生成装置1Bと同様に、さらに、音声言語コーパス記憶手段50と、音響モデル学習手段60と、コーパス判定閾値決定手段70と、音響モデル記憶手段20Bとを備えて閾値を適応化することとしてもよい。
1,1B 音声言語コーパス生成装置
10 ミスマッチ確率学習手段
11 音声認識手段
12 ミスマッチ確率算出手段
12a アライメント手段
12b 確率算出手段
13 属性解析手段
20 音響モデル記憶手段
20B 音響モデル記憶手段
30 ミスマッチ確率記憶手段
40 音声言語コーパス選択手段
41 音声認識手段
42 コーパス選択手段
42a アライメント手段
42b 誤り率推定手段(誤り率算出手段)
42c 適否判定手段(コーパス適否判定手段)
43 属性解析手段
50 音声言語コーパス記憶手段
60 音響モデル学習手段
70 コーパス判定閾値決定手段
71 音声認識手段
72 閾値決定手段
72a アライメント手段
72b 認識率算出手段
72c 閾値適応化手段

Claims (8)

  1. 特定の番組の音声認識に使用する音響モデルを学習するための音声言語コーパスを生成する音声言語コーパス生成装置であって、
    前記特定の番組の番組音声を音声認識した認識仮説と字幕テキストと書き起こしとから、前記字幕テキストと前記認識仮説との対応パターンに対応付けて、前記字幕テキストと前記書き起こしとが一致しないミスマッチ確率を算出するミスマッチ確率算出手段と、
    前記特定の番組と同じ分類に属する番組の前記音声言語コーパスの候補となるコーパス候補番組音声を音声認識したコーパス候補認識仮説と、予め付されたコーパス候補字幕テキストとの対応パターンに対応した前記ミスマッチ確率により、前記コーパス候補字幕テキストの発話区間ごとの誤り率を算出し、当該誤り率が閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを、前記音声言語コーパスとして選択するコーパス選択手段と、
    を備えることを特徴とする音声言語コーパス生成装置。
  2. 前記ミスマッチ確率算出手段は、
    前記認識仮説と前記字幕テキストと前記書き起こしとを単語単位でアライメントするアライメント手段と、
    アライメント結果の単語単位で、前記字幕テキストと前記認識仮説との対応パターンに対応付けて前記字幕テキストと前記書き起こしとが一致しない確率を前記ミスマッチ確率として算出する確率算出手段と、
    を備えることを特徴とする請求項1に記載の音声言語コーパス生成装置。
  3. 前記字幕テキストの単語の属性を解析する属性解析手段をさらに備え、
    前記ミスマッチ確率算出手段は、前記属性ごとに、前記ミスマッチ確率を算出することを特徴とする請求項1または請求項2に記載の音声言語コーパス生成装置。
  4. 前記属性は、単語の品詞であることを特徴とする請求項3に記載の音声言語コーパス生成装置。
  5. 前記コーパス選択手段は、
    前記コーパス候補認識仮説と前記コーパス候補字幕テキストとを単語単位でアライメントするアライメント手段と、
    アライメント結果の単語単位で、前記ミスマッチ確率により、前記コーパス候補字幕テキストの発話区間ごとの誤り率を算出する誤り率算出手段と、
    この誤り率算出手段で算出された誤り率と前記閾値とを比較し、閾値以下の発話区間のコーパス候補番組音声およびコーパス候補字幕テキストを、前記音声言語コーパスとして選択する適否判定手段と、
    を備えることを特徴とする請求項1から請求項4のいずれか一項に記載の音声言語コーパス生成装置。
  6. 前記コーパス選択手段で選択された音声言語コーパスを用いて、音響モデルを学習する音響モデル学習手段と、
    この音響モデル学習手段で学習された音響モデルを記憶する音響モデル記憶手段と、
    前記音響モデルを参照して、前記特定の番組と同じ分類に属する番組の閾値調整用番組音声を音声認識した閾値調整用認識仮説と、予め付された閾値調整用書き起こしとから、前記音声認識の認識率を算出する認識率算出手段と、
    前記認識率を向上させるように適宜前記閾値を調整する閾値適応化手段と、
    をさらに備えることを特徴とする請求項1から請求項5のいずれか一項に記載の音声言語コーパス生成装置。
  7. 前記特定の番組は、特定の番組名で分類される番組、特定のジャンルで分類される番組、または、字幕制作方法により分類される番組のいずれかであることを特徴とする請求項1から請求項6のいずれか一項に記載の音声言語コーパス生成装置。
  8. コンピュータを、請求項1から請求項7のいずれか一項に記載の音声言語コーパス生成装置として機能させるための音声言語コーパス生成プログラム。
JP2016031925A 2015-08-24 2016-02-23 音声言語コーパス生成装置およびそのプログラム Active JP6637332B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015165137 2015-08-24
JP2015165137 2015-08-24

Publications (2)

Publication Number Publication Date
JP2017045027A true JP2017045027A (ja) 2017-03-02
JP6637332B2 JP6637332B2 (ja) 2020-01-29

Family

ID=58210145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016031925A Active JP6637332B2 (ja) 2015-08-24 2016-02-23 音声言語コーパス生成装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP6637332B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858427A (zh) * 2019-01-24 2019-06-07 广州大学 一种语料提取方法、装置及终端设备
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
CN113468305A (zh) * 2021-06-29 2021-10-01 竹间智能科技(上海)有限公司 一种识别口语冗余成分的方法及装置
CN114996506A (zh) * 2022-05-24 2022-09-02 腾讯科技(深圳)有限公司 语料生成方法、装置、电子设备和计算机可读存储介质
US20230247188A1 (en) * 2022-02-01 2023-08-03 Comcast Cable Communications, Llc Caption Anomaly Detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248730A (ja) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP2010055030A (ja) * 2008-08-29 2010-03-11 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248730A (ja) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP2010055030A (ja) * 2008-08-29 2010-03-11 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
三村正人他: "統計的言語モデル変換を用いた音響モデルの準教師つき学習", 情報処理学会研究報告 音声言語情報処理(SLP), JPN6019045210, 15 August 2009 (2009-08-15), ISSN: 0004158354 *
奥貴裕他: "放送音声と字幕テキストを利用した音声言語コーパスの開発", 情報処理学会 研究報告 音声言語情報処理(SLP), vol. 2014−SLP−103, JPN6019045208, 17 October 2014 (2014-10-17), pages 1 - 5, ISSN: 0004158353 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858427A (zh) * 2019-01-24 2019-06-07 广州大学 一种语料提取方法、装置及终端设备
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110263322B (zh) * 2019-05-06 2023-09-05 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
CN113468305A (zh) * 2021-06-29 2021-10-01 竹间智能科技(上海)有限公司 一种识别口语冗余成分的方法及装置
US20230247188A1 (en) * 2022-02-01 2023-08-03 Comcast Cable Communications, Llc Caption Anomaly Detection
CN114996506A (zh) * 2022-05-24 2022-09-02 腾讯科技(深圳)有限公司 语料生成方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
JP6637332B2 (ja) 2020-01-29

Similar Documents

Publication Publication Date Title
US20200211529A1 (en) Systems and methods for multi-style speech synthesis
KR101413327B1 (ko) 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템
US20180114525A1 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
JP5149107B2 (ja) 音響処理装置およびプログラム
Huijbregts Segmentation, diarization and speech transcription: surprise data unraveled
JP6637332B2 (ja) 音声言語コーパス生成装置およびそのプログラム
JP4869268B2 (ja) 音響モデル学習装置およびプログラム
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Metze Articulatory features for conversational speech recognition
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP2013050605A (ja) 言語モデル切替装置およびそのプログラム
JP6637333B2 (ja) 音響モデル生成装置およびそのプログラム
Perero-Codosero et al. Exploring Open-Source Deep Learning ASR for Speech-to-Text TV program transcription.
Siohan CTC Training of Multi-Phone Acoustic Models for Speech Recognition.
Mizera et al. Impact of irregular pronunciation on phonetic segmentation of nijmegen corpus of casual czech
Akesh et al. Real-Time Subtitle Generator for Sinhala Speech
JP4949310B2 (ja) 音響処理装置およびプログラム
Sundaram Effects of Transcription Errors on Supervised Learning in Speech Recognition
JPH0981182A (ja) 隠れマルコフモデルの学習装置及び音声認識装置
KR20050043472A (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
Gollan Efficient setup of acoustic models for large vocabulary continuous speech recognition
Kleynhans Automatic speech recognition for resource–scarce environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191220

R150 Certificate of patent or registration of utility model

Ref document number: 6637332

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250