JP6485941B2

JP6485941B2 - 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置

Info

Publication number: JP6485941B2
Application number: JP2014148223A
Authority: JP
Inventors: 麻乃一木; 和穂尾上; 彰夫小林
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2014-07-18
Filing date: 2014-07-18
Publication date: 2019-03-20
Anticipated expiration: 2034-07-18
Also published as: JP2016024325A

Description

本発明は、言語モデル生成装置、およびそのプログラム、ならびに音声認識装置に関する。

テレビ放送などの番組の制作において、音声認識処理を用いて番組の字幕テキストを自動的に作成する技術が用いられている。この技術は、番組の出演者、アナウンサー、ナレーターなどが発した音声を認識し、テキストを出力して、字幕制作に用いるものである。

音声認識処理は、一般に、入力される音声データに対して、音素などといった言語要素の音響的特徴を表す音響モデルと、文字や語などといった言語要素の列の出現頻度の特徴を表す言語モデルとを利用し、統計的計算により最尤テキストを得るものである。

非特許文献１には、次の事項が記載されている。即ち、「１．はじめに」には、汎用性の高い言語モデルを構築するとともに、少量のタスク適合データを用いて言語モデル適応を行う手法などが提案されている旨が記載されている。また、適合度の高い言語モデルを構築する手法として、適合度の高いデータを疑似的に自動生成する手法があることが記載されている。また、「２．学習データの自動生成による言語モデル学習」には、学習データ中の単語を類似単語と置換することにより言語データを自動生成して学習データを増加させることが記載されている。また、「３．用法の違いを考慮した単語の置換」には、単語の置換をした場合にも適切な文を生成するために、格フレームを知識として用いることにより、名詞と動詞の係り受け関係を文脈として利用することが記載されている。非特許文献１に記載されている技術は、この文脈を利用することにより、置換する語を選択する。

清水信哉，齋藤大輔，鈴木雅之，峯松信明，広瀬啓吉，用法の違いを考慮した類似単語の置換とそれを用いた言語モデル学習データ自動生成（Automatic sentence generation for training language models based on word replacement considering the changes of word usage），人工知能学会全国大会論文集（ＣＤ−ＲＯＭ），第２４巻，２Ｇ１−ＯＳ３−４，２０１０年

放送される番組の中には、幅広いジャンルを扱うものがある。一般に、情報番組は、話題のバリエーションが大きいため、音声認識処理による字幕制作のためには、語彙や言語モデルを適応化する必要がある。そのために、放送番組の台本や進行表を利用することが考えられる。番組の台本や進行表には、出演者や、地名や、番組内で示される情報が簡潔に記載されているため、未知語を登録するための情報として用いることは有効である。しかしながら、台本中の表記が必ずしも番組出演者の発話と一致するわけではないため、台本や進行表を用いて言語モデルを適応化しても、適応化の効果が十分に得られない場合がある。例えば、番組出演者であるタレントのフルネーム（姓＋名）が台本や進行表に記載されていても、番組の中ではその出演者がニックネームで呼ばれたり、姓＋名のうちの名のみに「ちゃん」を付けて呼ばれたりする場合がある。また、台本や進行表の多くは書き言葉で表現されているが、番組出演者は、それらの書き言葉とは異なる言い回しで発話したり、会話調で発話したりする場合もある。

これらの、台本や進行表の表記と、実際の発話との間の不一致による影響を軽減するために、台本や進行表に含まれる単語を同義語で置き換えることにより、言い換えのバリエーションを増やすことが考えられる。

しかしながら、単純に同義語を用いて単語の置換を行った文を生成しただけでは、置換するか否かによって生成される文の数にばらつきが出てしまう。つまり、単語が置換され得る部分であるか否かによって、単語連鎖の出現頻度に偏りが生じてしまう。また、置換前の単語と置換後の単語との間でその部分を含む単語連鎖の出現頻度を按分してしまうと、言語モデルの精度が低下してしまうおそれもある。

例えば、非特許文献１に記載されている手法で単語を置換して言語モデルを適応化する場合、同手法では文章単位で単語を置換しており、置換によって生成される文章の数が増加するため、評価データに対する単語連鎖のヒット率が増加する一方で、言語モデルの予測能力は低下（パープレキシティが増加）する。その理由の一つは、文章内に複数の置換候補があった場合に生成文章数が多くなり、置換されていない単語を含む単語連鎖の頻度にも影響を与えてしまうためである。また、もう一つの理由は、単語連鎖内の単語を置換した部分において、置換元の単語の頻度を置換前後の単語で按分してしまい、置換元単語の連鎖頻度が小さくなってしまうためである。これに対して、非特許文献１の手法では、文章生成数に制約を設けている。

本発明は、上記の課題認識に基づいて行なわれたものであり、例えば台本や進行表などといった話題に適合した言語資源を用いて、表現のバリエーションにも対応でき、且つ精度の高い話題適応言語モデルを生成するための言語モデル生成装置やそのプログラム、その言語モデル生成装置を応用した音声認識装置を提供するものである。

上記の課題を解決するため、本発明の一態様による言語モデル生成装置は、単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、テキストデータから抽出されたｎ単語連鎖（ｎは正整数）に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記ｎ単語連鎖における当該単語を当該同義語で置換することにより新たなｎ単語連鎖を生成する同義語置換部と、置換前の前記ｎ単語連鎖の出現頻度に基づいて、前記置換後のｎ単語連鎖の出現頻度を推定する頻度推定部と、前記テキストデータから抽出されたｎ単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のｎ単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、を具備する。

これによれば、同義語置換部がｎ単語連鎖に含まれる単語を置換するため、表現のバリエーションが広がる。つまり、比較的小規模な言語資源（入力されるテキストデータ）から、表現の揺れに対して強い言語モデルを生成することができる。また、頻度推定部が、置換後のｎ単語連鎖の出現頻度を推定するため、その推定結果に基づく言語モデルを生成することができる。

また、本発明の一態様は、上記の言語モデル生成装置において、前記頻度推定部は、置換前の前記ｎ単語連鎖の出現頻度と、置換前の前記ｎ単語連鎖のうちの置換された単語（置換元単語）を含むｍ単語連鎖（ｍは正整数であり、１≦ｍ＜≦ｎ）の出現確率と、置換後の前記新たなｎ単語連鎖のうちの前記ｍ単語連鎖に対応する前記同義語を含む置換後のｍ単語連鎖の出現確率との比率と、に基づいて、前記置換後のｎ単語連鎖の出現頻度を推定する、ことを特徴とする。
一例としては、置換前のｎ単語連鎖の出現頻度に、上記の比率を乗じることによって、置換後のｎ単語連鎖の出現頻度を推定する。

また、本発明の一態様は、上記の言語モデル生成装置において、前記頻度推定部は、置換前の前記ｎ単語連鎖の出現頻度を、前記置換後のｎ単語連鎖の出現頻度と推定する、ことを特徴とする。
この構成により、置換後のｎ単語連鎖の出現頻度の推定のための処理が簡素化される。

また、本発明の一態様は、上記の言語モデル生成装置において、前記置換言語モデル生成部によって生成された前記置換言語モデルと、前記テキストデータから抽出されたｎ単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源におけるｎ単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成するモデル適応部、をさらに具備することを特徴とする。

また、本発明の一態様は、上記の言語モデル生成装置と、言語要素の音響的特徴のデータを音響モデルとして記憶する音響モデル記憶部と、前記モデル適応部によって生成された前記適応言語モデルを言語モデルとして用いるとともに、前記音響モデル記憶部から読み出した音響モデルを用いることによって、入力音声の認識処理を行う認識処理部と、を具備する音声認識装置である。

また、本発明の一態様は、単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶手段、テキストデータから抽出されたｎ単語連鎖（ｎは正整数）に含まれる単語の同義語を前記置換テーブル記憶手段から読み出し、前記ｎ単語連鎖における当該単語を当該同義語で置換することにより新たなｎ単語連鎖を生成する同義語置換手段、置換前の前記ｎ単語連鎖の出現頻度に基づいて、前記置換後のｎ単語連鎖の出現頻度を推定する頻度推定手段、前記テキストデータから抽出されたｎ単語連鎖の出現頻度、および前記頻度推定手段によって推定された前記置換後のｎ単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成手段、としてコンピューターを機能させるためのプログラムである。

本発明によれば、テキストデータを元にして、特定の話題に合う言語モデルを作成できる。また、同義語置換部がｎ単語連鎖に含まれる単語を置換するため、表現のバリエーションが広がる。つまり、比較的小規模な言語資源（入力されるテキストデータ）から、表現の揺れに対して強い言語モデルを生成することができる。また、頻度推定部が、置換後のｎ単語連鎖の出現頻度を推定するため、その推定結果に基づく言語モデルを生成することができる。
これによって、特定の話題や、発話スタイルに適応した言語モデルを作成することができる。

本発明の実施形態による置換言語モデル生成装置の概略構成を示す機能ブロック図である。同実施形態による置換言語モデル生成装置を利用した音声認識装置の概略構成を示す機能ブロック図である。同実施形態による置換テーブル記憶部が記憶する置換テーブルの構成とデータ例を示す概略図である。同実施形態による置換言語モデル生成装置が言語モデルを生成する処理の手順を示すフローチャートである。同実施形態による置換言語モデル生成装置における、より詳細な処理手順を示すフローチャートである。

以下、本発明の実施の形態について、図面を参照しながら説明する。なお、本実施形態では、ｎ単語連鎖の具体例として、３単語連鎖を用いる。
［第１の実施形態］
図１は、本実施形態による置換言語モデル生成装置の概略構成を示す機能ブロック図である。図示するように、置換言語モデル生成装置１は、テキストデータ取得部１１と、三つ組生成・頻度計算部１２と、同義語置換部１３と、頻度推定部１４と、置換言語モデル生成部１５と、置換言語モデル記憶部１６と、モデル適応部１７と、置換テーブル生成部２１と、置換テーブル記憶部２２と、小規模話題言語モデル記憶部３１と、大規模話題言語モデル記憶部３２とを含んで構成される。

テキストデータ取得部１１は、テキストデータ９１を外部から取得する。このテキストデータ９１は、例えば、放送番組の台本や進行表のデータであり、そのテキストの内容は、特定の話題に属するものである。
三つ組生成・頻度計算部１２は、テキストデータ取得部１１が取得したテキストデータから、３単語連鎖を抽出するとともに、３単語連鎖の種類ごとの出現頻度を算出する。

同義語置換部１３は、テキストデータから抽出された３単語連鎖に含まれる単語の同義語を置換テーブル記憶部２２から読み出し、その３単語連鎖における当該単語を当該同義語で置換することにより新たな３単語連鎖を生成する。

頻度推定部１４は、置換前の３単語連鎖の出現頻度に基づいて、置換後の３単語連鎖の出現頻度を推定する。より具体的には、頻度推定部１４は、置換前の３単語連鎖の出現頻度と、次に述べる所定の比率とに基づいて、置換後の３単語連鎖の出現頻度を推定する。その比率とは、３単語連鎖のうちの置換される単語を含むｍ単語連鎖（ｍは正整数であり、１≦ｍ≦３）の出現確率に対する、３単語連鎖のうちの置換された単語を含むm単語連鎖の出現確率の比率である。言い換えれば、その比率とは、置換元単語を含むｍ単語連鎖の出現確率を分母とし、そのｍ単語連鎖に対応する置換後のｍ単語連鎖の出現確率を分子とする値である。頻度推定部１４は、例えば、置換前の３単語連鎖の出現頻度に、この比率の値を乗じることによって、置換後の３単語連鎖の出現頻度を推定する。なお、本実施形態においては、ｍ＝１である。３単語連鎖を用いることは、連鎖数として充分であり、適切である。また、言語モデルのデータの規模が大きくなり過ぎない。また、出現頻度に統計的な誤差が出にくい。置換後の３単語連鎖の出現頻度を推定するために、単語ユニグラム（ｍ＝１）の出現確率の比率（置換前後の比率）を用いることは、計算の規模として適切である。なお、３単語連鎖ではないｎ単語連鎖の一般的な場合については後述する（変形例２）。

置換言語モデル生成部１５は、テキストデータ９１から抽出されたｎ単語連鎖の出現頻度、および頻度推定部１４によって推定された置換後のｎ単語連鎖の出現頻度を含んだ、置換言語モデルを生成する。
置換言語モデル記憶部１６は、置換言語モデル生成部１５によって生成された置換言語モデルを、記憶する。

モデル適応部１７は、置換言語モデル生成部１５によって生成された置換言語モデルと、テキストデータ９１から抽出された３単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源における３単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成する。モデル適応部１７は、上記の小規模話題言語モデルを、小規模話題言語モデル記憶部３１から読みだす。また、モデル適応部１７は、上記の大規模話題言語モデルを、大規模話題言語モデル記憶部３２から読み出す。モデル適応部１７は、生成した適応言語モデルを、適応言語モデル記憶部５１に書き込む。
言い換えれば、モデル適応部１７は、複数の言語モデル（特定の話題に基づき、且つ同義語による置換を用いて表現のバリエーションを持たされた言語モデルを含む）を線形補間することにより、言語モデルの適応化を行う。

置換テーブル生成部２１は、外部の同義語対データベース９２から読み込んだデータに基づいて、置換テーブルを生成し、置換テーブル記憶部２２に書き込む。
置換テーブル記憶部２２は、単語（置換元単語）と、その単語（置換元単語）と置換可能な同義語（置換単語）との対応関係を、テーブルとして記憶する。

小規模話題言語モデル記憶部３１は、三つ組生成・頻度計算部１２によって計算された出現頻度に基づく言語モデル（小規模話題言語モデル）を記憶する。つまり、小規模話題言語モデル記憶部３１は、テキストデータ９１に基づいた言語モデルを記憶する。つまり、この小規模話題言語モデルは、特定の話題における３単語連鎖の出現の特徴を表している。

大規模話題言語モデル記憶部３２は、話題の偏りのない一般的な大規模言語モデルを記憶するものである。本実施形態では、大規模話題言語モデル記憶部３２は、３単語連鎖の出現頻度を記憶するとともに、単語ユニグラムの出現確率をも記憶している。

図２は、置換言語モデル生成装置１を利用した音声認識装置の概略構成を示す機能ブロック図である。図示するように、音声認識装置２は、置換言語モデル生成装置１と、適応言語モデル記憶部５１と、発音辞書記憶部５２と、音響モデル記憶部５３と、入力音声取得部６１と、認識処理部６２と、認識結果出力部６３とを含んで構成される。

適応言語モデル記憶部５１は、置換言語モデル生成装置１におけるモデル適応部１７によって生成された適応言語モデルを記憶する。
発音辞書記憶部５２は、単語ごとの発音辞書のデータを記憶する。発音辞書のデータは、外部のデータベースから予め得られるものである。
音響モデル記憶部５３は、言語要素（音素や単語など）ごとの音響的特徴のデータを音響モデルとして記憶する。

入力音声取得部６１は、認識処理の対象となる入力音声のデータを外部から取得し、認識処理部６２に供給する。
認識処理部６２は、モデル適応部１７によって生成された適応言語モデルを言語モデルとして用いるとともに、発音辞書記憶部５２を用いて音響モデル記憶部５３から読み出した音響モデルを用いることによって、入力音声の認識処理を行う。認識処理部６２は、入力音声のデータを、入力音声取得部６１から受け取る。また、認識処理部６２は、認識結果のテキストデータを認識結果出力部６３に渡す。
認識結果出力部６３は、認識処理部６２から渡された認識結果のテキストデータを出力する。

図３は、置換テーブル記憶部２２が記憶する置換テーブルの構成とデータ例を示す概略図である。図示するように、置換テーブルは、置換元単語と置換単語とを対応づけて記憶する。置換元単語とは、置換対象となる単語、言い換えれば置換される単語である。置換単語とは、置換によって使用される新たな単語、言い換えれば置換元単語を置換する単語である。一例として、置換テーブルは二次元の表形式のデータ構造を有する。１個の置換元単語に対して、単数あるいは複数の置換単語が存在し得る。同図において、置換単語の欄は、それぞれ複数の単語を格納し、それらはスラッシュ「／」で区切られている。例えば、置換元単語「テレビ」に対する置換単語として「テレビ放送」、「テレビジョン」、「テレヴィジョン」、「テレビセット」、「テレビ受信機」、「受像機」という単語が、この置換テーブルに登録されている。これは、置換元単語「テレビ」が、これらの置換単語のいずれかと置き換え得ることを表している。他の置換元単語についても同様である。

次に、置換言語モデルの生成、さらに適応言語モデルの生成のための処理の手順について説明する。
図４は、置換言語モデル生成装置１による処理の手順を示すフローチャートである。以下、このフローチャートに沿って、装置の動作を説明する。

まずステップＳ１において、置換テーブル生成部２１が、外部の同義語対データベース９２からデータを読み込み、そのデータを元に置換テーブルを生成する。置換テーブル生成部２１は、同義語が互いに置換元単語と置換単語の関係になるように、置換テーブルを生成する。同義語対データベース９２としては、一例として、独立行政法人情報通信研究機構（ＮＩＣＴ）が公開している「日本語ＷｏｒｄＮｅｔ同義語対データベース」を用いることができる。

次に、ステップＳ２において、置換テーブル生成部２１が、外部の同義語対データベース９２から読み込んだ単語について、その発音のデータを発音辞書記憶部５２に追加登録する。

次に、ステップＳ３において、大規模話題言語モデル記憶部３２に、大規模話題言語モデルを書き込み、利用可能とする。大規模話題言語モデルは、特定の話題に偏らず、汎用の話題に関する言語資源（新聞記事、雑誌記事、ウェブ文書等）から構築された言語モデルである。大規模話題言語モデルは、単語のＮグラムごとの（出現確率）値をもっているものである。本実施形態では、３つ単語の連鎖を用い、以下では、「３単語連鎖」と呼ぶ。

次に、ステップＳ４において、テキストデータ取得部１１が、テキストデータ９１を読み込む。テキストデータ９１は、番組の台本や進行表等から得られるものである。

次に、ステップＳ５において、三つ組生成・頻度計算部１２が、テキストデータ取得部１１によって読み込まれたテキストデータから、三つ組（３単語連鎖）を生成し、３単語連鎖の種類ごとに出現頻度を計算する。三つ組生成・頻度計算部１２は、計算された出現頻度により、小規模話題言語モデルを構築する。小規模話題言語モデルは、単語のＮグラムごとの(出現確率)値をもっているものである。三つ組生成・頻度計算部１２は、構築した小規模話題言語モデルを、小規模話題言語モデル記憶部３１に書き込む。

次に、ステップＳ６において、同義語置換部１３が、置換テーブル記憶部２２から読み出した置換テーブルを用いて、三つ組生成・頻度計算部１２によって求められた３単語連鎖に含まれる単語の置換を行い、置換後の３単語連鎖を生成する。

次に、ステップＳ７において、頻度推定部１４が、同義語置換部１３によって拡張された３単語連鎖について、出現頻度を推定する。このとき、頻度推定部１４が、大規模話題言語モデル記憶部３２から読み出した出現確率を用いる。頻度推定の具体的な方法については、後述する。なおここで、「拡張された３単語連鎖」とは、ステップＳ６における置換によって得られた３単語連鎖である。つまり、３単語連鎖に含まれる単語のうちの少なくとも一つが同義語によって置換されることにより、字面上の表記のバリエーションが増えることを意味している。

次に、ステップＳ８において、置換言語モデル生成部１５が、頻度推定部１４によって推定された頻度に基づいて、置換言語モデルを生成し、置換言語モデル記憶部１６に書き込む。なお、置換言語モデル推定の具体的な方法については、後述する。

次に、ステップＳ９において、モデル適応部１７は、大規模話題言語モデル記憶部３２から読み出した大規模話題言語モデルと、小規模話題言語モデル記憶部３１から読み出した小規模話題言語モデルと、置換言語モデル記憶部１６から読み出した置換言語モデルとに基づき、モデル適応の処理を行う。モデル適応の処理は、ある３単語連鎖の出現確率について、各言語モデルから読み出した出現確率値に基づく線形補間を行うものである。モデル適応部１７によって生成される言語モデルは、入力されたテキストデータ９１に対応して特定の話題に適応した適応言語モデルである。モデル適応部１７は、生成した適応言語モデルを、適応言語モデル記憶部５１に書き込む。

なお、図２を参照して説明した通り、上記のような処理手順で生成され、適応言語モデル記憶部５１に書き込まれた適応言語モデルは、認識処理部６２によって読み出され、認識処理のために利用される。つまり、認識処理部６２は、発音辞書記憶部５２から読み出す発音辞書を参照しながら、適応言語モデル記憶部５１から読み出した適応言語モデルと、音響モデル記憶部５３から読み出した音響モデルとを用いて、入力音声の認識処理を行う。認識処理部６２によって得られた認識結果を、認識結果出力部６３が出力する。具体的には、認識処理部６２は、上記の通り、言語モデルと音響モデルを適用し、統計的な処理を行うことにより、入力音声取得部６１が取得した入力音声に対する、最尤テキストを出力する。なお、認識処理部６２による認識処理自体は、既存技術を用いて行うことができる。

次に、置換言語モデルを生成するための、より詳細な処理の手順について説明する。
図５は、置換言語モデル生成装置１における、より詳細な手順を示すフローチャートである。この図５に示す手順は、図４におけるステップＳ５からステップＳ９までの処理を、より詳細に説明するものである。

まずステップＳ５１において、三つ組生成・頻度計算部１２は、テキストデータ取得部１１が取得した話題適応のテキストデータから、３単語連鎖を抽出するとともに、３単語連鎖の頻度を求める。例えば、そのテキストデータ中に「衣装を補強」という３単語連鎖が２回出現した場合、その３単語連鎖を抽出するとともに、この３単語連鎖の出現頻度をカウントし、
「衣装−を−補強：頻度２」
というデータを一時的に生成する。テキストデータ内のすべての３単語連鎖についても、同様に、頻度を求める。

次にステップＳ５２において、同義語置換部１３は、上のステップＳ５１で求めた３単語連鎖に含まれる単語の置換を行う。具体的には、同義語置換部１３は、三つ組生成・頻度計算部１２が生成した３単語連鎖（頻度情報付）の集合を取得し、各３単語連鎖に含まれる単語の各々を鍵として、置換テーブル記憶部２２に記憶されている置換テーブルを検索する。そして、鍵の単語が置換テーブルにおける置換元単語に該当する場合には、その置換元単語に対応する単数または複数の置換単語を置換テーブルから読み出し、それらの置換単語を用いてその３単語連鎖に含まれている単語を置換する。これにより、新たな３単語連鎖が生成される。なお、同義語置換部１３は、ある置換元単語に対応する置換単語が複数存在する場合には、それぞれの置換単語を用いた置換を行い、新たな３単語連鎖を生成する。また、同義語置換部１３は、元の３単語連鎖に含まれる単語のうちの複数が置換可能である場合には、すべての置換の組み合わせにより、新たな３単語連鎖を生成する。例えば、元の３単語連鎖が「Ａ−Ｂ−Ｃ」（Ａ，Ｂ，Ｃはそれぞれ単語）であって、単語Ａが５通りに置換可能であり、単語Ｂが３通りに置換可能であり、単語Ｃが４通りに置換可能である場合には、通常は（５＋１）×（３＋１）×（４＋１）−１で、１１９通りの置換を行う。つまりこの場合、元の１個の３単語連鎖と、新たに生成される１１９個の３単語連鎖とを合わせて、１２０通りの３単語連鎖への拡張が行われる。

具体例として、「衣装を補強」という３単語連鎖に対して、図３で例示した置換テーブルを適用する。単語「衣装」が置換元単語に該当し、この置換元単語に対応する置換単語として、「お召し物」、「着物」、「ウェア」、「衣類」、「衣服」、（以下、続く）が存在する。そして、同義語置換部１３は、すべての置換単語を用いた新たな３単語連鎖を生成する。元の３単語連鎖が、
「衣装−を−補強：頻度２」
であったため、新たに生成される３単語連鎖は、
「お召し物−を−補強：頻度２」
「着物−を−補強：頻度２」
「ウェア−を−補強：頻度２」
「衣類−を−補強：頻度２」
「衣服−を−補強：頻度２」（以下、続く）
である。なお、同義語置換部１３は、ここで、元の３単語連鎖の出現頻度を引き継いで、新たに生成される３単語連鎖に適用する。上の例では、頻度が２である。

次にステップＳ５３において、頻度推定部１４は、同義語置換部１３によって新たに生成された３単語連鎖の頻度を推定する。
単語連鎖のうち、置換対象の単語が１個だけの場合には、具体的には、頻度推定部１４は、置換によって新たに生成された３単語連鎖の頻度Ｃ_ｓｙｎを、下の式（１）により算出する。言い換えれば、頻度Ｃ_ｓｙｎは推定によって得られた頻度である。

ここで、Ｃ_ｏｒｉｇは、置換前の元の３単語連鎖の頻度であり、三つ組生成・頻度計算部１２によって算出されたものである。また、ｗ_ｏｒｉｇとｗ_ｓｙｎは、それぞれ、置換元単語とそれに対応する置換単語である。また、ｐ（ｗ_ｏｒｉｇ）とｐ（ｗ_ｓｙｎ）は、それぞれ、置換元単語と置換単語の単語ユニグラム確率である。頻度推定部１４は、ｐ（ｗ_ｏｒｉｇ）とｐ（ｗ_ｓｙｎ）の値を、大規模話題言語モデル記憶部３２から取得する。

なお、置換元単語ｗ_ｏｒｉｇと置換単語ｗ_ｓｙｎとが置換テーブルにおいて対応付けて登録されていても、これらのいずれかが未知語で、言語モデルからその出現確率を得られない場合もある。例えば、置換元単語ｗ_ｏｒｉｇが未知語である場合には、上の式（１）での計算によらず、Ｃ_ｓｙｎ＝１０とする。また、置換単語ｗ_ｓｙｎが未知語である場合には、これも式（１）での計算によらず、Ｃ_ｓｙｎ＝０．０１とする。

上では、３単語連鎖のうちの１単語のみが置換対象となる場合を説明した。しかしながら、３単語連鎖の種類によっては、その単語に含まれる単語のうちの複数が置換対象となる場合もある。最大では、３個の単語が、置換対象となり得る。このように３単語連鎖のうちの複数の単語が置換された場合には、各々の１個の単語の置換を行った場合におけるＣ_ｓｙｎの値を前の式（１）によりそれぞれ計算し、それらのＣ_ｓｙｎの値のうちの最小の値を、置換後の３単語連鎖の頻度とする。つまり、頻度推定部１４は、下の式（２）により、頻度Ｃ_ｓｙｎを算出する。

ここで、ｉは、３単語連鎖に含まれる単語のうちの置換対象となる単語のための指標である。また、ｐ（ｗ_{ｏｒｉｇ，ｉ}）は、その３単語連鎖における第ｉ番目の置換元単語の単語ユニグラム確率である。また、ｐ（ｗ_{ｓｙｎ，ｉ}）は、第ｉ番目の置換単語の単語ユニグラム確率である。各単語のユニグラム確率は、大規模話題言語モデル記憶部３２から読み出され、計算に使用される。

ここで、単語の置換によって得られた一つの３単語連鎖の頻度の計算例について説明する。元の３単語連鎖「衣装−を−補強」に含まれる単語「衣装」を、置換単語「着物」で置換した場合を例にとると、置換後によって新たに生成された３単語連鎖「着物−を−補強」の頻度Ｃ_ｓｙｎは、次のように計算される。即ち、置換元単語ｗ_ｏｒｉｇは「衣装」である。また、置換単語ｗ_ｓｙｎは「着物」である。これらの単語それぞれの単語ユニグラム確率は、大規模話題言語モデル記憶部３２に格納されており、次の通りである。
ｐ（ｗ_ｏｒｉｇ）＝２．８１×１０^−５
ｐ（ｗ_ｓｙｎ）＝４．０７×１０^−５
つまり、
ｐ（ｗ_ｓｙｎ）／ｐ（ｗ_ｏｒｉｇ）＝１．４５
であり、また、
Ｃ_ｏｒｉｇ＝２
であるから、
Ｃ_ｓｙｎ＝２×１．４５＝２．９０
である。

なお、値として扱いやすくするために、３単語連鎖の頻度にすべて一律に１００を掛けて整数値とする。つまり、上の３単語連鎖「着物−を−補強」の頻度も、２．９０に１００を掛け、２９０とする。

次にステップＳ５４において、置換言語モデル生成部１５は、上記の通り算出された、３単語連鎖の頻度を用いて、置換言語モデルを構築し、置換言語モデル記憶部１６に書き込む。

次にステップＳ５５において、モデル適応部１７は、大規模話題言語モデル記憶部３２から読み出した大規模話題言語モデルと、小規模話題言語モデル記憶部３１から読み出した小規模話題言語モデルと、置換言語モデル記憶部１６から読み出した置換言語モデルとを用いて、線形補間により、話題適応言語モデルを算出する。具体的には、モデル適応部１７は、下の式（３）による計算を行い、適応言語モデルを算出する。

ここで、ｐ（ｗ_ｉ）は、ある３単語連鎖についての適応後の確率値であり、補間計算によって得られるものである。また、ｐ_Ｌ（ｗ_ｉ）は、その３単語連鎖についての大規模話題言語モデルにおける確率値である。また、ｐ_Ｓ（ｗ_ｉ）は、その３単語連鎖についての小規模話題言語モデルにおける確率値である。また、ｐ_Ｒ（ｗ_ｉ）は、その３単語連鎖についての置換言語モデルにおける確率値である。そして、α、β、γは、それぞれの重み係数である。これらの係数α、β、γは、予め適宜設定される。一例としては、教師データに基づいた機械学習処理により、これらの係数α、β、γの最適値、または最適値に準ずる値を得ることもできる。

なお、上述した実施形態における置換言語モデル生成装置、および音声認識装置の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

本実施形態を用いることにより、入力されるテキストデータに出現する通りの表現に限らず、それらの表現のバリエーションに対応した言語モデルを構築することができる。

つまり、幅広いジャンルを取り扱う情報番組などの番組は、放送番組ごとに話題が大きく異なるため、音声認識に用いる語彙や言語モデルを適応化する必要がある。この適応化言語モデルには、話題の偏りのない一般的な大規模言語モデルと各放送番組の台本や進行表を利用した番組ごとの小規模言語モデルを混合した言語モデルが有用である。台本・進行表には、出演者や地名、番組内で示される情報が簡潔に記載されており未知語登録等には有効だが、台本中の表記が必ずしも番組出演者の発話と一致するわけではなく適応の効果が十分でない場合がある。さらに、台本・進行表の多くは書き言葉で表現されており、出演者は台本や進行表とは異なる言い回しや会話調で発話する場合もある。このような台本・進行表と発話の不一致を軽減するため、台本・進行表内の単語を同義語で置き換え、言い換えのバリエーションを増やすことにより、より有効な適応データを生成できる。本実施形態によれば、単語を同義語で置換した場合にも、頻度推定部が、置換前の単語連鎖の出現頻度に基づいて適切な頻度を推定することができる。よって、言語モデルの精度を向上させることができる。本実施形態では、台本や進行表等のテキストデータから同義語の置換に基づいて、単語連鎖のバリエーションを前後のｎ組の単語間でのみ増やすと共に、事前知識（大規模話題言語モデルにおける、ｎ単語連鎖の部分連鎖の出現頻度。典型的には、単語ユニグラムの出現確率。）を利用して置換単語を含む単語連鎖の頻度を推定する。これにより、音声認識の性能を改善するための話題適応言語モデルの生成が可能となる。

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、下記の変形例のいくつかを組み合わせて実施しても良い。

［変形例１］
上記の実施形態では、３単語連鎖による言語モデルを用いた。本変形例では、３単語連鎖に限らず、一般に、ｎ単語連鎖（ｎ＝１，２，３，４，・・・）を用いる。つまり、言語モデルは、ｎ単語連鎖の出現頻度を統計的に表すデータである。また、三つ組生成・頻度計算部１２、同義語置換部１３、頻度推定部１４、置換言語モデル生成部１５、モデル適応部１７、認識処理部６２等の各部も、３単語連鎖に限らず、ｎ単語連鎖を処理対象とする。

［変形例２］
上記の実施形態では、頻度推定部１４は、置換によって新たに生成された３単語連鎖の頻度を推定する際に、式（１）によって、置換元単語の単語ユニグラム確率ｐ（ｗ_ｏｒｉｇ）に対する、置換単語の単語ユニグラム確率ｐ（ｗ_ｓｙｎ）を用いた。本変形例では、ここで、単語ユニグラム確率の比率の代わりに、置換元の２単語連鎖の出現確率（バイグラム（bigram）確率）と置換後の２単語連鎖の出現確率との比率を用いる。

変形例１と変形例２を組み合わせる場合には、つまり３単語連鎖をｎ単語連鎖に一般化した場合には、ｎ単語連鎖による言語モデルを用いるとともに、同義語の置換前後におけるｍ単語連鎖の出現確率の比率を用いる。ここで、１≦ｍ≦ｎである（ｍ，ｎは整数）。
つまり、本変形例では、頻度推定部１４は、式（１）を変形することにより、置換によって新たに生成されたｎ単語連鎖の出現確率を、ｍ単語連鎖の出現確率の比率を用いて推定する。具体的には、頻度推定部１４は、置換前のｎ単語連鎖の出現頻度と、置換前のｎ単語連鎖のうちの置換元単語を含むｍ単語連鎖の出現確率と、置換後の新たなｎ単語連鎖のうちの前記ｍ単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、置換後のｎ単語連鎖の出現頻度を推定する。言い換えれば、その比率とは、置換元単語を含むｍ単語連鎖の出現確率を分母とし、そのｍ単語連鎖に対応する置換後のｍ単語連鎖の出現確率を分子とする値である。頻度推定部１４は、例えば、置換前のｎ単語連鎖の出現頻度に、この比率の値を乗じることによって、置換後のｎ単語連鎖の出現頻度を推定する。
なお、ｍ単語連鎖の出現確率は、大規模話題言語モデル記憶部３２から読み出される。

本変形例の場合、式（１）の代わりに、下の式（４）を用いる。

式（４）において、ｐ（ｗ_ｏｒｉｇ｜ｗ_ｍ−１，ｗ_ｍ−２，・・・）は、置換元の単語を含むm単語連鎖の出現確率である。また、ｐ（ｗ_ｓｙｎ｜ｗ_ｍ−１，ｗ_ｍ−２，・・・）は、これに対応するものであり、置換後の単語を含むm単語連鎖の出現確率である。

［変形例３］
本変形例では、頻度推定部１４は、置換によって新たに生成された３単語連鎖の出現頻度を、置換前の３単語連鎖の出現頻度と同一であると推定する。
本変形例と変形例１とを組み合わせる場合には、頻度推定部１４は、置換によって新たに生成されたｎ単語連鎖の出現頻度を、置換前のｎ単語連鎖の出現頻度と同一であると推定する。言い換えれば、頻度推定部１４は、置換前のｎ単語連鎖の出現頻度を、そのまま用いて、置換後のｎ単語連鎖の出現頻度であると推定する。

［変形例４］
本変形例では、置換言語モデル生成装置１は、モデル適応部１７を具備しない。置換言語モデル生成装置１において、置換言語モデル生成部１５は、上の実施形態に記載した通り、置換言語モデルを生成し、置換言語モデル記憶部１６に書き込む。この置換言語モデルは、特定の話題に特化した言語モデルである。この置換言語モデルは、元のテキストデータ９１に出現する単語連鎖の出現頻度、およびそれらの単語連鎖に含まれる単語を同義語で置換したことによって得られる単語連鎖の出現頻度（推定された出現頻度）にもとづく出現頻度のデータを保持する。

［変形例５］
上記の実施形態においては、テキストデータ９１として、放送番組の台本や進行表のテキストを用いることとしたが、利用するテキストデータはこれには限られない。本変形例では、学会や講演会等において事前に入手可能な発表概要やプレゼン資料を、テキストデータ９１として用いる。そして、その学会や講演会等の音声認識による書き起こしテキストを生成するために、本変形例を適用できる。また、利用するテキストデータ９１の例はこれらに限定されず、任意である。

以上、この発明の実施形態およびその変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、音声認識処理全般に利用可能である。また、例えば、テレビの放送番組等、番組によって話題が大きく異なるようなコンテンツの音声を認識するために利用可能である。また、その一例として、放送のための字幕テキストの自動生成または半自動生成に利用可能である。

１置換言語モデル生成装置（言語モデル生成装置）
２音声認識装置
１１テキストデータ取得部
１２三つ組生成・頻度計算部
１３同義語置換部
１４頻度推定部
１５置換言語モデル生成部
１６置換言語モデル記憶部
１７モデル適応部
２１置換テーブル生成部
２２置換テーブル記憶部
３１小規模話題言語モデル記憶部
３２大規模話題言語モデル記憶部
５１適応言語モデル記憶部
５２発音辞書記憶部
５３音響モデル記憶部
６１入力音声取得部
６２認識処理部
６３認識結果出力部

Claims

単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、
テキストデータから抽出されたｎ単語連鎖（ｎは正整数）に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記ｎ単語連鎖における当該単語を当該同義語で置換することにより新たなｎ単語連鎖を生成する同義語置換部と、
置換前の前記ｎ単語連鎖の出現頻度に基づいて、前記置換後のｎ単語連鎖の出現頻度を推定する頻度推定部と、
前記テキストデータから抽出されたｎ単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のｎ単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、
を具備し、
前記頻度推定部は、置換前の前記ｎ単語連鎖の出現頻度と、置換前の前記ｎ単語連鎖のうちの置換元単語を含むｍ単語連鎖（ｍは正整数であり、１≦ｍ≦ｎ）の出現確率と、置換後の前記新たなｎ単語連鎖のうちの前記ｍ単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、前記置換後のｎ単語連鎖の出現頻度を推定する、
ことを特徴とする言語モデル生成装置。
単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、
テキストデータから抽出されたｎ単語連鎖（ｎは正整数）に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記ｎ単語連鎖における当該単語を当該同義語で置換することにより新たなｎ単語連鎖を生成する同義語置換部と、
置換前の前記ｎ単語連鎖の出現頻度に基づいて、前記置換後のｎ単語連鎖の出現頻度を推定する頻度推定部と、
前記テキストデータから抽出されたｎ単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のｎ単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、
前記置換言語モデル生成部によって生成された前記置換言語モデルと、前記テキストデータから抽出されたｎ単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源におけるｎ単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成するモデル適応部と、
を具備することを特徴とする言語モデル生成装置。
請求項２に記載の言語モデル生成装置と、
言語要素の音響的特徴のデータを音響モデルとして記憶する音響モデル記憶部と、
前記モデル適応部によって生成された前記適応言語モデルを言語モデルとして用いるとともに、前記音響モデル記憶部から読み出した音響モデルを用いることによって、入力音声の認識処理を行う認識処理部と、
を具備することを特徴とする音声認識装置。
コンピューターを、
請求項１または請求項２に記載の言語モデル生成装置、
として機能させるためのプログラム。