JP6485941B2 - 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 - Google Patents

言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 Download PDF

Info

Publication number
JP6485941B2
JP6485941B2 JP2014148223A JP2014148223A JP6485941B2 JP 6485941 B2 JP6485941 B2 JP 6485941B2 JP 2014148223 A JP2014148223 A JP 2014148223A JP 2014148223 A JP2014148223 A JP 2014148223A JP 6485941 B2 JP6485941 B2 JP 6485941B2
Authority
JP
Japan
Prior art keywords
word
replacement
language model
frequency
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014148223A
Other languages
English (en)
Other versions
JP2016024325A (ja
Inventor
麻乃 一木
麻乃 一木
和穂 尾上
和穂 尾上
彰夫 小林
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2014148223A priority Critical patent/JP6485941B2/ja
Publication of JP2016024325A publication Critical patent/JP2016024325A/ja
Application granted granted Critical
Publication of JP6485941B2 publication Critical patent/JP6485941B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、言語モデル生成装置、およびそのプログラム、ならびに音声認識装置に関する。
テレビ放送などの番組の制作において、音声認識処理を用いて番組の字幕テキストを自動的に作成する技術が用いられている。この技術は、番組の出演者、アナウンサー、ナレーターなどが発した音声を認識し、テキストを出力して、字幕制作に用いるものである。
音声認識処理は、一般に、入力される音声データに対して、音素などといった言語要素の音響的特徴を表す音響モデルと、文字や語などといった言語要素の列の出現頻度の特徴を表す言語モデルとを利用し、統計的計算により最尤テキストを得るものである。
非特許文献1には、次の事項が記載されている。即ち、「1.はじめに」には、汎用性の高い言語モデルを構築するとともに、少量のタスク適合データを用いて言語モデル適応を行う手法などが提案されている旨が記載されている。また、適合度の高い言語モデルを構築する手法として、適合度の高いデータを疑似的に自動生成する手法があることが記載されている。また、「2.学習データの自動生成による言語モデル学習」には、学習データ中の単語を類似単語と置換することにより言語データを自動生成して学習データを増加させることが記載されている。また、「3.用法の違いを考慮した単語の置換」には、単語の置換をした場合にも適切な文を生成するために、格フレームを知識として用いることにより、名詞と動詞の係り受け関係を文脈として利用することが記載されている。非特許文献1に記載されている技術は、この文脈を利用することにより、置換する語を選択する。
清水信哉,齋藤大輔,鈴木雅之,峯松信明,広瀬啓吉,用法の違いを考慮した類似単語の置換とそれを用いた言語モデル学習データ自動生成(Automatic sentence generation for training language models based on word replacement considering the changes of word usage),人工知能学会全国大会論文集(CD−ROM),第24巻,2G1−OS3−4,2010年
放送される番組の中には、幅広いジャンルを扱うものがある。一般に、情報番組は、話題のバリエーションが大きいため、音声認識処理による字幕制作のためには、語彙や言語モデルを適応化する必要がある。そのために、放送番組の台本や進行表を利用することが考えられる。番組の台本や進行表には、出演者や、地名や、番組内で示される情報が簡潔に記載されているため、未知語を登録するための情報として用いることは有効である。しかしながら、台本中の表記が必ずしも番組出演者の発話と一致するわけではないため、台本や進行表を用いて言語モデルを適応化しても、適応化の効果が十分に得られない場合がある。例えば、番組出演者であるタレントのフルネーム(姓+名)が台本や進行表に記載されていても、番組の中ではその出演者がニックネームで呼ばれたり、姓+名のうちの名のみに「ちゃん」を付けて呼ばれたりする場合がある。また、台本や進行表の多くは書き言葉で表現されているが、番組出演者は、それらの書き言葉とは異なる言い回しで発話したり、会話調で発話したりする場合もある。
これらの、台本や進行表の表記と、実際の発話との間の不一致による影響を軽減するために、台本や進行表に含まれる単語を同義語で置き換えることにより、言い換えのバリエーションを増やすことが考えられる。
しかしながら、単純に同義語を用いて単語の置換を行った文を生成しただけでは、置換するか否かによって生成される文の数にばらつきが出てしまう。つまり、単語が置換され得る部分であるか否かによって、単語連鎖の出現頻度に偏りが生じてしまう。また、置換前の単語と置換後の単語との間でその部分を含む単語連鎖の出現頻度を按分してしまうと、言語モデルの精度が低下してしまうおそれもある。
例えば、非特許文献1に記載されている手法で単語を置換して言語モデルを適応化する場合、同手法では文章単位で単語を置換しており、置換によって生成される文章の数が増加するため、評価データに対する単語連鎖のヒット率が増加する一方で、言語モデルの予測能力は低下(パープレキシティが増加)する。その理由の一つは、文章内に複数の置換候補があった場合に生成文章数が多くなり、置換されていない単語を含む単語連鎖の頻度にも影響を与えてしまうためである。また、もう一つの理由は、単語連鎖内の単語を置換した部分において、置換元の単語の頻度を置換前後の単語で按分してしまい、置換元単語の連鎖頻度が小さくなってしまうためである。これに対して、非特許文献1の手法では、文章生成数に制約を設けている。
本発明は、上記の課題認識に基づいて行なわれたものであり、例えば台本や進行表などといった話題に適合した言語資源を用いて、表現のバリエーションにも対応でき、且つ精度の高い話題適応言語モデルを生成するための言語モデル生成装置やそのプログラム、その言語モデル生成装置を応用した音声認識装置を提供するものである。
上記の課題を解決するため、本発明の一態様による言語モデル生成装置は、単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換部と、置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定部と、前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、を具備する。
これによれば、同義語置換部がn単語連鎖に含まれる単語を置換するため、表現のバリエーションが広がる。つまり、比較的小規模な言語資源(入力されるテキストデータ)から、表現の揺れに対して強い言語モデルを生成することができる。また、頻度推定部が、置換後のn単語連鎖の出現頻度を推定するため、その推定結果に基づく言語モデルを生成することができる。
また、本発明の一態様は、上記の言語モデル生成装置において、前記頻度推定部は、置換前の前記n単語連鎖の出現頻度と、置換前の前記n単語連鎖のうちの置換された単語(置換元単語)を含むm単語連鎖(mは正整数であり、1≦m<≦n)の出現確率と、置換後の前記新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、前記置換後のn単語連鎖の出現頻度を推定する、ことを特徴とする。
一例としては、置換前のn単語連鎖の出現頻度に、上記の比率を乗じることによって、置換後のn単語連鎖の出現頻度を推定する。
また、本発明の一態様は、上記の言語モデル生成装置において、前記頻度推定部は、置換前の前記n単語連鎖の出現頻度を、前記置換後のn単語連鎖の出現頻度と推定する、ことを特徴とする。
この構成により、置換後のn単語連鎖の出現頻度の推定のための処理が簡素化される。
また、本発明の一態様は、上記の言語モデル生成装置において、前記置換言語モデル生成部によって生成された前記置換言語モデルと、前記テキストデータから抽出されたn単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源におけるn単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成するモデル適応部、をさらに具備することを特徴とする。
また、本発明の一態様は、上記の言語モデル生成装置と、言語要素の音響的特徴のデータを音響モデルとして記憶する音響モデル記憶部と、前記モデル適応部によって生成された前記適応言語モデルを言語モデルとして用いるとともに、前記音響モデル記憶部から読み出した音響モデルを用いることによって、入力音声の認識処理を行う認識処理部と、を具備する音声認識装置である。
また、本発明の一態様は、単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶手段、テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶手段から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換手段、置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定手段、前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定手段によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成手段、としてコンピューターを機能させるためのプログラムである。
本発明によれば、テキストデータを元にして、特定の話題に合う言語モデルを作成できる。また、同義語置換部がn単語連鎖に含まれる単語を置換するため、表現のバリエーションが広がる。つまり、比較的小規模な言語資源(入力されるテキストデータ)から、表現の揺れに対して強い言語モデルを生成することができる。また、頻度推定部が、置換後のn単語連鎖の出現頻度を推定するため、その推定結果に基づく言語モデルを生成することができる。
これによって、特定の話題や、発話スタイルに適応した言語モデルを作成することができる。
本発明の実施形態による置換言語モデル生成装置の概略構成を示す機能ブロック図である。 同実施形態による置換言語モデル生成装置を利用した音声認識装置の概略構成を示す機能ブロック図である。 同実施形態による置換テーブル記憶部が記憶する置換テーブルの構成とデータ例を示す概略図である。 同実施形態による置換言語モデル生成装置が言語モデルを生成する処理の手順を示すフローチャートである。 同実施形態による置換言語モデル生成装置における、より詳細な処理手順を示すフローチャートである。
以下、本発明の実施の形態について、図面を参照しながら説明する。なお、本実施形態では、n単語連鎖の具体例として、3単語連鎖を用いる。
[第1の実施形態]
図1は、本実施形態による置換言語モデル生成装置の概略構成を示す機能ブロック図である。図示するように、置換言語モデル生成装置1は、テキストデータ取得部11と、三つ組生成・頻度計算部12と、同義語置換部13と、頻度推定部14と、置換言語モデル生成部15と、置換言語モデル記憶部16と、モデル適応部17と、置換テーブル生成部21と、置換テーブル記憶部22と、小規模話題言語モデル記憶部31と、大規模話題言語モデル記憶部32とを含んで構成される。
テキストデータ取得部11は、テキストデータ91を外部から取得する。このテキストデータ91は、例えば、放送番組の台本や進行表のデータであり、そのテキストの内容は、特定の話題に属するものである。
三つ組生成・頻度計算部12は、テキストデータ取得部11が取得したテキストデータから、3単語連鎖を抽出するとともに、3単語連鎖の種類ごとの出現頻度を算出する。
同義語置換部13は、テキストデータから抽出された3単語連鎖に含まれる単語の同義語を置換テーブル記憶部22から読み出し、その3単語連鎖における当該単語を当該同義語で置換することにより新たな3単語連鎖を生成する。
頻度推定部14は、置換前の3単語連鎖の出現頻度に基づいて、置換後の3単語連鎖の出現頻度を推定する。より具体的には、頻度推定部14は、置換前の3単語連鎖の出現頻度と、次に述べる所定の比率とに基づいて、置換後の3単語連鎖の出現頻度を推定する。その比率とは、3単語連鎖のうちの置換される単語を含むm単語連鎖(mは正整数であり、1≦m≦3)の出現確率に対する、3単語連鎖のうちの置換された単語を含むm単語連鎖の出現確率の比率である。言い換えれば、その比率とは、置換元単語を含むm単語連鎖の出現確率を分母とし、そのm単語連鎖に対応する置換後のm単語連鎖の出現確率を分子とする値である。頻度推定部14は、例えば、置換前の3単語連鎖の出現頻度に、この比率の値を乗じることによって、置換後の3単語連鎖の出現頻度を推定する。なお、本実施形態においては、m=1である。3単語連鎖を用いることは、連鎖数として充分であり、適切である。また、言語モデルのデータの規模が大きくなり過ぎない。また、出現頻度に統計的な誤差が出にくい。置換後の3単語連鎖の出現頻度を推定するために、単語ユニグラム(m=1)の出現確率の比率(置換前後の比率)を用いることは、計算の規模として適切である。なお、3単語連鎖ではないn単語連鎖の一般的な場合については後述する(変形例2)。
置換言語モデル生成部15は、テキストデータ91から抽出されたn単語連鎖の出現頻度、および頻度推定部14によって推定された置換後のn単語連鎖の出現頻度を含んだ、置換言語モデルを生成する。
置換言語モデル記憶部16は、置換言語モデル生成部15によって生成された置換言語モデルを、記憶する。
モデル適応部17は、置換言語モデル生成部15によって生成された置換言語モデルと、テキストデータ91から抽出された3単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源における3単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成する。モデル適応部17は、上記の小規模話題言語モデルを、小規模話題言語モデル記憶部31から読みだす。また、モデル適応部17は、上記の大規模話題言語モデルを、大規模話題言語モデル記憶部32から読み出す。モデル適応部17は、生成した適応言語モデルを、適応言語モデル記憶部51に書き込む。
言い換えれば、モデル適応部17は、複数の言語モデル(特定の話題に基づき、且つ同義語による置換を用いて表現のバリエーションを持たされた言語モデルを含む)を線形補間することにより、言語モデルの適応化を行う。
置換テーブル生成部21は、外部の同義語対データベース92から読み込んだデータに基づいて、置換テーブルを生成し、置換テーブル記憶部22に書き込む。
置換テーブル記憶部22は、単語(置換元単語)と、その単語(置換元単語)と置換可能な同義語(置換単語)との対応関係を、テーブルとして記憶する。
小規模話題言語モデル記憶部31は、三つ組生成・頻度計算部12によって計算された出現頻度に基づく言語モデル(小規模話題言語モデル)を記憶する。つまり、小規模話題言語モデル記憶部31は、テキストデータ91に基づいた言語モデルを記憶する。つまり、この小規模話題言語モデルは、特定の話題における3単語連鎖の出現の特徴を表している。
大規模話題言語モデル記憶部32は、話題の偏りのない一般的な大規模言語モデルを記憶するものである。本実施形態では、大規模話題言語モデル記憶部32は、3単語連鎖の出現頻度を記憶するとともに、単語ユニグラムの出現確率をも記憶している。
図2は、置換言語モデル生成装置1を利用した音声認識装置の概略構成を示す機能ブロック図である。図示するように、音声認識装置2は、置換言語モデル生成装置1と、適応言語モデル記憶部51と、発音辞書記憶部52と、音響モデル記憶部53と、入力音声取得部61と、認識処理部62と、認識結果出力部63とを含んで構成される。
適応言語モデル記憶部51は、置換言語モデル生成装置1におけるモデル適応部17によって生成された適応言語モデルを記憶する。
発音辞書記憶部52は、単語ごとの発音辞書のデータを記憶する。発音辞書のデータは、外部のデータベースから予め得られるものである。
音響モデル記憶部53は、言語要素(音素や単語など)ごとの音響的特徴のデータを音響モデルとして記憶する。
入力音声取得部61は、認識処理の対象となる入力音声のデータを外部から取得し、認識処理部62に供給する。
認識処理部62は、モデル適応部17によって生成された適応言語モデルを言語モデルとして用いるとともに、発音辞書記憶部52を用いて音響モデル記憶部53から読み出した音響モデルを用いることによって、入力音声の認識処理を行う。認識処理部62は、入力音声のデータを、入力音声取得部61から受け取る。また、認識処理部62は、認識結果のテキストデータを認識結果出力部63に渡す。
認識結果出力部63は、認識処理部62から渡された認識結果のテキストデータを出力する。
図3は、置換テーブル記憶部22が記憶する置換テーブルの構成とデータ例を示す概略図である。図示するように、置換テーブルは、置換元単語と置換単語とを対応づけて記憶する。置換元単語とは、置換対象となる単語、言い換えれば置換される単語である。置換単語とは、置換によって使用される新たな単語、言い換えれば置換元単語を置換する単語である。一例として、置換テーブルは二次元の表形式のデータ構造を有する。1個の置換元単語に対して、単数あるいは複数の置換単語が存在し得る。同図において、置換単語の欄は、それぞれ複数の単語を格納し、それらはスラッシュ「/」で区切られている。例えば、置換元単語「テレビ」に対する置換単語として「テレビ放送」、「テレビジョン」、「テレヴィジョン」、「テレビセット」、「テレビ受信機」、「受像機」という単語が、この置換テーブルに登録されている。これは、置換元単語「テレビ」が、これらの置換単語のいずれかと置き換え得ることを表している。他の置換元単語についても同様である。
次に、置換言語モデルの生成、さらに適応言語モデルの生成のための処理の手順について説明する。
図4は、置換言語モデル生成装置1による処理の手順を示すフローチャートである。以下、このフローチャートに沿って、装置の動作を説明する。
まずステップS1において、置換テーブル生成部21が、外部の同義語対データベース92からデータを読み込み、そのデータを元に置換テーブルを生成する。置換テーブル生成部21は、同義語が互いに置換元単語と置換単語の関係になるように、置換テーブルを生成する。同義語対データベース92としては、一例として、独立行政法人情報通信研究機構(NICT)が公開している「日本語WordNet同義語対データベース」を用いることができる。
次に、ステップS2において、置換テーブル生成部21が、外部の同義語対データベース92から読み込んだ単語について、その発音のデータを発音辞書記憶部52に追加登録する。
次に、ステップS3において、大規模話題言語モデル記憶部32に、大規模話題言語モデルを書き込み、利用可能とする。大規模話題言語モデルは、特定の話題に偏らず、汎用の話題に関する言語資源(新聞記事、雑誌記事、ウェブ文書等)から構築された言語モデルである。大規模話題言語モデルは、単語のNグラムごとの(出現確率)値をもっているものである。本実施形態では、3つ単語の連鎖を用い、以下では、「3単語連鎖」と呼ぶ。
次に、ステップS4において、テキストデータ取得部11が、テキストデータ91を読み込む。テキストデータ91は、番組の台本や進行表等から得られるものである。
次に、ステップS5において、三つ組生成・頻度計算部12が、テキストデータ取得部11によって読み込まれたテキストデータから、三つ組(3単語連鎖)を生成し、3単語連鎖の種類ごとに出現頻度を計算する。三つ組生成・頻度計算部12は、計算された出現頻度により、小規模話題言語モデルを構築する。小規模話題言語モデルは、単語のNグラムごとの(出現確率)値をもっているものである。三つ組生成・頻度計算部12は、構築した小規模話題言語モデルを、小規模話題言語モデル記憶部31に書き込む。
次に、ステップS6において、同義語置換部13が、置換テーブル記憶部22から読み出した置換テーブルを用いて、三つ組生成・頻度計算部12によって求められた3単語連鎖に含まれる単語の置換を行い、置換後の3単語連鎖を生成する。
次に、ステップS7において、頻度推定部14が、同義語置換部13によって拡張された3単語連鎖について、出現頻度を推定する。このとき、頻度推定部14が、大規模話題言語モデル記憶部32から読み出した出現確率を用いる。頻度推定の具体的な方法については、後述する。なおここで、「拡張された3単語連鎖」とは、ステップS6における置換によって得られた3単語連鎖である。つまり、3単語連鎖に含まれる単語のうちの少なくとも一つが同義語によって置換されることにより、字面上の表記のバリエーションが増えることを意味している。
次に、ステップS8において、置換言語モデル生成部15が、頻度推定部14によって推定された頻度に基づいて、置換言語モデルを生成し、置換言語モデル記憶部16に書き込む。なお、置換言語モデル推定の具体的な方法については、後述する。
次に、ステップS9において、モデル適応部17は、大規模話題言語モデル記憶部32から読み出した大規模話題言語モデルと、小規模話題言語モデル記憶部31から読み出した小規模話題言語モデルと、置換言語モデル記憶部16から読み出した置換言語モデルとに基づき、モデル適応の処理を行う。モデル適応の処理は、ある3単語連鎖の出現確率について、各言語モデルから読み出した出現確率値に基づく線形補間を行うものである。モデル適応部17によって生成される言語モデルは、入力されたテキストデータ91に対応して特定の話題に適応した適応言語モデルである。モデル適応部17は、生成した適応言語モデルを、適応言語モデル記憶部51に書き込む。
なお、図2を参照して説明した通り、上記のような処理手順で生成され、適応言語モデル記憶部51に書き込まれた適応言語モデルは、認識処理部62によって読み出され、認識処理のために利用される。つまり、認識処理部62は、発音辞書記憶部52から読み出す発音辞書を参照しながら、適応言語モデル記憶部51から読み出した適応言語モデルと、音響モデル記憶部53から読み出した音響モデルとを用いて、入力音声の認識処理を行う。認識処理部62によって得られた認識結果を、認識結果出力部63が出力する。具体的には、認識処理部62は、上記の通り、言語モデルと音響モデルを適用し、統計的な処理を行うことにより、入力音声取得部61が取得した入力音声に対する、最尤テキストを出力する。なお、認識処理部62による認識処理自体は、既存技術を用いて行うことができる。
次に、置換言語モデルを生成するための、より詳細な処理の手順について説明する。
図5は、置換言語モデル生成装置1における、より詳細な手順を示すフローチャートである。この図5に示す手順は、図4におけるステップS5からステップS9までの処理を、より詳細に説明するものである。
まずステップS51において、三つ組生成・頻度計算部12は、テキストデータ取得部11が取得した話題適応のテキストデータから、3単語連鎖を抽出するとともに、3単語連鎖の頻度を求める。例えば、そのテキストデータ中に「衣装を補強」という3単語連鎖が2回出現した場合、その3単語連鎖を抽出するとともに、この3単語連鎖の出現頻度をカウントし、
「衣装−を−補強:頻度2」
というデータを一時的に生成する。テキストデータ内のすべての3単語連鎖についても、同様に、頻度を求める。
次にステップS52において、同義語置換部13は、上のステップS51で求めた3単語連鎖に含まれる単語の置換を行う。具体的には、同義語置換部13は、三つ組生成・頻度計算部12が生成した3単語連鎖(頻度情報付)の集合を取得し、各3単語連鎖に含まれる単語の各々を鍵として、置換テーブル記憶部22に記憶されている置換テーブルを検索する。そして、鍵の単語が置換テーブルにおける置換元単語に該当する場合には、その置換元単語に対応する単数または複数の置換単語を置換テーブルから読み出し、それらの置換単語を用いてその3単語連鎖に含まれている単語を置換する。これにより、新たな3単語連鎖が生成される。なお、同義語置換部13は、ある置換元単語に対応する置換単語が複数存在する場合には、それぞれの置換単語を用いた置換を行い、新たな3単語連鎖を生成する。また、同義語置換部13は、元の3単語連鎖に含まれる単語のうちの複数が置換可能である場合には、すべての置換の組み合わせにより、新たな3単語連鎖を生成する。例えば、元の3単語連鎖が「A−B−C」(A,B,Cはそれぞれ単語)であって、単語Aが5通りに置換可能であり、単語Bが3通りに置換可能であり、単語Cが4通りに置換可能である場合には、通常は(5+1)×(3+1)×(4+1)−1で、119通りの置換を行う。つまりこの場合、元の1個の3単語連鎖と、新たに生成される119個の3単語連鎖とを合わせて、120通りの3単語連鎖への拡張が行われる。
具体例として、「衣装 を 補強」という3単語連鎖に対して、図3で例示した置換テーブルを適用する。単語「衣装」が置換元単語に該当し、この置換元単語に対応する置換単語として、「お召し物」、「着物」、「ウェア」、「衣類」、「衣服」、(以下、続く)が存在する。そして、同義語置換部13は、すべての置換単語を用いた新たな3単語連鎖を生成する。元の3単語連鎖が、
「衣装−を−補強:頻度2」
であったため、新たに生成される3単語連鎖は、
「お召し物−を−補強:頻度2」
「着物−を−補強:頻度2」
「ウェア−を−補強:頻度2」
「衣類−を−補強:頻度2」
「衣服−を−補強:頻度2」(以下、続く)
である。なお、同義語置換部13は、ここで、元の3単語連鎖の出現頻度を引き継いで、新たに生成される3単語連鎖に適用する。上の例では、頻度が2である。
次にステップS53において、頻度推定部14は、同義語置換部13によって新たに生成された3単語連鎖の頻度を推定する。
単語連鎖のうち、置換対象の単語が1個だけの場合には、具体的には、頻度推定部14は、置換によって新たに生成された3単語連鎖の頻度Csynを、下の式(1)により算出する。言い換えれば、頻度Csynは推定によって得られた頻度である。
Figure 0006485941
ここで、Corigは、置換前の元の3単語連鎖の頻度であり、三つ組生成・頻度計算部12によって算出されたものである。また、worigとwsynは、それぞれ、置換元単語とそれに対応する置換単語である。また、p(worig)とp(wsyn)は、それぞれ、置換元単語と置換単語の単語ユニグラム確率である。頻度推定部14は、p(worig)とp(wsyn)の値を、大規模話題言語モデル記憶部32から取得する。
なお、置換元単語worigと置換単語wsynとが置換テーブルにおいて対応付けて登録されていても、これらのいずれかが未知語で、言語モデルからその出現確率を得られない場合もある。例えば、置換元単語worigが未知語である場合には、上の式(1)での計算によらず、Csyn=10とする。また、置換単語wsynが未知語である場合には、これも式(1)での計算によらず、Csyn=0.01とする。
上では、3単語連鎖のうちの1単語のみが置換対象となる場合を説明した。しかしながら、3単語連鎖の種類によっては、その単語に含まれる単語のうちの複数が置換対象となる場合もある。最大では、3個の単語が、置換対象となり得る。このように3単語連鎖のうちの複数の単語が置換された場合には、各々の1個の単語の置換を行った場合におけるCsynの値を前の式(1)によりそれぞれ計算し、それらのCsynの値のうちの最小の値を、置換後の3単語連鎖の頻度とする。つまり、頻度推定部14は、下の式(2)により、頻度Csynを算出する。
Figure 0006485941
ここで、iは、3単語連鎖に含まれる単語のうちの置換対象となる単語のための指標である。また、p(worig,i)は、その3単語連鎖における第i番目の置換元単語の単語ユニグラム確率である。また、p(wsyn,i)は、第i番目の置換単語の単語ユニグラム確率である。各単語のユニグラム確率は、大規模話題言語モデル記憶部32から読み出され、計算に使用される。
ここで、単語の置換によって得られた一つの3単語連鎖の頻度の計算例について説明する。元の3単語連鎖「衣装−を−補強」に含まれる単語「衣装」を、置換単語「着物」で置換した場合を例にとると、置換後によって新たに生成された3単語連鎖「着物−を−補強」の頻度Csynは、次のように計算される。即ち、置換元単語worigは「衣装」である。また、置換単語wsynは「着物」である。これらの単語それぞれの単語ユニグラム確率は、大規模話題言語モデル記憶部32に格納されており、次の通りである。
p(worig)=2.81×10−5
p(wsyn)=4.07×10−5
つまり、
p(wsyn)/p(worig)=1.45
であり、また、
orig=2
であるから、
syn=2×1.45=2.90
である。
なお、値として扱いやすくするために、3単語連鎖の頻度にすべて一律に100を掛けて整数値とする。つまり、上の3単語連鎖「着物−を−補強」の頻度も、2.90に100を掛け、290とする。
次にステップS54において、置換言語モデル生成部15は、上記の通り算出された、3単語連鎖の頻度を用いて、置換言語モデルを構築し、置換言語モデル記憶部16に書き込む。
次にステップS55において、モデル適応部17は、大規模話題言語モデル記憶部32から読み出した大規模話題言語モデルと、小規模話題言語モデル記憶部31から読み出した小規模話題言語モデルと、置換言語モデル記憶部16から読み出した置換言語モデルとを用いて、線形補間により、話題適応言語モデルを算出する。具体的には、モデル適応部17は、下の式(3)による計算を行い、適応言語モデルを算出する。
Figure 0006485941
ここで、p(w)は、ある3単語連鎖についての適応後の確率値であり、補間計算によって得られるものである。また、p(w)は、その3単語連鎖についての大規模話題言語モデルにおける確率値である。また、p(w)は、その3単語連鎖についての小規模話題言語モデルにおける確率値である。また、p(w)は、その3単語連鎖についての置換言語モデルにおける確率値である。そして、α、β、γは、それぞれの重み係数である。これらの係数α、β、γは、予め適宜設定される。一例としては、教師データに基づいた機械学習処理により、これらの係数α、β、γの最適値、または最適値に準ずる値を得ることもできる。
なお、上述した実施形態における置換言語モデル生成装置、および音声認識装置の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
本実施形態を用いることにより、入力されるテキストデータに出現する通りの表現に限らず、それらの表現のバリエーションに対応した言語モデルを構築することができる。
つまり、幅広いジャンルを取り扱う情報番組などの番組は、放送番組ごとに話題が大きく異なるため、音声認識に用いる語彙や言語モデルを適応化する必要がある。この適応化言語モデルには、話題の偏りのない一般的な大規模言語モデルと各放送番組の台本や進行表を利用した番組ごとの小規模言語モデルを混合した言語モデルが有用である。台本・進行表には、出演者や地名、番組内で示される情報が簡潔に記載されており未知語登録等には有効だが、台本中の表記が必ずしも番組出演者の発話と一致するわけではなく適応の効果が十分でない場合がある。さらに、台本・進行表の多くは書き言葉で表現されており、出演者は台本や進行表とは異なる言い回しや会話調で発話する場合もある。このような台本・進行表と発話の不一致を軽減するため、台本・進行表内の単語を同義語で置き換え、言い換えのバリエーションを増やすことにより、より有効な適応データを生成できる。本実施形態によれば、単語を同義語で置換した場合にも、頻度推定部が、置換前の単語連鎖の出現頻度に基づいて適切な頻度を推定することができる。よって、言語モデルの精度を向上させることができる。本実施形態では、台本や進行表等のテキストデータから同義語の置換に基づいて、単語連鎖のバリエーションを前後のn組の単語間でのみ増やすと共に、事前知識(大規模話題言語モデルにおける、n単語連鎖の部分連鎖の出現頻度。典型的には、単語ユニグラムの出現確率。)を利用して置換単語を含む単語連鎖の頻度を推定する。これにより、音声認識の性能を改善するための話題適応言語モデルの生成が可能となる。
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、下記の変形例のいくつかを組み合わせて実施しても良い。
[変形例1]
上記の実施形態では、3単語連鎖による言語モデルを用いた。本変形例では、3単語連鎖に限らず、一般に、n単語連鎖(n=1,2,3,4,・・・)を用いる。つまり、言語モデルは、n単語連鎖の出現頻度を統計的に表すデータである。また、三つ組生成・頻度計算部12、同義語置換部13、頻度推定部14、置換言語モデル生成部15、モデル適応部17、認識処理部62等の各部も、3単語連鎖に限らず、n単語連鎖を処理対象とする。
[変形例2]
上記の実施形態では、頻度推定部14は、置換によって新たに生成された3単語連鎖の頻度を推定する際に、式(1)によって、置換元単語の単語ユニグラム確率p(worig)に対する、置換単語の単語ユニグラム確率p(wsyn)を用いた。本変形例では、ここで、単語ユニグラム確率の比率の代わりに、置換元の2単語連鎖の出現確率(バイグラム(bigram)確率)と置換後の2単語連鎖の出現確率との比率を用いる。
変形例1と変形例2を組み合わせる場合には、つまり3単語連鎖をn単語連鎖に一般化した場合には、n単語連鎖による言語モデルを用いるとともに、同義語の置換前後におけるm単語連鎖の出現確率の比率を用いる。ここで、1≦m≦nである(m,nは整数)。
つまり、本変形例では、頻度推定部14は、式(1)を変形することにより、置換によって新たに生成されたn単語連鎖の出現確率を、m単語連鎖の出現確率の比率を用いて推定する。具体的には、頻度推定部14は、置換前のn単語連鎖の出現頻度と、置換前のn単語連鎖のうちの置換元単語を含むm単語連鎖の出現確率と、置換後の新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、置換後のn単語連鎖の出現頻度を推定する。言い換えれば、その比率とは、置換元単語を含むm単語連鎖の出現確率を分母とし、そのm単語連鎖に対応する置換後のm単語連鎖の出現確率を分子とする値である。頻度推定部14は、例えば、置換前のn単語連鎖の出現頻度に、この比率の値を乗じることによって、置換後のn単語連鎖の出現頻度を推定する。
なお、m単語連鎖の出現確率は、大規模話題言語モデル記憶部32から読み出される。
本変形例の場合、式(1)の代わりに、下の式(4)を用いる。
Figure 0006485941
式(4)において、p(worig|wm−1,wm−2,・・・)は、置換元の単語を含むm単語連鎖の出現確率である。また、p(wsyn|wm−1,wm−2,・・・)は、これに対応するものであり、置換後の単語を含むm単語連鎖の出現確率である。
[変形例3]
本変形例では、頻度推定部14は、置換によって新たに生成された3単語連鎖の出現頻度を、置換前の3単語連鎖の出現頻度と同一であると推定する。
本変形例と変形例1とを組み合わせる場合には、頻度推定部14は、置換によって新たに生成されたn単語連鎖の出現頻度を、置換前のn単語連鎖の出現頻度と同一であると推定する。言い換えれば、頻度推定部14は、置換前のn単語連鎖の出現頻度を、そのまま用いて、置換後のn単語連鎖の出現頻度であると推定する。
[変形例4]
本変形例では、置換言語モデル生成装置1は、モデル適応部17を具備しない。置換言語モデル生成装置1において、置換言語モデル生成部15は、上の実施形態に記載した通り、置換言語モデルを生成し、置換言語モデル記憶部16に書き込む。この置換言語モデルは、特定の話題に特化した言語モデルである。この置換言語モデルは、元のテキストデータ91に出現する単語連鎖の出現頻度、およびそれらの単語連鎖に含まれる単語を同義語で置換したことによって得られる単語連鎖の出現頻度(推定された出現頻度)にもとづく出現頻度のデータを保持する。
[変形例5]
上記の実施形態においては、テキストデータ91として、放送番組の台本や進行表のテキストを用いることとしたが、利用するテキストデータはこれには限られない。本変形例では、学会や講演会等において事前に入手可能な発表概要やプレゼン資料を、テキストデータ91として用いる。そして、その学会や講演会等の音声認識による書き起こしテキストを生成するために、本変形例を適用できる。また、利用するテキストデータ91の例はこれらに限定されず、任意である。
以上、この発明の実施形態およびその変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、音声認識処理全般に利用可能である。また、例えば、テレビの放送番組等、番組によって話題が大きく異なるようなコンテンツの音声を認識するために利用可能である。また、その一例として、放送のための字幕テキストの自動生成または半自動生成に利用可能である。
1 置換言語モデル生成装置(言語モデル生成装置)
2 音声認識装置
11 テキストデータ取得部
12 三つ組生成・頻度計算部
13 同義語置換部
14 頻度推定部
15 置換言語モデル生成部
16 置換言語モデル記憶部
17 モデル適応部
21 置換テーブル生成部
22 置換テーブル記憶部
31 小規模話題言語モデル記憶部
32 大規模話題言語モデル記憶部
51 適応言語モデル記憶部
52 発音辞書記憶部
53 音響モデル記憶部
61 入力音声取得部
62 認識処理部
63 認識結果出力部

Claims (4)

  1. 単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、
    テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換部と、
    置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定部と、
    前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、
    を具備し、
    前記頻度推定部は、置換前の前記n単語連鎖の出現頻度と、置換前の前記n単語連鎖のうちの置換元単語を含むm単語連鎖(mは正整数であり、1≦m≦n)の出現確率と、置換後の前記新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、前記置換後のn単語連鎖の出現頻度を推定する、
    ことを特徴とする言語モデル生成装置。
  2. 単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、
    テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換部と、
    置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定部と、
    前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、
    前記置換言語モデル生成部によって生成された前記置換言語モデルと、前記テキストデータから抽出されたn単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源におけるn単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成するモデル適応部
    具備することを特徴とす言語モデル生成装置。
  3. 請求項に記載の言語モデル生成装置と、
    言語要素の音響的特徴のデータを音響モデルとして記憶する音響モデル記憶部と、
    前記モデル適応部によって生成された前記適応言語モデルを言語モデルとして用いるとともに、前記音響モデル記憶部から読み出した音響モデルを用いることによって、入力音声の認識処理を行う認識処理部と、
    を具備することを特徴とする音声認識装置。
  4. コンピューターを
    請求項1または請求項2に記載の言語モデル生成装置、
    として機能させるためのプログラム。
JP2014148223A 2014-07-18 2014-07-18 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 Active JP6485941B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014148223A JP6485941B2 (ja) 2014-07-18 2014-07-18 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014148223A JP6485941B2 (ja) 2014-07-18 2014-07-18 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置

Publications (2)

Publication Number Publication Date
JP2016024325A JP2016024325A (ja) 2016-02-08
JP6485941B2 true JP6485941B2 (ja) 2019-03-20

Family

ID=55271109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014148223A Active JP6485941B2 (ja) 2014-07-18 2014-07-18 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置

Country Status (1)

Country Link
JP (1) JP6485941B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10217458B2 (en) * 2016-09-23 2019-02-26 Intel Corporation Technologies for improved keyword spotting
CN107146604B (zh) * 2017-04-27 2020-07-03 北京捷通华声科技股份有限公司 一种语言模型优化方法及装置
JP7084761B2 (ja) * 2018-04-10 2022-06-15 日本放送協会 文生成装置、文生成方法及び文生成プログラム
US11545144B2 (en) 2018-07-27 2023-01-03 Samsung Electronics Co., Ltd. System and method supporting context-specific language model

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091967A (ja) * 2000-09-14 2002-03-29 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体
JP4367713B2 (ja) * 2003-01-15 2009-11-18 パナソニック株式会社 放送受信方法、放送受信システム、第1装置、第2装置、音声認識方法、音声認識装置、プログラム及び記録媒体
JP2005031255A (ja) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp 辞書作成装置及び音声認識装置
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
US8788266B2 (en) * 2009-04-30 2014-07-22 Nec Corporation Language model creation device, language model creation method, and computer-readable storage medium
JP5276610B2 (ja) * 2010-02-05 2013-08-28 日本放送協会 言語モデル生成装置、そのプログラムおよび音声認識システム

Also Published As

Publication number Publication date
JP2016024325A (ja) 2016-02-08

Similar Documents

Publication Publication Date Title
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP6312942B2 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6485941B2 (ja) 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置
JP2016075740A (ja) 音声処理装置、音声処理方法、およびプログラム
CN107767858A (zh) 发音词典生成方法及装置、存储介质、电子设备
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
JP2012018201A (ja) テキスト補正方法及び認識方法
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5914054B2 (ja) 言語モデル作成装置、音声認識装置、およびそのプログラム
JP6366166B2 (ja) 音声認識装置、及びプログラム
JP6300394B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2010175765A (ja) 音声認識装置および音声認識プログラム
JP2008241970A (ja) 話者適応装置、話者適応方法及び話者適応プログラム
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP4362054B2 (ja) 音声認識装置及び音声認識プログラム
JP5268825B2 (ja) モデルパラメータ推定装置、方法及びプログラム
JP2017009691A (ja) 言語モデル生成装置およびそのプログラム
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
WO2023036283A1 (zh) 一种在线课堂交互的方法及在线课堂系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180815

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190218

R150 Certificate of patent or registration of utility model

Ref document number: 6485941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250