JP2004271615A - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP2004271615A JP2004271615A JP2003058595A JP2003058595A JP2004271615A JP 2004271615 A JP2004271615 A JP 2004271615A JP 2003058595 A JP2003058595 A JP 2003058595A JP 2003058595 A JP2003058595 A JP 2003058595A JP 2004271615 A JP2004271615 A JP 2004271615A
- Authority
- JP
- Japan
- Prior art keywords
- word
- text
- text data
- language model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】テキストデータを有効に利用し、音声認識性能の高い統計的言語モデルを実現する。
【解決手段】テキストデータから、音声認識に用いられる統計的言語モデルを作成する情報処理装置であって、前記テキストデータの言語情報を解析する言語解析部201と、前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換するテキスト変換部203と、前記変換されたテキストデータに基づいて、統計的言語モデルを作成する言語モデル作成部206とを備える。
【選択図】 図2
【解決手段】テキストデータから、音声認識に用いられる統計的言語モデルを作成する情報処理装置であって、前記テキストデータの言語情報を解析する言語解析部201と、前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換するテキスト変換部203と、前記変換されたテキストデータに基づいて、統計的言語モデルを作成する言語モデル作成部206とを備える。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、テキストデータから音声認識のための統計的言語モデルを作成する技術に関するものである。
【0002】
【従来の技術】
近年、文などの連続音声を文字情報に変換する連続音声認識技術において、1つ以上の単語の連鎖確率(単語連鎖の統計情報)を大量のテキストデータから求め、これを音声認識のための言語知識もしくは言語モデルとして利用した統計的言語モデルの作成技術およびこのモデルを用いた音声認識装置が開発されている。
【0003】
従来の統計的言語モデルの作成にあたっては、大量のテキストデータを言語解析することによって単語の二つ組みや三つ組みなどの単語連鎖の統計情報を求めていた。しかしながら、一般に利用可能な大量のテキストデータは新聞記事などに限られているうえ、これらのテキストデータは、通常、書き言葉で作成されている。このため、一般に利用可能な大量のテキストデータに基づいて作成された統計的言語モデルを、例えば、話し言葉に対する音声認識のための言語モデルとして用いても、高い認識性能が得られない。むしろ少量のテキストデータであっても話し言葉によるテキストデータに基づいて作成された言語モデルを用いた方が、かえって認識性能は高くなる。このため、高い音声認識性能を得るべく、このような大量のテキストデータを統計的言語モデルの作成に有効に利用する技術が求められている。
【0004】
これに対して、例えば下記非特許文献1には、統計的言語モデルの作成にあたり、テキストデータを変形して利用する技術が開示されている。同文献によれば、ニュース原稿の記事(読み原稿)を解説調の言い回しに置換させることのみを目的として、句末、文末表現の述部(用言部分)における単純な変形ルールを用いて統計的言語モデル内の単語列を自動生成することができる。
【0005】
【非特許文献1】
日本放送協会、情報処理学会研究報告、2000−SLP−34、pp.143−148、2000年12月
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来技術に示した方法は、変形部分が句末・文末表現の述部(用言部分)に限られており、変形方法も単純な変形ルールによる置換に止まる。また、用途も解説調の言い回しを対象とした音声認識に限られてくるため、当該方法に基づいて作成された統計的言語モデルを用いて音声認識を行っても、解説調以外の言い回しに対して高い認識性能を得ることは困難である。
【0007】
本発明は上記課題に鑑みてなされたものであり、テキストデータを有効に利用し、音声認識性能の高い統計的言語モデルを実現することを目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成するために本発明に係る情報処理装置は以下のような構成を備える。即ち、
テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換手段と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成手段とを備える。
【0009】
【発明の実施の形態】
はじめに本発明の概要について説明する。本発明に係る情報処理装置はテキストデータから音声認識のための統計的言語モデルを作成するものであり、入力されたテキストデータを言語解析し、音声認識する対象の有する特性に適したテキストデータに変換した上で、当該変換後のテキストデータに基づいて統計的言語モデルを作成することを特徴とするものである。つまり、従来は入力されたテキストデータを言語解析し、統計的言語モデルを直接求めていたところ、本発明によれば、音声認識する対象の有する特性に適したテキストデータに変換したうえで言語解析し統計的言語モデルを求めるため、本発明により生成された当該統計的言語モデルを用いて音声認識した場合、高い認識性能を得ることが可能となる。
【0010】
また、テキストデータの変換にあたっては、従来は、テキストデータ内の用言部分について行っていたものを、テキストデータ全体に対して行うとともに、変形方法も置換に限らず、補完、省略も行うことで、より音声認識する対象の有する特性に適した変換を行うことができ、認識性能の高い統計的言語モデルの生成が可能となる。
【0011】
さらに、音声認識する対象も、書き言葉や話し言葉の他、男性の言葉、女性の言葉、子供の言葉、高齢者の言葉、東京方言を含む言葉、関西方言を含む言葉、粗雑な言葉、丁寧な言葉、用言を含まない言葉、冗長語を含まない言葉、専門用語を含まない言葉等、様々な対象について適用可能である。以下に、添付図面を参照して本発明の好適な実施の形態を詳細に説明する。
【0012】
【第1の実施形態】
図1は、本発明の実施形態に係る情報処理装置の構成を示すブロック図である。101はCPUで、ROM102に記憶された制御プログラム或いは外部記憶装置104からRAM103にロードされた制御プログラムに従って、本実施形態にかかる情報処理装置における各種制御を行う。
【0013】
ROM102は各種パラメータやCPU101が実行する制御プログラムなどを格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供するとともに、CPU101により実行される制御プログラムを記憶する。
【0014】
104はハードディスク、フロッピー(登録商標)ディスク、CD−ROM、DVD−ROM、メモリカード等の外部記憶装置で、この外部記憶装置がハードディスクの場合には、CD−ROMやフロッピー(登録商標)ディスク等からインストールされた各種プログラムが記憶されている。
【0015】
105は音声を取得するためのマイクロフォンなどの音響入力装置であり、音声認識を行う際の音声の入力を行う。106はキーボード、マウス、ペン、スイッチ、タッチパネルなどの補助入力装置である。107は液晶やCRT等の表示装置で、CPU101の制御により各種データの表示を行う。108は上記各部を接続するバスである。
【0016】
図2は、本発明の実施形態にかかる統計的言語モデルの作成方法を実現する機能ブロックを示す図である。201は入力として与えられるテキストを形態素などの単語の区切り、読み、品詞、活用形などのいずれかまたはこれらの組み合わせからなるテキスト変換に必要な言語情報を求める言語解析部であり、202は言語解析を行う際に用いる言語解析用の辞書である。
【0017】
203は言語解析結果に基づいてテキスト中の単語の補完、置換、省略を行うテキスト変換部である。204はテキスト変換を行う際に用いるテキスト変換用の辞書であり、言語解析結果を所望の対象へ変換するために必要な情報や規則を格納している。205は変換後のテキストを入力として形態素などの単語の区切り、読み、品詞、活用形などのいずれかまたはこれらの組み合わせからなる言語モデル作成に必要な情報を求める言語解析部である。206は言語解析部205の出力として得られる言語解析結果を入力として、単語連鎖の統計情報を求める統計的言語モデル作成部である。
【0018】
以下、各処理の流れを詳細に説明する。
【0019】
図3は、言語解析部201およびテキスト変換部203におけるテキスト変換の概要を示したフローチャートである。まず、ステップS301で変換対象となるテキストを入力する。次に、ステップS302でテキストを1文ごとに切り出す。次に、ステップS303で形態素解析を行う。ステップS304ではこの形態素解析結果を入力として、テキスト中の単語の補完、置換、省略を行うことによってテキスト変換を行う。最後にステップS305で変換結果を変換テキストとして出力する。
【0020】
図4は、ステップS304におけるテキスト変換の処理の一例を示したフローチャートである。まず、ステップS303の形態素解析結果を入力としてスタートする。ステップS401では、体言止めなどで、文が用言で終了していないものかどうかの判断を行う。
【0021】
文末の用言が省略されている場合、ステップS402で用言を補完する。サ変名詞で終了している場合、連体修飾句がない場合でかつ、主格や体格に相当する句がある場合には、サ変動詞化する。例えば、「事実が判明。」とある場合は「事実が判明する」もしくは「事実が判明した」となる。「た」などの時制の挿入は、その文や前の文の時制を調べて継承する。それ以外で、名詞や副詞や副助詞などで終わっているものについては、「です」を補う。
【0022】
ステップS403では、丁寧語に変換すべき語があるか判定する。変換すべき語がある場合はステップS404で変換する。「飯を食う」などの表現がある場合は、「御飯を食べる」というような表現に変換される。ステップS405では、同音異義語があるかどうかを判定して、ある場合には、ステップS406で言い換える。例えば、「農水省」と「農水相」という同音異義語がある場合には、それぞれ「農林水産省」、「農林水産大臣」のように言い換える。
【0023】
ステップS407で、文末に丁寧表現があるかどうかの判断を行う。丁寧表現がない場合には、ステップS408で助動詞を置換し丁寧表現を付与する。例えば、「肉骨粉に使用されていることが判明」という個所は、ステップS402で用言が補完され、「肉骨粉に使用されていることが判明した」となっているが、これには丁寧表現がないため「判明し」と「た」の間に「ます」を挿入する。ステップS409で、活用形の処理を行うことによって処理を終了する。例えば、「判明し」+「ます」+「た」の部分は、「判明しました」となる。なお、これらのテキスト変換処理の順序はこれに限ったものではなく、またこれらのうちの一部の変換のみを行ってもよい。
【0024】
図5は、オリジナルテキストとこれに用言補完等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。統計的言語モデルは、大語彙連続音声認識などの分野で広く用いられている単語N−gramに基づく方法などで作成することができる。統計的言語モデルを作成する場合には、オリジナルテキストに対する単語連鎖の統計情報にα倍(0<=α)の重みを乗じたものと、変換テキストに対する単語連鎖の統計情報とを用いて作成する。
【0025】
【第2の実施形態】
前記実施形態では、用言補完や丁寧語の補完など主として書き言葉に対するテキストを話し言葉に変換する処理を施しているが、逆に、話し言葉のテキストを書き言葉に変換することもできる。
【0026】
図6は、この場合のステップS304におけるテキスト変換の処理の一例を示したフローチャートである。まず、ステップS303の形態素解析結果を入力としてスタートする。ステップS601で、文末の用言が省略可能であるかどうかの判定を行い、可能ならばステップS602で文末用言を省略して体言止めの文とする。例えば、「名詞/形容動詞/副詞」+「だ/です」で終了している場合には、「だ/です」は省略可能である。「サ変名詞」+「する/した/している/します/しました/しています」で終了している場合は、「する/した/している/します/しました/しています」は省略可能である。
【0027】
ステップS603では、基準語に変換すべき語があるかの判定を行う。ある場合は、ステップS604で基準語に変換する。例えば、「お巡りさん」は「巡査」、「アメリカ合衆国」は「米]などの短い語に変換する。ステップS605では、同形語があるかどうかの判断を行い、ある場合には別の表記の同義語で置き換える。例えば、「市場」には「いちば」と「しじょう」という読みがあるが、形態素解析で、「しじょう」の読みの「市場」であると判断できた場合には、「マーケット」という同義語で置き換える。
【0028】
ステップS607では、ムードやアスペクトや待遇や態度などの冗長な文末表現があるかどうかの判断を行い、ある場合には、ステップS608で省略可能なものを置き換える。ここで、アスペクトは進行、完結、継続、直前、反復などの時制について示すもの、ムードは推量、伝聞、予測、意外、回想などの対事ムードや命令、依頼、禁止、勧誘、希望などの伝達ムードなど話し手がどう考えているかについて、待遇は尊敬、謙譲、丁寧、卑罵など文の丁寧さについて、態度は改まり、くだけ、粗野、尊大など聞き手に対する親密度についてそれぞれ示すものである。例えば、「値を下げているという」という文の「ている」は進行のアスペクトを示し、「という」は伝聞のムードを示す。これらを省略して「値を下げる」と変換する。待遇の例としては、「これを見て頂けませんか」の「頂けませんか」のを「下さい」と丁寧から普通に丁寧度を下げることにより、「これを見て下さい」と変換する。態度の例としては、「それを食べまくる」という粗野や表現を「それを食べ続ける」に変換する。ステップS609で、置き換えた部分の活用処理を行ってその結果をもってエンドとする。なお、これらのテキスト変換処理の順序はこれに限ったものではなく、またこれらのうちの一部の変換のみを行ってもよい。
【0029】
図7は、オリジナルテキストとこれに用言省略等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。図5の場合と同様に、統計的言語モデルを作成する場合には、オリジナルテキストに対する単語連鎖の統計情報にα倍(0<=α)の重みを乗じたものと、変換テキストに対する単語連鎖の統計情報とを用いて作成する。
【0030】
【第3の実施形態】
前記実施形態では、書き言葉や話し言葉に対する変換処理を施しているが、男性、女性、子供、学生、高齢者などの話し手情報を用いることにより、本発明のテキスト変換は他にも女性言葉や男性言葉へのテキスト変換が可能となり、性別依存の統計的言語モデルを作成することもできる。
【0031】
図8は、オリジナルテキストとこれに女性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。ここでは、「僕」を「私」に、「するのだろうか」を「するのかしら」と女性言葉へテキストを変換する例を示している。
【0032】
図9は、オリジナルテキストとこれに男性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。ここでは、「私」を「僕」に、「するのかしら」を「するのだろうか」と男性言葉へテキストを変換する例を示している。統計的言語モデルを作成する場合には、これらのオリジナルテキストに対する単語連鎖の統計情報にα倍(0<=α)の重みを乗じたものと、変換テキストに対する単語連鎖の統計情報とを用いて作成する。ここで、女性的言語モデル作成と男性的言語モデル作成時のαは異なる値を用いてもよい。
【0033】
図10は、これらの女性的言語モデルおよび男性的言語モデルを用いて音声認識を行う際の構成を示したブロック図である。1001は入力音声をスペクトル分析など音声認識の特徴パラメータを抽出する音声分析部である。1002は特徴パラメータ時系列から単語仮説に対する音響尤度と言語尤度を計算し、音声認識の仮説候補を生成する音響・言語探索部である。1003は音素環境依存HMMなどの音響モデルである。
【0034】
1004は男性的言語モデル、1005は女性的言語モデルであり、前述の方法によって作成される。1006は性別非依存言語モデルであり、図8または図9におけるオリジナルテキストもしくはこれに図8および図9の変換テキストを加えたテキストから作成される。
【0035】
1007は音声認識の仮説候補から音声認識結果を出力する音声認識結果出力部である。ここで、1004、1005、1006の3つの言語モデルは、1001で得られる音声の特徴パラメータから得られる性別に対する確からしさに応じて、選択的もしくは確率的に利用する。このとき性別に対する確からしさは、例えば、男性、女性、男性+女性に対するGMM(Gaussian Mixture Model)に対する尤度を求めることによって得られる。他にも、1004、1005、1006の3つの言語モデルは、利用者情報や利用者による設定に従って、音声認識処理を行う前に選択することも可能である。
【0036】
他にも、子供、学生、高齢者などの年代や個性に応じたテキスト変換を施すことによって、これらの言語モデルを作成することも可能であり、これらを前述と同様の方法で音声認識に利用することも可能である。
【0037】
【第4の実施形態】
前記実施形態では、女性言葉や男性言葉へのテキスト変換を行うことによって言語モデルを作成し、これらを音声認識に利用しているが、本発明のテキスト変換は他にも東京方言や関西方言へのテキスト変換を行うことによって、方言に依存した統計的言語モデルを複数作成し、これらを音声認識に利用することもできる。
【0038】
図11は、東京方言言語モデルおよび関西方言言語モデルを用いて音声認識を行う際の構成を示したブロック図である。1101は入力音声をスペクトル分析など音声認識の特徴パラメータを抽出する音声分析部である。
【0039】
1102は特徴パラメータ時系列から単語仮説に対する音響尤度と言語尤度を計算し、音声認識の仮説候補を生成する音響・言語探索部である。1103は音素環境依存HMMなどの音響モデルである。1104は東京方言に変換されたテキストを用いて作成される言語モデル、1105は関西方言に変換されたテキストを用いて作成される言語モデルであり、前述の性別依存言語モデルの作成と同様に、単語の置換等によって作成することができる。
【0040】
1106は方言非依存言語モデルであり、オリジナルテキストもしくはこれに東京方言および関西方言へ変換されたテキストを加えたテキストから作成される。1107は音声認識の仮説候補から音声認識結果を出力する音声認識結果出力部である。ここで、1104、1105、1106の3つの言語モデルは、1107の出力として得られる音声認識結果から得られる方言に対する確からしさに応じて、選択的もしくは確率的に利用する。このとき方言に対する確からしさは、例えば、音声認識結果として得られる単語列の東京方言、関西方言、方言非依存言語モデルに対する言語尤度を求めることによって得られる。このとき、1102の音響・言語探索部で利用するためには、以前に発声された音声に対する認識結果から得られる方言に対する確からしさを用いる必要がある。もしくは、1102の処理を2回繰り返し、最初の処理において得られる音声認識結果から方言に対する確からしさを求め、この確からしさから求まる言語モデルの選択結果もしくは重みによって、再度1102の処理を行い、最終的な音声認識結果を求めることもできる。他にも、1104、1105、1106の3つの言語モデルは、利用者情報や利用者による設定に従って、音声認識処理を行う前に選択することも可能である。
【0041】
他にも、ぞんざい、丁寧、朗読調、アナウンサ調、DJ調などの話調に対するテキスト変換を施すことによって、話調依存の言語モデルを作成することも可能であり、これらを前述と同様の方法で音声認識に利用することも可能である。
【0042】
【第5の実施形態】
前記実施形態では、テキスト変換を行い、その変換テキストを言語解析することによって、統計的言語モデルを作成していたが、オリジナルテキストを用いて作成された言語モデルの表現(単語連鎖エントリ)を直接変換することも可能である。
【0043】
図12は、統計的言語モデルに対して変換処理を施した場合のNグラムテーブルの一例を示した説明図である。図12の上段の「Nグラムテーブル(変換前)」は「民家が全焼」というテキストに対するバイグラム、トライグラムの単語連鎖エントリ(「が―全焼」、「民家―が―全焼」等)とその確率値(p1,p3等)である。</s>および<s>はそれぞれ文末、文頭を示す特殊記号である。このNグラムテーブルに対して、図5に示した用言補完等の処理を加える場合、「が―全焼―</s>」(図12の(*)の単語連鎖エントリ)に用言補完処理を施すことが可能である。このときの用言補完として、「が全焼しました」と変換する場合、図12の下段の「Nグラムテーブル(変換後)」に示される(**)の単語連鎖エントリが上段のテーブル内に存在しない場合は補完される。また、全ての単語連鎖エントリに対する確率値(単語連鎖の統計情報)は、変換処理後に再計算される。
【0044】
このように、統計的言語モデルに対して変換処理を施すことで、テキストデータに変換処理を施す場合と比べ、変換処理する処理対象が削減されるため、処理負荷が軽減されるという付帯的な効果が得られる。
【0045】
【他の実施形態】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0046】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【0047】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【0048】
なお、本発明に係る実施態様の例を以下に列挙する。
【0049】
[実施態様1] テキストデータから、音声認識のための統計的言語モデルを作成する作成方法であって、
前記テキストデータの言語情報を解析する言語解析工程と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換工程と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成工程と
を備えることを特徴とする作成方法。
【0050】
[実施態様2] 前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語IDのいずれか、またはこれらの組み合わせであることを特徴とする実施態様1に記載の作成方法。
【0051】
[実施態様3] 前記変換工程は、
前記テキストデータより、前記音声認識する対象の有する特性に適さない表現を抽出し、補完、置換、省略のいずれかを行うことで、前記テキストデータを該音声認識する対象の有する特性に適した表現に変換することを特徴とする実施態様1に記載の作成方法。
【0052】
[実施態様4] 前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様1に記載の作成方法。
【0053】
[実施態様5] 前記作成工程は、
前記入力されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報に所定の重み付けを行ったものと、前記変換されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報とに基づいて前記統計的言語モデルを作成することを特徴とする実施態様1に記載の作成方法。
【0054】
[実施態様6] テキストデータから、音声認識のための統計的言語モデルを作成する作成方法であって、
前記テキストデータの言語情報を解析する言語解析工程と、
前記テキストデータの言語情報を解析することで得られた単語連鎖の統計情報に基づいて統計的言語モデルを作成する作成工程と、
前記作成された統計的言語モデルに含まれる表現を、音声認識する対象の有する特性に適した表現に変換する変換工程と、
前記変換された統計的言語モデルについて、前記単語連鎖の統計情報を再計算する再計算工程と
を備えることを特徴とする作成方法。
【0055】
[実施態様7] 前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語IDのいずれか、またはこれらの組み合わせであることを特徴とする実施態様6に記載の作成方法。
【0056】
[実施態様8] 前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様6に記載の作成方法。
【0057】
[実施態様9] 前記変換工程は、
前記作成工程において単語連鎖の統計情報が求められた単語のうち、前記音声認識する対象の有する特性に適さない単語を抽出し、補完、置換、省略のいずれかを行うことで、前記統計的言語モデルに含まれる単語を該音声認識する対象の有する特性に適した単語に変換することを特徴とする実施態様6に記載の作成方法。
【0058】
[実施態様10] テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換手段と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成手段と
を備えることを特徴とする情報処理装置。
【0059】
[実施態様11] 前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語IDのいずれか、またはこれらの組み合わせであることを特徴とする実施態様10に記載の情報処理装置。
【0060】
[実施態様12] 前記変換手段は、
前記テキストデータより、前記音声認識する対象の有する特性に適さない表現を抽出し、補完、置換、省略のいずれかを行うことで、前記テキストデータを該音声認識する対象の有する特性に適した表現に変換することを特徴とする実施態様10に記載の情報処理装置。
【0061】
[実施態様13] 前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様10に記載の情報処理装置。
【0062】
[実施態様14] 前記作成手段は、
前記入力されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報に所定の重み付けを行ったものと、前記変換されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報とに基づいて前記統計的言語モデルを作成することを特徴とする実施態様10に記載の情報処理装置。
【0063】
[実施態様15] テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記テキストデータの言語情報を解析することで得られた単語連鎖の統計情報に基づいて統計的言語モデルを作成する作成手段と、
前記作成された統計的言語モデルに含まれる表現を、音声認識する対象の有する特性に適した表現に変換する変換手段と、
前記変換された統計的言語モデルについて、前記単語連鎖の統計情報を再計算する再計算手段と
を備えることを特徴とする情報処理装置。
【0064】
[実施態様16] 前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語IDのいずれか、またはこれらの組み合わせであることを特徴とする実施態様15に記載の情報処理装置。
【0065】
[実施態様17] 前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様15に記載の情報処理装置。
【0066】
[実施態様18] 前記変換手段は、
前記作成手段において単語連鎖の統計情報が求められた単語のうち、前記音声認識する対象の有する特性に適さない単語を抽出し、補完、置換、省略のいずれかを行うことで、前記統計的言語モデルに含まれる単語を該音声認識する対象の有する特性に適した単語に変換することを特徴とする実施態様15に記載の情報処理装置。
【0067】
[実施態様19] 実施態様1乃至9のいずれか1つに記載の作成方法をコンピュータによって実現させるための制御プログラム。
【0068】
[実施態様20] 実施態様1乃至9のいずれか1つに記載の作成方法をコンピュータによって実現させるための制御プログラムを格納した記録媒体。
【0069】
【発明の効果】
以上説明したように本発明によれば、テキストデータを有効に利用し、音声認識性能の高い統計的言語モデルを実現することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態にかかる情報処理装置のハードウェア構成を示したブロック図である。
【図2】本発明の実施形態にかかる統計的言語モデルの作成方法のモジュール構成を示したブロック図である。
【図3】テキスト変換の概要を示したフローチャートである。
【図4】用言補完等に関するテキスト変換方法の一例を示したフローチャートである。
【図5】オリジナルテキストとこれに用言補完等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図6】用言省略等に関するテキスト変換方法の一例を示したフローチャートである。
【図7】オリジナルテキストとこれに用言省略等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図8】オリジナルテキストとこれに女性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図9】オリジナルテキストとこれに男性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図10】性別に関する複数の言語モデルを用いて音声認識を行う際の構成を示したブロック図である。
【図11】方言に関する複数の言語モデルを用いて音声認識を行う際の構成を示したブロック図である。
【図12】統計的言語モデルに対して変換処理を施した場合のNグラムテーブルの一例を示した説明図である。
【発明の属する技術分野】
本発明は、テキストデータから音声認識のための統計的言語モデルを作成する技術に関するものである。
【0002】
【従来の技術】
近年、文などの連続音声を文字情報に変換する連続音声認識技術において、1つ以上の単語の連鎖確率(単語連鎖の統計情報)を大量のテキストデータから求め、これを音声認識のための言語知識もしくは言語モデルとして利用した統計的言語モデルの作成技術およびこのモデルを用いた音声認識装置が開発されている。
【0003】
従来の統計的言語モデルの作成にあたっては、大量のテキストデータを言語解析することによって単語の二つ組みや三つ組みなどの単語連鎖の統計情報を求めていた。しかしながら、一般に利用可能な大量のテキストデータは新聞記事などに限られているうえ、これらのテキストデータは、通常、書き言葉で作成されている。このため、一般に利用可能な大量のテキストデータに基づいて作成された統計的言語モデルを、例えば、話し言葉に対する音声認識のための言語モデルとして用いても、高い認識性能が得られない。むしろ少量のテキストデータであっても話し言葉によるテキストデータに基づいて作成された言語モデルを用いた方が、かえって認識性能は高くなる。このため、高い音声認識性能を得るべく、このような大量のテキストデータを統計的言語モデルの作成に有効に利用する技術が求められている。
【0004】
これに対して、例えば下記非特許文献1には、統計的言語モデルの作成にあたり、テキストデータを変形して利用する技術が開示されている。同文献によれば、ニュース原稿の記事(読み原稿)を解説調の言い回しに置換させることのみを目的として、句末、文末表現の述部(用言部分)における単純な変形ルールを用いて統計的言語モデル内の単語列を自動生成することができる。
【0005】
【非特許文献1】
日本放送協会、情報処理学会研究報告、2000−SLP−34、pp.143−148、2000年12月
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来技術に示した方法は、変形部分が句末・文末表現の述部(用言部分)に限られており、変形方法も単純な変形ルールによる置換に止まる。また、用途も解説調の言い回しを対象とした音声認識に限られてくるため、当該方法に基づいて作成された統計的言語モデルを用いて音声認識を行っても、解説調以外の言い回しに対して高い認識性能を得ることは困難である。
【0007】
本発明は上記課題に鑑みてなされたものであり、テキストデータを有効に利用し、音声認識性能の高い統計的言語モデルを実現することを目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成するために本発明に係る情報処理装置は以下のような構成を備える。即ち、
テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換手段と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成手段とを備える。
【0009】
【発明の実施の形態】
はじめに本発明の概要について説明する。本発明に係る情報処理装置はテキストデータから音声認識のための統計的言語モデルを作成するものであり、入力されたテキストデータを言語解析し、音声認識する対象の有する特性に適したテキストデータに変換した上で、当該変換後のテキストデータに基づいて統計的言語モデルを作成することを特徴とするものである。つまり、従来は入力されたテキストデータを言語解析し、統計的言語モデルを直接求めていたところ、本発明によれば、音声認識する対象の有する特性に適したテキストデータに変換したうえで言語解析し統計的言語モデルを求めるため、本発明により生成された当該統計的言語モデルを用いて音声認識した場合、高い認識性能を得ることが可能となる。
【0010】
また、テキストデータの変換にあたっては、従来は、テキストデータ内の用言部分について行っていたものを、テキストデータ全体に対して行うとともに、変形方法も置換に限らず、補完、省略も行うことで、より音声認識する対象の有する特性に適した変換を行うことができ、認識性能の高い統計的言語モデルの生成が可能となる。
【0011】
さらに、音声認識する対象も、書き言葉や話し言葉の他、男性の言葉、女性の言葉、子供の言葉、高齢者の言葉、東京方言を含む言葉、関西方言を含む言葉、粗雑な言葉、丁寧な言葉、用言を含まない言葉、冗長語を含まない言葉、専門用語を含まない言葉等、様々な対象について適用可能である。以下に、添付図面を参照して本発明の好適な実施の形態を詳細に説明する。
【0012】
【第1の実施形態】
図1は、本発明の実施形態に係る情報処理装置の構成を示すブロック図である。101はCPUで、ROM102に記憶された制御プログラム或いは外部記憶装置104からRAM103にロードされた制御プログラムに従って、本実施形態にかかる情報処理装置における各種制御を行う。
【0013】
ROM102は各種パラメータやCPU101が実行する制御プログラムなどを格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供するとともに、CPU101により実行される制御プログラムを記憶する。
【0014】
104はハードディスク、フロッピー(登録商標)ディスク、CD−ROM、DVD−ROM、メモリカード等の外部記憶装置で、この外部記憶装置がハードディスクの場合には、CD−ROMやフロッピー(登録商標)ディスク等からインストールされた各種プログラムが記憶されている。
【0015】
105は音声を取得するためのマイクロフォンなどの音響入力装置であり、音声認識を行う際の音声の入力を行う。106はキーボード、マウス、ペン、スイッチ、タッチパネルなどの補助入力装置である。107は液晶やCRT等の表示装置で、CPU101の制御により各種データの表示を行う。108は上記各部を接続するバスである。
【0016】
図2は、本発明の実施形態にかかる統計的言語モデルの作成方法を実現する機能ブロックを示す図である。201は入力として与えられるテキストを形態素などの単語の区切り、読み、品詞、活用形などのいずれかまたはこれらの組み合わせからなるテキスト変換に必要な言語情報を求める言語解析部であり、202は言語解析を行う際に用いる言語解析用の辞書である。
【0017】
203は言語解析結果に基づいてテキスト中の単語の補完、置換、省略を行うテキスト変換部である。204はテキスト変換を行う際に用いるテキスト変換用の辞書であり、言語解析結果を所望の対象へ変換するために必要な情報や規則を格納している。205は変換後のテキストを入力として形態素などの単語の区切り、読み、品詞、活用形などのいずれかまたはこれらの組み合わせからなる言語モデル作成に必要な情報を求める言語解析部である。206は言語解析部205の出力として得られる言語解析結果を入力として、単語連鎖の統計情報を求める統計的言語モデル作成部である。
【0018】
以下、各処理の流れを詳細に説明する。
【0019】
図3は、言語解析部201およびテキスト変換部203におけるテキスト変換の概要を示したフローチャートである。まず、ステップS301で変換対象となるテキストを入力する。次に、ステップS302でテキストを1文ごとに切り出す。次に、ステップS303で形態素解析を行う。ステップS304ではこの形態素解析結果を入力として、テキスト中の単語の補完、置換、省略を行うことによってテキスト変換を行う。最後にステップS305で変換結果を変換テキストとして出力する。
【0020】
図4は、ステップS304におけるテキスト変換の処理の一例を示したフローチャートである。まず、ステップS303の形態素解析結果を入力としてスタートする。ステップS401では、体言止めなどで、文が用言で終了していないものかどうかの判断を行う。
【0021】
文末の用言が省略されている場合、ステップS402で用言を補完する。サ変名詞で終了している場合、連体修飾句がない場合でかつ、主格や体格に相当する句がある場合には、サ変動詞化する。例えば、「事実が判明。」とある場合は「事実が判明する」もしくは「事実が判明した」となる。「た」などの時制の挿入は、その文や前の文の時制を調べて継承する。それ以外で、名詞や副詞や副助詞などで終わっているものについては、「です」を補う。
【0022】
ステップS403では、丁寧語に変換すべき語があるか判定する。変換すべき語がある場合はステップS404で変換する。「飯を食う」などの表現がある場合は、「御飯を食べる」というような表現に変換される。ステップS405では、同音異義語があるかどうかを判定して、ある場合には、ステップS406で言い換える。例えば、「農水省」と「農水相」という同音異義語がある場合には、それぞれ「農林水産省」、「農林水産大臣」のように言い換える。
【0023】
ステップS407で、文末に丁寧表現があるかどうかの判断を行う。丁寧表現がない場合には、ステップS408で助動詞を置換し丁寧表現を付与する。例えば、「肉骨粉に使用されていることが判明」という個所は、ステップS402で用言が補完され、「肉骨粉に使用されていることが判明した」となっているが、これには丁寧表現がないため「判明し」と「た」の間に「ます」を挿入する。ステップS409で、活用形の処理を行うことによって処理を終了する。例えば、「判明し」+「ます」+「た」の部分は、「判明しました」となる。なお、これらのテキスト変換処理の順序はこれに限ったものではなく、またこれらのうちの一部の変換のみを行ってもよい。
【0024】
図5は、オリジナルテキストとこれに用言補完等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。統計的言語モデルは、大語彙連続音声認識などの分野で広く用いられている単語N−gramに基づく方法などで作成することができる。統計的言語モデルを作成する場合には、オリジナルテキストに対する単語連鎖の統計情報にα倍(0<=α)の重みを乗じたものと、変換テキストに対する単語連鎖の統計情報とを用いて作成する。
【0025】
【第2の実施形態】
前記実施形態では、用言補完や丁寧語の補完など主として書き言葉に対するテキストを話し言葉に変換する処理を施しているが、逆に、話し言葉のテキストを書き言葉に変換することもできる。
【0026】
図6は、この場合のステップS304におけるテキスト変換の処理の一例を示したフローチャートである。まず、ステップS303の形態素解析結果を入力としてスタートする。ステップS601で、文末の用言が省略可能であるかどうかの判定を行い、可能ならばステップS602で文末用言を省略して体言止めの文とする。例えば、「名詞/形容動詞/副詞」+「だ/です」で終了している場合には、「だ/です」は省略可能である。「サ変名詞」+「する/した/している/します/しました/しています」で終了している場合は、「する/した/している/します/しました/しています」は省略可能である。
【0027】
ステップS603では、基準語に変換すべき語があるかの判定を行う。ある場合は、ステップS604で基準語に変換する。例えば、「お巡りさん」は「巡査」、「アメリカ合衆国」は「米]などの短い語に変換する。ステップS605では、同形語があるかどうかの判断を行い、ある場合には別の表記の同義語で置き換える。例えば、「市場」には「いちば」と「しじょう」という読みがあるが、形態素解析で、「しじょう」の読みの「市場」であると判断できた場合には、「マーケット」という同義語で置き換える。
【0028】
ステップS607では、ムードやアスペクトや待遇や態度などの冗長な文末表現があるかどうかの判断を行い、ある場合には、ステップS608で省略可能なものを置き換える。ここで、アスペクトは進行、完結、継続、直前、反復などの時制について示すもの、ムードは推量、伝聞、予測、意外、回想などの対事ムードや命令、依頼、禁止、勧誘、希望などの伝達ムードなど話し手がどう考えているかについて、待遇は尊敬、謙譲、丁寧、卑罵など文の丁寧さについて、態度は改まり、くだけ、粗野、尊大など聞き手に対する親密度についてそれぞれ示すものである。例えば、「値を下げているという」という文の「ている」は進行のアスペクトを示し、「という」は伝聞のムードを示す。これらを省略して「値を下げる」と変換する。待遇の例としては、「これを見て頂けませんか」の「頂けませんか」のを「下さい」と丁寧から普通に丁寧度を下げることにより、「これを見て下さい」と変換する。態度の例としては、「それを食べまくる」という粗野や表現を「それを食べ続ける」に変換する。ステップS609で、置き換えた部分の活用処理を行ってその結果をもってエンドとする。なお、これらのテキスト変換処理の順序はこれに限ったものではなく、またこれらのうちの一部の変換のみを行ってもよい。
【0029】
図7は、オリジナルテキストとこれに用言省略等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。図5の場合と同様に、統計的言語モデルを作成する場合には、オリジナルテキストに対する単語連鎖の統計情報にα倍(0<=α)の重みを乗じたものと、変換テキストに対する単語連鎖の統計情報とを用いて作成する。
【0030】
【第3の実施形態】
前記実施形態では、書き言葉や話し言葉に対する変換処理を施しているが、男性、女性、子供、学生、高齢者などの話し手情報を用いることにより、本発明のテキスト変換は他にも女性言葉や男性言葉へのテキスト変換が可能となり、性別依存の統計的言語モデルを作成することもできる。
【0031】
図8は、オリジナルテキストとこれに女性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。ここでは、「僕」を「私」に、「するのだろうか」を「するのかしら」と女性言葉へテキストを変換する例を示している。
【0032】
図9は、オリジナルテキストとこれに男性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。ここでは、「私」を「僕」に、「するのかしら」を「するのだろうか」と男性言葉へテキストを変換する例を示している。統計的言語モデルを作成する場合には、これらのオリジナルテキストに対する単語連鎖の統計情報にα倍(0<=α)の重みを乗じたものと、変換テキストに対する単語連鎖の統計情報とを用いて作成する。ここで、女性的言語モデル作成と男性的言語モデル作成時のαは異なる値を用いてもよい。
【0033】
図10は、これらの女性的言語モデルおよび男性的言語モデルを用いて音声認識を行う際の構成を示したブロック図である。1001は入力音声をスペクトル分析など音声認識の特徴パラメータを抽出する音声分析部である。1002は特徴パラメータ時系列から単語仮説に対する音響尤度と言語尤度を計算し、音声認識の仮説候補を生成する音響・言語探索部である。1003は音素環境依存HMMなどの音響モデルである。
【0034】
1004は男性的言語モデル、1005は女性的言語モデルであり、前述の方法によって作成される。1006は性別非依存言語モデルであり、図8または図9におけるオリジナルテキストもしくはこれに図8および図9の変換テキストを加えたテキストから作成される。
【0035】
1007は音声認識の仮説候補から音声認識結果を出力する音声認識結果出力部である。ここで、1004、1005、1006の3つの言語モデルは、1001で得られる音声の特徴パラメータから得られる性別に対する確からしさに応じて、選択的もしくは確率的に利用する。このとき性別に対する確からしさは、例えば、男性、女性、男性+女性に対するGMM(Gaussian Mixture Model)に対する尤度を求めることによって得られる。他にも、1004、1005、1006の3つの言語モデルは、利用者情報や利用者による設定に従って、音声認識処理を行う前に選択することも可能である。
【0036】
他にも、子供、学生、高齢者などの年代や個性に応じたテキスト変換を施すことによって、これらの言語モデルを作成することも可能であり、これらを前述と同様の方法で音声認識に利用することも可能である。
【0037】
【第4の実施形態】
前記実施形態では、女性言葉や男性言葉へのテキスト変換を行うことによって言語モデルを作成し、これらを音声認識に利用しているが、本発明のテキスト変換は他にも東京方言や関西方言へのテキスト変換を行うことによって、方言に依存した統計的言語モデルを複数作成し、これらを音声認識に利用することもできる。
【0038】
図11は、東京方言言語モデルおよび関西方言言語モデルを用いて音声認識を行う際の構成を示したブロック図である。1101は入力音声をスペクトル分析など音声認識の特徴パラメータを抽出する音声分析部である。
【0039】
1102は特徴パラメータ時系列から単語仮説に対する音響尤度と言語尤度を計算し、音声認識の仮説候補を生成する音響・言語探索部である。1103は音素環境依存HMMなどの音響モデルである。1104は東京方言に変換されたテキストを用いて作成される言語モデル、1105は関西方言に変換されたテキストを用いて作成される言語モデルであり、前述の性別依存言語モデルの作成と同様に、単語の置換等によって作成することができる。
【0040】
1106は方言非依存言語モデルであり、オリジナルテキストもしくはこれに東京方言および関西方言へ変換されたテキストを加えたテキストから作成される。1107は音声認識の仮説候補から音声認識結果を出力する音声認識結果出力部である。ここで、1104、1105、1106の3つの言語モデルは、1107の出力として得られる音声認識結果から得られる方言に対する確からしさに応じて、選択的もしくは確率的に利用する。このとき方言に対する確からしさは、例えば、音声認識結果として得られる単語列の東京方言、関西方言、方言非依存言語モデルに対する言語尤度を求めることによって得られる。このとき、1102の音響・言語探索部で利用するためには、以前に発声された音声に対する認識結果から得られる方言に対する確からしさを用いる必要がある。もしくは、1102の処理を2回繰り返し、最初の処理において得られる音声認識結果から方言に対する確からしさを求め、この確からしさから求まる言語モデルの選択結果もしくは重みによって、再度1102の処理を行い、最終的な音声認識結果を求めることもできる。他にも、1104、1105、1106の3つの言語モデルは、利用者情報や利用者による設定に従って、音声認識処理を行う前に選択することも可能である。
【0041】
他にも、ぞんざい、丁寧、朗読調、アナウンサ調、DJ調などの話調に対するテキスト変換を施すことによって、話調依存の言語モデルを作成することも可能であり、これらを前述と同様の方法で音声認識に利用することも可能である。
【0042】
【第5の実施形態】
前記実施形態では、テキスト変換を行い、その変換テキストを言語解析することによって、統計的言語モデルを作成していたが、オリジナルテキストを用いて作成された言語モデルの表現(単語連鎖エントリ)を直接変換することも可能である。
【0043】
図12は、統計的言語モデルに対して変換処理を施した場合のNグラムテーブルの一例を示した説明図である。図12の上段の「Nグラムテーブル(変換前)」は「民家が全焼」というテキストに対するバイグラム、トライグラムの単語連鎖エントリ(「が―全焼」、「民家―が―全焼」等)とその確率値(p1,p3等)である。</s>および<s>はそれぞれ文末、文頭を示す特殊記号である。このNグラムテーブルに対して、図5に示した用言補完等の処理を加える場合、「が―全焼―</s>」(図12の(*)の単語連鎖エントリ)に用言補完処理を施すことが可能である。このときの用言補完として、「が全焼しました」と変換する場合、図12の下段の「Nグラムテーブル(変換後)」に示される(**)の単語連鎖エントリが上段のテーブル内に存在しない場合は補完される。また、全ての単語連鎖エントリに対する確率値(単語連鎖の統計情報)は、変換処理後に再計算される。
【0044】
このように、統計的言語モデルに対して変換処理を施すことで、テキストデータに変換処理を施す場合と比べ、変換処理する処理対象が削減されるため、処理負荷が軽減されるという付帯的な効果が得られる。
【0045】
【他の実施形態】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0046】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【0047】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【0048】
なお、本発明に係る実施態様の例を以下に列挙する。
【0049】
[実施態様1] テキストデータから、音声認識のための統計的言語モデルを作成する作成方法であって、
前記テキストデータの言語情報を解析する言語解析工程と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換工程と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成工程と
を備えることを特徴とする作成方法。
【0050】
[実施態様2] 前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語IDのいずれか、またはこれらの組み合わせであることを特徴とする実施態様1に記載の作成方法。
【0051】
[実施態様3] 前記変換工程は、
前記テキストデータより、前記音声認識する対象の有する特性に適さない表現を抽出し、補完、置換、省略のいずれかを行うことで、前記テキストデータを該音声認識する対象の有する特性に適した表現に変換することを特徴とする実施態様1に記載の作成方法。
【0052】
[実施態様4] 前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様1に記載の作成方法。
【0053】
[実施態様5] 前記作成工程は、
前記入力されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報に所定の重み付けを行ったものと、前記変換されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報とに基づいて前記統計的言語モデルを作成することを特徴とする実施態様1に記載の作成方法。
【0054】
[実施態様6] テキストデータから、音声認識のための統計的言語モデルを作成する作成方法であって、
前記テキストデータの言語情報を解析する言語解析工程と、
前記テキストデータの言語情報を解析することで得られた単語連鎖の統計情報に基づいて統計的言語モデルを作成する作成工程と、
前記作成された統計的言語モデルに含まれる表現を、音声認識する対象の有する特性に適した表現に変換する変換工程と、
前記変換された統計的言語モデルについて、前記単語連鎖の統計情報を再計算する再計算工程と
を備えることを特徴とする作成方法。
【0055】
[実施態様7] 前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語IDのいずれか、またはこれらの組み合わせであることを特徴とする実施態様6に記載の作成方法。
【0056】
[実施態様8] 前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様6に記載の作成方法。
【0057】
[実施態様9] 前記変換工程は、
前記作成工程において単語連鎖の統計情報が求められた単語のうち、前記音声認識する対象の有する特性に適さない単語を抽出し、補完、置換、省略のいずれかを行うことで、前記統計的言語モデルに含まれる単語を該音声認識する対象の有する特性に適した単語に変換することを特徴とする実施態様6に記載の作成方法。
【0058】
[実施態様10] テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換手段と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成手段と
を備えることを特徴とする情報処理装置。
【0059】
[実施態様11] 前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語IDのいずれか、またはこれらの組み合わせであることを特徴とする実施態様10に記載の情報処理装置。
【0060】
[実施態様12] 前記変換手段は、
前記テキストデータより、前記音声認識する対象の有する特性に適さない表現を抽出し、補完、置換、省略のいずれかを行うことで、前記テキストデータを該音声認識する対象の有する特性に適した表現に変換することを特徴とする実施態様10に記載の情報処理装置。
【0061】
[実施態様13] 前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様10に記載の情報処理装置。
【0062】
[実施態様14] 前記作成手段は、
前記入力されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報に所定の重み付けを行ったものと、前記変換されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報とに基づいて前記統計的言語モデルを作成することを特徴とする実施態様10に記載の情報処理装置。
【0063】
[実施態様15] テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記テキストデータの言語情報を解析することで得られた単語連鎖の統計情報に基づいて統計的言語モデルを作成する作成手段と、
前記作成された統計的言語モデルに含まれる表現を、音声認識する対象の有する特性に適した表現に変換する変換手段と、
前記変換された統計的言語モデルについて、前記単語連鎖の統計情報を再計算する再計算手段と
を備えることを特徴とする情報処理装置。
【0064】
[実施態様16] 前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語IDのいずれか、またはこれらの組み合わせであることを特徴とする実施態様15に記載の情報処理装置。
【0065】
[実施態様17] 前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様15に記載の情報処理装置。
【0066】
[実施態様18] 前記変換手段は、
前記作成手段において単語連鎖の統計情報が求められた単語のうち、前記音声認識する対象の有する特性に適さない単語を抽出し、補完、置換、省略のいずれかを行うことで、前記統計的言語モデルに含まれる単語を該音声認識する対象の有する特性に適した単語に変換することを特徴とする実施態様15に記載の情報処理装置。
【0067】
[実施態様19] 実施態様1乃至9のいずれか1つに記載の作成方法をコンピュータによって実現させるための制御プログラム。
【0068】
[実施態様20] 実施態様1乃至9のいずれか1つに記載の作成方法をコンピュータによって実現させるための制御プログラムを格納した記録媒体。
【0069】
【発明の効果】
以上説明したように本発明によれば、テキストデータを有効に利用し、音声認識性能の高い統計的言語モデルを実現することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態にかかる情報処理装置のハードウェア構成を示したブロック図である。
【図2】本発明の実施形態にかかる統計的言語モデルの作成方法のモジュール構成を示したブロック図である。
【図3】テキスト変換の概要を示したフローチャートである。
【図4】用言補完等に関するテキスト変換方法の一例を示したフローチャートである。
【図5】オリジナルテキストとこれに用言補完等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図6】用言省略等に関するテキスト変換方法の一例を示したフローチャートである。
【図7】オリジナルテキストとこれに用言省略等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図8】オリジナルテキストとこれに女性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図9】オリジナルテキストとこれに男性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図10】性別に関する複数の言語モデルを用いて音声認識を行う際の構成を示したブロック図である。
【図11】方言に関する複数の言語モデルを用いて音声認識を行う際の構成を示したブロック図である。
【図12】統計的言語モデルに対して変換処理を施した場合のNグラムテーブルの一例を示した説明図である。
Claims (1)
- テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換手段と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成手段と
を備えることを特徴とする情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003058595A JP2004271615A (ja) | 2003-03-05 | 2003-03-05 | 情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003058595A JP2004271615A (ja) | 2003-03-05 | 2003-03-05 | 情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004271615A true JP2004271615A (ja) | 2004-09-30 |
Family
ID=33121668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003058595A Withdrawn JP2004271615A (ja) | 2003-03-05 | 2003-03-05 | 情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004271615A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010243914A (ja) * | 2009-04-08 | 2010-10-28 | Kyoto Univ | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム |
WO2010125736A1 (ja) * | 2009-04-30 | 2010-11-04 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体 |
JP2012078647A (ja) * | 2010-10-04 | 2012-04-19 | National Institute Of Information & Communication Technology | 言語モデル学習装置及びコンピュータプログラム |
JP2014002257A (ja) * | 2012-06-18 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成装置、その方法及びプログラム |
JP2021111255A (ja) * | 2020-01-15 | 2021-08-02 | 株式会社リテラ | 情報処理システム |
-
2003
- 2003-03-05 JP JP2003058595A patent/JP2004271615A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010243914A (ja) * | 2009-04-08 | 2010-10-28 | Kyoto Univ | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム |
WO2010125736A1 (ja) * | 2009-04-30 | 2010-11-04 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体 |
JP5413622B2 (ja) * | 2009-04-30 | 2014-02-12 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、およびプログラム |
US8788266B2 (en) | 2009-04-30 | 2014-07-22 | Nec Corporation | Language model creation device, language model creation method, and computer-readable storage medium |
JP2012078647A (ja) * | 2010-10-04 | 2012-04-19 | National Institute Of Information & Communication Technology | 言語モデル学習装置及びコンピュータプログラム |
JP2014002257A (ja) * | 2012-06-18 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成装置、その方法及びプログラム |
JP2021111255A (ja) * | 2020-01-15 | 2021-08-02 | 株式会社リテラ | 情報処理システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6952665B1 (en) | Translating apparatus and method, and recording medium used therewith | |
JP3854713B2 (ja) | 音声合成方法および装置および記憶媒体 | |
EP0953192B1 (en) | Natural language parser with dictionary-based part-of-speech probabilities | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
WO2010046782A2 (en) | Hybrid machine translation | |
KR101735195B1 (ko) | 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체 | |
Diehl et al. | Morphological decomposition in Arabic ASR systems | |
JP2006227425A (ja) | 音声再生装置及び発話支援装置 | |
JP2009037458A (ja) | 応答システム、及び応答内容制御方法 | |
WO2009107441A1 (ja) | 音声合成装置、テキスト生成装置およびその方法並びにプログラム | |
JP2004271615A (ja) | 情報処理装置 | |
JP3059398B2 (ja) | 自動通訳装置 | |
JP4004376B2 (ja) | 音声合成装置、音声合成プログラム | |
JP2011154061A (ja) | 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
JPH07191687A (ja) | 自然言語処理装置及びその方法 | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP3518340B2 (ja) | 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体 | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2001117921A (ja) | 翻訳装置および翻訳方法、並びに記録媒体 | |
JP2000222406A (ja) | 音声認識翻訳装置及び方法 | |
Ghayoomi et al. | A POS-based word prediction system for the Persian language | |
KR0180650B1 (ko) | 음성합성기의 한국어 문장분석방법 | |
JP4575798B2 (ja) | 音声合成装置及び音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060509 |