JP2004271615A

JP2004271615A - 情報処理装置

Info

Publication number: JP2004271615A
Application number: JP2003058595A
Authority: JP
Inventors: Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-03-05
Filing date: 2003-03-05
Publication date: 2004-09-30

Abstract

【課題】テキストデータを有効に利用し、音声認識性能の高い統計的言語モデルを実現する。
【解決手段】テキストデータから、音声認識に用いられる統計的言語モデルを作成する情報処理装置であって、前記テキストデータの言語情報を解析する言語解析部２０１と、前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換するテキスト変換部２０３と、前記変換されたテキストデータに基づいて、統計的言語モデルを作成する言語モデル作成部２０６とを備える。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストデータから音声認識のための統計的言語モデルを作成する技術に関するものである。
【０００２】
【従来の技術】
近年、文などの連続音声を文字情報に変換する連続音声認識技術において、１つ以上の単語の連鎖確率（単語連鎖の統計情報）を大量のテキストデータから求め、これを音声認識のための言語知識もしくは言語モデルとして利用した統計的言語モデルの作成技術およびこのモデルを用いた音声認識装置が開発されている。
【０００３】
従来の統計的言語モデルの作成にあたっては、大量のテキストデータを言語解析することによって単語の二つ組みや三つ組みなどの単語連鎖の統計情報を求めていた。しかしながら、一般に利用可能な大量のテキストデータは新聞記事などに限られているうえ、これらのテキストデータは、通常、書き言葉で作成されている。このため、一般に利用可能な大量のテキストデータに基づいて作成された統計的言語モデルを、例えば、話し言葉に対する音声認識のための言語モデルとして用いても、高い認識性能が得られない。むしろ少量のテキストデータであっても話し言葉によるテキストデータに基づいて作成された言語モデルを用いた方が、かえって認識性能は高くなる。このため、高い音声認識性能を得るべく、このような大量のテキストデータを統計的言語モデルの作成に有効に利用する技術が求められている。
【０００４】
これに対して、例えば下記非特許文献１には、統計的言語モデルの作成にあたり、テキストデータを変形して利用する技術が開示されている。同文献によれば、ニュース原稿の記事（読み原稿）を解説調の言い回しに置換させることのみを目的として、句末、文末表現の述部（用言部分）における単純な変形ルールを用いて統計的言語モデル内の単語列を自動生成することができる。
【０００５】
【非特許文献１】
日本放送協会、情報処理学会研究報告、２０００−ＳＬＰ−３４、ｐｐ．１４３−１４８、２０００年１２月
【０００６】
【発明が解決しようとする課題】
しかしながら、上記従来技術に示した方法は、変形部分が句末・文末表現の述部（用言部分）に限られており、変形方法も単純な変形ルールによる置換に止まる。また、用途も解説調の言い回しを対象とした音声認識に限られてくるため、当該方法に基づいて作成された統計的言語モデルを用いて音声認識を行っても、解説調以外の言い回しに対して高い認識性能を得ることは困難である。
【０００７】
本発明は上記課題に鑑みてなされたものであり、テキストデータを有効に利用し、音声認識性能の高い統計的言語モデルを実現することを目的とする。
【０００８】
【課題を解決するための手段】
上記の目的を達成するために本発明に係る情報処理装置は以下のような構成を備える。即ち、
テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換手段と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成手段とを備える。
【０００９】
【発明の実施の形態】
はじめに本発明の概要について説明する。本発明に係る情報処理装置はテキストデータから音声認識のための統計的言語モデルを作成するものであり、入力されたテキストデータを言語解析し、音声認識する対象の有する特性に適したテキストデータに変換した上で、当該変換後のテキストデータに基づいて統計的言語モデルを作成することを特徴とするものである。つまり、従来は入力されたテキストデータを言語解析し、統計的言語モデルを直接求めていたところ、本発明によれば、音声認識する対象の有する特性に適したテキストデータに変換したうえで言語解析し統計的言語モデルを求めるため、本発明により生成された当該統計的言語モデルを用いて音声認識した場合、高い認識性能を得ることが可能となる。
【００１０】
また、テキストデータの変換にあたっては、従来は、テキストデータ内の用言部分について行っていたものを、テキストデータ全体に対して行うとともに、変形方法も置換に限らず、補完、省略も行うことで、より音声認識する対象の有する特性に適した変換を行うことができ、認識性能の高い統計的言語モデルの生成が可能となる。
【００１１】
さらに、音声認識する対象も、書き言葉や話し言葉の他、男性の言葉、女性の言葉、子供の言葉、高齢者の言葉、東京方言を含む言葉、関西方言を含む言葉、粗雑な言葉、丁寧な言葉、用言を含まない言葉、冗長語を含まない言葉、専門用語を含まない言葉等、様々な対象について適用可能である。以下に、添付図面を参照して本発明の好適な実施の形態を詳細に説明する。
【００１２】
【第１の実施形態】
図１は、本発明の実施形態に係る情報処理装置の構成を示すブロック図である。１０１はＣＰＵで、ＲＯＭ１０２に記憶された制御プログラム或いは外部記憶装置１０４からＲＡＭ１０３にロードされた制御プログラムに従って、本実施形態にかかる情報処理装置における各種制御を行う。
【００１３】
ＲＯＭ１０２は各種パラメータやＣＰＵ１０１が実行する制御プログラムなどを格納している。ＲＡＭ１０３は、ＣＰＵ１０１による各種制御の実行時に作業領域を提供するとともに、ＣＰＵ１０１により実行される制御プログラムを記憶する。
【００１４】
１０４はハードディスク、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカード等の外部記憶装置で、この外部記憶装置がハードディスクの場合には、ＣＤ−ＲＯＭやフロッピー（登録商標）ディスク等からインストールされた各種プログラムが記憶されている。
【００１５】
１０５は音声を取得するためのマイクロフォンなどの音響入力装置であり、音声認識を行う際の音声の入力を行う。１０６はキーボード、マウス、ペン、スイッチ、タッチパネルなどの補助入力装置である。１０７は液晶やＣＲＴ等の表示装置で、ＣＰＵ１０１の制御により各種データの表示を行う。１０８は上記各部を接続するバスである。
【００１６】
図２は、本発明の実施形態にかかる統計的言語モデルの作成方法を実現する機能ブロックを示す図である。２０１は入力として与えられるテキストを形態素などの単語の区切り、読み、品詞、活用形などのいずれかまたはこれらの組み合わせからなるテキスト変換に必要な言語情報を求める言語解析部であり、２０２は言語解析を行う際に用いる言語解析用の辞書である。
【００１７】
２０３は言語解析結果に基づいてテキスト中の単語の補完、置換、省略を行うテキスト変換部である。２０４はテキスト変換を行う際に用いるテキスト変換用の辞書であり、言語解析結果を所望の対象へ変換するために必要な情報や規則を格納している。２０５は変換後のテキストを入力として形態素などの単語の区切り、読み、品詞、活用形などのいずれかまたはこれらの組み合わせからなる言語モデル作成に必要な情報を求める言語解析部である。２０６は言語解析部２０５の出力として得られる言語解析結果を入力として、単語連鎖の統計情報を求める統計的言語モデル作成部である。
【００１８】
以下、各処理の流れを詳細に説明する。
【００１９】
図３は、言語解析部２０１およびテキスト変換部２０３におけるテキスト変換の概要を示したフローチャートである。まず、ステップＳ３０１で変換対象となるテキストを入力する。次に、ステップＳ３０２でテキストを１文ごとに切り出す。次に、ステップＳ３０３で形態素解析を行う。ステップＳ３０４ではこの形態素解析結果を入力として、テキスト中の単語の補完、置換、省略を行うことによってテキスト変換を行う。最後にステップＳ３０５で変換結果を変換テキストとして出力する。
【００２０】
図４は、ステップＳ３０４におけるテキスト変換の処理の一例を示したフローチャートである。まず、ステップＳ３０３の形態素解析結果を入力としてスタートする。ステップＳ４０１では、体言止めなどで、文が用言で終了していないものかどうかの判断を行う。
【００２１】
文末の用言が省略されている場合、ステップＳ４０２で用言を補完する。サ変名詞で終了している場合、連体修飾句がない場合でかつ、主格や体格に相当する句がある場合には、サ変動詞化する。例えば、「事実が判明。」とある場合は「事実が判明する」もしくは「事実が判明した」となる。「た」などの時制の挿入は、その文や前の文の時制を調べて継承する。それ以外で、名詞や副詞や副助詞などで終わっているものについては、「です」を補う。
【００２２】
ステップＳ４０３では、丁寧語に変換すべき語があるか判定する。変換すべき語がある場合はステップＳ４０４で変換する。「飯を食う」などの表現がある場合は、「御飯を食べる」というような表現に変換される。ステップＳ４０５では、同音異義語があるかどうかを判定して、ある場合には、ステップＳ４０６で言い換える。例えば、「農水省」と「農水相」という同音異義語がある場合には、それぞれ「農林水産省」、「農林水産大臣」のように言い換える。
【００２３】
ステップＳ４０７で、文末に丁寧表現があるかどうかの判断を行う。丁寧表現がない場合には、ステップＳ４０８で助動詞を置換し丁寧表現を付与する。例えば、「肉骨粉に使用されていることが判明」という個所は、ステップＳ４０２で用言が補完され、「肉骨粉に使用されていることが判明した」となっているが、これには丁寧表現がないため「判明し」と「た」の間に「ます」を挿入する。ステップＳ４０９で、活用形の処理を行うことによって処理を終了する。例えば、「判明し」＋「ます」＋「た」の部分は、「判明しました」となる。なお、これらのテキスト変換処理の順序はこれに限ったものではなく、またこれらのうちの一部の変換のみを行ってもよい。
【００２４】
図５は、オリジナルテキストとこれに用言補完等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。統計的言語モデルは、大語彙連続音声認識などの分野で広く用いられている単語Ｎ−ｇｒａｍに基づく方法などで作成することができる。統計的言語モデルを作成する場合には、オリジナルテキストに対する単語連鎖の統計情報にα倍（０＜＝α）の重みを乗じたものと、変換テキストに対する単語連鎖の統計情報とを用いて作成する。
【００２５】
【第２の実施形態】
前記実施形態では、用言補完や丁寧語の補完など主として書き言葉に対するテキストを話し言葉に変換する処理を施しているが、逆に、話し言葉のテキストを書き言葉に変換することもできる。
【００２６】
図６は、この場合のステップＳ３０４におけるテキスト変換の処理の一例を示したフローチャートである。まず、ステップＳ３０３の形態素解析結果を入力としてスタートする。ステップＳ６０１で、文末の用言が省略可能であるかどうかの判定を行い、可能ならばステップＳ６０２で文末用言を省略して体言止めの文とする。例えば、「名詞／形容動詞／副詞」＋「だ／です」で終了している場合には、「だ／です」は省略可能である。「サ変名詞」＋「する／した／している／します／しました／しています」で終了している場合は、「する／した／している／します／しました／しています」は省略可能である。
【００２７】
ステップＳ６０３では、基準語に変換すべき語があるかの判定を行う。ある場合は、ステップＳ６０４で基準語に変換する。例えば、「お巡りさん」は「巡査」、「アメリカ合衆国」は「米］などの短い語に変換する。ステップＳ６０５では、同形語があるかどうかの判断を行い、ある場合には別の表記の同義語で置き換える。例えば、「市場」には「いちば」と「しじょう」という読みがあるが、形態素解析で、「しじょう」の読みの「市場」であると判断できた場合には、「マーケット」という同義語で置き換える。
【００２８】
ステップＳ６０７では、ムードやアスペクトや待遇や態度などの冗長な文末表現があるかどうかの判断を行い、ある場合には、ステップＳ６０８で省略可能なものを置き換える。ここで、アスペクトは進行、完結、継続、直前、反復などの時制について示すもの、ムードは推量、伝聞、予測、意外、回想などの対事ムードや命令、依頼、禁止、勧誘、希望などの伝達ムードなど話し手がどう考えているかについて、待遇は尊敬、謙譲、丁寧、卑罵など文の丁寧さについて、態度は改まり、くだけ、粗野、尊大など聞き手に対する親密度についてそれぞれ示すものである。例えば、「値を下げているという」という文の「ている」は進行のアスペクトを示し、「という」は伝聞のムードを示す。これらを省略して「値を下げる」と変換する。待遇の例としては、「これを見て頂けませんか」の「頂けませんか」のを「下さい」と丁寧から普通に丁寧度を下げることにより、「これを見て下さい」と変換する。態度の例としては、「それを食べまくる」という粗野や表現を「それを食べ続ける」に変換する。ステップＳ６０９で、置き換えた部分の活用処理を行ってその結果をもってエンドとする。なお、これらのテキスト変換処理の順序はこれに限ったものではなく、またこれらのうちの一部の変換のみを行ってもよい。
【００２９】
図７は、オリジナルテキストとこれに用言省略等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。図５の場合と同様に、統計的言語モデルを作成する場合には、オリジナルテキストに対する単語連鎖の統計情報にα倍（０＜＝α）の重みを乗じたものと、変換テキストに対する単語連鎖の統計情報とを用いて作成する。
【００３０】
【第３の実施形態】
前記実施形態では、書き言葉や話し言葉に対する変換処理を施しているが、男性、女性、子供、学生、高齢者などの話し手情報を用いることにより、本発明のテキスト変換は他にも女性言葉や男性言葉へのテキスト変換が可能となり、性別依存の統計的言語モデルを作成することもできる。
【００３１】
図８は、オリジナルテキストとこれに女性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。ここでは、「僕」を「私」に、「するのだろうか」を「するのかしら」と女性言葉へテキストを変換する例を示している。
【００３２】
図９は、オリジナルテキストとこれに男性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。ここでは、「私」を「僕」に、「するのかしら」を「するのだろうか」と男性言葉へテキストを変換する例を示している。統計的言語モデルを作成する場合には、これらのオリジナルテキストに対する単語連鎖の統計情報にα倍（０＜＝α）の重みを乗じたものと、変換テキストに対する単語連鎖の統計情報とを用いて作成する。ここで、女性的言語モデル作成と男性的言語モデル作成時のαは異なる値を用いてもよい。
【００３３】
図１０は、これらの女性的言語モデルおよび男性的言語モデルを用いて音声認識を行う際の構成を示したブロック図である。１００１は入力音声をスペクトル分析など音声認識の特徴パラメータを抽出する音声分析部である。１００２は特徴パラメータ時系列から単語仮説に対する音響尤度と言語尤度を計算し、音声認識の仮説候補を生成する音響・言語探索部である。１００３は音素環境依存ＨＭＭなどの音響モデルである。
【００３４】
１００４は男性的言語モデル、１００５は女性的言語モデルであり、前述の方法によって作成される。１００６は性別非依存言語モデルであり、図８または図９におけるオリジナルテキストもしくはこれに図８および図９の変換テキストを加えたテキストから作成される。
【００３５】
１００７は音声認識の仮説候補から音声認識結果を出力する音声認識結果出力部である。ここで、１００４、１００５、１００６の３つの言語モデルは、１００１で得られる音声の特徴パラメータから得られる性別に対する確からしさに応じて、選択的もしくは確率的に利用する。このとき性別に対する確からしさは、例えば、男性、女性、男性＋女性に対するＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）に対する尤度を求めることによって得られる。他にも、１００４、１００５、１００６の３つの言語モデルは、利用者情報や利用者による設定に従って、音声認識処理を行う前に選択することも可能である。
【００３６】
他にも、子供、学生、高齢者などの年代や個性に応じたテキスト変換を施すことによって、これらの言語モデルを作成することも可能であり、これらを前述と同様の方法で音声認識に利用することも可能である。
【００３７】
【第４の実施形態】
前記実施形態では、女性言葉や男性言葉へのテキスト変換を行うことによって言語モデルを作成し、これらを音声認識に利用しているが、本発明のテキスト変換は他にも東京方言や関西方言へのテキスト変換を行うことによって、方言に依存した統計的言語モデルを複数作成し、これらを音声認識に利用することもできる。
【００３８】
図１１は、東京方言言語モデルおよび関西方言言語モデルを用いて音声認識を行う際の構成を示したブロック図である。１１０１は入力音声をスペクトル分析など音声認識の特徴パラメータを抽出する音声分析部である。
【００３９】
１１０２は特徴パラメータ時系列から単語仮説に対する音響尤度と言語尤度を計算し、音声認識の仮説候補を生成する音響・言語探索部である。１１０３は音素環境依存ＨＭＭなどの音響モデルである。１１０４は東京方言に変換されたテキストを用いて作成される言語モデル、１１０５は関西方言に変換されたテキストを用いて作成される言語モデルであり、前述の性別依存言語モデルの作成と同様に、単語の置換等によって作成することができる。
【００４０】
１１０６は方言非依存言語モデルであり、オリジナルテキストもしくはこれに東京方言および関西方言へ変換されたテキストを加えたテキストから作成される。１１０７は音声認識の仮説候補から音声認識結果を出力する音声認識結果出力部である。ここで、１１０４、１１０５、１１０６の３つの言語モデルは、１１０７の出力として得られる音声認識結果から得られる方言に対する確からしさに応じて、選択的もしくは確率的に利用する。このとき方言に対する確からしさは、例えば、音声認識結果として得られる単語列の東京方言、関西方言、方言非依存言語モデルに対する言語尤度を求めることによって得られる。このとき、１１０２の音響・言語探索部で利用するためには、以前に発声された音声に対する認識結果から得られる方言に対する確からしさを用いる必要がある。もしくは、１１０２の処理を２回繰り返し、最初の処理において得られる音声認識結果から方言に対する確からしさを求め、この確からしさから求まる言語モデルの選択結果もしくは重みによって、再度１１０２の処理を行い、最終的な音声認識結果を求めることもできる。他にも、１１０４、１１０５、１１０６の３つの言語モデルは、利用者情報や利用者による設定に従って、音声認識処理を行う前に選択することも可能である。
【００４１】
他にも、ぞんざい、丁寧、朗読調、アナウンサ調、ＤＪ調などの話調に対するテキスト変換を施すことによって、話調依存の言語モデルを作成することも可能であり、これらを前述と同様の方法で音声認識に利用することも可能である。
【００４２】
【第５の実施形態】
前記実施形態では、テキスト変換を行い、その変換テキストを言語解析することによって、統計的言語モデルを作成していたが、オリジナルテキストを用いて作成された言語モデルの表現（単語連鎖エントリ）を直接変換することも可能である。
【００４３】
図１２は、統計的言語モデルに対して変換処理を施した場合のＮグラムテーブルの一例を示した説明図である。図１２の上段の「Ｎグラムテーブル（変換前）」は「民家が全焼」というテキストに対するバイグラム、トライグラムの単語連鎖エントリ（「が―全焼」、「民家―が―全焼」等）とその確率値（ｐ１，ｐ３等）である。＜／ｓ＞および＜ｓ＞はそれぞれ文末、文頭を示す特殊記号である。このＮグラムテーブルに対して、図５に示した用言補完等の処理を加える場合、「が―全焼―＜／ｓ＞」（図１２の（＊）の単語連鎖エントリ）に用言補完処理を施すことが可能である。このときの用言補完として、「が全焼しました」と変換する場合、図１２の下段の「Ｎグラムテーブル（変換後）」に示される（＊＊）の単語連鎖エントリが上段のテーブル内に存在しない場合は補完される。また、全ての単語連鎖エントリに対する確率値（単語連鎖の統計情報）は、変換処理後に再計算される。
【００４４】
このように、統計的言語モデルに対して変換処理を施すことで、テキストデータに変換処理を施す場合と比べ、変換処理する処理対象が削減されるため、処理負荷が軽減されるという付帯的な効果が得られる。
【００４５】
【他の実施形態】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フロッピ（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。
【００４６】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【００４７】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【００４８】
なお、本発明に係る実施態様の例を以下に列挙する。
【００４９】
［実施態様１］テキストデータから、音声認識のための統計的言語モデルを作成する作成方法であって、
前記テキストデータの言語情報を解析する言語解析工程と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換工程と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成工程と
を備えることを特徴とする作成方法。
【００５０】
［実施態様２］前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語ＩＤのいずれか、またはこれらの組み合わせであることを特徴とする実施態様１に記載の作成方法。
【００５１】
［実施態様３］前記変換工程は、
前記テキストデータより、前記音声認識する対象の有する特性に適さない表現を抽出し、補完、置換、省略のいずれかを行うことで、前記テキストデータを該音声認識する対象の有する特性に適した表現に変換することを特徴とする実施態様１に記載の作成方法。
【００５２】
［実施態様４］前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様１に記載の作成方法。
【００５３】
［実施態様５］前記作成工程は、
前記入力されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報に所定の重み付けを行ったものと、前記変換されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報とに基づいて前記統計的言語モデルを作成することを特徴とする実施態様１に記載の作成方法。
【００５４】
［実施態様６］テキストデータから、音声認識のための統計的言語モデルを作成する作成方法であって、
前記テキストデータの言語情報を解析する言語解析工程と、
前記テキストデータの言語情報を解析することで得られた単語連鎖の統計情報に基づいて統計的言語モデルを作成する作成工程と、
前記作成された統計的言語モデルに含まれる表現を、音声認識する対象の有する特性に適した表現に変換する変換工程と、
前記変換された統計的言語モデルについて、前記単語連鎖の統計情報を再計算する再計算工程と
を備えることを特徴とする作成方法。
【００５５】
［実施態様７］前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語ＩＤのいずれか、またはこれらの組み合わせであることを特徴とする実施態様６に記載の作成方法。
【００５６】
［実施態様８］前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様６に記載の作成方法。
【００５７】
［実施態様９］前記変換工程は、
前記作成工程において単語連鎖の統計情報が求められた単語のうち、前記音声認識する対象の有する特性に適さない単語を抽出し、補完、置換、省略のいずれかを行うことで、前記統計的言語モデルに含まれる単語を該音声認識する対象の有する特性に適した単語に変換することを特徴とする実施態様６に記載の作成方法。
【００５８】
［実施態様１０］テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換手段と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成手段と
を備えることを特徴とする情報処理装置。
【００５９】
［実施態様１１］前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語ＩＤのいずれか、またはこれらの組み合わせであることを特徴とする実施態様１０に記載の情報処理装置。
【００６０】
［実施態様１２］前記変換手段は、
前記テキストデータより、前記音声認識する対象の有する特性に適さない表現を抽出し、補完、置換、省略のいずれかを行うことで、前記テキストデータを該音声認識する対象の有する特性に適した表現に変換することを特徴とする実施態様１０に記載の情報処理装置。
【００６１】
［実施態様１３］前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様１０に記載の情報処理装置。
【００６２】
［実施態様１４］前記作成手段は、
前記入力されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報に所定の重み付けを行ったものと、前記変換されたテキストデータの言語情報を解析することで得られた単語連鎖の統計情報とに基づいて前記統計的言語モデルを作成することを特徴とする実施態様１０に記載の情報処理装置。
【００６３】
［実施態様１５］テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記テキストデータの言語情報を解析することで得られた単語連鎖の統計情報に基づいて統計的言語モデルを作成する作成手段と、
前記作成された統計的言語モデルに含まれる表現を、音声認識する対象の有する特性に適した表現に変換する変換手段と、
前記変換された統計的言語モデルについて、前記単語連鎖の統計情報を再計算する再計算手段と
を備えることを特徴とする情報処理装置。
【００６４】
［実施態様１６］前記言語情報は、前記テキストデータの単語の区切り、読み、品詞、活用形、単語ＩＤのいずれか、またはこれらの組み合わせであることを特徴とする実施態様１５に記載の情報処理装置。
【００６５】
［実施態様１７］前記音声認識する対象とは、書き言葉または話し言葉を含む所定の条件下で使用される言葉、男性の言葉または女性の言葉を含む所定の性別の言葉、子供の言葉または高齢者の言葉を含む所定の年代の言葉、東京方言または関西方言を含む所定の方言を含む言葉、粗雑な言葉または丁寧な言葉を含む所定の話調の言葉、用言または冗長語を含まない所定の言葉、専門用語を含まない言葉、のいずれかまたはこれらの組み合わせをいうことを特徴とする実施態様１５に記載の情報処理装置。
【００６６】
［実施態様１８］前記変換手段は、
前記作成手段において単語連鎖の統計情報が求められた単語のうち、前記音声認識する対象の有する特性に適さない単語を抽出し、補完、置換、省略のいずれかを行うことで、前記統計的言語モデルに含まれる単語を該音声認識する対象の有する特性に適した単語に変換することを特徴とする実施態様１５に記載の情報処理装置。
【００６７】
［実施態様１９］実施態様１乃至９のいずれか１つに記載の作成方法をコンピュータによって実現させるための制御プログラム。
【００６８】
［実施態様２０］実施態様１乃至９のいずれか１つに記載の作成方法をコンピュータによって実現させるための制御プログラムを格納した記録媒体。
【００６９】
【発明の効果】
以上説明したように本発明によれば、テキストデータを有効に利用し、音声認識性能の高い統計的言語モデルを実現することが可能となる。
【図面の簡単な説明】
【図１】本発明の実施形態にかかる情報処理装置のハードウェア構成を示したブロック図である。
【図２】本発明の実施形態にかかる統計的言語モデルの作成方法のモジュール構成を示したブロック図である。
【図３】テキスト変換の概要を示したフローチャートである。
【図４】用言補完等に関するテキスト変換方法の一例を示したフローチャートである。
【図５】オリジナルテキストとこれに用言補完等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図６】用言省略等に関するテキスト変換方法の一例を示したフローチャートである。
【図７】オリジナルテキストとこれに用言省略等の変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図８】オリジナルテキストとこれに女性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図９】オリジナルテキストとこれに男性言葉への変換処理を施した変換テキストの例と、これらを用いた統計的言語モデルの作成を説明する概念図である。
【図１０】性別に関する複数の言語モデルを用いて音声認識を行う際の構成を示したブロック図である。
【図１１】方言に関する複数の言語モデルを用いて音声認識を行う際の構成を示したブロック図である。
【図１２】統計的言語モデルに対して変換処理を施した場合のＮグラムテーブルの一例を示した説明図である。

Claims

テキストデータから、音声認識のための統計的言語モデルを作成する情報処理装置であって、
前記テキストデータの言語情報を解析する言語解析手段と、
前記解析された言語情報に基づいて、前記テキストデータを音声認識する対象の有する特性に適したテキストデータに変換する変換手段と、
前記変換されたテキストデータに基づいて、統計的言語モデルを作成する作成手段と
を備えることを特徴とする情報処理装置。