JPH06118984A

JPH06118984A - 日本語テキスト自動拡張方法

Info

Publication number: JPH06118984A
Application number: JP4265164A
Authority: JP
Inventors: Shoichi Matsunaga; 昭一松永; Kiyohiro Kano; 清宏鹿野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1992-10-02
Filing date: 1992-10-02
Publication date: 1994-04-28

Abstract

(57)【要約】【目的】本発明は、新たに学習テキストを生成するこ
となく、効率よくテキストを生成することができる日本
語テキスト自動拡張方法を提供することである。【構成】本発明は、日本語音声認識に用いる日本語テ
キストデータベースにおいて、日本語テキストデータベ
ース１の統計的言語モデルとして、仮名、及び漢字の生
起順序に関する統計的言語モデル２を作成しておき（ス
テップ１０）、日本語テキストデータベース１と作成さ
れている該統計的言語モデル２を用いて、日本語テキス
トデータベース１とは別の新規のテキストデータ３を自
動的に生成する（ステップ２０）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、日本語テキスト自動拡
張方法に係り、特に日本語音声認識に関する統計的モデ
ル及び日本語統計モデル等のテキストを自動的に拡張す
る日本語テキスト自動拡張方法に関する。

【０００２】

【従来の技術】従来、統計的言語モデルを用いて自然言
語解析性能や音声認識性能を向上させる試みが行われて
いる。例えば、日本語音声認識に関する統計的言語モデ
ル（例えば、Bahl, L.他、 A Statistical Approach to
Continuous Speech Recognition“IEEE”Trans. On PA
MI(1983)) 及び日本語統計モデル( 例えば、山田他「か
な漢字の文字連鎖情報を利用した統計的言語モデル」電
子情報通信学会技術報告SP91-26(1991)) 等がある。

【０００３】音声認識では、音声の隠れマルコフモデル
及び統計的言語モデルを用いた音声認識方法がある。こ
れらは、学習用テキストデータベースを用いて音声、仮
名漢字あるいは単語の生起順序に関する統計的言語モデ
ルと、隠れマルコフモデルの音素標準パターンとを予め
作成しておき、入力音声に対し、統計的言語モデルを用
いて、既に認識した直前の複数の音素から、次に生起す
る確率の高い複数の音素候補を選出し、これらの音素酵
素の選出した音素候補のそれぞれについてその音素標準
パターンと入力音声とを照合して、生起尤度と標準パタ
ンーンとの類似度の総合的尤度の最も高い候補を認識結
果として出力することが提案されている。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
認識方法は、入力される音声に対して学習用テキストデ
ータベースのパターンデータが十分に揃わないと解析や
認識結果が有効とならないため、充分な解析処理や認識
処理を行うためには、上記学習用データベースを十分に
収集しなければならない。これにより、従来の認識方法
には、膨大な労力を必要とするという問題がある。

【０００５】本発明は上記の点に鑑みなされたもので、
新たに学習テキストを生成することなく、効率よくテキ
ストを生成することができる日本語テキスト自動拡張方
法を提供することを目的とする。

【０００６】

【課題を解決するための手段】図１は本発明の原理説明
図である。

【０００７】本発明は、日本語音声認識に用いる日本語
テキストデータベースにおいて、日本語テキストデータ
ベース１を用いて統計的言語モデルとして、仮名、及び
漢字の生起順序に関する統計的言語モデル２を作成して
おき（ステップ１０）、日本語テキストデータベース１
と作成されている該統計的言語モデル２を用いて、日本
語テキストデータベース１とは別の新規のテキストデー
タ３を自動的に生成する（ステップ２０）。

【０００８】

【作用】本発明は、日本語テキストデータベースとその
仮名・漢字の出現順序に関する統計的言語モデルを用い
て、日本テキストデータベースとは別にテキストデータ
を自動的に増加させるため、効率よくテキストを生成で
きる。

【０００９】

【実施例】図２は本発明の一実施例の学習テキストを説
明するための図を示す。

【００１０】新規テキストの作成方法は、まず、予めＭ
個の文節からなる学習テキストを与える。いま、ｍ番目
の文節がＮ個の文字より構成されており、ｎ番目とｎ＋
１番目の文字の境界でその文節を分割する尤度を γ（ｎ，ｍ）＝α（ｎ，ｍ）＋β（ｎ＋１，ｍ）と定義する。上記のαは語頭から分割点ｄまでの尤度で
あり、βは語尾から分割点ｄまでの尤度である。ここで
は、文字トライグラムを用いて、

【数１】ここで、ｗ_iはｉ番目の文字、トライグラム確率Ｐ（ｗ
_i｜ｗ_i-1，ｗ_i-2）はｗ_i-1，ｗ_i-2の後に文字ｗ_i
が出現する条件付確率であり、学習テキストより求めた
ものである（但し、ｉ＜１あるいはｉ＞Ｎにおける文字
ｗ_iは文の始終端を示す）。即ち、αは順方向の平均対
数確率で、βは逆向きの確率である。つまり、文節の分
割点として尤度が高い程、文節を分割する尤度γの値は
大きい。この分割点ｄのすべての集合をＶとすると、生
成アルゴリズムは以下ようになる。

【００１１】図３は本発明の一実施例の新規にテキスト
を生成するアルゴリズムを示すフローチャートである。
また、図４は本発明の一実施例の新規テキストの作成の
例を示す。

【００１２】ステップ１００：分割点ｄのすべての集合
Ｖにおいて、文節を分割する尤度γ（ｎ，ｍ）を最大と
する（ｎ_max，ｍ_max）を求める。図４（ａ）のテキス
トの例においては、最大値をｎ_max＝５，ｍ_max＝１と
する。

【００１３】ステップ１０１：閾値をγ_thとすると、ス
テップ１００の尤度γ（ｎ，ｍ）が閾値γ_thより低けれ
ば処理を終了する。

【００１４】ステップ１０２：ｍ_max番目の文節の文頭
からの文節と同じ文字系列（１からｎ_maxまで）をもつ
文節を選択する。

【００１５】ステップ１０３：尤度γ（ｎ，ｍ）が閾値
γ_thより低ければ、ステップ１０５に移行し、高ければ
ステップ１０３に移行する。

【００１６】ステップ１０４：ステップ１０２におい
て、尤度γ（ｎ，ｍ）が閾値γ_thより高ければ、ｍ_max
番目の文節の文頭からの文字列ｗ₁，…，…，ｗｎ_max
と同じ系列を持つすべての文節でγ（ｎ_max，ｍ）が閾
値以上の文節の語尾ｗn _max+1……ｗN _(m)をテーブル
Ｂに登録する。図４（ｂ）においては「内閣総理大臣」
がテーブルＢに登録される。

【００１７】ステップ１０５：選択すべき文節がすべて
終了した場合にはステップ１０６に移行し、まだ、文節
が残っている場合にはステップ１０２に移行する。

【００１８】ステップ１０６：ｍ_max番目の文節の文末
からの文節ｍ_(max)番目の文節の文末からの文節（ｎ
_max+1から）と同じ文字系列を持つ文節を選択する。

【００１９】ステップ１０７：文節末が文字列ｗn
_max+1……ｗN _maxと同じ系列を持つ文節で、γ（ｎ
_max，ｍ）が閾値以下である場合には、ステップ１０９
に移行する。

【００２０】ステップ１０８：文節末が文字列ｗn
_max+1……ｗN _maxと同じ系列を持つ文節の頭部（１か
ら）テーブルＡに登録する。図４（ｂ）において、
「に」がテーブルＡに登録される。

【００２１】ステップ１０９：選択すべき文節が全て終
了していない場合にはステップ１０６に戻る。

【００２２】ステップ１１０：選択すべき文節が全て終
了した場合には、テーブルＡとテーブルＢの全組み合わ
せによる新規テキストを生成する。即ち、テーブルＡの
要素と、テーブルＢの要素の全ての組み合わせで得られ
る文節が新規に生成されることになる。図４（ｃ）にお
いて、「内閣総理大臣に」が生成される。

【００２３】ステップ１１１：分割点ｄの全ての集合Ｖ
について、Ｖ＝Ｖ−｛ｎ_max,ｍ_max｝とし、さらに、テ
ーブルＡとテーブルＢをクリアしてステップ１００に戻
る。

【００２４】このように、本発明は日本語テキストデー
タベースを文字の出現順序を示す統計的モデルの要素を
用いて適切な文節を得ることができる。

【００２５】なお、本発明は上記の実施例に限定される
ことなく、例えば、学習テキストは文節単位だけでな
く、文章であってもよい。

【００２６】さらに、統計的言語モデルもトライグラム
に限らず、バイグラムの統計量でもよい。

【００２７】

【発明の効果】上述のように本発明によれば、日本語テ
キストデータベースとその仮名・漢字出現順序に関する
統計的言語モデルを用いるため、効率よくテキストを生
成できることが期待され、従来のように新たに学習テキ
ストを生成する必要がない。日本語の文節テキストを用
いて上記の方法の評価を行った。ここでは分割点を文字
境界としている。

【００２８】評価においては、医用所見に関する学習テ
キスト１０００文節を用いてテキストを生成した。その
結果、７４％が構文的及び意味的に正しい文節であっ
た。別の医用所見文節７２０００文節と照合したとこ
ろ、生成テキストの３７％がこの中に存在した。

【００２９】次に学習テキスト５０００、１００００、
１５０００文節を用いてテキストを作成した。評価用１
２０００文節における文字の二つ組、三つ組に対する学
習テキストより得られる二つ組、三つ組及び学習テキス
トと新規作成テキストより得られる二つ組、三つ組のカ
バー率を調べた。この結果学習テキストのみではカバー
できなかった部分の約１／３を新規にカバーでき、本発
明が有効であることが示された。

【図面の簡単な説明】

【図１】本発明の原理説明図である。

【図２】本発明の一実施例の学習テキストを説明するた
めの図である。

【図３】本発明の一実施例の新規にテキストを生成する
アルゴリズムを示すフローチャートである。

【図４】本発明の一実施例の新規テキストの作成の例を
示す。

【符号の説明】

１日本語テキストデータベース２統計的言語モデル３新規テキストデータｄ分割点Ｍ文節数 β 語尾から分割点ｄまでの尤度 α 語頭から分割点ｄまでの尤度

Claims

【特許請求の範囲】

【請求項１】日本語音声認識に用いる日本語テキスト
データベースにおいて、該日本語テキストデータベースから統計的言語モデルと
して、仮名、及び漢字の生起順序に関する統計的言語モ
デルを作成しておき、該日本語テキストデータベースと作成されている該統計
的言語モデルを用いて、該日本語テキストデータベース
とは別の新規のテキストデータを自動的に生成すること
を特徴とする日本語テキスト自動拡張方法。