JPH06118984A - 日本語テキスト自動拡張方法 - Google Patents

日本語テキスト自動拡張方法

Info

Publication number
JPH06118984A
JPH06118984A JP4265164A JP26516492A JPH06118984A JP H06118984 A JPH06118984 A JP H06118984A JP 4265164 A JP4265164 A JP 4265164A JP 26516492 A JP26516492 A JP 26516492A JP H06118984 A JPH06118984 A JP H06118984A
Authority
JP
Japan
Prior art keywords
japanese
text
language model
statistical language
japanese text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4265164A
Other languages
English (en)
Inventor
Shoichi Matsunaga
昭一 松永
Kiyohiro Kano
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4265164A priority Critical patent/JPH06118984A/ja
Publication of JPH06118984A publication Critical patent/JPH06118984A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 本発明は、新たに学習テキストを生成するこ
となく、効率よくテキストを生成することができる日本
語テキスト自動拡張方法を提供することである。 【構成】 本発明は、日本語音声認識に用いる日本語テ
キストデータベースにおいて、日本語テキストデータベ
ース1の統計的言語モデルとして、仮名、及び漢字の生
起順序に関する統計的言語モデル2を作成しておき(ス
テップ10)、日本語テキストデータベース1と作成さ
れている該統計的言語モデル2を用いて、日本語テキス
トデータベース1とは別の新規のテキストデータ3を自
動的に生成する(ステップ20)。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語テキスト自動拡
張方法に係り、特に日本語音声認識に関する統計的モデ
ル及び日本語統計モデル等のテキストを自動的に拡張す
る日本語テキスト自動拡張方法に関する。
【0002】
【従来の技術】従来、統計的言語モデルを用いて自然言
語解析性能や音声認識性能を向上させる試みが行われて
いる。例えば、日本語音声認識に関する統計的言語モデ
ル(例えば、Bahl, L.他、 A Statistical Approach to
Continuous Speech Recognition“IEEE”Trans. On PA
MI(1983)) 及び日本語統計モデル( 例えば、山田他「か
な漢字の文字連鎖情報を利用した統計的言語モデル」電
子情報通信学会技術報告SP91-26(1991)) 等がある。
【0003】音声認識では、音声の隠れマルコフモデル
及び統計的言語モデルを用いた音声認識方法がある。こ
れらは、学習用テキストデータベースを用いて音声、仮
名漢字あるいは単語の生起順序に関する統計的言語モデ
ルと、隠れマルコフモデルの音素標準パターンとを予め
作成しておき、入力音声に対し、統計的言語モデルを用
いて、既に認識した直前の複数の音素から、次に生起す
る確率の高い複数の音素候補を選出し、これらの音素酵
素の選出した音素候補のそれぞれについてその音素標準
パターンと入力音声とを照合して、生起尤度と標準パタ
ンーンとの類似度の総合的尤度の最も高い候補を認識結
果として出力することが提案されている。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
認識方法は、入力される音声に対して学習用テキストデ
ータベースのパターンデータが十分に揃わないと解析や
認識結果が有効とならないため、充分な解析処理や認識
処理を行うためには、上記学習用データベースを十分に
収集しなければならない。これにより、従来の認識方法
には、膨大な労力を必要とするという問題がある。
【0005】本発明は上記の点に鑑みなされたもので、
新たに学習テキストを生成することなく、効率よくテキ
ストを生成することができる日本語テキスト自動拡張方
法を提供することを目的とする。
【0006】
【課題を解決するための手段】図1は本発明の原理説明
図である。
【0007】本発明は、日本語音声認識に用いる日本語
テキストデータベースにおいて、日本語テキストデータ
ベース1を用いて統計的言語モデルとして、仮名、及び
漢字の生起順序に関する統計的言語モデル2を作成して
おき(ステップ10)、日本語テキストデータベース1
と作成されている該統計的言語モデル2を用いて、日本
語テキストデータベース1とは別の新規のテキストデー
タ3を自動的に生成する(ステップ20)。
【0008】
【作用】本発明は、日本語テキストデータベースとその
仮名・漢字の出現順序に関する統計的言語モデルを用い
て、日本テキストデータベースとは別にテキストデータ
を自動的に増加させるため、効率よくテキストを生成で
きる。
【0009】
【実施例】図2は本発明の一実施例の学習テキストを説
明するための図を示す。
【0010】新規テキストの作成方法は、まず、予めM
個の文節からなる学習テキストを与える。いま、m番目
の文節がN個の文字より構成されており、n番目とn+
1番目の文字の境界でその文節を分割する尤度を γ(n,m)=α(n,m)+β(n+1,m) と定義する。上記のαは語頭から分割点dまでの尤度で
あり、βは語尾から分割点dまでの尤度である。ここで
は、文字トライグラムを用いて、
【数1】 ここで、wi はi番目の文字、トライグラム確率P(w
i |wi-1 ,wi-2 )はwi-1 ,wi-2 の後に文字wi
が出現する条件付確率であり、学習テキストより求めた
ものである(但し、i<1あるいはi>Nにおける文字
i は文の始終端を示す)。即ち、αは順方向の平均対
数確率で、βは逆向きの確率である。つまり、文節の分
割点として尤度が高い程、文節を分割する尤度γの値は
大きい。この分割点dのすべての集合をVとすると、生
成アルゴリズムは以下ようになる。
【0011】図3は本発明の一実施例の新規にテキスト
を生成するアルゴリズムを示すフローチャートである。
また、図4は本発明の一実施例の新規テキストの作成の
例を示す。
【0012】ステップ100:分割点dのすべての集合
Vにおいて、文節を分割する尤度γ(n,m)を最大と
する(nmax ,mmax )を求める。図4(a)のテキス
トの例においては、最大値をnmax =5,mmax =1と
する。
【0013】ステップ101:閾値をγthとすると、ス
テップ100の尤度γ(n,m)が閾値γthより低けれ
ば処理を終了する。
【0014】ステップ102:mmax 番目の文節の文頭
からの文節と同じ文字系列(1からnmax まで)をもつ
文節を選択する。
【0015】ステップ103:尤度γ(n,m)が閾値
γthより低ければ、ステップ105に移行し、高ければ
ステップ103に移行する。
【0016】ステップ104:ステップ102におい
て、尤度γ(n,m)が閾値γthより高ければ、mmax
番目の文節の文頭からの文字列w1 ,…,…,wnmax
と同じ系列を持つすべての文節でγ(nmax ,m)が閾
値以上の文節の語尾wn max+1……wN (m) をテーブル
Bに登録する。図4(b)においては「内閣総理大臣」
がテーブルBに登録される。
【0017】ステップ105:選択すべき文節がすべて
終了した場合にはステップ106に移行し、まだ、文節
が残っている場合にはステップ102に移行する。
【0018】ステップ106:mmax 番目の文節の文末
からの文節m(max) 番目の文節の文末からの文節(n
max+1 から)と同じ文字系列を持つ文節を選択する。
【0019】ステップ107:文節末が文字列wn
max+1 ……wN max と同じ系列を持つ文節で、γ(n
max ,m)が閾値以下である場合には、ステップ109
に移行する。
【0020】ステップ108:文節末が文字列wn
max+1 ……wN max と同じ系列を持つ文節の頭部(1か
ら)テーブルAに登録する。図4(b)において、
「に」がテーブルAに登録される。
【0021】ステップ109:選択すべき文節が全て終
了していない場合にはステップ106に戻る。
【0022】ステップ110:選択すべき文節が全て終
了した場合には、テーブルAとテーブルBの全組み合わ
せによる新規テキストを生成する。即ち、テーブルAの
要素と、テーブルBの要素の全ての組み合わせで得られ
る文節が新規に生成されることになる。図4(c)にお
いて、「内閣総理大臣に」が生成される。
【0023】ステップ111:分割点dの全ての集合V
について、V=V−{nmax,max}とし、さらに、テ
ーブルAとテーブルBをクリアしてステップ100に戻
る。
【0024】このように、本発明は日本語テキストデー
タベースを文字の出現順序を示す統計的モデルの要素を
用いて適切な文節を得ることができる。
【0025】なお、本発明は上記の実施例に限定される
ことなく、例えば、学習テキストは文節単位だけでな
く、文章であってもよい。
【0026】さらに、統計的言語モデルもトライグラム
に限らず、バイグラムの統計量でもよい。
【0027】
【発明の効果】上述のように本発明によれば、日本語テ
キストデータベースとその仮名・漢字出現順序に関する
統計的言語モデルを用いるため、効率よくテキストを生
成できることが期待され、従来のように新たに学習テキ
ストを生成する必要がない。日本語の文節テキストを用
いて上記の方法の評価を行った。ここでは分割点を文字
境界としている。
【0028】評価においては、医用所見に関する学習テ
キスト1000文節を用いてテキストを生成した。その
結果、74%が構文的及び意味的に正しい文節であっ
た。別の医用所見文節72000文節と照合したとこ
ろ、生成テキストの37%がこの中に存在した。
【0029】次に学習テキスト5000、10000、
15000文節を用いてテキストを作成した。評価用1
2000文節における文字の二つ組、三つ組に対する学
習テキストより得られる二つ組、三つ組及び学習テキス
トと新規作成テキストより得られる二つ組、三つ組のカ
バー率を調べた。この結果学習テキストのみではカバー
できなかった部分の約1/3を新規にカバーでき、本発
明が有効であることが示された。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明の一実施例の学習テキストを説明するた
めの図である。
【図3】本発明の一実施例の新規にテキストを生成する
アルゴリズムを示すフローチャートである。
【図4】本発明の一実施例の新規テキストの作成の例を
示す。
【符号の説明】
1 日本語テキストデータベース 2 統計的言語モデル 3 新規テキストデータ d 分割点 M 文節数 β 語尾から分割点dまでの尤度 α 語頭から分割点dまでの尤度

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 日本語音声認識に用いる日本語テキスト
    データベースにおいて、 該日本語テキストデータベースから統計的言語モデルと
    して、仮名、及び漢字の生起順序に関する統計的言語モ
    デルを作成しておき、 該日本語テキストデータベースと作成されている該統計
    的言語モデルを用いて、該日本語テキストデータベース
    とは別の新規のテキストデータを自動的に生成すること
    を特徴とする日本語テキスト自動拡張方法。
JP4265164A 1992-10-02 1992-10-02 日本語テキスト自動拡張方法 Pending JPH06118984A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4265164A JPH06118984A (ja) 1992-10-02 1992-10-02 日本語テキスト自動拡張方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4265164A JPH06118984A (ja) 1992-10-02 1992-10-02 日本語テキスト自動拡張方法

Publications (1)

Publication Number Publication Date
JPH06118984A true JPH06118984A (ja) 1994-04-28

Family

ID=17413501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4265164A Pending JPH06118984A (ja) 1992-10-02 1992-10-02 日本語テキスト自動拡張方法

Country Status (1)

Country Link
JP (1) JPH06118984A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009163109A (ja) * 2008-01-09 2009-07-23 Mitsubishi Electric Corp 言語モデル生成装置及び音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009163109A (ja) * 2008-01-09 2009-07-23 Mitsubishi Electric Corp 言語モデル生成装置及び音声認識装置

Similar Documents

Publication Publication Date Title
US5806021A (en) Automatic segmentation of continuous text using statistical approaches
JP2002531892A (ja) テキストの自動区分
US20080147405A1 (en) Chinese prosodic words forming method and apparatus
US20030088416A1 (en) HMM-based text-to-phoneme parser and method for training same
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
CN114036957B (zh) 一种快速语义相似度计算方法
CN114298010A (zh) 一种融合双语言模型和句子检测的文本生成方法
Palmer et al. Information extraction from broadcast news speech data
JP3309174B2 (ja) 文字認識方法及び装置
Tanigaki et al. A hierarchical language model incorporating class-dependent word models for OOV words recognition
JPH06118984A (ja) 日本語テキスト自動拡張方法
CN114861669A (zh) 一种融入拼音信息的中文实体链接方法
JP2938865B1 (ja) 音声認識装置
JP3430265B2 (ja) 日本語音声認識方法
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
CN110781678B (zh) 一种基于矩阵形式的文本表示方法
Law et al. Ergodic multigram HMM integrating word segmentation and class tagging for Chinese language modeling
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
CN115146630B (zh) 基于专业领域知识的分词方法、装置、设备及存储介质
JPH11250063A (ja) 検索装置及び検索方法
JPH0612091A (ja) 日本語音声認識方法
JP3818154B2 (ja) 音声認識方法
JP3009709B2 (ja) 日本語音声認識方法
JP3001334B2 (ja) 認識用言語処理装置