JPH06118984A - 日本語テキスト自動拡張方法 - Google Patents
日本語テキスト自動拡張方法Info
- Publication number
- JPH06118984A JPH06118984A JP4265164A JP26516492A JPH06118984A JP H06118984 A JPH06118984 A JP H06118984A JP 4265164 A JP4265164 A JP 4265164A JP 26516492 A JP26516492 A JP 26516492A JP H06118984 A JPH06118984 A JP H06118984A
- Authority
- JP
- Japan
- Prior art keywords
- japanese
- text
- language model
- statistical language
- japanese text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 本発明は、新たに学習テキストを生成するこ
となく、効率よくテキストを生成することができる日本
語テキスト自動拡張方法を提供することである。 【構成】 本発明は、日本語音声認識に用いる日本語テ
キストデータベースにおいて、日本語テキストデータベ
ース1の統計的言語モデルとして、仮名、及び漢字の生
起順序に関する統計的言語モデル2を作成しておき(ス
テップ10)、日本語テキストデータベース1と作成さ
れている該統計的言語モデル2を用いて、日本語テキス
トデータベース1とは別の新規のテキストデータ3を自
動的に生成する(ステップ20)。
となく、効率よくテキストを生成することができる日本
語テキスト自動拡張方法を提供することである。 【構成】 本発明は、日本語音声認識に用いる日本語テ
キストデータベースにおいて、日本語テキストデータベ
ース1の統計的言語モデルとして、仮名、及び漢字の生
起順序に関する統計的言語モデル2を作成しておき(ス
テップ10)、日本語テキストデータベース1と作成さ
れている該統計的言語モデル2を用いて、日本語テキス
トデータベース1とは別の新規のテキストデータ3を自
動的に生成する(ステップ20)。
Description
【0001】
【産業上の利用分野】本発明は、日本語テキスト自動拡
張方法に係り、特に日本語音声認識に関する統計的モデ
ル及び日本語統計モデル等のテキストを自動的に拡張す
る日本語テキスト自動拡張方法に関する。
張方法に係り、特に日本語音声認識に関する統計的モデ
ル及び日本語統計モデル等のテキストを自動的に拡張す
る日本語テキスト自動拡張方法に関する。
【0002】
【従来の技術】従来、統計的言語モデルを用いて自然言
語解析性能や音声認識性能を向上させる試みが行われて
いる。例えば、日本語音声認識に関する統計的言語モデ
ル(例えば、Bahl, L.他、 A Statistical Approach to
Continuous Speech Recognition“IEEE”Trans. On PA
MI(1983)) 及び日本語統計モデル( 例えば、山田他「か
な漢字の文字連鎖情報を利用した統計的言語モデル」電
子情報通信学会技術報告SP91-26(1991)) 等がある。
語解析性能や音声認識性能を向上させる試みが行われて
いる。例えば、日本語音声認識に関する統計的言語モデ
ル(例えば、Bahl, L.他、 A Statistical Approach to
Continuous Speech Recognition“IEEE”Trans. On PA
MI(1983)) 及び日本語統計モデル( 例えば、山田他「か
な漢字の文字連鎖情報を利用した統計的言語モデル」電
子情報通信学会技術報告SP91-26(1991)) 等がある。
【0003】音声認識では、音声の隠れマルコフモデル
及び統計的言語モデルを用いた音声認識方法がある。こ
れらは、学習用テキストデータベースを用いて音声、仮
名漢字あるいは単語の生起順序に関する統計的言語モデ
ルと、隠れマルコフモデルの音素標準パターンとを予め
作成しておき、入力音声に対し、統計的言語モデルを用
いて、既に認識した直前の複数の音素から、次に生起す
る確率の高い複数の音素候補を選出し、これらの音素酵
素の選出した音素候補のそれぞれについてその音素標準
パターンと入力音声とを照合して、生起尤度と標準パタ
ンーンとの類似度の総合的尤度の最も高い候補を認識結
果として出力することが提案されている。
及び統計的言語モデルを用いた音声認識方法がある。こ
れらは、学習用テキストデータベースを用いて音声、仮
名漢字あるいは単語の生起順序に関する統計的言語モデ
ルと、隠れマルコフモデルの音素標準パターンとを予め
作成しておき、入力音声に対し、統計的言語モデルを用
いて、既に認識した直前の複数の音素から、次に生起す
る確率の高い複数の音素候補を選出し、これらの音素酵
素の選出した音素候補のそれぞれについてその音素標準
パターンと入力音声とを照合して、生起尤度と標準パタ
ンーンとの類似度の総合的尤度の最も高い候補を認識結
果として出力することが提案されている。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
認識方法は、入力される音声に対して学習用テキストデ
ータベースのパターンデータが十分に揃わないと解析や
認識結果が有効とならないため、充分な解析処理や認識
処理を行うためには、上記学習用データベースを十分に
収集しなければならない。これにより、従来の認識方法
には、膨大な労力を必要とするという問題がある。
認識方法は、入力される音声に対して学習用テキストデ
ータベースのパターンデータが十分に揃わないと解析や
認識結果が有効とならないため、充分な解析処理や認識
処理を行うためには、上記学習用データベースを十分に
収集しなければならない。これにより、従来の認識方法
には、膨大な労力を必要とするという問題がある。
【0005】本発明は上記の点に鑑みなされたもので、
新たに学習テキストを生成することなく、効率よくテキ
ストを生成することができる日本語テキスト自動拡張方
法を提供することを目的とする。
新たに学習テキストを生成することなく、効率よくテキ
ストを生成することができる日本語テキスト自動拡張方
法を提供することを目的とする。
【0006】
【課題を解決するための手段】図1は本発明の原理説明
図である。
図である。
【0007】本発明は、日本語音声認識に用いる日本語
テキストデータベースにおいて、日本語テキストデータ
ベース1を用いて統計的言語モデルとして、仮名、及び
漢字の生起順序に関する統計的言語モデル2を作成して
おき(ステップ10)、日本語テキストデータベース1
と作成されている該統計的言語モデル2を用いて、日本
語テキストデータベース1とは別の新規のテキストデー
タ3を自動的に生成する(ステップ20)。
テキストデータベースにおいて、日本語テキストデータ
ベース1を用いて統計的言語モデルとして、仮名、及び
漢字の生起順序に関する統計的言語モデル2を作成して
おき(ステップ10)、日本語テキストデータベース1
と作成されている該統計的言語モデル2を用いて、日本
語テキストデータベース1とは別の新規のテキストデー
タ3を自動的に生成する(ステップ20)。
【0008】
【作用】本発明は、日本語テキストデータベースとその
仮名・漢字の出現順序に関する統計的言語モデルを用い
て、日本テキストデータベースとは別にテキストデータ
を自動的に増加させるため、効率よくテキストを生成で
きる。
仮名・漢字の出現順序に関する統計的言語モデルを用い
て、日本テキストデータベースとは別にテキストデータ
を自動的に増加させるため、効率よくテキストを生成で
きる。
【0009】
【実施例】図2は本発明の一実施例の学習テキストを説
明するための図を示す。
明するための図を示す。
【0010】新規テキストの作成方法は、まず、予めM
個の文節からなる学習テキストを与える。いま、m番目
の文節がN個の文字より構成されており、n番目とn+
1番目の文字の境界でその文節を分割する尤度を γ(n,m)=α(n,m)+β(n+1,m) と定義する。上記のαは語頭から分割点dまでの尤度で
あり、βは語尾から分割点dまでの尤度である。ここで
は、文字トライグラムを用いて、
個の文節からなる学習テキストを与える。いま、m番目
の文節がN個の文字より構成されており、n番目とn+
1番目の文字の境界でその文節を分割する尤度を γ(n,m)=α(n,m)+β(n+1,m) と定義する。上記のαは語頭から分割点dまでの尤度で
あり、βは語尾から分割点dまでの尤度である。ここで
は、文字トライグラムを用いて、
【数1】 ここで、wi はi番目の文字、トライグラム確率P(w
i |wi-1 ,wi-2 )はwi-1 ,wi-2 の後に文字wi
が出現する条件付確率であり、学習テキストより求めた
ものである(但し、i<1あるいはi>Nにおける文字
wi は文の始終端を示す)。即ち、αは順方向の平均対
数確率で、βは逆向きの確率である。つまり、文節の分
割点として尤度が高い程、文節を分割する尤度γの値は
大きい。この分割点dのすべての集合をVとすると、生
成アルゴリズムは以下ようになる。
i |wi-1 ,wi-2 )はwi-1 ,wi-2 の後に文字wi
が出現する条件付確率であり、学習テキストより求めた
ものである(但し、i<1あるいはi>Nにおける文字
wi は文の始終端を示す)。即ち、αは順方向の平均対
数確率で、βは逆向きの確率である。つまり、文節の分
割点として尤度が高い程、文節を分割する尤度γの値は
大きい。この分割点dのすべての集合をVとすると、生
成アルゴリズムは以下ようになる。
【0011】図3は本発明の一実施例の新規にテキスト
を生成するアルゴリズムを示すフローチャートである。
また、図4は本発明の一実施例の新規テキストの作成の
例を示す。
を生成するアルゴリズムを示すフローチャートである。
また、図4は本発明の一実施例の新規テキストの作成の
例を示す。
【0012】ステップ100:分割点dのすべての集合
Vにおいて、文節を分割する尤度γ(n,m)を最大と
する(nmax ,mmax )を求める。図4(a)のテキス
トの例においては、最大値をnmax =5,mmax =1と
する。
Vにおいて、文節を分割する尤度γ(n,m)を最大と
する(nmax ,mmax )を求める。図4(a)のテキス
トの例においては、最大値をnmax =5,mmax =1と
する。
【0013】ステップ101:閾値をγthとすると、ス
テップ100の尤度γ(n,m)が閾値γthより低けれ
ば処理を終了する。
テップ100の尤度γ(n,m)が閾値γthより低けれ
ば処理を終了する。
【0014】ステップ102:mmax 番目の文節の文頭
からの文節と同じ文字系列(1からnmax まで)をもつ
文節を選択する。
からの文節と同じ文字系列(1からnmax まで)をもつ
文節を選択する。
【0015】ステップ103:尤度γ(n,m)が閾値
γthより低ければ、ステップ105に移行し、高ければ
ステップ103に移行する。
γthより低ければ、ステップ105に移行し、高ければ
ステップ103に移行する。
【0016】ステップ104:ステップ102におい
て、尤度γ(n,m)が閾値γthより高ければ、mmax
番目の文節の文頭からの文字列w1 ,…,…,wnmax
と同じ系列を持つすべての文節でγ(nmax ,m)が閾
値以上の文節の語尾wn max+1……wN (m) をテーブル
Bに登録する。図4(b)においては「内閣総理大臣」
がテーブルBに登録される。
て、尤度γ(n,m)が閾値γthより高ければ、mmax
番目の文節の文頭からの文字列w1 ,…,…,wnmax
と同じ系列を持つすべての文節でγ(nmax ,m)が閾
値以上の文節の語尾wn max+1……wN (m) をテーブル
Bに登録する。図4(b)においては「内閣総理大臣」
がテーブルBに登録される。
【0017】ステップ105:選択すべき文節がすべて
終了した場合にはステップ106に移行し、まだ、文節
が残っている場合にはステップ102に移行する。
終了した場合にはステップ106に移行し、まだ、文節
が残っている場合にはステップ102に移行する。
【0018】ステップ106:mmax 番目の文節の文末
からの文節m(max) 番目の文節の文末からの文節(n
max+1 から)と同じ文字系列を持つ文節を選択する。
からの文節m(max) 番目の文節の文末からの文節(n
max+1 から)と同じ文字系列を持つ文節を選択する。
【0019】ステップ107:文節末が文字列wn
max+1 ……wN max と同じ系列を持つ文節で、γ(n
max ,m)が閾値以下である場合には、ステップ109
に移行する。
max+1 ……wN max と同じ系列を持つ文節で、γ(n
max ,m)が閾値以下である場合には、ステップ109
に移行する。
【0020】ステップ108:文節末が文字列wn
max+1 ……wN max と同じ系列を持つ文節の頭部(1か
ら)テーブルAに登録する。図4(b)において、
「に」がテーブルAに登録される。
max+1 ……wN max と同じ系列を持つ文節の頭部(1か
ら)テーブルAに登録する。図4(b)において、
「に」がテーブルAに登録される。
【0021】ステップ109:選択すべき文節が全て終
了していない場合にはステップ106に戻る。
了していない場合にはステップ106に戻る。
【0022】ステップ110:選択すべき文節が全て終
了した場合には、テーブルAとテーブルBの全組み合わ
せによる新規テキストを生成する。即ち、テーブルAの
要素と、テーブルBの要素の全ての組み合わせで得られ
る文節が新規に生成されることになる。図4(c)にお
いて、「内閣総理大臣に」が生成される。
了した場合には、テーブルAとテーブルBの全組み合わ
せによる新規テキストを生成する。即ち、テーブルAの
要素と、テーブルBの要素の全ての組み合わせで得られ
る文節が新規に生成されることになる。図4(c)にお
いて、「内閣総理大臣に」が生成される。
【0023】ステップ111:分割点dの全ての集合V
について、V=V−{nmax,mmax}とし、さらに、テ
ーブルAとテーブルBをクリアしてステップ100に戻
る。
について、V=V−{nmax,mmax}とし、さらに、テ
ーブルAとテーブルBをクリアしてステップ100に戻
る。
【0024】このように、本発明は日本語テキストデー
タベースを文字の出現順序を示す統計的モデルの要素を
用いて適切な文節を得ることができる。
タベースを文字の出現順序を示す統計的モデルの要素を
用いて適切な文節を得ることができる。
【0025】なお、本発明は上記の実施例に限定される
ことなく、例えば、学習テキストは文節単位だけでな
く、文章であってもよい。
ことなく、例えば、学習テキストは文節単位だけでな
く、文章であってもよい。
【0026】さらに、統計的言語モデルもトライグラム
に限らず、バイグラムの統計量でもよい。
に限らず、バイグラムの統計量でもよい。
【0027】
【発明の効果】上述のように本発明によれば、日本語テ
キストデータベースとその仮名・漢字出現順序に関する
統計的言語モデルを用いるため、効率よくテキストを生
成できることが期待され、従来のように新たに学習テキ
ストを生成する必要がない。日本語の文節テキストを用
いて上記の方法の評価を行った。ここでは分割点を文字
境界としている。
キストデータベースとその仮名・漢字出現順序に関する
統計的言語モデルを用いるため、効率よくテキストを生
成できることが期待され、従来のように新たに学習テキ
ストを生成する必要がない。日本語の文節テキストを用
いて上記の方法の評価を行った。ここでは分割点を文字
境界としている。
【0028】評価においては、医用所見に関する学習テ
キスト1000文節を用いてテキストを生成した。その
結果、74%が構文的及び意味的に正しい文節であっ
た。別の医用所見文節72000文節と照合したとこ
ろ、生成テキストの37%がこの中に存在した。
キスト1000文節を用いてテキストを生成した。その
結果、74%が構文的及び意味的に正しい文節であっ
た。別の医用所見文節72000文節と照合したとこ
ろ、生成テキストの37%がこの中に存在した。
【0029】次に学習テキスト5000、10000、
15000文節を用いてテキストを作成した。評価用1
2000文節における文字の二つ組、三つ組に対する学
習テキストより得られる二つ組、三つ組及び学習テキス
トと新規作成テキストより得られる二つ組、三つ組のカ
バー率を調べた。この結果学習テキストのみではカバー
できなかった部分の約1/3を新規にカバーでき、本発
明が有効であることが示された。
15000文節を用いてテキストを作成した。評価用1
2000文節における文字の二つ組、三つ組に対する学
習テキストより得られる二つ組、三つ組及び学習テキス
トと新規作成テキストより得られる二つ組、三つ組のカ
バー率を調べた。この結果学習テキストのみではカバー
できなかった部分の約1/3を新規にカバーでき、本発
明が有効であることが示された。
【図1】本発明の原理説明図である。
【図2】本発明の一実施例の学習テキストを説明するた
めの図である。
めの図である。
【図3】本発明の一実施例の新規にテキストを生成する
アルゴリズムを示すフローチャートである。
アルゴリズムを示すフローチャートである。
【図4】本発明の一実施例の新規テキストの作成の例を
示す。
示す。
1 日本語テキストデータベース 2 統計的言語モデル 3 新規テキストデータ d 分割点 M 文節数 β 語尾から分割点dまでの尤度 α 語頭から分割点dまでの尤度
Claims (1)
- 【請求項1】 日本語音声認識に用いる日本語テキスト
データベースにおいて、 該日本語テキストデータベースから統計的言語モデルと
して、仮名、及び漢字の生起順序に関する統計的言語モ
デルを作成しておき、 該日本語テキストデータベースと作成されている該統計
的言語モデルを用いて、該日本語テキストデータベース
とは別の新規のテキストデータを自動的に生成すること
を特徴とする日本語テキスト自動拡張方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4265164A JPH06118984A (ja) | 1992-10-02 | 1992-10-02 | 日本語テキスト自動拡張方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4265164A JPH06118984A (ja) | 1992-10-02 | 1992-10-02 | 日本語テキスト自動拡張方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06118984A true JPH06118984A (ja) | 1994-04-28 |
Family
ID=17413501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4265164A Pending JPH06118984A (ja) | 1992-10-02 | 1992-10-02 | 日本語テキスト自動拡張方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06118984A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009163109A (ja) * | 2008-01-09 | 2009-07-23 | Mitsubishi Electric Corp | 言語モデル生成装置及び音声認識装置 |
-
1992
- 1992-10-02 JP JP4265164A patent/JPH06118984A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009163109A (ja) * | 2008-01-09 | 2009-07-23 | Mitsubishi Electric Corp | 言語モデル生成装置及び音声認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5806021A (en) | Automatic segmentation of continuous text using statistical approaches | |
JP2002531892A (ja) | テキストの自動区分 | |
US20080147405A1 (en) | Chinese prosodic words forming method and apparatus | |
US20030088416A1 (en) | HMM-based text-to-phoneme parser and method for training same | |
CN111709242A (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
CN114036957B (zh) | 一种快速语义相似度计算方法 | |
CN114298010A (zh) | 一种融合双语言模型和句子检测的文本生成方法 | |
Palmer et al. | Information extraction from broadcast news speech data | |
JP3309174B2 (ja) | 文字認識方法及び装置 | |
Tanigaki et al. | A hierarchical language model incorporating class-dependent word models for OOV words recognition | |
JPH06118984A (ja) | 日本語テキスト自動拡張方法 | |
CN114861669A (zh) | 一种融入拼音信息的中文实体链接方法 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP3430265B2 (ja) | 日本語音声認識方法 | |
KR100910275B1 (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 | |
CN110781678B (zh) | 一种基于矩阵形式的文本表示方法 | |
Law et al. | Ergodic multigram HMM integrating word segmentation and class tagging for Chinese language modeling | |
KR20090042201A (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치 | |
CN115146630B (zh) | 基于专业领域知识的分词方法、装置、设备及存储介质 | |
JPH11250063A (ja) | 検索装置及び検索方法 | |
JPH0612091A (ja) | 日本語音声認識方法 | |
JP3818154B2 (ja) | 音声認識方法 | |
JP3009709B2 (ja) | 日本語音声認識方法 | |
JP3001334B2 (ja) | 認識用言語処理装置 |