JP2798747B2 - 自然言語処理方式 - Google Patents
自然言語処理方式Info
- Publication number
- JP2798747B2 JP2798747B2 JP1301177A JP30117789A JP2798747B2 JP 2798747 B2 JP2798747 B2 JP 2798747B2 JP 1301177 A JP1301177 A JP 1301177A JP 30117789 A JP30117789 A JP 30117789A JP 2798747 B2 JP2798747 B2 JP 2798747B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- candidate
- word
- phrase
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 技術分野 ワードプロセッサやDPSの日本語入力などに用いるか
な漢字変換処理方式および仮名漢字変換処理装置、音声
認識、機械翻訳や校正支援や文字認識等における自然言
語解析装置などの自然言語処理方式に関し、例えば、音
声合成等における仮名漢字変換装置等に適用されるもの
である。
な漢字変換処理方式および仮名漢字変換処理装置、音声
認識、機械翻訳や校正支援や文字認識等における自然言
語解析装置などの自然言語処理方式に関し、例えば、音
声合成等における仮名漢字変換装置等に適用されるもの
である。
従来技術 従来のかな漢字変換処理方式としては、最初の文節と
後続の文節を解析して、2文節の読み長を元に、最初の
文節を決定する2文節最長一致法が良く知られている
が、2文節の読み長だけでは最初の文節候補の尤もらし
さを正しく判断できないという欠点があり、正しい文節
候補が得られない場合があった。また、先の出願である
特願昭63−288338号の方式は、1.5文節に尤もらしさを
与えて最初の1文節を決定する方式を提案したが、この
方式では、複数文節間の情報を扱えないという欠点があ
った。
後続の文節を解析して、2文節の読み長を元に、最初の
文節を決定する2文節最長一致法が良く知られている
が、2文節の読み長だけでは最初の文節候補の尤もらし
さを正しく判断できないという欠点があり、正しい文節
候補が得られない場合があった。また、先の出願である
特願昭63−288338号の方式は、1.5文節に尤もらしさを
与えて最初の1文節を決定する方式を提案したが、この
方式では、複数文節間の情報を扱えないという欠点があ
った。
目的 本発明は、上述のごとき欠点を解決するためになされ
たもので、候補に対して1.5文節の単位または2文節の
単位で尤もらしさを与え、その1.5文節または2文節候
補の尤もらしさを、複数文節間で階層的に合成する手段
を実現し、文節候補の尤もらしさを正しく判断する自然
言語処理を行う自然言語処理方式を提供することを目的
としてなされたものである。
たもので、候補に対して1.5文節の単位または2文節の
単位で尤もらしさを与え、その1.5文節または2文節候
補の尤もらしさを、複数文節間で階層的に合成する手段
を実現し、文節候補の尤もらしさを正しく判断する自然
言語処理を行う自然言語処理方式を提供することを目的
としてなされたものである。
構成 本発明は、上記目的を達成するために、(1)少なく
とも読みを表わす仮名文字列およびそれに対応する表記
の情報を保持する単語辞書と、変換すべき対象仮名文字
列を元に該単語辞書の読みを表わす仮名文字列を検索す
る辞書検索手段と、検索された単語を用いて表記文字列
の候補を抽出する候補抽出手段と、該抽出された前後の
単語間の接続の可否を判定する手段と、前記抽出された
単語の候補より出力する単語表記を決定するために複数
の証拠を基本確率として与えデンプスターシェーファー
の理論に基づいて合成演算する手段と、少なくとも単語
の読みの長さ、単語の頻度を証拠の一つとする手段と、
単語間の接続が可能な並びから少なくとも第1文節と第
2文節の並びとなる候補を抽出する手段と、前記デンプ
スターシェーファーの理論に基づいて合成演算した結果
の尤度と確度により第1文節を決定する手段とを備えて
かな漢字変換処理を行うこと、或いは、(2)少なくと
も読みを表わす仮名文字列およびそれに対応する表記の
情報を保持する単語辞書と、変換すべき対象仮名文字列
を元に該単語辞書の読みを表わす仮名文字列を検索する
辞書検索手段と、検索された単語を用いて表記文字列の
候補を抽出する候補抽出手段と、該抽出された前後の単
語間の接続の可否を判定する手段と、前記抽出された単
語の候補より出力する単語表記を決定するために複数の
証拠を基本確率として与えデンプスターシェーファーの
理論に基づいて合成演算する手段と、少なくとも単語の
読みの長さ、単語の頻度を証拠の一つとする手段と、単
語間の接続が可能な並びから少なくとも第1文節と第2
文節の並びとなる候補を抽出する手段と、前記デンプス
ターシェーファーの理論に基づいて合成演算した結果の
尤度と確度により第1文節を決定するか、あるいは更に
別の証拠を加えて合成演算を続けるかの判定を行う判定
手段とを備えてかな漢字変換処理を行うことを特徴とし
たものである。以下、本発明の実施例に基づいて説明す
る。
とも読みを表わす仮名文字列およびそれに対応する表記
の情報を保持する単語辞書と、変換すべき対象仮名文字
列を元に該単語辞書の読みを表わす仮名文字列を検索す
る辞書検索手段と、検索された単語を用いて表記文字列
の候補を抽出する候補抽出手段と、該抽出された前後の
単語間の接続の可否を判定する手段と、前記抽出された
単語の候補より出力する単語表記を決定するために複数
の証拠を基本確率として与えデンプスターシェーファー
の理論に基づいて合成演算する手段と、少なくとも単語
の読みの長さ、単語の頻度を証拠の一つとする手段と、
単語間の接続が可能な並びから少なくとも第1文節と第
2文節の並びとなる候補を抽出する手段と、前記デンプ
スターシェーファーの理論に基づいて合成演算した結果
の尤度と確度により第1文節を決定する手段とを備えて
かな漢字変換処理を行うこと、或いは、(2)少なくと
も読みを表わす仮名文字列およびそれに対応する表記の
情報を保持する単語辞書と、変換すべき対象仮名文字列
を元に該単語辞書の読みを表わす仮名文字列を検索する
辞書検索手段と、検索された単語を用いて表記文字列の
候補を抽出する候補抽出手段と、該抽出された前後の単
語間の接続の可否を判定する手段と、前記抽出された単
語の候補より出力する単語表記を決定するために複数の
証拠を基本確率として与えデンプスターシェーファーの
理論に基づいて合成演算する手段と、少なくとも単語の
読みの長さ、単語の頻度を証拠の一つとする手段と、単
語間の接続が可能な並びから少なくとも第1文節と第2
文節の並びとなる候補を抽出する手段と、前記デンプス
ターシェーファーの理論に基づいて合成演算した結果の
尤度と確度により第1文節を決定するか、あるいは更に
別の証拠を加えて合成演算を続けるかの判定を行う判定
手段とを備えてかな漢字変換処理を行うことを特徴とし
たものである。以下、本発明の実施例に基づいて説明す
る。
第1図は、本発明による自然言語処理方式の一実施例
を説明するための構成図で、図中、1は入力部、2は解
析処理部、3は候補抽出部、4は辞書検索部、5は辞
書、6は候補評価部、7は合成演算部、8は出力部であ
る。なお、解析を行う以前に既に確定している直前の文
節を確定文節という、文節を次に続く自立部を合わせて
1.5文節という。
を説明するための構成図で、図中、1は入力部、2は解
析処理部、3は候補抽出部、4は辞書検索部、5は辞
書、6は候補評価部、7は合成演算部、8は出力部であ
る。なお、解析を行う以前に既に確定している直前の文
節を確定文節という、文節を次に続く自立部を合わせて
1.5文節という。
候補抽出部3は1.5文節または2文節単位の候補群を
抽出する処理を行う。候補評価部6は抽出した候補に対
して1.5文節または2文節としての尤もらしさを評価し
て与える。合成演算部7は、確定文節の尤もらしさと、
最初の1.5文節の尤もらしさと、最初の1文節に続く次
の1.5文節の尤もらしさ、または最初の2文節の尤もら
しさと、最初の1文節に続く次の2文節の尤もらしさに
対して合成演算を行い最尤の候補の最初の1文節を決定
する。
抽出する処理を行う。候補評価部6は抽出した候補に対
して1.5文節または2文節としての尤もらしさを評価し
て与える。合成演算部7は、確定文節の尤もらしさと、
最初の1.5文節の尤もらしさと、最初の1文節に続く次
の1.5文節の尤もらしさ、または最初の2文節の尤もら
しさと、最初の1文節に続く次の2文節の尤もらしさに
対して合成演算を行い最尤の候補の最初の1文節を決定
する。
第2図は、候補抽出部の構成を示す図で、解析開始位
置から、1.5文節の単位で候補群をすべて蓄積(候補
1、候補2、……、候補n)する。次にそれぞれの候補
の第1文節に続く候補を同様に1.5文節の単位で蓄積
(候補1に対して候補1−1、候補1−2、……候補1
−m,候補2に対して候補2−1、候補2−2、……)す
る。
置から、1.5文節の単位で候補群をすべて蓄積(候補
1、候補2、……、候補n)する。次にそれぞれの候補
の第1文節に続く候補を同様に1.5文節の単位で蓄積
(候補1に対して候補1−1、候補1−2、……候補1
−m,候補2に対して候補2−1、候補2−2、……)す
る。
候補評価部では、候補抽出部で抽出したすべての1.5
文節候補に対して尤もらしさを、候補1に対してC1、候
補2に対してC2、候補1−1に対してC11、…のように
与える。ここで与える尤もらしさは、1.5文節の読み長
でも、1.5文節を構成する単語の頻度の合計でも、ある
いは1.5文節を構成する候補について読み長・頻度・接
続し易さなどを総合的に判断した値でもよい。重要なこ
とは、正しい候補を含む1.5文節の尤もらしさが十分に
高くなるように、尤もらしさを与えることである。
文節候補に対して尤もらしさを、候補1に対してC1、候
補2に対してC2、候補1−1に対してC11、…のように
与える。ここで与える尤もらしさは、1.5文節の読み長
でも、1.5文節を構成する単語の頻度の合計でも、ある
いは1.5文節を構成する候補について読み長・頻度・接
続し易さなどを総合的に判断した値でもよい。重要なこ
とは、正しい候補を含む1.5文節の尤もらしさが十分に
高くなるように、尤もらしさを与えることである。
第6図は、候補抽出部の構成を示す図で、解析開始位
置から2文節の単位で候補群をすべて蓄積(候補1、候
補2、……、候補n)する。次にそれぞれの候補の第1
文節に続く候補を同様に2文節の単位で蓄積(候補1に
対して候補1−1、候補1−2、……、候補1−m,候補
2に対て候補2−1、候補2−2、……)する。
置から2文節の単位で候補群をすべて蓄積(候補1、候
補2、……、候補n)する。次にそれぞれの候補の第1
文節に続く候補を同様に2文節の単位で蓄積(候補1に
対して候補1−1、候補1−2、……、候補1−m,候補
2に対て候補2−1、候補2−2、……)する。
候補評価部では、候補抽出部で抽出したすべての2文
節候補に対して尤もらしさを、候補1に対してC1、候補
2に対してC2、候補1−1に対してC11、…のように与
える。ここで与える尤もらしさは、2文節の読み長で
も、2文節を構成する単語の頻度の合計でも、あるいは
2文節を構成する候補について読み長・頻度・接続し易
さなどを総合的に判断した値でもよい。重要なことは、
正しい候補を含む2文節の尤もらしさが十分に高くなる
ように、尤もらしさを与えることである。
節候補に対して尤もらしさを、候補1に対してC1、候補
2に対してC2、候補1−1に対してC11、…のように与
える。ここで与える尤もらしさは、2文節の読み長で
も、2文節を構成する単語の頻度の合計でも、あるいは
2文節を構成する候補について読み長・頻度・接続し易
さなどを総合的に判断した値でもよい。重要なことは、
正しい候補を含む2文節の尤もらしさが十分に高くなる
ように、尤もらしさを与えることである。
合成演算部の実施例として、まず1つは、前記候補評
価部で与えた各候補の尤もらしさの総和で判断する方法
で、 Max(Σ(C1,C11),Σ(C1,C12),…,Σ(C2,C2
1),…,)が、最高値となる場合の最初の一文節を最
尤候補として決定する方法。
価部で与えた各候補の尤もらしさの総和で判断する方法
で、 Max(Σ(C1,C11),Σ(C1,C12),…,Σ(C2,C2
1),…,)が、最高値となる場合の最初の一文節を最
尤候補として決定する方法。
又、それぞれの候補の尤もらしさをデンプスターシェ
ーファーの確率理論における証拠とみなして、デンプス
ターシェーファーの結合規則を適用した合成演算の結果
から最初の1文節を最尤候補として決定する方法等が考
えられる。
ーファーの確率理論における証拠とみなして、デンプス
ターシェーファーの結合規則を適用した合成演算の結果
から最初の1文節を最尤候補として決定する方法等が考
えられる。
第3図は、句読点を一つの自立語とみなして、1.5文
節の合成演算を実施した例で、その処理の流れを示す。
以下のstepに従って説明する。
節の合成演算を実施した例で、その処理の流れを示す。
以下のstepに従って説明する。
step1;1.5文節単位で候補の尤もらしさを解析する。候
補の尤度=Σ(第1自立部の尤度、第1付属部の尤度、
第2自立部の尤度)である。
補の尤度=Σ(第1自立部の尤度、第1付属部の尤度、
第2自立部の尤度)である。
step2;正解候補は、蓄積された候補の中で上位10候補の
中にあると予測して、上位10候補のみを蓄積する。ただ
し、最尤候補の1.5文節読み長が、読み文字列の区切り
長さ(最初に現われる句読点・記号までの長さ)と同じ
場合は、以下の処理を行なわないので、この時点での最
尤候補を、第1文節として決定する。
中にあると予測して、上位10候補のみを蓄積する。ただ
し、最尤候補の1.5文節読み長が、読み文字列の区切り
長さ(最初に現われる句読点・記号までの長さ)と同じ
場合は、以下の処理を行なわないので、この時点での最
尤候補を、第1文節として決定する。
step3;蓄積した各候補に対して、次文節を前記step1の
処理と同じ1.5文節単位で解析し、上位10候補を蓄積す
る。
処理と同じ1.5文節単位で解析し、上位10候補を蓄積す
る。
step4;上述の処理によって蓄積した最初の1.5文節につ
いて、それぞれの候補の確からしさを独立の証拠として
扱って演算処理を行う。本発明では、現在次に示す演算
処理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度) step5;上述の尤度演算の結果より、尤度が最高値の候補
の第1文節を最初の1文節として決定する。
いて、それぞれの候補の確からしさを独立の証拠として
扱って演算処理を行う。本発明では、現在次に示す演算
処理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度) step5;上述の尤度演算の結果より、尤度が最高値の候補
の第1文節を最初の1文節として決定する。
第4図は、読み文字列を句読点で区切った後、解析を
実施した例で、その処理の流れを示す。
実施した例で、その処理の流れを示す。
step1;ここで、読み文字列を、句読点で区切っている。
step2;1.5文節単位で候補の尤もらしさを解析する。候
補の尤度=Σ(第1自立部の尤度、第1付属部の尤度、
第2自立部の尤度)である。
補の尤度=Σ(第1自立部の尤度、第1付属部の尤度、
第2自立部の尤度)である。
step3;正解候補は、蓄積された候補の中で上位10候補の
中にあると予測して、上位10候補のみを蓄積する。ただ
し、最尤候補の1.5文節読み長が、読み文字列の区切り
長さ(最初に現われる句読点・記号までの長さ)と同じ
場合は、以下の処理を行なわないので、この時点での最
尤候補を、第1文節として決定する。
中にあると予測して、上位10候補のみを蓄積する。ただ
し、最尤候補の1.5文節読み長が、読み文字列の区切り
長さ(最初に現われる句読点・記号までの長さ)と同じ
場合は、以下の処理を行なわないので、この時点での最
尤候補を、第1文節として決定する。
step4;蓄積した各候補に対して、次文節を前記step1の
処理と同じ1.5文節単位で解析し、上位10候補を蓄積す
る。
処理と同じ1.5文節単位で解析し、上位10候補を蓄積す
る。
step5;上述の処理によって蓄積した最初の1.5文節につ
いて、それぞれの候補の確からしさを独立の証拠として
扱って演算処理を行う。本発明では、現在次に示す演算
処理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度)。
いて、それぞれの候補の確からしさを独立の証拠として
扱って演算処理を行う。本発明では、現在次に示す演算
処理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度)。
step6;上述の尤度演算の結果より、尤度が最高値の候補
の第1文節を最初の1文節として決定する。
の第1文節を最初の1文節として決定する。
第5図は、読み文字列から句読点を除いた後、解析を
実施し、合成演算のときに句読点による区切り位置の尤
もらしさを証拠に加えて解析を実施した例で、その処理
の流れを示す。
実施し、合成演算のときに句読点による区切り位置の尤
もらしさを証拠に加えて解析を実施した例で、その処理
の流れを示す。
step1;ここで、読み文字列から句読点を除いている。
step2;1.5文節単位で候補の尤もらしさを解析する。候
補の尤戻=Σ(第1自立部の尤度、第1付属部の尤度、
第2自立の尤度)である。
補の尤戻=Σ(第1自立部の尤度、第1付属部の尤度、
第2自立の尤度)である。
step3;正解候補は、蓄積された候補の中で上位10候補の
中にあると予測して、上位10候補のみを蓄積する。ただ
し、最尤候補の1.5文節読み長が、読み文字列の区切り
長さ(最初に現われる句読点・記号までの長さ)と同じ
場合は、以下の処理を行なわないので、この時点での最
尤候補を、第1文節として決定する。
中にあると予測して、上位10候補のみを蓄積する。ただ
し、最尤候補の1.5文節読み長が、読み文字列の区切り
長さ(最初に現われる句読点・記号までの長さ)と同じ
場合は、以下の処理を行なわないので、この時点での最
尤候補を、第1文節として決定する。
step4;蓄積した各候補に対して、次文節を前記step1の
処理と同じ1.5文節単位で解析し、上位10候補を蓄積す
る。
処理と同じ1.5文節単位で解析し、上位10候補を蓄積す
る。
step5;上述の処理によって蓄積した最初の1.5文節につ
いて、それぞれの候補の確からしさを独立の証拠として
扱って演算処理を行う。本発明では、現在次に示す演算
処理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度、句読点区切りからの尤度) step6;上述の尤度演算の結果より、尤度が最高値の候補
の第1文節を最初の1文節として決定する。
いて、それぞれの候補の確からしさを独立の証拠として
扱って演算処理を行う。本発明では、現在次に示す演算
処理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度、句読点区切りからの尤度) step6;上述の尤度演算の結果より、尤度が最高値の候補
の第1文節を最初の1文節として決定する。
なお、入力が漢字かな混じり文であっても、第3図の
step1の処理を漢字かな混じり文に対して実施し、1.5文
節を抽出し、尤度を与えることが実現できる。
step1の処理を漢字かな混じり文に対して実施し、1.5文
節を抽出し、尤度を与えることが実現できる。
第7図は、句読点を一つの自立語とみなして、2文節
の合成演算を実施した例で、その処理の流れを示す。以
下のstepに従って説明する。
の合成演算を実施した例で、その処理の流れを示す。以
下のstepに従って説明する。
step1;2文節単位で候補の尤もらしさを解析する。候補
の尤度=Σ(第1自立部の尤度、第1付属部の尤度、第
2自立部の尤度、第2付属部の尤度)である。
の尤度=Σ(第1自立部の尤度、第1付属部の尤度、第
2自立部の尤度、第2付属部の尤度)である。
step2;正解候補は、蓄積された候補の中で上位10候補の
中にあると予側して、上位10候補のみを蓄積する。ただ
し、最尤候補の2文節読み長が、読み文字列の区切り長
さ(最初に現われる句読点・記号までの長さ)と同じ場
合は、以下の処理を行なわないので、この時点での最尤
候補を、第1文節として決定する。
中にあると予側して、上位10候補のみを蓄積する。ただ
し、最尤候補の2文節読み長が、読み文字列の区切り長
さ(最初に現われる句読点・記号までの長さ)と同じ場
合は、以下の処理を行なわないので、この時点での最尤
候補を、第1文節として決定する。
step3;蓄積した各候補に対して、次文節を前記step1の
処理と同じ2文節単位で解析し、上位10候補を蓄積す
る。
処理と同じ2文節単位で解析し、上位10候補を蓄積す
る。
step4;上述の処理によって蓄積した最初の2文節につい
て、それぞれの候補の確からしさを独立の証拠として扱
って演算処理を行う。本発明では、現在次に示す演算処
理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度、第3付属部の尤度) step5;上述の尤度演算の結果より、尤度が最高値の候補
の第1文節を最初の1文節として決定する。
て、それぞれの候補の確からしさを独立の証拠として扱
って演算処理を行う。本発明では、現在次に示す演算処
理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度、第3付属部の尤度) step5;上述の尤度演算の結果より、尤度が最高値の候補
の第1文節を最初の1文節として決定する。
第8図は、読み文字列を句読点で区切った語、解析を
実施した例で、その処理の流れを示す。
実施した例で、その処理の流れを示す。
step1;ここで、読み文字列を、句読点で区切っている。
step2;2文節単位で候補の尤もらしさを解析する。候補
の尤度=Σ(第1自立部の尤度、第1付属部の尤度、第
2自立部の尤度、第2付属部の尤度)である。
の尤度=Σ(第1自立部の尤度、第1付属部の尤度、第
2自立部の尤度、第2付属部の尤度)である。
step3;正解候補は、蓄積された候補の中で上位10候補の
中にあると予側して、上位10候補のみを蓄積する。ただ
し、最尤候補の2文節読み長が、読み文字列の区切り長
さ(最初に現われる句読点・記号までの長さ)と同じ場
合は、以下の処理を行なわないので、この時点での最尤
候補を、第1文節として決定する。
中にあると予側して、上位10候補のみを蓄積する。ただ
し、最尤候補の2文節読み長が、読み文字列の区切り長
さ(最初に現われる句読点・記号までの長さ)と同じ場
合は、以下の処理を行なわないので、この時点での最尤
候補を、第1文節として決定する。
step4;蓄積した各候補に対して、次文節を前記step1の
処理と同じ2文節単位で解析し、上位10候補を蓄積す
る。
処理と同じ2文節単位で解析し、上位10候補を蓄積す
る。
step5;上述の処理によって蓄積した最初の2文節につい
て、それぞれの候補の確からしさを独立の証拠として扱
って演算処理を行う。本発明では、現在次に示す演算処
理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度、第3付属部の尤度) step6;上述の尤度演算の結果により、尤度が最高値の候
補の第1文節を最初の1文節として決定する。
て、それぞれの候補の確からしさを独立の証拠として扱
って演算処理を行う。本発明では、現在次に示す演算処
理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度、第3付属部の尤度) step6;上述の尤度演算の結果により、尤度が最高値の候
補の第1文節を最初の1文節として決定する。
第9図は、読み文字列から句読点を除いた後、解析を
実施し、合成演算のときに句読点による区切り位置の尤
らしさを証拠に加えて解析を実施した例で、その処理の
流れを示す。
実施し、合成演算のときに句読点による区切り位置の尤
らしさを証拠に加えて解析を実施した例で、その処理の
流れを示す。
step1;ここで、読み文字列から句読点を除いている。
step2;2文節単位で候補の尤もらしさを解析する。候補
の尤度=Σ(第1自立部の尤度、第1付属部の尤度、第
2自立部の尤度、第2付属部の尤度)である。
の尤度=Σ(第1自立部の尤度、第1付属部の尤度、第
2自立部の尤度、第2付属部の尤度)である。
step3;正解候補は、蓄積された候補の中で上位10候補の
中にあると予側して、上位10候補のみを蓄積する。ただ
し、最尤候補の2文節読み長が、読み文字列の区切り長
さ(最初に現われる句読点・記号までの長さ)と同じ場
合は、以下の処理を行なわないので、この時点での最尤
候補を、第1文節として決定する。
中にあると予側して、上位10候補のみを蓄積する。ただ
し、最尤候補の2文節読み長が、読み文字列の区切り長
さ(最初に現われる句読点・記号までの長さ)と同じ場
合は、以下の処理を行なわないので、この時点での最尤
候補を、第1文節として決定する。
step4;蓄積した各候補に対して、次文節を前記step1の
処理と同じ2文節単位で解析し、上位10候補を蓄積す
る。
処理と同じ2文節単位で解析し、上位10候補を蓄積す
る。
step5;上述の処理によって蓄積した最初の2文節につい
て、それぞれの候補の確からしさを独立の証拠として扱
って演算処理を行う。本発明では、現在次に示す演算処
理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度、第3付属部の尤度、句読点
区切りからの尤度) step6;上述の尤度演算の結果より、尤度が最高値の候補
の第1文節を最初の1文節として決定する。
て、それぞれの候補の確からしさを独立の証拠として扱
って演算処理を行う。本発明では、現在次に示す演算処
理を行なっている。候補の尤度=Σ(第1自立部の尤
度、第1付属部の尤度、第2自立部の尤度、第2付属部
の尤度、第3自立部の尤度、第3付属部の尤度、句読点
区切りからの尤度) step6;上述の尤度演算の結果より、尤度が最高値の候補
の第1文節を最初の1文節として決定する。
なお、入力が漢字かな混じり文であっても、第7図の
step1の処理を漢字かな混じり文に対して実施し、2文
節を抽出し、尤度を与えることで実現できる。
step1の処理を漢字かな混じり文に対して実施し、2文
節を抽出し、尤度を与えることで実現できる。
以上、本発明の実施例では、候補の尤らしさを、第1
自立部の尤度、第1付属部の尤度、第2自立部の尤度、
第2付属部の尤度、第3自立部の尤度、を用いて判断す
る例と、更に、第3付属部の尤度をも用いて判断する例
を示したが、最初の1.5文節の尤度と次の1.5文節の尤度
とを総和して判断しても、最初の2文節の尤度と次の2
文節の尤度とを総和して判断してももちろんよい。ま
た、この合成演算部がD−S演算の場合はもちろん、そ
のほかの演算方法であっても本発明における技術思想の
範囲内である。また、候補抽出部において最初の2文節
に続く1.5文節、または2文節を抽出して、候補評価部
において評価を行って尤らしさを与え、合成演算部でこ
れらの尤らしさを合成して最初の1文節を最尤候補とし
て決定する等、複数文節を対象にする場合も本発明に含
まれる。
自立部の尤度、第1付属部の尤度、第2自立部の尤度、
第2付属部の尤度、第3自立部の尤度、を用いて判断す
る例と、更に、第3付属部の尤度をも用いて判断する例
を示したが、最初の1.5文節の尤度と次の1.5文節の尤度
とを総和して判断しても、最初の2文節の尤度と次の2
文節の尤度とを総和して判断してももちろんよい。ま
た、この合成演算部がD−S演算の場合はもちろん、そ
のほかの演算方法であっても本発明における技術思想の
範囲内である。また、候補抽出部において最初の2文節
に続く1.5文節、または2文節を抽出して、候補評価部
において評価を行って尤らしさを与え、合成演算部でこ
れらの尤らしさを合成して最初の1文節を最尤候補とし
て決定する等、複数文節を対象にする場合も本発明に含
まれる。
効果 以上の説明から明らかなように、本発明によると、1
文節に続く自立部含んで1.5文節または2文節での尤ら
しさを階層的に合成することにより、最初の文節候補の
尤らしさを正しく判断できるようになった。
文節に続く自立部含んで1.5文節または2文節での尤ら
しさを階層的に合成することにより、最初の文節候補の
尤らしさを正しく判断できるようになった。
第1図は、本発明による自然言語処理方式の一実施例を
説明するための構成図、第2図,第6図は、候補抽出部
の具体例を示す図、第3図は、句読点を一つの自立語と
みなして、1.5文節の合成演算を実施する場合のフロー
チャート、第4図は、読み文字列を句読点で区切った
後、解析を実施する場合のフローチャート、第5図は、
読み文字列から句読点を除いた後、解析を実施する場合
のフローチャート、第7図は、句読点を一つの自立語と
みなして、2文節の合成演算を実施する場合のフローチ
ャート、第8図は、読み文字列を句読点で区切った後、
解析を実施する場合のフローチャート、第9図は、読み
文字列から句読点を除いた後、解析を実施する場合のフ
ローチャートである。 1……入力部、2……解析処理部、3……候補抽出部、
4……辞書検索部、5……辞書、6……候補評価部、7
……合成演算部、8……出力部。
説明するための構成図、第2図,第6図は、候補抽出部
の具体例を示す図、第3図は、句読点を一つの自立語と
みなして、1.5文節の合成演算を実施する場合のフロー
チャート、第4図は、読み文字列を句読点で区切った
後、解析を実施する場合のフローチャート、第5図は、
読み文字列から句読点を除いた後、解析を実施する場合
のフローチャート、第7図は、句読点を一つの自立語と
みなして、2文節の合成演算を実施する場合のフローチ
ャート、第8図は、読み文字列を句読点で区切った後、
解析を実施する場合のフローチャート、第9図は、読み
文字列から句読点を除いた後、解析を実施する場合のフ
ローチャートである。 1……入力部、2……解析処理部、3……候補抽出部、
4……辞書検索部、5……辞書、6……候補評価部、7
……合成演算部、8……出力部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 大呂 延幸 鳥取県鳥取市南隅342番地 リコー鳥取 技術開発株式会社内 (56)参考文献 特開 昭61−184678(JP,A) 特開 昭60−189069(JP,A) 特開 昭62−165267(JP,A) 特開 昭61−190657(JP,A) 電子通信学会誌 66巻 9号 (昭和 58年9月) 第900頁〜903頁 (58)調査した分野(Int.Cl.6,DB名) G06F 17/21 - 17/26 JICSTファイル(JOIS)
Claims (2)
- 【請求項1】少なくとも読みを表わす仮名文字列および
それに対応する表記の情報を保持する単語辞書と、変換
すべき対象仮名文字列を元に該単語辞書の読みを表わす
仮名文字列を検索する辞書検索手段と、検索された単語
を用いて表記文字列の候補を抽出する候補抽出手段と、
該抽出された前後の単語間の接続の可否を判定する手段
と、前記抽出された単語の候補より出力する単語表記を
決定するために複数の証拠を基本確率として与えデンプ
スターシェーファーの理論に基づいて合成演算する手段
と、少なくとも単語の読みの長さ、単語の頻度を証拠の
一つとする手段と、単語間の接続が可能な並びから少な
くとも第1文節と第2文節の並びとなる候補を抽出する
手段と、前記デンプスターシェーファーの理論に基づい
て合成演算した結果の尤度と確度により第1文節を決定
する手段とを備えてかな漢字変換処理を行うことを特徴
とする自然言語処理方式。 - 【請求項2】少なくとも読みを表わす仮名文字列および
それに対応する表記の情報を保持する単語辞書と、変換
すべき対象仮名文字列を元に該単語辞書の読みを表わす
仮名文字列を検索する辞書検索手段と、検索された単語
を用いて表記文字列の候補を抽出する候補抽出手段と、
該抽出された前後の単語間の接続の可否を判定する手段
と、前記抽出された単語の候補より出力する単語表記を
決定するために複数の証拠を基本確率として与えデンプ
スターシェーファーの理論に基づいて合成演算する手段
と、少なくとも単語の読みの長さ、単語の頻度を証拠の
一つとする手段と、単語間の接続が可能な並びから少な
くとも第1文節と第2文節の並びとなる候補を抽出する
手段と、前記デンプスターシェーファーの理論に基づい
て合成演算した結果の尤度と確度により第1文節を決定
するか、あるいは更に別の証拠を加えて合成演算を続け
るかの判定を行う判定手段とを備えてかな漢字変換処理
を行うことを特徴とする自然言語処理方式。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17147389 | 1989-07-03 | ||
JP1-171473 | 1989-07-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03129458A JPH03129458A (ja) | 1991-06-03 |
JP2798747B2 true JP2798747B2 (ja) | 1998-09-17 |
Family
ID=15923758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1301177A Expired - Lifetime JP2798747B2 (ja) | 1989-07-03 | 1989-11-20 | 自然言語処理方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2798747B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60189069A (ja) * | 1984-03-08 | 1985-09-26 | Matsushita Electric Ind Co Ltd | かな漢字変換装置 |
JPS61184678A (ja) * | 1985-02-12 | 1986-08-18 | Ricoh Co Ltd | カナ漢字変換処理装置 |
JPS61190657A (ja) * | 1985-02-20 | 1986-08-25 | Hitachi Ltd | 日本語文字列認定方式 |
JPS62165267A (ja) * | 1986-01-17 | 1987-07-21 | Ricoh Co Ltd | 音声ワ−ドプロセツサ装置 |
-
1989
- 1989-11-20 JP JP1301177A patent/JP2798747B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
電子通信学会誌 66巻 9号 (昭和58年9月) 第900頁〜903頁 |
Also Published As
Publication number | Publication date |
---|---|
JPH03129458A (ja) | 1991-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100630886B1 (ko) | 문자 스트링 식별 | |
US6178396B1 (en) | Word/phrase classification processing method and apparatus | |
JP3950535B2 (ja) | データ処理方法及び装置 | |
JP5167546B2 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
JP5130892B2 (ja) | 文字符号化処理方法及びシステム | |
US20070055662A1 (en) | Method and apparatus for learning, recognizing and generalizing sequences | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN111695343A (zh) | 错词纠正方法、装置、设备及存储介质 | |
US20030204396A1 (en) | Sentence recognition device, sentence recognition method, program, and medium | |
Xafopoulos et al. | Language identification in web documents using discrete HMMs | |
WO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN113380223A (zh) | 多音字消歧方法、装置、系统及存储介质 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
CN117292680A (zh) | 一种基于小样本合成的输电运检的语音识别的方法 | |
KR20000039018A (ko) | 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 | |
JP2798747B2 (ja) | 自然言語処理方式 | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
CN115146630B (zh) | 基于专业领域知识的分词方法、装置、设备及存储介质 | |
JP2010009329A (ja) | 文字列変換を行う情報処理装置、文字列変換方法、プログラム、および情報処理システム | |
KR100347055B1 (ko) | 한국어 형태소 분석방법 | |
JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
JP3001334B2 (ja) | 認識用言語処理装置 | |
JP2798683B2 (ja) | 自然言語処理システム | |
JP3339879B2 (ja) | 文字認識装置 |