JP3983000B2 - 複合語分割装置、及び日本語辞書作成装置 - Google Patents
複合語分割装置、及び日本語辞書作成装置 Download PDFInfo
- Publication number
- JP3983000B2 JP3983000B2 JP2001052637A JP2001052637A JP3983000B2 JP 3983000 B2 JP3983000 B2 JP 3983000B2 JP 2001052637 A JP2001052637 A JP 2001052637A JP 2001052637 A JP2001052637 A JP 2001052637A JP 3983000 B2 JP3983000 B2 JP 3983000B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- compound
- division
- character
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、複合語分割装置、及び日本語辞書作成装置に関し、より詳細には、日本語文書中に含まれる単語の認識・抽出結果を利用する文書処理装置に広く応用可能な、日本語の漢字複合語を分割するための複合語分割装置、及び日本語辞書作成装置に関する。
【0002】
【従来の技術】
日本語文書を対象に、検索,情報抽出,音声合成等の処理を行う場合には、日本語文書を形態素に分割する形態素解析処理を行うことが多い。形態素解析処理では、あらかじめ形態素(単語)を格納した日本語辞書に基づいて処理を行うが、複数の形態素が連接した複合名詞等の複合語を分割するには、大規模な日本語辞書が必要であり、その開発・保守は容易ではない。
【0003】
一方で、漢字複合語は、専門性、特殊性が高く、情報の価値が高いことから、漢字複合語を適切に分割する必要性が高まっている。
一般の漢字複合語は、語基と呼ばれる2文字漢字と接頭辞,接尾辞の1文字漢字とからなるまとまり(以下、「基本単語」と呼ぶ)の連接として次のように表現される。
{(接頭辞)*語基(接尾辞)*}*
ここで、′(X)*′で′X′の0回以上の繰返し、′{X}*′で′X′の1回以上の繰返しを示す。
【0004】
例えば、「対共産圏輸出統制委員会」は、次のような構成と見ることができる。
対.共産.圏|輸出|統制|委員.会
ここで、′|′は基本単語の切れ目、基本単語内の′.′は接頭辞又は接尾辞の切れ目を示す。
【0005】
こうした分割を行う方法として、特開平7−262191号公報には、単語分割方法、および音声合成装置が記載されている。これは、形態素解析の複数の単語分割仮説候補に対して、分割単語間の接続確率を参照して最適な分割を得る方法であるが、形態素解析を前提にしているため、人手開発による日本語辞書が必要となる上に、分割単語間の接続確率という膨大なデータが必要である。
【0006】
辞書を用いない方法としては、1文字漢字の接頭辞性、接尾辞性のリストとそれを参照する少数の分割ヒューリスティック規則によるBUNCUTアルゴリズム(「国語辞書の記憶と日本語文の自動分割[長尾他;情報処理,Vo.19,No.6,1978]」)がある。しかし、このアルゴリズムによる方法は、長い漢字列に対しては失敗が多く、結局は、辞書を用いて分割し、分割できなかった部分に対して、適用するように改訂しており、日本語辞書を前提とすることになっている。
【0007】
「統計的手法による漢字複合語の自動分割[武田,藤崎;情報処理学会論文誌,Vol28,No.9,1987]」は、語基第1文字、同第2文字、接頭辞、接尾辞の4種類の文字種別と漢字の組を状態として、文字の状態遷移確率に基づくマルコフモデルを仮定し、最適パスにより分割を得る方法である。この方法は辞書を用意する必要はないが、遷移確率を得るために、漢字文字列に上記の4種類の文字種を割り当てた膨大な正解データを必要とするため、容易には実現できない。
【0008】
「辞書を使わない日本語専門用語の自動分割[森脇他;言語処理学会第2回年次大会発表論文集,1996年]」は、初期状態として、専門用語だけからなる要素語リストを用意し、以降、要素語リスト中の2つの要素語間の共通文字列の差分文字列を新たに要素語リストに加えていくことにより要素語辞書を自動作成して、これを用いて分割するものである。この方法は、2つの要素語を網羅的に比較する必要があり、処理コストが極めて高く、大きな専門用語リストに適用することは難しい。
【0009】
「Inforium : A user-friendly document retrieval system [Ogawa et al.;Workshop on Information Retrieval with Oriental Language,1996年]」では、1文字漢字の単語頭出現確率と単語末出現確率を得ておき、各文字境界における確率を両者の積により求め、閾値以上の確率で分割する方法を示している。この方法は、極めて容易であるが、1文字の統計であるので、2文字の語基を扱うのには、精度上無理が多い。
【0010】
「文字単位のbigram尺度に基づく複合漢字列の単位切り出し手法[影浦;言語処理学会第3回年次大会発表論文集,1997年]」は、2文字の漢字AとBに関し、「A−B」、「非A−B」、「A−非B」、「非A−非B」の4種類の文字列の頻度により尤度比検定の値をもって2文字組「A−B」の結合度として、3文字以上の文字列に対し、順次に弱い結合度の2文字組の境界で分割する。この方法では、接辞を考慮していないことから、1文字漢字の総数と同漢字が漢字列の先頭、末尾に現れる頻度を得ておき、これらに基づいたヒューリスティク規則により分割を変更することを加えている。この方法は、統計によるものの正解データが不要であり、辞書も必要とせず、2文字漢字の語基に対応できる2文字組によっているが、可能な2文字漢字列に対し、4種類の頻度を計数し、さらに尤度比検定をする必要があり、処理コストが高く、また、接辞対応のために、ヒューリスティック規則に頼らなくてならない問題がある。
【0011】
【発明が解決しようとする課題】
本発明は、上述のごとき実情に鑑みてなされたものであり、従来技術にあった、人手開発による辞書、大きな処理コスト、精度、ヒューリスティック等の課題を解決し、容易に高い精度で複合語を分割するための複合語分割装置、及び日本語辞書作成装置を提供することを目的とする。
【0012】
【課題を解決するための手段】
請求項1の発明は、日本語を入力する入力部と、日本語文字列をエントリとする辞書を記憶した記憶部と、前記入力部から入力された日本語の漢字列部分を、前記辞書を参照して複合語に分割する分割部と、を有する複合語分割装置において、前記辞書は、漢字2文字組の文字列が複合語の先頭に出現する複合語頭頻度及び複合語の末尾に出現する複合語末頻度を示す頻度情報を有し、前記分割部は、前記入力部から入力された日本語の漢字列部分における各文字境界に対し、前2文字組の複合語末頻度及び後2文字組の複合語頭頻度を前記辞書から取得し、該取得した複合語末頻度及び複合語頭頻度から、当該文字境界における、語基と接辞とからなるまとまりである基本単語の分割指標と接辞の分割指標とを算出し、該算出された各分割指標の値から基本単語の分割点及び接辞の分割点を判定し、前記漢字列部分を該分割点で分割することにより漢字語基と接辞とに分割し、前記基本単語の分割指標は、前記前2文字組の複合語末頻度と前記後2文字組の複合語頭頻度との間の平衡を示す指標であり、前記接辞の分割指標は、前記前2文字組の複合語末頻度と前記後2文字組の複合語頭頻度との間の偏りを示す指標であり、前記分割部は、前記基本単語の分割指標が大きな文字境界から順次分割点として判定し、前記接辞の分割指標の絶対値が大きな文字境界から順次分割点として判定することを特徴としたものである。
【0015】
請求項2の発明は、日本語を入力する入力部と、日本語文字列をエントリとする辞書を記憶した記憶部と、前記入力部から入力された日本語の漢字列部分を、前記辞書を参照して複合語に分割する分割部と、を有する複合語分割装置において、前記辞書は、漢字2文字組の文字列が複合語の先頭に出現する複合語頭頻度及び複合語の末尾に出現する複合語末頻度を示す頻度情報を有し、前記分割部は、前記入力部から入力された日本語の漢字列部分における各文字境界に対し、前2文字組の複合語末頻度及び後2文字組の複合語頭頻度を前記辞書から取得し、該取得した複合語末頻度及び複合語頭頻度からまず複合語末擬似確率及び複合語頭擬似確率を得て、該複合語末擬似確率及び該複合語頭擬似確率から、当該文字境界における、語基と接辞とからなるまとまりである基本単語の分割指標と接辞の分割指標とを算出し、該算出された各分割指標の値から基本単語の分割点及び接辞の分割点を判定し、前記漢字列部分を該分割点で分割することにより漢字語基と接辞とに分割し、前記複合語末擬似確率は、前記前2文字組の複合語末頻度を、前記前2文字組の複合語末頻度と前記後2文字組の複合語頭頻度との和で割った値とし、前記複合語頭擬似確率は、前記後2文字組の複合語頭頻度を、前記前2文字組の複合語末頻度と前記後2文字組の複合語頭頻度との和で割った値とし、前記基本単語の分割指標は、前記複合語末擬似確率と前記複合語頭擬似確率との間の平衡を示す指標であり、前記接辞の分割指標は、前記複合語末擬似確率と前記複合語頭擬似確率との間の偏りを示す指標であり、前記分割部は、前記基本単語の分割指標が大きな文字境界から順次分割点として判定し、前記接辞の分割指標の絶対値が大きな文字境界から順次分割点として判定することを特徴としたものである。
【0017】
請求項3の発明は、請求項2の発明において、前記辞書において、あらかじめ、各漢字2文字組について、前記複合語頭擬似確率及び前記複合語末擬似確率を設定しておくことを特徴としたものである。
【0020】
請求項4の発明は、請求項1乃至3のいずれか1記載の複合語分割装置を用い分割結果として得られた漢字語基と接辞とにより、日本語辞書を作成することを特徴とする日本語辞書作成装置である。
【0024】
【発明の実施の形態】
図1は、本発明の一実施形態に係る複合語分割装置の全体構成を示す図である。
本実施形態の複合語分割装置(以下、本装置と略す)は、入力手段1,CPU2,出力手段3,メモリ4,記憶手段5を備え、それらがバスで接続されているものとする。入力手段1は、本装置への対象単語を入力する場合に用い、CPU2は、本装置の各部(後述する単語分割部等)のプログラムを動作させる。メモリ4には、本装置の各部がCPU2によって実行されるときに一時的に作成される情報や各部のプログラム等が保持される。記憶手段5は、辞書、或いは本装置の出力結果、本装置の各部のプログラム等を保持している。出力手段3は、本装置からの出力結果などを表示させる場合に用いる。
【0025】
図2は、本発明の一実施形態に係る複合語分割装置の機能構成を示す図である。
本装置は、その機能構成として入力部(以下、単語入力部6という),分割部(以下、単語分割部7という),辞書8,単語分割結果出力部9を備えるものとする。単語入力部6は、分割対象となる日本語(日本語の単語)を入力し、入力された単語を単語分割部7に送る。単語分割部7は、辞書8を参照して、分割を行い分割結果を単語分割結果出力部9に送る。単語分割結果出力部9は、分割された単語を形式を整えて、表示或いはファイル等に出力する。
【0026】
図3は、本発明の一実施形態に係る複合語分割装置における処理の流れを説明するためのフロー図である。
本装置においては、まず対象単語の入力が行われ(ステップS1)、次に入力された単語に対し単語分割処理が施される(ステップS2)。最後に単語分割結果を出力して(ステップS3)、処理を終了する。
【0027】
ステップS1における対象単語の入力に関し、入力は、キーボード等の入力手段により入力してもよいし、ファイルに格納された対象単語リストから順次に取り出したり、或いは、別の形態素解析装置や漢字文字列抽出装置等から得られた複合語を渡す等してもよい。
以下、「対共産圏輸出統制委員会」が入力された例で説明を行う。
【0028】
ステップS2における単語分割処理では、漢字2文字組の辞書を参照する。この辞書は、あらかじめ、大規模な文書データベースから、漢字複合語を抽出し、その先頭2文字と末尾2文字の出現頻度の情報をもつ。なお、この辞書の作成方法については、単に漢字文字列を抜き出したり、字種の並びを利用して、小規模な辞書だけで動作する形態素解析系を利用して複合名詞を抜き出す等した後、先頭及び末尾の2文字組を集計することにより容易に自動作成でき、ここでは、特に説明しない。
【0029】
図4は、約120MB(新聞記事1年分)の文書データベースから自動作成した辞書の一部を抜粋して示した図である。図4では、漢字2文字組に対する複合語頭頻度(以下、単語頭頻度という)及び複合語末頻度(以下、単語末頻度という)を抜粋しており、これによれば、「共産」という漢字2文字組については、この2文字組が、複合語の先頭に1735回、末尾に217回、現れたことを示す。
【0030】
図5は、図3における単語分割処理を詳細に説明するためのフロー図である。この単語分割処理(ステップS2)は、本装置において最も主要な処理である。単語分割処理としては、初期化処理として、まず入力した単語の文字数を設定する(ステップS11)。ここでは単語文字数をNとする。その他の初期化処理としては、頻度情報配列(f[1,0],f[2,0]〜f[1,N],f[2,N])、単語分割指標配列(w[1,1],w[2,1]〜w[1,N−1],w[2,N−1])、分割識別子配列(c[1]〜c[N−1])をクリアする。次に、文字境界に頻度情報を設定し(ステップS12)、文字境界に基本単語分割指標を設定する(ステップS13)。最後に設定した基本単語分割指標による基本単語分割(Cut−W(1,N))を実行し(ステップS14)、単語分割主処理を終了する。
【0031】
以下、この処理を順に説明する。
ステップS11では、変数の初期化処理で、単語文字数を取得し、変数Nに設定するとともに、3種類の配列の単語文字数分ゼロクリアを行う。「対共産圏輸出統制委員会」では、単語文字数Nは「11」となる。
【0032】
以降、文字位置及び文字境界位置を導入するが、これらは、図6のように数えるのものとする。即ち、文字位置は対象単語中の文字の位置を前から順に数えた数で表し、文字境界位置は、文字間の位置をそのすぐ前に在る文字の位置の数で表す。なお、最初の文字境界位置は0で表す。
ステップS12は、対象単語の文字境界にその前の漢字2文字組の単語末頻度[i=1]、その後ろの漢字2文字組の単語頭頻度[i=2]を頻度格納用配列f[i,n](i=1,2,n=0〜N)に設定する処理である。
【0033】
図7は、図5における文字境界に頻度情報を設定する処理を詳細に説明するためのフロー図である。
文字境界に頻度情報を設定する処理では、対象単語の文字位置pを先頭(p=1)から1文字づつづらしながら(ステップS21,S26)、単語中の漢字2文字組(第p〜p+1番の文字列)を抽出し、辞書を検索して(ステップS23)、得られた頻度を設定する(ステップS25)。詳細には、まず文字位置pを1に設定し(ステップS21)、ステップS21,S26においてpがN未満の範囲でステップS23〜S25の処理を繰り返す。ステップS22においてpがNに達したらステップS12の処理を終了する。ステップS23においては、単語中の漢字2文字組(第p〜p+1番の文字列)を辞書から検索し、ステップS24において検索結果を判断し、検索が成功すればステップS25へ進む。ステップS25においては、検索により得られた頻度を設定する。例えば、第2文字目に位置付けた(P=2)場合の漢字2文字組の「共産」については、辞書検索により、その単語頭頻度が1735回、単語末頻度が217回と得られるので、「共産」前の第1文字「対」と第2文字「共」の境界(境界位置1)の単語頭頻度データとしてf[2,1]に1735を設定し、第3文字「産」と「共産」後の第4文字「圏」の境界(境界位置3)の単語末頻度データとしてf[1,3]に217を設定する。
【0034】
図8は、単語「対共産圏輸出統制委員会」に対し、各漢字2文字組の前と後ろに辞書により得られる単語頭頻度及び単語末頻度を示した図である。前述したように、「共産」の単語頭頻度として1735が、単語末頻度として217が得られており、その他の漢字2文字組に対しても同様に頻度データが得られている。ただし、対象単語中の漢字2文字組のうち、例えば、「圏輸」は辞書にないので、単語頭頻度、単語末頻度は各々初期値のゼロのままとなる。
【0035】
図9は、単語「対共産圏輸出統制委員会」に対し、単語の位置nに対する単語末頻度及び単語頭頻度f[i,n]を設定した表を示す図である。
ステップS12の処理が終了すると、図9のように単語の位置nに対する単語末頻度及び単語頭頻度f[i,n]が設定される。なお、f[1,0],f[2,11]は、ゼロが設定されているが、これは意味をもたない。
【0036】
ステップS13では、文字境界に設定された単語末頻度と単語頭頻度に基づき、基本単語分割指標を設定する。最も単純には、単語末頻度と単語頭頻度が大きい境界で分割されると考えられ、例えば、両頻度の相加平均(或いは和)や相乗平均(或いは積)が指標になると考えられる。
【0037】
また、接頭辞については、接頭辞の後ろの2文字組は単語頭であり、接頭辞を第2文字に含む2文字組は、単語末ではない。さらに、接尾辞については、接尾辞の前の2文字組は単語末であり、接尾辞を第1文字に含む2文字組は、単語頭ではない。これらのことから、境界の単語末頻度と単語頭頻度に偏りがあると考えられ、例えば、両頻度の差が指標になると考えられる。
【0038】
図10は、単語「対共産圏輸出統制委員会」に対し、基本単語分割の指標w[1,n]として両頻度の和、接辞分割の指標w[2,n]として両頻度の差(f[2,n]−f[1,n])を設定した表を示す図である。頻度差が、正の場合が接頭辞、負の場合は接尾辞になる。
【0039】
基本単語分割点を得る単純な頻度和は、接辞のない場合は、比較的問題ないが、接辞のある場合は、強い接辞(頻度が大きい接辞)と区別ができなくなる。また接辞分割点を得る頻度差は、接頭辞、接尾辞がわかるが、指標の大きさが不安定であるという問題がある。
【0040】
図11は、単語「対共産圏輸出統制委員会」に対し、基本単語分割指標に単語末頻度と単語頭頻度の相乗平均(両者の積の平方)、接辞分割指標に頻度差を頻度和で正規化して値を設定した表を示す図である。これによると、上記の問題が解消されていることがわかる。
【0041】
ステップS14では、上記の基本単語分割指標と接辞分割指標に基づいて、分割処理を行う。図11の指標を用いた分割の実際の概略を示すと次のようになる。
まず、基本単語分割指標の大きいものから、[W1]:「対共産圏輸出統制委員会」に対し、境界位置8で「対共産圏輸出統制」と「委員会」とに分割し、[W2]:「対共産圏輸出統制」に対し、境界位置6で「対共産圏輸出」と「統制」とに分割し、[W3]:「対共産圏輸出」に対し、境界位置4で「対共産圏」と「輸出」とに分割する。
【0042】
さらに、基本単語分割された「対共産圏」、「輸出」、「統制」、「委員会」については、接辞指標により、[P1]:「対共産圏」に対し、境界位置1で「対」(接頭辞)と「共産圏」とに分割し、[P2]:「共産圏」に対し、境界位置3で「共産」と「圏」(接尾辞)とに分割し、[P3]:「委員会」に対し、境界位置10で「委員」と「会」(接尾辞)とに分割する。ここで、前述したように、接辞指標は符号に意味があり、正が接頭辞、負が接尾辞となる。
【0043】
図12は基本単語分割指標による基本単語分割Cut−Wの処理を説明するためのフロー図、図13は接辞分割指標による接辞分割Cut−Pの処理を説明するためのフロー図である。図12及び図13を用いて上述の分割処理を説明する。
両分割処理とも対象文字列を最大の指標の境界を分割点にして2つの部分文字列に分割し、分割した両部分文字列に対して再帰的に処理を行う。分割においては、分割識別子c[k](k:分割境界番号)に識別データ(2:基本単語分割点,+1/−1:接頭/尾辞分割点)を設定する。
ただし、基本単語分割であるCut−Wは、先頭文字の後と末尾文字の手前は分割の対象にせず、4文字以上の文字列に対してしか分割を行わない。分割点がない、或いは、3文字以下になったら、接辞分割Cut−Pに移る。
接辞分割では、3文字以上の文字列に対して分割を行うが、接辞分割指標の正負により、接頭辞と接尾辞を識別する。ただし、文字列の前方側の境界が接尾辞分割である場合や、文字列の末尾側の境界が接頭辞分割である場合のように、位置と接辞種別が矛盾する場合は、分割点としない。
【0044】
境界位置n〜mの間にある文字からなる単語を分割するCut−W(n,m)の処理では、まず、ステップS31においてm−n+1≧4か否かを判断し、NOであればステップS40のCut−P(n,m)の処理へ進み、YESであればステップS32へ進む。ステップS32では、第n+1〜m−2番の文字境界のうち、単語分割指標が閾値以上で最大の境界(分割点)を検索する。ステップS33においてその検索の結果を判断し、検索が失敗であれば、ステップS40の処理へ進み、成功すればステップS34へ進む。分割点が第k番で検索が成功した場合、c[k]を2に設定し(ステップS34)、第k番の境界に対し、Cut−W(n,k)及びCut−W(k+1,m)を実行する(ステップS35)。ステップS36,S40が終了した時点で、Cut−W(n,m)の処理が終了する。
【0045】
ステップS40の処理を図13に沿って説明する。Cut−P(n,m)の処理は、まず、ステップS41においてm−n+1≧3か否かを判断し、NOであれば処理を終了し、YESであればステップS42へ進む。ステップS42では、第n〜m−1番の文字境界のうち、接辞分割指標が閾値以上で絶対値最大の境界(分割点)を検索(ただし、位置と接辞種別が矛盾しないこと)する。ステップS43においてその検索の結果を判断し、検索が失敗であれば処理を終了し、成功すればステップS44へ進む。分割点が第k番で検索が成功した場合、c[k]を+1/−1に設定し(ステップS44)、第k番の境界に対し、Cut−P(n,k)及びCut−P(k+1,m)を実行し(ステップS45)、処理を終了する。
【0046】
概略で示した[W1],[W2],[W3]の基本単語分割、[P1],[P2],[P3]の接辞分割の過程をより詳細に説明する。
図14は、図11の表を基本単語分割指標の最大値529である境界位置8で分割した表を示す図で、図14(A),(B)はそれぞれ、その前半,後半の表を示す図である。図15は、図14(A)の表を基本単語分割指標の最大値298.5である境界位置6で分割した表を示す図で、図15(A),(B)はそれぞれ、その前半,後半の表を示す図である。図16は、図15(A)の表を基本単語分割指標の最大値151.4である境界位置4で分割した表を示す図で、図16(A),(B)はそれぞれ、その前半,後半の表を示す図である。図17は、図16(A)の表を接辞分割指標の絶対値の最大値1である境界位置1で分割した表を示す図で、図17(A),(B)はそれぞれ、その前半,後半の表を示す図である。図18は、図17(B)の表を接辞分割指標の絶対値の最大値1である境界位置3で分割した表を示す図で、図18(A),(B)はそれぞれ、その前半,後半の表を示す図である。図19は、図14(B)の表を接辞分割指標の絶対値の最大値1である境界位置10で分割した表を示す図で、図19(A),(B)はそれぞれ、その前半,後半の表を示す図である。図20は、図11の表に分割識別子の欄を追加した表を示す図である。
【0047】
まず、[W1]は、対象単語全体の表(図11)から基本単語分割指標の最大値529である境界位置8で分割し、分割識別子c[8]には2を設定する。これにより、分割された各々の部分文字列に対して、再帰的に基本単語分割Cut−Wが行われ、図14(A),(B)のような2つの分割指標の表が想定される。
[W1]の前半の「対共産圏輸出統制」に対して、図14(A)の表の基本単語分割指標の最大値298.5である境界位置6で[W2]の分割がおき、分割識別子c[6]には2を設定する。これにより、分割された各々の部分文字列に対して、再帰的に基本単語分割Cut−Wが行われ、図15(A),(B)のような2つの分割指標の表が想定される。[W1]の後半の「委員会」は3文字列なので、基本単語分割処理Cut−Wの処理はただちに終了し、接辞分割処理Cut−Pに移る(図14(B)参照)。
【0048】
[W2]の前半の「対共産圏輸出」に対して、図15(A)の表の単語分割指標の最大値151.4である境界位置4で[W3]の分割がおき、分割識別子c[4]には2を設定する。これにより、分割された各々の部分文字列に対して、再帰的に基本単語分割Cut−Wが行われ、図16(A),(B)のような2つの分割指標の表が想定される。[W2]の後半の「統制」は2文字列なので、単語分割処理Cut−Wの処理はただちに終了し、また、接辞分割処理Cut−Pに移るが、これもただちに終了する(図15(B)参照)。
【0049】
[W3]の前半の「対共産圏」に対して、図16(A)の表の単語分割指標では、すべて0なので、単語分割処理Cut−Wは終了し、接辞分割処理Cut−Pに移る。[W3]の後半の「輸出」は2文字列なので、単語分割処理Cut−Wの処理はただちに終了し、また、接辞分割処理Cut−Pに移るが、これもただちに終了する(図16(B)参照)。
【0050】
「対共産圏」の接辞分割処理は、図16(A)の表の接辞分割指標の絶対値が最大の境界位置は1(接頭辞分割)と3(接尾辞分割)の2つある。いずれも、接辞の種別と位置との矛盾はなく、いずれも選択は可能だが、番号の若い1で[P1]の接辞分割を行い、分割識別子c[1]には接頭辞の識別子+1を設定する。これにより、分割された各々の部分文字列に対して、再帰的に接辞分割Cut−Pが行われ、図17(A),(B)のような2つの分割指標の表が想定される。
【0051】
[P1]の前半の「対」は、接辞分割処理Cut−Pはただちに終了する(図17(A)参照)。[P1]の後半の「共産圏」の接辞分割処理は、図17(B)の表の接辞分割指標の絶対値が最大の境界位置は上記分割でのもう一方の3(接尾辞分割)であり、[P2]の分割を行い、分割識別子c[3]には接尾辞の識別子−1を設定する。これにより、分割された各々の部分文字列に対して、再帰的に接辞分割Cut−Pが行われ、図18(A),(B)のような2つの分割指標の表が想定される。
[P2]の前半の「共産」及び後半の「圏」ともに、2文字以下なので、接辞分割処理Cut−Pは終了する。
【0052】
残る[W1]の後半の「委員会」の接辞分割処理については、図14(B)の表の接辞分割指標の絶対値が最大の境界位置10により、[P3]の接辞分割を行うことができ、分割識別子c[10]に接尾辞の識別子−1を設定する。これにより、分割された各々の部分文字列に対して、再帰的に接辞分割Cut−Pが行われ、図19(A),(B)のような2つの分割指標の表が想定される。
[P3]の前半の「委員」及び後半の「会」ともに、2文字以下なので、接辞分割処理Cut−Pは終了する。
以上により、ステップS14が終了し、分割識別子c[n]の可能な設定が行われている。図11の表に分割識別子の欄を追加した図20を示す。
【0053】
次にステップS3における単語分割結果の出力について説明する。
分割識別子により、前述のように、例えば、基本単語分割点を′|′、接辞分割点を′.′で表わすと以下のような出力表現ができる。
対.共産.圏|輸出|統制|委員.会
【0054】
また、次のように、語基、接頭辞、接尾辞を認識・認識し、出力することができる。
語基 :共産 輸出 統制 委員
接頭辞:対
接尾辞:圏 会
【0055】
以上、単語末頻度と単語頭頻度の和或いは相乗平均、差或いは正規化差を用いた分割の実施例を示したが、以下に別の実施例として、擬似的な単語末(複合語末)確率と単語頭(複合語頭)確率を用いた例を示す。
図21は、擬似的な単語末確率と単語頭確率、及び単語分割指標としてこれらの確率の積、接辞分割指標としてこれらの正規化差、そして、この指標による分割識別子を設定した表を示す図である。分割結果は同じになっている。ここで、擬似的な単語末確率と単語頭確率は、単語末頻度と単語頭頻度を各々、両頻度の和で割った値をいう。これにより、頻度が極端に大きいものと小さいものによる影響を減らすことができる。なお、対象とする漢字2文字列の総頻度を得るところを単語末頻度と単語頭頻度の和で替えたので、「擬似的」と呼ぶ。
【0056】
この擬似的確率による指標は、頻度によるとうまく分割できない次のような困難な例も正しく分割できる。
図22乃至図25は、2単語の頻度による場合と擬似的確率による場合の分割指標の表を示す図であり、図22は単語「永野茂門前法相発言」に対し、2単語の頻度による場合の分割指標の表を示す図、図23は図22の2単語の頻度による場合と比較するための、擬似的確率による場合の分割指標の表を示す図、図24は単語「山梨県中巨摩郡玉穂町」に対し、2単語の頻度による場合の分割指標の表を示す図、図25は図24の2単語の頻度による場合と比較するための、擬似的確率による場合の分割指標の表を示す図である。
【0057】
図22乃至図25に示すように、対象単語が「永野茂門前法相発言」、「山梨県中巨摩郡玉穂町」である場合、頻度による分割では、「永野.茂|門前|法相|発言」、「山梨|県中.巨摩.郡|玉穂町」となるのに対し、擬似確率による分割では、永野|茂門|前.法相|発言」、「山梨.県|中.巨摩.郡|玉穂町」となり、正しく分割できているのがわかる。
【0058】
図26は、図4に代わる辞書の例を示す図である。
擬似的な単語末/頭確率を用いる場合、あらかじめ計算しておくことができるので、図26のように辞書に頻度とともに、或いは確率のみを格納しておいてもよい。
【0059】
本発明としては、前述したように、複合語分割装置によって、語基、接頭辞、接尾辞が得られるので、これらを集計することにより、日本語辞書を作成、或いは語彙の追加を行う日本語辞書作成装置としての形態も可能である。
【0060】
本発明は、上記複合語分割装置或いは日本語辞書作成装置の各実施例で説明した実施形態のみに限定されたものではない。本発明は、さらに上記複合語分割装置或いは日本語辞書作成装置の各実施形態において処理の流れを説明したように、その流れとしての複合語分割方法或いは日本語辞書作成方法としての形態も可能である。さらに、図2に示した複合語分割装置或いは日本語辞書作成装置を構成する各部の機能をプログラム化した形態や、そのプログラムをあらかじめCD−ROM等の記録媒体に書き込んでおき、このCD−ROMをCD−ROMドライブを搭載したコンピュータに装着して、コンピュータへそのプログラムをロードすることによって、実施例の実施形態と同様な機能を実現することができる。
【0061】
【発明の効果】
本発明によれば、従来技術で課題であった、人手での開発による辞書、大きな処理コスト、精度、ヒューリスティック等の課題を解決し、容易に高い精度で複合語を分割することができる。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係る複合語分割装置の全体構成を示す図である。
【図2】 本発明の一実施形態に係る複合語分割装置の機能構成を示す図である。
【図3】 本発明の一実施形態に係る複合語分割装置における処理の流れを説明するためのフロー図である。
【図4】 約120MB(新聞記事1年分)の文書データベースから自動作成した辞書の一部を抜粋して示した図である。
【図5】 図3における単語分割処理を詳細に説明するためのフロー図である。
【図6】 文字位置及び文字境界位置を説明するための図である。
【図7】 図5における文字境界に頻度情報を設定する処理を詳細に説明するためのフロー図である。
【図8】 単語「対共産圏輸出統制委員会」に対し、各漢字2文字組の前と後ろに辞書により得られる単語頭頻度及び単語末頻度を示した図である。
【図9】 単語「対共産圏輸出統制委員会」に対し、単語の位置にnに対する単語末頻度及び単語頭頻度f[i,n]を設定した表を示す図である。
【図10】 単語「対共産圏輸出統制委員会」に対し、基本単語分割の指標w[1,n]として両頻度の和、接辞分割の指標w[2,n]として両頻度の差(f[2,n]−f[1,n])を設定した表を示す図である。
【図11】 単語「対共産圏輸出統制委員会」に対し、基本単語分割指標に単語末頻度と単語頭頻度の相乗平均(両者の積の平方)、接辞分割指標に頻度差を頻度和で正規化して値を設定した表を示す図である。
【図12】 基本単語分割指標による基本単語分割Cut−Wの処理を説明するためのフロー図である。
【図13】 接辞分割指標による接辞分割Cut−Pの処理を説明するためのフロー図である。
【図14】 図11の表を基本単語分割指標の最大値529である境界位置8で分割した表を示す図で、図14(A),(B)はそれぞれ、その前半,後半の表を示す図である。
【図15】 図14(A)の表を基本単語分割指標の最大値298.5である境界位置6で分割した表を示す図で、図15(A),(B)はそれぞれ、その前半,後半の表を示す図である。
【図16】 図15(A)の表を基本単語分割指標の最大値151.4である境界位置4で分割した表を示す図で、図16(A),(B)はそれぞれ、その前半,後半の表を示す図である。
【図17】 図16(A)の表を接辞分割指標の絶対値の最大値1である境界位置1で分割した表を示す図で、図17(A),(B)はそれぞれ、その前半,後半の表を示す図である。
【図18】 図17(B)の表を接辞分割指標の絶対値の最大値1である境界位置3で分割した表を示す図で、図18(A),(B)はそれぞれ、その前半,後半の表を示す図である。
【図19】 図14(B)の表を接辞分割指標の絶対値の最大値1である境界位置10で分割した表を示す図で、図19(A),(B)はそれぞれ、その前半,後半の表を示す図である。
【図20】 図11の表に分割識別子の欄を追加した表を示す図である。
【図21】 擬似的な単語末確率と単語頭確率、及び単語分割指標としてこれらの確率の積、接辞分割指標としてこれらの正規化差、そして、この指標による分割識別子を設定した表を示す図である。
【図22】 単語「永野茂門前法相発言」に対し、2単語の頻度による場合の分割指標の表を示す図である。
【図23】 図22の2単語の頻度による場合と比較するための、擬似的確率による場合の分割指標の表を示す図である。
【図24】 単語「山梨県中巨摩郡玉穂町」に対し、2単語の頻度による場合の分割指標の表を示す図である。
【図25】 図24の2単語の頻度による場合と比較するための、擬似的確率による場合の分割指標の表を示す図である。
【図26】 図4に代わる辞書の例を示す図である。
【符号の説明】
1…入力手段、2…CPU、3…出力手段、4…メモリ、5…記憶手段、6…単語入力部、7…単語分割部、8…辞書、9…単語分割結果出力部。
Claims (4)
- 日本語を入力する入力部と、日本語文字列をエントリとする辞書を記憶した記憶部と、前記入力部から入力された日本語の漢字列部分を、前記辞書を参照して複合語に分割する分割部と、を有する複合語分割装置において、
前記辞書は、漢字2文字組の文字列が複合語の先頭に出現する複合語頭頻度及び複合語の末尾に出現する複合語末頻度を示す頻度情報を有し、
前記分割部は、前記入力部から入力された日本語の漢字列部分における各文字境界に対し、前2文字組の複合語末頻度及び後2文字組の複合語頭頻度を前記辞書から取得し、該取得した複合語末頻度及び複合語頭頻度から、当該文字境界における、語基と接辞とからなるまとまりである基本単語の分割指標と接辞の分割指標とを算出し、該算出された各分割指標の値から基本単語の分割点及び接辞の分割点を判定し、前記漢字列部分を該分割点で分割することにより漢字語基と接辞とに分割し、
前記基本単語の分割指標は、前記前2文字組の複合語末頻度と前記後2文字組の複合語頭頻度との間の平衡を示す指標であり、前記接辞の分割指標は、前記前2文字組の複合語末頻度と前記後2文字組の複合語頭頻度との間の偏りを示す指標であり、
前記分割部は、前記基本単語の分割指標が大きな文字境界から順次分割点として判定し、前記接辞の分割指標の絶対値が大きな文字境界から順次分割点として判定することを特徴とする複合語分割装置。 - 日本語を入力する入力部と、日本語文字列をエントリとする辞書を記憶した記憶部と、前記入力部から入力された日本語の漢字列部分を、前記辞書を参照して複合語に分割する分割部と、を有する複合語分割装置において、
前記辞書は、漢字2文字組の文字列が複合語の先頭に出現する複合語頭頻度及び複合語の末尾に出現する複合語末頻度を示す頻度情報を有し、
前記分割部は、前記入力部から入力された日本語の漢字列部分における各文字境界に対し、前2文字組の複合語末頻度及び後2文字組の複合語頭頻度を前記辞書から取得し、該取得した複合語末頻度及び複合語頭頻度からまず複合語末擬似確率及び複合語頭擬似確率を得て、該複合語末擬似確率及び該複合語頭擬似確率から、当該文字境界における、語基と接辞とからなるまとまりである基本単語の分割指標と接辞の分割指標とを算出し、該算出された各分割指標の値から基本単語の分割点及び接辞の分割点を判定し、前記漢字列部分を該分割点で分割することにより漢字語基と接辞とに分割し、
前記複合語末擬似確率は、前記前2文字組の複合語末頻度を、前記前2文字組の複合語末頻度と前記後2文字組の複合語頭頻度との和で割った値とし、前記複合語頭擬似確率は、前記後2文字組の複合語頭頻度を、前記前2文字組の複合語末頻度と前記後2文字組の複合語頭頻度との和で割った値とし、
前記基本単語の分割指標は、前記複合語末擬似確率と前記複合語頭擬似確率との間の平衡を示す指標であり、前記接辞の分割指標は、前記複合語末擬似確率と前記複合語頭擬似確率との間の偏りを示す指標であり、
前記分割部は、前記基本単語の分割指標が大きな文字境界から順次分割点として判定し、前記接辞の分割指標の絶対値が大きな文字境界から順次分割点として判定することを特徴とする複合語分割装置。 - 前記辞書において、あらかじめ、各漢字2文字組について、前記複合語頭擬似確率及び前記複合語末擬似確率を設定しておくことを特徴とする請求項2記載の複合語分割装置。
- 請求項1乃至3のいずれか1記載の複合語分割装置を用い分割結果として得られた漢字語基と接辞とにより、日本語辞書を作成することを特徴とする日本語辞書作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001052637A JP3983000B2 (ja) | 2001-02-27 | 2001-02-27 | 複合語分割装置、及び日本語辞書作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001052637A JP3983000B2 (ja) | 2001-02-27 | 2001-02-27 | 複合語分割装置、及び日本語辞書作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002259370A JP2002259370A (ja) | 2002-09-13 |
JP3983000B2 true JP3983000B2 (ja) | 2007-09-26 |
Family
ID=18913242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001052637A Expired - Fee Related JP3983000B2 (ja) | 2001-02-27 | 2001-02-27 | 複合語分割装置、及び日本語辞書作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3983000B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8429243B1 (en) | 2007-12-13 | 2013-04-23 | Google Inc. | Web analytics event tracking system |
US8307101B1 (en) | 2007-12-13 | 2012-11-06 | Google Inc. | Generic format for storage and query of web analytics data |
DE202008018638U1 (de) | 2007-12-13 | 2017-01-31 | Google Inc. | Generisches Format für die effiziente Übertragung von Daten |
JP2014067179A (ja) * | 2012-09-25 | 2014-04-17 | Toshiba Corp | 文書処理装置及び文書処理プログラム |
JP5979650B2 (ja) | 2014-07-28 | 2016-08-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
JP6763967B2 (ja) * | 2016-11-30 | 2020-09-30 | 株式会社日立製作所 | データ変換装置とデータ変換方法 |
-
2001
- 2001-02-27 JP JP2001052637A patent/JP3983000B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002259370A (ja) | 2002-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
JP6596517B2 (ja) | 口語語義解析システム及び方法 | |
Sawaf et al. | Statistical classification methods for Arabic news articles | |
EP0415000B1 (en) | Method and apparatus for spelling error detection and correction | |
US6738741B2 (en) | Segmentation technique increasing the active vocabulary of speech recognizers | |
JP2001034623A (ja) | 情報検索方法と情報検索装置 | |
US6876963B1 (en) | Machine translation method and apparatus capable of automatically switching dictionaries | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JP4502114B2 (ja) | データベース検索装置 | |
JP3983000B2 (ja) | 複合語分割装置、及び日本語辞書作成装置 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
Luján-Mora et al. | Reducing inconsistency in integrating data from different sources | |
Elbarougy et al. | A proposed natural language processing preprocessing procedures for enhancing arabic text summarization | |
JP3396734B2 (ja) | コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 | |
JP4015661B2 (ja) | 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 | |
JP2792147B2 (ja) | 文字処理方法およびその装置 | |
JPH0750486B2 (ja) | キ−ワ−ド抽出装置 | |
JP3627850B2 (ja) | 文書検索装置 | |
CN116226362B (zh) | 一种提升搜索医院名称准确度的分词方法 | |
JP2001051996A (ja) | 形態素解析方法及び装置及び形態素解析プログラムを格納した記憶媒体 | |
JP3935374B2 (ja) | 辞書構築支援方法、装置及びプログラム | |
Yamashita et al. | A Comparison of Entity Matching Methods between English and Japanese Katakana | |
JP2001051992A (ja) | 日本語統計データ作成装置および方法、並びにディクテーションシステム | |
JP2001067356A (ja) | 語彙獲得方法、語彙獲得装置及び語彙獲得プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070320 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070703 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100713 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110713 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120713 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120713 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130713 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |