JP3983000B2

JP3983000B2 - 複合語分割装置、及び日本語辞書作成装置

Info

Publication number: JP3983000B2
Application number: JP2001052637A
Authority: JP
Inventors: 雅之亀田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-02-27
Filing date: 2001-02-27
Publication date: 2007-09-26
Anticipated expiration: 2021-02-27
Also published as: JP2002259370A

Description

【０００１】
【発明の属する技術分野】
本発明は、複合語分割装置、及び日本語辞書作成装置に関し、より詳細には、日本語文書中に含まれる単語の認識・抽出結果を利用する文書処理装置に広く応用可能な、日本語の漢字複合語を分割するための複合語分割装置、及び日本語辞書作成装置に関する。
【０００２】
【従来の技術】
日本語文書を対象に、検索，情報抽出，音声合成等の処理を行う場合には、日本語文書を形態素に分割する形態素解析処理を行うことが多い。形態素解析処理では、あらかじめ形態素（単語）を格納した日本語辞書に基づいて処理を行うが、複数の形態素が連接した複合名詞等の複合語を分割するには、大規模な日本語辞書が必要であり、その開発・保守は容易ではない。
【０００３】
一方で、漢字複合語は、専門性、特殊性が高く、情報の価値が高いことから、漢字複合語を適切に分割する必要性が高まっている。
一般の漢字複合語は、語基と呼ばれる２文字漢字と接頭辞，接尾辞の１文字漢字とからなるまとまり（以下、「基本単語」と呼ぶ）の連接として次のように表現される。
｛（接頭辞）＊語基（接尾辞）＊｝＊
ここで、′（Ｘ）＊′で′Ｘ′の０回以上の繰返し、′｛Ｘ｝＊′で′Ｘ′の１回以上の繰返しを示す。
【０００４】
例えば、「対共産圏輸出統制委員会」は、次のような構成と見ることができる。
対．共産．圏｜輸出｜統制｜委員．会
ここで、′｜′は基本単語の切れ目、基本単語内の′．′は接頭辞又は接尾辞の切れ目を示す。
【０００５】
こうした分割を行う方法として、特開平７−２６２１９１号公報には、単語分割方法、および音声合成装置が記載されている。これは、形態素解析の複数の単語分割仮説候補に対して、分割単語間の接続確率を参照して最適な分割を得る方法であるが、形態素解析を前提にしているため、人手開発による日本語辞書が必要となる上に、分割単語間の接続確率という膨大なデータが必要である。
【０００６】
辞書を用いない方法としては、１文字漢字の接頭辞性、接尾辞性のリストとそれを参照する少数の分割ヒューリスティック規則によるＢＵＮＣＵＴアルゴリズム（「国語辞書の記憶と日本語文の自動分割［長尾他；情報処理，Ｖｏ．１９，Ｎｏ．６，１９７８］」）がある。しかし、このアルゴリズムによる方法は、長い漢字列に対しては失敗が多く、結局は、辞書を用いて分割し、分割できなかった部分に対して、適用するように改訂しており、日本語辞書を前提とすることになっている。
【０００７】
「統計的手法による漢字複合語の自動分割［武田，藤崎；情報処理学会論文誌，Ｖｏｌ２８，Ｎｏ．９，１９８７］」は、語基第１文字、同第２文字、接頭辞、接尾辞の４種類の文字種別と漢字の組を状態として、文字の状態遷移確率に基づくマルコフモデルを仮定し、最適パスにより分割を得る方法である。この方法は辞書を用意する必要はないが、遷移確率を得るために、漢字文字列に上記の４種類の文字種を割り当てた膨大な正解データを必要とするため、容易には実現できない。
【０００８】
「辞書を使わない日本語専門用語の自動分割［森脇他；言語処理学会第２回年次大会発表論文集，１９９６年］」は、初期状態として、専門用語だけからなる要素語リストを用意し、以降、要素語リスト中の２つの要素語間の共通文字列の差分文字列を新たに要素語リストに加えていくことにより要素語辞書を自動作成して、これを用いて分割するものである。この方法は、２つの要素語を網羅的に比較する必要があり、処理コストが極めて高く、大きな専門用語リストに適用することは難しい。
【０００９】
「Inforium : A user-friendly document retrieval system ［Ogawa et al.;Workshop on Information Retrieval with Oriental Language,1996年］」では、１文字漢字の単語頭出現確率と単語末出現確率を得ておき、各文字境界における確率を両者の積により求め、閾値以上の確率で分割する方法を示している。この方法は、極めて容易であるが、１文字の統計であるので、２文字の語基を扱うのには、精度上無理が多い。
【００１０】
「文字単位のｂｉｇｒａｍ尺度に基づく複合漢字列の単位切り出し手法［影浦；言語処理学会第３回年次大会発表論文集，１９９７年］」は、２文字の漢字ＡとＢに関し、「Ａ−Ｂ」、「非Ａ−Ｂ」、「Ａ−非Ｂ」、「非Ａ−非Ｂ」の４種類の文字列の頻度により尤度比検定の値をもって２文字組「Ａ−Ｂ」の結合度として、３文字以上の文字列に対し、順次に弱い結合度の２文字組の境界で分割する。この方法では、接辞を考慮していないことから、１文字漢字の総数と同漢字が漢字列の先頭、末尾に現れる頻度を得ておき、これらに基づいたヒューリスティク規則により分割を変更することを加えている。この方法は、統計によるものの正解データが不要であり、辞書も必要とせず、２文字漢字の語基に対応できる２文字組によっているが、可能な２文字漢字列に対し、４種類の頻度を計数し、さらに尤度比検定をする必要があり、処理コストが高く、また、接辞対応のために、ヒューリスティック規則に頼らなくてならない問題がある。
【００１１】
【発明が解決しようとする課題】
本発明は、上述のごとき実情に鑑みてなされたものであり、従来技術にあった、人手開発による辞書、大きな処理コスト、精度、ヒューリスティック等の課題を解決し、容易に高い精度で複合語を分割するための複合語分割装置、及び日本語辞書作成装置を提供することを目的とする。
【００１２】
【課題を解決するための手段】
請求項１の発明は、日本語を入力する入力部と、日本語文字列をエントリとする辞書を記憶した記憶部と、前記入力部から入力された日本語の漢字列部分を、前記辞書を参照して複合語に分割する分割部と、を有する複合語分割装置において、前記辞書は、漢字２文字組の文字列が複合語の先頭に出現する複合語頭頻度及び複合語の末尾に出現する複合語末頻度を示す頻度情報を有し、前記分割部は、前記入力部から入力された日本語の漢字列部分における各文字境界に対し、前２文字組の複合語末頻度及び後２文字組の複合語頭頻度を前記辞書から取得し、該取得した複合語末頻度及び複合語頭頻度から、当該文字境界における、語基と接辞とからなるまとまりである基本単語の分割指標と接辞の分割指標とを算出し、該算出された各分割指標の値から基本単語の分割点及び接辞の分割点を判定し、前記漢字列部分を該分割点で分割することにより漢字語基と接辞とに分割し、前記基本単語の分割指標は、前記前２文字組の複合語末頻度と前記後２文字組の複合語頭頻度との間の平衡を示す指標であり、前記接辞の分割指標は、前記前２文字組の複合語末頻度と前記後２文字組の複合語頭頻度との間の偏りを示す指標であり、前記分割部は、前記基本単語の分割指標が大きな文字境界から順次分割点として判定し、前記接辞の分割指標の絶対値が大きな文字境界から順次分割点として判定することを特徴としたものである。
【００１５】
請求項２の発明は、日本語を入力する入力部と、日本語文字列をエントリとする辞書を記憶した記憶部と、前記入力部から入力された日本語の漢字列部分を、前記辞書を参照して複合語に分割する分割部と、を有する複合語分割装置において、前記辞書は、漢字２文字組の文字列が複合語の先頭に出現する複合語頭頻度及び複合語の末尾に出現する複合語末頻度を示す頻度情報を有し、前記分割部は、前記入力部から入力された日本語の漢字列部分における各文字境界に対し、前２文字組の複合語末頻度及び後２文字組の複合語頭頻度を前記辞書から取得し、該取得した複合語末頻度及び複合語頭頻度からまず複合語末擬似確率及び複合語頭擬似確率を得て、該複合語末擬似確率及び該複合語頭擬似確率から、当該文字境界における、語基と接辞とからなるまとまりである基本単語の分割指標と接辞の分割指標とを算出し、該算出された各分割指標の値から基本単語の分割点及び接辞の分割点を判定し、前記漢字列部分を該分割点で分割することにより漢字語基と接辞とに分割し、前記複合語末擬似確率は、前記前２文字組の複合語末頻度を、前記前２文字組の複合語末頻度と前記後２文字組の複合語頭頻度との和で割った値とし、前記複合語頭擬似確率は、前記後２文字組の複合語頭頻度を、前記前２文字組の複合語末頻度と前記後２文字組の複合語頭頻度との和で割った値とし、前記基本単語の分割指標は、前記複合語末擬似確率と前記複合語頭擬似確率との間の平衡を示す指標であり、前記接辞の分割指標は、前記複合語末擬似確率と前記複合語頭擬似確率との間の偏りを示す指標であり、前記分割部は、前記基本単語の分割指標が大きな文字境界から順次分割点として判定し、前記接辞の分割指標の絶対値が大きな文字境界から順次分割点として判定することを特徴としたものである。
【００１７】
請求項３の発明は、請求項２の発明において、前記辞書において、あらかじめ、各漢字２文字組について、前記複合語頭擬似確率及び前記複合語末擬似確率を設定しておくことを特徴としたものである。
【００２０】
請求項４の発明は、請求項１乃至３のいずれか１記載の複合語分割装置を用い分割結果として得られた漢字語基と接辞とにより、日本語辞書を作成することを特徴とする日本語辞書作成装置である。
【００２４】
【発明の実施の形態】
図１は、本発明の一実施形態に係る複合語分割装置の全体構成を示す図である。
本実施形態の複合語分割装置（以下、本装置と略す）は、入力手段１，ＣＰＵ２，出力手段３，メモリ４，記憶手段５を備え、それらがバスで接続されているものとする。入力手段１は、本装置への対象単語を入力する場合に用い、ＣＰＵ２は、本装置の各部（後述する単語分割部等）のプログラムを動作させる。メモリ４には、本装置の各部がＣＰＵ２によって実行されるときに一時的に作成される情報や各部のプログラム等が保持される。記憶手段５は、辞書、或いは本装置の出力結果、本装置の各部のプログラム等を保持している。出力手段３は、本装置からの出力結果などを表示させる場合に用いる。
【００２５】
図２は、本発明の一実施形態に係る複合語分割装置の機能構成を示す図である。
本装置は、その機能構成として入力部（以下、単語入力部６という），分割部（以下、単語分割部７という），辞書８，単語分割結果出力部９を備えるものとする。単語入力部６は、分割対象となる日本語（日本語の単語）を入力し、入力された単語を単語分割部７に送る。単語分割部７は、辞書８を参照して、分割を行い分割結果を単語分割結果出力部９に送る。単語分割結果出力部９は、分割された単語を形式を整えて、表示或いはファイル等に出力する。
【００２６】
図３は、本発明の一実施形態に係る複合語分割装置における処理の流れを説明するためのフロー図である。
本装置においては、まず対象単語の入力が行われ（ステップＳ１）、次に入力された単語に対し単語分割処理が施される（ステップＳ２）。最後に単語分割結果を出力して（ステップＳ３）、処理を終了する。
【００２７】
ステップＳ１における対象単語の入力に関し、入力は、キーボード等の入力手段により入力してもよいし、ファイルに格納された対象単語リストから順次に取り出したり、或いは、別の形態素解析装置や漢字文字列抽出装置等から得られた複合語を渡す等してもよい。
以下、「対共産圏輸出統制委員会」が入力された例で説明を行う。
【００２８】
ステップＳ２における単語分割処理では、漢字２文字組の辞書を参照する。この辞書は、あらかじめ、大規模な文書データベースから、漢字複合語を抽出し、その先頭２文字と末尾２文字の出現頻度の情報をもつ。なお、この辞書の作成方法については、単に漢字文字列を抜き出したり、字種の並びを利用して、小規模な辞書だけで動作する形態素解析系を利用して複合名詞を抜き出す等した後、先頭及び末尾の２文字組を集計することにより容易に自動作成でき、ここでは、特に説明しない。
【００２９】
図４は、約１２０ＭＢ（新聞記事１年分）の文書データベースから自動作成した辞書の一部を抜粋して示した図である。図４では、漢字２文字組に対する複合語頭頻度（以下、単語頭頻度という）及び複合語末頻度（以下、単語末頻度という）を抜粋しており、これによれば、「共産」という漢字２文字組については、この２文字組が、複合語の先頭に１７３５回、末尾に２１７回、現れたことを示す。
【００３０】
図５は、図３における単語分割処理を詳細に説明するためのフロー図である。この単語分割処理（ステップＳ２）は、本装置において最も主要な処理である。単語分割処理としては、初期化処理として、まず入力した単語の文字数を設定する（ステップＳ１１）。ここでは単語文字数をＮとする。その他の初期化処理としては、頻度情報配列（ｆ［１，０］，ｆ［２，０］〜ｆ［１，Ｎ］，ｆ［２，Ｎ］）、単語分割指標配列（ｗ［１，１］，ｗ［２，１］〜ｗ［１，Ｎ−１］，ｗ［２，Ｎ−１］）、分割識別子配列（ｃ［１］〜ｃ［Ｎ−１］）をクリアする。次に、文字境界に頻度情報を設定し（ステップＳ１２）、文字境界に基本単語分割指標を設定する（ステップＳ１３）。最後に設定した基本単語分割指標による基本単語分割（Ｃｕｔ−Ｗ（１，Ｎ））を実行し（ステップＳ１４）、単語分割主処理を終了する。
【００３１】
以下、この処理を順に説明する。
ステップＳ１１では、変数の初期化処理で、単語文字数を取得し、変数Ｎに設定するとともに、３種類の配列の単語文字数分ゼロクリアを行う。「対共産圏輸出統制委員会」では、単語文字数Ｎは「１１」となる。
【００３２】
以降、文字位置及び文字境界位置を導入するが、これらは、図６のように数えるのものとする。即ち、文字位置は対象単語中の文字の位置を前から順に数えた数で表し、文字境界位置は、文字間の位置をそのすぐ前に在る文字の位置の数で表す。なお、最初の文字境界位置は０で表す。
ステップＳ１２は、対象単語の文字境界にその前の漢字２文字組の単語末頻度［ｉ＝１］、その後ろの漢字２文字組の単語頭頻度［ｉ＝２］を頻度格納用配列ｆ［ｉ，ｎ］（ｉ＝１，２，ｎ＝０〜Ｎ）に設定する処理である。
【００３３】
図７は、図５における文字境界に頻度情報を設定する処理を詳細に説明するためのフロー図である。
文字境界に頻度情報を設定する処理では、対象単語の文字位置ｐを先頭（ｐ＝１）から１文字づつづらしながら（ステップＳ２１，Ｓ２６）、単語中の漢字２文字組（第ｐ〜ｐ＋１番の文字列）を抽出し、辞書を検索して（ステップＳ２３）、得られた頻度を設定する（ステップＳ２５）。詳細には、まず文字位置ｐを１に設定し（ステップＳ２１）、ステップＳ２１，Ｓ２６においてｐがＮ未満の範囲でステップＳ２３〜Ｓ２５の処理を繰り返す。ステップＳ２２においてｐがＮに達したらステップＳ１２の処理を終了する。ステップＳ２３においては、単語中の漢字２文字組（第ｐ〜ｐ＋１番の文字列）を辞書から検索し、ステップＳ２４において検索結果を判断し、検索が成功すればステップＳ２５へ進む。ステップＳ２５においては、検索により得られた頻度を設定する。例えば、第２文字目に位置付けた（Ｐ＝２）場合の漢字２文字組の「共産」については、辞書検索により、その単語頭頻度が１７３５回、単語末頻度が２１７回と得られるので、「共産」前の第１文字「対」と第２文字「共」の境界（境界位置１）の単語頭頻度データとしてｆ［２，１］に１７３５を設定し、第３文字「産」と「共産」後の第４文字「圏」の境界（境界位置３）の単語末頻度データとしてｆ［１，３］に２１７を設定する。
【００３４】
図８は、単語「対共産圏輸出統制委員会」に対し、各漢字２文字組の前と後ろに辞書により得られる単語頭頻度及び単語末頻度を示した図である。前述したように、「共産」の単語頭頻度として１７３５が、単語末頻度として２１７が得られており、その他の漢字２文字組に対しても同様に頻度データが得られている。ただし、対象単語中の漢字２文字組のうち、例えば、「圏輸」は辞書にないので、単語頭頻度、単語末頻度は各々初期値のゼロのままとなる。
【００３５】
図９は、単語「対共産圏輸出統制委員会」に対し、単語の位置ｎに対する単語末頻度及び単語頭頻度ｆ［ｉ，ｎ］を設定した表を示す図である。
ステップＳ１２の処理が終了すると、図９のように単語の位置ｎに対する単語末頻度及び単語頭頻度ｆ［ｉ，ｎ］が設定される。なお、ｆ［１，０］，ｆ［２，１１］は、ゼロが設定されているが、これは意味をもたない。
【００３６】
ステップＳ１３では、文字境界に設定された単語末頻度と単語頭頻度に基づき、基本単語分割指標を設定する。最も単純には、単語末頻度と単語頭頻度が大きい境界で分割されると考えられ、例えば、両頻度の相加平均（或いは和）や相乗平均（或いは積）が指標になると考えられる。
【００３７】
また、接頭辞については、接頭辞の後ろの２文字組は単語頭であり、接頭辞を第２文字に含む２文字組は、単語末ではない。さらに、接尾辞については、接尾辞の前の２文字組は単語末であり、接尾辞を第１文字に含む２文字組は、単語頭ではない。これらのことから、境界の単語末頻度と単語頭頻度に偏りがあると考えられ、例えば、両頻度の差が指標になると考えられる。
【００３８】
図１０は、単語「対共産圏輸出統制委員会」に対し、基本単語分割の指標ｗ［１，ｎ］として両頻度の和、接辞分割の指標ｗ［２，ｎ］として両頻度の差（ｆ［２，ｎ］−ｆ［１，ｎ］）を設定した表を示す図である。頻度差が、正の場合が接頭辞、負の場合は接尾辞になる。
【００３９】
基本単語分割点を得る単純な頻度和は、接辞のない場合は、比較的問題ないが、接辞のある場合は、強い接辞（頻度が大きい接辞）と区別ができなくなる。また接辞分割点を得る頻度差は、接頭辞、接尾辞がわかるが、指標の大きさが不安定であるという問題がある。
【００４０】
図１１は、単語「対共産圏輸出統制委員会」に対し、基本単語分割指標に単語末頻度と単語頭頻度の相乗平均（両者の積の平方）、接辞分割指標に頻度差を頻度和で正規化して値を設定した表を示す図である。これによると、上記の問題が解消されていることがわかる。
【００４１】
ステップＳ１４では、上記の基本単語分割指標と接辞分割指標に基づいて、分割処理を行う。図１１の指標を用いた分割の実際の概略を示すと次のようになる。
まず、基本単語分割指標の大きいものから、［Ｗ１］：「対共産圏輸出統制委員会」に対し、境界位置８で「対共産圏輸出統制」と「委員会」とに分割し、［Ｗ２］：「対共産圏輸出統制」に対し、境界位置６で「対共産圏輸出」と「統制」とに分割し、［Ｗ３］：「対共産圏輸出」に対し、境界位置４で「対共産圏」と「輸出」とに分割する。
【００４２】
さらに、基本単語分割された「対共産圏」、「輸出」、「統制」、「委員会」については、接辞指標により、［Ｐ１］：「対共産圏」に対し、境界位置１で「対」（接頭辞）と「共産圏」とに分割し、［Ｐ２］：「共産圏」に対し、境界位置３で「共産」と「圏」（接尾辞）とに分割し、［Ｐ３］：「委員会」に対し、境界位置１０で「委員」と「会」（接尾辞）とに分割する。ここで、前述したように、接辞指標は符号に意味があり、正が接頭辞、負が接尾辞となる。
【００４３】
図１２は基本単語分割指標による基本単語分割Ｃｕｔ−Ｗの処理を説明するためのフロー図、図１３は接辞分割指標による接辞分割Ｃｕｔ−Ｐの処理を説明するためのフロー図である。図１２及び図１３を用いて上述の分割処理を説明する。
両分割処理とも対象文字列を最大の指標の境界を分割点にして２つの部分文字列に分割し、分割した両部分文字列に対して再帰的に処理を行う。分割においては、分割識別子ｃ［ｋ］（ｋ：分割境界番号）に識別データ（２：基本単語分割点，＋１／−１：接頭／尾辞分割点）を設定する。
ただし、基本単語分割であるＣｕｔ−Ｗは、先頭文字の後と末尾文字の手前は分割の対象にせず、４文字以上の文字列に対してしか分割を行わない。分割点がない、或いは、３文字以下になったら、接辞分割Ｃｕｔ−Ｐに移る。
接辞分割では、３文字以上の文字列に対して分割を行うが、接辞分割指標の正負により、接頭辞と接尾辞を識別する。ただし、文字列の前方側の境界が接尾辞分割である場合や、文字列の末尾側の境界が接頭辞分割である場合のように、位置と接辞種別が矛盾する場合は、分割点としない。
【００４４】
境界位置ｎ〜ｍの間にある文字からなる単語を分割するＣｕｔ−Ｗ（ｎ，ｍ）の処理では、まず、ステップＳ３１においてｍ−ｎ＋１≧４か否かを判断し、ＮＯであればステップＳ４０のＣｕｔ−Ｐ（ｎ，ｍ）の処理へ進み、ＹＥＳであればステップＳ３２へ進む。ステップＳ３２では、第ｎ＋１〜ｍ−２番の文字境界のうち、単語分割指標が閾値以上で最大の境界（分割点）を検索する。ステップＳ３３においてその検索の結果を判断し、検索が失敗であれば、ステップＳ４０の処理へ進み、成功すればステップＳ３４へ進む。分割点が第ｋ番で検索が成功した場合、ｃ［ｋ］を２に設定し（ステップＳ３４）、第ｋ番の境界に対し、Ｃｕｔ−Ｗ（ｎ，ｋ）及びＣｕｔ−Ｗ（ｋ＋１，ｍ）を実行する（ステップＳ３５）。ステップＳ３６，Ｓ４０が終了した時点で、Ｃｕｔ−Ｗ（ｎ，ｍ）の処理が終了する。
【００４５】
ステップＳ４０の処理を図１３に沿って説明する。Ｃｕｔ−Ｐ（ｎ，ｍ）の処理は、まず、ステップＳ４１においてｍ−ｎ＋１≧３か否かを判断し、ＮＯであれば処理を終了し、ＹＥＳであればステップＳ４２へ進む。ステップＳ４２では、第ｎ〜ｍ−１番の文字境界のうち、接辞分割指標が閾値以上で絶対値最大の境界（分割点）を検索（ただし、位置と接辞種別が矛盾しないこと）する。ステップＳ４３においてその検索の結果を判断し、検索が失敗であれば処理を終了し、成功すればステップＳ４４へ進む。分割点が第ｋ番で検索が成功した場合、ｃ［ｋ］を＋１／−１に設定し（ステップＳ４４）、第ｋ番の境界に対し、Ｃｕｔ−Ｐ（ｎ，ｋ）及びＣｕｔ−Ｐ（ｋ＋１，ｍ）を実行し（ステップＳ４５）、処理を終了する。
【００４６】
概略で示した［Ｗ１］，［Ｗ２］，［Ｗ３］の基本単語分割、［Ｐ１］，［Ｐ２］，［Ｐ３］の接辞分割の過程をより詳細に説明する。
図１４は、図１１の表を基本単語分割指標の最大値５２９である境界位置８で分割した表を示す図で、図１４（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。図１５は、図１４（Ａ）の表を基本単語分割指標の最大値２９８．５である境界位置６で分割した表を示す図で、図１５（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。図１６は、図１５（Ａ）の表を基本単語分割指標の最大値１５１．４である境界位置４で分割した表を示す図で、図１６（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。図１７は、図１６（Ａ）の表を接辞分割指標の絶対値の最大値１である境界位置１で分割した表を示す図で、図１７（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。図１８は、図１７（Ｂ）の表を接辞分割指標の絶対値の最大値１である境界位置３で分割した表を示す図で、図１８（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。図１９は、図１４（Ｂ）の表を接辞分割指標の絶対値の最大値１である境界位置１０で分割した表を示す図で、図１９（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。図２０は、図１１の表に分割識別子の欄を追加した表を示す図である。
【００４７】
まず、［Ｗ１］は、対象単語全体の表（図１１）から基本単語分割指標の最大値５２９である境界位置８で分割し、分割識別子ｃ［８］には２を設定する。これにより、分割された各々の部分文字列に対して、再帰的に基本単語分割Ｃｕｔ−Ｗが行われ、図１４（Ａ），（Ｂ）のような２つの分割指標の表が想定される。
［Ｗ１］の前半の「対共産圏輸出統制」に対して、図１４（Ａ）の表の基本単語分割指標の最大値２９８．５である境界位置６で［Ｗ２］の分割がおき、分割識別子ｃ［６］には２を設定する。これにより、分割された各々の部分文字列に対して、再帰的に基本単語分割Ｃｕｔ−Ｗが行われ、図１５（Ａ），（Ｂ）のような２つの分割指標の表が想定される。［Ｗ１］の後半の「委員会」は３文字列なので、基本単語分割処理Ｃｕｔ−Ｗの処理はただちに終了し、接辞分割処理Ｃｕｔ−Ｐに移る（図１４（Ｂ）参照）。
【００４８】
［Ｗ２］の前半の「対共産圏輸出」に対して、図１５（Ａ）の表の単語分割指標の最大値１５１．４である境界位置４で［Ｗ３］の分割がおき、分割識別子ｃ［４］には２を設定する。これにより、分割された各々の部分文字列に対して、再帰的に基本単語分割Ｃｕｔ−Ｗが行われ、図１６（Ａ），（Ｂ）のような２つの分割指標の表が想定される。［Ｗ２］の後半の「統制」は２文字列なので、単語分割処理Ｃｕｔ−Ｗの処理はただちに終了し、また、接辞分割処理Ｃｕｔ−Ｐに移るが、これもただちに終了する（図１５（Ｂ）参照）。
【００４９】
［Ｗ３］の前半の「対共産圏」に対して、図１６（Ａ）の表の単語分割指標では、すべて０なので、単語分割処理Ｃｕｔ−Ｗは終了し、接辞分割処理Ｃｕｔ−Ｐに移る。［Ｗ３］の後半の「輸出」は２文字列なので、単語分割処理Ｃｕｔ−Ｗの処理はただちに終了し、また、接辞分割処理Ｃｕｔ−Ｐに移るが、これもただちに終了する（図１６（Ｂ）参照）。
【００５０】
「対共産圏」の接辞分割処理は、図１６（Ａ）の表の接辞分割指標の絶対値が最大の境界位置は１（接頭辞分割）と３（接尾辞分割）の２つある。いずれも、接辞の種別と位置との矛盾はなく、いずれも選択は可能だが、番号の若い１で［Ｐ１］の接辞分割を行い、分割識別子ｃ［１］には接頭辞の識別子＋１を設定する。これにより、分割された各々の部分文字列に対して、再帰的に接辞分割Ｃｕｔ−Ｐが行われ、図１７（Ａ），（Ｂ）のような２つの分割指標の表が想定される。
【００５１】
［Ｐ１］の前半の「対」は、接辞分割処理Ｃｕｔ−Ｐはただちに終了する（図１７（Ａ）参照）。［Ｐ１］の後半の「共産圏」の接辞分割処理は、図１７（Ｂ）の表の接辞分割指標の絶対値が最大の境界位置は上記分割でのもう一方の３（接尾辞分割）であり、［Ｐ２］の分割を行い、分割識別子ｃ［３］には接尾辞の識別子−１を設定する。これにより、分割された各々の部分文字列に対して、再帰的に接辞分割Ｃｕｔ−Ｐが行われ、図１８（Ａ），（Ｂ）のような２つの分割指標の表が想定される。
［Ｐ２］の前半の「共産」及び後半の「圏」ともに、２文字以下なので、接辞分割処理Ｃｕｔ−Ｐは終了する。
【００５２】
残る［Ｗ１］の後半の「委員会」の接辞分割処理については、図１４（Ｂ）の表の接辞分割指標の絶対値が最大の境界位置１０により、［Ｐ３］の接辞分割を行うことができ、分割識別子ｃ［１０］に接尾辞の識別子−１を設定する。これにより、分割された各々の部分文字列に対して、再帰的に接辞分割Ｃｕｔ−Ｐが行われ、図１９（Ａ），（Ｂ）のような２つの分割指標の表が想定される。
［Ｐ３］の前半の「委員」及び後半の「会」ともに、２文字以下なので、接辞分割処理Ｃｕｔ−Ｐは終了する。
以上により、ステップＳ１４が終了し、分割識別子ｃ［ｎ］の可能な設定が行われている。図１１の表に分割識別子の欄を追加した図２０を示す。
【００５３】
次にステップＳ３における単語分割結果の出力について説明する。
分割識別子により、前述のように、例えば、基本単語分割点を′｜′、接辞分割点を′．′で表わすと以下のような出力表現ができる。
対．共産．圏｜輸出｜統制｜委員．会
【００５４】
また、次のように、語基、接頭辞、接尾辞を認識・認識し、出力することができる。
語基：共産輸出統制委員
接頭辞：対
接尾辞：圏会
【００５５】
以上、単語末頻度と単語頭頻度の和或いは相乗平均、差或いは正規化差を用いた分割の実施例を示したが、以下に別の実施例として、擬似的な単語末（複合語末）確率と単語頭（複合語頭）確率を用いた例を示す。
図２１は、擬似的な単語末確率と単語頭確率、及び単語分割指標としてこれらの確率の積、接辞分割指標としてこれらの正規化差、そして、この指標による分割識別子を設定した表を示す図である。分割結果は同じになっている。ここで、擬似的な単語末確率と単語頭確率は、単語末頻度と単語頭頻度を各々、両頻度の和で割った値をいう。これにより、頻度が極端に大きいものと小さいものによる影響を減らすことができる。なお、対象とする漢字２文字列の総頻度を得るところを単語末頻度と単語頭頻度の和で替えたので、「擬似的」と呼ぶ。
【００５６】
この擬似的確率による指標は、頻度によるとうまく分割できない次のような困難な例も正しく分割できる。
図２２乃至図２５は、２単語の頻度による場合と擬似的確率による場合の分割指標の表を示す図であり、図２２は単語「永野茂門前法相発言」に対し、２単語の頻度による場合の分割指標の表を示す図、図２３は図２２の２単語の頻度による場合と比較するための、擬似的確率による場合の分割指標の表を示す図、図２４は単語「山梨県中巨摩郡玉穂町」に対し、２単語の頻度による場合の分割指標の表を示す図、図２５は図２４の２単語の頻度による場合と比較するための、擬似的確率による場合の分割指標の表を示す図である。
【００５７】
図２２乃至図２５に示すように、対象単語が「永野茂門前法相発言」、「山梨県中巨摩郡玉穂町」である場合、頻度による分割では、「永野．茂｜門前｜法相｜発言」、「山梨｜県中．巨摩．郡｜玉穂町」となるのに対し、擬似確率による分割では、永野｜茂門｜前．法相｜発言」、「山梨．県｜中．巨摩．郡｜玉穂町」となり、正しく分割できているのがわかる。
【００５８】
図２６は、図４に代わる辞書の例を示す図である。
擬似的な単語末／頭確率を用いる場合、あらかじめ計算しておくことができるので、図２６のように辞書に頻度とともに、或いは確率のみを格納しておいてもよい。
【００５９】
本発明としては、前述したように、複合語分割装置によって、語基、接頭辞、接尾辞が得られるので、これらを集計することにより、日本語辞書を作成、或いは語彙の追加を行う日本語辞書作成装置としての形態も可能である。
【００６０】
本発明は、上記複合語分割装置或いは日本語辞書作成装置の各実施例で説明した実施形態のみに限定されたものではない。本発明は、さらに上記複合語分割装置或いは日本語辞書作成装置の各実施形態において処理の流れを説明したように、その流れとしての複合語分割方法或いは日本語辞書作成方法としての形態も可能である。さらに、図２に示した複合語分割装置或いは日本語辞書作成装置を構成する各部の機能をプログラム化した形態や、そのプログラムをあらかじめＣＤ−ＲＯＭ等の記録媒体に書き込んでおき、このＣＤ−ＲＯＭをＣＤ−ＲＯＭドライブを搭載したコンピュータに装着して、コンピュータへそのプログラムをロードすることによって、実施例の実施形態と同様な機能を実現することができる。
【００６１】
【発明の効果】
本発明によれば、従来技術で課題であった、人手での開発による辞書、大きな処理コスト、精度、ヒューリスティック等の課題を解決し、容易に高い精度で複合語を分割することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る複合語分割装置の全体構成を示す図である。
【図２】本発明の一実施形態に係る複合語分割装置の機能構成を示す図である。
【図３】本発明の一実施形態に係る複合語分割装置における処理の流れを説明するためのフロー図である。
【図４】約１２０ＭＢ（新聞記事１年分）の文書データベースから自動作成した辞書の一部を抜粋して示した図である。
【図５】図３における単語分割処理を詳細に説明するためのフロー図である。
【図６】文字位置及び文字境界位置を説明するための図である。
【図７】図５における文字境界に頻度情報を設定する処理を詳細に説明するためのフロー図である。
【図８】単語「対共産圏輸出統制委員会」に対し、各漢字２文字組の前と後ろに辞書により得られる単語頭頻度及び単語末頻度を示した図である。
【図９】単語「対共産圏輸出統制委員会」に対し、単語の位置にｎに対する単語末頻度及び単語頭頻度ｆ［ｉ，ｎ］を設定した表を示す図である。
【図１０】単語「対共産圏輸出統制委員会」に対し、基本単語分割の指標ｗ［１，ｎ］として両頻度の和、接辞分割の指標ｗ［２，ｎ］として両頻度の差（ｆ［２，ｎ］−ｆ［１，ｎ］）を設定した表を示す図である。
【図１１】単語「対共産圏輸出統制委員会」に対し、基本単語分割指標に単語末頻度と単語頭頻度の相乗平均（両者の積の平方）、接辞分割指標に頻度差を頻度和で正規化して値を設定した表を示す図である。
【図１２】基本単語分割指標による基本単語分割Ｃｕｔ−Ｗの処理を説明するためのフロー図である。
【図１３】接辞分割指標による接辞分割Ｃｕｔ−Ｐの処理を説明するためのフロー図である。
【図１４】図１１の表を基本単語分割指標の最大値５２９である境界位置８で分割した表を示す図で、図１４（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。
【図１５】図１４（Ａ）の表を基本単語分割指標の最大値２９８．５である境界位置６で分割した表を示す図で、図１５（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。
【図１６】図１５（Ａ）の表を基本単語分割指標の最大値１５１．４である境界位置４で分割した表を示す図で、図１６（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。
【図１７】図１６（Ａ）の表を接辞分割指標の絶対値の最大値１である境界位置１で分割した表を示す図で、図１７（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。
【図１８】図１７（Ｂ）の表を接辞分割指標の絶対値の最大値１である境界位置３で分割した表を示す図で、図１８（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。
【図１９】図１４（Ｂ）の表を接辞分割指標の絶対値の最大値１である境界位置１０で分割した表を示す図で、図１９（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す図である。
【図２０】図１１の表に分割識別子の欄を追加した表を示す図である。
【図２１】擬似的な単語末確率と単語頭確率、及び単語分割指標としてこれらの確率の積、接辞分割指標としてこれらの正規化差、そして、この指標による分割識別子を設定した表を示す図である。
【図２２】単語「永野茂門前法相発言」に対し、２単語の頻度による場合の分割指標の表を示す図である。
【図２３】図２２の２単語の頻度による場合と比較するための、擬似的確率による場合の分割指標の表を示す図である。
【図２４】単語「山梨県中巨摩郡玉穂町」に対し、２単語の頻度による場合の分割指標の表を示す図である。
【図２５】図２４の２単語の頻度による場合と比較するための、擬似的確率による場合の分割指標の表を示す図である。
【図２６】図４に代わる辞書の例を示す図である。
【符号の説明】
１…入力手段、２…ＣＰＵ、３…出力手段、４…メモリ、５…記憶手段、６…単語入力部、７…単語分割部、８…辞書、９…単語分割結果出力部。

Claims

日本語を入力する入力部と、日本語文字列をエントリとする辞書を記憶した記憶部と、前記入力部から入力された日本語の漢字列部分を、前記辞書を参照して複合語に分割する分割部と、を有する複合語分割装置において、
前記辞書は、漢字２文字組の文字列が複合語の先頭に出現する複合語頭頻度及び複合語の末尾に出現する複合語末頻度を示す頻度情報を有し、
前記分割部は、前記入力部から入力された日本語の漢字列部分における各文字境界に対し、前２文字組の複合語末頻度及び後２文字組の複合語頭頻度を前記辞書から取得し、該取得した複合語末頻度及び複合語頭頻度から、当該文字境界における、語基と接辞とからなるまとまりである基本単語の分割指標と接辞の分割指標とを算出し、該算出された各分割指標の値から基本単語の分割点及び接辞の分割点を判定し、前記漢字列部分を該分割点で分割することにより漢字語基と接辞とに分割し、
前記基本単語の分割指標は、前記前２文字組の複合語末頻度と前記後２文字組の複合語頭頻度との間の平衡を示す指標であり、前記接辞の分割指標は、前記前２文字組の複合語末頻度と前記後２文字組の複合語頭頻度との間の偏りを示す指標であり、
前記分割部は、前記基本単語の分割指標が大きな文字境界から順次分割点として判定し、前記接辞の分割指標の絶対値が大きな文字境界から順次分割点として判定することを特徴とする複合語分割装置。
日本語を入力する入力部と、日本語文字列をエントリとする辞書を記憶した記憶部と、前記入力部から入力された日本語の漢字列部分を、前記辞書を参照して複合語に分割する分割部と、を有する複合語分割装置において、
前記辞書は、漢字２文字組の文字列が複合語の先頭に出現する複合語頭頻度及び複合語の末尾に出現する複合語末頻度を示す頻度情報を有し、
前記分割部は、前記入力部から入力された日本語の漢字列部分における各文字境界に対し、前２文字組の複合語末頻度及び後２文字組の複合語頭頻度を前記辞書から取得し、該取得した複合語末頻度及び複合語頭頻度からまず複合語末擬似確率及び複合語頭擬似確率を得て、該複合語末擬似確率及び該複合語頭擬似確率から、当該文字境界における、語基と接辞とからなるまとまりである基本単語の分割指標と接辞の分割指標とを算出し、該算出された各分割指標の値から基本単語の分割点及び接辞の分割点を判定し、前記漢字列部分を該分割点で分割することにより漢字語基と接辞とに分割し、
前記複合語末擬似確率は、前記前２文字組の複合語末頻度を、前記前２文字組の複合語末頻度と前記後２文字組の複合語頭頻度との和で割った値とし、前記複合語頭擬似確率は、前記後２文字組の複合語頭頻度を、前記前２文字組の複合語末頻度と前記後２文字組の複合語頭頻度との和で割った値とし、
前記基本単語の分割指標は、前記複合語末擬似確率と前記複合語頭擬似確率との間の平衡を示す指標であり、前記接辞の分割指標は、前記複合語末擬似確率と前記複合語頭擬似確率との間の偏りを示す指標であり、
前記分割部は、前記基本単語の分割指標が大きな文字境界から順次分割点として判定し、前記接辞の分割指標の絶対値が大きな文字境界から順次分割点として判定することを特徴とする複合語分割装置。
前記辞書において、あらかじめ、各漢字２文字組について、前記複合語頭擬似確率及び前記複合語末擬似確率を設定しておくことを特徴とする請求項２記載の複合語分割装置。
請求項１乃至３のいずれか１記載の複合語分割装置を用い分割結果として得られた漢字語基と接辞とにより、日本語辞書を作成することを特徴とする日本語辞書作成装置。