JP2002259370A

JP2002259370A - 複合語分割装置、日本語辞書作成装置、それらの方法、プログラム、及び、記録媒体

Info

Publication number: JP2002259370A
Application number: JP2001052637A
Authority: JP
Inventors: Masayuki Kameda; 雅之亀田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-02-27
Filing date: 2001-02-27
Publication date: 2002-09-13
Anticipated expiration: 2021-02-27
Also published as: JP3983000B2

Abstract

(57)【要約】【課題】容易に高い精度で複合語を分割するための複
合語分割装置を提供する。【解決手段】単語分割処理として、まず入力した単語
の漢字列部分の文字数を設定し、頻度情報配列、単語分
割指標配列、分割識別子配列をクリアする（ステップＳ
１１）。次に、漢字２文字組の文字列の単語頭並び単語
末に出現する頻度情報を有する辞書に基づいて、文字境
界に頻度情報を設定し（ステップＳ１２）、文字境界に
基本単語分割指標及び接辞分割指標を設定する（ステッ
プＳ１３）。最後に設定した指標により、２文字の漢字
語基と、１文字の接辞（接頭辞又は接尾辞）とに分割す
る（ステップＳ１４）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複合語分割装置、
日本語辞書作成装置、それらの方法、プログラム、及
び、記録媒体に関し、より詳細には、日本語文書中に含
まれる単語の認識・抽出結果を利用する文書処理装置に
広く応用可能な、日本語の漢字複合語を分割するための
複合語分割装置、日本語辞書作成装置、それらの方法、
プログラム、及び、記録媒体に関する。

【０００２】

【従来の技術】日本語文書を対象に、検索，情報抽出，
音声合成等の処理を行う場合には、日本語文書を形態素
に分割する形態素解析処理を行うことが多い。形態素解
析処理では、あらかじめ形態素（単語）を格納した日本
語辞書に基づいて処理を行うが、複数の形態素が連接し
た複合名詞等の複合語を分割するには、大規模な日本語
辞書が必要であり、その開発・保守は容易ではない。

【０００３】一方で、漢字複合語は、専門性、特殊性が
高く、情報の価値が高いことから、漢字複合語を適切に
分割する必要性が高まっている。一般の漢字複合語は、
語基と呼ばれる２文字漢字と接頭辞，接尾辞の１文字漢
字とからなるまとまり（以下、「基本単語」と呼ぶ）の
連接として次のように表現される。｛（接頭辞）＊語基（接尾辞）＊｝＊ここで、′（Ｘ）＊′で′Ｘ′の０回以上の繰返し、′
｛Ｘ｝＊′で′Ｘ′の１回以上の繰返しを示す。

【０００４】例えば、「対共産圏輸出統制委員会」は、
次のような構成と見ることができる。対．共産．圏｜輸出｜統制｜委員．会ここで、′｜′は基本単語の切れ目、基本単語内
の′．′は接頭辞又は接尾辞の切れ目を示す。

【０００５】こうした分割を行う方法として、特開平７
−２６２１９１号公報には、単語分割方法、および音声
合成装置が記載されている。これは、形態素解析の複数
の単語分割仮説候補に対して、分割単語間の接続確率を
参照して最適な分割を得る方法であるが、形態素解析を
前提にしているため、人手開発による日本語辞書が必要
となる上に、分割単語間の接続確率という膨大なデータ
が必要である。

【０００６】辞書を用いない方法としては、１文字漢字
の接頭辞性、接尾辞性のリストとそれを参照する少数の
分割ヒューリスティック規則によるＢＵＮＣＵＴアルゴ
リズム（「国語辞書の記憶と日本語文の自動分割［長尾
他；情報処理，Ｖｏ．１９，Ｎｏ．６，１９７８］」）
がある。しかし、このアルゴリズムによる方法は、長い
漢字列に対しては失敗が多く、結局は、辞書を用いて分
割し、分割できなかった部分に対して、適用するように
改訂しており、日本語辞書を前提とすることになってい
る。

【０００７】「統計的手法による漢字複合語の自動分割
［武田，藤崎；情報処理学会論文誌，Ｖｏｌ２８，Ｎ
ｏ．９，１９８７］」は、語基第１文字、同第２文字、
接頭辞、接尾辞の４種類の文字種別と漢字の組を状態と
して、文字の状態遷移確率に基づくマルコフモデルを仮
定し、最適パスにより分割を得る方法である。この方法
は辞書を用意する必要はないが、遷移確率を得るため
に、漢字文字列に上記の４種類の文字種を割り当てた膨
大な正解データを必要とするため、容易には実現できな
い。

【０００８】「辞書を使わない日本語専門用語の自動分
割［森脇他；言語処理学会第２回年次大会発表論文集，
１９９６年］」は、初期状態として、専門用語だけから
なる要素語リストを用意し、以降、要素語リスト中の２
つの要素語間の共通文字列の差分文字列を新たに要素語
リストに加えていくことにより要素語辞書を自動作成し
て、これを用いて分割するものである。この方法は、２
つの要素語を網羅的に比較する必要があり、処理コスト
が極めて高く、大きな専門用語リストに適用することは
難しい。

【０００９】「Inforium : A user-friendly document
retrieval system ［Ogawa et al.;Workshop on Inform
ation Retrieval with Oriental Language,1996年］」
では、１文字漢字の単語頭出現確率と単語末出現確率を
得ておき、各文字境界における確率を両者の積により求
め、閾値以上の確率で分割する方法を示している。この
方法は、極めて容易であるが、１文字の統計であるの
で、２文字の語基を扱うのには、精度上無理が多い。

【００１０】「文字単位のｂｉｇｒａｍ尺度に基づく複
合漢字列の単位切り出し手法［影浦；言語処理学会第３
回年次大会発表論文集，１９９７年］」は、２文字の漢
字ＡとＢに関し、「Ａ−Ｂ」、「非Ａ−Ｂ」、「Ａ−非
Ｂ」、「非Ａ−非Ｂ」の４種類の文字列の頻度により尤
度比検定の値をもって２文字組「Ａ−Ｂ」の結合度とし
て、３文字以上の文字列に対し、順次に弱い結合度の２
文字組の境界で分割する。この方法では、接辞を考慮し
ていないことから、１文字漢字の総数と同漢字が漢字列
の先頭、末尾に現れる頻度を得ておき、これらに基づい
たヒューリスティク規則により分割を変更することを加
えている。この方法は、統計によるものの正解データが
不要であり、辞書も必要とせず、２文字漢字の語基に対
応できる２文字組によっているが、可能な２文字漢字列
に対し、４種類の頻度を計数し、さらに尤度比検定をす
る必要があり、処理コストが高く、また、接辞対応のた
めに、ヒューリスティック規則に頼らなくてならない問
題がある。

【００１１】

【発明が解決しようとする課題】本発明は、上述のごと
き実情に鑑みてなされたものであり、従来技術にあっ
た、人手開発による辞書、大きな処理コスト、精度、ヒ
ューリスティック等の課題を解決し、容易に高い精度で
複合語を分割するための複合語分割装置、日本語辞書作
成装置、それらの方法、プログラム、及び、記録媒体を
提供することを目的とする。

【００１２】請求項１の発明は、日本語の単語を入力す
る単語入力部と、日本語文字列をエントリとする辞書
と、前記単語入力部から入力された単語を前記辞書を参
照して、複合語分割する単語分割部と、を有する複合語
分割装置において、前記辞書は、漢字２文字組の文字列
の単語頭及び単語末に出現する頻度を示す頻度情報を有
し、前記単語分割部は、前記単語入力部から入力された
単語の漢字列部分を、２文字の漢字語基と１文字の接辞
とに分割することを特徴としたものである。

【００１３】請求項２の発明は、請求項１の発明におい
て、前記単語分割部は、複合語分割を行うに際し、前記
入力された単語の漢字列部分の各文字境界における前２
文字組の単語末頻度と後２文字組の単語頭頻度を用い
て、分割点を判定することを特徴としたものである。

【００１４】請求項３の発明は、請求項２の発明におい
て、前記単語分割部は、前記入力された単語の漢字列部
分の各文字境界における前２文字組の単語末頻度と後２
文字組の単語頭頻度について、２つの頻度の平衡と偏り
を示す指標に基づき、分割点を判定することを特徴とし
たものである。

【００１５】請求項４の発明は、請求項１の発明におい
て、前記単語分割部は、複合語分割を行うに際し、前記
入力された単語の漢字列部分内の２文字組の単語頭頻度
と単語末頻度から、該２文字組の擬似的な単語頭確率で
ある単語頭擬似確率と擬似的な単語末確率である単語末
擬似確率を得て、前記入力された単語の漢字列部分の各
文字境界における前２文字組の単語末擬似確率と後２文
字組の単語頭擬似頻度を用いて、分割点を判定すること
を特徴としたものである。

【００１６】請求項５の発明は、請求項４の発明におい
て、前記単語分割部は、前記入力された単語の漢字列部
分の各文字境界における前２文字組の単語末擬似確率と
後２文字組の単語頭擬似確率について、２つの擬似確率
の平衡と偏りを示す指標に基づき、分割点を判定するこ
とを特徴としたものである。

【００１７】請求項６の発明は、請求項４又は５の発明
において、前記辞書において、あらかじめ、各漢字２文
字組について、前記単語頭擬似確率及び単語末擬似確率
を設定しておくことを特徴としたものである。

【００１８】請求項７の発明は、請求項１乃至６のいず
れか１記載の複合語分割装置を作動させ、機能させるた
めの複合語分割方法である。

【００１９】請求項８の発明は、請求項１乃至６のいず
れか１記載の複合語分割装置の機能を実現させるための
プログラムである。

【００２０】請求項９の発明は、請求項１乃至６のいず
れか１記載の複合語分割装置を用いて、分割された単語
分割結果に基づき、抽出された２文字の漢字語基と１文
字の接頭辞又は接尾辞の接辞により、日本語辞書を作成
することを特徴とする日本語辞書作成装置である。

【００２１】請求項１０の発明は、請求項９記載の日本
語辞書作成装置を作動させ、機能させるための日本語辞
書作成方法である。

【００２２】請求項１１の発明は、請求項９記載の日本
語辞書作成装置の機能を実現させるためのプログラムで
ある。

【００２３】請求項１２の発明は、請求項８又は１１に
記載のプログラムを記録したコンピュータ読み取り可能
な記録媒体である。

【００２４】

【発明の実施の形態】図１は、本発明の一実施形態に係
る複合語分割装置の全体構成を示す図である。本実施形
態の複合語分割装置（以下、本装置と略す）は、入力手
段１，ＣＰＵ２，出力手段３，メモリ４，記憶手段５を
備え、それらがバスで接続されているものとする。入力
手段１は、本装置への対象単語を入力する場合に用い、
ＣＰＵ２は、本装置の各部（後述する単語分割部等）の
プログラムを動作させる。メモリ４には、本装置の各部
がＣＰＵ２によって実行されるときに一時的に作成され
る情報や各部のプログラム等が保持される。記憶手段５
は、辞書、或いは本装置の出力結果、本装置の各部のプ
ログラム等を保持している。出力手段３は、本装置から
の出力結果などを表示させる場合に用いる。

【００２５】図２は、本発明の一実施形態に係る複合語
分割装置の機能構成を示す図である。本装置は、その機
能構成として単語入力部６，単語分割部７，辞書８，単
語分割結果出力部９を備えるものとする。単語入力部６
は、分割対象となる単語を入力し、入力された単語を単
語分割部７に送る。単語分割部７は、辞書８を参照し
て、分割を行い分割結果を単語分割結果出力部９に送
る。単語分割結果出力部９は、分割された単語を形式を
整えて、表示或いはファイル等に出力する。

【００２６】図３は、本発明の一実施形態に係る複合語
分割装置における処理の流れを説明するためのフロー図
である。本装置においては、まず対象単語の入力が行わ
れ（ステップＳ１）、次に入力された単語に対し単語分
割処理が施される（ステップＳ２）。最後に単語分割結
果を出力して（ステップＳ３）、処理を終了する。

【００２７】ステップＳ１における対象単語の入力に関
し、入力は、キーボード等の入力手段により入力しても
よいし、ファイルに格納された対象単語リストから順次
に取り出したり、或いは、別の形態素解析装置や漢字文
字列抽出装置等から得られた複合語を渡す等してもよ
い。以下、「対共産圏輸出統制委員会」が入力された例
で説明を行う。

【００２８】ステップＳ２における単語分割処理では、
漢字２文字組の辞書を参照する。この辞書は、あらかじ
め、大規模な文書データベースから、漢字複合語を抽出
し、その先頭２文字と末尾２文字の出現頻度の情報をも
つ。なお、この辞書の作成方法については、単に漢字文
字列を抜き出したり、字種の並びを利用して、小規模な
辞書だけで動作する形態素解析系を利用して複合名詞を
抜き出す等した後、先頭及び末尾の２文字組を集計する
ことにより容易に自動作成でき、ここでは、特に説明し
ない。

【００２９】図４は、約１２０ＭＢ（新聞記事１年分）
の文書データベースから自動作成した辞書の一部を抜粋
して示した図である。図４では、漢字２文字組に対する
単語頭頻度及び単語末頻度を抜粋しており、これによれ
ば、「共産」という漢字２文字組については、この２文
字組が、複合語の先頭に１７３５回、末尾に２１７回、
現れたことを示す。

【００３０】図５は、図３における単語分割処理を詳細
に説明するためのフロー図である。この単語分割処理
（ステップＳ２）は、本装置において最も主要な処理で
ある。単語分割処理としては、初期化処理として、まず
入力した単語の文字数を設定する（ステップＳ１１）。
ここでは単語文字数をＮとする。その他の初期化処理と
しては、頻度情報配列（ｆ［１，０］，ｆ［２，０］〜
ｆ［１，Ｎ］，ｆ［２，Ｎ］）、単語分割指標配列（ｗ
［１，１］，ｗ［２，１］〜ｗ［１，Ｎ−１］，ｗ
［２，Ｎ−１］）、分割識別子配列（ｃ［１］〜ｃ［Ｎ
−１］）をクリアする。次に、文字境界に頻度情報を設
定し（ステップＳ１２）、文字境界に基本単語分割指標
を設定する（ステップＳ１３）。最後に設定した基本単
語分割指標による基本単語分割（Ｃｕｔ−Ｗ（１，
Ｎ））を実行し（ステップＳ１４）、単語分割主処理を
終了する。

【００３１】以下、この処理を順に説明する。ステップ
Ｓ１１では、変数の初期化処理で、単語文字数を取得
し、変数Ｎに設定するとともに、３種類の配列の単語文
字数分ゼロクリアを行う。「対共産圏輸出統制委員会」
では、単語文字数Ｎは「１１」となる。

【００３２】以降、文字位置及び文字境界位置を導入す
るが、これらは、図６のように数えるのものとする。即
ち、文字位置は対象単語中の文字の位置を前から順に数
えた数で表し、文字境界位置は、文字間の位置をそのす
ぐ前に在る文字の位置の数で表す。なお、最初の文字境
界位置は０で表す。ステップＳ１２は、対象単語の文字
境界にその前の漢字２文字組の単語末頻度［ｉ＝１］、
その後ろの漢字２文字組の単語頭頻度［ｉ＝２］を頻度
格納用配列ｆ［ｉ，ｎ］（ｉ＝１，２，ｎ＝０〜Ｎ）に
設定する処理である。

【００３３】図７は、図５における文字境界に頻度情報
を設定する処理を詳細に説明するためのフロー図であ
る。文字境界に頻度情報を設定する処理では、対象単語
の文字位置ｐを先頭（ｐ＝１）から１文字づつづらしな
がら（ステップＳ２１，Ｓ２６）、単語中の漢字２文字
組（第ｐ〜ｐ＋１番の文字列）を抽出し、辞書を検索し
て（ステップＳ２３）、得られた頻度を設定する（ステ
ップＳ２５）。詳細には、まず文字位置ｐを１に設定し
（ステップＳ２１）、ステップＳ２１，Ｓ２６において
ｐがＮ未満の範囲でステップＳ２３〜Ｓ２５の処理を繰
り返す。ステップＳ２２においてｐがＮに達したらステ
ップＳ１２の処理を終了する。ステップＳ２３において
は、単語中の漢字２文字組（第ｐ〜ｐ＋１番の文字列）
を辞書から検索し、ステップＳ２４において検索結果を
判断し、検索が成功すればステップＳ２５へ進む。ステ
ップＳ２５においては、検索により得られた頻度を設定
する。例えば、第２文字目に位置付けた（Ｐ＝２）場合
の漢字２文字組の「共産」については、辞書検索によ
り、その単語頭頻度が１７３５回、単語末頻度が２１７
回と得られるので、「共産」前の第１文字「対」と第２
文字「共」の境界（境界位置１）の単語頭頻度データと
してｆ［２，１］に１７３５を設定し、第３文字「産」
と「共産」後の第４文字「圏」の境界（境界位置３）の
単語末頻度データとしてｆ［１，３］に２１７を設定す
る。

【００３４】図８は、単語「対共産圏輸出統制委員会」
に対し、各漢字２文字組の前と後ろに辞書により得られ
る単語頭頻度及び単語末頻度を示した図である。前述し
たように、「共産」の単語頭頻度として１７３５が、単
語末頻度として２１７が得られており、その他の漢字２
文字組に対しても同様に頻度データが得られている。た
だし、対象単語中の漢字２文字組のうち、例えば、「圏
輸」は辞書にないので、単語頭頻度、単語末頻度は各々
初期値のゼロのままとなる。

【００３５】図９は、単語「対共産圏輸出統制委員会」
に対し、単語の位置ｎに対する単語末頻度及び単語頭頻
度ｆ［ｉ，ｎ］を設定した表を示す図である。ステップ
Ｓ１２の処理が終了すると、図９のように単語の位置ｎ
に対する単語末頻度及び単語頭頻度ｆ［ｉ，ｎ］が設定
される。なお、ｆ［１，０］，ｆ［２，１１］は、ゼロ
が設定されているが、これは意味をもたない。

【００３６】ステップＳ１３では、文字境界に設定され
た単語末頻度と単語頭頻度に基づき、基本単語分割指標
を設定する。最も単純には、単語末頻度と単語頭頻度が
大きい境界で分割されると考えられ、例えば、両頻度の
相加平均（或いは和）や相乗平均（或いは積）が指標に
なると考えられる。

【００３７】また、接頭辞については、接頭辞の後ろの
２文字組は単語頭であり、接頭辞を第２文字に含む２文
字組は、単語末ではない。さらに、接尾辞については、
接尾辞の前の２文字組は単語末であり、接尾辞を第１文
字に含む２文字組は、単語頭ではない。これらのことか
ら、境界の単語末頻度と単語頭頻度に偏りがあると考え
られ、例えば、両頻度の差が指標になると考えられる。

【００３８】図１０は、単語「対共産圏輸出統制委員
会」に対し、基本単語分割の指標ｗ［１，ｎ］として両
頻度の和、接辞分割の指標ｗ［２，ｎ］として両頻度の
差（ｆ［２，ｎ］−ｆ［１，ｎ］）を設定した表を示す
図である。頻度差が、正の場合が接頭辞、負の場合は接
尾辞になる。

【００３９】基本単語分割点を得る単純な頻度和は、接
辞のない場合は、比較的問題ないが、接辞のある場合
は、強い接辞（頻度が大きい接辞）と区別ができなくな
る。また接辞分割点を得る頻度差は、接頭辞、接尾辞が
わかるが、指標の大きさが不安定であるという問題があ
る。

【００４０】図１１は、単語「対共産圏輸出統制委員
会」に対し、基本単語分割指標に単語末頻度と単語頭頻
度の相乗平均（両者の積の平方）、接辞分割指標に頻度
差を頻度和で正規化して値を設定した表を示す図であ
る。これによると、上記の問題が解消されていることが
わかる。

【００４１】ステップＳ１４では、上記の基本単語分割
指標と接辞分割指標に基づいて、分割処理を行う。図１
１の指標を用いた分割の実際の概略を示すと次のように
なる。まず、基本単語分割指標の大きいものから、［Ｗ
１］：「対共産圏輸出統制委員会」に対し、境界位置８
で「対共産圏輸出統制」と「委員会」とに分割し、［Ｗ
２］：「対共産圏輸出統制」に対し、境界位置６で「対
共産圏輸出」と「統制」とに分割し、［Ｗ３］：「対共
産圏輸出」に対し、境界位置４で「対共産圏」と「輸
出」とに分割する。

【００４２】さらに、基本単語分割された「対共産
圏」、「輸出」、「統制」、「委員会」については、接
辞指標により、［Ｐ１］：「対共産圏」に対し、境界位
置１で「対」（接頭辞）と「共産圏」とに分割し、［Ｐ
２］：「共産圏」に対し、境界位置３で「共産」と
「圏」（接尾辞）とに分割し、［Ｐ３］：「委員会」に
対し、境界位置１０で「委員」と「会」（接尾辞）とに
分割する。ここで、前述したように、接辞指標は符号に
意味があり、正が接頭辞、負が接尾辞となる。

【００４３】図１２は基本単語分割指標による基本単語
分割Ｃｕｔ−Ｗの処理を説明するためのフロー図、図１
３は接辞分割指標による接辞分割Ｃｕｔ−Ｐの処理を説
明するためのフロー図である。図１２及び図１３を用い
て上述の分割処理を説明する。両分割処理とも対象文字
列を最大の指標の境界を分割点にして２つの部分文字列
に分割し、分割した両部分文字列に対して再帰的に処理
を行う。分割においては、分割識別子ｃ［ｋ］（ｋ：分
割境界番号）に識別データ（２：基本単語分割点，＋１
／−１：接頭／尾辞分割点）を設定する。ただし、基本
単語分割であるＣｕｔ−Ｗは、先頭文字の後と末尾文字
の手前は分割の対象にせず、４文字以上の文字列に対し
てしか分割を行わない。分割点がない、或いは、３文字
以下になったら、接辞分割Ｃｕｔ−Ｐに移る。接辞分割
では、３文字以上の文字列に対して分割を行うが、接辞
分割指標の正負により、接頭辞と接尾辞を識別する。た
だし、文字列の前方側の境界が接尾辞分割である場合
や、文字列の末尾側の境界が接頭辞分割である場合のよ
うに、位置と接辞種別が矛盾する場合は、分割点としな
い。

【００４４】境界位置ｎ〜ｍの間にある文字からなる単
語を分割するＣｕｔ−Ｗ（ｎ，ｍ）の処理では、まず、
ステップＳ３１においてｍ−ｎ＋１≧４か否かを判断
し、ＮＯであればステップＳ４０のＣｕｔ−Ｐ（ｎ，
ｍ）の処理へ進み、ＹＥＳであればステップＳ３２へ進
む。ステップＳ３２では、第ｎ＋１〜ｍ−２番の文字境
界のうち、単語分割指標が閾値以上で最大の境界（分割
点）を検索する。ステップＳ３３においてその検索の結
果を判断し、検索が失敗であれば、ステップＳ４０の処
理へ進み、成功すればステップＳ３４へ進む。分割点が
第ｋ番で検索が成功した場合、ｃ［ｋ］を２に設定し
（ステップＳ３４）、第ｋ番の境界に対し、Ｃｕｔ−Ｗ
（ｎ，ｋ）及びＣｕｔ−Ｗ（ｋ＋１，ｍ）を実行する
（ステップＳ３５）。ステップＳ３６，Ｓ４０が終了し
た時点で、Ｃｕｔ−Ｗ（ｎ，ｍ）の処理が終了する。

【００４５】ステップＳ４０の処理を図１３に沿って説
明する。Ｃｕｔ−Ｐ（ｎ，ｍ）の処理は、まず、ステッ
プＳ４１においてｍ−ｎ＋１≧３か否かを判断し、ＮＯ
であれば処理を終了し、ＹＥＳであればステップＳ４２
へ進む。ステップＳ４２では、第ｎ〜ｍ−１番の文字境
界のうち、接辞分割指標が閾値以上で絶対値最大の境界
（分割点）を検索（ただし、位置と接辞種別が矛盾しな
いこと）する。ステップＳ４３においてその検索の結果
を判断し、検索が失敗であれば処理を終了し、成功すれ
ばステップＳ４４へ進む。分割点が第ｋ番で検索が成功
した場合、ｃ［ｋ］を＋１／−１に設定し（ステップＳ
４４）、第ｋ番の境界に対し、Ｃｕｔ−Ｐ（ｎ，ｋ）及
びＣｕｔ−Ｐ（ｋ＋１，ｍ）を実行し（ステップＳ４
５）、処理を終了する。

【００４６】概略で示した［Ｗ１］，［Ｗ２］，［Ｗ
３］の基本単語分割、［Ｐ１］，［Ｐ２］，［Ｐ３］の
接辞分割の過程をより詳細に説明する。図１４は、図１
１の表を基本単語分割指標の最大値５２９である境界位
置８で分割した表を示す図で、図１４（Ａ），（Ｂ）は
それぞれ、その前半，後半の表を示す図である。図１５
は、図１４（Ａ）の表を基本単語分割指標の最大値２９
８．５である境界位置６で分割した表を示す図で、図１
５（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示
す図である。図１６は、図１５（Ａ）の表を基本単語分
割指標の最大値１５１．４である境界位置４で分割した
表を示す図で、図１６（Ａ），（Ｂ）はそれぞれ、その
前半，後半の表を示す図である。図１７は、図１６
（Ａ）の表を接辞分割指標の絶対値の最大値１である境
界位置１で分割した表を示す図で、図１７（Ａ），
（Ｂ）はそれぞれ、その前半，後半の表を示す図であ
る。図１８は、図１７（Ｂ）の表を接辞分割指標の絶対
値の最大値１である境界位置３で分割した表を示す図
で、図１８（Ａ），（Ｂ）はそれぞれ、その前半，後半
の表を示す図である。図１９は、図１４（Ｂ）の表を接
辞分割指標の絶対値の最大値１である境界位置１０で分
割した表を示す図で、図１９（Ａ），（Ｂ）はそれぞ
れ、その前半，後半の表を示す図である。図２０は、図
１１の表に分割識別子の欄を追加した表を示す図であ
る。

【００４７】まず、［Ｗ１］は、対象単語全体の表（図
１１）から基本単語分割指標の最大値５２９である境界
位置８で分割し、分割識別子ｃ［８］には２を設定す
る。これにより、分割された各々の部分文字列に対し
て、再帰的に基本単語分割Ｃｕｔ−Ｗが行われ、図１４
（Ａ），（Ｂ）のような２つの分割指標の表が想定され
る。［Ｗ１］の前半の「対共産圏輸出統制」に対して、
図１４（Ａ）の表の基本単語分割指標の最大値２９８．
５である境界位置６で［Ｗ２］の分割がおき、分割識別
子ｃ［６］には２を設定する。これにより、分割された
各々の部分文字列に対して、再帰的に基本単語分割Ｃｕ
ｔ−Ｗが行われ、図１５（Ａ），（Ｂ）のような２つの
分割指標の表が想定される。［Ｗ１］の後半の「委員
会」は３文字列なので、基本単語分割処理Ｃｕｔ−Ｗの
処理はただちに終了し、接辞分割処理Ｃｕｔ−Ｐに移る
（図１４（Ｂ）参照）。

【００４８】［Ｗ２］の前半の「対共産圏輸出」に対し
て、図１５（Ａ）の表の単語分割指標の最大値１５１．
４である境界位置４で［Ｗ３］の分割がおき、分割識別
子ｃ［４］には２を設定する。これにより、分割された
各々の部分文字列に対して、再帰的に基本単語分割Ｃｕ
ｔ−Ｗが行われ、図１６（Ａ），（Ｂ）のような２つの
分割指標の表が想定される。［Ｗ２］の後半の「統制」
は２文字列なので、単語分割処理Ｃｕｔ−Ｗの処理はた
だちに終了し、また、接辞分割処理Ｃｕｔ−Ｐに移る
が、これもただちに終了する（図１５（Ｂ）参照）。

【００４９】［Ｗ３］の前半の「対共産圏」に対して、
図１６（Ａ）の表の単語分割指標では、すべて０なの
で、単語分割処理Ｃｕｔ−Ｗは終了し、接辞分割処理Ｃ
ｕｔ−Ｐに移る。［Ｗ３］の後半の「輸出」は２文字列
なので、単語分割処理Ｃｕｔ−Ｗの処理はただちに終了
し、また、接辞分割処理Ｃｕｔ−Ｐに移るが、これもた
だちに終了する（図１６（Ｂ）参照）。

【００５０】「対共産圏」の接辞分割処理は、図１６
（Ａ）の表の接辞分割指標の絶対値が最大の境界位置は
１（接頭辞分割）と３（接尾辞分割）の２つある。いず
れも、接辞の種別と位置との矛盾はなく、いずれも選択
は可能だが、番号の若い１で［Ｐ１］の接辞分割を行
い、分割識別子ｃ［１］には接頭辞の識別子＋１を設定
する。これにより、分割された各々の部分文字列に対し
て、再帰的に接辞分割Ｃｕｔ−Ｐが行われ、図１７
（Ａ），（Ｂ）のような２つの分割指標の表が想定され
る。

【００５１】［Ｐ１］の前半の「対」は、接辞分割処理
Ｃｕｔ−Ｐはただちに終了する（図１７（Ａ）参照）。
［Ｐ１］の後半の「共産圏」の接辞分割処理は、図１７
（Ｂ）の表の接辞分割指標の絶対値が最大の境界位置は
上記分割でのもう一方の３（接尾辞分割）であり、［Ｐ
２］の分割を行い、分割識別子ｃ［３］には接尾辞の識
別子−１を設定する。これにより、分割された各々の部
分文字列に対して、再帰的に接辞分割Ｃｕｔ−Ｐが行わ
れ、図１８（Ａ），（Ｂ）のような２つの分割指標の表
が想定される。［Ｐ２］の前半の「共産」及び後半の
「圏」ともに、２文字以下なので、接辞分割処理Ｃｕｔ
−Ｐは終了する。

【００５２】残る［Ｗ１］の後半の「委員会」の接辞分
割処理については、図１４（Ｂ）の表の接辞分割指標の
絶対値が最大の境界位置１０により、［Ｐ３］の接辞分
割を行うことができ、分割識別子ｃ［１０］に接尾辞の
識別子−１を設定する。これにより、分割された各々の
部分文字列に対して、再帰的に接辞分割Ｃｕｔ−Ｐが行
われ、図１９（Ａ），（Ｂ）のような２つの分割指標の
表が想定される。［Ｐ３］の前半の「委員」及び後半の
「会」ともに、２文字以下なので、接辞分割処理Ｃｕｔ
−Ｐは終了する。以上により、ステップＳ１４が終了
し、分割識別子ｃ［ｎ］の可能な設定が行われている。
図１１の表に分割識別子の欄を追加した図２０を示す。

【００５３】次にステップＳ３における単語分割結果の
出力について説明する。分割識別子により、前述のよう
に、例えば、基本単語分割点を′｜′、接辞分割点
を′．′で表わすと以下のような出力表現ができる。対．共産．圏｜輸出｜統制｜委員．会

【００５４】また、次のように、語基、接頭辞、接尾辞
を認識・認識し、出力することができる。語基：共産輸出統制委員接頭辞：対接尾辞：圏会

【００５５】以上、単語末頻度と単語頭頻度の和或いは
相乗平均、差或いは正規化差を用いた分割の実施例を示
したが、以下に別の実施例として、擬似的な単語末確率
と単語頭確率を用いた例を示す。図２１は、擬似的な単
語末確率と単語頭確率、及び単語分割指標としてこれら
の確率の積、接辞分割指標としてこれらの正規化差、そ
して、この指標による分割識別子を設定した表を示す図
である。分割結果は同じになっている。ここで、擬似的
な単語末確率と単語頭確率は、単語末頻度と単語頭頻度
を各々、両頻度の和で割った値をいう。これにより、頻
度が極端に大きいものと小さいものによる影響を減らす
ことができる。なお、対象とする漢字２文字列の総頻度
を得るところを単語末頻度と単語頭頻度の和で替えたの
で、「擬似的」と呼ぶ。

【００５６】この擬似的確率による指標は、頻度による
とうまく分割できない次のような困難な例も正しく分割
できる。図２２乃至図２５は、２単語の頻度による場合
と擬似的確率による場合の分割指標の表を示す図であ
り、図２２は単語「永野茂門前法相発言」に対し、２単
語の頻度による場合の分割指標の表を示す図、図２３は
図２２の２単語の頻度による場合と比較するための、擬
似的確率による場合の分割指標の表を示す図、図２４は
単語「山梨県中巨摩郡玉穂町」に対し、２単語の頻度に
よる場合の分割指標の表を示す図、図２５は図２４の２
単語の頻度による場合と比較するための、擬似的確率に
よる場合の分割指標の表を示す図である。

【００５７】図２２乃至図２５に示すように、対象単語
が「永野茂門前法相発言」、「山梨県中巨摩郡玉穂町」
である場合、頻度による分割では、「永野．茂｜門前｜
法相｜発言」、「山梨｜県中．巨摩．郡｜玉穂町」とな
るのに対し、擬似確率による分割では、永野｜茂門｜
前．法相｜発言」、「山梨．県｜中．巨摩．郡｜玉穂
町」となり、正しく分割できているのがわかる。

【００５８】図２６は、図４に代わる辞書の例を示す図
である。擬似的な単語末／頭確率を用いる場合、あらか
じめ計算しておくことができるので、図２６のように辞
書に頻度とともに、或いは確率のみを格納しておいても
よい。

【００５９】本発明としては、前述したように、複合語
分割装置によって、語基、接頭辞、接尾辞が得られるの
で、これらを集計することにより、日本語辞書を作成、
或いは語彙の追加を行う日本語辞書作成装置としての形
態も可能である。

【００６０】本発明は、上記複合語分割装置或いは日本
語辞書作成装置の各実施例で説明した実施形態のみに限
定されたものではない。本発明は、さらに上記複合語分
割装置或いは日本語辞書作成装置の各実施形態において
処理の流れを説明したように、その流れとしての複合語
分割方法或いは日本語辞書作成方法としての形態も可能
である。さらに、図２に示した複合語分割装置或いは日
本語辞書作成装置を構成する各部の機能をプログラム化
した形態や、そのプログラムをあらかじめＣＤ−ＲＯＭ
等の記録媒体に書き込んでおき、このＣＤ−ＲＯＭをＣ
Ｄ−ＲＯＭドライブを搭載したコンピュータに装着し
て、コンピュータへそのプログラムをロードすることに
よって、実施例の実施形態と同様な機能を実現すること
ができる。

【００６１】

【発明の効果】本発明によれば、従来技術で課題であっ
た、人手での開発による辞書、大きな処理コスト、精
度、ヒューリスティック等の課題を解決し、容易に高い
精度で複合語を分割することができる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る複合語分割装置の
全体構成を示す図である。

【図２】本発明の一実施形態に係る複合語分割装置の
機能構成を示す図である。

【図３】本発明の一実施形態に係る複合語分割装置に
おける処理の流れを説明するためのフロー図である。

【図４】約１２０ＭＢ（新聞記事１年分）の文書デー
タベースから自動作成した辞書の一部を抜粋して示した
図である。

【図５】図３における単語分割処理を詳細に説明する
ためのフロー図である。

【図６】文字位置及び文字境界位置を説明するための
図である。

【図７】図５における文字境界に頻度情報を設定する
処理を詳細に説明するためのフロー図である。

【図８】単語「対共産圏輸出統制委員会」に対し、各
漢字２文字組の前と後ろに辞書により得られる単語頭頻
度及び単語末頻度を示した図である。

【図９】単語「対共産圏輸出統制委員会」に対し、単
語の位置にｎに対する単語末頻度及び単語頭頻度ｆ
［ｉ，ｎ］を設定した表を示す図である。

【図１０】単語「対共産圏輸出統制委員会」に対し、
基本単語分割の指標ｗ［１，ｎ］として両頻度の和、接
辞分割の指標ｗ［２，ｎ］として両頻度の差（ｆ［２，
ｎ］−ｆ［１，ｎ］）を設定した表を示す図である。

【図１１】単語「対共産圏輸出統制委員会」に対し、
基本単語分割指標に単語末頻度と単語頭頻度の相乗平均
（両者の積の平方）、接辞分割指標に頻度差を頻度和で
正規化して値を設定した表を示す図である。

【図１２】基本単語分割指標による基本単語分割Ｃｕ
ｔ−Ｗの処理を説明するためのフロー図である。

【図１３】接辞分割指標による接辞分割Ｃｕｔ−Ｐの
処理を説明するためのフロー図である。

【図１４】図１１の表を基本単語分割指標の最大値５
２９である境界位置８で分割した表を示す図で、図１４
（Ａ），（Ｂ）はそれぞれ、その前半，後半の表を示す
図である。

【図１５】図１４（Ａ）の表を基本単語分割指標の最
大値２９８．５である境界位置６で分割した表を示す図
で、図１５（Ａ），（Ｂ）はそれぞれ、その前半，後半
の表を示す図である。

【図１６】図１５（Ａ）の表を基本単語分割指標の最
大値１５１．４である境界位置４で分割した表を示す図
で、図１６（Ａ），（Ｂ）はそれぞれ、その前半，後半
の表を示す図である。

【図１７】図１６（Ａ）の表を接辞分割指標の絶対値
の最大値１である境界位置１で分割した表を示す図で、
図１７（Ａ），（Ｂ）はそれぞれ、その前半，後半の表
を示す図である。

【図１８】図１７（Ｂ）の表を接辞分割指標の絶対値
の最大値１である境界位置３で分割した表を示す図で、
図１８（Ａ），（Ｂ）はそれぞれ、その前半，後半の表
を示す図である。

【図１９】図１４（Ｂ）の表を接辞分割指標の絶対値
の最大値１である境界位置１０で分割した表を示す図
で、図１９（Ａ），（Ｂ）はそれぞれ、その前半，後半
の表を示す図である。

【図２０】図１１の表に分割識別子の欄を追加した表
を示す図である。

【図２１】擬似的な単語末確率と単語頭確率、及び単
語分割指標としてこれらの確率の積、接辞分割指標とし
てこれらの正規化差、そして、この指標による分割識別
子を設定した表を示す図である。

【図２２】単語「永野茂門前法相発言」に対し、２単
語の頻度による場合の分割指標の表を示す図である。

【図２３】図２２の２単語の頻度による場合と比較す
るための、擬似的確率による場合の分割指標の表を示す
図である。

【図２４】単語「山梨県中巨摩郡玉穂町」に対し、２
単語の頻度による場合の分割指標の表を示す図である。

【図２５】図２４の２単語の頻度による場合と比較す
るための、擬似的確率による場合の分割指標の表を示す
図である。

【図２６】図４に代わる辞書の例を示す図である。

【符号の説明】

１…入力手段、２…ＣＰＵ、３…出力手段、４…メモ
リ、５…記憶手段、６…単語入力部、７…単語分割部、
８…辞書、９…単語分割結果出力部。

Claims

【特許請求の範囲】

【請求項１】日本語の単語を入力する単語入力部と、
日本語文字列をエントリとする辞書と、前記単語入力部
から入力された単語を前記辞書を参照して、複合語分割
する単語分割部と、を有する複合語分割装置において、
前記辞書は、漢字２文字組の文字列の単語頭及び単語末
に出現する頻度を示す頻度情報を有し、前記単語分割部
は、前記単語入力部から入力された単語の漢字列部分
を、２文字の漢字語基と１文字の接辞とに分割すること
を特徴とする複合語分割装置。
【請求項２】前記単語分割部は、複合語分割を行うに
際し、前記入力された単語の漢字列部分の各文字境界に
おける前２文字組の単語末頻度と後２文字組の単語頭頻
度を用いて、分割点を判定することを特徴とする請求項
１記載の複合語分割装置。
【請求項３】前記単語分割部は、前記入力された単語
の漢字列部分の各文字境界における前２文字組の単語末
頻度と後２文字組の単語頭頻度について、２つの頻度の
平衡と偏りを示す指標に基づき、分割点を判定すること
を特徴とする請求項２記載の複合語分割装置。
【請求項４】前記単語分割部は、複合語分割を行うに
際し、前記入力された単語の漢字列部分内の２文字組の
単語頭頻度と単語末頻度から、該２文字組の擬似的な単
語頭確率である単語頭擬似確率と擬似的な単語末確率で
ある単語末擬似確率を得て、前記入力された単語の漢字
列部分の各文字境界における前２文字組の単語末擬似確
率と後２文字組の単語頭擬似頻度を用いて、分割点を判
定することを特徴とする請求項１記載の複合語分割装
置。
【請求項５】前記単語分割部は、前記入力された単語
の漢字列部分の各文字境界における前２文字組の単語末
擬似確率と後２文字組の単語頭擬似確率について、２つ
の擬似確率の平衡と偏りを示す指標に基づき、分割点を
判定することを特徴とする請求項４記載の複合語分割装
置。
【請求項６】前記辞書において、あらかじめ、各漢字
２文字組について、前記単語頭擬似確率及び単語末擬似
確率を設定しておくことを特徴とする請求項４又は５記
載の複合語分割装置。
【請求項７】請求項１乃至６のいずれか１記載の複合
語分割装置を作動させ、機能させるための複合語分割方
法。
【請求項８】請求項１乃至６のいずれか１記載の複合
語分割装置の機能を実現させるためのプログラム。
【請求項９】請求項１乃至６のいずれか１記載の複合
語分割装置を用いて、分割された単語分割結果に基づ
き、抽出された２文字の漢字語基と１文字の接頭辞又は
接尾辞の接辞により、日本語辞書を作成することを特徴
とする日本語辞書作成装置。
【請求項１０】請求項９記載の日本語辞書作成装置を
作動させ、機能させるための日本語辞書作成方法。
【請求項１１】請求項９記載の日本語辞書作成装置の
機能を実現させるためのプログラム。
【請求項１２】請求項８又は１１に記載のプログラム
を記録したコンピュータ読み取り可能な記録媒体。