JPH0347547B2

JPH0347547B2 -

Info

Publication number: JPH0347547B2
Application number: JP59139239A
Authority: JP
Inventors: Tetsunosuke Fujisaki; Masayuki Numao
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1984-07-06
Filing date: 1984-07-06
Publication date: 1991-07-19
Also published as: JPS6126175A

Description

【発明の詳細な説明】［産業上の利用分野］この発明は基本漢字列が組み合わされてなる複
合漢字列をもとの基本漢字列に機械的に分割する
複合漢字列分割装置に関し、とくに確率的な手法
で高精度の分割を行えるようにしたものである。

［従来技術］近年コンピユータによる日本語情報処理例えば
日本語情報の機械検索、自動抄録作成、機械翻
訳、自動朗読、点字化等が実用化され、あるいは
広く研究されつつある。そしてこのような日本語
情報処理を可能にするには日本語文章を解析し、
その内容を機械的に把握するフロントエンドが必
要となる。とくに、日本語ではわかち書きの習慣
がなく文章はブランクのないベタ書きであるので
日本語文章を機械的に単語レベルの単位に分割す
る自動単語分割の可能なフロントエンドが切望さ
れている。過去においては日本語情報を統計的に
処理する等の際に人間が単語分割を行つて入力を
行つていた。この場合コスト及び所要時間の点で
極めて不都合がある。

このような点から日本語文章を単語または文節
に分割する手法についてはいくつかの提案がなさ
れている。このような提案の１つは字種を参照す
るものである。経験上字種の変わり目（ひらがな
からひらがな以外の字種への変わり目）は文節の
変わり目であることが多く、この性質を利用して
文節単位の分割を行うのである。この単純な規則
だけでも文節単位の分割を約84％の精度で行える
ことが報告されている。ただこの手法ではより細
かな単語単位の分割はできず、また精度も十分で
ないという不具合がある。

他の提案としては単語辞書を用いるものがあ
る、情報処理Vol.19、No.６、pp514−521（1973
年）所載の長尾氏等の「国語辞書の記憶と日本語
文の自動分割」はこの単語辞書の手法と上述字種
情報等とを利用して単語を機械的に分割すること
を提案している。特公昭57−13895、57−16372、
57−16373、57−16374、及び57−18221号にも類
似した提案が示されている。

また、確率辞書を用いて漢字仮名まじり文をわ
かち文書する手法が自然言語処理28−５（1981年）
所載の藤崎氏の「動的計画法による漢字仮名混り
文の単位切りと仮名ふり」に示されている。これ
は動的計画法を利用して最も尤度の高いわかち書
文を与える単位切りを見出すものである。

ところで漢字は造語力があり基本漢字列を組み
合わせて複合的な意味を有する複合漢字列を形成
することが多く、この複合漢字列は単語文割の際
にとくに困難なものとされてきた。例えば「電話
器用難燃材料」は「電話器用」、「難燃」及び「材
料」という基本漢字列を複合してなるものである
が、器用という単語に着目してしまつて「電話」、
「器用」、「難燃」及び「材料」という基本漢字列
に分割しがちである。上述の従来の手法もこのよ
うな複合漢字列の分割に対処できないものがほと
んどである。

ただ上述長尾氏等の論文ではこの複合漢字列の
分割の手法も開示されている。この手法では辞書
を用いて複合漢字列を２文字漢字の単位に分割し
たり、接頭語的又は接尾語的性質を有する一文字
漢字をキーとして漢字列を分割している。また辞
書を用いて複合漢字列を２文字漢字列の単位に分
割することを基本としつつ、その分割が不可能な
ときに一文字漢字の性質に着目することも示され
ている。

しかしながら漢字列の一部が２文字漢字として
扱えるか、あるいは接頭語的又は接尾語的性質を
有するかということはその漢字列全体から決定さ
れることである。例えば上述の「電話器用難燃材
料」という漢字列の「器」及び「用」はともに接
尾語的性質を有するもので、「器用」という２文
字漢字として切り出すのは誤りであるけれども、
このようなことは漢字列全体から始めて理解でき
る。従つて、そのようなことを考慮せずに２文字
漢字または一文字漢字をキーとして機械的に分割
を行うことには無理がある。本来的には２文字漢
字ごとに分割されないものが２文字漢字として誤
つて分割されてしまうことも多く、また２文字漢
字を構成する漢字の一方が誤つて接頭語的等と判
断される蓋然性も高く、分割の精度を向上させる
ことは困難であると考えられる。

［発明が解決しようとする問題点］この発明は以上事情を考慮してなされたもので
あり、複合漢字列を高精度に基本漢字列に分割す
ることができる複合漢字列分割装置を提供するこ
とを目的としている。

［問題点を解決するための手段］この発明では以上の目的を達成するために、継
続する２つの漢字の間で起こる状態の遷移の確率
をストアする確率辞書手段を参照して、入力複合
漢字列の状態の系列のうち一番生起確率が大のも
のを判別し、この判別された状態の系列に基づい
て入力複合漢字列を基本漢字単語に分割するよう
にしている。

好ましい態様では動的計画法により最大生起確
率をとる入力複合漢字列の状態の系列を選定す
る。

また漢字列中の漢字のとる状態としては接頭語
状態Ｐ、２つの継続する基本漢字状態１，２及び
接尾語状態Ｓを採用することが好ましい。

［実施例］以下で説明されるこの発明の実施例は漢字列
K₁K₂…Kn（Kiは１つの漢字である）の実現可能
な状態の系列のうち最も到達確率の高いものを動
的計画法で求め、そのようにして選んだ状態の系
列に基づいて漢字列K₁K₂…Knを基本漢字単語に
分割するようになつている。ここでは図面に基づ
く実施例の詳細な説明にさきだつて動的計画法に
よる手法の概要について簡単に触れておくことと
する。なお以下の実施例はハードウエアで実現さ
れたものとして示されているけれども、ソフトウ
エア実現態様を採用し得ることはもちろんであ
る。

この実施例では漢字列K₁K₂…Knの前後に特殊
記号⊥を付し、⊥K₁K₂…Kn⊥とする。なお、以
下では便宜上⊥も漢字と呼ぶこととする。前段の
⊥から後段の⊥にいたる漢字の並びに従つて時間
が推移するものと考える。特殊記号⊥は開始ブラ
ンク状態Ｉ及び終了ブランク状態Ｆをとるものと
する。漢字Ki（ｉ＝１〜ｎ）は接頭語状態Ｐ、２
つの継続する基本語状態１，２及び接尾語状態Ｓ
をとるものとする。例を挙げれば「超党派構成委
員会案」の「超」はＰ状態の漢字であり、「構」
は１状態の漢字であり、「成」は２状態の漢字で
あり、また「会」、「案」はともにＳ状態の漢字で
ある。

便宜上漢字列K₁K₂…Kn⊥実現可能な状態の系
列を有向グラフを用いて表わすと第８図に示すよ
うになる。この図では時間即ち漢字Kiの推移に
従つて状態がどのように遷移していくかが示され
ている。前段の⊥から後段の⊥にいたる多数の遷
移のルートの到達確率PRBはそのルートに沿つ
て起こる状態の遷移の確率PROBiの積として得
られ、PRB＝_o+1 〓ⁱ⁼¹ PROBiである。ただすべてのル
ートについてやみくもに到達確率を求め、その中
から最大のものを選ぶのは現実的でない。そこで
動的計画法では時間即ち漢字Kiの推移ごとにル
ートに沿つた中間的な積を演算していくと同時
に、その推移の時点ですでに考慮する必要がない
ことが判明したルートを削除するようにしてい
る。

第８図の漢字Ki_-1から漢字Kiへの推移を一例
として考えよう。漢字Ki_-1、Kiはともに状態Ｐ
１，２及びＳを基本的にはとり得る。そして漢字
KiがＰの場合、前段漢字Ki_-1がとる状態はＰ、
２及びＳであり、このとき３種類の状態遷移が考
えられる（尚１に継続する状態は２のみであるの
で１→Ｐの遷移は不可能である）。これら３種類
の局所的なパスはそれぞれ遷移確率PROB（l₁，
k₁，j₁）、PROB（l₂，k₂，j₂）及びPROB（l₃，k₃，
j₃）によつて第８図に示されている。またKi_-1ま
での到達遷移はすでに前回のテストで決定されて
おり、この第８図では状態Ｓ、２及びＰに応じて
それぞれの到達確率をPPRB（Ｓ）、PPRB（２）
及びPPRB（Ｐ）で表わした。そしてKiまでの到
達確率を考えた場合、○印を付したルートの到達
確率即ちPPRB（Ｓ）×PROB（l₁，k₁，j₁）が他の
２つのルートの到達確率より大であれば、これら
他の２つのルートをのちのテストで考慮に入れる
必要はない。

同様にしてKiが状態１，２及びＳの場合につ
いても最大の到達確率をとるルートを１つ選ぶ。
そうしてKiにいたるルートのうち考慮すべきも
のを絞り込むのである。

以上のような手法を繰り返して前段の⊥から後
段の⊥まで状態の系列をテストし、これにより効
率良く最大の到達確率を有する状態の系列を選定
し、この選定した系列に従つて漢字列K₁K₂…Kn
が基本漢字列に分割される。

この実施例では以下の規則に従つてこの分割が
行われる。

(1) 漢字２文字で基本的な意味を有するものは基
本漢字列である。この基本漢字列の状態の系列
は「12」である。

(2) 上の基本漢字列に１以上の接頭漢字が付いた
ものも基本漢字列である。この基本漢字列の状
態の系列は「Ｐ…P12」である。

(3) 上の基本漢字列に１以上の接尾漢字が付いた
ものも基本漢字列である。この基本漢字列の状
態の系列は「12S…Ｓ」または「Ｐ…P12S…
Ｓ」である。

例えば「国会法改定法案」の状態の系列として
「12S1212」が得られ、それゆえ「国会法／改
定／法審」に分割される。また「政治的道義的責
任」及び「超党派構成委員会案」からはそれぞれ
「12S12S12」及び「P121212SS」が得られ、「政
治的／道義的／責任」及び「超党派／構成／委員
会案」に分割される。

さてつぎに実施例の具体的な構成について説明
しよう。第１図はこの実施例を全体として示すも
ので、この図において入力段１は分割すべき漢字
列K₁K₂…Kn例えば「国会法改定案」を受け取る
ものである。この入力段１で受け取られた漢字列
K₁K₂…Knはその前後に漢字（特殊記号）⊥を付
けられて入力段１のレジスタI₀，I₁…In₊₁にスト
アされる。これを第２図に示す。

この入力段１は入力列⊥K₁K₂…Kn⊥に対して
第２図に散点で示すようなウインドウを施こして
継続する２つの漢字⊥、K₁漢字Ki_-1、Kiまたは
漢字Kn、⊥を演算制御部２に送出する。このウ
インドウは上述動的計画法における漢字の遷移の
各々に対応し、このウインドウがその遷移の推移
に従つて１漢字分ずつ第２図に矢印で示すように
シフトされ、この結果漢字列K₁K₂…Knから順次
⊥K₁、K₁K₂…Kn⊥が切り出されて演算制御部２
に供給される。

演算制御部２はこのように送出されてくる漢字
Ki_-1、Ki⊥をキーとして確率辞書データベース
３をアクセスして漢字Ki_-1、ki間の実現可能な複
数の状態遷移確率PROBを得る。この確率辞書デ
ータベース３は前段漢字X_L、当段漢字X_R前段状
態PS及び当段状態CSに応じて状態遷移確率
PROBをアクセスできるようになつており、その
詳細は第５図を参照してのちに理解されるであろ
う。

上述したように動的計画法では前回の遷移にお
けるテストで、前段の記号⊥から漢字Ki_-1にい
たるルートが前段状態PSごとに１つずつ確定さ
れている。そして新たな遷移においては漢字Ki
の当段状態CSごとにどのルートが最適かをテス
トすることとなる。もちろん到達確率が一番大き
いものが最適のルートとして選ばれ、これを当段
到達状態遷移CSTTとし、対応する到達確率を当
段到達確率CPRBとしよう。

演算制御部２では以上の処理を実行するために
前回の遷移のテストで前段状態PSごとに求めら
れ前段到達確率PPRB(I)、PPRB（Ｐ）、PPRB
(1)、PPRB(2)及びPPRB（Ｓ）に今回の状態遷移
確率PROBを掛けＸ＝PPRB×PROBを得、この
中から当段状態CSごとに最大のものを選び当段
到達確CPRBとし、対応する到達状態遷移を当段
到達状態遷移CSTTとして当段作業域４にストア
するのである。なお話は前後するけれども、以上
の説明から明らかなように当段到達確率CPRB及
び当段状態遷移CSTTを求めるには前段到達確率
PPRB等が必要であり、これは前段作業域５にス
トアされている。

尚、上述当段作業域４及び前段作業域５はそれ
ぞれ第３図及び第４図に示すように準備される。
また確率辞書データベース３は第５図Ａ，Ｂ及び
Ｃに示すように３種類のテーブルTB１，TB２
及びTB３を有する構造で状態遷移確率PROBを
アクセスし得るようになつている。この構成によ
れば多数の漢字の配列を効率よくアクセスするこ
とができる。

第５図から明らかなようにテーブルTB１にお
いては前段漢字X_Lおよび当段漢字X_Rからなる配
列X_LX_Rがその行番号ｊを用いてX_LX_R(j)として表
記可能である。例えば「国会」という配列はX_L
X_R（1024）として表記される。そしてこの行ｊご
とにテーブルTB２へのポインタPT２(j)が付さ
れており、このテーブルTB２では配列X_LX_R(j)の
各々の前段可能状態PS（Ｉ，Ｐ，１，２，Ｓのい
ずれかである）ごとに行ｋが割り当てられてい
る。従つて、所定の配列X_LX_R(j)における前段状
態PSはPS（ｋ，ｊ）と表記可能である。テーブ
ルTB２においても各行ｋごとにテーブルTB３
へのポインタPT３（ｋ，ｊ）が付されており、
このテーブル３では先の前段状態PS（ｋ，ｊ）の
各々の当段状態CS（Ｐ，１，２，Ｓ，Ｆのいずれ
かである。）ごとに行番号ｌが割り当てられてい
る。従つて所定の漢字配列X_LX_R(j)、所定の前段
状態PS（ｋ，ｊ）における当段状態CSはCS（ｌ，
ｋ，ｊ）と表記可能である。このテーブルTB３
の各行ｌには対応する状態遷移確率PROBがスト
アされている。所定の配列X_LX_R(j)がPS（ｋ，ｊ）
及びCS（ｌ，ｋ，ｊ）をとる状態遷移確率PROB
をPROB（ｌ，ｋ，ｊ）と表記できることはもち
ろんである。

以下では必要に応じて行番号ｊ、ｋ、ｌを用い
て配列、状態遷移、確率等を特定することとす
る。

つぎに第６図及び第７図のフローチヤートをも
参照しながら第１図の実施例についてさらに詳細
に説明しよう。

第１図の入力段１が分割すべき漢字列K₁K₂…
Knを受け取ると第６図及び第７図で示す手順が
開始される（ステツプ11）。こののち当段作業域
４及び前段作業域５がそれぞれ第３図及び第４図
に示すように初期設定される（ステツプ12）。こ
れら第４図及び第５図で空欄となつている部分は
無視（Don′t care）の部分である。初期状態で
は前段状態PSは「⊥」に対応する開始ブランク
状態Ｉでしかあり得ないので、対応する到達確率
PPRB（Ｉ）が1.0であり、他の到達確率PPRB
（Ｉ以外）が0.0であることに留意されたい。

ステツプ13ではウインドウが施こされるレジス
タI_L-1及びI_LのサフイツクスＬがＬ＝１に初期設
定される。これはウインドウが第２図に散点で示
すように指定されることを意味する。このウイン
ドウはのちにステツプ29において順次第２図の矢
印に示すようにシフトさせられていく。

ステツプ14〜26は当段状態CSごとに当段到達
確率CPRB及び当段到達状態遷移CSTTを求める
ものである。

上述したように当段到達確率CPRBを得るには
前回のテストで決定された複数の前段到達確率
PPRBのそれぞれに今回の対応する状態遷移確率
PROBを掛け、Ｘ＝PPRB×PROBを得、この中
から最大のものを選ばなければならない。この実
施例では前段状態PSを変えながら順次対応する
値Ｘを求め、その都度それまでの最大のＸの値と
今求めたＸの値とを比較し、大きいほうを所定の
領域、具体的には第３図のフイールドCSTTにス
トアしていく。前段状態PSのすべてに上述の処
理を実行しおえると、正規の最大値即ち当段到達
確率CPRBがストアされることとなるのは明らか
であろう。また、この実施例では当段状態CSご
とに対応するＸの暫定的な最大値を第３図の対応
するフイールドCSTTにストアするようにしてい
るので、当段状態CSのすべてについて当段到達
確率CPRB及び当段到達状態遷移CSTTを同時に
得ることができる。

即ちステツプ14ではウインドウの施こされたレ
ジスタI_L-1、I_Lにストアされている漢字Ki_-1Kiを
それぞれ前段漢字X_L及び当段漢字X_Rとする配列
X_LX_R(j)が確率辞書データベース３のテーブルTB
１から探し出される。例えば上述の例「国会」で
は行ｊは1024である。次にテーブルTB１の行ｊ
のポインタPT２(j)が指定するテーブルTB２の
行ｋを参照して前段状態PS（ｋ，ｊ）を得（ステ
ツプ15）、この前段可能状態PS（ｋ，ｊ）の前段
到達確率PPRB（PS（ｋ，ｊ））を前段作業域５か
ら得る（ステツプ16）。

ステツプ17では前段到達確率PPRB（PS（ｋ，
ｊ））がゼロであるかどうかをテストし、ゼロで
あれば対応するルートを考慮する必要がないので
直接つぎの前段状態PS（ｋ，ｊ）につきテストを
行う。ステツプ25及び26において所定の配列X_L
X_R(j)について実現可能な前段状態PS（ｋ，ｊ）が
順次テストされていくことは明らかである。

ステツプ17で前段到達確率PPRB（PS（ｋ，
ｊ））がゼロでない場合には、ステツプ18が実行
されてテーブルTB２の行ｋのポインタPT３
（ｋ，ｊ）の指定するテーブルTB３の行ｌが参
照され。状態遷移確率PROB（ｌ，ｋ，ｊ）が得
られる。こののちこの状態遷移確率PROB（ｌ，
ｋ，ｊ）と上述で得た前段到達確率PPRB（PS
（ｋ，ｊ））との積が実行され（ステツプ19）、こ
の積の値Ｘが暫定的な当段到達確率CPRB（CS
（ｌ，ｋ，ｊ））と比較される（ステツプ20）。こ
の当段到達確率CPRB（CS（ｌ，ｋ，ｊ））は当段
作業域４にストアされている。同時に前段到達状
態遷移PSTT（PS（ｋ，ｊ））に当段状態CS（ｌ，
ｋ，ｊ）を結合して新たな当段到達状態遷移
CSTT（CS（ｌ，ｋ，ｊ））として当段作業域４に
ストアする（ステツプ22）。新たな積の値Ｘが前
回までの暫定的な当段到達確率CPRB（CS（ｌ，
ｋ，ｊ））より小さい場合には何もしない。この
テストは配列X_LX_R(j)、前段到達状態遷移PSTT
（ｋ，ｊ）における実現可能な当段状態CS（ｌ，
ｋ，ｊ）につきそれぞれ実行される（ステツプ
24）。

以上の手順が繰り返されることによつて当段作
業域４には最終的に正規な当段到達確率CPRB
（CS（ｌ，ｋ，ｊ））及び当段到達状態遷移CSTT
（CS（ｌ，ｋ，ｊ））がストアされることとなる。

こののちつぎの遷移のテストの準備が行われ
る。即ち、当段作業域４の内容（CWS）が前段
作業域５の対応する領域（PWS）に転送され
（ステツプ27）、さらにPS(I)の場合の前段到達確
率PPRB(I)がゼロにセツトされ、当段到達確率
CPRBがすべてゼロとされる（ステツプ28）。
CPRBをゼロとすれば任意の正のＸを新たな
CPRBとしてストアすることができることに留意
されたい。

ステツプ29においてウインドウのサフイツクス
Ｌが増分されてウインドウが順次シフトされてい
くことについてはすでに述べた。最後に漢字Kn
⊥についてテストが行われる。この場合漢字（記
号）⊥が状態Ｆ以外をとる確率はゼロであり、前
段到達状態遷移PSTT(F)が最終的に得られる最も
尤度の高いルートである。この前段到達状態遷移
PSTT(F)は入力段１からの終了信号に基づいてゲ
ート回路６でゲートされ出力される（ステツプ
31）。こうして１つの漢字列K₁K₂…Knの漢字分
割が終了する（ステツプ32）。

以上説明したようにこの実施例によれば確率に
基づいて漢字列を分割するようにしているので極
めて高精度に分割を行うことができる。また確率
辞書データベース３を対象となる漢字列の分野に
あわせて選択すれば一層精度を向上させることが
できる。さらに動的計画法の手法を採用している
ので効率良く確率を求めることができる。

実験によればこの実施例の分割装置ではJICST
（科学技術情報センタ）抄録の漢字列を99.1％の
精度で分割できた。上述の長尾氏等の論文による
手法では、２文字漢字辞書を用いず一文字漢字の
みをキーとした場合で54.0〜82.6％であり、さら
に２文字漢字辞書を用いた場合でも78.0〜94.9％
であり、これに比較してこの実施例の精度が十分
に高いものであることが理解できる。

［発明の効果］この発明によれば継続する２つの漢字の間で起
こる状態の遷移の確率をストアしている確率辞書
手段を利用して入力連続漢字列の実現可能な状態
の系列のうち一番遷移確率が大となるものを判別
し、この判別結果からその入力連続漢字列の分割
を行つている。従つて、分割を確率にのみ依存し
て行うことができ、その精度を向上させることが
できる。

【図面の簡単な説明】

第１図はこの発明の一実施例を示すブロツク
図、第２図は第１図の入力段１を説明するための
図、第３図は第１図の当段作業域を説明するため
の図、第４図は第１図の前段作業域を説明するた
めの図、第５図は第１図の確率辞書データベース
を説明するための図、第６図及び第７図は第１図
実施例の動作を説明するフローチヤート、第８図
は第１図実施例の概略を説明する図である。１……入力段、２……確率辞書データベース、
３……演算制御部、４……当段作業域、５……前
段作業域、６……ゲート回路。

Claims

【特許請求の範囲】１接頭語状態、接尾語状態等、基本漢字列中に
おける各漢字の状態を利用して、上記基本漢字列
が複合されてなる入力複合漢字列を上記基本漢字
列に分割する複合漢字列分割装置において、継続する２つの漢字の間で起こる状態の遷移の
確率がストアされている確率辞書手段と、上記入力複合漢字列の実現可能な状態の系列の
うち一番生起確率が大となるものを上記確率辞書
手段を参照して判別する判別手段と、この判別手段で判別された状態の系列に基づい
て上記入力複合漢字列を上記基本漢字列に分割す
る分割手段とを有することを特徴とする複合漢字
列分割装置。