JPH01234975A

JPH01234975A - 日本語文章分割装置

Info

Publication number: JPH01234975A
Application number: JP63056507A
Authority: JP
Inventors: Masayuki Morohashi; 諸橋　正幸; Shigeki Umeda; 梅田　茂樹
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1988-03-11
Filing date: 1988-03-11
Publication date: 1989-09-20
Also published as: JPH0519184B2; US5029084A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野この発明は電子化されている日本語文書を単語に分割す
る日本語文章分割装置に関し、とくに文章中に辞書に登
録されていない単語が含まれる場合にも難なく分割を行
えるようにしたものである。

この発明の日本語文章分割装置はたとえば以下のアプリ
ケーションに適用される。

（１）文献検索システムにおける自動キーワード抽出（２）日本語ＫＷＩＣ（キーワード・イン・コンチクス
ト）システムや日本語文書校正支援システムの主要処理
部分（３）音声合成機による文章の朗読、読み合わせシステ
ムの文章解析部（４）文章のカナ点字への変換システムの文章解析部（５）日本語からの機械翻訳システムや日本語によるデ
ータベース検索システムなどの日本語解析プログラムの
前処理部（６）日本語の言語現象を解析する基礎研究のための解
析手段（たとえば、かな漢字変換で必要な辞書の内容を
決定するための語當調査用単語切り出しツール）Ｂ、従来技術従来の文章語分割技術には、大別して次の４つのタイプ
がある。

（１）字種による分割漢字、カタカナ、ひらがな、などの字種の変わり目を分
割の際の判断に使う。この情報だけで８４％の正しい分
割ができる（版本「文節の認定」日本語情報処理シンポ
ジウム１９７８．７．１７〜２０報告集ｐρ１０５−１
１１情報処理学会）。

しかし通常は、以下の技術の前処理として、あるいは、
以下の技術の一部として利用される。すなわち、この手
法でテキストを大まかに区切ったのち、区切られた断片
をさらに細かく解析する。この前処理により、以後の解
析の単位が短くて済むから、処理時間の短縮がはかれる
。ただし、間違った分割のうち、切るべきでない場所で
切った場合は後の処理に重大な影響を与えるため、この
種の間違いを防ぐ、あるいは、この種の間違いを後で修
正することが行われる。この手法は、この発明のように
細かな解析、分割を行うものではない。

（２）単語辞書による分割現在、発表されているほとんどのシステムがこの方式を
とる（長尾他「国語辞書の記憶と日本語文の自動分割」
、情報処理、Ｖｏｌ、１９、Ｎα６．１９７８年６月）
。この方式では、分割精度を上げるために、解析するテ
キストに合わせて辞書の内容を常時整備すること（主に
、新しい語の追加）と、語の適用の仕方に関するアルゴ
リズムの改良に合わせて、常にプログラムを変更する作
業とが要求される。

どちらの作業にしても、辞書とアルゴリズムとが適用す
る分野に依存すること、辞書とプログラムとの両方につ
いてメインテナンスが永久に続くことが最大の欠点であ
る。プログラム変更の負担をなくすために辞書を何種類
も持って対処することも行われているが、これは辞書同
士の影響が複雑に絡むために却ってシステムのメインテ
ナンスを難しくする。

（３）漢字の性質による分割日本語において使用される全ての語を辞書に登録するこ
とはほとんど不可能であるが、使用されるほとんどの漢
字を登録することは可能であろう。

このことに着目して、各漢字の単語内での使われ方読み
方を前後に来る文字との関係で記述した辞書を使って分
割する技術がある（高野、見本、金子、口重、「日本語
キーワード自動抽出システム（ＪＡＫＡＳ）Ｊ　、第１
８１回情報料学技術研究集会論文集、ｐｐ３５−４４．
１９８１）。これによれば、確かに辞書のエントリの数
は比較的少なく抑えられる。しかし、各漢字が持つ性質
は、単語における品詞はどはつきりしていないために。

国語辞典のような言語学の過去の蓄積がそのまま利用で
きない。したがって、この文献で試みられた科学技術文
献のタイトル以外のテキストに対して辞書の情報がうま
く働くかは不明である。

（４）文字連鎖の統計的情報による分割上記（３）の方
法を統計手法（動的計画法）を用いて行う技術である（
藤崎「動的計画法による漢字仮名語り文の単位切りと仮
名ふり」、情報処理ＮＬ研究、自然言語２８−５．１９
８１．１１．２０）。各漢字が持つべき情報の付与は、
大量のテキストさえあれば自動的に（確率つきで）行わ
れるために、辞書のメインテナンスには多くの人手を割
く必要はない。しかしながら、現在のところ十分な精度
に達するために必要とする大量の電子化されたテキスト
をいかに集めるかという問題がある。また、ある精度に
達成するにはどんなテキストをどのくらい集めればよい
か、辞書の精度が上るとどういう誤りが改善されるのか
の予測が難しいというメインテナンス上の欠点を持って
いる。

Ｃ０発明が解決しようとする問題点この発明は上述の従来の手法の問題点を解消した日本語
文章分割装置を提供することを目的としている。

Ｄ０問題点を解決するための手段この発明では以上の目的を達成するために、単語辞書を
基本とする分割に未登録単語推定規則を適用して未登録
単語が文章中にあられれた場合に対処できるようにして
いる。

すなわち、基本的には単語辞書を用いて分割を行ってい
き、未登録単語に遭遇したときには未登録単語を含む文
字列を種々の態様で暫定的に分割し、分割した部分文字
列を単語辞書の単語にマツチングさせ、マツチした部分
文字列中の文字の数に基づいてもつともらしい分割を決
定するのである。

具体的な例では、まず基本的に自立語辞書と付属語の接
続表とを用いた最長一致法で語分割を行なう。最長一致
の原則は自立語と付属語列とについて運用される。自立
語と付属語との接続検定手法は、かな漢字変換で用いら
れているものをそのまま利用する。辞書にない単語があ
ったときには。

その前後にわたり未登録単語推定を含む解析を行う。こ
の推定は、１つの解析単位について、そのあらゆる場所
から始まる任意長の部分文字列を単語の候補としてあげ
、それらのあらゆる組み合わせの中から最も高い評価値
を与える分割を、解析結果とするものである。ただし、
単語の候補としてあらゆる場所から始まる任意長の部分
文字列をとるのは無駄であるから（「ん」で始まる語の
候補ありえないなど）、単語を構成する文字の組合せに
あらかじめ制約を設けておく。

最長一致解析、未登録単語推定の解析を行うためには、
その対策となる解析単位はできるだけ短かい方がよい。

そこで前処理として、入力文を字種により、また付属語
列との照合により分割することにより、解析効率を高め
ている。

字種による分割は、文字列の字種からみた日本語の語分
割に関する規則（ひらがなから漢字へ変わるときや、句
読点の前後等で語分割がおきる）により、べた書き日本
語文を大まかに分割する。

分割すべきでない場所で分割することを避けるために、
最長前後４文字までの字種の情報により分割するか否か
を決定する。

付属語列との照合による分割は、字種により分割された
単位（セグメント）を対象にそこに含まれる、付属列を
目安にしてさらにこまかく分割を行う。ここで使用する
付属語列は、その直後で確実に分割ができるものだけに
限定して登録されている。（人手でえらび、機械的にチ
エツクする。）辞書による最長一致や、未登録語推定を
含む解析で得られた単語は複合語の語基（「冷房完備」
など）、接頭辞（「剪−首相」、「大災害」など）、接
尾辞（「最終孜」、「適用ガ」など）、活用語尾（ｒ伴
奏」、「返襄ない」など）、派生辞（ｒ美し襄」、　「
作ムる」など）を独立した単語として扱うので、最後に
これらを前後の語とまとめて通常の語の単位あるいは複
合語の単位とする複合語合成規則が働いて最終結果を出
力する。

Ｅ、実施例以下この発明の一実施例について図面を参照しながら説
明しよう。

第１図はこの実施例を全体として示す。第１図において
、この実施例の日本語文章分割装置は入力部１、第１〜
第５処理部２〜６、切換部７．出力部８および辞書、表
、規則等を記憶する第１〜第７記憶部９〜１５からなっ
ている。入力部１は入力テキストを受は取って所定の前
処理（たとえば２バイト・ユニフォーム・コードにする
）を行い、これを後段に供給する。後段の第１〜第５処
理部２〜６はそれぞれ以下の処理を行う。これらについ
てはのちに詳述する。

（１）第１処理部２・・・・字種による分割（２）第２
処理部３・・・・付属語列による分割（３）第３処理部
４・・・・自立語辞書、付属語表による分割（４）第４処理部５・・・・未登録単語推定規則を加味
した再分割（５）第５処理部６・・・・複合語合成規則による調整これら第１〜第５処理部２〜６において第１〜第７記憶
部９〜１５が用いられる。第１〜第７記憶部９〜１５の
データの内容は第１図の対応するブロック内に示すとお
りである。

第１〜第５処理部２〜６で分割して得た単語は出力部１
６を介して出力される。

以下、第１〜第５処理部２〜６における処理を順に説明
していく。

Ｅｌ−字種による分割（第１処理部２）第２図は第１処
理部２の処理を詳細に示す。第２図において第１記憶部
９には字種定義データおよび分割判定規則がストアされ
ている。字種定義データは機械可読なすべての文字につ
いて字種を定義するものである。字種は表１に示すとお
りであり、以下では記号を用いてそれを表わすことにす
る。

なおこの例では解析を厳密にするために通常用いられる
字種に加え、特殊な字種も用意されている。

表１８字種コードＡ：アルファベット、西洋文字例：Ａ、ａ、α等Ｎ：数字例＝２、四、神等に：カタカナ例：力、ヴ、ア等Ｈ：ひらがな例：あ、ば、あ等Ｊ：漢字例：感、町、〆等Ｉ：特殊文字】−（この文字１つで語になるもの）例：
★、／、÷等Ｓ：特殊文字２（この文字１つ、あるいは同じ文字が続
く限りで１つの語となるもの）例：＝、傘等Ｄ：特殊文字３（文脈に依存して処理の変わるもの。多
義文字）例：　（小数点、ピリオド）、−（マイナス、ハイフン）等Ｂ：空白文字Ｌ：行末を示す特別な文字空白：初期状態、あるいはＥＯＤ（ｅｎｄ−ｏｆ−ｄａｔａ）を示す特別な文字分割判定
規則は第１〜第４のレジスタＲＥ　Ｇ　１〜ＲＥＧ４か
らなるシフトレジスタ】−６（第３図）を用いて実行さ
れる。なお第２図で破線は入力テキストの流れお、よび
入力テキストへの処理を示す。

分割判定規則は継続する２つの文字の文字種に基づいて
所定のアクションを実行するものである。

これを直感的に示１＋′ば、〈前の文字の文字種〉〈後
の文字の文字種〉→〈アクション〉ということになるに
の規則は表２のとおりである。表２においてたとえばひ
らがなのつぎにカタカｔがくると、（Ｈ＞＜Ｋ＞→＜　
Ｘ　＞となる。ずなわらレジスタＲＥ　Ｇ　２の分割ク
ラブをオンにして、そ二に分割点を挿入する３第２図の処理ではまず人力されてくる１つの文字とその
文字種とを］／ジスタＲＥＧ　］に転送する（ステップ
５１１）。この際字種定義データを参照する。こののち
レジスタＲＥ　Ｇ　１、ＲｈＯ２の文字種パターンに基
づいて分割判定規則を探索しくステップ５Ｌ２）、対応
するアクションを決定し、そして決定したアクシ玉ンを
実行してレジスタＲＥＧＩ〜ＲＥＧ４の内容を修正する
（ステップ５１３）、こののちレジスタＲＥＧＩ〜ＲＥ
　Ｇ４が空かどうかを判別しくステップ５１４）、空で
あれば処理を終了させ、空でなければ再実行する。　以
上のようにして分割フラグ、廃棄フラグが付与きれ、分
割実行部］−７で分割が実行される。

この分割結県の単位をセグメントと呼ぶ。

第４図に一例として「ソ連のミサイル攻撃の０゜５秒前
・・・・・」の分割の様子を示す。

表２、字種により決定されるアクション後前　　　ＡＮＫＨＪ　　Ｉ　ＳＤＢ丁７空白Ｎ　　　Ｚ
ＺＺＺＺＸＸＸＷＵＶＫ　　　ＸＺＺＸ２ＸＸＸＷＵＶただしＵ：レジスタＲＥＧＩの内容を廃棄（廃棄フラグをオン
）Ｖ：レジスタＲＥＧ２とレジスタＲＥＧＩの分割フラグ
オンＷ：レジスタＲＥＧＩの廃棄、分割フラグオンＸ：レジ
スタＲＥＧ２の分割フラグオンＺ：なにもしない１：レジスタＲＥＧ２の文字＝レジスタＲＥＧ１の文字
ならばＺ、そうでなければＸを行う。

２：レジスタＲＥＧ３の字種≠レジスタＲＥＧ２の字種
ならば２、そうでなければＸを行う３：レジスタＲＥＧ３とレジスタＲＥＧ２の文字＝「ま
っ」ならば２、そうでなければＸを行う４：レジスタＲＥＧ３〜レジスタＲＥＧＩの字種がｒＮ
ＤＮ」ならば２、そうでなければ５：レジスタＲＥＧ３
〜レジスタＲＥＧＩの字種がｒＡＤＡＪならばＺ、そう
でなければＥ２　付属語列による分割（第２処理部３）
第２処理部３は第１処理部２において字種に基づいて入
力テキストを分割して得たセグメントを表３の付属語列
表に基づいてさらに分割するものである。ここでの分割
結果はクローズと呼ばれる。

表３の付属語列表は第２記憶部１０（第１図）に記憶さ
れている。この分割では入力文字列に対し表３の付属語
列の文字パターン照合を行い、一致した部分の直後の分
割を行う。

たとえば、セグメント：　「文献検索において索引語等
の二次情報（自動付与することは情報提供の迅速化（図
ることになろうが」は下線の部分で付属語列と一致し、
この結果、「文献検索において」、［索引語等の二次情
報を」、「自動付与することは情報提供の迅速化を」、
「図ることになろう」および「が」のクローズが生成さ
れる。

表３．付属語Ｊ表をおよびからすればかどうかなったなってなかったなければならないなければにあってにおいてにとってによってにわたってにわたりることになろうるだろうであったであろう表３の付属語列は以下のようにして作成できる。

（第５図）。

分割に利用する付属語列は、経済性（しばしばテキスト
中に現れること）と正確性（間違った切り方を誘発しな
いこと）の両方を兼ね備えていなければならない。経済
性の条件を満たすために、付属語列頻度表等の語當調査
結果や、実際の新聞記事等の生データから繁昌する付属
語列をその候補として選ぶ（ステップ５２１）。次に、
これらが正確性の条件を満足するか否かの判断（ステッ
プ５２２）に以下の手順を用いる。

（１）各候補について付属語の接続解析を行い（この解
析は、第３処理部４で用いる接続検定ルーチンをそのま
ま利用する）、文節の切目となりうる場所を見つける。

この場所は、自立語の始まりとも見做せる。

例二　が・でき・てす・る・こと・に・なろう（２）分割された断片のうち、右端の文字列が２文字以
下ならば、付属語列表に採用しない（「つ」で始まる文
字列や「を」を除く）。２文字以内のひらがな文字列は
、ひらがな書きの自立語となる可能性が非常に高いこと
が採用しない理由である。

例：　上記例の「が・でき・て」の右端文字列「て」は
この条件に当てはまるから、採用されない。

（３）３文字以上の場合は、原則として採用する。

ただし、それがひらがな書きされうる自立語の書出しと
一致しないようにチエツクする必要がある。

例＝　（１）の例「す・る・こと・に・なろう」の右端
文字列「なろう」は「なろう・・・・」という自立語が
存在しないから付属語列表に採用できる。

（４）付属語列全体が自立語の書出しと一致しないよう
チエツクする。

例：「（な）かった」は「か・った」と解析でき上記（
１）〜（３）を満足するが、自立語「かったるい」の書
出しと一致するので表に採用できない。

（１）〜（４）で集めた付属語列に対し、最後に効率上
の観点から次のチエツクを行う。

（５）集められた付属語列中の任意の２つの付属語列ａ
、ｂ　（ａの長さ１　（ａ）≦ｂの長さ１　（ｂ）にお
いて、ｂの右側１　（ａ）文字分がａと同じならば、ｂ
を表から削る（ａ＝「なろう」、ｂ＝「になろう」がこ
の場合にあたる）。

この操作が必要な理由は、ｂがテキストを分割するのに
使われるならば、必ずａも使うことができ、かつ、同じ
場所でテキストを分割するため、ｂは不必要であること
による。

この操作を効率よく行うために、付属語列はまず左右逆
に並べる（「なろう」→「うろな」）。

これらをコードの昇順にソートし、上から順に一致をチ
エツクすれば、すべての２つの付属語列を調べる必要は
なくなる。

Ｅ３　自立語辞書と付属語表とを用いた最長一致法によ
る分割第２処理部３における付属語列表との照合による分割を
経た処理単位（クローズ）をここではさらに分割する。

クローズは文節の連続するものと考える。文節には３つ
の型がある。

型１：自立語と付属語列とからなるもの型２：自立語だ
けからなるもの（動詞の語幹だけからなるものは除く）型３：付属語列だけからなるもの自立語とは、解析辞書にある語が基本であるが。

この他に漢字、ひらがな以外の字種による同一字種な並
びも自立語と考える（　ｒｂｉｇな配当Ｊにおけるｒｂ
ｉｇＪつ付属語表としては、たとえば大河内の分類による９６種
の自立語付属語の品詞について接続しつる関係を定義し
た表（情報処理学会論文誌、■０１゜２４、Ｎｏ、４、
ｐｐ３８９−３９６）を用いることができる。

最長一致による分割は周知であり、詳細な説明は省略す
る。要するに最長一致法は文節が最長となるように自立
語に付属語を接続させていくものである。

最長一致法による分割の例を第６図に示す。

例にあげたクローズの左端の文字で始まる文節１手」、
「手紙」、「手紙と」、「手紙とは」がまず、見つかる
。最長一致の原則により、「手紙とは」を第一文節とし
て分割が進む（ａ）。つぎに、「が」から始まる文字列
に対し文節を探す。

接続詞「が」が文節として見つかる（ｂ）。続いて「き
」から始まる文字列に対して文節を探すが、見つからな
い（Ｃ）、バックトラックにより左端文節にまで戻った
後、「手紙と」が新たに文節として選ばれ分割を再開す
る（ｂ）。以後は見つけた文節のうち最長のものを選ぶ
ことで処理は右端へ到達する（ｄ、ｅ、ｆ）。その結果
、望ましい分割「手紙と１はがきを」が得られる。

Ｅ４　未登録単語推定機能を加味した分割辞書にない単
語（未登録単語）が含まれるために第３処理部４で分割
に失敗したクローズに対してのみここでは処理を行う。

第３処理部４は第７図に示すように大きく分けて、全分
割候補引きあて部１８と分割候補評価部１９の２つから
なる。

全分割候補引きあて部１８では、自立語辞書、接辞接続
規則を含む接辞表、付属語表、登録単語推定規則により
全ての分割候補をみつける。

接辞表は、接頭語、接尾語について隣接する自立語との
接続条件、品詞コードをもたせたもので自立語辞書と同
一の構造をもつものである。接辞には、一般語用、数字
用、固有名詞用の３種類があり、それぞれ該当する名詞
に接続する。クローズ中の全部分文字列を未登録単語と
みなしても次の評価部１９は正しく働くが、効率上の点
から未登録単語の数を減らすために未登録単語推定規則
を導入する。未登録単語推定規則は、「漢字やひらがな
から成る自立語」の文字パターンを記述したもので、英
語を想定した規則とひらがなから成る自立語（和語）を
想定した規則とがある。これを表４に示す。

分割候補評価部１９では、全分割候補引きあて部１８で
みつけた分割の中から以下の評価式で値が最大のものを
最もよい分割と判断する。

Ｖ＝　（最大文節数−当該分割における文節数）×（句
の全文字数−未登録単語の文字数の合計）この式におい
て、「最大文節数」と「句の全文字数」は定数になるか
ら、評価式の値を最大にすることは、文節数を最小に抑
え（式の第１項）未登録単語長を最小にする分割を見つ
けるこことである。ただし、評価に入る前に最大文節数
を知ることは大変なので、簡便な手段として以下の例で
述べるビット列を利用し、文節を見つけながら文節数の
近似値を求め、評価式に利用する。

評価式の値が同点の場合には、分割を左から右へ見てい
ったときに文節の長いものが先に現れた分割を採用する
。

分割の評価値は基本的にはすべての可能な文割に対して
計算されるが、計算途中で過去の最大値に達しないと分
った（当該文節数が「最大文節数−Ｖ　ｍ　ａ　Ｘ÷句
の全文字数」を超えた）場合には。

当然、そこで計算は中止される。

何− クローズ［誤差の伝搬についても」の解析を第８図に例
示する（この例では伝搬が未登録とする）。

自立語「伝搬」が辞書にないため第３処理部４は「誤」
と「の」から始まる文字列について文節を見つけただけ
で解析に失敗し、第４処理部５に制御がわたる。

まず、クローズの各文字から始まる部分文字列に対して
文節を見つける処理が行われるが、無駄な処理を省くた
めにクローズと同じ長さのビット列を用意し、それ以前
の文節候補から到達しうる場所で、かつ、文節が存在す
る場合に「１」をセットする。

第８図では、左端のビットは文節候補が２つ（誤差、誤
差の）存在するから文字「誤」に対応する第１ビツトは
「１」となる。２つの候補の到達点から３番目と４番目
のビットをとりあえず「１」とする。次にビット列を走
査し、「１」の立っている３番目の文字「の」から始ま
る文字列に対して文節候補を見つける。ここでは、未登
録単語推定規則から「の伝」がえられるので「伝」の次
の文字「搬」の位置のビットに「１」を立てる。４番目
のビット位置もオンとなっているので次の文節候補はこ
こから始まる文字列について行われる。

こうしてクローズの右端まで処理が進むと、図にあるよ
うな文節候補が各先頭文字から記録されると同時にビッ
ト列ｒｌｏ１１１１１１１０Ｊがセットされる。このビ
ット列中の「１」の数８が最大文節数の近似値として採
用される。

文節候補を左から順に走査し、なおかつ、同一場所より
始まる候補のうち右にあるものから処理を進めると、最
初の分割として「誤差の１伝搬についても」が得られる
。これに評価式をあてはめることで評価値４８を得る（
（８−２）　Ｘ　（１０−２）＝４８）。この値を超え
る評価値を得るためには文節数は３以下でなければなら
ない（８−４８／１０＝３．２＞３）から、これ以後の
分割は最大値が変わらない限り３文節以下のものについ
てのみ評価を行えばよい。

前の段落で述べた基準にしたがって得られる次の分割は
「誤差の１伝搬に１ついても」であり、この評価値は４
０で前の値より小さいから、この分割は採用されない。

（８−３）Ｘ　（１０−２）＝４０続いて分割「誤差の１伝搬１についても」の評価がなさ
れるが、値４０は今までの最大値より低いのでこの分割
も不可となる。

（８−３）Ｘ　（１０−２）＝４０分割「誤差の１伝搬１につい１ても」は文節数が３を超
えるので評価の必要もなく採用されない。

以後どの分割も３を超えるから、正しい分割は最初の「
誤差の１伝搬についても」であると判断する。このとき
、未登録単語「伝搬」の品詞は最初に付与されたものと
後に続く付属後の関係から「名詞」となる。

なお、第８図で（）で囲んだ部分は付属語、〔〕で囲ん
だ部分は未登録語である。

Ｅ５　複合語合成規則による調整ここで調整を行なわなければならない理由はっぎの３点
である。

（１）最長一致による分割（Ｅ３）の際、解析の都合上
、文節の型を次の３つに設定した。

型１．自立語と付属語列からなる。

型２．自立語だけからなる。

型３．付属語例だけからなる。

本来、文節とは型１で考えるものであり、型２、型３は
（Ｅｌ）〜（Ｅ４）の処理の都合上拡張したものである
。たとえば型２は、隣接する前後の文節中の自立語と併
わせで複合語とすべきであり、また型３は、前の文・節
の付属語と継ぎ合わせて考えるか、前の文節が自立語だ
けからなるものであれば、これを継ぎ合わせて新たに文
節を形成すると考えるのが正しい解釈である。このよう
に再調整することにより整合性のとれた分割結果を提供
できる。

（２）情報検索等の応用技術を考えるとき、複合語情報
は有益なキーを与える。例にみる様に「付属語解析」は
「付属」、「語」、「解釈」という３つの語からなる複
合語であることが知られる。したがって、ここからキー
ワード（検引語）を抽出し付与する際、「付属」、「付
属語」、「語解析」、「付属語解析」等の語をキーワー
ドとして選択することができ、検索効率を高めることが
できる。

また機械翻訳を考えたとき、「付属語解析」という語が
日英辞書になくても、「付属」、１語」、「解析」とい
う基本語が辞書にあれば、処理が可能となる。

（３）付属語の一つ一つについてその品詞カテゴリと明
確にすることにより機械翻訳の前処理の際、有益な情報
を与える。たとえば「行なうことができない」という文
節を１行」　（自立語動詞語幹）＋「うことかできない
」　（付属語列）ではこれに対応する正しい英語を生成
することが不可能であるが、「行」　（自立動詞語幹）
＋「う」　（付属語、活用語尾）＋「こと」（付属語、
形式名詞）＋「が」（付属語、格助詞）＋「「でき」　
（付属語、可能を表わす助動詞）＋「な」　（付属語、
否定を表わす形容詞）＋「い」　（付属語、活用語尾）
と分割されていればここではじめてこれに対応する英語
としてｒｃａｎ　ｎｏｔ　ｄｏＪ等の出力が可能となる
。

第９図に示したように調整は短単位語（語基、接辞、付
属語等）への分割を行う短単位語分割部２０と合成規則
による再構成を行う再構成部２１で実行される。

短単位語分割のうち自立語の複合語の分割は、その複合
語に関して辞書に登録された分割情報にしたがって行わ
れる。辞書中の分割情報は、自立語の短単位の切目と読
みの切目および各短単位の属性（語基、接頭辞、接尾辞
の区別）から成る。

複合語の再構成のために使われる合成規則には以下のも
のがある。

■　派生語を作る接辞を直前の自立語に組込む。

例）開（開くの語幹）＋け（他動詞にする派生辞）→ 開け（開けるの語幹） ■　自立語と付属語の組合せにより自立語の品詞を決定
する。

■　名詞十名詞→複合名詞 ■　−段動詞語幹＋自立詞→複合語例）　見（見るの語幹）十定め→見学め■　他の動詞語
幹＋連用形活用語尾＋自立語→複合語例）　遊＋び十場所→遊び場所檻第１０図において、入力文「付属語解析はバックトラッ
クを行わない」について第５処理部６で行なわれる処理
を例示する。

この入力文字列は、各処理部２〜５（ただし第４　処理
部５はこの例では通らない）により４つの文節に分割さ
れる。自立語分割は、辞書に書かれた情報を利用して「
付属語」を「付属」と「語」とに分ける。３つの付属語
（列）、「は」、「を」、「わない」は、付属語分割部
によって分割および品詞の割り付けがなされる（入力文
は１０の語に分けられる）。その後１合成規則により「
付属」、「語」、「解析」が複合として認定され（合３
）、また、「バックトラック」の品詞が名詞のみに絞ら
れる（合２）。

Ｆ６発明の詳細な説明したように、この発明によれば、解析する文書の
分野に応じてそこで使われる用語を特別に登録すること
なく、汎用の辞書を用いるだけで日本語文章を単語にわ
け、かつ、品詞をふることが可能になり、辞書の管理、
更新という大量の人手と費用を要する処理を省くことが
できる。

【図面の簡単な説明】

第１図はこの発明の一実施例の概要を示すブロック図、
第２図は第１図実施例の第１処理部２の字種による分割
処理を示す模式図、第３図は第２図のシフト・レジスタ
１６の構成を示す図、第４図は第２図の分割処理の一例
を示す図、第５図は第１図の第２処理部３の付属語列に
よる分割で用いる付属語列表の作成を示す図、第６図は
第１図の第３処理部４で実行される最長一致法の一分割
例を示す図、第７図は第１図の第４処理部５の未登録単
語推定規則を用いた再分割の詳細を示す図、第８図は第
７図例の実行例を示す図、第９図は第１図の第５処理部
６の詳細を示す図、第１０図は第９図例の実行例を示す
図である。５・・・・未登録単語推定規則を加味した再分割を実行
する第４処理部、１８・・・・全分節候補引き当て部、
１９・・・・分割評価部出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション復゛代理人　弁理士　　澤　　１）　俊　　夫人力テキ
スト第２図シフト　レジスタｆＲＥＧｔ＋１　（ＲＥＧ３）　（ＲＥＧ２）　［ＲＥ
Ｇｌ　１竿６図分割実行部出力　　　ンフト　レジスタ　規則　　　入
力テキストクロース′ 第７図りＯ−ズ文節「−ｍ＝ゝ−ｍ　　／”−−一ゝ−一）−ゝコメイ第１０ｍｍ−へ−０クロース゛の坐位う（わない）２　　　１寸７　　　属ｉ　　　；吾１列１わｔい〒わない

Claims

【特許請求の範囲】

（１）辞書と、この辞書を参照して入力日本語文章を分割する第１の文
章分割手段と、この第１の文章分割手段が上記辞書に登録されていない
単語に遭遇したときに、これを検出する検出手段と、上記検出手段の検出に応じて上記辞書に登録されていな
い単語を含む文字列を１または複数の実現可能な態様に
分割する暫定分割手段と、上記実現可能な態様の各々について隣接する分割点で挟
まれる部分文字列の各々を上記辞書中の単語とマッチン
グさせる手段と、上記実現可能な態様の各々について、上記辞書中の単語
と正しくマッチングした上記部分文字列に含まれる文字
の数を求め、この文字の数に応じて当該実現可能な態様
を評価する評価手段と、この評価手段が最も高く評価し
た態様で、上記辞書に登録されていない単語を含む上記
入力日本語文章を分割する第２の文章分割手段とを有す
ることを特徴とする日本語文章分割装置。
（２）上記評価手段は上記実現可能な態様を、その態様
で分割される部分文字列の数も加味して評価する特許請
求の範囲第１項記載の日本語文章分割装置。