JPH0724055B2

JPH0724055B2 - 単語分割処理方法

Info

Publication number: JPH0724055B2
Application number: JP59162443A
Authority: JP
Inventors: 博行梶; 義彦新田; 敦子伊佐津; 富門清水
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1984-07-31
Filing date: 1984-07-31
Publication date: 1995-03-15
Anticipated expiration: 2010-03-15
Also published as: US4750122A; JPS6140671A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、単語分割処理方法に関し、特に未知語を含む
テキストも処理できる日本語処理システムのテキストか
ら単語への自動分割方法に関するものである。

〔発明の背景〕

機械翻訳を含む各種の自然言語処理システムにおいて
は、単語を見出しとする辞書が用いられ、辞書を検索し
ながらテキストの処理が行われる（例えば特開昭56-174
67号公報参照）。しかし、テキストに出現する単語のす
べてをあらかじめ辞書に登録しておくことは不可能であ
り、未知語の取扱いが実用上重要な問題となる。すなわ
ちテキスト中の未知語を効率よく同定することが要求さ
れる。未知語を同定する場合、英語のように単語の間に
スペースが挿入される言語に対しては簡単にできるが、
日本語のように単語が続けて書かれる言語に対してはき
わめて難しい問題である。

日本語のように、単語間にスペースを挿入せずに続けて
書かれる言語のテキストの自動処理を行うには、第１段
階としてテキストを単語に分割する処理が必要である。
このためには、テキスト中の文字列をキーとして単語辞
書を検索し、単語の品詞等により前接語との接続可否を
チエツクする方法が広く用いられている。この方法で
は、分割が行き詰まる（辞書検索に失敗、あるいは接続
可能な単語がない）原因として、未知語がある場合と、
それまでの分割に誤りがあつた場合の２つがある。した
がつて、分割が行き詰つても、直ちに未知語と判定する
ことはできず、別の分割の可能性を求めて後戻り処理を
行うことが必要である。すなわち、未知語が含まれてい
るため、分割処理の行き詰りが発生した場合、後戻り処
理によりテキストの先頭まで戻つた時点で、初めて未知
語が含まれると判断されている。このため、未知語が含
まれていると判定するまでに、多くの処理時間を必要と
している。しかも、未知語が含まれると判断された場
合、そこから先の分割を続行することは簡単ではなかつ
た。すなわち、未知語の存在を考慮しないで、後戻りす
る際に、途中で失敗した分割結果の情報が保存されてい
ないため、未知語が含まれていたと判定されても、その
位置を同定することができなかつた。

前述のように、各種の自然言語処理システムにおいて、
あらゆる単語が辞書に登録されていると考えることは実
際上不可能であり、未知語の入力も許容することが必要
である。例えば機械翻訳の場合、未知語を含むものは翻
訳不可とせずに、未知語については原語のまま挿入した
翻訳文を出力することが望ましい。

〔発明の目的〕

本発明の目的は、このような従来の問題点を解決し、テ
キスト中の未知語を効率よく同定し、未知語以降の部分
に対してもテキストの分割処理を続けることができる単
語分割処理方法を提供することにある。

〔発明の概要〕

本発明の上述の目的は、テキストを入力装置から入力
し、前記テキスト中の文字列をキーとして辞書ファイル
記憶装置中の単語辞書を検索し、記憶装置中の品詞接続
可否情報を参照して前記検索された単語の接続可否をチ
ェックしながらテキストの単語分割処理を行って分割結
果を記憶装置に出力し、単語分割処理が行き詰まったと
きには前記記憶装置に出力されている分割結果の途中ま
で後戻りして、戻った個所より先について別の分割の可
能性を探すテキストの単語分割処理方法において、前記
後戻りを、後戻り開始個所に最も近い字種境界と単語境
界の一致点およびその先に制限するようにしたことを特
徴とする単語分割処理方法によって達成される。

〔発明の実施例〕

以下、本発明の実施例を、図面により説明する。

第１図は、本発明を用いるデータ処理システムのブロツ
ク図である。

この処理システムは、処理装置１、記憶装置２、辞書検
索処理装置３、辞書フアイル記憶装置４、入力装置５お
よび出力装置６から構成される。

記憶装置２には、分割処理の対象となるテキストを格納
するテキスト・エリア、辞書検索のキーとなる文字列を
格納する検索キー・エリア（KY）、辞書から検索された
レコードを格納する辞書レコード・エリア、単語間の接
続可否を示す接続行列を格納する接続行列エリア、分割
結果を格納する分割用スタツク・エリア、後戻りの際に
分割結果を退避する退避用スタツク・エリア等が、それ
ぞれ設けられる。

第２図は、接続行列の一部を示す図である。

接続行列とは、テキストを単語に分割した場合に、各単
語の品詞を調べて、前の単語の品詞が後接単語の品詞
に、文法的に接続可能か否かをチエツクするためのもの
である。そして、接続行列は、第２図に示すように各
行、各列が単語のカテゴリに対応した２値行列であつ
て、“1"のとき接続可、“0"のとき接続不可である。縦
軸に配列された品詞が前の単語であり、横軸に配列され
た品詞が後接単語である。例えば、「自動車（名詞）が
（助詞）走つた（動詞）。」というテキストでは、名詞
の次に格助詞が接続されるので、名詞（縦軸）と格助詞
（横軸）の交点は“1"であり、名詞の次に直接動詞が接
続されないので、名詞（縦軸）と動詞（横軸）との交点
は“0"である。すなわち、ｉ行ｊ列要素の値は、ｉ行に
対応するカテゴリに属する単語の後に、ｊ列に対応する
カテゴリに属する単語が接続可能か否かを“1"、“0"で
示したものである。

第３図は、本発明で用いられる分割用スタツクの説明図
である。

分割用スタツク（STC）は、テキストから分割された各
単語に対応するデータを格納するものである。第３図に
示すように、テキスト中の単語開始位置（ST）と単語の
属するカテゴリ（Ｃ）が少なくとも格納される。スタツ
ク（STC）へのデータの格納およびスタツクからのデー
タの取り出しは、ともにスタツクの先頭に対してのみ行
われる。すなわち、スタツク（STC）はFILO（First In
Last Out）動作を行うもので、最初に格納されたデータ
は最後に取り出される。このため、スタツクの先頭デー
タの位置を指示するスタツク先頭位置インデクス（TO
S）が記憶されている。

記憶装置２の分割結果を退避する退避用スタツク・エリ
アも、第３図の分割用スタツクと同じ構造を有してい
る。

辞書フアイル記憶装置４には、単語の表記文字列を見出
しとするレコードが格納されている。このレコードに
は、少なくとも、その単語の属するカテゴリを示すコー
ドが含まれている。

本実施例では、検索キーが与えられると、辞書検索処理
装置３によりその検索キーの前方と最長一致する見出し
を持つレコードが検索されるものとする。このような検
索機能は、よく知られたフアイル編成方法を用いて実現
することができる。

第４図（ａ）（ｂ）は、本発明の一実施例を示すテキス
トの単語分割処理のフローチヤートである。

第４図（ａ）（ｂ）の実施例においては、第１に、単語
分割が行詰つて、後戻りする際に、未知語の可能性の高
い途中結果を保存しておき、他の分割の可能性がなくな
つた場合には、直ちに未知語を同定できるようにする。
なお、未知語の可能性の高い途中結果の具体例として
は、未知語を後接語として持ち得る単語で終了している
途中結果であつて、最もテキストの前方まで進んだもの
が考えられる。第２に、テキスト中の一定の条件を満た
す点を越えないように、後戻りの範囲を制限することに
よつて、正解に至る可能性がない分割の試行をあらかじ
め防止する。なお、一定の条件を満たす点としては、例
えば、字種境界（ひらがなから漢字に変化する点等）と
単語境界の一致点がある。なぜならば、字種境界と一致
した単語境界は正解である確率がきわめて高いからであ
る。

第４図（ａ）におけるステツプ101,102は初期処理ステ
ツプであり、ステツプ103〜109は辞書検索ステツプであ
り、ステツプ110〜114は接続可否チエツク・ステツプで
あり、ステツプ115〜120は分割用スタツクへの単語登録
ステツプであり、ステツプ121〜129は退避用スタツクへ
の単語退避ステツプである。さらに、ステツプ130〜132
は分割用スタツクからの単語削除ステツプでありステツ
プ133〜137は退避用スタツク内容の分割用スタツクへの
移動ステツプであり、ステツプ138〜141は分割用スタツ
クへの未知語登録ステツプである。

（ｉ）初期処理入力装置５から入力されたテキストは、テキスト・エリ
アTXTに格納され、テキスト長TXLが求められる（ステツ
プ101）。次に、テキスト中の文字位置を示すインデク
スＩに初期値“1"を、テキスト中の未知語候補の位置を
示すインデクスMIに初期値“0"を、分割用スタツク先頭
位置インデクスTOSに初期値“0"を、退避用スタツク先
頭位置インデクスTOS′に初期値“0"を、それぞれセツ
トする（ステツプ102）。

（ii）辞書検索テキストの第Ｉ文字から初まる文字列をキーとする検索
が初回である場合には、検索キーの長さKYLをあらかじ
め定められた最大値MKYLと、第Ｉ文字以降の文字数との
最大値にする（ステツプ103）。ここでMKYLは辞書に登
録された見出しのうち最長のものの文字数としておく。
テキストの第Ｉ文字から始まる文字列をキーとしての検
索がすでに行われている場合、つまり前回検索された単
語を含むような分割が不可であることがわかつている場
合には前回検索された単語から最後尾１文字を削つたも
のをキーとする（ステツプ104）。検索キーの長さが１
以上であれば（ステツプ105）、検索キーを検索キー・
エリアKYにセツトする（ステツプ106）。検索キーの長
さが０であれば（ステツプ105）、辞書検索ができない
ので後戻り処理に移る（以降のステツプ）。

検索キー・エリアKYに検索キーがセツトされると、辞書
検索処理装置３に対し検索キーの前方と最長一致する見
出しを持つレコードの検索を要求する（ステツプ10
7）。辞書検索処理装置３は、該当するレコードが辞書
フアイルにあれば、見出し、カテゴリ・コード等を辞書
レコード・エリアに格納する。レコードが検索された場
合には（ステツプ108）、その単語の単語長をメモリ・
エリアWLに、その単語の属するカテゴリをメモリ・エリ
アC2に、それぞれセツトし（ステツプ109）、接続可否
チエツクに進む。レコードが検索されなかつた場合には
（ステツプ108）、後戻り処理に移る（以降のステツ
プ）。

（iii）接続可否チエツク接続可否チエツクすべき２つの単語のうち、後方の単語
のカテゴリは、すでにエリアC2にセツトされているの
で、ここでは前方の単語のカテゴリを分割用スタツク
（STC）の先頭データ（TOS）を参照することにより、エ
リアC1にセツトする（ステツプ111）。ただし、分割用
スタツク（STC）が空である場合には（ステツプ110）、
文頭の単語に対する処理があるので、エリアC1に“文
頭”をセツトする（ステツプ112）。

次に、エリアC1とC2の品詞間の接続可否を接続行列を参
照して、チエツクする（ステツプ113）。接続可であれ
ば、分割用スタツク（STC）への単語登録に移る。ま
た、接続不可であれば、エリアC2が“文末”の場合（ス
テツプ114）、後戻り処理に（以降の処理）、それ以
外の場合には辞書の再検索に移る（ステツプ104）。

（iv）分割用スタツクへの単語登録接続可否チエツクで接続可となつた場合（ステツプ11
3）、エリアC2が“文末”であれば（ステツプ115）、分
割処理はすべて終了であるが、そうでなければ単語を分
割用スタツク（STC）に登録する。このため、先ず、ス
タツク先頭位置インデクスTOSに１を加える（ステツプ1
16）。次に、登録すべき単語のテキスト中の開始位置は
Ｉ、カテゴリはエリアC2に記憶されているので、これら
をスタツク（STC）の先頭に書き込む（ステツプ117）。
この後、テキスト中の文字位置を示すインデクスＩを進
め（ステツプ118）、次の語の検索に進む。ただし、テ
キストの末尾まで達した場合には（ステツプ119）、エ
リアC2に“文末”をセツト（ステツプ120）した上で文
末チエツクに移る（ステツプ110）。

（ｖ）退避用スタツクへの単語退避第４図（ｂ）に示すように、後戻り処理の前半は、分割
用スタツク（STC）から退避用スタツクへの単語データ
の退避である。これは、他に解が見当らないとき、途中
で失敗した分割結果の情報を保存しておくことにより、
この保存情報を利用するものである。

先ず、分割用スタツク（STC）が空の場合には（ステツ
プ121）、退避すべきデータは存在しないので、退避用
スタツクのデータを復元した（ステツプ134〜136）上で
未知語を認定する処理に移る（ステツプ137〜139）。ま
た、分割用スタツク（STC）の先頭が“未知語”の場合
には（ステツプ122）、その未知語を１文字分延ばす処
理に移る（ステツプ140）。

次に、テキスト中の現在位置Ｉが未知語候補位置MIより
進んでおり（ステツプ123）、かつスタツクの先頭が
“未知語”を後接語としてもち得る語である場合（ステ
ツプ124）、未知語候補を更新する。すなわち、新しい
未知語候補の位置はＩの示す位置とし、同時に不要とな
つた退避用スタツクのデータを捨てる（ステツプ12
5）。次に、Ｉの示す位置の文字がその前の文字と同じ
文字種か否かを調べ（ステツプ126）、同じ文字種であ
ればデータの退避を行う（ステツプ128〜129）。また、
異なる文字種であれば、それ以上後戻りをせず、退避用
スタツクのデータを分割用スタツク（STC）に復元した
上で未知語を認定する処理に移る。ＩがMIより進んでい
ても（ステツプ123）、スタツク（STC）の先頭が“未知
語”を後接語として持ち得ない場合には（ステツプ12
4）、データの退避は行わず、直ちに分割用スタツク（S
TC）からの単語削除に移る（ステツプ130〜132）。

また、ＩがMIより進んでいない場合（ステツプ123）、
退避用スタツクの先頭の語の位置とＩが一致すれば（ス
テツプ127）、Ｉの示す位置の文字がその前の文字と同
一文字種か否かを調べ（ステツプ126）、同一文字種で
あればデータの退避を行う（ステツプ128,129）。ま
た、異なる文字種であれば、それ以上後戻りはせず、退
避用スタツクのデータを分割用スタツク（STC）に復元
した上で、未知語を認定する処理に移る（ステツプ133
〜139）。なお、退避用スタツクの先頭の語の位置がＩ
と一致しなければ（ステツプ127）、直ちに分割用スタ
ツク（STC）からの単語削除に移る（ステツプ130〜13
2）。

（vi）分割用スタツクからの単語削除後戻り処理の後半は、分割用スタツク（STC）からの単
語データの削除である。すなわち、検索キー長KYLに削
除する単語の長さをセツトし（ステツプ130）、テキス
ト中の現在位置Ｉをその単語の先頭位置に変更した上で
（ステツプ131）、データを削除し（ステツプ132）、辞
書の再検索に進む（以降の処理）。

（vii）退避用スタツク内容の分割用スタツクへの移
動これ以上後戻りができない場合には、退避用スタツクの
内容を分割用スタツクに戻す。このため、退避用スタツ
クの先頭データを分割用スタツク（STC）の先頭に移す
処理（ステツプ134〜136）を、退避用スタツクにデータ
が存在する限り（ステツプ133）、繰り返す。さらに、
テキストの現在位置Ｉを、復元された分割用スタツクの
内容に合わせて更新する（ステツプ137）。

（viii）分割用スタツクへの未知語登録退避用スタツクの内容が分割用スタツクに復元される
と、テキストの現在位置Ｉの１文字を“未知語”として
分割用スタツクの先頭に登録する（ステツプ138,13
9）。次に、Ｉを１文字分進めた上で（ステツプ140）、
辞書の検索に進む（以降の処理）。ただし、テキスト
末尾まで到達すると（ステツプ141）、分割処理は終了
する。

以上が処理装置１による単語分割処理の第１実施例であ
つて、分割用スタツク・エリアに残つている分割結果
は、処理装置１から出力装置６に出力される。

このように、第１の実施例においては、テキスト中の未
知語を効率よく同定することができる。未知語が含まれ
るテキストに対しても、テキストの末尾まで単語に分割
されるので、構文解析等の次のステツプの処理を続行す
ることができる。したがつて、機械翻訳において、未知
語を原語のまま挿入した形で、翻訳結果を出力すること
が可能となる。

一方、未知語を含まないテキストに対しても、従来と同
じ分割結果を得ることができる。未知語である可能性が
高い途中結果を保存する処理を含むため、その分だけ効
率は低下するが、保存するものは未知語の可能性の高い
ものに絞つているため、効率低下の割合は僅かである。
また、後戻りの範囲を制限することにより、正解を見逃
す可能性もあるが、字種境界のように統計的に意味のあ
る点を限界点としているため、正解を見逃す確率は小さ
く、未知語同定の効率向上の効果の方が大きい。

第５図（ａ）（ｂ）は、本発明の他の実施例を示すテキ
ストの単語分割処理のフローチヤートである。

フローチヤート中のステツプ201〜202は初期処理ステツ
プ、ステツプ203〜209は辞書検索ステツプ、ステツプ21
0〜214は接続可否チエツク・ステツプ、ステツプ215〜2
20は分割用スタツクへの単語登録ステツプ、221〜228は
未知語抽出ステツプ、229〜234は分割用スタツクからの
単語削除ステツプである。

第５図（ａ）（ｂ）の実施例においては、第１に、日本
語テキストにおいては、単語境界と文字種（漢字、ひら
がな、カタカナ、アルフアベツト等）との間に統計的に
密接な関係が認められ、ひらがなから他の字種に変わる
点で単語境界となる確率が高い性質があり、第２に、多
くの応用システムにおいては、未知語は固有名詞あるい
は専門分野の新しい概念に対して命名された術語である
ことが多いという２つの点に着目している。未知語は、
文字種でいうと、漢字列、カタカナ列、アルフアベツト
列等のひらがな以外の単一文字種からなる場合が多く、
また品詞でいうと名詞あるいはサ変動詞語幹等に限定さ
れると考えられる。

そこで、この実施例では、テキスト中、異種の文字に挟
まれた漢字列、カタカナ列、あるいはアルフアベツト列
に限定して未知語の候補と考える。また、未知語を、単
語の接続可否チエツクのために設定されたカテゴリの１
つと考え、未知語に対しても他のカテゴリと同じように
前接語あるいは後接語のカテゴリを決めておく。このよ
うな前提の下で、辞書検索と接続可否チエツクによる分
割が行き詰つた場合、未知語の可能性を調べ、未知語と
考えられるときは後戻りせずに、分割処理を続行する。

なお、第６図（ａ）（ｂ）の実施例においても、第１図
〜第３図の資源を用いて処理を実行する。

（ｉ）初期処理入力装置５から入力されたテキストは、記憶装置２のテ
キスト・エリアTXTに格納され、テキスト長TXLが求めら
れる（ステツプ201）。次に、テキスト中の文字位置を
示すインデクスＩに初期値“1"を、スタツク先頭位置に
インデクスTOSに初期値“0"をセツトする（ステツプ20
2）。

（ii）辞書検索テキストの第Ｉ文字から始まる文字列をキーとして行わ
れる検索が、初めての場合には、検索キーの長さKYLを
あらかじめ定められた最大値MKYLと、第Ｉ文字以降の文
字数のうちの最大値にする（ステツプ203）。なお、MKY
Lは、辞書に登録された見出しのうち最長のものの文字
数としておけばよい。また、テキストの第Ｉ文字から始
まる文字列をキーとする検索が、すでに行われている場
合には、前回検索された単語から最後尾１文字を削つた
ものをキーとする（ステツプ204）。検索キーの長さが
１以上であれば（ステツプ205）、検索キーを検索キー
・エリアKYにセツトする（ステツプ206）。検索キーの
長さが０であれば（ステツプ205）、辞書検索ができな
いため未知語の可能性を調べる処理に移る（を介して
第５図（ｂ）の処理へ）。検索キー・エリアKYに検索キ
ーがセツトされると、辞書検索処理装置３に対して、検
索キーの前方と最長一致する見出しを持つレコードの検
索を要求する（ステツプ207）。辞書検索処理装置３
は、該当するレコードが辞書フアイルに存在すれば、見
出しとカテゴリ・コード等を辞書レコード・エリアに格
納する。レコードが検索された場合には（ステツプ20
8）、その単語の単語長をメモリ・エリアWLに、その単
語の属するカテゴリをメモリ・エリアC2に、それぞれセ
ツトし（ステツプ209）、接続可否チエツクに進む。レ
コードが検索されなかつた場合には（ステツプ208）、
未知語の可能性を調べる処理に移る（を介して第６図
（ｂ）の処理へ）。

（iii）接続可否チエツク接続可否をチエツクすべき２つの単語のうち、後方の単
語のカテゴリはすでにエリアC2にセツトされているの
で、ここでは前方の単語のカテゴリを分割用スタツクの
先頭データを参照することにより、エリアC1にセツトす
る（ステツプ211）。ただし、分割用スタツクが空であ
る場合には（ステツプ210）、文頭の単語に対する処理
であるため、エリアC1に“文頭”をセツトする（ステツ
プ212）。次に、エリアC1とC2の接続可否を接続行列を
参照してチエツクする（ステツプ213）。接続可であれ
ば、分割用スタツクへの単語登録に進む。接続不可であ
れば、エリアC2が“未知語”あるいは“文末”の場合に
は（ステツプ214）、分割用スタツクからの単語削除に
（を介して第５図（ｂ）の処理へ）、それ以外の場合
には辞書の再検索に移る（ステツプ204）。

（iv）分割用スタツクへの単語登録接続可否チエツクで接続可となつた場合、エリアC2が
“文末”であれば（ステツプ215）、分割処理はすべて
終了であるが、“文末”でなければ、単語を分割用スタ
ツクに登録する。このため、先ずスタツク先頭位置イン
デクスTOSに１を加える（ステツプ216）、次に、登録す
べき単語のテキスト中の開始位置はＩ、カテゴリはC2に
記憶されているので、これらをスタツクの先頭に書き込
む（ステツプ217）。この後、テキスト中の文字位置を
示すインデクスを進め（ステツプ218）、次の語の検索
に進む（ステツプ219,203）。ただし、テキストの末尾
まで達した場合には（ステツプ219）、エリアC2に“文
末”をセツトした上で（ステツプ220）、文末チエツク
に移る（ステツプ210）。

（ｖ）未知語抽出未知語の候補となるのは、ひらがな以外の単一文字種の
列である。そこで、先ずテキストの第Ｉ文字がひらがな
か否かをチエツクする（ステツプ221）。第Ｉ文字がひ
らがなでなく、しかも、文頭でない場合には（ステツプ
222）、さらに第（Ｉ−１）文字が第Ｉ文字と異なる文
字種か否かをチエツクする（ステツプ223）。この結
果、未知語の先頭であり得るか否かを判別できる。未知
語の先頭であり得ない場合には（ステツプ221,223）、
分割用スタツクからの単語削除に移る（ステツプ229以
下）。一方、未知語の先頭と考えられる場合には、異な
る文字種が現われるまでテキストを前方にスキヤンする
ことにより、未知語の長さを求めてエリアWLにセツトす
る（ステツプ224〜227）。さらに、エリアC2に“未知
語”をセツトした上で（ステツプ228）、接続可否チエ
ツクに進む（を介して第６図（ａ）の210へ）。

（vi）分割用スタツクからの単語削除分割用スタツクからの単語削除が要求されたとき、すで
にスタツクが空であれば（ステツプ229）、分割できな
かつたものとして処理を終了する。スタツクが空でなけ
れば、スタツクの先頭からデータを削除する（ステツプ
230〜234）。スタツクの先頭に対応する単語のカテゴリ
が“未知語”でない場合（ステツプ230）、検索キー長K
YLにその単語の長さをセツトする（ステツプ231）。そ
して、テキスト中の文字位置を示すインデクスＩをその
単語の先頭位置に戻す（ステツプ232）。次に、スタツ
ク先頭位置インデクスTOSを１だけ減ずることにより、
スタツクから先頭データを削除する（ステツプ233）。
そして、テキストの第Ｉ文字以降の文字列による辞書検
索に進む（を介して第５図（ａ）のステツプ204
へ）。また、スタツクの先頭に対応する単語のカテゴリ
が“未知語”である場合には（ステツプ230）、先頭デ
ータを削除した後（ステツプ234）、次のデータの削除
処理を行う（ステツプ229）。

このようにして、順次分割処理を繰り返す。そして、分
割用スタツク・エリアに残つている分割結果は、処理処
置１から出力装置６に出力される。

第５図（ａ）（ｂ）の実施例においては、未知語を含む
テキストに対して末尾まで単語に分割できる確率がきわ
めて高い。また、未知語と仮定しての処理は、未知語で
ある可能性が高い場合にのみ行われ、かつ後戻り処理の
前に行うので、処理時間は短くなる。一方、未知語を含
んでいないテキストに対しても、未知語と仮定しての処
理が辞書に登録された語の範囲での分割が行き詰まつた
場合に、初めて行われるので、処理効率が損われること
はない。このように、未知語を含むテキストの単語への
自動分割を効率よく行うことができるので、辞書にすべ
ての単語を登録しておくことが不可能であることを考慮
すると、本実施例の処理方法は実用上きわめて有効であ
る。

〔発明の効果〕

以上説明したように、本発明によれば、テキスト中の未
知語を効率よく同定し、未知語を含む可能性のあるテキ
ストの自動分割処理を効率よく行うことができるので、
自然言語処理システムにおいて実用上きわめて効果が大
である。

【図面の簡単な説明】

第１図は本発明を用いたデータ処理システムのブロツク
図、第２図は本発明に用いる接続行列の一部を示す図、
第３図は本発明で用いる分割用スタツクの説明図、第４
図は本発明の一実施例を示すテキストの単語分割処理の
フローチヤート、第５図は本発明の他の実施例を示すテ
キストの単語分割処理のフローチヤートである。 1:処理装置、2:記憶装置、3:辞書検索処理装置、4:辞書
フアイル記憶装置、5:入力装置、6:出力装置。

───────────────────────────────────────────────────── フロントページの続き (72)発明者清水富門神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (56)参考文献特開昭57−127267（ＪＰ，Ａ) 特開昭56−17467（ＪＰ，Ａ) 特開昭55−127664（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】テキストを入力装置から入力し、前記テキ
スト中の文字列をキーとして辞書ファイル記憶装置中の
単語辞書を検索し、記憶装置中の品詞接続可否情報を参
照して前記検索された単語の接続可否をチェックしなが
らテキストの単語分割処理を行って分割結果を記憶装置
に出力し、単語分割処理が行き詰まったときには前記記
憶装置に出力されている分割結果の途中まで後戻りし
て、戻った個所より前方の文字列について別の分割の可
能性を探すテキストの単語分割処理方法において、前記
後戻りは、最大限、後戻り開始個所に最も近い字種境界
と単語境界の一致点までとすることを特徴とする単語分
割処理方法。
【請求項２】前記後戻りの際に、それまでに最も先まで
進んだ分割処理結果を記憶装置に退避させておき、後戻
りしても別の分割の可能性がなかったとき、前記記憶装
置に退避させておいた分割結果に復帰し、復帰した分割
結果先に続く語が前記単語辞書に登録されていない語、
すなわち、未知語であると認定して、該未知語に続くテ
キストの単語分割処理を行うことを特徴とする特許請求
の範囲第１項記載の単語分割処理方法。
【請求項３】前記未知語を認定する処理では、異種の文
字に挟まれた漢字列，カタカナ列あるいはアルファベッ
ト列に限定して未知語候補とすることを特徴とする特許
請求の範囲第２項記載の単語分割処理方法。