JPH07311768A

JPH07311768A - 形態素解析方法およびテキスト処理システム

Info

Publication number: JPH07311768A
Application number: JP5103091A
Authority: JP
Inventors: David Chang; チャンデイビッド; Bing-Hwang Lee; ワンリービン; Jian-Ming Tsaur; ミンツァウジャン; Huan-Chan Lin; チャンリンファン
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 1992-04-30
Filing date: 1993-04-28
Publication date: 1995-11-28
Anticipated expiration: 2013-12-16
Also published as: JP2839426B2; US5268840A

Abstract

(57)【要約】（修正有）【目的】テキストを効率的に形態素解析するための方法
およびシステムを提供する。【構成】センテンス中の文字列から有効な形態素の辞書
内にリストされている最長形態素を形成１０２し、この
形態素が先に分割されている形態素と接続可能であるか
どうかを判別してセンテンスを分割する。この判別に
は、フロント接続コードとバック接続コードの関連した
対を検索１０４する。接続コードが、許容可能な関係の
テーブル内に同様にリストされていれば、接続可能であ
る。残りの文字列から文字を分割できない場合は、先に
分割した形態素を再分割する。一つの形態素を分割で
き、これが先の形態素と接続可能であれば１０９、接続
アクションを記録する１１０。所定の接続アクションに
応答して、残りの文字列のうちの一つの文字から次の形
態素を作成し、これをテストして次の形態素を分割す
る。すべて分割した後、隣接形態素を関連づける接続ア
クションに従って形態素からワードグラフを作成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字認識に関し、特
に、書かれたまたはプリントされたテキストを形態素に
分割するための方法およびシステムに関する。

【０００２】

【従来の技術】図１は、光学式スキャナ１２がデータ処
理システム１４に接続された光学式文字認識システム
（ＯＣＲ）１０に関する。この光学式スキャナ１２は、
テキスト中の書かれたかまたはプリントされたページを
スキャンし、ページに書かれたかまたはプリントされた
個々の文字を読み出す。一般に、スキャナ１２は、所定
のセットからの文字を認識することができ、スキャンさ
れた各の文字に関連したシンボル表示像を戻すことがで
きる。これらのコードはデータ処理システム１４へ送っ
て更に処理できる。

【０００３】図１に示すデータ処理システム１４は、バ
ス２０を介して主メモリ１８に内部接続されたＣＰＵ１
６を含む。更にバス２０にはディスクメモリ２２および
Ｉ／Ｏインターフェース２４が接続されており、Ｉ／Ｏ
インターフェース２４は光学式スキャナ１２に接続され
ている。このようにデータ処理システム１４は、Ｉ／Ｏ
インターフェース２４を介して光学式スキャナ１２によ
り読み取った文字を取り込むことができる。

【０００４】プリントされたテキストを処理したいとい
う要望は多い。テキスト自体は、ＯＣＲシステムを使っ
てスキャンして個々の文字を抽出できる。次にこのシス
テムから各文字のシンボル表示をデータ処理システムに
送信し、任意のアプリケーション、例えば書かれたテキ
ストを別の言語に翻訳したりまたは書かれたテキストの
解釈をするアプリケーションに従って更に処理される。

【０００５】テキストの形態素解析すなわちテキストの
単語（ワード）を形態素に分割し、次に形態素を互いに
関連づけることが好ましい。形態素とは、意味を伝える
ことができる分割できない最小のワード部のことであ
る。例えば、ワード「gun」（銃）は形態素であり、これ
は読み手にある意味を伝えるが、これよりも小さい単位
には分割できず、同じ意味を伝える。一方、ワード「gu
ns」（銃（複））は２つの形態素すなわち「gun」と
「s」とから成る。前の方の形態素は、以前と同じ意味
を伝えるが、この前の形態素の後に第２の形態素「s」
を付けると、複数である旨の意味が伝えられる。多数の
形態素を組み合わせて一つのワードにすると、より複雑
な意味を伝えることができる。例えばワード「gunfight
er」は、「gun」（銃）と、「fight」（戦う）と、「e
r」（者）とを含んでいる。

【０００６】上から判るように、「gun」および「figh
t」のように単独でもよい形態素もあれば、ワードの一
部であって「ｓ」および「ing」のように単独で使用さ
れないものもある。更に「together」またはフレーズ
「in order to」のような分割できない単位から成る形
態素もある。しかしながらこれら形態素は、意味を大幅
に変えることなく更に分割することができない形態素で
もある。

【０００７】英語では、「スペース」文字をワードの区
切りマーク（テリミタ）として使用できるので、特定の
ワードが始まり、終了する場所を決定することは簡単な
作業である。しかしながら、この作業は他の言語、例え
ば日本語、中国語または朝鮮語では単純ではない。セン
テンス内の各文字は、大きな組から選択され、他の文字
に対してほぼ一様に分かれている。また一つのセンテン
ス中の一つの文字の位置により、読み手が文字をワード
に分析する仕方が大幅に違ってしまうことがある。文字
単独または文字列は、特定の意味を伝える分割できない
最小単位すなわち形態素から構成される。またこの形態
素は、別の形態素に関する情報を伝えるだけの全フレー
ズであったり、ワードであったり、ワードの一部または
語義上の単位であったりする場合もある。

【０００８】形態素解析法の目的は、テキストを複数の
形態素に分割し、次にこれらを互いに関連づけることに
ある。これまでに数種類の形態素解析法が開示されてい
る（例えば特開昭６１−２１０４７９、特開昭６０−２
０２３４を参照）。

【０００９】

【発明が解決しようとする課題】ある言語、例えば日本
語は、２つの隣接する形態素は一定の接続規則に従わな
ければならないという構造的文法を有している。すなわ
ちこれらの規則は、２つの形態素を互いに隣接させるこ
とができるか否かを決定している。従来の２つの形態素
解析方法は、日本語における形態素間の接続関係を利用
するものであった。最長一致法と称される最初の方法
は、文字列のセンテンスを一時に一つずつ形態素に分割
するものである。まず、解析プログラムは、センテンス
の開始点から始めて、日本語辞書にリストされている文
字の最長リシーズを認識できる一つの形態素として配列
する。次に、この形態素がセンテンスの開始点に接続で
きるかを判別する。この形態素がセンテンス内の最初の
形態素でなければ（すなわち、上記の発生した形態素が
センテンスの開始点に接続できなければ）、解析プログ
ラムは最長形態素を形成するステップに戻る。次に、２
番目に長い形態素を形成し、上記の方法でテストする。

【００１０】最初の形態素を分割した後、第２の形態素
を同じように分割する。最初の形態素の次の文字で始ま
るセンテンスの他の文字列から最長の可能な形態素を形
成し、こうして形成した第２の形態素をテストし、これ
が第１の形態素と接続できるか否かを判断する。２つの
形態素が接続可能であれば、上記のように第２形態素を
再構成する。すなわち、センテンス中に残っている文字
の最長文字列の、次に長い文字列から第２形態素を形成
する。解析中は、どの形態素に対しても再構成は生じ得
ると解される。更に最初に形態素が分割できそうに見え
ても、後に不正確に分割されていることが判ることがあ
る。従って解析プログラムは先に分割した形態素を再分
割するようバックトラッキングすることを含む解析方法
においてどのステップにもバックトラッキングできる。
図２はかかるケースを示す。

【００１１】ここには、上記最長一致方法の可能なステ
ートを示す目標ツリーの例が示されている。このツリー
の各ノードはＡ〜Ｍまでの文字により示されるセンテン
スから一つの形態素を分割した後のプロセス中の可能な
ステートを示している。目標ツリーのうちのルートノー
ド４００は分割形態素がないセンテンスのステートを示
す。このルートノード４００は、上記基準に従ってセン
テンスからの最初の形態素の３つの可能な分割例を示す
子ノード４２６、４０６、４０１を有している（ここで
逆Ｖマークすなわち「」は、図２における分割された
形態素を区切るデリミタである）。各子ノード４２６、
４０６、４０１は、辞書にも載っており、センテンスの
開始点とも接続可能である、センテンスからの３つの形
態素のうちの一つを形成した後のセンテンスのステート
を示す。従って、「Ａ」、「ＡＢＣ」および「ＡＢＣ
Ｄ」は、辞書にリストされており、センテンスの開始点
と接続可能な形態素のすべてである。

【００１２】図２に示すように、センテンスの開始点に
接続可能な、文字Ａ〜Ｍにより形成できる形態素のうち
で、「ＡＢＣＤ」が最長である。最長一致法では、これ
が最初の形態素を最初に分割する方法である。従って、
ノード４０１は、最長一致方法の第１ステートを示す。

【００１３】最長一致方法は、次に文字列Ｅ〜Ｍから第
２形態素を分割することに移る。ノード４０２および４
０３に示すように、文字列Ｅ〜Ｍからは辞書に載ってお
り、かつ最初の形態素「ＡＢＣＤ」に接続可能な形態素
は２つしかない。しかしながら、最大一致法は、長さが
短くなる順に形態素を形成し、テストするものである。
従って、残りの文字列Ｅ〜Ｍからもっと長い「ＥＦＧ
Ｈ」が形成され、テストにパスできる。この結果、ノー
ド４０２に示されるステートとなり、センテンスから形
態素「ＡＢＣＤ」および「ＥＦＧＨ」が分割される。

【００１４】図２に示すようにノード４０２は子ノード
がない。残りの文字列Ｉ〜Ｍでは辞書にのっている形態
素は形成できないかまたは形態素を形成できても、形態
素「ＥＦＧＨ」と接続できないことを意味する。従っ
て、最長一致法の解析プログラムは、ノード４０１のス
テートに「バックトラッキング」する。最長一致法の解
析プログラムのステートがノード４０１に示されている
状態にあると、解析プログラムは文字列Ｅ〜Ｍから「Ａ
ＢＣＤ」と接続可能な別の第２形態素を形成しようとす
る。ノード４０３に示すように、「ＡＢＣＤ」に接続可
能な、次に長い形態素は「ＥＦ」である。その後、最小
一致法は、同様にしてノード４０３および４０５のステ
ートを通って第３および第４の形態素（それぞれ「Ｇ
Ｈ」「ＩＪＫ」）を分割しようとする。

【００１５】ノード４０５に達すると、解析プログラム
は残りの文字ＬおよびＮから４番目の形態素「ＩＪＫ」
と接続できる第５番目の形態素は形成できないと判断す
る。解析プログラムは、ノード４０４にバックトラッキ
ングし、文字Ｉ〜Ｍから４番目の形態素を再分割する。
これからは形態素「ＧＨ」と接続可能な他の形態素がな
いので、解析プログラムはノード４０３にバックトラッ
キングし、文字Ｇ〜Ｍから３番目の形態素を再分割す
る。これは不可能であるので、ノード４０１にバックト
ラックし、文字Ｅ〜Ｍから第２形態素を再分割する「Ａ
ＢＣＤ」と接続可能な形態素はすべて試みているので、
解析プログラムはルートノード４００に戻り、文字列Ａ
〜Ｍから最初の形態素を分割する。この点で、最初の形
態素は、ノード４０６に示すように「ＡＢＣ」として再
切り出しする。ノード４２５に達するまで数字の順に番
号の付いたノードを通って上記のように処理が続くと理
解できよう。ノード４２５の点で、センテンスから形態
素のすべてを分割することになる。

【００１６】図２の目標ツリーから判るように、最長一
致法は、形態素を形成するのに極めて限られた基準を使
用している。この方法では、長さが短くなる順に形態素
を形成し、これらが接続可能であるか否かを判断するテ
ストする。しかしながら、最初は正しいと考えられて
も、後で正しくないと判ることがある。この時は、最長
一致法は、形態素を分割した順と逆の順にセンテンス中
の形態素を再分割するようバックトラッキングする。後
に正しくないと判るまで発見されない正しくない選択
が、分割プロセスで多く行われるにつれて、アルゴリズ
ムの効率が低下する。

【００１７】パーズリスト法と称される他の方法は、セ
ンテンスのうちの形態素をより選択的にサーチしようと
する方法である。この方法での解析プログラムは、解法
のステートごとにセンテンス内の残りの文字列から次の
形態素の分割をするための可能な選択案のすべてを決め
る。例えば解析プログラムは図２の例を使用して、文字
列Ａ〜Ｍから３つの形態素「Ａ」、「ＡＢＣ」および
「ＡＢＣＤ」を形成し、これらはセンテンスの開始点と
接続可能であると判断する。

【００１８】特定の部分的解法を用いて、全センテンス
を分割する可能性を決めるためのある式にしたがって各
部分的解法に重みを割り当てる。成功するのに最良と思
われる部分的解法を選択し、この部分解法によって処理
を続ける。第１形態素の次に、残りの文字列から辞書に
リストされており、第１形態素に接続可能なすべての可
能性のある第２形態素を作成する。例えば、「ＡＢＣ
Ｄ」が完全に分割されたセンテンスに最もなり得る可能
性が高いと仮定する。「ＥＦ」および「ＥＦＧＨ」を作
成し、テストする。こうして作成した各新しい部分的解
法にも重みを割り当てる。またすべての部分的解法の重
みのすべてを比較し、合致に最も成功すると思われる部
分的解法を続ける。例えば、この段階では先で確かに見
えた最初の分割形態素「ＡＢＣＤ」は、最終的解法（す
なわち、完全分割セグメント）となりそうもないとす
る。かかる場合、最も可能性のある部分的解法は、別の
第１分割形態素を有する他のステート、例えば図２のノ
ード４２６、４０６のステートのうちの一つとなる。従
って、この最も確かな部分解法を続ける。すなわち、こ
の解法の次に解析される形態素に対するすべての選択案
を利用し、これらに重みを割り当てる。ノード４０２、
４０３、４０６および４２６の重みを比較した後、ノー
ド４０６が最も確かな解法であると仮定する。かかる場
合、センテンスから第２形態素として「Ｄ」および「Ｄ
ＥＦ」を切り出すことによりノード４０７、４１６を検
査する。最終解法が得られるまで、このプロセスを続け
る。

【００１９】パーズリスト方法は、理論的には最適な方
法であるが、実際上は不適当であることが証明されてい
る。これは重みの計算が１００％正確にできないことに
よる。更に、形態素解析法の各ステージで処理続行前に
最も確かな部分解法の潜在的形態素のいずれも評価し、
重みを割り当てなければならない。これにより、センテ
ンス中の次の形態素に対し、多くの選択案を評価しなけ
ればならないので、効率が低下する。最後に部分解法ご
とに対する重みを決定する式は、各部分解法に対する重
みを計算するための時間条件を大きくすることがある。
これらの要因のすべてがアルゴリズムの効率を低下する
ことになる。

【００２０】従って、本発明の目的は効率が良く、バッ
クトラッキングの量を減少するテキストの形態素を解析
するための方法およびシステムを提供するものである。

【００２１】

【課題を解決するための手段】本発明は、テキスト例え
ば日本語テキストの形態素の解析をするための効率のよ
い方法およびシステムに関する。本発明は、テキストに
書かれている言語の文法規則により定められる接続関係
を利用するものである。この接続関係は接続コードおよ
び接続アクションコードを利用して実行される。例えば
日本語辞書におけるどの形態素にも図３に示すような接
続コードの一対または数対を割り当てできる。図３に示
すように、各コード対は、フロント接続コードとバック
接続コードを有する。例えば形態素１はフロント接続コ
ード１とバック接続コード５４を有し、形態素にはフロ
ント接続コード１９９とバック接続コード１３８を有す
る。フロント接続コードは、センテンス内において特定
の形態素をその前の形態素に関連させるよう働き、逆に
バック接続コードはセンテンス内において特定の形態素
をその後の形態素に関連させるよう働く。

【００２２】日本語における許容可能な形態素間の関係
は、すべて図４に示されるような表にまとめることがで
きる。図４に示される表部分は、かかる表の一部のリス
トである。２つの隣接する形態素の各々からの一つの接
続コードを含むコード対により、各テーブルエントリー
をクロス参照する。最初のコードは、先の形態素のバッ
ク接続コードであり、第２コードは後の形態素のフロン
ト接続コードである。形態素間の許容可能な関係のすべ
てを記憶するだけでなく、このテーブルは接続アクショ
ンと称される２つの隣接形態素間の関係を規定するエン
トリーも記憶している。図４に示すように、接続コード
の各対は、一つの接続アクションコードを示している。

【００２３】図４の表は、２つの形態素を互いに隣接で
きるときに適用される文法規則を表にして示すものであ
る。許容できる関係を示すテーブル内で、それぞれの接
続コードに同じインデックスがついている場合に限り、
２つの形態素を接続できる。すなわち互いに隣接するこ
とができる。この対偶命題も真である。すなわち許容可
能な関係を示す表において、２つの形態素のそれぞれの
接続コードに同じインデックスがついていなければ、こ
れらワードは隣接させることはできない。従って２つの
隣接する形態素を識別するときに、許容可能な関係を示
すテーブルを参照すれば、これら形態素は文法規則に従
って配列されているかどうかを判別できる。更に、表内
の接続アクションエントリーを検索することによって、
２つの形態素間の関係を判断できる。

【００２４】

【作用】本発明の実施において、複数の文字から成るセ
ンテンスを一時期に一つずつ形態素に分割する。まず最
初に、辞書にリストされている文字列のうちの最長の可
能な副文字列をセンテンス内の残りの文字列から分割す
る。この最長形態素は相互に接続された文字ノードのグ
ラフまたはツリー構造である「パターンテーブル」を使
用して得る。以下このパターンテーブルについて説明す
る。

【００２５】得られる最長形態素は、センテンスから先
に分割された形態素と必ずしも文法的に接続できるよう
に（すなわち隣接できないように）なっていないので、
まずテストが必要である。このため、最初のテーブルか
らこの形態素のフロント接続コードおよびバック接続コ
ードのすべての対を検索する。次に、この形態素は先の
形態素（センテンス内に先に分割された形態素がない場
合は、センテンスの開始点）と文法的に接続可能なもの
であるかどうか判別される。これは、テストしていない
形態素に関連する接続コードの各対からのフロント接続
コードと先の形態素に関連した各対から選択したバック
選択コードの順列を使用して、許容可能な関係を示すテ
ーブル、または接続アクションコードテーブルを引くこ
とによって行うことができる。センテンス内に先に分割
された形態素がない場合デフォールトバック接続コード
を供給する。

【００２６】未テスト形態素および先に分割された形態
素から選択された接続コードの上記各順列によりインデ
ックスされる接続アクションコードエントリーを第２テ
ーブル（存在していれば）から検索する。未テスト形態
素のコード対から選択された特定フロント接続コード
が、上記順列中の接続アクションコードと同じインデッ
クスになっていなければ、この特定コードが選択された
全コード対を除く。例えば、テスト済み形態素がフロン
トおよびバック選択コードの３つの対すなわち（ａ，
ｂ）、（ｃ，ｄ）および（ｅ，ｆ）（このうちａ、ｃお
よびｅはフロント接続コードである）を有していると仮
定する。ｃは先の形態素のバック接続コードを有する接
続アクションコードと同じインデックスになっていなけ
れば、対（ｃ，ｄ）を除く。

【００２７】少なくとも一つの接続アクションコードが
存在していれば、形態素を互いに結合し、ある関係を確
立できる。順列に対し接続アクションコードが存在して
いなければ、これら形態素は隣接することはできない。
このことは、上記最長形態素は正しくなく、形態素の再
編成が必要であることを意味している。この場合、文字
列から組み立てた最長形態素の次に長い形態素を作成
し、テストしなければならない。

【００２８】辞書にリストされているような形態素を形
成しないか、または接続可能な形態素（すなわち先に分
割された形態素に隣接できる形態素）を形成しないよう
な残留文字がセンテンスの終了点にある場合、先に分割
された形態素へのバックトラッキングを行う。換言すれ
ば、最初正しいと考えられていた先に分割された形態素
を再分割するわけである。センテンス内のいくつかの先
に分割された形態素を再分割するため、処理が失敗した
段階でバックトラッキングを行うことがある。この再分
割工程が一旦完了すれば、以前と同じように形態素解析
ステップを続行する。

【００２９】接続アクションコードの検索に成功する
と、すなわち形態素が先の形態素と接続可能であれば、
この接続アクションコードを記録し、このプロセスを繰
り返す。換言すれば、センテンスのうちの残りの文字列
から次の形態素を分割する。特定の接続アクションコー
ドを検索すれば、一つの次に残っている文字から次の形
態素を形成することにより、次の形態素の分割を行う。
ルックアヘッド処理と称されるこの方法は、日本語文法
の特定の性質、すなわち所定の文脈では次の形態素とし
て特定の単一文字が続かなければならないという性質を
利用している。

【００３０】センテンスから形態素のすべてが分割され
た後に、各接続アクションコードに関連した接続アクシ
ョンを実行する。実行ステップでは、センテンス中の役
割に従って形態素を連結するワードグラフとなるよう、
これら形態素を配列する。グラフの作成を助けるため、
各形態素に関連した知識情報を参照する。その後に所望
のアプリケーション例えば翻訳、解釈等のアプリケーシ
ョンに従ってグラフ化されたセンテンスを更に処理でき
る。

【００３１】

【実施例】図５は、ＣＰＵ１６（図１）で実行されるプ
ログラムのフローチャートを示す。このプログラムはＣ
言語またはＬＩＳＰを用いて実行できる。日本語テキス
トの形態素解析に関連して、このプログラムの実行を説
明するが、本発明の方法は、他の言語、例えば朝鮮語お
よび中国語のテキストにも適用できる。

【００３２】まず、ステップ１００から実行を開始す
る。このステップでは、ＣＰＵ１６（図１）は残り文字
列と称される変数としてセンテンスを記憶する。この残
り文字列変数は、スキャン中の文書に現れる順にセンテ
ンス中の文字を記憶する。センテンスから形態素を分割
する際、残り文字列から各分割形態素内に含まれる文字
が除かれる。従って、残り文字列変数は、形態素解析法
を実行している点における入力済みセンテンス中に残っ
ている分割されていない文字を記憶している。更にこの
ステップ１００では、変数ｉは１に初期化される。この
変数は、現在どのセンテンス中のどの形態素を分割して
いるかを示す。

【００３３】次に、ステップ１０２によりＣＰＵ１６
（図１）内の実行が続行する。このステップでは、セン
テンス中の最初の文字から始まる残りの文字列からの最
長文字列を集合し、最良の可能な形態素を作成する。こ
のプロセスでは、日本語にある形態素だけが残りの文字
列から組み立てられるよう、日本語辞書１０１参照す
る。この日本語辞書は、図１のメモリ１８または２２に
記憶されている。好ましくは、このステップを効率的に
実行するには、図６に示されるパターンテーブルを補助
にして最長の可能性のある形態素を組み立てる。

【００３４】図６に示すようにパターンテーブル２００
はいくつかのツリーデータ構造から成り、メモリ１８ま
たは２２（図１）に記憶できる。日本語文字セットの各
文字で始まる日本語形態素のすべてを記憶するよう一つ
のツリー、例えばツリー２００−１が与えられる。従っ
て、日本語文字セットの一義的文字に各ルートノード２
００−２が関連している。各ツリーの残りのノードが関
連している。各ツリーの残りのノード２００−３〜２０
０−８は、他の文字列または形態素区切り点に対応して
いる。中間ノード２００−３〜２００−５、２００−８
には文字しか記憶されず、ターミナルノード２００−６
〜２００−７には形態素のデリミタしか記憶されない。

【００３５】ルートノード２００−２からターミナルノ
ード２００−６、２００−７へのツリー内のパス（例え
ば２００−２、２００−３、２００−４、２００−６）
を横断し、横断順に到着する各ノードに関連した文字を
記憶することにより、形態素を検索するように各ツリー
２００−１が構成されている。ＣＰＵ１６（図１）は、
センテンス中に残る各文字に対応するツリー２００−１
のノード２００−２〜２００−７を横断することによ
り、センテンス中に残る文字列から作成できる最長形態
素を計算できる。例えば、ＣＰＵ１６（図１）は、ルー
トノード２００−２が残りの文字列のうちの最初の文字
（すなわちセンテンス中の次の切り出されていない文
字）に対応しているパターンテーブル２００からツリー
２００−１を選択するステップをまず実行する。その
後、ＣＰＵ１６（図１）を使用して、ルートノード２０
０−２から残りのストリング内の次の文字（すなわち第
２の未解析文字）に対応するノード２００−３または２
００−５までツリー２００−１を横断する。次にＣＰＵ
１６（図１）は、現在の子ノード、すなわち２００−３
から残り文字列内の第３の文字に対応するその子ノー
ド、例えば２００−４までツリー２００−１を横断す
る。残り文字列内の次の文字に対応する子ノードを有し
ていないノード２００−２〜２００−７に達すると、Ｃ
ＰＵ１６（図１）は、現在のノード、例えば２００−４
が区切り点を記憶するターミナルノード、例えば２００
−６を有しているかどうか判別する。有していなければ
ＣＰＵ１６（図１）は現在のノードからデリミタ子（す
なわちターミナル）ノードを備えた最も近いノードまで
横断してきたツリーを逆に戻る。センテンス内の残りの
文字列から作成できる最長形態素は、ルートノードから
ターミナルノードへ通過順に通過される各ノードに関連
した文字から成る。

【００３６】図６に示すようにデリミタ２００−６は、
メモリ１８または２２（図１）内に記憶さえる接続コー
ドテーブル（ＣＣＴ）１０５（図５参照）内のエントリ
ー３０５の位置を指すアドレスである。図７に拡大して
示すこのエントリー３０５は、（図６のツリー２００−
１を通過することにより作成した）最長の形態素に関連
した接続コード対１０５−１（フロントコード１、バッ
クコード１）、１０５−２（フロントコード２、バック
コード２）、．．．１０５−Ｎ（フロントコードＮ、バ
ックコードＮ）を含む。いくつかの形態素は２つ以上の
役割を果たすことができるので、一般的に２対以上の接
続コードを有する。例えば、２つ以上の対のコードを収
容するには、パターンテーブルの形態素デリミタ２００
−６は、第１接続コード対１０５−１の位置を指すこと
が好ましい。

【００３７】いくつかの形態素は同意語を有する。図示
するように、形態素の同意語群は、ＣＣＴ１０５（図
５）内に対のうちの一つのセットだけのポインタを有し
ている。

【００３８】図７に示すように、第１対１０５−１に隣
接するＣＣＴ１０５（図５）内に他の対１０５−
２、．．．、１０５−Ｎが記憶されている。ＣＰＵ１６
（図１）がパターンテーブルから最長形態素を検索した
後、ＣＰＵ１６（図１）は、ターミナルノード、例えば
２００−６（図６）に記憶されたアドレスを使用してＣ
ＣＴ１０５（図５）に容易にアクセスできる。コード対
１０５−１、１０５−２、．．．、１０５−Ｎの次には
ＣＣＴデリミタ２０１がある。ＣＰＵ１６（図１）が対
１０５−１、１０５−２、．．．、１０５−Ｎを検索す
る際、このＣＰＵはＣＣＴデリミタ２０１に達したかど
うかを判別するためスキャンする。ＣＣＴデリミタ２０
１に達すると、ＣＰＵ１６（図１）はコード検索を停止
する。

【００３９】図６にしめすように、ＣＣＴデリミタ（図
７）は、日本語／中国語知識辞書２０２内のエントリー
位置を指す。図示するようにこの知識辞書は、メモリ１
８または２２（図１）にも記憶されており、ＣＰＵ１６
（図１）は、ＣＣＴデリミタ２０１（図７）を使用して
知識辞書２０２内の対応するエントリーにアクセスでき
る。形態素の目的とするアプリケーションが書かれた日
本語から中国語への翻訳にある場合、これは有効であ
る。かかる場合、この辞書エントリーは、センテンスを
分割した後、ワードグラフ内に特定の形態素を配列する
ための重要情報を含む。

【００４０】再度図５を参照する。ＣＰＵ１６（図１）
がステップ１０２で最長形態素を計算した後、ステップ
１０３まで進む。ここでは形態素を検索したのかどうか
を判別する。形態素が検索されていなければ、バックト
ラック処理を行うステップ１０８までジャンプする。ス
テップ１０８では、先に分割した形態素をリフォームす
るようインデックスｉをデクリメントする。次にステッ
プ１０２へ戻り、ここで次に長い形態素を作成し、これ
と先に分割した形態素とを交換するようテストする。

【００４１】ステップ１３０で、ＣＰＵ１６（図１）が
形態素を作成したと判断すると、ステップ１０４に進
み、ここでＣＰＵ１６（図１）はＣＣＴ１０５から最長
形態素の接続コードを検索する。先に述べたように、Ｃ
ＣＴ１０５内の適当な接続コード対を指す辞書１０１ま
たはパターンテーブウ２００（図６）内に記憶されてい
る関連ポインタをこの形態素は有していてもよい。これ
とは異なり、形態素をＣＣＴ１０５内のインデックスと
して図示するように使用し、適当な接続コード対を検索
する。

【００４２】各形態素は、接続コードの少なくとも一つ
の対と、一つのフロントコードおよび一つのバックコー
ドを有する。しかしながら、一般的には各形態素は２つ
以上の対のコードを有する。かかる場合、ＣＰＵ１６
（図１）コードのすべてを検索し、（後に述べるよう
に）ステップ１０６およびステップ１０９で一つずつテ
ストする。数種の異なるコードが有効（形態素を接続可
能にできる）であることも有り得る。有効コードのすべ
てを保持しながら、残りを除く。

【００４３】少なくとも一つの接続アクションコード対
を検索した後、ＣＰＵ１６（図１）の実行をステップ１
０６で続ける。ここでは、最長形態素が先に切り出した
形態素と接続可能かどうかを判断するよう最長形態素を
テストする。最初の形態素の前では、形態素は分割され
ないので、ＣＰＵ１６（図１）は最長形態素がセンテン
スの開始点（文頭）と接続可能かどうか判別する。図示
するようにＣＰＵは、センテンスの開始点に対しデフォ
ールト接続コード対を使用する。

【００４４】比較ステップ１０６では、ＣＰＵ１６（図
１）は、最長の先の形態素の接続コードを利用して、メ
モリ１８または２２（図１）に記憶されている接続アク
ションコードテーブル（ＣＡＣＴ）１０７にアクセスす
ることにより最長作成形態素をテストする。ＣＰＵ１６
（図１）は、最長の未テスト形態素の接続コード対から
選択したフロント接続コードおよび先の形態素の対から
選択したバック接続コードの各順列に対するアクセスを
実行する。先に分割された形態素がない場合、デフォー
ルトバック接続コードが与えられる。

【００４５】図８にＣＡＣＴ１０７のセグメントの一例
２０３が示されている。このＣＡＣＴセグメント２０３
は２つのテーブル２０４および２０５に分割され、これ
らテーブルはメモリ１８または２２（図１）に記憶され
るが、単一のテーブルを使用することもできる。第１テ
ーブル２０４は３００のエントリーを有し、各エントリ
ーは形態素の３００の可能なバック接続コードを記憶し
ている。第１テーブルはエントリーのバック接続コード
に接続可能な形態素のフロント接続コードの対応する番
号を各エントリーと共に記憶している。例えば、「１」
のバック接続コードを有する形態素は１１個の特定のフ
ロント接続コードのうちの一つを有する形態素と接続可
能である。これはテーブルエントリー２０６−１により
示される。同じように、バック接続コード「２」を有す
る形態素は、１２個の特定のフロント接続コードのうち
の一つを有する形態素と接続可能であることを、ケーブ
ルエントリー２０６−２は示している。第２テーブル２
０５は次のように各バック接続コードと接続できるフロ
ント接続コードのすべてを記憶している。ロケーション
０〜１０は、先の形態素のバック接続コード「１」と接
続できる１１個の後形態素のフロント接続コードを記憶
している。その後、ロケーション１１〜２２は、先の形
態素のバック接続コード「２」等に接続できる後形態素
のフロント接続コードを記憶している。従って、フロン
ト接続コードとバック接続コードの対を比較するには、
バック接続コードが接続できるフロント接続コードおよ
びテーブル２０５内のオフセットテーブルエントリーを
知っていなければならない。

【００４６】図８に示すように、先の形態素のバック接
続コードおよび上記最長形態素のフロント接続コード
は、１〜５９の番号である第３エントリーを指示する。
各番号は特定接続アクションのコードを示す。この接続
アクションは２つの形態素の関係を記述するものであ
る。２つの接続コードは、ＣＡＣＴ１０７（図５）内の
接続アクションコードを指示すると、特定の指示された
接続アクションが２つの形態素の間の関係を記述する。
このことは２つの形態素が接続可能なものであることを
意味している。接続コード対に対して接続アクションが
ない場合２つの形態素はこのコード対によっては接続で
きない。このようにＣＰＵ１６（図１）が形態素をテス
トする際、テストされていない形態素に関連した接続コ
ード対の数が減らされる。例えば、ｉ番目の形態素が５
つの接続コード対を有しており、そのうちの３つの対が
ｉ番目の形態素を（ｉ−１）番目の形態素に関連させる
フロント接続コードを有していると仮定する。この場
合、ＣＰＵ１６（図１）は、ｉ番目の形態素をその後の
形態素に関連させない、ｉ番目の形態素の接続コードの
２対を省く。他方、（ｉ＋１）番目の形態素が、接続コ
ードの３対を有しており、このうちのいずれの対もｉ番
目の形態素の残りの３つの対のバック接続コードと接続
できるフロント接続コードを有していないと仮定する。
この場合ＣＰＵ１６（図１）は長さの短い順に（ｉ＋
１）番目の形態素をリフォームする。

【００４７】次に、ＣＰＵ１６（図１）の実行はステッ
プ１０９に進む。ここでは、形態素のテストの成功に応
じて形態素をリフォームしたり、次の形態素を作成した
りする。先の形態素のバックコードおよび次の形態素の
フロントコードから形成される２つのコードを上記のよ
うに配列しても接続アクションがインデックスされない
場合、ＣＰＵ１６（図１）の実行操作はステップ１０２
にジャンプして戻り、ここでセンテンス内の残りの文字
列から異なる形態素を作成する。リフォーム（ステップ
１０２）において、残りの文字列から次に長い形態素を
作成し、ＣＰＵ１６（図１）を使用して、上記のように
この形態素が接続可能なものであるかどうかを判別する
ようにテストできる。他方、かかる接続可能な形態素を
作成できない場合、（ステップ１０３および１０８を介
して）バックトラッキングが行われる。すなわち、ＣＰ
Ｕ１６（図１）により先に切り出された形態素を再分割
する（すなわち、この形態素を構成する文字列から、最
長形態素の次に長い形態素を作成してテストする）。か
かる場合、ＣＰＵ１６（図１）は形態素カウンターｉを
１だけリクリメントし、最後に分割された形態素を再分
割する。かかる形態素を作成できない場合、先に分割さ
れた形態素のその前の形態素を再分割する（形態素カウ
ンターｉは１だけリクリメントされる）。新しい形態素
が作成された後、ＣＰＵ１６（図１）における実行は、
上記のように正常に進む。

【００４８】上記最長形態素が、先に分割された形態素
と接続可能である場合、ＣＰＵ１６（図１）における実
行はステップ１１０まで続く。ステップ１１０におい
て、ＣＰＵ１６（図１）は上記最長形態素の接続コード
を記録し、形態素は分割されたものとみなされる。更に
最長形態素と先の形態素との関係を述べているそれぞれ
の接続アクションコードもＣＰＵ１６（図１）により記
録される。分割すべき次の形態素の数を表示する変数ｉ
がＣＰＵ１６（図１）によりインクリメントされ、この
形態素を構成する文字列が残りの文字列から除かれる。
次にＣＰＵ１６（図１）における実行は、ステップ１１
２に進む。ここではセンテンスの終了点（文末）に達し
たかどうか判断される。センテンスの終了点に達してい
る場合、ＣＰＵ１６（図１）の実行はステップ１１８に
進む。終了点に達していない場合はステップ１１４に進
む。

【００４９】ステップ１１４では、ＣＰＵ１６（図１）
はルックアヘッド処理が必要かどうか判別する。特にこ
のステップ１１４では、現在の切り出された形態素と、
先に切り出された形態素を関連付けた接続アクション
は、特別なアクションであったかどうか判別される。図
示するようにステップ１１４では、対応する接続アクシ
ョンコードは４０であったか、現在分割されている形態
素のバック接続コードが１２４、１３１、１４１〜１４
９、１５２また１５９であるかどうか判別される。これ
によって、先に分割された形態素が一つのワードである
か、および現在切り出されている形態素が語幹であるか
が表示される。かかる場合、次の形態素は一つの文字し
か有しないリーフ（接辞）でなければならない。接続コ
ードは４０で、最終分割形態素が上記バック接続コード
のうちの一つを有していれば、ＣＰＵ１６（図１）の実
行はステップ１１６にジャンプする。そうでない場合は
ステップ１０２にジャンプし、ＣＰＵ１６（図１）はセ
ンテンス内の残りの文字列から次の形態素を分割する。
使用されている最終形態素の接続コードに応じて、次の
形態素として異なる形態素を作成できると解すことがで
きる。接続アクションコードが４０である場合、ルック
アヘッド処理ステップ１１４に進むことが好ましい。４
０でない場合、ＣＰＵ１６（図１）の実行操作はステッ
プ１０２に進み、先の形態素のバック接続コードにより
接続可能な次の最長形態素を作成する。

【００５０】ステップ１１６では、ＣＰＵ１６（図１）
は、残りの文字列（センテンス）内の文字のうちの次の
一つの文字から次の形態素を作成する。ルックアヘッド
処理と称されるこの方法は、語幹が続いているワードの
シーケンスの後の形態素は、リーフ（接辞）でなければ
ならないとする日本語の自然な制約を利用するものであ
る。次の単一文字から次の形態素を形成した後、ＣＰＵ
１６（図１）の実行操作はステップ１０４にジャンプす
るが、そうでない場合は通常通り進む。ルックアヘッド
処理では、分割すべき次の形態素は既に作成されている
ので、ステップ１０２〜１０３はスキップされる。

【００５１】センテンスの終了点に達すると、ステップ
１１２から１１８に進む。ステップ１１８では、ＣＰＵ
１６（図１）は接続アクションおよび各形態素に関連し
た知識情報を使用して、ワードグラフを作成する。これ
を行うため、ＣＰＵ１６（図１）は各接続アクションコ
ードに関連した方法を実行する。図９は接続アクション
コードの一般化されたテーブルおよびこの接続アクショ
ンコード従って実行される方法を簡単に記載したもので
ある。接続アクションコードの全てが実行された後、デ
ータ処理システム１４（図１）からＣＰＵ１６（図１）
によりグラフ上のセンテンスが出力される。

【００５２】図５および図１０を参照して、日本語セン
テンスの分割例について説明する。図１０にはＣＰＵ１
６（図１）が図５の特定ステップを実行した後の形態素
解析方法のステートを示す表が示されている。このテー
ブルの第１コラムは、変数ｉの値を示し、かつ現在どの
形態素を分割しているかを述べている。第２コラムは、
形態素解析法を特定ラインのステートにしているＣＰＵ
１６（図１）により実行される図５のステップを示して
いる。第３コラムは、分割プロセス中である現在の形態
素を示している。第４コラムは、現在分割中の形態素の
接続コードを示す。第５コラムは、現在の形態素と先の
形態素を関連させる接続アクションコードを表示し、最
終コラムは、各ステップを実行した後の残りの文字列を
表示している。説明を簡単にするため、最長一致ステッ
プ１０２の細部については述べていない。

【００５３】まず、ステップ１０２において、文字のセ
ンテンスを読み取り、これを残りの文字列に記憶する。
形態素カウンターｉを１に初期化し（「＜」文字により
表示される）、センテンスの開始点に接続コードのデフ
ォールト対（すなわちフロント接続コード「２」および
バック接続コード「２６９」）を割り当てる。次に、残
りの文字列から抽出できる可能な最長形態素が検索され
るまで、ステップ１０２を実行する。形態素が作成され
るので（ステップ１０３）、ステップ１０４を実行し、
接続コード対（すなわちフロント接続コード「１」およ
びバック接続コード「５４」）を第１作成形態素に対し
て検索する。次に、この形態素がセンテンスの開始点と
接続できるかどうかを判別するよう、ステップ１０６を
実行する。コード対（２０６、１）は、接続アクション
コード１５を指示するので、この形態素はセンテンスの
開始点と接続できる。従って、ステップ１０９〜１１４
では接続アクション１０を記録し、形態素カウンターｉ
をインクリメントし、ステップ１０２へ戻り、ここでセ
ンテンスの残りの文字列から次の形態素を切り出す。

【００５４】図１０からわかるように、２つから４つの
形態素の各々は、２つの文字から成り、それぞれ接続コ
ード対（１、７４）、（２０５、１６４）、（１、５
４）を有する。２つから４つの形態素は、コード１０、
３０および４４に対応する接続アクションによりそれぞ
れ接続される。同様にして各形態素を決定するので、残
りの文字列内に残っている文字が減少する。

【００５５】最後に８番目の形態素を作成する。コード
４０に対応する接続アクションにより、８番目の形態素
は７番目の形態素に接続されると判断される。更に、８
番目の形態素のバック接続コードは１４８であるので、
ステップ１１６ではルックアヘッド処理がイネーブルさ
れる。残りの文字列のうちの次の一つの文字から９番目
の形態素が作成される。その後すぐにステップ１０４へ
移り、ここで９番目の形態素のためにＣＣＴから接続コ
ード（１４２、１３７）が検索される。次にステップ１
０６において、コード３０に対応する接続アクションに
より、９番目の形態素は８番目の形態素に接続されると
判断される。

【００５６】次に、図１３を参照する。ここには図５の
ステップ１１８を実行する前に、全センテンスにわたっ
てＣＰＵ１６（図１）による実行の結果を示すテーブル
の一例が示されている。第１コラムは各形態素の番号を
示し、第２コラムは分割された形態素を示し、第３コラ
ムはテーブルのうちの特定ラインの形態素を先の形態素
に関連付ける接続アクションコードを示し、最後に最終
コラムは各形態素の接続コード対を示している。

【００５７】図５のステップ１１８では、図９に一般的
に記載されている方法を実行し、知識辞書を引き、ワー
ドグラフを作成する。一般に接続コードアクションの実
行では、実行に際しあるアクションコードに関連する形
態素を削除する。例えば、接続アクションコード３０に
より接続される各形態素を削除する。図１２は図１１の
データに対する接続アクションの実行の結果を示す。第
１および第２コラムは以前と同じである。第３コラムは
センテンス内における各形態素の行う役割を示し、第４
コラムは形態素を関連させる有効情報を示す。次にさら
なる処理のため、例えば入力されたセンテンスにより指
示されるような計算機能の実行、または書かれたセンテ
ンスを別の言語に翻訳する等の処理のため、テーブル１
３のデータを出力できる。

【００５８】最後に、上記実施例は単に本発明を説明す
るためのものにすぎず、当業者であれば、次の特許請求
の範囲の精神から逸脱することなく、上記以外の種々の
実施例を考えつくことができよう。

【００５９】

【発明の効果】上記したように、本発明によれば、効率
が良く、バックトラッキングの量を減少するテキストの
形態素を解析するための方法およびシステムが提供され
る。

【図面の簡単な説明】

【図１】光学式文字認識（ＯＣＲ）システムを示す図で
ある。

【図２】最長一致解析法のステートを示す目標ツリーの
略図である。

【図３】隣接形態素の関係、それらの接続コードおよび
接続アクションコードを示す図である。

【図４】許容される形態素間の関係のテーブルの一部を
示す図である。

【図５】本発明に係わる形態素解析方法を示す略図であ
る。

【図６】ツリー状であるパターンテーブル部分を示す図
である。

【図７】形態素接続コードおよび知識を記憶するための
フォーマットの図である。

【図８】本発明に係わる接続アクションコードテーブル
である。

【図９】接続アクションコードおよびこれに応答して図
５のステップ１１８で実行されるそれぞれの方法を示す
図である。

【図１０】本発明に係わる形態素解析方法の実行例の所
定ステップのステートを示す図である。

【図１１】図１０に示される実行例の後の分割されたセ
ンテンスを示す図である。

【図１２】接続アクションを実行した後の図１１に示さ
れる分割されたセンテンスのステートを示す図である。

【符号の説明】

１２光学式スキャナー１４データ処理システム１６ＣＰＵ２０バス２２ディスクメモリ２４Ｉ／Ｏインターフェース

フロントページの続き (72)発明者ビンワンリー台湾、タイペイ、サンツェンシティ、レンイーストリート、レイン 169、 27番、３階 (72)発明者ジャンミンツァウ台湾、タイナン、イーランシャン、レイアンビレッジ、ツェングェンロード、45番 (72)発明者ファンチャンリンアメリカ合衆国、カリフォルニア州 95132、サンノゼ、カダロコート 1129

Claims

【特許請求の範囲】

【請求項１】ＣＰＵおよびメモリを有するデータ処理シ
ステムにおいて文字列を形態素に分割する形態素解析方
法において、ＣＰＵ内で、文字列の開始点から一時に一つずつ形態素
に電子的に分割する工程を含み、この分割工程は先に分
割された形態素またはセンテンスの開始点に文法的に接
続可能な形態素を残りの未分割文字列の最初の文字から
電子的に作成し、かかる形態素を作成できない場合、先
に分割した形態素を電子的に再分割することから成り、前記形態素作成工程は、前記残りの未分割文字列からメ
モリ内に記憶されている辞書内にもリストされている最
長の未テスト形態素をＣＰＵ内で電子的に識別し、前記最長未テスト形態素に関連したフロントおよびバッ
ク接続コードの１つ以上の対をＣＰＵ内で前記メモリ内
の第１テーブルから検索し、前記最長の未テスト形態素のフロント接続コードと、前
記先に分割された形態素のバック接続コードまたは先に
分割された形態素がない場合はデフォールトバック接続
コードとの各組み合わせにより指示されるアクションコ
ードを、メモリ内に記憶されている第２テーブルからＣ
ＰＵ内で検索し、アクションコードが検索されない接続
コードのすべての対を前記最長未テスト形態素から電子
的に除き、ＣＰＵによりアクションコードが検索されない場合、Ｃ
ＰＵ内で前記最長形態素を電子的に再分割することから
成る形態素解析方法。
【請求項２】所定の接続アクションコードに応答して特
定の形態素をＣＰＵ内で電子的に削除することを更に含
む請求項１に記載の方法。
【請求項３】ＣＰＵにより特定のアクションコードを検
索した場合、残りの文字列からの一つの文字を有する次
の形態素を電子的に形成することにより、電子的に前記
次の形態素を分割することから成る請求項１に記載の方
法。
【請求項４】最長の形態素を識別する前記工程は、各文
字で始まる形態素のすべてを記憶するためのツリーを有
する辞書を使用し、前記ツリーの各々は一つの文字に関
連した相互接続された非ターミナルノードとデリミタに
関連したターミナルノードを有し、前記ツリーのルート
部からターミナルノードへの前記ツリーのパスを横断す
ると、一つの形態素が綴られるようになっており、前記
識別工程は、前記文字列内の前記残りの文字列のうちの最初の文字と
同じ文字にルートノードが関連しているツリーをＣＰＵ
内で電子的に選択し、前記文字列内の前記残りの文字列の次の文字に関連した
子ノードを有しないノードに達するまで前記文字列内の
前記残りの文字列のうちの次の文字に関連した子ノード
まで前記所定のツリーをＣＰＵ内で電子的に横断し、ターミナルノードを有する最も近いノードまで前記所定
ツリーの前記横断路をＣＰＵ内で電子的に戻り、前記ル
ートから前記ターミナルノードまで順に横断した各ノー
ドに関連した文字から前記最長形態素を電子的に作成す
ることから成る請求項１に記載の方法。
【請求項５】前記デリミタは前記最長形態素に関連した
前記フロントおよびバック接続コード対の前記第１テー
ブル内のロケーションをポイントする請求項４に記載の
方法。
【請求項６】ＣＰＵおよびメモリを有するデータ処理シ
ステムにおいて、文字列を形態素に分割するための形態
素解析方法において、残りの未分割文字列から先に分割された形態素またはセ
ンテンスの開始点に文法的に接続可能な形態素を電子的
に作成し、かかる形態素を作成できない場合さきに運か
つされた形態素を電子的に再分割することによりセンテ
ンスの開始点から形態素を一つずつＣＰＵ内で電子的に
分割することから成り、前記形態素作成工程は、（ａ）センテンスのうちの残りの文字列からメモリに記
憶されている辞書にリストされている最長の未テスト形
態素をＣＰＵ内で電子的に識別し、（ｂ）メモリに記憶されている第１テーブルから前記最
長の未テスト形態素のフロントおよびバック接続コード
の一つ以上の対をＣＰＵ内で電子的に検索し、（ｃ）前記最長の未テスト形態素のフロント接続コード
および先の形態素のバック接続コードまたは先の形態素
がない場合はデフォールトバック接続コードの各組み合
わせにより指示されたアクションコードをメモリに記憶
された第２テーブルから検索し、アクションコードが検
索されない接続コードのすべての対を前記最長未テスト
形態素から電子的に除くことにより前記最長の未テスト
形態素をＣＰＵ内で電子的にテストし、（ｄ）ステップ（ｃ）において前記第２テーブルからＣ
ＰＵによりアクションコードが検索されない場合、ステ
ップ（ａ）へ戻り、（ｅ）前記第２テーブルから前記アクションコードの特
定の一つが検索される場合、残りの文字列のうちの単一
文字から次の形態素を電子的に形成し、工程（ｂ）に戻
り、（ｆ）ＣＰＵによりセンテンスの終了点に達するまで工
程（ｂ）に戻ることから成る形態素解析方法。
【請求項７】メモリに記憶されている日本語−中国語知
識辞書を用いてＣＰＵ内で前記形態素を中国語の形態素
に電子的に置換することを更に含む、日本語を中国語に
翻訳するために用いられる請求項６に記載の方法。
【請求項８】最長の形態素を識別する前記工程は、各文
字で始まる形態素のすべてを記憶するためのツリーを有
する辞書を使用し、前記ツリーの各々は一つの文字に関
連した相互接続された非ターミナルノードとデリミタに
関連したターミナルノードを有し、前記ツリーのルート
部からターミナルノードへの前記ツリーのパスを横断す
ると、一つの形態素が綴られるようになっており、前記
識別工程は、前記文字列内の前記残りの文字列のうちの最初の文字と
同じ文字にルートノードが関連しているツリーをＣＰＵ
内で電子的に選択し、前記文字列内の前記残りの文字列の次の文字に関連した
子ノードを有しないノードに達するまで前記文字列内の
前記残りの文字列のうちの次の文字に関連した子ノード
まで前記所定のツリーをＣＰＵ内で電子的に横断し、ターミナルノードを有する最も近いノードまで前記所定
ツリーの前記横断路をＣＰＵ内で電子的に戻り、前記ル
ートから前記ターミナルノードまで順に横断した各ノー
ドに関連した文字から前記最長形態素を電子的に作成す
ることから成る請求項６に記載の方法。
【請求項９】前記デリミタは前記最長形態素に関連した
前記フロントおよびバック接続コード対の前記第１テー
ブル内のロケーションをポイントする請求項６に記載の
方法。
【請求項１０】スキャンされた文字列を発生するための
光学式スキャナーと、前記光学式スキャナーに接続され、前記スキャンされた
文字列の形態素解析をするためのデータ処理システムか
ら成るテキスト処理システムであって、前記データ処理システムは、有効形態素の辞書と、各形
態素に関連したフロントおよびバック接続コードを含む
接続コード対の第１テーブルと、先の形態素と後の形態
素とを有効に隣接して連結するための先の形態素のバッ
ク接続コードと後の形態素のフロント接続コードに対応
した接続アクションコードの第２テーブルとを記憶した
メモリと、前記メモリに接続されており、各文字列を受け、この文
字列の開始点から一つずつ形態素に分割するためのＣＰ
Ｕとから成り、ＣＰＵでは、辞書にリストされており、
前記先に分割された形態素または先に分割された形態素
がない場合はセンテンスの開始点と接続可能な最長形態
素を前記残りの文字列から作成し、かかる最長形態素を
作成できない場合、先に分割された形態素を再分割し、
メモリ内に記憶されている前記第１テーブルから前記最
長形態素に関連したフロントおよびバック接続コードの
一つ以上の対を検索し、前記最長形態素のフロント接続
コードと前記先に検索された形態素のバック接続コード
または前記先に分割された形態素がない場合はデフォー
ルトバック接続コードとの各組み合わせにより指示され
る接続アクションコードを、メモリ内に記憶された前記
第２テーブルから検索することにより、各作成した形態
素をテストし、アクションコードは検索されない前記最
長形態素からすべての接続コード対を除き、前記ＣＰＵ
によりアクションコードが検索されない場合は前記最長
形態素を再分割し、特定のアクションコードが検索され
る場合は残りの文字列からの一つの文字を有する前記次
の形態素を作成し、この形態素をテストすることにより
次の形態素に分割するようになっているテキスト処理シ
ステム。