JPH07311768A - 形態素解析方法およびテキスト処理システム - Google Patents

形態素解析方法およびテキスト処理システム

Info

Publication number
JPH07311768A
JPH07311768A JP5103091A JP10309193A JPH07311768A JP H07311768 A JPH07311768 A JP H07311768A JP 5103091 A JP5103091 A JP 5103091A JP 10309193 A JP10309193 A JP 10309193A JP H07311768 A JPH07311768 A JP H07311768A
Authority
JP
Japan
Prior art keywords
morpheme
longest
morphemes
cpu
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5103091A
Other languages
English (en)
Other versions
JP2839426B2 (ja
Inventor
David Chang
チャン デイビッド
Bing-Hwang Lee
ワン リー ビン
Jian-Ming Tsaur
ミン ツァウ ジャン
Huan-Chan Lin
チャン リン ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of JPH07311768A publication Critical patent/JPH07311768A/ja
Application granted granted Critical
Publication of JP2839426B2 publication Critical patent/JP2839426B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【目的】テキストを効率的に形態素解析するための方法
およびシステムを提供する。 【構成】センテンス中の文字列から有効な形態素の辞書
内にリストされている最長形態素を形成102し、この
形態素が先に分割されている形態素と接続可能であるか
どうかを判別してセンテンスを分割する。この判別に
は、フロント接続コードとバック接続コードの関連した
対を検索104する。接続コードが、許容可能な関係の
テーブル内に同様にリストされていれば、接続可能であ
る。残りの文字列から文字を分割できない場合は、先に
分割した形態素を再分割する。一つの形態素を分割で
き、これが先の形態素と接続可能であれば109、接続
アクションを記録する110。所定の接続アクションに
応答して、残りの文字列のうちの一つの文字から次の形
態素を作成し、これをテストして次の形態素を分割す
る。すべて分割した後、隣接形態素を関連づける接続ア
クションに従って形態素からワードグラフを作成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識に関し、特
に、書かれたまたはプリントされたテキストを形態素に
分割するための方法およびシステムに関する。
【0002】
【従来の技術】図1は、光学式スキャナ12がデータ処
理システム14に接続された光学式文字認識システム
(OCR)10に関する。この光学式スキャナ12は、
テキスト中の書かれたかまたはプリントされたページを
スキャンし、ページに書かれたかまたはプリントされた
個々の文字を読み出す。一般に、スキャナ12は、所定
のセットからの文字を認識することができ、スキャンさ
れた各の文字に関連したシンボル表示像を戻すことがで
きる。これらのコードはデータ処理システム14へ送っ
て更に処理できる。
【0003】図1に示すデータ処理システム14は、バ
ス20を介して主メモリ18に内部接続されたCPU1
6を含む。更にバス20にはディスクメモリ22および
I/Oインターフェース24が接続されており、I/O
インターフェース24は光学式スキャナ12に接続され
ている。このようにデータ処理システム14は、I/O
インターフェース24を介して光学式スキャナ12によ
り読み取った文字を取り込むことができる。
【0004】プリントされたテキストを処理したいとい
う要望は多い。テキスト自体は、OCRシステムを使っ
てスキャンして個々の文字を抽出できる。次にこのシス
テムから各文字のシンボル表示をデータ処理システムに
送信し、任意のアプリケーション、例えば書かれたテキ
ストを別の言語に翻訳したりまたは書かれたテキストの
解釈をするアプリケーションに従って更に処理される。
【0005】テキストの形態素解析すなわちテキストの
単語(ワード)を形態素に分割し、次に形態素を互いに
関連づけることが好ましい。形態素とは、意味を伝える
ことができる分割できない最小のワード部のことであ
る。例えば、ワード「gun」(銃)は形態素であり、これ
は読み手にある意味を伝えるが、これよりも小さい単位
には分割できず、同じ意味を伝える。一方、ワード「gu
ns」(銃(複))は2つの形態素すなわち「gun」と
「s」とから成る。前の方の形態素は、以前と同じ意味
を伝えるが、この前の形態素の後に第2の形態素「s」
を付けると、複数である旨の意味が伝えられる。多数の
形態素を組み合わせて一つのワードにすると、より複雑
な意味を伝えることができる。例えばワード「gunfight
er」は、「gun」(銃)と、「fight」(戦う)と、「e
r」(者)とを含んでいる。
【0006】上から判るように、「gun」および「figh
t」のように単独でもよい形態素もあれば、ワードの一
部であって「s」および「ing」のように単独で使用さ
れないものもある。更に「together」またはフレーズ
「in order to」のような分割できない単位から成る形
態素もある。しかしながらこれら形態素は、意味を大幅
に変えることなく更に分割することができない形態素で
もある。
【0007】英語では、「スペース」文字をワードの区
切りマーク(テリミタ)として使用できるので、特定の
ワードが始まり、終了する場所を決定することは簡単な
作業である。しかしながら、この作業は他の言語、例え
ば日本語、中国語または朝鮮語では単純ではない。セン
テンス内の各文字は、大きな組から選択され、他の文字
に対してほぼ一様に分かれている。また一つのセンテン
ス中の一つの文字の位置により、読み手が文字をワード
に分析する仕方が大幅に違ってしまうことがある。文字
単独または文字列は、特定の意味を伝える分割できない
最小単位すなわち形態素から構成される。またこの形態
素は、別の形態素に関する情報を伝えるだけの全フレー
ズであったり、ワードであったり、ワードの一部または
語義上の単位であったりする場合もある。
【0008】形態素解析法の目的は、テキストを複数の
形態素に分割し、次にこれらを互いに関連づけることに
ある。これまでに数種類の形態素解析法が開示されてい
る(例えば特開昭61−210479、特開昭60−2
0234を参照)。
【0009】
【発明が解決しようとする課題】ある言語、例えば日本
語は、2つの隣接する形態素は一定の接続規則に従わな
ければならないという構造的文法を有している。すなわ
ちこれらの規則は、2つの形態素を互いに隣接させるこ
とができるか否かを決定している。従来の2つの形態素
解析方法は、日本語における形態素間の接続関係を利用
するものであった。最長一致法と称される最初の方法
は、文字列のセンテンスを一時に一つずつ形態素に分割
するものである。まず、解析プログラムは、センテンス
の開始点から始めて、日本語辞書にリストされている文
字の最長リシーズを認識できる一つの形態素として配列
する。次に、この形態素がセンテンスの開始点に接続で
きるかを判別する。この形態素がセンテンス内の最初の
形態素でなければ(すなわち、上記の発生した形態素が
センテンスの開始点に接続できなければ)、解析プログ
ラムは最長形態素を形成するステップに戻る。次に、2
番目に長い形態素を形成し、上記の方法でテストする。
【0010】最初の形態素を分割した後、第2の形態素
を同じように分割する。最初の形態素の次の文字で始ま
るセンテンスの他の文字列から最長の可能な形態素を形
成し、こうして形成した第2の形態素をテストし、これ
が第1の形態素と接続できるか否かを判断する。2つの
形態素が接続可能であれば、上記のように第2形態素を
再構成する。すなわち、センテンス中に残っている文字
の最長文字列の、次に長い文字列から第2形態素を形成
する。解析中は、どの形態素に対しても再構成は生じ得
ると解される。更に最初に形態素が分割できそうに見え
ても、後に不正確に分割されていることが判ることがあ
る。従って解析プログラムは先に分割した形態素を再分
割するようバックトラッキングすることを含む解析方法
においてどのステップにもバックトラッキングできる。
図2はかかるケースを示す。
【0011】ここには、上記最長一致方法の可能なステ
ートを示す目標ツリーの例が示されている。このツリー
の各ノードはA〜Mまでの文字により示されるセンテン
スから一つの形態素を分割した後のプロセス中の可能な
ステートを示している。目標ツリーのうちのルートノー
ド400は分割形態素がないセンテンスのステートを示
す。このルートノード400は、上記基準に従ってセン
テンスからの最初の形態素の3つの可能な分割例を示す
子ノード426、406、401を有している(ここで
逆Vマークすなわち「 」は、図2における分割された
形態素を区切るデリミタである)。各子ノード426、
406、401は、辞書にも載っており、センテンスの
開始点とも接続可能である、センテンスからの3つの形
態素のうちの一つを形成した後のセンテンスのステート
を示す。従って、「A」、「ABC」および「ABC
D」は、辞書にリストされており、センテンスの開始点
と接続可能な形態素のすべてである。
【0012】図2に示すように、センテンスの開始点に
接続可能な、文字A〜Mにより形成できる形態素のうち
で、「ABCD」が最長である。最長一致法では、これ
が最初の形態素を最初に分割する方法である。従って、
ノード401は、最長一致方法の第1ステートを示す。
【0013】最長一致方法は、次に文字列E〜Mから第
2形態素を分割することに移る。ノード402および4
03に示すように、文字列E〜Mからは辞書に載ってお
り、かつ最初の形態素「ABCD」に接続可能な形態素
は2つしかない。しかしながら、最大一致法は、長さが
短くなる順に形態素を形成し、テストするものである。
従って、残りの文字列E〜Mからもっと長い「EFG
H」が形成され、テストにパスできる。この結果、ノー
ド402に示されるステートとなり、センテンスから形
態素「ABCD」および「EFGH」が分割される。
【0014】図2に示すようにノード402は子ノード
がない。残りの文字列I〜Mでは辞書にのっている形態
素は形成できないかまたは形態素を形成できても、形態
素「EFGH」と接続できないことを意味する。従っ
て、最長一致法の解析プログラムは、ノード401のス
テートに「バックトラッキング」する。最長一致法の解
析プログラムのステートがノード401に示されている
状態にあると、解析プログラムは文字列E〜Mから「A
BCD」と接続可能な別の第2形態素を形成しようとす
る。ノード403に示すように、「ABCD」に接続可
能な、次に長い形態素は「EF」である。その後、最小
一致法は、同様にしてノード403および405のステ
ートを通って第3および第4の形態素(それぞれ「G
H」「IJK」)を分割しようとする。
【0015】ノード405に達すると、解析プログラム
は残りの文字LおよびNから4番目の形態素「IJK」
と接続できる第5番目の形態素は形成できないと判断す
る。解析プログラムは、ノード404にバックトラッキ
ングし、文字I〜Mから4番目の形態素を再分割する。
これからは形態素「GH」と接続可能な他の形態素がな
いので、解析プログラムはノード403にバックトラッ
キングし、文字G〜Mから3番目の形態素を再分割す
る。これは不可能であるので、ノード401にバックト
ラックし、文字E〜Mから第2形態素を再分割する「A
BCD」と接続可能な形態素はすべて試みているので、
解析プログラムはルートノード400に戻り、文字列A
〜Mから最初の形態素を分割する。この点で、最初の形
態素は、ノード406に示すように「ABC」として再
切り出しする。ノード425に達するまで数字の順に番
号の付いたノードを通って上記のように処理が続くと理
解できよう。ノード425の点で、センテンスから形態
素のすべてを分割することになる。
【0016】図2の目標ツリーから判るように、最長一
致法は、形態素を形成するのに極めて限られた基準を使
用している。この方法では、長さが短くなる順に形態素
を形成し、これらが接続可能であるか否かを判断するテ
ストする。しかしながら、最初は正しいと考えられて
も、後で正しくないと判ることがある。この時は、最長
一致法は、形態素を分割した順と逆の順にセンテンス中
の形態素を再分割するようバックトラッキングする。後
に正しくないと判るまで発見されない正しくない選択
が、分割プロセスで多く行われるにつれて、アルゴリズ
ムの効率が低下する。
【0017】パーズリスト法と称される他の方法は、セ
ンテンスのうちの形態素をより選択的にサーチしようと
する方法である。この方法での解析プログラムは、解法
のステートごとにセンテンス内の残りの文字列から次の
形態素の分割をするための可能な選択案のすべてを決め
る。例えば解析プログラムは図2の例を使用して、文字
列A〜Mから3つの形態素「A」、「ABC」および
「ABCD」を形成し、これらはセンテンスの開始点と
接続可能であると判断する。
【0018】特定の部分的解法を用いて、全センテンス
を分割する可能性を決めるためのある式にしたがって各
部分的解法に重みを割り当てる。成功するのに最良と思
われる部分的解法を選択し、この部分解法によって処理
を続ける。第1形態素の次に、残りの文字列から辞書に
リストされており、第1形態素に接続可能なすべての可
能性のある第2形態素を作成する。例えば、「ABC
D」が完全に分割されたセンテンスに最もなり得る可能
性が高いと仮定する。「EF」および「EFGH」を作
成し、テストする。こうして作成した各新しい部分的解
法にも重みを割り当てる。またすべての部分的解法の重
みのすべてを比較し、合致に最も成功すると思われる部
分的解法を続ける。例えば、この段階では先で確かに見
えた最初の分割形態素「ABCD」は、最終的解法(す
なわち、完全分割セグメント)となりそうもないとす
る。かかる場合、最も可能性のある部分的解法は、別の
第1分割形態素を有する他のステート、例えば図2のノ
ード426、406のステートのうちの一つとなる。従
って、この最も確かな部分解法を続ける。すなわち、こ
の解法の次に解析される形態素に対するすべての選択案
を利用し、これらに重みを割り当てる。ノード402、
403、406および426の重みを比較した後、ノー
ド406が最も確かな解法であると仮定する。かかる場
合、センテンスから第2形態素として「D」および「D
EF」を切り出すことによりノード407、416を検
査する。最終解法が得られるまで、このプロセスを続け
る。
【0019】パーズリスト方法は、理論的には最適な方
法であるが、実際上は不適当であることが証明されてい
る。これは重みの計算が100%正確にできないことに
よる。更に、形態素解析法の各ステージで処理続行前に
最も確かな部分解法の潜在的形態素のいずれも評価し、
重みを割り当てなければならない。これにより、センテ
ンス中の次の形態素に対し、多くの選択案を評価しなけ
ればならないので、効率が低下する。最後に部分解法ご
とに対する重みを決定する式は、各部分解法に対する重
みを計算するための時間条件を大きくすることがある。
これらの要因のすべてがアルゴリズムの効率を低下する
ことになる。
【0020】従って、本発明の目的は効率が良く、バッ
クトラッキングの量を減少するテキストの形態素を解析
するための方法およびシステムを提供するものである。
【0021】
【課題を解決するための手段】本発明は、テキスト例え
ば日本語テキストの形態素の解析をするための効率のよ
い方法およびシステムに関する。本発明は、テキストに
書かれている言語の文法規則により定められる接続関係
を利用するものである。この接続関係は接続コードおよ
び接続アクションコードを利用して実行される。例えば
日本語辞書におけるどの形態素にも図3に示すような接
続コードの一対または数対を割り当てできる。図3に示
すように、各コード対は、フロント接続コードとバック
接続コードを有する。例えば形態素1はフロント接続コ
ード1とバック接続コード54を有し、形態素にはフロ
ント接続コード199とバック接続コード138を有す
る。フロント接続コードは、センテンス内において特定
の形態素をその前の形態素に関連させるよう働き、逆に
バック接続コードはセンテンス内において特定の形態素
をその後の形態素に関連させるよう働く。
【0022】日本語における許容可能な形態素間の関係
は、すべて図4に示されるような表にまとめることがで
きる。図4に示される表部分は、かかる表の一部のリス
トである。2つの隣接する形態素の各々からの一つの接
続コードを含むコード対により、各テーブルエントリー
をクロス参照する。最初のコードは、先の形態素のバッ
ク接続コードであり、第2コードは後の形態素のフロン
ト接続コードである。形態素間の許容可能な関係のすべ
てを記憶するだけでなく、このテーブルは接続アクショ
ンと称される2つの隣接形態素間の関係を規定するエン
トリーも記憶している。図4に示すように、接続コード
の各対は、一つの接続アクションコードを示している。
【0023】図4の表は、2つの形態素を互いに隣接で
きるときに適用される文法規則を表にして示すものであ
る。許容できる関係を示すテーブル内で、それぞれの接
続コードに同じインデックスがついている場合に限り、
2つの形態素を接続できる。すなわち互いに隣接するこ
とができる。この対偶命題も真である。すなわち許容可
能な関係を示す表において、2つの形態素のそれぞれの
接続コードに同じインデックスがついていなければ、こ
れらワードは隣接させることはできない。従って2つの
隣接する形態素を識別するときに、許容可能な関係を示
すテーブルを参照すれば、これら形態素は文法規則に従
って配列されているかどうかを判別できる。更に、表内
の接続アクションエントリーを検索することによって、
2つの形態素間の関係を判断できる。
【0024】
【作用】本発明の実施において、複数の文字から成るセ
ンテンスを一時期に一つずつ形態素に分割する。まず最
初に、辞書にリストされている文字列のうちの最長の可
能な副文字列をセンテンス内の残りの文字列から分割す
る。この最長形態素は相互に接続された文字ノードのグ
ラフまたはツリー構造である「パターンテーブル」を使
用して得る。以下このパターンテーブルについて説明す
る。
【0025】得られる最長形態素は、センテンスから先
に分割された形態素と必ずしも文法的に接続できるよう
に(すなわち隣接できないように)なっていないので、
まずテストが必要である。このため、最初のテーブルか
らこの形態素のフロント接続コードおよびバック接続コ
ードのすべての対を検索する。次に、この形態素は先の
形態素(センテンス内に先に分割された形態素がない場
合は、センテンスの開始点)と文法的に接続可能なもの
であるかどうか判別される。これは、テストしていない
形態素に関連する接続コードの各対からのフロント接続
コードと先の形態素に関連した各対から選択したバック
選択コードの順列を使用して、許容可能な関係を示すテ
ーブル、または接続アクションコードテーブルを引くこ
とによって行うことができる。センテンス内に先に分割
された形態素がない場合デフォールトバック接続コード
を供給する。
【0026】未テスト形態素および先に分割された形態
素から選択された接続コードの上記各順列によりインデ
ックスされる接続アクションコードエントリーを第2テ
ーブル(存在していれば)から検索する。未テスト形態
素のコード対から選択された特定フロント接続コード
が、上記順列中の接続アクションコードと同じインデッ
クスになっていなければ、この特定コードが選択された
全コード対を除く。例えば、テスト済み形態素がフロン
トおよびバック選択コードの3つの対すなわち(a,
b)、(c,d)および(e,f)(このうちa、cお
よびeはフロント接続コードである)を有していると仮
定する。cは先の形態素のバック接続コードを有する接
続アクションコードと同じインデックスになっていなけ
れば、対(c,d)を除く。
【0027】少なくとも一つの接続アクションコードが
存在していれば、形態素を互いに結合し、ある関係を確
立できる。順列に対し接続アクションコードが存在して
いなければ、これら形態素は隣接することはできない。
このことは、上記最長形態素は正しくなく、形態素の再
編成が必要であることを意味している。この場合、文字
列から組み立てた最長形態素の次に長い形態素を作成
し、テストしなければならない。
【0028】辞書にリストされているような形態素を形
成しないか、または接続可能な形態素(すなわち先に分
割された形態素に隣接できる形態素)を形成しないよう
な残留文字がセンテンスの終了点にある場合、先に分割
された形態素へのバックトラッキングを行う。換言すれ
ば、最初正しいと考えられていた先に分割された形態素
を再分割するわけである。センテンス内のいくつかの先
に分割された形態素を再分割するため、処理が失敗した
段階でバックトラッキングを行うことがある。この再分
割工程が一旦完了すれば、以前と同じように形態素解析
ステップを続行する。
【0029】接続アクションコードの検索に成功する
と、すなわち形態素が先の形態素と接続可能であれば、
この接続アクションコードを記録し、このプロセスを繰
り返す。換言すれば、センテンスのうちの残りの文字列
から次の形態素を分割する。特定の接続アクションコー
ドを検索すれば、一つの次に残っている文字から次の形
態素を形成することにより、次の形態素の分割を行う。
ルックアヘッド処理と称されるこの方法は、日本語文法
の特定の性質、すなわち所定の文脈では次の形態素とし
て特定の単一文字が続かなければならないという性質を
利用している。
【0030】センテンスから形態素のすべてが分割され
た後に、各接続アクションコードに関連した接続アクシ
ョンを実行する。実行ステップでは、センテンス中の役
割に従って形態素を連結するワードグラフとなるよう、
これら形態素を配列する。グラフの作成を助けるため、
各形態素に関連した知識情報を参照する。その後に所望
のアプリケーション例えば翻訳、解釈等のアプリケーシ
ョンに従ってグラフ化されたセンテンスを更に処理でき
る。
【0031】
【実施例】図5は、CPU16(図1)で実行されるプ
ログラムのフローチャートを示す。このプログラムはC
言語またはLISPを用いて実行できる。日本語テキス
トの形態素解析に関連して、このプログラムの実行を説
明するが、本発明の方法は、他の言語、例えば朝鮮語お
よび中国語のテキストにも適用できる。
【0032】まず、ステップ100から実行を開始す
る。このステップでは、CPU16(図1)は残り文字
列と称される変数としてセンテンスを記憶する。この残
り文字列変数は、スキャン中の文書に現れる順にセンテ
ンス中の文字を記憶する。センテンスから形態素を分割
する際、残り文字列から各分割形態素内に含まれる文字
が除かれる。従って、残り文字列変数は、形態素解析法
を実行している点における入力済みセンテンス中に残っ
ている分割されていない文字を記憶している。更にこの
ステップ100では、変数iは1に初期化される。この
変数は、現在どのセンテンス中のどの形態素を分割して
いるかを示す。
【0033】次に、ステップ102によりCPU16
(図1)内の実行が続行する。このステップでは、セン
テンス中の最初の文字から始まる残りの文字列からの最
長文字列を集合し、最良の可能な形態素を作成する。こ
のプロセスでは、日本語にある形態素だけが残りの文字
列から組み立てられるよう、日本語辞書101参照す
る。この日本語辞書は、図1のメモリ18または22に
記憶されている。好ましくは、このステップを効率的に
実行するには、図6に示されるパターンテーブルを補助
にして最長の可能性のある形態素を組み立てる。
【0034】図6に示すようにパターンテーブル200
はいくつかのツリーデータ構造から成り、メモリ18ま
たは22(図1)に記憶できる。日本語文字セットの各
文字で始まる日本語形態素のすべてを記憶するよう一つ
のツリー、例えばツリー200−1が与えられる。従っ
て、日本語文字セットの一義的文字に各ルートノード2
00−2が関連している。各ツリーの残りのノードが関
連している。各ツリーの残りのノード200−3〜20
0−8は、他の文字列または形態素区切り点に対応して
いる。中間ノード200−3〜200−5、200−8
には文字しか記憶されず、ターミナルノード200−6
〜200−7には形態素のデリミタしか記憶されない。
【0035】ルートノード200−2からターミナルノ
ード200−6、200−7へのツリー内のパス(例え
ば200−2、200−3、200−4、200−6)
を横断し、横断順に到着する各ノードに関連した文字を
記憶することにより、形態素を検索するように各ツリー
200−1が構成されている。CPU16(図1)は、
センテンス中に残る各文字に対応するツリー200−1
のノード200−2〜200−7を横断することによ
り、センテンス中に残る文字列から作成できる最長形態
素を計算できる。例えば、CPU16(図1)は、ルー
トノード200−2が残りの文字列のうちの最初の文字
(すなわちセンテンス中の次の切り出されていない文
字)に対応しているパターンテーブル200からツリー
200−1を選択するステップをまず実行する。その
後、CPU16(図1)を使用して、ルートノード20
0−2から残りのストリング内の次の文字(すなわち第
2の未解析文字)に対応するノード200−3または2
00−5までツリー200−1を横断する。次にCPU
16(図1)は、現在の子ノード、すなわち200−3
から残り文字列内の第3の文字に対応するその子ノー
ド、例えば200−4までツリー200−1を横断す
る。残り文字列内の次の文字に対応する子ノードを有し
ていないノード200−2〜200−7に達すると、C
PU16(図1)は、現在のノード、例えば200−4
が区切り点を記憶するターミナルノード、例えば200
−6を有しているかどうか判別する。有していなければ
CPU16(図1)は現在のノードからデリミタ子(す
なわちターミナル)ノードを備えた最も近いノードまで
横断してきたツリーを逆に戻る。センテンス内の残りの
文字列から作成できる最長形態素は、ルートノードから
ターミナルノードへ通過順に通過される各ノードに関連
した文字から成る。
【0036】図6に示すようにデリミタ200−6は、
メモリ18または22(図1)内に記憶さえる接続コー
ドテーブル(CCT)105(図5参照)内のエントリ
ー305の位置を指すアドレスである。図7に拡大して
示すこのエントリー305は、(図6のツリー200−
1を通過することにより作成した)最長の形態素に関連
した接続コード対105−1(フロントコード1、バッ
クコード1)、105−2(フロントコード2、バック
コード2)、...105−N(フロントコードN、バ
ックコードN)を含む。いくつかの形態素は2つ以上の
役割を果たすことができるので、一般的に2対以上の接
続コードを有する。例えば、2つ以上の対のコードを収
容するには、パターンテーブルの形態素デリミタ200
−6は、第1接続コード対105−1の位置を指すこと
が好ましい。
【0037】いくつかの形態素は同意語を有する。図示
するように、形態素の同意語群は、CCT105(図
5)内に対のうちの一つのセットだけのポインタを有し
ている。
【0038】図7に示すように、第1対105−1に隣
接するCCT105(図5)内に他の対105−
2、...、105−Nが記憶されている。CPU16
(図1)がパターンテーブルから最長形態素を検索した
後、CPU16(図1)は、ターミナルノード、例えば
200−6(図6)に記憶されたアドレスを使用してC
CT105(図5)に容易にアクセスできる。コード対
105−1、105−2、...、105−Nの次には
CCTデリミタ201がある。CPU16(図1)が対
105−1、105−2、...、105−Nを検索す
る際、このCPUはCCTデリミタ201に達したかど
うかを判別するためスキャンする。CCTデリミタ20
1に達すると、CPU16(図1)はコード検索を停止
する。
【0039】図6にしめすように、CCTデリミタ(図
7)は、日本語/中国語知識辞書202内のエントリー
位置を指す。図示するようにこの知識辞書は、メモリ1
8または22(図1)にも記憶されており、CPU16
(図1)は、CCTデリミタ201(図7)を使用して
知識辞書202内の対応するエントリーにアクセスでき
る。形態素の目的とするアプリケーションが書かれた日
本語から中国語への翻訳にある場合、これは有効であ
る。かかる場合、この辞書エントリーは、センテンスを
分割した後、ワードグラフ内に特定の形態素を配列する
ための重要情報を含む。
【0040】再度図5を参照する。CPU16(図1)
がステップ102で最長形態素を計算した後、ステップ
103まで進む。ここでは形態素を検索したのかどうか
を判別する。形態素が検索されていなければ、バックト
ラック処理を行うステップ108までジャンプする。ス
テップ108では、先に分割した形態素をリフォームす
るようインデックスiをデクリメントする。次にステッ
プ102へ戻り、ここで次に長い形態素を作成し、これ
と先に分割した形態素とを交換するようテストする。
【0041】ステップ130で、CPU16(図1)が
形態素を作成したと判断すると、ステップ104に進
み、ここでCPU16(図1)はCCT105から最長
形態素の接続コードを検索する。先に述べたように、C
CT105内の適当な接続コード対を指す辞書101ま
たはパターンテーブウ200(図6)内に記憶されてい
る関連ポインタをこの形態素は有していてもよい。これ
とは異なり、形態素をCCT105内のインデックスと
して図示するように使用し、適当な接続コード対を検索
する。
【0042】各形態素は、接続コードの少なくとも一つ
の対と、一つのフロントコードおよび一つのバックコー
ドを有する。しかしながら、一般的には各形態素は2つ
以上の対のコードを有する。かかる場合、CPU16
(図1)コードのすべてを検索し、(後に述べるよう
に)ステップ106およびステップ109で一つずつテ
ストする。数種の異なるコードが有効(形態素を接続可
能にできる)であることも有り得る。有効コードのすべ
てを保持しながら、残りを除く。
【0043】少なくとも一つの接続アクションコード対
を検索した後、CPU16(図1)の実行をステップ1
06で続ける。ここでは、最長形態素が先に切り出した
形態素と接続可能かどうかを判断するよう最長形態素を
テストする。最初の形態素の前では、形態素は分割され
ないので、CPU16(図1)は最長形態素がセンテン
スの開始点(文頭)と接続可能かどうか判別する。図示
するようにCPUは、センテンスの開始点に対しデフォ
ールト接続コード対を使用する。
【0044】比較ステップ106では、CPU16(図
1)は、最長の先の形態素の接続コードを利用して、メ
モリ18または22(図1)に記憶されている接続アク
ションコードテーブル(CACT)107にアクセスす
ることにより最長作成形態素をテストする。CPU16
(図1)は、最長の未テスト形態素の接続コード対から
選択したフロント接続コードおよび先の形態素の対から
選択したバック接続コードの各順列に対するアクセスを
実行する。先に分割された形態素がない場合、デフォー
ルトバック接続コードが与えられる。
【0045】図8にCACT107のセグメントの一例
203が示されている。このCACTセグメント203
は2つのテーブル204および205に分割され、これ
らテーブルはメモリ18または22(図1)に記憶され
るが、単一のテーブルを使用することもできる。第1テ
ーブル204は300のエントリーを有し、各エントリ
ーは形態素の300の可能なバック接続コードを記憶し
ている。第1テーブルはエントリーのバック接続コード
に接続可能な形態素のフロント接続コードの対応する番
号を各エントリーと共に記憶している。例えば、「1」
のバック接続コードを有する形態素は11個の特定のフ
ロント接続コードのうちの一つを有する形態素と接続可
能である。これはテーブルエントリー206−1により
示される。同じように、バック接続コード「2」を有す
る形態素は、12個の特定のフロント接続コードのうち
の一つを有する形態素と接続可能であることを、ケーブ
ルエントリー206−2は示している。第2テーブル2
05は次のように各バック接続コードと接続できるフロ
ント接続コードのすべてを記憶している。ロケーション
0〜10は、先の形態素のバック接続コード「1」と接
続できる11個の後形態素のフロント接続コードを記憶
している。その後、ロケーション11〜22は、先の形
態素のバック接続コード「2」等に接続できる後形態素
のフロント接続コードを記憶している。従って、フロン
ト接続コードとバック接続コードの対を比較するには、
バック接続コードが接続できるフロント接続コードおよ
びテーブル205内のオフセットテーブルエントリーを
知っていなければならない。
【0046】図8に示すように、先の形態素のバック接
続コードおよび上記最長形態素のフロント接続コード
は、1〜59の番号である第3エントリーを指示する。
各番号は特定接続アクションのコードを示す。この接続
アクションは2つの形態素の関係を記述するものであ
る。2つの接続コードは、CACT107(図5)内の
接続アクションコードを指示すると、特定の指示された
接続アクションが2つの形態素の間の関係を記述する。
このことは2つの形態素が接続可能なものであることを
意味している。接続コード対に対して接続アクションが
ない場合2つの形態素はこのコード対によっては接続で
きない。このようにCPU16(図1)が形態素をテス
トする際、テストされていない形態素に関連した接続コ
ード対の数が減らされる。例えば、i番目の形態素が5
つの接続コード対を有しており、そのうちの3つの対が
i番目の形態素を(i−1)番目の形態素に関連させる
フロント接続コードを有していると仮定する。この場
合、CPU16(図1)は、i番目の形態素をその後の
形態素に関連させない、i番目の形態素の接続コードの
2対を省く。他方、(i+1)番目の形態素が、接続コ
ードの3対を有しており、このうちのいずれの対もi番
目の形態素の残りの3つの対のバック接続コードと接続
できるフロント接続コードを有していないと仮定する。
この場合CPU16(図1)は長さの短い順に(i+
1)番目の形態素をリフォームする。
【0047】次に、CPU16(図1)の実行はステッ
プ109に進む。ここでは、形態素のテストの成功に応
じて形態素をリフォームしたり、次の形態素を作成した
りする。先の形態素のバックコードおよび次の形態素の
フロントコードから形成される2つのコードを上記のよ
うに配列しても接続アクションがインデックスされない
場合、CPU16(図1)の実行操作はステップ102
にジャンプして戻り、ここでセンテンス内の残りの文字
列から異なる形態素を作成する。リフォーム(ステップ
102)において、残りの文字列から次に長い形態素を
作成し、CPU16(図1)を使用して、上記のように
この形態素が接続可能なものであるかどうかを判別する
ようにテストできる。他方、かかる接続可能な形態素を
作成できない場合、(ステップ103および108を介
して)バックトラッキングが行われる。すなわち、CP
U16(図1)により先に切り出された形態素を再分割
する(すなわち、この形態素を構成する文字列から、最
長形態素の次に長い形態素を作成してテストする)。か
かる場合、CPU16(図1)は形態素カウンターiを
1だけリクリメントし、最後に分割された形態素を再分
割する。かかる形態素を作成できない場合、先に分割さ
れた形態素のその前の形態素を再分割する(形態素カウ
ンターiは1だけリクリメントされる)。新しい形態素
が作成された後、CPU16(図1)における実行は、
上記のように正常に進む。
【0048】上記最長形態素が、先に分割された形態素
と接続可能である場合、CPU16(図1)における実
行はステップ110まで続く。ステップ110におい
て、CPU16(図1)は上記最長形態素の接続コード
を記録し、形態素は分割されたものとみなされる。更に
最長形態素と先の形態素との関係を述べているそれぞれ
の接続アクションコードもCPU16(図1)により記
録される。分割すべき次の形態素の数を表示する変数i
がCPU16(図1)によりインクリメントされ、この
形態素を構成する文字列が残りの文字列から除かれる。
次にCPU16(図1)における実行は、ステップ11
2に進む。ここではセンテンスの終了点(文末)に達し
たかどうか判断される。センテンスの終了点に達してい
る場合、CPU16(図1)の実行はステップ118に
進む。終了点に達していない場合はステップ114に進
む。
【0049】ステップ114では、CPU16(図1)
はルックアヘッド処理が必要かどうか判別する。特にこ
のステップ114では、現在の切り出された形態素と、
先に切り出された形態素を関連付けた接続アクション
は、特別なアクションであったかどうか判別される。図
示するようにステップ114では、対応する接続アクシ
ョンコードは40であったか、現在分割されている形態
素のバック接続コードが124、131、141〜14
9、152また159であるかどうか判別される。これ
によって、先に分割された形態素が一つのワードである
か、および現在切り出されている形態素が語幹であるか
が表示される。かかる場合、次の形態素は一つの文字し
か有しないリーフ(接辞)でなければならない。接続コ
ードは40で、最終分割形態素が上記バック接続コード
のうちの一つを有していれば、CPU16(図1)の実
行はステップ116にジャンプする。そうでない場合は
ステップ102にジャンプし、CPU16(図1)はセ
ンテンス内の残りの文字列から次の形態素を分割する。
使用されている最終形態素の接続コードに応じて、次の
形態素として異なる形態素を作成できると解すことがで
きる。接続アクションコードが40である場合、ルック
アヘッド処理ステップ114に進むことが好ましい。4
0でない場合、CPU16(図1)の実行操作はステッ
プ102に進み、先の形態素のバック接続コードにより
接続可能な次の最長形態素を作成する。
【0050】ステップ116では、CPU16(図1)
は、残りの文字列(センテンス)内の文字のうちの次の
一つの文字から次の形態素を作成する。ルックアヘッド
処理と称されるこの方法は、語幹が続いているワードの
シーケンスの後の形態素は、リーフ(接辞)でなければ
ならないとする日本語の自然な制約を利用するものであ
る。次の単一文字から次の形態素を形成した後、CPU
16(図1)の実行操作はステップ104にジャンプす
るが、そうでない場合は通常通り進む。ルックアヘッド
処理では、分割すべき次の形態素は既に作成されている
ので、ステップ102〜103はスキップされる。
【0051】センテンスの終了点に達すると、ステップ
112から118に進む。ステップ118では、CPU
16(図1)は接続アクションおよび各形態素に関連し
た知識情報を使用して、ワードグラフを作成する。これ
を行うため、CPU16(図1)は各接続アクションコ
ードに関連した方法を実行する。図9は接続アクション
コードの一般化されたテーブルおよびこの接続アクショ
ンコード従って実行される方法を簡単に記載したもので
ある。接続アクションコードの全てが実行された後、デ
ータ処理システム14(図1)からCPU16(図1)
によりグラフ上のセンテンスが出力される。
【0052】図5および図10を参照して、日本語セン
テンスの分割例について説明する。図10にはCPU1
6(図1)が図5の特定ステップを実行した後の形態素
解析方法のステートを示す表が示されている。このテー
ブルの第1コラムは、変数iの値を示し、かつ現在どの
形態素を分割しているかを述べている。第2コラムは、
形態素解析法を特定ラインのステートにしているCPU
16(図1)により実行される図5のステップを示して
いる。第3コラムは、分割プロセス中である現在の形態
素を示している。第4コラムは、現在分割中の形態素の
接続コードを示す。第5コラムは、現在の形態素と先の
形態素を関連させる接続アクションコードを表示し、最
終コラムは、各ステップを実行した後の残りの文字列を
表示している。説明を簡単にするため、最長一致ステッ
プ102の細部については述べていない。
【0053】まず、ステップ102において、文字のセ
ンテンスを読み取り、これを残りの文字列に記憶する。
形態素カウンターiを1に初期化し(「<」文字により
表示される)、センテンスの開始点に接続コードのデフ
ォールト対(すなわちフロント接続コード「2」および
バック接続コード「269」)を割り当てる。次に、残
りの文字列から抽出できる可能な最長形態素が検索され
るまで、ステップ102を実行する。形態素が作成され
るので(ステップ103)、ステップ104を実行し、
接続コード対(すなわちフロント接続コード「1」およ
びバック接続コード「54」)を第1作成形態素に対し
て検索する。次に、この形態素がセンテンスの開始点と
接続できるかどうかを判別するよう、ステップ106を
実行する。コード対(206、1)は、接続アクション
コード15を指示するので、この形態素はセンテンスの
開始点と接続できる。従って、ステップ109〜114
では接続アクション10を記録し、形態素カウンターi
をインクリメントし、ステップ102へ戻り、ここでセ
ンテンスの残りの文字列から次の形態素を切り出す。
【0054】図10からわかるように、2つから4つの
形態素の各々は、2つの文字から成り、それぞれ接続コ
ード対(1、74)、(205、164)、(1、5
4)を有する。2つから4つの形態素は、コード10、
30および44に対応する接続アクションによりそれぞ
れ接続される。同様にして各形態素を決定するので、残
りの文字列内に残っている文字が減少する。
【0055】最後に8番目の形態素を作成する。コード
40に対応する接続アクションにより、8番目の形態素
は7番目の形態素に接続されると判断される。更に、8
番目の形態素のバック接続コードは148であるので、
ステップ116ではルックアヘッド処理がイネーブルさ
れる。残りの文字列のうちの次の一つの文字から9番目
の形態素が作成される。その後すぐにステップ104へ
移り、ここで9番目の形態素のためにCCTから接続コ
ード(142、137)が検索される。次にステップ1
06において、コード30に対応する接続アクションに
より、9番目の形態素は8番目の形態素に接続されると
判断される。
【0056】次に、図13を参照する。ここには図5の
ステップ118を実行する前に、全センテンスにわたっ
てCPU16(図1)による実行の結果を示すテーブル
の一例が示されている。第1コラムは各形態素の番号を
示し、第2コラムは分割された形態素を示し、第3コラ
ムはテーブルのうちの特定ラインの形態素を先の形態素
に関連付ける接続アクションコードを示し、最後に最終
コラムは各形態素の接続コード対を示している。
【0057】図5のステップ118では、図9に一般的
に記載されている方法を実行し、知識辞書を引き、ワー
ドグラフを作成する。一般に接続コードアクションの実
行では、実行に際しあるアクションコードに関連する形
態素を削除する。例えば、接続アクションコード30に
より接続される各形態素を削除する。図12は図11の
データに対する接続アクションの実行の結果を示す。第
1および第2コラムは以前と同じである。第3コラムは
センテンス内における各形態素の行う役割を示し、第4
コラムは形態素を関連させる有効情報を示す。次にさら
なる処理のため、例えば入力されたセンテンスにより指
示されるような計算機能の実行、または書かれたセンテ
ンスを別の言語に翻訳する等の処理のため、テーブル1
3のデータを出力できる。
【0058】最後に、上記実施例は単に本発明を説明す
るためのものにすぎず、当業者であれば、次の特許請求
の範囲の精神から逸脱することなく、上記以外の種々の
実施例を考えつくことができよう。
【0059】
【発明の効果】上記したように、本発明によれば、効率
が良く、バックトラッキングの量を減少するテキストの
形態素を解析するための方法およびシステムが提供され
る。
【図面の簡単な説明】
【図1】光学式文字認識(OCR)システムを示す図で
ある。
【図2】最長一致解析法のステートを示す目標ツリーの
略図である。
【図3】隣接形態素の関係、それらの接続コードおよび
接続アクションコードを示す図である。
【図4】許容される形態素間の関係のテーブルの一部を
示す図である。
【図5】本発明に係わる形態素解析方法を示す略図であ
る。
【図6】ツリー状であるパターンテーブル部分を示す図
である。
【図7】形態素接続コードおよび知識を記憶するための
フォーマットの図である。
【図8】本発明に係わる接続アクションコードテーブル
である。
【図9】接続アクションコードおよびこれに応答して図
5のステップ118で実行されるそれぞれの方法を示す
図である。
【図10】本発明に係わる形態素解析方法の実行例の所
定ステップのステートを示す図である。
【図11】図10に示される実行例の後の分割されたセ
ンテンスを示す図である。
【図12】接続アクションを実行した後の図11に示さ
れる分割されたセンテンスのステートを示す図である。
【符号の説明】
12 光学式スキャナー 14 データ処理システム 16 CPU 20 バス 22 ディスクメモリ 24 I/Oインターフェース
フロントページの続き (72)発明者 ビン ワン リー 台湾、タイペイ、サン ツェン シティ、 レン イー ストリート、レイン 169、 27番、3階 (72)発明者 ジャン ミン ツァウ 台湾、タイナン、イー ラン シャン、レ イアン ビレッジ、ツェン グェン ロ ード、45番 (72)発明者 ファン チャン リン アメリカ合衆国、カリフォルニア州 95132、サン ノゼ、カダロ コート 1129

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】CPUおよびメモリを有するデータ処理シ
    ステムにおいて文字列を形態素に分割する形態素解析方
    法において、 CPU内で、文字列の開始点から一時に一つずつ形態素
    に電子的に分割する工程を含み、この分割工程は先に分
    割された形態素またはセンテンスの開始点に文法的に接
    続可能な形態素を残りの未分割文字列の最初の文字から
    電子的に作成し、かかる形態素を作成できない場合、先
    に分割した形態素を電子的に再分割することから成り、 前記形態素作成工程は、前記残りの未分割文字列からメ
    モリ内に記憶されている辞書内にもリストされている最
    長の未テスト形態素をCPU内で電子的に識別し、 前記最長未テスト形態素に関連したフロントおよびバッ
    ク接続コードの1つ以上の対をCPU内で前記メモリ内
    の第1テーブルから検索し、 前記最長の未テスト形態素のフロント接続コードと、前
    記先に分割された形態素のバック接続コードまたは先に
    分割された形態素がない場合はデフォールトバック接続
    コードとの各組み合わせにより指示されるアクションコ
    ードを、メモリ内に記憶されている第2テーブルからC
    PU内で検索し、アクションコードが検索されない接続
    コードのすべての対を前記最長未テスト形態素から電子
    的に除き、 CPUによりアクションコードが検索されない場合、C
    PU内で前記最長形態素を電子的に再分割することから
    成る形態素解析方法。
  2. 【請求項2】所定の接続アクションコードに応答して特
    定の形態素をCPU内で電子的に削除することを更に含
    む請求項1に記載の方法。
  3. 【請求項3】CPUにより特定のアクションコードを検
    索した場合、残りの文字列からの一つの文字を有する次
    の形態素を電子的に形成することにより、電子的に前記
    次の形態素を分割することから成る請求項1に記載の方
    法。
  4. 【請求項4】最長の形態素を識別する前記工程は、各文
    字で始まる形態素のすべてを記憶するためのツリーを有
    する辞書を使用し、前記ツリーの各々は一つの文字に関
    連した相互接続された非ターミナルノードとデリミタに
    関連したターミナルノードを有し、前記ツリーのルート
    部からターミナルノードへの前記ツリーのパスを横断す
    ると、一つの形態素が綴られるようになっており、前記
    識別工程は、 前記文字列内の前記残りの文字列のうちの最初の文字と
    同じ文字にルートノードが関連しているツリーをCPU
    内で電子的に選択し、 前記文字列内の前記残りの文字列の次の文字に関連した
    子ノードを有しないノードに達するまで前記文字列内の
    前記残りの文字列のうちの次の文字に関連した子ノード
    まで前記所定のツリーをCPU内で電子的に横断し、 ターミナルノードを有する最も近いノードまで前記所定
    ツリーの前記横断路をCPU内で電子的に戻り、前記ル
    ートから前記ターミナルノードまで順に横断した各ノー
    ドに関連した文字から前記最長形態素を電子的に作成す
    ることから成る請求項1に記載の方法。
  5. 【請求項5】前記デリミタは前記最長形態素に関連した
    前記フロントおよびバック接続コード対の前記第1テー
    ブル内のロケーションをポイントする請求項4に記載の
    方法。
  6. 【請求項6】CPUおよびメモリを有するデータ処理シ
    ステムにおいて、文字列を形態素に分割するための形態
    素解析方法において、 残りの未分割文字列から先に分割された形態素またはセ
    ンテンスの開始点に文法的に接続可能な形態素を電子的
    に作成し、かかる形態素を作成できない場合さきに運か
    つされた形態素を電子的に再分割することによりセンテ
    ンスの開始点から形態素を一つずつCPU内で電子的に
    分割することから成り、 前記形態素作成工程は、 (a)センテンスのうちの残りの文字列からメモリに記
    憶されている辞書にリストされている最長の未テスト形
    態素をCPU内で電子的に識別し、 (b)メモリに記憶されている第1テーブルから前記最
    長の未テスト形態素のフロントおよびバック接続コード
    の一つ以上の対をCPU内で電子的に検索し、 (c)前記最長の未テスト形態素のフロント接続コード
    および先の形態素のバック接続コードまたは先の形態素
    がない場合はデフォールトバック接続コードの各組み合
    わせにより指示されたアクションコードをメモリに記憶
    された第2テーブルから検索し、アクションコードが検
    索されない接続コードのすべての対を前記最長未テスト
    形態素から電子的に除くことにより前記最長の未テスト
    形態素をCPU内で電子的にテストし、 (d)ステップ(c)において前記第2テーブルからC
    PUによりアクションコードが検索されない場合、ステ
    ップ(a)へ戻り、 (e)前記第2テーブルから前記アクションコードの特
    定の一つが検索される場合、残りの文字列のうちの単一
    文字から次の形態素を電子的に形成し、工程(b)に戻
    り、 (f)CPUによりセンテンスの終了点に達するまで工
    程(b)に戻ることから成る形態素解析方法。
  7. 【請求項7】メモリに記憶されている日本語−中国語知
    識辞書を用いてCPU内で前記形態素を中国語の形態素
    に電子的に置換することを更に含む、日本語を中国語に
    翻訳するために用いられる請求項6に記載の方法。
  8. 【請求項8】最長の形態素を識別する前記工程は、各文
    字で始まる形態素のすべてを記憶するためのツリーを有
    する辞書を使用し、前記ツリーの各々は一つの文字に関
    連した相互接続された非ターミナルノードとデリミタに
    関連したターミナルノードを有し、前記ツリーのルート
    部からターミナルノードへの前記ツリーのパスを横断す
    ると、一つの形態素が綴られるようになっており、前記
    識別工程は、 前記文字列内の前記残りの文字列のうちの最初の文字と
    同じ文字にルートノードが関連しているツリーをCPU
    内で電子的に選択し、 前記文字列内の前記残りの文字列の次の文字に関連した
    子ノードを有しないノードに達するまで前記文字列内の
    前記残りの文字列のうちの次の文字に関連した子ノード
    まで前記所定のツリーをCPU内で電子的に横断し、 ターミナルノードを有する最も近いノードまで前記所定
    ツリーの前記横断路をCPU内で電子的に戻り、前記ル
    ートから前記ターミナルノードまで順に横断した各ノー
    ドに関連した文字から前記最長形態素を電子的に作成す
    ることから成る請求項6に記載の方法。
  9. 【請求項9】前記デリミタは前記最長形態素に関連した
    前記フロントおよびバック接続コード対の前記第1テー
    ブル内のロケーションをポイントする請求項6に記載の
    方法。
  10. 【請求項10】スキャンされた文字列を発生するための
    光学式スキャナーと、 前記光学式スキャナーに接続され、前記スキャンされた
    文字列の形態素解析をするためのデータ処理システムか
    ら成るテキスト処理システムであって、 前記データ処理システムは、有効形態素の辞書と、各形
    態素に関連したフロントおよびバック接続コードを含む
    接続コード対の第1テーブルと、先の形態素と後の形態
    素とを有効に隣接して連結するための先の形態素のバッ
    ク接続コードと後の形態素のフロント接続コードに対応
    した接続アクションコードの第2テーブルとを記憶した
    メモリと、 前記メモリに接続されており、各文字列を受け、この文
    字列の開始点から一つずつ形態素に分割するためのCP
    Uとから成り、CPUでは、辞書にリストされており、
    前記先に分割された形態素または先に分割された形態素
    がない場合はセンテンスの開始点と接続可能な最長形態
    素を前記残りの文字列から作成し、かかる最長形態素を
    作成できない場合、先に分割された形態素を再分割し、
    メモリ内に記憶されている前記第1テーブルから前記最
    長形態素に関連したフロントおよびバック接続コードの
    一つ以上の対を検索し、前記最長形態素のフロント接続
    コードと前記先に検索された形態素のバック接続コード
    または前記先に分割された形態素がない場合はデフォー
    ルトバック接続コードとの各組み合わせにより指示され
    る接続アクションコードを、メモリ内に記憶された前記
    第2テーブルから検索することにより、各作成した形態
    素をテストし、アクションコードは検索されない前記最
    長形態素からすべての接続コード対を除き、前記CPU
    によりアクションコードが検索されない場合は前記最長
    形態素を再分割し、特定のアクションコードが検索され
    る場合は残りの文字列からの一つの文字を有する前記次
    の形態素を作成し、この形態素をテストすることにより
    次の形態素に分割するようになっているテキスト処理シ
    ステム。
JP5103091A 1992-04-30 1993-04-28 形態素解析方法およびテキスト処理システム Expired - Lifetime JP2839426B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/876,665 1992-04-30
US07/876,665 US5268840A (en) 1992-04-30 1992-04-30 Method and system for morphologizing text

Publications (2)

Publication Number Publication Date
JPH07311768A true JPH07311768A (ja) 1995-11-28
JP2839426B2 JP2839426B2 (ja) 1998-12-16

Family

ID=25368313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5103091A Expired - Lifetime JP2839426B2 (ja) 1992-04-30 1993-04-28 形態素解析方法およびテキスト処理システム

Country Status (2)

Country Link
US (1) US5268840A (ja)
JP (1) JP2839426B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
JP2001505330A (ja) * 1996-08-22 2001-04-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ テキストストリーム中の単語の切れ目を与える方法及び装置
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
JP3022539B1 (ja) * 1999-01-07 2000-03-21 富士ゼロックス株式会社 文書検索装置
US6721697B1 (en) * 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
JP3662519B2 (ja) * 2000-07-13 2005-06-22 シャープ株式会社 光ピックアップ
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US20040107173A1 (en) * 2000-09-25 2004-06-03 E-Chain Cheng Operating system using artificial intelligence processing
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
CN1835077B (zh) * 2005-03-14 2011-05-11 台达电子工业股份有限公司 中文人名自动语音辨识输入方法及系统
JP2009193356A (ja) * 2008-02-14 2009-08-27 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US8909514B2 (en) * 2009-12-15 2014-12-09 Microsoft Corporation Unsupervised learning using global features, including for log-linear model word segmentation
US8977538B2 (en) * 2010-09-13 2015-03-10 Richard Salisbury Constructing and analyzing a word graph
CN103870442A (zh) * 2012-12-17 2014-06-18 鸿富锦精密工业(深圳)有限公司 中文简繁体转换系统及方法
JP6753401B2 (ja) * 2015-07-24 2020-09-09 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JP6805927B2 (ja) * 2017-03-28 2020-12-23 富士通株式会社 インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text

Also Published As

Publication number Publication date
JP2839426B2 (ja) 1998-12-16
US5268840A (en) 1993-12-07

Similar Documents

Publication Publication Date Title
JP2839426B2 (ja) 形態素解析方法およびテキスト処理システム
JP4459443B2 (ja) 中国語テキストにおける単語分割
US7809744B2 (en) Method and system for approximate string matching
EP0283685B1 (en) A spelling assistance method for compound words
JPS63231569A (ja) 複合語の解析方法
CA2333402A1 (en) Spelling and grammar checking system
US5396419A (en) Pre-edit support method and apparatus
JPH0877173A (ja) 文字列修正システムとその方法
KR20160138077A (ko) 기계 번역 시스템 및 방법
EP0524694B1 (en) A method of inflecting words and a data processing unit for performing such method
JPH0211934B2 (ja)
JP2633824B2 (ja) 仮名漢字変換装置
KR20170107808A (ko) 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
JP2002503849A (ja) 漢字文における単語区分方法
WO2024004184A1 (ja) 生成装置、生成方法、及びプログラム
JP3939264B2 (ja) 形態素解析装置
CN110235127B (zh) 一种信息处理系统、信息处理方法、及计算机程序
JPH08190561A (ja) 文書修正装置
JP2695772B2 (ja) 仮名漢字変換装置
JP2729342B2 (ja) 仮名漢字変換方法および装置
Lin et al. A Level-Synchronous Approach to Ill-formed Sentence Parsing and Error Recovery
JPS63136264A (ja) 機械翻訳装置
JPH0836577A (ja) 日本語処理システム及びその電子化辞書
JPH0736908A (ja) 英日機械翻訳装置
JPH11259473A (ja) 機械翻訳装置及び機械翻訳方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980922

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081016

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081016

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091016

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091016

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101016

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101016

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111016

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111016

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131016

Year of fee payment: 15

EXPY Cancellation because of completion of term