JP3884001B2

JP3884001B2 - 言語解析システムおよび方法

Info

Publication number: JP3884001B2
Application number: JP2003359781A
Authority: JP
Inventors: スヴェトラーナシェヴェンコ
Original assignee: 石倉博
Priority date: 2003-10-20
Filing date: 2003-10-20
Publication date: 2007-02-21
Anticipated expiration: 2015-10-26
Also published as: JP2004078990A

Description

この発明は、機械翻訳等に用いることのできる言語解析装置および方法に関するものである。より詳細には、言語の各トークンに対する品詞を正確に決定する技術に関する。

従来より、自然言語をコンピュータにより翻訳する機械翻訳が研究され、一部実用化されてきた。機械翻訳を行う際には、翻訳しようとする元の言語の解析を行った後、他の言語に翻訳することが行われている。したがって、言語解析は機械翻訳を行うための重要なステップであり、言語解析の正確さが翻訳の正確さを決定する大きな要因となっている。また、言語解析は機械翻訳だけでなく、その他の言語処理一般に用いることができる。

従来の言語解析においては、１つの語（トークン）が２以上の品詞を持つ場合に、これを正確に特定することができなかった。

たとえば、特許文献１においては、人が品詞を選択することによってこれを解決する方法が開示されている。しかしながら、この方法では人による判断操作が必要であり、自動的に品詞を特定することはできなかった。

また、特許文献２においては、文書の対象分野ごとに品詞の使用度を記憶しておき、品詞特定の正確度を向上しようとする方法が開示されている。この方法によれば、ある程度の正確性向上は望めるが、辞書の管理が大変であるという問題が生じる。さらに、正確性向上にも限界があった。
特開平４−３０５７６９号公報。特開平５−２９００８１号公報。

この発明は、上記のような従来の問題点を解決して、品詞の特定を正確に行うことのできる言語解析システムおよび方法を提供することを目的とする。

(1)本発明に係る言語解析システムは、コンピュータを用いた言語解析システムであって、与えられた文章データをトークンに分割する分割手段、文章を構成する具体的なトークンに対する品詞が２以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する１または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブル、文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が１つに決められる場合には当該品詞情報を記憶する一方で、当該具体的なトークンに対する品詞が２以上存在する場合には、当該２以上の品詞情報に代えて、前記テーブルを参照するための参照情報を記憶する辞書手段、前記辞書手段を参照して、前記分割手段によって分割された各トークンの品詞または参照情報を取得する品詞取得手段、前記品詞取得手段によって品詞を確定できず参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた２以上の品詞から１つの品詞を選択する品詞選択手段、を備えている。

(2)本発明に係る言語解析システムは、コンピュータを用いた言語解析システムであって、文章を構成する具体的なトークンに対する品詞が２以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する１または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブル、文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が１つに決められる場合には当該品詞情報を記憶する一方で、当該具体的なトークンに対する品詞が２以上存在する場合には、当該２以上の品詞情報に代えて、前記テーブルを参照するための参照情報を記憶する辞書手段、前記辞書手段を参照して、与えられた言語をトークンに分割するとともに各トークンの品詞または参照情報を取得する分割・品詞取得手段、前記品詞取得手段によって品詞を確定できず参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた２以上の品詞から１つの品詞を選択する品詞選択手段を備えている。
(3)本発明に係る言語解析システムは、前記辞書手段は、動詞の接尾語及び述語形容詞の接尾語以外の品詞を有するトークンについては、トークンと品詞を対応づけた品詞辞書を有しており、動詞の接尾語および述語形容詞の接尾語に関しては、個々の動詞の語根もしくは述語形容詞の語根に関する接尾語のためのテーブルを有していることを特徴としている。
(4)本発明に係る言語解析方法は、記録部と品詞選択手段を有するコンピュータが、与えられた文章を構成する具体的なトークンに対して品詞を付与する言語解析方法であって、文章を構成する具体的なトークンに対する品詞が２以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する１または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブルを記録部に記憶しておき、辞書として、文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が１つに決められる場合には当該品詞情報と、当該具体的なトークンに対する品詞が２以上存在する場合には、当該２以上の品詞情報に代えて、前記テーブルを参照するための参照情報とを記録部に記憶しておき、品詞選択手段が、与えられた文章を構成する具体的なトークンに対応する品詞または参照情報を前記辞書から取得し、参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた２以上の品詞から１つの品詞を選択することを特徴としている。
(5)本発明に係る言語解析方法は、少なくとも、動詞の接尾語および述語形容詞の接尾語に関しては、個々の動詞の語根もしくは述語形容詞の語根に関する接尾語のためのテーブルによってトークンへの分割を行うことを特徴としている。

以下、この発明を説明するために用いた用語の概念を説明する。

「言語」：文書やテキスト等の書き言葉、話し言葉等の自然言語をいう概念である。文字コード形式、イメージ形式、音声形式等、何れの形式で与えられてもよい。

「分割手段」：言語をトークンに分割する手段をいい、実施例においては、図４のステップＳ２、Ｓ３、Ｓ４が対応する。図４の実施例では、接尾語以外のトークンについては品詞辞書を参照して分割を行い、接尾語については図１３等の接尾語のためのテーブルを参照して分割している。しかし、ここにいう分割手段は、接尾語についても品詞辞書を参照して分割を行うものも含む概念である。また、品詞辞書を参照せずに分割を行うものも含む。

「品詞辞書」：トークンと品詞との関係を記憶した手段をいうものであり、記憶の形式（一覧形式、テーブル形式。ツリー後造形式等）は問わない。実施例では、図５の辞書が該当する。図５の実施例では、接尾語以外の品詞を持つトークンについて品詞辞書を形成しているが、接尾語も含めて品詞辞書を構成してもよい。

「辞書手段」：少なくとも上記の品詞辞書を含む辞書をいうものである。実施例では、図１の品詞辞書８ａ、動詞の接尾語のためのテーブル８ｂ、述語形容詞の接尾語のためのテーブル８dを含んだ概念である。なお、動詞の接尾語のためのテーブル８ｂは、この実施例では、図１３の一般動詞の語根の次にくる接尾語のテーブル（テーブルＤ）、図１４のテーブル、図１５のテーブル、図１６の複合動詞のテーブル等を含んでいる。述語形容詞の接尾語のためのテーブル８ｄは、この実施例では、図１７のテーブル等を含んでいる。

「品詞取得手段」：辞書手段を参照して、トークンの品詞を得る手段をいい、実施例では、図４のステップＳ２、Ｓ３、Ｓ４が対応する。

「品詞選択手段」：前後の１以上のトークンの品詞に基づいて、２以上の品詞を有するトークンの品詞を決定する手段をいい、実施例では、図４のステップＳ７（図７全体）が対応する。図７の実施例では、図８等のルールテーブルを参照して品詞を決定しているが、ルールテーブルの使用の有無に拘わらず、前後のトークンの品詞に基づいて、トークンの品詞を決定するものを含む概念である。また、前後のトークンの品詞を、品詞決定のために用いるものをいうものであり、他の要素も加味して品詞決定を行うものも含む概念である。

請求項１、２、４に係る発明によれば、１つのトークンに対し、品詞取得手段によって得られた品詞が２以上ある場合には、前記テーブルに基づいて、当該トークンに与えられた２以上の品詞から１つの品詞を選択するようにしている。つまり、前後のトークンとの関係によって当該トークンの品詞を確定するようにしているので、より正確に当該トークンの品詞を確定し、そのことによって正確な意味や正確な文章上のかかり具合をとらえることが可能となる。

請求項３、５に係る発明においては、辞書手段に、少なくとも、動詞の接尾語および述語形容詞の接尾語に関するテーブルを備えるようにしている。したがって、品詞辞書には動詞の語根や述語形容詞の語根のみを記憶し、接尾語を共通化してテーブルに持つことができる。すなわち、品詞辞書は語根を記憶するだけよく、またテーブルは共通化を図ることができるので、辞書手段の容量を大幅に削減できるだけでなく、処速度の高速化も達成できる。

この発明による言語解析装置の一実施形態を、図１に全体構成として示す。分割手段２は、多くのトークンを予め記憶している辞書手段８を参照して、入力された文章データをトークンに分割する。品詞取得手段４は、分割した各トークンについて、辞書手段８を参照して品詞を取得する。つまり、この実施例では、分割手段２と品詞取得手段４とによって、分割・品詞取得手段５が構成されている。品詞選択手段６は、ルールテーブル７を参照して、各トークンについて取得した品詞が複数存在する場合には、前または後（または双方）のトークンの品詞に基づいて、当該トークンの品詞を１つに決定する。なお、品詞を１つに決定できない場合には、絞り込みにとどめてもよい。

なお、図１の実施例では、分割手段２が辞書手段８を参照して分割を行うようにしている。しかし、辞書手段８を参照せず、トークンへの分割を行うようにしてもよい。

図２に、図１の言語解析装置をＣＰＵを用いて実現した場合のハードウエア構成を示す。バスライン１０には、ＣＰＵ１２、ハードディスク１４、ＣＲＴ１６、メモリ１８、フロッピイディスクドライブ（ＦＤＤ）２０、キーボード２２が接続されている。ハードディスク１４には、トークンと品詞を対応づけた品詞辞書８ａ、動詞の接尾語のためのテーブル８ｂ（複合動詞のためのテーブル８ｃを結合しており、慣用語のテーブルを一体化している）、述語形容詞の接尾語のためのテーブル８ｄが格納されている。つまり、この実施例では、品詞辞書８ａ、動詞の接尾語のためのテーブル８ｂ、述語形容詞の接尾語のためのテーブル８ｄによって辞書手段が構成されている。さらに、品詞を確定するためのルールテーブル７も記憶されている。さらに、ハードディスク１４には、言語解析を行うためのプログラムが記憶されている。このプログラムは、ＦＤＤ２０を介して、フロッピイディスク２４から取り込まれたものである。もちろん、ＣＤ−ＲＯＭ等のその他の記憶装置から取り込んだものであってもよい。また、通信回線を介してダウンロードしたものであってもよい。

解析対象であるテキスト文章は、フロッピイディスク２６に格納されて、ＦＤＤ２０を介して読み込まれる。もちろん、これもＣＤ−ＲＯＭ等の媒体に格納されているものを読み込むようにしてもよいし、通信によってテキスト文章を受け取るようにしてもよい。また、キーボード２２から入力されたテキスト文章を解析対象としてもよい。

取り込まれたテキスト文章は、ハードディスク１４に記憶されたプログラムに従って、解析される。解析結果は、ハードディスク１４に記憶され、必要に応じてＣＲＴ１６、フロッピイディスクやプリンタ（図示せず）に出力される。場合によっては、通信回線を介して転送してもよい。

この実施例による品詞辞書は、図３のように分類して各トークンについての品詞を記憶している。図３の分類は、さらに、細かく分類されている。例えば、名前グループＡは、さらに、一般名詞、一般名詞ではない名詞、リストＡの名詞、代名詞・・・・等に細分類されている。表１に、図３の分類の細分類を示す。

品詞辞書には、個々のトークンにつき、この細分化された品詞が記憶されている。なお、ハードディスク１２には、図３の分類階層および後述の表１の分類階層を記憶している。したがって、細分化された品詞が分かれば、その上位の分類も容易に取得できる。たとえば、「一般名詞」が、「名前グループＡ」に属するということを容易に取得できる。なお、細分化した品詞とともに上位の分類も併せて記憶するようにしてもよい。

図３（および表１）においては、動詞を、動詞の語根と動詞の接尾語とに分けて、それぞれ１つの品詞としている。また、同様に、述語形容詞を述語形容詞の語根と述語形容詞の接尾語とに分けて、それぞれ１つの品詞としている。これにより、辞書のトークンが固定されたことによって明確になり、他言語への翻訳が簡単、明確となり、より正しい翻訳を得られるようになる。さらに、動詞の語根および述語形容詞の語根のグループと、それ以外のグループとに大別して品詞を付与している。これにより、上記の接尾語を伴うもの（動詞の語根と述語形容詞の語根）と接尾語を伴わないものとの処理を分けることができる。

また、この実施例においては、動詞の接尾語および述語形容詞の接尾語については、品詞辞書に記憶していない。これは、これらの接尾語に関しては、後述のように、テーブルによって確定した方が、辞書容量の点からも、解析上からも好ましいからである。なお、動詞の接尾語および述語の接尾語以外にも接尾語が存在する（数字の接尾語等）。以下では、特に断らない限り、接尾語という場合には、動詞の接尾語および述語の接尾語を指すものとする。

品詞辞書においては、検索の効率を考慮すれば、文字コード順にトークンを記憶しておくことが好ましい。

表１（コンピュータ品詞）
１．名前グループＡ
1.1 一般名詞：木、車・・・
1.2 一般名詞ではない名詞：十分、必要・・・
1.3 リストＡの名詞：現在、今・・・
1.4 代名詞：これ、どれ・・・
1.5 性質を表す名詞：みんな、たくさん・・・
1.6 特定の語：程度、くらい・・・
1.7 ”など”：など・・・
1.8 基本の数字：一、二・・・
1.9 テキストのシンボルでないもの：３、H_２SO_４・・・
２．名前グループＢ
2.1 名詞化した語：こと、もの・・・
３．名前グループＣ
3.1 数を数える語：枚、冊・・・
４．名前ではないもの
4.1 述語形容詞でないもの：大きな、あの・・・
５．後置詞
5.1 真の後置詞：内、中・・・
5.2 動詞の後置詞：による、における・・・
5.3 中間の後置詞：によって・・・
６．副詞
6.1 形容詞的な副詞：比較的に・・・
6.2 単純化された副詞：比較的・・・
6.3 程度を示す副詞：少し、ほとんど・・・
6.4 リスト１からの副詞：さらに、むしろ・・・
6.5 リストＣからの副詞：約、ほぼ・・・
6.6 マナーの副詞：下手に、上手に・・・
７．接続詞
7.1 同等の接続詞：と、かつ・・・
7.2 従属節の接続詞：とき、には・・・
7.3 接続詞”から”：から
7.4 接続詞”からではなく”：からではなく
7.5 接続詞”もし”と”たとえ”：もし、たとえ
7.6 同格を紹介する接続詞：例えば、すなわち・・・
８．不変化詞
8.1 主格の不変化詞
8.1.1 不変化詞”は”：は
8.1.2 不変化詞”が”：が
・
・
8.2 間接目的語として使われる場合
8.1.1 不変化詞”に”：に
8.1.2 不変化詞”へ”：へ
・
・
8.3 直接目的語として使われる場合：を
8.4 強調したり、制限したり、質問する不変化詞
8.4.1 土台となる不変化詞：は
・
・
8.5 強調する不変化詞：なら、ならば・・・
９．限定詞：のような、のごとき・・・
１０．接辞
10.1 数字の接辞：第、目・・・
10.2 動詞や述語形容詞の接尾語：
10.3 述語形容詞ではない接尾語：的、的な・・・
10.4 名詞の準接辞：不、可・・・
１１．分割詞
11.1 句点：。
11.2 コンマ：、
11.3 コロン：：
11.4 特別の分割詞
１２．一般動詞の語根
12.1 一般動詞の語根：読、書・・・
12.2 一般動詞でない動詞の語根
１３．連結詞の語根：であ・・・
１４．助動詞の語根：にな・・・
１５．述語形容詞の語根：おもしろ、よ・・・
図４に、ハードディスク１４に記憶された言語解析のプログラムをフローチャートで示す。まず、フロッピイディスク２６に記憶されたテキスト文章を読み込む（ステップＳ１）。次に、ＣＰＵ１２は、読み込んだテキスト文章の１つの文を対象として、トークンに分割するとともに品詞を取得する（ステップＳ２）。この際、ＣＰＵ１２は、ハードディスク１４に記憶された品詞辞書に基づいて文をトークンに分解して、品詞を取得する。
たとえば、「僕は学校へ行きます。」という文を例として、トークンへの分割処理および品詞の取得処理について説明する。まず、ＣＰＵ１２は、最初の文字「僕」について、品詞辞書の検索を行う。図５に品詞辞書の一部を示す。図からも明らかなように、「僕」は、一般名詞という品詞であることが分かる。

さらに、ＣＰＵ１２は、「僕は」という文字につき同じようにして品詞辞書の検索を行う。品詞辞書には「僕は」が記憶されておらず、かつ「は」が漢字でないことから、ＣＰＵ１２は「僕」が１つのトークンであると判断する。とともに、トークン「僕」の品詞を名前グループＡの一般名詞として解析ファイルに記憶する（図６参照）。

次に、取得した品詞が、動詞、述語形容詞の何れかであるか否かを判断する（ステップＳ３）。ここでは、一般名詞であるから、ステップＳ５に進む。ステップＳ５においては、当該文の全てのトークンについて品詞を取得したか否かを判断する。ここでは、まだ、未取得のトークンがあるので、ステップＳ６に進み、次のトークンについて処理を行う。

次に、「は」について品詞辞書の検索を行う。品詞辞書には、「は」の品詞は記憶されておらず、ルールテーブルの番号が記憶されている。これにより、「は」は、２以上の品詞を有することが分かる。さらに、「は学」という文字につき同じようにして品詞辞書の検索を行う。品詞辞書には「は学」が記憶されていないことから、ＣＰＵ１２は「は」が１つのトークンであると判断する。とともに、トークン「は」の品詞が２以上存在して不確定であることから、品詞辞書に記憶されているルールテーブルの番号Ｂ(45)を記憶する（図６参照）。なお、上記実施例では、２以上の品詞が存在する場合に、ルールテーブルの番号のみを品詞辞書に記憶するようにしているが、これら品詞も併せて記憶するようにしてもよい。

以下同じようにして、「学校」「へ」をそれぞれトークンとして認識し、図６に示すようにそれぞれの品詞を記憶する。次に、「行」をトークンとして認識し、その品詞として一般動詞の語根を記憶する。ここでは、取得した品詞が一般動詞の語根であるから、ステップＳ３により、ステップＳ４に分岐する。ステップＳ４においては、接尾語のトークンを確定するとともに、その属性の解析を併せて行う。以下に述べるように、テーブルを使用することにより、トークンの確定と属性の解析とを同時に行うことを可能としている。このような利点を追求しないのであれば、品詞辞書の中に、接尾語を記憶しておいて処理することも可能である。

以下、この実施例に基づいて、一般動詞の接尾語のためのテーブルを用いて接尾語の解析を行う処理を説明する。この実施例では、図１３に示す”一般動詞の語根の次に来る接尾語のためのテーブル”（以下テーブルＤと呼ぶ）、およびこのテーブルによって指示されるテーブル等によって、動詞の接尾語のためのテーブルが構成されている。

前述のように「行」の品詞が一般動詞の語根であると判明すると、ＣＰＵ１２は、図５の品詞辞書の「行」の欄から、テーブルＤのカラム記号「ｋ」を取得する。

テーブルＤを、図１３に示す。このテーブルは、ｒ、ｔ、ｍ、ｂ、ｎ、ｋ、ｋ’、ｇ、ｓ、ｗのカラムを有している。今、指定されたカラム記号は「ｋ」であるから、「ｋ」のカラムが参照される。ここで、ＣＰＵ１２は、次の文字「き」を読み込み、カラム「ｋ」において該当する文字を検索する。ここでは、２行目に「き」が存在するので、当該行の情報を用いて解析を行う。つまり、「き」が「同時」という属性を持っていることを得て、これを記憶する。さらに、次に参照すべきテーブルの番号Ｃ(2)を取得する。

テーブルＣ(2)を、図１４に示す。ＣＰＵ１２は、次の文字「ま」を取得し、
このテーブルに「ま」が存在するか否かを判断する。さらに、次の文字を含めて「ます」がテーブルに存在するか否かを判断する。このようにして、ＣＰＵ１２は、最も長い文字列として合致するものをテーブルＣ(2)から探し出す。ここで
は、No.22の「ます」が選択される。このように、「き」に連続する文字が見い
だされた時点で、先ほど記憶した「同時」という属性を消去する。これは、図１３に示す接尾語のためのテーブルに掲げられた属性「同時」「過程が明確」「過去でない」「命令」は、それ以降に接尾語が続かない場合にのみ適用されるものだからである。ただし、例外として「命令」でテーブルＣ(1)とテーブルＣ(3)に続く場合は「命令」の属性は残る。この例外となる理由は、「命令」でテーブルＣ(1)、Ｃ(3)に続くのは動詞の接尾語に対してではなく、慣用語に続くからである。したがって、動詞の接尾語に対して続く、テーブルＣ(4)の場合は、原則ど
おり、「命令」の属性は消える。

いずれにしても、「ます」が選択されることにより、「過程が明確」「過去でない」「敬語」という属性を取得する。また、「きます」が１つのトークンになり一般動詞の接尾語であると確定できる。

なお、テーブルＣ(2)に該当する文字列が発見できない場合には、図１３のテ
ーブルに戻って、次のテーブルとして指示されている他のテーブル（ここではＳ(V)）を検索する。また、テーブルＣ(2)からさらに他のテーブルが指示される場合もある。例えば、「たくな」を選択した場合には、さらにテーブルＣを参照するように指示されている（次テーブルの項に「Ｃ」と記憶されている）。この場合、テーブルＣ(1)〜Ｃ(n)を参照して、次に続く言葉を検索する（ここで、nは
、Ｃの記号が付されたテーブルの数である）。

ＣＰＵ１２は、以上の解析に基づき、図６Ａに示すように、「きます」を一般動詞の接尾語として記憶する。また、併せて、その属性「過程が明確」「過去でない」「敬語」を記憶する。このようにして記憶した属性は、例えば、他言語への翻訳の際に利用できる。

なお、上記の例では、一般動詞の接尾語について説明したが、連結詞の接尾語や助動詞の接尾語についても同じように接尾語のためのテーブルを用いて接尾語の確定および属性解析を行う。ただし、連結詞の接尾語や助動詞の接尾語については、一般動詞のようなテーブルＤはなく、直接、テーブルＣを参照する。

また、述語形容詞の接尾語についても同じように接尾語のためのテーブル８ｄを用いて、接尾語の確定および属性解析を行う。述語形容詞の接尾語のためのテーブル８ｄの一部を図１７に示す。述語形容詞の接尾語においては、一般動詞の接尾語のようなテーブルＤはなく、図１７に示すようなテーブルＦを持っている。なお、図１７のテーブル（述語形容詞の接尾語のためのもの）がテーブルＣ（動詞の接尾語のためのもの）やテーブルＤを参照する場合もある。また、逆に、図１４のテーブルＣ(2)（動詞の接尾語のためのもの）がテーブルＤやテーブル
Ｆ（述語形容詞の接尾語のためのもの）を参照する場合もある。これは、動詞の接尾語と述語形容詞の接尾語の何れにもなりうるものが存在するためである。
上記のように、この実施例では、接尾語を分類して、テーブル化している。これにより、品詞辞書に個々の動詞や述語形容詞に接尾語を振り当てて登録する場合に比べて、辞書容量を大幅に減らすことができる。加えて、接尾語の確定を行う際に迅速な処理を行うことができ、同時にその属性を解析することができる。また、ありえない接尾語のつながりを見い出して、文章の誤りを見つけることもできる。

次に、ＣＰＵ１２は、品詞の不明なトークンについて品詞の決定を行う（ステップＳ７）。図７に、品詞決定の詳細なフローチャートを示す。まず、ステップＳ１０において、「僕」に対して２以上の品詞が取得されているか否かを判断する。ここでは、「僕」の品詞はすでに一般名詞として確定されているので、そのまま一般名詞とする。

次に、ステップＳ１３、Ｓ１４を経て、次のトークン「は」について同様の処理を行う。ここで、「は」に対しては２以上の品詞が取得されているので（つまりＢ(45)が記憶されているので）、ステップＳ１１に進む。ステップＳ１１においては、記憶されているルールテーブルＢ(45)を参照する。

ルールテーブルＢ(45)は、ハードディスク１４に記憶されている。その詳細を、図８に示す。このルールテーブルには、複数のルール（NO.1〜NO.3）が記憶されている。まず、NO.1のルールが読み出される。NO.1のルールは、左側（１つ前）のトークンが不変化詞、後置詞、副詞のいずれかである場合、トークン「は」は、土台となる不変化詞であることを示している。ここで、ＣＰＵ１２は、ステップＳ２で記憶した左側のトークン「僕」の品詞を読み出す（図６Ａ参照）。「僕」の品詞は一般名詞であって、不変化詞、後置詞、副詞の何れでもないから、NO.1のルールは成立しない。

同様にして、ＣＰＵ１２はNO.2、NO.3のルールを検討し、適合するルールを見い出す。ここでは、NO.3のルールが成立し、「は」の品詞は、不変化詞”は”であると確定できる。

ＣＰＵ１２は、このようにして確定した品詞をハードディスク１４に記憶する（ステップＳ１２）。つまり、図６Ｂに示すように、不変化詞”は”が記憶される。さらに、ＣＰＵ１２は、適用したルールNO.3のウエイトの項目より、「１」を取得してこれも併せて記憶する（図６Ｂ参照）。ここで、ウエイトとは、品詞決定の確実性の程度を数値化したものである。この実施例では、情報不足を「０」、正確を「１」、少し正確を「２」、不正確を「３」としている。このようなウエイト付けをしておくことにより、解析後の種々の処理（たとえば他言語への翻訳等）の際に、ウエイトに基づいて処理結果に正確性を付与することができる。

以上と同様にして、全てのトークンについて処理を行う（ステップＳ１３、Ｓ１４）。ここで挙げた例では、２以上の品詞を持つのは、トークン「は」だけであるので、最終的な記憶内容は図６Ｂのようになる。

以上のようにして、「僕は学校へ行きます。」という文を、各トークンに分割して、品詞を付与することができる。以後、このトークンへの分割と品詞の付与を基本として、その他の解析（文型分析等）が行われていく（ステップＳ９）。

上記で例示したルールテーブルでは、左側のトークンのみを参照して品詞を決定している。しかし、他のルールテーブルでは、右側（１つ後ろ）のトークンも参照する場合もあるし、右側のトークンだけを参照する場合もある。いずれにしても、当該トークンの品詞を決定するために必要な程度、前後（１以上離れたトークンを含んでいてもよい）のトークンを参照することが好ましい。

次に、「麓に近いこの村は景色が美しかった。」という文を例にして、上記の解析を説明する。まず、図４のステップＳ２、Ｓ５、Ｓ６を繰り返し実行し（動詞や述語形容詞についてはＳ３、Ｓ４）、図９Ａに示すように、トークンに分解して品詞を取得する（この図では、動詞や述語形容詞の属性の記憶内容は省略している）。次に、ステップＳ７において、品詞の不明なトークンについて品詞の確定を行う。

まず、トークン「に」について、ルールテーブルＢ(43)を参照する。ルールテーブルＢ(43)の詳細を図１０に示す。まず、ルール１についての検討が行われる。ルール１は、左のトークンが「動詞であって後ろに述語を伴わないもの」となっている。ここでは、動詞の語根＋動詞の接尾語を「動詞」と呼んでいる。これは、「動詞の語根」＋「動詞の接尾語」という２つのトークン（このようなかたまりをクワジワードと呼ぶ）を判断の基準に使うということを示している。つまり、判断の基準に用いられるトークンはこの場合のように複数となる場合もある。また、ルール１に示すように、品詞以外の要素である「述語を伴わない」という要素も加味して、ルールを構成する場合もある。

いずれにしても、ここでは、左のトークンが一般名詞であるので、ルール１は該当しない。その結果、ルール１に該当しない場合の全ての場合に適用されるルール２が適用される。すなわち、品詞は、不変化詞”に”であると決定される。また、そのウエイトは、２として記憶される。

以下同様にして、「は」については、図８のルールテーブルＢ(45)を参照して、不変化詞”は”であると決定される。また、「が」については、図１１のルールテーブルＢ(44)を参照して、不変化詞”が”であると決定される。

以上のようにして、「麓に近いこの村は景色が美しかった。」という文が解析される。つまり、図９Ｂに示すように、トークンへの分割と、各トークンの品詞が、解析ファイルとしてハードディスク１４に記憶される。

なお、同じ品詞が連続する場合などは、前後のトークンの品詞によって当該トークンの品詞を決定することが不適切となる場合もある。たとえば、「車は常に迅速、確実かつ安全に運転しよう。」という文について、品詞辞書から品詞を取得した結果は、図１２Ａのようになる。ここで、「は」については、上記と同様にして、ルールテーブルＢ(45)を参照して品詞を決定する。

次に、「迅速」の品詞を確定するため、ルールテーブルＢ(6)を読み出す（図
１８参照）。しかし、このルールテーブルに従って、右側のトークン「確実」の品詞に基づいて品詞を確定してはならない（なお、ここでの「、」はトークンとトークンを分割しているだけであり無視する）。もっとも、例示したケースの場合には、「確実」の品詞が定まっていないため、確定すらできない。しかし、たとえ確定できたとしても、「確実」の品詞に基づいて確定すると誤った結果となる。
図１９を参照しつつその説明をする。同じ品詞のトークンα、βが連続した場合、これらは１つのトークンとして、これら同じ品詞の連続トークンα、β以外のトークンγと関係していると見られる。つまり、図に示すように、それぞれのトークンα、βが、それぞれトークンγに関係していると見られるのである。したがって、トークンαについて、図１８のテーブルＢ(6)を適用する際に、右の
トークンは、γとしなければならないのである。
このように、同じ品詞のトークン（同じルールテーブルを参照するトークンはそうであると推定する）が連続した場合（コンマや同等の接続詞が入っている場合も連続とみなす）には、同じルールテーブルを参照しない最も近いトークン（ただし、コンマや同等の接続詞は無視する）の品詞を用いてルールテーブルにあてはめる。上記の例でいうと、「迅速」についての品詞を決定する場合には、「確実」や「安全」の品詞でなく、「に」の品詞で決定するようにしている。

なお、「に」の品詞は確定しておらずテーブルＢ(43)によって決定されるようになっているが、テーブルＢ(6)とＢ(43)においてとりうる品詞の組み合わせに
よって、品詞が確定可能である。
同様に、「確実」も、「に」の品詞によってその品詞が決定される。このようにして、得られた品詞を、図１２Ｂに示す。なお、図１２Ｂのように品詞を定めた後、所定のルールを用いて（たとえば、連続する一般名詞と不変化詞を１つのトークンとする等のルールを用いて）「車は」を１つののトークンとしてまとめて扱ってもよい。同様に、「運転」「しよ」を１つのトークンとしてまとめて動詞として扱っても良い。このような処理は、これに続く解析の内容によって、適宜選択することができる。

以上述べたように、この実施例では、動詞を、動詞の語根と動詞の接尾語とに分けて、それぞれ１つの品詞としている。また、同様に、述語形容詞を述語形容詞の語根と述語形容詞の接尾語とに分けて、それぞれ１つの品詞としている。これにより、接尾語は、品詞辞書に登録せず、前記のようにテーブルによって特定するという処理を可能にしている。

なお、「行くかもしれない」等の慣用的な言葉は、動詞の語根「行」と接尾語「く」と慣用語「かもしれない」に分割し、慣用語「かもしれない」を接尾語のように扱って動詞の接尾語ためのテーブル中に盛り込んでおいてもよい。これは、慣用語が動詞の接尾語と同じ機能を持っているからである。このようにして慣用語を盛り込んだ接尾語のテーブルの例を、図１５に示す。このようにしておけば、動詞の語根やその接尾語に続く慣用語の解析が容易となる。なお、このテーブルにおいて、記号”、”はORの意味であり、記号”＊”はANDの意味である。

ただし、”＊”の右側の文字は使わない場合もある。たとえば、（Ａ、Ｂ）＊（Ｃ）と表記されている場合、とりうる言葉は、ＡＣ，ＢＣ，Ａ，Ｂの４つであることを示している。

なお、上記のように慣用語を接尾語のように扱うテーブルを、動詞の接尾語のテーブルと一体にしてもよいが、これと分離して設けてもよい。

また、複合動詞について、動詞（”い”行で終わる動詞）の語根の次の接尾語に続く動詞を接尾語として扱う、複合動詞のテーブルを設けてもよい。この実施例では、この複合動詞のテーブルを、一般動詞の語根に続く接尾語のテーブルによって指示されるテーブルＳ(V)として設けている（図１６参照）。つまり、動
詞の接尾語のテーブル中に設けられている。しかし、これとは分離して、設けてもよい。
動詞（動詞の語根の次の接尾語が「い」で終わる動詞）に動詞が続くと、図１６の複合動詞のテーブルＳ(V)が呼び出される。これにより、処理の高速化が図
られる。
ところで、「する」や「来る」等の動詞は、語根が変化してしまう。つまり、本発明の考え方を適用すれば、語根がないということになってしまう。このような動詞に対しては、例外的に、変化するそれぞれの語根を品詞辞書に登録するとともに、次に続くテーブルの番号を記憶するようにしている（図５の「来」「来る」「来い」「来よ」参照）。

また、上記各実施例では、文章データを受けてとって、これをトークンに分割し、品詞を決定するようにしているが、予めトークンに分割された文を受け取って、品詞の決定のみを行うようにしてもよい。

また、上記各実施例においては、図１の各機能をＣＰＵを用いて実現しているが、その一部または全部をハードウエアロジックによって構成してもよい。

この発明の一実施例による言語解析システムの全体構成を示す図である。図１の言語解析システムをＣＰＵを用いて実現した場合のハードウエア構成を示す図である。品詞の分類を示す図である。トークンへの分割および品詞の取得の処理プログラムのフローチャートである。品詞辞書の例を示す図である。解析ファイルの内容を示す図である。品詞の選択処理のプログラムを示すフローチャートである。ルールテーブルＢ(45)を示す図である。解析ファイルの内容を示す図である。ルールテーブルＢ(43)を示す図である。ルールテーブルＢ(44)を示す図である。解析ファイルの内容を示す図である。動詞の語根の次に来る接尾語のためのテーブル（テーブルＤ）を示す図である。動詞の接尾語のためのテーブルを示す図である。慣用語を動詞の接尾語として扱う部分を含む、接尾語のためののテーブルを示す図である。複合動詞のテーブルを示す図である。述語形容詞の接尾語のためのテーブルを示す図である。ルールテーブルＢ(6)を示す図である。同じ品詞が続いた場合の処理を説明するための図である。

符号の説明

２・・・分割手段
４・・・品詞取得手段
５・・・分割・品詞選択手段
６・・・品詞選択手段
８・・・辞書手段

Claims

コンピュータを用いた言語解析システムであって、
与えられた文章データをトークンに分割する分割手段、
文章を構成する具体的なトークンに対する品詞が２以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する１または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブル、
文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が１つに決められる場合には当該品詞情報を記憶する一方で、当該具体的なトークンに対する品詞が２以上存在する場合には、当該２以上の品詞情報に代えて、前記テーブルを参照するための参照情報を記憶する辞書手段、
前記辞書手段を参照して、前記分割手段によって分割された各トークンの品詞または参照情報を取得する品詞取得手段、
前記品詞取得手段によって品詞を確定できず参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた２以上の品詞から１つの品詞を選択する品詞選択手段、
を備えた言語解析システム。
コンピュータを用いた言語解析システムであって、
文章を構成する具体的なトークンに対する品詞が２以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する１または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブル、
文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が１つに決められる場合には当該品詞情報を記憶する一方で、当該具体的なトークンに対する品詞が２以上存在する場合には、当該２以上の品詞情報に代えて、前記テーブルを参照するための参照情報を記憶する辞書手段、
前記辞書手段を参照して、与えられた言語をトークンに分割するとともに各トークンの品詞または参照情報を取得する分割・品詞取得手段、
前記品詞取得手段によって品詞を確定できず参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた２以上の品詞から１つの品詞を選択する品詞選択手段、
を備えた言語解析システム。
請求項１または請求項２の言語解析システムにおいて、
前記辞書手段は、
動詞の接尾語及び述語形容詞の接尾語以外の品詞を有するトークンについては、トークンと品詞を対応づけた品詞辞書を有しており、動詞の接尾語および述語形容詞の接尾語に関しては、個々の動詞の語根もしくは述語形容詞の語根に関する接尾語のためのテーブルを有していることを特徴とする言語解析システム。
記録部と品詞選択手段を有するコンピュータが、与えられた文章を構成する具体的なトークンに対して品詞を付与する言語解析方法であって、
文章を構成する具体的なトークンに対する品詞が２以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する１または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブルを記録部に記憶しておき、
辞書として、文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が１つに決められる場合には当該品詞情報と、当該具体的なトークンに対する品詞が２以上存在する場合には、当該２以上の品詞情報に代えて、前記テーブルを参照するための参照情報とを記録部に記憶しておき、
品詞選択手段が、与えられた文章を構成する具体的なトークンに対応する品詞または参照情報を前記辞書から取得し、参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた２以上の品詞から１つの品詞を選択すること、
を特徴とする言語解析方法。
請求項４の言語解析方法において、
少なくとも、動詞の接尾語および述語形容詞の接尾語に関しては、個々の動詞の語根もしくは述語形容詞の語根に関する接尾語のためのテーブルによってトークンへの分割を行うことを特徴とする言語解析方法。