JP3884001B2 - 言語解析システムおよび方法 - Google Patents
言語解析システムおよび方法 Download PDFInfo
- Publication number
- JP3884001B2 JP3884001B2 JP2003359781A JP2003359781A JP3884001B2 JP 3884001 B2 JP3884001 B2 JP 3884001B2 JP 2003359781 A JP2003359781 A JP 2003359781A JP 2003359781 A JP2003359781 A JP 2003359781A JP 3884001 B2 JP3884001 B2 JP 3884001B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- token
- specific token
- parts
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
(3)本発明に係る言語解析システムは、前記辞書手段は、動詞の接尾語及び述語形容詞の接尾語以外の品詞を有するトークンについては、トークンと品詞を対応づけた品詞辞書を有しており、動詞の接尾語および述語形容詞の接尾語に関しては、個々の動詞の語根もしくは述語形容詞の語根に関する接尾語のためのテーブルを有していることを特徴としている。
(4)本発明に係る言語解析方法は、記録部と品詞選択手段を有するコンピュータが、与えられた文章を構成する具体的なトークンに対して品詞を付与する言語解析方法であって、文章を構成する具体的なトークンに対する品詞が2以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する1または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブルを記録部に記憶しておき、辞書として、文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が1つに決められる場合には当該品詞情報と、当該具体的なトークンに対する品詞が2以上存在する場合には、当該2以上の品詞情報に代えて、前記テーブルを参照するための参照情報とを記録部に記憶しておき、品詞選択手段が、与えられた文章を構成する具体的なトークンに対応する品詞または参照情報を前記辞書から取得し、参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた2以上の品詞から1つの品詞を選択することを特徴としている。
(5)本発明に係る言語解析方法は、少なくとも、動詞の接尾語および述語形容詞の接尾語に関しては、個々の動詞の語根もしくは述語形容詞の語根に関する接尾語のためのテーブルによってトークンへの分割を行うことを特徴としている。
1. 名前グループA
1.1 一般名詞:木、車・・・
1.2 一般名詞ではない名詞:十分、必要・・・
1.3 リストAの名詞:現在、今・・・
1.4 代名詞:これ、どれ・・・
1.5 性質を表す名詞:みんな、たくさん・・・
1.6 特定の語:程度、くらい・・・
1.7 ”など”:など・・・
1.8 基本の数字:一、二・・・
1.9 テキストのシンボルでないもの:3、H2SO4・・・
2.名前グループB
2.1 名詞化した語:こと、もの・・・
3.名前グループC
3.1 数を数える語:枚、冊・・・
4.名前ではないもの
4.1 述語形容詞でないもの:大きな、あの・・・
5.後置詞
5.1 真の後置詞:内、中・・・
5.2 動詞の後置詞:による、における・・・
5.3 中間の後置詞:によって・・・
6.副詞
6.1 形容詞的な副詞:比較的に・・・
6.2 単純化された副詞:比較的・・・
6.3 程度を示す副詞:少し、ほとんど・・・
6.4 リスト1からの副詞:さらに、むしろ・・・
6.5 リストCからの副詞:約、ほぼ・・・
6.6 マナーの副詞:下手に、上手に・・・
7.接続詞
7.1 同等の接続詞:と、かつ・・・
7.2 従属節の接続詞:とき、には・・・
7.3 接続詞”から”:から
7.4 接続詞”からではなく”:からではなく
7.5 接続詞”もし”と”たとえ”:もし、たとえ
7.6 同格を紹介する接続詞:例えば、すなわち・・・
8.不変化詞
8.1 主格の不変化詞
8.1.1 不変化詞”は”:は
8.1.2 不変化詞”が”:が
・
・
8.2 間接目的語として使われる場合
8.1.1 不変化詞”に”:に
8.1.2 不変化詞”へ”:へ
・
・
8.3 直接目的語として使われる場合:を
8.4 強調したり、制限したり、質問する不変化詞
8.4.1 土台となる不変化詞:は
・
・
8.5 強調する不変化詞:なら、ならば・・・
9.限定詞:のような、のごとき・・・
10.接辞
10.1 数字の接辞:第、目・・・
10.2 動詞や述語形容詞の接尾語:
10.3 述語形容詞ではない接尾語:的、的な・・・
10.4 名詞の準接辞:不、可・・・
11.分割詞
11.1 句点:。
11.2 コンマ:、
11.3 コロン::
11.4 特別の分割詞
12.一般動詞の語根
12.1 一般動詞の語根:読、書・・・
12.2 一般動詞でない動詞の語根
13.連結詞の語根:であ・・・
14.助動詞の語根:にな・・・
15.述語形容詞の語根:おもしろ、よ・・・
図4に、ハードディスク14に記憶された言語解析のプログラムをフローチャートで示す。まず、フロッピイディスク26に記憶されたテキスト文章を読み込む(ステップS1)。次に、CPU12は、読み込んだテキスト文章の1つの文を対象として、トークンに分割するとともに品詞を取得する(ステップS2)。この際、CPU12は、ハードディスク14に記憶された品詞辞書に基づいて文をトークンに分解して、品詞を取得する。
たとえば、「僕は学校へ行きます。」という文を例として、トークンへの分割処理および品詞の取得処理について説明する。まず、CPU12は、最初の文字「僕」について、品詞辞書の検索を行う。図5に品詞辞書の一部を示す。図からも明らかなように、「僕」は、一般名詞という品詞であることが分かる。
このテーブルに「ま」が存在するか否かを判断する。さらに、次の文字を含めて「ます」がテーブルに存在するか否かを判断する。このようにして、CPU12は、最も長い文字列として合致するものをテーブルC(2)から探し出す。ここで
は、No.22の「ます」が選択される。このように、「き」に連続する文字が見い
だされた時点で、先ほど記憶した「同時」という属性を消去する。これは、図13に示す接尾語のためのテーブルに掲げられた属性「同時」「過程が明確」「過去でない」「命令」は、それ以降に接尾語が続かない場合にのみ適用されるものだからである。ただし、例外として「命令」でテーブルC(1)とテーブルC(3)に続く場合は「命令」の属性は残る。この例外となる理由は、「命令」でテーブルC(1)、C(3)に続くのは動詞の接尾語に対してではなく、慣用語に続くからである。したがって、動詞の接尾語に対して続く、テーブルC(4)の場合は、原則ど
おり、「命令」の属性は消える。
ーブルに戻って、次のテーブルとして指示されている他のテーブル(ここではS(V))を検索する。また、テーブルC(2)からさらに他のテーブルが指示される場合もある。例えば、「たくな」を選択した場合には、さらにテーブルCを参照するように指示されている(次テーブルの項に「C」と記憶されている)。この場合、テーブルC(1)〜C(n)を参照して、次に続く言葉を検索する(ここで、nは
、Cの記号が付されたテーブルの数である)。
F(述語形容詞の接尾語のためのもの)を参照する場合もある。これは、動詞の接尾語と述語形容詞の接尾語の何れにもなりうるものが存在するためである。
上記のように、この実施例では、接尾語を分類して、テーブル化している。これにより、品詞辞書に個々の動詞や述語形容詞に接尾語を振り当てて登録する場合に比べて、辞書容量を大幅に減らすことができる。加えて、接尾語の確定を行う際に迅速な処理を行うことができ、同時にその属性を解析することができる。また、ありえない接尾語のつながりを見い出して、文章の誤りを見つけることもできる。
18参照)。しかし、このルールテーブルに従って、右側のトークン「確実」の品詞に基づいて品詞を確定してはならない(なお、ここでの「、」はトークンとトークンを分割しているだけであり無視する)。もっとも、例示したケースの場合には、「確実」の品詞が定まっていないため、確定すらできない。しかし、たとえ確定できたとしても、「確実」の品詞に基づいて確定すると誤った結果となる。
図19を参照しつつその説明をする。同じ品詞のトークンα、βが連続した場合、これらは1つのトークンとして、これら同じ品詞の連続トークンα、β以外のトークンγと関係していると見られる。つまり、図に示すように、それぞれのトークンα、βが、それぞれトークンγに関係していると見られるのである。したがって、トークンαについて、図18のテーブルB(6)を適用する際に、右の
トークンは、γとしなければならないのである。
このように、同じ品詞のトークン(同じルールテーブルを参照するトークンはそうであると推定する)が連続した場合(コンマや同等の接続詞が入っている場合も連続とみなす)には、同じルールテーブルを参照しない最も近いトークン(ただし、コンマや同等の接続詞は無視する)の品詞を用いてルールテーブルにあてはめる。上記の例でいうと、「迅速」についての品詞を決定する場合には、「確実」や「安全」の品詞でなく、「に」の品詞で決定するようにしている。
よって、品詞が確定可能である。
同様に、「確実」も、「に」の品詞によってその品詞が決定される。このようにして、得られた品詞を、図12Bに示す。なお、図12Bのように品詞を定めた後、所定のルールを用いて(たとえば、連続する一般名詞と不変化詞を1つのトークンとする等のルールを用いて)「車は」を1つののトークンとしてまとめて扱ってもよい。同様に、「運転」「しよ」を1つのトークンとしてまとめて動詞として扱っても良い。このような処理は、これに続く解析の内容によって、適宜選択することができる。
詞の接尾語のテーブル中に設けられている。しかし、これとは分離して、設けてもよい。
動詞(動詞の語根の次の接尾語が「い」で終わる動詞)に動詞が続くと、図16の複合動詞のテーブルS(V)が呼び出される。これにより、処理の高速化が図
られる。
ところで、「する」や「来る」等の動詞は、語根が変化してしまう。つまり、本発明の考え方を適用すれば、語根がないということになってしまう。このような動詞に対しては、例外的に、変化するそれぞれの語根を品詞辞書に登録するとともに、次に続くテーブルの番号を記憶するようにしている(図5の「来」「来る」「来い」「来よ」参照)。
4・・・品詞取得手段
5・・・分割・品詞選択手段
6・・・品詞選択手段
8・・・辞書手段
Claims (5)
- コンピュータを用いた言語解析システムであって、
与えられた文章データをトークンに分割する分割手段、
文章を構成する具体的なトークンに対する品詞が2以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する1または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブル、
文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が1つに決められる場合には当該品詞情報を記憶する一方で、当該具体的なトークンに対する品詞が2以上存在する場合には、当該2以上の品詞情報に代えて、前記テーブルを参照するための参照情報を記憶する辞書手段、
前記辞書手段を参照して、前記分割手段によって分割された各トークンの品詞または参照情報を取得する品詞取得手段、
前記品詞取得手段によって品詞を確定できず参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた2以上の品詞から1つの品詞を選択する品詞選択手段、
を備えた言語解析システム。 - コンピュータを用いた言語解析システムであって、
文章を構成する具体的なトークンに対する品詞が2以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する1または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブル、
文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が1つに決められる場合には当該品詞情報を記憶する一方で、当該具体的なトークンに対する品詞が2以上存在する場合には、当該2以上の品詞情報に代えて、前記テーブルを参照するための参照情報を記憶する辞書手段、
前記辞書手段を参照して、与えられた言語をトークンに分割するとともに各トークンの品詞または参照情報を取得する分割・品詞取得手段、
前記品詞取得手段によって品詞を確定できず参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた2以上の品詞から1つの品詞を選択する品詞選択手段、
を備えた言語解析システム。 - 請求項1または請求項2の言語解析システムにおいて、
前記辞書手段は、
動詞の接尾語及び述語形容詞の接尾語以外の品詞を有するトークンについては、トークンと品詞を対応づけた品詞辞書を有しており、動詞の接尾語および述語形容詞の接尾語に関しては、個々の動詞の語根もしくは述語形容詞の語根に関する接尾語のためのテーブルを有していることを特徴とする言語解析システム。 - 記録部と品詞選択手段を有するコンピュータが、与えられた文章を構成する具体的なトークンに対して品詞を付与する言語解析方法であって、
文章を構成する具体的なトークンに対する品詞が2以上存在する場合には、当該具体的なトークンについて、前または後もしくは双方に位置する1または複数のトークンの品詞に基づいて当該具体的なトークンの品詞を選択するためのテーブルを記録部に記憶しておき、
辞書として、文章を構成する具体的なトークンについて、当該具体的なトークンに対する品詞が1つに決められる場合には当該品詞情報と、当該具体的なトークンに対する品詞が2以上存在する場合には、当該2以上の品詞情報に代えて、前記テーブルを参照するための参照情報とを記録部に記憶しておき、
品詞選択手段が、与えられた文章を構成する具体的なトークンに対応する品詞または参照情報を前記辞書から取得し、参照情報を取得した場合には、前記参照情報に基づいてテーブルを参照することによって、前記具体的なトークンに与えられた2以上の品詞から1つの品詞を選択すること、
を特徴とする言語解析方法。 - 請求項4の言語解析方法において、
少なくとも、動詞の接尾語および述語形容詞の接尾語に関しては、個々の動詞の語根もしくは述語形容詞の語根に関する接尾語のためのテーブルによってトークンへの分割を行うことを特徴とする言語解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003359781A JP3884001B2 (ja) | 2003-10-20 | 2003-10-20 | 言語解析システムおよび方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003359781A JP3884001B2 (ja) | 2003-10-20 | 2003-10-20 | 言語解析システムおよび方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7279465A Division JPH11167575A (ja) | 1995-10-26 | 1995-10-26 | 言語解析システムおよび方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004078990A JP2004078990A (ja) | 2004-03-11 |
JP3884001B2 true JP3884001B2 (ja) | 2007-02-21 |
Family
ID=32025914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003359781A Expired - Fee Related JP3884001B2 (ja) | 2003-10-20 | 2003-10-20 | 言語解析システムおよび方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3884001B2 (ja) |
-
2003
- 2003-10-20 JP JP2003359781A patent/JP3884001B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004078990A (ja) | 2004-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6424983B1 (en) | Spelling and grammar checking system | |
KR101004515B1 (ko) | 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체 | |
US5895446A (en) | Pattern-based translation method and system | |
JPH083815B2 (ja) | 自然言語の共起関係辞書保守方法 | |
EP0839357A1 (en) | Method and apparatus for automated search and retrieval processing | |
JPH11184855A (ja) | 翻訳方法およびシステム | |
JPH05314166A (ja) | 電子化辞書および辞書検索装置 | |
US7136803B2 (en) | Japanese virtual dictionary | |
US7957956B2 (en) | Systems and methods for normalization of linguistic structures | |
US7684975B2 (en) | Morphological analyzer, natural language processor, morphological analysis method and program | |
JP3884001B2 (ja) | 言語解析システムおよび方法 | |
JP3136973B2 (ja) | 言語解析システムおよび方法 | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
JP2902343B2 (ja) | 言語解析システムおよび方法 | |
JP2002132789A (ja) | 文書検索方法 | |
JPH0561902A (ja) | 機械翻訳システム | |
JP2003308319A (ja) | 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム | |
JP3680489B2 (ja) | 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3244286B2 (ja) | 翻訳処理装置 | |
JP2000207397A (ja) | 言語解析システムおよび方法 | |
JPH11167575A (ja) | 言語解析システムおよび方法 | |
JP4361146B2 (ja) | テキスト翻訳装置と記録媒体 | |
JP5032453B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JPH03161865A (ja) | 文章の検索方法 | |
JPH0290364A (ja) | 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031211 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061115 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091124 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101124 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111124 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |