JP2008097631A - 自然言語解析装置及び方法、自然言語解析プログラム - Google Patents
自然言語解析装置及び方法、自然言語解析プログラム Download PDFInfo
- Publication number
- JP2008097631A JP2008097631A JP2007293719A JP2007293719A JP2008097631A JP 2008097631 A JP2008097631 A JP 2008097631A JP 2007293719 A JP2007293719 A JP 2007293719A JP 2007293719 A JP2007293719 A JP 2007293719A JP 2008097631 A JP2008097631 A JP 2008097631A
- Authority
- JP
- Japan
- Prior art keywords
- node
- dependency
- analysis
- syntactic
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims description 149
- 238000000034 method Methods 0.000 title description 62
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 2
- 210000003128 head Anatomy 0.000 description 56
- 238000012545 processing Methods 0.000 description 44
- 238000004422 calculation algorithm Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 16
- 230000009471 action Effects 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 239000000470 constituent Substances 0.000 description 8
- 230000009467 reduction Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 235000002492 Rungia klossii Nutrition 0.000 description 1
- 244000117054 Rungia klossii Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009291 secondary effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】入力形態素列を構文解析することにより、複数の構文木を内包する統語森を生成する自然言語解析装置であって、文法規則を記憶する第1のメモリを具備し、前記文法規則に基づいて、前記入力形態素列から主辞及び前記主辞が支配する部分構造に相当する主辞支配域を検出する検出手段を具備する。また、検出手段により検出された主辞支配域を有する主辞構造付統語森を生成する構文解析手段を具備する。
【選択図】図1
Description
M.Tomita,"Generalized LR Parsing,"Kluwer Academic Publishers, Norwell, Massachusetts,(1991). 長尾真編, "自然言語処理",岩波講座ソフトウェア科学15,岩波書店,(1996).
(a)句の非終端記号が同じ、
(b)句が被覆する入力文の範囲が同じ、
(c)句の主辞となる主構成素が同じ、
であるような複数の構文木構造を圧縮共有する。
(a)「I try to bake the 2nd cake.」,
(b)「I baked the 2nd cake, and watch it.」,
(c)「I try to bake a cake with two eyes.」,
(d)「I bake a cake with two eyes, and watch it.」
という意味解釈に対応付けられる解析木にあたる。
GLR解析アルゴリズムは、LR解析表に複数の動作を記述した項を許し、スタックを分岐及び併合するなど各動作を同時並行的に行うことによって解析を進めるアルゴリズムである。GLR解析アルゴリズムにおいて、パーザの状態と統語森上の対応する節点との2項組をスタックノードと呼び、スタックノードとLR解析表から得られる動作との2項組を保持するリストをフロンティア(FRONTIER)と呼び、フロンティアが持っているノードをアクティブなノードと呼ぶ。
801:START
802:入力形態素列の末尾に入力終端を表す記号“$”を追加する。
<処理手順:リデュース・フェイズ>
901:START
902:reduce動作を持つアクティブなスタックノードが存在するか確認し、存在するならば処理を繰り返すために903へ、存在しないなら914へ行く。
2.該スタックノードの子の集合がbsと等しい
3.vertexが非終端記号Aを表している
908:907でスタックノードη´が見つかったかを判定し、見つかっているなら909へ、見つかっていないならば911へ行く。
<処理手順:シフト・フェイズ>
1001:START
1002:FRONTIERから(η,shift)の形をした要素を全て取り出す。
次に、本実施形態の特徴に係わる拡張GLR解析アルゴリズムについて説明する。この拡張GLR解析アルゴリズムには、上述した従来のGLR解析アルゴリズムを基本としており、解析過程における主辞支配域構築のために、従来の処理手順に3点の変更がなされている。
1101:START
1102:入力形態素列の末尾に入力終端を表す記号“$”を追加する。
<処理手順:拡張リデュース・フェイズ>
1201:START
1202:reduce動作を持つアクティブなスタックノードが存在するか確認し、存在するなら処理を繰り返すために1203へ、存在しないなら1216へ行く。
2.該スタックノードの子の集合がbsと等しい
3.vertexが非終端記号Aを表している
4.主辞が同じである
1208:1206でスタックノードη´が見つかったかを判定し、見つかっているなら1209へ見つかっていないならば1212へ行く
1209:この還元操作により局所曖昧性が発生したので、スタックノードη´を再利用なスタックノードに設定する
1210:スタックノードη´の持つvertexの子集合に、対応する経路p中のvertexを追加することで、構造を圧縮(Pack)する。
<処理手順:拡張シフト・フェイズ>
1301:START
1302:FRONTIERから(η,shift)の形をした要素を全て取り出す。
これらの変更は、基本的には、共有・圧縮するvertexを選定するための条件の変更と、統語森の構築に併せて主辞支配域を作る操作の追加であるため、主たる解析操作に変更はない。よって、GLR(k)アルゴリズム、ボトムアップチャートアルゴリズムなど、種々の構文解析アルゴリズムに対して適応可能である。
1401:START
1402:構文解析結果である主辞構造付統語森の葉節点リストを得る。
<処理手順:係り受け解析>
1501:START
1502:注目節点の親節点のリストを得る。
<処理手順:得点計算>
1601:START
1602:主辞間距離、受け側主辞、係り側主辞を基に係り受け得点を計算する。
優先順序付与部111は、依存得点付統語森110を入力として、統語森上に付与された得点を集計し、内包する構文木に尤もらしさの順位を付け、優先順序付統語森112を生成する。依存得点付統語森110は、局所曖昧性圧縮のなされたvertexをOR構造、他のvertexをAND構造としてみれば、AND-ORグラフであると考えることができる。よって、AND構造をとるvertexでは、自身の得点と子どもの得点とを足し合わせた得点を、OR構造をとるvertexでは、子どもが持つ最大得点を選択し、ボトムアップに得点を集計していくことが可能である。
1102:入力形態素列の末尾に入力終端を表す記号“$”を追加し、「2つ目のケーキを焼いてみる$」とする。
1402:主辞構造付統語森の葉節点リスト{ν1, ν3, ν7, ν10, ν13}を得る。
Claims (9)
- 入力形態素列を構文解析することにより、複数の構文木を内包する統語森を生成する自然言語解析装置において、
構文木構造において意味について中心的な役割を果たす主辞の文法記号を第1の節点とし、前記主辞に対し構文役割によって依存関係を有する文法記号を第2の節点とし、前記第2の節点の文法記号を書き換え可能な文法記号であって且つ前記第1の節点と主辞が同じである文法記号を第3の節点とし、前記第1の節点と前記第3の節点とを結ぶアークにより前記主辞の支配領域が規定される文法規則を記憶する第1のメモリと、
前記文法規則に基づいて、前記入力形態素列から主辞及び前記主辞が支配する部分構造に相当する主辞支配域を検出する検出手段と、
前記検出手段による主辞支配域の検出結果と前記入力形態素列とを用いて構文解析することにより主辞構造付統語森を生成する構文解析手段とを具備する自然言語解析装置。 - 係り側形態素と受け側形態素との間の依存関係の尤もらしさを表す依存知識を記憶する第2のメモリと、
前記構文解析手段により生成された主辞構造付統語森に対し、前記依存知識に基づいて係り受け解析を行うことにより、前記主辞支配域の間の係り受け関係の得点を計算して節点に付与する係り受け解析手段と、をさらに具備する請求項1記載の自然言語解析装置。 - 前記係り受け解析手段により前記節点に付与された得点に基づいて、構文木の解釈の尤もらしさに相当する優先順序を付与する優先順序付与手段をさらに具備する請求項2記載の自然言語解析装置。
- 入力形態素列を構文解析することにより、複数の構文木を内包する統語森を生成する自然言語解析方法において、
構文木構造において意味について中心的な役割を果たす主辞の文法記号を第1の節点とし、前記主辞に対し構文役割によって依存関係を有する文法記号を第2の節点とし、前記第2の節点の文法記号を書き換え可能な文法記号であって且つ前記第1の節点と主辞が同じである文法記号を第3の節点とし、前記第1の節点と前記第3の節点とを結ぶアークにより前記主辞の支配領域が規定される文法規則を第1のメモリに記憶するステップと、
検出手段が前記第1のメモリから文法規則を読み出し、該文法規則に基づいて、前記入力形態素列から主辞及び前記主辞が支配する部分構造に相当する主辞支配域を検出する検出ステップと、
前記検出ステップによる主辞支配域の検出結果と前記入力形態素列とを用いて構文解析することにより構文解析手段が主辞構造付統語森を生成する構文解析ステップとを具備する自然言語解析方法。 - 係り側形態素と受け側形態素との間の依存関係の尤もらしさを表す依存知識を第2のメモリに記憶するステップと、
前記主辞構造付統語森に対し、係り受け解析手段が前記依存知識に基づいて係り受け解析を行うことにより、前記主辞支配域の間の係り受け関係の得点を計算して節点に付与する係り受け解析ステップと、をさらに含む請求項4記載の自然言語解析方法。 - 前記係り受け解析ステップにより前記節点に付与された得点に基づいて、構文木の解釈の尤もらしさに相当する優先順序を優先順序付与手段が付与する優先順序付与ステップをさらに含む請求項5記載の自然言語解析方法。
- 入力形態素列を構文解析することにより、複数の構文木を内包する統語森を生成する自然言語解析プログラムにおいて、
構文木構造において意味について中心的な役割を果たす主辞の文法記号を第1の節点とし、前記主辞に対し構文役割によって依存関係を有する文法記号を第2の節点とし、前記第2の節点の文法記号を書き換え可能な文法記号であって且つ前記第1の節点と主辞が同じである文法記号を第3の節点とし、前記第1の節点と前記第3の節点とを結ぶアークにより前記主辞の支配領域が規定される文法規則を記憶する第1のメモリ、
前記文法規則に基づいて、前記入力形態素列から主辞及び前記主辞が支配する部分構造に相当する主辞支配域を検出する検出手段、
前記検出手段による主辞支配域の検出結果と前記入力形態素列とを用いて構文解析することにより主辞構造付統語森を生成する構文解析手段、としてコンピュータを機能させるための自然言語解析プログラム。 - 係り側形態素と受け側形態素との間の依存関係の尤もらしさを表す依存知識を記憶する第2のメモリと、
前記構文解析手段により生成された主辞構造付統語森に対し、前記依存知識に基づいて係り受け解析を行うことにより、前記主辞支配域の間の係り受け関係の得点を計算して節点に付与する係り受け解析手段と、をさらに含む請求項7記載の自然言語解析プログラム。 - 前記係り受け解析手段により前記節点に付与された得点に基づいて、構文木の解釈の尤もらしさに相当する優先順序を付与する優先順序付与手段をさらに含む請求項8記載の自然言語解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007293719A JP4105756B2 (ja) | 2007-11-12 | 2007-11-12 | 自然言語解析装置及び方法、自然言語解析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007293719A JP4105756B2 (ja) | 2007-11-12 | 2007-11-12 | 自然言語解析装置及び方法、自然言語解析プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004233644A Division JP4060832B2 (ja) | 2004-08-10 | 2004-08-10 | 自然言語解析装置及び方法、自然言語解析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008097631A true JP2008097631A (ja) | 2008-04-24 |
JP4105756B2 JP4105756B2 (ja) | 2008-06-25 |
Family
ID=39380340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007293719A Expired - Fee Related JP4105756B2 (ja) | 2007-11-12 | 2007-11-12 | 自然言語解析装置及び方法、自然言語解析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4105756B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203586A (ja) * | 2011-03-24 | 2012-10-22 | Toshiba Corp | 文書処理装置およびプログラム |
-
2007
- 2007-11-12 JP JP2007293719A patent/JP4105756B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203586A (ja) * | 2011-03-24 | 2012-10-22 | Toshiba Corp | 文書処理装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4105756B2 (ja) | 2008-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Syntactic processing using the generalized perceptron and beam search | |
KR101120798B1 (ko) | 텍스트로부터 세만틱 구조들을 식별하기 위한 방법 및장치 | |
US8117023B2 (en) | Language understanding apparatus, language understanding method, and computer program | |
Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
KR102013230B1 (ko) | 구문 전처리 기반의 구문 분석 장치 및 그 방법 | |
JPH08147299A (ja) | 自然言語処理方法及びシステム | |
Di Sciullo et al. | The asymmetry of Merge | |
JP3781561B2 (ja) | 自然言語解析装置、システム及び記録媒体 | |
US20160275074A1 (en) | Anaphora resolution based on linguistic technologies | |
Krishna et al. | A dataset for sanskrit word segmentation | |
US20110112823A1 (en) | Ellipsis and movable constituent handling via synthetic token insertion | |
JP2004303240A (ja) | 単語解析のためのシステムおよび方法 | |
KR100617318B1 (ko) | 2단계 구문분석을 통한 자동 번역 장치 및 방법 | |
US9218336B2 (en) | Efficient implementation of morphology for agglutinative languages | |
JP4105756B2 (ja) | 自然言語解析装置及び方法、自然言語解析プログラム | |
JP4060832B2 (ja) | 自然言語解析装置及び方法、自然言語解析プログラム | |
WO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP4476609B2 (ja) | 中国語解析装置、中国語解析方法および中国語解析プログラム | |
JP2004046775A (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
JP2004287683A (ja) | 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法 | |
Basak et al. | A simple hybrid approach to recognizing textual entailment | |
Rajendran | Parsing in tamil: Present state of art | |
Ermolaeva | Induction of minimalist grammars over morphemes | |
Adams | Dependency parsing and dialogue systems: an investigation of dependency parsing for commercial application | |
JP2005234800A (ja) | 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080325 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080327 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4105756 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130404 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140404 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |