JP5302922B2 - 自然言語解析装置、方法及びプログラム - Google Patents
自然言語解析装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5302922B2 JP5302922B2 JP2010064512A JP2010064512A JP5302922B2 JP 5302922 B2 JP5302922 B2 JP 5302922B2 JP 2010064512 A JP2010064512 A JP 2010064512A JP 2010064512 A JP2010064512 A JP 2010064512A JP 5302922 B2 JP5302922 B2 JP 5302922B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- dependency
- type
- source
- dependence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 170
- 238000000034 method Methods 0.000 title claims description 31
- 230000001419 dependent effect Effects 0.000 claims description 22
- 239000002245 particle Substances 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 11
- 230000000877 morphologic effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000012706 support-vector machine Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
var s:stack
begin
Push(−1,s)
m[0]=get_token()
Push(0,s)
m[1]=get_token()
i=1
while (m[i]!=EOS) do begin
j=Pop(s)
m[i+1]=get_token()
while (j!=−1 && (Dep(j,i,m,t)||(m[i+1]==EOS)) do begin
h[j]=i
j=Pop(s)
end
Push(j,s)
Push(i,s)
++i;
end
j=Pop(s)
h[j]=i
t[j]=“E”
end
101 解析対象文字入力部
102 係り受け解析処理部
103 依存関係判定部
104 解析結果出力部
105 依存元文字ID格納エリア
106 依存先候補文字ID格納エリア
107 依存先未決スタック
108 解析文字格納部
110 文法定義テーブル
1031 教師データ入力部
1032 機械学習部
1033 文法ルール記憶部
1034 依存関係判定要求受付部
1035 依存関係判定実行部
Claims (5)
- 自然言語文を解析する自然言語解析装置であって、
解析対象の文を構成する文字を文字単位で取得する文字取得手段と、
取得した文字ごとの依存関係を決定する文字係り受け解析手段と、を備え、
前記文字係り受け解析手段は、
前記解析対象の文の先頭文字から順に前記文字ごとの依存関係を判定する過程で、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定し、
前記文字ごとの依存関係判定は、
依存元文字と依存先候補文字とが同一単語内の文字連続を構成することを示すタイプW、依存元文字と依存先候補文字とが同一文節内の単語連続を構成することを示すタイプB、依存元文字が末尾となる文節と、依存先候補文字が末尾となる文節とが文節間の依存関係にあることを示すタイプD、依存関係なしを示すタイプO、及び文節であることを示すタイプEのいずれかであるかを、依存元文字の文字種と依存先候補文字の文字種が同一且つ依存元文字の直後に依存先候補文字がある場合に、当該依存元文字は前記タイプWと判定し、依存元文字の文字種と依存先候補文字の文字種が異なり且つ依存元文字の直後に依存先候補文字がある場合に、当該依存元文字は前記タイプBと判定し、依存元文字が「の」であって且つ依存先候補文字が格助詞に用いられる文字の場合に、当該依存元文字は前記タイプDと判定し、上記以外の場合に当該依存元文字は前記タイプOと判定し、依存元文字が文末の場合に当該依存元文字は前記タイプEと判定する、
自然言語解析装置。 - 前記文字係り受け解析手段における依存関係の判定は、依存元及び依存先候補の文字の種類と、文字の位置の関係とに応じた判定結果のタイプを対応付けた文法定義テーブルに基づいて行う、請求項1に記載の自然言語解析装置。
- 前記文字係り受け解析手段における依存関係の判定は、SVMにより機械学習された文法ルールに基づいて行う、請求項1又は2に記載の自然言語解析装置。
- 自然言語解析装置が、自然言語文を解析する自然言語解析方法であって、
解析対象の文を構成する文字を文字単位で取得するステップと、
取得した文字ごとの依存関係を決定する文字係り受け解析ステップと、を含み、
前記文字係り受け解析ステップは、
前記解析対象の文の先頭文字から順に前記文字ごとの依存関係を判定する過程で、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定し、
前記文字ごとの依存関係判定は、
依存元文字と依存先候補文字とが同一単語内の文字連続を構成することを示すタイプW、依存元文字と依存先候補文字とが同一文節内の単語連続を構成することを示すタイプB、依存元文字が末尾となる文節と、依存先候補文字が末尾となる文節とが文節間の依存関係にあることを示すタイプD、依存関係なしを示すタイプO、及び文節であることを示すタイプEのいずれかであるかを、依存元文字の文字種と依存先候補文字の文字種が同一且つ依存元文字の直後に依存先候補文字がある場合に、当該依存元文字は前記タイプWと判定し、依存元文字の文字種と依存先候補文字の文字種が異なり且つ依存元文字の直後に依存先候補文字がある場合に、当該依存元文字は前記タイプBと判定し、依存元文字が「の」であって且つ依存先候補文字が格助詞に用いられる文字の場合に、当該依存元文字は前記タイプDと判定し、上記以外の場合に当該依存元文字は前記タイプOと判定し、依存元文字が文末の場合に当該依存元文字は前記タイプEと判定する、自然言語解析方法。 - 自然言語文を解析する自然言語解析プログラムであって、コンピュータに、
解析対象の文を構成する文字を文字単位で取得するステップと、
取得した文字ごとの依存関係を決定する文字係り受け解析ステップと、を実行させ、
前記文字係り受け解析ステップは、
前記解析対象の文の先頭文字から順に前記文字ごとの依存関係を判定する過程で、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定し、
前記文字ごとの依存関係判定は、
依存元文字と依存先候補文字とが同一単語内の文字連続を構成することを示すタイプW、依存元文字と依存先候補文字とが同一文節内の単語連続を構成することを示すタイプB、依存元文字が末尾となる文節と、依存先候補文字が末尾となる文節とが文節間の依存関係にあることを示すタイプD、依存関係なしを示すタイプO、及び文節であることを示すタイプEのいずれかであるかを、依存元文字の文字種と依存先候補文字の文字種が同一且つ依存元文字の直後に依存先候補文字がある場合に、当該依存元文字は前記タイプWと判定し、依存元文字の文字種と依存先候補文字の文字種が異なり且つ依存元文字の直後に依存先候補文字がある場合に、当該依存元文字は前記タイプBと判定し、依存元文字が「の」であって且つ依存先候補文字が格助詞に用いられる文字の場合に、当該依存元文字は前記タイプDと判定し、上記以外の場合に当該依存元文字は前記タイプOと判定し、依存元文字が文末の場合に当該依存元文字は前記タイプEと判定する、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064512A JP5302922B2 (ja) | 2010-03-19 | 2010-03-19 | 自然言語解析装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064512A JP5302922B2 (ja) | 2010-03-19 | 2010-03-19 | 自然言語解析装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011198075A JP2011198075A (ja) | 2011-10-06 |
JP5302922B2 true JP5302922B2 (ja) | 2013-10-02 |
Family
ID=44876182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010064512A Active JP5302922B2 (ja) | 2010-03-19 | 2010-03-19 | 自然言語解析装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5302922B2 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5295576B2 (ja) * | 2008-01-24 | 2013-09-18 | ヤフー株式会社 | 自然言語解析装置、自然言語解析方法および自然言語解析プログラム |
-
2010
- 2010-03-19 JP JP2010064512A patent/JP5302922B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011198075A (ja) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hirst et al. | Bigrams of syntactic labels for authorship discrimination of short texts | |
JP5362095B2 (ja) | インプットメソッドエディタ | |
US7970600B2 (en) | Using a first natural language parser to train a second parser | |
JP5362353B2 (ja) | 文書中のコロケーション誤りを処理すること | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
US20110093258A1 (en) | System and method for text cleaning | |
US20140316764A1 (en) | Clarifying natural language input using targeted questions | |
US9836447B2 (en) | Linguistic error detection | |
US20140380169A1 (en) | Language input method editor to disambiguate ambiguous phrases via diacriticization | |
Chen et al. | Integrating natural language processing with image document analysis: what we learned from two real-world applications | |
Shatnawi et al. | Verification hadith correctness in islamic web pages using information retrieval techniques | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models | |
JP5302922B2 (ja) | 自然言語解析装置、方法及びプログラム | |
de Mendonça Almeida et al. | Evaluating phonetic spellers for user-generated content in Brazilian Portuguese | |
Londhe et al. | Challenges in multilingual and mixed script sentiment analysis | |
Eder et al. | Stylistic Fingerprints, POS-tags, and Inflected Languages: A Case Study in Polish | |
CN109960720B (zh) | 针对半结构化文本的信息抽取方法 | |
JP5295576B2 (ja) | 自然言語解析装置、自然言語解析方法および自然言語解析プログラム | |
Pla et al. | Improving chunking by means of lexical-contextual information in statistical language models | |
Aydinov et al. | Investigation of automatic part-of-speech tagging using CRF, HMM and LSTM on misspelled and edited texts | |
Jiacuo et al. | Tibetan Case Grammar Error Correction Method Based on Neural Networks | |
Yusuf et al. | HindiWSD: A package for word sense disambiguation in Hinglish & Hindi | |
Sornlertlamvanich | Probabilistic language modeling for generalized LR parsing | |
Radhakrishna | Intent Based Utterance Segmentation for Multi IntentNLU |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20121101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5302922 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |