JP2011198075A - Natural language analysis device, method, and program - Google Patents
Natural language analysis device, method, and program Download PDFInfo
- Publication number
- JP2011198075A JP2011198075A JP2010064512A JP2010064512A JP2011198075A JP 2011198075 A JP2011198075 A JP 2011198075A JP 2010064512 A JP2010064512 A JP 2010064512A JP 2010064512 A JP2010064512 A JP 2010064512A JP 2011198075 A JP2011198075 A JP 2011198075A
- Authority
- JP
- Japan
- Prior art keywords
- dependency
- character
- analysis
- natural language
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 174
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000004048 modification Effects 0.000 abstract 3
- 238000012986 modification Methods 0.000 abstract 3
- 238000010586 diagram Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 11
- 230000000877 morphologic effect Effects 0.000 description 11
- 230000001419 dependent effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012706 support-vector machine Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、自然言語解析装置、方法及びプログラムに関する。 The present invention relates to a natural language analysis apparatus, method, and program.
従来より、日本語の文の解析では、形態素解析を行った単語(形態素)列を文節としてまとめ、その文節間の係り受け関係(依存関係)で解析結果を表現することが主流である。この場合、係り受け解析の手法は、事前に文頭から文末までスキャンして形態素解析を行う必要があり、形態素解析後にまた文頭に戻って、文頭から文末までスキャンして文節まとめ上げを行い、文節まとめ上げ後にまた文頭に戻って、文頭から文末までスキャンして係り受け解析を行っている。 2. Description of the Related Art Conventionally, in Japanese sentence analysis, it has been the mainstream to summarize word (morpheme) strings that have been subjected to morphological analysis as phrases and to express the analysis results as dependency relationships (dependencies) between the phrases. In this case, the dependency analysis method needs to perform morphological analysis by scanning from the beginning of the sentence to the end of the sentence in advance, and after returning to the beginning of the sentence after the morpheme analysis, it scans from the beginning of the sentence to the end of the sentence, collects the sentences, After summarizing, we return to the beginning of the sentence and scan from the beginning to the end of the sentence for dependency analysis.
この様な日本語の文節間の係り受け関係を解析する技術において、文節まとめ上げと係り受け解析とを1回のスキャンで行う特許文献1が知られている。 As a technique for analyzing the dependency relationship between Japanese phrases as described above, Japanese Patent Application Laid-Open No. H10-228867 is known in which phrase grouping and dependency analysis are performed in one scan.
特許文献1が開示する技術は、解析対象の文を形態素に分解されたものを入力し、形態素列の各単語(形態素)間の依存関係(係り元とその係り先との決定と、係り関係のタイプの決定との二つ)を決定する処理を、スタックを利用して行う。ここで、この決定された係り関係のタイプは、文節の区切りも表わしている。したがって、特許文献1が開示する技術は、このような依存関係を決定する処理を行うことで、文節まとめ上げと係り受け解析とを同時に行なうことができ、文節まとめ上げと係り受け解析とで独立したモジュールを必要としないと共に、処理を高速化することができる。
The technology disclosed in
しかしながら、特許文献1で開示する技術は、文末が明瞭な文を解析対象とする技術であり、解析対象の文を文末まで形態素に分解して形態素解析を行った後に、文節のまとめ上げと文節間の係り受け関係を決定するものである。したがって、特許文献1で開示する技術は、文末が不明瞭な場合には、形態素解析が行われず、文節間の係り受け関係を決定できない。
However, the technique disclosed in
そこで、文を文末まで形態素に分解して形態素解析を行わなくても、文節間の係り受け関係を決定することができる装置が求められている。 Therefore, there is a need for an apparatus that can determine the dependency relationship between clauses without decomposing sentences into morphemes until the end of the sentence and performing morphological analysis.
本発明は、解析対象の文を文末まで形態素解析しなくても、文字ごとの係り受け関係を決定することが可能な自然言語解析装置、方法及びプログラムを提供することを目的とする。 An object of the present invention is to provide a natural language analysis apparatus, method, and program capable of determining a dependency relationship for each character without performing a morphological analysis of a sentence to be analyzed to the end of the sentence.
本発明では、以下のような解決手段を提供する。 The present invention provides the following solutions.
(1) 自然言語文を解析する自然言語解析装置であって、解析対象の文を構成する文字を文字単位で取得する文字取得手段と、取得した文字ごとの依存関係を決定する文字係り受け解析手段と、を備え、前記文字係り受け解析手段は、前記解析対象の文の先頭文字から順に前記文字ごとの依存関係を決定する過程で、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定する、自然言語解析装置。 (1) A natural language analysis apparatus for analyzing a natural language sentence, a character acquisition means for acquiring characters constituting the sentence to be analyzed in character units, and a character dependency analysis for determining a dependency relationship for each acquired character And the character dependency analyzing means stacks the characters whose dependency destinations are undetermined in the process of determining the dependency relationship for each character in order from the first character of the sentence to be analyzed. A natural language analyzing apparatus that determines a dependency of a character by determining a dependency relationship of characters accumulated in a stack after determining a character dependency destination by determining the relationship.
(1)の構成によれば、本発明に係る自然言語解析装置は、解析対象の文を構成する文字を文字単位で取得し、取得した文字ごとの依存関係を決定する。当該解析対象の文の先頭文字から順にこの文字ごとの依存関係を決定する過程で、自然言語解析装置は、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定する。 According to the configuration of (1), the natural language analyzing apparatus according to the present invention acquires characters constituting the sentence to be analyzed in character units, and determines the dependency for each acquired character. In the process of determining the dependency relationship for each character in order from the first character of the sentence to be analyzed, the natural language analyzer stacks the characters whose dependency is not yet determined, and determines the character's dependency by determining the dependency. Is determined, the dependency of characters stored in the stack is determined to determine the dependency of the characters.
したがって、本発明に係る自然言語解析装置は、依存関係が未確定な文字をスタックに蓄積しながら文字ごとの係り受け解析をするので、解析対象の文を文末まで形態素解析しなくても、文字ごとの係り受け関係を決定することができる。 Therefore, since the natural language analysis apparatus according to the present invention performs dependency analysis for each character while accumulating characters whose dependency is not yet determined in the stack, even if the sentence to be analyzed is not analyzed to the end of the sentence, the character is analyzed. The dependency relationship can be determined for each.
(2) 前記文字係り受け解析手段における依存関係の判定は、依存元及び依存先候補の文字の種類と、文字の位置の関係とに応じた判定結果のタイプを対応付けた文法定義テーブルに基づいて行う、(1)に記載の自然言語解析装置。 (2) Dependency determination in the character dependency analysis unit is based on a grammar definition table in which types of determination results corresponding to character types of dependency sources and dependency destination candidates and character position relationships are associated with each other. The natural language analysis device according to (1).
(2)の構成によれば、当該自然言語解析装置は、文字ごとの依存関係の判定を、依存元及び依存先候補の文字の種類と、文字の位置の関係とに応じた判定結果のタイプを対応付けた文法定義テーブルに基づいて行う。 According to the configuration of (2), the natural language analyzing apparatus determines the dependency relationship for each character, and determines the type of determination result according to the character type of the dependency source and the dependency destination candidate and the relationship between the character positions. Is performed based on the grammar definition table associated with.
したがって、当該自然言語解析装置は、文法定義テーブルに基づいて文字ごとの依存関係を決定するので、解析対象の文を文末まで形態素解析しなくても、文字ごとの係り受け関係を決定することができる。 Therefore, since the natural language analyzing apparatus determines the dependency relationship for each character based on the grammar definition table, it is possible to determine the dependency relationship for each character without performing morphological analysis of the sentence to be analyzed up to the end of the sentence. it can.
(3) 前記文字係り受け解析手段における依存関係の判定は、SVMにより機械学習された文法ルールに基づいて行う、(1)又は(2)に記載の自然言語解析装置。 (3) The natural language analysis apparatus according to (1) or (2), wherein the dependency relationship in the character dependency analysis unit is determined based on a grammatical rule machine-learned by SVM.
(3)の構成によれば、当該自然言語解析装置は、文字ごとの依存関係の判定を、SVM(Support Vector Machine)により機械学習された文法ルールに基づいて行う。したがって、当該自然言語解析装置は、SVMにより文字ごとの依存関係を決定することができる。 According to the configuration of (3), the natural language analyzing apparatus performs the determination of the dependency for each character based on the grammatical rules machine-learned by SVM (Support Vector Machine). Therefore, the natural language analyzing apparatus can determine the dependency for each character by SVM.
(4) 自然言語解析装置が、自然言語文を解析する自然言語解析方法であって、解析対象の文を構成する文字を文字単位で取得するステップと、取得した文字ごとの依存関係を決定する文字係り受け解析ステップと、を含み、前記文字係り受け解析ステップは、前記解析対象の文の先頭文字から順に前記文字ごとの依存関係を決定する過程で、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定する、自然言語解析方法。 (4) A natural language analyzing apparatus is a natural language analyzing method for analyzing a natural language sentence, and a step of acquiring characters constituting a sentence to be analyzed in character units and a dependency relationship for each acquired character are determined. A character dependency analysis step, wherein the character dependency analysis step stacks a character whose dependency destination is undetermined in the process of determining the dependency for each character in order from the first character of the sentence to be analyzed. A natural language analysis method for determining a character dependency by determining a dependency relationship of a character accumulated in a stack after determining a character dependency destination by determining a dependency relationship.
したがって、本発明に係る自然言語解析方法は、当該自然言語解析装置が、依存関係が未確定な文字をスタックに蓄積しながら文字ごとの係り受け解析をするので、解析対象の文を文末まで形態素解析しなくても、文字ごとの係り受け関係を決定することができる。 Therefore, in the natural language analysis method according to the present invention, the natural language analysis apparatus performs dependency analysis for each character while accumulating the characters whose dependency is undetermined in the stack. Even without analysis, the dependency relationship for each character can be determined.
(5) 自然言語文を解析する自然言語解析プログラムであって、コンピュータに、解析対象の文を構成する文字を文字単位で取得するステップと、取得した文字ごとの依存関係を決定する文字係り受け解析ステップと、を実行させ、前記文字係り受け解析ステップは、前記解析対象の文の先頭文字から順に前記文字ごとの依存関係を決定する過程で、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定する、プログラム。 (5) A natural language analysis program for analyzing a natural language sentence, in which a computer obtains characters constituting the sentence to be analyzed in character units, and character dependency for determining a dependency for each acquired character. And the character dependency analysis step stacks characters whose dependency destinations are undetermined in the process of determining the dependency for each character in order from the first character of the sentence to be analyzed. A program for determining a character dependency by determining a dependency relationship of characters stored in a stack after determining a character dependency destination by determining a dependency relationship.
したがって、本発明に係る自然言語解析プログラムを自然言語解析装置に導入して実行することにより、当該自然言語解析装置は、依存関係が未確定な文字をスタックに蓄積しながら文字ごとの係り受け解析をするので、解析対象の文を文末まで形態素解析しなくても、文字ごとの係り受け関係を決定することができる。 Therefore, by introducing the natural language analysis program according to the present invention into the natural language analysis device and executing it, the natural language analysis device can perform dependency analysis for each character while accumulating the characters whose dependency relationship is undetermined in the stack. Therefore, the dependency relationship for each character can be determined without performing morphological analysis of the sentence to be analyzed until the end of the sentence.
本発明によれば、自然言語解析処理において、解析対象の文を文末まで形態素解析しなくても、文字ごとの係り受け関係を決定することができる。 According to the present invention, in the natural language analysis process, the dependency relationship for each character can be determined without performing a morphological analysis of the sentence to be analyzed up to the end of the sentence.
以下、本発明の実施形態について図を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
本実施形態は、コンピュータ及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備えるハードウェア並びに該ハードウェアを制御するソフトウェアによって構成される。 This embodiment is applied to a computer and its peripheral devices. Each unit in the present embodiment is configured by hardware included in a computer and its peripheral devices, and software that controls the hardware.
上記ハードウェアには、制御部としてのCPU(Central Processing Unit)の他、記憶部、通信装置、表示装置及び入力装置が含まれる。記憶部としては、例えば、メモリ(RAM:Random Access Memory、ROM:Read Only Memory等)、ハードディスクドライブ(HDD:Hard Disk Drive)及び光ディスク(CD:Compact Disk、DVD:Digital Versatile Disk等)ドライブが挙げられる。通信装置としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示装置としては、例えば、液晶ディスプレイやプラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。 The hardware includes a storage unit, a communication device, a display device, and an input device in addition to a CPU (Central Processing Unit) as a control unit. Examples of the storage unit include a memory (RAM: Random Access Memory, ROM: Read Only Memory, etc.), a hard disk drive (HDD: Hard Disk Drive), and an optical disk (CD: Compact Disc, DVD: Digital Versatile Drive, etc.). It is done. Examples of the communication device include various wired and wireless interface devices. Examples of the display device include various displays such as a liquid crystal display and a plasma display. Examples of the input device include a keyboard and a pointing device (mouse, tracking ball, etc.).
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部により記憶され、制御部により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信回線を介して配布されることも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布されることも可能である。 The software includes a computer program and data for controlling the hardware. The computer program and data are stored in the storage unit, and are appropriately executed and referenced by the control unit. The computer program and data can be distributed via a communication line, or can be recorded on a computer-readable medium such as a CD-ROM and distributed.
図1は本発明の一実施形態に係る自然言語解析装置10の構成例を示す図である。なお、以下では日本語を対象とした例について説明するが、文節に区切ることが可能で、文節間の係り受け関係が存在する言語であれば同様に適用することができる。
FIG. 1 is a diagram illustrating a configuration example of a natural
図1において、自然言語解析装置10は、解析対象の文を構成する文字を文字単位で取得する解析対象文字入力部101と、この解析対象文字入力部101により入力された文字から、取得した文字ごとの依存関係を決定する係り受け解析処理部102とを備える。係り受け解析処理部102は、解析対象の文の先頭文字から順に文字ごとの依存関係を決定し、解析結果を解析文字格納部108に格納する。解析文字格納部108のデータ構造については、図3において説明する。
In FIG. 1, the natural
また、自然言語解析装置10は、係り受け解析処理部102により作業用データ領域として用いられる依存元文字ID格納エリア105と、依存先候補文字ID格納エリア106と、依存先未決スタック107と、係り受け解析処理部102の処理において文字間の依存関係の判定に用いられる依存関係判定部103と、解析結果を出力する解析結果出力部104とを備えている。
The natural
依存元文字ID格納エリア105は、処理過程で依存元となる文字IDを保持し、依存先候補文字ID格納エリア106は、処理過程で依存先候補となる文字IDを保持し、依存先未決スタック107は、依存先が決まらなかった依存元の文字IDを後入れ先出し(LIFO:Last In First Out)で保持する。
The dependence source character
また、依存関係判定部103は、文法定義テーブル110を有している。そして、係り受け解析処理部102は、依存関係判定部103により文字の係り先が決定された後に、依存先未決スタック107に蓄積された文字の依存関係の決定を行う。ここで、文法定義テーブル110は、依存元と依存先との関係をIF―THEN形式等のデータ構造として保持するほか、SVMによる機械学習により生成されたモデルとして保持する場合も含む。文法定義テーブル110の例については、図4において後述する。
In addition, the dependency
図2は、本発明の一実施形態に係る自然言語解析装置10において、SVMを用いた場合の依存関係判定部103の構成例を示す図である。
FIG. 2 is a diagram illustrating a configuration example of the dependency
図2において、依存関係判定部103は、機械学習のための教師データを入力する教師データ入力部1031と、この教師データ入力部1031により入力された教師データに基づいてSVMにより機械学習を行う機械学習部1032と、機械学習により生成されたモデルを保持する文法ルール記憶部(例えば、図4において後述する文法定義テーブル110に相当)1033とを備えている。
In FIG. 2, a dependency
また、依存関係判定部103は、係り受け解析処理部102(図1)から依存元文字IDと、依存先候補文字IDとを引数に依存関係判定要求を受け付ける依存関係判定要求受付部1034と、この依存関係判定要求受付部1034で受け付けた依存関係判定要求に基づき、文法ルール記憶部1033を用いて依存関係を判定し、判定結果を係り受け解析処理部102に返す依存関係判定実行部1035とを備えている。
In addition, the dependency
図3は、本発明の一実施形態に係る自然言語解析装置10における解析文字格納部108の例を示す図である。解析文字格納部108は、一文を構成する文字ごとに、文字を識別する「文字ID」フィールドと、文字が格納される「文字コード」フィールドと、文字の属性のうち、例えば、文字の種類(例えば、ひらがなや、カタカナ、英数字、漢字、記号等)である文字種を示す「文字種」フィールドと、依存先の文字IDを示す「依存先」フィールドと、依存先の文字との依存関係のタイプを示す「タイプ」フィールドとを含んでいる。なお、文字解析の初期状態は、「文字ID」のフィールドが埋められ、「文字コード」、「文字種」、「依存先」及び「タイプ」のフィールドはブランクである。図3が示す例は、自然言語解析装置10による係り受け解析が終了し、文字の係り先の文字IDが依存先に格納され、単語区切が設定され、文節区切が設定されていることを示す例である。さらに、図3が示す例は、矢印221が文字IDによる文字の係り先を示し、矢印211が設定された単語区切を示し、矢印212が設定された文節区切を示す例である。
FIG. 3 is a diagram illustrating an example of the analysis
図4は、本発明の一実施形態に係る自然言語解析装置10における文法定義テーブル110の例を示す図である。文法定義テーブル110は、依存元及び依存先候補の文字種、位置関係(文章を構成する文字において、文字同士の前後の関係)等の条件と、判定結果のタイプとを対応付けている。
FIG. 4 is a diagram showing an example of the grammar definition table 110 in the natural
ここで、判定結果のタイプ「W」は、「依存元文字と依存先候補文字とが同一単語内の文字連続を構成する」ことを示すタイプである。判定結果のタイプ「B」は、「依存元文字と依存先候補文字とが同一文節内の単語連続を構成する」ことを示すタイプである。判定結果のタイプ「D」は、「依存元文字が末尾となる文節と、依存先候補文字が末尾となる文節とが文節間の依存関係にある」ことを示すタイプである。判定結果のタイプ「O」は、「依存関係なし」を示すタイプである。判定結果のタイプ「E」は、「文末である」ことを示すタイプである。 Here, the determination result type “W” is a type indicating that the dependence source character and the dependence destination candidate character constitute a continuous character in the same word. The determination result type “B” is a type indicating that the dependence source character and the dependence destination candidate character constitute a word continuation within the same phrase. The determination result type “D” is a type indicating that “the clause whose dependent source character ends and the clause whose dependent destination candidate character ends are in a dependency relationship between clauses”. The determination result type “O” is a type indicating “no dependency”. The determination result type “E” is a type indicating “end of sentence”.
さらに、上記のタイプの判定条件の一例として、例えば、「依存元文字の文字種と依存先候補文字の文字種とが同一 AND 依存元文字の直後に依存先候補文字」の場合に、依存元文字はWと判定される。また、「依存元文字と依存先候補文字との文字種が異なる AND 依存元文字の直後に依存先候補文字」の場合に、依存元文字はBと判定される。また、「依存元文字が「の」 AND 依存先候補文字が格助詞に用いられる文字」の場合に、依存元文字はDと判定される。上記以外の場合に、Oと判定される。そして、文末の場合に、Eと判定される。ここで、この様な条件は例であり、これに限られるものではない。この様な条件は、機械学習により作成され、文法定義テーブル110に記憶される。 Furthermore, as an example of the above-mentioned type of determination condition, for example, in the case where “the character type of the dependency source character and the character type of the dependency destination candidate character are the same AND the dependency destination candidate character immediately after the dependency source character”, the dependency source character is W is determined. In addition, in the case of “dependence source character and dependency destination candidate character are different in character type AND dependency destination candidate character immediately after dependency source character”, the dependency source character is determined to be B. In addition, when the “dependent source character is“ NO ”AND the dependent destination candidate character is a character used as a case particle”, the dependent source character is determined to be D. Otherwise, it is determined as O. If the sentence ends, it is determined as E. Here, such a condition is an example, and the present invention is not limited to this. Such conditions are created by machine learning and stored in the grammar definition table 110.
ここで、本発明の一実施形態に係る自然言語解析装置10の解析処理を高水準言語で示す。
Here, the analysis processing of the natural
procedure analyze(m,h,t)
var s:stack
begin
Push(−1,s)
m[0]=get_token()
Push(0,s)
m[1]=get_token()
i=1
while (m[i]!=EOS) do begin
j=Pop(s)
m[i+1]=get_token()
while (j!=−1 && (Dep(j,i,m,t)||(m[i+1]==EOS)) do begin
h[j]=i
j=Pop(s)
end
Push(j,s)
Push(i,s)
++i;
end
j=Pop(s)
h[j]=i
t[j]=“E”
end
procedure analysis (m, h, t)
var s: stack
begin
Push (-1, s)
m [0] = get_token ()
Push (0, s)
m [1] = get_token ()
i = 1
while (m [i]! = EOS) do begin
j = Pop (s)
m [i + 1] = get_token ()
while (j! =-1 && (Dep (j, i, m, t) || (m [i + 1] == EOS)) do begin
h [j] = i
j = Pop (s)
end
Push (j, s)
Push (i, s)
++ i;
end
j = Pop (s)
h [j] = i
t [j] = “E”
end
上述の解析処理において、mは形態素(文字)の配列、hは係り先を記憶する配列、tは判定結果のタイプを記憶する配列である。また、Push(値,s)はスタックに値をプッシュする関数であり、get_token()は1文字を取得する関数であり、Pop(s)はスタックから値をポップする関数であり、Dep(j,i,m,t)はj番目の文字がi番目の文字に依存するか否かを判定する関数である。 In the above-described analysis processing, m is an array of morphemes (characters), h is an array that stores the relations, and t is an array that stores the type of the determination result. Push (value, s) is a function that pushes a value onto the stack, get_token () is a function that acquires one character, Pop (s) is a function that pops a value from the stack, and Dep (j , I, m, t) is a function for determining whether the j-th character depends on the i-th character.
すなわち、Dep関数は、依存関係判定部103に相当し、j番目の文字(依存元文字ID)とi番目の文字(依存先候補文字ID)とを引数に依存関係判定要求を受け付けて、依存元文字と依存先候補文字との判定条件を記憶する文法定義テーブル110を用いて文字種や種々の属性を判断して格納し、依存関係を判定する。そして、Dep関数は、j番目の文字がi番目の文字に依存する(係る)と判定する場合に「True」を返し、依存しない(係らない)と判定する場合に「False」を返す。
That is, the Dep function corresponds to the
なお、Dep関数が判断する文字種は、簡単のため上記の例を示したが、これに限られるものではない。具体的には、その他の文字種の例として、漢数字になりうる文字(○の記号や、漢字の中の一、二、・・・壱、弐、百、千、万等)や、一般的には記号と見なされているが、仮名と同類で扱ったほうがよい文字(濁点、半濁点、長音の記号等)や、名前の一部に使われる確率が高い文字(子、優、宏、朗、・・・)等も含まれる。さらに、Dep関数の判断の例として、Dep関数は、解析対象の文字の種類が漢数字になりうる文字である場合、当該文字は漢数字内の文字連続を構成すると判断する場合がある。また、解析対象の文字の種類が名前の一部に使われる確率が高い文字である場合、当該文字は名前内の文字連続を構成すると判断する場合がある。また、一つの文字が複数の文字種を有すると判断する場合もある。具体的には、「○」が、記号であると共に、漢数字の一部である、という二つの文字種を有すると判断する場合である。このように、Dep関数は、文字の種々の属性を参照して依存関係を判定する。 In addition, although the said example showed the character type which a Dep function judges for simplicity, it is not restricted to this. Specifically, other examples of character types include characters that can be Chinese numerals (symbols ○, one or two of the Chinese characters, 壱, 弐, one hundred, one thousand, ten thousand, etc.) Is considered a symbol, but it should be treated in the same way as kana (a dakuten, semi-dakuten, long-sound symbol, etc.), or a character that has a high probability of being used as part of a name (child, Yu, Hiroshi, Akira, ...) etc. are also included. Further, as an example of the determination of the Dep function, when the type of character to be analyzed is a character that can be a Chinese numeral, the Dep function may determine that the character constitutes a continuous character in the Chinese numeral. Further, when the type of character to be analyzed is a character that has a high probability of being used as a part of the name, it may be determined that the character constitutes a continuous character in the name. Moreover, it may be determined that one character has a plurality of character types. Specifically, this is a case where it is determined that “◯” has two character types that are a symbol and a part of a Chinese numeral. In this way, the Dep function determines the dependency by referring to various attributes of the character.
以下、形態素解析結果「メグが彼にあのペンをあげた。」(図3)という具体例について、図5〜図11を用いて上述の解析処理を説明する。図5は、本発明の一実施形態に係る自然言語解析装置10の係り受け解析処理部102の具体的な処理例を示す図である。図6〜図11は、それぞれ前の図に続く、係り受け解析処理部102の具体的な処理例を示す図である。
Hereinafter, the above-described analysis process will be described with reference to FIGS. 5 to 11 for a specific example of the morphological analysis result “Meg gave his pen to him” (FIG. 3). FIG. 5 is a diagram illustrating a specific processing example of the dependency
図5において、係り受け解析処理部102は、処理を開始すると、依存先未決スタック107に「−1」をプッシュして、文字ID「0」の文字「メ」を解析文字格納部108の文字コードに格納する。引き続き、係り受け解析処理部102は、依存先未決スタック107に「0」をプッシュして、文字ID「1」の文字「グ」を解析文字格納部108の文字コードに格納する。次に、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDを初期値「1」に設定する。
In FIG. 5, when the dependency
図6(1)において、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDが示す文字コードがEOSではないので、依存先未決スタック107からポップした値「0」を依存元文字ID格納エリア105の依存元文字IDに設定する。次に、係り受け解析処理部102は、依存先候補文字ID+1(即ち1+1=「2」)の文字「が」を解析文字格納部108の文字コードに格納する。
In FIG. 6A, the dependency
次に、図6(2)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」ではなく、依存関係判定部103の判定結果が「True」なので、以下の処理を行う。より具体的には、依存関係判定部103は、文字ID「0」の文字「メ」の文字種に「カタカナ」を格納し、文字ID「1」の文字「グ」の文字種に「カタカナ」を格納し、「メグ」が単語辞書にあるので、「メ」が「グ」に「係る」とする判定(機械学習による判定)を行い、「True」を返す。係り受け解析処理部102は、依存関係判定部103の判定結果が「W」であるので、解析文字格納部108の依存元文字のタイプに判定結果の「W」を設定し、依存先に依存先候補文字ID格納エリア106の依存先候補文字ID「1」を設定する。次に、係り受け解析処理部102は、依存先未決スタック107からポップした値「−1」を依存元文字ID格納エリア105の依存元文字IDに設定する。
Next, in FIG. 6B, the dependency
図6(3)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」であるので、依存先未決スタック107に依存元文字ID格納エリア105の依存元文字ID「−1」をプッシュする。さらに、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字ID「1」をプッシュする。次に、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDをインクリメントして(1+1=)「2」にする。
In FIG. 6 (3), since the dependency source character ID of the dependency source character
図7(1)において、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDが示す文字コードがEOSではないので、依存先未決スタック107からポップした値「1」を依存元文字ID格納エリア105の依存元文字IDに設定する。次に、係り受け解析処理部102は、依存先候補文字ID+1(即ち2+1=「3」)の文字「彼」を解析文字格納部108の文字コードに格納する。
In FIG. 7A, the dependency
図7(2)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」ではなく、依存関係判定部103の判定結果が「True」なので、以下の処理を行う。より具体的には、依存関係判定部103は、文字ID「2」の文字「が」の文字種に「ひらがな」を格納し、「メグ」が単語辞書にある、「グが」が単語辞書にない、「グが」が文字種が異なる等、注目する文字及びその文字の前後の素性を見ることで「グ」が単語の区切りで、かつ「が」が助詞等の情報を使い、「が」に係るとする判定(機械学習による判定)を行い、「True」を返す。係り受け解析処理部102は、依存関係判定部103の判定結果が「B」であるので、解析文字格納部108の依存元文字のタイプに判定結果の「B」を設定し、依存先に依存先候補文字ID格納エリア106の依存先候補文字ID「2」を設定する。次に、係り受け解析処理部102は、依存先未決スタック107からポップした値「−1」を依存元文字ID格納エリア105の依存元文字IDに設定する。
In FIG. 7B, the dependency
図7(3)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」であるので、依存先未決スタック107に依存元文字ID格納エリア105の依存元文字ID「−1」をプッシュする。さらに、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字ID「2」をプッシュする。次に、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDをインクリメントして(2+1=)「3」にする。
In FIG. 7 (3), since the dependency source character ID of the dependency source character
図8(1)において、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDが示す文字コードがEOSではないので、依存先未決スタック107からポップした値「2」を依存元文字ID格納エリア105の依存元文字IDに設定する。次に、係り受け解析処理部102は、依存先候補文字ID+1(即ち3+1=「4」)の文字「に」を解析文字格納部108の文字コードに格納する。
In FIG. 8A, the dependency
図8(2)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」ではなく、依存関係判定部103の判定結果が「False」なので、以下の処理を行う。より具体的には、依存関係判定部103は、文字ID「3」の文字「彼」の文字種に「漢字」を格納し、「が」は「彼」に「係らない」とする判定(機械学習による判定)を行い、「False」を返す。係り受け解析処理部102は、依存関係判定部103の判定結果が「O」であるので、解析文字格納部108の依存元文字のタイプに判定結果「O」を設定し、依存先を設定しない(未決にする)。
In FIG. 8 (2), the dependency
図8(3)において、係り受け解析処理部102は、依存先未決スタック107に依存元文字ID格納エリア105の依存元文字ID「2」をプッシュする。さらに、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字ID「3」をプッシュする。次に、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDをインクリメントして(3+1=)「4」にする。
In FIG. 8 (3), the dependency
図9(1)において、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDが示す文字コードがEOSではないので、依存先未決スタック107からポップした値「3」を依存元文字ID格納エリア105の依存元文字IDに設定する。次に、係り受け解析処理部102は、依存先候補文字ID+1(即ち4+1=「5」)の文字「あ」を解析文字格納部108の文字コードに格納する。
In FIG. 9A, the dependency
図9(2)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」ではなく、依存関係を依存関係判定部103の判定結果が「True」なので、以下の処理を行う。より具体的には、依存関係判定部103は、文字ID「4」の文字「に」の文字種に「ひらがな」を格納し、「彼」が「に」に「係る」とする判定(機械学習による判定)を行い、「True」を返す。係り受け解析処理部102は、依存関係判定部103の判定結果が「B」であるので、解析文字格納部108の依存元文字のタイプに判定結果の「B」を設定し、依存先に依存先候補文字ID格納エリア106の依存先候補文字ID「4」を設定する。次に、係り受け解析処理部102は、依存先未決スタック107からポップした値「2」を依存元文字ID格納エリア105の依存元文字IDに設定する。次に、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」ではなく、依存関係を依存関係判定部103の判定結果が「False」なので、以下の処理を行う。より具体的には、依存関係判定部103は、「が」が「に」に「係らない」とする判定(機械学習による判定)を行い、「False」を返す。係り受け解析処理部102は、依存関係判定部103の判定結果が「O」であるので、解析文字格納部108の依存元文字のタイプに判定結果「O」を設定し、依存先を設定しない(未決にする)。
In FIG. 9B, the dependency
図9(3)において、係り受け解析処理部102は、依存先未決スタック107に依存元文字ID格納エリア105の依存元文字ID「2」をプッシュする。さらに、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字ID「4」をプッシュする。次に、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDをインクリメントして(4+1=)「5」にする。
In FIG. 9 (3), the dependency
以下同様に、係り受け解析処理部102は、依存先が未決の文字IDをスタックしていき、文字間の依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字IDの依存関係の決定を行って文字の係り受けを決定する。
Similarly, the dependency
文末近くでの処理を図10で説明する。図10が示す例は、依存先未決スタック107に、依存先が未決の3個の文字IDと、次の処理対象の文字IDとがスタックされており、依存先候補文字ID格納エリア106の依存先候補文字IDが「13」である状態である。
Processing near the end of the sentence will be described with reference to FIG. In the example shown in FIG. 10, three character IDs whose dependency destinations are yet to be determined and the next processing target character ID are stacked on the dependency destination
図10(1)において、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDが示す文字コードがEOSではないので、依存先未決スタック107からポップした値「12」を依存元文字ID格納エリア105の依存元文字IDに設定する。次に、係り受け解析処理部102は、依存先候補文字ID+1(即ち13+1=「14」)の文字「EOS」を解析文字格納部108の文字コードに格納する。
In FIG. 10A, the dependency
図10(2)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」ではなく、かつ、依存先候補文字ID格納エリア106の依存先候補文字ID+1が示す文字コードがEOSであるので、以下の処理を行う。より具体的には、依存関係判定部103は、文字ID「13」の文字「。」の文字種に「記号」を格納し、「た」が「。」に「係る」とする判定(機械学習による判定)を行い、「True」を返す。係り受け解析処理部102は、依存関係判定部103の判定結果が「B」であるので、解析文字格納部108の依存元文字のタイプに判定結果の「B」を設定し、依存先に依存先候補文字ID格納エリア106の依存先候補文字ID「13」を設定する。次に、係り受け解析処理部102は、依存先未決スタック107からポップした値「9」を依存元文字ID格納エリア105の依存元文字IDに設定する。
In FIG. 10B, the dependency
図10(3)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」ではなく、かつ、依存先候補文字ID格納エリア106の依存先候補文字ID+1が示す文字コードがEOSであるので、解析文字格納部108の依存元文字ID「9」のタイプに「D」を設定し、依存先に依存先候補文字ID格納エリア106の依存先候補文字ID「13」を設定する。次に、係り受け解析処理部102は、依存先未決スタック107からポップした値「4」を依存元文字ID格納エリア105の依存元文字IDに設定する。
In FIG. 10C, the dependency
図11(1)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」ではなく、かつ、依存先候補文字ID格納エリア106の依存先候補文字ID+1が示す文字コードがEOSであるので、解析文字格納部108の依存元文字ID「4」のタイプに「D」を設定し、依存先に依存先候補文字ID格納エリア106の依存先候補文字ID「13」を設定する。次に、係り受け解析処理部102は、依存先未決スタック107からポップした値「2」を依存元文字ID格納エリア105の依存元文字IDに設定する。
In FIG. 11A, the dependency
図11(2)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」ではなく、かつ、依存先候補文字ID格納エリア106の依存先候補文字ID+1が示す文字コードがEOSであるので、解析文字格納部108の依存元文字ID「2」のタイプに「D」を設定し、依存先に依存先候補文字ID格納エリア106の依存先候補文字ID「13」を設定する。次に、係り受け解析処理部102は、依存先未決スタック107からポップした値「−1」を依存元文字ID格納エリア105の依存元文字IDに設定する。
In FIG. 11B, the dependency
図11(3)において、係り受け解析処理部102は、依存元文字ID格納エリア105の依存元文字IDが「−1」であるので、依存先未決スタック107に依存元文字ID格納エリア105の依存元文字ID「−1」をプッシュする。さらに、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字ID「13」をプッシュする。次に、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDをインクリメントして(13+1=)「14」にする。そして、係り受け解析処理部102は、依存先候補文字ID格納エリア106の依存先候補文字IDが示す文字コードがEOSであるので、依存先未決スタック107からポップした値「13」の依存先に依存先候補文字ID格納エリア106の依存先候補文字ID「14」を設定し、解析文字格納部108の依存元文字ID「13」のタイプに「E」を設定し、処理を終了する。このようにして、自然言語解析装置10は、例えば「メグが彼にあのペンをあげた。」という文を構成する文字を文字単位で取得し、取得した文字ごとの依存関係を図11(2)の様に決定する。
In FIG. 11 (3), the dependency
本実施形態によれば、自然言語解析装置10は、解析対象の文を構成する文字を文字単位で取得し、取得した文字ごとの依存関係を決定する。そして、自然言語解析装置10は、当該解析対象の文の先頭文字から順にこの文字ごとの依存関係を決定する過程で、係り先が未確定の文字を依存先未決スタック107にスタックしていき、依存関係の判定により文字の係り先が決定した後に、依存先未決スタック107に蓄積された文字の依存関係の決定を行って文字の係り受けを決定する。さらに、自然言語解析装置10の依存関係の判定は、依存元及び依存先候補の文字の種類、文字の前後関係の条件に応じた判定結果のタイプを対応付けた文法定義テーブル110に基づいて行う。さらに、自然言語解析装置10の依存関係の判定は、SVMにより機械学習された文法ルールに基づいて行う。したがって、自然言語解析装置10は、依存関係が未確定な文字を蓄積しながら文字ごとの係り受け解析をするので、解析対象の文を文末まで形態素解析しなくても、文字ごとの係り受け関係を決定することができる。
According to the present embodiment, the natural
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
10 自然言語解析装置
101 解析対象文字入力部
102 係り受け解析処理部
103 依存関係判定部
104 解析結果出力部
105 依存元文字ID格納エリア
106 依存先候補文字ID格納エリア
107 依存先未決スタック
108 解析文字格納部
110 文法定義テーブル
1031 教師データ入力部
1032 機械学習部
1033 文法ルール記憶部
1034 依存関係判定要求受付部
1035 依存関係判定実行部
DESCRIPTION OF
Claims (5)
解析対象の文を構成する文字を文字単位で取得する文字取得手段と、
取得した文字ごとの依存関係を決定する文字係り受け解析手段と、を備え、
前記文字係り受け解析手段は、
前記解析対象の文の先頭文字から順に前記文字ごとの依存関係を決定する過程で、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定する、
自然言語解析装置。 A natural language analyzer for analyzing natural language sentences,
Character acquisition means for acquiring characters constituting the sentence to be analyzed in character units;
Character dependency analysis means for determining the dependency for each acquired character,
The character dependency analysis means includes:
In the process of determining the dependency relationship for each character in order from the first character of the sentence to be analyzed, the character is determined as the dependency destination is stacked, and the character dependency destination is determined by determining the dependency, Determine the dependency of the characters by determining the dependency of the characters stored in
Natural language analyzer.
解析対象の文を構成する文字を文字単位で取得するステップと、
取得した文字ごとの依存関係を決定する文字係り受け解析ステップと、を含み、
前記文字係り受け解析ステップは、
前記解析対象の文の先頭文字から順に前記文字ごとの依存関係を決定する過程で、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定する、自然言語解析方法。 A natural language analyzer is a natural language analysis method for analyzing a natural language sentence,
Obtaining characters constituting the sentence to be analyzed in character units;
A character dependency analysis step for determining a dependency relationship for each acquired character,
The character dependency analysis step includes:
In the process of determining the dependency relationship for each character in order from the first character of the sentence to be analyzed, the character is determined as the dependency destination is stacked, and the character dependency destination is determined by determining the dependency, A natural language analysis method for determining the dependency of characters by determining the dependency relationship of characters stored in.
解析対象の文を構成する文字を文字単位で取得するステップと、
取得した文字ごとの依存関係を決定する文字係り受け解析ステップと、を実行させ、
前記文字係り受け解析ステップは、
前記解析対象の文の先頭文字から順に前記文字ごとの依存関係を決定する過程で、係り先が未確定の文字をスタックしていき、依存関係の判定により文字の係り先が決定した後に、スタックに蓄積された文字の依存関係の決定を行って文字の係り受けを決定する、プログラム。 A natural language analysis program that analyzes natural language sentences.
Obtaining characters constituting the sentence to be analyzed in character units;
A character dependency analysis step for determining a dependency relationship for each acquired character; and
The character dependency analysis step includes:
In the process of determining the dependency relationship for each character in order from the first character of the sentence to be analyzed, the character is determined as the dependency destination is stacked, and the character dependency destination is determined by determining the dependency, A program that determines the dependency of characters by determining the dependency relationship of characters stored in.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064512A JP5302922B2 (en) | 2010-03-19 | 2010-03-19 | Natural language analysis apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064512A JP5302922B2 (en) | 2010-03-19 | 2010-03-19 | Natural language analysis apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011198075A true JP2011198075A (en) | 2011-10-06 |
JP5302922B2 JP5302922B2 (en) | 2013-10-02 |
Family
ID=44876182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010064512A Active JP5302922B2 (en) | 2010-03-19 | 2010-03-19 | Natural language analysis apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5302922B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009176062A (en) * | 2008-01-24 | 2009-08-06 | Yahoo Japan Corp | Natural language analysis device, natural language analysis method, and natural language analysis program |
-
2010
- 2010-03-19 JP JP2010064512A patent/JP5302922B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009176062A (en) * | 2008-01-24 | 2009-08-06 | Yahoo Japan Corp | Natural language analysis device, natural language analysis method, and natural language analysis program |
Non-Patent Citations (4)
Title |
---|
CSNG200700424001; 颯々野 学: '日本語係り受け解析の線形時間アルゴリズム' 自然言語処理 第14巻第1号, 20070110, p.3-18, 言語処理学会 * |
CSNG200900092076; 山田 恵美子 外1名: '専門用語の内部構造解析' 言語処理学会第15回年次大会発表論文集 , 20090302, p.340-343, 言語処理学会 * |
JPN6012049947; 颯々野 学: '日本語係り受け解析の線形時間アルゴリズム' 自然言語処理 第14巻第1号, 20070110, p.3-18, 言語処理学会 * |
JPN6012049948; 山田 恵美子 外1名: '専門用語の内部構造解析' 言語処理学会第15回年次大会発表論文集 , 20090302, p.340-343, 言語処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
JP5302922B2 (en) | 2013-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hirst et al. | Bigrams of syntactic labels for authorship discrimination of short texts | |
JP5362095B2 (en) | Input method editor | |
US8380492B2 (en) | System and method for text cleaning by classifying sentences using numerically represented features | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
JP5604435B2 (en) | Machine learning for transliteration | |
US9836447B2 (en) | Linguistic error detection | |
Dutta et al. | Text normalization in code-mixed social media text | |
US20140380169A1 (en) | Language input method editor to disambiguate ambiguous phrases via diacriticization | |
Chen et al. | Integrating natural language processing with image document analysis: what we learned from two real-world applications | |
Shatnawi et al. | Verification hadith correctness in islamic web pages using information retrieval techniques | |
Eder et al. | Stylistic Fingerprints, POS-tags, and Inflected Languages: A Case Study in Polish | |
Singh et al. | Review of real-word error detection and correction methods in text documents | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models | |
Dahl | Natural language processing: past, present and future | |
Londhe et al. | Challenges in multilingual and mixed script sentiment analysis | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
JP5302922B2 (en) | Natural language analysis apparatus, method and program | |
de Mendonça Almeida et al. | Evaluating phonetic spellers for user-generated content in Brazilian Portuguese | |
JP5295576B2 (en) | Natural language analysis apparatus, natural language analysis method, and natural language analysis program | |
Kapočiūtė-Dzikienė et al. | Feature exploration for authorship attribution of Lithuanian parliamentary speeches | |
Aydinov et al. | Investigation of automatic part-of-speech tagging using CRF, HMM and LSTM on misspelled and edited texts | |
Yusuf et al. | HindiWSD: A package for word sense disambiguation in Hinglish & Hindi | |
Jiacuo et al. | Tibetan Case Grammar Error Correction Method Based on Neural Networks | |
Radhakrishna | Intent Based Utterance Segmentation for Multi IntentNLU | |
Aung et al. | Proposed Framework for Stochastic Parsing of Myanmar Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20121101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5302922 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |