JP5585961B2 - Predicate normalization apparatus, method, and program - Google Patents
Predicate normalization apparatus, method, and program Download PDFInfo
- Publication number
- JP5585961B2 JP5585961B2 JP2011066653A JP2011066653A JP5585961B2 JP 5585961 B2 JP5585961 B2 JP 5585961B2 JP 2011066653 A JP2011066653 A JP 2011066653A JP 2011066653 A JP2011066653 A JP 2011066653A JP 5585961 B2 JP5585961 B2 JP 5585961B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- predicate
- label
- word
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、述部正規化装置、方法、及びプログラムに係り、特に、自然言語処理において、文情報の中心となる述部を対象に、述部の機能表現を単純に言い換え、言い換えられた述部が自然な日本語になるように文法性を判断する述部正規化装置、方法、及びプログラムに関する。 The present invention relates to a predicate normalization apparatus, method, and program. In particular, in natural language processing, the functional expression of a predicate is simply paraphrased and the paraphrased description is targeted for a predicate that is the center of sentence information. The present invention relates to a predicate normalization apparatus, method, and program for judging grammatical properties so that parts become natural Japanese.
議事録、アンケート、web上のテキストやコンタクトセンタの会話ログなど大量の文書から有益な情報を得るためには、テキストから「誰が何をどうした」という重要な情報を抽出し、同じ意味の要素毎にまとめ上げ、集計することが必須である。しかし、テキスト上では同じ内容が様々な表現で書かれているため、機械が同じ意味の表現をまとめ上げるためには、前処理が必要となる。特に、「どうした」を表す述部は、動詞・名詞・形容詞・形容動詞・副詞といった「内容語」と、助詞・助動詞などの「機能語」との組み合わせから成り立っているため、表層形の異なりが激しい。例えば、下記の例文「故障しているのかも知れないわね」は、1つの述部に対して1つの内容語、及び5種類の異なる機能語が付属している。なお、1つ以上の機能語がかたまりで1つの意味単位を構成している場合を「機能表現」と呼ぶ。 In order to obtain useful information from a large amount of documents such as minutes, questionnaires, web texts, contact center conversation logs, etc., extract important information such as “who did what” from the text, and elements with the same meaning It is indispensable to collect and aggregate every time. However, since the same content is written in various expressions on the text, preprocessing is necessary for the machine to collect expressions having the same meaning. In particular, the predicate that expresses “what happened” consists of a combination of “content words” such as verbs, nouns, adjectives, adjectives, adverbs, and “function words” such as particles and auxiliary verbs. The difference is intense. For example, in the following example sentence “I may be out of order”, one content word and five different function words are attached to one predicate. A case where one or more function words constitute a single semantic unit is called “function expression”.
故障し(内容語)/ ている(機能語1)/ の(機能語2)/
かも知れない(機能語3)/ わ(機能語4)/ ね(機能語5)
Failed (content word) / is (function word 1) / (function word 2) /
May be (Function word 3) / Wa (Function word 4) / Ne (Function word 5)
このように、述部は様々な要素の組み合わせからなっているため、表層形の異なりが激しく、機械による同義表現抽出が困難となっている。 Thus, since the predicate is composed of a combination of various elements, the difference in the surface layer form is significant, and it is difficult to extract synonymous expressions by a machine.
これらの同義表現抽出の困難さを解決するための一つの方法が、「言い換え」である。例えば、口語表現でよく出てくる、「故障しているのかも知れないわね」というような述部を、「故障しているかも知れない」と単純な形に言い換えることで、述部が表している意味を変えることなく、機械で「『故障しているのかも知れないわね』は『故障しているかも知れない』と同義である」と判断することができる。つまり、同じ意味を表す述部は同じ表層形に自動で言い換えることで、機械で集計ができるようになる。この処理を、述部の正規化と呼ぶ。これらの言い換えを用いた前処理は、述部のまとめ上げのみならず、要約や機械翻訳の前処理としても用いることができる。 One method for solving the difficulty of extracting these synonymous expressions is “paraphrase”. For example, a predicate that often appears in colloquial expressions, such as “I think it may be out of order,” is rephrased into a simple form as “It may be out of order,” so that the predicate becomes Without changing the meaning of the expression, it can be judged by the machine that ““ It may have failed ”is synonymous with“ May have failed ”. In other words, predicates that represent the same meaning can be aggregated by a machine by automatically rephrasing the same surface layer form. This process is called predicate normalization. The preprocessing using these paraphrases can be used not only for predicate summarization but also as preprocessing for summarization and machine translation.
従来、述部を単純に言い換える手法として、述部の機能語または機能表現を、「述部が表す出来事の意味に影響するか否か」を判断基準として、抽象的な意味ラベルを用いて分類し、「影響する」に属する機能表現を残すことにより、述部の正規化を行う手法が提案されている(例えば、非特許文献1参照)。非特許文献1の手法では、機能表現を分類するための抽象的な意味ラベルとして、「時制の差異」、「否定の差異」、及び「モダリティの差異」という3つの指標を立て、述部の正規化に際して、これらに属さない機能表現を削除している。また、助動詞の「だ」、及び助詞の「の」を「Grammar」というカテゴリに分類し、モダリティに属する機能表現の前または後の「Grammar」に分類された機能表現は削除することなく残している。
Conventionally, as a method of simply rephrasing predicates, function words or function expressions of predicates are classified using abstract semantic labels based on whether or not they affect the meaning of the event represented by the predicate. However, a method for normalizing predicates by leaving functional expressions belonging to “influence” has been proposed (see, for example, Non-Patent Document 1). In the method of
しかしながら、非特許文献1に記載された技術のように、述部が表す出来事の意味に影響する機能表現のみを残し、残りを単純に削除した場合では、文法的に正しくない言い換えを生成する場合がある、という問題がある。
However, as in the technique described in
例えば、「苦手なのかも知れないね」という述部を例に説明する。 For example, a predicate “You may be weak” is explained as an example.
苦手(内容語)/な(機能表現・G)/の(機能表現・G)/
かも知れない(機能表現)
Not good (content word) / NA (functional expression / G) / no (functional expression / G) /
It may be (functional expression)
上記のように、述部に3つの機能表現が含まれている。なお、「G」は、上述の機能表現が助動詞の「だ」、及び助詞の「の」に分類されることを示す「Grammar」に分類されていることを表す。非特許文献1の手法では、モダリティに属する機能表現の前または後の「Grammar」に分類された機能表現は残し、それ以外は削除している。よって、上記の例では、図17に示すように、モダリティに属する機能表現である「かも知れない」の前に位置する「の」は残し、前後にモダリティに属する機能表現が存在しない「な」は削除される。そして、正規化された述部として「苦手のかも知れない」が生成されてしまう。この場合、名詞−形容動詞語幹の「苦手」と助詞の「の」をつなぐために、助動詞の「だ(表層形は「な」)」が必要であるにもかかわらず削除されてしまったため、生成された言い換えは日本語として正しいとは言えない。これは、(1)述部が表す意味を変えずに、述部を単純にする、(2)言い換えられた述部が日本語として正しい、という述部の言い換えを行う際に必要な2点のうち、上記(2)が考慮されていないためである。
As described above, the predicate includes three functional expressions. Note that “G” represents that the above-described functional expression is classified into “Grammar” indicating that it is classified into the auxiliary verb “da” and the auxiliary particle “no”. In the method of
本発明は上記問題点に鑑みてなされたものであり、単純かつ文法的に正しい述部の言い換えを行うことができる述部正規化装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and an object thereof is to provide a predicate normalization apparatus, method, and program capable of simply and grammatically correct predicate paraphrase.
上記目的を達成するために、本発明の述部正規化装置は、入力された文書を形態素解析する形態素解析手段と、前記形態素解析手段による形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与するラベル付与手段と、前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する計算手段と、前記計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する生成手段と、を含んで構成されている。 To achieve the above object, the predicate normalization apparatus of the present invention uses a morpheme analysis unit that performs morpheme analysis on an input document, and a predicate of the document based on a result of morpheme analysis by the morpheme analysis unit. Labeling means for assigning a judgment label indicating that the grammatical necessity is different to each of functional expressions that are included and have different grammatical needs depending on words existing in the vicinity, and the judgment label is given. The morpheme constituting the predescription part when at least one of the function expressions included is included in the predescription part, and the morpheme constituting the predescription part when each of the functional expressions to which the determination label is assigned is excluded For each of the columns, a morpheme N-gram model constructed with pseudo-words that have morpheme surface forms as elements for function words and words other than the function words do not have the surface layer form as elements. Based on the calculation means for calculating a score indicating whether or not the functional expression to which the determination label is given is grammatically required, and normalization from the morpheme sequence selected based on the score calculated by the calculation means Generating means for generating the predicate.
本発明の述部正規化装置によれば、形態素解析手段が、入力された文書を形態素解析し、ラベル付与手段が、形態素解析手段による形態素解析の結果に基づいて、文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、文法的な必要性が異なることを示す判定ラベルを付与する。そして、計算手段が、判定ラベルが付与された機能表現の少なくとも1つを述部に含ませた場合の述部を構成する形態素列、及び判定ラベルが付与された機能表現の各々を除いた場合の述部を構成する形態素列の各々について、形態素Nグラムモデルに基づいて、判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する。この形態素Nグラムモデルは、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築されたNグラムモデルである。そして、生成手段が、計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する。 According to the predicate normalization apparatus of the present invention, the morpheme analysis unit performs morpheme analysis on the input document, and the label addition unit is included in the predicate of the document based on the result of the morpheme analysis by the morpheme analysis unit. At the same time, a judgment label indicating that the grammatical necessity is different is assigned to each functional expression having a different grammatical necessity depending on the words existing in the vicinity. When the calculation means excludes each of the morpheme sequence constituting the predicate when the predicate includes at least one of the functional expressions to which the determination label is given and the functional expression to which the determination label is given. For each of the morpheme strings constituting the predicate, a score indicating whether or not the functional expression to which the determination label is assigned is grammatically necessary is calculated based on the morpheme N-gram model. This morpheme N-gram model is an N-gram model constructed with pseudo-words having the surface form of the morpheme as an element for function words and the surface layer form for elements other than the function words. Then, the generation unit generates a normalized predicate from the morpheme sequence selected based on the score calculated by the calculation unit.
このように、周辺に存在する単語によって文法的な必要性が異なる機能表現の文法性を、形態素Nグラムモデルを用いて判断するため、単純かつ文法的に正しい述部の言い換えを行うことができる。また、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築された形態素Nグラムモデルを用いることで、述部に含まれる機能語以外の語、すなわち内容語の表層形のばらつきによるスコアの揺れを抑えつつ、機能表現の表層形は文法性判断の基準として用いることができ、高精度の文法性判断を行うことができる。 In this way, since the grammatical nature of functional expressions having different grammatical needs depending on the words existing in the vicinity is judged using the morpheme N-gram model, it is possible to simply rephrase predicates that are grammatically correct. . For function words, the morpheme surface form is used as an element, and for words other than function words, a morpheme N-gram model constructed with pseudo-words that do not use the surface form as an element is used. In other words, the surface form of the functional expression can be used as a grammatical judgment criterion while suppressing the fluctuation of the score due to variations in the surface form of the content word, that is, the grammatical judgment of high accuracy.
また、前記計算手段は、前記形態素Nグラムモデルと、形態素の表層形以外を要素とした擬似単語により構築された品詞Nグラムモデルとに基づいて、前記スコアを算出することができる。このように、形態素Nグラムモデルとあわせて、品詞Nグラムモデルも用いることで、対象となる機能表現の文法性判断の精度がより向上する。 Further, the calculation means can calculate the score based on the morpheme N-gram model and a part-of-speech N-gram model constructed by pseudo words having elements other than the surface form of the morpheme as elements. Thus, by using the part-of-speech N-gram model together with the morpheme N-gram model, the accuracy of the grammatical judgment of the target functional expression is further improved.
また、前記ラベル付与手段は、前記判定ラベル、並びに前記機能表現が意味的及び文法的に不要であることを示す不要ラベルを含み、かつ前記機能表現が前記述部の意味に影響を与えるか否かを示す意味ラベルを前記述部に含まれる機能表現の各々に付与し、前記計算手段は、前記ラベル付与手段により不要ラベルが付与された機能表現、及び同一の意味ラベルが付与された機能表現の各々の少なくとも1つ以外の機能表現を削除した述部を用いて、前記スコアを算出することができる。これにより、より単純化された述部を生成することができる。 In addition, the label assigning means includes the determination label and an unnecessary label indicating that the functional expression is semantically and grammatically unnecessary, and whether the functional expression affects the meaning of the previous description part. Is added to each of the functional expressions included in the previous description part, and the calculation means includes a functional expression to which an unnecessary label is assigned by the label attaching means, and a functional expression to which the same semantic label is assigned. The score can be calculated using a predicate in which a functional expression other than at least one of each of the above is deleted. As a result, a more simplified predicate can be generated.
また、本発明の述部正規化方法は、コンピュータに、入力された文書を形態素解析し、形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与し、前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算し、計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成することを含む処理を実行させる方法である。 Further, the predicate normalization method of the present invention performs a morphological analysis on an input document to a computer, and includes a grammatical expression based on a word existing in the predicate of the document based on the result of the morphological analysis. When a determination label indicating that the grammatical necessity is different is assigned to each functional expression having a different necessity, and at least one of the functional expressions having the determination label is included in the previous description section For each of the morpheme strings constituting the preceding description part when excluding each of the morpheme strings constituting the preceding description part and the function expression to which the determination label is assigned, the function word is composed of the surface form of the morpheme. Whether the functional expression to which the determination label is attached is grammatically required based on a morpheme N-gram model constructed by a pseudo word that does not have the surface layer as an element for words other than the functional word A score indicating the calculated, from the morpheme string selected based on the calculated score is a method for executing the processing comprising generating a predicate normalized.
また、本発明の述部正規化プログラムは、コンピュータを、上記の述部正規化装置を構成する各手段として機能させるためのプログラムである。 The predicate normalization program of the present invention is a program for causing a computer to function as each means constituting the predicate normalization apparatus.
以上説明したように、本発明の述部正規化装置、方法、及びプログラムによれば、機能語については形態素の表層形を要素とし、機能語以外の語については表層形を要素としない擬似単語により構築された形態素Nグラムモデルを用いて、周辺に存在する単語によって文法的な必要性が異なる機能表現の文法性を判断するため、単純かつ文法的に正しい述部の言い換えを行うことができる、という効果が得られる。 As described above, according to the predicate normalization apparatus, method, and program of the present invention, a pseudo word that has a morpheme surface form as an element for a function word and a surface form as an element for a word other than a function word. Using the morpheme N-gram model constructed by, we can determine the grammatical nature of functional expressions that have different grammatical needs depending on the words existing in the vicinity. The effect of is obtained.
以下、図面を参照して本発明の実施の形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
本実施の形態に係る述部正規化装置10は、CPUと、RAMと、後述する述部正規化処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、入力された文書(テキストデータ)を形態素解析する形態素解析部12と、意味ラベル・述部モデル14を用いて、形態素解析結果に対して機能表現の意味ラベルを付与し、文書の述部を抽出する意味ラベル付与・述部抽出部16と、意味ラベル「NULL」が付与された機能表現を削除するNULL削除部18と、同一の意味ラベルが付与された機能表現を1つだけ残して削除する冗長ルール適用部20と、Ngramモデルを用いて機能表現の文法上の必要性を判断するNgram文法性判断部22と、不要な機能表現が削除された残りの形態素を用いて述部を生成する活用生成部24と、を含んだ構成で表すことができる。
A
形態素解析部12は、入力された文書に対して、公知の形態素解析器を用いて一文毎に形態素解析を行う。形態素解析では、文が単語単位に分割され、各単語に品詞や活用型、活用形などの情報が付与される。図2に、入力された文書の一文が「彼は歌が苦手なのかも知れないね」に対する形態素解析の結果の一例を示す。
The
意味ラベル・述部モデル14は、述部が表す出来事の意味に影響を与えるか否かを示す意味ラベルを、機能表現の各々に付与すると共に、入力された文書から述部を抽出するためのモデルである。意味ラベル・述部モデル14は、機能語意味ラベル辞書に基づいて、人手で機能語に対して正解の意味ラベルを付与したコーパスを学習データとして、述部の範囲及び意味ラベルの並びの尤もらしさを学習して生成されている。機能語意味ラベル辞書には、述部の意味に影響を与えるとされる機能表現が定められており、例えば、図3に示すように、「時制の差異」、「否定の差異」、及び「モダリティの差異」という3つの指標をもとに分類され、予め記憶されている。さらに、「Grammar」というカテゴリ分類される機能表現も存在する。「Grammar」は、「意味的には重要ではないが、周辺の単語によっては文法的に必要な要素」を意味する。図4に、「Grammar」に属する意味ラベルを示す。「Grammar」に属する代表的な機能語は、助動詞の「だ」、及び助詞の「の」であり、ここでは、用途に合わせて、「だ」の意味ラベルを「判断」、「の」の意味ラベルを「名詞化」とする。
The semantic label /
意味ラベル付与・述部抽出部16は、意味ラベル・述部モデル14を用いた統計的手法により、形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。図5に、意味ラベルの付与及び述部の抽出結果の一例を示す。述部は、1個以上の内容語(C)及び0個以上の機能語(F)の連続から成り立っているため、「苦手なのかも知れないね」が述部として抽出される。この述部は、「苦手」を内容語とし、「な/の/かも知れない/ね」という4つの機能表現をもつ。
The semantic label assignment /
また、この例では、BIタグというものを使用し、述部の内容語であって、内容語の先頭の単語(「苦手」)には「C,B−PRED」のラベルを付与し、また、述部の内容語であって、内容語の先頭以外の単語(ここでは該当単語なし)には、「C,I−PRED」のラベルを付与する。Cは内容語(Content words)の頭文字である。また、機能語(Function words)には「F」のラベルを付与し、それに加えて、機能表現単位で該当する意味ラベルを付与する。機能表現「かも知れない」は、機能語「かも」、「知れ」及び「ない」で構成されているので、「かも」、「知れ」及び「ない」の各々に、機能語を示す「F」のラベルが付与されると共に、機能表現「かも知れない」に対応する意味ラベル「推量」が付与される。また、内容語と同様に、該当する機能語が、ある機能表現(「かも知れない」)の先頭の単語(「かも」)だった場合は、「B−推量」のように、その機能語が含まれる機能表現に付与された意味ラベルの前に「B」を付け、先頭以外の単語(「知れ」、「ない」)だった場合は、「I−推量」のように意味ラベルの前に「I」を付ける。 また、「Grammar」に属する機能語(ここでは、助動詞の「だ」及び助詞の「の」)には、上記と同様に、機能語を示すラベル「F」、機能表現の先頭または先頭以外の単語を示す「B」または「I」のラベルと共に、その単語の用途に応じて「判断」または「名詞化」の意味ラベルを付与する。機能語意味ラベル辞書に登録されていない単語、及び「Grammar」に属する単語以外の単語には、上記と同様に、機能語を示すラベル「F」、機能表現の先頭または先頭以外の単語を示す「B」または「I」のラベルと共に、「NULL」のラベルを付与する。 Also, in this example, a BI tag is used, and the content word of the predicate, the first word of the content word (“poor”) is given the label “C, B-PRED”, and A word “C, I-PRED” is assigned to the word of the predicate other than the head of the content word (here, no corresponding word). C is an acronym for content words. Further, a function word (Function words) is given a label of “F”, and in addition, a corresponding semantic label is given in units of function expression. Since the function expression “may be” is composed of the function words “kamo”, “know” and “no”, “F” indicating the function word in each of “kamo”, “know” and “no”. ”And a semantic label“ inference ”corresponding to the function expression“ may be ”. Similarly to the content word, when the corresponding function word is the first word (“Moka”) of a certain function expression (“Maybe”), the function word is “B-estimation”. If the word “B” is added to the front of the semantic label given to the functional expression including “”, and it is a word other than the beginning (“Know”, “None”), the front of the semantic label such as “I-inference” Add "I" to In addition, in the function words belonging to “Grammar” (here, the auxiliary verb “da” and the particle “no”), similarly to the above, the label “F” indicating the function word, the head of the function expression other than the head or the head Along with a label “B” or “I” indicating a word, a meaning label of “judgment” or “nounization” is given according to the use of the word. For words other than the words that are not registered in the function word meaning label dictionary and the words that belong to “Grammar”, similarly to the above, the label “F” indicating the function word, and the word other than the head or the head of the function expression are indicated. The label “NULL” is given together with the label “B” or “I”.
NULL削除部18は、意味ラベルとして「NULL」が付与された機能表現を削除する。「NULL」が付与されているということは、述部の意味に影響を与える機能表現として機能語意味ラベル辞書に定められていない語であり、かつ意味的には重要ではないが、周辺の単語によっては文法的に必要な要素である「Grammar」というカテゴリにも分類されないことを示している。このような機能表現は、削除しても問題ないため、削除する。
The
冗長ルール適用部20は、同一の意味ラベルが付与された機能表現については、1つを残して削除する。これにより、不要な機能表現を削除して、述部の冗長性を解消する。図6に、NULL削除及び冗長ルール適用後の一例を示す。なお、冗長ルールの適用は、機能表現単位で行う。このため、図6の例で、「知れ」及び「ない」は、同一の意味ラベルが付与されているが、各々「かも知れない」という機能表現の一部であるため、削除されない。
The redundancy
Ngram文法性判断部22は、「Grammar」に属する機能表現のうち、どの機能表現が必要で、どの機能表現が不要かを判断する。Ngram文法性判断部22は、図7に示すように、文法性判断の対象となる機能表現を残す場合及び除く場合の全ての組み合わせ候補を作成する候補生成部22aと、形態素Ngramモデル22b及び品詞Ngramモデル22cに基づいて、生成された候補毎にNgramスコアを計算するNgram計算部22dと、Ngramスコアに基づいて、候補の中から1つを選択する選択部22eと、を含んだ構成で表すことができる。
The Ngram
候補生成部22aは、NULL削除部18及び冗長ルール適用部20により不要な機能表現が削除された述部について、意味ラベル付与・述部抽出部16で「Grammar」に属する機能表現として、「判断」及び「名詞化」の意味ラベルが付与された機能語を残した述部の形態素列の候補、及び対象の機能語を除いた述部の形態素列の候補について、全ての組み合わせ候補を作成する。ここでは、「な(判断)」及び「の(名詞化)」が、対象の機能語となっているため、いずれも削除した「苦手/かも/知れ/ない」、「な」を削除し「の」を残した「苦手/の/かも/知れ/ない」、「の」を削除し「な」を残した「苦手/な/かも/知れ/ない」、いずれも残した「苦手/な/の/かも/知れ/ない」が候補として生成される。
The candidate generation unit 22a uses the semantic label assignment /
形態素Ngramモデル22b及び品詞Ngramモデル22c(以下、この2つのモデルをまとめて、または区別することなく説明する場合には、単に「Ngramモデル」ともいう。)は、入力された単語の並びに、確率を基にした「単語列としての尤もらしさ」のスコアを与えるためのモデルである(例えば、「北研二、中村哲、永田昌明「音声言語処理−コーパスに基づくアプローチ」、森北出版、2.4章」参照)。任意の単語数を持つ並びのスコアを計算するため、Ngramモデルでは、N個の単語の並び(これをNgramと呼び、N=3のときをTrigramと呼ぶ)から単語の生成確率を取得し、単語列全体について、この総積を計算することで算出される。本実施の形態では、確率の対数値をスコアと呼び、入力の単語列全体のスコアをNgramスコアと呼ぶ。また、個々のNgramの生成確率は、予めコーパスから学習しておく。
The
Ngramスコア計算部22dは、候補生成部22aで生成された各候補について、Ngramモデルを用いてNgramスコアを計算する。本実施の形態のように、2つ以上のNgramモデルを用いて1つのNgramスコアを計算する場合には、例えば、下記(1)式によりNgramスコアを計算することができる。
The Ngram
logP=αlogPa+(1−α)logPb ・・・(1) logP = αlogP a + (1−α) logP b (1)
ただし、logPは、最終的な「単語列としての尤もらしさ」を表すNgramスコア、logPaは形態素Ngramモデル22bから算出したNgramスコア、logPbは品詞Ngramモデル22cから算出したNgramスコアであり、αは両者の混合率である。このNgramスコアを用いて、「Grammar」に属する機能表現の文法性判断を行う。
Where logP is the Ngram score representing the final “likelihood as a word string”, logP a is the Ngram score calculated from the
ここで、本実施の形態における「Grammar」に属する機能表現の文法性判断の原理について説明する。 Here, the principle of the grammatical judgment of the function expression belonging to “Grammar” in the present embodiment will be described.
入力単語列が形態素解析済みである場合、単に形態素の表層形だけを用いてNgramスコアを計算するより、形態素の品詞、活用型などの情報も使用してNgramスコアを計算する方が、より正確に「単語列としての尤もらしさ」を計算することができる。例えば、従来の形態素Ngramモデルでは、形態素の表層形、品詞、活用型をまとめたものを擬似単語としてNgramモデルを構築し、品詞Ngramモデル22cでは、形態素の品詞、活用型をまとめたものを擬似単語としてNgramモデルを構築し、両者のNgramスコアを適当な混合率αで補完し、(1)式を用いて最終的なNgramスコアを計算することができる。図8に、N=3の場合の従来の形態素Ngramモデルの一例、図9にN=3の場合の品詞Ngramモデル22cの一例を示す。 If the input word string has already been morphologically analyzed, it is more accurate to calculate the Ngram score using information such as the morpheme part of speech and the utilization type rather than simply using the surface form of the morpheme. The “probability as a word string” can be calculated. For example, in the conventional morpheme Ngram model, an Ngram model is constructed using a combination of the morpheme surface form, part of speech, and utilization type as a pseudo word, and in the part of speech Ngram model 22c, a combination of morpheme part of speech and utilization type is simulated. An Ngram model is constructed as a word, both Ngram scores are complemented with an appropriate mixing ratio α, and a final Ngram score can be calculated using the equation (1). FIG. 8 shows an example of a conventional morpheme Ngram model when N = 3, and FIG. 9 shows an example of a part-of-speech Ngram model 22c when N = 3.
機械翻訳で使用される言語モデルなどでは、この従来の形態素Ngramモデルと品詞Ngramモデル22cとを適当な混合率(例えば、α=0.8、すなわちモデルa:モデルb=0.8:0.2)を用いて、Ngramスコアを計算する。しかし、本実施の形態が目的とする機能表現の文法性判断に、この手法を適用すると、図10に示すように、混合率によって、述部の言い換え精度のばらつきが大きくなる。 In a language model used in machine translation, the conventional morpheme Ngram model and part-of-speech Ngram model 22c are combined with an appropriate mixing ratio (for example, α = 0.8, that is, model a: model b = 0.8: 0. 2) is used to calculate the Ngram score. However, when this method is applied to the grammatical judgment of the functional expression targeted by the present embodiment, the predicate paraphrase accuracy varies greatly depending on the mixing ratio, as shown in FIG.
より正しく文法性を判断するには、表層形を要素に含んだ従来の形態素Ngramモデルの割合を上げることが的確であるが、機能表現の文法性判断の場合、従来の形態素Ngramモデルの混合率を高くすると(すなわち、αを1に近付けると)、精度が低下する。これは、述部の内容語が悪影響を及ぼしているものと考えられる。本発明で対象とする述部には内容語も含まれているが、内容語は同一の意味を示す異なった表層形の数が機能語よりも多いため、従来の形態素Ngramモデルのスコアにばらつきが生じる。これはNgram確率を学習する際のデータが不十分なため、正しくスコア計算ができないことが原因である。しかし、これらの問題に直面せずに正しく学習を行うためには、大量の学習データが必要となる。 In order to judge grammaticality more correctly, it is appropriate to increase the ratio of the conventional morpheme Ngram model that includes the surface form element, but in the case of grammatical judgment of functional expression, the mixing ratio of the conventional morpheme Ngram model When the value is increased (that is, when α is brought close to 1), the accuracy decreases. This is considered to be because the content word of the predicate has an adverse effect. The predicates targeted by the present invention also include content words, but the content words have more surface layer forms that have the same meaning than the function words, so the scores of the conventional morpheme Ngram model vary. Occurs. This is because the score cannot be calculated correctly because of insufficient data when learning the Ngram probability. However, in order to perform learning correctly without facing these problems, a large amount of learning data is required.
そこで、本実施の形態では、機能表現の文法性判断を行う際のNgramスコア計算において、機能表現を構成する機能語については表層形を要素に含めた擬似単語、機能語以外の単語については表層形を要素に含めない擬似単語により構築されたNgramモデル(形態素Ngramモデル22b)を使用する。これにより、文法性判断を行いたい機能表現については、表層形を要素に含めることで重要な情報をNgramモデルに残して、Ngramモデルの精度を向上させることができ、一方、文法性判断にあまり影響を与えず、表層形のばらつきが大きい内容語については、表層形を要素から除くことで、Ngramモデルの精度低下を回避することができる。
Therefore, in the present embodiment, in the Ngram score calculation when the grammatical judgment of the functional expression is performed, a pseudo word including a surface form as an element for a functional word constituting the functional expression, and a surface layer for a word other than the functional word An Ngram model (
図11に、本実施の形態における形態素Ngramモデル22bの一例を示す。どの種類の形態素の表層形を用いるかは、文法性判断を行いたい箇所により決める。ここでは、品詞の中でも、「助詞、助動詞、フィラー、その他、記号、非自立、特殊、接尾、接続詞的、動詞非自立的」という種類が品詞の中に入っていた場合を機能語とし、これらの表層形は形態素Ngramモデル22bの要素として用いる。図11に示すように、「動詞−自立」や「形容詞−自立」のような内容語の表層形は「*」に統一し、「助動詞」や「助詞」に属する形態素に関しては表層形も要素として用いる。機能語は内容語に比べ種類が少ないため、限られたデータ数でも学習ができ、かつ機能語の表層形の並びも形態素Ngramモデル22bに加えることができる。これらの擬似単語を用いて、形態素Ngramモデル22bを、既存の学習ツールを使用して学習する。また、品詞Ngramモデル22cについても、品詞及び活用型を要素とする擬似単語を用いて、既存の学習ツールを使用して学習する。
FIG. 11 shows an example of a
図12に示すように、本実施の形態のNgramモデルを用いることで、混合率による精度のばらつきを抑え、言い換え精度を高く保持できることが分かる。 As shown in FIG. 12, it can be seen that by using the Ngram model of the present embodiment, variation in accuracy due to the mixing ratio can be suppressed, and paraphrase accuracy can be maintained high.
そして、このNgramモデルを用いてNgramスコアを計算する際には、形態素Ngramモデル22bに基づくスコアの算出では、学習時と同様に、機能語については表層形を要素に含め、機能語以外の単語については表層形を要素に含めずにスコアを算出する。
Then, when calculating the Ngram score using this Ngram model, in the calculation of the score based on the
また、Ngramスコア計算部22dは、候補生成部22aで生成された各候補の末尾に句点「。」を付け加えた上で、Ngramモデルを用いて各候補のNgramスコアを計算する。各候補の末尾に句点「。」を付けるのは、「文末(すなわち、終止形)で現れる述部の中で一番尤もらしい単語の並び」を見るためである。図13に、候補毎に計算されたNgramスコアの一例を示す。
In addition, the Ngram
選択部22eは、Ngramスコア計算部22dにより計算された各候補のNgramスコアに基づいて、Ngramスコアが最も高い候補を選択し、選択した候補を構成する形態素列を出力する。図13の例では、「Grammar」に属する全ての機能語が削除された「苦手/かも/知れ/ない」が、Ngramスコアが最も高い候補であるため、この候補を選択する。これにより、「彼は歌が苦手なのかも知れないね。」という入力文書の述部に対して、最も単純かつ文法的に正しい言い換え表現である「苦手かも知れない」の組み合わせが出力される。
The
活用生成部24は、選択部22eから出力された形態素列の全ての要素を正しく活用させて、最終的な述部を生成する。本実施の形態では、言語モデルによる活用生成器を使用する。これは、予め正解データより、前方の単語の表層形・品詞・活用型と後方の単語の表層形・品詞を素性として「どの接続が尤もらしいか」を学習したモデルによる生成器である。この言語モデルに基づいて、新しく前後の単語の表層形・品詞・活用型が入力された際に、最適な表記を生成する。ここでは、この言語モデルによる活用生成器に形態素列「苦手/名詞−形容動詞語幹」、「かも/助詞−副助詞」、「知れ/動詞−自立/一段」、「ない/助動詞/特殊・ナイ」を入力し、正しく接続された述部である「苦手かも知れない」を生成する。
The
次に、図14を参照して、本実施の形態の述部正規化装置10において実行される述部正規化処理ルーチンについて説明する。
Next, a predicate normalization processing routine executed in the
ステップ100で、入力された文書に対して、公知の形態素解析器を用いて一文毎に形態素解析を行い、文を単語単位に分割し、各単語に品詞や活用型、活用形などの情報を付与する。ここでは、入力文書に含まれた一文の例として、「主役は彼のようだね」について説明する。
In
次に、ステップ102で、意味ラベル・述部モデル14を用いた統計的手法により、上記ステップ100での形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。ここでは、「彼」を内容語とし、「の/よう/だ/ね」の4つの機能表現を含む「彼のようだね」が述部として抽出される。機能表現のうち、「の」に「Grammar」に属する意味ラベル「名詞化」が付与され、「だ」に「Grammar」に属する意味ラベル「判断」が付与される。また、「ね」には意味ラベル「NULL」が付与される。
Next, in
次に、ステップ104で、上記ステップ102で、意味ラベルとして「NULL」が付与された機能表現を削除する。ここでは、「ね」が削除される。
Next, in
次に、ステップ106で、上記ステップ102で付与された意味ラベルを参照して、同一の意味ラベルが付与された機能表現は、1つを残して削除する。ここでは、該当する機能表現はないため、そのままステップ108へ移行する。図15に示すように、上記ステップ104及び106の処理を経て、述部は「彼/の/よう/だ」となる。
Next, in
次に、ステップ108で、上記ステップ104及び106の処理を経て、不要な機能表現が削除された述部について、上記ステップ102で「Grammar」に属する機能表現として、「判断」及び「名詞化」の意味ラベルが付与された機能表現を残した述部の形態素列の候補、及び対象の機能表現を除いた述部の形態素列の候補について、全ての組み合わせ候補を作成する。ここでは、「の(名詞化)」及び「だ(判断)」が、対象の機能表現となっているため、いずれも削除した「彼/よう」、「だ」を削除し「の」を残した「彼/の/よう」、「の」を削除し「だ」を残した「彼/よう/だ」、いずれも残した「彼/の/よう/だ」が候補として生成される。
Next, in
次に、ステップ110で、上記ステップ108で生成した候補の各々の末尾に句点「。」を付け加えた上で、各候補毎に、機能語については形態素の表層形を要素に含めて、機能語以外の語は表層形を要素に含めずに、形態素Ngramモデル22bに基づいてスコアlogPaを算出し、また、各単語の品詞及び活用型を要素として、品詞Ngramモデル22cに基づいてスコアlogPbを算出し、上記(1)式に従ってNgramスコアを計算する。図16に、各候補のNgramスコアを示す。
Next, in
次に、ステップ112で、上記ステップ110で計算した各候補のNgramスコアに基づいて、Ngramスコアが最も高い候補を選択し、選択した候補を構成する形態素列を出力する。ここでは、「彼/の/よう/だ」が選択される。
Next, in
次に、ステップ114で、上記ステップ112で選択した形態素列の全ての要素を正しく活用させて、最終的な述部を生成する。これにより、「主役は彼のようだね。」という入力に対して、最も単純かつ文法的に正しい言い換え表現である「彼のようだ。」の組み合わせが出力される。結果、述部が「彼のようだね」から「彼のようだ」に正規化される。
Next, in
以上説明したように、本実施の形態の述部正規化装置によれば、述部の意味には影響を与えないが、周辺の単語によっては日本語の文法として必要となりうる機能表現に「Grammar」というカテゴリを与えて、「Grammar」に属する機能表現を含む場合、除いた場合の各々について、Ngramモデルを用いて単語列としての尤もらしさを示すNgramスコアを計算し、Ngramスコアが高くなるように「Grammar」に属する機能表現を残したり、削除したりするため、単純かつ文法的に正しい述部の言い換えを行うことができる。また、Ngramモデルを使用する際に、形態素Ngramモデルと品詞Ngramモデルとを用いるが、形態素Ngramモデルでは、機能語については形態素の表層形を要素とし、機能語以外の単語では表装形を要素としないため、述部に含まれる内容語の表層形のばらつきによるNgramスコアの揺れを抑えつつ、機能表現の表層形は文法性判断の基準として用いることができ、高精度の文法性判断を行うことができる。 As described above, according to the predicate normalization apparatus of the present embodiment, the meaning of the predicate is not affected, but depending on the surrounding words, “Grammar” can be expressed as a functional expression that may be required as a Japanese grammar. ”, And when the functional expression belonging to“ Grammar ”is included, the Ngram score indicating the likelihood as a word string is calculated using the Ngram model for each of the removed cases so that the Ngram score becomes high Since the function expression belonging to “Grammar” is left or deleted, the predicate paraphrase can be simply and grammatically correct. In addition, when using the Ngram model, the morpheme Ngram model and the part-of-speech Ngram model are used. In the morpheme Ngram model, the surface form of the morpheme is used as an element for a function word, and the appearance form is used as an element for a word other than the function word. Therefore, the surface form of the functional expression can be used as a grammatical judgment criterion while suppressing the fluctuation of the Ngram score due to the variation of the surface form of the content word contained in the predicate, and the grammatical judgment can be made with high accuracy. Can do.
また、テキストマイニングなどで行われている述部のまとめ上げや、機械翻訳、要約といった自然言語処理技術の前処理として、本実施の形態で正規化された述部を使用することができ、これらの処理の精度を向上させることができる。 In addition, the predicates normalized in the present embodiment can be used as preprocessing of natural language processing techniques such as predicate compilation performed in text mining, machine translation, summarization, etc. The accuracy of the process can be improved.
なお、上記実施の形態では、「Grammar」に属する機能表現の文法性判断に、形態素Ngramモデルと品詞Ngramモデルとをあわせて用いる場合について説明したが、形態素Ngramのみを用いて判断してもよい。 In the above embodiment, the case where the morpheme Ngram model and the part-of-speech Ngram model are used together to determine the grammatical property of the functional expression belonging to “Grammar” has been described, but the determination may be made using only the morpheme Ngram. .
また、上記実施の形態では、形態素Ngramモデルは、表層形(機能語のみ)、品詞及び活用型を要素とし、品詞Ngramモデルは、品詞及び活用型を要素とする場合について説明したが、品詞及び活用型に替えて、または加えて、形態素の他の要素、例えば、標準形や活用形等を要素として用いてもよい。 In the above embodiment, the morpheme Ngram model has the surface layer form (only function words), the part of speech and the inflection type as elements, and the part of speech Ngram model has been described with the part of speech and the inflection type as elements. Instead of or in addition to the utilization type, other elements of the morpheme, for example, a standard form or a utilization form may be used as an element.
また、上記実施の形態では、「Grammar」に属する機能表現を、助詞の「の」及び助動詞の「だ」とする場合について説明したが、これ以外の機能語を「Grammar」に属する機能表現として登録し、新しい意味ラベルを付与してもよい。また、非特許文献1のようにルールを用いて、「Grammar」に属する意味ラベルが付与され、かつモダリティに属する機能表現が前または後に存在する場合のみ、本実施の形態の文法性判断の対象とするような制限を加えてもよい。
In the above embodiment, the case where the functional expression belonging to “Grammar” is the particle “no” and the auxiliary verb “da” has been described, but other function words are assumed to be functional expressions belonging to “Grammar”. You may register and give a new semantic label. In addition, as in
また、上記実施の形態では、意味ラベル付与・述部抽出部において、学習された意味ラベル・述部モデルを用いて、機能表現への意味ラベルの付与及び述部の抽出を行う場合について説明したが、形態素解析の結果に対して、機能語意味ラベル辞書に基づいて意味ラベルを付与した上で、予め定めた述部抽出のルールに従って述部を抽出するようにしてもよい。 In the above embodiment, the case where the semantic label assignment / predicate extraction unit performs the assignment of the semantic label to the functional expression and the extraction of the predicate using the learned semantic label / predicate model has been described. However, a predicate may be extracted according to a predetermined predicate extraction rule after giving a semantic label to the result of morphological analysis based on a function word semantic label dictionary.
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.
10 述部正規化装置
12 形態素解析部
14 意味ラベル・述部モデル
16 意味ラベル付与・述部抽出部
18 NULL削除部
20 冗長ルール適用部
22 Ngram文法性判断部
22a 候補生成部
22b 形態素Ngramモデル
22c 品詞Ngramモデル
22d Ngramスコア計算部
22e 選択部
24 活用生成部
DESCRIPTION OF
Claims (5)
前記形態素解析手段による形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与するラベル付与手段と、
前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算する計算手段と、
前記計算手段により計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する生成手段と、
を含む述部正規化装置。 Morphological analysis means for morphological analysis of the input document;
Based on the result of the morpheme analysis by the morpheme analysis means, the grammatical necessity is different for each functional expression that is included in the predicate of the document and has different grammatical necessity depending on the words existing in the vicinity. Label giving means for giving a determination label indicating that;
Before excluding each of the morpheme sequence constituting the previous description part when at least one of the functional expressions to which the determination label is assigned is included in the previous description part, and the functional expression to which the determination label is assigned For each of the morpheme strings that make up the description part, based on the morpheme N-gram model constructed with pseudo-words that have the surface form of the morpheme as an element for the function word and the surface layer form for the word other than the function word Calculating means for calculating a score indicating whether the functional expression to which the determination label is given is grammatically necessary;
Generating means for generating a normalized predicate from a morpheme sequence selected based on the score calculated by the calculating means;
Predicate normalization device containing
前記計算手段は、前記ラベル付与手段により不要ラベルが付与された機能表現、及び同一の意味ラベルが付与された機能表現の各々の少なくとも1つ以外の機能表現を削除した述部を用いて、前記スコアを算出する請求項1または請求項2記載の述部正規化装置。 The label assigning means includes the determination label and an unnecessary label indicating that the functional expression is semantically and grammatically unnecessary, and whether or not the functional expression affects the meaning of the previous description part. A semantic label is assigned to each functional expression included in the preceding description part,
The calculation means uses the predicate in which the function expression to which the unnecessary label is assigned by the label assignment means and the function expression other than each of the function expressions to which the same semantic label is assigned is deleted, The predicate normalization apparatus according to claim 1 or 2, wherein a score is calculated.
入力された文書を形態素解析し、
形態素解析の結果に基づいて、前記文書の述部に含まれると共に、周辺に存在する単語によって文法的な必要性が異なる機能表現の各々に、前記文法的な必要性が異なることを示す判定ラベルを付与し、
前記判定ラベルが付与された機能表現の少なくとも1つを前記述部に含ませた場合の前記述部を構成する形態素列、及び前記判定ラベルが付与された機能表現の各々を除いた場合の前記述部を構成する形態素列の各々について、機能語については形態素の表層形を要素とし、前記機能語以外の語については前記表層形を要素としない擬似単語により構築された形態素Nグラムモデルに基づいて、前記判定ラベルが付与された機能表現が文法的に必要か否かを示すスコアを計算し、
計算されたスコアに基づいて選択された形態素列から、正規化された述部を生成する
ことを含む処理を実行させる述部正規化方法。 On the computer,
Morphological analysis of the input document,
Based on the result of morphological analysis, a determination label indicating that the grammatical necessity is different for each functional expression included in the predicate of the document and having different grammatical necessity depending on words existing in the vicinity And grant
Before excluding each of the morpheme sequence constituting the previous description part when at least one of the functional expressions to which the determination label is assigned is included in the previous description part, and the functional expression to which the determination label is assigned For each of the morpheme strings that make up the description part, based on the morpheme N-gram model constructed with pseudo-words that have the surface form of the morpheme as an element for the function word and the surface layer form for the word other than the function word Calculating a score indicating whether or not the functional expression to which the determination label is given is grammatically necessary,
Generate normalized predicates from morpheme sequences selected based on the calculated score
Predicate normalization method for executing processing including the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011066653A JP5585961B2 (en) | 2011-03-24 | 2011-03-24 | Predicate normalization apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011066653A JP5585961B2 (en) | 2011-03-24 | 2011-03-24 | Predicate normalization apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012203584A JP2012203584A (en) | 2012-10-22 |
JP5585961B2 true JP5585961B2 (en) | 2014-09-10 |
Family
ID=47184547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011066653A Active JP5585961B2 (en) | 2011-03-24 | 2011-03-24 | Predicate normalization apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5585961B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6373198B2 (en) * | 2015-01-28 | 2018-08-15 | 日本電信電話株式会社 | Text conversion apparatus, method, and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004110673A (en) * | 2002-09-20 | 2004-04-08 | Nippon Telegr & Teleph Corp <Ntt> | Text style conversion method, text style conversion device, text style conversion program, and storage medium storing the text style conversion program |
JP3768205B2 (en) * | 2003-05-30 | 2006-04-19 | 沖電気工業株式会社 | Morphological analyzer, morphological analysis method, and morphological analysis program |
JP5370680B2 (en) * | 2010-01-14 | 2013-12-18 | 日本電信電話株式会社 | Predicate function expression normalization method, apparatus and program thereof |
-
2011
- 2011-03-24 JP JP2011066653A patent/JP5585961B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012203584A (en) | 2012-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Soudi et al. | Arabic computational morphology: knowledge-based and empirical methods | |
Candito et al. | Statistical French dependency parsing: treebank conversion and first results | |
Lee et al. | Automatic grammar correction for second-language learners. | |
Çöltekin | A set of open source tools for Turkish natural language processing. | |
CN103154936A (en) | Methods and systems for automated text correction | |
Zaninello et al. | Multiword expression aware neural machine translation | |
Gahbiche-Braham et al. | Joint Segmentation and POS Tagging for Arabic Using a CRF-based Classifier. | |
Eskander et al. | Creating resources for Dialectal Arabic from a single annotation: A case study on Egyptian and Levantine | |
Hamdi et al. | The effects of factorizing root and pattern mapping in bidirectional Tunisian-standard Arabic machine translation | |
JP2011145844A (en) | Predicate functional expression normalization method, device and program thereof | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
Boudchiche et al. | Spline functions for Arabic morphological disambiguation | |
Singha et al. | Part of speech tagging in Manipuri with hidden markov model | |
Moore et al. | Incremental dependency parsing and disfluency detection in spoken learner English | |
JP5585961B2 (en) | Predicate normalization apparatus, method, and program | |
Hellwig | Morphological disambiguation of classical Sanskrit | |
Flannery et al. | A pointwise approach to training dependency parsers from partially annotated corpora | |
Sajjad | Statistical part of speech tagger for Urdu | |
Rauf et al. | Automated grammatical error correction: A comprehensive review | |
Yu et al. | Machine translation evaluation metric based on dependency parsing model | |
Kof et al. | Faster from Requirements Documents to System Models: Interactive Semi-Automatic Translation with a tool that is learning on the fly | |
Tufiş et al. | Tiered tagging revisited | |
Gökırmak et al. | A free/open-source rule-based machine translation system for Crimean Tatar to Turkish | |
Wróblewska | Towards the Conversion of National Corpus of Polish to Universal Dependencies | |
Ehsan et al. | Statistical Machine Translation as a Grammar Checker for Persian Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20121001 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20121001 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20121002 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130925 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130925 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140401 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140617 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5585961 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |