JP2010102521A - Dictionary creation device, dictionary creation method, dictionary creation program and recording medium recorded with the same program - Google Patents
Dictionary creation device, dictionary creation method, dictionary creation program and recording medium recorded with the same program Download PDFInfo
- Publication number
- JP2010102521A JP2010102521A JP2008273683A JP2008273683A JP2010102521A JP 2010102521 A JP2010102521 A JP 2010102521A JP 2008273683 A JP2008273683 A JP 2008273683A JP 2008273683 A JP2008273683 A JP 2008273683A JP 2010102521 A JP2010102521 A JP 2010102521A
- Authority
- JP
- Japan
- Prior art keywords
- training
- weight
- learning
- creating
- predicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、自然言語で表現された質問に対しコンピュータが回答する質問応答システム、情報検索システム、情報抽出システム、自動要約システム、自動翻訳システム、自動言い換えシステム、音声認識システムなどに用いられる辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体に関するものである。 The present invention provides a dictionary for use in a question answering system in which a computer answers a question expressed in a natural language, an information retrieval system, an information extraction system, an automatic summarization system, an automatic translation system, an automatic paraphrasing system, a speech recognition system, etc. The present invention relates to a device, a dictionary creation method, a dictionary creation program, and a recording medium on which the dictionary creation program is recorded.
従来の言語処理装置では、述語の格フレームに対し確率モデルを仮定し、格フレームの正解が人手で付与されているコーパスデータを用いて機械学習を行い、確率モデルのパラメータを推定し、決定された確率モデルを用いて、最も尤度の高い項構造を出力する装置が提案されている(例えば、非特許文献1を参照)。この方法は、文中で、述語がどの単語であるか、その述語に対する項がどの単語であるかが与えられた場合に、その単語の意味属性をどのレベルにした格フレームが情報論的に表現力の高いルールであるかを調べる方法であり、与えられたテキストに対する項の認定、ゼロ代名詞解析については扱っていない。 In a conventional language processing device, a probabilistic model is assumed for the case frame of the predicate, machine learning is performed using corpus data in which the correct answer of the case frame is manually assigned, and the parameters of the probability model are estimated and determined. An apparatus that outputs the most likely term structure using a probabilistic model has been proposed (see, for example, Non-Patent Document 1). In this method, when a predicate is a word in a sentence and a word for a term for the predicate is given, the case frame with the level of the semantic attribute of the word is expressed in information theory. It is a method to check whether the rule is powerful. It does not deal with term recognition or zero pronoun analysis for a given text.
また、非特許文献2に開示されているように大量のテキストコーパスを用いて、確率モデルを学習して、格解析を行い、述語項構造を決定する手法が提案されているが、この方法では、述語が含まれる文とは異なる文に項が現れるゼロ代名詞については扱っていない。
Further, as disclosed in
また、ゼロ代名詞の同定方法については非特許文献3に記載されている。
従来の述語項構造を出力する言語処理装置では、辞書に格フレーム情報が登録されていても、複数の動詞、名詞の用法が存在する場合、どの用法についての格情報を用いて解析を行うかについては、明確な基準がなく、人手に頼った調整が必要であり、その調整は、非常に労力を要し、かつ調整によって解析精度を向上させるような調整方法を見つけることは困難であった。 In a conventional language processing device that outputs a predicate term structure, even if case frame information is registered in the dictionary, if there are multiple verb and noun usages, which usage case information is used for analysis There is no clear standard, and manual adjustment is necessary. The adjustment is very labor intensive, and it is difficult to find an adjustment method that improves the analysis accuracy by adjustment. .
そこで、非特許文献2では、大規模なテキストコーパスから述語項構造の確率モデルを自動的に構築する方法が提案されている。しかしながら、この方法では、述語が含まれる文とは異なる文に項が現れるゼロ代名詞については扱っておらず、複数の文が与えられたとき、高い精度の述語項構造解析を行うことが困難であった。
Therefore, Non-Patent
また、非特許文献3では、ゼロ代名詞の同定方法を扱っているが、述語項構造解析は扱っていない。また、述語が名詞化され、複合名詞の中に存在するような場合についても扱われていない。ゼロ代名詞や複合名詞の問題は、述語項構造解析を行う上で、相互に影響しあい、順番に扱っても全体的な述語項構造解析精度はかえって下がってしまう恐れがある。
ゼロ代名詞、複合名詞を含めて述語項構造解析を統一的に扱う方法は従来無かった。 There has been no method to handle predicate term structure analysis in a unified manner including zero pronouns and compound nouns.
本発明は上記課題を解決するものであり、その目的は、項を判定するための項判定規則を高精度で自動学習することができるとともに、ゼロ代名詞や複合名詞を含めた述語項構造解析を統一的に扱うことができる辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体を提供することにある。 The present invention solves the above-mentioned problems, and its purpose is to automatically learn a term decision rule for judging a term with high accuracy and to perform predicate term structure analysis including zero pronouns and compound nouns. An object is to provide a dictionary creation device, a dictionary creation method, a dictionary creation program, and a recording medium on which the dictionary creation program is recorded, which can be handled in a unified manner.
上記課題を解決するために、本発明は、述語および動作性名詞に対して、正解の項構造が人手でタグ付けされたテキストに基づいて、機械学習手法を用いることにより、述語または動作性名詞と、テキストに含まれる語の基本形、品詞、意味カテゴリ、機能語であるか否か、記号であるか否か、および文節間の係り受け関係、述語の態等の情報から、述語または動作性名詞(以下、まとめて「述語」と呼ぶ)に対する項を判定するための項判定規則を自動学習し出力するように構成した。 In order to solve the above-mentioned problems, the present invention provides a predicate or a behavioral noun by using a machine learning method based on a text in which a correct term structure is manually tagged for a predicate and a behavioral noun. Predicate or operability based on the basic form, part of speech, semantic category, whether it is a functional word, whether it is a symbol, whether it is a symbol, dependency between clauses, predicate state, etc. A term decision rule for judging a term for a noun (hereinafter collectively referred to as a “predicate”) is automatically learned and output.
すなわち、請求項1に記載の辞書作成装置は、述語又は動作性名詞に対して正解の項構造が付与された自然言語で記載された解析対象のテキストと、該テキストを構文・意味解析した結果である、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態とが格納された構文・意味解析結果テーブルと、前記構文・意味解析結果テーブルを参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブルを作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブルを作成する訓練データ作成手段と、前記訓練ベクトルテーブルを用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブルに追加して重みテーブルを作成する重み学習手段と、前記重みテーブルを参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則として出力する項判定規則作成手段とを備え、前記出力された項判定規則を辞書とすることを特徴としている。
That is, the dictionary creation apparatus according to
また請求項2に記載の辞書作成装置は、述語又は動作性名詞に対して正解の項構造が付与された自然言語で記載された解析対象のテキストを構文解析し、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態を解析し、構文・意味解析結果テーブルを作成する構文・意味解析手段と、前記構文・意味解析結果テーブルを参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブルを作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブルを作成する訓練データ作成手段と、前記訓練ベクトルテーブルを用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブルに追加して重みテーブルを作成する重み学習手段と、前記重みテーブルを参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則として出力する項判定規則作成手段とを備え、前記出力された項判定規則を辞書とすることを特徴としている。
Further, the dictionary creation device according to
また請求項3に記載の辞書作成装置は、請求項1又は2において、前記訓練データ作成手段は、前記訓練ベクトルとともに教師変数を訓練ベクトルテーブルに格納し、前記重み学習手段は、前記訓練ベクトルテーブルに記載された訓練ベクトルおよび教師変数に対して、正例側と負例側を分割する2つの平行な超平面の距離が最大となる超平面を求め、該求められた超平面に基づいて機械学習手法を用いて重みを学習することを特徴としている。
The dictionary creation device according to
また、請求項4に記載の辞書作成方法は、述語又は動作性名詞に対して正解の項構造が付与された自然言語で記載された解析対象のテキストと、該テキストを構文・意味解析した結果である、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態とが格納された構文・意味解析結果テーブルを備えた装置における辞書作成方法であって、訓練データ作成手段が、前記構文・意味解析結果テーブルを参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブルを作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブルを作成するステップと、重み学習手段が、前記訓練ベクトルテーブルを用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブルに追加して重みテーブルを作成する重み学習ステップと、項判定規則作成手段が、前記重みテーブルを参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則として出力するステップとを実行し、前記出力された項判定規則を辞書とすることを特徴としている。
Further, the dictionary creation method according to
また請求項5に記載の辞書作成方法は、構文・意味解析手段が、述語又は動作性名詞に対して正解の項構造が付与された自然言語で記載された解析対象のテキストを構文解析し、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態を解析し、構文・意味解析結果テーブルを作成するステップと、訓練データ作成手段が、前記構文・意味解析結果テーブルを参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブルを作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブルを作成するステップと、重み学習手段が、前記訓練ベクトルテーブルを用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブルに追加して重みテーブルを作成する重み学習ステップと、項判定規則作成手段が、前記重みテーブルを参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則として出力するステップとを実行し、前記出力された項判定規則を辞書とすることを特徴としている。
Further, in the dictionary creation method according to
また請求項6に記載の辞書作成方法は、請求項4又は5において、前記訓練データ作成手段が、前記訓練ベクトルとともに教師変数を訓練ベクトルテーブルに格納するステップを有し、前記重み学習ステップは、前記訓練ベクトルテーブルに記載された訓練ベクトルおよび教師変数に対して、正例側と負例側を分割する2つの平行な超平面の距離が最大となる超平面を求め、該求められた超平面に基づいて機械学習手法を用いて重みを学習することを特徴としている。
In addition, the dictionary creation method according to
また、請求項7に記載の辞書作成プログラムは、コンピュータを請求項1乃至3のいずれか1項に記載の各手段として機能させる辞書作成プログラムである。 A dictionary creation program according to a seventh aspect is a dictionary creation program that causes a computer to function as each means according to any one of the first to third aspects.
また、請求項8に記載の記録媒体は、請求項7に記載の辞書作成プログラムを記録したコンピュータ読み取り可能な記録媒体である。 A recording medium according to an eighth aspect is a computer-readable recording medium in which the dictionary creating program according to the seventh aspect is recorded.
上記構成によれば、正解の項構造が人手でタグ付けされたテキストに対し、述語または動作性名詞と、テキストに含まれる語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態等の情報から、述語または動作性名詞に対する項を判定するための項判定規則を自動学習し出力することができる利点がある。 According to the above configuration, for text that is tagged manually with the correct term structure, the predicate or behavioral noun, the basic form of the word included in the text, the part of speech, the semantic category, and the dependency relationship between clauses, predicate There is an advantage that a term determination rule for determining a term for a predicate or a behavioral noun can be automatically learned and output from information such as the state of.
本発明によれば次のような優れた効果が得られる。
(1)高精度で項を判定するための項判定規則を自動学習することができる。
(2)述語が含まれる文とは異なる文に項が現れるゼロ代名詞や複合名詞を含めて項判定規則を自動学習することができる。したがって、本発明で作成した辞書を用いることで、ゼロ代名詞や複合名詞を含めた述語項構造解析を統一的に扱うことができる。
According to the present invention, the following excellent effects can be obtained.
(1) A term determination rule for determining a term with high accuracy can be automatically learned.
(2) The term decision rule can be automatically learned including zero pronouns and compound nouns in which terms appear in a sentence different from the sentence containing the predicate. Therefore, by using the dictionary created in the present invention, predicate term structure analysis including zero pronouns and compound nouns can be handled uniformly.
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の一実施形態例における辞書作成装置1の構成を示すブロック図であり、図2は図1の装置の動作を示すフローチャートである。
Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments. FIG. 1 is a block diagram showing a configuration of a
図1において、2は、述語又は動作性名詞に対して人手で正解の項構造が付与された自然言語で記載された訓練用テキスト(解析対象のテキスト)と、該テキストを構文・意味解析した結果である、テキストに含まれる単語の基本形、品詞、意味カテゴリ、機能語であるか否か、記号であるか否か、および文節間の係り受け関係、述語の態とが格納された構文・意味解析結果テーブルである。 In FIG. 1, 2 is a training text (text to be analyzed) written in a natural language in which a correct term structure is manually added to a predicate or an action noun, and the text is subjected to syntax and semantic analysis. The result is a syntax that contains the basic form of the word contained in the text, part of speech, semantic category, whether it is a functional word, whether it is a symbol, the dependency between clauses, and the state of the predicate. It is a semantic analysis result table.
機能語であるか否か、および記号であるか否かの情報は、あらかじめ構文・意味解析結果テーブル2に格納しておいても良いし、構文・意味解析結果テーブル2には格納せず、単語の基本形と品詞の情報から必要に応じて動的に算出して利用することとしても良い。 Information regarding whether or not it is a function word and whether or not it is a symbol may be stored in the syntax / semantic analysis result table 2 in advance, or not stored in the syntax / semantic analysis result table 2. It is also possible to dynamically calculate and use the basic form of the word and the part of speech information as necessary.
3は、前記構文・意味解析結果テーブル2を参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、機能語であるか否か、記号であるか否か、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブル4を作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブル5を作成する訓練データ作成手段としての訓練データ作成部である。 3 refers to the syntax / semantic analysis result table 2 and refers to the basic form, part of speech, semantic category, whether it is a functional word, whether it is a function word, whether it is a symbol, and the dependency between phrases. It is a training data creation unit as a training data creation means for extracting a training attribute index table 4 by extracting attributes for learning from the relationship and predicate state, and creating a training vector table 5 at the same time by creating a training vector. .
6は、前記訓練ベクトルテーブル5を用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブル4に追加して重みテーブル7を作成する重み学習手段としての重み学習部である。 6 is a weight learning unit that learns a weight representing the importance of an attribute using the training vector table 5 and creates a weight table 7 by adding the weight obtained by the learning to the training attribute index table 4. Is a weight learning unit.
8は、前記重みテーブル7を参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則(辞書)として出力する項判定規則作成手段としての項判定規則作成部である。
次に、上記のように構成された辞書作成装置1の動作を図2とともに説明する。
Next, the operation of the
まず、辞書作成装置1に対して、ユーザが正解項構造付き訓練用テキストおよびテキストの構文・意味解析結果を構文・意味解析結果テーブル2に入力する(ステップS1)。 First, the user inputs the training text with correct term structure and the syntax / semantic analysis result of the text into the syntax / semantic analysis result table 2 to the dictionary creating apparatus 1 (step S1).
次に、訓練データ作成部3が、構文・意味解析結果テーブル2から、述語および動作性名詞の項判定規則を構成する属性を抽出し、訓練属性インデクステーブル4を作成するとともに、該属性を利用して訓練ベクトルを作成し、訓練ベクトルテーブル5に保存する(ステップS2)。
Next, the training
次に、重み学習部6が訓練ベクトルテーブル5から、機械学習技術を用いて、属性の重要性を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブル4に追加し、それを重みテーブル7に保存する(ステップS3)。
Next, the
次に、項判定規則作成部8が、重みテーブル7の情報から、属性の重み順に並べなおし、項判定規則を作成し出力して、終了する(ステップS4)。
Next, the term determination
尚、前記図1の構文・意味解析結果テーブル2、訓練データ作成部3、訓練属性インデクステーブル4、訓練ベクトルテーブル5、重み学習部6、重みテーブル7および項判定規則作成部8の、各部の具体的な構成、動作については、次に詳述する図3の構文・意味解析結果テーブル120、訓練データ作成部102、訓練属性インデクステーブル121、訓練ベクトルテーブル122、重み学習部103、重みテーブル123および項判定規則作成部104と各々同一であるので、ここでは説明を省略する。
The syntax / semantic analysis result table 2, the training
図3は本発明の他の実施形態例における辞書作成装置10の構成を示すブロック図であり、図4は図3の装置の動作を示すフローチャートである。
FIG. 3 is a block diagram showing the configuration of the
図3において、101は、述語又は動作性名詞に対して正解の項構造が付与された自然言語で記載された訓練用テキスト(解析対象のテキスト)を構文解析し、テキストに含まれる単語の基本形、品詞、意味カテゴリ、機能語であるか否か、記号であるか否か、および文節間の係り受け関係、述語の態を解析し、構文・意味解析結果テーブル120を作成する構文・意味解析手段としての構文・意味解析部である。
In FIG. 3,
102は、前記構文・意味解析結果テーブル120を参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、機能語であるか否か、記号であるか否か、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブル121を作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブル122を作成する訓練データ作成手段としての訓練データ作成部である。 102, referring to the syntax / semantic analysis result table 120, the basic form of a word included in the text, the part of speech, the semantic category, whether it is a function word, whether it is a symbol, and the dependency between phrases It is a training data creation unit as a training data creation unit that extracts attributes for learning from the state of relations and predicates, creates a training attribute index table 121, and creates a training vector at the same time to create a training vector table 122. .
103は、前記訓練ベクトルテーブル122を用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブル121に追加して重みテーブル123を作成する重み学習手段としての重み学習部である。 103 is a weight learning unit that learns the weight representing the importance of the attribute using the training vector table 122 and adds the weight obtained by the learning to the training attribute index table 121 to create the weight table 123. Is a weight learning unit.
104は、前記重みテーブル123を参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則(辞書)として出力する項判定規則作成手段としての項判定規則作成部である。
前記構文・意味解析部101、構文・意味解析結果テーブル120、訓練データ作成部102、訓練属性インデクステーブル121、訓練ベクトルテーブル122、重み学習部103、重みテーブル123および項判定規則作成部104の、後述する各機能は、例えばコンピュータにより達成される。
The syntax /
次に、上記のように構成された辞書作成装置10の動作を図4とともに説明する。まず、辞書作成装置10に対して、自然言語で書かれた、述語または動作性名詞に対して人手で正解の項構造が付与された、訓練用テキストを構文・意味解析部101に入力する(ステップS11)。例えば、図5のような文章が入力されたとする。
Next, the operation of the
ここで、図5の<NP ID=数字>と</NP>のタグで囲まれた部分は項を表し、<PRED 〜>と</PRED>で囲まれた部分は述語であることを表す。このテキストには出現していないが動作性名詞については<EVENT 〜>と</EVENT>のタグで囲むものとする。また、<PRED 〜>タグと<EVENT 〜>タグの「〜」の部分に記述される「NOM=“1” ACC=“2”」等の記載は、「この述語や動作性名詞の基本形に対して、主格を取る項の正解は、ID番号が1である「私」、対格を取る項の正解は、ID番号が2である「ピーマン」」等を表す。ここでは、簡単のため、項の種類としては主格項と対格項だけ扱うとするが、他の項の種類についても同様に処理が可能である。 Here, the part surrounded by the tags <NP ID = number> and </ NP> in FIG. 5 represents a term, and the part enclosed by <PRED ~> and </ PRED> represents a predicate. . Although it does not appear in this text, a behavioral noun is enclosed by tags <EVENT ~> and </ EVENT>. In addition, the description such as “NOM =“ 1 ”ACC =“ 2 ”” described in the “˜” part of the <PRED ~> tag and the <EVENT ~> tag is “in the basic form of this predicate or action noun. On the other hand, the correct answer of the term taking the main case represents "I" whose ID number is 1, and the correct answer of the term taking the main case represents "green pepper" whose ID number is 2. Here, for the sake of simplicity, it is assumed that only the main term and the opposite term are handled as the types of terms, but the same processing can be performed for the types of other terms.
次に、構文・意味解析部101が、前記訓練用テキストを構文解析および意味解析を行うことにより、テキストに含まれる語の基本形、品詞、意味カテゴリ、機能語であるか否か、記号であるか否か、および文節間の係り受け関係、述語の態を特定し、解析結果を構文・意味解析結果テーブル120に格納する(ステップS12)。例えば、「私はピーマンが嫌いだ。しかし昨日は母に無理やり食べさせられた。」という文章を構文解析および意味解析を行った場合、図6のように、テキストの先頭から順に、単語毎に、文番号、文節番号、係り先文節番号、文節内の単語番号、単語の基本形、品詞、機能語または記号か否か、単語の意味カテゴリ、を得る。また、テキストに与えられていた正解の項構造から、どの単語が該テキストで解析対象とする述語または動作性名詞であるか、該述語または動作性名詞に対して項構造を構成する項を得る。この場合、「食べる」が今注目している述語だとし、「食べる」に対する項は「私」と「ピーマン」であり、特に「私」は主格項、「ピーマン」は対格項であるとする。
Next, the syntax /
ここで図6の文番号は0以上の整数で、テキストの先頭の文から順に0,1,2、...と付与される。文節番号は0以上の整数で、1文内の先頭の文節から順に0,1,2、...と付与される。また、係り先文節番号は、各単語について、その単語を含む文節が構文解析の結果、係っていると判定された文節の番号である。ただし文末で係り先が無い場合は、係り先文節番号を−1とした。単語番号は、0以上の整数で、1文節内の先頭の単語から順に0,1,2、...と付与される。単語基本形は各単語の基本形である。品詞は、各単語の品詞である。機能語/記号は、各単語が該単語を含む文節の中で意味内容を表す内容語ではなく、「は」「が」など内容語に付属して内容語の機能を表す機能語であるか、もしくは記号であるかを表す。意味カテゴリは、日本語語彙大系(参考文献:非特許文献4参照)などのシソーラスを用いて各単語に付与された意味カテゴリである。 Here, the sentence numbers in FIG. 6 are integers of 0 or more, and 0, 1, 2,. . . And given. The clause number is an integer greater than or equal to 0. 0, 1, 2,. . . And given. Further, the related clause number is the number of the clause that is determined to be related as a result of syntax analysis for each word. However, when there is no destination at the end of the sentence, the destination clause number is set to -1. The word number is an integer greater than or equal to 0, and is 0, 1, 2,. . . And given. The word basic form is the basic form of each word. The part of speech is the part of speech of each word. Whether the functional word / symbol is a functional word that represents the function of the content word attached to the content word, such as “ha” and “ga”, instead of the content word that represents the semantic content in the clause including the word. Or a symbol. The semantic category is a semantic category assigned to each word using a thesaurus such as a Japanese vocabulary system (see Reference Document: Non-Patent Document 4).
この構文・意味解析部101では、CaboCha(参考文献:非特許文献5参照)等の単体の構文解析器を利用することもできる。
The syntax /
次に、訓練データ作成部102が、前記構文・意味解析結果テーブル120について、述語を起点として、何らかの制約の元で述語から一番近い場所に出現した単語が述語に対する項となっていると仮定し、その制約となる属性を抽出し、訓練属性インデクステーブル121を作成する(ステップS13)。例えば、図6の例では、述語「食べる」に対し、主格の項となっている「私」は、「述語より前にある単語を探索」したとき、「意味カテゴリが「人」」でかつ「その単語の機能語が「は」」である単語の中では、一番近い場所にある単語である。述語以外の入力テキストに現れる各単語について、どのような制約で述語から一番近いかを調べ、その制約を属性とする。例えば、制約としては、(対象単語の探索方法、品詞、意味カテゴリ、係り受け関係にある述語の態)の組合せとする。
Next, the training
ここで、対象単語の探索方法とは、例えば、述語より前方に単語を探索し、単語を含む文節が対象述語を含む文節へ係っている状態で、単語を含む文節の機能語/記号および単語が係っている述語の態を考慮する場合をic、述語より後方に単語を探索し、対象述語を含む文節から単語を含む文節へ係っている状態で、単語を含む文節の機能語/記号および単語が係っている述語の態を考慮する場合をoc、述語と対象の単語が同じ文節内にある場合をsc、述語を含む文節と対象の単語を含む文節との間に係り受け関係がなく、かつ同じ文節でもない場合に、その単語を含む文節の持つ機能語/記号、係り受け関係にある述語の態を考慮しながら最初に述語より前方を、それでもそのような単語がない場合は述語より後方を探索する方法をncとする。また、機能語/記号および単語が係っている述語の態を考慮しないで述語より前方を探索する方法をfw、同様に後方を探索する方法をbwとする。例えば、図6の例では、単語「母」は、(探索方法=ic、単語の意味カテゴリ=人、機能語=に、態=受動態)の制約等で述語「食べる」から一番近い位置にある。このようにして、図7のような訓練属性インデクステーブル121を作成する。多くの属性が作成されるが、ここではそのうち10個の属性のみを示す。 Here, the search method of the target word is, for example, searching for a word ahead of the predicate, and in a state where the clause including the word is related to the clause including the target predicate, the functional word / symbol of the clause including the word and Ic when considering the state of the predicate that the word is related to, search for the word after the predicate, and the functional word of the clause that includes the word from the clause containing the target predicate to the clause containing the word / Oc to consider the state of the predicate with which the symbol and the word are involved, sc if the predicate and the target word are in the same clause, and a clause between the clause containing the predicate and the clause containing the target word If there is no receiving relationship and the same clause, the function word / symbol of the clause containing the word and the predicate state in the dependency relationship are taken into consideration first, but such a word is still If not, how to search behind the predicate And c. Further, let fw be a method for searching forward from a predicate without considering the predicate state in which the function word / symbol and the word are related, and bw be a method for searching backward similarly. For example, in the example of FIG. 6, the word “mother” is closest to the predicate “eat” due to restrictions such as (search method = ic, word semantic category = person, function word =, state = passive). is there. In this way, the training attribute index table 121 as shown in FIG. 7 is created. Many attributes are created, of which only 10 are shown here.
次に、訓練データ作成部102が、訓練属性インデクステーブル121と構文・意味解析結果テーブル120を元に、構文・意味解析結果テーブル120中の述語以外の各単語について、訓練ベクトルを作成し、訓練ベクトルテーブル122に格納する(ステップS14)。例えば、図5において、述語を除く単語について、上から順に訓練ベクトルを作成するとし、それらのベクトルをx_1,x_2,x_3,...とする。この場合、図8のような訓練ベクトルを生成する。図7のような訓練属性インデクステーブル121の各属性が各単語の条件に当てはまるか否かを検査し、もし当てはまれば、属性値を1、当てはまらなければ属性値を0とする。例えば、x_1において4番目の要素が1となっているが、これは、単語「私」が、図7の属性番号4の条件、つまり探索タイプがnc、すなわち、述語と係り受け関係に無い単語の中を述語から前方向を探索したとき、意味カテゴリが「人」で、その単語を含む文節が「は」であり、単語と係り受け関係にある述語の態が能動態である単語の中で、述語から最も近い位置にあるためである。逆に、x_1の9番目の要素が0となっているが、これは、述語「食べる」から機能語の条件、態の条件はなしで、述語の前方の単語を探索していったとき、意味カテゴリが「人」であるものは、文番号1、文節番号2、単語番号0の「母」が最も近く、「私」は2番目の近さで一番ではないため、条件に当てはまらないと判定され0となっている。こうして、訓練ベクトルを生成して、訓練ベクトルテーブル122へ格納する。
Next, the training
また、述語を除く各単語について項の種類ごとに教師変数を訓練ベクトルテーブル122へ格納する(ステップS15)。例えば、y_{1,NOM}=1,y_{2,NOM}=0,y_{3,NOM}=0,...,y_{1,ACC}=0,y_{2,ACC}=0,y_{3,ACC}=1,...,を格納する。ここで、y_{i,NOM}は、i番目の単語が正解の主格項であれば1、そうでなければ−1を格納するスカラーの変数である。また同様に、y_{i,ACC}はi番目の単語が正解の対格項であれば1、そうでなければ−1を格納するスカラーの変数である。なお、NOMは主格に当たる英語nominative、ACCは対格に当たる英語accusativeを表している。こうして、結局、図9のような訓練ベクトルと教師変数を訓練ベクトルテーブル122へ格納する。 Further, for each word excluding the predicate, a teacher variable is stored in the training vector table 122 for each type of term (step S15). For example, y_ {1, NOM} = 1, y_ {2, NOM} = 0, y_ {3, NOM} = 0,. . . , Y_ {1, ACC} = 0, y_ {2, ACC} = 0, y_ {3, ACC} = 1,. . . , Is stored. Here, y_ {i, NOM} is a scalar variable that stores 1 if the i-th word is a correct principal term, and -1 otherwise. Similarly, y_ {i, ACC} is a scalar variable storing 1 if the i-th word is a correct case term, and -1 otherwise. Note that NOM represents English nominal corresponding to the main case, and ACC represents English accumulative equivalent to the main case. Thus, the training vector and the teacher variable as shown in FIG.
次に、重み学習部103が、項の種類毎に、訓練ベクトルテーブル122から、訓練ベクトルおよび教師変数を読み出し、機械学習手法を用いて、属性の重要度の重みを計算する(ステップS16)。
Next, the
一例としてSVM(Support Vector Machine)と呼ばれる機械学習手法で、特に非特許文献6において線形SVMと呼ばれている機械学習手法を利用して、学習を行う方法について、以下に述べる。
As an example, a machine learning method called SVM (Support Vector Machine), in particular, a method of learning using a machine learning method called linear SVM in
線形SVMでは、(x1,y1),...,(xm,ym)…(1)で表されるm個の訓練データに対して、正例側(y>0となる部分)と負例側(y<0となる部分)を分割する2つの平行な超平面を求める。その際、その2つの超平面の距離が最大となるような超平面を求める。ここで求められる超平面は式(2)で表される。 For linear SVMs, (x 1 , y 1 ),. . . , (X m , y m ) ... For the m pieces of training data represented by (1), the positive example side (part where y> 0) and the negative example side (part where y <0) are divided. Find two parallel hyperplanes. At this time, a hyperplane in which the distance between the two hyperplanes is maximized is obtained. The hyperplane obtained here is expressed by equation (2).
ここでwは重みベクトルで、bはバイアスであり、wもbも訓練データから式(3)で表される最適化問題を解くことで得られる。 Here, w is a weight vector, b is a bias, and both w and b can be obtained by solving the optimization problem expressed by Equation (3) from the training data.
このようにして得られた重みベクトルwの要素は、線形SVMの場合、その値が大きいほど、それに対応する属性の重要度が高いことを意味する。例えば、図9のような訓練ベクトルテーブル122の内容に対して、主格項に対する線形SVM、対格項に対する線形SVMで学習を行ったとする。ここで主格項に対する線形SVMでは、(x_1,y_{1,NOM}),(x_2,y_{2,NOM}),(x_3,y_{3,NOM}),...,対格項に対する線形SVMでは、(x_1,y_{1,ACC}),(x_2,y_{2,ACC}),(x_3,y_{3,ACC}),...,のベクトルとスカラー変数の組が訓練データとして用いられる。 In the case of the linear SVM, the element of the weight vector w obtained in this way means that the greater the value, the higher the importance of the corresponding attribute. For example, it is assumed that the contents of the training vector table 122 as shown in FIG. 9 are learned by the linear SVM for the main case term and the linear SVM for the counter case term. Here, in the linear SVM for the main term, (x_1, y_ {1, NOM}), (x_2, y_ {2, NOM}), (x_3, y_ {3, NOM}),. . . , (X_1, y_ {1, ACC}), (x_2, y_ {2, ACC}), (x_3, y_ {3, ACC}),. . . The vector and scalar variable pairs are used as training data.
その結果、図10のような主格項に関する重みベクトルwNOM、対格項に関する重みベクトルwACCが得られたとする。そして、重み学習部103は、前記図10のように得られた重みベクトルを前記訓練属性インデクステーブル121のテーブル(図7のテーブル)に追加することにより、主格項に関する重みテーブル(図11)と対格項に関する重みテーブル(図12)を得、それらを重みテーブル123に格納する。
As a result, it is assumed that the weight vector w NOM related to the main case term and the weight vector w ACC related to the case term as shown in FIG. Then, the
次に、項判定規則作成部104が、重みテーブル123内の複数の重みテーブルを1つにまとめ、重みでソートして、決定リストとして出力する(ステップS17)。例えば、図11と図12のテーブルをまとめて図13のテーブルを得る。これを重みでソートしたものの上位10位までを図14に示す。このテーブルを決定リスト形式として出力し、項判定規則テーブル(辞書)を得る。
Next, the term determination
なお、前記実施形態例では、出力する項構造が述語基本形に対する必須表層格に関する項構造である具体例について記述したが、出力する項構造が任意の表層格に関する場合や深層格に関する場合でも、構文・意味解析結果テーブルをそれらに応じたものにすれば同様の手段で実現可能である。 In the above embodiment, a specific example is described in which the output term structure is a term structure related to the mandatory surface case for the predicate basic form. However, even if the output term structure is related to any surface case or deep case, the syntax -It can be realized by the same means if the semantic analysis result table is made corresponding to them.
また、重み学習手法においても重みテーブルが得られれば上記で述べた機械学習方法とは異なる学習方法を用いることが可能である。 Also, in the weight learning method, if a weight table is obtained, a learning method different from the machine learning method described above can be used.
また、扱う対象が英語などの外国語テキストである場合にも、係り受け関係の機能語の代わりに、動詞・名詞以外の品詞や、単語間で構成される名詞句・動詞句といった句構造における関係を係り受け関係として使用することによって、この学習方法を用いることが可能である。 In addition, even if the target is a foreign language text such as English, instead of the dependency function word, the part structure other than the verb / noun and the phrase structure such as the noun phrase / verb phrase composed of words are used. This learning method can be used by using the relationship as a dependency relationship.
また、本実施形態の辞書作成装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の辞書作成方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。 Further, a part or all of the functions of each means in the dictionary creation device of the present embodiment can be configured by a computer program, and the program can be executed using the computer to realize the present invention. It goes without saying that the procedure in the dictionary creation method can be constituted by a computer program, and the program can be executed by the computer, and the program for realizing the function by the computer can be read by a computer-readable recording medium such as an FD. (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact Disk) -ROM, DVD (Digital Versatile D) sk) -ROM, CD-R, CD-RW, HDD, and recorded in a removable disk, or stored, it is possible or distribute. It is also possible to provide the above program through a network such as the Internet or electronic mail.
1,10…辞書作成装置、2,120…構文・意味解析結果テーブル、3,102…訓練データ作成部、4,121…訓練属性インデクステーブル、5,122…訓練ベクトルテーブル、6,103…重み学習部、7,123…重みテーブル、8,104…項判定規則作成部、101…構文・意味解析部。
DESCRIPTION OF
Claims (8)
前記構文・意味解析結果テーブルを参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブルを作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブルを作成する訓練データ作成手段と、
前記訓練ベクトルテーブルを用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブルに追加して重みテーブルを作成する重み学習手段と、
前記重みテーブルを参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則として出力する項判定規則作成手段とを備え、
前記出力された項判定規則を辞書とすることを特徴とする辞書作成装置。 The text to be analyzed described in natural language with the correct term structure assigned to the predicate or action noun, and the basic form of the word included in the text, the part of speech, which is the result of syntactic and semantic analysis of the text A syntax / semantic analysis result table storing semantic categories, dependency relationships between clauses, and predicate states;
Refer to the syntax / semantic analysis result table and extract attributes for learning from the basic form of words included in the text, parts of speech, semantic categories, dependency relationships between clauses, and predicate states, and a training attribute index table Training data creation means for creating a training vector table by creating training vectors at the same time;
Weight learning means for learning a weight representing the importance of an attribute using the training vector table, and adding a weight obtained by the learning to the training attribute index table to create a weight table;
A term determination rule creating means for referring to the weight table and outputting a list in which attributes are rearranged in descending order of importance as a term determination rule;
A dictionary creation device, wherein the output term determination rule is a dictionary.
前記構文・意味解析結果テーブルを参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブルを作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブルを作成する訓練データ作成手段と、
前記訓練ベクトルテーブルを用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブルに追加して重みテーブルを作成する重み学習手段と、
前記重みテーブルを参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則として出力する項判定規則作成手段とを備え、
前記出力された項判定規則を辞書とすることを特徴とする辞書作成装置。 Parses the text to be analyzed written in natural language with the correct term structure attached to the predicate or action noun, and depends on the basic form of words, parts of speech, semantic categories, and clauses included in the text A syntax / semantic analysis means for analyzing the state of relations and predicates and creating a syntax / semantic analysis result table;
Refer to the syntax / semantic analysis result table and extract attributes for learning from the basic form of words included in the text, parts of speech, semantic categories, dependency relationships between clauses, and predicate states, and a training attribute index table Training data creation means for creating a training vector table by creating training vectors at the same time;
Weight learning means for learning a weight representing the importance of an attribute using the training vector table, and adding a weight obtained by the learning to the training attribute index table to create a weight table;
A term determination rule creating means for referring to the weight table and outputting a list in which attributes are rearranged in descending order of importance as a term determination rule;
A dictionary creation device, wherein the output term determination rule is a dictionary.
前記重み学習手段は、前記訓練ベクトルテーブルに記載された訓練ベクトルおよび教師変数に対して、正例側と負例側を分割する2つの平行な超平面の距離が最大となる超平面を求め、該求められた超平面に基づいて機械学習手法を用いて重みを学習することを特徴とする請求項1又は2に記載の辞書作成装置。 The training data creating means stores a teacher variable together with the training vector in a training vector table,
The weight learning means obtains a hyperplane that maximizes the distance between two parallel hyperplanes that divide a positive example side and a negative example side with respect to a training vector and a teacher variable described in the training vector table, 3. The dictionary creating apparatus according to claim 1, wherein weights are learned using a machine learning method based on the obtained hyperplane.
訓練データ作成手段が、前記構文・意味解析結果テーブルを参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブルを作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブルを作成するステップと、
重み学習手段が、前記訓練ベクトルテーブルを用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブルに追加して重みテーブルを作成する重み学習ステップと、
項判定規則作成手段が、前記重みテーブルを参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則として出力するステップとを実行し、
前記出力された項判定規則を辞書とすることを特徴とする辞書作成方法。 The text to be analyzed described in natural language with the correct term structure assigned to the predicate or action noun, and the basic form of the word included in the text, the part of speech, which is the result of syntactic and semantic analysis of the text A dictionary creation method in an apparatus having a syntax / semantic analysis result table storing semantic categories, dependency relationships between clauses, and predicate states,
The training data creation means refers to the syntax / semantic analysis result table, and determines attributes for learning from the basic form of words included in the text, the part of speech, the semantic category, the dependency relationship between clauses, and the state of the predicate. Extracting and creating a training attribute index table, simultaneously creating a training vector and creating a training vector table;
Weight learning means learns a weight representing the importance of an attribute using the training vector table, and adds a weight obtained by the learning to the training attribute index table to create a weight table; and
A term determination rule creating means executes a step of referring to the weight table and outputting a list in which attributes are rearranged in the order of attribute having high importance as a term determination rule,
A dictionary creation method, wherein the output term determination rule is a dictionary.
訓練データ作成手段が、前記構文・意味解析結果テーブルを参照して、テキストに含まれる単語の基本形、品詞、意味カテゴリ、および文節間の係り受け関係、述語の態から学習を行うための属性を抽出し訓練属性インデクステーブルを作成し、同時に訓練ベクトルを作成して訓練ベクトルテーブルを作成するステップと、
重み学習手段が、前記訓練ベクトルテーブルを用いて属性の重要度を表す重みを学習し、該学習により得られた重みを前記訓練属性インデクステーブルに追加して重みテーブルを作成する重み学習ステップと、
項判定規則作成手段が、前記重みテーブルを参照し、重要度の高い属性順に属性を並べ替えたリストを項判定規則として出力するステップとを実行し、
前記出力された項判定規則を辞書とすることを特徴とする辞書作成方法。 The syntactic / semantic analysis means parses the text to be analyzed described in the natural language with the correct term structure added to the predicate or action noun, and the basic form, part of speech, and semantic category of the word contained in the text Analyzing the dependency relationship between clauses, the state of predicates, and creating a syntax / semantic analysis result table;
The training data creation means refers to the syntax / semantic analysis result table, and determines attributes for learning from the basic form of words included in the text, the part of speech, the semantic category, the dependency relationship between clauses, and the state of the predicate. Extracting and creating a training attribute index table, simultaneously creating a training vector and creating a training vector table;
Weight learning means learns a weight representing the importance of an attribute using the training vector table, and adds a weight obtained by the learning to the training attribute index table to create a weight table; and
A term determination rule creating means executes a step of referring to the weight table and outputting a list in which attributes are rearranged in the order of attribute having high importance as a term determination rule,
A dictionary creation method, wherein the output term determination rule is a dictionary.
前記重み学習ステップは、前記訓練ベクトルテーブルに記載された訓練ベクトルおよび教師変数に対して、正例側と負例側を分割する2つの平行な超平面の距離が最大となる超平面を求め、該求められた超平面に基づいて機械学習手法を用いて重みを学習することを特徴とする請求項4又は5に記載の辞書作成方法。 The training data creating means has a step of storing a teacher variable together with the training vector in a training vector table;
The weight learning step obtains a hyperplane that maximizes the distance between two parallel hyperplanes that divide a positive example side and a negative example side with respect to the training vectors and teacher variables described in the training vector table, 6. The dictionary creation method according to claim 4, wherein weights are learned using a machine learning method based on the obtained hyperplane.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008273683A JP5193798B2 (en) | 2008-10-24 | 2008-10-24 | Dictionary creating device, dictionary creating method, dictionary creating program, and recording medium recording dictionary creating program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008273683A JP5193798B2 (en) | 2008-10-24 | 2008-10-24 | Dictionary creating device, dictionary creating method, dictionary creating program, and recording medium recording dictionary creating program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010102521A true JP2010102521A (en) | 2010-05-06 |
JP5193798B2 JP5193798B2 (en) | 2013-05-08 |
Family
ID=42293115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008273683A Expired - Fee Related JP5193798B2 (en) | 2008-10-24 | 2008-10-24 | Dictionary creating device, dictionary creating method, dictionary creating program, and recording medium recording dictionary creating program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5193798B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014170296A (en) * | 2013-03-01 | 2014-09-18 | Nippon Telegr & Teleph Corp <Ntt> | Word order rearranging device, translation device, translation model learning device, method, and program |
JP2019012457A (en) * | 2017-06-30 | 2019-01-24 | 新日鉄住金ソリューションズ株式会社 | Information processing device, information processing method, and program |
CN109697289A (en) * | 2018-12-28 | 2019-04-30 | 北京工业大学 | It is a kind of improved for naming the Active Learning Method of Entity recognition |
JP2019091172A (en) * | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | Phrase structure learning device, phrase structure analysis device and method, and program |
US10437932B2 (en) | 2017-03-28 | 2019-10-08 | Fujitsu Limited | Determination method and determination apparatus |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003122750A (en) * | 2001-10-09 | 2003-04-25 | Communication Research Laboratory | Language analytical processing system using machine learning method, teacher data generation processing method, language analytical processing method using machine learning method and language omission analytical processing system using machine learning method |
-
2008
- 2008-10-24 JP JP2008273683A patent/JP5193798B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003122750A (en) * | 2001-10-09 | 2003-04-25 | Communication Research Laboratory | Language analytical processing system using machine learning method, teacher data generation processing method, language analytical processing method using machine learning method and language omission analytical processing system using machine learning method |
Non-Patent Citations (2)
Title |
---|
CSNJ200710002206; 斎木 陽介、若木 利子: 'サポートベクターマシンを用いたWebページ分類 SVM繰り返し学習法による属性選択の評価' 第68回(平成18年)全国大会 講演論文集(2) 人工知能と認知科学 , 20060307, pp.427-428, 社団法人 情報処理学会 * |
JPN6012043929; 斎木 陽介、若木 利子: 'サポートベクターマシンを用いたWebページ分類 SVM繰り返し学習法による属性選択の評価' 第68回(平成18年)全国大会 講演論文集(2) 人工知能と認知科学 , 20060307, pp.427-428, 社団法人 情報処理学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014170296A (en) * | 2013-03-01 | 2014-09-18 | Nippon Telegr & Teleph Corp <Ntt> | Word order rearranging device, translation device, translation model learning device, method, and program |
US10437932B2 (en) | 2017-03-28 | 2019-10-08 | Fujitsu Limited | Determination method and determination apparatus |
JP2019012457A (en) * | 2017-06-30 | 2019-01-24 | 新日鉄住金ソリューションズ株式会社 | Information processing device, information processing method, and program |
JP2019091172A (en) * | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | Phrase structure learning device, phrase structure analysis device and method, and program |
CN109697289A (en) * | 2018-12-28 | 2019-04-30 | 北京工业大学 | It is a kind of improved for naming the Active Learning Method of Entity recognition |
CN109697289B (en) * | 2018-12-28 | 2023-01-13 | 北京工业大学 | Improved active learning method for named entity recognition |
Also Published As
Publication number | Publication date |
---|---|
JP5193798B2 (en) | 2013-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weiss et al. | Fundamentals of predictive text mining | |
US10496928B2 (en) | Non-factoid question-answering system and method | |
US10296584B2 (en) | Semantic textual analysis | |
US9471559B2 (en) | Deep analysis of natural language questions for question answering system | |
US10503830B2 (en) | Natural language processing with adaptable rules based on user inputs | |
JP2013502643A (en) | Structured data translation apparatus, system and method | |
JP2011118689A (en) | Retrieval method and system | |
Hollenstein et al. | Inconsistency detection in semantic annotation | |
JP5193798B2 (en) | Dictionary creating device, dictionary creating method, dictionary creating program, and recording medium recording dictionary creating program | |
Zad et al. | Hell hath no fury? correcting bias in the nrc emotion lexicon | |
Zorzi et al. | A co-occurrence based MedDRA terminology generation: some preliminary results | |
JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
JP2003167898A (en) | Information retrieving system | |
US20230136889A1 (en) | Fine-grained concept identification for open information knowledge graph population | |
Kurosawa et al. | Logical inference for counting on semi-structured tables | |
Colmenares et al. | Headline generation as a sequence prediction with conditional random fields | |
JP5150277B2 (en) | LANGUAGE PROCESSING DEVICE, LANGUAGE PROCESSING METHOD, LANGUAGE PROCESSING PROGRAM, AND RECORDING MEDIUM CONTAINING LANGUAGE PROCESSING PROGRAM | |
US11017172B2 (en) | Proposition identification in natural language and usage thereof for search and retrieval | |
JP2005025659A (en) | Zero pronoun resolving method, device and program, and recording medium to which the program is recorded | |
Malema et al. | Parts of speech tagging: A Setswana relative | |
Han et al. | A Method for Extracting Lexicon for Sentiment Analysis Based on Morphological Sentence Patterns | |
Goh et al. | An assessment of substitute words in the context of academic writing proposed by pre-trained and specific word embedding models | |
JP4059501B2 (en) | Natural language dictionary update device | |
Panicheva et al. | Evaluating Distributional Semantic Models with Russian Noun-Adjective Compositions | |
Yarushkina et al. | The Method for Improving the Quality of Information Retrieval Based on Linguistic Analysis of Search Query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100609 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5193798 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160208 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |