JP5622310B2 - Mutual machine learning device, mutual machine learning method, and program - Google Patents
Mutual machine learning device, mutual machine learning method, and program Download PDFInfo
- Publication number
- JP5622310B2 JP5622310B2 JP2010184356A JP2010184356A JP5622310B2 JP 5622310 B2 JP5622310 B2 JP 5622310B2 JP 2010184356 A JP2010184356 A JP 2010184356A JP 2010184356 A JP2010184356 A JP 2010184356A JP 5622310 B2 JP5622310 B2 JP 5622310B2
- Authority
- JP
- Japan
- Prior art keywords
- pair
- classification
- common
- relationship
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G06F17/28—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、2個の機械学習を用いて相互機械学習を行う相互機械学習装置等に関する。 The present invention relates to a mutual machine learning device that performs mutual machine learning using two machine learnings.
従来、教師データを用いた機械学習において、複数の機械学習を組み合わせた相互機械学習という手法が提案されている(例えば、非特許文献1,2参照)。非特許文献1の手法では、同じ語のペアを対象として、学習時に利用する素性を人手によって分けて複数の機械学習器を生成し、一つの機械学習器から得られた信頼できる結果を、別の機械学習器の学習データとして使用している。非特許文献2では、異なる言語を対象として、言語ごとに機械学習器を生成し、一つの機械学習器から得られた信頼できる結果を、別の機械学習器の学習データとして使用している。
Conventionally, in machine learning using teacher data, a method called mutual machine learning in which a plurality of machine learnings are combined has been proposed (see, for example, Non-Patent
しかしながら、非特許文献1の手法では、複数の機械学習器が扱う処理対象が同じでなければならず、異なる処理対象を扱うことができないという問題があった。また、従来の相互機械学習よりも、より精度の高い相互機械学習の実現が望まれていた。
However, the method of Non-Patent
本発明は、上記課題を解決するためになされたものであり、複数の機械学習器が異なる処理対象を扱うことができ、精度の高い機械学習を実現可能な相互機械学習装置等を提供することを目的とする。 The present invention has been made to solve the above-described problems, and provides a mutual machine learning device and the like that can handle different processing targets by a plurality of machine learners and can realize highly accurate machine learning. With the goal.
上記目的を達成するため、本発明による相互機械学習装置は、第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペアと、第1のコーパスから抽出された、意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、複数の第2関係ペア候補とに共通する共通ペアであるバーチャル共通ペア、及び、第2のコーパスから抽出された、意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補と、複数の第1関係ペア候補とに共通する共通ペアであるバーチャル共通ペアとが記憶される共通ペア記憶部と、第1関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、第1の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する第1の分類部と、第2関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、第2の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する第2の分類部と、第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第1の学習データに追加する追加部と、を備え、第1及び第2の分類部による機械学習及び分類と、追加部による学習データの追加とが繰り返して実行される、ものである。 In order to achieve the above object, a mutual machine learning device according to the present invention provides a plurality of first relationship pair candidates that are candidates for a pair of language expressions having a semantic relationship extracted from a first corpus by a first method. And a common pair that is extracted from the second corpus by a second method different from the first method and is common to a plurality of second relationship pair candidates that are candidates for language expression pairs having a semantic relationship. Common to a certain common pair, a plurality of first unrelated pair candidates that are extracted from the first corpus, and that are candidate language expression pairs that have no semantic relationship, and a plurality of second relationship pair candidates A plurality of second unrelated pair candidates and a plurality of first relationship pair candidates extracted from the second common corpus, a virtual common pair that is a common pair, and language expression pairs that have no semantic relationship And A common pair storage unit that stores a virtual common pair that is a common pair that passes through, and first teacher data that is used in machine learning related to classification of whether or not the first relationship pair candidate has a semantic relationship. Machine learning is performed using the first learning data storage unit in which the learning data is stored, and the first learning data, and the genuine common pair and the virtual common pair have a semantic relationship using the result of the machine learning. A first classifying unit that classifies whether or not the second learning data is stored, and second learning data that is teacher data used in machine learning related to the classification of whether or not the second relationship pair candidate has a semantic relationship. Machine learning using the learning data storage unit and the second learning data, and using the result of the machine learning, the genuine common pair and the virtual common pair have a semantic relationship. A second classification unit that classifies whether or not the classification result of the common pair and the common pair are classified according to at least one of the classification result and the certainty of the common pair by the classification of the first classification unit In addition to the learning data, the common pair and the classification result related to the common pair are added to the first learning data according to at least one of the classification result and the certainty factor of the common pair by the classification of the second classification unit. An addition unit, and machine learning and classification by the first and second classification units and addition of learning data by the addition unit are repeatedly executed.
このような構成により、第1及び第2の分類部は、異なる処理対象、すなわち、第1の方法によって抽出された言語表現のペア、及び、第1の方法とは異なる第2の方法によって抽出された言語表現のペアを扱うことができると共に、バーチャル共通ペアをも用いて相互機械学習を行うため、より精度の高い機械学習を実現することができる。その結果、その機械学習の結果を用いて意味的関係を有する言語表現のペアの分類を行うことによって、意味的関係を有する言語表現のペアを精度高く獲得することができるようになる。 With such a configuration, the first and second classification units can extract different processing targets, that is, pairs of language expressions extracted by the first method, and a second method different from the first method. It is possible to handle a pair of linguistic expressions, and to perform mutual machine learning using a virtual common pair, so that it is possible to realize machine learning with higher accuracy. As a result, linguistic expression pairs having a semantic relationship can be obtained with high accuracy by classifying linguistic expression pairs having a semantic relationship using the machine learning result.
また、本発明による相互機械学習装置は、第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペア、及び、前記複数の第1関係ペア候補と、前記複数の第2関係ペア候補と、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補とのうち、前記ジェニュイン共通ペアではないペアである共通ペアであるバーチャル共通ペアが記憶される共通ペア記憶部と、前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部と、前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部と、第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第1の学習データに追加する追加部と、を備え、第1及び第2の分類部による機械学習及び分類と、追加部による学習データの追加とが繰り返して実行される、ものである。
このような構成により、前述の相互機械学習装置と同様に、異なる処理対象を扱うことができると共に、精度の高い機械学習を実現できる。また、前述の相互機械学習装置よりも多くのバーチャル共通ペアを用いた処理が可能となる。
The mutual machine learning device according to the present invention includes a plurality of first relationship pair candidates that are extracted from a first corpus by a first method and that are candidate language expression pairs having a semantic relationship. Genuine common that is a common pair that is extracted from a second corpus by a second method different from the above method and is common to a plurality of second relationship pair candidates that are candidates for pairs of language expressions having the semantic relationship A pair, a plurality of first relationship pair candidates, a plurality of second relationship pair candidates, and a pair of language expressions that are extracted from the first corpus and have no semantic relationship. Among the plurality of first irrelevant pair candidates and the plurality of second irrelevant pair candidates that are extracted from the second corpus and that are candidate language expression pairs that do not have the semantic relationship, the common common pair A common pair storage unit that stores a virtual common pair that is a common pair that is not a pair, and teacher data used in machine learning related to classification of whether the first relation pair candidate has the semantic relationship A first learning data storage unit that stores certain first learning data and machine learning using the first learning data, and using the result of the machine learning, the genuine common pair and the virtual common A first classification unit that classifies whether a pair has the semantic relationship, and teacher data used in machine learning regarding classification of whether the second relationship pair candidate has the semantic relationship Machine learning is performed using a second learning data storage unit in which second learning data is stored and the second learning data, and the result of the machine learning is used to perform the learning. Depending on at least one of a second classification unit that classifies whether the virtual common pair and the virtual common pair have the semantic relationship, and a classification result of the common pair and a certainty factor according to the classification of the first classification unit Then, the common pair and the classification result related to the common pair are added to the second learning data, and the common pair is determined according to at least one of the classification result and the certainty factor of the common pair by the classification of the second classification unit. And an addition unit that adds the classification result related to the common pair to the first learning data, and machine learning and classification by the first and second classification units and addition of the learning data by the addition unit are repeated. To be executed.
With such a configuration, different processing objects can be handled and machine learning with high accuracy can be realized as in the above-described mutual machine learning device. Further, it is possible to perform processing using more virtual common pairs than the above-described mutual machine learning device.
また、本発明による相互機械学習装置では、前記追加部は、前記第1の分類部の分類による確信度が高い共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による確信度が高い共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加してもよい。
このような構成により、一方の分類部によって確信度が高く分類された共通ペアは信頼できるものであると考えられるため、このような構成によって、適切に学習データを増やすことができると考えられる。
In the mutual machine learning device according to the present invention, the adding unit adds a common pair having a high certainty factor by classification of the first classification unit and a classification result related to the common pair to the second learning data, A common pair having a high certainty factor according to the classification of the second classification unit and a classification result related to the common pair may be added to the first learning data.
With such a configuration, it is considered that a common pair classified with a high degree of certainty by one of the classification units is reliable, and thus it is considered that the learning data can be appropriately increased by such a configuration.
また、本発明による相互機械学習装置では、追加部は、第1の分類部の分類による確信度が高く、第1及び第2の分類部の分類結果が同じである共通ペアと共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による確信度が高く、第1及び第2の分類部の分類結果が同じである共通ペアと共通ペアに関する分類結果とを第1の学習データに追加してもよい。 In the mutual machine learning device according to the present invention, the additional unit has a high certainty factor by the classification of the first classification unit and the classification related to the common pair and the common pair having the same classification result of the first and second classification units. The result is added to the second learning data, the confidence level by the classification of the second classification unit is high, and the classification result of the common pair and the common pair with the same classification result of the first and second classification units You may add to 1st learning data.
第1及び第2の分類部による分類結果が同じであり、一方の分類部によって確信度が高く分類された共通ペアは、他方の分類部の分類による確信度にかかわらず、信頼できるものであると考えられる。したがって、このような構成により、その共通ペアを、他方の分類部の学習データに追加することによって、適切に学習データを増やすことができると考えられる。 A common pair that has the same classification result by the first and second classification units and is classified with high confidence by one classification unit is reliable regardless of the certainty by the classification of the other classification unit. it is conceivable that. Therefore, with such a configuration, it is considered that the learning data can be appropriately increased by adding the common pair to the learning data of the other classification unit.
また、本発明による相互機械学習装置では、追加部は、第1の分類部の分類による確信度が高く、第2の分類部の分類による確信度が低い共通ペアと共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による確信度が高く、第1の分類部の分類による確信度が低い共通ペアと共通ペアに関する分類結果とを第1の学習データに追加してもよい。 In the mutual machine learning device according to the present invention, the adding unit obtains a common pair having a high certainty factor by the classification of the first classification unit and a low certainty factor by the classification of the second classification unit and a classification result related to the common pair. In addition to the second learning data, a common pair having a high certainty factor by the classification of the second classification unit and a low certainty factor by the classification of the first classification unit and a classification result related to the common pair are used as the first learning data. May be added.
一方の分類部によって確信度が高く分類され、他方の分類部によって確信度が低く分類された共通ペアは、前者の分類部による分類が信頼できるものと考えられる。したがって、このような構成により、その共通ペアを、後者の分類部の学習データに追加することによって、適切に学習データを増やすことができると考えられる。 A common pair that is classified with high confidence by one classification unit and classified with low confidence by the other classification unit is considered to be reliable for classification by the former classification unit. Accordingly, with such a configuration, it is considered that the learning data can be appropriately increased by adding the common pair to the learning data of the latter classification unit.
また、本発明による相互機械学習装置では、複数の第1関係ペア候補が記憶される第1関係ペア候補記憶部と、複数の第1無関係ペア候補が記憶される第1無関係ペア候補記憶部と、複数の第2関係ペア候補が記憶される第2関係ペア候補記憶部と、複数の第2無関係ペア候補が記憶される第2無関係ペア候補記憶部と、複数の第1関係ペア候補と複数の第2関係ペア候補とを用いて、ジェニュイン共通ペアを取得して共通ペア記憶部に蓄積し、複数の第1関係ペア候補と複数の第2関係ペア候補と複数の第1無関係ペア候補と複数の第2無関係ペア候補とを用いて、バーチャル共通ペアを取得して共通ペア記憶部に蓄積する取得部と、をさらに備えてもよい。
このような構成により、相互機械学習装置において、ジェニュイン共通ペアとバーチャル共通ペアとを取得する処理をも行うことができるようになる。
In the mutual machine learning device according to the present invention, a first relationship pair candidate storage unit that stores a plurality of first relationship pair candidates, and a first irrelevant pair candidate storage unit that stores a plurality of first irrelevant pair candidates; A second relationship pair candidate storage unit that stores a plurality of second relationship pair candidates; a second relationship pair candidate storage unit that stores a plurality of second unrelated pair candidates; and a plurality of first relationship pair candidates and a plurality Using the second relationship pair candidates, a genuine common pair is acquired and stored in the common pair storage unit, and a plurality of first relationship pair candidates, a plurality of second relationship pair candidates, and a plurality of first unrelated pair candidates An acquisition unit that acquires a virtual common pair using a plurality of second unrelated pair candidates and stores the virtual common pair in a common pair storage unit may be further provided.
With such a configuration, the mutual machine learning apparatus can also perform processing for acquiring a genuine common pair and a virtual common pair.
また、本発明による相互機械学習装置では、第1のコーパスが記憶される第1のコーパス記憶部と、第2のコーパスが記憶される第2のコーパス記憶部と、第1のコーパスから複数の第1関係ペア候補を抽出して第1関係ペア候補記憶部に蓄積し、第1のコーパスから複数の第1無関係ペア候補を抽出して第1無関係ペア候補記憶部に蓄積する第1の抽出部と、第2のコーパスから複数の第2関係ペア候補を抽出して第2関係ペア候補記憶部に蓄積し、第2のコーパスから複数の第2無関係ペア候補を抽出して第2無関係ペア候補記憶部に蓄積する第2の抽出部と、をさらに備えてもよい。
このような構成により、相互機械学習装置において、第1及び第2のコーパスから、第1関係ペア候補等を抽出する処理をも行うことができるようになる。
In the mutual machine learning device according to the present invention, a first corpus storage unit that stores a first corpus, a second corpus storage unit that stores a second corpus, and a plurality of first corpuses. First extraction of first relation pair candidates extracted and stored in the first relation pair candidate storage unit, and a plurality of first unrelated pair candidates extracted from the first corpus and stored in the first unrelated pair candidate storage unit And a plurality of second related pair candidates extracted from the second corpus and stored in a second related pair candidate storage unit, and a plurality of second unrelated pair candidates extracted from the second corpus A second extraction unit that accumulates in the candidate storage unit.
With such a configuration, the mutual machine learning apparatus can also perform processing for extracting the first relationship pair candidate and the like from the first and second corpora.
また、本発明による相互機械学習装置では、第1の分類部は、機械学習及び分類と学習データの追加との繰り返しの後に、複数の第1関係ペア候補に対して分類を行い、第2の分類部は、機械学習及び分類と学習データの追加との繰り返しの後に、複数の第2関係ペア候補に対して分類を行ってもよい。
このような構成により、前述のようにして共通ペアの追加された学習データを機械学習した結果を用いて第1関係ペア候補及び第2関係ペア候補の分類を行うため、より精度の高い分類を行うことができるようになる。
In the mutual machine learning device according to the present invention, the first classifying unit classifies the plurality of first relationship pair candidates after the machine learning and the repetition of the classification and the addition of the learning data, The classification unit may perform classification on a plurality of second relationship pair candidates after machine learning and the repetition of classification and addition of learning data.
With such a configuration, since the first relation pair candidate and the second relation pair candidate are classified using the result of machine learning of the learning data to which the common pair is added as described above, the classification with higher accuracy is performed. Will be able to do.
また、本発明による相互機械学習装置では、第1のコーパスは、構造化されたコーパスであり、第2のコーパスは、構造化されていない自然言語文のコーパスであってもよい。
このような構成により、異なる処理対象として、構造化されたコーパスから取得された言語表現のペア、及び、構造化されていないコーパスから取得された言語表現のペアを扱うことができる。
In the mutual machine learning device according to the present invention, the first corpus may be a structured corpus, and the second corpus may be an unstructured natural language sentence corpus.
With such a configuration, a pair of language expressions acquired from a structured corpus and a pair of language expressions acquired from an unstructured corpus can be handled as different processing targets.
また、本発明による相互機械学習装置では、意味的関係は、上位下位の関係であってもよい。 In the mutual machine learning device according to the present invention, the semantic relationship may be an upper-lower relationship.
本発明による相互機械学習装置等によれば、異なる処理対象を扱うことができると共に、より精度の高い機械学習を実現することができる。 According to the mutual machine learning apparatus and the like according to the present invention, different processing objects can be handled, and machine learning with higher accuracy can be realized.
以下、本発明による相互機械学習装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。 Hereinafter, a mutual machine learning apparatus according to the present invention will be described using embodiments. In the following embodiments, components and steps denoted by the same reference numerals are the same or equivalent, and repetitive description may be omitted.
(実施の形態1)
本発明の実施の形態1による相互機械学習装置について、図面を参照しながら説明する。
図1は、本実施の形態による相互機械学習装置1の構成を示すブロック図である。本実施の形態による相互機械学習装置1は、第1のコーパス記憶部11と、第2のコーパス記憶部12と、第1の抽出部13と、第2の抽出部14と、第1関係ペア候補記憶部15と、第1無関係ペア候補記憶部16と、第2関係ペア候補記憶部17と、第2無関係ペア候補記憶部18と、取得部19と、共通ペア記憶部20と、第1の学習データ記憶部21と、第2の学習データ記憶部22と、第1の分類部23と、第2の分類部24と、追加部25と、第1関係ペア記憶部26と、第2関係ペア記憶部27とを備える。
(Embodiment 1)
A mutual machine learning apparatus according to
FIG. 1 is a block diagram showing a configuration of a mutual
第1のコーパス記憶部11では、第1のコーパスが記憶され、第2のコーパス記憶部12では、第2のコーパスが記憶される。第1及び第2のコーパスは、異なる種類のコーパスであってもよく、あるいは、同じ種類のコーパスであってもよい。前者の場合には、例えば、第1のコーパスは構造化されたコーパスであり、第2のコーパスは構造化されていない自然言語文のコーパスであってもよい。本実施の形態では、主にその場合について説明する。ここで、構造化されたコーパスとは、そのコーパスに含まれる文書が階層構造や、ツリー構造等の何らかの構造を有しているコーパスのことである。構造化されたコーパスは、例えば、百科事典の情報であってもよく、その他の情報であってもよい。それらの情報では、例えば、タイトル、セクション、サブセクション、リスト等の階層構造やツリー構造があるものとする。百科事典のコーパスとしては、例えば、ウェブで公開されているWIKIPEDIA(登録商標)等がある。構造化されていない自然言語文のコーパスとは、階層構造やツリー構造等の構造を有さないコーパスのことであり、例えば、新聞の情報や、小説の情報、構造化されていないウェブの情報等であってもよい。自然言語文の文書を含む情報であれば、通常、構造化されていない自然言語文のコーパスとなる。したがって、構造を有するコーパスであっても、その構造を用いないことによって、構造化されていないコーパスとして用いることも可能である。構造化されていないウェブの情報として、例えば、「検索エンジン研究基盤TSUBAKI」等で対象としている日本語のウェブ文書の大規模コーパスが存在する。
The first corpus storage unit 11 stores the first corpus, and the second
第1のコーパス記憶部11、及び第2のコーパス記憶部12にコーパスが記憶される過程は問わない。例えば、記録媒体を介してコーパスが第1のコーパス記憶部11等で記憶されるようになってもよく、あるいは、通信回線等を介して送信されたコーパスが第1のコーパス記憶部11等で記憶されるようになってもよい。
The process of storing the corpus in the first corpus storage unit 11 and the second
第1の抽出部13は、第1のコーパス記憶部11で記憶されている第1のコーパスから複数の第1関係ペア候補を抽出して第1関係ペア候補記憶部15に蓄積する。また、第1の抽出部13は、第1のコーパス記憶部11で記憶されている第1のコーパスから複数の第1無関係ペア候補を抽出して第1無関係ペア候補記憶部16に蓄積する。第1関係ペア候補は、ある意味的関係を有する言語表現のペアの候補である。なお、第1関係ペア候補は、その意味的関係を有する言語表現のペアに関する候補であるため、必ずしもその意味的関係を有しているとは限らない。第1無関係ペア候補は、その意味的関係を有さない言語表現のペアの候補である。また、第1無関係ペア候補は、その意味的関係を有さない言語表現のペアに関する候補であるため、必ずしもその意味的関係を有さないとは限らない。意味的関係とは、例えば、上位下位の関係(例えば、飲み物とコーヒー)であってもよく、原因結果の関係(例えば、豪雨と洪水)であってもよく、全体部分の関係(例えば、人と手、自動車とタイヤ)であってもよく、ライバルや対義語の関係(例えば、上と下)であってもよく、製品とメーカーの関係(例えば、掃除機とA社)であってもよく、事象と方法の関係(例えば、爆発と爆弾)であってもよく、事象とツールの関係(例えば、授業と教科書)であってもよく、事象と防ぐものの関係(例えば、病気と薬)であってもよく、物と材料の関係(例えば、缶とアルミニウム)であってもよく、名所・建物と場所の関係(例えば、二条城と京都)であってもよく、その他の種類の関連であってもよい。言語表現は、例えば、単語(形態素)であってもよく、単語の並びであるフレーズであってもよい。また、言語表現は、複数の単語の連続(例えば、複合名詞など)であってもよい。第1の抽出部13は、通常、いずれか一つの意味的関係を有する言語表現のペアの候補である第1関係ペア候補を抽出する。本実施の形態では、第1の抽出部13が、上位下位の関係を有する言語表現のペアの候補である第1関係ペア候補を抽出する場合について主に説明する。また、第1の抽出部13は、第1関係ペア候補が有しているとされる意味的関係を有していないと考えられる言語表現のペアを、第1無関係ペア候補として抽出してもよく、あるいは、第1関係ペア候補が有しているとされる意味的関係ではない意味的関係を有していると考えられる言語表現のペアを、第1無関係ペア候補として抽出してもよい(第1関係ペア候補が有しているとされる意味的関係ではない意味的関係を有している言語表現のペアは、その第1関係ペア候補が有しているとされる意味的関係を有していないであろうと考えられるからである)。本実施の形態では、第1の抽出部13が、上位下位の関係を有さない言語表現のペアの候補である第1無関係ペア候補を抽出する場合について主に説明する。
The first extraction unit 13 extracts a plurality of first relationship pair candidates from the first corpus stored in the first corpus storage unit 11 and accumulates them in the first relationship pair
第2の抽出部14は、第2のコーパス記憶部12で記憶されている第2のコーパスから複数の第2関係ペア候補を抽出して第2関係ペア候補記憶部17に蓄積する。また、第2の抽出部14は、第2のコーパス記憶部12で記憶されている第2のコーパスから複数の第2無関係ペア候補を抽出して第2無関係ペア候補記憶部18に蓄積する。第2関係ペア候補は、第1関係ペア候補が有していると考えられる意味的関係と同じ意味的関係を有する言語表現のペアの候補である。なお、第2関係ペア候補は、その意味的関係を有する言語表現のペアに関する候補であるため、必ずしもその意味的関係を有しているとは限らない。第2無関係ペア候補は、その意味的関係を有さない言語表現のペアの候補である。また、第2無関係ペア候補は、その意味的関係を有さない言語表現のペアに関する候補であるため、必ずしもその意味的関係を有さないとは限らない。第2の抽出部14は、通常、いずれか一つの意味的関係を有する言語表現のペアの候補である第2関係ペア候補を抽出する。その意味的関係は、前述のように、第1関係ペア候補が有していると考えられる意味的関係と同じ意味的関係である。本実施の形態では、第2の抽出部14が、上位下位の関係を有する言語表現のペアの候補である第2関係ペア候補を抽出する場合について主に説明する。また、第2の抽出部14は、第2関係ペア候補が有しているとされる意味的関係を有していないと考えられる言語表現のペアを、第2無関係ペア候補として抽出してもよく、あるいは、第2関係ペア候補が有しているとされる意味的関係ではない意味的関係を有していると考えられる言語表現のペアを、第2無関係ペア候補として抽出してもよい。本実施の形態では、第2の抽出部14が、上位下位の関係ではない意味的関係を有する言語表現のペアの候補である第2無関係ペア候補を抽出する場合について主に説明する。
The second extraction unit 14 extracts a plurality of second relationship pair candidates from the second corpus stored in the second
第1及び第2の抽出部13,14は、言語表現のペアを抽出する元となるコーパスが異なる以外に、その抽出方法が異なるものとする。すなわち、第1の抽出部13は、第1の方法によって第1コーパスから複数の第1関係ペア候補を抽出し、第2の抽出部14は、第2の方法によって第2のコーパスから複数の第2関係ペア候補を抽出する。なお、第1の方法と第2の方法とは異なるものとする。したがって、第1及び第2のコーパスの種類が一緒であったとしても、各コーパスから第1及び第2関係ペア候補を抽出する方法が異なるため、第1関係ペア候補と第2関係ペア候補とは異なる種類のものとなる。本実施の形態では、第1の方法は、第1のコーパスが有する構造を用いて第1関係ペア候補を抽出する方法であり、第2の方法は、レキシコシンタクティックパターン(Lexico−syntactic patterns)を用いて第2関係ペア候補を抽出する方法である場合について説明する。それらの抽出方法の詳細については後述する。 It is assumed that the first and second extraction units 13 and 14 have different extraction methods in addition to different corpus from which language expression pairs are extracted. That is, the first extraction unit 13 extracts a plurality of first relationship pair candidates from the first corpus by the first method, and the second extraction unit 14 extracts a plurality of first relation pair candidates from the second corpus by the second method. A second relationship pair candidate is extracted. Note that the first method and the second method are different. Therefore, even if the types of the first and second corpora are the same, the method for extracting the first and second relationship pair candidates from each corpus is different, so the first relationship pair candidate and the second relationship pair candidate are Are of different kinds. In the present embodiment, the first method is a method for extracting first relationship pair candidates using the structure of the first corpus, and the second method is a lexico-tactic pattern (Lexico-syntactic pattern). ) Is used to extract a second related pair candidate. Details of these extraction methods will be described later.
取得部19は、複数の第1関係ペア候補と複数の第2関係ペア候補とを用いて、ジェニュイン(jenuine)共通ペアを取得して共通ペア記憶部20に蓄積する。また、取得部19は、複数の第1関係ペア候補と複数の第2関係ペア候補と複数の第1無関係ペア候補と複数の第2無関係ペア候補とを用いて、バーチャル(virtual)共通ペアを取得して共通ペア記憶部20に蓄積する。ジェニュイン共通ペアとは、第1関係ペア候補記憶部15で記憶されている複数の第1関係ペア候補と、第2関係ペア候補記憶部17で記憶されている複数の第2関係ペア候補とに共通するペアである。したがって、ある第1関係ペア候補と、ある第2関係ペア候補とが同じ言語表現のペアである場合に、その第1関係ペア候補(その第2関係ペア候補)は、ジェニュイン共通ペアとなる。また、バーチャル共通ペアとは、第1無関係ペア候補記憶部16で記憶されている複数の第1無関係ペア候補と、第2関係ペア候補記憶部17で記憶されている複数の第2関係ペア候補とに共通するペア、及び、第2無関係ペア候補記憶部18で記憶されている複数の第2無関係ペア候補と、第1関係ペア候補記憶部15で記憶されている複数の第1関係ペア候補とに共通するペアである。したがって、ある第1無関係ペア候補と、ある第2関係ペア候補とが同じ言語表現のペアである場合に、その第1無関係ペア候補(その第2関係ペア候補)は、バーチャル共通ペアとなる。また、ある第2無関係ペア候補と、ある第1関係ペア候補とが同じ言語表現のペアである場合に、その第2無関係ペア候補(その第1関係ペア候補)は、バーチャル共通ペアとなる。なお、ジェニュイン共通ペアとバーチャル共通ペアとをあわせて共通ペアと呼ぶ。
The obtaining
第1の学習データ記憶部21では、第1関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される。
第2の学習データ記憶部22では、第2関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される。
The first learning
The second learning
なお、第1の学習データ記憶部21、第2の学習データ記憶部22に第1の学習データや第2の学習データが記憶される過程は問わない。例えば、記録媒体を介して第1の学習データ等が第1の学習データ記憶部21等で記憶されるようになってもよく、あるいは、通信回線等を介して送信された第1の学習データ等が第1の学習データ記憶部21等で記憶されるようになってもよい。
In addition, the process in which 1st learning data and 2nd learning data are memorize | stored in the 1st learning
第1の分類部23は、第1の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する。その分類によって、第1の分類部23は、分類結果(意味的関係を有するかどうか)と、その分類結果の確信度とを得ることができる。なお、後述するように、追加部25によって第1の学習データが追加された場合には、第1の分類部23は、その追加された第1の学習データをも用いて学習を行うものとする。また、第1の分類部23は、機械学習及び分類と学習データの追加との繰り返しの後に、第1関係ペア候補記憶部15で記憶されている複数の第1関係ペア候補に対して分類を行う。そして、第1の分類部23は、意味的関係を有すると判断した第1関係ペア候補である第1関係ペアを、第1関係ペア記憶部26に蓄積する。
The
第2の分類部24は、第2の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する。その分類によって、第2の分類部24は、分類結果(意味的関係を有するかどうか)と、その分類結果の確信度とを得ることができる。なお、後述するように、追加部25によって第2の学習データが追加された場合には、第2の分類部24は、その追加された第2の学習データをも用いて学習を行うものとする。また、第2の分類部24は、機械学習及び分類と学習データの追加との繰り返しの後に、複数の第2関係ペア候補に対して分類を行う。そして、第2の分類部24は、意味的関係を有すると判断した第2関係ペア候補である第2関係ペアを、第2関係ペア記憶部27に蓄積する。
The
ここで、第1及び第2の分類部23,24による機械学習を用いた分類について簡単に説明する。第1及び第2の分類部23,24は、機械学習を用いて、第1及び第2関係ペア候補を、意味的関係を有するものと、そうでないものとに分類する。この機械学習の入力は、第1及び第2関係ペア候補である。また、その機械学習の出力は、その第1及び第2関係ペア候補が意味的関係を有するかどうかである。また、その機械学習で用いられる教師データとしての学習データ(訓練データ)は、2個の言語表現のペアと、そのペアの意味的関係の有無を示す情報(すなわち、意味的関係を有しているか、有していないかの情報)とである。学習データを用いた学習の後に、分類の対象となる第1関係ペア候補や第2関係ペア候補を入力すると、その第1関係ペア候補等に関する素性の各値が取得され、その第1関係ペア候補等が意味的関係を有するかどうかと、その確信度とが出力される。その機械学習で用いられる素性については後述する。
Here, the classification using machine learning by the first and
なお、第1及び第2の分類部23,24は、例えば、機械学習として、SVM(Support Vector Machine)を用いてもよく、その他のものを用いてもよい。本実施の形態では、機械学習としてSVMを用いる場合について説明する。
The first and
追加部25は、第1の分類部23の分類による確信度が高い共通ペアと、その共通ペアに関する分類結果とを第2の学習データに追加する。また、追加部25は、第2の分類部24の分類による確信度が高い共通ペアと、その共通ペアに関する分類結果とを第1の学習データに追加する。具体的には、追加部25は、第1の分類部23の分類による確信度が高く、第1及び第2の分類部23,24の分類結果が同じである共通ペアと、その共通ペアに関する分類結果とを第2の学習データに追加してもよく、第2の分類部24の分類による確信度が高く、第1及び第2の分類部23,24の分類結果が同じである共通ペアと、その共通ペアに関する分類結果とを第1の学習データに追加してもよい。また、追加部25は、第1の分類部23の分類による確信度が高く、第2の分類部24の分類による確信度が低い共通ペアと、その共通ペアに関する分類結果とを第2の学習データに追加してもよく、第2の分類部24の分類による確信度が高く、第1の分類部23の分類による確信度が低い共通ペアと、その共通ペアに関する分類結果とを第1の学習データに追加してもよい。ここで、バーチャル共通ペアは、一方のコーパスにおいては意味的関係の候補とされているが、実際に意味的関係を有している可能性は低いと考えられる。したがって、バーチャル共通ペアは、負例として追加される可能性が高い。一方、ジェニュイン共通ペアは、バーチャル共通ペアよりも意味的関係を有している可能性が高いと考えられ、正例として追加される可能性もある。
The adding
ある共通ペアと分類結果とを第1の学習データに追加するとは、その共通ペア等を第1の学習データ記憶部21に蓄積することであってもよく、あるいは、その共通ペア等をも第1の分類部23が第1の学習データとして使用するように設定することであってもよい。後者の場合には、第1の学習データに追加された、共通ペア記憶部20で記憶されている共通ペアと、その分類結果とを、第1の分類部23が第1の学習データとして読み出すように設定することであってもよい。ここで、その分類結果は、第2の分類部24によって共通ペア記憶部20に蓄積されてもよい。また、ある共通ペアと分類結果とを第2の学習データに追加するとは、その共通ペア等を第2の学習データ記憶部22に蓄積することであってもよく、あるいは、その共通ペア等をも第2の分類部24が第2の学習データとして使用するように設定することであってもよい。後者の場合には、第2の学習データに追加された、共通ペア記憶部20で記憶されている共通ペアと、その分類結果とを、第2の分類部24が第2の学習データとして読み出すように設定することであってもよい。ここで、その分類結果は、第1の分類部23によって共通ペア記憶部20に蓄積されてもよい。本実施の形態では、追加部25が、第1の学習データへの追加対象である共通ペア等を第1の学習データ記憶部21に蓄積し、第2の学習データへの追加対象である共通ペア等を第2の学習データ記憶部22に蓄積する場合について説明する。なお、第1の学習データ記憶部21及び第2の学習データ記憶部22であらかじめ記憶されている学習データをそれぞれ、初期の第1の学習データ、初期の第2の学習データと呼ぶこともある。その初期の第1の学習データ及び初期の第2の学習データは、それぞれ異なったものであってもよく、あるいは、同じものであってもよい。
To add a certain common pair and classification result to the first learning data may be to accumulate the common pair or the like in the first learning
なお、第1及び第2の分類部23,24による機械学習及び分類と、追加部25による学習データの追加とは繰り返して実行される。その繰り返しの際に、第1及び第2の分類部23,24は、追加部25による追加が行われた後の学習データを用いて、機械学習を行うことになる。
The machine learning and classification by the first and
なお、第1のコーパス記憶部11、第2のコーパス記憶部12、第1関係ペア候補記憶部15、第1無関係ペア候補記憶部16、第2関係ペア候補記憶部17、第2無関係ペア候補記憶部18、共通ペア記憶部20、第1の学習データ記憶部21、第2の学習データ記憶部22、第1関係ペア記憶部26、第2関係ペア記憶部27での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。また、これらの記憶部は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
The first corpus storage unit 11, the second
また、第1のコーパス記憶部11、第2のコーパス記憶部12、第1関係ペア候補記憶部15、第1無関係ペア候補記憶部16、第2関係ペア候補記憶部17、第2無関係ペア候補記憶部18、共通ペア記憶部20、第1の学習データ記憶部21、第2の学習データ記憶部22、第1関係ペア記憶部26、第2関係ペア記憶部27のうち、任意の2以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、第1のコーパスを記憶している領域が第1のコーパス記憶部11となり、第2のコーパスを記憶している領域が第2のコーパス記憶部12となる。
Moreover, the 1st corpus memory | storage part 11, the 2nd corpus memory |
次に、本実施の形態による相互機械学習装置1の動作について、図2のフローチャートを用いて説明する。ここで、第1のコーパスを「S」とし、第2のコーパスを「U」とし、第1関係ペア候補の集合を「XS」とし、第1無関係ペア候補の集合を「RS」とし、第2関係ペア候補の集合を「XU」とし、第2無関係ペア候補の集合を「RU」とし、共通ペアの集合を「Y」とし、ジェニュイン共通ペアの集合を「G」とし、バーチャル共通ペアの集合を「V」とする。XSやXU、G、V等の関係は、図4で示されるようになる。なお、Y=G∪Vである。また、あらかじめ第1の学習データ記憶部21で記憶されている第1の学習データを「L0 S」とし、あらかじめ第2の学習データ記憶部22で記憶されている第2の学習データを「L0 U」とする。
Next, the operation of the mutual
(ステップS101)第1の抽出部13は、第1のコーパスSから複数の第1関係ペア候補の集合XSを抽出して第1関係ペア候補記憶部15に蓄積する。
(Step S <b> 101) The first extraction unit 13 extracts a plurality of first relationship pair candidate sets X S from the first corpus S and accumulates them in the first relationship pair
(ステップS102)第2の抽出部14は、第2のコーパスUから複数の第2関係ペア候補の集合XUを抽出して第2関係ペア候補記憶部17に蓄積する。
(Step S102) the second extraction portion 14 will be accumulated in the second relationship pair
(ステップS103)第1の抽出部13は、第1のコーパスSから複数の第1無関係ペア候補の集合RSを抽出して第1無関係ペア候補記憶部16に蓄積する。なお、XS∩RSは空集合である。
(Step S <b> 103) The first extraction unit 13 extracts a set R S of a plurality of first irrelevant pair candidates from the first corpus S and accumulates them in the first irrelevant pair
(ステップS104)第2の抽出部14は、第2のコーパスUから複数の第2無関係ペア候補の集合RUを抽出して第2無関係ペア候補記憶部18に蓄積する。なお、XU∩RUは空集合である。
(Step S104) The second extraction unit 14 stores the second independent pair
(ステップS105)取得部19は、複数の第1関係ペア候補の集合XS、複数の第1無関係ペア候補の集合RS、複数の第2関係ペア候補の集合XU、複数の第2無関係ペア候補の集合RUを用いて、ジェニュイン共通ペアの集合Gと、バーチャル共通ペアの集合Vとを取得し、それらを共通ペア記憶部20に蓄積する。図4で示されるように、ジェニュイン共通ペアの集合Gは、第1関係ペア候補の集合XSと、第2関係ペア候補の集合XUとの共通部分である。すなわち、G=XS∩XUとなる。また、バーチャル共通ペアの集合Vは、第1関係ペア候補の集合XSと、第2無関係ペア候補の集合RUとの共通部分、及び、第2関係ペア候補の集合XUと、第1無関係ペア候補の集合RSとの共通部分である。すなわち、V=(XS∩RU)∪(RS∩XU)となる。
(Step S105) The
(ステップS106)追加部25は、カウンタiを0に設定する。このカウンタiは、ステップS107〜S113のサイクルをカウントするためのカウンタである。
(Step S106) The adding
(ステップS107)第1の分類部23は、第1の学習データ記憶部21で記憶されている第1の学習データLi Sを用いて機械学習を行う。その機械学習によって得られた分類器をci Sとする。なお、機械学習を行う際に用いる素性は、例えば、あらかじめ第1の学習データ記憶部21で記憶されていてもよく、あるいは、第1のコーパスを参照して取得してもよい。
(Step S107) The
(ステップS108)第2の分類部24は、第2の学習データ記憶部22で記憶されている第2の学習データLi Uを用いて機械学習を行う。その機械学習によって得られた分類器をci Uとする。なお、機械学習を行う際に用いる素性は、例えば、あらかじめ第2の学習データ記憶部22で記憶されていてもよく、あるいは、第2のコーパスを参照して取得してもよい。
(Step S108) The
(ステップS109)第1の分類部23は、機械学習の結果である分類器ci Sを用いて、共通ペアの集合Yに含まれる各共通ペアに対して分類を行う。この分類の結果、意味的関係を有するかどうかを示すクラスラベルcl∈{yes、no}と、確信度r∈R+とを得ることができる。なお、クラスラベルcl「yes」は、意味的関係を有すると分類されたことを示し、クラスラベルcl「no」は、意味的関係を有さないと分類されたことを示す。また、「R+」は、負でない実数である。分類器cによるy∈Yの分類結果を、c(y)=(y、cl、r)と記述することがある。なお、この分類の際に、Yに含まれる共通ペアのうち、第1の学習データLi S、または、第2の学習データLi Uに含まれる共通ペアについては、分類を行わなくてもよい。また、この分類の際に用いる各共通ペアの素性は、例えば、あらかじめ共通ペア記憶部26で記憶されていてもよく、あるいは、第1のコーパスを参照して取得してもよい。
(Step S109) The first classifying
(ステップS110)第2の分類部24は、機械学習の結果である分類器ci Uを用いて、共通ペアの集合Yに含まれる各共通ペアに対して分類を行う。この分類の結果、意味的関係を有するかどうかを示すクラスラベルclと、確信度rとを得ることができることは、第1の分類部23の場合と同様である。なお、この分類の際に、Yに含まれる共通ペアのうち、第1の学習データLi S、または、第2の学習データLi Uに含まれる共通ペアについては、分類を行わなくてもよい。また、この分類の際に用いる各共通ペアの素性は、例えば、あらかじめ共通ペア記憶部26で記憶されていてもよく、あるいは、第2のコーパスを参照して取得してもよい。
(Step S110) The
(ステップS111)追加部25は、分類結果を用いて、所定の条件を満たす共通ペアを、第1の学習データL(i+1) Sや第2の学習データL(i+1) Uに追加する。また、第1の学習データL(i+1) Sは、Li Sのすべての要素を含むものであり、第2の学習データL(i+1) Uは、Li Uのすべての要素を含むものである。なお、この学習データの追加の処理の詳細については、図3のフローチャートを用いて後述する。
(Step S111) Using the classification result, the adding
(ステップS112)追加部25は、ステップS107〜S113のサイクルの繰り返しの終了条件が満たされるかどうか判断する。そして、その終了条件が満たされる場合には、ステップS114に進み、そうでない場合には、ステップS113に進む。
(Step S112) The adding
その終了条件は、例えば、di=|σi−σ(i−1)|/|σ(i−1)|の値が、連続した所定回数(例えば、3回であってもよい)のサイクルだけ、あらかじめ決められたしきい値「ε」未満であることであってもよい。なお、σiは、カウンタiのサイクルにおけるステップS109,S110において分類された各y∈Yの第1の分類部23による分類の確信度をr1とし、第2の分類部24による分類の確信度をr2とした場合に、
σi=Σ|r1−r2|
で示される値である。なお、その和は、すべてのy∈Yに対してとられるものである。di<εであるということは、前回のサイクルと比較して、学習結果である超平面がほとんど変化していないこと、すなわち、新たな学習データの追加を行っても、学習結果がほとんど変化していないことを意味する。なお、そのようになるようにしきい値εが選択されることが好適である。そのしきい値εは、例えば、0.001等であってもよい。
The end condition is, for example, that the value of d i = | σ i −σ (i−1) | / | σ (i−1) | is a predetermined number of consecutive times (for example, it may be three times). Only a cycle may be less than a predetermined threshold “ε”. Note that σ i is the reliability of classification by the
σ i = Σ | r1-r2 |
This is the value indicated by. The sum is taken for all yεY. d i <ε means that the hyperplane that is the learning result has hardly changed compared to the previous cycle, that is, even if new learning data is added, the learning result hardly changes. Means not. It is preferable that the threshold ε is selected so as to be so. The threshold value ε may be, for example, 0.001.
なお、異なる終了条件を用いてもよいことは言うまでもない。例えば、経験則によって、ステップS107〜S113のサイクルの繰り返し回数が所定の回数になった場合(例えば、カウンタi=Aとなった場合。ただし、Aは1以上の整数である)に、新たな学習データの追加を行っても学習結果がほとんど変化していないことが分かっている場合には、終了条件は、カウンタi=Aとなったことであってもよい。 Needless to say, different termination conditions may be used. For example, according to an empirical rule, when the number of repetitions of the cycle of steps S107 to S113 reaches a predetermined number (for example, when counter i = A, where A is an integer of 1 or more), a new If it is known that the learning result has hardly changed even when learning data is added, the end condition may be that the counter i = A.
その終了条件を示す情報は、図示しない記録媒体で記憶されており、追加部25は、その記録媒体から終了条件を示す情報を読み出し、その終了条件が満たされるかどうかの判断を行ってもよい。また、ここでは、追加部25が終了条件に関する判断を行う場合について説明したが、その判断を行うのは追加部25以外の構成要素であってもよいことは言うまでもない。
Information indicating the end condition is stored in a recording medium (not shown), and the adding
(ステップS113)追加部25は、カウンタiを1だけインクリメントする。そして、ステップS107に戻る。
(Step S113) The adding
(ステップS114)第1の分類部23は、その時点の学習結果である分類器を用いて、第1関係ペア候補記憶部15で記憶されている各第1関係ペア候補の分類を行い、その分類によって意味的関係を有するとされた第1関係ペア候補である第1関係ペアを、第1関係ペア記憶部26に蓄積する。なお、この分類の際に用いる各第1関係ペア候補の素性は、例えば、あらかじめ第1関係ペア候補記憶部15で記憶されていてもよく、あるいは、第1のコーパスを参照して取得してもよい。
(Step S114) The first classifying
(ステップS115)第2の分類部24は、その時点の学習結果である分類器を用いて、第2関係ペア候補記憶部17で記憶されている各第2関係ペア候補の分類を行い、その分類によって意味的関係を有するとされた第2関係ペア候補である第2関係ペアを、第2関係ペア記憶部27に蓄積する。なお、この分類の際に用いる各第2関係ペア候補の素性は、例えば、あらかじめ第2関係ペア候補記憶部17で記憶されていてもよく、あるいは、第2のコーパスを参照して取得してもよい。
(Step S115) The
このようにして、相互学習と、その学習結果を用いた分類との一連の処理が終了することになる。なお、図2のフローチャートにおいて、ステップS101〜S104までの処理の順序を問わないことは言うまでもない。ステップS107,S108の処理の順序、ステップS109,S110の処理の順序、ステップS114,S115の処理の順序を問わないことも言うまでもない。また、並列して実行できる処理については、並列処理を行ってもよいことは言うまでもない。このように、図2のフローチャートにおいて、一連の処理の目的が達成される範囲内における種々の変更が可能である。 In this way, a series of processes of mutual learning and classification using the learning result is completed. In the flowchart of FIG. 2, it goes without saying that the order of the processes from step S101 to S104 is not limited. Needless to say, the order of the processes in steps S107 and S108, the order of the processes in steps S109 and S110, and the order of the processes in steps S114 and S115 are not important. Needless to say, the processing that can be executed in parallel may be performed in parallel. As described above, in the flowchart of FIG. 2, various changes can be made within a range in which the purpose of a series of processing is achieved.
図3は、図2のフローチャートにおける学習データの追加の処理(ステップS111)の詳細を示すフローチャートである。
(ステップS201)追加部25は、ステップS109における第1の分類部23による分類結果から、Li S∪Li Uに含まれない共通ペアに対する分類結果の集合CRi Sを特定する。CRi Sは、次式で示されるものである。なお、ステップS109において、Li S∪Li Uに含まれない共通ペアに対する分類のみを行っている場合には、第1の分類部23による分類結果そのものが、CRi Sとなる。なお、集合CRi Sを特定する処理は、特定したものと特定していないものとを区別できるようにする処理であれば、その内容を問わない。集合CRi Sを特定する処理は、例えば、その特定した集合CRi Sを図示しない記録媒体に蓄積することであってもよく、特定した集合CRi Sの各要素に特定したことを示すフラグ等を設定することであってもよい。なお、このことは、他の特定の処理についても同様である。
(Step S201) The adding
(ステップS202)追加部25は、ステップS110における第2の分類部24による分類結果から、Li S∪Li Uに含まれない共通ペアに対する分類結果の集合CRi Uを特定する。CRi Uは、次式で示されるものである。なお、ステップS110において、Li S∪Li Uに含まれない共通ペアに対する分類のみを行っている場合には、第2の分類部24による分類結果そのものが、CRi Uとなる。
(ステップS203)追加部25は、分類結果の集合CRi Sから、確信度rの大きい順に選択したN個の分類結果の集合TopN(CRi S)を特定する。このNは、あらかじめ決められた1以上の整数であり、例えば、900などであってもよい。追加部25は、分類結果の集合CRi Sを確信度rの降順にソートして、上位からN個の分類結果の集合TopN(CRi S)を選択してもよい。
(Step S203)
(ステップS204)追加部25は、カウンタjを1に設定する。
(Step S204) The adding
(ステップS205)追加部25は、ステップS203で特定した分類結果の集合TopN(CRi S)に含まれるj番目の共通ペアyjの分類結果(yj、clj S、rj S)∈TopN(CRi S)と、同じ共通ペアyjに対する第2の分類部24による分類結果(yj、clj U、rj U)∈CRi Uとを用いて、その共通ペアyjが第2の学習データL(i+1) Uへの追加対象となるかどうか判断する。そして、共通ペアyjが第2の学習データL(i+1) Uへの追加対象となる場合には、ステップS206に進み、そうでない場合には、ステップS207に進む。なお、ステップS203で特定した分類結果の集合TopN(CRi S)に含まれるj番目の共通ペアyjの分類結果(yj、clj S、rj S)は、分類結果の集合CRi Sを確信度rの降順にソートした結果におけるj番目の共通ペアyjの分類結果(yj、clj S、rj S)であってもよい。
(Step S205) The adding
具体的には、次の(条件1)または(条件2)を満たす場合に、追加部25は、その共通ペアyjを第2の学習データL(i+1) Uに追加すると判断する。
(条件1):rj S>α、かつ、rj U<β
(条件2):rj S>α、かつ、clj S=clj U
Specifically, when the following (Condition 1) or (Condition 2) is satisfied, the adding
(Condition 1): r j S > α and r j U <β
(Condition 2): r j S > α and cl j S = cl j U
なお、条件1は、第1の分類部23の分類による確信度が高く、第2の分類部24の分類による確信度が低いことに対応している。また、条件2は、第1の分類部23による確信度が高く、第1及び第2の分類部23,24の分類結果が同じであることに対応している。なお、α、βの値は、あらかじめ適切に設定されているものとする。また、本実施の形態では、条件1,2の両方を用いて判断を行う場合について説明するが、いずれか一方の条件のみを用いて判断を行ってもよい。
(ステップS206)追加部25は、共通ペアyjとその分類結果clj Sとを、次のサイクルの機械学習で用いる第2の学習データL(i+1) Uに追加する。すなわち、
L(i+1) U←L(i+1) U∪(yj、clj S)
とする。なお、ステップS205〜S208のサイクルによる共通ペアの追加の処理が開始される以前に、L(i+1) U←Li Uとされているものとする。
(Step S206) The adding
L (i + 1) U ← L (i + 1) U ∪ (y j , cl j S )
And It is assumed that L (i + 1) U ← L i U before the process of adding a common pair in the cycle of steps S205 to S208 is started.
(ステップS207)追加部25は、カウンタjを1だけインクリメントする。
(Step S207) The adding
(ステップS208)追加部25は、ステップS203で特定した分類結果の集合TopN(CRi S)にj番目の共通ペアyjの分類結果(yj、clj S、rj S)が含まれるかどうか判断する。そして、j番目の分類結果が含まれる場合には、ステップS205に戻り、そうでない場合には、ステップS209に進む。なお、ステップS203で特定した分類結果の集合TopN(CRi S)にはN個の要素が含まれるため、追加部25は、j≦Nであるかどうか判断し、j≦Nである場合にはステップS205に戻り、そうでない場合にはステップS209に進んでもよい。
(Step S208) The adding
(ステップS209)追加部25は、分類結果の集合CRi Uから、確信度rの大きい順に選択したN個の分類結果の集合TopN(CRi U)を特定する。
(Step S209)
(ステップS210)追加部25は、カウンタjを1に設定する。
(Step S210) The adding
(ステップS211)追加部25は、ステップS209で特定した分類結果の集合TopN(CRi U)に含まれるj番目の共通ペアyjの分類結果(yj、clj U、rj U)∈TopN(CRi U)と、同じ共通ペアyjに対する第1の分類部23による分類結果(yj、clj S、rj S)∈CRi Sとを用いて、その共通ペアyjが第1の学習データL(i+1) Sへの追加対象となるかどうか判断する。そして、共通ペアyjが第2の学習データL(i+1) Sへの追加対象となる場合には、ステップS212に進み、そうでない場合には、ステップS213に進む。なお、ステップS209で特定した分類結果の集合TopN(CRi U)に含まれるj番目の共通ペアyjの分類結果(yj、clj U、rj U)は、分類結果の集合CRi Uを確信度rの降順にソートした結果におけるj番目の共通ペアyjの分類結果(yj、clj U、rj U)であってもよい。
(Step S211) The adding
具体的には、次の(条件3)または(条件4)を満たす場合に、追加部25は、その共通ペアyjを第1の学習データL(i+1) Sに追加すると判断する。
(条件3):rj U>α、かつ、rj S<β
(条件4):rj U>α、かつ、clj U=clj S
Specifically, when the following (Condition 3) or (Condition 4) is satisfied, the adding
(Condition 3): r j U > α and r j S <β
(Condition 4): r j U > α and cl j U = cl j S
なお、条件3は、第2の分類部24の分類による確信度が高く、第1の分類部23の分類による確信度が低いことに対応している。また、条件4は、第2の分類部24による確信度が高く、第1及び第2の分類部23,24の分類結果が同じであることに対応している。また、本実施の形態では、条件3,4の両方を用いて判断を行う場合について説明するが、いずれか一方の条件のみを用いて判断を行ってもよい。
Condition 3 corresponds to a high certainty factor according to the classification of the
(ステップS212)追加部25は、共通ペアyjとその分類結果clj Uとを、次のサイクルの機械学習で用いる第1の学習データL(i+1) Sに追加する。すなわち、
L(i+1) S←L(i+1) S∪(yj、clj U)
とする。なお、ステップS211〜S214のサイクルによる共通ペアの追加の処理が開始される以前に、L(i+1) S←Li Sとされているものとする。
(Step S212) The adding
L (i + 1) S ← L (i + 1) S ∪ (y j , cl j U )
And Note that L (i + 1) S ← L i S is assumed before the process of adding a common pair in the cycle of steps S211 to S214 is started.
(ステップS213)追加部25は、カウンタjを1だけインクリメントする。
(Step S213) The adding
(ステップS214)追加部25は、ステップS209で特定した分類結果の集合TopN(CRi U)にj番目の共通ペアyjの分類結果(yj、clj U、rj U)が含まれるかどうか判断する。そして、j番目の分類結果が含まれる場合には、ステップS211に戻り、そうでない場合には、図2のフローチャートに戻る。なお、ステップS209で特定した分類結果の集合TopN(CRi U)にはN個の要素が含まれるため、追加部25は、j≦Nであるかどうか判断し、j≦Nである場合にはステップS211に戻り、そうでない場合には図2のフローチャートに戻ってもよい。
(Step S214) The adding
ここで、第1のコーパスが構造化されたものであり、第2のコーパスが構造化されていないものである場合に、第1及び第2関係ペア候補、及び、第1及び第2無関係ペア候補を抽出する方法について説明する。なお、意味的関係は、上位下位の関係であるとする。また、ここでは、構造化された第1コーパスとして、百科事典コーパスを用いる場合について説明する。百科事典のコーパスでは、例えば、図5(a)で示されるように、タイトル「Tiger」に対して、セクション「Range」「Taxonomy」が存在し、そのセクション「Taxonomy」に対して、サブセクション「Subspecies」が存在し、そのサブセクション「Subspecies」に対して、リスト「Bengal tiger」「Malayan tiger」「Siberian tiger」が存在する。その百科事典のコーパスがHTMLやXML等のマークアップ言語によって記述されている場合には、タイトルを特定するタイトルタグや、セクションを特定するセクションタグ、サブセクションを特定するサブセクションタグ、リストを特定するリストタグ等を用いることによって、タイトルやセクション、サブセクション、リスト等を特定することができ、図5(b)で示されるように、それらのツリー構造を取得することができる。ツリー構造は、例えば、次のようにして取得することができる。例えば、セクションのタグAよりも後に存在するセクションよりも下位の階層のタグ(例えば、サブセクションのタグや、リストのタグ)であって、サブセクションのタグまたはサブセクションよりも上位の階層のタグ(例えば、タイトルダグ)が出現するまでに出現するタグのうち、セクションのタグAに最も近いタグ(これを「タグB」とする)は、そのセクションのタグAのノードとつながる一階層だけ下位のノードとなる。また、そのタグBよりも後に存在するタグであって、そのタグBと異なる階層のタグが出現するまでに出現するタグ(このタグはタグBと同じ階層である)も、そのセクションのタグAのノードとつながる一階層だけ下位のノードとなる。なお、上位階層から順にタイトル、セクション、サブセクション、リストとなることがあらかじめ決められているものとする。このようにして、図5(b)で示されるツリー構造が得られると、上位のノードと、その上位のノードに対する直接または間接の下位のノードとのペアが、第1関係ペア候補となる。図5(b)の場合には、例えば、(Tiger、Range)、(Tiger、Taxonomy)、(Tiger、Subspecies)、(Tiger、Bengal tiger)、(Taxonomy、Subspecies)、(Taxonomy、Bengal tiger)等が第1関係ペア候補となる。なお、その第1関係ペア候補において、(上位の言語表現、下位の言語表現)となっている。また、百科事典のコーパスにおけるツリー構造において、上位のノードと、その上位のノードに対する直接または間接の下位のノードとのペアでないペア、例えば、同じ親ノードを有するノードのペアが、第1無関係ペア候補となる。図5(b)の場合には、例えば、(Range、Taxonomy)、(Bengal tiger、Malayan tiger)等が第1無関係ペア候補となる。なお、第1の抽出部13は、第1関係ペア候補を抽出するために用いる第1のコーパスの部分と、第1無関係ペア候補を抽出するために用いる第1のコーパスの部分とを別にしてもよい。例えば、日本語のWIKIPEDIA(登録商標)から上位下位の関係を抽出する方法については、前述の非特許文献2を参照されたい。また、その文献に記載の方法を用いることによって、WIKIPEDIA(登録商標)のツリー構造を知ることができるため、前述のようにして、上位下位の関係でない関係を抽出することができる。 Here, when the first corpus is structured and the second corpus is unstructured, the first and second relationship pair candidates and the first and second unrelated pairs A method for extracting candidates will be described. It is assumed that the semantic relationship is an upper / lower relationship. Here, a case where an encyclopedia corpus is used as the structured first corpus will be described. In the encyclopedia corpus, for example, as shown in FIG. 5A, for the title “Tiger”, there are sections “Range” and “Taxonomy”, and for the section “Taxonomy”, the subsection “ "Subspecies", and for the subsection "Subspecies", there are lists "Bengal tiger", "Malayan tiger", and "Siberian tiger". If the encyclopedia corpus is described in a markup language such as HTML or XML, specify the title tag that identifies the title, the section tag that identifies the section, the subsection tag that identifies the subsection, and the list By using the list tag or the like, the title, section, subsection, list, etc. can be specified, and their tree structure can be obtained as shown in FIG. The tree structure can be acquired as follows, for example. For example, a tag in a lower hierarchy than a section existing after the section tag A (for example, a tag in a subsection or a tag in a list), and a tag in a hierarchy higher than the subsection tag or the subsection. Among the tags that appear before (for example, title Doug) appear, the tag closest to the tag A of the section (referred to as “tag B”) is one level lower than the tag A node of the section. Node. In addition, a tag that exists after the tag B and appears before a tag of a different hierarchy from the tag B appears (this tag is in the same hierarchy as the tag B) is also included in the tag A of the section. Only one layer connected to the node is a lower node. It is assumed that a title, a section, a subsection, and a list are determined in advance from the upper layer. When the tree structure shown in FIG. 5B is obtained in this way, a pair of an upper node and a direct or indirect lower node with respect to the upper node becomes a first relation pair candidate. In the case of FIG. 5B, for example, (Tiger, Range), (Tiger, Taxonomy), (Tiger, Subspecies), (Tiger, Bengal tiger), (Taxonomic, Subspecies), (Taxonomy, Bengalti, etc.) Becomes the first relationship pair candidate. In the first relation pair candidate, (higher language expression, lower language expression) is set. Also, in the encyclopedia corpus tree structure, a pair that is not a pair of an upper node and a direct or indirect lower node with respect to the upper node, for example, a pair of nodes having the same parent node is a first unrelated pair. Be a candidate. In the case of FIG. 5B, for example, (Range, Taxonomy), (Bengal tiger, Malayan tiger), etc. are the first unrelated pair candidates. The first extraction unit 13 separates the first corpus portion used to extract the first related pair candidate and the first corpus portion used to extract the first unrelated pair candidate. May be. For example, refer to the above-mentioned Non-Patent Document 2 for a method of extracting upper and lower relations from Japanese WIKI IPEDIA (registered trademark). Also, by using the method described in that document, it is possible to know the tree structure of WIKIPEDIA (registered trademark), so that it is possible to extract a relationship that is not a higher-order relationship as described above.
次に、第2のコーパスから第2関係ペア候補、第2無関係ペア候補を抽出する方法について説明する。ここでは、構造化されていない第2のコーパスとして、ウェブの情報を用いる場合について説明する。第2の抽出部14は、レキシコシンタクティックパターンを用いることによって、第2関係ペア候補、及び第2無関係ペア候補を抽出することができる。第2の抽出部14は、その第2のコーパスにおいて、例えば、上位下位の関係に対応するレキシコシンタクティックパターン「AというB」、「AなどのB」等に一致する箇所を特定し、言語表現A,Bを抽出することによって、第2関係ペア候補(A,B)を抽出することができる。また、第2の抽出部14は、その第2のコーパスにおいて、例えば、上位下位以外の関係(例えば、因果関係等)に対応するレキシコシンタクティックパターン「Cが原因となるD」、「Cに使用されるD」等に一致する箇所を特定し、言語表現C,Dを抽出することによって、第2無関係ペア候補(C,D)を抽出することができる。なお、このようにレキシコシンタクティックパターンを用いて意味的関係を有する言語表現のペアの候補を抽出する方法については、例えば、次の文献を参照されたい。
文献:Maya Ando、Satoshi Sekine、Shun Ishizaki、「Automatic extraction of hyponyms from Japanese newspaper using lexico−syntactic patterns」、In Proc.of LREC'04、2004年
Next, a method for extracting the second related pair candidate and the second unrelated pair candidate from the second corpus will be described. Here, a case where web information is used as the unstructured second corpus will be described. The second extraction unit 14 can extract the second related pair candidate and the second unrelated pair candidate by using the lexicosyntactic pattern. In the second corpus, for example, the second extraction unit 14 identifies a location that matches the lexicosyntactic pattern “B of A”, “B of A”, and the like corresponding to the upper and lower relationships, By extracting the linguistic expressions A and B, the second relationship pair candidate (A, B) can be extracted. In addition, the second extraction unit 14 uses, for example, a lexicosyntactic pattern “D caused by C”, “C” corresponding to a relationship other than upper and lower levels (for example, a causal relationship) in the second corpus. The second unrelated pair candidate (C, D) can be extracted by identifying the part that matches “D” used for the above and extracting the language expressions C, D. For a method of extracting a linguistic expression pair candidate having a semantic relationship using a lexicosyntactic pattern in this way, refer to the following document, for example.
Literature: Maya Ando, Satoshi Sekin, Shun Shizaki, “Automatic extraction of hypothems from Japan newspace using lexico-intactic tactics”. of LREC '04, 2004
また、第1のコーパスが構造化されたものであり、第2のコーパスが構造化されていないものであり、意味的関係が上位下位の関係である場合に、第1及び第2の分類部23,24の機械学習で用いられる素性について説明する。ここでは、第1のコーパスがWIKIPEDIA(登録商標)であり、第2のコーパスがウェブテキストである場合について説明する。 In addition, when the first corpus is structured, the second corpus is unstructured, and the semantic relationship is an upper-lower relationship, the first and second classification units The features used in the machine learning of 23 and 24 will be described. Here, a case where the first corpus is WIKIPEDIA (registered trademark) and the second corpus is web text will be described.
第1の分類部23による機械学習の素性には、第1関係ペア候補や学習データに含まれる2個の言語表現(この言語表現を言語表現A,Bとする)そのものや、各言語表現A,Bの形態素、品詞が含まれる。また、各言語表現A,Bの主辞の形態素が含まれてもよい。主辞とは、他の部分とつながっている主要な形態素のことである。日本語では通常、最後に位置する形態素が主辞となる。例えば、言語表現「XYZ大学」の場合には、最後の形態素「大学」が主辞となる。また、ツリー構造における言語表現A,Bの距離(階層の深さ)が素性に含まれてもよい。例えば、図5の場合には、「Tiger」と「Rnage」とは距離が「1」であり、「Tiger」と「Bengal tiger」とは距離が「3」である。また、言語表現A,Bが、項目の一覧やリストが現れるセクション等の複数のパターン(例えば、「〜の一覧」や、「〜のリスト」等)のいずれかに一致するかどうかの情報、言語表現A,Bが、WIKIPEDIA(登録商標)の見出し語(タイトル、セクションタイトル、サブセクションタイトルを含む。リストは含まない。)に頻出するもの(例えば、WIKIPEDIA(登録商標)にあらかじめ決められた頻度より多く出現するもの。例えば、「参考文献」や「外部リンク」等が該当する)に一致するかどうかの情報、言語表現A,Bのレイアウトタイプ(例えば、タイトル、セクション、リスト等)、言語表現A,Bのツリー構造のノードタイプ(例えば、ルートノード、リーフノード、中間ノードなどがある。図5の場合、「Tiger」がルートノードであり、「Bengal tiger」がリーフノードであり、「Range」が中間ノードである)、言語表現A,Bの親ノード、子ノードのうち、任意の1以上のものが素性に含まれてもよい。また、WIKIPEDIA(登録商標)のInfoboxから得られる属性や属性値が素性に含まれてもよい。なお、これらの素性については、前述の非特許文献2を参照されたい。
The features of machine learning by the
第2の分類部24による機械学習の素性には、第2関係ペア候補や学習データに含まれる2個の言語表現(この言語表現を言語表現A,Bとする)そのものや、各言語表現A,Bの形態素、品詞が含まれる。また、その2個の言語表現を取得するのに用いたレキシコシンタクティックパターンの識別子、その2個の言語表現とパターンとの間のPMI(point−wise mutual information)スコア、言語表現A,B間のPMIスコア、言語表現A,Bの名詞クラスのうち、任意の1以上のものが素性に含まれてもよい。なお、名詞クラスとは、次の文献によって示されるEMベースのクラスタリングによって5×105個の名詞を500個のクラスに分けたものである。例えば、名詞クラスC311は、「多糖」、「有機化合物」などの生物学や化学に関する名詞を有するクラスである。
文献:Jun'ichi Kazama、Kentaro Torisawa、「Inducing gazetteers for named entity recognition by large−scale clustering of dependency relations」、 In Proceedings of ACL−08:HLT、p.407−415、2008年
Machine learning by the second classifying
Literature: Jun'ichi Kazama, Kentaro Torisawa, “Inducting gazeteters for named entity recognition by large-scale crushing of dependency Pro. 407-415, 2008
また、第1及び第2の分類部23,24による機械学習や分類で用いられる素性は、上記説明のものに限定されないことは言うまでもない。他の素性が用いられてもよく、上記説明の一部の素性が用いられなくてもよい。また、意味的関係が上位下位ではない関係になった場合には、その意味的関係に応じた適切な素性が用いられることが好適である。
Needless to say, the features used in machine learning and classification by the first and
[実験例]
次に、本実施の形態による相互機械学習装置1の実験例について説明する。ここで、第1のコーパスとして、2009年7月バージョンの日本語のWIKIPEDIA(登録商標)を用いた。そして、1.9×107個の第1関係ペア候補を取得した。この第1関係ペア候補の抽出は、WIKIPEDIA(登録商標)のメインの記事のところから行った。なお、そこから24000個の第1関係ペア候補をランダムに抽出し、それらが意味的関係(上位下位の関係)を有するかどうかを手作業で判断した。そして、そのうちの20000個のペアを学習データとし、残りの4000個のペアをディベロップメントデータと、テストデータとに均等に分けた。ディベロップメントデータは、最適なパラメータの選択のために用いられるものである。また、テストデータは、評価のために用いられるものである。なお、学習データ、ディベロップメントデータ、テストデータのそれぞれには、人手で判断した正例と負例とが含まれている。
[Experimental example]
Next, an experimental example of the mutual
また、第2のコーパスとして、前述のTSUBAKIからの5×107ページ分のウェブテキストを用いた。そして、それらのウェブテキストから上位下位の関係のレキシコシンタクティックパターンを用いて6×106個の第2関係ペア候補を取得した。また、ウェブテキストから9500個の第2関係ペア候補をランダムに抽出し、それらが意味的関係(上位下位の関係)を有するかどうかを手作業で判断した。そして、そのうちの7500個のペアを学習データとし、残りの2000個のペアをディベロップメントデータと、テストデータとに均等に分けた。なお、学習データ、ディベロップメントデータ、テストデータのそれぞれには、人手で判断した正例と負例とが含まれている。
なお、本実験例において、第1関係ペア候補の集合や第2関係ペア候補の集合における意味的関係(上位下位の関係)を有する候補の割合はあまり高くなく、25〜30%程度であった。
Further, as the second corpus, 5 × 10 7 pages of web text from the above-mentioned TSUBAKI was used. Then, 6 × 10 6 second relationship pair candidates were obtained from these web texts using lexicosyntactic patterns of upper and lower relationships. In addition, 9500 second relationship pair candidates were randomly extracted from the web text, and it was manually determined whether or not they had a semantic relationship (higher-lower relationship). Of these, 7500 pairs were used as learning data, and the remaining 2000 pairs were divided equally into development data and test data. Each of the learning data, development data, and test data includes a positive example and a negative example that are manually determined.
In this experimental example, the ratio of candidates having a semantic relationship (higher-lower relationship) in the first relationship pair candidate set or the second relationship pair candidate set was not so high, and was about 25 to 30%. .
また、WIKIPEDIA(登録商標)のカテゴリーシステムを用いて、第1無関係ペア候補を抽出した。すなわち、第1関係ペア候補はメインの記事から抽出し、第1無関係ペア候補はカテゴリーシステムを用いて抽出したため、第1関係ペア候補を抽出するために用いる第1のコーパスの部分と、第1無関係ペア候補を抽出するために用いる第1のコーパスの部分とは別である。なお、その第1無関係ペア候補は、前述のように、そのペアに含まれる一方の言語表現が、他方の言語表現の祖先となっていないものである。また、TSUBAKIのページから因果関係等のレキシコシンタクティックパターンを用いて第2無関係ペア候補を抽出した。 Moreover, the 1st unrelated pair candidate was extracted using the category system of WIKIPEDIA (registered trademark). That is, since the first related pair candidate is extracted from the main article, and the first unrelated pair candidate is extracted using the category system, the first corpus portion used for extracting the first related pair candidate and the first This is different from the portion of the first corpus used to extract irrelevant pair candidates. Note that, as described above, the first irrelevant pair candidate is one in which one language expression included in the pair is not an ancestor of the other language expression. Moreover, the 2nd unrelated pair candidate was extracted from the TSUBAKI page using lexicosyntactic patterns such as a causal relationship.
また、この実験例では、polynomial kernel d=2のTinySVM(http://chasen.org/〜taku/software/TinySVM/)を第1及び第2の分類部23,24として用いた。また、ディベロップメントデータを用いた実験によって、パラメータα、β、Nを決定した。この実験例では、α=1.0、β=0.3、N=900とした。また、適合率(P)、再現率(R)、F値(F)を用いて評価を行った。
Further, in this experimental example, TinySVM (http://chasen.org/˜taku/software/TinySVM/) with a primary kernel d = 2 was used as the first and
この実験例では、6個のシステムを比較した。そのうちの3個はB1、B2、B3であり、異なる素性のセットと異なる学習データとの効果を示すためのものである。B1,B2では、2個の分類部を分けて機械学習したのに対して、B3では、単一の分類部の機械学習に、統合した素性のセットと学習データとを用いた。 In this experimental example, six systems were compared. Three of them are B1, B2, and B3, and are intended to show the effect of different feature sets and different learning data. In B1 and B2, two classifiers were machine-learned separately, whereas in B3, an integrated feature set and learning data were used for machine learning of a single classifier.
B1は、完全に独立した分類部から構成される。SとUの分類部は、それぞれ自分自身の素性と学習データとを用いて学習され、評価された。すなわち、Sの分類部に対してはWIKIPEDIA(登録商標)の素性と学習データが用いられ、Uの分類部に対してはウェブの素性と学習データが用いられた。 B1 is composed of a completely independent classification unit. The S and U classifiers were learned and evaluated using their own features and learning data, respectively. That is, the features and learning data of WIKIPEDIA (registered trademark) were used for the S classification unit, and the web features and learning data were used for the U classification unit.
B2は、2個の分類部が、統合された学習データを用いて学習された以外は、B1と同じである。すなわち、2個の分類部は、それぞれ、27500個の学習データで機械学習を行った。なお、その機械学習で用いる素性はそれぞれ別個である。ここで、Uの分類部の機械学習において、ウェブテキストから取得された学習データを学習する場合には、ディスタンス等の素性が存在しないが、それは存在しないものとして学習を行った。 B2 is the same as B1 except that the two classification units are learned using the integrated learning data. That is, each of the two classification units performed machine learning with 27500 pieces of learning data. Note that the features used in the machine learning are different. Here, in the machine learning of the classification unit of U, when learning data acquired from web text is learned, the learning such as distance does not exist, but learning is performed.
B3は、B1に対してマスター分類部を付加したものである。B2と同様に、統合された学習データを用いて学習された。また、すべての利用可能な素性を用いて機械学習を行った。すなわち、2個の分類部の両方において、同じ素性を用いた。さらに、B1の2個の分類部によって得られた各ペアに対するSVMスコアも素性に含めた。 B3 is obtained by adding a master classification unit to B1. As with B2, learning was performed using the integrated learning data. We also performed machine learning using all available features. That is, the same feature was used in both of the two classification parts. Furthermore, the SVM score for each pair obtained by the two classifiers of B1 was also included in the feature.
その他の3個のシステム、BICO,Co−B,Co−STAR(本実施の形態による相互機械学習装置1)は、二言語相互機械学習(BICO)と、相互機械学習(Co−BとCo−STAR)とを比較するためのものである。特に、Co−BとCo−STARとは、バーチャル共通ペアの使用の有無を評価するための比較を行う。また、Co−BとCo−STARとについて、B1、B2と同様の初期の学習データを用いた。なお、B1と同様の初期の学習データを用いたものは、Co−B、Co−STARと表記し、B2と同様の初期の学習データを用いたものは、Co−B*、Co−STAR*と表記している。すなわち、Co−B、Co−STARについては、第1の学習データが20000個(WIKIPEDIA(登録商標)から抽出されたもの)であり、第2の学習データが7500個(ウェブから抽出されたもの)であるが、Co−B*、Co−STAR*については、第1及び第2の学習データが27500個(WIKIPEDIA(登録商標)から抽出されたものとウェブから抽出されたものとをあわせたもの)ずつとなる。
The other three systems, BICO, Co-B, and Co-STAR (mutual
BICOは、前述の非特許文献2に記載されている二言語相互機械学習アルゴリズムを用いたものである。そのアルゴリズムでは、二言語の上位下位の意味的関係が協同的に2個の処理によって取得されていく。そのBICOのために、20000個の英語の学習データと、20000個の日本語の学習データとを用意した。なお、その20000個の日本語の学習データは、前述のWIKIPEDIA(登録商標)から取得した学習データと同じものである。 BICO uses a bilingual mutual machine learning algorithm described in Non-Patent Document 2 described above. In the algorithm, the upper and lower semantic relationships of two languages are acquired cooperatively by two processes. For the BICO, 20000 pieces of English learning data and 20000 pieces of Japanese learning data were prepared. Note that the 20,000 pieces of Japanese learning data are the same as the learning data acquired from the aforementioned WIKIPEDIA (registered trademark).
Co−Bは、本実施の形態による相互機械学習装置1(Co−STAR)の変形であり、前述のように、ジェニュイン共通ペアのみを用いるものである。この実験例では、67000個のジェニュイン共通ペアが用いられた。 Co-B is a modification of the mutual machine learning apparatus 1 (Co-STAR) according to the present embodiment, and uses only a genuine common pair as described above. In this experimental example, 67000 common common pairs were used.
Co−STARは、本実施の形態による相互機械学習装置1であり、ジェニュイン共通ペアとバーチャル共通ペアとの両方を用いた。それらの共通ペアの総数は643000個であった。
Co-STAR is a mutual
その実験結果は、図6で示されるとおりである。その実験結果は、前述のような初期の学習データと素性(前述の説明のすべての素性)とを用いて、終了条件が満たされるまで、順次、機械学習と共通ペアの分類と学習データの追加とを繰り返した後に、テストデータに対して分類を行った結果である。そのテストデータの分類部による結果が、人手による判断結果と同じかどうかによって、正解、不正解を判定した。なお、終了条件としては、diの値が3回連続して0.001未満であることを採用した。また、BICOでは、二言語でWIKIPEDIA(登録商標)のデータを用いた処理を行ったため、ウェブデータのほうについては結果が存在しない。図6の実験結果において、WebSetは、ウェブテキストを用いた実験結果(すなわち、第2の分類部24の分類による結果)であり、WikiSetは、WIKIPEDIA(登録商標)を用いた実験結果(すなわち、第1の分類部23の分類による結果)である。 The experimental result is as shown in FIG. The experimental results are based on the initial learning data and features (all the features described above) as described above. Machine learning, common pair classification, and learning data are added until the end condition is satisfied. This is a result of classifying the test data after repeating the above. The correct answer and the incorrect answer were determined depending on whether the result of the classification of the test data is the same as the result of manual judgment. As the termination condition, adopts the value of d i is less than 3 consecutive times 0.001. In addition, since BICO performs processing using data of WIKIPEDIA (registered trademark) in two languages, there is no result for web data. In the experimental results shown in FIG. 6, WebSet is an experimental result using web text (that is, a result of classification by the second classification unit 24), and WikiSet is an experimental result using WIKIPEDIA (registered trademark) (that is, The result of classification by the first classification unit 23).
B1〜B3の比較により、B2,B3がB1よりF値についてすぐれていることが分かる。B2,B3は、より多くの学習データ(27500個)を用いたため、それに比べて少数の学習データ(7500個と20000個)を用いたB1よりもよい結果になった。B2,B3は、分類部の個数が異なり、その分類部では異なる素性と学習データを用いて学習が行われたにもかかわらず、両者のF値は同様の結果となっている。 By comparing B1 to B3, it can be seen that B2 and B3 are superior to B1 in terms of the F value. Since B2 and B3 used more learning data (27500), the results were better than B1 using a smaller number of learning data (7500 and 20000). B2 and B3 differ in the number of classification units, and the F values of both are the same, although the classification unit has learned using different features and learning data.
Co−STARは、B1〜B3よりもより性能が優れていることが分かる。また、Co−STARは、BICOに対しても、より少ない学習データで、よりよい性能であることが分かる。なお、Co−STARの学習データは全部で27500個であり、BICOの学習データは全部で40000個である。Co−BとCo−STARとの性能の違いは、バーチャル共通ペアの使用の有無の効果を示している。Co−BよりもCo−STARのほうがF値が高いことによって、ジェニュイン共通ペアと共にバーチャル共通ペアを用いた方が、2個の分類部のより効果的な協同を実現できることが分かる。 It can be seen that Co-STAR has better performance than B1 to B3. It can also be seen that Co-STAR has better performance with less learning data than BICO. The total learning data for Co-STAR is 27500, and the total learning data for BICO is 40000. The difference in performance between Co-B and Co-STAR shows the effect of using or not using a virtual common pair. Since Co-STAR has a higher F value than Co-B, it can be seen that using the virtual common pair together with the genuine common pair can realize more effective cooperation between the two classification units.
このように、本実施の形態による相互機械学習装置1(Co−STAR)は、他の方法に対して、F値が1.4〜8.5%高く、他の方法よりも性能の高い学習を実現できていることが分かる。なお、そのようにして機械学習を行った相互機械学習装置1によって、ウェブテキストから4.3×105個の第1関係ペア(上位下位の関係のペア)を取得することができ、WIKIPEDIA(登録商標)から4.6×106個の第2関係ペア(上位下位の関係のペア)を取得することができた。また、SVMのしきい値をウェブデータに対しては0.23に設定し、WIKIPEDIA(登録商標)に対しては0.1に設定することによって、90%の適合率を得ることもできた。
As described above, the mutual machine learning device 1 (Co-STAR) according to the present embodiment has an F value that is 1.4 to 8.5% higher than other methods, and has higher performance than other methods. It can be seen that The mutual
次に、本実施の形態による相互機械学習装置1のロバスト性を評価する実験例について説明する。この実験例では、構造化されたコーパス(WIKIPEDIA(登録商標))については、前述の実験例と同様の人手による学習データを用い、構造化されていないコーパス(ウェブテキスト)については、自動的に取得したノイズの多い(すなわち、必ずしも高精度でない)学習データを用いた。その学習データについて簡単に説明する。その学習データの正例については、次のように取得した。まず、WIKIPEDIA(登録商標)の定義文(WIKIPEDIA(登録商標)の記事の頭の文)から「(下位の言語表現)は(上位の言語表現)である」や「(下位の言語表現)は(上位の言語表現)の一種である」等のパターンを用いて取得した上位下位の関係のペアと、WIKIPEDIA(登録商標)のカテゴリーを用いて取得した上位下位の関係のペアとを取得した。WIKIPEDIA(登録商標)のカテゴリーを用いて上位下位の関係のペアを取得する際には、まず、タイトルを下位の言語表現、そのタイトルのカテゴリーを上位の言語表現とするペアを取得した。そして、そのタイトルが下位の言語表現である上位下位の関係のペアが、WIKIPEDIA(登録商標)の定義文からパターンを用いて取得できており、かつ、その上位下位の関係のペアの上位の言語表現と、カテゴリーである上位の言語表現との主辞が一致している場合に、そのタイトルを下位の言語表現、そのタイトルのカテゴリーを上位の言語表現とするペアを上位下位の関係のペアとした。例えば、タイトル「新型インフルエンザ」、定義文「新型インフルエンザは、インフルエンザウイルスのうち ヒト−ヒト間の伝染能力を新たに有するようになったウイルスを病原体とするインフルエンザ感染症である」から、定義文のパターンを用いて、上位下位の関係(インフルエンザ感染症、新型インフルエンザ)を正例のペアとして取得する。また、「新型インフルエンザ」のカテゴリーに「ウイルス感染症」がある場合には、そのカテゴリーの主辞の「感染症」が、定義文のパターンを用いて取得された上位下位の関係の上位の言語表現の主辞と一致するため、このカテゴリーから取得された「ウイルス感染症」も、「新型インフルエンザ」の上位の言語表現の正例として取得する。すなわち、カテゴリーから、上位下位の関係(ウイルス感染症、新型インフルエンザ)を正例のペアとして取得することになる。
Next, an experimental example for evaluating the robustness of the mutual
そのようにして取得した上位下位の関係のうち、第2関係ペア候補との共通するものを正例の学習データとした。学習データの負例については、バーチャル共通ペア、特にRS∩XUから取得した。このようにして取得した学習データのサイズは非常に大きくなるため、前述の実験例と同じになるように、7500個の学習データをランダムに選択した。その際に、正例と負例の比が1:4となるように選択を行った。 Among the upper and lower relations acquired in this way, the common relation with the second relation pair candidate was used as positive example learning data. Negative examples of learning data were obtained from virtual common pairs, particularly R S RX U. Since the size of the learning data acquired in this way becomes very large, 7500 pieces of learning data were randomly selected so as to be the same as the above-described experimental example. At that time, selection was made so that the ratio of positive example to negative example was 1: 4.
そのような学習データを用いて、前述の実験例と同様の実験を行ったところ、結果は、図7で示されるようになった。その図7の結果から、本実施の形態による相互機械学習装置1(Co−STAR)は、精度の低い学習データに対してロバスト性を有していることが分かる。また、本実施の形態による相互機械学習装置1(Co−STAR)は、図6の結果に比べると、少しは性能が落ちているが、B1〜B3に対して、よりよい性能を有していることが分かる。したがって、性能が少し落ちてもよい場合には、人手によって学習データを用意する労力を軽減することができることが分かる。 Using such learning data, an experiment similar to the above-described experimental example was performed, and the result was as shown in FIG. From the result of FIG. 7, it can be seen that the mutual machine learning device 1 (Co-STAR) according to the present embodiment has robustness with respect to learning data with low accuracy. Moreover, although the mutual machine learning apparatus 1 (Co-STAR) by this Embodiment has a little performance fall compared with the result of FIG. 6, it has a better performance with respect to B1-B3. I understand that. Therefore, it can be understood that the labor for preparing the learning data manually can be reduced when the performance may be slightly reduced.
以上のように、本実施の形態による相互機械学習装置1によれば、共通ペア、すなわち、ジェニュイン共通ペアと、バーチャル共通ペアとを用いて相互機械学習を行うことによって、より性能の高い相互機械学習を実現することができる。前述の非特許文献1,2は、ジェニュイン共通ペアしか用いていないため、本実施の形態による相互機械学習装置1は、バーチャル共通ペアを用いた2個の機械学習の共同によって、それら非特許文献1,2の手法よりも、より高い性能を実現できたことになる。また、本実施の形態による相互機械学習装置1は、精度の低い学習データに対してもロバスト性を有していることが分かる。したがって、学習データを用意する際の人手による作業を軽減することも可能となる。また、本実施の形態による相互機械学習装置1によれば、構造化されたデータと、構造化されていないデータのように、第1及び第2の分類部23,24ごとに、異なる処理対象を扱うことも可能となる。
As described above, according to the mutual
このようにして、本実施の形態による相互機械学習装置1を用いて取得された意味的関係は、例えば、ウェブ検索などの情報検索システムや、機械翻訳システムなどで用いることができる。具体的には、ウェブ検索において、意味的関係を用いたクエリの拡張が可能となる。例えば、辞書に登録されていない未知語が入力された場合に、その未知語を下位語とする上位下位の関係が本実施の形態による相互機械学習装置1によって取得されているのであれば、その未知語の上位語による検索を行うことができる。また、機械翻訳システムにおいても、意味的関係を有することによって、より適切な訳語を選択することができると共に、訳語の登録がなくても、その上位語を用いて翻訳するなどの柔軟な翻訳を行うことができる。なお、本実施の形態による相互機械学習装置1を用いて取得された意味的関係の使用方法はこれらに限定されるものではなく、他の種々の活用方法があることは言うまでもない。
Thus, the semantic relationship acquired using the mutual
なお、本実施の形態において、バーチャル共通ペアを拡張してもよい。すなわち、バーチャル共通ペアの集合Vは、図4で示されるVの領域以外の共通ペアをも含むものであってもよい。例えば、バーチャル共通ペアは、複数の第1関係ペア候補と、複数の第2関係ペア候補と、複数の第1無関係ペア候補と、複数の第2無関係ペア候補とのうち、ジェニュイン共通ペアではないペアである共通ペアであってもよい。その場合には、バーチャル共通ペアの集合Vは、図4において、XS、RS、XU、RUの網掛けのない部分をも含むようになる。ここで、厳密に言えば、XS、RS、XU、RUの網掛けのない部分のペアは共通ペアではないが、ここではバーチャル共通ペアを拡張しているため、便宜上、そのペアについても共通ペアと呼ぶことにする。すなわち、この場合には、バーチャル共通ペアの集合Vは、本来の共通ペア(2個の集合に共通するペア)を含むペアの集合となる。 In the present embodiment, the virtual common pair may be expanded. That is, the set V of virtual common pairs may also include common pairs other than the region of V shown in FIG. For example, the virtual common pair is not a genuine common pair among a plurality of first relationship pair candidates, a plurality of second relationship pair candidates, a plurality of first irrelevant pair candidates, and a plurality of second irrelevant pair candidates. It may be a common pair that is a pair. In that case, the set V of virtual common pairs also includes portions of X S , R S , X U , and R U that are not shaded in FIG. Strictly speaking, a pair of non-shaded portions of X S , R S , X U , and R U is not a common pair, but since the virtual common pair is expanded here, the pair is not shown for convenience. Is also called a common pair. That is, in this case, the set V of virtual common pairs is a set of pairs including the original common pair (a pair common to two sets).
また、本実施の形態において、追加部25が、第1及び第2の分類部23,24の分類による確信度の高い共通ペアとその分類結果とを学習データに追加する場合について説明したが、追加部25は、それ以外の処理を行ってもよい。すなわち、追加部25は、第1の分類部23の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、その共通ペアとその共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部24の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、その共通ペアとその共通ペアに関する分類結果とを第1の学習データに追加してもよい。ここで、「共通ペアの分類結果と確信度との少なくとも一方に応じて、その共通ペアとその共通ペアに関する分類結果とを学習データに追加する」とは、共通ペアの分類結果と確信度との少なくとも一方が所定の条件を満たしている場合には、その共通ペアと分類結果が学習データに追加され、共通ペアの分類結果と確信度との少なくとも一方がその所定の条件を満たしていない場合には、その共通ペア等が学習データに追加されないことを意味している。その所定の条件は、例えば、分類結果のみに関するものであってもよく、確信度のみに関するものであってもよく、あるいは、分類結果と確信度の両方に関するものであってもよい。例えば、追加部25は、ある共通ペアについて、第1及び第2の分類部23,24の分類結果が同じである場合に、その共通ペアとその共通ペアの分類結果とを第1及び第2の学習データに追加してもよい。また、例えば、追加部25は、第1の分類部23の分類による確信度が高い共通ペアのうち、ランダムに選択された共通ペアとその分類結果とを第2の学習データに追加し、第2の分類部24の分類による確信度が高い共通ペアのうち、ランダムに選択された共通ペアとその分類結果とを第1の学習データに追加してもよい。また、例えば、追加部25は、第1の分類部23の分類による確信度が高い共通ペアのうち、正例となる共通ペアとその分類結果とを第2の学習データに追加し、第2の分類部24の分類による確信度が高い共通ペアのうち、正例となる共通ペアとその分類結果とを第1の学習データに追加してもよい。また、例えば、追加部25は、第1の分類部23の分類による正例の共通ペアとその分類結果とを第2の学習データに追加し、第2の分類部24の分類による正例の共通ペアとその分類結果とを第1の学習データに追加してもよい。
Moreover, in this Embodiment, although the
また、本実施の形態では、第1のコーパスが構造を有するものであり、第2のコーパスが構造を有しないものである場合について主に説明したが、そうでなくてもよい。例えば、両者共に、構造を有するものであってもよい。その場合であっても、例えば、第1のコーパスから、本実施の形態と同様に、構造を用いて第1関係ペア候補等を抽出し、第2のコーパスから、本実施の形態と同様に、レキシコシンタクティックパターンを用いて第2関係ペア候補等を抽出してもよい。なお、意味的関係が上位下位の関係でない場合には、その意味的関係に応じた構造等を用いた第1関係ペア候補等や、第2関係ペア候補等の抽出が行われることが好適である。例えば、文書構造や文書間構造、テーブル(表)構造等を用いて第1関係ペア候補等を抽出してもよい。 In the present embodiment, the case where the first corpus has a structure and the second corpus has no structure has been mainly described, but this need not be the case. For example, both may have a structure. Even in that case, for example, the first relationship pair candidate or the like is extracted from the first corpus using the structure in the same manner as in the present embodiment, and from the second corpus as in the present embodiment. The second relationship pair candidate or the like may be extracted using a lexicosyntactic pattern. If the semantic relationship is not an upper-lower relationship, it is preferable to extract the first relationship pair candidate, the second relationship pair candidate, etc. using a structure or the like according to the semantic relationship. is there. For example, the first relationship pair candidate or the like may be extracted using a document structure, an inter-document structure, a table structure, or the like.
また、本実施の形態では、第1の抽出部13が第1関係ペア候補、第1無関係ペア候補を抽出し、第2の抽出部14が第2関係ペア候補、第2無関係ペア候補を抽出する場合について説明したが、そうでなくてもよい。その場合には、相互機械学習装置1は、第1のコーパス記憶部11、第2のコーパス記憶部12、第1の抽出部13、第2の抽出部14を備えていなくてもよい。また、その場合には、第1関係ペア候補、第1無関係ペア候補、第2関係ペア候補、第2無関係ペア候補は、第1及び第2の抽出部13,14の抽出と同様にして抽出されたものであってもよく、あるいは、他の方法(例えば、人手による方法等)によって抽出されたものであってもよい。また、第1関係ペア候補記憶部15、第1無関係ペア候補記憶部16、第2関係ペア候補記憶部17、第2無関係ペア候補記憶部18に第1関係ペア候補等が記憶される過程は問わない。例えば、記録媒体を介して第1関係ペア候補等が第1関係ペア候補記憶部15等で記憶されるようになってもよく、あるいは、通信回線等を介して送信された第1関係ペア候補等が第1関係ペア候補記憶部15等で記憶されるようになってもよい。なお、機械学習や分類を行う際には、素性が必要であるため、相互機械学習装置1が第1及び第2のコーパス記憶部11,12を備えていない場合には、第1関係ペア候補等の言語表現のペアに、あらかじめ素性の情報が対応付けられていることが好適である。第1及び第2の分類部23,24は、その素性の情報を用いることによって、機械学習や分類を行うことができる。
In the present embodiment, the first extraction unit 13 extracts the first relationship pair candidate and the first irrelevant pair candidate, and the second extraction unit 14 extracts the second relationship pair candidate and the second irrelevant pair candidate. Although the case where it does is demonstrated, it does not need to be so. In that case, the mutual
また、本実施の形態では、第1及び第2の分類部23,24が第1及び第2関係ペア候補を分類した結果である第1及び第2関係ペアが蓄積される第1及び第2関係ペア記憶部26,27を備える場合について説明したが、第1及び第2の分類部23,24が第1及び第2関係ペア候補の分類を行わない場合や、第1及び第2の分類部23,24が第1及び第2関係ペアの蓄積を行わない場合(例えば、第1及び第2関係ペア候補記憶部15,17で記憶されている第1及び第2関係ペアに対してフラグを設定するような場合)には、相互機械学習装置1は、第1及び第2関係ペア記憶部26,27を備えていなくてもよい。
In the present embodiment, the first and second relationship pairs in which the first and second relationship pairs, which are the results of the first and
また、本実施の形態では、取得部19が共通ペアの取得を行う場合について説明したが、そうでなくてもよい。その場合には、相互機械学習装置1は、第1関係ペア候補記憶部15、第1無関係ペア候補記憶部16、第2関係ペア候補記憶部17、第2無関係ペア候補記憶部18、取得部19を備えていなくてもよい。また、その場合に、共通ペア記憶部20に共通ペア(ジェニュイン共通ペアやバーチャル共通ペア)が記憶される過程は問わない。例えば、記録媒体を介して共通ペアが共通ペア記憶部20で記憶されるようになってもよく、あるいは、通信回線等を介して送信された共通ペアが共通ペア記憶部20で記憶されるようになってもよい。
Moreover, although this Embodiment demonstrated the case where the
また、本実施の形態による相互機械学習装置1は、当該装置内で生成された情報を出力する図示しない出力部をさらに備えてもよい。その出力対象の情報は、例えば、第1関係ペア記憶部26で記憶される第1関係ペアであってもよく、第2関係ペア記憶部27で記憶される第2関係ペアであってもよく、第1の分類部23による学習結果の情報であってもよく、第2の分類部24による学習結果の情報であってもよく、その他の情報であってもよい。その図示しない出力部による出力は、例えば、所定の機器への通信回線を介した送信でもよく、記録媒体への蓄積でもよい。なお、その図示しない出力部は、出力を行うデバイス(例えば、通信デバイスなど)を含んでもよく、あるいは含まなくてもよい。また、その図示しない出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
In addition, the mutual
また、本実施の形態では、機械学習の後に、第1及び第2の分類部23,24が第1関係ペア候補、第2関係ペア候補の分類を行う場合について説明したが、第1及び第2の分類部23,24は、第1無関係ペア候補、第2無関係ペア候補についても、分類を行ってもよい。
Moreover, although this Embodiment demonstrated the case where the 1st and 2nd classification |
また、本実施の形態では、第1のコーパスと、第2のコーパスとを用いて相互機械学習を行う場合について説明したが、3個以上のコーパスを用いて本実施の形態による相互機械学習装置1と同様の相互機械学習を行ってもよいことは言うまでもない。なお、その場合であっても、その3個以上のコーパスのうち、2個のコーパスに注目すると、本実施の形態による相互機械学習装置1と同様の処理が行われることになる。
In the present embodiment, the case where the mutual machine learning is performed using the first corpus and the second corpus has been described. However, the mutual machine learning apparatus according to the present embodiment using three or more corpora. It goes without saying that mutual machine learning similar to 1 may be performed. Even in such a case, if attention is paid to two corpuses among the three or more corpora, the same processing as the mutual
また、上記実施の形態では、相互機械学習装置1がスタンドアロンである場合について説明したが、相互機械学習装置1は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部等は、例えば、通信回線を介して情報を出力してもよい。
Moreover, although the case where the mutual
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。 In the above embodiment, each process or each function may be realized by centralized processing by a single device or a single system, or may be distributedly processed by a plurality of devices or a plurality of systems. It may be realized by doing.
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。 In the above embodiment, information related to processing executed by each component, for example, information received, acquired, selected, generated, transmitted, or received by each component In addition, information such as threshold values, mathematical formulas, addresses, etc. used by each component in processing is retained temporarily or over a long period of time on a recording medium (not shown) even when not explicitly stated in the above description. It may be. Further, the storage of information in the recording medium (not shown) may be performed by each component or a storage unit (not shown). Further, reading of information from the recording medium (not shown) may be performed by each component or a reading unit (not shown).
また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。 In the above embodiment, when information used by each component, for example, information such as a threshold value, an address, and various setting values used by each component may be changed by the user Even if it is not specified in the above description, the user may be able to change the information as appropriate, or it may not be. If the information can be changed by the user, the change is realized by, for example, a not-shown receiving unit that receives a change instruction from the user and a changing unit (not shown) that changes the information in accordance with the change instruction. May be. The change instruction received by the receiving unit (not shown) may be received from an input device, information received via a communication line, or information read from a predetermined recording medium, for example. .
また、上記実施の形態において、相互機械学習装置1に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
In the above embodiment, when two or more components included in the mutual
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における相互機械学習装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペアと、第1のコーパスから抽出された、意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、複数の第2関係ペア候補とに共通する共通ペアであるバーチャル共通ペア、及び、第2のコーパスから抽出された、意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補と、複数の第1関係ペア候補とに共通する共通ペアであるバーチャル共通ペアとが記憶される共通ペア記憶部と、第1関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、第2関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部とにアクセス可能なコンピュータを、第1の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する第1の分類部、第2の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する第2の分類部、第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第1の学習データに追加する追加部として機能させ、第1及び第2の分類部による機械学習及び分類と、追加部による学習データの追加とが繰り返して実行される、プログラムである。
In the above embodiment, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory. In addition, the software which implement | achieves the mutual
また、上記実施の形態における相互機械学習装置1を実現するソフトウェアは、以下のようなプログラムであってもよい。つまり、このプログラムは、第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペア、及び、前記複数の第1関係ペア候補と、前記複数の第2関係ペア候補と、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補とのうち、前記ジェニュイン共通ペアではないペアである共通ペアであるバーチャル共通ペアが記憶される共通ペア記憶部と、前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部とにアクセス可能なコンピュータを、前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部、前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部、第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第1の学習データに追加する追加部として機能させ、前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、プログラムである。
Moreover, the following programs may be sufficient as the software which implement | achieves the mutual
なお、プログラムにおいて、そのプログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、そのプログラムが実現する機能には少なくとも含まれない。 In the program, functions realized by the program do not include functions that can be realized only by hardware. For example, functions that can be realized only by hardware such as a modem or an interface card in an acquisition unit that acquires information, an output unit that outputs information, and the like are not included in at least the functions realized by the program.
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。 Further, this program may be executed by being downloaded from a server or the like, and a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed by Further, this program may be used as a program constituting a program product.
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 Further, the computer that executes this program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
図8は、上記プログラムを実行して、上記実施の形態による相互機械学習装置1を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
FIG. 8 is a schematic diagram illustrating an example of an external appearance of a computer that executes the program and realizes the mutual
図8において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
In FIG. 8, a
図9は、コンピュータシステム900の内部構成を示す図である。図9において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
FIG. 9 is a diagram showing an internal configuration of the
コンピュータシステム900に、上記実施の形態による相互機械学習装置1の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
A program that causes the
プログラムは、コンピュータ901に、上記実施の形態による相互機械学習装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
The program does not necessarily include an operating system (OS) or a third party program that causes the
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 Further, the present invention is not limited to the above-described embodiment, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上より、本発明による相互機械学習装置等によれば、より精度の高い機械学習を実現できるという効果が得られ、機械学習を行う装置等として有用である。 As described above, according to the mutual machine learning device or the like according to the present invention, an effect that a machine learning with higher accuracy can be realized is obtained, and it is useful as a device for performing machine learning.
1 相互機械学習装置
11 第1のコーパス記憶部
12 第2のコーパス記憶部
13 第1の抽出部
14 第2の抽出部
15 第1関係ペア候補記憶部
16 第1無関係ペア候補記憶部
17 第2関係ペア候補記憶部
18 第2無関係ペア候補記憶部
19 取得部
20 共通ペア記憶部
21 第1の学習データ記憶部
22 第2の学習データ記憶部
23 第1の分類部
24 第2の分類部
25 追加部
26 第1関係ペア記憶部
27 第2関係ペア記憶部
DESCRIPTION OF
Claims (14)
前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、
前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部と、
前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、
前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部と、
前記第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加部と、を備え、
前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、相互機械学習装置。 A plurality of first relationship pair candidates that are extracted from the first corpus by the first method and that are candidates for pairs of linguistic expressions having a semantic relationship, and a second method different from the first method. Extracted from two corpora, a common pair common to a plurality of second relationship pair candidates that are candidates for a pair of language expressions having a semantic relationship, and extracted from the first corpus In addition, a plurality of first unrelated pair candidates that are candidates for pairs of language expressions that do not have the semantic relationship, a virtual common pair that is a common pair common to the plurality of second relationship pair candidates, and A common pair that is extracted from a second corpus and is common to a plurality of second unrelated pair candidates that are candidates for a pair of language expressions having no semantic relationship and the plurality of first relationship pair candidates. Ba A common pair storage unit and the Virtual common pair is stored,
A first learning data storage unit that stores first learning data that is teacher data used in machine learning related to classification of whether the first relationship pair candidate has the semantic relationship;
A first classification unit that performs machine learning using the first learning data, and classifies whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning When,
A second learning data storage unit that stores second learning data that is teacher data used in machine learning related to classification of whether the second relationship pair candidate has the semantic relationship;
A second classification unit that performs machine learning using the second learning data, and classifies whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning When,
Adding the common pair and the classification result related to the common pair to the second learning data according to at least one of the classification result and the certainty factor of the common pair according to the classification of the first classification unit; An additional unit that adds the common pair and the classification result related to the common pair to the first learning data according to at least one of the classification result of the common pair by the classification of the classification unit and the certainty factor,
A mutual machine learning device in which machine learning and classification by the first and second classification units and addition of learning data by the adding unit are repeatedly executed.
前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、
前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部と、
前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、
前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部と、
前記第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加部と、を備え、
前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、相互機械学習装置。 A plurality of first relationship pair candidates that are extracted from the first corpus by the first method and that are candidates for pairs of linguistic expressions having a semantic relationship, and a second method different from the first method. Genuine common pairs extracted from two corpora and common to a plurality of second relationship pair candidates that are candidate language expression pairs having a semantic relationship, and the plurality of first relationship pairs A plurality of second irrelevant pair candidates extracted from the first corpus, a plurality of first irrelevant pair candidates that are extracted from the first corpus and are linguistic expression pair candidates that do not have the semantic relationship, Birch that is a common pair that is a pair that is not a genuine common pair among a plurality of second irrelevant pair candidates that are extracted from the corpus of 2 and that are candidate language expression pairs that do not have a semantic relationship A common pair storage unit Le common pair is stored,
A first learning data storage unit that stores first learning data that is teacher data used in machine learning related to classification of whether the first relationship pair candidate has the semantic relationship;
A first classification unit that performs machine learning using the first learning data, and classifies whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning When,
A second learning data storage unit that stores second learning data that is teacher data used in machine learning related to classification of whether the second relationship pair candidate has the semantic relationship;
A second classification unit that performs machine learning using the second learning data, and classifies whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning When,
Adding the common pair and the classification result related to the common pair to the second learning data according to at least one of the classification result and the certainty factor of the common pair according to the classification of the first classification unit; An additional unit that adds the common pair and the classification result related to the common pair to the first learning data according to at least one of the classification result of the common pair by the classification of the classification unit and the certainty factor,
A mutual machine learning device in which machine learning and classification by the first and second classification units and addition of learning data by the adding unit are repeatedly executed.
前記第1の分類部の分類による確信度が高い共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による確信度が高い共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する、請求項1または請求項2記載の相互学習装置。 The additional part is:
A common pair having a high certainty factor by the classification of the first classification unit and a classification result related to the common pair are added to the second learning data, and a common pair having a high certainty factor by the classification of the second classification unit; The mutual learning device according to claim 1, wherein a classification result related to the common pair is added to the first learning data.
前記第1の分類部の分類による確信度が高く、前記第1及び第2の分類部の分類結果が同じである共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による確信度が高く、前記第1及び第2の分類部の分類結果が同じである共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する、請求項3記載の相互機械学習装置。 The additional part is:
A common pair having a high certainty factor by the classification of the first classification unit and having the same classification result of the first and second classification units and a classification result related to the common pair are added to the second learning data. A common pair having a high certainty factor by the classification of the second classification unit and having the same classification result of the first and second classification units and a classification result related to the common pair are added to the first learning data. The mutual machine learning device according to claim 3.
前記第1の分類部の分類による確信度が高く、前記第2の分類部の分類による確信度が低い共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による確信度が高く、前記第1の分類部の分類による確信度が低い共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する、請求項3または請求項4記載の相互機械学習装置。 The additional part is:
Adding a common pair having a high certainty factor by the classification of the first classification unit and a low certainty factor by the classification of the second classification unit and a classification result related to the common pair to the second learning data; A common pair having a high certainty factor by the classification of the second classification unit and a low certainty factor by the classification of the first classification unit and a classification result related to the common pair are added to the first learning data. The mutual machine learning device according to claim 4.
前記複数の第1無関係ペア候補が記憶される第1無関係ペア候補記憶部と、
前記複数の第2関係ペア候補が記憶される第2関係ペア候補記憶部と、
前記複数の第2無関係ペア候補が記憶される第2無関係ペア候補記憶部と、
前記複数の第1関係ペア候補と前記複数の第2関係ペア候補とを用いて、前記ジェニュイン共通ペアを取得して前記共通ペア記憶部に蓄積し、前記複数の第1関係ペア候補と前記複数の第2関係ペア候補と前記複数の第1無関係ペア候補と前記複数の第2無関係ペア候補とを用いて、前記バーチャル共通ペアを取得して前記共通ペア記憶部に蓄積する取得部と、をさらに備えた、請求項1から請求項5のいずれか記載の相互機械学習装置。 A first relationship pair candidate storage unit in which the plurality of first relationship pair candidates are stored;
A first irrelevant pair candidate storage unit that stores the plurality of first irrelevant pair candidates;
A second relationship pair candidate storage unit in which the plurality of second relationship pair candidates are stored;
A second irrelevant pair candidate storage unit in which the plurality of second irrelevant pair candidates are stored;
Using the plurality of first relationship pair candidates and the plurality of second relationship pair candidates, the genuine common pair is acquired and stored in the common pair storage unit, and the plurality of first relationship pair candidates and the plurality Using the second relationship pair candidate, the plurality of first irrelevant pair candidates and the plurality of second irrelevant pair candidates, an acquisition unit that acquires the virtual common pair and accumulates it in the common pair storage unit; The mutual machine learning apparatus according to claim 1, further comprising:
前記第2のコーパスが記憶される第2のコーパス記憶部と、
前記第1のコーパスから前記複数の第1関係ペア候補を抽出して前記第1関係ペア候補記憶部に蓄積し、前記第1のコーパスから前記複数の第1無関係ペア候補を抽出して前記第1無関係ペア候補記憶部に蓄積する第1の抽出部と、
前記第2のコーパスから前記複数の第2関係ペア候補を抽出して前記第2関係ペア候補記憶部に蓄積し、前記第2のコーパスから前記複数の第2無関係ペア候補を抽出して前記第2無関係ペア候補記憶部に蓄積する第2の抽出部と、をさらに備えた、請求項6記載の相互機械学習装置。 A first corpus storage unit in which the first corpus is stored;
A second corpus storage unit for storing the second corpus;
The plurality of first relationship pair candidates are extracted from the first corpus and stored in the first relationship pair candidate storage unit, and the plurality of first unrelated pair candidates are extracted from the first corpus. A first extraction unit that accumulates in one unrelated pair candidate storage unit;
The plurality of second relationship pair candidates are extracted from the second corpus and accumulated in the second relationship pair candidate storage unit, and the plurality of second unrelated pair candidates are extracted from the second corpus. The mutual machine learning device according to claim 6, further comprising: a second extraction unit that accumulates in the two unrelated pair candidate storage units.
前記第2の分類部は、機械学習及び分類と学習データの追加との繰り返しの後に、前記複数の第2関係ペア候補に対して分類を行う、請求項6または請求項7記載の相互機械学習装置。 The first classifying unit classifies the plurality of first relationship pair candidates after repeating machine learning and classification and addition of learning data,
The mutual machine learning according to claim 6 or 7, wherein the second classifying unit classifies the plurality of second relationship pair candidates after machine learning and repeating the classification and the addition of learning data. apparatus.
前記第2のコーパスは、構造化されていない自然言語文のコーパスである、請求項1から請求項8のいずれか記載の相互機械学習装置。 The first corpus is a structured corpus;
The mutual machine learning device according to claim 1, wherein the second corpus is a corpus of an unstructured natural language sentence.
前記第1の分類部が、前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類ステップと、
前記第2の分類部が、前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類ステップと、
前記追加部が、前記第1の分類ステップでの分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類ステップでの分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加ステップと、を備え、
前記第1及び第2の分類ステップにおける機械学習及び分類と、前記追加ステップにおける学習データの追加とが繰り返して実行される、相互機械学習方法。 A plurality of first relationship pair candidates that are extracted from the first corpus by the first method and that are candidates for pairs of linguistic expressions having a semantic relationship, and a second method different from the first method. Extracted from two corpora, a common pair common to a plurality of second relationship pair candidates that are candidates for a pair of language expressions having a semantic relationship, and extracted from the first corpus In addition, a plurality of first unrelated pair candidates that are candidates for pairs of language expressions that do not have the semantic relationship, a virtual common pair that is a common pair common to the plurality of second relationship pair candidates, and A common pair that is extracted from a second corpus and is common to a plurality of second unrelated pair candidates that are candidates for a pair of language expressions having no semantic relationship and the plurality of first relationship pair candidates. Ba A common pair storage unit that stores a char common pair, and first learning data that is teacher data used in machine learning related to classification of whether the first relationship pair candidate has the semantic relationship is stored. The first learning data storage unit, the first classifying unit, and the second training data used in machine learning related to the classification of whether the second relationship pair candidate has the semantic relationship or not A mutual machine learning method that is processed using a second learning data storage unit that stores learning data, a second classification unit, and an adding unit,
Whether the first classifying unit performs machine learning using the first learning data, and the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning A first classification step to classify whether;
Whether the second classifying unit performs machine learning using the second learning data, and whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning A second classification step for classifying whether;
In accordance with at least one of the classification result of the common pair and the certainty level by the classification in the first classification step, the adding unit converts the common pair and the classification result related to the common pair into the second learning data. And adding the common pair and the classification result related to the common pair to the first learning data according to at least one of the classification result and the certainty factor of the common pair based on the classification in the second classification step. An additional step,
A mutual machine learning method in which machine learning and classification in the first and second classification steps and addition of learning data in the adding step are repeatedly executed.
前記第1の分類部が、前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類ステップと、
前記第2の分類部が、前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類ステップと、
前記追加部が、前記第1の分類ステップでの分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類ステップでの分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加ステップと、を備え、
前記第1及び第2の分類ステップにおける機械学習及び分類と、前記追加ステップにおける学習データの追加とが繰り返して実行される、相互機械学習方法。 A plurality of first relationship pair candidates that are extracted from the first corpus by the first method and that are candidates for pairs of linguistic expressions having a semantic relationship, and a second method different from the first method. Genuine common pairs extracted from two corpora and common to a plurality of second relationship pair candidates that are candidate language expression pairs having a semantic relationship, and the plurality of first relationship pairs A plurality of second irrelevant pair candidates extracted from the first corpus, a plurality of first irrelevant pair candidates that are extracted from the first corpus and are linguistic expression pair candidates that do not have the semantic relationship, Birch that is a common pair that is a pair that is not a genuine common pair among a plurality of second irrelevant pair candidates that are extracted from the corpus of 2 and that are candidate language expression pairs that do not have a semantic relationship A common pair storage unit that stores a common pair, and first learning data that is teacher data used in machine learning regarding classification of whether the first relationship pair candidate has the semantic relationship is stored A first learning data storage unit, a first classifying unit, and a second learning which is teacher data used in machine learning regarding classification of whether the second relationship pair candidate has the semantic relationship A mutual machine learning method processed using a second learning data storage unit in which data is stored, a second classification unit, and an addition unit,
Whether the first classifying unit performs machine learning using the first learning data, and the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning A first classification step to classify whether;
Whether the second classifying unit performs machine learning using the second learning data, and whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning A second classification step for classifying whether;
In accordance with at least one of the classification result of the common pair and the certainty level by the classification in the first classification step, the adding unit converts the common pair and the classification result related to the common pair into the second learning data. And adding the common pair and the classification result related to the common pair to the first learning data according to at least one of the classification result and the certainty factor of the common pair based on the classification in the second classification step. An additional step,
A mutual machine learning method in which machine learning and classification in the first and second classification steps and addition of learning data in the adding step are repeatedly executed.
前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部、
前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部、
前記第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加部として機能させ、
前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、プログラム。 A plurality of first relationship pair candidates that are extracted from the first corpus by the first method and that are candidates for pairs of linguistic expressions having a semantic relationship, and a second method different from the first method. Extracted from two corpora, a common pair common to a plurality of second relationship pair candidates that are candidates for a pair of language expressions having a semantic relationship, and extracted from the first corpus In addition, a plurality of first unrelated pair candidates that are candidates for pairs of language expressions that do not have the semantic relationship, a virtual common pair that is a common pair common to the plurality of second relationship pair candidates, and A common pair that is extracted from a second corpus and is common to a plurality of second unrelated pair candidates that are candidates for a pair of language expressions having no semantic relationship and the plurality of first relationship pair candidates. Ba A common pair storage unit that stores a char common pair, and first learning data that is teacher data used in machine learning related to classification of whether the first relationship pair candidate has the semantic relationship is stored. A first learning data storage unit, and second learning data that is teacher data used in machine learning related to classification of whether the second relationship pair candidate has the semantic relationship is stored. A computer that can access the learning data storage unit
A first classification unit that performs machine learning using the first learning data, and classifies whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning ,
A second classification unit that performs machine learning using the second learning data, and classifies whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning ,
Adding the common pair and the classification result related to the common pair to the second learning data according to at least one of the classification result and the certainty factor of the common pair according to the classification of the first classification unit; In accordance with at least one of the classification result and the certainty of the common pair according to the classification of the classification unit, the common pair and the classification result related to the common pair are functioned as an additional unit that adds to the first learning data,
A program in which machine learning and classification by the first and second classification units and addition of learning data by the addition unit are repeatedly executed.
前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部、
前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部、
前記第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加部として機能させ、
前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、プログラム。 A plurality of first relationship pair candidates that are extracted from the first corpus by the first method and that are candidates for pairs of linguistic expressions having a semantic relationship, and a second method different from the first method. Genuine common pairs extracted from two corpora and common to a plurality of second relationship pair candidates that are candidate language expression pairs having a semantic relationship, and the plurality of first relationship pairs A plurality of second irrelevant pair candidates extracted from the first corpus, a plurality of first irrelevant pair candidates that are extracted from the first corpus and are linguistic expression pair candidates that do not have the semantic relationship, Birch that is a common pair that is a pair that is not a genuine common pair among a plurality of second irrelevant pair candidates that are extracted from the corpus of 2 and that are candidate language expression pairs that do not have a semantic relationship A common pair storage unit that stores a common pair, and first learning data that is teacher data used in machine learning regarding classification of whether the first relationship pair candidate has the semantic relationship is stored A first learning data storage unit that stores second learning data that is teacher data used in machine learning related to classification as to whether or not the second relationship pair candidate has the semantic relationship. A computer accessible to the learning data storage unit of
A first classification unit that performs machine learning using the first learning data, and classifies whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning ,
A second classification unit that performs machine learning using the second learning data, and classifies whether the genuine common pair and the virtual common pair have the semantic relationship using the result of the machine learning ,
Adding the common pair and the classification result related to the common pair to the second learning data according to at least one of the classification result and the certainty factor of the common pair according to the classification of the first classification unit; In accordance with at least one of the classification result and the certainty of the common pair according to the classification of the classification unit, the common pair and the classification result related to the common pair are functioned as an additional unit that adds to the first learning data,
A program in which machine learning and classification by the first and second classification units and addition of learning data by the addition unit are repeatedly executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010184356A JP5622310B2 (en) | 2010-08-19 | 2010-08-19 | Mutual machine learning device, mutual machine learning method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010184356A JP5622310B2 (en) | 2010-08-19 | 2010-08-19 | Mutual machine learning device, mutual machine learning method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012043225A JP2012043225A (en) | 2012-03-01 |
JP5622310B2 true JP5622310B2 (en) | 2014-11-12 |
Family
ID=45899441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010184356A Active JP5622310B2 (en) | 2010-08-19 | 2010-08-19 | Mutual machine learning device, mutual machine learning method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5622310B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11423647B2 (en) | 2018-05-07 | 2022-08-23 | Nec Corporation | Identification system, model re-learning method and program |
JP7110884B2 (en) | 2018-10-01 | 2022-08-02 | オムロン株式会社 | LEARNING DEVICE, CONTROL DEVICE, LEARNING METHOD, AND LEARNING PROGRAM |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5184195B2 (en) * | 2008-04-24 | 2013-04-17 | 日本放送協会 | Language processing apparatus and program |
-
2010
- 2010-08-19 JP JP2010184356A patent/JP5622310B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012043225A (en) | 2012-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Eisa et al. | Existing plagiarism detection techniques: A systematic mapping of the scholarly literature | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
US8239349B2 (en) | Extracting data | |
US20130036076A1 (en) | Method for keyword extraction | |
JP5085708B2 (en) | Keyword presentation apparatus, method, and program | |
Dehkharghani et al. | Adaptation and use of subjectivity lexicons for domain dependent sentiment classification | |
El-Shishtawy et al. | An accurate arabic root-based lemmatizer for information retrieval purposes | |
JP6729095B2 (en) | Information processing device and program | |
Do et al. | Korean twitter emotion classification using automatically built emotion lexicons and fine-grained features | |
JP2011118689A (en) | Retrieval method and system | |
Rafeeque et al. | A survey on short text analysis in web | |
Alotaibi et al. | A cognitive inspired unsupervised language-independent text stemmer for Information retrieval | |
JP2021136027A (en) | Analysis of theme coverage of documents | |
Panchenko et al. | Unsupervised, knowledge-free, and interpretable word sense disambiguation | |
CN106503153B (en) | A kind of computer version classification system | |
Dehkharghani et al. | Automatically identifying a software product's quality attributes through sentiment analysis of tweets | |
Fahrni et al. | HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013. | |
Zubi | Using some web content mining techniques for Arabic text classification | |
JP5622310B2 (en) | Mutual machine learning device, mutual machine learning method, and program | |
Gorla et al. | Named Entity Recognition for Telugu News Articles using Naïve Bayes Classifier. | |
Vaishnavi et al. | Paraphrase identification in short texts using grammar patterns | |
Jain et al. | TexEmo: Conveying emotion from text-the study | |
Siklósi et al. | Resolving abbreviations in clinical texts without pre-existing structured resources | |
Mishra et al. | A novel approach to capture the similarity in summarized text using embedded model | |
WO2015125209A1 (en) | Information structuring system and information structuring method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140909 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5622310 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |