JP5042268B2 - Proper word acquisition device, machine learning device and method - Google Patents

Proper word acquisition device, machine learning device and method Download PDF

Info

Publication number
JP5042268B2
JP5042268B2 JP2009109662A JP2009109662A JP5042268B2 JP 5042268 B2 JP5042268 B2 JP 5042268B2 JP 2009109662 A JP2009109662 A JP 2009109662A JP 2009109662 A JP2009109662 A JP 2009109662A JP 5042268 B2 JP5042268 B2 JP 5042268B2
Authority
JP
Japan
Prior art keywords
score
pattern
corresponding word
word
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009109662A
Other languages
Japanese (ja)
Other versions
JP2010257406A (en
Inventor
守 小町
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009109662A priority Critical patent/JP5042268B2/en
Publication of JP2010257406A publication Critical patent/JP2010257406A/en
Application granted granted Critical
Publication of JP5042268B2 publication Critical patent/JP5042268B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、適正単語取得装置、機械学習装置及び方法に関する。   The present invention relates to a proper word acquisition device, a machine learning device, and a method.

近年、自然言語処理において、人名や地名等の固有表現や、それらの間の関係に関する意味知識の獲得について盛んに研究されている。これらの研究対象である固有表現や関係の認識は、検索システムや、テキスト自動要約等の自然言語処理のアプリケーションで大きな役割を果たす。   In recent years, in natural language processing, there has been a great deal of research on acquisition of semantic knowledge about specific expressions such as names of people and place names and relationships between them. Recognition of specific expressions and relationships, which are the subjects of these studies, plays a major role in natural language processing applications such as search systems and automatic text summarization.

従来、固有表現や関係の認識は、大規模なコーパスからブートストラップ手法による半教師あり学習によって、獲得されている。このような固有表現や関係を獲得する技術を記載する文献として、大規模な日本語の検索ログを用いて意味カテゴリを学習し、いわゆる意味ドリフト問題に対処する技術について記載する非特許文献1が知られている。   Conventionally, recognition of specific expressions and relationships has been obtained from semi-supervised learning by a bootstrap method from a large corpus. Non-patent document 1 describing a technique for learning a semantic category using a large-scale Japanese search log and dealing with a so-called semantic drift problem is described as a document describing a technique for acquiring such a specific expression or relationship. Are known.

ここで、意味ドリフト問題とは、カテゴリを有する教師データと共起するパターンをコーパスから抽出する場合に、抽出したパターンが多数の単語にマッチするパターンであるジェネリックパターンであると、ジェネリックパターンを用いて取得した単語には、元の教師データとは異なるカテゴリの単語を多数取得してしまい、教師データと同じカテゴリの単語を取得する精度が大幅に下がる問題をいう。   Here, the semantic drift problem uses a generic pattern when a pattern that co-occurs with teacher data having a category is extracted from the corpus and the extracted pattern is a pattern that matches many words. In this case, a large number of words in a category different from that of the original teacher data are acquired, and the accuracy of acquiring words in the same category as the teacher data is greatly reduced.

非特許文献1では、意味ドリフト問題に対する対処方法として、教師データと共起するパターンのなかで最も多く共起するパターンの共起数より多い(例えば、2倍以上)回数で共起するパターンは、ジェネリックパターンとして抽出しない、という技術が記載されている。このようにすると、パターンを抽出するための反復が進むとジェネリックパターンとして判断される上限値も上がるので、反復の初期は適合率が高く再現率の低いパターンを抽出し、徐々に高頻度で高再現率のパターンを抽出することができる。   In Non-Patent Document 1, as a coping method for the semantic drift problem, a pattern that co-occurs with a number of times that is greater than (for example, twice or more) the number of co-occurrence patterns that occur most frequently among the patterns that co-occur with teacher data The technique of not extracting as a generic pattern is described. In this way, as the iteration for extracting the pattern progresses, the upper limit value that is determined as a generic pattern also increases, so at the beginning of the iteration, a pattern with a high precision and a low recall is extracted and gradually increased in frequency. A recall pattern can be extracted.

小町 守,“検索ログからの半教師あり意味知識獲得の改善”,人口知能学会論文誌23巻3号F(2008年),pp.217−225Mamoru Komachi, “Improvement of semi-supervised acquisition of semantic knowledge from search logs”, Journal of Population Intelligence, Vol. 23, No. 3 F (2008), pp. 217-225

しかしながら、非特許文献1に記載された方法であっても、コーパスとして使用するデータに合わせるために多くの変数(例えば、反復回数、上位単語の追加、何個のシードを与えるか等の8個以上の変数)を設定しなければならず、これらの変数の設定によって大きく精度が変化するため、最適な変数の調整が必須であり、実運用の障害となっていた。   However, even in the method described in Non-Patent Document 1, there are many variables (for example, the number of iterations, addition of high-order words, how many seeds are given, etc.) to match the data used as a corpus. The above variables) must be set, and the accuracy varies greatly depending on the setting of these variables. Therefore, it is essential to adjust the variables optimally, which is an obstacle to actual operation.

そこで、教師データと同じカテゴリの単語を、多くの変数を調整することなく精度高く適正に取得できる装置が求められている。   Therefore, there is a need for an apparatus that can accurately and accurately acquire words in the same category as the teacher data without adjusting many variables.

本発明は、教師データと同じカテゴリの単語を、多くの変数を調整することなく精度高く適正に取得できる装置及び方法を提供することを目的とする。   An object of the present invention is to provide an apparatus and method that can accurately and appropriately acquire words in the same category as teacher data without adjusting many variables.

本発明では、以下のような解決手段を提供する。   The present invention provides the following solutions.

(1) 予め与えられたカテゴリごとの教師データと共起するパターンと、当該パターンによって対応付けられるパターン対応単語とに基づいて適正なパターン対応単語を取得する適正単語取得装置であって、前記パターン対応単語と、前記パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段と、前記パターン対応単語又は前記パターンのうち一方に所定の初期スコアを付与する初期スコアリング手段と、前記パターン対応単語又は前記パターンのうち前記一方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち他方にスコアを付与する第一のスコアリング手段と、前記第一のスコアリング手段によって前記他方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち前記一方にスコアを付与する第二のスコアリング手段と、前記第一のスコアリング手段によるスコアの付与と、前記第二のスコアリング手段によるスコアの付与とを反復し、所定のスコア条件を満たす前記パターン対応単語を取得する適正単語取得手段と、を備え、前記ネットワークスコア記憶手段が記憶するネットワークを、前記パターン対応単語と前記パターンとを対応させた行列とし、当該行列内の要素として当該パターン対応単語と当該パターンとのエッジスコアを記憶し、前記第一のスコアリング手段と前記第二のスコアリング手段は、前記ネットワークスコア記憶手段が記憶している行列に対して、当該行列の最大固有値λに基づいて定められており、初期値の重要度を示す変数を用いてスコアの計算を行うことを特徴とする適正単語取得装置。 (1) An appropriate word acquisition device that acquires an appropriate pattern-corresponding word based on a pattern that co-occurs with teacher data for each category given in advance and a pattern-corresponding word that is associated with the pattern, A network score storage unit that regards the corresponding word and the pattern as nodes and stores an edge score, which is a score of an edge connecting the nodes, in association with the edge; and one of the pattern corresponding word and the pattern An initial scoring means for assigning a predetermined initial score to the pattern-corresponding word or the pattern based on the score assigned to the one of the patterns and the edge score, and the other of the pattern-corresponding word or the pattern A first scoring means for assigning a score to the first score; Second scoring means for assigning a score to the one of the pattern-corresponding word or the pattern based on the score given to the other by the alling means and the edge score; and the first scoring An appropriate word acquisition means for repeating the assignment of the score by the means and the assignment of the score by the second scoring means to acquire the pattern corresponding word satisfying a predetermined score condition, and the network score storage means Is stored in a matrix in which the pattern-corresponding word and the pattern are associated with each other, and an edge score between the pattern-corresponding word and the pattern is stored as an element in the matrix, and the first scoring means The second scoring means is connected to the matrix stored in the network score storage means. Te, has been determined based on the maximum eigenvalue λ of the matrix, proper word acquiring unit and performs the calculation of scores using a variable indicating the importance of the initial value.

(1)の構成によれば、本発明に係る適正単語取得装置は、パターン対応単語と、パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段を備え、パターン対応単語又はパターンのうち一方に所定の初期スコアを付与する。そして、パターン対応単語又はパターンのうち一方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち他方にスコアを付与し、他方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち一方にスコアを付与し、他方へのスコアの付与と、一方へのスコアの付与とを反復し、所定のスコア条件を満たすパターン対応単語を取得する。   According to the configuration of (1), the proper word acquisition apparatus according to the present invention regards the pattern correspondence word and the pattern as nodes, and associates an edge score, which is a score of an edge connecting the nodes, with the edge. Network score storage means for storing a predetermined initial score to one of the pattern-corresponding word or pattern. Then, based on the score assigned to one of the pattern-corresponding words or patterns and the edge score, the score is assigned to the other of the pattern-corresponding words or patterns, and the score assigned to the other and the edge score Based on the pattern-corresponding word or pattern, a score is assigned to one of the patterns, and the addition of the score to the other and the provision of the score to the other are repeated to obtain a pattern-corresponding word that satisfies a predetermined score condition.

すなわち、本発明に係る適正単語取得装置は、パターン対応単語とパターンとをネットワーク構造とみなし、ネットワークスコア記憶手段によるエッジスコアと、ノードの初期スコアとに基づいて、スコアリングを反復し、所定のスコア条件を満たすパターン対応単語を取得する。よって、本発明に係る適正単語取得装置は、初期スコアに基づいて、正解データ(取得したいカテゴリと一致している単語)との関連度を表すスコアによってパターン対応単語を取得するので、初期スコア時の変数によって、教師データのカテゴリと同じカテゴリのパターン対応単語を取得することができる。したがって、本発明に係る適正単語取得装置は、教師データと同じカテゴリの単語を、多くの変数を調整することなく精度高く適正に取得できる。   That is, the appropriate word acquisition device according to the present invention regards the pattern-corresponding word and the pattern as a network structure, repeats scoring based on the edge score by the network score storage means and the initial score of the node, A pattern-corresponding word that satisfies the score condition is acquired. Therefore, the appropriate word acquisition device according to the present invention acquires the pattern-corresponding word based on the score representing the degree of association with the correct answer data (word that matches the category to be acquired) based on the initial score. With this variable, pattern-corresponding words in the same category as the category of the teacher data can be acquired. Therefore, the appropriate word acquisition apparatus according to the present invention can acquire words of the same category as the teacher data with high accuracy and appropriate without adjusting many variables.

(2) 前記所定のスコア条件は、前記第一のスコアリング手段又は前記第二のスコアリング手段が付与した前記パターン対応単語のスコアと、当該スコアを付与する直前に前記第一のスコアリング手段又は前記第二のスコアリング手段が付与した前記パターン対応単語のスコアとの差が全て一定の値以下となった場合に、前記パターン対応単語のスコアが所定の値以上であること、を特徴とする(1)に記載の適正単語取得装置。   (2) The predetermined scoring condition includes the pattern-corresponding word score given by the first scoring means or the second scoring means, and the first scoring means immediately before giving the score. Or, when the difference from the score of the pattern corresponding word provided by the second scoring means is all equal to or less than a certain value, the score of the pattern corresponding word is equal to or higher than a predetermined value, The proper word acquisition device according to (1).

(2)の構成によれば、(1)に記載の適正単語取得装置は、付与したパターン対応単語のスコアと、当該スコアを付与する直前に付与したパターン対応単語のスコアとの差が全て一定の値以下となった場合に、パターン対応単語のスコアが所定の値以上であること、を満たすパターン対応単語を取得する。   According to the configuration of (2), in the appropriate word acquisition device described in (1), the difference between the score of the assigned pattern-corresponding word and the score of the pattern-corresponding word assigned immediately before giving the score is constant. When the value is equal to or less than the value, a pattern-corresponding word satisfying that the score of the pattern-corresponding word is equal to or greater than a predetermined value is acquired.

よって、本発明に係る適正単語取得装置は、ネットワーク構造とみなしてスコアリングを反復し、反復したスコアリングが収束し、正解データとの関連度を表すスコアが所定の値以上であるパターン対応単語を取得するので、教師データのカテゴリと同じカテゴリのパターン対応単語を取得することができる。したがって、本発明に係る適正単語取得装置は、教師データと同じカテゴリの単語をスコアに基づいて精度高く適正に取得できる。   Therefore, the proper word acquisition apparatus according to the present invention repeats scoring by regarding it as a network structure, the repeated scoring converges, and the pattern-corresponding word whose score indicating the degree of association with correct data is equal to or greater than a predetermined value Therefore, a pattern corresponding word in the same category as that of the teacher data can be acquired. Therefore, the appropriate word acquisition apparatus according to the present invention can appropriately acquire words of the same category as the teacher data with high accuracy based on the score.

(3) 予め与えられたカテゴリごとの教師データと共起するパターンをコーパスから抽出し、抽出した前記パターンによって対応付けられるパターン対応単語を取得する機械学習装置であって、前記パターン対応単語と、前記パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段と、前記パターン対応単語又は前記パターンのうち一方に所定の初期スコアを付与する初期スコアリング手段と、前記パターン対応単語又は前記パターンのうち前記一方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち他方にスコアを付与する第一のスコアリング手段と、前記第一のスコアリング手段によって前記他方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち前記一方にスコアを付与する第二のスコアリング手段と、前記第一のスコアリング手段によるスコアの付与と、前記第二のスコアリング手段によるスコアの付与とを反復し、所定のスコア条件を満たす前記パターン対応単語を取得する適正単語取得手段と、を備え、前記ネットワークスコア記憶手段が記憶するネットワークを、前記パターン対応単語と前記パターンとを対応させた行列とし、当該行列内の要素として当該パターン対応単語と当該パターンとのエッジスコアを記憶し、前記第一のスコアリング手段と前記第二のスコアリング手段は、前記ネットワークスコア記憶手段が記憶している行列に対して、当該行列の最大固有値λに基づいて定められており、初期値の重要度を示す変数を用いてスコアの計算を行うことを特徴とする機械学習装置。 (3) A machine learning device that extracts a pattern that co-occurs with teacher data for each category given in advance from a corpus and acquires a pattern-corresponding word associated with the extracted pattern, the pattern-corresponding word; A network score storage means that regards each of the patterns as a node and stores an edge score, which is a score of an edge connecting the nodes, in association with the edge; and a predetermined initial value in one of the pattern correspondence word or the pattern Based on the initial scoring means for assigning a score, the score assigned to the one of the pattern-corresponding word or the pattern, and the edge score, the score is assigned to the other of the pattern-corresponding word or the pattern First scoring means and the first scoring means By the second scoring means for assigning a score to the one of the pattern-corresponding words or the pattern based on the score given to the other by the above and the edge score, and by the first scoring means An appropriate word acquisition unit that repeats the score assignment and the score assignment by the second scoring unit and acquires the pattern-corresponding word satisfying a predetermined score condition, and the network score storage unit stores A network that associates the pattern-corresponding word with the pattern, stores an edge score of the pattern-corresponding word and the pattern as an element in the matrix, and the first scoring means and the first The second scoring means applies the row to the matrix stored in the network score storage means. Maximum eigenvalue is determined based on lambda, machine learning device characterized by the calculation of scores using a variable indicating the importance of the initial value of.

(3)の構成によれば、本発明に係る機械学習装置は、パターン対応単語と、パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段を備え、パターン対応単語又はパターンのうち一方に所定の初期スコアを付与する。そして、パターン対応単語又はパターンのうち一方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち他方にスコアを付与し、他方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち一方にスコアを付与し、他方へのスコアの付与と、一方へのスコアの付与とを反復し、所定のスコア条件を満たすパターン対応単語を取得する。そして、本発明に係る機械学習装置は、取得したパターン対応単語を教師データに追加する。   According to the configuration of (3), the machine learning device according to the present invention regards a pattern correspondence word and a pattern as nodes, and associates an edge score, which is a score of an edge connecting the nodes, with the edge. Network score storage means for storing is provided, and a predetermined initial score is given to one of the pattern-corresponding word or the pattern. Then, based on the score assigned to one of the pattern-corresponding words or patterns and the edge score, the score is assigned to the other of the pattern-corresponding words or patterns, and the score assigned to the other and the edge score Based on the pattern-corresponding word or pattern, a score is assigned to one of the patterns, and the addition of the score to the other and the provision of the score to the other are repeated to obtain a pattern-corresponding word that satisfies a predetermined score condition. Then, the machine learning device according to the present invention adds the acquired pattern correspondence word to the teacher data.

すなわち、本発明に係る機械学習装置は、パターン対応単語とパターンとをネットワーク構造とみなし、ネットワークスコア記憶手段によるエッジスコアと、ノードの初期スコアとに基づいて、スコアリングを反復し、所定のスコア条件を満たすパターン対応単語を取得する。よって、本発明に係る機械学習装置は、初期スコアに基づいて、正解データとの関連度を表すスコアによってパターン対応単語を取得するので、初期スコア時の変数によって、教師データのカテゴリと同じカテゴリのパターン対応単語を取得することができる。したがって、本発明に係る機械学習装置は、教師データと同じカテゴリの単語を、多くの変数を調整することなく精度高く適正に取得できる。更に、取得したパターン対応単語はスコア条件を満たす適正単語なので、本発明に係る機械学習装置は、取得したパターン対応単語を教師データに追加するごとに精度を向上させることができる。   That is, the machine learning device according to the present invention regards the pattern-corresponding word and the pattern as a network structure, repeats scoring based on the edge score by the network score storage means and the initial score of the node, and obtains a predetermined score. Get a pattern-corresponding word that satisfies a condition. Therefore, the machine learning device according to the present invention acquires the pattern-corresponding word based on the score representing the degree of association with the correct answer data based on the initial score. Pattern-corresponding words can be acquired. Therefore, the machine learning device according to the present invention can accurately and accurately acquire words in the same category as the teacher data without adjusting many variables. Furthermore, since the acquired pattern correspondence word is a proper word that satisfies the score condition, the machine learning device according to the present invention can improve accuracy each time the acquired pattern correspondence word is added to the teacher data.

(4) 前記所定のスコア条件は、前記第一のスコアリング手段又は前記第二のスコアリング手段が付与した前記パターン対応単語のスコアと、当該スコアを付与する直前に前記第一のスコアリング手段又は前記第二のスコアリング手段が付与した前記パターン対応単語のスコアとの差が全て一定の値以下となった場合に、前記パターン対応単語のスコアが所定の値以上であること、を特徴とする(3)に記載の機械学習装置。   (4) The predetermined score condition includes: the score of the pattern-corresponding word given by the first scoring means or the second scoring means; and the first scoring means immediately before giving the score. Or, when the difference from the score of the pattern corresponding word provided by the second scoring means is all equal to or less than a certain value, the score of the pattern corresponding word is equal to or higher than a predetermined value, The machine learning device according to (3).

(4)の構成によれば、(3)に記載の機械学習装置は、付与したパターン対応単語のスコアと、当該スコアを付与する直前に付与したパターン対応単語のスコアとの差が全て一定の値以下となった場合に、パターン対応単語のスコアが所定の値以上であること、を満たすパターン対応単語を取得する。   According to the configuration of (4), the machine learning device according to (3) is such that the difference between the score of the assigned pattern-corresponding word and the score of the pattern-corresponding word assigned immediately before giving the score is constant. When the value is equal to or less than the value, a pattern-corresponding word that satisfies that the score of the pattern-corresponding word is equal to or greater than a predetermined value is acquired.

よって、本発明に係る機械学習装置は、ネットワーク構造とみなしてスコアリングを反復し、反復したスコアリングが収束し、正解データとの関連度を表すスコアが所定の値以上であるパターン対応単語を取得するので、教師データのカテゴリと同じカテゴリのパターン対応単語を取得することができる。したがって、本発明に係る機械学習装置は、教師データと同じカテゴリの単語をスコアに基づいて精度高く適正に取得できる。   Therefore, the machine learning device according to the present invention repeats scoring by regarding it as a network structure, the repeated scoring converges, and a pattern corresponding word having a score representing a degree of association with correct data is a predetermined value or more. Since it is acquired, it is possible to acquire a pattern corresponding word in the same category as the category of the teacher data. Therefore, the machine learning device according to the present invention can accurately and accurately acquire words in the same category as the teacher data based on the score.

(5) 予め与えられたカテゴリごとの教師データと共起するパターンと、当該パターンによって対応付けられるパターン対応単語とに基づいて適正なパターン対応単語を取得する適正単語取得装置において、前記パターン対応単語と、前記パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段を備える適正単語取得装置が実行する方法であって、前記パターン対応単語又は前記パターンのうち一方に所定の初期スコアを付与するステップと、前記パターン対応単語又は前記パターンのうち前記一方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち他方にスコアを付与するステップと、前記他方にスコアを付与するステップによって前記他方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち前記一方にスコアを付与するステップと、前記他方にスコアを付与するステップと、前記一方にスコアを付与するステップとを反復し、所定のスコア条件を満たす前記パターン対応単語を取得するステップと、を備え、前記ネットワークスコア記憶手段が記憶するネットワークを、前記パターン対応単語と前記パターンとを対応させた行列とし、当該行列内の要素として当該パターン対応単語と当該パターンとのエッジスコアを記憶し、前記他方にスコアを付与するステップと前記一方にスコアを付与するステップは、前記ネットワークスコア記憶手段が記憶している行列に対して、当該行列の最大固有値λに基づいて定められており、初期値の重要度を示す変数を用いてスコアの計算を行うことを特徴とする方法。 (5) In the appropriate word acquisition apparatus that acquires an appropriate pattern-corresponding word based on a pattern that co-occurs with teacher data for each category given in advance and a pattern-corresponding word associated with the pattern, the pattern-corresponding word And a method executed by a proper word acquisition device including network score storage means that regards the pattern as a node and stores an edge score that is a score of an edge connecting the nodes in association with the edge, Based on the step of assigning a predetermined initial score to one of the pattern correspondence word or the pattern, the score assigned to the one of the pattern correspondence word or the pattern, and the edge score, the pattern correspondence Assigning a score to the other of the words or the pattern And assigning a score to the one of the pattern-corresponding words or the pattern based on the score given to the other by the step of assigning a score to the other and the edge score, and to the other Repetitively repeating the step of assigning a score and the step of assigning a score to the one, and obtaining the pattern-corresponding word satisfying a predetermined score condition, and the network stored by the network score storage means, A matrix in which the pattern-corresponding word and the pattern are associated with each other, storing an edge score between the pattern-corresponding word and the pattern as an element in the matrix, and assigning a score to the other The assigning step corresponds to the matrix stored in the network score storage means. Te, has been determined based on the maximum eigenvalue λ of the matrix, wherein the performing the calculation of the score using a variable indicating the importance of the initial value.

すなわち、本発明に係る方法は、パターン対応単語とパターンとをネットワーク構造とみなし、ネットワークスコア記憶手段によるエッジスコアと、ノードの初期スコアとに基づいて、スコアリングを反復し、所定のスコア条件を満たすパターン対応単語を取得する。よって、本発明に係る方法は、初期スコアに基づいて、正解データとの関連度を表すスコアによってパターン対応単語を取得するので、初期スコア時の変数によって、教師データのカテゴリと同じカテゴリのパターン対応単語を取得することができる。したがって、本発明に係る方法は、教師データと同じカテゴリの単語を、多くの変数を調整することなく精度高く適正に取得できる。   That is, the method according to the present invention regards the pattern-corresponding word and the pattern as a network structure, repeats scoring based on the edge score by the network score storage means and the initial score of the node, and sets a predetermined score condition. Get pattern-corresponding words that satisfy. Therefore, the method according to the present invention obtains the pattern correspondence word based on the score representing the degree of relevance with the correct answer data based on the initial score, so the pattern correspondence of the same category as the category of the teacher data is determined by the variable at the initial score. You can get a word. Therefore, the method according to the present invention can appropriately and accurately acquire words in the same category as the teacher data without adjusting many variables.

(6) 予め与えられたカテゴリごとの教師データと共起するパターンをコーパスから抽出し、抽出した前記パターンによって対応付けられるパターン対応単語を取得する機械学習装置において、前記パターン対応単語と、前記パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段を備える機械学習装置が実行する方法であって、前記パターン対応単語又は前記パターンのうち一方に所定の初期スコアを付与するステップと、前記パターン対応単語又は前記パターンのうち前記一方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち他方にスコアを付与するステップと、前記他方にスコアを付与するステップによって前記他方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち前記一方にスコアを付与するステップと、前記他方にスコアを付与するステップと、前記一方にスコアを付与するステップとを反復し、所定のスコア条件を満たす前記パターン対応単語を取得するステップと、を備え、前記ネットワークスコア記憶手段が記憶するネットワークを、前記パターン対応単語と前記パターンとを対応させた行列とし、当該行列内の要素として当該パターン対応単語と当該パターンとのエッジスコアを記憶し、前記他方にスコアを付与するステップと前記一方にスコアを付与するステップは、前記ネットワークスコア記憶手段が記憶している行列に対して、当該行列の最大固有値λに基づいて定められており、初期値の重要度を示す変数を用いてスコアの計算を行うことを特徴とする方法。 (6) In a machine learning device that extracts a pattern co-occurrence with teacher data for each given category from a corpus and obtains a pattern correspondence word associated with the extracted pattern, the pattern correspondence word and the pattern Is a method executed by a machine learning device including a network score storage unit that stores an edge score, which is a score of an edge connecting between the nodes, in association with the edge, the pattern corresponding word or Based on the step of assigning a predetermined initial score to one of the patterns, the score assigned to the one of the pattern-corresponding word or the pattern, and the edge score, the pattern-corresponding word or the pattern A step of assigning a score to the other, and a step A step of assigning a score to the one of the pattern-corresponding words or the pattern, and a step of assigning a score to the other, based on the score given to the other by the step of assigning a core and the edge score And assigning a score to the one, and obtaining the pattern-corresponding word satisfying a predetermined score condition, and the network stored by the network score storage means, The matrix corresponding to the pattern, and storing the edge score of the pattern corresponding word and the pattern as an element in the matrix, the step of assigning a score to the other and the step of assigning a score to the one, For the matrix stored in the network score storage means, It has been determined based on the large eigenvalue lambda, wherein the performing the calculation of the score using a variable indicating the importance of the initial value.

すなわち、本発明に係る方法は、パターン対応単語とパターンとをネットワーク構造とみなし、ネットワークスコア記憶手段によるエッジスコアと、ノードの初期スコアとに基づいて、スコアリングを反復し、所定のスコア条件を満たすパターン対応単語を取得する。よって、本発明に係る方法は、初期スコアに基づいて、正解データとの関連度を表すスコアによってパターン対応単語を取得するので、初期スコア時の変数によって、教師データのカテゴリと同じカテゴリのパターン対応単語を取得することができる。したがって、本発明に係る方法は、教師データと同じカテゴリの単語を、多くの変数を調整することなく精度高く適正に取得できる。更に、本発明に係る方法によって取得したパターン対応単語はスコア条件を満たす適正単語なので、本発明に係る方法を実行する機械学習装置は、取得したパターン対応単語を教師データに追加するごとに精度を向上させることができる。   That is, the method according to the present invention regards the pattern-corresponding word and the pattern as a network structure, repeats scoring based on the edge score by the network score storage means and the initial score of the node, and sets a predetermined score condition. Get pattern-corresponding words that satisfy. Therefore, the method according to the present invention obtains the pattern correspondence word based on the score representing the degree of relevance with the correct answer data based on the initial score, so the pattern correspondence of the same category as the category of the teacher data is determined by the variable at the initial score. You can get a word. Therefore, the method according to the present invention can appropriately and accurately acquire words in the same category as the teacher data without adjusting many variables. Furthermore, since the pattern correspondence word acquired by the method according to the present invention is an appropriate word that satisfies the score condition, the machine learning device that executes the method according to the present invention increases the accuracy every time the acquired pattern correspondence word is added to the teacher data. Can be improved.

本発明によれば、取得したパターン対応単語と抽出したパターンとをネットワーク構造とみなし、ネットワークスコア記憶手段によるエッジスコアと、ノードの初期スコアとに基づいて、スコアリングを反復し、所定のスコア条件を満たすパターン対応単語を取得できる。   According to the present invention, the acquired pattern correspondence word and the extracted pattern are regarded as a network structure, scoring is repeated based on the edge score by the network score storage means and the initial score of the node, and a predetermined score condition Pattern-corresponding words that satisfy

更に、本発明によれば、反復したスコアリングが収束し、予め与えられた教師データとの関連度を表すスコアが所定の値以上であるパターン対応単語を取得できる。   Furthermore, according to the present invention, repeated scoring converges, and a pattern-corresponding word having a score representing a degree of relevance with teacher data given in advance can be acquired.

したがって、本発明によれば、教師データと同じカテゴリの単語を、多くの変数を調整することなく精度高く適正に取得できる。更に、本発明に係る機械学習装置は、取得したパターン対応単語を教師データに追加するごとに精度を向上させることができる。   Therefore, according to the present invention, words in the same category as the teacher data can be acquired accurately and appropriately without adjusting many variables. Furthermore, the machine learning device according to the present invention can improve the accuracy each time the acquired pattern correspondence word is added to the teacher data.

本発明の一実施形態に係る適正単語取得装置10の実施例1の機能構成を示すブロック図である。It is a block diagram which shows the function structure of Example 1 of the appropriate word acquisition apparatus 10 which concerns on one Embodiment of this invention. 本発明の一実施形態に係る適正単語取得装置10がパターン対応単語と、パターンとをそれぞれノードとみなしたネットワーク構造に基づいてパターン対応単語のスコアを算出する一例を示す図である。It is a figure which shows an example in which the appropriate word acquisition apparatus 10 which concerns on one Embodiment of this invention calculates the score of a pattern corresponding word based on the network structure which considered the pattern corresponding word and the pattern each as a node. 本発明の一実施形態に係る適正単語取得装置10のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the appropriate word acquisition apparatus 10 which concerns on one Embodiment of this invention. 本発明の一実施形態に係る適正単語取得装置10のネットワークスコアDB21を示す図である。It is a figure which shows network score DB21 of the appropriate word acquisition apparatus 10 which concerns on one Embodiment of this invention. 本発明の一実施形態に係る適正単語取得装置10の処理を示すフローチャートである。It is a flowchart which shows the process of the appropriate word acquisition apparatus 10 which concerns on one Embodiment of this invention. 本発明の一実施形態に係る機械学習装置30の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the machine learning apparatus 30 which concerns on one Embodiment of this invention. 本発明の一実施形態に係る機械学習装置30の教師データDB41の例を示す図である。It is a figure which shows the example of teacher data DB41 of the machine learning apparatus 30 which concerns on one Embodiment of this invention.

以下、本発明の実施形態について図を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[実施例1]
図1は、本発明の一実施形態に係る適正単語取得装置10の実施例1の機能構成を示すブロック図である。適正単語取得装置10は、ネットワークスコア記憶手段としてネットワークスコアDB21と、初期スコアリング手段として初期スコアリング部11と、第一のスコアリング手段として第1スコアリング部12と、第二のスコアリング手段として第2スコアリング部13と、適正単語取得手段として適正単語取得部14と、を備える。そして、適正単語取得装置10は、パターン対応単語とパターンとをネットワーク構造とみなし、ネットワークスコアDB21によるエッジスコアと、ノードの初期スコアとに基づいて、スコアリングを反復し、所定のスコア条件を満たすパターン対応単語を取得する。
[Example 1]
FIG. 1 is a block diagram showing a functional configuration of Example 1 of an appropriate word acquisition device 10 according to an embodiment of the present invention. The proper word acquisition device 10 includes a network score DB 21 as a network score storage unit, an initial scoring unit 11 as an initial scoring unit, a first scoring unit 12 as a first scoring unit, and a second scoring unit. As a second scoring unit 13 and an appropriate word acquisition unit 14 as appropriate word acquisition means. Then, the appropriate word acquisition apparatus 10 regards the pattern-corresponding word and the pattern as a network structure, repeats scoring based on the edge score by the network score DB 21 and the initial score of the node, and satisfies a predetermined score condition Get pattern correspondence word.

適正単語取得装置10は、予め与えられたカテゴリごとの教師データと共起するパターンと、当該パターンによって対応付けられるパターン対応単語とに基づいて適正なパターン対応単語を取得する。すなわち、教師データは、カテゴリが判明している、予め与えられるデータである。ここで、パターン及びパターン対応単語は、機械学習装置がコーパスから取得したパターン及びパターン対応単語であってもよいし、人手によって作成されてもよい。   The appropriate word acquisition device 10 acquires an appropriate pattern-corresponding word based on a pattern that co-occurs with teacher data for each given category and a pattern-corresponding word that is associated with the pattern. That is, the teacher data is data given in advance with a known category. Here, the pattern and the pattern-corresponding word may be a pattern and a pattern-corresponding word acquired from the corpus by the machine learning device, or may be created manually.

コーパスは、自然言語の文章からなるテキストデータである。なお、コーパスとして、例えば、コンピュータネットワークにおいて検索するための検索クエリのログである検索クエリログを用いてもよい。また、検索クエリにより検索したウェブページの中からクリックしたログである検索クリックスルーログを用いてもよい。クリックスルーとは、与えられた検索クエリに対し、どのウェブページが実際にクリックされたかを示すものであり、検索結果が適切であったことが必ずしも保証されない検索クエリに対し、ページのタイトル、アドレス、スニペット(検索クエリ周辺の文脈の要約)を見た上で本文を参照しているという情報である。特に全く同一のページに到達する異なる2つの検索クエリは同義語であることが多く、カテゴリの認識を高精度に行うことができる。したがって、検索クエリログに加えて検索クリックスルーログもコーパスとして用いることで、精度とカバー率の両方を向上させることが期待される。   The corpus is text data composed of natural language sentences. As the corpus, for example, a search query log that is a search query log for searching in a computer network may be used. Moreover, you may use the search click through log which is the log clicked from the web page searched by the search query. Click-through refers to which web page was actually clicked for a given search query, and for search queries that do not necessarily guarantee that the search results were correct, the page title and address , Information that refers to the text after looking at the snippet (summary of context around the search query). In particular, two different search queries that reach the exact same page are often synonymous, and the category can be recognized with high accuracy. Therefore, it is expected to improve both accuracy and coverage by using the search click-through log as a corpus in addition to the search query log.

パターンには、共起パターンや、アドレスパターン等がある。ここで、共起パターンは、例えば、教師データと共に出現する用語との組合せを取得し、取得した組合せにおいて、教師データの出現部分を任意の置き換え可能な用語が入るとみなすことができる場合に、教師データの出現部分を除いた部分である。また、その共起パターンに対応するパターン対応単語と共に出現する用語との組合せを取得し、取得した組合せにおいて、パターン対応単語の出現部分を任意の置き換え可能な用語が入るとみなすことができる場合に、パターン対応単語の出現部分を除いた部分も含まれる。   The pattern includes a co-occurrence pattern and an address pattern. Here, the co-occurrence pattern is obtained when, for example, a combination with a term appearing together with the teacher data is acquired, and in the obtained combination, an appearance part of the teacher data can be regarded as containing any replaceable term. This is a part excluding the appearance part of the teacher data. In addition, when a combination with a term that appears together with a pattern corresponding word corresponding to the co-occurrence pattern is acquired, and in the acquired combination, it can be considered that an appearance part of the pattern corresponding word includes any replaceable term The portion excluding the appearance portion of the pattern corresponding word is also included.

アドレスパターンは、例えば、検索クリックスルーログを解析し、クリックスルーされたウェブページのアドレス情報、例えば、ウェブページのURL(Uniform Resource Locator)である。   The address pattern is, for example, the search click-through log, and the address information of the web page clicked through, for example, the URL (Uniform Resource Locator) of the web page.

パターンによって対応付けられるパターン対応単語には、例えば、共起パターンと組合わさる用語や、アドレスパターンに対応する検索クエリがある。パターン対応単語は、予め与えられた正解データである教師データを含んでもよいし、教師データを含まなくてもよい。   Examples of the pattern-corresponding word associated with the pattern include a term combined with the co-occurrence pattern and a search query corresponding to the address pattern. The pattern-corresponding word may include teacher data, which is correct data given in advance, or may not include teacher data.

ネットワークスコアDB21は、パターン対応単語と、パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶する。すなわち、ネットワーク構造として、パターン対応単語とパターンとをそれぞれノードとみなした場合に、ネットワークスコアDB21は、当該ノード間を繋ぐエッジにエッジスコアを対応付けて記憶する。   The network score DB 21 regards each pattern-corresponding word and pattern as a node, and stores an edge score that is a score of an edge connecting the nodes in association with the edge. That is, when the pattern correspondence word and the pattern are regarded as nodes as the network structure, the network score DB 21 stores the edge score in association with the edge connecting the nodes.

ここで、パターン対応単語と、パターンとのエッジに対応付けられるエッジスコアは、パターン対応単語とパターンとの組合せが出現する頻度等に基づいて求められる。エッジスコアは、例えば、頻度をそのまま用いてもよいし、頻度に基づいて確率値になるよう正規化してもよいし、自己相互情報量を用いても、対数尤度比を用いてもよい。   Here, the edge score associated with the pattern-corresponding word and the edge of the pattern is obtained based on the frequency of the combination of the pattern-corresponding word and the pattern. For the edge score, for example, the frequency may be used as it is, it may be normalized to become a probability value based on the frequency, a self-mutual information amount may be used, or a log likelihood ratio may be used.

このネットワーク構造は、関連するパターンと共起するパターン対応単語は関連するという性質がある。すなわち、同じパターン対応単語と共起するパターン同士は関連する可能性が高い。その関連するパターンの多くと共起するパターン対応単語は元のパターン対応単語と関連する可能性が高い。同様に、同じパターンと共起するパターン対応単語同士は関連する可能性が高い。その関連するパターン対応単語の多くと共起するパターンは元のパターンと関連する可能性が高い。この様な性質を用いて、パターン対応単語同士の関連度という尺度の計算を効率的に行うことができる。   This network structure has the property that pattern-corresponding words that co-occur with related patterns are related. That is, there is a high possibility that patterns co-occurring with the same pattern correspondence word are related to each other. A pattern corresponding word that co-occurs with many of the related patterns is likely to be related to the original pattern corresponding word. Similarly, pattern correspondence words that co-occur with the same pattern are likely to be related. A pattern that co-occurs with many of the related pattern correspondence words is likely to be related to the original pattern. Using such a property, it is possible to efficiently calculate a measure of the degree of association between pattern-corresponding words.

すなわち、適正単語取得装置10は、パターンと、パターン対応単語とをネットワーク構造とみなし、パターン対応単語の、取得したいカテゴリとの関連度の尺度であるスコアを計算する。計算したスコアによる関連度は、教師データのカテゴリ(取得したいカテゴリ)と、パターン対応単語のカテゴリとの同じらしさを表すので、計算したスコアに基づいて、適正単語取得装置10は、高い精度で教師データと同じカテゴリのパターン対応単語を取得することができる。   That is, the appropriate word acquisition apparatus 10 regards the pattern and the pattern-corresponding word as a network structure, and calculates a score that is a measure of the degree of association between the pattern-corresponding word and the category to be acquired. Since the degree of association based on the calculated score represents the sameness between the category of the teacher data (the category to be acquired) and the category of the pattern-corresponding word, the appropriate word acquisition device 10 performs the teacher with high accuracy based on the calculated score. Pattern-corresponding words in the same category as the data can be acquired.

ここで、当然のことながら教師データは予め与えた単語であり正解データ(取得したいカテゴリと一致している単語)であるので、教師データを含まないパターン対応単語と、パターンとをそれぞれノードとみなしたネットワーク構造において、スコアの計算を行ってもよい。   Here, as a matter of course, since the teacher data is a word given in advance and is correct data (a word that matches the category to be acquired), the pattern-corresponding word not including the teacher data and the pattern are regarded as nodes. The score may be calculated in the network structure.

初期スコアリング部11は、パターン対応単語又はパターンのうち一方に所定の初期スコアを付与する。すなわち、ノードとエッジとからなるネットワーク構造の解析を行うために、初期スコアとして、例えば、パターン対応単語に初期スコアを付与し、解析を始める。又は、初期スコアとして、例えば、パターンに初期スコアを付与し、解析を始める。   The initial scoring unit 11 assigns a predetermined initial score to one of the pattern correspondence word or the pattern. That is, in order to analyze the network structure composed of nodes and edges, for example, an initial score is given to a pattern corresponding word as an initial score, and the analysis is started. Alternatively, as an initial score, for example, an initial score is given to the pattern and the analysis is started.

所定の初期のスコアは、例えば、少なくとも1つの正解データに1、カテゴリが不明な他のデータに0を付与する。ここで正解データとは、教師データを含み、教師データと同じカテゴリのパターン対応単語又は教師データと共起するパターンをいう。例えば、教師データを含んだネットワーク構造とする場合には、少なくとも1つの教師データ、又は教師データと共起するパターンに1を付与すればよく、教師データを含まないネットワーク構造とする場合には、パターン対応単語又はパターンのうち正解データの選択を管理者から受け付け、選択された少なくとも1つの正解データに1を付与する。   As the predetermined initial score, for example, 1 is assigned to at least one correct answer data, and 0 is assigned to other data whose category is unknown. Here, the correct answer data refers to patterns that include teacher data and co-occur with pattern-corresponding words or teacher data in the same category as the teacher data. For example, in the case of a network structure including teacher data, it is only necessary to add 1 to at least one teacher data or a pattern co-occurring with the teacher data. In the case of a network structure not including teacher data, The selection of correct data among the pattern-corresponding words or patterns is accepted from the administrator, and 1 is assigned to at least one selected correct data.

第1スコアリング部12は、パターン対応単語又はパターンのうち一方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち他方にスコアを付与する。すなわち、第1スコアリング部12は、パターン対応単語に付与されたスコアと、エッジスコアとに基づいてパターンにスコアを付与する。又は、パターンに付与されたスコアと、エッジスコアとに基づいてパターン対応単語にスコアを付与する。この付与されたスコアは、初回は、初期スコアリング部11によって付与された初期スコアであり、2回目以降は第2スコアリング部13によって付与されたスコアである。   The first scoring unit 12 assigns a score to the other of the pattern-corresponding words or patterns based on the score assigned to one of the pattern-corresponding words or patterns and the edge score. That is, the first scoring unit 12 assigns a score to the pattern based on the score assigned to the pattern corresponding word and the edge score. Alternatively, a score is assigned to the pattern-corresponding word based on the score assigned to the pattern and the edge score. The given score is the initial score given by the initial scoring unit 11 for the first time, and the score given by the second scoring unit 13 for the second and subsequent times.

第2スコアリング部13は、第1スコアリング部12によって他方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち一方にスコアを付与する。すなわち、第2スコアリング部13は、第1スコアリング部12によってパターンに付与されたスコアと、エッジスコアとに基づいてパターン対応単語にスコアを付与する。又は、第2スコアリング部13は、第1スコアリング部12によってパターン対応単語に付与されたスコアと、エッジスコアとに基づいてパターンにスコアを付与する。   The second scoring unit 13 assigns a score to one of the pattern-corresponding words or patterns based on the score given to the other by the first scoring unit 12 and the edge score. That is, the second scoring unit 13 gives a score to the pattern corresponding word based on the score given to the pattern by the first scoring unit 12 and the edge score. Or the 2nd scoring part 13 provides a score to a pattern based on the score provided to the pattern corresponding | compatible word by the 1st scoring part 12, and an edge score.

パターンに付与されるスコアは、パターン対応単語を行、パターンを列とする行列で表現し、数式1によって計算される。   The score given to a pattern is expressed by a matrix in which a pattern-corresponding word is a row and the pattern is a column.

Figure 0005042268
Figure 0005042268

ここでpはパターンiの現在のスコア、xはパターン対応単語jの現在のスコアであり、wi,jはパターンiとパターン対応単語jとのエッジスコアである。また、wi,jを要素とする行列をWとする。このエッジスコアはネットワークスコアDB21を参照することによって得られる。 Here, p i is the current score of pattern i, x j is the current score of pattern corresponding word j, and w i, j is the edge score of pattern i and pattern corresponding word j. Also, let W be a matrix whose elements are w i, j . This edge score is obtained by referring to the network score DB 21.

パターン対応単語に付与されるスコアは、数式2で計算される。   The score given to the pattern corresponding word is calculated by Equation 2.

Figure 0005042268
Figure 0005042268

ここで、yはパターン対応単語jの初期スコアである。αは、初期値の重要度を示す変数(例えば、0.9)であり、0<α<1である。ここで、αは、行列Wの最大固有値をλとすると、α<1/λである。このように、最初に与える正解データの重要度を示す1つの変数を設定するだけなので可搬性に優れる。 Here, y j is an initial score of the pattern corresponding word j. α is a variable (for example, 0.9) indicating the importance of the initial value, and 0 <α <1. Here, α is α <1 / λ where λ is the maximum eigenvalue of the matrix W. As described above, since only one variable indicating the importance of correct answer data given first is set, the portability is excellent.

なお、数式1及び数式2の例は、初期スコアをパターン対応単語に付与した場合である。初期スコアをパターンに付与した場合は、数式1によってパターン対応単語に付与されるスコアが計算され、数式2によってパターンに付与されるスコアが計算される。ここで、x、pは入れ替わり、yはパターンの初期スコアである。   In addition, the example of Numerical formula 1 and Numerical formula 2 is a case where an initial score is provided to the pattern corresponding word. When the initial score is given to the pattern, the score given to the pattern corresponding word is calculated by Equation 1 and the score given to the pattern is calculated by Equation 2. Here, x and p are interchanged, and y is the initial score of the pattern.

適正単語取得部14は、第1スコアリング部12によるパターン又はパターン対応単語へのスコアの付与と、第2スコアリング部13によるパターン対応単語又はパターンへのスコアの付与とを反復し、所定のスコア条件を満たすパターン対応単語を取得する。   The appropriate word acquisition unit 14 repeats the provision of the score to the pattern or the pattern-corresponding word by the first scoring unit 12 and the provision of the score to the pattern-corresponding word or the pattern by the second scoring unit 13, A pattern-corresponding word that satisfies the score condition is acquired.

パターンへのスコアの付与と、パターン対応単語へのスコアの付与との反復等に、並列処理プログラミングの技術を用いることで、適正単語取得装置10は、ウェブ検索等の大量のトラフィックが見込まれる検索システムにおいても、対応が可能である。   By using a technique of parallel processing programming to repeat the assignment of a score to a pattern and the assignment of a score to a pattern-corresponding word, the appropriate word acquisition device 10 can perform a search that expects a large amount of traffic such as a web search. The system can also handle this.

所定のスコア条件は、例えば、付与されたパターン対応単語のスコアと、当該スコアが付与される直前に付与されたパターン対応単語のスコアとの差が全て一定の値以下となった場合に、パターン対応単語のスコアが所定の値以上であることが条件である。ここで、差が全て一定の値以下となった場合とは、反復して付与されるスコアの値が収束した場合をいい、パターン対応単語のスコアが所定の値以上であるとは、正解データのカテゴリと同じカテゴリである可能性が高いことをいう。すなわち、適正単語取得部14は、反復したスコアリングが収束した場合に、正解データと同じカテゴリである可能性が高いパターン対応単語を取得する。   The predetermined score condition is, for example, when the difference between the score of the assigned pattern-corresponding word and the score of the pattern-corresponding word given immediately before the score is all equal to or less than a certain value. The condition is that the score of the corresponding word is not less than a predetermined value. Here, the case where all the differences are equal to or less than a certain value means that the score value given repeatedly has converged, and that the score of the pattern-corresponding word is equal to or greater than a predetermined value means correct data It is highly likely that the category is the same as the category. That is, when the repeated scoring converges, the appropriate word acquisition unit 14 acquires pattern-corresponding words that are likely to be in the same category as the correct answer data.

所定のスコア条件は、一定回数(例えば、40回)だけ反復し、スコアの順位が変化しない場合に、スコア順位の上位のパターン対応単語を取得するとしてもよい。一定回数の反復によって順位が変化しないことを判定することによって、計算量を削減することができる。   The predetermined score condition may be repeated a certain number of times (for example, 40 times), and when the score rank does not change, a pattern-corresponding word that is higher in the score rank may be acquired. By determining that the ranking does not change after a certain number of iterations, the amount of calculation can be reduced.

図2は、本発明の一実施形態に係る適正単語取得装置10がパターン対応単語と、パターンとをそれぞれノードとみなしたネットワーク構造に基づいてパターン対応単語のスコアを算出する一例を示す図である。   FIG. 2 is a diagram illustrating an example in which the appropriate word acquisition apparatus 10 according to an embodiment of the present invention calculates a pattern-corresponding word and a score of the pattern-corresponding word based on a network structure in which each pattern is regarded as a node. .

図2(1)は、教師データ(例えば、カテゴリが女優)である「×××子」と、パターン対応単語「奈良」、「○○○子」と、パターン「#+画像」、「#+写真集」、「#+ホテル」、「#+観光」とをノードとみなし、共起関係にあるノードをそれぞれエッジで繋げて、ネットワーク構造を構成していることを示す図である。すなわち、教師データである「×××子」は、例えばコーパスが検索ログの場合に、「×××子_画像」、「×××子_写真集」として出現する(_はスペースを表す)。そこで、パターン「#+画像」、「#+写真集」が抽出される。抽出されたパターンにより、「奈良_写真集」、「○○○子_画像」、「○○○子_写真集」を抽出し、パターン対応単語である「奈良」、「○○○子」を取得し、ネットワーク構造として表している。更に、「奈良」と共起するパターン「#+ホテル」、「#+観光」をも抽出していることを表している。   FIG. 2 (1) shows “xxx child” which is teacher data (for example, category is actress), pattern corresponding words “Nara”, “xxx child”, patterns “# + image”, “#”. FIG. 4 is a diagram illustrating that a network structure is configured by regarding “+ photo book”, “# + hotel”, and “# + tourism” as nodes and connecting nodes in a co-occurrence relationship with edges. That is, “xxx child” that is teacher data appears as “xxx child_image” and “xxx child_photo book” when the corpus is a search log (_ represents a space). ). Therefore, the patterns “# + image” and “# + photo book” are extracted. Based on the extracted patterns, “Nara_photo book”, “xxx child_image”, “xxx child_photo book” are extracted, and pattern corresponding words “Nara”, “xxx child” And represent it as a network structure. In addition, the patterns “# + hotel” and “# + tourism” co-occurring with “Nara” are also extracted.

図2(2)は、パターン対応単語と、パターンとのエッジスコアを行列形式にして示した図である。適正単語取得装置10は、ネットワークスコアDB21に基づいてこのような参照用のエッジスコアをハードディスク1074(後述する図3参照)等に記憶している。   FIG. 2 (2) is a diagram showing the pattern correspondence word and the edge score of the pattern in a matrix format. The proper word acquisition device 10 stores such a reference edge score in the hard disk 1074 (see FIG. 3 described later) or the like based on the network score DB 21.

図2(3)は、1回目に初期スコアとして、教師データである「×××子」にスコア1を付与し、「×××子」以外のパターン対応単語である「奈良」、「○○○子」にスコア0を付与したことを示し、付与したスコアと、エッジスコアとに基づいて、パターンのスコアを算出し、算出したパターンのスコアとエッジスコアとに基づいて教師データ及びパターン対応単語のスコアの算出を反復した結果、40回目に付与したパターン対応単語のスコアと、当該スコアを付与する直前である39回目に付与したパターン対応単語のスコアとの差が全て一定の値(例えば、0.01)以下となった場合に、パターン対応単語のスコアが所定の値(例えば、0.3)以上であることを満たすパターン対応単語である「○○○子」を適正なパターン対応単語として取得できたことを表している。適正単語取得装置10は、このような計算過程をハードディスク1074(後述する図3参照)等に記憶している。   In FIG. 2 (3), as the initial score for the first time, a score of 1 is assigned to the teacher data “xxx child”, and pattern corresponding words other than “xxx child” are “Nara”, “ XX child ”is given a score of 0, the pattern score is calculated based on the assigned score and the edge score, and the teacher data and the pattern correspondence are calculated based on the calculated pattern score and the edge score As a result of repeating the calculation of the word score, the difference between the score of the pattern-corresponding word given for the 40th time and the score of the pattern-corresponding word given for the 39th time immediately before giving the score are all constant values (for example, , 0.01) or less, the pattern corresponding word “XX child” satisfying that the score of the pattern corresponding word is equal to or higher than a predetermined value (for example, 0.3) is an appropriate pattern corresponding single It represents that can be acquired as. The proper word acquisition apparatus 10 stores such a calculation process in a hard disk 1074 (see FIG. 3 described later) or the like.

図3は、本発明の一実施形態に係る適正単語取得装置10のハードウェア構成の一例を示す図である。   FIG. 3 is a diagram illustrating an example of a hardware configuration of the proper word acquisition device 10 according to an embodiment of the present invention.

適正単語取得装置10は、制御部1000を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU_A1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、I/Oコントローラ1070、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、表示装置1080並びに入力装置1090を備える。   The proper word acquisition apparatus 10 includes a central processing unit (CPU) 1010 (a plurality of CPUs such as CPU_A 1012 may be added in a multiprocessor configuration) constituting the control unit 1000, a bus line 1005, a communication I / F 1040, a main memory 1050. , A BIOS (Basic Input Output System) 1060, an I / O controller 1070, a hard disk 1074, an optical disk drive 1076, a semiconductor memory 1078, a display device 1080, and an input device 1090.

制御部1000は、適正単語取得装置10を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。   The control unit 1000 is a part that controls the appropriate word acquisition device 10 in an integrated manner, and by reading and executing various programs stored in the hard disk 1074 as appropriate, it cooperates with the hardware described above, and relates to the present invention. Various functions are realized.

通信I/F1040は、適正単語取得装置10を専用ネットワーク又は公共ネットワークを介して他のサーバ等と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。   The communication I / F 1040 is a network adapter that enables the proper word acquisition apparatus 10 to be connected to another server or the like via a dedicated network or a public network. The communication I / F 1040 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter.

BIOS1060は、適正単語取得装置10の起動時にCPU1010が実行するブートプログラムや、適正単語取得装置10のハードウェアに依存するプログラム等を格納する。   The BIOS 1060 stores a boot program executed by the CPU 1010 when the appropriate word acquisition device 10 is activated, a program depending on the hardware of the appropriate word acquisition device 10, and the like.

I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078等の記憶手段を接続することができる。   Storage means such as a hard disk 1074, optical disk drive 1076, and semiconductor memory 1078 can be connected to the I / O controller 1070.

ハードディスク1074は、適正単語取得装置10が本発明の機能を実行するためのプログラムを記憶しており、ネットワークスコアDB21等のデータベース等を記憶している。   The hard disk 1074 stores a program for the proper word acquisition apparatus 10 to execute the function of the present invention, and stores a database such as the network score DB 21.

光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。   As the optical disc drive 1076, for example, a DVD-ROM drive, a CD-ROM drive, a DVD-RAM drive, or a CD-RAM drive can be used. In this case, the optical disk 1077 corresponding to each drive is used. A program or data may be read from the optical disk 1077 by the optical disk drive 1076 and provided to the main memory 1050 or the hard disk 1074 via the I / O controller 1070.

適正単語取得装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、適正単語取得装置10にインストールされ実行されてもよい。   The program provided to the appropriate word acquisition apparatus 10 is provided by being stored in a recording medium such as the hard disk 1074, the optical disk 1077, or a memory card. This program may be read from the recording medium via the I / O controller 1070 or downloaded via the communication I / F 1040 to be installed and executed in the proper word acquisition apparatus 10.

表示装置1080は、適正単語取得装置10による演算処理結果の画面等を表示するものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。   The display device 1080 displays a screen of a calculation processing result by the appropriate word acquisition device 10 and includes a display device such as a cathode ray tube display device (CRT) or a liquid crystal display device (LCD).

入力装置1090は、適正単語取得装置10への入力の受け付けを行うものであり、キーボード及びマウス等で構成される。   The input device 1090 accepts input to the appropriate word acquisition device 10 and includes a keyboard and a mouse.

図4は、本発明の一実施形態に係る適正単語取得装置10のネットワークスコアDB21を示す図である。ネットワークスコアDB21は、単語に対応付けて、コーパスのタイプ(例えば、検索クエリログの場合はクエリ、クリックスルーログの場合はクリック等)と、パターン(例えば、共起パターン、アドレスパターン)と、頻度と、エッジスコアとを記憶している。頻度は、単語がパターンと共に出現する頻度であり、エッジスコアは、例えば、単語ごとの頻度に基づいて作成された、エッジに付与されるスコアである。   FIG. 4 is a diagram showing the network score DB 21 of the proper word acquisition device 10 according to an embodiment of the present invention. The network score DB 21 associates a word with a corpus type (for example, a query for a search query log, a click for a click-through log, etc.), a pattern (for example, a co-occurrence pattern, an address pattern), a frequency, , Memorize the edge score. The frequency is a frequency at which a word appears together with a pattern, and the edge score is a score given to an edge created based on the frequency for each word, for example.

図5は、本発明の一実施形態に係る適正単語取得装置10の処理を示すフローチャートである。なお、本処理は、プログラム開始指令を受けて処理を開始し、プログラムを実行し終了する。   FIG. 5 is a flowchart showing processing of the appropriate word acquisition device 10 according to an embodiment of the present invention. Note that this process starts upon receiving a program start command, executes the program, and ends.

ステップS101において、CPU1010は、パターン対応単語又はパターンのうち一方に所定の初期スコアを付与する。より具体的には、CPU1010は、少なくとも1つの正解データ(例えば、教師データ)に1、他のデータに0を付与し、ハードディスク1074に記憶する。すなわち、パターン対応単語に初期スコアを付与する場合には、パターン対応単語のうちの少なくとも1つの正解データ(例えば、教師データ)に1、カテゴリを付与する対象であるパターン対応単語に0を付与する。パターンに初期スコアを付与する場合には、パターンのうちの少なくとも1つの正解データ(例えば、教師データと共起するパターン)に1、他のパターンに0を付与する。その後、CPU1010は、処理をステップS102に移す。   In step S101, the CPU 1010 gives a predetermined initial score to one of the pattern-corresponding word or pattern. More specifically, the CPU 1010 assigns 1 to at least one correct answer data (for example, teacher data) and 0 to other data, and stores them in the hard disk 1074. That is, when an initial score is given to a pattern-corresponding word, 1 is assigned to at least one correct answer data (for example, teacher data) among the pattern-corresponding words, and 0 is assigned to a pattern-corresponding word to which a category is to be assigned. . When an initial score is assigned to a pattern, 1 is assigned to at least one correct answer data (for example, a pattern co-occurring with teacher data), and 0 is assigned to another pattern. Thereafter, the CPU 1010 advances the processing to step S102.

ステップS102において、CPU1010は、パターン対応単語又はパターンのうち一方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち他方にスコアを付与する。より具体的には、CPU1010は、ステップS101又はステップS103においてパターン対応単語に付与されたスコアと、ネットワークスコアDB21を参照して取得したエッジスコアとに基づいて、初期スコアがパターン対応単語の場合における数式1の計算を行い、パターンにスコアを付与する。又は、CPU1010は、ステップS101又はステップS103においてパターンに付与されたスコアと、ネットワークスコアDB21を参照して取得したエッジスコアとに基づいて、初期スコアがパターンの場合における数式1の計算を行い、パターン対応単語にスコアを付与する。CPU1010は、付与したスコアをハードディスク1074に記憶する。その後、CPU1010は、処理をステップS103に移す。   In step S102, the CPU 1010 assigns a score to the other of the pattern-corresponding words or patterns based on the score assigned to one of the pattern-corresponding words or patterns and the edge score. More specifically, the CPU 1010 determines that the initial score is a pattern-corresponding word based on the score given to the pattern-corresponding word in step S101 or step S103 and the edge score acquired with reference to the network score DB 21. Formula 1 is calculated and a score is given to the pattern. Alternatively, the CPU 1010 calculates Formula 1 when the initial score is a pattern based on the score given to the pattern in step S101 or step S103 and the edge score acquired with reference to the network score DB 21, and the pattern Give a score to the corresponding word. The CPU 1010 stores the assigned score in the hard disk 1074. Thereafter, the CPU 1010 advances the processing to step S103.

ステップS103において、CPU1010は、ステップS102によって他方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち一方にスコアを付与する。より具体的には、CPU1010は、ステップS102においてパターンに付与されたスコアと、ネットワークスコアDB21を参照して取得したエッジスコアとに基づいて、初期スコアがパターン対応単語の場合における数式2の計算を行い、パターン対応単語にスコアを付与する。又は、CPU1010は、ステップS102においてパターン対応単語に付与されたスコアと、ネットワークスコアDB21を参照して取得したエッジスコアとに基づいて、初期スコアがパターンの場合における数式2の計算を行い、パターンにスコアを付与する。CPU1010は、付与したスコアをハードディスク1074に記憶する。その後、CPU1010は、処理をステップS104に移す。   In step S103, the CPU 1010 assigns a score to one of the pattern-corresponding words or patterns based on the score assigned to the other in step S102 and the edge score. More specifically, the CPU 1010 calculates Formula 2 when the initial score is a pattern-corresponding word based on the score given to the pattern in step S102 and the edge score acquired with reference to the network score DB 21. And give a score to the pattern-corresponding word. Alternatively, the CPU 1010 calculates Formula 2 when the initial score is a pattern based on the score given to the pattern-corresponding word in step S102 and the edge score acquired with reference to the network score DB 21 to obtain the pattern. Give a score. The CPU 1010 stores the assigned score in the hard disk 1074. Thereafter, the CPU 1010 advances the processing to step S104.

ステップS104において、CPU1010は、スコア条件を満たすか否かを判断する。より具体的には、CPU1010は、ハードディスク1074に記憶した、付与したパターン対応単語のスコアと、当該スコアを付与する直前に付与したパターン対応単語のスコアとの差が、全てのパターン対応単語について一定の値以下となったか否かを判断する。この判断がYESの場合は処理をステップS105に移し、NOの場合は処理をステップS102に移す。   In step S104, the CPU 1010 determines whether or not the score condition is satisfied. More specifically, the CPU 1010 has a constant difference between the score of the assigned pattern-corresponding word stored in the hard disk 1074 and the score of the pattern-corresponding word assigned immediately before giving the score for all the pattern-corresponding words. It is determined whether or not the value is less than or equal to. If the determination is YES, the process proceeds to step S105, and if the determination is NO, the process proceeds to step S102.

ステップS105において、CPU1010は、適正単語を取得する。より具体的には、CPU1010は、ハードディスク1074に記憶した、パターン対応単語のスコアが所定の値以上であるパターン対応単語を取得する。その後、CPU1010は、処理を終了する。   In step S105, the CPU 1010 acquires a proper word. More specifically, the CPU 1010 acquires a pattern corresponding word stored in the hard disk 1074 and having a pattern corresponding word score equal to or higher than a predetermined value. Thereafter, the CPU 1010 ends the process.

[実施例2]
図6は、本発明の一実施形態に係る機械学習装置30の機能構成を示すブロック図である。機械学習装置30は、ブートストラップ部35と、適正単語取得装置10と、教師データ追加部36と、教師データDB41と、ネットワークスコアDB21とを備えている。
[Example 2]
FIG. 6 is a block diagram showing a functional configuration of the machine learning device 30 according to the embodiment of the present invention. The machine learning device 30 includes a bootstrap unit 35, a proper word acquisition device 10, a teacher data adding unit 36, a teacher data DB 41, and a network score DB 21.

ブートストラップ部35は、既存の技術に基づいてコーパスからブートストラップにより単語を抽出する。例えば、教師データDB41(後述する図7参照)から取得した教師データのカテゴリと一致したコーパスをコーパスDB42から取得し、取得したコーパスを形態素解析し、形態素解析に基づいて、コーパスの中から教師データと共起するパターンを抽出し、抽出したパターンによって対応付けられるパターン対応単語を取得する。そして、抽出したパターンと、取得したパターン対応単語とを適正単語取得装置10に与える。   The bootstrap unit 35 extracts words from the corpus by bootstrap based on the existing technology. For example, a corpus that matches the category of the teacher data acquired from the teacher data DB 41 (see FIG. 7 to be described later) is acquired from the corpus DB 42, the acquired corpus is morphologically analyzed, and the teacher data is extracted from the corpus based on the morphological analysis. And a pattern corresponding word associated with the extracted pattern is acquired. Then, the extracted pattern and the acquired pattern correspondence word are given to the appropriate word acquisition device 10.

適正単語取得装置10は、上述の様に、ネットワークスコアDB21と、初期スコアリング部11と、第1スコアリング部12と、第2スコアリング部13と、適正単語取得部14と、を備え、与えられたパターン対応単語及びパターンをネットワーク構造とみなし、ネットワークスコアDB21によるエッジスコアと、ノードの初期スコアとに基づいて、スコアリングを反復し、所定のスコア条件を満たすパターン対応単語を取得する。   As described above, the appropriate word acquisition device 10 includes the network score DB 21, the initial scoring unit 11, the first scoring unit 12, the second scoring unit 13, and the appropriate word acquisition unit 14, Given pattern-corresponding words and patterns are regarded as a network structure, scoring is repeated based on the edge score by the network score DB 21 and the initial score of the node, and pattern-corresponding words satisfying a predetermined score condition are obtained.

教師データ追加部36は、適正単語取得装置10が取得したパターン対応単語を教師データDB41に追加する。よって、機械学習装置30は、精度の高い教師データDB41を効率よく作成することができる。   The teacher data adding unit 36 adds the pattern correspondence word acquired by the appropriate word acquisition device 10 to the teacher data DB 41. Therefore, the machine learning device 30 can efficiently create the teacher data DB 41 with high accuracy.

図7は、本発明の一実施形態に係る機械学習装置30の教師データDB41の例を示す図である。教師データDB41は、単語に対応付けて、カテゴリを記憶する。   FIG. 7 is a diagram illustrating an example of the teacher data DB 41 of the machine learning device 30 according to an embodiment of the present invention. The teacher data DB 41 stores categories in association with words.

機械学習装置30のハードウェア構成は、適正単語取得装置10のハードウェア構成(図3)と同様である。   The hardware configuration of the machine learning device 30 is the same as the hardware configuration of the proper word acquisition device 10 (FIG. 3).

実施例1によれば、適正単語取得装置10は、パターン対応単語と、パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコアDB21を備え、パターン対応単語又はパターンのうち一方に所定の初期スコアを付与する。そして、パターン対応単語又はパターンのうち一方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち他方にスコアを付与し、他方に付与されたスコアと、エッジスコアとに基づいて、パターン対応単語又はパターンのうち一方にスコアを付与し、他方へのスコアの付与と、一方へのスコアの付与とを反復し、所定のスコア条件を満たすパターン対応単語を取得する。よって、適正単語取得装置10は、初期スコアに基づいて、正解データとの関連度を表すスコアに基づいてパターン対応単語を取得するので、初期スコア時の変数によって、教師データのカテゴリと同じカテゴリのパターン対応単語を取得することができる。したがって、本発明に係る適正単語取得装置は、教師データと同じカテゴリの単語を、多くの変数を調整することなく精度高く適正に取得できる。   According to the first embodiment, the appropriate word acquisition apparatus 10 regards the pattern-corresponding word and the pattern as nodes, and stores the edge score that is the score of the edge connecting the nodes in association with the edge. A DB 21 is provided, and a predetermined initial score is given to one of the pattern correspondence word or pattern. Then, based on the score assigned to one of the pattern-corresponding words or patterns and the edge score, the score is assigned to the other of the pattern-corresponding words or patterns, and the score assigned to the other and the edge score Based on the pattern-corresponding word or pattern, a score is assigned to one of the patterns, and the addition of the score to the other and the provision of the score to the other are repeated to obtain a pattern-corresponding word that satisfies a predetermined score condition. Therefore, the appropriate word acquisition device 10 acquires the pattern-corresponding word based on the score representing the degree of association with the correct answer data based on the initial score. Pattern-corresponding words can be acquired. Therefore, the appropriate word acquisition apparatus according to the present invention can acquire words of the same category as the teacher data with high accuracy and appropriate without adjusting many variables.

更に、適正単語取得装置10は、付与したパターン対応単語のスコアと、当該スコアを付与する直前に付与したパターン対応単語のスコアとの差が全て一定の値以下となった場合に、パターン対応単語のスコアが所定の値以上であること、を満たすパターン対応単語を取得する。よって、適正単語取得装置10は、ネットワーク構造によるスコアリングを反復し、反復したスコアリングが収束し、予め与えられた教師データとの関連度を表すスコアが所定の値以上であるパターン対応単語を取得するので、教師データのカテゴリと同じカテゴリのパターン対応単語を取得することができる。したがって、適正単語取得装置10は、教師データと同じカテゴリの単語をスコアに基づいて精度高く適正に取得できる。   Furthermore, the appropriate word acquisition device 10 determines that the pattern correspondence word when the difference between the score of the assigned pattern correspondence word and the score of the pattern correspondence word assigned immediately before the application of the score is equal to or less than a certain value. A pattern-corresponding word that satisfies that the score is equal to or greater than a predetermined value is acquired. Therefore, the appropriate word acquisition apparatus 10 repeats scoring according to the network structure, the repeated scoring converges, and a pattern corresponding word whose score representing the degree of association with teacher data given in advance is a predetermined value or more is selected. Since it is acquired, it is possible to acquire a pattern corresponding word in the same category as the category of the teacher data. Therefore, the appropriate word acquisition device 10 can appropriately acquire words of the same category as the teacher data with high accuracy based on the score.

実施例2によれば、機械学習装置30は、ブートストラップ部35と、適正単語取得装置10と、教師データ追加部36とを備え、ブートストラップ部35が抽出したパターンと、取得したパターン対応単語とを適正単語取得装置10に与え、適正単語取得装置10が、適正なパターン対応単語を取得し、取得したパターン対応単語を教師データ追加部36が教師データDB41に追加する。したがって、機械学習装置30は、教師データと同じカテゴリのパターン対応単語を、多くの変数を調整することなく、ネットワークスコアDB21に基づいて精度高く適正に取得するので、取得したパターン対応単語を教師データDB41に追加するごとに精度を向上させることができ、教師データDB41を効率よく作成することができる。   According to the second embodiment, the machine learning device 30 includes the bootstrap unit 35, the appropriate word acquisition device 10, and the teacher data addition unit 36. The pattern extracted by the bootstrap unit 35 and the acquired pattern corresponding word To the appropriate word acquisition device 10, the appropriate word acquisition device 10 acquires an appropriate pattern correspondence word, and the teacher data addition unit 36 adds the acquired pattern correspondence word to the teacher data DB 41. Therefore, the machine learning device 30 acquires the pattern-corresponding words in the same category as the teacher data appropriately with high accuracy based on the network score DB 21 without adjusting many variables. Each time it is added to the DB 41, the accuracy can be improved, and the teacher data DB 41 can be created efficiently.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

10 適正単語取得装置
11 初期スコアリング部
12 第1スコアリング部
13 第2スコアリング部
14 適正単語取得部
21 ネットワークスコアDB
30 機械学習装置
35 ブートストラップ部
36 教師データ追加部
41 教師データDB
DESCRIPTION OF SYMBOLS 10 Proper word acquisition apparatus 11 Initial scoring part 12 1st scoring part 13 2nd scoring part 14 Proper word acquisition part 21 Network score DB
30 Machine Learning Device 35 Bootstrap Unit 36 Teacher Data Adding Unit 41 Teacher Data DB

Claims (6)

予め与えられたカテゴリごとの教師データと共起するパターンと、当該パターンによって対応付けられるパターン対応単語とに基づいて適正なパターン対応単語を取得する適正単語取得装置であって、
前記パターン対応単語と、前記パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段と、
前記パターン対応単語又は前記パターンのうち一方に所定の初期スコアを付与する初期スコアリング手段と、
前記パターン対応単語又は前記パターンのうち前記一方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち他方にスコアを付与する第一のスコアリング手段と、
前記第一のスコアリング手段によって前記他方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち前記一方にスコアを付与する第二のスコアリング手段と、
前記第一のスコアリング手段によるスコアの付与と、前記第二のスコアリング手段によるスコアの付与とを反復し、所定のスコア条件を満たす前記パターン対応単語を取得する適正単語取得手段と、
を備え
前記ネットワークスコア記憶手段が記憶するネットワークを、前記パターン対応単語と前記パターンとを対応させた行列とし、当該行列内の要素として当該パターン対応単語と当該パターンとのエッジスコアを記憶し、
前記第一のスコアリング手段と前記第二のスコアリング手段は、前記ネットワークスコア記憶手段が記憶している行列に対して、当該行列の最大固有値λに基づいて定められており、初期値の重要度を示す変数を用いてスコアの計算を行う
ことを特徴とする適正単語取得装置。
An appropriate word acquisition device that acquires an appropriate pattern correspondence word based on a pattern that co-occurs with teacher data for each category given in advance and a pattern correspondence word associated with the pattern,
A network score storage means that regards the pattern-corresponding word and the pattern as nodes, and stores an edge score, which is a score of an edge connecting the nodes, in association with the edge;
An initial scoring means for giving a predetermined initial score to one of the pattern-corresponding word or the pattern;
A first scoring means for assigning a score to the other of the pattern-corresponding word or the pattern based on the score given to the one of the pattern-corresponding word or the pattern and the edge score;
A second scoring means for assigning a score to the one of the pattern-corresponding word or the pattern based on the score given to the other by the first scoring means and the edge score;
Appropriate word acquisition means for repeating the provision of the score by the first scoring means and the provision of the score by the second scoring means, and acquiring the pattern-corresponding word satisfying a predetermined score condition;
Equipped with a,
The network stored by the network score storage means is a matrix in which the pattern-corresponding word is associated with the pattern, and the edge score between the pattern-corresponding word and the pattern is stored as an element in the matrix,
The first scoring means and the second scoring means are determined based on the maximum eigenvalue λ of the matrix with respect to the matrix stored in the network score storage means. A proper word acquisition device, wherein a score is calculated using a variable indicating degree .
前記所定のスコア条件は、前記第一のスコアリング手段又は前記第二のスコアリング手段が付与した前記パターン対応単語のスコアと、当該スコアを付与する直前に前記第一のスコアリング手段又は前記第二のスコアリング手段が付与した前記パターン対応単語のスコアとの差が全て一定の値以下となった場合に、前記パターン対応単語のスコアが所定の値以上であること、を特徴とする請求項1に記載の適正単語取得装置。   The predetermined score condition includes a score of the pattern-corresponding word given by the first scoring means or the second scoring means, and the first scoring means or the first score just before giving the score. The score of the pattern-corresponding word is equal to or greater than a predetermined value when all the differences from the score of the pattern-corresponding word provided by the second scoring means are equal to or less than a predetermined value. The proper word acquisition device according to 1. 予め与えられたカテゴリごとの教師データと共起するパターンをコーパスから抽出し、抽出した前記パターンによって対応付けられるパターン対応単語を取得する機械学習装置であって、
前記パターン対応単語と、前記パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段と、
前記パターン対応単語又は前記パターンのうち一方に所定の初期スコアを付与する初期スコアリング手段と、
前記パターン対応単語又は前記パターンのうち前記一方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち他方にスコアを付与する第一のスコアリング手段と、
前記第一のスコアリング手段によって前記他方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち前記一方にスコアを付与する第二のスコアリング手段と、
前記第一のスコアリング手段によるスコアの付与と、前記第二のスコアリング手段によるスコアの付与とを反復し、所定のスコア条件を満たす前記パターン対応単語を取得する適正単語取得手段と、
を備え
前記ネットワークスコア記憶手段が記憶するネットワークを、前記パターン対応単語と前記パターンとを対応させた行列とし、当該行列内の要素として当該パターン対応単語と当該パターンとのエッジスコアを記憶し、
前記第一のスコアリング手段と前記第二のスコアリング手段は、前記ネットワークスコア記憶手段が記憶している行列に対して、当該行列の最大固有値λに基づいて定められており、初期値の重要度を示す変数を用いてスコアの計算を行う
ことを特徴とする機械学習装置。
A machine learning device that extracts a pattern that co-occurs with teacher data for each given category from a corpus and acquires a pattern-corresponding word that is associated with the extracted pattern,
A network score storage means that regards the pattern-corresponding word and the pattern as nodes, and stores an edge score, which is a score of an edge connecting the nodes, in association with the edge;
An initial scoring means for giving a predetermined initial score to one of the pattern-corresponding word or the pattern;
A first scoring means for assigning a score to the other of the pattern-corresponding word or the pattern based on the score given to the one of the pattern-corresponding word or the pattern and the edge score;
A second scoring means for assigning a score to the one of the pattern-corresponding word or the pattern based on the score given to the other by the first scoring means and the edge score;
Appropriate word acquisition means for repeating the provision of the score by the first scoring means and the provision of the score by the second scoring means, and acquiring the pattern-corresponding word satisfying a predetermined score condition;
Equipped with a,
The network stored by the network score storage means is a matrix in which the pattern-corresponding word is associated with the pattern, and the edge score between the pattern-corresponding word and the pattern is stored as an element in the matrix,
The first scoring means and the second scoring means are determined based on the maximum eigenvalue λ of the matrix with respect to the matrix stored in the network score storage means. A machine learning device that calculates a score using a variable indicating degree .
前記所定のスコア条件は、前記第一のスコアリング手段又は前記第二のスコアリング手段が付与した前記パターン対応単語のスコアと、当該スコアを付与する直前に前記第一のスコアリング手段又は前記第二のスコアリング手段が付与した前記パターン対応単語のスコアとの差が全て一定の値以下となった場合に、前記パターン対応単語のスコアが所定の値以上であること、を特徴とする請求項3に記載の機械学習装置。   The predetermined score condition includes a score of the pattern-corresponding word given by the first scoring means or the second scoring means, and the first scoring means or the first score just before giving the score. The score of the pattern-corresponding word is equal to or greater than a predetermined value when all the differences from the score of the pattern-corresponding word provided by the second scoring means are equal to or less than a predetermined value. 3. The machine learning device according to 3. 予め与えられたカテゴリごとの教師データと共起するパターンと、当該パターンによって対応付けられるパターン対応単語とに基づいて適正なパターン対応単語を取得する適正単語取得装置において、前記パターン対応単語と、前記パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段を備える適正単語取得装置が実行する方法であって、
前記パターン対応単語又は前記パターンのうち一方に所定の初期スコアを付与するステップと、
前記パターン対応単語又は前記パターンのうち前記一方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち他方にスコアを付与するステップと、
前記他方にスコアを付与するステップによって前記他方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち前記一方にスコアを付与するステップと、
前記他方にスコアを付与するステップと、前記一方にスコアを付与するステップとを反復し、所定のスコア条件を満たす前記パターン対応単語を取得するステップと、
を備え
前記ネットワークスコア記憶手段が記憶するネットワークを、前記パターン対応単語と前記パターンとを対応させた行列とし、当該行列内の要素として当該パターン対応単語と当該パターンとのエッジスコアを記憶し、
前記他方にスコアを付与するステップと前記一方にスコアを付与するステップは、前記ネットワークスコア記憶手段が記憶している行列に対して、当該行列の最大固有値λに基づいて定められており、初期値の重要度を示す変数を用いてスコアの計算を行う
ことを特徴とする方法。
In an appropriate word acquisition device that acquires an appropriate pattern-corresponding word based on a pattern that co-occurs with teacher data for each given category and a pattern-corresponding word that is associated with the pattern, the pattern-corresponding word, and It is a method executed by an appropriate word acquisition device including network score storage means that regards a pattern as a node and stores an edge score that is a score of an edge connecting the nodes in association with the edge,
Giving a predetermined initial score to one of the pattern-corresponding word or the pattern;
Assigning a score to the other of the pattern-corresponding word or the pattern based on the score given to the one of the pattern-corresponding word or the pattern and the edge score;
Assigning a score to the pattern-corresponding word or the pattern based on the score given to the other by the step of assigning a score to the other and the edge score; and
Repeating the step of assigning a score to the other and the step of assigning a score to the one, and obtaining the pattern-corresponding word satisfying a predetermined score condition;
Equipped with a,
The network stored by the network score storage means is a matrix in which the pattern-corresponding word is associated with the pattern, and the edge score between the pattern-corresponding word and the pattern is stored as an element in the matrix,
The step of assigning a score to the other and the step of assigning a score to the other are determined on the basis of the maximum eigenvalue λ of the matrix for the matrix stored in the network score storage means. A method of calculating a score by using a variable indicating the importance of the score .
予め与えられたカテゴリごとの教師データと共起するパターンをコーパスから抽出し、抽出した前記パターンによって対応付けられるパターン対応単語を取得する機械学習装置において、前記パターン対応単語と、前記パターンとをそれぞれノードとみなし、当該ノード間を繋ぐエッジのスコアであるエッジスコアを当該エッジに対応付けて記憶するネットワークスコア記憶手段を備える機械学習装置が実行する方法であって、
前記パターン対応単語又は前記パターンのうち一方に所定の初期スコアを付与するステップと、
前記パターン対応単語又は前記パターンのうち前記一方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち他方にスコアを付与するステップと、
前記他方にスコアを付与するステップによって前記他方に付与されたスコアと、前記エッジスコアとに基づいて、前記パターン対応単語又は前記パターンのうち前記一方にスコアを付与するステップと、
前記他方にスコアを付与するステップと、前記一方にスコアを付与するステップとを反復し、所定のスコア条件を満たす前記パターン対応単語を取得するステップと、
を備え
前記ネットワークスコア記憶手段が記憶するネットワークを、前記パターン対応単語と前記パターンとを対応させた行列とし、当該行列内の要素として当該パターン対応単語と当該パターンとのエッジスコアを記憶し、
前記他方にスコアを付与するステップと前記一方にスコアを付与するステップは、前記ネットワークスコア記憶手段が記憶している行列に対して、当該行列の最大固有値λに基づいて定められており、初期値の重要度を示す変数を用いてスコアの計算を行う
ことを特徴とする方法。
In a machine learning apparatus that extracts a pattern-corresponding word associated with the extracted pattern, the pattern-corresponding word and the pattern are respectively extracted from a corpus, and a pattern that co-occurs with teacher data for each category given in advance. It is a method executed by a machine learning device that includes a network score storage unit that considers a node and stores an edge score that is a score of an edge connecting the nodes in association with the edge,
Giving a predetermined initial score to one of the pattern-corresponding word or the pattern;
Assigning a score to the other of the pattern-corresponding word or the pattern based on the score given to the one of the pattern-corresponding word or the pattern and the edge score;
Assigning a score to the pattern-corresponding word or the pattern based on the score given to the other by the step of assigning a score to the other and the edge score; and
Repeating the step of assigning a score to the other and the step of assigning a score to the one, and obtaining the pattern-corresponding word satisfying a predetermined score condition;
Equipped with a,
The network stored by the network score storage means is a matrix in which the pattern-corresponding word is associated with the pattern, and the edge score between the pattern-corresponding word and the pattern is stored as an element in the matrix,
The step of assigning a score to the other and the step of assigning a score to the other are determined on the basis of the maximum eigenvalue λ of the matrix for the matrix stored in the network score storage means. A method of calculating a score by using a variable indicating the importance of the score .
JP2009109662A 2009-04-28 2009-04-28 Proper word acquisition device, machine learning device and method Active JP5042268B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009109662A JP5042268B2 (en) 2009-04-28 2009-04-28 Proper word acquisition device, machine learning device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009109662A JP5042268B2 (en) 2009-04-28 2009-04-28 Proper word acquisition device, machine learning device and method

Publications (2)

Publication Number Publication Date
JP2010257406A JP2010257406A (en) 2010-11-11
JP5042268B2 true JP5042268B2 (en) 2012-10-03

Family

ID=43318204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009109662A Active JP5042268B2 (en) 2009-04-28 2009-04-28 Proper word acquisition device, machine learning device and method

Country Status (1)

Country Link
JP (1) JP5042268B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5597653B2 (en) * 2012-01-05 2014-10-01 日本電信電話株式会社 Word extraction apparatus, method, and program
JP5944867B2 (en) * 2013-07-08 2016-07-05 日本電信電話株式会社 Search intention dictionary creation device, search intention dictionary creation method, and search intention dictionary creation program
JP6049201B2 (en) * 2013-08-05 2016-12-21 Kddi株式会社 Program, method, apparatus and server for generating co-occurrence patterns for detecting synonyms
JP7229887B2 (en) * 2019-09-11 2023-02-28 株式会社日立製作所 Document information extraction device and document information extraction method

Also Published As

Publication number Publication date
JP2010257406A (en) 2010-11-11

Similar Documents

Publication Publication Date Title
Khan et al. A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation
US8694303B2 (en) Systems and methods for tuning parameters in statistical machine translation
US8463593B2 (en) Natural language hypernym weighting for word sense disambiguation
US11210468B2 (en) System and method for comparing plurality of documents
WO2016027714A1 (en) Question sentence generation device and computer program
US10467256B2 (en) Automatic query pattern generation
US20120022852A1 (en) Apparatus, system, and method for computer aided translation
CN111831802B (en) Urban domain knowledge detection system and method based on LDA topic model
WO2019169858A1 (en) Searching engine technology based data analysis method and system
JP2013516022A (en) Cluster and present search suggestions
JP2021507350A (en) Reinforcement evidence retrieval of complex answers
RU2733481C2 (en) Method and system for generating feature for ranging document
JP7168411B2 (en) Information processing system and information processing method
JP5042268B2 (en) Proper word acquisition device, machine learning device and method
Fantinuoli et al. Kudo interpreter assist: Automated real-time support for remote interpretation
Kolthoff et al. Data-driven prototyping via natural-language-based GUI retrieval
US8229970B2 (en) Efficient storage and retrieval of posting lists
JP4935243B2 (en) Search program, information search device, and information search method
RU2546064C1 (en) Distributed system and method of language translation
KR20190033821A (en) Folder Recommending Method and Apparatus Thereof
Wong et al. Constructing specialised corpora through analysing domain representativeness of websites
KR101870658B1 (en) System and method for distributed realtime processing of linguistic intelligence moduel
WO2015177861A1 (en) Device and method for generating training data
Bosma Extending answers using discourse structure
Rakhimova et al. Complex technology of machine translation resources extension for the Kazakh language

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120710

R150 Certificate of patent or registration of utility model

Ref document number: 5042268

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350