JP5854975B2 - Proper noun relationship estimation apparatus, method, and program - Google Patents

Proper noun relationship estimation apparatus, method, and program Download PDF

Info

Publication number
JP5854975B2
JP5854975B2 JP2012259061A JP2012259061A JP5854975B2 JP 5854975 B2 JP5854975 B2 JP 5854975B2 JP 2012259061 A JP2012259061 A JP 2012259061A JP 2012259061 A JP2012259061 A JP 2012259061A JP 5854975 B2 JP5854975 B2 JP 5854975B2
Authority
JP
Japan
Prior art keywords
proper noun
similarity
document
proper
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012259061A
Other languages
Japanese (ja)
Other versions
JP2014106737A (en
Inventor
平野 徹
徹 平野
牧野 俊朗
俊朗 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012259061A priority Critical patent/JP5854975B2/en
Publication of JP2014106737A publication Critical patent/JP2014106737A/en
Application granted granted Critical
Publication of JP5854975B2 publication Critical patent/JP5854975B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、固有名詞間関係推定装置、方法、及びプログラムに係り、特に固有名詞間の関係を推定する固有名詞間関係推定装置、方法、及びプログラムに関する。   The present invention relates to a proper noun relation estimation apparatus, method, and program, and more particularly to a proper noun relation estimation apparatus, method, and program for estimating a relation between proper nouns.

従来、テキスト中の名詞句の組の関係を推定する技術として、類似する名詞の組は同じ関係を持つという考えに基づき、名詞を既定のクラスに割り当て、その組み合わせで関係を推定するシステムがある(非特許文献1参照)。   Conventionally, as a technique for estimating the relationship between pairs of noun phrases in text, there is a system that assigns nouns to a predetermined class based on the idea that similar pairs of nouns have the same relationship, and estimates the relationship using the combination of the nouns (Refer nonpatent literature 1).

一方、固有名詞間の類似性を測る尺度として、固有名詞の組の関係を示す表現がテキスト中に明記されているものから自動的に獲得した関係情報(固有名詞X、Yと関係表現Rから成る3つ組)に基づく類似度が提案され、この類似度が、現在最も性能の高い尺度して知られている(非特許文献2参照)。この類似度では、図5に示すようなグラフィカル表現で表される、LinkLDAというトピックモデルを用いて、固有名詞の各トピックに属する確率分布を求め、その分布類似度を用いるというものである。分布類似度の算出には、次のJensen Shannon Divergenceを用いる。   On the other hand, as a scale for measuring the similarity between proper nouns, relational information automatically obtained from the expression indicating the relationship between proper noun pairs specified in the text (from proper nouns X and Y and relational expression R) Similarity based on a triplet is proposed, and this similarity is currently known as a measure with the highest performance (see Non-Patent Document 2). In this similarity, a probability distribution belonging to each topic of proper nouns is obtained using a topic model called LinkLDA represented by a graphical representation as shown in FIG. 5, and the distribution similarity is used. The following Jensen Shannon Divergence is used to calculate the distribution similarity.

なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。また、上記の式におけるKL(P^||Q^)は、確率分布P^と確率分布Q^とのKullback−Leibler divergenceを表している。   Note that “^” attached to a symbol indicates that the symbol is a matrix, a multidimensional array, or a vector. In addition, KL (P ^ || Q ^) in the above expression represents the Kullback-Leibler divergence between the probability distribution P ^ and the probability distribution Q ^.

黒橋禎夫,他1名、「Semantic Analysis of ”A NO B” Noun Phrases using a Machine Readable Dictionary.」、1999.1.21、自然言語処理、p.109-116.Ikuo Kurohashi, 1 other, “Semantic Analysis of“ A NO B ”Noun Phrases using a Machine Readable Dictionary”, 1999.1.21, Natural Language Processing, p.109-116. Alan Ritter, 他2名、「A Latent Dirichlet Allocation method for Selectional Preferences」、2010.6、Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics、p.424-434.Alan Ritter, two others, "A Latent Dirichlet Allocation method for Selectional Preferences", 2010.6, Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, p.424-434.

従来技術における、上記の「類似する名詞の組は同じ関係を持つ」という考え方と、上記の「自動的に獲得された関係情報(固有名詞X、Yと関係表現Rから成る3つ組の情報)に基づく類似度」とを組み合わせると、文書中に固有名詞間の関係が明記されていない場合に、関係情報が付与された教師事例と、入力された固有名詞の組との近さを、先の類似度で計算し、入力された固有名詞の組に近い事例をn個選択し、選択された事例に付与されている関係を、入力された固有名詞の組の関係として出力することが考えられる。   In the prior art, the above-mentioned idea that “a set of similar nouns has the same relationship” and the above “relation information automatically acquired (proprietary nouns X and Y and a triple expression composed of a relationship expression R) ) -Based similarity, the relationship between the teacher case given the relationship information and the input proper noun pair when the relationship between proper nouns is not clearly stated in the document, It is possible to calculate the previous similarity, select n cases close to the input proper noun group, and output the relation given to the selected proper noun as the input proper noun pair relation. Conceivable.

しかしながら、この手法は、固有名詞の表記に基づく類似度だけを用いていることになり、特に、あいまい性のある固有名詞の組に対して誤った関係を出力してしまう、という問題がある。   However, this method uses only the similarity based on the proper noun notation, and in particular, there is a problem that an erroneous relationship is output to a set of ambiguous proper nouns.

例えば、「ワールドベースボールクラシック(登録商標)の日本韓国が楽しみです。」における「日本」と「韓国」の関係を推定する際には、類似事例として、「(神奈川、日本)、R=ある」(神奈川は日本に位置するという意味)や「(日本、アジア)、R=ある」(日本はアジアに位置するという意味)が選択され、「(日本、韓国)、R=ある」と誤った関係を出力してしまう。正解の関係は「(日本、韓国)、R=対戦」である。   For example, when estimating the relationship between “Japan” and “Korea” in “World Baseball Classic (Registered Trademark) Japan and Korea are looking forward to”, a similar example is “(Kanagawa, Japan), R = ”(Meaning Kanagawa is located in Japan) or“ (Japan, Asia), R = Yes ”(meaning Japan is located in Asia), and“ (Japan, Korea), R = Yes ” Output the relationship. The correct answer is “(Japan, Korea), R = match”.

本発明は、上記問題を解決するためになされたもので、文書に含まれる固有名詞の組について、固有名詞間の関係を精度よく推定することができる固有名詞間関係推定装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made to solve the above-described problem, and a proper noun relationship estimation apparatus, method, and program capable of accurately estimating a relationship between proper nouns for a proper noun group included in a document. The purpose is to provide.

上記目的を達成するために、本発明の固有名詞間関係推定装置は、入力文書に含まれる固有名詞の組(X,Y)について、固有名詞トピックモデルに従って各固有名詞について予め求められた前記固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記固有名詞の組(X,Y)の各固有名詞X、Yに対する、前記複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に予め記憶された、各々固有名詞間の関係が付与された複数の固有名詞の組(A,B)である教師事例の各々ついて、前記予め求められた前記固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bに対する、前記複数の話題の各々との関連度合いを示す確率分布を取得する固有名詞話題取得手段と、前記教師事例の各々について、前記固有名詞話題取得手段によって各固有名詞X、Yについて取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bについて取得された前記確率分布とに基づいて、前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算する固有名詞類似度計算手段と、前記入力文書について、文書トピックモデルに従って、前記入力文書と複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に前記教師事例の各々に対応して予め記憶された、前記教師事例の固有名詞間の関係を有する固有名詞の組(A、B)を含む文書の各々ついて、前記文書と複数の話題の各々との関連度合いを示す確率分布を取得する文書話題取得手段と、前記教師事例の各々について、前記文書話題取得手段によって前記入力文書について取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)を含む文書について取得された前記確率分布とに基づいて、前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との類似度を示す文書類似度を計算する文書類似度計算手段と、前記教師事例の各々について、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算する組み合わせ類似度計算手段と、前記組み合わせ類似度計算手段によって計算された組み合わせ類似度に基づいて、前記教師事例から、前記固有名詞の組(X,Y)に類似する教師事例を選択すると共に、前記選択された教師事例の固有名詞間の関係に基づいて、前記選択された教師事例の固有名詞の組と該固有名詞間の関係との組み合わせのうち、最も多い、前記固有名詞の組と該固有名詞間の関係との組み合わせの前記固有名詞間の関係を、前記固有名詞の組(X,Y)の関係として推定する推定手段と、を備えている。 In order to achieve the above-described object, the proper noun relationship estimation apparatus of the present invention provides the proper noun obtained in advance for each proper noun according to the proper noun topic model for the proper noun group (X, Y) included in the input document. Based on a probability distribution indicating the degree of association between a noun and each of a plurality of topics, the degree of association with each of the plurality of topics with respect to each of the proper nouns X and Y of the set of proper nouns (X, Y) is shown. For each of the teacher cases, which is a set of a plurality of proper nouns (A, B) each having a relationship between proper nouns, which is stored in the storage means and is stored in advance in the storage means. Based on the probability distribution indicating the degree of association between the proper noun and each of the plurality of topics, each of the plurality of topics with respect to each of the proper nouns A and B of the set of proper nouns (A, B) of the teacher example Indicates degree of association Proper noun topic acquisition means for acquiring a probability distribution, and for each of the teacher examples, the probability distribution acquired for each of the proper nouns X and Y by the proper noun topic acquisition means, and a proper noun of the teacher example ( Similarity between the proper noun pair (X, Y) and the proper noun pair (A, B) of the teacher example based on the probability distribution acquired for each proper noun A, B) of A, B) A proper noun similarity calculating means for calculating a proper noun similarity indicating a degree and a probability distribution indicating a degree of association between the input document and each of a plurality of topics according to a document topic model for the input document; For each document including a set of proper nouns (A, B) having a relationship between proper nouns of the teacher case, which is stored in advance in correspondence with each of the teacher case examples in the storage means, the document and a plurality of topics Document topic acquisition means for acquiring a probability distribution indicating the degree of association with each of the above, the probability distribution acquired for the input document by the document topic acquisition means for each of the teacher examples, and the proper nouns of the teacher examples Document similarity indicating similarity between the input document and a document including the proper noun pair (A, B) of the teacher example based on the probability distribution acquired for the document including the pair (A, B) For each of the teacher cases, the document similarity calculation means for calculating the proper noun similarity calculation means (X, Y) and the proper noun pair (A, B) based on the proper noun similarity and the document similarity between the input document calculated by the document similarity calculating means and the document including the proper noun pair (A, B) of the teacher case, Specific Based on the combination similarity calculated by the combination similarity calculation means, the combination similarity calculation means for calculating the combination similarity indicating the similarity obtained by combining the noun similarity and the document similarity, from the teacher example , Selecting a teacher case similar to the set of proper nouns (X, Y), and, based on the relationship between the proper nouns of the selected teacher case, the set of proper nouns of the selected teacher case and the proper noun Of the combinations with the proper nouns, the most common nouns in the combination of the proper nouns and the proper nouns are the relationships between the proper nouns (X, Y). And estimating means for estimating

本発明の固有名詞間関係推定方法は、固有名詞話題取得手段、固有名詞類似度計算手段、文書話題取得手段、文書類似度計算手段、組み合わせ類似度計算手段及び推定手段を含む固有名詞間関係推定装置における固有名詞間関係推定方法であって、前記固有名詞話題取得手段によって、入力文書に含まれる固有名詞の組(X,Y)について、固有名詞トピックモデルに従って各固有名詞について予め求められた前記固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記固有名詞の組(X,Y)の各固有名詞X、Yに対する、前記複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に予め記憶された、各々固有名詞間の関係が付与された複数の固有名詞の組(A,B)である教師事例の各々ついて、前記予め求められた前記固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bに対する、前記複数の話題の各々との関連度合いを示す確率分布を取得するステップと、前記固有名詞類似度計算手段によって、前記教師事例の各々について、前記固有名詞話題取得手段によって各固有名詞X、Yについて取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bについて取得された前記確率分布とに基づいて、前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算するステップと、前記文書話題取得手段によって、前記入力文書について、文書トピックモデルに従って、前記入力文書と複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に前記教師事例の各々に対応して予め記憶された、前記教師事例の固有名詞間の関係を有する固有名詞の組(A、B)を含む文書の各々ついて、前記文書と複数の話題の各々との関連度合いを示す確率分布を取得するステップと、前記文書類似度計算手段によって、前記教師事例の各々について、前記文書話題取得手段によって前記入力文書について取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)を含む文書について取得された前記確率分布とに基づいて、前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との類似度を示す文書類似度を計算するステップと、前記組み合わせ類似度計算手段によって、前記教師事例の各々について、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算するステップと、前記推定手段によって、前記組み合わせ類似度計算手段によって計算された組み合わせ類似度に基づいて、前記教師事例から、前記固有名詞の組(X,Y)に類似する教師事例を選択すると共に、前記選択された教師事例の固有名詞間の関係に基づいて、前記選択された教師事例の固有名詞の組と該固有名詞間の関係との組み合わせのうち、最も多い、前記固有名詞の組と該固有名詞間の関係との組み合わせの前記固有名詞間の関係を、前記固有名詞の組(X,Y)の関係として推定するステップと、を含む。 The proper noun relationship estimation method of the present invention includes a proper noun topic acquisition unit, a proper noun similarity calculation unit, a document topic acquisition unit, a document similarity calculation unit, a combination similarity calculation unit, and an estimation unit. A method for estimating a proper noun relationship in a device, wherein the proper noun topic acquisition unit obtains each proper noun in advance according to a proper noun topic model for a proper noun topic (X, Y) included in an input document. Based on the probability distribution indicating the degree of association between the proper noun and each of the plurality of topics, the degree of association with each of the plurality of topics for each of the proper nouns X and Y of the set of proper nouns (X, Y) Each of the teacher cases, which is a set of plural proper nouns (A, B), each of which is stored in advance in the storage means and has a relationship between proper nouns, is acquired in the storage means. Based on the probability distribution indicating the degree of association between the proper noun and the plurality of topics obtained in advance, the proper nouns A and B of the proper noun pairs (A, B) of the teacher case Obtaining a probability distribution indicating a degree of association with each of the plurality of topics; and for each of the teacher examples by the proper noun similarity calculation means; and for each proper noun X and Y by the proper noun topic acquisition means. Based on the acquired probability distribution and the probability distribution acquired for each proper noun A, B of the proper noun pair (A, B) of the teacher case, the proper noun pair (X, Y) Calculating a proper noun similarity indicating the similarity between the proper noun pair (A, B) of the teacher case and the document topic acquisition means according to the document topic model. Obtaining a probability distribution indicating the degree of association between the input document and each of a plurality of topics, and having a relationship between proper nouns of the teacher case stored in advance corresponding to each of the teacher cases in the storage means For each document including a set of proper nouns (A, B), obtaining a probability distribution indicating the degree of association between the document and each of a plurality of topics; and by the document similarity calculation means, For each, based on the probability distribution acquired for the input document by the document topic acquisition means and the probability distribution acquired for a document containing a set of proper nouns (A, B) of the teacher case Calculating the document similarity indicating the similarity between the input document and the document including the proper noun pair (A, B) of the teacher case; and For each of the teacher cases, the proper noun similarity between the proper noun pair (X, Y) calculated by the proper noun similarity calculating means and the proper noun pair (A, B) of the teacher case, Based on the document similarity between the input document calculated by the document similarity calculation means and the document including the proper noun pair (A, B) of the teacher case, the proper noun similarity and the document similarity A combination similarity indicating a combination similarity, and a pair of proper nouns (X) from the teacher example based on the combination similarity calculated by the combination similarity calculation means by the estimation means , as well as select the teaching case similar to Y), based on the relationship between proper nouns of the selected teacher cases, the relationship between the set and the proper noun proper nouns of the selected teacher case Among the combinations, the most common, estimating a relationship between the proper nouns in combination with the relationship between the set and the proper noun of the proper noun, a relationship between the set (X, Y) of the proper noun, the Including.

本発明に係る固有名詞間関係推定装置及び固有名詞間関係推定方法によれば、固有名詞話題取得手段によって、入力文書に含まれる固有名詞の組(X,Y)について、固有名詞トピックモデルに従って各固有名詞について予め求められた固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、固有名詞の組(X,Y)の各固有名詞X、Yに対する、複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に予め記憶された、各々固有名詞間の関係が付与された複数の固有名詞の組(A,B)である教師事例の各々ついて、予め求められた固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、教師事例の固有名詞の組(A,B)の各固有名詞A、Bに対する、複数の話題の各々との関連度合いを示す確率分布を取得する。   According to the proper noun relationship estimation apparatus and proper noun relationship estimation method according to the present invention, each proper noun topic acquisition unit performs each proper noun pair (X, Y) included in the input document according to a proper noun topic model. Each of the plurality of topics for each proper noun X, Y of the proper noun pair (X, Y) based on the probability distribution indicating the degree of association between the proper noun and the plurality of topics determined in advance for the proper noun For each of the teacher cases, which is a set of a plurality of proper nouns (A, B) each having a relationship between proper nouns, which is stored in the storage means in advance, and a probability distribution indicating the degree of association with Each of a plurality of topics with respect to each of the proper nouns A and B of the proper noun pair (A, B) of the teacher example based on a probability distribution indicating the degree of association between the proper noun and the plurality of topics obtained in advance. And relation To obtain a probability distribution that indicates the degree.

そして、固有名詞類似度計算手段によって、教師事例の各々について、固有名詞話題取得手段によって各固有名詞X、Yについて取得された確率分布と、教師事例の固有名詞の組(A,B)の各固有名詞A、Bについて取得された確率分布とに基づいて、固有名詞の組(X,Y)と教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算する。   Then, for each of the teacher cases by the proper noun similarity calculation means, the probability distribution acquired for each proper noun X, Y by the proper noun topic acquisition means and each of the proper noun pairs (A, B) of the teacher case Based on the probability distribution acquired for the proper nouns A and B, the proper noun similarity indicating the similarity between the proper noun pair (X, Y) and the proper noun pair (A, B) of the teacher case is calculated. To do.

そして、文書話題取得手段によって、入力文書について、文書トピックモデルに従って、入力文書と複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に教師事例の各々に対応して予め記憶された、教師事例の固有名詞間の関係を有する固有名詞の組(A、B)を含む文書の各々ついて、文書と複数の話題の各々との関連度合いを示す確率分布を取得する。   Then, the document topic acquisition unit acquires a probability distribution indicating the degree of association between the input document and each of the plurality of topics according to the document topic model for the input document, and previously stores the probability distribution corresponding to each teacher case. A probability distribution indicating the degree of association between the document and each of a plurality of topics is acquired for each of the stored documents including the proper noun pairs (A, B) having the relationship between the proper nouns of the teacher case.

そして、文書類似度計算手段によって、教師事例の各々について、文書話題取得手段によって入力文書について取得された確率分布と、教師事例の固有名詞の組(A,B)を含む文書について取得された確率分布とに基づいて、入力文書と教師事例の固有名詞の組(A,B)を含む文書との類似度を示す文書類似度を計算する。   Then, the probability acquired for the document including the probability distribution acquired for the input document by the document topic acquisition unit and the proper nouns (A, B) of the teacher case for each of the teacher cases by the document similarity calculation unit Based on the distribution, the document similarity indicating the similarity between the input document and the document including the proper noun pair (A, B) of the teacher case is calculated.

そして、組み合わせ類似度計算手段によって、教師事例の各々について、固有名詞類似度計算手段によって計算された固有名詞の組(X,Y)と教師事例の固有名詞の組(A,B)との固有名詞類似度と、文書類似度計算手段によって計算された入力文書と教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、固有名詞類似度と文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算する。   Then, for each of the teacher cases by the combination similarity calculation means, the proper noun pair (X, Y) calculated by the proper noun similarity calculation means and the proper noun pair (A, B) of the teacher case are calculated. Based on the noun similarity and the document similarity between the input document calculated by the document similarity calculation means and the document including the proper noun pair (A, B) of the teacher case, the proper noun similarity and the document similarity The combination similarity indicating the similarity obtained by combining is calculated.

そして、推定手段によって、組み合わせ類似度計算手段によって計算された組み合わせ類似度に基づいて、教師事例から、固有名詞の組(X,Y)に類似する教師事例を選択すると共に、選択された教師事例の固有名詞間の関係に基づいて、固有名詞の組(X,Y)の関係を推定する。   Then, the estimation unit selects a teacher example similar to the proper noun pair (X, Y) from the teacher examples based on the combination similarity calculated by the combination similarity calculation unit, and the selected teacher example Based on the relationship between proper nouns, the relationship of proper noun pairs (X, Y) is estimated.

このように、固有名詞トピックモデルに従って求められる各固有名詞に対する各話題との関連度合いを示す確率分布に基づいて、入力文書に含まれる固有名詞の組(X,Y)と教師事例の固有名詞の組(A,B)の固有名詞類似度を計算し、文書トピックモデルに従って求められる文書と話題との関連度合いを示す確率分布に基づいて、入力文書と教師事例の固有名詞の組(A,B)を含む文書との文書類似度を計算し、固有名詞類似度と文書類似度との組み合わせ類似度に基づいて、教師事例から、固有名詞の組(X,Y)に類似する教師事例を選択し、選択された教師事例の固有名詞間の関係に基づいて、固有名詞の組(X,Y)の関係を推定することにより、文書に含まれる固有名詞の組について、固有名詞間の関係を精度よく推定することができる。   Thus, based on the probability distribution indicating the degree of association between each proper noun and each proper noun obtained according to the proper noun topic model, the proper noun pair (X, Y) included in the input document and the proper noun of the teacher example The proper noun similarity of the pair (A, B) is calculated, and the proper noun pair (A, B) of the input document and the teacher case is calculated based on the probability distribution indicating the degree of association between the document and the topic obtained according to the document topic model. ) Is calculated, and a teacher case similar to the proper noun pair (X, Y) is selected from the teacher cases based on the combined similarity of the proper noun similarity and the document similarity. Then, based on the relationship between the proper nouns in the selected teacher case, the relationship between the proper nouns is estimated for the proper noun pairs included in the document Estimate accurately It is possible.

また、前記固有名詞類似度計算手段は、前記教師事例の各々について、前記固有名詞話題取得手段によって各固有名詞X、Yについて取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bについて取得された前記確率分布とに基づいて、前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算すると共に、前記固有名詞の組(X,Y)の固有名詞の順序を逆にした固有名詞の組(Y,X)と、前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算し、前記組み合わせ類似度計算手段は、前記教師事例の各々について、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算すると共に、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)の固有名詞の順序を逆にした固有名詞の組(Y,X)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算するようにすることができる。   In addition, the proper noun similarity calculating means may include, for each teacher case, a set of the probability distribution acquired for each proper noun X, Y by the proper noun topic acquisition means and the proper noun of the teacher case (A , B) based on the probability distribution obtained for each proper noun A, B, the similarity between the proper noun pair (X, Y) and the proper noun pair (A, B) of the teacher case And a proper noun pair (Y, X) obtained by reversing the proper noun order of the proper noun pair (X, Y) and the proper noun pair of the teacher example ( A proper noun similarity indicating similarity to A, B) is calculated, and the combination similarity calculating means calculates, for each of the teacher cases, the set of proper nouns calculated by the proper noun similarity calculating means ( X, Y) and the proper nouns of the teacher case (A, B) and the document similarity between the input document calculated by the document similarity calculation means and the document including the proper noun pair (A, B) of the teacher case Based on the combination of the proper noun similarity and the document similarity, the combination similarity indicating the similarity is calculated, and the proper noun similarity (X, Y) calculated by the proper noun similarity calculation means is calculated. The proper noun similarity between the proper noun pair (Y, X) in which the proper noun order is reversed and the proper noun pair (A, B) of the teacher example is calculated by the document similarity calculation means. A combination similarity indicating a similarity obtained by combining the proper noun similarity and the document similarity based on the document similarity between the input document and the document including the proper noun pair (A, B) of the teacher example Try to calculate the degree It can be.

また、本発明のプログラムは、コンピュータを、上記の固有名詞間関係推定装置を構成する各手段として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each means which comprises said relationship between proper nouns estimation apparatus.

以上説明したように、本発明の固有名詞間関係推定装置、方法、及びプログラムによれば、固有名詞トピックモデルに従って求められる各固有名詞に対する各話題との関連度合いを示す確率分布に基づいて、入力文書に含まれる固有名詞の組(X,Y)と教師事例の固有名詞の組(A,B)の固有名詞類似度を計算し、文書トピックモデルに従って求められる文書と話題との関連度合いを示す確率分布に基づいて、入力文書と教師事例の固有名詞の組(A,B)を含む文書との文書類似度を計算し、固有名詞類似度と文書類似度との組み合わせ類似度に基づいて、教師事例から、固有名詞の組(X,Y)に類似する教師事例を選択し、選択された教師事例の固有名詞間の関係に基づいて、固有名詞の組(X,Y)の関係を推定することにより、文書に含まれる固有名詞の組について、固有名詞間の関係を精度よく推定することができる、という効果が得られる。   As described above, according to the apparatus, method, and program for estimating proper noun relationships according to the present invention, the input is based on the probability distribution indicating the degree of association with each topic for each proper noun obtained according to the proper noun topic model. The proper noun similarity of the proper noun pair (X, Y) included in the document and the proper noun pair (A, B) of the teacher example is calculated, and the degree of association between the document and the topic obtained according to the document topic model is shown. Based on the probability distribution, the document similarity between the input document and the document including the proper noun pair (A, B) of the teacher example is calculated, and based on the combination similarity of the proper noun similarity and the document similarity, A teacher case similar to the proper noun pair (X, Y) is selected from the teacher case, and the proper noun pair (X, Y) is estimated based on the relationship between the proper nouns of the selected teacher case. By For a set of proper nouns included in the document, the relationship between proper nouns can be estimated accurately, the effect is obtained that.

トピックモデルLDAのグラフィカル表現を示す図である。It is a figure which shows the graphical representation of the topic model LDA. 本発明の実施の形態に係る固有名詞間関係推定装置の構成の一例を示す図である。It is a figure which shows an example of a structure of the proper noun relation estimation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る固有名詞間関係推定処理ルーチンのフローチャートの一例である。It is an example of the flowchart of the proper noun relationship estimation process routine which concerns on embodiment of this invention. 本実施の形態に係る実験結果を示す図である。It is a figure which shows the experimental result which concerns on this Embodiment. 従来技術を説明するための図である。It is a figure for demonstrating a prior art.

<概要>
まず、本発明の実施の形態の概要について説明する。
<Overview>
First, an outline of an embodiment of the present invention will be described.

本発明の実施の形態は、文書中の固有名詞の組の関係を、固有名詞の組の関係を示す表現が入力文書中に明記されていない場合に、その関係を推定する技術に関するものである。例えば、「民主党の山田さんは日本の首相だ。」という文書において、「民主党」と「山田」には関係があることがわかるが、その関係を示す表現は文書中には明記されていない。本発明の実施の形態は、この「民主党」と「山田」の関係を、「所属」と推定するものである。   The embodiment of the present invention relates to a technique for estimating a relationship between proper noun pairs in a document when an expression indicating the proper noun pair relationship is not specified in an input document. . For example, in the document “Democratic Party Mr. Yamada is the Japanese Prime Minister”, it can be seen that “Democratic Party” and “Yamada” are related, but the expression indicating the relationship is not specified in the document. In the embodiment of the present invention, the relationship between the “Democratic Party” and “Yamada” is estimated as “affiliation”.

本発明の実施の形態では、固有名詞の類似度と文書の類似度を組み合わせた類似度を用いる。例えば、「ワールドベースボールクラシック(登録商標)の日本韓国が楽しみです。」という文において、文書全体がスポーツの話題であることがわかれば、類似事例として、「(阪神、巨人)、R=対戦」や「(カナダ、日本)、R=対戦」が選択できるようになり、「(日本、韓国)、R=対戦」と正しい関係を出力できると期待される。   In the embodiment of the present invention, a similarity obtained by combining the similarity of proper nouns and the similarity of documents is used. For example, in the sentence “World Baseball Classic (Registered Trademark) Japan and Korea are looking forward to”, if you know that the whole document is a topic of sports, you can use “(Hanshin, Giants), R = And “(Canada, Japan), R = match” can be selected, and it is expected that a correct relationship with “(Japan, Korea), R = match” can be output.

また、図1に示すグラフィカル表現で表される、周知の技術であるトピックモデルLDA(LDA:Latent Dirichlet Allocation(参考文献 Blei,2003「Latent dirichlet allocation」を参照))を用いて、文書(D)中の出現単語(W)の共起行列[W, D]に基づく類似度を計算し、文書の各トピックに対する確率分布を求め、その分布類似度を、文書の類似度として用いる。   In addition, a document (D) using a topic model LDA (LDA: Latent Dirichlet Allocation (refer to Reference Blei, 2003 “Latent dirichlet allocation”)), which is a well-known technique, represented by the graphical representation shown in FIG. The similarity based on the co-occurrence matrix [W, D] of the appearance word (W) is calculated, a probability distribution for each topic of the document is obtained, and the distribution similarity is used as the similarity of the document.

<システム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。図2は、本実施の形態に係る固有名詞間関係推定装置の構成の一例を示す図である。
<System configuration>
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 2 is a diagram illustrating an example of a configuration of the proper noun relationship estimation apparatus according to the present embodiment.

本実施の形態に係る固有名詞間関係推定装置10は、CPUと、RAMと、後述する固有名詞間関係推定処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。   The proper noun relationship estimation apparatus 10 according to the present embodiment is constituted by a computer including a CPU, a RAM, a program for executing a proper noun relationship estimation processing routine to be described later, and a ROM storing various data. Has been. Further, an HDD may be provided as a storage means.

このコンピュータは、機能的には、図2に示すように、入力部1、演算部2、及び出力部3を含んだ構成で表わすことができる。   This computer can be functionally represented by a configuration including an input unit 1, an arithmetic unit 2, and an output unit 3, as shown in FIG.

入力部1は、関係推定の対象となる固有名詞の組(X,Y)の入力を受け付けると共に、固有名詞の組(X,Y)を含む文書の入力を受け付ける。例えば、固有名詞の組「日本、韓国」と、文書「ワールドベースボールクラシック(登録商標)の日本韓国が楽しみです。」との入力を受け付ける。   The input unit 1 accepts input of a proper noun pair (X, Y) that is a target of relationship estimation, and accepts an input of a document including the proper noun pair (X, Y). For example, an input of a proper noun pair “Japan, Korea” and a document “I am looking forward to World Baseball Classic (registered trademark) Japan Korea” is accepted.

また、演算部2は、固有名詞トピックモデル記憶部20、教師事例固有名詞データベース21、固有名詞話題取得部22、固有名詞類似度計算部23、文書トピックモデル記憶部24、教師事例文書データベース25、文書話題取得部26、文書類似度計算部27、組み合わせ類似度計算部28、類似事例選択部29を備えている。   The arithmetic unit 2 includes a proper noun topic model storage unit 20, a teacher case proper name noun database 21, a proper noun topic acquisition unit 22, a proper noun similarity calculation unit 23, a document topic model storage unit 24, a teacher case document database 25, A document topic acquisition unit 26, a document similarity calculation unit 27, a combination similarity calculation unit 28, and a similar case selection unit 29 are provided.

固有名詞トピックモデル記憶部20には、周知のトピックモデルLinkLDA(上記非特許文献2を参照)を用いて予め作成された、各固有名詞についての各トピック(以下、話題と称する。)への関連度を示す確率分布が記憶されている。ここで、トピックモデルとは、文書が話題に基づいて生成される過程を確率的に表現したモデルである。また、固有名詞トピックモデル記憶部20に記憶された確率分布の話題数は、固有名詞トピックモデルで予め既定されているが、実験では話題数Z=100が最も良い結果であった。なお、トピックモデルLinkLDAは、固有名詞トピックモデルの一例である。   The proper noun topic model storage unit 20 relates to each topic (hereinafter referred to as a topic) for each proper noun created in advance using a well-known topic model LinkLDA (see Non-Patent Document 2 above). A probability distribution indicating the degree is stored. Here, the topic model is a model that stochastically represents a process in which a document is generated based on a topic. The number of topics in the probability distribution stored in the proper noun topic model storage unit 20 is preset in the proper noun topic model, but the number of topics Z = 100 is the best result in the experiment. The topic model LinkLDA is an example of a proper noun topic model.

教師事例固有名詞データベース21には、固有名詞間の関係が付与された固有名詞の組である教師事例が複数記憶されている。なお、固有名詞の組とその関係との組み合わせ毎に、当該組み合わせが同一となる複数の教師事例が記憶されている。また、教師事例固有名詞データベース21は、記憶手段の一例である。   The teacher case proper noun database 21 stores a plurality of teacher cases that are sets of proper nouns to which relationships between proper nouns are given. For each combination of a proper noun pair and its relationship, a plurality of teacher cases with the same combination are stored. The teacher case proper noun database 21 is an example of a storage unit.

固有名詞話題取得部22は、固有名詞から、その固有名詞の各話題に属する確率分布を取得する。具体的には、固有名詞話題取得部22は、入力部1により入力された固有名詞の組(X,Y)の各固有名詞X,Yについて、固有名詞トピックモデル記憶部20に記憶された各固有名詞に対する確率分布から、固有名詞の各話題に属する確率分布を取得する。   The proper noun topic acquisition unit 22 acquires a probability distribution belonging to each topic of the proper noun from the proper noun. Specifically, the proper noun topic acquisition unit 22 stores each proper noun topic model storage unit 20 for each proper noun X, Y of the proper noun pair (X, Y) input by the input unit 1. The probability distribution belonging to each topic of the proper noun is acquired from the probability distribution for the proper noun.

例えば、固有名詞の組(日本、韓国)が入力部1により入力された場合、固有名詞「日本」の各トピックに対する確率分布として、(0.01、0.02、0.03、・・・、0.003)が、固有名詞「韓国」の各話題に属する確率分布として、(0.02、0.01、0.02、・・・、0.001)が取得される。   For example, when a proper noun pair (Japan, Korea) is input by the input unit 1, (0.01, 0.02, 0.03,..., 0.003) as the probability distribution for each topic of the proper noun “Japan” (0.02, 0.01, 0.02,..., 0.001) is acquired as a probability distribution belonging to each topic of the noun “Korea”.

また、固有名詞話題取得部22は、教師事例に対しても同様に、固有名詞の組の各固有名詞について、各話題に属する確率分布を取得する。固有名詞話題取得部22は、教師事例固有名詞データベース21に記憶されている各教師事例について、固有名詞の組(A,B)の各固有名詞A,Bについて、固有名詞トピックモデル記憶部20に記憶された各固有名詞に対する確率分布から、当該教師事例の固有名詞の組(A,B)の各固有名詞A,Bについての各話題に属する確率分布を取得する。   In addition, the proper noun topic acquisition unit 22 similarly acquires a probability distribution belonging to each topic for each proper noun in the proper noun group for the teacher case. The proper noun topic acquisition unit 22 stores the proper noun topic model storage unit 20 for each proper noun A and B of the proper noun group (A, B) for each teacher case stored in the teacher case proper noun database 21. From the stored probability distribution for each proper noun, the probability distribution belonging to each topic for each proper noun A, B of the proper noun pair (A, B) of the teacher case is acquired.

固有名詞類似度計算部23は、教師事例固有名詞データベース21に記憶されている各教師事例について、当該教師事例の固有名詞の組(A,B)と入力された固有名詞の組(X,Y)の類似度を示す固有名詞類似度を計算する。具体的には、固有名詞話題取得部22で取得された、入力部1により入力された固有名詞(X,Y)についての各固有名詞の各話題に属する確率分布と、当該教師事例の固有名詞の組(A,B)についての各固有名詞の各話題に属する確率分布とに基づいて、当該教師事例の固有名詞の組(A,B)と(X,Y)の固有名詞類似度を計算する。   The proper noun similarity calculation unit 23, for each teacher case stored in the teacher case proper name database 21, a proper noun pair (A, B) of the teacher case and the input proper noun pair (X, Y) ) To calculate the proper noun similarity indicating the similarity. Specifically, the probability distribution belonging to each topic of each proper noun for the proper noun (X, Y) input by the input unit 1 acquired by the proper noun topic acquisition unit 22 and the proper noun of the teacher example The proper noun similarity of the proper noun pairs (A, B) and (X, Y) of the teacher case is calculated based on the probability distribution belonging to each topic of each proper noun for the set (A, B) To do.

この際、教師事例の固有名詞の組(A,B)にはその関係を示すRが付与されており、この関係Rに対する方向性(AとBの順番)に意味がある。例えば、関係の持つ意味として「AはBのRだ」もしくは「AはBをRする」が成立するように関係が構造化されているならば、「山田(=A)は民主党(=B)の所属(R)だ」となり、(山田、民主党)という順番の組が正しく、(民主党、山田)という順番の組は異なる意味を持つことになっている。   At this time, R indicating the relationship is given to the proper noun pair (A, B) of the teacher example, and the directionality (the order of A and B) with respect to the relationship R is significant. For example, if the relationship is structured such that “A is R of B” or “A is R of B” as the meaning of the relationship, “Yamada (= A) is the Democratic Party (= B ) ”(Yamada, Democratic Party) is correct, and the order (Democratic Party, Yamada) has a different meaning.

そこで、固有名詞類似度計算部23は、教師事例中の固有名詞の組(A,B)の順は固定した上で、固有名詞の組(X,Y)について(X,Y)と(Y,X)との2パタンで固有名詞類似度を計算する。つまり、(A,B)⇔(X,Y)の固有名詞類似度と(A,B)⇔(Y,X)の固有名詞類似度とを算出することとなる。ここで、(A,B)⇔(X,Y)の固有名詞類似度は、A⇔Xの分布類似度とB⇔Yの分布類似度を加算した値であり、各分布類似度には、上述したJensen Shannon Divergenceを利用する。ここで、分布類似度とは、確率分布同士の類似度を示す。以下、入力された固有名詞の組(X,Y)の固有名詞の順序を逆にした固有名詞の組(Y,X)を、「逆順の固有名詞の組(Y,X)」と称する。   Therefore, the proper noun similarity calculation unit 23 fixes the order of the proper nouns (A, B) in the teacher case, and sets (X, Y) and (Y , X), the proper noun similarity is calculated in two patterns. That is, the proper noun similarity of (A, B) ⇔ (X, Y) and the proper noun similarity of (A, B) ⇔ (Y, X) are calculated. Here, the proper noun similarity of (A, B) ⇔ (X, Y) is a value obtained by adding the distribution similarity of A⇔X and the distribution similarity of B⇔Y. Use Jensen Shannon Divergence as described above. Here, the distribution similarity indicates the similarity between probability distributions. Hereinafter, the proper noun pair (Y, X) in which the order of proper nouns in the proper proper noun pair (X, Y) is reversed is referred to as “reverse proper proper noun pair (Y, X)”.

すなわち、一方の固有名詞に対する確率分布をP^とし、他方の固有名詞に対する確率分布をQ^として、以下の(1)式に従って、Jensen Shannon Divergenceを求め、2つの固有名詞の分布類似度とする。なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。   That is, assuming that the probability distribution for one proper noun is P ^ and the probability distribution for the other proper noun is Q ^, Jensen Shannon Divergence is obtained according to the following equation (1), and the distribution similarity of the two proper nouns is obtained. . Note that “^” attached to a symbol indicates that the symbol is a matrix, a multidimensional array, or a vector.

ここで上記(1)式におけるKL(P^||Q^)は、確率分布P^と確率分布Q^とのKullback−Leibler divergenceを表している。   Here, KL (P ^ || Q ^) in the above equation (1) represents the Kullback-Leibler divergence between the probability distribution P ^ and the probability distribution Q ^.

また、教師事例の固有名詞の組(A,B)が(神奈川、日本)で、入力された固有名詞(X,Y)の組が(日本、韓国)である場合、(神奈川、日本)⇔(日本、韓国)と(神奈川、日本)⇔(韓国、日本)の2パタンの固有名詞類似度を計算する。ここでは前者の固有名詞類似度が0.3、後者の固有名詞類似度が0.4だったとする。   In addition, if the proper noun pair (A, B) of the teacher case is (Kanagawa, Japan) and the input proper noun (X, Y) is (Japan, Korea), (Kanagawa, Japan) Calculate the proper noun similarity of 2 patterns of (Japan, Korea) and (Kanagawa, Japan) ⇔ (Korea, Japan). Here, it is assumed that the former proper noun similarity is 0.3 and the latter proper noun similarity is 0.4.

入力された固有名詞の組(X,Y)との固有名詞類似度の計算、及び逆順の固有名詞の組(Y,X)との固有名詞類似度の計算を、教師事例固有名詞データベース21に記憶されている、全ての教師事例の固有名詞の組に対して実施した結果(関係情報も含む)を出力する。例えば、「(神奈川、日本)⇔(日本、韓国)、0.3、R=ある」、及び「(神奈川、日本)⇔(韓国、日本)、0.4、R=ある」との形式で出力する。   The calculation of the proper noun similarity with the input proper noun pair (X, Y) and the proper noun similarity with the reverse proper noun pair (Y, X) are stored in the teacher case proper noun database 21. Outputs the results (including relation information) of the stored proper names of all teacher cases. For example, “(Kanagawa, Japan) ⇔ (Japan, Korea), 0.3, R = Yes” and “(Kanagawa, Japan) ⇔ (Korea, Japan), 0.4, R = Yes” are output.

文書トピックモデル記憶部24には、周知のトピックモデルLDA(参考文献(Blei,「Latent dirichlet allocation」, 2003)を参照)を用いて予め作成された、各文書の各話題への関連度を示す確率分布が記憶されている。ここで、文書トピックモデル記憶部24に記憶された確率分布の話題数は、文書トピックモデルで予め既定されているが、実験ではトピック数Z=100が最も良い結果であった。なお、トピックモデルLDAは、文書トピックモデルの一例である。   The document topic model storage unit 24 indicates the degree of relevance of each document to each topic created in advance using a well-known topic model LDA (see reference (Blei, “Latent dirichlet allocation”, 2003)). A probability distribution is stored. Here, the number of topics in the probability distribution stored in the document topic model storage unit 24 is preset in the document topic model, but the number of topics Z = 100 is the best result in the experiment. The topic model LDA is an example of a document topic model.

教師事例文書データベース25には、教師事例固有名詞データベース21に記憶されている教師事例の各々に対応して、当該教師事例の固有名詞間の関係を有する固有名詞の組(A,B)を含む文書が、当該教師事例の文書として複数記憶されている。なお、教師事例文書データベース25は記憶手段の一例である。   The teacher case document database 25 includes a set of proper nouns (A, B) having a relationship between proper nouns of the teacher case corresponding to each teacher case stored in the teacher case proper name database 21. A plurality of documents are stored as documents of the teacher case. The teacher case document database 25 is an example of a storage unit.

文書話題取得部26は、文書から、その文書の各話題に属する確率分布を取得する。具体的には、文書話題取得部26は、入力部1により入力された文書について、文書を一意に特定するIDを利用して、文書を特定する。そして、文書トピックモデル記憶部24に記憶された各文書に対する確率分布から、特定された文書のIDに対応する文書の各話題に属する確率分布を取得する。   The document topic acquisition unit 26 acquires a probability distribution belonging to each topic of the document from the document. Specifically, the document topic acquisition unit 26 specifies a document by using an ID that uniquely specifies the document for the document input by the input unit 1. Then, the probability distribution belonging to each topic of the document corresponding to the identified document ID is acquired from the probability distribution for each document stored in the document topic model storage unit 24.

例えば、文書として「ワールドベースボールクラシック(登録商標)の日本韓国が楽しみです。」が入力部1により入力され、この文書IDが001で、文書トピックモデル記憶部24に、ID=001に対応する文書の各話題に属する確率分布が存在する場合、当該文書(ID=001)の各話題に属する確率分布として、(0.01、0.02、0.03、・・・、0.003)が取得される。
また、入力された文書について、文書を一意に特定するIDがない場合、及び、文書トピックモデル記憶部24に、入力された文書の文書IDが存在しない場合は、周知の形態素解析技術により、入力された文書を単語に分割し、文書トピックモデルから各単語の各話題に属する確率分布を取得し、平均したものを当該文書の各話題に属する確率分布とする。あるいは、文書中の単語の確率分布から、文書の確率分布を計算しても良い。
For example, the document “World Baseball Classic (Registered Trademark) Japan and Korea are looking forward to” is input by the input unit 1, the document ID is 001, and the document topic model storage unit 24 corresponds to ID = 001. When there is a probability distribution belonging to each topic of the document, (0.01, 0.02, 0.03,..., 0.003) is acquired as the probability distribution belonging to each topic of the document (ID = 001).
Further, when there is no ID for uniquely identifying the input document, and when the document ID of the input document does not exist in the document topic model storage unit 24, the input is performed by a known morphological analysis technique. The obtained document is divided into words, a probability distribution belonging to each topic of each word is acquired from the document topic model, and an average is set as a probability distribution belonging to each topic of the document. Alternatively, the probability distribution of a document may be calculated from the probability distribution of words in the document.

また、文書話題取得部26は、教師事例に対しても同様に、文書から、その文書の各話題に属する確率分布を取得する。具体的には、文書話題取得部26は、教師事例文書データベース25に記憶されている各教師事例の文書について、文書トピックモデル記憶部24に記憶された各文書に対する確率分布から、当該教師事例の文書Dについての各話題に属する確率分布を取得する。   Similarly, the document topic acquisition unit 26 also acquires a probability distribution belonging to each topic of the document from the document for the teacher case. Specifically, the document topic acquisition unit 26 determines, for each teacher case document stored in the teacher case document database 25, from the probability distribution for each document stored in the document topic model storage unit 24. A probability distribution belonging to each topic for the document D is acquired.

文書類似度計算部27は、教師事例文書データベース25に記憶されている各教師事例の文書について、当該教師事例の文書Dと、入力された文書との類似度を示す文書類似度を計算する。具体的には、文書話題取得部26で取得された、入力部1により入力された文書の各話題に属する確率分布と、当該教師事例の文書Dの各話題に属する確率分布とに基づいて、当該教師事例の文書Dと入力された文書との文書類似度を計算する。すなわち、入力部1により入力された文書についての確率分布をP^とし、教師事例の文書Dについての確率分布をQ^として、上記(1)式に従って、Jensen Shannon Divergenceを求め、分布類似度とする。そして、得られた分布類似度を文書類似度として出力する。   The document similarity calculation unit 27 calculates, for each teacher case document stored in the teacher case document database 25, a document similarity indicating the similarity between the teacher case document D and the input document. Specifically, based on the probability distribution belonging to each topic of the document input by the input unit 1 acquired by the document topic acquisition unit 26 and the probability distribution belonging to each topic of the document D of the teacher example, The document similarity between the document D of the teacher case and the input document is calculated. That is, the probability distribution for the document input by the input unit 1 is P ^, the probability distribution for the teacher example document D is Q ^, Jensen Shannon Divergence is obtained according to the above equation (1), and the distribution similarity and To do. Then, the obtained distribution similarity is output as the document similarity.

例えば、教師事例の関係(対戦)を有する固有名詞の組(阪神、巨人)を含む文書Dと、入力部1により入力された文書との文書類似度が0.5だったとする。入力された文書との文書類似度の計算を、全ての教師事例の文書に対しして実施した結果(関係情報も含む)を出力する。例えば「(阪神、巨人)⇔(日本、韓国)、0.6、R=対戦」との形式で出力する。   For example, it is assumed that the document similarity between a document D including a proper noun pair (Hanshin, Giant) having a teacher case relationship (match) and a document input by the input unit 1 is 0.5. The result (including relational information) of the calculation of the document similarity with the input document for all the teacher case documents is output. For example, “(Hanshin, Giant) ⇔ (Japan, Korea), 0.6, R = match” is output.

また、ここで、固有名詞類似度計算部23と同様に、入力された固有名詞の組(X,Y)の順序を入れ替えた固有名詞の組(Y、X)に対して、文書類似度の計算結果(例えば、「(阪神、巨人)⇔(韓国、日本)、0.6、R=対戦」)も便宜上出力しておく。固有名詞類似度計算部23で計算された固有名詞の組(X,Y)の順序を入れ替えた固有名詞の組(Y、X)との固有名詞類似度と対応させ、後述する組み合わせ類似度計算部28において、組み合わせ類似度を計算するためである。   Here, as in the proper noun similarity calculation unit 23, the document similarity is calculated for the proper noun pair (Y, X) in which the order of the input proper noun pair (X, Y) is changed. The calculation result (for example, “(Hanshin, Giant) ⇔ (Korea, Japan), 0.6, R = match”) is also output for convenience. Corresponding to the proper noun similarity with the proper noun pair (Y, X) in which the order of proper noun pairs (X, Y) calculated by the proper noun similarity calculation unit 23 is changed, the combination similarity calculation described later This is because the unit 28 calculates the combination similarity.

組み合わせ類似度計算部28は、教師事例の各々について、固有名詞類似度計算部23によって計算された固有名詞の組(X,Y)と当該教師事例の固有名詞の組(A,B)との固有名詞類似度と、文書類似度計算部27によって計算された入力文書と当該教師事例の文書との文書類似度に基づいて、当該教師事例の2つの類似度の値を線形結合で組み合わせた組み合わせ類似度を計算する。組み合わせ類似度の算出式を、以下の(2)式に示す。   For each teacher case, the combination similarity calculation unit 28 calculates the combination of the proper noun pair (X, Y) calculated by the proper noun similarity calculation unit 23 and the proper noun pair (A, B) of the teacher case. Based on the proper noun similarity and the document similarity between the input document calculated by the document similarity calculation unit 27 and the document of the teacher case, a combination of the two similarity values of the teacher case by a linear combination Calculate similarity. The formula for calculating the combination similarity is shown in the following formula (2).

ここで、SimNEは、固有名詞類似度、SimDOCは文書類似度を表す。なお、固有名詞類似度と文書類似度の結果の対応をとるために、文書IDと固有名詞の組が一意に特定できるID(教師事例ID)を用いると便利である。また、αは、0≦α<1である。 Here, Sim NE represents the proper noun similarity, and Sim DOC represents the document similarity. It should be noted that it is convenient to use an ID (teacher case ID) that can uniquely identify a combination of a document ID and a proper noun in order to take correspondence between the proper noun similarity and the document similarity. Α is 0 ≦ α <1.

例えば、固有名詞類似度として「(阪神、巨人)⇔(日本、韓国)、0.1、R=対戦」が、文書類似度として「(阪神、巨人)⇔(日本、韓国)、0.6、R=対戦」が対応する教師事例の場合、組み合わせ類似度の計算結果は、「(阪神、巨人)⇔(日本、韓国)、0.35、R=対戦」(α=0.5)となる。   For example, “(Hanshin, Giant) ⇔ (Japan, Korea), 0.1, R = match” as the proper noun similarity, “(Hanshin, Giant) ⇔ (Japan, Korea), 0.6, R = match, as the document similarity. In the case of the teacher case corresponding to “”, the calculation result of the combination similarity is “(Hanshin, Giant) ⇔ (Japan, Korea), 0.35, R = match” (α = 0.5).

また、組み合わせ類似度計算部28は、教師事例の各々について、固有名詞類似度計算部23によって計算された、逆順の固有名詞の組(Y,X)と当該教師事例の固有名詞の組(A,B)との固有名詞類似度と、文書類似度計算部27によって計算された入力文書と当該教師事例の文書との文書類似度に基づいて、当該教師事例の2つの類似度の値を線形結合で組み合わせた組み合わせ類似度を計算する。   In addition, the combination similarity calculation unit 28, for each teacher case, is calculated by the proper noun similarity calculation unit 23 in the reverse proper noun group (Y, X) and the proper noun group (A , B) and two similarities of the teacher case are linearly calculated based on the proper noun similarity with the document similarity calculator 27 and the document similarity between the input document and the teacher case document. The combination similarity combined by the combination is calculated.

類似事例選択部29は、組み合わせ類似度計算部28によって計算された、全ての教師事例に対する組み合わせ類似度の計算結果に基づいて、教師事例固有名詞データベース21に記憶されている教師事例を降順に並び替える。そして、類似度の大きい順からn個の組み合わせ類似度の計算結果を抽出し出力する。ここで前述の固有名詞類似度計算部23、及び文書類似度計算部27にて、(X、Y)、(Y、X)の2パタンで類似度を計算したが、これらは独立な事例として扱う。   The similar case selection unit 29 arranges the teacher cases stored in the teacher case proper noun database 21 in descending order based on the calculation results of the combination similarities for all the teacher cases calculated by the combination similarity calculation unit 28. Change. Then, n combination similarity calculation results are extracted and output in descending order of similarity. Here, the above-mentioned proper noun similarity calculation unit 23 and document similarity calculation unit 27 calculate the similarity with two patterns (X, Y) and (Y, X). deal with.

類似事例選択部29では、例えば、組み合わせ類似度計算結果として入力された中から類似度の高い順に
「(阪神、巨人)⇔(日本、韓国)、0.6、R=対戦」
・・・
「(阪神、巨人)⇔(日本、韓国)、0.1、R=対戦」
・・・
のn個の類似事例を選択する。
In the similar case selection unit 29, for example, “(Hanshin, Giant) ⇔ (Japan, Korea), 0.6, R = match” in descending order of similarity from the input as the combination similarity calculation result.
...
“(Hanshin, Giant) Samurai (Japan, Korea), 0.1, R = Battle”
...
N similar cases are selected.

類似事例選択部29は、選択されたn個の類似度計算結果の中で、最も多い固有名詞の組(A、B)とその関係Rの組み合わせを、出力部3により、入力された固有名詞の組の関係の推定結果として出力する。例えば、「(阪神、巨人)&R=対戦」が最も多い類似事例である場合、「(阪神、巨人)、R=対戦」という結果が出力される。ユーザは、出力結果から、入力文書中の固有名詞の組(日本、韓国)の関係が、「対戦」であると判断できる。なお、類似事例選択部29は、推定手段の一例である。   The similar case selection unit 29 selects the most proper combination of proper nouns (A, B) and the relationship R among the selected n similarity calculation results, and outputs the proper nouns by the output unit 3. Is output as an estimation result of the relationship of the pair. For example, if “(Hanshin, Giant) & R = Battle” is the most similar case, the result “(Hanshin, Giant), R = Battle” is output. The user can determine from the output result that the relationship between the proper noun groups (Japan and Korea) in the input document is “match”. Note that the similar case selection unit 29 is an example of an estimation unit.

<固有名詞間関係推定装置10の動作>
次に、本実施の形態に係る固有名詞間関係推定装置10の作用について説明する。固有名詞間関係の推定対象となる固有名詞の組(X,Y)と、固有名詞の組(X,Y)を含む文書とが固有名詞間関係推定装置10に入力されると、固有名詞間関係推定装置10によって、図3に示す固有名詞間関係推定処理ルーチンが実行される。
<Operation of Proper Noun Relationship Estimation Device 10>
Next, the operation of the proper noun relationship estimating apparatus 10 according to the present embodiment will be described. When a proper noun pair (X, Y) and a document including a proper noun pair (X, Y) to be estimated for proper noun relations are input to the proper noun relation estimating apparatus 10, The relationship estimation apparatus 10 executes the proper noun relationship estimation processing routine shown in FIG.

まず、ステップS100において、入力部1によって、固有名詞間関係の推定対象となる固有名詞の組(X,Y)と、固有名詞の組(X,Y)を含む文書との入力を受け付ける。   First, in step S100, the input unit 1 accepts input of a proper noun pair (X, Y) that is a target of estimation of the proper noun relationship and a document including the proper noun pair (X, Y).

次に、ステップS102において、固有名詞話題取得部22によって、上記ステップS100で入力された固有名詞の組(X,Y)の各固有名詞X,Yについて、固有名詞トピックモデル記憶部20に記憶された各固有名詞に対する確率分布から、固有名詞の各話題に属する確率分布を取得する。   Next, in step S102, the proper noun topic acquisition unit 22 stores each proper noun X, Y of the proper noun pair (X, Y) input in step S100 in the proper noun topic model storage unit 20. From the probability distribution for each proper noun, a probability distribution belonging to each topic of the proper noun is obtained.

そして、ステップS104において、固有名詞話題取得部22によって、教師事例固有名詞データベース21に記憶されている教師事例毎に、固有名詞トピックモデル記憶部20に記憶された各固有名詞に対する確率分布から、当該教師事例の固有名詞の組(A,B)の各固有名詞A,Bについて、固有名詞の各話題に属する確率分布を取得する。   Then, in step S104, for each teacher case stored in the teacher case proper noun database 21 by the proper noun topic acquisition unit 22, from the probability distribution for each proper noun stored in the proper noun topic model storage unit 20, For each proper noun A, B of the proper noun pair (A, B) of the teacher case, a probability distribution belonging to each topic of the proper noun is acquired.

ステップS106において、固有名詞類似度計算部23によって、教師事例固有名詞データベース21に記憶されている各教師事例について、上記ステップS102で取得された固有名詞の組(X,Y)についての確率分布と、上記ステップS104で取得された、当該教師事例の固有名詞の組(A,B)についての確率分布とに基づいて、入力された固有名詞の組(X,Y)と、当該教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算する。また、逆順の固有名詞の組(Y,X)についても同様に固有名詞類似度を計算する。   In step S106, for each teacher case stored in the teacher case proper noun database 21 by the proper noun similarity calculation unit 23, the probability distribution for the proper noun pair (X, Y) acquired in step S102 is calculated. Based on the probability distribution for the proper noun pair (A, B) of the teacher case acquired in step S104, the proper proper noun pair (X, Y) and the unique case of the teacher case are obtained. The proper noun similarity indicating the similarity with the noun pair (A, B) is calculated. Similarly, the proper noun similarity is calculated for the proper noun pairs (Y, X) in the reverse order.

次に、ステップS108において、文書話題取得部26によって、上記ステップS100で入力された文書について、文書トピックモデル記憶部24に記憶された各文書に対する確率分布から、特定された文書の各話題に属する確率分布を取得する。   Next, in step S108, the document topic acquisition unit 26 belongs to each topic of the identified document from the probability distribution for each document stored in the document topic model storage unit 24 for the document input in step S100. Get probability distribution.

そして、ステップS110において、文書話題取得部26によって、教師事例文書データベース25に記憶されている各教師事例について、文書トピックモデル記憶部24に記憶された各文書に対する確率分布から、当該教師事例の文書Dについての各話題に属する確率分布を取得する。   Then, in step S110, the document topic acquisition unit 26 calculates the teacher case document for each teacher case stored in the teacher case document database 25 from the probability distribution for each document stored in the document topic model storage unit 24. A probability distribution belonging to each topic about D is acquired.

ステップS112において、文書類似度計算部27によって、教師事例文書データベース25に記憶されている各教師事例について、上記ステップS108で取得された入力された文書についての確率分布と、上記ステップS110で取得された当該教師事例の文書Dについての確率分布とに基づいて、入力された文書と当該教師事例の文書Dとの類似度を示す文書類似度を計算する。また、逆順の固有名詞の組(Y,X)に対応して、同じ文書類似度の計算結果を用意する。   In step S112, the document similarity calculation unit 27 obtains the probability distribution for the input document obtained in step S108 and the probability distribution for the teacher case stored in the teacher case document database 25 in step S110. Based on the probability distribution of the teacher case document D, the document similarity level indicating the similarity between the input document and the teacher case document D is calculated. Also, the same document similarity calculation results are prepared corresponding to the proper noun pairs (Y, X) in reverse order.

次に、ステップS114において、組み合わせ類似度計算部28によって、教師事例の各々について、上記ステップS106で計算された固有名詞の組(X,Y)と当該教師事例の固有名詞の組(A,B)との固有名詞類似度と、上記ステップS112で計算された入力文書と当該教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、組み合わせ類似度を計算する。また、逆順の固有名詞の組(Y,X)についても同様に、教師事例の各々に対して組み合わせ類似度を計算する。   Next, in step S114, the combination similarity calculation unit 28 sets the proper noun pair (X, Y) calculated in step S106 and the proper noun pair (A, B) of the teacher case for each teacher case. ) And the document similarity between the input document calculated in step S112 and the document including the proper noun pair (A, B) of the teacher case is calculated. To do. Similarly, the combination similarity is calculated for each of the teacher cases for the proper proper noun pairs (Y, X) in reverse order.

そして、ステップS116において、類似事例選択部29によって、上記ステップS114で計算された、教師事例の全ての固有名詞の組に対する組み合わせ類似度の計算結果に基づいて、教師事例を降順に並び替える。そして、類似度の大きい順からn個の組み合わせ類似度結果を抽出し、n個の類似度計算結果の中で、最も多い固有名詞の組(A、B)とその関係Rとの組み合わせを、最も類似する事例として選択する。   In step S116, the similar case selection unit 29 rearranges the teacher cases in descending order based on the calculation results of the combination similarities for all proper noun pairs calculated in step S114. Then, n combination similarity results are extracted in descending order of similarity, and among the n similarity calculation results, combinations of the most proper noun pairs (A, B) and their relations R are obtained. Select as the most similar case.

ステップS118において、出力部3によって、上記ステップS116で選択された最も多い固有名詞の組(A、B)とその関係Rを、入力された固有名詞の組の関係の推定結果として出力して、固有名詞間関係推定処理ルーチンを終了する。   In step S118, the output unit 3 outputs the most proper proper noun pairs (A, B) selected in step S116 and their relations R as an estimation result of the input proper noun pairs. The proper noun relationship estimation processing routine is terminated.

<実験結果>
次に、本実施の形態に係る固有名詞間関係推定装置の実験結果を、図4に示す。実験の結果では、α=0.7のときが最も良い正解率が得られた実験結果となり、固有名詞間の関係を精度よく推定できることが分かった。
<Experimental result>
Next, the experimental result of the proper noun relation estimation apparatus according to the present embodiment is shown in FIG. As a result of the experiment, it was found that the best accuracy rate was obtained when α = 0.7, and the relationship between proper nouns could be accurately estimated.

以上説明したように、本発明の実施の形態に係る固有名詞間関係推定装置によれば、固有名詞トピックモデルに従って求められる各固有名詞に対する各話題との関連度合いを示す確率分布に基づいて、入力文書に含まれる固有名詞の組(X,Y)と教師事例の固有名詞の組(A,B)の固有名詞類似度を計算し、文書トピックモデルに従って求められる文書と話題との関連度合いを示す確率分布に基づいて、入力文書と教師事例の固有名詞の組(A,B)を含む文書との文書類似度を計算し、固有名詞類似度と文書類似度との組み合わせ類似度に基づいて、教師事例から、固有名詞の組(X,Y)に類似する教師事例を選択し、選択された教師事例の固有名詞間の関係に基づいて、固有名詞の組(X,Y)の関係を推定することにより、文書に含まれる固有名詞の組について、固有名詞間の関係を精度よく推定することができる。   As described above, according to the proper noun relationship estimation device according to the embodiment of the present invention, based on the probability distribution indicating the degree of association with each topic for each proper noun obtained according to the proper noun topic model, The proper noun similarity of the proper noun pair (X, Y) included in the document and the proper noun pair (A, B) of the teacher example is calculated, and the degree of association between the document and the topic obtained according to the document topic model is shown. Based on the probability distribution, the document similarity between the input document and the document including the proper noun pair (A, B) of the teacher example is calculated, and based on the combination similarity of the proper noun similarity and the document similarity, A teacher case similar to the proper noun pair (X, Y) is selected from the teacher case, and the proper noun pair (X, Y) is estimated based on the relationship between the proper nouns of the selected teacher case. By making the document For a set of proper nouns included, the relationship between proper nouns can be estimated accurately.

また、あいまい性のある固有名詞の組に対しても、正しく固有名詞間の関係を推定することができる。   In addition, the relationship between proper nouns can be estimated correctly even for ambiguous proper noun pairs.

また、固有名詞の組の関係を示す表現が入力文書中に明記されていない場合であっても、その固有名詞の組の関係を推定することができる。   Further, even when an expression indicating the relationship between proper noun pairs is not clearly described in the input document, the proper noun pair relationship can be estimated.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、実施の形態における固有名詞類似度及び文書類似度は、Jensen Shannon Divergenceを用いて計算する場合を例に説明したが、これに限定されるものではなく、周知のコサイン類似度など、他の手法を用いて計算しても良い。   For example, the proper noun similarity and the document similarity in the embodiment have been described by way of example using Jensen Shannon Divergence. However, the present invention is not limited to this, and other known cosine similarity and the like You may calculate using a method.

また、上述の固有名詞間関係推定装置は、固有名詞トピックモデル記憶部20、教師事例固有名詞データベース21、文書トピックモデル記憶部24、及び教師事例文書データベース25を備えている場合について説明したが、例えば固有名詞トピックモデル記憶部20、教師事例固有名詞データベース21、文書トピックモデル記憶部24、及び教師事例文書データベース25が固有名詞間関係推定装置の外部装置に設けられ、固有名詞間関係推定装置は、外部装置と通信手段を用いて通信することにより、固有名詞トピックモデル記憶部20、教師事例固有名詞データベース21、文書トピックモデル記憶部24、及び教師事例文書データベース25を参照するようにしてもよい。   Moreover, although the above-mentioned proper noun relation estimation device has been described as having a proper noun topic model storage unit 20, a teacher case proper name database 21, a document topic model storage unit 24, and a teacher case document database 25, For example, a proper noun topic model storage unit 20, a teacher case proper noun database 21, a document topic model storage unit 24, and a teacher case document database 25 are provided in an external device of the proper noun relationship estimation device. The proper noun topic model storage unit 20, the teacher case proper noun database 21, the document topic model storage unit 24, and the teacher case document database 25 may be referred to by communicating with an external device using communication means. .

また、上述の固有名詞間関係推定装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   Moreover, although the above-mentioned proper noun relation estimation apparatus has a computer system inside, the computer system includes a homepage providing environment (or display environment) if the WWW system is used. .

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

2 演算部
3 出力部
10 固有名詞間関係推定装置
20 固有名詞トピックモデル記憶部
21 教師事例固有名詞データベース
22 固有名詞話題取得部
23 固有名詞類似度計算部
24 文書トピックモデル記憶部
25 教師事例文書データベース
26 文書話題取得部
27 文書類似度計算部
28 組み合わせ類似度計算部
29 類似事例選択部
2 arithmetic unit 3 output unit 10 proper noun relation estimation device 20 proper noun topic model storage unit 21 teacher case proper noun database 22 proper noun topic acquisition unit 23 proper noun similarity calculation unit 24 document topic model storage unit 25 teacher case document database 26 Document topic acquisition unit 27 Document similarity calculation unit 28 Combination similarity calculation unit 29 Similar case selection unit

Claims (5)

入力文書に含まれる固有名詞の組(X,Y)について、固有名詞トピックモデルに従って各固有名詞について予め求められた前記固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記固有名詞の組(X,Y)の各固有名詞X、Yに対する、前記複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に予め記憶された、各々固有名詞間の関係が付与された複数の固有名詞の組(A,B)である教師事例の各々ついて、前記予め求められた前記固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bに対する、前記複数の話題の各々との関連度合いを示す確率分布を取得する固有名詞話題取得手段と、
前記教師事例の各々について、前記固有名詞話題取得手段によって各固有名詞X、Yについて取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bについて取得された前記確率分布とに基づいて、前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算する固有名詞類似度計算手段と、
前記入力文書について、文書トピックモデルに従って、前記入力文書と複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に前記教師事例の各々に対応して予め記憶された、前記教師事例の固有名詞間の関係を有する固有名詞の組(A、B)を含む文書の各々ついて、前記文書と複数の話題の各々との関連度合いを示す確率分布を取得する文書話題取得手段と、
前記教師事例の各々について、前記文書話題取得手段によって前記入力文書について取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)を含む文書について取得された前記確率分布とに基づいて、前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との類似度を示す文書類似度を計算する文書類似度計算手段と、
前記教師事例の各々について、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算する組み合わせ類似度計算手段と、
前記組み合わせ類似度計算手段によって計算された組み合わせ類似度に基づいて、前記教師事例から、前記固有名詞の組(X,Y)に類似する教師事例を選択すると共に、前記選択された教師事例の固有名詞間の関係に基づいて、前記選択された教師事例の固有名詞の組と該固有名詞間の関係との組み合わせのうち、最も多い、前記固有名詞の組と該固有名詞間の関係との組み合わせの前記固有名詞間の関係を、前記固有名詞の組(X,Y)の関係として推定する推定手段と、
を含む固有名詞間関係推定装置。
Based on a probability distribution indicating the degree of association between the proper noun and each of a plurality of topics determined in advance for each proper noun according to the proper noun topic model for the proper noun group (X, Y) included in the input document, A probability distribution indicating a degree of association with each of the plurality of topics for each of the proper nouns X and Y of the proper noun group (X, Y) is acquired, and each of the proper nouns stored in advance in the storage unit Based on a probability distribution indicating the degree of association between the predetermined proper noun and each of a plurality of topics for each of the teacher cases that are a set of proper nouns (A, B) to which , A proper noun topic acquisition means for acquiring a probability distribution indicating a degree of association with each of the plurality of topics for each proper noun A, B of the proper noun pair (A, B) of the teacher example;
For each of the teacher examples, the probability distribution acquired for each proper noun X, Y by the proper noun topic acquisition means and each proper noun A, B of the proper noun pair (A, B) of the teacher example A proper noun that calculates a proper noun similarity indicating the similarity between the proper noun pair (X, Y) and the proper noun pair (A, B) of the teacher example based on the acquired probability distribution Similarity calculation means;
For the input document, in accordance with a document topic model, a probability distribution indicating a degree of association between the input document and each of a plurality of topics is acquired, and stored in advance in a storage unit corresponding to each of the teacher cases, Document topic acquisition means for acquiring a probability distribution indicating a degree of association between the document and each of a plurality of topics, for each of the documents including a proper noun pair (A, B) having a relationship between proper nouns of a teacher case; ,
For each of the teacher cases, the probability distribution acquired for the input document by the document topic acquisition unit and the probability distribution acquired for a document including a set of proper nouns (A, B) of the teacher case. A document similarity calculation means for calculating a document similarity indicating a similarity between the input document and a document including the proper noun pair (A, B) of the teacher case;
For each of the teacher cases, the proper noun similarity between the proper noun pair (X, Y) calculated by the proper noun similarity calculating means and the proper noun pair (A, B) of the teacher case; Based on the document similarity between the input document calculated by the document similarity calculation means and the document including the proper noun pair (A, B) of the teacher case, the proper noun similarity and the document similarity A combination similarity calculating means for calculating a combination similarity indicating a similarity obtained by combining
Based on the combination similarity calculated by the combination similarity calculation means, a teacher example similar to the proper noun group (X, Y) is selected from the teacher examples, and the selected teacher example is unique. Based on the relationship between the nouns, among the combinations of the proper nouns of the selected teacher case and the relationships between the proper nouns, the most common combinations of the proper noun sets and the relationships between the proper nouns Estimating means for estimating a relationship between the proper nouns as a relationship of the proper noun pairs (X, Y) ;
An apparatus for estimating the relationship between proper nouns including
前記固有名詞類似度計算手段は、前記教師事例の各々について、前記固有名詞話題取得手段によって各固有名詞X、Yについて取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bについて取得された前記確率分布とに基づいて、前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算すると共に、前記固有名詞の組(X,Y)の固有名詞の順序を逆にした固有名詞の組(Y,X)と、前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算し、
前記組み合わせ類似度計算手段は、前記教師事例の各々について、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算すると共に、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)の固有名詞の順序を逆にした固有名詞の組(Y,X)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算する請求項1記載の固有名詞間関係推定装置。
The proper noun similarity calculation means includes a set of the probability distribution acquired for each proper noun X, Y by the proper noun topic acquisition means and the proper noun of the teacher case (A, B) for each of the teacher cases. ), The degree of similarity between the proper noun pair (X, Y) and the proper noun pair (A, B) of the teacher example is shown based on the probability distribution acquired for each proper noun A, B. The proper noun similarity is calculated, and the proper noun pair (Y, X) obtained by reversing the proper noun order of the proper noun pair (X, Y) and the proper noun pair (A, B) Calculate the proper noun similarity indicating the similarity with
The combination similarity calculation means includes, for each of the teacher cases, the proper noun pair (X, Y) calculated by the proper noun similarity calculation means and the proper noun pair (A, B) of the teacher case. Based on the proper noun similarity and the document similarity between the input document calculated by the document similarity calculating means and the document including the teacher case proper noun pair (A, B). A combined similarity indicating a similarity obtained by combining a noun similarity and the document similarity is calculated, and a proper noun order of the proper noun pair (X, Y) calculated by the proper noun similarity calculation means is calculated. The proper noun similarity between the proper noun pair (Y, X) and the proper noun pair (A, B) of the teacher example, the input document calculated by the document similarity calculation means, and the The unique name of the teacher case 2. The uniqueness according to claim 1, wherein a combination similarity indicating a similarity obtained by combining the proper noun similarity and the document similarity is calculated based on a document similarity with a document including a set (A, B) of Internoun relationship estimation device.
固有名詞話題取得手段、固有名詞類似度計算手段、文書話題取得手段、文書類似度計算手段、組み合わせ類似度計算手段及び推定手段を含む固有名詞間関係推定装置における固有名詞間関係推定方法であって、
前記固有名詞話題取得手段によって、入力文書に含まれる固有名詞の組(X,Y)について、固有名詞トピックモデルに従って各固有名詞について予め求められた前記固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記固有名詞の組(X,Y)の各固有名詞X、Yに対する、前記複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に予め記憶された、各々固有名詞間の関係が付与された複数の固有名詞の組(A,B)である教師事例の各々ついて、前記予め求められた前記固有名詞と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bに対する、前記複数の話題の各々との関連度合いを示す確率分布を取得するステップと、
前記固有名詞類似度計算手段によって、前記教師事例の各々について、前記固有名詞話題取得手段によって各固有名詞X、Yについて取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bについて取得された前記確率分布とに基づいて、前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算するステップと、
前記文書話題取得手段によって、前記入力文書について、文書トピックモデルに従って、前記入力文書と複数の話題の各々との関連度合いを示す確率分布を取得すると共に、記憶手段に前記教師事例の各々に対応して予め記憶された、前記教師事例の固有名詞間の関係を有する固有名詞の組(A、B)を含む文書の各々ついて、前記文書と複数の話題の各々との関連度合いを示す確率分布を取得するステップと、
前記文書類似度計算手段によって、前記教師事例の各々について、前記文書話題取得手段によって前記入力文書について取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)を含む文書について取得された前記確率分布とに基づいて、前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との類似度を示す文書類似度を計算するステップと、
前記組み合わせ類似度計算手段によって、前記教師事例の各々について、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算するステップと、
前記推定手段によって、前記組み合わせ類似度計算手段によって計算された組み合わせ類似度に基づいて、前記教師事例から、前記固有名詞の組(X,Y)に類似する教師事例を選択すると共に、前記選択された教師事例の固有名詞間の関係に基づいて、前記選択された教師事例の固有名詞の組と該固有名詞間の関係との組み合わせのうち、最も多い、前記固有名詞の組と該固有名詞間の関係との組み合わせの前記固有名詞間の関係を、前記固有名詞の組(X,Y)の関係として推定するステップと、
を含む固有名詞間関係推定方法。
A proper noun topic acquisition unit, a proper noun similarity calculation unit, a document topic acquisition unit, a document similarity calculation unit, a combination similarity calculation unit, and a proper noun relationship estimation method in a proper noun relationship estimation apparatus, ,
The degree of association between the proper nouns obtained in advance for each proper noun according to the proper noun topic model and each of a plurality of topics for the proper noun topic (X, Y) included in the input document by the proper noun topic acquisition means A probability distribution indicating a degree of association with each of the plurality of topics with respect to each proper noun X, Y of the proper noun pair (X, Y) based on the probability distribution indicating For each of the teacher cases that are stored, a plurality of proper nouns (A, B) each having a relationship between proper nouns, the association between the proper nouns obtained in advance and each of a plurality of topics A step of acquiring a probability distribution indicating the degree of association of each of the plurality of topics with each of the proper nouns A and B of the proper noun pair (A, B) of the teacher case based on the probability distribution indicating the degree. And,
For each of the teacher cases by the proper noun similarity calculation means, a set of the probability distribution acquired for each proper noun X, Y by the proper noun topic acquisition means and a proper noun of the teacher case (A, B) ), The degree of similarity between the proper noun pair (X, Y) and the proper noun pair (A, B) of the teacher example is shown based on the probability distribution acquired for each proper noun A, B. Calculating proper noun similarity,
The document topic acquisition means acquires a probability distribution indicating the degree of association between the input document and each of a plurality of topics according to a document topic model for the input document, and corresponds to each of the teacher cases in a storage means. A probability distribution indicating a degree of association between the document and each of a plurality of topics for each of the documents including the proper noun pairs (A, B) having a relationship between the proper nouns of the teacher case stored in advance. A step to obtain,
For each of the teacher cases by the document similarity calculation means, for the document including the probability distribution acquired for the input document by the document topic acquisition means and the proper nouns (A, B) of the teacher case Calculating a document similarity indicating a similarity between the input document and a document including a set of proper nouns (A, B) of the teacher example based on the acquired probability distribution;
For each of the teacher cases by the combination similarity calculation means, the proper noun pair (X, Y) calculated by the proper noun similarity calculation means and the proper noun pair (A, B) of the teacher case Based on the proper noun similarity and the document similarity between the input document calculated by the document similarity calculating means and the document including the teacher case proper noun pair (A, B). Calculating a combination similarity indicating a combination of the noun similarity and the document similarity;
Based on the combination similarity calculated by the combination similarity calculation unit, the estimation unit selects a teacher example similar to the proper noun group (X, Y) from the teacher examples, and the selected Among the combinations of the proper nouns of the selected teacher case and the relations between the proper nouns, the most common combination of the proper nouns and the proper nouns Estimating a relationship between the proper nouns in combination with the relationship of the proper nouns as a relationship of the proper noun pairs (X, Y) ;
Of proper noun relationships including
前記文書類似度計算手段によって文書類似度を計算するステップは、前記教師事例の各々について、前記固有名詞話題取得手段によって各固有名詞X、Yについて取得された前記確率分布と、前記教師事例の固有名詞の組(A,B)の各固有名詞A、Bについて取得された前記確率分布とに基づいて、前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算すると共に、前記固有名詞の組(X,Y)の固有名詞の順序を逆にした固有名詞の組(Y,X)と、前記教師事例の固有名詞の組(A,B)との類似度を示す固有名詞類似度を計算し、
前記組み合わせ類似度計算手段によって組み合わせ類似度を計算するステップは、前記教師事例の各々について、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算すると共に、前記固有名詞類似度計算手段によって計算された前記固有名詞の組(X,Y)の固有名詞の順序を逆にした固有名詞の組(Y,X)と前記教師事例の固有名詞の組(A,B)との固有名詞類似度と、前記文書類似度計算手段によって計算された前記入力文書と前記教師事例の固有名詞の組(A,B)を含む文書との文書類似度とに基づいて、前記固有名詞類似度と前記文書類似度とを組み合わせた類似度を示す組み合わせ類似度を計算する請求項3記載の固有名詞間関係推定方法。
The step of calculating the document similarity by the document similarity calculation means includes, for each of the teacher cases, the probability distribution acquired for each proper noun X, Y by the proper noun topic acquisition means and the uniqueness of the teacher case. Based on the probability distribution acquired for each proper noun A, B of the noun pair (A, B), the proper noun pair (X, Y) and the proper noun pair (A, B) of the teacher example ) And a proper noun similarity (Y, X) obtained by reversing the proper noun order of the proper noun pair (X, Y) Calculate the proper noun similarity indicating the similarity with the proper noun pair (A, B),
The step of calculating the combination similarity by the combination similarity calculation means includes, for each of the teacher cases, the proper noun pair (X, Y) calculated by the proper noun similarity calculation means and the uniqueness of the teacher case. The proper noun similarity with the noun pair (A, B) and the document similarity between the input document calculated by the document similarity calculation means and the document including the proper noun pair (A, B) of the teacher case Based on the degree, a combination similarity indicating a similarity obtained by combining the proper noun similarity and the document similarity is calculated, and the proper noun pair (X , Y) the proper noun similarity between the proper noun pair (Y, X) in which the proper noun order is reversed and the proper noun pair (A, B) of the teacher example, and the document similarity calculation means Total The similarity of the proper noun similarity and the document similarity is shown based on the document similarity of the input document and the document including the proper noun pair (A, B) of the teacher example The method for estimating the relationship between proper nouns according to claim 3, wherein the combination similarity is calculated.
コンピュータを、請求項1又は2に記載の固有名詞間関係推定装置の各手段として機能させるためのプログラム。   The program for functioning a computer as each means of the proper noun relationship estimation apparatus of Claim 1 or 2.
JP2012259061A 2012-11-27 2012-11-27 Proper noun relationship estimation apparatus, method, and program Expired - Fee Related JP5854975B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012259061A JP5854975B2 (en) 2012-11-27 2012-11-27 Proper noun relationship estimation apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012259061A JP5854975B2 (en) 2012-11-27 2012-11-27 Proper noun relationship estimation apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2014106737A JP2014106737A (en) 2014-06-09
JP5854975B2 true JP5854975B2 (en) 2016-02-09

Family

ID=51028167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012259061A Expired - Fee Related JP5854975B2 (en) 2012-11-27 2012-11-27 Proper noun relationship estimation apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5854975B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118689A (en) * 2009-12-03 2011-06-16 Univ Of Tokyo Retrieval method and system
JP5398007B2 (en) * 2010-02-26 2014-01-29 独立行政法人情報通信研究機構 Relationship information expansion device, relationship information expansion method, and program
JP5442543B2 (en) * 2010-07-01 2014-03-12 株式会社Nttドコモ Content similarity calculation device and content similarity calculation method

Also Published As

Publication number Publication date
JP2014106737A (en) 2014-06-09

Similar Documents

Publication Publication Date Title
CN105045781B (en) Query term similarity calculation method and device and query term search method and device
WO2018040899A1 (en) Error correction method and device for search term
JP2021523464A5 (en)
CN110032728B (en) Conversion method and device for disease name standardization
KR20130056207A (en) Relational information expansion device, relational information expansion method and program
CN104536979B (en) The generation method and device of topic model, the acquisition methods and device of theme distribution
CN110413961A (en) The method, apparatus and computer equipment of text scoring are carried out based on disaggregated model
CN111553151A (en) Question recommendation method and device based on field similarity calculation and server
JP5367632B2 (en) Knowledge amount estimation apparatus and program
WO2017059797A1 (en) Method and device for analyzing address
WO2018072501A1 (en) Information extraction apparatus and method
CN113722512A (en) Text retrieval method, device and equipment based on language model and storage medium
JP2019148933A (en) Summary evaluation device, method, program, and storage medium
JP5854975B2 (en) Proper noun relationship estimation apparatus, method, and program
CN111680146A (en) Method and device for determining new words, electronic equipment and readable storage medium
JP2018136760A (en) Document processing device, document processing method and program
CN111104481A (en) Method, device and equipment for identifying matching field
CN107066533B (en) Search query error correction system and method
CN109766527B (en) Text similarity calculation method and related equipment
CN114446422A (en) Medical record marking method, system and corresponding equipment and storage medium
JP2013045435A (en) Keyword related place name extraction device, method and program
JP5807966B2 (en) Document evaluation learning apparatus, document evaluation apparatus, method, and program
CN107193860B (en) Medicine information multidimensional identification method and system
JP6459300B2 (en) Machine translation apparatus, machine translation method, machine translation program, and recording medium
JP5137134B2 (en) Kansei information extraction / retrieval device, method and program thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151208

R150 Certificate of patent or registration of utility model

Ref document number: 5854975

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees