JP2015125764A - Information collection program, information collection method, and information collection device - Google Patents

Information collection program, information collection method, and information collection device Download PDF

Info

Publication number
JP2015125764A
JP2015125764A JP2013272309A JP2013272309A JP2015125764A JP 2015125764 A JP2015125764 A JP 2015125764A JP 2013272309 A JP2013272309 A JP 2013272309A JP 2013272309 A JP2013272309 A JP 2013272309A JP 2015125764 A JP2015125764 A JP 2015125764A
Authority
JP
Japan
Prior art keywords
information
rank
knowledge information
collection
collected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013272309A
Other languages
Japanese (ja)
Other versions
JP6176107B2 (en
Inventor
拓哉 牧野
Takuya Makino
拓哉 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013272309A priority Critical patent/JP6176107B2/en
Publication of JP2015125764A publication Critical patent/JP2015125764A/en
Application granted granted Critical
Publication of JP6176107B2 publication Critical patent/JP6176107B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To efficiently select appropriate information from a plurality of information and use the selected information.SOLUTION: The present invention acquires a plurality of collection information each including at least one subject character string among a plurality of subject character strings that include meaning belonging to a prescribed subject field, as well as correct answer knowledge information which is external knowledge information including the explanation of meaning of the subject character string in the subject field and incorrect answer knowledge information which is external knowledge information including the explanation of meaning of the subject character string outside the subject field. The present invention determines a first rank of each of the plurality of collection information in accordance with the level of the degree of mutual association in the plurality of collection information and incorrect answer knowledge information. Further, the present invention determines a second rank of each of the plurality of collection information in accordance with the level of the degree of mutual association in the plurality of collection information and incorrect answer knowledge information. Then, the present invention adjusts the first rank on the basis of a difference between the first rank and the second rank and determines a final rank of each of the plurality of collection information.

Description

本発明は、コンピュータにおいて情報収集を行う技術に関する。   The present invention relates to a technique for collecting information in a computer.

情報収集の一態様として、収集したい情報に関連する文字列で情報検索を行い、当該文字列が含まれる情報を収集することが一般に行われている。
なお、情報検索の精度を向上させるための従来技術の一例として、次のような技術がある。当該技術では、クエリに関連するクエリ関連情報に対する正解又は不正解の指定をユーザから受け付ける。そして、指定された正解又は不正解のデータに基づいた新たなクエリをそれぞれ得て、この新たなクエリに対応するクエリ関連情報を取得する。さらに、正解又は不正解のデータに基づいた新たなクエリに対応して得られたそれぞれのクエリ関連情報中のデータ毎のランクに基づいて、各クエリ関連情報中に出現する同一データ毎に付されたランクを統合して、出力用データを生成する。
As one aspect of information collection, it is generally performed that information search is performed using a character string related to information to be collected and information including the character string is collected.
As an example of a conventional technique for improving the accuracy of information retrieval, there is the following technique. In this technique, designation of a correct answer or an incorrect answer for query related information related to a query is received from a user. Then, new queries based on the specified correct answer or incorrect answer data are obtained, respectively, and query related information corresponding to the new query is obtained. Furthermore, the same data appearing in each query related information is attached based on the rank of each data in each query related information obtained corresponding to a new query based on correct or incorrect data. Data for output is generated by integrating the ranks.

特開2010−108477号公報JP 2010-108477 A

ここで、例えば検索対象となる情報に多様な分野の情報が含まれる場合等には、単純に特定の文字列で検索を行なうと、次のような問題が生じることがある。すなわち、検索する文字列が複数の異なる意味を有する場合、本来利用するべき情報以外の情報も検索結果として抽出されてしまう。このため、このように抽出された情報を単純に収集すると、特に収集情報数が多い場合等には、本来利用するべき情報を効率的に選択できず、作業効率が悪いことがある。
そこで、本発明の1つの側面では、複数の収集情報から、適切な情報を効率的に選択して利用できるようにすることを目的とする。
Here, for example, when information of various fields is included in the information to be searched, if the search is simply performed with a specific character string, the following problem may occur. That is, when a character string to be searched has a plurality of different meanings, information other than information that should be originally used is also extracted as a search result. For this reason, if information extracted in this way is simply collected, especially when the number of collected information is large, information to be originally used cannot be efficiently selected, and work efficiency may be poor.
Therefore, an object of one aspect of the present invention is to make it possible to efficiently select and use appropriate information from a plurality of collected information.

本発明の1つの側面では、所定の対象分野に属する意味を含む複数の対象文字列のうち、少なくとも1つの対象文字列をそれぞれ含む複数の収集情報、並びに、対象文字列の対象分野における意味の説明を含む外部知識情報である正解知識情報、及び、対象文字列の対象分野以外における意味の説明を含む外部知識情報である不正解知識情報を取得する。そして、複数の収集情報及び正解知識情報における相互の関連度の高さに応じて、複数の収集情報のそれぞれの第1の順位を決定する。さらに、複数の収集情報及び不正解知識情報における相互の関連度の高さに応じて、複数の収集情報のそれぞれの第2の順位を決定する。そして、第1の順位及び第2の順位の差異に基づいて、第1の順位の調整を行い、複数の収集情報のそれぞれの最終順位を決定する。   In one aspect of the present invention, among a plurality of target character strings including meanings belonging to a predetermined target field, a plurality of collection information each including at least one target character string, and the meaning of the target character string in the target field Correct knowledge information, which is external knowledge information including explanation, and incorrect knowledge information, which is external knowledge information including meaning explanations outside the target field of the target character string, are acquired. And according to the high degree of mutual relation in a plurality of collection information and correct answer knowledge information, the 1st order of each of a plurality of collection information is determined. Further, the second order of each of the plurality of collection information is determined in accordance with the degree of mutual relation between the plurality of collection information and the incorrect knowledge information. Then, the first rank is adjusted based on the difference between the first rank and the second rank, and the final rank of each of the plurality of collection information is determined.

本発明の1つの側面によれば、複数の情報から、適切な情報を効率的に選択して利用することが可能となる。   According to one aspect of the present invention, it is possible to efficiently select and use appropriate information from a plurality of pieces of information.

収集情報のネットワークの一例を示す説明図である。It is explanatory drawing which shows an example of the network of collection information. 収集情報に外部知識情報(正解知識情報)を加えたネットワークの一例を示す説明図である。It is explanatory drawing which shows an example of the network which added external knowledge information (correct knowledge information) to collection information. 収集情報に外部知識情報(不正解知識情報)を加えたネットワークの一例を示す説明図である。It is explanatory drawing which shows an example of the network which added external knowledge information (incorrect answer knowledge information) to collection information. 本実施形態におけるシステムの全体構成及び情報収集サーバの機能構成の一例を示す説明図である。It is explanatory drawing which shows an example of the whole structure of the system in this embodiment, and a function structure of an information collection server. 収集情報の一例を示す説明図である。It is explanatory drawing which shows an example of collection information. 外部知識情報の一例を示す説明図であり、(A)は正解知識情報の一例、(B)は不正解知識情報の一例を示す。It is explanatory drawing which shows an example of external knowledge information, (A) shows an example of correct answer knowledge information, (B) shows an example of incorrect answer knowledge information. 収集情報の順位を格納するテーブルの一例を示す説明図であり、(A)は正解順位テーブルの一例、(B)は不正解順位テーブルの一例を示す。It is explanatory drawing which shows an example of the table which stores the order | rank of collection information, (A) shows an example of a correct answer order table, (B) shows an example of an incorrect answer order table. 収集情報の順位を格納する調整順位テーブルの一例を示す説明図である。It is explanatory drawing which shows an example of the adjustment order table which stores the order | rank of collection information. 情報収集サーバで実行する全体処理の一例を示すフローチャートである。It is a flowchart which shows an example of the whole process performed with an information collection server. 情報収集サーバで実行する順位調整処理の一例を示すフローチャートである。It is a flowchart which shows an example of the order adjustment process performed with an information collection server. 収集情報の順位の調整に関する具体例を示す説明図である。It is explanatory drawing which shows the specific example regarding adjustment of the order | rank of collection information. 収集情報の順位の調整に関する具体例を示す説明図である。It is explanatory drawing which shows the specific example regarding adjustment of the order | rank of collection information. 本実施形態におけるシステムの全体構成及び情報収集サーバの機能構成の一例を示す説明図である。It is explanatory drawing which shows an example of the whole structure of the system in this embodiment, and a function structure of an information collection server. 収集情報の順位を格納する原順位テーブルの一例を示す説明図である。It is explanatory drawing which shows an example of the original order table which stores the order | rank of collection information. 情報収集サーバで実行する全体処理の一例を示すフローチャートである。It is a flowchart which shows an example of the whole process performed with an information collection server. 情報収集サーバで実行する順位調整処理の一例を示すフローチャートである。It is a flowchart which shows an example of the order adjustment process performed with an information collection server. 収集情報の順位の調整に関する具体例を示す説明図である。It is explanatory drawing which shows the specific example regarding adjustment of the order | rank of collection information. 収集情報の順位の調整に関する具体例を示す説明図である。It is explanatory drawing which shows the specific example regarding adjustment of the order | rank of collection information. 収集情報の順位の調整に関する具体例を示す説明図である。It is explanatory drawing which shows the specific example regarding adjustment of the order | rank of collection information. 収集情報の順位の調整に関する具体例を示す説明図である。It is explanatory drawing which shows the specific example regarding adjustment of the order | rank of collection information. 本実施形態における情報収集サーバのハードウェア構成の一例である。It is an example of the hardware constitutions of the information collection server in this embodiment.

[本実施形態の背景及び概要]
近年、消費者等が、ソーシャルメディア等によって様々な情報を発信するようになっている。このため、例えば商品等を販売する企業等では、消費者等が発信した多様な情報から、消費者のニーズを分析したいという需要がある。このため、消費者等が発信した情報を、分析対象の情報に含まれると推測される文字列(例えば、単語や、1又は複数の単語の組合せ等である)で検索して、当該文字列を含んだ関連情報を収集し、利用することが行われる。なお、以下の説明では、検索する文字列が単語である例を用いて説明するが、本実施形態で説明する技術は、単語以外の文字列による検索であっても適用可能である。
[Background and Outline of this Embodiment]
In recent years, consumers and the like have transmitted various information through social media and the like. For this reason, for example, companies that sell products and the like have a demand for analyzing consumer needs from various information transmitted by consumers and the like. For this reason, information transmitted by consumers or the like is searched with a character string (for example, a word or a combination of one or a plurality of words) estimated to be included in the information to be analyzed, and the character string. Collecting and using related information including In the following description, an example in which a character string to be searched is a word will be described. However, the technique described in this embodiment can be applied even to a search using a character string other than a word.

ここで、このような消費者等が発信するソーシャルメディア等は、多様な分野の情報を含む。このため、検索する単語が複数の異なる意味を有する場合、本来収集するべき情報以外の情報も検索結果として抽出されてしまうことがある。
具体例を示すと、例えば、単語が商品の名称であって、当該商品の名称が、商品と関係ないスポーツチームの名称と同じであるとする。この場合、当該商品の名称で情報検索すると、商品に関する情報のみならず、スポーツチームに関する情報も抽出されてしまう。このため、本来利用したい情報が効率的に選択できないことがある。なお、このような問題は、消費者等がソーシャルメディア等で発信した情報が対象のケースのみならず、情報を収集して利用するケース全体において生じ得る問題である。
Here, the social media transmitted by such consumers and the like includes information of various fields. For this reason, when a word to be searched has a plurality of different meanings, information other than information that should be collected may be extracted as a search result.
For example, it is assumed that the word is the name of a product and the name of the product is the same as the name of a sports team not related to the product. In this case, when information search is performed using the name of the product, not only information related to the product but also information related to the sports team is extracted. For this reason, there are cases where the information that is originally desired cannot be efficiently selected. In addition, such a problem is a problem that may occur not only in a case where information transmitted by a consumer or the like through social media or the like is a target but also in a case where information is collected and used.

そこで、検索する文字列が情報利用の目的とする意味で用いられている情報を効率的に選択できるようにするべく、例えば次のような技術を用いることが可能である。すなわち、当該技術では、複数の情報の相互の関連度に基づいた順位付けを行う。具体的には、まず、情報を収集する対象とする分野(以下、対象分野という)に属する意味を含む複数の文字列(以下、対象文字列という)のうち、少なくとも1つの対象文字列を含む複数の情報を収集する。そして、この複数の収集情報について、同じ文字列を含む収集情報を関連付けてネットワークを生成する。ここでいう文字列とは、上記の対象文字列以外の文字列(例えば他の単語や動詞等)も含む。このとき、同じ文字列を多く含む収集情報間ほど関連度を強くする。そして、当該複数の収集情報につき、収集情報間の相互の関連度の高さに応じた順位付け(ランキング)を行う。この順位付けでは、高い関連度で他の収集情報と関連付けられた収集情報ほど上位に順位付けされる。なお、上記技術の詳細は、例えば、「ChiWang, Kaushik Chakrabarti, Tao Cheng, and Surajit Chaudhuri. (2012) Targeted disambiguation of ad-hoc, homogeneour sets of named entities. In Proceeding of the 21st international conference on World Wide Web.」、米国特許第6285999号公報、及び「Laurence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. (1999) The Pagerank citation ranking: Bringing Order to the Web. Technical Report. Stanford InfoLab.」等の参照文献に記載されている。   Therefore, for example, the following technique can be used in order to enable efficient selection of information used in the meaning of the purpose of using information as a character string to be searched. That is, in this technique, ranking is performed based on the degree of relevance between a plurality of pieces of information. Specifically, first, at least one target character string is included among a plurality of character strings (hereinafter referred to as a target character string) including meanings belonging to a field for which information is collected (hereinafter referred to as a target field). Collect multiple pieces of information. And about this some collection information, the collection information containing the same character string is linked | related and a network is produced | generated. The character string here includes character strings other than the target character string (for example, other words and verbs). At this time, the degree of association is strengthened between the collected information including the same character string. And about the said some collection information, ranking (ranking) according to the high degree of mutual relation between collection information is performed. In this ranking, collection information associated with other collection information with a high degree of relevance is ranked higher. For details of the above technology, see, for example, `` ChiWang, Kaushik Chakrabarti, Tao Cheng, and Surajit Chaudhuri. (2012) Targeted disambiguation of ad-hoc, homogeneour sets of named entities.In Proceeding of the 21st international conference on World Wide Web References such as US Pat. No. 6,285,999 and “Laurence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. (1999) The Pagerank citation ranking: Bringing Order to the Web. Technical Report. Stanford InfoLab.” It is described in.

上記の技術における順位付けでは、対象文字列が対象分野以外の意味も含むときには、対象分野以外の収集情報も順位付けの対象に入ってくることがある。しかし、上記技術によれば、他の収集情報と共通する文字列を多く含む情報ほど、他の収集情報との関連度が高くなり、順位が上位となる。そして、同じ分野に属する収集情報は、一般に同じ文字列を含むことが多い。このため、当該順位付けでは、対象分野に適合する内容をより多く含んだ収集情報(当該対象分野に適合する度合が高いと推測される収集情報)ほど、上位に順位付けられることとなる。この順位を利用して収集情報を選択すれば、目的に適合した意味を有する収集情報を効率的に利用することが可能となる。   In the ranking in the above technique, when the target character string includes a meaning other than the target field, collected information other than the target field may also be included in the ranking target. However, according to the above technique, as the information includes more character strings in common with other collected information, the degree of association with the other collected information is higher and the rank is higher. In general, collected information belonging to the same field often includes the same character string. For this reason, in the ranking, collection information that includes more content that matches the target field (collection information that is estimated to have a high degree of matching to the target field) is ranked higher. If collected information is selected using this order, it is possible to efficiently use collected information having a meaning suitable for the purpose.

図1は、上記技術により生成した、収集情報のネットワークの具体例を示す。当該具体例では、対象分野が「お菓子」であるものとする。また、当該「お菓子」に属する意味を含む対象文字列が「○○」及び「△△」である。ここで、「○○」は、お菓子の意味の他に、サッカーチームの名称の意味も含んでいる。また、「△△」は、お菓子の意味の他に、国の名称の意味も含んでいる。このため、当該「○○」又は「△△」の少なくとも1つを含んだ収集情報として、収集情報A〜収集情報Dが収集されたものとする。   FIG. 1 shows a specific example of a network of collected information generated by the above technique. In this specific example, it is assumed that the target field is “sweets”. In addition, target character strings including meanings belonging to the “sweets” are “◯◯” and “ΔΔ”. Here, “OO” includes the meaning of the name of the soccer team in addition to the meaning of sweets. Further, “ΔΔ” includes the meaning of the country name in addition to the meaning of sweets. Therefore, it is assumed that collection information A to collection information D are collected as collection information including at least one of “XX” or “ΔΔ”.

これらの収集情報A〜収集情報Dのうち、図1に示すように、収集情報A及び収集情報Cが、お菓子に関する内容である。これらの2つの情報は、例えば、お菓子に関する内容で多く用いられる「食べ(る)」、「味」といった文字列を共通して含む。このように、同じ分野に属する情報は、共通する文字列を多く含むため、関連度が相対的に高くなり、順位が上位となる傾向がある。
一方、収集情報Bはサッカーに関する内容であり、他の収集情報との間で共通する文字列が少ない。このため、関連度が相対的に低くなる。収集情報Dも国に関する内容であり、同様に、関連度が相対的に低くなる。
Among these collection information A to collection information D, as shown in FIG. 1, the collection information A and the collection information C are contents related to sweets. These two pieces of information include, in common, character strings such as “eat” and “taste” that are often used in the content related to sweets. Thus, since information belonging to the same field includes many common character strings, the degree of association tends to be relatively high and the ranking tends to be higher.
On the other hand, the collection information B is about soccer, and there are few character strings in common with other collection information. For this reason, the relevance is relatively low. The collected information D is also about the country, and similarly, the degree of association is relatively low.

ここで、一般的に信頼性の高い情報の1つとして、語(文字列)の意味の説明(定義説明)を含む外部知識情報(例えば、ウィキペディア(登録商標)等によって提供されている情報等)がある。
このため、上記の順位付けにおいて、対象分野に適合する情報をより上位に順位付けするために、対象文字列の当該対象分野における意味の説明を含む外部知識情報を、情報間のネットワークを生成する対象に追加することが行われている。そうすることで、当該外部知識情報と共通する文字列を多く含む情報、すなわち、対象分野に適合する度合が高い情報は、当該外部知識情報との関連度が高くなり、結果として順位が上位となることが見込まれる。
Here, as one piece of information that is generally highly reliable, external knowledge information (for example, information provided by Wikipedia (registered trademark), etc.) including an explanation (definition explanation) of the meaning of a word (character string), etc. )
For this reason, in the above ranking, in order to rank information suitable for the target field in a higher rank, external knowledge information including a description of the meaning of the target character string in the target field is generated as a network between the information. It has been added to the subject. By doing so, information that contains many character strings in common with the external knowledge information, that is, information that is highly compatible with the target field has a high degree of association with the external knowledge information, and as a result, ranks higher. It is expected to be.

図2は、図1のネットワークに対し、「お菓子」に属する意味を含む単語である「○○」及び「△△」の、「お菓子」の分野における意味の説明を含む外部知識情報である正解知識情報A及び正解知識情報Bを追加したネットワークの具体例を示す。当該具体例に示すように、例えば、「○○」の意味の説明を含む外部知識情報Aは、収集情報Aとの間で、例えば「キャンディー」や「味」といった文字列が共通する。このため、収集情報Aは、正解知識情報Aとの関連度が相対的に高く、結果として、順位が上位となることが見込まれる。また、例えば、「△△」の意味の説明を含む正解知識情報Bは、収集情報Cとの間で、例えば「ABC製菓」や「チョコレート」といった文字列が共通する。このため、収集情報Cは、正解知識情報Bとの関連度が相対的に高く、同様に、順位が上位となることが見込まれる。なお、これらの組合せのみならず、例えば、収集情報Cと外部知識情報Aも、同じお菓子の分野に関する内容であるため、「味」という単語等が共通する。このように、対象分野における意味説明を含む外部知識情報をネットワークに加えることによって、対象分野の内容を含む収集情報における他の収集情報との関連度が、相対的に高くなり、順位が上位となる。一方、例えば、サッカーチームに関する内容である収集情報Bや、国に関する内容である収集情報Dは、正解知識情報A及び正解知識情報Bと共通する文字列が少なく、関連度が相対的に低い。   FIG. 2 shows external knowledge information including explanations of meanings in the field of “sweets” of “XX” and “ΔΔ” which are words including meanings belonging to “sweets” with respect to the network of FIG. A specific example of a network to which certain correct knowledge information A and correct knowledge information B are added is shown. As shown in the specific example, for example, the external knowledge information A including an explanation of the meaning of “XX” has a character string such as “candy” or “taste” in common with the collected information A. For this reason, the collection information A has a relatively high degree of association with the correct knowledge information A, and as a result, the rank is expected to be higher. For example, the correct knowledge information B including an explanation of the meaning of “ΔΔ” has a character string such as “ABC Confectionery” or “Chocolate” in common with the collected information C. For this reason, the collection information C has a relatively high degree of relevance with the correct knowledge information B, and is similarly expected to be ranked higher. Note that not only the combination of these, but also the collected information C and the external knowledge information A, for example, are content related to the same confectionery field, so the word “taste” is common. In this way, by adding external knowledge information including semantic explanation in the target field to the network, the degree of relevance with other collected information in the collected information including the contents of the target field is relatively high, and the rank is higher. Become. On the other hand, for example, the collected information B, which is the content related to the soccer team, and the collected information D, which is the content related to the country, have few character strings in common with the correct answer knowledge information A and the correct answer knowledge information B, and have a relatively low degree of association.

しかし、このように、対象分野に属する意味を含む対象文字列の当該対象分野における意味の説明を含む外部知識情報は活用されているが、「当該対象分野以外」における意味の説明を含む外部知識情報は活用されていない。なお、「当該対象分野以外」における意味説明を含む外部知識情報は、上記具体例で説明すると、例えば、「○○」についての、「お菓子」ではなく「サッカーチーム」に関する意味説明である。また、「△△」についての、「お菓子」ではなく「国」に関する意味説明である。   However, the external knowledge information including the explanation of the meaning in the target field of the target character string including the meaning belonging to the target field is utilized in this way, but the external knowledge including the meaning of “non-target field” is used. Information is not utilized. Note that the external knowledge information including the meaning explanation in “non-target field” is, for example, a meaning explanation regarding “soccer team” instead of “candy” for “XX”. Also, the meaning of “ΔΔ” is not “confectionery” but “country”.

そこで、本実施形態では、上記の順位付けにおいて、当該対象分野に属する意味を含む単語の、「当該対象分野以外」における意味説明を含む外部知識情報を活用することで、上記の順位付けの精度をさらに向上させる。
すなわち、本実施形態では、対象文字列の対象分野における意味の説明を含む正解知識情報のみならず、対象文字列の対象分野以外における意味の説明を含む不正解知識情報を取得する。そして、複数の収集情報及び正解知識情報における相互の関連度の高さに応じて、複数の収集情報のそれぞれにつき、正解知識情報を反映させた順位(第1の順位)を決定する。さらに、複数の収集情報及び不正解知識情報における相互の関連度の高さに応じて、複数の収集情報のそれぞれにつき、不正解知識情報を反映させた順位(第2の順位)を決定する。そして、正解知識情報を反映させた順位及び不正解知識情報を反映させた順位の差異に基づいて、正解知識情報を反映させた順位の調整を行い、複数の収集情報のそれぞれの最終順位を決定する。
Therefore, in this embodiment, in the ranking, the accuracy of the ranking is obtained by using external knowledge information including the meaning explanation in “other than the target field” of the words including the meaning belonging to the target field. To further improve.
That is, in the present embodiment, not only correct answer knowledge information including a description of the meaning of the target character string in the target field but also incorrect knowledge information including a description of the meaning of the target character string outside the target field is acquired. Then, in accordance with the degree of relevance between the plurality of collected information and the correct knowledge information, a rank (first rank) reflecting the correct answer information is determined for each of the collected information. Further, a rank (second rank) in which the incorrect answer knowledge information is reflected is determined for each of the plurality of collected information in accordance with the degree of mutual relation between the plurality of collected information and the incorrect answer knowledge information. Then, based on the difference between the ranking reflecting the correct knowledge information and the ranking reflecting the incorrect knowledge information, the ranking reflecting the correct knowledge information is adjusted, and the final ranking of each of the collected information is determined. To do.

より具体的には、例えば、ある収集情報の順位において、正解知識情報を反映させた順位よりも、不正解知識情報を反映させた順位のほうが上位であれば、当該収集情報の順位を、正解知識情報を反映させた順位よりもさらに下位になるように調整する。このような場合、当該収集情報は、対象分野以外の内容である可能性が高いと推測されるからである。   More specifically, for example, in the order of certain collection information, if the rank reflecting incorrect knowledge information is higher than the rank reflecting correct knowledge information, the rank of the collection information is correct. Adjust it so that it is lower than the ranking that reflects the knowledge information. This is because in such a case, it is estimated that the collected information is likely to be content outside the target field.

図3は、図1のネットワークに対し、「お菓子」に属する意味を含む対象文字列である「○○」及び「△△」の、「お菓子以外」の意味説明を含む不正解知識情報A及び不正解知識情報Bを追加したネットワークの具体例を示す。当該具体例に示すように、例えば、「○○」の意味の説明を含む不正解知識情報Aは、収集情報Bとの間で、「サッカー」、「チーム」といった文字列が共通する。このため、収集情報Bは、不正解知識情報Aとの関連度が相対的に高い。また、例えば、「△△」の意味の説明を含む不正解知識情報Bは、収集情報Dとの間で、「国」や「日本」といった文字列が共通する。このため、収集情報Dは、不正解知識情報Bとの関連度が相対的に高い。一方で、お菓子に関する内容である収集情報A及び収集情報Cは、不正解知識情報A及び不正解知識情報Bと共通する文字列が少なく、関連度が相対的に低い。このように、対象分野以外における意味説明を含む外部知識情報をネットワークに加えることによって、対象分野以外の内容を含む収集情報における他の収集情報との関連度が相対的に高くなる。その結果、図2のように対象分野における意味説明を含む外部知識情報を反映させた順位と比べ、対象分野以外の内容を示す収集情報の順位が相対的に上位となる。換言すれば、このように、対象分野以外における意味説明を含む外部知識情報を反映させた順位が相対的に上位になることにより、当該収集情報が、対象分野以外の内容を示すことが推測される。このため、このような収集情報については、順位を下げるように調整する。   FIG. 3 shows incorrect knowledge information including a meaning explanation of “other than sweets” of “XX” and “ΔΔ” which are target character strings including meanings belonging to “sweets” with respect to the network of FIG. A specific example of a network to which A and incorrect knowledge information B are added is shown. As shown in the specific example, for example, the incorrect answer knowledge information A including the explanation of the meaning of “XX” has a character string such as “soccer” and “team” in common with the collected information B. For this reason, the collection information B has a relatively high degree of association with the incorrect answer knowledge information A. For example, the incorrect answer knowledge information B including the explanation of the meaning of “ΔΔ” has a character string such as “country” or “Japan” in common with the collected information D. For this reason, the collection information D has a relatively high degree of association with the incorrect answer knowledge information B. On the other hand, the collection information A and the collection information C, which are contents related to sweets, have few character strings in common with the incorrect answer knowledge information A and the incorrect answer knowledge information B, and have a relatively low degree of association. In this way, by adding external knowledge information including meaning explanations outside the target field to the network, the degree of relevance of the collected information including contents outside the target field with other collection information becomes relatively high. As a result, as shown in FIG. 2, the rank of the collection information indicating the contents other than the target field is relatively higher than the rank reflecting the external knowledge information including the semantic explanation in the target field. In other words, it is presumed that the collected information indicates contents other than the target field because the ranking reflecting the external knowledge information including the meaning explanation in other than the target field is relatively higher. The For this reason, such collected information is adjusted to lower the rank.

このように、本実施形態では、対象分野に属する意味を含む単語の、当該対象分野における意味説明を含む外部知識情報のみならず、「当該対象分野以外」における意味説明を含む外部知識情報を活用して、収集情報の順位を調整する。これにより、それぞれの情報が対象分野に適合する度合をより的確に判定することができ、順位付けの精度をより向上させることができる。   As described above, in this embodiment, not only external knowledge information including meaning explanation in the target field but also external knowledge information including meaning description in “non-target field” is used for words including meaning belonging to the target field. The order of collected information is adjusted. As a result, the degree to which each piece of information matches the target field can be determined more accurately, and the ranking accuracy can be further improved.

[第1実施例]
<システム構成>
図4は、第1実施例におけるシステム構成の一例を示す。
本システムは、情報収集サーバ1、情報提供サーバ2及び外部知識情報提供サーバ3を備える。情報収集サーバ1と、情報提供サーバ2及び外部知識情報提供サーバ3は、ネットワークを介して相互に通信可能に接続されている。ネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)等であり、有線接続又は無線接続のいずれであってもよい。本実施形態では、情報提供サーバ2及び外部知識情報提供サーバ3がWEBサーバとして機能し、情報収集サーバ1は、インターネットを介して、情報提供サーバ2及び外部知識情報提供サーバ3から各種情報の収集を行う。
[First embodiment]
<System configuration>
FIG. 4 shows an example of a system configuration in the first embodiment.
This system includes an information collecting server 1, an information providing server 2, and an external knowledge information providing server 3. The information collection server 1, the information providing server 2, and the external knowledge information providing server 3 are connected to be communicable with each other via a network. The network is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network), and may be either a wired connection or a wireless connection. In the present embodiment, the information providing server 2 and the external knowledge information providing server 3 function as a WEB server, and the information collecting server 1 collects various information from the information providing server 2 and the external knowledge information providing server 3 via the Internet. I do.

情報収集サーバ1は、情報提供サーバ2から、対象分野に属する意味を含む複数の対象文字列で、情報提供サーバ2に保持されている情報を検索し、複数の対象文字列のうち、少なくとも1つの対象文字列を含む複数の収集情報21を収集する。また、情報収集サーバ1は、外部知識情報提供サーバ3から、外部知識情報のうち、対象文字列の当該対象分野における意味の説明を含む正解知識情報22、及び対象文字列の当該対象分野以外における意味の説明を含む不正解知識情報23を取得する。そして、情報収集サーバ1は、収集した複数の収集情報21につき、正解知識情報22及び不正解知識情報23を利用して順位付けを行う。   The information collection server 1 searches the information providing server 2 for information held in the information providing server 2 with a plurality of target character strings including meanings belonging to the target field, and at least one of the plurality of target character strings. A plurality of collection information 21 including one target character string is collected. In addition, the information collection server 1 receives from the external knowledge information providing server 3 the correct knowledge information 22 including the explanation of the meaning of the target character string in the target field, and the target character string other than the target field. The incorrect answer knowledge information 23 including the meaning explanation is acquired. Then, the information collection server 1 ranks the collected pieces of collected information 21 using the correct answer knowledge information 22 and the incorrect answer knowledge information 23.

情報提供サーバ2は、各種情報を記憶手段に保持している。なお、WEBシステムにおいては、情報提供サーバ2のようなWEBサーバは一般的には複数存在し、それぞれにおいて異なる情報を保持している。そして、それぞれの情報提供サーバ2は、情報収集サーバ1からの要求に応じて、情報収集サーバ1に対し、収集情報21のデータを送信する。
外部知識情報提供サーバ3は、各種分野の語の意味の説明を含んだ外部知識情報を記憶手段に保持している。情報収集サーバ1からの要求に応じて、情報収集サーバ1に対し、外部記憶情報のデータを送信する。
The information providing server 2 holds various information in the storage means. In the WEB system, there are generally a plurality of WEB servers such as the information providing server 2, and each holds different information. Each information providing server 2 transmits the data of the collected information 21 to the information collecting server 1 in response to a request from the information collecting server 1.
The external knowledge information providing server 3 holds external knowledge information including explanations of meanings of words in various fields in a storage unit. In response to a request from the information collection server 1, data of external storage information is transmitted to the information collection server 1.

次に、情報収集サーバ1の機能構成及びデータ構成について詳述する。
情報収集サーバ1は、プログラムがインストールされて実行されることによってその機能が実現される、情報収集部11、順位決定部12及び順位調整部13を備える。また、記憶手段に、収集情報21、正解知識情報22、不正解知識情報23、正解順位テーブル24、不正解順位テーブル25、調整順位テーブル26を格納する。
Next, the functional configuration and data configuration of the information collection server 1 will be described in detail.
The information collection server 1 includes an information collection unit 11, a rank determination unit 12, and a rank adjustment unit 13, which realize their functions by installing and executing a program. In addition, the collection means 21, correct answer knowledge information 22, incorrect answer knowledge information 23, correct answer rank table 24, incorrect answer rank table 25, and adjustment rank table 26 are stored in the storage means.

情報収集部11は、対象分野に属する意味を含む複数の対象文字列で、情報提供サーバ2に保持されている情報を検索する。そして、情報収集部11は、情報収集サーバ1から、複数の対象文字列のうち、少なくとも1つの対象文字列をそれぞれ含む複数の収集情報21を収集する。また、情報収集部11は、外部知識情報提供サーバ3から、対象文字列の対象分野における意味の説明を含む少なくとも1つの正解知識情報22、及び対象文字列の当該対象分野以外における意味の説明を含む少なくとも1つの不正解知識情報23を取得する。   The information collecting unit 11 searches for information held in the information providing server 2 with a plurality of target character strings including meanings belonging to the target field. Then, the information collection unit 11 collects a plurality of collection information 21 each including at least one target character string from among the plurality of target character strings from the information collection server 1. In addition, the information collection unit 11 provides at least one correct knowledge information 22 including a description of the meaning of the target character string in the target field and an explanation of the meaning of the target character string outside the target field from the external knowledge information providing server 3. At least one incorrect answer knowledge information 23 is acquired.

順位決定部12は、複数の収集情報21及び正解知識情報22を対象とし、各情報間の関連度を示すネットワークを生成する。そして、順位決定部12は、正解知識情報22を含めたネットワークにおける情報間の相互の関連度に応じて、収集情報21のそれぞれの順位(第1の順位)を決定し、正解順位テーブル24に格納する。また、順位決定部12は、順位決定部12は、収集情報21につき、不正解知識情報23を含めて、各情報間の関連度を示すネットワークを生成する。そして、順位決定部12は、不正解知識情報23を含めたネットワークにおける情報間の相互の関連度に応じて、収集情報21のそれぞれの順位(第2の順位)を決定し、不正解順位テーブル25に格納する。   The rank determination unit 12 generates a network that indicates the degree of association between pieces of information with the collection information 21 and the correct knowledge information 22 as targets. Then, the rank determining unit 12 determines each rank (first rank) of the collected information 21 according to the degree of relevance between information in the network including the correct knowledge information 22, and stores the correct rank table 24. Store. In addition, the rank determination unit 12 generates a network indicating the degree of association between pieces of information including the incorrect answer knowledge information 23 for the collected information 21. Then, the rank determining unit 12 determines each rank (second rank) of the collection information 21 according to the degree of relevance between the information in the network including the incorrect answer knowledge information 23, and the incorrect answer rank table. 25.

順位調整部13は、正解順位テーブル24に格納された、正解知識情報22を反映させた順位、及び不正解順位テーブル25に格納された、不正解知識情報23を反映させた順位に基づいて、収集情報21の順位を調整する。具体的には、順位調整部13は、調整順位テーブル26に格納された順位を調整し、調整後の収集情報21のそれぞれの順位を最終順位として決定する。   The rank adjustment unit 13 is based on the rank reflecting the correct answer knowledge information 22 stored in the correct answer rank table 24 and the rank reflecting the incorrect answer knowledge information 23 stored in the incorrect answer rank table 25. The order of the collection information 21 is adjusted. Specifically, the rank adjustment unit 13 adjusts the rank stored in the adjustment rank table 26 and determines each rank of the collection information 21 after adjustment as the final rank.

収集情報21は、情報提供サーバ2から収集した情報であって、それぞれ、対象分野に属する意味を含む複数の対象文字列のうち、少なくとも1つの対象文字列を含んだ情報である。収集情報21は、例えば、図5に示すようなテキストデータである収集情報A〜収集情報Dを含む。対象文字列が、当該対象分野以外の意味も含む場合には、収集情報21は、当該対象分野以外の内容を示す情報を含む可能性がある。   The collected information 21 is information collected from the information providing server 2 and is information including at least one target character string among a plurality of target character strings each including a meaning belonging to the target field. The collection information 21 includes, for example, collection information A to collection information D, which are text data as shown in FIG. When the target character string includes meanings other than the target field, the collection information 21 may include information indicating contents other than the target field.

正解知識情報22は、外部知識情報提供サーバ3から取得した情報であって、対象分野に属する意味を含む対象文字列の当該対象分野における意味の説明を含む情報である。正解知識情報22は、例えば、図6(A)に示すようなテキストデータである正解知識情報A及び正解知識情報Bを含む。
不正解知識情報23は、外部知識情報提供サーバ3から取得した情報であって、対象分野に属する意味を含む対象文字列の当該対象分野以外における意味の説明を含む情報である。不正解知識情報23は、例えば、図6(B)に示すようなテキストデータである不正解知識情報A及び不正解知識情報Bを含む。
The correct knowledge information 22 is information acquired from the external knowledge information providing server 3 and is information including a description of the meaning of the target character string including the meaning belonging to the target field in the target field. The correct knowledge information 22 includes, for example, correct knowledge information A and correct knowledge information B that are text data as shown in FIG.
The incorrect answer knowledge information 23 is information acquired from the external knowledge information providing server 3 and is information including a description of the meaning of the target character string including the meaning belonging to the target field outside the target field. The incorrect answer knowledge information 23 includes, for example, incorrect answer knowledge information A and incorrect answer knowledge information B, which are text data as shown in FIG.

正解順位テーブル24は、正解知識情報22を含めたネットワークにおける収集情報間の相互の関連度に応じて決定した、収集情報21の順位(すなわち、正解知識情報22を反映させた順位)を格納するテーブルである。正解順位テーブル24は、例えば、図7(A)に示すように、順位と、収集情報21の識別子とを含む。
不正解順位テーブル25は、不正解知識情報23を含めたネットワークにおける収集情報間の相互の関連度に応じて決定した、収集情報21の順位(すなわち、不正解知識情報23を反映させた順位)を格納するテーブルである。不正解順位テーブル25は、例えば、図7(B)に示すように、順位と、収集情報21の識別子とを含む。
The correct answer rank table 24 stores the rank of the collected information 21 (that is, the rank reflecting the correct answer knowledge information 22) determined according to the degree of relevance between the collected information in the network including the correct answer knowledge information 22. It is a table. The correct ranking table 24 includes, for example, a ranking and an identifier of the collection information 21 as shown in FIG.
The incorrect answer rank table 25 is the rank of the collection information 21 determined in accordance with the degree of correlation between the collected information in the network including the incorrect answer knowledge information 23 (that is, the rank reflecting the incorrect answer knowledge information 23). Is a table storing. The incorrect answer rank table 25 includes, for example, ranks and identifiers of the collection information 21 as shown in FIG.

調整順位テーブル26は、正解順位テーブル24に格納された、正解知識情報22を反映させた順位を、不正解順位テーブル25に格納された、不正解知識情報23を反映させた順位に基づいて調整した結果の最終順位を格納するテーブルである。調整順位テーブル26は、例えば、図8に示すように、順位と、収集情報21の識別子とを含む。
なお、図4に示したシステム構成は一例に過ぎない。例えば、情報収集サーバ1は、収集情報21や、正解知識情報22及び不正解知識情報23を、他のサーバから受信するのではなく、予め記憶手段に格納しておくこともできる。また、情報収集サーバ1は、これらの情報をCD−ROM等の記憶媒体により取得してもよい。
The adjustment rank table 26 adjusts the rank reflecting the correct answer knowledge information 22 stored in the correct answer rank table 24 based on the rank reflecting the incorrect answer knowledge information 23 stored in the incorrect answer rank table 25. It is a table for storing the final ranking of the results. The adjustment order table 26 includes, for example, an order and an identifier of the collection information 21 as shown in FIG.
Note that the system configuration shown in FIG. 4 is merely an example. For example, the information collection server 1 can store the collected information 21, the correct answer knowledge information 22 and the incorrect answer knowledge information 23 in advance in a storage unit, instead of receiving them from another server. Further, the information collection server 1 may acquire these pieces of information using a storage medium such as a CD-ROM.

<処理説明>
情報収集サーバ1で実行される処理につき、図9及び図10に示すフローチャートを参照して説明する。
図9は、情報収集部11、順位決定部12及び順位調整部13で実行される全体処理を示す。
<Description of processing>
The processing executed by the information collection server 1 will be described with reference to the flowcharts shown in FIGS.
FIG. 9 shows the overall processing executed by the information collecting unit 11, the rank determining unit 12 and the rank adjusting unit 13.

ステップS1で、情報収集部11は、情報提供サーバ2から、対象分野に属する意味を含む複数の対象文字列のうち、少なくとも1つの対象文字列を含む複数の収集情報21を収集する。この収集方法としては、例えば、当該複数の対象文字列で情報提供サーバ2の情報を検索し、検索結果の情報を収集すればよい。そして、収集した収集情報21を、記憶手段に格納する。なお、対象分野に属する意味を含む複数の対象文字列は、例えばユーザによる入力指定により取得してもよいし、予め記憶手段等に格納しておいてもよい。   In step S <b> 1, the information collection unit 11 collects, from the information providing server 2, a plurality of collection information 21 including at least one target character string among a plurality of target character strings including meanings belonging to the target field. As this collection method, for example, the information of the information providing server 2 may be searched using the plurality of target character strings, and the search result information may be collected. The collected collection information 21 is stored in the storage means. Note that a plurality of target character strings including meanings belonging to the target field may be acquired, for example, by an input designation by a user, or may be stored in advance in a storage unit or the like.

ステップS2で、情報収集部11は、外部知識情報提供サーバ3から、対象文字列の当該対象分野における意味の説明を含む正解知識情報22、及び対象文字列の当該対象分野以外における意味の説明を含む不正解知識情報23を取得する。
なお、正解知識情報22及び不正解知識情報23を取得する方法としては、例えば、複数の対象文字列のそれぞれで外部知識情報提供サーバ3の外部知識情報を検索して、検索結果として得られた外部知識情報を、ユーザが手動で正解知識情報22及び不正解知識情報23に振り分けてもよい。また、前述の対象文字列で外部知識情報を検索したときに得られる「曖昧さ回避」の情報を利用してもよい。「曖昧さ回避」の情報とは、当該対象文字列が複数の意味を有し、当該対象文字列について複数の外部知識情報がある場合に、当該複数の外部知識情報を一覧で示す情報である。「曖昧さ回避」の情報の具体的な利用方法は次の通りである。すなわち、そして、対象文字列のそれぞれについて、この「曖昧さ回避」で得られた一覧で示される複数の外部知識情報を全て取得する。そして、当該複数の外部知識情報間の関連度の高さを特定する。そして、他の外部知識情報との関連度が最も高い外部知識情報を、当該対象文字列の正解知識情報22とし、それ以外の外部知識情報を、当該対象文字列の不正解知識情報23とする。このようにすることで、正解知識情報22及び不正解知識情報23への自動振り分けが可能となる。
In step S <b> 2, the information collection unit 11 receives from the external knowledge information providing server 3 correct knowledge information 22 including a description of the meaning of the target character string in the target field, and a description of the meaning of the target character string outside the target field. Incorrect answer knowledge information 23 is acquired.
In addition, as a method for acquiring the correct knowledge information 22 and the incorrect knowledge information 23, for example, the external knowledge information of the external knowledge information providing server 3 is searched with each of a plurality of target character strings, and the search result is obtained. The external knowledge information may be manually distributed to the correct answer knowledge information 22 and the incorrect answer knowledge information 23 by the user. Further, “disambiguation” information obtained when external knowledge information is searched with the above-described target character string may be used. The “disambiguation” information is information that lists a plurality of external knowledge information when the target character string has a plurality of meanings and there are a plurality of pieces of external knowledge information for the target character string. . The specific method of using the “disambiguation” information is as follows. That is, for each of the target character strings, a plurality of pieces of external knowledge information shown in the list obtained by the “disambiguation” are acquired. Then, the degree of relevance between the plurality of external knowledge information is specified. Then, the external knowledge information having the highest degree of association with other external knowledge information is set as correct knowledge information 22 of the target character string, and the other external knowledge information is set as incorrect knowledge information 23 of the target character string. . In this way, automatic distribution to the correct answer knowledge information 22 and the incorrect answer knowledge information 23 becomes possible.

ステップS3で、順位決定部12は、収集情報21及び正解知識情報22を対象とし、同じ文字列を含む情報を関連付けてネットワークを生成する。そして、順位決定部12は、収集情報21のそれぞれにつき、当該ネットワーク、すなわち、正解知識情報22を反映させたネットワークにおける情報間の関連度に基づいて、他の情報との関連度が高い収集情報21が上位になるように順位付けを行う。そして、順位決定部12は、決定した順位を、正解順位テーブル24に格納する。   In step S <b> 3, the rank determining unit 12 generates a network by associating information including the same character string with the collected information 21 and the correct knowledge information 22 as targets. Then, the rank determining unit 12 collects the collected information 21 having a high degree of association with other information based on the degree of association between information in the network, that is, the network reflecting the correct knowledge information 22. Ranking is performed so that 21 is higher. Then, the rank determining unit 12 stores the determined rank in the correct answer rank table 24.

ステップS4で、順位決定部12は、収集情報21及び不正解知識情報23を対象とし、同じ文字列を含む情報を関連付けてネットワークを生成する。そして、順位決定部12は、収集情報21のそれぞれにつき、当該ネットワーク、すなわち、不正解知識情報23を反映させたネットワークにおける情報間の関連度に基づいて、他の情報との関連度が高い収集情報21が上位になるように順位付けを行う。そして、順位決定部12は、決定した順位を、不正解順位テーブル25に格納する。   In step S4, the rank determining unit 12 generates a network by associating information including the same character string with the collected information 21 and the incorrect answer knowledge information 23 as targets. Then, the rank determination unit 12 collects each of the collected information 21 with a high degree of association with other information based on the degree of association between the information in the network, that is, the network reflecting the incorrect answer knowledge information 23. Ranking is performed so that the information 21 is higher. Then, the rank determining unit 12 stores the determined rank in the incorrect answer rank table 25.

ステップS5で、順位調整部13は、S3で決定した、収集情報21及び正解知識情報22を対象とした関連度に基づいた順位を、S4で決定した、収集情報21及び不正解知識情報23を対象とした関連度に基づいた順位に基づいて調整する順位調整処理を行う。順位調整処理については、次に詳述する。   In step S5, the rank adjustment unit 13 obtains the collection information 21 and the incorrect answer knowledge information 23 determined in S4, based on the degree of association determined for the collection information 21 and the correct knowledge information 22 determined in S3. A rank adjustment process is performed for adjustment based on the rank based on the target degree of association. The rank adjustment process will be described in detail next.

図10は、順位調整部13で実行される順位調整処理の詳細を示す。当該処理は、収集情報21のそれぞれについて実行する。
ステップS11で、順位調整部13は、正解順位テーブル24に格納された、正解知識情報22を反映させた順位(図では[A]と表す)と、不正解順位テーブル25に格納された、不正解知識情報23を反映させた順位(図では[B]と表す)を比較する。
FIG. 10 shows details of the order adjustment processing executed by the order adjustment unit 13. This process is executed for each of the collection information 21.
In step S <b> 11, the rank adjustment unit 13 ranks the correct answer knowledge information 22 stored in the correct answer rank table 24 (shown as [A] in the figure) and the incorrect answer rank table 25 stores the incorrect answer rank information 25. The ranks reflecting the correct knowledge information 23 (represented as [B] in the figure) are compared.

ステップS12で、順位調整部13は、正解知識情報22を反映させた順位が、不正解知識情報23を反映させた順位と同じ又は不正解知識情報23を反映させた順位よりも上位であるかを判定する。当該条件に該当すればステップS13に進み(Yes)、該当しなければステップS14に進む(No)。なお、当該判定は、換言すれば、処理対象の収集情報21が、不正解知識情報23よりも正解知識情報22との間で共通する文字列を多く含むか(又は同じか)を判定するものである。なお、正解知識情報22を反映させた順位が、不正解知識情報23を反映させた順位と同じ場合については、後述のステップS14で処理をしてもよい。   In step S <b> 12, the rank adjustment unit 13 is the same as the rank reflecting the incorrect knowledge information 23 or higher than the rank reflecting the incorrect answer knowledge information 23. Determine. If the condition is met, the process proceeds to step S13 (Yes), and if not, the process proceeds to step S14 (No). In other words, this determination is to determine whether the collection information 21 to be processed includes more (or the same) character strings common to the correct knowledge information 22 than to the incorrect answer knowledge information 23. It is. Note that when the order in which the correct answer knowledge information 22 is reflected is the same as the order in which the incorrect answer knowledge information 23 is reflected, the process may be performed in step S14 described later.

ステップS13で、順位調整部13は、処理対象の収集情報21の順位につき、正解知識情報22を反映させた順位に対して調整をすることなく、正解テーブル24の順位を最終順位として、調整順位テーブル26に格納する。
当該ステップS13の処理の具体例につき、図11を参照して説明する。図11において、収集情報Aは、正解知識情報22を反映させた順位が1位である。一方で、当該収集情報Aは、不正解知識情報23を反映させた順位は3位である。このように、正解知識情報22を反映させた順位よりも、不正解知識情報23を反映させた順位のほうが低い場合、収集情報Aは、対象分野の情報である可能性が高い。このため、正解知識情報22を反映させた順位に対して特に調整をすることなく、そのまま最終順位とする。
In step S <b> 13, the rank adjustment unit 13 adjusts the rank of the correct answer table 24 as the final rank without adjusting the rank of the collection information 21 to be processed with respect to the rank reflecting the correct knowledge information 22. Store in table 26.
A specific example of the processing in step S13 will be described with reference to FIG. In FIG. 11, the collection information A has the first rank in which the correct knowledge information 22 is reflected. On the other hand, in the collected information A, the ranking reflecting the incorrect answer knowledge information 23 is third. Thus, when the rank reflecting the incorrect answer knowledge information 23 is lower than the rank reflecting the correct answer knowledge information 22, the collected information A is highly likely to be information on the target field. For this reason, the final ranking is used as it is without particularly adjusting the ranking reflecting the correct knowledge information 22.

ステップS14で、順位調整部13は、処理対象の収集情報21の順位につき、正解知識情報22を反映させた順位よりも下位になるように調整をして、調整順位テーブル26に格納する。例えば、順位を下げる計算方法の一例として、処理対象の収集情報21の順位が、
[正解知識情報を反映させた順位]+([正解知識情報を反映させた順位]−[不正解知識情報を反映させた順位])
となるように調整する。そして、調整した順位を、調整順位テーブル26に格納する。
In step S <b> 14, the rank adjusting unit 13 adjusts the rank of the collection information 21 to be processed so that the rank is lower than the rank reflecting the correct knowledge information 22, and stores it in the adjustment rank table 26. For example, as an example of a calculation method for lowering the rank, the rank of the collection information 21 to be processed is
[Rank reflecting correct knowledge information] + ([Rank reflecting correct knowledge information]-[Rank reflecting incorrect knowledge information])
Adjust so that Then, the adjusted rank is stored in the adjustment rank table 26.

当該ステップS14の処理の具体例につき、図12を参照して説明する。図12において、収集情報Bは、正解知識情報22を反映させた順位が2位である。一方で、当該収集情報Bは、不正解知識情報23を反映させた順位は1位である。このように、正解知識情報22を反映させた順位よりも、不正解知識情報23を反映させた順位のほうが高い場合、収集情報Bは、対象分野以外の情報である可能性が高い。このため、正解知識情報22を反映させた順位に対して、順位を下げるように調整をする。   A specific example of the processing in step S14 will be described with reference to FIG. In FIG. 12, the collection information B has the second rank in which the correct knowledge information 22 is reflected. On the other hand, in the collected information B, the ranking reflecting the incorrect answer knowledge information 23 is first. Thus, when the rank reflecting the incorrect answer knowledge information 23 is higher than the rank reflecting the correct answer knowledge information 22, the collected information B is highly likely to be information other than the target field. For this reason, it adjusts so that the rank may be lowered with respect to the rank reflecting the correct knowledge information 22.

なお、全ての収集情報21の順位を調整した結果、複数の収集情報21の順位が同一となった場合には、そのまま同一の順位としておいてもよいし、もともと正解知識情報22を反映させた順位が上位であったものを上位とするように最終順位を調整してもよい。また、順位に空きが生じた場合には、下位の順位を繰り上げるように最終順位を調整すればよい。
また、上記処理においては、まず、正解順位テーブル24のデータを、そのまま調整順位テーブル26に格納し、調整順位テーブル26に格納された順位を変動させて調整するようにしてもよい。この場合、前後に処理される他の収集情報21の順位の調整結果により、順位が相対的に変動することとなる。
As a result of adjusting the order of all the collected information 21, when the order of the plurality of collected information 21 becomes the same, the same order may be used as it is, or the correct knowledge information 22 is originally reflected. The final ranking may be adjusted so that the highest ranking is the highest ranking. Further, when there is a vacancy in the ranking, the final ranking may be adjusted so that the lower ranking is advanced.
In the above processing, first, the data of the correct answer rank table 24 may be stored as it is in the adjustment rank table 26 and adjusted by changing the rank stored in the adjustment rank table 26. In this case, the rank changes relatively depending on the result of adjusting the rank of the other collected information 21 processed before and after.

<本実施例による効果等>
本実施例によれば、単に正解知識情報を反映させて収集情報の順位を決定するのではなく、不正解知識情報を反映させた順位も考慮して順位を調整するため、収集情報の順位の精度が向上する。
具体的には、本実施例によれば、正解知識情報よりも不正解知識情報との共通する文字列が多い収集情報、すなわち、対象分野に適合しない可能性の高い内容の収集情報をより正確に判別し、順位を下げるように調整することができる。また、これにより相対的に、対象分野に適合する可能性の高い内容の収集情報をより上位に順位付けることができる。そして、この順位を利用して情報を選択すれば、目的に適合した意味を有する情報を効率的に利用することが可能となる。
<Effects of this embodiment>
According to the present embodiment, the order of the collected information is not simply determined by reflecting the correct knowledge information, but is adjusted in consideration of the order reflecting the incorrect knowledge information. Accuracy is improved.
Specifically, according to the present embodiment, collected information that has more common character strings with incorrect knowledge information than correct knowledge information, that is, collected information that has a high possibility of not conforming to the target field is more accurate. Can be adjusted to lower the ranking. In addition, it is possible to relatively rank the collected information having contents that are likely to be suitable for the target field. If information is selected using this order, information having a meaning suitable for the purpose can be used efficiently.

[第2実施例]
<第2実施例の概要>
前述した第1実施例では、収集情報のネットワークを生成において外部知識情報を加えることで、より収集情報の順位が適切なものとなる、という前提のもとに、まず、正解知識情報を加えて生成したネットワークに基づいた順位を決定した。その上で、不正解知識情報を加えて生成したネットワークに基づいた順位をさらに決定し、当該順位に基づいて、正解知識情報を加えて生成したネットワークに基づいた順位を調整した。
[Second Embodiment]
<Overview of the second embodiment>
In the first embodiment described above, first, correct knowledge information is added based on the premise that the order of collected information becomes more appropriate by adding external knowledge information in generating a network of collected information. The ranking based on the generated network was determined. Then, the ranking based on the network generated by adding incorrect knowledge information is further determined, and the ranking based on the network generated by adding correct knowledge information is adjusted based on the ranking.

しかし、収集情報の内容が、分野を問わず外部知識情報全般との間で共通する文字列を多く含むような場合には、外部知識情報を反映させても、順位の精度を向上できない可能性がある。
また一方で、収集情報の内容が、分野を問わず外部知識情報全般との間で共通する文字列が少ない場合もある。なお、このような場合の一例としては、収集情報における文章表現が話し言葉のような場合がある。この場合、学術的な言い回しの多い傾向にある外部知識情報とは異なる文章表現が用いられることが多く、共通する文字列が少ないことが考えられる。
このため、第2実施例では、第1実施例に加えて、さらに、外部知識情報を反映させずに収集情報のみに基づいて決定される順位も考慮して、順位の決定を行う。以下、第1実施例と同様の内容については、原則として説明を省略する。
However, if the content of the collected information contains many character strings that are common to all external knowledge information regardless of the field, the accuracy of the ranking may not be improved even if the external knowledge information is reflected. There is.
On the other hand, there are cases where the content of the collected information has few character strings in common with all external knowledge information regardless of the field. As an example of such a case, the sentence expression in the collected information may be a spoken word. In this case, a sentence expression different from the external knowledge information that tends to have many academic phrases is often used, and there are few common character strings.
For this reason, in the second embodiment, in addition to the first embodiment, the ranking is determined in consideration of the ranking determined based only on the collected information without reflecting the external knowledge information. In the following, the description of the same contents as in the first embodiment will be omitted in principle.

<システム構成>
図13は、第2実施例におけるシステム構成の一例を示す。第2実施例では、第1実施例のシステム構成に加え、情報収集サーバ1が、原順位テーブル27を備える。
原順位テーブル27は、収集情報21のみのネットワーク(外部知識情報を含めないネットワーク)における収集情報間の関連度に応じて決定した、収集情報21の順位(第3の順位)を格納するテーブルである。原順位テーブル27は、例えば、図14に示すように、順位と、収集情報21の識別子とを含む。
<System configuration>
FIG. 13 shows an example of a system configuration in the second embodiment. In the second embodiment, in addition to the system configuration of the first embodiment, the information collection server 1 includes an original rank table 27.
The original rank table 27 is a table that stores the rank (third rank) of the collection information 21 determined according to the degree of association between the collection information in the network of only the collection information 21 (network not including external knowledge information). is there. The original rank table 27 includes, for example, ranks and identifiers of the collection information 21 as shown in FIG.

<処理説明>
第2実施例において情報収集サーバ1で実行される処理につき、図15及び図16に示すフローチャートを参照して説明する。
図15は、情報収集部11、順位決定部12及び順位調整部13で実行される全体処理を示す。
ステップS21及びステップS22は、図9に示す、第1実施例におけるステップS1及びステップS2と同様であるため、説明を省略する。
<Description of processing>
The processing executed by the information collection server 1 in the second embodiment will be described with reference to the flowcharts shown in FIGS.
FIG. 15 shows the overall processing executed by the information collecting unit 11, the rank determining unit 12 and the rank adjusting unit 13.
Steps S21 and S22 are the same as steps S1 and S2 in the first embodiment shown in FIG.

ステップS23で、順位決定部12は、収集情報21を対象とし、共通する文字列を含む情報を関連付けてネットワークを生成する。そして、順位決定部12は、当該ネットワークにおける情報間の関連度に基づいて、他の情報との関連度が高い情報が上位になるように順位付けを行う。そして、順位決定部12は、決定した順位を、原順位テーブル27に格納する。
ステップS24〜ステップS26は、図9に示す、第1実施例におけるステップS3〜ステップS5と同様であるため、説明を省略する。
In step S <b> 23, the rank determination unit 12 generates a network by associating information including the common character string with the collected information 21 as a target. Then, the rank determination unit 12 ranks information having a high degree of association with other information based on the degree of association between information in the network. Then, the rank determining unit 12 stores the determined rank in the original rank table 27.
Steps S24 to S26 are the same as steps S3 to S5 in the first embodiment shown in FIG.

図16は、第2実施例において順位調整部13で実行される順位調整処理の詳細を示す。当該処理は、収集情報21のそれぞれについて実行する。
ステップS31で、順位調整部13は、原順位テーブル27に格納された、外部知識情報を反映させていない順位(図では[X]を表す)、正解順位テーブル24に格納された、正解知識情報22を反映させた順位(図では[Y]と表す)と、不正解順位テーブル25に格納された、不正解知識情報23を反映させた順位(図では[Z]と表す)を比較する。
FIG. 16 shows details of the order adjustment processing executed by the order adjustment unit 13 in the second embodiment. This process is executed for each of the collection information 21.
In step S31, the rank adjustment unit 13 stores the correct answer knowledge information stored in the correct answer rank table 24, which is stored in the original rank table 27 and does not reflect the external knowledge information (indicated by [X] in the figure). The rank reflecting 22 (represented as [Y] in the figure) and the rank reflecting the incorrect answer knowledge information 23 stored in the incorrect answer rank table 25 (represented as [Z] in the figure) are compared.

ステップS32で、順位調整部13は、正解知識情報22を反映させた順位及び不正解知識情報23を反映させた順位の両方が、外部知識情報を反映させていない順位よりも上位、又は、正解知識情報22を反映させた順位及び不正解知識情報23を反映させた順位の両方が、外部知識情報を反映させていない順位よりも下位であるかを判定する。これらの条件のいずれかに該当すればステップS33に進み(Yes)、該当しなければステップS34に進む(No)。   In step S32, the rank adjusting unit 13 determines that both the rank reflecting the correct knowledge information 22 and the rank reflecting the incorrect knowledge information 23 are higher than the rank not reflecting the external knowledge information, or the correct answer. It is determined whether both the rank reflecting the knowledge information 22 and the rank reflecting the incorrect answer knowledge information 23 are lower than the rank not reflecting the external knowledge information. If any of these conditions is met, the process proceeds to step S33 (Yes), and if not, the process proceeds to step S34 (No).

ステップS33で、順位調整部13は、外部知識情報を反映させていない順位を、調整順位テーブル26に格納する。
当該ステップS33の処理の具体例につき、図17及び図18を参照して説明する。図17において、収集情報Bは、外部知識情報を反映させていない順位が4位である。一方で、正解知識情報22を反映させた順位が2位であり、不正解知識情報23を反映させた順位は1位である。このように、外部知識情報を反映させていない順位よりも、正解知識情報22を反映させた順位及び不正解知識情報23を反映させた順位のほうが共に高い場合、収集情報Bは、外部知識情報全般との間で共通する文字列を多く含む情報であることは推測されるものの、対象分野の情報であるか否かが、処理上明確ではない。このため、外部知識情報を反映させていない順位に対して調整することを避け、外部知識情報を反映させていない順位をそのまま決定順位とする。
In step S <b> 33, the rank adjustment unit 13 stores the rank that does not reflect the external knowledge information in the adjustment rank table 26.
A specific example of the processing in step S33 will be described with reference to FIGS. In FIG. 17, the collected information B is ranked 4th in the order not reflecting external knowledge information. On the other hand, the rank reflecting the correct answer knowledge information 22 is second, and the rank reflecting the incorrect answer knowledge information 23 is first. As described above, when both the rank reflecting the correct knowledge information 22 and the rank reflecting the incorrect answer knowledge information 23 are higher than the rank not reflecting the external knowledge information, the collected information B is the external knowledge information. Although it is presumed that the information includes many character strings that are common to the whole, it is not clear in processing whether the information is in the target field. For this reason, it is avoided to adjust the rank that does not reflect the external knowledge information, and the rank that does not reflect the external knowledge information is used as the determination rank.

同様に、図18において、収集情報Cは、外部知識情報を反映させていない順位が2位である。一方で、正解知識情報22を反映させた順位が3位であり、不正解知識情報23を反映させた順位は4位である。このように、正解知識情報22を反映させていない順位よりも、正解知識情報22を反映させた順位及び不正解知識情報23を反映させた順位のほうが共に低い場合、収集情報Cは、外部知識情報全般との間で共通する文字列が少ない情報であることは推測されるものの、対象分野の情報であるか否かが、処理上明確ではない。このため、外部知識情報を反映させていない順位をそのまま決定順位とする。   Similarly, in FIG. 18, the collection information C is second in the order not reflecting external knowledge information. On the other hand, the rank reflecting the correct answer knowledge information 22 is third, and the rank reflecting the incorrect answer knowledge information 23 is fourth. As described above, when both the rank reflecting the correct answer knowledge information 22 and the rank reflecting the incorrect answer knowledge information 23 are lower than the rank not reflecting the correct answer knowledge information 22, the collected information C is stored in the external knowledge. Although it is presumed that the information has few character strings in common with the information in general, it is not clear in processing whether the information is in the target field. For this reason, the order that does not reflect the external knowledge information is used as the determination order.

ステップS34で、順位調整部13は、不正解知識情報23を反映させた順位が、外部知識情報を反映させていない順位よりも上位であるかを判定する。当該条件に該当すればステップS35に進み(Yes)、該当しなければステップS36に進む(No)。
ステップS35で、順位調整部13は、外部知識情報を反映させていない順位よりも、処理対象の収集情報21の順位が下がるように調整をする。例えば、順位を下げる計算方法の一例として、処理対象の収集情報21の順位が、
[外部知識情報を反映させていない順位]−([不正解知識情報を反映させた順位]−[外部知識情報を反映させていない順位])
となるように調整する。そして、調整した順位を、調整順位テーブル26に格納する。
In step S34, the rank adjustment unit 13 determines whether the rank reflecting the incorrect knowledge information 23 is higher than the rank not reflecting the external knowledge information. If the condition is met, the process proceeds to step S35 (Yes), and if not, the process proceeds to step S36 (No).
In step S <b> 35, the rank adjustment unit 13 performs adjustment so that the rank of the collection information 21 to be processed is lower than the rank that does not reflect the external knowledge information. For example, as an example of a calculation method for lowering the rank, the rank of the collection information 21 to be processed is
[Order for not reflecting external knowledge information]-([Order for reflecting incorrect knowledge information]-[Order for not reflecting external knowledge information])
Adjust so that Then, the adjusted rank is stored in the adjustment rank table 26.

当該ステップS35の処理の具体例につき、図19を参照して説明する。図19において、収集情報Bは、外部知識情報を反映させていない順位が2位である。一方で、当該収集情報Bは、不正解知識情報23を反映させた順位は1位である。このように、外部知識情報を反映させていない順位よりも、不正解知識情報23を反映させた順位のほうが高い場合、収集情報Bは、対象分野以外の情報である可能性が高い。このため、外部知識情報を反映させていない順位に対して、順位を下げるように調整をする。   A specific example of the process of step S35 will be described with reference to FIG. In FIG. 19, the collected information B is ranked second in the order not reflecting external knowledge information. On the other hand, in the collected information B, the ranking reflecting the incorrect answer knowledge information 23 is first. As described above, when the rank in which the incorrect knowledge information 23 is reflected is higher than the rank in which the external knowledge information is not reflected, the collected information B is highly likely to be information other than the target field. For this reason, it adjusts so that a rank may be lowered with respect to a rank that does not reflect external knowledge information.

ステップS36で、順位調整部13は、不正解知識情報23を反映させた順位が、外部知識情報を反映させていない順位よりも下位であるかを判定する。当該条件に該当すればステップS37に進み(Yes)、該当しなければステップS38に進む(No)。   In step S <b> 36, the rank adjustment unit 13 determines whether the rank reflecting the incorrect knowledge information 23 is lower than the rank not reflecting the external knowledge information. If the condition is met, the process proceeds to step S37 (Yes), and if not, the process proceeds to step S38 (No).

ステップS37で、順位調整部13は、外部知識情報を反映させていない順位よりも、処理対象の収集情報21の順位が上がるように調整をする。例えば、順位を上げる計算方法の一例として、処理対象の収集情報21の順位が、
[外部知識情報を反映させていない順位]+([外部知識情報を反映させていない順位]−[不正解知識情報を反映させた順位])
となるように調整する。そして、調整した順位を、調整順位テーブル26に格納する。
In step S <b> 37, the rank adjustment unit 13 performs adjustment so that the rank of the collection information 21 to be processed is higher than the rank that does not reflect the external knowledge information. For example, as an example of a calculation method for raising the rank, the rank of the collection information 21 to be processed is
[Order not reflecting external knowledge information] + ([Order not reflecting external knowledge information]-[Order reflecting incorrect knowledge information])
Adjust so that Then, the adjusted rank is stored in the adjustment rank table 26.

当該ステップS37の処理の具体例につき、図20を参照して説明する。図20において、収集情報Aは、外部知識情報を反映させていない順位が2位である。一方で、当該収集情報Aは、不正解知識情報23を反映させた順位は3位である。このように、外部知識情報を反映させていない順位よりも、不正解知識情報23を反映させた順位のほうが低い場合、収集情報Aは、対象分野の情報である可能性が高い。このため、外部知識情報を反映させていない順位に対して、順位を上げるように調整をする。   A specific example of the processing in step S37 will be described with reference to FIG. In FIG. 20, the collection information A is ranked second in the order not reflecting external knowledge information. On the other hand, in the collected information A, the ranking reflecting the incorrect answer knowledge information 23 is third. As described above, when the order in which the incorrect knowledge information 23 is reflected is lower than the order in which the external knowledge information is not reflected, there is a high possibility that the collected information A is information in the target field. For this reason, it adjusts so that a rank may be raised with respect to the rank which does not reflect external knowledge information.

ステップS38で、順位調整部13は、正解知識情報22を反映させた順位を、調整順位テーブル26に格納する。なお、当該ステップS38を行う場合とは、不正解知識情報23を反映させた順位が、外部知識情報を反映させていない順位と変わらない場合である。   In step S <b> 38, the rank adjustment unit 13 stores the rank reflecting the correct knowledge information 22 in the adjustment rank table 26. The case where step S38 is performed is a case where the order in which the incorrect knowledge information 23 is reflected does not change from the order in which the external knowledge information is not reflected.

なお、上記ステップS35及びステップS37では、外部知識情報を反映させていない順位を、不正解知識情報23を反映させた順位に基づいて調整したが、ステップS38と同様に、正解知識情報22を反映させた順位を、調整順位テーブル26に格納するようにしてもよい。
また、上記処理においては、例えば、まず原順位テーブル27のデータ又は正解順位テーブル24のデータを、そのまま調整順位テーブル26に格納し、調整順位テーブル26に格納された順位を変動させて調整するようにしてもよい。
In step S35 and step S37, the order in which the external knowledge information is not reflected is adjusted based on the order in which the incorrect knowledge information 23 is reflected, but the correct knowledge information 22 is reflected as in step S38. You may make it store the made order | rank in the adjustment order | rank table 26. FIG.
In the above process, for example, the data of the original rank table 27 or the data of the correct answer rank table 24 is first stored in the adjustment rank table 26 as it is, and the rank stored in the adjustment rank table 26 is changed and adjusted. It may be.

<本実施例による効果等>
本実施例によれば、収集情報ごとに、外部知識情報を反映させた結果によって順位を調整することが適切か否かを推測することができる。そして、順位を調整することが適切でない場合に、外部知識情報を加えずに生成したネットワークに基づいた順位を適用することができる。このため、一律で正解知識情報を反映させて順位を調整する場合に比べ、不要な調整を行うことを回避することができる。
<Effects of this embodiment>
According to the present embodiment, for each collection information, it can be estimated whether or not it is appropriate to adjust the rank based on the result of reflecting the external knowledge information. Then, when it is not appropriate to adjust the order, the order based on the network generated without adding external knowledge information can be applied. For this reason, it is possible to avoid making unnecessary adjustments as compared with the case where the order is adjusted by reflecting correct knowledge information uniformly.

[ハードウェア構成等]
前述した情報収集サーバ1として機能するコンピュータのハードウェア構成の一例を図21に示す。本コンピュータは、プロセッサ101、メモリ102、ストレージ103、可搬記憶媒体駆動装置104、入出力装置105及び通信インタフェース106を備える。
プロセッサ101は、制御ユニット、演算ユニット及び命令デコーダ等を含み、実行ユニットが、命令デコーダで解読されたプログラムの命令に従い、制御ユニットより出力される制御信号に応じ、演算ユニットを用いて算術・論理演算を実行する。かかるプロセッサ101は、制御に用いる各種情報が格納される制御レジスタ、既にアクセスしたメモリ2等の内容を一時的に格納可能なキャッシュ、及び、仮想記憶のページテーブルのキャッシュとしての機能を果たすTLBを備える。なお、プロセッサ101は、CPU(Central Processing Unit)コアが複数設けられている構成でもよい。
[Hardware configuration, etc.]
An example of the hardware configuration of the computer functioning as the information collection server 1 described above is shown in FIG. The computer includes a processor 101, a memory 102, a storage 103, a portable storage medium drive device 104, an input / output device 105, and a communication interface 106.
The processor 101 includes a control unit, an arithmetic unit, an instruction decoder, and the like. The execution unit follows the instructions of the program decoded by the instruction decoder, and performs arithmetic / logic using the arithmetic unit according to a control signal output from the control unit. Perform the operation. The processor 101 has a TLB that functions as a control register in which various information used for control is stored, a cache that can temporarily store the contents of the already accessed memory 2 and the like, and a page table cache of virtual memory. Prepare. The processor 101 may have a configuration in which a plurality of CPU (Central Processing Unit) cores are provided.

メモリ102は、例えばRAM(Random Access Memory)等の記憶装置であり、プロセッサ101で実行されるプログラムがロードされるとともに、プロセッサ101の処理に用いるデータが格納されるメインメモリである。また、ストレージ103は、例えばHDD(Hard Disk Drive)やフラッシュメモリ等の記憶装置であり、プログラムや各種データが格納される。可搬記憶媒体駆動装置104は、可搬記憶媒体107に記憶されたデータやプログラムを読み出す装置である。可搬記憶媒体107は、例えば磁気ディスク、光ディスク、光磁気ディスク又はフラッシュメモリ等である。プロセッサ101は、メモリ102やストレージ103と協働しつつ、ストレージ103や可搬記憶媒体107に格納されたプログラムを実行する。なお、プロセッサ101が実行するプログラムや、アクセス対象となるデータは、当該コンピュータと通信可能な他の装置に格納されていてもよい。なお、本実施形態で記載した情報収集サーバ1の記憶手段とは、メモリ102、ストレージ103及び可搬記憶媒体107若しくは当該コンピュータと通信可能な他の装置の少なくともいずれかを示す。   The memory 102 is a storage device such as a RAM (Random Access Memory), for example, and is a main memory in which a program to be executed by the processor 101 is loaded and data used for processing of the processor 101 is stored. The storage 103 is a storage device such as an HDD (Hard Disk Drive) or a flash memory, and stores programs and various data. The portable storage medium driving device 104 is a device that reads data and programs stored in the portable storage medium 107. The portable storage medium 107 is, for example, a magnetic disk, an optical disk, a magneto-optical disk, or a flash memory. The processor 101 executes a program stored in the storage 103 or the portable storage medium 107 while cooperating with the memory 102 or the storage 103. Note that the program executed by the processor 101 and data to be accessed may be stored in another device that can communicate with the computer. Note that the storage means of the information collection server 1 described in the present embodiment indicates at least one of the memory 102, the storage 103, the portable storage medium 107, or another device that can communicate with the computer.

入出力装置105は例えばキーボードやタッチパネル、ディスプレイ等であり、ユーザ操作等による動作命令を受け付ける一方、コンピュータによる処理結果を出力する。
通信インタフェース106は、例えば、例えばLAN(Local Area Network)カード等の他、無線周波受信機および送信機、ならびに光受信機および送信機を含むことができる。前述の受信機および送信機は、Wi−Fiネットワーク、ブルートゥース・ネットワーク、ロング・ターム・エボリューションなどの1つまたは複数の通信ネットワークにより動作するように実現することができる。
これらのコンピュータの各構成要素は、バス108で接続されている。
The input / output device 105 is, for example, a keyboard, a touch panel, a display, or the like, and receives an operation command by a user operation or the like, and outputs a processing result by a computer.
The communication interface 106 can include, for example, a radio frequency receiver and transmitter, and an optical receiver and transmitter in addition to a LAN (Local Area Network) card, for example. The aforementioned receivers and transmitters can be implemented to operate with one or more communication networks, such as a Wi-Fi network, a Bluetooth network, and long term evolution.
Each component of these computers is connected by a bus 108.

[その他]
なお、本明細書で説明したコンピュータの機能的構成及び物理的構成は、上述の態様に限るものではなく、例えば、各機能や物理資源を統合して実装したり、逆に、さらに分散して実装したりすることも可能である。
また、本明細書において、閾値等との比較において「〜以上」や「〜以下」とした記載箇所は、特記した場合を除き当該記載に限定されるものではなく、「〜より大きい(〜を上回る)」や「〜より小さい(〜を下回る)」に適宜置き換えることが可能である。逆も同様である。
[Others]
Note that the functional configuration and physical configuration of the computer described in this specification are not limited to the above-described aspects. For example, the functions and physical resources are integrated and implemented, or conversely, are further distributed. It is also possible to implement.
In addition, in this specification, the description places “to be more than” and “to be less than” in comparison with the threshold value and the like are not limited to the description except for special cases, It can be appropriately replaced with “less than” or “less than (less than)”. The reverse is also true.

以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
所定の対象分野に属する意味を含む複数の対象文字列のうち、少なくとも1つの対象文字列をそれぞれ含む複数の収集情報、並びに、前記対象文字列の前記対象分野における意味の説明を含む外部知識情報である正解知識情報、及び、前記対象文字列の前記対象分野以外における意味の説明を含む外部知識情報である不正解知識情報を取得し、
前記複数の収集情報及び前記正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第1の順位を決定し、
前記複数の収集情報及び前記不正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第2の順位を決定し、
前記第1の順位及び前記第2の順位の差異に基づいて、前記第1の順位の調整を行い、前記複数の収集情報のそれぞれの最終順位を決定する
処理をコンピュータに実行させる情報収集プログラム。
Regarding the above embodiment, the following additional notes are disclosed.
(Appendix 1)
Out of a plurality of target character strings including meanings belonging to a predetermined target field, a plurality of collected information each including at least one target character string, and external knowledge information including a description of the meaning of the target character string in the target field Correct knowledge information that is, and incorrect knowledge information that is external knowledge information including a description of the meaning of the target character string outside the target field,
In accordance with the degree of relevance between the plurality of collection information and the correct answer knowledge information, the first ranking of each of the plurality of collection information is determined,
In accordance with the degree of relevance between the plurality of collected information and the incorrect knowledge information, a second order of each of the plurality of collected information is determined,
An information collection program that adjusts the first rank based on the difference between the first rank and the second rank, and causes a computer to execute a process of determining the final rank of each of the plurality of pieces of collected information.

(付記2)
前記最終順位を決定する処理は、前記収集情報の前記第1の順位のほうが前記第2の順位よりも下位である場合に、当該収集情報の順位を、前記第1の順位よりもさらに下位にするように調整を行う、付記1記載の情報収集プログラム。
(Appendix 2)
In the process of determining the final rank, when the first rank of the collected information is lower than the second rank, the rank of the collected information is further lowered than the first rank. The information collection program according to appendix 1, wherein adjustment is performed so that

(付記3)
前記複数の収集情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第3の順位を決定する処理をさらに含み、
前記最終順位を決定する処理は、前記第1の順位及び前記第2の順位の両方が、前記第3の順位よりも上位である場合、又は、前記第1の順位及び前記第2の順位の両方が、前記第3の順位よりも下位である場合には、前記第3の順位を最終順位とする、付記1又は2に記載の情報収集プログラム。
(Appendix 3)
Further including a process of determining a third rank of each of the plurality of pieces of collection information in accordance with a degree of mutual relevance in the plurality of pieces of collection information;
The process of determining the final rank is performed when both the first rank and the second rank are higher than the third rank, or the first rank and the second rank The information collection program according to attachment 1 or 2, wherein when both are lower than the third rank, the third rank is the final rank.

(付記4)
前記取得する処理は、前記対象文字列のそれぞれについて複数の前記外部知識情報が存在するときに、当該複数の外部知識情報のうち、当該複数の外部知識情報に含まれる他の外部知識情報との関連度が最も高い外部知識情報を、前記正解知識情報として取得し、当該正解知識情報以外の外部知識情報を、前記不正解知識情報として取得する、付記1〜3のいずれか1項に記載の情報収集プログラム。
(Appendix 4)
When the plurality of pieces of external knowledge information exist for each of the target character strings, the acquiring process is performed with other external knowledge information included in the plurality of external knowledge information. The external knowledge information having the highest degree of relevance is acquired as the correct answer knowledge information, and external knowledge information other than the correct answer knowledge information is acquired as the incorrect answer knowledge information. Information gathering program.

(付記5)
所定の対象分野に属する意味を含む複数の対象文字列のうち、少なくとも1つの対象文字列をそれぞれ含む複数の収集情報、並びに、前記対象文字列の前記対象分野における意味の説明を含む外部知識情報である正解知識情報、及び、前記対象文字列の前記対象分野以外における意味の説明を含む外部知識情報である不正解知識情報を取得し、
前記複数の収集情報及び前記正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第1の順位を決定し、
前記複数の収集情報及び前記不正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第2の順位を決定し、
前記第1の順位及び前記第2の順位の差異に基づいて、前記第1の順位の調整を行い、前記複数の収集情報のそれぞれの最終順位を決定する
処理をコンピュータが実行する情報収集方法。
(Appendix 5)
Out of a plurality of target character strings including meanings belonging to a predetermined target field, a plurality of collected information each including at least one target character string, and external knowledge information including a description of the meaning of the target character string in the target field Correct knowledge information that is, and incorrect knowledge information that is external knowledge information including a description of the meaning of the target character string outside the target field,
In accordance with the degree of relevance between the plurality of collection information and the correct answer knowledge information, the first ranking of each of the plurality of collection information is determined,
In accordance with the degree of relevance between the plurality of collected information and the incorrect knowledge information, a second order of each of the plurality of collected information is determined,
An information collection method in which a computer executes a process of adjusting the first rank based on a difference between the first rank and the second rank and determining a final rank of each of the plurality of pieces of collected information.

(付記6)
所定の対象分野に属する意味を含む複数の対象文字列のうち、少なくとも1つの対象文字列をそれぞれ含む複数の収集情報、並びに、前記対象文字列の前記対象分野における意味の説明を含む外部知識情報である正解知識情報、及び、前記対象文字列の前記対象分野以外における意味の説明を含む外部知識情報である不正解知識情報を取得する情報取得部と、
前記複数の収集情報及び前記正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第1の順位を決定し、前記複数の収集情報及び前記不正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第2の順位を決定する順位決定部と、
前記第1の順位及び前記第2の順位の差異に基づいて、前記第1の順位の調整を行い、前記複数の収集情報のそれぞれの最終順位を決定する順位調整部と
を備える情報収集装置。
(Appendix 6)
Out of a plurality of target character strings including meanings belonging to a predetermined target field, a plurality of collected information each including at least one target character string, and external knowledge information including a description of the meaning of the target character string in the target field Correct acquisition knowledge information, and an information acquisition unit for acquiring incorrect knowledge information that is external knowledge information including explanation of the meaning of the target character string outside the target field;
According to the degree of relevance between the plurality of collection information and the correct knowledge information, a first rank of each of the plurality of collection information is determined, and the plurality of collection information and the incorrect answer knowledge information A rank determining unit that determines a second rank of each of the plurality of pieces of collection information in accordance with a degree of mutual relevance;
An information collection apparatus comprising: a rank adjustment unit that adjusts the first rank based on a difference between the first rank and the second rank and determines a final rank of each of the plurality of collection information.

1…情報収集サーバ、2…情報提供サーバ、3…外部知識情報提供サーバ、11…情報収集部、12…順位決定部、13…順位調整部、21…収集情報、22…正解知識情報、23…不正解知識情報、24…正解順位テーブル、25…不正解順位テーブル、26…調整順位テーブル、27…原順位テーブル DESCRIPTION OF SYMBOLS 1 ... Information collection server, 2 ... Information provision server, 3 ... External knowledge information provision server, 11 ... Information collection part, 12 ... Order determination part, 13 ... Order adjustment part, 21 ... Collection information, 22 ... Correct knowledge information, 23 ... incorrect answer knowledge information, 24 ... correct answer rank table, 25 ... incorrect answer rank table, 26 ... adjustment rank table, 27 ... original rank table

Claims (6)

所定の対象分野に属する意味を含む複数の対象文字列のうち、少なくとも1つの対象文字列をそれぞれ含む複数の収集情報、並びに、前記対象文字列の前記対象分野における意味の説明を含む外部知識情報である正解知識情報、及び、前記対象文字列の前記対象分野以外における意味の説明を含む外部知識情報である不正解知識情報を取得し、
前記複数の収集情報及び前記正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第1の順位を決定し、
前記複数の収集情報及び前記不正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第2の順位を決定し、
前記第1の順位及び前記第2の順位の差異に基づいて、前記第1の順位の調整を行い、前記複数の収集情報のそれぞれの最終順位を決定する
処理をコンピュータに実行させる情報収集プログラム。
Out of a plurality of target character strings including meanings belonging to a predetermined target field, a plurality of collected information each including at least one target character string, and external knowledge information including a description of the meaning of the target character string in the target field Correct knowledge information that is, and incorrect knowledge information that is external knowledge information including a description of the meaning of the target character string outside the target field,
In accordance with the degree of relevance between the plurality of collection information and the correct answer knowledge information, the first ranking of each of the plurality of collection information is determined,
In accordance with the degree of relevance between the plurality of collected information and the incorrect knowledge information, a second order of each of the plurality of collected information is determined,
An information collection program that adjusts the first rank based on the difference between the first rank and the second rank, and causes a computer to execute a process of determining the final rank of each of the plurality of pieces of collected information.
前記最終順位を決定する処理は、前記収集情報の前記第1の順位のほうが前記第2の順位よりも下位である場合に、当該収集情報の順位を、前記第1の順位よりもさらに下位にするように調整を行う、請求項1記載の情報収集プログラム。   In the process of determining the final rank, when the first rank of the collected information is lower than the second rank, the rank of the collected information is further lowered than the first rank. The information collection program according to claim 1, wherein adjustment is performed so as to perform. 前記複数の収集情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第3の順位を決定する処理をさらに含み、
前記最終順位を決定する処理は、前記第1の順位及び前記第2の順位の両方が、前記第3の順位よりも上位である場合、又は、前記第1の順位及び前記第2の順位の両方が、前記第3の順位よりも下位である場合には、前記第3の順位を最終順位とする、請求項1又は2に記載の情報収集プログラム。
Further including a process of determining a third rank of each of the plurality of pieces of collection information in accordance with a degree of mutual relevance in the plurality of pieces of collection information;
The process of determining the final rank is performed when both the first rank and the second rank are higher than the third rank, or the first rank and the second rank The information collection program according to claim 1 or 2, wherein when both are lower than the third rank, the third rank is the final rank.
前記取得する処理は、前記対象文字列のそれぞれについて複数の前記外部知識情報が存在するときに、当該複数の外部知識情報のうち、当該複数の外部知識情報に含まれる他の外部知識情報との関連度が最も高い外部知識情報を、前記正解知識情報として取得し、当該正解知識情報以外の外部知識情報を、前記不正解知識情報として取得する、請求項1〜3のいずれか1項に記載の情報収集プログラム。   When the plurality of pieces of external knowledge information exist for each of the target character strings, the acquiring process is performed with other external knowledge information included in the plurality of external knowledge information. The external knowledge information having the highest degree of relevance is acquired as the correct answer knowledge information, and external knowledge information other than the correct answer knowledge information is acquired as the incorrect answer knowledge information. Information gathering program. 所定の対象分野に属する意味を含む複数の対象文字列のうち、少なくとも1つの対象文字列をそれぞれ含む複数の収集情報、並びに、前記対象文字列の前記対象分野における意味の説明を含む外部知識情報である正解知識情報、及び、前記対象文字列の前記対象分野以外における意味の説明を含む外部知識情報である不正解知識情報を取得し、
前記複数の収集情報及び前記正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第1の順位を決定し、
前記複数の収集情報及び前記不正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第2の順位を決定し、
前記第1の順位及び前記第2の順位の差異に基づいて、前記第1の順位の調整を行い、前記複数の収集情報のそれぞれの最終順位を決定する
処理をコンピュータが実行する情報収集方法。
Out of a plurality of target character strings including meanings belonging to a predetermined target field, a plurality of collected information each including at least one target character string, and external knowledge information including a description of the meaning of the target character string in the target field Correct knowledge information that is, and incorrect knowledge information that is external knowledge information including a description of the meaning of the target character string outside the target field,
In accordance with the degree of relevance between the plurality of collection information and the correct answer knowledge information, the first ranking of each of the plurality of collection information is determined,
In accordance with the degree of relevance between the plurality of collected information and the incorrect knowledge information, a second order of each of the plurality of collected information is determined,
An information collection method in which a computer executes a process of adjusting the first rank based on a difference between the first rank and the second rank and determining a final rank of each of the plurality of pieces of collected information.
所定の対象分野に属する意味を含む複数の対象文字列のうち、少なくとも1つの対象文字列をそれぞれ含む複数の収集情報、並びに、前記対象文字列の前記対象分野における意味の説明を含む外部知識情報である正解知識情報、及び、前記対象文字列の前記対象分野以外における意味の説明を含む外部知識情報である不正解知識情報を取得する情報取得部と、
前記複数の収集情報及び前記正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第1の順位を決定し、前記複数の収集情報及び前記不正解知識情報における相互の関連度の高さに応じて、前記複数の収集情報のそれぞれの第2の順位を決定する順位決定部と、
前記第1の順位及び前記第2の順位の差異に基づいて、前記第1の順位の調整を行い、前記複数の収集情報のそれぞれの最終順位を決定する順位調整部と
を備える情報収集装置。
Out of a plurality of target character strings including meanings belonging to a predetermined target field, a plurality of collected information each including at least one target character string, and external knowledge information including a description of the meaning of the target character string in the target field Correct acquisition knowledge information, and an information acquisition unit for acquiring incorrect knowledge information that is external knowledge information including explanation of the meaning of the target character string outside the target field;
According to the degree of relevance between the plurality of collection information and the correct knowledge information, a first rank of each of the plurality of collection information is determined, and the plurality of collection information and the incorrect answer knowledge information A rank determining unit that determines a second rank of each of the plurality of pieces of collection information in accordance with a degree of mutual relevance;
An information collection apparatus comprising: a rank adjustment unit that adjusts the first rank based on a difference between the first rank and the second rank and determines a final rank of each of the plurality of collection information.
JP2013272309A 2013-12-27 2013-12-27 Information collection program, information collection method, and information collection apparatus Expired - Fee Related JP6176107B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013272309A JP6176107B2 (en) 2013-12-27 2013-12-27 Information collection program, information collection method, and information collection apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013272309A JP6176107B2 (en) 2013-12-27 2013-12-27 Information collection program, information collection method, and information collection apparatus

Publications (2)

Publication Number Publication Date
JP2015125764A true JP2015125764A (en) 2015-07-06
JP6176107B2 JP6176107B2 (en) 2017-08-09

Family

ID=53536380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013272309A Expired - Fee Related JP6176107B2 (en) 2013-12-27 2013-12-27 Information collection program, information collection method, and information collection apparatus

Country Status (1)

Country Link
JP (1) JP6176107B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7074090B2 (en) 2019-01-30 2022-05-24 日本電信電話株式会社 Depth super-resolution device, depth super-resolution method, and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148764A (en) * 1998-11-05 2000-05-30 Fujitsu Ltd Device and method for retrieval question expansion using clustering and program recording medium for retrieval question expanding process
JP2001034307A (en) * 1999-07-22 2001-02-09 Mitsubishi Electric Corp Plant management system
US20090006388A1 (en) * 2007-06-28 2009-01-01 Taptu Ltd. Search result ranking
JP2009122940A (en) * 2007-11-14 2009-06-04 Nec Corp Document relevance calculation system, document relevance calculation method and document relevance calculation program
JP2009157458A (en) * 2007-12-25 2009-07-16 Nippon Telegr & Teleph Corp <Ntt> Index creation device, its method, program, and recording medium
JP2011086043A (en) * 2009-10-14 2011-04-28 Kddi Corp Word theme degree of association calculation device, program for word theme degree of association calculation, and information retrieval device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148764A (en) * 1998-11-05 2000-05-30 Fujitsu Ltd Device and method for retrieval question expansion using clustering and program recording medium for retrieval question expanding process
JP2001034307A (en) * 1999-07-22 2001-02-09 Mitsubishi Electric Corp Plant management system
US20090006388A1 (en) * 2007-06-28 2009-01-01 Taptu Ltd. Search result ranking
JP2009122940A (en) * 2007-11-14 2009-06-04 Nec Corp Document relevance calculation system, document relevance calculation method and document relevance calculation program
JP2009157458A (en) * 2007-12-25 2009-07-16 Nippon Telegr & Teleph Corp <Ntt> Index creation device, its method, program, and recording medium
JP2011086043A (en) * 2009-10-14 2011-04-28 Kddi Corp Word theme degree of association calculation device, program for word theme degree of association calculation, and information retrieval device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
南 俊朗,他: ""関連度を用いたWeb文書のナビゲーション"", 情報処理学会研究報告, vol. 第98巻,第15号, JPN6017020954, 26 February 1998 (1998-02-26), pages 7 - 12, ISSN: 0003574521 *

Also Published As

Publication number Publication date
JP6176107B2 (en) 2017-08-09

Similar Documents

Publication Publication Date Title
JP6266080B2 (en) Method and system for evaluating matching between content item and image based on similarity score
US11580168B2 (en) Method and system for providing context based query suggestions
CN110362727B (en) Third party search application for search system
US8326861B1 (en) Personalized term importance evaluation in queries
US9418128B2 (en) Linking documents with entities, actions and applications
US20170255652A1 (en) Method for dynamically matching images with content items based on keywords in response to search queries
US9299098B2 (en) Systems for generating a global product taxonomy
BR122013013420B1 (en) related word registration device and method
CN107690637B (en) Connecting semantically related data using large-table corpus
US10146775B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US20150294018A1 (en) Method and apparatus for recommending keywords
US9990442B2 (en) Method for determining relevant search results
JP2015506515A (en) Method, apparatus and computer storage medium for automatically adding tags to a document
KR20180126577A (en) Explore related entities
US10146880B2 (en) Determining a filtering parameter for values displayed in an application card based on a user history
WO2016202214A2 (en) Method and device for displaying keyword
US20170169027A1 (en) Determining a Display Order for Values in a Multi-Value Field of an Application Card
CN113711204A (en) Enhanced method for proximity information retrieval of medical knowledge question-answering system
WO2021135290A1 (en) Information visualization method, apparatus and device based on knowledge graph, and storage medium
JP2017220204A (en) Method and system for matching images with content using whitelists and blacklists in response to search query
JP2022137281A (en) Data query method, device, electronic device, storage medium, and program
US10353976B2 (en) Generating search results using a set of alternate search queries
JP6176107B2 (en) Information collection program, information collection method, and information collection apparatus
US10496711B2 (en) Method of and system for processing a prefix associated with a search query
US20160147902A1 (en) Data provision device, data provision method, and data provision program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160905

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170626

R150 Certificate of patent or registration of utility model

Ref document number: 6176107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees