JP2011059748A - Keyword type determination apparatus, keyword type determination method and keyword type determination program - Google Patents

Keyword type determination apparatus, keyword type determination method and keyword type determination program Download PDF

Info

Publication number
JP2011059748A
JP2011059748A JP2009205418A JP2009205418A JP2011059748A JP 2011059748 A JP2011059748 A JP 2011059748A JP 2009205418 A JP2009205418 A JP 2009205418A JP 2009205418 A JP2009205418 A JP 2009205418A JP 2011059748 A JP2011059748 A JP 2011059748A
Authority
JP
Japan
Prior art keywords
keyword type
document
keyword
field
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009205418A
Other languages
Japanese (ja)
Other versions
JP5199968B2 (en
Inventor
Nobuaki Hiroshima
伸章 廣嶋
Hiroyuki Toda
浩之 戸田
Yumiko Matsuura
由美子 松浦
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009205418A priority Critical patent/JP5199968B2/en
Publication of JP2011059748A publication Critical patent/JP2011059748A/en
Application granted granted Critical
Publication of JP5199968B2 publication Critical patent/JP5199968B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a keyword type determination apparatus capable of determining the type of a keyword, even with respect to an arbitrarily defined keyword type. <P>SOLUTION: The keyword determination apparatus includes first to third document acquisition parts 1 to 3 that acquire documents related to a keyword from among previously prepared first to third document sets 9 to 11; first to third keyword type score calculating parts 4 to 6, that calculate the keyword type scores representing the degree of each keyword type likeliness using information in the documents acquired by the document acquisition parts 1 to 3; an integrated keyword type score calculating part 7 that calculates an integrated keyword type score, based on the keyword type score obtained by one or multiple keyword type score calculating parts; and a keyword type determination part 8 that determines upper N keyword types (N is an integer of one or more) having higher calculated integrated keyword type scores as the keyword types for the keyword. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、キーワードに対してそのキーワードのタイプを判定する技術に関する。   The present invention relates to a technique for determining a keyword type for a keyword.

現在、キーワードが入力されるとそのキーワードに関する情報を検索するシステムが数多く存在する。その種類は多岐にわたり、扱う情報によってニュース検索、画像検索、商品検索など様々な種類の専門検索システムが存在する。しかし、キーワードの種類によって専門検索システムを切り替えて利用することは利用者にとって煩わしい操作であり、単一の検索システムが、入力されたキーワードのタイプに応じて適切な専門検索を行って結果を出力することが望ましい。そのためには、入力されたキーワードに対しそのキーワードのタイプを判定する必要がある。   Currently, there are many systems that retrieve information about a keyword when the keyword is entered. There are various types, and there are various types of specialized search systems such as news search, image search, and product search depending on the information handled. However, switching the specialized search system depending on the type of keyword is a cumbersome operation for the user, and a single search system performs an appropriate specialized search according to the type of keyword entered and outputs the result. It is desirable to do. For this purpose, it is necessary to determine the type of the keyword for the input keyword.

キーワードからそのキーワードのタイプを判定する方法として、非特許文献1では、あらかじめ文書中のエンティティに対してタイプを付与して文書とともに格納しておき、キーワードが入力されるとそのキーワードを含む文書に付与されたエンティティの集合を取得して順位をつけ、その集合に含まれるエンティティのタイプと順位をもとにキーワードのタイプを判定している。   As a method for determining a keyword type from a keyword, Non-Patent Document 1 assigns a type to an entity in a document in advance and stores it together with the document. A set of assigned entities is acquired and ranked, and a keyword type is determined based on the types and ranks of entities included in the set.

David Vallet and Hugo Zaragoza,“Inferring the Most Important Types of a Query: a Semantic Approach”,Proceeding of 31st annual international ACM SIGIR conference on Research and development in information retrieval,2008,pp.857−858David Vallet and Hugo Zaragoza, "Inferring the Most Important Types of a Query: a Semantic Approach", Proceeding of 31st annual international ACM SIGIR conference on Research and development in information retrieval, 2008, pp. 857-858

しかしながら、従来の方法では、キーワードのタイプを任意に定めることができないという問題があった。非特許文献1では、エンティティのタイプがそのままキーワードのタイプとなるが、エンティティのタイプは固有表現抽出手法を用いてエンティティに付与されるものであるため、「人名」などの固有表現抽出で付与できるタイプはキーワードのタイプとして利用できるが、「芸能人」などの固有表現抽出手法では抽出できないタイプはキーワードのタイプとして利用できない。   However, the conventional method has a problem that the keyword type cannot be arbitrarily determined. In Non-Patent Document 1, the entity type is directly used as the keyword type. However, since the entity type is assigned to the entity using a specific expression extraction method, it can be assigned by extracting a specific expression such as “person name”. The type can be used as a keyword type, but a type that cannot be extracted by a specific expression extraction method such as “celebrity” cannot be used as a keyword type.

本発明は上記の問題点に鑑みてなされたものであって、キーワードに関連する文書を取得し、文書中の情報を用いてキーワードタイプを判定することによって、任意に定めたキーワードタイプに対してもキーワードのタイプを判定することを可能としたキーワードタイプ判定装置、方法、プログラムを提供することを目的とする。   The present invention has been made in view of the above-described problems, and obtains a document related to a keyword, and determines a keyword type using information in the document, thereby arbitrarily determining a keyword type. It is another object of the present invention to provide a keyword type determination apparatus, method, and program capable of determining a keyword type.

上記課題を解決するために本発明では、キーワードに対してそのキーワードのタイプを判定するキーワードタイプ判定装置において、あらかじめ用意した文書群の中からキーワードに関連する文書を取得する文書取得手段と、文書中の情報を利用して各キーワードタイプらしさの度合いを表すキーワードタイプスコアを算出するキーワードタイプスコア算出手段と、単一または複数のキーワードタイプスコア算出手段で得られたキーワードタイプスコアに基づいて総合キーワードタイプスコアを算出する総合キーワードタイプスコア算出手段と、総合キーワードタイプスコアの高い上位N件(Nは1以上の整数)のキーワードタイプをキーワードに対するキーワードタイプと判定するキーワードタイプ判定手段と、を備た。   In order to solve the above problems, in the present invention, in a keyword type determination device that determines a keyword type for a keyword, a document acquisition unit that acquires a document related to the keyword from a document group prepared in advance, and a document Based on the keyword type score obtained by the keyword type score calculation means for calculating the keyword type score that represents the degree of uniqueness of each keyword type using the information in the information, and the single or plural keyword type score calculation means Comprehensive keyword type score calculating means for calculating a type score, and keyword type determining means for determining the top N keyword types (N is an integer of 1 or more) having the highest overall keyword type score as the keyword type for the keyword. .

本発明によれば、キーワードに関連する文書を取得し、文書中の情報を用いてキーワードタイプを判定するため、任意に定めたキーワードタイプに対してもキーワードのタイプを判定することができる。   According to the present invention, since a document related to a keyword is acquired and the keyword type is determined using information in the document, the keyword type can be determined even for an arbitrarily defined keyword type.

本発明の実施例におけるキーワードタイプ判定装置100の構成図である。It is a block diagram of the keyword type determination apparatus 100 in the Example of this invention. 本発明の実施例におけるキーワードタイプ判定装置100の前処理の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of the pre-processing of the keyword type determination apparatus 100 in the Example of this invention. 本発明の実施例におけるキーワードタイプ判定装置100のキーワードタイプ判定の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of keyword type determination of the keyword type determination apparatus 100 in the Example of this invention. 本発明の実施例におけるキーワードタイプとそれに対する関連語の組の例を示す説明図である。It is explanatory drawing which shows the example of the group of the keyword type and the related word with respect to it in the Example of this invention. 本発明の実施例における概念ベースの例を示す説明図である。It is explanatory drawing which shows the example of the concept base in the Example of this invention. 本発明の実施例におけるキーワードタイプ分野データベースの例を示す説明図である。It is explanatory drawing which shows the example of the keyword type field database in the Example of this invention. 本発明の実施例における第1文書取得部により取得した文書の例を示す説明図である。It is explanatory drawing which shows the example of the document acquired by the 1st document acquisition part in the Example of this invention. 本発明の実施例における第1キーワードタイプスコア算出部により算出した文書分野ベクトルの例を示す説明図である。It is explanatory drawing which shows the example of the document field vector calculated by the 1st keyword type score calculation part in the Example of this invention. 本発明の実施例における第1キーワードタイプスコア算出部により算出したキーワードタイプスコアの例を示す説明図である。It is explanatory drawing which shows the example of the keyword type score calculated by the 1st keyword type score calculation part in the Example of this invention. 本発明の実施例におけるクリックログに対して文書の選択回数を集計した例を示す説明図である。It is explanatory drawing which shows the example which totaled the selection frequency of the document with respect to the click log in the Example of this invention. 本発明の実施例における第2文書取得部により取得した文書の例を示す説明図である。It is explanatory drawing which shows the example of the document acquired by the 2nd document acquisition part in the Example of this invention. 本発明の実施例における第2キーワードタイプスコア算出部により算出したキーワードタイプスコアの例を示す説明図である。It is explanatory drawing which shows the example of the keyword type score calculated by the 2nd keyword type score calculation part in the Example of this invention. 本発明の実施例における第3文書取得部により取得した文書の例を示す説明図である。It is explanatory drawing which shows the example of the document acquired by the 3rd document acquisition part in the Example of this invention. 本発明の実施例におけるキーワードタイプカテゴリデータベースの例を示す説明図である。It is explanatory drawing which shows the example of the keyword type category database in the Example of this invention. 本発明の実施例におけるシソーラスの例を示す説明図である。It is explanatory drawing which shows the example of the thesaurus in the Example of this invention. 本発明の実施例における第3キーワードタイプスコア算出部により算出したキーワードタイプスコアの例を示す説明図である。It is explanatory drawing which shows the example of the keyword type score calculated by the 3rd keyword type score calculation part in the Example of this invention. 本発明の実施例における総合キーワードタイプスコア算出部により算出した総合キーワードタイプスコアの例を示す説明図である。It is explanatory drawing which shows the example of the comprehensive keyword type score calculated by the comprehensive keyword type score calculation part in the Example of this invention.

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments.

図1は、本発明の請求項8に対応した実施例におけるキーワードタイプ判定装置100の構成を示している。   FIG. 1 shows the configuration of a keyword type determination apparatus 100 in an embodiment corresponding to claim 8 of the present invention.

図1において、キーワードタイプ判定装置100は、第1文書取得部1と、第2文書取得部2と、第3文書取得部3と、第1キーワードタイプスコア算出部4と、第2キーワードタイプスコア算出部5と、第3キーワードタイプスコア算出部6と、総合キーワードタイプスコア算出部7と、キーワードタイプ判定部8と、第1文書集合データベースに格納された第1文書集合9と、第2文書集合データベースに格納された第2文書集合10と、第3文書集合データベースに格納された第3文書集合11と、概念ベース12と、キーワードタイプ分野データベース13と、クリックログデータベースに格納されたクリックログ14と、キーワードタイプカテゴリデータベース15と、前記キーワードタイプ分野データベース13を構築するための図示省略のキーワードタイプ分野データベース構築手段とを有する。   In FIG. 1, the keyword type determination apparatus 100 includes a first document acquisition unit 1, a second document acquisition unit 2, a third document acquisition unit 3, a first keyword type score calculation unit 4, and a second keyword type score. A calculation unit 5, a third keyword type score calculation unit 6, an overall keyword type score calculation unit 7, a keyword type determination unit 8, a first document set 9 stored in the first document set database, and a second document The second document set 10 stored in the set database, the third document set 11 stored in the third document set database, the concept base 12, the keyword type field database 13, and the click log stored in the click log database 14, the keyword type category database 15, and the keyword type field database 13 And a keyword type field database constructing unit (not shown).

尚、前記第1〜第3文書取得部1〜3、第1〜第3キーワードタイプスコア算出部4〜6、総合キーワードタイプスコア算出部7、キーワードタイプ判定部8および図示省略のキーワードタイプ分野データベース構築手段の、後述する各機能は例えばコンピュータによって達成される。   The first to third document acquisition units 1 to 3, the first to third keyword type score calculation units 4 to 6, the total keyword type score calculation unit 7, the keyword type determination unit 8, and the keyword type field database (not shown). Each function to be described later of the construction means is achieved by, for example, a computer.

第1文書取得部1は、本発明の第1の文書取得手段を構成するものであり、第1文書集合9の中からキーワードに関連する文書を取得する。   The first document acquisition unit 1 constitutes a first document acquisition unit of the present invention, and acquires a document related to a keyword from the first document set 9.

第2文書取得部2は、本発明の第2の文書取得手段を構成するものであり、クリックログ14を参照して、第2文書集合10の中から、キーワードタイプ判定装置100とは別のある検索システムでの利用者が検索結果として選択した文書をキーワードに関連する文書として取得する。   The second document acquisition unit 2 constitutes a second document acquisition unit of the present invention. The second document acquisition unit 2 refers to the click log 14 and is different from the keyword type determination device 100 from the second document set 10. A document selected as a search result by a user in a search system is acquired as a document related to a keyword.

第3文書取得部3は、本発明の第3の文書取得手段を構成するものであり、文書に対してカテゴリが付与された第3文書集合11の中からキーワードに関連する文書を取得する。   The third document acquisition unit 3 constitutes a third document acquisition unit of the present invention, and acquires a document related to a keyword from the third document set 11 in which a category is assigned to the document.

第1キーワードタイプスコア算出部4は、本発明の第1のキーワードタイプスコア算出手段を構成するものであり、第1文書取得部1で取得した文書のテキストの一部または全部を利用して、概念ベース12を参照してテキストの分野を表す文書分野ベクトルを算出し、キーワードタイプ分野データベース13を参照して、前記算出された文書分野ベクトルとキーワードタイプ分野データベース13内に予め格納されている各キーワードタイプ分野ベクトルとの関連度を算出し、関連度をキーワードタイプスコアとする。   The first keyword type score calculation unit 4 constitutes the first keyword type score calculation means of the present invention, and uses a part or all of the text of the document acquired by the first document acquisition unit 1, A document field vector representing a field of text is calculated with reference to the concept base 12, and each of the calculated document field vector and each of the keyword type field database 13 stored in advance with reference to the keyword type field database 13. The degree of association with the keyword type field vector is calculated, and the degree of association is used as the keyword type score.

第2キーワードタイプスコア算出部5は、本発明の第2のキーワードタイプスコア算出手段を構成するものであり、第2文書取得部2で取得した文書のテキストの一部または全部を利用して、概念ベース12を参照してテキストの分野を表す文書分野ベクトルを算出し、キーワードタイプ分野データベース13を参照して、前記算出された文書分野ベクトルとキーワードタイプ分野データベース13内に予め格納されている各キーワードタイプ分野ベクトルとの関連度を算出し、関連度をキーワードタイプスコアとする。   The second keyword type score calculation unit 5 constitutes a second keyword type score calculation unit of the present invention, and uses a part or all of the text of the document acquired by the second document acquisition unit 2, A document field vector representing a field of text is calculated with reference to the concept base 12, and each of the calculated document field vector and each of the keyword type field database 13 stored in advance with reference to the keyword type field database 13. The degree of association with the keyword type field vector is calculated, and the degree of association is used as the keyword type score.

第3キーワードタイプスコア算出部6は、本発明の第3のキーワードタイプスコア算出手段を構成するものであり、第3文書取得部3で取得した文書のカテゴリを利用して、キーワードタイプカテゴリデータベース15を参照して、文書のカテゴリとキーワードタイプカテゴリとの階層的な距離(カテゴリの階層構造を利用して求めることができるカテゴリ間の関連性を表す値)に応じて関連度を算出し、関連度をキーワードタイプスコアとする。   The third keyword type score calculation unit 6 constitutes a third keyword type score calculation unit of the present invention, and uses the document category acquired by the third document acquisition unit 3 to generate the keyword type category database 15. To calculate the degree of relevance according to the hierarchical distance between the document category and the keyword type category (a value representing the relationship between categories that can be obtained using the category hierarchy). Degree is the keyword type score.

総合キーワードタイプスコア算出部7は、本発明の総合キーワードタイプスコア算出手段を構成するものであり、前記第1〜第3キーワードタイプスコア算出部4〜6で得られたキーワードタイプスコアに基づいて総合キーワードタイプスコアを算出する。   The total keyword type score calculation unit 7 constitutes a total keyword type score calculation unit of the present invention, and is based on the keyword type score obtained by the first to third keyword type score calculation units 4 to 6. Calculate the keyword type score.

キーワードタイプ判定部8は、本発明のキーワードタイプ判定手段を構成するものであり、前記総合キーワードタイプスコア算出部7で算出された総合キーワードタイプスコアの高い上位N件のキーワードタイプをキーワードに対するキーワードタイプと判定する。   The keyword type determination unit 8 constitutes the keyword type determination unit of the present invention, and the keyword type for the keyword is selected from the top N keyword types having a high total keyword type score calculated by the total keyword type score calculation unit 7. Is determined.

本実施例においては文書取得部およびキーワードタイプスコア算出部を3個ずつ用意したが、これに限るものではなく、任意の個数用意することができる。また、複数の文書取得部が互いに同一でキーワードタイプスコア算出部が異なる場合には文書取得部を1つにまとめてもよいし、複数のキーワードタイプスコア算出部が互いに同一で文書取得部が異なる場合にはキーワードタイプスコア算出部を1つにまとめてもよい。   In this embodiment, three document acquisition units and three keyword type score calculation units are prepared. However, the present invention is not limited to this, and an arbitrary number can be prepared. When a plurality of document acquisition units are the same and the keyword type score calculation unit is different, the document acquisition units may be combined into one, or the plurality of keyword type score calculation units are the same and the document acquisition unit is different. In some cases, the keyword type score calculation unit may be combined.

次に、キーワードタイプ判定装置100の動作について説明する。本発明は、データベースを作成するための前処理段階と、実際にキーワードタイプを判定する段階の2つを備えている。   Next, the operation of the keyword type determination device 100 will be described. The present invention has two steps: a pre-processing step for creating a database and a step of actually determining a keyword type.

図2は、キーワードタイプ判定装置100の前処理の動作を示すフローチャートである。   FIG. 2 is a flowchart showing the preprocessing operation of the keyword type determination apparatus 100.

まず、図示省略のキーワードタイプ分野データベース構築手段が、後述する例えば図4に示すような、各キーワードタイプの関連語に対し、概念ベース12を参照してキーワードタイプの分野を表すキーワードタイプ分野ベクトルを算出し(S101)、キーワードタイプとキーワードタイプ分野ベクトルの組をキーワードタイプ分野データベース13に格納する(S102)。   First, a keyword type field database construction unit (not shown) generates a keyword type field vector representing a keyword type field with reference to the concept base 12 for related words of each keyword type as shown in FIG. The calculation is made (S101), and a set of keyword type and keyword type field vector is stored in the keyword type field database 13 (S102).

図3は、キーワードタイプ判定装置100のキーワードタイプ判定の動作を示すフローチャートである。   FIG. 3 is a flowchart showing the keyword type determination operation of the keyword type determination apparatus 100.

まず、第1文書取得部1が、第1文書集合9の中からキーワードに関連する文書を取得する(S201)。   First, the first document acquisition unit 1 acquires a document related to a keyword from the first document set 9 (S201).

第1キーワードタイプスコア算出部4が、前記取得した文書のテキストの一部または全部を利用して、概念ベース12を参照してテキストの分野を表す文書分野ベクトルを算出し(S202)、キーワードタイプ分野データベース13を参照して、前記算出された文書分野ベクトルとキーワードタイプ分野データベース13内に格納されている各キーワードタイプ分野ベクトルとの関連度を算出し、関連度をキーワードタイプスコアとする(S203)。   The first keyword type score calculation unit 4 uses part or all of the text of the acquired document to calculate a document field vector representing the field of the text with reference to the concept base 12 (S202), and the keyword type Referring to the field database 13, the degree of association between the calculated document field vector and each keyword type field vector stored in the keyword type field database 13 is calculated, and the degree of association is used as a keyword type score (S203). ).

第2文書取得部2が、クリックログ14を参照して、第2文書集合10の中から、キーワードタイプ判定装置100とは別のある検索システムでの利用者が検索結果として選択した文書をキーワードに関連する文書として取得する(S204)。   The second document acquisition unit 2 refers to the click log 14 and selects a keyword selected from the second document set 10 as a search result by a user in a search system different from the keyword type determination device 100. (S204).

第2キーワードタイプスコア算出部5が、前記取得した文書のテキストの一部または全部を利用して、概念ベース12を参照してテキストの分野を表す文書分野ベクトルを算出し(S205)、キーワードタイプ分野データベース13を参照して、前記算出された文書分野ベクトルとキーワードタイプ分野データベース13内に格納されている各キーワードタイプ分野ベクトルとの関連度を算出し、関連度をキーワードタイプスコアとする(S206)。   The second keyword type score calculation unit 5 calculates a document field vector representing the field of the text by referring to the concept base 12 by using a part or all of the text of the acquired document (S205). Referring to the field database 13, the degree of association between the calculated document field vector and each keyword type field vector stored in the keyword type field database 13 is calculated, and the degree of association is used as the keyword type score (S206). ).

第3文書取得部3が、第3文書集合11の中からキーワードに関連する文書を取得する(S207)。   The third document acquisition unit 3 acquires a document related to the keyword from the third document set 11 (S207).

第3キーワードタイプスコア算出部6が、前記取得した文書のカテゴリを利用して、キーワードタイプカテゴリデータベース15を参照して、前記取得した文書のカテゴリとキーワードタイプカテゴリデータベース15内に格納されているキーワードタイプカテゴリとの階層的な距離に応じて関連度を算出し、関連度をキーワードタイプスコアとする(S208)。   The third keyword type score calculation unit 6 refers to the keyword type category database 15 using the acquired document category, and the keywords stored in the acquired document category and keyword type category database 15. The degree of association is calculated according to the hierarchical distance from the type category, and the degree of association is used as the keyword type score (S208).

総合キーワードタイプスコア算出部7が、複数のキーワードタイプスコア算出部4〜6で得られたキーワードタイプスコアに基づいて総合キーワードタイプスコアを算出する(S209)。   The total keyword type score calculation unit 7 calculates a total keyword type score based on the keyword type scores obtained by the plurality of keyword type score calculation units 4 to 6 (S209).

キーワードタイプ判定部8が、前記総合キーワードタイプスコア算出部7により算出された総合キーワードタイプスコアの高い上位N件のキーワードタイプをキーワードに対するキーワードタイプと判定する(S210)。   The keyword type determination unit 8 determines the top N keyword types with the highest total keyword type scores calculated by the total keyword type score calculation unit 7 as the keyword types for the keywords (S210).

次に、キーワードタイプ判定装置100の動作をより具体的に説明する。以下の説明では、「ABC」というキーワードのキーワードタイプを判定することとする。   Next, the operation of the keyword type determination apparatus 100 will be described more specifically. In the following description, the keyword type of the keyword “ABC” is determined.

図2に示したフローチャートにしたがって前処理の動作を具体的に説明する。   The pre-processing operation will be specifically described with reference to the flowchart shown in FIG.

ステップS101では、図示省略のキーワードタイプ分野データベース構築手段が、各キーワードタイプの関連語に対し、概念ベース12を参照してキーワードタイプの分野を表すキーワードタイプ分野ベクトルを算出する。キーワードタイプとそれに対する関連語の例を図4に示す。概念ベース12は例えば図5に示すように、単語に対して単語の概念を表す概念ベクトルが付与されたデータベースである。   In step S101, keyword type field database construction means (not shown) calculates a keyword type field vector representing the keyword type field for the related words of each keyword type with reference to the concept base 12. FIG. 4 shows examples of keyword types and related words for the keyword types. As shown in FIG. 5, for example, the concept base 12 is a database in which a concept vector representing a word concept is assigned to a word.

ステップS102では、図示省略のキーワードタイプ分野データベース構築手段が、キーワードタイプとキーワードタイプ分野ベクトルの組をキーワードタイプ分野データベース13に格納する。ここでは、各キーワードタイプに対する関連語の概念ベクトルの平均をキーワードタイプに対するキーワードタイプ分野ベクトルとすることが考えられる。キーワードタイプ分野データベースの作成方法はこれに限るものではない。作成したキーワードタイプ分野データベース13の例を図6に示す。   In step S <b> 102, keyword type field database construction means (not shown) stores a set of keyword type and keyword type field vector in the keyword type field database 13. Here, it is conceivable that an average of concept vectors of related words for each keyword type is used as a keyword type field vector for the keyword type. The method of creating the keyword type field database is not limited to this. An example of the created keyword type field database 13 is shown in FIG.

次に、図3に示したフローチャートにしたがってキーワードタイプ判定の動作を具体的に説明する。   Next, the keyword type determination operation will be described in detail with reference to the flowchart shown in FIG.

ステップS201では、第1文書取得部1により、第1文書集合9の中からキーワード「ABC」に関連する文書を取得する。ここでは、従来の文書検索手法を用いて文書タイトルまたは本文にキーワードが多く含まれる上位3件の文書を関連する文書として取得するものとする。文書の取得の方法はこれに限るものではなく、任意の件数の文書を取得したり、文書のタイトルがキーワードと一致する文書やキーワードが含まれる文書を関連する文書として取得したりしてもよい。取得した文書の例を図7に示す。   In step S <b> 201, the first document acquisition unit 1 acquires a document related to the keyword “ABC” from the first document set 9. Here, it is assumed that the top three documents including many keywords in the document title or body are acquired as related documents using a conventional document search method. The document acquisition method is not limited to this, and an arbitrary number of documents may be acquired, or a document whose title matches the keyword or a document including the keyword may be acquired as a related document. . An example of the acquired document is shown in FIG.

ステップS202では、第1キーワードタイプスコア算出部4により、前記ステップS201で取得した文書のテキストの一部または全部を利用し、概念ベース12を参照して文書分野ベクトルを算出する。各文書の本文をテキストとし、形態素解析手法を用いてテキストを単語に分割し、例えば図5の各単語に対する概念ベクトルが存在すれば概念ベクトルを取得する。各単語から得られた概念ベクトルの平均をテキストベクトルとし、各テキストから得られたテキストベクトルの平均を文書分野ベクトルとする。文書分野ベクトルの例を図8に示す。文書分野ベクトルの算出方法はこれに限るものではなく、文書のタイトルもテキストとして利用したり、単語の重要度に応じて重みを変えたり、複数のベクトルをクラスタリングして主要なクラスタに含まれるベクトルのみを利用したりしてもよい。   In step S202, the first keyword type score calculation unit 4 calculates a document field vector with reference to the concept base 12 by using a part or all of the text of the document acquired in step S201. The text of each document is text, and the text is divided into words using a morphological analysis technique. For example, if there is a concept vector for each word in FIG. 5, the concept vector is acquired. An average of concept vectors obtained from each word is a text vector, and an average of text vectors obtained from each text is a document field vector. An example of the document field vector is shown in FIG. The calculation method of the document field vector is not limited to this, the document title is also used as text, the weight is changed according to the importance of the word, and the vectors included in the main cluster by clustering multiple vectors You may use only.

ステップS203では、第1キーワードタイプスコア算出部4により、キーワードタイプ分野データベース13を参照して、前記ステップS202で算出した文書分野ベクトルとキーワードタイプ分野データベース13内に格納されている各キーワードタイプ分野ベクトルとの関連度を算出してキーワードタイプスコアとする。各キーワードタイプに対し、文書分野ベクトルとキーワードタイプ分野ベクトルとのコサイン距離を関連度として算出し、キーワードタイプスコアとする。キーワードタイプスコアの例を図9に示す。キーワードタイプスコアの算出方法はこれに限るものではなく、ユークリッド距離などに基づいて算出したりしてもよい。   In step S203, the first keyword type score calculation unit 4 refers to the keyword type field database 13 and the document field vector calculated in step S202 and each keyword type field vector stored in the keyword type field database 13. Is calculated as a keyword type score. For each keyword type, the cosine distance between the document field vector and the keyword type field vector is calculated as the degree of association, and is used as the keyword type score. An example of the keyword type score is shown in FIG. The keyword type score calculation method is not limited to this, and may be calculated based on the Euclidean distance or the like.

ステップS204では、第2文書取得部2により、クリックログ14を参照して、第2文書集合10の中からキーワードに関連する文書を取得する。クリックログ14は、検索システムの利用者が検索に利用したキーワードおよび検索結果のうちどの文書を選択したかを記録したデータベースである。図10は、クリックログ14に対し、キーワードおよび選択された文書の組が同一のものを文書の選択回数として集計した例である。ここでは、クリックログのキーワード「ABC」に関する文書のうち、選択回数が多い上位3件の文書として文書番号1,2,3の文書を取得する。文書の取得方法はこれに限るものではなく、1回以上選択されたすべての文書を取得したりしてもよい。第2文書取得部2により取得した文書の例を図11に示す。   In step S <b> 204, the second document acquisition unit 2 refers to the click log 14 and acquires a document related to the keyword from the second document set 10. The click log 14 is a database that records which documents are selected from the keywords and search results used by the user of the search system. FIG. 10 shows an example in which, for the click log 14, the same keyword and selected document set are tabulated as the number of document selections. Here, among the documents related to the keyword “ABC” of the click log, the documents with document numbers 1, 2, and 3 are acquired as the top three documents having the highest number of selections. The document acquisition method is not limited to this, and all documents selected one or more times may be acquired. An example of a document acquired by the second document acquisition unit 2 is shown in FIG.

ステップS205では、第2キーワードタイプスコア算出部5が、前記第2文書取得部2によって取得した文書のテキストの一部、例えば第1文、又は全部を利用し、概念ベース12を参照して文書分野ベクトルを算出する。文書分野ベクトルの算出方法はステップS202と同様とする。尚、文書分野ベクトルの算出方法はステップS202と異なる方法でもよい。   In step S205, the second keyword type score calculation unit 5 uses a part of the text of the document acquired by the second document acquisition unit 2, for example, the first sentence or the whole, and refers to the concept base 12 for the document. Calculate the field vector. The document field vector calculation method is the same as that in step S202. Note that the document field vector calculation method may be different from that in step S202.

ステップS206では、第2キーワードタイプスコア算出部5により、キーワードタイプ分野データベース13を参照して、前記ステップS205で算出した文書分野ベクトルとキーワードタイプ分野データベース13内に格納されている各キーワードタイプ分野ベクトルとの関連度を算出してキーワードタイプスコアとする。キーワードタイプスコアの算出方法はステップS203と同様とする。尚、キーワードタイプスコアの算出方法はステップS203と異なる方法でもよい。第2キーワードタイプスコア算出部5により算出されたキーワードタイプスコアの例を図12に示す。   In step S206, the second keyword type score calculation unit 5 refers to the keyword type field database 13 and the document field vector calculated in step S205 and each keyword type field vector stored in the keyword type field database 13. Is calculated as a keyword type score. The method for calculating the keyword type score is the same as in step S203. The keyword type score may be calculated by a method different from step S203. An example of the keyword type score calculated by the second keyword type score calculation unit 5 is shown in FIG.

ステップS207では、第3文書取得部3が、文書に対してカテゴリが付与された第3文書集合11の中から、キーワード「ABC」を文書タイトルに持つ文書を関連する文書として取得する。文書の取得方法はこれに限るものではなく、文書本文に「ABC」というキーワードを持つ複数の文書を取得したりしてもよい。第3文書取得部3により取得した文書の例を図13に示す。   In step S207, the third document acquisition unit 3 acquires, as a related document, a document having the keyword “ABC” as a document title from the third document set 11 in which a category is assigned to the document. The document acquisition method is not limited to this, and a plurality of documents having the keyword “ABC” in the document body may be acquired. An example of a document acquired by the third document acquisition unit 3 is shown in FIG.

ステップS208では、第3キーワードタイプスコア算出部6により、キーワードタイプカテゴリデータベース15を参照して、前記ステップS207で取得した文書に付与されたカテゴリと、キーワードタイプカテゴリデータベース15内に格納されているキーワードタイプカテゴリとの階層的な距離(カテゴリの階層構造を利用して求めることができるカテゴリ間の関連性を表す値)に応じて関連度を算出してキーワードタイプスコアとする。キーワードタイプカテゴリデータベース15は、例えば図14に示すように各キーワードタイプに対してそのキーワードタイプカテゴリが付与されたデータベースである。ここでは、カテゴリの階層的な関係を表した、例えば図15に示すシソーラスを用いて、文書カテゴリから各キーワードタイプのキーワードタイプカテゴリにたどり着くまでに上位または下位のカテゴリに移動した回数の最小値を距離とし、距離に1を加えた値の逆数をキーワードタイプスコアとする。図15の例ではシソーラスとしてすべてのカテゴリの上位のカテゴリが1つだけ存在する木構造としているが、これに限るものではなく、上位のカテゴリが複数存在するような構造でもよい。また、距離の計算方法は前記に限るものではなく、共通の祖先であるカテゴリの木の深さに応じて距離を定めたりしてもよい。また、キーワードタイプスコアの算出方法は前記に限るものではなく、1から距離に比例した値を引いた値をキーワードタイプスコアとするなどとしてもよい。キーワード「ABC」の文書カテゴリは「俳優」「タレント」であり、キーワードタイプ「芸能人」のキーワードタイプカテゴリ「芸能人」との距離はいずれも1となるため、キーワードタイプ「芸能人」のキーワードタイプスコアは1/(1+1)=0.5となる。残りのキーワードタイプについても同様に算出を行う。第3キーワードタイプスコア算出部6により算出したキーワードタイプスコアの例を図16に示す。   In step S208, the third keyword type score calculation unit 6 refers to the keyword type category database 15 and the categories assigned to the document acquired in step S207 and the keywords stored in the keyword type category database 15. The degree of association is calculated according to the hierarchical distance from the type category (a value representing the relationship between categories that can be obtained using the hierarchical structure of the category) to obtain a keyword type score. The keyword type category database 15 is a database in which the keyword type category is assigned to each keyword type as shown in FIG. 14, for example. Here, the minimum value of the number of times of moving from the document category to the upper or lower category before reaching the keyword type category of each keyword type using the thesaurus shown in FIG. The distance is set, and the reciprocal of the value obtained by adding 1 to the distance is set as the keyword type score. In the example of FIG. 15, the thesaurus has a tree structure in which only one upper category of all categories exists. However, the present invention is not limited to this, and a structure in which a plurality of upper categories exist may be used. Further, the method for calculating the distance is not limited to the above, and the distance may be determined according to the depth of the tree that is a common ancestor category. The method for calculating the keyword type score is not limited to the above, and a value obtained by subtracting a value proportional to the distance from 1 may be used as the keyword type score. The document category of the keyword “ABC” is “actor” and “talent”, and the distance between the keyword type “entertainer” and the keyword type category “entertainer” is 1, so the keyword type score of the keyword type “entertainer” is 1 / (1 + 1) = 0.5. The same calculation is performed for the remaining keyword types. An example of the keyword type score calculated by the third keyword type score calculation unit 6 is shown in FIG.

ステップS209では、総合キーワードタイプスコア算出部7が、第1〜第3キーワードタイプスコア算出部4〜6で算出された3つのキーワードタイプスコアに基づいて総合キーワードタイプスコアを算出する。ここでは、第1、第2、第3キーワードタイプスコア算出部4、5、6で算出したキーワードタイプスコアに対する重みをそれぞれ0.3、0.6、0.1と設定し、それぞれのキーワードタイプスコアに重みを乗じた値を足し合わせた値を総合キーワードタイプスコアとする。重みの設定方法はこれに限るものではなく、任意の値を設定してもよいし、入力のキーワードとは別に複数のキーワードとそれに対するキーワードタイプの組を正解データとして用意し、正解データ中のできるだけ多くのキーワードに対して正しくキーワードタイプが判定できるように重みを調整したりしてもよい。また、総合キーワードタイプスコアの算出方法は前記に限るものではなく、キーワードタイプスコアに順位の逆数を乗じた値を足し合わせた値にするなどしてもよい。図9、図12、図16より、キーワードタイプ「芸能人」に対する総合キーワードタイプスコアは0.377×0.3+0.371×0.6+0.500×0.1=0.386となる。残りについても同様に算出する。総合キーワードタイプスコア算出部7により算出した総合キーワードタイプスコアの例を図17に示す。   In step S209, the total keyword type score calculation unit 7 calculates a total keyword type score based on the three keyword type scores calculated by the first to third keyword type score calculation units 4 to 6. Here, the weights for the keyword type scores calculated by the first, second, and third keyword type score calculation units 4, 5, and 6 are set to 0.3, 0.6, and 0.1, respectively. A value obtained by adding a value obtained by multiplying the score by the weight is defined as an overall keyword type score. The method of setting the weight is not limited to this, and an arbitrary value may be set. In addition to the input keyword, a set of a plurality of keywords and the corresponding keyword type is prepared as correct data, and the correct data The weight may be adjusted so that the keyword type can be correctly determined for as many keywords as possible. The method for calculating the total keyword type score is not limited to the above, and a value obtained by adding a value obtained by multiplying the keyword type score by the reciprocal of the ranking may be used. 9, 12, and 16, the overall keyword type score for the keyword type “celebrity” is 0.377 × 0.3 + 0.371 × 0.6 + 0.500 × 0.1 = 0.386. The rest is calculated in the same way. An example of the total keyword type score calculated by the total keyword type score calculation unit 7 is shown in FIG.

ステップ210では、キーワードタイプ判定部8が、総合キーワードタイプスコアの高い上位N件のキーワードタイプをキーワードに対するキーワードタイプとする。ここではN=1とする。Nの値の設定方法はこれに限るものではなく、1以外の値でもよいし、総合キーワードタイプスコアの値に応じて動的に変更してもよい。図17より、総合キーワードタイプスコアの値が最も高いキーワードタイプは「芸能人」であるため、キーワード「ABC」のキーワードタイプは「芸能人」と判定される。   In step 210, the keyword type determination unit 8 sets the top N keyword types having a high overall keyword type score as keyword types for the keywords. Here, N = 1. The method of setting the value of N is not limited to this, and may be a value other than 1, or may be dynamically changed according to the value of the total keyword type score. From FIG. 17, the keyword type with the highest total keyword type score value is “celebrity”, so the keyword type of the keyword “ABC” is determined to be “celebrity”.

このように、本実施例で説明した処理により、キーワードに関連する文書を取得し、文書中の情報を用いてキーワードタイプを判定することで、任意に定めたキーワードタイプに対してもキーワードのタイプを判定することができる。   As described above, the process described in this embodiment acquires a document related to a keyword, and determines the keyword type using information in the document, so that the keyword type can be determined even for an arbitrarily defined keyword type. Can be determined.

尚、総合キーワードタイプスコア算出部7は、前記実施例に限らず、第1〜第3キーワードタイプスコア算出部4〜6のうちいずれか1つ又は2つで得られたキーワードタイプスコアに基づいて総合キーワードタイプスコアを算出するように構成してよい。   In addition, the comprehensive keyword type score calculation part 7 is not restricted to the said Example, Based on the keyword type score obtained by any one or two of the 1st-3rd keyword type score calculation parts 4-6. A total keyword type score may be calculated.

前記キーワードタイプ判定装置100は、上述した一連の動作を実行させるプログラムをコンピュータにインストールすることにより実現することが可能である。また、当該プログラムをキーワードタイプ判定装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROMなどの可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。また、当該プログラムをネットワークのサーバに格納しておき、そこからダウンロードしてインストールする形態をとることも可能である。   The keyword type determination apparatus 100 can be realized by installing a program for executing the series of operations described above in a computer. It is also possible to store the program in a hard disk device connected to a computer used as a keyword type determination device, a portable storage medium such as a flexible disk or a CD-ROM, and install and execute the program on the computer. It is. It is also possible to store the program in a network server and download and install it from there.

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments and examples, and various modifications and applications can be made within the scope of the claims.

本発明は、入力されたキーワードのタイプに応じた適切な専門検索を行う検索システムの開発などに利用可能である。   The present invention can be used for developing a search system that performs an appropriate specialized search according to the type of an input keyword.

100…キーワードタイプ判定装置
1…第1文書取得部
2…第2文書取得部
3…第3文書取得部
4…第1キーワードタイプスコア算出部
5…第2キーワードタイプスコア算出部
6…第3キーワードタイプスコア算出部
7…総合キーワードタイプスコア算出部
8…キーワードタイプ判定部
9…第1文書集合
10…第2文書集合
11…第3文書集合
12…概念ベース
13…キーワードタイプ分野データベース
14…クリックログ
15…キーワードタイプカテゴリデータベース
DESCRIPTION OF SYMBOLS 100 ... Keyword type determination apparatus 1 ... 1st document acquisition part 2 ... 2nd document acquisition part 3 ... 3rd document acquisition part 4 ... 1st keyword type score calculation part 5 ... 2nd keyword type score calculation part 6 ... 3rd keyword Type score calculation unit 7 ... Total keyword type score calculation unit 8 ... Keyword type determination unit 9 ... First document set 10 ... Second document set 11 ... Third document set 12 ... Concept base 13 ... Keyword type field database 14 ... Click log 15 ... Keyword type category database

Claims (10)

キーワードに対してそのキーワードのタイプを判定するキーワードタイプ判定装置であって、
あらかじめ用意した文書集合の中から、文書を検索するか、又はある検索システムでの利用者が検索結果のうちどの文書を選択したかに基づくか、又はカテゴリが付与された文書集合を検索するかによって、キーワードに関連する文書を取得する文書取得手段と、
文書中の情報を利用して各キーワードタイプらしさの度合いを表すキーワードタイプスコアを算出するキーワードタイプスコア算出手段であって、前記文書取得手段により取得した文書中の情報である単一または複数のテキストの一部または全部を利用して文書の分野を表す文書分野ベクトルを算出し、該算出した文書分野ベクトルと、単語の概念を表す単語概念ベクトルに基づいて予め算出されたキーワードの分野を表すキーワードタイプ分野ベクトルとの関連度を算出し、該算出した関連度をキーワードタイプスコアとするか、又は前記文書取得手段により取得した文書のカテゴリと、各キーワードタイプに対してそのキーワードタイプが属する文書を分野別に分類したキーワードタイプカテゴリとの関連度を算出し、該算出した関連度をキーワードタイプスコアとするキーワードタイプスコア算出手段と、
単一または複数の前記キーワードタイプスコア算出手段で得られたキーワードタイプスコアに基づいて総合キーワードタイプスコアを算出する総合キーワードタイプスコア算出手段と、
前記総合キーワードタイプスコア算出手段により算出された総合キーワードタイプスコアの高い上位N件(Nは1以上の整数)のキーワードタイプをキーワードに対するキーワードタイプと判定するキーワードタイプ判定手段と、
を有するキーワードタイプ判定装置。
A keyword type determination device that determines a keyword type for a keyword,
Whether to search for documents from a set of documents prepared in advance, based on which document selected by the user in a search system, or to search for a set of documents with categories A document acquisition means for acquiring a document related to the keyword,
A keyword type score calculating means for calculating a keyword type score representing the degree of likelihood of each keyword type using information in a document, and a single or a plurality of texts that are information in the document acquired by the document acquiring means A keyword that represents a field of a keyword that is calculated in advance based on the calculated document field vector and a word concept vector that represents the concept of a word. The degree of association with the type field vector is calculated, and the calculated degree of association is used as a keyword type score, or the document category acquired by the document acquisition unit and the document to which the keyword type belongs for each keyword type. Calculate the relevance with the keyword type category categorized by field and calculate the relevance And keyword type score calculation means for the keyword type score,
An overall keyword type score calculating means for calculating an overall keyword type score based on a keyword type score obtained by a single or plural keyword type score calculating means;
Keyword type determination means for determining the top N keyword types (N is an integer of 1 or more) having the highest total keyword type score calculated by the total keyword type score calculation means as the keyword type for the keyword;
A keyword type determination device having
単語とそれに対する概念を表す単語概念ベクトルが格納された概念ベースを参照して各キーワードタイプに対してその分野を表すキーワードタイプ分野ベクトルを算出し、該キーワードタイプ分野ベクトルをキーワードタイプとともにキーワードタイプ分野データベースにあらかじめ格納するキーワードタイプ分野データベース構築手段を有し、
前記キーワードタイプスコア算出手段は、前記概念ベースを参照して文書中の情報である単一または複数のテキストの一部または全部から文書の分野を表す文書分野ベクトルを算出し、前記キーワードタイプ分野データベースを参照して、前記算出した文書分野ベクトルと前記キーワードタイプ分野データベース内の各キーワードタイプ分野ベクトルとの関連度を算出し、該関連度をキーワードタイプスコアとする請求項1に記載のキーワードタイプ判定装置。
A keyword type field vector representing the field is calculated for each keyword type with reference to a concept base in which a word concept vector representing a word and a concept corresponding to the word is stored, and the keyword type field vector together with the keyword type is calculated as a keyword type field. Has keyword type field database construction means to store in the database in advance,
The keyword type score calculating means calculates a document field vector representing a field of the document from a part or all of a single or a plurality of texts that are information in the document with reference to the concept base, and the keyword type field database The keyword type determination according to claim 1, wherein a degree of association between the calculated document field vector and each keyword type field vector in the keyword type field database is calculated, and the degree of association is used as a keyword type score. apparatus.
前記文書取得手段は、ある検索システムでの利用者が検索に利用したキーワードおよび検索結果のうちどの文書を選択したかを記録したクリックログを参照して、ある検索システムでの利用者が検索結果として選択した文書をキーワードに関連する文書として取得する請求項1又は2に記載のキーワードタイプ判定装置。 The document acquisition means refers to a click log that records which keyword is used for a search by a user in a certain search system and which document is selected, and the user in a certain search system The keyword type determination apparatus according to claim 1, wherein the document selected as is acquired as a document related to the keyword. 各キーワードタイプに対してそのキーワードタイプが属する文書を分野別に分類したカテゴリであるキーワードタイプカテゴリがキーワードタイプとともに格納されたキーワードタイプカテゴリデータベースを有し、
前記キーワードタイプスコア算出手段は、前記キーワードタイプカテゴリデータベースを参照して、前記文書取得手段により取得した文書のカテゴリと前記キーワードタイプカテゴリとの階層的な距離(カテゴリの階層構造を利用して求めることができるカテゴリ間の関連性を表す値)に応じて関連度を算出し、該関連度をキーワードタイプスコアとする請求項1に記載のキーワードタイプ判定装置。
A keyword type category database in which a keyword type category, which is a category in which a document to which the keyword type belongs for each keyword type, is classified by field, is stored together with the keyword type,
The keyword type score calculation means refers to the keyword type category database and obtains a hierarchical distance between the document category acquired by the document acquisition means and the keyword type category (using a hierarchical structure of categories). The keyword type determination apparatus according to claim 1, wherein a degree of association is calculated according to a category), and the degree of association is used as a keyword type score.
単語とそれに対する概念を表す単語概念ベクトルが格納された概念ベースを参照して各キーワードタイプに対してその分野を表すキーワードタイプ分野ベクトルを算出し、該キーワードタイプ分野ベクトルをキーワードタイプとともにキーワードタイプ分野データベースにあらかじめ格納するキーワードタイプ分野データベース構築手段を有し、
前記文書取得手段は、あらかじめ用意した文書集合の中からキーワードに関連する第1の文書を取得する第1の文書取得手段と、ある検索システムでの利用者が検索に利用したキーワードおよび検索結果のうちどの文書を選択したかを記録したクリックログを参照して、ある検索システムでの利用者が検索結果として選択した文書をキーワードに関連する第2の文書として取得する第2の文書取得手段とを有し、
前記キーワードタイプスコア算出手段は、前記概念ベースを参照して前記第1の文書中の情報である単一または複数のテキストの一部または全部から文書の分野を表す文書分野ベクトルを算出し、前記キーワードタイプ分野データベースを参照して、前記算出した文書分野ベクトルと前記キーワードタイプ分野データベース内の各キーワードタイプ分野ベクトルとの関連度を算出し、該関連度をキーワードタイプスコアとする第1のキーワードタイプスコア算出手段と、前記概念ベースを参照して前記第2の文書中の情報である単一または複数のテキストの一部または全部から文書の分野を表す文書分野ベクトルを算出し、前記キーワードタイプ分野データベースを参照して、前記算出した文書分野ベクトルと前記キーワードタイプ分野データベース内の各キーワードタイプ分野ベクトルとの関連度を算出し、該関連度をキーワードタイプスコアとする第2のキーワードタイプスコア算出手段とを有する請求項1記載のキーワードタイプ判定装置。
A keyword type field vector representing the field is calculated for each keyword type with reference to a concept base in which a word concept vector representing a word and a concept corresponding to the word is stored, and the keyword type field vector together with the keyword type is calculated as a keyword type field. Has keyword type field database construction means to store in the database in advance,
The document acquisition means includes a first document acquisition means for acquiring a first document related to a keyword from a document set prepared in advance, and a keyword and search result used by a user in a search system for a search. Second document acquisition means for acquiring, as a second document related to a keyword, a document selected as a search result by a user in a search system with reference to a click log that records which document has been selected Have
The keyword type score calculating means calculates a document field vector representing a field of a document from a part or all of a single or plural texts that are information in the first document with reference to the concept base, and A first keyword type that refers to the keyword type field database, calculates a relevance between the calculated document field vector and each keyword type field vector in the keyword type field database, and uses the relevance as a keyword type score A keyword calculating field, calculating a document field vector representing a field of the document from a part or all of a single or plural texts as information in the second document with reference to the concept base, and the keyword type field Referring to the database, the calculated document field vector and the keyword type field data Calculating a degree of relevance between each keyword type field vector in the base, the keyword type determination apparatus according to claim 1, wherein a second keyword type score calculating means for the keyword type score the relevance.
単語とそれに対する概念を表す単語概念ベクトルが格納された概念ベースを参照して各キーワードタイプに対してその分野を表すキーワードタイプ分野ベクトルを算出し、該キーワードタイプ分野ベクトルをキーワードタイプとともにキーワードタイプ分野データベースにあらかじめ格納するキーワードタイプ分野データベース構築手段と、
各キーワードタイプに対してそのキーワードタイプが属する文書を分野別に分類したカテゴリであるキーワードタイプカテゴリがキーワードタイプとともに格納されたキーワードタイプカテゴリデータベースとを有し、
前記文書取得手段は、あらかじめ用意した文書集合の中からキーワードに関連する第1の文書を取得する第1の文書取得手段と、あらかじめ用意され、カテゴリが付与された文書集合の中からキーワードに関連する第3の文書を取得する第3の文書取得手段を有し、
前記キーワードタイプスコア算出手段は、前記概念ベースを参照して前記第1の文書中の情報である単一または複数のテキストの一部または全部から文書の分野を表す文書分野ベクトルを算出し、前記キーワードタイプ分野データベースを参照して、前記算出した文書分野ベクトルと前記キーワードタイプ分野データベース内の各キーワードタイプ分野ベクトルとの関連度を算出し、該関連度をキーワードタイプスコアとする第1のキーワードタイプスコア算出手段と、前記キーワードタイプカテゴリデータベースを参照して、前記第3の文書中の情報であるカテゴリと前記キーワードタイプカテゴリデータベース内のキーワードタイプカテゴリとの階層的な距離(カテゴリの階層構造を利用して求めることができるカテゴリ間の関連性を表す値)に応じて関連度を算出し、該関連度をキーワードタイプスコアとする第3のキーワードタイプスコア算出手段とを有する請求項1記載のキーワードタイプ判定装置。
A keyword type field vector representing the field is calculated for each keyword type with reference to a concept base in which a word concept vector representing a word and a concept corresponding to the word is stored, and the keyword type field vector together with the keyword type is calculated as a keyword type field. Keyword type field database construction means to be stored in advance in the database;
A keyword type category database in which a keyword type category, which is a category in which a document to which the keyword type belongs for each keyword type, is classified by field, is stored together with the keyword type;
The document acquisition means includes a first document acquisition means for acquiring a first document related to a keyword from a document set prepared in advance, and a document related to a keyword from a document set prepared in advance and assigned a category. A third document acquisition means for acquiring a third document to be
The keyword type score calculating means calculates a document field vector representing a field of a document from a part or all of a single or plural texts that are information in the first document with reference to the concept base, and A first keyword type that refers to the keyword type field database, calculates a relevance between the calculated document field vector and each keyword type field vector in the keyword type field database, and uses the relevance as a keyword type score With reference to the score calculation means and the keyword type category database, the hierarchical distance between the category as information in the third document and the keyword type category in the keyword type category database (using the hierarchical structure of categories) Table showing the relationship between categories Calculating a degree of association according to the value), the keyword type determination apparatus according to claim 1, further comprising a third keyword type score calculating means for the keyword type score the relevance.
単語とそれに対する概念を表す単語概念ベクトルが格納された概念ベースを参照して各キーワードタイプに対してその分野を表すキーワードタイプ分野ベクトルを算出し、該キーワードタイプ分野ベクトルをキーワードタイプとともにキーワードタイプ分野データベースにあらかじめ格納するキーワードタイプ分野データベース構築手段と、
各キーワードタイプに対してそのキーワードタイプが属する文書を分野別に分類したカテゴリであるキーワードタイプカテゴリがキーワードタイプとともに格納されたキーワードタイプカテゴリデータベースとを有し、
前記文書取得手段は、ある検索システムでの利用者が検索に利用したキーワードおよび検索結果のうちどの文書を選択したかを記録したクリックログを参照して、ある検索システムでの利用者が検索結果として選択した文書をキーワードに関連する第2の文書として取得する第2の文書取得手段と、あらかじめ用意され、カテゴリが付与された文書集合の中からキーワードに関連する第3の文書を取得する第3の文書取得手段とを有し、
前記キーワードタイプスコア算出手段は、前記概念データベースを参照して前記第2の文書中の情報である単一または複数のテキストの一部または全部から文書の分野を表す文書分野ベクトルを算出し、前記キーワードタイプ分野データベースを参照して、前記算出した文書分野ベクトルと前記キーワードタイプ分野データベース内の各キーワードタイプ分野ベクトルとの関連度を算出し、該関連度をキーワードタイプスコアとする第2のキーワードタイプスコア算出手段と、前記キーワードタイプカテゴリデータベースを参照して、前記第3の文書中の情報であるカテゴリと前記キーワードタイプカテゴリデータベース内のキーワードタイプカテゴリとの階層的な距離(カテゴリの階層構造を利用して求めることができるカテゴリ間の関連性を表す値)に応じて関連度を算出し、該関連度をキーワードタイプスコアとする第3のキーワードタイプスコア算出手段とを有する請求項1記載のキーワードタイプ判定装置。
A keyword type field vector representing the field is calculated for each keyword type with reference to a concept base in which a word concept vector representing a word and a concept corresponding to the word is stored, and the keyword type field vector together with the keyword type is calculated as a keyword type field. Keyword type field database construction means to be stored in advance in the database;
A keyword type category database in which a keyword type category, which is a category in which a document to which the keyword type belongs for each keyword type, is classified by field, is stored together with the keyword type;
The document acquisition means refers to a click log that records which keyword is used for a search by a user in a certain search system and which document is selected, and the user in a certain search system Second document acquisition means for acquiring a document selected as a second document related to a keyword, and a third document acquiring a third document related to the keyword from a document set prepared in advance and assigned a category. 3 document acquisition means,
The keyword type score calculating means calculates a document field vector representing a field of a document from a part or all of a single or a plurality of texts as information in the second document with reference to the concept database, A second keyword type that refers to the keyword type field database, calculates a relevance between the calculated document field vector and each keyword type field vector in the keyword type field database, and uses the relevance as a keyword type score With reference to the score calculation means and the keyword type category database, the hierarchical distance between the category as information in the third document and the keyword type category in the keyword type category database (using the hierarchical structure of categories) Relationship between categories Calculating a degree of association according to the value) representing the keyword type determination apparatus according to claim 1, further comprising a third keyword type score calculating means for the keyword type score the relevance.
単語とそれに対する概念を表す単語概念ベクトルが格納された概念ベースを参照して各キーワードタイプに対してその分野を表すキーワードタイプ分野ベクトルを算出し、該キーワードタイプ分野ベクトルをキーワードタイプとともにキーワードタイプ分野データベースにあらかじめ格納するキーワードタイプ分野データベース構築手段と、
各キーワードタイプに対してそのキーワードタイプが属する文書を分野別に分類したカテゴリであるキーワードタイプカテゴリがキーワードタイプとともに格納されたキーワードタイプカテゴリデータベースとを有し、
前記文書取得手段は、あらかじめ用意した文書集合の中からキーワードに関連する第1の文書を取得する第1の文書取得手段と、ある検索システムでの利用者が検索に利用したキーワードおよび検索結果のうちどの文書を選択したかを記録したクリックログを参照して、ある検索システムでの利用者が検索結果として選択した文書をキーワードに関連する第2の文書として取得する第2の文書取得手段と、あらかじめ用意され、カテゴリが付与された文書集合の中からキーワードに関連する第3の文書を取得する第3の文書取得手段とを有し、
前記キーワードタイプスコア算出手段は、前記概念ベースを参照して前記第1の文書中の情報である単一または複数のテキストの一部または全部から文書の分野を表す文書分野ベクトルを算出し、前記キーワードタイプ分野データベースを参照して、前記算出した文書分野ベクトルと前記キーワードタイプ分野データベース内の各キーワードタイプ分野ベクトルとの関連度を算出し、該関連度をキーワードタイプスコアとする第1のキーワードタイプスコア算出手段と、前記概念ベースを参照して前記第2の文書中の情報である単一または複数のテキストの一部または全部から文書の分野を表す文書分野ベクトルを算出し、前記キーワードタイプ分野データベースを参照して、前記算出した文書分野ベクトルと前記キーワードタイプ分野データベース内の各キーワードタイプ分野ベクトルとの関連度を算出し、該関連度をキーワードタイプスコアとする第2のキーワードタイプスコア算出手段と、前記キーワードタイプカテゴリデータベースを参照して、前記第3の文書中の情報であるカテゴリと前記キーワードタイプカテゴリデータベース内のキーワードタイプカテゴリとの階層的な距離(カテゴリの階層構造を利用して求めることができるカテゴリ間の関連性を表す値)に応じて関連度を算出し、該関連度をキーワードタイプスコアとする第3のキーワードタイプスコア算出手段とを有する請求項1記載のキーワードタイプ判定装置。
A keyword type field vector representing the field is calculated for each keyword type with reference to a concept base in which a word concept vector representing a word and a concept corresponding to the word is stored, and the keyword type field vector together with the keyword type is calculated as a keyword type field. Keyword type field database construction means to be stored in advance in the database;
A keyword type category database in which a keyword type category, which is a category in which a document to which the keyword type belongs for each keyword type, is classified by field, is stored together with the keyword type;
The document acquisition means includes a first document acquisition means for acquiring a first document related to a keyword from a document set prepared in advance, and a keyword and a search result used by a user in a search system for a search. Second document acquisition means for acquiring, as a second document related to a keyword, a document selected as a search result by a user in a search system with reference to a click log that records which document has been selected A third document acquisition means for acquiring a third document related to the keyword from a set of documents prepared in advance and assigned a category,
The keyword type score calculating means calculates a document field vector representing a field of a document from a part or all of a single or plural texts that are information in the first document with reference to the concept base, and A first keyword type that refers to the keyword type field database, calculates a relevance between the calculated document field vector and each keyword type field vector in the keyword type field database, and uses the relevance as a keyword type score A keyword calculating field, calculating a document field vector representing a field of the document from a part or all of a single or plural texts as information in the second document with reference to the concept base, and the keyword type field Referring to the database, the calculated document field vector and the keyword type field data A second keyword type score calculating means for calculating a degree of association with each keyword type field vector in the base and using the degree of association as a keyword type score; and referring to the keyword type category database, the third document The degree of relevance according to the hierarchical distance between the category that is the information in the list and the keyword type category in the keyword type category database (a value that represents the relationship between categories that can be obtained using the hierarchical structure of categories) The keyword type determination apparatus according to claim 1, further comprising: a third keyword type score calculation unit that calculates the relevance level as a keyword type score.
キーワードに対してそのキーワードのタイプを判定するキーワードタイプ判定方法であって、
文書取得手段が、あらかじめ用意した文書集合の中から、文書を検索するか、又はある検索システムでの利用者が検索結果のうちどの文書を選択したかに基づくか、又はカテゴリが付与された文書集合を検索するかによって、キーワードに関連する文書を取得する文書取得ステップと、
キーワードタイプスコア算出手段が、文書中の情報を利用して各キーワードタイプらしさの度合いを表すキーワードタイプスコアを算出するキーワードタイプスコア算出ステップであって、前記文書取得手段により取得した文書中の情報である単一または複数のテキストの一部または全部を利用して文書の分野を表す文書分野ベクトルを算出し、該算出した文書分野ベクトルと、単語の概念を表す単語概念ベクトルに基づいて予め算出されたキーワードの分野を表すキーワードタイプ分野ベクトルとの関連度を算出し、該算出した関連度をキーワードタイプスコアとするか、又は前記文書取得手段により取得した文書のカテゴリと、各キーワードタイプに対してそのキーワードタイプが属する文書を分野別に分類したキーワードタイプカテゴリとの関連度を算出し、該算出した関連度をキーワードタイプスコアとするキーワードタイプスコア算出ステップと、
総合キーワードタイプスコア算出手段が、単一または複数の前記キーワードタイプスコア算出手段で得られたキーワードタイプスコアに基づいて総合キーワードタイプスコアを算出する総合キーワードタイプスコア算出ステップと、
キーワードタイプ判定手段が、前記総合キーワードタイプスコア算出手段により算出された総合キーワードタイプスコアの高い上位N件(Nは1以上の整数)のキーワードタイプをキーワードに対するキーワードタイプと判定するキーワードタイプ判定ステップと、
を有するキーワードタイプ判定方法。
A keyword type determination method for determining a keyword type for a keyword,
Document retrieval means retrieves a document from a set of documents prepared in advance, or a document to which a category is assigned, based on which document is selected from the retrieval results by a user in a certain retrieval system A document acquisition step of acquiring a document related to the keyword depending on whether the set is searched;
The keyword type score calculating means is a keyword type score calculating step for calculating a keyword type score representing the degree of likelihood of each keyword type using information in the document, and the information in the document acquired by the document acquiring means A document field vector representing a document field is calculated using a part or all of a single or a plurality of texts, and is calculated in advance based on the calculated document field vector and a word concept vector representing a word concept. The degree of relevance with the keyword type field vector representing the field of the selected keyword is calculated, and the calculated degree of relevance is used as the keyword type score, or the document category acquired by the document acquisition means and each keyword type Keyword type category that categorizes the document to which the keyword type belongs by field And keyword type score calculation step of calculating the degree of association with, and keyword type score the relevance of the calculated,
An overall keyword type score calculating means for calculating an overall keyword type score based on the keyword type score obtained by the single or plural keyword type score calculating means;
A keyword type determining step in which the keyword type determining means determines the top N keyword types (N is an integer of 1 or more) having the highest total keyword type score calculated by the total keyword type score calculating means as the keyword type for the keyword; ,
A keyword type determination method having
コンピュータを請求項1ないし8に記載の各手段として機能させるキーワードタイプ判定プログラム。 A keyword type determination program for causing a computer to function as each means according to claim 1.
JP2009205418A 2009-09-07 2009-09-07 Keyword type determination device, keyword type determination method, and keyword type determination program Active JP5199968B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009205418A JP5199968B2 (en) 2009-09-07 2009-09-07 Keyword type determination device, keyword type determination method, and keyword type determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009205418A JP5199968B2 (en) 2009-09-07 2009-09-07 Keyword type determination device, keyword type determination method, and keyword type determination program

Publications (2)

Publication Number Publication Date
JP2011059748A true JP2011059748A (en) 2011-03-24
JP5199968B2 JP5199968B2 (en) 2013-05-15

Family

ID=43947338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009205418A Active JP5199968B2 (en) 2009-09-07 2009-09-07 Keyword type determination device, keyword type determination method, and keyword type determination program

Country Status (1)

Country Link
JP (1) JP5199968B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178965A (en) * 2013-03-15 2014-09-25 Ntt Docomo Inc Semantic attribute estimation device, semantic attribute estimation method and semantic attribute estimation program
KR20220029384A (en) * 2020-08-28 2022-03-08 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. Entity linking method and device, electronic equipment and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342345A (en) * 2001-05-22 2002-11-29 Sharp Corp Keyword classifying method and terminal equipment
JP2005149014A (en) * 2003-11-13 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for obtaining document related word
JP2005322165A (en) * 2004-05-11 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> Retrieval keyword presentation method, device, and program
JP2009015495A (en) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd Keyword classification device
JP2009104607A (en) * 2007-10-22 2009-05-14 Gmarket Inc Website management method and online system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342345A (en) * 2001-05-22 2002-11-29 Sharp Corp Keyword classifying method and terminal equipment
JP2005149014A (en) * 2003-11-13 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for obtaining document related word
JP2005322165A (en) * 2004-05-11 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> Retrieval keyword presentation method, device, and program
JP2009015495A (en) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd Keyword classification device
JP2009104607A (en) * 2007-10-22 2009-05-14 Gmarket Inc Website management method and online system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178965A (en) * 2013-03-15 2014-09-25 Ntt Docomo Inc Semantic attribute estimation device, semantic attribute estimation method and semantic attribute estimation program
KR20220029384A (en) * 2020-08-28 2022-03-08 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. Entity linking method and device, electronic equipment and storage medium
JP2022040026A (en) * 2020-08-28 2022-03-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Method, device, electronic device, and storage medium for entity linking
JP7234483B2 (en) 2020-08-28 2023-03-08 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Entity linking method, device, electronic device, storage medium and program
KR102573637B1 (en) 2020-08-28 2023-08-31 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. Entity linking method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP5199968B2 (en) 2013-05-15

Similar Documents

Publication Publication Date Title
US9418128B2 (en) Linking documents with entities, actions and applications
JP5316158B2 (en) Information processing apparatus, full-text search method, full-text search program, and recording medium
US7769771B2 (en) Searching a document using relevance feedback
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US20130110839A1 (en) Constructing an analysis of a document
KR100892842B1 (en) Method and system for user centered information searching
JP2005122295A (en) Relationship figure creation program, relationship figure creation method, and relationship figure generation device
JP5399450B2 (en) System, method and software for determining ambiguity of medical terms
KR102059743B1 (en) Method and system for providing biomedical passage retrieval using deep-learning based knowledge structure construction
JP2007241888A (en) Information processor, processing method, and program
KR101651780B1 (en) Method and system for extracting association words exploiting big data processing technologies
US20140101162A1 (en) Method and system for recommending semantic annotations
JP5869948B2 (en) Passage dividing method, apparatus, and program
JP5199968B2 (en) Keyword type determination device, keyword type determination method, and keyword type determination program
JP2005149014A (en) Method, device and program for obtaining document related word
KR101602342B1 (en) Method and system for providing information conforming to the intention of natural language query
JP7122773B2 (en) DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM
JP2010128598A (en) Document retrieving device and method, program and recording medium with program recorded thereon
JP2016045552A (en) Feature extraction program, feature extraction method, and feature extraction device
CN114385777A (en) Text data processing method and device, computer equipment and storage medium
JP2014191777A (en) Word meaning analysis device and program
JP2010244341A (en) Attribute expression acquisition method, device, and program
JP2010009237A (en) Multi-language similar document retrieval device, method and program, and computer-readable recording medium
JP2009129202A (en) Data processor, data processing method, and program
JP5410359B2 (en) Query selection apparatus and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5199968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350