JP5308918B2 - Keyword extraction method, keyword extraction device, and keyword extraction program - Google Patents

Keyword extraction method, keyword extraction device, and keyword extraction program Download PDF

Info

Publication number
JP5308918B2
JP5308918B2 JP2009130604A JP2009130604A JP5308918B2 JP 5308918 B2 JP5308918 B2 JP 5308918B2 JP 2009130604 A JP2009130604 A JP 2009130604A JP 2009130604 A JP2009130604 A JP 2009130604A JP 5308918 B2 JP5308918 B2 JP 5308918B2
Authority
JP
Japan
Prior art keywords
keyword
list
keywords
search
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009130604A
Other languages
Japanese (ja)
Other versions
JP2010277415A (en
Inventor
浩之 戸田
由美子 松浦
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009130604A priority Critical patent/JP5308918B2/en
Publication of JP2010277415A publication Critical patent/JP2010277415A/en
Application granted granted Critical
Publication of JP5308918B2 publication Critical patent/JP5308918B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、コンピュータ内部に存在する電子文書から、該文書の内容を適切に表現するキーワードを抽出する技術に関する。   The present invention relates to a technique for extracting a keyword that appropriately represents the contents of a document from an electronic document existing inside a computer.

Web上の電子文書を収集し、ユーザに検索を可能とするWebサーチエンジンは、インターネット上の情報取得にはなくてはならないツールとなっている。ところが近年、Webサーチエンジンが返却する文書数はますます増加し、ユーザの必要とする文書をWebサーチエンジンの検索結果から探し出すことが難しくなっている。   A Web search engine that collects electronic documents on the Web and enables users to search is an indispensable tool for acquiring information on the Internet. However, in recent years, the number of documents returned by the Web search engine has increased more and more, and it has become difficult to search for documents required by the user from the search results of the Web search engine.

そこで従来から、電子文書を解析して該文書の内容を表現する語(キーワード)を抽出する様々な方法が提案されている。   In view of this, various methods have been proposed in which an electronic document is analyzed to extract words (keywords) that express the contents of the document.

一つは「固有表現抽出」と呼ばれる技術であり、これは文書を解析して用語を抽出するとともに、抽出した用語に人名、組織名、地名などのタイプを割り当てる技術である。これにより、タイプ別のキーワードが抽出でき、文書の分析や検索に利用することが可能となる。この技術は非特許文献1に記載されている。   One is a technique called “proprietary expression extraction”, which extracts a term by analyzing a document and assigns a type such as a person name, an organization name, and a place name to the extracted term. As a result, keywords for each type can be extracted and used for document analysis and search. This technique is described in Non-Patent Document 1.

また、別な技術として「名詞句抽出」と呼ばれる技術があり、これは品詞情報などを基にしたパターンや周辺に出現する形態素の分布などを基に、名詞もしくは名詞句を構成する形態素列をキーワードとして抽出する手法である。これは「固有表現抽出」と異なり、単にキーワードを抽出するのみであるが、「固有表現抽出」では抽出できないキーワードを抽出できる可能性もある。この技術は非特許文献2に記載されている。   Another technique is called “noun phrase extraction”, which is based on patterns based on part-of-speech information and the distribution of morphemes that appear in the vicinity. It is a technique to extract as a keyword. This is different from “specific expression extraction” in that only keywords are extracted, but keywords that cannot be extracted by “specific expression extraction” may be extracted. This technique is described in Non-Patent Document 2.

David Nadeau,Satoshi Sekine,“A survey of named entity recognition and classification”,Journal of Linguisticae Investigationes 30−1 2007.David Nadeau, Satoshi Sekine, “A survey of named entity recognition and classification”, Journal of Linguistic Investments 30-1 2007. 石井恵,渡辺一成,“分類体系と名詞句を用いた検索インタフェースの提案とその評価”,情報処理学会研究報告 HCI Vol.2000 No.12.Megumi Ishii, Kazunari Watanabe, “Proposal and Evaluation of Search Interface Using Classification System and Noun Phrase”, Information Processing Society of Japan Research Report, HCI Vol. 2000 No. 12 Marius Pasca,“Acquisition of Categorized Named Entities for Web Search”,Proceedings of the 13th ACM Conference on Information and Knowledge Management(CIKM−04),2004,pp.137−145.Marius Pasca, “Acquisition of Categorized Named Entities for Web Search”, Proceedings of the 13th ACM Conference on Information and Knowledge Management 04 (KN). 137-145.

しかしながら、非特許文献1の「固有表現抽出」では、キーワードの種類毎に人手で作成したトレーニングデータを大量に用意する必要があり、人名、地名、組織名以外の幅広い分野のキーワード抽出が困難なおそれがある。   However, in “Native Expression Extraction” of Non-Patent Document 1, it is necessary to prepare a large amount of training data manually created for each keyword type, and it is difficult to extract keywords in a wide range of fields other than the names of people, places, and organizations. There is a fear.

また、非特許文献2の「名詞句抽出」では、基本的にはパターンを基に名詞句を網羅的に抽出するため、不自然な位置で区切れたキーワードや、逆に不自然に接続されたキーワードが抽出されるおそれがある。また、ここで取得されたキーワードをその種別に応じて分類することが困難なおそれもある。   In “Noun Phrase Extraction” of Non-Patent Document 2, basically, noun phrases are comprehensively extracted based on patterns, so keywords separated at unnatural positions or conversely unnaturally connected. Keywords may be extracted. In addition, it may be difficult to classify the keywords acquired here according to their types.

本発明は、このような問題を解決するためになされたものであり、人手によるトレーニングデータを用いることなく、電子文書の内容を表現するキーワードを適切に抽出することを解決課題としている。   The present invention has been made to solve such a problem, and an object of the present invention is to appropriately extract a keyword expressing the contents of an electronic document without using manual training data.

そこで本発明は、前記課題を解決するため、検索エンジンに入力される検索条件(クエリ)は、人が適切であると想定した単位で区切られたキーワードが含まれ、該キーワードを検索エンジンに投入した検索結果のタイトルや概要文は、該キーワードが利用される用例として適切なことを利用する。   Therefore, in order to solve the above-described problems, the present invention includes a search condition (query) input to a search engine including keywords delimited in units assumed to be appropriate by a person, and inputs the keywords to the search engine. The search result title and summary sentence use what is appropriate as an example in which the keyword is used.

本発明の一態様は、検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する方法であって、リスト生成手段が、前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成する第1ステップと、収集手段が、前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する第2ステップと、モデル生成手段が、前記第2ステップで収集された用例を基に前記モデルを生成する第3ステップと、を有する。   One aspect of the present invention is a method for extracting a keyword included in an electronic document by applying a model generated using a search engine log, wherein the list generation means acquires the query log acquired from the search engine. A first step of generating a keyword list by extracting a query that satisfies a certain condition, and a collecting unit obtains a search result of the keyword in the list from the search engine, A second step of collecting examples in which keywords are used in the title and the summary sentence, and a third step in which the model generation means generates the model based on the examples collected in the second step.

本発明の他の態様は、検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する装置であって、前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成するリスト生成手段と、前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する収集手段と、前記収集手段で収集された用例を基に前記モデルを生成するモデル生成手段と、を備える。   Another aspect of the present invention is an apparatus that extracts a keyword included in an electronic document by applying a model generated using a search engine log, and analyzes a query log acquired from the search engine. A list generating means for extracting a query that satisfies a certain condition to generate a list of keywords, and obtaining a search result of the keyword in the list from the search engine, and using the keyword in the title and summary sentence of the search result Collecting means for collecting the examples to be used, and model generating means for generating the model based on the examples collected by the collecting means.

なお、本発明は、前記キーワード抽出装置としてコンピュータを機能させるプログラムの態様として提供してもよい。   The present invention may be provided as an aspect of a program that causes a computer to function as the keyword extraction device.

本発明によれば、人手によるトレーニングデータを用いることなく、電子文書の内容を表現するキーワードを適切に抽出することができる。   According to the present invention, it is possible to appropriately extract a keyword expressing the content of an electronic document without using manual training data.

本発明の実施形態に係るキーワード抽出装置の構成図。The block diagram of the keyword extraction apparatus which concerns on embodiment of this invention. 同 キーワード抽出モデル生成の処理フロー。Process flow for generating the same keyword extraction model. 同 キーワードの用例の分類例。Classification example of usage example of the keyword.

以下、本発明の実施形態を説明する。本発明によれば、検索エンジンのクエリログから得られるキーワードの集合および各キーワードの検索結果のタイトル・概要文の集合を基に、各キーワードの抽出モデルが生成される。   Embodiments of the present invention will be described below. According to the present invention, an extraction model for each keyword is generated based on a set of keywords obtained from a query log of a search engine and a set of titles and summary sentences of search results for each keyword.

この抽出モデルは、各キーワードやその近傍の語が一般的に含んでいると想定される形態素や品詞などのパターンを示す。この抽出モデルを任意の電子文書に適用することにより、該文書から適切なキーワードを抽出する。   This extraction model shows patterns such as morphemes and parts of speech that are assumed to be generally included in each keyword and its neighboring words. By applying this extraction model to an arbitrary electronic document, appropriate keywords are extracted from the document.

<装置構成例>
図1に示すように、本発明の実施形態に係るキーワード抽出装置1は、ネットワークを介して検索エンジン2と通信可能に接続されている。
<Example of device configuration>
As shown in FIG. 1, a keyword extraction apparatus 1 according to an embodiment of the present invention is connected to a search engine 2 through a network so as to be communicable.

前記検索エンジン2は、Web上に公開されている電子文書(Webページ)を検索する通常のWebサーチエンジンで構成され、ユーザ端末(図示省略)から受け付けたクエリを時系列に記録するクエリログ3と、該クエリに該当する電子文書を検索してユーザ端末に返信するための検索実行手段4とを備えている。   The search engine 2 is a normal Web search engine that searches an electronic document (Web page) published on the Web, and includes a query log 3 that records a query received from a user terminal (not shown) in time series. And search execution means 4 for searching for an electronic document corresponding to the query and returning it to the user terminal.

前記キーワード抽出装置1は、通常のコンピュータのハードウェア資源、即ちCPU(Central Processor Unit)、メモリ(RAM)、ハードディスクドライブ装置、通信インタフェースなどを備えている。このハードウェア資源とソフトウェアとの協働の結果、前記キーワード抽出装置1は、キーワードリスト生成手段5,キーワード分類手段6,用例収集手段7,モデル生成手段8,キーワード抽出モデルデータベース9,キーワード抽出手段10を実装する。   The keyword extraction device 1 includes hardware resources of a normal computer, that is, a CPU (Central Processor Unit), a memory (RAM), a hard disk drive device, a communication interface, and the like. As a result of the cooperation between the hardware resource and the software, the keyword extraction device 1 is provided with a keyword list generation means 5, a keyword classification means 6, an example collection means 7, a model generation means 8, a keyword extraction model database 9, and a keyword extraction means. 10 is implemented.

このうち前記各手段5〜8は、キーワードの抽出モデルを生成するモデル生成処理を実施する。即ち、前記キーワードリスト生成手段5は、前記クエリログ3を解析して一定の条件を満たすクエリをキーワードとして取得し、該キーワードのリストを生成する。   Among these, each said means 5-8 implements the model production | generation process which produces | generates the extraction model of a keyword. That is, the keyword list generation means 5 analyzes the query log 3 to acquire a query that satisfies a certain condition as a keyword, and generates a list of the keyword.

前記キーワード分類手段6は、前記クエリログ3および予め前記抽出装置1に登録してある大量の言語データ(コーパス)を解析して、前記リスト中の各キーワードをその種別に応じて分類する。   The keyword classification means 6 analyzes the query log 3 and a large amount of language data (corpus) registered in the extraction device 1 in advance, and classifies each keyword in the list according to its type.

前記用例収集手段7は、前記種別毎に分類されたキーワードのリストを取得し、各キーワードを基に前記検索実行手段4にアクセスし、検索結果のタイトルおよび概要文から各キーワードの用例を取得する。   The example collection unit 7 acquires a list of keywords classified by the type, accesses the search execution unit 4 based on each keyword, and acquires an example of each keyword from the title and summary sentence of the search result. .

前記モデル生成手段8は、前記用例を基に、各キーワードを抽出するための抽出モデルを生成する。ここで生成された抽出モデルは、前記キーワード抽出モデルデータベース9に格納される。このデータベース9は、前記ハードディスクドライブ装置上に構築されているものとする。   The model generation means 8 generates an extraction model for extracting each keyword based on the example. The extraction model generated here is stored in the keyword extraction model database 9. It is assumed that this database 9 is constructed on the hard disk drive device.

前記キーワード抽出手段10は、前記キーワード抽出モデルデータベース9に格納された抽出モデルを任意の電子文書に適用して、該文書の内容を表現するキーワードを抽出するキーワード抽出処理を実施する。以下、この各処理の具体的内容を説明する。   The keyword extraction means 10 applies the extraction model stored in the keyword extraction model database 9 to an arbitrary electronic document, and performs a keyword extraction process for extracting a keyword expressing the content of the document. Hereinafter, specific contents of each process will be described.

<モデル生成処理>
まず、前記モデル生成処理を図2の処理フローに基づき詳細に説明する。このモデル生成処理は、前記キーワード抽出装置1の主要な処理に該当する。
<Model generation process>
First, the model generation process will be described in detail based on the process flow of FIG. This model generation process corresponds to the main process of the keyword extraction device 1.

ここでは、前記キーワードリスト生成手段5が前記通信インタフェースを介して前記クエリログ3へアクセスし、該クエリログ3を取得するものとする。   Here, it is assumed that the keyword list generation means 5 accesses the query log 3 via the communication interface and acquires the query log 3.

ここで前記クエリログ3には、過去にユーザ端末から前記検索エンジン2に投入されたクエリ(検索キーワード)のログが記録されている。このログは、入力されたクエリおよび入力された日時の組合せなどが時系列に記録されたものである。このクエリログ3の格納データ例を表1に示す。   Here, in the query log 3, a log of queries (search keywords) previously input from the user terminal to the search engine 2 is recorded. In this log, a combination of an input query and an input date and time is recorded in time series. An example of data stored in the query log 3 is shown in Table 1.

Figure 0005308918
Figure 0005308918

S01:前記キーワードリスト生成手段5は、前記クエリログ3を解析し、一定の条件を満たすクエリをキーワードとして抽出し、キーワードリストを生成する。条件の例としては、「検索条件として一定の頻度以上で利用されること」や「検索結果として一定数以上の文書が存在すること」などが挙げられる。使用する条件は、仕様に応じて予めプログラムに設定しておけばよい。   S01: The keyword list generation means 5 analyzes the query log 3, extracts a query that satisfies a certain condition as a keyword, and generates a keyword list. Examples of conditions include “being used as a search condition at a certain frequency or more” and “having a certain number of documents as a search result”. The conditions to be used may be set in the program in advance according to the specifications.

このように生成されたキーワードリストおよび前記クエリログ3は、前記キーワード分類手段6へ転送される。このとき、生成された前記キーワードリストは前記メモリなどに記憶してもよい。   The keyword list thus generated and the query log 3 are transferred to the keyword classification means 6. At this time, the generated keyword list may be stored in the memory or the like.

S02:前記キーワード分類手段6は、前記クエリログ3を解析することで、S01で転送された前記キーワードリストの各キーワードを種別(カテゴリ)に応じて分類する。   S02: The keyword classification means 6 classifies each keyword of the keyword list transferred in S01 according to the type (category) by analyzing the query log 3.

分類方法としては、あらかじめ決められた種別に対して人手で分類する方法、あるいは非特許文献3のように人手で分類したキーワードの例を基に特定の種別のキーワードを発見する方法などが挙げられる。このとき、コンピュータで検索可能な大量の言語データ、即ち「コーパス」を予め前記キーワード抽出装置1に登録しておき、これを前記クエリログ3と併せて解析するようにしてもよい。   Examples of the classification method include a method of manually classifying a predetermined type, or a method of finding a keyword of a specific type based on an example of a keyword manually classified as in Non-Patent Document 3. . At this time, a large amount of language data that can be searched by a computer, that is, “corpus” may be registered in the keyword extracting device 1 in advance and analyzed together with the query log 3.

ここで分類されたリストは、前記キーワードリスト生成手段5を経由して前記用例収集手段7へ転送される。   The list classified here is transferred to the example collecting means 7 via the keyword list generating means 5.

S03:前記用例収集手段7は、S02で種別毎のキーワードリストが転送されると、各キーワードを基に前記検索実行手段4にアクセスし、検索結果のタイトルおよび概要文から各キーワードの用例を取得する。   S03: When the keyword list for each type is transferred in S02, the example collection unit 7 accesses the search execution unit 4 based on each keyword, and acquires an example of each keyword from the title and summary sentence of the search result. To do.

即ち、前記用例収集手段7は、種別毎のキーワードリストが転送されると、該リストのキーワードを前記通信インタフェースを介して前記検索実行手段4に送信する。   That is, when the keyword list for each type is transferred, the example collection unit 7 transmits the keywords of the list to the search execution unit 4 via the communication interface.

前記検索実行手段4は、前記キーワードを受信すると、該キーワードに該当する検索結果の文書のタイトル、URL、および該文書中で該キーワードが含まれる部分を概要文として、前記通信インタフェースを介して前記キーワード抽出装置1に返信する。   When the search execution means 4 receives the keyword, the search result document title and URL corresponding to the keyword, and a portion including the keyword in the document as an outline sentence are used as the summary sentence via the communication interface. It returns to the keyword extracting device 1.

このとき、前記検索実行手段4にて、前記用例収集手段7から受信したキーワードをもって新たに文書検索を行い、その検索結果の文書のタイトル、URLおよび概要文を返信するようにしてもよい。   At this time, the search execution unit 4 may perform a new document search using the keyword received from the example collection unit 7 and return the title, URL, and summary text of the search result.

このように前記キーワード抽出装置1に返信された前記タイトル、URLおよび概要文は、前記用例収集手段7に転送される。ここでは、前記用例収集手段7は、転送されたタイトルおよび概要文からキーワードの用例を取得する。   Thus, the title, URL, and summary sentence sent back to the keyword extracting device 1 are transferred to the example collecting means 7. Here, the example collection means 7 acquires a keyword example from the transferred title and summary text.

なお、初期のWebサーチエンジンでは文書の冒頭部分が概要文として用いられていたが、1990年代後半にGoogle(登録商標)が検索キーワード周辺のテキストを提示するようになり、現在の主流となっている。   In the early Web search engines, the beginning part of the document was used as a summary sentence, but in the late 1990s, Google (registered trademark) began to present text around search keywords, which has become the current mainstream. Yes.

S04:前記用例収集手段7は、取得した用例をキーワードの種別に応じて分類する。   S04: The example collecting means 7 classifies the acquired examples according to the type of keyword.

ここで用例の分類例を図3に示す。ここでは各キーワード「○○大章典」「○○王冠」「京都○○杯」の用例が「レース名」という種別にそれぞれ分類されている。ここで分類された用例は、前記モデル生成手段8に転送される。   Here, a classification example of the example is shown in FIG. Here, the examples of each keyword “XX large chapter”, “XX crown”, and “Kyoto XX cup” are classified into types of “race names”. The examples classified here are transferred to the model generation means 8.

S05:前記モデル生成手段8は、S04で分類された用例が転送されると、種別毎にキーワードを抽出するためのモデルを生成する。モデルの生成に利用される素性としては、例えば以下のような例が挙げられる。
1.そのキーワードの構成形態素
2.そのキーワードの近傍の形態素
3.そのキーワードの構成形態素の品詞
4.そのキーワードの近傍の形態素の品詞
5.そのキーワードが出現する文脈で出現する形態素
例えば図3の例では、「京都○○杯」というキーワードに対し、素性1「そのキーワードの構成形態素」を適用した場合は、語尾に「杯」という形態素を含む「○○○杯」や、語頭に「京都」などの地名を含む「(地名)○○○」などのようなモデルが生成される。
S05: When the example classified in S04 is transferred, the model generation means 8 generates a model for extracting a keyword for each type. Examples of the features used for generating the model include the following examples.
1. 1. The constituent morphemes of the keyword 2. morphemes near the keyword Part of speech of the constituent morphemes of the keyword 4. Part of speech of the morpheme near the keyword A morpheme that appears in the context in which the keyword appears For example, in the example shown in FIG. A model such as “XX cup” including “,” or “(place name) XXX” including a place name such as “Kyoto” at the beginning is generated.

また、「○○大章典」というキーワードに対し、素性2「そのキーワードの近傍の形態素」を適用した場合は、「○○大章典」の近傍の形態素(ここでは「第40回」や「(G2)」など)に着目し、「第○回○○○」や「○○○(G2)」などといったモデルが生成される。生成されたモデルは、前記キーワード抽出モデルデータベース9に格納される。   In addition, when the feature 2 “morpheme near the keyword” is applied to the keyword “XX large chapter”, the morpheme near “XX large chapter” (here, “40th” or “( G2) ”) and the like, and models such as“ No. XX ”and“ XXX (G2) ”are generated. The generated model is stored in the keyword extraction model database 9.

<キーワード抽出処理>
前記キーワード抽出手段10は、前記キーワード抽出モデルデータベース9に格納されたキーワード抽出モデルを用いて、任意の電子文書からキーワードを抽出する。
<Keyword extraction process>
The keyword extraction means 10 extracts keywords from an arbitrary electronic document using a keyword extraction model stored in the keyword extraction model database 9.

抽出処理の具体例としては、文書全体をパターンマッチングなどの文字列探索手法で探索し、該文書中から前記モデルに該当する文字列をキーワードとして抽出する方法が挙げられる。   As a specific example of the extraction process, there is a method in which the entire document is searched by a character string search method such as pattern matching, and a character string corresponding to the model is extracted from the document as a keyword.

なお、抽出されたキーワードは、ディスプレイなどの出力手段に出力してもよく、データベースなどの保存手段に保存してもよい。また、前記モデル生成手段8、前記キーワード抽出モデルデータベース9、および前記キーワード抽出手段10の具体的な実現形態については、サポート・ベクター・マシン(SVM:Support Vector Machine)やCRF(Conditional Randam Field)、決定木などの各種学習アルゴリズムを利用することが考えられる。   The extracted keyword may be output to an output unit such as a display, or may be stored in a storage unit such as a database. Further, specific implementation forms of the model generation means 8, the keyword extraction model database 9, and the keyword extraction means 10 are described in terms of a support vector machine (SVM), a CRF (Conditional Random Field), It is conceivable to use various learning algorithms such as a decision tree.

このように、前記キーワード抽出装置1によれば、検索エンジンへ投入されたキーワードと、検索エンジンが出力する検索結果のタイトルや概要文の情報を基に、自然な単位のキーワードを人手によるトレーニングデータを用いることなく種別毎に抽出することができる。   As described above, according to the keyword extracting device 1, the keyword of the natural unit is manually trained based on the keyword input to the search engine and the title and summary sentence information of the search result output from the search engine. Can be extracted for each type without using.

ここで抽出されたキーワードは、検索結果のタイトルおよび概要文から生成された抽出モデルに沿っていることから、情報の単位として適切であると考えられ、テキスト集合の分析などに利用できる。   The keyword extracted here is in line with the extraction model generated from the title and summary sentence of the search result, so it is considered appropriate as a unit of information and can be used for analysis of a text set.

また、抽出されたキーワードは文書の内容を適切に表現していると考えられることから、該キーワードを該文書の検索インデクスとして使用すれば文書検索時の検索精度の向上が期待できる。   Further, since the extracted keyword is considered to appropriately express the contents of the document, it is expected that the search accuracy during the document search can be improved by using the keyword as a search index of the document.

本発明は、前記キーワード抽出装置1の各手段5〜10の一部もしくは全部としてコンピュータを機能させるプログラムに構成することもできる。この場合には、前記実施形態の処理ステップ(S01〜S05)の全てあるいは一部をコンピュータに実行させる。   The present invention can also be configured as a program that causes a computer to function as part or all of the means 5 to 10 of the keyword extraction device 1. In this case, the computer executes all or part of the processing steps (S01 to S05) of the embodiment.

このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置(光学ドライブ装置など)を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。   This program can be provided through a network such as a website or e-mail. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, Blu-ray Disk (registered trademark). It is also possible to save and distribute. This recording medium is read using a recording medium driving device (such as an optical drive device), and the program code itself realizes the processing of the above-described embodiment, so that the recording medium also constitutes the present invention.

1…キーワード抽出装置
2…検索エンジン
3…クエリログ
4…検索実行手段
5…キーワードリスト生成手段
6…キーワード分類手段
7…用例収集手段
8…モデル生成手段
9…キーワード抽出モデルデータベース
10…キーワード抽出手段
DESCRIPTION OF SYMBOLS 1 ... Keyword extraction apparatus 2 ... Search engine 3 ... Query log 4 ... Search execution means 5 ... Keyword list production | generation means 6 ... Keyword classification means 7 ... Example collection means 8 ... Model generation means 9 ... Keyword extraction model database 10 ... Keyword extraction means

Claims (3)

検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する方法であって、
リスト生成手段が、前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成する第1ステップと、
収集手段が、前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する第2ステップと、
モデル生成手段が、前記第2ステップで収集された用例を基に前記モデルを生成する第3ステップと、
分類手段が、前記リスト中のキーワードを種別毎に分類し、該種別毎にキーワードを抽出する第4ステップと、
を有することを特徴とするキーワード抽出方法。
A method for extracting keywords contained in an electronic document by applying a model generated using a search engine log,
A first step of generating a list of keywords by analyzing a query log acquired from the search engine and extracting a query that satisfies a certain condition;
A second step of collecting a search result of a keyword in the list from the search engine and collecting an example in which the keyword is used in a title and a summary sentence of the search result;
A third step in which the model generating means generates the model based on the examples collected in the second step;
A fourth step in which the classifying means classifies the keywords in the list for each type, and extracts the keywords for each type;
A keyword extraction method characterized by comprising:
検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する装置であって、
前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成するリスト生成手段と、
前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する収集手段と、
前記収集手段で収集された用例を基に前記モデルを生成するモデル生成手段と、
前記リスト中のキーワードを種別毎に分類し、該種別毎にキーワードを抽出する分類手段と、
を備えることを特徴とするキーワード抽出装置。
A device that extracts a keyword included in an electronic document by applying a model generated using a log of a search engine,
A list generation unit that analyzes a query log acquired from the search engine, extracts a query that satisfies a certain condition, and generates a keyword list;
A collecting means for acquiring a search result of the keyword in the list from the search engine and collecting an example in which the keyword is used in a title and a summary sentence of the search result;
Model generation means for generating the model based on the examples collected by the collection means;
Classifying means for classifying keywords in the list for each type, and extracting keywords for each type;
A keyword extracting device comprising:
請求項に記載のキーワード抽出装置としてコンピュータを機能させることを特徴とするキーワード抽出プログラム。 A keyword extraction program for causing a computer to function as the keyword extraction device according to claim 2 .
JP2009130604A 2009-05-29 2009-05-29 Keyword extraction method, keyword extraction device, and keyword extraction program Expired - Fee Related JP5308918B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009130604A JP5308918B2 (en) 2009-05-29 2009-05-29 Keyword extraction method, keyword extraction device, and keyword extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009130604A JP5308918B2 (en) 2009-05-29 2009-05-29 Keyword extraction method, keyword extraction device, and keyword extraction program

Publications (2)

Publication Number Publication Date
JP2010277415A JP2010277415A (en) 2010-12-09
JP5308918B2 true JP5308918B2 (en) 2013-10-09

Family

ID=43424307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009130604A Expired - Fee Related JP5308918B2 (en) 2009-05-29 2009-05-29 Keyword extraction method, keyword extraction device, and keyword extraction program

Country Status (1)

Country Link
JP (1) JP5308918B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5528402B2 (en) * 2011-08-26 2014-06-25 日本電信電話株式会社 Keyword-related place name extraction apparatus, method, and program
US9779422B2 (en) 2013-08-05 2017-10-03 Excalibur Ip, Llc Revenue share analysis

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3787310B2 (en) * 2002-03-08 2006-06-21 日本電信電話株式会社 Keyword determination method, apparatus, program, and recording medium
JP2004234582A (en) * 2003-02-03 2004-08-19 Hitachi Ltd Dictionary construction method, system, and screen
JP4148247B2 (en) * 2005-07-01 2008-09-10 日本電信電話株式会社 Vocabulary acquisition method and apparatus, program, and computer-readable recording medium
JP5245255B2 (en) * 2007-02-15 2013-07-24 富士通株式会社 Specific expression extraction program, specific expression extraction method, and specific expression extraction apparatus

Also Published As

Publication number Publication date
JP2010277415A (en) 2010-12-09

Similar Documents

Publication Publication Date Title
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
JP5392077B2 (en) Ontology processing apparatus, ontology processing method, and ontology processing program
US20130013612A1 (en) Techniques for comparing and clustering documents
JP4724701B2 (en) Text search server computer, text search method, text search program, and recording medium recording the program
JP2007141090A (en) Question answering system, data retrieval method and computer program
KR101933953B1 (en) Software domain topics extraction system using PageRank and topic modeling
US11687826B2 (en) Artificial intelligence (AI) based innovation data processing system
JP2020191075A (en) Recommendation of web apis and associated endpoints
JP4750832B2 (en) Information retrieval method and system
JP2002245061A (en) Keyword extraction
Jean-Louis et al. An assessment of online semantic annotators for the keyword extraction task
Fantinuoli et al. Kudo interpreter assist: Automated real-time support for remote interpretation
CN103226601B (en) A kind of method and apparatus of picture searching
JP6409071B2 (en) Sentence sorting method and calculator
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
JP4912384B2 (en) Document search device, document search method, and document search program
Lampos et al. Archiving the greek web
JP5308918B2 (en) Keyword extraction method, keyword extraction device, and keyword extraction program
JP2008077252A (en) Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium
JP5499546B2 (en) Important word extraction method, apparatus, program, recording medium
KR102275095B1 (en) The informatization method for youtube video metadata for personal media production
JP4148247B2 (en) Vocabulary acquisition method and apparatus, program, and computer-readable recording medium
JP2005202924A (en) Translation determination system, method, and program
JP2011086156A (en) System and program for tracking of leaked information
JP4484957B1 (en) Retrieval expression generation device, retrieval expression generation method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130701

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5308918

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees