JP2022029461A - Keyword extraction device, keyword extraction method, and program - Google Patents
Keyword extraction device, keyword extraction method, and program Download PDFInfo
- Publication number
- JP2022029461A JP2022029461A JP2021191504A JP2021191504A JP2022029461A JP 2022029461 A JP2022029461 A JP 2022029461A JP 2021191504 A JP2021191504 A JP 2021191504A JP 2021191504 A JP2021191504 A JP 2021191504A JP 2022029461 A JP2022029461 A JP 2022029461A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document
- documents
- similar
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 26
- 239000000284 extract Substances 0.000 claims description 12
- 230000007423 decrease Effects 0.000 claims 1
- 238000013480 data collection Methods 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 35
- 230000010365 information processing Effects 0.000 description 31
- 239000013598 vector Substances 0.000 description 19
- 238000004891 communication Methods 0.000 description 15
- 238000000034 method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000021615 conjugation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000277269 Oncorhynchus masou Species 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
本発明は、キーワード抽出装置、キーワード抽出方法、およびプログラムに関する。 The present invention relates to a keyword extraction device, a keyword extraction method, and a program.
インターネット上で配信されるニュース記事のような文書には、過去に配信された文書の事柄を前提とする、続報記事のような関連文書が多数存在する。これに関連し、過去に配信した記事の事柄に関連した続報記事を配信する技術が知られている(例えば、特許文献1参照)。 Documents such as news articles distributed on the Internet include many related documents such as follow-up articles that presuppose the matters of documents distributed in the past. In connection with this, a technique for distributing a follow-up article related to the matter of an article distributed in the past is known (see, for example, Patent Document 1).
しかしながら、従来の技術では、ユーザが文書を検索したときに、その文書に関連した関連文書を精度良く検索することができず、その結果、ユーザの情報収集の効率が低下する場合があった。 However, in the conventional technique, when a user searches for a document, the related document related to the document cannot be searched accurately, and as a result, the efficiency of information collection by the user may be lowered.
本発明は、上記の課題に鑑みてなされたものであり、ユーザの情報収集の効率を向上させることができるキーワード抽出装置、キーワード抽出方法、およびプログラムを提供することを目的としている。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a keyword extraction device, a keyword extraction method, and a program capable of improving the efficiency of information collection by a user.
本発明の一態様は、着目文書に類似する複数の類似文書のうち、前記着目文書に出現するキーワードの候補が出現する前記類似文書の数に基づいて、前記着目文書に含まれる前記キーワードの候補をキーワードとして抽出する処理部を備える、
キーワード抽出装置である。
One aspect of the present invention is a candidate for the keyword included in the document of interest based on the number of similar documents in which the candidate for the keyword appearing in the document of interest appears among a plurality of similar documents similar to the document of interest. Equipped with a processing unit that extracts
It is a keyword extractor.
本発明の一態様によれば、ユーザの情報収集の効率を向上させることができる。 According to one aspect of the present invention, the efficiency of user information collection can be improved.
以下、本発明を適用したキーワード抽出装置、キーワード抽出方法、およびプログラムを、図面を参照して説明する。 Hereinafter, the keyword extraction device, the keyword extraction method, and the program to which the present invention is applied will be described with reference to the drawings.
[概要]
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、関連する文書同士が人手によって同じグループに分類された複数の文書と、複数の文書から、文書内において所定の特徴を有するキーワードを抽出するキーワード抽出器によって抽出されたキーワードとを取得する。情報処理装置は、複数の文書とキーワードとを取得すると、グループ内の文書間のキーワードの一致度合に基づいて、キーワード抽出器の性能を評価する。キーワード抽出器の性能が高いほど、キーワード抽出器により抽出されたキーワードが、文書本来の意味や概念を表したものとなる。このようなキーワードを利用して文書検索を行った場合、キーワード抽出器がキーワードの抽出対象とした文書に関連した文書を検索することができる。この結果、ユーザの情報収集の効率を向上させることができる。
[Overview]
The information processing device is realized by one or more processors. The information processing device includes a plurality of documents in which related documents are manually classified into the same group, and keywords extracted by a keyword extractor that extracts keywords having predetermined characteristics in the documents from a plurality of documents. get. When the information processing apparatus acquires a plurality of documents and keywords, the information processing apparatus evaluates the performance of the keyword extractor based on the degree of matching of the keywords between the documents in the group. The higher the performance of the keyword extractor, the more the keywords extracted by the keyword extractor represent the original meaning and concept of the document. When a document is searched using such a keyword, the keyword extractor can search for a document related to the document for which the keyword is extracted. As a result, the efficiency of user information collection can be improved.
<第1実施形態>
[全体構成]
図1は、第1実施形態における情報処理装置100を含む情報処理システム1の一例を示す図である。第1実施形態における情報処理システム1は、例えば、一以上の端末装置10と、サービス提供装置20と、情報処理装置100とを備える。これらの装置は、ネットワークNWを介して接続される。
<First Embodiment>
[overall structure]
FIG. 1 is a diagram showing an example of an
図1に示す各装置は、ネットワークNWを介して種々の情報を送受信する。ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、プロバイダ端末、無線通信網、無線基地局、専用回線などを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。 Each device shown in FIG. 1 transmits and receives various information via the network NW. The network NW includes, for example, the Internet, a WAN (Wide Area Network), a LAN (Local Area Network), a provider terminal, a wireless communication network, a wireless base station, a dedicated line, and the like. It should be noted that not all combinations of the devices shown in FIG. 1 need not be able to communicate with each other, and the network NW may include a local network in part.
端末装置10は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、NIC(Network Interface Card)などのネットワークカード、無線通信モジュールなどを含む。端末装置10では、ウェブブラウザやアプリケーションプログラムなどのUA(User Agent)が起動し、ユーザの入力する内容に応じたリクエストをサービス提供装置20に送信する。また、UAが起動された端末装置10は、サービス提供装置20から取得した情報に基づいて、表示装置に各種画像を表示させる。
The
サービス提供装置20は、例えば、ウェブブラウザからのリクエストに応じてウェブページを端末装置10に提供するウェブサーバである。ウェブページは、例えば、検索サービスを提供するウェブページ(以下、検索ページと称する)である。検索ページには、例えば、ニュース記事などの文書(テキストデータ)や、動画像データ、静止画像データ、音声データなどのコンテンツが含まれる。また、サービス提供装置20は、インターネットショッピングやSNS(Social Networking Service)、メールサービスなどの各種サービスを提供するウェブページを端末装置10に提供してもよい。また、サービス提供装置20は、アプリケーションプログラムからのリクエストに応じてコンテンツを端末装置10に提供するアプリケーションサーバであってもよい。
The
例えば、ユーザが端末装置10に表示された検索ページに対してクエリを入力した場合、サービス提供装置20は、クエリに対応した単語(ワード)や語句(フレーズ)が文書中に含まれるウェブページを、クエリによる検索結果として端末装置10に提供する。これを受けて、ユーザが検索結果の中から所望のウェブページを選択した場合、サービス提供装置20は、ユーザにより選択されたウェブページから抽出されたキーワードを、当該ウェブページに含めて端末装置10に提供する。サービス提供装置20は、後述するキーワード抽出器EXを利用して、提供対象のウェブページから予めキーワードを抽出して置いてもよいし、検索時に併せて提供対象のウェブページからキーワードを抽出してもよい。
For example, when the user inputs a query to the search page displayed on the
図2は、サービス提供装置20により提供されるウェブページの一例を示す図である。図示の例のように、オリンピックに関連したニュース記事が掲載されたウェブページが提供される場合、そのウェブページには、ニュース記事から抽出された、「○○五輪」や「○○オリンピック」、「□□□□選手」のようなキーワードKWが含まれる。キーワードKWには、そのキーワードKWをクエリとした検索結果にアクセスするためのURL(Uniform Resource Locator)がリンク付けられる。そのため、キーワードKWは、文書の内容を端的に表現していることが好ましく、更に、キーワードをクエリとした場合、容易に他の文書を検索することができることが好ましい。このように、キーワードKWの検索結果へのリンク先が含まれるウェブページをユーザに提供することで、ユーザは、自身が検索した情報に関連した情報も併せて取得することができる。以下、キーワードKWをクエリとして検索することで得られるウェブページのことを、「関連ページ」と称する。
FIG. 2 is a diagram showing an example of a web page provided by the
図3は、関連ページの一例を示す図である。図示の例では、図2に例示した「○○五輪」というキーワードKWをクエリとして検索したときの検索結果を表している。このような検索結果には、「○○五輪」に関連した各関連ページのタイトルやURL、要約(スニペット)、画像などが項目(リスト)として掲載される。図示の例では、最上段の関連ページには文書Aが含まれ、2番目の関連ページには文書Bが含まれ、3番目の関連ページには文書Cが含まれていることを表している。これらの各関連ページには、キーワードの候補となる単語や語句の集合である文書が含まれる。関連ページに含まれる文書(以下、関連文書)と、キーワードの抽出元の文書とは、互いに同一のキーワードを共有しているという性質(キーワード或いはキーフレーズの共有性)を有している。キーフレーズの共有性が高いほど、すなわち、同一のキーワードの共有数が多いほど、より多くの関連ページをユーザに提供することができる。 FIG. 3 is a diagram showing an example of related pages. In the illustrated example, the search result when the keyword KW "○○ Olympics" illustrated in FIG. 2 is searched as a query is shown. In such search results, titles, URLs, summaries (snippets), images, etc. of each related page related to the "○○ Olympics" are posted as items (lists). In the illustrated example, the top related page contains the document A, the second related page contains the document B, and the third related page contains the document C. .. Each of these related pages contains a document that is a collection of words and phrases that are candidate keywords. The document included in the related page (hereinafter referred to as the related document) and the document from which the keyword is extracted have the property of sharing the same keyword (keyword or key phrase sharing). The higher the shareability of the key phrase, that is, the greater the number of shares of the same keyword, the more related pages can be provided to the user.
情報処理装置100は、サービス提供装置20が利用するキーワード抽出器EXを、そのキーワード抽出器EXによって各文書から抽出されたキーワード同士を比較することで評価する。
The
[情報処理装置の構成]
図4は、第1実施形態における情報処理装置100の構成の一例を示す図である。図示のように、情報処理装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
[Information processing device configuration]
FIG. 4 is a diagram showing an example of the configuration of the
通信部102は、例えば、NIC等の通信インターフェースを含む。通信部102は、ネットワークNWを介して、端末装置10やサービス提供装置20などと通信する。
The
制御部110は、例えば、キーワード付与部112と、文書分類部114と、抽出器評価部116とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのプロセッサが記憶部130に格納されたプログラムを実行することにより実現される。また、制御部110の構成要素の一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはGPU(Graphics Processing Unit)などのハードウェア(回路部;circuitry)により実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
The
記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)などの記憶装置により実現される。記憶部130には、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、キーワード抽出器データ132や文書データ134が格納される。
The
キーワード抽出器データ132は、キーワード抽出器EXがどういった抽出器であるのかを定義した情報(プログラム)であり、例えば、複数のキーワード抽出器EXの其々を定義した情報であってよい。例えば、キーワード抽出器EXは、複数の単語や語句を含む文書を形態素解析によって、キーワードの候補となる複数の形態素に分割し、TF(Term Frequency)‐IDF(Inverse Document Frequency)などの単語の出現頻度を評価する手法を用いて、分割した各形態素、または複数の形態素を組み合わせに対して重みを付け、その重みが大きいものをキーワードとして抽出する。TF‐IDFに基づく重みは、「所定の特徴」の一例である。
The
例えば、キーワード抽出器EXは、キーワードの候補とする形態素の数を1つに限らず、所定数(例えば3つ)とすることで、所定の長さのキーワードを抽出してよい。また、例えば、キーワード抽出器EXは、キーワードの候補となる形態素を、名詞や形容詞、動詞などの特定の品詞に限定してもよい。また、例えば、キーワード抽出器EXは、キーワードの候補となる形態素を、半角文字或いは全角文字に限定したり、アルファベットであれば小文字に限定したりしてもよい。また、例えば、キーワード抽出器EXは、キーワードの候補とする品詞の活用形を所定の活用形に変換してもよい。具体的には、キーワード抽出器EXは、形態素として助動詞をキーワードの候補とする場合、助動詞の活用を「です、ます」調から、「である」調に変換してよい。このように、キーワードの長さを指定したり、品詞の種類を限定したり、全角半角や大文字小文字を指定したり、品詞の活用を指定したりすることは、キーワード抽出器EXの設計者(例えばシステムエンジニアなど)が事前に決定するハイパーパラメータとして扱われる。 For example, the keyword extractor EX does not limit the number of morphemes as keyword candidates to one, but may extract keywords having a predetermined length by setting a predetermined number (for example, three). Further, for example, the keyword extractor EX may limit the morphemes that are candidates for keywords to specific part of speech such as nouns, adjectives, and verbs. Further, for example, the keyword extractor EX may limit the morphemes that are candidates for keywords to half-width characters or full-width characters, or if it is an alphabet, it may be limited to lowercase letters. Further, for example, the keyword extractor EX may convert the inflected form of the part of speech that is a candidate for the keyword into a predetermined inflected form. Specifically, when the auxiliary verb is used as a keyword candidate as a morpheme, the keyword extractor EX may convert the conjugation of the auxiliary verb from the "desu, masu" key to the "is" key. In this way, it is the designer of the keyword extractor EX that specifies the length of the keyword, limits the type of part of speech, specifies full-width half-width and uppercase and lowercase letters, and specifies the conjugation of part of speech. For example, it is treated as a hyperparameter determined in advance by a system engineer).
文書データ134は、複数の文書(例えば1万件の文書)を含むデータであり、例えば、サービス提供装置20により提供される各ウェブページに含まれる文書を含んでもよいし、これとは別に用意された文書を含んでもよい。文書データ134には、様々なジャンルやテーマの文書が網羅的に含まれていてもよいし、特定のジャンルやテーマの文書だけが含まれていてもよい。なお、各ジャンルやテーマに該当する文書の数は均等である必要はなく、特定のジャンル或いはテーマの文書が多く、他のジャンル或いはテーマの文書が少ない、といったように偏りが生じていてもよい。
The
[処理フロー]
以下、第1実施形態における情報処理装置100による一連の処理の流れをフローチャートに即して説明する。図5は、第1実施形態における情報処理装置100による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。
[Processing flow]
Hereinafter, the flow of a series of processes by the
まず、キーワード付与部112は、キーワード抽出器データ132を基に、一つまたは複数のキーワード抽出器EXを構築(生成)し、構築したキーワード抽出器EXに、文書データ134に含まれる各文書から一以上のキーワードを抽出させ、抽出させたキーワードを抽出元の文書に付与する(S100)。キーワード付与部112は、「取得部」の一例である。また、キーワード付与部112によって構築されたキーワード抽出器EX、すなわち、プロセッサがキーワード抽出器データ132を参照することで実現されるキーワード抽出器EXは、「キーワード抽出装置」の一例である。
First, the
次に、文書分類部114は、通信部102を制御して、キーワード付与部112によりキーワードが付与された複数の文書を所定の端末装置10に送信し、所定の端末装置10のユーザに文書のグループ分けを依頼する(S102)。所定の端末装置10は、例えば、クラウドソーシングの参加者のコンピュータなどであってよい。文書のグループ分けを依頼されたユーザは、例えば、複数の文書を見て、内容が関連する文書同士を同じグループに分類し、その分類結果を、端末装置10を用いて情報処理装置100に送信する。
Next, the
図6は、文書の分類結果の一例を示す図である。図中の文書IDは、グループ分けが依頼された複数の文書の其々の識別情報を表す。図示の例では、文書IDが「DOC_A」の文書(以下、文書A)と、文書IDが「DOC_B」の文書(以下、文書B)と、文書IDが「DOC_C」の文書(以下、文書C)が、野球に関連したグループXに分類されており、文書IDが「DOC_D」の文書(以下、文書D)と、文書IDが「DOC_E」の文書(以下、文書E)が、サッカーに関連したグループYに分類されている。なお、各文書からは、2つずつキーワードが抽出されており、このキーワードの抽出数は、ハイパーパラメータとして予め決められているものとする。 FIG. 6 is a diagram showing an example of a document classification result. The document ID in the figure represents the identification information of each of the plurality of documents requested to be grouped. In the illustrated example, a document having a document ID of "DOC_A" (hereinafter, document A), a document having a document ID of "DOC_B" (hereinafter, document B), and a document having a document ID of "DOC_C" (hereinafter, document C). ) Is classified into group X related to baseball, and a document having a document ID of "DOC_D" (hereinafter referred to as "Document D") and a document having a document ID of "DOC_E" (hereinafter referred to as "Document E") are related to soccer. It is classified into the group Y. It should be noted that two keywords are extracted from each document, and the number of extracted keywords is assumed to be predetermined as a hyperparameter.
次に、抽出器評価部116は、通信部102が、所定の端末装置10から複数の文書の分類結果を取得するまで待機し(S104)、通信部102が複数の文書の分類結果を取得すると、グループに分類された複数の文書(母集団)の中から、着目する一つの文書(以下、着目文書と称する)を選択する(S106)。
Next, the
次に、抽出器評価部116は、選択した着目文書から抽出された一以上のキーワードと、着目文書と同じグループに分類された他文書から抽出された一以上のキーワードと比較して、これらのキーワードが互いに一致する度合に基づいて、F値(F-measure)を導出する。F値は、適合率(precision)と、再現率(recall)との調和平均によって導出されてよい。例えば、抽出器評価部116は、数式(1)に基づいてF値を導出し、数式(2)に基づいて適合率を導出し、数式(3)に基づいて再現率を導出する。
Next, the
上記式のRは、着目文書と同じグループに分類された一以上の他文書のうち、着目文書と同じキーワードが抽出された他文書の数を表し、Nは、グループ分けを依頼した複数の文書の中から着目文書を除いた残りの他文書のうち、着目文書と同じキーワードが抽出された他文書の数を表し、Cは、着目文書と同じグループに分類された他文書の数を表している。 R in the above formula represents the number of other documents in which the same keyword as the document of interest is extracted from among one or more other documents classified in the same group as the document of interest, and N is a plurality of documents requested to be grouped. Of the remaining other documents excluding the document of interest, the number of other documents in which the same keyword as the document of interest is extracted is represented, and C represents the number of other documents classified in the same group as the document of interest. There is.
図6に例示した分類結果である場合に、文書Aを着目文書とした場合、抽出器評価部116は、例えば、文書Aと同じグループに分類された他文書(B、C)のうち、「野球」というキーワードが抽出された文書の数Rと、グループを問わず文書Aを除く他文書(B~E)のうち、「野球」というキーワードが抽出された文書の数Nとの商を、文書Aから抽出された「野球」というキーワードの適合率として導出する。図6の例の場合、グループYの文書Dから「野球」というキーワードが抽出されているため、Nは1となり、グループXの各文書からは「野球」というキーワードが抽出されていないため、Rは0となる。従って、適合率は、0/1、すなわち0[%]となる。
In the case of the classification result exemplified in FIG. 6, when the document A is the document of interest, the
また、抽出器評価部116は、文書Aと同じグループに含まれる他文書(B、C)のうち、「野球」というキーワードが抽出された文書の数Rと、文書Aと同じグループに分類された他文書の数Cとの商を、文書Aから抽出された「野球」というキーワードの再現率として導出する。図6の例の場合、グループXには、文書Aの他に2つの文書が分類されているため、Cは2となり、それらの2つの文書からは「野球」というキーワードが抽出されていないため、Rは0となる。従って、再現率は、0/2、すなわち0[%]となる。
Further, the
同様に、文書Aから抽出された「ベースボール」というキーワードの適合率は、Rが2であり、Nが2であるため、100[%]となる。また、文書Aから抽出された「ベースボール」というキーワードの再現率は、Rが2であり、Cが2であるため、100[%]となる。 Similarly, the conformance rate of the keyword "baseball" extracted from the document A is 100 [%] because R is 2 and N is 2. Further, the recall rate of the keyword "baseball" extracted from the document A is 100 [%] because R is 2 and C is 2.
抽出器評価部116は、着目文書として選択した文書Aから抽出された各キーワードについて、F値を導出する。着目文書から抽出された各キーワードのF値は、キーワード毎のキーワード抽出器EXの性能を評価した評価値を表している。上述した数値例の場合、「野球」というキーワードのF値は、適合率が0[%]、再現率が0[%]であるため、(2×0[%]×0[%])/(0[%]+0[%])=0[%]となる。また、「ベースボール」というキーワードのF値は、適合率が100[%]、再現率が100[%]であるため、(2×100[%]×100[%])/(100[%]+100[%])=100[%]となる。
The
そして、抽出器評価部116は、各キーワードのF値を平均することで、着目文書のF値を導出する。着目文書のF値は、着目文書に対するキーワード抽出器EXの性能を評価した評価値を表している。上記の数値例の場合、文書AのF値は、50[%]となる。
Then, the
次に、抽出器評価部116は、母集団に含まれる全ての文書を着目文書として選択したか否かを判定し(S110)、未だ、全ての文書を着目文書として選択していない場合、着目文書を変更して、S106およびS108の処理を繰り返す。
Next, the
例えば、抽出器評価部116は、着目文書を文書Aから文書Eに変更した場合、文書Eから抽出された「サッカー」というキーワードの適合率については、Rが1であり、Nが2であるため、50[%]として導出し、文書Eから抽出された「サッカー」というキーワードの再現率については、Rが1であり、Cが1であるため、100[%]として導出する。抽出器評価部116は、文書Eの「サッカー」というキーワードのF値を、(2×50[%]×100[%])/(50[%]+100[%])≒66.7[%]として導出する。
For example, when the
また、抽出器評価部116は、文書Eから抽出された「野球」というキーワードの適合率については、Rが0であり、Nが1であるため、0[%]として導出し、文書Eから抽出された「野球」というキーワードの再現率については、Rが0であり、Cが1であるため、0[%]として導出する。抽出器評価部116は、文書Eの「野球」というキーワードのF値を、(2×0[%]×0[%])/(0[%]+0[%])=0[%]として導出する。そして、抽出器評価部116は、文書Eの各キーワードのF値の平均である33.3[%]を、文書EのF値として導出する。
Further, the
このように、抽出器評価部116は、着目文書を変更しながら、母集団に含まれる全ての文書のF値を求めることを繰り返す。
In this way, the
次に、抽出器評価部116は、母集団に含まれる全ての文書のF値に基づいて、キーワード抽出器EXを評価する(S112)。例えば、抽出器評価部116は、文書のF値をグループ毎に平均し、グループ毎に求めたF値の平均値を更に平均した値を、母集団に対するキーワード抽出器EXの性能を評価した評価値として導出する。
Next, the
図7は、キーワード抽出器EXの評価結果の一例を示す図である。図示の例では、複数のキーワード抽出器EXの其々についての評価結果を表している。図示の例のように、グループXに分類された文書A、B、Cの其々のF値は、50[%]である場合、抽出器評価部116は、3つの文書のF値の平均値である50[%]を、グループXに対するキーワード抽出器EXの性能を評価した評価値として導出する。また、グループYに分類された文書D、Eの其々のF値は、33[%]である場合、抽出器評価部116は、2つの文書のF値の平均値である33[%]を、グループYに対するキーワード抽出器EXの性能を評価した評価値として導出する。
FIG. 7 is a diagram showing an example of the evaluation result of the keyword extractor EX. In the illustrated example, the evaluation results for each of the plurality of keyword extractors EX are shown. As shown in the illustrated example, when the F value of each of the documents A, B, and C classified into the group X is 50 [%], the
そして、抽出器評価部116は、グループXのF値とグループYのF値との平均((50+33)/2)である42[%]を、母集団に対するキーワード抽出器EXの性能を評価した評価値として導出する。
Then, the
次に、抽出器評価部116は、通信部102を制御して、キーワード抽出器EXの評価結果(例えば母集団に対するF値)を、サービス提供装置20に送信する(S114)。これに受けて、サービス提供装置20は、例えば、複数のキーワード抽出器EXが存在する場合、F値が最も大きいキーワード抽出器EXを利用して、ウェブページなどからキーワードを抽出する。この結果、関連ページの検索に利用可能な汎用的なキーワード、すなわち文書間での共有性が高いキーワードが抽出されやすくなるため、より多くの関連ページをユーザに提供することができる。
Next, the
以上説明した第1実施形態によれば、関連する文書同士が人手によって同じグループに分類された複数の文書と、キーワード抽出器EXによって文書から抽出されたキーワードとを取得し、グループ内の文書間のキーワードの一致度合に基づいて、キーワード抽出器EXの性能を評価するため、性能が良いキーワード抽出器EXを利用することができ、文書間での共有性が高いキーワードを抽出することができる。これによって、ユーザが文書を検索したときに、その文書に関連した関連文書を容易に検索することができ、ユーザが検索した文書により関連し、且つより多くの関連文書を提供することができる。この結果、ユーザの情報収集の効率を向上させることができる。 According to the first embodiment described above, a plurality of documents in which related documents are manually classified into the same group and keywords extracted from the documents by the keyword extractor EX are acquired, and between the documents in the group. Since the performance of the keyword extractor EX is evaluated based on the degree of matching of the keywords in the above, the keyword extractor EX with good performance can be used, and keywords with high commonality between documents can be extracted. Thereby, when the user searches for a document, the related document related to the document can be easily searched, and the document searched by the user can be more related and more related documents can be provided. As a result, the efficiency of user information collection can be improved.
一般的に、キーワード抽出器EXは、予め、人間がこういった文書であればこういったキーワードが抽出される、という正解データを用意しておき、その正解データと、キーワード抽出器EXが抽出したキーワードとに基づいて、教師あり学習がなされる。このような場合、仮に、図6に例示した文書を想定した場合、人間が、グループXに分類された文書の正解データ(正解キーワード)を「野球」とした場合、キーワード抽出器EXによって「ベースボール」というキーワードが抽出された場合、そのキーワードは不正解となる。同様に、人の名前のフルネーム(氏名)を正解データとした場合、「名字」だけをキーワードとして抽出したり、「名前」だけをキーワードとして抽出したりした場合、それらは不正解となる。 In general, the keyword extractor EX prepares in advance correct answer data that such keywords are extracted if a human is such a document, and the correct answer data and the keyword extractor EX extract the correct answer data. Supervised learning is done based on the keywords. In such a case, assuming the document illustrated in FIG. 6, when a human sets the correct answer data (correct answer keyword) of the document classified into group X as "baseball", the keyword extractor EX "bases". If the keyword "ball" is extracted, that keyword is incorrect. Similarly, if the full name (name) of a person's name is used as the correct answer data, and if only the "last name" is extracted as a keyword or if only the "name" is extracted as a keyword, they are incorrect answers.
これに対して、上述した実施形態では、人間が正解データとして定めたキーワードと、キーワード抽出器EXが抽出したキーワードとを比較するのではなく、人間が定めたグループ内でキーワード抽出器EXが抽出したキーワード同士を比較するため、人間が定めた正解データの意味的な揺れに左右されずに、同じグループに分類された文書間でキーワードが同じであるのか異なっているのかという観点でキーワード抽出器EXを評価することができる。 On the other hand, in the above-described embodiment, the keyword extractor EX extracts the keyword within the group defined by the human, instead of comparing the keyword defined by the human as the correct answer data with the keyword extracted by the keyword extractor EX. In order to compare the keywords that have been created, the keyword extractor is used from the viewpoint of whether the keywords are the same or different between documents classified into the same group, without being influenced by the semantic fluctuation of the correct answer data determined by humans. EX can be evaluated.
また、例えば、複数の単語を組み合わせた比較的長いキーワードをキーワード抽出器EXが抽出するようにハイパーパラメータが決定されている場合、学習データもまた、キーワード抽出器EXが抽出するキーワードの長さに合わせる必要がある。この場合、ハイパーパラメータを変更して、キーワード抽出器EXに抽出させるキーワードの長さを調整した場合、学習データをその都度変える必要があり、学習データの作成コストが大きくなりやすい。 Further, for example, when the hyperparameters are determined so that the keyword extractor EX extracts a relatively long keyword that combines a plurality of words, the learning data is also set to the length of the keyword extracted by the keyword extractor EX. It needs to be matched. In this case, when the hyperparameters are changed to adjust the length of the keyword to be extracted by the keyword extractor EX, it is necessary to change the learning data each time, and the cost of creating the learning data tends to increase.
これに対して、上述した実施形態では、人間が定めたグループ内でキーワード抽出器EXが抽出したキーワード同士を比較するため、ハイパーパラメータを変更してキーワード抽出器EXに抽出させるキーワードの長さを変更したとしても、比較対象とするキーワード同士が共通して同じ長さとなり、更にグループ分け自体は変更されないため、学習データの作成コストを削減することができる。 On the other hand, in the above-described embodiment, in order to compare the keywords extracted by the keyword extractor EX within the group defined by humans, the length of the keywords to be extracted by the keyword extractor EX by changing the hyperparameters is set. Even if they are changed, the keywords to be compared have the same length in common, and the grouping itself is not changed, so that the cost of creating learning data can be reduced.
また、人間によって決められた正解データに対して、抽出するキーワードが近づくようにキーワード抽出器EXを学習する場合、正解データとして指定する全てのキーワードに対して、半角文字や小文字に統一したり、文末の助動詞の活用を「です、ます」調から、「である」調に変換したりするような前処理を行う必要がある。 In addition, when learning the keyword extractor EX so that the keywords to be extracted approach the correct answer data determined by humans, all the keywords specified as correct answer data may be unified into half-width characters or lowercase letters. It is necessary to perform preprocessing such as converting the conjugation of auxiliary verbs at the end of a sentence from "desu, masu" to "desu".
これに対して、上述した実施形態では、キーワード抽出器EXによって抽出されるキーワードの長さや各品詞の活用形を予めハイパーパラメータとして定義しておくだけで、上記のような前処理を省略することができる。 On the other hand, in the above-described embodiment, only the length of the keyword extracted by the keyword extractor EX and the inflected form of each part of speech are defined in advance as hyperparameters, and the above-mentioned preprocessing is omitted. Can be done.
このように、上述した実施形態によれば、複数の文書を事前にグループ分けするだけで、文書ごとに正解データを作成する必要がなくなり、学習に要するコスト(作業負担など)を削減することができる。また、上述した実施形態によれば、抽出すべきキーワードが、漢字がよいのか、英字などの外来語(横文字)がよいのか、フルネームがよいのか、といった種々のコンセプトについて考慮する必要がなくなる。また、上述した実施形態によれば、同じグループの他文書から抽出されるキーワードを正解データとするため、その文書に特有(固有)のキーワード(例えば、文書作成者が作った造語など)が含まれている場合、同じグループの他文書からも特有のキーワードが抽出されなければF値が小さくなるため、文書特有のキーワードを抽出しやすいキーワード抽出器EXほど利用され難くなり、文書間での共有性が高いキーワードを抽出しやすいキーワード抽出器EXほど利用され易くなる。 As described above, according to the above-described embodiment, it is possible to reduce the cost (work load, etc.) required for learning by eliminating the need to create correct answer data for each document simply by grouping a plurality of documents in advance. can. Further, according to the above-described embodiment, it is not necessary to consider various concepts such as whether the keywords to be extracted are Chinese characters, foreign words such as English characters (horizontal characters), and full names. Further, according to the above-described embodiment, since the keywords extracted from other documents in the same group are used as correct answer data, keywords peculiar (unique) to the document (for example, coined words created by the document creator) are included. If this is the case, the F value will be small unless specific keywords are extracted from other documents in the same group, so it will be more difficult to use as much as the keyword extractor EX, which makes it easier to extract document-specific keywords, and sharing between documents. The keyword extractor EX, which makes it easier to extract keywords with high characteristics, is easier to use.
また、上述した実施形態によれば、グループ毎に文書のF値の平均を求めるため、母集団のグループ間でのサンプル数(文書数)の偏りの影響を抑制することができる。例えば、特定のジャンル或いはテーマの文書が多く、他のジャンル或いはテーマの文書が少ない、といったような偏りが生じている場合、グループ単位ではなく、全ての文書でF値を平均した場合、サンプル数が多いグループのF値が全体の評価値に大きく反映され、サンプル数が多いグループに対してキーワードの抽出精度が高くなるようにキーワード抽出器が学習される傾向にある。これに対して、上述した実施形態では、先にグループ毎にF値の平均をとることで、グループ間のサンプル数の差をなくしてから、キーワード抽出器EXを学習することができる。この結果、どのグループからも、文書間での共有性が高いキーワードを精度良く抽出することができる。 Further, according to the above-described embodiment, since the average of the F values of the documents is obtained for each group, the influence of the bias of the number of samples (number of documents) among the groups of the population can be suppressed. For example, if there is a bias such as many documents of a specific genre or theme and few documents of other genres or themes, the number of samples when the F value is averaged for all documents, not for each group. The F-number of the group with a large number of samples is greatly reflected in the overall evaluation value, and the keyword extractor tends to be learned so that the keyword extraction accuracy is high for the group with a large number of samples. On the other hand, in the above-described embodiment, the keyword extractor EX can be learned after eliminating the difference in the number of samples between the groups by first averaging the F values for each group. As a result, keywords with high commonality between documents can be accurately extracted from any group.
<第2実施形態>
以下、第2実施形態について説明する。第2実施形態では、キーワードの抽出対象となる文書に類似する複数の類似文書のうち、キーワードの抽出対象となる文書に出現するキーワードの候補が出現する類似文書の数に基づいて、キーワードの抽出対象となる文書からキーワードを抽出する点で上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
<Second Embodiment>
Hereinafter, the second embodiment will be described. In the second embodiment, the keyword is extracted based on the number of similar documents in which the keyword candidates appearing in the document to be extracted of the keyword appear among a plurality of similar documents similar to the document to be extracted by the keyword. It differs from the above-described first embodiment in that keywords are extracted from the target document. Hereinafter, the differences from the first embodiment will be mainly described, and the points common to the first embodiment will be omitted. In the description of the second embodiment, the same parts as those of the first embodiment will be described with the same reference numerals.
図8は、第2実施形態における情報処理装置100Aの構成の一例を示す図である。図示のように、情報処理装置100Aは、例えば、通信部102と、制御部110Aと、記憶部130Aとを備える。
FIG. 8 is a diagram showing an example of the configuration of the
第2実施形態における制御部110Aは、例えば、上述したキーワード付与部112と、文書分類部114と、抽出器評価部116とに加えて、更に、類似文書選択部118と、学習処理部120とを備える。
The
第2実施形態における記憶部130Aには、ファームウェアやアプリケーションプログラムなどの各種プログラムと、キーワード抽出器データ132と、文書データ134とに加えて、更に、類似文書データ136が格納される。
In addition to various programs such as firmware and application programs,
類似文書データ136は、キーワードの抽出対象となる文書(文書データ134に含まれる各文書)に類似し得る複数の文書を含むデータである。文書同士が「類似する」とは、比較対象とする其々の文書をベクトル化したときに、あるベクトル空間において、それらの各文書のベクトルが互いに近い関係であることをいう。
The
[処理フロー]
以下、第2実施形態における情報処理装置100Aによる一連の処理の流れをフローチャートに即して説明する。図9は、第2実施形態における情報処理装置100Aによる一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。
[Processing flow]
Hereinafter, the flow of a series of processes by the
まず、類似文書選択部118は、文書データ134に含まれる複数の文書のうち、キーワード抽出器EXにキーワードを抽出させる対象の文書(以下、キーワード抽出対象文書と称する)と類似する類似文書を、類似文書データ136に含まれる複数の文書の中から選択する(S200)。キーワード抽出対象文書は、「着目文書」の他の例である。
First, the similar
例えば、類似文書選択部118は、キーワード抽出対象文書に含まれる各単語の出現頻度などの統計量を各要素とする多次元ベクトルを、キーワード抽出対象文書をベクトル化したキーワード抽出対象文書ベクトルとして生成する。また、類似文書選択部118は、ある着目する単語の前後に出現する単語を予測するタスクを学習するword2vecやdoc2vecといったアルゴリズムを利用したり、他の既存の手法を利用したりすることで、キーワード抽出対象文書ベクトルを生成してもよい。
For example, the similar
類似文書選択部118は、生成したキーワード抽出対象文書ベクトルと、類似文書データ136に含まれる、類似文書の候補となる各文書のベクトル(以下、類似文書候補ベクトルと称する)との類似度を導出する。類似文書候補ベクトルは、上述したキーワード抽出対象文書ベクトルの生成手法を利用して予め生成されているものとする。
The similar
例えば、類似文書選択部118は、キーワード抽出対象文書ベクトルと類似文書候補ベクトルとのコサイン類似度を導出し、複数の類似文書候補ベクトルのうち、キーワード抽出対象文書ベクトルとのコサイン類似度が大きい上位所定数(例えば10個)の類似文書候補ベクトルを抽出したり、キーワード抽出対象文書ベクトルとのコサイン類似度が閾値以上の全ての類似文書候補ベクトルを抽出したりする。そして、類似文書選択部118は、抽出した類似文書候補ベクトルの元となった文書を、類似文書として選択する。
For example, the similar
次に、キーワード付与部112は、キーワード抽出器EXに対して、キーワード抽出対象文書に出現するある単語Xが出現した類似文書の数をカウントさせ、そのカウントさせた数に基づいてTF‐IDFを計算させ、キーワード抽出対象文書に含まれる各キーワードの候補の単語や語句に重みを付与させる(S202)。
Next, the
第2実施形態におけるキーワード抽出器EXは、例えば、数式(4)に基づいて、キーワード抽出対象文書ごとにTF‐IDFを計算する。 The keyword extractor EX in the second embodiment calculates TF-IDF for each keyword extraction target document based on, for example, the mathematical formula (4).
キーワード抽出器EXは、複数の類似文書のうち、キーワード抽出対象文書に出現する単語Xが出現する類似文書の数を、全類似文書の数で除算した割合を求め、更に、その割合を、類似文書問わず類似文書データ136に含まれる全文書のうち、キーワード抽出対象文書に出現する単語Xが出現する文書数の対数値で除算することで、単語XについてのTF‐IDFを導出する。キーワード抽出器EXは、単語Xを変更しながら、キーワード抽出対象文書に含まれる各キーワード候補についてTF‐IDFを導出する。このような処理によって、キーワードを付与したい文書と、その文書に類似する類似文書との双方では出現し易く、それら以外の他文書では出現し難い単語Xほど、重みを大きくすることができる。
The keyword extractor EX obtains the ratio of the number of similar documents in which the word X appearing in the keyword extraction target document appears by the number of all similar documents among a plurality of similar documents, and further determines the ratio. Of all the documents included in the
一般的なTF-IDFは、キーワードを付与したい文書では出現し易く、類似文書を含む他文書では出現し難い単語Xほど重みを大きくするものである。そのため、キーワード抽出対象文書に関して特有の単語や語句がキーワードとして抽出されやすい。特有の単語や語句とは、例えば、その文書において特有の言い回しの表現や、文書作成者が作った造語などである。このような特有の単語や語句は、他の単語や語句と比べてIDFが大きくなるため、キーワードとして抽出されやすく、仮に、このキーワードを文書検索に利用した場合、キーワードの抽出元の文書に類似した文書を検索することが難しい場合がある。 The general TF-IDF is such that the word X, which is likely to appear in a document to which a keyword is to be added and is unlikely to appear in other documents including similar documents, has a larger weight. Therefore, it is easy to extract words and phrases peculiar to the keyword extraction target document as keywords. The peculiar words and phrases are, for example, expressions of peculiar phrases in the document and coined words created by the document creator. Since the IDF of such a unique word or phrase is larger than that of other words or phrases, it is easy to be extracted as a keyword. If this keyword is used for document search, it is similar to the document from which the keyword is extracted. It can be difficult to search for documents that have been created.
これに対して、本実施形態では、TF-IDFの分子式を、単語が自文書で何回出現したかということから、複数の類似文書のうち、どの程度の類似文書に自文書に含まれる単語が含まれているのかということに置き換えるため、より文書間での共有性が高いキーワードを抽出することができる。 On the other hand, in the present embodiment, the molecular formula of TF-IDF is determined by how many times the word appears in the own document, and therefore, among a plurality of similar documents, how many similar documents include the word in the own document. By substituting whether or not is included, it is possible to extract keywords that are more shared between documents.
次に、キーワード付与部112は、キーワード抽出器EXに、計算させたTF‐IDFを基に、文書データ134に含まれる各文書から一以上のキーワードを抽出させ、そのキーワードを抽出元の文書に付与する(S204)。
Next, the
以降のS206の処理からS216の処理は、上述したS102の処理からS112の処理と同じであるため説明を省略する。 Since the subsequent processes from S206 to S216 are the same as the processes from S102 to S112 described above, the description thereof will be omitted.
次に、学習処理部120は、抽出器評価部116によるキーワード抽出器EXの評価結果に基づいて、キーワード抽出器EXのハイパーパラメータを学習(決定)する(S218)。例えば、学習処理部120は、キーワード抽出器EXのF値が大きくなるように、TF‐IDFを計算する際に参照する類似文書の数(上述した所定数)や、ベクトル同士の類似度を導出手法、抽出するキーワードの長さ、キーワードの品詞、といったハイパーパラメータを決定する。
Next, the
また、学習処理部120は、類似文書が与えられなくても、上述した手法で得られたキーワードが抽出できるように、キーワード抽出器EXを学習してもよい。より具体的には、学習処理部120は、S204の処理で得られたキーワードを正解データとして、キーワード抽出器EXを教師あり学習する。これによって、類似文書を予め用意しておかなくとも、文書間での共有性が高いキーワードを精度良く抽出することができる。
Further, the
なお、上述した説明では、キーワード抽出器EXが、キーワード抽出対象文書に出現する単語Xが類似文書にも出現する回数をカウントするものとして説明したがこれに限られない。例えば、キーワード抽出器EXは、キーワード抽出対象文書により類似する類似文書ほど(類似度が大きい類似文書ほど)、TF-IDFの分子式の寄与度を大きくしてよい。例えば、類似文書として、文書X、Y、Zが存在する場合、数式(5)に基づいて、TF-IDFを求めてよい。 In the above description, the keyword extractor EX has been described as counting the number of times that the word X appearing in the keyword extraction target document also appears in a similar document, but the present invention is not limited to this. For example, in the keyword extractor EX, the contribution of the molecular formula of TF-IDF may be increased as the similar documents are more similar to the keyword extraction target document (similar documents having a higher degree of similarity). For example, when documents X, Y, and Z exist as similar documents, TF-IDF may be obtained based on the mathematical formula (5).
式中、WXは、文書Xの類似度を表し、WYは、文書Yの類似度を表し、WZは、文書Zの類似度を表している。キーワード抽出器EXは、キーワード抽出対象文書に出現する単語Xが出現する類似文書の各類似度の平均をTF-IDFの分子とすることで、より文書間での共有性が高いキーワードを抽出することができる。 In the formula, W X represents the similarity of the document X, W Y represents the similarity of the document Y, and W Z represents the similarity of the document Z. The keyword extractor EX extracts keywords with higher commonality between documents by using the average of each similarity of similar documents in which the word X appearing in the keyword extraction target document appears as the numerator of TF-IDF. be able to.
また、類似文書が、キーワード抽出対象文書との類似度に応じてランクが付けられている場合、キーワード抽出器EXは、そのランクの大きさに応じて重みを付けてもよい。例えば、キーワード抽出器EXは、キーワード抽出対象文書と最も類似するランク1位の類似文書には、1.0の重みを付与し、2番目にキーワード抽出対象文書と類似するランク2位の類似文書には、0.9の重みを付与し、3番目にキーワード抽出対象文書と類似するランク3位の類似文書には、0.8の重みを付与する、といったようにしてもよい。これによって、より文書間での共有性が高いキーワードを抽出することができる。 Further, when similar documents are ranked according to the degree of similarity with the keyword extraction target document, the keyword extractor EX may be weighted according to the magnitude of the rank. For example, the keyword extractor EX assigns a weight of 1.0 to a similar document having the highest rank, which is most similar to the document to be extracted by the keyword, and a similar document having the second rank, which is similar to the document to be extracted by the keyword. May be given a weight of 0.9, and a weight of 0.8 may be given to a similar document having a rank of 3 similar to the document to be extracted by the keyword. This makes it possible to extract keywords that are more shared between documents.
[利用場面]
図10は、キーワード抽出器EXにより抽出されたキーワードの利用場面の一例を示す図である。図示の例では、ショッピングサイトの一ページを模式的に表している。図中R1で示す領域には、商品の紹介文が掲載されている。このような紹介文は、キーワードの抽出対象の文書として扱われる。例えば、紹介文には、商品の型番(図の例では「ABCDEF‐24」)などが含まれているが、類似文書の単語の出現回数を考慮しない一般的なTF-IDFの場合、型番を表す単語や語句の重みが大きくなり、その型番がキーワードとして抽出されやすい。しかしながら、その商品に似た商品を探すときには、型番よりも概念的に上位の意味をもつ単語や語句がキーワードとして相応しい。概念的に上位の意味をもつ単語や語句とは、他の商品紹介文に含まれる単語や語句と共起し易いものであり、図示の例では、「液晶テレビ」などの単語が該当する。
[Usage scene]
FIG. 10 is a diagram showing an example of a usage scene of a keyword extracted by the keyword extractor EX. In the illustrated example, one page of a shopping site is schematically represented. In the area indicated by R1 in the figure, an introductory text of the product is posted. Such an introductory text is treated as a document for which keywords are extracted. For example, the introductory text includes the model number of the product (“ABCDEF-24” in the example in the figure), but in the case of a general TF-IDF that does not consider the number of occurrences of words in similar documents, the model number is used. The weight of the expressed word or phrase becomes large, and the model number is easily extracted as a keyword. However, when searching for a product similar to that product, words or phrases that have a conceptually higher meaning than the model number are suitable as keywords. Words and phrases that have a higher conceptual meaning are those that easily co-occur with words and phrases contained in other product introductions, and in the illustrated example, words such as "LCD TV" are applicable.
本実施形態では、キーワード抽出対象文書に出現する単語Xが類似文書にも出現する回数(割合)に基づいてTF-IDFを求めるため、型番のような、そのページの特有の単語や語句(汎用的でない単語や語句)が抽出され難くなり、ショッピングサイト間での共有性が高いキーワードを抽出することができる。この結果、例えば、抽出したキーワードを、商品カテゴリを表す単語とした場合、商品が分類され得る商品カテゴリを網羅的に用意しておく必要がなくなる。例えば、商品がショッピングサイトに追加されるごとに、その商品が掲載されるウェブページの紹介文からキーワードを抽出し、その抽出したキーワードが既存の商品カテゴリを表す単語や語句であれば、新規追加された商品を既存の商品カテゴリに分類し、抽出したキーワードが既存の商品カテゴリを表す単語や語句でなければ、そのキーワードを基に新たな商品カテゴリを作成し、新規追加された商品を新規作成した商品カテゴリに分類する、といった運用を行うことができる。 In this embodiment, since the TF-IDF is obtained based on the number of times (ratio) that the word X appearing in the keyword extraction target document also appears in similar documents, a word or phrase (general purpose) peculiar to the page such as a model number is obtained. It becomes difficult to extract untargeted words and phrases), and keywords that are highly shared among shopping sites can be extracted. As a result, for example, when the extracted keyword is a word representing a product category, it is not necessary to comprehensively prepare the product categories in which the products can be classified. For example, each time a product is added to a shopping site, a keyword is extracted from the introductory text of the web page on which the product is posted, and if the extracted keyword is a word or phrase that represents an existing product category, a new addition is added. If the extracted product is not a word or phrase that represents an existing product category, a new product category is created based on that keyword, and a newly added product is created. It is possible to perform operations such as classifying into the product categories that have been selected.
以上説明した第2実施形態によれば、キーワードの抽出対象とする文書に類似する複数の類似文書のうち、キーワードの抽出対象とする文書に出現するキーワードの候補が出現する類似文書の数に基づいて、キーワードの抽出対象とする文書からキーワードを抽出するため、より文書間での共有性が高いキーワードを抽出することができる。この結果、ユーザが文書を検索したときに、文書間での共有性が高いキーワードを利用することで、その文書に関連した関連文書を容易に検索することができ、ユーザが検索した文書により関連し、且つより多くの関連文書を提供することができる。この結果、ユーザの情報収集の効率を更に向上させることができる。 According to the second embodiment described above, among a plurality of similar documents similar to the document to be extracted by the keyword, the number of similar documents in which the candidate of the keyword appearing in the document to be extracted by the keyword appears is based on the number of similar documents. Since the keywords are extracted from the documents to be extracted, it is possible to extract the keywords that are more shared among the documents. As a result, when a user searches for a document, by using keywords that are highly shared between the documents, it is possible to easily search for related documents related to the document, and the document searched by the user is more related. And more relevant documents can be provided. As a result, the efficiency of user information collection can be further improved.
<ハードウェア構成>
上述した実施形態の情報処理装置100は、例えば、図11に示すようなハードウェア構成により実現される。図11は、実施形態の情報処理装置100、100Aのハードウェア構成の一例を示す図である。
<Hardware configuration>
The
情報処理装置100、100Aは、NIC100-1、CPU100-2、RAM100-3、ROM100-4、フラッシュメモリやHDDなどの二次記憶装置100-5、およびドライブ装置100-6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100-6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100-5、またはドライブ装置100-6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100-3に展開され、CPU100-2によって実行されることで、制御部110または110Aが実現される。制御部110または110Aが参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
1…情報処理システム、10…端末装置、20…サービス提供装置、100、100A…情報処理装置、102…通信部、110、110A…制御部、112…キーワード付与部、114…文書分類部、116…抽出器評価部、118…類似文書選択部、120…学習処理部、130、130A…記憶部 1 ... Information processing system, 10 ... Terminal device, 20 ... Service providing device, 100, 100A ... Information processing device, 102 ... Communication unit, 110, 110A ... Control unit, 112 ... Keyword assigning unit, 114 ... Document classification unit, 116 ... Extractor evaluation unit, 118 ... Similar document selection unit, 120 ... Learning processing unit, 130, 130A ... Storage unit
Claims (9)
キーワード抽出装置。 A processing unit that extracts the keyword candidates included in the focus document as keywords based on the number of similar documents in which the keyword candidates appearing in the focus document appear among a plurality of similar documents similar to the focus document. Equipped with
Keyword extractor.
前記着目文書に出現するキーワードの候補が出現する前記類似文書の数に基づいて、前記キーワードの候補ごとに重み係数を算出し、
前記算出した重み係数に基づいて、前記着目文書に含まれる複数の前記キーワードの候補の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置。 The processing unit
A weighting coefficient is calculated for each keyword candidate based on the number of similar documents in which keyword candidates appearing in the document of interest appear.
Based on the calculated weighting coefficient, the keyword is extracted from a plurality of candidates for the keyword included in the document of interest.
The keyword extraction device according to claim 1.
前記着目文書に出現するキーワードの候補が出現する前記類似文書の数を、前記複数の類似文書の数で除算した割合を算出し、
前記複数の類似文書と前記着目文書に類似しない複数の非類似文書とを合わせた全文書のうち、前記着目文書に出現するキーワードの候補が出現する文書の数の対数値で、前記算出した割合を除算し、
前記割合と前記対数値との商を、前記重み係数として算出する、
請求項2に記載のキーワード抽出装置。 The processing unit
The ratio of the number of similar documents in which keyword candidates appearing in the document of interest are divided by the number of the plurality of similar documents is calculated.
The ratio calculated by the logarithm of the number of documents in which the keyword candidates appearing in the document of interest appear among all the documents including the plurality of similar documents and the plurality of dissimilar documents not similar to the document of interest. Divide and
The quotient of the ratio and the logarithmic value is calculated as the weighting factor.
The keyword extraction device according to claim 2.
請求項2又は3に記載のキーワード抽出装置。 The processing unit repeatedly calculates the weighting coefficient for each keyword candidate included in the focused document while changing the keyword candidates appearing in the focused document.
The keyword extraction device according to claim 2 or 3.
前記着目文書に出現するキーワードの候補が出現する前記類似文書の前記着目文書に対する類似度に基づいて、前記キーワードの候補ごとに重み係数を算出し、
前記算出した重み係数に基づいて、前記着目文書に含まれる複数の前記キーワードの候補の中から、前記キーワードを抽出する、
請求項1から4のうちいずれか一項に記載のキーワード抽出装置。 The processing unit
A weighting coefficient is calculated for each candidate of the keyword based on the degree of similarity of the similar document to the document of interest in which the candidate of the keyword appearing in the document of interest appears.
Based on the calculated weighting coefficient, the keyword is extracted from a plurality of candidates for the keyword included in the document of interest.
The keyword extraction device according to any one of claims 1 to 4.
前記複数の類似文書のそれぞれの前記類似度の平均を算出し、
前記複数の類似文書と前記着目文書に類似しない複数の非類似文書とを合わせた全文書のうち、前記着目文書に出現するキーワードの候補が出現する文書の数の対数値で、前記類似度の平均を除算し、
前記類似度の平均と前記対数値との商を、前記重み係数として算出する、
請求項5に記載のキーワード抽出装置。 The processing unit
The average of the similarity of each of the plurality of similar documents was calculated.
The logarithmic value of the number of documents in which the keyword candidates appearing in the document of interest appear among all the documents including the plurality of similar documents and the plurality of dissimilar documents not similar to the document of interest, and the degree of similarity. Divide the average and
The quotient between the average of the similarity and the logarithmic value is calculated as the weighting factor.
The keyword extraction device according to claim 5.
請求項5又は6に記載のキーワード抽出装置。 The processing unit increases the weighting coefficient as the similarity is larger, and decreases the weighting coefficient as the similarity is smaller.
The keyword extraction device according to claim 5 or 6.
着目文書に類似する複数の類似文書のうち、前記着目文書に出現するキーワードの候補が出現する前記類似文書の数に基づいて、前記着目文書に含まれる前記キーワードの候補をキーワードとして抽出する、
キーワード抽出方法。 The computer
Among a plurality of similar documents similar to the document of interest, the candidate of the keyword included in the document of interest is extracted as a keyword based on the number of the similar documents in which the candidate of the keyword appearing in the document of interest appears.
Keyword extraction method.
着目文書に類似する複数の類似文書のうち、前記着目文書に出現するキーワードの候補が出現する前記類似文書の数に基づいて、前記着目文書に含まれる前記キーワードの候補をキーワードとして抽出すること、
を実行させるためのプログラム。 On the computer
Extracting the keyword candidates included in the focus document as keywords based on the number of the similar documents in which the keyword candidates appearing in the focus document appear among a plurality of similar documents similar to the focus document.
A program to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021191504A JP7297855B2 (en) | 2018-02-28 | 2021-11-25 | Keyword extraction device, keyword extraction method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018034643A JP6985181B2 (en) | 2018-02-28 | 2018-02-28 | Information processing equipment, information processing methods, and programs |
JP2021191504A JP7297855B2 (en) | 2018-02-28 | 2021-11-25 | Keyword extraction device, keyword extraction method, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018034643A Division JP6985181B2 (en) | 2018-02-28 | 2018-02-28 | Information processing equipment, information processing methods, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022029461A true JP2022029461A (en) | 2022-02-17 |
JP7297855B2 JP7297855B2 (en) | 2023-06-26 |
Family
ID=86900497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021191504A Active JP7297855B2 (en) | 2018-02-28 | 2021-11-25 | Keyword extraction device, keyword extraction method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7297855B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241636A (en) * | 2006-03-08 | 2007-09-20 | Toshiba Corp | Document data analyzer and document data analysis program |
JP2011090447A (en) * | 2009-10-21 | 2011-05-06 | Ntt Data Corp | Device and method for generating document determination condition |
JP2017027495A (en) * | 2015-07-27 | 2017-02-02 | Kddi株式会社 | Verification device, classification system, verification method, classification method, and computer program |
-
2021
- 2021-11-25 JP JP2021191504A patent/JP7297855B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241636A (en) * | 2006-03-08 | 2007-09-20 | Toshiba Corp | Document data analyzer and document data analysis program |
JP2011090447A (en) * | 2009-10-21 | 2011-05-06 | Ntt Data Corp | Device and method for generating document determination condition |
JP2017027495A (en) * | 2015-07-27 | 2017-02-02 | Kddi株式会社 | Verification device, classification system, verification method, classification method, and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP7297855B2 (en) | 2023-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10503828B2 (en) | System and method for answering natural language question | |
US7519588B2 (en) | Keyword characterization and application | |
CN105183833B (en) | Microblog text recommendation method and device based on user model | |
US20160063094A1 (en) | Spelling Correction of Email Queries | |
US20180268307A1 (en) | Analysis device, analysis method, and computer readable storage medium | |
US20110022550A1 (en) | Mixing knowledge sources with auto learning for improved entity extraction | |
US20070174319A1 (en) | Method for adjusting concept-based keyword functions, and search engine employing the same | |
US11397740B2 (en) | Method and apparatus for providing information by using degree of association between reserved word and attribute language | |
JP2018156473A (en) | Analysis device, analysis method, and program | |
JP5538185B2 (en) | Text data summarization device, text data summarization method, and text data summarization program | |
US20140201217A1 (en) | Unified Semantic Scoring of Compositions of Ontological Subjects | |
CN110717038A (en) | Object classification method and device | |
US20110022598A1 (en) | Mixing knowledge sources for improved entity extraction | |
JP6924571B2 (en) | Information processing equipment, information processing methods, and information processing programs | |
CN113515589B (en) | Data recommendation method, device, equipment and medium | |
JP7067884B2 (en) | Classification device, classification method and classification program | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
JP2018088051A (en) | Information processing device, information processing method and program | |
JP6985181B2 (en) | Information processing equipment, information processing methods, and programs | |
JP3693514B2 (en) | Document retrieval / classification method and apparatus | |
JP2017134675A (en) | Device and program for searching for information | |
JP7297855B2 (en) | Keyword extraction device, keyword extraction method, and program | |
JP2020057188A (en) | Providing apparatus, providing method and providing program | |
KR101308821B1 (en) | Keyword extraction system for search engines and extracting method thereof | |
Kato et al. | Content-based retrieval for heterogeneous domains: domain adaptation by relative aggregation points |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7297855 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |