JP7297855B2

JP7297855B2 - キーワード抽出装置、キーワード抽出方法、およびプログラム

Info

Publication number: JP7297855B2
Application number: JP2021191504A
Authority: JP
Inventors: 俊平大倉; 真吾星野
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-02-28
Filing date: 2021-11-25
Publication date: 2023-06-26
Anticipated expiration: 2038-02-28
Also published as: JP2022029461A

Description

本発明は、キーワード抽出装置、キーワード抽出方法、およびプログラムに関する。

インターネット上で配信されるニュース記事のような文書には、過去に配信された文書の事柄を前提とする、続報記事のような関連文書が多数存在する。これに関連し、過去に配信した記事の事柄に関連した続報記事を配信する技術が知られている（例えば、特許文献１参照）。

特開２００５－２４２７５８号公報

しかしながら、従来の技術では、ユーザが文書を検索したときに、その文書に関連した関連文書を精度良く検索することができず、その結果、ユーザの情報収集の効率が低下する場合があった。

本発明は、上記の課題に鑑みてなされたものであり、ユーザの情報収集の効率を向上させることができるキーワード抽出装置、キーワード抽出方法、およびプログラムを提供することを目的としている。

本発明の一態様は、着目文書に類似する複数の類似文書のうち、前記着目文書に出現するキーワードの候補が出現する前記類似文書の数に基づいて、前記着目文書に含まれる前記キーワードの候補をキーワードとして抽出する処理部を備える、
キーワード抽出装置である。

本発明の一態様によれば、ユーザの情報収集の効率を向上させることができる。

第１実施形態における情報処理装置１００を含む情報処理システム１の一例を示す図である。サービス提供装置２０により提供されるウェブページの一例を示す図である。関連ページの一例を示す図である。第１実施形態における情報処理装置１００の構成の一例を示す図である。第１実施形態における情報処理装置１００による一連の処理の流れを示すフローチャートである。文書の分類結果の一例を示す図である。キーワード抽出器ＥＸの評価結果の一例を示す図である。第２実施形態における情報処理装置１００Ａの構成の一例を示す図である。第２実施形態における情報処理装置１００Ａによる一連の処理の流れを示すフローチャートである。キーワード抽出器ＥＸにより抽出されたキーワードの利用場面の一例を示す図である。実施形態の情報処理装置１００、１００Ａのハードウェア構成の一例を示す図である。

以下、本発明を適用したキーワード抽出装置、キーワード抽出方法、およびプログラムを、図面を参照して説明する。

［概要］
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、関連する文書同士が人手によって同じグループに分類された複数の文書と、複数の文書から、文書内において所定の特徴を有するキーワードを抽出するキーワード抽出器によって抽出されたキーワードとを取得する。情報処理装置は、複数の文書とキーワードとを取得すると、グループ内の文書間のキーワードの一致度合に基づいて、キーワード抽出器の性能を評価する。キーワード抽出器の性能が高いほど、キーワード抽出器により抽出されたキーワードが、文書本来の意味や概念を表したものとなる。このようなキーワードを利用して文書検索を行った場合、キーワード抽出器がキーワードの抽出対象とした文書に関連した文書を検索することができる。この結果、ユーザの情報収集の効率を向上させることができる。

＜第１実施形態＞
［全体構成］
図１は、第１実施形態における情報処理装置１００を含む情報処理システム１の一例を示す図である。第１実施形態における情報処理システム１は、例えば、一以上の端末装置１０と、サービス提供装置２０と、情報処理装置１００とを備える。これらの装置は、ネットワークＮＷを介して接続される。

図１に示す各装置は、ネットワークＮＷを介して種々の情報を送受信する。ネットワークＮＷは、例えば、インターネット、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、プロバイダ端末、無線通信網、無線基地局、専用回線などを含む。なお、図１に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークＮＷは、一部にローカルなネットワークを含んでもよい。

端末装置１０は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、ＮＩＣ（Network Interface Card）などのネットワークカード、無線通信モジュールなどを含む。端末装置１０では、ウェブブラウザやアプリケーションプログラムなどのＵＡ（User Agent）が起動し、ユーザの入力する内容に応じたリクエストをサービス提供装置２０に送信する。また、ＵＡが起動された端末装置１０は、サービス提供装置２０から取得した情報に基づいて、表示装置に各種画像を表示させる。

サービス提供装置２０は、例えば、ウェブブラウザからのリクエストに応じてウェブページを端末装置１０に提供するウェブサーバである。ウェブページは、例えば、検索サービスを提供するウェブページ（以下、検索ページと称する）である。検索ページには、例えば、ニュース記事などの文書（テキストデータ）や、動画像データ、静止画像データ、音声データなどのコンテンツが含まれる。また、サービス提供装置２０は、インターネットショッピングやＳＮＳ（Social Networking Service）、メールサービスなどの各種サービスを提供するウェブページを端末装置１０に提供してもよい。また、サービス提供装置２０は、アプリケーションプログラムからのリクエストに応じてコンテンツを端末装置１０に提供するアプリケーションサーバであってもよい。

例えば、ユーザが端末装置１０に表示された検索ページに対してクエリを入力した場合、サービス提供装置２０は、クエリに対応した単語（ワード）や語句（フレーズ）が文書中に含まれるウェブページを、クエリによる検索結果として端末装置１０に提供する。これを受けて、ユーザが検索結果の中から所望のウェブページを選択した場合、サービス提供装置２０は、ユーザにより選択されたウェブページから抽出されたキーワードを、当該ウェブページに含めて端末装置１０に提供する。サービス提供装置２０は、後述するキーワード抽出器ＥＸを利用して、提供対象のウェブページから予めキーワードを抽出して置いてもよいし、検索時に併せて提供対象のウェブページからキーワードを抽出してもよい。

図２は、サービス提供装置２０により提供されるウェブページの一例を示す図である。図示の例のように、オリンピックに関連したニュース記事が掲載されたウェブページが提供される場合、そのウェブページには、ニュース記事から抽出された、「○○五輪」や「○○オリンピック」、「□□□□選手」のようなキーワードＫＷが含まれる。キーワードＫＷには、そのキーワードＫＷをクエリとした検索結果にアクセスするためのＵＲＬ（Uniform Resource Locator）がリンク付けられる。そのため、キーワードＫＷは、文書の内容を端的に表現していることが好ましく、更に、キーワードをクエリとした場合、容易に他の文書を検索することができることが好ましい。このように、キーワードＫＷの検索結果へのリンク先が含まれるウェブページをユーザに提供することで、ユーザは、自身が検索した情報に関連した情報も併せて取得することができる。以下、キーワードＫＷをクエリとして検索することで得られるウェブページのことを、「関連ページ」と称する。

図３は、関連ページの一例を示す図である。図示の例では、図２に例示した「○○五輪」というキーワードＫＷをクエリとして検索したときの検索結果を表している。このような検索結果には、「○○五輪」に関連した各関連ページのタイトルやＵＲＬ、要約（スニペット）、画像などが項目（リスト）として掲載される。図示の例では、最上段の関連ページには文書Ａが含まれ、２番目の関連ページには文書Ｂが含まれ、３番目の関連ページには文書Ｃが含まれていることを表している。これらの各関連ページには、キーワードの候補となる単語や語句の集合である文書が含まれる。関連ページに含まれる文書（以下、関連文書）と、キーワードの抽出元の文書とは、互いに同一のキーワードを共有しているという性質（キーワード或いはキーフレーズの共有性）を有している。キーフレーズの共有性が高いほど、すなわち、同一のキーワードの共有数が多いほど、より多くの関連ページをユーザに提供することができる。

情報処理装置１００は、サービス提供装置２０が利用するキーワード抽出器ＥＸを、そのキーワード抽出器ＥＸによって各文書から抽出されたキーワード同士を比較することで評価する。

［情報処理装置の構成］
図４は、第１実施形態における情報処理装置１００の構成の一例を示す図である。図示のように、情報処理装置１００は、例えば、通信部１０２と、制御部１１０と、記憶部１３０とを備える。

通信部１０２は、例えば、ＮＩＣ等の通信インターフェースを含む。通信部１０２は、ネットワークＮＷを介して、端末装置１０やサービス提供装置２０などと通信する。

制御部１１０は、例えば、キーワード付与部１１２と、文書分類部１１４と、抽出器評価部１１６とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）などのプロセッサが記憶部１３０に格納されたプログラムを実行することにより実現される。また、制御部１１０の構成要素の一部または全部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitry）により実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

記憶部１３０は、例えば、ＨＤＤ（Hard Disc Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などの記憶装置により実現される。記憶部１３０には、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、キーワード抽出器データ１３２や文書データ１３４が格納される。

キーワード抽出器データ１３２は、キーワード抽出器ＥＸがどういった抽出器であるのかを定義した情報（プログラム）であり、例えば、複数のキーワード抽出器ＥＸの其々を定義した情報であってよい。例えば、キーワード抽出器ＥＸは、複数の単語や語句を含む文書を形態素解析によって、キーワードの候補となる複数の形態素に分割し、ＴＦ（Term Frequency）‐ＩＤＦ（Inverse Document Frequency）などの単語の出現頻度を評価する手法を用いて、分割した各形態素、または複数の形態素を組み合わせに対して重みを付け、その重みが大きいものをキーワードとして抽出する。ＴＦ‐ＩＤＦに基づく重みは、「所定の特徴」の一例である。

例えば、キーワード抽出器ＥＸは、キーワードの候補とする形態素の数を１つに限らず、所定数（例えば３つ）とすることで、所定の長さのキーワードを抽出してよい。また、例えば、キーワード抽出器ＥＸは、キーワードの候補となる形態素を、名詞や形容詞、動詞などの特定の品詞に限定してもよい。また、例えば、キーワード抽出器ＥＸは、キーワードの候補となる形態素を、半角文字或いは全角文字に限定したり、アルファベットであれば小文字に限定したりしてもよい。また、例えば、キーワード抽出器ＥＸは、キーワードの候補とする品詞の活用形を所定の活用形に変換してもよい。具体的には、キーワード抽出器ＥＸは、形態素として助動詞をキーワードの候補とする場合、助動詞の活用を「です、ます」調から、「である」調に変換してよい。このように、キーワードの長さを指定したり、品詞の種類を限定したり、全角半角や大文字小文字を指定したり、品詞の活用を指定したりすることは、キーワード抽出器ＥＸの設計者（例えばシステムエンジニアなど）が事前に決定するハイパーパラメータとして扱われる。

文書データ１３４は、複数の文書（例えば１万件の文書）を含むデータであり、例えば、サービス提供装置２０により提供される各ウェブページに含まれる文書を含んでもよいし、これとは別に用意された文書を含んでもよい。文書データ１３４には、様々なジャンルやテーマの文書が網羅的に含まれていてもよいし、特定のジャンルやテーマの文書だけが含まれていてもよい。なお、各ジャンルやテーマに該当する文書の数は均等である必要はなく、特定のジャンル或いはテーマの文書が多く、他のジャンル或いはテーマの文書が少ない、といったように偏りが生じていてもよい。

［処理フロー］
以下、第１実施形態における情報処理装置１００による一連の処理の流れをフローチャートに即して説明する。図５は、第１実施形態における情報処理装置１００による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。

まず、キーワード付与部１１２は、キーワード抽出器データ１３２を基に、一つまたは複数のキーワード抽出器ＥＸを構築（生成）し、構築したキーワード抽出器ＥＸに、文書データ１３４に含まれる各文書から一以上のキーワードを抽出させ、抽出させたキーワードを抽出元の文書に付与する（Ｓ１００）。キーワード付与部１１２は、「取得部」の一例である。また、キーワード付与部１１２によって構築されたキーワード抽出器ＥＸ、すなわち、プロセッサがキーワード抽出器データ１３２を参照することで実現されるキーワード抽出器ＥＸは、「キーワード抽出装置」の一例である。

次に、文書分類部１１４は、通信部１０２を制御して、キーワード付与部１１２によりキーワードが付与された複数の文書を所定の端末装置１０に送信し、所定の端末装置１０のユーザに文書のグループ分けを依頼する（Ｓ１０２）。所定の端末装置１０は、例えば、クラウドソーシングの参加者のコンピュータなどであってよい。文書のグループ分けを依頼されたユーザは、例えば、複数の文書を見て、内容が関連する文書同士を同じグループに分類し、その分類結果を、端末装置１０を用いて情報処理装置１００に送信する。

図６は、文書の分類結果の一例を示す図である。図中の文書ＩＤは、グループ分けが依頼された複数の文書の其々の識別情報を表す。図示の例では、文書ＩＤが「ＤＯＣ＿Ａ」の文書（以下、文書Ａ）と、文書ＩＤが「ＤＯＣ＿Ｂ」の文書（以下、文書Ｂ）と、文書ＩＤが「ＤＯＣ＿Ｃ」の文書（以下、文書Ｃ）が、野球に関連したグループＸに分類されており、文書ＩＤが「ＤＯＣ＿Ｄ」の文書（以下、文書Ｄ）と、文書ＩＤが「ＤＯＣ＿Ｅ」の文書（以下、文書Ｅ）が、サッカーに関連したグループＹに分類されている。なお、各文書からは、２つずつキーワードが抽出されており、このキーワードの抽出数は、ハイパーパラメータとして予め決められているものとする。

次に、抽出器評価部１１６は、通信部１０２が、所定の端末装置１０から複数の文書の分類結果を取得するまで待機し（Ｓ１０４）、通信部１０２が複数の文書の分類結果を取得すると、グループに分類された複数の文書（母集団）の中から、着目する一つの文書（以下、着目文書と称する）を選択する（Ｓ１０６）。

次に、抽出器評価部１１６は、選択した着目文書から抽出された一以上のキーワードと、着目文書と同じグループに分類された他文書から抽出された一以上のキーワードと比較して、これらのキーワードが互いに一致する度合に基づいて、Ｆ値（F-measure）を導出する。Ｆ値は、適合率（precision）と、再現率（recall）との調和平均によって導出されてよい。例えば、抽出器評価部１１６は、数式（１）に基づいてＦ値を導出し、数式（２）に基づいて適合率を導出し、数式（３）に基づいて再現率を導出する。

上記式のＲは、着目文書と同じグループに分類された一以上の他文書のうち、着目文書と同じキーワードが抽出された他文書の数を表し、Ｎは、グループ分けを依頼した複数の文書の中から着目文書を除いた残りの他文書のうち、着目文書と同じキーワードが抽出された他文書の数を表し、Ｃは、着目文書と同じグループに分類された他文書の数を表している。

図６に例示した分類結果である場合に、文書Ａを着目文書とした場合、抽出器評価部１１６は、例えば、文書Ａと同じグループに分類された他文書（Ｂ、Ｃ）のうち、「野球」というキーワードが抽出された文書の数Ｒと、グループを問わず文書Ａを除く他文書（Ｂ～Ｅ）のうち、「野球」というキーワードが抽出された文書の数Ｎとの商を、文書Ａから抽出された「野球」というキーワードの適合率として導出する。図６の例の場合、グループＹの文書Ｄから「野球」というキーワードが抽出されているため、Ｎは１となり、グループＸの各文書からは「野球」というキーワードが抽出されていないため、Ｒは０となる。従って、適合率は、０／１、すなわち０［％］となる。

また、抽出器評価部１１６は、文書Ａと同じグループに含まれる他文書（Ｂ、Ｃ）のうち、「野球」というキーワードが抽出された文書の数Ｒと、文書Ａと同じグループに分類された他文書の数Ｃとの商を、文書Ａから抽出された「野球」というキーワードの再現率として導出する。図６の例の場合、グループＸには、文書Ａの他に２つの文書が分類されているため、Ｃは２となり、それらの２つの文書からは「野球」というキーワードが抽出されていないため、Ｒは０となる。従って、再現率は、０／２、すなわち０［％］となる。

同様に、文書Ａから抽出された「ベースボール」というキーワードの適合率は、Ｒが２であり、Ｎが２であるため、１００［％］となる。また、文書Ａから抽出された「ベースボール」というキーワードの再現率は、Ｒが２であり、Ｃが２であるため、１００［％］となる。

抽出器評価部１１６は、着目文書として選択した文書Ａから抽出された各キーワードについて、Ｆ値を導出する。着目文書から抽出された各キーワードのＦ値は、キーワード毎のキーワード抽出器ＥＸの性能を評価した評価値を表している。上述した数値例の場合、「野球」というキーワードのＦ値は、適合率が０［％］、再現率が０［％］であるため、（２×０［％］×０［％］）／（０［％］＋０［％］）＝０［％］となる。また、「ベースボール」というキーワードのＦ値は、適合率が１００［％］、再現率が１００［％］であるため、（２×１００［％］×１００［％］）／（１００［％］＋１００［％］）＝１００［％］となる。

そして、抽出器評価部１１６は、各キーワードのＦ値を平均することで、着目文書のＦ値を導出する。着目文書のＦ値は、着目文書に対するキーワード抽出器ＥＸの性能を評価した評価値を表している。上記の数値例の場合、文書ＡのＦ値は、５０［％］となる。

次に、抽出器評価部１１６は、母集団に含まれる全ての文書を着目文書として選択したか否かを判定し（Ｓ１１０）、未だ、全ての文書を着目文書として選択していない場合、着目文書を変更して、Ｓ１０６およびＳ１０８の処理を繰り返す。

例えば、抽出器評価部１１６は、着目文書を文書Ａから文書Ｅに変更した場合、文書Ｅから抽出された「サッカー」というキーワードの適合率については、Ｒが１であり、Ｎが２であるため、５０［％］として導出し、文書Ｅから抽出された「サッカー」というキーワードの再現率については、Ｒが１であり、Ｃが１であるため、１００［％］として導出する。抽出器評価部１１６は、文書Ｅの「サッカー」というキーワードのＦ値を、（２×５０［％］×１００［％］）／（５０［％］＋１００［％］）≒６６．７［％］として導出する。

また、抽出器評価部１１６は、文書Ｅから抽出された「野球」というキーワードの適合率については、Ｒが０であり、Ｎが１であるため、０［％］として導出し、文書Ｅから抽出された「野球」というキーワードの再現率については、Ｒが０であり、Ｃが１であるため、０［％］として導出する。抽出器評価部１１６は、文書Ｅの「野球」というキーワードのＦ値を、（２×０［％］×０［％］）／（０［％］＋０［％］）＝０［％］として導出する。そして、抽出器評価部１１６は、文書Ｅの各キーワードのＦ値の平均である３３．３［％］を、文書ＥのＦ値として導出する。

このように、抽出器評価部１１６は、着目文書を変更しながら、母集団に含まれる全ての文書のＦ値を求めることを繰り返す。

次に、抽出器評価部１１６は、母集団に含まれる全ての文書のＦ値に基づいて、キーワード抽出器ＥＸを評価する（Ｓ１１２）。例えば、抽出器評価部１１６は、文書のＦ値をグループ毎に平均し、グループ毎に求めたＦ値の平均値を更に平均した値を、母集団に対するキーワード抽出器ＥＸの性能を評価した評価値として導出する。

図７は、キーワード抽出器ＥＸの評価結果の一例を示す図である。図示の例では、複数のキーワード抽出器ＥＸの其々についての評価結果を表している。図示の例のように、グループＸに分類された文書Ａ、Ｂ、Ｃの其々のＦ値は、５０［％］である場合、抽出器評価部１１６は、３つの文書のＦ値の平均値である５０［％］を、グループＸに対するキーワード抽出器ＥＸの性能を評価した評価値として導出する。また、グループＹに分類された文書Ｄ、Ｅの其々のＦ値は、３３［％］である場合、抽出器評価部１１６は、２つの文書のＦ値の平均値である３３［％］を、グループＹに対するキーワード抽出器ＥＸの性能を評価した評価値として導出する。

そして、抽出器評価部１１６は、グループＸのＦ値とグループＹのＦ値との平均（（５０＋３３）／２）である４２［％］を、母集団に対するキーワード抽出器ＥＸの性能を評価した評価値として導出する。

次に、抽出器評価部１１６は、通信部１０２を制御して、キーワード抽出器ＥＸの評価結果（例えば母集団に対するＦ値）を、サービス提供装置２０に送信する（Ｓ１１４）。これに受けて、サービス提供装置２０は、例えば、複数のキーワード抽出器ＥＸが存在する場合、Ｆ値が最も大きいキーワード抽出器ＥＸを利用して、ウェブページなどからキーワードを抽出する。この結果、関連ページの検索に利用可能な汎用的なキーワード、すなわち文書間での共有性が高いキーワードが抽出されやすくなるため、より多くの関連ページをユーザに提供することができる。

以上説明した第１実施形態によれば、関連する文書同士が人手によって同じグループに分類された複数の文書と、キーワード抽出器ＥＸによって文書から抽出されたキーワードとを取得し、グループ内の文書間のキーワードの一致度合に基づいて、キーワード抽出器ＥＸの性能を評価するため、性能が良いキーワード抽出器ＥＸを利用することができ、文書間での共有性が高いキーワードを抽出することができる。これによって、ユーザが文書を検索したときに、その文書に関連した関連文書を容易に検索することができ、ユーザが検索した文書により関連し、且つより多くの関連文書を提供することができる。この結果、ユーザの情報収集の効率を向上させることができる。

一般的に、キーワード抽出器ＥＸは、予め、人間がこういった文書であればこういったキーワードが抽出される、という正解データを用意しておき、その正解データと、キーワード抽出器ＥＸが抽出したキーワードとに基づいて、教師あり学習がなされる。このような場合、仮に、図６に例示した文書を想定した場合、人間が、グループＸに分類された文書の正解データ（正解キーワード）を「野球」とした場合、キーワード抽出器ＥＸによって「ベースボール」というキーワードが抽出された場合、そのキーワードは不正解となる。同様に、人の名前のフルネーム（氏名）を正解データとした場合、「名字」だけをキーワードとして抽出したり、「名前」だけをキーワードとして抽出したりした場合、それらは不正解となる。

これに対して、上述した実施形態では、人間が正解データとして定めたキーワードと、キーワード抽出器ＥＸが抽出したキーワードとを比較するのではなく、人間が定めたグループ内でキーワード抽出器ＥＸが抽出したキーワード同士を比較するため、人間が定めた正解データの意味的な揺れに左右されずに、同じグループに分類された文書間でキーワードが同じであるのか異なっているのかという観点でキーワード抽出器ＥＸを評価することができる。

また、例えば、複数の単語を組み合わせた比較的長いキーワードをキーワード抽出器ＥＸが抽出するようにハイパーパラメータが決定されている場合、学習データもまた、キーワード抽出器ＥＸが抽出するキーワードの長さに合わせる必要がある。この場合、ハイパーパラメータを変更して、キーワード抽出器ＥＸに抽出させるキーワードの長さを調整した場合、学習データをその都度変える必要があり、学習データの作成コストが大きくなりやすい。

これに対して、上述した実施形態では、人間が定めたグループ内でキーワード抽出器ＥＸが抽出したキーワード同士を比較するため、ハイパーパラメータを変更してキーワード抽出器ＥＸに抽出させるキーワードの長さを変更したとしても、比較対象とするキーワード同士が共通して同じ長さとなり、更にグループ分け自体は変更されないため、学習データの作成コストを削減することができる。

また、人間によって決められた正解データに対して、抽出するキーワードが近づくようにキーワード抽出器ＥＸを学習する場合、正解データとして指定する全てのキーワードに対して、半角文字や小文字に統一したり、文末の助動詞の活用を「です、ます」調から、「である」調に変換したりするような前処理を行う必要がある。

これに対して、上述した実施形態では、キーワード抽出器ＥＸによって抽出されるキーワードの長さや各品詞の活用形を予めハイパーパラメータとして定義しておくだけで、上記のような前処理を省略することができる。

このように、上述した実施形態によれば、複数の文書を事前にグループ分けするだけで、文書ごとに正解データを作成する必要がなくなり、学習に要するコスト（作業負担など）を削減することができる。また、上述した実施形態によれば、抽出すべきキーワードが、漢字がよいのか、英字などの外来語（横文字）がよいのか、フルネームがよいのか、といった種々のコンセプトについて考慮する必要がなくなる。また、上述した実施形態によれば、同じグループの他文書から抽出されるキーワードを正解データとするため、その文書に特有（固有）のキーワード（例えば、文書作成者が作った造語など）が含まれている場合、同じグループの他文書からも特有のキーワードが抽出されなければＦ値が小さくなるため、文書特有のキーワードを抽出しやすいキーワード抽出器ＥＸほど利用され難くなり、文書間での共有性が高いキーワードを抽出しやすいキーワード抽出器ＥＸほど利用され易くなる。

また、上述した実施形態によれば、グループ毎に文書のＦ値の平均を求めるため、母集団のグループ間でのサンプル数（文書数）の偏りの影響を抑制することができる。例えば、特定のジャンル或いはテーマの文書が多く、他のジャンル或いはテーマの文書が少ない、といったような偏りが生じている場合、グループ単位ではなく、全ての文書でＦ値を平均した場合、サンプル数が多いグループのＦ値が全体の評価値に大きく反映され、サンプル数が多いグループに対してキーワードの抽出精度が高くなるようにキーワード抽出器が学習される傾向にある。これに対して、上述した実施形態では、先にグループ毎にＦ値の平均をとることで、グループ間のサンプル数の差をなくしてから、キーワード抽出器ＥＸを学習することができる。この結果、どのグループからも、文書間での共有性が高いキーワードを精度良く抽出することができる。

＜第２実施形態＞
以下、第２実施形態について説明する。第２実施形態では、キーワードの抽出対象となる文書に類似する複数の類似文書のうち、キーワードの抽出対象となる文書に出現するキーワードの候補が出現する類似文書の数に基づいて、キーワードの抽出対象となる文書からキーワードを抽出する点で上述した第１実施形態と相違する。以下、第１実施形態との相違点を中心に説明し、第１実施形態と共通する点については説明を省略する。なお、第２実施形態の説明において、第１実施形態と同じ部分については同一符号を付して説明する。

図８は、第２実施形態における情報処理装置１００Ａの構成の一例を示す図である。図示のように、情報処理装置１００Ａは、例えば、通信部１０２と、制御部１１０Ａと、記憶部１３０Ａとを備える。

第２実施形態における制御部１１０Ａは、例えば、上述したキーワード付与部１１２と、文書分類部１１４と、抽出器評価部１１６とに加えて、更に、類似文書選択部１１８と、学習処理部１２０とを備える。

第２実施形態における記憶部１３０Ａには、ファームウェアやアプリケーションプログラムなどの各種プログラムと、キーワード抽出器データ１３２と、文書データ１３４とに加えて、更に、類似文書データ１３６が格納される。

類似文書データ１３６は、キーワードの抽出対象となる文書（文書データ１３４に含まれる各文書）に類似し得る複数の文書を含むデータである。文書同士が「類似する」とは、比較対象とする其々の文書をベクトル化したときに、あるベクトル空間において、それらの各文書のベクトルが互いに近い関係であることをいう。

［処理フロー］
以下、第２実施形態における情報処理装置１００Ａによる一連の処理の流れをフローチャートに即して説明する。図９は、第２実施形態における情報処理装置１００Ａによる一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。

まず、類似文書選択部１１８は、文書データ１３４に含まれる複数の文書のうち、キーワード抽出器ＥＸにキーワードを抽出させる対象の文書（以下、キーワード抽出対象文書と称する）と類似する類似文書を、類似文書データ１３６に含まれる複数の文書の中から選択する（Ｓ２００）。キーワード抽出対象文書は、「着目文書」の他の例である。

例えば、類似文書選択部１１８は、キーワード抽出対象文書に含まれる各単語の出現頻度などの統計量を各要素とする多次元ベクトルを、キーワード抽出対象文書をベクトル化したキーワード抽出対象文書ベクトルとして生成する。また、類似文書選択部１１８は、ある着目する単語の前後に出現する単語を予測するタスクを学習するｗｏｒｄ２ｖｅｃやｄｏｃ２ｖｅｃといったアルゴリズムを利用したり、他の既存の手法を利用したりすることで、キーワード抽出対象文書ベクトルを生成してもよい。

類似文書選択部１１８は、生成したキーワード抽出対象文書ベクトルと、類似文書データ１３６に含まれる、類似文書の候補となる各文書のベクトル（以下、類似文書候補ベクトルと称する）との類似度を導出する。類似文書候補ベクトルは、上述したキーワード抽出対象文書ベクトルの生成手法を利用して予め生成されているものとする。

例えば、類似文書選択部１１８は、キーワード抽出対象文書ベクトルと類似文書候補ベクトルとのコサイン類似度を導出し、複数の類似文書候補ベクトルのうち、キーワード抽出対象文書ベクトルとのコサイン類似度が大きい上位所定数（例えば１０個）の類似文書候補ベクトルを抽出したり、キーワード抽出対象文書ベクトルとのコサイン類似度が閾値以上の全ての類似文書候補ベクトルを抽出したりする。そして、類似文書選択部１１８は、抽出した類似文書候補ベクトルの元となった文書を、類似文書として選択する。

次に、キーワード付与部１１２は、キーワード抽出器ＥＸに対して、キーワード抽出対象文書に出現するある単語Ｘが出現した類似文書の数をカウントさせ、そのカウントさせた数に基づいてＴＦ‐ＩＤＦを計算させ、キーワード抽出対象文書に含まれる各キーワードの候補の単語や語句に重みを付与させる（Ｓ２０２）。

第２実施形態におけるキーワード抽出器ＥＸは、例えば、数式（４）に基づいて、キーワード抽出対象文書ごとにＴＦ‐ＩＤＦを計算する。

キーワード抽出器ＥＸは、複数の類似文書のうち、キーワード抽出対象文書に出現する単語Ｘが出現する類似文書の数を、全類似文書の数で除算した割合を求め、更に、その割合を、類似文書問わず類似文書データ１３６に含まれる全文書のうち、キーワード抽出対象文書に出現する単語Ｘが出現する文書数の対数値で除算することで、単語ＸについてのＴＦ‐ＩＤＦを導出する。キーワード抽出器ＥＸは、単語Ｘを変更しながら、キーワード抽出対象文書に含まれる各キーワード候補についてＴＦ‐ＩＤＦを導出する。このような処理によって、キーワードを付与したい文書と、その文書に類似する類似文書との双方では出現し易く、それら以外の他文書では出現し難い単語Ｘほど、重みを大きくすることができる。

一般的なＴＦ-ＩＤＦは、キーワードを付与したい文書では出現し易く、類似文書を含む他文書では出現し難い単語Ｘほど重みを大きくするものである。そのため、キーワード抽出対象文書に関して特有の単語や語句がキーワードとして抽出されやすい。特有の単語や語句とは、例えば、その文書において特有の言い回しの表現や、文書作成者が作った造語などである。このような特有の単語や語句は、他の単語や語句と比べてＩＤＦが大きくなるため、キーワードとして抽出されやすく、仮に、このキーワードを文書検索に利用した場合、キーワードの抽出元の文書に類似した文書を検索することが難しい場合がある。

これに対して、本実施形態では、ＴＦ－ＩＤＦの分子式を、単語が自文書で何回出現したかということから、複数の類似文書のうち、どの程度の類似文書に自文書に含まれる単語が含まれているのかということに置き換えるため、より文書間での共有性が高いキーワードを抽出することができる。

次に、キーワード付与部１１２は、キーワード抽出器ＥＸに、計算させたＴＦ‐ＩＤＦを基に、文書データ１３４に含まれる各文書から一以上のキーワードを抽出させ、そのキーワードを抽出元の文書に付与する（Ｓ２０４）。

以降のＳ２０６の処理からＳ２１６の処理は、上述したＳ１０２の処理からＳ１１２の処理と同じであるため説明を省略する。

次に、学習処理部１２０は、抽出器評価部１１６によるキーワード抽出器ＥＸの評価結果に基づいて、キーワード抽出器ＥＸのハイパーパラメータを学習（決定）する（Ｓ２１８）。例えば、学習処理部１２０は、キーワード抽出器ＥＸのＦ値が大きくなるように、ＴＦ‐ＩＤＦを計算する際に参照する類似文書の数（上述した所定数）や、ベクトル同士の類似度を導出手法、抽出するキーワードの長さ、キーワードの品詞、といったハイパーパラメータを決定する。

また、学習処理部１２０は、類似文書が与えられなくても、上述した手法で得られたキーワードが抽出できるように、キーワード抽出器ＥＸを学習してもよい。より具体的には、学習処理部１２０は、Ｓ２０４の処理で得られたキーワードを正解データとして、キーワード抽出器ＥＸを教師あり学習する。これによって、類似文書を予め用意しておかなくとも、文書間での共有性が高いキーワードを精度良く抽出することができる。

なお、上述した説明では、キーワード抽出器ＥＸが、キーワード抽出対象文書に出現する単語Ｘが類似文書にも出現する回数をカウントするものとして説明したがこれに限られない。例えば、キーワード抽出器ＥＸは、キーワード抽出対象文書により類似する類似文書ほど（類似度が大きい類似文書ほど）、ＴＦ-ＩＤＦの分子式の寄与度を大きくしてよい。例えば、類似文書として、文書Ｘ、Ｙ、Ｚが存在する場合、数式（５）に基づいて、ＴＦ-ＩＤＦを求めてよい。

式中、Ｗ_Ｘは、文書Ｘの類似度を表し、Ｗ_Ｙは、文書Ｙの類似度を表し、Ｗ_Ｚは、文書Ｚの類似度を表している。キーワード抽出器ＥＸは、キーワード抽出対象文書に出現する単語Ｘが出現する類似文書の各類似度の平均をＴＦ-ＩＤＦの分子とすることで、より文書間での共有性が高いキーワードを抽出することができる。

また、類似文書が、キーワード抽出対象文書との類似度に応じてランクが付けられている場合、キーワード抽出器ＥＸは、そのランクの大きさに応じて重みを付けてもよい。例えば、キーワード抽出器ＥＸは、キーワード抽出対象文書と最も類似するランク１位の類似文書には、１．０の重みを付与し、２番目にキーワード抽出対象文書と類似するランク２位の類似文書には、０．９の重みを付与し、３番目にキーワード抽出対象文書と類似するランク３位の類似文書には、０．８の重みを付与する、といったようにしてもよい。これによって、より文書間での共有性が高いキーワードを抽出することができる。

［利用場面］
図１０は、キーワード抽出器ＥＸにより抽出されたキーワードの利用場面の一例を示す図である。図示の例では、ショッピングサイトの一ページを模式的に表している。図中Ｒ１で示す領域には、商品の紹介文が掲載されている。このような紹介文は、キーワードの抽出対象の文書として扱われる。例えば、紹介文には、商品の型番（図の例では「ＡＢＣＤＥＦ‐２４」）などが含まれているが、類似文書の単語の出現回数を考慮しない一般的なＴＦ-ＩＤＦの場合、型番を表す単語や語句の重みが大きくなり、その型番がキーワードとして抽出されやすい。しかしながら、その商品に似た商品を探すときには、型番よりも概念的に上位の意味をもつ単語や語句がキーワードとして相応しい。概念的に上位の意味をもつ単語や語句とは、他の商品紹介文に含まれる単語や語句と共起し易いものであり、図示の例では、「液晶テレビ」などの単語が該当する。

本実施形態では、キーワード抽出対象文書に出現する単語Ｘが類似文書にも出現する回数（割合）に基づいてＴＦ-ＩＤＦを求めるため、型番のような、そのページの特有の単語や語句（汎用的でない単語や語句）が抽出され難くなり、ショッピングサイト間での共有性が高いキーワードを抽出することができる。この結果、例えば、抽出したキーワードを、商品カテゴリを表す単語とした場合、商品が分類され得る商品カテゴリを網羅的に用意しておく必要がなくなる。例えば、商品がショッピングサイトに追加されるごとに、その商品が掲載されるウェブページの紹介文からキーワードを抽出し、その抽出したキーワードが既存の商品カテゴリを表す単語や語句であれば、新規追加された商品を既存の商品カテゴリに分類し、抽出したキーワードが既存の商品カテゴリを表す単語や語句でなければ、そのキーワードを基に新たな商品カテゴリを作成し、新規追加された商品を新規作成した商品カテゴリに分類する、といった運用を行うことができる。

以上説明した第２実施形態によれば、キーワードの抽出対象とする文書に類似する複数の類似文書のうち、キーワードの抽出対象とする文書に出現するキーワードの候補が出現する類似文書の数に基づいて、キーワードの抽出対象とする文書からキーワードを抽出するため、より文書間での共有性が高いキーワードを抽出することができる。この結果、ユーザが文書を検索したときに、文書間での共有性が高いキーワードを利用することで、その文書に関連した関連文書を容易に検索することができ、ユーザが検索した文書により関連し、且つより多くの関連文書を提供することができる。この結果、ユーザの情報収集の効率を更に向上させることができる。

＜ハードウェア構成＞
上述した実施形態の情報処理装置１００は、例えば、図１１に示すようなハードウェア構成により実現される。図１１は、実施形態の情報処理装置１００、１００Ａのハードウェア構成の一例を示す図である。

情報処理装置１００、１００Ａは、ＮＩＣ１００－１、ＣＰＵ１００－２、ＲＡＭ１００－３、ＲＯＭ１００－４、フラッシュメモリやＨＤＤなどの二次記憶装置１００－５、およびドライブ装置１００－６が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置１００－６には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置１００－５、またはドライブ装置１００－６に装着された可搬型記憶媒体に格納されたプログラムがＤＭＡコントローラ（不図示）などによってＲＡＭ１００－３に展開され、ＣＰＵ１００－２によって実行されることで、制御部１１０または１１０Ａが実現される。制御部１１０または１１０Ａが参照するプログラムは、ネットワークＮＷを介して他の装置からダウンロードされてもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…情報処理システム、１０…端末装置、２０…サービス提供装置、１００、１００Ａ…情報処理装置、１０２…通信部、１１０、１１０Ａ…制御部、１１２…キーワード付与部、１１４…文書分類部、１１６…抽出器評価部、１１８…類似文書選択部、１２０…学習処理部、１３０、１３０Ａ…記憶部

Claims

着目文書と特徴が類似する複数の類似文書のうち、前記着目文書に出現する単語又は語句が出現する前記類似文書の数に基づいて、前記着目文書に含まれる単語又は語句をキーワードとして抽出する処理部を備え、
前記処理部は、前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて出現する前記類似文書の数が多い単語又は語句を、前記キーワードとして抽出する、
キーワード抽出装置。
前記処理部は、
前記類似文書の数に基づいて、前記着目文書に出現する単語又は語句ごとに重み係数を算出し、
前記着目文書に出現する単語又は語句のうち、前記類似文書の数が多い単語又は語句ほど大きな前記重み係数を算出し、
前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて前記重み係数が大きい単語又は語句を、前記キーワードとして抽出する、
請求項１に記載のキーワード抽出装置。
前記処理部は、
前記類似文書の数を、前記複数の類似文書の数で除算した割合を算出し、
前記複数の類似文書、及び前記着目文書と前記特徴が類似しない複数の非類似文書を合わせた全文書のうち、前記着目文書に出現する単語又は語句が出現する文書の数の対数値で、前記算出した割合を除算し、
前記割合と前記対数値との商を、前記重み係数として算出する、
請求項２に記載のキーワード抽出装置。
前記処理部は、前記着目文書に出現する単語又は語句を変更しながら、前記着目文書に含まれる単語又は語句ごとに前記重み係数を算出することを繰り返す、
請求項２又は３に記載のキーワード抽出装置。
前記処理部は、
前記着目文書に出現する単語又は語句が出現する前記類似文書の前記着目文書に対する前記特徴の類似度に基づいて、前記着目文書に出現する単語又は語句ごとに重み係数を算出し、
前記着目文書に出現する単語又は語句のうち、前記類似度が大きい単語又は語句ほど大きな前記重み係数を算出し、
前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて前記重み係数が大きい単語又は語句を、前記キーワードとして抽出する、
請求項１から４のうちいずれか一項に記載のキーワード抽出装置。
前記処理部は、
前記複数の類似文書のそれぞれの前記類似度の平均を算出し、
前記複数の類似文書、及び前記着目文書と前記特徴が類似しない複数の非類似文書を合わせた全文書のうち、前記着目文書に出現する単語又は語句が出現する文書の数の対数値で、前記類似度の平均を除算し、
前記類似度の平均と前記対数値との商を、前記重み係数として算出する、
請求項５に記載のキーワード抽出装置。
コンピュータが、
着目文書と特徴が類似する複数の類似文書のうち、前記着目文書に出現する単語又は語句が出現する前記類似文書の数に基づいて、前記着目文書に含まれる単語又は語句をキーワードとして抽出し、
前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて出現する前記類似文書の数が多い単語又は語句を、前記キーワードとして抽出する、
キーワード抽出方法。
コンピュータに、
着目文書と特徴が類似する複数の類似文書のうち、前記着目文書に出現する単語又は語句が出現する前記類似文書の数に基づいて、前記着目文書に含まれる単語又は語句をキーワードとして抽出すること、
前記着目文書に出現する単語又は語句のうち、他の単語又は他の語句に比べて出現する前記類似文書の数が多い単語又は語句を、前記キーワードとして抽出すること、
を実行させるためのプログラム。