JP2011242975A

JP2011242975A - 代表語抽出装置、代表語抽出方法および代表語抽出プログラム

Info

Publication number: JP2011242975A
Application number: JP2010114051A
Authority: JP
Inventors: Shoichi Nagano; 翔一長野; Yusuke Ichikawa; 裕介市川; Toru Kobayashi; 透小林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-05-18
Filing date: 2010-05-18
Publication date: 2011-12-01
Anticipated expiration: 2030-05-18
Also published as: JP5411802B2

Abstract

【課題】文書群に含まれる文書の数に依存することなく文書群を代表する単語を抽出すること。
【解決手段】前処理部１１は、代表語の抽出対象となる対象文書群を含む文書群を収集し、基準語取得部１３は、代表語を抽出する基準となる基準語を取得する。そして、基準文書特定部１４は、前処理部１１から入力される文書群から基準語を含む基準文書を特定し、単語群抽出部１５は、基準文書から基準語と基準語以外の単語とを単語群として抽出する。そして、指標算出部１６は、抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する。そして、指標補正部１７は、抽出された単語群の各単語に対して、全文書群における希少度と対象文書群における希少度とを算出し、算出した２つの希少度を用いて指標算出部１６によって算出された指標を補正する。
【選択図】図３

Description

本発明は、代表語抽出装置、代表語抽出方法および代表語抽出プログラムに関する。

近年、インターネットの普及にともない、ウェブ上で提供される文書の情報量は、爆発的な増加傾向にある。このため、文書群を効率的に処理するために、文書群からキーワードとなる単語を抽出して、当該文書群に付与する手法の開発が求められている。かかる手法を用いることで、例えば、ユーザがウェブ上で閲覧した文書群に付与されたキーワードから、ユーザの行動目的を推定することが可能となる。

ここで、キーワードを抽出する手法は、出現頻度を利用した手法と共起頻度を利用した手法とに大別される。このうち、出現頻度を利用した手法は、複数の文書に対して出現する頻度の高い単語を優先して抽出するものであるが、この手法では、一般的で抽象度の高いキーワードを抽出する傾向がある。

一方、共起頻度を利用した手法は、文書群にて頻出する主要語と、当該文書群を構成する全単語との共起頻度を算出し、共起頻度が偏っている単語を当該文書群における特徴的なキーワードとして抽出するものである。この共起頻度を利用した手法によれば、具体性の高いキーワードを抽出することが可能である。

国際公開第２００６／０４８９９８号

松尾豊，石塚満，語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム，人工知能学会論文誌，Vol.17，pp.217-223，2002.

しかしながら、上記した共起頻度を利用した手法では、文書群を代表する単語を抽出することができない場合があるという問題がある。具体的には、上記した手法では、文書群に含まれる文書の数が所定数よりも少ない場合に、共起頻度の算出精度が低下する。この場合、上記した手法では、共起頻度が偏っている単語を精度よく抽出することができず、文書群を代表する単語を抽出することができない。

開示の技術は、上記に鑑みてなされたものであって、文書群に含まれる文書の数に依存することなく文書群を代表する単語を抽出することができる代表語抽出装置、代表語抽出方法および代表語抽出プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本願の開示する代表語抽出装置は、一つの態様において、代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集手段と、前記代表語を抽出する基準となる単語である基準語を取得する基準語取得手段と、前記文書群収集手段によって収集された文書群から前記基準語取得手段によって取得された基準語を含む文書である基準文書を特定する基準文書特定手段と、前記基準文書特定手段によって特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出手段と、前記単語群抽出手段によって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出手段と、前記単語群抽出手段によって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した２つの希少度を用いて前記指標算出手段によって算出された指標を補正する指標補正手段とを備える。

また、本願の開示する代表語抽出方法は、一つの態様において、代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集ステップと、前記代表語を抽出する基準となる単語である基準語を取得する基準語取得ステップと、前記文書群収集ステップによって収集された文書群から前記基準語取得ステップによって取得された基準語を含む文書である基準文書を特定する基準文書特定ステップと、前記基準文書特定ステップによって前記文書群から特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出ステップと、前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出ステップと、前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した２つの希少度を用いて前記指標算出ステップによって算出された指標を補正する指標補正ステップとを含む。

また、本願の開示する代表語抽出プログラムは、一つの態様において、コンピュータを上記の代表語抽出装置として機能させる。

本願の開示する代表語抽出装置、代表語抽出方法および代表語抽出プログラムは、文書群に含まれる文書の数に依存することなく文書群を代表する単語を抽出することができるという効果を奏する。

図１は、実施例１における代表語抽出装置が組み込まれる代表語抽出システムの構成を説明するための図である。図２は、閲覧履歴データを説明するための図である。図３は、実施例１における代表語抽出装置の構成を説明するための図である。図４は、前処理部を説明するための図である。図５は、基準語ＤＢの一例を示す図である。図６は、基準文書特定部を説明するための図である。図７は、単語群抽出部を説明するための図である。図８は、指標算出部を説明するための図である。図９は、指標補正部を説明するための図（その１）である。図１０は、指標補正部を説明するための図（その２）である。図１１は、実施例１における代表語抽出装置の処理手順を説明するためのフローチャートである。図１２は、実施例２の代表語抽出装置の処理対象となる文書群を説明するための図である。図１３は、実施例３における代表語抽出システムを説明するための図である。図１４は、代表語抽出プログラムを実行するコンピュータを示す図である。

以下に、本願の開示する代表語抽出装置、代表語抽出方法および代表語抽出プログラムの実施例を図面に基づいて詳細に説明する。

まず、実施例１における代表語抽出装置が組み込まれる代表語抽出システムについて、図１を参照して説明する。図１は、実施例１における代表語抽出装置が組み込まれる代表語抽出システムの構成を説明するための図である。

図１に示すように、実施例１における代表語抽出システムは、ユーザ端末１と、ウェブサーバ群２と、代表語抽出装置１０とを有する。ユーザ端末１、ウェブサーバ群２および代表語抽出装置１０は、例えば、インターネットなどの通信網３を介してそれぞれ接続されている。

ユーザ端末１は、特定のユーザが利用するＰＣ（Personal Computer）であり、通信網３を介してウェブサーバ群２に対しウェブページの閲覧要求を送信したり、閲覧要求に応じてウェブサーバ群２が送信したデータに基づくウェブページをモニタに表示させたりするためのソフトウェア（ブラウザ）が組み込まれている。

また、ユーザ端末１は、閲覧履歴取得部１ａと、内部情報処理部１ｂとを有する。閲覧履歴取得部１ａは、ブラウザを起動させて閲覧要求を行った結果、ユーザが閲覧したウェブページの閲覧履歴データを時系列に沿って取得する。閲覧履歴取得部１ａが取得する閲覧履歴データの具体例について、図２を用いて説明する。図２は、閲覧履歴データを説明するための図である。

例えば、閲覧履歴取得部１ａにより取得される閲覧履歴データは、図２に示すように、処理番号、時間、ＵＲＬおよびテキストを時系列で並べて構成されたデータである。ここで、閲覧履歴データとは、通信網を利用して、ユーザが閲覧したウェブページの閲覧行動の履歴を示す履歴データを指し、処理番号、時間、ＵＲＬおよびテキストなどで構成されたデータを想定している。

処理番号は、ユーザ端末１を利用するユーザが行ったウェブページの閲覧順に割り振られる一意な自然数であり、例えば、図２に示すように、「１」から順番に割り振られる。時間は、ユーザがユーザ端末１を操作してウェブページを閲覧した瞬間の時刻情報であり、例えば、図２に示すように、西暦、月、日および時刻（時・分・秒）で構成される。例えば、図２の「時間：２００９／１１／１０１２：２６：５３」は、「西暦２００９年の１１月１０日の１２時２６分５３秒」に「処理番号：１」の閲覧がユーザにより行われたことを示している。

また、ＵＲＬ（Uniform Resource Locator）は、通信網３と接続されるウェブサーバ群２にて、ユーザがアクセスしたウェブサーバ上の情報資源（ウェブページ）の場所を示す文字列であり、一般的に、ユーザ端末１で起動されたブラウザ上に表示されるアドレスのことである。例えば、図２に示す「ｈｔｔｐ：／／ａａ」は、「処理番号１」にてユーザが閲覧したウェブページのＵＲＬを示している。また、テキストは、ＵＲＬに対応するウェブページの含まれるテキスト（文書）のことであり、図２に示す閲覧履歴データにおいて、「テキスト」に格納されたデータの集合（文書群）が、後述する代表語抽出装置１０による処理対象となる。

また、閲覧履歴取得部１ａは、取得した閲覧履歴データを通信網３を介して代表語抽出装置１０へ送信する。なお、閲覧履歴取得部１ａが閲覧履歴データを代表語抽出装置１０に送信するタイミングは、代表語抽出システムの管理者により任意に設定することができる。例えば、閲覧履歴取得部１ａは、所定の周期（例えば、１日おき）ごとに、ユーザの複数の閲覧履歴データを代表語抽出装置１０に送信する。

図１に戻って、内部情報処理部１ｂは、後述する代表語抽出装置１０による処理結果を通信網３を介して取得し、取得した処理結果をモニタに表示する。また、内部情報処理部１ｂは、取得した処理結果に基づく所定の情報処理を行い、その情報処理結果をモニタに表示する。例えば、内部情報処理部１ｂは、代表語抽出装置１０による処理結果に関連するキーワードがタグ付けされた広告や各種の記事等のコンテンツ情報を所定のＤＢ（Database）から検索してその検索結果をモニタに表示する。また、例えば、内部情報処理部１ｂは、代表語抽出装置１０による処理結果に対して閲覧傾向の分析等の分析処理を行い、その分析結果をモニタに表示する。

代表語抽出装置１０は、ユーザ端末１から送信される閲覧履歴データに含まれる文書群に対する処理を実行する。具体的には、代表語抽出装置１０は、閲覧履歴データに含まれる文書群を代表する単語を抽出する。

ここで、文書群を代表する単語（以下、「キーワード」という）を抽出する場合、共起頻度を利用する従来の手法では、文書群にて頻出する主要語と、当該文書群を構成する全単語との共起頻度を算出し、算出した共起頻度の偏りを基に単語をランク付けする。

ところが、従来の手法では、文書群に含まれる文書の数が過度に少ない場合には、共起頻度の算出精度が低下する。このため、従来の手法では、共起頻度そのものを指標とする限り、共起頻度が偏っている単語をキーワードとして精度良く抽出することが困難であった。

そこで、実施例１における代表語抽出装置１０は、キーワードの抽出対象となる文書群を含む文書群から共起頻度等の指標を算出した後に、算出した指標を補正する処理を実行することにより、補正後の新たな指標を基に単語をランク付けすることを可能とする。

このような処理を実行するため、実施例１における代表語抽出装置１０は、図３に示すように、前処理部１１と、基準語ＤＢ１２と、基準語取得部１３と、基準文書特定部１４と、単語群抽出部１５と、指標算出部１６と、指標補正部１７とを有する。図３は、実施例１における代表語抽出装置１０の構成を説明するための図である。

前処理部１１は、代表語の抽出を行うための前処理を実行し、具体的には、代表語の抽出対象となる対象文書群を含む文書群を収集する。以下、前処理部１１が実行する処理の具体的な一例について、図４を用いて説明する。図４は、前処理部を説明するための図である。

図４に示すように、前処理部１１は、閲覧履歴取得部１ａから入力される閲覧履歴データの文書群が日本語の場合ならば形態素解析により、または閲覧履歴データの文書群が英語の場合ならばＴａｇｇｅｒ解析により各文書を単語に分割する。

さらに、前処理部１１は、「形態素解析、またはＴａｇｇｅｒ解析」の他に、図４に示すように、「スクレイピング」、「ＮＧワード除去」、「特定素性の除去」および「複合語処理」を行う。

「スクレイピング」は、文書群全体において共通する部分を除去する処理であり、例えば、ウェブページにおいて本文部分以外に共通して混在するフレーム部分などを除去することで、テキストデータから本文部分を特定する。

「ＮＧワード除去」は、例えば、ウェブページに混在する「ページ数」などのように、キーワードとして不適切な単語を除去するための処理である。なお、ＮＧワードの種類は、代表語抽出装置１０の管理者などにより適宜設定される。

「特定素性の除去」は、「形態素解析、またはＴａｇｇｅｒ解析」により分割された単語から、名詞以外の単語など、代表語抽出装置１０の管理者などにより設定された特定素性の単語を除去する。

「複合語処理」は、「形態素解析、またはＴａｇｇｅｒ解析」により分割された単語に対して、例えば、代表語抽出装置１０の管理者などにより設定されたルールに基づく処理や「ｎ−ｇｒａｍ」法などの処理を行うことで、連続的な複数の単語を結合して複合語を形成する。

さらに、前処理部１１は、図４に示すように、文書群の各文書から分割した複数の単語（単語群）それぞれに対して、各単語が出現した文書における重要性を示す重要度を付与する「重要度付与」を行う。このようして、前処理部１１に入力された文書群の各文書は、単語単位（図４の「ｗｏｒｄ１、ｗｏｒｄ２、ｗｏｒｄ３、…）で分割され、さらに、複数の単語と重要度（図４の重要度「ｍ」、「ｎ」、「ｏ」、…）とがセットで表現された状態となる。

なお、前処理部１１による重要度の算出法は、代表語抽出装置１０の管理者などにより設定された手法に基づいて実行される。例えば、前処理部１１は、ＴＦ（Term Frequency）法、ＩＤＦ（Inverse Document Frequency）法、連結コスト法、ＢＭ２５法などの公知技術やその組み合わせにより算出した重要度を各単語に算出して付与する。

さらに、前処理部１１は、図４に示すように、文書間の類似度を基に複数の文書をグループ（クラスタ）に分類する「クラスタリング」を実行する。具体的には、前処理部１１は、「重要度付与」により複数の単語と重要度とがセットとなったセット情報にベクトル空間法を適用することにより、文書間の意味的類似度を算出する。なお、意味的類似度を算出する既存技術として、シソーラス階層やＮ−ｇｒａｍ、編集距離を利用した手法を採用することもできる。そして、前処理部１１は、算出した意味的類似度が所定の範囲に存在する文書の集合体をクラスタとして形成する。このようにして、前処理部１１に入力された文書群は、クラスタ（図４の「クラスタ１」、「クラスタ２」、「クラスタ３」、…）に分類された状態となる。

さらに、前処理部１１は、図４に示すように、「クラスタリング」により分類されたクラスタから代表語の抽出対象となる対象文書群を決定する。例えば、前処理部１１は、「クラスタリング」により分類されたクラスタのうち、代表語抽出装置１０の管理者などにより指定されたクラスタを対象文書群として決定する。このようにして、前処理部１１に入力された文書群は、対象文書群（図４の「クラスタ１」）を含んだ状態となる。

上記した処理を行うことにより、前処理部１１は、対象文書群（例えば、図４の「クラスタ１」）を含む文書群（例えば、図４の図４の「クラスタ１」、「クラスタ２」、「クラスタ３」、…から構成される文書群）を収集し、収集した文書群を基準文書特定部１４に出力する。

図３に戻って、基準語ＤＢ１２は、代表語を抽出する基準となる単語である基準語を記憶する。図５は、基準語ＤＢ１２の一例を示す図である。図５に示すように、基準語ＤＢ１２は、所定の分野に属する専門用語等を基準語として記憶する。図５に示す例では、服飾品分野に属するブランド名である「プラダ（登録商標）」、「シャネル（登録商標）」、「ヴィトン（登録商標）」、…が基準語として記憶されている。これら基準語は、代表語抽出装置１０の管理者により予め設定されて記憶される。

基準語取得部１３は、基準語を取得する。具体的には、基準語取得部１３は、基準語ＤＢ１２から基準語を取得して基準文書特定部１４に出力する。基準文書特定部１４は、前処理部１１から入力される文書群から、基準語取得部１３から入力される基準語を含む文書である基準文書を特定する。以下、基準文書特定部１４が実行する処理の具体的な一例について、図６を用いて説明する。図６は、基準文書特定部１４を説明するための図である。ここでは、基準語取得部１３から入力される基準語は、図５に示した基準語ＤＢ１２から取得された基準語であるものとする。

具体的には、基準文書特定部１４は、前処理部１１から対象文書群を含む文書群を受け付けると、受け付けた文書群の全文書に対して、基準語取得部１３から入力される基準語が文書中に含まれるか否かを判定する。図６の例では、基準文書特定部１４は、前処理部１１から４つの文書からなる対象文書群を含む文書群を受け付けると、対象文書群の４つの文書及びその他の文書に対して、基準語「プラダ」、「シャネル」、「ヴィトン」、…が含まれるか否かを判定する。

そして、基準文書特定部１４は、受け付けた文書群の全文書のうち、基準語取得部１３から入力される基準語が文書中に含まれると判定された文書を基準文書として特定する。図６の例では、基準文書特定部１４は、受け付けた文書群の全文書のうち、基準語「プラダ」、「シャネル」、「ヴィトン」、…を含むと判定された４つの文書を基準文書として特定する。

図３に戻って、単語群抽出部１５は、基準文書特定部１４によって特定された基準文書から基準語と基準語以外の単語とを単語群として抽出する。図７は、単語群抽出部１５を説明するための図である。

例えば、単語群抽出部１５は、図７に示すように、基準文書特定部１４によって特定された基準語「プラダ」、「シャネル」、「ヴィトン」、…を含む４つの基準文書から基準語と基準語以外の単語とを単語群として抽出する。すなわち、単語群抽出部１５は、図７の最も左側の基準文書から基準語「プラダ」と基準語以外の単語「セール品」とを抽出する。また、単語群抽出部１５は、図７の左から２番目の基準文書から基準語「シャネル」および「ヴィトン」と基準語以外の単語「高級感」とを抽出する。また、単語群抽出部１５は、図７の左から３番目の基準文書から基準語「プラダ」と基準語以外の単語「セール品」とを抽出する。また、単語群抽出部１５は、図７の左から４番目の基準文書から基準語「ヴィトン」および「シャネル」と基準語以外の単語「高級感」および「セール品」とを抽出する。そして、単語群抽出部１５は、抽出した基準語と基準語以外の単語とから重複する単語を除外して単語群（「セール品」、「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…）を生成する。

図３に戻って、指標算出部１６は、単語群抽出部１５によって抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する。図８は、指標算出部１６を説明するための図である。

具体的には、指標算出部１６は、「指標算出アルゴリズム」により、単語群抽出部１５によって抽出された単語群の各単語「ａ」に対して、基準語「Ａ」との共起回数の大小に応じて値が増減する指標を算出する。例えば、指標算出部１６は、図８の（Ａ）に示す「指標算出式」として設定された「指標（共起頻度）＝ｍ」または「指標（ｊａｃｃａｒｄ係数）＝ｍ／ｎ」を用いて基準語「Ａ」に対する単語「ａ」の指標を算出する。なお、「指標算出式」として「指標（共起頻度）＝ｍ」または「指標（ｊａｃｃａｒｄ係数）＝ｍ／ｎ」のいずれを用いるかは、代表語抽出装置１０の管理者により予め設定される。

ここで、図８の（Ａ）に示す「指標算出式」において、「ｍ」は、「基準語Ａの出現する文書の中で単語ａの出現する文書数」であり、図８の（Ａ）のベン図の（２）に分類される文書の数である。また、「ｎ」は、「基準語Ａまたは単語ａの出現する文書数」であり、図８の（Ａ）のベン図の（１）と（２）と（３）とに分類される文書の数である。

かかる処理により、指標算出部１６は、例えば、図８の（Ｂ）に示すように、単語群抽出部１５によって抽出された単語群（「セール品」、「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…）の各単語に対して、指標「ｘ１」、「ｘ２」、「ｘ３」、「ｘ４」、「ｘ５」、…をそれぞれ算出する。

図３に戻って、指標補正部１７は、単語群抽出部１５によって抽出された単語群の各単語に対して、文書群における希少度と文書群に含まれる対象文書群における希少度とを算出する。そして、指標補正部１７は、算出した２つの希少度を用いて指標算出部１６によって算出された指標を補正する。以下、指標補正部１７が実行する処理の具体的な一例について、図９および図１０を用いて説明する。図９および図１０は、指標補正部１７を説明するための図である。

図９に例示するように、指標補正部１７は、単語群抽出部１５によって抽出された単語群（「セール品」、「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…）の各単語に対して、全文書群における出現文書数と対象文書群における出現文書数とを算出する。すなわち、指標補正部１７は、単語「セール品」に対して、全文書群における出現文書数「ｙ１」と対象文書群における出現文書数「ｚ１」とを算出する。同様に、指標補正部１７は、単語「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…に対して、全文書群における出現文書数「ｙ２」、「ｙ３」、「ｙ４」、「ｙ５」、…と対象文書群における出現文書数「ｚ２」、「ｚ３」、「ｚ４」、「ｚ５」、…とをそれぞれ算出する。

そして、指標補正部１７は、算出した２つの出現文書数の比を指標算出部１６によって算出された指標に乗算することにより当該指標を補正する。すなわち、指標算出部１６は、単語「セール品」について、算出した２つの出現文書数の比「ｚ１／ｙ１」を単語「セール品」の指標「ｘ１」に乗算することにより、指標「ｘ１」を補正した値である補正値「ｗ１」を算出する。同様にして、指標算出部１６は、単語「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…について、指標「ｘ２」、「ｘ３」、「ｘ４」、「ｘ５」、…を補正した値である補正値「ｗ２」、「ｗ３」、「ｗ４」、「ｗ５」、…をそれぞれ算出する。

そして、指標補正部１７は、単語群抽出部１５によって抽出された単語群の各単語に対して、補正後の指標（補正値）を新たな指標として付与する。このようにして、指標補正部１７に単語群抽出部１５から入力された単語群は、複数の単語と指標とがセットで表現された状態となる。例えば、図１０に示すように、指標補正部１７は、「セール品」および指標「ｗ１」と、「高級感」および指標「ｗ２」と、「プラダ」および指標「ｗ３」と、「シャネル」および指標「ｗ４」と、「ヴィトン」および指標「ｗ５」とがセットとなった情報を出力する。

なお、指標補正部１７により算出される単語群の各単語に対する希少度は、図９で説明したように、単語群の各単語に対する出現文書数により算出される場合に限定されるものではない。例えば、指標補正部１７により算出される単語群の各単語に対する希少度は、単語群の各単語に対してＴＦ法やＩＤＦ法を適用することでそれぞれ算出される値として算出される場合であってもよい。

また、指標補正部１７により指標に乗算される値は、図９で説明したように、全文書群における出現文書数と対象文書群における出現文書数との比に限定されるものではない。例えば、全文書群における出現文書数の対数値と対象文書群における出現文書数の対数値との比を指標に乗算する場合であってもよい。あるいは、全文書群における出現文書数の対数値に「１」を加算した値と対象文書群における出現文書数の対数値に「１」を加算した値との比を指標に乗算する場合であってもよい。

次に、図１１を用いて、実施例１における代表語抽出装置１０の処理手順について説明する。図１１は、実施例１における代表語抽出装置１０の処理手順を説明するためのフローチャートである。

図１１に示すように、代表語抽出装置１０は、ユーザ端末１のユーザや代表語抽出装置１０の管理者から代表語抽出要求を受け付けると（ステップＳ１０１）、前処理部１１は、形態素解析、対象文書群決定などの前処理を実行する（ステップＳ１０２）。すなわち、前処理部１１は、代表語の抽出対象となる対象文書群を含む文書群を収集し、収集した文書群を基準文書特定部１４に出力する。

そして、基準語取得部１３は、基準語ＤＢ１２から基準語を取得して基準文書特定部１４に出力し（ステップＳ１０３）、基準文書特定部１４は、前処理部１１から入力される文書群から基準語を含む基準文書を特定する（ステップＳ１０４）。

続いて、単語群抽出部１５は、基準文書から基準語と基準語以外の単語とを単語群として抽出し（ステップＳ１０５）、指標算出部１６は、抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する（ステップＳ１０６）。例えば、指標算出部１６は、図８の（Ａ）に示す指標算出式「指標（共起頻度）＝ｍ」または「指標（ｊａｃｃａｒｄ係数）＝ｍ／ｎ」を用いて各単語の指標を算出する。

続いて、指標補正部１７は、抽出された単語群の各単語に対して、全文書群における希少度と対象文書群における希少度とを算出し（ステップＳ１０７）、算出した２つの希少度を用いて指標算出部１６によって算出された指標を補正する（ステップＳ１０８）。例えば、指標補正部１７は、抽出された単語群の各単語に対して、全文書群における出現文書数と対象文書群における出現文書数とを算出し、算出した２つの出現文書数の比を指標に乗算することにより当該指標を補正する。

そして、指標補正部１７は、単語群の各単語に対して補正後の指標（補正値）を新たな指標として付与し、複数の単語と指標とがセットとなった情報を処理結果としてユーザ端末１に出力し（ステップＳ１０９）、処理を終了する。その後、ユーザ端末１の内部情報処理部１ｂは、代表語抽出装置１０による処理結果を通信網３を介して取得し、取得した処理結果や当該処理結果に基づく情報処理結果をモニタに表示する。

上述してきたように、実施例１では、前処理部１１は、代表語の抽出対象となる対象文書群を含む文書群を収集し、基準語取得部１３は、代表語を抽出する基準となる基準語を取得する。そして、基準文書特定部１４は、前処理部１１から入力される文書群から基準語を含む基準文書を特定し、単語群抽出部１５は、基準文書から基準語と基準語以外の単語とを単語群として抽出する。そして、指標算出部１６は、抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する。そして、指標補正部１７は、抽出された単語群の各単語に対して、全文書群における希少度と対象文書群における希少度とを算出し、算出した２つの希少度を用いて指標算出部１６によって算出された指標を補正する。

したがって、実施例１によれば、代表語の抽出対象となる対象文書群を含む文書群から共起頻度等の指標を算出した後に、算出した指標を補正するので、共起頻度自体を指標とする従来の手法と異なり、補正後の指標を基に単語をランク付けすることが可能となる。その結果、実施例１によれば、文書群に含まれる文書の数に依存することなく文書群を代表するキーワードを抽出することが可能となる。

実施例２では、時系列の情報を有さない複数の文書が処理対象となる場合について、図１２を用いて説明する。図１２は、実施例２の代表語抽出装置の処理対象となる文書群を説明するための図である。

実施例２における代表語抽出装置１０は、図１で説明したような代表語抽出システムに設置される。そして、代表語抽出装置１０は、図１２に示すように、代表語抽出装置１０を利用するユーザが処理対象として指定した時系列の情報を有さない「ｘｘ学会要旨集」などの文書群に対して実施例１で説明したような複数の単語と指標とがセットとなった情報を処理結果として出力する。

ここで、指定した文書群がアナログデータである場合、図１２に示すように、文字認識などの手法により文書群のデジタル化が行われたのち、指定された文書群は、代表語抽出装置１０に入力される。

これにより、ユーザ端末１の内部情報処理部１ｂは、処理結果に基づいて、例えば、目次を生成することが可能となる。また、ユーザ端末１の内部情報処理部１ｂは、処理結果に基づいて、「ｘｘ学会」に所属する研究者の研究開発のトレンドを抽出することが可能となる。また、ユーザ端末１の内部情報処理部１ｂは、処理結果に基づいて、「ｘｘ学会」に所属する研究者の研究分野におけるシソーラスを構築することが可能となる。また、専門分野の書籍や、特定の著者の文書や、特定のユーザが好む文書群などを処理対象とすることで、該当する専門分野や特定の著者や特定のユーザの嗜好するシソーラスを構築することが可能となる。

ところで、本発明の代表語抽出装置１０と従来方式の代表語抽出装置とを併用する代表語抽出システムを構築することもできる。そこで、以下の実施例３では、本発明の代表語抽出装置１０と従来方式の代表語抽出装置とを併用する代表語抽出システムについて説明する。図１３は、実施例３における代表語抽出システムを説明するための図である。

図１３に示すように、実施例３における代表語抽出システムは、代表語抽出装置１０と、従来方式の代表語抽出装置２０とを含む。代表語抽出装置１０は、実施例１や実施例２で既に説明した代表語抽出装置１０と同様であるためその説明を省略する。

従来方式の代表語抽出装置２０は、キーワードを抽出する手法として、出現頻度を利用する手法や共起頻度を利用する手法などの従来の手法を実行する。例えば、従来方式の代表語抽出装置２０は、出現頻度を利用する手法としてＴＦ／ＩＤＦ法を実行したり、共起頻度を利用する手法として「非特許文献１」に掲載された手法を実行する。

このような構成の下で、実施例３における代表語抽出システムは、実施例１や実施例２で説明した文書群に対して例えばｋ−ｍｅａｎｓ法などのクラスタリングを実行し、当該文書群をクラスタに分類する。そして、代表語抽出システムは、分類したクラスタ内の文書数を閾値判定する。

クラスタ内の文書数が所定の閾値以下である場合には、代表語抽出システムは、代表語抽出装置１０に代表語抽出処理を実行させる。一方、クラスタ内の文書数が所定の閾値を超過する場合には、代表語抽出システムは、従来方式の代表語抽出装置２０に代表語抽出処理を実行させる。

これにより、実施例３では、本発明の代表語抽出装置１０と従来方式の代表語抽出装置とを併用することができる。このため、実施例３によれば、大量の文書から所望の文書を探索するＳｃａｔｔｅｒ／Ｇａｔｈｅｒ法等において、文書群に含まれる文書の数に依存することなく文書群を代表するキーワードを抽出することができる。

ところで、上記の実施例で説明した代表語抽出装置１０の各種の処理（例えば、図１１等参照）は、あらかじめ用意されたプログラムをパーソナルコンピュータなどのコンピュータで実行することによって実現することができる。以下では、図１４を用いて、上記の実施例と同様の機能を有する代表語抽出プログラムを実行するコンピュータの一例を説明する。図１４は、代表語抽出プログラムを実行するコンピュータを示す図である。

同図に示すように、代表語抽出装置としてのコンピュータ１００は、通信制御部１１０、ＨＤＤ（Hard Disk Drive）１２０、ＲＡＭ（Random Access Memory）１３０およびＣＰＵ（Central Processing Unit）１４０をバス２００で接続して構成される。

このうち、通信制御部１１０は、ユーザ端末１との間でやりとりされる各種データに関する通信を制御する。ＨＤＤ１２０は、ＣＰＵ１４０による各種処理の実行に必要な情報を記憶する。ＲＡＭ１３０は、各種情報を一時的に記憶する。ＣＰＵ１４０は、各種演算処理を実行する。

そして、ＨＤＤ１２０には、図１４に示すように、上記の実施例に示した代表語抽出装置１０が有する各機能部と同様の機能を発揮する代表語抽出プログラム１２１と、代表語抽出データ１２２とがあらかじめ記憶されている。なお、この代表語抽出プログラム１２１を適宜分散させて、ネットワークを介して通信可能に接続された他のコンピュータの記憶部に記憶させておくこともできる。

そして、ＣＰＵ１４０が、この代表語抽出プログラム１２１をＨＤＤ１２０から読み出してＲＡＭ１３０に展開することにより、図１４に示すように、代表語抽出プログラム１２１は代表語抽出プロセス１３１として機能するようになる。すなわち、代表語抽出プロセス１３１は、代表語抽出データ１２２等をＨＤＤ１２０から読み出して、ＲＡＭ１３０において自身に割り当てられた領域に展開し、この展開したデータ等に基づいて各種処理を実行する。なお、代表語抽出プロセス１３１は、上記の実施例で説明した代表語抽出装置１０の処理機能部（前処理部１１、基準語取得部１３、基準文書特定部１４、単語群抽出部１５、指標算出部１６および指標補正部１７等）において実行される処理にそれぞれ対応する。

なお、上記した代表語抽出プログラム１２１については、必ずしも最初からＨＤＤ１２０に記憶させておく必要はなく、例えば、コンピュータ１００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される「他のコンピュータ（またはサーバ）」などに各プログラムを記憶させておき、コンピュータ１００がこれらから各プログラムを読み出して実行するようにしてもよい。

１ユーザ端末
１ａ閲覧履歴取得部
１ｂ内部情報処理部
２ウェブサーバ群
３通信網
１０代表語抽出装置
１１前処理部
１２基準語ＤＢ
１３基準語取得部
１４基準文書特定部
１５単語群抽出部
１６指標算出部
１７指標補正部

Claims

代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集手段と、
前記代表語を抽出する基準となる単語である基準語を取得する基準語取得手段と、
前記文書群収集手段によって収集された文書群から前記基準語取得手段によって取得された基準語を含む文書である基準文書を特定する基準文書特定手段と、
前記基準文書特定手段によって特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出手段と、
前記単語群抽出手段によって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出手段と、
前記単語群抽出手段によって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した２つの希少度を用いて前記指標算出手段によって算出された指標を補正する指標補正手段と
を備えたことを特徴とする代表語抽出装置。
前記指標補正手段は、前記単語群抽出手段によって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した２つの希少度の比を前記指標算出手段によって算出された指標に乗算することにより当該指標を補正することを特徴とする請求項１に記載の代表語抽出装置。
前記指標算出手段によって算出される指標は、共起頻度又はｊａｃｃａｒｄ係数であることを特徴とする請求項１又は２に記載の代表語抽出装置。
前記文書群は、ユーザが所定の期間に渡って時系列に沿ってウェブ上で閲覧したウェブページに含まれる複数の文書であることを特徴とする請求項１〜３のいずれか一つに記載の代表語抽出装置。
前記文書群は、時系列の情報を有さない複数の文書であることを特徴とする請求項１〜３のいずれか一つに記載の代表語抽出装置。
代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集ステップと、
前記代表語を抽出する基準となる単語である基準語を取得する基準語取得ステップと、
前記文書群収集ステップによって収集された文書群から前記基準語取得ステップによって取得された基準語を含む文書である基準文書を特定する基準文書特定ステップと、
前記基準文書特定ステップによって前記文書群から特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出ステップと、
前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出ステップと、
前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した２つの希少度を用いて前記指標算出ステップによって算出された指標を補正する指標補正ステップと
を含んだことを特徴とする代表語抽出方法。
コンピュータを請求項１〜５のいずれか一つに記載の代表語抽出装置として機能させることを特徴とする代表語抽出プログラム。