JP2018077726A

JP2018077726A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2018077726A
Application number: JP2016219911A
Authority: JP
Inventors: 竹本　剛; Takeshi Takemoto; 剛竹本; 則之菊地; Noriyuki Kikuchi
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2016-11-10
Filing date: 2016-11-10
Publication date: 2018-05-17
Anticipated expiration: 2036-11-10
Also published as: JP6412540B2

Abstract

【課題】トピック性の高い単語をキーワードとして選択できる情報処理装置を提供する。
【解決手段】情報処理装置１は、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶するデータベース１００と、所定の単語にユーザ興味度を関連付け、指定されたドキュメントに出現する単語と、データベース１００に出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定する、ドキュメントクラスタ特定手段１０１と、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて補正する、単語評価値補正手段１０２と、補正された単語評価値に基づいて、ドキュメントクラスタに出現する単語を指定されたドキュメントに関連するキーワードとして選定する、キーワード選定手段１０３と、を備える。
【選択図】図２

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

記事に出現する単語に基づいてキーワードを抽出する技術は、情報の推薦処理を行うシステムで幅広く利用されている。従来、キーワード抽出の指標として、単語の特徴を値化して表記した興味度が用いられてきた。興味度はユーザが所定の記事を閲覧した際にその記事に出現した単語の情報を蓄積し、その蓄積結果から、記事に出現する単語の出現頻度が社会一般での同単語の出現頻度と比較してどのくらい特徴的であるかを示す値である。

この興味度に基づいてキーワードを抽出する技術は、情報の推薦処理を行うシステムで利用する場合には理に適ったものであると言える。なぜなら記事に出現する各々の単語の特徴を興味度として評価し、所定の基準に達した単語がキーワードとして抽出されるため、少なくともユーザ自身にとって馴染みのある単語がキーワードとして抽出されるからである。特許文献１では、ユーザの所定のコンテンツアクセスの履歴を参照し、コンテンツ内容の言語部分を解析して、ユーザの興味度が高い単語をキーワードとして選定する技術が公開されている。

特開２０１０−２６２３８３

興味度は、ユーザの閲覧記事の増加に伴い変動する値でもある。ユーザが閲覧した記事の情報量が増加するに従って、蓄積した閲覧記事に出現する単語の出現頻度は、社会一般での同単語の出現頻度に近づく傾向にある。初期段階では蓄積する記事の情報は特定のジャンルに偏っているが、時間が経つにつれて多岐に渡ったジャンルの記事の情報を蓄積し、データベースが記事の情報を学習する。ユーザが閲覧した記事の蓄積による記事学習が進むことで、「ユーザが閲覧する記事の情報量≒社会一般で閲覧する記事の情報量」という状況になり、双方の記事に出現する単語の出現頻度の相関に基づいて算出される興味度が、全ての単語において似通った値となってしまう。記事に関連するキーワードは、単語の興味度と、記事に対する出現回数と、に基づいて抽出されるが、記事学習が進むことで興味度の値が意味を成さなくなり、結果として記事に出現する出現回数の多い所謂一般単語がキーワードとして抽出されてしまう。

つまり、従来のように記事に対する単語の出現頻度に基づく興味度を指標としたキーワード抽出では、ユーザの閲覧記事の情報に基づく学習が進むにつれて、真に抽出すべきキーワード（トピック性の高い単語）と、抽出すべきでないキーワード（一般単語など）の区分けが難しくなり、結果として閲覧記事に適正なキーワードが抽出できないという課題がある。

本発明は、このような実情に鑑みてなされたものであって、記事の中からトピック性の高い単語をキーワードとして選択できる情報処理装置を提供することを目的とする。

本発明に係る情報処理装置は、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースと、指定されたドキュメントに出現する単語と、データベースに出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定するドキュメントクラスタ特定手段と、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正する単語評価値補正手段と、情報量で補正された単語評価値に基づいて、ドキュメントクラスタに出現する単語を指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、を備える、ことを特徴とする。

本発明に係る情報処理方法は、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、指定されたドキュメントに出現する単語と、データベースに出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定するステップと、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正するステップと、情報量で補正された単語評価値に基づいて、ドキュメントクラスタに出現する単語を指定されたドキュメントに関連するキーワードとして選定するステップと、を有する、ことを特徴とする。

本発明に係る情報処理を実現させるためのプログラムは、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、指定されたドキュメントに出現する単語と、データベースに出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定する工程と、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正する工程と、情報量で補正された単語評価値に基づいて、ドキュメントクラスタに出現する単語を指定されたドキュメントに関連するキーワードとして選定する工程と、をコンピュータに実行させる、ことを特徴とする。

本発明によれば、記事の中からトピック性の高い単語をキーワードとして選択できる。

本発明の実施形態にかかる情報処理装置１のハードウェア構成図である。本発明の実施形態にかかる情報処理装置１の機能ブロック図である。本発明の実施形態にかかるデータベースの一例である。本発明の実施形態にかかるユーザデータベースの一例である。本発明の実施形態にかかる指定されたドキュメントの一例である。本発明の実施形態にかかる指定されたドキュメントの文章解析の一例である。本発明の実施形態にかかる単語評価値に対する第１の補正方法の一例である。本発明の実施形態にかかる第１の補正方法により補正された補正単語評価値のランキング化の一例である。本発明の実施形態にかかる図３のデータベースの単語特徴量を、ドキュメントクラスタごとに正規化した一例である。本発明の実施形態にかかる単語評価値に対する第２の補正方法の一例である。本発明の実施形態にかかるフローチャートの一例である。

以下、本発明の実施の形態について詳細に説明する。

まず、本実施形態の情報処理装置１のハードウェア構成について図１を用いて説明する。ここでの情報処理装置とは、例えばパーソナルコンピュータ、タブレット端末、スマートフォンなどのネットワークに接続が可能な情報端末などを指す。また、複数のコンピュータにネットワークを通じて処理要求を行うホストコンピュータやサーバなどであっても良い。尚、情報処理装置１の構成は、図１に示したものと必ずしも同じである必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。例えばマウスや入力キーで構成されるキーボードなどの入力装置や、プロジェクター、もしくは液晶、および有機ＥＬなどのパネルを用いたディスプレイを備えた表示装置や、ＣＤ、もしくはＤＶＤなどに記憶されているデータを読み書きする光学ドライブなどを追加で備えていてもよい。

情報処理装置１は、所定のプログラムを実行することにより、情報処理装置１の全体の制御を実現するためのＣＰＵ１０と、情報処理装置１の電源が投入されたときにＣＰＵ１０が読出すプログラムを記憶する読出専用の不揮発メモリであるマスクＲＯＭ、ＥＰＲＯＭ、またはＳＳＤなどと、ＣＰＵ１０がプログラムを読み出し、演算処理等により生成したデータを一時的に書き込む作業用の揮発メモリであるＳＲＡＭやＤＲＡＭなどから構成されるメモリ１１、情報処理装置１の電源が切断されたときに種々のデータの記録を保持することが可能なＨＤＤ１２と、を備えている。

また、情報処理装置１は、通信Ｉ／Ｆ１３を更に備えている。情報処理装置１は通信Ｉ／Ｆ１３を介してネットワーク２００に接続されている。通信Ｉ／Ｆ１３は、ＣＰＵ１０の動作に基づいてネットワーク２００経由でアクセス可能な各種情報にアクセスするものであり、通信Ｉ／Ｆ１３の具体的としてＵＳＢポートやＬＡＮポート、無線ＬＡＮポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。

図２は、本発明の実施形態にかかる情報処理装置１の機能ブロック図である。図２に示すように、本発明にかかる情報処理装置１は、データベース１００と、ドキュメントクラスタ特定手段１０１と、単語評価値補正手段１０２と、キーワード選定手段１０３と、を備えている。

情報処理装置１のデータベース１００は、ネットワーク２００経由でアクセス可能なドキュメントがＣＰＵ１０の動作処理に基づいて形態素解析され、ドキュメントに出現する単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを含んで構成されるものである。尚、ここでの「ドキュメント」とは、不特定多数の人間が閲覧可能な多岐に渡る情報を意味しており、例えば、政治経済などの社会記事を配信するサイトから取得される情報や、スポーツ記事を配信するサイトから取得される情報、更に言えば検索エンジンなどのユーザに情報を紹介するポータルサイトから取得される情報、もしくはＥＣサイトなどのサービス提供サイトから取得される情報を含めてもよい。これらの多岐に渡るサイトから定期的に取得した情報をドキュメントとしてＨＤＤ１２などに蓄積する。上述した「ドキュメントクラスタ」についての詳細は後述する。

蓄積されたドキュメントに基づいてデータベース１００が生成される。データベース１００の生成は、コンピュータの処理負荷の低減のため、例えば、所定の期間（週単位など）が経過したタイミング、もしくはＨＤＤ１２に蓄積されるドキュメントのデータ量に閾値を設定し、データ量がその閾値を超えたタイミングなどで行われる。いずれにしても、少量のドキュメントが蓄積される度にその都度データベース１００を生成するのではなく、ドキュメントの蓄積期間、蓄積されるドキュメントのデータ量、もしくはその他の指標など何かしらの基準に基づいてデータベース１００を生成することが好ましい。

データベース１００の生成方式は、取得したドキュメントを構成する文章を形態素解析により単語に分解して抽出し、出現する単語の出現傾向が類似するドキュメントをグループ化するなどの所謂クラスタリング方式が一例である。このように単語の出現傾向が類似するドキュメントでグループ化することで、ドキュメントの単語特性に応じたジャンル分けが可能となる。クラスタリングによりドキュメントがグループ化されたデータベース１００の一例を図３として示す。縦方向、つまり行方向はドキュメントに出現する単語を示しており、横方向、つまり列方向の「クラスタＡ」、「クラスタＢ」、「クラスタＣ」は各々単語の出現傾向が類似するドキュメントを含んで構成されたグループを示している。尚、ドキュメントがクラスタリングされた各クラスタを行方向、ドキュメントに出現する単語を列方向に規定してもよい。「単語特徴量」は、各クラスタを構成するドキュメントに出現する単語の出現頻度の合計である。「クラスタ単語特徴量合計値」は、単語の各クラスタでの出現頻度の合計である。例えば、「選手」という単語であれば、クラスタＡでの単語特徴量が0.05、クラスタＢでの単語特徴量が0.02、クラスタＣでの単語特徴量が0.02なので、クラスタ単語特徴量合計値はそれぞれのクラスタごとの合計で0.09となる。

クラスタリングを行うことで、クラスタＡ、クラスタＢ、およびクラスタＣのそれぞれのクラスタごとの単語の出現傾向に特徴が出る。例えばクラスタＡでは、「サッカー」、「選手」などのサッカーに関連する単語の単語特徴量が大きい。これは、クラスタＡが、サッカーに関連するドキュメントによりグループ化されているためである。同様にクラスタＢは、野球に関連するドキュメントによりグループ化されたものであるため、「野球」、「監督」などの野球に関連する単語の単語特徴量が大きい。

本実施形態では、ドキュメントをクラスタリングした横方向のクラスタのみを含んでデータベース１００が構成されているが、例えば縦方向の単語をクラスタリングした二次元のクラスタを備えたデータベースとすることもできる。横方向のドキュメントクラスタ、および縦方向の「単語クラスタ」をそれぞれ備えた二次元型のデータベースは、例えば、横方向のクラスタリングと縦方向のクラスタリングを交互に行うことで生成される。双方向のクラスタリングを交互に行うことで、特定のドキュメントクラスタに特定の単語が集中的に出現したデータベースが出来上がる。尚、本実施形態では、ドキュメント−ドキュメント間の距離、およびドキュメントに出現する単語−単語間の距離に基づいてクラスタリングが行われるが、階層的クラスタリングとしてのNN（Nearest Neighbor）法、K-NN（K Nearest Neighbor）法、ウォード法なども適用可能である。また、これらに限定されずその他の手法を用いてもよい。

特定のドキュメントクラスタに特定の単語が集中的に出現することで、どのドキュメントクラスタにどの単語クラスタが対応しているかの関係性が明確になる。つまり、あるドキュメントクラスタに対応する単語クラスタに出現する単語の出現頻度は、対応するドキュメントクラスタ以外のドキュメントクラスタでは微々たるものであると言える。縦方向の単語によるクラスタリングを行わず、横方向のドキュメントによるクラスタリングのみの一次元データベースでも本発明への適用は十分であるが、上述したような単語クラスタを縦方向に備える二次元のデータベースでも本発明に適用可能である。また、クラスタリング階層は、予めメモリ１１に格納されているプログラムで設定することが可能であるが、できるだけ細分化することが好ましい。例えば、サッカーや野球などは「スポーツ」という単語の下位概念である。つまり、クラスタリング階層がスポーツであるとすると、クラスタＡとクラスタＢの区分けが無くなり、サッカー特有の単語、野球特有の単語が同クラスタに含まれてしまうことになる。クラスタリングの階層を細分化することは、ドキュメントの特性をより明確にすることができる点で有益である。

本実施形態では、上記のようにクラスタリングされたデータベース１００に出現する単語に対して、ユーザ興味度を関連付ける。ここで「ユーザ」は、情報処理装置１の所有者と、情報処理装置１の所有者ではなく、不特定多数の人間と、の２つの側面で定義することができる。前者の情報処理装置１の所有者をユーザとした時の「興味度」は、情報処理装置１の所有者の意図に基づいて取得されたドキュメントに出現する単語に基づいて得られる情報である。また、後者の不特定多数の人間をユーザとした時の「興味度」は、自由に発言したり、ＷＥＢリンクを張り付けたりできるソーシャルネットワークサービスとしてのツイッタ−（登録商標）やＳＮＳなどから取得したドキュメントに出現する単語に基づいて得られる情報である。本実施形態でのユーザは、情報処理装置１の所有者である前者を想定するものとする。

「ユーザ興味度」を定義するために、本実施形態では図４のようなデータベース（以後ユーザデータベースと表記する）を追加で備えているものとする。図４は、ユーザが自身の意図に基づいて取得したユーザドキュメントの情報から生成されるものである。ユーザデータベースとは、まず、図３のデータベース１００が土台となっていることを前提とする。図３のデータベース１００を土台として、形態素解析されて抽出されたユーザドキュメントに出現する単語の出現頻度を、そのユーザドキュメントが属するドキュメントクラスタごとに算出する。ユーザドキュメントが属するドキュメントクラスタは、図３のデータベース１００のドキュメントクラスタごとの単語の出現頻度との類似性から判断可能である。尚、ユーザデータベースに出現する単語、クラスタリングの階層なども図３と同様であるものとする。ユーザドキュメントは、定期的に多岐に渡るサイトからコンピュータが自動的に取得するものとは異なり、ユーザ自身が操作して取得したものである。ユーザドキュメントには、例えばユーザＩＤなどの識別子をメタデータとして付与して、図３のデータベース１００を生成した際の元データであるドキュメントとは別々に蓄積、管理することが好ましい。

図４のユーザデータベースに出現する単語、およびクラスタ区分は図３と同様であるものとする。更に、単語特徴量は、各クラスタを構成するドキュメントに出現する単語の出現頻度の合計である。ユーザデータベースの単語特徴量は、ユーザの興味に左右されるため、自ずと閲覧頻度の高いジャンルに関連する単語で高い値となる傾向がある。このように図３のデータベース１００とユーザデータベースの単語特徴量に着目して「ユーザ興味度」を定義することができる。

本実施形態でのユーザ興味度は、図３のデータベース１００、および図４のユーザデータベースに出現する同単語での、ユーザデータベースにおける単語特徴量（＝X）と図３のデータベース１００における単語特徴量（＝Y）の相関で定義する。ＸとＹを用いて演算式は、log(X/Y)となる。尚、logの底に関しては、１０でも２でもｅでもよい。このように演算式を定義することで、データベース１００の単語特徴量に対してユーザデータベースの単語特徴量が高ければポジティブ、つまり興味度が高いと言え、逆であればネガティブ、つまり興味度が低いと言える。以上のように定義したユーザ興味度を、データベース１００の所定の単語に関連付けて記憶する。

以上のようにして、図３のようにデータベース１００に出現する単語に対してユーザ興味度が関連付けられる。ユーザ興味度が高い単語は、データベース１００に対してユーザデータベースでの単語特徴量が大きい。尚、本実施形態でのデータベース１００、およびユーザデータベースでは説明の簡素化のために単語特徴量が0である単語が複数存在しており、そのような単語は、算出されるユーザ興味度も説明の簡素化のため便宜上0としている。

また、データベース１００は、定期的にリフレッシュすることが好ましい。世の中の情報は日々変化していくため、取得した時点でのドキュメントの情報はもう過去の古い情報であると言える。大量の新しいドキュメントを取得したタイミングで、再度クラスタリング処理を行い、データベース１００にフレッシュな情報を反映させることが必要である。

情報処理装置１のデータベース１００は、ＣＰＵ１０がＨＤＤ１２などの記憶装置に記憶されているドキュメント集合を読み出し、メモリ１１に記憶されている所定のデータベース方式が書き込まれているプログラムに基づいて処理を実行することで生成され、更にユーザデータベースを読み出し、所定の興味度演算方式が書き込まれているプログラムに基づいて興味度演算を実行し、算出結果としての興味度をデータベース１００に関連付けることで実現が可能である。

情報処理装置１のドキュメントクラスタ特定手段１０１の定義付けは、指定されたドキュメントに出現する単語と、データベース１００に出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定することを意味する。ここでの「指定されたドキュメント」とは、図５に示したようなドキュメントを一例とする。指定されたドキュメントは、ユーザ自身の意思による何かしらの操作に基づいて、コンピュータがネットワーク２００経由で取得した文章データ等を意味する。尚、ドキュメントの取得元は上述したような、政治経済などの社会記事を配信するサイトや、スポーツ記事を配信するサイト、更に言えば検索エンジンなどのユーザに情報を紹介するポータルサイト、もしくはＥＣサイトなども含めてよい。

取得された図５のようなドキュメントが、データベース１００のドキュメントクラスタの中からどのドキュメントクラスタに属するかを特定する。ドキュメントクラスタの特定方法として、指定されたドキュメントに出現する単語と、データベース１００のドキュメントクラスタに属する単語の出現頻度に基づいて算出した類似度に着目した方法がある。指定されたドキュメントに出現する単語の出現頻度は、ドキュメントに出現する個々の単語の出現回数を、ドキュメント全体の単語の出現回数で除算することで算出できる。このようにドキュメントに出現する単語の出現頻度に着目して類似度を算出することが可能である。本実施形態では、指定されたドキュメントに出現する単語の出現頻度も併せて単語特徴量と表記することにする。

ドキュメント−ドキュメント間の類似性を評価する方法の一つとして、コサイン類似度がある。２つの比較対象の類似性を評価する手段としてのコサイン類似度は公知であるため、詳細な説明は割愛するが、本実施形態では、ドキュメントクラスタに属するドキュメントに出現する単語の単語特徴量と、指定されたドキュメントに出現する単語の単語特徴量に着目して類似度を算出する。図６は指定されたドキュメントに出現する単語の単語特徴量を示したものである。尚、コサイン類似度は、文章に出現する単語の出現頻度を正規化した単語ベクトルを用いて算出されることが一般的であり、本実施形態でも同様である。尚、本実施形態では、データベース１００のドキュメントクラスタ、および指定されたドキュメントに出現する単語の単語特徴量を単語ベクトルとして用いることができる。算出された類似度に基づいて、指定されたドキュメントに関連するドキュメントクラスタが「クラスタＡ」と特定することができる。尚、文章同士の類似性を評価する方法としては、コサイン類似度に限定されず、例えばユーグリッド距離などを用いてもよい。

情報処理装置１のドキュメントクラスタ特定手段１０１は、ＣＰＵ１０がメモリ１１に記憶されている所定のドキュメントクラスタ特定プログラムに基づいてメモリ１１に記憶されているデータベース１００等を読み出してドキュメントクラスタの特定を実行することで実現が可能である。

情報処理装置１の単語評価値補正手段１０２の定義付けは、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正することを意味する。ここで「単語評価値」とは、特定されたドキュメントクラスタに出現する単語をユーザ興味度に基づいて値化したものである。単語の値化にユーザ興味度を用いることは一般的に広く知られている。従来、指定されたドキュメントに出現し、更にユーザ興味度が高いということが指定されたドキュメントに関連する単語としてトピック性を示す最良の条件と考えられてきた。

しかし、ユーザ興味度は２つのデータベース（本実施形態ではデータベース１００とユーザデータベース）による相関に基づく値のため、例えばユーザデータベースがたくさんの情報を取り込み、データベース１００と単語特徴量で差が出なくなってしまった場合などは、ユーザ興味度に基づく単語評価値にも差が出なくなってしまう。そこで、本実施形態では、従来のユーザ興味度に基づく単語評価値を、単語の出現頻度に基づいて算出される情報量で補正することにする。
＜情報量による第１の単語評価値の補正＞

ここで、第１の単語評価値の補正に用いる情報量を、クラスタＡに出現する単語の、全ドキュメントクラスタの出現頻度に対するドキュメントクラスタごとの出現頻度の分散に基づいて算出される情報エントロピーとする。クラスタに出現する単語は、クラスタＡだけに出現するもの、クラスタＡとクラスタＢだけに出現するもの、クラスタＡ、クラスタＢ、クラスタＣの全てのクラスタに出現するものなど様々であり、単語のクラスタを跨ぐ分散についても様々である。このようなクラスタを跨いだ単語の分散に基づく情報エントロピーを用いて、単語評価値を補正することを考える。

まず、一例として図３の「選手」という単語の情報エントロピーを算出することを考えてみる。所定の単語の各クラスタでの単語特徴量をP(w|G)と定義し、更に所定の単語の全クラスタでの単語特徴量の合計をP(w)と定義する。情報エントロピーE(w)は、クラスタごとのP(w|G)、およびP(w)から算出されるクラスタごとの情報エントロピーを全クラスタ分で加算することにより算出されるため、
E(w) = -ΣP(w|G)/P(w)log(P(w|G)/P(w))と定義することができる。尚、logの底に関しては、１０でも２でもｅでもよい。この式に基づくと「選手」という単語の情報エントロピーは1.44と算出される。尚、情報エントロピーE(w)はクラスタを跨いだ単語の分散を情報量として数値化しており、より多くのクラスタに分散するほど大きい値となる。その他の単語においても同様に情報エントロピーE(w)を算出できる。

情報エントロピーE(w)は、多くのクラスタで出現している所謂一般単語と呼ばれるもので大きくなる傾向がある。逆を言えば、情報エントロピーが小さい単語は、特定のクラスタでの出現頻度が高く、他のクラスタでは極めて出現頻度が低いものであると言える。つまり、情報エントロピーが小さい単語は、出現頻度の高い特定のクラスタで特徴性の高いトピック単語と言えるものである。

図７は、クラスタＡに出現する単語に単語評価値と情報エントロピーを関連付けたものである。尚、図７に表記している単語は、前述したユーザ興味度が0以外の単語に絞っている。単語評価値に関しては、ユーザ興味度の値そのものでもよいが、例えば指定されたドキュメントに出現する出現回数などをユーザ興味度に乗算したり、指定されたドキュメントのタイトルに出現していれば、それに基づいたポイントなどを付与させたりして重み付けを行ってもよい。本実施形態では説明の簡素化のために、ユーザ興味度の値をそのまま単語評価値として用いることにする。

図７を参照すると、「三浦和良」という単語の情報エントロピーE(w)が0.16と極めて低い値であることがわかる。この「三浦和良」という単語は、固有名詞であり、その他の単語と比較してみても特徴性の高いトピック単語であることが視覚的にもわかる。情報エントロピーE(w)で単語評価値を補正する方法として、単語評価値を情報エントロピーE(w)で除算することが好ましい。単語評価値を情報エントロピーE(w)で除算した補正単語評価値は図８のとおりである。この結果により、補正単語評価値が最も高い単語は「三浦和良」となった。従来のように、ユーザ興味度や単語の出現回数に着目すると、「サッカー」という単語の単語評価値が高いままであるが、クラスタを跨いだ単語の分散を値化した情報量に基づいて補正することで、より特徴性の高いトピック単語の単語評価値を上げることができる。

尚、ドキュメントのクラスタリング処理を行った結果、一つのクラスタに１００％依存するような単語が出現する場合では、情報エントロピーE(w)を算出する際の単語特徴量を“1.0”としないよう制御することが好ましい。その理由としては、一つのクラスタ専有率１００％、つまり単語特徴量が“1.0”である単語の情報エントロピーE(w)は、上記演算式に基づいて算出すると0となってしまうからである。そのような状況を回避するために、例えば一つのクラスタにおける単語特徴量の上限を９０％、つまり0.9として計算するなど閾値を持たせることが好ましい。また、本実施例では、クラスタＡ、クラスタＢ、クラスタＣに属する単語の数（以下単語情報量と表記する）は同数であることを想定しているが、クラスタＡ、クラスタＢ、クラスタＣでそれぞれ単語情報量が異なる場合では、単語特徴量に大きな偏りが生まれてしまうため、単語特徴量を単語情報量で補正して正規化することが好ましい。このようにすることで、単語情報量の違いによる単語特徴量の偏りを無くすことが可能となる。

＜情報量による第２の単語評価値の補正＞
次に、第２の単語評価値の補正に用いる情報量を、クラスタＡに出現する単語の、データベース１００に対する出現頻度と、ドキュメントクラスタごとの出現頻度の分散と、で算出される情報利得とする。ここでの情報利得とは、ドキュメントのクラスタリング前の情報エントロピーと、ドキュメントのクラスタリング後の情報エントロピーに基づいて算出される情報量として定義されるものとする。

まず、ドキュメントのクラスタリング前の情報エントロピーＪ₀(w)を、第１の単語評価値の補正と同様に「選手」という単語で算出することを考えてみる。クラスタリング前の所定の単語の単語特徴量をQ(w)とすると、クラスタリング前の情報エントロピーＪ₀(w)は、
Ｊ₀(w) = −Q(w)/log(Q(w))−(1-Q(w))log(1-Q(w))と定義することができる。尚、logの底に関しては、１０でも２でもｅでもよい。この式に基づくと、クラスタリング前の情報エントロピーＪ₀(w)は0.44と求めることができる。

次に、ドキュメントのクラスタリング後の情報エントロピーＪ₁(w)を算出することを考えてみる。情報エントロピーＪ₁(w)を算出するにあたり、クラスタＡ、クラスタＢ、クラスタＣごとに単語特徴量を正規化することが必要となる。図９は、図３のデータベース１００における単語特徴量を、クラスタＡ、クラスタＢ、クラスタＣごとに正規化して示したものである。正規化することで、クラスタＡ、クラスタＢ、クラスタＣのクラスタごとの単語特徴量の合計はそれぞれ“1.0”となる。

正規化後の全クラスタに対する各々のクラスタの確率分布をP(G)として、クラスタ内での単語特徴量は、所定の単語の各クラスタでの単語特徴量P(w|G)と定義する。クラスタリング後の情報エントロピーＪ₁(w)は、
Ｊ₁(w) = -Σ(P(G)×[-P(w|G)logP(w|G)-(1-P(w|G))×log(1-P(w|G))])と定義することができる。例えば、図９のデータベースに基づいて、クラスタＡの確率分布P(G)は1/3と求めることができ、クラスタＢ、クラスタＣについても同様である。また、「選手」という単語の各クラスタでの単語特徴量P(w|G)はクラスタＡでは0.11、クラスタＢでは0.07、クラスタＣでは0.08となる。これらの値に基づいて「選手」という単語のクラスタリング後の情報エントロピーＪ₁(w)は0.42と求めることができる。

算出されたＪ₀(w)とＪ₁(w)との差分に基づいて情報利得を算出することはよく知られている。しかし、単純にＪ₀(w)とＪ₁(w)との差分を取るだけでは、トピック性の高い単語とトピック性の低い単語とを明確に区分できず、真に抽出すべき単語を判断できない場合がある。トピック性の高さを判断する精度向上のため、本実施形態での情報利得IG(w)は
IG(w) = 1-(Ｊ₁(w)/Ｊ₀(w))と定義する。このように定義することで、トピック性の高い単語とトピック性の低い単語と、の区分けが明確になる。この式に基づくと、「選手」という単語の情報利得は0.04と求めることができる。つまり、クラスタリング前とクラスタリング後での情報エントロピーＪ₀(w)、Ｊ₁(w)に大きな差がないということが言える。クラスタリング後の情報エントロピーＪ₁(w)が小さい値であるほど情報利得IG(w)が大きな値となることを示している。その他の単語においても同様に情報利得IG(w)を算出できる。

図１０は、クラスタＡに出現する単語に単語評価値と情報利得を関連付けたものである。尚、図７と同様に、前述したユーザ興味度が0以外の単語に絞っている。情報利得IG(w)の値は、情報エントロピーE(w)の時とは真逆の傾向となり、クラスタでの特徴性の高い「三浦和良」が最も大きい値となった。これは「三浦和良」という単語が出現するドキュメントがある特定のクラスタに密集し、特定のクラスタでの単語特徴量が大きくなったことを示している。

以上のように、単語評価値をクラスタに跨る単語の分散に着目して補正することで、クラスタに対して特徴性の高いトピック単語の単語評価値を上げることができる。尚、単語評価値については、例えば情報エントロピーE(w)、および情報利得IG(w)のどちらか一方で補正してもよく、両方を用いて補正を行ってもよい。両方を用いて補正する場合の方法としては、例えば単語評価値に情報エントロピーE(w)を除算し、更に情報利得IG(w)を乗算する。このような情報エントロピーE(w)と情報利得IG(w)の相乗効果に伴って、単語のトピック性を更に高めることができる。

また、他の実施形態として、一つ一つの単語に対して単語特徴量の評価を行うのではなく、図３のデータベース１００の行方向の単語についてもクラスタリングを行った単語クラスタを一つの単位として、特徴量を評価することも可能である。単語クラスタは、ドキュメントに対する出現頻度が類似する単語がグループ化されたものあるため、一つ一つの単語に対して情報エントロピーE(w)、および情報利得IG(w)を算出して評価する場合よりも、単語クラスタ単位で情報エントロピーE(w)、および情報利得IG(w)を算出することで、トピック性の高い単語クラスタとトピック性の低い単語とをクラスタ単位で区分け・評価することができる点で効果的であると言える。更にトピック性の高い単語クラスタから抽出される単語は、一つ一つの単語単位で評価されて抽出される単語に対してよりトピック性が高いものと判断することも可能である。

情報処理装置１の単語評価値補正手段１０２は、ＣＰＵ１０がメモリ１１に記憶されている所定の単語評価値補正プログラムに基づいてメモリ１１に記憶されているデータベース１００等を読み出して単語評価値の補正演算を実行することで実現が可能である。

情報処理装置１のキーワード選定手段１０３の定義付けは、情報量で補正された補正単語評価値に基づいて、クラスタＡに出現する単語を指定されたドキュメントに関連するキーワードとして選定することを意味する。キーワードの選定は、第１の単語評価値の補正、第２の単語評価値の補正により算出された補正単語評価値が大きい単語をキーワードとすることが好ましい。特定されたドキュメントクラスタであるクラスタＡでは、情報エントロピーE(w)、情報利得IG(w)のどちらを用いても補正単語評価値が大きい値となった「三浦和良」が選定されることになる。また、指定されたドキュメントに出現していない単語であっても、補正単語評価値が高ければキーワードとして選定しても問題は無い。補正単語評価値が高いこと自体、その特定されたドキュメントクラスタでのトピック性に優れていると言えるからである。

情報処理装置１のキーワード選定手段１０３は、ＣＰＵ１０がメモリ１１に記憶されている所定のキーワード選定プログラムに基づいてメモリ１１に記憶されているデータベース１００等を読み出してキーワード選定を実行することで実現が可能である。

図１１は、本発明の実施形態にかかるフローチャートの一例である。

まず、指定されたドキュメントに出現する単語の出現傾向が類似するドキュメントクラスタを特定する（ステップ１）。

特定されたドキュメントクラスタに出現する単語に関連付けられたユーザ興味度に基づいて算出される単語評価値を情報量で補正する（ステップ２）。補正された単語評価値に基づいて指定されたドキュメントに関連する単語をキーワードとして選定する（ステップ３）。

以上のように、本実施形態では、ドキュメントに関連するキーワードを選定する際の単語の評価基準として、従来のような単語の出現頻度によるユーザ興味度だけでなく、クラスタに跨る単語の分散を値化した情報量を用いた。従来キーワードとして選定されてきた所謂一般単語などのトピック性が低いものの評価を情報量による補正で下げることで、トピック性の高い単語を適正に選択することができた。

本願発明を実現できるような構成であれば、用いる装置の具備する内容、および装置の数量などは本実施形態に限定されない。

１００データベース
１０１ドキュメントクラスタ特定手段
１０２単語評価値補正手段
１０３キーワード選定手段

Claims

ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースと、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語とに基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に基づいて算出される単語評価値を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する単語評価値補正手段と、
前記情報量で補正された単語評価値に基づいて、前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、
を備える、
ことを特徴とする情報処理装置。
前記単語評価値は、前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に、前記指定されたドキュメントに出現する出現回数を乗算して算出される、
ことを特徴とする請求項１に記載の情報処理装置。
前記単語評価値補正手段は、前記単語評価値を、前記特定されたドキュメントクラスタに出現する前記単語の、全ドキュメントクラスタの出現頻度に対する前記ドキュメントクラスタごとの出現頻度の分散に基づいて算出される情報エントロピーで補正する、
ことを特徴とする請求項１、および２に記載の情報処理装置。
前記単語評価値補正手段は、前記単語評価値を、前記特定されたドキュメントクラスタに出現する前記単語の、前記データベースに対する出現頻度と、前記ドキュメントクラスタごとの出現頻度の分散と、で算出される情報利得で補正する、
ことを特徴とする請求項１、または２に記載の情報処理装置。
前記キーワード選定手段は、前記情報量で補正された単語評価値が大きい前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定する、
ことを特徴とする請求項１から４のいずれか１項に記載の情報処理装置。
ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語とに基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するステップと、
前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に基づいて算出される単語評価値を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正するステップと、
前記情報量で補正された単語評価値に基づいて、前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定するステップと、
を有する、
ことを特徴とする情報処理方法。
ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語とに基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定する工程と、
前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に基づいて算出される単語評価値を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する工程と、
前記情報量で補正された単語評価値に基づいて、前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定する工程と、
をコンピュータに実行させる、
ことを特徴とするプログラム。