JP6412541B2

JP6412541B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6412541B2
Application number: JP2016219931A
Authority: JP
Inventors: 竹本　剛; 剛竹本; 則之菊地
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2016-11-10
Filing date: 2016-11-10
Publication date: 2018-10-24
Anticipated expiration: 2036-11-10
Also published as: JP2018077727A

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

コンピュータにより文書の類似性を判定する技術は、従来、種々の方法が考案されてきた。よく知られている方法としては、文書に含まれる全特徴単語（名詞など）からなる単語ベクトルを用いて、ベクトル類似度計算を行う方法がある。このベクトル類似度計算は、比較対象の文章に出現する同単語の単語ベクトルによる内積計算が含まれているため、同単語が数多く存在する場合は類似度が高く、同単語の数が少ない場合は類似度が低くなる。

上記のような文章の類似性を判定する技術は、情報の推薦処理を行うシステムでも広く活用されている。特許文献１では、複数の推薦対象の情報に含まれる単語と、被推薦対象の情報に含まれる単語とからなる単語ベクトルによる類似度演算を実現している。

特開２０１６−０８５６７２号公報

特許文献１では、従来考案されてきたベクトル類似度計算を、複数の推薦対象に対して行うことで処理の高速化を実現している。しかし、情報の推薦処理を行うシステムの分野では、類似性判定の性能の向上が要求されている。文章ごとのジャンルの違いがあるにしても、文章を構成する単語の大半は所謂一般単語（例日、時、年など）である。

文章の単語数が増える分、一般単語が増えることになる。つまり、従来の類似性判定では、文章に出現する単語の数に依存して類似性が高くなるという結果になることが少なくなく、算出される類似度が出現回数の多い一般単語に強く影響されるという課題がある。

本発明は、このような実情に鑑みてなされたものであって、一般単語による影響をできるだけ抑制した類似度演算を実現させる情報処理装置を提供することを目的とする。

本発明に係る情報処理装置は、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースと、指定されたドキュメントに出現する単語と、データベースに出現する単語と、に基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定するドキュメントクラスタ特定手段と、ユーザ興味度に基づいて、特定されたドキュメントクラスタに出現する単語を、指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、選定されたキーワードに関連するコンテンツを取得するコンテンツ取得手段と、コンテンツに付随するドキュメントに出現する単語の特徴量である第１の単語特徴量と指定されたドキュメントに出現する単語の特徴量である第２の単語特徴量を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正する単語特徴量補正手段と、補正された第１の単語特徴量、および第２の単語特徴量に基づいて、コンテンツと指定されたドキュメントの類似度を算出する類似度算出手段と、を備える、ことを特徴とする。

本発明に係る情報処理方法は、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、指定されたドキュメントに出現する単語と、データベースに出現する単語と、に基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定するステップと、ユーザ興味度に基づいて、特定されたドキュメントクラスタに出現する単語を、指定されたドキュメントに関連するキーワードとして選定するステップと、選定されたキーワードに関連するコンテンツを取得するステップと、コンテンツに付随するドキュメントに出現する単語の特徴量である第１の単語特徴量と指定されたドキュメントに出現する単語の特徴量である第２の単語特徴量を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正するステップと、補正された第１の単語特徴量、および第２の単語特徴量に基づいて、コンテンツと指定されたドキュメントの類似度を算出するステップと、を有する、ことを特徴とする。

本発明に係る情報処理を実現させるためのプログラムは、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、指定されたドキュメントに出現する単語と、データベースに出現する単語と、に基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定する工程と、ユーザ興味度に基づいて、特定されたドキュメントクラスタに出現する単語を、指定されたドキュメントに関連するキーワードとして選定する工程と、選定されたキーワードに関連するコンテンツを取得する工程と、コンテンツに付随するドキュメントに出現する単語の特徴量である第１の単語特徴量と指定されたドキュメントに出現する単語の特徴量である第２の単語特徴量を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正する工程と、補正された第１の単語特徴量、および第２の単語特徴量に基づいて、コンテンツと指定されたドキュメントの類似度を算出する工程と、をコンピュータに実行させる、ことを特徴とする。

本発明によれば、一般単語による影響をできるだけ抑制した類似度演算を実現できる。

本発明の実施形態にかかる情報処理装置１のハードウェア構成図である。本発明の実施形態にかかる情報処理装置１の機能ブロック図である。本発明の実施形態にかかるデータベースの一例である。本発明の実施形態にかかるユーザデータベースの一例である。本発明の実施形態にかかる指定されたドキュメントの一例である。本発明の実施形態にかかる指定されたドキュメントの文章解析の一例である。本発明の実施形態にかかる特定されたドキュメントクラスタからキーワードを選定する一例である。本発明の実施形態にかかる選定されたキーワードから取得したコンテンツが有する文章データを解析した一例である。本発明の実施形態にかかる特定されたドキュメントクラスタに出現する単語に情報量を関連付けた一例である。本発明の実施形態にかかる図３のデータベースの単語特徴量を、ドキュメントクラスタごとに正規化した一例である。本発明の実施形態にかかる指定されたドキュメントと取得したコンテンツが有する文章データに、補正単語特徴量を関連付けた一例である。本発明の実施形態にかかる補正単語特徴量に基づいて算出した指定されたドキュメントと取得したコンテンツの類似度を算出した一例である。本発明の実施形態にかかるフローチャートの一例である。

以下、本発明の実施の形態について詳細に説明する。

まず、本実施形態の情報処理装置１のハードウェア構成について図１を用いて説明する。ここでの情報処理装置とは、例えばパーソナルコンピュータ、タブレット端末、スマートフォンなどのネットワークに接続が可能な情報端末などを指す。また、複数のコンピュータにネットワークを通じて処理要求を行うホストコンピュータやサーバなどであっても良い。尚、情報処理装置１の構成は、図１に示したものと必ずしも同じである必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。例えばマウスや入力キーで構成されるキーボードなどの入力装置や、プロジェクター、もしくは液晶、および有機ＥＬなどのパネルを用いたディスプレイを備えた表示装置や、ＣＤ、もしくはＤＶＤなどに記憶されているデータを読み書きする光学ドライブなどを追加で備えていてもよい。

情報処理装置１は、所定のプログラムを実行することにより、情報処理装置１の全体の制御を実現するためのＣＰＵ１０と、情報処理装置１の電源が投入されたときにＣＰＵ１０が読出すプログラムを記憶する読出専用の不揮発メモリであるマスクＲＯＭ、ＥＰＲＯＭ、またはＳＳＤなどと、ＣＰＵ１０がプログラムを読み出し、演算処理等により生成したデータを一時的に書き込む作業用の揮発メモリであるＳＲＡＭやＤＲＡＭなどから構成されるメモリ１１、情報処理装置１の電源が切断されたときに種々のデータの記録を保持することが可能なＨＤＤ１２と、を備えている。

また、情報処理装置１は、通信Ｉ／Ｆ１３を更に備えている。情報処理装置１は通信Ｉ／Ｆ１３を介してネットワーク２００に接続されている。通信Ｉ／Ｆ１３は、ＣＰＵ１０の動作に基づいてネットワーク２００経由でアクセス可能な各種情報にアクセスするものであり、通信Ｉ／Ｆ１３の具体的としてＵＳＢポートやＬＡＮポート、無線ＬＡＮポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。

図２は、本発明の実施形態にかかる情報処理装置１の機能ブロック図である。図２に示すように、本発明にかかる情報処理装置１は、データベース１００と、ドキュメントクラスタ特定手段１０１と、キーワード選定手段１０２と、コンテンツ取得手段１０３と、単語特徴量補正手段１０４と、類似度算出手段１０５と、推薦コンテンツ選定手段１０６と、を備えている。

情報処理装置１のデータベース１００は、ネットワーク２００経由でアクセス可能なドキュメントがＣＰＵ１０の動作処理に基づいて形態素解析され、ドキュメントに出現する単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを含んで構成されるものである。尚、ここでの「ドキュメント」とは、不特定多数の人間が閲覧可能な多岐に渡る情報を意味しており、例えば、政治経済などの社会記事を配信するサイトから取得される情報や、スポーツ記事を配信するサイトから取得される情報、更に言えば検索エンジンなどのユーザに情報を紹介するポータルサイトから取得される情報、もしくはＥＣサイトなどのサービス提供サイトから取得される情報を含めてもよい。これらの多岐に渡るサイトから定期的に取得した情報をドキュメントとしてＨＤＤ１２などに蓄積する。上述した「ドキュメントクラスタ」についての詳細は後述する。

蓄積されたドキュメントに基づいてデータベース１００が生成される。データベース１００の生成は、コンピュータの処理負荷の低減のため、例えば、所定の期間（週単位など）が経過したタイミング、もしくはＨＤＤ１２に蓄積されるドキュメントのデータ量に閾値を設定し、データ量がその閾値を超えたタイミングなどで行われる。いずれにしても、少量のドキュメントが蓄積される度にその都度データベース１００を生成するのではなく、ドキュメントの蓄積期間、蓄積されるドキュメントのデータ量、もしくはその他の指標など何かしらの基準に基づいてデータベース１００を生成することが好ましい。

データベース１００の生成方式は、取得したドキュメントを構成する文章を形態素解析により単語に分解して抽出し、出現する単語の出現傾向が類似するドキュメントをグループ化するなどの所謂クラスタリング方式が一例である。このように単語の出現傾向が類似するドキュメントでグループ化することで、ドキュメントの単語特性に応じたジャンル分けが可能となる。クラスタリングによりドキュメントがグループ化されたデータベース１００の一例を図３として示す。縦方向、つまり行方向はドキュメントに出現する単語を示しており、横方向、つまり列方向の「クラスタＡ」、「クラスタＢ」、「クラスタＣ」は各々単語の出現傾向が類似するドキュメントを含んで構成されたグループを示している。尚、ドキュメントがクラスタリングされた各クラスタを行方向、ドキュメントに出現する単語を列方向に規定してもよい。「単語特徴量」は、各クラスタを構成するドキュメントに出現する単語の出現頻度の合計である。「クラスタ単語特徴量合計」は、単語の各クラスタでの出現頻度の合計である。例えば、「選手」という単語であれば、クラスタＡでの単語特徴量が0.05、クラスタＢでの単語特徴量が0.02、クラスタＣでの単語特徴量が0.02なので、クラスタ単語特徴量合計はそれぞれのクラスタごとの合計で0.09となる。

クラスタリングを行うことで、クラスタＡ、クラスタＢ、およびクラスタＣのそれぞれのクラスタごとの単語の出現傾向に特徴が出る。例えばクラスタＡでは、「サッカー」、「選手」などのサッカーに関連する単語の単語特徴量が大きい。これは、クラスタＡが、サッカーに関連するドキュメントによりグループ化されているためである。同様にクラスタＢは、野球に関連するドキュメントによりグループ化されたものであるため、「野球」、「監督」などの野球に関連する単語の単語特徴量が大きい。

本実施形態では、ドキュメントをクラスタリングした横方向のクラスタのみを含んでデータベース１００が構成されているが、例えば縦方向の単語をクラスタリングした二次元のクラスタを備えたデータベースとすることもできる。横方向のドキュメントクラスタ、および縦方向の「単語クラスタ」をそれぞれ備えた二次元型のデータベースは、例えば、横方向のクラスタリングと縦方向のクラスタリングを交互に行うことで生成される。双方向のクラスタリングを交互に行うことで、特定のドキュメントクラスタに特定の単語が集中的に出現したデータベースが出来上がる。尚、本実施形態では、ドキュメント−ドキュメント間の距離、およびドキュメントに出現する単語−単語間の距離に基づいてクラスタリングが行われるが、階層的クラスタリングとしてのNN（Nearest Neighbor）法、K-NN（K Nearest Neighbor）法、ウォード法なども適用可能である。また、これらに限定されずその他の手法を用いてもよい。

特定のドキュメントクラスタに特定の単語が集中的に出現することで、どのドキュメントクラスタにどの単語クラスタが対応しているかの関係性が明確になる。つまり、あるドキュメントクラスタに対応する単語クラスタに出現する単語の出現頻度は、対応するドキュメントクラスタ以外のドキュメントクラスタでは微々たるものであると言える。縦方向の単語によるクラスタリングを行わず、横方向のドキュメントによるクラスタリングのみの一次元データベースでも本発明への適用は十分であるが、上述したような単語クラスタを縦方向に備える二次元のデータベースでも本発明に適用可能である。また、クラスタリング階層は、予めメモリ１１に格納されているプログラムで設定することが可能であるが、できるだけ細分化することが好ましい。例えば、サッカーや野球などは「スポーツ」という単語の下位概念である。つまり、クラスタリング階層がスポーツであるとすると、クラスタＡとクラスタＢの区分けが無くなり、サッカー特有の単語、野球特有の単語が同クラスタに含まれてしまうことになる。クラスタリングの階層を細分化することは、ドキュメントの特性をより明確にすることができる点で有益である。

本実施形態では、上記のようにクラスタリングされたデータベース１００に出現する単語に対して、ユーザ興味度を関連付ける。ここで「ユーザ」は、情報処理装置１の所有者と、情報処理装置１の所有者ではなく、不特定多数の人間と、の２つの側面で定義することができる。前者の情報処理装置１の所有者をユーザとした時の「興味度」は、情報処理装置１の所有者の意図に基づいて取得されたドキュメントに出現する単語に基づいて得られる情報である。また、後者の不特定多数の人間をユーザとした時の「興味度」は、自由に発言したり、ＷＥＢリンクを張り付けたりできるソーシャルネットワークサービスとしてのツイッタ−（登録商標）やＳＮＳなどから取得したドキュメントに出現する単語に基づいて得られる情報である。本実施形態でのユーザは、情報処理装置１の所有者である前者を想定するものとする。

「ユーザ興味度」を定義するために、本実施形態では図４のようなデータベース（以後ユーザデータベースと表記する）を追加で備えているものとする。図４は、ユーザが自身の意図に基づいて取得したユーザドキュメントの情報から生成されるものである。ユーザデータベースとは、まず、図３のデータベース１００が土台となっていることを前提とする。図３のデータベース１００を土台として、形態素解析されて抽出されたユーザドキュメントに出現する単語の出現頻度を、そのユーザドキュメントが属するドキュメントクラスタごとに算出する。ユーザドキュメントが属するドキュメントクラスタは、図３のデータベース１００のドキュメントクラスタごとの単語の出現頻度との類似性から判断可能である。尚、ユーザデータベースに出現する単語、クラスタリングの階層なども図３と同様であるものとする。ユーザドキュメントは、定期的に多岐に渡るサイトからコンピュータが自動的に取得するものとは異なり、ユーザ自身が操作して取得したものである。ユーザドキュメントには、例えばユーザＩＤなどの識別子をメタデータとして付与して、図３のデータベース１００を生成した際の元データであるドキュメントとは別々に蓄積、管理することが好ましい。

図４のユーザデータベースに出現する単語、およびクラスタ区分は図３と同様であるものとする。更に、単語特徴量は、各クラスタを構成するドキュメントに出現する単語の出現頻度の合計である。ユーザデータベースの単語特徴量は、ユーザの興味に左右されるため、自ずと閲覧頻度の高いジャンルに関連する単語で高い値となる傾向がある。このように図３のデータベース１００とユーザデータベースの単語特徴量に着目して「ユーザ興味度」を定義することができる。

本実施形態でのユーザ興味度は、図３のデータベース１００、および図４のユーザデータベースに出現する同単語での、ユーザデータベースにおける単語特徴量（＝X）と図３のデータベース１００における単語特徴量（＝Y）の相関で定義する。ＸとＹを用いて演算式は、log(X/Y)となる。尚、logの底に関しては、１０でも２でもｅでもよい。このように演算式を定義することで、データベース１００の単語特徴量に対してユーザデータベースの単語特徴量が高ければポジティブ、つまり興味度が高いと言え、逆であればネガティブ、つまり興味度が低いと言える。以上のように定義したユーザ興味度を、データベース１００の所定の単語に関連付けて記憶する。

以上のようにして、図３のようにデータベース１００に出現する単語に対してユーザ興味度が関連付けられる。ユーザ興味度が高い単語は、データベース１００に対してユーザデータベースでの単語特徴量が大きい。尚、本実施形態でのデータベース１００、およびユーザデータベースでは説明の簡素化のために単語特徴量が0である単語が複数存在しており、そのような単語は、算出されるユーザ興味度も説明の簡素化のため便宜上0としている。

また、データベース１００は、定期的にリフレッシュすることが好ましい。世の中の情報は日々変化していくため、取得した時点でのドキュメントの情報はもう過去の古い情報であると言える。大量の新しいドキュメントを取得したタイミングで、再度クラスタリング処理を行い、データベース１００にフレッシュな情報を反映させることが必要である。

情報処理装置１のデータベース１００は、ＣＰＵ１０がＨＤＤ１２などの記憶装置に記憶されているドキュメント集合を読み出し、メモリ１１に記憶されている所定のデータベース方式が書き込まれているプログラムに基づいて処理を実行することで生成され、更にユーザデータベースを読み出し、所定の興味度演算方式が書き込まれているプログラムに基づいて興味度演算を実行し、算出結果としての興味度をデータベース１００に関連付けることで実現が可能である。

情報処理装置１のドキュメントクラスタ特定手段１０１の定義付けは、指定されたドキュメントに出現する単語と、データベース１００に出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定することを意味する。ここでの「指定されたドキュメント」とは、図５に示したようなドキュメントを一例とする。指定されたドキュメントは、ユーザ自身の意思による何かしらの操作に基づいて、コンピュータがネットワーク２００経由で取得した文章データ等を意味する。尚、ドキュメントの取得元は上述したような、政治経済などの社会記事を配信するサイトや、スポーツ記事を配信するサイト、更に言えば検索エンジンなどのユーザに情報を紹介するポータルサイト、もしくはＥＣサイトなども含めてよい。

取得された図５のようなドキュメントが、データベース１００のドキュメントクラスタの中からどのドキュメントクラスタに属するかを特定する。ドキュメントクラスタの特定方法として、指定されたドキュメントに出現する単語と、データベース１００のドキュメントクラスタに属する単語の出現頻度に基づいて算出した類似度に着目した方法がある。指定されたドキュメントに出現する単語の出現頻度は、ドキュメントに出現する個々の単語の出現回数を、ドキュメント全体の単語の出現回数で除算することで算出できる。このようにドキュメントに出現する単語の出現頻度に着目して類似度を算出することが可能である。本実施形態では、指定されたドキュメントに出現する単語の出現頻度も併せて単語特徴量と表記することにする。

ドキュメント−ドキュメント間の類似性を評価する方法の一つとして、コサイン類似度がある。２つの比較対象の類似性を評価する手段としてのコサイン類似度は公知であるため、詳細な説明は割愛するが、本実施形態では、ドキュメントクラスタに属するドキュメントに出現する単語の単語特徴量と、指定されたドキュメントに出現する単語の単語特徴量に着目して類似度を算出する。図６は指定されたドキュメントに出現する単語の単語特徴量を示したものである。尚、コサイン類似度は、文章に出現する単語の出現頻度を正規化した単語ベクトルを用いて算出されることが一般的であり、本実施形態でも同様である。尚、本実施形態では、データベース１００のドキュメントクラスタ、および指定されたドキュメントに出現する単語の単語特徴量を単語ベクトルとして用いることができる。算出された類似度に基づいて、指定されたドキュメントに関連するドキュメントクラスタが「クラスタＡ」と特定することができる。尚、文章同士の類似性を評価する方法としては、コサイン類似度に限定されず、例えばユーグリッド距離などを用いてもよい。

情報処理装置１のドキュメントクラスタ特定手段１０１は、ＣＰＵ１０がメモリ１１に記憶されている所定のドキュメントクラスタ特定プログラムに基づいてメモリ１１に記憶されているデータベース１００等を読み出してドキュメントクラスタの特定を実行することで実現が可能である。

情報処理装置１のキーワード選定手段１０２の定義付けは、ユーザ興味度に基づいて、特定されたドキュメントクラスタに出現する単語を、指定されたドキュメントに関連するキーワードとして選定することを意味する。ドキュメントクラスタ特定手段１０１によって、指定されたドキュメントに関連するドキュメントクラスタがクラスタＡであると特定されている。図７は、クラスタＡに出現する単語と単語評価値を関連付けた一例である。尚、図７に表記している単語は、前述したユーザ興味度が0以外の単語に絞っている。ここで、「単語評価値」とは特定されたドキュメントクラスタに出現する単語をユーザ興味度に基づいて値化したものである。単語評価値に関しては、ユーザ興味度の値そのものでもよいが、例えば指定されたドキュメントに出現する出現回数などをユーザ興味度に乗算したり、指定されたドキュメントのタイトルに出現していれば、それに基づいたポイントなどを付与させたりして重み付けを行ってもよい。本実施形態では説明の簡素化のために、ユーザ興味度の値をそのまま単語評価値として用いることにする。

単語評価値に基づいて指定されたドキュメントに関連するキーワードを選定する際には、単語評価値が高く、且つ指定されたドキュメントに出現する単語を優先的に選定することが好ましい。単語評価値はユーザ興味度に基づいて算出されたものであるため、単語評価値が高いということはユーザ興味度も高い単語であると言えるからである。また、単語評価値は高いが、指定されたドキュメントには出現していない単語をキーワードとして選定してもよい。本実施形態では、単語評価値が高く、且つ指定されたドキュメントに出現している「サッカー」、「三浦和良」をキーワードとして選定している。

情報処理装置１のキーワード選定手段１０２は、ＣＰＵ１０がメモリ１１に記憶されている所定のキーワード選定プログラムに基づいてメモリ１１に記憶されているデータベース１００等を読み出してキーワード選定を実行することで実現が可能である。

情報処理装置１のコンテンツ取得手段１０３の定義付けは、選定されたキーワードに関連するコンテンツを取得することを意味する。尚、ここで「コンテンツ」は、コンテンツという語句そのものが有する通常の意味に加え、例えば、映像、音楽、文章、又はそれらの組合せ等の、メディアが記録又は伝送し、人間が鑑賞するひとまとまりの情報をいい、実例でいえば例えばインターネットで配信されるアプリケーションやダウンロード可能な映像コンテンツ若しくは音楽コンテンツ等があり、実体のある商品の画像や映像、更にはその商品についての情報（商品名、商品名についての説明、商品についての評価などの文章データ）なども含まれる。

図８は、選定されたキーワード（ここでは「サッカー」、「三浦和良」）に基づいて、ネットワーク２００を介して外部サーバ（図示していない）などから取得したコンテンツが有する文章データ等を形態素解析した一例である。ここでの「単語特徴量」は、コンテンツが有する文章データに出現する単語の出現頻度である。尚、本実施形態では、説明の簡素化のために文章データから抽出した単語情報のみをコンテンツとして示しているが、映像コンテンツや音楽コンテンツなどが含まれていてもよい。

情報処理装置１のコンテンツ取得手段１０３は、ＣＰＵ１０がメモリ１１に記憶されている所定のコンテンツ取得プログラムに基づいて、ネットワーク２００を介して外部サーバなどからコンテンツの取得を実行することで実現が可能である。

情報処理装置１の単語特徴量補正手段１０４の定義付けは、コンテンツが有するドキュメントに出現する単語の単語特徴量と指定されたドキュメントに出現する単語の単語特徴量を、ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正することを意味する。ここで、「情報量」とは、クラスタに跨る単語の分散を数値化した情報エントロピー、およびドキュメントのクラスタリング前の情報エントロピーと、ドキュメントのクラスタリング後の情報エントロピーに基づいて算出される情報利得を指す。情報エントロピー、情報利得の算出方法の詳細については後述する。

図９は、クラスタＡに出現する単語の単語特徴量に、情報エントロピー、情報利得、および情報エントロピーと情報利得に基づいて算出される補正情報量を関連付けた一例である。まず、一例として図３の「選手」という単語の情報エントロピーを算出することを考えてみる。情報エントロピーは、クラスタＡに出現する単語の、全ドキュメントクラスタの出現頻度に対するドキュメントクラスタごとの出現頻度の分散に基づいて算出される。所定の単語の各クラスタでの単語特徴量をP(w|G)と定義し、更に所定の単語の全クラスタでの単語特徴量の合計をP(w)と定義する。情報エントロピーE(w)は、クラスタごとのP(w|G)、およびP(w)から算出されるクラスタごとの情報エントロピーを全クラスタ分で加算することにより算出されるため、
E(w) = -ΣP(w|G)/P(w)log(P(w|G)/P(w))と定義することができる。尚、logの底に関しては、１０でも２でもｅでもよい。この式に基づくと「選手」という単語の情報エントロピーは1.44と算出される。尚、情報エントロピーE(w)はクラスタを跨いだ単語の分散を情報量として数値化しており、より多くのクラスタに分散するほど大きい値となる。その他の単語においても同様に情報エントロピーE(w)を算出できる。

次に、クラスタＡに出現する単語である「選手」の情報利得を算出する場合を考えてみる。情報利得は、ドキュメントのクラスタリング前の情報エントロピーと、ドキュメントのクラスタリング後の情報エントロピーに基づいて算出される。まず、ドキュメントのクラスタリング前の情報エントロピーＪ₀(w)を算出する。クラスタリング前の所定の単語の単語特徴量をQ(w)とすると、クラスタリング前の情報エントロピーＪ₀(w)は、Ｊ₀(w) = −Q(w)/log(Q(w))−(1-Q(w))log(1-Q(w))と定義することができる。この式に基づくと、クラスタリング前の情報エントロピーＪ₀(w)は0.44と算出できる。

次に、ドキュメントのクラスタリング後の情報エントロピーＪ₁(w)を算出することを考えてみる。情報エントロピーＪ₁(w)を算出するにあたり、クラスタＡ、クラスタＢ、クラスタＣごとに単語特徴量を正規化することが必要となる。図１０は、図３のデータベース１００における単語特徴量を、クラスタＡ、クラスタＢ、クラスタＣごとに正規化して示したものである。正規化することで、クラスタＡ、クラスタＢ、クラスタＣのクラスタごとの単語特徴量の合計はそれぞれ“1.0”となる。

正規化後の全クラスタに対する各々のクラスタの確率分布をP(G)として、クラスタ内での単語特徴量は、所定の単語の各クラスタでの単語特徴量P(w|G)と定義する。クラスタリング後の情報エントロピーＪ₁(w)は、
Ｊ₁(w) = -Σ(P(G)×[-P(w|G)logP(w|G)-(1-P(w|G))×log(1-P(w|G))])と定義することができる。例えば、図９のデータベースに基づいて、クラスタＡの確率分布P(G)は1/3と求めることができ、クラスタＢ、クラスタＣについても同様である。また、「選手」という単語の各クラスタでの単語特徴量P(w|G)はクラスタＡでは0.11、クラスタＢでは0.07、クラスタＣでは0.08となる。これらの値に基づいて「選手」という単語のクラスタリング後の情報エントロピーＪ₁(w)は0.42と求めることができる。

算出されたＪ₀(w)とＪ₁(w)との差分に基づいて情報利得を算出することはよく知られている。しかし、単純にＪ₀(w)とＪ₁(w)との差分を取るだけでは、トピック性の高い単語とトピック性の低い単語とを明確に区分できず、真に抽出すべき単語を判断できない場合がある。トピック性の高さを判断する精度向上のため、本実施形態での情報利得IG(w)は
IG(w) = 1-(Ｊ₁(w)/Ｊ₀(w))と定義する。このように定義することで、トピック性の高い単語とトピック性の低い単語と、の区分けが明確になる。この式に基づくと、「選手」という単語の情報利得は0.04と求めることができる。つまり、クラスタリング前とクラスタリング後での情報エントロピーＪ₀(w)、Ｊ₁(w)に大きな差がないということが言える。クラスタリング後の情報エントロピーＪ₁(w)が小さい値であるほど情報利得IG(w)が大きな値となることを示している。その他の単語においても同様に情報利得IG(w)を算出できる。

算出された情報エントロピーE(w)、情報利得IG(w)に基づいて補正情報量を定義付ける。「三浦和良」というに着目すると、情報エントロピーE(w)が他の単語よりも低く、情報利得IG(w)が他の単語よりも高い傾向にあることがわかる。補正情報量は、一般単語、つまり複数のクラスタで満遍なく出現する単語の単語特徴量を下げ、特定のクラスタでの占有率が高いトピック単語の単語特徴量を上げるようにできるものであることが好ましい。つまり、補正情報量は情報利得IG(w)を情報エントロピーE(w)で除算した（IG(w)/E(w)）と定義することができる。この式に基づくと、例えば「選手」という単語の単語特徴量は0.09から0.002と補正されることになる。このように補正を行うことで、所謂一般単語の単語特徴量を大きく下げることが可能となる。

尚、ドキュメントのクラスタリング処理を行った結果、一つのクラスタに１００％依存するような単語が出現する場合では、情報エントロピーE(w)を算出する際の単語特徴量を“1.0”としないよう制御することが好ましい。その理由としては、一つのクラスタ専有率１００％、つまり単語特徴量が“1.0”である単語の情報エントロピーE(w)は、上記演算式に基づいて算出すると0となってしまうからである。そのような状況を回避するために、例えば一つのクラスタにおける単語特徴量の上限を９０％、つまり0.9として計算するなど閾値を持たせることが好ましい。また、本実施例では、クラスタＡ、クラスタＢ、クラスタＣに属する単語の数（以下単語情報量と表記する）は同数であることを想定しているが、クラスタＡ、クラスタＢ、クラスタＣでそれぞれ単語情報量が異なる場合では、単語特徴量に大きな偏りが生まれてしまうため、単語特徴量を単語情報量で補正して正規化することが好ましい。このようにすることで、単語情報量の違いによる単語特徴量の偏りを無くすことが可能となる。

情報処理装置１の単語特徴量補正手段１０４は、ＣＰＵ１０がメモリ１１に記憶されている所定の単語特徴量補正プログラムに基づいてメモリ１１に記憶されているデータベース１００等を読み出して単語特徴量の補正演算を実行することで実現が可能である。

情報処理装置１の類似度算出手段１０５の定義付けは、補正情報量により補正されたコンテンツが有する文章データに出現する単語の単語特徴量、および指定されたドキュメントに出現する単語の単語特徴量に基づいて、コンテンツと指定されたドキュメントの類似度を算出することを意味する。まず、単語特徴量補正手段１０４により補正されたデータベース１００に出現する単語の補正単語特徴量を、指定されたドキュメント、およびコンテンツが有するドキュメントに出現する単語にそれぞれ関連付ける。

図１１は、指定されたドキュメント、および取得したコンテンツが有するドキュメントに出現する単語に、単語特徴量補正手段１０４により補正された補正単語特徴量を関連付けた一例である。尚、指定されたドキュメント、および取得したコンテンツが有するドキュメントに出現する単語のうち、データベース１００に存在しない単語は、補正を行わず、それぞれの単語特徴量をそのまま採用する。本来、データベース１００は膨大な数のドキュメントに基づいて生成されるため、よほどのレア単語か新しい単語で無い限りデータベース１００に存在しないという事態が起こる可能性は低い。

図１１の補正単語特徴量に基づいて、指定されたドキュメントと、取得されたコンテンツとの類似度を算出する。類似度の算出の一例として、ドキュメントクラスタ特定手段１０１でも用いたコサイン類似度を用いることにする。本実施形態では、指定されたドキュメントに出現する単語の補正単語特徴量と、取得されたコンテンツが有するドキュメントに出現する単語の補正単語特徴量と、に基づく補正単語ベクトルで類似度算出を行う。

図１２は、取得されたコンテンツと、指定されたドキュメントとの類似度を、コンテンツごとに表記した一例である。算出結果としては、コンテンツその３が0.95という値となり、指定されたドキュメントと最も類似度が高い結果となった。補正単語特徴量に着目すると、特に、トピック単語（例えば「三浦和良」）と、一般単語（例えば「選手」）で大きな差が生まれる形となり、よりトピック単語の単語特徴量が重視される形となっている。従来では、比較対象の双方に一般単語が数多く存在すれば、自ずとその比較対象の類似度が高くなる傾向にあった。本実施形態のようにトピック単語と一般単語とで特徴量に差を生ませることで、一般単語による類似性の影響を抑えた類似度算出が可能となる。

尚、本実施形態では、前述した通り指定されたドキュメント、および取得したコンテンツが有するドキュメントに出現する単語のうち、データベース１００に存在しない単語は、補正を行わず、単語特徴量をそのまま採用した。ドキュメント情報量の充実によりデータベース１００に過不足無く単語が出現することで、一般単語とトピック単語の線引きがより明確になり、類似度算出の精度は更に向上することが見込める。

また、他の実施形態として、一つ一つの単語に対して情報エントロピーE(w)と情報利得IG(w)より補正情報量を算出するのではなく、図３のデータベース１００の行方向の単語についてもクラスタリングを行った単語クラスタを一つの単位として、補正情報量を算出することも可能である。単語クラスタは、ドキュメントに対する出現頻度が類似する単語がグループ化されたものあるため、一つ一つの単語に対して情報エントロピーE(w)、および情報利得IG(w)を算出して評価する場合よりも、単語クラスタ単位で情報エントロピーE(w)、および情報利得IG(w)を算出することで、トピック性の高い単語クラスタとトピック性の低い単語とをクラスタ単位で区分け・評価することができる点で効果的であると言える。所定の単語クラスタに属する単語の単語特徴量を、クラスタ単位で算出した補正情報量で補正することで、よりトピック性の高い単語に着目した類似性の検証が可能となる。

情報処理装置１の類似度算出手段１０５は、ＣＰＵ１０がメモリ１１に記憶されている所定の類似度演算プログラムに基づいて指定されたドキュメントと取得したコンテンツの類似度を演算することで実現が可能である。

情報処理装置１の推薦コンテンツ選定手段１０６の定義付けは、類似度算出手段１０５により算出された類似度に基づいて、前記取得されたコンテンツから推薦コンテンツを選定する。図１１に示したように、指定されたドキュメントと最も類似性の高いコンテンツはコンテンツその３であり、類似性の高いコンテンツを優先的に推薦コンテンツとして選定される。また、算出された類似度に対して、単語ごとのユーザ興味度を積算した積算結果が大きいものを推薦コンテンツとして選定してもよいし、取得したコンテンツ、および指定されたドキュメントに出現する単語の出現回数などを各単語の係数として重み付けて計算を行い、その計算結果が大きいものを推薦コンテンツとして選定してもよい。このように、類似度算出手段１０５により算出された類似度と、単語に対するユーザ興味度に基づいて推薦コンテンツが選定される。

情報処理装置１の推薦コンテンツ選定手段１０６は、ＣＰＵ１０がメモリ１１に記憶されている所定のコンテンツ選定プログラムに基づいてコンテンツの選定を実行することで実現が可能である。

図１３は、本発明の実施形態にかかるフローチャートの一例である。

まず、指定されたドキュメントに出現する単語の出現傾向が類似するドキュメントクラスタを特定する（ステップ１）。

特定されたドキュメントクラスタに出現する単語よりキーワードを選定する（ステップ２）。選定されたキーワードに基づいて指定されたドキュメントに関連するコンテンツを取得する（ステップ３）。取得したコンテンツが有するドキュメント、および指定されたドキュメントに出現する単語の単語特徴量を情報量で補正する（ステップ４）。

補正された単語特徴量に基づいて、取得したコンテンツと指定されたドキュメントの類似度を算出する（ステップ５）。算出された類似度に基づいて、取得されたコンテンツより推薦コンテンツを選定する（ステップ６）。

以上のように、本実施形態では、情報量に基づいて単語特徴量の補正を行うことで、ドキュメントに出現する単語の中でトピック単語と一般単語が明確になる。類似度演算では、一般単語の単語特徴値による影響を少なくすることで、よりトピック単語に焦点を当てたものになり性能が向上する。

本願発明を実現できるような構成であれば、用いる装置の具備する内容、および装置の数量などは本実施形態に限定されない。

１００データベース
１０１ドキュメントクラスタ特定手段
１０２キーワード選定手段
１０３コンテンツ取得手段
１０４単語特徴量補正手段
１０５類似度算出手段
１０６推薦コンテンツ選定手段

Claims

ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースと、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語と、に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
前記ユーザ興味度に基づいて、前記特定されたドキュメントクラスタに出現する単語を、前記指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、
前記選定されたキーワードに関連するコンテンツを取得するコンテンツ取得手段と、
前記コンテンツに付随するドキュメントに出現する単語の特徴量である第１の単語特徴量と前記指定されたドキュメントに出現する単語の特徴量である第２の単語特徴量を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する単語特徴量補正手段と、
前記補正された第１の単語特徴量、および第２の単語特徴量に基づいて、前記コンテンツと前記指定されたドキュメントの類似度を算出する類似度算出手段と、
を備える、
ことを特徴とする情報処理装置。
前記単語特徴量補正手段は、前記第１の単語特徴量と前記第２の単語特徴量を、前記特定されたドキュメントクラスタに出現する前記単語の、全ドキュメントクラスタの出現頻度に対する前記ドキュメントクラスタごとの出現頻度の分散に基づいて算出される情報エントロピーで補正する、
ことを特徴とする請求項１に記載の情報処理装置。
前記単語特徴量補正手段は、前記第１の単語特徴量と前記第２の単語特徴量を、前記特定されたドキュメントクラスタに出現する前記単語の、前記データベースに対する出現頻度と、前記ドキュメントクラスタごとの出現頻度の分散と、で算出される情報利得に前記情報エントロピーを除算して補正する、
ことを特徴とする請求項２に記載の情報処理装置。
前記類似度と、前記ユーザ興味度と、に基づいて、前記取得されたコンテンツから推薦コンテンツを選定する推薦コンテンツ選定手段と、
を更に備える、
ことを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
前記推薦コンテンツ選定手段は、前記コンテンツが有するドキュメントに出現する単語の前記ユーザ興味度と、前記類似度との積算値が大きい前記コンテンツを推薦コンテンツとして選定する、
ことを特徴とする請求項４に記載の情報処理装置。
ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語と、に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するステップと、
前記ユーザ興味度に基づいて、前記特定されたドキュメントクラスタに出現する単語を、前記指定されたドキュメントに関連するキーワードとして選定するステップと、
前記選定されたキーワードに関連するコンテンツを取得するステップと、
前記コンテンツに付随するドキュメントに出現する単語の特徴量である第１の単語特徴量と前記指定されたドキュメントに出現する単語の特徴量である第２の単語特徴量を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正するステップと、
前記補正された第１の単語特徴量、および第２の単語特徴量に基づいて、前記コンテンツと前記指定されたドキュメントの類似度を算出するステップと、
を有する、
ことを特徴とする情報処理方法。
ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語と、に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定する工程と、
前記ユーザ興味度に基づいて、前記特定されたドキュメントクラスタに出現する単語を、前記指定されたドキュメントに関連するキーワードとして選定する工程と、
前記選定されたキーワードに関連するコンテンツを取得する工程と、
前記コンテンツに付随するドキュメントに出現する単語の特徴量である第１の単語特徴量と前記指定されたドキュメントに出現する単語の特徴量である第２の単語特徴量を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する工程と、
前記補正された第１の単語特徴量、および第２の単語特徴量に基づいて、前記コンテンツと前記指定されたドキュメントの類似度を算出する工程と、
をコンピュータに実行させる、
ことを特徴とするプログラム。