JP6412541B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6412541B2
JP6412541B2 JP2016219931A JP2016219931A JP6412541B2 JP 6412541 B2 JP6412541 B2 JP 6412541B2 JP 2016219931 A JP2016219931 A JP 2016219931A JP 2016219931 A JP2016219931 A JP 2016219931A JP 6412541 B2 JP6412541 B2 JP 6412541B2
Authority
JP
Japan
Prior art keywords
word
document
cluster
feature amount
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016219931A
Other languages
English (en)
Other versions
JP2018077727A (ja
Inventor
竹本 剛
剛 竹本
則之 菊地
則之 菊地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2016219931A priority Critical patent/JP6412541B2/ja
Publication of JP2018077727A publication Critical patent/JP2018077727A/ja
Application granted granted Critical
Publication of JP6412541B2 publication Critical patent/JP6412541B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
コンピュータにより文書の類似性を判定する技術は、従来、種々の方法が考案されてきた。よく知られている方法としては、文書に含まれる全特徴単語(名詞など)からなる単語ベクトルを用いて、ベクトル類似度計算を行う方法がある。このベクトル類似度計算は、比較対象の文章に出現する同単語の単語ベクトルによる内積計算が含まれているため、同単語が数多く存在する場合は類似度が高く、同単語の数が少ない場合は類似度が低くなる。
上記のような文章の類似性を判定する技術は、情報の推薦処理を行うシステムでも広く活用されている。特許文献1では、複数の推薦対象の情報に含まれる単語と、被推薦対象の情報に含まれる単語とからなる単語ベクトルによる類似度演算を実現している。
特開2016−085672号公報
特許文献1では、従来考案されてきたベクトル類似度計算を、複数の推薦対象に対して行うことで処理の高速化を実現している。しかし、情報の推薦処理を行うシステムの分野では、類似性判定の性能の向上が要求されている。文章ごとのジャンルの違いがあるにしても、文章を構成する単語の大半は所謂一般単語(例 日、時、年など)である。
文章の単語数が増える分、一般単語が増えることになる。つまり、従来の類似性判定では、文章に出現する単語の数に依存して類似性が高くなるという結果になることが少なくなく、算出される類似度が出現回数の多い一般単語に強く影響されるという課題がある。
本発明は、このような実情に鑑みてなされたものであって、一般単語による影響をできるだけ抑制した類似度演算を実現させる情報処理装置を提供することを目的とする。
本発明に係る情報処理装置は、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースと、指定されたドキュメントに出現する単語と、データベースに出現する単語と、に基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定するドキュメントクラスタ特定手段と、ユーザ興味度に基づいて、特定されたドキュメントクラスタに出現する単語を、指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、選定されたキーワードに関連するコンテンツを取得するコンテンツ取得手段と、コンテンツに付随するドキュメントに出現する単語の特徴量である第1の単語特徴量と指定されたドキュメントに出現する単語の特徴量である第2の単語特徴量を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正する単語特徴量補正手段と、補正された第1の単語特徴量、および第2の単語特徴量に基づいて、コンテンツと指定されたドキュメントの類似度を算出する類似度算出手段と、を備える、ことを特徴とする。
本発明に係る情報処理方法は、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、指定されたドキュメントに出現する単語と、データベースに出現する単語と、に基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定するステップと、ユーザ興味度に基づいて、特定されたドキュメントクラスタに出現する単語を、指定されたドキュメントに関連するキーワードとして選定するステップと、選定されたキーワードに関連するコンテンツを取得するステップと、コンテンツに付随するドキュメントに出現する単語の特徴量である第1の単語特徴量と指定されたドキュメントに出現する単語の特徴量である第2の単語特徴量を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正するステップと、補正された第1の単語特徴量、および第2の単語特徴量に基づいて、コンテンツと指定されたドキュメントの類似度を算出するステップと、を有する、ことを特徴とする。
本発明に係る情報処理を実現させるためのプログラムは、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、指定されたドキュメントに出現する単語と、データベースに出現する単語と、に基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定する工程と、ユーザ興味度に基づいて、特定されたドキュメントクラスタに出現する単語を、指定されたドキュメントに関連するキーワードとして選定する工程と、選定されたキーワードに関連するコンテンツを取得する工程と、コンテンツに付随するドキュメントに出現する単語の特徴量である第1の単語特徴量と指定されたドキュメントに出現する単語の特徴量である第2の単語特徴量を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正する工程と、補正された第1の単語特徴量、および第2の単語特徴量に基づいて、コンテンツと指定されたドキュメントの類似度を算出する工程と、をコンピュータに実行させる、ことを特徴とする。
本発明によれば、一般単語による影響をできるだけ抑制した類似度演算を実現できる。
本発明の実施形態にかかる情報処理装置1のハードウェア構成図である。 本発明の実施形態にかかる情報処理装置1の機能ブロック図である。 本発明の実施形態にかかるデータベースの一例である。 本発明の実施形態にかかるユーザデータベースの一例である。 本発明の実施形態にかかる指定されたドキュメントの一例である。 本発明の実施形態にかかる指定されたドキュメントの文章解析の一例である。 本発明の実施形態にかかる特定されたドキュメントクラスタからキーワードを選定する一例である。 本発明の実施形態にかかる選定されたキーワードから取得したコンテンツが有する文章データを解析した一例である。 本発明の実施形態にかかる特定されたドキュメントクラスタに出現する単語に情報量を関連付けた一例である。 本発明の実施形態にかかる図3のデータベースの単語特徴量を、ドキュメントクラスタごとに正規化した一例である。 本発明の実施形態にかかる指定されたドキュメントと取得したコンテンツが有する文章データに、補正単語特徴量を関連付けた一例である。 本発明の実施形態にかかる補正単語特徴量に基づいて算出した指定されたドキュメントと取得したコンテンツの類似度を算出した一例である。 本発明の実施形態にかかるフローチャートの一例である。
以下、本発明の実施の形態について詳細に説明する。
まず、本実施形態の情報処理装置1のハードウェア構成について図1を用いて説明する。ここでの情報処理装置とは、例えばパーソナルコンピュータ、タブレット端末、スマートフォンなどのネットワークに接続が可能な情報端末などを指す。また、複数のコンピュータにネットワークを通じて処理要求を行うホストコンピュータやサーバなどであっても良い。尚、情報処理装置1の構成は、図1に示したものと必ずしも同じである必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。例えばマウスや入力キーで構成されるキーボードなどの入力装置や、プロジェクター、もしくは液晶、および有機ELなどのパネルを用いたディスプレイを備えた表示装置や、CD、もしくはDVDなどに記憶されているデータを読み書きする光学ドライブなどを追加で備えていてもよい。
情報処理装置1は、所定のプログラムを実行することにより、情報処理装置1の全体の制御を実現するためのCPU10と、情報処理装置1の電源が投入されたときにCPU10が読出すプログラムを記憶する読出専用の不揮発メモリであるマスクROM、EPROM、またはSSDなどと、CPU10がプログラムを読み出し、演算処理等により生成したデータを一時的に書き込む作業用の揮発メモリであるSRAMやDRAMなどから構成されるメモリ11、情報処理装置1の電源が切断されたときに種々のデータの記録を保持することが可能なHDD12と、を備えている。
また、情報処理装置1は、通信I/F13を更に備えている。情報処理装置1は通信I/F13を介してネットワーク200に接続されている。通信I/F13は、CPU10の動作に基づいてネットワーク200経由でアクセス可能な各種情報にアクセスするものであり、通信I/F13の具体的としてUSBポートやLANポート、無線LANポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。
図2は、本発明の実施形態にかかる情報処理装置1の機能ブロック図である。図2に示すように、本発明にかかる情報処理装置1は、データベース100と、ドキュメントクラスタ特定手段101と、キーワード選定手段102と、コンテンツ取得手段103と、単語特徴量補正手段104と、類似度算出手段105と、推薦コンテンツ選定手段106と、を備えている。
情報処理装置1のデータベース100は、ネットワーク200経由でアクセス可能なドキュメントがCPU10の動作処理に基づいて形態素解析され、ドキュメントに出現する単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを含んで構成されるものである。尚、ここでの「ドキュメント」とは、不特定多数の人間が閲覧可能な多岐に渡る情報を意味しており、例えば、政治経済などの社会記事を配信するサイトから取得される情報や、スポーツ記事を配信するサイトから取得される情報、更に言えば検索エンジンなどのユーザに情報を紹介するポータルサイトから取得される情報、もしくはECサイトなどのサービス提供サイトから取得される情報を含めてもよい。これらの多岐に渡るサイトから定期的に取得した情報をドキュメントとしてHDD12などに蓄積する。上述した「ドキュメントクラスタ」についての詳細は後述する。
蓄積されたドキュメントに基づいてデータベース100が生成される。データベース100の生成は、コンピュータの処理負荷の低減のため、例えば、所定の期間(週単位など)が経過したタイミング、もしくはHDD12に蓄積されるドキュメントのデータ量に閾値を設定し、データ量がその閾値を超えたタイミングなどで行われる。いずれにしても、少量のドキュメントが蓄積される度にその都度データベース100を生成するのではなく、ドキュメントの蓄積期間、蓄積されるドキュメントのデータ量、もしくはその他の指標など何かしらの基準に基づいてデータベース100を生成することが好ましい。
データベース100の生成方式は、取得したドキュメントを構成する文章を形態素解析により単語に分解して抽出し、出現する単語の出現傾向が類似するドキュメントをグループ化するなどの所謂クラスタリング方式が一例である。このように単語の出現傾向が類似するドキュメントでグループ化することで、ドキュメントの単語特性に応じたジャンル分けが可能となる。クラスタリングによりドキュメントがグループ化されたデータベース100の一例を図3として示す。縦方向、つまり行方向はドキュメントに出現する単語を示しており、横方向、つまり列方向の「クラスタA」、「クラスタB」、「クラスタC」は各々単語の出現傾向が類似するドキュメントを含んで構成されたグループを示している。尚、ドキュメントがクラスタリングされた各クラスタを行方向、ドキュメントに出現する単語を列方向に規定してもよい。「単語特徴量」は、各クラスタを構成するドキュメントに出現する単語の出現頻度の合計である。「クラスタ単語特徴量合計」は、単語の各クラスタでの出現頻度の合計である。例えば、「選手」という単語であれば、クラスタAでの単語特徴量が0.05、クラスタBでの単語特徴量が0.02、クラスタCでの単語特徴量が0.02なので、クラスタ単語特徴量合計はそれぞれのクラスタごとの合計で0.09となる。
クラスタリングを行うことで、クラスタA、クラスタB、およびクラスタCのそれぞれのクラスタごとの単語の出現傾向に特徴が出る。例えばクラスタAでは、「サッカー」、「選手」などのサッカーに関連する単語の単語特徴量が大きい。これは、クラスタAが、サッカーに関連するドキュメントによりグループ化されているためである。同様にクラスタBは、野球に関連するドキュメントによりグループ化されたものであるため、「野球」、「監督」などの野球に関連する単語の単語特徴量が大きい。
本実施形態では、ドキュメントをクラスタリングした横方向のクラスタのみを含んでデータベース100が構成されているが、例えば縦方向の単語をクラスタリングした二次元のクラスタを備えたデータベースとすることもできる。横方向のドキュメントクラスタ、および縦方向の「単語クラスタ」をそれぞれ備えた二次元型のデータベースは、例えば、横方向のクラスタリングと縦方向のクラスタリングを交互に行うことで生成される。双方向のクラスタリングを交互に行うことで、特定のドキュメントクラスタに特定の単語が集中的に出現したデータベースが出来上がる。尚、本実施形態では、ドキュメント−ドキュメント間の距離、およびドキュメントに出現する単語−単語間の距離に基づいてクラスタリングが行われるが、階層的クラスタリングとしてのNN(Nearest Neighbor)法、K-NN(K Nearest Neighbor)法、ウォード法なども適用可能である。また、これらに限定されずその他の手法を用いてもよい。
特定のドキュメントクラスタに特定の単語が集中的に出現することで、どのドキュメントクラスタにどの単語クラスタが対応しているかの関係性が明確になる。つまり、あるドキュメントクラスタに対応する単語クラスタに出現する単語の出現頻度は、対応するドキュメントクラスタ以外のドキュメントクラスタでは微々たるものであると言える。縦方向の単語によるクラスタリングを行わず、横方向のドキュメントによるクラスタリングのみの一次元データベースでも本発明への適用は十分であるが、上述したような単語クラスタを縦方向に備える二次元のデータベースでも本発明に適用可能である。また、クラスタリング階層は、予めメモリ11に格納されているプログラムで設定することが可能であるが、できるだけ細分化することが好ましい。例えば、サッカーや野球などは「スポーツ」という単語の下位概念である。つまり、クラスタリング階層がスポーツであるとすると、クラスタAとクラスタBの区分けが無くなり、サッカー特有の単語、野球特有の単語が同クラスタに含まれてしまうことになる。クラスタリングの階層を細分化することは、ドキュメントの特性をより明確にすることができる点で有益である。
本実施形態では、上記のようにクラスタリングされたデータベース100に出現する単語に対して、ユーザ興味度を関連付ける。ここで「ユーザ」は、情報処理装置1の所有者と、情報処理装置1の所有者ではなく、不特定多数の人間と、の2つの側面で定義することができる。前者の情報処理装置1の所有者をユーザとした時の「興味度」は、情報処理装置1の所有者の意図に基づいて取得されたドキュメントに出現する単語に基づいて得られる情報である。また、後者の不特定多数の人間をユーザとした時の「興味度」は、自由に発言したり、WEBリンクを張り付けたりできるソーシャルネットワークサービスとしてのツイッタ−(登録商標)やSNSなどから取得したドキュメントに出現する単語に基づいて得られる情報である。本実施形態でのユーザは、情報処理装置1の所有者である前者を想定するものとする。
「ユーザ興味度」を定義するために、本実施形態では図4のようなデータベース(以後ユーザデータベースと表記する)を追加で備えているものとする。図4は、ユーザが自身の意図に基づいて取得したユーザドキュメントの情報から生成されるものである。ユーザデータベースとは、まず、図3のデータベース100が土台となっていることを前提とする。図3のデータベース100を土台として、形態素解析されて抽出されたユーザドキュメントに出現する単語の出現頻度を、そのユーザドキュメントが属するドキュメントクラスタごとに算出する。ユーザドキュメントが属するドキュメントクラスタは、図3のデータベース100のドキュメントクラスタごとの単語の出現頻度との類似性から判断可能である。尚、ユーザデータベースに出現する単語、クラスタリングの階層なども図3と同様であるものとする。ユーザドキュメントは、定期的に多岐に渡るサイトからコンピュータが自動的に取得するものとは異なり、ユーザ自身が操作して取得したものである。ユーザドキュメントには、例えばユーザIDなどの識別子をメタデータとして付与して、図3のデータベース100を生成した際の元データであるドキュメントとは別々に蓄積、管理することが好ましい。
図4のユーザデータベースに出現する単語、およびクラスタ区分は図3と同様であるものとする。更に、単語特徴量は、各クラスタを構成するドキュメントに出現する単語の出現頻度の合計である。ユーザデータベースの単語特徴量は、ユーザの興味に左右されるため、自ずと閲覧頻度の高いジャンルに関連する単語で高い値となる傾向がある。このように図3のデータベース100とユーザデータベースの単語特徴量に着目して「ユーザ興味度」を定義することができる。
本実施形態でのユーザ興味度は、図3のデータベース100、および図4のユーザデータベースに出現する同単語での、ユーザデータベースにおける単語特徴量(=X)と図3のデータベース100における単語特徴量(=Y)の相関で定義する。XとYを用いて演算式は、log(X/Y)となる。尚、logの底に関しては、10でも2でもeでもよい。このように演算式を定義することで、データベース100の単語特徴量に対してユーザデータベースの単語特徴量が高ければポジティブ、つまり興味度が高いと言え、逆であればネガティブ、つまり興味度が低いと言える。以上のように定義したユーザ興味度を、データベース100の所定の単語に関連付けて記憶する。
以上のようにして、図3のようにデータベース100に出現する単語に対してユーザ興味度が関連付けられる。ユーザ興味度が高い単語は、データベース100に対してユーザデータベースでの単語特徴量が大きい。尚、本実施形態でのデータベース100、およびユーザデータベースでは説明の簡素化のために単語特徴量が0である単語が複数存在しており、そのような単語は、算出されるユーザ興味度も説明の簡素化のため便宜上0としている。
また、データベース100は、定期的にリフレッシュすることが好ましい。世の中の情報は日々変化していくため、取得した時点でのドキュメントの情報はもう過去の古い情報であると言える。大量の新しいドキュメントを取得したタイミングで、再度クラスタリング処理を行い、データベース100にフレッシュな情報を反映させることが必要である。
情報処理装置1のデータベース100は、CPU10がHDD12などの記憶装置に記憶されているドキュメント集合を読み出し、メモリ11に記憶されている所定のデータベース方式が書き込まれているプログラムに基づいて処理を実行することで生成され、更にユーザデータベースを読み出し、所定の興味度演算方式が書き込まれているプログラムに基づいて興味度演算を実行し、算出結果としての興味度をデータベース100に関連付けることで実現が可能である。
情報処理装置1のドキュメントクラスタ特定手段101の定義付けは、指定されたドキュメントに出現する単語と、データベース100に出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定することを意味する。ここでの「指定されたドキュメント」とは、図5に示したようなドキュメントを一例とする。指定されたドキュメントは、ユーザ自身の意思による何かしらの操作に基づいて、コンピュータがネットワーク200経由で取得した文章データ等を意味する。尚、ドキュメントの取得元は上述したような、政治経済などの社会記事を配信するサイトや、スポーツ記事を配信するサイト、更に言えば検索エンジンなどのユーザに情報を紹介するポータルサイト、もしくはECサイトなども含めてよい。
取得された図5のようなドキュメントが、データベース100のドキュメントクラスタの中からどのドキュメントクラスタに属するかを特定する。ドキュメントクラスタの特定方法として、指定されたドキュメントに出現する単語と、データベース100のドキュメントクラスタに属する単語の出現頻度に基づいて算出した類似度に着目した方法がある。指定されたドキュメントに出現する単語の出現頻度は、ドキュメントに出現する個々の単語の出現回数を、ドキュメント全体の単語の出現回数で除算することで算出できる。このようにドキュメントに出現する単語の出現頻度に着目して類似度を算出することが可能である。本実施形態では、指定されたドキュメントに出現する単語の出現頻度も併せて単語特徴量と表記することにする。
ドキュメント−ドキュメント間の類似性を評価する方法の一つとして、コサイン類似度がある。2つの比較対象の類似性を評価する手段としてのコサイン類似度は公知であるため、詳細な説明は割愛するが、本実施形態では、ドキュメントクラスタに属するドキュメントに出現する単語の単語特徴量と、指定されたドキュメントに出現する単語の単語特徴量に着目して類似度を算出する。図6は指定されたドキュメントに出現する単語の単語特徴量を示したものである。尚、コサイン類似度は、文章に出現する単語の出現頻度を正規化した単語ベクトルを用いて算出されることが一般的であり、本実施形態でも同様である。尚、本実施形態では、データベース100のドキュメントクラスタ、および指定されたドキュメントに出現する単語の単語特徴量を単語ベクトルとして用いることができる。算出された類似度に基づいて、指定されたドキュメントに関連するドキュメントクラスタが「クラスタA」と特定することができる。尚、文章同士の類似性を評価する方法としては、コサイン類似度に限定されず、例えばユーグリッド距離などを用いてもよい。
情報処理装置1のドキュメントクラスタ特定手段101は、CPU10がメモリ11に記憶されている所定のドキュメントクラスタ特定プログラムに基づいてメモリ11に記憶されているデータベース100等を読み出してドキュメントクラスタの特定を実行することで実現が可能である。
情報処理装置1のキーワード選定手段102の定義付けは、ユーザ興味度に基づいて、特定されたドキュメントクラスタに出現する単語を、指定されたドキュメントに関連するキーワードとして選定することを意味する。ドキュメントクラスタ特定手段101によって、指定されたドキュメントに関連するドキュメントクラスタがクラスタAであると特定されている。図7は、クラスタAに出現する単語と単語評価値を関連付けた一例である。尚、図7に表記している単語は、前述したユーザ興味度が0以外の単語に絞っている。ここで、「単語評価値」とは特定されたドキュメントクラスタに出現する単語をユーザ興味度に基づいて値化したものである。単語評価値に関しては、ユーザ興味度の値そのものでもよいが、例えば指定されたドキュメントに出現する出現回数などをユーザ興味度に乗算したり、指定されたドキュメントのタイトルに出現していれば、それに基づいたポイントなどを付与させたりして重み付けを行ってもよい。本実施形態では説明の簡素化のために、ユーザ興味度の値をそのまま単語評価値として用いることにする。
単語評価値に基づいて指定されたドキュメントに関連するキーワードを選定する際には、単語評価値が高く、且つ指定されたドキュメントに出現する単語を優先的に選定することが好ましい。単語評価値はユーザ興味度に基づいて算出されたものであるため、単語評価値が高いということはユーザ興味度も高い単語であると言えるからである。また、単語評価値は高いが、指定されたドキュメントには出現していない単語をキーワードとして選定してもよい。本実施形態では、単語評価値が高く、且つ指定されたドキュメントに出現している「サッカー」、「三浦和良」をキーワードとして選定している。
情報処理装置1のキーワード選定手段102は、CPU10がメモリ11に記憶されている所定のキーワード選定プログラムに基づいてメモリ11に記憶されているデータベース100等を読み出してキーワード選定を実行することで実現が可能である。
情報処理装置1のコンテンツ取得手段103の定義付けは、選定されたキーワードに関連するコンテンツを取得することを意味する。尚、ここで「コンテンツ」は、コンテンツという語句そのものが有する通常の意味に加え、例えば、映像、音楽、文章、又はそれらの組合せ等の、メディアが記録又は伝送し、人間が鑑賞するひとまとまりの情報をいい、実例でいえば例えばインターネットで配信されるアプリケーションやダウンロード可能な映像コンテンツ若しくは音楽コンテンツ等があり、実体のある商品の画像や映像、更にはその商品についての情報(商品名、商品名についての説明、商品についての評価などの文章データ)なども含まれる。
図8は、選定されたキーワード(ここでは「サッカー」、「三浦和良」)に基づいて、ネットワーク200を介して外部サーバ(図示していない)などから取得したコンテンツが有する文章データ等を形態素解析した一例である。ここでの「単語特徴量」は、コンテンツが有する文章データに出現する単語の出現頻度である。尚、本実施形態では、説明の簡素化のために文章データから抽出した単語情報のみをコンテンツとして示しているが、映像コンテンツや音楽コンテンツなどが含まれていてもよい。
情報処理装置1のコンテンツ取得手段103は、CPU10がメモリ11に記憶されている所定のコンテンツ取得プログラムに基づいて、ネットワーク200を介して外部サーバなどからコンテンツの取得を実行することで実現が可能である。
情報処理装置1の単語特徴量補正手段104の定義付けは、コンテンツが有するドキュメントに出現する単語の単語特徴量と指定されたドキュメントに出現する単語の単語特徴量を、ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正することを意味する。ここで、「情報量」とは、クラスタに跨る単語の分散を数値化した情報エントロピー、およびドキュメントのクラスタリング前の情報エントロピーと、ドキュメントのクラスタリング後の情報エントロピーに基づいて算出される情報利得を指す。情報エントロピー、情報利得の算出方法の詳細については後述する。
図9は、クラスタAに出現する単語の単語特徴量に、情報エントロピー、情報利得、および情報エントロピーと情報利得に基づいて算出される補正情報量を関連付けた一例である。まず、一例として図3の「選手」という単語の情報エントロピーを算出することを考えてみる。情報エントロピーは、クラスタAに出現する単語の、全ドキュメントクラスタの出現頻度に対するドキュメントクラスタごとの出現頻度の分散に基づいて算出される。所定の単語の各クラスタでの単語特徴量をP(w|G)と定義し、更に所定の単語の全クラスタでの単語特徴量の合計をP(w)と定義する。情報エントロピーE(w)は、クラスタごとのP(w|G)、およびP(w)から算出されるクラスタごとの情報エントロピーを全クラスタ分で加算することにより算出されるため、
E(w) = -ΣP(w|G)/P(w)log(P(w|G)/P(w))と定義することができる。尚、logの底に関しては、10でも2でもeでもよい。この式に基づくと「選手」という単語の情報エントロピーは1.44と算出される。尚、情報エントロピーE(w)はクラスタを跨いだ単語の分散を情報量として数値化しており、より多くのクラスタに分散するほど大きい値となる。その他の単語においても同様に情報エントロピーE(w)を算出できる。
次に、クラスタAに出現する単語である「選手」の情報利得を算出する場合を考えてみる。情報利得は、ドキュメントのクラスタリング前の情報エントロピーと、ドキュメントのクラスタリング後の情報エントロピーに基づいて算出される。まず、ドキュメントのクラスタリング前の情報エントロピーJ0(w)を算出する。クラスタリング前の所定の単語の単語特徴量をQ(w)とすると、クラスタリング前の情報エントロピーJ0(w)は、J0(w) = −Q(w)/log(Q(w))−(1-Q(w))log(1-Q(w))と定義することができる。この式に基づくと、クラスタリング前の情報エントロピーJ0(w)は0.44と算出できる。
次に、ドキュメントのクラスタリング後の情報エントロピーJ1(w)を算出することを考えてみる。情報エントロピーJ1(w)を算出するにあたり、クラスタA、クラスタB、クラスタCごとに単語特徴量を正規化することが必要となる。図10は、図3のデータベース100における単語特徴量を、クラスタA、クラスタB、クラスタCごとに正規化して示したものである。正規化することで、クラスタA、クラスタB、クラスタCのクラスタごとの単語特徴量の合計はそれぞれ“1.0”となる。
正規化後の全クラスタに対する各々のクラスタの確率分布をP(G)として、クラスタ内での単語特徴量は、所定の単語の各クラスタでの単語特徴量P(w|G)と定義する。クラスタリング後の情報エントロピーJ1(w)は、
1(w) = -Σ(P(G)×[-P(w|G)logP(w|G)-(1-P(w|G))×log(1-P(w|G))])と定義することができる。例えば、図9のデータベースに基づいて、クラスタAの確率分布P(G)は1/3と求めることができ、クラスタB、クラスタCについても同様である。また、「選手」という単語の各クラスタでの単語特徴量P(w|G)はクラスタAでは0.11、クラスタBでは0.07、クラスタCでは0.08となる。これらの値に基づいて「選手」という単語のクラスタリング後の情報エントロピーJ1(w)は0.42と求めることができる。
算出されたJ0(w)とJ1(w)との差分に基づいて情報利得を算出することはよく知られている。しかし、単純にJ0(w)とJ1(w)との差分を取るだけでは、トピック性の高い単語とトピック性の低い単語とを明確に区分できず、真に抽出すべき単語を判断できない場合がある。トピック性の高さを判断する精度向上のため、本実施形態での情報利得IG(w)は
IG(w) = 1-(J1(w)/J0(w))と定義する。このように定義することで、トピック性の高い単語とトピック性の低い単語と、の区分けが明確になる。この式に基づくと、「選手」という単語の情報利得は0.04と求めることができる。つまり、クラスタリング前とクラスタリング後での情報エントロピーJ0(w)、J1(w)に大きな差がないということが言える。クラスタリング後の情報エントロピーJ1(w)が小さい値であるほど情報利得IG(w)が大きな値となることを示している。その他の単語においても同様に情報利得IG(w)を算出できる。
算出された情報エントロピーE(w)、情報利得IG(w)に基づいて補正情報量を定義付ける。「三浦和良」というに着目すると、情報エントロピーE(w)が他の単語よりも低く、情報利得IG(w)が他の単語よりも高い傾向にあることがわかる。補正情報量は、一般単語、つまり複数のクラスタで満遍なく出現する単語の単語特徴量を下げ、特定のクラスタでの占有率が高いトピック単語の単語特徴量を上げるようにできるものであることが好ましい。つまり、補正情報量は情報利得IG(w)を情報エントロピーE(w)で除算した(IG(w)/E(w))と定義することができる。この式に基づくと、例えば「選手」という単語の単語特徴量は0.09から0.002と補正されることになる。このように補正を行うことで、所謂一般単語の単語特徴量を大きく下げることが可能となる。
尚、ドキュメントのクラスタリング処理を行った結果、一つのクラスタに100%依存するような単語が出現する場合では、情報エントロピーE(w)を算出する際の単語特徴量を“1.0”としないよう制御することが好ましい。その理由としては、一つのクラスタ専有率100%、つまり単語特徴量が“1.0”である単語の情報エントロピーE(w)は、上記演算式に基づいて算出すると0となってしまうからである。そのような状況を回避するために、例えば一つのクラスタにおける単語特徴量の上限を90%、つまり0.9として計算するなど閾値を持たせることが好ましい。また、本実施例では、クラスタA、クラスタB、クラスタCに属する単語の数(以下単語情報量と表記する)は同数であることを想定しているが、クラスタA、クラスタB、クラスタCでそれぞれ単語情報量が異なる場合では、単語特徴量に大きな偏りが生まれてしまうため、単語特徴量を単語情報量で補正して正規化することが好ましい。このようにすることで、単語情報量の違いによる単語特徴量の偏りを無くすことが可能となる。
情報処理装置1の単語特徴量補正手段104は、CPU10がメモリ11に記憶されている所定の単語特徴量補正プログラムに基づいてメモリ11に記憶されているデータベース100等を読み出して単語特徴量の補正演算を実行することで実現が可能である。
情報処理装置1の類似度算出手段105の定義付けは、補正情報量により補正されたコンテンツが有する文章データに出現する単語の単語特徴量、および指定されたドキュメントに出現する単語の単語特徴量に基づいて、コンテンツと指定されたドキュメントの類似度を算出することを意味する。まず、単語特徴量補正手段104により補正されたデータベース100に出現する単語の補正単語特徴量を、指定されたドキュメント、およびコンテンツが有するドキュメントに出現する単語にそれぞれ関連付ける。
図11は、指定されたドキュメント、および取得したコンテンツが有するドキュメントに出現する単語に、単語特徴量補正手段104により補正された補正単語特徴量を関連付けた一例である。尚、指定されたドキュメント、および取得したコンテンツが有するドキュメントに出現する単語のうち、データベース100に存在しない単語は、補正を行わず、それぞれの単語特徴量をそのまま採用する。本来、データベース100は膨大な数のドキュメントに基づいて生成されるため、よほどのレア単語か新しい単語で無い限りデータベース100に存在しないという事態が起こる可能性は低い。
図11の補正単語特徴量に基づいて、指定されたドキュメントと、取得されたコンテンツとの類似度を算出する。類似度の算出の一例として、ドキュメントクラスタ特定手段101でも用いたコサイン類似度を用いることにする。本実施形態では、指定されたドキュメントに出現する単語の補正単語特徴量と、取得されたコンテンツが有するドキュメントに出現する単語の補正単語特徴量と、に基づく補正単語ベクトルで類似度算出を行う。
図12は、取得されたコンテンツと、指定されたドキュメントとの類似度を、コンテンツごとに表記した一例である。算出結果としては、コンテンツその3が0.95という値となり、指定されたドキュメントと最も類似度が高い結果となった。補正単語特徴量に着目すると、特に、トピック単語(例えば「三浦和良」)と、一般単語(例えば「選手」)で大きな差が生まれる形となり、よりトピック単語の単語特徴量が重視される形となっている。従来では、比較対象の双方に一般単語が数多く存在すれば、自ずとその比較対象の類似度が高くなる傾向にあった。本実施形態のようにトピック単語と一般単語とで特徴量に差を生ませることで、一般単語による類似性の影響を抑えた類似度算出が可能となる。
尚、本実施形態では、前述した通り指定されたドキュメント、および取得したコンテンツが有するドキュメントに出現する単語のうち、データベース100に存在しない単語は、補正を行わず、単語特徴量をそのまま採用した。ドキュメント情報量の充実によりデータベース100に過不足無く単語が出現することで、一般単語とトピック単語の線引きがより明確になり、類似度算出の精度は更に向上することが見込める。
また、他の実施形態として、一つ一つの単語に対して情報エントロピーE(w)と情報利得IG(w)より補正情報量を算出するのではなく、図3のデータベース100の行方向の単語についてもクラスタリングを行った単語クラスタを一つの単位として、補正情報量を算出することも可能である。単語クラスタは、ドキュメントに対する出現頻度が類似する単語がグループ化されたものあるため、一つ一つの単語に対して情報エントロピーE(w)、および情報利得IG(w)を算出して評価する場合よりも、単語クラスタ単位で情報エントロピーE(w)、および情報利得IG(w)を算出することで、トピック性の高い単語クラスタとトピック性の低い単語とをクラスタ単位で区分け・評価することができる点で効果的であると言える。所定の単語クラスタに属する単語の単語特徴量を、クラスタ単位で算出した補正情報量で補正することで、よりトピック性の高い単語に着目した類似性の検証が可能となる。
情報処理装置1の類似度算出手段105は、CPU10がメモリ11に記憶されている所定の類似度演算プログラムに基づいて指定されたドキュメントと取得したコンテンツの類似度を演算することで実現が可能である。
情報処理装置1の推薦コンテンツ選定手段106の定義付けは、類似度算出手段105により算出された類似度に基づいて、前記取得されたコンテンツから推薦コンテンツを選定する。図11に示したように、指定されたドキュメントと最も類似性の高いコンテンツはコンテンツその3であり、類似性の高いコンテンツを優先的に推薦コンテンツとして選定される。また、算出された類似度に対して、単語ごとのユーザ興味度を積算した積算結果が大きいものを推薦コンテンツとして選定してもよいし、取得したコンテンツ、および指定されたドキュメントに出現する単語の出現回数などを各単語の係数として重み付けて計算を行い、その計算結果が大きいものを推薦コンテンツとして選定してもよい。このように、類似度算出手段105により算出された類似度と、単語に対するユーザ興味度に基づいて推薦コンテンツが選定される。
情報処理装置1の推薦コンテンツ選定手段106は、CPU10がメモリ11に記憶されている所定のコンテンツ選定プログラムに基づいてコンテンツの選定を実行することで実現が可能である。
図13は、本発明の実施形態にかかるフローチャートの一例である。
まず、指定されたドキュメントに出現する単語の出現傾向が類似するドキュメントクラスタを特定する(ステップ1)。
特定されたドキュメントクラスタに出現する単語よりキーワードを選定する(ステップ2)。選定されたキーワードに基づいて指定されたドキュメントに関連するコンテンツを取得する(ステップ3)。取得したコンテンツが有するドキュメント、および指定されたドキュメントに出現する単語の単語特徴量を情報量で補正する(ステップ4)。
補正された単語特徴量に基づいて、取得したコンテンツと指定されたドキュメントの類似度を算出する(ステップ5)。算出された類似度に基づいて、取得されたコンテンツより推薦コンテンツを選定する(ステップ6)。
以上のように、本実施形態では、情報量に基づいて単語特徴量の補正を行うことで、ドキュメントに出現する単語の中でトピック単語と一般単語が明確になる。類似度演算では、一般単語の単語特徴値による影響を少なくすることで、よりトピック単語に焦点を当てたものになり性能が向上する。
本願発明を実現できるような構成であれば、用いる装置の具備する内容、および装置の数量などは本実施形態に限定されない。
100 データベース
101 ドキュメントクラスタ特定手段
102 キーワード選定手段
103 コンテンツ取得手段
104 単語特徴量補正手段
105 類似度算出手段
106 推薦コンテンツ選定手段

Claims (7)

  1. ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースと、
    指定されたドキュメントに出現する単語と、前記データベースに出現する単語と、に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
    前記ユーザ興味度に基づいて、前記特定されたドキュメントクラスタに出現する単語を、前記指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、
    前記選定されたキーワードに関連するコンテンツを取得するコンテンツ取得手段と、
    前記コンテンツに付随するドキュメントに出現する単語の特徴量である第1の単語特徴量と前記指定されたドキュメントに出現する単語の特徴量である第2の単語特徴量を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する単語特徴量補正手段と、
    前記補正された第1の単語特徴量、および第2の単語特徴量に基づいて、前記コンテンツと前記指定されたドキュメントの類似度を算出する類似度算出手段と、
    を備える、
    ことを特徴とする情報処理装置。
  2. 前記単語特徴量補正手段は、前記第1の単語特徴量と前記第2の単語特徴量を、前記特定されたドキュメントクラスタに出現する前記単語の、全ドキュメントクラスタの出現頻度に対する前記ドキュメントクラスタごとの出現頻度の分散に基づいて算出される情報エントロピーで補正する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記単語特徴量補正手段は、前記第1の単語特徴量と前記第2の単語特徴量を、前記特定されたドキュメントクラスタに出現する前記単語の、前記データベースに対する出現頻度と、前記ドキュメントクラスタごとの出現頻度の分散と、で算出される情報利得に前記情報エントロピーを除算して補正する、
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記類似度と、前記ユーザ興味度と、に基づいて、前記取得されたコンテンツから推薦コンテンツを選定する推薦コンテンツ選定手段と、
    を更に備える、
    ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記推薦コンテンツ選定手段は、前記コンテンツが有するドキュメントに出現する単語の前記ユーザ興味度と、前記類似度との積算値が大きい前記コンテンツを推薦コンテンツとして選定する、
    ことを特徴とする請求項4に記載の情報処理装置。
  6. ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、
    指定されたドキュメントに出現する単語と、前記データベースに出現する単語と、に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するステップと、
    前記ユーザ興味度に基づいて、前記特定されたドキュメントクラスタに出現する単語を、前記指定されたドキュメントに関連するキーワードとして選定するステップと、
    前記選定されたキーワードに関連するコンテンツを取得するステップと、
    前記コンテンツに付随するドキュメントに出現する単語の特徴量である第1の単語特徴量と前記指定されたドキュメントに出現する単語の特徴量である第2の単語特徴量を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正するステップと、
    前記補正された第1の単語特徴量、および第2の単語特徴量に基づいて、前記コンテンツと前記指定されたドキュメントの類似度を算出するステップと、
    を有する、
    ことを特徴とする情報処理方法。
  7. ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、
    指定されたドキュメントに出現する単語と、前記データベースに出現する単語と、に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定する工程と、
    前記ユーザ興味度に基づいて、前記特定されたドキュメントクラスタに出現する単語を、前記指定されたドキュメントに関連するキーワードとして選定する工程と、
    前記選定されたキーワードに関連するコンテンツを取得する工程と、
    前記コンテンツに付随するドキュメントに出現する単語の特徴量である第1の単語特徴量と前記指定されたドキュメントに出現する単語の特徴量である第2の単語特徴量を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する工程と、
    前記補正された第1の単語特徴量、および第2の単語特徴量に基づいて、前記コンテンツと前記指定されたドキュメントの類似度を算出する工程と、
    をコンピュータに実行させる、
    ことを特徴とするプログラム。
JP2016219931A 2016-11-10 2016-11-10 情報処理装置、情報処理方法、およびプログラム Active JP6412541B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016219931A JP6412541B2 (ja) 2016-11-10 2016-11-10 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016219931A JP6412541B2 (ja) 2016-11-10 2016-11-10 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018077727A JP2018077727A (ja) 2018-05-17
JP6412541B2 true JP6412541B2 (ja) 2018-10-24

Family

ID=62150828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016219931A Active JP6412541B2 (ja) 2016-11-10 2016-11-10 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6412541B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7396061B2 (ja) * 2020-01-15 2023-12-12 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290826A (ja) * 2000-04-05 2001-10-19 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP2003006214A (ja) * 2001-06-26 2003-01-10 Canon Inc 文書検索処理方法及び装置並びに記憶媒体
JP2011227742A (ja) * 2010-04-21 2011-11-10 Hitachi Solutions Ltd 対比表示データ生成装置または対比表示データ生成方法
JP5965260B2 (ja) * 2012-09-11 2016-08-03 株式会社日立アドバンストシステムズ 文書分類プログラム及び文書分類装置

Also Published As

Publication number Publication date
JP2018077727A (ja) 2018-05-17

Similar Documents

Publication Publication Date Title
Shu et al. Beyond news contents: The role of social context for fake news detection
US20220035827A1 (en) Tag selection and recommendation to a user of a content hosting service
US11244326B2 (en) Analytical precursor mining for personalized recommendation
US8548969B2 (en) System and method for clustering content according to similarity
CN104969224B (zh) 未认可及新用户的改善用户体验
KR101700352B1 (ko) 이력적 검색 결과들을 사용한 향상된 문서 분류 데이터 생성
US9176969B2 (en) Integrating and extracting topics from content of heterogeneous sources
Zhou et al. Enhancing online video recommendation using social user interactions
US20150242750A1 (en) Asymmetric Rankers for Vector-Based Recommendation
US20160217135A1 (en) Indexing and searching heterogenous data entities
US20220237247A1 (en) Selecting content objects for recommendation based on content object collections
US20140006369A1 (en) Processing structured and unstructured data
JP6668892B2 (ja) アイテム推薦プログラム、アイテム推薦方法およびアイテム推薦装置
US20180025364A1 (en) Information processing apparatus, information processing method, and program
Monechi et al. Significance and popularity in music production
JP6412541B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6412540B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6960838B2 (ja) 情報提供装置、情報提供方法、およびプログラム
JP2014115911A (ja) 情報推薦装置、情報推薦方法、及び情報推薦プログラム
Yang et al. LAZY R-tree: The R-tree with lazy splitting algorithm
Fischer et al. Timely semantics: a study of a stream-based ranking system for entity relationships
Sadanand et al. Movie recommender engine using collaborative filtering
JP6421146B2 (ja) 情報処理システム、情報処理装置、プログラム
Wang et al. An improved recommendation algorithm for polarized population
Abdel-Hafez et al. Utilizing voting systems for ranking user tweets

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180928

R150 Certificate of patent or registration of utility model

Ref document number: 6412541

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250