JP2018077726A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2018077726A
JP2018077726A JP2016219911A JP2016219911A JP2018077726A JP 2018077726 A JP2018077726 A JP 2018077726A JP 2016219911 A JP2016219911 A JP 2016219911A JP 2016219911 A JP2016219911 A JP 2016219911A JP 2018077726 A JP2018077726 A JP 2018077726A
Authority
JP
Japan
Prior art keywords
word
document
cluster
appearing
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016219911A
Other languages
English (en)
Other versions
JP6412540B2 (ja
Inventor
竹本 剛
Takeshi Takemoto
剛 竹本
則之 菊地
Noriyuki Kikuchi
則之 菊地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2016219911A priority Critical patent/JP6412540B2/ja
Publication of JP2018077726A publication Critical patent/JP2018077726A/ja
Application granted granted Critical
Publication of JP6412540B2 publication Critical patent/JP6412540B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】トピック性の高い単語をキーワードとして選択できる情報処理装置を提供する。
【解決手段】情報処理装置1は、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶するデータベース100と、所定の単語にユーザ興味度を関連付け、指定されたドキュメントに出現する単語と、データベース100に出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定する、ドキュメントクラスタ特定手段101と、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて補正する、単語評価値補正手段102と、補正された単語評価値に基づいて、ドキュメントクラスタに出現する単語を指定されたドキュメントに関連するキーワードとして選定する、キーワード選定手段103と、を備える。
【選択図】図2

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
記事に出現する単語に基づいてキーワードを抽出する技術は、情報の推薦処理を行うシステムで幅広く利用されている。従来、キーワード抽出の指標として、単語の特徴を値化して表記した興味度が用いられてきた。興味度はユーザが所定の記事を閲覧した際にその記事に出現した単語の情報を蓄積し、その蓄積結果から、記事に出現する単語の出現頻度が社会一般での同単語の出現頻度と比較してどのくらい特徴的であるかを示す値である。
この興味度に基づいてキーワードを抽出する技術は、情報の推薦処理を行うシステムで利用する場合には理に適ったものであると言える。なぜなら記事に出現する各々の単語の特徴を興味度として評価し、所定の基準に達した単語がキーワードとして抽出されるため、少なくともユーザ自身にとって馴染みのある単語がキーワードとして抽出されるからである。特許文献1では、ユーザの所定のコンテンツアクセスの履歴を参照し、コンテンツ内容の言語部分を解析して、ユーザの興味度が高い単語をキーワードとして選定する技術が公開されている。
特開2010−262383
興味度は、ユーザの閲覧記事の増加に伴い変動する値でもある。ユーザが閲覧した記事の情報量が増加するに従って、蓄積した閲覧記事に出現する単語の出現頻度は、社会一般での同単語の出現頻度に近づく傾向にある。初期段階では蓄積する記事の情報は特定のジャンルに偏っているが、時間が経つにつれて多岐に渡ったジャンルの記事の情報を蓄積し、データベースが記事の情報を学習する。ユーザが閲覧した記事の蓄積による記事学習が進むことで、「ユーザが閲覧する記事の情報量≒社会一般で閲覧する記事の情報量」という状況になり、双方の記事に出現する単語の出現頻度の相関に基づいて算出される興味度が、全ての単語において似通った値となってしまう。記事に関連するキーワードは、単語の興味度と、記事に対する出現回数と、に基づいて抽出されるが、記事学習が進むことで興味度の値が意味を成さなくなり、結果として記事に出現する出現回数の多い所謂一般単語がキーワードとして抽出されてしまう。
つまり、従来のように記事に対する単語の出現頻度に基づく興味度を指標としたキーワード抽出では、ユーザの閲覧記事の情報に基づく学習が進むにつれて、真に抽出すべきキーワード(トピック性の高い単語)と、抽出すべきでないキーワード(一般単語など)の区分けが難しくなり、結果として閲覧記事に適正なキーワードが抽出できないという課題がある。
本発明は、このような実情に鑑みてなされたものであって、記事の中からトピック性の高い単語をキーワードとして選択できる情報処理装置を提供することを目的とする。
本発明に係る情報処理装置は、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースと、指定されたドキュメントに出現する単語と、データベースに出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定するドキュメントクラスタ特定手段と、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正する単語評価値補正手段と、情報量で補正された単語評価値に基づいて、ドキュメントクラスタに出現する単語を指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、を備える、ことを特徴とする。
本発明に係る情報処理方法は、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、指定されたドキュメントに出現する単語と、データベースに出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定するステップと、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正するステップと、情報量で補正された単語評価値に基づいて、ドキュメントクラスタに出現する単語を指定されたドキュメントに関連するキーワードとして選定するステップと、を有する、ことを特徴とする。
本発明に係る情報処理を実現させるためのプログラムは、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語と、に関して、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶し、単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、指定されたドキュメントに出現する単語と、データベースに出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定する工程と、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正する工程と、情報量で補正された単語評価値に基づいて、ドキュメントクラスタに出現する単語を指定されたドキュメントに関連するキーワードとして選定する工程と、をコンピュータに実行させる、ことを特徴とする。
本発明によれば、記事の中からトピック性の高い単語をキーワードとして選択できる。
本発明の実施形態にかかる情報処理装置1のハードウェア構成図である。 本発明の実施形態にかかる情報処理装置1の機能ブロック図である。 本発明の実施形態にかかるデータベースの一例である。 本発明の実施形態にかかるユーザデータベースの一例である。 本発明の実施形態にかかる指定されたドキュメントの一例である。 本発明の実施形態にかかる指定されたドキュメントの文章解析の一例である。 本発明の実施形態にかかる単語評価値に対する第1の補正方法の一例である。 本発明の実施形態にかかる第1の補正方法により補正された補正単語評価値のランキング化の一例である。 本発明の実施形態にかかる図3のデータベースの単語特徴量を、ドキュメントクラスタごとに正規化した一例である。 本発明の実施形態にかかる単語評価値に対する第2の補正方法の一例である。 本発明の実施形態にかかるフローチャートの一例である。
以下、本発明の実施の形態について詳細に説明する。
まず、本実施形態の情報処理装置1のハードウェア構成について図1を用いて説明する。ここでの情報処理装置とは、例えばパーソナルコンピュータ、タブレット端末、スマートフォンなどのネットワークに接続が可能な情報端末などを指す。また、複数のコンピュータにネットワークを通じて処理要求を行うホストコンピュータやサーバなどであっても良い。尚、情報処理装置1の構成は、図1に示したものと必ずしも同じである必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。例えばマウスや入力キーで構成されるキーボードなどの入力装置や、プロジェクター、もしくは液晶、および有機ELなどのパネルを用いたディスプレイを備えた表示装置や、CD、もしくはDVDなどに記憶されているデータを読み書きする光学ドライブなどを追加で備えていてもよい。
情報処理装置1は、所定のプログラムを実行することにより、情報処理装置1の全体の制御を実現するためのCPU10と、情報処理装置1の電源が投入されたときにCPU10が読出すプログラムを記憶する読出専用の不揮発メモリであるマスクROM、EPROM、またはSSDなどと、CPU10がプログラムを読み出し、演算処理等により生成したデータを一時的に書き込む作業用の揮発メモリであるSRAMやDRAMなどから構成されるメモリ11、情報処理装置1の電源が切断されたときに種々のデータの記録を保持することが可能なHDD12と、を備えている。
また、情報処理装置1は、通信I/F13を更に備えている。情報処理装置1は通信I/F13を介してネットワーク200に接続されている。通信I/F13は、CPU10の動作に基づいてネットワーク200経由でアクセス可能な各種情報にアクセスするものであり、通信I/F13の具体的としてUSBポートやLANポート、無線LANポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。
図2は、本発明の実施形態にかかる情報処理装置1の機能ブロック図である。図2に示すように、本発明にかかる情報処理装置1は、データベース100と、ドキュメントクラスタ特定手段101と、単語評価値補正手段102と、キーワード選定手段103と、を備えている。
情報処理装置1のデータベース100は、ネットワーク200経由でアクセス可能なドキュメントがCPU10の動作処理に基づいて形態素解析され、ドキュメントに出現する単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを含んで構成されるものである。尚、ここでの「ドキュメント」とは、不特定多数の人間が閲覧可能な多岐に渡る情報を意味しており、例えば、政治経済などの社会記事を配信するサイトから取得される情報や、スポーツ記事を配信するサイトから取得される情報、更に言えば検索エンジンなどのユーザに情報を紹介するポータルサイトから取得される情報、もしくはECサイトなどのサービス提供サイトから取得される情報を含めてもよい。これらの多岐に渡るサイトから定期的に取得した情報をドキュメントとしてHDD12などに蓄積する。上述した「ドキュメントクラスタ」についての詳細は後述する。
蓄積されたドキュメントに基づいてデータベース100が生成される。データベース100の生成は、コンピュータの処理負荷の低減のため、例えば、所定の期間(週単位など)が経過したタイミング、もしくはHDD12に蓄積されるドキュメントのデータ量に閾値を設定し、データ量がその閾値を超えたタイミングなどで行われる。いずれにしても、少量のドキュメントが蓄積される度にその都度データベース100を生成するのではなく、ドキュメントの蓄積期間、蓄積されるドキュメントのデータ量、もしくはその他の指標など何かしらの基準に基づいてデータベース100を生成することが好ましい。
データベース100の生成方式は、取得したドキュメントを構成する文章を形態素解析により単語に分解して抽出し、出現する単語の出現傾向が類似するドキュメントをグループ化するなどの所謂クラスタリング方式が一例である。このように単語の出現傾向が類似するドキュメントでグループ化することで、ドキュメントの単語特性に応じたジャンル分けが可能となる。クラスタリングによりドキュメントがグループ化されたデータベース100の一例を図3として示す。縦方向、つまり行方向はドキュメントに出現する単語を示しており、横方向、つまり列方向の「クラスタA」、「クラスタB」、「クラスタC」は各々単語の出現傾向が類似するドキュメントを含んで構成されたグループを示している。尚、ドキュメントがクラスタリングされた各クラスタを行方向、ドキュメントに出現する単語を列方向に規定してもよい。「単語特徴量」は、各クラスタを構成するドキュメントに出現する単語の出現頻度の合計である。「クラスタ単語特徴量合計値」は、単語の各クラスタでの出現頻度の合計である。例えば、「選手」という単語であれば、クラスタAでの単語特徴量が0.05、クラスタBでの単語特徴量が0.02、クラスタCでの単語特徴量が0.02なので、クラスタ単語特徴量合計値はそれぞれのクラスタごとの合計で0.09となる。
クラスタリングを行うことで、クラスタA、クラスタB、およびクラスタCのそれぞれのクラスタごとの単語の出現傾向に特徴が出る。例えばクラスタAでは、「サッカー」、「選手」などのサッカーに関連する単語の単語特徴量が大きい。これは、クラスタAが、サッカーに関連するドキュメントによりグループ化されているためである。同様にクラスタBは、野球に関連するドキュメントによりグループ化されたものであるため、「野球」、「監督」などの野球に関連する単語の単語特徴量が大きい。
本実施形態では、ドキュメントをクラスタリングした横方向のクラスタのみを含んでデータベース100が構成されているが、例えば縦方向の単語をクラスタリングした二次元のクラスタを備えたデータベースとすることもできる。横方向のドキュメントクラスタ、および縦方向の「単語クラスタ」をそれぞれ備えた二次元型のデータベースは、例えば、横方向のクラスタリングと縦方向のクラスタリングを交互に行うことで生成される。双方向のクラスタリングを交互に行うことで、特定のドキュメントクラスタに特定の単語が集中的に出現したデータベースが出来上がる。尚、本実施形態では、ドキュメント−ドキュメント間の距離、およびドキュメントに出現する単語−単語間の距離に基づいてクラスタリングが行われるが、階層的クラスタリングとしてのNN(Nearest Neighbor)法、K-NN(K Nearest Neighbor)法、ウォード法なども適用可能である。また、これらに限定されずその他の手法を用いてもよい。
特定のドキュメントクラスタに特定の単語が集中的に出現することで、どのドキュメントクラスタにどの単語クラスタが対応しているかの関係性が明確になる。つまり、あるドキュメントクラスタに対応する単語クラスタに出現する単語の出現頻度は、対応するドキュメントクラスタ以外のドキュメントクラスタでは微々たるものであると言える。縦方向の単語によるクラスタリングを行わず、横方向のドキュメントによるクラスタリングのみの一次元データベースでも本発明への適用は十分であるが、上述したような単語クラスタを縦方向に備える二次元のデータベースでも本発明に適用可能である。また、クラスタリング階層は、予めメモリ11に格納されているプログラムで設定することが可能であるが、できるだけ細分化することが好ましい。例えば、サッカーや野球などは「スポーツ」という単語の下位概念である。つまり、クラスタリング階層がスポーツであるとすると、クラスタAとクラスタBの区分けが無くなり、サッカー特有の単語、野球特有の単語が同クラスタに含まれてしまうことになる。クラスタリングの階層を細分化することは、ドキュメントの特性をより明確にすることができる点で有益である。
本実施形態では、上記のようにクラスタリングされたデータベース100に出現する単語に対して、ユーザ興味度を関連付ける。ここで「ユーザ」は、情報処理装置1の所有者と、情報処理装置1の所有者ではなく、不特定多数の人間と、の2つの側面で定義することができる。前者の情報処理装置1の所有者をユーザとした時の「興味度」は、情報処理装置1の所有者の意図に基づいて取得されたドキュメントに出現する単語に基づいて得られる情報である。また、後者の不特定多数の人間をユーザとした時の「興味度」は、自由に発言したり、WEBリンクを張り付けたりできるソーシャルネットワークサービスとしてのツイッタ−(登録商標)やSNSなどから取得したドキュメントに出現する単語に基づいて得られる情報である。本実施形態でのユーザは、情報処理装置1の所有者である前者を想定するものとする。
「ユーザ興味度」を定義するために、本実施形態では図4のようなデータベース(以後ユーザデータベースと表記する)を追加で備えているものとする。図4は、ユーザが自身の意図に基づいて取得したユーザドキュメントの情報から生成されるものである。ユーザデータベースとは、まず、図3のデータベース100が土台となっていることを前提とする。図3のデータベース100を土台として、形態素解析されて抽出されたユーザドキュメントに出現する単語の出現頻度を、そのユーザドキュメントが属するドキュメントクラスタごとに算出する。ユーザドキュメントが属するドキュメントクラスタは、図3のデータベース100のドキュメントクラスタごとの単語の出現頻度との類似性から判断可能である。尚、ユーザデータベースに出現する単語、クラスタリングの階層なども図3と同様であるものとする。ユーザドキュメントは、定期的に多岐に渡るサイトからコンピュータが自動的に取得するものとは異なり、ユーザ自身が操作して取得したものである。ユーザドキュメントには、例えばユーザIDなどの識別子をメタデータとして付与して、図3のデータベース100を生成した際の元データであるドキュメントとは別々に蓄積、管理することが好ましい。
図4のユーザデータベースに出現する単語、およびクラスタ区分は図3と同様であるものとする。更に、単語特徴量は、各クラスタを構成するドキュメントに出現する単語の出現頻度の合計である。ユーザデータベースの単語特徴量は、ユーザの興味に左右されるため、自ずと閲覧頻度の高いジャンルに関連する単語で高い値となる傾向がある。このように図3のデータベース100とユーザデータベースの単語特徴量に着目して「ユーザ興味度」を定義することができる。
本実施形態でのユーザ興味度は、図3のデータベース100、および図4のユーザデータベースに出現する同単語での、ユーザデータベースにおける単語特徴量(=X)と図3のデータベース100における単語特徴量(=Y)の相関で定義する。XとYを用いて演算式は、log(X/Y)となる。尚、logの底に関しては、10でも2でもeでもよい。このように演算式を定義することで、データベース100の単語特徴量に対してユーザデータベースの単語特徴量が高ければポジティブ、つまり興味度が高いと言え、逆であればネガティブ、つまり興味度が低いと言える。以上のように定義したユーザ興味度を、データベース100の所定の単語に関連付けて記憶する。
以上のようにして、図3のようにデータベース100に出現する単語に対してユーザ興味度が関連付けられる。ユーザ興味度が高い単語は、データベース100に対してユーザデータベースでの単語特徴量が大きい。尚、本実施形態でのデータベース100、およびユーザデータベースでは説明の簡素化のために単語特徴量が0である単語が複数存在しており、そのような単語は、算出されるユーザ興味度も説明の簡素化のため便宜上0としている。
また、データベース100は、定期的にリフレッシュすることが好ましい。世の中の情報は日々変化していくため、取得した時点でのドキュメントの情報はもう過去の古い情報であると言える。大量の新しいドキュメントを取得したタイミングで、再度クラスタリング処理を行い、データベース100にフレッシュな情報を反映させることが必要である。
情報処理装置1のデータベース100は、CPU10がHDD12などの記憶装置に記憶されているドキュメント集合を読み出し、メモリ11に記憶されている所定のデータベース方式が書き込まれているプログラムに基づいて処理を実行することで生成され、更にユーザデータベースを読み出し、所定の興味度演算方式が書き込まれているプログラムに基づいて興味度演算を実行し、算出結果としての興味度をデータベース100に関連付けることで実現が可能である。
情報処理装置1のドキュメントクラスタ特定手段101の定義付けは、指定されたドキュメントに出現する単語と、データベース100に出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定することを意味する。ここでの「指定されたドキュメント」とは、図5に示したようなドキュメントを一例とする。指定されたドキュメントは、ユーザ自身の意思による何かしらの操作に基づいて、コンピュータがネットワーク200経由で取得した文章データ等を意味する。尚、ドキュメントの取得元は上述したような、政治経済などの社会記事を配信するサイトや、スポーツ記事を配信するサイト、更に言えば検索エンジンなどのユーザに情報を紹介するポータルサイト、もしくはECサイトなども含めてよい。
取得された図5のようなドキュメントが、データベース100のドキュメントクラスタの中からどのドキュメントクラスタに属するかを特定する。ドキュメントクラスタの特定方法として、指定されたドキュメントに出現する単語と、データベース100のドキュメントクラスタに属する単語の出現頻度に基づいて算出した類似度に着目した方法がある。指定されたドキュメントに出現する単語の出現頻度は、ドキュメントに出現する個々の単語の出現回数を、ドキュメント全体の単語の出現回数で除算することで算出できる。このようにドキュメントに出現する単語の出現頻度に着目して類似度を算出することが可能である。本実施形態では、指定されたドキュメントに出現する単語の出現頻度も併せて単語特徴量と表記することにする。
ドキュメント−ドキュメント間の類似性を評価する方法の一つとして、コサイン類似度がある。2つの比較対象の類似性を評価する手段としてのコサイン類似度は公知であるため、詳細な説明は割愛するが、本実施形態では、ドキュメントクラスタに属するドキュメントに出現する単語の単語特徴量と、指定されたドキュメントに出現する単語の単語特徴量に着目して類似度を算出する。図6は指定されたドキュメントに出現する単語の単語特徴量を示したものである。尚、コサイン類似度は、文章に出現する単語の出現頻度を正規化した単語ベクトルを用いて算出されることが一般的であり、本実施形態でも同様である。尚、本実施形態では、データベース100のドキュメントクラスタ、および指定されたドキュメントに出現する単語の単語特徴量を単語ベクトルとして用いることができる。算出された類似度に基づいて、指定されたドキュメントに関連するドキュメントクラスタが「クラスタA」と特定することができる。尚、文章同士の類似性を評価する方法としては、コサイン類似度に限定されず、例えばユーグリッド距離などを用いてもよい。
情報処理装置1のドキュメントクラスタ特定手段101は、CPU10がメモリ11に記憶されている所定のドキュメントクラスタ特定プログラムに基づいてメモリ11に記憶されているデータベース100等を読み出してドキュメントクラスタの特定を実行することで実現が可能である。
情報処理装置1の単語評価値補正手段102の定義付けは、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて算出される情報量で補正することを意味する。ここで「単語評価値」とは、特定されたドキュメントクラスタに出現する単語をユーザ興味度に基づいて値化したものである。単語の値化にユーザ興味度を用いることは一般的に広く知られている。従来、指定されたドキュメントに出現し、更にユーザ興味度が高いということが指定されたドキュメントに関連する単語としてトピック性を示す最良の条件と考えられてきた。
しかし、ユーザ興味度は2つのデータベース(本実施形態ではデータベース100とユーザデータベース)による相関に基づく値のため、例えばユーザデータベースがたくさんの情報を取り込み、データベース100と単語特徴量で差が出なくなってしまった場合などは、ユーザ興味度に基づく単語評価値にも差が出なくなってしまう。そこで、本実施形態では、従来のユーザ興味度に基づく単語評価値を、単語の出現頻度に基づいて算出される情報量で補正することにする。
<情報量による第1の単語評価値の補正>
ここで、第1の単語評価値の補正に用いる情報量を、クラスタAに出現する単語の、全ドキュメントクラスタの出現頻度に対するドキュメントクラスタごとの出現頻度の分散に基づいて算出される情報エントロピーとする。クラスタに出現する単語は、クラスタAだけに出現するもの、クラスタAとクラスタBだけに出現するもの、クラスタA、クラスタB、クラスタCの全てのクラスタに出現するものなど様々であり、単語のクラスタを跨ぐ分散についても様々である。このようなクラスタを跨いだ単語の分散に基づく情報エントロピーを用いて、単語評価値を補正することを考える。
まず、一例として図3の「選手」という単語の情報エントロピーを算出することを考えてみる。所定の単語の各クラスタでの単語特徴量をP(w|G)と定義し、更に所定の単語の全クラスタでの単語特徴量の合計をP(w)と定義する。情報エントロピーE(w)は、クラスタごとのP(w|G)、およびP(w)から算出されるクラスタごとの情報エントロピーを全クラスタ分で加算することにより算出されるため、
E(w) = -ΣP(w|G)/P(w)log(P(w|G)/P(w))と定義することができる。尚、logの底に関しては、10でも2でもeでもよい。この式に基づくと「選手」という単語の情報エントロピーは1.44と算出される。尚、情報エントロピーE(w)はクラスタを跨いだ単語の分散を情報量として数値化しており、より多くのクラスタに分散するほど大きい値となる。その他の単語においても同様に情報エントロピーE(w)を算出できる。
情報エントロピーE(w)は、多くのクラスタで出現している所謂一般単語と呼ばれるもので大きくなる傾向がある。逆を言えば、情報エントロピーが小さい単語は、特定のクラスタでの出現頻度が高く、他のクラスタでは極めて出現頻度が低いものであると言える。つまり、情報エントロピーが小さい単語は、出現頻度の高い特定のクラスタで特徴性の高いトピック単語と言えるものである。
図7は、クラスタAに出現する単語に単語評価値と情報エントロピーを関連付けたものである。尚、図7に表記している単語は、前述したユーザ興味度が0以外の単語に絞っている。単語評価値に関しては、ユーザ興味度の値そのものでもよいが、例えば指定されたドキュメントに出現する出現回数などをユーザ興味度に乗算したり、指定されたドキュメントのタイトルに出現していれば、それに基づいたポイントなどを付与させたりして重み付けを行ってもよい。本実施形態では説明の簡素化のために、ユーザ興味度の値をそのまま単語評価値として用いることにする。
図7を参照すると、「三浦和良」という単語の情報エントロピーE(w)が0.16と極めて低い値であることがわかる。この「三浦和良」という単語は、固有名詞であり、その他の単語と比較してみても特徴性の高いトピック単語であることが視覚的にもわかる。情報エントロピーE(w)で単語評価値を補正する方法として、単語評価値を情報エントロピーE(w)で除算することが好ましい。単語評価値を情報エントロピーE(w)で除算した補正単語評価値は図8のとおりである。この結果により、補正単語評価値が最も高い単語は「三浦和良」となった。従来のように、ユーザ興味度や単語の出現回数に着目すると、「サッカー」という単語の単語評価値が高いままであるが、クラスタを跨いだ単語の分散を値化した情報量に基づいて補正することで、より特徴性の高いトピック単語の単語評価値を上げることができる。
尚、ドキュメントのクラスタリング処理を行った結果、一つのクラスタに100%依存するような単語が出現する場合では、情報エントロピーE(w)を算出する際の単語特徴量を“1.0”としないよう制御することが好ましい。その理由としては、一つのクラスタ専有率100%、つまり単語特徴量が“1.0”である単語の情報エントロピーE(w)は、上記演算式に基づいて算出すると0となってしまうからである。そのような状況を回避するために、例えば一つのクラスタにおける単語特徴量の上限を90%、つまり0.9として計算するなど閾値を持たせることが好ましい。また、本実施例では、クラスタA、クラスタB、クラスタCに属する単語の数(以下単語情報量と表記する)は同数であることを想定しているが、クラスタA、クラスタB、クラスタCでそれぞれ単語情報量が異なる場合では、単語特徴量に大きな偏りが生まれてしまうため、単語特徴量を単語情報量で補正して正規化することが好ましい。このようにすることで、単語情報量の違いによる単語特徴量の偏りを無くすことが可能となる。
<情報量による第2の単語評価値の補正>
次に、第2の単語評価値の補正に用いる情報量を、クラスタAに出現する単語の、データベース100に対する出現頻度と、ドキュメントクラスタごとの出現頻度の分散と、で算出される情報利得とする。ここでの情報利得とは、ドキュメントのクラスタリング前の情報エントロピーと、ドキュメントのクラスタリング後の情報エントロピーに基づいて算出される情報量として定義されるものとする。
まず、ドキュメントのクラスタリング前の情報エントロピーJ0(w)を、第1の単語評価値の補正と同様に「選手」という単語で算出することを考えてみる。クラスタリング前の所定の単語の単語特徴量をQ(w)とすると、クラスタリング前の情報エントロピーJ0(w)は、
0(w) = −Q(w)/log(Q(w))−(1-Q(w))log(1-Q(w))と定義することができる。尚、logの底に関しては、10でも2でもeでもよい。この式に基づくと、クラスタリング前の情報エントロピーJ0(w)は0.44と求めることができる。
次に、ドキュメントのクラスタリング後の情報エントロピーJ1(w)を算出することを考えてみる。情報エントロピーJ1(w)を算出するにあたり、クラスタA、クラスタB、クラスタCごとに単語特徴量を正規化することが必要となる。図9は、図3のデータベース100における単語特徴量を、クラスタA、クラスタB、クラスタCごとに正規化して示したものである。正規化することで、クラスタA、クラスタB、クラスタCのクラスタごとの単語特徴量の合計はそれぞれ“1.0”となる。
正規化後の全クラスタに対する各々のクラスタの確率分布をP(G)として、クラスタ内での単語特徴量は、所定の単語の各クラスタでの単語特徴量P(w|G)と定義する。クラスタリング後の情報エントロピーJ1(w)は、
1(w) = -Σ(P(G)×[-P(w|G)logP(w|G)-(1-P(w|G))×log(1-P(w|G))])と定義することができる。例えば、図9のデータベースに基づいて、クラスタAの確率分布P(G)は1/3と求めることができ、クラスタB、クラスタCについても同様である。また、「選手」という単語の各クラスタでの単語特徴量P(w|G)はクラスタAでは0.11、クラスタBでは0.07、クラスタCでは0.08となる。これらの値に基づいて「選手」という単語のクラスタリング後の情報エントロピーJ1(w)は0.42と求めることができる。
算出されたJ0(w)とJ1(w)との差分に基づいて情報利得を算出することはよく知られている。しかし、単純にJ0(w)とJ1(w)との差分を取るだけでは、トピック性の高い単語とトピック性の低い単語とを明確に区分できず、真に抽出すべき単語を判断できない場合がある。トピック性の高さを判断する精度向上のため、本実施形態での情報利得IG(w)は
IG(w) = 1-(J1(w)/J0(w))と定義する。このように定義することで、トピック性の高い単語とトピック性の低い単語と、の区分けが明確になる。この式に基づくと、「選手」という単語の情報利得は0.04と求めることができる。つまり、クラスタリング前とクラスタリング後での情報エントロピーJ0(w)、J1(w)に大きな差がないということが言える。クラスタリング後の情報エントロピーJ1(w)が小さい値であるほど情報利得IG(w)が大きな値となることを示している。その他の単語においても同様に情報利得IG(w)を算出できる。
図10は、クラスタAに出現する単語に単語評価値と情報利得を関連付けたものである。尚、図7と同様に、前述したユーザ興味度が0以外の単語に絞っている。情報利得IG(w)の値は、情報エントロピーE(w)の時とは真逆の傾向となり、クラスタでの特徴性の高い「三浦和良」が最も大きい値となった。これは「三浦和良」という単語が出現するドキュメントがある特定のクラスタに密集し、特定のクラスタでの単語特徴量が大きくなったことを示している。
以上のように、単語評価値をクラスタに跨る単語の分散に着目して補正することで、クラスタに対して特徴性の高いトピック単語の単語評価値を上げることができる。尚、単語評価値については、例えば情報エントロピーE(w)、および情報利得IG(w)のどちらか一方で補正してもよく、両方を用いて補正を行ってもよい。両方を用いて補正する場合の方法としては、例えば単語評価値に情報エントロピーE(w)を除算し、更に情報利得IG(w)を乗算する。このような情報エントロピーE(w)と情報利得IG(w)の相乗効果に伴って、単語のトピック性を更に高めることができる。
また、他の実施形態として、一つ一つの単語に対して単語特徴量の評価を行うのではなく、図3のデータベース100の行方向の単語についてもクラスタリングを行った単語クラスタを一つの単位として、特徴量を評価することも可能である。単語クラスタは、ドキュメントに対する出現頻度が類似する単語がグループ化されたものあるため、一つ一つの単語に対して情報エントロピーE(w)、および情報利得IG(w)を算出して評価する場合よりも、単語クラスタ単位で情報エントロピーE(w)、および情報利得IG(w)を算出することで、トピック性の高い単語クラスタとトピック性の低い単語とをクラスタ単位で区分け・評価することができる点で効果的であると言える。更にトピック性の高い単語クラスタから抽出される単語は、一つ一つの単語単位で評価されて抽出される単語に対してよりトピック性が高いものと判断することも可能である。
情報処理装置1の単語評価値補正手段102は、CPU10がメモリ11に記憶されている所定の単語評価値補正プログラムに基づいてメモリ11に記憶されているデータベース100等を読み出して単語評価値の補正演算を実行することで実現が可能である。
情報処理装置1のキーワード選定手段103の定義付けは、情報量で補正された補正単語評価値に基づいて、クラスタAに出現する単語を指定されたドキュメントに関連するキーワードとして選定することを意味する。キーワードの選定は、第1の単語評価値の補正、第2の単語評価値の補正により算出された補正単語評価値が大きい単語をキーワードとすることが好ましい。特定されたドキュメントクラスタであるクラスタAでは、情報エントロピーE(w)、情報利得IG(w)のどちらを用いても補正単語評価値が大きい値となった「三浦和良」が選定されることになる。また、指定されたドキュメントに出現していない単語であっても、補正単語評価値が高ければキーワードとして選定しても問題は無い。補正単語評価値が高いこと自体、その特定されたドキュメントクラスタでのトピック性に優れていると言えるからである。
情報処理装置1のキーワード選定手段103は、CPU10がメモリ11に記憶されている所定のキーワード選定プログラムに基づいてメモリ11に記憶されているデータベース100等を読み出してキーワード選定を実行することで実現が可能である。
図11は、本発明の実施形態にかかるフローチャートの一例である。
まず、指定されたドキュメントに出現する単語の出現傾向が類似するドキュメントクラスタを特定する(ステップ1)。
特定されたドキュメントクラスタに出現する単語に関連付けられたユーザ興味度に基づいて算出される単語評価値を情報量で補正する(ステップ2)。補正された単語評価値に基づいて指定されたドキュメントに関連する単語をキーワードとして選定する(ステップ3)。
以上のように、本実施形態では、ドキュメントに関連するキーワードを選定する際の単語の評価基準として、従来のような単語の出現頻度によるユーザ興味度だけでなく、クラスタに跨る単語の分散を値化した情報量を用いた。従来キーワードとして選定されてきた所謂一般単語などのトピック性が低いものの評価を情報量による補正で下げることで、トピック性の高い単語を適正に選択することができた。
本願発明を実現できるような構成であれば、用いる装置の具備する内容、および装置の数量などは本実施形態に限定されない。
100 データベース
101 ドキュメントクラスタ特定手段
102 単語評価値補正手段
103 キーワード選定手段

Claims (7)

  1. ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースと、
    指定されたドキュメントに出現する単語と、前記データベースに出現する単語とに基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
    前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に基づいて算出される単語評価値を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する単語評価値補正手段と、
    前記情報量で補正された単語評価値に基づいて、前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、
    を備える、
    ことを特徴とする情報処理装置。
  2. 前記単語評価値は、前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に、前記指定されたドキュメントに出現する出現回数を乗算して算出される、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記単語評価値補正手段は、前記単語評価値を、前記特定されたドキュメントクラスタに出現する前記単語の、全ドキュメントクラスタの出現頻度に対する前記ドキュメントクラスタごとの出現頻度の分散に基づいて算出される情報エントロピーで補正する、
    ことを特徴とする請求項1、および2に記載の情報処理装置。
  4. 前記単語評価値補正手段は、前記単語評価値を、前記特定されたドキュメントクラスタに出現する前記単語の、前記データベースに対する出現頻度と、前記ドキュメントクラスタごとの出現頻度の分散と、で算出される情報利得で補正する、
    ことを特徴とする請求項1、または2に記載の情報処理装置。
  5. 前記キーワード選定手段は、前記情報量で補正された単語評価値が大きい前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定する、
    ことを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
  6. ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、
    指定されたドキュメントに出現する単語と、前記データベースに出現する単語とに基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するステップと、
    前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に基づいて算出される単語評価値を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正するステップと、
    前記情報量で補正された単語評価値に基づいて、前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定するステップと、
    を有する、
    ことを特徴とする情報処理方法。
  7. ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、
    指定されたドキュメントに出現する単語と、前記データベースに出現する単語とに基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定する工程と、
    前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に基づいて算出される単語評価値を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する工程と、
    前記情報量で補正された単語評価値に基づいて、前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定する工程と、
    をコンピュータに実行させる、
    ことを特徴とするプログラム。
JP2016219911A 2016-11-10 2016-11-10 情報処理装置、情報処理方法、およびプログラム Active JP6412540B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016219911A JP6412540B2 (ja) 2016-11-10 2016-11-10 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016219911A JP6412540B2 (ja) 2016-11-10 2016-11-10 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018077726A true JP2018077726A (ja) 2018-05-17
JP6412540B2 JP6412540B2 (ja) 2018-10-24

Family

ID=62150815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016219911A Active JP6412540B2 (ja) 2016-11-10 2016-11-10 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6412540B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020017130A (ja) * 2018-07-26 2020-01-30 トヨタ自動車株式会社 情報処理装置、情報処理システム、及び、情報処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230024A (ja) * 2001-02-05 2002-08-16 Ntt Comware Corp 検索方法、文書情報の特性情報を生成する方法、ユーザの嗜好情報を生成する方法、検索装置、文書特性情報生成装置、ユーザ嗜好情報生成装置、記録媒体およびプログラム
JP2003248688A (ja) * 2002-02-25 2003-09-05 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報分類方法、装置、プログラム、および同プログラムを記録した記録媒体
JP2010128771A (ja) * 2008-11-27 2010-06-10 Ntt Communications Kk クラスタリング結果表示装置、その方法及びプログラム
JP2012160206A (ja) * 2012-04-27 2012-08-23 Dainippon Printing Co Ltd ブログ収集サーバ

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230024A (ja) * 2001-02-05 2002-08-16 Ntt Comware Corp 検索方法、文書情報の特性情報を生成する方法、ユーザの嗜好情報を生成する方法、検索装置、文書特性情報生成装置、ユーザ嗜好情報生成装置、記録媒体およびプログラム
JP2003248688A (ja) * 2002-02-25 2003-09-05 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報分類方法、装置、プログラム、および同プログラムを記録した記録媒体
JP2010128771A (ja) * 2008-11-27 2010-06-10 Ntt Communications Kk クラスタリング結果表示装置、その方法及びプログラム
JP2012160206A (ja) * 2012-04-27 2012-08-23 Dainippon Printing Co Ltd ブログ収集サーバ

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020017130A (ja) * 2018-07-26 2020-01-30 トヨタ自動車株式会社 情報処理装置、情報処理システム、及び、情報処理方法
CN110781403A (zh) * 2018-07-26 2020-02-11 丰田自动车株式会社 信息处理装置、信息处理系统、以及信息处理方法
US11210344B2 (en) 2018-07-26 2021-12-28 Toyota Jidosha Kabushiki Kaisha Information processing apparatus, information processing system, and information processing method
JP7052617B2 (ja) 2018-07-26 2022-04-12 トヨタ自動車株式会社 情報処理装置、情報処理システム、及び、情報処理方法
CN110781403B (zh) * 2018-07-26 2023-12-01 丰田自动车株式会社 信息处理装置、信息处理系统、以及信息处理方法

Also Published As

Publication number Publication date
JP6412540B2 (ja) 2018-10-24

Similar Documents

Publication Publication Date Title
Shu et al. Beyond news contents: The role of social context for fake news detection
US10467234B2 (en) Differentially private database queries involving rank statistics
US20190141052A1 (en) Differentially Private Processing and Database Storage
US11244326B2 (en) Analytical precursor mining for personalized recommendation
US8548969B2 (en) System and method for clustering content according to similarity
US8499008B2 (en) Mixing knowledge sources with auto learning for improved entity extraction
CA2690947C (en) System and method for measuring the quality of document sets
US20170293859A1 (en) Method for training a ranker module using a training set having noisy labels
US9176969B2 (en) Integrating and extracting topics from content of heterogeneous sources
US20100241647A1 (en) Context-Aware Query Recommendations
Huang et al. Topic detection from large scale of microblog stream with high utility pattern clustering
Zhao et al. A hybrid approach of topic model and matrix factorization based on two-step recommendation framework
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
US20140006369A1 (en) Processing structured and unstructured data
WO2018090468A1 (zh) 视频节目的搜索方法和装置
Li et al. An adaptive contextual quantum language model
Jatowt et al. Digital history meets Wikipedia: Analyzing historical persons in Wikipedia
Chang et al. Predicting political affiliation of posts on Facebook
US20140105509A1 (en) Systems and methods for comparing images
US10896189B2 (en) Diversity evaluation in genealogy search
JP6412540B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Li et al. Topic modeling for sequential documents based on hybrid inter-document topic dependency
JP6412541B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Ruocco et al. Geo-temporal distribution of tag terms for event-related image retrieval

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180928

R150 Certificate of patent or registration of utility model

Ref document number: 6412540

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250