JP6412541B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP6412541B2 JP6412541B2 JP2016219931A JP2016219931A JP6412541B2 JP 6412541 B2 JP6412541 B2 JP 6412541B2 JP 2016219931 A JP2016219931 A JP 2016219931A JP 2016219931 A JP2016219931 A JP 2016219931A JP 6412541 B2 JP6412541 B2 JP 6412541B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- cluster
- feature amount
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
E(w) = -ΣP(w|G)/P(w)log(P(w|G)/P(w))と定義することができる。尚、logの底に関しては、10でも2でもeでもよい。この式に基づくと「選手」という単語の情報エントロピーは1.44と算出される。尚、情報エントロピーE(w)はクラスタを跨いだ単語の分散を情報量として数値化しており、より多くのクラスタに分散するほど大きい値となる。その他の単語においても同様に情報エントロピーE(w)を算出できる。
J1(w) = -Σ(P(G)×[-P(w|G)logP(w|G)-(1-P(w|G))×log(1-P(w|G))])と定義することができる。例えば、図9のデータベースに基づいて、クラスタAの確率分布P(G)は1/3と求めることができ、クラスタB、クラスタCについても同様である。また、「選手」という単語の各クラスタでの単語特徴量P(w|G)はクラスタAでは0.11、クラスタBでは0.07、クラスタCでは0.08となる。これらの値に基づいて「選手」という単語のクラスタリング後の情報エントロピーJ1(w)は0.42と求めることができる。
IG(w) = 1-(J1(w)/J0(w))と定義する。このように定義することで、トピック性の高い単語とトピック性の低い単語と、の区分けが明確になる。この式に基づくと、「選手」という単語の情報利得は0.04と求めることができる。つまり、クラスタリング前とクラスタリング後での情報エントロピーJ0(w)、J1(w)に大きな差がないということが言える。クラスタリング後の情報エントロピーJ1(w)が小さい値であるほど情報利得IG(w)が大きな値となることを示している。その他の単語においても同様に情報利得IG(w)を算出できる。
101 ドキュメントクラスタ特定手段
102 キーワード選定手段
103 コンテンツ取得手段
104 単語特徴量補正手段
105 類似度算出手段
106 推薦コンテンツ選定手段
Claims (7)
- ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースと、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語と、に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
前記ユーザ興味度に基づいて、前記特定されたドキュメントクラスタに出現する単語を、前記指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、
前記選定されたキーワードに関連するコンテンツを取得するコンテンツ取得手段と、
前記コンテンツに付随するドキュメントに出現する単語の特徴量である第1の単語特徴量と前記指定されたドキュメントに出現する単語の特徴量である第2の単語特徴量を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する単語特徴量補正手段と、
前記補正された第1の単語特徴量、および第2の単語特徴量に基づいて、前記コンテンツと前記指定されたドキュメントの類似度を算出する類似度算出手段と、
を備える、
ことを特徴とする情報処理装置。 - 前記単語特徴量補正手段は、前記第1の単語特徴量と前記第2の単語特徴量を、前記特定されたドキュメントクラスタに出現する前記単語の、全ドキュメントクラスタの出現頻度に対する前記ドキュメントクラスタごとの出現頻度の分散に基づいて算出される情報エントロピーで補正する、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記単語特徴量補正手段は、前記第1の単語特徴量と前記第2の単語特徴量を、前記特定されたドキュメントクラスタに出現する前記単語の、前記データベースに対する出現頻度と、前記ドキュメントクラスタごとの出現頻度の分散と、で算出される情報利得に前記情報エントロピーを除算して補正する、
ことを特徴とする請求項2に記載の情報処理装置。 - 前記類似度と、前記ユーザ興味度と、に基づいて、前記取得されたコンテンツから推薦コンテンツを選定する推薦コンテンツ選定手段と、
を更に備える、
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。 - 前記推薦コンテンツ選定手段は、前記コンテンツが有するドキュメントに出現する単語の前記ユーザ興味度と、前記類似度との積算値が大きい前記コンテンツを推薦コンテンツとして選定する、
ことを特徴とする請求項4に記載の情報処理装置。 - ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語と、に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するステップと、
前記ユーザ興味度に基づいて、前記特定されたドキュメントクラスタに出現する単語を、前記指定されたドキュメントに関連するキーワードとして選定するステップと、
前記選定されたキーワードに関連するコンテンツを取得するステップと、
前記コンテンツに付随するドキュメントに出現する単語の特徴量である第1の単語特徴量と前記指定されたドキュメントに出現する単語の特徴量である第2の単語特徴量を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正するステップと、
前記補正された第1の単語特徴量、および第2の単語特徴量に基づいて、前記コンテンツと前記指定されたドキュメントの類似度を算出するステップと、
を有する、
ことを特徴とする情報処理方法。 - ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語と、に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定する工程と、
前記ユーザ興味度に基づいて、前記特定されたドキュメントクラスタに出現する単語を、前記指定されたドキュメントに関連するキーワードとして選定する工程と、
前記選定されたキーワードに関連するコンテンツを取得する工程と、
前記コンテンツに付随するドキュメントに出現する単語の特徴量である第1の単語特徴量と前記指定されたドキュメントに出現する単語の特徴量である第2の単語特徴量を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する工程と、
前記補正された第1の単語特徴量、および第2の単語特徴量に基づいて、前記コンテンツと前記指定されたドキュメントの類似度を算出する工程と、
をコンピュータに実行させる、
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016219931A JP6412541B2 (ja) | 2016-11-10 | 2016-11-10 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016219931A JP6412541B2 (ja) | 2016-11-10 | 2016-11-10 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018077727A JP2018077727A (ja) | 2018-05-17 |
JP6412541B2 true JP6412541B2 (ja) | 2018-10-24 |
Family
ID=62150828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016219931A Active JP6412541B2 (ja) | 2016-11-10 | 2016-11-10 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6412541B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7396061B2 (ja) * | 2020-01-15 | 2023-12-12 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001290826A (ja) * | 2000-04-05 | 2001-10-19 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体 |
JP2003006214A (ja) * | 2001-06-26 | 2003-01-10 | Canon Inc | 文書検索処理方法及び装置並びに記憶媒体 |
JP2011227742A (ja) * | 2010-04-21 | 2011-11-10 | Hitachi Solutions Ltd | 対比表示データ生成装置または対比表示データ生成方法 |
JP5965260B2 (ja) * | 2012-09-11 | 2016-08-03 | 株式会社日立アドバンストシステムズ | 文書分類プログラム及び文書分類装置 |
-
2016
- 2016-11-10 JP JP2016219931A patent/JP6412541B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018077727A (ja) | 2018-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shu et al. | Beyond news contents: The role of social context for fake news detection | |
US20220035827A1 (en) | Tag selection and recommendation to a user of a content hosting service | |
US11244326B2 (en) | Analytical precursor mining for personalized recommendation | |
US8548969B2 (en) | System and method for clustering content according to similarity | |
CN104969224B (zh) | 未认可及新用户的改善用户体验 | |
KR101700352B1 (ko) | 이력적 검색 결과들을 사용한 향상된 문서 분류 데이터 생성 | |
US9176969B2 (en) | Integrating and extracting topics from content of heterogeneous sources | |
Zhou et al. | Enhancing online video recommendation using social user interactions | |
US20150242750A1 (en) | Asymmetric Rankers for Vector-Based Recommendation | |
US20160217135A1 (en) | Indexing and searching heterogenous data entities | |
US20220237247A1 (en) | Selecting content objects for recommendation based on content object collections | |
US20140006369A1 (en) | Processing structured and unstructured data | |
JP6668892B2 (ja) | アイテム推薦プログラム、アイテム推薦方法およびアイテム推薦装置 | |
US20180025364A1 (en) | Information processing apparatus, information processing method, and program | |
Monechi et al. | Significance and popularity in music production | |
JP6412541B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6412540B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6960838B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
JP2014115911A (ja) | 情報推薦装置、情報推薦方法、及び情報推薦プログラム | |
Yang et al. | LAZY R-tree: The R-tree with lazy splitting algorithm | |
Fischer et al. | Timely semantics: a study of a stream-based ranking system for entity relationships | |
Sadanand et al. | Movie recommender engine using collaborative filtering | |
JP6421146B2 (ja) | 情報処理システム、情報処理装置、プログラム | |
Wang et al. | An improved recommendation algorithm for polarized population | |
Abdel-Hafez et al. | Utilizing voting systems for ranking user tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180928 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6412541 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |