JP2018077726A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2018077726A JP2018077726A JP2016219911A JP2016219911A JP2018077726A JP 2018077726 A JP2018077726 A JP 2018077726A JP 2016219911 A JP2016219911 A JP 2016219911A JP 2016219911 A JP2016219911 A JP 2016219911A JP 2018077726 A JP2018077726 A JP 2018077726A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- cluster
- appearing
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】情報処理装置1は、単語の出現傾向が類似するドキュメントをグループ化したドキュメントクラスタを記憶するデータベース100と、所定の単語にユーザ興味度を関連付け、指定されたドキュメントに出現する単語と、データベース100に出現する単語とに基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定する、ドキュメントクラスタ特定手段101と、特定されたドキュメントクラスタに出現する単語に関連するユーザ興味度に基づいて算出される単語評価値を、ドキュメントクラスタに出現する単語の出現頻度に基づいて補正する、単語評価値補正手段102と、補正された単語評価値に基づいて、ドキュメントクラスタに出現する単語を指定されたドキュメントに関連するキーワードとして選定する、キーワード選定手段103と、を備える。
【選択図】図2
Description
<情報量による第1の単語評価値の補正>
E(w) = -ΣP(w|G)/P(w)log(P(w|G)/P(w))と定義することができる。尚、logの底に関しては、10でも2でもeでもよい。この式に基づくと「選手」という単語の情報エントロピーは1.44と算出される。尚、情報エントロピーE(w)はクラスタを跨いだ単語の分散を情報量として数値化しており、より多くのクラスタに分散するほど大きい値となる。その他の単語においても同様に情報エントロピーE(w)を算出できる。
次に、第2の単語評価値の補正に用いる情報量を、クラスタAに出現する単語の、データベース100に対する出現頻度と、ドキュメントクラスタごとの出現頻度の分散と、で算出される情報利得とする。ここでの情報利得とは、ドキュメントのクラスタリング前の情報エントロピーと、ドキュメントのクラスタリング後の情報エントロピーに基づいて算出される情報量として定義されるものとする。
J0(w) = −Q(w)/log(Q(w))−(1-Q(w))log(1-Q(w))と定義することができる。尚、logの底に関しては、10でも2でもeでもよい。この式に基づくと、クラスタリング前の情報エントロピーJ0(w)は0.44と求めることができる。
J1(w) = -Σ(P(G)×[-P(w|G)logP(w|G)-(1-P(w|G))×log(1-P(w|G))])と定義することができる。例えば、図9のデータベースに基づいて、クラスタAの確率分布P(G)は1/3と求めることができ、クラスタB、クラスタCについても同様である。また、「選手」という単語の各クラスタでの単語特徴量P(w|G)はクラスタAでは0.11、クラスタBでは0.07、クラスタCでは0.08となる。これらの値に基づいて「選手」という単語のクラスタリング後の情報エントロピーJ1(w)は0.42と求めることができる。
IG(w) = 1-(J1(w)/J0(w))と定義する。このように定義することで、トピック性の高い単語とトピック性の低い単語と、の区分けが明確になる。この式に基づくと、「選手」という単語の情報利得は0.04と求めることができる。つまり、クラスタリング前とクラスタリング後での情報エントロピーJ0(w)、J1(w)に大きな差がないということが言える。クラスタリング後の情報エントロピーJ1(w)が小さい値であるほど情報利得IG(w)が大きな値となることを示している。その他の単語においても同様に情報利得IG(w)を算出できる。
101 ドキュメントクラスタ特定手段
102 単語評価値補正手段
103 キーワード選定手段
Claims (7)
- ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースと、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語とに基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に基づいて算出される単語評価値を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する単語評価値補正手段と、
前記情報量で補正された単語評価値に基づいて、前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定するキーワード選定手段と、
を備える、
ことを特徴とする情報処理装置。 - 前記単語評価値は、前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に、前記指定されたドキュメントに出現する出現回数を乗算して算出される、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記単語評価値補正手段は、前記単語評価値を、前記特定されたドキュメントクラスタに出現する前記単語の、全ドキュメントクラスタの出現頻度に対する前記ドキュメントクラスタごとの出現頻度の分散に基づいて算出される情報エントロピーで補正する、
ことを特徴とする請求項1、および2に記載の情報処理装置。 - 前記単語評価値補正手段は、前記単語評価値を、前記特定されたドキュメントクラスタに出現する前記単語の、前記データベースに対する出現頻度と、前記ドキュメントクラスタごとの出現頻度の分散と、で算出される情報利得で補正する、
ことを特徴とする請求項1、または2に記載の情報処理装置。 - 前記キーワード選定手段は、前記情報量で補正された単語評価値が大きい前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定する、
ことを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。 - ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成するステップと、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語とに基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するステップと、
前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に基づいて算出される単語評価値を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正するステップと、
前記情報量で補正された単語評価値に基づいて、前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定するステップと、
を有する、
ことを特徴とする情報処理方法。 - ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語と、に関して、前記単語の出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶し、前記単語に対してユーザ興味度を関連付けたデータベースを生成する工程と、
指定されたドキュメントに出現する単語と、前記データベースに出現する単語とに基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定する工程と、
前記特定されたドキュメントクラスタに出現する単語に関連する前記ユーザ興味度に基づいて算出される単語評価値を、前記ドキュメントクラスタに出現する前記単語の出現頻度に基づいて算出される情報量で補正する工程と、
前記情報量で補正された単語評価値に基づいて、前記ドキュメントクラスタに出現する単語を前記指定されたドキュメントに関連するキーワードとして選定する工程と、
をコンピュータに実行させる、
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016219911A JP6412540B2 (ja) | 2016-11-10 | 2016-11-10 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016219911A JP6412540B2 (ja) | 2016-11-10 | 2016-11-10 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018077726A true JP2018077726A (ja) | 2018-05-17 |
JP6412540B2 JP6412540B2 (ja) | 2018-10-24 |
Family
ID=62150815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016219911A Active JP6412540B2 (ja) | 2016-11-10 | 2016-11-10 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6412540B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020017130A (ja) * | 2018-07-26 | 2020-01-30 | トヨタ自動車株式会社 | 情報処理装置、情報処理システム、及び、情報処理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230024A (ja) * | 2001-02-05 | 2002-08-16 | Ntt Comware Corp | 検索方法、文書情報の特性情報を生成する方法、ユーザの嗜好情報を生成する方法、検索装置、文書特性情報生成装置、ユーザ嗜好情報生成装置、記録媒体およびプログラム |
JP2003248688A (ja) * | 2002-02-25 | 2003-09-05 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ情報分類方法、装置、プログラム、および同プログラムを記録した記録媒体 |
JP2010128771A (ja) * | 2008-11-27 | 2010-06-10 | Ntt Communications Kk | クラスタリング結果表示装置、その方法及びプログラム |
JP2012160206A (ja) * | 2012-04-27 | 2012-08-23 | Dainippon Printing Co Ltd | ブログ収集サーバ |
-
2016
- 2016-11-10 JP JP2016219911A patent/JP6412540B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230024A (ja) * | 2001-02-05 | 2002-08-16 | Ntt Comware Corp | 検索方法、文書情報の特性情報を生成する方法、ユーザの嗜好情報を生成する方法、検索装置、文書特性情報生成装置、ユーザ嗜好情報生成装置、記録媒体およびプログラム |
JP2003248688A (ja) * | 2002-02-25 | 2003-09-05 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ情報分類方法、装置、プログラム、および同プログラムを記録した記録媒体 |
JP2010128771A (ja) * | 2008-11-27 | 2010-06-10 | Ntt Communications Kk | クラスタリング結果表示装置、その方法及びプログラム |
JP2012160206A (ja) * | 2012-04-27 | 2012-08-23 | Dainippon Printing Co Ltd | ブログ収集サーバ |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020017130A (ja) * | 2018-07-26 | 2020-01-30 | トヨタ自動車株式会社 | 情報処理装置、情報処理システム、及び、情報処理方法 |
CN110781403A (zh) * | 2018-07-26 | 2020-02-11 | 丰田自动车株式会社 | 信息处理装置、信息处理系统、以及信息处理方法 |
US11210344B2 (en) | 2018-07-26 | 2021-12-28 | Toyota Jidosha Kabushiki Kaisha | Information processing apparatus, information processing system, and information processing method |
JP7052617B2 (ja) | 2018-07-26 | 2022-04-12 | トヨタ自動車株式会社 | 情報処理装置、情報処理システム、及び、情報処理方法 |
CN110781403B (zh) * | 2018-07-26 | 2023-12-01 | 丰田自动车株式会社 | 信息处理装置、信息处理系统、以及信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6412540B2 (ja) | 2018-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shu et al. | Beyond news contents: The role of social context for fake news detection | |
US10467234B2 (en) | Differentially private database queries involving rank statistics | |
US20190141052A1 (en) | Differentially Private Processing and Database Storage | |
US11244326B2 (en) | Analytical precursor mining for personalized recommendation | |
US8548969B2 (en) | System and method for clustering content according to similarity | |
US8499008B2 (en) | Mixing knowledge sources with auto learning for improved entity extraction | |
CA2690947C (en) | System and method for measuring the quality of document sets | |
US20170293859A1 (en) | Method for training a ranker module using a training set having noisy labels | |
US9176969B2 (en) | Integrating and extracting topics from content of heterogeneous sources | |
US20100241647A1 (en) | Context-Aware Query Recommendations | |
Huang et al. | Topic detection from large scale of microblog stream with high utility pattern clustering | |
Zhao et al. | A hybrid approach of topic model and matrix factorization based on two-step recommendation framework | |
JP6056610B2 (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
US20140006369A1 (en) | Processing structured and unstructured data | |
WO2018090468A1 (zh) | 视频节目的搜索方法和装置 | |
Li et al. | An adaptive contextual quantum language model | |
Jatowt et al. | Digital history meets Wikipedia: Analyzing historical persons in Wikipedia | |
Chang et al. | Predicting political affiliation of posts on Facebook | |
US20140105509A1 (en) | Systems and methods for comparing images | |
US10896189B2 (en) | Diversity evaluation in genealogy search | |
JP6412540B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Li et al. | Topic modeling for sequential documents based on hybrid inter-document topic dependency | |
JP6412541B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6260678B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
Ruocco et al. | Geo-temporal distribution of tag terms for event-related image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180928 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6412540 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |