JP5129082B2 - 引用判定方法及びそれを用いた評判抽出方法 - Google Patents
引用判定方法及びそれを用いた評判抽出方法 Download PDFInfo
- Publication number
- JP5129082B2 JP5129082B2 JP2008265751A JP2008265751A JP5129082B2 JP 5129082 B2 JP5129082 B2 JP 5129082B2 JP 2008265751 A JP2008265751 A JP 2008265751A JP 2008265751 A JP2008265751 A JP 2008265751A JP 5129082 B2 JP5129082 B2 JP 5129082B2
- Authority
- JP
- Japan
- Prior art keywords
- article
- reputation
- user
- published
- citation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 38
- 238000000034 method Methods 0.000 title claims description 23
- 238000003860 storage Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000012706 support-vector machine Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000009931 harmful effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
また、引用有無判定の対象とするユーザ記事群に、引用される側すなわちターゲットクラスである公表記事を加えた上で全体をクラスタリングし、公表記事を含むクラスタを取得することにより、公表記事への類似度すなわち引用可能性の高い高純度なユーザ記事を抽出できるうえ、SVMなどオフライントレーニングタイプの機械学習よりも、新規の様々なニュースへの対応が迅速容易になる。
まず、本装置は、ユーザ記事収集手段としてのブログ収集部5と、公表記事取得手段としてのニュース取得部10と、段落分割手段としてのブログ分割部15並びにニュース分割部20と、ユーザ記事記憶手段としてのブログ記憶部25と、公表記事記憶手段としてのニュース記憶部30と、引用判定手段としての引用判定部40と、評判情報抽出手段としての評判情報抽出部45と、評判対象抽出手段としての評判対象抽出部50と、評判判定手段としての評判判定部60と、評判情報記憶手段としての評判情報記憶部65と、情報出力手段としての情報出力部70と、を有する。
上記のように構成した本装置における基本的な作用効果としては、まず、ブログ収集部5が、ユーザ記事であるブログA,B,C…をウェブ(WWW:World Wide Web)上から、インターネットに代表される通信ネットワークN経由でデータとして取得し(ユーザ記事収集処理ステップ)、また、ニュース取得部10が、ニュースX,Y…を同様にウェブ上からデータとして取得し(公表記事取得処理ステップ)、それぞれブログ記憶部25とニュース記憶部30に記憶させる。
また、引用判定には広義の機械学習を用いることも考えられるが、潜在的意味インデキシング(LSI:Latent Semantic Indexing)を用いたクラスタリングが最も望ましい。ここで、機械学習は、教師あり機械学習、教師なし機械学習、強化学習に分けることができ、教師あり機械学習の例は、バックプロパゲーション、サポートベクターマシン、ID3、単純ベイズ分類器、事例ベース推論、ブースティングなどがある。
本装置では、上記のような引用判定の結果を、評判抽出の高精度化に利用し、引用判定部40で引用でないと判定したブログについて、通常の評判抽出を行う。すなわち、評判対象抽出部50が、ブログから評判対象を抽出し(評判対象抽出処理ステップ)、評判情報抽出部45が、前記評判対象に対する評判を表す評判情報をブログから抽出し(評判情報抽出処理ステップ)、評判判定部60が、これら抽出した評判対象と評判情報と、に基いて評判を判定する(評判判定処理ステップ)。
以上のような処理は、ブログの全体、ニュースの全体に対して行っても、もちろん本発明の優れた効果を奏するが、ブログやニュースを段落単位に分割して適用すれば、一部引用についても優れた効果を奏する。
以上のような機能作用を実現する情報処理の手順を図4のフローチャートに例示する。この処理手順の例では、ブログの収集(ステップS1)及びニュースの収集を(ステップS2)所定のタイミングまで行ったうえ(ステップS3)、段落単位で処理する設定の場合は(ステップS4)収集・取得したブログ及びニュースを段落単位に分割する(ステップS5)。
上記のように抽出した評判情報は、ニュースごとに、関連する各ブログとともに画面表示することが望ましい。具体的には、評判情報記憶部65に、ニュースごとに、一部の段落がそのニュースからの引用部分であると引用判定部40で判定した各ブログ(ブログ内容ではなく、ブログを特定する識別情報でよい)と、各ブログから評判情報抽出部45で抽出した前記評判情報と、を記憶しておき、情報出力部70が、コンピュータに設けた図示しない画面表示装置もしくはインターネットN経由で接続される他のコンピュータであるクライアント端末Cに、前記評判情報を出力する。
なお、上記実施形態は例示に過ぎず、本発明は、以下の例及び他の実施形態も含むものである。例えば、ユーザ記事はブログに限らず電子掲示板の投稿など自由に選択可能であり、同様に、公表記事もニュースに限らず、学術論文や、白書のような公共機関による公表資料など、自由に選択可能である。
1 引用判定装置
2 評判判定装置
5 ブログ収集部
10 ニュース取得部
15 ブログ分割部
20 ニュース分割部
25 ブログ記憶部
30 ニュース記憶部
40 引用判定部
45 評判情報抽出部
50 評判対象抽出部
60 評判判定部
65 評判情報記憶部
70 結果出力部
Claims (7)
- 記事間の引用をコンピュータで判定する引用判定装置であって、
引用する側として引用判定の対象とするユーザ記事をウェブ上からデータとして取得するユーザ記事収集手段と、
引用される側として引用判定の対象とする公表記事を配信サイトからデータとして取得する公表記事取得手段と、
前記ユーザ記事収集手段で収集した前記各ユーザ記事を記憶するユーザ記事記憶手段と、
前記ユーザ記事記憶手段に記憶されている前記各ユーザ記事の集合に、前記取得された各公表記事を教師データとして加えた全体集合にクラスタリングを行うことにより、該公表記事を含むクラスタを取得し、該公表記事と同じクラスタに含まれているユーザ記事は、該公表記事を引用している可能性が高いと判定し、いずれの公表記事も含まれていないクラスタ内のユーザ記事は公表記事からの引用の可能性が低いと判定する引用判定手段と、
を前記コンピュータの演算制御部で実現することを特徴とする引用判定装置。 - 前記ユーザ記事収集手段で収集した前記各ユーザ記事及び前記公表記事取得手段で取得した前記各公表記事を、それぞれ段落ごとに分割する段落分割手段、を前記演算制御部で実現すると共に、
前記引用判定手段は、前記段落分割手段で分割された前記各ユーザ記事の各段落及び前記各公表記事の各段落を対象として、前記引用の判定を行うように構成した
ことを特徴とする請求項1記載の引用判定装置。 - 請求項1又は2記載の引用判定装置の構成に加え、
記事から評判対象を抽出する評判対象抽出手段と、
記事から前記評判対象に対する評判を表す評判情報を抽出する評判情報抽出手段と、
前記評判対象抽出手段で抽出した評判対象と、この評判対象に対する評判として前記評判情報抽出手段で抽出した評判情報と、に基いて評判を判定する評判判定手段と、
を前記演算制御部で実現すると共に、
前記引用判定手段で前記公表記事が引用されていないと判定したユーザ記事について、評判対象抽出手段で評判対象を抽出し、評判情報抽出手段で前記評判対象に対する評判を表す評判情報を抽出する
ことを特徴とする評判判定装置。 - ユーザ記事を引用部分と被引用部分に分割した結果、該ユーザ記事の中から、該引用部分を評判対象として抽出し、該被引用部分を評判情報として抽出することを特徴とする請求項3記載の評判判定装置。
- 前記公表記事ごとに、一部の段落がその公表記事からの引用部分であると前記引用判定手段で判定した前記各ユーザ記事と、各ユーザ記事から前記評判情報抽出手段で抽出した前記評判情報と、を記憶する評判情報記憶手段と、
前記コンピュータに設けた画面表示装置もしくは通信ネットワーク経由で接続される他のコンピュータに、前記評判情報を出力する情報出力手段と、
を前記コンピュータの前記演算制御部で実現し、
前記情報出力手段は、前記評判情報記憶手段に記憶されている各情報に基づいて、前記公表記事ごとに、その公表記事からの引用部分を持つ各ユーザ記事と、前記評判情報と、を表示する
ことを特徴とする請求項4記載の評判判定装置 - 記事間の引用をコンピュータで判定する引用判定方法であって、
前記コンピュータの演算制御部により、ユーザ記事収集手段と、公表記事取得手段と、ユーザ記事記憶手段と、引用判定手段と、を実現するとともに、
前記ユーザ収集手段により、引用する側として引用判定の対象とするユーザ記事をウェブ上からデータとして取得する、ユーザ記事収集処理ステップを実行し、
前記公表記事取得手段により、引用される側として引用判定の対象とする公表記事を配信サイトからデータとして取得する、公表記事取得処理ステップを実行し、
前記ユーザ記事記憶手段に、前記ユーザ記事収集手段で収集した前記各ユーザ記事を記憶し、
前記引用判定手段により、前記ユーザ記事記憶手段に記憶されている前記各ユーザ記事の集合に、前記取得された各公表記事を教師データとして加えた全体集合にクラスタリングを行うことにより、該公表記事を含むクラスタを取得し、該公表記事と同じクラスタに含まれているユーザ記事は、該公表記事を引用している可能性が高いと判定し、いずれの公表記事も含まれていないクラスタ内のユーザ記事は公表記事からの引用の可能性が低いと判定する、引用判定処理ステップを実行する
ことを特徴とする引用判定方法。 - コンピュータを制御することにより、記事間の引用を判定させる引用判定プログラムであって、
そのプログラムは、
前記コンピュータの前記演算制御部を制御することにより、ユーザ記事収集手段と、公表記事取得手段と、ユーザ記事記憶手段と、引用判定手段と、を実現させるとともに、
前記ユーザ収集手段により、引用する側として引用判定の対象とするユーザ記事をウェブ上からデータとして取得する、ユーザ記事収集処理ステップを実行させ、
前記公表記事取得手段により、引用される側として引用判定の対象とする公表記事を配信サイトからデータとして取得する、公表記事取得処理ステップを実行させ、
前記ユーザ記事収集手段で収集した前記各ユーザ記事を、前記ユーザ記事記憶手段に記憶させ、
前記引用判定手段により、前記ユーザ記事記憶手段に記憶されている前記各ユーザ記事の集合に、前記取得された各公表記事を教師データとして加えた全体集合にクラスタリングを行うことにより、該公表記事を含むクラスタを取得し、該公表記事と同じクラスタに含まれているユーザ記事は、該公表記事を引用している可能性が高いと判定し、いずれの公表記事も含まれていないクラスタ内のユーザ記事は公表記事からの引用の可能性が低いと判定する、引用判定処理ステップを実行させる
ことを特徴とする引用判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008265751A JP5129082B2 (ja) | 2008-09-12 | 2008-09-12 | 引用判定方法及びそれを用いた評判抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008265751A JP5129082B2 (ja) | 2008-09-12 | 2008-09-12 | 引用判定方法及びそれを用いた評判抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010067243A JP2010067243A (ja) | 2010-03-25 |
JP5129082B2 true JP5129082B2 (ja) | 2013-01-23 |
Family
ID=42192735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008265751A Active JP5129082B2 (ja) | 2008-09-12 | 2008-09-12 | 引用判定方法及びそれを用いた評判抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5129082B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6251004B2 (ja) * | 2013-10-24 | 2017-12-20 | 株式会社日立システムズ | 転用状況可視化システム及び転用状況可視化方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4047417B2 (ja) * | 1997-07-29 | 2008-02-13 | 株式会社ジャストシステム | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 |
JP2003141027A (ja) * | 2001-10-31 | 2003-05-16 | Toshiba Corp | 要約作成方法および要約作成支援装置およびプログラム |
-
2008
- 2008-09-12 JP JP2008265751A patent/JP5129082B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010067243A (ja) | 2010-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9317594B2 (en) | Social community identification for automatic document classification | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN111159395A (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
US10373067B1 (en) | Domain-specific sentiment keyword extraction with weighted labels | |
Song et al. | eXtreme gradient boosting for identifying individual users across different digital devices | |
Noel et al. | Applicability of Latent Dirichlet Allocation to multi-disk search | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Albadarneh et al. | Using big data analytics for authorship authentication of arabic tweets | |
CN107809370B (zh) | 用户推荐方法及装置 | |
Solomon et al. | Understanding the psycho-sociological facets of homophily in social network communities | |
CN112084333B (zh) | 一种基于情感倾向分析的社交用户生成方法 | |
Martínez-Torres | Content analysis of open innovation communities using latent semantic indexing | |
Siddharth et al. | Sentiment analysis on twitter data using machine learning algorithms in python | |
Kumar et al. | An intelligent model based on integrated inverse document frequency and multinomial Naive Bayes for current affairs news categorisation | |
Menaria et al. | Tweet sentiment classification by semantic and frequency base features using hybrid classifier | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
TW201243627A (en) | Multi-label text categorization based on fuzzy similarity and k nearest neighbors | |
JP5129082B2 (ja) | 引用判定方法及びそれを用いた評判抽出方法 | |
Torres-Berru et al. | Data and text mining for the detection of fraud in public contracts: A case study of Ecuador’s official public procurement system | |
Jishag et al. | Automated review analyzing system using sentiment analysis | |
Zhang et al. | Collective behavior learning by differentiating personal preference from peer influence | |
Chin | Knowledge transfer: what, how, and why | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 | |
JP2020113267A (ja) | リーディングリストを生成するシステム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121023 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121101 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5129082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151109 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |