JP2012099001A - ニュース情報分析装置 - Google Patents
ニュース情報分析装置 Download PDFInfo
- Publication number
- JP2012099001A JP2012099001A JP2010247518A JP2010247518A JP2012099001A JP 2012099001 A JP2012099001 A JP 2012099001A JP 2010247518 A JP2010247518 A JP 2010247518A JP 2010247518 A JP2010247518 A JP 2010247518A JP 2012099001 A JP2012099001 A JP 2012099001A
- Authority
- JP
- Japan
- Prior art keywords
- news
- information
- word
- importance
- news information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 214
- 238000003860 storage Methods 0.000 claims abstract description 81
- 238000011156 evaluation Methods 0.000 claims description 97
- 230000014509 gene expression Effects 0.000 claims description 83
- 238000009826 distribution Methods 0.000 claims description 81
- 238000004364 calculation method Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 65
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 description 61
- 238000010586 diagram Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 230000009467 reduction Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 5
- 230000001932 seasonal effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 実施形態の同一性判定基準は、前記2件のニュース情報に含まれるニュースソース名が互いに一致することと、前記2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値よりも小さいことと、前記2件のニュース情報における2件のタイトルの形態素解析結果内の自立語及び数値情報から算出される類似度が規定値より高いことと、前記類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含む。実施形態の同一性判定手段は、前記同一性判定基準記憶手段内の同一性判定基準を満たすか否かに基づいて、前記メモリ内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する。
【選択図】図1
Description
図1は第1の実施形態に係るニュース情報分析システムの構成例を示すブロック図であり、図2乃至図10は各情報の一例を示す模式図である。このニュース情報分析システムは、図示しないニュース配信サイト装置から配信された複数のニュース情報がニュース情報分析装置10により分析され、ニュース情報の分析結果がユーザ端末装置20に送信される構成となっている。
次に、第2の実施形態について前述した図面を参照しながら説明する。
次に、第3の実施形態について前述した図面を参照しながら説明する。
次に、第4の実施形態について前述した図面を参照しながら説明する。
次に、第5の実施形態について前述した図面を参照しながら説明する。
次に、第6の実施形態について前述した図面を参照しながら説明する。
Claims (7)
- 日本語により記述されたタイトルを含むニュースデータがニュースソースのニュースソース装置から配信されると、前記配信された日時又はニュース配信サイトに掲載された日時を示す配信日時と、前記ニュース配信サイトを示す配信サイト名と、前記ニュースソースを示すニュースソース名と、前記ニュースデータのタイトルと同じタイトル又は当該タイトルの単語を入れ換えたタイトルとを含むニュース情報を送信する前記ニュース配信サイトのニュース配信サイト装置と、
前記ニュース情報の分析結果が送信されるユーザ端末装置との両装置に個別に通信可能でメモリを備えたニュース情報分析装置であって、
前記ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する単語解析結果の正規表現を示す該当表現と、前記該当表現に対応する見出し表現と、前記見出し表現の意味を示す小分類と、前記小分類の意味を示す大分類と、を関連付けた評価語辞書を記憶した評価語辞書記憶手段と、
前記送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示す同一性判定基準であって、前記2件のニュース情報に含まれるニュースソース名が互いに一致することと、前記2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値よりも小さいことと、前記2件のニュース情報における2件のタイトルの単語解析結果内の自立語及び数値情報から算出される類似度が規定値より高いことと、前記類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含む前記同一性判定基準を記憶する同一性判定基準記憶手段と、
前記同一ニュースであると判定されたニュース情報の件数と、前記否と判定された場合に前記単語解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示す重要度算出手順を記憶する重要度算出手順記憶手段と、
前記ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を前記メモリに書き込むニュース受信手段と、
前記メモリ内のID付ニュース情報に含まれるタイトルを単語解析し、得られた単語解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を前記メモリに書き込む単語解析手段と、
前記メモリ内の解析結果情報内の単語解析結果から前記該当表現に対応する用語を抽出すると共に、この該当表現に関連する前記大分類及び前記小分類を前記評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を当該解析結果情報のニュースIDに一致するニュースIDに関連付けて前記メモリに書き込む評価結果書込手段と、
前記同一性判定基準記憶手段内の同一性判定基準を満たすか否かに基づいて、前記メモリ内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する同一性判定手段と、
前記重要度算出手順記憶手段内の重要度算出手順と、前記同一性判定手段による判定結果とに基づいて、前記最新のID付ニュース情報の重要度を算出する重要度算出手段と、
前記最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を前記メモリから読出し、当該読出した評価結果と、前記算出した重要度とを含む分析結果を前記ユーザ端末装置に送信する分析結果送信手段と、
を備えたことを特徴とするニュース情報分析装置。 - 請求項1に記載のニュース情報分析装置において、
前記類似度は、前記2件のタイトルの単語解析結果に含まれる自立語及び数値情報の集合全体における当該自立語及び数値情報の個数に対し、当該2件のタイトルの単語解析結果の両方に含まれる自立語及び数値情報の個数が占める割合であることを特徴とするニュース情報分析装置。 - 請求項1に記載のニュース情報分析装置において、
前記該当表現は、当該該当表現に対応する用語に同義語がある場合には当該同義語を含んでおり、
前記類似度は、前記2件のタイトルの単語解析結果から前記評価結果書込手段が抽出した用語の集合全体における当該用語の個数と、当該2件のタイトルの単語解析結果に含まれる自立語及び数値情報から当該抽出された用語を除いた自立語及び数値情報の集合全体における当該自立語及び数値情報の個数とを合わせた個数に対し、当該2件のタイトルの単語解析結果の両方から抽出された用語の個数と、当該2件のタイトルの単語解析結果の両方に含まれる自立語及び数値情報から当該両方から抽出された用語を除いた自立語及び数値情報の個数とを合わせた個数が占める割合であることを特徴とするニュース情報分析装置。 - 請求項1乃至請求項3のいずれか1項に記載のニュース情報分析装置において、
自国通貨と外国通貨との交換比率または所定の量単位と前記所定の量単位に対応した量単位の変換比率を記憶した比率情報記憶手段、を更に備え、
前記同一性判定手段は、
前記2件のタイトルの単語解析結果が通貨単位または量単位を含む数値情報を含み、当該数値情報が前記交換比率または前記変換比率に基づいて同義とみなせる場合には、前記類似度を算出する前に、当該数値情報のうち、外国通貨の通貨単位や所定の量単位を含む数値情報を自国通貨の通貨単位や前記所定の量単位に対応した他の量単位を含む数値情報に置換する第1の数値情報置換手段、
を備えたことを特徴とするニュース情報分析装置。 - 請求項1乃至請求項4のいずれか1項に記載のニュース情報分析装置において、
前記ニュースデータおよび前記ニュース情報は前記タイトルに対応するニュース本文を含んでおり、
前記同一性判定手段は、
前記2件のタイトルにそれぞれ対応するニュース本文の少なくとも一方が算出根拠用語を含み、当該2件のタイトルの単語解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含む場合には、前記類似度を算出する前に、予め定められた前記算出根拠に基づく計算手順に沿って当該数値情報のうちの大きい方の値から当該算出根拠に係る調整値を算出し、当該大きい方の値を当該調整値に置換する第2の数値情報置換手段、
を備えたことを特徴とするニュース情報分析装置。 - 請求項1乃至請求項5のいずれか1項に記載のニュース情報分析装置において、
前記メモリ内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、当該抽出された用語と当該用語の出現頻度とを含む統計情報を前記メモリに書き込む統計情報書込手段、を更に備え、
前記重要度算出手順は、前記統計情報が示す出現頻度が基準頻度を超える単語を含むID付ニュース情報の重要度を算出する場合に、前記算出する手順により算出された重要度に対し、前記基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する手順とを含むことを特徴とするニュース情報分析装置。 - 請求項1乃至請求項6のいずれか1項に記載のニュース情報分析装置において、
前記配信サイト名又は前記ニュースソース名と、当該配信サイト名又は当該ニュースソース名に対応する信頼度とを関連付けて記憶する信頼度記憶手段、を更に備え、
前記重要度算出手順は、前記配信サイト名と前記ニュースソース名とを含むニュース情報の重要度を算出する場合に、前記算出する手順により算出された重要度に対し、当該配信サイト名に対応する信頼度と当該ニュースソース名に対応する信頼度とを乗算して当該重要度を修正する手順とを含むことを特徴とするニュース情報分析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010247518A JP5032645B2 (ja) | 2010-11-04 | 2010-11-04 | ニュース情報分析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010247518A JP5032645B2 (ja) | 2010-11-04 | 2010-11-04 | ニュース情報分析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012099001A true JP2012099001A (ja) | 2012-05-24 |
JP5032645B2 JP5032645B2 (ja) | 2012-09-26 |
Family
ID=46390820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010247518A Expired - Fee Related JP5032645B2 (ja) | 2010-11-04 | 2010-11-04 | ニュース情報分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5032645B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013179346A1 (ja) * | 2012-05-31 | 2013-12-05 | 株式会社 東芝 | 知見抽出装置、知見更新装置、及びプログラム |
JP2015036896A (ja) * | 2013-08-13 | 2015-02-23 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
JP2015088067A (ja) * | 2013-10-31 | 2015-05-07 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
JP2020508518A (ja) * | 2017-02-21 | 2020-03-19 | ソニー・インタラクティブエンタテインメント エルエルシー | ニュースの信憑性を特定する方法 |
KR102095022B1 (ko) * | 2019-10-02 | 2020-03-30 | 김근수 | 기사 분석을 이용한 주식 자동 매매 방법, 장치 및 프로그램 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007517269A (ja) * | 2003-09-16 | 2007-06-28 | グーグル・インク | ニュース記事のランク付けを向上させるためのシステムおよび方法 |
JP2010176665A (ja) * | 2009-01-27 | 2010-08-12 | Palo Alto Research Center Inc | ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法 |
JP2010176667A (ja) * | 2009-01-27 | 2010-08-12 | Palo Alto Research Center Inc | 帯域化されたトピック関連度と記事の優先順位付けのための時間を用いるためのシステム及び方法 |
-
2010
- 2010-11-04 JP JP2010247518A patent/JP5032645B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007517269A (ja) * | 2003-09-16 | 2007-06-28 | グーグル・インク | ニュース記事のランク付けを向上させるためのシステムおよび方法 |
JP2010176665A (ja) * | 2009-01-27 | 2010-08-12 | Palo Alto Research Center Inc | ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法 |
JP2010176667A (ja) * | 2009-01-27 | 2010-08-12 | Palo Alto Research Center Inc | 帯域化されたトピック関連度と記事の優先順位付けのための時間を用いるためのシステム及び方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013179346A1 (ja) * | 2012-05-31 | 2013-12-05 | 株式会社 東芝 | 知見抽出装置、知見更新装置、及びプログラム |
JP5559352B2 (ja) * | 2012-05-31 | 2014-07-23 | 株式会社東芝 | 知見抽出装置、知見更新装置、及びプログラム |
US10002122B2 (en) | 2012-05-31 | 2018-06-19 | Kabushiki Kaisha Toshiba | Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document |
JP2015036896A (ja) * | 2013-08-13 | 2015-02-23 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
JP2015088067A (ja) * | 2013-10-31 | 2015-05-07 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
JP2020508518A (ja) * | 2017-02-21 | 2020-03-19 | ソニー・インタラクティブエンタテインメント エルエルシー | ニュースの信憑性を特定する方法 |
JP2021073621A (ja) * | 2017-02-21 | 2021-05-13 | ソニー・インタラクティブエンタテインメント エルエルシー | ニュースの信憑性を特定する方法 |
JP7206304B2 (ja) | 2017-02-21 | 2023-01-17 | ソニー・インタラクティブエンタテインメント エルエルシー | ニュースの信憑性を特定する方法 |
KR102095022B1 (ko) * | 2019-10-02 | 2020-03-30 | 김근수 | 기사 분석을 이용한 주식 자동 매매 방법, 장치 및 프로그램 |
Also Published As
Publication number | Publication date |
---|---|
JP5032645B2 (ja) | 2012-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ehrmann et al. | Starting from a blank page? Semantic similarity in central bank communication and market volatility | |
JP5559352B2 (ja) | 知見抽出装置、知見更新装置、及びプログラム | |
US8788260B2 (en) | Generating snippets based on content features | |
AU2007314123B2 (en) | Email document parsing method and apparatus | |
US10535042B2 (en) | Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet | |
US7689554B2 (en) | System and method for identifying related queries for languages with multiple writing systems | |
CN106462604B (zh) | 识别查询意图 | |
US20120023006A1 (en) | Credit Risk Mining | |
US20090327115A1 (en) | Financial event and relationship extraction | |
JP5032645B2 (ja) | ニュース情報分析装置 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
US10860661B1 (en) | Content-dependent processing of questions and answers | |
Kawamura et al. | Strategic central bank communication: Discourse analysis of the Bank of Japan’s Monthly Report | |
CN115186654B (zh) | 一种公文文本摘要生成方法 | |
CN115238217A (zh) | 一种公告文本中抽取数值信息的方法及终端机 | |
Alam et al. | Comparing named entity recognition on transcriptions and written texts | |
Sharma et al. | Contextual multilingual spellchecker for user queries | |
US10733221B2 (en) | Scalable mining of trending insights from text | |
US7451398B1 (en) | Providing capitalization correction for unstructured excerpts | |
Kelly | News, sentiment and financial markets: A computational system to evaluate the influence of text sentiment on financial assets | |
JP2018120284A (ja) | 決算分析システムおよび決算分析プログラム | |
Borggreve | Effects of annual report sentiment on stock returns | |
Wishart et al. | Topic Modelling Experiments on Hellenistic Corpora. | |
Erasmus et al. | A forward guidance indicator for the South African Reserve Bank: Implementing a text analysis algorithm | |
JP2005063030A (ja) | 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120628 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5032645 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |