JP2012099001A - ニュース情報分析装置 - Google Patents

ニュース情報分析装置 Download PDF

Info

Publication number
JP2012099001A
JP2012099001A JP2010247518A JP2010247518A JP2012099001A JP 2012099001 A JP2012099001 A JP 2012099001A JP 2010247518 A JP2010247518 A JP 2010247518A JP 2010247518 A JP2010247518 A JP 2010247518A JP 2012099001 A JP2012099001 A JP 2012099001A
Authority
JP
Japan
Prior art keywords
news
information
word
importance
news information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010247518A
Other languages
English (en)
Other versions
JP5032645B2 (ja
Inventor
Kyoko Makino
恭子 牧野
Hiroyuki Suzuki
裕之 鈴木
Shigeaki Sakurai
茂明 櫻井
Yoshinori Masaoka
良規 正岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010247518A priority Critical patent/JP5032645B2/ja
Publication of JP2012099001A publication Critical patent/JP2012099001A/ja
Application granted granted Critical
Publication of JP5032645B2 publication Critical patent/JP5032645B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 配信された複数のニュース情報に対して同一性判定を実行すると共に、同一性判定の精度を向上させる。
【解決手段】 実施形態の同一性判定基準は、前記2件のニュース情報に含まれるニュースソース名が互いに一致することと、前記2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値よりも小さいことと、前記2件のニュース情報における2件のタイトルの形態素解析結果内の自立語及び数値情報から算出される類似度が規定値より高いことと、前記類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含む。実施形態の同一性判定手段は、前記同一性判定基準記憶手段内の同一性判定基準を満たすか否かに基づいて、前記メモリ内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する。
【選択図】図1

Description

本発明の実施形態は、ニュース情報分析装置に関する。
従来、インターネット配信ニュースの情報提供優先度(重要度)を決定する技術として、ニュースの新しさや関連ニュースの多さを利用する技術がある。この技術では、例えば、配信されたニュースと他情報の単語合致数から関連度を求め、ニュースの配信時刻からの経過時間によりニュースの新鮮度を求め、情報提供の優先度を決定している。
また、株価の変動と、株価に影響を与えたニュースとの把握を支援するために、例えば、株価チャートと関連ニュースとを同一画面に表示する技術が知られている。
特開2001−209655号公報 特許第3300256号公報 特開2003−108785号公報
しかしながら、以上のような技術は、通常は特に問題ないが、様々な不都合が生じている。本発明者の検討によれば、この不都合は、配信された複数のニュース情報に対する同一性判定の精度が低いか、又は同一性判定を実行していないことに起因している。なお、本明細書中、「同一性」の語は、適宜、「関連度」、「一致度」又は「類似度」の語に読み替えてもよい。
例えば、情報提供優先度を決定する技術では、単語合致数から関連度を求める際に、配信されたニュースと他情報の配信時間差を考慮していないため、「A社の商品Xリコール」と「A社で商品Y追加リコール」の区別が不充分になる不都合がある。また、配信されたニュースの数値情報と他情報の数値情報との同一性を考慮していないため、情報修正への対応が困難となる不都合もある。
また、株価チャートと関連ニュースとを同一画面で表示する技術では、ニュースの同一性判定が実行されていない。このため、実際の報道内容(報道された事実)に対して同一性をもつ多数のニュースが表示されるため、全体像の把握が困難となる不都合がある。
本発明が解決しようとする課題は、配信された複数のニュース情報に対して同一性判定を実行すると共に、同一性判定の精度を向上し得るニュース情報分析装置を提供することである。
実施形態のニュース情報分析装置は、ニュース配信サイト装置と、ユーザ端末装置との両装置に個別に通信可能である。
実施形態のニュース配信サイト装置は、日本語により記述されたタイトルを含むニュースデータがニュースソースのニュースソース装置から配信されると、前記配信された日時又はニュース配信サイトに掲載された日時を示す配信日時と、前記ニュース配信サイトを示す配信サイト名と、前記ニュースソースを示すニュースソース名と、前記ニュースデータのタイトルと同じタイトル又は当該タイトルの単語を入れ換えたタイトルとを含むニュース情報を送信する、前記ニュース配信サイトのニュース配信サイト装置である。
実施形態のユーザ端末装置は、前記ニュース情報の分析結果が送信される。
実施形態のニュース情報分析装置は、メモリ、評価語辞書記憶手段、同一性判定基準記憶手段、重要度算出手順記憶手段、ニュース受信手段、形態素解析手段、評価結果書込手段、同一性判定手段、重要度算出手段及び分析結果送信手段を備えている。
実施形態の評価語辞書記憶手段は、該当表現と、見出し表現と、大分類と、小分類とを関連付けた評価語辞書を記憶する。
前記該当表現は、前記ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する形態素解析結果の正規表現を示す。
前記見出し表現は、前記該当表現に対応する見出し(一つ又は複数の該当表現の同義、表記揺れをまとめたラベル)を示す。
前記小分類は、前記見出し表現の意味が企業であること、又は、前向きあるいは後向きであることを示す。
前記大分類は、前記小分類の意味が対象又は評価であることを示す。
実施形態の同一性判定基準記憶手段は、前記送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示す同一性判定基準を記憶する。
実施形態の同一性判定基準は、前記2件のニュース情報に含まれるニュースソース名が互いに一致することと、前記2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値よりも小さいことと、前記2件のニュース情報における2件のタイトルの単語解析結果内の自立語及び数値情報から算出される類似度が規定値より高いことと、前記類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含む。
実施形態の重要度算出手順記憶手段は、重要度算出手順を記憶する。
前記重要度算出手順は、前記同一ニュースであると判定されたニュース情報の件数と、前記否と判定された場合に前記単語解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示す。
実施形態のニュース受信手段は、前記ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を前記メモリに書き込む。
実施形態の単語解析手段は、前記メモリ内のID付ニュース情報に含まれるタイトルを単語解析し、得られた単語解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を前記メモリに書き込む。
実施形態の評価結果書込手段は、前記メモリ内の解析結果情報内の単語解析結果から前記該当表現に対応する用語を抽出すると共に、この該当表現に関連する前記大分類及び前記小分類を前記評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を当該解析結果情報のニュースIDに一致するニュースIDに関連付けて前記メモリに書き込む。
実施形態の同一性判定手段は、前記同一性判定基準記憶手段内の同一性判定基準を満たすか否かに基づいて、前記メモリ内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する。
実施形態の重要度算出手段は、前記重要度算出手順記憶手段内の重要度算出手順と、前記同一性判定手段による判定結果とに基づいて、前記最新のID付ニュース情報の重要度を算出する。
実施形態の分析結果送信手段は、前記最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を前記メモリから読出し、当該読出した評価結果と、前記算出した重要度とを含む分析結果を前記ユーザ端末装置に送信する。
第1の実施形態に係るニュース情報分析システムの構成例を示すブロック図である。 同実施形態におけるニュース情報の一例を示す模式図である。 同実施形態における評価語辞書情報の一例を示す模式図である。 同実施形態におけるID付ニュース情報の一例を示す模式図である。 同実施形態における解析結果情報の例を示す模式図である。 同実施形態における解析結果情報の例を示す模式図である。 同実施形態における解析結果情報の例を示す模式図である。 同実施形態における解析結果情報の例を示す模式図である。 同実施形態における評価結果及びニュースIDの例を示す模式図である。 同実施形態における分析結果の一例を示す模式図である。 同実施形態におけるニュース情報分析システムの動作を説明するためのフローチャートである。 同実施形態におけるID付ニュース情報の一例を示す模式図である。 同実施形態における解析結果情報内の形態素解析結果から抽出される自立語を説明するための模式図である。 同実施形態における数値情報と自立語を説明するための模式図である。 第2の実施形態に係るニュース情報分析装置の記憶部に記憶される評価語辞書の一例を示す模式図である。 同実施形態における情報評価部による抽出結果の一例を示す模式図である。 同実施形態における解析結果情報内の形態素解析結果から抽出される自立語を説明するための模式図である。 同実施形態における分析結果の一例を示す模式図である。 第3の実施形態における解析結果情報内の形態素解析結果から抽出される自立語を説明するための模式図である。 第5の実施形態における統計情報の一例を示す模式図である。 第6の実施形態における配信サイト名・ニュースソース名と信頼度とを関連付けて記憶した一例を示す模式図である。
以下、各実施形態について図面を用いて説明する。なお、以下の各装置は、装置毎に、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。また、以下の説明内の登録商標等としては、日経平均(登録商標)及び東証(登録商標)コードがある。
<第1の実施形態>
図1は第1の実施形態に係るニュース情報分析システムの構成例を示すブロック図であり、図2乃至図10は各情報の一例を示す模式図である。このニュース情報分析システムは、図示しないニュース配信サイト装置から配信された複数のニュース情報がニュース情報分析装置10により分析され、ニュース情報の分析結果がユーザ端末装置20に送信される構成となっている。
ニュース配信サイト装置は、日本語により記述されたタイトルを含むニュースデータがニュースソースのニュースソース装置(図示せず)から配信されると、ニュース配信サイトにニュースデータを掲載する機能と、当該ニュースデータに基づくニュース情報をニュース情報分析装置10に送信する機能とをもっている。このニュース情報は、図2に示すように、ニュースデータが配信された日時又はニュース配信サイトに掲載された日時を示す配信日時としてのタイムスタンプと、当該ニュース配信サイトを示す配信サイト名と、当該ニュースソースを示すニュースソース名と、当該ニュースデータのタイトルと同じタイトル又は当該タイトルの単語を入れ換えたタイトル(図中、「ニュース」と表記)とを含んでいる。
一方、ニュース情報分析装置10は、記憶部11、ニュース受信部12、単語解析部13、情報評価部14、同一性判定部15、重要度算出部16、制御部17及び入出力インタフェース18がバス19を介して接続されている。
記憶部(メモリ、評価語辞書記憶手段、同一性判定基準記憶手段及び重要度算出手順記憶手段)11は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成される。記憶部11は、制御部17が実行するプログラム、単語解析部13で使用する単語解析辞書、情報評価部14で使用する評価語辞書、同一性判定部15で使用する同一性判定基準、重要度算出部16で使用する重要度算出手順及びニュース情報などを記憶する。
ここで、評価語辞書は、図3に示すように、ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する形態素解析などの単語解析の結果に係る正規表現を示す「該当表現」と、この「該当表現」に対応するタイトルを示す「見出し表現」と、この「見出し表現」の意味が、一例として企業であること、又は、評価の意味が前向き(ポジティブ)あるいは後向き(ネガティブ)であることを示す「小分類」と、この「小分類」の意味が、一例として対象、又は、評価であることを示す「大分類」とを関連付けた情報、という構成になっている。
補足すると、「大分類」とは、一例として抽出される情報が例えば「対象」であるか「評価」であるかの区別を示す。「小分類」は、一例として抽出される情報の種類を示す。例えば大分類「対象」に対して小分類「企業」「自治体」などが存在し、大分類「評価」に対して小分類「ネガティブ」「ポジティブ」などが存在する。もちろん、「大分類」や「小分類」は、これらの例に限定されず、ユーザのニーズに応じた設定にできるものである。つまり、「小分類」は見出し表現の意味を示すもので、「大分類」は「小分類」の意味すなわち見出し表現の区別を示すものである。
また、「見出し表現」は評価語辞書の該当行が抽出する情報の項目名である。「該当表現」とは、評価語辞書に、単語解析後のニュースのタイトルから抽出すべき該当表現として登録された、単語解析結果の正規表現パターンを指す。この正規表現とは、特定の文字(メタキャラクター)を使った文字列の表現方法である。例えば「^」は行頭、「$」は行末、「.」は任意の一文字、「(|)」は「|」で区切られた表現のいずれか一つを選択、「[]」は内部に並べられた文字のいずれか一つを選択、「¥」は直後の文字をメタキャラクターとして解釈しない、を意味する。
ここまでをまとめると、「大分類」>「小分類」>「見出し表現」>「該当表現」の順で階層を形成し、それぞれ1:n(nは1以上の整数)の関係で定義する。つまり、「大分類」の一つに一つまたは複数の「小分類」が属し、「小分類」の一つに一つまたは複数の「見出し表現」が属し、「見出し表現」の一つに一つまたは複数の「該当表現」が属するものである。
なお、図3の例では該当表現のみ記載しているが、該当表現に加えて、対応する該当表現とマッチしても除外すべき表現として定義する「除外表現」を定義してもよい。また、形態素解析などの単語解析を行わなくても単語の区切りを誤るおそれが少ない場合は、単語解析を行っていない表現の正規表現パターンを「該当表現」としてもよい。
同一性判定基準は、送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示しており、当該2件のニュース情報に含まれるニュースソース名が互いに一致することと、当該2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値(最大の配信時間差)よりも小さいことと、当該2件のニュース情報における2件のタイトルの形態素解析結果から算出される類似度が規定値より高いことと、当該類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含んでいる。
なお、類似度は、例えば、2件のタイトルの形態素解析結果に含まれる自立語の集合全体における当該自立語及び数値情報の個数に対し、当該2件のタイトルの形態素解析結果の両方に含まれる自立語及び数値情報の個数が占める割合である。また、類似度(0以上1以下)の規定値は、0.9程度の高い値が好ましい。また、「2件のタイトルの形態素解析結果から算出される類似度が規定値より高いこと」に代えて、「2件のタイトルの形態素解析結果から抽出される自立語が互いに一致すること」としてもよい。また、同一性判定基準は、同一性判定ルールと読み替えてもよい。
重要度算出手順は、同一ニュースであると判定されたニュース情報の件数と、同一性判定で否と判定された場合(同一ニュースでないと判定された場合)に形態素解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示している。また、重要度算出手順は、重要度判定ルールと読み替えてもよい。
ニュース受信部12は、ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を記憶部11に書き込む機能をもっている。なお、ニュース情報の受信は、配信業者と契約を結び配信を受ける形態でも、一般に検索ロボットもしくはクローラと呼ばれるインターネット検索プログラムにより新規配信されたニュースを発見し入手する形態でもよい。
ここで、ID付ニュース情報は、図4に示すように、ニュース情報における「タイムスタンプ」「配信サイト名」「ニュースソース名」「ニュース」の4項目と、ニュース受信部12が付加した「ニュースID」の項目とを含んでいる。「タイムスタンプ」は、ニュース情報の配信日時情報である。「配信サイト名」は、ニュース情報を本装置10に送信したニュース配信サイト装置に対応するニュース配信サイトの名称である。「ニュースソース名」は、「配信サイト名」の配信サイトにニュースデータを配信した事業者の名称である。「配信サイト名」と「ニュースソース名」とは一致する場合がある。「ニュース」は、配信されたニュース情報のタイトル部分の日本語列である。
単語解析部13は、記憶部11内の単語解析辞書を用い、ID付ニュース情報の単語解析処理を行なう。単語解析処理は例えば一例として、形態素解析技術(公知の技術)を用いる。換言すると、単語解析部13は、記憶部11内のID付ニュース情報に含まれるタイトルを形態素解析し、得られた形態素解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を記憶部11に書き込む形態素解析機能をもっている。
なお、以下では形態素解析技術を一例として説明するが、単語解析部13での処理は、単語解析辞書を用いない、Nグラムなどの形態素解析ではない解析処理を用いて、単語に分解してもよい。つまり、本発明は、形態素解析に限定しない手法によりニュース情報を単語に分割し、単語の比較で類似度を判断するものである。
但し、例えば文字を単位としたNグラムの場合、品詞付けや自立語であるか否かの判定はできない。従って、形態素解析の他の手段で単語解析処理を行なうときは、「自立語」ではなく「単語」が処理対象となり得る。
解析結果情報は、図5乃至図8に形態素解析フリーソフト「茶筌」による解析結果を含む例を示すように、ID付ニュース情報内のニュース(タイトル)が単語に分解されている。「ニュース」列の情報は、図示するように、記号“/”により単語に分解され、“<>”内に品詞情報が付与されている。
情報評価部14は、記憶部11内の解析結果情報内の形態素解析結果から「該当表現」に対応する用語を抽出すると共に、この「該当表現」に関連する「大分類」及び「小分類」を評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を、当該解析結果情報のニュースIDに一致するニュースIDに関連付けて記憶部11に書き込む機能をもっている。
例えば、情報評価部14は、ニュースID“38”を含む解析結果情報内の形態素解析結果から大分類「対象」小分類「企業」の分類が付与された表現「A社<名詞−固有名詞−組織>」、大分類「評価」小分類「ネガティブ」の分類が付与された表現「リコール<名詞−サ変接続>」などを抽出し、図9に示す如き、当該抽出した企業名“A社”、評価“ネガティブ”、評価具体語“リコール”などを含む評価結果を、ニュースID“38”に関連付けて記憶部11に書き込む。なお、項目名「評価具体語」は、項目名「用語」の下位概念の名称である。
同一性判定部15は、記憶部11内の同一性判定基準を満たすか否かに基づいて、記憶部11内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する機能をもっている。
例えば、同一性判定部15は、最新のID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報と、過去に書き込まれたID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報とが一致する割合を示す類似度を算出する。但し、類似度を算出する前に、数値情報の有効数字の桁を四捨五入により合わせておく。この類似度が規定値(例、0.9)より高い場合、同一性判定部15は、ID付ニュース情報内のニュースソース名が一致し、さらに、各ニュースの配信時刻の差が基準値(例、5分)以内ならば、同一ニュースである旨を判定する。なお、類似度が高い旨の確認、ニュースソース名の一致確認、配信時刻の差の確認は、任意の順序で実行可能である。また、類似度が高い旨の確認に代えて、自立語が完全一致する旨を確認してもよい。
重要度算出部16は、記憶部11内の重要度算出手順と、同一性判定部15による判定結果とに基づいて、最新のID付ニュース情報の重要度を算出する重要度算出機能と、最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を記憶部11から読出し、当該読出した評価結果と、算出した重要度とを含む分析結果を入出力インタフェース18によりユーザ端末装置20に送信する分析結果送信機能とをもっている。重要度算出手順は、例えば「過去の同一ニュースの件数を重要度とする」「過去の類似度0.8以上の類似ニュースは、類似度を最新受信ニュースの重要度に加える」などのように、重要度を算出する手順が記述されている。分析結果は、例えば図10に示すように、前述した評価結果からニュースIDを削除したデータに重要度が付加されている。なお、分析結果は、ニュースIDを含んでいてもよい。
制御部17は、記憶部11内のプログラムの実行により、各部12〜16,18を制御する機能をもっている。
入出力インタフェース18は、ユーザ端末装置20に対する通信インタフェースとして用いられる。但し、入出力インタフェース18は、図示しない外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に辞書やデータを入出力してもよい。
ユーザ端末装置20は、ニュース情報分析装置10を利用するユーザが取り扱う端末装置である。ユーザ端末装置20は、各部23〜25を制御する端末制御部21、端末記憶部22、表示部23、入力部24及び通信インタフェース25がバスを介して接続されている。
端末記憶部22は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶装置であり、制御用のプログラムを記憶する。また、端末記憶部22は、端末制御部21による各種処理のワークメモリとしても機能する。
表示部23は、例えば液晶ディスプレイであり、ニュース情報分析装置10から受けた分析結果を表示する機能をもっている。表示部23は、例えば、新規に受信したニュースの配信時刻、配信サイト、ニュースソース、ニュースで話題とされた企業名・業種、ニュースの種類(ポジティブ、ネガティブ、不安定、など)、重要度を表形式でユーザに提示する。
入力部24は、例えばキーボードやマウスであり、ユーザの操作に応じて、ニュース情報分析及びシステム設定にかかる入力を受け付ける。
通信インタフェース25は、ケーブルを介してニュース情報分析装置10と接続され、入力部24により入力を受け付けた指定条件やニュース情報分析装置10の分析結果などをニュース情報分析装置10との間で送受信する。また、通信インタフェース25は外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に記憶する単語解析辞書、評価語辞書、同一性判定基準、重要度算出手順、分析結果を入出力することもできる。
次に、以上のように構成されたニュース情報分析システムの動作について図11のフローチャートを用いて説明する。
始めに、ニュース受信部12は、ニュース配信サイト装置からの配信を受けるか、ニュース配信サイトにアクセスすることにより、例えば図2に示すタイムスタンプ“2010/2/4 9:53”を含む新規のニュース情報を受信すると(ステップS1)、このニュース情報に例えばニュースID“191”を付加し、例えば図12に示すように、得られたID付ニュース情報を記憶部11に書き込む。
単語解析部13は、記憶部11内のID付ニュース情報に含まれる「ニュース」部分を単語解析し(ステップS2)、得られた形態素解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を記憶部11に書き込む。例えば、ニュースID“191”のニュース(タイトル)は、図7に示すニュースID“191”に関連付けられた「形態素解析結果」のデータに示すように解析される。
続いて、情報評価部14は、記憶部11内の解析結果情報内の形態素解析結果から「該当表現」に対応する用語を抽出すると共に、この「該当表現」に関連する「大分類」及び「小分類」を評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を、当該解析結果情報のニュースIDに一致するニュースIDに関連付けて記憶部11に書き込む(ステップS3)。
ステップS3においては、例えば、情報評価部14は、記憶部11内の解析結果情報内の形態素解析結果に対し、図3に示した評価語辞書の各行の該当表現のパターンマッチ処理を実行する。該当表現が解析結果情報内の形態素解析結果とマッチした場合は、その行の「大分類」「小分類」の組み合わせ情報が存在すると判定し、「大分類」「小分類」と合わせ、マッチした表現を記憶する。例えば、ニュースID“191”の形態素解析結果は、図3の評価語辞書の列名を表示する行(つまり、「大分類」、「小分類」、「見出し表現」、「該当表現」を表示する行)を除く1行目の該当表現「[^<>]+<名詞−固有名詞−組織>」が「/A社<名詞−固有名詞−組織>」にマッチし、大分類「対象」小分類「企業」見出し表現「組織名」該当表現「/A社<名詞−固有名詞−組織>」と、ニュースID“191”とが記憶される。ニュースID“188”ではマッチする表現は一つであるが、評価語辞書の複数行で表現がマッチして複数セットの情報が記憶される場合もある。
同一性判定部15は、記憶部11内の同一性判定基準を満たすか否かに基づいて、記憶部11内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する(ステップS4〜S9)。
ステップS4においては、同一性判定部15は、最新のID付ニュース情報との同一性判定を行うため、記憶部11内の過去に書き込まれたID付ニュース情報を1件ずつ抽出する(ステップS4)。ここで、抽出するID付ニュース情報は、例えば「配信日時の差が1日(24時間)以内」のように、設定時間内のものとする。
ステップS5においては、同一性判定部15は、同一性判定対象のID付ニュース情報の有無を確認する(ステップS5)。同一性判定対象のID付ニュース情報がある場合は、当該ID付ニュース情報を1件ずつ取り出し、最新のID付ニュース情報との同一性判定を実行する(ステップS6)。
ステップS7においては、同一性判定部15は、2件のID付ニュース情報内のニュースソース名が一致するか否かを判定し、否の場合にはステップS8,S9の判定を省略してステップS11に移行する。また、例えばニュースID“191”をもつ最新のID付ニュース情報に対し、同一性判定対象が図4に示したニュースID“188”をID付ニュース情報の場合には、同一性判定部15は、ニュースソース名“G新聞”が一致すると判定してステップS8に移行する。
ステップS8においては、同一性判定部15は、2件のID付ニュース情報で配信時刻差(タイムスタンプの時刻差)が同一ニュースと見なす範囲内にあるか否かを判定する。ここで、配信時刻差に基づく判定について、補足的に説明する。
ニュース情報の元となるニュースデータは、ニュースソース装置からニュース配信サイト装置にインターネット経由で配信される。ニュース配信サイト装置は、CPUが配信サイト管理プログラムを実行することにより、配信されたニュースデータを確認し、掲載する価値があるか否かを判断し、掲載する場合には、掲載位置、ニュースのタイトル表現(例、企業名を先頭又は末尾に配置する等)を検討し、ニュースソースの配信日時又は自サイトへの掲載日時を示すタイムスタンプを付与し、掲載する。これにより、同じニュースソースから配信された同一ニュースであっても、ニュース配信サイトによりタイムスタンプやニュースのタイトルが若干異なる場合が生じる。なお、この場合、タイムスタンプの時刻差は、最大でも5分程度である。よって、ステップS8では、2件のID付ニュース情報を同一ニュースと見なすか否かを、当該2件のID付ニュース情報が最大の配信時刻差の範囲内にあるか否かによって判定している。以上が配信時刻差に基づく判定の補足説明である。
ステップS8の判定結果が否の場合、同一性判定部15は、ステップS9の判定を省略してステップS11に移行する。また、例えばニュースID“191”をもつ最新のID付ニュース情報に対し、同一性判定対象が図4に示したニュースID“188”をID付ニュース情報の場合には、同一性判定部15は、両者の配信時刻差(3分)が最大の配信時刻差(例、5分)の範囲内にあると判定してステップS9に移行する。
ステップS9においては、同一性判定部15は、2件のID付ニュース情報の各々の形態素解析結果内の自立語及び数値情報に基づいて類似度を算出し、この類似度が規定値より高いか否かを判定し(ステップS9)、否の場合にはステップS11に移行する。自立語とは、付属語に対して、単独でも文節を構成できる単語を指す。名詞・代名詞・動詞・形容詞・形容動詞・副詞・連体詞・接続詞・感動詞などが自立語に相当する。
図13はニュースID“188”とニュースID“191”を含む解析結果情報内の形態素解析結果から抽出される自立語を説明するための模式図である。ニュースID“191”の形態素解析結果から抽出される自立語は、「商品X<名詞−一般>」「部品Z<名詞−一般>」「改善<名詞−サ変接続>」「先月<名詞−副詞可能>」「分<名詞−接尾−一般>」「生産<名詞−サ変接続>」「電子制御<名詞−一般>」「調整<名詞−サ変接続>」「A社<名詞−固有名詞−組織>」の9種である。
同一性判定対象のニュースID“188”の形態素解析結果から抽出される自立語は、「A社<名詞−固有名詞−組織>」「商品X<名詞−一般>」「部品Z<名詞−一般>」「改善<名詞−サ変接続>」「先月<名詞−副詞可能>」「分<名詞−接尾−一般>」「生産<名詞−サ変接続>」「電子制御<名詞−一般>」「調整<名詞−サ変接続>」の9種である。
2件のID付ニュース情報の形態素解析結果から抽出される自立語は、順番が異なるものの、完全に一致する。また、2件の形態素解析結果は数値情報を含まない。このため、2件の形態素解析結果のうち、一方の形態素解析結果内の自立語及び数値情報と、他方の形態素解析結果内の自立語及び数値情報とが完全に一致する。
よって、同一性判定部15は、ステップS9の判定の結果、ニュースID“191”及びニュースID“188”の各々に対応する形態素解析結果内の自立語及び数値情報の類似度を1.0と算出し、この類似度が規定値より高い旨を判定する。
また、同一性判定部15は、ステップS7〜S9の判定結果が全て肯定的のため、ニュースID“191”を含むID付ニュース情報に対して、ニュースID“188”を含むID付ニュース情報が同一ニュースである旨を判定する。
次に、重要度算出部16は、ニュースID“191”を含む最新のID付ニュース情報に対して同一ニュースが存在する場合、ニュースID“191”の重要度に同一ニュース1件当りの重要度を追加する(ステップS10)。
このステップS10において、重要度の追加は、例えば重要度の初期値を0とし、同一ニュースの存在が判定される毎に、例えば値“1”を加算してもよい。また、重要度の追加は、加算に限らず、重要度の初期値を0以外とし、同一ニュースの存在が判定される毎に、例えば所定値(但し、0と1を除く値)を乗算してもよい。また、重要度の追加は、ステップS9の判定結果を求める毎に実行してもよく、同一性判定部15の同一性判定処理が全ての同一性判定対象に対して終了した後でまとめて実行してもよい。
一方、ステップS7〜S9のいずれかの判定結果が否の場合には、ステップS11に移行する。具体的には、最新のID付ニュース情報が図4のニュースID“38”であり、ステップS2の形態素解析結果が、図5のニュースID“38”に対応するものとなる場合を例に挙げて説明する。
この場合、ステップS3において、ニュースID“38”に対応する形態素解析結果に対し、図3の評価語辞書の第1行目、第2行目、第4行目がマッチし、大分類「対象」小分類「企業」見出し表現「組織名」該当表現「/A社<名詞−固有名詞−組織>」、大分類「評価」小分類「ネガティブ」見出し表現「販売減」該当表現「販売<名詞−一般>/><記号−括弧閉>/A社<名詞−固有名詞−組織>/、<記号−読点>/1月<名詞−副詞可能>/1<名詞−数>/5<名詞−数>/.<名詞−数>/8<名詞−数>/%<名詞−接尾−助数詞>/減<名詞−接尾−一般>」、大分類「評価」小分類「ネガティブ」見出し表現「リコール」該当表現「リコール<名詞−サ変接続>」と、ニュースID“38”とを含む評価結果が記憶部11に書き込まれる。
そして、ステップS4において、図4のニュースID“3”及びニュースID“31”の2件のID付ニュース情報が抽出される。しかる後、ニュースID“38”とニュースID“3”のID付ニュース情報の同一性判定では、ステップS7においてニュースソース名が異なる旨が判定され、ステップS11が実行される。
ステップS11において、重要度算出部16は、ニュースID“38”とニュースID“3”に対応する形態素解析結果から抽出される数値情報、自立語の一致度を算出する。数値情報は、形態素解析結果をそのまま採用してもよく、例えば品詞”<名詞−数>”の連続は一つの数値と読み替えたり、さらに品詞”<名詞−数>”に続く品詞”<名詞−接尾−助数詞>”の単語までを数値と読み替えたりしてもよい。ここでは、品詞”<名詞−数>”の単語連続と、それに続く”<名詞−接尾−助数詞>”の単語までをまとめて数値情報とし、自立語とは区別する。
図14はニュースID“38”と同一性判定対象のニュースのそれぞれから抽出した数値情報と自立語を説明するための模式図である。
ニュースID“38”を含む最新のID付ニュース情報に対する形態素解析結果からは、数値情報「15.8%減」1種、自立語「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「リコール<名詞−サ変接続>」「問題<名詞−ナイ形容詞語幹>」「響く<動詞−自立>」7種が抽出される。
同一性判定対象のニュースID“3”を含む過去のID付ニュース情報に対する形態素解析結果からは、数値情報「15%減<数値情報>」1種、自立語「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」4種が抽出される。
ここで、ニュースID“38”とニュースID“3”に対応する数値情報はそれぞれ「15.8%減」と「15%減」であり、値が一致しない。なお、ステップS11は、別ニュースの処理であるので、必ずしも数値情報の有効数字の桁を合わせなくてもよい。
自立語については、2件の形態素解析結果から抽出される自立語が全部で7種あるのに対して、2件の形態素解析結果の両方から抽出される自立語が4種である。
この場合、数値情報1種と自立語全7種の合計8種の情報のうち一致するものが4種であることに基づき、一致度が50%、類似度が0.5と算出される。
類似度の算出は、さらに「数値情報が含まれ、一致しない場合は類似度0とする」又は「数値情報の一致度と、自立語の一致度の平均を類似度とする」などとして実行してもよい。
重要度算出部16は、例えば、ニュースID“3”に対応する類似度“0.5”をニュースID“38”の重要度に加算する。ニュースID“3”に対応する重要度が設定済の場合、ニュースID“3”に対応する重要度に類似度“0.5”を乗算した値を、ニュースID“38”の重要度に加算するとしてもよい。
同様に、ニュースID“38”とニュースID“31”のID付ニュース情報の同一性判定では、ステップS7においてニュースソース名が異なる旨が判定され、ステップS11が実行される。
ステップS11において、重要度算出部16は、ニュースID“38”とニュースID“31”に対応する形態素解析結果から抽出される数値情報、自立語の一致度を算出する。
図14より、ニュースID“31”に対応する形態素解析結果からは、数値情報「16%減<数値情報>」1種、自立語「米<名詞−固有名詞−国>」「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「販売<名詞−サ変接続>」「リコール<名詞−サ変接続>」「問題<名詞−ナイ形容詞語幹>」「響く<動詞−自立>」7種が抽出される。
ここで、ニュースID“38”とニュースID“31”に対応する数値情報はそれぞれ「15.8%減」と「16%減」であり、値が完全には一致しない。
自立語については、2件の形態素解析結果から抽出された自立語が完全に一致する。数値情報の一致は、完全な一致をもって同一とするだけではなく、有効数字の違いを考慮して一致するか否かを判定してもよい。
例えば、ニュースID“31”に対応する数値情報「16%減」は有効数字が一の位であり、ニュースID“38”に対応する数値情報「15.8%減」は有効数字が小数点第一位である。ニュースID“38”に対応する数値情報の有効数字をニュースID“31”に合わせて一の位とすると「16%減」となり、両者の数値情報が一致する。
数値情報の一致を、有効数字の桁を合わせて判定すると、ニュースID“38”とニュースID“31”に対応する形態素解析結果は、数値情報・自立語とも完全に一致する。
この場合、数値情報1種と自立語全7種の合計8種の情報のうち一致するものが8種であることに基づき、一致度が100%、類似度が1.0と算出される。このように数値情報の有効数字の桁を合わせて類似度を算出する手法は、ステップS9でも同様である。
重要度算出部16は、ニュースID“31”に対応する類似度“1.0”をニュースID“38”の重要度に加える。ニュースID“31”に対応する重要度が設定済の場合、、ニュースID“31”に対応する重要度に類似度“1.0”を乗算した値を、ニュースID“38”の重要度に加算するとしてもよい。
以上のように、全ての同一性判定対象ニュースとの同一性判定が終了し、重要度の算出が完了すると(ステップS12)、重要度算出部16は、最新のID付ニュース情報内のニュースID“38”に一致するニュースID“38”を含む評価結果を記憶部11から読出し、当該読出した評価結果と、算出した重要度とを含む分析結果を入出力インタフェース18によりユーザ端末装置20に送信する(ステップS13)。
図10は分析結果の一例を示す模式図である。分析結果は、例えば、情報評価部14が書き込んだ評価結果、配信時刻、ニュースソース名、配信サイト名、重要度算出部16が算出した重要度を含んでいる。分析結果内の情報の順序はこの例に限らず、任意の順序が適用可能である。
ユーザ端末装置20においては、この分析結果を通信インタフェース25により受けると、当該分析結果を表示部23が表示する。これにより、ユーザ端末装置20は、自装置のユーザに対し、ニュース情報の分析結果を提示することができる。
上述したように本実施形態によれば、ニュース情報の同一性判定基準に数値情報、配信時間差、ニュースソース名を加えることで、同じ話題に関するニュースよりも細かい観点、すなわち、同一のニュースであるか否かを判定することができる。さらに、ニュースのタイトル中の表現から企業名を判定し、ニュースの内容を「ネガティブ」「ポジティブ」「不安定」等に分類して提供することで、株取引を行うユーザの迅速な情報把握を支援することができる。
なお、本実施形態は、分析結果をユーザ端末装置20に限らず、株取引判断を行うアルゴリズムトレードエンジンに送信するように変形してもよく、この場合、アルゴリズムトレードエンジンによる株取引の判断を支援することができる。
また、入出力インタフェース18は、分析結果の送信と共に、ニュースID“38”のニュース(タイトル)やユーザ端末装置20をニュース本文にアクセスさせるリンク情報を配信するようにしてもよい。さらに、入出力インタフェース18は、最新のID付ニュース情報の分析結果を得る毎に当該分析結果を送信してもよく、ユーザが設定した時間間隔毎に新規の分析結果をまとめて送信してもよい。
さらに、本実施形態では、入出力インタフェース18が分析結果をユーザ端末装置20に送信する場合について説明したが、これに限らず、入出力インタフェース18が、ユーザによる送信先の指定に応じて、当該指定された特定企業のユーザ端末装置20に分析結果を送信するようにしてもよく、また、入出力インタフェース18が、ユーザによる送信内容の指定に応じて、指定された評価結果を含み、指定されない評価結果を含まない分析結果を送信するユーザ端末装置20に送信するようにしてもよい。
また、同一性判定部15による自立語比較は、単語解析部13の形態素解析結果をそのまま比較したが、これに限らず、形態素解析結果における動詞・形容詞・形容動詞を原形に変換して比較する処理や、否定の助動詞が続いていた場合には原形に戻す際に否定形の終止形とする処理、などの処理を加えるように変形してもよい。
<第2の実施形態>
次に、第2の実施形態について前述した図面を参照しながら説明する。
第2の実施形態は、第1の実施形態の変形例であり、同一性判定部15が抽出した自立語等に基づく類似度算出において、情報評価部14が抽出した用語を考慮した構成となっている。これに伴い、類似度(s)は、2件のタイトルの形態素解析結果から情報評価部14が抽出した用語の集合全体における当該用語の個数(n1)と、当該2件のタイトルの形態素解析結果に含まれる自立語及び数値情報から当該抽出された用語を除いた自立語及び数値情報の集合全体における当該自立語及び数値情報の個数(n2)とを合わせた個数(n3=n1+n2)に対し、当該2件のタイトルの形態素解析結果の両方から抽出された用語の個数(m1)と、当該2件のタイトルの形態素解析結果の両方に含まれる自立語及び数値情報から当該両方から抽出された用語を除いた自立語及び数値情報の個数(m2)とを合わせた個数(m3=m1+m2)が占める割合(s=m3/n3)となっている。
これに加え、第2の実施形態においては、評価語辞書として、図15に示すものを用いている。
具体的には評価語辞書としては、図3の例に示した情報の他に、組織名に相当する表現に対して正式企業名、東証コード、属する業界、属する資本グループを関連付ける辞書を用いている。また、評価語辞書としては、図3の辞書に、「続落」「下落」を「株価下落」、「米国」「アメリカ」を「アメリカ合衆国」、「東京株式市場」「日経平均」を「株式市場」とタイトルを付与する、同義語まとめのための辞書行が加わっている。すなわち、評価語辞書の「該当表現」は、当該該当表現に対応する用語に同義語がある場合には当該同義語を含んでいる。
次に、以上のように構成されたニュース情報分析装置の動作を説明する。
ステップS1〜S2までは前述同様に実行される。
ステップS3において、情報評価部14は、図15に示したような評価語辞書を用いて、記憶部11内の解析結果情報から用語を抽出し、図16に一例を示すように、それぞれ一つのニュースの解析結果を一行で表現する。具体的には、解析結果情報のニュースID及びニュース(タイトル)と、当該解析結果情報から抽出した用語(「対象」、「対象具体語」、「企業名」、「東証コード」、「業界」、「評価」、「評価具体語」、まだ提示されていない「その他の見出し表現」、その他の見出し表現に対応する「その他の具体語」)とを含む抽出結果を記憶部11に書き込む。
ここで、「その他の見出し表現」は、「対象具体語」や「評価具体語」では提示されていない、そのニュースから抽出された「見出し表現」である。そして、「その他の具体語」は、この「その他の見出し表現」と対応する「具体語」、つまりニュース(タイトル)中で「該当表現」にマッチした具体的文字列である。
なお、情報評価部14の抽出結果では、企業名が正式名称に集約される、「日経平均」と「東京株式市場」が「株式市場」に集約されるなど、同義語まとめの効果が得られている。
ステップS4〜S8までは前述同様に実行される。
ステップS9又はS11において、同一性判定部15は、「数値情報」「情報評価部が抽出した見出し表現」「数値情報・情報評価部の抽出対象を除く部分から抽出した自立語」に基づいて類似度を算出する。また、同一性判定部15は、この類似度を算出する前に、企業名と、その企業名の東証コードが同時に現れた場合は、東証コードにあたる数値情報を削除する。図17は、図6の解析結果情報内の形態素解析結果から抽出される自立語・数値情報の例を示している。
図16の情報評価部14の抽出結果を反映すると、ニュースID“183”をもつ解析結果情報内の形態素解析結果から抽出される情報は評価語「A機械(株)」「株式市場」の2種、自立語「小幅<名詞−形容動詞語幹>」「続伸<名詞−サ変接続>」「軟調<名詞−一般>」「継続<名詞−サ変接続>」「上値<名詞−一般>」「重い<形容詞−自立>」の6種である。
ニュースID“185”をもつ解析結果情報内の形態素解析結果から抽出される情報は、評価語「A機械(株)」「株式市場」2種、自立語「寄り付き<名詞−一般>」「小幅<名詞−形容動詞語幹>」「続伸<名詞−サ変接続>」「軟調<名詞−一般>」「継続<名詞−サ変接続>」「上値<名詞−一般>」「重い<形容詞−自立>」の7種である。
数値情報「<1234>」は、A機械(株)の東証コードと一致するので削除する。
この結果、評価語と自立語合計9種のうち8種がどちらのニュースにも表れることとなり、類似度は0.89と算出される。数値情報以外の部分で、情報評価部14が抽出した部分を評価語辞書に登録された見出し表現に置き換えることで、異なる表記・単語で表現された同義語を同一とみなし、同一性判定の精度を向上させることができる。
ステップS10,S12は前述同様に実行される。
ステップS13において、入出力インタフェース18は、図18に示す如き、分析結果をユーザ端末装置20に送信することができる。例えば、情報評価部14で企業名に正式名称情報を付与することで、正式名称による分析結果の送信が可能となる。さらに、正式名称に付与された東証コード、業界名から制御部17が評価語辞書を検索し、検索結果として得られた、企業名に対する東証コード、属する業界の他企業名、属する資本グループの他企業名を含む第1の関連情報を含む分析結果を入出力インタフェース18から送信することもできる。また、ニュースのタイトルに「機械大手」の表現があり、評価語辞書最終行のパターンマッチで大分類「対象」小分類「業界」見出し表現「機械」が抽出された場合に、評価語辞書を制御部17が検索し、検索結果として得られた業界「機械」に分類されている企業名とその東証コードを含む第2の関連情報を含む分析結果を入出力インタフェース18から送信してもよい。なお、第1及び第2の関連情報は、両方を分析結果に含んでもよく、少なくとも一方を分析結果に含まなくてもよい。
上述したように本実施形態によれば、評価語辞書の該当表現が同義語を含む構成により、第1の実施形態の効果に加え、同一性判定の精度をより向上させることができる。
なお、第1及び第2の実施形態では評価語辞書の使い分けに言及していないが、評価語辞書はニュースの分野やユーザが関心のある内容に従い複数用意されたものの中から選択して用いることもできる。
<第3の実施形態>
次に、第3の実施形態について前述した図面を参照しながら説明する。
第3の実施形態は、第1及び第2の各実施形態の変形例であり、数値情報における「1億ドル」「92億円」などの同義性を考慮した構成となっている。
これに伴い、記憶部11には、自国通貨と外国通貨との交換比率を示す為替相場情報が更に記憶されている。
また、同一性判定部15は、前述した機能に加え、2件のタイトルの形態素解析結果が通貨単位、量単位(例えば、kgとポンド、kmとヤード、など国際単位系とヤード・ポンド法、または、mとcmなど国際単位系における接頭辞のあるものと無いもの)を含む数値情報を含み、当該数値情報が為替相場情報に基づく交換比率、または、単位間の対照情報に基づく変換比率、によって同義とみなせる場合には、類似度を算出する前に、当該数値情報のうち、外国通貨の通貨単位や所定の量単位を含む数値情報を自国通貨の通貨単位や所定の前記量単位に対応した他の量単位を含む数値情報に置換する第1の数値情報置換機能を備えている。
次に、以上のように構成されたニュース情報分析装置の動作を説明する。
ステップS1〜S8は、前述同様に実行される。
ステップS9又はS11において、同一性判定部15は、類似度を算出する前に、記憶部11内の為替相場情報を参照して数値情報が表す金額の読み替えを実行する。
例えば、同一性判定部15は、図19に示すように、図4のニュースID“1722”とニュースID“1736”をもつ解析結果情報内の形態素解析結果から自立語を抽出したとする。このとき、ニュースID“1722”に対応する数値情報「1億ドル超」が抽出されており、ニュースID“1736”に対応する数値情報「92億円」が抽出されている。この二つの数値情報は通貨単位が異なるので、そのまま比較はできない。
そこで、同一性判定部15は、ニュース発信時もしくはニュースのタイトルから抽出される数値情報「07年」の為替相場情報を参照して「1億ドル」を「92億円」に換算した後、数値情報「1億ドル」を数値情報「92億円」に置換する。これにより、数値情報の通貨単位を合わせた状態で類似度算出を実行でき、同一性判定の精度をより一層向上させることができる。
ステップS10,S12,S13は、前述同様に実行される。
上述したように本実施形態によれば、為替相場情報に基づいて、数値情報の通貨単位を合わせる構成により、第1及び第2の各実施形態の効果に加え、同一性判定の精度をより一層向上させることができる。
<第4の実施形態>
次に、第4の実施形態について前述した図面を参照しながら説明する。
第4の実施形態は、第1〜第3の各実施形態の変形例であり、数値情報における算出根拠(例えば、季節調整)の有無などの同義性を考慮した構成となっている。
これに伴い、ニュースデータおよびニュース情報は、タイトルに対応するニュース本文を含んでいる。
また、同一性判定部15は、前述した機能に加え、2件のタイトルにそれぞれ対応するニュース本文の少なくとも一方が「季節調整」に代表される数値情報における算出根拠に関する用語(以下、「算出根拠用語」と記す)を含み、当該2件のタイトルの形態素解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含む場合には、類似度を算出する前に、予め定められた算出根拠用語の計算手順に沿って当該数値情報のうちの大きい方の値から算出根拠に係る調整値を算出し、当該大きい方の値を当該調整値に置換する第2の数値情報置換機能を備えている。
なお、上述したように、算出根拠は季節調整には限られず、例えば、「赤字」に関して、本文に「営業赤字」もしくは「経常赤字」の表現と、それに関連する金額情報がある場合があてはまる。
次に、以上のように構成されたニュース情報分析装置の動作を説明する。
ステップS1〜S8は、前述同様に実行される。
ステップS9又はS11において、同一性判定部15は、類似度を算出する前に、ニュース本文を参照し、数値情報の算出根拠による補正を行う。
例えば、図14のニュースID“38”とニュースID“49”に対応する数値情報は「15.8%」と「8.7%」であり、一致しない。すなわち、2件のタイトルの形態素解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含んでいる。また、2件のタイトルに対応するニュース本文中にそれぞれ「前年同月比は8.7%減(算出根拠による調整済み)。」「前年同月比15.8%減」の記載があり、ニュース本文の一方が算出根拠用語を含み、算出根拠に季節調整有無の違いがある。さらに、「総販売台数は9万8796台」は一致している。
従って、同一性判定部15は、予め定められた算出根拠に基づく計算手順に沿って当該数値情報のうちの大きい方の値“15.8%”から調整値“8.7%”を算出し、当該大きい方の値を当該調整値に置換する。これにより、同一性判定の精度をより一層向上させることができる。
なお、数値情報を調整値に置換した上で数値情報が一致しない場合は、別ニュースと扱ってもよい。また、第3及び第4の実施形態の処理を加えても数値情報が一致しないが、評価語・自立語の一致度が規定値(例えば0.8)以上である場合は、同じ話題で修正情報が配信される重要なニュースと判定し、重要度算出部16が重要度に規定の数値を加えるとしてもよい。
ステップS10,S12,S13は、前述同様に実行される。
上述したように本実施形態によれば、ニュース本文の算出根拠用語に基づいて、数値情報の季節調整値を合わせる構成により、第1〜第3の各実施形態の効果に加え、同一性判定の精度をより一層向上させることができる。
<第5の実施形態>
次に、第5の実施形態について前述した図面を参照しながら説明する。
第5の実施形態は、第1〜第4の各実施形態の変形例であり、抽出された用語の頻度が高い場合に重要度を修正する構成となっている。
これに伴い、例えば制御部17は、記憶部11内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、図20に示すように、当該抽出された用語と当該用語の出現頻度とを含む統計情報を記憶部11に書き込む統計情報書込機能、を更に備えている。
また、記憶部11内の重要度算出手順は、当該統計情報が示す出現頻度が基準頻度を超える単語を含むID付ニュース情報の重要度を算出する場合に、当該算出する手順により算出された重要度に対し、当該基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する手順とを含んでいる。なお、統計情報が示す出現頻度が基準頻度を超えるか否かを判定可能な技術としては、例えば、近年、検索サイトなどで「急上昇ワード」が公開されており、出現単語の新しさ、急上昇を判定する技術が公知となっている。
次に、以上のように構成されたニュース情報分析装置の動作を説明する。
ステップS1〜S3は、前述同様に実行される。
ステップS3の後、制御部17は、記憶部11内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、当該抽出された用語と当該用語の出現頻度とを含む統計情報を記憶部11に書き込む。
ステップS4〜S11は、前述同様に実行される。
ステップS12において、重要度算出部16は、最新のID付ニュース情報の重要度を確定する際に、ニュースのタイトルに含まれる単語の重要度に従った情報追加を行う。
重要度算出部16は、記憶部11内の重要度算出手順に基づいて、記憶部11内の統計情報を参照し、統計情報が示す出現頻度が基準頻度を超える単語をID付ニュース情報が含む場合に、当該ID付ニュース情報に対して既に算出された重要度に対し、基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する。
ステップS13は、前述同様に実行される。
上述したように本実施形態によれば、制御部17が統計情報書込機能を備え、記憶部11内の重要度算出手順が、基準頻度を超える単語に基づいて重要度を修正する構成により、第1〜第4の各実施形態の効果に加え、出現頻度の高い単語を含むニュース情報が高い重要度を付加した分析結果をユーザに通知することができる。
なお、重要度算出部16は、基準頻度を超える単語をID付ニュース情報が含む場合、重要度を修正する処理に代えて、基準頻度を超える単語(急上昇単語)を含む旨を通知する情報を分析結果に含めてもよい。急上昇単語の存在をユーザに通知することで、ユーザは株価に新たな変動を与える可能性の高い新しい出来事の発生を容易に認識することができる。
<第6の実施形態>
次に、第6の実施形態について前述した図面を参照しながら説明する。
第6の実施形態は、第1〜第5の各実施形態の変形例であり、配信サイト名及びニュースソース名の各々に対応する信頼度に基づいて重要度を修正する構成となっている。
これに伴い、記憶部11は、前述した記憶内容に加え、図21に示すように、配信サイト名又はニュースソース名と、当該配信サイト名又は当該ニュースソース名に対する信頼度とを関連付けて記憶している。信頼度としては、例えば、配信されるニュースデータやニュース情報の信頼性が高い場合には「1」を設定しておき、配信されるニュースデータ等の信頼性が低い場合は信頼性に応じた1未満の数値を設定しておく。
また、記憶部11内の重要度算出手順は、当該配信サイト名と当該ニュースソース名とを含むニュース情報の重要度を算出する場合に、既に算出された重要度に対し、当該配信サイト名に対応する信頼度と当該ニュースソース名に対応する信頼度とを乗算して当該重要度を修正する手順とを含んでいる。
次に、以上のように構成されたニュース情報分析装置の動作を説明する。
ステップS1〜S11は、前述同様に実行される。
ステップS12において、重要度算出部16は、類似度を元に重要度を算出する際に、同一性判定対象ニュースの配信サイト、ニュースソースの信頼性による調整を行う。
重要度算出部16は、例えば、過去のID付ニュース情報との類似度が0.8であり、最新のID付ニュース情報に対応する配信サイト名がFニュース、ニュースソース名がI新聞である場合には、最新のID付ニュース情報に対する重要度に類似度0.8×配信サイト信頼度0.9×ニュースソース信頼度0.7=0.504を追加する。配信サイト、ニュースソースの信頼度の演算は、乗算に限らず、加算などの別演算を用いてもよい。
ステップS13は、前述同様に実行される。
上述したように本実施形態によれば、配信サイト名及びニュースソース名の各々に対応する信頼度に基づいて重要度を修正する構成により、第1〜第5の各実施形態の効果に加え、配信サイトやニュースソースの信頼性を考慮し、信頼性の低いニュースの影響を低くすることで、適切な重要度を含む分析結果をユーザに提供することができる。
以上説明した少なくとも一つの実施形態によれば、2件のニュース情報に含まれるニュースソース名が互いに一致することと、配信日時の差分が基準値よりも小さいことと、類似度が規定値より高いこととを含む同一性判定基準を満たすか否かに基づいて、最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する構成により、配信された複数のニュース情報に対して同一性判定を実行すると共に、同一性判定の精度を向上させることができる。
補足すると、ニュースの同一性判定に自立語及び数値情報の類似度だけでなく、ニュースソース名の一致、及び配信時間差が小さいことを判定基準に用いることで、例えば「A社の商品Xリコール」と「A社で商品Y追加リコール」とを(ニュースソース名の不一致、又は配信時間差が大きい等によって)区別でき、株取引の判断に有益な新規情報をユーザ端末装置20のユーザに提供することができる。
また、少なくとも一つの実施形態によれば、類似度が数値情報の有効数字の桁を四捨五入により合わせた後に算出される構成により、配信されたニュースの数値情報と他情報の数値情報との同一性を考慮でき、情報修正への対応を容易とすると共に、同一性判定の精度をより向上させることができる。
さらに、少なくとも一つの実施形態によれば、同一性判定を行った後の同一ニュースの件数に基づく重要度を含む分析結果をユーザ端末装置20に送信する構成により、従来とは異なり、ユーザ端末装置20では、同一性をもつ多数のニュースが表示されることにはならず、ユーザによる全体像の把握を容易とすることができる。
なお、上記の各実施形態に記載した手法は、対象をインターネット配信ニュースに限定しない。例えば、インターネットで配信される他の情報や、インターネット外に存在する電子文書を対象とすることも可能である。
また、各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…ニュース情報分析装置、11…記憶部、12…ニュース受信部、13…単語解析部、14…情報評価部、15…同一性判定部、16…重要度算出部、17…制御部、18…入出力インタフェース、19…バス、20…ユーザ端末装置、21…端末制御装置、22…端末記憶部、23…表示部、24…入力部、25…通信インタフェース。

Claims (7)

  1. 日本語により記述されたタイトルを含むニュースデータがニュースソースのニュースソース装置から配信されると、前記配信された日時又はニュース配信サイトに掲載された日時を示す配信日時と、前記ニュース配信サイトを示す配信サイト名と、前記ニュースソースを示すニュースソース名と、前記ニュースデータのタイトルと同じタイトル又は当該タイトルの単語を入れ換えたタイトルとを含むニュース情報を送信する前記ニュース配信サイトのニュース配信サイト装置と、
    前記ニュース情報の分析結果が送信されるユーザ端末装置との両装置に個別に通信可能でメモリを備えたニュース情報分析装置であって、
    前記ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する単語解析結果の正規表現を示す該当表現と、前記該当表現に対応する見出し表現と、前記見出し表現の意味を示す小分類と、前記小分類の意味を示す大分類と、を関連付けた評価語辞書を記憶した評価語辞書記憶手段と、
    前記送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示す同一性判定基準であって、前記2件のニュース情報に含まれるニュースソース名が互いに一致することと、前記2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値よりも小さいことと、前記2件のニュース情報における2件のタイトルの単語解析結果内の自立語及び数値情報から算出される類似度が規定値より高いことと、前記類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含む前記同一性判定基準を記憶する同一性判定基準記憶手段と、
    前記同一ニュースであると判定されたニュース情報の件数と、前記否と判定された場合に前記単語解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示す重要度算出手順を記憶する重要度算出手順記憶手段と、
    前記ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を前記メモリに書き込むニュース受信手段と、
    前記メモリ内のID付ニュース情報に含まれるタイトルを単語解析し、得られた単語解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を前記メモリに書き込む単語解析手段と、
    前記メモリ内の解析結果情報内の単語解析結果から前記該当表現に対応する用語を抽出すると共に、この該当表現に関連する前記大分類及び前記小分類を前記評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を当該解析結果情報のニュースIDに一致するニュースIDに関連付けて前記メモリに書き込む評価結果書込手段と、
    前記同一性判定基準記憶手段内の同一性判定基準を満たすか否かに基づいて、前記メモリ内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する同一性判定手段と、
    前記重要度算出手順記憶手段内の重要度算出手順と、前記同一性判定手段による判定結果とに基づいて、前記最新のID付ニュース情報の重要度を算出する重要度算出手段と、
    前記最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を前記メモリから読出し、当該読出した評価結果と、前記算出した重要度とを含む分析結果を前記ユーザ端末装置に送信する分析結果送信手段と、
    を備えたことを特徴とするニュース情報分析装置。
  2. 請求項1に記載のニュース情報分析装置において、
    前記類似度は、前記2件のタイトルの単語解析結果に含まれる自立語及び数値情報の集合全体における当該自立語及び数値情報の個数に対し、当該2件のタイトルの単語解析結果の両方に含まれる自立語及び数値情報の個数が占める割合であることを特徴とするニュース情報分析装置。
  3. 請求項1に記載のニュース情報分析装置において、
    前記該当表現は、当該該当表現に対応する用語に同義語がある場合には当該同義語を含んでおり、
    前記類似度は、前記2件のタイトルの単語解析結果から前記評価結果書込手段が抽出した用語の集合全体における当該用語の個数と、当該2件のタイトルの単語解析結果に含まれる自立語及び数値情報から当該抽出された用語を除いた自立語及び数値情報の集合全体における当該自立語及び数値情報の個数とを合わせた個数に対し、当該2件のタイトルの単語解析結果の両方から抽出された用語の個数と、当該2件のタイトルの単語解析結果の両方に含まれる自立語及び数値情報から当該両方から抽出された用語を除いた自立語及び数値情報の個数とを合わせた個数が占める割合であることを特徴とするニュース情報分析装置。
  4. 請求項1乃至請求項3のいずれか1項に記載のニュース情報分析装置において、
    自国通貨と外国通貨との交換比率または所定の量単位と前記所定の量単位に対応した量単位の変換比率を記憶した比率情報記憶手段、を更に備え、
    前記同一性判定手段は、
    前記2件のタイトルの単語解析結果が通貨単位または量単位を含む数値情報を含み、当該数値情報が前記交換比率または前記変換比率に基づいて同義とみなせる場合には、前記類似度を算出する前に、当該数値情報のうち、外国通貨の通貨単位や所定の量単位を含む数値情報を自国通貨の通貨単位や前記所定の量単位に対応した他の量単位を含む数値情報に置換する第1の数値情報置換手段、
    を備えたことを特徴とするニュース情報分析装置。
  5. 請求項1乃至請求項4のいずれか1項に記載のニュース情報分析装置において、
    前記ニュースデータおよび前記ニュース情報は前記タイトルに対応するニュース本文を含んでおり、
    前記同一性判定手段は、
    前記2件のタイトルにそれぞれ対応するニュース本文の少なくとも一方が算出根拠用語を含み、当該2件のタイトルの単語解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含む場合には、前記類似度を算出する前に、予め定められた前記算出根拠に基づく計算手順に沿って当該数値情報のうちの大きい方の値から当該算出根拠に係る調整値を算出し、当該大きい方の値を当該調整値に置換する第2の数値情報置換手段、
    を備えたことを特徴とするニュース情報分析装置。
  6. 請求項1乃至請求項5のいずれか1項に記載のニュース情報分析装置において、
    前記メモリ内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、当該抽出された用語と当該用語の出現頻度とを含む統計情報を前記メモリに書き込む統計情報書込手段、を更に備え、
    前記重要度算出手順は、前記統計情報が示す出現頻度が基準頻度を超える単語を含むID付ニュース情報の重要度を算出する場合に、前記算出する手順により算出された重要度に対し、前記基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する手順とを含むことを特徴とするニュース情報分析装置。
  7. 請求項1乃至請求項6のいずれか1項に記載のニュース情報分析装置において、
    前記配信サイト名又は前記ニュースソース名と、当該配信サイト名又は当該ニュースソース名に対応する信頼度とを関連付けて記憶する信頼度記憶手段、を更に備え、
    前記重要度算出手順は、前記配信サイト名と前記ニュースソース名とを含むニュース情報の重要度を算出する場合に、前記算出する手順により算出された重要度に対し、当該配信サイト名に対応する信頼度と当該ニュースソース名に対応する信頼度とを乗算して当該重要度を修正する手順とを含むことを特徴とするニュース情報分析装置。
JP2010247518A 2010-11-04 2010-11-04 ニュース情報分析装置 Expired - Fee Related JP5032645B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010247518A JP5032645B2 (ja) 2010-11-04 2010-11-04 ニュース情報分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010247518A JP5032645B2 (ja) 2010-11-04 2010-11-04 ニュース情報分析装置

Publications (2)

Publication Number Publication Date
JP2012099001A true JP2012099001A (ja) 2012-05-24
JP5032645B2 JP5032645B2 (ja) 2012-09-26

Family

ID=46390820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010247518A Expired - Fee Related JP5032645B2 (ja) 2010-11-04 2010-11-04 ニュース情報分析装置

Country Status (1)

Country Link
JP (1) JP5032645B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013179346A1 (ja) * 2012-05-31 2013-12-05 株式会社 東芝 知見抽出装置、知見更新装置、及びプログラム
JP2015036896A (ja) * 2013-08-13 2015-02-23 Kddi株式会社 マイニング分析装置、方法及びプログラム
JP2015088067A (ja) * 2013-10-31 2015-05-07 Kddi株式会社 マイニング分析装置、方法及びプログラム
JP2020508518A (ja) * 2017-02-21 2020-03-19 ソニー・インタラクティブエンタテインメント エルエルシー ニュースの信憑性を特定する方法
KR102095022B1 (ko) * 2019-10-02 2020-03-30 김근수 기사 분석을 이용한 주식 자동 매매 방법, 장치 및 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007517269A (ja) * 2003-09-16 2007-06-28 グーグル・インク ニュース記事のランク付けを向上させるためのシステムおよび方法
JP2010176665A (ja) * 2009-01-27 2010-08-12 Palo Alto Research Center Inc ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法
JP2010176667A (ja) * 2009-01-27 2010-08-12 Palo Alto Research Center Inc 帯域化されたトピック関連度と記事の優先順位付けのための時間を用いるためのシステム及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007517269A (ja) * 2003-09-16 2007-06-28 グーグル・インク ニュース記事のランク付けを向上させるためのシステムおよび方法
JP2010176665A (ja) * 2009-01-27 2010-08-12 Palo Alto Research Center Inc ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法
JP2010176667A (ja) * 2009-01-27 2010-08-12 Palo Alto Research Center Inc 帯域化されたトピック関連度と記事の優先順位付けのための時間を用いるためのシステム及び方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013179346A1 (ja) * 2012-05-31 2013-12-05 株式会社 東芝 知見抽出装置、知見更新装置、及びプログラム
JP5559352B2 (ja) * 2012-05-31 2014-07-23 株式会社東芝 知見抽出装置、知見更新装置、及びプログラム
US10002122B2 (en) 2012-05-31 2018-06-19 Kabushiki Kaisha Toshiba Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document
JP2015036896A (ja) * 2013-08-13 2015-02-23 Kddi株式会社 マイニング分析装置、方法及びプログラム
JP2015088067A (ja) * 2013-10-31 2015-05-07 Kddi株式会社 マイニング分析装置、方法及びプログラム
JP2020508518A (ja) * 2017-02-21 2020-03-19 ソニー・インタラクティブエンタテインメント エルエルシー ニュースの信憑性を特定する方法
JP2021073621A (ja) * 2017-02-21 2021-05-13 ソニー・インタラクティブエンタテインメント エルエルシー ニュースの信憑性を特定する方法
JP7206304B2 (ja) 2017-02-21 2023-01-17 ソニー・インタラクティブエンタテインメント エルエルシー ニュースの信憑性を特定する方法
KR102095022B1 (ko) * 2019-10-02 2020-03-30 김근수 기사 분석을 이용한 주식 자동 매매 방법, 장치 및 프로그램

Also Published As

Publication number Publication date
JP5032645B2 (ja) 2012-09-26

Similar Documents

Publication Publication Date Title
Ehrmann et al. Starting from a blank page? Semantic similarity in central bank communication and market volatility
JP5559352B2 (ja) 知見抽出装置、知見更新装置、及びプログラム
US8788260B2 (en) Generating snippets based on content features
AU2007314123B2 (en) Email document parsing method and apparatus
US10535042B2 (en) Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet
US7689554B2 (en) System and method for identifying related queries for languages with multiple writing systems
CN106462604B (zh) 识别查询意图
US20120023006A1 (en) Credit Risk Mining
US20090327115A1 (en) Financial event and relationship extraction
JP5032645B2 (ja) ニュース情報分析装置
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
US10860661B1 (en) Content-dependent processing of questions and answers
Kawamura et al. Strategic central bank communication: Discourse analysis of the Bank of Japan’s Monthly Report
CN115186654B (zh) 一种公文文本摘要生成方法
CN115238217A (zh) 一种公告文本中抽取数值信息的方法及终端机
Alam et al. Comparing named entity recognition on transcriptions and written texts
Sharma et al. Contextual multilingual spellchecker for user queries
US10733221B2 (en) Scalable mining of trending insights from text
US7451398B1 (en) Providing capitalization correction for unstructured excerpts
Kelly News, sentiment and financial markets: A computational system to evaluate the influence of text sentiment on financial assets
JP2018120284A (ja) 決算分析システムおよび決算分析プログラム
Borggreve Effects of annual report sentiment on stock returns
Wishart et al. Topic Modelling Experiments on Hellenistic Corpora.
Erasmus et al. A forward guidance indicator for the South African Reserve Bank: Implementing a text analysis algorithm
JP2005063030A (ja) 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120628

R150 Certificate of patent or registration of utility model

Ref document number: 5032645

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees