JP5032645B2 - News information analyzer - Google Patents
News information analyzer Download PDFInfo
- Publication number
- JP5032645B2 JP5032645B2 JP2010247518A JP2010247518A JP5032645B2 JP 5032645 B2 JP5032645 B2 JP 5032645B2 JP 2010247518 A JP2010247518 A JP 2010247518A JP 2010247518 A JP2010247518 A JP 2010247518A JP 5032645 B2 JP5032645 B2 JP 5032645B2
- Authority
- JP
- Japan
- Prior art keywords
- news
- information
- word
- importance
- analysis result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 claims description 212
- 238000011156 evaluation Methods 0.000 claims description 97
- 230000014509 gene expression Effects 0.000 claims description 83
- 238000009826 distribution Methods 0.000 claims description 81
- 238000003860 storage Methods 0.000 claims description 80
- 238000004364 calculation method Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 65
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 description 61
- 238000010586 diagram Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 230000009467 reduction Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 5
- 230000001932 seasonal effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明の実施形態は、ニュース情報分析装置に関する。 Embodiments described herein relate generally to a news information analysis apparatus.
従来、インターネット配信ニュースの情報提供優先度(重要度)を決定する技術として、ニュースの新しさや関連ニュースの多さを利用する技術がある。この技術では、例えば、配信されたニュースと他情報の単語合致数から関連度を求め、ニュースの配信時刻からの経過時間によりニュースの新鮮度を求め、情報提供の優先度を決定している。 2. Description of the Related Art Conventionally, as a technique for determining information provision priority (importance) of Internet distribution news, there is a technique that utilizes the newness of news and the number of related news. In this technology, for example, the degree of association is obtained from the number of word matches between the delivered news and other information, the freshness of the news is obtained from the elapsed time from the news delivery time, and the priority of information provision is determined.
また、株価の変動と、株価に影響を与えたニュースとの把握を支援するために、例えば、株価チャートと関連ニュースとを同一画面に表示する技術が知られている。 In addition, in order to support the grasp of fluctuations in stock prices and news that has affected stock prices, for example, a technique for displaying a stock price chart and related news on the same screen is known.
しかしながら、以上のような技術は、通常は特に問題ないが、様々な不都合が生じている。本発明者の検討によれば、この不都合は、配信された複数のニュース情報に対する同一性判定の精度が低いか、又は同一性判定を実行していないことに起因している。なお、本明細書中、「同一性」の語は、適宜、「関連度」、「一致度」又は「類似度」の語に読み替えてもよい。 However, the techniques as described above are usually not particularly problematic, but have various disadvantages. According to the study of the present inventor, this inconvenience is caused by the low accuracy of identity determination for a plurality of distributed news information, or not performing identity determination. In the present specification, the term “identity” may be appropriately replaced with the terms “relevance”, “match”, or “similarity”.
例えば、情報提供優先度を決定する技術では、単語合致数から関連度を求める際に、配信されたニュースと他情報の配信時間差を考慮していないため、「A社の商品Xリコール」と「A社で商品Y追加リコール」の区別が不充分になる不都合がある。また、配信されたニュースの数値情報と他情報の数値情報との同一性を考慮していないため、情報修正への対応が困難となる不都合もある。 For example, in the technology for determining the information provision priority, when the degree of relevance is calculated from the number of word matches, the difference in distribution time between the distributed news and other information is not taken into consideration. There is an inconvenience that the distinction of “Product Y additional recall at Company A” is insufficient. Moreover, since the sameness between the numerical information of the distributed news and the numerical information of other information is not considered, there is a disadvantage that it is difficult to cope with information correction.
また、株価チャートと関連ニュースとを同一画面で表示する技術では、ニュースの同一性判定が実行されていない。このため、実際の報道内容(報道された事実)に対して同一性をもつ多数のニュースが表示されるため、全体像の把握が困難となる不都合がある。 Further, in the technology for displaying the stock price chart and the related news on the same screen, the news identity determination is not executed. For this reason, since a large number of news items that are identical to the actual contents of the report (reported facts) are displayed, there is a disadvantage that it is difficult to grasp the whole picture.
本発明が解決しようとする課題は、配信された複数のニュース情報に対して同一性判定を実行すると共に、同一性判定の精度を向上し得るニュース情報分析装置を提供することである。 The problem to be solved by the present invention is to provide a news information analysis apparatus capable of performing identity determination on a plurality of distributed news information and improving the accuracy of identity determination.
実施形態のニュース情報分析装置は、ニュース配信サイト装置と、ユーザ端末装置との両装置に個別に通信可能である。 The news information analysis device of the embodiment can communicate with both the news distribution site device and the user terminal device individually.
実施形態のニュース配信サイト装置は、日本語により記述されたタイトルを含むニュースデータがニュースソースのニュースソース装置から配信されると、前記配信された日時又はニュース配信サイトに掲載された日時を示す配信日時と、前記ニュース配信サイトを示す配信サイト名と、前記ニュースソースを示すニュースソース名と、前記ニュースデータのタイトルと同じタイトル又は当該タイトルの単語を入れ換えたタイトルとを含むニュース情報を送信する、前記ニュース配信サイトのニュース配信サイト装置である。 When news data including a title described in Japanese is distributed from a news source device of a news source, the news distribution site device of the embodiment distributes the date and time of the distribution or the date and time when it was posted on the news distribution site. Transmitting news information including a date and time, a distribution site name indicating the news distribution site, a news source name indicating the news source, and a title in which the title of the news data is the same as the title of the news data or the title is replaced. The news distribution site device of the news distribution site.
実施形態のユーザ端末装置は、前記ニュース情報の分析結果が送信される。 The user terminal device according to the embodiment transmits the analysis result of the news information.
実施形態のニュース情報分析装置は、メモリ、評価語辞書記憶手段、同一性判定基準記憶手段、重要度算出手順記憶手段、ニュース受信手段、形態素解析手段、評価結果書込手段、同一性判定手段、重要度算出手段及び分析結果送信手段を備えている。 The news information analysis apparatus of the embodiment includes a memory, an evaluation word dictionary storage unit, an identity determination criterion storage unit, an importance calculation procedure storage unit, a news reception unit, a morpheme analysis unit, an evaluation result writing unit, an identity determination unit, Importance calculation means and analysis result transmission means are provided.
実施形態の評価語辞書記憶手段は、該当表現と、見出し表現と、大分類と、小分類とを関連付けた評価語辞書を記憶する。 The evaluation word dictionary storage means of the embodiment stores an evaluation word dictionary in which the corresponding expression, heading expression, major classification, and minor classification are associated with each other.
前記該当表現は、前記ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する形態素解析結果の正規表現を示す。 The corresponding expression indicates a regular expression of a morphological analysis result for a term including one or more words that may be included in the title of the news information.
前記見出し表現は、前記該当表現に対応する見出し(一つ又は複数の該当表現の同義、表記揺れをまとめたラベル)を示す。 The heading expression indicates a heading corresponding to the corresponding expression (a synonym of one or a plurality of corresponding expressions, a label that summarizes notation fluctuations).
前記小分類は、前記見出し表現の意味が企業であること、又は、前向きあるいは後向きであることを示す。 The minor classification indicates that the meaning of the headline expression is a company, or forward or backward.
前記大分類は、前記小分類の意味が対象又は評価であることを示す。 The major classification indicates that the meaning of the minor classification is object or evaluation.
実施形態の同一性判定基準記憶手段は、前記送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示す同一性判定基準を記憶する。 The identity determination criterion storage means of the embodiment stores an identity determination criterion indicating a criterion for determining whether or not any two pieces of news information in the transmitted news information are the same news.
実施形態の同一性判定基準は、前記2件のニュース情報に含まれるニュースソース名が互いに一致することと、前記2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値よりも小さいことと、前記2件のニュース情報における2件のタイトルの単語解析結果内の自立語及び数値情報から算出される類似度が規定値より高いことと、前記類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含む。 The identity determination criterion of the embodiment is that the news source names included in the two news information matches each other, and the distribution time difference indicating the difference in distribution date / time included in the two news information is more than the reference value. The similarity calculated from the independent words and the numerical information in the word analysis results of the two titles in the two news information is higher than the specified value, and the similarity is a significant number of the numerical information Calculated after rounding to the nearest whole number.
実施形態の重要度算出手順記憶手段は、重要度算出手順を記憶する。 The importance calculation procedure storage unit of the embodiment stores the importance calculation procedure.
前記重要度算出手順は、前記同一ニュースであると判定されたニュース情報の件数と、前記否と判定された場合に前記単語解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示す。 The importance calculation procedure includes calculating the importance of the news information based on the number of news information determined to be the same news and the similarity calculated from the word analysis result when the negative is determined. The procedure for calculating is shown.
実施形態のニュース受信手段は、前記ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を前記メモリに書き込む。 The news receiving means of the embodiment, when receiving news information from the news distribution site device, adds a news ID to the news information and writes the obtained ID-added news information in the memory.
実施形態の単語解析手段は、前記メモリ内のID付ニュース情報に含まれるタイトルを単語解析し、得られた単語解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を前記メモリに書き込む。 The word analysis unit of the embodiment analyzes the title included in the ID-added news information in the memory, adds the obtained word analysis result to the news ID and title of the ID-added news information, and obtains the analysis Result information is written into the memory.
実施形態の評価結果書込手段は、前記メモリ内の解析結果情報内の単語解析結果から前記該当表現に対応する用語を抽出すると共に、この該当表現に関連する前記大分類及び前記小分類を前記評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を当該解析結果情報のニュースIDに一致するニュースIDに関連付けて前記メモリに書き込む。 The evaluation result writing means of the embodiment extracts a term corresponding to the corresponding expression from the word analysis result in the analysis result information in the memory, and the major classification and the minor classification related to the corresponding expression are extracted from the word The evaluation result is extracted from the evaluation word dictionary, and the evaluation result including the extracted term, the large classification, and the small classification is associated with the news ID that matches the news ID of the analysis result information and written into the memory.
実施形態の同一性判定手段は、前記同一性判定基準記憶手段内の同一性判定基準を満たすか否かに基づいて、前記メモリ内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する。 The identity determination unit according to the embodiment includes the latest ID-added news information in the memory and the ID-added news information written in the past based on whether or not the identity determination criterion in the identity determination criterion storage unit is satisfied. Are the same news.
実施形態の重要度算出手段は、前記重要度算出手順記憶手段内の重要度算出手順と、前記同一性判定手段による判定結果とに基づいて、前記最新のID付ニュース情報の重要度を算出する。 The importance calculation unit according to the embodiment calculates the importance of the latest ID-added news information based on the importance calculation procedure in the importance calculation procedure storage unit and the determination result by the identity determination unit. .
実施形態の分析結果送信手段は、前記最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を前記メモリから読出し、当該読出した評価結果と、前記算出した重要度とを含む分析結果を前記ユーザ端末装置に送信する。 The analysis result transmission means of the embodiment reads the evaluation result associated with the news ID that matches the news ID in the latest ID-added news information from the memory, the read evaluation result, and the calculated importance Is sent to the user terminal device.
以下、各実施形態について図面を用いて説明する。なお、以下の各装置は、装置毎に、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。また、以下の説明内の登録商標等としては、日経平均(登録商標)及び東証(登録商標)コードがある。 Each embodiment will be described below with reference to the drawings. Each of the following devices can be implemented for each device with either a hardware configuration or a combination configuration of hardware resources and software. As the software of the combined configuration, a program that is installed in advance on a computer of a corresponding device from a network or a storage medium and that realizes the function of the corresponding device is used. In addition, as registered trademarks in the following description, there are Nikkei 225 (registered trademark) and TSE (registered trademark) codes.
<第1の実施形態>
図1は第1の実施形態に係るニュース情報分析システムの構成例を示すブロック図であり、図2乃至図10は各情報の一例を示す模式図である。このニュース情報分析システムは、図示しないニュース配信サイト装置から配信された複数のニュース情報がニュース情報分析装置10により分析され、ニュース情報の分析結果がユーザ端末装置20に送信される構成となっている。
<First Embodiment>
FIG. 1 is a block diagram illustrating a configuration example of the news information analysis system according to the first embodiment, and FIGS. 2 to 10 are schematic diagrams illustrating an example of each piece of information. The news information analysis system is configured such that a plurality of news information distributed from a news distribution site device (not shown) is analyzed by the news
ニュース配信サイト装置は、日本語により記述されたタイトルを含むニュースデータがニュースソースのニュースソース装置(図示せず)から配信されると、ニュース配信サイトにニュースデータを掲載する機能と、当該ニュースデータに基づくニュース情報をニュース情報分析装置10に送信する機能とをもっている。このニュース情報は、図2に示すように、ニュースデータが配信された日時又はニュース配信サイトに掲載された日時を示す配信日時としてのタイムスタンプと、当該ニュース配信サイトを示す配信サイト名と、当該ニュースソースを示すニュースソース名と、当該ニュースデータのタイトルと同じタイトル又は当該タイトルの単語を入れ換えたタイトル(図中、「ニュース」と表記)とを含んでいる。
The news distribution site device has a function of posting news data on a news distribution site when news data including a title described in Japanese is distributed from a news source device (not shown) of the news source, and the news data And the function of transmitting news information based on the news
一方、ニュース情報分析装置10は、記憶部11、ニュース受信部12、単語解析部13、情報評価部14、同一性判定部15、重要度算出部16、制御部17及び入出力インタフェース18がバス19を介して接続されている。
On the other hand, the news
記憶部(メモリ、評価語辞書記憶手段、同一性判定基準記憶手段及び重要度算出手順記憶手段)11は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成される。記憶部11は、制御部17が実行するプログラム、単語解析部13で使用する単語解析辞書、情報評価部14で使用する評価語辞書、同一性判定部15で使用する同一性判定基準、重要度算出部16で使用する重要度算出手順及びニュース情報などを記憶する。
The storage unit (memory, evaluation word dictionary storage means, identity determination reference storage means, and importance calculation procedure storage means) 11 is configured by hardware such as a hard disk drive or a nonvolatile memory device. The
ここで、評価語辞書は、図3に示すように、ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する形態素解析などの単語解析の結果に係る正規表現を示す「該当表現」と、この「該当表現」に対応するタイトルを示す「見出し表現」と、この「見出し表現」の意味が、一例として企業であること、又は、評価の意味が前向き(ポジティブ)あるいは後向き(ネガティブ)であることを示す「小分類」と、この「小分類」の意味が、一例として対象、又は、評価であることを示す「大分類」とを関連付けた情報、という構成になっている。 Here, as shown in FIG. 3, the evaluation word dictionary indicates a regular expression related to a result of word analysis such as morphological analysis for a term including one or more words that may be included in the title of news information. “Heading expression”, “Heading expression” indicating the title corresponding to this “Heading expression”, and the meaning of this “Heading expression” is, for example, a company, or the meaning of evaluation is positive or positive (Negative) “minor classification”, and the meaning of this “minor classification” is, for example, information that associates the target or “major classification” that indicates evaluation. Yes.
補足すると、「大分類」とは、一例として抽出される情報が例えば「対象」であるか「評価」であるかの区別を示す。「小分類」は、一例として抽出される情報の種類を示す。例えば大分類「対象」に対して小分類「企業」「自治体」などが存在し、大分類「評価」に対して小分類「ネガティブ」「ポジティブ」などが存在する。もちろん、「大分類」や「小分類」は、これらの例に限定されず、ユーザのニーズに応じた設定にできるものである。つまり、「小分類」は見出し表現の意味を示すもので、「大分類」は「小分類」の意味すなわち見出し表現の区別を示すものである。 Supplementally, “major classification” indicates, for example, whether the information extracted as an example is “target” or “evaluation”. “Small classification” indicates the type of information extracted as an example. For example, for the major category “object”, there are minor categories “company” and “local government”, and for the major category “evaluation”, there are minor categories “negative” and “positive”. Of course, the “major classification” and the “small classification” are not limited to these examples, and can be set according to the needs of the user. That is, “minor classification” indicates the meaning of the heading expression, and “major classification” indicates the meaning of “small classification”, that is, the distinction of the heading expression.
また、「見出し表現」は評価語辞書の該当行が抽出する情報の項目名である。「該当表現」とは、評価語辞書に、単語解析後のニュースのタイトルから抽出すべき該当表現として登録された、単語解析結果の正規表現パターンを指す。この正規表現とは、特定の文字(メタキャラクター)を使った文字列の表現方法である。例えば「^」は行頭、「$」は行末、「.」は任意の一文字、「(|)」は「|」で区切られた表現のいずれか一つを選択、「[]」は内部に並べられた文字のいずれか一つを選択、「¥」は直後の文字をメタキャラクターとして解釈しない、を意味する。 “Heading expression” is an item name of information extracted by the corresponding line of the evaluation word dictionary. The “corresponding expression” refers to a regular expression pattern of the word analysis result registered in the evaluation word dictionary as a corresponding expression to be extracted from the news title after word analysis. This regular expression is a method for expressing a character string using a specific character (metacharacter). For example, “^” is the beginning of the line, “$” is the end of the line, “.” Is any single character, “(|)” is one of the expressions delimited by “|”, “[]” is inside Select one of the arranged characters, “¥” means that the next character is not interpreted as a metacharacter.
ここまでをまとめると、「大分類」>「小分類」>「見出し表現」>「該当表現」の順で階層を形成し、それぞれ1:n(nは1以上の整数)の関係で定義する。つまり、「大分類」の一つに一つまたは複数の「小分類」が属し、「小分類」の一つに一つまたは複数の「見出し表現」が属し、「見出し表現」の一つに一つまたは複数の「該当表現」が属するものである。 To summarize, the hierarchy is formed in the order of “major classification”> “minor classification”> “heading expression”> “corresponding expression”, and each is defined by a relationship of 1: n (n is an integer of 1 or more). . That is, one or more “minor categories” belong to one of the “major categories”, one or more “headline expressions” belong to one of the “minor categories”, and one of the “headline expressions” One or more “corresponding expressions” belong to it.
なお、図3の例では該当表現のみ記載しているが、該当表現に加えて、対応する該当表現とマッチしても除外すべき表現として定義する「除外表現」を定義してもよい。また、形態素解析などの単語解析を行わなくても単語の区切りを誤るおそれが少ない場合は、単語解析を行っていない表現の正規表現パターンを「該当表現」としてもよい。 Although only the corresponding expression is described in the example of FIG. 3, in addition to the corresponding expression, an “exclusion expression” that is defined as an expression that should be excluded even if the corresponding corresponding expression is matched may be defined. In addition, when there is little risk of erroneous word division without performing word analysis such as morphological analysis, a regular expression pattern of an expression that is not subjected to word analysis may be set as “corresponding expression”.
同一性判定基準は、送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示しており、当該2件のニュース情報に含まれるニュースソース名が互いに一致することと、当該2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値(最大の配信時間差)よりも小さいことと、当該2件のニュース情報における2件のタイトルの形態素解析結果から算出される類似度が規定値より高いことと、当該類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含んでいる。 The identity determination criterion indicates a criterion for determining whether or not any two pieces of news information in the transmitted news information are the same news, and the news source names included in the two pieces of news information are mutually different. Match, the difference in distribution time indicating the difference in distribution date and time included in the two news information items is smaller than the reference value (maximum distribution time difference), and the morphemes of the two titles in the two news information items This includes that the similarity calculated from the analysis result is higher than a specified value, and that the similarity is calculated after rounding the digits of significant digits of the numerical information.
なお、類似度は、例えば、2件のタイトルの形態素解析結果に含まれる自立語の集合全体における当該自立語及び数値情報の個数に対し、当該2件のタイトルの形態素解析結果の両方に含まれる自立語及び数値情報の個数が占める割合である。また、類似度(0以上1以下)の規定値は、0.9程度の高い値が好ましい。また、「2件のタイトルの形態素解析結果から算出される類似度が規定値より高いこと」に代えて、「2件のタイトルの形態素解析結果から抽出される自立語が互いに一致すること」としてもよい。また、同一性判定基準は、同一性判定ルールと読み替えてもよい。 The similarity is included in both the morphological analysis results of the two titles with respect to the number of independent words and numerical information in the entire set of independent words included in the morphological analysis results of the two titles, for example. It is the ratio of the number of independent words and numerical information. Further, the specified value of the similarity (0 or more and 1 or less) is preferably a high value of about 0.9. Also, instead of “the similarity calculated from the morphological analysis results of the two titles is higher than the specified value”, “the free words extracted from the morphological analysis results of the two titles match each other” Also good. The identity determination criterion may be read as an identity determination rule.
重要度算出手順は、同一ニュースであると判定されたニュース情報の件数と、同一性判定で否と判定された場合(同一ニュースでないと判定された場合)に形態素解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示している。また、重要度算出手順は、重要度判定ルールと読み替えてもよい。 The importance calculation procedure includes the number of news information determined to be the same news, and the similarity calculated from the morphological analysis result when the identity determination determines NO (when it is determined that the news is not the same). The procedure for calculating the importance of the news information based on the above is shown. Further, the importance calculation procedure may be read as the importance determination rule.
ニュース受信部12は、ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を記憶部11に書き込む機能をもっている。なお、ニュース情報の受信は、配信業者と契約を結び配信を受ける形態でも、一般に検索ロボットもしくはクローラと呼ばれるインターネット検索プログラムにより新規配信されたニュースを発見し入手する形態でもよい。
When receiving news information from the news distribution site device, the news receiving unit 12 has a function of adding a news ID to the news information and writing the obtained ID-added news information in the
ここで、ID付ニュース情報は、図4に示すように、ニュース情報における「タイムスタンプ」「配信サイト名」「ニュースソース名」「ニュース」の4項目と、ニュース受信部12が付加した「ニュースID」の項目とを含んでいる。「タイムスタンプ」は、ニュース情報の配信日時情報である。「配信サイト名」は、ニュース情報を本装置10に送信したニュース配信サイト装置に対応するニュース配信サイトの名称である。「ニュースソース名」は、「配信サイト名」の配信サイトにニュースデータを配信した事業者の名称である。「配信サイト名」と「ニュースソース名」とは一致する場合がある。「ニュース」は、配信されたニュース情報のタイトル部分の日本語列である。
Here, as shown in FIG. 4, the ID-added news information includes four items of “time stamp”, “delivery site name”, “news source name”, “news” in the news information, and “news” added by the news receiving unit 12. ID ”item. “Time stamp” is distribution date information of news information. The “distribution site name” is the name of the news distribution site corresponding to the news distribution site apparatus that has transmitted the news information to the
単語解析部13は、記憶部11内の単語解析辞書を用い、ID付ニュース情報の単語解析処理を行なう。単語解析処理は例えば一例として、形態素解析技術(公知の技術)を用いる。換言すると、単語解析部13は、記憶部11内のID付ニュース情報に含まれるタイトルを形態素解析し、得られた形態素解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を記憶部11に書き込む形態素解析機能をもっている。
The
なお、以下では形態素解析技術を一例として説明するが、単語解析部13での処理は、単語解析辞書を用いない、Nグラムなどの形態素解析ではない解析処理を用いて、単語に分解してもよい。つまり、本発明は、形態素解析に限定しない手法によりニュース情報を単語に分割し、単語の比較で類似度を判断するものである。
In the following description, the morphological analysis technique will be described as an example. However, the processing in the
但し、例えば文字を単位としたNグラムの場合、品詞付けや自立語であるか否かの判定はできない。従って、形態素解析の他の手段で単語解析処理を行なうときは、「自立語」ではなく「単語」が処理対象となり得る。 However, for example, in the case of an N-gram with a character as a unit, it is not possible to determine whether it is part-of-speech or independent words. Therefore, when word analysis processing is performed by other means of morphological analysis, “words” can be processed instead of “independent words”.
解析結果情報は、図5乃至図8に形態素解析フリーソフト「茶筌」による解析結果を含む例を示すように、ID付ニュース情報内のニュース(タイトル)が単語に分解されている。「ニュース」列の情報は、図示するように、記号“/”により単語に分解され、“<>”内に品詞情報が付与されている。 The analysis result information includes the news (title) in the ID-added news information broken down into words as shown in FIGS. 5 to 8 in which an example of the analysis result by the morphological analysis free software “tea bowl” is shown. As shown in the figure, the information in the “news” column is broken down into words by the symbol “/”, and part-of-speech information is given in “<>”.
情報評価部14は、記憶部11内の解析結果情報内の形態素解析結果から「該当表現」に対応する用語を抽出すると共に、この「該当表現」に関連する「大分類」及び「小分類」を評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を、当該解析結果情報のニュースIDに一致するニュースIDに関連付けて記憶部11に書き込む機能をもっている。
The
例えば、情報評価部14は、ニュースID“38”を含む解析結果情報内の形態素解析結果から大分類「対象」小分類「企業」の分類が付与された表現「A社<名詞−固有名詞−組織>」、大分類「評価」小分類「ネガティブ」の分類が付与された表現「リコール<名詞−サ変接続>」などを抽出し、図9に示す如き、当該抽出した企業名“A社”、評価“ネガティブ”、評価具体語“リコール”などを含む評価結果を、ニュースID“38”に関連付けて記憶部11に書き込む。なお、項目名「評価具体語」は、項目名「用語」の下位概念の名称である。
For example, the
同一性判定部15は、記憶部11内の同一性判定基準を満たすか否かに基づいて、記憶部11内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する機能をもっている。
Based on whether the identity determination criteria in the
例えば、同一性判定部15は、最新のID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報と、過去に書き込まれたID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報とが一致する割合を示す類似度を算出する。但し、類似度を算出する前に、数値情報の有効数字の桁を四捨五入により合わせておく。この類似度が規定値(例、0.9)より高い場合、同一性判定部15は、ID付ニュース情報内のニュースソース名が一致し、さらに、各ニュースの配信時刻の差が基準値(例、5分)以内ならば、同一ニュースである旨を判定する。なお、類似度が高い旨の確認、ニュースソース名の一致確認、配信時刻の差の確認は、任意の順序で実行可能である。また、類似度が高い旨の確認に代えて、自立語が完全一致する旨を確認してもよい。
For example, the
重要度算出部16は、記憶部11内の重要度算出手順と、同一性判定部15による判定結果とに基づいて、最新のID付ニュース情報の重要度を算出する重要度算出機能と、最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を記憶部11から読出し、当該読出した評価結果と、算出した重要度とを含む分析結果を入出力インタフェース18によりユーザ端末装置20に送信する分析結果送信機能とをもっている。重要度算出手順は、例えば「過去の同一ニュースの件数を重要度とする」「過去の類似度0.8以上の類似ニュースは、類似度を最新受信ニュースの重要度に加える」などのように、重要度を算出する手順が記述されている。分析結果は、例えば図10に示すように、前述した評価結果からニュースIDを削除したデータに重要度が付加されている。なお、分析結果は、ニュースIDを含んでいてもよい。
The
制御部17は、記憶部11内のプログラムの実行により、各部12〜16,18を制御する機能をもっている。
The control unit 17 has a function of controlling the units 12 to 16 and 18 by executing a program in the
入出力インタフェース18は、ユーザ端末装置20に対する通信インタフェースとして用いられる。但し、入出力インタフェース18は、図示しない外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に辞書やデータを入出力してもよい。
The input /
ユーザ端末装置20は、ニュース情報分析装置10を利用するユーザが取り扱う端末装置である。ユーザ端末装置20は、各部23〜25を制御する端末制御部21、端末記憶部22、表示部23、入力部24及び通信インタフェース25がバスを介して接続されている。
The
端末記憶部22は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶装置であり、制御用のプログラムを記憶する。また、端末記憶部22は、端末制御部21による各種処理のワークメモリとしても機能する。 The terminal storage unit 22 is a storage device configured by hardware such as a hard disk drive or a non-volatile memory device, and stores a control program. The terminal storage unit 22 also functions as a work memory for various processes performed by the terminal control unit 21.
表示部23は、例えば液晶ディスプレイであり、ニュース情報分析装置10から受けた分析結果を表示する機能をもっている。表示部23は、例えば、新規に受信したニュースの配信時刻、配信サイト、ニュースソース、ニュースで話題とされた企業名・業種、ニュースの種類(ポジティブ、ネガティブ、不安定、など)、重要度を表形式でユーザに提示する。
The
入力部24は、例えばキーボードやマウスであり、ユーザの操作に応じて、ニュース情報分析及びシステム設定にかかる入力を受け付ける。
The
通信インタフェース25は、ケーブルを介してニュース情報分析装置10と接続され、入力部24により入力を受け付けた指定条件やニュース情報分析装置10の分析結果などをニュース情報分析装置10との間で送受信する。また、通信インタフェース25は外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に記憶する単語解析辞書、評価語辞書、同一性判定基準、重要度算出手順、分析結果を入出力することもできる。
The
次に、以上のように構成されたニュース情報分析システムの動作について図11のフローチャートを用いて説明する。 Next, the operation of the news information analysis system configured as described above will be described using the flowchart of FIG.
始めに、ニュース受信部12は、ニュース配信サイト装置からの配信を受けるか、ニュース配信サイトにアクセスすることにより、例えば図2に示すタイムスタンプ“2010/2/4 9:53”を含む新規のニュース情報を受信すると(ステップS1)、このニュース情報に例えばニュースID“191”を付加し、例えば図12に示すように、得られたID付ニュース情報を記憶部11に書き込む。
First, the news receiving unit 12 receives a distribution from the news distribution site device or accesses the news distribution site, and thereby, for example, includes a new time stamp “2010/2/4 9:53” shown in FIG. When the news information is received (step S1), for example, a news ID “191” is added to the news information, and the obtained news information with ID is written in the
単語解析部13は、記憶部11内のID付ニュース情報に含まれる「ニュース」部分を単語解析し(ステップS2)、得られた形態素解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を記憶部11に書き込む。例えば、ニュースID“191”のニュース(タイトル)は、図7に示すニュースID“191”に関連付けられた「形態素解析結果」のデータに示すように解析される。
The
続いて、情報評価部14は、記憶部11内の解析結果情報内の形態素解析結果から「該当表現」に対応する用語を抽出すると共に、この「該当表現」に関連する「大分類」及び「小分類」を評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を、当該解析結果情報のニュースIDに一致するニュースIDに関連付けて記憶部11に書き込む(ステップS3)。
Subsequently, the
ステップS3においては、例えば、情報評価部14は、記憶部11内の解析結果情報内の形態素解析結果に対し、図3に示した評価語辞書の各行の該当表現のパターンマッチ処理を実行する。該当表現が解析結果情報内の形態素解析結果とマッチした場合は、その行の「大分類」「小分類」の組み合わせ情報が存在すると判定し、「大分類」「小分類」と合わせ、マッチした表現を記憶する。例えば、ニュースID“191”の形態素解析結果は、図3の評価語辞書の列名を表示する行(つまり、「大分類」、「小分類」、「見出し表現」、「該当表現」を表示する行)を除く1行目の該当表現「[^<>]+<名詞−固有名詞−組織>」が「/A社<名詞−固有名詞−組織>」にマッチし、大分類「対象」小分類「企業」見出し表現「組織名」該当表現「/A社<名詞−固有名詞−組織>」と、ニュースID“191”とが記憶される。ニュースID“188”ではマッチする表現は一つであるが、評価語辞書の複数行で表現がマッチして複数セットの情報が記憶される場合もある。
In step S3, for example, the
同一性判定部15は、記憶部11内の同一性判定基準を満たすか否かに基づいて、記憶部11内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する(ステップS4〜S9)。
Based on whether the identity determination criteria in the
ステップS4においては、同一性判定部15は、最新のID付ニュース情報との同一性判定を行うため、記憶部11内の過去に書き込まれたID付ニュース情報を1件ずつ抽出する(ステップS4)。ここで、抽出するID付ニュース情報は、例えば「配信日時の差が1日(24時間)以内」のように、設定時間内のものとする。
In step S4, the
ステップS5においては、同一性判定部15は、同一性判定対象のID付ニュース情報の有無を確認する(ステップS5)。同一性判定対象のID付ニュース情報がある場合は、当該ID付ニュース情報を1件ずつ取り出し、最新のID付ニュース情報との同一性判定を実行する(ステップS6)。
In step S5, the
ステップS7においては、同一性判定部15は、2件のID付ニュース情報内のニュースソース名が一致するか否かを判定し、否の場合にはステップS8,S9の判定を省略してステップS11に移行する。また、例えばニュースID“191”をもつ最新のID付ニュース情報に対し、同一性判定対象が図4に示したニュースID“188”をID付ニュース情報の場合には、同一性判定部15は、ニュースソース名“G新聞”が一致すると判定してステップS8に移行する。
In step S7, the
ステップS8においては、同一性判定部15は、2件のID付ニュース情報で配信時刻差(タイムスタンプの時刻差)が同一ニュースと見なす範囲内にあるか否かを判定する。ここで、配信時刻差に基づく判定について、補足的に説明する。
In step S8, the
ニュース情報の元となるニュースデータは、ニュースソース装置からニュース配信サイト装置にインターネット経由で配信される。ニュース配信サイト装置は、CPUが配信サイト管理プログラムを実行することにより、配信されたニュースデータを確認し、掲載する価値があるか否かを判断し、掲載する場合には、掲載位置、ニュースのタイトル表現(例、企業名を先頭又は末尾に配置する等)を検討し、ニュースソースの配信日時又は自サイトへの掲載日時を示すタイムスタンプを付与し、掲載する。これにより、同じニュースソースから配信された同一ニュースであっても、ニュース配信サイトによりタイムスタンプやニュースのタイトルが若干異なる場合が生じる。なお、この場合、タイムスタンプの時刻差は、最大でも5分程度である。よって、ステップS8では、2件のID付ニュース情報を同一ニュースと見なすか否かを、当該2件のID付ニュース情報が最大の配信時刻差の範囲内にあるか否かによって判定している。以上が配信時刻差に基づく判定の補足説明である。 News data that is the source of news information is distributed from the news source device to the news distribution site device via the Internet. The news distribution site device checks the distributed news data by the CPU executing the distribution site management program, determines whether or not it is worth posting, and if it is to be posted, Consider title expression (eg, place company name at the beginning or end), and add a time stamp indicating the date and time of news source distribution or posting on your site. Thereby, even for the same news distributed from the same news source, the time stamp and the title of the news may be slightly different depending on the news distribution site. In this case, the time difference between the time stamps is about 5 minutes at the maximum. Therefore, in step S8, whether or not two pieces of ID-added news information are regarded as the same news is determined based on whether or not the two pieces of ID-added news information are within the maximum distribution time difference range. . The above is the supplementary explanation of the determination based on the distribution time difference.
ステップS8の判定結果が否の場合、同一性判定部15は、ステップS9の判定を省略してステップS11に移行する。また、例えばニュースID“191”をもつ最新のID付ニュース情報に対し、同一性判定対象が図4に示したニュースID“188”をID付ニュース情報の場合には、同一性判定部15は、両者の配信時刻差(3分)が最大の配信時刻差(例、5分)の範囲内にあると判定してステップS9に移行する。
When the determination result of step S8 is negative, the
ステップS9においては、同一性判定部15は、2件のID付ニュース情報の各々の形態素解析結果内の自立語及び数値情報に基づいて類似度を算出し、この類似度が規定値より高いか否かを判定し(ステップS9)、否の場合にはステップS11に移行する。自立語とは、付属語に対して、単独でも文節を構成できる単語を指す。名詞・代名詞・動詞・形容詞・形容動詞・副詞・連体詞・接続詞・感動詞などが自立語に相当する。
In step S9, the
図13はニュースID“188”とニュースID“191”を含む解析結果情報内の形態素解析結果から抽出される自立語を説明するための模式図である。ニュースID“191”の形態素解析結果から抽出される自立語は、「商品X<名詞−一般>」「部品Z<名詞−一般>」「改善<名詞−サ変接続>」「先月<名詞−副詞可能>」「分<名詞−接尾−一般>」「生産<名詞−サ変接続>」「電子制御<名詞−一般>」「調整<名詞−サ変接続>」「A社<名詞−固有名詞−組織>」の9種である。 FIG. 13 is a schematic diagram for explaining independent words extracted from the morphological analysis results in the analysis result information including the news ID “188” and the news ID “191”. The independent words extracted from the morphological analysis result of the news ID “191” are “product X <noun-general>”, “part Z <noun-general>”, “improvement <noun-sa-change>”, “last month <noun-adverb”. Possible> "" min <noun-suffix-general> "" production <noun-sa-variant connection> "" electronic control <noun-general> "" adjustment <noun-sa-variant connection> "" Company A <noun-proper noun-organization " > ”.
同一性判定対象のニュースID“188”の形態素解析結果から抽出される自立語は、「A社<名詞−固有名詞−組織>」「商品X<名詞−一般>」「部品Z<名詞−一般>」「改善<名詞−サ変接続>」「先月<名詞−副詞可能>」「分<名詞−接尾−一般>」「生産<名詞−サ変接続>」「電子制御<名詞−一般>」「調整<名詞−サ変接続>」の9種である。 The independent words extracted from the morphological analysis result of the news ID “188” as the identity determination target are “Company A <noun-proper noun-organization>” “product X <noun-general>” “part Z <noun-general”. > "Improvement <noun-sa-variant connection>" "Last month <noun-adverb possible>" "Min <noun-suffix-general>" "Production <noun-sa-variant connection>" "Electronic control <noun-general>" Nine types of <noun-sa-variant connection>.
2件のID付ニュース情報の形態素解析結果から抽出される自立語は、順番が異なるものの、完全に一致する。また、2件の形態素解析結果は数値情報を含まない。このため、2件の形態素解析結果のうち、一方の形態素解析結果内の自立語及び数値情報と、他方の形態素解析結果内の自立語及び数値情報とが完全に一致する。 The independent words extracted from the morphological analysis results of the two news information with IDs are completely the same although the order is different. Two morphological analysis results do not include numerical information. For this reason, the independent word and numerical information in one morphological analysis result and the independent word and numerical information in the other morphological analysis result completely match among two morphological analysis results.
よって、同一性判定部15は、ステップS9の判定の結果、ニュースID“191”及びニュースID“188”の各々に対応する形態素解析結果内の自立語及び数値情報の類似度を1.0と算出し、この類似度が規定値より高い旨を判定する。
Therefore, as a result of the determination in step S9, the
また、同一性判定部15は、ステップS7〜S9の判定結果が全て肯定的のため、ニュースID“191”を含むID付ニュース情報に対して、ニュースID“188”を含むID付ニュース情報が同一ニュースである旨を判定する。
In addition, since all the determination results in steps S7 to S9 are positive, the
次に、重要度算出部16は、ニュースID“191”を含む最新のID付ニュース情報に対して同一ニュースが存在する場合、ニュースID“191”の重要度に同一ニュース1件当りの重要度を追加する(ステップS10)。
Next, when the same news exists for the latest ID-added news information including the news ID “191”, the importance
このステップS10において、重要度の追加は、例えば重要度の初期値を0とし、同一ニュースの存在が判定される毎に、例えば値“1”を加算してもよい。また、重要度の追加は、加算に限らず、重要度の初期値を0以外とし、同一ニュースの存在が判定される毎に、例えば所定値(但し、0と1を除く値)を乗算してもよい。また、重要度の追加は、ステップS9の判定結果を求める毎に実行してもよく、同一性判定部15の同一性判定処理が全ての同一性判定対象に対して終了した後でまとめて実行してもよい。
In this step S10, the importance level may be added, for example, by setting the initial value of the importance level to 0, and adding, for example, the value “1” each time the presence of the same news is determined. The addition of importance is not limited to addition, but the initial value of importance is set to a value other than 0, and every time it is determined that the same news exists, for example, a predetermined value (however, a value excluding 0 and 1) is multiplied. May be. Moreover, the addition of the importance may be performed every time the determination result of step S9 is obtained, and is executed collectively after the identity determination processing of the
一方、ステップS7〜S9のいずれかの判定結果が否の場合には、ステップS11に移行する。具体的には、最新のID付ニュース情報が図4のニュースID“38”であり、ステップS2の形態素解析結果が、図5のニュースID“38”に対応するものとなる場合を例に挙げて説明する。 On the other hand, if any of the determination results in steps S7 to S9 is negative, the process proceeds to step S11. Specifically, the latest ID-added news information is the news ID “38” in FIG. 4, and the morphological analysis result in step S2 is an example corresponding to the news ID “38” in FIG. I will explain.
この場合、ステップS3において、ニュースID“38”に対応する形態素解析結果に対し、図3の評価語辞書の第1行目、第2行目、第4行目がマッチし、大分類「対象」小分類「企業」見出し表現「組織名」該当表現「/A社<名詞−固有名詞−組織>」、大分類「評価」小分類「ネガティブ」見出し表現「販売減」該当表現「販売<名詞−一般>/><記号−括弧閉>/A社<名詞−固有名詞−組織>/、<記号−読点>/1月<名詞−副詞可能>/1<名詞−数>/5<名詞−数>/.<名詞−数>/8<名詞−数>/%<名詞−接尾−助数詞>/減<名詞−接尾−一般>」、大分類「評価」小分類「ネガティブ」見出し表現「リコール」該当表現「リコール<名詞−サ変接続>」と、ニュースID“38”とを含む評価結果が記憶部11に書き込まれる。 In this case, in step S3, the first row, the second row, and the fourth row of the evaluation word dictionary in FIG. 3 match the morphological analysis result corresponding to the news ID “38”, and the major classification “target "Small category" Company "heading expression" Organization name "corresponding expression" / A company <noun-proprietary noun-organization> ", Large classification" Evaluation "Small classification" Negative "heading expression" Sales decrease "Corresponding expression" Sales <Noun " -General> /> <symbol-closed parenthesis> / Company A <noun-proper noun-organization> /, <symbol-reading> / 1 month <noun-adverbable> / 1 <noun-number> / 5 <noun- <Number> /. <Noun-number> / 8 <noun-number> /% <noun-suffix-classifier> / decrease <noun-suffix-general>], major classification "evaluation" minor classification "negative" heading expression "recall The evaluation result including the corresponding expression “recall <noun-sa change connection>” and the news ID “38” is stored. It is written to the 11.
そして、ステップS4において、図4のニュースID“3”及びニュースID“31”の2件のID付ニュース情報が抽出される。しかる後、ニュースID“38”とニュースID“3”のID付ニュース情報の同一性判定では、ステップS7においてニュースソース名が異なる旨が判定され、ステップS11が実行される。 Then, in step S4, two pieces of ID-added news information of news ID “3” and news ID “31” in FIG. 4 are extracted. Thereafter, in the identity determination of the news information with ID of the news ID “38” and the news ID “3”, it is determined in step S7 that the news source names are different, and step S11 is executed.
ステップS11において、重要度算出部16は、ニュースID“38”とニュースID“3”に対応する形態素解析結果から抽出される数値情報、自立語の一致度を算出する。数値情報は、形態素解析結果をそのまま採用してもよく、例えば品詞”<名詞−数>”の連続は一つの数値と読み替えたり、さらに品詞”<名詞−数>”に続く品詞”<名詞−接尾−助数詞>”の単語までを数値と読み替えたりしてもよい。ここでは、品詞”<名詞−数>”の単語連続と、それに続く”<名詞−接尾−助数詞>”の単語までをまとめて数値情報とし、自立語とは区別する。
In step S11, the
図14はニュースID“38”と同一性判定対象のニュースのそれぞれから抽出した数値情報と自立語を説明するための模式図である。 FIG. 14 is a schematic diagram for explaining numerical information and independent words extracted from the news ID “38” and the news for identity determination.
ニュースID“38”を含む最新のID付ニュース情報に対する形態素解析結果からは、数値情報「15.8%減」1種、自立語「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「リコール<名詞−サ変接続>」「問題<名詞−ナイ形容詞語幹>」「響く<動詞−自立>」7種が抽出される。 From the morphological analysis result for the latest ID-added news information including the news ID “38”, one kind of numerical information “15.8% reduction”, independent words “US <noun-proper noun-country>” “product sales <noun” -General> "Company A <Noun-Proper Noun-Organization>" January <Noun-Adverb possible> "Recall <Noun-Sabari Connection>" Problem <Noun-Nay adjective stem> "Sounding <Verb- 7 types of “independence>” are extracted.
同一性判定対象のニュースID“3”を含む過去のID付ニュース情報に対する形態素解析結果からは、数値情報「15%減<数値情報>」1種、自立語「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」4種が抽出される。 From the morphological analysis results for past ID-added news information including the news ID “3” that is the identity determination target, one type of numerical information “15% reduction <numerical information>”, independent word “Company A <noun-proper noun-” “Organization>” “January <noun-adverb possible>” “rice <noun-proper noun-country>” “product sales <noun-general>” are extracted.
ここで、ニュースID“38”とニュースID“3”に対応する数値情報はそれぞれ「15.8%減」と「15%減」であり、値が一致しない。なお、ステップS11は、別ニュースの処理であるので、必ずしも数値情報の有効数字の桁を合わせなくてもよい。 Here, the numerical information corresponding to the news ID “38” and the news ID “3” are “15.8% reduction” and “15% reduction”, respectively, and the values do not match. In addition, since step S11 is a process of another news, it is not always necessary to match the digits of the significant digits of the numerical information.
自立語については、2件の形態素解析結果から抽出される自立語が全部で7種あるのに対して、2件の形態素解析結果の両方から抽出される自立語が4種である。 Regarding independent words, there are seven types of independent words extracted from two morphological analysis results, whereas there are four types of independent words extracted from both two morphological analysis results.
この場合、数値情報1種と自立語全7種の合計8種の情報のうち一致するものが4種であることに基づき、一致度が50%、類似度が0.5と算出される。 In this case, based on the fact that there are 4 types of matching information among a total of 8 types of information of 1 type of numerical information and 7 types of independent words, the degree of coincidence is calculated as 50% and the degree of similarity is calculated as 0.5.
類似度の算出は、さらに「数値情報が含まれ、一致しない場合は類似度0とする」又は「数値情報の一致度と、自立語の一致度の平均を類似度とする」などとして実行してもよい。 The calculation of the similarity is further executed as “the similarity is 0 when the numerical information is included and does not match” or “the similarity between the numerical information and the average of the independence words is the similarity”. May be.
重要度算出部16は、例えば、ニュースID“3”に対応する類似度“0.5”をニュースID“38”の重要度に加算する。ニュースID“3”に対応する重要度が設定済の場合、ニュースID“3”に対応する重要度に類似度“0.5”を乗算した値を、ニュースID“38”の重要度に加算するとしてもよい。
For example, the
同様に、ニュースID“38”とニュースID“31”のID付ニュース情報の同一性判定では、ステップS7においてニュースソース名が異なる旨が判定され、ステップS11が実行される。 Similarly, in the identity determination of the news information with ID of the news ID “38” and the news ID “31”, it is determined in step S7 that the news source names are different, and step S11 is executed.
ステップS11において、重要度算出部16は、ニュースID“38”とニュースID“31”に対応する形態素解析結果から抽出される数値情報、自立語の一致度を算出する。
In step S11, the importance
図14より、ニュースID“31”に対応する形態素解析結果からは、数値情報「16%減<数値情報>」1種、自立語「米<名詞−固有名詞−国>」「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「販売<名詞−サ変接続>」「リコール<名詞−サ変接続>」「問題<名詞−ナイ形容詞語幹>」「響く<動詞−自立>」7種が抽出される。 14, from the morphological analysis result corresponding to the news ID “31”, one kind of numerical information “16% reduction <numerical information>”, independent words “US <noun-proper noun-country” ”“ Company A <noun ” -Proper noun-organization "" January <noun-adverb possible> "" sales <noun-sa-variant connection> "" recall <noun-sa-variant connection> "" problem <noun-nai adjective stem> "" sounding <verb- 7 types of “independence>” are extracted.
ここで、ニュースID“38”とニュースID“31”に対応する数値情報はそれぞれ「15.8%減」と「16%減」であり、値が完全には一致しない。 Here, the numerical information corresponding to the news ID “38” and the news ID “31” are “15.8% reduction” and “16% reduction”, respectively, and the values do not completely match.
自立語については、2件の形態素解析結果から抽出された自立語が完全に一致する。数値情報の一致は、完全な一致をもって同一とするだけではなく、有効数字の違いを考慮して一致するか否かを判定してもよい。 For independent words, the independent words extracted from the two morphological analysis results completely match. The matching of the numerical information is not limited to being the same with a perfect match, but may be determined whether or not they match in consideration of a difference in significant digits.
例えば、ニュースID“31”に対応する数値情報「16%減」は有効数字が一の位であり、ニュースID“38”に対応する数値情報「15.8%減」は有効数字が小数点第一位である。ニュースID“38”に対応する数値情報の有効数字をニュースID“31”に合わせて一の位とすると「16%減」となり、両者の数値情報が一致する。 For example, the numerical information “16% decrease” corresponding to the news ID “31” has the first significant digit, and the numerical information “15.8% decrease” corresponding to the news ID “38” has the first significant digit. First place. If the effective number of the numerical information corresponding to the news ID “38” is set to the first place in accordance with the news ID “31”, it is “decreased by 16%”, and the numerical information of the two coincides.
数値情報の一致を、有効数字の桁を合わせて判定すると、ニュースID“38”とニュースID“31”に対応する形態素解析結果は、数値情報・自立語とも完全に一致する。 If the match of the numerical information is determined by combining the digits of significant digits, the morphological analysis result corresponding to the news ID “38” and the news ID “31” completely matches the numerical information / independent words.
この場合、数値情報1種と自立語全7種の合計8種の情報のうち一致するものが8種であることに基づき、一致度が100%、類似度が1.0と算出される。このように数値情報の有効数字の桁を合わせて類似度を算出する手法は、ステップS9でも同様である。 In this case, the degree of coincidence is calculated to be 100% and the degree of similarity is 1.0 based on the fact that there are 8 types of matching information among a total of 8 types of information of 1 type of numerical information and 7 types of independent words. The method of calculating the similarity by combining the significant digits of the numerical information as described above is the same in step S9.
重要度算出部16は、ニュースID“31”に対応する類似度“1.0”をニュースID“38”の重要度に加える。ニュースID“31”に対応する重要度が設定済の場合、、ニュースID“31”に対応する重要度に類似度“1.0”を乗算した値を、ニュースID“38”の重要度に加算するとしてもよい。
The
以上のように、全ての同一性判定対象ニュースとの同一性判定が終了し、重要度の算出が完了すると(ステップS12)、重要度算出部16は、最新のID付ニュース情報内のニュースID“38”に一致するニュースID“38”を含む評価結果を記憶部11から読出し、当該読出した評価結果と、算出した重要度とを含む分析結果を入出力インタフェース18によりユーザ端末装置20に送信する(ステップS13)。
As described above, when the identity determination with all the identity determination target news is completed and the calculation of the importance level is completed (step S12), the importance
図10は分析結果の一例を示す模式図である。分析結果は、例えば、情報評価部14が書き込んだ評価結果、配信時刻、ニュースソース名、配信サイト名、重要度算出部16が算出した重要度を含んでいる。分析結果内の情報の順序はこの例に限らず、任意の順序が適用可能である。
FIG. 10 is a schematic diagram showing an example of the analysis result. The analysis result includes, for example, the evaluation result written by the
ユーザ端末装置20においては、この分析結果を通信インタフェース25により受けると、当該分析結果を表示部23が表示する。これにより、ユーザ端末装置20は、自装置のユーザに対し、ニュース情報の分析結果を提示することができる。
In the
上述したように本実施形態によれば、ニュース情報の同一性判定基準に数値情報、配信時間差、ニュースソース名を加えることで、同じ話題に関するニュースよりも細かい観点、すなわち、同一のニュースであるか否かを判定することができる。さらに、ニュースのタイトル中の表現から企業名を判定し、ニュースの内容を「ネガティブ」「ポジティブ」「不安定」等に分類して提供することで、株取引を行うユーザの迅速な情報把握を支援することができる。 As described above, according to the present embodiment, by adding numerical information, distribution time difference, and news source name to the news information identity determination criterion, it is a more detailed viewpoint than news related to the same topic, that is, whether the news is the same news. It can be determined whether or not. In addition, the company name is determined from the expression in the news title, and the content of the news is classified into “Negative”, “Positive”, “Unstable”, etc., and the information is quickly grasped by the user conducting stock trading. Can help.
なお、本実施形態は、分析結果をユーザ端末装置20に限らず、株取引判断を行うアルゴリズムトレードエンジンに送信するように変形してもよく、この場合、アルゴリズムトレードエンジンによる株取引の判断を支援することができる。
In this embodiment, the analysis result is not limited to the
また、入出力インタフェース18は、分析結果の送信と共に、ニュースID“38”のニュース(タイトル)やユーザ端末装置20をニュース本文にアクセスさせるリンク情報を配信するようにしてもよい。さらに、入出力インタフェース18は、最新のID付ニュース情報の分析結果を得る毎に当該分析結果を送信してもよく、ユーザが設定した時間間隔毎に新規の分析結果をまとめて送信してもよい。
In addition, the input /
さらに、本実施形態では、入出力インタフェース18が分析結果をユーザ端末装置20に送信する場合について説明したが、これに限らず、入出力インタフェース18が、ユーザによる送信先の指定に応じて、当該指定された特定企業のユーザ端末装置20に分析結果を送信するようにしてもよく、また、入出力インタフェース18が、ユーザによる送信内容の指定に応じて、指定された評価結果を含み、指定されない評価結果を含まない分析結果を送信するユーザ端末装置20に送信するようにしてもよい。
Furthermore, in the present embodiment, the case where the input /
また、同一性判定部15による自立語比較は、単語解析部13の形態素解析結果をそのまま比較したが、これに限らず、形態素解析結果における動詞・形容詞・形容動詞を原形に変換して比較する処理や、否定の助動詞が続いていた場合には原形に戻す際に否定形の終止形とする処理、などの処理を加えるように変形してもよい。
Independent word comparison by the
<第2の実施形態>
次に、第2の実施形態について前述した図面を参照しながら説明する。
<Second Embodiment>
Next, a second embodiment will be described with reference to the drawings described above.
第2の実施形態は、第1の実施形態の変形例であり、同一性判定部15が抽出した自立語等に基づく類似度算出において、情報評価部14が抽出した用語を考慮した構成となっている。これに伴い、類似度(s)は、2件のタイトルの形態素解析結果から情報評価部14が抽出した用語の集合全体における当該用語の個数(n1)と、当該2件のタイトルの形態素解析結果に含まれる自立語及び数値情報から当該抽出された用語を除いた自立語及び数値情報の集合全体における当該自立語及び数値情報の個数(n2)とを合わせた個数(n3=n1+n2)に対し、当該2件のタイトルの形態素解析結果の両方から抽出された用語の個数(m1)と、当該2件のタイトルの形態素解析結果の両方に含まれる自立語及び数値情報から当該両方から抽出された用語を除いた自立語及び数値情報の個数(m2)とを合わせた個数(m3=m1+m2)が占める割合(s=m3/n3)となっている。
The second embodiment is a modification of the first embodiment, and has a configuration in which the terms extracted by the
これに加え、第2の実施形態においては、評価語辞書として、図15に示すものを用いている。 In addition, in the second embodiment, the evaluation word dictionary shown in FIG. 15 is used.
具体的には評価語辞書としては、図3の例に示した情報の他に、組織名に相当する表現に対して正式企業名、東証コード、属する業界、属する資本グループを関連付ける辞書を用いている。また、評価語辞書としては、図3の辞書に、「続落」「下落」を「株価下落」、「米国」「アメリカ」を「アメリカ合衆国」、「東京株式市場」「日経平均」を「株式市場」とタイトルを付与する、同義語まとめのための辞書行が加わっている。すなわち、評価語辞書の「該当表現」は、当該該当表現に対応する用語に同義語がある場合には当該同義語を含んでいる。 Specifically, as the evaluation word dictionary, in addition to the information shown in the example of FIG. 3, a dictionary that associates the formal company name, TSE code, the industry to which it belongs, and the capital group to which it belongs to the expression corresponding to the organization name is used. Yes. In addition, as the evaluation word dictionary, in the dictionary of FIG. 3, “continuous fall” “fall” is “stock price drop”, “US” “USA” is “USA”, “Tokyo Stock Market” “Nikkei Average” is “stock market” ”And a dictionary line for synonym summarization. That is, the “corresponding expression” in the evaluation word dictionary includes the synonym when the term corresponding to the corresponding expression has a synonym.
次に、以上のように構成されたニュース情報分析装置の動作を説明する。 Next, the operation of the news information analysis apparatus configured as described above will be described.
ステップS1〜S2までは前述同様に実行される。 Steps S1 to S2 are executed in the same manner as described above.
ステップS3において、情報評価部14は、図15に示したような評価語辞書を用いて、記憶部11内の解析結果情報から用語を抽出し、図16に一例を示すように、それぞれ一つのニュースの解析結果を一行で表現する。具体的には、解析結果情報のニュースID及びニュース(タイトル)と、当該解析結果情報から抽出した用語(「対象」、「対象具体語」、「企業名」、「東証コード」、「業界」、「評価」、「評価具体語」、まだ提示されていない「その他の見出し表現」、その他の見出し表現に対応する「その他の具体語」)とを含む抽出結果を記憶部11に書き込む。
In step S3, the
ここで、「その他の見出し表現」は、「対象具体語」や「評価具体語」では提示されていない、そのニュースから抽出された「見出し表現」である。そして、「その他の具体語」は、この「その他の見出し表現」と対応する「具体語」、つまりニュース(タイトル)中で「該当表現」にマッチした具体的文字列である。 Here, “other headline expressions” are “headline expressions” extracted from the news, which are not presented in “target specific words” or “evaluation specific words”. The “other specific word” is a “specific word” corresponding to this “other headline expression”, that is, a specific character string matching the “corresponding expression” in the news (title).
なお、情報評価部14の抽出結果では、企業名が正式名称に集約される、「日経平均」と「東京株式市場」が「株式市場」に集約されるなど、同義語まとめの効果が得られている。
In addition, the extraction result of the
ステップS4〜S8までは前述同様に実行される。 Steps S4 to S8 are executed in the same manner as described above.
ステップS9又はS11において、同一性判定部15は、「数値情報」「情報評価部が抽出した見出し表現」「数値情報・情報評価部の抽出対象を除く部分から抽出した自立語」に基づいて類似度を算出する。また、同一性判定部15は、この類似度を算出する前に、企業名と、その企業名の東証コードが同時に現れた場合は、東証コードにあたる数値情報を削除する。図17は、図6の解析結果情報内の形態素解析結果から抽出される自立語・数値情報の例を示している。
In step S9 or S11, the
図16の情報評価部14の抽出結果を反映すると、ニュースID“183”をもつ解析結果情報内の形態素解析結果から抽出される情報は評価語「A機械(株)」「株式市場」の2種、自立語「小幅<名詞−形容動詞語幹>」「続伸<名詞−サ変接続>」「軟調<名詞−一般>」「継続<名詞−サ変接続>」「上値<名詞−一般>」「重い<形容詞−自立>」の6種である。
When the extraction result of the
ニュースID“185”をもつ解析結果情報内の形態素解析結果から抽出される情報は、評価語「A機械(株)」「株式市場」2種、自立語「寄り付き<名詞−一般>」「小幅<名詞−形容動詞語幹>」「続伸<名詞−サ変接続>」「軟調<名詞−一般>」「継続<名詞−サ変接続>」「上値<名詞−一般>」「重い<形容詞−自立>」の7種である。 The information extracted from the morphological analysis result in the analysis result information having the news ID “185” is two kinds of evaluation words “A Machine Co., Ltd.” and “stock market”, and the independent words “closeness <noun-general>” “small” <Noun-adjective verb stem> "" Continuous <noun-sa-variant connection> "" Soft tone <noun-general> "" Continuation <noun-sa-variant connection "" "Upper <noun-general>" "Heavy <adjective-independent>" There are seven types.
数値情報「<1234>」は、A機械(株)の東証コードと一致するので削除する。 The numerical information “<1234>” is deleted because it matches the TSE code of A machine Co., Ltd.
この結果、評価語と自立語合計9種のうち8種がどちらのニュースにも表れることとなり、類似度は0.89と算出される。数値情報以外の部分で、情報評価部14が抽出した部分を評価語辞書に登録された見出し表現に置き換えることで、異なる表記・単語で表現された同義語を同一とみなし、同一性判定の精度を向上させることができる。
As a result, 8 kinds out of a total of 9 kinds of evaluation words and independent words appear in both news, and the similarity is calculated as 0.89. By replacing the part extracted by the
ステップS10,S12は前述同様に実行される。 Steps S10 and S12 are executed in the same manner as described above.
ステップS13において、入出力インタフェース18は、図18に示す如き、分析結果をユーザ端末装置20に送信することができる。例えば、情報評価部14で企業名に正式名称情報を付与することで、正式名称による分析結果の送信が可能となる。さらに、正式名称に付与された東証コード、業界名から制御部17が評価語辞書を検索し、検索結果として得られた、企業名に対する東証コード、属する業界の他企業名、属する資本グループの他企業名を含む第1の関連情報を含む分析結果を入出力インタフェース18から送信することもできる。また、ニュースのタイトルに「機械大手」の表現があり、評価語辞書最終行のパターンマッチで大分類「対象」小分類「業界」見出し表現「機械」が抽出された場合に、評価語辞書を制御部17が検索し、検索結果として得られた業界「機械」に分類されている企業名とその東証コードを含む第2の関連情報を含む分析結果を入出力インタフェース18から送信してもよい。なお、第1及び第2の関連情報は、両方を分析結果に含んでもよく、少なくとも一方を分析結果に含まなくてもよい。
In step S <b> 13, the input /
上述したように本実施形態によれば、評価語辞書の該当表現が同義語を含む構成により、第1の実施形態の効果に加え、同一性判定の精度をより向上させることができる。 As described above, according to the present embodiment, the accuracy of identity determination can be further improved in addition to the effects of the first embodiment by the configuration in which the corresponding expression in the evaluation word dictionary includes synonyms.
なお、第1及び第2の実施形態では評価語辞書の使い分けに言及していないが、評価語辞書はニュースの分野やユーザが関心のある内容に従い複数用意されたものの中から選択して用いることもできる。 Although the first and second embodiments do not refer to the use of the evaluation word dictionary, the evaluation word dictionary should be selected and used from among a plurality of evaluation word dictionaries according to the news field and the content that the user is interested in. You can also.
<第3の実施形態>
次に、第3の実施形態について前述した図面を参照しながら説明する。
<Third Embodiment>
Next, a third embodiment will be described with reference to the drawings described above.
第3の実施形態は、第1及び第2の各実施形態の変形例であり、数値情報における「1億ドル」「92億円」などの同義性を考慮した構成となっている。 The third embodiment is a modification of each of the first and second embodiments, and has a configuration that considers synonyms such as “$ 100 million” and “9.2 billion yen” in numerical information.
これに伴い、記憶部11には、自国通貨と外国通貨との交換比率を示す為替相場情報が更に記憶されている。
Accordingly, the exchange unit information indicating the exchange ratio between the home currency and the foreign currency is further stored in the
また、同一性判定部15は、前述した機能に加え、2件のタイトルの形態素解析結果が通貨単位、量単位(例えば、kgとポンド、kmとヤード、など国際単位系とヤード・ポンド法、または、mとcmなど国際単位系における接頭辞のあるものと無いもの)を含む数値情報を含み、当該数値情報が為替相場情報に基づく交換比率、または、単位間の対照情報に基づく変換比率、によって同義とみなせる場合には、類似度を算出する前に、当該数値情報のうち、外国通貨の通貨単位や所定の量単位を含む数値情報を自国通貨の通貨単位や所定の前記量単位に対応した他の量単位を含む数値情報に置換する第1の数値情報置換機能を備えている。
Further, in addition to the above-described functions, the
次に、以上のように構成されたニュース情報分析装置の動作を説明する。 Next, the operation of the news information analysis apparatus configured as described above will be described.
ステップS1〜S8は、前述同様に実行される。 Steps S1 to S8 are executed in the same manner as described above.
ステップS9又はS11において、同一性判定部15は、類似度を算出する前に、記憶部11内の為替相場情報を参照して数値情報が表す金額の読み替えを実行する。
In step S9 or S11, the
例えば、同一性判定部15は、図19に示すように、図4のニュースID“1722”とニュースID“1736”をもつ解析結果情報内の形態素解析結果から自立語を抽出したとする。このとき、ニュースID“1722”に対応する数値情報「1億ドル超」が抽出されており、ニュースID“1736”に対応する数値情報「92億円」が抽出されている。この二つの数値情報は通貨単位が異なるので、そのまま比較はできない。
For example, as shown in FIG. 19, it is assumed that the
そこで、同一性判定部15は、ニュース発信時もしくはニュースのタイトルから抽出される数値情報「07年」の為替相場情報を参照して「1億ドル」を「92億円」に換算した後、数値情報「1億ドル」を数値情報「92億円」に置換する。これにより、数値情報の通貨単位を合わせた状態で類似度算出を実行でき、同一性判定の精度をより一層向上させることができる。
Therefore, the
ステップS10,S12,S13は、前述同様に実行される。 Steps S10, S12, and S13 are executed in the same manner as described above.
上述したように本実施形態によれば、為替相場情報に基づいて、数値情報の通貨単位を合わせる構成により、第1及び第2の各実施形態の効果に加え、同一性判定の精度をより一層向上させることができる。 As described above, according to the present embodiment, the accuracy of the identity determination is further improved in addition to the effects of the first and second embodiments by the configuration in which the currency unit of the numerical information is matched based on the exchange rate information. Can be improved.
<第4の実施形態>
次に、第4の実施形態について前述した図面を参照しながら説明する。
<Fourth Embodiment>
Next, a fourth embodiment will be described with reference to the drawings described above.
第4の実施形態は、第1〜第3の各実施形態の変形例であり、数値情報における算出根拠(例えば、季節調整)の有無などの同義性を考慮した構成となっている。 The fourth embodiment is a modification of each of the first to third embodiments, and has a configuration in which synonyms such as the presence or absence of a calculation basis (for example, seasonal adjustment) in numerical information are taken into account.
これに伴い、ニュースデータおよびニュース情報は、タイトルに対応するニュース本文を含んでいる。 Accordingly, the news data and the news information include a news text corresponding to the title.
また、同一性判定部15は、前述した機能に加え、2件のタイトルにそれぞれ対応するニュース本文の少なくとも一方が「季節調整」に代表される数値情報における算出根拠に関する用語(以下、「算出根拠用語」と記す)を含み、当該2件のタイトルの形態素解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含む場合には、類似度を算出する前に、予め定められた算出根拠用語の計算手順に沿って当該数値情報のうちの大きい方の値から算出根拠に係る調整値を算出し、当該大きい方の値を当該調整値に置換する第2の数値情報置換機能を備えている。
Further, in addition to the above-described functions, the
なお、上述したように、算出根拠は季節調整には限られず、例えば、「赤字」に関して、本文に「営業赤字」もしくは「経常赤字」の表現と、それに関連する金額情報がある場合があてはまる。 As described above, the basis of calculation is not limited to seasonal adjustment. For example, regarding “red letter”, there may be a case where there is an expression of “business deficit” or “current account deficit” and monetary information related thereto in the text.
次に、以上のように構成されたニュース情報分析装置の動作を説明する。 Next, the operation of the news information analysis apparatus configured as described above will be described.
ステップS1〜S8は、前述同様に実行される。 Steps S1 to S8 are executed in the same manner as described above.
ステップS9又はS11において、同一性判定部15は、類似度を算出する前に、ニュース本文を参照し、数値情報の算出根拠による補正を行う。
In step S9 or S11, the
例えば、図14のニュースID“38”とニュースID“49”に対応する数値情報は「15.8%」と「8.7%」であり、一致しない。すなわち、2件のタイトルの形態素解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含んでいる。また、2件のタイトルに対応するニュース本文中にそれぞれ「前年同月比は8.7%減(算出根拠による調整済み)。」「前年同月比15.8%減」の記載があり、ニュース本文の一方が算出根拠用語を含み、算出根拠に季節調整有無の違いがある。さらに、「総販売台数は9万8796台」は一致している。 For example, the numerical information corresponding to the news ID “38” and the news ID “49” in FIG. 14 are “15.8%” and “8.7%”, which do not match. That is, the morphological analysis results of the two titles include numerical information of different values in the same unit. In addition, in the news texts corresponding to the two titles, there is a description of “down 8.7% from the same month last year (adjusted based on the calculation basis)” and “down 15.8% from the same month last year”. One of them includes calculation basis terms, and there is a difference in the presence or absence of seasonal adjustment in the calculation basis. Furthermore, “total sales are 98,796 units” agree.
従って、同一性判定部15は、予め定められた算出根拠に基づく計算手順に沿って当該数値情報のうちの大きい方の値“15.8%”から調整値“8.7%”を算出し、当該大きい方の値を当該調整値に置換する。これにより、同一性判定の精度をより一層向上させることができる。
Accordingly, the
なお、数値情報を調整値に置換した上で数値情報が一致しない場合は、別ニュースと扱ってもよい。また、第3及び第4の実施形態の処理を加えても数値情報が一致しないが、評価語・自立語の一致度が規定値(例えば0.8)以上である場合は、同じ話題で修正情報が配信される重要なニュースと判定し、重要度算出部16が重要度に規定の数値を加えるとしてもよい。
If the numerical information does not match after the numerical information is replaced with the adjustment value, it may be treated as another news. In addition, even if the processing of the third and fourth embodiments is added, the numerical information does not match, but when the matching degree of the evaluation word / independent word is a predetermined value (for example, 0.8) or more, it is corrected with the same topic It may be determined that the information is important news to be distributed, and the
ステップS10,S12,S13は、前述同様に実行される。 Steps S10, S12, and S13 are executed in the same manner as described above.
上述したように本実施形態によれば、ニュース本文の算出根拠用語に基づいて、数値情報の季節調整値を合わせる構成により、第1〜第3の各実施形態の効果に加え、同一性判定の精度をより一層向上させることができる。 As described above, according to the present embodiment, in addition to the effects of the first to third embodiments, the identity determination is performed by the configuration in which the seasonal adjustment value of the numerical information is matched based on the calculation basis term of the news body. The accuracy can be further improved.
<第5の実施形態>
次に、第5の実施形態について前述した図面を参照しながら説明する。
<Fifth Embodiment>
Next, a fifth embodiment will be described with reference to the drawings described above.
第5の実施形態は、第1〜第4の各実施形態の変形例であり、抽出された用語の頻度が高い場合に重要度を修正する構成となっている。 The fifth embodiment is a modification of the first to fourth embodiments, and is configured to correct the importance when the frequency of extracted terms is high.
これに伴い、例えば制御部17は、記憶部11内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、図20に示すように、当該抽出された用語と当該用語の出現頻度とを含む統計情報を記憶部11に書き込む統計情報書込機能、を更に備えている。
Accordingly, for example, the control unit 17 extracts the extracted terms as shown in FIG. 20 based on the extracted terms included in the evaluation results in the
また、記憶部11内の重要度算出手順は、当該統計情報が示す出現頻度が基準頻度を超える単語を含むID付ニュース情報の重要度を算出する場合に、当該算出する手順により算出された重要度に対し、当該基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する手順とを含んでいる。なお、統計情報が示す出現頻度が基準頻度を超えるか否かを判定可能な技術としては、例えば、近年、検索サイトなどで「急上昇ワード」が公開されており、出現単語の新しさ、急上昇を判定する技術が公知となっている。
Further, the importance calculation procedure in the
次に、以上のように構成されたニュース情報分析装置の動作を説明する。 Next, the operation of the news information analysis apparatus configured as described above will be described.
ステップS1〜S3は、前述同様に実行される。 Steps S1 to S3 are executed in the same manner as described above.
ステップS3の後、制御部17は、記憶部11内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、当該抽出された用語と当該用語の出現頻度とを含む統計情報を記憶部11に書き込む。
After step S3, the control unit 17 determines the extracted term and the appearance frequency of the term based on the extracted term included in the evaluation result in the
ステップS4〜S11は、前述同様に実行される。 Steps S4 to S11 are executed in the same manner as described above.
ステップS12において、重要度算出部16は、最新のID付ニュース情報の重要度を確定する際に、ニュースのタイトルに含まれる単語の重要度に従った情報追加を行う。
In step S12, the
重要度算出部16は、記憶部11内の重要度算出手順に基づいて、記憶部11内の統計情報を参照し、統計情報が示す出現頻度が基準頻度を超える単語をID付ニュース情報が含む場合に、当該ID付ニュース情報に対して既に算出された重要度に対し、基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する。
The importance
ステップS13は、前述同様に実行される。 Step S13 is executed as described above.
上述したように本実施形態によれば、制御部17が統計情報書込機能を備え、記憶部11内の重要度算出手順が、基準頻度を超える単語に基づいて重要度を修正する構成により、第1〜第4の各実施形態の効果に加え、出現頻度の高い単語を含むニュース情報が高い重要度を付加した分析結果をユーザに通知することができる。
As described above, according to the present embodiment, the control unit 17 has a statistical information writing function, and the importance calculation procedure in the
なお、重要度算出部16は、基準頻度を超える単語をID付ニュース情報が含む場合、重要度を修正する処理に代えて、基準頻度を超える単語(急上昇単語)を含む旨を通知する情報を分析結果に含めてもよい。急上昇単語の存在をユーザに通知することで、ユーザは株価に新たな変動を与える可能性の高い新しい出来事の発生を容易に認識することができる。
In addition, when the news information with ID includes a word exceeding the reference frequency, the
<第6の実施形態>
次に、第6の実施形態について前述した図面を参照しながら説明する。
<Sixth Embodiment>
Next, a sixth embodiment will be described with reference to the drawings described above.
第6の実施形態は、第1〜第5の各実施形態の変形例であり、配信サイト名及びニュースソース名の各々に対応する信頼度に基づいて重要度を修正する構成となっている。 The sixth embodiment is a modification of each of the first to fifth embodiments, and is configured to correct the importance based on the reliability corresponding to each of the distribution site name and the news source name.
これに伴い、記憶部11は、前述した記憶内容に加え、図21に示すように、配信サイト名又はニュースソース名と、当該配信サイト名又は当該ニュースソース名に対する信頼度とを関連付けて記憶している。信頼度としては、例えば、配信されるニュースデータやニュース情報の信頼性が高い場合には「1」を設定しておき、配信されるニュースデータ等の信頼性が低い場合は信頼性に応じた1未満の数値を設定しておく。
Accordingly, in addition to the stored contents described above, the
また、記憶部11内の重要度算出手順は、当該配信サイト名と当該ニュースソース名とを含むニュース情報の重要度を算出する場合に、既に算出された重要度に対し、当該配信サイト名に対応する信頼度と当該ニュースソース名に対応する信頼度とを乗算して当該重要度を修正する手順とを含んでいる。
In addition, the importance level calculation procedure in the
次に、以上のように構成されたニュース情報分析装置の動作を説明する。 Next, the operation of the news information analysis apparatus configured as described above will be described.
ステップS1〜S11は、前述同様に実行される。 Steps S1 to S11 are executed in the same manner as described above.
ステップS12において、重要度算出部16は、類似度を元に重要度を算出する際に、同一性判定対象ニュースの配信サイト、ニュースソースの信頼性による調整を行う。
In step S12, the
重要度算出部16は、例えば、過去のID付ニュース情報との類似度が0.8であり、最新のID付ニュース情報に対応する配信サイト名がFニュース、ニュースソース名がI新聞である場合には、最新のID付ニュース情報に対する重要度に類似度0.8×配信サイト信頼度0.9×ニュースソース信頼度0.7=0.504を追加する。配信サイト、ニュースソースの信頼度の演算は、乗算に限らず、加算などの別演算を用いてもよい。
The importance
ステップS13は、前述同様に実行される。 Step S13 is executed as described above.
上述したように本実施形態によれば、配信サイト名及びニュースソース名の各々に対応する信頼度に基づいて重要度を修正する構成により、第1〜第5の各実施形態の効果に加え、配信サイトやニュースソースの信頼性を考慮し、信頼性の低いニュースの影響を低くすることで、適切な重要度を含む分析結果をユーザに提供することができる。 As described above, according to this embodiment, in addition to the effects of the first to fifth embodiments, the importance is corrected based on the reliability corresponding to each of the distribution site name and the news source name. Considering the reliability of distribution sites and news sources and reducing the impact of news with low reliability, it is possible to provide the user with analysis results including appropriate importance.
以上説明した少なくとも一つの実施形態によれば、2件のニュース情報に含まれるニュースソース名が互いに一致することと、配信日時の差分が基準値よりも小さいことと、類似度が規定値より高いこととを含む同一性判定基準を満たすか否かに基づいて、最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する構成により、配信された複数のニュース情報に対して同一性判定を実行すると共に、同一性判定の精度を向上させることができる。 According to at least one embodiment described above, news source names included in two pieces of news information match each other, the difference in delivery date and time is smaller than a reference value, and the similarity is higher than a specified value. The latest ID-added news information and the ID-added news information written in the past are distributed based on whether or not the identity determination criteria including While performing identity determination with respect to a plurality of news information, the accuracy of identity determination can be improved.
補足すると、ニュースの同一性判定に自立語及び数値情報の類似度だけでなく、ニュースソース名の一致、及び配信時間差が小さいことを判定基準に用いることで、例えば「A社の商品Xリコール」と「A社で商品Y追加リコール」とを(ニュースソース名の不一致、又は配信時間差が大きい等によって)区別でき、株取引の判断に有益な新規情報をユーザ端末装置20のユーザに提供することができる。
Supplementally, not only the similarity of independent words and numerical information but also the match of news source names and the small difference in distribution time are used as criteria for determining the identity of news, for example, “Product X recall of company A” And “Additional recall of product Y at Company A” (for example, due to a mismatch in news source names or a large difference in distribution time), and providing new information useful for the judgment of stock trading to the user of the
また、少なくとも一つの実施形態によれば、類似度が数値情報の有効数字の桁を四捨五入により合わせた後に算出される構成により、配信されたニュースの数値情報と他情報の数値情報との同一性を考慮でき、情報修正への対応を容易とすると共に、同一性判定の精度をより向上させることができる。 In addition, according to at least one embodiment, the similarity is calculated after rounding the significant digits of the numerical information by rounding, so that the numerical information of the distributed news and the numerical information of other information are identical. Therefore, it is possible to easily cope with information correction and to further improve the accuracy of identity determination.
さらに、少なくとも一つの実施形態によれば、同一性判定を行った後の同一ニュースの件数に基づく重要度を含む分析結果をユーザ端末装置20に送信する構成により、従来とは異なり、ユーザ端末装置20では、同一性をもつ多数のニュースが表示されることにはならず、ユーザによる全体像の把握を容易とすることができる。
Furthermore, according to at least one embodiment, unlike the conventional case, the user terminal device is configured to transmit the analysis result including the importance based on the number of the same news after the identity determination to the
なお、上記の各実施形態に記載した手法は、対象をインターネット配信ニュースに限定しない。例えば、インターネットで配信される他の情報や、インターネット外に存在する電子文書を対象とすることも可能である。 In addition, the method described in each said embodiment does not limit an object to Internet delivery news. For example, it is possible to target other information distributed on the Internet or electronic documents existing outside the Internet.
また、各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。 In addition, the method described in each embodiment includes, as programs that can be executed by a computer, a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), an optical disk (CD-ROM, DVD, etc.), a magneto-optical disk (MO). ), And can be distributed in a storage medium such as a semiconductor memory.
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。 In addition, as long as the storage medium can store a program and can be read by a computer, the storage format may be any form.
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。 In addition, an OS (operating system) running on a computer based on an instruction of a program installed in the computer from a storage medium, MW (middleware) such as database management software, network software, and the like realize the above-described embodiment. A part of each process may be executed.
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。 Furthermore, the storage medium in each embodiment is not limited to a medium independent of a computer, but also includes a storage medium in which a program transmitted via a LAN, the Internet, or the like is downloaded and stored or temporarily stored.
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。 Further, the number of storage media is not limited to one, and the case where the processing in each of the above embodiments is executed from a plurality of media is also included in the storage media in the present invention, and the media configuration may be any configuration.
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。 The computer in each embodiment executes each process in each of the above embodiments based on a program stored in a storage medium, and a single device such as a personal computer or a plurality of devices are connected to a network. Any configuration of the system or the like may be used.
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。 In addition, the computer in each embodiment is not limited to a personal computer, and includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and is a generic term for devices and devices that can realize the functions of the present invention by a program. Yes.
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 In addition, although some embodiment of this invention was described, these embodiment is shown as an example and is not intending limiting the range of invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
10…ニュース情報分析装置、11…記憶部、12…ニュース受信部、13…単語解析部、14…情報評価部、15…同一性判定部、16…重要度算出部、17…制御部、18…入出力インタフェース、19…バス、20…ユーザ端末装置、21…端末制御装置、22…端末記憶部、23…表示部、24…入力部、25…通信インタフェース。
DESCRIPTION OF
Claims (7)
前記ニュース情報の分析結果が送信されるユーザ端末装置との両装置に個別に通信可能でメモリを備えたニュース情報分析装置であって、
前記ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する単語解析結果の正規表現を示す該当表現と、前記該当表現に対応する見出し表現と、前記見出し表現の意味を示す小分類と、前記小分類の意味を示す大分類と、を関連付けた評価語辞書を記憶した評価語辞書記憶手段と、
前記送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示す同一性判定基準であって、前記2件のニュース情報に含まれるニュースソース名が互いに一致することと、前記2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値よりも小さいことと、前記2件のニュース情報における2件のタイトルの単語解析結果内の自立語及び数値情報から算出される類似度が規定値より高いことと、前記類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含む前記同一性判定基準を記憶する同一性判定基準記憶手段と、
前記同一ニュースであると判定されたニュース情報の件数と、前記否と判定された場合に前記単語解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示す重要度算出手順を記憶する重要度算出手順記憶手段と、
前記ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を前記メモリに書き込むニュース受信手段と、
前記メモリ内のID付ニュース情報に含まれるタイトルを単語解析し、得られた単語解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を前記メモリに書き込む単語解析手段と、
前記メモリ内の解析結果情報内の単語解析結果から前記該当表現に対応する用語を抽出すると共に、この該当表現に関連する前記大分類及び前記小分類を前記評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を当該解析結果情報のニュースIDに一致するニュースIDに関連付けて前記メモリに書き込む評価結果書込手段と、
前記同一性判定基準記憶手段内の同一性判定基準を満たすか否かに基づいて、前記メモリ内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する同一性判定手段と、
前記重要度算出手順記憶手段内の重要度算出手順と、前記同一性判定手段による判定結果とに基づいて、前記最新のID付ニュース情報の重要度を算出する重要度算出手段と、
前記最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を前記メモリから読出し、当該読出した評価結果と、前記算出した重要度とを含む分析結果を前記ユーザ端末装置に送信する分析結果送信手段と、
を備えたことを特徴とするニュース情報分析装置。 When news data including a title described in Japanese is distributed from a news source device of a news source, a distribution date and time indicating the date and time of distribution or a date and time posted on a news distribution site, and the news distribution site are indicated. A news distribution site device of the news distribution site that transmits news information including a distribution site name, a news source name indicating the news source, and a title that is the same as the title of the news data or a title in which a word of the title is replaced; ,
A news information analysis apparatus comprising a memory that can be individually communicated with both devices with a user terminal device to which the analysis result of the news information is transmitted,
A corresponding expression indicating a regular expression of a word analysis result for a term including one or more words that may be included in the title of the news information, a heading expression corresponding to the corresponding expression, and a meaning of the heading expression An evaluation word dictionary storage means for storing an evaluation word dictionary in which a small classification and a large classification indicating the meaning of the small classification are associated;
An identity determination criterion indicating a criterion for determining whether or not any two pieces of news information in the transmitted news information are the same news, and news source names included in the two pieces of news information are mutually A match, a difference in distribution time indicating a difference in distribution date and time included in the two news information items is smaller than a reference value, and an independent word in the word analysis result of two titles in the two news information items And the similarity criterion calculated from the numerical information is higher than a prescribed value, and the similarity is calculated after rounding the significant digits of the numerical information by rounding off. Identity criteria storage means;
Important showing a procedure for calculating the importance of the news information based on the number of news information determined to be the same news and the similarity calculated from the word analysis result when determined to be no Importance calculation procedure storage means for storing the degree calculation procedure;
When receiving news information from the news distribution site device, news receiving means for adding a news ID to the news information and writing the obtained ID-added news information in the memory;
A word that analyzes the title included in the news information with ID in the memory, adds the obtained word analysis result to the news ID and title of the news information with ID, and writes the obtained analysis result information to the memory Analysis means;
The term corresponding to the corresponding expression is extracted from the word analysis result in the analysis result information in the memory, and the major classification and the minor classification related to the corresponding expression are extracted from the evaluation word dictionary and extracted. An evaluation result writing means for writing an evaluation result including a term, a major classification, and a minor classification in association with a news ID matching the news ID of the analysis result information,
Whether or not the latest ID-added news information in the memory and the ID-added news information written in the past are the same news based on whether or not the identity determination criterion in the identity determination criterion storage means is satisfied. Identity determining means for determining
Importance calculating means for calculating the importance of the latest ID-added news information based on the importance calculating procedure in the importance calculating procedure storage means and the determination result by the identity determining means;
An evaluation result associated with a news ID that matches a news ID in the latest ID-added news information is read from the memory, and an analysis result including the read evaluation result and the calculated importance is displayed on the user terminal device. Analysis result transmission means for transmitting to
A news information analyzing apparatus comprising:
前記類似度は、前記2件のタイトルの単語解析結果に含まれる自立語及び数値情報の集合全体における当該自立語及び数値情報の個数に対し、当該2件のタイトルの単語解析結果の両方に含まれる自立語及び数値情報の個数が占める割合であることを特徴とするニュース情報分析装置。 In the news information analysis device according to claim 1,
The similarity is included in both the word analysis results of the two titles with respect to the number of independent words and numerical information in the whole set of independent words and numerical information included in the word analysis results of the two titles. A news information analyzing apparatus characterized in that it is a ratio occupied by the number of independent words and numerical information.
前記該当表現は、当該該当表現に対応する用語に同義語がある場合には当該同義語を含んでおり、
前記類似度は、前記2件のタイトルの単語解析結果から前記評価結果書込手段が抽出した用語の集合全体における当該用語の個数と、当該2件のタイトルの単語解析結果に含まれる自立語及び数値情報から当該抽出された用語を除いた自立語及び数値情報の集合全体における当該自立語及び数値情報の個数とを合わせた個数に対し、当該2件のタイトルの単語解析結果の両方から抽出された用語の個数と、当該2件のタイトルの単語解析結果の両方に含まれる自立語及び数値情報から当該両方から抽出された用語を除いた自立語及び数値情報の個数とを合わせた個数が占める割合であることを特徴とするニュース情報分析装置。 In the news information analysis device according to claim 1,
The corresponding expression includes the synonym when the term corresponding to the corresponding expression has a synonym,
The similarity is the number of the terms in the entire set of terms extracted by the evaluation result writing means from the word analysis results of the two titles, the independent words included in the word analysis results of the two titles, and Extracted from both the word analysis results of the two titles for the number of independent words excluding the extracted term from the numerical information and the total number of independent words and numerical information in the entire set of numerical information. And the number of independent words and numerical information excluding terms extracted from both words and numerical information included in both word analysis results of the two titles. A news information analyzer characterized by a ratio.
自国通貨と外国通貨との交換比率または所定の量単位と前記所定の量単位に対応した量単位の変換比率を記憶した比率情報記憶手段、を更に備え、
前記同一性判定手段は、
前記2件のタイトルの単語解析結果が通貨単位または量単位を含む数値情報を含み、当該数値情報が前記交換比率または前記変換比率に基づいて同義とみなせる場合には、前記類似度を算出する前に、当該数値情報のうち、外国通貨の通貨単位や所定の量単位を含む数値情報を自国通貨の通貨単位や前記所定の量単位に対応した他の量単位を含む数値情報に置換する第1の数値情報置換手段、
を備えたことを特徴とするニュース情報分析装置。 In the news information analysis device according to any one of claims 1 to 3,
A ratio information storage means for storing a conversion ratio between the home currency and the foreign currency or a conversion unit of a predetermined quantity unit and a quantity unit corresponding to the predetermined quantity unit;
The identity determination means includes
If the word analysis results of the two titles include numerical information including currency units or quantity units, and the numerical information can be regarded as synonymous based on the exchange ratio or the conversion ratio, before calculating the similarity In addition, among the numerical information, the numerical information including the currency unit of the foreign currency and the predetermined amount unit is replaced with the numerical information including the currency unit of the home currency and another amount unit corresponding to the predetermined amount unit. Numerical information replacement means,
A news information analyzing apparatus comprising:
前記ニュースデータおよび前記ニュース情報は前記タイトルに対応するニュース本文を含んでおり、
前記同一性判定手段は、
前記2件のタイトルにそれぞれ対応するニュース本文の少なくとも一方が算出根拠用語を含み、当該2件のタイトルの単語解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含む場合には、前記類似度を算出する前に、予め定められた前記算出根拠に基づく計算手順に沿って当該数値情報のうちの大きい方の値から当該算出根拠に係る調整値を算出し、当該大きい方の値を当該調整値に置換する第2の数値情報置換手段、
を備えたことを特徴とするニュース情報分析装置。 In the news information analysis device according to any one of claims 1 to 4,
The news data and the news information include a news body corresponding to the title,
The identity determination means includes
When at least one of the news texts corresponding to the two titles includes a calculation basis term and the word analysis results of the two titles include numerical information of different values in the same unit, the similarity Before calculating the adjustment value, the adjustment value for the calculation basis is calculated from the larger value of the numerical information in accordance with the calculation procedure based on the predetermined calculation basis, and the larger value is adjusted. Second numerical information replacement means for replacing with a value;
A news information analyzing apparatus comprising:
前記メモリ内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、当該抽出された用語と当該用語の出現頻度とを含む統計情報を前記メモリに書き込む統計情報書込手段、を更に備え、
前記重要度算出手順は、前記統計情報が示す出現頻度が基準頻度を超える単語を含むID付ニュース情報の重要度を算出する場合に、前記算出する手順により算出された重要度に対し、前記基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する手順とを含むことを特徴とするニュース情報分析装置。 In the news information analysis device according to any one of claims 1 to 5,
Statistics that write statistical information including the extracted terms and the frequency of appearance of the terms to the memory based on the extracted terms included in the evaluation results in the memory and the distribution time in the news information with ID An information writing means,
In the importance calculation procedure, when calculating the importance of ID-added news information including a word whose appearance frequency indicated by the statistical information exceeds a reference frequency, the importance is calculated with respect to the importance calculated by the calculation procedure. A news information analysis apparatus comprising: a procedure for adding an addition value based on a word exceeding the frequency to correct the importance.
前記配信サイト名又は前記ニュースソース名と、当該配信サイト名又は当該ニュースソース名に対応する信頼度とを関連付けて記憶する信頼度記憶手段、を更に備え、
前記重要度算出手順は、前記配信サイト名と前記ニュースソース名とを含むニュース情報の重要度を算出する場合に、前記算出する手順により算出された重要度に対し、当該配信サイト名に対応する信頼度と当該ニュースソース名に対応する信頼度とを乗算して当該重要度を修正する手順とを含むことを特徴とするニュース情報分析装置。 The news information analysis apparatus according to any one of claims 1 to 6,
A reliability storage means for storing the distribution site name or the news source name and the reliability corresponding to the distribution site name or the news source name in association with each other;
The importance calculation procedure corresponds to the distribution site name with respect to the importance calculated by the calculating procedure when calculating the importance of news information including the distribution site name and the news source name. A news information analyzing apparatus comprising: a procedure for correcting the importance by multiplying the reliability and the reliability corresponding to the news source name.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010247518A JP5032645B2 (en) | 2010-11-04 | 2010-11-04 | News information analyzer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010247518A JP5032645B2 (en) | 2010-11-04 | 2010-11-04 | News information analyzer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012099001A JP2012099001A (en) | 2012-05-24 |
JP5032645B2 true JP5032645B2 (en) | 2012-09-26 |
Family
ID=46390820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010247518A Expired - Fee Related JP5032645B2 (en) | 2010-11-04 | 2010-11-04 | News information analyzer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5032645B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103582881B (en) * | 2012-05-31 | 2017-05-03 | 株式会社东芝 | Knowledge extraction device, knowledge updating device, and program |
JP6150664B2 (en) * | 2013-08-13 | 2017-06-21 | Kddi株式会社 | Mining analyzer, method and program |
JP6407516B2 (en) * | 2013-10-31 | 2018-10-17 | Kddi株式会社 | Mining analyzer, method and program |
JP6835978B2 (en) * | 2017-02-21 | 2021-02-24 | ソニー・インタラクティブエンタテインメント エルエルシー | How to determine the authenticity of news |
KR102095022B1 (en) * | 2019-10-02 | 2020-03-30 | 김근수 | Method, device and program for trading stocks using articles analysis |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7577655B2 (en) * | 2003-09-16 | 2009-08-18 | Google Inc. | Systems and methods for improving the ranking of news articles |
US8356044B2 (en) * | 2009-01-27 | 2013-01-15 | Palo Alto Research Center Incorporated | System and method for providing default hierarchical training for social indexing |
US8452781B2 (en) * | 2009-01-27 | 2013-05-28 | Palo Alto Research Center Incorporated | System and method for using banded topic relevance and time for article prioritization |
-
2010
- 2010-11-04 JP JP2010247518A patent/JP5032645B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012099001A (en) | 2012-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5559352B2 (en) | Knowledge extraction device, knowledge update device, and program | |
US10535042B2 (en) | Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet | |
US9830314B2 (en) | Error correction in tables using a question and answer system | |
CN107247707B (en) | Enterprise association relation information extraction method and device based on completion strategy | |
US20100100815A1 (en) | Email document parsing method and apparatus | |
US7689554B2 (en) | System and method for identifying related queries for languages with multiple writing systems | |
CN106462604B (en) | Identifying query intent | |
US20110282651A1 (en) | Generating snippets based on content features | |
US20120023006A1 (en) | Credit Risk Mining | |
JP5032645B2 (en) | News information analyzer | |
Zhang et al. | Feature-level sentiment analysis for Chinese product reviews | |
CN110134799B (en) | BM25 algorithm-based text corpus construction and optimization method | |
US10860661B1 (en) | Content-dependent processing of questions and answers | |
WO2012096388A1 (en) | Unexpectedness determination system, unexpectedness determination method, and program | |
US20130031098A1 (en) | Mismatch detection system, method, and program | |
CN115186654A (en) | Method for generating document abstract | |
Barbaglia et al. | Monitoring the business cycle with fine-grained, aspect-based sentiment extraction from news | |
US10733221B2 (en) | Scalable mining of trending insights from text | |
US7451398B1 (en) | Providing capitalization correction for unstructured excerpts | |
Alam et al. | Comparing named entity recognition on transcriptions and written texts | |
JP2018120284A (en) | Settlement analysis system and settlement analysis program | |
Borggreve | Effects of annual report sentiment on stock returns | |
Wishart et al. | Topic Modelling Experiments on Hellenistic Corpora. | |
CN112733492B (en) | Knowledge base-based aided design method and device, terminal and storage medium | |
Xu et al. | ESG report textual similarity and stock price synchronicity: Evidence from China |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120628 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5032645 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |