JP5032645B2 - News information analyzer - Google Patents

News information analyzer Download PDF

Info

Publication number
JP5032645B2
JP5032645B2 JP2010247518A JP2010247518A JP5032645B2 JP 5032645 B2 JP5032645 B2 JP 5032645B2 JP 2010247518 A JP2010247518 A JP 2010247518A JP 2010247518 A JP2010247518 A JP 2010247518A JP 5032645 B2 JP5032645 B2 JP 5032645B2
Authority
JP
Japan
Prior art keywords
news
information
word
importance
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010247518A
Other languages
Japanese (ja)
Other versions
JP2012099001A (en
Inventor
恭子 牧野
裕之 鈴木
茂明 櫻井
良規 正岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010247518A priority Critical patent/JP5032645B2/en
Publication of JP2012099001A publication Critical patent/JP2012099001A/en
Application granted granted Critical
Publication of JP5032645B2 publication Critical patent/JP5032645B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明の実施形態は、ニュース情報分析装置に関する。   Embodiments described herein relate generally to a news information analysis apparatus.

従来、インターネット配信ニュースの情報提供優先度(重要度)を決定する技術として、ニュースの新しさや関連ニュースの多さを利用する技術がある。この技術では、例えば、配信されたニュースと他情報の単語合致数から関連度を求め、ニュースの配信時刻からの経過時間によりニュースの新鮮度を求め、情報提供の優先度を決定している。   2. Description of the Related Art Conventionally, as a technique for determining information provision priority (importance) of Internet distribution news, there is a technique that utilizes the newness of news and the number of related news. In this technology, for example, the degree of association is obtained from the number of word matches between the delivered news and other information, the freshness of the news is obtained from the elapsed time from the news delivery time, and the priority of information provision is determined.

また、株価の変動と、株価に影響を与えたニュースとの把握を支援するために、例えば、株価チャートと関連ニュースとを同一画面に表示する技術が知られている。   In addition, in order to support the grasp of fluctuations in stock prices and news that has affected stock prices, for example, a technique for displaying a stock price chart and related news on the same screen is known.

特開2001−209655号公報JP 2001-209655 A 特許第3300256号公報Japanese Patent No. 3300366 特開2003−108785号公報JP 2003-108785 A

しかしながら、以上のような技術は、通常は特に問題ないが、様々な不都合が生じている。本発明者の検討によれば、この不都合は、配信された複数のニュース情報に対する同一性判定の精度が低いか、又は同一性判定を実行していないことに起因している。なお、本明細書中、「同一性」の語は、適宜、「関連度」、「一致度」又は「類似度」の語に読み替えてもよい。   However, the techniques as described above are usually not particularly problematic, but have various disadvantages. According to the study of the present inventor, this inconvenience is caused by the low accuracy of identity determination for a plurality of distributed news information, or not performing identity determination. In the present specification, the term “identity” may be appropriately replaced with the terms “relevance”, “match”, or “similarity”.

例えば、情報提供優先度を決定する技術では、単語合致数から関連度を求める際に、配信されたニュースと他情報の配信時間差を考慮していないため、「A社の商品Xリコール」と「A社で商品Y追加リコール」の区別が不充分になる不都合がある。また、配信されたニュースの数値情報と他情報の数値情報との同一性を考慮していないため、情報修正への対応が困難となる不都合もある。   For example, in the technology for determining the information provision priority, when the degree of relevance is calculated from the number of word matches, the difference in distribution time between the distributed news and other information is not taken into consideration. There is an inconvenience that the distinction of “Product Y additional recall at Company A” is insufficient. Moreover, since the sameness between the numerical information of the distributed news and the numerical information of other information is not considered, there is a disadvantage that it is difficult to cope with information correction.

また、株価チャートと関連ニュースとを同一画面で表示する技術では、ニュースの同一性判定が実行されていない。このため、実際の報道内容(報道された事実)に対して同一性をもつ多数のニュースが表示されるため、全体像の把握が困難となる不都合がある。   Further, in the technology for displaying the stock price chart and the related news on the same screen, the news identity determination is not executed. For this reason, since a large number of news items that are identical to the actual contents of the report (reported facts) are displayed, there is a disadvantage that it is difficult to grasp the whole picture.

本発明が解決しようとする課題は、配信された複数のニュース情報に対して同一性判定を実行すると共に、同一性判定の精度を向上し得るニュース情報分析装置を提供することである。   The problem to be solved by the present invention is to provide a news information analysis apparatus capable of performing identity determination on a plurality of distributed news information and improving the accuracy of identity determination.

実施形態のニュース情報分析装置は、ニュース配信サイト装置と、ユーザ端末装置との両装置に個別に通信可能である。   The news information analysis device of the embodiment can communicate with both the news distribution site device and the user terminal device individually.

実施形態のニュース配信サイト装置は、日本語により記述されたタイトルを含むニュースデータがニュースソースのニュースソース装置から配信されると、前記配信された日時又はニュース配信サイトに掲載された日時を示す配信日時と、前記ニュース配信サイトを示す配信サイト名と、前記ニュースソースを示すニュースソース名と、前記ニュースデータのタイトルと同じタイトル又は当該タイトルの単語を入れ換えたタイトルとを含むニュース情報を送信する、前記ニュース配信サイトのニュース配信サイト装置である。   When news data including a title described in Japanese is distributed from a news source device of a news source, the news distribution site device of the embodiment distributes the date and time of the distribution or the date and time when it was posted on the news distribution site. Transmitting news information including a date and time, a distribution site name indicating the news distribution site, a news source name indicating the news source, and a title in which the title of the news data is the same as the title of the news data or the title is replaced. The news distribution site device of the news distribution site.

実施形態のユーザ端末装置は、前記ニュース情報の分析結果が送信される。   The user terminal device according to the embodiment transmits the analysis result of the news information.

実施形態のニュース情報分析装置は、メモリ、評価語辞書記憶手段、同一性判定基準記憶手段、重要度算出手順記憶手段、ニュース受信手段、形態素解析手段、評価結果書込手段、同一性判定手段、重要度算出手段及び分析結果送信手段を備えている。   The news information analysis apparatus of the embodiment includes a memory, an evaluation word dictionary storage unit, an identity determination criterion storage unit, an importance calculation procedure storage unit, a news reception unit, a morpheme analysis unit, an evaluation result writing unit, an identity determination unit, Importance calculation means and analysis result transmission means are provided.

実施形態の評価語辞書記憶手段は、該当表現と、見出し表現と、大分類と、小分類とを関連付けた評価語辞書を記憶する。   The evaluation word dictionary storage means of the embodiment stores an evaluation word dictionary in which the corresponding expression, heading expression, major classification, and minor classification are associated with each other.

前記該当表現は、前記ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する形態素解析結果の正規表現を示す。   The corresponding expression indicates a regular expression of a morphological analysis result for a term including one or more words that may be included in the title of the news information.

前記見出し表現は、前記該当表現に対応する見出し(一つ又は複数の該当表現の同義、表記揺れをまとめたラベル)を示す。   The heading expression indicates a heading corresponding to the corresponding expression (a synonym of one or a plurality of corresponding expressions, a label that summarizes notation fluctuations).

前記小分類は、前記見出し表現の意味が企業であること、又は、前向きあるいは後向きであることを示す。   The minor classification indicates that the meaning of the headline expression is a company, or forward or backward.

前記大分類は、前記小分類の意味が対象又は評価であることを示す。   The major classification indicates that the meaning of the minor classification is object or evaluation.

実施形態の同一性判定基準記憶手段は、前記送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示す同一性判定基準を記憶する。   The identity determination criterion storage means of the embodiment stores an identity determination criterion indicating a criterion for determining whether or not any two pieces of news information in the transmitted news information are the same news.

実施形態の同一性判定基準は、前記2件のニュース情報に含まれるニュースソース名が互いに一致することと、前記2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値よりも小さいことと、前記2件のニュース情報における2件のタイトルの単語解析結果内の自立語及び数値情報から算出される類似度が規定値より高いことと、前記類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含む。   The identity determination criterion of the embodiment is that the news source names included in the two news information matches each other, and the distribution time difference indicating the difference in distribution date / time included in the two news information is more than the reference value. The similarity calculated from the independent words and the numerical information in the word analysis results of the two titles in the two news information is higher than the specified value, and the similarity is a significant number of the numerical information Calculated after rounding to the nearest whole number.

実施形態の重要度算出手順記憶手段は、重要度算出手順を記憶する。   The importance calculation procedure storage unit of the embodiment stores the importance calculation procedure.

前記重要度算出手順は、前記同一ニュースであると判定されたニュース情報の件数と、前記否と判定された場合に前記単語解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示す。   The importance calculation procedure includes calculating the importance of the news information based on the number of news information determined to be the same news and the similarity calculated from the word analysis result when the negative is determined. The procedure for calculating is shown.

実施形態のニュース受信手段は、前記ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を前記メモリに書き込む。   The news receiving means of the embodiment, when receiving news information from the news distribution site device, adds a news ID to the news information and writes the obtained ID-added news information in the memory.

実施形態の単語解析手段は、前記メモリ内のID付ニュース情報に含まれるタイトルを単語解析し、得られた単語解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を前記メモリに書き込む。   The word analysis unit of the embodiment analyzes the title included in the ID-added news information in the memory, adds the obtained word analysis result to the news ID and title of the ID-added news information, and obtains the analysis Result information is written into the memory.

実施形態の評価結果書込手段は、前記メモリ内の解析結果情報内の単語解析結果から前記該当表現に対応する用語を抽出すると共に、この該当表現に関連する前記大分類及び前記小分類を前記評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を当該解析結果情報のニュースIDに一致するニュースIDに関連付けて前記メモリに書き込む。   The evaluation result writing means of the embodiment extracts a term corresponding to the corresponding expression from the word analysis result in the analysis result information in the memory, and the major classification and the minor classification related to the corresponding expression are extracted from the word The evaluation result is extracted from the evaluation word dictionary, and the evaluation result including the extracted term, the large classification, and the small classification is associated with the news ID that matches the news ID of the analysis result information and written into the memory.

実施形態の同一性判定手段は、前記同一性判定基準記憶手段内の同一性判定基準を満たすか否かに基づいて、前記メモリ内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する。   The identity determination unit according to the embodiment includes the latest ID-added news information in the memory and the ID-added news information written in the past based on whether or not the identity determination criterion in the identity determination criterion storage unit is satisfied. Are the same news.

実施形態の重要度算出手段は、前記重要度算出手順記憶手段内の重要度算出手順と、前記同一性判定手段による判定結果とに基づいて、前記最新のID付ニュース情報の重要度を算出する。   The importance calculation unit according to the embodiment calculates the importance of the latest ID-added news information based on the importance calculation procedure in the importance calculation procedure storage unit and the determination result by the identity determination unit. .

実施形態の分析結果送信手段は、前記最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を前記メモリから読出し、当該読出した評価結果と、前記算出した重要度とを含む分析結果を前記ユーザ端末装置に送信する。   The analysis result transmission means of the embodiment reads the evaluation result associated with the news ID that matches the news ID in the latest ID-added news information from the memory, the read evaluation result, and the calculated importance Is sent to the user terminal device.

第1の実施形態に係るニュース情報分析システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the news information analysis system which concerns on 1st Embodiment. 同実施形態におけるニュース情報の一例を示す模式図である。It is a schematic diagram which shows an example of the news information in the embodiment. 同実施形態における評価語辞書情報の一例を示す模式図である。It is a schematic diagram which shows an example of the evaluation word dictionary information in the embodiment. 同実施形態におけるID付ニュース情報の一例を示す模式図である。It is a schematic diagram which shows an example of news information with ID in the embodiment. 同実施形態における解析結果情報の例を示す模式図である。It is a schematic diagram which shows the example of the analysis result information in the same embodiment. 同実施形態における解析結果情報の例を示す模式図である。It is a schematic diagram which shows the example of the analysis result information in the same embodiment. 同実施形態における解析結果情報の例を示す模式図である。It is a schematic diagram which shows the example of the analysis result information in the same embodiment. 同実施形態における解析結果情報の例を示す模式図である。It is a schematic diagram which shows the example of the analysis result information in the same embodiment. 同実施形態における評価結果及びニュースIDの例を示す模式図である。It is a schematic diagram which shows the example of the evaluation result and news ID in the embodiment. 同実施形態における分析結果の一例を示す模式図である。It is a schematic diagram which shows an example of the analysis result in the same embodiment. 同実施形態におけるニュース情報分析システムの動作を説明するためのフローチャートである。It is a flowchart for demonstrating operation | movement of the news information analysis system in the embodiment. 同実施形態におけるID付ニュース情報の一例を示す模式図である。It is a schematic diagram which shows an example of news information with ID in the embodiment. 同実施形態における解析結果情報内の形態素解析結果から抽出される自立語を説明するための模式図である。It is a schematic diagram for demonstrating the independent word extracted from the morphological analysis result in the analysis result information in the embodiment. 同実施形態における数値情報と自立語を説明するための模式図である。It is a schematic diagram for demonstrating the numerical information and independent word in the same embodiment. 第2の実施形態に係るニュース情報分析装置の記憶部に記憶される評価語辞書の一例を示す模式図である。It is a schematic diagram which shows an example of the evaluation word dictionary memorize | stored in the memory | storage part of the news information analyzer which concerns on 2nd Embodiment. 同実施形態における情報評価部による抽出結果の一例を示す模式図である。It is a schematic diagram which shows an example of the extraction result by the information evaluation part in the embodiment. 同実施形態における解析結果情報内の形態素解析結果から抽出される自立語を説明するための模式図である。It is a schematic diagram for demonstrating the independent word extracted from the morphological analysis result in the analysis result information in the embodiment. 同実施形態における分析結果の一例を示す模式図である。It is a schematic diagram which shows an example of the analysis result in the same embodiment. 第3の実施形態における解析結果情報内の形態素解析結果から抽出される自立語を説明するための模式図である。It is a schematic diagram for demonstrating the independent word extracted from the morphological analysis result in the analysis result information in 3rd Embodiment. 第5の実施形態における統計情報の一例を示す模式図である。It is a schematic diagram which shows an example of the statistical information in 5th Embodiment. 第6の実施形態における配信サイト名・ニュースソース名と信頼度とを関連付けて記憶した一例を示す模式図である。It is a schematic diagram which shows an example which linked | related and stored the delivery site name and news source name, and the reliability in 6th Embodiment.

以下、各実施形態について図面を用いて説明する。なお、以下の各装置は、装置毎に、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。また、以下の説明内の登録商標等としては、日経平均(登録商標)及び東証(登録商標)コードがある。   Each embodiment will be described below with reference to the drawings. Each of the following devices can be implemented for each device with either a hardware configuration or a combination configuration of hardware resources and software. As the software of the combined configuration, a program that is installed in advance on a computer of a corresponding device from a network or a storage medium and that realizes the function of the corresponding device is used. In addition, as registered trademarks in the following description, there are Nikkei 225 (registered trademark) and TSE (registered trademark) codes.

<第1の実施形態>
図1は第1の実施形態に係るニュース情報分析システムの構成例を示すブロック図であり、図2乃至図10は各情報の一例を示す模式図である。このニュース情報分析システムは、図示しないニュース配信サイト装置から配信された複数のニュース情報がニュース情報分析装置10により分析され、ニュース情報の分析結果がユーザ端末装置20に送信される構成となっている。
<First Embodiment>
FIG. 1 is a block diagram illustrating a configuration example of the news information analysis system according to the first embodiment, and FIGS. 2 to 10 are schematic diagrams illustrating an example of each piece of information. The news information analysis system is configured such that a plurality of news information distributed from a news distribution site device (not shown) is analyzed by the news information analysis device 10 and the analysis result of the news information is transmitted to the user terminal device 20. .

ニュース配信サイト装置は、日本語により記述されたタイトルを含むニュースデータがニュースソースのニュースソース装置(図示せず)から配信されると、ニュース配信サイトにニュースデータを掲載する機能と、当該ニュースデータに基づくニュース情報をニュース情報分析装置10に送信する機能とをもっている。このニュース情報は、図2に示すように、ニュースデータが配信された日時又はニュース配信サイトに掲載された日時を示す配信日時としてのタイムスタンプと、当該ニュース配信サイトを示す配信サイト名と、当該ニュースソースを示すニュースソース名と、当該ニュースデータのタイトルと同じタイトル又は当該タイトルの単語を入れ換えたタイトル(図中、「ニュース」と表記)とを含んでいる。   The news distribution site device has a function of posting news data on a news distribution site when news data including a title described in Japanese is distributed from a news source device (not shown) of the news source, and the news data And the function of transmitting news information based on the news information analyzing apparatus 10 to the news information analyzing apparatus 10. As shown in FIG. 2, the news information includes a time stamp as a date and time when news data is distributed or a date and time when the data is posted on a news distribution site, a distribution site name indicating the news distribution site, It includes a news source name indicating a news source, and a title (denoted as “news” in the figure) that is the same title as the title of the news data or a word in which the title is replaced.

一方、ニュース情報分析装置10は、記憶部11、ニュース受信部12、単語解析部13、情報評価部14、同一性判定部15、重要度算出部16、制御部17及び入出力インタフェース18がバス19を介して接続されている。   On the other hand, the news information analysis apparatus 10 includes a storage unit 11, a news reception unit 12, a word analysis unit 13, an information evaluation unit 14, an identity determination unit 15, an importance level calculation unit 16, a control unit 17, and an input / output interface 18. 19 is connected.

記憶部(メモリ、評価語辞書記憶手段、同一性判定基準記憶手段及び重要度算出手順記憶手段)11は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成される。記憶部11は、制御部17が実行するプログラム、単語解析部13で使用する単語解析辞書、情報評価部14で使用する評価語辞書、同一性判定部15で使用する同一性判定基準、重要度算出部16で使用する重要度算出手順及びニュース情報などを記憶する。   The storage unit (memory, evaluation word dictionary storage means, identity determination reference storage means, and importance calculation procedure storage means) 11 is configured by hardware such as a hard disk drive or a nonvolatile memory device. The storage unit 11 includes a program executed by the control unit 17, a word analysis dictionary used by the word analysis unit 13, an evaluation word dictionary used by the information evaluation unit 14, an identity determination criterion used by the identity determination unit 15, and an importance level. The importance calculation procedure and news information used in the calculation unit 16 are stored.

ここで、評価語辞書は、図3に示すように、ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する形態素解析などの単語解析の結果に係る正規表現を示す「該当表現」と、この「該当表現」に対応するタイトルを示す「見出し表現」と、この「見出し表現」の意味が、一例として企業であること、又は、評価の意味が前向き(ポジティブ)あるいは後向き(ネガティブ)であることを示す「小分類」と、この「小分類」の意味が、一例として対象、又は、評価であることを示す「大分類」とを関連付けた情報、という構成になっている。   Here, as shown in FIG. 3, the evaluation word dictionary indicates a regular expression related to a result of word analysis such as morphological analysis for a term including one or more words that may be included in the title of news information. “Heading expression”, “Heading expression” indicating the title corresponding to this “Heading expression”, and the meaning of this “Heading expression” is, for example, a company, or the meaning of evaluation is positive or positive (Negative) “minor classification”, and the meaning of this “minor classification” is, for example, information that associates the target or “major classification” that indicates evaluation. Yes.

補足すると、「大分類」とは、一例として抽出される情報が例えば「対象」であるか「評価」であるかの区別を示す。「小分類」は、一例として抽出される情報の種類を示す。例えば大分類「対象」に対して小分類「企業」「自治体」などが存在し、大分類「評価」に対して小分類「ネガティブ」「ポジティブ」などが存在する。もちろん、「大分類」や「小分類」は、これらの例に限定されず、ユーザのニーズに応じた設定にできるものである。つまり、「小分類」は見出し表現の意味を示すもので、「大分類」は「小分類」の意味すなわち見出し表現の区別を示すものである。   Supplementally, “major classification” indicates, for example, whether the information extracted as an example is “target” or “evaluation”. “Small classification” indicates the type of information extracted as an example. For example, for the major category “object”, there are minor categories “company” and “local government”, and for the major category “evaluation”, there are minor categories “negative” and “positive”. Of course, the “major classification” and the “small classification” are not limited to these examples, and can be set according to the needs of the user. That is, “minor classification” indicates the meaning of the heading expression, and “major classification” indicates the meaning of “small classification”, that is, the distinction of the heading expression.

また、「見出し表現」は評価語辞書の該当行が抽出する情報の項目名である。「該当表現」とは、評価語辞書に、単語解析後のニュースのタイトルから抽出すべき該当表現として登録された、単語解析結果の正規表現パターンを指す。この正規表現とは、特定の文字(メタキャラクター)を使った文字列の表現方法である。例えば「^」は行頭、「$」は行末、「.」は任意の一文字、「(|)」は「|」で区切られた表現のいずれか一つを選択、「[]」は内部に並べられた文字のいずれか一つを選択、「¥」は直後の文字をメタキャラクターとして解釈しない、を意味する。   “Heading expression” is an item name of information extracted by the corresponding line of the evaluation word dictionary. The “corresponding expression” refers to a regular expression pattern of the word analysis result registered in the evaluation word dictionary as a corresponding expression to be extracted from the news title after word analysis. This regular expression is a method for expressing a character string using a specific character (metacharacter). For example, “^” is the beginning of the line, “$” is the end of the line, “.” Is any single character, “(|)” is one of the expressions delimited by “|”, “[]” is inside Select one of the arranged characters, “¥” means that the next character is not interpreted as a metacharacter.

ここまでをまとめると、「大分類」>「小分類」>「見出し表現」>「該当表現」の順で階層を形成し、それぞれ1:n(nは1以上の整数)の関係で定義する。つまり、「大分類」の一つに一つまたは複数の「小分類」が属し、「小分類」の一つに一つまたは複数の「見出し表現」が属し、「見出し表現」の一つに一つまたは複数の「該当表現」が属するものである。   To summarize, the hierarchy is formed in the order of “major classification”> “minor classification”> “heading expression”> “corresponding expression”, and each is defined by a relationship of 1: n (n is an integer of 1 or more). . That is, one or more “minor categories” belong to one of the “major categories”, one or more “headline expressions” belong to one of the “minor categories”, and one of the “headline expressions” One or more “corresponding expressions” belong to it.

なお、図3の例では該当表現のみ記載しているが、該当表現に加えて、対応する該当表現とマッチしても除外すべき表現として定義する「除外表現」を定義してもよい。また、形態素解析などの単語解析を行わなくても単語の区切りを誤るおそれが少ない場合は、単語解析を行っていない表現の正規表現パターンを「該当表現」としてもよい。   Although only the corresponding expression is described in the example of FIG. 3, in addition to the corresponding expression, an “exclusion expression” that is defined as an expression that should be excluded even if the corresponding corresponding expression is matched may be defined. In addition, when there is little risk of erroneous word division without performing word analysis such as morphological analysis, a regular expression pattern of an expression that is not subjected to word analysis may be set as “corresponding expression”.

同一性判定基準は、送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示しており、当該2件のニュース情報に含まれるニュースソース名が互いに一致することと、当該2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値(最大の配信時間差)よりも小さいことと、当該2件のニュース情報における2件のタイトルの形態素解析結果から算出される類似度が規定値より高いことと、当該類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含んでいる。   The identity determination criterion indicates a criterion for determining whether or not any two pieces of news information in the transmitted news information are the same news, and the news source names included in the two pieces of news information are mutually different. Match, the difference in distribution time indicating the difference in distribution date and time included in the two news information items is smaller than the reference value (maximum distribution time difference), and the morphemes of the two titles in the two news information items This includes that the similarity calculated from the analysis result is higher than a specified value, and that the similarity is calculated after rounding the digits of significant digits of the numerical information.

なお、類似度は、例えば、2件のタイトルの形態素解析結果に含まれる自立語の集合全体における当該自立語及び数値情報の個数に対し、当該2件のタイトルの形態素解析結果の両方に含まれる自立語及び数値情報の個数が占める割合である。また、類似度(0以上1以下)の規定値は、0.9程度の高い値が好ましい。また、「2件のタイトルの形態素解析結果から算出される類似度が規定値より高いこと」に代えて、「2件のタイトルの形態素解析結果から抽出される自立語が互いに一致すること」としてもよい。また、同一性判定基準は、同一性判定ルールと読み替えてもよい。   The similarity is included in both the morphological analysis results of the two titles with respect to the number of independent words and numerical information in the entire set of independent words included in the morphological analysis results of the two titles, for example. It is the ratio of the number of independent words and numerical information. Further, the specified value of the similarity (0 or more and 1 or less) is preferably a high value of about 0.9. Also, instead of “the similarity calculated from the morphological analysis results of the two titles is higher than the specified value”, “the free words extracted from the morphological analysis results of the two titles match each other” Also good. The identity determination criterion may be read as an identity determination rule.

重要度算出手順は、同一ニュースであると判定されたニュース情報の件数と、同一性判定で否と判定された場合(同一ニュースでないと判定された場合)に形態素解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示している。また、重要度算出手順は、重要度判定ルールと読み替えてもよい。   The importance calculation procedure includes the number of news information determined to be the same news, and the similarity calculated from the morphological analysis result when the identity determination determines NO (when it is determined that the news is not the same). The procedure for calculating the importance of the news information based on the above is shown. Further, the importance calculation procedure may be read as the importance determination rule.

ニュース受信部12は、ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を記憶部11に書き込む機能をもっている。なお、ニュース情報の受信は、配信業者と契約を結び配信を受ける形態でも、一般に検索ロボットもしくはクローラと呼ばれるインターネット検索プログラムにより新規配信されたニュースを発見し入手する形態でもよい。   When receiving news information from the news distribution site device, the news receiving unit 12 has a function of adding a news ID to the news information and writing the obtained ID-added news information in the storage unit 11. The news information may be received in a form in which a contract is made with a distributor and the distribution is received, or a news that is newly distributed by an Internet search program generally called a search robot or a crawler is found and obtained.

ここで、ID付ニュース情報は、図4に示すように、ニュース情報における「タイムスタンプ」「配信サイト名」「ニュースソース名」「ニュース」の4項目と、ニュース受信部12が付加した「ニュースID」の項目とを含んでいる。「タイムスタンプ」は、ニュース情報の配信日時情報である。「配信サイト名」は、ニュース情報を本装置10に送信したニュース配信サイト装置に対応するニュース配信サイトの名称である。「ニュースソース名」は、「配信サイト名」の配信サイトにニュースデータを配信した事業者の名称である。「配信サイト名」と「ニュースソース名」とは一致する場合がある。「ニュース」は、配信されたニュース情報のタイトル部分の日本語列である。   Here, as shown in FIG. 4, the ID-added news information includes four items of “time stamp”, “delivery site name”, “news source name”, “news” in the news information, and “news” added by the news receiving unit 12. ID ”item. “Time stamp” is distribution date information of news information. The “distribution site name” is the name of the news distribution site corresponding to the news distribution site apparatus that has transmitted the news information to the apparatus 10. The “news source name” is the name of the company that distributed the news data to the distribution site “distribution site name”. “Distribution site name” and “news source name” may match. “News” is a Japanese string of the title portion of the distributed news information.

単語解析部13は、記憶部11内の単語解析辞書を用い、ID付ニュース情報の単語解析処理を行なう。単語解析処理は例えば一例として、形態素解析技術(公知の技術)を用いる。換言すると、単語解析部13は、記憶部11内のID付ニュース情報に含まれるタイトルを形態素解析し、得られた形態素解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を記憶部11に書き込む形態素解析機能をもっている。   The word analysis unit 13 uses the word analysis dictionary in the storage unit 11 to perform word analysis processing of the news information with ID. For example, the word analysis process uses a morphological analysis technique (a known technique). In other words, the word analysis unit 13 performs morphological analysis on the title included in the ID-added news information in the storage unit 11, and adds the obtained morpheme analysis result to the news ID and title of the ID-added news information. A morpheme analysis function for writing the analysis result information to the storage unit 11.

なお、以下では形態素解析技術を一例として説明するが、単語解析部13での処理は、単語解析辞書を用いない、Nグラムなどの形態素解析ではない解析処理を用いて、単語に分解してもよい。つまり、本発明は、形態素解析に限定しない手法によりニュース情報を単語に分割し、単語の比較で類似度を判断するものである。   In the following description, the morphological analysis technique will be described as an example. However, the processing in the word analysis unit 13 may be performed by using an analysis process that does not use a word analysis dictionary or is not a morphological analysis such as an N-gram and is decomposed into words. Good. That is, according to the present invention, news information is divided into words by a technique not limited to morphological analysis, and similarity is determined by comparing words.

但し、例えば文字を単位としたNグラムの場合、品詞付けや自立語であるか否かの判定はできない。従って、形態素解析の他の手段で単語解析処理を行なうときは、「自立語」ではなく「単語」が処理対象となり得る。   However, for example, in the case of an N-gram with a character as a unit, it is not possible to determine whether it is part-of-speech or independent words. Therefore, when word analysis processing is performed by other means of morphological analysis, “words” can be processed instead of “independent words”.

解析結果情報は、図5乃至図8に形態素解析フリーソフト「茶筌」による解析結果を含む例を示すように、ID付ニュース情報内のニュース(タイトル)が単語に分解されている。「ニュース」列の情報は、図示するように、記号“/”により単語に分解され、“<>”内に品詞情報が付与されている。   The analysis result information includes the news (title) in the ID-added news information broken down into words as shown in FIGS. 5 to 8 in which an example of the analysis result by the morphological analysis free software “tea bowl” is shown. As shown in the figure, the information in the “news” column is broken down into words by the symbol “/”, and part-of-speech information is given in “<>”.

情報評価部14は、記憶部11内の解析結果情報内の形態素解析結果から「該当表現」に対応する用語を抽出すると共に、この「該当表現」に関連する「大分類」及び「小分類」を評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を、当該解析結果情報のニュースIDに一致するニュースIDに関連付けて記憶部11に書き込む機能をもっている。   The information evaluation unit 14 extracts a term corresponding to the “corresponding expression” from the morphological analysis result in the analysis result information in the storage unit 11, and “major classification” and “small classification” related to the “corresponding expression”. Is extracted from the evaluation word dictionary, and the evaluation result including the extracted term, the large classification, and the small classification is associated with the news ID that matches the news ID of the analysis result information and written in the storage unit 11.

例えば、情報評価部14は、ニュースID“38”を含む解析結果情報内の形態素解析結果から大分類「対象」小分類「企業」の分類が付与された表現「A社<名詞−固有名詞−組織>」、大分類「評価」小分類「ネガティブ」の分類が付与された表現「リコール<名詞−サ変接続>」などを抽出し、図9に示す如き、当該抽出した企業名“A社”、評価“ネガティブ”、評価具体語“リコール”などを含む評価結果を、ニュースID“38”に関連付けて記憶部11に書き込む。なお、項目名「評価具体語」は、項目名「用語」の下位概念の名称である。   For example, the information evaluation unit 14 uses the expression “Company A <noun-proper noun-” to which the classification of the major classification “target”, minor classification “company” is given from the morphological analysis result in the analysis result information including the news ID “38”. The expression “recall <noun-sa change connection>” with the classification “organization>”, major classification “evaluation”, minor classification “negative”, etc. is extracted, and the extracted company name “Company A” as shown in FIG. The evaluation result including the evaluation “negative”, the evaluation specific word “recall” and the like is written in the storage unit 11 in association with the news ID “38”. The item name “evaluation concrete term” is a name of a subordinate concept of the item name “term”.

同一性判定部15は、記憶部11内の同一性判定基準を満たすか否かに基づいて、記憶部11内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する機能をもっている。   Based on whether the identity determination criteria in the storage unit 11 are satisfied, the identity determination unit 15 determines that the latest ID-added news information in the storage unit 11 and the ID-added news information written in the past are the same news. Has a function to determine whether or not there is.

例えば、同一性判定部15は、最新のID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報と、過去に書き込まれたID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報とが一致する割合を示す類似度を算出する。但し、類似度を算出する前に、数値情報の有効数字の桁を四捨五入により合わせておく。この類似度が規定値(例、0.9)より高い場合、同一性判定部15は、ID付ニュース情報内のニュースソース名が一致し、さらに、各ニュースの配信時刻の差が基準値(例、5分)以内ならば、同一ニュースである旨を判定する。なお、類似度が高い旨の確認、ニュースソース名の一致確認、配信時刻の差の確認は、任意の順序で実行可能である。また、類似度が高い旨の確認に代えて、自立語が完全一致する旨を確認してもよい。   For example, the identity determination unit 15 extracts the independent words and numerical information extracted from the morphological analysis result of the title in the latest ID-added news information and the morphological analysis result of the title in the ID-added news information written in the past. The degree of similarity indicating the ratio that the independent word and the numerical information match is calculated. However, before calculating the similarity, the digits of the significant digits in the numerical information are rounded off. When the similarity is higher than a specified value (eg, 0.9), the identity determination unit 15 matches the news source names in the ID-added news information, and further, the difference in the distribution time of each news is a reference value ( For example, if it is within 5 minutes, it is determined that the news is the same. Note that confirmation that the degree of similarity is high, news source name match confirmation, and delivery time difference confirmation can be performed in any order. Further, instead of confirming that the degree of similarity is high, it may be confirmed that the independent words completely match.

重要度算出部16は、記憶部11内の重要度算出手順と、同一性判定部15による判定結果とに基づいて、最新のID付ニュース情報の重要度を算出する重要度算出機能と、最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を記憶部11から読出し、当該読出した評価結果と、算出した重要度とを含む分析結果を入出力インタフェース18によりユーザ端末装置20に送信する分析結果送信機能とをもっている。重要度算出手順は、例えば「過去の同一ニュースの件数を重要度とする」「過去の類似度0.8以上の類似ニュースは、類似度を最新受信ニュースの重要度に加える」などのように、重要度を算出する手順が記述されている。分析結果は、例えば図10に示すように、前述した評価結果からニュースIDを削除したデータに重要度が付加されている。なお、分析結果は、ニュースIDを含んでいてもよい。   The importance calculation unit 16 includes an importance calculation function for calculating the importance of the latest ID-added news information based on the importance calculation procedure in the storage unit 11 and the determination result by the identity determination unit 15, and the latest The evaluation result associated with the news ID that matches the news ID in the ID-added news information is read from the storage unit 11, and the analysis result including the read evaluation result and the calculated importance is input to the user by the input / output interface 18. It has an analysis result transmission function to be transmitted to the terminal device 20. The importance calculation procedure is, for example, “the number of the same news in the past is regarded as the importance”, “similar news with a past similarity of 0.8 or more is added to the importance of the latest received news”, etc. The procedure for calculating the importance is described. As shown in FIG. 10, for example, in the analysis result, importance is added to data obtained by deleting a news ID from the above-described evaluation result. Note that the analysis result may include a news ID.

制御部17は、記憶部11内のプログラムの実行により、各部12〜16,18を制御する機能をもっている。   The control unit 17 has a function of controlling the units 12 to 16 and 18 by executing a program in the storage unit 11.

入出力インタフェース18は、ユーザ端末装置20に対する通信インタフェースとして用いられる。但し、入出力インタフェース18は、図示しない外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に辞書やデータを入出力してもよい。   The input / output interface 18 is used as a communication interface for the user terminal device 20. However, the input / output interface 18 can be connected to an external storage device (not shown) via a cable, and a dictionary and data may be input / output to / from the storage unit 11 with the external storage device.

ユーザ端末装置20は、ニュース情報分析装置10を利用するユーザが取り扱う端末装置である。ユーザ端末装置20は、各部23〜25を制御する端末制御部21、端末記憶部22、表示部23、入力部24及び通信インタフェース25がバスを介して接続されている。   The user terminal device 20 is a terminal device handled by a user who uses the news information analysis device 10. In the user terminal device 20, a terminal control unit 21, a terminal storage unit 22, a display unit 23, an input unit 24, and a communication interface 25 that control each unit 23 to 25 are connected via a bus.

端末記憶部22は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶装置であり、制御用のプログラムを記憶する。また、端末記憶部22は、端末制御部21による各種処理のワークメモリとしても機能する。   The terminal storage unit 22 is a storage device configured by hardware such as a hard disk drive or a non-volatile memory device, and stores a control program. The terminal storage unit 22 also functions as a work memory for various processes performed by the terminal control unit 21.

表示部23は、例えば液晶ディスプレイであり、ニュース情報分析装置10から受けた分析結果を表示する機能をもっている。表示部23は、例えば、新規に受信したニュースの配信時刻、配信サイト、ニュースソース、ニュースで話題とされた企業名・業種、ニュースの種類(ポジティブ、ネガティブ、不安定、など)、重要度を表形式でユーザに提示する。   The display unit 23 is a liquid crystal display, for example, and has a function of displaying the analysis result received from the news information analysis apparatus 10. The display unit 23 displays, for example, the distribution time of the newly received news, the distribution site, the news source, the company name / industry that has been discussed in the news, the type of news (positive, negative, unstable, etc.), and the importance level. Present to users in tabular form.

入力部24は、例えばキーボードやマウスであり、ユーザの操作に応じて、ニュース情報分析及びシステム設定にかかる入力を受け付ける。   The input unit 24 is, for example, a keyboard or a mouse, and receives input related to news information analysis and system settings in accordance with a user operation.

通信インタフェース25は、ケーブルを介してニュース情報分析装置10と接続され、入力部24により入力を受け付けた指定条件やニュース情報分析装置10の分析結果などをニュース情報分析装置10との間で送受信する。また、通信インタフェース25は外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に記憶する単語解析辞書、評価語辞書、同一性判定基準、重要度算出手順、分析結果を入出力することもできる。   The communication interface 25 is connected to the news information analysis apparatus 10 via a cable, and transmits / receives to / from the news information analysis apparatus 10 a specified condition received by the input unit 24 and an analysis result of the news information analysis apparatus 10. . The communication interface 25 can be connected to an external storage device via a cable. A word analysis dictionary, an evaluation word dictionary, an identity determination criterion, and an importance calculation procedure stored in the storage unit 11 with the external storage device. Analysis results can also be input and output.

次に、以上のように構成されたニュース情報分析システムの動作について図11のフローチャートを用いて説明する。   Next, the operation of the news information analysis system configured as described above will be described using the flowchart of FIG.

始めに、ニュース受信部12は、ニュース配信サイト装置からの配信を受けるか、ニュース配信サイトにアクセスすることにより、例えば図2に示すタイムスタンプ“2010/2/4 9:53”を含む新規のニュース情報を受信すると(ステップS1)、このニュース情報に例えばニュースID“191”を付加し、例えば図12に示すように、得られたID付ニュース情報を記憶部11に書き込む。   First, the news receiving unit 12 receives a distribution from the news distribution site device or accesses the news distribution site, and thereby, for example, includes a new time stamp “2010/2/4 9:53” shown in FIG. When the news information is received (step S1), for example, a news ID “191” is added to the news information, and the obtained news information with ID is written in the storage unit 11, for example, as shown in FIG.

単語解析部13は、記憶部11内のID付ニュース情報に含まれる「ニュース」部分を単語解析し(ステップS2)、得られた形態素解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を記憶部11に書き込む。例えば、ニュースID“191”のニュース(タイトル)は、図7に示すニュースID“191”に関連付けられた「形態素解析結果」のデータに示すように解析される。   The word analysis unit 13 performs word analysis on the “news” portion included in the ID-added news information in the storage unit 11 (step S2), and adds the obtained morpheme analysis result to the news ID and title of the ID-added news information. Then, the obtained analysis result information is written in the storage unit 11. For example, the news (title) of the news ID “191” is analyzed as shown in the “morpheme analysis result” data associated with the news ID “191” shown in FIG.

続いて、情報評価部14は、記憶部11内の解析結果情報内の形態素解析結果から「該当表現」に対応する用語を抽出すると共に、この「該当表現」に関連する「大分類」及び「小分類」を評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を、当該解析結果情報のニュースIDに一致するニュースIDに関連付けて記憶部11に書き込む(ステップS3)。   Subsequently, the information evaluation unit 14 extracts a term corresponding to the “corresponding expression” from the morphological analysis result in the analysis result information in the storage unit 11, and “major classification” and “ "Small category" is extracted from the evaluation word dictionary, and the evaluation result including the extracted term, major category and minor category is written in the storage unit 11 in association with the news ID matching the news ID of the analysis result information (step S3). ).

ステップS3においては、例えば、情報評価部14は、記憶部11内の解析結果情報内の形態素解析結果に対し、図3に示した評価語辞書の各行の該当表現のパターンマッチ処理を実行する。該当表現が解析結果情報内の形態素解析結果とマッチした場合は、その行の「大分類」「小分類」の組み合わせ情報が存在すると判定し、「大分類」「小分類」と合わせ、マッチした表現を記憶する。例えば、ニュースID“191”の形態素解析結果は、図3の評価語辞書の列名を表示する行(つまり、「大分類」、「小分類」、「見出し表現」、「該当表現」を表示する行)を除く1行目の該当表現「[^<>]+<名詞−固有名詞−組織>」が「/A社<名詞−固有名詞−組織>」にマッチし、大分類「対象」小分類「企業」見出し表現「組織名」該当表現「/A社<名詞−固有名詞−組織>」と、ニュースID“191”とが記憶される。ニュースID“188”ではマッチする表現は一つであるが、評価語辞書の複数行で表現がマッチして複数セットの情報が記憶される場合もある。   In step S3, for example, the information evaluation unit 14 performs a pattern matching process for the corresponding expression in each row of the evaluation word dictionary shown in FIG. 3 on the morphological analysis result in the analysis result information in the storage unit 11. If the corresponding expression matches the morphological analysis result in the analysis result information, it is determined that the combination information of “major category” and “minor category” in the row exists, and matches with “major category” and “minor category”. Memorize the expression. For example, the morphological analysis result of the news ID “191” displays the row for displaying the column name of the evaluation word dictionary in FIG. 3 (that is, “major category”, “minor category”, “headline expression”, “corresponding expression”). The corresponding expression “[^ <>] + <noun-proper noun-organization>” in the first line excluding “To” line matches “/ A company <noun-proper noun-organization>”, and the major classification “object” The subcategory “company” heading expression “organization name” corresponding expression “/ A company <noun-proper noun-organization>” and news ID “191” are stored. In the news ID “188”, there is only one matching expression, but there are cases where the expression matches in a plurality of lines of the evaluation word dictionary and a plurality of sets of information are stored.

同一性判定部15は、記憶部11内の同一性判定基準を満たすか否かに基づいて、記憶部11内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する(ステップS4〜S9)。   Based on whether the identity determination criteria in the storage unit 11 are satisfied, the identity determination unit 15 determines that the latest ID-added news information in the storage unit 11 and the ID-added news information written in the past are the same news. It is determined whether or not there is (steps S4 to S9).

ステップS4においては、同一性判定部15は、最新のID付ニュース情報との同一性判定を行うため、記憶部11内の過去に書き込まれたID付ニュース情報を1件ずつ抽出する(ステップS4)。ここで、抽出するID付ニュース情報は、例えば「配信日時の差が1日(24時間)以内」のように、設定時間内のものとする。   In step S4, the identity determination unit 15 extracts the ID-added news information written in the past in the storage unit 11 one by one in order to determine the identity with the latest ID-added news information (step S4). ). Here, the ID-added news information to be extracted is, for example, within a set time such as “the difference in distribution date and time is within one day (24 hours)”.

ステップS5においては、同一性判定部15は、同一性判定対象のID付ニュース情報の有無を確認する(ステップS5)。同一性判定対象のID付ニュース情報がある場合は、当該ID付ニュース情報を1件ずつ取り出し、最新のID付ニュース情報との同一性判定を実行する(ステップS6)。   In step S5, the identity determination unit 15 confirms the presence / absence of ID-added news information to be determined for identity (step S5). If there is ID-added news information that is subject to identity determination, the ID-added news information is extracted one by one, and the identity determination with the latest ID-added news information is executed (step S6).

ステップS7においては、同一性判定部15は、2件のID付ニュース情報内のニュースソース名が一致するか否かを判定し、否の場合にはステップS8,S9の判定を省略してステップS11に移行する。また、例えばニュースID“191”をもつ最新のID付ニュース情報に対し、同一性判定対象が図4に示したニュースID“188”をID付ニュース情報の場合には、同一性判定部15は、ニュースソース名“G新聞”が一致すると判定してステップS8に移行する。   In step S7, the identity determination unit 15 determines whether or not the news source names in the two pieces of ID-added news information match. If not, the determination in steps S8 and S9 is omitted. The process proceeds to S11. For example, if the identity determination target is the news ID “188” shown in FIG. 4 for the latest ID-added news information having the news ID “191”, the identity determination unit 15 The news source name “G newspaper” is determined to match, and the process proceeds to step S8.

ステップS8においては、同一性判定部15は、2件のID付ニュース情報で配信時刻差(タイムスタンプの時刻差)が同一ニュースと見なす範囲内にあるか否かを判定する。ここで、配信時刻差に基づく判定について、補足的に説明する。   In step S8, the identity determination unit 15 determines whether or not the distribution time difference (time stamp time difference) is within the range considered as the same news in the two pieces of news information with ID. Here, the determination based on the delivery time difference will be supplementarily described.

ニュース情報の元となるニュースデータは、ニュースソース装置からニュース配信サイト装置にインターネット経由で配信される。ニュース配信サイト装置は、CPUが配信サイト管理プログラムを実行することにより、配信されたニュースデータを確認し、掲載する価値があるか否かを判断し、掲載する場合には、掲載位置、ニュースのタイトル表現(例、企業名を先頭又は末尾に配置する等)を検討し、ニュースソースの配信日時又は自サイトへの掲載日時を示すタイムスタンプを付与し、掲載する。これにより、同じニュースソースから配信された同一ニュースであっても、ニュース配信サイトによりタイムスタンプやニュースのタイトルが若干異なる場合が生じる。なお、この場合、タイムスタンプの時刻差は、最大でも5分程度である。よって、ステップS8では、2件のID付ニュース情報を同一ニュースと見なすか否かを、当該2件のID付ニュース情報が最大の配信時刻差の範囲内にあるか否かによって判定している。以上が配信時刻差に基づく判定の補足説明である。   News data that is the source of news information is distributed from the news source device to the news distribution site device via the Internet. The news distribution site device checks the distributed news data by the CPU executing the distribution site management program, determines whether or not it is worth posting, and if it is to be posted, Consider title expression (eg, place company name at the beginning or end), and add a time stamp indicating the date and time of news source distribution or posting on your site. Thereby, even for the same news distributed from the same news source, the time stamp and the title of the news may be slightly different depending on the news distribution site. In this case, the time difference between the time stamps is about 5 minutes at the maximum. Therefore, in step S8, whether or not two pieces of ID-added news information are regarded as the same news is determined based on whether or not the two pieces of ID-added news information are within the maximum distribution time difference range. . The above is the supplementary explanation of the determination based on the distribution time difference.

ステップS8の判定結果が否の場合、同一性判定部15は、ステップS9の判定を省略してステップS11に移行する。また、例えばニュースID“191”をもつ最新のID付ニュース情報に対し、同一性判定対象が図4に示したニュースID“188”をID付ニュース情報の場合には、同一性判定部15は、両者の配信時刻差(3分)が最大の配信時刻差(例、5分)の範囲内にあると判定してステップS9に移行する。   When the determination result of step S8 is negative, the identity determination unit 15 omits the determination of step S9 and proceeds to step S11. For example, if the identity determination target is the news ID “188” shown in FIG. 4 for the latest ID-added news information having the news ID “191”, the identity determination unit 15 Then, it is determined that the distribution time difference between them (3 minutes) is within the range of the maximum distribution time difference (eg, 5 minutes), and the process proceeds to step S9.

ステップS9においては、同一性判定部15は、2件のID付ニュース情報の各々の形態素解析結果内の自立語及び数値情報に基づいて類似度を算出し、この類似度が規定値より高いか否かを判定し(ステップS9)、否の場合にはステップS11に移行する。自立語とは、付属語に対して、単独でも文節を構成できる単語を指す。名詞・代名詞・動詞・形容詞・形容動詞・副詞・連体詞・接続詞・感動詞などが自立語に相当する。   In step S9, the identity determination unit 15 calculates the similarity based on the independent words and the numerical information in the morphological analysis results of the two pieces of news information with ID, and whether the similarity is higher than the specified value. It is determined whether or not (step S9). If not, the process proceeds to step S11. An independent word refers to a word that can constitute a phrase alone with respect to an attached word. Nouns, pronouns, verbs, adjectives, adjective verbs, adverbs, conjunctions, conjunctions, and emotional verbs correspond to independent words.

図13はニュースID“188”とニュースID“191”を含む解析結果情報内の形態素解析結果から抽出される自立語を説明するための模式図である。ニュースID“191”の形態素解析結果から抽出される自立語は、「商品X<名詞−一般>」「部品Z<名詞−一般>」「改善<名詞−サ変接続>」「先月<名詞−副詞可能>」「分<名詞−接尾−一般>」「生産<名詞−サ変接続>」「電子制御<名詞−一般>」「調整<名詞−サ変接続>」「A社<名詞−固有名詞−組織>」の9種である。   FIG. 13 is a schematic diagram for explaining independent words extracted from the morphological analysis results in the analysis result information including the news ID “188” and the news ID “191”. The independent words extracted from the morphological analysis result of the news ID “191” are “product X <noun-general>”, “part Z <noun-general>”, “improvement <noun-sa-change>”, “last month <noun-adverb”. Possible> "" min <noun-suffix-general> "" production <noun-sa-variant connection> "" electronic control <noun-general> "" adjustment <noun-sa-variant connection> "" Company A <noun-proper noun-organization " > ”.

同一性判定対象のニュースID“188”の形態素解析結果から抽出される自立語は、「A社<名詞−固有名詞−組織>」「商品X<名詞−一般>」「部品Z<名詞−一般>」「改善<名詞−サ変接続>」「先月<名詞−副詞可能>」「分<名詞−接尾−一般>」「生産<名詞−サ変接続>」「電子制御<名詞−一般>」「調整<名詞−サ変接続>」の9種である。   The independent words extracted from the morphological analysis result of the news ID “188” as the identity determination target are “Company A <noun-proper noun-organization>” “product X <noun-general>” “part Z <noun-general”. > "Improvement <noun-sa-variant connection>" "Last month <noun-adverb possible>" "Min <noun-suffix-general>" "Production <noun-sa-variant connection>" "Electronic control <noun-general>" Nine types of <noun-sa-variant connection>.

2件のID付ニュース情報の形態素解析結果から抽出される自立語は、順番が異なるものの、完全に一致する。また、2件の形態素解析結果は数値情報を含まない。このため、2件の形態素解析結果のうち、一方の形態素解析結果内の自立語及び数値情報と、他方の形態素解析結果内の自立語及び数値情報とが完全に一致する。   The independent words extracted from the morphological analysis results of the two news information with IDs are completely the same although the order is different. Two morphological analysis results do not include numerical information. For this reason, the independent word and numerical information in one morphological analysis result and the independent word and numerical information in the other morphological analysis result completely match among two morphological analysis results.

よって、同一性判定部15は、ステップS9の判定の結果、ニュースID“191”及びニュースID“188”の各々に対応する形態素解析結果内の自立語及び数値情報の類似度を1.0と算出し、この類似度が規定値より高い旨を判定する。   Therefore, as a result of the determination in step S9, the identity determination unit 15 sets the similarity between independent words and numerical information in the morphological analysis result corresponding to each of the news ID “191” and the news ID “188” to 1.0. It is determined that the similarity is higher than the specified value.

また、同一性判定部15は、ステップS7〜S9の判定結果が全て肯定的のため、ニュースID“191”を含むID付ニュース情報に対して、ニュースID“188”を含むID付ニュース情報が同一ニュースである旨を判定する。   In addition, since all the determination results in steps S7 to S9 are positive, the identity determination unit 15 receives the ID-added news information including the news ID “188” for the ID-added news information including the news ID “191”. Judge that the news is the same.

次に、重要度算出部16は、ニュースID“191”を含む最新のID付ニュース情報に対して同一ニュースが存在する場合、ニュースID“191”の重要度に同一ニュース1件当りの重要度を追加する(ステップS10)。   Next, when the same news exists for the latest ID-added news information including the news ID “191”, the importance level calculation unit 16 adds the importance level for each news item to the importance level of the news ID “191”. Is added (step S10).

このステップS10において、重要度の追加は、例えば重要度の初期値を0とし、同一ニュースの存在が判定される毎に、例えば値“1”を加算してもよい。また、重要度の追加は、加算に限らず、重要度の初期値を0以外とし、同一ニュースの存在が判定される毎に、例えば所定値(但し、0と1を除く値)を乗算してもよい。また、重要度の追加は、ステップS9の判定結果を求める毎に実行してもよく、同一性判定部15の同一性判定処理が全ての同一性判定対象に対して終了した後でまとめて実行してもよい。   In this step S10, the importance level may be added, for example, by setting the initial value of the importance level to 0, and adding, for example, the value “1” each time the presence of the same news is determined. The addition of importance is not limited to addition, but the initial value of importance is set to a value other than 0, and every time it is determined that the same news exists, for example, a predetermined value (however, a value excluding 0 and 1) is multiplied. May be. Moreover, the addition of the importance may be performed every time the determination result of step S9 is obtained, and is executed collectively after the identity determination processing of the identity determination unit 15 is completed for all objects of identity determination. May be.

一方、ステップS7〜S9のいずれかの判定結果が否の場合には、ステップS11に移行する。具体的には、最新のID付ニュース情報が図4のニュースID“38”であり、ステップS2の形態素解析結果が、図5のニュースID“38”に対応するものとなる場合を例に挙げて説明する。   On the other hand, if any of the determination results in steps S7 to S9 is negative, the process proceeds to step S11. Specifically, the latest ID-added news information is the news ID “38” in FIG. 4, and the morphological analysis result in step S2 is an example corresponding to the news ID “38” in FIG. I will explain.

この場合、ステップS3において、ニュースID“38”に対応する形態素解析結果に対し、図3の評価語辞書の第1行目、第2行目、第4行目がマッチし、大分類「対象」小分類「企業」見出し表現「組織名」該当表現「/A社<名詞−固有名詞−組織>」、大分類「評価」小分類「ネガティブ」見出し表現「販売減」該当表現「販売<名詞−一般>/><記号−括弧閉>/A社<名詞−固有名詞−組織>/、<記号−読点>/1月<名詞−副詞可能>/1<名詞−数>/5<名詞−数>/.<名詞−数>/8<名詞−数>/%<名詞−接尾−助数詞>/減<名詞−接尾−一般>」、大分類「評価」小分類「ネガティブ」見出し表現「リコール」該当表現「リコール<名詞−サ変接続>」と、ニュースID“38”とを含む評価結果が記憶部11に書き込まれる。   In this case, in step S3, the first row, the second row, and the fourth row of the evaluation word dictionary in FIG. 3 match the morphological analysis result corresponding to the news ID “38”, and the major classification “target "Small category" Company "heading expression" Organization name "corresponding expression" / A company <noun-proprietary noun-organization> ", Large classification" Evaluation "Small classification" Negative "heading expression" Sales decrease "Corresponding expression" Sales <Noun " -General> /> <symbol-closed parenthesis> / Company A <noun-proper noun-organization> /, <symbol-reading> / 1 month <noun-adverbable> / 1 <noun-number> / 5 <noun- <Number> /. <Noun-number> / 8 <noun-number> /% <noun-suffix-classifier> / decrease <noun-suffix-general>], major classification "evaluation" minor classification "negative" heading expression "recall The evaluation result including the corresponding expression “recall <noun-sa change connection>” and the news ID “38” is stored. It is written to the 11.

そして、ステップS4において、図4のニュースID“3”及びニュースID“31”の2件のID付ニュース情報が抽出される。しかる後、ニュースID“38”とニュースID“3”のID付ニュース情報の同一性判定では、ステップS7においてニュースソース名が異なる旨が判定され、ステップS11が実行される。   Then, in step S4, two pieces of ID-added news information of news ID “3” and news ID “31” in FIG. 4 are extracted. Thereafter, in the identity determination of the news information with ID of the news ID “38” and the news ID “3”, it is determined in step S7 that the news source names are different, and step S11 is executed.

ステップS11において、重要度算出部16は、ニュースID“38”とニュースID“3”に対応する形態素解析結果から抽出される数値情報、自立語の一致度を算出する。数値情報は、形態素解析結果をそのまま採用してもよく、例えば品詞”<名詞−数>”の連続は一つの数値と読み替えたり、さらに品詞”<名詞−数>”に続く品詞”<名詞−接尾−助数詞>”の単語までを数値と読み替えたりしてもよい。ここでは、品詞”<名詞−数>”の単語連続と、それに続く”<名詞−接尾−助数詞>”の単語までをまとめて数値情報とし、自立語とは区別する。   In step S11, the importance calculation unit 16 calculates the degree of coincidence between the numerical information extracted from the morphological analysis result corresponding to the news ID “38” and the news ID “3” and the independent word. The numerical information may adopt the morphological analysis result as it is. For example, the part of speech “<noun-number>” may be read as a single numerical value, or the part of speech “<noun-number>” followed by the part of speech “<noun-” The word up to the suffix--a classifier> "may be read as a numerical value. Here, the word sequence of part-of-speech “<noun-number>” and the subsequent word “<noun-suffix-classifier>” are collected as numerical information and distinguished from independent words.

図14はニュースID“38”と同一性判定対象のニュースのそれぞれから抽出した数値情報と自立語を説明するための模式図である。   FIG. 14 is a schematic diagram for explaining numerical information and independent words extracted from the news ID “38” and the news for identity determination.

ニュースID“38”を含む最新のID付ニュース情報に対する形態素解析結果からは、数値情報「15.8%減」1種、自立語「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「リコール<名詞−サ変接続>」「問題<名詞−ナイ形容詞語幹>」「響く<動詞−自立>」7種が抽出される。   From the morphological analysis result for the latest ID-added news information including the news ID “38”, one kind of numerical information “15.8% reduction”, independent words “US <noun-proper noun-country>” “product sales <noun” -General> "Company A <Noun-Proper Noun-Organization>" January <Noun-Adverb possible> "Recall <Noun-Sabari Connection>" Problem <Noun-Nay adjective stem> "Sounding <Verb- 7 types of “independence>” are extracted.

同一性判定対象のニュースID“3”を含む過去のID付ニュース情報に対する形態素解析結果からは、数値情報「15%減<数値情報>」1種、自立語「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」4種が抽出される。   From the morphological analysis results for past ID-added news information including the news ID “3” that is the identity determination target, one type of numerical information “15% reduction <numerical information>”, independent word “Company A <noun-proper noun-” “Organization>” “January <noun-adverb possible>” “rice <noun-proper noun-country>” “product sales <noun-general>” are extracted.

ここで、ニュースID“38”とニュースID“3”に対応する数値情報はそれぞれ「15.8%減」と「15%減」であり、値が一致しない。なお、ステップS11は、別ニュースの処理であるので、必ずしも数値情報の有効数字の桁を合わせなくてもよい。   Here, the numerical information corresponding to the news ID “38” and the news ID “3” are “15.8% reduction” and “15% reduction”, respectively, and the values do not match. In addition, since step S11 is a process of another news, it is not always necessary to match the digits of the significant digits of the numerical information.

自立語については、2件の形態素解析結果から抽出される自立語が全部で7種あるのに対して、2件の形態素解析結果の両方から抽出される自立語が4種である。   Regarding independent words, there are seven types of independent words extracted from two morphological analysis results, whereas there are four types of independent words extracted from both two morphological analysis results.

この場合、数値情報1種と自立語全7種の合計8種の情報のうち一致するものが4種であることに基づき、一致度が50%、類似度が0.5と算出される。   In this case, based on the fact that there are 4 types of matching information among a total of 8 types of information of 1 type of numerical information and 7 types of independent words, the degree of coincidence is calculated as 50% and the degree of similarity is calculated as 0.5.

類似度の算出は、さらに「数値情報が含まれ、一致しない場合は類似度0とする」又は「数値情報の一致度と、自立語の一致度の平均を類似度とする」などとして実行してもよい。   The calculation of the similarity is further executed as “the similarity is 0 when the numerical information is included and does not match” or “the similarity between the numerical information and the average of the independence words is the similarity”. May be.

重要度算出部16は、例えば、ニュースID“3”に対応する類似度“0.5”をニュースID“38”の重要度に加算する。ニュースID“3”に対応する重要度が設定済の場合、ニュースID“3”に対応する重要度に類似度“0.5”を乗算した値を、ニュースID“38”の重要度に加算するとしてもよい。   For example, the importance calculation unit 16 adds the similarity “0.5” corresponding to the news ID “3” to the importance of the news ID “38”. When the importance corresponding to the news ID “3” has already been set, a value obtained by multiplying the importance corresponding to the news ID “3” by the similarity “0.5” is added to the importance of the news ID “38”. You may do that.

同様に、ニュースID“38”とニュースID“31”のID付ニュース情報の同一性判定では、ステップS7においてニュースソース名が異なる旨が判定され、ステップS11が実行される。   Similarly, in the identity determination of the news information with ID of the news ID “38” and the news ID “31”, it is determined in step S7 that the news source names are different, and step S11 is executed.

ステップS11において、重要度算出部16は、ニュースID“38”とニュースID“31”に対応する形態素解析結果から抽出される数値情報、自立語の一致度を算出する。   In step S11, the importance level calculation unit 16 calculates the degree of coincidence between the numerical information extracted from the morphological analysis result corresponding to the news ID “38” and the news ID “31”, and the independent word.

図14より、ニュースID“31”に対応する形態素解析結果からは、数値情報「16%減<数値情報>」1種、自立語「米<名詞−固有名詞−国>」「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「販売<名詞−サ変接続>」「リコール<名詞−サ変接続>」「問題<名詞−ナイ形容詞語幹>」「響く<動詞−自立>」7種が抽出される。   14, from the morphological analysis result corresponding to the news ID “31”, one kind of numerical information “16% reduction <numerical information>”, independent words “US <noun-proper noun-country” ”“ Company A <noun ” -Proper noun-organization "" January <noun-adverb possible> "" sales <noun-sa-variant connection> "" recall <noun-sa-variant connection> "" problem <noun-nai adjective stem> "" sounding <verb- 7 types of “independence>” are extracted.

ここで、ニュースID“38”とニュースID“31”に対応する数値情報はそれぞれ「15.8%減」と「16%減」であり、値が完全には一致しない。   Here, the numerical information corresponding to the news ID “38” and the news ID “31” are “15.8% reduction” and “16% reduction”, respectively, and the values do not completely match.

自立語については、2件の形態素解析結果から抽出された自立語が完全に一致する。数値情報の一致は、完全な一致をもって同一とするだけではなく、有効数字の違いを考慮して一致するか否かを判定してもよい。   For independent words, the independent words extracted from the two morphological analysis results completely match. The matching of the numerical information is not limited to being the same with a perfect match, but may be determined whether or not they match in consideration of a difference in significant digits.

例えば、ニュースID“31”に対応する数値情報「16%減」は有効数字が一の位であり、ニュースID“38”に対応する数値情報「15.8%減」は有効数字が小数点第一位である。ニュースID“38”に対応する数値情報の有効数字をニュースID“31”に合わせて一の位とすると「16%減」となり、両者の数値情報が一致する。   For example, the numerical information “16% decrease” corresponding to the news ID “31” has the first significant digit, and the numerical information “15.8% decrease” corresponding to the news ID “38” has the first significant digit. First place. If the effective number of the numerical information corresponding to the news ID “38” is set to the first place in accordance with the news ID “31”, it is “decreased by 16%”, and the numerical information of the two coincides.

数値情報の一致を、有効数字の桁を合わせて判定すると、ニュースID“38”とニュースID“31”に対応する形態素解析結果は、数値情報・自立語とも完全に一致する。   If the match of the numerical information is determined by combining the digits of significant digits, the morphological analysis result corresponding to the news ID “38” and the news ID “31” completely matches the numerical information / independent words.

この場合、数値情報1種と自立語全7種の合計8種の情報のうち一致するものが8種であることに基づき、一致度が100%、類似度が1.0と算出される。このように数値情報の有効数字の桁を合わせて類似度を算出する手法は、ステップS9でも同様である。   In this case, the degree of coincidence is calculated to be 100% and the degree of similarity is 1.0 based on the fact that there are 8 types of matching information among a total of 8 types of information of 1 type of numerical information and 7 types of independent words. The method of calculating the similarity by combining the significant digits of the numerical information as described above is the same in step S9.

重要度算出部16は、ニュースID“31”に対応する類似度“1.0”をニュースID“38”の重要度に加える。ニュースID“31”に対応する重要度が設定済の場合、、ニュースID“31”に対応する重要度に類似度“1.0”を乗算した値を、ニュースID“38”の重要度に加算するとしてもよい。   The importance calculation unit 16 adds the similarity “1.0” corresponding to the news ID “31” to the importance of the news ID “38”. When the importance level corresponding to the news ID “31” has been set, a value obtained by multiplying the importance level corresponding to the news ID “31” by the similarity “1.0” is set as the importance level of the news ID “38”. You may add.

以上のように、全ての同一性判定対象ニュースとの同一性判定が終了し、重要度の算出が完了すると(ステップS12)、重要度算出部16は、最新のID付ニュース情報内のニュースID“38”に一致するニュースID“38”を含む評価結果を記憶部11から読出し、当該読出した評価結果と、算出した重要度とを含む分析結果を入出力インタフェース18によりユーザ端末装置20に送信する(ステップS13)。   As described above, when the identity determination with all the identity determination target news is completed and the calculation of the importance level is completed (step S12), the importance level calculation unit 16 determines the news ID in the latest ID-added news information. The evaluation result including the news ID “38” that matches “38” is read from the storage unit 11, and the analysis result including the read evaluation result and the calculated importance is transmitted to the user terminal device 20 through the input / output interface 18. (Step S13).

図10は分析結果の一例を示す模式図である。分析結果は、例えば、情報評価部14が書き込んだ評価結果、配信時刻、ニュースソース名、配信サイト名、重要度算出部16が算出した重要度を含んでいる。分析結果内の情報の順序はこの例に限らず、任意の順序が適用可能である。   FIG. 10 is a schematic diagram showing an example of the analysis result. The analysis result includes, for example, the evaluation result written by the information evaluation unit 14, the distribution time, the news source name, the distribution site name, and the importance calculated by the importance calculation unit 16. The order of information in the analysis result is not limited to this example, and an arbitrary order is applicable.

ユーザ端末装置20においては、この分析結果を通信インタフェース25により受けると、当該分析結果を表示部23が表示する。これにより、ユーザ端末装置20は、自装置のユーザに対し、ニュース情報の分析結果を提示することができる。   In the user terminal device 20, when this analysis result is received by the communication interface 25, the display unit 23 displays the analysis result. Thereby, the user terminal device 20 can present the analysis result of news information to the user of the own device.

上述したように本実施形態によれば、ニュース情報の同一性判定基準に数値情報、配信時間差、ニュースソース名を加えることで、同じ話題に関するニュースよりも細かい観点、すなわち、同一のニュースであるか否かを判定することができる。さらに、ニュースのタイトル中の表現から企業名を判定し、ニュースの内容を「ネガティブ」「ポジティブ」「不安定」等に分類して提供することで、株取引を行うユーザの迅速な情報把握を支援することができる。   As described above, according to the present embodiment, by adding numerical information, distribution time difference, and news source name to the news information identity determination criterion, it is a more detailed viewpoint than news related to the same topic, that is, whether the news is the same news. It can be determined whether or not. In addition, the company name is determined from the expression in the news title, and the content of the news is classified into “Negative”, “Positive”, “Unstable”, etc., and the information is quickly grasped by the user conducting stock trading. Can help.

なお、本実施形態は、分析結果をユーザ端末装置20に限らず、株取引判断を行うアルゴリズムトレードエンジンに送信するように変形してもよく、この場合、アルゴリズムトレードエンジンによる株取引の判断を支援することができる。   In this embodiment, the analysis result is not limited to the user terminal device 20 but may be modified so as to be transmitted to an algorithm trade engine that makes a stock transaction judgment. In this case, the algorithm trade engine supports the judgment of the stock trade. can do.

また、入出力インタフェース18は、分析結果の送信と共に、ニュースID“38”のニュース(タイトル)やユーザ端末装置20をニュース本文にアクセスさせるリンク情報を配信するようにしてもよい。さらに、入出力インタフェース18は、最新のID付ニュース情報の分析結果を得る毎に当該分析結果を送信してもよく、ユーザが設定した時間間隔毎に新規の分析結果をまとめて送信してもよい。   In addition, the input / output interface 18 may distribute the news (title) with the news ID “38” and link information that causes the user terminal device 20 to access the news text together with the transmission of the analysis result. Further, the input / output interface 18 may transmit the analysis result every time the analysis result of the latest ID-added news information is obtained, or may transmit the new analysis result collectively at time intervals set by the user. Good.

さらに、本実施形態では、入出力インタフェース18が分析結果をユーザ端末装置20に送信する場合について説明したが、これに限らず、入出力インタフェース18が、ユーザによる送信先の指定に応じて、当該指定された特定企業のユーザ端末装置20に分析結果を送信するようにしてもよく、また、入出力インタフェース18が、ユーザによる送信内容の指定に応じて、指定された評価結果を含み、指定されない評価結果を含まない分析結果を送信するユーザ端末装置20に送信するようにしてもよい。   Furthermore, in the present embodiment, the case where the input / output interface 18 transmits the analysis result to the user terminal device 20 has been described. The analysis result may be transmitted to the specified user terminal device 20 of a specific company, and the input / output interface 18 includes the specified evaluation result according to the transmission content specified by the user and is not specified. You may make it transmit to the user terminal device 20 which transmits the analysis result which does not contain an evaluation result.

また、同一性判定部15による自立語比較は、単語解析部13の形態素解析結果をそのまま比較したが、これに限らず、形態素解析結果における動詞・形容詞・形容動詞を原形に変換して比較する処理や、否定の助動詞が続いていた場合には原形に戻す際に否定形の終止形とする処理、などの処理を加えるように変形してもよい。   Independent word comparison by the identity determination unit 15 compares the morphological analysis results of the word analysis unit 13 as they are, but is not limited thereto, and the verbs / adjectives / adjective verbs in the morphological analysis results are converted into original forms for comparison. It may be modified to add processing such as processing or processing to make a negative final form when returning to the original form when a negative auxiliary verb has continued.

<第2の実施形態>
次に、第2の実施形態について前述した図面を参照しながら説明する。
<Second Embodiment>
Next, a second embodiment will be described with reference to the drawings described above.

第2の実施形態は、第1の実施形態の変形例であり、同一性判定部15が抽出した自立語等に基づく類似度算出において、情報評価部14が抽出した用語を考慮した構成となっている。これに伴い、類似度(s)は、2件のタイトルの形態素解析結果から情報評価部14が抽出した用語の集合全体における当該用語の個数(n1)と、当該2件のタイトルの形態素解析結果に含まれる自立語及び数値情報から当該抽出された用語を除いた自立語及び数値情報の集合全体における当該自立語及び数値情報の個数(n2)とを合わせた個数(n3=n1+n2)に対し、当該2件のタイトルの形態素解析結果の両方から抽出された用語の個数(m1)と、当該2件のタイトルの形態素解析結果の両方に含まれる自立語及び数値情報から当該両方から抽出された用語を除いた自立語及び数値情報の個数(m2)とを合わせた個数(m3=m1+m2)が占める割合(s=m3/n3)となっている。   The second embodiment is a modification of the first embodiment, and has a configuration in which the terms extracted by the information evaluation unit 14 are taken into account in similarity calculation based on independent words extracted by the identity determination unit 15. ing. Accordingly, the similarity (s) includes the number of terms (n1) in the entire term set extracted by the information evaluation unit 14 from the morphological analysis results of the two titles, and the morphological analysis results of the two titles. For the total number (n3 = n1 + n2) of the number of independent words and numerical information (n2) in the whole set of independent words and numerical information excluding the extracted term from the independent words and numerical information included in The number of terms (m1) extracted from both morphological analysis results of the two titles and the terms extracted from both independent words and numerical information contained in both of the two title morphological analysis results This is the ratio (s = m3 / n3) of the total number (m3 = m1 + m2) of the independent word and the number of numerical information (m2) excluding.

これに加え、第2の実施形態においては、評価語辞書として、図15に示すものを用いている。   In addition, in the second embodiment, the evaluation word dictionary shown in FIG. 15 is used.

具体的には評価語辞書としては、図3の例に示した情報の他に、組織名に相当する表現に対して正式企業名、東証コード、属する業界、属する資本グループを関連付ける辞書を用いている。また、評価語辞書としては、図3の辞書に、「続落」「下落」を「株価下落」、「米国」「アメリカ」を「アメリカ合衆国」、「東京株式市場」「日経平均」を「株式市場」とタイトルを付与する、同義語まとめのための辞書行が加わっている。すなわち、評価語辞書の「該当表現」は、当該該当表現に対応する用語に同義語がある場合には当該同義語を含んでいる。   Specifically, as the evaluation word dictionary, in addition to the information shown in the example of FIG. 3, a dictionary that associates the formal company name, TSE code, the industry to which it belongs, and the capital group to which it belongs to the expression corresponding to the organization name is used. Yes. In addition, as the evaluation word dictionary, in the dictionary of FIG. 3, “continuous fall” “fall” is “stock price drop”, “US” “USA” is “USA”, “Tokyo Stock Market” “Nikkei Average” is “stock market” ”And a dictionary line for synonym summarization. That is, the “corresponding expression” in the evaluation word dictionary includes the synonym when the term corresponding to the corresponding expression has a synonym.

次に、以上のように構成されたニュース情報分析装置の動作を説明する。   Next, the operation of the news information analysis apparatus configured as described above will be described.

ステップS1〜S2までは前述同様に実行される。   Steps S1 to S2 are executed in the same manner as described above.

ステップS3において、情報評価部14は、図15に示したような評価語辞書を用いて、記憶部11内の解析結果情報から用語を抽出し、図16に一例を示すように、それぞれ一つのニュースの解析結果を一行で表現する。具体的には、解析結果情報のニュースID及びニュース(タイトル)と、当該解析結果情報から抽出した用語(「対象」、「対象具体語」、「企業名」、「東証コード」、「業界」、「評価」、「評価具体語」、まだ提示されていない「その他の見出し表現」、その他の見出し表現に対応する「その他の具体語」)とを含む抽出結果を記憶部11に書き込む。   In step S3, the information evaluation unit 14 extracts terms from the analysis result information in the storage unit 11 using the evaluation word dictionary as shown in FIG. Express news analysis results in one line. Specifically, the news ID and news (title) of the analysis result information, and terms extracted from the analysis result information (“target”, “target specific word”, “company name”, “TSE code”, “industry”) , “Evaluation”, “evaluation specific word”, “other headline expression” not yet presented, and “other specific word” corresponding to the other headline expression) are written in the storage unit 11.

ここで、「その他の見出し表現」は、「対象具体語」や「評価具体語」では提示されていない、そのニュースから抽出された「見出し表現」である。そして、「その他の具体語」は、この「その他の見出し表現」と対応する「具体語」、つまりニュース(タイトル)中で「該当表現」にマッチした具体的文字列である。   Here, “other headline expressions” are “headline expressions” extracted from the news, which are not presented in “target specific words” or “evaluation specific words”. The “other specific word” is a “specific word” corresponding to this “other headline expression”, that is, a specific character string matching the “corresponding expression” in the news (title).

なお、情報評価部14の抽出結果では、企業名が正式名称に集約される、「日経平均」と「東京株式市場」が「株式市場」に集約されるなど、同義語まとめの効果が得られている。   In addition, the extraction result of the information evaluation unit 14 has the effect of synonym summarization, such as the company name is aggregated into the official name, and “Nikkei average” and “Tokyo stock market” are aggregated into the “stock market”. ing.

ステップS4〜S8までは前述同様に実行される。   Steps S4 to S8 are executed in the same manner as described above.

ステップS9又はS11において、同一性判定部15は、「数値情報」「情報評価部が抽出した見出し表現」「数値情報・情報評価部の抽出対象を除く部分から抽出した自立語」に基づいて類似度を算出する。また、同一性判定部15は、この類似度を算出する前に、企業名と、その企業名の東証コードが同時に現れた場合は、東証コードにあたる数値情報を削除する。図17は、図6の解析結果情報内の形態素解析結果から抽出される自立語・数値情報の例を示している。   In step S9 or S11, the identity determination unit 15 is similar based on “numerical information”, “headline expression extracted by the information evaluation unit”, and “independent word extracted from the portion excluding the extraction target of the numerical information / information evaluation unit”. Calculate the degree. In addition, before calculating the similarity, the identity determination unit 15 deletes numerical information corresponding to the TSE code when the company name and the TSE code of the company name appear at the same time. FIG. 17 shows an example of independent word / numerical information extracted from the morphological analysis result in the analysis result information of FIG.

図16の情報評価部14の抽出結果を反映すると、ニュースID“183”をもつ解析結果情報内の形態素解析結果から抽出される情報は評価語「A機械(株)」「株式市場」の2種、自立語「小幅<名詞−形容動詞語幹>」「続伸<名詞−サ変接続>」「軟調<名詞−一般>」「継続<名詞−サ変接続>」「上値<名詞−一般>」「重い<形容詞−自立>」の6種である。   When the extraction result of the information evaluation unit 14 in FIG. 16 is reflected, the information extracted from the morphological analysis result in the analysis result information having the news ID “183” is 2 of the evaluation words “A machine (stock)” and “stock market”. Species, self-supporting words “small <noun-adjective verb stem>” “continuation <noun-sa-variant connection>” “soft tone <noun-general>” “continuation <noun-sa-variant connection>” “upper <noun-general>” “heavy <Adjective-independence> ”.

ニュースID“185”をもつ解析結果情報内の形態素解析結果から抽出される情報は、評価語「A機械(株)」「株式市場」2種、自立語「寄り付き<名詞−一般>」「小幅<名詞−形容動詞語幹>」「続伸<名詞−サ変接続>」「軟調<名詞−一般>」「継続<名詞−サ変接続>」「上値<名詞−一般>」「重い<形容詞−自立>」の7種である。   The information extracted from the morphological analysis result in the analysis result information having the news ID “185” is two kinds of evaluation words “A Machine Co., Ltd.” and “stock market”, and the independent words “closeness <noun-general>” “small” <Noun-adjective verb stem> "" Continuous <noun-sa-variant connection> "" Soft tone <noun-general> "" Continuation <noun-sa-variant connection "" "Upper <noun-general>" "Heavy <adjective-independent>" There are seven types.

数値情報「<1234>」は、A機械(株)の東証コードと一致するので削除する。   The numerical information “<1234>” is deleted because it matches the TSE code of A machine Co., Ltd.

この結果、評価語と自立語合計9種のうち8種がどちらのニュースにも表れることとなり、類似度は0.89と算出される。数値情報以外の部分で、情報評価部14が抽出した部分を評価語辞書に登録された見出し表現に置き換えることで、異なる表記・単語で表現された同義語を同一とみなし、同一性判定の精度を向上させることができる。   As a result, 8 kinds out of a total of 9 kinds of evaluation words and independent words appear in both news, and the similarity is calculated as 0.89. By replacing the part extracted by the information evaluation unit 14 with a heading expression registered in the evaluation word dictionary in parts other than numerical information, synonyms expressed in different notations / words are regarded as the same, and the accuracy of identity determination Can be improved.

ステップS10,S12は前述同様に実行される。   Steps S10 and S12 are executed in the same manner as described above.

ステップS13において、入出力インタフェース18は、図18に示す如き、分析結果をユーザ端末装置20に送信することができる。例えば、情報評価部14で企業名に正式名称情報を付与することで、正式名称による分析結果の送信が可能となる。さらに、正式名称に付与された東証コード、業界名から制御部17が評価語辞書を検索し、検索結果として得られた、企業名に対する東証コード、属する業界の他企業名、属する資本グループの他企業名を含む第1の関連情報を含む分析結果を入出力インタフェース18から送信することもできる。また、ニュースのタイトルに「機械大手」の表現があり、評価語辞書最終行のパターンマッチで大分類「対象」小分類「業界」見出し表現「機械」が抽出された場合に、評価語辞書を制御部17が検索し、検索結果として得られた業界「機械」に分類されている企業名とその東証コードを含む第2の関連情報を含む分析結果を入出力インタフェース18から送信してもよい。なお、第1及び第2の関連情報は、両方を分析結果に含んでもよく、少なくとも一方を分析結果に含まなくてもよい。   In step S <b> 13, the input / output interface 18 can transmit the analysis result to the user terminal device 20 as shown in FIG. 18. For example, when the information evaluation unit 14 assigns formal name information to the company name, it is possible to transmit the analysis result using the formal name. Further, the control unit 17 searches the evaluation word dictionary from the TSE code given to the official name and the industry name, and obtains the TSE code for the company name, the other company name of the industry to which it belongs, and the capital group to which it belongs. The analysis result including the first related information including the company name can also be transmitted from the input / output interface 18. In addition, if the news title has the expression “Major Major” and the pattern match in the last line of the evaluation word dictionary and the major classification “target”, minor classification “industry”, the heading expression “machine” is extracted, the evaluation word dictionary The control unit 17 may search, and the analysis result including the second related information including the company name classified as the industry “machine” obtained as a search result and its TSE code may be transmitted from the input / output interface 18. . Note that both the first and second related information may be included in the analysis result, and at least one may not be included in the analysis result.

上述したように本実施形態によれば、評価語辞書の該当表現が同義語を含む構成により、第1の実施形態の効果に加え、同一性判定の精度をより向上させることができる。   As described above, according to the present embodiment, the accuracy of identity determination can be further improved in addition to the effects of the first embodiment by the configuration in which the corresponding expression in the evaluation word dictionary includes synonyms.

なお、第1及び第2の実施形態では評価語辞書の使い分けに言及していないが、評価語辞書はニュースの分野やユーザが関心のある内容に従い複数用意されたものの中から選択して用いることもできる。   Although the first and second embodiments do not refer to the use of the evaluation word dictionary, the evaluation word dictionary should be selected and used from among a plurality of evaluation word dictionaries according to the news field and the content that the user is interested in. You can also.

<第3の実施形態>
次に、第3の実施形態について前述した図面を参照しながら説明する。
<Third Embodiment>
Next, a third embodiment will be described with reference to the drawings described above.

第3の実施形態は、第1及び第2の各実施形態の変形例であり、数値情報における「1億ドル」「92億円」などの同義性を考慮した構成となっている。   The third embodiment is a modification of each of the first and second embodiments, and has a configuration that considers synonyms such as “$ 100 million” and “9.2 billion yen” in numerical information.

これに伴い、記憶部11には、自国通貨と外国通貨との交換比率を示す為替相場情報が更に記憶されている。   Accordingly, the exchange unit information indicating the exchange ratio between the home currency and the foreign currency is further stored in the storage unit 11.

また、同一性判定部15は、前述した機能に加え、2件のタイトルの形態素解析結果が通貨単位、量単位(例えば、kgとポンド、kmとヤード、など国際単位系とヤード・ポンド法、または、mとcmなど国際単位系における接頭辞のあるものと無いもの)を含む数値情報を含み、当該数値情報が為替相場情報に基づく交換比率、または、単位間の対照情報に基づく変換比率、によって同義とみなせる場合には、類似度を算出する前に、当該数値情報のうち、外国通貨の通貨単位や所定の量単位を含む数値情報を自国通貨の通貨単位や所定の前記量単位に対応した他の量単位を含む数値情報に置換する第1の数値情報置換機能を備えている。   Further, in addition to the above-described functions, the identity determination unit 15 has morphological analysis results of two titles in units of currency and units of quantity (for example, kg and pounds, km and yards, international unit systems and yard / pound methods, Or numerical information including those with prefixes in international unit systems such as m and cm), and the numerical information is exchange rate based on exchange rate information, or conversion ratio based on contrast information between units, Before calculating the degree of similarity, the numerical information including the currency unit of the foreign currency and the predetermined unit of quantity corresponds to the currency unit of the home currency and the predetermined unit of quantity. The first numerical information replacement function is provided for replacing the numerical information including other quantity units.

次に、以上のように構成されたニュース情報分析装置の動作を説明する。   Next, the operation of the news information analysis apparatus configured as described above will be described.

ステップS1〜S8は、前述同様に実行される。   Steps S1 to S8 are executed in the same manner as described above.

ステップS9又はS11において、同一性判定部15は、類似度を算出する前に、記憶部11内の為替相場情報を参照して数値情報が表す金額の読み替えを実行する。   In step S9 or S11, the identity determination unit 15 refers to the exchange rate information in the storage unit 11 and reads the amount represented by the numerical information before calculating the similarity.

例えば、同一性判定部15は、図19に示すように、図4のニュースID“1722”とニュースID“1736”をもつ解析結果情報内の形態素解析結果から自立語を抽出したとする。このとき、ニュースID“1722”に対応する数値情報「1億ドル超」が抽出されており、ニュースID“1736”に対応する数値情報「92億円」が抽出されている。この二つの数値情報は通貨単位が異なるので、そのまま比較はできない。   For example, as shown in FIG. 19, it is assumed that the identity determination unit 15 extracts an independent word from the morphological analysis result in the analysis result information having the news ID “1722” and the news ID “1736” in FIG. At this time, numerical information “over 100 million dollars” corresponding to the news ID “1722” is extracted, and numerical information “9.2 billion yen” corresponding to the news ID “1736” is extracted. Since these two pieces of numerical information have different currency units, they cannot be compared as they are.

そこで、同一性判定部15は、ニュース発信時もしくはニュースのタイトルから抽出される数値情報「07年」の為替相場情報を参照して「1億ドル」を「92億円」に換算した後、数値情報「1億ドル」を数値情報「92億円」に置換する。これにより、数値情報の通貨単位を合わせた状態で類似度算出を実行でき、同一性判定の精度をより一層向上させることができる。   Therefore, the identity determination unit 15 refers to the exchange rate information of the numerical information “07” extracted from the news title or at the time of news transmission, and after converting “$ 100 million” to “9.2 billion yen”, The numerical information “100 million dollars” is replaced with the numerical information “9.2 billion yen”. Thereby, similarity calculation can be performed in a state where the currency units of numerical information are combined, and the accuracy of identity determination can be further improved.

ステップS10,S12,S13は、前述同様に実行される。   Steps S10, S12, and S13 are executed in the same manner as described above.

上述したように本実施形態によれば、為替相場情報に基づいて、数値情報の通貨単位を合わせる構成により、第1及び第2の各実施形態の効果に加え、同一性判定の精度をより一層向上させることができる。   As described above, according to the present embodiment, the accuracy of the identity determination is further improved in addition to the effects of the first and second embodiments by the configuration in which the currency unit of the numerical information is matched based on the exchange rate information. Can be improved.

<第4の実施形態>
次に、第4の実施形態について前述した図面を参照しながら説明する。
<Fourth Embodiment>
Next, a fourth embodiment will be described with reference to the drawings described above.

第4の実施形態は、第1〜第3の各実施形態の変形例であり、数値情報における算出根拠(例えば、季節調整)の有無などの同義性を考慮した構成となっている。   The fourth embodiment is a modification of each of the first to third embodiments, and has a configuration in which synonyms such as the presence or absence of a calculation basis (for example, seasonal adjustment) in numerical information are taken into account.

これに伴い、ニュースデータおよびニュース情報は、タイトルに対応するニュース本文を含んでいる。   Accordingly, the news data and the news information include a news text corresponding to the title.

また、同一性判定部15は、前述した機能に加え、2件のタイトルにそれぞれ対応するニュース本文の少なくとも一方が「季節調整」に代表される数値情報における算出根拠に関する用語(以下、「算出根拠用語」と記す)を含み、当該2件のタイトルの形態素解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含む場合には、類似度を算出する前に、予め定められた算出根拠用語の計算手順に沿って当該数値情報のうちの大きい方の値から算出根拠に係る調整値を算出し、当該大きい方の値を当該調整値に置換する第2の数値情報置換機能を備えている。   Further, in addition to the above-described functions, the identity determination unit 15 uses at least one of the news texts corresponding to the two titles as terms related to calculation grounds in numerical information represented by “seasonal adjustment” (hereinafter referred to as “calculation grounds”). If the morphological analysis results of the two titles contain numerical information of different values in the same unit, before calculating the degree of similarity, A second numerical information replacement function is provided that calculates an adjustment value related to the calculation basis from the larger value of the numerical information in accordance with the calculation procedure, and replaces the larger value with the adjustment value.

なお、上述したように、算出根拠は季節調整には限られず、例えば、「赤字」に関して、本文に「営業赤字」もしくは「経常赤字」の表現と、それに関連する金額情報がある場合があてはまる。   As described above, the basis of calculation is not limited to seasonal adjustment. For example, regarding “red letter”, there may be a case where there is an expression of “business deficit” or “current account deficit” and monetary information related thereto in the text.

次に、以上のように構成されたニュース情報分析装置の動作を説明する。   Next, the operation of the news information analysis apparatus configured as described above will be described.

ステップS1〜S8は、前述同様に実行される。   Steps S1 to S8 are executed in the same manner as described above.

ステップS9又はS11において、同一性判定部15は、類似度を算出する前に、ニュース本文を参照し、数値情報の算出根拠による補正を行う。   In step S9 or S11, the identity determination unit 15 refers to the news text and corrects the numerical information based on the calculation basis before calculating the similarity.

例えば、図14のニュースID“38”とニュースID“49”に対応する数値情報は「15.8%」と「8.7%」であり、一致しない。すなわち、2件のタイトルの形態素解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含んでいる。また、2件のタイトルに対応するニュース本文中にそれぞれ「前年同月比は8.7%減(算出根拠による調整済み)。」「前年同月比15.8%減」の記載があり、ニュース本文の一方が算出根拠用語を含み、算出根拠に季節調整有無の違いがある。さらに、「総販売台数は9万8796台」は一致している。   For example, the numerical information corresponding to the news ID “38” and the news ID “49” in FIG. 14 are “15.8%” and “8.7%”, which do not match. That is, the morphological analysis results of the two titles include numerical information of different values in the same unit. In addition, in the news texts corresponding to the two titles, there is a description of “down 8.7% from the same month last year (adjusted based on the calculation basis)” and “down 15.8% from the same month last year”. One of them includes calculation basis terms, and there is a difference in the presence or absence of seasonal adjustment in the calculation basis. Furthermore, “total sales are 98,796 units” agree.

従って、同一性判定部15は、予め定められた算出根拠に基づく計算手順に沿って当該数値情報のうちの大きい方の値“15.8%”から調整値“8.7%”を算出し、当該大きい方の値を当該調整値に置換する。これにより、同一性判定の精度をより一層向上させることができる。   Accordingly, the identity determination unit 15 calculates the adjustment value “8.7%” from the larger value “15.8%” of the numerical information in accordance with a calculation procedure based on a predetermined calculation basis. The larger value is replaced with the adjustment value. Thereby, the precision of identity determination can be improved further.

なお、数値情報を調整値に置換した上で数値情報が一致しない場合は、別ニュースと扱ってもよい。また、第3及び第4の実施形態の処理を加えても数値情報が一致しないが、評価語・自立語の一致度が規定値(例えば0.8)以上である場合は、同じ話題で修正情報が配信される重要なニュースと判定し、重要度算出部16が重要度に規定の数値を加えるとしてもよい。   If the numerical information does not match after the numerical information is replaced with the adjustment value, it may be treated as another news. In addition, even if the processing of the third and fourth embodiments is added, the numerical information does not match, but when the matching degree of the evaluation word / independent word is a predetermined value (for example, 0.8) or more, it is corrected with the same topic It may be determined that the information is important news to be distributed, and the importance calculation unit 16 may add a prescribed numerical value to the importance.

ステップS10,S12,S13は、前述同様に実行される。   Steps S10, S12, and S13 are executed in the same manner as described above.

上述したように本実施形態によれば、ニュース本文の算出根拠用語に基づいて、数値情報の季節調整値を合わせる構成により、第1〜第3の各実施形態の効果に加え、同一性判定の精度をより一層向上させることができる。   As described above, according to the present embodiment, in addition to the effects of the first to third embodiments, the identity determination is performed by the configuration in which the seasonal adjustment value of the numerical information is matched based on the calculation basis term of the news body. The accuracy can be further improved.

<第5の実施形態>
次に、第5の実施形態について前述した図面を参照しながら説明する。
<Fifth Embodiment>
Next, a fifth embodiment will be described with reference to the drawings described above.

第5の実施形態は、第1〜第4の各実施形態の変形例であり、抽出された用語の頻度が高い場合に重要度を修正する構成となっている。   The fifth embodiment is a modification of the first to fourth embodiments, and is configured to correct the importance when the frequency of extracted terms is high.

これに伴い、例えば制御部17は、記憶部11内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、図20に示すように、当該抽出された用語と当該用語の出現頻度とを含む統計情報を記憶部11に書き込む統計情報書込機能、を更に備えている。   Accordingly, for example, the control unit 17 extracts the extracted terms as shown in FIG. 20 based on the extracted terms included in the evaluation results in the storage unit 11 and the distribution time in the news information with ID. A statistical information writing function for writing statistical information including the term and the appearance frequency of the term into the storage unit 11 is further provided.

また、記憶部11内の重要度算出手順は、当該統計情報が示す出現頻度が基準頻度を超える単語を含むID付ニュース情報の重要度を算出する場合に、当該算出する手順により算出された重要度に対し、当該基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する手順とを含んでいる。なお、統計情報が示す出現頻度が基準頻度を超えるか否かを判定可能な技術としては、例えば、近年、検索サイトなどで「急上昇ワード」が公開されており、出現単語の新しさ、急上昇を判定する技術が公知となっている。   Further, the importance calculation procedure in the storage unit 11 is the importance calculated by the calculation procedure when calculating the importance of the ID-added news information including a word whose appearance frequency indicated by the statistical information exceeds the reference frequency. And a procedure for correcting the importance by adding an addition value based on a word exceeding the reference frequency to the degree. In addition, as a technique that can determine whether or not the appearance frequency indicated by the statistical information exceeds the reference frequency, for example, in recent years, a “rapidly rising word” has been published on a search site or the like. Techniques for determining are known.

次に、以上のように構成されたニュース情報分析装置の動作を説明する。   Next, the operation of the news information analysis apparatus configured as described above will be described.

ステップS1〜S3は、前述同様に実行される。   Steps S1 to S3 are executed in the same manner as described above.

ステップS3の後、制御部17は、記憶部11内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、当該抽出された用語と当該用語の出現頻度とを含む統計情報を記憶部11に書き込む。   After step S3, the control unit 17 determines the extracted term and the appearance frequency of the term based on the extracted term included in the evaluation result in the storage unit 11 and the distribution time in the news information with ID. Is written in the storage unit 11.

ステップS4〜S11は、前述同様に実行される。   Steps S4 to S11 are executed in the same manner as described above.

ステップS12において、重要度算出部16は、最新のID付ニュース情報の重要度を確定する際に、ニュースのタイトルに含まれる単語の重要度に従った情報追加を行う。   In step S12, the importance calculation unit 16 adds information according to the importance of the words included in the news title when determining the importance of the latest ID-added news information.

重要度算出部16は、記憶部11内の重要度算出手順に基づいて、記憶部11内の統計情報を参照し、統計情報が示す出現頻度が基準頻度を超える単語をID付ニュース情報が含む場合に、当該ID付ニュース情報に対して既に算出された重要度に対し、基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する。   The importance level calculation unit 16 refers to the statistical information in the storage unit 11 based on the importance level calculation procedure in the storage unit 11, and the ID-added news information includes words whose appearance frequency indicated by the statistical information exceeds the reference frequency. In this case, the importance level is corrected by adding an addition value based on a word exceeding the reference frequency to the importance level already calculated for the ID-added news information.

ステップS13は、前述同様に実行される。   Step S13 is executed as described above.

上述したように本実施形態によれば、制御部17が統計情報書込機能を備え、記憶部11内の重要度算出手順が、基準頻度を超える単語に基づいて重要度を修正する構成により、第1〜第4の各実施形態の効果に加え、出現頻度の高い単語を含むニュース情報が高い重要度を付加した分析結果をユーザに通知することができる。   As described above, according to the present embodiment, the control unit 17 has a statistical information writing function, and the importance calculation procedure in the storage unit 11 is configured to correct the importance based on words exceeding the reference frequency. In addition to the effects of the first to fourth embodiments, it is possible to notify the user of an analysis result in which news information including words with high appearance frequency is added with high importance.

なお、重要度算出部16は、基準頻度を超える単語をID付ニュース情報が含む場合、重要度を修正する処理に代えて、基準頻度を超える単語(急上昇単語)を含む旨を通知する情報を分析結果に含めてもよい。急上昇単語の存在をユーザに通知することで、ユーザは株価に新たな変動を与える可能性の高い新しい出来事の発生を容易に認識することができる。   In addition, when the news information with ID includes a word exceeding the reference frequency, the importance calculating unit 16 replaces the process of correcting the importance with information notifying that the word includes a word exceeding the reference frequency (rapidly rising word). It may be included in the analysis results. By notifying the user of the presence of a rapidly rising word, the user can easily recognize the occurrence of a new event that is likely to give a new fluctuation to the stock price.

<第6の実施形態>
次に、第6の実施形態について前述した図面を参照しながら説明する。
<Sixth Embodiment>
Next, a sixth embodiment will be described with reference to the drawings described above.

第6の実施形態は、第1〜第5の各実施形態の変形例であり、配信サイト名及びニュースソース名の各々に対応する信頼度に基づいて重要度を修正する構成となっている。   The sixth embodiment is a modification of each of the first to fifth embodiments, and is configured to correct the importance based on the reliability corresponding to each of the distribution site name and the news source name.

これに伴い、記憶部11は、前述した記憶内容に加え、図21に示すように、配信サイト名又はニュースソース名と、当該配信サイト名又は当該ニュースソース名に対する信頼度とを関連付けて記憶している。信頼度としては、例えば、配信されるニュースデータやニュース情報の信頼性が高い場合には「1」を設定しておき、配信されるニュースデータ等の信頼性が低い場合は信頼性に応じた1未満の数値を設定しておく。   Accordingly, in addition to the stored contents described above, the storage unit 11 stores the distribution site name or news source name and the reliability for the distribution site name or the news source name in association with each other as shown in FIG. ing. As the reliability, for example, “1” is set when the reliability of the news data or news information to be distributed is high, and according to the reliability when the reliability of the news data to be distributed is low, for example. Set a value less than 1.

また、記憶部11内の重要度算出手順は、当該配信サイト名と当該ニュースソース名とを含むニュース情報の重要度を算出する場合に、既に算出された重要度に対し、当該配信サイト名に対応する信頼度と当該ニュースソース名に対応する信頼度とを乗算して当該重要度を修正する手順とを含んでいる。   In addition, the importance level calculation procedure in the storage unit 11 calculates the importance level of news information including the distribution site name and the news source name to the distribution site name with respect to the already calculated importance level. And a procedure for correcting the importance by multiplying the corresponding reliability by the reliability corresponding to the news source name.

次に、以上のように構成されたニュース情報分析装置の動作を説明する。   Next, the operation of the news information analysis apparatus configured as described above will be described.

ステップS1〜S11は、前述同様に実行される。   Steps S1 to S11 are executed in the same manner as described above.

ステップS12において、重要度算出部16は、類似度を元に重要度を算出する際に、同一性判定対象ニュースの配信サイト、ニュースソースの信頼性による調整を行う。   In step S12, the importance calculation unit 16 performs adjustment based on the reliability of the identity determination target news distribution site and the news source when calculating the importance based on the similarity.

重要度算出部16は、例えば、過去のID付ニュース情報との類似度が0.8であり、最新のID付ニュース情報に対応する配信サイト名がFニュース、ニュースソース名がI新聞である場合には、最新のID付ニュース情報に対する重要度に類似度0.8×配信サイト信頼度0.9×ニュースソース信頼度0.7=0.504を追加する。配信サイト、ニュースソースの信頼度の演算は、乗算に限らず、加算などの別演算を用いてもよい。   The importance level calculation unit 16 has, for example, a similarity with the past ID-added news information of 0.8, the distribution site name corresponding to the latest ID-added news information is F news, and the news source name is I newspaper. In this case, similarity 0.8 × distribution site reliability 0.9 × news source reliability 0.7 = 0.504 is added to the importance for the latest ID-added news information. The calculation of the reliability of the distribution site and the news source is not limited to multiplication, and another calculation such as addition may be used.

ステップS13は、前述同様に実行される。   Step S13 is executed as described above.

上述したように本実施形態によれば、配信サイト名及びニュースソース名の各々に対応する信頼度に基づいて重要度を修正する構成により、第1〜第5の各実施形態の効果に加え、配信サイトやニュースソースの信頼性を考慮し、信頼性の低いニュースの影響を低くすることで、適切な重要度を含む分析結果をユーザに提供することができる。   As described above, according to this embodiment, in addition to the effects of the first to fifth embodiments, the importance is corrected based on the reliability corresponding to each of the distribution site name and the news source name. Considering the reliability of distribution sites and news sources and reducing the impact of news with low reliability, it is possible to provide the user with analysis results including appropriate importance.

以上説明した少なくとも一つの実施形態によれば、2件のニュース情報に含まれるニュースソース名が互いに一致することと、配信日時の差分が基準値よりも小さいことと、類似度が規定値より高いこととを含む同一性判定基準を満たすか否かに基づいて、最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する構成により、配信された複数のニュース情報に対して同一性判定を実行すると共に、同一性判定の精度を向上させることができる。   According to at least one embodiment described above, news source names included in two pieces of news information match each other, the difference in delivery date and time is smaller than a reference value, and the similarity is higher than a specified value. The latest ID-added news information and the ID-added news information written in the past are distributed based on whether or not the identity determination criteria including While performing identity determination with respect to a plurality of news information, the accuracy of identity determination can be improved.

補足すると、ニュースの同一性判定に自立語及び数値情報の類似度だけでなく、ニュースソース名の一致、及び配信時間差が小さいことを判定基準に用いることで、例えば「A社の商品Xリコール」と「A社で商品Y追加リコール」とを(ニュースソース名の不一致、又は配信時間差が大きい等によって)区別でき、株取引の判断に有益な新規情報をユーザ端末装置20のユーザに提供することができる。   Supplementally, not only the similarity of independent words and numerical information but also the match of news source names and the small difference in distribution time are used as criteria for determining the identity of news, for example, “Product X recall of company A” And “Additional recall of product Y at Company A” (for example, due to a mismatch in news source names or a large difference in distribution time), and providing new information useful for the judgment of stock trading to the user of the user terminal device 20 Can do.

また、少なくとも一つの実施形態によれば、類似度が数値情報の有効数字の桁を四捨五入により合わせた後に算出される構成により、配信されたニュースの数値情報と他情報の数値情報との同一性を考慮でき、情報修正への対応を容易とすると共に、同一性判定の精度をより向上させることができる。   In addition, according to at least one embodiment, the similarity is calculated after rounding the significant digits of the numerical information by rounding, so that the numerical information of the distributed news and the numerical information of other information are identical. Therefore, it is possible to easily cope with information correction and to further improve the accuracy of identity determination.

さらに、少なくとも一つの実施形態によれば、同一性判定を行った後の同一ニュースの件数に基づく重要度を含む分析結果をユーザ端末装置20に送信する構成により、従来とは異なり、ユーザ端末装置20では、同一性をもつ多数のニュースが表示されることにはならず、ユーザによる全体像の把握を容易とすることができる。   Furthermore, according to at least one embodiment, unlike the conventional case, the user terminal device is configured to transmit the analysis result including the importance based on the number of the same news after the identity determination to the user terminal device 20. In 20, many news items having the same identity are not displayed, and the user can easily grasp the whole image.

なお、上記の各実施形態に記載した手法は、対象をインターネット配信ニュースに限定しない。例えば、インターネットで配信される他の情報や、インターネット外に存在する電子文書を対象とすることも可能である。   In addition, the method described in each said embodiment does not limit an object to Internet delivery news. For example, it is possible to target other information distributed on the Internet or electronic documents existing outside the Internet.

また、各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。   In addition, the method described in each embodiment includes, as programs that can be executed by a computer, a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), an optical disk (CD-ROM, DVD, etc.), a magneto-optical disk (MO). ), And can be distributed in a storage medium such as a semiconductor memory.

また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。   In addition, as long as the storage medium can store a program and can be read by a computer, the storage format may be any form.

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。   In addition, an OS (operating system) running on a computer based on an instruction of a program installed in the computer from a storage medium, MW (middleware) such as database management software, network software, and the like realize the above-described embodiment. A part of each process may be executed.

さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。   Furthermore, the storage medium in each embodiment is not limited to a medium independent of a computer, but also includes a storage medium in which a program transmitted via a LAN, the Internet, or the like is downloaded and stored or temporarily stored.

また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。   Further, the number of storage media is not limited to one, and the case where the processing in each of the above embodiments is executed from a plurality of media is also included in the storage media in the present invention, and the media configuration may be any configuration.

なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。   The computer in each embodiment executes each process in each of the above embodiments based on a program stored in a storage medium, and a single device such as a personal computer or a plurality of devices are connected to a network. Any configuration of the system or the like may be used.

また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。   In addition, the computer in each embodiment is not limited to a personal computer, and includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and is a generic term for devices and devices that can realize the functions of the present invention by a program. Yes.

なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。   In addition, although some embodiment of this invention was described, these embodiment is shown as an example and is not intending limiting the range of invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

10…ニュース情報分析装置、11…記憶部、12…ニュース受信部、13…単語解析部、14…情報評価部、15…同一性判定部、16…重要度算出部、17…制御部、18…入出力インタフェース、19…バス、20…ユーザ端末装置、21…端末制御装置、22…端末記憶部、23…表示部、24…入力部、25…通信インタフェース。   DESCRIPTION OF SYMBOLS 10 ... News information analyzer, 11 ... Memory | storage part, 12 ... News receiving part, 13 ... Word analysis part, 14 ... Information evaluation part, 15 ... Identity determination part, 16 ... Importance calculation part, 17 ... Control part, 18 DESCRIPTION OF SYMBOLS Input / output interface, 19 Bus, 20 User terminal device, 21 Terminal control device, 22 Terminal storage unit, 23 Display unit, 24 Input unit, 25 Communication interface

Claims (7)

日本語により記述されたタイトルを含むニュースデータがニュースソースのニュースソース装置から配信されると、前記配信された日時又はニュース配信サイトに掲載された日時を示す配信日時と、前記ニュース配信サイトを示す配信サイト名と、前記ニュースソースを示すニュースソース名と、前記ニュースデータのタイトルと同じタイトル又は当該タイトルの単語を入れ換えたタイトルとを含むニュース情報を送信する前記ニュース配信サイトのニュース配信サイト装置と、
前記ニュース情報の分析結果が送信されるユーザ端末装置との両装置に個別に通信可能でメモリを備えたニュース情報分析装置であって、
前記ニュース情報のタイトルに含まれる可能性のある1語以上の単語からなる用語に対する単語解析結果の正規表現を示す該当表現と、前記該当表現に対応する見出し表現と、前記見出し表現の意味を示す小分類と、前記小分類の意味を示す大分類と、を関連付けた評価語辞書を記憶した評価語辞書記憶手段と、
前記送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示す同一性判定基準であって、前記2件のニュース情報に含まれるニュースソース名が互いに一致することと、前記2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値よりも小さいことと、前記2件のニュース情報における2件のタイトルの単語解析結果内の自立語及び数値情報から算出される類似度が規定値より高いことと、前記類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含む前記同一性判定基準を記憶する同一性判定基準記憶手段と、
前記同一ニュースであると判定されたニュース情報の件数と、前記否と判定された場合に前記単語解析結果から算出される類似度とに基づいて当該ニュース情報の重要度を算出する手順を示す重要度算出手順を記憶する重要度算出手順記憶手段と、
前記ニュース配信サイト装置からニュース情報を受信すると、このニュース情報にニュースIDを付加し、得られたID付ニュース情報を前記メモリに書き込むニュース受信手段と、
前記メモリ内のID付ニュース情報に含まれるタイトルを単語解析し、得られた単語解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を前記メモリに書き込む単語解析手段と、
前記メモリ内の解析結果情報内の単語解析結果から前記該当表現に対応する用語を抽出すると共に、この該当表現に関連する前記大分類及び前記小分類を前記評価語辞書から抽出し、当該抽出した用語、大分類及び小分類を含む評価結果を当該解析結果情報のニュースIDに一致するニュースIDに関連付けて前記メモリに書き込む評価結果書込手段と、
前記同一性判定基準記憶手段内の同一性判定基準を満たすか否かに基づいて、前記メモリ内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する同一性判定手段と、
前記重要度算出手順記憶手段内の重要度算出手順と、前記同一性判定手段による判定結果とに基づいて、前記最新のID付ニュース情報の重要度を算出する重要度算出手段と、
前記最新のID付ニュース情報内のニュースIDに一致するニュースIDに関連付けられた評価結果を前記メモリから読出し、当該読出した評価結果と、前記算出した重要度とを含む分析結果を前記ユーザ端末装置に送信する分析結果送信手段と、
を備えたことを特徴とするニュース情報分析装置。
When news data including a title described in Japanese is distributed from a news source device of a news source, a distribution date and time indicating the date and time of distribution or a date and time posted on a news distribution site, and the news distribution site are indicated. A news distribution site device of the news distribution site that transmits news information including a distribution site name, a news source name indicating the news source, and a title that is the same as the title of the news data or a title in which a word of the title is replaced; ,
A news information analysis apparatus comprising a memory that can be individually communicated with both devices with a user terminal device to which the analysis result of the news information is transmitted,
A corresponding expression indicating a regular expression of a word analysis result for a term including one or more words that may be included in the title of the news information, a heading expression corresponding to the corresponding expression, and a meaning of the heading expression An evaluation word dictionary storage means for storing an evaluation word dictionary in which a small classification and a large classification indicating the meaning of the small classification are associated;
An identity determination criterion indicating a criterion for determining whether or not any two pieces of news information in the transmitted news information are the same news, and news source names included in the two pieces of news information are mutually A match, a difference in distribution time indicating a difference in distribution date and time included in the two news information items is smaller than a reference value, and an independent word in the word analysis result of two titles in the two news information items And the similarity criterion calculated from the numerical information is higher than a prescribed value, and the similarity is calculated after rounding the significant digits of the numerical information by rounding off. Identity criteria storage means;
Important showing a procedure for calculating the importance of the news information based on the number of news information determined to be the same news and the similarity calculated from the word analysis result when determined to be no Importance calculation procedure storage means for storing the degree calculation procedure;
When receiving news information from the news distribution site device, news receiving means for adding a news ID to the news information and writing the obtained ID-added news information in the memory;
A word that analyzes the title included in the news information with ID in the memory, adds the obtained word analysis result to the news ID and title of the news information with ID, and writes the obtained analysis result information to the memory Analysis means;
The term corresponding to the corresponding expression is extracted from the word analysis result in the analysis result information in the memory, and the major classification and the minor classification related to the corresponding expression are extracted from the evaluation word dictionary and extracted. An evaluation result writing means for writing an evaluation result including a term, a major classification, and a minor classification in association with a news ID matching the news ID of the analysis result information,
Whether or not the latest ID-added news information in the memory and the ID-added news information written in the past are the same news based on whether or not the identity determination criterion in the identity determination criterion storage means is satisfied. Identity determining means for determining
Importance calculating means for calculating the importance of the latest ID-added news information based on the importance calculating procedure in the importance calculating procedure storage means and the determination result by the identity determining means;
An evaluation result associated with a news ID that matches a news ID in the latest ID-added news information is read from the memory, and an analysis result including the read evaluation result and the calculated importance is displayed on the user terminal device. Analysis result transmission means for transmitting to
A news information analyzing apparatus comprising:
請求項1に記載のニュース情報分析装置において、
前記類似度は、前記2件のタイトルの単語解析結果に含まれる自立語及び数値情報の集合全体における当該自立語及び数値情報の個数に対し、当該2件のタイトルの単語解析結果の両方に含まれる自立語及び数値情報の個数が占める割合であることを特徴とするニュース情報分析装置。
In the news information analysis device according to claim 1,
The similarity is included in both the word analysis results of the two titles with respect to the number of independent words and numerical information in the whole set of independent words and numerical information included in the word analysis results of the two titles. A news information analyzing apparatus characterized in that it is a ratio occupied by the number of independent words and numerical information.
請求項1に記載のニュース情報分析装置において、
前記該当表現は、当該該当表現に対応する用語に同義語がある場合には当該同義語を含んでおり、
前記類似度は、前記2件のタイトルの単語解析結果から前記評価結果書込手段が抽出した用語の集合全体における当該用語の個数と、当該2件のタイトルの単語解析結果に含まれる自立語及び数値情報から当該抽出された用語を除いた自立語及び数値情報の集合全体における当該自立語及び数値情報の個数とを合わせた個数に対し、当該2件のタイトルの単語解析結果の両方から抽出された用語の個数と、当該2件のタイトルの単語解析結果の両方に含まれる自立語及び数値情報から当該両方から抽出された用語を除いた自立語及び数値情報の個数とを合わせた個数が占める割合であることを特徴とするニュース情報分析装置。
In the news information analysis device according to claim 1,
The corresponding expression includes the synonym when the term corresponding to the corresponding expression has a synonym,
The similarity is the number of the terms in the entire set of terms extracted by the evaluation result writing means from the word analysis results of the two titles, the independent words included in the word analysis results of the two titles, and Extracted from both the word analysis results of the two titles for the number of independent words excluding the extracted term from the numerical information and the total number of independent words and numerical information in the entire set of numerical information. And the number of independent words and numerical information excluding terms extracted from both words and numerical information included in both word analysis results of the two titles. A news information analyzer characterized by a ratio.
請求項1乃至請求項3のいずれか1項に記載のニュース情報分析装置において、
自国通貨と外国通貨との交換比率または所定の量単位と前記所定の量単位に対応した量単位の変換比率を記憶した比率情報記憶手段、を更に備え、
前記同一性判定手段は、
前記2件のタイトルの単語解析結果が通貨単位または量単位を含む数値情報を含み、当該数値情報が前記交換比率または前記変換比率に基づいて同義とみなせる場合には、前記類似度を算出する前に、当該数値情報のうち、外国通貨の通貨単位や所定の量単位を含む数値情報を自国通貨の通貨単位や前記所定の量単位に対応した他の量単位を含む数値情報に置換する第1の数値情報置換手段、
を備えたことを特徴とするニュース情報分析装置。
In the news information analysis device according to any one of claims 1 to 3,
A ratio information storage means for storing a conversion ratio between the home currency and the foreign currency or a conversion unit of a predetermined quantity unit and a quantity unit corresponding to the predetermined quantity unit;
The identity determination means includes
If the word analysis results of the two titles include numerical information including currency units or quantity units, and the numerical information can be regarded as synonymous based on the exchange ratio or the conversion ratio, before calculating the similarity In addition, among the numerical information, the numerical information including the currency unit of the foreign currency and the predetermined amount unit is replaced with the numerical information including the currency unit of the home currency and another amount unit corresponding to the predetermined amount unit. Numerical information replacement means,
A news information analyzing apparatus comprising:
請求項1乃至請求項4のいずれか1項に記載のニュース情報分析装置において、
前記ニュースデータおよび前記ニュース情報は前記タイトルに対応するニュース本文を含んでおり、
前記同一性判定手段は、
前記2件のタイトルにそれぞれ対応するニュース本文の少なくとも一方が算出根拠用語を含み、当該2件のタイトルの単語解析結果がそれぞれ同一単位で互いに異なる値の数値情報を含む場合には、前記類似度を算出する前に、予め定められた前記算出根拠に基づく計算手順に沿って当該数値情報のうちの大きい方の値から当該算出根拠に係る調整値を算出し、当該大きい方の値を当該調整値に置換する第2の数値情報置換手段、
を備えたことを特徴とするニュース情報分析装置。
In the news information analysis device according to any one of claims 1 to 4,
The news data and the news information include a news body corresponding to the title,
The identity determination means includes
When at least one of the news texts corresponding to the two titles includes a calculation basis term and the word analysis results of the two titles include numerical information of different values in the same unit, the similarity Before calculating the adjustment value, the adjustment value for the calculation basis is calculated from the larger value of the numerical information in accordance with the calculation procedure based on the predetermined calculation basis, and the larger value is adjusted. Second numerical information replacement means for replacing with a value;
A news information analyzing apparatus comprising:
請求項1乃至請求項5のいずれか1項に記載のニュース情報分析装置において、
前記メモリ内の評価結果にそれぞれ含まれる抽出された用語とID付ニュース情報内の配信時刻とに基づいて、当該抽出された用語と当該用語の出現頻度とを含む統計情報を前記メモリに書き込む統計情報書込手段、を更に備え、
前記重要度算出手順は、前記統計情報が示す出現頻度が基準頻度を超える単語を含むID付ニュース情報の重要度を算出する場合に、前記算出する手順により算出された重要度に対し、前記基準頻度を超える単語に基づく加算値を加算して当該重要度を修正する手順とを含むことを特徴とするニュース情報分析装置。
In the news information analysis device according to any one of claims 1 to 5,
Statistics that write statistical information including the extracted terms and the frequency of appearance of the terms to the memory based on the extracted terms included in the evaluation results in the memory and the distribution time in the news information with ID An information writing means,
In the importance calculation procedure, when calculating the importance of ID-added news information including a word whose appearance frequency indicated by the statistical information exceeds a reference frequency, the importance is calculated with respect to the importance calculated by the calculation procedure. A news information analysis apparatus comprising: a procedure for adding an addition value based on a word exceeding the frequency to correct the importance.
請求項1乃至請求項6のいずれか1項に記載のニュース情報分析装置において、
前記配信サイト名又は前記ニュースソース名と、当該配信サイト名又は当該ニュースソース名に対応する信頼度とを関連付けて記憶する信頼度記憶手段、を更に備え、
前記重要度算出手順は、前記配信サイト名と前記ニュースソース名とを含むニュース情報の重要度を算出する場合に、前記算出する手順により算出された重要度に対し、当該配信サイト名に対応する信頼度と当該ニュースソース名に対応する信頼度とを乗算して当該重要度を修正する手順とを含むことを特徴とするニュース情報分析装置。
The news information analysis apparatus according to any one of claims 1 to 6,
A reliability storage means for storing the distribution site name or the news source name and the reliability corresponding to the distribution site name or the news source name in association with each other;
The importance calculation procedure corresponds to the distribution site name with respect to the importance calculated by the calculating procedure when calculating the importance of news information including the distribution site name and the news source name. A news information analyzing apparatus comprising: a procedure for correcting the importance by multiplying the reliability and the reliability corresponding to the news source name.
JP2010247518A 2010-11-04 2010-11-04 News information analyzer Expired - Fee Related JP5032645B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010247518A JP5032645B2 (en) 2010-11-04 2010-11-04 News information analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010247518A JP5032645B2 (en) 2010-11-04 2010-11-04 News information analyzer

Publications (2)

Publication Number Publication Date
JP2012099001A JP2012099001A (en) 2012-05-24
JP5032645B2 true JP5032645B2 (en) 2012-09-26

Family

ID=46390820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010247518A Expired - Fee Related JP5032645B2 (en) 2010-11-04 2010-11-04 News information analyzer

Country Status (1)

Country Link
JP (1) JP5032645B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103582881B (en) * 2012-05-31 2017-05-03 株式会社东芝 Knowledge extraction device, knowledge updating device, and program
JP6150664B2 (en) * 2013-08-13 2017-06-21 Kddi株式会社 Mining analyzer, method and program
JP6407516B2 (en) * 2013-10-31 2018-10-17 Kddi株式会社 Mining analyzer, method and program
JP6835978B2 (en) * 2017-02-21 2021-02-24 ソニー・インタラクティブエンタテインメント エルエルシー How to determine the authenticity of news
KR102095022B1 (en) * 2019-10-02 2020-03-30 김근수 Method, device and program for trading stocks using articles analysis

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7577655B2 (en) * 2003-09-16 2009-08-18 Google Inc. Systems and methods for improving the ranking of news articles
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization

Also Published As

Publication number Publication date
JP2012099001A (en) 2012-05-24

Similar Documents

Publication Publication Date Title
JP5559352B2 (en) Knowledge extraction device, knowledge update device, and program
US10535042B2 (en) Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet
US9830314B2 (en) Error correction in tables using a question and answer system
CN107247707B (en) Enterprise association relation information extraction method and device based on completion strategy
US20100100815A1 (en) Email document parsing method and apparatus
US7689554B2 (en) System and method for identifying related queries for languages with multiple writing systems
CN106462604B (en) Identifying query intent
US20110282651A1 (en) Generating snippets based on content features
US20120023006A1 (en) Credit Risk Mining
JP5032645B2 (en) News information analyzer
Zhang et al. Feature-level sentiment analysis for Chinese product reviews
CN110134799B (en) BM25 algorithm-based text corpus construction and optimization method
US10860661B1 (en) Content-dependent processing of questions and answers
WO2012096388A1 (en) Unexpectedness determination system, unexpectedness determination method, and program
US20130031098A1 (en) Mismatch detection system, method, and program
CN115186654A (en) Method for generating document abstract
Barbaglia et al. Monitoring the business cycle with fine-grained, aspect-based sentiment extraction from news
US10733221B2 (en) Scalable mining of trending insights from text
US7451398B1 (en) Providing capitalization correction for unstructured excerpts
Alam et al. Comparing named entity recognition on transcriptions and written texts
JP2018120284A (en) Settlement analysis system and settlement analysis program
Borggreve Effects of annual report sentiment on stock returns
Wishart et al. Topic Modelling Experiments on Hellenistic Corpora.
CN112733492B (en) Knowledge base-based aided design method and device, terminal and storage medium
Xu et al. ESG report textual similarity and stock price synchronicity: Evidence from China

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120628

R150 Certificate of patent or registration of utility model

Ref document number: 5032645

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees