JP6554306B2 - Information processing system, information processing method, and computer program - Google Patents

Information processing system, information processing method, and computer program Download PDF

Info

Publication number
JP6554306B2
JP6554306B2 JP2015076960A JP2015076960A JP6554306B2 JP 6554306 B2 JP6554306 B2 JP 6554306B2 JP 2015076960 A JP2015076960 A JP 2015076960A JP 2015076960 A JP2015076960 A JP 2015076960A JP 6554306 B2 JP6554306 B2 JP 6554306B2
Authority
JP
Japan
Prior art keywords
identification information
information
item
document
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015076960A
Other languages
Japanese (ja)
Other versions
JP2016197332A (en
Inventor
知範 泉谷
知範 泉谷
齋藤 邦子
邦子 齋藤
晋行 戸田
晋行 戸田
高橋 司
司 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2015076960A priority Critical patent/JP6554306B2/en
Publication of JP2016197332A publication Critical patent/JP2016197332A/en
Application granted granted Critical
Publication of JP6554306B2 publication Critical patent/JP6554306B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理システム、情報処理方法、およびコンピュータプログラムに関する。   The present invention relates to an information processing system, an information processing method, and a computer program.

従来、ユーザから入力されたキーワードを受け付け、個々の文書を閲覧することなく多様性を考慮した情報提示を実現する情報検索装置が提案されている(例えば特許文献1参照)。この情報検索装置は、検索クエリの使用頻度が大きいと判定した場合には、検索クエリを含む検索ログから算出された統計情報を利用して、検索クエリに対して1つ以上の追加のキーワードを含む絞り込みクエリを特定する。情報検索装置は、特定した絞り込みクエリを利用してユーザが望むと想定される情報を生成する。   2. Description of the Related Art Conventionally, an information search apparatus that accepts a keyword input from a user and realizes information presentation considering diversity without browsing individual documents has been proposed (see, for example, Patent Document 1). When the information search apparatus determines that the frequency of use of the search query is high, the information search apparatus uses the statistical information calculated from the search log including the search query to use one or more additional keywords for the search query. Identify refinement queries to include. The information search device generates information that is assumed to be desired by the user using the specified refinement query.

特開2014−99062号公報JP 2014-99062 A

しかしながら、従来の装置では、利用者にとって利用価値が高い情報を提供できない場合があった。
上記事情に鑑み、本発明は、利用者にとってより利用価値が高い情報を提供可能な技術の提供を目的としている。
However, conventional devices sometimes cannot provide information with high utility value for users.
In view of the above-mentioned circumstances, the present invention aims to provide a technology capable of providing information having higher utility value to users.

本発明の一態様は、時系列に値が変動する項目の識別情報である項目識別情報と、少なくとも1つ以上の文が含まれる文書の識別情報である文書識別情報と、前記文書に含まれる予め指定された評価表現である指定語の数を示す指定語数とが対応付けられた情報テーブルを参照し、特定の前記項目識別情報に対応する前記指定語数を前記情報テーブルから取得する指定語数取得部と、前記項目識別情報に対応する値の時系列変動を取得し、前記特定の項目識別情報に対応付けられ且つ入力された検索語を含む前記文書識別情報の数を前記情報テーブルから抽出し、前記抽出した検索語を含む文書識別情報の数の時系列情報と前記時系列変動との相関度を取得する相関度取得部と、前記相関度取得部により取得された相関度と、前記指定語数取得部により取得された指定語数とに基づいて、前記検索語と前記項目識別情報との関連度を示す指標値を取得する指標値取得部と、を備える情報処理システムである。 One aspect of the present invention includes item identification information which is identification information of an item whose value changes in time series, document identification information which is identification information of a document including at least one sentence, and the document. The specified word number acquisition which acquires the specified word number corresponding to the specific item identification information from the information table by referring to the information table associated with the specified word number indicating the number of specified words which is the evaluation expression specified in advance. And a time-series fluctuation of the value corresponding to the item identification information, and extracting from the information table the number of pieces of document identification information including the input search word associated with the specific item identification information A correlation degree acquisition unit acquiring time series information of the number of pieces of document identification information including the extracted search term and the time series variation; a correlation degree acquired by the correlation degree acquisition unit; Word count On the basis of the obtained specified number of words by parts, an information processing system and an index value acquisition unit that acquires an index value indicating the degree of association between the keyword and the item identification information.

本発明の一態様は、上記の情報処理システムであって、前記指標値取得部は、前記検索語が前記時系列変動に与える影響を示す指標値を取得する。   One aspect of the present invention is the above information processing system, wherein the index value acquisition unit acquires an index value indicating an influence of the search term on the time-series fluctuation.

本発明の一態様は、上記の情報処理システムであって、前記情報テーブルには、前記文書識別情報に対応付けられた文である文情報と、前記文情報ごとの指定語数と、前記文書識別情報に対応付けられた日付が記憶され、前記相関度取得部は、前記文書識別情報に対応付けられた日付に基づいて日ごとに前記検索語を含む前記文書識別情報の数を取得し、前記文書識別情報の数が閾値以上である日付と前記時系列変動の値の変動値が所定値以上である日付との合致度に基づく値を前記文書識別情報の数と前記時系列変動との相関度として取得する。   One aspect of the present invention is the information processing system, wherein the information table includes sentence information that is a sentence associated with the document identification information, a specified number of words for each sentence information, and the document identification. The date associated with the information is stored, and the correlation degree acquisition unit obtains the number of the document identification information including the search word for each day based on the date associated with the document identification information, Correlation between the number of the document identification information and the time series fluctuation is a value based on the degree of coincidence between the date on which the number of document identification information is greater than or equal to the threshold and the date on which the fluctuation value of the time series fluctuation value is a predetermined value or more Get as a degree.

本発明の一態様は、上記の情報処理システムであって、前記相関度取得部は、前記文書識別情報の数が閾値以上である日付と前記時系列変動の値の変動値が所定値以上である日付とのうち一方または両方の日付をずらして合致度に基づく値を前記文書識別情報の数と前記時系列変動との相関度として取得する。   One aspect of the present invention is the information processing system described above, wherein the correlation degree acquisition unit is configured such that a date when the number of document identification information is greater than or equal to a threshold value and a variation value of the time-series variation value is greater than or equal to a predetermined value. One or both of the dates are shifted to obtain a value based on the degree of matching as the degree of correlation between the number of document identification information and the time-series fluctuation.

本発明の一態様は、上記の情報処理システムであって、前記相関度取得部は、前記文書識別情報の数の取得の対象となった日付より前の日付に対応づけられた前記文書識別情報の数に基づいて前記閾値を取得する。   One aspect of the present invention is the above-described information processing system, wherein the correlation degree acquisition unit associates the document identification information associated with a date prior to the date on which the number of document identification information is acquired. The threshold value is acquired based on the number of.

本発明の一態様は、上記の情報処理システムであって、前記指定語は、肯定的な表現を示す肯定語、または否定的な表現を示す否定語であり、前記指標値取得部は、前記指定語が肯定語である場合は、前記相関度取得部により取得された相関度、および前記指定語数取得部により取得された肯定語数に基づいて、前記検索語と前記項目識別情報との肯定的な意味を持つ関連度を示す指標値を取得し、前記指定語が否定語である場合は、前記相関度取得部により取得された相関度、および前記指定語数取得部により取得された否定語数に基づいて、前記検索語と前記項目識別情報との否定的な意味を持つ関連度を示す指標値を取得する。 One embodiment of the present invention is the information processing system described above, wherein the designation word is a positive word indicating a positive expression, or a negative word indicating a negative expression, and the index value acquisition unit When the designated word is a positive word, the positive of the search word and the item identification information is based on the correlation degree acquired by the correlation degree acquiring unit and the number of positive words acquired by the designated word number acquiring unit. The index value indicating the degree of association having a meaningful meaning is acquired, and when the designated word is a negative word, the degree of correlation acquired by the correlation degree acquiring unit and the number of negative words acquired by the designated word number acquiring unit Based on this, an index value indicating a degree of association having a negative meaning between the search term and the item identification information is acquired.

本発明の一態様は、コンピュータが、時系列に値が変動する項目の識別情報である項目識別情報と、少なくとも1つ以上の文が含まれる文書の識別情報である文書識別情報と、前記文書に含まれる予め指定された評価表現である指定語の数を示す指定語数とが対応付けられた情報テーブルを参照し、特定の前記項目識別情報に対応する前記指定語数を前記情報テーブルから取得する指定語数取得ステップと、前記項目識別情報に対応する値の時系列変動を取得し、前記特定の項目識別情報に対応付けられ且つ入力された検索語を含む前記文書識別情報の数を前記情報テーブルから抽出し、前記抽出した検索語を含む文書識別情報の数の時系列情報と前記時系列変動との相関度を取得する相関度取得ステップと、前記相関度取得ステップにより取得された相関度と、前記指定語数取得ステップにより取得された指定語数とに基づいて、前記検索語と前記項目識別情報との関連度を示す指標値を取得する指標値取得ステップと、を有する情報処理方法である。 According to one aspect of the present invention, there is provided a computer- implemented item identification information which is identification information of an item whose value changes in time series, document identification information which is identification information of a document including at least one sentence, and the document Refers to the information table associated with the number of designated words indicating the number of designated words which are the evaluation expressions designated in advance, and acquires the number of designated words corresponding to the specific item identification information from the information table The designated word number acquiring step, the time-series fluctuation of the value corresponding to the item identification information, the number of the document identification information including the input search term associated with the specific item identification information, and the information table Extracting a correlation degree between time series information of the number of document identification information including the extracted search term and the time series fluctuation, and the correlation degree acquiring step An index value acquisition step of acquiring an index value indicating a degree of association between the search term and the item identification information based on the acquired correlation degree and the designated word number acquired by the designated word number acquiring step; It is an information processing method.

本発明の一態様は、コンピュータに、時系列に値が変動する項目の識別情報である項目識別情報と、少なくとも1つ以上の文が含まれる文書の識別情報である文書識別情報と、前記文書に含まれる予め指定された評価表現である指定語の数を示す指定語数とが対応付けられた情報テーブルを参照し、特定の前記項目識別情報に対応する前記指定語数を前記情報テーブルから取得する指定語数取得ステップと、前記項目識別情報に対応する値の時系列変動を取得し、前記特定の項目識別情報に対応付けられ且つ入力された検索語を含む前記文書識別情報の数を前記情報テーブルから抽出し、前記抽出した検索語を含む文書識別情報の数の時系列情報と前記時系列変動との相関度を取得する相関度取得ステップと、前記相関度取得ステップにより取得された相関度と、前記指定語数取得ステップにより取得された指定語数とに基づいて、前記検索語と前記項目識別情報との関連度を示す指標値を取得する指標値取得ステップと、を実行させるためのコンピュータプログラムである。
According to one aspect of the present invention, there is provided a computer comprising : item identification information which is identification information of an item whose value changes in time series; document identification information which is identification information of a document including at least one sentence; Refers to the information table associated with the number of designated words indicating the number of designated words which are the evaluation expressions designated in advance, and acquires the number of designated words corresponding to the specific item identification information from the information table The designated word number acquiring step, the time-series fluctuation of the value corresponding to the item identification information, the number of the document identification information including the input search term associated with the specific item identification information, and the information table extracted from the correlation acquisition step of acquiring correlation between the time-series variation and time-series information of the number of document identification information including the search word and the extracted, by the correlation acquisition step Performing an index value acquisition step of acquiring an index value indicating a degree of association between the search term and the item identification information based on the acquired correlation degree and the number of designated words acquired by the designated word number acquiring step; Is a computer program to

本発明により、利用者にとってより利用価値が高い情報を提供することができる。   According to the present invention, it is possible to provide information having higher utility value for the user.

情報処理システム10が実行する処理の概要を説明するための図である。It is a figure for demonstrating the outline | summary of the process which the information processing system 10 performs. 第1の実施形態における情報処理システム10の機能構成を示す概略ブロック図である。It is a schematic block diagram which shows the function structure of the information processing system 10 in 1st Embodiment. アイテムセンテンス記憶部24に記憶されているアイテムセンテンステーブル25の一例を示す図である。It is a figure which shows an example of the item sentence table 25 memorize | stored in the item sentence memory | storage part 24. FIG. 情報処理システム10により実行される処理の流れを示すフローチャートである。5 is a flowchart showing a flow of processing executed by the information processing system 10. ステップS112の処理詳細の流れを示すフローチャートである。It is a flowchart which shows the flow of the processing detail of step S112. 時系列相関スコアの算出について説明するための概念図である。It is a conceptual diagram for demonstrating calculation of a time-sequential correlation score. 第2の実施形態の情報処理システム10Aの機能構成について説明するための図である。It is a figure for demonstrating the function structure of 10 A of information processing systems of 2nd Embodiment. アイテム関連語リスト記憶部46に記憶される情報の一例を示す図である。It is a figure which shows an example of the information memorize | stored in the item related word list memory | storage part. 情報登録部40により実行される処理の流れを示すフローチャートである。5 is a flowchart showing a flow of processing executed by the information registration unit 40.

以下、図面を参照し、本発明の情報処理システム、情報処理方法、およびコンピュータプログラムの実施形態について説明する。   Hereinafter, embodiments of an information processing system, an information processing method, and a computer program according to the present invention will be described with reference to the drawings.

(第1実施形態)
図1は、情報処理システム10が実行する処理の概要を説明するための図である。情報処理システム10は、例えば検索語として「オリンピック」が入力された場合、ニュースや、ブログ等のテキスト情報を基に構築されたデータベースを検索する。情報処理システム10は、検索した結果に基づいて、所定のアイテム(項目)と検索語との関係を示す関連指数を算出する。アイテムとは商品名や、株式銘柄など検索結果の出力に期待するものを指す。本実施形態では、一例として検索語に関連する株式銘柄を検索する場合について説明する。
First Embodiment
FIG. 1 is a diagram for explaining an outline of processing performed by the information processing system 10. For example, when “Olympics” is input as a search term, the information processing system 10 searches a database constructed based on text information such as news and blog. The information processing system 10 calculates an association index indicating a relationship between a predetermined item (item) and a search term based on the search result. An item refers to a product name, stock item, etc. that is expected for output of search results. In the present embodiment, as an example, a case where a stock brand related to a search word is searched will be described.

また、情報処理システム10は、検索語が所定の株式銘柄に対して肯定的な意味を持つと判断されることを示すポジティブスコア(Pスコア)、または検索語が所定の株式銘柄に対して否定的な意味を持つと判断されることを示すネガティブスコア(Nスコア)を算出する。株式銘柄の場合、肯定的な意味を持つとは、文書内で肯定的に該当銘柄が言及されていたり、該当銘柄の言及のある記事数が株価の上昇傾向と相関していたりすることであり、否定的な意味を持つとは、文書内で否定的に該当銘柄が言及されていたり、該当銘柄の言及のある記事数が株価の下落傾向と相関していたりすることである。情報処理システム10は、算出した関連指数、Pスコア、またはNスコアを株式銘柄に関する付帯情報や、検索に用いられた文書等と共に出力する。なお、ポジティブスコア(Pスコア)は、検索語が所定の株式銘柄に対して肯定的に影響することを示す指標値であってもよい。ネガティブスコア(Nスコア)は、検索語が所定の株式銘柄に対して否定的に影響することを示す指標値であってもよい。   In addition, the information processing system 10 has a positive score (P score) indicating that the search term is determined to have a positive meaning with respect to a predetermined stock name, or the search term denies a predetermined stock name. A negative score (N score) indicating that it is determined to have a specific meaning is calculated. In the case of a stock issue, having a positive meaning means that the issue is positively referred to in the document, or the number of articles that mention the issue is correlated with the rising trend of the stock price. To have a negative meaning means that the relevant stock is mentioned negatively in the document, or the number of articles that mention the relevant stock correlates with the downward trend of the stock price. The information processing system 10 outputs the calculated related index, P score, or N score together with incidental information about stock issues, documents used for search, and the like. The positive score (P score) may be an index value indicating that a search term positively affects a predetermined stock name. The negative score (N score) may be an index value indicating that a search term negatively affects a predetermined stock name.

情報処理システム10は、ネットワーク等の通信網を介して外部端末100から関連を調べたい語を含む検索要求を取得する。情報処理システム10は、自装置が備えるアイテムセンテンス記憶部24(後述)とアイテム時系列記憶部26(後述)とに蓄積されている情報を検索し、関連を調べたい語に関連が高い株式銘柄(アイテム)のリスト(出力アイテムリスト)を生成し、外部端末100に送信する。   The information processing system 10 acquires a search request including a word whose relationship is to be checked from the external terminal 100 via a communication network such as a network. The information processing system 10 searches information stored in an item sentence storage unit 24 (described later) and an item time series storage unit 26 (described later) included in the own device, and is a stock issue that is highly related to a word to be examined. A list of (items) (output item list) is generated and transmitted to the external terminal 100.

関連の高さは、検索スコア、ポジティブ語スコア、ネガティブ語スコア、ポジティブ時系列相関スコア、ネガティブ時系列相関スコアの5種類のスコアにより表される。情報処理システム10の処理結果は、5種類のスコアのうち一つを用いても良いし、複数種類のスコアを組み合わせ、スコアの重み付け和等により新たに値を算出してもよい。なお、5種類のスコアの詳細については後述する。   The degree of association is represented by five types of scores: a search score, a positive word score, a negative word score, a positive time series correlation score, and a negative time series correlation score. As the processing result of the information processing system 10, one of five types of scores may be used, or a plurality of types of scores may be combined, and a new value may be calculated by weighted sum of scores or the like. The details of the five types of scores will be described later.

図2は、第1の実施形態における情報処理システム10の機能構成を示す概略ブロック図である。情報処理システム10は、ネットワークNWを介して外部端末100に接続される。情報処理システム10は、1台または複数台の情報処理装置によって構成される。例えば、情報処理システム10が1台の情報処理装置で構成される場合、情報処理装置は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、情報処理プログラムを実行する。情報処理プログラムの実行によって、情報処理装置は、要求受信部12と、制御部(指標値取得部)14と、検索スコア取得部16と、ポジネガスコア取得部(指定語数取得部)18と、時系列相関スコア取得部(相関度取得部)20と、応答部22と、アイテムセンテンス記憶部24と、アイテム時系列記憶部26とを備える装置として機能する。なお、情報処理システム10の全てまたは一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。また、情報処理システム10は、専用のハードウェアによって実現されてもよい。情報処理プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されても良い。コンピュータ読み取り可能な記憶媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピュータシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。情報処理プログラムは、電気通信回線を介して提供されてもよい。なお、本実施形態において取得とは、情報処理システム10、または情報処理装置の上述した機能部が、例えばネットワーク等の通信網を介して他のシステムや、他の装置、他の機能部等から情報を取得することを含む。本実施形態において取得とは、情報処理システム10、または情報処理装置の上述した機能部が、予め登録された情報テーブルから該当する情報を取得することを含む。更に本実施形態において取得とは、情報処理システム10または情報処理装置が、取得した情報または保持している情報に基づいて演算処理を行うことを含む。   FIG. 2 is a schematic block diagram illustrating a functional configuration of the information processing system 10 according to the first embodiment. The information processing system 10 is connected to the external terminal 100 via the network NW. The information processing system 10 is configured of one or more information processing apparatuses. For example, when the information processing system 10 includes one information processing apparatus, the information processing apparatus includes a CPU (Central Processing Unit), a memory, an auxiliary storage device, and the like connected by a bus, and executes an information processing program. To do. By the execution of the information processing program, the information processing apparatus has a request reception unit 12, a control unit (index value acquisition unit) 14, a search score acquisition unit 16, a positive gas core acquisition unit (specified word number acquisition unit) 18, and a time It functions as an apparatus including a serial correlation score acquisition unit (correlation degree acquisition unit) 20, a response unit 22, an item sentence storage unit 24, and an item time series storage unit 26. Note that all or part of the information processing system 10 may be realized using hardware such as an application specific integrated circuit (ASIC), a programmable logic device (PLD), or a field programmable gate array (FPGA). Further, the information processing system 10 may be realized by dedicated hardware. The information processing program may be stored in a computer readable storage medium. The computer-readable storage medium is, for example, a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, a semiconductor storage device (for example, SSD: Solid State Drive), a hard disk built in a computer system, or a semiconductor storage. A storage device such as a device. The information processing program may be provided via a telecommunication line. In the present embodiment, acquisition means that the information processing system 10 or the above-described functional unit of the information processing apparatus is, for example, from another system, other apparatus, other functional unit, etc. via a communication network such as a network. Including obtaining information. In the present embodiment, acquisition includes that the information processing system 10 or the above-described functional unit of the information processing apparatus acquires corresponding information from an information table registered in advance. Furthermore, in the present embodiment, acquisition includes performing arithmetic processing based on the acquired information or information held by the information processing system 10 or the information processing apparatus.

要求受信部12は、外部端末100から関連を調べたい語(検索語)を含む検索要求を取得して制御部14に出力する。検索要求には、例えば検索語、検索対象ドキュメント種別(ニュースや、ブログ、その他企業に関する文書等、またはこれらの組み合わせ)、スコア計算方法(検索スコア取得部16、ポジネガスコア取得部18、または時系列相関スコア取得部20により算出された算出結果のうち最終的にどの算出結果を出力するか、または算出結果に基づく統合スコアを算出するかを指定)が含まれる。   The request receiving unit 12 acquires a search request including a word (search word) whose relation is to be checked from the external terminal 100 and outputs the search request to the control unit 14. The search request includes, for example, search terms, search target document types (news, blogs, documents related to other companies, or a combination thereof), score calculation method (search score acquisition unit 16, positive / negative score acquisition unit 18, or time series) Among the calculation results calculated by the correlation score acquisition unit 20, which calculation result is finally output or an integrated score based on the calculation result is specified) is included.

また、検索要求には、出力銘柄リストソート順(検索スコア、ポジティブ語スコア、ネガティブ語スコア、ポジティブ時系列相関スコア、ネガティブ時系列相関スコアのどのスコアに基づいてソートするかを指定)、出力フォーマット等が含まれる。検索要求には検索語(この語と関連するアイテムを検索することが目的である)が含まれる。検索要求には、その他、対象データの種別(ニュースや、ブログ、決算資料、企業Webサイト、その他銘柄に関するテキストデータ)、検索対象を含めることができる。また、検索要求には、検索スコア取得部16、ポジネガスコア取得部18、または時系列相関スコア取得部20で使用されるパラメータ(後述)、出力する情報に関する指示等を含めることができる。   In addition, in search request, output stock list sort order (specify which score to sort based on search score, positive word score, negative word score, positive time series correlation score, negative time series correlation score), output format Etc. are included. The search request includes a search term (the purpose is to search for items associated with this term). In addition, the search request can include the type of target data (news, blog, financial statements, company website, text data related to other brands) and search target. Further, the search request can include parameters (described later) used in the search score acquisition unit 16, the positive gas core acquisition unit 18, or the time-series correlation score acquisition unit 20, instructions regarding information to be output, and the like.

アイテムセンテンス記憶部24には、アイテムセンテンステーブル(情報テーブル)25が格納されている。アイテムセンテンステーブル25は、ニュースや、ブログ、その他記事等のテキストデータ(以下「ドキュメント(文書)」という。)に基づいて作成される。アイテムセンテンステーブル25の各レコードは、文書を分割した単位であるセンテンス(文)を登録単位としている。図3は、アイテムセンテンス記憶部24に記憶されているアイテムセンテンステーブル25の一例を示す図である。各センテンスに対応付けられて、レコードのID、データの種別、ドキュメントに対応付けられた(閲覧可能となった)日付、センテンスに関連する株式銘柄の銘柄コード、センテンスを含む記事ID、記事のリンク先、文書内におけるセンテンスの記事番号、センテンスの本文テキスト、検索用インデクス、ポジティブ語数、およびネガティブ語数が対応付けられて記憶されている。ポジティブ語数とは、センテンス内に存在する事前に設定された肯定的な表現を示す語の数である。ネガティブ語数とは、センテンス内に存在する事前に設定された否定的な表現を示す語の数である。   The item sentence storage unit 24 stores an item sentence table (information table) 25. The item sentence table 25 is created based on text data (hereinafter referred to as “document (document)”) such as news, blog, and other articles. Each record of the item sentence table 25 has a sentence (sentence) which is a unit obtained by dividing the document as a registration unit. FIG. 3 is a view showing an example of the item sentence table 25 stored in the item sentence storage unit 24. As shown in FIG. Corresponding to each sentence, record ID, data type, date associated with the document (available for browsing), stock code related to the sentence, article ID including the sentence, article link First, the article number of the sentence in the document, the body text of the sentence, the search index, the number of positive words, and the number of negative words are associated and stored. The number of positive words is the number of words indicating preset positive expressions present in a sentence. The number of negative words is the number of words indicating preset negative expressions present in a sentence.

アイテムセンテンステーブル25は、ドキュメントの集まりを入力データとして、例えば以下の手順で事前に作成され、アイテムセンテンス記憶部24に格納される。なお、アイテムセンテンステーブル25は、情報処理システム10により以下の手順で作成されてもよいし、後述する第2の実施形態の情報登録部40により作成されてもよい。
(1)センテンスは、句点やピリオド、または連続した改行等を区切り文字としてドキュメントを分割することで作成される。
(2)各センテンスに対して、公知のテキスト解析法を適用し、品詞情報が付与された形態素等の更に細かい単位に分割しリストを作成する。以下、この単位を「単語」という。「単語」は、言語学における単語や形態素と同一である必要はない。テキスト解析手法として、例えば下記参考文献1に記載された形態素解析JTAG等の公知の技術を用いることができる。また、本処理において助詞、助動詞、指示代名詞等の検索には有用でないと判断した単語はリストから削除してもよい。
[参考文献1]今村賢治、他2名、「テキストからの知識抽出の基盤となる日本語基本解析技術」,NTT技術ジャーナル,vоl.20、No.6、p.20-23、2008年
(3)上記(2)で作成された単語を用いて、検索用のインデクスを作成する。
(4)センテンス、または単語のリストに対して評価語抽出手法を適用し、各単語に評価語ラベルを付与する。例えば肯定的な単語であるか否か、または否定的な単語であるか否かに基づいて、例えば「ポジティブ」「ネガティブ」の2種類のラベルを付与する。本処理は、例えば下記参考文献2に記載された公知の評価表現抽出手法等を用いることができる。以下、評価語ラベルとして「ポジティブ」「ネガティブ」の2種類を仮定して説明を行う。
[参考文献2]浅野久子,他3名,「Web上の口コミを分析する評判情報インデクシング技術」,NTT技術ジャーナル,vоl.20、No.6、p.12-15、2008年
(5)上記(4)で付与されたラベル種別およびセンテンスごと、ラベル種別ごとに集計し、アイテムセンテンス記憶部24に上述した処理結果を記憶させる。
(6)銘柄コードは、センテンスに関連する銘柄を特定するコードであり、アイテムセンテンス記憶部24に格納されたコードテーブルに基づいて指定される。なお、コードテーブルには、銘柄と銘柄を特定するコードとが対応付けられている。例えばセンテンスにある銘柄が含まれている場合、該当するセンテンスにある銘柄コードが対応付けられる。
The item sentence table 25 is created in advance according to the following procedure, for example, using a collection of documents as input data, and is stored in the item sentence storage unit 24. The item sentence table 25 may be created by the information processing system 10 according to the following procedure, or may be created by the information registration unit 40 of the second embodiment described later.
(1) Sentences are created by dividing a document using punctuation marks, periods, or consecutive line breaks as delimiters.
(2) A well-known text analysis method is applied to each sentence, and a list is created by dividing it into finer units such as morphemes to which part-of-speech information is added. Hereinafter, this unit is called "word". A "word" does not have to be identical to a word or morpheme in linguistics. As a text analysis method, for example, known techniques such as morphological analysis JTAG described in the following reference 1 can be used. In addition, words that are determined not to be useful for searching for particles, auxiliary verbs, and designated pronouns in this processing may be deleted from the list.
[Reference 1] Kenji Imamura and two others, “Basic Japanese Analysis Technology as a Foundation for Knowledge Extraction from Texts”, NTT Technical Journal, v.l.20, No.6, p.20-23, 2008 ( 3) A search index is created using the word created in (2) above.
(4) An evaluation word extraction method is applied to a sentence or a list of words, and an evaluation word label is assigned to each word. For example, two types of labels, for example, "positive" and "negative" are given based on whether they are positive words or negative words. For this processing, for example, a known evaluation expression extraction method described in Reference Document 2 below can be used. Hereinafter, description will be made assuming two types of evaluation word labels, “positive” and “negative”.
[Reference 2] Hisako Asano and three others, “Reputation information indexing technology for analyzing reviews on the Web”, NTT Technical Journal, v.l.20, No.6, p.12-15, 2008 (5) above (4) The label type and the sentence given in (4) are summed up for each label type, and the processing result described above is stored in the item sentence storage unit 24.
(6) The brand code is a code for specifying a brand related to a sentence, and is specified based on the code table stored in the item sentence storage unit 24. In the code table, brands and codes for identifying brands are associated with each other. For example, when a brand in the sentence is included, a brand code in the corresponding sentence is associated.

アイテム時系列記憶部26には、株式銘柄に対応する株価の変動が時系列に対応付けられたアイテム時系列情報(時系列変動)が記憶されている。アイテムが商品名である場合、該当商品の日ごとの売上数等である。   The item time-series storage unit 26 stores item time-series information (time-series fluctuation) in which fluctuations in stock prices corresponding to stock issues are associated in time series. When the item is a product name, it is the number of sales per day of the product.

制御部14は、取得した検索要求を解析し、アイテムセンテンス記憶部24から解析結果に対応する情報を抽出する。制御部14は、検索スコア取得部16、ポジネガスコア取得部18、または時系列相関スコア取得部20に抽出した情報を出力する。制御部14は、検索スコア取得部16、ポジネガスコア取得部18、または時系列相関スコア取得部20により算出された算出結果に基づいて、種々の情報間の相関度を算出する。また、制御部14は、時系列相関スコア取得部20により算出された相関度、およびポジネガスコア取得部18により算出された算出結果に基づいて、検索語と株式銘柄がどれだけ肯定的な意味における関連性、または否定的な意味における関連性を持っているかを示す指標値を算出する。   The control unit 14 analyzes the acquired search request and extracts information corresponding to the analysis result from the item sentence storage unit 24. The control unit 14 outputs the extracted information to the search score acquisition unit 16, positive gas core acquisition unit 18, or time series correlation score acquisition unit 20. The control unit 14 calculates the degree of correlation between various pieces of information based on the calculation results calculated by the search score acquisition unit 16, the positive gas core acquisition unit 18, or the time series correlation score acquisition unit 20. In addition, the control unit 14 is based on the degree of correlation calculated by the time-series correlation score acquiring unit 20 and the calculation result calculated by the positive / negative score acquiring unit 18 in how positive the search word and the stock name are. An index value indicating whether there is relevance or relevance in a negative sense is calculated.

検索スコア取得部16は、制御部14により抽出された情報に基づいて、検索結果をスコアとして算出する。ポジネガスコア取得部18は、制御部14により抽出された情報に含まれるポジティブな表現を表す語の数、またはネガティブな表現を表す語の数に基づいて、株式銘柄ごとにポジティブ語スコアまたはネガティブ語スコアを算出する。時系列相関スコア取得部20は、アイテム時系列情報を取得する。時系列相関スコア取得部20は、アイテム時系列情報、およびアイテムセンテンステーブル25に含まれる情報に基づいて、検索語を含むドキュメントの数の時系列情報(検索語時系列情報)とアイテム時系列情報との相関度を算出する。応答部22は、制御部14から取得した情報を外部端末100にネットワークNWを介して送信する。   The search score acquisition unit 16 calculates the search result as a score based on the information extracted by the control unit 14. The positive / negative score acquisition unit 18 determines a positive word score or a negative word for each stock based on the number of words representing a positive expression or the number of words representing a negative expression included in the information extracted by the control unit 14. Calculate the score. The time series correlation score acquisition unit 20 acquires item time series information. The time-series correlation score acquisition unit 20 is based on the item time-series information and the information included in the item sentence table 25, the time-series information (search term time-series information) of the number of documents including the search word and the item time-series information The degree of correlation with is calculated. The response unit 22 transmits the information acquired from the control unit 14 to the external terminal 100 via the network NW.

図4は、情報処理システム10により実行される処理の流れを示すフローチャートである。まず、制御部14が、要求受信部12から検索要求を取得するまで待機する(ステップS100)。検索要求を取得すると、制御部14は、取得した検索要求を解析し(ステップS102)、アイテムセンテンス記憶部24から解析結果に対応する情報を抽出する(ステップS104)。次に、制御部14は、抽出された情報に基づいて、同一の銘柄コードを含むレコードを抽出する(ステップS106)。   FIG. 4 is a flowchart showing a flow of processing executed by the information processing system 10. First, the control unit 14 stands by until a search request is acquired from the request receiving unit 12 (step S100). When the search request is acquired, the control unit 14 analyzes the acquired search request (step S102), and extracts information corresponding to the analysis result from the item sentence storage unit 24 (step S104). Next, the control part 14 extracts the record containing the same brand code based on the extracted information (step S106).

次に、ステップS108からステップS112の処理では、ステップS106で抽出された同一の銘柄コードごとに各処理を実行する。検索スコア取得部16が、ステップS106で抽出されたレコードに対応するセンテンス数に基づいて、銘柄コードの検索スコアを算出する(ステップS108)。検索スコアは、検索語が含まれ、且つ同一の銘柄コードが対応付けられたセンテンス数に基づいて算出される。なお、検索スコアは、図1で示した関連指数に相当する。   Next, in the processing from step S108 to step S112, each processing is executed for each identical brand code extracted in step S106. The search score acquisition unit 16 calculates a search score for the brand code based on the number of sentences corresponding to the record extracted in step S106 (step S108). The search score is calculated based on the number of sentences including the search word and associated with the same brand code. The search score corresponds to the related index shown in FIG.

検索スコアとして上記センテンス数を用いることができるが、例えば抽出されたセンテンス数の平均値が1/λ、標準偏差が1/λの指数分布に従うと仮定し、指数分布の累積分布関数を用いて検索スコアの値が0から100の間の値を満たすように、例えば式(1)を用いて算出してもよい。

Figure 0006554306

ここでλは実定数であり、検索スコア取得部16の記憶領域に事前に設定値として保存しておく。なお、式(1)代えて、その他の累積分布関数を用いてもよい。また、検索スコア取得部16は、単純にセンテンス数をカウントする代わりに、センテンス数に対して重み付けを行ってもよい。例えば検索スコア取得部16は、センテンスに対応付けられた日付が検索スコアの算出時に近いセンテンスほど大きな重みをかけて和をとるようにしてもよい。また、ニュースやブログなど種別の異なる文書からのセンテンス情報がアイテムセンテンステーブルに含まれる場合、種別ごとに別々に検索スコアを算出し、予め決められた重みを用いて種別ごとの検索スコアの重みづけ和として最終的な検索スコアを決定してもよい。 Although the above sentence number can be used as a search score, for example, assuming that the average value of the extracted sentence numbers follows an exponential distribution of 1 / λ and the standard deviation is 1 / λ, using the cumulative distribution function of the exponential distribution For example, the value of the search score may be calculated using equation (1) so as to satisfy the value between 0 and 100.
Figure 0006554306

Here, λ is a real constant, and is stored in advance in the storage area of the search score acquisition unit 16 as a set value. Note that other cumulative distribution functions may be used instead of equation (1). Further, the search score acquiring unit 16 may weight the sentence number instead of simply counting the sentence number. For example, the search score acquisition unit 16 may add a weight to a sentence whose date closer to the sentence is closer to the time of calculation of the search score, and may sum them. In addition, when sentence information from documents of different types such as news and blogs is included in the item sentence table, the search score is calculated separately for each type, and the search score is weighted for each type using a predetermined weight. The final search score may be determined as the sum.

次に、ポジネガスコア取得部18が、ステップS106で抽出された同一の銘柄のレコードのセンテンスに含まれるポジティブ語数、およびネガティブ語数に基づいて、ポジティブ語スコアTp、およびネガティブ語スコアTnを算出する(ステップS110)。ポジティブ語スコアTpは、銘柄コードごとにポジティブ語数を加算したカウント数Cpに基づいて算出される。また、ネガティブ語スコアTnは、銘柄コードごとにネガティブ語数を加算したカウント数Cnに基づいて算出される。ポジティブ語スコアTp、またはネガティブ語スコアTnは、それぞれCp、Cnの値をそのまま用いてもよいが、検索スコアと同様に前述した式(1)等の関数を用いて正規化された数値を算出してもよい。   Next, the positive / negative score acquisition unit 18 calculates the positive word score Tp and the negative word score Tn based on the number of positive words and the number of negative words included in the sentence of the same grade record extracted in step S106 ( Step S110). The positive word score Tp is calculated based on the count number Cp obtained by adding the number of positive words for each brand code. The negative word score Tn is calculated based on the count number Cn obtained by adding the number of negative words for each brand code. For positive word score Tp or negative word score Tn, the values of Cp and Cn may be used as they are, but similar to the search score, normalized numerical values are calculated using a function such as the equation (1) described above. May be.

次に、時系列相関スコア取得部20が、時系列相関スコア(ポジティブスコア、およびネガティブスコア)を算出する(ステップS112)。時系列相関スコア、ポジティブスコア、およびネガティブスコアの算出手法の詳細については後述する。次に、制御部14は、ステップS108からステップS112で算出された算出結果を整形する(ステップS114)。例えば制御部14は、検索要求で出力する複数銘柄コードのソート順が指定されている場合には、算出された各スコアに基づいて銘柄リストをソートして、所定のフォーマットに整形する。所定のフォーマットとは、JSON形式や、XML形式、CSV形式等の検索要求で指定された形式である。次に、応答部22は、ステップS114で制御部14により整形された所定のフォーマットの銘柄リストを外部端末100に送信する(ステップS116)。これにより外部端末100には、情報処理システム10により生成された銘柄リストが表示される。銘柄リストには、銘柄コード(銘柄名)、検索スコア、ポジティブ語スコア、ネガティブ語スコア、後述する時系列相関スコア、後述するポジティブスコア、後述するネガティブスコア、検索されたドキュメント名、URL等の文書の情報リスト、順位のうち全部、または一部が含まれる。   Next, the time series correlation score acquisition unit 20 calculates a time series correlation score (positive score and negative score) (step S112). Details of the method for calculating the time series correlation score, the positive score, and the negative score will be described later. Next, the control unit 14 shapes the calculation result calculated in steps S108 to S112 (step S114). For example, when the sort order of the multiple brand codes output in the search request is designated, the control unit 14 sorts the brand list based on the calculated scores and shapes the list into a predetermined format. The predetermined format is a format specified in a search request such as JSON format, XML format, CSV format and the like. Next, the response unit 22 transmits, to the external terminal 100, the brand list of the predetermined format shaped by the control unit 14 in step S114 (step S116). As a result, the brand list generated by the information processing system 10 is displayed on the external terminal 100. The brand list includes a brand code (brand name), a search score, a positive word score, a negative word score, a time series correlation score to be described later, a positive score to be described later, a negative score to be described later, a searched document name, a URL document, and the like. The information list of, all or part of the ranking is included.

[時系列相関スコア、ポジティブスコア、およびネガティブスコアの算出手法]
時系列相関スコア取得部20は、アイテムセンテンス記憶部24から抽出された情報に基づいて取得された検索語時系列情報と、アイテム時系列記憶部26に記憶されたアイテム時系列情報と、に基づいて時系列相関スコアを算出する。検索語時系列情報とは、制御部14によりアイテムセンテンステーブル25から抽出されたアイテムの時系列変動を示した情報である。検索語時系列情報とは、例えば検索語の日ごとの出現頻度の配列(後述の「ドキュメントカウント値時系列情報」)等である。
[Method of calculating time series correlation score, positive score, and negative score]
The time-series correlation score acquisition unit 20 is based on the search word time-series information acquired based on the information extracted from the item sentence storage unit 24 and the item time-series information stored in the item time-series storage unit 26. The time series correlation score is calculated. The search term time-series information is information indicating time-series fluctuation of items extracted from the item sentence table 25 by the control unit 14. The search word time series information is, for example, an array of appearance frequencies of search words for each day (described later “document count value time series information”).

時系列相関スコアとは、検索語時系列情報と、アイテム時系列情報との関連度を示す度合である。また、時系列相関スコアには、例えばポジティブ時系列相関スコアSpおよびネガティブ時系列相関スコアSnが含まれる。ポジティブ時系列相関スコアSpとは、検索語時系列情報と、アイテム時系列情報との関連度において肯定的な関連を示すスコアである。ネガティブ時系列相関スコアSnとは、検索語時系列情報と、アイテム時系列情報との関連度において否定的な関連を示すスコアである。   The time series correlation score is a degree indicating the degree of association between the search word time series information and the item time series information. The time series correlation score includes, for example, a positive time series correlation score Sp and a negative time series correlation score Sn. The positive time series correlation score Sp is a score indicating a positive relation in the degree of association between the search word time series information and the item time series information. The negative time series correlation score Sn is a score indicating a negative association in the degree of association between the search word time series information and the item time series information.

一般的に、時系列相関スコアを求めるとき、単純に検索語時系列情報と、アイテム時系列情報とのピアソンの積率相関係数を求める場合がある。この場合、検索語の日ごとの出現頻度の全体的な傾向の類似性を示すが、例えば検索語が多量に出現した日、またはその直後に株価が上昇した場合、または下落した場合が考慮された時系列相関スコアにはならない。   In general, when obtaining a time series correlation score, a Pearson product-moment correlation coefficient between search word time series information and item time series information may be simply obtained. In this case, although the overall tendency of the frequency of appearance of search terms is similar, the case is taken into consideration, for example, when the stock price rises or falls immediately after the day when a large number of search terms appear. It will not be a time series correlation score.

また、他の方法として、例えば下記参考文献3に記載された株価と記事等のテキストデータの関連性に基づいて銘柄にスコアを付与する技術がある。この方法では、文書に含まれる各単語の株価変動に対する寄与度に基づき各単語にスコアを付与している。本手法により時系列相関スコアを算出する場合、すべての単語に関して主成分解析や、回帰分析等の統計解析結果を事前に算出して保持する必要があり、記事が追加される度に再計算が必要となる。このため、必要となる銘柄コード等のアイテムに対して直接スコアを付与するものでないため、銘柄コード間の比較に本手法を用いることができない場合がある。
[参考文献3]敷地琢哉,和泉潔,「複数のテキスト情報を用いた株式市場動向の分析」,人口知能学会研究会資料,SIG-FIN-013-09、2014年
As another method, for example, there is a technique of giving a score to a stock based on the relevancy of the stock price and the text data such as an article described in the following reference 3. In this method, a score is assigned to each word based on the degree of contribution of each word included in the document to the stock price fluctuation. When calculating a time-series correlation score by this method, it is necessary to calculate and hold in advance statistical analysis results such as principal component analysis and regression analysis for all words, and recalculation is performed each time an article is added. It will be necessary. For this reason, since it is not what gives a score directly to items, such as a required brand code, this method may not be able to be used for comparison between brand codes.
[Reference 3] Site group, Kizumi Izumi, "Analysis of stock market trends using multiple text information", Japan Society for Population Intelligence, SIG-FIN-013-09, 2014

本実施形態では以下の手法により、時系列相関スコア取得部20が時系列相関スコアを算出する。ここでは、アイテムは株式の銘柄コードを表すものとする。また、アイテムセンテンス記憶部24に蓄積される情報は、日付と文書を含むニュース記事から作成されたものとする。また、アイテム時系列記憶部26に記憶される情報は、株式の株式コードごとに蓄積された日ごとの株価(終値など)である。アイテムは、株式の銘柄コードに限らず、アイテムに対応する値が日ごとに変動するアイテムであればよい。また、アイテム時系列記憶部26に記憶される情報は、アイテムセンテンステーブルの日付(または時刻)情報の単位と同一の単位を持つ時系列データであればよい。   In this embodiment, the time series correlation score acquisition unit 20 calculates a time series correlation score by the following method. Here, the item represents the stock code of the stock. The information stored in the item sentence storage unit 24 is created from a news article including a date and a document. The information stored in the item time series storage unit 26 is the daily stock price (close price, etc.) accumulated for each stock code of stock. The item is not limited to a stock code, but may be an item whose value corresponding to the item varies from day to day. Moreover, the information memorize | stored in the item time series memory | storage part 26 should just be time series data which has the unit same as the unit of the date (or time) information of an item sentence table.

図5は、ステップS112の処理詳細の流れを示すフローチャートである。図6は、時系列相関スコアの算出について説明するための概念図である。   FIG. 5 is a flowchart showing a detailed flow of processing in step S112. FIG. 6 is a conceptual diagram for explaining the calculation of the time series correlation score.

まず、時系列相関スコア取得部20は、ステップS110でポジティブ語スコアTp、およびネガティブ語スコアTnが算出された銘柄コードに対応する株価を抽出する(ステップS150)。この場合、時系列相関スコア取得部20は、初期設定された期間Ds日(以下、「株価相関値計算期間」という。)、および期間Dsの直前の営業日の株価を抽出する。なお、時系列相関スコア取得部20は、アイテム時系列記憶部26に記憶されているすべての銘柄コードの株価を抽出してもよい。また、株価相関値計算期間は、外部端末100から送信された検索要求に含まれる情報に基づいて設定されてもよい。なお、株価相関値計算期間は、例えば検索要求発出日の前日から遡った1年間である。   First, the time-series correlation score acquiring unit 20 extracts the stock price corresponding to the brand code for which the positive word score Tp and the negative word score Tn are calculated in step S110 (step S150). In this case, the time-series correlation score acquisition unit 20 extracts the stock price on the business day immediately before the period Ds (hereinafter referred to as “stock price correlation value calculation period”) that is initially set. The time-series correlation score acquisition unit 20 may extract the stock prices of all the brand codes stored in the item time-series storage unit 26. Further, the stock price correlation value calculation period may be set based on information included in the search request transmitted from the external terminal 100. The stock price correlation value calculation period is, for example, one year retroactive from the day before the search request issuance date.

次に、時系列相関スコア取得部20は、抽出された株価に基づいて株価上昇日集合Gp、および株価下落日集合Gnの2種類の日付集合を算出する(ステップS152)。株価上昇日集合Gpは、前日(または前市場営業日)に比べてs+%以上上昇した日である。株価下落日集合Gnは、前日(または前市場営業日)に比べてs−%以上下落した日である。時系列相関スコア取得部20は、s+、およびs−の値として、例えば2%等と設定する。株式市場全体の変動の影響を取り除くため、時系列相関スコア取得部20は、s+%、およびs−%の設定値として、株式市場の指標(例えば日経平均やTOPIX等)の上昇率、下落率を動的に加算するようにしてもよい。   Next, the time-series correlation score acquisition unit 20 calculates two types of date sets, a stock price rise date set Gp and a stock price fall date set Gn, based on the extracted stock price (step S152). The stock price rise date set Gp is a date on which s +% or more rises compared to the previous day (or the previous market business day). The stock price fall date set Gn is a day when the stock price falls by s-% or more compared to the previous day (or the previous market business day). The time-series correlation score acquisition unit 20 sets, for example, 2% as the values of s + and s−. In order to remove the effects of fluctuations in the stock market as a whole, the time series correlation score acquisition unit 20 uses a set value of s +% and s-% as an increase / decrease rate of stock market indicators (eg, Nikkei Average, TOPIX, etc.) The rates may be added dynamically.

時系列相関スコア取得部20は、制御部14にて取得した検索結果に基づき、対象の株式銘柄についてドキュメント出現日Wpの集合を算出する(ステップS154)。時系列相関スコア取得部20は、アイテムセンテンス記憶部24からS104にて取得された検索語を含むセンテンスについて、センテンスに対応付けられているドキュメントの異なり数を日ごとに算出する。単純に日ごとのセンテンス数を用いてもよい。時系列相関スコア取得部20は、株価相関値計算期間Dsとその直前Dw日を合わせたDs+Dw日分の銘柄コードに対応するドキュメントの数を日ごとに算出する。以下、時系列相関スコア取得部20により算出されたドキュメントの数(またはセンテンスの数)を「ドキュメントカウント値時系列情報」という。また、時系列相関スコア取得部20は、株価相関値計算期間Dsにおいて閾値Θを超える日付で構成されるドキュメント出現日集合Wpを算出する。   The time-series correlation score acquisition unit 20 calculates a set of document appearance dates Wp for the target stock stock based on the search result acquired by the control unit 14 (step S154). The time-series correlation score acquisition unit 20 calculates, for each day, the number of different documents associated with the sentence for the sentence including the search word acquired from the item sentence storage unit 24 in S104. You may simply use the daily number of sentences. The time-series correlation score acquisition unit 20 calculates the number of documents corresponding to the stock code for Ds + Dw days, which is the sum of the stock price correlation value calculation period Ds and the immediately preceding Dw date, for each day. Hereinafter, the number of documents (or the number of sentences) calculated by the time-series correlation score acquisition unit 20 is referred to as “document count value time-series information”. Further, the time-series correlation score acquisition unit 20 calculates a document appearance date set Wp configured by dates exceeding the threshold value Θ in the stock price correlation value calculation period Ds.

Θの値については、予め設定された値を用いてもよいが、時期により記事数が変わる場合の影響を取り除くために、以下のような方法で動的に決定してもよい。すなわち、時系列相関スコア取得部20は、株価相関値計算期間の各日付について、株価相関値計算期間前の過去Dw日(例えば図6のDw日)のドキュメントカウント値に含まれるドキュメント数(センテンス数)に基づいて閾値Θを求める。例えば図6の「X」に示す日が閾値Θを超える日付に該当するかを判定する場合、図中「過去Dw#日」に基づいて閾値Θが決定される。このようにドキュメントの数(センテンス数)を算出する対象の日の直前の過去日をDw日として閾値を算出することで、適切にドキュメント出現日集合Wpを算出することができる。   As the value of Θ, a preset value may be used, but it may be dynamically determined by the following method in order to remove the influence when the number of articles changes depending on the time. That is, for each date of the stock price correlation value calculation period, the time-series correlation score acquisition unit 20 counts the number of documents (sentences) included in the document count value of the past Dw days (for example, Dw day in FIG. The threshold Θ is obtained based on the number. For example, when it is determined whether the day indicated by “X” in FIG. 6 corresponds to a date exceeding the threshold Θ, the threshold Θ is determined based on “Past Dw # day” in the figure. As described above, the document appearance date set Wp can be appropriately calculated by calculating the threshold value by setting the past date immediately before the target date for calculating the number of documents (the number of sentences) as the Dw date.

閾値Θは、例えば過去Dw日間のドキュメントカウント値の平均をμ、標準偏差をσとして、式(2)を用いて算出することができる。ここで、αの値は、事前に設定される値であり、例えばα=1.0である。

Figure 0006554306
The threshold Θ can be calculated, for example, using equation (2) with μ as an average of document counts in the past Dw days and σ as a standard deviation. Here, the value of α is a value set in advance, for example, α = 1.0.
Figure 0006554306

時系列相関スコア取得部20は、ドキュメント出現日集合Wpと株価上昇日集合Gpとの合致度に基づいてポジティブ時系列相関スコアSpを算出する(ステップS156)。また、時系列相関スコア取得部20は、ドキュメント出現日集合Wpと株価下落日集合Gnとの合致度に基づいてネガティブ時系列相関スコアSnを算出する(ステップS158)。時系列相関スコア取得部20は、例えば式(3)示すようにダイス係数等の数式を用いて、ポジティブ時系列相関スコアSp、およびネガティブ時系列相関スコアSnを算出する。

Figure 0006554306
ここで、Gxは、株価上昇日集合Gpまたは株価下落日集合Gnを示す。Sxは、Gxに対応したポジティブ時系列相関スコアSp、またはネガティブ時系列相関スコアSnを示す。絶対値記号は各集合の要素数を表す。Gx∩Wpは、GxとWpが共通して含む日付からなる集合である。 The time-series correlation score acquisition unit 20 calculates a positive time-series correlation score Sp based on the matching degree between the document appearance date set Wp and the stock price rise date set Gp (step S156). Further, the time series correlation score acquisition unit 20 calculates a negative time series correlation score Sn based on the degree of match between the document appearance date set Wp and the stock price fall date set Gn (step S158). The time-series correlation score acquiring unit 20 calculates the positive time-series correlation score Sp and the negative time-series correlation score Sn, for example, using a die coefficient or the like as shown in equation (3).
Figure 0006554306
Here, Gx indicates a stock price rise date set Gp or a stock price fall date set Gn. Sx indicates a positive time-series correlation score Sp corresponding to Gx, or a negative time-series correlation score Sn. The absolute value symbol represents the number of elements in each set. Gx ∩ Wp is a set of dates which Gx and Wp contain in common.

時系列相関スコア取得部20は、アイテム時系列情報に対してドキュメントが影響を与えるタイムラグを適用したスコアを算出するか否かを判定する(ステップS160)。何日分のラグを適用するかを予め設定して、S160を省略してもよい。上述した式(3)は、ドキュメント出現日と株価(時系列)が、上昇した日または下落した日の共通した割合が高い銘柄と検索語のペアに対して高いスコアを与えるものである。ドキュメント出現日の1日後や2日後に株価が変動した銘柄と検索語のペアに興味がある場合には、例えば外部端末100から送信される指示に基づいて、時系列相関スコア取得部20が日付のタイムラグを適用したスコアを算出する。   The time-series correlation score acquisition unit 20 determines whether or not to calculate a score obtained by applying a time lag in which the document affects the item time-series information (step S160). The number of days of lag to be applied may be set in advance, and S160 may be omitted. The above-described formula (3) gives a high score to a pair of a brand and a search word having a high common ratio between the document appearance date and the stock price (time series) when the document rises or falls. If the stock price fluctuates one day or two days after the document appearance date and if you are interested in a pair of search terms, for example, based on an instruction transmitted from the external terminal 100, the time-series correlation score acquisition unit 20 Calculate the score applying the time lag of

タイムラグを適用したスコアを算出すると判定された場合、時系列相関スコア取得部20は、日付のタイムラグを適用したポジティブ時系列相関スコアSp、またはネガティブ時系列相関スコアSnを算出する(ステップS162)。具体的には時系列相関スコア取得部20は、i日前のドキュメント出現日と株価上昇日/下落日の共通部分に注目したスコアを算出する。時系列相関スコア取得部20は、i=1、2、…nに対してドキュメント出現日集合Wpに含まれる各日付をi日後にずらした新たなドキュメント出現日集合Wpiを作成する。時系列相関スコア取得部20は、各Wpiに対して上述した式(3)を適用して、ポジティブ時系列相関スコアSpi、またはネガティブ時系列相関スコアSniを算出する。   When it is determined to calculate the score to which the time lag is applied, the time series correlation score acquisition unit 20 calculates the positive time series correlation score Sp or the negative time series correlation score Sn to which the date time lag is applied (step S162). Specifically, the time-series correlation score acquisition unit 20 calculates a score focusing on the common part of the document appearance date before i days and the stock price rise date / fall date. The time-series correlation score acquisition unit 20 creates a new document appearance date set Wpi in which each date included in the document appearance date set Wp is shifted i days later for i = 1, 2,. The time series correlation score acquisition unit 20 calculates the positive time series correlation score Spi or the negative time series correlation score Sni by applying the above-described equation (3) to each Wpi.

そして、時系列相関スコア取得部20は、式(4)を用いて重み付け和を実行し、最終的なポジティブ時系列相関スコアSpi、またはネガティブ時系列相関スコアSniを算出する。

Figure 0006554306

ここで、Sx’は、ポジティブ時系列相関スコアSpまたはネガティブ時系列相関スコアSnを表し、SxiはSpiまたはSniのいずれかを表している。Sp0=Sp、Sn0=Snとする。また、wは、予め設定された値である。なお、ドキュメント出現日集合Wpiの作成に代えて、株価上昇日集合Gpまたは株価下落日集合Gnに含まれる各日付をi日前にずらした株価上昇日集合Gpiまたは株価下落日集合Gniを作成してもよい。 Then, the time-series correlation score acquisition unit 20 performs weighted sum using Equation (4), and calculates a final positive time-series correlation score Spi or a negative time-series correlation score Sni.
Figure 0006554306

Here, Sx 'represents a positive time-series correlation score Sp or a negative time-series correlation score Sn, and Sxi represents either Spi or Sni. It is assumed that Sp0 = Sp and Sn0 = Sn. W i is a preset value. It should be noted that instead of creating the document appearance date set Wpi, a stock price rise date set Gpi or a stock price fall date set Gni is generated by shifting each date included in the stock price rise date set Gp or the stock price fall date set Gn i days ago. It is also good.

次に、制御部14は、ポジティブスコアIp、およびネガティブスコアInを算出する(ステップS164)。制御部14は、検索スコア取得部16、ポジネガスコア取得部18、および時系列相関スコア取得部20から銘柄ごとの算出結果を取得する。制御部14は、検索スコア取得部16から検索スコアのリストを取得する。制御部14は、ポジネガスコア取得部18からポジティブ語スコアとネガティブ語スコアのリストを取得する。制御部14は、時系列相関スコア取得部20からポジティブ時系列相関スコアとネガティブ時系列相関スコアのリストを取得する。   Next, the control unit 14 calculates a positive score Ip and a negative score In (step S164). The control unit 14 acquires a calculation result for each brand from the search score acquisition unit 16, positive gas core acquisition unit 18, and time-series correlation score acquisition unit 20. The control unit 14 acquires a list of search scores from the search score acquisition unit 16. The control unit 14 acquires a list of positive word scores and negative word scores from the positive gas core acquisition unit 18. The control unit 14 acquires a list of positive time series correlation scores and negative time series correlation scores from the time series correlation score acquisition unit 20.

制御部14は、ポジネガスコア取得部18と時系列相関スコア取得部20の結果を統合して、ポジティブ、ネガティブそれぞれについて指標を一つに統合する。ポジティブ語カウント数Cpとポジティブ時系列相関スコアSpを統合し、ポジティブスコアIpを算出する。制御部14は、ネガティブ語カウント数Cnとネガティブ時系列相関スコアSnを統合し、ネガティブスコアInを算出する。制御部14は、例えば式(5)を用いて算出された換算カウント数を用いて、この換算カウント数をカウント数とみなすことで、例えば式(1)を適用し、ポジティブスコアIp(Pスコア)およびネガティブスコアIn(Nスコア)を算出する。

Figure 0006554306
ここで、Cxは、ポジティブ語カウント数Cpまたはネガティブ語カウント数Cnを表す。βは、予め設定されたパラメータであり、例えばβ=1.0または2.0等の値である。 The control unit 14 integrates the results of the positive / negative score acquisition unit 18 and the time-series correlation score acquisition unit 20, and integrates indices into one for positive and negative. The positive word count number Cp and the positive time-series correlation score Sp are integrated to calculate a positive score Ip. The control unit 14 integrates the negative word count number Cn and the negative time-series correlation score Sn to calculate a negative score In. The control unit 14 applies, for example, the formula (1) by regarding the converted count number as the count number, using, for example, the converted count number calculated using the equation (5), to obtain the positive score Ip (P score ) And negative score In (N score).
Figure 0006554306
Here, Cx represents a positive word count number Cp or a negative word count number Cn. β is a preset parameter, for example, a value such as β = 1.0 or 2.0.

以上説明した第1の実施形態の情報処理システム10によれば、時系列相関スコア取得部20により算出された検索語の出現度と株価の変動との相関度と、ポジネガスコア取得部18により算出されたポジティブ語数(またはネガティブ語数)とに基づいて算出された、検索語と株式銘柄等アイテムの関連の強さを示す指標値を、指定された、ポジティブ、ネガティブ等、複数の種類の意味合いや文脈に対してそれぞれ算出するため、利用者にとって利用価値が高い情報を提供することができる。   According to the information processing system 10 of the first embodiment described above, the correlation between the appearance degree of the search word calculated by the time series correlation score acquisition unit 20 and the fluctuation of the stock price is calculated by the positive gas core acquisition unit 18. Based on the number of positive words (or the number of negative words), the index value indicating the strength of the relationship between the search term and items such as stocks, etc. Since the calculation is performed for each context, it is possible to provide information having high utility value for the user.

(第2実施形態)
以下、第2の実施形態について説明する。第2の実施形態は、情報登録部40が記事プロバイダ60、および時系列データプロバイダ70から各スコアを算出するための情報を取得し、アイテムセンテンス記憶部24またはアイテム時系列記憶部26に記憶させる点で第1の実施形態とは異なる。以下、この相違点を中心に説明する。
Second Embodiment
The second embodiment will be described below. In the second embodiment, the information registration unit 40 acquires information for calculating each score from the article provider 60 and the time-series data provider 70, and stores the information in the item sentence storage unit 24 or the item time-series storage unit 26. It differs from the first embodiment in the points. Hereinafter, this difference will be mainly described.

図7は、第2の実施形態の情報処理システム10Aの機能構成について説明するための図である。外部端末100は、ネットワークNWを介してユーザ端末110、120、および130と通信可能に接続されている。第2の実施形態では、例えば外部端末100がユーザ端末110、120、または130から検索要求を受け付け、受け付けた検索要求を要求受信部12に送信する。また、外部端末100が、応答部22から情報処理システム10Aにより処理された処理結果を取得する。外部端末100は、取得した処理結果を、処理結果を含む所定の画像に生成してユーザ端末110、120、または130に送信する。   FIG. 7 is a diagram for describing a functional configuration of an information processing system 10A according to the second embodiment. The external terminal 100 is communicably connected to the user terminals 110, 120, and 130 via the network NW. In the second embodiment, for example, the external terminal 100 receives a search request from the user terminal 110, 120, or 130 and transmits the received search request to the request receiving unit 12. In addition, the external terminal 100 acquires the processing result processed by the information processing system 10 </ b> A from the response unit 22. The external terminal 100 generates the acquired processing result as a predetermined image including the processing result, and transmits it to the user terminal 110, 120, or 130.

情報処理システム10Aは、第1の実施形態の情報処理システム10の機能構成に加え、更に情報登録部40を備える。情報登録部40は、アイテムセンテンス登録部42と、アイテム抽出部44と、アイテム関連語リスト記憶部46と、アイテム時系列情報登録部48とを備える。   The information processing system 10A further includes an information registration unit 40 in addition to the functional configuration of the information processing system 10 of the first embodiment. The information registration unit 40 includes an item sentence registration unit 42, an item extraction unit 44, an item related word list storage unit 46, and an item time series information registration unit 48.

アイテムセンテンス登録部42は、記事を作成または収集して配信する外部の記事プロバイダ60からネットワークNWを介してテキストで記述された記事(ニュースや、ブログ等)のドキュメントを取得する。アイテムセンテンス登録部42は、取得したドキュメントから必要情報を抽出し、センテンス単位でアイテムセンテンス記憶部24に抽出した必要情報を記憶させる。必要情報とは、例えば日付や、URL等の記事へのリンク、タイトル、記事本文等である。   The item sentence registration unit 42 obtains a document of an article (news, blog, etc.) described in text via the network NW from an external article provider 60 that creates, collects, and distributes articles. The item sentence registration unit 42 extracts necessary information from the acquired document, and stores the extracted necessary information in the item sentence storage unit 24 in units of sentences. The necessary information includes, for example, a date, a link to an article such as a URL, a title, an article text, and the like.

アイテム抽出部44は、アイテムセンテンス登録部により取得されたドキュメントにおいて、後述するアイテム関連語リスト記憶部46に記憶されている1つまたは複数の関連語(以下、「アイテム関連語」という。)がドキュメントに含まれているか否かを判定する。アイテム抽出部44は、判定した結果に基づいて各ドキュメントに含まれるアイテムをリスト化したアイテムリストを出力する。この処理は、通常使用される文字列検索技術を用いてもよいし、ドキュメントを形態素解析して得られる形態素に基づいて生成した検索インデクスを利用してもよい。例えば文字列検索技術として、UNIX(登録商標)系のコンピュータで標準的に使用されるgrepコマンドを用いてもよい。   The item extraction unit 44 includes one or more related words (hereinafter referred to as “item related words”) stored in an item related word list storage unit 46 described later in the document acquired by the item sentence registration unit. Determine if it is included in the document. The item extraction unit 44 outputs an item list in which items included in each document are listed based on the determination result. This process may use a generally used character string search technique, or may use a search index generated based on morphemes obtained by morphological analysis of a document. For example, as a character string search technique, a grep command that is standardly used in a UNIX (registered trademark) computer may be used.

アイテムとして、例えば株式銘柄を考えた場合、銘柄名が一般名詞や地名などの別の固有名詞と同一の文字列として表現される場合がある。このような場合にアイテムの誤抽出を避けるために、ドキュメントに含まれる単語や形態素に対して、「組織名」、「地名」、「人名」、「日付」等のラベルを付与する手法である固有表現抽出を適用し、アイテムの関連語が「組織名」とラベル付けされた場合のみ、アイテム抽出部44がアイテムを抽出してもよい。固有表現抽出については、例えば上記参考文献1や、下記参考文献4にあるような公知の技術を用いることができる。
[参考文献4]磯崎秀樹、賀沢秀人、「固有表現抽出のためのSVMの高速化」、情報処理学会論文誌、vol.44.No.3、p.970-979、2003年
As an item, for example, when a stock issue is considered, the issue name may be expressed as the same character string as another proper noun such as a general noun or a place name. In such a case, in order to avoid erroneous extraction of items, it is a method of giving labels such as "organization name", "place name", "person's name", "date" to words and morphemes included in a document The item extraction unit 44 may extract the item only when applying the specific expression extraction and the related term of the item is labeled “organization name”. For the proper expression extraction, for example, known techniques such as those in Reference 1 and Reference 4 below can be used.
[Reference 4] Hideki Kashiwazaki, Hideto Kawazawa, "Speeding up SVM for Named Entity Extraction", Transactions of Information Processing Society of Japan, vol. 44, No. 3, p. 970-979, 2003

アイテム関連語リスト記憶部46には、アイテム名(銘柄)と、アイテム名に関連する関連語とが対応付けられて記憶される。図8は、アイテム関連語リスト記憶部46に記憶される情報の一例を示す図である。例えばアイテム名が社名の場合、社名の略称や、社名に対応する会社が提供している商品またはサービス等がアイテム関連語として記憶されている。   The item related word list storage unit 46 stores an item name (brand) and a related word related to the item name in association with each other. FIG. 8 is a diagram illustrating an example of information stored in the item-related word list storage unit 46. For example, when the item name is a company name, an abbreviation of the company name, a product or service provided by a company corresponding to the company name, and the like are stored as item-related words.

アイテム時系列情報登録部48は、アイテムに関する時系列データを作成または収集して配信する外部の時系列データプロバイダ70からネットワークNWを介して時系列データを取得する。例えばアイテムが株式銘柄の場合、時系列データは、各銘柄の所定時間ごと、または所定時期ごとの株価を含む情報である。   The item time-series information registration unit 48 obtains time-series data via the network NW from an external time-series data provider 70 that creates or collects and distributes time-series data regarding items. For example, when the item is a stock brand, the time-series data is information including a stock price at each predetermined time or every predetermined time of each brand.

図9は、情報登録部40により実行される処理の流れを示すフローチャートである。まず、アイテムセンテンス登録部42は、記事プロバイダ60からドキュメントリストを取得し、取得したドキュメントリストを読み込む(ステップS200)。次に、アイテムセンテンス登録部42は、読み込んだドキュメントリストにドキュメントが含まれているか否かを判定する(ステップS202)。ドキュメントが含まれていない場合、本フローチャートの処理は終了する。   FIG. 9 is a flowchart showing a flow of processing executed by the information registration unit 40. First, the item sentence registration unit 42 acquires a document list from the article provider 60, and reads the acquired document list (step S200). Next, the item sentence registration unit 42 determines whether or not a document is included in the read document list (step S202). If the document is not included, the processing of this flowchart ends.

ドキュメントリストにドキュメントが含まれている場合、アイテム抽出部44が、ドキュメントから関連するアイテムを抽出し、アイテムリストを生成する(ステップS204)。次に、アイテム抽出部44は、アイテムリストの生成が1件以上存在するか否かを判定する(ステップS206)。生成されたアイテムリストが存在しない場合、本フローチャートの処理は終了する。   When a document is included in the document list, the item extraction unit 44 extracts a related item from the document and generates an item list (step S204). Next, the item extraction unit 44 determines whether or not there is one or more item list generation (step S206). If the generated item list does not exist, the process of this flowchart ends.

アイテムリストの生成が1件以上存在する場合、アイテムセンテンス登録部42は、ピリオドや、句点、連続する改行に基づいてドキュメントをセンテンス単位に分割する(ステップS208)。   When one or more item lists are generated, the item sentence registration unit 42 divides the document into sentence units based on periods, punctuation marks, and continuous line breaks (step S208).

次に、アイテムセンテンス登録部42は、分割したセンテンスごとにステップS210からステップS214の処理を実行する。アイテムセンテンス登録部42は、公知の形態素解析技術を用いてセンテンスを「単語」に分割し、各単語をキーとする検索インデクスを生成する(ステップS210)。アイテム抽出部44が、ステップS204で検索インデクスを生成した場合は、アイテム抽出部44により生成された検索インデクスを用いてもよい。   Next, the item sentence registration part 42 performs the process of step S210 to step S214 for every divided sentence. The item sentence registration unit 42 divides the sentence into “words” using a known morphological analysis technique, and generates a search index using each word as a key (step S210). When the item extraction unit 44 generates a search index in step S204, the search index generated by the item extraction unit 44 may be used.

次に、アイテムセンテンス登録部42は、ポジティブ語およびネガティブ語の抽出を行い、ポジティブ表現およびネガティブ表現を示す形態素または単語の数をそれぞれ算出する(ステップS212)。アイテムセンテンス登録部42は、例えば事前に用意されたポジティブ表現(例えば「美しい」「向上」・・・)のリストなどに基づいて、ポジティブ表現またはネガティブ表現を抽出してもよいし、参考文献2に記載されているような公知の評価表現抽出技術を用いてもよい。このとき、アイテムセンテンス登録部42は、例えば抽出したポジティブ表現またはネガティブ表現の数をアイテムセンテンス記憶部24に登録してもよい。次に、アイテムセンテンス登録部42は、アイテムセンテンステーブル25と同様のリストを生成し、アイテムセンテンス記憶部24に生成したリストを登録する(ステップS214)。これにより本フローチャートの処理は終了する。   Next, the item sentence registration unit 42 extracts positive words and negative words, and calculates the number of morphemes or words indicating positive expressions and negative expressions, respectively (step S212). The item sentence registration unit 42 may extract a positive expression or a negative expression based on, for example, a list of positive expressions (for example, “beautiful”, “improvement”,...) Prepared in advance. A known evaluation expression extraction technique as described in the above may be used. At this time, the item sentence registration unit 42 may register, for example, the number of extracted positive expressions or negative expressions in the item sentence storage unit 24. Next, the item sentence registration unit 42 generates a list similar to the item sentence table 25, and registers the generated list in the item sentence storage unit 24 (step S214). Thus, the processing of this flowchart ends.

上述した情報登録部40により実行される処理では、同じドキュメントに含まれるセンテンスに対しては常に同じアイテムリストが割り当てられるという方法である。しかしながら、ドキュメントの前半と後半とで全く異なる銘柄についての記述となっている場合がある。この場合であっても、以下の方法により各センテンスに対するアイテムリストを絞ることができる。   The process executed by the information registration unit 40 described above is a method in which the same item list is always assigned to sentences included in the same document. However, there are cases where the brands are completely different from the first half and second half of the document. Even in this case, the item list for each sentence can be narrowed down by the following method.

(1)各センテンスにおいて、センテンスの中にアイテム関連語が含まれないアイテムはアイテムリストから除外した一時アイテムリストを生成する(各センテンス中にアイテム関連語が含まれるアイテムのみを残す。)
(2)上記(1)を各ドキュメント内のセンテンスに適用した後、各センテンスにおいて、その前後nlレコードのセンテンスについて一時アイテムリストを結合し、重複を排除したものを新たなアイテムリストとして登録する(前後nlレコード以内に含まれるアイテムのみを使用する)。なお、nlは事前に設定しておく。また、アイテムセンテンス登録部42は、事前に設定された保存期間(例えば1年間)を経過したセンテンスを削除する処理を、定期的または登録処理時に実行してもよい。
(1) In each sentence, an item which does not include an item related term in the sentence generates a temporary item list excluded from the item list (only an item containing an item related term in each sentence is left).
(2) After applying the above (1) to the sentences in each document, in each sentence, combine the temporary item lists for the sentences of the nl records before and after that, and register the ones without duplicates as the new item list ( Use only items contained within the nl record before and after)). Note that nl is set in advance. Further, the item sentence registration unit 42 may periodically or at the time of registration process delete a sentence whose storage period (for example, one year) set in advance has passed.

以上説明した第2の実施形態の情報処理システム10Aは、アイテムセンテンス登録部42が、記事プロバイダ60から取得したドキュメントリストに基づいて、形態素解析、およびポジティブ語およびネガティブ語の抽出等を行ってアイテムセンテンステーブル25と同様のリストを生成する。この結果、情報処理システム10が指標値を算出するために用いる情報を適切に生成することができる。   In the information processing system 10A of the second embodiment described above, the item sentence registration unit 42 performs morphological analysis, extraction of positive words and negative words, and the like based on the document list acquired from the article provider 60, and then the items A list similar to the sentence table 25 is generated. As a result, information used by the information processing system 10 to calculate the index value can be appropriately generated.

なお、本実施形態では、一例としてアイテムを株式銘柄として説明したが、アイテムは株式銘柄に限られない。アイテムは、例えばアイテムに付与された値が時系列に変動するものであればよい。例えばアイテムは、価格が変動する商品や、サービス、または指標であってもよい。アイテムは、例えば石油や、先物取引の銘柄、為替、各種有価証券、物価の上昇率、テレビ番組の視聴率、商品の売上等であってもよい。   In the present embodiment, the item is described as a stock issue as an example, but the item is not limited to the stock issue. For example, the item only needs to be one in which the value given to the item varies in time series. For example, the item may be a product, a service, or an index whose price varies. The items may be, for example, petroleum, brand of futures trading, foreign exchange, various securities, inflation rate, television program rating, sales of goods, and the like.

上述した実施形態における情報処理システム10の機能をコンピュータで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   You may make it implement | achieve the function of the information processing system 10 in embodiment mentioned above with a computer. In that case, a program for realizing this function may be recorded in a computer readable recording medium, and the program recorded in the recording medium may be read and executed by a computer system. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, “computer-readable recording medium” dynamically holds a program for a short time, like a communication line in the case of transmitting a program via a network such as the Internet or a communication line such as a telephone line. It may also include one that holds a program for a certain period of time, such as volatile memory in a computer system that becomes a server or client in that case. The program may be for realizing a part of the functions described above, or may be realized in combination with the program already recorded in the computer system.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design and the like within the scope of the present invention.

10…情報処理システム、12…要求受信部、14…制御部、16…検索スコア取得部、
18…ポジネガスコア取得部、20…時系列相関スコア取得部、22…応答部、24…アイテムセンテンス記憶部、26…アイテム時系列記憶部、40…情報登録部、42…アイテムセンテンス登録部、44…アイテム抽出部、46…アイテム関連語リスト記憶部、48…アイテム時系列情報登録部
10 ... information processing system, 12 ... request reception unit, 14 ... control unit, 16 ... search score acquisition unit,
18: positive / negative score acquisition unit, 20: time series correlation score acquisition unit, 22: response unit, 24: item sentence storage unit, 26: item time series storage unit, 40: information registration unit, 42: item sentence registration unit, 44 ... Item extraction unit, 46 ... Item related word list storage unit, 48 ... Item time series information registration unit

Claims (8)

時系列に値が変動する項目の識別情報である項目識別情報と、少なくとも1つ以上の文が含まれる文書の識別情報である文書識別情報と、前記文書に含まれる予め指定された評価表現である指定語の数を示す指定語数とが対応付けられた情報テーブルを参照し、特定の前記項目識別情報に対応する前記指定語数を前記情報テーブルから取得する指定語数取得部と、
前記項目識別情報に対応する値の時系列変動を取得し、前記特定の項目識別情報に対応付けられ且つ入力された検索語を含む前記文書識別情報の数を前記情報テーブルから抽出し、前記抽出した検索語を含む文書識別情報の数の時系列情報と前記時系列変動との相関度を取得する相関度取得部と、
前記相関度取得部により取得された相関度と、前記指定語数取得部により取得された指定語数とに基づいて、前記検索語と前記項目識別情報との関連度を示す指標値を取得する指標値取得部と、
を備える情報処理システム。
Item identification information which is identification information of an item whose value changes in time series, document identification information which is identification information of a document including at least one or more sentences, and a previously designated evaluation expression included in the document A designated word number acquisition unit which acquires the designated word number corresponding to specific item identification information from the information table with reference to an information table in which the designated word number indicating the number of designated words is associated;
The time series variation of the value corresponding to the item identification information is acquired, the number of the document identification information including the search word associated with the specific item identification information and including the input search term is extracted from the information table, and the extraction is performed A correlation degree acquisition unit that acquires a degree of correlation between time series information of the number of document identification information including the searched search term and the time series fluctuation;
An index value for acquiring an index value indicating the degree of association between the search term and the item identification information, based on the degree of correlation acquired by the degree of correlation acquiring unit and the number of designated words acquired by the designated word number acquiring unit Acquisition part,
An information processing system comprising:
前記指標値取得部は、前記検索語が前記時系列変動に与える影響を示す指標値を取得する、
請求項1記載の情報処理システム。
The index value acquisition unit acquires an index value indicating an influence of the search term on the time-series fluctuation;
The information processing system according to claim 1.
前記情報テーブルには、前記文書識別情報に対応付けられた文である文情報と、前記文情報ごとの指定語数と、前記文書識別情報に対応付けられた日付が記憶され、
前記相関度取得部は、前記文書識別情報に対応付けられた日付に基づいて日ごとに前記検索語を含む前記文書識別情報の数を取得し、前記文書識別情報の数が閾値以上である日付と前記時系列変動の値の変動値が所定値以上である日付との合致度に基づく値を前記文書識別情報の数と前記時系列変動との相関度として取得する、
請求項1または請求項2記載の情報処理システム。
The information table stores sentence information that is a sentence associated with the document identification information, the number of designated words for each sentence information, and a date associated with the document identification information.
The correlation degree acquisition unit acquires the number of the document identification information including the search term for each day based on the date associated with the document identification information, and the date when the number of the document identification information is equal to or more than a threshold Acquiring a value based on the matching degree between the date and the date when the fluctuation value of the time-series fluctuation value is a predetermined value or more as the correlation degree between the number of the document identification information and the time-series fluctuation.
The information processing system according to claim 1 or 2.
前記相関度取得部は、前記文書識別情報の数が閾値以上である日付と前記時系列変動の値の変動値が所定値以上である日付とのうち一方または両方の日付をずらして合致度に基づく値を前記文書識別情報の数と前記時系列変動との相関度として取得する、
請求項3項記載の情報処理システム。
The correlation degree acquiring unit shifts one or both of the date in which the number of the document identification information is a threshold or more and the date in which the fluctuation value of the time-series fluctuation value is a predetermined value or more. Acquiring a value based on the degree of correlation between the number of the document identification information and the time-series fluctuation,
The information processing system according to claim 3.
前記相関度取得部は、前記文書識別情報の数の取得の対象となった日付より前の日付に対応づけられた前記文書識別情報の数に基づいて前記閾値を取得する、
請求項3又は請求項4記載の情報処理システム。
The correlation degree acquisition unit acquires the threshold based on the number of the document identification information items associated with a date before the date on which the acquisition of the number of the document identification information objects is performed.
The information processing system according to claim 3 or 4.
前記指定語は、肯定的な表現を示す肯定語、または否定的な表現を示す否定語であり、
前記指標値取得部は、
前記指定語が肯定語である場合は、前記相関度取得部により取得された相関度、および前記指定語数取得部により取得された肯定語数に基づいて、前記検索語と前記項目識別情報との肯定的な意味を持つ関連度を示す指標値を取得し、
前記指定語が否定語である場合は、前記相関度取得部により取得された相関度、および前記指定語数取得部により取得された否定語数に基づいて、前記検索語と前記項目識別情報との否定的な意味を持つ関連度を示す指標値を取得する、
請求項1から請求項5のうちいずれか一項記載の情報処理システム。
The designation word is a positive word indicating a positive expression, or a negative word indicating a negative expression,
The index value acquisition unit
When the designated word is a positive word, the affixing of the search term and the item identification information is performed based on the correlation degree acquired by the correlation degree acquiring unit and the number of positive words acquired by the designated word number acquiring unit. An index value indicating the degree of relevance
When the designated word is a negative word, the negation of the search term and the item identification information is performed based on the correlation degree acquired by the correlation degree acquiring unit and the number of negative words acquired by the designated word number acquiring unit. An index value that indicates the degree of relevance
The information processing system according to any one of claims 1 to 5.
コンピュータが、
時系列に値が変動する項目の識別情報である項目識別情報と、少なくとも1つ以上の文が含まれる文書の識別情報である文書識別情報と、前記文書に含まれる予め指定された評価表現である指定語の数を示す指定語数とが対応付けられた情報テーブルを参照し、特定の前記項目識別情報に対応する前記指定語数を前記情報テーブルから取得する指定語数取得ステップと、
前記項目識別情報に対応する値の時系列変動を取得し、前記特定の項目識別情報に対応付けられ且つ入力された検索語を含む前記文書識別情報の数を前記情報テーブルから抽出し、前記抽出した検索語を含む文書識別情報の数の時系列情報と前記時系列変動との相関度を取得する相関度取得ステップと、
前記相関度取得ステップにより取得された相関度と、前記指定語数取得ステップにより取得された指定語数とに基づいて、前記検索語と前記項目識別情報との関連度を示す指標値を取得する指標値取得ステップと、
を有する情報処理方法。
Computer
Item identification information which is identification information of an item whose value changes in time series, document identification information which is identification information of a document including at least one or more sentences, and a previously designated evaluation expression included in the document A designated word number acquisition step of acquiring from the information table the designated word number corresponding to specific item identification information by referring to an information table in which the designated word number indicating the number of designated words is associated;
The time series variation of the value corresponding to the item identification information is acquired, the number of the document identification information including the search word associated with the specific item identification information and including the input search term is extracted from the information table, and the extraction is performed Acquiring a degree of correlation between time series information of the number of document identification information including the searched search term and the time series fluctuation;
An index value for acquiring an index value indicating the degree of association between the search term and the item identification information based on the degree of correlation acquired in the degree of correlation acquisition step and the number of designated words acquired in the number of designated words acquisition step Acquisition step,
Information processing method having.
コンピュータに、
時系列に値が変動する項目の識別情報である項目識別情報と、少なくとも1つ以上の文が含まれる文書の識別情報である文書識別情報と、前記文書に含まれる予め指定された評価表現である指定語の数を示す指定語数とが対応付けられた情報テーブルを参照し、特定の前記項目識別情報に対応する前記指定語数を前記情報テーブルから取得する指定語数取得ステップと、
前記項目識別情報に対応する値の時系列変動を取得し、前記特定の項目識別情報に対応付けられ且つ入力された検索語を含む前記文書識別情報の数を前記情報テーブルから抽出し、前記抽出した検索語を含む文書識別情報の数の時系列情報と前記時系列変動との相関度を取得する相関度取得ステップと、
前記相関度取得ステップにより取得された相関度と、前記指定語数取得ステップにより取得された指定語数とに基づいて、前記検索語と前記項目識別情報との関連度を示す指標値を取得する指標値取得ステップと、
を実行させるためのコンピュータプログラム。
On the computer
Item identification information which is identification information of an item whose value changes in time series, document identification information which is identification information of a document including at least one or more sentences, and a previously designated evaluation expression included in the document A designated word number acquisition step of acquiring from the information table the designated word number corresponding to specific item identification information by referring to an information table in which the designated word number indicating the number of designated words is associated;
The time series variation of the value corresponding to the item identification information is acquired, the number of the document identification information including the search word associated with the specific item identification information and including the input search term is extracted from the information table, and the extraction is performed Acquiring a degree of correlation between time series information of the number of document identification information including the searched search term and the time series fluctuation;
An index value for acquiring an index value indicating the degree of association between the search term and the item identification information based on the degree of correlation acquired in the degree of correlation acquisition step and the number of designated words acquired in the number of designated words acquisition step Acquisition step,
A computer program to run
JP2015076960A 2015-04-03 2015-04-03 Information processing system, information processing method, and computer program Active JP6554306B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015076960A JP6554306B2 (en) 2015-04-03 2015-04-03 Information processing system, information processing method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015076960A JP6554306B2 (en) 2015-04-03 2015-04-03 Information processing system, information processing method, and computer program

Publications (2)

Publication Number Publication Date
JP2016197332A JP2016197332A (en) 2016-11-24
JP6554306B2 true JP6554306B2 (en) 2019-07-31

Family

ID=57358045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015076960A Active JP6554306B2 (en) 2015-04-03 2015-04-03 Information processing system, information processing method, and computer program

Country Status (1)

Country Link
JP (1) JP6554306B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092367A (en) * 2016-12-02 2018-06-14 日本放送協会 Related word extracting device and program
JP6835677B2 (en) * 2017-07-07 2021-02-24 株式会社日立製作所 Data processing method, data processing device, and data processing program
CN116302863B (en) * 2023-05-22 2023-07-25 中信证券股份有限公司 Alarm processing method, device, equipment and computer readable medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162639A (en) * 2001-11-28 2003-06-06 Fujitsu Ltd Stock name selection supporting device
JPWO2009096523A1 (en) * 2008-01-30 2011-05-26 日本電気株式会社 Information analysis apparatus, search system, information analysis method, and information analysis program
JP2011141833A (en) * 2010-01-08 2011-07-21 Nifty Corp Device, method, and program for stock price prediction

Also Published As

Publication number Publication date
JP2016197332A (en) 2016-11-24

Similar Documents

Publication Publication Date Title
US9535911B2 (en) Processing a content item with regard to an event
Scaffidi et al. Red Opal: product-feature scoring from reviews
Lu et al. BizSeeker: a hybrid semantic recommendation system for personalized government‐to‐business e‐services
US20170235820A1 (en) System and engine for seeded clustering of news events
TWI609278B (en) Method and system for recommending search words
JP5168961B2 (en) Latest reputation information notification program, recording medium, apparatus and method
CN101692223A (en) Refining a search space inresponse to user input
US20140012840A1 (en) Generating search results
US20190220902A1 (en) Information analysis apparatus, information analysis method, and information analysis program
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
US20140006328A1 (en) Method or system for ranking related news predictions
JP2023533475A (en) Artificial intelligence for keyword recommendation
CA2956627A1 (en) System and engine for seeded clustering of news events
JP6554306B2 (en) Information processing system, information processing method, and computer program
CN114201598B (en) Text recommendation method and text recommendation device
Kim et al. Trend analysis by using text mining of journal articles regarding consumer policy
Baishya et al. SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning
CN114303140A (en) Analysis of intellectual property data related to products and services
JP2008146293A (en) Evaluation system, method and program for browsing target information
JP5138621B2 (en) Information processing apparatus, dissatisfied product discovery method and program
Popović et al. Extraction of temporal networks from term co-occurrences in online textual sources
JP4539616B2 (en) Opinion collection and analysis apparatus, opinion collection and analysis method used therefor, and program thereof
Braun et al. Satos: Assessing and summarising terms of services from german webshops
Charnine et al. Association-Based Identification of Internet Users Interest
CN112818215A (en) Product data processing method, device, equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190708

R150 Certificate of patent or registration of utility model

Ref document number: 6554306

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250