JP5528787B2 - Stock price impact company detection system - Google Patents
Stock price impact company detection system Download PDFInfo
- Publication number
- JP5528787B2 JP5528787B2 JP2009282687A JP2009282687A JP5528787B2 JP 5528787 B2 JP5528787 B2 JP 5528787B2 JP 2009282687 A JP2009282687 A JP 2009282687A JP 2009282687 A JP2009282687 A JP 2009282687A JP 5528787 B2 JP5528787 B2 JP 5528787B2
- Authority
- JP
- Japan
- Prior art keywords
- company
- event
- stock price
- information
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 34
- 238000003860 storage Methods 0.000 claims description 122
- 238000012545 processing Methods 0.000 claims description 96
- 238000000605 extraction Methods 0.000 claims description 68
- 238000004458 analytical method Methods 0.000 claims description 63
- 239000002245 particle Substances 0.000 claims description 58
- 150000001875 compounds Chemical class 0.000 claims description 47
- 230000000694 effects Effects 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 15
- 238000005429 filling process Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 13
- 238000004519 manufacturing process Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 9
- 239000003921 oil Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 229910000831 Steel Inorganic materials 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000002994 raw material Substances 0.000 description 3
- 239000010959 steel Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002537 cosmetic Substances 0.000 description 2
- 244000309464 bull Species 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000010779 crude oil Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Description
この発明は株価影響企業検知システム及びプログラムに係り、特に、自然災害の発生や為替レートの変動など、特定イベントの発生に伴って株価にプラスまたはマイナスの影響が及ぶ企業を特定する技術に関する。 The present invention relates to a stock price-affected company detection system and program, and more particularly to a technology for identifying a company that has a positive or negative impact on the stock price due to the occurrence of a specific event such as the occurrence of a natural disaster or fluctuations in exchange rates.
株価は企業価値を表す重要な指標であり、当該企業自身の業績や将来性に応じて変動することはもちろんであるが、地震の発生や為替レートの乱高下、戦争の勃発、取引先企業の倒産など、外部要因によっても大きく影響を受けることがある。
例えば、アフリカの某国においてクーデターが発生した場合、その国に主力工場を保有しているメーカーの株価が暴落することが容易に予想される。
このため、投資家には日頃から新聞や専門雑誌、インターネット、テレビ等を通じて世界情勢に関する情報の収集に勤しみ、いったん事が起こった場合には、当該イベントによって影響を受ける企業を即座に特定すると共に、その影響がプラスのものである場合には当該企業の株式を買い、マイナスのものである場合には売る、という行動を執ることが求められる。
For example, if a coup occurs in an African country, the stock price of a manufacturer that owns a major factory in that country can easily be expected to crash.
For this reason, investors regularly work to collect information on the global situation through newspapers, specialized magazines, the Internet, television, etc., and once something happens, immediately identify the companies affected by the event. If the impact is positive, it is required to buy the stock of the company and sell it if it is negative.
しかしながら、このためには各企業の活動内容や活動地域、関連企業等について熟知すると共に、多種多様なイベント毎にプラスまたはマイナスの影響が及ぶ具体的企業名を事前に把握しておく必要があり、なおかつニュース情報等を常時チェックしている必要があるため、突発的なイベントの発生直後に、他に先んじて投資行動に移行できる投資家は限られているのが現状である。 However, in order to do this, it is necessary to have a thorough understanding of each company's activities, areas of activity, related companies, etc., and to know in advance the specific company names that will have a positive or negative impact on various events. In addition, since it is necessary to constantly check news information and the like, there are currently only a few investors who can move to investment behavior immediately after the occurrence of a sudden event.
この発明は、このような現状を打開するために案出されたものであり、企業の株価に影響を与えるイベントの有無を自動的に検知すると共に、このイベントによって株価に影響を受ける具体的な企業名を提示可能な技術の提供を目的としている。 The present invention has been devised to overcome such a current situation, and automatically detects the presence or absence of an event that affects a company's stock price, and is specific to being affected by the stock price by this event. The purpose is to provide technology that can present company names.
上記の目的を達成するため、請求項1に記載した株価影響企業検知システムは、株価に影響を与える特定の属性を備えたイベント情報を格納するイベント情報記憶手段と、各企業の属性情報を登録しておく企業情報記憶手段と、イベントの属性と、当該イベントによって株価に影響を受ける企業の属性との組合せパターン毎に、株価に与える影響がプラスかマイナスかを定義した推論ルールを格納する推論ルール記憶手段と、上記イベント情報記憶手段に格納された各イベント情報に対して上記推論ルールを適用し、当該イベントによって株価に影響が及ぶ企業の属性を特定する手段と、上記企業情報記憶手段を参照し、上記属性を備えた企業を株価影響企業として抽出する株価影響企業抽出手段と、上記株価影響企業のリストを生成し、出力する手段とを備え、上記イベント情報の属性が、イベントの種類を表す文字列と、当該イベントの発生地域を表す文字列との組合せよりなり、上記企業の属性情報として、当該企業に係る特定種類の地域情報が含まれており、上記推論ルールには、イベントの種類及び企業に係る特定種類の地域との組合せパターン毎に、株価に与える影響がプラスかマイナスか定義されており、上記株価影響企業抽出手段は、上記推論ルールにおいて定義された企業に係る特定種類の地域として、イベント情報の発生地域が登録されている企業を株価影響企業として抽出する株価影響企業検知システムであって、さらに、上位概念的なイベントの種類を示す抽象化タグと、具体的なイベントの呼称を表す文字列との対応関係を定義したイベント辞書と、上位概念的な地域を示す抽象化タグと、具体的な地域名を表す文字列との対応関係を定義した地域辞書と、上位概念的なイベントの発生事実を示す抽象化タグと、具体的なイベントの発生事実を表す文字列との対応関係を定義したイベント述語辞書と、テキストデータ中の文を形態素単位に分解し、各形態素の品詞を同定するする手段と、上記の各辞書を参照し、各形態素の中で上記イベントの呼称を表す文字列、上記地域名を表す文字列、上記イベントの発生事実を表す文字列に該当するものに対して、それぞれイベントの種類を示す抽象化タグ、地域を示す抽象化タグ、イベントの発生事実を示す抽象化タグを関連付ける手段と、少なくとも主語に付属する助詞毎及び地域に付属する助詞毎に対応語の格納欄が設けられた格スロットに、文中の対応語を充填すると共に、イベントの発生事実を示す抽象化タグが付与されている形態素を述語として当該格スロットに関連付ける格スロット充填手段と、抽出すべき主語の抽象化タグ及び当該主語に付属する助詞を特定する条件と、抽出すべき述語の抽象化タグを特定する条件と、抽出すべき地域の抽象化タグ及び当該地域に付属する助詞を特定する条件が少なくとも規定された抽出フレーム定義を、複数格納しておく抽出フレーム定義記憶手段と、対応語充填済みの上記格スロットに上記抽出フレーム定義を適用することにより、少なくとも文の主語、述語、地域に該当する情報要素を抽出し、上記イベント情報記憶手段に格納する情報抽出手段とを備え、上記格スロット充填手段が、以下の処理を実行することを特徴としている。
(1) 先行する述語に関して対応語の充填が完了した格スロットを、後続の述語について継承させる。
(2) 後続の述語に係る対応語を上記格スロットの対応語格納欄に上書充填する。
(3)文の主語を表す助詞の対応語格納欄が後続の述語に係る主語を表す語によって上書充填された場合には、先行する述語に関して充填された対応語を削除する。
In order to achieve the above object, the stock price-affected company detection system according to claim 1 registers event information storage means for storing event information having specific attributes that affect stock prices, and the attribute information of each company. An inference rule that defines whether the impact on the stock price is positive or negative for each combination pattern of the company information storage means, the event attribute, and the company attribute that is affected by the stock price due to the event A rule storage means, a means for applying the inference rule to each event information stored in the event information storage means, and identifying an attribute of a company that affects the stock price due to the event; and the company information storage means Refer to and generate a list of stock price-affected companies and a stock price-affected company extraction means for extracting companies with the above attributes as stock price-affected companies, And the attribute of the event information is a combination of a character string indicating the type of the event and a character string indicating the region where the event occurs, and the specific information related to the company is used as the attribute information of the company. The above inference rules define whether the effect on the stock price is positive or negative for each combination pattern with the event type and the specific type of region related to the company. The company extraction means is a stock price-affected company detection system that extracts, as a stock price-affected company, a company in which an event information generation area is registered as a specific type of area related to the company defined in the inference rule, An event dictionary that defines the correspondence between abstract tags indicating the types of higher-level conceptual events and character strings that represent specific event names, An abstract tag that indicates the correspondence between an abstract tag that indicates a conceptual region and a character string that represents a specific region name, an abstract tag that indicates the occurrence of a higher-level conceptual event, and a specific event An event predicate dictionary that defines a correspondence relationship with a character string that represents the occurrence fact, a means for decomposing a sentence in text data into morpheme units and identifying a part of speech of each morpheme, and referring to each of the above dictionaries, For each morpheme, a character string that represents the name of the event, a character string that represents the region name, and a character string that represents the fact that the event has occurred. In the sentence, a case slot is provided with a means for associating an abstract tag that indicates an event, an abstract tag that indicates the occurrence of an event, and a storage column for corresponding words at least for each particle attached to the subject and for each particle attached to the region. A case slot filling means for associating a morpheme with an abstract tag indicating the occurrence of an event as a predicate with the case slot, an abstract tag of the subject to be extracted, and an attachment to the subject An extraction frame definition in which at least a condition for specifying a particle to be extracted, a condition for specifying an abstract tag for a predicate to be extracted, an abstract tag for an area to be extracted, and a condition for specifying a particle attached to the area are defined. , By extracting a plurality of extracted frame definition storage means and applying the extracted frame definition to the case slots filled with corresponding words, extract at least information elements corresponding to the subject, predicate, and region of the sentence, And an information extraction means stored in the event information storage means, wherein the case slot filling means executes the following processing.
(1) The case slot in which the filling of the corresponding word with respect to the preceding predicate is completed is inherited for the subsequent predicate.
(2) Overwrite the corresponding word for the following predicate in the corresponding word storage field of the case slot.
(3) When the corresponding term storage column of the particle representing the subject of the sentence is overwritten with a word representing the subject related to the subsequent predicate, the corresponding word filled with respect to the preceding predicate is deleted.
請求項2に記載した株価影響企業検知システムは、請求項1のシステムであって、さらに、上記の文の中でタイトルに該当する文に対して、タイトル文であることを示す識別情報を予め付与する手段を備え、上記格スロット充填手段が、この識別情報が付与されたタイトル文中のイベントの種類を示す抽象化タグが付与された語については、助詞の有無を問わず主語に付属する助詞の対応語格納欄に充填し、地域を示す抽象化タグが付与された語については、助詞の有無を問わず地域名に付属する助詞の対応語格納欄に充填することを特徴としている。
The stock price-affected company detection system according to
請求項3に記載した株価影響企業検知システムは、株価に影響を与える特定の属性を備えたイベント情報を格納するイベント情報記憶手段と、各企業の属性情報を登録しておく企業情報記憶手段と、イベントの属性と、当該イベントによって株価に影響を受ける企業の属性との組合せパターン毎に、株価に与える影響がプラスかマイナスかを定義した推論ルールを格納する推論ルール記憶手段と、上記イベント情報記憶手段に格納された各イベント情報に対して上記推論ルールを適用し、当該イベントによって株価に影響が及ぶ企業の属性を特定する手段と、上記企業情報記憶手段を参照し、上記属性を備えた企業を株価影響企業として抽出する株価影響企業抽出手段と、上記株価影響企業のリストを生成し、出力する手段とを備え、上記イベント情報の属性が、イベントの主体となる企業名を特定する文字列と、企業情勢に係るイベントの種類を表す文字列との組合せよりなり、上記企業の属性情報として、当該企業に係る特定種類の関連企業情報が含まれており、上記推論ルールには、企業情勢に係るイベントの種類及び関連企業の種類との組合せパターン毎に、株価に与える影響がプラスかマイナスか定義されており、上記株価影響企業抽出手段は、上記推論ルールにおいて定義された特定種類の関連企業として、企業情勢に係るイベント情報の主体となる企業名が登録されている企業を株価影響企業として抽出する株価影響企業検知システムであって、さらに、上位概念的な企業名を示す抽象化タグと、具体的な企業名を表す文字列との対応関係を定義した企業名辞書と、企業情勢に係る上位概念的なイベントの発生事実を示す抽象化タグと、企業情勢に係る具体的なイベントの発生事実を示す文字列との対応関係を定義したイベント述語辞書と、テキストデータ中の文を形態素単位に分解し、各形態素の品詞を同定するする手段と、上記の各辞書を参照し、各形態素の中で具体的な企業名を表す文字列、上記企業情勢に係るイベントの発生事実を表す文字列に該当するものに対して、それぞれ企業名であることを示す抽象化タグ、企業情勢に係るイベントの発生事実を示す抽象化タグを関連付ける手段と、少なくとも主語に付属する助詞毎に対応語の格納欄が設けられた格スロットに、文中の対応語を充填すると共に、イベントの発生事実を示す抽象化タグが付与されている形態素を述語として当該格スロットに上記述語を関連付ける格スロット充填手段と、抽出すべき主語の抽象化タグ及び当該主語に付属する助詞を特定する条件と、抽出すべき述語の抽象化タグを特定する条件が少なくとも規定された抽出フレーム定義を、複数格納しておく抽出フレーム定義記憶手段と、対応語充填済みの上記格スロットに上記抽出フレーム定義を適用することにより、少なくとも文の主語、述語に該当する情報要素を抽出し、上記イベント情報記憶手段に格納する情報抽出手段とを備え、上記格スロット充填手段が、以下の処理を実行することを特徴とする株価影響企業検知システム。
(1) 先行する述語に関して対応語の充填が完了した格スロットを、後続の述語について継承させる。
(2) 後続の述語に係る対応語を上記格スロットの対応語格納欄に上書充填する。
(3)文の主語を表す助詞の対応語格納欄が後続の述語に係る主語を表す語によって上書充填された場合には、先行する述語に関して充填された対応語を削除する。
The stock price-affected company detection system according to claim 3 includes an event information storage means for storing event information having a specific attribute that affects the stock price, and a company information storage means for registering attribute information of each company. An inference rule storage means for storing an inference rule that defines whether the influence on the stock price is positive or negative for each combination pattern of the attribute of the event and the attribute of the company affected by the stock price by the event, and the event information The inference rule is applied to each event information stored in the storage means, and the attribute of the company that affects the stock price due to the event is identified, and the company information storage means is referred to, and the attribute is provided. Stock price-affected company extraction means for extracting a company as a stock price-affected company, and means for generating and outputting the list of stock price-affected companies. The attribute of the event information consists of a combination of a character string that identifies the name of the company that is the subject of the event and a character string that represents the type of event related to the company situation. The above inference rules define whether the impact on the stock price is positive or negative for each combination pattern of event type and company type related to the corporate situation. The stock price-affected company extraction means extracts a stock price-affected company that extracts a company in which the company name that is the subject of the event information relating to the corporate situation is registered as a specific type of related company defined in the above inference rules. a system, further, the abstract tag indicating higher conceptual company name, a company name dictionary that defines the correspondence between the string representing a specific corporate name, An event predicate dictionary that defines the correspondence between an abstract tag that indicates the occurrence of a high-level conceptual event related to the business situation and a character string that indicates the specific event occurrence related to the business situation, and text data Means for decomposing sentences into morpheme units and identifying parts of speech of each morpheme, referring to each dictionary above, a character string representing a specific company name in each morpheme, and generating an event related to the company situation A means for associating an abstract tag indicating a company name, an abstract tag indicating the occurrence of an event relating to the corporate situation, and at least for each particle attached to the subject, corresponding to a character string representing a fact A case slot with a corresponding word storage field is filled with the corresponding word in the sentence, and a morpheme with an abstract tag indicating the occurrence of the event is added to the case slot as a predicate. An extraction frame in which case slot filling means for associating the above descriptive word, a condition for specifying the abstract tag of the subject to be extracted and a particle attached to the subject, and a condition for specifying the abstract tag of the predicate to be extracted are defined. Extracting frame definition storage means for storing a plurality of definitions, and applying the extracted frame definition to the case slots filled with corresponding words, extracts at least information elements corresponding to the subject and predicate of the sentence, A stock price-affected company detection system comprising: information extraction means for storing in event information storage means, wherein the case slot filling means executes the following processing.
(1) The case slot in which the filling of the corresponding word with respect to the preceding predicate is completed is inherited for the subsequent predicate.
(2) Overwrite the corresponding word for the following predicate in the corresponding word storage field of the case slot.
(3) When the corresponding term storage column of the particle representing the subject of the sentence is overwritten with a word representing the subject related to the subsequent predicate, the corresponding word filled with respect to the preceding predicate is deleted.
請求項4に記載した株価影響企業検知システムは、請求項3のシステムであって、さらに、上記の文の中でタイトルに該当する文に対して、タイトル文であることを示す識別情報を予め付与する手段を備え、上記格スロット充填手段が、この識別情報が付与されたタイトル文中の企業名であることを示す抽象化タグが付与された語については、助詞の有無を問わず主語に付属する助詞の対応語格納欄に充填することを特徴としている。 The stock price-affected company detection system according to claim 4 is the system according to claim 3 , and further includes identification information indicating that the sentence is a title sentence in advance for the sentence corresponding to the title in the above sentence. The case slot filling means is attached to the subject, regardless of the presence or absence of the particle, with respect to the word with the abstract tag indicating that it is the company name in the title sentence to which the identification information is assigned. It is characterized in that it fills the corresponding word storage column of the particle to be processed.
請求項5に記載した株価影響企業検知システムは、請求項1〜4のシステムであって、さらに、複合語となるべき複数の品詞の連結パターン毎に、当該複合語の品詞を決定するための基準が規定された複合語解析ルールを格納しておく複合語解析ルール記憶手段と、この複合語解析ルールを参照し、文中に複合語解析ルールに規定された品詞の連結パターンに該当する形態素の組合せが存在している場合には、これらの形態素を複合語と認定する複合語解析手段とを備え、上記の格スロット充填手段は、複合語と認定された形態素の組合せについては、複合語単位で格スロットへの充填処理を実行することを特徴としている。
The stock price-affected company detection system according to claim 5 is the system according to
請求項6に記載した株価影響企業検知システムは、請求項1〜5のシステムであって、さらに、形態素の種類を推定するための抽象化ルールを格納しておく抽象化ルール記憶手段と、上記の抽象化ルールを文に対して適用し、当該抽象化ルールにマッチする形態素に対してその種類を示す抽象化タグを関連付ける手段とを備えたことを特徴としている。
The stock price-affected company detection system according to claim 6 is the system according to
請求項7に記載した株価影響企業検知システムは、請求項1〜6のシステムであって、さらに、照応詞毎に、その先行詞を決定するための基準を定めた照応解析ルールを格納しておく照応解析ルール記憶手段と、この照応解析ルールを参照し、文中に存する照応詞に対して、対応の先行詞を決定すると共に、この先行詞によって照応詞を置き換える照応解析手段とを備えたことを特徴としている。 Stock influence companies detection system according to claim 7, The system of claim 6, further each anaphor, stores anaphora resolution rule that defines the criteria for determining the antecedent An anaphoric analysis rule storage means to be provided, an anaphoric analysis means for referring to the anaphoric analysis rule, determining a corresponding antecedent for the anaphoric in the sentence, and replacing the anaphor with the antecedent It is characterized by.
請求項1に記載した株価影響企業検知システムによれば、各イベント情報の発生によって株価にプラスまたはマイナスの影響が及ぶ具体的な企業が自動的にリストアップされ、ユーザに提供されるため、常時ニュース情報をチェックする時間のないユーザや、各企業の具体的な活動内容や活動地域等について熟知せず、各イベントが株価に与える影響について認識していないユーザであっても、即座に必要な投資行動(該当企業の株式の売買)に移ることが可能となる。
ここで、自然災害や紛争の発生など、影響が及ぶ地理的範囲が局所的なイベントの場合、株価への影響を推し量るにはイベントの発生地域と各企業との関係がポイントとなる。
このため、請求項1に記載した株価影響企業検知システムは、イベントの種類を表す文字列と発生地域を表す文字列がイベント情報の属性として設定されると共に、企業に係る特定種類の地域情報が企業の属性として設定されている。また、イベントの種類及び企業に係る特定種類の地域情報との組合せパターン毎に、当該イベントが株価に与える影響(プラスかマイナスか)が設定されている。
この結果、影響が局所的な自然災害等のイベントが発生した場合に、当該イベントの発生地域に関係のある企業を株価影響企業としてリストアップすることが可能となる。
原油取引価格や為替レートの変動のように、定期的に発生するイベントについては様々な情報提供企業が存在しており、比較的整った形式のイベント情報を容易に取得することができるが、自然災害や紛争のように突発的に発生するイベントの場合には、その第一報が自然言語で記述されたテキスト形式のデータ(Web上のニュース記事等)で提供されることが多いため、そのままではイベント情報として利用できない。
これに対し、請求項1に記載した株価影響企業検知システムは、予め必要な助詞の種類が設定された定型的な格スロットと、抽出すべき情報の種類を規定する抽出フレーム定義を用意しておき、文中に対応の助詞が存在する場合にはその直前の自立語を当該助詞の対応語格納欄に充填すると共に、この充填済みの格スロットに抽出フレーム定義を適用することにより、語順にかかわらず自然文から「主語(自然災害や紛争等のイベント)−述語−地域」のように構造化された情報を自動的に抽出する機能を備えているため、この自然災害や紛争等に関するイベント情報に基づいて株価影響企業をリストアップすることが可能となる。
しかも、原則として前の述語に係る格スロットがつぎの述語に継承される仕組みを備えているため、後続の述語に関して主語や地域の省略が存在したとしても、前の述語の主語や地域で容易に補うことができる。
According to the stock price-affected company detection system described in
Here, in the case where the geographical range to be affected is a local event, such as the occurrence of a natural disaster or a conflict, the relationship between the event occurrence area and each company is a point to estimate the influence on the stock price.
For this reason, in the stock price-affected company detection system according to
As a result, when an event such as a natural disaster that has a local impact occurs, it is possible to list companies related to the region where the event occurred as a stock price affected company.
There are various companies that provide information about events that occur regularly, such as changes in crude oil transaction prices and exchange rates, and it is easy to obtain relatively well-formed event information. For events that occur suddenly, such as disasters and conflicts, the first report is often provided in text format data (news articles on the Web, etc.) written in natural language, so It cannot be used as event information.
On the other hand, the stock price-affected company detection system according to claim 1 prepares a typical case slot in which a necessary particle type is set in advance and an extraction frame definition that defines the type of information to be extracted. If there is a corresponding particle in the sentence, the previous independent word is filled in the corresponding word storage field of the particle, and the extracted frame definition is applied to this filled case slot, so that the word order is changed. Because it has a function to automatically extract structured information such as “subject (events of natural disasters and conflicts)-predicate-region” from natural sentences, event information on natural disasters and conflicts, etc. It is possible to list stock price-affected companies based on this.
Moreover, in principle, the case slot related to the previous predicate is inherited by the next predicate, so even if there is a subject or region abbreviation for the subsequent predicate, it is easy for the subject and region of the previous predicate. Can make up for.
取引先企業の倒産や子会社の増益、減益、公開等、関連企業の動向(情勢変化)によっても企業の株価に大きな影響が生じる。
このため、請求項3に記載した株価影響企業検知システムにあっては、企業名を特定する文字列とイベントの種類を表す文字列がイベント情報の属性として設定されると共に、企業に係る特定種類の関連企業情報(取引先、子会社、親会社、提携先等)が企業の属性として設定されている。また、イベントの種類及び企業に係る特定種類の関連企業との組合せパターン毎に、当該イベントが株価に与える影響(プラスかマイナスか)が設定されている。
この結果、特定の企業について倒産や増益、減益、公開等のイベントが発生した場合に、当該イベントの主体となる企業に対して所定の関係を有する企業を、株価影響企業としてリストアップすることが可能となる。
企業動向に関する情報は、自然災害や紛争と同様、その第一報が自然言語で記述されたテキスト形式のデータ(Web上のニュース記事等)で提供されることが多いため、そのままではイベント情報として利用できない。
これに対し請求項3に記載した株価影響企業検知システムは、予め必要な助詞の種類が設定された定型的な格スロットと、抽出すべき情報の種類を規定する抽出フレーム定義を用意しておき、文中に対応の助詞が存在する場合にはその直前の自立語を当該助詞の対応語格納欄に充填すると共に、この充填済みの格スロットに抽出フレーム定義を適用することにより、語順にかかわらず自然文から「主語(企業名)−述語(企業情勢)」のように構造化された企業情勢に係るイベント情報を自動的に抽出する機能を備えているため、このイベント情報に基づいて株価影響企業をリストアップすることが可能となる。
しかも、原則として前の述語に係る格スロットがつぎの述語に継承される仕組みを備えているため、後続の述語に関して主語(企業名)の省略が存在したとしても、前の述語の主語で容易に補うことができる。
Trends in related companies (changes in circumstances) such as bankruptcy of business partners, increase in profits, decrease in profits, and public offerings also have a major impact on the company's stock price.
For this reason, in the stock price-affected company detection system according to claim 3, a character string that identifies the company name and a character string that represents the type of the event are set as attributes of the event information, and the specific type related to the company Related company information (customer, subsidiary, parent company, partner, etc.) is set as an attribute of the company. In addition, for each combination pattern of the event type and a specific type of related company related to the company, the influence (plus or minus) of the event on the stock price is set.
As a result, when an event such as bankruptcy, increase in profit, decrease in profit, disclosure, etc. occurs for a specific company, companies that have a predetermined relationship with the company that is the subject of the event may be listed as a stock price affected company. It becomes possible.
Information on corporate trends, like natural disasters and conflicts, is often provided as text information (news articles on the Web, etc.) in the form of text written in natural language. Not available.
On the other hand, the stock price-affected company detection system according to claim 3 prepares a typical case slot in which a necessary particle type is set in advance and an extraction frame definition that prescribes the type of information to be extracted. If there is a corresponding particle in the sentence, the previous independent word is filled in the corresponding word storage column of the particle, and the extracted frame definition is applied to this filled case slot, regardless of the word order. Since it has a function to automatically extract event information related to the company situation structured as “subject (company name)-predicate (company situation)” from the natural sentence, the stock price impact based on this event information It becomes possible to list companies.
Moreover, in principle, the case slot related to the previous predicate is inherited by the next predicate, so even if the subject (company name) is omitted for the subsequent predicate, it is easy to use the subject of the previous predicate. Can make up for.
請求項2及び4に記載した株価影響企業検知システムによれば、助詞が省略されている場合が多いタイトル文に対しても、上記の格スロットを適用し、必要な語を抽出することが可能となる。
According to the stock price-affected company detection system described in
請求項5に記載した株価影響企業検知システムによれば、複数の形態素の組合せよりなる複合語を文中において的確に認定可能となり、この結果、情報要素を最適な粒度で抽出可能となる。 According to the stock price-affected company detection system according to the fifth aspect , it is possible to accurately identify a compound word composed of a combination of a plurality of morphemes in a sentence, and as a result, it is possible to extract information elements with an optimum granularity.
請求項6に記載した株価影響企業検知システムによれば、辞書に収録されていない形態素についてもルールベースで抽象化タグを付与することが可能となり、その分、多くの情報要素をテキストから抽出可能となる。 According to the stock price-affected company detection system described in claim 6 , it is possible to add an abstract tag based on a rule base even for morphemes that are not recorded in the dictionary, and it is possible to extract many information elements from the text accordingly. It becomes.
請求項7に記載した株価影響企業検知システムによれば、文中の照応詞を対応の先行詞で置き換えることが可能となり、その分、多くの情報要素をテキストから抽出可能となる。
According to the stock price-affected company detection system according to the seventh aspect , it is possible to replace the anaphor in the sentence with the corresponding antecedent, so that many information elements can be extracted from the text.
図1は、この発明に係る株価影響企業検知システム10の全体構成を示すブロック図であり、形態素解析処理部12と、複合語解析処理部14と、抽象化処理部16と、照応解析処理部18と、文タイプ判定処理部20と、格スロット充填処理部22と、イベント抽出処理部24と、株価影響企業抽出部26と、辞書記憶部28と、複合語解析ルール記憶部30と、抽象化ルール記憶部32と、照応解析ルール記憶部34と、抽出フレーム定義記憶部36と、イベント情報記憶部38と、推論ルール記憶部40と、オントロジ記憶部42とを備えている。
株価影響企業抽出部26には、Webサーバ44がネットワーク接続されている。このWebサーバ44は、インターネット等の通信ネットワーク46を介して接続された複数のクライアント端末47に対し、投資情報提供サービスを提供するものである。
FIG. 1 is a block diagram showing the overall configuration of a stock price-affected
A
上記の形態素解析処理部12、複合語解析処理部14、抽象化処理部16、照応解析処理部18、文タイプ判定処理部20、格スロット充填処理部22、イベント抽出処理部24、株価影響企業抽出部26は、コンピュータのCPUが、OS及びアプリケーションプログラムに従って必要な処理を実行することによって実現される。
また、上記の辞書記憶部28、複合語解析ルール記憶部30、抽象化ルール記憶部32、照応解析ルール記憶部34、抽出フレーム定義記憶部36、イベント情報記憶部38、推論ルール記憶部40、オントロジ記憶部42は、同コンピュータのハードディスク内に設けられている。
辞書記憶部28内には、イベント辞書、イベント述語辞書、地域辞書、企業名辞書、活動対象物辞書、同義語辞書等が格納されている。
The above morphological
Further, the
In the
図2は、イベント辞書の登録内容を例示するものであり、イベントの種類を示す上位概念的な文字列(抽象化文字列)である「自然災害」に対して、「地震」、「洪水」、「干ばつ」、「津波」等の具体的なイベントの呼称(表現文字列)が予め対応付けられている。また、上位概念的な文字列(抽象化文字列)である「紛争」に対しては、「テロ」、「内戦」、「武力衝突」、「クーデター」等の文字列が予め対応付けられている。 FIG. 2 exemplifies the registered contents of the event dictionary. For “natural disaster” which is a high-level conceptual character string (abstracted character string) indicating the type of event, “earthquake”, “flood” Specific event names (expression character strings) such as “drought” and “tsunami” are associated in advance. In addition, a character string such as “terrorism”, “civil war”, “armed collision”, “coup” is associated with “conflict”, which is a high-level conceptual character string (abstracted character string), in advance. Yes.
図3は、イベント述語辞書の登録内容を例示するものであり、イベントの発生事実を示す上位概念的な文字列(抽象化文字列)である「災害発生」に対して、「発生」、「観測」、「起こる」、「おそわれる」等の具体的な述語(表現文字列)が予め対応付けられている。また、上位概念的な文字列(抽象化文字列)である「紛争発生」に対して、「発生」、「勃発」、「起こる」、「生じる」等の具体的な述語(表現文字列)が予め対応付けられている。同じく、上位概念的な文字列(抽象化文字列)である「企業情勢」に対して、「倒産」、「破綻」、「増益」、「減益」、「公開」等の具体的な述語(表現文字列)が予め対応付けられている。 FIG. 3 exemplifies the registered contents of the event predicate dictionary. For “disaster occurrence”, which is a high-level conceptual character string (abstracted character string) indicating the occurrence fact of an event, “occurrence”, “ Specific predicates (expression character strings) such as “observation”, “occurs”, and “trick” are associated in advance. Moreover, specific predicates (expression strings) such as “occurrence”, “breakout”, “occurs”, “occurs”, etc., for “conflict occurrence” which is a high-level conceptual character string (abstracted character string) Are associated in advance. Similarly, specific predicates such as “bankruptcy”, “bankruptcy”, “increased profit”, “decrease profit”, “disclosure”, etc. for “corporate situation” which is a high-level conceptual character string (abstracted character string) Expression character string) is associated in advance.
図4は、地域辞書の登録内容を例示するものであり、上位概念的な地域を示す文字列(抽象化文字列)である「地域」に対して、「北米」、「米国」、「カナダ」、…「東京」、「中央区」、「港区」、「神奈川県」…等の具体的な地域名(表現文字列)が予め対応付けられている。 FIG. 4 exemplifies the registered contents of the regional dictionary. “Region”, which is a character string (abstracted character string) indicating a higher conceptual region, is compared with “North America”, “US”, “Canada”. ..., “Tokyo”, “Chuo Ward”, “Minato Ward”, “Kanagawa Prefecture”, etc., are associated with specific area names (expression character strings) in advance.
図示は省略したが、企業名辞書には、主語となるべき具体的な企業名(正式名称及び略称)が、「企業名」の抽象化文字列に関連付けられて多数登録されている。
同じく図示は省略したが、活動対象物辞書には、上位概念的な「生産対象物」、「販売対象物」、「開発対象物」等の抽象化文字列に対して、「液晶」、「液晶テレビ」、「液晶パネル」、「液晶モニター」等、企業活動の対象物となるべき具体的な表現文字列が予め対応付けられている。
Although illustration is omitted, in the company name dictionary, a number of specific company names (formal names and abbreviations) to be the subject are registered in association with the abstract character string “company name”.
Similarly, although not shown in the figure, the activity object dictionary includes “liquid crystal”, “required” for abstract character strings such as “production object”, “sales object”, and “development object”. Specific expression character strings that should be objects of corporate activities, such as “liquid crystal television”, “liquid crystal panel”, and “liquid crystal monitor”, are associated in advance.
推論ルール記憶部40内には、各イベントの属性項目と、影響企業の属性項目との組合せパターン毎に、株価への影響(±)を定義した推論ルールデータが格納されている。図5及び図6は、推論ルール記憶部40内に格納された推論ルールデータの一例を示すものであり、各レコードには、イベントの属性項目として「イベントクラス」、「サブクラス」、「変化」のデータ項目が設定されると共に、影響企業の属性項目として「本社所在地」、「販売地域」、「生産地域」、「販売商品」、「原材料」、「関連企業」のデータ項目が設定されており、それぞれに「株価への影響(±)」のデータ項目が設定されている。
In the inference
上記「イベントクラス」には、イベントの種類を示す上位概念的な文字列である「通貨」、「材料価格」、「自然災害」、「紛争」、「企業情勢」等が記述されている。
また、上記「サブクラス」は、イベントの種類を示す下位概念的な文字列が格納される項目であり、「通貨」のサブクラスとして「ユーロ/円」や「ドル/円」等が設定されている。また、「材料価格」のサブクラスとして「石油価格」や「鋼材価格」等が、「自然災害」のサブクラスとして「地震」や「噴火」等が、紛争のサブクラスとして「テロ」や「内戦」等が、「企業情勢」のサブクラスとして「破綻」や「増益」、「減益」、「公開」等がそれぞれ設定されている。
In the “event class”, “currency”, “material price”, “natural disaster”, “conflict”, “business situation”, etc., which are high-level conceptual character strings indicating the types of events, are described.
The “subclass” is an item in which a subordinate character string indicating the type of event is stored, and “Euro / yen”, “dollar / yen”, etc. are set as a subclass of “currency”. . In addition, “Petroleum Price” and “Steel Price” are subclasses of “Material Price”, “Earthquake” and “Eruption” are subclasses of “Natural Disaster”, and “Terrorism” and “Civil War” are subclasses of conflict. However, “failure”, “income”, “decrease”, “public”, etc. are set as subclasses of “corporate situation”.
上記「変化」には、サブクラスに設定されたイベントについてプラス方向またはマイナス方向への時系列変化が存在する場合に、その変化を設定する項目であり、例えば「ユーロ/円」については「前日比+」が設定されたレコードと、「前日比−」が設定されたレコードがそれぞれ用意されている。
また、「石油価格」や「鋼材価格」についても、それぞれ「前日比+」が設定されたレコードが登録されている。「石油価格」や「鋼材価格」について「前日比−」が設定されたレコードも、推論ルール記憶部40内に登録されている。
これに対し、「地震」、「噴火」、「テロ」、「内戦」、「破綻」、「増益」、「減益」、「公開」の各イベントは、その性質上「プラス方向またはマイナス方向への時系列変化」という概念に馴染まないため、「変化」の項目はブランクとなされている。
The “change” is an item for setting a change in the time series in the positive direction or the negative direction for the event set in the subclass. For example, for “Euro / yen”, “change from the previous day” Records set with “+” and records set with “comparison with previous day-” are prepared.
In addition, for “oil price” and “steel material price”, records each set with “compared to the previous day +” are registered. Records in which “comparison with the previous day −” is set for “oil price” and “steel price” are also registered in the inference
On the other hand, events such as “earthquake”, “eruption”, “terrorism”, “civil war”, “failure”, “increased profit”, “decreased profit”, and “open” are, in their nature, “positive or negative” The item “change” is blank because it is not familiar with the concept of “time-series change”.
上記したイベントの属性項目は、内容把握の容易化のために「イベントクラス−サブクラス−変化」のように細分化されているが、この分類方法は一例であり、例えば「材料価格(イベントクラス)−石油価格(サブクラス)−前日比+(変化)」の代わりに、「石油価格の上昇(前日比)」のようにイベントの種類を1項目で定義することもできる。
あるいは逆に、「イベントクラス−サブクラス−変化」の他に「地域」や「時間」といった属性項目を加えることにより、イベントの属性項目をより細分化することもできる。
The above-mentioned event attribute items are subdivided as “event class-subclass-change” for easy understanding of the contents, but this classification method is an example. For example, “material price (event class)” Instead of “oil price (subclass) -day change + (change)”, it is also possible to define the event type as one item, such as “oil price increase (day change)”.
Or, conversely, by adding attribute items such as “region” and “time” in addition to “event class-subclass-change”, the event attribute items can be further subdivided.
上記影響企業の属性項目に含まれる個別の項目には、当該イベントの発生によって株価に影響がでる企業を特定するための情報が格納されている。
例えば、「通貨−ユーロ/円−前日比+」のレコードの場合、「販売地域」の項目に「ユーロ圏」が設定されており、「株価への影響」項目に「+」が設定されていることから、ユーロ高になると、ユーロ圏において商品の販売活動を行っている輸出企業の株価にプラスの影響が出ることを示している。
Each item included in the attribute item of the affected company stores information for identifying a company that affects the stock price due to the occurrence of the event.
For example, in the case of a record of “currency−euro / yen−y / y +”, “Eurozone” is set in the “Sales area” item, and “+” is set in the “Effect on stock price” item. As a result, the appreciation of the euro shows a positive impact on the share price of exporting companies engaged in selling products in the euro area.
また、「材料価格−石油価格−前日比+」のレコードの場合、「原材料」の項目に「石油」が設定されており、「株価への影響」項目に「−」が設定されているため、製品の原材料として石油を用いている企業の株価にマイナスの影響が出ることを示している。 In addition, in the case of the record of “material price−oil price−y / y +”, “oil” is set in the “raw material” item, and “−” is set in the “effect on stock price” item. This shows a negative impact on the stock price of companies that use oil as a raw material for their products.
また、「自然災害−地震−ブランク」のレコードの場合、「生産地域」の項目に「発生地域」が設定されており、「株価への影響」項目に「−」が設定されていることから、地震発生地域で生産活動を行っている企業の株価にマイナスの影響が出ることを示している。 In the case of the record “Natural Disaster-Earthquake-Blank”, “Production Area” is set as “Occurrence Area” and “Effect on Stock Price” is set as “−”. This shows that there is a negative impact on the stock price of companies engaged in production activities in the area where the earthquake occurred.
また、「企業情勢−破綻−ブランク」のレコードの場合、「関連企業」の項目に「取引先」が設定されており、「株価への影響」項目に「−」が設定されていることから、企業の破綻が生じた場合、この企業を取引先としている企業の株価にマイナスの影響が出ることを示している。 In addition, in the case of a record of “Corporate situation-bankruptcy-blank”, “Partner” is set in the “Related company” item, and “-” is set in the “Effect on stock price” item. This shows that when a corporate failure occurs, the stock price of a company that has this business partner is negatively affected.
オントロジ記憶部42には、(1)企業オントロジ、(2)リソースオントロジ、(3)地域オントロジ、の3種類のオントロジ情報が格納されている。
ここでオントロジ(Ontology)情報とは、複数の構成要素間の位置関係(上下関係)や意義が明確に規定されたデータ構造を備えた情報を意味している。
The
Here, ontology information means information having a data structure in which the positional relationship (vertical relationship) and the significance between a plurality of components are clearly defined.
図7は、企業オントロジの構成を示す概念図であり、各「Corporation(企業)」は、下位の構成要素として「Activity(活動)」、「Relation(関係)」、「Resource(資源)」を有していることを示している。
この図はまた、「Activity」の具体的内容として「Sales(販売)」、「Purchase(購買)」、「Production(生産)」等が該当し、「Relation」の具体的内容として「Business Ally(企業提携)」、「Parent Company(親会社)」、「Costomer(顧客企業)」等が該当し、「Resource」の具体的内容として「Brand(ブランド)」、「Product(製品)」、「Service(サービス)」等が該当することを示している。
この図はまた、Corporationには具体的な値として、「Name(企業名)」、「Stock Ticker Number(銘柄コード)」、「URL」、「Address(本社所在地)」が関連付けられていることを示している。
FIG. 7 is a conceptual diagram showing the configuration of a company ontology. Each “Corporation” has “Activity”, “Relation”, and “Resource” as subordinate components. It shows that it has.
This figure also includes “Sales”, “Purchase”, “Production”, etc. as specific contents of “Activity”, and “Business Ally ( "Business alliance", "Parent Company (parent company)", "Costomer (customer company)", etc., and the specific contents of "Resource" include "Brand (brand)", "Product (product)", "Service ( Service) ”and the like.
This figure also shows that “Corporation” is associated with “Name (company name)”, “Stock Ticker Number (stock code)”, “URL”, and “Address (head office address)” as specific values. Show.
図8(a)は、「Activity」の詳細な構造を示すものであり、各「Activity」は、「what(何を/活動対象)」として「Resource(資源)」クラスを、また「where(何処で/活動地域)」として「Location(地域)」クラスを構成要素として備えている。 FIG. 8A shows the detailed structure of “Activity”, and each “Activity” has a “Resource” class as “what” and “where”. The “Location” class is provided as a component as “where / activity area”.
図8(b)は、「Relation」の詳細な構造を示すものであり、各「Relation」は、「who(誰と)」として「Corporation(企業)」クラスを、また「what(何を)」として「String(具体的な値)」を構成要素として備えている。 FIG. 8 (b) shows the detailed structure of “Relation”. Each “Relation” has “Corporation” class as “who” and “what”. "," String (specific value) "as a component.
図8(c)は、「Resource」の詳細な構造を示すものであり、各「Resource」は、「category(分類)」として「String(具体的な値)」を、また「name(名称)」として「String(具体的な値)」を構成要素として備えている。 FIG. 8C shows the detailed structure of “Resource”, and each “Resource” has “String (specific value)” as “category” and “name”. "," String (specific value) "as a component.
例えば、「東洋自動車がイギリスでハイブリッド車『メビウス』を販売している」という意味内容の情報は、図9に示すデータ構造を備えた企業オントロジ情報として表現され、オントロジ記憶部42に格納される。
また、「ブルPCとオジマ家電がパソコン販売で業務提携している」という意味内容の情報は、図10に示すデータ構造を備えた企業オントロジ情報として表現され、オントロジ記憶部42に格納される。
これらの企業オントロジ情報は、実際にはRDF(Resource Description Framework)によって記述されている。
For example, the information of the meaning meaning “Toyo Motors sells the hybrid car“ Mevius ”in the UK” is expressed as corporate ontology information having the data structure shown in FIG. 9 and stored in the
Further, the information having the meaning of “Bull PC and Ojima home appliances are in business alliance for personal computer sales” is expressed as corporate ontology information having the data structure shown in FIG. 10 and stored in the
These corporate ontology information is actually described by RDF (Resource Description Framework).
図11は、リソースオントロジ情報の構造を例示する概念図であり、企業の「Resource」の具体的な内容が、階層構造で示されている。
例えば、「Product(製品)」の一つ下の概念として「自動車」が設定されており、この「自動車」には「トラック」や「ハイブリッド車」が含まれることが規定されている。
また、「Technology(技術)」の一つ下の概念として「遺伝子組み替え」や「半導体メモリ」等が含まれることが規定されている。
紙面に限りがあるため、図11においては僅かな数のリソースのみが例示されているが、実際には企業の資源として想定される多数のリソースが、複数階層に亘って詳細に定義されている。
FIG. 11 is a conceptual diagram illustrating the structure of resource ontology information, and the specific content of “Resource” of a company is shown in a hierarchical structure.
For example, “automobile” is set as a concept below “Product”, and it is specified that this “automobile” includes “truck” and “hybrid car”.
In addition, it is specified that “gene recombination”, “semiconductor memory”, and the like are included as concepts under “Technology”.
Since only a limited number of resources are illustrated in FIG. 11 due to limited space, in reality, a large number of resources that are assumed as corporate resources are defined in detail across multiple layers. .
このように、企業の「Resource」に含まれる具体的な要素間の位置付け(階層構造)を、リソースオントロジ情報としてオントロジ記憶部42に格納しておくことにより、「トラック」という文字列が「Product」に含まれる「自動車」の下位概念であることが明確化される。
In this way, by storing the positioning (hierarchical structure) between specific elements included in the “Resource” of the company in the
図12は、地域オントロジ情報の構造を例示する概念図であり、「Location(地域)」の具体的な内容が、階層構造で示されている。
例えば、「北米」の一つ下の概念として「米国」及び「カナダ」が設定されており、「米国」の下位概念として「ニューヨーク州」や「カリフォルニア州」等が含まれることが規定されている。
また、「アジア」の一つ下の概念として「日本」や「中国」等が含まれ、「日本」の下位概念として「東京都」や「神奈川県」等が含まれることが規定されている。
紙面に限りがあるため、図12においては僅かな数のリソースのみが例示されているが、実際には企業の活動地域として想定される多数の地名が、複数階層に亘って詳細に定義されている。
FIG. 12 is a conceptual diagram illustrating the structure of regional ontology information, and the specific contents of “Location (region)” are shown in a hierarchical structure.
For example, “United States” and “Canada” are set as one concept below “North America”, and “New York” and “California” are included as subordinate concepts of “United States”. Yes.
It also stipulates that “Japan” and “China” are included as concepts under “Asia”, and “Tokyo” and “Kanagawa Prefecture” are included as subordinate concepts of “Japan”. .
Due to the limited space, only a small number of resources are illustrated in FIG. 12, but in reality, a number of place names that are assumed as corporate activity areas are defined in detail across multiple layers. Yes.
このように、「Location」に含まれる具体的な要素間の位置付け(階層構造)を、地域オントロジ情報としてオントロジ記憶部42に格納しておくことにより、例えば「ユーロ圏」の下位概念として「イギリス」や「フランス」、「ドイツ」等が含まれることが明確化される。
In this way, by storing the position (hierarchical structure) between specific elements included in “Location” in the
上記イベント情報記憶部38には、構造化されたイベント情報が時系列順に多数格納されている。このイベント情報としては、予め必要なデータ構造に整形された上で情報配信サーバ48から送信される定量イベント情報と、このシステム10によってテキストデータから抽出された定性イベント情報に大別される。
The event
図13は、定量イベント情報の一例を示すものであり、サブクラス、時間、前日比のデータ項目を備えている。
これらの定量イベント情報は、為替情報提供企業や商品価格情報提供企業から随時送信される定量データに対して、情報配信サーバ48が必要な変換処理(必要データの抽出及び整形処理)を施すことにより、生成される。
FIG. 13 shows an example of quantitative event information, which includes data items of subclass, time, and day-to-day ratio.
These quantitative event information is obtained by performing necessary conversion processing (extraction and shaping processing of necessary data) on the quantitative data transmitted from time to time by exchange information providers and commodity price information providers. Generated.
図14は、定性イベント情報の一例を示すものである。
すなわち、(a)の定性イベント情報は新潟県で地震が発生したことを示しており、この定性イベント情報が生成された時点の日時情報である「2009/11/14 10:29」が関連付けられている。
また、(b)の定性イベント情報はダッカでテロが勃発したことを示しており、この定性イベント情報が生成された時点の日時情報である「2009/11/18 16:07」が関連付けられている。
さらに、(c)の定性イベント情報はA社が倒産したことを示しており、この定性イベント情報が生成された時点の日時情報である「2009/11/20 17:19」が関連付けられている。
FIG. 14 shows an example of qualitative event information.
In other words, the qualitative event information in (a) indicates that an earthquake occurred in Niigata Prefecture, and “2009/11/14 10:29”, which is the date and time information when this qualitative event information was generated, is associated. ing.
The qualitative event information in (b) indicates that a terrorist attack has occurred in Dhaka, and the date and time information at the time this qualitative event information was generated is associated with “2009/11/18 16:07”. Yes.
Furthermore, the qualitative event information in (c) indicates that Company A has gone bankrupt, and is associated with “2009/11/20 17:19” which is date and time information at the time when this qualitative event information was generated. .
上記のように、為替情報や商品価格情報などのように情報配信サービスが既に存在しており、そこから一定のフォーマットを備えた情報が提供される場合には、各データの意味や相互間の関係が明確であるため、比較的簡単なデータ変換処理を施すことにより、イベント情報として利用することができる。
これに対し、自然災害や紛争の発生などを告げる第一報は、構造化されていないテキスト情報の形で配信されるのが一般的である。もちろん、このような自然言語で記述された不定型のテキスト情報を逐一人間が解釈し、必要な構造に変換した上でイベントDB20に格納することも不可能ではない。
しかしながら、いつ発生するのかわからないイベントのために多くの人員を確保しておくことは非効率的であり、網羅性や即時性にも欠ける結果となる。
そこでこのシステム10では、インターネット上の複数のニュースサイト等から定期または不定期に収集される大量のテキストデータから、自動的に定性イベント情報を生成する機能を備えている。以下、この機能について詳細に説明する。
As mentioned above, when information distribution services such as exchange information and product price information already exist and information with a certain format is provided from there, the meaning of each data and the mutual Since the relationship is clear, it can be used as event information by performing a relatively simple data conversion process.
On the other hand, the first report that tells about the occurrence of natural disasters and conflicts is generally distributed in the form of unstructured text information. Of course, it is not impossible for humans to interpret such irregular text information described in a natural language one by one and convert it into a necessary structure and store it in the
However, it is inefficient to reserve a large number of people for an event that does not know when it will occur, resulting in lack of completeness and immediacy.
Therefore, the
まず、形態素解析処理部12により、外部から入力されたテキストデータ49に対する形態素解析が実行される。ここで「形態素解析」とは、自然言語で記述された文を、意味を有する最小の言語単位である形態素に分解し、それぞれの品詞を特定する処理をいう。
First, the morpheme
例えば、「ソミーが会社更生法の適用を受け、事実上倒産した」という文章が与えられた場合、図15に示すように、形態素解析処理部12はこれを「ソミー/名詞」、「が/助詞」、「会社更生法/名詞」、「の/助詞」、「適用/名詞」、「を/助詞」、「受け/動詞」…のように分解し、それぞれの品詞を特定する。
この形態素解析自体は公知技術であり、例えば以下のようなフリーソフトを形態素解析エンジンとして用いることができる。
(1)MeCab(http://mecab.sourceforge.net/)
(2)ChaSen(http://chasen.naist.jp/hiki/ChaSen/)
For example, when a sentence “Somy has gone bankrupt due to the application of the corporate reorganization law” is given, as shown in FIG. 15, the morphological
This morpheme analysis itself is a known technique. For example, the following free software can be used as a morpheme analysis engine.
(1) MeCab (http://mecab.sourceforge.net/)
(2) ChaSen (http://chasen.naist.jp/hiki/ChaSen/)
つぎに形態素解析処理部12は、辞書DB26内に格納されたイベント辞書、イベント述語辞書、地域辞書、企業名辞書、活動対象物辞書を参照し、特定形態素の品詞に対応の抽象化タグ(抽象化文字列)を補充する。
例えば、「ソミー」に関しては企業名辞書に登録例が存在していたため、「<企業名>」という抽象化タグが品詞項目に追記される。また、「倒産」に関してはイベント述語辞書に登録例が存在していたため、「<企業情勢>」という抽象化タグが品詞項目に追記される。
Next, the morpheme
For example, since “Somy” has a registered example in the company name dictionary, an abstract tag “<company name>” is added to the part of speech item. In addition, since there is a registered example in the event predicate dictionary regarding “bankruptcy”, an abstract tag “<company situation>” is added to the part of speech item.
つぎに、複合語解析処理部14が起動し、複合語解析ルール記憶部30に格納された複合語解析ルールを参照することにより、形態素解析処理部12によって形態素単位に分解された文の中から複合語を認定する。
この複合語解析ルールは、図16(a)に示すように、品詞連結パターンと品詞決定基準のデータ項目を備えており、複合語解析処理部14は、文中において品詞連結パターンに合致する形態素の並びを発見すると、これらの形態素を複合語として連結すると共に、対応の品詞決定基準に従い、当該複合語の品詞を同定する。
Next, the compound word
As shown in FIG. 16 (a), the compound word analysis rule includes data items of a part of speech connection pattern and a part of speech determination criterion, and the compound word
例えば、図16(b)に示すように、文中に「自然(名詞-形容動詞語幹)」「言語(名詞-一般)」「処理(名詞-サ変接続)」の3つの形態素が連続していた場合、複合語解析処理部14はそれぞれの品詞の連結パターンが複合語解析ルールの(1)にマッチするため「自然言語処理」の複合語と認定した後、(1)の品詞決定基準に基づいてその品詞を「名詞-一般」と認定する。
For example, as shown in FIG. 16 (b), three morphemes of “natural (noun-adjective verb stem)”, “language (noun-general)”, and “processing (noun-sa-variant connection)” were consecutive in the sentence. In this case, the compound word
また、図16(c)に示すように、文中に「高級(名詞-形容動詞語幹)」「化粧品(名詞-一般)」の2つの形態素が連続していた場合、複合語解析処理部14はそれぞれの品詞の連結パターンが複合語解析ルールの(2)にマッチするため「高級化粧品」の複合語と認定した後、(2)の品詞決定基準に基づいてその品詞を「名詞-一般」と認定する。
Also, as shown in FIG. 16 (c), when two morphemes of “high class (noun-adjective verb stem)” and “cosmetics (noun-general)” are consecutive in the sentence, the compound word
さらに、図16(d)に示すように、文中に「生産(名詞-サ変接続)」「量(名詞-接尾)」の2つの形態素が連続していた場合、複合語解析処理部14はそれぞれの品詞の連結パターンが複合語解析ルールの(3)にマッチするため「生産量」の複合語と認定した後、(3)の品詞決定基準に基づいてその品詞を「名詞-一般」と認定する。
Furthermore, as shown in FIG. 16 (d), when two morphemes of “production (noun-sa-variant connection)” and “quantity (noun-suffix)” are consecutive in the sentence, the compound word
つぎに、抽象化処理部16が起動し、文中の形態素に対して企業名や地域等の抽象化タグを関連付ける。
上記のように、先に形態素解析処理部12が辞書記憶部26を参照し、辞書に収録された企業名や地域等に対して該当の抽象化タグが付与されているが、辞書の収録語数には自ずと限界があり、辞書ベースでの抽象化処理だけでは漏れが生じる可能性がある。
このため抽象化処理部20は、抽象化ルール記憶部32に多数格納された正規表現ルールに基づく抽象化処理を実行し、辞書に収録されていない企業名や地域等について、対応の抽象化タグを関連付ける機能を備えている。
Next, the
As described above, the morphological
For this reason, the
図17(a)は抽象化ルールの一例を示すものであり、「<company_size>の<country>(<feature:名詞>+)」は、「company_size(企業規模を表す文字列)」+「の」+「country(国を表す文字列)」の直後に続く名詞を企業名と認定することが定義されている。また、「company_size」のエイリアス表現(別名)として、「首位、大手、中堅」が定義されており、「country_size」のエイリアス表現として、「米、英、欧州」が定義されている。 FIG. 17A shows an example of an abstraction rule. “<Country> of <company_size> (<feature: noun> +)” is “company_size (a character string representing a company size)” + “ It is defined that a noun immediately following “+ country (a character string representing a country)” is recognized as a company name. Further, “first, major, middle-ranking” is defined as an alias expression (alias) of “company_size”, and “US, UK, Europe” is defined as an alias expression of “country_size”.
ここに、図17(b)に示すように、「小売大手の米AAAマートは、人員削減計画を発表した。」という文が与えられた場合、抽象化処理部20はこれを図17(c)に示すように名詞単位のOR表現に置き換え、ルールにマッチする「小売り大手の米AAAマート」を抽出した後、正規表現の「後方参照」を用いて「AAAマート」を取り出し、企業名と認定する。
Here, as shown in FIG. 17 (b), when a sentence “Retail major US AAA Mart has announced a staff reduction plan” is given, the
つぎに、照応解析処理部18が起動し、照応解析ルール記憶部34に格納された照応解析ルールを参照することにより、文中の照応詞(代名詞等)に対して先行詞を補充する。
この照応語解析ルールは、図18(a)に示すように、照応詞と先行詞決定基準のデータ項目を備えており、照応解析処理部18は、定義された照応詞を文中において発見すると、対応の先行詞決定基準に従い、当該照応詞の先行詞を同定する。
Next, the anaphora
As shown in FIG. 18 (a), this anaphoric analysis rule includes data items of anaphoric and antecedent determination criteria. When the anaphoric
例えば、図18(b)に示すように、「同社は 同製品を 14日より 販売する。」という文が存在した場合、まず照応解析処理部18は「同社」が照応解析ルール(2)の先行詞に該当することを検知し、その先行詞決定基準に従い直近の<企業名>タグが付された「B社」を先行詞と認定し、文中の「同社」と置き換える。
つぎに照応解析処理部18は、文中の「同製品」が照応解析ルール(3)の先行詞に該当することを検知し、その先行詞決定基準に従い直近の<生産対象物>タグが付された「新型パソコン」を先行詞と認定し、文中の「同製品」と置き換える。
For example, as shown in Fig. 18 (b), when there is a sentence "The company will sell the product from 14th", the anaphora
Next, the anaphora
つぎに、文タイプ判定処理部20が起動し、各文の中で「タイトル文」に該当するものに対しては、タイトル文であることを示す識別情報を付与する。与えられた文がタイトル文であるのか、通常の文(本文)であるのかについては、テキストデータ49の収集元であるWebファイルに記述されたタグ情報によって判定される。タイトル文の具体例については、後述する。
「タイトル文」の識別情報が付与された文については、次段における格スロット充填処理において、これらの識別情報が付与されていない通常の文とは異なる扱いを受けることとなる。
Next, the sentence type
The sentence to which the identification information of “title sentence” is given is treated differently from the normal sentence to which these identification information is not given in the case slot filling process in the next stage.
つぎに、格スロット充填処理部22が起動し、メモリ上に設定された格スロットに対する語(形態素または複合語)の充填処理を実行する。
図19は、格スロットの一例を示すものであり、「助詞」と「対応語」の項目を備えている。また、助詞の項目には、予め(は)、(が)、(を)、(に)…等の必要な助詞(係助詞、格助詞)が設定されている。
Next, the case slot filling
FIG. 19 shows an example of a case slot, which includes items of “particle” and “corresponding word”. In addition, necessary particles (ie, particle particles, case particles) such as (ha), (ga), (), (ni)... Are set in advance in the item of particles.
ここで図20に示すように、「ソミーが会社更生法の適用を受け、事実上倒産した。」という文が与えられた場合、格スロット充填処理部22は格スロットの該当箇所に語を文頭から順に充填する。例えば、「ソミーが」の文節は助詞の「が」を含んでいるため、同文節内の自立語である「ソミー」が(が)の対応語格納欄に充填される。同様に、「会社更生法の」の文節は助詞の「の」を含んでいるため、その直前の語である「会社更生法」が(の)の対応語格納欄に充填される。同様に「適用を」の文節は助詞の「を」を含んでいるため、その直前の語である「適用」が(を)の対応語格納欄に充填される。なお、(が)、(を)、(の)以外の助詞の対応語格納欄については、空欄のまま残される。
Here, as shown in FIG. 20, when the sentence “Somy has gone bankrupt due to the application of the corporate rehabilitation law” is given, the case slot filling
つぎに格スロット充填処理部22は、当該格スロットに対して、文の述語である「倒産」を関連付ける。
一般的に「述語」といえば、主語の動作や状態、性質などを叙述する動詞、形容詞、名詞+判定詞を意味するが、格スロット充填処理部22が文中から抽出する「述語」は、最終的な抽出対象であるイベント情報の「述語」となるべき語であり、具体的にはイベント述語辞書内の抽象化文字列に対応した<災害発生>、<紛争発生>、<企業情勢>等の抽象化タグが付された語が該当する。
Next, the case slot filling
Generally speaking, “predicate” means a verb, an adjective, a noun + determinant that describes the behavior, state, and nature of the subject, but the “predicate” extracted from the sentence by the case slot filling
格スロット充填処理部22によって必要な語が充填された格スロットに対しては、次段のイベント抽出処理部24が、抽出フレーム定義記憶部36に格納された多数の企業情勢イベント用の抽出フレーム定義の中で条件にマッチするものを適用することにより、所定のイベント情報を抽出する。
For the case slot filled with the necessary words by the case slot filling
図21は、この抽出フレーム定義の適用例を示すものであり、抽出フレーム定義50には、以下の(1)及び(2)の条件を全て満たしている場合に、当該格スロットからイベント情報を抽出すべきことが規定されている。
(1)格スロットの(が)または(は)に<企業名>の抽象化タグが付与された語が充填されていること。
(2)格スロットの述語として<企業情勢>の抽象化タグが付与された語が関連付けられていること。
FIG. 21 shows an application example of this extracted frame definition. When the following conditions (1) and (2) are all satisfied, the extracted
(1) The case slot (GA) or (HA) is filled with the word with the <company name> abstract tag.
(2) As a predicate of the case slot, a word with the <company situation> abstract tag is associated.
イベント抽出処理部24は、格スロット充填処理部22から渡された充填済みの格スロット52に対して上記抽出フレーム定義50を当てはめ、上記の(1)及び(2)の条件に合致する場合には、当該格スロットの(が)または(は)に充填された語を「主語」とし、当該格スロットに述語として関連付けられた語を「述語」とするイベント情報54を生成する。
このイベント情報54は、イベント抽出処理部24によってイベント情報記憶部38に格納される。
The event
The
つぎに、図22に示すように、「ソミーは昨年10月に株式を公開したばかりである。」という文が与えられた場合、格スロット充填処理部22は上記と同様、述語単位で格スロットの充填処理を実行する。
この際、図19に示した空の格スロットが用いられるのではなく、対応語の充填が完了した直前の格スロットがコピーされ、つぎの文の語によって該当欄に上書充填されるのが原則であるが、つぎの文において(は)格または(が)格の対応語格納欄に語の充填がなされた場合、格スロット充填処理部20は話題が転換されたものと判断し、対応語の継承をキャンセルする。
Next, as shown in FIG. 22, when the sentence “Sommy has just been publicly traded in October last year” is given, the case slot filling
At this time, the empty case slot shown in FIG. 19 is not used, but the case slot immediately before the filling of the corresponding word is copied, and the corresponding column is overfilled with the word of the next sentence. As a general rule, if a word is filled in the corresponding word storage column of (ha) case or (ga) case in the next sentence, the case slot filling
具体的には、図22(a)に示すように、前の文から一旦継承した格スロットに対して、後の文の「ソミー」が(は)格の対応語格納欄に充填された結果、(が)の「ソミー」、(を)の「適用」及び(の)の「会社更生法」が削除されると同時に、(を)に対して「株式」が、(に)に対して「昨年10月」が新たに充填される。
この新たな格スロットに対しては、格スロット充填処理部22によって「公開」の文字列が述語として関連付けられる。
Specifically, as shown in FIG. 22 (a), for the case slot that is once inherited from the previous sentence, the result of filling the corresponding word storage column of “ha” in the subsequent sentence with “Somy” in the subsequent sentence. , (So) for (), (Apply) for () and (Company Rehabilitation Law) for () are deleted, and (Stock) for ( “Last October” is newly filled.
For this new case slot, the case slot filling
図示は省略したが、この格スロットに対して図21に示した抽出フレーム定義50を適用することにより、イベント抽出処理部24は「(企業名:ソミー)→(企業情勢:公開)」のイベント情報を抽出し、イベント情報記憶部38に格納する。
Although illustration is omitted, by applying the
つぎに格スロット充填処理部22は、図22(b)に示すように、次の文である「結局、わずか1年で破綻したことになる。」の格スロット充填処理に移行する。この場合は、文中に(は)および(が)を含む文節自体が存在せず、主語が省略された文であるため、前の文から継承した格スロットの(は)または(が)に対する上書充填が生じないため、継承した格スロットの対応語のクリアは行われない。
したがって、(は)には「ソミー」が、(を)には「株式」が、(に)には「昨年10月」がそのまま保持されると共に、(で)には「1年」が新たに充填される。
この格スロットに対しては、格スロット充填処理部22によって「破綻」の文字列が述語として関連付けられる。
Next, as shown in FIG. 22 (b), the case slot filling
Therefore, “Somy” is retained for (ha), “Stock” is retained for (), “October last year” is retained for (ni), and “One year” is newly retained for (de). Filled.
For this case slot, the case slot filling
図示は省略したが、この格スロットに対しても図21に示した抽出フレーム定義50を適用することにより、イベント抽出処理部24は「(企業名:ソミー)→(企業情勢:破綻)」のイベント情報を抽出し、イベント情報記憶部38に格納する。
Although not shown, by applying the extracted
つぎに、図23に示すように、「一方、競業のハープは今期、増収増益を果たした。」という文が与えられた場合、格スロット充填処理部22は前の文の格スロットを一旦継承させるが、(は)の対応語格納欄に主語となる「ハープ(<企業名>)」が上書充填された時点で、話題の転換が生じたものと判断して他の対応語格納欄に充填された対応語をクリアした後、改めて(を)に「増収増益」を、(の)に「競業」を充填する。
この新たな格スロットに対して格スロット充填処理部22は、「増収増益」の述語を関連付ける。
Next, as shown in FIG. 23, when the sentence “On the other hand, the competing harp achieved increased sales and profits this term”, the case slot filling
The case slot filling
図示は省略したが、この格スロットに対して図21に示した抽出フレーム定義50を適用することにより、イベント抽出処理部24は「(企業名:ハープ)→(企業情勢:増収増益)」のイベント情報を抽出し、イベント情報記憶部38に格納する。
Although illustration is omitted, by applying the
図24は、災害発生に係るイベント情報を抽出する際の具体例を示すものであり、「新潟県で震度6の強い地震が発生した。」という文が与えられた場合も、格スロット充填処理部22は上記と同様、格スロットの該当箇所に語を充填する。すなわち、「新潟県で」の文節は助詞の「で」を含んでいるため、同文節内の自立語である「新潟県」が(で)の対応語格納欄に充填される。同様に、「震度6の」の文節は助詞の「の」を含んでいるため、その直前の語である「震度6」が(の)の対応語格納欄に充填される。同様に「地震が」の文節は助詞の「が」を含んでいるため、その直前の語である「地震」が(が)の対応語格納欄に充填される。
格スロット充填処理部22は、この格スロットに対して<災害発生>の抽象化タグが付与された「発生」を述語として関連付ける。
FIG. 24 shows a specific example of extracting event information related to the occurrence of a disaster. Even when a sentence “A strong earthquake of seismic intensity 6 occurred in Niigata Prefecture” is given, case slot filling processing is performed. In the same manner as described above, the
The case slot filling
この格スロット充填処理部22によって必要な語が充填された格スロットに対しては、イベント抽出処理部24が抽出フレーム定義記憶部36に格納された自然災害イベント用の抽出フレーム定義を適用することにより、イベント情報を抽出する。
The event
図25は、この抽出フレーム定義の適用例を示すものであり、抽出フレーム定義56には、以下の(1)〜(3)の条件を全て満たしている場合に、当該格スロットからイベント情報を抽出すべきことが規定されている。
(1)格スロットの(が)または(は)に<自然災害>の抽象化タグが付与された語が充填されていること。
(2)格スロットの述語として<災害発生>の抽象化タグが付与された語が関連付けられていること。
(3)格スロットの(に)、(で)あるいは(にて)に<地域>の抽象化タグが付与された語が充填されていること。
FIG. 25 shows an application example of this extracted frame definition. When the extracted
(1) Words with <natural disaster> abstract tag are filled in (g) or (ha) of case slots.
(2) Words with the <disaster occurrence> abstract tag are associated as case slot predicates.
(3) Words with the <region> abstract tag are filled in the case slots (ni), (de), or (de).
イベント抽出処理部24は、格スロット充填処理部22から渡された充填済みの格スロット58に対して上記抽出フレーム定義56を当てはめ、上記の(1)〜(3)の条件に合致することを確認した上で、格スロットの(が)に充填された自然災害としての「地震」と、述語としての「発生」と、地域としての「新潟県」を取り出し、イベント情報60を生成する。
このイベント情報60は、イベント抽出処理部24によってイベント情報記憶部38に格納される。
The event
The
図26は、紛争発生に係るイベント情報を抽出する際の具体例を示すものであり、「X国でクーデターが勃発した。」という文が与えられた場合も、格スロット充填処理部22は上記と同様、格スロットの該当箇所に語を充填する。すなわち、「X国で」の文節は助詞の「で」を含んでいるため、同文節内の自立語である「X国」が(で)の対応語格納欄に充填される。同様に、「クーデターが」の文節は助詞の「が」を含んでいるため、同文節内の自立語である「クーデター」が(が)の対応語格納欄に充填される。
格スロット充填処理部22は、この格スロットに対して<紛争発生>の抽象化タグが付与された「勃発」を述語として関連付ける。
FIG. 26 shows a specific example when extracting event information related to the occurrence of a conflict. Even when a sentence “Coup has broken out in country X” is given, the case slot filling
The case slot filling
この格スロット充填処理部22によって必要な語が充填された格スロットに対しては、イベント抽出処理部24が抽出フレーム定義記憶部36に格納された紛争イベント用の抽出フレーム定義を適用することにより、所定のイベント情報を抽出する。
For the case slot filled with the necessary words by the case slot filling
図27は、この抽出フレーム定義の適用例を示すものであり、抽出フレーム定義62には、以下の(1)〜(3)の条件を全て満たしている場合に、当該格スロット64からイベント情報を抽出すべきことが規定されている。
(1)格スロットの(が)または(は)に<紛争>の抽象化タグが付与された語が充填されていること。
(2)格スロットの述語として<紛争発生>の抽象化タグが付与された語が関連付けられていること。
(3)格スロットの(に)、(で)あるいは(にて)に<地域>の抽象化タグが付与された語が充填されていること。
FIG. 27 shows an application example of this extracted frame definition. The extracted
(1) Words with the <conflict> abstract tag are filled in the case slots (GA) or (HA).
(2) Words with the <conflict occurrence> abstract tag are associated as case slot predicates.
(3) Words with the <region> abstract tag are filled in the case slots (ni), (de), or (de).
イベント抽出処理部24は、格スロット充填処理部22から渡された充填済みの格スロット64に対して上記抽出フレーム定義62を当てはめ、上記の(1)〜(3)の条件に合致することを確認した上で、格スロットの(が)に充填された紛争としての「クーデター」と、述語としての「勃発」と、地域としての「X国」を取り出し、イベント情報66を生成する。
このイベント情報66は、イベント抽出処理部24によってイベント情報記憶部38に格納される。
The event
The
上記した格スロット充填処理は、通常の自然文を対象とした場合の例であるが、与えられた文にタイトル文であることを示す識別情報が付与されていた場合、助詞が省略されていることが多いため、格スロット充填処理部22は省略された助詞を推定した上で、格スロットに対する語の充填処理を実行する。
The case slot filling process described above is an example in the case of a normal natural sentence, but if the identification information indicating that the given sentence is a title sentence is given, the particle is omitted. In many cases, the case slot filling
例えば、図28に示すように、「台風18号、15日未明、沖縄上陸」のタイトル文が与えられた場合、格スロット充填処理部22は<自然災害>の抽象化タグが付され、イベント情報の主語となるべき「台風」については、(は)または(が)の助詞が省略されているものと推定し、格スロットの(は)及び(が)に「台風」を充填する。
つぎに格スロット充填処理部22は、「沖縄」について<地域>の抽象化タグが付与されていることから、地域を表す語と共に用いられる助詞である(に)、(で)、(にて)の何れかが省略されているものと推定し、格スロットの(に)、(で)、(にて)に「沖縄」を充填する。
つぎに格スロット充填処理部22は、「上陸」について<災害発生>の抽象化タグが付与されているため述語であると認定し、格スロットに述語として「上陸」を関連付ける。
For example, as shown in FIG. 28, when the title sentence “Typhoon No.18, 15th Dawn, Okinawa Landing” is given, the case slot filling
Next, the case slot filling
Next, the case slot filling
この格スロット充填処理部22によって必要な語が充填された格スロットに対しては、イベント抽出処理部24が抽出フレーム定義記憶部36に格納された自然災害イベント用の抽出フレーム定義を適用することにより、所定のイベント情報を抽出する。
The event
図29は、このイベント情報抽出の様子を示すものであり、イベント抽出処理部24は、格スロット充填処理部22から渡された充填済みの格スロット68に対して抽出フレーム定義56を当てはめることにより、格スロットの(は)及び(が)に充填された自然災害としての「台風」と、述語としての「上陸」と、格スロットの(に)、(で)及び(にて)に充填された地域としての「沖縄」を取り出し、イベント情報70を生成する。
このイベント情報70は、イベント抽出処理部24によってイベント情報記憶部38に格納される。
FIG. 29 shows the event information extraction state. The event
The
従来の構文解析技術を用いた情報抽出方式の場合、抽出すべき文節間の係り受け構造を構文パターンとして定義しておく必要があるが、このように文の構造に依存する構文パターンを用いる方式では、語の順番が入れ替わっただけでも対象となる情報の抽出が不可能となるため、文のあらゆるバリエーションを想定して構文パターンを準備する必要があった。 In the case of an information extraction method using a conventional parsing technique, it is necessary to define the dependency structure between clauses to be extracted as a syntax pattern. In this way, a method using a syntax pattern that depends on the structure of the sentence is used. However, since it is impossible to extract the target information just by changing the order of words, it is necessary to prepare a syntax pattern in consideration of all variations of sentences.
これに対し、このシステム10の場合には、上記のように予め必要な助詞の種類が設定された定型的な格スロットと、抽出すべき情報の種類を規定する抽出フレーム定義を用意しておき、文中に対応の助詞が存在する場合にはその直前の自立語を当該助詞の対応語格納欄に充填すると共に、この充填済みの格スロットに抽出フレーム定義を適用することにより、語順にかかわらず自然文から「主語−述語−地域」のように構造化された情報を確実に抽出することができる。また、語順に拘束されないため、抽出フレーム定義のバリエーションを抑制することができる。
しかも、原則として前の文の格スロットがつぎの文に継承される仕組みを備えているため、後続の文中に主語や地域の省略が存在したとしても、前の文の主語や地域で容易に補うことができる。
On the other hand, in the case of this
In addition, as a general rule, the case slot of the previous sentence is inherited by the next sentence, so even if there is a subject or region abbreviation in the subsequent sentence, it can be easily changed in the subject or area of the previous sentence. Can be supplemented.
上記においては、格スロット充填処理部22から渡された充填済みの格スロットに対して、イベント抽出処理部24がイベント情報の抽出処理を直ちに実行する例を説明したが、この発明はこれに限定されるものではない。
すなわち、格スロット充填処理部22によって必要な語の充填が完了した格スロットを充填済み格スロット記憶部(図示省略)に蓄積しておき、これに対しイベント抽出処理部24が抽出フレーム定義を順次適用することにより、各種イベント情報をまとめて抽出するように構成してもよい。
In the above, the example in which the event
That is, the case slots that have been filled with the necessary words by the case slot filling
つぎに、図30のフローチャートに従い、株価影響企業の検知に係る処理手順を説明する。
まず、株価影響企業抽出部26は、定期的にイベント情報記憶部38をチェックし(S10)、前回チェック時から現在までの間に新規のイベント情報が登録されたか否かを判定する。
ここで新たなイベント情報の登録があった場合(S12/YES)、株価影響企業抽出部26は、推論ルール記憶部40及びオントロジ記憶部42を参照し、当該イベント情報によって株価に影響が生じる企業を特定する(S14)。
Next, a processing procedure related to detection of a stock price-affected company will be described with reference to the flowchart of FIG.
First, the stock price-affected
Here, when new event information is registered (S12 / YES), the stock price-affected
例えば、新規登録されたイベント情報が、「新潟県で地震が発生した」事実を伝えるものであった場合、株価影響企業抽出部26は図6に示したテーブルを参照し、発生地域=新潟県で生産活動を行っている企業の株価にマイナスの影響が生じることを認識する。
For example, if the newly registered event information conveys the fact that “an earthquake has occurred in Niigata Prefecture”, the stock price affected
つぎに株価影響企業抽出部26は、オントロジ記憶部42内に格納された企業オントロジ情報を参照し、新潟県内において生産活動を行っている企業の名称、銘柄コードを取得し、各企業名及び銘柄コードを所定の順序で整列させた株価影響企業リストを生成する(S16)。
「新潟県内において生産活動を行っている企業」は、具体的には企業オントロジ情報の「Activity=Production」and「where→新潟県」の条件を満たすCorporationが該当する。
Next, the stock price-affected
Specifically, “a company engaged in production activities in Niigata Prefecture” corresponds to a corporation that satisfies the conditions of “Activity = Production” and “where → Niigata Prefecture” in the company ontology information.
最後に株価影響企業抽出部26は、上記株価影響企業リストをWebサーバ44に送信する(S18)。
Webサーバ44は、上記株価影響企業リストを含むWebファイルをクライアント端末47に配信する。
この結果、クライアント端末47のWebブラウザには、図31に示すように、株価マイナス影響企業リスト72を含むレポート画面74が表示される。
この株価マイナス影響企業リスト72中に自己の所有する銘柄が列記されていた場合、ユーザは注文ボタン76をクリックして当該銘柄の売り注文を証券会社のホストコンピュータに送信し、必要な株式の売買をいち早く完了することが可能となる。
Finally, the stock price affected
The
As a result, a
If the stock owned by the company is listed in the stock price negative
また、新規登録されたイベント情報が、ユーロ/円が前日比プラス(ユーロ高)となった事実を伝えるものであった場合、株価影響企業抽出部26は図5に示したテーブルを参照し、ユーロ圏において商品を販売している輸出企業の株価にプラスの影響が生じることを認識する。
In addition, when the newly registered event information is to convey the fact that the euro / yen has increased (yen appreciation) compared to the previous day, the stock price-affected
つぎに株価影響企業抽出部26は、オントロジ記憶部42内に格納された地域オントロジ情報を参照し、ユーロ圏に属する個々の国の名称(イギリス、フランス、ドイツ、イタリア…)を取得する。
つぎに株価影響企業抽出部26は、オントロジ記憶部42内に格納された企業オントロジ情報を参照し、上記の各国において商品の販売活動を行っている企業の名称、銘柄コードを取得し、各企業名及び銘柄コードを所定の順序で整列させた株価プラス影響企業リストを生成する。
「X国において販売活動を行っている企業」は、具体的には企業オントロジ情報の「Activity=Sales」and「where→X国」の条件を満たすCorporationが該当する。
Next, the stock price-affected
Next, the stock price-affected
The “company that conducts sales activities in country X” specifically corresponds to a corporation that satisfies the conditions of “Activity = Sales” and “where → Country X” in the company ontology information.
最後に株価影響企業抽出部26は、上記株価プラス影響企業リストをWebサーバ44に送信する。
Webサーバ44は、この株価プラス影響企業リストを含むWebファイルをクライアント端末47に配信する。
この結果、クライアント端末47のWebブラウザには、株価プラス影響企業リストを含む画面が表示される(図示省略)。これに対しユーザは、株価プラス影響リストの中から1または複数の銘柄を選択し、対応の注文ボタンをクリックして証券会社のホストコンピュータに株式の買い注文を発することが可能となる。
Finally, the stock price affected
The
As a result, a screen including a stock price plus affected company list is displayed on the Web browser of the client terminal 47 (not shown). On the other hand, the user can select one or a plurality of stocks from the stock price plus influence list and click a corresponding order button to issue a stock buying order to the securities company's host computer.
また、新規登録されたイベント情報が、A社が倒産した事実を伝えるものであった場合、株価影響企業抽出部26は図6に示したテーブルを参照し、A社を取引先としている企業の株価にマイナスの影響が生じることを認識する。
Also, if the newly registered event information conveys the fact that Company A went bankrupt, the stock price-affected
つぎに株価影響企業抽出部26は、オントロジ記憶部42内に格納された企業オントロジ情報を参照して、A社を取引先としている企業の名称、銘柄コードを取得し、各企業名及び銘柄コードを所定の順序で整列させた株価マイナス影響企業リストを生成する。
「A社を取引先としている企業」は、具体的には企業オントロジ情報の「Relation=Business Ally」and「who→A社」の条件を満たすCorporationが該当する。
Next, the stock price-affected
“Company with company A as a business partner” specifically corresponds to a corporation that satisfies the conditions of “Relation = Business Ally” and “who → Company A” in the company ontology information.
最後に株価影響企業抽出部26は、上記株価マイナス影響企業リストをWebサーバ44に送信する。
Webサーバ44は、この株価マイナス影響企業リストを含むWebファイルをクライアント端末47に配信する。
この結果、クライアント端末47のWebブラウザには、株価マイナス影響企業リストを含む画面が表示される(図示省略)。これに対しユーザは、株価マイナス影響リストの中から1または複数の銘柄を選択し、対応の注文ボタンをクリックして証券会社のホストコンピュータに株式の売り注文を発することが可能となる。
Finally, the stock price affected
The
As a result, a screen including a stock price minus affected company list is displayed on the Web browser of the client terminal 47 (not shown). On the other hand, the user can select one or a plurality of stocks from the stock price negative influence list and click a corresponding order button to issue a stock selling order to the host computer of the securities company.
10 株価影響企業検知システム
12 形態素解析処理部
14 複合語解析処理部
16 抽象化処理部
18 照応解析処理部
20 文タイプ判定処理部
24 イベント抽出処理部
26 株価影響企業抽出部
28 辞書記憶部
30 複合語解析ルール記憶部
32 抽象化ルール記憶部
34 照応解析ルール記憶部
36 抽出フレーム定義記憶部
38 イベント情報記憶部
40 推論ルール記憶部
42 オントロジ記憶部
44 Webサーバ
46 通信ネットワーク
47 クライアント端末
48 情報配信サーバ
49 テキストデータ
50 抽出フレーム定義
52 充填済み格スロット
54 イベント情報
56 抽出フレーム定義
58 充填済み格スロット
60 イベント情報
62 抽出フレーム定義
64 充填済み格スロット
66 イベント情報
68 充填済み格スロット
70 イベント情報
72 株価マイナス影響企業リスト
74 レポート画面
76 注文ボタン
10 Stock price impact company detection system
12 Morphological analysis processor
14 Compound word analysis processing section
16 Abstraction processing section
18 Anaphoric analysis processing section
20 sentence type determination processing section
24 Event extraction processing section
26 Stock Price Impact Company Extraction Department
28 Dictionary storage
30 Compound word analysis rule storage
32 Abstraction rule storage
34 Anaphoric analysis rule storage
36 Extracted frame definition storage
38 Event information storage
40 Inference rule memory
42 Ontology storage
44 Web server
46 Communication network
47 Client terminal
48 Information distribution server
49 Text data
50 Extraction frame definition
52 filled slot
54 Event information
56 Extraction frame definition
58 filled slot
60 Event information
62 Extraction frame definition
64 filled slot
66 Event information
68 filled slot
70 Event information
72 List of companies with negative impact on stock prices
74 Report screen
76 Order button
Claims (7)
各企業の属性情報を登録しておく企業情報記憶手段と、
イベントの属性と、当該イベントによって株価に影響を受ける企業の属性との組合せパターン毎に、株価に与える影響がプラスかマイナスかを定義した推論ルールを格納する推論ルール記憶手段と、
上記イベント情報記憶手段に格納された各イベント情報に対して上記推論ルールを適用し、当該イベントによって株価に影響が及ぶ企業の属性を特定する手段と、
上記企業情報記憶手段を参照し、上記属性を備えた企業を株価影響企業として抽出する株価影響企業抽出手段と、
上記株価影響企業のリストを生成し、出力する手段とを備え、
上記イベント情報の属性が、イベントの種類を表す文字列と、当該イベントの発生地域を表す文字列との組合せよりなり、
上記企業の属性情報として、当該企業に係る特定種類の地域情報が含まれており、
上記推論ルールには、イベントの種類及び企業に係る特定種類の地域との組合せパターン毎に、株価に与える影響がプラスかマイナスか定義されており、
上記株価影響企業抽出手段は、上記推論ルールにおいて定義された企業に係る特定種類の地域として、イベント情報の発生地域が登録されている企業を株価影響企業として抽出する株価影響企業検知システムであって、
さらに、上位概念的なイベントの種類を示す抽象化タグと、具体的なイベントの呼称を表す文字列との対応関係を定義したイベント辞書と、
上位概念的な地域を示す抽象化タグと、具体的な地域名を表す文字列との対応関係を定義した地域辞書と、
上位概念的なイベントの発生事実を示す抽象化タグと、具体的なイベントの発生事実を表す文字列との対応関係を定義したイベント述語辞書と、
テキストデータ中の文を形態素単位に分解し、各形態素の品詞を同定するする手段と、
上記の各辞書を参照し、各形態素の中で上記イベントの呼称を表す文字列、上記地域名を表す文字列、上記イベントの発生事実を表す文字列に該当するものに対して、それぞれイベントの種類を示す抽象化タグ、地域を示す抽象化タグ、イベントの発生事実を示す抽象化タグを関連付ける手段と、
少なくとも主語に付属する助詞毎及び地域に付属する助詞毎に対応語の格納欄が設けられた格スロットに、文中の対応語を充填すると共に、イベントの発生事実を示す抽象化タグが付与されている形態素を述語として当該格スロットに関連付ける格スロット充填手段と、
抽出すべき主語の抽象化タグ及び当該主語に付属する助詞を特定する条件と、抽出すべき述語の抽象化タグを特定する条件と、抽出すべき地域の抽象化タグ及び当該地域に付属する助詞を特定する条件が少なくとも規定された抽出フレーム定義を、複数格納しておく抽出フレーム定義記憶手段と、
対応語充填済みの上記格スロットに上記抽出フレーム定義を適用することにより、少なくとも文の主語、述語、地域に該当する情報要素を抽出し、上記イベント情報記憶手段に格納する情報抽出手段とを備え、
上記格スロット充填手段が、以下の処理を実行することを特徴とする株価影響企業検知システム。
(1) 先行する述語に関して対応語の充填が完了した格スロットを、後続の述語について継承させる。
(2) 後続の述語に係る対応語を上記格スロットの対応語格納欄に上書充填する。
(3)文の主語を表す助詞の対応語格納欄が後続の述語に係る主語を表す語によって上書充填された場合には、先行する述語に関して充填された対応語を削除する。 Event information storage means for storing event information having specific attributes that affect the stock price;
Company information storage means for registering attribute information of each company;
An inference rule storage means for storing an inference rule that defines whether the influence on the stock price is positive or negative for each combination pattern of the attribute of the event and the attribute of the company affected by the stock price by the event;
Means for applying the inference rules to each event information stored in the event information storage means, and identifying a company attribute that affects the stock price by the event;
A stock price-affected company extracting means for referring to the company information storage means and extracting a company having the attribute as a stock price-affected company;
Means for generating and outputting a list of the above-mentioned stock price-affected companies,
The attribute of the event information consists of a combination of a character string representing the type of event and a character string representing the region where the event occurred,
The attribute information of the company includes specific types of regional information related to the company,
The above inference rules define whether the impact on stock prices is positive or negative for each combination pattern with the type of event and the specific type of region related to the company.
The stock price-affected company extraction means is a stock price-affected company detection system that extracts, as a stock price-affected company, a company in which the event information occurrence area is registered as a specific type of area related to the company defined in the inference rule. ,
In addition, an event dictionary that defines the correspondence between abstract tags indicating the types of higher-level conceptual events and character strings that represent specific event names,
An area dictionary that defines the correspondence between abstract tags that indicate higher conceptual areas and character strings that represent specific area names,
An event predicate dictionary that defines the correspondence between an abstract tag that indicates the occurrence of a high-level conceptual event and a character string that represents the specific event occurrence;
Means for decomposing sentences in text data into morpheme units and identifying parts of speech of each morpheme;
Referring to each of the above dictionaries, each of the morphemes corresponds to a character string representing the name of the event, a character string representing the region name, and a character string representing the occurrence of the event. A means of associating an abstract tag indicating the type, an abstract tag indicating the region, an abstract tag indicating the event occurrence,
At least for each particle attached to the subject and each particle attached to the region, a case slot provided with a storage column for the corresponding word is filled with the corresponding word in the sentence, and an abstract tag indicating the occurrence of the event is given. Case slot filling means for associating a morpheme as a predicate with the case slot;
A condition for specifying an abstract tag of a subject to be extracted and a particle attached to the subject, a condition for specifying an abstract tag of a predicate to be extracted, an abstract tag of an area to be extracted, and a particle attached to the area Extraction frame definition storage means for storing a plurality of extracted frame definitions in which at least a condition for specifying is specified;
Information extracting means for extracting at least information elements corresponding to the subject, predicate, and region of the sentence by applying the extracted frame definition to the case slots filled with corresponding words, and storing the information elements in the event information storage means; ,
The stock price-affected company detection system, wherein the case slot filling means executes the following processing.
(1) The case slot in which the filling of the corresponding word with respect to the preceding predicate is completed is inherited for the subsequent predicate.
(2) Overwrite the corresponding word for the following predicate in the corresponding word storage field of the case slot.
(3) When the corresponding term storage column of the particle representing the subject of the sentence is overwritten with a word representing the subject related to the subsequent predicate, the corresponding word filled with respect to the preceding predicate is deleted.
上記格スロット充填手段が、この識別情報が付与されたタイトル文中のイベントの種類を示す抽象化タグが付与された語については、助詞の有無を問わず主語に付属する助詞の対応語格納欄に充填し、地域を示す抽象化タグが付与された語については、助詞の有無を問わず地域名に付属する助詞の対応語格納欄に充填することを特徴とする請求項1に記載の株価影響企業検知システム。 A means for preliminarily providing identification information indicating a title sentence with respect to a sentence corresponding to the title in the above sentence,
For the words to which the case tag filling means has attached an abstract tag indicating the type of event in the title sentence to which this identification information is assigned, the corresponding word storage column of the particle attached to the subject regardless of the presence or absence of the particle 2. The stock price effect according to claim 1 , wherein words filled with an abstract tag indicating a region are filled in a corresponding word storage column of a particle attached to the region name regardless of the presence or absence of the particle. Company detection system.
各企業の属性情報を登録しておく企業情報記憶手段と、
イベントの属性と、当該イベントによって株価に影響を受ける企業の属性との組合せパターン毎に、株価に与える影響がプラスかマイナスかを定義した推論ルールを格納する推論ルール記憶手段と、
上記イベント情報記憶手段に格納された各イベント情報に対して上記推論ルールを適用し、当該イベントによって株価に影響が及ぶ企業の属性を特定する手段と、
上記企業情報記憶手段を参照し、上記属性を備えた企業を株価影響企業として抽出する株価影響企業抽出手段と、
上記株価影響企業のリストを生成し、出力する手段とを備え、
上記イベント情報の属性が、イベントの主体となる企業名を特定する文字列と、企業情勢に係るイベントの種類を表す文字列との組合せよりなり、
上記企業の属性情報として、当該企業に係る特定種類の関連企業情報が含まれており、
上記推論ルールには、企業情勢に係るイベントの種類及び関連企業の種類との組合せパターン毎に、株価に与える影響がプラスかマイナスか定義されており、
上記株価影響企業抽出手段は、上記推論ルールにおいて定義された特定種類の関連企業として、企業情勢に係るイベント情報の主体となる企業名が登録されている企業を株価影響企業として抽出する株価影響企業検知システムであって、
さらに、上位概念的な企業名を示す抽象化タグと、具体的な企業名を表す文字列との対応関係を定義した企業名辞書と、
企業情勢に係る上位概念的なイベントの発生事実を示す抽象化タグと、企業情勢に係る具体的なイベントの発生事実を示す文字列との対応関係を定義したイベント述語辞書と、
テキストデータ中の文を形態素単位に分解し、各形態素の品詞を同定するする手段と、
上記の各辞書を参照し、各形態素の中で具体的な企業名を表す文字列、上記企業情勢に係るイベントの発生事実を表す文字列に該当するものに対して、それぞれ企業名であることを示す抽象化タグ、企業情勢に係るイベントの発生事実を示す抽象化タグを関連付ける手段と、
少なくとも主語に付属する助詞毎に対応語の格納欄が設けられた格スロットに、文中の対応語を充填すると共に、イベントの発生事実を示す抽象化タグが付与されている形態素を述語として当該格スロットに上記述語を関連付ける格スロット充填手段と、
抽出すべき主語の抽象化タグ及び当該主語に付属する助詞を特定する条件と、抽出すべき述語の抽象化タグを特定する条件が少なくとも規定された抽出フレーム定義を、複数格納しておく抽出フレーム定義記憶手段と、
対応語充填済みの上記格スロットに上記抽出フレーム定義を適用することにより、少なくとも文の主語、述語に該当する情報要素を抽出し、上記イベント情報記憶手段に格納する情報抽出手段とを備え、
上記格スロット充填手段が、以下の処理を実行することを特徴とする株価影響企業検知システム。
(1) 先行する述語に関して対応語の充填が完了した格スロットを、後続の述語について継承させる。
(2) 後続の述語に係る対応語を上記格スロットの対応語格納欄に上書充填する。
(3)文の主語を表す助詞の対応語格納欄が後続の述語に係る主語を表す語によって上書充填された場合には、先行する述語に関して充填された対応語を削除する。 Event information storage means for storing event information having specific attributes that affect the stock price;
Company information storage means for registering attribute information of each company;
An inference rule storage means for storing an inference rule that defines whether the influence on the stock price is positive or negative for each combination pattern of the attribute of the event and the attribute of the company affected by the stock price by the event;
Means for applying the inference rules to each event information stored in the event information storage means, and identifying a company attribute that affects the stock price by the event;
A stock price-affected company extracting means for referring to the company information storage means and extracting a company having the attribute as a stock price-affected company;
Means for generating and outputting a list of the above-mentioned stock price-affected companies,
The event information attribute consists of a combination of a character string that identifies the company name that is the subject of the event and a character string that represents the type of event related to the company situation,
The attribute information of the company includes specific types of related company information related to the company,
The above inference rules define whether the impact on the stock price is positive or negative for each combination pattern with the type of event related to the corporate situation and the type of related company.
The above-mentioned stock price-affected company extraction means extracts a stock price-affected company as a stock price-affected company that has registered the company name that is the subject of the event information related to the corporate situation as a specific type of related company defined in the above inference rules. A detection system,
In addition, a company name dictionary that defines the correspondence between an abstract tag that indicates a generic company name and a character string that represents a specific company name,
An event predicate dictionary that defines the correspondence between an abstract tag that indicates the occurrence of a higher-level conceptual event related to the corporate situation and a character string that indicates the actual occurrence of an event related to the corporate situation;
Means for decomposing sentences in text data into morpheme units and identifying parts of speech of each morpheme;
Referring to each of the above dictionaries, each morpheme must be a company name for a character string that represents a specific company name and a character string that represents the occurrence of an event related to the company situation. Means for associating an abstract tag that indicates the fact that an event related to the corporate situation has occurred,
At least a case slot with a corresponding word storage field for each particle attached to the subject is filled with the corresponding word in the sentence, and a morpheme with an abstract tag indicating the occurrence of the event is used as a predicate. A case slot filling means for associating the above descriptive word with the slot;
An extraction frame that stores a plurality of extraction frame definitions that specify at least a condition for specifying an abstract tag of a subject to be extracted and a particle attached to the subject and a condition for specifying an abstract tag of a predicate to be extracted. Definition storage means;
By applying the extracted frame definition to the case slot filled with the corresponding word, the information extraction means extracts at least the information element corresponding to the subject of the sentence and the predicate, and stores it in the event information storage means,
The stock price-affected company detection system, wherein the case slot filling means executes the following processing.
(1) The case slot in which the filling of the corresponding word with respect to the preceding predicate is completed is inherited for the subsequent predicate.
(2) Overwrite the corresponding word for the following predicate in the corresponding word storage field of the case slot.
(3) When the corresponding term storage column of the particle representing the subject of the sentence is overwritten with a word representing the subject related to the subsequent predicate, the corresponding word filled with respect to the preceding predicate is deleted.
上記格スロット充填手段が、この識別情報が付与されたタイトル文中の企業名であることを示す抽象化タグが付与された語については、助詞の有無を問わず主語に付属する助詞の対応語格納欄に充填することを特徴とする請求項3に記載の株価影響企業検知システム。 A means for preliminarily providing identification information indicating a title sentence with respect to a sentence corresponding to the title in the above sentence,
For the words with the abstract tag indicating that the case slot filling means is the company name in the title sentence to which this identification information is given, the corresponding word storage of the particle attached to the subject regardless of the presence or absence of the particle The stock price-affected company detection system according to claim 3 , wherein the space is filled in a column.
この複合語解析ルールを参照し、文中に複合語解析ルールに規定された品詞の連結パターンに該当する形態素の組合せが存在している場合には、これらの形態素を複合語と認定する複合語解析手段とを備え、
上記の格スロット充填手段は、複合語と認定された形態素の組合せについては、複合語単位で格スロットへの充填処理を実行することを特徴とする請求項1〜4の何れかに記載の株価影響企業検知システム。 Compound word analysis rule storage means for storing a compound word analysis rule in which a criterion for determining the part of speech of the compound word is defined for each connection pattern of a plurality of parts of speech to be a compound word;
By referring to this compound word analysis rule, if there is a combination of morphemes corresponding to the part-of-speech concatenation pattern specified in the compound word analysis rule in the sentence, compound word analysis that recognizes these morphemes as compound words Means and
The stock price according to any one of claims 1 to 4 , wherein the case slot filling means executes a filling process into a case slot in units of compound words for a combination of morphemes recognized as compound words. Affected company detection system.
上記の抽象化ルールを文に対して適用し、当該抽象化ルールにマッチする形態素に対してその種類を示す抽象化タグを関連付ける手段と、
を備えたことを特徴とする請求項1〜5の何れかに記載の株価影響企業検知システム。 Abstraction rule storage means for storing abstraction rules for estimating the type of morpheme;
Means for applying the above abstraction rule to a sentence and associating an abstract tag indicating the type with a morpheme that matches the abstraction rule;
The stock price-affected company detection system according to any one of claims 1 to 5 , further comprising:
この照応解析ルールを参照し、文中に存する照応詞に対して、対応の先行詞を決定すると共に、この先行詞によって照応詞を置き換える照応解析手段とを備えたことを特徴とする請求項1〜6の何れかに記載の株価影響企業検知システム。 An anaphora analysis rule storage means for storing an anaphora analysis rule that defines a criterion for determining the antecedent for each anaphor;
The anaphoric analysis means is provided that refers to the anaphoric analysis rule, determines an antecedent corresponding to the anaphor in the sentence, and replaces the anaphor with the antecedent . 6. The stock price-affected company detection system described in any one of 6 above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009282687A JP5528787B2 (en) | 2009-12-14 | 2009-12-14 | Stock price impact company detection system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009282687A JP5528787B2 (en) | 2009-12-14 | 2009-12-14 | Stock price impact company detection system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011123795A JP2011123795A (en) | 2011-06-23 |
JP5528787B2 true JP5528787B2 (en) | 2014-06-25 |
Family
ID=44287604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009282687A Expired - Fee Related JP5528787B2 (en) | 2009-12-14 | 2009-12-14 | Stock price impact company detection system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5528787B2 (en) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10515123B2 (en) | 2013-03-15 | 2019-12-24 | Locus Lp | Weighted analysis of stratified data entities in a database system |
SG11201605968VA (en) * | 2014-01-23 | 2016-08-30 | Locus Lp | Stratified composite portfolios of investment securities |
JP6275492B2 (en) * | 2014-01-28 | 2018-02-07 | 株式会社野村総合研究所 | Stock price impact judgment prediction system |
KR101719348B1 (en) * | 2015-07-27 | 2017-03-23 | 고봉재 | Stock lending trading system |
KR101936373B1 (en) * | 2016-08-03 | 2019-01-08 | 박건 | Stock trading method |
KR102104783B1 (en) * | 2017-08-16 | 2020-05-29 | 이정일 | Apparatus and method for providing information through analysis of movement patterns between stock prices |
CN109598393A (en) * | 2017-09-30 | 2019-04-09 | 北京国双科技有限公司 | A kind of analysis method and device of the influence information that event generates enterprise |
KR102012564B1 (en) * | 2017-11-27 | 2019-08-20 | 김주영 | Method of providing stock information |
JP6723673B2 (en) * | 2018-07-26 | 2020-07-15 | 株式会社xenodata lab. | Causal relationship extraction system and causal relationship extraction program |
KR101944404B1 (en) * | 2018-10-16 | 2019-01-31 | 네이버 주식회사 | Method and system for providing stock price information |
JP6679705B1 (en) * | 2018-12-25 | 2020-04-15 | ヤフー株式会社 | Information processing apparatus, information processing method, and information processing program |
JP6664676B1 (en) * | 2019-05-06 | 2020-03-13 | Assest株式会社 | Stock trading information display program and system |
JP2021051613A (en) * | 2019-09-25 | 2021-04-01 | 株式会社日立製作所 | Method and system for generating dictionary to be used in natural language processing |
JP7246736B2 (en) * | 2020-06-04 | 2023-03-28 | 株式会社xenodata lab. | Index estimation system and its program |
JP7235329B2 (en) * | 2020-06-04 | 2023-03-08 | 株式会社xenodata lab. | Economic indicator estimation system and its program |
KR102227131B1 (en) * | 2020-10-05 | 2021-03-12 | 이정일 | Apparatus and method for providing information through analysis of movement patterns between stock prices |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002269357A (en) * | 2001-03-14 | 2002-09-20 | Daiwa Securities Smbc Co Ltd | Security dealing decision making support system |
JP2005092508A (en) * | 2003-09-17 | 2005-04-07 | Nec Corp | Data processor |
JP2006018497A (en) * | 2004-06-30 | 2006-01-19 | Matsushita Electric Ind Co Ltd | Stock dealing instruction apparatus |
-
2009
- 2009-12-14 JP JP2009282687A patent/JP5528787B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011123795A (en) | 2011-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5528787B2 (en) | Stock price impact company detection system | |
CA2602564C (en) | Model-driven event detection, implication, and reporting system | |
JP5249074B2 (en) | Method and system for symbolic linking and intelligent classification of information | |
US20080208820A1 (en) | Systems and methods for performing semantic analysis of information over time and space | |
US20070050702A1 (en) | System and method for rendering of financial data | |
US20240152558A1 (en) | Search activity prediction | |
US20100121883A1 (en) | Reporting language filtering and mapping to dimensional concepts | |
US20160239496A1 (en) | Apparatus, systems and methods for scoring and distributing the reliablity of online information | |
JP2006221560A (en) | Data substitution device, data substitution method, and data substitution program | |
US7904491B2 (en) | Data mapping and import system | |
JP4625535B1 (en) | Information extraction system and information extraction program | |
WO2007033468A2 (en) | System and method configuring contextual based content with publisher content for display on a user interface | |
CN101568918A (en) | Web-based collocation error proofing | |
US20130246442A1 (en) | System for requirement identification and analysis based on capability model structure | |
CN102496126B (en) | Custody asset transaction data monitoring equipment | |
JP2007293838A (en) | Content transformation system | |
JP2011204199A (en) | System for providing information of stock price fluctuation event, and program | |
US9792377B2 (en) | Sentiment trent visualization relating to an event occuring in a particular geographic region | |
CN114303140A (en) | Analysis of intellectual property data related to products and services | |
Bilal et al. | Stock returns, government response strategies, and daily new case bursts during COVID‐19: a cross‐country perspective | |
US7958103B1 (en) | Incorporated web page content | |
US8341176B1 (en) | Structure-based expansion of user element selection | |
JP6165671B2 (en) | Fare rule translation system, fare rule translation method, and fare rule translation program | |
JP2009075777A (en) | Document processing system and method | |
US9092747B2 (en) | Statement of work analysis and resource participation assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120910 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140416 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5528787 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |