JP6875457B2 - Acquisition device, acquisition method, and acquisition program - Google Patents

Acquisition device, acquisition method, and acquisition program Download PDF

Info

Publication number
JP6875457B2
JP6875457B2 JP2019113053A JP2019113053A JP6875457B2 JP 6875457 B2 JP6875457 B2 JP 6875457B2 JP 2019113053 A JP2019113053 A JP 2019113053A JP 2019113053 A JP2019113053 A JP 2019113053A JP 6875457 B2 JP6875457 B2 JP 6875457B2
Authority
JP
Japan
Prior art keywords
content
target
causal relationship
explaining
providing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019113053A
Other languages
Japanese (ja)
Other versions
JP2020204966A (en
Inventor
力 橋本
力 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019113053A priority Critical patent/JP6875457B2/en
Publication of JP2020204966A publication Critical patent/JP2020204966A/en
Priority to JP2021072551A priority patent/JP7292324B2/en
Application granted granted Critical
Publication of JP6875457B2 publication Critical patent/JP6875457B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、取得装置、取得方法、および取得プログラムに関する。 The present invention relates to an acquisition device, an acquisition method, and an acquisition program.

従来、各種の対象間の関係を推定する技術が知られている。このような技術の一例として、テキストが示す事象間の時間的な関係性を示すスコアと、因果関係を示すスコアとを個別に算出し、算出した各スコアに基づいて、事象間の関係を推定する技術が知られている。 Conventionally, techniques for estimating relationships between various objects have been known. As an example of such a technique, a score indicating a temporal relationship between events indicated by a text and a score indicating a causal relationship are individually calculated, and the relationship between events is estimated based on each calculated score. The technology to do is known.

“Joint reasoning for temporal and causal relations”, Qiang Ning, Zhili Feng, Hao Wu, and Dan Roth. 2018, In Proceedings of the 56th Annual Meeting of the Association for Computational (ACL), pages 2278−2288“Joint reasoning for temporal and causal relations”, Qiang Ning, Zhili Feng, Hao Wu, and Dan Roth. 2018, In Proceedings of the 56th Annual Meeting of the Association for Computational (ACL), pages 2278-2288

しかしながら、上述した技術では、因果関係を推定するモデルの学習に有用な情報を取得しているとは言えない。 However, it cannot be said that the above-mentioned technique has acquired useful information for learning a model for estimating a causal relationship.

例えば、容易に因果関係の推定を行うため、テキストを入力した際に、事象間の因果関係を推定するモデルを学習するといった手法が考えらえる。しかしながら、上述した技術では、ある文章内において各事象を示すテキストが出現する頻度や距離等に基づいて、各テキストが示す事象間に因果関係が存在しているか否かを推定しているに過ぎず、因果関係を推定するモデルの学習に有用な情報を取得しているとは言えない。 For example, in order to easily estimate the causal relationship, a method of learning a model for estimating the causal relationship between events when text is input can be considered. However, in the above-mentioned technique, it is only estimated whether or not there is a causal relationship between the events indicated by each text based on the frequency and distance at which the text indicating each event appears in a certain sentence. Therefore, it cannot be said that the information useful for learning the model for estimating the causal relationship is acquired.

本願は、上記に鑑みてなされたものであって、因果関係を推定するモデルの学習に有用な情報を取得することを目的とする。 The present application has been made in view of the above, and an object of the present application is to obtain information useful for learning a model for estimating a causal relationship.

本願に係る取得装置は、第1対象を説明する第1コンテンツから、第1対象と因果関係を有する第2対象を特定する特定部と、前記第1コンテンツに基づく情報と、前記第2対象を説明する第2コンテンツに基づく情報との組を、因果関係の有無を分類する分類モデルの学習データとして取得する取得部とを有することを特徴とする。 The acquisition device according to the present application includes a specific unit that identifies a second target having a causal relationship with the first target, information based on the first content, and the second target from the first content explaining the first target. It is characterized by having an acquisition unit that acquires a set with information based on the second content to be described as training data of a classification model that classifies the presence or absence of a causal relationship.

実施形態の一態様によれば、因果関係を推定するモデルの学習に有用な情報を取得することができる。 According to one aspect of the embodiment, information useful for learning a model for estimating a causal relationship can be obtained.

図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。FIG. 1 is a diagram showing an example of processing executed by the information providing device according to the embodiment. 図2は、実施形態に係る情報提供装置の構成例を示す図である。FIG. 2 is a diagram showing a configuration example of the information providing device according to the embodiment. 図3は、実施形態に係るコンテンツデータベースに登録される情報の一例を示す図である。FIG. 3 is a diagram showing an example of information registered in the content database according to the embodiment. 図4は、実施形態に係る対象データベースに登録される情報の一例を示す図である。FIG. 4 is a diagram showing an example of information registered in the target database according to the embodiment. 図5は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。FIG. 5 is a diagram showing an example of information registered in the learning data database according to the embodiment. 図6は、実施形態に係る因果関係表現テーブルに登録される情報の一例を示す図である。FIG. 6 is a diagram showing an example of information registered in the causal relationship expression table according to the embodiment. 図7は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。FIG. 7 is a flowchart showing an example of a flow of processing executed by the information providing device according to the embodiment. 図8は、実施形態に係る取得処理および学習処理の実験結果の一例を示す第1の図である。FIG. 8 is a first diagram showing an example of experimental results of the acquisition process and the learning process according to the embodiment. 図9は、実施形態に係る取得処理および学習処理の実験結果の一例を示す第2の図である。FIG. 9 is a second diagram showing an example of experimental results of the acquisition process and the learning process according to the embodiment. 図10は、ハードウェア構成の一例を示す図である。FIG. 10 is a diagram showing an example of a hardware configuration.

以下に、本願に係る取得装置、取得方法、および取得プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る取得装置、取得方法、および取得プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Hereinafter, the acquisition device, the acquisition method, and the embodiment for implementing the acquisition program (hereinafter referred to as “the embodiment”) according to the present application will be described in detail with reference to the drawings. It should be noted that this embodiment does not limit the acquisition device, acquisition method, and acquisition program according to the present application. In addition, each embodiment can be appropriately combined as long as the processing contents do not contradict each other. Further, in each of the following embodiments, the same parts are designated by the same reference numerals, and duplicate description is omitted.

〔1.情報提供装置について〕
まず、図1を用いて、決定装置の一例である情報提供装置10が実行する処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。図1では、情報提供装置10が実行する処理として、指定されたコンテンツ同士が因果関係を有する対象を示すコンテンツであるか否かの分類を行うモデルを学習するための学習データを取得する取得処理、取得処理によって取得された学習データを用いてモデルの学習を行う学習処理、および、学習処理によって学習が行われたモデルを用いて指定されたコンテンツが因果関係を有する対象を示すコンテンツであるか否かの分類を行う分類処理の一例について説明する。
[1. Information provider]
First, with reference to FIG. 1, an example of processing executed by the information providing device 10 which is an example of the determination device will be described. FIG. 1 is a diagram showing an example of processing executed by the information providing device according to the embodiment. In FIG. 1, as a process executed by the information providing device 10, an acquisition process for acquiring learning data for learning a model for classifying whether or not the designated contents are contents indicating an object having a causal relationship with each other. , Is the content indicating a target having a causal relationship in the learning process in which the model is trained using the learning data acquired by the acquisition process and the content specified using the model trained by the learning process? An example of the classification process for classifying whether or not to use will be described.

〔1−1.情報提供装置の概要〕
情報提供装置10は、インターネット等の所定のネットワークN(例えば、図2を参照。)を介して、データサーバ100および端末装置200と通信可能な情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。なお、情報提供装置10は、ネットワークNを介して、任意の数のデータサーバ100や端末装置200と通信可能であってよい。
[1-1. Overview of information providing equipment]
The information providing device 10 is an information processing device capable of communicating with the data server 100 and the terminal device 200 via a predetermined network N (see, for example, FIG. 2) such as the Internet, and is, for example, a server device or a cloud system. It is realized by such as. The information providing device 10 may be able to communicate with an arbitrary number of data servers 100 and terminal devices 200 via the network N.

データサーバ100は、各種の情報を管理する情報処理装置であり、例えば、サーバ装置やクラウドシステムにより実現される。例えば、データサーバ100には、各種のコンテンツが登録されており、利用者からの要求に応じて、コンテンツの配信を行うサービスを提供する。 The data server 100 is an information processing device that manages various types of information, and is realized by, for example, a server device or a cloud system. For example, various contents are registered in the data server 100, and a service for distributing the contents is provided in response to a request from the user.

端末装置200は、利用者が利用する端末装置であり、例えば、PC(Personal Computer)やサーバ装置、各種のスマートデバイス等により実現される。例えば、端末装置200は、利用者から各種の情報の入力を受付けると、情報提供装置10と通信を行い、通信結果となる情報を出力する機能を有する。 The terminal device 200 is a terminal device used by a user, and is realized by, for example, a PC (Personal Computer), a server device, various smart devices, and the like. For example, the terminal device 200 has a function of communicating with the information providing device 10 and outputting information as a communication result when receiving input of various information from the user.

〔1−2.データサーバ100が配信するコンテンツについて〕
ここで、データサーバ100が配信するコンテンツについて説明する。例えば、データサーバ100は、各種の名詞で示される物体・物質・人物・場所などといった具体的な対象や、病名、イベント、歴史上の出来事等といった事象を説明するコンテンツが登録されており、このようなコンテンツの配信を行うサーバ装置である。なお、以下の説明では、コンテンツが説明する具体的な対象や事象等を「対象」と総称する。
[1-2. About the contents distributed by the data server 100]
Here, the contents distributed by the data server 100 will be described. For example, the data server 100 is registered with contents that explain specific objects such as objects, substances, people, places, etc. indicated by various nouns, and events such as disease names, events, and historical events. It is a server device that distributes such contents. In the following description, specific objects and events described by the content are collectively referred to as "objects".

また、データサーバ100は、それぞれ異なる言語で同一の対象を説明する複数のコンテンツが登録されている。例えば、データサーバ100は、日本語、英語、ドイツ語、フランス語、スペイン語、チェコ語等、各種の言語で同一の対象を説明する複数のコンテンツが登録されている。なお、データサーバ100は、ある対象について、データサーバ100が対応する全ての言語で説明するコンテンツが登録されている必要はなく、一部の言語によるコンテンツのみが登録されていてもよい。例えば、データサーバ100には、肺がんについて日本語と英語とドイツ語とのコンテンツがそれぞれ登録されており、煙草については、英語とフランス語とのコンテンツがそれぞれ登録されていてもよい。 Further, in the data server 100, a plurality of contents explaining the same target are registered in different languages. For example, the data server 100 is registered with a plurality of contents explaining the same target in various languages such as Japanese, English, German, French, Spanish, and Czech. It should be noted that the data server 100 does not need to register the contents described in all the languages supported by the data server 100 for a certain target, and only the contents in some languages may be registered. For example, contents in Japanese, English, and German may be registered in the data server 100, respectively, and contents in English, French, and French may be registered in the data server 100, respectively.

ここで、データサーバ100に登録されたコンテンツは、複数の編集者により独自の編集が行われるコンテンツであってもよい。例えば、データサーバ100は、あるコンテンツをいずれかの編集者が登録若しくは編集した場合、他の編集者による承認が行われたことを契機として、登録若しくは編集を反映させてもよい。 Here, the content registered in the data server 100 may be content that is uniquely edited by a plurality of editors. For example, when one of the editors registers or edits a certain content, the data server 100 may reflect the registration or editing when the approval by the other editor is given.

また、データサーバ100に登録されたコンテンツには、他のコンテンツに対するリンクが設定されていてもよい。例えば、データサーバ100に登録されたコンテンツのうち、「林檎」についての説明を行うコンテンツには、「フルーツ」や「バラ科」等といった対象を説明するコンテンツへのリンクが設定されていてもよい。より具体的な例を挙げると、データサーバ100には、対象の説明中に現れる他の対象を示す文字列や画像に対し、他の対象を説明するコンテンツへのリンクが設定されていてもよい。 In addition, links to other contents may be set in the contents registered in the data server 100. For example, among the contents registered in the data server 100, the content explaining the "apple" may be set with a link to the content explaining the target such as "fruit" or "Rosaceae". .. To give a more specific example, the data server 100 may be provided with a link to a content explaining another target with respect to a character string or an image indicating another target appearing in the description of the target. ..

また、データサーバ100には、ある対象についてどのようなコンテンツが登録されているかを示すデータベースが登録されていてもよい。例えば、データサーバ100においては、各種の対象に対して一意な識別子(ID:Identifier)が付与されており、この識別子に対し、対応する対象を説明する各言語のコンテンツを紐付けたデータベースが登録されていてもよい。なお、以下の説明では、このような対象の識別子と、対象を説明するコンテンツの識別子とを対応付けたデータベースを「対象データベース」と総称する場合がある。 Further, the data server 100 may be registered with a database indicating what kind of content is registered for a certain target. For example, in the data server 100, a unique identifier (ID: Identifier) is assigned to various targets, and a database in which the contents of each language that explains the corresponding target are linked to this identifier is registered. It may have been done. In the following description, a database in which such an identifier of a target and an identifier of a content explaining the target are associated with each other may be collectively referred to as a "target database".

データサーバ100は、上述した各種のコンテンツやデータベースに登録された情報を提供することで、利用者に対し、各対象の説明を提供するサービスを実現する。なお、具体的なサービス名を上げると、データサーバ100は、例えば、ウィキペディアやウィキデータといったサービスに該当する。 The data server 100 realizes a service that provides a description of each target to the user by providing the various contents described above and the information registered in the database. To give a specific service name, the data server 100 corresponds to, for example, a service such as Wikipedia or Wikidata.

〔1−3.因果関係の利用について〕
ここで、2つの対象が有する因果関係の利用について説明する。例えば、ある第1対象が第2対象の原因であり、第2対象が第1対象による結果である場合、第1対象と第2対象とは、因果関係を有すると言える。例えば、煙草を第1対象とし、肺がんを第2対象とした場合、煙草は肺がんの原因である蓋然性が高く、肺がんは煙草の結果である蓋然性が高いため、因果関係を有する(因果関係を有する可能性が高い)と言える。また、保護主義と貿易戦争との組、山火事と空気汚染との組、ヴェルサイユ条約と第2次世界大戦との組等は、一定の因果関係を有すると言える。
[1-3. About the use of causality]
Here, the use of the causal relationship between the two objects will be described. For example, when a first object is the cause of the second object and the second object is the result of the first object, it can be said that the first object and the second object have a causal relationship. For example, when tobacco is the first target and lung cancer is the second target, tobacco has a high probability of being the cause of lung cancer, and lung cancer has a high probability of being the result of cigarettes, and therefore has a causal relationship (has a causal relationship). There is a high possibility). In addition, it can be said that the group of protectionism and trade war, the group of wildfire and air pollution, the group of the Treaty of Versailles and World War II, etc. have a certain causal relationship.

このような対象間の因果関係は、様々なサービスに利用することができる。例えば、対象をエンティティとし、エンティティ間の因果関係を示すナレッジデータベース(CKB: Causality Knowledge Base)は、例えば、質問に対して回答を出力するQA(Question Answering)サービス、読解、事象予測等に利用することができる。 Such a causal relationship between objects can be used for various services. For example, a knowledge database (CKB: Causality Knowledge Base) that targets an entity and shows the causal relationship between the entities is used, for example, for a QA (Question Answering) service that outputs answers to questions, reading comprehension, event prediction, and the like. be able to.

〔1−4.取得処理の概要について〕
ここで、ある対象に関する情報と、他の対象に関する情報とを入力した際に、入力された2つの対象が因果関係を有するか否かを分類するモデル(以下、「分類モデル」と記載する場合がある。)を作成した場合、データサーバ100が配信するコンテンツを用いて、各対象が因果関係を有するか否かを自動的に推定することができると考えられる。しかしながら、従来技術では、ある文章内に現れる単語が示す対象が因果関係を有するか否かを判定しているに過ぎず、分類モデルの学習に有用な情報を得る手法については、提案されていなかった。
[1-4. About the outline of the acquisition process]
Here, when information about a certain object and information about another object are input, a model for classifying whether or not the two input objects have a causal relationship (hereinafter, referred to as "classification model"). It is considered that it is possible to automatically estimate whether or not each target has a causal relationship by using the content distributed by the data server 100. However, in the prior art, it is only determined whether or not the object indicated by the word appearing in a certain sentence has a causal relationship, and a method for obtaining useful information for learning a classification model has not been proposed. It was.

そこで、情報提供装置10は、以下の取得処理を実行することで、分類モデルの学習に有用な情報を取得する。まず、情報提供装置10は、第1対象を説明する第1コンテンツから、第1対象と因果関係を有する第2対象を特定する。そして、情報提供装置10は、第1コンテンツに基づく情報と、第2対象を説明する第2コンテンツに基づく情報との組を、因果関係の有無を分類する分類モデルの学習データとして取得する。 Therefore, the information providing device 10 acquires information useful for learning the classification model by executing the following acquisition process. First, the information providing device 10 identifies a second target having a causal relationship with the first target from the first content explaining the first target. Then, the information providing device 10 acquires a set of information based on the first content and information based on the second content explaining the second object as learning data of a classification model for classifying the presence or absence of a causal relationship.

例えば、情報提供装置10は、データサーバ100が提供するコンテンツから、所謂因果関係を有する対象のコンテンツを学習データとして取得する。より具体的には、情報提供装置10は、ある第1対象を原因とした場合の結果となる第2対象、若しくは、ある第1対象を結果とした場合の原因となる第2対象を特定し、第1対象を説明するコンテンツと、そのコンテンツと同一言語で第2対象を説明するコンテンツとの組から学習データを取得する。 For example, the information providing device 10 acquires the target content having a so-called causal relationship as learning data from the content provided by the data server 100. More specifically, the information providing device 10 identifies a second target that is the result when a certain first target is the cause, or a second target that is the cause when the first target is the result. , The learning data is acquired from the pair of the content explaining the first object and the content explaining the second object in the same language as the content.

例えば、ある第1対象が第2対象の原因となる場合、第1対象を説明する第1コンテンツには、第2対象が第1対象の結果である旨を示唆する情報が含まれると考えられ、第2対象を説明する第2コンテンツには、第1対象が第2対象の原因である旨を示唆する情報が含まれると考えられる。このため、第1コンテンツに基づく情報と第2コンテンツに基づく情報との組は、入力された2つの情報と対応する2つの対象が因果関係を有するか否かを分類する分類モデルの学習に有用な情報であると考えられる。 For example, when a first target causes the second target, the first content explaining the first target is considered to include information suggesting that the second target is the result of the first target. , The second content explaining the second object is considered to include information suggesting that the first object is the cause of the second object. Therefore, the set of the information based on the first content and the information based on the second content is useful for learning a classification model that classifies whether or not the two input information and the corresponding two objects have a causal relationship. Information is considered to be.

そこで、情報提供装置10は、第1対象を説明する第1コンテンツに基づく情報と、第1対象と因果関係を有する第2対象を説明する第2コンテンツに基づく情報との組を学習データとして取得する。この結果、情報提供装置10は、分類モデルの学習に有用な情報を取得することができる。 Therefore, the information providing device 10 acquires a set of information based on the first content explaining the first object and information based on the second content explaining the second object having a causal relationship with the first object as learning data. To do. As a result, the information providing device 10 can acquire information useful for learning the classification model.

〔1−5.学習処理および分類処理の概要について〕
また、情報提供装置10は、上述した取得処理により取得した学習データが有する特徴をモデルに学習させる。例えば、情報提供装置10は、第1対象を説明する第1コンテンツに基づく情報と、第1対象と因果関係を有する第2対象を説明する第2コンテンツに基づく情報との組を入力した場合に、第1対象と第2対象とが因果関係を有する旨を出力するようにモデルの学習を行う。
[1-5. About the outline of learning process and classification process]
Further, the information providing device 10 causes the model to learn the features of the learning data acquired by the above-mentioned acquisition process. For example, when the information providing device 10 inputs a set of information based on the first content explaining the first object and information based on the second content explaining the second object having a causal relationship with the first object. , The model is trained so as to output that the first object and the second object have a causal relationship.

より具体的には、情報提供装置10は、取得処理により取得された情報の組を正例とするとともに、因果関係を有しない2つの対象について、各対象を説明するコンテンツに基づいた情報の組を負例とする。そして、情報提供装置10は、正例を入力した際に、因果関係を有する旨を出力し、負例を入力した際に、因果関係を有しない旨を出力するように、モデルの学習を行う。 More specifically, the information providing device 10 takes a set of information acquired by the acquisition process as a positive example, and sets two objects having no causal relationship based on the content for explaining each object. Is a negative example. Then, the information providing device 10 trains the model so that when a positive example is input, it outputs that it has a causal relationship, and when it inputs a negative example, it outputs that it does not have a causal relationship. ..

このような学習が行われた分類モデルは、ある情報の組を入力した際に、その組と対応する対象の組が因果関係を有するか否かを分類することができる。このため、例えば、情報提供装置10は、データサーバ100が配信するコンテンツの組を生成し、生成したコンテンツの組を分類モデルに入力することで、各コンテンツと対応する対象の組が因果関係を有するか否かを自動的に判定することができる。 When a set of information is input, the classification model in which such learning is performed can classify whether or not the set of information and the corresponding set of objects have a causal relationship. Therefore, for example, the information providing device 10 generates a set of contents to be distributed by the data server 100, and inputs the set of the generated contents into the classification model, so that the set of the target corresponding to each content has a causal relationship. It can be automatically determined whether or not it has.

また、情報提供装置10は、利用者から2つの対象が指定された場合に、指定された2つの対象と対応するコンテンツの組を分類モデルに入力し、分類モデルによる分類結果に応じて、指定された2つの対象が因果関係を有するか否かを分類する分類処理を行ってもよい。このような分類処理の結果、情報提供装置10は、指定された2つの対象が因果関係を有するか否かを精度良く推定することができる。 Further, when two targets are designated by the user, the information providing device 10 inputs a set of contents corresponding to the two designated targets into the classification model, and designates the set according to the classification result by the classification model. Classification processing may be performed to classify whether or not the two objects have a causal relationship. As a result of such classification processing, the information providing device 10 can accurately estimate whether or not the two designated objects have a causal relationship.

なお、上述した分類モデルは、任意の種別のモデルが採用可能である。例えば、情報提供装置10は、SVM(Support Vector Machine)やDNN(Deep Neural Network)を分類モデルとして採用してもよい。ここで、DNNは、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)であってもよい。また、RNNは、LSTM(Long short-term memory)等であってもよい。すなわち、分類モデルは、任意の形式のモデルが採用可能である。また、分類モデルは、例えば、CNNとRNNとを組み合わせたモデル等、複数のモデルを組み合わせることで実現されるモデルであってもよい。 As the classification model described above, any type of model can be adopted. For example, the information providing device 10 may adopt SVM (Support Vector Machine) or DNN (Deep Neural Network) as a classification model. Here, the DNN may be a CNN (Convolutional Neural Network) or an RNN (Recurrent Neural Network). Further, the RNN may be an LSTM (Long short-term memory) or the like. That is, any type of model can be adopted as the classification model. Further, the classification model may be a model realized by combining a plurality of models, for example, a model in which a CNN and an RNN are combined.

〔1−6.情報提供装置が実行する処理の一例について〕
次に、図1を用いて、情報提供装置10が実行する処理の流れの一例について説明する。なお、図1に示す処理の流れは、あくまで一例であり、情報提供装置10は、図1に示す各種の処理を図1に示す順番で実行する必要はない。
[1-6. About an example of the processing executed by the information providing device]
Next, an example of the flow of processing executed by the information providing device 10 will be described with reference to FIG. The processing flow shown in FIG. 1 is merely an example, and the information providing device 10 does not need to execute the various processes shown in FIG. 1 in the order shown in FIG.

まず、情報提供装置10は、データサーバ100から各種のコンテンツを収集する(ステップS1)。例えば、情報提供装置10は、ウィキペディア等、対象をそれぞれ異なる言語で説明する複数のコンテンツが登録されたデータサーバ100から、各対象を説明するコンテンツをそれぞれ個別に収集する。また、情報提供装置10は、データサーバ100から、同一の対象を説明する複数のコンテンツであって、それぞれ異なる言語で対象を説明するコンテンツを示す情報を収集する。例えば、情報提供装置10は、対象データベースに登録されている各種の情報を収集する。 First, the information providing device 10 collects various contents from the data server 100 (step S1). For example, the information providing device 10 individually collects content explaining each target from a data server 100 in which a plurality of contents explaining the target in different languages are registered, such as Wikipedia. Further, the information providing device 10 collects information from the data server 100 indicating a plurality of contents for explaining the same target and contents for explaining the target in different languages. For example, the information providing device 10 collects various types of information registered in the target database.

続いて、情報提供装置10は、言語ごとに、因果関係を示すキーワードを用いて、コンテンツが相互の因果関係を示す対象のペアをシード因果関係として特定する(ステップS2)。例えば、情報提供装置10は、対象データベースを参照し、いずれかの対象を第1対象として1つ選択する。続いて、情報提供装置10は、選択した第1対象の識別子と紐付られた各言語のコンテンツ、すなわち、第1コンテンツを特定する。 Subsequently, the information providing device 10 identifies a pair of targets whose contents show a mutual causal relationship as a seed causal relationship by using a keyword indicating a causal relationship for each language (step S2). For example, the information providing device 10 refers to the target database and selects one of the targets as the first target. Subsequently, the information providing device 10 identifies the content of each language associated with the selected identifier of the first target, that is, the first content.

そして、情報提供装置10は、特定した第1コンテンツから、予め設定された因果関係を示すキーワードを用いて、第1対象と因果関係を有する第2対象を特定する。例えば、第1対象と第2対象とが因果関係を有している場合、第1コンテンツには、第1対象と第2対象とが因果関係を有する旨の文章が含まれると考えられる。このような文章は、例えば、第1対象を示すテキストと、第2対象を示すテキストと、第1対象と第2対象との間の因果関係を示すテキスト(すなわち、因果関係を有するキーワード)とを含むと考えられ、このような文章においては、第2対象のテキストは、因果関係を示すテキストの目的語として含まれている可能性が高い。そこで、情報提供装置10は、第1コンテンツに含まれるテキストから予め設定されたキーワードを検索し、キーワードが検出された場合は、形態素解析等の技術を用いて、キーワードの目的語を特定する。そして、情報提供装置10は、特定した目的語が示す対象を、第1対象と因果関係を有する第2対象として特定する。 Then, the information providing device 10 identifies a second target having a causal relationship with the first target by using a preset keyword indicating a causal relationship from the specified first content. For example, when the first object and the second object have a causal relationship, it is considered that the first content includes a sentence to the effect that the first object and the second object have a causal relationship. Such sentences include, for example, a text indicating a first object, a text indicating a second object, and a text indicating a causal relationship between the first object and the second object (that is, a keyword having a causal relationship). In such a sentence, the text of the second object is likely to be included as the object of the text indicating a causal relationship. Therefore, the information providing device 10 searches for a preset keyword from the text included in the first content, and when the keyword is detected, identifies the object of the keyword by using a technique such as morphological analysis. Then, the information providing device 10 specifies the target indicated by the specified object as the second target having a causal relationship with the first target.

例えば、情報提供装置10は、特定した第1コンテンツから、日本語のキーワード「原因」や英語のキーワード「Cause」を検索し、キーワードを検出した場合は、キーワードの目的語を、第1対象の原因を示す第2対象のテキストとして特定してもよい。また、情報提供装置10は、特定した第1コンテンツから、日本語のキーワード「効果」や英語のキーワード「Effect」を検索し、キーワードを検出した場合は、キーワードの目的語を、第1対象の効果を示す第2対象のテキストとして特定してもよい。また、情報提供装置10は、各言語のコンテンツについても同様の処理を行う。 For example, the information providing device 10 searches for the Japanese keyword "cause" or the English keyword "Cause" from the specified first content, and when the keyword is detected, the object of the keyword is set as the first target. It may be specified as a second target text indicating the cause. Further, the information providing device 10 searches for the Japanese keyword "effect" and the English keyword "Effect" from the specified first content, and when the keyword is detected, the object of the keyword is set as the first target. It may be specified as a second target text showing the effect. Further, the information providing device 10 performs the same processing for the contents of each language.

なお、後述する説明で明らかとなるように、情報提供装置10が実行する処理において、人手が介在する処理は、このようなキーワードの設定のみとなる。このため、情報提供装置10は、人手による影響を最小限に抑えた取得処理や学習処理を実現することができる。 As will be clarified in the description described later, in the process executed by the information providing device 10, the process involving human intervention is only the setting of such a keyword. Therefore, the information providing device 10 can realize the acquisition process and the learning process with the influence of human beings minimized.

ここで、ウィキペディア等のコンテンツには、「効果」や「原因」を示すセクションが設けられ、かかるセクションに「効果」や「原因」となる対象が列挙される場合がある。このようなセクションに列挙される対象は、コンテンツと対応する対象と因果関係を有する確度が高いと考えられる。そこで、情報提供装置10は、第1コンテンツから、第1対象と因果関係を有する他の対象を示す領域を特定し、特定した領域に示される他の対象を第2対象として特定してもよい。 Here, content such as Wikipedia is provided with a section indicating an "effect" or "cause", and the target that becomes the "effect" or "cause" may be listed in such a section. The objects listed in such a section are likely to have a causal relationship with the content and the corresponding object. Therefore, the information providing device 10 may specify an area indicating another object having a causal relationship with the first object from the first content, and specify another object indicated in the specified area as the second object. ..

例えば、情報提供装置10は、第1コンテンツがHTML(Hyper Text Markup Language)等のマークアップ言語で記載されている場合、第1コンテンツのタグを解析することにより、第1コンテンツに含まれる各セクションを特定し、特定したセクションのうち、セクションのタイトルに「効果」や「原因」といったキーワードを含むセクションを特定する。そして、情報提供装置10は、特定したセクションにおいて列挙されている単語や、特定したセクションに含まれる説明等から、第1対象と因果関係を有する対象として説明されている第2対象を特定する。 For example, when the first content is described in a markup language such as HTML (Hyper Text Markup Language), the information providing device 10 analyzes each section included in the first content by analyzing the tag of the first content. And identify the sections that include keywords such as "effect" and "cause" in the section title. Then, the information providing device 10 identifies the second object described as the object having a causal relationship with the first object from the words listed in the specified section, the explanation included in the specified section, and the like.

以下、具体的な例を挙げて、情報提供装置10がシード因果関係を特定する処理の一例について説明する。例えば、情報提供装置10は、第1対象として「煙草」を選択した場合、「煙草」を説明するコンテンツの中から、因果関係を示すキーワードや、キーワードをタイトルに含むセクションを検索する。例えば、図1に示す例では、情報提供装置10は、「煙草」を説明するコンテンツの中から、キーワード「効果」を含むセクション(すなわち、第1対象と因果関係を有する他の対象を示す可能性が高いセクション)を検出する。 Hereinafter, an example of the process in which the information providing device 10 specifies the seed causal relationship will be described with reference to a specific example. For example, when "cigarette" is selected as the first target, the information providing device 10 searches the content explaining "cigarette" for a keyword indicating a causal relationship or a section including the keyword in the title. For example, in the example shown in FIG. 1, the information providing device 10 can indicate a section including the keyword "effect" (that is, another object having a causal relationship with the first object) from the contents explaining "cigarette". Highly probable section) is detected.

そして、情報提供装置10は、検出したセクションに含まれるテキストから、「煙草」と因果関係を有する可能性が高い他の対象を特定する。例えば、図1に示す例では、「煙草」を説明するコンテンツに「煙草は肺がんの原因となりえる。」といった文章が含まれている。ここで、この文章における主語は「煙草」であり、目的語は、「肺がん」となり、さらに、この文章は、「煙草」による「効果」を説明するセクションに含まれている。このため、情報提供装置10は、「煙草」のコンテンツが「肺がん」が「煙草」の「効果」である旨を示す情報を保持する。また、情報提供装置10は、対象「煙草」を説明する多言語のコンテンツについても同様の処理を行うことで、「煙草」と因果関係を有する他の対象を特定する。 Then, the information providing device 10 identifies another object that is likely to have a causal relationship with the "cigarette" from the text included in the detected section. For example, in the example shown in FIG. 1, the content explaining "cigarette" includes a sentence such as "cigarette can cause lung cancer." Here, the subject in this sentence is "cigarette", the object is "lung cancer", and this sentence is included in the section explaining the "effect" of "cigarette". Therefore, the information providing device 10 holds information indicating that the content of the "cigarette" is "lung cancer" is the "effect" of the "cigarette". Further, the information providing device 10 identifies another target having a causal relationship with the "cigarette" by performing the same processing on the multilingual content explaining the target "cigarette".

また、情報提供装置10は、第1対象として「肺がん」を選択した場合、「肺がん」を説明するコンテンツの中から、因果関係を示すキーワードや、キーワードをタイトルに含むセクションを検索する。例えば、図1に示す例では、情報提供装置10は、「肺がん」を説明するコンテンツの中から、キーワード「原因」を含むセクションを検出する。 Further, when "lung cancer" is selected as the first target, the information providing device 10 searches the content explaining "lung cancer" for a keyword indicating a causal relationship or a section including the keyword in the title. For example, in the example shown in FIG. 1, the information providing device 10 detects a section including the keyword “cause” from the content explaining “lung cancer”.

そして、情報提供装置10は、検出したセクションに含まれるテキストから、「肺がん」と因果関係を有する可能性が高い他の対象を特定する。例えば、図1に示す例では、「肺がん」を説明するコンテンツに「煙草による影響がある。」といった文章が含まれている。ここで、この文章における目的語は、「煙草」となり、さらに、この文章は、「肺がん」の「原因」を説明するセクションに含まれている。このため、情報提供装置10は、「肺がん」のコンテンツが「煙草」が「肺がん」の「原因」である旨を示す情報を保持する。また、情報提供装置10は、対象「肺がん」を説明する多言語のコンテンツについても同様の処理を行うことで、「肺がん」と因果関係を有する他の対象を特定する。 Then, the information providing device 10 identifies another subject that is likely to have a causal relationship with "lung cancer" from the text included in the detected section. For example, in the example shown in FIG. 1, the content explaining "lung cancer" includes a sentence such as "there is an influence of cigarettes." Here, the object in this sentence is "cigarette", and this sentence is further included in the section explaining the "cause" of "lung cancer". Therefore, the information providing device 10 holds information indicating that the content of "lung cancer" is "cigarette" as the "cause" of "lung cancer". In addition, the information providing device 10 identifies another target having a causal relationship with "lung cancer" by performing the same processing on the multilingual content explaining the target "lung cancer".

その後、情報提供装置10は、同一言語のコンテンツが示す因果関係の突合せを行うことで、シード因果関係を特定する。例えば、情報提供装置10は、第1対象を説明する日本語のコンテンツにおいて第2対象が第1対象の結果である旨を示し、かつ、第2対象を説明する日本語のコンテンツにおいて第1対象が第2対象の原因である旨を示す場合は、第1対象と第2対象との組をシード因果関係として特定する。このような場合、情報提供装置10は、第1対象が第2対象の原因であり、第2対象が第1対象の結果である旨を示す情報(例えば、「第1対象、第2対象」や「第1対象→第2対象」といった情報)を、シード因果関係を示す情報として保持する。より具体的には、情報提供装置10は、「煙草→肺がん」といった情報をシード因果関係を示す情報として保持する。 After that, the information providing device 10 identifies the seed causal relationship by matching the causal relationships indicated by the contents of the same language. For example, the information providing device 10 indicates that the second target is the result of the first target in the Japanese content explaining the first target, and the first target in the Japanese content explaining the second target. When indicating that is the cause of the second target, the pair of the first target and the second target is specified as a seed causal relationship. In such a case, the information providing device 10 has information indicating that the first target is the cause of the second target and the second target is the result of the first target (for example, "first target, second target". And information such as "first target → second target") are retained as information indicating the seed causal relationship. More specifically, the information providing device 10 holds information such as "cigarette-> lung cancer" as information indicating a seed causal relationship.

なお、情報提供装置10は、第1対象を説明する日本語のコンテンツにおいて第2対象が第1対象の原因である旨を示し、かつ、第2対象を説明する日本語のコンテンツにおいて第1対象が第2対象の結果である旨を示す場合も、第1対象と第2対象との組をシード因果関係として特定する。このような場合、情報提供装置10は、第1対象が第2対象の結果であり、第2対象が第1対象の原因である旨を示す情報を、シード因果関係を示す情報として保持する。例えば、情報提供装置10は、第1対象が「第2次世界大戦」であり、第2対象が「ヴェルサイユ条約」であり、「ヴェルサイユ条約」が「第2次世界大戦」の原因である旨のキーワードが含まれる場合、「ヴェルサイユ条約→第2次世界大戦」といった情報をシード因果関係を示す情報として保持すればよい。 The information providing device 10 indicates that the second target is the cause of the first target in the Japanese content explaining the first target, and the first target in the Japanese content explaining the second target. Is also the result of the second object, the pair of the first object and the second object is specified as a seed causal relationship. In such a case, the information providing device 10 holds information indicating that the first target is the result of the second target and the second target is the cause of the first target as information indicating the seed causal relationship. For example, in the information providing device 10, the first target is "WWII", the second target is "Versailles Treaty", and the "Versailles Treaty" is the cause of "WWII". If the keyword of is included, information such as "Treaty of Versailles-> World War II" may be retained as information indicating the seed causal relationship.

なお、情報提供装置10は、シード因果関係を特定する際に、各コンテンツのリンク関係を考慮してもよい。例えば、情報提供装置10は、第1コンテンツからのリンクが設定された他のコンテンツが説明する対象であって、第1対象と因果関係を有する対象を第2対象として特定してもよい。より具体的な例を挙げると、情報提供装置10は、第1コンテンツにおいて第2対象が第1対象の結果である旨を示し、第2コンテンツにおいて第1対象が第2対象の原因である旨を示すとともに、第1コンテンツにおいて第2コンテンツへのリンクが設定されており、かつ、第2コンテンツにおいて第1コンテンツへのリンクが設定されている場合に、第1対象と第2対象との組をシード因果関係としてもよい。ここで、リンクは、例えば、第1コンテンツに含まれるテキストのうち第2対象を示す文字列に設定されたものであってもよく、関連項目の説明に設定されたものであってもよい。 The information providing device 10 may consider the link relationship of each content when specifying the seed causal relationship. For example, the information providing device 10 may specify a target described by another content to which a link from the first content is set and having a causal relationship with the first target as the second target. To give a more specific example, the information providing device 10 indicates that the second target is the result of the first target in the first content, and that the first target is the cause of the second target in the second content. When a link to the second content is set in the first content and a link to the first content is set in the second content, a pair of the first target and the second target is set. May be a seed causal relationship. Here, the link may be set to, for example, a character string indicating the second target in the text included in the first content, or may be set to the description of the related item.

また、情報提供装置10は、各言語について上述した処理を実行する。この結果、情報提供装置10は、日本語のみならず、英語、フランス語、ドイツ語等、複数言語のそれぞれについて、同一の対象間(すなわち、エンティティ間)の因果関係を示すシード因果関係を特定することとなる。 Further, the information providing device 10 executes the above-described processing for each language. As a result, the information providing device 10 specifies a seed causal relationship indicating a causal relationship between the same objects (that is, between entities) not only in Japanese but also in a plurality of languages such as English, French, and German. It will be.

続いて、情報提供装置10は、原因となる対象の記事から抽出された結果を示すコンテキストと、結果となる対象の記事から抽出された原因を示すコンテキストとのペアを正例として言語ごとに抽出する(ステップS3)。例えば、情報提供装置10は、第1コンテンツから第2対象を示すコンテキストを抽出し、第2コンテンツから第1対象を示すコンテキストを抽出する。そして、情報提供装置10は、抽出されたコンテキストの組を正例として取得する。 Subsequently, the information providing device 10 extracts for each language a pair of a context indicating the result extracted from the target article that is the cause and a context indicating the cause extracted from the article that is the result as a positive example. (Step S3). For example, the information providing device 10 extracts a context indicating the second object from the first content, and extracts a context indicating the first object from the second content. Then, the information providing device 10 acquires the extracted set of contexts as a positive example.

例えば、情報提供装置10は、第1コンテンツにおいて、第1対象の原因として説明されている対象を第2対象として特定した場合、第1コンテンツにおいて第2対象を示すテキストを、因果関係の原因を示すコンテキストとして抽出し、第2コンテンツにおいて第1対象を示すテキストを、因果関係の結果を示すコンテキストとして抽出する。また、情報提供装置10は、第1コンテンツにおいて、第1対象の結果として説明されている対象を第2対象として特定した場合、第1コンテンツにおいて第2対象を示すテキストを、因果関係の結果を示すコンテキストとして抽出し、第2コンテンツにおいて第1対象を示すテキストを、因果関係の原因を示すコンテキストとして抽出する。 For example, when the information providing device 10 specifies the target described as the cause of the first target as the second target in the first content, the text indicating the second target in the first content is used to determine the cause of the causal relationship. The text indicating the first target in the second content is extracted as the context indicating the result of the causal relationship. Further, when the information providing device 10 specifies the target described as the result of the first target as the second target in the first content, the text indicating the second target in the first content is used to display the result of the causal relationship. The text indicating the first target in the second content is extracted as the context indicating the cause of the causal relationship.

より具体的な例を挙げると、情報提供装置10は、シード因果関係が「煙草→肺がん」である場合、対象「煙草」を説明するコンテンツから、テキスト「肺がん」を特定する。そして、情報提供装置10は、特定したテキスト「肺がん」を含む文章や、テキスト「肺がん」から所定の範囲内にある文章を、結果を示すコンテキストとして抽出する。また、情報提供装置10は、対象「肺がん」を説明するコンテンツから、テキスト「煙草」を特定する。そして、情報提供装置10は、特定したテキスト「煙草」を含む文章や、テキスト「煙草」から所定の範囲内にある文章を、原因を示すコンテキストとして抽出する。 To give a more specific example, when the seed causal relationship is “cigarette → lung cancer”, the information providing device 10 identifies the text “lung cancer” from the content explaining the target “cigarette”. Then, the information providing device 10 extracts a sentence including the specified text "lung cancer" and a sentence within a predetermined range from the text "lung cancer" as a context showing the result. In addition, the information providing device 10 identifies the text "cigarette" from the content explaining the target "lung cancer". Then, the information providing device 10 extracts a sentence including the specified text "cigarette" and a sentence within a predetermined range from the text "cigarette" as a context indicating the cause.

なお、情報提供装置10は、日本語のみならず、英語やドイツ語等、特定した各シード因果関係について同様の処理を実行することで、各言語のシード因果関係ごとに、学習データを生成する。すなわち、情報提供装置10は、それぞれ異なる言語で第1対象を説明する複数の第1コンテンツから、第1対象と因果関係を有する第2対象を特定し、言語ごとに、第1コンテンツに基づく情報と、第1コンテンツと同一言語で第2対象を説明する第2コンテンツに基づく情報との組を学習データとして取得することとなる。 The information providing device 10 generates learning data for each seed causal relationship of each language by executing the same processing for each specified seed causal relationship such as English and German as well as Japanese. .. That is, the information providing device 10 identifies a second target having a causal relationship with the first target from a plurality of first contents for explaining the first target in different languages, and information based on the first content for each language. And the set of the information based on the second content explaining the second target in the same language as the first content is acquired as the learning data.

なお、第1コンテンツや第2コンテンツがマークアップ言語で記載されている場合、このようなマークアップそのものも因果関係を示す指標になりえると考えられる。例えば、「煙草」のコンテンツにおいては、「煙草」を原因とした場合に効果となる「肺がん」のテキストにリンクが設定されていたり、「肺がん」のテキストを強調表示するためのマークアップが設定されている場合がある。そこで、情報提供装置10は、第1コンテンツや第2コンテンツがマークアップ言語で記載されている場合、テキストのみならず、テキストに付加されている各種のマークアップもコンテキストとして抽出する。 When the first content and the second content are described in the markup language, it is considered that such markup itself can be an index showing a causal relationship. For example, in the content of "cigarette", a link is set to the text of "lung cancer" that is effective when "cigarette" is the cause, or a markup is set to highlight the text of "lung cancer". May have been. Therefore, when the first content or the second content is described in the markup language, the information providing device 10 extracts not only the text but also various markups added to the text as context.

ここで、学習データにより学習が行われた分類モデルは、入力された2つのコンテンツが示す2つの対象情報が因果関係を有するか否かの分類を行うこととなる。より具体的には、分類モデルは、入力された2つのコンテンツに含まれるテキストの表現やマークアップの特徴等に基づいて、入力された2つのコンテンツと対応する2つの対象が因果関係を有するか否かの分類を行うものと考えられる。このため、学習データから因果関係を有する対象そのものを示すテキストを除いた場合、分類モデルは、因果関係を示す表現やマークアップの特徴をより正確に学習できるとも考えられる。 Here, the classification model trained by the training data classifies whether or not the two target information indicated by the two input contents have a causal relationship. More specifically, in the classification model, does the two input contents have a causal relationship with the two objects corresponding to the two input contents based on the expression of the text contained in the two input contents and the characteristics of the markup? It is considered that the classification of whether or not is performed. Therefore, when the text indicating the object itself having a causal relationship is excluded from the training data, it is considered that the classification model can more accurately learn the expression indicating the causal relationship and the characteristics of the markup.

そこで、情報提供装置10は、学習データに含まれるテキストのうち、対象そのものを示すテキストを所定のシンボルに変換する。例えば、情報提供装置10は、シード因果関係が「煙草→肺がん」である場合、「煙草」のコンテンツや「肺がん」のコンテンツから抽出したコンテキストのうち、テキスト「煙草」を「“原因”」といったシンボルに変換し、テキスト「肺がん」を「“効果”」といったシンボルに変換する。すなわち、情報提供装置10は、各コンテンツに含まれる文字列のうち原因を示す文字列を、原因を示す所定の第1シンボルに変換し、結果を示す文字列を所定の第2シンボルに変換した情報を学習データとする。なお、このような第1シンボルおよび第2シンボルは、コンテンツの言語によらず、任意のシンボルが採用可能である。 Therefore, the information providing device 10 converts the text indicating the target itself from the text included in the learning data into a predetermined symbol. For example, in the information providing device 10, when the seed causal relationship is "cigarette → lung cancer", the text "cigarette" is referred to as "cause" in the context extracted from the content of "cigarette" or the content of "lung cancer". Convert to a symbol and convert the text "lung cancer" to a symbol such as "effect". That is, the information providing device 10 converts the character string indicating the cause among the character strings included in each content into a predetermined first symbol indicating the cause, and converts the character string indicating the result into a predetermined second symbol. Information is used as training data. As the first symbol and the second symbol, any symbol can be adopted regardless of the language of the content.

続いて、情報提供装置10は、負例として、因果関係を有しない対象の記事から抽出されたコンテキストのペアを、正例と同数生成する(ステップS4)。例えば、情報提供装置10は、第3対象を説明する第3コンテンツに基づく情報と、第3対象と因果関係を有しない第4対象を説明する第4コンテンツに基づく情報との組を負例として取得し、正例と負例とを用いて、モデルの学習を行う。 Subsequently, the information providing device 10 generates, as a negative example, the same number of context pairs extracted from the target articles having no causal relationship as the positive example (step S4). For example, the information providing device 10 uses a set of information based on the third content explaining the third object and information based on the fourth content explaining the fourth object having no causal relationship with the third object as a negative example. Acquire and train the model using positive and negative examples.

例えば、情報提供装置10は、任意の第3対象を示す第3コンテンツを選択し、選択した第3コンテンツに含まれる文字列が示す他の対象であって、因果関係を示すキーワードの目的語となっていない対象を第4対象として特定する。また、情報提供装置10は、特定した第4対象を説明する第4コンテンツに含まれる文字列に、第3対象を示す文字列が含まれ、かつ、第3対象を示す文字列が因果関係を示すキーワードの目的語となっていない場合は、第3対象と第4対象との組を非シード因果関係として特定する。 For example, the information providing device 10 selects a third content indicating an arbitrary third object, is another object indicated by a character string included in the selected third object, and is an object of a keyword indicating a causal relationship. The target that is not specified is specified as the fourth target. Further, in the information providing device 10, the character string included in the fourth content explaining the specified fourth object includes the character string indicating the third object, and the character string indicating the third object has a causal relationship. If it is not the object of the indicated keyword, the pair of the third object and the fourth object is specified as a non-seed causal relationship.

そして、情報提供装置10は、非シード因果関係として特定した第3対象を説明する第3コンテンツから第4対象を示す文字列を含むコンテキストを抽出し、第4対象を説明する第4コンテンツから第3対象を示す文字列を含むコンテキストを抽出する。そして、情報提供装置10は、抽出したコンテキストの組を負例とする。 Then, the information providing device 10 extracts a context including a character string indicating the fourth object from the third content explaining the third object specified as a non-seed causal relationship, and extracts a context including a character string indicating the fourth object from the fourth content explaining the fourth object. 3 Extract the context including the character string indicating the target. Then, the information providing device 10 takes the extracted set of contexts as a negative example.

例えば、情報提供装置10は、「癌性疼痛」を説明するコンテンツに、「癌性疼痛」と因果関係を示すキーワードの目的語以外の文字列として文字列「モルヒネ」が含まれ、「モルヒネ」が含まれ、「モルヒネ」を説明するコンテンツに、「モルヒネ」と因果関係を示すキーワードの目的語以外の文字列として文字列「癌性疼痛」が含まれる場合は、「癌性疼痛」と「モルヒネ」との組を非シード因果関係とする。そして、情報提供装置10は、「癌性疼痛」を説明するコンテンツから「モルヒネ」を含むコンテキストを抽出し、「モルヒネ」を説明するコンテンツから「癌性疼痛」を含むコンテキストを抽出する。そして、情報提供装置10は、抽出したコンテキストの組を負例とする。 For example, the information providing device 10 includes the character string "morphine" as a character string other than the object of the keyword indicating a causal relationship with "cancer pain" in the content explaining "cancer pain", and "morphine". If the content explaining "morphine" contains the character string "cancer pain" as a character string other than the object of the keyword indicating a causal relationship with "morphine", then "cancer pain" and "cancer pain" The pair with "morphine" is regarded as a non-seed causal relationship. Then, the information providing device 10 extracts a context including "morphine" from the content explaining "cancer pain", and extracts a context including "cancer pain" from the content explaining "morphine". Then, the information providing device 10 takes the extracted set of contexts as a negative example.

なお、情報提供装置10は、各コンテンツに相互リンクが設定されていることを条件として、各対象を非シード因果関係としてもよい。また、どのような関係性を有する対象を非シード因果関係とするかについては、分類モデルにどのような分類を行わせるかに応じて、任意の条件が採用可能である。例えば、情報提供装置10は、因果関係以外の所定の関係性を示すキーワードを用いて、シード因果関係を特定する際の同様の処理により、被シード因果関係の特定を行ってもよい。 In addition, the information providing device 10 may make each target a non-seed causal relationship on condition that a mutual link is set for each content. In addition, as for what kind of relationship the target has as a non-seed causal relationship, any condition can be adopted depending on what kind of classification is performed by the classification model. For example, the information providing device 10 may specify the seeded causal relationship by the same processing when specifying the seed causal relationship by using a keyword indicating a predetermined relationship other than the causal relationship.

そして、情報提供装置10は、正例を入力した際に因果関係を有する旨を出力し、負例を入力した際に因果関係を有しない旨を出力するように、モデルの学習を行う(ステップS5)。例えば、情報提供装置10は、バックプロパゲーション等、任意の学習手法を用いて、モデルの学習を行う。なお、情報提供装置10は、fastText等といった単語の活用形を考慮してテキストの学習を行う技術を用いて、モデルの学習を行ってもよい。また、情報提供装置10は、モデルのプレトレーニングを行わずともよいが、所定のプレトレーニング用データを用いて、モデルのプレトレーニングを行ってもよい。このような処理の結果、情報提供装置10は、2つのコンテキストの組が入力された場合に、各コンテキストが示す対象間に因果関係が存在するか否かの分類を行う分類モデルを生成することができる。 Then, the information providing device 10 trains the model so as to output that there is a causal relationship when a positive example is input and output that there is no causal relationship when a negative example is input (step). S5). For example, the information providing device 10 learns a model by using an arbitrary learning method such as backpropagation. The information providing device 10 may learn the model by using a technique for learning the text in consideration of the inflected form of the word such as fastText. Further, the information providing device 10 does not have to perform pre-training of the model, but may perform pre-training of the model using predetermined pre-training data. As a result of such processing, the information providing device 10 generates a classification model that classifies whether or not there is a causal relationship between the objects indicated by each context when a set of two contexts is input. Can be done.

例えば、情報提供装置10は、利用者が利用する端末装置200から判定対象となるコンテンツのペアの指定を受付ける(ステップS6)。このような場合、情報提供装置10は、コンテンツのペアを分類モデルに入力し、因果関係を有するか否かの分類を行う(ステップS7)。 For example, the information providing device 10 receives the designation of the content pair to be determined from the terminal device 200 used by the user (step S6). In such a case, the information providing device 10 inputs a pair of contents into the classification model and classifies whether or not the content has a causal relationship (step S7).

例えば、情報提供装置10は、第1対象を示す文字列と第2対象を示す文字列とを受付ける。このような場合、情報提供装置10は、データサーバ100から、第1対象を説明するコンテンツ#1と、第2対象を説明するコンテンツ#2とを取得する。そして、情報提供装置10は、コンテンツ#1とコンテンツ#2とを分類モデルに入力し、分類モデルによる分類結果を得る。そして、情報提供装置10は、分類結果を示す情報を端末装置200に提供する(ステップS8)。 For example, the information providing device 10 receives a character string indicating the first object and a character string indicating the second object. In such a case, the information providing device 10 acquires the content # 1 explaining the first target and the content # 2 explaining the second target from the data server 100. Then, the information providing device 10 inputs the content # 1 and the content # 2 into the classification model, and obtains the classification result by the classification model. Then, the information providing device 10 provides the terminal device 200 with information indicating the classification result (step S8).

このように、情報提供装置10は、種々の対象を説明するコンテンツの中から、因果関係を示すキーワードと、各コンテンツにおける説明の相互性とに基づいて、因果関係を有する2つの対象をシード因果関係として特定する。そして、情報提供装置10は、シード因果関係を有する2つの対象の各コンテンツに基づく情報を、分類モデルの学習データとして取得する。このような処理の結果、情報提供装置10は、有用な学習データを自動的に取得することができる。 As described above, the information providing device 10 seeds two objects having a causal relationship from the contents explaining various objects based on the keyword indicating the causal relationship and the reciprocity of the explanations in each content. Identify as a relationship. Then, the information providing device 10 acquires information based on each content of the two objects having a seed causal relationship as learning data of the classification model. As a result of such processing, the information providing device 10 can automatically acquire useful learning data.

例えば、因果関係を有するか否かの分類を行う分類モデルの学習を行うため、因果関係を示す既存のデータベースを利用するといった手法が考えられる。しかしながら、このように因果関係を示すラベルが付与されているような公知のデータベースは、あまり数がなく、最新の情報が反映されるまでには、時間がかかる。しかしながら、情報提供装置10は、ウィキペディア等といった一般的に配信されるコンテンツから学習データを自動で取得することができるので、より有用な学習データを取得することができる。また、複数の編集者によって作成若しくは更新が行われるコンテンツにおいては、因果関係が様々な表現で示されることとなるので、情報提供装置10は、学習データのバリエーションを増大させ、分類モデルの精度を向上させることができる。 For example, in order to learn a classification model that classifies whether or not a causal relationship is present, a method of using an existing database showing the causal relationship can be considered. However, there are not many publicly known databases that are labeled with a causal relationship in this way, and it takes time for the latest information to be reflected. However, since the information providing device 10 can automatically acquire learning data from generally distributed contents such as Wikipedia, more useful learning data can be acquired. Further, in the content created or updated by a plurality of editors, the causal relationship is shown by various expressions, so that the information providing device 10 increases the variation of the learning data and improves the accuracy of the classification model. Can be improved.

また、情報提供装置10は、第1コンテンツに第2対象が原因若しくは結果として説明され、第2コンテンツに第1対象が結果若しくは原因として説明され、かつ、第1コンテンツと第2コンテンツとに相互リンクが設定されている場合に、第1対象と第2対象とをシード因果関係とする。このような処理の結果、情報提供装置10は、少数ではあるものの、より因果関係を有する可能性が高い2つの対象をシード因果関係として特定することができるので、より因果関係が有する可能性が高い対象のコンテンツに基づいた学習データを取得することができる。この結果、情報提供装置10は、分類モデルの学習精度を向上させることができる。 Further, in the information providing device 10, the first content is explained as the cause or result of the second object, the first content is explained as the result or cause in the second content, and the first content and the second content are mutually exchanged. When the link is set, the first target and the second target are set as a seed causal relationship. As a result of such processing, the information providing device 10 can identify two targets having a higher possibility of having a causal relationship as a seed causal relationship, although the number of the information providing devices 10 is small, so that the information providing device 10 may have a more causal relationship. It is possible to acquire learning data based on high target content. As a result, the information providing device 10 can improve the learning accuracy of the classification model.

また、情報提供装置10は、ある対象に対して複数の言語で説明が行われたコンテンツを用いて、学習データの生成を行う。このような処理の結果、情報提供装置10は、例えば、冗長な表現を避けるようなコンテンツを用いる場合であっても、各言語ごとに、シード因果関係を特定し、特定したシード因果関係ごとに学習データを生成するので、多言語において共通して現れる因果関係を重要視することができる。換言すると、情報提供装置10は、多言語において共通して現れる因果関係については、単一言語において現れる因果関係よりも多くの学習データを生成するので、多言語性に基づく信頼性に応じたスコアを、各因果関係に対して付与した場合と同様の学習処理を実現することができる。さらに、情報提供装置10は、学習データの数を増やすことができるので、カバレッジを向上させることができる。 Further, the information providing device 10 generates learning data by using the contents explained in a plurality of languages for a certain object. As a result of such processing, the information providing device 10 specifies a seed causal relationship for each language, and for each specified seed causal relationship, for example, even when using content that avoids redundant expressions. Since learning data is generated, it is possible to emphasize the causal relationships that commonly appear in multiple languages. In other words, the information providing device 10 generates more learning data for causal relationships that appear in common in multiple languages than in causal relationships that appear in a single language. Can be realized in the same learning process as when is given to each causal relationship. Further, the information providing device 10 can increase the number of learning data, so that the coverage can be improved.

〔1−7.学習処理のバリエーションについて〕
上述した例では、情報提供装置10は、シード因果関係とした対象のコンテンツから抽出したコンテキストの特徴をモデルに学習させていた。しかしながら、実施形態は、これに限定されるものではない。
[1-7. Variations on learning processing]
In the above-mentioned example, the information providing device 10 trains the model to learn the characteristics of the context extracted from the target content as the seed causal relationship. However, the embodiment is not limited to this.

例えば、ウィキペディア等においては、ある対象の原因を列挙したセクションが含まれる場合がある。例えば、対象「肺がん」のコンテンツには、原因として「煙草」、「ラドンガス」、「アスベスト」、「副流煙」等が列挙されている場合がある。このような場合、情報提供装置10は、コンテンツが説明する対象と、このように原因を列挙したセクションに示される各対象との組をシード因果関係として抽出してもよい。例えば、情報提供装置10は、「煙草→肺がん」、「ラドンガス→肺がん」、「アスベスト→肺がん」、「副流煙→肺がん」といった、原因として列挙された対象ごとに、シード因果関係を特定してもよい。 For example, Wikipedia may include a section listing the causes of a certain target. For example, in the content of the target "lung cancer", "cigarette", "radon gas", "asbestos", "second-hand smoke" and the like may be listed as causes. In such a case, the information providing device 10 may extract a pair of the target described by the content and each target shown in the section listing the causes as a seed causal relationship. For example, the information providing device 10 identifies a seed causal relationship for each target listed as a cause, such as "cigarette-> lung cancer", "radongas-> lung cancer", "asbestos-> lung cancer", and "second-hand smoke-> lung cancer". You may.

ここで、ある対象を説明するコンテンツにおいて原因となる対象が列挙される場合、原因となる確度がより高い対象程、先に記載される可能性が高いと考えられる。そこで、情報提供装置10は、各対象が出現する順序に応じた優先度で、学習を行ってもよい。例えば、情報提供装置10は、第1コンテンツにおいて、第1対象の原因として説明されている複数の対象のうち、第2対象が出現する順序を特定し、第1コンテンツに基づく情報と、第2コンテンツに基づく情報との組が有する特徴を、第1コンテンツにおいて第2対象が出現する順序に応じた優先度で学習してもよい。 Here, when a causal target is listed in the content explaining a certain target, it is considered that the target having a higher probability of causing the cause is more likely to be described first. Therefore, the information providing device 10 may perform learning with a priority according to the order in which each object appears. For example, the information providing device 10 specifies the order in which the second target appears among the plurality of targets described as the cause of the first target in the first content, and the information based on the first content and the second target. The characteristics of the set with the information based on the content may be learned with the priority according to the order in which the second object appears in the first content.

例えば、対象「肺がん」のコンテンツのうち、原因を示すセクションにおいて、「煙草」、「ラドンガス」、「アスベスト」、「副流煙」が順に記載されているものとする。このような場合、情報提供装置10は、シード因果関係「煙草→肺がん」、「ラドンガス→肺がん」、「アスベスト→肺がん」、「副流煙→肺がん」をそれぞれ特定する。また、情報提供装置10は、各シード因果関係における原因となる対象を示すテキストが、シード因果関係における効果となる対象を説明するコンテンツにおいて出現する順序を特定し、特定した順序をシード因果関係に紐付ける。例えば、情報提供装置10は、シード因果関係「煙草→肺がん」に対して順序「1」を紐付け、「ラドンガス→肺がん」に対して順序「2」を紐付け、「アスベスト→肺がん」に対して順序「3」を紐付け、「副流煙→肺がん」に対して順序「4」を紐付ける。 For example, in the content of the target "lung cancer", "cigarette", "radon gas", "asbestos", and "second-hand smoke" are described in order in the section indicating the cause. In such a case, the information providing device 10 identifies the seed causal relationship “cigarette → lung cancer”, “radon gas → lung cancer”, “asbestos → lung cancer”, and “second-hand smoke → lung cancer”, respectively. Further, the information providing device 10 specifies the order in which the text indicating the causal target in each seed causal relationship appears in the content explaining the target that is effective in the seed causal relationship, and sets the specified order as the seed causal relationship. Link. For example, the information providing device 10 associates the seed causal relationship “cigarette → lung cancer” with the order “1”, “radon gas → lung cancer” with the order “2”, and “asbestos → lung cancer”. The order "3" is linked, and the order "4" is linked to "second-hand smoke → lung cancer".

そして、情報提供装置10は、各シード因果関係に基づいた学習データの特徴を、各シード因果関係と紐付けた順序に応じた優先度で、モデルに学習させる。例えば、情報提供装置10は、シード因果関係「煙草→肺がん」から生成した学習データを最も重要な学習データとしてモデルに学習させ、「ラドンガス→肺がん」から生成した学習データを2番目に重要な学習データとしてモデルに学習させる。また、情報提供装置10は、「アスベスト→肺がん」から生成した学習データを3番目に重要な学習データとしてモデルに学習させ、「副流煙→肺がん」から生成した学習データを4番目に重要な学習データとしてモデルに学習させる。なお、このような優先度を考慮した学習については、重みづけを考慮した各種任意の学習手法が採用可能である。 Then, the information providing device 10 causes the model to learn the features of the learning data based on each seed causal relationship with the priority according to the order associated with each seed causal relationship. For example, the information providing device 10 causes the model to learn the learning data generated from the seed causal relationship “cigarette → lung cancer” as the most important learning data, and the learning data generated from “radongas → lung cancer” is the second most important learning. Train the model as data. In addition, the information providing device 10 trains the model as the training data generated from "asbestos-> lung cancer" as the third most important training data, and the training data generated from "second-hand smoke-> lung cancer" is the fourth most important training data. Train the model as training data. For learning considering such priority, various arbitrary learning methods considering weighting can be adopted.

なお、上述した処理と同様に、情報提供装置10は、第1コンテンツにおいて、第1対象の効果として説明されている複数の対象のうち、第2対象が出現する順序を特定し、第1コンテンツに基づく情報と、第2コンテンツに基づく情報との組が有する特徴を、第1コンテンツにおいて第2対象が出現する順序に応じた優先度で学習してもよい。例えば、情報提供装置10は、ある第1対象のコンテンツにおいて、効果を列挙したセクションを特定し、特定したセクションにおいて各第2対象が記載された順番に応じた優先度で、第1対象と第2対象との組から生成した学習データを、第2対象が記載された順番に応じた優先度で、モデルに学習させてもよい。 In the same manner as the above-described processing, the information providing device 10 specifies the order in which the second target appears among the plurality of targets described as the effect of the first target in the first content, and the first content. The characteristics of the set of the information based on the information based on the second content and the information based on the second content may be learned with priority according to the order in which the second object appears in the first content. For example, the information providing device 10 specifies a section in which the effects are listed in the content of a certain first target, and the first target and the first target have priorities according to the order in which each second target is described in the specified section. The training data generated from the pair with the two objects may be trained by the model with the priority according to the order in which the second object is described.

〔1−8.コンテンツの収集について〕
上述した例では、情報提供装置10は、ウィキペディア等、ある対象について、それぞれ異なる言語で対象を説明する複数のコンテンツが存在するサービスから、各コンテンツを収集した。ここで、情報提供装置10は、ワードネット等、他のサービスにおいて配信されたコンテンツを用いて、上述した各処理を実行してもよい。例えば、情報提供装置10は、所定のニュースサイトであって、同一の内容をそれぞれ異なる言語で説明するコンテンツを配信するニュースサイト等から、コンテンツを収集してもよい。すなわち、情報提供装置10は、信頼性が高い収集元からコンテンツの収集を行い、上述した処理を実行するのであれば、任意の収集元からコンテンツを収集してよい。
[1-8. About content collection]
In the above example, the information providing device 10 collects each content from a service such as Wikipedia, which has a plurality of contents for explaining the target in different languages. Here, the information providing device 10 may execute each of the above-described processes using the content distributed in another service such as Wordnet. For example, the information providing device 10 may collect content from a predetermined news site, such as a news site that distributes content that explains the same content in different languages. That is, the information providing device 10 may collect the content from a highly reliable collection source, and collect the content from any collection source as long as the above-described processing is executed.

〔1−9.採用する言語について〕
ここで、情報提供装置10は、各言語ごとにシード因果関係を特定し、特定したシード因果関係に基づいた学習データを生成した。ここで、情報提供装置10は、全ての言語についてシード因果関係を特定する必要はない。例えば、情報提供装置10は、日本語のコンテンツ間に因果関係を有するか否かを分類する分類モデルを学習する場合、日本語のみについてシード因果関係を特定してもよい。
[1-9. About the language to be adopted]
Here, the information providing device 10 specifies the seed causal relationship for each language, and generates learning data based on the specified seed causal relationship. Here, the information providing device 10 does not need to specify the seed causal relationship for all languages. For example, when the information providing device 10 learns a classification model for classifying whether or not there is a causal relationship between Japanese contents, the information providing device 10 may specify the seed causal relationship only for Japanese.

また、情報提供装置10は、カバレッジが高い言語についてのみ、上述した取得処理や学習処理を実行してもよい。例えば、情報提供装置10は、対象を説明するコンテンツの量が所定の条件を満たす言語で第1対象を説明する複数の第1コンテンツから、第1対象と因果関係を有する第2対象を特定し、言語ごとに、第1コンテンツに基づく情報と、第1コンテンツと同一言語で第2対象を説明する第2コンテンツに基づく情報との組を学習データとして取得してもよい。より具体的な例を挙げると、情報提供装置10は、英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語、スエーデン後、デンマーク語、およびポーランド語等、カバレッジが広い言語を取得処理や学習処理の対象としてもよい。また、情報提供装置10は、例えば、単語がスペースで区切られている言語等、言語解析の容易性に基づいて、処理対象となる言語を決定してもよい。 Further, the information providing device 10 may execute the above-mentioned acquisition process and learning process only for a language having high coverage. For example, the information providing device 10 identifies a second target having a causal relationship with the first target from a plurality of first contents for explaining the first target in a language in which the amount of content explaining the target satisfies a predetermined condition. For each language, a set of information based on the first content and information based on the second content explaining the second target in the same language as the first content may be acquired as learning data. To give a more specific example, the information providing device 10 can acquire and process languages with wide coverage such as English, German, French, Spanish, Italian, Portuguese, Swedish, Danish, and Polish. It may be the target of learning processing. Further, the information providing device 10 may determine a language to be processed based on the ease of language analysis, for example, a language in which words are separated by spaces.

〔2.情報提供装置の構成〕
以下、上記した情報提供装置10が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
[2. Configuration of information providing device]
Hereinafter, an example of the functional configuration of the information providing device 10 described above will be described. FIG. 2 is a diagram showing a configuration example of the information providing device according to the embodiment. As shown in FIG. 2, the information providing device 10 includes a communication unit 20, a storage unit 30, and a control unit 40.

通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、データサーバ100や端末装置200との間で情報の送受信を行う。 The communication unit 20 is realized by, for example, a NIC (Network Interface Card) or the like. Then, the communication unit 20 is connected to the network N by wire or wirelessly, and transmits / receives information to / from the data server 100 and the terminal device 200.

記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、コンテンツデータベース31、対象データベース32、学習データデータベース33、および因果関係表現テーブル34を記憶する。 The storage unit 30 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. Further, the storage unit 30 stores the content database 31, the target database 32, the learning data database 33, and the causal relationship expression table 34.

以下、図3〜6を用いて、記憶部30に登録される情報の一例を説明する。コンテンツデータベース31には、データサーバ100から収集したコンテンツが登録される。例えば、図3は、実施形態に係るコンテンツデータベースに登録される情報の一例を示す図である。図3に示すように、コンテンツデータベース31には、「コンテンツID」、「対象ID」、「コンテンツデータ」および「言語」といった項目を有する情報が登録される。 Hereinafter, an example of information registered in the storage unit 30 will be described with reference to FIGS. 3 to 6. The content collected from the data server 100 is registered in the content database 31. For example, FIG. 3 is a diagram showing an example of information registered in the content database according to the embodiment. As shown in FIG. 3, information having items such as "content ID", "target ID", "content data", and "language" is registered in the content database 31.

ここで、「コンテンツID」とは、コンテンツを識別するための識別子である。また、「対象ID」とは、対応付けられた「コンテンツID」が示すコンテンツが説明する対象を識別する識別子である。また、「コンテンツデータ」とは、コンテンツとして配信されるデータであり、例えば、HTML形式で記載されたウェブコンテンツや画像データ等である。また、「言語」とは、対応付けられられた「コンテンツID」が示すコンテンツがどの言語のコンテンツであるかを示す情報である。 Here, the "content ID" is an identifier for identifying the content. Further, the "target ID" is an identifier that identifies the target described by the content indicated by the associated "content ID". Further, the "content data" is data distributed as content, such as web content or image data described in HTML format. Further, the "language" is information indicating which language the content indicated by the associated "content ID" is.

例えば、図3に示す例では、コンテンツデータベース31には、コンテンツID「コンテンツID#1」、対象ID「対象#1」、コンテンツデータ「コンテンツ#1」および言語「日本語」といった情報が対応付けて登録されている。このような情報は、コンテンツID「コンテンツID#1」が示すコンテンツが、対象ID「対象#1」が示す対象を説明するコンテンツであって、「日本語」により作成されたコンテンツであり、そのデータがコンテンツデータ「コンテンツ#1」である旨を示す。 For example, in the example shown in FIG. 3, the content database 31 is associated with information such as the content ID “content ID # 1”, the target ID “target # 1”, the content data “content # 1”, and the language “Japanese”. Is registered. Such information is such that the content indicated by the content ID "content ID # 1" is the content explaining the target indicated by the target ID "target # 1" and is created in "Japanese". Indicates that the data is the content data "content # 1".

なお、図3に示すように、コンテンツデータベース31には、同一の対象IDと紐付られたコンテンツであって、それぞれ異なる言語により作成された複数のコンテンツがそれぞれ個別に登録されることとなる。また、図3に示す例では、「コンテンツID#1」、「対象#1」、「コンテンツ#1」といった概念的な値を記載したが、実際には、コンテンツや対象を識別するための数値や文字列、コンテンツを構成する各種のデータ等が登録されることとなる。また、図3に示す情報以外にも、コンテンツデータベース31には、各コンテンツに関連する各種の情報が登録されていてよい。 As shown in FIG. 3, a plurality of contents associated with the same target ID and created in different languages are individually registered in the content database 31. Further, in the example shown in FIG. 3, conceptual values such as "content ID # 1", "target # 1", and "content # 1" are described, but in reality, numerical values for identifying the content or the target are described. , Character strings, various data that compose the content, etc. will be registered. In addition to the information shown in FIG. 3, various information related to each content may be registered in the content database 31.

対象データベース32には、対象に関する情報が登録される。例えば、図4は、実施形態に係る対象データベースに登録される情報の一例を示す図である。図4に示すように、対象データベース32には、「対象ID」、「対象」、および「コンテンツID」といった項目を有する情報が登録される。 Information about the target is registered in the target database 32. For example, FIG. 4 is a diagram showing an example of information registered in the target database according to the embodiment. As shown in FIG. 4, information having items such as "target ID", "target", and "content ID" is registered in the target database 32.

ここで「対象」とは、対象の名称等を示す文字列である。例えば、図4に示す例では、対象データベース32には、対象ID「対象#1」、対象「肺がん」、コンテンツID「コンテンツID#1」、「コンテンツID#2」、といった情報が対応付けて登録されている。このような情報は、対象ID「対象#1」が示す対象が「肺がん」であり、このような対象「肺がん」を説明するコンテンツとして、コンテンツID「コンテンツID#1」が示すコンテンツと、コンテンツID「コンテンツID#2」が示すコンテンツとが登録されている旨を示す。 Here, the "target" is a character string indicating the name or the like of the target. For example, in the example shown in FIG. 4, the target database 32 is associated with information such as the target ID “target # 1”, the target “lung cancer”, the content ID “content ID # 1”, and the “content ID # 2”. It is registered. In such information, the target indicated by the target ID "target # 1" is "lung cancer", and as the content explaining such the target "lung cancer", the content indicated by the content ID "content ID # 1" and the content Indicates that the content indicated by the ID "content ID # 2" is registered.

なお、図4に示す例では、「対象ID#1」といった概念的な値を記載したが、実際には、対象を識別するための数値や文字列が登録されることとなる。また、図4に示す情報以外にも、対象データベース32には、各対象に関連する各種の情報が登録されていてよい。 In the example shown in FIG. 4, a conceptual value such as "target ID # 1" is described, but in reality, a numerical value or a character string for identifying the target is registered. In addition to the information shown in FIG. 4, various information related to each target may be registered in the target database 32.

学習データデータベース33には、取得処理により取得された学習データが登録される。例えば、図5は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図5に示すように、学習データデータベース33には、「学習データID」、「種別」、「第1コンテキスト」、および「第2コンテキスト」といった項目を有する情報が登録される。 The learning data acquired by the acquisition process is registered in the learning data database 33. For example, FIG. 5 is a diagram showing an example of information registered in the learning data database according to the embodiment. As shown in FIG. 5, information having items such as "learning data ID", "type", "first context", and "second context" is registered in the learning data database 33.

ここで「学習データID」とは、学習データを識別するための識別子である。また、「種別」とは、対応付けられた「学習データID」が示す学習データが「正例」であるか「負例」であるかを示す情報である。また、「第1コンテキスト」および「第2コンテキスト」とは、学習データとして取得されたコンテキストである。より具体的には、「第1コンテキスト」および「第2コンテキスト」とは、シード因果関係として特定された各対象を説明するコンテンツから抽出されたコンテキストである。 Here, the "learning data ID" is an identifier for identifying the learning data. Further, the "type" is information indicating whether the learning data indicated by the associated "learning data ID" is a "positive example" or a "negative example". Further, the "first context" and the "second context" are contexts acquired as learning data. More specifically, the "first context" and the "second context" are contexts extracted from the content describing each object identified as a seed causal relationship.

例えば、図5に示す例では、学習データデータベース33には、学習データID「学習データ#1」、種別「正例」、第1コンテキスト「第1コンテキスト#1」、および第2コンテキスト「第2コンテキスト#2」といった情報が対応付けて登録されている。このような情報は、学習データID「学習データ#1」が示す学習データが、「正例」となる学習データであり、「第1コンテキスト#1」と「第2コンテキスト#2」との組からなる学習データである旨を示す。 For example, in the example shown in FIG. 5, the training data database 33 has the training data ID “learning data # 1”, the type “correct example”, the first context “first context # 1”, and the second context “second context”. Information such as "context # 2" is registered in association with each other. Such information is learning data in which the learning data indicated by the learning data ID "learning data # 1" is a "normal example", and is a set of "first context # 1" and "second context # 2". Indicates that the learning data consists of.

なお、図5に示す例では、「学習データID#1」や「第1コンテキスト#1」といった概念的な値を記載したが、実際には、学習データを識別するための数値や文字列、コンテンツからコンテキストとして抽出されたテキストやマークアップ等が登録されることとなる。また、図5に示す情報以外にも、学習データデータベース33には、学習データに関連する各種の情報が登録されていてよい。 In the example shown in FIG. 5, conceptual values such as "learning data ID # 1" and "first context # 1" are described, but in reality, numerical values and character strings for identifying the learning data, Text, markup, etc. extracted as context from the content will be registered. In addition to the information shown in FIG. 5, various information related to the learning data may be registered in the learning data database 33.

因果関係表現テーブル34には、因果関係を示すキーワードとして予め設定されたキーワードが登録されている。例えば、図6は、実施形態に係る因果関係表現テーブルに登録される情報の一例を示す図である。図6に示すように、因果関係表現テーブル34には、「検出用語」、「種別」、および「言語」といった情報が対応付けて登録されている。 In the causal relationship expression table 34, keywords set in advance as keywords indicating the causal relationship are registered. For example, FIG. 6 is a diagram showing an example of information registered in the causal relationship expression table according to the embodiment. As shown in FIG. 6, in the causal relationship expression table 34, information such as "detection term", "type", and "language" is registered in association with each other.

ここで、「検出用語」とは、因果関係を示すキーワードとしてコンテンツから検出を行うキーワードである。また、「種別」とは、対応付けられた検出用語の目的語が原因となるか、結果となるかを示す情報である。また、「言語」とは、対応付けられた検出用語の検出対象となるコンテンツの言語を示す情報である。 Here, the "detection term" is a keyword that detects from the content as a keyword indicating a causal relationship. Further, the "type" is information indicating whether the object of the associated detection term is the cause or the result. Further, the "language" is information indicating the language of the content to be detected of the associated detection term.

例えば、図6に示す例では、検出用語「原因」、種別「原因」、言語「日本語」といった情報が対応付けて登録されている。このような情報は、「日本語」のコンテンツから検出されるキーワードとして、検出用語「原因」が登録されており、この「原因」の目的語となる対象が、コンテンツにより説明される対象の「原因」となる対象である旨を示す。なお、図6に示す情報以外にも、因果関係表現テーブル34には、任意の情報が登録されていてよい。 For example, in the example shown in FIG. 6, information such as the detection term "cause", the type "cause", and the language "Japanese" are registered in association with each other. In such information, the detection term "cause" is registered as a keyword detected from the content of "Japanese", and the object of the "cause" is the object "cause" explained by the content. Indicates that the target is the "cause". In addition to the information shown in FIG. 6, arbitrary information may be registered in the causal relationship expression table 34.

図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。 Returning to FIG. 2, the explanation will be continued. The control unit 40 is a controller, and for example, various programs stored in a storage device inside the information providing device 10 by a processor such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit) are stored in a RAM or the like. Is realized by executing as a work area. Further, the control unit 40 is a controller, and may be realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

図2に示すように、制御部40は、収集部41、特定部42、抽出部43、取得部44、学習部45、および提供部46を有する。収集部41は、各種コンテンツを収集する。例えば、収集部41は、ウィキペディア等、それぞれ異なる言語で同一の対象を説明する複数のコンテンツを収集し、収集したコンテンツをコンテンツデータベース31に登録する。また、収集部41は、ある対象を識別する識別子と、この対象を説明するコンテンツとを紐付けた情報を収集し、対象データベース32に登録する。 As shown in FIG. 2, the control unit 40 includes a collection unit 41, a specific unit 42, an extraction unit 43, an acquisition unit 44, a learning unit 45, and a providing unit 46. The collection unit 41 collects various contents. For example, the collection unit 41 collects a plurality of contents explaining the same target in different languages such as Wikipedia, and registers the collected contents in the content database 31. In addition, the collection unit 41 collects information associated with an identifier that identifies a certain target and content that explains the target, and registers the information in the target database 32.

特定部42は、第1対象を説明する第1コンテンツから、第1対象と因果関係を有する第2対象を特定する。例えば、特定部42は、対象データベース32を参照し、処理対象となる対象を第1対象として1つ選択する。そして、特定部42は、選択した第1対象を説明するコンテンツを対象データベース32から特定し、特定したコンテンツをコンテンツデータベース31から取得する。すなわち、特定部42は、第1対象をそれぞれ異なる言語で説明する複数のコンテンツを取得する。そして、特定部42は、各コンテンツから第1対象と因果関係を有する第2対象を特定する。すなわち、特定部42は、コンテンツデータベース31において同一の対象を説明するコンテンツを示す対象データベース32を用いて、第1対象を説明する複数の第1コンテンツを特定するとともに、特定した複数の第1コンテンツから第2対象を特定する。 The identification unit 42 identifies a second target having a causal relationship with the first target from the first content explaining the first target. For example, the specific unit 42 refers to the target database 32 and selects one target to be processed as the first target. Then, the specifying unit 42 identifies the content explaining the selected first target from the target database 32, and acquires the specified content from the content database 31. That is, the specific unit 42 acquires a plurality of contents that explain the first object in different languages. Then, the specifying unit 42 identifies a second target having a causal relationship with the first target from each content. That is, the specifying unit 42 specifies a plurality of first contents explaining the first target by using the target database 32 showing the contents explaining the same target in the content database 31, and the specified plurality of first contents. The second target is specified from.

例えば、特定部42は、因果関係表現テーブル34に登録されたキーワード、すなわち、予め設定された因果関係を示すキーワードを用いて、各第1コンテンツから、第1対象と因果関係を有する第2対象を特定する。例えば、特定部42は、形態素解析等の技術を用いて、キーワードの目的語を特定し、特定した目的語が示す対象を第2対象とする。ここで、特定部42は、第1対象と因果関係を有する他の対象を示す領域を特定し、特定した領域に示される他の対象を第2対象として特定してもよい。例えば、特定部42は、第1対象の原因を示すセクションや、第1対象の結果を示すセクションを特定し、特定したセクションにおいて説明されている対象をそれぞれ第2対象として特定してもよい。すなわち、特定部42は、第1コンテンツにおいて、第1対象の原因として説明されている対象を第2対象として特定してもよく、第1コンテンツにおいて、第1対象の結果として説明されている対象を第2対象として特定してもよい。 For example, the specific unit 42 uses a keyword registered in the causal relationship expression table 34, that is, a keyword indicating a preset causal relationship, and a second target having a causal relationship with the first target from each first content. To identify. For example, the specific unit 42 specifies the object of the keyword by using a technique such as morphological analysis, and sets the target indicated by the specified object as the second target. Here, the specifying unit 42 may specify a region indicating another target having a causal relationship with the first target, and may specify another target shown in the specified region as the second target. For example, the specifying unit 42 may specify a section showing the cause of the first target and a section showing the result of the first target, and each of the targets described in the specified section may be specified as the second target. That is, the specific unit 42 may specify the target described as the cause of the first target in the first content as the second target, and the target described as the result of the first target in the first content. May be specified as the second target.

続いて、特定部42は、第2対象を説明する第2コンテンツをコンテンツデータベース31から取得し、第2コンテンツにおいて第2対象と因果関係を有する対象として第1対象が説明されているか否かを判定する。例えば、特定部42は、第1コンテンツにおいて第2対象が第1対象の原因とされている場合、第2コンテンツにおいて第1対象が第2対象の結果とされているか否かを判定する。より具体的には、特定部42は、第2コンテンツにおいて第1対象を示す文字列が、結果を示すキーワードの目的語となってるかを判定する。また、例えば、特定部42は、第1コンテンツにおいて第2対象が第1対象の結果とされている場合、第2コンテンツにおいて第1対象が第2対象の原因とされているか否かを判定する。より具体的には、特定部42は、第2コンテンツにおいて第1対象を示す文字列が、原因を示すキーワードの目的語となってるかを判定する。すなわち、特定部42は、第1コンテンツおよび第2コンテンツにおいて、第1対象と第2対象とが因果関係を有する旨が説明されているか否かを判定する。 Subsequently, the specific unit 42 acquires the second content explaining the second target from the content database 31, and determines whether or not the first target is explained as a target having a causal relationship with the second target in the second content. judge. For example, when the second target is the cause of the first target in the first content, the specific unit 42 determines whether or not the first target is the result of the second target in the second content. More specifically, the specific unit 42 determines whether the character string indicating the first target in the second content is the object of the keyword indicating the result. Further, for example, when the second target is the result of the first target in the first content, the specific unit 42 determines whether or not the first target is the cause of the second target in the second content. .. More specifically, the specific unit 42 determines whether the character string indicating the first target in the second content is the object of the keyword indicating the cause. That is, the specific unit 42 determines whether or not it is explained in the first content and the second content that the first object and the second object have a causal relationship.

そして、特定部42は、第1コンテンツおよび第2コンテンツにおいて、第1対象と第2対象とが因果関係を有する旨が説明されている場合は、第1対象と第2対象とをシード因果関係とする。例えば、特定部42は、第1対象が第2対象の原因である場合は、「第1対象→第2対象」といったシード因果関係を特定する。なお、特定部42は、各言語ごとに、シード因果関係の特定を行う。また、特定部42は、共通する第1対象と、複数の第2対象との間の因果関係を示す複数のシード因果関係の特定を行ってもよい。 Then, when it is explained that the first object and the second object have a causal relationship in the first content and the second content, the specific unit 42 seeds the first object and the second object in a causal relationship. And. For example, when the first target is the cause of the second target, the specific unit 42 specifies a seed causal relationship such as “first target → second target”. The specific unit 42 specifies the seed causal relationship for each language. Further, the specifying unit 42 may specify a plurality of seed causal relationships indicating a causal relationship between the common first object and the plurality of second objects.

また、特定部42は、第1コンテンツからのリンクが設定された他のコンテンツが説明する対象であって、第1対象と因果関係を有する対象を第2対象として特定してもよい。例えば、特定部42は、第1コンテンツおよび第2コンテンツが相互にリンクされている場合に、第1対象と第2対象との組をシード因果関係としてもよい。また、特定部42は、対象を説明するコンテンツの量が所定の条件を満たす言語、すなわち、カバレッジを確保できる言語を用いて、第1対象を説明する複数の第1コンテンツから、第1対象と因果関係を有する第2対象を特定してもよい。 In addition, the specific unit 42 may specify a target that is described by other content to which a link from the first content is set and has a causal relationship with the first target as the second target. For example, the specific unit 42 may use the pair of the first object and the second object as a seed causal relationship when the first content and the second content are linked to each other. Further, the specific unit 42 uses a language in which the amount of content explaining the target satisfies a predetermined condition, that is, a language capable of ensuring coverage, from a plurality of first contents explaining the first target to the first target. A second object having a causal relationship may be specified.

抽出部43は、第1コンテンツから第2対象を示すコンテキストを抽出し、第2コンテンツから第1対象を示すコンテキストを抽出する。例えば、抽出部43は、シード因果関係となる第1対象を説明する第1コンテンツから、第2対象を示す文字列を含む所定の範囲のテキストやマークアップ等を、第2対象を示すコンテキストとして抽出する。また、抽出部43は、シード因果関係となる第2対象を説明する第2コンテンツから、第1対象を示す文字列を含む所定の範囲のテキストやマークアップ等を、第1対象を示すコンテキストとして抽出する。そして、抽出部43は、抽出した各コンテキストを学習データデータベース33に正例として登録する。なお、抽出部43は、第1コンテンツから第2対象のみを示すコンテキストを抽出し、第2コンテンツから第1対象のみを示すコンテキストを抽出してもよい。 The extraction unit 43 extracts the context indicating the second target from the first content, and extracts the context indicating the first target from the second content. For example, the extraction unit 43 sets text, markup, etc. in a predetermined range including a character string indicating the second object as a context indicating the second object from the first content explaining the first object having a seed causal relationship. Extract. Further, the extraction unit 43 sets text, markup, etc. in a predetermined range including a character string indicating the first object as a context indicating the first object from the second content explaining the second object having a seed causal relationship. Extract. Then, the extraction unit 43 registers each extracted context in the learning data database 33 as a positive example. The extraction unit 43 may extract a context indicating only the second object from the first content and extract a context indicating only the first object from the second content.

なお、特定部42および抽出部43は、負例となる学習データの生成を行う。例えば、特定部42は、任意の第3対象および第4対象の組であって、第3対象と因果関係を有する対象以外の対象として第4対象の説明が第3コンテンツに含まれており、第4対象と因果関係を有する対象以外の対象として第3対象の説明が第4コンテンツに含まれている第3対象および第4対象の組を非シード因果関係として特定する。なお、特定部42は、第3コンテンツと第4コンテンツとに相互リンクが設定されている場合に、第3対象および第4対象の組を非シード因果関係として特定してもよい。 The specific unit 42 and the extraction unit 43 generate learning data as a negative example. For example, the specific unit 42 is a set of an arbitrary third object and a fourth object, and the description of the fourth object is included in the third content as an object other than the object having a causal relationship with the third object. A pair of a third object and a fourth object whose description of the third object is included in the fourth content as an object other than the object having a causal relationship with the fourth object is specified as a non-seed causal relationship. The specific unit 42 may specify the pair of the third object and the fourth object as a non-seed causal relationship when the mutual link is set between the third content and the fourth content.

このような場合、抽出部43は、非シード因果関係となる第3対象を説明する第3コンテンツから、第4対象を示す文字列を含む所定の範囲のテキストやマークアップ等を、第4対象を示すコンテキストとして抽出する。また、抽出部43は、非シード因果関係となる第4対象を説明する第4コンテンツから、第3対象を示す文字列を含む所定の範囲のテキストやマークアップ等を、第3対象を示すコンテキストとして抽出する。そして、抽出部43は、抽出したコンテキストの組を負例として学習データデータベース33に登録する。 In such a case, the extraction unit 43 selects a predetermined range of text, markup, etc. including a character string indicating the fourth target from the third content explaining the third target having a non-seed causal relationship. Extract as a context that indicates. Further, the extraction unit 43 extracts text, markup, etc. in a predetermined range including a character string indicating the third object from the fourth content explaining the fourth object having a non-seed causal relationship, in a context indicating the third object. Extract as. Then, the extraction unit 43 registers the extracted context set as a negative example in the learning data database 33.

取得部44は、第1コンテンツに基づく情報と、第2対象を説明する第2コンテンツに基づく情報との組を、因果関係の有無を分類する分類モデルの学習データとして取得する。例えば、取得部44は、学習データデータベース33に登録されたコンテキストの組を学習データとして取得する。 The acquisition unit 44 acquires a set of information based on the first content and information based on the second content explaining the second object as learning data of a classification model for classifying the presence or absence of a causal relationship. For example, the acquisition unit 44 acquires a set of contexts registered in the learning data database 33 as learning data.

例えば、取得部44は、第1対象が第2対象の原因となる場合、第2コンテンツを因果関係の結果を説明するコンテンツとし、第1コンテンツを因果関係の原因を説明するコンテンツとした学習データを学習データとして取得する。また、取得部44は、第1対象が第2対象の結果となる場合、第2コンテンツを因果関係の原因を説明するコンテンツとし、第1コンテンツを因果関係の結果を説明するコンテンツとした学習データを取得する。 For example, when the first target causes the second target, the acquisition unit 44 uses the second content as the content for explaining the result of the causal relationship and the first content as the content for explaining the cause of the causal relationship. Is acquired as training data. Further, when the first target is the result of the second target, the acquisition unit 44 uses the second content as the content for explaining the cause of the causal relationship and the first content as the content for explaining the result of the causal relationship. To get.

ここで、取得部44は、第1コンテンツおよび第2コンテンツに含まれる文字列のうち、因果関係の原因となる対象を示す文字列を原因を示す所定の第1シンボルに変換し、因果関係の結果となる対象を示す文字列を結果を示す所定の第2シンボルに変換した情報を学習データとして取得する。例えば、取得部44は、第1対象が原因であり、第2対象が結果である場合、第2コンテンツから抽出されたコンテキストに含まれる文字列のうち、第1対象を示す文字列を「“原因”」といった原因を示すシンボルに変換し、第1コンテンツから抽出されたコンテキストに含まれる文字列のうち、第2対象を示す文字列を「“結果”」といった原因を示すシンボルに変換してもよい。また、取得部44は、第1対象が結果であり、第2対象が原因である場合、第2コンテンツから抽出されたコンテキストに含まれる文字列のうち、第1対象を示す文字列を「“結果”」といった結果を示すシンボルに変換し、第1コンテンツから抽出されたコンテキストに含まれる文字列のうち、第2対象を示す文字列を「“原因”」といった原因を示すシンボルに変換してもよい。 Here, the acquisition unit 44 converts the character string indicating the target causing the causal relationship from the character strings included in the first content and the second content into a predetermined first symbol indicating the cause, and the causal relationship. The information obtained by converting the character string indicating the target to be the result into a predetermined second symbol indicating the result is acquired as training data. For example, when the first target is the cause and the second target is the result, the acquisition unit 44 sets the character string indicating the first target among the character strings included in the context extracted from the second content as "". Convert to a symbol indicating the cause such as "cause", and convert the character string indicating the second target from the character strings included in the context extracted from the first content to the symbol indicating the cause such as "result". May be good. Further, when the first target is the result and the second target is the cause, the acquisition unit 44 sets the character string indicating the first target among the character strings included in the context extracted from the second content as "". Converted to a symbol indicating the result such as "result", and among the character strings included in the context extracted from the first content, the character string indicating the second target is converted to a symbol indicating the cause such as "cause". May be good.

なお、上述した処理の結果、取得部44は、同一言語のコンテンツから抽出されたコンテキストを学習データとすることとなる。すなわち、取得部44は、言語ごとに、第1コンテンツに基づく情報と、第1コンテンツと同一言語で第2対象を説明する第2コンテンツに基づく情報との組を学習データとして取得することとなる。 As a result of the above-mentioned processing, the acquisition unit 44 uses the context extracted from the contents of the same language as the learning data. That is, the acquisition unit 44 acquires a set of information based on the first content and information based on the second content explaining the second target in the same language as the first content as learning data for each language. ..

なお、取得部44は、シード因果関係に基づく学習データを正例として取得するとともに、第3対象を説明する第3コンテンツに基づく情報と、第3対象と因果関係を有しない第4対象を説明する第4コンテンツに基づく情報との組を負例として取得する。例えば、取得部44は、正例と同数の負例を学習データデータベース33から取得する。 In addition, the acquisition unit 44 acquires the learning data based on the seed causal relationship as a positive example, and explains the information based on the third content explaining the third object and the fourth object having no causal relationship with the third object. The pair with the information based on the fourth content is acquired as a negative example. For example, the acquisition unit 44 acquires the same number of negative examples as the positive examples from the learning data database 33.

学習部45は、取得した学習データが有する特徴をモデルに学習させる。例えば、学習部45は、正例を入力した際に、各対象が因果関係を有する旨の分類結果を出力し、負例を入力した際に、各対象が因果関係を有しない旨の分類結果を出力するように、モデルの学習を行う。 The learning unit 45 causes the model to learn the features of the acquired learning data. For example, the learning unit 45 outputs a classification result indicating that each object has a causal relationship when a positive example is input, and a classification result indicating that each object does not have a causal relationship when a negative example is input. The model is trained so as to output.

なお、学習部45は、各学習データが有する特徴を、学習データの元となるシード因果関係に含まれる対象がコンテンツにおいて出現する順序に応じた優先度で学習してもよい。例えば、特定部42は、第1コンテンツにおいて、第1対象の原因として説明されている複数の対象のうち、第2対象が出現する順序を特定する。そして、学習部45は、第1コンテンツに基づく情報と、第2コンテンツに基づく情報との組が有する特徴を、第1コンテンツにおいて第2対象が出現する順序に応じた優先度で学習してもよい。 The learning unit 45 may learn the features of each learning data with a priority according to the order in which the objects included in the seed causal relationship that is the source of the learning data appear in the content. For example, the specific unit 42 specifies the order in which the second target appears among the plurality of targets described as the cause of the first target in the first content. Then, the learning unit 45 may learn the characteristics of the set of the information based on the first content and the information based on the second content with the priority according to the order in which the second object appears in the first content. Good.

提供部46は、分類結果等の各種情報を提供する。例えば、提供部46は、因果関係を有するか否かの分類対象となる対象の組を端末装置200から受付ける。このような場合、提供部46は、各対象を説明するコンテンツをコンテンツデータベース31から取得し、取得したコンテンツに含まれる各種のコンテキストを学習済の分類モデルに入力する。そして、提供部46は、分類モデルの出力、すなわち、対象が因果関係を有するか否かの分類結果を、端末装置200へと提供する。 The providing unit 46 provides various information such as classification results. For example, the providing unit 46 receives from the terminal device 200 a set of objects to be classified as to whether or not they have a causal relationship. In such a case, the providing unit 46 acquires the content explaining each target from the content database 31, and inputs various contexts included in the acquired content into the trained classification model. Then, the providing unit 46 provides the output of the classification model, that is, the classification result of whether or not the target has a causal relationship, to the terminal device 200.

なお、提供部46は、例えば、各種ナレッジデータベースの作成を行う外部サーバや、モデルの学習を行う学習サーバ等に対し、学習データデータベース33に登録された情報、すなわち、学習データを出力してもよい。 Even if the providing unit 46 outputs the information registered in the learning data database 33, that is, the learning data, to, for example, an external server that creates various knowledge databases, a learning server that trains the model, and the like. Good.

〔3.情報提供装置が実行する処理の流れの一例〕
続いて、図7を用いて、情報提供装置10が実行する処理の流れについて説明する。図7は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。
[3. An example of the flow of processing executed by the information providing device]
Subsequently, the flow of processing executed by the information providing device 10 will be described with reference to FIG. 7. FIG. 7 is a flowchart showing an example of a flow of processing executed by the information providing device according to the embodiment.

まず、情報提供装置10は、コンテンツ等の各種記事から原因または結果を示すキーワードを検出する(ステップS101)。このような場合、情報提供装置10は、第1対象の記事において結果とされる第2対象を特定し、第2対象の記事において第1対象が原因とされている場合は、第1対象と第2対象とをシード因果関係とする(ステップS102)。そして、情報提供装置10は、シード因果関係の第1対象の記事から第2対象のコンテキストを抽出し、第2対象の記事から第1対象のコンテキストを抽出する(ステップS103)。 First, the information providing device 10 detects a keyword indicating a cause or effect from various articles such as contents (step S101). In such a case, the information providing device 10 identifies the second target as a result in the article of the first target, and if the first target is the cause in the article of the second target, it is regarded as the first target. Let the second target have a seed causal relationship (step S102). Then, the information providing device 10 extracts the context of the second target from the article of the first target of the seed causal relationship, and extracts the context of the first target from the article of the second target (step S103).

そして、情報提供装置10は、抽出したコンテキストの組を正例の学習データとする(ステップS104)。また、情報提供装置10は、正例の学習データと同数の不例の学習データを生成する(ステップS105)。そして、情報提供装置10は、生成した学習データを用いて、入力された記事のペアが、因果関係を有する対象の記事のペアであるか否かを分類するモデルを学習し(ステップS106)、処理を終了する。 Then, the information providing device 10 uses the extracted set of contexts as the learning data of a positive example (step S104). Further, the information providing device 10 generates the same number of exceptional learning data as the positive learning data (step S105). Then, the information providing device 10 learns a model for classifying whether or not the input article pair is a pair of target articles having a causal relationship by using the generated learning data (step S106). End the process.

〔5.実験結果について〕
続いて、上述した取得処理および学習処理の効果の一例として、実施に取得処理および学習処理を行った際における分類モデルの精度の一例について説明する。
[5. About experimental results]
Next, as an example of the effects of the acquisition process and the learning process described above, an example of the accuracy of the classification model when the acquisition process and the learning process are performed will be described.

実験においては、ウィキペディアの記事をコンテンツとし、コンテンツから因果関係を示すセクションを特定し、特定したセクションから因果関係を有する対象を特定し、特定した対象とコンテンツが説明する対象のシード因果関係から生成した1524個の学習データを正例とした。また、非シード因果関係から生成した1524個の学習データを負例とした。そして、取得した3048個の学習データを用いて、分類モデルの学習を行った。以下の説明では、このような学習が行われた分類モデルによる分類結果をPROPと記載する。 In the experiment, a Wikipedia article was used as the content, a section showing a causal relationship was identified from the content, a target having a causal relationship was identified from the specified section, and a seed causal relationship between the specified target and the target described by the content was generated. The 1524 training data were used as a positive example. In addition, 1524 training data generated from non-seed causal relationships were taken as negative examples. Then, the classification model was trained using the acquired 3048 training data. In the following description, the classification result by the classification model in which such learning is performed is described as PROP.

また、実験においては、PROPとの比較対象として、SECTION、INFOBOS、RELATED、およびORACLE REといった手法を準備し、各手法におけるアキュラシー(Acc:正確性)、プレシジョン(Prec:適合率)、リコール(Rec:再現率)、および適合率と再現率との調和平均であるF1値を算出した。 In the experiment, methods such as SECTION, INFOBOS, RELATED, and ORACLE RE were prepared as comparison targets with PROP, and accuracy (Acc), precision (Prec), and recall (Prec) in each method were prepared. Rec: recall rate) and the F1 value, which is the harmonic mean of the precision rate and the recall rate, were calculated.

ここで、SECTIONでは、上述した処理により抽出されたシード因果関係を抽出した。そして、抽出したシード因果関係に含まれる各対象が因果関係を有するか否かの正確性、適合率、再現率およびF1値をSECTIONの各値とした。 Here, in SECTION, the seed causal relationship extracted by the above-mentioned treatment was extracted. Then, the accuracy, precision, recall, and F1 value of whether or not each object included in the extracted seed causal relationship had a causal relationship were set as each value of SECTION.

また、INFOBOXでは、ウィキペディアの記事に含まれるインフォボックスから、記事が説明する対象と因果関係を有する他の対象を特定した。そして、記事が説明する対象と特定した対象とが因果関係を有するか否かの正確性、適合率、再現率およびF1値をINFOBOXの各値とした。 In addition, INFOBOX has identified other objects that have a causal relationship with the object described by the article from the infobox included in the Wikipedia article. Then, the accuracy, precision, recall, and F1 value of whether or not the object explained by the article and the specified object have a causal relationship were set as each value of INFOBOX.

また、RELATEDでは、1から以下の式(1)で示されるスコアsr(a,b)減算した値を距離計量として算出し、算出した距離計量が所定の条件を満たす2つの対象を因果関係を有する対象とした。そして、対象が因果関係を有するか否かの正確性、適合率、再現率およびF1値をRELATEDの各値とした。ここで、式(1)におけるaおよびbは、処理対象となる記事を示す。また、Aは、記事aとリンクが設定された全ての記事の集合であり、Bは、記事bとリンクが設定された全ての記事の集合を示す。また、Wは、ウィキペディアに存在する全ての記事を示す。 Further, in RELATED, the value obtained by subtracting the score sr (a, b) represented by the following formula (1) from 1 is calculated as a distance metric, and the calculated distance metric calculates a causal relationship between two objects satisfying a predetermined condition. It was the object to have. Then, the accuracy, precision, recall, and F1 value of whether or not the subject had a causal relationship were set as each value of RELATED. Here, a and b in the formula (1) indicate articles to be processed. Further, A is a set of all articles linked to the article a, and B is a set of all articles linked to the article b. In addition, W indicates all articles existing on Wikipedia.

Figure 0006875457
Figure 0006875457

また、ORACLE REでは、1つのセンテンス内で因果関係を有すると示された2つの対象を因果関係を有する対象とし、対象が因果関係を有するか否かの正確性、適合率、再現率およびF1値をORACLE REの各値とした。 Further, in ORACLE RE, two objects shown to have a causal relationship in one sentence are set as objects having a causal relationship, and the accuracy, precision, recall rate and F1 of whether or not the objects have a causal relationship are set. The value was taken as each value of ORACLE RE.

図8は、実施形態に係る取得処理および学習処理の実験結果の一例を示す第1の図である。図8に示すように、SECTIONの適合率は、100パーセントとなっており、上述したシード因果関係を特定する処理を行うことで、適切な因果関係を自動的に抽出できることが示された。また、図8に示すように、PROPにおいては、最も良いF1値を得ることができた。 FIG. 8 is a first diagram showing an example of experimental results of the acquisition process and the learning process according to the embodiment. As shown in FIG. 8, the conformance rate of SECTION is 100%, and it was shown that an appropriate causal relationship can be automatically extracted by performing the above-mentioned process for specifying the seed causal relationship. Further, as shown in FIG. 8, in PROP, the best F1 value could be obtained.

続いて、多言語性によるカバレッジおよび正確性の変化を比較するため、上述した取得処理および学習処理の対象として、英語、ドイツ語、フランス語、スペイン語の各組み合わせについて実行した。例えば、英語、ドイツ語、フランス語、およびスペイン語の全てを対象としたPROPen,de,fr,es、スペイン語を除いたPROPen,de,fr、フランス語を除いたPROPen,de,es、ドイツ語を除いたPROPen,fr,es、英語とドイツ語のみを対象としたPROPen,de、英語とフランス語のみを対象としたPROPen,fr、英語とスペイン語のみを対象としたPROPen,es、および英語のみを対象としたPROPenのそれぞれについて、正確性、適合率、再現率、およびF1値を算出した。 Subsequently, in order to compare the changes in coverage and accuracy due to multilingualism, each combination of English, German, French, and Spanish was executed as the target of the above-mentioned acquisition process and learning process. For example, English, German, French, and PROP en intended for all of Spanish, de, fr, es, PROP en , except for the Spanish, de, fr, PROP en, except for the French, de, es, PROP en excluding the German, fr, es, English and PROP en intended for the only German, de, English and PROP en that only the target French, fr, English and PROP en intended for the only Spanish Accuracy, precision, recall, and F1 values were calculated for each of the , es , and PROP en for English only.

図9は、実施形態に係る取得処理および学習処理の実験結果の一例を示す第2の図である。なお、図9に示す例では、各手法のF1値に、PROPen,de,fr,es、およびPROPenと統計的に有意な差がある結果にひし形若しくはアスタリスクのマークを付与した。図9に示すように、対象とする言語を変化させた場合、処理対象となる記事の数(換言すると、カバレッジ)が向上するにつれて、分類結果のF1値が向上することが分かった。 FIG. 9 is a second diagram showing an example of experimental results of the acquisition process and the learning process according to the embodiment. In the example shown in FIG. 9, the F1 value of each method was marked with a diamond or an asterisk for the results having a statistically significant difference from PROP en, de, fr, es , and PROP en. As shown in FIG. 9, it was found that when the target language was changed, the F1 value of the classification result improved as the number of articles to be processed (in other words, coverage) increased.

また、PROPにより分類された分類結果から100個のサンプルを抽出し、検証を行った所、多数のサンプルについては、英語等の検証が容易な記事であった。すなわち、上述したPROPによる分類結果は、対応するコンテンツの文章等を参照することで、正しい分類結果であるかを容易に識別することができる。このため、情報提供装置10は、学習データや学習結果となる分類モデルの検証可能性を確保することができる。 In addition, when 100 samples were extracted from the classification results classified by PROP and verified, the articles were easy to verify in English and the like for a large number of samples. That is, it is possible to easily identify whether the above-mentioned classification result by PROP is a correct classification result by referring to the text or the like of the corresponding content. Therefore, the information providing device 10 can ensure the verifiability of the learning data and the classification model that becomes the learning result.

また、PROPにより因果関係を有すると判定された対象のペアは、多くの場合に、1つ以上の言語で記事がウィキペデイア上に作成されていた。このため、情報提供装置10は、分類結果の翻訳可能性を向上させることができる。 In addition, the pair of subjects determined to have a causal relationship by PROP often had articles written on Wikipedia in one or more languages. Therefore, the information providing device 10 can improve the translatability of the classification result.

また、ウィキペディア等、ネットワーク上に存在する各種のコンテンツは、Freebase、BabelNet、ISBN−13、MeSH、DOI、FishBase等、各種のナレッジデータベースと紐付けられている場合がある。PROPにより因果関係を有すると判定された対象のペアの記事のうち、過半数は、何かしら外部のナレッジデータと紐付られていた。このため、情報提供装置10は、学習データや分類モデルと各種ナレッジデータベースの接続性を向上させることができる。 In addition, various contents existing on the network such as Wikipedia may be associated with various knowledge databases such as Freebase, BabelNet, ISBN-13, MeSH, DOI, and FishBase. Of the articles in the pair of subjects determined to have a causal relationship by PROP, the majority were associated with some external knowledge data. Therefore, the information providing device 10 can improve the connectivity between the learning data and the classification model and various knowledge databases.

〔6.変形例〕
上記では、情報提供装置10による処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する処理のバリエーションについて説明する。
[6. Modification example]
In the above, an example of the processing by the information providing apparatus 10 has been described. However, the embodiment is not limited to this. Hereinafter, variations of the processing executed by the information providing device 10 will be described.

〔6−1.装置構成〕
情報提供装置10は、自装置で各種情報を管理せずともよい。例えば、記憶部30に登録された各データベース31〜33や因果関係表現テーブル34は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、図2に示す特定部42、抽出部43、および取得部44を有する取得サーバと、学習部45および提供部46を有する学習サーバとにより実現されてもよい。
[6-1. Device configuration〕
The information providing device 10 does not have to manage various information by its own device. For example, each database 31 to 33 and the causal relationship expression table 34 registered in the storage unit 30 may be stored in an external storage server. Further, the information providing device 10 may be realized by an acquisition server having a specific unit 42, an extraction unit 43, and an acquisition unit 44 shown in FIG. 2 and a learning server having a learning unit 45 and a providing unit 46.

〔6−2.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[6-2. Others]
Further, among the processes described in the above-described embodiment, all or a part of the processes described as being automatically performed can be manually performed, and conversely, the processes described as being manually performed. It is also possible to automatically perform all or part of the above by a known method. In addition, the processing procedure, specific name, and information including various data and parameters shown in the above document and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each figure is not limited to the illustrated information.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. Can be integrated and configured.

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 In addition, the above-described embodiments can be appropriately combined as long as the processing contents do not contradict each other.

〔6−3.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図10に示すような構成のコンピュータ1000によって実現される。図10は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
[6-3. program〕
Further, the information providing device 10 according to the above-described embodiment is realized by, for example, a computer 1000 having a configuration as shown in FIG. FIG. 10 is a diagram showing an example of a hardware configuration. The computer 1000 is connected to the output device 1010 and the input device 1020, and the arithmetic unit 1030, the primary storage device 1040, the secondary storage device 1050, the output IF (Interface) 1060, the input IF 1070, and the network IF 1080 are connected by the bus 1090. Has.

演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。 The arithmetic unit 1030 operates based on a program stored in the primary storage device 1040 or the secondary storage device 1050, a program read from the input device 1020, or the like, and executes various processes. The primary storage device 1040 is a memory device that temporarily stores data used by the arithmetic unit 1030 for various calculations, such as a RAM. Further, the secondary storage device 1050 is a storage device in which data used by the arithmetic unit 1030 for various calculations and various databases are registered, such as a ROM (Read Only Memory), an HDD (Hard Disk Drive), and a flash memory. Is realized by.

出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。 The output IF 1060 is an interface for transmitting information to be output to an output device 1010 that outputs various information such as a monitor and a printer. For example, USB (Universal Serial Bus), DVI (Digital Visual Interface), and the like. It is realized by a connector of a standard such as HDMI (registered trademark) (High Definition Multimedia Interface). Further, the input IF 1070 is an interface for receiving information from various input devices 1020 such as a mouse, a keyboard, a scanner, and the like, and is realized by, for example, USB.

なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。 The input device 1020 includes, for example, an optical recording medium such as a CD (Compact Disc), a DVD (Digital Versatile Disc), or a PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), or a tape. It may be a device that reads information from a medium, a magnetic recording medium, a semiconductor memory, or the like. Further, the input device 1020 may be an external storage medium such as a USB memory.

ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。 The network IF1080 receives data from another device via the network N and sends it to the arithmetic unit 1030, and also transmits the data generated by the arithmetic unit 1030 to the other device via the network N.

演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。 The arithmetic unit 1030 controls the output device 1010 and the input device 1020 via the output IF 1060 and the input IF 1070. For example, the arithmetic unit 1030 loads a program from the input device 1020 or the secondary storage device 1050 onto the primary storage device 1040, and executes the loaded program.

例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。 For example, when the computer 1000 functions as the information providing device 10, the arithmetic unit 1030 of the computer 1000 realizes the function of the control unit 40 by executing the program loaded on the primary storage device 1040.

〔5.効果〕
上述したように、情報提供装置10は、第1対象を説明する第1コンテンツから、第1対象と因果関係を有する第2対象を特定し、第1コンテンツに基づく情報と、第2対象を説明する第2コンテンツに基づく情報との組を、因果関係の有無を分類する分類モデルの学習データとして取得する。このため、情報提供装置10は、因果関係の有無を分類する分類モデルの学習に有用な情報を自動的に取得することができる。
[5. effect〕
As described above, the information providing device 10 identifies the second target having a causal relationship with the first target from the first content explaining the first target, and explains the information based on the first content and the second target. The pair with the information based on the second content is acquired as the training data of the classification model that classifies the presence or absence of the causal relationship. Therefore, the information providing device 10 can automatically acquire information useful for learning a classification model that classifies the presence or absence of a causal relationship.

また、情報提供装置10は、予め設定された因果関係を示すキーワードを用いて、第1コンテンツから、第1対象と因果関係を有する第2対象を特定する。また、情報提供装置10は、第1コンテンツから、第1対象と因果関係を有する他の対象を示す領域を特定し、特定した領域に示される他の対象を第2対象として特定する。例えば、情報提供装置10は、第1コンテンツのうち原因や結果を示すセクションから、第1対象と因果関係を有する可能性が高い対象を第2対象とする。また、情報提供装置10は、第1コンテンツからのリンクが設定された他のコンテンツが説明する対象であって、第1対象と因果関係を有する対象を第2対象として特定する。 In addition, the information providing device 10 identifies a second target having a causal relationship with the first target from the first content by using a preset keyword indicating a causal relationship. Further, the information providing device 10 specifies an area indicating another object having a causal relationship with the first object from the first content, and specifies another object indicated in the specified area as the second object. For example, the information providing device 10 sets a target having a high possibility of having a causal relationship with the first target as a second target from the section showing the cause or effect of the first content. Further, the information providing device 10 specifies a target to be described by another content to which a link from the first content is set and has a causal relationship with the first target as a second target.

上述した各処理の結果、情報提供装置10は、因果関係を有する可能性が高い対象のペアを学習データの元となるペアとして特定することができる。 As a result of each of the above-mentioned processes, the information providing device 10 can identify a pair of objects having a high possibility of having a causal relationship as a pair that is a source of learning data.

また、情報提供装置10は、第1コンテンツから第2対象を示すコンテキストを抽出し、第2コンテンツから第1対象を示すコンテキストを抽出する。そして、情報提供装置10は、抽出されたコンテキストの組を学習データとして取得する。このため、情報提供装置10は、対象を説明するコンテンツから、対象のペアが因果関係を有するか否かを精度良く分類可能な分類モデルの学習を実現できる。 Further, the information providing device 10 extracts a context indicating the second target from the first content, and extracts a context indicating the first target from the second content. Then, the information providing device 10 acquires the extracted set of contexts as learning data. Therefore, the information providing device 10 can realize learning of a classification model capable of accurately classifying whether or not a pair of targets has a causal relationship from the content explaining the target.

また、情報提供装置10は、第1コンテンツにおいて、第1対象の原因として説明されている対象を第2対象として特定し、第2コンテンツを因果関係の原因を説明するコンテンツとし、第1コンテンツを因果関係の結果を説明するコンテンツとした組を学習データとして取得する。また、情報提供装置10は、第1コンテンツにおいて、第1対象の結果として説明されている対象を第2対象として特定し、第2コンテンツを因果関係の結果を説明するコンテンツとし、第1コンテンツを因果関係の原因を説明するコンテンツとした組を学習データとして取得する。このため、情報提供装置10は、対象のペアが因果関係を有するか否かを精度良く分類可能な分類モデルの学習を実現できる。 Further, in the first content, the information providing device 10 identifies the target described as the cause of the first target as the second target, sets the second content as the content explaining the cause of the causal relationship, and sets the first content as the content. Acquire a set of contents that explain the result of the causal relationship as training data. Further, in the first content, the information providing device 10 specifies the target described as the result of the first target as the second target, sets the second content as the content explaining the result of the causal relationship, and sets the first content as the content. Acquire a set of contents that explain the cause of the causal relationship as training data. Therefore, the information providing device 10 can realize the learning of the classification model capable of accurately classifying whether or not the target pair has a causal relationship.

また、情報提供装置10は、第1コンテンツおよび第2コンテンツに含まれる文字列のうち、因果関係の原因となる対象を示す文字列を原因を示す所定の第1シンボルに変換し、因果関係の結果となる対象を示す文字列を結果を示す所定の第2シンボルに変換した情報を学習データとして取得する。この結果、情報提供装置10は、各対象が因果関係を有するか否かを、各対象を説明するコンテキストの表現の特徴に基づいて分類する分類モデルの学習を実現できる。 Further, the information providing device 10 converts the character string indicating the target causing the causal relationship from the character strings included in the first content and the second content into a predetermined first symbol indicating the cause, and the causal relationship is established. The information obtained by converting the character string indicating the target to be the result into a predetermined second symbol indicating the result is acquired as training data. As a result, the information providing device 10 can realize learning of a classification model that classifies whether or not each object has a causal relationship based on the characteristics of the representation of the context that explains each object.

また、情報提供装置10は、それぞれ異なる言語で第1対象を説明する複数の第1コンテンツから、第1対象と因果関係を有する第2対象を特定し、言語ごとに、第1コンテンツに基づく情報と、第1コンテンツと同一言語で第2対象を説明する第2コンテンツに基づく情報との組を学習データとして取得する。また、情報提供装置10は、対象を説明するコンテンツの量が所定の条件を満たす言語で第1対象を説明する複数の第1コンテンツから、第1対象と因果関係を有する第2対象を特定し、言語ごとに、第1コンテンツに基づく情報と、第1コンテンツと同一言語で第2対象を説明する第2コンテンツに基づく情報との組を学習データとして取得する。また、情報提供装置10は、対象をそれぞれ異なる言語で説明する複数のコンテンツが登録された第1データベースにおいて同一の対象を説明するコンテンツを示す第2データベースを用いて、第1対象を説明する複数の第1コンテンツを特定するとともに、特定した複数の第1コンテンツから第2対象を特定する。 Further, the information providing device 10 identifies a second target having a causal relationship with the first target from a plurality of first contents for explaining the first target in different languages, and information based on the first content for each language. And the set of the information based on the second content explaining the second target in the same language as the first content is acquired as learning data. Further, the information providing device 10 identifies a second target having a causal relationship with the first target from a plurality of first contents for explaining the first target in a language in which the amount of content explaining the target satisfies a predetermined condition. For each language, a set of information based on the first content and information based on the second content explaining the second target in the same language as the first content is acquired as learning data. Further, the information providing device 10 uses a second database showing contents for explaining the same target in a first database in which a plurality of contents for explaining the target in different languages are registered to explain the first target. The first content of the above is specified, and the second target is specified from the specified plurality of first contents.

上述した各種の処理により、情報提供装置10は、学習データのカバレッジを改善することができるので、学習データを用いた学習が行われる分類モデルの精度を向上させることができる。 By the various processes described above, the information providing device 10 can improve the coverage of the learning data, so that the accuracy of the classification model in which the learning using the learning data is performed can be improved.

また、情報提供装置10は、学習データが有する特徴をモデルに学習させる。例えば、情報提供装置10は、第1コンテンツに基づく情報と、第2コンテンツに基づく情報との組を正例として取得するとともに、第3対象を説明する第3コンテンツに基づく情報と、第3対象と因果関係を有しない第4対象を説明する第4コンテンツに基づく情報との組を負例として取得し、正例と負例とを用いて、モデルの学習を行う。このため、情報提供装置10は、精度良く対象が因果関係を有するか否かを分類可能な分類モデルの学習を実現できる。 Further, the information providing device 10 causes the model to learn the features of the learning data. For example, the information providing device 10 acquires a set of information based on the first content and information based on the second content as a positive example, and also obtains information based on the third content for explaining the third target and a third target. A set of information based on the fourth content explaining the fourth object having no causal relationship is acquired as a negative example, and the model is trained using the positive example and the negative example. Therefore, the information providing device 10 can realize learning of a classification model capable of classifying whether or not an object has a causal relationship with high accuracy.

また、情報提供装置10は、第1コンテンツにおいて、第1対象の原因として説明されている複数の対象のうち、第2対象が出現する順序を特定し、第1コンテンツに基づく情報と、第2コンテンツに基づく情報との組が有する特徴を、第1コンテンツにおいて第2対象が出現する順序に応じた優先度で学習する。このため、情報提供装置10は、分類モデルの分類精度を向上させることができる。 Further, the information providing device 10 specifies the order in which the second target appears among the plurality of targets described as the cause of the first target in the first content, and the information based on the first content and the second target. The characteristics of the set with the information based on the content are learned with the priority according to the order in which the second object appears in the first content. Therefore, the information providing device 10 can improve the classification accuracy of the classification model.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 Although some of the embodiments of the present application have been described in detail with reference to the drawings, these are examples, and various modifications are made based on the knowledge of those skilled in the art, including the embodiments described in the disclosure column of the invention. It is possible to practice the present invention in other improved forms.

また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、付与部は、特定手段や特定回路に読み替えることができる。 Further, the above-mentioned "section, module, unit" can be read as "means" or "circuit". For example, the imparting unit can be read as a specific means or a specific circuit.

10 情報提供装置
20 通信部
30 記憶部
31 コンテンツデータベース
32 対象データベース
33 学習データデータベース
34 因果関係表現テーブル
40 制御部
41 収集部
42 特定部
43 抽出部
44 取得部
45 学習部
46 提供部
100 データサーバ
200 端末装置
10 Information provider 20 Communication unit 30 Storage unit 31 Content database 32 Target database 33 Learning data database 34 Causal relationship expression table 40 Control unit 41 Collection unit 42 Specific unit 43 Extraction unit 44 Acquisition unit 45 Learning unit 46 Providing unit 100 Data server 200 Terminal device

Claims (16)

第1対象を説明する第1コンテンツから、第1対象と因果関係を有する第2対象を特定する特定部と、
前記第1コンテンツに基づく情報と、前記第2対象を説明する第2コンテンツに基づく情報との組を、因果関係の有無を分類する分類モデルの学習データとして取得する取得部と
を有することを特徴とする取得装置。
From the first content explaining the first target, a specific part that identifies the second target having a causal relationship with the first target, and
It is characterized by having an acquisition unit that acquires a set of information based on the first content and information based on the second content explaining the second object as training data of a classification model for classifying the presence or absence of a causal relationship. Acquisition device.
前記特定部は、予め設定された因果関係を示すキーワードを用いて、前記第1コンテンツから、前記第1対象と因果関係を有する第2対象を特定する
ことを特徴とする請求項1に記載の取得装置。
The first aspect of claim 1, wherein the specific unit identifies a second object having a causal relationship with the first object from the first content by using a preset keyword indicating a causal relationship. Acquisition device.
前記特定部は、前記第1コンテンツから、前記第1対象と因果関係を有する他の対象を示す領域を特定し、特定した領域に示される他の対象を前記第2対象として特定する
ことを特徴とする請求項1または2に記載の取得装置。
The specific unit is characterized in that a region indicating another target having a causal relationship with the first target is specified from the first content, and another target shown in the specified region is specified as the second target. The acquisition device according to claim 1 or 2.
前記特定部は、前記第1コンテンツからのリンクが設定された他のコンテンツが説明する対象であって、前記第1対象と因果関係を有する対象を前記第2対象として特定する
ことを特徴とする請求項1〜3のうちいずれか1つに記載の取得装置。
The specific unit is characterized in that an object described by another content to which a link from the first content is set and having a causal relationship with the first object is specified as the second object. The acquisition device according to any one of claims 1 to 3.
前記第1コンテンツから前記第2対象を示すコンテキストを抽出し、前記第2コンテンツから前記第1対象を示すコンテキストを抽出する抽出部
を有し、
前記取得部は、前記抽出部により抽出されたコンテキストの組を前記学習データとして取得する
ことを特徴とする請求項1〜4のうちいずれか1つに記載の取得装置。
It has an extraction unit that extracts a context indicating the second object from the first content and extracts a context indicating the first object from the second content.
The acquisition device according to any one of claims 1 to 4, wherein the acquisition unit acquires a set of contexts extracted by the extraction unit as the learning data.
前記特定部は、前記第1コンテンツにおいて、前記第1対象の原因として説明されている対象を前記第2対象として特定し、
前記取得部は、前記第2コンテンツを因果関係の原因を説明するコンテンツとし、前記第1コンテンツを因果関係の結果を説明するコンテンツとした前記組を前記学習データとして取得する
ことを特徴とする請求項1〜5のうちいずれか1つに記載の取得装置。
In the first content, the specific unit identifies the target described as the cause of the first target as the second target.
The acquisition unit is characterized in that the acquisition unit acquires the set in which the second content is the content explaining the cause of the causal relationship and the first content is the content explaining the result of the causal relationship as the learning data. Item 4. The acquisition device according to any one of Items 1 to 5.
前記特定部は、前記第1コンテンツにおいて、前記第1対象の結果として説明されている対象を前記第2対象として特定し、
前記取得部は、前記第2コンテンツを因果関係の結果を説明するコンテンツとし、前記第1コンテンツを因果関係の原因を説明するコンテンツとした前記組を前記学習データとして取得する
ことを特徴とする請求項1〜5のうちいずれか1つに記載の取得装置。
In the first content, the specific unit identifies the target described as the result of the first target as the second target.
The acquisition unit is characterized in that the acquisition unit acquires the set in which the second content is the content explaining the result of the causal relationship and the first content is the content explaining the cause of the causal relationship as the learning data. Item 4. The acquisition device according to any one of Items 1 to 5.
前記取得部は、前記第1コンテンツおよび前記第2コンテンツに含まれる文字列のうち、因果関係の原因となる対象を示す文字列を原因を示す所定の第1シンボルに変換し、因果関係の結果となる対象を示す文字列を結果を示す所定の第2シンボルに変換した情報を前記学習データとして取得する。
ことを特徴とする請求項6または7に記載の取得装置。
Among the character strings included in the first content and the second content, the acquisition unit converts the character string indicating the target causing the causal relationship into a predetermined first symbol indicating the cause, and the result of the causal relationship. The information obtained by converting the character string indicating the target to be a predetermined second symbol indicating the result into the training data is acquired.
The acquisition device according to claim 6 or 7.
前記特定部は、それぞれ異なる言語で前記第1対象を説明する複数の第1コンテンツから、前記第1対象と因果関係を有する第2対象を特定し、
前記取得部は、前記言語ごとに、前記第1コンテンツに基づく情報と、当該第1コンテンツと同一言語で前記第2対象を説明する第2コンテンツに基づく情報との組を前記学習データとして取得する
ことを特徴とする請求項1〜8のうちいずれか1つに記載の取得装置。
The specific unit identifies a second object having a causal relationship with the first object from a plurality of first contents for explaining the first object in different languages.
The acquisition unit acquires a set of information based on the first content and information based on the second content explaining the second target in the same language as the first content as the learning data for each language. The acquisition device according to any one of claims 1 to 8, wherein the acquisition device is characterized by the above.
前記特定部は、対象を説明するコンテンツの量が所定の条件を満たす言語で前記第1対象を説明する複数の第1コンテンツから、前記第1対象と因果関係を有する第2対象を特定し、
前記取得部は、前記言語ごとに、前記第1コンテンツに基づく情報と、当該第1コンテンツと同一言語で前記第2対象を説明する第2コンテンツに基づく情報との組を前記学習データとして取得する
ことを特徴とする請求項9に記載の取得装置。
The specific unit identifies a second object having a causal relationship with the first object from a plurality of first contents explaining the first object in a language in which the amount of content explaining the object satisfies a predetermined condition.
The acquisition unit acquires a set of information based on the first content and information based on the second content explaining the second target in the same language as the first content as the learning data for each language. The acquisition device according to claim 9, wherein the acquisition device is characterized by the above.
前記特定部は、対象をそれぞれ異なる言語で説明する複数のコンテンツが登録された第1データベースにおいて同一の対象を説明するコンテンツを示す第2データベースを用いて、前記第1対象を説明する複数の第1コンテンツを特定するとともに、特定した複数の第1コンテンツから前記第2対象を特定する
ことを特徴とする請求項9または10に記載の取得装置。
The specific unit describes the first object by using a second database showing the contents explaining the same object in the first database in which a plurality of contents explaining the object in different languages are registered. The acquisition device according to claim 9 or 10, wherein one content is specified and the second target is specified from a plurality of specified first contents.
前記取得部が取得した学習データが有する特徴をモデルに学習させる学習部
を有することを特徴とする請求項1〜11のうちいずれか1つに記載の取得装置。
The acquisition device according to any one of claims 1 to 11, wherein the acquisition unit has a learning unit that allows a model to learn the characteristics of the learning data acquired by the acquisition unit.
前記取得部は、前記第1コンテンツに基づく情報と、前記第2コンテンツに基づく情報との組を正例として取得するとともに、第3対象を説明する第3コンテンツに基づく情報と、当該第3対象と因果関係を有しない第4対象を説明する第4コンテンツに基づく情報との組を負例として取得し、
前記学習部は、前記正例と前記負例とを用いて、前記モデルの学習を行う
ことを特徴とする請求項12に記載の取得装置。
The acquisition unit acquires a set of information based on the first content and information based on the second content as a positive example, and also obtains information based on the third content explaining the third target and the third target. And the set with the information based on the 4th content explaining the 4th object having no causal relationship is acquired as a negative example.
The acquisition device according to claim 12, wherein the learning unit learns the model by using the positive example and the negative example.
前記特定部は、前記第1コンテンツにおいて、前記第1対象の原因として説明されている複数の対象のうち、前記第2対象が出現する順序を特定し、
前記学習部は、前記第1コンテンツに基づく情報と、前記第2コンテンツに基づく情報との組が有する特徴を、前記第1コンテンツにおいて前記第2対象が出現する順序に応じた優先度で学習する
ことを特徴とする請求項12または13に記載の取得装置。
In the first content, the specific unit specifies the order in which the second target appears among the plurality of targets described as the cause of the first target.
The learning unit learns the characteristics of the set of the information based on the first content and the information based on the second content with priority according to the order in which the second object appears in the first content. The acquisition device according to claim 12 or 13.
取得装置が実行する取得方法であって、
第1対象を説明する第1コンテンツから、第1対象と因果関係を有する第2対象を特定する特定工程と、
前記第1コンテンツに基づく情報と、前記第2対象を説明する第2コンテンツに基づく情報との組を、因果関係の有無を分類する分類モデルの学習データとして取得する取得工程と
を含むことを特徴とする取得方法。
This is the acquisition method executed by the acquisition device.
A specific process for identifying a second target having a causal relationship with the first target from the first content explaining the first target, and
It is characterized by including an acquisition step of acquiring a set of information based on the first content and information based on the second content explaining the second object as training data of a classification model for classifying the presence or absence of a causal relationship. How to get it.
第1対象を説明する第1コンテンツから、第1対象と因果関係を有する第2対象を特定する特定手順と、
前記第1コンテンツに基づく情報と、前記第2対象を説明する第2コンテンツに基づく情報との組を、因果関係の有無を分類する分類モデルの学習データとして取得する手順と
をコンピュータに実行させるための取得プログラム。
A specific procedure for identifying a second target having a causal relationship with the first target from the first content explaining the first target, and
To make a computer execute a procedure of acquiring a set of information based on the first content and information based on the second content explaining the second object as training data of a classification model for classifying the presence or absence of a causal relationship. Acquisition program.
JP2019113053A 2019-06-18 2019-06-18 Acquisition device, acquisition method, and acquisition program Active JP6875457B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019113053A JP6875457B2 (en) 2019-06-18 2019-06-18 Acquisition device, acquisition method, and acquisition program
JP2021072551A JP7292324B2 (en) 2019-06-18 2021-04-22 Acquisition device, acquisition method, and acquisition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019113053A JP6875457B2 (en) 2019-06-18 2019-06-18 Acquisition device, acquisition method, and acquisition program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021072551A Division JP7292324B2 (en) 2019-06-18 2021-04-22 Acquisition device, acquisition method, and acquisition program

Publications (2)

Publication Number Publication Date
JP2020204966A JP2020204966A (en) 2020-12-24
JP6875457B2 true JP6875457B2 (en) 2021-05-26

Family

ID=73837080

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019113053A Active JP6875457B2 (en) 2019-06-18 2019-06-18 Acquisition device, acquisition method, and acquisition program
JP2021072551A Active JP7292324B2 (en) 2019-06-18 2021-04-22 Acquisition device, acquisition method, and acquisition program

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021072551A Active JP7292324B2 (en) 2019-06-18 2021-04-22 Acquisition device, acquisition method, and acquisition program

Country Status (1)

Country Link
JP (2) JP6875457B2 (en)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219947A (en) 2006-02-17 2007-08-30 Nippon Hoso Kyokai <Nhk> Causal relation knowledge extraction device and program
JP5682448B2 (en) 2011-05-20 2015-03-11 日本電気株式会社 Causal word pair extraction device, causal word pair extraction method, and causal word pair extraction program
WO2014017023A1 (en) 2012-07-26 2014-01-30 日本電気株式会社 Cause expression extraction device, cause expression extraction method, and cause expression extraction program
JP6150282B2 (en) 2013-06-27 2017-06-21 国立研究開発法人情報通信研究機構 Non-factoid question answering system and computer program
JP6767042B2 (en) * 2016-09-26 2020-10-14 国立研究開発法人情報通信研究機構 Scenario passage classifier, scenario classifier, and computer programs for it
JP6721179B2 (en) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 Causal relationship recognition device and computer program therefor
JP6713136B2 (en) 2017-11-06 2020-06-24 昭和電工株式会社 Causal sentence analysis device, causal sentence analysis system, program, and causal sentence analysis method

Also Published As

Publication number Publication date
JP7292324B2 (en) 2023-06-16
JP2020204966A (en) 2020-12-24
JP2021108212A (en) 2021-07-29

Similar Documents

Publication Publication Date Title
US11868733B2 (en) Creating a knowledge graph based on text-based knowledge corpora
US20170308523A1 (en) A method and system for sentiment classification and emotion classification
US20200065220A1 (en) Detecting software build errors using machine learning
JP6753115B2 (en) Content management device, content management method and program
KR101660106B1 (en) Customized Tourism Content Recommendation System and Method based on Unstructured Data Crawling and Standardization
KR102064292B1 (en) Method and Apparatus for Recommending Personalized Social Network Service Content
US11830099B2 (en) Machine learning modeling for protection against online disclosure of sensitive data
Joorabchi et al. Text mining stackoverflow: An insight into challenges and subject-related difficulties faced by computer science learners
WO2019200705A1 (en) Method and apparatus for automatically generating cloze test
Úbeda et al. Detecting anorexia in Spanish tweets
Zhang et al. The evolution and disparities of online attitudes toward COVID-19 vaccines: year-long longitudinal and cross-sectional study
Chaudhuri et al. A computational model for subjective evaluation of novelty in descriptive aptitude
JP7041299B1 (en) Information processing equipment, information processing methods and information processing programs
Krishnan et al. Machine learning based sentiment analysis of coronavirus disease related twitter data
KR102126911B1 (en) Key player detection method in social media using KeyplayerRank
Casilio et al. ParAlg: A paraphasia algorithm for multinomial classification of picture naming errors
Fernandes et al. Automated disaster news collection classification and geoparsing
JP6875457B2 (en) Acquisition device, acquisition method, and acquisition program
KR102206742B1 (en) Method and apparatus for representing lexical knowledge graph from natural language text
US10387472B2 (en) Expert stance classification using computerized text analytics
JP6457986B2 (en) Message classification system, message classification method and program
JP2022088540A (en) Method for generating user interest image, device, electronic apparatus and storage medium
JP7057229B2 (en) Evaluation device, evaluation method and evaluation program
JP6526607B2 (en) Learning apparatus, learning method, and learning program
CN110413899A (en) The storage resource optimization method and system of server storage news

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210422

R150 Certificate of patent or registration of utility model

Ref document number: 6875457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE

Ref document number: 6875457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250