JP7273888B2 - Decision device, decision method and decision program - Google Patents

Decision device, decision method and decision program Download PDF

Info

Publication number
JP7273888B2
JP7273888B2 JP2021078771A JP2021078771A JP7273888B2 JP 7273888 B2 JP7273888 B2 JP 7273888B2 JP 2021078771 A JP2021078771 A JP 2021078771A JP 2021078771 A JP2021078771 A JP 2021078771A JP 7273888 B2 JP7273888 B2 JP 7273888B2
Authority
JP
Japan
Prior art keywords
information
target
triple
candidates
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021078771A
Other languages
Japanese (ja)
Other versions
JP2021152905A (en
Inventor
朋哉 山崎
拓也 真壁
賢太郎 西
智浩 西本
宏希 岩澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2021078771A priority Critical patent/JP7273888B2/en
Publication of JP2021152905A publication Critical patent/JP2021152905A/en
Application granted granted Critical
Publication of JP7273888B2 publication Critical patent/JP7273888B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、決定装置、決定方法、および決定プログラムに関する。 The present invention relates to a determination device, a determination method, and a determination program.

従来、人物や事象等の概念をエンティティとし、エンティティ間の関係性を構造化したナレッジベースと呼ばれる技術が知られている。また、このようなナレッジデータベースを効率的に作成するため、エンティティのクラスタリングを行い、クラスタリングの結果に基づいて、エンティティ間の関係性を更新する技術が知られている。 Conventionally, there is known a technique called a knowledge base in which concepts such as people and events are treated as entities and relationships between the entities are structured. Also, in order to efficiently create such a knowledge database, there is known a technique of clustering entities and updating relationships between entities based on the clustering results.

特許第6088091号公報Japanese Patent No. 6088091

”On Emerging Entity Detection” Michael Farber, Achim Rettinger, Boulos El Asmar“On Emerging Entity Detection” Michael Farber, Achim Rettinger, Boulos El Asmar

しかしながら、上述した技術では、有用なナレッジデータベースを提供しているとは言えない場合があった。 However, there are cases where it cannot be said that the above-described technology provides a useful knowledge database.

例えば、ナレッジデータベースにエンティティを登録する手法として、インターネット等のネットワーク上に投稿されたコンテンツから新たなエンティティと、エンティティ間の関係性を抽出し、抽出したエンティティと関係性とを登録する手法が考えられる。しかしながら、ネットワーク上のコンテンツを用いた場合、エンティティ間の関連性として誤った情報を登録してしまう恐れがある。 For example, as a method of registering entities in a knowledge database, a method of extracting new entities and relationships between entities from content posted on a network such as the Internet and registering the extracted entities and relationships can be considered. be done. However, when content on a network is used, there is a risk of registering incorrect information as relationships between entities.

本願は、上記に鑑みてなされたものであって、有用なナレッジデータベースを提供することを目的とする。 The present application has been made in view of the above, and an object thereof is to provide a useful knowledge database.

本願に係る決定装置は、コンテンツから、所定の関係性を有する第1対象と第2対象とを所定のデータベースに対する登録対象の候補として取得する取得部と、前記候補の取得元となるコンテンツに関する情報に基づいて、前記候補のうち登録対象とする候補を決定する決定部とを有することを特徴とする。 A determination device according to the present application includes an acquisition unit that acquires, from content, a first target and a second target that have a predetermined relationship as candidates for registration in a predetermined database, and information about the content from which the candidates are obtained. and a determination unit that determines a candidate to be registered among the candidates based on the above.

実施形態の一態様によれば、有用なナレッジデータベースを生成することができる。 According to one aspect of an embodiment, a useful knowledge database can be generated.

図1は、実施形態に係る情報提供装置が実行する決定処理の一例を示す図である。FIG. 1 is a diagram illustrating an example of determination processing performed by an information providing device according to an embodiment. 図2は、実施形態にかかる情報提供装置が実行する検索処理の一例を示す図である。FIG. 2 is a diagram illustrating an example of search processing performed by the information providing apparatus according to the embodiment; 図3は、実施形態に係る情報提供装置が実行する処理の流れの一例を説明する図である。FIG. 3 is a diagram illustrating an example of the flow of processing executed by the information providing device according to the embodiment; 図4は、実施形態に係る情報提供装置の構成例を示す図である。FIG. 4 is a diagram illustrating a configuration example of an information providing apparatus according to the embodiment; 図5は、実施形態に係るエンティティデータベースに登録される情報の一例を示す図である。FIG. 5 is a diagram illustrating an example of information registered in an entity database according to the embodiment; 図6は、実施形態に係るトリプルデータベースに登録される情報の一例を示す図である。FIG. 6 is a diagram illustrating an example of information registered in a triple database according to the embodiment; 図7は、実施形態に係る信頼度テーブルに登録される情報の一例を示す図である。FIG. 7 is a diagram illustrating an example of information registered in a reliability table according to the embodiment; 図8は、実施形態に係る情報提供装置が実行する決定処理の流れの一例を示すフローチャートである。FIG. 8 is a flowchart showing an example of the flow of determination processing executed by the information providing device according to the embodiment. 図9は、実施形態に係る情報提供装置が実行する検索処理の流れの一例を示すフローチャートである。FIG. 9 is a flowchart illustrating an example of the flow of search processing executed by the information providing device according to the embodiment. 図10は、ハードウェア構成の一例を示す図である。FIG. 10 is a diagram illustrating an example of a hardware configuration;

以下に、本願に係る決定装置、決定方法、および決定プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る決定装置、決定方法、および決定プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Embodiments for carrying out the determining device, determining method, and determining program according to the present application (hereinafter referred to as "embodiments") will be described in detail below with reference to the drawings. Note that the determination device, determination method, and determination program according to the present application are not limited to this embodiment. Further, each embodiment can be appropriately combined within a range that does not contradict the processing contents. Also, in each of the following embodiments, the same parts are denoted by the same reference numerals, and overlapping descriptions are omitted.

〔1.情報提供装置について〕
まず、図1を用いて、決定装置の一例である情報提供装置10が実行する処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する決定処理の一例を示す図である。図1では、情報提供装置10が実行する処理として、知識を体系化、組織化した情報が登録されるナレッジデータベースに登録する新たなトリプルを決定する決定処理の一例について説明する。
[1. About the information providing device]
First, with reference to FIG. 1, an example of processing executed by an information providing device 10, which is an example of a determining device, will be described. FIG. 1 is a diagram illustrating an example of determination processing performed by an information providing device according to an embodiment. With reference to FIG. 1, an example of determination processing for determining new triples to be registered in a knowledge database in which knowledge systemized and organized information is registered will be described as processing executed by the information providing apparatus 10 .

〔1-1.情報提供装置の概要〕
情報提供装置10は、インターネット等の所定のネットワークN(例えば、図4を参照。)を介して、データサーバ100および端末装置200と通信可能な情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。なお、情報提供装置10は、ネットワークNを介して、任意の数のデータサーバ100や端末装置200と通信可能であってよい。
[1-1. Overview of Information Providing Device]
The information providing device 10 is an information processing device capable of communicating with the data server 100 and the terminal device 200 via a predetermined network N such as the Internet (see FIG. 4, for example). etc. Note that the information providing device 10 may be capable of communicating with any number of data servers 100 and terminal devices 200 via the network N. FIG.

データサーバ100は、各種の情報を管理する情報処理装置であり、例えば、サーバ装置やクラウドシステムにより実現される。例えば、データサーバ100は、予め情報間の関係性が構造として定義され、このような構造を有するデータが登録されたウィキデータや既に構築済みのナレッジデータベース等の構造化データが登録されている。また、データサーバ100は、HTML(Hyper Text Markup Language)やXML(Extensible Markup Language)等のタグ言語等を用いて、各種のデータに対して属性を示す情報が付与された半構造化データが登録されている。 The data server 100 is an information processing device that manages various types of information, and is realized by, for example, a server device or a cloud system. For example, the data server 100 stores structured data such as Wikidata in which data having such a structure is registered, and structured data such as an already constructed knowledge database, in which the relationship between information is defined as a structure in advance. In addition, the data server 100 registers semi-structured data in which information indicating attributes is added to various data using tag languages such as HTML (Hyper Text Markup Language) and XML (Extensible Markup Language). It is

なお、データサーバ100は、任意の内容の情報を含む構造化データや半構造化データを管理していてよい。例えば、データサーバ100は、ウェブ検索、路線検索、電子商店街における取引対象の検索、地図検索、コンテンツ検索等、任意の検索における検索クエリのログ等を含むデータを管理してもよい。また、例えば、データサーバ100は、ウェブサイト上に投稿されたニュース、ブログ、SNS(Social Networking Service)等を管理していてもよい。また、データサーバ100は、人物、物体、建築物、コンテンツ、事象等、各種の対象を説明する説明コンテンツの管理を行っていてもよい。また、例えば、データサーバ100は、ウィキペディア(登録商標)やインターネットを介した辞書サービス等、ナレッジデータベースにおいてエンティティの対象となりえる各種の対象を説明するコンテンツである説明コンテンツの管理を行っていてもよい。 Note that the data server 100 may manage structured data or semi-structured data containing information of arbitrary content. For example, the data server 100 may manage data including search query logs and the like in arbitrary searches such as web searches, route searches, searches for transaction targets in electronic shopping malls, map searches, content searches, and the like. Further, for example, the data server 100 may manage news, blogs, SNSs (Social Networking Services), etc. posted on websites. The data server 100 may also manage explanatory content that explains various objects such as people, objects, buildings, content, and events. Further, for example, the data server 100 may manage explanatory content, which is content explaining various objects that can be objects of entities in a knowledge database such as Wikipedia (registered trademark) or a dictionary service via the Internet. .

端末装置200は、利用者が利用する端末装置であり、例えば、PC(Personal Computer)やサーバ装置、各種のスマートデバイス等により実現される。例えば、端末装置200は、利用者から各種の情報の入力を受付けると、情報提供装置10と通信を行い、通信結果となる情報を出力する機能を有する。 The terminal device 200 is a terminal device used by a user, and is realized by, for example, a PC (Personal Computer), a server device, various smart devices, and the like. For example, the terminal device 200 has a function of communicating with the information providing device 10 and outputting information as a communication result upon receiving various types of information input from the user.

このような構成の元、例えば、情報提供装置10は、端末装置200からの要求に基づいて、ナレッジデータベースに登録された各種情報の提供を行う。例えば、端末装置200は、ナレッジデータベースの検索を行う際の検索クエリを情報提供装置10に送信する。このような場合、情報提供装置10は、検索クエリと対応する情報をナレッジデータベースから検索し、検索結果を利用者端末へと提供する。 Based on such a configuration, for example, the information providing device 10 provides various information registered in the knowledge database based on a request from the terminal device 200 . For example, the terminal device 200 transmits a search query for searching the knowledge database to the information providing device 10 . In such a case, the information providing device 10 searches the knowledge database for information corresponding to the search query, and provides the search result to the user terminal.

〔1-2.ナレッジデータベースの概要〕
ここで、情報提供装置10が検索するナレッジデータベースについて説明する。ナレッジデータベースには、各種の知識が体系化、組織化された状態で登録されている。例えば、ナレッジデータベースには、登録される2つのエンティティと、エンティティが示す対象間の関係性を示す情報(以下、「関係情報」と記載する。)との組であるトリプルが登録されている。
[1-2. Overview of Knowledge Database]
Here, the knowledge database searched by the information providing apparatus 10 will be described. In the knowledge database, various types of knowledge are registered in a systematized and organized state. For example, the knowledge database registers triples, which are sets of two registered entities and information indicating the relationship between objects indicated by the entities (hereinafter referred to as "relational information").

ここで、エンティティは、実世界における人物、物体、建築物等の主語となりうる各種の物、職業や国籍等といった属性、各種の状態や事象等、世の中における各種の物事に対応する情報である。なお、以下の説明では、エンティティに対応する各種の物事を「対象」と記載する場合がある。 Here, an entity is information corresponding to various things in the world, such as various things that can be subjects such as people, objects, and buildings in the real world, attributes such as occupation and nationality, and various states and events. In the following description, various things corresponding to entities may be referred to as "objects".

また、関係情報は、2つのエンティティ間の関係性を示す情報である。より具体的には、関係情報は、第1エンティティが示す第1対象と、第2エンティティが示す第2対象との間の関係性を示す情報である。例えば、情報提供装置10は、第1対象が人物であり、第2対象が書籍であり、第1対象が第2対象の著者である場合は、関係情報として「著者」や「auther」といった情報の登録を受付けることとなる。 Relationship information is information indicating the relationship between two entities. More specifically, the relationship information is information indicating the relationship between the first object indicated by the first entity and the second object indicated by the second entity. For example, when the first target is a person, the second target is a book, and the first target is the author of the second target, the information providing apparatus 10 uses information such as "author" and "author" as the relational information. registration will be accepted.

なお、情報提供装置10が有するナレッジデータベースにおけるエンティティは、任意の物事や事象と対応していてよい。例えば、情報提供装置10は、第1対象と第2対象が人物であり、第1対象が第2対象の親や伴侶であるといったトリプルを管理していてもよい。また、情報提供装置10は、第1対象と第2対象とが食品であり、第1対象が第2対象の材料であるといったトリプルを管理してもよい。すなわち、情報提供装置10は、任意の対象間における任意の関係性を示すトリプルを管理することで、対象間の関連性や事象を示す情報、すなわち、知識ベースを管理することとなる。 An entity in the knowledge database of the information providing device 10 may correspond to any thing or event. For example, the information providing apparatus 10 may manage triples such that the first and second targets are persons, and the first target is the parent or spouse of the second target. Further, the information providing apparatus 10 may manage triples such that the first and second objects are foods, and the first object is ingredients for the second object. That is, the information providing apparatus 10 manages triples indicating arbitrary relationships between arbitrary objects, thereby managing information indicating relationships and events between objects, that is, a knowledge base.

〔1-3.決定処理について〕
ここで、ナレッジデータベースに新たなトリプルを登録する処理を考える。このようなナレッジデータベースに新たなトリプルを登録するには、各対象を示す文字列のみならず、対象が他の対象とどのような関係を有するかを示す関係情報が必要となる。このようなトリプルを効率よくナレッジデータベースに追加するため、ニュース記事等、インターネット上に投稿されたコンテンツからトリプルを抽出するといった手法が考えられる。しかしながら、このようなインターネット上に投稿されたコンテンツには、誤った情報も含まれるため、必ずしも正しいトリプルを抽出することができるとは言えない場合がある。
[1-3. About decision processing]
Now consider the process of registering a new triple in the knowledge database. Registering a new triple in such a knowledge database requires not only a character string indicating each target, but also relationship information indicating what kind of relationship the target has with other targets. In order to efficiently add such triples to the knowledge database, a method of extracting triples from content posted on the Internet, such as news articles, is conceivable. However, since such content posted on the Internet includes incorrect information, it may not always be possible to extract correct triples.

そこで、情報提供装置10は、以下の決定処理を実行する。まず、情報提供装置10は、ネットワーク上のコンテンツから、第1対象と第2対象と対象間の関係を示す関係情報とを含むトリプルの候補を取得する。続いて、情報提供装置10は、取得された候補に対し、候補の取得元となるコンテンツと対応する取得元情報を紐付ける。そして、情報提供装置10は、各候補に対して紐付られた取得元情報に基づいて、候補の中から登録対象とするトリプルを決定する。 Therefore, the information providing device 10 executes the following decision processing. First, the information providing apparatus 10 acquires triple candidates including a first target, a second target, and relationship information indicating the relationship between the targets from content on the network. Subsequently, the information providing apparatus 10 associates the acquired candidate with the acquisition source information corresponding to the content from which the candidate is acquired. Then, the information providing apparatus 10 determines triples to be registered from among the candidates based on the acquisition source information associated with each candidate.

例えば、ウィキペディア等、複数の利用者によって内容の正確性が検証されるドメインのコンテンツから抽出されるトリプルは、個人のブログやSNS等のドメインに投稿されたコンテンツから抽出したトリプルよりも正確性が高いと推定される。そこで、情報提供装置10は、各トリプルの候補の取得元となる取得元情報を各トリプルの候補に紐付けておく。そして、情報提供装置10は、あるトリプルの候補に紐付られた取得元情報が信頼できる取得元を示す場合は、かかるトリプルの候補を登録対象とする。 For example, triples extracted from domain content whose accuracy is verified by multiple users, such as Wikipedia, are more accurate than triples extracted from content posted on domains such as personal blogs and SNS. estimated to be high. Therefore, the information providing apparatus 10 links acquisition source information, which is the acquisition source of each triple candidate, to each triple candidate. Then, when the acquisition source information associated with a certain triple candidate indicates a reliable acquisition source, the information providing apparatus 10 registers the triple candidate.

ここで、個人のブログやSNS等に投稿されたコンテンツから抽出したトリプルであっても、多くのコンテンツに同一内容のトリプル、すなわち、同一の対象間における同一の関係性を示すトリプルが含まれる場合、かかるトリプルは、正しい情報を示していると推定される。そこで、情報提供装置10は、同一内容のトリプルの候補であって、各トリプルに紐付られた取得元情報が所定の条件を満たす場合は、各トリプルの候補と同一内容のトリプルを登録対象とする。すなわち、情報提供装置10は、各トリプルの候補に紐付られた取得元情報に基づいて、各トリプルの候補が示す内容の信頼性が所定の閾値を超えるか否かを判定し、信頼性が所定の閾値を超える場合は、各トリプルの候補が示す内容のトリプルを登録対象とする。 Here, even if triples are extracted from content posted on personal blogs, SNS, etc., when many contents contain triples with the same content, that is, triples showing the same relationship between the same objects , such triples are presumed to indicate the correct information. Therefore, if the information providing device 10 is a triple candidate with the same content and the acquisition source information associated with each triple satisfies a predetermined condition, the information providing device 10 registers the triple with the same content as each candidate triple. . That is, the information providing apparatus 10 determines whether or not the reliability of the content indicated by each triple candidate exceeds a predetermined threshold based on the acquisition source information associated with each triple candidate, If the threshold is exceeded, the triple with the content indicated by each triple candidate is to be registered.

例えば、情報提供装置10は、各トリプルの候補に対し、各トリプルの候補の取得元となるコンテンツの信頼性を示す数値である信頼度を紐付ける。より具体的な例を挙げると、情報提供装置10は、各トリプルの候補の取得元となるドメインに応じた信頼度を紐付ける。すなわち、情報提供装置10は、各トリプルの候補に対し、各トリプルの取得元に対応する情報である取得元情報として、取得元のドメインに応じた信頼度を紐付ける。 For example, the information providing apparatus 10 associates each triple candidate with a reliability, which is a numerical value indicating the reliability of content from which each triple candidate is obtained. To give a more specific example, the information providing apparatus 10 associates the reliability according to the domain from which each triple candidate is acquired. That is, the information providing apparatus 10 associates each triple candidate with the reliability corresponding to the domain of the acquisition source as acquisition source information, which is information corresponding to the acquisition source of each triple.

また、情報提供装置10は、各トリプルの候補から、同一の対象間における同一の関係性を示す複数のトリプルの候補を特定する。例えば、情報提供装置10は、各種正規化等の技術を用いて、同一の第1対象を示す第1エンティティ、同一の第2対象を示す第2エンティティ、および同一の関係性を示す関係性情報を含むトリプルの候補を特定する。 In addition, the information providing apparatus 10 identifies a plurality of triple candidates indicating the same relationship between the same objects from each triple candidate. For example, the information providing apparatus 10 uses various techniques such as normalization to generate a first entity that indicates the same first target, a second entity that indicates the same second target, and relationship information that indicates the same relationship. Identify candidate triples containing .

そして、情報提供装置10は、特定したトリプルの候補に紐付られた信頼度が所定の条件を満たすか否かを判定し、信頼度が所定の条件を満たす場合は、特定したトリプルの候補と同一の対象間における同一の関係性を示すトリプルを登録候補とする。例えば、情報提供装置10は、特定したトリプルの候補と紐付られた信頼度の合計が所定の閾値を超える場合は、特定したトリプルの候補と同一内容のトリプルを登録候補とする。なお、情報提供装置10は、特定したトリプルの候補が1つだけであっても、信頼度が所定の閾値を超える場合は、かかるトリプルの候補を登録対象として決定してもよい。 Then, the information providing apparatus 10 determines whether or not the reliability associated with the identified triple candidate satisfies a predetermined condition, and if the reliability satisfies the predetermined condition, the information providing apparatus 10 is the same as the identified triple candidate. The triples that show the same relationship between the subjects are registered candidates. For example, when the total reliability associated with the identified triple candidate exceeds a predetermined threshold, the information providing apparatus 10 sets the triple having the same content as the identified triple candidate as a registration candidate. Even if only one triple candidate is identified, the information providing apparatus 10 may determine the triple candidate to be registered if the reliability exceeds a predetermined threshold.

このように、情報提供装置10は、各トリプルの候補の取得元と対応する取得元情報を各トリプルの候補に対して紐付ける。そして、情報提供装置10は、ある対象間のある関連性を示すトリプルの候補に紐付られた取得元情報が所定の条件を満たす場合は、かかるトリプルの候補、若しくは、かかるトリプルの候補と同一内容のトリプルをナレッジデータベースへの登録対象とする。このような処理の結果、情報提供装置10は、内容の信頼性が高いトリプルをナレッジデータベースに登録することができるので、ナレッジデータベースの精度を向上させる結果、利用者に有用な情報を提供することができる。 In this way, the information providing apparatus 10 associates the acquisition source of each triple candidate and the corresponding acquisition source information with each triple candidate. Then, when the acquisition source information associated with the triple candidate indicating the relationship between certain objects satisfies a predetermined condition, the information providing apparatus 10 provides the triple candidate or the same content as the triple candidate. to be registered in the knowledge database. As a result of such processing, the information providing apparatus 10 can register triples with highly reliable contents in the knowledge database. As a result of improving the accuracy of the knowledge database, useful information can be provided to users. can be done.

なお、上述した例では、情報提供装置10は、トリプルの候補に対して取得元のドメインに応じた信頼度を紐付けたが、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、取得元情報として、取得元のドメインをトリプルの候補に対して紐付けてもよい。このような場合、情報提供装置10は、トリプルの候補に対して紐付られたドメインが、予め信頼性の高いドメインとして設定されたものであれば、このトリプルの候補を登録対象としてもよい。また、情報提供装置10は、同一内容を示す複数のトリプルの候補に対して紐付られた各ドメインが、予め信頼性の低いドメインとして設定されたものであっても、同一内容を示すトリプルの候補の数が所定の閾値を超える場合、信頼性が担保されるものとして、係るトリプルの候補や同一内容のトリプルの候補を登録対象としてもよい。すなわち、情報提供装置10は、トリプルの候補の取得元の信頼性に応じて、トリプルの候補のうち登録対象とするトリプルを決定するのであれば、任意の情報を取得元情報としてトリプルの候補に紐付けてよい。 In the above example, the information providing apparatus 10 associates the triple candidate with the reliability corresponding to the acquisition source domain, but the embodiment is not limited to this. For example, the information providing apparatus 10 may link the acquisition source domain with the triple candidate as the acquisition source information. In such a case, the information providing apparatus 10 may register the candidate triple as long as the domain associated with the candidate triple is set in advance as a highly reliable domain. In addition, even if each domain linked to a plurality of triple candidates indicating the same content is set in advance as a low-reliability domain, the information providing apparatus 10 does not generate triple candidates indicating the same content. exceeds a predetermined threshold value, such triple candidates or triple candidates with the same content may be registered as targets for reliability, assuming that reliability is guaranteed. That is, if the information providing apparatus 10 determines triples to be registered among the triple candidates according to the reliability of the acquisition source of the triple candidates, the information providing apparatus 10 uses arbitrary information as the acquisition source information for the triple candidates. You can tie it.

〔1-4.決定処理について〕
以下、図1を用いて、情報提供装置10が実行する処理の流れの一例について説明する。なお、以下の説明では、コンテンツから取得されたトリプルの候補を単に「トリプル」と記載し、登録対象となるトリプルを「登録トリプル」と記載する場合がある。また、以下の説明では、同一の第1対象を示す第1エンティティ、同一の第2対象を示す第2エンティティ、および同一の関係性を示す関係性情報を含む複数のトリプルを「同一トリプル」と記載する場合がある。
[1-4. About decision processing]
An example of the flow of processing executed by the information providing apparatus 10 will be described below with reference to FIG. In the following description, a candidate triple obtained from content may be simply referred to as a "triple", and a triple to be registered may be referred to as a "registered triple". Further, in the following description, a plurality of triples including a first entity indicating the same first object, a second entity indicating the same second object, and relationship information indicating the same relationship are referred to as "same triples". It may be described.

まず、情報提供装置10は、データサーバ100から、各種のコンテンツを収集する(ステップS1)。例えば、情報提供装置10は、既に構築済みのナレッジデータベースや、投稿された各種のコンテンツを収集する。 First, the information providing device 10 collects various contents from the data server 100 (step S1). For example, the information providing device 10 collects an already constructed knowledge database and various posted contents.

続いて、情報提供装置10は、各コンテンツからトリプルを取得する(ステップS2)。例えば、情報提供装置10は、取得元のコンテンツが構築済みのナレッジデータベースである場合、ナレッジデータベースに登録されたトリプルを取得する。また、情報提供装置10は、取得元のコンテンツがSNSに投稿されたコンテンツやウィキペディアのコンテンツ等、テキストベースのコンテンツである場合、形態素解析や意図解析等を用いて、トリプルの抽出を行う。例えば、情報提供装置10は、テキストに含まれる主語と述語と目的語とを抽出し、主語を第1エンティティ、目的語を第2エンティティ、述語を関係性情報とするトリプルを生成する。なお、このようなテキストからトリプルを生成する技術については、各種の公知技術が採用可能であるものとし、詳細な説明については、省略する。 Subsequently, the information providing device 10 acquires triples from each content (step S2). For example, the information providing apparatus 10 acquires triples registered in the knowledge database when the acquisition source content is a knowledge database that has already been constructed. In addition, when the content to be acquired is text-based content such as content posted on an SNS or Wikipedia content, the information providing apparatus 10 extracts triples using morphological analysis, intention analysis, or the like. For example, the information providing apparatus 10 extracts a subject, a predicate, and an object contained in the text, and generates a triple having the subject as the first entity, the object as the second entity, and the predicate as relationship information. It should be noted that various well-known techniques can be adopted for the technique of generating triples from such text, and detailed description thereof will be omitted.

例えば、図1に示す例では、情報提供装置10は、ドメイン#1に属するコンテンツ#1-1から、エンティティ#1-1A、エンティティ#1-1B、および関係情報#1-1を含むトリプル#1-1を取得する。また、情報提供装置10は、ドメイン#2に属するコンテンツ#2-1から、エンティティ#2-1A、エンティティ#2-1B、および関係情報#2-1を含むトリプル#2-1を取得する。情報提供装置10は、ドメイン#3に属するコンテンツ#3-1から、エンティティ#3-1A、エンティティ#3-1B、および関係情報#3-1を含むトリプル#3-1を取得する。なお、ドメイン#1に含まれるコンテンツ#1-1は、構造化データであり、ドメイン#2に含まれるコンテンツ#2-1およびドメイン#3に含まれるコンテンツ#3-1は、反構造化データであるものとする。 For example, in the example shown in FIG. 1, the information providing apparatus 10 generates a triple # containing entity #1-1A, entity #1-1B, and relationship information #1-1 from content #1-1 belonging to domain #1. Get 1-1. The information providing apparatus 10 also acquires triple #2-1 including entity #2-1A, entity #2-1B, and relationship information #2-1 from content #2-1 belonging to domain #2. The information providing apparatus 10 acquires triple #3-1 including entity #3-1A, entity #3-1B, and relationship information #3-1 from content #3-1 belonging to domain #3. Content #1-1 included in domain #1 is structured data, and content #2-1 included in domain #2 and content #3-1 included in domain #3 are unstructured data. shall be

続いて、情報提供装置10は、各トリプルに倒して取得元情報を紐付ける(ステップS3)。例えば、情報提供装置10は、トリプル#1-1に対してドメイン#1を取得元情報として紐付け、トリプル#2-1に対してドメイン#2を取得元情報として紐付け、トリプル#3-1に対してドメイン#3を取得元情報として紐付ける。なお、情報提供装置10は、ステップS3において、取得元情報として、各ドメイン#1~#3に対応する信頼度を紐付けてもよい。 Subsequently, the information providing device 10 associates the acquisition source information with each triple (step S3). For example, the information providing apparatus 10 associates the triple #1-1 with the domain #1 as the acquisition source information, associates the triple #2-1 with the domain #2 as the acquisition source information, and associates the triple #3-1 with the domain #2 as the acquisition source information. 1 is associated with domain #3 as acquisition source information. In step S3, the information providing apparatus 10 may link the reliability corresponding to each of the domains #1 to #3 as the acquisition source information.

続いて、情報提供装置10は、取得したトリプルから同一の関係性を示すトリプルを特定し、特定したトリプルに付与された取得元情報が示す取得元の信頼度の合計に基づいて、登録対象となる登録トリプルを決定する(ステップS4)。例えば、情報提供装置10は、取得したトリプルの中から、エンティティ#1-1Aと同じ対象と示す文字列(例えば、エンティティ#1-1Aと同義語)を第1エンティティとし、エンティティ#1-1Bとと同じ対象と示す文字列を第2エンティティとし、関係情報#1-1と同じ関係性を示す文字列を関係情報とする他のトリプル、すなわち、同一トリプルを検索する。同様に、情報提供装置10は、トリプル#2-1との同一トリプルやトリプル#3-1との同一トリプルを検索する。 Subsequently, the information providing apparatus 10 identifies triples showing the same relationship from the obtained triples, and determines the triples to be registered based on the total reliability of the acquisition sources indicated by the acquisition source information given to the identified triples. A registered triple is determined (step S4). For example, the information providing apparatus 10 selects, from among the acquired triples, a character string indicating the same object as entity #1-1A (for example, a synonym for entity #1-1A) as the first entity, and entity #1-1B as the first entity. A character string indicating the same object as #1-1 is set as the second entity, and another triple whose relational information is a character string indicating the same relationship as the relational information #1-1, that is, the same triple is retrieved. Similarly, the information providing device 10 searches for triples identical to triple #2-1 and triples identical to triple #3-1.

例えば、情報提供装置10は、エンティティ#2-1Aが示す対象とエンティティ#3-1Aが示す対象とが一致し、エンティティ#2-1Bが示す対象とエンティティ#3-1Bが示す対象とが一致し、関係情報#2-1が示す関係性と関係情報#3-1が示す関係性とが一致する場合、各エンティティや関係情報の文字列が異なるとしても、トリプル#2-1とトリプル#3-1が同一トリプルであると判定する。 For example, the information providing device 10 makes sure that the target indicated by entity #2-1A matches the target indicated by entity #3-1A, and the target indicated by entity #2-1B matches the target indicated by entity #3-1B. If the relationship indicated by the relationship information #2-1 and the relationship indicated by the relationship information #3-1 match, even if the character strings of the entities and relationship information are different, the triple #2-1 and the triple # 3-1 is determined to be the same triple.

より具体的な例を挙げて説明する。例えば、トリプル#2-1に含まれるエンティティ#2-1Aが日本語表記の「シェイクスピア」であり、エンティティ#2-2が日本語表記の「リア王」であり、関係情報#1-1が日本語表記の「著者」であるものとする。また、トリプル#3-1に含まれるエンティティ#3-1Aが日本語表記の「ウィリアム=シェイクスピア」であり、エンティティ#2-2が日本語表記の「リア王」であり、関係情報#1-1が英語表記の「auther」であるものとする。 A more specific example will be described. For example, entity #2-1A included in triple #2-1 is the Japanese notation "Shakespeare", entity #2-2 is the Japanese notation "King Lear", and relational information #1-1 is It is assumed that the author is written in Japanese. In addition, the entity #3-1A included in the triple #3-1 is the Japanese notation "William Shakespeare", the entity #2-2 is the Japanese notation "King Lear", and the relationship information #1- Assume that 1 is the English notation "author".

このような場合、トリプル#2-1に含まれるエンティティ「シェイクスピア」とトリプル#3-1に含まれるエンティティ「ウィリアム=シェイクスピア」とは、文字列が異なるが、同一の人物(所謂16世紀における英国人であるシェイクスピア)を示していると認められる。また、トリプル#2-1に含まれる関係情報「著者」とトリプル#3-1に含まれる関係情報「auther」とは、文字列が異なるが、同一の関係性(すなわち、第1エンティティが示す人物が第2エンティティが示す作品を著したという関係性)を示していると認められる。そこで、情報提供装置10は、トリプル#2-1とトリプル#3-1とが、同一の関係性を示すトリプル、すなわち、同一トリプルであるものとする。 In such a case, the entity “Shakespeare” included in triple #2-1 and the entity “William Shakespeare” included in triple #3-1 have different character strings, but are the same person (so-called British in the 16th century). recognized as indicating Shakespeare, who is a person. Also, the relationship information “author” included in triple #2-1 and the relationship information “author” included in triple #3-1 have different character strings, but have the same relationship (that is, The relationship that the person authored the work indicated by the second entity). Therefore, the information providing apparatus 10 assumes that triple #2-1 and triple #3-1 are triples showing the same relationship, that is, identical triples.

このように、情報提供装置10は、異なるコンテンツから取得されたトリプルの候補が、同一の第1対象を示す第1エンティティと、同一の第2対象を示す第2エンティティと、同一の関係を示す関係情報とを含むか否かを判定し、同一の第1対象を示す第1エンティティと、同一の第2対象を示す第2エンティティと、同一の関係を示す関係情報とを含むと判定された複数のトリプルの候補に紐付られた取得元情報に基づいて、候補を登録対象とするか否かを決定することとなる。 In this way, the information providing apparatus 10 allows triple candidates obtained from different contents to indicate the same relationship between the first entity indicating the same first target and the second entity indicating the same second target. and relationship information, and determined to include a first entity indicating the same first object, a second entity indicating the same second object, and relationship information indicating the same relationship. Whether or not a candidate is to be registered is determined based on the acquisition source information associated with the plurality of triple candidates.

なお、このような処理は、例えば、予め作成されたリストであって、同一の対象を示すエンティティの候補をまとめたリストを参照することにより実現可能である。また、例えば、情報提供装置10は、連想記憶や同義語辞書、同義語同士を対応付けたナレッジデータベースを参照することにより、このような同一トリプルの検索を実現することができる。また、このような処理以外も、情報提供装置10は、例えば、各種正規化の公知技術を用いて、同一トリプルの検索を行ってよい。 It should be noted that such a process can be realized by referring to, for example, a list that is created in advance and is a list of entity candidates representing the same object. Further, for example, the information providing apparatus 10 can realize such a search for identical triples by referring to an associative memory, a synonym dictionary, or a knowledge database in which synonyms are associated with each other. In addition to such processing, the information providing apparatus 10 may search for identical triples by using various known normalization techniques, for example.

そして、情報提供装置10は、各同一トリプルの取得元情報に基づいて、登録トリプルを決定する。例えば、情報提供装置10は、トリプル#1-1に同一トリプルが存在しない場合、トリプル#1-1に紐付られた取引元情報「ドメイン#1」を特定する。ここで、ドメイン#1に登録されているコンテンツは、構造化データであるため、ある程度の信頼性が担保されていると考えらえる。そこで、情報提供装置10は、ドメイン#1に対して、所定の閾値(例えば、「50」)よりも高い信頼度「80」を付与する。 Then, the information providing apparatus 10 determines registered triples based on the acquisition source information of each identical triple. For example, if the triple #1-1 does not have the same triple, the information providing device 10 identifies the trader information "domain #1" associated with the triple #1-1. Here, since the content registered in domain #1 is structured data, it can be considered that a certain degree of reliability is ensured. Therefore, the information providing apparatus 10 gives domain #1 a reliability level of "80", which is higher than a predetermined threshold value (for example, "50").

また、例えば、情報提供装置10は、同一トリプルであるトリプル#2-1とトリプル#3-1に紐付られた取引元情報「ドメイン#2」および「ドメイン#3」を特定する。ここで、ドメイン#2およびドメイン#3に登録されているコンテンツは、半構造化データであるため、内容の信頼性がドメイン#1のコンテンツと比較して低いと考えられる。そこで、情報提供装置10は、ドメイン#2に対して、信頼度「50」を付与し、ドメイン#3に対して、信頼度「30」を付与する。なお、どのドメインのコンテンツに対してどのような信頼度を付与するかについては、予め任意の設定が可能であるが、例えば、情報提供装置10は、構造化データのコンテンツに対して半構造化データのコンテンツよりも高い信頼度を付し、複数の利用者により内容が精査されるドメインのコンテンツに対して、単一の利用者の行動により投稿が可能なドメインのコンテンツよりも高い信頼度を付してもよい。 Also, for example, the information providing device 10 identifies the trading partner information “domain #2” and “domain #3” associated with triple #2-1 and triple #3-1, which are identical triples. Here, since the contents registered in domain #2 and domain #3 are semi-structured data, the reliability of the contents is considered to be lower than that of domain #1. Therefore, the information providing apparatus 10 assigns a reliability level of "50" to the domain #2, and assigns a reliability level of "30" to the domain #3. It should be noted that it is possible to arbitrarily set in advance what kind of reliability is assigned to content of which domain. Giving a higher degree of trust than the content of the data, and assigning a higher degree of trust to the content of the domain whose content is scrutinized by multiple users than to the content of the domain that can be posted by the actions of a single user. may be attached.

そして、情報提供装置10は、各同一トリプルの信頼度の合計が所定の値(例えば、「80」)を超えるか否かを判定し、超えた場合には、同一トリプルのいずれか、若しくは、これら同一トリプルと同一内容のトリプルを登録トリプルとする。例えば、情報提供装置10は、トリプル#1-1の信頼度が「80」であるので、エンティティ#1-1Aをエンティテイ#1Aとし、エンティティ#1-1Bをエンティテイ#1Bとし、関係情報#1-1を関係情報#1とするトリプルを登録トリプル#1とする。すなわち、情報提供装置10は、トリプル#1-1を登録トリプル#1とする。 Then, the information providing device 10 determines whether or not the total reliability of each identical triple exceeds a predetermined value (for example, "80"). Triples having the same content as these identical triples are registered triples. For example, since the reliability of triple #1-1 is "80", the information providing apparatus 10 sets entity #1-1A as entity #1A, entity #1-1B as entity #1B, and relation information #1. A triple having -1 as relational information #1 is set as registered triple #1. That is, the information providing apparatus 10 sets the triple #1-1 as the registered triple #1.

一方、情報提供装置10は、トリプル#2-1の信頼度「50」とトリプル#3-1の信頼度「30」との合計が「80」となるので、トリプル#2-1およびトリプル#3-1の内容と同一内容のトリプルを登録トリプル#2とする。例えば、情報提供装置10は、エンティティ#2-1Aやエンティティ#3-1Aと同一の対象を示すエンティティ#2A、エンティティ#2-1Bやエンティティ#3-1Bと同一の対象を示すエンティティ#2B、および関係情報#2-1や関係情報#3-1と同一の関係性を示す関係情報#2を含むトリプルを登録トリプル#2とする。すなわち、情報提供装置10は、最終的に生成するナレッジデータベースにおけるルールに従って、同一トリプルの内容を正規化したトリプルを生成し、生成したトリプルを登録トリプルとする。 On the other hand, the information providing apparatus 10 determines that the sum of the reliability of triple #2-1 and the reliability of triple #3-1 is "80". A triple having the same content as that of 3-1 is designated as registered triple #2. For example, the information providing device 10 may be an entity #2A indicating the same target as the entity #2-1A or the entity #3-1A, an entity #2B indicating the same target as the entity #2-1B or the entity #3-1B, And a triple containing relational information #2 indicating the same relationship as relational information #2-1 or relational information #3-1 is defined as registered triple #2. That is, the information providing apparatus 10 generates triples obtained by normalizing the contents of the same triples according to the rules in the knowledge database that is finally generated, and uses the generated triples as registered triples.

例えば、トリプル#2-1やトリプル#3-1が上述した文字列を含む場合、情報提供装置10は、エンティティ#2Aとして日本語表記の「ウィリアム=シェイクスピア」を含み、エンティテイィ#2Bとして日本語表記の「リア王」を含み、関係情報#2として日本語表記の「著者」を含むトリプルを登録トリプル#2とする。 For example, when triple #2-1 or triple #3-1 includes the above-described character string, the information providing device 10 includes "William Shakespeare" written in Japanese as entity #2A, and "Japanese text" as entity #2B. A triple containing the word notation "King Lear" and the Japanese notation "author" as relational information #2 is registered triple #2.

そして、情報提供装置10は、各登録トリプル#1、#2に対し、取得元と対応する取得元情報を付与して、ナレッジデータベースに登録する。例えば、情報提供装置10は、登録トリプル#1に対し、登録トリプル#1の元となったトリプル#1-1の取得元情報「ドメイン#1」を紐付けてナレッジデータベースに登録する。また、情報提供装置10は、登録トリプル#2に対し、元となったトリプル#2-1の取得元情報「ドメイン#2」およびトリプル#3-1の取得元情報「ドメイン#3」を紐付けてナレッジデータベースに登録する。 Then, the information providing apparatus 10 adds acquisition source information corresponding to the acquisition source to each of the registered triples #1 and #2, and registers them in the knowledge database. For example, the information providing apparatus 10 associates the registered triple #1 with the acquisition source information “domain #1” of the triple #1-1 from which the registered triple #1 is based, and registers it in the knowledge database. Further, the information providing apparatus 10 links the acquisition source information “domain #2” of the original triple #2-1 and the acquisition source information “domain #3” of the triple #3-1 to the registered triple #2. and register it in the knowledge database.

また、情報提供装置10は、端末装置200から検索クエリを受付ける(ステップS5)。このような場合、情報提供装置10は、検索クエリと対応する情報をナレッジデータベースから検索し、検索結果を端末装置200へと提供する(ステップS6)。この際、情報提供装置10は、各登録トリプルに紐付けた取得元情報を用いて、検索対象とするトリプルやエンティティ、関係情報の絞り込みを行うこととなる。 The information providing device 10 also receives a search query from the terminal device 200 (step S5). In such a case, the information providing device 10 searches the knowledge database for information corresponding to the search query, and provides the search result to the terminal device 200 (step S6). At this time, the information providing apparatus 10 uses the acquisition source information associated with each registered triple to narrow down the triples, entities, and related information to be searched.

〔1-5.検索処理について〕
続いて、図2を用いて、情報提供装置10が実行する検索処理について説明する。図2は、実施形態にかかる情報提供装置が実行する検索処理の一例を示す図である。なお、かかる検索処理は、図1に示すステップS5およびステップS6に対応する。また、図2に示す例では、図1のステップS4に示すように、ナレッジデータベース内のトリプルに対して取得元を示す取得元情報が紐付けられているものとする。
[1-5. About search processing]
Next, a search process executed by the information providing device 10 will be described with reference to FIG. FIG. 2 is a diagram illustrating an example of search processing performed by the information providing apparatus according to the embodiment; This search processing corresponds to steps S5 and S6 shown in FIG. In the example shown in FIG. 2, as shown in step S4 of FIG. 1, it is assumed that the acquisition source information indicating the acquisition source is linked to the triples in the knowledge database.

例えば、情報提供装置10は、第1の利用者が利用する端末装置201から検索クエリを受付ける(ステップS1)。より具体的には、情報提供装置10は、検索クエリと、検索対象となるドメインの指定とを受付ける。このような場合、情報提供装置10は、指定されたドメインが紐付られたトリプルを用いて、検索クエリに対応する情報の検索を行う(ステップS2)。 For example, the information providing device 10 receives a search query from the terminal device 201 used by the first user (step S1). More specifically, the information providing apparatus 10 receives a search query and designation of a domain to be searched. In such a case, the information providing apparatus 10 searches for information corresponding to the search query using triples associated with the specified domain (step S2).

例えば、図2に示す例では、エンティティ#1とエンティティ#2とを含む登録トリプル#1に対し、ドメイン#1が紐付けられており、エンティティ#1とエンティティ#3とを含む登録トリプル#2にドメイン#2、#3が紐付けられており、エンティティ#1とエンティティ#4とを含む登録トリプル#3に、ドメイン#1、#2が紐付けられているものとする。ここで、情報提供装置10は、第1の利用者から検索クエリとして「エンティティ#1」と検索対象「ドメイン#1」とを受付けていた場合、登録トリプル#1~#3のうち、「ドメイン#1」が紐付られた登録トリプル#1、#3から、「エンティティ#1」と所定の関連性を有する他のエンティティ(例えば、エンティティ#2やエンティティ#4等)を検索する。そして、情報提供装置10は、検索結果を端末装置201に送信する。 For example, in the example shown in FIG. 2, domain #1 is associated with registered triple #1 including entity #1 and entity #2, and registered triple #2 including entity #1 and entity #3 is associated with domain #1. are associated with domains #2 and #3, and domain #1 and #2 are associated with registered triple #3 including entity #1 and entity #4. Here, when the information providing apparatus 10 receives "entity #1" and search target "domain #1" as a search query from the first user, among registered triples #1 to #3, "domain From the registered triples #1 and #3 associated with "Entity #1", other entities having a predetermined relationship with "Entity #1" (eg, entity #2, entity #4, etc.) are retrieved. The information providing device 10 then transmits the search result to the terminal device 201 .

一方、情報提供装置10は、例えば、第2の利用者が利用する端末装置202から検索クエリ「エンティティ#1」と検索対象「ドメイン#2」とを受付けていた場合、登録トリプル#1~#3のうち、「ドメイン#2」が紐付られた登録トリプル#2、#3から、「エンティティ#1」と所定の関連性を有する他のエンティティ(例えば、エンティティ#3やエンティティ#4等)を検索する。そして、情報提供装置10は、検索結果を端末装置202に送信する。 On the other hand, for example, when the information providing apparatus 10 receives the search query "entity #1" and the search target "domain #2" from the terminal device 202 used by the second user, the registered triples #1 to # 3, from the registered triples #2 and #3 associated with "domain #2", other entities having a predetermined relationship with "entity #1" (for example, entity #3, entity #4, etc.) search for. The information providing device 10 then transmits the search result to the terminal device 202 .

すなわち、情報提供装置10は、取得元情報をトリプルに紐付けることで、ナレッジデータベースを取得元ごとに多重化する。より具体的には、情報提供装置10は、取得元となるドメインをトリプルに紐付けることで、ドメインごとに多重化したナレッジデータベース、すなわち、マルチドメインナレッジデータベースを生成する。そして、情報提供装置10は、利用者から受付けた検索クエリと対応する情報を、指定された取得元と対応する取得元情報が対応付けられたトリプルを用いて検索する。 That is, the information providing apparatus 10 multiplexes the knowledge database for each acquisition source by associating the acquisition source information with the triple. More specifically, the information providing apparatus 10 generates a knowledge database multiplexed for each domain, ie, a multi-domain knowledge database, by associating the acquisition source domain with the triple. Then, the information providing apparatus 10 searches for information corresponding to the search query received from the user, using triples in which the specified acquisition source and the corresponding acquisition source information are associated.

なお、図2に示す例では、情報提供装置10は、取引元情報として、トリプルの取得元となるドメインを紐付けたが、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、各トリプルに対して信頼度を紐付けてもよい。より具体的には、情報提供装置10は、登録トリプル#1に対して、ドメイン#1と対応する信頼度「80」を付与し、登録トリプル#2に対して、ドメイン#2と対応する信頼度「50」とドメイン#3と対応する信頼度「30」との合計である信頼度「80」を付与し、登録トリプル#3に対して、ドメイン#1と対応する信頼度「80」とドメイン#2と対応する信頼度「50」との合計である信頼度「130」を付与する。 In the example shown in FIG. 2, the information providing apparatus 10 associates the domain from which the triples are acquired as the supplier information, but the embodiment is not limited to this. For example, the information providing device 10 may associate reliability with each triple. More specifically, the information providing apparatus 10 assigns the trust level "80" corresponding to the domain #1 to the registered triple #1, and assigns the trust level corresponding to the domain #2 to the registered triple #2. The trust level "80", which is the sum of the trust level "50" and the trust level "30" corresponding to domain #3, is given to registered triple #3, and the trust level "80" corresponding to domain #1 and domain #1 are added to registered triple #3. A trust of "130" is given, which is the sum of domain #2 and the corresponding trust of "50".

そして、情報提供装置10は、例えば、利用者から指定された信頼度が「80」である場合、信頼度が「80」以上となる登録トリプル#1、#3を検索対象とし、利用者から指定された信頼度が「100」である場合、信頼度が「100」以上となる登録トリプル#3を検索対象としてもよい。また、例えば、情報提供装置10は、各トリプルに対して、取得元となるドメインを紐付けて登録しておき、利用者から信頼度の指定を受付けた場合は、各トリプルのうち、紐付られたドメインと対応する信頼度の和が指定された信頼度を超えるトリプルを検索対象としてもよい。 Then, for example, when the reliability specified by the user is "80", the information providing apparatus 10 searches for the registered triples #1 and #3 with the reliability of "80" or more, and If the specified reliability is "100", registered triple #3 with a reliability of "100" or higher may be searched. Further, for example, the information providing apparatus 10 associates and registers each triple with the domain that is the acquisition source, and when receiving the specification of the degree of reliability from the user, among the triples, the associated domain is registered. It is also possible to search for triples for which the sum of the specified domain and the corresponding confidence exceeds the specified confidence.

〔1-6.信頼度の合計手法について〕
上述した例では、情報提供装置10は、トリプルの取得元に応じた信頼度の和が所定の閾値を超えるか否かに応じて、登録トリプルを決定した。ここで、情報提供装置10は、各種の重みづけを考慮した信頼度の値が所定の閾値を超えるか否かに応じて、登録トリプルを検索してもよい。
[1-6. Reliability summation method]
In the example described above, the information providing apparatus 10 determines the registered triples depending on whether the sum of the degrees of reliability corresponding to the sources from which the triples are obtained exceeds a predetermined threshold. Here, the information providing apparatus 10 may search for registered triples depending on whether or not the reliability value obtained by considering various weights exceeds a predetermined threshold.

例えば、情報提供装置10は、同一トリプルに紐付られた信頼度の荷重和が所定の閾値を超える場合は、これら同一トリプルと同じ関係性を有するトリプルを登録トリプルとしてもよい。なおこのような重みは、例えば、任意の情報に応じて調整可能であってよい。例えば、情報提供装置10は、トリプルの抽出元となるコンテンツの登録時期が古いほど、他の利用者からの評価が高い程、若しくは閲覧回数が多いほど、より大きい重みを設定してもよい。また、情報提供装置10は、トリプルの抽出元となるコンテンツの登録時期が新しい程、他の利用者からの評価が低いほど、若しくは、閲覧回数が低いほど、より小さい重みを設定してもよい。また、情報提供装置10は、トリプルに含まれる各エンティティの文字列や関係情報の文字列と、基準となる辞書情報に登録された文字列との一致度が高ければ高いほど、より大きい重みを設定してもよい。 For example, when the weighted sum of the degrees of reliability associated with identical triples exceeds a predetermined threshold, the information providing apparatus 10 may set triples having the same relationship with these identical triples as registered triples. Note that such weights may be adjustable according to arbitrary information, for example. For example, the information providing apparatus 10 may set a higher weight for content that is the source of triple extraction, the older it is registered, the higher the evaluation from other users, or the higher the number of views. In addition, the information providing apparatus 10 may set a smaller weight for content that is the source of triple extraction, the more recent the registration time, the lower the evaluation from other users, or the lower the number of views. . In addition, the information providing apparatus 10 assigns a higher weight to the character string of each entity included in the triple and the character string of the relationship information, and the character string registered in the reference dictionary information. May be set.

また、例えば、各ドメインに対する信頼度は、絶対的に決定されるもの以外にも、相対的に決定されるものが存在すると考えられる。そこで、情報提供装置10は、各トリプルの取得元となるコンテンツ同士の関連性に応じた重みを用いて、同一トリプルに紐付られた信頼度の荷重和を算出してもよい。例えば、情報提供装置10は、ドメイン#4よりもドメイン#5の方が、相対的に信頼度が高い場合、ドメイン#4から取得したトリプルよりも、ドメイン#5から取得したトリプルに対してより高い値の信頼度や重みを付与して、信頼度の合計を算出してもよい。また、例えば、情報提供装置10は、ドメイン#5よりおドメイン#6の方が、相対的に信頼度が高い場合、ドメイン#5から取得したトリプルよりも、ドメイン#6から取得したトリプルに対してより高い値の信頼度や重みを付与して、信頼度の合計を算出してもよい。すなわち、情報提供装置10は、同一トリプルの取得元となる各ドメイン間の相対的な信頼性に応じて、各同一トリプルの信頼度の合計を算出する際の重みを変動させてもよい。 Also, for example, it is conceivable that the trust level for each domain is determined not only absolutely but also relatively. Therefore, the information providing apparatus 10 may calculate the weighted sum of the degrees of reliability associated with the same triple using a weight according to the relationship between the contents from which the triples are obtained. For example, when the domain #5 is relatively more reliable than the domain #4, the information providing apparatus 10 treats the triples obtained from the domain #5 more than the triples obtained from the domain #4. A high value of confidence or weight may be given and the total confidence may be calculated. Further, for example, if the domain #6 is relatively more reliable than the domain #5, the information providing apparatus 10 may determine the triples obtained from the domain #6 rather than the triples obtained from the domain #5. A higher value of confidence or weight may be assigned to each of the values, and the total confidence may be calculated. In other words, the information providing apparatus 10 may change the weight used when calculating the total reliability of the same triples according to the relative reliability between the domains from which the same triples are obtained.

また、情報提供装置10は、構造化データから取得したトリプルに対し、所定の閾値よりも高い値の信頼度を紐付け、半構造化データから取得したトリプルに対し、所定の閾値よりも低い値の信頼度を紐付けてもよい。すなわち、情報提供装置10は、構造化データから取得したトリプルに対し、半構造化データから取得したトリプルよりも高い値の信頼度を紐付けてもよい。 Further, the information providing apparatus 10 associates the triples obtained from the structured data with reliability values higher than a predetermined threshold, and the triples obtained from the semi-structured data with values lower than the predetermined threshold. may be associated with the reliability of That is, the information providing apparatus 10 may associate triples obtained from structured data with higher reliability than triples obtained from semi-structured data.

また、情報提供装置10は、取得元のドメインと、取得したトリプルに含まれる関係情報が示す関係とに応じた信頼度をトリプルに紐付けてもよい。例えば、情報提供装置10は、書籍に関する情報の信頼性が高い第1ドメインから取得したトリプルに含まれる関係情報が「著者」等、書籍との関連性が高い関係を示す場合は、比較的高い値の信頼性をトリプルに紐付けし、第1ドメインから取得したトリプルに含まれる関係情報が「所在地」等、書籍との関連性が低い関係を示す場合は、比較的低い値の信頼性をトリプルに紐付けしてもよい。 Further, the information providing apparatus 10 may associate the triple with a reliability corresponding to the domain of the acquisition source and the relationship indicated by the relationship information included in the acquired triple. For example, if the relationship information included in the triples acquired from the first domain with high reliability of the information on the book indicates a relationship with high relevance to the book, such as "author", the information providing apparatus 10 may set relatively high The reliability of the value is linked to the triple, and if the relationship information contained in the triple obtained from the first domain indicates a relationship with low relevance to the book, such as "location", the reliability of a relatively low value is assigned. May be tied to triples.

〔1-7.具体的な処理の一例について〕
上述した例では、情報提供装置10は、コンテンツから取得したトリプルに対して取得元情報を紐付けし、トリプルに紐付られた取得元情報に基づいて、登録トリプルの決定を行った。ここで、情報提供装置10は、上述した処理以外にも、各種の処理を実行することで、ナレッジデータベースの精度を向上させてもよい。
[1-7. Regarding an example of specific processing]
In the example described above, the information providing apparatus 10 associates the triples acquired from the content with the acquisition source information, and determines the registered triples based on the acquisition source information linked to the triples. Here, the information providing apparatus 10 may improve the accuracy of the knowledge database by executing various processes other than the processes described above.

例えば、上述したように、ウェブ上には、同一対象間における同一の関係性を異なる言葉で表現したコンテンツが含まれる場合がある。そこで、情報提供装置10は、各種の正規化を行うことで、各エンティティとエンティティが示す対象とのマッピングを行ってもよい。また、情報提供装置10は、ナレッジデータベースの多様性を担保するため、構造化データのみならず、半構造化データからもトリプルを取得するが、このように半構造化データからトリプルを取得するために必要な機能(例えば、どのタグが付された情報からトリプルを抽出するか等)を有していてもよい。また、情報提供装置10は、人手で入力された情報を参考に用いることで、ナレッジデータベースの精度をさらに向上させてもよい。 For example, as described above, the web may include content that expresses the same relationship between the same objects using different words. Therefore, the information providing apparatus 10 may perform various normalizations to map each entity and the target indicated by the entity. Further, the information providing apparatus 10 acquires triples not only from structured data but also from semi-structured data in order to ensure the diversity of the knowledge database. (for example, extracting triples from the tagged information). Further, the information providing apparatus 10 may further improve the accuracy of the knowledge database by using the manually input information as a reference.

以下、図3を用いて、情報提供装置10がナレッジデータベースを生成する処理の具体例について説明する。図3は、実施形態に係る情報提供装置が実行する処理の流れの一例を説明する図である。図3に示すように、情報提供装置10は、システムSで示される一連の処理を実行することで、構造化データや被構造化データからナレッジデータベースを生成する。 A specific example of the process of generating the knowledge database by the information providing apparatus 10 will be described below with reference to FIG. FIG. 3 is a diagram illustrating an example of the flow of processing executed by the information providing device according to the embodiment; As shown in FIG. 3, the information providing apparatus 10 executes a series of processes indicated by system S to generate a knowledge database from structured data and structured data.

例えば、情報提供装置10が実行するシステムSには、ImporterS1、Information ExtractorS2、Attribute ConverterS3、Entitiy MatcherS4、Entitiy ConnectorS5、Id AssignerS6、Additional Data CombinerS7、Entity MergerS8、Object ConverterS9、Attribute CompleterS10、ValidatorS11、およびExporterS12(以下、「各処理S1~S12」と総称する場合がある。)といった処理が含まれる。なお、システムSは、各処理S1~S12を実行する機能構成を含むハードウェアであってもよく、ニューラルネットワーク等の各種モデルであってもよい。 For example, the system S executed by the information providing apparatus 10 includes Importer S1, Information Extractor S2, Attribute Converter S3, Entity Matcher S4, Entity Connector S5, Id Assigner S6, Additional Data Combiner S7, Entity y Merger S8, Object Converter S9, Attribute Completer S10, Validator S11, and Exporter S12 (hereinafter , and may be collectively referred to as “each processing S1 to S12”). The system S may be hardware including a functional configuration for executing the processes S1 to S12, or may be various models such as a neural network.

以下、各処理S1~S12における処理の一例を説明する。ImporterS1は、様々なスキーマのデータから、最終的に作成するナレッジデータベースのスキーマに合致するようにエンティティとして取り込む。例えば、ImporterS1は、既にエンティティ間の関係性が設定されているような構造化データから、トリプルを抽出し、抽出したトリプルに対して、取得元情報を付与したデータを生成する。 An example of each of the processes S1 to S12 will be described below. The Importer S1 imports data of various schemas as entities so as to match the schema of the knowledge database to be finally created. For example, the Importer S1 extracts triples from structured data in which relationships between entities have already been set, and generates data with acquisition source information attached to the extracted triples.

例えば、ImporterS1は、構造化データのトリプルに含まれる関係情報が、どのような関係性を示しているかを特定し、最終的に生成するナレッジデータベースにおいて、特定した関係性を示す関係情報を特定する。例えば、ImporterS1は、主語を示す第1エンティティ、目的語を示す第2エンティティ、および述語を示す関係性情報として含むトリプルを特定する。なお、各エンティティや関係性情報は、同一の対象や関係性を示すものであっても、それぞれ文字列が異なる場合がある。この結果、ImporterS1は、実世界において同一の対象間における同一の関係性を示すトリプルとして、エンティティや関係性情報の文字列が異なる複数のトリプルを特定することとなる。また、ImporterS1は、取得したトリプルに対して取得元情報を紐付けるとともに、各トリプルに対して一意な仮IDを付与する。 For example, the Importer S1 identifies what kind of relationship the relational information contained in the triples of the structured data indicates, and identifies the relational information indicating the identified relation in the finally generated knowledge database. . For example, ImporterS1 identifies triples that include as relationship information indicating a first entity indicating a subject, a second entity indicating an object, and a predicate. Each entity and relationship information may have different character strings even if they indicate the same object or relationship. As a result, the Importer S1 identifies a plurality of triples with different entity and relationship information character strings as triples indicating the same relationship between the same objects in the real world. Also, the Importer S1 associates the acquired triples with the acquisition source information, and assigns a unique temporary ID to each triple.

Information ExtractorS2は、ウェブ文章等の半構造化データからトリプルを取得する。例えば、Information ExtractorS2は、タグの解析や形態素解析等の技術を用いて、半構造化データからトリプルを取得する。また、Information ExtractorS2は、ナレッジデータベースに登録済みのエンティティと、取得したトリプルに含まれるエンティティとを比較し、同一の対象を示すエンティティ同士の紐付けを行う。 Information Extractor S2 obtains triples from semi-structured data such as web sentences. For example, Information Extractor S2 uses techniques such as tag analysis and morphological analysis to obtain triples from semi-structured data. The Information Extractor S2 also compares the entities registered in the knowledge database with the entities included in the acquired triples, and links the entities indicating the same target.

Attribute ConverterS3は、入力データのクラスをナレッジデータベースのクラスに変換する。例えば、Attribute ConverterS3は、トリプルの取得元となる構造化データにおいて各エンティティに付与されたクラス(すなわち、エンティティが示す対象の属性を示す情報)と、ナレッジデータベースにおける各エンティティのクラスとを対応付けたマッピング情報を参照し、取得したトリプルに含まれる各エンティティのクラスをナレッジデータベースのクラスに変換する。例えば、Attribute ConverterS3は、同一の対象を示すエンティティの文字列を正規化するとともに、同一の関係性を示す関係性情報の正規化を行う。例えば、Attribute ConverterS3は、英語表記の関係情報「auter」を日本語表記の関係情報「著者」に変換したトリプルを取得する。 The Attribute Converter S3 converts the class of input data into the class of the knowledge database. For example, the Attribute Converter S3 associates a class assigned to each entity in the structured data from which triples are obtained (that is, information indicating the target attribute indicated by the entity) with the class of each entity in the knowledge database. Refers to the mapping information and converts the class of each entity included in the fetched triples to the class of the knowledge database. For example, the Attribute Converter S3 normalizes character strings of entities indicating the same object, and normalizes relationship information indicating the same relationship. For example, the Attribute Converter S3 acquires a triple obtained by converting the relationship information "auter" in English into the relationship information "author" in Japanese.

Entity MatcherS4は、同じ対象を示すエンティティをマッチングし、同一エンティティのグループを生成する。例えば、Entity MatcherS4は、各トリプルに含まれるエンティティを比較し、同一対象の同一関係を示すと推定されるエンティティを特定する。そして、Entity MatcherS4は、特定したエンティティに対して、グループIDを付与する。なお、Entity MatcherS4は、各エンティティのクラス(属性)について矛盾がないように同一トリプルの特定を行ってもよい。また、Entity MatcherS4は、属性について矛盾がないエンティティ同士を紐付けた場合に、エンティティ同士を結ぶグラフ構造においてクリーク構造を満たすエンティティを同一のエンティティと見做してもよい。 Entity Matcher S4 matches entities that indicate the same object and generates a group of identical entities. For example, Entity Matcher S4 compares the entities contained in each triple and identifies entities that are presumed to exhibit the same relationship of the same object. Entity Matcher S4 then assigns a group ID to the specified entity. Note that the Entity Matcher S4 may identify identical triples so that there is no contradiction in the class (attribute) of each entity. Further, when the entity matcher S4 associates entities with no contradiction in attributes, the entities satisfying the clique structure in the graph structure connecting the entities may be regarded as the same entity.

Entity ConnectorS5は、クラスが異なるが互いに関連するエンティティのグループ同士を紐付ける。すなわち、Entity ConnectorS5は、クラスが異なるが、互いに同一の対象を示すと推定されるエンティティのグループ同士の紐付けを行う。 The Entity Connector S5 links groups of entities that are different in class but related to each other. That is, the Entity Connector S5 links groups of entities that are different in class but are presumed to represent the same object.

Id AssignerS6は、各エンティティのグループに対し、最終的なナレッジデータベースにおいてエンティティに付与されるID(Identifier)を紐付ける。例えば、Id AssignerS6は、登録済みのエンティティのうち、グループ化されたエンティティと同一の対象を示すエンティティを特定し、特定したエンティティに付与されたIDをグループ化されたエンティティに対して付与する。 The Id Assigner S6 associates each entity group with an ID (Identifier) assigned to the entity in the final knowledge database. For example, the Id Assigner S6 identifies an entity that indicates the same object as the grouped entity among the registered entities, and assigns the ID assigned to the identified entity to the grouped entity.

Additional Data CombinerS7は、人手によりId AssignerS6によって付与されたIDの修正を反映させる。また、Additional Data CombinerS7は、Information ExtractorS2により取得されたエンティティに対し、同一対象を示す登録済みのエンティティに付与されたIDを紐付ける。 The Additional Data Combiner S7 manually reflects the correction of the ID assigned by the Id Assigner S6. Further, the Additional Data Combiner S7 associates the entity acquired by the Information Extractor S2 with the ID given to the registered entity indicating the same object.

Entity MergerS8は、同一の対象を示す複数のエンティティ、すなわち、同一エンティティを1つのエンティティに統合する。この際、Entity MergerS8は、エンティティに紐付られた取得元情報に応じた信頼度の足し合わせや荷重和の算出を行う。 Entity MergerS8 merges multiple entities representing the same object, ie, the same entity, into one entity. At this time, the Entity Merger S8 performs summation of the reliability and calculation of the weighted sum according to the acquisition source information associated with the entity.

Object ConverterS9は、トリプルに含まれるエンティティのうち、目的語となるエンティティと同一の対象を示す登録済みエンティティのIDとを紐付ける。 The Object Converter S9 associates an object entity among the entities included in the triple with the ID of the registered entity indicating the same target.

Attribute CompleterS10は、エンティティに新たな情報の追加を行う。例えば、Attribute CompleterS10は、予め設定されたオントロジに基づいて、情報の追加を行う。また、Attribute CompleterS10は、オントロジに基づいて、欠損しているトリプルの発見や追加を行ってもよい。なお、このようなトリプルの発見や追加や、ルールベース、機械学習等、任意の手法により実現可能である。 Attribute Completer S10 adds new information to the entity. For example, the Attribute Completer S10 adds information based on a preset ontology. The Attribute Completer S10 may also find or add missing triples based on the ontology. It should be noted that it can be realized by any method such as discovery and addition of such triples, rule base, machine learning, and the like.

ValidatorS11は、取得元情報に基づいて、信頼度が低いトリプルの削除や修正を行う。例えば、ValidatorS11は、Entity MergerS8によって算出された信頼度の和が所定の閾値を超える場合にのみ、登録トリプルとする。なお、ValidatorS11は、あらかじめ人手で設定されたブラックリストと一致するトリプルについては、信頼度によらず、登録対象から除外してもよい。 The Validator S11 deletes or corrects triples with low reliability based on the acquisition source information. For example, the Validator S11 registers triples only when the sum of reliability calculated by the Entity Merger S8 exceeds a predetermined threshold. Note that the Validator S11 may exclude triples that match a manually set blacklist from being registered, regardless of the reliability.

ExporterS12は、信頼度が所定の閾値を超えるトリプルを所定のフォーマットでナレッジデータベースに登録する。なお、ExporterS12は、トリプルの各エンティティに付与された情報のうち、予め設定された情報以外の情報を削除してもよい。 The Exporter S12 registers triples whose reliability exceeds a predetermined threshold in a predetermined format in the knowledge database. It should be noted that the Exporter S12 may delete information other than the preset information among the information given to each entity of the triple.

〔2.情報提供装置の構成〕
以下、上記した情報提供装置10が有する機能構成の一例について説明する。図4は、実施形態に係る情報提供装置の構成例を示す図である。図4に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
[2. Configuration of Information Providing Device]
An example of the functional configuration of the information providing apparatus 10 described above will be described below. FIG. 4 is a diagram illustrating a configuration example of an information providing apparatus according to the embodiment; As shown in FIG. 4, the information providing device 10 has a communication section 20, a storage section 30, and a control section 40. FIG.

通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、データサーバ100や端末装置200との間で情報の送受信を行う。 The communication unit 20 is realized by, for example, a NIC (Network Interface Card) or the like. The communication unit 20 is connected to the network N by wire or wirelessly, and transmits and receives information to and from the data server 100 and the terminal device 200 .

記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、エンティティデータベース31、トリプルデータベース32、および信頼度テーブル33(以下、「各データベース31~33」と総称する場合がある。)を記憶する。 The storage unit 30 is implemented by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 30 also stores an entity database 31, a triple database 32, and a reliability table 33 (hereinafter sometimes collectively referred to as "databases 31 to 33").

以下、図5~7を用いて、各データベース31~33に登録される情報の一例を説明する。エンティティデータベース31には、エンティティに関する情報が登録される。例えば、図5は、実施形態に係るエンティティデータベースに登録される情報の一例を示す図である。図5に示すように、エンティティデータベース31には、「エンティティID」、「エンティティ種別」、「ノードID」、「ノード種別」、および「データ」といった項目を有する情報が登録される。 An example of information registered in each of the databases 31 to 33 will be described below with reference to FIGS. Information about entities is registered in the entity database 31 . For example, FIG. 5 is a diagram showing an example of information registered in the entity database according to the embodiment. As shown in FIG. 5, the entity database 31 registers information having items such as "entity ID", "entity type", "node ID", "node type", and "data".

ここで、「エンティティID」とは、エンティティの識別子である。また、「エンティティ種別」とは、対応付けられた「エンティティID」が示すエンティティの種別を示す情報であり、例えば、エンティティが「人物」を示すエンティティであるか「職業」を示すエンティティであるかといった情報を示す。「ノードID」は、対応付けられた「エンティティID」が示すエンティティと関連するノードの識別子である。「ノード種別」は、対応付けられた「ノードID」が示すノードの種別を示す情報であり、ノードが名前を示すか、写真を示すか、職業を示すか等といった情報である。また、「データ」とは、対応付けられた「ノードID」が示すノードのデータである。 Here, "entity ID" is an identifier of an entity. The "entity type" is information indicating the type of entity indicated by the associated "entity ID". For example, whether the entity is an entity indicating "person" or an entity indicating "occupation". information such as "Node ID" is an identifier of a node associated with the entity indicated by the associated "Entity ID". The "node type" is information indicating the type of the node indicated by the associated "node ID", and is information such as whether the node indicates a name, a photograph, or an occupation. "Data" is the data of the node indicated by the associated "node ID".

例えば、図5に示す例では、エンティティID「E11」、エンティティ種別「人物」、ノードID「I111」、ノード種別「名前」、およびデータ「名前#1」が対応付けて登録されている。このような情報は、エンティティID「E11」が示すエンティティ(すなわち、エンティティE11)が「人物」を示すエンティティであり、そのエンティティが示す人物の「名前」を示すノードとしてノードID「I111」が登録されており、その名前が「名前#1」である旨を示す。なお、図5に示す例では、「名前#1」や「写真#1」等といった概念的な値を記載したが、実際には、エンティティデータベース31には、対応付けられたエンティティと対応する人物の名前、写真、生年月日等を示す各種の情報が登録されることとなる。 For example, in the example shown in FIG. 5, entity ID "E11", entity type "person", node ID "I111", node type "name", and data "name #1" are associated and registered. Such information indicates that the entity indicated by the entity ID "E11" (that is, the entity E11) is an entity indicating "person", and the node ID "I111" is registered as a node indicating the "name" of the person indicated by the entity. and its name is "Name #1". In the example shown in FIG. 5, conceptual values such as "name #1" and "photo #1" are described, but in reality, the entity database 31 stores the associated entity and the corresponding person Various information indicating the name, photo, date of birth, etc. of the person is registered.

トリプルデータベース32には、トリプルを示す情報が登録される。例えば、図6は、実施形態に係るトリプルデータベースに登録される情報の一例を示す図である。図6に示す例では、トリプルデータベース32には、「トリプルID」、「関係情報ID」、「種別」、「第1要素」、「第2要素」、および「取得元情報」といった項目を有する情報が登録される。 Information indicating triples is registered in the triple database 32 . For example, FIG. 6 is a diagram showing an example of information registered in the triple database according to the embodiment. In the example shown in FIG. 6, the triple database 32 has items such as "triple ID", "relationship information ID", "type", "first element", "second element", and "acquisition source information". Information is registered.

ここで、「トリプルID」とは、トリプルを識別する識別子である。また、「関係情報ID」とは、トリプルに含まれる関係情報を識別する識別子である。また、「種別」とは、トリプルに含まれるエンティティ間の関係性を示す情報である。また、「第1要素」および「第2要素」とは、対応付けられた「トリプルID」が示すトリプルに含まれるエンティティのエンティティIDである。また、「取得元情報」とは、対応付けられたトリプルの取得元と対応する情報であり、例えば、取得元のドメインを示す情報や信頼度を示す情報である。 Here, "triple ID" is an identifier for identifying a triple. A “relationship information ID” is an identifier that identifies relational information included in a triple. "Type" is information indicating the relationship between entities included in the triple. Also, the “first element” and the “second element” are the entity IDs of the entities included in the triple indicated by the associated “triple ID”. Also, the “acquisition source information” is information corresponding to the acquisition source of the associated triples, such as information indicating the domain of the acquisition source and information indicating reliability.

例えば、図6に示す例では、トリプルID「トリプル#1」、関係情報ID「C1」、種別「職業」、第1要素「E11」、第2要素「E21」、および「ドメイン#1」が対応付けて登録されている。このような情報は、トリプルID「トリプル#1」が示すトリプルとして、エンティティE11とエンティティE12と関係情報C1とが対応付けて登録されており、エンティティE21がエンティティE11の職業である旨を示す。また、このような情報は、このトリプルが「ドメイン#1」から取得された情報である旨を示す。 For example, in the example shown in FIG. 6, the triple ID "triple #1", the relationship information ID "C1", the type "occupation", the first element "E11", the second element "E21", and the "domain #1" It is associated and registered. In such information, entity E11, entity E12, and relationship information C1 are associated and registered as a triple indicated by triple ID "triple #1", indicating that entity E21 is the occupation of entity E11. Such information also indicates that this triple is information obtained from "domain #1".

信頼度テーブル33には、トリプルの取得元に応じた信頼度の情報が登録される。例えば、図7は、実施形態に係る信頼度テーブルに登録される情報の一例を示す図である。図7に示すように、信頼度テーブル33には、「ドメイン」および「信頼度」が対応付けて登録されている。ここで「ドメイン」は、トリプルの取得元となるドメインを示す情報である。例えば、図7に示す例では、ドメイン「ドメイン#1」および信頼度「80」が対応付けて登録されている。このような情報は、ドメイン「ドメイン#1」が示すドメインのコンテンツから取得したトリプルの信頼度が「80」である旨を示す。 In the reliability table 33, reliability information corresponding to the acquisition source of the triple is registered. For example, FIG. 7 is a diagram showing an example of information registered in the reliability table according to the embodiment. As shown in FIG. 7, in the reliability table 33, "domain" and "reliability" are associated and registered. Here, "domain" is information indicating a domain from which triples are obtained. For example, in the example shown in FIG. 7, the domain "domain #1" and the reliability "80" are associated and registered. Such information indicates that the reliability of the triple obtained from the content of the domain indicated by the domain "domain #1" is "80".

図4に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。 Returning to FIG. 4, the description is continued. The control unit 40 is a controller, and various programs stored in a storage device inside the information providing apparatus 10 are transferred to a RAM or the like by a processor such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit). is executed as a work area. Also, the control unit 40 is a controller, and may be implemented by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

図2に示すように、制御部40は、取得部41、紐付部42、判定部43、決定部44、登録部45、および検索部46を有する。なお、図4に示す機能構成は、図3に示すシステムSと必ずしも一致するものではないが、図3に示す各処理S1~S12の一部もしくは全体を実行することで、図3に示すシステムと同様に、トリプルの信頼度に応じて登録トリプルをナレッジデータベースに登録することで、ナレッジデータベースの精度を向上させることができる。換言すると、図4に示す機能構成は、図3に示す各処理S1~S12が発揮する主要な機能を示すものである。 As shown in FIG. 2 , the control unit 40 has an acquisition unit 41 , a linking unit 42 , a determination unit 43 , a determination unit 44 , a registration unit 45 and a search unit 46 . Although the functional configuration shown in FIG. 4 does not necessarily match the system S shown in FIG. 3, the system shown in FIG. Similarly, by registering registered triples in the knowledge database according to the reliability of the triples, the accuracy of the knowledge database can be improved. In other words, the functional configuration shown in FIG. 4 shows the main functions exhibited by the processes S1 to S12 shown in FIG.

取得部41は、ネットワーク上のコンテンツから、第1対象と第2対象と対象間の関係を示す関係情報とを含むトリプルの候補を取得する。例えば、取得部41は、データサーバ100から構造化データや半構造化データを取得し、取得したコンテンツから、第1エンティティと、第2エンティティと、各エンティティが示す対象間の関係性を示す関係情報との組であるトリプルを抽出する。なお、取得部41は、ネットワーク上のコンテンツとして、対象間の関係性があらかじめ定義されている構造化データ、若しくは、データの属性が設定された半構造化データから、トリプルを取得してもよい。 The acquisition unit 41 acquires triple candidates including a first target, a second target, and relationship information indicating the relationship between the targets from content on the network. For example, the acquisition unit 41 acquires structured data or semi-structured data from the data server 100, and from the acquired content, the first entity, the second entity, and the relationship indicating the relationship between the objects indicated by each entity. Extract triples that are pairs with information. Note that the acquisition unit 41 may acquire triples from structured data in which relationships between objects are defined in advance, or from semi-structured data in which data attributes are set, as content on the network. .

紐付部42は、取得部により取得されたトリプルに対し、取得元となるコンテンツと対応する取得元情報を紐付ける。例えば、紐付部42は、トリプルの取得元となったコンテンツを示す情報、コンテンツが属するドメインを示す情報、若しくは、取得元となったコンテンツやドメインに応じた信頼度を取得元情報としてトリプルに紐付ける。なお、紐付部42は、例えば、構造化データから取得したトリプルに対し、所定の閾値よりも高い値の信頼度を紐付け、半構造化データから取得したトリプルの候補に対し、所定の閾値よりも低い値の信頼度を紐付けてもよい。 The associating unit 42 associates the acquisition source information corresponding to the acquisition source content with the triple acquired by the acquisition unit. For example, the linking unit 42 links information indicating the content from which the triple was acquired, information indicating the domain to which the content belongs, or reliability according to the content or domain from which the triple was acquired, to the triple as the acquisition source information. wear. Note that, for example, the linking unit 42 links triples obtained from the structured data with a reliability value higher than a predetermined threshold, and triple candidates obtained from the semi-structured data have a reliability higher than the predetermined threshold. may be associated with lower confidence values.

判定部43は、異なるコンテンツから取得されたトリプルの候補が、同一の第1対象を示す第1エンティティと、同一の第2対象を示す第2エンティティと、同一の関係を示す関係情報とを含むか否かを判定する。例えば、判定部43は、各種の辞書やオントロジー等を用いて、取得部41に取得されたトリプルに含まれる各エンティティや関係情報が同一の対象や関係を示しているか否かを判定する。すなわち、判定部43は、各トリプルが同一トリプルであるか否かを判定する。 The determination unit 43 determines that triple candidates obtained from different contents include a first entity indicating the same first object, a second entity indicating the same second object, and relationship information indicating the same relationship. Determine whether or not For example, the determination unit 43 uses various dictionaries, ontologies, and the like to determine whether or not each entity and relationship information included in the triples acquired by the acquisition unit 41 indicate the same object or relationship. That is, the determination unit 43 determines whether each triple is the same triple.

決定部44は、各トリプルに対して紐付られた取得元情報に基づいて、各候補の中から登録対象とするトリプルを決定する。例えば、決定部44は、トリプルに紐付られた信頼度が所定の条件を満たす場合は、トリプルの候補を登録対象とする。また、決定部44は、同一トリプルに紐付られた信頼度の和や荷重和が所定の閾値を超える場合に、かかる同一トリプルと同じ対象の同じ関係性を示すトリプルを登録対象としてもよい。すなわち、決定部44は、それぞれ異なるコンテンツから取得された複数のトリプルであって、第1エンティティが示す第1対象と、第2エンティティが示す第2対象と、関係情報が示す関係とが一致する複数のトリプルのそれぞれと紐付られた信頼度が所定の条件を満たす場合は、各トリプルと同一内容のトリプルを登録対象としてもよい。 The determination unit 44 determines a triple to be registered from among the candidates based on the acquisition source information associated with each triple. For example, if the reliability associated with the triple satisfies a predetermined condition, the determination unit 44 sets the candidate triple as a candidate for registration. In addition, when the sum of reliability or the sum of weights associated with the same triple exceeds a predetermined threshold value, the determination unit 44 may register the triple showing the same relationship of the same target as the same triple. That is, the determination unit 44 determines that the first target indicated by the first entity, the second target indicated by the second entity, and the relationship indicated by the relationship information are the same among a plurality of triples obtained from different contents. If the reliability associated with each of a plurality of triples satisfies a predetermined condition, triples having the same content as each triple may be registered.

なお、決定部44は、取得元となるコンテンツ同士の関連性に応じた重みを用いて、荷重和の算出を行ってもよい。例えば、決定部44は、取得元となるコンテンツのドメイン同士の相対的な信頼度に応じた重みを荷重和に適用してもよい。また、例えば、決定部44は、各トリプルに対して取得元のドメインを示す取得元情報が紐付けられている場合、取得元情報と対応付けられた信頼度を信頼度テーブル33から読出し、読み出した信頼度が所定の条件を見做すか否かに基づいて、トリプルを登録対象とするか否かを決定してもよく、例えば、取得元情報が示す取得元と、同一トリプルの数とが所定の条件を満たすか否かに基づいて、トリプルを登録対象とするか否かを決定してもよい。 Note that the determination unit 44 may calculate the sum of weights using weights according to the relevance of the content that is the acquisition source. For example, the determination unit 44 may apply a weight corresponding to the relative reliability between the domains of the content that is the acquisition source to the weighted sum. Further, for example, when acquisition source information indicating an acquisition source domain is associated with each triple, the determining unit 44 reads the reliability associated with the acquisition source information from the reliability table 33, and reads out the reliability. Whether or not the triple is to be registered may be determined based on whether or not the reliability obtained satisfies a predetermined condition. For example, the acquisition source indicated by the acquisition source information and the number of identical Whether or not a triple is to be registered may be determined based on whether or not a predetermined condition is satisfied.

登録部45は、登録対象としたトリプルと取得元情報とを対応付けてデータベースに登録する。例えば、登録部45は、登録対象とされたトリプルに含まれる各エンティティの情報をエンティティデータベース31に登録する。また、登録部45は、トリプルに含まれる各エンティティのエンティティIDと関係情報と、取得元情報とを対応付けてトリプルデータベース32に登録する。 The registration unit 45 associates the triples to be registered with the acquisition source information and registers them in the database. For example, the registration unit 45 registers in the entity database 31 the information of each entity included in the triple to be registered. Further, the registration unit 45 associates the entity ID, relationship information, and acquisition source information of each entity included in the triple with each other and registers them in the triple database 32 .

検索部46は、各トリプルに紐付られた取得元情報に応じて、検索クエリと対応する情報を検索する。例えば、検索部46は、端末装置200から、検索クエリと共に、ドメインの指定を受付ける。このような場合、検索部46は、トリプルデータベース32から、端末装置200から指定されたドメインが取得元情報として紐付られたトリプルを特定し、特定したトリプルに含まれる各エンティティのデータを検索対象として、検索クエリと対応する情報を検索する。 The search unit 46 searches for information corresponding to the search query according to the acquisition source information associated with each triple. For example, the search unit 46 receives designation of a domain together with a search query from the terminal device 200 . In such a case, the search unit 46 identifies, from the triple database 32, a triple associated with the domain specified by the terminal device 200 as the acquisition source information, and searches the data of each entity included in the identified triple. , to find the search query and corresponding information.

なお、検索部46は、例えば、端末装置200から信頼度を受付けた場合、トリプルデータベース32と信頼度テーブル33とを参照し、紐付られた取得元情報が示す信頼度が端末装置200から受付けた信頼度よりも高いトリプルを特定する。そして、検索部46は、特定したトリプルに含まれる各エンティティのデータを検索対象として、検索クエリと対応する情報を検索してもよい。その後、検索部46は、検索結果を端末装置200に対して提供する。 Note that, for example, when the reliability is received from the terminal device 200, the search unit 46 refers to the triple database 32 and the reliability table 33, and the reliability indicated by the linked acquisition source information is received from the terminal device 200. Identify triples with higher than confidence. Then, the search unit 46 may search for information corresponding to the search query, with the data of each entity included in the identified triple as the search target. After that, the search unit 46 provides the terminal device 200 with the search result.

〔3.情報提供装置が実行する処理の流れの一例〕
続いて、図8を用いて、情報提供装置10が実行する決定処理の流れについて説明する。図8は、実施形態に係る情報提供装置が実行する決定処理の流れの一例を示すフローチャートである。
[3. Example of flow of processing executed by information providing device]
Next, the flow of determination processing executed by the information providing device 10 will be described with reference to FIG. FIG. 8 is a flowchart showing an example of the flow of determination processing executed by the information providing device according to the embodiment.

まず、情報提供装置10は、各コンテンツからトリプルを取得する(ステップS101)。続いて、情報提供装置10は、トリプルの取得元に対応する取得元情報をトリプルに紐付ける(ステップS102)。また、情報提供装置10は、同一の関連性を示すトリプルを特定する(ステップS103)。そして、情報提供装置10は、特定した各トリプルに紐付られた取得元情報に基づいて、これらのトリプルが示す関連性を示すトリプルを登録対象とするか否かを決定する(ステップS104)。その後、情報提供装置10は、登録対象としたトリプルを、取得元情報を紐付けた状態でデータベースに登録し(ステップS105)、処理を終了する。 First, the information providing apparatus 10 acquires triples from each content (step S101). Subsequently, the information providing apparatus 10 associates the acquisition source information corresponding to the acquisition source of the triple with the triple (step S102). Further, the information providing device 10 identifies triples showing the same relationship (step S103). Then, the information providing apparatus 10 determines whether or not the triples indicating the relationships indicated by these triples are to be registered, based on the acquisition source information associated with the identified triples (step S104). After that, the information providing apparatus 10 registers the triple to be registered in the database in a state of being associated with the acquisition source information (step S105), and ends the process.

続いて、図9を用いて、情報提供装置10が実行する検索処理の流れについて説明する。図9は、実施形態に係る情報提供装置が実行する検索処理の流れの一例を示すフローチャートである。 Next, with reference to FIG. 9, the flow of search processing executed by the information providing device 10 will be described. FIG. 9 is a flowchart illustrating an example of the flow of search processing executed by the information providing device according to the embodiment.

まず、情報提供装置10は、端末装置200から検索クエリを受付けたか否かを判定し(ステップS201)、受付けていない場合は(ステップS201:No)、処理を待機する。一方、情報提供装置10は、検索クエリを受付けた場合は(ステップS201:Yes)、各トリプルのうち、検索クエリが示す取得元と対応するトリプルを特定する(ステップS202)。そして、情報提供装置10は、特定したトリプルを辿り、検索クエリと対応するエンティティを検索する(ステップS203)。その後、情報提供装置10は、検索結果を提供し(ステップS204)、処理を終了する。 First, the information providing apparatus 10 determines whether or not a search query has been received from the terminal device 200 (step S201), and if not (step S201: No), waits for processing. On the other hand, when a search query is received (step S201: Yes), the information providing apparatus 10 identifies a triple corresponding to the acquisition source indicated by the search query (step S202). Then, the information providing apparatus 10 traces the identified triples and searches for entities corresponding to the search query (step S203). After that, the information providing device 10 provides the search result (step S204) and terminates the process.

〔4.変形例〕
上記では、情報提供装置10による決定処理および検索処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する決定処理および検索処理のバリエーションについて説明する。
[4. Modification]
An example of the determination process and the search process by the information providing apparatus 10 has been described above. However, embodiments are not so limited. Variations of determination processing and search processing executed by the information providing apparatus 10 will be described below.

〔4-1.エンティティの種別について〕
上述した例では、ナレッジデータベースの一例として、人物と作品との関連性を示すトリプル等を説明したが、実施形態は、これに限定されるものではない。すなわち、情報提供装置10は、任意の物事を示すナレッジデータベースの更新を行ってよい。
[4-1. About the type of entity]
In the above example, as an example of the knowledge database, triples and the like indicating the relationship between a person and a work have been described, but embodiments are not limited to this. In other words, the information providing device 10 may update the knowledge database indicating arbitrary matters.

〔4-2.装置構成〕
情報提供装置10は、自装置でナレッジデータベースを管理せずともよい。例えば、記憶部30に登録された各データベース31~33は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、検索処理を実現するフロントエンドサーバと、決定処理を実現するバックエンドサーバとで実現されてもよい。このような場合、バックエンドサーバには、図4に示す各部41~45が配置され、フロントエンドサーバには、ナレッジデータベースに検索を行う機能を発揮するための検索部46が配置される。
[4-2. Device configuration〕
The information providing device 10 may not manage the knowledge database by itself. For example, each database 31 to 33 registered in the storage unit 30 may be held in an external storage server. Further, the information providing apparatus 10 may be implemented by a front-end server that implements search processing and a back-end server that implements determination processing. In such a case, the units 41 to 45 shown in FIG. 4 are arranged in the back-end server, and the search unit 46 for performing the function of searching the knowledge database is arranged in the front-end server.

〔4-3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[4-3. others〕
Further, among the processes described in the above embodiments, all or part of the processes described as being automatically performed can be manually performed, and conversely, the processes described as being performed manually can be performed manually. can also be performed automatically by known methods. In addition, information including processing procedures, specific names, various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each drawing is not limited to the illustrated information.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Also, each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Moreover, each of the embodiments described above can be appropriately combined within a range that does not contradict the processing contents.

〔4-4.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図10に示すような構成のコンピュータ1000によって実現される。図10は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
[4-4. program〕
Also, the information providing apparatus 10 according to the above-described embodiment is implemented by a computer 1000 configured as shown in FIG. 10, for example. FIG. 10 is a diagram illustrating an example of a hardware configuration; A computer 1000 is connected to an output device 1010 and an input device 1020, and an arithmetic device 1030, a primary storage device 1040, a secondary storage device 1050, an output IF (Interface) 1060, an input IF 1070, and a network IF 1080 are connected via a bus 1090. have

演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。 The arithmetic device 1030 operates based on programs stored in the primary storage device 1040 and the secondary storage device 1050, programs read from the input device 1020, and the like, and executes various processes. The primary storage device 1040 is a memory device such as a RAM that temporarily stores data used by the arithmetic device 1030 for various calculations. The secondary storage device 1050 is a storage device in which data used for various calculations by the arithmetic device 1030 and various databases are registered. It is realized by

出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。 The output IF 1060 is an interface for transmitting information to be output to the output device 1010 that outputs various types of information such as a monitor and a printer. It is realized by a connector conforming to a standard such as HDMI (registered trademark) (High Definition Multimedia Interface). Also, the input IF 1070 is an interface for receiving information from various input devices 1020 such as a mouse, keyboard, scanner, etc., and is realized by, for example, USB.

なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。 Note that the input device 1020 includes, for example, optical recording media such as CDs (Compact Discs), DVDs (Digital Versatile Discs), PDs (Phase change rewritable discs), magneto-optical recording media such as MOs (Magneto-Optical discs), and tapes. It may be a device that reads information from a medium, a magnetic recording medium, a semiconductor memory, or the like. Also, the input device 1020 may be an external storage medium such as a USB memory.

ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。 Network IF 1080 receives data from other devices via network N and sends the data to arithmetic device 1030, and also transmits data generated by arithmetic device 1030 via network N to other devices.

演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。 The arithmetic device 1030 controls the output device 1010 and the input device 1020 via the output IF 1060 and the input IF 1070 . For example, arithmetic device 1030 loads a program from input device 1020 or secondary storage device 1050 onto primary storage device 1040 and executes the loaded program.

例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。 For example, when the computer 1000 functions as the information providing device 10 , the arithmetic device 1030 of the computer 1000 implements the functions of the control unit 40 by executing programs loaded on the primary storage device 1040 .

〔5.効果〕
上述したように、情報提供装置10は、ネットワーク上のコンテンツから、第1対象と第2対象と対象間の関係を示す関係情報とを含むトリプルの候補を取得する。また、情報提供装置10は、取得された候補に対し、候補の取得元となるコンテンツと対応する取得元情報を紐付ける。そして、情報提供装置10は、各候補に対して紐付られた取得元情報に基づいて、候補の中から登録対象とするトリプルを決定する。このような処理の結果、情報提供装置10は、例えば、信頼性が高い取得元から取得されたトリプルを登録対象とするので、自動でナレッジデータベースを拡張しつつ、信頼性を担保することができる結果、有用なナレッジデータベースを提供することができる。
[5. effect〕
As described above, the information providing apparatus 10 acquires triple candidates including the first object, the second object, and the relationship information indicating the relationship between the objects from the content on the network. In addition, the information providing apparatus 10 associates the acquired candidate with the acquisition source information corresponding to the content from which the candidate is acquired. Then, the information providing apparatus 10 determines triples to be registered from among the candidates based on the acquisition source information associated with each candidate. As a result of such processing, the information providing apparatus 10 registers, for example, triples acquired from a highly reliable acquisition source, so that the reliability can be ensured while automatically expanding the knowledge database. As a result, a useful knowledge database can be provided.

ここで、情報提供装置10は、取得元情報として、コンテンツに対する信頼性を示す数値である信頼度を紐付けてもよい。また、情報提供装置10は、取得元情報として、コンテンツのドメインに応じた信頼度を紐付けてもよい。そして、情報提供装置10は、トリプルの候補に紐付られた信頼度が所定の条件を満たす場合は、トリプルの候補を登録対象とする。例えば、情報提供装置10は、それぞれ異なるコンテンツから取得された複数の候補であって、第1対象と、第2対象と、関係情報とが一致する複数の候補のそれぞれと紐付られた信頼度が所定の条件を満たす場合は、第1対象と、第2対象と、関係情報とを含むトリプルを登録対象とする。なお、情報提供装置10は、第1対象と、第2対象と、関係情報とが一致する複数の候補に紐付られた信頼度の荷重和が所定の閾値を超える場合は、第1対象と、第2対象と、関係情報とを含むトリプルを登録対象としてもよい。このような処理の結果、情報提供装置10は、登録するトリプルの信頼性を担保することができるので、有用なナレッジデータベースを提供することができる。 Here, the information providing apparatus 10 may associate reliability, which is a numerical value indicating the reliability of the content, as the acquisition source information. Further, the information providing apparatus 10 may link the reliability according to the domain of the content as the acquisition source information. Then, when the reliability associated with the triple candidate satisfies a predetermined condition, the information providing apparatus 10 registers the triple candidate. For example, the information providing apparatus 10 is a plurality of candidates acquired from different contents, and the reliability associated with each of the plurality of candidates that match the first target, the second target, and the relationship information is When a predetermined condition is satisfied, a triple containing the first target, the second target, and the relational information is registered. Note that when the weighted sum of the degrees of reliability associated with a plurality of candidates whose relationship information matches the first target, the second target, and the relationship information exceeds a predetermined threshold, the information providing apparatus 10 determines that the first target, A triple that includes the second target and related information may be registered. As a result of such processing, the information providing apparatus 10 can ensure the reliability of the triples to be registered, and thus can provide a useful knowledge database.

また、情報提供装置10は、各候補の取得元となるコンテンツ同士の関連性に応じた重みを用いて、第1対象と、第2対象と、関係情報とが一致する複数の候補に紐付られた信頼度の荷重和を算出してもよい。この結果、情報提供装置10は、例えば、コンテンツ同士の関連性を考慮して、トリプルの信頼性を算出するので、登録するトリプルの信頼性をさらに向上させることができる。 In addition, the information providing apparatus 10 uses a weight according to the relationship between the content from which each candidate is acquired, and associates a plurality of candidates whose first target, second target, and related information match each other. A weighted sum of the reliability may be calculated. As a result, the information providing apparatus 10 calculates the reliability of triples in consideration of the relationship between contents, for example, so that the reliability of triples to be registered can be further improved.

また、情報提供装置10は、ネットワーク上のコンテンツとして、対象間の関係性があらかじめ定義されている構造化データ、若しくは、データの属性が設定された半構造化データから、トリプルの候補を取得する。ここで、情報提供装置10は、構造化データから取得したトリプルの候補に対し、所定の閾値よりも高い値の信頼度を紐付け、半構造化データから取得したトリプルの候補に対し、所定の閾値よりも低い値の信頼度を紐付けてもよい。このため、情報提供装置10は、ナレッジデータベースの自動的な拡張を実現するとともに、信頼性の高いナレッジデータベースを提供することができる。 In addition, the information providing apparatus 10 acquires triple candidates from structured data in which relationships between objects are defined in advance, or semi-structured data in which data attributes are set, as content on the network. . Here, the information providing apparatus 10 associates the triple candidate acquired from the structured data with a reliability value higher than a predetermined threshold value, and associates the triple candidate acquired from the semi-structured data with a predetermined Confidence values lower than a threshold value may be associated. Therefore, the information providing apparatus 10 can automatically expand the knowledge database and provide a highly reliable knowledge database.

また、情報提供装置10は、異なるコンテンツから取得されたトリプルの候補が、同一の第1対象を示す第1要素と、同一の第2対象を示す第2要素と、同一の関係を示す関係情報とを含むか否かを判定する。そして、情報提供装置10は、同一の第1対象を示す第1要素と、同一の第2対象を示す第2要素と、同一の関係を示す関係情報とを含むと判定された複数のトリプルの候補に紐付られた取得元情報に基づいて、候補を登録対象とするか否かを決定する。このため、情報提供装置10は、ナレッジデータベースに登録されるトリプルの信頼性を担保することができる。 Further, the information providing apparatus 10 determines that triple candidates obtained from different contents have the same relationship between the first element indicating the same first target, the second element indicating the same second target, and the relationship information indicating the same relationship. and is included. Then, the information providing apparatus 10 selects a plurality of triples determined to include the first element indicating the same first target, the second element indicating the same second target, and the relationship information indicating the same relationship. Based on the acquisition source information associated with the candidate, it is determined whether or not the candidate is to be registered. Therefore, the information providing device 10 can ensure the reliability of triples registered in the knowledge database.

また、情報提供装置10は、取得元情報が所定の条件を満たす場合は、第1対象を示す第1要素と、第2対象を示す第2要素と、関係を示す関係情報とを含むトリプルを登録対象とする。このため、情報提供装置10は、登録するトリプルの信頼性を担保することができる。 Further, when the acquisition source information satisfies a predetermined condition, the information providing apparatus 10 generates a triple including a first element indicating a first target, a second element indicating a second target, and relationship information indicating a relationship. Subject to registration. Therefore, the information providing device 10 can ensure the reliability of the registered triples.

また、情報提供装置10は、登録対象としたトリプルと取得元情報とを対応付けてデータベースに登録する。このため、情報提供装置10は、例えば、取得元や取得元の信頼性を考慮した検索を実現可能なナレッジデータベースを提供することができる。 Further, the information providing apparatus 10 associates the triples to be registered with the acquisition source information and registers them in the database. Therefore, the information providing apparatus 10 can provide, for example, a knowledge database capable of realizing a search in consideration of the source of acquisition and the reliability of the source of acquisition.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 As described above, some of the embodiments of the present application have been described in detail based on the drawings. It is possible to carry out the invention in other forms with modifications.

また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、付与部は、特定手段や特定回路に読み替えることができる。 Also, the "section, module, unit" described above can be read as "means" or "circuit". For example, the assigning unit can be read as specifying means or a specifying circuit.

10 情報提供装置
20 通信部
30 記憶部
31 エンティティデータベース
32 トリプルデータベース
33 信頼度テーブル
40 制御部
41 取得部
42 紐付部
43 判定部
44 決定部
45 登録部
46 検索部
100 データサーバ
200、201、202 端末装置
10 information providing device 20 communication unit 30 storage unit 31 entity database 32 triple database 33 reliability table 40 control unit 41 acquisition unit 42 linking unit 43 determination unit 44 determination unit 45 registration unit 46 search unit 100 data server 200, 201, 202 terminal Device

Claims (14)

コンテンツから、所定の関係性を有する第1対象と第2対象とを所定のデータベースに対する登録対象の候補として取得する取得部と、
前記候補の取得元となるコンテンツに関する情報に基づいて、前記候補のうち登録対象とする候補を決定する決定部と
を有することを特徴とする決定装置。
an acquisition unit that acquires, from content, a first target and a second target having a predetermined relationship as candidates for registration in a predetermined database;
and a determination unit configured to determine candidates to be registered among the candidates based on information about content from which the candidates are acquired.
前記決定部は、前記取得元となるコンテンツに関する情報として、前記コンテンツに対する信頼性を示す数値である信頼度に基づいて、登録対象を決定する
ことを特徴とする請求項1に記載の決定装置。
2. The determining device according to claim 1, wherein the determination unit determines a registration target based on reliability, which is a numerical value indicating reliability of the content, as the information regarding the content that is the acquisition source.
前記決定部は、前記取得元となるコンテンツに関する情報として、前記コンテンツのドメインに応じた信頼度に基づいて、登録対象を決定する
ことを特徴とする請求項2に記載の決定装置。
3. The determining device according to claim 2, wherein the determination unit determines a registration target based on reliability according to a domain of the content as the information regarding the content that is the acquisition source.
前記決定部は、前記候補に紐付られた信頼度が所定の条件を満たす場合は、当該候補を登録対象とする
ことを特徴とする請求項2または3に記載の決定装置。
The determination device according to claim 2 or 3, wherein, when the reliability associated with the candidate satisfies a predetermined condition, the determination unit treats the candidate as a registration target.
前記決定部は、それぞれ異なるコンテンツから取得された複数の候補であって、前記第1対象と、前記第2対象と、当該第1対象と当該第2対象との間の関係を示す関係情報とが一致する複数の候補のそれぞれと紐付られた信頼度が所定の条件を満たす場合は、当該第1対象と、当該第2対象と、当該関係情報とを含むトリプルを登録対象とする
ことを特徴とする請求項2~4のうちいずれか1つに記載の決定装置。
The determination unit includes a plurality of candidates obtained from different contents, the first target, the second target, and relationship information indicating a relationship between the first target and the second target. If the reliability associated with each of a plurality of candidates that match , satisfies a predetermined condition, the triple containing the first target, the second target, and the relevant information is registered. The decision device according to any one of claims 2 to 4, wherein:
前記決定部は、前記第1対象と、前記第2対象と、前記関係情報とが一致する複数の候補に紐付られた信頼度の荷重和が所定の閾値を超える場合は、当該第1対象と、当該第2対象と、当該関係情報とを含むトリプルを登録対象とする
ことを特徴とする請求項5に記載の決定装置。
When the weighted sum of the degrees of reliability associated with a plurality of candidates that match the first target, the second target, and the relationship information exceeds a predetermined threshold, the determination unit determines that the first target and 6. The determining apparatus according to claim 5, wherein a triple including said second target and said related information is registered.
前記決定部は、各候補の取得元となるコンテンツ同士の関連性に応じた重みを用いて、前記第1対象と、前記第2対象と、前記関係情報とが一致する複数の候補に紐付られた信頼度の荷重和を算出する
ことを特徴とする請求項6に記載の決定装置。
The determining unit associates a plurality of candidates with matching first target, second target, and related information using a weight according to the relationship between content from which each candidate is acquired. 7. The decision device according to claim 6, further comprising: calculating a weighted sum of the reliability degrees obtained by
前記取得部は、前記コンテンツとして、対象間の関係性があらかじめ定義されている構造化データ、若しくは、データの属性が設定された半構造化データから、前記候補を取得する
ことを特徴とする請求項1~7のうちいずれか1つに記載の決定装置。
The acquisition unit acquires the candidate from structured data in which relationships between objects are defined in advance, or from semi-structured data in which data attributes are set, as the content. Clause 8. A decision device according to any one of clauses 1-7.
前記決定部は、前記構造化データから取得した候補が所定の閾値よりも高い値の信頼度を有し、前記半構造化データから取得した候補が前記所定の閾値よりも低い値の信頼度を有するものとして、前記候補のうち信頼度が所定の条件を満たす候補を登録対象とする候補に決定する
ことを特徴とする請求項8に記載の決定装置。
The determination unit determines that the candidate obtained from the structured data has a reliability value higher than a predetermined threshold, and the candidate obtained from the semi-structured data has a reliability value lower than the predetermined threshold. 9. The determining device according to claim 8, wherein, among the candidates, a candidate whose reliability satisfies a predetermined condition is determined as a candidate to be registered.
異なるコンテンツから取得された候補が、同一の第1対象を示す第1要素と、同一の第2対象を示す第2要素とを含むか否かを判定する判定部
を有し、
前記決定部は、同一の第1対象を示す第1要素と、同一の第2対象を示す第2要素とを含むと判定された複数の候補の取得元となるコンテンツに関する情報に基づいて、当該候補を登録対象とするか否かを決定する
ことを特徴とする請求項1~9のうちいずれか1つに記載の決定装置。
a determination unit that determines whether or not candidates acquired from different contents include a first element indicating the same first target and a second element indicating the same second target,
The determining unit determines, based on information about content from which a plurality of candidates are acquired that are determined to include a first element indicating the same first target and a second element indicating the same second target, 10. The determining device according to any one of claims 1 to 9, which determines whether or not the candidate is to be registered.
前記決定部は、前記取得元となるコンテンツに関する情報が所定の条件を満たす場合は、前記第1対象を示す第1要素と、前記第2対象を示す第2要素と、当該第1対象と当該第2対象との間の関係を示す関係情報とを含むトリプルを登録対象とする
ことを特徴とする請求項10に記載の決定装置。
The determining unit, when the information about the content as the acquisition source satisfies a predetermined condition, a first element indicating the first target, a second element indicating the second target, and the first target and the target. 11. The determining device according to claim 10, wherein triples including relational information indicating a relationship with the second object are to be registered.
前記決定部が登録対象としたトリプルと前記取得元となるコンテンツに関する情報とを対応付けてデータベースに登録する登録部
を有することを特徴とする請求項1~11のうちいずれか1つに記載の決定装置。
12. The method according to any one of claims 1 to 11, further comprising a registration unit that associates the triples to be registered by the determination unit with information about the content that is the acquisition source and registers the triples in a database. decision device.
決定装置が実行する決定方法であって、
コンテンツから、所定の関係性を有する第1対象と第2対象とを所定のデータベースに対する登録対象の候補として取得する取得工程と、
前記候補の取得元となるコンテンツに関する情報に基づいて、前記候補のうち登録対象とする候補を決定する決定工程と
を含むことを特徴とする決定方法。
A decision method executed by a decision device,
an obtaining step of obtaining, from the content, a first target and a second target having a predetermined relationship as candidates for registration in a predetermined database;
and a determining step of determining candidates to be registered among the candidates based on information about content from which the candidates are acquired.
コンテンツから、所定の関係性を有する第1対象と第2対象とを所定のデータベースに対する登録対象の候補として取得する取得手順と、
前記候補の取得元となるコンテンツに関する情報に基づいて、前記候補のうち登録対象とする候補を決定する決定手順と
をコンピュータに実行させるための決定プログラム。
an acquisition procedure for acquiring, from content, a first target and a second target having a predetermined relationship as candidates for registration in a predetermined database;
A determination program for causing a computer to execute a determination procedure for determining candidates to be registered among the candidates based on information about content from which the candidates are acquired.
JP2021078771A 2019-05-23 2021-05-06 Decision device, decision method and decision program Active JP7273888B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021078771A JP7273888B2 (en) 2019-05-23 2021-05-06 Decision device, decision method and decision program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019096910A JP6882372B2 (en) 2019-05-23 2019-05-23 Decision device, decision method, and decision program
JP2021078771A JP7273888B2 (en) 2019-05-23 2021-05-06 Decision device, decision method and decision program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019096910A Division JP6882372B2 (en) 2019-05-23 2019-05-23 Decision device, decision method, and decision program

Publications (2)

Publication Number Publication Date
JP2021152905A JP2021152905A (en) 2021-09-30
JP7273888B2 true JP7273888B2 (en) 2023-05-15

Family

ID=73453810

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019096910A Active JP6882372B2 (en) 2019-05-23 2019-05-23 Decision device, decision method, and decision program
JP2021078771A Active JP7273888B2 (en) 2019-05-23 2021-05-06 Decision device, decision method and decision program

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019096910A Active JP6882372B2 (en) 2019-05-23 2019-05-23 Decision device, decision method, and decision program

Country Status (1)

Country Link
JP (2) JP6882372B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002446A (en) 2012-06-15 2014-01-09 Sony Corp Information processing apparatus and program
JP2018005690A (en) 2016-07-05 2018-01-11 富士ゼロックス株式会社 Information processing apparatus and program
JP2018151800A (en) 2017-03-10 2018-09-27 ヤフー株式会社 Application device, application method and application program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002446A (en) 2012-06-15 2014-01-09 Sony Corp Information processing apparatus and program
JP2018005690A (en) 2016-07-05 2018-01-11 富士ゼロックス株式会社 Information processing apparatus and program
JP2018151800A (en) 2017-03-10 2018-09-27 ヤフー株式会社 Application device, application method and application program

Also Published As

Publication number Publication date
JP6882372B2 (en) 2021-06-02
JP2020190997A (en) 2020-11-26
JP2021152905A (en) 2021-09-30

Similar Documents

Publication Publication Date Title
KR102564144B1 (en) Method, apparatus, device and medium for determining text relevance
Kim et al. Similarity matching for integrating spatial information extracted from place descriptions
US9990422B2 (en) Contextual analysis engine
US10430806B2 (en) Input/output interface for contextual analysis engine
US10235681B2 (en) Text extraction module for contextual analysis engine
US9418138B2 (en) Method and system for determining sets of variant items
US7505984B1 (en) Systems and methods for information extraction
JP4878624B2 (en) Document processing apparatus and document processing method
CN112100396B (en) Data processing method and device
JP2015518210A (en) Method, apparatus and computer-readable medium for organizing data related to products
Sleeman et al. Entity type recognition for heterogeneous semantic graphs
KR20180129001A (en) Method and System for Entity summarization based on multilingual projected entity space
Grigalis Towards web-scale structured web data extraction
JP6321845B1 (en) Granting device, granting method, and granting program
Xu et al. Application of rough concept lattice model in construction of ontology and semantic annotation in semantic web of things
WO2016067396A1 (en) Sentence sorting method and computer
JP7273888B2 (en) Decision device, decision method and decision program
US11409773B2 (en) Selection device, selection method, and non-transitory computer readable storage medium
JP6680472B2 (en) Information processing apparatus, information processing method, and information processing program
Kumara et al. Ontology learning with complex data type for Web service clustering
KR20220041336A (en) Graph generation system of recommending significant keywords and extracting core documents and method thereof
WO2013150633A1 (en) Document processing system and document processing method
CN113656574B (en) Method, computing device and storage medium for search result ranking
Misale et al. A survey on recommendation system for technical paper reviewer assignment
US11704350B2 (en) Search term extraction and optimization from natural language text files

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220419

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230428

R150 Certificate of patent or registration of utility model

Ref document number: 7273888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350