JP7273888B2 - Decision device, decision method and decision program - Google Patents
Decision device, decision method and decision program Download PDFInfo
- Publication number
- JP7273888B2 JP7273888B2 JP2021078771A JP2021078771A JP7273888B2 JP 7273888 B2 JP7273888 B2 JP 7273888B2 JP 2021078771 A JP2021078771 A JP 2021078771A JP 2021078771 A JP2021078771 A JP 2021078771A JP 7273888 B2 JP7273888 B2 JP 7273888B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- target
- triple
- candidates
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000012545 processing Methods 0.000 description 38
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、決定装置、決定方法、および決定プログラムに関する。 The present invention relates to a determination device, a determination method, and a determination program.
従来、人物や事象等の概念をエンティティとし、エンティティ間の関係性を構造化したナレッジベースと呼ばれる技術が知られている。また、このようなナレッジデータベースを効率的に作成するため、エンティティのクラスタリングを行い、クラスタリングの結果に基づいて、エンティティ間の関係性を更新する技術が知られている。 Conventionally, there is known a technique called a knowledge base in which concepts such as people and events are treated as entities and relationships between the entities are structured. Also, in order to efficiently create such a knowledge database, there is known a technique of clustering entities and updating relationships between entities based on the clustering results.
しかしながら、上述した技術では、有用なナレッジデータベースを提供しているとは言えない場合があった。 However, there are cases where it cannot be said that the above-described technology provides a useful knowledge database.
例えば、ナレッジデータベースにエンティティを登録する手法として、インターネット等のネットワーク上に投稿されたコンテンツから新たなエンティティと、エンティティ間の関係性を抽出し、抽出したエンティティと関係性とを登録する手法が考えられる。しかしながら、ネットワーク上のコンテンツを用いた場合、エンティティ間の関連性として誤った情報を登録してしまう恐れがある。 For example, as a method of registering entities in a knowledge database, a method of extracting new entities and relationships between entities from content posted on a network such as the Internet and registering the extracted entities and relationships can be considered. be done. However, when content on a network is used, there is a risk of registering incorrect information as relationships between entities.
本願は、上記に鑑みてなされたものであって、有用なナレッジデータベースを提供することを目的とする。 The present application has been made in view of the above, and an object thereof is to provide a useful knowledge database.
本願に係る決定装置は、コンテンツから、所定の関係性を有する第1対象と第2対象とを所定のデータベースに対する登録対象の候補として取得する取得部と、前記候補の取得元となるコンテンツに関する情報に基づいて、前記候補のうち登録対象とする候補を決定する決定部とを有することを特徴とする。 A determination device according to the present application includes an acquisition unit that acquires, from content, a first target and a second target that have a predetermined relationship as candidates for registration in a predetermined database, and information about the content from which the candidates are obtained. and a determination unit that determines a candidate to be registered among the candidates based on the above.
実施形態の一態様によれば、有用なナレッジデータベースを生成することができる。 According to one aspect of an embodiment, a useful knowledge database can be generated.
以下に、本願に係る決定装置、決定方法、および決定プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る決定装置、決定方法、および決定プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Embodiments for carrying out the determining device, determining method, and determining program according to the present application (hereinafter referred to as "embodiments") will be described in detail below with reference to the drawings. Note that the determination device, determination method, and determination program according to the present application are not limited to this embodiment. Further, each embodiment can be appropriately combined within a range that does not contradict the processing contents. Also, in each of the following embodiments, the same parts are denoted by the same reference numerals, and overlapping descriptions are omitted.
〔1.情報提供装置について〕
まず、図1を用いて、決定装置の一例である情報提供装置10が実行する処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する決定処理の一例を示す図である。図1では、情報提供装置10が実行する処理として、知識を体系化、組織化した情報が登録されるナレッジデータベースに登録する新たなトリプルを決定する決定処理の一例について説明する。
[1. About the information providing device]
First, with reference to FIG. 1, an example of processing executed by an
〔1-1.情報提供装置の概要〕
情報提供装置10は、インターネット等の所定のネットワークN(例えば、図4を参照。)を介して、データサーバ100および端末装置200と通信可能な情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。なお、情報提供装置10は、ネットワークNを介して、任意の数のデータサーバ100や端末装置200と通信可能であってよい。
[1-1. Overview of Information Providing Device]
The
データサーバ100は、各種の情報を管理する情報処理装置であり、例えば、サーバ装置やクラウドシステムにより実現される。例えば、データサーバ100は、予め情報間の関係性が構造として定義され、このような構造を有するデータが登録されたウィキデータや既に構築済みのナレッジデータベース等の構造化データが登録されている。また、データサーバ100は、HTML(Hyper Text Markup Language)やXML(Extensible Markup Language)等のタグ言語等を用いて、各種のデータに対して属性を示す情報が付与された半構造化データが登録されている。
The
なお、データサーバ100は、任意の内容の情報を含む構造化データや半構造化データを管理していてよい。例えば、データサーバ100は、ウェブ検索、路線検索、電子商店街における取引対象の検索、地図検索、コンテンツ検索等、任意の検索における検索クエリのログ等を含むデータを管理してもよい。また、例えば、データサーバ100は、ウェブサイト上に投稿されたニュース、ブログ、SNS(Social Networking Service)等を管理していてもよい。また、データサーバ100は、人物、物体、建築物、コンテンツ、事象等、各種の対象を説明する説明コンテンツの管理を行っていてもよい。また、例えば、データサーバ100は、ウィキペディア(登録商標)やインターネットを介した辞書サービス等、ナレッジデータベースにおいてエンティティの対象となりえる各種の対象を説明するコンテンツである説明コンテンツの管理を行っていてもよい。
Note that the
端末装置200は、利用者が利用する端末装置であり、例えば、PC(Personal Computer)やサーバ装置、各種のスマートデバイス等により実現される。例えば、端末装置200は、利用者から各種の情報の入力を受付けると、情報提供装置10と通信を行い、通信結果となる情報を出力する機能を有する。
The
このような構成の元、例えば、情報提供装置10は、端末装置200からの要求に基づいて、ナレッジデータベースに登録された各種情報の提供を行う。例えば、端末装置200は、ナレッジデータベースの検索を行う際の検索クエリを情報提供装置10に送信する。このような場合、情報提供装置10は、検索クエリと対応する情報をナレッジデータベースから検索し、検索結果を利用者端末へと提供する。
Based on such a configuration, for example, the
〔1-2.ナレッジデータベースの概要〕
ここで、情報提供装置10が検索するナレッジデータベースについて説明する。ナレッジデータベースには、各種の知識が体系化、組織化された状態で登録されている。例えば、ナレッジデータベースには、登録される2つのエンティティと、エンティティが示す対象間の関係性を示す情報(以下、「関係情報」と記載する。)との組であるトリプルが登録されている。
[1-2. Overview of Knowledge Database]
Here, the knowledge database searched by the
ここで、エンティティは、実世界における人物、物体、建築物等の主語となりうる各種の物、職業や国籍等といった属性、各種の状態や事象等、世の中における各種の物事に対応する情報である。なお、以下の説明では、エンティティに対応する各種の物事を「対象」と記載する場合がある。 Here, an entity is information corresponding to various things in the world, such as various things that can be subjects such as people, objects, and buildings in the real world, attributes such as occupation and nationality, and various states and events. In the following description, various things corresponding to entities may be referred to as "objects".
また、関係情報は、2つのエンティティ間の関係性を示す情報である。より具体的には、関係情報は、第1エンティティが示す第1対象と、第2エンティティが示す第2対象との間の関係性を示す情報である。例えば、情報提供装置10は、第1対象が人物であり、第2対象が書籍であり、第1対象が第2対象の著者である場合は、関係情報として「著者」や「auther」といった情報の登録を受付けることとなる。
Relationship information is information indicating the relationship between two entities. More specifically, the relationship information is information indicating the relationship between the first object indicated by the first entity and the second object indicated by the second entity. For example, when the first target is a person, the second target is a book, and the first target is the author of the second target, the
なお、情報提供装置10が有するナレッジデータベースにおけるエンティティは、任意の物事や事象と対応していてよい。例えば、情報提供装置10は、第1対象と第2対象が人物であり、第1対象が第2対象の親や伴侶であるといったトリプルを管理していてもよい。また、情報提供装置10は、第1対象と第2対象とが食品であり、第1対象が第2対象の材料であるといったトリプルを管理してもよい。すなわち、情報提供装置10は、任意の対象間における任意の関係性を示すトリプルを管理することで、対象間の関連性や事象を示す情報、すなわち、知識ベースを管理することとなる。
An entity in the knowledge database of the
〔1-3.決定処理について〕
ここで、ナレッジデータベースに新たなトリプルを登録する処理を考える。このようなナレッジデータベースに新たなトリプルを登録するには、各対象を示す文字列のみならず、対象が他の対象とどのような関係を有するかを示す関係情報が必要となる。このようなトリプルを効率よくナレッジデータベースに追加するため、ニュース記事等、インターネット上に投稿されたコンテンツからトリプルを抽出するといった手法が考えられる。しかしながら、このようなインターネット上に投稿されたコンテンツには、誤った情報も含まれるため、必ずしも正しいトリプルを抽出することができるとは言えない場合がある。
[1-3. About decision processing]
Now consider the process of registering a new triple in the knowledge database. Registering a new triple in such a knowledge database requires not only a character string indicating each target, but also relationship information indicating what kind of relationship the target has with other targets. In order to efficiently add such triples to the knowledge database, a method of extracting triples from content posted on the Internet, such as news articles, is conceivable. However, since such content posted on the Internet includes incorrect information, it may not always be possible to extract correct triples.
そこで、情報提供装置10は、以下の決定処理を実行する。まず、情報提供装置10は、ネットワーク上のコンテンツから、第1対象と第2対象と対象間の関係を示す関係情報とを含むトリプルの候補を取得する。続いて、情報提供装置10は、取得された候補に対し、候補の取得元となるコンテンツと対応する取得元情報を紐付ける。そして、情報提供装置10は、各候補に対して紐付られた取得元情報に基づいて、候補の中から登録対象とするトリプルを決定する。
Therefore, the
例えば、ウィキペディア等、複数の利用者によって内容の正確性が検証されるドメインのコンテンツから抽出されるトリプルは、個人のブログやSNS等のドメインに投稿されたコンテンツから抽出したトリプルよりも正確性が高いと推定される。そこで、情報提供装置10は、各トリプルの候補の取得元となる取得元情報を各トリプルの候補に紐付けておく。そして、情報提供装置10は、あるトリプルの候補に紐付られた取得元情報が信頼できる取得元を示す場合は、かかるトリプルの候補を登録対象とする。
For example, triples extracted from domain content whose accuracy is verified by multiple users, such as Wikipedia, are more accurate than triples extracted from content posted on domains such as personal blogs and SNS. estimated to be high. Therefore, the
ここで、個人のブログやSNS等に投稿されたコンテンツから抽出したトリプルであっても、多くのコンテンツに同一内容のトリプル、すなわち、同一の対象間における同一の関係性を示すトリプルが含まれる場合、かかるトリプルは、正しい情報を示していると推定される。そこで、情報提供装置10は、同一内容のトリプルの候補であって、各トリプルに紐付られた取得元情報が所定の条件を満たす場合は、各トリプルの候補と同一内容のトリプルを登録対象とする。すなわち、情報提供装置10は、各トリプルの候補に紐付られた取得元情報に基づいて、各トリプルの候補が示す内容の信頼性が所定の閾値を超えるか否かを判定し、信頼性が所定の閾値を超える場合は、各トリプルの候補が示す内容のトリプルを登録対象とする。
Here, even if triples are extracted from content posted on personal blogs, SNS, etc., when many contents contain triples with the same content, that is, triples showing the same relationship between the same objects , such triples are presumed to indicate the correct information. Therefore, if the
例えば、情報提供装置10は、各トリプルの候補に対し、各トリプルの候補の取得元となるコンテンツの信頼性を示す数値である信頼度を紐付ける。より具体的な例を挙げると、情報提供装置10は、各トリプルの候補の取得元となるドメインに応じた信頼度を紐付ける。すなわち、情報提供装置10は、各トリプルの候補に対し、各トリプルの取得元に対応する情報である取得元情報として、取得元のドメインに応じた信頼度を紐付ける。
For example, the
また、情報提供装置10は、各トリプルの候補から、同一の対象間における同一の関係性を示す複数のトリプルの候補を特定する。例えば、情報提供装置10は、各種正規化等の技術を用いて、同一の第1対象を示す第1エンティティ、同一の第2対象を示す第2エンティティ、および同一の関係性を示す関係性情報を含むトリプルの候補を特定する。
In addition, the
そして、情報提供装置10は、特定したトリプルの候補に紐付られた信頼度が所定の条件を満たすか否かを判定し、信頼度が所定の条件を満たす場合は、特定したトリプルの候補と同一の対象間における同一の関係性を示すトリプルを登録候補とする。例えば、情報提供装置10は、特定したトリプルの候補と紐付られた信頼度の合計が所定の閾値を超える場合は、特定したトリプルの候補と同一内容のトリプルを登録候補とする。なお、情報提供装置10は、特定したトリプルの候補が1つだけであっても、信頼度が所定の閾値を超える場合は、かかるトリプルの候補を登録対象として決定してもよい。
Then, the
このように、情報提供装置10は、各トリプルの候補の取得元と対応する取得元情報を各トリプルの候補に対して紐付ける。そして、情報提供装置10は、ある対象間のある関連性を示すトリプルの候補に紐付られた取得元情報が所定の条件を満たす場合は、かかるトリプルの候補、若しくは、かかるトリプルの候補と同一内容のトリプルをナレッジデータベースへの登録対象とする。このような処理の結果、情報提供装置10は、内容の信頼性が高いトリプルをナレッジデータベースに登録することができるので、ナレッジデータベースの精度を向上させる結果、利用者に有用な情報を提供することができる。
In this way, the
なお、上述した例では、情報提供装置10は、トリプルの候補に対して取得元のドメインに応じた信頼度を紐付けたが、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、取得元情報として、取得元のドメインをトリプルの候補に対して紐付けてもよい。このような場合、情報提供装置10は、トリプルの候補に対して紐付られたドメインが、予め信頼性の高いドメインとして設定されたものであれば、このトリプルの候補を登録対象としてもよい。また、情報提供装置10は、同一内容を示す複数のトリプルの候補に対して紐付られた各ドメインが、予め信頼性の低いドメインとして設定されたものであっても、同一内容を示すトリプルの候補の数が所定の閾値を超える場合、信頼性が担保されるものとして、係るトリプルの候補や同一内容のトリプルの候補を登録対象としてもよい。すなわち、情報提供装置10は、トリプルの候補の取得元の信頼性に応じて、トリプルの候補のうち登録対象とするトリプルを決定するのであれば、任意の情報を取得元情報としてトリプルの候補に紐付けてよい。
In the above example, the
〔1-4.決定処理について〕
以下、図1を用いて、情報提供装置10が実行する処理の流れの一例について説明する。なお、以下の説明では、コンテンツから取得されたトリプルの候補を単に「トリプル」と記載し、登録対象となるトリプルを「登録トリプル」と記載する場合がある。また、以下の説明では、同一の第1対象を示す第1エンティティ、同一の第2対象を示す第2エンティティ、および同一の関係性を示す関係性情報を含む複数のトリプルを「同一トリプル」と記載する場合がある。
[1-4. About decision processing]
An example of the flow of processing executed by the
まず、情報提供装置10は、データサーバ100から、各種のコンテンツを収集する(ステップS1)。例えば、情報提供装置10は、既に構築済みのナレッジデータベースや、投稿された各種のコンテンツを収集する。
First, the
続いて、情報提供装置10は、各コンテンツからトリプルを取得する(ステップS2)。例えば、情報提供装置10は、取得元のコンテンツが構築済みのナレッジデータベースである場合、ナレッジデータベースに登録されたトリプルを取得する。また、情報提供装置10は、取得元のコンテンツがSNSに投稿されたコンテンツやウィキペディアのコンテンツ等、テキストベースのコンテンツである場合、形態素解析や意図解析等を用いて、トリプルの抽出を行う。例えば、情報提供装置10は、テキストに含まれる主語と述語と目的語とを抽出し、主語を第1エンティティ、目的語を第2エンティティ、述語を関係性情報とするトリプルを生成する。なお、このようなテキストからトリプルを生成する技術については、各種の公知技術が採用可能であるものとし、詳細な説明については、省略する。
Subsequently, the
例えば、図1に示す例では、情報提供装置10は、ドメイン#1に属するコンテンツ#1-1から、エンティティ#1-1A、エンティティ#1-1B、および関係情報#1-1を含むトリプル#1-1を取得する。また、情報提供装置10は、ドメイン#2に属するコンテンツ#2-1から、エンティティ#2-1A、エンティティ#2-1B、および関係情報#2-1を含むトリプル#2-1を取得する。情報提供装置10は、ドメイン#3に属するコンテンツ#3-1から、エンティティ#3-1A、エンティティ#3-1B、および関係情報#3-1を含むトリプル#3-1を取得する。なお、ドメイン#1に含まれるコンテンツ#1-1は、構造化データであり、ドメイン#2に含まれるコンテンツ#2-1およびドメイン#3に含まれるコンテンツ#3-1は、反構造化データであるものとする。
For example, in the example shown in FIG. 1, the
続いて、情報提供装置10は、各トリプルに倒して取得元情報を紐付ける(ステップS3)。例えば、情報提供装置10は、トリプル#1-1に対してドメイン#1を取得元情報として紐付け、トリプル#2-1に対してドメイン#2を取得元情報として紐付け、トリプル#3-1に対してドメイン#3を取得元情報として紐付ける。なお、情報提供装置10は、ステップS3において、取得元情報として、各ドメイン#1~#3に対応する信頼度を紐付けてもよい。
Subsequently, the
続いて、情報提供装置10は、取得したトリプルから同一の関係性を示すトリプルを特定し、特定したトリプルに付与された取得元情報が示す取得元の信頼度の合計に基づいて、登録対象となる登録トリプルを決定する(ステップS4)。例えば、情報提供装置10は、取得したトリプルの中から、エンティティ#1-1Aと同じ対象と示す文字列(例えば、エンティティ#1-1Aと同義語)を第1エンティティとし、エンティティ#1-1Bとと同じ対象と示す文字列を第2エンティティとし、関係情報#1-1と同じ関係性を示す文字列を関係情報とする他のトリプル、すなわち、同一トリプルを検索する。同様に、情報提供装置10は、トリプル#2-1との同一トリプルやトリプル#3-1との同一トリプルを検索する。
Subsequently, the
例えば、情報提供装置10は、エンティティ#2-1Aが示す対象とエンティティ#3-1Aが示す対象とが一致し、エンティティ#2-1Bが示す対象とエンティティ#3-1Bが示す対象とが一致し、関係情報#2-1が示す関係性と関係情報#3-1が示す関係性とが一致する場合、各エンティティや関係情報の文字列が異なるとしても、トリプル#2-1とトリプル#3-1が同一トリプルであると判定する。
For example, the
より具体的な例を挙げて説明する。例えば、トリプル#2-1に含まれるエンティティ#2-1Aが日本語表記の「シェイクスピア」であり、エンティティ#2-2が日本語表記の「リア王」であり、関係情報#1-1が日本語表記の「著者」であるものとする。また、トリプル#3-1に含まれるエンティティ#3-1Aが日本語表記の「ウィリアム=シェイクスピア」であり、エンティティ#2-2が日本語表記の「リア王」であり、関係情報#1-1が英語表記の「auther」であるものとする。 A more specific example will be described. For example, entity #2-1A included in triple #2-1 is the Japanese notation "Shakespeare", entity #2-2 is the Japanese notation "King Lear", and relational information #1-1 is It is assumed that the author is written in Japanese. In addition, the entity #3-1A included in the triple #3-1 is the Japanese notation "William Shakespeare", the entity #2-2 is the Japanese notation "King Lear", and the relationship information #1- Assume that 1 is the English notation "author".
このような場合、トリプル#2-1に含まれるエンティティ「シェイクスピア」とトリプル#3-1に含まれるエンティティ「ウィリアム=シェイクスピア」とは、文字列が異なるが、同一の人物(所謂16世紀における英国人であるシェイクスピア)を示していると認められる。また、トリプル#2-1に含まれる関係情報「著者」とトリプル#3-1に含まれる関係情報「auther」とは、文字列が異なるが、同一の関係性(すなわち、第1エンティティが示す人物が第2エンティティが示す作品を著したという関係性)を示していると認められる。そこで、情報提供装置10は、トリプル#2-1とトリプル#3-1とが、同一の関係性を示すトリプル、すなわち、同一トリプルであるものとする。
In such a case, the entity “Shakespeare” included in triple #2-1 and the entity “William Shakespeare” included in triple #3-1 have different character strings, but are the same person (so-called British in the 16th century). recognized as indicating Shakespeare, who is a person. Also, the relationship information “author” included in triple #2-1 and the relationship information “author” included in triple #3-1 have different character strings, but have the same relationship (that is, The relationship that the person authored the work indicated by the second entity). Therefore, the
このように、情報提供装置10は、異なるコンテンツから取得されたトリプルの候補が、同一の第1対象を示す第1エンティティと、同一の第2対象を示す第2エンティティと、同一の関係を示す関係情報とを含むか否かを判定し、同一の第1対象を示す第1エンティティと、同一の第2対象を示す第2エンティティと、同一の関係を示す関係情報とを含むと判定された複数のトリプルの候補に紐付られた取得元情報に基づいて、候補を登録対象とするか否かを決定することとなる。
In this way, the
なお、このような処理は、例えば、予め作成されたリストであって、同一の対象を示すエンティティの候補をまとめたリストを参照することにより実現可能である。また、例えば、情報提供装置10は、連想記憶や同義語辞書、同義語同士を対応付けたナレッジデータベースを参照することにより、このような同一トリプルの検索を実現することができる。また、このような処理以外も、情報提供装置10は、例えば、各種正規化の公知技術を用いて、同一トリプルの検索を行ってよい。
It should be noted that such a process can be realized by referring to, for example, a list that is created in advance and is a list of entity candidates representing the same object. Further, for example, the
そして、情報提供装置10は、各同一トリプルの取得元情報に基づいて、登録トリプルを決定する。例えば、情報提供装置10は、トリプル#1-1に同一トリプルが存在しない場合、トリプル#1-1に紐付られた取引元情報「ドメイン#1」を特定する。ここで、ドメイン#1に登録されているコンテンツは、構造化データであるため、ある程度の信頼性が担保されていると考えらえる。そこで、情報提供装置10は、ドメイン#1に対して、所定の閾値(例えば、「50」)よりも高い信頼度「80」を付与する。
Then, the
また、例えば、情報提供装置10は、同一トリプルであるトリプル#2-1とトリプル#3-1に紐付られた取引元情報「ドメイン#2」および「ドメイン#3」を特定する。ここで、ドメイン#2およびドメイン#3に登録されているコンテンツは、半構造化データであるため、内容の信頼性がドメイン#1のコンテンツと比較して低いと考えられる。そこで、情報提供装置10は、ドメイン#2に対して、信頼度「50」を付与し、ドメイン#3に対して、信頼度「30」を付与する。なお、どのドメインのコンテンツに対してどのような信頼度を付与するかについては、予め任意の設定が可能であるが、例えば、情報提供装置10は、構造化データのコンテンツに対して半構造化データのコンテンツよりも高い信頼度を付し、複数の利用者により内容が精査されるドメインのコンテンツに対して、単一の利用者の行動により投稿が可能なドメインのコンテンツよりも高い信頼度を付してもよい。
Also, for example, the
そして、情報提供装置10は、各同一トリプルの信頼度の合計が所定の値(例えば、「80」)を超えるか否かを判定し、超えた場合には、同一トリプルのいずれか、若しくは、これら同一トリプルと同一内容のトリプルを登録トリプルとする。例えば、情報提供装置10は、トリプル#1-1の信頼度が「80」であるので、エンティティ#1-1Aをエンティテイ#1Aとし、エンティティ#1-1Bをエンティテイ#1Bとし、関係情報#1-1を関係情報#1とするトリプルを登録トリプル#1とする。すなわち、情報提供装置10は、トリプル#1-1を登録トリプル#1とする。
Then, the
一方、情報提供装置10は、トリプル#2-1の信頼度「50」とトリプル#3-1の信頼度「30」との合計が「80」となるので、トリプル#2-1およびトリプル#3-1の内容と同一内容のトリプルを登録トリプル#2とする。例えば、情報提供装置10は、エンティティ#2-1Aやエンティティ#3-1Aと同一の対象を示すエンティティ#2A、エンティティ#2-1Bやエンティティ#3-1Bと同一の対象を示すエンティティ#2B、および関係情報#2-1や関係情報#3-1と同一の関係性を示す関係情報#2を含むトリプルを登録トリプル#2とする。すなわち、情報提供装置10は、最終的に生成するナレッジデータベースにおけるルールに従って、同一トリプルの内容を正規化したトリプルを生成し、生成したトリプルを登録トリプルとする。
On the other hand, the
例えば、トリプル#2-1やトリプル#3-1が上述した文字列を含む場合、情報提供装置10は、エンティティ#2Aとして日本語表記の「ウィリアム=シェイクスピア」を含み、エンティテイィ#2Bとして日本語表記の「リア王」を含み、関係情報#2として日本語表記の「著者」を含むトリプルを登録トリプル#2とする。
For example, when triple #2-1 or triple #3-1 includes the above-described character string, the
そして、情報提供装置10は、各登録トリプル#1、#2に対し、取得元と対応する取得元情報を付与して、ナレッジデータベースに登録する。例えば、情報提供装置10は、登録トリプル#1に対し、登録トリプル#1の元となったトリプル#1-1の取得元情報「ドメイン#1」を紐付けてナレッジデータベースに登録する。また、情報提供装置10は、登録トリプル#2に対し、元となったトリプル#2-1の取得元情報「ドメイン#2」およびトリプル#3-1の取得元情報「ドメイン#3」を紐付けてナレッジデータベースに登録する。
Then, the
また、情報提供装置10は、端末装置200から検索クエリを受付ける(ステップS5)。このような場合、情報提供装置10は、検索クエリと対応する情報をナレッジデータベースから検索し、検索結果を端末装置200へと提供する(ステップS6)。この際、情報提供装置10は、各登録トリプルに紐付けた取得元情報を用いて、検索対象とするトリプルやエンティティ、関係情報の絞り込みを行うこととなる。
The
〔1-5.検索処理について〕
続いて、図2を用いて、情報提供装置10が実行する検索処理について説明する。図2は、実施形態にかかる情報提供装置が実行する検索処理の一例を示す図である。なお、かかる検索処理は、図1に示すステップS5およびステップS6に対応する。また、図2に示す例では、図1のステップS4に示すように、ナレッジデータベース内のトリプルに対して取得元を示す取得元情報が紐付けられているものとする。
[1-5. About search processing]
Next, a search process executed by the
例えば、情報提供装置10は、第1の利用者が利用する端末装置201から検索クエリを受付ける(ステップS1)。より具体的には、情報提供装置10は、検索クエリと、検索対象となるドメインの指定とを受付ける。このような場合、情報提供装置10は、指定されたドメインが紐付られたトリプルを用いて、検索クエリに対応する情報の検索を行う(ステップS2)。
For example, the
例えば、図2に示す例では、エンティティ#1とエンティティ#2とを含む登録トリプル#1に対し、ドメイン#1が紐付けられており、エンティティ#1とエンティティ#3とを含む登録トリプル#2にドメイン#2、#3が紐付けられており、エンティティ#1とエンティティ#4とを含む登録トリプル#3に、ドメイン#1、#2が紐付けられているものとする。ここで、情報提供装置10は、第1の利用者から検索クエリとして「エンティティ#1」と検索対象「ドメイン#1」とを受付けていた場合、登録トリプル#1~#3のうち、「ドメイン#1」が紐付られた登録トリプル#1、#3から、「エンティティ#1」と所定の関連性を有する他のエンティティ(例えば、エンティティ#2やエンティティ#4等)を検索する。そして、情報提供装置10は、検索結果を端末装置201に送信する。
For example, in the example shown in FIG. 2,
一方、情報提供装置10は、例えば、第2の利用者が利用する端末装置202から検索クエリ「エンティティ#1」と検索対象「ドメイン#2」とを受付けていた場合、登録トリプル#1~#3のうち、「ドメイン#2」が紐付られた登録トリプル#2、#3から、「エンティティ#1」と所定の関連性を有する他のエンティティ(例えば、エンティティ#3やエンティティ#4等)を検索する。そして、情報提供装置10は、検索結果を端末装置202に送信する。
On the other hand, for example, when the
すなわち、情報提供装置10は、取得元情報をトリプルに紐付けることで、ナレッジデータベースを取得元ごとに多重化する。より具体的には、情報提供装置10は、取得元となるドメインをトリプルに紐付けることで、ドメインごとに多重化したナレッジデータベース、すなわち、マルチドメインナレッジデータベースを生成する。そして、情報提供装置10は、利用者から受付けた検索クエリと対応する情報を、指定された取得元と対応する取得元情報が対応付けられたトリプルを用いて検索する。
That is, the
なお、図2に示す例では、情報提供装置10は、取引元情報として、トリプルの取得元となるドメインを紐付けたが、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、各トリプルに対して信頼度を紐付けてもよい。より具体的には、情報提供装置10は、登録トリプル#1に対して、ドメイン#1と対応する信頼度「80」を付与し、登録トリプル#2に対して、ドメイン#2と対応する信頼度「50」とドメイン#3と対応する信頼度「30」との合計である信頼度「80」を付与し、登録トリプル#3に対して、ドメイン#1と対応する信頼度「80」とドメイン#2と対応する信頼度「50」との合計である信頼度「130」を付与する。
In the example shown in FIG. 2, the
そして、情報提供装置10は、例えば、利用者から指定された信頼度が「80」である場合、信頼度が「80」以上となる登録トリプル#1、#3を検索対象とし、利用者から指定された信頼度が「100」である場合、信頼度が「100」以上となる登録トリプル#3を検索対象としてもよい。また、例えば、情報提供装置10は、各トリプルに対して、取得元となるドメインを紐付けて登録しておき、利用者から信頼度の指定を受付けた場合は、各トリプルのうち、紐付られたドメインと対応する信頼度の和が指定された信頼度を超えるトリプルを検索対象としてもよい。
Then, for example, when the reliability specified by the user is "80", the
〔1-6.信頼度の合計手法について〕
上述した例では、情報提供装置10は、トリプルの取得元に応じた信頼度の和が所定の閾値を超えるか否かに応じて、登録トリプルを決定した。ここで、情報提供装置10は、各種の重みづけを考慮した信頼度の値が所定の閾値を超えるか否かに応じて、登録トリプルを検索してもよい。
[1-6. Reliability summation method]
In the example described above, the
例えば、情報提供装置10は、同一トリプルに紐付られた信頼度の荷重和が所定の閾値を超える場合は、これら同一トリプルと同じ関係性を有するトリプルを登録トリプルとしてもよい。なおこのような重みは、例えば、任意の情報に応じて調整可能であってよい。例えば、情報提供装置10は、トリプルの抽出元となるコンテンツの登録時期が古いほど、他の利用者からの評価が高い程、若しくは閲覧回数が多いほど、より大きい重みを設定してもよい。また、情報提供装置10は、トリプルの抽出元となるコンテンツの登録時期が新しい程、他の利用者からの評価が低いほど、若しくは、閲覧回数が低いほど、より小さい重みを設定してもよい。また、情報提供装置10は、トリプルに含まれる各エンティティの文字列や関係情報の文字列と、基準となる辞書情報に登録された文字列との一致度が高ければ高いほど、より大きい重みを設定してもよい。
For example, when the weighted sum of the degrees of reliability associated with identical triples exceeds a predetermined threshold, the
また、例えば、各ドメインに対する信頼度は、絶対的に決定されるもの以外にも、相対的に決定されるものが存在すると考えられる。そこで、情報提供装置10は、各トリプルの取得元となるコンテンツ同士の関連性に応じた重みを用いて、同一トリプルに紐付られた信頼度の荷重和を算出してもよい。例えば、情報提供装置10は、ドメイン#4よりもドメイン#5の方が、相対的に信頼度が高い場合、ドメイン#4から取得したトリプルよりも、ドメイン#5から取得したトリプルに対してより高い値の信頼度や重みを付与して、信頼度の合計を算出してもよい。また、例えば、情報提供装置10は、ドメイン#5よりおドメイン#6の方が、相対的に信頼度が高い場合、ドメイン#5から取得したトリプルよりも、ドメイン#6から取得したトリプルに対してより高い値の信頼度や重みを付与して、信頼度の合計を算出してもよい。すなわち、情報提供装置10は、同一トリプルの取得元となる各ドメイン間の相対的な信頼性に応じて、各同一トリプルの信頼度の合計を算出する際の重みを変動させてもよい。
Also, for example, it is conceivable that the trust level for each domain is determined not only absolutely but also relatively. Therefore, the
また、情報提供装置10は、構造化データから取得したトリプルに対し、所定の閾値よりも高い値の信頼度を紐付け、半構造化データから取得したトリプルに対し、所定の閾値よりも低い値の信頼度を紐付けてもよい。すなわち、情報提供装置10は、構造化データから取得したトリプルに対し、半構造化データから取得したトリプルよりも高い値の信頼度を紐付けてもよい。
Further, the
また、情報提供装置10は、取得元のドメインと、取得したトリプルに含まれる関係情報が示す関係とに応じた信頼度をトリプルに紐付けてもよい。例えば、情報提供装置10は、書籍に関する情報の信頼性が高い第1ドメインから取得したトリプルに含まれる関係情報が「著者」等、書籍との関連性が高い関係を示す場合は、比較的高い値の信頼性をトリプルに紐付けし、第1ドメインから取得したトリプルに含まれる関係情報が「所在地」等、書籍との関連性が低い関係を示す場合は、比較的低い値の信頼性をトリプルに紐付けしてもよい。
Further, the
〔1-7.具体的な処理の一例について〕
上述した例では、情報提供装置10は、コンテンツから取得したトリプルに対して取得元情報を紐付けし、トリプルに紐付られた取得元情報に基づいて、登録トリプルの決定を行った。ここで、情報提供装置10は、上述した処理以外にも、各種の処理を実行することで、ナレッジデータベースの精度を向上させてもよい。
[1-7. Regarding an example of specific processing]
In the example described above, the
例えば、上述したように、ウェブ上には、同一対象間における同一の関係性を異なる言葉で表現したコンテンツが含まれる場合がある。そこで、情報提供装置10は、各種の正規化を行うことで、各エンティティとエンティティが示す対象とのマッピングを行ってもよい。また、情報提供装置10は、ナレッジデータベースの多様性を担保するため、構造化データのみならず、半構造化データからもトリプルを取得するが、このように半構造化データからトリプルを取得するために必要な機能(例えば、どのタグが付された情報からトリプルを抽出するか等)を有していてもよい。また、情報提供装置10は、人手で入力された情報を参考に用いることで、ナレッジデータベースの精度をさらに向上させてもよい。
For example, as described above, the web may include content that expresses the same relationship between the same objects using different words. Therefore, the
以下、図3を用いて、情報提供装置10がナレッジデータベースを生成する処理の具体例について説明する。図3は、実施形態に係る情報提供装置が実行する処理の流れの一例を説明する図である。図3に示すように、情報提供装置10は、システムSで示される一連の処理を実行することで、構造化データや被構造化データからナレッジデータベースを生成する。
A specific example of the process of generating the knowledge database by the
例えば、情報提供装置10が実行するシステムSには、ImporterS1、Information ExtractorS2、Attribute ConverterS3、Entitiy MatcherS4、Entitiy ConnectorS5、Id AssignerS6、Additional Data CombinerS7、Entity MergerS8、Object ConverterS9、Attribute CompleterS10、ValidatorS11、およびExporterS12(以下、「各処理S1~S12」と総称する場合がある。)といった処理が含まれる。なお、システムSは、各処理S1~S12を実行する機能構成を含むハードウェアであってもよく、ニューラルネットワーク等の各種モデルであってもよい。
For example, the system S executed by the
以下、各処理S1~S12における処理の一例を説明する。ImporterS1は、様々なスキーマのデータから、最終的に作成するナレッジデータベースのスキーマに合致するようにエンティティとして取り込む。例えば、ImporterS1は、既にエンティティ間の関係性が設定されているような構造化データから、トリプルを抽出し、抽出したトリプルに対して、取得元情報を付与したデータを生成する。 An example of each of the processes S1 to S12 will be described below. The Importer S1 imports data of various schemas as entities so as to match the schema of the knowledge database to be finally created. For example, the Importer S1 extracts triples from structured data in which relationships between entities have already been set, and generates data with acquisition source information attached to the extracted triples.
例えば、ImporterS1は、構造化データのトリプルに含まれる関係情報が、どのような関係性を示しているかを特定し、最終的に生成するナレッジデータベースにおいて、特定した関係性を示す関係情報を特定する。例えば、ImporterS1は、主語を示す第1エンティティ、目的語を示す第2エンティティ、および述語を示す関係性情報として含むトリプルを特定する。なお、各エンティティや関係性情報は、同一の対象や関係性を示すものであっても、それぞれ文字列が異なる場合がある。この結果、ImporterS1は、実世界において同一の対象間における同一の関係性を示すトリプルとして、エンティティや関係性情報の文字列が異なる複数のトリプルを特定することとなる。また、ImporterS1は、取得したトリプルに対して取得元情報を紐付けるとともに、各トリプルに対して一意な仮IDを付与する。 For example, the Importer S1 identifies what kind of relationship the relational information contained in the triples of the structured data indicates, and identifies the relational information indicating the identified relation in the finally generated knowledge database. . For example, ImporterS1 identifies triples that include as relationship information indicating a first entity indicating a subject, a second entity indicating an object, and a predicate. Each entity and relationship information may have different character strings even if they indicate the same object or relationship. As a result, the Importer S1 identifies a plurality of triples with different entity and relationship information character strings as triples indicating the same relationship between the same objects in the real world. Also, the Importer S1 associates the acquired triples with the acquisition source information, and assigns a unique temporary ID to each triple.
Information ExtractorS2は、ウェブ文章等の半構造化データからトリプルを取得する。例えば、Information ExtractorS2は、タグの解析や形態素解析等の技術を用いて、半構造化データからトリプルを取得する。また、Information ExtractorS2は、ナレッジデータベースに登録済みのエンティティと、取得したトリプルに含まれるエンティティとを比較し、同一の対象を示すエンティティ同士の紐付けを行う。 Information Extractor S2 obtains triples from semi-structured data such as web sentences. For example, Information Extractor S2 uses techniques such as tag analysis and morphological analysis to obtain triples from semi-structured data. The Information Extractor S2 also compares the entities registered in the knowledge database with the entities included in the acquired triples, and links the entities indicating the same target.
Attribute ConverterS3は、入力データのクラスをナレッジデータベースのクラスに変換する。例えば、Attribute ConverterS3は、トリプルの取得元となる構造化データにおいて各エンティティに付与されたクラス(すなわち、エンティティが示す対象の属性を示す情報)と、ナレッジデータベースにおける各エンティティのクラスとを対応付けたマッピング情報を参照し、取得したトリプルに含まれる各エンティティのクラスをナレッジデータベースのクラスに変換する。例えば、Attribute ConverterS3は、同一の対象を示すエンティティの文字列を正規化するとともに、同一の関係性を示す関係性情報の正規化を行う。例えば、Attribute ConverterS3は、英語表記の関係情報「auter」を日本語表記の関係情報「著者」に変換したトリプルを取得する。 The Attribute Converter S3 converts the class of input data into the class of the knowledge database. For example, the Attribute Converter S3 associates a class assigned to each entity in the structured data from which triples are obtained (that is, information indicating the target attribute indicated by the entity) with the class of each entity in the knowledge database. Refers to the mapping information and converts the class of each entity included in the fetched triples to the class of the knowledge database. For example, the Attribute Converter S3 normalizes character strings of entities indicating the same object, and normalizes relationship information indicating the same relationship. For example, the Attribute Converter S3 acquires a triple obtained by converting the relationship information "auter" in English into the relationship information "author" in Japanese.
Entity MatcherS4は、同じ対象を示すエンティティをマッチングし、同一エンティティのグループを生成する。例えば、Entity MatcherS4は、各トリプルに含まれるエンティティを比較し、同一対象の同一関係を示すと推定されるエンティティを特定する。そして、Entity MatcherS4は、特定したエンティティに対して、グループIDを付与する。なお、Entity MatcherS4は、各エンティティのクラス(属性)について矛盾がないように同一トリプルの特定を行ってもよい。また、Entity MatcherS4は、属性について矛盾がないエンティティ同士を紐付けた場合に、エンティティ同士を結ぶグラフ構造においてクリーク構造を満たすエンティティを同一のエンティティと見做してもよい。 Entity Matcher S4 matches entities that indicate the same object and generates a group of identical entities. For example, Entity Matcher S4 compares the entities contained in each triple and identifies entities that are presumed to exhibit the same relationship of the same object. Entity Matcher S4 then assigns a group ID to the specified entity. Note that the Entity Matcher S4 may identify identical triples so that there is no contradiction in the class (attribute) of each entity. Further, when the entity matcher S4 associates entities with no contradiction in attributes, the entities satisfying the clique structure in the graph structure connecting the entities may be regarded as the same entity.
Entity ConnectorS5は、クラスが異なるが互いに関連するエンティティのグループ同士を紐付ける。すなわち、Entity ConnectorS5は、クラスが異なるが、互いに同一の対象を示すと推定されるエンティティのグループ同士の紐付けを行う。 The Entity Connector S5 links groups of entities that are different in class but related to each other. That is, the Entity Connector S5 links groups of entities that are different in class but are presumed to represent the same object.
Id AssignerS6は、各エンティティのグループに対し、最終的なナレッジデータベースにおいてエンティティに付与されるID(Identifier)を紐付ける。例えば、Id AssignerS6は、登録済みのエンティティのうち、グループ化されたエンティティと同一の対象を示すエンティティを特定し、特定したエンティティに付与されたIDをグループ化されたエンティティに対して付与する。 The Id Assigner S6 associates each entity group with an ID (Identifier) assigned to the entity in the final knowledge database. For example, the Id Assigner S6 identifies an entity that indicates the same object as the grouped entity among the registered entities, and assigns the ID assigned to the identified entity to the grouped entity.
Additional Data CombinerS7は、人手によりId AssignerS6によって付与されたIDの修正を反映させる。また、Additional Data CombinerS7は、Information ExtractorS2により取得されたエンティティに対し、同一対象を示す登録済みのエンティティに付与されたIDを紐付ける。 The Additional Data Combiner S7 manually reflects the correction of the ID assigned by the Id Assigner S6. Further, the Additional Data Combiner S7 associates the entity acquired by the Information Extractor S2 with the ID given to the registered entity indicating the same object.
Entity MergerS8は、同一の対象を示す複数のエンティティ、すなわち、同一エンティティを1つのエンティティに統合する。この際、Entity MergerS8は、エンティティに紐付られた取得元情報に応じた信頼度の足し合わせや荷重和の算出を行う。 Entity MergerS8 merges multiple entities representing the same object, ie, the same entity, into one entity. At this time, the Entity Merger S8 performs summation of the reliability and calculation of the weighted sum according to the acquisition source information associated with the entity.
Object ConverterS9は、トリプルに含まれるエンティティのうち、目的語となるエンティティと同一の対象を示す登録済みエンティティのIDとを紐付ける。 The Object Converter S9 associates an object entity among the entities included in the triple with the ID of the registered entity indicating the same target.
Attribute CompleterS10は、エンティティに新たな情報の追加を行う。例えば、Attribute CompleterS10は、予め設定されたオントロジに基づいて、情報の追加を行う。また、Attribute CompleterS10は、オントロジに基づいて、欠損しているトリプルの発見や追加を行ってもよい。なお、このようなトリプルの発見や追加や、ルールベース、機械学習等、任意の手法により実現可能である。 Attribute Completer S10 adds new information to the entity. For example, the Attribute Completer S10 adds information based on a preset ontology. The Attribute Completer S10 may also find or add missing triples based on the ontology. It should be noted that it can be realized by any method such as discovery and addition of such triples, rule base, machine learning, and the like.
ValidatorS11は、取得元情報に基づいて、信頼度が低いトリプルの削除や修正を行う。例えば、ValidatorS11は、Entity MergerS8によって算出された信頼度の和が所定の閾値を超える場合にのみ、登録トリプルとする。なお、ValidatorS11は、あらかじめ人手で設定されたブラックリストと一致するトリプルについては、信頼度によらず、登録対象から除外してもよい。 The Validator S11 deletes or corrects triples with low reliability based on the acquisition source information. For example, the Validator S11 registers triples only when the sum of reliability calculated by the Entity Merger S8 exceeds a predetermined threshold. Note that the Validator S11 may exclude triples that match a manually set blacklist from being registered, regardless of the reliability.
ExporterS12は、信頼度が所定の閾値を超えるトリプルを所定のフォーマットでナレッジデータベースに登録する。なお、ExporterS12は、トリプルの各エンティティに付与された情報のうち、予め設定された情報以外の情報を削除してもよい。 The Exporter S12 registers triples whose reliability exceeds a predetermined threshold in a predetermined format in the knowledge database. It should be noted that the Exporter S12 may delete information other than the preset information among the information given to each entity of the triple.
〔2.情報提供装置の構成〕
以下、上記した情報提供装置10が有する機能構成の一例について説明する。図4は、実施形態に係る情報提供装置の構成例を示す図である。図4に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
[2. Configuration of Information Providing Device]
An example of the functional configuration of the
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、データサーバ100や端末装置200との間で情報の送受信を行う。
The
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、エンティティデータベース31、トリプルデータベース32、および信頼度テーブル33(以下、「各データベース31~33」と総称する場合がある。)を記憶する。
The
以下、図5~7を用いて、各データベース31~33に登録される情報の一例を説明する。エンティティデータベース31には、エンティティに関する情報が登録される。例えば、図5は、実施形態に係るエンティティデータベースに登録される情報の一例を示す図である。図5に示すように、エンティティデータベース31には、「エンティティID」、「エンティティ種別」、「ノードID」、「ノード種別」、および「データ」といった項目を有する情報が登録される。
An example of information registered in each of the
ここで、「エンティティID」とは、エンティティの識別子である。また、「エンティティ種別」とは、対応付けられた「エンティティID」が示すエンティティの種別を示す情報であり、例えば、エンティティが「人物」を示すエンティティであるか「職業」を示すエンティティであるかといった情報を示す。「ノードID」は、対応付けられた「エンティティID」が示すエンティティと関連するノードの識別子である。「ノード種別」は、対応付けられた「ノードID」が示すノードの種別を示す情報であり、ノードが名前を示すか、写真を示すか、職業を示すか等といった情報である。また、「データ」とは、対応付けられた「ノードID」が示すノードのデータである。 Here, "entity ID" is an identifier of an entity. The "entity type" is information indicating the type of entity indicated by the associated "entity ID". For example, whether the entity is an entity indicating "person" or an entity indicating "occupation". information such as "Node ID" is an identifier of a node associated with the entity indicated by the associated "Entity ID". The "node type" is information indicating the type of the node indicated by the associated "node ID", and is information such as whether the node indicates a name, a photograph, or an occupation. "Data" is the data of the node indicated by the associated "node ID".
例えば、図5に示す例では、エンティティID「E11」、エンティティ種別「人物」、ノードID「I111」、ノード種別「名前」、およびデータ「名前#1」が対応付けて登録されている。このような情報は、エンティティID「E11」が示すエンティティ(すなわち、エンティティE11)が「人物」を示すエンティティであり、そのエンティティが示す人物の「名前」を示すノードとしてノードID「I111」が登録されており、その名前が「名前#1」である旨を示す。なお、図5に示す例では、「名前#1」や「写真#1」等といった概念的な値を記載したが、実際には、エンティティデータベース31には、対応付けられたエンティティと対応する人物の名前、写真、生年月日等を示す各種の情報が登録されることとなる。
For example, in the example shown in FIG. 5, entity ID "E11", entity type "person", node ID "I111", node type "name", and data "
トリプルデータベース32には、トリプルを示す情報が登録される。例えば、図6は、実施形態に係るトリプルデータベースに登録される情報の一例を示す図である。図6に示す例では、トリプルデータベース32には、「トリプルID」、「関係情報ID」、「種別」、「第1要素」、「第2要素」、および「取得元情報」といった項目を有する情報が登録される。
Information indicating triples is registered in the
ここで、「トリプルID」とは、トリプルを識別する識別子である。また、「関係情報ID」とは、トリプルに含まれる関係情報を識別する識別子である。また、「種別」とは、トリプルに含まれるエンティティ間の関係性を示す情報である。また、「第1要素」および「第2要素」とは、対応付けられた「トリプルID」が示すトリプルに含まれるエンティティのエンティティIDである。また、「取得元情報」とは、対応付けられたトリプルの取得元と対応する情報であり、例えば、取得元のドメインを示す情報や信頼度を示す情報である。 Here, "triple ID" is an identifier for identifying a triple. A “relationship information ID” is an identifier that identifies relational information included in a triple. "Type" is information indicating the relationship between entities included in the triple. Also, the “first element” and the “second element” are the entity IDs of the entities included in the triple indicated by the associated “triple ID”. Also, the “acquisition source information” is information corresponding to the acquisition source of the associated triples, such as information indicating the domain of the acquisition source and information indicating reliability.
例えば、図6に示す例では、トリプルID「トリプル#1」、関係情報ID「C1」、種別「職業」、第1要素「E11」、第2要素「E21」、および「ドメイン#1」が対応付けて登録されている。このような情報は、トリプルID「トリプル#1」が示すトリプルとして、エンティティE11とエンティティE12と関係情報C1とが対応付けて登録されており、エンティティE21がエンティティE11の職業である旨を示す。また、このような情報は、このトリプルが「ドメイン#1」から取得された情報である旨を示す。
For example, in the example shown in FIG. 6, the triple ID "
信頼度テーブル33には、トリプルの取得元に応じた信頼度の情報が登録される。例えば、図7は、実施形態に係る信頼度テーブルに登録される情報の一例を示す図である。図7に示すように、信頼度テーブル33には、「ドメイン」および「信頼度」が対応付けて登録されている。ここで「ドメイン」は、トリプルの取得元となるドメインを示す情報である。例えば、図7に示す例では、ドメイン「ドメイン#1」および信頼度「80」が対応付けて登録されている。このような情報は、ドメイン「ドメイン#1」が示すドメインのコンテンツから取得したトリプルの信頼度が「80」である旨を示す。
In the reliability table 33, reliability information corresponding to the acquisition source of the triple is registered. For example, FIG. 7 is a diagram showing an example of information registered in the reliability table according to the embodiment. As shown in FIG. 7, in the reliability table 33, "domain" and "reliability" are associated and registered. Here, "domain" is information indicating a domain from which triples are obtained. For example, in the example shown in FIG. 7, the domain "
図4に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
Returning to FIG. 4, the description is continued. The control unit 40 is a controller, and various programs stored in a storage device inside the
図2に示すように、制御部40は、取得部41、紐付部42、判定部43、決定部44、登録部45、および検索部46を有する。なお、図4に示す機能構成は、図3に示すシステムSと必ずしも一致するものではないが、図3に示す各処理S1~S12の一部もしくは全体を実行することで、図3に示すシステムと同様に、トリプルの信頼度に応じて登録トリプルをナレッジデータベースに登録することで、ナレッジデータベースの精度を向上させることができる。換言すると、図4に示す機能構成は、図3に示す各処理S1~S12が発揮する主要な機能を示すものである。 As shown in FIG. 2 , the control unit 40 has an acquisition unit 41 , a linking unit 42 , a determination unit 43 , a determination unit 44 , a registration unit 45 and a search unit 46 . Although the functional configuration shown in FIG. 4 does not necessarily match the system S shown in FIG. 3, the system shown in FIG. Similarly, by registering registered triples in the knowledge database according to the reliability of the triples, the accuracy of the knowledge database can be improved. In other words, the functional configuration shown in FIG. 4 shows the main functions exhibited by the processes S1 to S12 shown in FIG.
取得部41は、ネットワーク上のコンテンツから、第1対象と第2対象と対象間の関係を示す関係情報とを含むトリプルの候補を取得する。例えば、取得部41は、データサーバ100から構造化データや半構造化データを取得し、取得したコンテンツから、第1エンティティと、第2エンティティと、各エンティティが示す対象間の関係性を示す関係情報との組であるトリプルを抽出する。なお、取得部41は、ネットワーク上のコンテンツとして、対象間の関係性があらかじめ定義されている構造化データ、若しくは、データの属性が設定された半構造化データから、トリプルを取得してもよい。
The acquisition unit 41 acquires triple candidates including a first target, a second target, and relationship information indicating the relationship between the targets from content on the network. For example, the acquisition unit 41 acquires structured data or semi-structured data from the
紐付部42は、取得部により取得されたトリプルに対し、取得元となるコンテンツと対応する取得元情報を紐付ける。例えば、紐付部42は、トリプルの取得元となったコンテンツを示す情報、コンテンツが属するドメインを示す情報、若しくは、取得元となったコンテンツやドメインに応じた信頼度を取得元情報としてトリプルに紐付ける。なお、紐付部42は、例えば、構造化データから取得したトリプルに対し、所定の閾値よりも高い値の信頼度を紐付け、半構造化データから取得したトリプルの候補に対し、所定の閾値よりも低い値の信頼度を紐付けてもよい。 The associating unit 42 associates the acquisition source information corresponding to the acquisition source content with the triple acquired by the acquisition unit. For example, the linking unit 42 links information indicating the content from which the triple was acquired, information indicating the domain to which the content belongs, or reliability according to the content or domain from which the triple was acquired, to the triple as the acquisition source information. wear. Note that, for example, the linking unit 42 links triples obtained from the structured data with a reliability value higher than a predetermined threshold, and triple candidates obtained from the semi-structured data have a reliability higher than the predetermined threshold. may be associated with lower confidence values.
判定部43は、異なるコンテンツから取得されたトリプルの候補が、同一の第1対象を示す第1エンティティと、同一の第2対象を示す第2エンティティと、同一の関係を示す関係情報とを含むか否かを判定する。例えば、判定部43は、各種の辞書やオントロジー等を用いて、取得部41に取得されたトリプルに含まれる各エンティティや関係情報が同一の対象や関係を示しているか否かを判定する。すなわち、判定部43は、各トリプルが同一トリプルであるか否かを判定する。 The determination unit 43 determines that triple candidates obtained from different contents include a first entity indicating the same first object, a second entity indicating the same second object, and relationship information indicating the same relationship. Determine whether or not For example, the determination unit 43 uses various dictionaries, ontologies, and the like to determine whether or not each entity and relationship information included in the triples acquired by the acquisition unit 41 indicate the same object or relationship. That is, the determination unit 43 determines whether each triple is the same triple.
決定部44は、各トリプルに対して紐付られた取得元情報に基づいて、各候補の中から登録対象とするトリプルを決定する。例えば、決定部44は、トリプルに紐付られた信頼度が所定の条件を満たす場合は、トリプルの候補を登録対象とする。また、決定部44は、同一トリプルに紐付られた信頼度の和や荷重和が所定の閾値を超える場合に、かかる同一トリプルと同じ対象の同じ関係性を示すトリプルを登録対象としてもよい。すなわち、決定部44は、それぞれ異なるコンテンツから取得された複数のトリプルであって、第1エンティティが示す第1対象と、第2エンティティが示す第2対象と、関係情報が示す関係とが一致する複数のトリプルのそれぞれと紐付られた信頼度が所定の条件を満たす場合は、各トリプルと同一内容のトリプルを登録対象としてもよい。 The determination unit 44 determines a triple to be registered from among the candidates based on the acquisition source information associated with each triple. For example, if the reliability associated with the triple satisfies a predetermined condition, the determination unit 44 sets the candidate triple as a candidate for registration. In addition, when the sum of reliability or the sum of weights associated with the same triple exceeds a predetermined threshold value, the determination unit 44 may register the triple showing the same relationship of the same target as the same triple. That is, the determination unit 44 determines that the first target indicated by the first entity, the second target indicated by the second entity, and the relationship indicated by the relationship information are the same among a plurality of triples obtained from different contents. If the reliability associated with each of a plurality of triples satisfies a predetermined condition, triples having the same content as each triple may be registered.
なお、決定部44は、取得元となるコンテンツ同士の関連性に応じた重みを用いて、荷重和の算出を行ってもよい。例えば、決定部44は、取得元となるコンテンツのドメイン同士の相対的な信頼度に応じた重みを荷重和に適用してもよい。また、例えば、決定部44は、各トリプルに対して取得元のドメインを示す取得元情報が紐付けられている場合、取得元情報と対応付けられた信頼度を信頼度テーブル33から読出し、読み出した信頼度が所定の条件を見做すか否かに基づいて、トリプルを登録対象とするか否かを決定してもよく、例えば、取得元情報が示す取得元と、同一トリプルの数とが所定の条件を満たすか否かに基づいて、トリプルを登録対象とするか否かを決定してもよい。 Note that the determination unit 44 may calculate the sum of weights using weights according to the relevance of the content that is the acquisition source. For example, the determination unit 44 may apply a weight corresponding to the relative reliability between the domains of the content that is the acquisition source to the weighted sum. Further, for example, when acquisition source information indicating an acquisition source domain is associated with each triple, the determining unit 44 reads the reliability associated with the acquisition source information from the reliability table 33, and reads out the reliability. Whether or not the triple is to be registered may be determined based on whether or not the reliability obtained satisfies a predetermined condition. For example, the acquisition source indicated by the acquisition source information and the number of identical Whether or not a triple is to be registered may be determined based on whether or not a predetermined condition is satisfied.
登録部45は、登録対象としたトリプルと取得元情報とを対応付けてデータベースに登録する。例えば、登録部45は、登録対象とされたトリプルに含まれる各エンティティの情報をエンティティデータベース31に登録する。また、登録部45は、トリプルに含まれる各エンティティのエンティティIDと関係情報と、取得元情報とを対応付けてトリプルデータベース32に登録する。
The registration unit 45 associates the triples to be registered with the acquisition source information and registers them in the database. For example, the registration unit 45 registers in the
検索部46は、各トリプルに紐付られた取得元情報に応じて、検索クエリと対応する情報を検索する。例えば、検索部46は、端末装置200から、検索クエリと共に、ドメインの指定を受付ける。このような場合、検索部46は、トリプルデータベース32から、端末装置200から指定されたドメインが取得元情報として紐付られたトリプルを特定し、特定したトリプルに含まれる各エンティティのデータを検索対象として、検索クエリと対応する情報を検索する。
The search unit 46 searches for information corresponding to the search query according to the acquisition source information associated with each triple. For example, the search unit 46 receives designation of a domain together with a search query from the
なお、検索部46は、例えば、端末装置200から信頼度を受付けた場合、トリプルデータベース32と信頼度テーブル33とを参照し、紐付られた取得元情報が示す信頼度が端末装置200から受付けた信頼度よりも高いトリプルを特定する。そして、検索部46は、特定したトリプルに含まれる各エンティティのデータを検索対象として、検索クエリと対応する情報を検索してもよい。その後、検索部46は、検索結果を端末装置200に対して提供する。
Note that, for example, when the reliability is received from the
〔3.情報提供装置が実行する処理の流れの一例〕
続いて、図8を用いて、情報提供装置10が実行する決定処理の流れについて説明する。図8は、実施形態に係る情報提供装置が実行する決定処理の流れの一例を示すフローチャートである。
[3. Example of flow of processing executed by information providing device]
Next, the flow of determination processing executed by the
まず、情報提供装置10は、各コンテンツからトリプルを取得する(ステップS101)。続いて、情報提供装置10は、トリプルの取得元に対応する取得元情報をトリプルに紐付ける(ステップS102)。また、情報提供装置10は、同一の関連性を示すトリプルを特定する(ステップS103)。そして、情報提供装置10は、特定した各トリプルに紐付られた取得元情報に基づいて、これらのトリプルが示す関連性を示すトリプルを登録対象とするか否かを決定する(ステップS104)。その後、情報提供装置10は、登録対象としたトリプルを、取得元情報を紐付けた状態でデータベースに登録し(ステップS105)、処理を終了する。
First, the
続いて、図9を用いて、情報提供装置10が実行する検索処理の流れについて説明する。図9は、実施形態に係る情報提供装置が実行する検索処理の流れの一例を示すフローチャートである。
Next, with reference to FIG. 9, the flow of search processing executed by the
まず、情報提供装置10は、端末装置200から検索クエリを受付けたか否かを判定し(ステップS201)、受付けていない場合は(ステップS201:No)、処理を待機する。一方、情報提供装置10は、検索クエリを受付けた場合は(ステップS201:Yes)、各トリプルのうち、検索クエリが示す取得元と対応するトリプルを特定する(ステップS202)。そして、情報提供装置10は、特定したトリプルを辿り、検索クエリと対応するエンティティを検索する(ステップS203)。その後、情報提供装置10は、検索結果を提供し(ステップS204)、処理を終了する。
First, the
〔4.変形例〕
上記では、情報提供装置10による決定処理および検索処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する決定処理および検索処理のバリエーションについて説明する。
[4. Modification]
An example of the determination process and the search process by the
〔4-1.エンティティの種別について〕
上述した例では、ナレッジデータベースの一例として、人物と作品との関連性を示すトリプル等を説明したが、実施形態は、これに限定されるものではない。すなわち、情報提供装置10は、任意の物事を示すナレッジデータベースの更新を行ってよい。
[4-1. About the type of entity]
In the above example, as an example of the knowledge database, triples and the like indicating the relationship between a person and a work have been described, but embodiments are not limited to this. In other words, the
〔4-2.装置構成〕
情報提供装置10は、自装置でナレッジデータベースを管理せずともよい。例えば、記憶部30に登録された各データベース31~33は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、検索処理を実現するフロントエンドサーバと、決定処理を実現するバックエンドサーバとで実現されてもよい。このような場合、バックエンドサーバには、図4に示す各部41~45が配置され、フロントエンドサーバには、ナレッジデータベースに検索を行う機能を発揮するための検索部46が配置される。
[4-2. Device configuration〕
The
〔4-3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[4-3. others〕
Further, among the processes described in the above embodiments, all or part of the processes described as being automatically performed can be manually performed, and conversely, the processes described as being performed manually can be performed manually. can also be performed automatically by known methods. In addition, information including processing procedures, specific names, various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each drawing is not limited to the illustrated information.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Also, each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Moreover, each of the embodiments described above can be appropriately combined within a range that does not contradict the processing contents.
〔4-4.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図10に示すような構成のコンピュータ1000によって実現される。図10は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
[4-4. program〕
Also, the
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
The arithmetic device 1030 operates based on programs stored in the primary storage device 1040 and the
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
The output IF 1060 is an interface for transmitting information to be output to the
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
Note that the
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。 Network IF 1080 receives data from other devices via network N and sends the data to arithmetic device 1030, and also transmits data generated by arithmetic device 1030 via network N to other devices.
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
The arithmetic device 1030 controls the
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
For example, when the computer 1000 functions as the
〔5.効果〕
上述したように、情報提供装置10は、ネットワーク上のコンテンツから、第1対象と第2対象と対象間の関係を示す関係情報とを含むトリプルの候補を取得する。また、情報提供装置10は、取得された候補に対し、候補の取得元となるコンテンツと対応する取得元情報を紐付ける。そして、情報提供装置10は、各候補に対して紐付られた取得元情報に基づいて、候補の中から登録対象とするトリプルを決定する。このような処理の結果、情報提供装置10は、例えば、信頼性が高い取得元から取得されたトリプルを登録対象とするので、自動でナレッジデータベースを拡張しつつ、信頼性を担保することができる結果、有用なナレッジデータベースを提供することができる。
[5. effect〕
As described above, the
ここで、情報提供装置10は、取得元情報として、コンテンツに対する信頼性を示す数値である信頼度を紐付けてもよい。また、情報提供装置10は、取得元情報として、コンテンツのドメインに応じた信頼度を紐付けてもよい。そして、情報提供装置10は、トリプルの候補に紐付られた信頼度が所定の条件を満たす場合は、トリプルの候補を登録対象とする。例えば、情報提供装置10は、それぞれ異なるコンテンツから取得された複数の候補であって、第1対象と、第2対象と、関係情報とが一致する複数の候補のそれぞれと紐付られた信頼度が所定の条件を満たす場合は、第1対象と、第2対象と、関係情報とを含むトリプルを登録対象とする。なお、情報提供装置10は、第1対象と、第2対象と、関係情報とが一致する複数の候補に紐付られた信頼度の荷重和が所定の閾値を超える場合は、第1対象と、第2対象と、関係情報とを含むトリプルを登録対象としてもよい。このような処理の結果、情報提供装置10は、登録するトリプルの信頼性を担保することができるので、有用なナレッジデータベースを提供することができる。
Here, the
また、情報提供装置10は、各候補の取得元となるコンテンツ同士の関連性に応じた重みを用いて、第1対象と、第2対象と、関係情報とが一致する複数の候補に紐付られた信頼度の荷重和を算出してもよい。この結果、情報提供装置10は、例えば、コンテンツ同士の関連性を考慮して、トリプルの信頼性を算出するので、登録するトリプルの信頼性をさらに向上させることができる。
In addition, the
また、情報提供装置10は、ネットワーク上のコンテンツとして、対象間の関係性があらかじめ定義されている構造化データ、若しくは、データの属性が設定された半構造化データから、トリプルの候補を取得する。ここで、情報提供装置10は、構造化データから取得したトリプルの候補に対し、所定の閾値よりも高い値の信頼度を紐付け、半構造化データから取得したトリプルの候補に対し、所定の閾値よりも低い値の信頼度を紐付けてもよい。このため、情報提供装置10は、ナレッジデータベースの自動的な拡張を実現するとともに、信頼性の高いナレッジデータベースを提供することができる。
In addition, the
また、情報提供装置10は、異なるコンテンツから取得されたトリプルの候補が、同一の第1対象を示す第1要素と、同一の第2対象を示す第2要素と、同一の関係を示す関係情報とを含むか否かを判定する。そして、情報提供装置10は、同一の第1対象を示す第1要素と、同一の第2対象を示す第2要素と、同一の関係を示す関係情報とを含むと判定された複数のトリプルの候補に紐付られた取得元情報に基づいて、候補を登録対象とするか否かを決定する。このため、情報提供装置10は、ナレッジデータベースに登録されるトリプルの信頼性を担保することができる。
Further, the
また、情報提供装置10は、取得元情報が所定の条件を満たす場合は、第1対象を示す第1要素と、第2対象を示す第2要素と、関係を示す関係情報とを含むトリプルを登録対象とする。このため、情報提供装置10は、登録するトリプルの信頼性を担保することができる。
Further, when the acquisition source information satisfies a predetermined condition, the
また、情報提供装置10は、登録対象としたトリプルと取得元情報とを対応付けてデータベースに登録する。このため、情報提供装置10は、例えば、取得元や取得元の信頼性を考慮した検索を実現可能なナレッジデータベースを提供することができる。
Further, the
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 As described above, some of the embodiments of the present application have been described in detail based on the drawings. It is possible to carry out the invention in other forms with modifications.
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、付与部は、特定手段や特定回路に読み替えることができる。 Also, the "section, module, unit" described above can be read as "means" or "circuit". For example, the assigning unit can be read as specifying means or a specifying circuit.
10 情報提供装置
20 通信部
30 記憶部
31 エンティティデータベース
32 トリプルデータベース
33 信頼度テーブル
40 制御部
41 取得部
42 紐付部
43 判定部
44 決定部
45 登録部
46 検索部
100 データサーバ
200、201、202 端末装置
10
Claims (14)
前記候補の取得元となるコンテンツに関する情報に基づいて、前記候補のうち登録対象とする候補を決定する決定部と
を有することを特徴とする決定装置。 an acquisition unit that acquires, from content, a first target and a second target having a predetermined relationship as candidates for registration in a predetermined database;
and a determination unit configured to determine candidates to be registered among the candidates based on information about content from which the candidates are acquired.
ことを特徴とする請求項1に記載の決定装置。 2. The determining device according to claim 1, wherein the determination unit determines a registration target based on reliability, which is a numerical value indicating reliability of the content, as the information regarding the content that is the acquisition source.
ことを特徴とする請求項2に記載の決定装置。 3. The determining device according to claim 2, wherein the determination unit determines a registration target based on reliability according to a domain of the content as the information regarding the content that is the acquisition source.
ことを特徴とする請求項2または3に記載の決定装置。 The determination device according to claim 2 or 3, wherein, when the reliability associated with the candidate satisfies a predetermined condition, the determination unit treats the candidate as a registration target.
ことを特徴とする請求項2~4のうちいずれか1つに記載の決定装置。 The determination unit includes a plurality of candidates obtained from different contents, the first target, the second target, and relationship information indicating a relationship between the first target and the second target. If the reliability associated with each of a plurality of candidates that match , satisfies a predetermined condition, the triple containing the first target, the second target, and the relevant information is registered. The decision device according to any one of claims 2 to 4, wherein:
ことを特徴とする請求項5に記載の決定装置。 When the weighted sum of the degrees of reliability associated with a plurality of candidates that match the first target, the second target, and the relationship information exceeds a predetermined threshold, the determination unit determines that the first target and 6. The determining apparatus according to claim 5, wherein a triple including said second target and said related information is registered.
ことを特徴とする請求項6に記載の決定装置。 The determining unit associates a plurality of candidates with matching first target, second target, and related information using a weight according to the relationship between content from which each candidate is acquired. 7. The decision device according to claim 6, further comprising: calculating a weighted sum of the reliability degrees obtained by
ことを特徴とする請求項1~7のうちいずれか1つに記載の決定装置。 The acquisition unit acquires the candidate from structured data in which relationships between objects are defined in advance, or from semi-structured data in which data attributes are set, as the content. Clause 8. A decision device according to any one of clauses 1-7.
ことを特徴とする請求項8に記載の決定装置。 The determination unit determines that the candidate obtained from the structured data has a reliability value higher than a predetermined threshold, and the candidate obtained from the semi-structured data has a reliability value lower than the predetermined threshold. 9. The determining device according to claim 8, wherein, among the candidates, a candidate whose reliability satisfies a predetermined condition is determined as a candidate to be registered.
を有し、
前記決定部は、同一の第1対象を示す第1要素と、同一の第2対象を示す第2要素とを含むと判定された複数の候補の取得元となるコンテンツに関する情報に基づいて、当該候補を登録対象とするか否かを決定する
ことを特徴とする請求項1~9のうちいずれか1つに記載の決定装置。 a determination unit that determines whether or not candidates acquired from different contents include a first element indicating the same first target and a second element indicating the same second target,
The determining unit determines, based on information about content from which a plurality of candidates are acquired that are determined to include a first element indicating the same first target and a second element indicating the same second target, 10. The determining device according to any one of claims 1 to 9, which determines whether or not the candidate is to be registered.
ことを特徴とする請求項10に記載の決定装置。 The determining unit, when the information about the content as the acquisition source satisfies a predetermined condition, a first element indicating the first target, a second element indicating the second target, and the first target and the target. 11. The determining device according to claim 10, wherein triples including relational information indicating a relationship with the second object are to be registered.
を有することを特徴とする請求項1~11のうちいずれか1つに記載の決定装置。 12. The method according to any one of claims 1 to 11, further comprising a registration unit that associates the triples to be registered by the determination unit with information about the content that is the acquisition source and registers the triples in a database. decision device.
コンテンツから、所定の関係性を有する第1対象と第2対象とを所定のデータベースに対する登録対象の候補として取得する取得工程と、
前記候補の取得元となるコンテンツに関する情報に基づいて、前記候補のうち登録対象とする候補を決定する決定工程と
を含むことを特徴とする決定方法。 A decision method executed by a decision device,
an obtaining step of obtaining, from the content, a first target and a second target having a predetermined relationship as candidates for registration in a predetermined database;
and a determining step of determining candidates to be registered among the candidates based on information about content from which the candidates are acquired.
前記候補の取得元となるコンテンツに関する情報に基づいて、前記候補のうち登録対象とする候補を決定する決定手順と
をコンピュータに実行させるための決定プログラム。 an acquisition procedure for acquiring, from content, a first target and a second target having a predetermined relationship as candidates for registration in a predetermined database;
A determination program for causing a computer to execute a determination procedure for determining candidates to be registered among the candidates based on information about content from which the candidates are acquired.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021078771A JP7273888B2 (en) | 2019-05-23 | 2021-05-06 | Decision device, decision method and decision program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019096910A JP6882372B2 (en) | 2019-05-23 | 2019-05-23 | Decision device, decision method, and decision program |
JP2021078771A JP7273888B2 (en) | 2019-05-23 | 2021-05-06 | Decision device, decision method and decision program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019096910A Division JP6882372B2 (en) | 2019-05-23 | 2019-05-23 | Decision device, decision method, and decision program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021152905A JP2021152905A (en) | 2021-09-30 |
JP7273888B2 true JP7273888B2 (en) | 2023-05-15 |
Family
ID=73453810
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019096910A Active JP6882372B2 (en) | 2019-05-23 | 2019-05-23 | Decision device, decision method, and decision program |
JP2021078771A Active JP7273888B2 (en) | 2019-05-23 | 2021-05-06 | Decision device, decision method and decision program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019096910A Active JP6882372B2 (en) | 2019-05-23 | 2019-05-23 | Decision device, decision method, and decision program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP6882372B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002446A (en) | 2012-06-15 | 2014-01-09 | Sony Corp | Information processing apparatus and program |
JP2018005690A (en) | 2016-07-05 | 2018-01-11 | 富士ゼロックス株式会社 | Information processing apparatus and program |
JP2018151800A (en) | 2017-03-10 | 2018-09-27 | ヤフー株式会社 | Application device, application method and application program |
-
2019
- 2019-05-23 JP JP2019096910A patent/JP6882372B2/en active Active
-
2021
- 2021-05-06 JP JP2021078771A patent/JP7273888B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002446A (en) | 2012-06-15 | 2014-01-09 | Sony Corp | Information processing apparatus and program |
JP2018005690A (en) | 2016-07-05 | 2018-01-11 | 富士ゼロックス株式会社 | Information processing apparatus and program |
JP2018151800A (en) | 2017-03-10 | 2018-09-27 | ヤフー株式会社 | Application device, application method and application program |
Also Published As
Publication number | Publication date |
---|---|
JP6882372B2 (en) | 2021-06-02 |
JP2020190997A (en) | 2020-11-26 |
JP2021152905A (en) | 2021-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102564144B1 (en) | Method, apparatus, device and medium for determining text relevance | |
Kim et al. | Similarity matching for integrating spatial information extracted from place descriptions | |
US9990422B2 (en) | Contextual analysis engine | |
US10430806B2 (en) | Input/output interface for contextual analysis engine | |
US10235681B2 (en) | Text extraction module for contextual analysis engine | |
US9418138B2 (en) | Method and system for determining sets of variant items | |
US7505984B1 (en) | Systems and methods for information extraction | |
JP4878624B2 (en) | Document processing apparatus and document processing method | |
CN112100396B (en) | Data processing method and device | |
JP2015518210A (en) | Method, apparatus and computer-readable medium for organizing data related to products | |
Sleeman et al. | Entity type recognition for heterogeneous semantic graphs | |
KR20180129001A (en) | Method and System for Entity summarization based on multilingual projected entity space | |
Grigalis | Towards web-scale structured web data extraction | |
JP6321845B1 (en) | Granting device, granting method, and granting program | |
Xu et al. | Application of rough concept lattice model in construction of ontology and semantic annotation in semantic web of things | |
WO2016067396A1 (en) | Sentence sorting method and computer | |
JP7273888B2 (en) | Decision device, decision method and decision program | |
US11409773B2 (en) | Selection device, selection method, and non-transitory computer readable storage medium | |
JP6680472B2 (en) | Information processing apparatus, information processing method, and information processing program | |
Kumara et al. | Ontology learning with complex data type for Web service clustering | |
KR20220041336A (en) | Graph generation system of recommending significant keywords and extracting core documents and method thereof | |
WO2013150633A1 (en) | Document processing system and document processing method | |
CN113656574B (en) | Method, computing device and storage medium for search result ranking | |
Misale et al. | A survey on recommendation system for technical paper reviewer assignment | |
US11704350B2 (en) | Search term extraction and optimization from natural language text files |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220419 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230428 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7273888 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |