JP2019053469A - Database creating device, database creating method, and program - Google Patents

Database creating device, database creating method, and program Download PDF

Info

Publication number
JP2019053469A
JP2019053469A JP2017176575A JP2017176575A JP2019053469A JP 2019053469 A JP2019053469 A JP 2019053469A JP 2017176575 A JP2017176575 A JP 2017176575A JP 2017176575 A JP2017176575 A JP 2017176575A JP 2019053469 A JP2019053469 A JP 2019053469A
Authority
JP
Japan
Prior art keywords
database
target thing
target
entity
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017176575A
Other languages
Japanese (ja)
Inventor
拓也 真壁
Takuya Makabe
拓也 真壁
朋哉 山崎
Tomoya Yamazaki
朋哉 山崎
賢太郎 西
Kentaro Nishi
賢太郎 西
明 守屋
Akira Moriya
明 守屋
村上 直也
Naoya Murakami
直也 村上
宏希 岩澤
Hiroki Iwasawa
宏希 岩澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017176575A priority Critical patent/JP2019053469A/en
Publication of JP2019053469A publication Critical patent/JP2019053469A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a database creating device, a database creating method, and a program capable of creating a database with a high versatility.SOLUTION: A database creating device includes: a determining unit which compares an attribute of a first object registered in a first database with an attribute of a second object registered in a second database different from the first database, and which determines whether or not the first object and the second object are the same object; and a creating unit that creates a database obtained by unifying the first object with the second object when the determining unit determines that the first object and the second object are the same object.SELECTED DRAWING: Figure 2

Description

本発明は、データベース生成装置、データベース生成方法、およびプログラムに関する。   The present invention relates to a database generation device, a database generation method, and a program.

従来、ディープニューラルネットワークに基づいてナレッジグラフで自動質問応答を行う技術が知られている(例えば、特許文献1参照)。ナレッジグラフのような単一のデータベースは、専ら、クローラが、HTML(HyperText Markup Language)で記述された複数のテキストデータを参照することで生成される。   2. Description of the Related Art Conventionally, a technique for performing automatic question answering with a knowledge graph based on a deep neural network is known (see, for example, Patent Document 1). A single database such as a knowledge graph is generated exclusively by a crawler referring to a plurality of text data described in HTML (HyperText Markup Language).

特開2017−76403号公報Japanese Unexamined Patent Publication No. 2017-76403

しかしながら、従来の技術では、雑多な知識を単一のデータベースに纏めることが難しく、一般的には、特定の分野に限定してデータベースを生成している。そのため、データベースの汎用性が低下する場合があった。   However, in the conventional technique, it is difficult to gather various kinds of knowledge in a single database, and in general, a database is generated limited to a specific field. For this reason, the versatility of the database may be reduced.

本発明は、上記の課題に鑑みてなされたものであり、汎用性の高いデータベースを生成することができるデータベース生成装置、データベース生成方法、およびプログラムを提供することを目的としている。   The present invention has been made in view of the above problems, and an object of the present invention is to provide a database generation device, a database generation method, and a program capable of generating a highly versatile database.

本発明の一態様は、第1データベースに登録された第1対象事物の属性と、前記第1データベースと異なる第2データベースに登録された第2対象事物の属性とを比較して、前記第1対象事物と前記第2対象事物とが同一の対象事物であるか否かを判定する判定部と、前記判定部により、前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定された場合、前記第1対象事物および前記第2対象事物を統合したデータベースを生成する生成部と、を備えるデータベース生成装置である。   According to an aspect of the present invention, the attribute of the first target thing registered in the first database is compared with the attribute of the second target thing registered in a second database different from the first database. A determination unit that determines whether the target thing and the second target thing are the same target thing, and the first target thing and the second target thing are the same target thing by the determination unit. If it is determined, the database generation device includes a generation unit that generates a database in which the first target thing and the second target thing are integrated.

本発明の一態様によれば、汎用性の高いデータベースを生成することができるデータベース生成装置、データベース生成方法、およびプログラムを提供することができる。   According to one embodiment of the present invention, a database generation device, a database generation method, and a program that can generate a highly versatile database can be provided.

第1実施形態におけるデータベース生成装置100を含む情報提供システム1の一例を示す図である。It is a figure which shows an example of the information provision system 1 containing the database production | generation apparatus 100 in 1st Embodiment. 第1実施形態におけるデータベース生成装置100の構成の一例を示す図である。It is a figure which shows an example of a structure of the database production | generation apparatus 100 in 1st Embodiment. 第1データベースDB1の一例を示す図である。It is a figure which shows an example of 1st database DB1. 第2データベースDB2の一例を示す図である。It is a figure which shows an example of 2nd database DB2. エンティティの属性判定を具体的に説明するための図である。It is a figure for demonstrating the attribute determination of an entity concretely. ナレッジベースKBの一例を示す図である。It is a figure which shows an example of knowledge base KB. エンティティの統合方法を説明するための図である。It is a figure for demonstrating the integration method of an entity. 第1実施形態における制御部110により実行される処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process performed by the control part 110 in 1st Embodiment. 着目エンティティに対して類似エンティティを関連付ける際の処理内容を模式的に示す図である。It is a figure which shows typically the processing content at the time of associating a similar entity with respect to the attention entity. 第2実施形態における制御部110により実行される処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process performed by the control part 110 in 2nd Embodiment. 実施形態の情報提供装置10およびデータベース生成装置100のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the information provision apparatus 10 and database production | generation apparatus 100 of embodiment.

以下、本発明を適用したデータベース生成装置、データベース生成方法、およびプログラムを、図面を参照して説明する。   Hereinafter, a database generation device, a database generation method, and a program to which the present invention is applied will be described with reference to the drawings.

[概要]
データベース生成装置は、一以上のプロセッサによって実現される。データベース生成装置は、互いに異なる複数のデータベースのうち、第1データベースに登録された、ある対象事物の属性と、第1データベースと異なる第2データベースに登録された、ある対象事物の属性とを比較して、これらの対象事物とが同一の対象事物であるか否かを判定する。そして、データベース生成装置は、比較対象とした二つの対象事物が同一の対象事物であると判定した場合、これらの対象事物のうち一方の対象事物に、他方の対象事物の属性を追加したナレッジ型のデータベース(以下、ナレッジベースと称する)を生成する。これによって、汎用性の高いデータベースを生成することができる。
[Overview]
The database generation device is realized by one or more processors. The database generation device compares an attribute of a certain target object registered in the first database among a plurality of different databases and an attribute of a certain target object registered in a second database different from the first database. Then, it is determined whether or not these target things are the same target thing. When the database generation device determines that the two target things to be compared are the same target thing, the knowledge type in which the attribute of the other target thing is added to one of the target things. Database (hereinafter referred to as a knowledge base). Thereby, a highly versatile database can be generated.

第1データベースまたは第2データベースは、例えば、地図情報や、交通情報、商業施設情報といったロケーションに関する情報を蓄積したデータベースであってもよいし、株価や為替といったファイナンスに関する情報を蓄積したデータベースであってもよいし、百科事典のデータベースであってもよいし、その他の種々のデータベースであってよい。   The first database or the second database may be, for example, a database that stores information related to locations such as map information, traffic information, and commercial facility information, or a database that stores information related to finance such as stock prices and currency exchange. Alternatively, it may be an encyclopedia database or other various databases.

ナレッジベースとは、事物についての情報や事物間の関係をグラフとして記述したデータベースである。ナレッジベースにおける事物とは、例えば、「人間」や「機械」、「建物」といった形をもつ物、或いは「組織」や「美」、「学問」、「旅行」といった抽象的な概念(=事)を含む。本実施形態では、ナレッジベースにおいて記述された事物のうち、データベース生成装置が他の事物と区別して扱う対象事物のことを、特に「エンティティ」と称して説明する。   A knowledge base is a database that describes information about things and relationships between things as graphs. Things in the knowledge base are, for example, things with the shape of “human”, “machine”, “building”, or abstract concepts such as “organization”, “beauty”, “study”, “travel” (= things) )including. In the present embodiment, among the things described in the knowledge base, the target thing that the database generation apparatus handles in distinction from other things will be described as “entity” in particular.

エンティティ(対象事物)とは、ナレッジベースにおいて、ある対象事物の実体(例えば実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。本実施形態では、説明を簡略化するために、エンティティを、インターネット上において、コンテンツのリソースの識別子URI(Uniform Resource Identifier)をもつ実体のことを表すものとして説明する。   An entity (target object) may represent an entity of a target object (for example, an object existing in the real world) or a concept of a target object (for example, in the real world or a virtual world) in the knowledge base. It may represent a concept defined by For example, when the target object is a concept of “building”, the entity may represent an entity such as “XX tower” or “XX building”. Further, for example, when the object is the concept of “economics”, the entity may represent an abstract concept having no entity such as “microeconomics” or “macroeconomics”. In the present embodiment, in order to simplify the description, the entity will be described as representing an entity having a URI (Uniform Resource Identifier) of a content resource on the Internet.

ナレッジベースにおいて記述された事物(エンティティも含む)は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約(ルール)を集めたものである。   Things (including entities) described in the knowledge base are defined by an ontology. An ontology is a definition of classes and properties of things, and is a collection of constraints (rules) that hold between classes and properties.

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティ(属性)により決定される。   A class is a group of things that have the same properties in an ontology. The nature of the thing, that is, the class to which the thing belongs is determined by a property (attribute) described later.

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。   For example, an object that has a beak, is an ovarian vertebrate, and has a wing on its forelimbs, is classified into a class of “bird”. In addition, in the class of “bird”, things that cannot fly are classified into lower classes such as “penguin” and “ostrich”, for example. In this way, the class system may have a hierarchical structure having an upper and lower relationship. The nature of the upper class is inherited by the lower class. In the above example, the nature of the class “bird”, “beaked, ovarian vertebrate, wings on the forelimbs” is the nature of the lower class of “penguins” and “ostriches”. Will also be included. For example, if the class name for identifying the class is a class “bird”, the class name may be represented by a character string “bird”. Note that the class name does not necessarily represent a meaning, and for example, even a class of “bird” may be assigned a character string indicating simple identification information such as “information 1” or “C1”. . The above-described entities, ie, things, belong to any class included in the class system defined by the ontology.

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表す文字列であってもよいし、単なる識別情報を示す文字列であってもよい。   Properties are attributes that describe the nature and characteristics of things and the relationships between classes. For example, the property may be an attribute indicating the property of “having as a body component” or the property of “having inhabit”, or “a certain class is an upper class and a certain class is a lower class” It may be an attribute indicating the upper / lower relationship between classes, which is “class”. Similar to the class name described above, the property name for identifying the property may be a character string representing the meaning of the property name itself, or may be a character string representing simple identification information.

<第1実施形態>
[全体構成]
図1は、第1実施形態におけるデータベース生成装置100を含む情報提供システム1の一例を示す図である。第1実施形態における情報提供システム1は、例えば、一以上の情報提供装置10と、データベース生成装置100とを備える。これらの装置は、ネットワークNWを介して接続される。なお、データベース生成装置100には、情報提供装置10が集約されていてもよい。
<First Embodiment>
[overall structure]
FIG. 1 is a diagram illustrating an example of an information providing system 1 including a database generation device 100 according to the first embodiment. The information providing system 1 in the first embodiment includes, for example, one or more information providing apparatuses 10 and a database generation apparatus 100. These devices are connected via a network NW. Note that the information providing apparatus 10 may be aggregated in the database generation apparatus 100.

図1に示す各装置は、ネットワークNWを介して種々の情報を送受信する。ネットワークNWは、例えば、無線基地局、Wi‐Fiアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。   Each apparatus shown in FIG. 1 transmits and receives various information via the network NW. The network NW includes, for example, a radio base station, a Wi-Fi access point, a communication line, a provider, the Internet, and the like. Note that it is not necessary for all combinations of the devices shown in FIG. 1 to be able to communicate with each other, and the network NW may partially include a local network.

情報提供装置10は、例えば、アプリケーションが起動された端末装置(不図示)と通信を行って、各種情報の受け渡しを行うアプリケーションサーバ装置であってもよいし、検索サイト等のウェブサイトを提供するウェブサーバ装置であってよい。端末装置は、例えば、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータなどのコンピュータ装置である。   The information providing apparatus 10 may be, for example, an application server apparatus that communicates with a terminal device (not shown) in which an application is activated to exchange various types of information, or provides a website such as a search site. It may be a web server device. The terminal device is, for example, a mobile phone such as a smartphone, a computer device such as a tablet terminal or a personal computer.

例えば、情報提供装置10は、端末装置から取得した検索クエリに対応する情報を、データベース生成装置100により生成されたナレッジベースから抽出し、抽出した情報を検索結果として端末装置に提供してよい。   For example, the information providing apparatus 10 may extract information corresponding to the search query acquired from the terminal apparatus from the knowledge base generated by the database generation apparatus 100, and provide the extracted information to the terminal apparatus as a search result.

データベース生成装置100は、情報提供装置10により提供されるウェブサイトや他のウェブサーバにより提供されるウェブサイトを定期的にクロールし、ウェブサイト上のコンテンツCTを収集したり、情報提供装置10において管理されるデータベースそのものを収集したりする装置である。データベース生成装置100により収集されるコンテンツCTには、ウェブサイト上で再生または表示される動画データや、画像データ、音声データ、テキストデータの他に、ウェブサイトを構成するウェブページの元となるHTML文書(テキストデータ)が含まれてよい。   The database generation apparatus 100 periodically crawls websites provided by the information providing apparatus 10 and websites provided by other web servers, collects content CT on the website, It is a device that collects the managed database itself. The content CT collected by the database generation device 100 includes HTML that is a source of a web page constituting the website, in addition to moving image data, image data, audio data, and text data reproduced or displayed on the website. A document (text data) may be included.

そして、データベース生成装置100は、収集したコンテンツやデータベースに基づいて、ナレッジベースKBを生成する。ナレッジベースKBの生成方法の詳細については後述する。   Then, the database generation device 100 generates a knowledge base KB based on the collected content and database. Details of the method of generating the knowledge base KB will be described later.

[データベース生成装置の構成]
図2は、第1実施形態におけるデータベース生成装置100の構成の一例を示す図である。図示のように、データベース生成装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
[Database generator configuration]
FIG. 2 is a diagram illustrating an example of the configuration of the database generation device 100 according to the first embodiment. As illustrated, the database generation device 100 includes a communication unit 102, a control unit 110, and a storage unit 130, for example.

通信部102は、例えば、NIC(Network Interface Card)等の通信インターフェースやDMA(Direct Memory Access)コントローラを含む。通信部102は、ネットワークNWを介して、情報提供装置10や他のウェブサーバと通信する。   The communication unit 102 includes, for example, a communication interface such as a NIC (Network Interface Card) or a DMA (Direct Memory Access) controller. The communication unit 102 communicates with the information providing apparatus 10 and other web servers via the network NW.

制御部110は、例えば、取得部112と、判定部114と、ナレッジベース生成部116とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのプロセッサが記憶部130に格納されたプログラムを実行することにより実現される。また、制御部110の構成要素の一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはGPU(Graphics Processing Unit)などのハードウェア(回路部;circuitry)により実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。   The control unit 110 includes, for example, an acquisition unit 112, a determination unit 114, and a knowledge base generation unit 116. These components are realized, for example, when a processor such as a CPU (Central Processing Unit) executes a program stored in the storage unit 130. Some or all of the components of the control unit 110 are hardware such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), or GPU (Graphics Processing Unit). It may be realized by (circuit unit; circuit) or may be realized by cooperation of software and hardware.

記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより実現される。記憶部130には、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、第1データベースDB1や第2データベースDB2、コンテンツCT、ナレッジベースKBが記憶される。これらの情報については後述する。   The storage unit 130 is realized by, for example, an HDD (Hard Disc Drive), a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), a ROM (Read Only Memory), a RAM (Random Access Memory), or the like. In addition to various programs such as firmware and application programs, the storage unit 130 stores the first database DB1, the second database DB2, the content CT, and the knowledge base KB. Such information will be described later.

取得部112は、通信部102を用いて、ウェブサイトを提供する情報提供装置10や他のウェブサーバと通信を行い、これらの装置において管理されるデータベースを取得する。   The acquisition unit 112 uses the communication unit 102 to communicate with the information providing apparatus 10 that provides a website and other web servers, and acquires a database managed by these apparatuses.

例えば、取得部112は、あるウェブサイトAを提供する情報提供装置10からは、第1データベースDB1を取得し、ウェブサイトAと異なるウェブサイトBを提供する情報提供装置10からは、第2データベースDB2を取得する。そして、取得部112は、これらの各データベースを記憶部130に記憶させる。   For example, the acquiring unit 112 acquires the first database DB1 from the information providing apparatus 10 that provides a certain website A, and receives the second database from the information providing apparatus 10 that provides the website B different from the website A. Get DB2. Then, the acquisition unit 112 stores these databases in the storage unit 130.

図3は、第1データベースDB1の一例を示す図である。例えば、第1データベースDB1は、ウェブサイトAにおいて提供されるロケーションに関する情報を蓄積したデータベースであり、各ウェブページのURL(Uniform Resource Locator)に対して、ウェブページのタイトルや、そのロケーションが示す商業施設の営業時間、定休日、緯度経度などの位置情報などの情報が対応付けられた情報である。これらの情報は、ウェブサイトAを構成するウェブページ上において、コンテンツとして提供される。   FIG. 3 is a diagram illustrating an example of the first database DB1. For example, the first database DB1 is a database in which information related to locations provided on the website A is accumulated. The URL (Uniform Resource Locator) of each web page is the title of the web page and the commercial indicated by the location. This is information associated with information such as location information such as business hours, fixed holidays, and latitude and longitude of the facility. These pieces of information are provided as content on the web pages that make up the website A.

図4は、第2データベースDB2の一例を示す図である。例えば、第2データベースDB2は、ウェブサイトBにおいて提供される百科事典のデータベースである。例えば、百科事典に対して、あるロケーションに関する辞書引きが行われた場合、第2データベースDB2は、各ウェブページのURLに対して、ウェブページのタイトルや、そのロケーションまでの最寄駅、位置情報などの情報が対応付けられた情報となる。これらの情報は、ウェブサイトBを構成するウェブページ上において、コンテンツとして提供される。   FIG. 4 is a diagram illustrating an example of the second database DB2. For example, the second database DB2 is an encyclopedia database provided on the website B. For example, when a dictionary for a certain location is searched for an encyclopedia, the second database DB2 uses the URL of each web page, the title of the web page, the nearest station to that location, and location information. Such information is associated with each other. These pieces of information are provided as content on the web pages that make up the website B.

また、例えば、ウェブページが、複数の言語に対応している場合、図示の例のように、各ウェブページのURLには、各言語に対応したタイトルが対応付けられてよい。また、例えば、百科事典に対して、ある人物に関する辞書引きが行われた場合、第2データベースDB2は、各ウェブページのURLに対して、ウェブページのタイトルや、その人物の個人情報などが対応付けられてよい。個人情報には、例えば、人物の氏名、生年月日、出身地といった各種情報が含まれる。   Further, for example, when a web page is compatible with a plurality of languages, a title corresponding to each language may be associated with the URL of each web page as in the illustrated example. Also, for example, when a dictionary for a certain person is searched for an encyclopedia, the second database DB2 corresponds to the URL of each web page with the title of the web page, personal information of the person, etc. May be attached. The personal information includes, for example, various information such as a person's name, date of birth, and birthplace.

なお、上述した例では、第1データベースDB1は、ロケーションに関する情報を蓄積したデータベースであり、第2データベースDB2は、百科事典のデータベースであるものとして説明したがこれに限られず、いずれかのデータベースは、ファイナンスに関する情報を蓄積したデータベースであってもよい。この場合、第1データベースDB1または第2データベースDB2は、各ウェブページのURLに対して、ウェブページのタイトルや、そのウェブページで株価などを紹介する企業の名称、証券コードなどが対応付けられた情報であってよい。   In the above-described example, the first database DB1 is a database that stores information related to locations, and the second database DB2 is described as being an encyclopedia database. It may be a database that stores information on finance. In this case, in the first database DB1 or the second database DB2, the URL of each web page is associated with the title of the web page, the name of the company introducing the stock price, etc. on the web page, the security code, etc. It may be information.

また、取得部112は、通信部102を用いて、所定の周期で情報提供装置10や他のウェブサーバと通信を行い、これらの装置が提供するウェブサイトからコンテンツCTを取得し、これを記憶部130に記憶させてもよい。   Further, the acquisition unit 112 communicates with the information providing apparatus 10 and other web servers at a predetermined cycle using the communication unit 102, acquires the content CT from the website provided by these apparatuses, and stores the content CT You may memorize | store in the part 130. FIG.

例えば、取得部112は、コンテンツCTとして既に取得したHTML文書よりも新しいHTML文書のコピーを取得するために、通信部102を用いて、ウェブサイトを提供する各装置にリクエストを送信する。そして、取得部112は、各装置によりHTML文書のコピーが送信されると、このHTML文書に含まれる全てのハイパーリンクから、リンク先の別のウェブページのHTML文書を収集する。取得部112は、収集の過程において、新たなHTML文書のウェブページにアクセスした場合、このウェブページのコンテンツCTを新たに記憶部130に記憶させる。リクエストの送信から一定時間経過するまでの間に各装置によりHTML文書のコピーが送信されない場合、取得部112は、既に取得したHTML文書に対応するウェブページが存在しないと判定して、このウェブページから収集したコンテンツCTを記憶部130から削除する。   For example, the acquisition unit 112 transmits a request to each device that provides a website using the communication unit 102 in order to acquire a copy of an HTML document that is newer than the HTML document that has already been acquired as the content CT. Then, when a copy of the HTML document is transmitted from each device, the acquisition unit 112 collects an HTML document of another linked web page from all hyperlinks included in the HTML document. When the acquisition unit 112 accesses a web page of a new HTML document during the collection process, the acquisition unit 112 newly stores the content CT of the web page in the storage unit 130. If a copy of the HTML document is not transmitted by each device until a certain time has elapsed since the transmission of the request, the acquisition unit 112 determines that there is no web page corresponding to the already acquired HTML document, and this web page Content CT collected from the storage unit 130 is deleted.

判定部114は、取得部112により取得された第1データベースDB1および第2データベースDB2を参照し、一つに統合可能なデータが存在しているか否かを判定するために、各データベースに登録された複数のデータが、予め決められた判定条件を満たすか否かを判定する。   The determination unit 114 refers to the first database DB1 and the second database DB2 acquired by the acquisition unit 112, and is registered in each database in order to determine whether there is data that can be integrated into one. It is determined whether the plurality of data satisfy a predetermined determination condition.

例えば、判定部114は、各データベースに登録された情報のうち、予め決められたカラム(フィールド)の情報を、ナレッジベースKBにおいて扱われる情報の形態であるエンティティとして抽出し、エンティティとして抽出した情報に対応付けられていた各種情報を、抽出したエンティティの属性とする。例えば、第1データベースDB1において、ウェブページのタイトルとして記述された文字列がエンティティとして抽出された場合、URLや営業時間、定休日、位置情報といったカラムに入力された文字列が属性となる。文字列は、漢字、ひらがな、カタカナ、アルファベット、数字、記号といったコンピュータが処理可能な一以上の文字を含む。また、エンティティの名称を示す属性は、エンティティとして抽出された情報そのものであってよい。例えば、ウェブページのタイトルとして記述された文字列がエンティティとして抽出された場合、そのエンティティの名称には、ウェブページのタイトルとして記述された文字列(例えば「○○庭園」など)が割り当てられる。   For example, the determination unit 114 extracts information on a predetermined column (field) from information registered in each database as an entity that is a form of information handled in the knowledge base KB, and extracts information as an entity. The various information associated with is used as the attribute of the extracted entity. For example, when a character string described as the title of a web page is extracted as an entity in the first database DB1, a character string input in columns such as URL, business hours, regular holidays, and location information becomes an attribute. The character string includes one or more characters that can be processed by a computer, such as kanji, hiragana, katakana, alphabet, numbers, and symbols. Further, the attribute indicating the name of the entity may be the information itself extracted as the entity. For example, when a character string described as the title of a web page is extracted as an entity, a character string described as the title of the web page (for example, “OO Garden”) is assigned to the name of the entity.

判定部114は、第1データベースDB1から抽出したエンティティの属性と、第2データベースDB2から抽出したエンティティの属性とを比較して、比較対象のエンティティが同一のエンティティであるか否かを判定する。例えば、判定部114は、以下に例示するような各種判定条件を満たすか否かを判定することで、比較対象のエンティティが同一のエンティティであるか否かを決定する。   The determination unit 114 compares the attribute of the entity extracted from the first database DB1 with the attribute of the entity extracted from the second database DB2, and determines whether the comparison target entities are the same entity. For example, the determination unit 114 determines whether or not the comparison target entities are the same entity by determining whether or not various determination conditions as exemplified below are satisfied.

条件(1):所定のウェブページのURLと、ウェブページのURLの属性として記述された文字列とが一致すること。
条件(2):ウェブページの日本語タイトルを示す属性が一致すること。
条件(3):ウェブページの英語タイトルを示す属性が一致すること。
条件(4):位置情報および名称を示す属性が一致すること。
Condition (1): The URL of a predetermined web page matches the character string described as the attribute of the URL of the web page.
Condition (2): The attribute indicating the Japanese title of the web page matches.
Condition (3): The attribute indicating the English title of the web page matches.
Condition (4): The position information and the attribute indicating the name match.

図5は、エンティティの属性判定を具体的に説明するための図である。図中のe1、e2、e3、…は、エンティティを表している。   FIG. 5 is a diagram for specifically explaining entity attribute determination. In the figure, e1, e2, e3,... Represent entities.

判定部114は、取得部112によりデータベースが取得されると、これらの各データベースの所定のカラムの情報をエンティティとして抽出し、抽出したエンティティがもつ属性のうち、ウェブページのURLの属性を参照し、URLの属性として記述された文字列が、所定のウェブページのURLと一致するか否かを判定する(図中S100の処理)。   When the database is acquired by the acquisition unit 112, the determination unit 114 extracts information on predetermined columns of each database as an entity, and refers to the URL attribute of the web page among the attributes of the extracted entity. Then, it is determined whether or not the character string described as the URL attribute matches the URL of a predetermined web page (step S100 in the figure).

所定のウェブページのURLとは、第1データベースDB1または第2データベースDB2に含まれる情報が提供されるウェブページのURLである。すなわち、所定のウェブページのURLは、上述したウェブサイトAまたはウェブサイトBを構成する一つのウェブページのURLである。「文字列が一致する」とは、比較対象の文字列同士が完全一致することであってもよいし、10文字中8文字までは一致する、といったような、ある一定の類似度以上で一致することであってもよい。   The URL of the predetermined web page is the URL of the web page where the information included in the first database DB1 or the second database DB2 is provided. That is, the URL of the predetermined web page is the URL of one web page that constitutes the above-described website A or website B. “Character strings match” may mean that the character strings to be compared are completely matched, or match up to a certain degree of similarity, such as matching up to 8 of 10 characters. It may be to do.

例えば、判定部114は、属性としてのURLと、所定のウェブページのURLとを比較したときに、それらのURLを構成する文字列のうち、スキームやホスト名、ドメイン名といった、共通のウェブサイトから得られたデータであれば同じ内容で記述される文字列が少なくとも一致する場合、URLの属性として記述された文字列が所定のウェブページのURLに一致すると判定してよい。すなわち、判定部114は、エンティティの属性を比較して、エンティティとして抽出したデータの取得先のウェブサイトが同じサイトであるか否かを判定する。判定部114は、URLの属性として記述された文字列が所定のウェブページのURLと一致すると判定したエンティティ同士を、一つのクラスタCLに纏める。この際、判定部114は、URLの属性を持たないエンティティを一つのクラスタCLに纏めてよい。   For example, when the determination unit 114 compares a URL as an attribute with a URL of a predetermined web page, a common website such as a scheme, a host name, and a domain name among character strings constituting the URLs. If the character strings described in the same content are at least matched, the character string described as the URL attribute may be determined to match the URL of a predetermined web page. That is, the determination unit 114 compares the attributes of the entities to determine whether the website from which the data extracted as the entities is acquired is the same site. The determination unit 114 collects entities determined to have the character string described as the URL attribute matching the URL of the predetermined web page into one cluster CL. At this time, the determination unit 114 may combine entities having no URL attribute into one cluster CL.

図示の例では、エンティティe1とエンティティe7とがクラスタCL1に纏まられており、エンティティe2とエンティティe8とがクラスタCL2に纏まられており、エンティティe3やその他のエンティティがクラスタCL3に纏まられている。これによって、クラスタCL1に属するエンティティは、あるウェブサイトAから得られたものであり、クラスタCL2に属するエンティティは、ウェブサイトAと異なるウェブサイトBから得られたものであり、クラスタCL3に属するエンティティは、URLの属性を持たないものである、といったような分類が行われる。   In the illustrated example, the entity e1 and the entity e7 are grouped in the cluster CL1, the entity e2 and the entity e8 are grouped in the cluster CL2, and the entity e3 and other entities are grouped in the cluster CL3. ing. Thus, an entity belonging to the cluster CL1 is obtained from a certain website A, and an entity belonging to the cluster CL2 is obtained from a website B different from the website A, and is an entity belonging to the cluster CL3. Are classified as having no URL attribute.

次に、判定部114は、判定処理時に参照する判定条件を、条件(1)から条件(2)に変更し、分類した各クラスタ内において、各エンティティのウェブページの日本語タイトルを示す属性を参照し、同じクラスタに含まれる全エンティティの日本語タイトルの属性として記述された文字列同士が互いに一致するか否かを判定する。図示の例では、クラスタCL1に含まれるエンティティe1およびエンティティe7の日本語タイトルの属性として記述された文字列が互いに一致し、クラスタCL2に含まれるエンティティe2およびエンティティe8の日本語タイトルの属性として記述された文字列が互いに一致せず、クラスタCL3に含まれるエンティティe3およびその他のエンティティの日本語タイトルの属性として記述された文字列が互いに一致している。このような場合、判定部114は、少なくともクラスタCL1およびクラスタCL3を、処理対象クラスタCL(A)に分類し(図中S102の処理)、少なくともクラスタCL2を、処理非対象クラスタCL(B)に分類する(図中S104の処理)。処理対象クラスタCL(A)は、現時点までに全ての判定条件を満たしているエンティティが分類されるクラスタであり、処理非対象クラスタCL(B)は、現時点までに一つ以上の判定条件を満たさなかったエンティティが分類されるクラスタである。処理非対象クラスタCL(B)については、以降の処理に利用されないものとする。   Next, the determination unit 114 changes the determination condition referred to in the determination process from the condition (1) to the condition (2), and in each classified cluster, the attribute indicating the Japanese title of the web page of each entity is changed. Reference is made to determine whether or not the character strings described as the attributes of the Japanese titles of all entities included in the same cluster match each other. In the illustrated example, the character strings described as the attributes of the Japanese titles of the entities e1 and e7 included in the cluster CL1 match each other, and are described as the attributes of the Japanese titles of the entities e2 and e8 included in the cluster CL2. The character strings described do not match each other, and the character strings described as attributes of the Japanese titles of the entity e3 and other entities included in the cluster CL3 match each other. In such a case, the determination unit 114 classifies at least the cluster CL1 and the cluster CL3 as the processing target cluster CL (A) (the process of S102 in the figure), and at least the cluster CL2 as the processing non-target cluster CL (B). Sort (S104 in the figure). The processing target cluster CL (A) is a cluster in which entities that satisfy all the determination conditions up to the present time are classified, and the processing non-target cluster CL (B) satisfies one or more determination conditions up to the present time. This is the cluster into which the missing entities are classified. It is assumed that the non-processing target cluster CL (B) is not used for the subsequent processing.

次に、判定部114は、処理対象クラスタCL(A)に含まれる各クラスタ間で、ウェブページの日本語タイトルが一致するか否かを判定する。例えば、判定部114は、処理対象クラスタCL(A)に含まれるクラスタのうち、クラスタCL1に含まれるエンティティの日本語タイトルの属性として記述された文字列と、クラスタCL3に含まれるエンティティの日本語タイトルの属性として記述された文字列とを比較して、これらの文字列が一致する場合に、処理対象クラスタCL(A)に含まれる各クラスタ間で、ウェブページの日本語タイトルが一致すると判定する。一方、判定部114は、各クラスタに含まれるエンティティの日本語タイトルの属性として記述された文字列同士が一致しない場合、処理対象クラスタCL(A)に含まれる各クラスタ間で、ウェブページの日本語タイトルが一致しないと判定する。   Next, the determination unit 114 determines whether or not the Japanese titles of the web pages match between the clusters included in the processing target cluster CL (A). For example, the determination unit 114 includes a character string described as the attribute of the Japanese title of the entity included in the cluster CL1 among the clusters included in the processing target cluster CL (A) and the Japanese language of the entity included in the cluster CL3. When the character strings described as title attributes are compared, and these character strings match, it is determined that the Japanese titles of the web pages match between the clusters included in the processing target cluster CL (A). To do. On the other hand, when the character strings described as the attribute of the Japanese title of the entity included in each cluster do not match, the determination unit 114 determines whether the web page Japan is between the clusters included in the processing target cluster CL (A). It is determined that the word titles do not match.

判定部114は、処理対象クラスタCL(A)に含まれる各クラスタ間でウェブページの日本語タイトルが一致する場合、この処理対象クラスタCL(A)を次の判定条件の判定対象に決定する(図中S106の処理)。一方、判定部114は、処理対象クラスタCL(A)に含まれる各クラスタ間でウェブページの日本語タイトルが一致しない場合、この処理対象クラスタCL(A)に含まれる各クラスタを、処理非対象クラスタCL(B)に分類する。すなわち、判定部114は、処理対象クラスタCL(A)に含まれる各クラスタを次の判定条件の判定対象に決定しない。   When the Japanese title of the web page matches between the clusters included in the processing target cluster CL (A), the determination unit 114 determines the processing target cluster CL (A) as a determination target of the next determination condition ( Processing in S106 in the figure). On the other hand, when the Japanese title of the web page does not match between the clusters included in the processing target cluster CL (A), the determination unit 114 determines each cluster included in the processing target cluster CL (A) as a non-processing target. Classify into cluster CL (B). That is, the determination unit 114 does not determine each cluster included in the processing target cluster CL (A) as a determination target of the next determination condition.

次に、判定部114は、判定処理時に参照する判定条件を、条件(2)から条件(3)に変更し、判定対象に決定した処理対象クラスタCL(A)に含まれる各クラスタ内において、各エンティティのウェブページの英語タイトルを示す属性を参照し、対象とする同一のクラスタ(例えばCL1やCL3)に含まれる全エンティティの英語タイトルの属性として記述された文字列同士が互いに一致するか否かを判定する。英語タイトルの属性が一致するか否かの判定については、日本語タイトルの属性が一致するか否かの判定と同様であるためここでは説明を省略する。   Next, the determination unit 114 changes the determination condition referred to in the determination process from the condition (2) to the condition (3), and in each cluster included in the processing target cluster CL (A) determined as the determination target, Whether or not character strings described as attributes of English titles of all entities included in the same target cluster (for example, CL1 or CL3) match each other with reference to the attribute indicating the English title of the web page of each entity Determine whether. The determination of whether or not the attributes of the English title match is the same as the determination of whether or not the attributes of the Japanese title match, and will not be described here.

判定部114は、対象とする同一のクラスタに含まれる全てのエンティティについて、英語タイトルの属性として記述された文字列同士が互いに一致する場合、このクラスタを処理対象クラスタCL(A)に分類し、そうでなければ処理非対象クラスタCL(B)に分類する。   When the character strings described as the attributes of the English title match each other for all entities included in the same target cluster, the determination unit 114 classifies the cluster as the processing target cluster CL (A), Otherwise, it is classified into the processing non-target cluster CL (B).

次に、判定部114は、日本語タイトルのときと同様に、処理対象クラスタCL(A)に含まれる各クラスタ間で、ウェブページの英語タイトルが一致するか否かを判定する。判定部114は、処理対象クラスタCL(A)に含まれる各クラスタ間でウェブページの英語タイトルが一致する場合、この処理対象クラスタCL(A)を次の判定条件の判定対象に決定し、処理対象クラスタCL(A)に含まれる各クラスタ間でウェブページの英語タイトルが一致しない場合、この処理対象クラスタCL(A)に含まれる各クラスタを、処理非対象クラスタCL(B)に分類する。   Next, as in the case of the Japanese title, the determination unit 114 determines whether or not the English titles of the web pages match between the clusters included in the processing target cluster CL (A). When the English titles of the web pages match between the clusters included in the processing target cluster CL (A), the determination unit 114 determines the processing target cluster CL (A) as a determination target of the next determination condition, and performs processing If the English titles of the web pages do not match between the clusters included in the target cluster CL (A), the clusters included in the processing target cluster CL (A) are classified as non-processing target clusters CL (B).

次に、判定部114は、判定処理時に参照する判定条件を、条件(3)から条件(4)に変更し、判定対象に決定した処理対象クラスタCL(A)に含まれる各クラスタ内において、各エンティティの位置情報および名称を示す属性を参照し、対象とする同一のクラスタに含まれる全エンティティの位置情報の属性として記述された文字列同士と、名称の属性として記述された文字列同士とが其々で一致するか否かを判定する。   Next, the determination unit 114 changes the determination condition referred to in the determination process from the condition (3) to the condition (4), and in each cluster included in the processing target cluster CL (A) determined as the determination target, With reference to the attribute indicating the position information and name of each entity, the character strings described as the position information attributes of all entities included in the same target cluster, and the character strings described as the name attributes Are determined to match each other.

判定部114は、判定対象に決定した処理対象クラスタCL(A)に含まれる一以上のクラスタのうち、対象とする同一のクラスタに含まれる全てのエンティティについて、位置情報の属性として記述された文字列同士が一致し、且つ名称の属性として記述された文字列同士が一致する場合、このクラスタを処理対象クラスタCL(A)に分類し、そうでなければ処理非対象クラスタCL(B)に分類する。例えば、位置情報が経度および緯度で表された座標(例えば緯度:5.679287,経度:139.737386)である場合、その座標を示す数値が小数点第二位まで一致し、且つエンティティの名称として記述された文字列が全て一致する場合、判定部114は、対象とするクラスタを処理対象クラスタCL(A)に分類する。   The determination unit 114 includes characters described as position information attributes for all entities included in the same target cluster among one or more clusters included in the processing target cluster CL (A) determined as a determination target. If the strings match and the character strings described as name attributes match, this cluster is classified as a processing target cluster CL (A), otherwise it is classified as a non-processing target cluster CL (B). To do. For example, when the position information is coordinates expressed by longitude and latitude (for example, latitude: 5.679287, longitude: 139.737386), the numerical values indicating the coordinates match up to the second decimal place, and the name of the entity When all the described character strings match, the determination unit 114 classifies the target cluster as the processing target cluster CL (A).

このように、クラスタ内とクラスタ間において、各エンティティが判定条件を満たすか否かを判定した後、判定部114は、判定処理時に参照する判定条件を新たな条件に変更し、判定処理を繰り返す。判定部114は、繰り返し処理の過程で、判定条件を所定回数以上継続して満たした場合に、処理対象クラスタCL(A)に分類しているエンティティについては、これらを同一のエンティティであると判定する。例えば、判定部114は、繰り返し処理の結果、全ての判定条件を満たした上で処理対象クラスタCL(A)に分類したエンティティについては、これらを同一のエンティティであると判定する。図示の例では、クラスタCLXと、クラスタCLYとが、4つの全ての判定条件を満たしている。そのため、クラスタCLXに含まれるエンティティe1、e7、e4は、同一のエンティティであると判定され、クラスタCLYに含まれるエンティティe3、e9は、同一のエンティティであると判定される。同一のエンティティであると判定されたエンティティには、後述するナレッジベース生成部116の処理によって、同一のエンティティであると判定された他のエンティティの属性が追加される。   As described above, after determining whether or not each entity satisfies the determination condition within the cluster and between the clusters, the determination unit 114 changes the determination condition referred to in the determination process to a new condition and repeats the determination process. . The determination unit 114 determines that the entities classified as the processing target cluster CL (A) are the same entity when the determination condition is continuously satisfied a predetermined number of times or more in the course of the repeated processing. To do. For example, as a result of the iterative process, the determination unit 114 determines that the entities classified into the processing target cluster CL (A) after satisfying all the determination conditions are the same entity. In the illustrated example, the cluster CLX and the cluster CLY satisfy all four determination conditions. Therefore, the entities e1, e7, e4 included in the cluster CLX are determined to be the same entity, and the entities e3, e9 included in the cluster CLY are determined to be the same entity. The attributes of other entities determined to be the same entity are added to the entities determined to be the same entity by the processing of the knowledge base generation unit 116 described later.

なお、上述した判定条件には、例えば、比較対象とするエンティティ同士で、証券コードを示す属性が互いに一致することが含まれてもよいし、人物の個人情報(例えば生年月日)を示す属性が互いに一致することが含まれてもよい。   Note that the above-described determination condition may include, for example, that the attributes indicating the securities code match between the entities to be compared with each other, or the attribute indicating the personal information (for example, the date of birth) of the person. May match each other.

ナレッジベース生成部116は、取得部112により取得されたコンテンツCTに基づいて、ナレッジベースKBを生成し、これを記憶部130に記憶させる。例えば、ナレッジベース生成部116は、コンテンツCTに含まれるHTML文書を参照し、このHTML文書から所定の情報を抽出し、抽出した情報に基づいて、参照元のコンテンツCTを、ナレッジベースKBにおいてどのエンティティに関連付けるのかを決定する。   The knowledge base generation unit 116 generates a knowledge base KB based on the content CT acquired by the acquisition unit 112 and stores the knowledge base KB in the storage unit 130. For example, the knowledge base generation unit 116 refers to an HTML document included in the content CT, extracts predetermined information from the HTML document, and based on the extracted information, selects the reference content CT in the knowledge base KB. Decide whether to associate with the entity.

例えば、HTML文書には、コンテンツCTがどういった性質または属性のデータであるのか表す構造化データと呼ばれるデータが所定の仕様(例えばschema.orgに基づく仕様)で記述されることがある。構造化データとは、HTMLで記述された情報、すなわちウェブページがどのようなエンティティで扱われるべきなのかを、検索サイトを提供するウェブサーバやその他のクローラに理解させるためのデータである。HTML文書に構造化データが含まれている場合、ナレッジベース生成部116は、HTML文書から構造化データを取得することで、ナレッジベースKBにおいて、コンテンツCTに対応したエンティティを特定する。また、ナレッジベース生成部116は、HTML文書に構造化データが含まれていない場合、例えば、HTML文書の記述内容から、統計的な確率手法を用いて、そのコンテンツCTに対応したエンティティを特定してよい。   For example, in an HTML document, data called structured data indicating what kind of property or attribute the content CT is may be described with a predetermined specification (for example, a specification based on schema.org). Structured data is data for allowing a web server or other crawler that provides a search site to understand information described in HTML, that is, what entity a web page should be handled by. When structured data is included in the HTML document, the knowledge base generation unit 116 acquires the structured data from the HTML document, thereby identifying the entity corresponding to the content CT in the knowledge base KB. In addition, when the HTML document does not include structured data, the knowledge base generation unit 116 specifies an entity corresponding to the content CT using a statistical probability method from the description content of the HTML document, for example. It's okay.

そして、ナレッジベース生成部116は、構造化データ等に基づき特定したエンティティにコンテンツCTを関連付けることで、ナレッジベースKBを生成する。   And the knowledge base production | generation part 116 produces | generates the knowledge base KB by associating content CT with the entity specified based on structured data etc.

図6は、ナレッジベースKBの一例を示す図である。図中e_A〜e_Iは其々エンティティを表しており、これらを繋ぐ矢印は属性(プロパティ)を表している。このように、ナレッジベースKBは、上述したエンティティがノードとして表され、上述した属性(プロパティ)がラベルとして付与され、且つ方向性のあるエッジとして表された有向グラフによって表現される。エッジの方向性(図中矢印の向き)は、上述したクラスの上位下位の関係を表している。なお、図示していないが、これらのエンティティには、コンテンツCTが関連付けられているものとする。   FIG. 6 is a diagram illustrating an example of the knowledge base KB. In the figure, e_A to e_I represent entities, respectively, and arrows connecting them represent attributes (properties). As described above, the knowledge base KB is represented by a directed graph in which the above-described entity is represented as a node, the above-described attribute (property) is provided as a label, and the edge is represented as a directional edge. The directionality of the edge (the direction of the arrow in the figure) represents the upper-lower relationship of the above-described class. Although not shown, it is assumed that content CT is associated with these entities.

また、ナレッジベース生成部116は、判定部114によって、属性の比較対象とされたエンティティが同一のエンティティであると判定された場合、比較対象のエンティティ同士を統合してナレッジベースKBに登録する。「エンティティ同士を統合する」とは、例えば、比較対象のエンティティのうち、一方のエンティティに、他方のエンティティの属性を追加することである。   In addition, when the determination unit 114 determines that the entities that are attribute comparison targets are the same entity, the knowledge base generation unit 116 integrates the comparison target entities and registers them in the knowledge base KB. “Integrating entities” means, for example, adding an attribute of the other entity to one of the comparison target entities.

図7は、エンティティの統合方法を説明するための図である。例えば、第1データベースDB1の、あるエンティティe_Aがもつ属性のうち、名称の属性には、「○○庭園」という文字列が対応付けられ、緯度の属性には、「35.732」という文字列が対応付けられ、経度の属性には、「139.746」という文字列が対応付けられ、定休日の属性には、「無休」という文字列が対応付けられているものとする。また、第2データベースDB2の、あるエンティティe_Bがもつ属性のうち、名称の属性には、「○○庭園」という文字列が対応付けられ、緯度の属性には、「35.730」という文字列が対応付けられ、経度の属性には、「139.749」という文字列が対応付けられ、最寄駅の属性には、「□□駅」という文字列が対応付けられているものとする。これらのエンティティe_Aおよびエンティティe_Bの属性を比較した場合、名称の属性として記述された文字列が全て一致し、緯度および経度の属性として記述された文字列が小数点第二位まで一致しているため、判定部114は、これらのエンティティを同一のエンティティであると判定する。この場合、ナレッジベース生成部116は、比較対象の2つのエンティティのうち、例えば、エンティティe_Aに、エンティティe_Bの属性を追加して、ナレッジベースKBに登録する。この結果、エンティティe_Aには、本来持っていなかった、最寄駅という属性が新たに追加されることになる。なお、ナレッジベース生成部116は、エンティティe_Aの代わりに、エンティティe_Bにエンティティe_Aの属性を追加してもよい。   FIG. 7 is a diagram for explaining an entity integration method. For example, among the attributes of an entity e_A in the first database DB1, the name attribute is associated with the character string “XX garden”, and the latitude attribute is the character string “35.732”. Are associated with each other, the character string “139.746” is associated with the longitude attribute, and the character string “no holidays” is associated with the fixed holiday attribute. Among the attributes of a certain entity e_B in the second database DB2, the name attribute is associated with the character string “XX garden”, and the latitude attribute is the character string “35.730”. Is associated with the attribute of longitude, and the character string “139.749” is associated with the attribute of the nearest station, and the character string “□□ station” is associated with the attribute of the nearest station. When the attributes of the entity e_A and the entity e_B are compared, the character strings described as the name attributes all match, and the character strings described as the latitude and longitude attributes match up to the second decimal place. The determination unit 114 determines that these entities are the same entity. In this case, the knowledge base generation unit 116 adds the attribute of the entity e_B to, for example, the entity e_A out of the two comparison target entities, and registers it in the knowledge base KB. As a result, the entity e_A is newly added with the attribute of the nearest station that was not originally possessed. Note that the knowledge base generation unit 116 may add the attribute of the entity e_A to the entity e_B instead of the entity e_A.

データベース生成装置100は、このように生成したナレッジベースKBを、情報提供装置10に提供してよい。これによって、情報提供装置10は、ナレッジベースKBにおいて、検索サイトなどで入力されたクエリと一致する名称のエンティティを特定し、このエンティティに関連付けられたコンテンツCT(例えば画像データなど)を、クエリの検索結果に加えて、ユーザの端末装置(例えばスマートフォンなど)に提供する。   The database generation device 100 may provide the information base device 10 with the knowledge base KB generated in this way. As a result, the information providing apparatus 10 identifies an entity having a name that matches the query input in the search site or the like in the knowledge base KB, and the content CT (for example, image data) associated with the entity is identified by the query. In addition to the search result, the information is provided to a user terminal device (for example, a smartphone).

[処理フロー]
図8は、第1実施形態における制御部110により実行される処理の一例を示すフローチャートである。まず、取得部112は、通信部102を用いて、ウェブサイトを提供する情報提供装置10や他のウェブサーバと通信を行い、これらの装置において其々管理されるデータベースを取得する(S200)。
[Processing flow]
FIG. 8 is a flowchart illustrating an example of processing executed by the control unit 110 in the first embodiment. First, the acquisition unit 112 uses the communication unit 102 to communicate with the information providing apparatus 10 that provides a website and other web servers, and acquires databases managed by these apparatuses (S200).

次に、判定部114は、取得部112により取得された互いに異なる複数のデータベースを参照し、各データベースに登録された情報のうち、予め決められたカラムの情報をエンティティとして抽出し、各データベースから抽出した比較対象のエンティティ同士が、予め決められた判定条件を満たすか否かを判定する(S202)。   Next, the determination unit 114 refers to a plurality of different databases acquired by the acquisition unit 112, extracts information on a predetermined column from the information registered in each database as an entity, and extracts the information from each database. It is determined whether or not the extracted comparison target entities satisfy a predetermined determination condition (S202).

判定部114は、比較対象のエンティティ同士が判定条件を満たすと判定した場合、比較対象のエンティティを、処理対象クラスタCL(A)に分類し(S204)、比較対象のエンティティ同士が判定条件を満たさないと判定した場合、比較対象のエンティティを、処理非対象クラスタCL(B)に分類する(S206)。   When determining that the comparison target entities satisfy the determination condition, the determination unit 114 classifies the comparison target entities into the processing target cluster CL (A) (S204), and the comparison target entities satisfy the determination condition. If it is determined that there is no such object, the comparison target entity is classified into the processing non-target cluster CL (B) (S206).

次に、判定部114は、予め決められた全ての判定条件について判定処理を試行したか否かを判定し(S208)、全ての判定条件について判定処理を試行していないと判定した場合、判定条件を変更し(S210)、上述したS202に処理を戻す。この場合、判定部114は、変更した判定条件で、処理対象クラスタCL(A)に分類したエンティティを判定する処理を繰り返す。   Next, the determination unit 114 determines whether or not determination processing has been attempted for all predetermined determination conditions (S208), and if it is determined that determination processing has not been attempted for all determination conditions, The conditions are changed (S210), and the process returns to S202 described above. In this case, the determination unit 114 repeats the process of determining entities classified into the processing target cluster CL (A) under the changed determination condition.

一方、判定部114によって、全ての判定条件について判定処理を試行していると判定された場合(上述した例では全4回の判定処理が全て行われた場合)、ナレッジベース生成部116は、処理対象クラスタCL(A)において、同一のクラスタに含まれるエンティティ同士を統合してナレッジベースKBに登録する(S212)。これによって、本フローチャートの処理が終了する。   On the other hand, when it is determined by the determination unit 114 that the determination process is attempted for all the determination conditions (in the above-described example, when all the four determination processes are performed), the knowledge base generation unit 116 In the processing target cluster CL (A), entities included in the same cluster are integrated and registered in the knowledge base KB (S212). Thereby, the processing of this flowchart is completed.

以上説明した第1実施形態によれば、第1データベースDB1に登録されたエンティティの属性と、第1データベースDB1と異なる第2データベースDB2に登録されたエンティティの属性とを比較して、これらのエンティティが同一のエンティティであるか否かを判定し、比較対象の複数のエンティティが同一のエンティティであると判定した場合、比較対象の複数のエンティティを一つのエンティティに統合したデータベースを生成するため、例えば、ロケーションに関するデータベースや、ファイナンスに関するデータベースのように、互いに異なるデータベースの其々においてエンティティの表現方式(例えばエンティティがもつ属性の種類や数)が異なっていても一つのエンティティに統合でき、より汎用性の高いナレッジベースKB(データベースの一例)を生成することができる。   According to the first embodiment described above, the attributes of entities registered in the first database DB1 are compared with the attributes of entities registered in a second database DB2 different from the first database DB1, and these entities are compared. In order to generate a database in which a plurality of comparison target entities are integrated into one entity, for example, in order to generate a database in which a plurality of comparison target entities are determined to be the same entity, It can be integrated into one entity even if the representation method of entities (for example, the types and number of attributes of entities) is different in different databases, such as a location database and a finance database. High knowledge base It can generate a KB (an example of a database).

<第2実施形態>
以下、第2実施形態について説明する。第2実施形態では、ある処理対象とするエンティティ(以下、着目エンティティと称する)の属性として記述された文字列に基づいて、その着目エンティティに対して、新たなエンティティを関連付ける点で上述した第1実施形態と相違する。「新たなエンティティを関連付ける」とは、ナレッジベースKBの有向グラフにおいて、着目エンティティをノードとした場合に、そのノードに接続されたエッジに対して、新たなエンティティをノードとして接続することをいう。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
Second Embodiment
Hereinafter, a second embodiment will be described. In the second embodiment, the first described above is that a new entity is associated with a target entity based on a character string described as an attribute of an entity to be processed (hereinafter referred to as a target entity). It is different from the embodiment. “Associating a new entity” refers to connecting a new entity as a node to an edge connected to the node when the target entity is a node in the directed graph of the knowledge base KB. Hereinafter, differences from the first embodiment will be mainly described, and description of points common to the first embodiment will be omitted. In the description of the second embodiment, the same parts as those in the first embodiment will be described with the same reference numerals.

第2実施形態における判定部114は、第1データベースDB1または第2データベースDB2から着目エンティティを抽出し、抽出した着目エンティティがもつ属性のうち、他のエンティティが未だ関連付けられていない属性を特定し、その属性を表す文字列が、あるエンティティの候補の名称を表しているものと仮定する。   The determination unit 114 in the second embodiment extracts a target entity from the first database DB1 or the second database DB2, and identifies attributes that are not yet associated with other entities among the attributes of the extracted target entity. Assume that the character string representing the attribute represents the name of a candidate for an entity.

判定部114は、第1データベースDB1または第2データベースDB2に登録されたエンティティ、或いはナレッジベースKBに既に登録されたエンティティの中に、エンティティの候補と性質が類似するエンティティ(以下、類似エンティティと称する)が存在するか否かを判定する。類似エンティティは、「類似対象事物」の一例である。   The determination unit 114 is an entity registered in the first database DB1 or the second database DB2 or an entity that is already registered in the knowledge base KB and has similar properties to the entity candidates (hereinafter referred to as similar entities). ) Exists. The similar entity is an example of “similar object”.

例えば、判定部114は、データベースに含まれるエンティティのうち、比較対象とするあるエンティティが属するクラスと、エンティティの候補が属すると想定されるクラスとが同じクラスであるか否かを判定し、双方のクラスが同じクラスであると判定した場合、比較対象としたエンティティが、エンティティの候補と性質が類似した類似エンティティであると判定する。すなわち、判定部114は、データベース上に類似エンティティが存在すると判定する。   For example, the determination unit 114 determines whether or not a class to which a certain entity to be compared belongs and a class to which a candidate entity belongs belong to the same class among entities included in the database, When the classes are determined to be the same class, it is determined that the entity to be compared is a similar entity having similar properties to the entity candidates. That is, the determination unit 114 determines that a similar entity exists on the database.

また、判定部114は、エンティティの候補が属すると想定されるクラスと、比較対象のエンティティが属するクラスとが上位下位の関係にあり、エンティティの候補が属するクラスに含まれる性質の一部と、比較対象のエンティティが属するクラスに含まれる性質の一部とが同じである場合、比較対象としたエンティティが類似エンティティであると判定してよい。   In addition, the determination unit 114 has a higher-order relationship between the class assumed to be the entity candidate and the class to which the comparison target entity belongs, and a part of the property included in the class to which the entity candidate belongs; If some of the properties included in the class to which the comparison target entity belongs are the same, the comparison target entity may be determined to be a similar entity.

判定部114は、類似エンティティが存在すると判定した場合、更に、類似エンティティがもつ一以上の属性の中に、エンティティの候補の名称に一致する文字列で記述された属性が存在するか否かを判定する。   If the determination unit 114 determines that a similar entity exists, the determination unit 114 further determines whether or not an attribute described by a character string that matches the entity candidate name exists in one or more attributes of the similar entity. judge.

第2実施形態におけるナレッジベース生成部116は、判定部114によって、類似エンティティがもつ一以上の属性の中に、エンティティの候補の名称に一致する文字列で記述された属性が存在すると判定された場合、類似エンティティを関連付けた着目エンティティを、ナレッジベースNBに登録する。なお、類似エンティティの抽出先のデータベースがナレッジベースNBである場合、ナレッジベース生成部116は、ナレッジベースNBにおいて既に登録されている類似エンティティに、着目エンティティを関連付けてよい。   The knowledge base generation unit 116 according to the second embodiment is determined by the determination unit 114 that an attribute described by a character string that matches the name of the entity candidate exists in one or more attributes of the similar entity. In this case, the entity of interest associated with the similar entity is registered in the knowledge base NB. When the database from which the similar entities are extracted is the knowledge base NB, the knowledge base generation unit 116 may associate the target entity with the similar entities already registered in the knowledge base NB.

図9は、着目エンティティに対して類似エンティティを関連付ける際の処理内容を模式的に示す図である。例えば、第1データベースDBにおいて、エンティティe_Xがもつ属性のうち、名称という属性には「Y株式会社」という文字列が対応付けられており、社長という属性には「検索太郎」という文字列が対応付けられている。また、第2データベースDBにおいて、エンティティe_Yがもつ属性のうち、名前という属性には「検索太郎」という文字列が対応付けられている。   FIG. 9 is a diagram schematically illustrating the processing content when associating a similar entity with a target entity. For example, in the first database DB, among the attributes of the entity e_X, the name “Y Corporation” is associated with the name attribute, and the “search Taro” character string is associated with the president attribute. It is attached. In the second database DB, among the attributes of the entity e_Y, the attribute “name” is associated with the character string “search Taro”.

このような場合において、例えば、判定部114は、エンティティe_Xを着目エンティティとし、そのエンティティe_Xがもつ属性のうち、社長の属性として記述された文字列「検索太郎」を、エンティティの候補の名称とする。また、判定部114は、エンティティe_Yを、類似エンティティをデータベースから探索する際の比較対象のエンティティとする。   In such a case, for example, the determination unit 114 sets the entity e_X as the target entity, and the character string “search Taro” described as the president attribute among the attributes of the entity e_X is used as the entity candidate name. To do. Further, the determination unit 114 sets the entity e_Y as a comparison target entity when searching for a similar entity from the database.

判定部114は、比較対象としたエンティティe_Yが属するクラスと、「検索太郎」という名称の属性をもつエンティティの候補が属すると想定されるクラスとを比較し、これらのクラスが互いに同じクラスとなるか否かを判定する。   The determination unit 114 compares the class to which the entity e_Y as the comparison target belongs and the class to which the candidate entity having the attribute named “Search Taro” belongs, and these classes are the same class. It is determined whether or not.

例えば、社長という属性は、その属性をもつエンティティを「人物」というクラスに分類する属性であり、名前という属性も、その属性をもつエンティティを「人物」というクラスに分類する属性である。従って、社長という属性に対応付けられた「検索太郎」という文字列を暫定的なエンティティに見立てた場合、その暫定的なエンティティは、「人物」というクラスに属することになり、名前という属性をもつエンティティe_Yと同じクラスとなる。従って、判定部114は、比較対象としたエンティティe_Yが属するクラスと、エンティティの候補が属すると想定されるクラスとが同じクラスであると判定する。これによって、判定部114は、比較対象としたエンティティe_Yが、着目エンティティとしたエンティティe_Xから求めたエンティティの候補と性質が類似する類似エンティティであると判定する。   For example, the attribute “president” is an attribute for classifying an entity having the attribute into a class “person”, and the attribute “name” is also an attribute for classifying an entity having the attribute into a class “person”. Therefore, when the character string “Search Taro” associated with the president attribute is regarded as a provisional entity, the provisional entity belongs to the class “person” and has the name attribute. It becomes the same class as the entity e_Y. Therefore, the determination unit 114 determines that the class to which the entity e_Y to be compared belongs and the class to which the candidate entity belongs are the same class. Accordingly, the determination unit 114 determines that the entity e_Y that is the comparison target is a similar entity that is similar in nature to the entity candidate obtained from the entity e_X that is the target entity.

そして、判定部114は、類似エンティティであるエンティティe_Yがもつ一以上の属性の中に、エンティティの候補の名称とした「検索太郎」という文字列で記述された属性が存在するか否かを判定する。図示の例では、エンティティe_Yの名前の属性として記述された文字列「検索太郎」と、エンティティの候補の名称とした「検索太郎」とが一致している。   Then, the determination unit 114 determines whether or not an attribute described by the character string “Search Taro” as the entity candidate name exists in one or more attributes of the entity e_Y that is a similar entity. To do. In the illustrated example, the character string “Search Taro” described as the attribute of the name of the entity e_Y matches the “Search Taro” that is the candidate name of the entity.

このような場合、ナレッジベース生成部116は、着目エンティティがもつ属性のうち、エンティティの候補の名称とした文字列によって表された属性をもつエンティティe_Xに、エンティティの候補の類似エンティティであるエンティティe_Yを関連付けて、ナレッジベースNBに登録する。これによって、エンティティe_Xがもつ属性のうち、「検索太郎」という文字列に対応付けられた社長という属性には、同じく「検索太郎」という文字列に対応付けられた名前の属性をもつエンティティe_Yが関連付けられることになる。   In such a case, the knowledge base generation unit 116 adds an entity e_X that is an entity candidate similar entity to an entity e_X that has an attribute represented by a character string that is a candidate entity name among the attributes of the entity of interest. Are registered in the knowledge base NB. As a result, among the attributes of entity e_X, the entity e_Y having the attribute of the name associated with the character string “search Taro” is also included in the attribute of president associated with the character string “search taro”. Will be associated.

図10は、第2実施形態における制御部110により実行される処理の一例を示すフローチャートである。まず、取得部112は、通信部102を用いて、ウェブサイトを提供する情報提供装置10や他のウェブサーバと通信を行い、これらの装置において其々管理されるデータベースを取得する(S300)。   FIG. 10 is a flowchart illustrating an example of processing executed by the control unit 110 in the second embodiment. First, the acquisition unit 112 uses the communication unit 102 to communicate with the information providing apparatus 10 that provides a website and other web servers, and acquires databases managed by these apparatuses (S300).

次に、判定部114は、第1データベースDB1または第2データベースDB2から着目エンティティを抽出し、抽出した着目エンティティがもつ属性のうち、他のエンティティが未だ関連付けられていない属性を表す文字列を、あるエンティティの候補の名称に決定する(S302)。   Next, the determination unit 114 extracts a target entity from the first database DB1 or the second database DB2, and among the attributes of the extracted target entity, a character string representing an attribute that is not yet associated with another entity, A candidate name of a certain entity is determined (S302).

次に、判定部114は、第1データベースDB1または第2データベースDB2に登録されたエンティティ、或いはナレッジベースKBに既に登録されたエンティティの中に、エンティティの候補と性質が類似する類似エンティティが存在するか否かを判定する(S304)。   Next, the determination unit 114 includes similar entities that are similar in nature to the entity candidates among the entities registered in the first database DB1 or the second database DB2 or entities already registered in the knowledge base KB. It is determined whether or not (S304).

類似エンティティが存在しないと判定した場合、判定部114は、本フローチャートの処理を終了する。一方、類似エンティティが存在すると判定した場合、判定部114は、エンティティの候補の名称と、類似エンティティがもつ属性を表す文字列とが一致するか否かを判定する(S306)。   If it is determined that there is no similar entity, the determination unit 114 ends the process of this flowchart. On the other hand, when it is determined that a similar entity exists, the determination unit 114 determines whether the entity candidate name matches the character string representing the attribute of the similar entity (S306).

エンティティの候補の名称と、類似エンティティがもつ属性を表す文字列とが一致しないと判定した場合、判定部114は、本フローチャートの処理を終了する。一方、判定部114によって、エンティティの候補の名称と、類似エンティティがもつ属性を表す文字列とが一致すると判定された場合、ナレッジベース生成部116は、類似エンティティと着目エンティティとを互いに関連付けて、ナレッジベースNBに登録する(S308)。これによって、本フローチャートの処理が終了する。   If it is determined that the name of the entity candidate does not match the character string representing the attribute of the similar entity, the determination unit 114 ends the process of this flowchart. On the other hand, when the determination unit 114 determines that the candidate entity name matches the character string representing the attribute of the similar entity, the knowledge base generation unit 116 associates the similar entity and the target entity with each other, Register in the knowledge base NB (S308). Thereby, the processing of this flowchart is completed.

以上説明した第2実施形態によれば、着目エンティティの属性として記述された文字列を、あるエンティティの候補の名称とした場合に、他のエンティティの中に、エンティティの候補の想定される性質と類似する類似エンティティが存在するか否かを判定し、類似エンティティが存在すると判定した場合、着目エンティティに類似エンティティを関連付けたナレッジベースNBを生成するため、第1実施形態と同様に、より汎用性の高いデータベースを生成することができる。   According to the second embodiment described above, when the character string described as the attribute of the target entity is the name of a candidate for a certain entity, the expected property of the candidate for the entity is included in the other entities. If it is determined whether or not there is a similar entity, and it is determined that there is a similar entity, a knowledge base NB that associates the similar entity with the target entity is generated. A high database can be generated.

<ハードウェア構成>
上述した実施形態の情報提供システムに含まれる情報提供装置10およびデータベース生成装置100は、例えば、図11に示すようなハードウェア構成により実現される。図11は、実施形態の情報提供装置10およびデータベース生成装置100のハードウェア構成の一例を示す図である。
<Hardware configuration>
The information providing apparatus 10 and the database generation apparatus 100 included in the information providing system of the above-described embodiment are realized by a hardware configuration as illustrated in FIG. 11, for example. FIG. 11 is a diagram illustrating an example of a hardware configuration of the information providing apparatus 10 and the database generation apparatus 100 according to the embodiment.

情報提供装置10は、NIC10−1、CPU10−2、RAM10−3、ROM10−4、フラッシュメモリやHDDなどの二次記憶装置10−5、およびドライブ装置10−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置10−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置10−5、またはドライブ装置10−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM10−3に展開され、CPU10−2によって実行されることで、各機能が実現される。CPU10−2が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。   The information providing apparatus 10 includes an NIC 10-1, a CPU 10-2, a RAM 10-3, a ROM 10-4, a secondary storage device 10-5 such as a flash memory and an HDD, and a drive device 10-6. Are connected to each other. The drive device 10-6 is loaded with a portable storage medium such as an optical disk. A program stored in a portable storage medium attached to the secondary storage device 10-5 or the drive device 10-6 is expanded in the RAM 10-3 by a DMA controller (not shown) or the like and executed by the CPU 10-2. Thus, each function is realized. The program referred to by the CPU 10-2 may be downloaded from another device via the network NW.

データベース生成装置100は、NIC100−1、CPU100−2、RAM100−3、ROM100−4、フラッシュメモリやHDDなどの二次記憶装置100−5、およびドライブ装置100−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100−5、またはドライブ装置100−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100−3に展開され、CPU100−2によって実行されることで、制御部110が実現される。制御部110が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。   The database generation device 100 includes an NIC 100-1, a CPU 100-2, a RAM 100-3, a ROM 100-4, a secondary storage device 100-5 such as a flash memory and an HDD, and a drive device 100-6. Are connected to each other. The drive device 100-6 is loaded with a portable storage medium such as an optical disk. A program stored in a portable storage medium attached to the secondary storage device 100-5 or the drive device 100-6 is expanded in the RAM 100-3 by a DMA controller (not shown) or the like and executed by the CPU 100-2. Thus, the control unit 110 is realized. The program referred to by the control unit 110 may be downloaded from another device via the network NW.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。   As mentioned above, although the form for implementing this invention was demonstrated using embodiment, this invention is not limited to such embodiment at all, In the range which does not deviate from the summary of this invention, various deformation | transformation and substitution Can be added.

1…情報提供システム、10…情報提供装置、100…データベース生成装置、102…通信部、110…制御部、112…取得部、114…判定部、116…ナレッジベース生成部、130…記憶部   DESCRIPTION OF SYMBOLS 1 ... Information provision system, 10 ... Information provision apparatus, 100 ... Database production | generation apparatus, 102 ... Communication part, 110 ... Control part, 112 ... Acquisition part, 114 ... Determination part, 116 ... Knowledge base production | generation part, 130 ... Memory | storage part

Claims (12)

第1データベースに登録された第1対象事物の属性と、前記第1データベースと異なる第2データベースに登録された第2対象事物の属性とを比較して、前記第1対象事物と前記第2対象事物とが同一の対象事物であるか否かを判定する判定部と、
前記判定部により、前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定された場合、前記第1対象事物および前記第2対象事物を統合したデータベースを生成する生成部と、
を備えるデータベース生成装置。
The first target thing and the second target are compared with the attribute of the first target thing registered in the first database and the attribute of the second target thing registered in a second database different from the first database. A determination unit that determines whether or not the thing is the same target thing;
When the determination unit determines that the first target thing and the second target thing are the same target thing, a generation unit that generates a database that integrates the first target thing and the second target thing When,
A database generation device comprising:
前記第1対象事物および前記第2対象事物の其々の属性は、各対象事物が登録されたデータベースにおいて一以上の文字を含む文字列によって記述されており、
前記判定部は、各対象事物の属性として記述された文字列同士が一致することを含む条件を満たす場合に、前記第1対象事物および前記第2対象事物が同一の対象事物であると判定する、
請求項1に記載のデータベース生成装置。
Each attribute of the first target thing and the second target thing is described by a character string including one or more characters in a database in which each target thing is registered,
The determination unit determines that the first target thing and the second target thing are the same target thing when satisfying a condition including matching of character strings described as attributes of each target thing. ,
The database generation device according to claim 1.
前記対象事物の属性として記述された文字列には、前記データベースに登録された対象事物に関連付けられたリソースの識別情報を示す文字列が含まれており、
前記条件には、前記対象事物に関連付けられた前記リソースの識別情報を示す文字列同士が一致することが含まれる、
請求項2に記載のデータベース生成装置。
The character string described as the attribute of the target thing includes a character string indicating the identification information of the resource associated with the target thing registered in the database,
The condition includes matching of character strings indicating identification information of the resource associated with the target thing,
The database generation device according to claim 2.
前記対象事物の属性として記述された文字列には、前記リソースによって提供されるコンテンツに含まれる文字列が含まれており、
前記条件には、前記対象事物に関連付けられた前記リソースによって提供されるコンテンツに含まれる文字列同士が一致することが含まれる、
請求項3に記載のデータベース生成装置。
The character string described as the attribute of the target thing includes the character string included in the content provided by the resource,
The condition includes matching of character strings included in content provided by the resource associated with the target thing,
The database generation device according to claim 3.
前記リソースによって提供されるコンテンツに含まれる文字列には、前記コンテンツのタイトルが含まれる、
請求項4に記載のデータベース生成装置。
The character string included in the content provided by the resource includes the title of the content.
The database generation device according to claim 4.
前記リソースによって提供されるコンテンツに含まれる文字列には、前記コンテンツが表す建物の位置情報を示す文字列が含まれる、
請求項4または5に記載のデータベース生成装置。
The character string included in the content provided by the resource includes a character string indicating the position information of the building represented by the content.
The database generation device according to claim 4 or 5.
前記リソースによって提供されるコンテンツに含まれる文字列には、前記コンテンツが表す人物の個人情報を示す文字列が含まれる、
請求項4から6のうちいずれか1項に記載のデータベース生成装置。
The character string included in the content provided by the resource includes a character string indicating personal information of a person represented by the content.
The database generation device according to any one of claims 4 to 6.
前記対象事物の属性として記述された文字列には、当該対象事物の名称を示す文字列が含まれており、
前記条件には、各対象事物の名称を示す文字列同士が一致することが含まれる、
請求項2から7のうちいずれか1項に記載のデータベース生成装置。
The character string described as the attribute of the target thing includes a character string indicating the name of the target thing,
The condition includes that the character strings indicating the names of the target objects are matched.
The database generation device according to any one of claims 2 to 7.
前記判定部は、
前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定するための条件を変更しながら、判定処理を繰り返し、
前記判定処理を繰り返す過程で変更した前記条件が、所定回数以上継続して満たされた場合に、前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定する、
請求項1から8のうちいずれか1項に記載のデータベース生成装置。
The determination unit
While changing the condition for determining that the first target thing and the second target thing are the same target thing, the determination process is repeated,
When the condition changed in the process of repeating the determination process is continuously satisfied a predetermined number of times or more, it is determined that the first target thing and the second target thing are the same target thing.
The database generation device according to any one of claims 1 to 8.
前記判定部は、更に、
着目する対象事物の属性として記述された文字列を、ある対象事物の候補の名称とした場合に、他の対象事物の中に、前記対象事物の候補の想定される性質と類似する類似対象事物が存在するか否かを判定し、
前記生成部は、前記判定部により、前記類似対象事物が存在すると判定された場合、前記着目する対象事物に前記類似対象事物を関連付けたデータベースを生成する、
請求項2から9のうちいずれか1項に記載のデータベース生成装置。
The determination unit further includes:
When the character string described as the attribute of the target thing of interest is the name of a candidate for a certain target thing, the similar target thing similar to the assumed property of the candidate for the target thing among other target things Whether or not exists,
When the determination unit determines that the similar target thing exists, the generation unit generates a database in which the similar target thing is associated with the target target object.
The database generation device according to any one of claims 2 to 9.
コンピュータが、
第1データベースに登録された第1対象事物の属性と、前記第1データベースと異なる第2データベースに登録された第2対象事物の属性とを比較して、前記第1対象事物と前記第2対象事物とが同一の対象事物であるか否かを判定し、
前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定した場合、前記第1対象事物および前記第2対象事物を統合したデータベースを生成する、
データベース生成方法。
Computer
The first target thing and the second target are compared with the attribute of the first target thing registered in the first database and the attribute of the second target thing registered in a second database different from the first database. Determine if the thing is the same subject matter,
When it is determined that the first target thing and the second target thing are the same target thing, a database integrating the first target thing and the second target thing is generated.
Database generation method.
コンピュータに、
第1データベースに登録された第1対象事物の属性と、前記第1データベースと異なる第2データベースに登録された第2対象事物の属性とを比較させて、前記第1対象事物と前記第2対象事物とが同一の対象事物であるか否かを判定させ、
前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定した場合、前記第1対象事物および前記第2対象事物を統合したデータベースを生成させる、
プログラム。
On the computer,
The first subject matter and the second subject are compared by comparing the attribute of the first subject matter registered in the first database with the attribute of the second subject matter registered in a second database different from the first database. To determine if the thing is the same subject matter,
When it is determined that the first target thing and the second target thing are the same target thing, a database integrating the first target thing and the second target thing is generated.
program.
JP2017176575A 2017-09-14 2017-09-14 Database creating device, database creating method, and program Pending JP2019053469A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017176575A JP2019053469A (en) 2017-09-14 2017-09-14 Database creating device, database creating method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017176575A JP2019053469A (en) 2017-09-14 2017-09-14 Database creating device, database creating method, and program

Publications (1)

Publication Number Publication Date
JP2019053469A true JP2019053469A (en) 2019-04-04

Family

ID=66015104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017176575A Pending JP2019053469A (en) 2017-09-14 2017-09-14 Database creating device, database creating method, and program

Country Status (1)

Country Link
JP (1) JP2019053469A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143600A1 (en) * 1993-06-18 2004-07-22 Musgrove Timothy Allen Content aggregation method and apparatus for on-line purchasing system
JP2010027031A (en) * 2008-06-18 2010-02-04 Yahoo Japan Corp Apparatus, method, and program for name identification using note data
WO2010113290A1 (en) * 2009-03-31 2010-10-07 富士通株式会社 Computer-assisted name identification equipment, name identification method, and name identification program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143600A1 (en) * 1993-06-18 2004-07-22 Musgrove Timothy Allen Content aggregation method and apparatus for on-line purchasing system
JP2010027031A (en) * 2008-06-18 2010-02-04 Yahoo Japan Corp Apparatus, method, and program for name identification using note data
WO2010113290A1 (en) * 2009-03-31 2010-10-07 富士通株式会社 Computer-assisted name identification equipment, name identification method, and name identification program

Similar Documents

Publication Publication Date Title
CN103294781B (en) A kind of method and apparatus for processing page data
CN109885692A (en) Knowledge data storage method, device, computer equipment and storage medium
US11550856B2 (en) Artificial intelligence for product data extraction
CN112149400B (en) Data processing method, device, equipment and storage medium
CN112749284B (en) Knowledge graph construction method, device, equipment and storage medium
US20240029086A1 (en) Discovery of new business openings using web content analysis
US20170235726A1 (en) Information identification and extraction
US20150287047A1 (en) Extracting Information from Chain-Store Websites
CN113127506B (en) Target query statement construction method and device, storage medium and electronic device
US20170235836A1 (en) Information identification and extraction
Nesi et al. Geographical localization of web domains and organization addresses recognition by employing natural language processing, Pattern Matching and clustering
CN111984792A (en) Website classification method and device, computer equipment and storage medium
CN104217038A (en) Knowledge network building method for financial news
CN111522901A (en) Method and device for processing address information in text
JP2018128942A (en) Analyzing apparatus, analyzing method, and program
CN115687647A (en) Notarization document generation method and device, electronic equipment and storage medium
CN110851609A (en) Representation learning method and device
CN113254630A (en) Domain knowledge map recommendation method for global comprehensive observation results
Karl Mining location information from life-and earth-sciences studies to facilitate knowledge discovery
US20170235835A1 (en) Information identification and extraction
CN113918794B (en) Enterprise network public opinion benefit analysis method, system, electronic equipment and storage medium
CN111403011B (en) Registration department pushing method, device and system, electronic equipment and storage medium
US20210294794A1 (en) Vector embedding models for relational tables with null or equivalent values
CN109948015B (en) Meta search list result extraction method and system
KR102454261B1 (en) Collaborative partner recommendation system and method based on user information

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220119

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220119

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220131

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220201

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220401

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220405

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220705

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220927

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20221011

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20230104

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20230207

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20230207