JP2019053469A - Database creating device, database creating method, and program - Google Patents
Database creating device, database creating method, and program Download PDFInfo
- Publication number
- JP2019053469A JP2019053469A JP2017176575A JP2017176575A JP2019053469A JP 2019053469 A JP2019053469 A JP 2019053469A JP 2017176575 A JP2017176575 A JP 2017176575A JP 2017176575 A JP2017176575 A JP 2017176575A JP 2019053469 A JP2019053469 A JP 2019053469A
- Authority
- JP
- Japan
- Prior art keywords
- database
- target thing
- target
- entity
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004891 communication Methods 0.000 description 11
- 244000205754 Colocasia esculenta Species 0.000 description 10
- 235000006481 Colocasia esculenta Nutrition 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 3
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002611 ovarian Effects 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241000287486 Spheniscidae Species 0.000 description 1
- 241000272534 Struthio camelus Species 0.000 description 1
- 241000271567 Struthioniformes Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、データベース生成装置、データベース生成方法、およびプログラムに関する。 The present invention relates to a database generation device, a database generation method, and a program.
従来、ディープニューラルネットワークに基づいてナレッジグラフで自動質問応答を行う技術が知られている(例えば、特許文献1参照)。ナレッジグラフのような単一のデータベースは、専ら、クローラが、HTML(HyperText Markup Language)で記述された複数のテキストデータを参照することで生成される。 2. Description of the Related Art Conventionally, a technique for performing automatic question answering with a knowledge graph based on a deep neural network is known (see, for example, Patent Document 1). A single database such as a knowledge graph is generated exclusively by a crawler referring to a plurality of text data described in HTML (HyperText Markup Language).
しかしながら、従来の技術では、雑多な知識を単一のデータベースに纏めることが難しく、一般的には、特定の分野に限定してデータベースを生成している。そのため、データベースの汎用性が低下する場合があった。 However, in the conventional technique, it is difficult to gather various kinds of knowledge in a single database, and in general, a database is generated limited to a specific field. For this reason, the versatility of the database may be reduced.
本発明は、上記の課題に鑑みてなされたものであり、汎用性の高いデータベースを生成することができるデータベース生成装置、データベース生成方法、およびプログラムを提供することを目的としている。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a database generation device, a database generation method, and a program capable of generating a highly versatile database.
本発明の一態様は、第1データベースに登録された第1対象事物の属性と、前記第1データベースと異なる第2データベースに登録された第2対象事物の属性とを比較して、前記第1対象事物と前記第2対象事物とが同一の対象事物であるか否かを判定する判定部と、前記判定部により、前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定された場合、前記第1対象事物および前記第2対象事物を統合したデータベースを生成する生成部と、を備えるデータベース生成装置である。 According to an aspect of the present invention, the attribute of the first target thing registered in the first database is compared with the attribute of the second target thing registered in a second database different from the first database. A determination unit that determines whether the target thing and the second target thing are the same target thing, and the first target thing and the second target thing are the same target thing by the determination unit. If it is determined, the database generation device includes a generation unit that generates a database in which the first target thing and the second target thing are integrated.
本発明の一態様によれば、汎用性の高いデータベースを生成することができるデータベース生成装置、データベース生成方法、およびプログラムを提供することができる。 According to one embodiment of the present invention, a database generation device, a database generation method, and a program that can generate a highly versatile database can be provided.
以下、本発明を適用したデータベース生成装置、データベース生成方法、およびプログラムを、図面を参照して説明する。 Hereinafter, a database generation device, a database generation method, and a program to which the present invention is applied will be described with reference to the drawings.
[概要]
データベース生成装置は、一以上のプロセッサによって実現される。データベース生成装置は、互いに異なる複数のデータベースのうち、第1データベースに登録された、ある対象事物の属性と、第1データベースと異なる第2データベースに登録された、ある対象事物の属性とを比較して、これらの対象事物とが同一の対象事物であるか否かを判定する。そして、データベース生成装置は、比較対象とした二つの対象事物が同一の対象事物であると判定した場合、これらの対象事物のうち一方の対象事物に、他方の対象事物の属性を追加したナレッジ型のデータベース(以下、ナレッジベースと称する)を生成する。これによって、汎用性の高いデータベースを生成することができる。
[Overview]
The database generation device is realized by one or more processors. The database generation device compares an attribute of a certain target object registered in the first database among a plurality of different databases and an attribute of a certain target object registered in a second database different from the first database. Then, it is determined whether or not these target things are the same target thing. When the database generation device determines that the two target things to be compared are the same target thing, the knowledge type in which the attribute of the other target thing is added to one of the target things. Database (hereinafter referred to as a knowledge base). Thereby, a highly versatile database can be generated.
第1データベースまたは第2データベースは、例えば、地図情報や、交通情報、商業施設情報といったロケーションに関する情報を蓄積したデータベースであってもよいし、株価や為替といったファイナンスに関する情報を蓄積したデータベースであってもよいし、百科事典のデータベースであってもよいし、その他の種々のデータベースであってよい。 The first database or the second database may be, for example, a database that stores information related to locations such as map information, traffic information, and commercial facility information, or a database that stores information related to finance such as stock prices and currency exchange. Alternatively, it may be an encyclopedia database or other various databases.
ナレッジベースとは、事物についての情報や事物間の関係をグラフとして記述したデータベースである。ナレッジベースにおける事物とは、例えば、「人間」や「機械」、「建物」といった形をもつ物、或いは「組織」や「美」、「学問」、「旅行」といった抽象的な概念(=事)を含む。本実施形態では、ナレッジベースにおいて記述された事物のうち、データベース生成装置が他の事物と区別して扱う対象事物のことを、特に「エンティティ」と称して説明する。 A knowledge base is a database that describes information about things and relationships between things as graphs. Things in the knowledge base are, for example, things with the shape of “human”, “machine”, “building”, or abstract concepts such as “organization”, “beauty”, “study”, “travel” (= things) )including. In the present embodiment, among the things described in the knowledge base, the target thing that the database generation apparatus handles in distinction from other things will be described as “entity” in particular.
エンティティ(対象事物)とは、ナレッジベースにおいて、ある対象事物の実体(例えば実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。本実施形態では、説明を簡略化するために、エンティティを、インターネット上において、コンテンツのリソースの識別子URI(Uniform Resource Identifier)をもつ実体のことを表すものとして説明する。 An entity (target object) may represent an entity of a target object (for example, an object existing in the real world) or a concept of a target object (for example, in the real world or a virtual world) in the knowledge base. It may represent a concept defined by For example, when the target object is a concept of “building”, the entity may represent an entity such as “XX tower” or “XX building”. Further, for example, when the object is the concept of “economics”, the entity may represent an abstract concept having no entity such as “microeconomics” or “macroeconomics”. In the present embodiment, in order to simplify the description, the entity will be described as representing an entity having a URI (Uniform Resource Identifier) of a content resource on the Internet.
ナレッジベースにおいて記述された事物(エンティティも含む)は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約(ルール)を集めたものである。 Things (including entities) described in the knowledge base are defined by an ontology. An ontology is a definition of classes and properties of things, and is a collection of constraints (rules) that hold between classes and properties.
クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティ(属性)により決定される。 A class is a group of things that have the same properties in an ontology. The nature of the thing, that is, the class to which the thing belongs is determined by a property (attribute) described later.
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。
For example, an object that has a beak, is an ovarian vertebrate, and has a wing on its forelimbs, is classified into a class of “bird”. In addition, in the class of “bird”, things that cannot fly are classified into lower classes such as “penguin” and “ostrich”, for example. In this way, the class system may have a hierarchical structure having an upper and lower relationship. The nature of the upper class is inherited by the lower class. In the above example, the nature of the class “bird”, “beaked, ovarian vertebrate, wings on the forelimbs” is the nature of the lower class of “penguins” and “ostriches”. Will also be included. For example, if the class name for identifying the class is a class “bird”, the class name may be represented by a character string “bird”. Note that the class name does not necessarily represent a meaning, and for example, even a class of “bird” may be assigned a character string indicating simple identification information such as “
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表す文字列であってもよいし、単なる識別情報を示す文字列であってもよい。 Properties are attributes that describe the nature and characteristics of things and the relationships between classes. For example, the property may be an attribute indicating the property of “having as a body component” or the property of “having inhabit”, or “a certain class is an upper class and a certain class is a lower class” It may be an attribute indicating the upper / lower relationship between classes, which is “class”. Similar to the class name described above, the property name for identifying the property may be a character string representing the meaning of the property name itself, or may be a character string representing simple identification information.
<第1実施形態>
[全体構成]
図1は、第1実施形態におけるデータベース生成装置100を含む情報提供システム1の一例を示す図である。第1実施形態における情報提供システム1は、例えば、一以上の情報提供装置10と、データベース生成装置100とを備える。これらの装置は、ネットワークNWを介して接続される。なお、データベース生成装置100には、情報提供装置10が集約されていてもよい。
<First Embodiment>
[overall structure]
FIG. 1 is a diagram illustrating an example of an
図1に示す各装置は、ネットワークNWを介して種々の情報を送受信する。ネットワークNWは、例えば、無線基地局、Wi‐Fiアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。 Each apparatus shown in FIG. 1 transmits and receives various information via the network NW. The network NW includes, for example, a radio base station, a Wi-Fi access point, a communication line, a provider, the Internet, and the like. Note that it is not necessary for all combinations of the devices shown in FIG. 1 to be able to communicate with each other, and the network NW may partially include a local network.
情報提供装置10は、例えば、アプリケーションが起動された端末装置(不図示)と通信を行って、各種情報の受け渡しを行うアプリケーションサーバ装置であってもよいし、検索サイト等のウェブサイトを提供するウェブサーバ装置であってよい。端末装置は、例えば、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータなどのコンピュータ装置である。
The
例えば、情報提供装置10は、端末装置から取得した検索クエリに対応する情報を、データベース生成装置100により生成されたナレッジベースから抽出し、抽出した情報を検索結果として端末装置に提供してよい。
For example, the
データベース生成装置100は、情報提供装置10により提供されるウェブサイトや他のウェブサーバにより提供されるウェブサイトを定期的にクロールし、ウェブサイト上のコンテンツCTを収集したり、情報提供装置10において管理されるデータベースそのものを収集したりする装置である。データベース生成装置100により収集されるコンテンツCTには、ウェブサイト上で再生または表示される動画データや、画像データ、音声データ、テキストデータの他に、ウェブサイトを構成するウェブページの元となるHTML文書(テキストデータ)が含まれてよい。
The
そして、データベース生成装置100は、収集したコンテンツやデータベースに基づいて、ナレッジベースKBを生成する。ナレッジベースKBの生成方法の詳細については後述する。
Then, the
[データベース生成装置の構成]
図2は、第1実施形態におけるデータベース生成装置100の構成の一例を示す図である。図示のように、データベース生成装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
[Database generator configuration]
FIG. 2 is a diagram illustrating an example of the configuration of the
通信部102は、例えば、NIC(Network Interface Card)等の通信インターフェースやDMA(Direct Memory Access)コントローラを含む。通信部102は、ネットワークNWを介して、情報提供装置10や他のウェブサーバと通信する。
The
制御部110は、例えば、取得部112と、判定部114と、ナレッジベース生成部116とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのプロセッサが記憶部130に格納されたプログラムを実行することにより実現される。また、制御部110の構成要素の一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはGPU(Graphics Processing Unit)などのハードウェア(回路部;circuitry)により実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
The
記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより実現される。記憶部130には、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、第1データベースDB1や第2データベースDB2、コンテンツCT、ナレッジベースKBが記憶される。これらの情報については後述する。
The
取得部112は、通信部102を用いて、ウェブサイトを提供する情報提供装置10や他のウェブサーバと通信を行い、これらの装置において管理されるデータベースを取得する。
The
例えば、取得部112は、あるウェブサイトAを提供する情報提供装置10からは、第1データベースDB1を取得し、ウェブサイトAと異なるウェブサイトBを提供する情報提供装置10からは、第2データベースDB2を取得する。そして、取得部112は、これらの各データベースを記憶部130に記憶させる。
For example, the acquiring
図3は、第1データベースDB1の一例を示す図である。例えば、第1データベースDB1は、ウェブサイトAにおいて提供されるロケーションに関する情報を蓄積したデータベースであり、各ウェブページのURL(Uniform Resource Locator)に対して、ウェブページのタイトルや、そのロケーションが示す商業施設の営業時間、定休日、緯度経度などの位置情報などの情報が対応付けられた情報である。これらの情報は、ウェブサイトAを構成するウェブページ上において、コンテンツとして提供される。 FIG. 3 is a diagram illustrating an example of the first database DB1. For example, the first database DB1 is a database in which information related to locations provided on the website A is accumulated. The URL (Uniform Resource Locator) of each web page is the title of the web page and the commercial indicated by the location. This is information associated with information such as location information such as business hours, fixed holidays, and latitude and longitude of the facility. These pieces of information are provided as content on the web pages that make up the website A.
図4は、第2データベースDB2の一例を示す図である。例えば、第2データベースDB2は、ウェブサイトBにおいて提供される百科事典のデータベースである。例えば、百科事典に対して、あるロケーションに関する辞書引きが行われた場合、第2データベースDB2は、各ウェブページのURLに対して、ウェブページのタイトルや、そのロケーションまでの最寄駅、位置情報などの情報が対応付けられた情報となる。これらの情報は、ウェブサイトBを構成するウェブページ上において、コンテンツとして提供される。 FIG. 4 is a diagram illustrating an example of the second database DB2. For example, the second database DB2 is an encyclopedia database provided on the website B. For example, when a dictionary for a certain location is searched for an encyclopedia, the second database DB2 uses the URL of each web page, the title of the web page, the nearest station to that location, and location information. Such information is associated with each other. These pieces of information are provided as content on the web pages that make up the website B.
また、例えば、ウェブページが、複数の言語に対応している場合、図示の例のように、各ウェブページのURLには、各言語に対応したタイトルが対応付けられてよい。また、例えば、百科事典に対して、ある人物に関する辞書引きが行われた場合、第2データベースDB2は、各ウェブページのURLに対して、ウェブページのタイトルや、その人物の個人情報などが対応付けられてよい。個人情報には、例えば、人物の氏名、生年月日、出身地といった各種情報が含まれる。 Further, for example, when a web page is compatible with a plurality of languages, a title corresponding to each language may be associated with the URL of each web page as in the illustrated example. Also, for example, when a dictionary for a certain person is searched for an encyclopedia, the second database DB2 corresponds to the URL of each web page with the title of the web page, personal information of the person, etc. May be attached. The personal information includes, for example, various information such as a person's name, date of birth, and birthplace.
なお、上述した例では、第1データベースDB1は、ロケーションに関する情報を蓄積したデータベースであり、第2データベースDB2は、百科事典のデータベースであるものとして説明したがこれに限られず、いずれかのデータベースは、ファイナンスに関する情報を蓄積したデータベースであってもよい。この場合、第1データベースDB1または第2データベースDB2は、各ウェブページのURLに対して、ウェブページのタイトルや、そのウェブページで株価などを紹介する企業の名称、証券コードなどが対応付けられた情報であってよい。 In the above-described example, the first database DB1 is a database that stores information related to locations, and the second database DB2 is described as being an encyclopedia database. It may be a database that stores information on finance. In this case, in the first database DB1 or the second database DB2, the URL of each web page is associated with the title of the web page, the name of the company introducing the stock price, etc. on the web page, the security code, etc. It may be information.
また、取得部112は、通信部102を用いて、所定の周期で情報提供装置10や他のウェブサーバと通信を行い、これらの装置が提供するウェブサイトからコンテンツCTを取得し、これを記憶部130に記憶させてもよい。
Further, the
例えば、取得部112は、コンテンツCTとして既に取得したHTML文書よりも新しいHTML文書のコピーを取得するために、通信部102を用いて、ウェブサイトを提供する各装置にリクエストを送信する。そして、取得部112は、各装置によりHTML文書のコピーが送信されると、このHTML文書に含まれる全てのハイパーリンクから、リンク先の別のウェブページのHTML文書を収集する。取得部112は、収集の過程において、新たなHTML文書のウェブページにアクセスした場合、このウェブページのコンテンツCTを新たに記憶部130に記憶させる。リクエストの送信から一定時間経過するまでの間に各装置によりHTML文書のコピーが送信されない場合、取得部112は、既に取得したHTML文書に対応するウェブページが存在しないと判定して、このウェブページから収集したコンテンツCTを記憶部130から削除する。
For example, the
判定部114は、取得部112により取得された第1データベースDB1および第2データベースDB2を参照し、一つに統合可能なデータが存在しているか否かを判定するために、各データベースに登録された複数のデータが、予め決められた判定条件を満たすか否かを判定する。
The
例えば、判定部114は、各データベースに登録された情報のうち、予め決められたカラム(フィールド)の情報を、ナレッジベースKBにおいて扱われる情報の形態であるエンティティとして抽出し、エンティティとして抽出した情報に対応付けられていた各種情報を、抽出したエンティティの属性とする。例えば、第1データベースDB1において、ウェブページのタイトルとして記述された文字列がエンティティとして抽出された場合、URLや営業時間、定休日、位置情報といったカラムに入力された文字列が属性となる。文字列は、漢字、ひらがな、カタカナ、アルファベット、数字、記号といったコンピュータが処理可能な一以上の文字を含む。また、エンティティの名称を示す属性は、エンティティとして抽出された情報そのものであってよい。例えば、ウェブページのタイトルとして記述された文字列がエンティティとして抽出された場合、そのエンティティの名称には、ウェブページのタイトルとして記述された文字列(例えば「○○庭園」など)が割り当てられる。
For example, the
判定部114は、第1データベースDB1から抽出したエンティティの属性と、第2データベースDB2から抽出したエンティティの属性とを比較して、比較対象のエンティティが同一のエンティティであるか否かを判定する。例えば、判定部114は、以下に例示するような各種判定条件を満たすか否かを判定することで、比較対象のエンティティが同一のエンティティであるか否かを決定する。
The
条件(1):所定のウェブページのURLと、ウェブページのURLの属性として記述された文字列とが一致すること。
条件(2):ウェブページの日本語タイトルを示す属性が一致すること。
条件(3):ウェブページの英語タイトルを示す属性が一致すること。
条件(4):位置情報および名称を示す属性が一致すること。
Condition (1): The URL of a predetermined web page matches the character string described as the attribute of the URL of the web page.
Condition (2): The attribute indicating the Japanese title of the web page matches.
Condition (3): The attribute indicating the English title of the web page matches.
Condition (4): The position information and the attribute indicating the name match.
図5は、エンティティの属性判定を具体的に説明するための図である。図中のe1、e2、e3、…は、エンティティを表している。 FIG. 5 is a diagram for specifically explaining entity attribute determination. In the figure, e1, e2, e3,... Represent entities.
判定部114は、取得部112によりデータベースが取得されると、これらの各データベースの所定のカラムの情報をエンティティとして抽出し、抽出したエンティティがもつ属性のうち、ウェブページのURLの属性を参照し、URLの属性として記述された文字列が、所定のウェブページのURLと一致するか否かを判定する(図中S100の処理)。
When the database is acquired by the
所定のウェブページのURLとは、第1データベースDB1または第2データベースDB2に含まれる情報が提供されるウェブページのURLである。すなわち、所定のウェブページのURLは、上述したウェブサイトAまたはウェブサイトBを構成する一つのウェブページのURLである。「文字列が一致する」とは、比較対象の文字列同士が完全一致することであってもよいし、10文字中8文字までは一致する、といったような、ある一定の類似度以上で一致することであってもよい。 The URL of the predetermined web page is the URL of the web page where the information included in the first database DB1 or the second database DB2 is provided. That is, the URL of the predetermined web page is the URL of one web page that constitutes the above-described website A or website B. “Character strings match” may mean that the character strings to be compared are completely matched, or match up to a certain degree of similarity, such as matching up to 8 of 10 characters. It may be to do.
例えば、判定部114は、属性としてのURLと、所定のウェブページのURLとを比較したときに、それらのURLを構成する文字列のうち、スキームやホスト名、ドメイン名といった、共通のウェブサイトから得られたデータであれば同じ内容で記述される文字列が少なくとも一致する場合、URLの属性として記述された文字列が所定のウェブページのURLに一致すると判定してよい。すなわち、判定部114は、エンティティの属性を比較して、エンティティとして抽出したデータの取得先のウェブサイトが同じサイトであるか否かを判定する。判定部114は、URLの属性として記述された文字列が所定のウェブページのURLと一致すると判定したエンティティ同士を、一つのクラスタCLに纏める。この際、判定部114は、URLの属性を持たないエンティティを一つのクラスタCLに纏めてよい。
For example, when the
図示の例では、エンティティe1とエンティティe7とがクラスタCL1に纏まられており、エンティティe2とエンティティe8とがクラスタCL2に纏まられており、エンティティe3やその他のエンティティがクラスタCL3に纏まられている。これによって、クラスタCL1に属するエンティティは、あるウェブサイトAから得られたものであり、クラスタCL2に属するエンティティは、ウェブサイトAと異なるウェブサイトBから得られたものであり、クラスタCL3に属するエンティティは、URLの属性を持たないものである、といったような分類が行われる。 In the illustrated example, the entity e1 and the entity e7 are grouped in the cluster CL1, the entity e2 and the entity e8 are grouped in the cluster CL2, and the entity e3 and other entities are grouped in the cluster CL3. ing. Thus, an entity belonging to the cluster CL1 is obtained from a certain website A, and an entity belonging to the cluster CL2 is obtained from a website B different from the website A, and is an entity belonging to the cluster CL3. Are classified as having no URL attribute.
次に、判定部114は、判定処理時に参照する判定条件を、条件(1)から条件(2)に変更し、分類した各クラスタ内において、各エンティティのウェブページの日本語タイトルを示す属性を参照し、同じクラスタに含まれる全エンティティの日本語タイトルの属性として記述された文字列同士が互いに一致するか否かを判定する。図示の例では、クラスタCL1に含まれるエンティティe1およびエンティティe7の日本語タイトルの属性として記述された文字列が互いに一致し、クラスタCL2に含まれるエンティティe2およびエンティティe8の日本語タイトルの属性として記述された文字列が互いに一致せず、クラスタCL3に含まれるエンティティe3およびその他のエンティティの日本語タイトルの属性として記述された文字列が互いに一致している。このような場合、判定部114は、少なくともクラスタCL1およびクラスタCL3を、処理対象クラスタCL(A)に分類し(図中S102の処理)、少なくともクラスタCL2を、処理非対象クラスタCL(B)に分類する(図中S104の処理)。処理対象クラスタCL(A)は、現時点までに全ての判定条件を満たしているエンティティが分類されるクラスタであり、処理非対象クラスタCL(B)は、現時点までに一つ以上の判定条件を満たさなかったエンティティが分類されるクラスタである。処理非対象クラスタCL(B)については、以降の処理に利用されないものとする。
Next, the
次に、判定部114は、処理対象クラスタCL(A)に含まれる各クラスタ間で、ウェブページの日本語タイトルが一致するか否かを判定する。例えば、判定部114は、処理対象クラスタCL(A)に含まれるクラスタのうち、クラスタCL1に含まれるエンティティの日本語タイトルの属性として記述された文字列と、クラスタCL3に含まれるエンティティの日本語タイトルの属性として記述された文字列とを比較して、これらの文字列が一致する場合に、処理対象クラスタCL(A)に含まれる各クラスタ間で、ウェブページの日本語タイトルが一致すると判定する。一方、判定部114は、各クラスタに含まれるエンティティの日本語タイトルの属性として記述された文字列同士が一致しない場合、処理対象クラスタCL(A)に含まれる各クラスタ間で、ウェブページの日本語タイトルが一致しないと判定する。
Next, the
判定部114は、処理対象クラスタCL(A)に含まれる各クラスタ間でウェブページの日本語タイトルが一致する場合、この処理対象クラスタCL(A)を次の判定条件の判定対象に決定する(図中S106の処理)。一方、判定部114は、処理対象クラスタCL(A)に含まれる各クラスタ間でウェブページの日本語タイトルが一致しない場合、この処理対象クラスタCL(A)に含まれる各クラスタを、処理非対象クラスタCL(B)に分類する。すなわち、判定部114は、処理対象クラスタCL(A)に含まれる各クラスタを次の判定条件の判定対象に決定しない。
When the Japanese title of the web page matches between the clusters included in the processing target cluster CL (A), the
次に、判定部114は、判定処理時に参照する判定条件を、条件(2)から条件(3)に変更し、判定対象に決定した処理対象クラスタCL(A)に含まれる各クラスタ内において、各エンティティのウェブページの英語タイトルを示す属性を参照し、対象とする同一のクラスタ(例えばCL1やCL3)に含まれる全エンティティの英語タイトルの属性として記述された文字列同士が互いに一致するか否かを判定する。英語タイトルの属性が一致するか否かの判定については、日本語タイトルの属性が一致するか否かの判定と同様であるためここでは説明を省略する。
Next, the
判定部114は、対象とする同一のクラスタに含まれる全てのエンティティについて、英語タイトルの属性として記述された文字列同士が互いに一致する場合、このクラスタを処理対象クラスタCL(A)に分類し、そうでなければ処理非対象クラスタCL(B)に分類する。
When the character strings described as the attributes of the English title match each other for all entities included in the same target cluster, the
次に、判定部114は、日本語タイトルのときと同様に、処理対象クラスタCL(A)に含まれる各クラスタ間で、ウェブページの英語タイトルが一致するか否かを判定する。判定部114は、処理対象クラスタCL(A)に含まれる各クラスタ間でウェブページの英語タイトルが一致する場合、この処理対象クラスタCL(A)を次の判定条件の判定対象に決定し、処理対象クラスタCL(A)に含まれる各クラスタ間でウェブページの英語タイトルが一致しない場合、この処理対象クラスタCL(A)に含まれる各クラスタを、処理非対象クラスタCL(B)に分類する。
Next, as in the case of the Japanese title, the
次に、判定部114は、判定処理時に参照する判定条件を、条件(3)から条件(4)に変更し、判定対象に決定した処理対象クラスタCL(A)に含まれる各クラスタ内において、各エンティティの位置情報および名称を示す属性を参照し、対象とする同一のクラスタに含まれる全エンティティの位置情報の属性として記述された文字列同士と、名称の属性として記述された文字列同士とが其々で一致するか否かを判定する。
Next, the
判定部114は、判定対象に決定した処理対象クラスタCL(A)に含まれる一以上のクラスタのうち、対象とする同一のクラスタに含まれる全てのエンティティについて、位置情報の属性として記述された文字列同士が一致し、且つ名称の属性として記述された文字列同士が一致する場合、このクラスタを処理対象クラスタCL(A)に分類し、そうでなければ処理非対象クラスタCL(B)に分類する。例えば、位置情報が経度および緯度で表された座標(例えば緯度:5.679287,経度:139.737386)である場合、その座標を示す数値が小数点第二位まで一致し、且つエンティティの名称として記述された文字列が全て一致する場合、判定部114は、対象とするクラスタを処理対象クラスタCL(A)に分類する。
The
このように、クラスタ内とクラスタ間において、各エンティティが判定条件を満たすか否かを判定した後、判定部114は、判定処理時に参照する判定条件を新たな条件に変更し、判定処理を繰り返す。判定部114は、繰り返し処理の過程で、判定条件を所定回数以上継続して満たした場合に、処理対象クラスタCL(A)に分類しているエンティティについては、これらを同一のエンティティであると判定する。例えば、判定部114は、繰り返し処理の結果、全ての判定条件を満たした上で処理対象クラスタCL(A)に分類したエンティティについては、これらを同一のエンティティであると判定する。図示の例では、クラスタCLXと、クラスタCLYとが、4つの全ての判定条件を満たしている。そのため、クラスタCLXに含まれるエンティティe1、e7、e4は、同一のエンティティであると判定され、クラスタCLYに含まれるエンティティe3、e9は、同一のエンティティであると判定される。同一のエンティティであると判定されたエンティティには、後述するナレッジベース生成部116の処理によって、同一のエンティティであると判定された他のエンティティの属性が追加される。
As described above, after determining whether or not each entity satisfies the determination condition within the cluster and between the clusters, the
なお、上述した判定条件には、例えば、比較対象とするエンティティ同士で、証券コードを示す属性が互いに一致することが含まれてもよいし、人物の個人情報(例えば生年月日)を示す属性が互いに一致することが含まれてもよい。 Note that the above-described determination condition may include, for example, that the attributes indicating the securities code match between the entities to be compared with each other, or the attribute indicating the personal information (for example, the date of birth) of the person. May match each other.
ナレッジベース生成部116は、取得部112により取得されたコンテンツCTに基づいて、ナレッジベースKBを生成し、これを記憶部130に記憶させる。例えば、ナレッジベース生成部116は、コンテンツCTに含まれるHTML文書を参照し、このHTML文書から所定の情報を抽出し、抽出した情報に基づいて、参照元のコンテンツCTを、ナレッジベースKBにおいてどのエンティティに関連付けるのかを決定する。
The knowledge
例えば、HTML文書には、コンテンツCTがどういった性質または属性のデータであるのか表す構造化データと呼ばれるデータが所定の仕様(例えばschema.orgに基づく仕様)で記述されることがある。構造化データとは、HTMLで記述された情報、すなわちウェブページがどのようなエンティティで扱われるべきなのかを、検索サイトを提供するウェブサーバやその他のクローラに理解させるためのデータである。HTML文書に構造化データが含まれている場合、ナレッジベース生成部116は、HTML文書から構造化データを取得することで、ナレッジベースKBにおいて、コンテンツCTに対応したエンティティを特定する。また、ナレッジベース生成部116は、HTML文書に構造化データが含まれていない場合、例えば、HTML文書の記述内容から、統計的な確率手法を用いて、そのコンテンツCTに対応したエンティティを特定してよい。
For example, in an HTML document, data called structured data indicating what kind of property or attribute the content CT is may be described with a predetermined specification (for example, a specification based on schema.org). Structured data is data for allowing a web server or other crawler that provides a search site to understand information described in HTML, that is, what entity a web page should be handled by. When structured data is included in the HTML document, the knowledge
そして、ナレッジベース生成部116は、構造化データ等に基づき特定したエンティティにコンテンツCTを関連付けることで、ナレッジベースKBを生成する。
And the knowledge base production |
図6は、ナレッジベースKBの一例を示す図である。図中e_A〜e_Iは其々エンティティを表しており、これらを繋ぐ矢印は属性(プロパティ)を表している。このように、ナレッジベースKBは、上述したエンティティがノードとして表され、上述した属性(プロパティ)がラベルとして付与され、且つ方向性のあるエッジとして表された有向グラフによって表現される。エッジの方向性(図中矢印の向き)は、上述したクラスの上位下位の関係を表している。なお、図示していないが、これらのエンティティには、コンテンツCTが関連付けられているものとする。 FIG. 6 is a diagram illustrating an example of the knowledge base KB. In the figure, e_A to e_I represent entities, respectively, and arrows connecting them represent attributes (properties). As described above, the knowledge base KB is represented by a directed graph in which the above-described entity is represented as a node, the above-described attribute (property) is provided as a label, and the edge is represented as a directional edge. The directionality of the edge (the direction of the arrow in the figure) represents the upper-lower relationship of the above-described class. Although not shown, it is assumed that content CT is associated with these entities.
また、ナレッジベース生成部116は、判定部114によって、属性の比較対象とされたエンティティが同一のエンティティであると判定された場合、比較対象のエンティティ同士を統合してナレッジベースKBに登録する。「エンティティ同士を統合する」とは、例えば、比較対象のエンティティのうち、一方のエンティティに、他方のエンティティの属性を追加することである。
In addition, when the
図7は、エンティティの統合方法を説明するための図である。例えば、第1データベースDB1の、あるエンティティe_Aがもつ属性のうち、名称の属性には、「○○庭園」という文字列が対応付けられ、緯度の属性には、「35.732」という文字列が対応付けられ、経度の属性には、「139.746」という文字列が対応付けられ、定休日の属性には、「無休」という文字列が対応付けられているものとする。また、第2データベースDB2の、あるエンティティe_Bがもつ属性のうち、名称の属性には、「○○庭園」という文字列が対応付けられ、緯度の属性には、「35.730」という文字列が対応付けられ、経度の属性には、「139.749」という文字列が対応付けられ、最寄駅の属性には、「□□駅」という文字列が対応付けられているものとする。これらのエンティティe_Aおよびエンティティe_Bの属性を比較した場合、名称の属性として記述された文字列が全て一致し、緯度および経度の属性として記述された文字列が小数点第二位まで一致しているため、判定部114は、これらのエンティティを同一のエンティティであると判定する。この場合、ナレッジベース生成部116は、比較対象の2つのエンティティのうち、例えば、エンティティe_Aに、エンティティe_Bの属性を追加して、ナレッジベースKBに登録する。この結果、エンティティe_Aには、本来持っていなかった、最寄駅という属性が新たに追加されることになる。なお、ナレッジベース生成部116は、エンティティe_Aの代わりに、エンティティe_Bにエンティティe_Aの属性を追加してもよい。
FIG. 7 is a diagram for explaining an entity integration method. For example, among the attributes of an entity e_A in the first database DB1, the name attribute is associated with the character string “XX garden”, and the latitude attribute is the character string “35.732”. Are associated with each other, the character string “139.746” is associated with the longitude attribute, and the character string “no holidays” is associated with the fixed holiday attribute. Among the attributes of a certain entity e_B in the second database DB2, the name attribute is associated with the character string “XX garden”, and the latitude attribute is the character string “35.730”. Is associated with the attribute of longitude, and the character string “139.749” is associated with the attribute of the nearest station, and the character string “□□ station” is associated with the attribute of the nearest station. When the attributes of the entity e_A and the entity e_B are compared, the character strings described as the name attributes all match, and the character strings described as the latitude and longitude attributes match up to the second decimal place. The
データベース生成装置100は、このように生成したナレッジベースKBを、情報提供装置10に提供してよい。これによって、情報提供装置10は、ナレッジベースKBにおいて、検索サイトなどで入力されたクエリと一致する名称のエンティティを特定し、このエンティティに関連付けられたコンテンツCT(例えば画像データなど)を、クエリの検索結果に加えて、ユーザの端末装置(例えばスマートフォンなど)に提供する。
The
[処理フロー]
図8は、第1実施形態における制御部110により実行される処理の一例を示すフローチャートである。まず、取得部112は、通信部102を用いて、ウェブサイトを提供する情報提供装置10や他のウェブサーバと通信を行い、これらの装置において其々管理されるデータベースを取得する(S200)。
[Processing flow]
FIG. 8 is a flowchart illustrating an example of processing executed by the
次に、判定部114は、取得部112により取得された互いに異なる複数のデータベースを参照し、各データベースに登録された情報のうち、予め決められたカラムの情報をエンティティとして抽出し、各データベースから抽出した比較対象のエンティティ同士が、予め決められた判定条件を満たすか否かを判定する(S202)。
Next, the
判定部114は、比較対象のエンティティ同士が判定条件を満たすと判定した場合、比較対象のエンティティを、処理対象クラスタCL(A)に分類し(S204)、比較対象のエンティティ同士が判定条件を満たさないと判定した場合、比較対象のエンティティを、処理非対象クラスタCL(B)に分類する(S206)。
When determining that the comparison target entities satisfy the determination condition, the
次に、判定部114は、予め決められた全ての判定条件について判定処理を試行したか否かを判定し(S208)、全ての判定条件について判定処理を試行していないと判定した場合、判定条件を変更し(S210)、上述したS202に処理を戻す。この場合、判定部114は、変更した判定条件で、処理対象クラスタCL(A)に分類したエンティティを判定する処理を繰り返す。
Next, the
一方、判定部114によって、全ての判定条件について判定処理を試行していると判定された場合(上述した例では全4回の判定処理が全て行われた場合)、ナレッジベース生成部116は、処理対象クラスタCL(A)において、同一のクラスタに含まれるエンティティ同士を統合してナレッジベースKBに登録する(S212)。これによって、本フローチャートの処理が終了する。
On the other hand, when it is determined by the
以上説明した第1実施形態によれば、第1データベースDB1に登録されたエンティティの属性と、第1データベースDB1と異なる第2データベースDB2に登録されたエンティティの属性とを比較して、これらのエンティティが同一のエンティティであるか否かを判定し、比較対象の複数のエンティティが同一のエンティティであると判定した場合、比較対象の複数のエンティティを一つのエンティティに統合したデータベースを生成するため、例えば、ロケーションに関するデータベースや、ファイナンスに関するデータベースのように、互いに異なるデータベースの其々においてエンティティの表現方式(例えばエンティティがもつ属性の種類や数)が異なっていても一つのエンティティに統合でき、より汎用性の高いナレッジベースKB(データベースの一例)を生成することができる。 According to the first embodiment described above, the attributes of entities registered in the first database DB1 are compared with the attributes of entities registered in a second database DB2 different from the first database DB1, and these entities are compared. In order to generate a database in which a plurality of comparison target entities are integrated into one entity, for example, in order to generate a database in which a plurality of comparison target entities are determined to be the same entity, It can be integrated into one entity even if the representation method of entities (for example, the types and number of attributes of entities) is different in different databases, such as a location database and a finance database. High knowledge base It can generate a KB (an example of a database).
<第2実施形態>
以下、第2実施形態について説明する。第2実施形態では、ある処理対象とするエンティティ(以下、着目エンティティと称する)の属性として記述された文字列に基づいて、その着目エンティティに対して、新たなエンティティを関連付ける点で上述した第1実施形態と相違する。「新たなエンティティを関連付ける」とは、ナレッジベースKBの有向グラフにおいて、着目エンティティをノードとした場合に、そのノードに接続されたエッジに対して、新たなエンティティをノードとして接続することをいう。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
Second Embodiment
Hereinafter, a second embodiment will be described. In the second embodiment, the first described above is that a new entity is associated with a target entity based on a character string described as an attribute of an entity to be processed (hereinafter referred to as a target entity). It is different from the embodiment. “Associating a new entity” refers to connecting a new entity as a node to an edge connected to the node when the target entity is a node in the directed graph of the knowledge base KB. Hereinafter, differences from the first embodiment will be mainly described, and description of points common to the first embodiment will be omitted. In the description of the second embodiment, the same parts as those in the first embodiment will be described with the same reference numerals.
第2実施形態における判定部114は、第1データベースDB1または第2データベースDB2から着目エンティティを抽出し、抽出した着目エンティティがもつ属性のうち、他のエンティティが未だ関連付けられていない属性を特定し、その属性を表す文字列が、あるエンティティの候補の名称を表しているものと仮定する。
The
判定部114は、第1データベースDB1または第2データベースDB2に登録されたエンティティ、或いはナレッジベースKBに既に登録されたエンティティの中に、エンティティの候補と性質が類似するエンティティ(以下、類似エンティティと称する)が存在するか否かを判定する。類似エンティティは、「類似対象事物」の一例である。
The
例えば、判定部114は、データベースに含まれるエンティティのうち、比較対象とするあるエンティティが属するクラスと、エンティティの候補が属すると想定されるクラスとが同じクラスであるか否かを判定し、双方のクラスが同じクラスであると判定した場合、比較対象としたエンティティが、エンティティの候補と性質が類似した類似エンティティであると判定する。すなわち、判定部114は、データベース上に類似エンティティが存在すると判定する。
For example, the
また、判定部114は、エンティティの候補が属すると想定されるクラスと、比較対象のエンティティが属するクラスとが上位下位の関係にあり、エンティティの候補が属するクラスに含まれる性質の一部と、比較対象のエンティティが属するクラスに含まれる性質の一部とが同じである場合、比較対象としたエンティティが類似エンティティであると判定してよい。
In addition, the
判定部114は、類似エンティティが存在すると判定した場合、更に、類似エンティティがもつ一以上の属性の中に、エンティティの候補の名称に一致する文字列で記述された属性が存在するか否かを判定する。
If the
第2実施形態におけるナレッジベース生成部116は、判定部114によって、類似エンティティがもつ一以上の属性の中に、エンティティの候補の名称に一致する文字列で記述された属性が存在すると判定された場合、類似エンティティを関連付けた着目エンティティを、ナレッジベースNBに登録する。なお、類似エンティティの抽出先のデータベースがナレッジベースNBである場合、ナレッジベース生成部116は、ナレッジベースNBにおいて既に登録されている類似エンティティに、着目エンティティを関連付けてよい。
The knowledge
図9は、着目エンティティに対して類似エンティティを関連付ける際の処理内容を模式的に示す図である。例えば、第1データベースDBにおいて、エンティティe_Xがもつ属性のうち、名称という属性には「Y株式会社」という文字列が対応付けられており、社長という属性には「検索太郎」という文字列が対応付けられている。また、第2データベースDBにおいて、エンティティe_Yがもつ属性のうち、名前という属性には「検索太郎」という文字列が対応付けられている。 FIG. 9 is a diagram schematically illustrating the processing content when associating a similar entity with a target entity. For example, in the first database DB, among the attributes of the entity e_X, the name “Y Corporation” is associated with the name attribute, and the “search Taro” character string is associated with the president attribute. It is attached. In the second database DB, among the attributes of the entity e_Y, the attribute “name” is associated with the character string “search Taro”.
このような場合において、例えば、判定部114は、エンティティe_Xを着目エンティティとし、そのエンティティe_Xがもつ属性のうち、社長の属性として記述された文字列「検索太郎」を、エンティティの候補の名称とする。また、判定部114は、エンティティe_Yを、類似エンティティをデータベースから探索する際の比較対象のエンティティとする。
In such a case, for example, the
判定部114は、比較対象としたエンティティe_Yが属するクラスと、「検索太郎」という名称の属性をもつエンティティの候補が属すると想定されるクラスとを比較し、これらのクラスが互いに同じクラスとなるか否かを判定する。
The
例えば、社長という属性は、その属性をもつエンティティを「人物」というクラスに分類する属性であり、名前という属性も、その属性をもつエンティティを「人物」というクラスに分類する属性である。従って、社長という属性に対応付けられた「検索太郎」という文字列を暫定的なエンティティに見立てた場合、その暫定的なエンティティは、「人物」というクラスに属することになり、名前という属性をもつエンティティe_Yと同じクラスとなる。従って、判定部114は、比較対象としたエンティティe_Yが属するクラスと、エンティティの候補が属すると想定されるクラスとが同じクラスであると判定する。これによって、判定部114は、比較対象としたエンティティe_Yが、着目エンティティとしたエンティティe_Xから求めたエンティティの候補と性質が類似する類似エンティティであると判定する。
For example, the attribute “president” is an attribute for classifying an entity having the attribute into a class “person”, and the attribute “name” is also an attribute for classifying an entity having the attribute into a class “person”. Therefore, when the character string “Search Taro” associated with the president attribute is regarded as a provisional entity, the provisional entity belongs to the class “person” and has the name attribute. It becomes the same class as the entity e_Y. Therefore, the
そして、判定部114は、類似エンティティであるエンティティe_Yがもつ一以上の属性の中に、エンティティの候補の名称とした「検索太郎」という文字列で記述された属性が存在するか否かを判定する。図示の例では、エンティティe_Yの名前の属性として記述された文字列「検索太郎」と、エンティティの候補の名称とした「検索太郎」とが一致している。
Then, the
このような場合、ナレッジベース生成部116は、着目エンティティがもつ属性のうち、エンティティの候補の名称とした文字列によって表された属性をもつエンティティe_Xに、エンティティの候補の類似エンティティであるエンティティe_Yを関連付けて、ナレッジベースNBに登録する。これによって、エンティティe_Xがもつ属性のうち、「検索太郎」という文字列に対応付けられた社長という属性には、同じく「検索太郎」という文字列に対応付けられた名前の属性をもつエンティティe_Yが関連付けられることになる。
In such a case, the knowledge
図10は、第2実施形態における制御部110により実行される処理の一例を示すフローチャートである。まず、取得部112は、通信部102を用いて、ウェブサイトを提供する情報提供装置10や他のウェブサーバと通信を行い、これらの装置において其々管理されるデータベースを取得する(S300)。
FIG. 10 is a flowchart illustrating an example of processing executed by the
次に、判定部114は、第1データベースDB1または第2データベースDB2から着目エンティティを抽出し、抽出した着目エンティティがもつ属性のうち、他のエンティティが未だ関連付けられていない属性を表す文字列を、あるエンティティの候補の名称に決定する(S302)。
Next, the
次に、判定部114は、第1データベースDB1または第2データベースDB2に登録されたエンティティ、或いはナレッジベースKBに既に登録されたエンティティの中に、エンティティの候補と性質が類似する類似エンティティが存在するか否かを判定する(S304)。
Next, the
類似エンティティが存在しないと判定した場合、判定部114は、本フローチャートの処理を終了する。一方、類似エンティティが存在すると判定した場合、判定部114は、エンティティの候補の名称と、類似エンティティがもつ属性を表す文字列とが一致するか否かを判定する(S306)。
If it is determined that there is no similar entity, the
エンティティの候補の名称と、類似エンティティがもつ属性を表す文字列とが一致しないと判定した場合、判定部114は、本フローチャートの処理を終了する。一方、判定部114によって、エンティティの候補の名称と、類似エンティティがもつ属性を表す文字列とが一致すると判定された場合、ナレッジベース生成部116は、類似エンティティと着目エンティティとを互いに関連付けて、ナレッジベースNBに登録する(S308)。これによって、本フローチャートの処理が終了する。
If it is determined that the name of the entity candidate does not match the character string representing the attribute of the similar entity, the
以上説明した第2実施形態によれば、着目エンティティの属性として記述された文字列を、あるエンティティの候補の名称とした場合に、他のエンティティの中に、エンティティの候補の想定される性質と類似する類似エンティティが存在するか否かを判定し、類似エンティティが存在すると判定した場合、着目エンティティに類似エンティティを関連付けたナレッジベースNBを生成するため、第1実施形態と同様に、より汎用性の高いデータベースを生成することができる。 According to the second embodiment described above, when the character string described as the attribute of the target entity is the name of a candidate for a certain entity, the expected property of the candidate for the entity is included in the other entities. If it is determined whether or not there is a similar entity, and it is determined that there is a similar entity, a knowledge base NB that associates the similar entity with the target entity is generated. A high database can be generated.
<ハードウェア構成>
上述した実施形態の情報提供システムに含まれる情報提供装置10およびデータベース生成装置100は、例えば、図11に示すようなハードウェア構成により実現される。図11は、実施形態の情報提供装置10およびデータベース生成装置100のハードウェア構成の一例を示す図である。
<Hardware configuration>
The
情報提供装置10は、NIC10−1、CPU10−2、RAM10−3、ROM10−4、フラッシュメモリやHDDなどの二次記憶装置10−5、およびドライブ装置10−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置10−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置10−5、またはドライブ装置10−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM10−3に展開され、CPU10−2によって実行されることで、各機能が実現される。CPU10−2が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
The
データベース生成装置100は、NIC100−1、CPU100−2、RAM100−3、ROM100−4、フラッシュメモリやHDDなどの二次記憶装置100−5、およびドライブ装置100−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100−5、またはドライブ装置100−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100−3に展開され、CPU100−2によって実行されることで、制御部110が実現される。制御部110が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
The
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 As mentioned above, although the form for implementing this invention was demonstrated using embodiment, this invention is not limited to such embodiment at all, In the range which does not deviate from the summary of this invention, various deformation | transformation and substitution Can be added.
1…情報提供システム、10…情報提供装置、100…データベース生成装置、102…通信部、110…制御部、112…取得部、114…判定部、116…ナレッジベース生成部、130…記憶部
DESCRIPTION OF
Claims (12)
前記判定部により、前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定された場合、前記第1対象事物および前記第2対象事物を統合したデータベースを生成する生成部と、
を備えるデータベース生成装置。 The first target thing and the second target are compared with the attribute of the first target thing registered in the first database and the attribute of the second target thing registered in a second database different from the first database. A determination unit that determines whether or not the thing is the same target thing;
When the determination unit determines that the first target thing and the second target thing are the same target thing, a generation unit that generates a database that integrates the first target thing and the second target thing When,
A database generation device comprising:
前記判定部は、各対象事物の属性として記述された文字列同士が一致することを含む条件を満たす場合に、前記第1対象事物および前記第2対象事物が同一の対象事物であると判定する、
請求項1に記載のデータベース生成装置。 Each attribute of the first target thing and the second target thing is described by a character string including one or more characters in a database in which each target thing is registered,
The determination unit determines that the first target thing and the second target thing are the same target thing when satisfying a condition including matching of character strings described as attributes of each target thing. ,
The database generation device according to claim 1.
前記条件には、前記対象事物に関連付けられた前記リソースの識別情報を示す文字列同士が一致することが含まれる、
請求項2に記載のデータベース生成装置。 The character string described as the attribute of the target thing includes a character string indicating the identification information of the resource associated with the target thing registered in the database,
The condition includes matching of character strings indicating identification information of the resource associated with the target thing,
The database generation device according to claim 2.
前記条件には、前記対象事物に関連付けられた前記リソースによって提供されるコンテンツに含まれる文字列同士が一致することが含まれる、
請求項3に記載のデータベース生成装置。 The character string described as the attribute of the target thing includes the character string included in the content provided by the resource,
The condition includes matching of character strings included in content provided by the resource associated with the target thing,
The database generation device according to claim 3.
請求項4に記載のデータベース生成装置。 The character string included in the content provided by the resource includes the title of the content.
The database generation device according to claim 4.
請求項4または5に記載のデータベース生成装置。 The character string included in the content provided by the resource includes a character string indicating the position information of the building represented by the content.
The database generation device according to claim 4 or 5.
請求項4から6のうちいずれか1項に記載のデータベース生成装置。 The character string included in the content provided by the resource includes a character string indicating personal information of a person represented by the content.
The database generation device according to any one of claims 4 to 6.
前記条件には、各対象事物の名称を示す文字列同士が一致することが含まれる、
請求項2から7のうちいずれか1項に記載のデータベース生成装置。 The character string described as the attribute of the target thing includes a character string indicating the name of the target thing,
The condition includes that the character strings indicating the names of the target objects are matched.
The database generation device according to any one of claims 2 to 7.
前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定するための条件を変更しながら、判定処理を繰り返し、
前記判定処理を繰り返す過程で変更した前記条件が、所定回数以上継続して満たされた場合に、前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定する、
請求項1から8のうちいずれか1項に記載のデータベース生成装置。 The determination unit
While changing the condition for determining that the first target thing and the second target thing are the same target thing, the determination process is repeated,
When the condition changed in the process of repeating the determination process is continuously satisfied a predetermined number of times or more, it is determined that the first target thing and the second target thing are the same target thing.
The database generation device according to any one of claims 1 to 8.
着目する対象事物の属性として記述された文字列を、ある対象事物の候補の名称とした場合に、他の対象事物の中に、前記対象事物の候補の想定される性質と類似する類似対象事物が存在するか否かを判定し、
前記生成部は、前記判定部により、前記類似対象事物が存在すると判定された場合、前記着目する対象事物に前記類似対象事物を関連付けたデータベースを生成する、
請求項2から9のうちいずれか1項に記載のデータベース生成装置。 The determination unit further includes:
When the character string described as the attribute of the target thing of interest is the name of a candidate for a certain target thing, the similar target thing similar to the assumed property of the candidate for the target thing among other target things Whether or not exists,
When the determination unit determines that the similar target thing exists, the generation unit generates a database in which the similar target thing is associated with the target target object.
The database generation device according to any one of claims 2 to 9.
第1データベースに登録された第1対象事物の属性と、前記第1データベースと異なる第2データベースに登録された第2対象事物の属性とを比較して、前記第1対象事物と前記第2対象事物とが同一の対象事物であるか否かを判定し、
前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定した場合、前記第1対象事物および前記第2対象事物を統合したデータベースを生成する、
データベース生成方法。 Computer
The first target thing and the second target are compared with the attribute of the first target thing registered in the first database and the attribute of the second target thing registered in a second database different from the first database. Determine if the thing is the same subject matter,
When it is determined that the first target thing and the second target thing are the same target thing, a database integrating the first target thing and the second target thing is generated.
Database generation method.
第1データベースに登録された第1対象事物の属性と、前記第1データベースと異なる第2データベースに登録された第2対象事物の属性とを比較させて、前記第1対象事物と前記第2対象事物とが同一の対象事物であるか否かを判定させ、
前記第1対象事物と前記第2対象事物とが同一の対象事物であると判定した場合、前記第1対象事物および前記第2対象事物を統合したデータベースを生成させる、
プログラム。 On the computer,
The first subject matter and the second subject are compared by comparing the attribute of the first subject matter registered in the first database with the attribute of the second subject matter registered in a second database different from the first database. To determine if the thing is the same subject matter,
When it is determined that the first target thing and the second target thing are the same target thing, a database integrating the first target thing and the second target thing is generated.
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017176575A JP2019053469A (en) | 2017-09-14 | 2017-09-14 | Database creating device, database creating method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017176575A JP2019053469A (en) | 2017-09-14 | 2017-09-14 | Database creating device, database creating method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019053469A true JP2019053469A (en) | 2019-04-04 |
Family
ID=66015104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017176575A Pending JP2019053469A (en) | 2017-09-14 | 2017-09-14 | Database creating device, database creating method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019053469A (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040143600A1 (en) * | 1993-06-18 | 2004-07-22 | Musgrove Timothy Allen | Content aggregation method and apparatus for on-line purchasing system |
JP2010027031A (en) * | 2008-06-18 | 2010-02-04 | Yahoo Japan Corp | Apparatus, method, and program for name identification using note data |
WO2010113290A1 (en) * | 2009-03-31 | 2010-10-07 | 富士通株式会社 | Computer-assisted name identification equipment, name identification method, and name identification program |
-
2017
- 2017-09-14 JP JP2017176575A patent/JP2019053469A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040143600A1 (en) * | 1993-06-18 | 2004-07-22 | Musgrove Timothy Allen | Content aggregation method and apparatus for on-line purchasing system |
JP2010027031A (en) * | 2008-06-18 | 2010-02-04 | Yahoo Japan Corp | Apparatus, method, and program for name identification using note data |
WO2010113290A1 (en) * | 2009-03-31 | 2010-10-07 | 富士通株式会社 | Computer-assisted name identification equipment, name identification method, and name identification program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103294781B (en) | A kind of method and apparatus for processing page data | |
CN109885692A (en) | Knowledge data storage method, device, computer equipment and storage medium | |
US11550856B2 (en) | Artificial intelligence for product data extraction | |
CN112149400B (en) | Data processing method, device, equipment and storage medium | |
CN112749284B (en) | Knowledge graph construction method, device, equipment and storage medium | |
US20240029086A1 (en) | Discovery of new business openings using web content analysis | |
US20170235726A1 (en) | Information identification and extraction | |
US20150287047A1 (en) | Extracting Information from Chain-Store Websites | |
CN113127506B (en) | Target query statement construction method and device, storage medium and electronic device | |
US20170235836A1 (en) | Information identification and extraction | |
Nesi et al. | Geographical localization of web domains and organization addresses recognition by employing natural language processing, Pattern Matching and clustering | |
CN111984792A (en) | Website classification method and device, computer equipment and storage medium | |
CN104217038A (en) | Knowledge network building method for financial news | |
CN111522901A (en) | Method and device for processing address information in text | |
JP2018128942A (en) | Analyzing apparatus, analyzing method, and program | |
CN115687647A (en) | Notarization document generation method and device, electronic equipment and storage medium | |
CN110851609A (en) | Representation learning method and device | |
CN113254630A (en) | Domain knowledge map recommendation method for global comprehensive observation results | |
Karl | Mining location information from life-and earth-sciences studies to facilitate knowledge discovery | |
US20170235835A1 (en) | Information identification and extraction | |
CN113918794B (en) | Enterprise network public opinion benefit analysis method, system, electronic equipment and storage medium | |
CN111403011B (en) | Registration department pushing method, device and system, electronic equipment and storage medium | |
US20210294794A1 (en) | Vector embedding models for relational tables with null or equivalent values | |
CN109948015B (en) | Meta search list result extraction method and system | |
KR102454261B1 (en) | Collaborative partner recommendation system and method based on user information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210428 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220119 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220119 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220131 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220201 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20220401 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20220405 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220705 |
|
C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20220927 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20221011 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20230104 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20230207 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20230207 |