JP6998282B2 - Information processing equipment, information processing methods, and programs - Google Patents
Information processing equipment, information processing methods, and programs Download PDFInfo
- Publication number
- JP6998282B2 JP6998282B2 JP2018174410A JP2018174410A JP6998282B2 JP 6998282 B2 JP6998282 B2 JP 6998282B2 JP 2018174410 A JP2018174410 A JP 2018174410A JP 2018174410 A JP2018174410 A JP 2018174410A JP 6998282 B2 JP6998282 B2 JP 6998282B2
- Authority
- JP
- Japan
- Prior art keywords
- entity
- knowledge database
- expression pattern
- dependent
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 32
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 60
- 238000000605 extraction Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 7
- 238000005070 sampling Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 238000000034 method Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 8
- 238000009795 derivation Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 7
- 241000271566 Aves Species 0.000 description 1
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241000271567 Struthioniformes Species 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
Images
Description
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.
従来、ウエブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。このクローラは、ウエブページ中のリンクを辿って、様々なIPアドレスのウエブページからデータを収集する。クローラによって収集されたデータは、ウエブ情報データベースに蓄積される。 Conventionally, a crawler that collects data (documents, images, etc.) from the web and automatically creates a database of the collected data is known (see Patent Document 1). This crawler follows links in web pages and collects data from web pages with various IP addresses. The data collected by the crawler is stored in the web information database.
しかしながら、上記従来の技術では、効率的に有用な情報を取得することができない場合があった。 However, with the above-mentioned conventional technique, it may not be possible to efficiently acquire useful information.
本発明は、このような事情を考慮してなされたものであり、より効率的に有用な情報を取得することができる情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and one of the objects of the present invention is to provide an information processing device, an information processing method, and a program capable of acquiring useful information more efficiently. do.
本発明の一態様は、ウエブページの情報を取得する取得部と、複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記取得部により取得されたウエブページにおいて、前記ナレッジデータベースに含まれる第1主エンティティと、前記第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識する認識部と、前記ウエブページにおいて、前記ナレッジデータベースに含まれ、関連付けられるべき前記第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ前記第1表現パターンに合致する第2表現パターンを抽出する抽出部と、前記ナレッジデータベースを拡充するために前記第2表現パターンに基づく情報を前記ナレッジデータベースに提供する提供部とを備える情報処理装置である。 One aspect of the present invention refers to a knowledge database including an acquisition unit for acquiring information on a web page and information on relationships between a plurality of entities and the entities, and in the web page acquired by the acquisition unit, the knowledge is described. A recognition unit that recognizes a first expression pattern, which is an expression including a first main entity included in the database and a first dependent entity subordinate to the first main entity, and a recognition unit included in the knowledge database on the web page. , An extractor for extracting a second expression pattern that includes a second primary entity that is not associated with a second dependent entity of the same type as the first dependent entity to be associated and that matches the first expression pattern, and the knowledge. It is an information processing apparatus including a providing unit that provides information based on the second expression pattern to the knowledge database in order to expand the database.
本発明の一態様によれば、より効率的に有用な情報を取得することができる。 According to one aspect of the present invention, useful information can be obtained more efficiently.
以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。 Hereinafter, embodiments of the information processing apparatus, information processing method, and program of the present invention will be described with reference to the drawings.
[概要(その1)]
情報処理装置は、一以上のプロセッサにより実現される。実施形態の情報処理装置は、ウエブページの情報を取得し、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースを参照し、取得部により取得されたウエブページにおいて、ナレッジデータベースに含まれる第1主エンティティと、第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識する。そして、情報処理装置は、ウエブページにおいて、ナレッジデータベースに含まれ、関連付けられるべき第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ第1表現パターンに合致する第2表現パターンを抽出し、ナレッジデータベースを拡充するために第2表現パターンに基づく情報をナレッジデータベースに提供する。「表現パターン」とは、例えば、ウエブページの生成に用いられる言語の記述パターンである。
[Overview (1)]
The information processing device is realized by one or more processors. The information processing apparatus of the embodiment acquires information on a web page, refers to a knowledge database including information on a plurality of entities and relationships between the entities, and is included in the knowledge database on the web page acquired by the acquisition unit. Recognize a first expression pattern that is an expression including one primary entity and a first dependent entity subordinate to the first primary entity. Then, on the web page, the information processing device includes a second primary entity that is included in the knowledge database and is not associated with a second dependent entity of the same type as the first dependent entity to be associated, and matches the first expression pattern. The second expression pattern to be processed is extracted, and the information based on the second expression pattern is provided to the knowledge database in order to expand the knowledge database. The "expression pattern" is, for example, a description pattern of a language used for generating a web page.
ナレッジデータベースは、エンティティに関する情報と、エンティティ同士の意味的関係に関する情報とが記述されたものである。エンティティとは、対象事物の実体または概念を表すものである。例えば、あるクエリが入力された場合において、そのクエリがエンティティに該当するものであれば、単なるキーワード検索よりも豊富な情報をユーザに返すことができる。 The knowledge database describes information about entities and information about semantic relationships between entities. An entity represents an entity or concept of an object. For example, when a query is entered, if the query corresponds to an entity, it is possible to return a wealth of information to the user rather than a simple keyword search.
ナレッジデータベースにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。 The things described in the knowledge database are defined by the ontology. An ontology is a definition of a class and a property of an object, and is a collection of constraints that hold between the class and the property.
クラスは、エンティティの属性を示す情報である。クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。 A class is information that indicates an attribute of an entity. A class is a group of things that have the same properties in an ontology. What the nature of an object is, that is, which class the object belongs to, is determined by the properties described below.
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。 For example, things that have a beak, an oviparous vertebrate, and forelimbs that are wings are classified in the "bird" class. Also, in the class of "birds", things that have the property of not being able to fly are classified into lower classes such as "penguins" and "ostriches". In this way, the class system may have a hierarchical structure having a higher-lower relationship.
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「~を体の構成要素としてもつ」という性質や、「~に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。 Properties are attributes that describe the nature and characteristics of things and the relationships between classes. For example, a property may be an attribute that has the property of "having ... as a component of the body" or the property of "living in", or "a class is a higher class and a certain class is a lower class". It may be an attribute indicating the relationship between the upper and lower levels of "class". As for the property name for identifying the property, the property name itself may or may not represent the meaning, as in the class name described above.
[概要(その2)]
情報処理装置は、ウエブページの情報を取得し、ナレッジデータベースを参照し、取得されたウエブページにおける主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページに関して、ナレッジデータベースにおいて、第4主エンティティに対して関連付けられるべき従属エンティティと同種の第4従属エンティティの抽出対象とするか否かを決定する。
[Overview (Part 2)]
The information processing device acquires the information of the web page, refers to the knowledge database, and the knowledge database with respect to the web page based on the degree to which the main entity and the dependent entity subordinate to the main entity in the acquired web page are included. In, it is determined whether or not the fourth dependent entity of the same type as the dependent entity to be associated with the fourth main entity is to be extracted.
<第1実施形態>
[構成]
図1は、情報処理システム1の機能構成の一例を示す図である。情報処理システム1は、例えば、端末装置10、一以上のホスト20(図では20-1~20-3)と、ナレッジデータベース装置30と、検索装置50と、収集装置100とを備える。端末装置10、ホスト20、および検索装置50は、ネットワークNWを介して互いに通信する。また、ナレッジデータベース30、検索装置50、および収集装置100は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えばWAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
<First Embodiment>
[Constitution]
FIG. 1 is a diagram showing an example of a functional configuration of the
端末装置10は、ユーザが利用する端末装置10である。端末装置10は、デスクトップ型端末装置や、ノートパソコンなどの可搬型端末装置、スマートフォン、タブレット型端末装置などである。ホスト20は、いわゆるウエブページを提供しているウエブサーバである。
The
ナレッジデータベース装置30は、例えば、所定のデータ(例えば、画像やテキストデータ)に基づいてナレッジデータベース42を生成したり、後述するナレッジパネルを提供したりするサーバである。
The
ナレッジデータベース装置30の記憶部40には、ナレッジデータベース42が記憶されている。図2は、ナレッジデータベース42の一部を模式的に示す図である。図2に示すように、エンティティには、エンティティ識別情報(例えば「E1~E7」)と、エンティティ名(例えば「A水族館」など)と、クラス(例えば「CL01」)と、不図示の当該エンティティに関連する情報とが関連付けられている。また、エンティティ間の関係を示すエッジには、プロパティが関連付けられている。図2の例では、例えばプロパティとして、公式サイトや、住所、営業時間などが関連付けられている。
The
なお、本実施形態では、図2のE2~E7をエンティティとして表現しているが、これらの情報は、単にエンティティE1に関連付けられた情報であってもよい。 In the present embodiment, E2 to E7 in FIG. 2 are represented as an entity, but these information may be simply information associated with the entity E1.
図3は、ナレッジデータベース装置30が端末装置10に提供するナレッジパネルの一例を示す図である。例えば、ユーザが端末装置10を操作して、ポータルサイトなどの検索窓にクエリを入力し、検索装置50にクエリに関する情報の検索を依頼すると、検索装置50は、検索対象の情報を参照して、クエリに応じた情報を検索する。また、検索装置50は、ナレッジデータベース装置30に、クエリに関連するナレッジパネルの提供を依頼する。
FIG. 3 is a diagram showing an example of a knowledge panel provided by the
ナレッジデータベース装置30は、ナレッジデータベース42を参照して、クエリに応じた情報を取得し、取得した情報に基づいてナレッジパネルを生成し、生成したナレッジパネルを検索装置50に提供する。検索装置50は、検索結果とナレッジパネルとを含む画像の元データを生成し、生成した情報を端末装置10に提供する。例えば、クエリ「A水族館」が検索クエリである場合、図3に示すように、A水族館に関するウエブページの一覧と、A水族館のナレッジパネルNPとを含む画像が、ユーザの端末装置10の表示部に表示される。
The
なお、以下の説明では、エンティティE1「A水族館」などのようにナレッジパネルにおいて主題となるようなエンティティを「主エンティティ」と称し、エンティティE2~E7のように主題を補足する情報や主題に付随する情報(営業時間や住所、公式サイト等)のエンティティを「従属エンティティ」と称する場合がある。 In the following description, an entity such as Entity E1 "A Aquarium" which is the subject in the knowledge panel is referred to as "Main Entity", and is attached to information or the subject which supplements the subject such as Entity E2 to E7. The entity of the information (business hours, address, official website, etc.) may be referred to as a "subordinate entity".
図1の説明に戻る。ナレッジデータベース装置30は、例えば、通信部22と、情報管理部24と、情報処理部26と、記憶部40を備える。通信部22は、ネットワークインターフェースカード(Network Interface Card)等の通信インターフェースを含む。情報管理部24は、ナレッジデータベース装置30で生成された情報を他装置に提供したり、他装置から提供された情報を管理したりする。情報処理部26は、検索装置50の依頼に応じてナレッジパネルを生成したり、収集装置100により提供された情報を用いてナレッジデータベース42を更新したりする。
Returning to the description of FIG. The
[収集装置]
収集装置100は、例えば、通信部102と、収集部104と、決定部106と、対象情報取得部108と、認識部110と、抽出部112と、特定部114と、提供部116と、記憶部130を備える。収集部104、決定部106、対象情報取得部108、認識部110、抽出部112、特定部114、および提供部116は、CPU(Central Processing Unit)等のハードウェアプロセッサが、記憶装置に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体が収集装置100のドライブ装置に装着されることで記憶装置にインストールされてもよい。
[Collection device]
The
記憶部130は、例えば、ROM(Read Only Memory)、フラッシュメモリ、SDカード、RAM(Random Access Memory)、HDD(Hard Disc Drive)、レジスタ等によって実現される。また、記憶部130の一部または全部は、NAS(Network Attached Storage)や外部ストレージサーバ装置等であってもよい。記憶部130には、例えば、収集情報132、エンティティ情報134、判定情報136、および抽出情報138が記憶されている。これらの情報の詳細については後述する。
The
通信部102は、ネットワークNWを介して、ホスト20、ナレッジデータベース装置30または検索装置50と通信する。通信部102は、例えば、NIC(Network Interface Card)等の通信インターフェースを含む。
The
収集部104は、所定のプロトコルに従って、ホスト20から情報を収集し、収集した情報を収集情報132として記憶部130に記憶させる。また、例えば、収集部104は、各ホスト20から少量のページ(以下、サンプリングウエブページ)を収集し、収集したサンプリングウエブページを収集情報132として記憶部130に記憶させる。
The collecting
決定部106は、ナレッジデータベース42を参照し、収集部104により取得されたウエブページ(例えばサンプリングウエブページ)において主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、当該ウエブページの提供元のホスト20を、サンプリングウエブページ以外の未収集のウエブページを優先的に収集する対象とするか否かを決定する。
The
対象情報取得部108は、収集情報132からウエブページの情報を取得する。
The target information acquisition unit 108 acquires web page information from the collected
認識部110は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベース42を参照し、対象情報取得部108により取得されたウエブページにおいて、ナレッジデータベース42に含まれる第1主エンティティと、第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識する。
The
抽出部112は、ウエブページにおいて、ナレッジデータベース42に含まれ、関連付けられるべき第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ第1表現パターンに合致する第2表現パターンを抽出する。
On the web page, the
特定部114は、第1表現パターンにおける第1主エンティティと第1従属エンティティとの相対関係に基づいて、抽出部112により抽出された第2表現パターンにおいて、第2従属エンティティを特定する。
The
提供部116は、ナレッジデータベース42を拡充するために第2表現パターンに基づく情報をナレッジデータベース装置30に提供する。
The providing
以下、ナレッジパネルで提供する情報を拡充するための処理について説明する。 Hereinafter, the process for expanding the information provided by the knowledge panel will be described.
[フローチャート(その1)]
図4は、収集装置100の決定部106により実行される処理の流れの一例を示すフローチャートである。処理の詳細については、後述する図5~図7を参照して説明する。
[Flowchart (1)]
FIG. 4 is a flowchart showing an example of the flow of processing executed by the
まず、決定部106が、収集情報132のうち、同一のホストにより提供される一以上のサンプリングウエブページを選択する(S10)。次に、決定部106は、エンティティ情報134を参照し、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択する(S12)。エンティティ情報134は、ナレッジデータベース42と同様の情報、或いは前述した図2で示したようなナレッジデータベース42の一部の情報である。
First, the
次に、決定部106は、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定する(S14)。次に、決定部106は、判定結果を判定情報136として記憶部130に記憶させる(S16)。
Next, the
次に、決定部106は、すべての、エンティティとエンティティとの組み合わせを選択したか否かを判定する(S18)。すべての組み合わせを選択していない場合、ステップS12の処理に戻る。
Next, the
すべての組み合わせを選択した場合、決定部106は、すべてのサンプリングウエブページの情報を選択したか否かを判定する(S20)。すべてのサンプリングウエブページの情報を選択していない場合、ステップS10の処理に戻る。
When all combinations are selected, the
すべてのサンプリングウエブページの情報を選択した場合、決定部106は、判定結果である判定情報136に基づいて、深堀対象のホスト20を決定する(S22)。次に、収集部104が、決定された深堀対象であるホスト20において、収集していないウエブページ(サンプリングウエブページ以外のウエブページ)を収集し、収集した情報を収集情報132として記憶部130に記憶させる(S24)。すなわち、収集部104は、少量の収集結果から決定した有用なホスト(深堀対象のホスト)を深堀する深堀処理を行う。これにより本フローチャートの処理は終了する。
When the information of all the sampling web pages is selected, the
なお、収集部104は、所定のタイミングで、深堀対象とされなかったホスト20からも、このホスト20が有し、且つ未収集の情報を収集し、収集した情報を収集情報132として記憶部130に記憶させる。
The collecting
また、上述したフローチャートの例では、決定部106が、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択し(S12)、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定するものとしたが、これに代えて、以下のように処理が行われてもよい。
(1)決定部106が、抽出対象のエンティティ(例えば、後述する図5、6のC美術館)を列挙する。
(2)決定部106が、サンプリングウエブページに、抽出対象のエンティティが含まれているか否かを判定する。
(3)抽出対象のエンティティが含まれている場合、決定部106は、ナレッジデータベース42に含まれる、ウエブページに含まれていたエンティティ(例えば、図5、6のAミュージアム、B博物館)と抽出対象のプロパティ(例えば、図5、6の公式サイト)で関連付けられていたエンティティ(例えば、図5、6のAミュージアム、B博物館の公式サイト)を列挙する。
(4)決定部106が、抽出対象のプロパティで関連付けられたエンティティが当該ウエブページに含まれているか否かを判定する処理を行う。そして、決定部106は、判定結果に基づいて、当該ウエブページの提供元のホスト20を深堀対象とするか否かを決定する。
Further, in the above-mentioned flowchart example, the
(1) The
(2) The
(3) When the entity to be extracted is included, the
(4) The
図5は、S10で選択されたサンプリングウエブページの情報の一例を示す図である。例えば、サンプリングウエブページにおいて、観光地の名称と、観光地のURLとが含まれているものとする。例えば、サンプリングウエブページにおいて「Aミュージアム」、「URL001」、「B博物館」、「URL002」、「C美術館」、および「URL003」が含まれている。 FIG. 5 is a diagram showing an example of information on the sampling web page selected in S10. For example, it is assumed that the name of the tourist spot and the URL of the tourist spot are included in the sampling web page. For example, the sampling web page includes "A Museum", "URL001", "B Museum", "URL002", "C Museum", and "URL003".
図6は、エンティティ情報134に含まれるエンティティの組み合わせの一例を示す図である。例えば、「Aミュージアム」と「URL001」とがプロパティ「公式サイト」で関連付けられ、「B博物館」と「URL002」とがプロパティ「公式サイト」で関連付けられている。そして、エンティティ情報134には、エンティティ「C美術館」が含まれるが、「C美術館」には「URL003」は関連付けられていない。施設のURL(プロパティ)という関係に基づいて、施設の名称「Aミュージアム(第1主エンティティ))が「URL001(第1従属エンティティ)」に関連付けられている場合、施設のURL(プロパティ)という関係に基づいて、「URL002(第2従属エンティティ)」が関連付けられていない施設の名称「C美術館」は、「第2主エンティティ」の一例である。
FIG. 6 is a diagram showing an example of a combination of entities included in the
図7は、判定情報136の内容の一例を示す図である。判定情報136は、ホストIDに対して、エンティティの組み合わせ、スコア、および深堀対象とするか否かの判定結果を示す情報が互いに関連付けられた情報である。前述した図3のフローチャートのS12~S18の処理において、「Aミュージアム」と「URL001」との組み合わせ、および「B博物館」と「URL002」との組み合わせは、選択されたサンプリングウエブページの情報に含まれていると判定される。決定部106は、例えば、上述したように2つの組み合わせがサンプリングウエブページの情報に含まれる場合、スコア「2」と決定する。例えば、決定部106は、スコア「2」以上のサンプリングウエブページを提供したホスト20を深堀対象のホストとして決定する。
FIG. 7 is a diagram showing an example of the contents of the
上述したように、深堀対象のホスト20が決定され、深堀対象のホスト20に対して優先的に深堀処理が行われる。これにより、有用なホスト20が有する情報が優先的に収集される。 As described above, the host 20 to be deep-drilled is determined, and the deep-drilling process is preferentially performed for the host 20 to be deep-drilled. As a result, the information possessed by the useful host 20 is preferentially collected.
[フローチャート(その2)]
図8は、収集装置100により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。本フローチャートは、特定エンティティに対して、所定のプロパティで関連付けられるべきエンティティを特定する処理である。特定エンティティとは、関連付けられるべきエンティティ(第2従属エンティティ)が関連付けられていないエンティティ(第2主エンティティ)である。上述した例では、C美術館が特定エンティティに該当する。C美術館に対して、関連付けられるべきエンティティ「URL***」が関連付けられていないためである。処理の詳細については、後述する図9~図11を参照して説明する。
[Flowchart (Part 2)]
FIG. 8 is a flowchart showing an example of the flow of the unknown information extraction process executed by the
まず、収集装置100の対象情報取得部108が、収集情報132に含まれるウエブページを取得する(S100)。
First, the target information acquisition unit 108 of the
次に、認識部110が、取得したウエブページ(以下、対象ウエブページ)において、プロパティで関連付けられたエンティティとエンティティとの組み合わせを含む第1記述パターン(第1表現パターン)を認識する(S102)。エンティティとエンティティとの組み合わせは、例えば、特定エンティティと同一のクラスのエンティティ(例えば施設)と、特定エンティティに対して関連付けられるべきエンティティのクラスを有するエンティティ(例えば施設のURL)との組み合わせである。
Next, the
次に、認識部110は、認識した第1記述パターンに基づいて、エンティティの組み合わせの相対位置を特定する(S104)。次に、認識部110は、S100で取得した対象ウエブページから、特定エンティティを含み、且つ認識した第1記述パターンに合致する第2記述パターン(第2表現パターン)を抽出する(S106)。
Next, the
次に、特定部114が、第2記述パターンにおいて、S104で特定した第1記述パターンの相対位置に対応する相対位置を特定する(S108)。次に、特定部114が、特定した相対位置に関連付けられた情報のうち、特定エンティティが記述された位置(第1位置)とは異なる位置(第2位置)に関連付けられた情報を抽出し、抽出した情報を抽出情報138として記憶部130に記憶させる(S110)。抽出情報138は、特定エンティティと、本処理により抽出された特定エンティティに対して、所定のプロパティによって関連付けられるエンティティとが互いに関連付けられた情報である。
Next, the specifying
次に、認識部110は、すべての処理対象のウエブページの情報を選択したか否かを判定する(S112)。すべての処理対象のウエブページの情報を選択していない場合、S100の処理に戻る。すべての処理対象のウエブページ情報を選択した場合、提供部116が、抽出情報138をナレッジデータベース装置30に送信する(S114)。これにより本フローチャートの1ルーチンの処理は終了する。
Next, the
なお、処理対象のウエブページは、上述したように収集情報132に含まれるすべてのウエブページであってもよいし、設定されたウエブページであってもよい。また、処理対象のウエブページは、深堀対象のホスト20から取得されたウエブページであってもよい。また、決定部106が、ナレッジデータベース42を参照し、収集部104により取得されたウエブページにおいて主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページ(またはホスト20)を抽出部112の処理対象とするか否かを決定してもよい。
The web page to be processed may be all the web pages included in the collected
図9は、認識部110が記述パターンを認識する処理について説明するための図(その1)である。図10は、認識部110が記述パターンを認識する処理について説明するための図(その2)である。例えば、図9に示すように、認識部110は、対象ウエブページのHTML(Hyper Text Markup Language)などのソースコードを認識する。そして、図10に示すように、認識部110は、ナレッジデータベース42に含まれるエンティティの組み合わせを含むソースコードの記述パターンAを認識する。
FIG. 9 is a diagram (No. 1) for explaining the process of recognizing the description pattern by the
図示する例では、ソースコードは、「dt」、「span」、「dd」、「a」の順で並び、「span」の後にエンティティ「Aミュージアム」が関連付けられ、「a」に対してエンティティ「URL」が関連付けられている。エンティティ「Aミュージアム」とエンティティ「URL001」とは、ナレッジデータベース42おいて関連付けられたエンティティの組み合わせである。また、エンティティ「B博物館」についても同様である。
In the illustrated example, the source code is arranged in the order of "dt", "span", "dd", "a", and the entity "A museum" is associated after "span", and the entity is associated with "a". A "URL" is associated. The entity "A museum" and the entity "URL001" are a combination of the entities associated in the
この場合において、認識部110は、「span」の後にエンティティ「施設名」が関連付けられ、「a」に対してエンティティ「施設名のURL」が関連付けられていることを認識する。これにより、記述パターンにおける、エンティティの組み合わせの相対位置を特定される。「施設名」が付与されている位置は、「第1位置」の一例であり、「施設名のURL」が付与されている位置は、「第2位置」の一例である。
In this case, the
認識部110は、上記のような記述パターンAに合致する記述パターンを抽出する。合致する記述パターンは、ソースコードが、「dt」、「span」、「dd」、「a」の順で並び、「span」の後にナレッジデータベース42に含まれる施設のエンティティが関連付けられているパターンである。例えば、認識部110は、「span」の後にエンティティ「C美術館」が関連付けられた記述パターンAを認識する。そして、特定部114が、エンティティの組み合わせの相対位置に基づいて、「a」に対してエンティティ「C美術館のURL003」が関連付けられていることを特定する。
The
上記処理をまとめると、図11に示すように表すことができる。収集装置100は、記述パターン「dt」、「span」、「dd」、「a」を認識し、「span」の後にエンティティ「施設名」が関連付けられ、「a」にエンティティ「施設名のURL」が関連付けられていることを認識する。そして、収集装置100は、ナレッジデータベース42において、エンティティ「URL」が関連付けられていないエンティティである施設名「C美術館」のURLは、記述パターンAの「a」に関連付けられていると認識する。
The above processes can be summarized as shown in FIG. The collecting
このように、収集装置100は、エンティティの組み合わせを含む言語の階層構造である記述パターンに基づいて、未知の情報である特定エンティティに対して関連付けられる情報を特定することができる。換言すると、特定部114は、第1表現パターンにおける所定の位置(例えば、第1主エンティティまたは「dt」)から第1従属エンティティに至るまでの階層構造における特定経路(「dt」→「span」→「dd」→「a」)を特定し、第2表現パターンにおいて、特定経路を辿って第2従属エンティティを特定することができる。
In this way, the collecting
図12は、更新前のナレッジデータベース42の内容の一例を示す図である。ナレッジデータベース42において、「C美術館」のURLは、エンティティ「C美術館」に対して関連付けられていない。
FIG. 12 is a diagram showing an example of the contents of the
図13は、更新後のナレッジデータベース42の内容の一例を示す図である。ナレッジデータベース装置30が、「C美術館」の「URL」を収集装置100から取得すると、ナレッジデータベース装置30は、エンティティ「C美術館」に対して、収集装置100から送信されたURLを関連付ける。
FIG. 13 is a diagram showing an example of the contents of the
図14は、更新前のナレッジデータベース42に基づいて生成されたナレッジパネルNP1の一例を示す図である。ユーザが、検索クエリ「C美術館」を入力した場合、ナレッジデータベース装置30は、エンティティ「C美術館」に対して、URLが関連付けられていないため、ナレッジパネルにおいて、URLを含めることができない。
FIG. 14 is a diagram showing an example of the knowledge panel NP1 generated based on the
これに対して、更新後のナレッジデータベース42に基づいてナレッジパネルが生成された場合、図15に示すようにナレッジデータベース装置30は、エンティティ「C美術館」に対して、URLが関連付けられているため、ナレッジパネルNP2において、URLを含めることができる。
On the other hand, when the knowledge panel is generated based on the updated
このように、ナレッジデータベース装置30が、更新されたナレッジデータベース42を用いることにより、より有益な情報をユーザに提供することができる。
In this way, the
なお、上述した例は、ソースコードの表現パターンに基づいて、処理が行われるものとして説明したが、これに代えて(或いは加えて)、画像のパターンに基づいて、特定エンティティに対して関連付けられるべき情報が特定されてもよい。例えば、特定部114は、画像における施設名が表示された位置とURLが表示された位置に基づいて、ナレッジデータベース42においてURLの情報が関連付けられていない施設のURLを特定してもよい。
In the above example, the processing is described as being performed based on the expression pattern of the source code, but instead (or in addition), it is associated with a specific entity based on the pattern of the image. The information to be used may be specified. For example, the specifying
以上説明した第1実施形態によれば、収集装置100が、対象ウエブページにおいて、ナレッジデータベース42に含まれる第1主エンティティと、第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識し、対象ウエブページにおいて、ナレッジデータベース42に含まれ、関連付けられるべき第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ第1表現パターンに合致する第2表現パターンに基づく情報を、ナレッジデータベース42を拡充するためにナレッジデータベース装置30に提供することにより、より効率的に有用な情報を取得することができる。
According to the first embodiment described above, the
<第2実施形態>
以下、第2実施形態について説明する。第2実施形態では、収集装置100Aが、抽出したエンティティに対する信頼度を導出し、導出した信頼度が閾値以上のエンティティをナレッジデータベース装置30に提供する。以下、第1実施形態との相違点について説明する。
<Second Embodiment>
Hereinafter, the second embodiment will be described. In the second embodiment, the
図16は、第2実施形態の情報処理システム1Aの収集装置100Aの機能構成の一例を示す図である。収集装置100Aは、収集装置100の機能構成に加え、信頼度導出部115を備える。また、収集装置100Aは、記憶部130に代えて、記憶部130Aを備える。記憶部130Aには、記憶部130に記憶される情報に加え、更に信頼度付抽出情報140が記憶されている。
FIG. 16 is a diagram showing an example of the functional configuration of the
信頼度導出部115は、例えば、複数の対象ウエブページから同じファクトが得られた場合、複数の対象ウエブページの情報に基づいて、フォクトの信頼度を導出する。ファクトとは、ナレッジデータベース42のエンティティの組み合わせが含まれているという事実である。例えば、信頼度導出部115は、ウエブページにおける既知のエンティティの組み合わせの割合に基づいて、信頼度である統合スコアを導出し、導出した統合スコアと抽出情報138とを合わせて信頼度付抽出情報140を生成する。そして、信頼度導出部115は、統合スコアが閾値以上のエンティティの組み合わせをナレッジデータベース装置30に提供することを決定する。
For example, when the same fact is obtained from a plurality of target web pages, the reliability derivation unit 115 derives the reliability of the foct based on the information of the plurality of target web pages. The fact is the fact that it contains a combination of entities in the
図17は、信頼度付抽出情報140の内容の一例を示す図である。信頼度付抽出情報140は、対象ウエブページに含まれるエンティティの組み合わせと、その組み合わせがナレッジデータベース42において既知であるか、未知であるかを示す情報と、対象ウエブページにおいてエンティティの組み合わせが既知の割合、および統合スコアが互いに関連付けられた情報である。例えば、信頼度導出部115は、対象ウエブページに含まれるエンティティの組み合わせがナレッジデータベース42において既知であるか、未知あるかを判定し、判定結果に基づいて、エンティティの組み合わせに対する既知のエンティティの組み合わせの割合を導出する。
FIG. 17 is a diagram showing an example of the contents of the
そして、信頼度導出部115は、所定のモデルに、対象ウエブページごとに導出した既知の割合を適用して、統合スコアを導出する。所定のモデルとは、例えば、式(1)である。式(1)の「x」は、ホストID「001」のホスト20から収集された第1対象ウエブページにおける既知の割合であり、「y」は、ホストID「002」のホスト20から収集された第2対象ウエブページにおける既知の割合である。「α」は、任意に設定されるパラメータ(例えば「0.1」)である。 Then, the reliability derivation unit 115 applies a known ratio derived for each target web page to a predetermined model to derive an integrated score. The predetermined model is, for example, the equation (1). "X" in the formula (1) is a known ratio in the first target web page collected from the host 20 of the host ID "001", and "y" is collected from the host 20 of the host ID "002". It is a known ratio in the second target web page. “Α” is an arbitrarily set parameter (for example, “0.1”).
図18は、既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。図18に示すように式(1)は、「x」、「y」の両方の既知の割合が高い場合、統合スコアは高い傾向に導出され、「x」、「y」の両方の既知の割合が低い場合、統合スコアは高い傾向に導出される関数である。 FIG. 18 is a diagram showing an example of the tendency of the integrated score for each combination of known ratios. As shown in FIG. 18, in equation (1), when the known proportions of both "x" and "y" are high, the integration score tends to be high, and both "x" and "y" are known. If the percentage is low, the integration score is a function that tends to be high.
このように、信頼度導出部115が、第1ウエブページと第2ウエブページとの既知の割合に基づいて、統合スコアを導出することにより、より精度よく統合スコアを導出することができる。 In this way, the reliability deriving unit 115 can derive the integrated score more accurately by deriving the integrated score based on the known ratio between the first web page and the second web page.
以上説明した第2実施形態によれば、収集装置100が、第1ウエブページにおいて、ナレッジデータベース42に含まれる、主エンティティと主エンティティに従属する従属エンティティとが特定の相対関係を有するように表現された表現パターンと、ナレッジデータベース42に含まれる主エンティティと、ナレッジデータベース42において主エンティティに従属していない非従属エンティティとが特定の相対関係を有するように表現された表現パターンとの比率、および、第2ウエブページにおいて、ナレッジデータベース42に含まれる、主エンティティと主エンティティに従属する従属エンティティとが特定の相対関係を有するように表現された表現パターンと、ナレッジデータベースに含まれる主エンティティと、ナレッジデータベースにおいて主エンティティに従属していない非従属エンティティとが特定の相対関係を有するように表現された表現パターンとの比率に基づいて、非従属エンティティをナレッジデータベース42の拡充するための情報とするか否かを判定することにより、より精度よくナレッジデータベースを拡充するための情報を分別することができる。
According to the second embodiment described above, the collecting
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
1‥情報処理システム、10‥端末装置、20‥ホスト、30‥ナレッジデータベース装置、42‥ナレッジデータベース、100,100A‥収集装置、102‥通信部、104‥収集部、106‥決定部、108‥対象情報取得部、110‥認識部、112‥抽出部、114‥特定部、115‥信頼度導出部、116‥提供部、130、130A‥記憶部、134‥エンティティ情報、136‥判定情報、138‥抽出情報、140‥信頼度付抽出情報 1 Information processing system, 10 Terminal device, 20 Host, 30 Knowledge database device, 42 Knowledge database, 100, 100A Collection device, 102 Communication unit, 104 Collection unit, 106 Decision unit, 108 ... Target information acquisition unit, 110 recognition unit, 112 extraction unit, 114 specific unit, 115 reliability derivation unit, 116 provision unit, 130, 130A storage unit, 134 entity information, 136 judgment information, 138 ‥ Extraction information, 140 ‥ Extraction information with reliability
Claims (12)
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記取得部により取得されたウエブページにおいて、前記ナレッジデータベースに含まれる第1主エンティティと、前記第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識する認識部と、
前記ウエブページにおいて、前記ナレッジデータベースに含まれる第2主エンティティであって前記第1従属エンティティと同種の第2従属エンティティであり前記第2主エンティティに関連付けられるべき前記第2従属エンティティが関連付けられてない前記第2主エンティティを含み、且つ前記第1表現パターンのうち前記第1主エンティティが前記第2主エンティティに置換されたものに類似する第2表現パターンを抽出する抽出部と、
前記ナレッジデータベースを拡充するために前記第2表現パターンに基づく情報を前記ナレッジデータベースに提供する提供部と、
を備える情報処理装置。 The acquisition department that acquires information on the web page,
A knowledge database containing a plurality of entities and relationship information between the entities is referred to, and in the web page acquired by the acquisition unit, the first main entity included in the knowledge database and subordinate to the first main entity. A recognition unit that recognizes the first expression pattern, which is an expression including the first dependent entity,
In the web page, the second dependent entity that is the second primary entity included in the knowledge database and is the same kind of second dependent entity as the first dependent entity and should be associated with the second primary entity is associated with it. An extraction unit that includes the second main entity and extracts a second expression pattern similar to the first expression pattern in which the first main entity is replaced with the second main entity .
A providing unit that provides information based on the second expression pattern to the knowledge database in order to expand the knowledge database.
Information processing device equipped with.
請求項1に記載の情報処理装置。 The recognition unit recognizes the first expression pattern on one or more web pages provided by the same host.
The information processing apparatus according to claim 1.
請求項1または2に記載の情報処理装置。 The first expression pattern and the second expression pattern are description patterns of the language used for generating a web page.
The information processing apparatus according to claim 1 or 2.
請求項1から3のうちいずれか1項に情報処理装置。 In the second expression pattern extracted by the extraction unit based on the relative relationship between the first main entity and the first dependent entity in the first expression pattern, the specific unit that specifies the second dependent entity is designated. Further prepare
The information processing device according to any one of claims 1 to 3.
前記特定部は、前記第1記述パターンにおける前記第1主エンティティの第1位置、前記第1記述パターンにおける前記第1従属エンティティの第2位置、および前記第2記述パターンにおける前記第2主エンティティの第1位置に基づいて、前記第2記述パターンにおける第2位置を特定し、前記第2位置に記述された情報を第2従属エンティティと特定する、
請求項4に記載の情報処理装置。 The first description pattern of the language used to generate the web page, which is the first expression pattern, and the second description pattern of the language, which is the second expression pattern, are similar.
The specific part is the first position of the first main entity in the first description pattern, the second position of the first dependent entity in the first description pattern, and the second main entity in the second description pattern. Based on the first position, the second position in the second description pattern is specified, and the information described in the second position is specified as the second dependent entity.
The information processing apparatus according to claim 4.
請求項3に情報処理装置。 The description pattern is a hierarchical structure of the language.
The information processing device according to claim 3.
請求項6に情報処理装置。 The specific route in the hierarchical structure up to the first dependent entity in the first expression pattern is specified, and in the second expression pattern extracted by the extraction unit, the specific route is traced from the second main entity to the said. It has a specific part that identifies the second dependent entity,
The information processing apparatus according to claim 6.
前記抽出部は、前記ウエブページにおいて、前記ナレッジデータベースに含まれる前記第2主エンティティであって前記第1従属エンティティおよび第3従属エンティティと同種の前記第2従属エンティティであり前記第2主エンティティに関連付けられるべき前記第2従属エンティティが付けられていない前記第2主エンティティを含み、且つ前記第1表現パターンおよび第3表現パターンのうち前記第1主エンティティおよび前記第3主エンティティが前記第2主エンティティに置換されたものに類似する第2表現パターンを抽出し、
前記第1表現パターンにおける前記第1主エンティティと前記第1従属エンティティとの相対関係、および前記第3表現パターンにおける前記第3主エンティティと前記第3従属エンティティとの相対関係に基づいて、前記抽出部により抽出された第2表現パターンにおいて、前記第2従属エンティティを特定する特定部を更に備える、
請求項1から7のうちいずれか1項に記載の情報処理装置。 The recognition unit recognizes a third expression pattern, which is an expression including a third main entity included in the knowledge database and a third dependent entity subordinate to the third main entity, on the web page.
In the web page, the extraction unit is the second main entity included in the knowledge database, the second subordinate entity of the same type as the first subordinate entity and the third subordinate entity, and the second main entity. The first main entity and the third main entity among the first expression pattern and the third expression pattern include the second main entity to which the second subordinate entity to be associated with is not attached, and the second is the second . Extract the second expression pattern similar to the one replaced by the main entity ,
The extraction is based on the relative relationship between the first main entity and the first dependent entity in the first expression pattern, and the relative relationship between the third main entity and the third dependent entity in the third expression pattern. In the second expression pattern extracted by the unit, a specific unit that identifies the second dependent entity is further provided.
The information processing apparatus according to any one of claims 1 to 7.
前記第1ウエブページにおいて、前記ナレッジデータベースに含まれる主エンティティと前記ナレッジデータベースにおいて前記主エンティティに従属する従属エンティティであって前記主エンティティと前記従属エンティティとが特定の相対関係を有するように表現された表現パターンと、前記ナレッジデータベースに含まれる主エンティティと、前記ナレッジデータベースにおいて前記主エンティティに従属していない非従属エンティティとが特定の相対関係を有するように表現された表現パターンとの比率、および、
前記第2ウエブページにおいて、前記ナレッジデータベースに含まれる主エンティティと前記ナレッジデータベースにおいて前記主エンティティに従属する従属エンティティであって前記主エンティティと前記従属エンティティとが特定の相対関係を有するように表現された表現パターンと、前記ナレッジデータベースに含まれる主エンティティと、前記ナレッジデータベースにおいて前記主エンティティに従属していない非従属エンティティとが特定の相対関係を有するように表現された表現パターンとの比率に基づいて、前記非従属エンティティを前記ナレッジデータベースの拡充するための情報とするか否かを判定する判定部を、更に備える、
請求項1から8のうちいずれか1項に記載の情報処理装置。 The acquisition unit acquires the first web page and the second web page, and obtains them.
In the first web page, the main entity included in the knowledge database and the dependent entity subordinate to the main entity in the knowledge database are expressed so that the main entity and the subordinate entity have a specific relative relationship. The ratio of the expressed expression pattern to the expression pattern in which the main entity included in the knowledge database and the non-dependent entity that is not dependent on the main entity in the knowledge database are expressed so as to have a specific relative relationship. and,
In the second web page, the main entity included in the knowledge database and the dependent entity subordinate to the main entity in the knowledge database are expressed so that the main entity and the dependent entity have a specific relative relationship. Based on the ratio of the expression pattern that is expressed so that the main entity included in the knowledge database and the non-dependent entity that is not dependent on the main entity in the knowledge database have a specific relative relationship. Further, a determination unit for determining whether or not the non-dependent entity is used as information for expanding the knowledge database is further provided.
The information processing apparatus according to any one of claims 1 to 8.
請求項1から9のうちいずれか1項に記載の情報処理装置。 Whether to make the web page a processing target of the extraction unit based on the degree to which the main entity and the dependent entity subordinate to the main entity are included in the web page acquired by the acquisition unit with reference to the knowledge database. Further equipped with a decision unit for deciding whether or not to do so,
The information processing apparatus according to any one of claims 1 to 9.
ウエブページの情報を取得し、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、
前記取得されたウエブページにおいて、前記ナレッジデータベースに含まれる第1主エンティティと、前記第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識し、
前記ウエブページにおいて、前記ナレッジデータベースに含まれる第2主エンティティであって前記第1従属エンティティと同種の第2従属エンティティであり前記第2主エンティティに関連付けられるべき前記第2従属エンティティが関連付けられてない前記第2主エンティティを含み、且つ前記第1表現パターンのうち前記第1主エンティティが前記第2主エンティティに置換されたものに類似する第2表現パターンを抽出し、
前記ナレッジデータベースを拡充するために前記第2表現パターンに基づく情報を前記ナレッジデータベースに提供する、
情報処理方法。 The computer
Get the information on the web page and
Refer to the knowledge database containing multiple entities and relationship information between the entities.
In the acquired web page, the first expression pattern, which is an expression including the first main entity included in the knowledge database and the first dependent entity subordinate to the first main entity, is recognized.
In the web page, the second dependent entity that is the second primary entity included in the knowledge database and is the same kind of second dependent entity as the first dependent entity and should be associated with the second primary entity is associated with it. A second expression pattern that includes the second main entity and is similar to the first expression pattern in which the first main entity is replaced with the second main entity is extracted.
Information based on the second expression pattern is provided to the knowledge database in order to expand the knowledge database.
Information processing method.
ウエブページの情報を取得させ、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照させ、
前記取得されたウエブページにおいて、前記ナレッジデータベースに含まれる第1主エンティティと、前記第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識させ、
前記ウエブページにおいて、前記ナレッジデータベースに含まれる第2主エンティティであって前記第1従属エンティティと同種の第2従属エンティティであり前記第2主エンティティに関連付けられるべき前記第2従属エンティティが関連付けられてない前記第2主エンティティを含み、且つ前記第1表現パターンのうち前記第1主エンティティが前記第2主エンティティに置換されたものに類似する第2表現パターンを抽出させ、
前記ナレッジデータベースを拡充するために前記第2表現パターンに基づく情報を前記ナレッジデータベースに提供させる、
プログラム。 On the computer
Get the information on the web page,
Refer to a knowledge database containing multiple entities and relationship information between the entities.
In the acquired web page, the first expression pattern, which is an expression including the first main entity included in the knowledge database and the first dependent entity subordinate to the first main entity, is recognized.
In the web page, the second dependent entity that is the second primary entity included in the knowledge database and is the same kind of second dependent entity as the first dependent entity and should be associated with the second primary entity is associated with it. A second expression pattern that includes the second main entity and is similar to the first expression pattern in which the first main entity is replaced with the second main entity is extracted.
In order to expand the knowledge database, the knowledge database is provided with information based on the second expression pattern.
program.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018174410A JP6998282B2 (en) | 2018-09-19 | 2018-09-19 | Information processing equipment, information processing methods, and programs |
JP2021093524A JP2021192232A (en) | 2018-09-19 | 2021-06-03 | Information processing device, information processing system, information processing method, and program |
JP2022170801A JP7434493B2 (en) | 2018-09-19 | 2022-10-25 | Information processing device, information processing system, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018174410A JP6998282B2 (en) | 2018-09-19 | 2018-09-19 | Information processing equipment, information processing methods, and programs |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021093524A Division JP2021192232A (en) | 2018-09-19 | 2021-06-03 | Information processing device, information processing system, information processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020046896A JP2020046896A (en) | 2020-03-26 |
JP6998282B2 true JP6998282B2 (en) | 2022-01-18 |
Family
ID=69899761
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018174410A Active JP6998282B2 (en) | 2018-09-19 | 2018-09-19 | Information processing equipment, information processing methods, and programs |
JP2021093524A Pending JP2021192232A (en) | 2018-09-19 | 2021-06-03 | Information processing device, information processing system, information processing method, and program |
JP2022170801A Active JP7434493B2 (en) | 2018-09-19 | 2022-10-25 | Information processing device, information processing system, information processing method, and program |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021093524A Pending JP2021192232A (en) | 2018-09-19 | 2021-06-03 | Information processing device, information processing system, information processing method, and program |
JP2022170801A Active JP7434493B2 (en) | 2018-09-19 | 2022-10-25 | Information processing device, information processing system, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (3) | JP6998282B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132793A2 (en) | 2005-05-31 | 2006-12-14 | Google Inc. | Learning facts from semi-structured text |
WO2011105606A1 (en) | 2010-02-26 | 2011-09-01 | 楽天株式会社 | Information processing device, information processing method, program for information processing device, and recording medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3725836B2 (en) | 2002-04-10 | 2005-12-14 | 株式会社東芝 | Knowledge information collecting system and knowledge information collecting method |
US20060179024A1 (en) * | 2005-02-04 | 2006-08-10 | Bechtel Michael E | Knowledge discovery tool extraction and integration |
KR101636477B1 (en) * | 2014-11-28 | 2016-07-06 | (주)아이와즈 | Human-like Knowledge Expansion and Verification System Using Structured Knowledge Information and Document Crwaling, Method, Recording Medium |
-
2018
- 2018-09-19 JP JP2018174410A patent/JP6998282B2/en active Active
-
2021
- 2021-06-03 JP JP2021093524A patent/JP2021192232A/en active Pending
-
2022
- 2022-10-25 JP JP2022170801A patent/JP7434493B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132793A2 (en) | 2005-05-31 | 2006-12-14 | Google Inc. | Learning facts from semi-structured text |
US20060293879A1 (en) | 2005-05-31 | 2006-12-28 | Shubin Zhao | Learning facts from semi-structured text |
WO2011105606A1 (en) | 2010-02-26 | 2011-09-01 | 楽天株式会社 | Information processing device, information processing method, program for information processing device, and recording medium |
Non-Patent Citations (1)
Title |
---|
吉永直樹ほか,Webからの具体物の属性・属性値情報の自動獲得,言語処理学会第13回年次大会発表論文集,言語処理学会,2007年03月19日,pp.887-890 |
Also Published As
Publication number | Publication date |
---|---|
JP7434493B2 (en) | 2024-02-20 |
JP2022191487A (en) | 2022-12-27 |
JP2021192232A (en) | 2021-12-16 |
JP2020046896A (en) | 2020-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6906419B2 (en) | Information providing equipment, information providing method, and program | |
US20170255693A1 (en) | Providing images for search queries | |
JP2015062117A (en) | Entity linkage method and entity linkage device | |
WO2017177809A1 (en) | Word segmentation method and system for language text | |
US9542474B2 (en) | Forensic system, forensic method, and forensic program | |
JP2014112433A (en) | Device and method for search result ordering using reliability of representative | |
CN112818200A (en) | Data crawling and event analyzing method and system based on static website | |
CN105243120A (en) | Retrieval method and apparatus | |
CN113806647A (en) | Method for identifying development framework and related equipment | |
JP6998282B2 (en) | Information processing equipment, information processing methods, and programs | |
JP6145562B2 (en) | Information structuring system and information structuring method | |
JP2016045552A (en) | Feature extraction program, feature extraction method, and feature extraction device | |
JP7197531B2 (en) | Information processing device, information processing system, information processing method, and program | |
JP7003020B2 (en) | Information processing equipment, information processing methods, and programs | |
JP6982520B2 (en) | Information processing equipment, information processing methods, and programs | |
US9990444B2 (en) | Apparatus and method for supporting visualization of connection relationship | |
JP6971104B2 (en) | Information processing equipment, information processing methods, and programs | |
JP6749865B2 (en) | INFORMATION COLLECTION DEVICE AND INFORMATION COLLECTION METHOD | |
JP5394512B2 (en) | Teacher data generation apparatus, method, and program | |
JP7078569B2 (en) | Information processing equipment, information processing methods, and programs | |
JP6578679B2 (en) | Image processing apparatus and program | |
JP2020042545A (en) | Information processing device, information processing method, and program | |
JP6971209B2 (en) | Information processing equipment, information processing methods, and programs | |
JP7354019B2 (en) | Information processing device, information processing method, and program | |
JP6985189B2 (en) | Data collection equipment, data collection methods, and programs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200313 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6998282 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |