JP6727097B2 - Information processing apparatus, information processing method, and program - Google Patents

Information processing apparatus, information processing method, and program Download PDF

Info

Publication number
JP6727097B2
JP6727097B2 JP2016207685A JP2016207685A JP6727097B2 JP 6727097 B2 JP6727097 B2 JP 6727097B2 JP 2016207685 A JP2016207685 A JP 2016207685A JP 2016207685 A JP2016207685 A JP 2016207685A JP 6727097 B2 JP6727097 B2 JP 6727097B2
Authority
JP
Japan
Prior art keywords
data
entity
image data
unit
extraction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016207685A
Other languages
Japanese (ja)
Other versions
JP2018072873A (en
Inventor
翔悟 湯浅
翔悟 湯浅
直彦 横田
直彦 横田
マナサ プリヤ コデュリ
マナサ プリヤ コデュリ
モヒト アガルワル
モヒト アガルワル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016207685A priority Critical patent/JP6727097B2/en
Publication of JP2018072873A publication Critical patent/JP2018072873A/en
Application granted granted Critical
Publication of JP6727097B2 publication Critical patent/JP6727097B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.

従来、ウェブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。クローラは、ウェブページ中のリンクを辿って、様々なIPアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。 BACKGROUND ART Conventionally, there is known a crawler that collects data (documents, images, etc.) from the web and automatically converts the collected data into a database (see Patent Document 1). Crawlers follow the links in web pages to collect data from web pages at various IP addresses. The data collected by the crawler is stored in the web information database.

一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページの情報をウェブ情報データベースから取得する。また、検索エンジンは、取得したウェブページの情報の一覧を検索結果として出力する。 On the other hand, when the search engine receives the search word input by the user, the search engine acquires the information of the web page related to the received search word from the web information database. Further, the search engine outputs a list of the acquired web page information as a search result.

特開2012−69171号公報JP 2012-69171 A

ユーザ満足度を向上させるため、検索エンジンは、ユーザによって入力された検索ワードに関連する画像を、検索結果とともに出力することが考えられる。このためには、ウェブから収集した画像と、この画像に関連するワードを示すエンティティとを関連付けたデータベースを予め準備する必要がある。 In order to improve user satisfaction, a search engine may output an image associated with a search word input by a user together with a search result. For this purpose, it is necessary to prepare in advance a database that associates the images collected from the web with the entities indicating the words related to the images.

しかしながら、特許文献1に開示されたクローラは、ウェブから収集した画像に関連するエンティティを、自動的に判別することができなかった。このため、特許文献1に開示されたクローラは、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができなかった。 However, the crawler disclosed in Patent Document 1 could not automatically identify the entity related to the image collected from the web. Therefore, the crawler disclosed in Patent Document 1 cannot automatically generate a database in which images collected from the web are associated with entities related to the images.

本発明は、このような事情を考慮してなされたものであり、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができる情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and an information processing apparatus and information capable of automatically generating a database in which images collected from the web and entities related to the images are associated with each other. One of the purposes is to provide a processing method and a program.

本発明の一態様は、画像データおよびテキストデータを含むページデータを収集する収集部と、前記ページデータに含まれる前記テキストデータから、前記ページデータに含まれる前記画像データに関連するエンティティを抽出するエンティティ抽出部と、前記ページデータに含まれる前記画像データから、データ収集対象となり得る所定の特徴を抽出する特徴抽出部と、前記特徴抽出部によって前記所定の特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部と、を備える情報処理装置である。 According to an aspect of the present invention, a collection unit that collects page data including image data and text data, and an entity related to the image data included in the page data is extracted from the text data included in the page data. An entity extraction unit, a feature extraction unit that extracts a predetermined feature that can be a data collection target from the image data included in the page data, and if the predetermined feature is extracted by the feature extraction unit, the An information processing device, comprising: a generation unit that generates knowledge data associated with the location information of the image data.

本発明の一態様によれば、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができる。 According to one aspect of the present invention, it is possible to automatically generate a database associating images collected from the web with entities related to the images.

第1の実施形態に係るナレッジデータサーバ100の使用環境を示す図である。It is a figure which shows the usage environment of the knowledge data server 100 which concerns on 1st Embodiment. 第1の実施形態に係る端末装置200の表示部210に表示される検索結果ページの一例を示す図である。It is a figure which shows an example of the search result page displayed on the display part 210 of the terminal device 200 which concerns on 1st Embodiment. 第1の実施形態に係るナレッジデータ生成部120の詳細な構成を示すブロック図である。It is a block diagram which shows the detailed structure of the knowledge data production|generation part 120 which concerns on 1st Embodiment. 第1の実施形態に係るカテゴリーデータD1の一例を示す図である。It is a figure which shows an example of the category data D1 which concerns on 1st Embodiment. 第1の実施形態に係るナレッジデータD2の一例を示す図である。It is a figure which shows an example of the knowledge data D2 which concerns on 1st Embodiment. 第1の実施形態に係るエンティティEに関連付けられる画像の候補の一例を示す図である。It is a figure which shows an example of the candidate of the image linked|related with the entity E which concerns on 1st Embodiment. 第1の実施形態に係るエンティティEに関連付けられた画像の一例を示す図である。It is a figure which shows an example of the image linked|related with the entity E which concerns on 1st Embodiment. 第1の実施形態に係るナレッジデータ生成処理を示すフローチャートである。It is a flow chart which shows knowledge data generation processing concerning a 1st embodiment. 第2の実施形態に係るエンティティEに関連付けられる画像の候補の一例を示す図である。It is a figure which shows an example of the candidate of the image linked|related with the entity E which concerns on 2nd Embodiment. 第2の実施形態に係るベクトルデータの分布の一例を示す図である。It is a figure which shows an example of distribution of the vector data which concerns on 2nd Embodiment. 実施形態に係るナレッジデータサーバ100のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the knowledge data server 100 which concerns on embodiment.

以下、図面を参照して、情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。本実施形態においては、情報処理装置の一例として、ナレッジデータサーバについて説明する。ナレッジデータサーバは、例えば、画像データおよびテキストデータを含むページデータを収集し、収集したデータに基づいてナレッジデータを生成するサーバである。ナレッジデータは、エンティティと、このエンティティに関連する画像データの所在情報とが関連付けられたデータである。エンティティとは、ウェブから収集した画像データに関連するワードを示すデータである。所在情報とは、例えば、ウェブ上の位置を特定するためのURL(Uniform Resource Locator)である。以下、実施形態について詳細に説明する。 Embodiments of an information processing device, an information processing method, and a program will be described below with reference to the drawings. In the present embodiment, a knowledge data server will be described as an example of an information processing device. The knowledge data server is, for example, a server that collects page data including image data and text data and generates knowledge data based on the collected data. Knowledge data is data in which an entity and the location information of image data related to this entity are associated with each other. An entity is data that indicates words related to image data collected from the web. The location information is, for example, a URL (Uniform Resource Locator) for specifying a position on the web. Hereinafter, embodiments will be described in detail.

<1.第1の実施形態>
<1−1.ナレッジデータサーバの使用環境>
図1は、第1の実施形態に係るナレッジデータサーバ100の使用環境を示す図である。ナレッジデータサーバ100は、収集部110と、ナレッジデータ生成部120と、第1記憶部130と、第2記憶部140と、所在情報取得部150とを備える。
<1. First Embodiment>
<1-1. Knowledge Data Server Usage Environment>
FIG. 1 is a diagram showing a usage environment of the knowledge data server 100 according to the first embodiment. The knowledge data server 100 includes a collection unit 110, a knowledge data generation unit 120, a first storage unit 130, a second storage unit 140, and a location information acquisition unit 150.

収集部110、ナレッジデータ生成部120、および所在情報取得部150は、例えば、ナレッジデータサーバ100のプロセッサがプログラムを実行することで実現されてもよいし、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。 The collection unit 110, the knowledge data generation unit 120, and the location information acquisition unit 150 may be realized by, for example, a processor of the knowledge data server 100 executing a program, an LSI (Large Scale Integration), an ASIC (Application). It may be realized by hardware such as a specific integrated circuit) or FPGA (Field-Programmable Gate Array), or may be realized by cooperation between software and hardware.

第1記憶部130および第2記憶部140は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、第1記憶部130および第2記憶部140の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ナレッジデータサーバ100がアクセス可能な外部装置であってもよい。 The first storage unit 130 and the second storage unit 140 are, for example, a RAM (Random Access Memory), a ROM (Read Only Memory), a HDD (Hard Disk Drive), a flash memory, or a hybrid type in which a plurality of these are combined. It is realized by a storage device or the like. Further, part or all of the first storage unit 130 and the second storage unit 140 may be an external device accessible by the knowledge data server 100, such as a NAS (Network Attached Storage) or an external storage server.

収集部110は、画像データおよびHTML(HyperText Markup Language)データを含むページデータをウェブWから収集するクローラである。ここで、ページデータは、ウェブW上にあり、ブラウザで閲覧可能なページ単位のデータである。なお、ページデータは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。ウェブWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。HTMLデータは、HTMLのソースを示すテキストデータである。 The collection unit 110 is a crawler that collects page data including image data and HTML (HyperText Markup Language) data from the web W. Here, the page data is data in page units that are on the web W and can be browsed by a browser. The page data is not limited to the browser and may be data reproduced by an application program. The web W means the World Wide Web, and is a system that uses an HTML document or the like that is standardly used on the Internet or an intranet. The HTML data is text data indicating an HTML source.

収集部110は、収集したページデータに含まれるHTMLデータからリンク先のURL(所在情報)を取得し、取得したURLにアクセスして更にページデータを収集する。この処理を繰り返すことにより、収集部110は、ページデータを収集する対象のIPアドレスを広げることができる。収集部110は、収集したページデータをナレッジデータ生成部120に出力する。 The collection unit 110 acquires the URL (location information) of the link destination from the HTML data included in the collected page data, accesses the acquired URL, and further collects the page data. By repeating this processing, the collection unit 110 can widen the IP address of the target for collecting the page data. The collection unit 110 outputs the collected page data to the knowledge data generation unit 120.

ナレッジデータ生成部120は、収集部110から入力されたページデータに含まれるHTMLデータから、ページデータに含まれる画像データに関連するエンティティを抽出する。エンティティとは、画像データに関連するワードを示す情報である。また、ナレッジデータ生成部120は、抽出したエンティティに画像データのURLが関連付けられたナレッジデータを生成し、生成したナレッジデータを第2記憶部140に記憶する。これによって、ナレッジデータ生成部120は、収集部110によって収集されたページデータを用いて、ナレッジデータを自動的に生成することができる。 The knowledge data generation unit 120 extracts the entity related to the image data included in the page data from the HTML data included in the page data input from the collection unit 110. An entity is information indicating a word related to image data. Further, the knowledge data generation unit 120 generates knowledge data in which the URL of the image data is associated with the extracted entity, and stores the generated knowledge data in the second storage unit 140. As a result, the knowledge data generation unit 120 can automatically generate knowledge data using the page data collected by the collection unit 110.

詳細は後述するが、ナレッジデータ生成部120は、抽出したエンティティに対応するカテゴリーデータを第1記憶部130から読み出し、読み出したカテゴリーデータに基づいて、ナレッジデータを生成するか否かを判定する。また、ナレッジデータ生成部120は、IPアドレスごとのエンティティの数に基づき、ページデータを収集するIPアドレスの優先順位を決定する。その後、ナレッジデータ生成部120は、決定した優先順位を示すフィードバックデータを収集部110に出力する。 Although details will be described later, the knowledge data generation unit 120 reads out category data corresponding to the extracted entity from the first storage unit 130, and determines whether to generate knowledge data based on the read out category data. Further, the knowledge data generation unit 120 determines the priority order of IP addresses for collecting page data based on the number of entities for each IP address. Then, the knowledge data generation unit 120 outputs feedback data indicating the determined priority order to the collection unit 110.

収集部110は、ナレッジデータ生成部120から入力されたフィードバックデータによって示される優先順位に従って、ウェブWからページデータを収集する。これによって、多くのエンティティが含まれるIPアドレスから優先的にページデータが収集されるため、エンティティを効率的に抽出することができる。 The collection unit 110 collects page data from the web W according to the priority order indicated by the feedback data input from the knowledge data generation unit 120. As a result, page data is preferentially collected from IP addresses including many entities, so that the entities can be efficiently extracted.

一方、端末装置200とウェブサーバ300は、ネットワークを介して通信可能に接続されており、ナレッジデータサーバ100とウェブサーバ300は、ネットワークを介して通信可能に接続されている。端末装置200は、ユーザによって使用される装置であり、例えば、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータ、またはスマートフォンである。ウェブサーバ300は、検索エンジンを用いて検索結果を表示するための検索結果ページ情報を生成するサーバである。 On the other hand, the terminal device 200 and the web server 300 are communicatively connected via a network, and the knowledge data server 100 and the web server 300 are communicatively connected via a network. The terminal device 200 is a device used by a user, and is, for example, a tablet computer, a notebook computer, a desktop computer, or a smartphone. The web server 300 is a server that generates search result page information for displaying a search result using a search engine.

ユーザは、端末装置200を用いて、端末装置200の表示部に表示された検索ページに検索クエリを入力する。検索クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力された検索クエリをウェブサーバ300に送信する。 The user uses the terminal device 200 to input a search query on the search page displayed on the display unit of the terminal device 200. The search query is one search word or a combination of a plurality of search words. The terminal device 200 transmits the search query input by the user to the web server 300.

ウェブサーバ300は、端末装置200から受信した検索クエリに基づいて、検索エンジンを用いて検索結果ページデータを生成する。このとき、ウェブサーバ300は、検索結果だけでなく、検索クエリに含まれるエンティティに関連する画像を検索結果ページデータに含める。 The web server 300 uses the search engine to generate search result page data based on the search query received from the terminal device 200. At this time, the web server 300 includes not only the search result but also the image related to the entity included in the search query in the search result page data.

<1−2.検索結果ページ>
図2は、第1の実施形態に係る端末装置200の表示部210に表示される検索結果ページの一例を示す図である。図2に示されるように、表示部210には、検索クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ページが表示される。ナレッジパネル220には、検索クエリに含まれるエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する情報223とが含まれる。
<1-2. Search result page>
FIG. 2 is a diagram showing an example of a search result page displayed on the display unit 210 of the terminal device 200 according to the first embodiment. As shown in FIG. 2, the display unit 210 displays a search result page including a search query input area 211, a knowledge panel 220, and a search result 230. The knowledge panel 220 includes an entity 221 included in the search query, an image 222 related to the entity 221, and information 223 related to the entity 221.

図2に示される例においては、検索クエリとして「女優A」が入力され、ナレッジパネル220には「女優A」に関連する画像や様々な情報が表示されている。このように、検索結果230だけでなく、ナレッジパネル220を表示部210に表示することで、検索結果に対するユーザ満足度を向上させることができる。 In the example shown in FIG. 2, “actress A” is input as the search query, and the knowledge panel 220 displays images and various information related to “actress A”. As described above, by displaying not only the search result 230 but also the knowledge panel 220 on the display unit 210, it is possible to improve user satisfaction with the search result.

検索結果ページにナレッジパネル220を表示するため、ウェブサーバ300は、検索クエリに含まれるエンティティに関連する画像を取得する必要がある。このため、ウェブサーバ300は、検索クエリに含まれるエンティティを、ナレッジデータサーバ100に送信する。 In order to display the knowledge panel 220 on the search result page, the web server 300 needs to obtain images related to the entities included in the search query. Therefore, the web server 300 sends the entities included in the search query to the knowledge data server 100.

前述したように、ナレッジデータサーバ100の第2記憶部140には、エンティティに画像データのURLが関連付けられたナレッジデータが記憶されている。所在情報取得部150は、第2記憶部140に記憶されたナレッジデータを参照して、ウェブサーバ300から受信したエンティティに対応する画像データのURLを取得する。その後、所在情報取得部150は、取得した画像データのURLをウェブサーバ300に送信する。 As described above, the second storage unit 140 of the knowledge data server 100 stores the knowledge data in which the URL of the image data is associated with the entity. The location information acquisition unit 150 refers to the knowledge data stored in the second storage unit 140 and acquires the URL of the image data corresponding to the entity received from the web server 300. After that, the location information acquisition unit 150 transmits the URL of the acquired image data to the web server 300.

このように、所在情報取得部150は、ウェブサーバ300からエンティティを受信した場合、受信したエンティティに関連付けられた画像データのURLを第2記憶部140から取得し、取得した画像データのURLをウェブサーバ300に送信する。これによって、ウェブサーバ300は、検索クエリに含まれるエンティティに関連する画像のURLを取得することができる。 As described above, when the location information acquisition unit 150 receives the entity from the web server 300, the location information acquisition unit 150 acquires the URL of the image data associated with the received entity from the second storage unit 140, and acquires the URL of the acquired image data from the web. It is transmitted to the server 300. Accordingly, the web server 300 can acquire the URL of the image related to the entity included in the search query.

ウェブサーバ300は、所在情報取得部150から受信した画像データのURLと、検索エンジンを用いて生成した検索結果とを用いて、検索結果ページデータを生成する。ウェブサーバ300は、生成した検索結果ページデータを端末装置200に送信する。端末装置200は、ウェブサーバ300から検索結果ページデータを受信すると、受信した検索結果ページデータを用いて検索結果ページ(図2)を表示部210に表示する。 The web server 300 uses the URL of the image data received from the location information acquisition unit 150 and the search result generated using the search engine to generate search result page data. The web server 300 transmits the generated search result page data to the terminal device 200. When the terminal device 200 receives the search result page data from the web server 300, the terminal device 200 displays the search result page (FIG. 2) on the display unit 210 using the received search result page data.

<1−3.ナレッジデータ生成部の処理>
図3は、第1の実施形態に係るナレッジデータ生成部120の詳細な構成を示すブロック図である。以下、図3を用いて、ナレッジデータ生成部120の具体的な処理について説明する。前述したように、画像データおよびHTMLデータを含むページデータが、ナレッジデータ生成部120に入力される。ナレッジデータ生成部120は、エンティティ抽出部121と、特徴抽出部122と、生成部123と、優先順位決定部124とを備える。
<1-3. Process of Knowledge Data Generation Unit>
FIG. 3 is a block diagram showing a detailed configuration of the knowledge data generation unit 120 according to the first embodiment. Hereinafter, a specific process of the knowledge data generation unit 120 will be described with reference to FIG. As described above, page data including image data and HTML data is input to the knowledge data generation unit 120. The knowledge data generation unit 120 includes an entity extraction unit 121, a feature extraction unit 122, a generation unit 123, and a priority order determination unit 124.

エンティティ抽出部121は、ページデータに含まれるHTMLデータから、画像データに関連するエンティティを抽出する。例えば、エンティティ抽出部121は、ページデータにおける画像データが埋め込まれた位置の周辺のテキストをHTMLデータから取得し、取得したテキストからエンティティを抽出する。エンティティ抽出部121は、抽出したエンティティおよびHTMLデータを生成部123に出力する。 The entity extraction unit 121 extracts the entity related to the image data from the HTML data included in the page data. For example, the entity extracting unit 121 acquires the text around the position where the image data is embedded in the page data from the HTML data, and extracts the entity from the acquired text. The entity extraction unit 121 outputs the extracted entity and HTML data to the generation unit 123.

なお、エンティティ抽出部121は、画像データが埋め込まれた位置の周辺のテキストからエンティティを抽出することとしたが、これに限られない。例えば、エンティティ抽出部121は、HTMLデータのタグに記載されているデータから、エンティティを抽出してもよい。 The entity extracting unit 121 extracts the entity from the text around the position where the image data is embedded, but the present invention is not limited to this. For example, the entity extracting unit 121 may extract the entity from the data described in the HTML data tag.

具体的には、エンティティ抽出部121は、imgタグのalt属性に記載されているデータからエンティティを抽出してもよい。imgタグの一例を、以下に示す。
<img src=“actress-a.jpg” alt=“映画のヒロイン役に抜擢された女優A” />
この場合、エンティティ抽出部121は、ファイル名が“actress-a.jpg”の画像に関連するエンティティとして、alt属性に記載されているデータから「女優A」を抽出する。
Specifically, the entity extracting unit 121 may extract the entity from the data described in the alt attribute of the img tag. An example of the img tag is shown below.
<img src=“actress-a.jpg” alt=“Actress A who has been selected as the heroine of the movie” />
In this case, the entity extracting unit 121 extracts “actress A” from the data described in the alt attribute as an entity related to the image with the file name “actress-a.jpg”.

また、エンティティ抽出部121は、OGP(Open Graph Protocol)のメタタグに記載されているデータからエンティティを抽出してもよい。OGPのメタタグの一例を、以下に示す。
<meta property=“og:title” content=“映画のヒロイン役に抜擢された女優A” />
<meta property=“og:image” content=“actress-a.jpg” />
この場合、エンティティ抽出部121は、プロパティが“og:image”のメタタグに記載されているファイル名が“actress-a.jpg”の画像に関連するエンティティとして、プロパティが“og:title”のメタタグに記載されているデータから「女優A」を抽出する。
Further, the entity extracting unit 121 may extract the entity from the data described in the meta tag of OGP (Open Graph Protocol). An example of the OGP meta tag is shown below.
<meta property=“og:title” content=“Actress A who has been selected as the heroine of the movie” />
<meta property=“og:image” content=“actress-a.jpg” />
In this case, the entity extraction unit 121 uses the meta tag with the property “og:title” as the entity related to the image with the file name “actress-a.jpg” described in the meta tag with the property “og:image”. "Actress A" is extracted from the data described in.

特徴抽出部122は、ページデータに含まれる画像データから特徴を抽出する。そして、特徴抽出部122は、抽出した特徴を示す特徴データを生成部123に出力する。例えば、画像データに人物像が含まれる場合、特徴抽出部122は、Viola−Jones法などの顔検出アルゴリズムを用いて、画像データから人の顔を抽出する。そして、特徴抽出部122は、人の顔を抽出したことを示すデータや、抽出した顔の数を示すデータを、特徴データとして生成部123に出力する。 The feature extraction unit 122 extracts features from the image data included in the page data. Then, the feature extraction unit 122 outputs the feature data indicating the extracted features to the generation unit 123. For example, when the image data includes a person image, the feature extraction unit 122 extracts a human face from the image data using a face detection algorithm such as the Viola-Jones method. Then, the feature extraction unit 122 outputs data indicating that a human face has been extracted and data indicating the number of extracted faces to the generation unit 123 as feature data.

図4は、第1の実施形態に係るカテゴリーデータD1の一例を示す図である。カテゴリーデータD1は、第1記憶部130に記憶されている。図4に示されるように、カテゴリーデータD1は、エンティティとカテゴリーとが関連付けられたデータである。例えば、エンティティ1が人物名である場合、エンティティ1は「人物」のカテゴリーに関連付けられる。エンティティ2が映画のタイトルである場合、エンティティ2は「映画」のカテゴリーに関連付けられる。エンティティnがドラマのタイトルである場合、エンティティnは「ドラマ」のカテゴリーに関連付けられる。なお、カテゴリーデータD1は、エンティティの種類に関連するカテゴリーに限らず、生成部123によって使用されるエンティティに関連する情報を含んでもよい。 FIG. 4 is a diagram showing an example of the category data D1 according to the first embodiment. The category data D1 is stored in the first storage unit 130. As shown in FIG. 4, the category data D1 is data in which an entity and a category are associated with each other. For example, if entity 1 is a person's name, then entity 1 is associated with the category "person." If entity 2 is the title of a movie, then entity 2 is associated with the category "movie". If entity n is a drama title, entity n is associated with the category "drama". The category data D1 is not limited to the category related to the type of entity, and may include information related to the entity used by the generation unit 123.

生成部123は、第1記憶部130に記憶されたカテゴリーデータD1を参照し、エンティティ抽出部121によって抽出されたエンティティに関連付けられたカテゴリーを取得する。また、生成部123は、画像データのURLをHTMLデータのタグ(imgタグまたはメタタグ)から取得する。 The generation unit 123 refers to the category data D1 stored in the first storage unit 130 and acquires the category associated with the entity extracted by the entity extraction unit 121. Further, the generation unit 123 acquires the URL of the image data from the HTML data tag (img tag or meta tag).

第1記憶部130から取得されたカテゴリーに関連する特徴が特徴抽出部122によって抽出された場合、生成部123は、エンティティ抽出部121によって抽出されたエンティティに画像データのURLを関連付けることで、ナレッジデータD2を生成する。生成部123は、生成したナレッジデータD2を第2記憶部140に記憶する。 When the feature extraction unit 122 extracts the feature related to the category acquired from the first storage unit 130, the generation unit 123 associates the entity extracted by the entity extraction unit 121 with the URL of the image data to generate the knowledge. Data D2 is generated. The generation unit 123 stores the generated knowledge data D2 in the second storage unit 140.

図5は、第1の実施形態に係るナレッジデータD2の一例を示す図である。図5に示されるように、ナレッジデータD2は、エンティティと画像データのURLとが関連付けられたデータである。ナレッジデータD2において、1つのエンティティに複数の画像データのURLが関連付けられていてもよく、1つの画像データのURLに複数のエンティティが関連付けられていてもよい。生成部123は、ナレッジデータD2を生成する度に、生成したナレッジデータD2を第2記憶部に蓄積していく。 FIG. 5 is a diagram showing an example of the knowledge data D2 according to the first embodiment. As shown in FIG. 5, the knowledge data D2 is data in which the entity and the URL of the image data are associated with each other. In the knowledge data D2, one entity may be associated with a plurality of URLs of image data, or one image data URL may be associated with a plurality of entities. The generation unit 123 accumulates the generated knowledge data D2 in the second storage unit every time the knowledge data D2 is generated.

例えば、エンティティ抽出部121によって抽出されたエンティティが人名であり、特徴抽出部122によって画像データから人の顔が一つだけ抽出された場合、生成部123は、特徴抽出部122によってエンティティに関連する特徴が抽出されたと判断する。この場合、生成部123は、エンティティ抽出部121によって抽出されたエンティティに、HTMLデータのタグ(imgタグまたはメタタグ)に記載されている画像データのURLを関連付けることで、ナレッジデータD2を生成する。 For example, when the entity extracted by the entity extraction unit 121 is a person's name, and the feature extraction unit 122 extracts only one human face from the image data, the generation unit 123 associates the entity with the feature extraction unit 122. Judge that the feature is extracted. In this case, the generation unit 123 generates the knowledge data D2 by associating the entity extracted by the entity extraction unit 121 with the URL of the image data described in the HTML data tag (img tag or meta tag).

なお、生成部123は、エンティティと、画像データのURLとを関連付けることによって、ナレッジデータD2を生成することとしたが、これに限られない。例えば、ナレッジデータ生成部120は、収集部110によって収集されたページデータに含まれる画像データを、第2記憶部140に記憶してもよい。この場合、生成部123は、エンティティと、第2記憶部140における画像データのアドレスとを関連付けることによって、ナレッジデータD2を生成してもよい。 The generating unit 123 generates the knowledge data D2 by associating the entity with the URL of the image data, but the invention is not limited to this. For example, the knowledge data generation unit 120 may store the image data included in the page data collected by the collection unit 110 in the second storage unit 140. In this case, the generation unit 123 may generate the knowledge data D2 by associating the entity with the address of the image data in the second storage unit 140.

図6は、第1の実施形態に係るエンティティEに関連付けられる画像の候補の一例を示す図である。図6に示されるように、画像IMG1は女優Aの画像であり、画像IMG2は女優Aおよび他の女性の画像であり、画像IMG3は女優Aの所有する車の画像である。このように、HTMLデータに含まれるテキストによっては、様々な種類の画像がエンティティEに関連付けられる候補の画像として取得される。 FIG. 6 is a diagram showing an example of image candidates associated with the entity E according to the first embodiment. As shown in FIG. 6, image IMG1 is an image of actress A, image IMG2 is an image of actress A and another woman, and image IMG3 is an image of a car owned by actress A. In this way, various types of images are acquired as candidate images associated with the entity E, depending on the text included in the HTML data.

図6に示される例において、エンティティEは人名であるため、生成部123は、特徴抽出部122によって人の顔が一つだけ抽出された画像を、エンティティEに関連付ける。具体的には、生成部123は、画像IMG1のURLをエンティティEに関連付ける。また、IMG2からは人の顔が2つ検出されるため、生成部123は、画像IMG2のURLをエンティティEに関連付けない。また、IMG3からは人の顔が検出されないため、生成部123は、画像IMG3のURLをエンティティEに関連付けない。 In the example shown in FIG. 6, since the entity E is a person's name, the generation unit 123 associates the image in which only one human face is extracted by the feature extraction unit 122 with the entity E. Specifically, the generation unit 123 associates the URL of the image IMG1 with the entity E. Further, since two human faces are detected from IMG2, the generation unit 123 does not associate the URL of the image IMG2 with the entity E. Further, since no human face is detected from IMG3, the generation unit 123 does not associate the URL of the image IMG3 with the entity E.

図7は、第1の実施形態に係るエンティティEに関連付けられた画像の一例を示す図である。図7に示されるように、エンティティEには、複数の画像IMG4からIMG6が関連付けられている。この場合、検索結果ページのナレッジパネル220(図2参照)に、どの画像を優先に表示するのかを決定する必要がある。 FIG. 7 is a diagram showing an example of an image associated with the entity E according to the first embodiment. As shown in FIG. 7, the entity E is associated with a plurality of images IMG4 to IMG6. In this case, it is necessary to determine which image should be preferentially displayed on the knowledge panel 220 (see FIG. 2) of the search result page.

このため、生成部123は、画像の解像度、種類、アスペクト比、ユーザによってクリックされた回数、またはこれらの組み合わせなどに基づいて、複数の画像IMG4からIMG6をランク付けしてもよい。また、最も高いランクが付与された画像を、検索結果ページのナレッジパネル220(図2参照)に表示してもよい。 Therefore, the generation unit 123 may rank the plurality of images IMG4 to IMG6 based on the resolution, type, aspect ratio of the images, the number of clicks by the user, a combination thereof, or the like. Further, the image with the highest rank may be displayed on the knowledge panel 220 (see FIG. 2) of the search result page.

一方、生成部123は、エンティティ抽出部121によって抽出されたエンティティの数を、画像データのIPアドレスごとに算出する。生成部123は、算出したIPアドレスごとのエンティティの数を、優先順位決定部124に出力する。優先順位決定部124は、生成部123から入力されたIPアドレスごとのエンティティの数に基づいて、収集部110がデータを収集するIPアドレスの優先順位を決定する。 On the other hand, the generation unit 123 calculates the number of entities extracted by the entity extraction unit 121 for each IP address of image data. The generation unit 123 outputs the calculated number of entities for each IP address to the priority order determination unit 124. The priority order determination unit 124 determines the priority order of the IP addresses for which the collection unit 110 collects data, based on the number of entities for each IP address input from the generation unit 123.

例えば、優先順位決定部124は、エンティティ抽出部121によって抽出されたエンティティの数が多いIPアドレスほど、優先順位を高くする。優先順位決定部124は、決定した優先順位を示すフィードバックデータを、収集部110に出力する。 For example, the priority order determination unit 124 increases the priority order for an IP address with a larger number of entities extracted by the entity extraction unit 121. The priority order determination unit 124 outputs feedback data indicating the determined priority order to the collection unit 110.

収集部110は、優先順位決定部124から入力されたフィードバックデータによって示される優先順位に従って、ウェブWからページデータを収集する。具体的には、収集部110は、優先順位の高いIPアドレスから順に、ページデータを収集する。これによって、多くのエンティティが含まれるIPアドレスから優先的にページデータが収集されるため、エンティティを効率的に抽出することができる。 The collection unit 110 collects page data from the web W according to the priority order indicated by the feedback data input from the priority order determination unit 124. Specifically, the collection unit 110 collects page data in order from the IP address with the highest priority. As a result, page data is preferentially collected from IP addresses including many entities, so that the entities can be efficiently extracted.

<1−4.ナレッジデータ生成処理のフローチャート>
図8は、第1の実施形態に係るナレッジデータ生成処理を示すフローチャートである。本フローチャートによる処理は、ナレッジデータサーバ100によって実行される。
<1-4. Flowchart of knowledge data generation process>
FIG. 8 is a flowchart showing the knowledge data generation process according to the first embodiment. The process according to this flowchart is executed by the knowledge data server 100.

まず、収集部110は、ウェブWからページデータを収集する(S10)。ページデータには、HTMLデータおよび画像データが含まれる。エンティティ抽出部121は、収集部110によって収集されたページデータに含まれるHTMLデータから、画像データに関連するエンティティを抽出する(S11)。 First, the collection unit 110 collects page data from the web W (S10). The page data includes HTML data and image data. The entity extracting unit 121 extracts the entity related to the image data from the HTML data included in the page data collected by the collecting unit 110 (S11).

特徴抽出部122は、画像データから特徴(例えば、人の顔)を抽出する(S12)。生成部123は、エンティティ抽出部121によって抽出されたエンティティに対応する特徴が抽出されたか否かを判定する(S13)。生成部123は、エンティティ抽出部121によって抽出されたエンティティに対応する特徴が抽出されていないと判定した場合、後述するS15に処理を進める。 The feature extraction unit 122 extracts a feature (for example, a human face) from the image data (S12). The generation unit 123 determines whether the features corresponding to the entities extracted by the entity extraction unit 121 have been extracted (S13). When the generation unit 123 determines that the feature corresponding to the entity extracted by the entity extraction unit 121 is not extracted, the process proceeds to S15 described below.

一方、生成部123は、エンティティ抽出部121によって抽出されたエンティティに対応する特徴が抽出されたと判定した場合、エンティティ抽出部121によって抽出されたエンティティに画像データのURLが関連付けられたナレッジデータを生成する(S14)。 On the other hand, when the generation unit 123 determines that the feature corresponding to the entity extracted by the entity extraction unit 121 is extracted, the generation unit 123 generates knowledge data in which the URL of the image data is associated with the entity extracted by the entity extraction unit 121. Yes (S14).

その後、生成部123は、収集部110によってページデータが収集された全IPアドレスに対してナレッジデータの生成が完了したか否かを判定する(S15)。生成部123は、全IPアドレスに対してナレッジデータの生成が完了していないと判定した場合、前述のS11に処理を戻す。 After that, the generation unit 123 determines whether the generation of the knowledge data has been completed for all the IP addresses for which the page data has been collected by the collection unit 110 (S15). When the generation unit 123 determines that the generation of knowledge data has not been completed for all IP addresses, the process returns to S11 described above.

一方、生成部123は、全IPアドレスに対してナレッジデータの生成が完了したと判定した場合、エンティティ抽出部121によって抽出されたエンティティの数を、画像データのIPアドレスごとに算出する。その後、優先順位決定部124は、生成部123によって算出されたIPアドレスごとのエンティティの数に基づき、収集部110がデータを収集するIPアドレスの優先順位を決定し(S16)、本フローチャートによる処理を終了する。 On the other hand, when the generation unit 123 determines that the generation of knowledge data has been completed for all IP addresses, the generation unit 123 calculates the number of entities extracted by the entity extraction unit 121 for each IP address of image data. After that, the priority order determination unit 124 determines the priority order of the IP addresses for which the collection unit 110 collects data based on the number of entities for each IP address calculated by the generation unit 123 (S16), and the process according to this flowchart To finish.

以上説明したように、収集部110は、画像データおよびHTMLデータを含むページデータを収集する。エンティティ抽出部121は、ページデータに含まれるHTMLデータから、ページデータに含まれる画像データに関連するエンティティを抽出する。特徴抽出部122は、ページデータに含まれる画像データから、データ収集対象となり得る所定の特徴を抽出する。特徴抽出部122によって所定の特徴が抽出された場合、生成部123は、エンティティに画像データのURLが関連付けられたナレッジデータD2を生成する。これによって、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができる。 As described above, the collection unit 110 collects page data including image data and HTML data. The entity extraction unit 121 extracts the entity related to the image data included in the page data from the HTML data included in the page data. The feature extraction unit 122 extracts a predetermined feature that can be a data collection target from the image data included in the page data. When the predetermined feature is extracted by the feature extraction unit 122, the generation unit 123 generates the knowledge data D2 in which the URL of the image data is associated with the entity. This allows a database to be automatically generated that associates images collected from the web with the entities associated with this image.

また、生成部123は、特徴抽出部122によって抽出された特徴(例えば、人の顔)に基づいてナレッジデータD2を生成するため、特徴抽出部122が画像データから特徴を抽出しない場合よりも、高精度にナレッジデータD2を生成することができる。 Further, since the generation unit 123 generates the knowledge data D2 based on the feature (for example, a human face) extracted by the feature extraction unit 122, the generation unit 123 can generate the knowledge data D2 more than when the feature extraction unit 122 does not extract the feature from the image data. Knowledge data D2 can be generated with high accuracy.

また、優先順位決定部124は、エンティティ抽出部121によって抽出された、画像データの属するIPアドレスごとのエンティティの数に基づいて、収集部110がデータを収集するIPアドレスの優先順位を決定する。これによって、多くのエンティティが含まれるIPアドレスから優先的にページデータが収集されるため、エンティティを効率的に抽出することができる。 In addition, the priority order determination unit 124 determines the priority order of the IP addresses for which the collection unit 110 collects data, based on the number of entities for each IP address to which the image data belongs extracted by the entity extraction unit 121. As a result, page data is preferentially collected from IP addresses including many entities, so that the entities can be efficiently extracted.

なお、優先順位決定部124は、画像データの属するIPアドレスごとのエンティティの数のみに基づいてIPアドレスの優先順位を決定することとしたが、これに限られない。例えば、優先順位決定部124は、画像データに関連するエンティティの数に加えて、ページの信頼性を考慮して優先順位を決定してもよい。 The priority order determination unit 124 determines the priority order of the IP addresses based on only the number of entities for each IP address to which the image data belongs, but the present invention is not limited to this. For example, the priority order determination unit 124 may determine the priority order in consideration of the reliability of the page in addition to the number of entities related to the image data.

<2.第2の実施形態>
<2−1.ナレッジデータサーバの使用環境>
第1の実施形態においては、特徴抽出部122は、収集部110から入力された画像データに対して画像処理(例えば、Viola−Jones法などの顔検出処理)を行うことにより、特徴を抽出することとした。これに対し、第2の実施形態において、特徴抽出部122は、収集部110から入力された画像データを特徴量表現に変換することとする。本実施形態においては、特徴量表現の一例としてベクトルデータを使用する。画像データから変換された特徴量表現を用いることで、例えば、人名のエンティティに、同姓同名の他人の画像が関連付けられることを防止することができる。以下、第2の実施形態について詳細に説明する。
<2. Second Embodiment>
<2-1. Knowledge Data Server Usage Environment>
In the first embodiment, the feature extraction unit 122 extracts features by performing image processing (for example, face detection processing such as the Viola-Jones method) on the image data input from the collection unit 110. I decided. On the other hand, in the second embodiment, the feature extraction unit 122 converts the image data input from the collection unit 110 into a feature amount expression. In this embodiment, vector data is used as an example of the feature amount expression. By using the feature amount expression converted from the image data, it is possible to prevent, for example, an entity of a person's name from being associated with an image of another person with the same surname. Hereinafter, the second embodiment will be described in detail.

図9は、第2の実施形態に係るエンティティEに関連付けられる画像の候補の一例を示す図である。図9に示されるように、画像IMG7は女優Aの画像であり、画像IMG8も女優Aの画像であり、画像IMG9は女優Aと同姓同名のBさんの画像である。このように、女優Aとは異なるBさんの画像が、女優Aを示すエンティティEに関連付けられる候補の画像として取得される場合がある。このため、Bさんの画像IMG9を、女優Aを示すエンティティEに関連付けないようにする必要がある。 FIG. 9 is a diagram illustrating an example of image candidates associated with the entity E according to the second embodiment. As shown in FIG. 9, the image IMG7 is an image of the actress A, the image IMG8 is also an image of the actress A, and the image IMG9 is an image of Mr. B who has the same surname and the same name as the actress A. In this way, the image of Mr. B who is different from the actress A may be acquired as a candidate image associated with the entity E indicating the actress A. Therefore, it is necessary not to associate the image IMG9 of Mr. B with the entity E indicating the actress A.

そこで、特徴抽出部122は、収集部110から入力された画像データを、Auto−Encoder等の変換器を用いて多次元のベクトルデータ(特徴量表現)に変換する。特徴抽出部122は、変換したベクトルデータを生成部123に出力する。 Therefore, the feature extraction unit 122 converts the image data input from the collection unit 110 into multidimensional vector data (feature amount expression) using a converter such as Auto-Encoder. The feature extraction unit 122 outputs the converted vector data to the generation unit 123.

図10は、第2の実施形態に係るベクトルデータの分布の一例を示す図である。ここでは、説明を容易にするために、各画像データが2次元のベクトルデータ(x,y)に変換された例について説明する。図10において、横軸はベクトルデータのxの値を示し、縦軸はベクトルデータのyの値を示す。 FIG. 10 is a diagram showing an example of the distribution of vector data according to the second embodiment. Here, for ease of explanation, an example in which each image data is converted into two-dimensional vector data (x, y) will be described. In FIG. 10, the horizontal axis represents the x value of the vector data, and the vertical axis represents the y value of the vector data.

生成部123は、特徴抽出部122から入力されたベクトルデータを、複数のクラスタC1またはC2に分類する。図10に示される例においては、クラスタC1に分類されたベクトルデータの方が、クラスタC2に分類されたベクトルデータよりも多い。女優Aの方がBさんよりも有名であるため、ウェブW上の画像の数は、女優Aの方がBさんよりも多いと考えられる。このため、クラスタC1に属するベクトルデータが、女優Aの画像データに対応するベクトルデータであると考えられる。 The generation unit 123 classifies the vector data input from the feature extraction unit 122 into a plurality of clusters C1 or C2. In the example shown in FIG. 10, the vector data classified into the cluster C1 is larger than the vector data classified into the cluster C2. Since actress A is more famous than Mr. B, it is considered that actress A has more images on Mr. B than Mr. B. Therefore, the vector data belonging to the cluster C1 is considered to be the vector data corresponding to the image data of the actress A.

このため、生成部123は、最もデータ数の多いクラスタC1に属するベクトルデータに対応する画像データのURLをエンティティEに関連付けることで、ナレッジデータD2を生成する。一方、生成部123は、クラスタC2に属するベクトルデータに対応する画像データのURLを、エンティティEに関連付けない。 Therefore, the generation unit 123 generates the knowledge data D2 by associating the URL of the image data corresponding to the vector data belonging to the cluster C1 having the largest number of data with the entity E. On the other hand, the generation unit 123 does not associate the URL of the image data corresponding to the vector data belonging to the cluster C2 with the entity E.

以上説明したように、特徴抽出部122は、ページデータに含まれる画像データをベクトルデータに変換する。生成部123は、特徴抽出部122によって変換されたベクトルデータを複数のクラスタC1またはC2に分類する。生成部123は、最もデータ数の多いクラスタに属するベクトルデータに対応する画像データのURLをエンティティEに関連付けることで、ナレッジデータD2を生成する。これによって、エンティティEに対して強い関連性のある画像データのURLを、画像データに関連付けることができる。例えば、本実施形態によれば、人名のエンティティに、同姓同名の他人の画像が関連付けられることを防止することができる。 As described above, the feature extraction unit 122 converts the image data included in the page data into vector data. The generation unit 123 classifies the vector data converted by the feature extraction unit 122 into a plurality of clusters C1 or C2. The generation unit 123 generates the knowledge data D2 by associating the URL of the image data corresponding to the vector data belonging to the cluster having the largest number of data with the entity E. As a result, the URL of the image data having a strong association with the entity E can be associated with the image data. For example, according to the present embodiment, it is possible to prevent an entity of a person's name from being associated with an image of another person with the same surname.

また、生成部123は、特徴抽出部122によって生成された特徴量表現(ベクトルデータ)に基づいてナレッジデータD2を生成するため、特徴抽出部122が特徴量表現(ベクトルデータ)を生成しない場合よりも、高精度にナレッジデータD2を生成することができる。 Further, since the generation unit 123 generates the knowledge data D2 based on the feature amount expression (vector data) generated by the feature extraction unit 122, it is more than in the case where the feature extraction unit 122 does not generate the feature amount expression (vector data). Also, the knowledge data D2 can be generated with high accuracy.

なお、生成部123は、最もデータ数の多いクラスタC1に属するベクトルデータに対応する画像データのURLをエンティティEに関連付けることとしたが、これに限られない。例えば、生成部123は、各クラスタに属するベクトルデータごとにHTMLデータに含まれるワードを抽出し、抽出したワードに基づいて画像データのURLをエンティティEに関連付けるか否かを判別してもよい。例えば、クラスタC1に属するベクトルデータに対応するHMTLデータから「女優」や「映画」などのワードが多く抽出された場合、生成部123は、クラスタC1に属するベクトルデータが、女優Aの画像データに対応するベクトルデータであると判定し、クラスタC1に属するベクトルデータに対応する画像データのURLをエンティティEに関連付けてもよい。 Note that the generation unit 123 associates the URL of the image data corresponding to the vector data belonging to the cluster C1 having the largest number of data with the entity E, but the present invention is not limited to this. For example, the generation unit 123 may extract a word included in the HTML data for each vector data belonging to each cluster, and determine whether to associate the URL of the image data with the entity E based on the extracted word. For example, when many words such as “actress” and “movie” are extracted from the HMTL data corresponding to the vector data belonging to the cluster C1, the generation unit 123 determines that the vector data belonging to the cluster C1 becomes the image data of the actress A. The URL of the image data corresponding to the vector data belonging to the cluster C1 may be determined to be the corresponding vector data and associated with the entity E.

また、本実施形態において、特徴抽出部122は、画像データをベクトルデータに変換することとしたが、他の特徴量表現に変換してもよい。 Further, in the present embodiment, the feature extraction unit 122 converts the image data into vector data, but may convert into other feature amount expressions.

<3.ハードウェア構成>
図11は、実施形態に係るナレッジデータサーバ100のハードウェア構成の一例を示す図である。ナレッジデータサーバ100は、例えば、CPU160、RAM161、ROM162、フラッシュメモリやHDDなどの二次記憶装置163、NIC(Network Interface Card)164、ドライブ装置165、キーボード166、およびマウス167が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置165には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置163、またはドライブ装置165に装着された可搬型記憶媒体に記憶されたプログラムがDMA(Direct Memory Access)コントローラ(不図示)などによってRAM161に展開され、CPU160によって実行されることで、ナレッジデータサーバ100の機能部が実現される。
<3. Hardware configuration>
FIG. 11 is a diagram showing an example of the hardware configuration of the knowledge data server 100 according to the embodiment. In the knowledge data server 100, for example, a CPU 160, a RAM 161, a ROM 162, a secondary storage device 163 such as a flash memory or an HDD, a NIC (Network Interface Card) 164, a drive device 165, a keyboard 166, and a mouse 167 are used as an internal bus or a dedicated one. It is configured to be connected to each other by a communication line. A portable storage medium such as an optical disk is attached to the drive device 165. A program stored in a secondary storage device 163 or a portable storage medium mounted in the drive device 165 is expanded in the RAM 161 by a DMA (Direct Memory Access) controller (not shown) or the like, and executed by the CPU 160. The functional unit of the knowledge data server 100 is realized.

以上説明したように、実施形態のナレッジデータサーバ100は、収集部110と、エンティティ抽出部121と、特徴抽出部122と、生成部123とを備える。収集部110は、画像データおよびHTMLデータを含むページデータを収集する。エンティティ抽出部121は、ページデータに含まれるHTMLデータから、ページデータに含まれる画像データに関連するエンティティを抽出する。特徴抽出部122は、ページデータに含まれる画像データから、データ収集対象となり得る所定の特徴を抽出する。特徴抽出部122によって所定の特徴が抽出された場合、生成部123は、エンティティに画像データのURLが関連付けられたナレッジデータD2を生成する。これによって、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができる。 As described above, the knowledge data server 100 of the embodiment includes the collection unit 110, the entity extraction unit 121, the feature extraction unit 122, and the generation unit 123. The collection unit 110 collects page data including image data and HTML data. The entity extraction unit 121 extracts the entity related to the image data included in the page data from the HTML data included in the page data. The feature extraction unit 122 extracts a predetermined feature that can be a data collection target from the image data included in the page data. When the predetermined feature is extracted by the feature extraction unit 122, the generation unit 123 generates the knowledge data D2 in which the URL of the image data is associated with the entity. This allows a database to be automatically generated that associates images collected from the web with the entities associated with this image.

また、実施形態のナレッジデータサーバ100は、優先順位決定部124を更に備える。優先順位決定部124は、エンティティ抽出部121によって抽出された、画像データの属するIPアドレスごとのエンティティの数に基づいて、収集部110がデータを収集するIPアドレスの優先順位を決定する。これによって、多くのエンティティが含まれるIPアドレスから優先的にページデータが収集されるため、エンティティを効率的に抽出することができる。 Moreover, the knowledge data server 100 of the embodiment further includes a priority order determination unit 124. The priority order determination unit 124 determines the priority order of the IP addresses for which the collection unit 110 collects data, based on the number of entities for each IP address to which the image data belongs extracted by the entity extraction unit 121. As a result, page data is preferentially collected from IP addresses including many entities, so that the entities can be efficiently extracted.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 As described above, the embodiments for carrying out the present invention have been described using the embodiments, but the present invention is not limited to such embodiments, and various modifications and substitutions are made within the scope not departing from the gist of the present invention. Can be added.

100…ナレッジデータサーバ
110…収集部(クローラ)
120…ナレッジデータ生成部
121…エンティティ抽出部
122…特徴抽出部
123…生成部
124…優先順位決定部
130…第1記憶部
140…第2記憶部
150…所在情報取得部
200…端末装置
300…ウェブサーバ
100... Knowledge data server 110... Collection unit (crawler)
120... Knowledge data generation unit 121... Entity extraction unit 122... Feature extraction unit 123... Generation unit 124... Priority determination unit 130... First storage unit 140... Second storage unit 150... Location information acquisition unit 200... Terminal device 300... Web server

Claims (14)

画像データおよびテキストデータを含むページデータを収集する収集部と、
前記ページデータに含まれる前記テキストデータから、前記ページデータに含まれる前記画像データに関連するエンティティを抽出するエンティティ抽出部と、
前記ページデータに含まれる前記画像データから、データ収集対象となり得る所定の特徴を抽出する特徴抽出部と、
前記特徴抽出部によって前記所定の特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部と、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部と、
を備える情報処理装置。
A collection unit that collects page data including image data and text data,
From the text data included in the page data, an entity extraction unit that extracts an entity related to the image data included in the page data,
From the image data included in the page data, a feature extraction unit that extracts a predetermined feature that can be a data collection target,
When the predetermined feature is extracted by the feature extraction unit, a generation unit that generates knowledge data in which the location information of the image data is associated with the entity,
A priority order determination unit that determines the priority order of the IP addresses for which the collection unit collects data, based on the number of the entities for each IP address to which the image data belongs extracted by the entity extraction unit;
An information processing apparatus including.
前記生成部によって生成された前記ナレッジデータを記憶する記憶部と、
前記記憶部に記憶された前記ナレッジデータを参照して、前記画像データの所在情報を取得する所在情報取得部と、を更に備える
請求項1記載の情報処理装置。
A storage unit for storing the knowledge data generated by the generation unit,
The information processing apparatus according to claim 1, further comprising: a location information acquisition unit that acquires location information of the image data with reference to the knowledge data stored in the storage unit.
前記所在情報取得部は、外部装置からエンティティを受信した場合、受信した前記エンティティに関連付けられた画像データの所在情報を前記記憶部から取得し、取得した前記画像データの所在情報を前記外部装置に送信する
請求項2記載の情報処理装置。
When the location information acquisition unit receives an entity from an external device, the location information of the received image data associated with the entity is acquired from the storage unit, and the location information of the acquired image data is transferred to the external device. The information processing apparatus according to claim 2, which transmits.
前記エンティティ抽出部は、前記ページデータにおける前記画像データが埋め込まれた位置の周辺のテキストを前記テキストデータから取得し、取得した前記テキストから前記エンティティを抽出する
請求項1から3の何れか一項に記載の情報処理装置。
The said entity extraction part acquires the text around the position where the said image data was embedded in the said page data from the said text data, and extracts the said entity from the acquired said text. The information processing device according to 1.
前記テキストデータは、HTMLのソースを示すHTMLデータであり、
前記エンティティ抽出部は、前記HTMLデータのタグに記載されているデータから、前記エンティティを抽出する
請求項1から3の何れか一項に記載の情報処理装置。
The text data is HTML data indicating an HTML source,
The information processing apparatus according to claim 1, wherein the entity extraction unit extracts the entity from data described in a tag of the HTML data.
前記生成部は、前記エンティティ抽出部によって抽出された前記エンティティに、前記HTMLデータのタグに記載されている画像データの所在情報を関連付けることで、前記ナレッジデータを生成する
請求項5記載の情報処理装置。
The information processing according to claim 5, wherein the generation unit generates the knowledge data by associating the location information of the image data described in the HTML data tag with the entity extracted by the entity extraction unit. apparatus.
前記生成部は、前記エンティティ抽出部によって抽出された前記エンティティが人名であり、前記特徴抽出部によって画像データから人の顔が一つだけ抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられた前記ナレッジデータを生成する 請求項1記載の情報処理装置。 If the entity extracted by the entity extraction unit is a person's name and only one human face is extracted from the image data by the feature extraction unit, the generation unit may include location information of the image data in the entity. The information processing apparatus according to claim 1, wherein the associated knowledge data is generated. 前記特徴抽出部は、前記ページデータに含まれる前記画像データを特徴量表現に変換し、
前記生成部は、前記特徴抽出部によって変換された前記特徴量表現を複数のクラスタに分類し、最もデータ数の多いクラスタに属する特徴量表現に対応する画像データの所在情報を前記エンティティに関連付けることで、前記ナレッジデータを生成する
請求項1記載の情報処理装置。
The feature extraction unit converts the image data included in the page data into a feature amount expression,
The generation unit classifies the feature quantity expression converted by the feature extraction unit into a plurality of clusters, and associates with the entity the location information of image data corresponding to the feature quantity expression belonging to the cluster having the largest number of data. The information processing apparatus according to claim 1, wherein the knowledge data is generated by.
前記優先順位決定部は、前記エンティティ抽出部によって抽出された前記エンティティの数が多いIPアドレスほど、前記優先順位を高くする
請求項1から8の何れか一項に記載の情報処理装置。
The priority order determination unit increases the priority order as the number of the IP addresses extracted by the entity extraction unit increases.
The information processing apparatus according to any one of claims 1 to 8 .
画像データおよびテキストデータを含むページデータを収集する収集部と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部と、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部と、
を備える情報処理装置。
A collection unit that collects page data including image data and text data,
From the text data included in the page data, an entity extraction unit that extracts an entity related to the image data,
A priority order determination unit that determines the priority order of the IP addresses for which the collection unit collects data, based on the number of the entities for each IP address to which the image data belongs extracted by the entity extraction unit;
An information processing apparatus including.
コンピュータが、
画像データおよびテキストデータを含むページデータを収集する収集工程と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出工程と、
前記ページデータに含まれる前記画像データから特徴を抽出する特徴抽出工程と、
前記特徴抽出工程において前記エンティティに関連する特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成工程と、
を実行する情報処理方法であって、
前記エンティティ抽出工程において抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集工程においてデータを収集するIPアドレスの優先順位を決定する、
情報処理方法。
Computer
A collecting step for collecting page data including image data and text data,
An entity extraction step of extracting an entity related to the image data from the text data included in the page data,
A feature extraction step of extracting features from the image data included in the page data,
When a feature related to the entity is extracted in the feature extracting step, a generating step of generating knowledge data in which the location information of the image data is associated with the entity,
An information processing method for executing
Determining the priority order of the IP addresses for collecting the data in the collecting step based on the number of the entities for each IP address to which the image data belongs extracted in the entity extracting step.
Information processing method.
コンピュータが、
画像データおよびテキストデータを含むページデータを収集する収集工程と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出工程と、
前記エンティティ抽出工程において抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集工程においてデータを収集するIPアドレスの優先順位を決定する優先順位決定工程と、
実行する情報処理方法。
Computer
A collecting step for collecting page data including image data and text data,
An entity extraction step of extracting an entity related to the image data from the text data included in the page data,
A priority order determining step of determining a priority order of IP addresses for collecting data in the collecting step, based on the number of the entities for each IP address to which the image data belongs extracted in the entity extracting step;
Information processing method for executing .
コンピュータを、
画像データおよびテキストデータを含むページデータを収集する収集部、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部、
前記ページデータに含まれる前記画像データから特徴を抽出する特徴抽出部、
前記特徴抽出部によって前記エンティティに関連する特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部、
として機能させるためのプログラム。
Computer,
A collection unit that collects page data including image data and text data,
From the text data included in the page data, an entity extraction unit that extracts an entity related to the image data,
A feature extraction unit that extracts features from the image data included in the page data,
When a feature related to the entity is extracted by the feature extraction unit, a generation unit that generates knowledge data in which the location information of the image data is associated with the entity,
A priority order determination unit that determines the priority order of the IP addresses for which the collection unit collects data, based on the number of the entities for each IP address to which the image data belongs extracted by the entity extraction unit,
Program to function as.
コンピュータを、
画像データおよびテキストデータを含むページデータを収集する収集部、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部、
として機能させるためのプログラム。
Computer,
A collection unit that collects page data including image data and text data,
From the text data included in the page data, an entity extraction unit that extracts an entity related to the image data,
A priority order determination unit that determines the priority order of the IP addresses for which the collection unit collects data, based on the number of the entities for each IP address to which the image data belongs extracted by the entity extraction unit,
Program to function as.
JP2016207685A 2016-10-24 2016-10-24 Information processing apparatus, information processing method, and program Active JP6727097B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016207685A JP6727097B2 (en) 2016-10-24 2016-10-24 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016207685A JP6727097B2 (en) 2016-10-24 2016-10-24 Information processing apparatus, information processing method, and program

Publications (2)

Publication Number Publication Date
JP2018072873A JP2018072873A (en) 2018-05-10
JP6727097B2 true JP6727097B2 (en) 2020-07-22

Family

ID=62115437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016207685A Active JP6727097B2 (en) 2016-10-24 2016-10-24 Information processing apparatus, information processing method, and program

Country Status (1)

Country Link
JP (1) JP6727097B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245197B (en) * 2019-05-20 2022-01-28 北京百度网讯科技有限公司 Whole-network entity association method and system
CN113806552B (en) * 2021-08-30 2022-06-14 北京百度网讯科技有限公司 Information extraction method and device, electronic equipment and storage medium

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224256A (en) * 1998-02-05 1999-08-17 Nippon Telegr & Teleph Corp <Ntt> Information retrieving method and record medium recording information retrieving program
US7774782B1 (en) * 2003-12-18 2010-08-10 Google Inc. Limiting requests by web crawlers to a web host
JP4313738B2 (en) * 2004-08-18 2009-08-12 日本電信電話株式会社 Image search apparatus and method, program thereof, and recording medium
US8085995B2 (en) * 2006-12-01 2011-12-27 Google Inc. Identifying images using face recognition
US7899807B2 (en) * 2007-12-20 2011-03-01 Yahoo! Inc. System and method for crawl ordering by search impact
JP4825261B2 (en) * 2008-12-17 2011-11-30 ヤフー株式会社 Image information collecting apparatus, method and program thereof
US9323861B2 (en) * 2010-11-18 2016-04-26 Daniel W. Shepherd Method and apparatus for enhanced web browsing

Also Published As

Publication number Publication date
JP2018072873A (en) 2018-05-10

Similar Documents

Publication Publication Date Title
Diouf et al. Web scraping: state-of-the-art and areas of application
JP6423845B2 (en) Method and system for dynamically ranking images to be matched with content in response to a search query
KR101721338B1 (en) Search engine and implementation method thereof
JP5336391B2 (en) Search for structured geographic data
JP6167493B2 (en) Method, computer program, storage medium and system for managing information
JP2017157192A (en) Method of matching between image and content item based on key word
JP5756386B2 (en) Method, apparatus, and program for supporting generation and management of metadata for correcting problems of dynamic web application
JP5856139B2 (en) Indexing and searching using virtual documents
US20120054166A1 (en) System for displaying search engine results with images
JP6363682B2 (en) Method for selecting an image that matches content based on the metadata of the image and content
US20090083266A1 (en) Techniques for tokenizing urls
KR102361112B1 (en) Extracting similar group elements
JP5103051B2 (en) Information processing system and information processing method
CN107704620B (en) Archive management method, device, equipment and storage medium
JP6727097B2 (en) Information processing apparatus, information processing method, and program
JP2019040260A (en) Information processing apparatus and program
JP4750628B2 (en) Information ranking method and apparatus, program, and computer-readable recording medium
JP5234836B2 (en) Content management apparatus, information relevance calculation method, and information relevance calculation program
WO2017074710A1 (en) Search system
KR101592670B1 (en) Apparatus for searching data using index and method for using the apparatus
CN107622125B (en) Information crawling method and device and electronic equipment
JP2010286888A (en) Information collection system, information collection method, and program therefor
Shen et al. A Catalogue Service for Internet GIS ervices Supporting Active Service Evaluation and Real‐Time Quality Monitoring
JP5610215B2 (en) SEARCH DEVICE, SEARCH SYSTEM, SEARCH METHOD, AND SEARCH PROGRAM
JP6777445B2 (en) Citation map generator, citation map generation method and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200630

R150 Certificate of patent or registration of utility model

Ref document number: 6727097

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350