JP6727097B2

JP6727097B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6727097B2
Application number: JP2016207685A
Authority: JP
Inventors: 翔悟湯浅; 直彦横田; マナサプリヤコデュリ; モヒトアガルワル
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2020-07-22
Anticipated expiration: 2036-10-24
Also published as: JP2018072873A

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、ウェブからデータ（文書や画像など）を収集し、収集したデータを自動的にデータベース化するクローラが知られている（特許文献１参照）。クローラは、ウェブページ中のリンクを辿って、様々なＩＰアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。

一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページの情報をウェブ情報データベースから取得する。また、検索エンジンは、取得したウェブページの情報の一覧を検索結果として出力する。

特開２０１２−６９１７１号公報

ユーザ満足度を向上させるため、検索エンジンは、ユーザによって入力された検索ワードに関連する画像を、検索結果とともに出力することが考えられる。このためには、ウェブから収集した画像と、この画像に関連するワードを示すエンティティとを関連付けたデータベースを予め準備する必要がある。

しかしながら、特許文献１に開示されたクローラは、ウェブから収集した画像に関連するエンティティを、自動的に判別することができなかった。このため、特許文献１に開示されたクローラは、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができなかった。

本発明は、このような事情を考慮してなされたものであり、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができる情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明の一態様は、画像データおよびテキストデータを含むページデータを収集する収集部と、前記ページデータに含まれる前記テキストデータから、前記ページデータに含まれる前記画像データに関連するエンティティを抽出するエンティティ抽出部と、前記ページデータに含まれる前記画像データから、データ収集対象となり得る所定の特徴を抽出する特徴抽出部と、前記特徴抽出部によって前記所定の特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部と、を備える情報処理装置である。

本発明の一態様によれば、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができる。

第１の実施形態に係るナレッジデータサーバ１００の使用環境を示す図である。第１の実施形態に係る端末装置２００の表示部２１０に表示される検索結果ページの一例を示す図である。第１の実施形態に係るナレッジデータ生成部１２０の詳細な構成を示すブロック図である。第１の実施形態に係るカテゴリーデータＤ１の一例を示す図である。第１の実施形態に係るナレッジデータＤ２の一例を示す図である。第１の実施形態に係るエンティティＥに関連付けられる画像の候補の一例を示す図である。第１の実施形態に係るエンティティＥに関連付けられた画像の一例を示す図である。第１の実施形態に係るナレッジデータ生成処理を示すフローチャートである。第２の実施形態に係るエンティティＥに関連付けられる画像の候補の一例を示す図である。第２の実施形態に係るベクトルデータの分布の一例を示す図である。実施形態に係るナレッジデータサーバ１００のハードウェア構成の一例を示す図である。

以下、図面を参照して、情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。本実施形態においては、情報処理装置の一例として、ナレッジデータサーバについて説明する。ナレッジデータサーバは、例えば、画像データおよびテキストデータを含むページデータを収集し、収集したデータに基づいてナレッジデータを生成するサーバである。ナレッジデータは、エンティティと、このエンティティに関連する画像データの所在情報とが関連付けられたデータである。エンティティとは、ウェブから収集した画像データに関連するワードを示すデータである。所在情報とは、例えば、ウェブ上の位置を特定するためのＵＲＬ（Uniform Resource Locator）である。以下、実施形態について詳細に説明する。

＜１．第１の実施形態＞
＜１−１．ナレッジデータサーバの使用環境＞
図１は、第１の実施形態に係るナレッジデータサーバ１００の使用環境を示す図である。ナレッジデータサーバ１００は、収集部１１０と、ナレッジデータ生成部１２０と、第１記憶部１３０と、第２記憶部１４０と、所在情報取得部１５０とを備える。

収集部１１０、ナレッジデータ生成部１２０、および所在情報取得部１５０は、例えば、ナレッジデータサーバ１００のプロセッサがプログラムを実行することで実現されてもよいし、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。

第１記憶部１３０および第２記憶部１４０は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、第１記憶部１３０および第２記憶部１４０の一部または全部は、ＮＡＳ（Network Attached Storage）や外部のストレージサーバなど、ナレッジデータサーバ１００がアクセス可能な外部装置であってもよい。

収集部１１０は、画像データおよびＨＴＭＬ（HyperText Markup Language）データを含むページデータをウェブＷから収集するクローラである。ここで、ページデータは、ウェブＷ上にあり、ブラウザで閲覧可能なページ単位のデータである。なお、ページデータは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。ウェブＷは、ワールドワイドウェブ（World Wide Web）を意味し、インターネットやイントラネットで標準的に用いられるＨＴＭＬ文書などを利用したシステムである。ＨＴＭＬデータは、ＨＴＭＬのソースを示すテキストデータである。

収集部１１０は、収集したページデータに含まれるＨＴＭＬデータからリンク先のＵＲＬ（所在情報）を取得し、取得したＵＲＬにアクセスして更にページデータを収集する。この処理を繰り返すことにより、収集部１１０は、ページデータを収集する対象のＩＰアドレスを広げることができる。収集部１１０は、収集したページデータをナレッジデータ生成部１２０に出力する。

ナレッジデータ生成部１２０は、収集部１１０から入力されたページデータに含まれるＨＴＭＬデータから、ページデータに含まれる画像データに関連するエンティティを抽出する。エンティティとは、画像データに関連するワードを示す情報である。また、ナレッジデータ生成部１２０は、抽出したエンティティに画像データのＵＲＬが関連付けられたナレッジデータを生成し、生成したナレッジデータを第２記憶部１４０に記憶する。これによって、ナレッジデータ生成部１２０は、収集部１１０によって収集されたページデータを用いて、ナレッジデータを自動的に生成することができる。

詳細は後述するが、ナレッジデータ生成部１２０は、抽出したエンティティに対応するカテゴリーデータを第１記憶部１３０から読み出し、読み出したカテゴリーデータに基づいて、ナレッジデータを生成するか否かを判定する。また、ナレッジデータ生成部１２０は、ＩＰアドレスごとのエンティティの数に基づき、ページデータを収集するＩＰアドレスの優先順位を決定する。その後、ナレッジデータ生成部１２０は、決定した優先順位を示すフィードバックデータを収集部１１０に出力する。

収集部１１０は、ナレッジデータ生成部１２０から入力されたフィードバックデータによって示される優先順位に従って、ウェブＷからページデータを収集する。これによって、多くのエンティティが含まれるＩＰアドレスから優先的にページデータが収集されるため、エンティティを効率的に抽出することができる。

一方、端末装置２００とウェブサーバ３００は、ネットワークを介して通信可能に接続されており、ナレッジデータサーバ１００とウェブサーバ３００は、ネットワークを介して通信可能に接続されている。端末装置２００は、ユーザによって使用される装置であり、例えば、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータ、またはスマートフォンである。ウェブサーバ３００は、検索エンジンを用いて検索結果を表示するための検索結果ページ情報を生成するサーバである。

ユーザは、端末装置２００を用いて、端末装置２００の表示部に表示された検索ページに検索クエリを入力する。検索クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置２００は、ユーザによって入力された検索クエリをウェブサーバ３００に送信する。

ウェブサーバ３００は、端末装置２００から受信した検索クエリに基づいて、検索エンジンを用いて検索結果ページデータを生成する。このとき、ウェブサーバ３００は、検索結果だけでなく、検索クエリに含まれるエンティティに関連する画像を検索結果ページデータに含める。

＜１−２．検索結果ページ＞
図２は、第１の実施形態に係る端末装置２００の表示部２１０に表示される検索結果ページの一例を示す図である。図２に示されるように、表示部２１０には、検索クエリ入力領域２１１と、ナレッジパネル２２０と、検索結果２３０とが含まれる検索結果ページが表示される。ナレッジパネル２２０には、検索クエリに含まれるエンティティ２２１と、エンティティ２２１に関連する画像２２２と、エンティティ２２１に関連する情報２２３とが含まれる。

図２に示される例においては、検索クエリとして「女優Ａ」が入力され、ナレッジパネル２２０には「女優Ａ」に関連する画像や様々な情報が表示されている。このように、検索結果２３０だけでなく、ナレッジパネル２２０を表示部２１０に表示することで、検索結果に対するユーザ満足度を向上させることができる。

検索結果ページにナレッジパネル２２０を表示するため、ウェブサーバ３００は、検索クエリに含まれるエンティティに関連する画像を取得する必要がある。このため、ウェブサーバ３００は、検索クエリに含まれるエンティティを、ナレッジデータサーバ１００に送信する。

前述したように、ナレッジデータサーバ１００の第２記憶部１４０には、エンティティに画像データのＵＲＬが関連付けられたナレッジデータが記憶されている。所在情報取得部１５０は、第２記憶部１４０に記憶されたナレッジデータを参照して、ウェブサーバ３００から受信したエンティティに対応する画像データのＵＲＬを取得する。その後、所在情報取得部１５０は、取得した画像データのＵＲＬをウェブサーバ３００に送信する。

このように、所在情報取得部１５０は、ウェブサーバ３００からエンティティを受信した場合、受信したエンティティに関連付けられた画像データのＵＲＬを第２記憶部１４０から取得し、取得した画像データのＵＲＬをウェブサーバ３００に送信する。これによって、ウェブサーバ３００は、検索クエリに含まれるエンティティに関連する画像のＵＲＬを取得することができる。

ウェブサーバ３００は、所在情報取得部１５０から受信した画像データのＵＲＬと、検索エンジンを用いて生成した検索結果とを用いて、検索結果ページデータを生成する。ウェブサーバ３００は、生成した検索結果ページデータを端末装置２００に送信する。端末装置２００は、ウェブサーバ３００から検索結果ページデータを受信すると、受信した検索結果ページデータを用いて検索結果ページ（図２）を表示部２１０に表示する。

＜１−３．ナレッジデータ生成部の処理＞
図３は、第１の実施形態に係るナレッジデータ生成部１２０の詳細な構成を示すブロック図である。以下、図３を用いて、ナレッジデータ生成部１２０の具体的な処理について説明する。前述したように、画像データおよびＨＴＭＬデータを含むページデータが、ナレッジデータ生成部１２０に入力される。ナレッジデータ生成部１２０は、エンティティ抽出部１２１と、特徴抽出部１２２と、生成部１２３と、優先順位決定部１２４とを備える。

エンティティ抽出部１２１は、ページデータに含まれるＨＴＭＬデータから、画像データに関連するエンティティを抽出する。例えば、エンティティ抽出部１２１は、ページデータにおける画像データが埋め込まれた位置の周辺のテキストをＨＴＭＬデータから取得し、取得したテキストからエンティティを抽出する。エンティティ抽出部１２１は、抽出したエンティティおよびＨＴＭＬデータを生成部１２３に出力する。

なお、エンティティ抽出部１２１は、画像データが埋め込まれた位置の周辺のテキストからエンティティを抽出することとしたが、これに限られない。例えば、エンティティ抽出部１２１は、ＨＴＭＬデータのタグに記載されているデータから、エンティティを抽出してもよい。

具体的には、エンティティ抽出部１２１は、ｉｍｇタグのａｌｔ属性に記載されているデータからエンティティを抽出してもよい。ｉｍｇタグの一例を、以下に示す。
<img src=“actress-a.jpg” alt=“映画のヒロイン役に抜擢された女優Ａ” />
この場合、エンティティ抽出部１２１は、ファイル名が“actress-a.jpg”の画像に関連するエンティティとして、ａｌｔ属性に記載されているデータから「女優Ａ」を抽出する。

また、エンティティ抽出部１２１は、ＯＧＰ（Open Graph Protocol）のメタタグに記載されているデータからエンティティを抽出してもよい。ＯＧＰのメタタグの一例を、以下に示す。
<meta property=“og:title” content=“映画のヒロイン役に抜擢された女優Ａ” />
<meta property=“og:image” content=“actress-a.jpg” />
この場合、エンティティ抽出部１２１は、プロパティが“og:image”のメタタグに記載されているファイル名が“actress-a.jpg”の画像に関連するエンティティとして、プロパティが“og:title”のメタタグに記載されているデータから「女優Ａ」を抽出する。

特徴抽出部１２２は、ページデータに含まれる画像データから特徴を抽出する。そして、特徴抽出部１２２は、抽出した特徴を示す特徴データを生成部１２３に出力する。例えば、画像データに人物像が含まれる場合、特徴抽出部１２２は、Ｖｉｏｌａ−Ｊｏｎｅｓ法などの顔検出アルゴリズムを用いて、画像データから人の顔を抽出する。そして、特徴抽出部１２２は、人の顔を抽出したことを示すデータや、抽出した顔の数を示すデータを、特徴データとして生成部１２３に出力する。

図４は、第１の実施形態に係るカテゴリーデータＤ１の一例を示す図である。カテゴリーデータＤ１は、第１記憶部１３０に記憶されている。図４に示されるように、カテゴリーデータＤ１は、エンティティとカテゴリーとが関連付けられたデータである。例えば、エンティティ１が人物名である場合、エンティティ１は「人物」のカテゴリーに関連付けられる。エンティティ２が映画のタイトルである場合、エンティティ２は「映画」のカテゴリーに関連付けられる。エンティティｎがドラマのタイトルである場合、エンティティｎは「ドラマ」のカテゴリーに関連付けられる。なお、カテゴリーデータＤ１は、エンティティの種類に関連するカテゴリーに限らず、生成部１２３によって使用されるエンティティに関連する情報を含んでもよい。

生成部１２３は、第１記憶部１３０に記憶されたカテゴリーデータＤ１を参照し、エンティティ抽出部１２１によって抽出されたエンティティに関連付けられたカテゴリーを取得する。また、生成部１２３は、画像データのＵＲＬをＨＴＭＬデータのタグ（ｉｍｇタグまたはメタタグ）から取得する。

第１記憶部１３０から取得されたカテゴリーに関連する特徴が特徴抽出部１２２によって抽出された場合、生成部１２３は、エンティティ抽出部１２１によって抽出されたエンティティに画像データのＵＲＬを関連付けることで、ナレッジデータＤ２を生成する。生成部１２３は、生成したナレッジデータＤ２を第２記憶部１４０に記憶する。

図５は、第１の実施形態に係るナレッジデータＤ２の一例を示す図である。図５に示されるように、ナレッジデータＤ２は、エンティティと画像データのＵＲＬとが関連付けられたデータである。ナレッジデータＤ２において、１つのエンティティに複数の画像データのＵＲＬが関連付けられていてもよく、１つの画像データのＵＲＬに複数のエンティティが関連付けられていてもよい。生成部１２３は、ナレッジデータＤ２を生成する度に、生成したナレッジデータＤ２を第２記憶部に蓄積していく。

例えば、エンティティ抽出部１２１によって抽出されたエンティティが人名であり、特徴抽出部１２２によって画像データから人の顔が一つだけ抽出された場合、生成部１２３は、特徴抽出部１２２によってエンティティに関連する特徴が抽出されたと判断する。この場合、生成部１２３は、エンティティ抽出部１２１によって抽出されたエンティティに、ＨＴＭＬデータのタグ（ｉｍｇタグまたはメタタグ）に記載されている画像データのＵＲＬを関連付けることで、ナレッジデータＤ２を生成する。

なお、生成部１２３は、エンティティと、画像データのＵＲＬとを関連付けることによって、ナレッジデータＤ２を生成することとしたが、これに限られない。例えば、ナレッジデータ生成部１２０は、収集部１１０によって収集されたページデータに含まれる画像データを、第２記憶部１４０に記憶してもよい。この場合、生成部１２３は、エンティティと、第２記憶部１４０における画像データのアドレスとを関連付けることによって、ナレッジデータＤ２を生成してもよい。

図６は、第１の実施形態に係るエンティティＥに関連付けられる画像の候補の一例を示す図である。図６に示されるように、画像ＩＭＧ１は女優Ａの画像であり、画像ＩＭＧ２は女優Ａおよび他の女性の画像であり、画像ＩＭＧ３は女優Ａの所有する車の画像である。このように、ＨＴＭＬデータに含まれるテキストによっては、様々な種類の画像がエンティティＥに関連付けられる候補の画像として取得される。

図６に示される例において、エンティティＥは人名であるため、生成部１２３は、特徴抽出部１２２によって人の顔が一つだけ抽出された画像を、エンティティＥに関連付ける。具体的には、生成部１２３は、画像ＩＭＧ１のＵＲＬをエンティティＥに関連付ける。また、ＩＭＧ２からは人の顔が２つ検出されるため、生成部１２３は、画像ＩＭＧ２のＵＲＬをエンティティＥに関連付けない。また、ＩＭＧ３からは人の顔が検出されないため、生成部１２３は、画像ＩＭＧ３のＵＲＬをエンティティＥに関連付けない。

図７は、第１の実施形態に係るエンティティＥに関連付けられた画像の一例を示す図である。図７に示されるように、エンティティＥには、複数の画像ＩＭＧ４からＩＭＧ６が関連付けられている。この場合、検索結果ページのナレッジパネル２２０（図２参照）に、どの画像を優先に表示するのかを決定する必要がある。

このため、生成部１２３は、画像の解像度、種類、アスペクト比、ユーザによってクリックされた回数、またはこれらの組み合わせなどに基づいて、複数の画像ＩＭＧ４からＩＭＧ６をランク付けしてもよい。また、最も高いランクが付与された画像を、検索結果ページのナレッジパネル２２０（図２参照）に表示してもよい。

一方、生成部１２３は、エンティティ抽出部１２１によって抽出されたエンティティの数を、画像データのＩＰアドレスごとに算出する。生成部１２３は、算出したＩＰアドレスごとのエンティティの数を、優先順位決定部１２４に出力する。優先順位決定部１２４は、生成部１２３から入力されたＩＰアドレスごとのエンティティの数に基づいて、収集部１１０がデータを収集するＩＰアドレスの優先順位を決定する。

例えば、優先順位決定部１２４は、エンティティ抽出部１２１によって抽出されたエンティティの数が多いＩＰアドレスほど、優先順位を高くする。優先順位決定部１２４は、決定した優先順位を示すフィードバックデータを、収集部１１０に出力する。

収集部１１０は、優先順位決定部１２４から入力されたフィードバックデータによって示される優先順位に従って、ウェブＷからページデータを収集する。具体的には、収集部１１０は、優先順位の高いＩＰアドレスから順に、ページデータを収集する。これによって、多くのエンティティが含まれるＩＰアドレスから優先的にページデータが収集されるため、エンティティを効率的に抽出することができる。

＜１−４．ナレッジデータ生成処理のフローチャート＞
図８は、第１の実施形態に係るナレッジデータ生成処理を示すフローチャートである。本フローチャートによる処理は、ナレッジデータサーバ１００によって実行される。

まず、収集部１１０は、ウェブＷからページデータを収集する（Ｓ１０）。ページデータには、ＨＴＭＬデータおよび画像データが含まれる。エンティティ抽出部１２１は、収集部１１０によって収集されたページデータに含まれるＨＴＭＬデータから、画像データに関連するエンティティを抽出する（Ｓ１１）。

特徴抽出部１２２は、画像データから特徴（例えば、人の顔）を抽出する（Ｓ１２）。生成部１２３は、エンティティ抽出部１２１によって抽出されたエンティティに対応する特徴が抽出されたか否かを判定する（Ｓ１３）。生成部１２３は、エンティティ抽出部１２１によって抽出されたエンティティに対応する特徴が抽出されていないと判定した場合、後述するＳ１５に処理を進める。

一方、生成部１２３は、エンティティ抽出部１２１によって抽出されたエンティティに対応する特徴が抽出されたと判定した場合、エンティティ抽出部１２１によって抽出されたエンティティに画像データのＵＲＬが関連付けられたナレッジデータを生成する（Ｓ１４）。

その後、生成部１２３は、収集部１１０によってページデータが収集された全ＩＰアドレスに対してナレッジデータの生成が完了したか否かを判定する（Ｓ１５）。生成部１２３は、全ＩＰアドレスに対してナレッジデータの生成が完了していないと判定した場合、前述のＳ１１に処理を戻す。

一方、生成部１２３は、全ＩＰアドレスに対してナレッジデータの生成が完了したと判定した場合、エンティティ抽出部１２１によって抽出されたエンティティの数を、画像データのＩＰアドレスごとに算出する。その後、優先順位決定部１２４は、生成部１２３によって算出されたＩＰアドレスごとのエンティティの数に基づき、収集部１１０がデータを収集するＩＰアドレスの優先順位を決定し（Ｓ１６）、本フローチャートによる処理を終了する。

以上説明したように、収集部１１０は、画像データおよびＨＴＭＬデータを含むページデータを収集する。エンティティ抽出部１２１は、ページデータに含まれるＨＴＭＬデータから、ページデータに含まれる画像データに関連するエンティティを抽出する。特徴抽出部１２２は、ページデータに含まれる画像データから、データ収集対象となり得る所定の特徴を抽出する。特徴抽出部１２２によって所定の特徴が抽出された場合、生成部１２３は、エンティティに画像データのＵＲＬが関連付けられたナレッジデータＤ２を生成する。これによって、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができる。

また、生成部１２３は、特徴抽出部１２２によって抽出された特徴（例えば、人の顔）に基づいてナレッジデータＤ２を生成するため、特徴抽出部１２２が画像データから特徴を抽出しない場合よりも、高精度にナレッジデータＤ２を生成することができる。

また、優先順位決定部１２４は、エンティティ抽出部１２１によって抽出された、画像データの属するＩＰアドレスごとのエンティティの数に基づいて、収集部１１０がデータを収集するＩＰアドレスの優先順位を決定する。これによって、多くのエンティティが含まれるＩＰアドレスから優先的にページデータが収集されるため、エンティティを効率的に抽出することができる。

なお、優先順位決定部１２４は、画像データの属するＩＰアドレスごとのエンティティの数のみに基づいてＩＰアドレスの優先順位を決定することとしたが、これに限られない。例えば、優先順位決定部１２４は、画像データに関連するエンティティの数に加えて、ページの信頼性を考慮して優先順位を決定してもよい。

＜２．第２の実施形態＞
＜２−１．ナレッジデータサーバの使用環境＞
第１の実施形態においては、特徴抽出部１２２は、収集部１１０から入力された画像データに対して画像処理（例えば、Ｖｉｏｌａ−Ｊｏｎｅｓ法などの顔検出処理）を行うことにより、特徴を抽出することとした。これに対し、第２の実施形態において、特徴抽出部１２２は、収集部１１０から入力された画像データを特徴量表現に変換することとする。本実施形態においては、特徴量表現の一例としてベクトルデータを使用する。画像データから変換された特徴量表現を用いることで、例えば、人名のエンティティに、同姓同名の他人の画像が関連付けられることを防止することができる。以下、第２の実施形態について詳細に説明する。

図９は、第２の実施形態に係るエンティティＥに関連付けられる画像の候補の一例を示す図である。図９に示されるように、画像ＩＭＧ７は女優Ａの画像であり、画像ＩＭＧ８も女優Ａの画像であり、画像ＩＭＧ９は女優Ａと同姓同名のＢさんの画像である。このように、女優Ａとは異なるＢさんの画像が、女優Ａを示すエンティティＥに関連付けられる候補の画像として取得される場合がある。このため、Ｂさんの画像ＩＭＧ９を、女優Ａを示すエンティティＥに関連付けないようにする必要がある。

そこで、特徴抽出部１２２は、収集部１１０から入力された画像データを、Ａｕｔｏ−Ｅｎｃｏｄｅｒ等の変換器を用いて多次元のベクトルデータ（特徴量表現）に変換する。特徴抽出部１２２は、変換したベクトルデータを生成部１２３に出力する。

図１０は、第２の実施形態に係るベクトルデータの分布の一例を示す図である。ここでは、説明を容易にするために、各画像データが２次元のベクトルデータ（ｘ，ｙ）に変換された例について説明する。図１０において、横軸はベクトルデータのｘの値を示し、縦軸はベクトルデータのｙの値を示す。

生成部１２３は、特徴抽出部１２２から入力されたベクトルデータを、複数のクラスタＣ１またはＣ２に分類する。図１０に示される例においては、クラスタＣ１に分類されたベクトルデータの方が、クラスタＣ２に分類されたベクトルデータよりも多い。女優Ａの方がＢさんよりも有名であるため、ウェブＷ上の画像の数は、女優Ａの方がＢさんよりも多いと考えられる。このため、クラスタＣ１に属するベクトルデータが、女優Ａの画像データに対応するベクトルデータであると考えられる。

このため、生成部１２３は、最もデータ数の多いクラスタＣ１に属するベクトルデータに対応する画像データのＵＲＬをエンティティＥに関連付けることで、ナレッジデータＤ２を生成する。一方、生成部１２３は、クラスタＣ２に属するベクトルデータに対応する画像データのＵＲＬを、エンティティＥに関連付けない。

以上説明したように、特徴抽出部１２２は、ページデータに含まれる画像データをベクトルデータに変換する。生成部１２３は、特徴抽出部１２２によって変換されたベクトルデータを複数のクラスタＣ１またはＣ２に分類する。生成部１２３は、最もデータ数の多いクラスタに属するベクトルデータに対応する画像データのＵＲＬをエンティティＥに関連付けることで、ナレッジデータＤ２を生成する。これによって、エンティティＥに対して強い関連性のある画像データのＵＲＬを、画像データに関連付けることができる。例えば、本実施形態によれば、人名のエンティティに、同姓同名の他人の画像が関連付けられることを防止することができる。

また、生成部１２３は、特徴抽出部１２２によって生成された特徴量表現（ベクトルデータ）に基づいてナレッジデータＤ２を生成するため、特徴抽出部１２２が特徴量表現（ベクトルデータ）を生成しない場合よりも、高精度にナレッジデータＤ２を生成することができる。

なお、生成部１２３は、最もデータ数の多いクラスタＣ１に属するベクトルデータに対応する画像データのＵＲＬをエンティティＥに関連付けることとしたが、これに限られない。例えば、生成部１２３は、各クラスタに属するベクトルデータごとにＨＴＭＬデータに含まれるワードを抽出し、抽出したワードに基づいて画像データのＵＲＬをエンティティＥに関連付けるか否かを判別してもよい。例えば、クラスタＣ１に属するベクトルデータに対応するＨＭＴＬデータから「女優」や「映画」などのワードが多く抽出された場合、生成部１２３は、クラスタＣ１に属するベクトルデータが、女優Ａの画像データに対応するベクトルデータであると判定し、クラスタＣ１に属するベクトルデータに対応する画像データのＵＲＬをエンティティＥに関連付けてもよい。

また、本実施形態において、特徴抽出部１２２は、画像データをベクトルデータに変換することとしたが、他の特徴量表現に変換してもよい。

＜３．ハードウェア構成＞
図１１は、実施形態に係るナレッジデータサーバ１００のハードウェア構成の一例を示す図である。ナレッジデータサーバ１００は、例えば、ＣＰＵ１６０、ＲＡＭ１６１、ＲＯＭ１６２、フラッシュメモリやＨＤＤなどの二次記憶装置１６３、ＮＩＣ（Network Interface Card）１６４、ドライブ装置１６５、キーボード１６６、およびマウス１６７が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置１６５には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置１６３、またはドライブ装置１６５に装着された可搬型記憶媒体に記憶されたプログラムがＤＭＡ（Direct Memory Access）コントローラ（不図示）などによってＲＡＭ１６１に展開され、ＣＰＵ１６０によって実行されることで、ナレッジデータサーバ１００の機能部が実現される。

以上説明したように、実施形態のナレッジデータサーバ１００は、収集部１１０と、エンティティ抽出部１２１と、特徴抽出部１２２と、生成部１２３とを備える。収集部１１０は、画像データおよびＨＴＭＬデータを含むページデータを収集する。エンティティ抽出部１２１は、ページデータに含まれるＨＴＭＬデータから、ページデータに含まれる画像データに関連するエンティティを抽出する。特徴抽出部１２２は、ページデータに含まれる画像データから、データ収集対象となり得る所定の特徴を抽出する。特徴抽出部１２２によって所定の特徴が抽出された場合、生成部１２３は、エンティティに画像データのＵＲＬが関連付けられたナレッジデータＤ２を生成する。これによって、ウェブから収集した画像と、この画像に関連するエンティティとを関連付けたデータベースを自動的に生成することができる。

また、実施形態のナレッジデータサーバ１００は、優先順位決定部１２４を更に備える。優先順位決定部１２４は、エンティティ抽出部１２１によって抽出された、画像データの属するＩＰアドレスごとのエンティティの数に基づいて、収集部１１０がデータを収集するＩＰアドレスの優先順位を決定する。これによって、多くのエンティティが含まれるＩＰアドレスから優先的にページデータが収集されるため、エンティティを効率的に抽出することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１００…ナレッジデータサーバ
１１０…収集部（クローラ）
１２０…ナレッジデータ生成部
１２１…エンティティ抽出部
１２２…特徴抽出部
１２３…生成部
１２４…優先順位決定部
１３０…第１記憶部
１４０…第２記憶部
１５０…所在情報取得部
２００…端末装置
３００…ウェブサーバ

Claims

画像データおよびテキストデータを含むページデータを収集する収集部と、
前記ページデータに含まれる前記テキストデータから、前記ページデータに含まれる前記画像データに関連するエンティティを抽出するエンティティ抽出部と、
前記ページデータに含まれる前記画像データから、データ収集対象となり得る所定の特徴を抽出する特徴抽出部と、
前記特徴抽出部によって前記所定の特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部と、
前記エンティティ抽出部によって抽出された、前記画像データの属するＩＰアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するＩＰアドレスの優先順位を決定する優先順位決定部と、
を備える情報処理装置。
前記生成部によって生成された前記ナレッジデータを記憶する記憶部と、
前記記憶部に記憶された前記ナレッジデータを参照して、前記画像データの所在情報を取得する所在情報取得部と、を更に備える
請求項１記載の情報処理装置。
前記所在情報取得部は、外部装置からエンティティを受信した場合、受信した前記エンティティに関連付けられた画像データの所在情報を前記記憶部から取得し、取得した前記画像データの所在情報を前記外部装置に送信する
請求項２記載の情報処理装置。
前記エンティティ抽出部は、前記ページデータにおける前記画像データが埋め込まれた位置の周辺のテキストを前記テキストデータから取得し、取得した前記テキストから前記エンティティを抽出する
請求項１から３の何れか一項に記載の情報処理装置。
前記テキストデータは、ＨＴＭＬのソースを示すＨＴＭＬデータであり、
前記エンティティ抽出部は、前記ＨＴＭＬデータのタグに記載されているデータから、前記エンティティを抽出する
請求項１から３の何れか一項に記載の情報処理装置。
前記生成部は、前記エンティティ抽出部によって抽出された前記エンティティに、前記ＨＴＭＬデータのタグに記載されている画像データの所在情報を関連付けることで、前記ナレッジデータを生成する
請求項５記載の情報処理装置。
前記生成部は、前記エンティティ抽出部によって抽出された前記エンティティが人名であり、前記特徴抽出部によって画像データから人の顔が一つだけ抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられた前記ナレッジデータを生成する請求項１記載の情報処理装置。
前記特徴抽出部は、前記ページデータに含まれる前記画像データを特徴量表現に変換し、
前記生成部は、前記特徴抽出部によって変換された前記特徴量表現を複数のクラスタに分類し、最もデータ数の多いクラスタに属する特徴量表現に対応する画像データの所在情報を前記エンティティに関連付けることで、前記ナレッジデータを生成する
請求項１記載の情報処理装置。
前記優先順位決定部は、前記エンティティ抽出部によって抽出された前記エンティティの数が多いＩＰアドレスほど、前記優先順位を高くする
請求項１から８の何れか一項に記載の情報処理装置。
画像データおよびテキストデータを含むページデータを収集する収集部と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部と、
前記エンティティ抽出部によって抽出された、前記画像データの属するＩＰアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するＩＰアドレスの優先順位を決定する優先順位決定部と、
を備える情報処理装置。
コンピュータが、
画像データおよびテキストデータを含むページデータを収集する収集工程と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出工程と、
前記ページデータに含まれる前記画像データから特徴を抽出する特徴抽出工程と、
前記特徴抽出工程において前記エンティティに関連する特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成工程と、
を実行する情報処理方法であって、
前記エンティティ抽出工程において抽出された、前記画像データの属するＩＰアドレスごとの前記エンティティの数に基づいて、前記収集工程においてデータを収集するＩＰアドレスの優先順位を決定する、
情報処理方法。
コンピュータが、
画像データおよびテキストデータを含むページデータを収集する収集工程と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出工程と、
前記エンティティ抽出工程において抽出された、前記画像データの属するＩＰアドレスごとの前記エンティティの数に基づいて、前記収集工程においてデータを収集するＩＰアドレスの優先順位を決定する優先順位決定工程と、
を実行する情報処理方法。
コンピュータを、
画像データおよびテキストデータを含むページデータを収集する収集部、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部、
前記ページデータに含まれる前記画像データから特徴を抽出する特徴抽出部、
前記特徴抽出部によって前記エンティティに関連する特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部、
前記エンティティ抽出部によって抽出された、前記画像データの属するＩＰアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するＩＰアドレスの優先順位を決定する優先順位決定部、
として機能させるためのプログラム。
コンピュータを、
画像データおよびテキストデータを含むページデータを収集する収集部、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部、
前記エンティティ抽出部によって抽出された、前記画像データの属するＩＰアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するＩＰアドレスの優先順位を決定する優先順位決定部、
として機能させるためのプログラム。