JP2009282883A - Image retrieval system, crawling device, and image retrieval device - Google Patents
Image retrieval system, crawling device, and image retrieval device Download PDFInfo
- Publication number
- JP2009282883A JP2009282883A JP2008136318A JP2008136318A JP2009282883A JP 2009282883 A JP2009282883 A JP 2009282883A JP 2008136318 A JP2008136318 A JP 2008136318A JP 2008136318 A JP2008136318 A JP 2008136318A JP 2009282883 A JP2009282883 A JP 2009282883A
- Authority
- JP
- Japan
- Prior art keywords
- image
- digital watermark
- url
- web page
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は画像検索システム、クローリング装置及び画像検索装置に係り、特にインターネット上から所望の画像を検索可能な画像検索システム、クローリング装置及び画像検索装置に関する。 The present invention relates to an image search system, a crawling device, and an image search device, and more particularly to an image search system, a crawling device, and an image search device that can search for a desired image on the Internet.
特許文献1には、自然文による検索条件の内容からキーワードを抽出し、キーワードと類似する情報をインターネットから収集した情報が登録されたデータベースから抽出し、その結果をキーワードとの類似度が高い順に並べて表示する発明が開示されている。
In
特許文献2には、画像、音楽などのメディアデータからテキストデータからなる鍵を抽出し、メディアデータ、鍵、ネットワーク上のサイト等を関連付けたデータベースを構築する発明が開示されている。
特許文献1、2に記載の発明のようなテキストデータを用いて検索を行う方法は、広くインターネット検索の技術分野において既知である。また、イメージ検索のように、テキスト情報からインターネット上の画像を検索することもよく行われている。
Methods for performing search using text data such as the inventions described in
しかしながら、上記従来技術では、既に手元にある画像がインターネット上のどこのページに掲載されていたものかを調べることはできないという問題がある。したがって、画像の著作権を所有している著作権者が、自身の所有する画像の違法な転載などを効率よく調べる方法は未だに提供されていない。 However, the above-described conventional technique has a problem that it is impossible to check on which page on the Internet the image already on hand is placed. Therefore, a method for efficiently examining an illegal reprint of an image owned by the copyright owner who owns the copyright of the image has not yet been provided.
本発明はこのような事情に鑑みてなされたもので、所望の画像がインターネット上のどこに掲載されているかを容易に知ることができる画像検索システム、クローリング装置及び画像検索装置を提供することを目的とする。 The present invention has been made in view of such circumstances, and an object thereof is to provide an image search system, a crawling device, and an image search device that can easily know where a desired image is posted on the Internet. And
請求項1に記載の画像検索システムは、クローリング装置と、画像検索装置とで構成された画像検索システムであって、前記クローリング装置は、インターネット上からウェブページのURLと、該ウェブページに含まれる画像とを収集するクローリング手段と、前記クローリング手段により収集された画像の画像データに基づいて該画像の識別情報を算出する第1の識別情報算出手段と、前記第1の識別情報算出手段により算出された識別情報と、該識別情報の基となる画像が掲載されていたウェブページのURLであって、前記クローリング手段により収集されたウェブページのURLとを関連付けて保存するデータベースと、を備え、前記画像検索装置は、検索対象となる画像を取得する検索画像取得手段と、前記検索画像取得手段により取得された画像から該画像の識別情報を算出する第2の識別情報算出手段と、前記第2の識別情報算出手段により算出された識別情報と同じ識別情報が前記データベースに含まれるかどうかを検索し、前記第2の識別情報算出手段により算出された識別情報と同じ識別情報が前記データベースに含まれていた場合には、該識別情報に関連付けられたウェブページのURLを前記データベースから取得する検索手段と、前記検索手段により取得されたURLを出力する出力手段と、を備えたことを特徴とする。
The image search system according to
請求項1に記載の画像検索システムによれば、インターネット上からウェブページのURLと、該ウェブページに含まれる画像とを収集し、収集された画像から該画像の識別情報を算出し、算出された識別情報と、該識別情報の基となる画像が掲載されていたウェブページのURLとを関連付けてデータベースに保存する。そして、検索対象となる画像を取得し、取得された画像から該画像の識別情報を算出し、算出された識別情報と同じ識別情報がデータベースに含まれるかどうかを検索し、算出された識別情報と同じ識別情報がデータベースに含まれていた場合には、この識別情報に関連付けられたウェブページのURLをデータベースから取得する。これにより、画像自身を検索のクエリーとして、その画像が掲載されているウェブページを検索することができる。そのため、手元にある画像の掲載元を事後的に知ることができる。
According to the image search system of
請求項2に記載の画像検索システムは、請求項1に記載の画像検索システムにおいて、前記クローリング手段は、前記ウェブページに含まれる画像と共に該画像のURLを取得し、前記データベースは、前記クローリング手段により取得された画像のURLを該画像の識別情報と関連付けて保存し、前記検索手段は、前記識別情報に関連付けられたウェブページのURL及び画像のURLを前記データベースから取得することを特徴とする。
The image search system according to
請求項2に記載の画像検索システムによれば、識別情報と関連付けてその画像のURLがデータベースに保存され、検索対象の画像の識別情報と同じ識別情報がデータベースに含まれていた場合には、この識別情報に関連付けられたウェブページのURL及び画像のURLをデータベースから取得する。これにより、検索された画像のインターネット上での利用、転載の状況を知ることができる。 According to the image search system of the second aspect, when the URL of the image is stored in the database in association with the identification information, and the same identification information as the identification information of the image to be searched is included in the database, The URL of the web page and the URL of the image associated with this identification information are acquired from the database. As a result, it is possible to know the use and reprint status of the searched image on the Internet.
請求項3記載の画像検索システムは、請求項1又は2に記載の画像検索システムにおいて、前記クローリング装置は、前記クローリング手段により収集された画像に電子透かしが挿入されているかどうか、及び電子透かしが挿入されている場合には当該電子透かしに関する情報を検出する電子透かし検出手段を備え、前記画像検索装置は、検索対象となる電子透かしに関する情報を取得する電子透かし情報取得手段を備え、前記データベースは、前記電子透かし検出手段により検出された電子透かしに関する情報を該電子透かしに関する情報が検出された画像の識別情報と関連付けて保存し、前記検索手段は、前記電子透かし情報取得手段により取得された電子透かしに関する情報と同じ情報が前記データベースに含まれるかどうかを検索し、前記電子透かし情報取得手段により取得された電子透かしに関する情報と同じ情報が前記データベースに含まれていた場合には、前記電子透かしに関する情報に関連付けられたウェブページのURL及び識別情報を前記データベースから取得することを特徴とする。
The image search system according to claim 3 is the image search system according to
請求項3に記載の画像検索システムによれば、画像の識別情報と関連付けてその画像から検出された電子透かしに関する情報がデータベースに保存される。検索対象となる電子透かしに関する情報を取得し、取得された電子透かしに関する情報と同じ情報がデータベースに含まれていた場合には、この電子透かしに関する情報に関連付けられたウェブページのURL及び識別情報をデータベースから取得する。これにより、画像に文字が上書きされる、画像がトリミングされるなどの加工が行われた場合においても、その画像が掲載されているウェブページを検索することができる。そのため、手元にある画像の掲載元を事後的に知ることができる。 According to the image search system of the third aspect, information relating to the electronic watermark detected from the image in association with the identification information of the image is stored in the database. If the information related to the digital watermark to be searched is acquired and the same information as the information related to the acquired digital watermark is included in the database, the URL and identification information of the web page associated with the information related to the digital watermark are obtained. Get from database. As a result, even when processing such as overwriting characters on the image or trimming the image is performed, the web page on which the image is posted can be searched. Therefore, it is possible to know the publisher of the image at hand afterwards.
請求項4に記載の画像検索システムは、請求項1から3のいずれかに記載の画像検索システムにおいて、前記識別情報は、前記画像に対してハッシュ関数を適用することにより算出されたハッシュ値であることを特徴とする。これにより、同一の画像が掲載されているウェブページを確実に検索することができる。
The image search system according to
請求項5に記載の画像検索システムは、請求項1から3のいずれかに記載の画像検索システムにおいて、前記識別情報は、前記画像固有の特徴を示す特徴量であることを特徴とする。これにより、同一の画像のみでなく、画像の拡大、縮小や、保存の形式(例えばjpeg形式からbmp形式)の変更などの処理が行われることによりデータとしては異なるが、ユーザから見て区別がつかない画像が掲載されたウェブページについても確実に検索することができる。 An image search system according to a fifth aspect is the image search system according to any one of the first to third aspects, wherein the identification information is a feature amount indicating a characteristic unique to the image. As a result, not only the same image but also data such as enlargement / reduction of the image, change of the storage format (for example, jpeg format to bmp format), and the like are different, but the distinction is seen from the user. You can also search for web pages with images that are not connected.
請求項6に記載の画像検索システムは、クローリング装置と、画像検索装置とで構成された画像検索システムであって、前記クローリング装置は、インターネット上からウェブページのURLと、該ウェブページに含まれる静止画とを収集するクローリング手段と、前記クローリング手段により収集された静止画に電子透かしが挿入されているかどうか、及び電子透かしが挿入されている場合には当該電子透かしに関する情報を検出する電子透かし検出手段と、前記クローリング手段により収集されたウェブページのURLと、前記電子透かし検出手段により検出された電子透かしに関する情報とを関連付けて保存するデータベースと、を備え、前記画像検索装置は、検索対象となる電子透かしに関する情報を取得する電子透かし情報取得手段と、前記電子透かし情報取得手段により取得された電子透かしに関する情報と同じ情報が前記データベースに含まれるかどうかを検索し、前記電子透かし情報取得手段により取得された電子透かしに関する情報と同じ情報が前記データベースに含まれていた場合には、該電子透かしに関する情報に関連付けられたウェブページのURLを取得する検索手段と、前記検索手段により取得されたウェブページのURLを出力する出力手段と、を備えたことを特徴とする。 The image search system according to claim 6 is an image search system including a crawling device and an image search device, and the crawling device is included in a URL of a web page from the Internet and the web page. Crawling means for collecting still images, whether or not a digital watermark is inserted in the still images collected by the crawling means, and a digital watermark for detecting information related to the digital watermark when a digital watermark is inserted And a database that stores the URL of the web page collected by the crawling unit and the information related to the digital watermark detected by the digital watermark detection unit in association with each other. Digital watermark information acquisition hand that acquires information about digital watermark And whether the same information as the digital watermark information acquired by the digital watermark information acquisition means is included in the database, and the same information as the digital watermark information acquired by the digital watermark information acquisition means is A search unit that acquires the URL of the web page associated with the information related to the digital watermark, and an output unit that outputs the URL of the web page acquired by the search unit, if included in the database; It is characterized by that.
請求項6に記載の画像検索システムによれば、インターネット上からウェブページのURLと、そのウェブページに含まれる静止画とを収集し、収集された静止画に電子透かしが挿入されているかどうか、及び電子透かしが挿入されている場合には当該電子透かしに関する情報を検出し、検出された電子透かしに関する情報と、収集されたウェブページのURLとを関連付けてデータベースに保存する。そして、検索対象となる電子透かしに関する情報を取得し、取得された電子透かしに関する情報と同じ情報がデータベースに含まれるかどうかを検索し、取得された電子透かしに関する情報と同じ情報がデータベースに含まれていた場合には、この電子透かしに関する情報に関連付けられたウェブページのURLを取得する。これにより、画像に文字が上書きされる、画像がトリミングされるなどの加工が行われた場合においても、その画像が掲載されているウェブページを検索することができる。そのため、手元にある画像の掲載元を事後的に知ることができる。 According to the image search system of claim 6, the URL of the web page and the still image included in the web page are collected from the Internet, and whether or not a digital watermark is inserted into the collected still image, If a digital watermark is inserted, information on the digital watermark is detected, and the detected information on the digital watermark and the URL of the collected web page are associated with each other and stored in a database. Then, the information about the digital watermark to be searched is acquired, whether or not the same information as the information about the acquired digital watermark is included in the database, and the same information as the information about the acquired digital watermark is included in the database. If so, the URL of the web page associated with the information related to the digital watermark is acquired. As a result, even when processing such as overwriting characters on the image or trimming the image is performed, the web page on which the image is posted can be searched. Therefore, it is possible to know the publisher of the image at hand afterwards.
請求項7に記載の画像検索システムは、請求項6に記載の画像検索システムにおいて、前記クローリング手段は、前記ウェブページに含まれる画像と共に該画像のURLを取得し、前記データベースは、前記クローリング手段により取得された画像のURLを該画像の電子透かしに関する情報と関連付けて保存し、前記検索手段は、前記画像の電子透かしに関する情報に関連付けられたウェブページのURL及び画像のURLを前記データベースから取得することを特徴とする。 The image search system according to claim 7 is the image search system according to claim 6, wherein the crawling unit acquires a URL of the image together with the image included in the web page, and the database includes the crawling unit. The URL of the image obtained by the above is stored in association with information relating to the digital watermark of the image, and the search means obtains the URL of the web page and the URL of the image associated with the information relating to the digital watermark of the image from the database. It is characterized by doing.
請求項7に記載の画像検索システムによれば、画像から検出された電子透かしに関する情報と関連付けてその画像のURLがデータベースに保存される。検出対象として電子透かしに関する情報を取得し、その電子透かしに関する情報と同じ識別情報がデータベースに含まれていた場合には、この電子透かしに関する情報に関連付けられたウェブページのURL及び画像のURLをデータベースから取得する。これにより、検索された画像のインターネット上での利用、転載の状況を知ることができる。 According to the image search system of the seventh aspect, the URL of the image is stored in the database in association with the information related to the digital watermark detected from the image. When the information related to the digital watermark is acquired as a detection target and the same identification information as the information related to the digital watermark is included in the database, the URL of the web page and the URL of the image associated with the information related to the digital watermark are stored in the database. Get from. As a result, it is possible to know the use and reprint status of the searched image on the Internet.
請求項8に記載のクローリング装置は、請求項1から7のいずれかに記載の画像検索システムを構成する。 A crawling device according to an eighth aspect constitutes an image search system according to any one of the first to seventh aspects.
請求項9に記載の画像検索装置は、請求項1から7のいずれかに記載の画像検索システムを構成する。 According to a ninth aspect of the present invention, there is provided an image retrieval apparatus according to any one of the first to seventh aspects.
本発明によれば、所望の画像がインターネット上のどこに掲載されているかを容易に知ることができる。 According to the present invention, it is possible to easily know where a desired image is posted on the Internet.
<第1の実施の形態>
図1は、第1の実施の形態に係る画像検索システム1の全体構造の概略図である。画像検索システム1は、主として、クローリング部10と、検索部20と、画像DB(データベース)30とで構成される。
<First Embodiment>
FIG. 1 is a schematic diagram of the overall structure of an
クローリング部10は、主として、クローリングエンジン11と、画像ハッシュ算出装置12とで構成され、検索部20は、主として、画像入力装置21と、画像ハッシュ算出装置22と、検索装置23と、検索結果表示装置24とで構成される。クローリングエンジン11には、インターネット40が接続されている。また、クローリングエンジン11には、画像DB30が接続され、画像DB30は検索装置23に接続される。
The
まず、クローリング部10について説明する。
First, the crawling
クローリングエンジン11は、インターネット40上のウェブページに接続して、そのウェブページのURLを取得する。また、クローリングエンジン11は、HTML(Hyper Text Markup Language)等で記述されたリンク情報を辿って、ウェブページに掲載された画像のURLと、その画像データを取得する。
The crawling
クローリングエンジン11で収集された画像は、クローリングエンジン11から画像ハッシュ算出装置12に出力され、画像ハッシュ算出装置12においてMD5やSHA−1といったハッシュ関数を利用してその画像のハッシュ値が算出され、その画像のハッシュ値が画像ハッシュ算出装置12からクローリングエンジン11に入力される。
The image collected by the crawling
クローリングエンジン11は、画像のハッシュ値を、その画像が取得されたウェブページのURL、その画像のURL等と関連付けて画像DB(データベース)30に格納する。クローリングエンジン11は、インターネット40を自動巡回し、この処理を再帰的に行うことで、画像DB30を継続的に増大させる。
The crawling
画像DB30のデータ構造を図2に示す。画像DB30は、画像が掲載されているウェブページのURLと、そのウェブページに掲載されている画像のURLと、その画像のハッシュ値とを関連付けて保存する。
The data structure of the
ハッシュ値は、画像の同一性を検出する指標であり、同じ画像からは同じハッシュ値が算出される。図2に示す場合においては、1行目、4行目及び7行目に同じハッシュ値「12345678」が格納されており、この3つが同じ画像であることを示している。 The hash value is an index for detecting the identity of images, and the same hash value is calculated from the same image. In the case illustrated in FIG. 2, the same hash value “12345678” is stored in the first row, the fourth row, and the seventh row, indicating that these three are the same image.
次に、検索部20について説明する。
Next, the
画像入力装置21は、検索対象となる画像を取得し、画像ハッシュ算出装置22へ出力する。
The
画像ハッシュ算出装置22は、画像入力装置21から出力された画像を入力し、MD5やSHA−1といったハッシュ関数を利用してその画像のハッシュ値を算出する。
The image
検索装置23は、画像ハッシュ算出装置22から出力されたハッシュ値と同一のハッシュ値と一致するハッシュ値が画像DB30に含まれるかどうかを検索し、そのハッシュ値に関連付けられたウェブページのURLと、画像のURLとを画像DB30から取得する。
The
例えば、画像入力装置21で取得された画像から画像ハッシュ算出装置22においてハッシュ値「123456789」が算出され、画像ハッシュ算出装置22から検索装置23にハッシュ値「123456789」が入力されたとする。図2に示すように、画像DB30には、ハッシュ値「123456789」が1行目、4行目及び7行目に格納されているため、検索装置23は、1行目、4行目及び7行目に格納されているウェブページのURLと、画像のURLとを画像DB30から取得する。
For example, it is assumed that the hash value “123456789” is calculated by the image
検索装置23は、この検索結果を一覧形式で検索結果表示装置24に出力する。検索結果表示装置24は、カラー表示が可能な液晶ディスプレイであり、検索装置23から出力された検索結果が検索結果表示装置24に表示される。
The
検索結果表示装置24に表示された検索結果の一例を図3に示す。検索結果表示装置24には、検索結果として画像DB30の1行目に格納されているウェブページのURL「http://foo/index.html」及び画像のURL「http://foo/img.jpeg」と、4行目に格納されているウェブページのURL「http://bar/index.html」及び画像のURL「http://foo/img.jpeg」と、7行目に格納されているウェブページのURL「http://hoge/img.jpeg」と、画像のURL「http://hoge/img2.jpeg」とが一覧表として表示される。
An example of the search result displayed on the search
これにより、画像入力装置21で取得された画像が、3つのウェブページに掲載されていることが分かる。また、ウェブページ「http://foo/img.jpeg」及び「http://bar/index.html」に掲載された画像は、同一画像URL「http://foo/img.jpeg」へのリンクであるが、ウェブページ「http://hoge/img.jpeg」に掲載された画像は、画像のデータそのものがコピーされて転載されていることが分かる。
Thereby, it turns out that the image acquired with the
本実施の形態によれば、キーワードではなく、画像自身を検索のクエリーとして、その画像が掲載されているウェブページを検索することができる。そのため、手元にある画像の掲載元を事後的に知ることができる。また、その画像のインターネット上での利用、転載の状況を知ることができる。 According to the present embodiment, it is possible to search for a web page on which an image is posted by using the image itself instead of a keyword as a search query. Therefore, it is possible to know the publisher of the image at hand afterwards. In addition, it is possible to know the use and reprint status of the image on the Internet.
また、本実施の形態によれば、画像自身を検索のクエリーとするため、異なる画像が掲載されたウェブページが検出されることを防止することができる。また、ユーザがキーワード等を入力する必要が無いため、使い勝手を良くすることができる。 Further, according to the present embodiment, since the image itself is used as a search query, it is possible to prevent detection of a web page on which a different image is posted. In addition, since the user does not need to input a keyword or the like, usability can be improved.
なお、本実施の形態では、検索結果として検索結果表示装置24にウェブページのURLと、画像のURLとを表示したが、画像のURLの表示は必須ではなく、ウェブページのURLのみを検索結果表示装置24に表示するようにしてもよい。この場合には、画像が掲載されているウェブページのURLと、その画像のハッシュ値とを関連付けて画像DB30に保存しておけばよい。
In the present embodiment, the URL of the web page and the URL of the image are displayed on the search
なお、本実施の形態は、静止画のみではなく、動画にも適用することができるし、音楽などの画像以外の各種コンテンツにも適用することができる。 Note that this embodiment can be applied not only to still images but also to moving images, and also to various contents other than images such as music.
<第2の実施の形態>
第1の実施の形態では、ハッシュ値に基づいて画像が掲載されているウェブページを検索したが、画像自身を検索のクエリーとしてその画像が掲載されているウェブページを検索する方法はこれに限らない。
<Second Embodiment>
In the first embodiment, the web page on which the image is posted is searched based on the hash value. However, the method for searching the web page on which the image is posted using the image itself as a search query is not limited to this. Absent.
第2の実施の形態は、画像の図柄、色、明るさなどの画像固有の特徴を示す特徴量に基づいて、画像が掲載されているウェブページを検索する形態である。以下、第2の実施の形態に係る画像検索システム2について説明する。以下、第1の実施の形態と同一の部分については、同一の符号を付し、詳細な説明を省略する。
The second embodiment is a form in which a web page on which an image is posted is searched based on a feature amount indicating a characteristic unique to the image such as an image pattern, color, and brightness. Hereinafter, the
図4に示すように、画像検索システム2は、主として、クローリング部10−1と、検索部20−1と、画像DB31とで構成される。クローリング部10−1は、主として、クローリングエンジン13と、画像特徴量算出装置14とで構成され、検索部20−1は、主として、画像入力装置21と、画像特徴量算出装置25と、類似検索装置26と、検索結果表示装置24とで構成される。クローリングエンジン11には、インターネット40が接続されている。クローリングエンジン11には、画像DB31が接続され、画像DB31は類似検索装置26に接続される。
As shown in FIG. 4, the
まず、クローリング部10−1について説明する。 First, the crawling unit 10-1 will be described.
クローリングエンジン13は、インターネット40の電子文書に接続して、そのウェブページのURLを取得する。また、クローリングエンジン13は、HTML等で記述されたリンク情報を辿って、ウェブページに掲載された画像のURLと、その画像データを取得する。クローリングエンジン13で収集された画像は、クローリングエンジン13から画像特徴量算出装置14に出力される。
The crawling
画像特徴量算出装置14は、クローリングエンジン13から入力された画像の特徴量を算出する。特徴量とは、画像の図柄、色、明るさなどの画像固有の特徴を表す値であり、例えば多次元のベクトルで与えられる。画像特徴量算出装置14は、例えば、図5に示すように、画像を4つに分割したときの左上の領域(領域1)、左下の領域(領域2)、右上の領域(領域3)及び右下の領域(領域4)と、画像の中心部の領域(領域5)との5個の領域の色(例えばY成分)の平均値を算出し、領域1、領域2、領域3、領域4及び領域5の色の平均値を用いた5次元のベクトルを特徴量として算出する。
The image feature
[数1]
特徴量=(領域1の平均値、領域2の平均値、領域3の平均値、領域4の平均値、領域5の平均値)
これにより、画像の図柄、色、明るさなどが同一、又はユーザから見て区別がつかない程度に図柄、色、明るさなどが異なる画像(類似画像)であれば、同一又は略同一(±1桁程度の多少の誤差を有する)の特徴量を算出することができる。すなわち、画像の拡大、縮小や、保存の形式(例えばjpeg形式からbmp形式)の変更などの処理が行われていたとしても、ユーザから見て区別がつかないのであれば、同一又は略同一の特徴量を算出することができる。
[Equation 1]
Feature amount = (average value of
As a result, if images (similar images) having the same design, color, brightness, etc., or different in design, color, brightness, etc. are indistinguishable from the user's perspective, they are the same or substantially the same (± Feature quantity (with a slight error of about one digit) can be calculated. That is, even if processing such as enlargement / reduction of an image or change of a storage format (for example, jpeg format to bmp format) is performed, the same or substantially the same if it cannot be distinguished from the user A feature amount can be calculated.
画像特徴量算出装置14で算出された特徴量は、クローリングエンジン13に出力される。クローリングエンジン13は、画像の特徴量を、その画像が取得されたウェブページのURL、その画像のURL等と関連付けて画像DB31に格納する。クローリングエンジン13は、インターネット40を自動巡回し、この処理を再帰的に行うことで、画像DB31を継続的に増大させる。
The feature amount calculated by the image feature
画像DB31のデータ構造を図6に示す。画像DB31は、画像が掲載されているウェブページのURLと、そのウェブページに掲載されている画像のURLと、その画像の特徴量とを関連付けて保存する。
The data structure of the
次に、検索部20−1について説明する。 Next, the search unit 20-1 will be described.
画像特徴量算出装置25は、画像特徴量算出装置14と同様の方法により、画像入力装置21から出力された画像から特徴量を算出する。
The image feature
類似検索装置26は、画像特徴量算出装置25から出力された特徴量と同一又は略同一の特徴量が画像DB31に含まれるかどうかを検索し、その特徴量に関連付けられたウェブページのURLと、画像のURLとを画像DB31から取得する。
The
例えば、画像入力装置21で取得された画像から画像特徴量算出装置25において特徴量「12345」が算出され、画像特徴量算出装置25から類似検索装置26に特徴量「12345」が入力されたとする。図6に示すように、画像DB31には、特徴量「12345」が1行目、4行目及び7行目に格納されているため、類似検索装置26は、1行目、4行目及び7行目に格納されているウェブページのURLと、画像のURLとを画像DB31から取得する。
For example, it is assumed that the feature value “12345” is calculated in the image feature
この時、±1桁程度の多少の誤差を許容し、同一及び略同一の特徴量に関連付けられたウェブページのURLと、画像のURLとを取得する。これにより、拡大・縮小などの加工が行われたがユーザから見て元の画像と区別がつかないような類似画像と関連付けられたウェブページのURLと、画像のURLとを確実に取得することができる。 At this time, a slight error of about ± 1 digit is allowed, and the URL of the web page and the URL of the image associated with the same and substantially the same feature amount are acquired. This ensures acquisition of the URL of the web page and the URL of the image associated with a similar image that has been processed for enlargement / reduction, but is indistinguishable from the original image from the user's perspective. Can do.
類似検索装置26は、この検索結果を一覧形式で検索結果表示装置24に出力する。検索結果表示装置24は、カラー表示が可能な液晶ディスプレイであり、類似検索装置26から出力された検索結果が検索結果表示装置24に表示される。
The
本実施の形態によれば、キーワードではなく、画像自身を検索のクエリーとして、その画像が掲載されているウェブページを検索することができる。そのため、手元にある画像の掲載元を事後的に知ることができる。また、その画像のインターネット上での利用、転載の状況を知ることができる。 According to the present embodiment, it is possible to search for a web page on which an image is posted by using the image itself instead of a keyword as a search query. Therefore, it is possible to know the publisher of the image at hand afterwards. In addition, it is possible to know the use and reprint status of the image on the Internet.
また、本実施の形態によれば、画像自身を検索のクエリーとするため、異なる画像が掲載されたウェブページが検出されることを防止することができる。また、ユーザがキーワード等を入力する必要が無いため、使い勝手を良くすることができる。 Further, according to the present embodiment, since the image itself is used as a search query, it is possible to prevent detection of a web page on which a different image is posted. In addition, since the user does not need to input a keyword or the like, usability can be improved.
また、本実施の形態によれば、画像自体の特徴を示す特徴量に基づいて検索を行うため、画像の拡大、縮小や、保存の形式(例えばjpeg形式からbmp形式)の変更などの処理が行われたとしても、ユーザから見て区別がつかないがデータとしては異なる画像が掲載されたウェブページについても確実に検索することができる。 In addition, according to the present embodiment, because the search is performed based on the feature amount indicating the feature of the image itself, processing such as enlargement / reduction of the image, change of the storage format (for example, jpeg format to bmp format), etc. Even if it is performed, it is possible to surely search for a web page on which an image different from data is posted although it cannot be distinguished from the user.
なお、本実施の形態では、特徴量として多次元のベクトルを用いたが、これに限らず、5文字〜100文字程度で構成される様々な形式のものを用いることができる。 In the present embodiment, a multidimensional vector is used as the feature amount. However, the present invention is not limited to this, and various types composed of about 5 to 100 characters can be used.
また、本実施の形態では、検索結果としてウェブページのURLと、画像のURLとを出力したが、ウェブページのURLのみを出力するようにしてもよい。 In this embodiment, the URL of the web page and the URL of the image are output as the search results, but only the URL of the web page may be output.
なお、本実施の形態は、静止画のみではなく、動画のキーフレームにも適用することができる。 Note that this embodiment can be applied not only to still images but also to key frames of moving images.
<第3の実施の形態>
第1の実施の形態及び第2の実施の形態では、ハッシュ値や特徴量という画像のデータから算出された識別情報に基づいて画像が掲載されているウェブページを検索した。これらの方法は簡易で確実な方法ではあるが、画像に文字を上書きするなどの加工がされた場合には対応することができない。
<Third Embodiment>
In the first embodiment and the second embodiment, a web page on which an image is posted is searched based on identification information calculated from image data such as a hash value and a feature amount. These methods are simple and reliable methods, but cannot cope with processing such as overwriting characters on an image.
第3の実施の形態は、画像に埋め込まれた電子透かしに基づいて画像が掲載されているウェブページを検索する形態である。以下、第3の実施の形態に係る画像検索システム3について説明する。以下、第1の実施の形態と同一の部分については、同一の符号を付し、詳細な説明を省略する。 In the third embodiment, a web page on which an image is posted is searched based on a digital watermark embedded in the image. The image search system 3 according to the third embodiment will be described below. Hereinafter, the same parts as those in the first embodiment are denoted by the same reference numerals, and detailed description thereof is omitted.
図7に示すように、画像検索システム3は、主として、クローリング部10−2と、検索部20−2と、画像DB32とで構成される。クローリング部10−2は、主として、クローリングエンジン15と、透かし検出装置16とで構成され、検索部20−2は、主として、透かし情報入力装置27と、検索装置28と、検索結果表示装置24とで構成される。クローリングエンジン15には、インターネット40が接続されている。クローリングエンジン15には、画像DB32が接続され、画像DB32は検索装置28に接続される。
As shown in FIG. 7, the image search system 3 mainly includes a crawling unit 10-2, a search unit 20-2, and an
まず、クローリング部10−2について説明する。 First, the crawling unit 10-2 will be described.
クローリングエンジン15は、インターネット40の電子文書に接続して、そのウェブページのURLを取得する。また、クローリングエンジン15は、HTML等で記述されたリンク情報を辿って、ウェブページに掲載された画像のURLと、その画像データを取得する。クローリングエンジン15で収集された画像は、クローリングエンジン15から透かし検出装置16に出力される。
The crawling
透かし検出装置16は、クローリングエンジン15から入力された画像に電子透かしが埋め込まれているか、電子透かしが埋め込まれている場合にはどのような電子透かしが埋め込まれているかを検出する。電子透かしを検出する方法については、様々な方法が公知となっているため、説明を省略する。透かし検出装置16で電子透かしが検出された場合には、検出された電子透かしの文字列がクローリングエンジン15に出力される。
The
クローリングエンジン15は、透かし検出装置16で電子透かしが検出された場合には、検出された電子透かしの文字列を、その画像が取得されたウェブページのURL、その画像のURL等と関連付けて画像DB32に格納し、透かし検出装置16で電子透かしが検出されなかった場合には、その画像が取得されたウェブページのURLと、その画像のURLとを関連付けて画像DB32に格納する。クローリングエンジン15は、インターネット40を自動巡回し、この処理を再帰的に行うことで、画像DB32を継続的に増大させる。
When the
画像DB32のデータ構造を図8に示す。画像DB32は、画像が掲載されているウェブページのURLと、そのウェブページに掲載されている画像のURLと、その画像に埋め込まれた電子透かしの文字列とを関連付けて保存する。図8に示す場合においては、1行目、2行目、4行目、6行目及び7行目には、「Copyright fujifilm」という文字列が格納されており、この5つの画像からは「Copyright fujifilm」という文字列からなる電子透かしが検出されたことを示している。また、3行目及び5行目は、電子透かしの文字列が格納されておらず、この2つの画像からは電子透かしが検出されなかったことを示している。
The data structure of the
次に、検索部20−2について説明する。 Next, the search unit 20-2 will be described.
透かし情報入力装置27は、検出対象となる画像に埋め込まれた電子透かしに関する情報、例えば電子透かしの文字列を入力する。
The watermark
検索装置28は、透かし情報入力装置27から出力された文字列と同一の文字列が画像DB32に含まれるかどうかを検索し、その文字列に関連付けられたウェブページのURLと、画像のURLとを画像DB32から取得する。
The
例えば、透かし情報入力装置27から検索装置28に「Copyright fujifilm」という文字列が入力されたとする。図8に示すように、画像DB32には、「Copyright fujifilm」という文字列が1行目、2行目、4行目、6行目及び7行目に格納されているため、検索装置28は、1行目、2行目、4行目、6行目及び7行目に格納されているウェブページのURLと、画像のURLとを取得する。
For example, it is assumed that a character string “Copyright fujifilm” is input from the watermark
検索装置28は、この検索結果を一覧形式で検索結果表示装置24に出力する。検索結果表示装置24は、カラー表示が可能な液晶ディスプレイであり、検索装置28から出力された検索結果が検索結果表示装置24に表示される。
The
本実施の形態によれば、電子透かしを用いることで、画像に文字が上書きされる、画像がトリミングされるなどの加工が行われた場合においても、その画像が掲載されているウェブページを検索することができる。そのため、手元にある画像の掲載元を事後的に知ることができる。また、その画像のインターネット上での利用、転載の状況を知ることができる。 According to this embodiment, even when processing such as overwriting characters on an image or trimming an image is performed by using a digital watermark, a web page on which the image is posted is searched. can do. Therefore, it is possible to know the publisher of the image at hand afterwards. In addition, it is possible to know the use and reprint status of the image on the Internet.
なお、本実施の形態では、電子透かしが検出されなかった画像についても画像DBに保存したが、電子透かしが検出された画像のみを画像DBに保存するようにしてもよい。 In the present embodiment, the image in which the digital watermark is not detected is also stored in the image DB. However, only the image in which the digital watermark is detected may be stored in the image DB.
なお、本実施の形態は、第1の実施の形態や第2の実施の形態と組み合わせて用いることでより精度の高い検出を行うことができる。 Note that this embodiment can perform detection with higher accuracy when used in combination with the first embodiment or the second embodiment.
なお、本発明は、クローリング部、検索部、画像DBが全て含まれた装置として提供してもよいし、2つ以上の装置からなるシステムとして提供してもよい。また、装置は、PCでもよいし、携帯端末でもよい。また、装置に限らず、装置に適用するプログラムとして提供することもできる。 Note that the present invention may be provided as a device that includes all of the crawling unit, the search unit, and the image DB, or may be provided as a system that includes two or more devices. The apparatus may be a PC or a mobile terminal. Further, the present invention is not limited to the device, and can be provided as a program applied to the device.
1、2、3:画像検索システム、10、10−1、10−2:クローリング部、11、13、15:クローリングエンジン、12:画像ハッシュ算出装置、14:画像特徴量算出装置、15:入力部、16:透かし検出装置、20、20−1、20−2:検索部、21:画像入力装置、22:画像ハッシュ算出装置、23、28:検索装置、24:検索結果表示装置、25:画像特徴量算出装置、26:類似検索装置、27:透かし情報入力装置、30、31、32:画像DB、40:インターネット
1, 2, 3:
Claims (9)
前記クローリング装置は、
インターネット上からウェブページのURLと、該ウェブページに含まれる画像とを収集するクローリング手段と、
前記クローリング手段により収集された画像の画像データに基づいて該画像の識別情報を算出する第1の識別情報算出手段と、
前記第1の識別情報算出手段により算出された識別情報と、該識別情報の基となる画像が掲載されていたウェブページのURLであって、前記クローリング手段により収集されたウェブページのURLとを関連付けて保存するデータベースと、を備え、
前記画像検索装置は、
検索対象となる画像を取得する検索画像取得手段と、
前記検索画像取得手段により取得された画像から該画像の識別情報を算出する第2の識別情報算出手段と、
前記第2の識別情報算出手段により算出された識別情報と同じ識別情報が前記データベースに含まれるかどうかを検索し、前記第2の識別情報算出手段により算出された識別情報と同じ識別情報が前記データベースに含まれていた場合には、該識別情報に関連付けられたウェブページのURLを前記データベースから取得する検索手段と、
前記検索手段により取得されたURLを出力する出力手段と、
を備えたことを特徴とする画像検索システム。 An image search system composed of a crawling device and an image search device,
The crawling device is
A crawling means for collecting a URL of a web page and an image included in the web page from the Internet;
First identification information calculation means for calculating identification information of the image based on image data of the image collected by the crawling means;
The identification information calculated by the first identification information calculation means, and the URL of the web page on which the image serving as the basis of the identification information was posted, and the URL of the web page collected by the crawling means A database to be stored in association,
The image search device includes:
Search image acquisition means for acquiring an image to be searched;
Second identification information calculation means for calculating identification information of the image from the image acquired by the search image acquisition means;
It is searched whether the same identification information as the identification information calculated by the second identification information calculation means is included in the database, and the same identification information as the identification information calculated by the second identification information calculation means is If included in the database, search means for obtaining the URL of the web page associated with the identification information from the database;
Output means for outputting the URL acquired by the search means;
An image search system comprising:
前記データベースは、前記クローリング手段により取得された画像のURLを該画像の識別情報と関連付けて保存し、
前記検索手段は、前記識別情報に関連付けられたウェブページのURL及び画像のURLを前記データベースから取得することを特徴とする請求項1に記載の画像検索システム。 The crawling means acquires the URL of the image together with the image included in the web page,
The database stores the URL of the image acquired by the crawling means in association with the identification information of the image,
The image search system according to claim 1, wherein the search unit acquires the URL of a web page and the URL of an image associated with the identification information from the database.
前記画像検索装置は、検索対象となる電子透かしに関する情報を取得する電子透かし情報取得手段を備え、
前記データベースは、前記電子透かし検出手段により検出された電子透かしに関する情報を該電子透かしに関する情報が検出された画像の識別情報と関連付けて保存し、
前記検索手段は、前記電子透かし情報取得手段により取得された電子透かしに関する情報と同じ情報が前記データベースに含まれるかどうかを検索し、前記電子透かし情報取得手段により取得された電子透かしに関する情報と同じ情報が前記データベースに含まれていた場合には、前記電子透かしに関する情報に関連付けられたウェブページのURL及び識別情報を前記データベースから取得することを特徴とする請求項1又は2に記載の画像検索システム。 The crawling device includes a digital watermark detection unit that detects whether or not a digital watermark is inserted in the image collected by the crawling unit, and detects information related to the digital watermark when the digital watermark is inserted,
The image search device includes digital watermark information acquisition means for acquiring information related to a digital watermark to be searched,
The database stores information related to the digital watermark detected by the digital watermark detection means in association with identification information of an image in which the information related to the digital watermark is detected,
The search means searches for whether the same information as the information related to the digital watermark acquired by the digital watermark information acquisition means is included in the database, and is the same as the information related to the digital watermark acquired by the digital watermark information acquisition means 3. The image search according to claim 1, wherein when the information is included in the database, the URL and identification information of the web page associated with the information related to the digital watermark are acquired from the database. system.
前記クローリング装置は、
インターネット上からウェブページのURLと、該ウェブページに含まれる静止画とを収集するクローリング手段と、
前記クローリング手段により収集された静止画に電子透かしが挿入されているかどうか、及び電子透かしが挿入されている場合には当該電子透かしに関する情報を検出する電子透かし検出手段と、
前記クローリング手段により収集されたウェブページのURLと、前記電子透かし検出手段により検出された電子透かしに関する情報とを関連付けて保存するデータベースと、を備え、
前記画像検索装置は、
検索対象となる電子透かしに関する情報を取得する電子透かし情報取得手段と、
前記電子透かし情報取得手段により取得された電子透かしに関する情報と同じ情報が前記データベースに含まれるかどうかを検索し、前記電子透かし情報取得手段により取得された電子透かしに関する情報と同じ情報が前記データベースに含まれていた場合には、該電子透かしに関する情報に関連付けられたウェブページのURLを取得する検索手段と、
前記検索手段により取得されたウェブページのURLを出力する出力手段と、
を備えたことを特徴とする画像検索システム。 An image search system composed of a crawling device and an image search device,
The crawling device is
Crawling means for collecting a URL of a web page from the Internet and a still image included in the web page;
Whether or not a digital watermark is inserted in the still image collected by the crawling means, and if a digital watermark is inserted, a digital watermark detection means for detecting information relating to the digital watermark;
A database that stores URLs of web pages collected by the crawling means in association with information about the digital watermark detected by the digital watermark detection means, and
The image search device includes:
Digital watermark information acquisition means for acquiring information related to a digital watermark to be searched;
It is searched whether or not the same information as the digital watermark information acquired by the digital watermark information acquisition means is included in the database, and the same information as the digital watermark information acquired by the digital watermark information acquisition means is stored in the database. If included, search means for acquiring the URL of the web page associated with the information related to the digital watermark;
Output means for outputting the URL of the web page acquired by the search means;
An image search system comprising:
前記データベースは、前記クローリング手段により取得された画像のURLを該画像の電子透かしに関する情報と関連付けて保存し、
前記検索手段は、前記画像の電子透かしに関する情報に関連付けられたウェブページのURL及び画像のURLを前記データベースから取得することを特徴とする請求項6に記載の画像検索システム。 The crawling means acquires the URL of the image together with the image included in the web page,
The database stores the URL of the image acquired by the crawling means in association with information on the digital watermark of the image,
The image search system according to claim 6, wherein the search unit acquires the URL of the web page and the URL of the image associated with the information related to the digital watermark of the image from the database.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008136318A JP2009282883A (en) | 2008-05-26 | 2008-05-26 | Image retrieval system, crawling device, and image retrieval device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008136318A JP2009282883A (en) | 2008-05-26 | 2008-05-26 | Image retrieval system, crawling device, and image retrieval device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009282883A true JP2009282883A (en) | 2009-12-03 |
Family
ID=41453250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008136318A Pending JP2009282883A (en) | 2008-05-26 | 2008-05-26 | Image retrieval system, crawling device, and image retrieval device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009282883A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012073999A (en) * | 2010-02-26 | 2012-04-12 | Rakuten Inc | Information processor, information processing method, information processing program and recording medium in which information processing program is recorded |
CN109345439A (en) * | 2018-09-11 | 2019-02-15 | 北京京东尚科信息技术有限公司 | Picture guard method, device, medium and electronic equipment |
JP2019191923A (en) * | 2018-04-25 | 2019-10-31 | テンソル・コンサルティング株式会社 | Image identification device, image identification method, and image identification program |
-
2008
- 2008-05-26 JP JP2008136318A patent/JP2009282883A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012073999A (en) * | 2010-02-26 | 2012-04-12 | Rakuten Inc | Information processor, information processing method, information processing program and recording medium in which information processing program is recorded |
EP2541440A1 (en) * | 2010-02-26 | 2013-01-02 | Rakuten, Inc. | Information processing device, information processing method, and recording medium that has recorded information processing program |
EP2541441A1 (en) * | 2010-02-26 | 2013-01-02 | Rakuten, Inc. | Information processing device, information processing method, and recording medium that has recorded information processing program |
US8825670B2 (en) | 2010-02-26 | 2014-09-02 | Rakuten, Inc. | Information processing device, information processing method, and recording medium that has recorded information processing program |
EP2541440A4 (en) * | 2010-02-26 | 2014-10-15 | Rakuten Inc | Information processing device, information processing method, and recording medium that has recorded information processing program |
EP2541441A4 (en) * | 2010-02-26 | 2014-10-15 | Rakuten Inc | Information processing device, information processing method, and recording medium that has recorded information processing program |
US8949267B2 (en) | 2010-02-26 | 2015-02-03 | Rakuten, Inc. | Information processing device, information processing method, and recording medium that has recorded information processing program |
JP2019191923A (en) * | 2018-04-25 | 2019-10-31 | テンソル・コンサルティング株式会社 | Image identification device, image identification method, and image identification program |
WO2019208158A1 (en) * | 2018-04-25 | 2019-10-31 | テンソル・コンサルティング株式会社 | Image identification device, image identification method, and image identification program |
JP7248968B2 (en) | 2018-04-25 | 2023-03-30 | テンソル・コンサルティング株式会社 | Image identification device, image identification method, and image identification program |
CN109345439A (en) * | 2018-09-11 | 2019-02-15 | 北京京东尚科信息技术有限公司 | Picture guard method, device, medium and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9489401B1 (en) | Methods and systems for object recognition | |
TW504624B (en) | Method and apparatus for automatically processing acquired data and contextual information and associating the same with available multimedia resources | |
US7715625B2 (en) | Image processing device, image processing method, and storage medium storing program therefor | |
US7730409B2 (en) | Method and system for visualizing weblog social network communities | |
JP5371480B2 (en) | Information processing apparatus, information processing method, and program | |
CN107463591A (en) | The method and system with the image dynamic order of content matching is treated in response to search inquiry | |
JP2007334502A (en) | Retrieving device, method, and program | |
US20130110818A1 (en) | Profile driven extraction | |
JP2009200699A (en) | Image processor and image processing method | |
CN107885820A (en) | Breadth traversal orientation grasping means based on crawler system | |
JP2008004008A (en) | Character content providing method and character content providing system | |
US8108410B2 (en) | Determining veracity of data in a repository using a semantic network | |
JPWO2020044469A1 (en) | Rogue Web Page Detection Device, Control Method and Control Program for Rogue Web Page Detection Device | |
JP2002297648A (en) | Device and program for information retrieval, and recording medium | |
JP2009282883A (en) | Image retrieval system, crawling device, and image retrieval device | |
JP2011100208A (en) | Action estimation device, action estimation method, and action estimation program | |
JP2005107931A (en) | Image search apparatus | |
JP6727097B2 (en) | Information processing apparatus, information processing method, and program | |
JP2004157668A (en) | Retrieval system, retrieval method and retrieval program | |
JP2007188427A (en) | Subject image selecting method, device, and program | |
JPH1166009A (en) | Method and device for checking use condition violation of literal work and storage medium storing use condition violation check program of literal work | |
US9420052B2 (en) | Web navigation using web navigation pattern histories | |
JP2006085234A (en) | Electronic document forming device, electronic document forming method, and electronic document forming program | |
JP2022073872A (en) | System, method, and program for extracting infringement information | |
JP6707410B2 (en) | Document search device, document search method, and computer program |