JP2018013887A - Feature selection device, tag relevant area extraction device, method, and program - Google Patents

Feature selection device, tag relevant area extraction device, method, and program Download PDF

Info

Publication number
JP2018013887A
JP2018013887A JP2016141830A JP2016141830A JP2018013887A JP 2018013887 A JP2018013887 A JP 2018013887A JP 2016141830 A JP2016141830 A JP 2016141830A JP 2016141830 A JP2016141830 A JP 2016141830A JP 2018013887 A JP2018013887 A JP 2018013887A
Authority
JP
Japan
Prior art keywords
image
unit
tag
feature
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016141830A
Other languages
Japanese (ja)
Other versions
JP6699048B2 (en
Inventor
数藤 恭子
Kyoko Sudo
恭子 数藤
崇之 梅田
Takayuki Umeda
崇之 梅田
和彦 村崎
Kazuhiko Murazaki
和彦 村崎
光太 山口
Kota Yamaguchi
光太 山口
岡谷 貴之
Takayuki Okaya
貴之 岡谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Nippon Telegraph and Telephone Corp filed Critical Tohoku University NUC
Priority to JP2016141830A priority Critical patent/JP6699048B2/en
Publication of JP2018013887A publication Critical patent/JP2018013887A/en
Application granted granted Critical
Publication of JP6699048B2 publication Critical patent/JP6699048B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To make it possible to acquire an image feature effective in identifying images.SOLUTION: An image feature creation unit 24 is configured to create a histogram expressing a distribution of an image feature as to each of images included in a positive set and a histogram expressing a distribution of an image feature included in a negative set with respect to each of a plurality of image features to be obtained from an image on the basis of the positive set and the negative set. An image feature distribution comparison unit 26 is configured to calculate a distance between the histogram of the positive set and the histogram of the negative set as to each of the plurality of image features. A feature descriptor selection unit is configured to select top N pieces of image features about the distance calculated by the image feature distribution comparison unit 26.SELECTED DRAWING: Figure 1

Description

本発明は、特徴選択装置、タグ関連領域抽出装置、方法、及びプログラムに関する。   The present invention relates to a feature selection device, a tag related region extraction device, a method, and a program.

通信環境の高品質化、撮影機能を備えたデバイス(デジタルカメラ、スマートフォン、タブレット等)の普及、それに伴うSNS(social networking service)サイトやEC(electronic commerce)サイトなどの発展により、ネットワーク上に流通する画像コンテンツの数は膨大なものとなっている。このような膨大なコンテンツを効率的に整理・検索するために、画像を自動的に解析する技術への要望が高まっている。   Distributed on the network by improving the quality of the communication environment, the widespread use of devices equipped with shooting functions (digital cameras, smartphones, tablets, etc.) and the development of social networking service (SNS) sites and EC (electronic commerce) sites. The number of image contents to be processed is enormous. In order to efficiently organize and search such enormous contents, there is an increasing demand for a technique for automatically analyzing images.

解析技術の一つとして、画像に含まれる特定の物体の領域を、予め学習した検出器によって自動的に抽出する技術がある(例えば、非特許文献1,2)。   As one of analysis techniques, there is a technique of automatically extracting a region of a specific object included in an image by a previously learned detector (for example, Non-Patent Documents 1 and 2).

また、物体らしい画像領域を抽出し、抽出した領域を物体認識用に学習済みのDeep Convolutional Neural Networks(DCNN)へ入力することで、各画像領域に物体が含まれるか否かを判定する技術が知られている(例えば、非特許文献3)。   Also, there is a technique for extracting an image area that is likely to be an object, and determining whether each image area includes an object by inputting the extracted area to Deep Convolutional Neural Networks (DCNN) that has been learned for object recognition. It is known (for example, Non-Patent Document 3).

Felzenszwalb, P., McAllester, D., & Ramanan, D.,(2008, June). "A discriminatively trained, multiscale, deformable part model.", In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on (p.1-8). IEEE.Felzenszwalb, P., McAllester, D., & Ramanan, D., (2008, June). "A discriminatively trained, multiscale, deformable part model.", In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on (p.1-8). IEEE. Malisiewicz, T., Gupta, A., & Efros, A. A.,(2011, November). "Ensemble of exemplar-svms for object detection and beyond.", In Computer Vision (ICCV), 2011 IEEE International Conference on (p.89-96). IEEE.Malisiewicz, T., Gupta, A., & Efros, AA, (2011, November). "Ensemble of exemplar-svms for object detection and beyond.", In Computer Vision (ICCV), 2011 IEEE International Conference on (p. 89-96) .IEEE. Girshick, R. (2015). "Fast r-cnn.", In Proceedings of the IEEE International Conference on Computer Vision (p.1440-1448).Girshick, R. (2015). "Fast r-cnn.", In Proceedings of the IEEE International Conference on Computer Vision (p.1440-1448).

上記非特許文献1や上記非特許文献2に記載されているような検出器を生成するためには、特定の物体を含む画像と、画像内での特定の物体の領域情報とを紐付けた学習データが大量に必要である。   In order to generate a detector as described in Non-Patent Document 1 or Non-Patent Document 2 described above, an image including a specific object is associated with region information of the specific object in the image. A large amount of learning data is required.

また、非特許文献3に記載されているような物体認識用のDCNNの学習には、大量の画像データとタグのセットが必要となる。この学習用データは、明示的には画像中の特定の物体領域は要求しないが、基本的には単一の物体が写る画像が用いられており、特定の物体の領域情報が内包された学習データが必要となる。   In addition, learning of DCNN for object recognition as described in Non-Patent Document 3 requires a large amount of image data and tag sets. This learning data does not explicitly require a specific object area in the image, but basically an image showing a single object is used, and learning that includes the area information of the specific object Data is required.

前述のようにSNSサイトにはユーザがタグを付与して投稿した大量の画像データがあり、またECサイトではコンテンツプロバイダーが例えば色や柄などのタグを付与した衣服の画像データが大量に存在しているが、従来必要とされている学習データ、すなわち、画像とタグに加えて、タグの領域情報が紐付けられたデータを生成するには大変な人手がかかる。   As described above, the SNS site has a large amount of image data posted by the user with tags, and the EC site has a large amount of image data of clothes to which the content provider has added tags such as colors and patterns. However, it takes a lot of manpower to generate learning data that is conventionally required, that is, data in which tag region information is linked in addition to images and tags.

また、画像におけるタグの領域情報を識別するためには、どのような画像特徴が有効であるのかが不明であるという問題がある。   In addition, there is a problem that it is not clear what image features are effective for identifying tag region information in an image.

本発明は、上記問題点を解決するために成されたものであり、画像識別に有効な画像特徴を取得することができる特徴選択装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a feature selection device, method, and program capable of acquiring image features effective for image identification.

また、画像中のタグと関連する領域を精度よく抽出することができるタグ関連領域抽出装置、方法、及びプログラムを提供することを目的とする。   It is another object of the present invention to provide a tag related area extracting apparatus, method, and program capable of accurately extracting an area related to a tag in an image.

上記目的を達成するために、本発明に係る映像特徴選択装置は、画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成する画像特徴生成部と、前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算する画像特徴分布比較部と、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記画像特徴を選択する特徴記述子選択部と、を含んで構成されている。   In order to achieve the above object, a video feature selection device according to the present invention includes a positive set, which is a set of images to which a tag representing a specific object included in an image is assigned, and a set of images to which the tag is not assigned. A histogram representing a distribution of the image features for each of the images included in the positive set, and an image included in the negative set, for each of a plurality of image features obtained from the image based on the negative set An image feature generation unit that generates a histogram representing the distribution of the image features for each of the image feature generation unit, and the histogram of the positive set for each of the plurality of image features generated by the image feature generation unit and the histogram An image feature distribution comparison unit for calculating a distance between the histogram and a negative set; It is configured to include a characteristic descriptor selector for selecting top N of the image features on the distance calculated by the feature distribution comparing unit.

また、本発明に係る特徴選択方法は、画像特徴生成部が、画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成するステップと、画像特徴分布比較部が、前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算するステップと、特徴記述子選択部が、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記画像特徴を選択するステップと、を含んで実行することを特徴とする。   In the feature selection method according to the present invention, the image feature generation unit includes a positive set that is a set of images to which a tag representing a specific object included in the image is assigned and a set of images to which the tag is not assigned. Based on a negative set, for each of a plurality of image features obtained from the image, a histogram representing a distribution of the image features for each of the images included in the positive set, and an image of the image included in the negative set Generating a histogram representing the distribution of the image features for each, and an image feature distribution comparison unit generated by the image feature generation unit for each of a plurality of the image features of the positive set Calculating a distance between a histogram and the histogram of the negative set; and Child selecting unit, and executes comprise the steps of selecting the top N of the image features on the distance calculated by the image feature distribution comparing unit.

また、本発明の前記画像特徴生成部は、前記ポジティブセット及び前記ネガティブセットと、予め学習されたニューラルネットワークとに基づいて、前記ポジティブセットに含まれる画像の各々及び前記ネガティブセットに含まれる画像の各々を前記ニューラルネットワークへ入力し、前記画像から得られる複数の画像特徴の各々としての前記ニューラルネットワークの各ユニットの出力に対し、前記ポジティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムとを生成し、前記特徴記述子選択部は、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記ユニットの出力を選択するようにしてもよい。   In addition, the image feature generation unit of the present invention may be configured so that each of the images included in the positive set and the images included in the negative set are based on the positive set, the negative set, and a neural network learned in advance. Distribution of the output of the unit for each of the images included in the positive set with respect to the output of each unit of the neural network as each of a plurality of image features obtained from the image, each input to the neural network And a histogram representing the distribution of the output of the unit for each of the images included in the negative set, and the feature descriptor selection unit calculates the distance calculated by the image feature distribution comparison unit The output of the top N units It may be-option.

また、本発明のタグ関連領域抽出装置は、上記の特徴選択装置と、入力画像に対してマスキングするための大きさが異なるマスクを複数生成するマスク生成部と、前記特徴記述子選択部によって選択された前記ユニットの各々の出力に対し、前記マスク生成部によって生成された複数の前記マスクの各々によってマスキングされた前記入力画像であるマスク画像の各々を、前記ニューラルネットワークへ入力し、前記マスク画像の各々から得られる、前記ユニットの出力の平均を表す画像を、画像特徴記述子として生成する特徴記述子生成部と、前記特徴記述子選択部によって選択された前記ユニットの各々の出力について、前記特徴記述子生成部によって生成された前記画像特徴記述子を正規化した正規化画像特徴記述子を生成する特徴記述子正規化部と、前記画像特徴分布比較部によって前記選択された前記ユニットの各々の出力について得られた前記距離の各々と、前記特徴記述子正規化部によって前記選択された前記ユニットの各々の出力について生成された前記正規化画像特徴記述子の各々とに基づいて、前記正規化画像特徴記述子の各々を、前記距離に応じた重みで足し合わせることにより、前記入力画像の各画素についての、前記タグと前記画素との間の関連度を算出するタグ関連度算出部と、を含んで構成されている。   Further, the tag related area extracting device of the present invention is selected by the feature selecting device, a mask generating unit that generates a plurality of masks having different sizes for masking an input image, and the feature descriptor selecting unit. For each output of the unit, the mask image, which is the input image masked by each of the plurality of masks generated by the mask generation unit, is input to the neural network, and the mask image For each of the units selected by the feature descriptor selection unit and a feature descriptor generation unit that generates an image representing an average of the output of the units obtained from each of the unit Feature description for generating a normalized image feature descriptor obtained by normalizing the image feature descriptor generated by the feature descriptor generation unit A child normalization unit, each of the distances obtained for the output of each of the units selected by the image feature distribution comparison unit, and each of the units selected by the feature descriptor normalization unit. Based on each of the normalized image feature descriptors generated for output, each of the normalized image feature descriptors is added with a weight according to the distance, so that for each pixel of the input image And a tag relevance calculating unit that calculates a relevance between the tag and the pixel.

また、前記タグ関連度算出部は、更に、前記関連度が予め定められた値以上である画像からなる領域を、前記タグと関連する領域として抽出するようにしてもよい。   In addition, the tag relevance calculation unit may further extract an area composed of images having the relevance greater than or equal to a predetermined value as an area related to the tag.

また、前記ニューラルネットワークにはCNN(Convolutional Neural Network)を用いるようにしてもよい。   The neural network may be a CNN (Convolutional Neural Network).

本発明に係るプログラムは、コンピュータを、上記の特徴選択装置あるいは上記のタグ関連領域抽出装置の各部として機能させるためのプログラムである。   The program according to the present invention is a program for causing a computer to function as each part of the feature selection device or the tag related region extraction device.

本発明の特徴選択装置、方法、及びプログラムによれば、ポジティブセット及びネガティブセットに基づいて、画像から得られる複数の画像特徴の各々に対し、ポジティブセットの画像の画像特徴の分布を表すヒストグラムと、ネガティブセットの画像の画像特徴の分布を表すヒストグラムとを生成し、複数の画像特徴の各々についての、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算し、計算された距離について上位N個の画像特徴を画像特徴記述子として選択することにより、画像識別に有効な画像特徴を取得することができる、という効果が得られる。   According to the feature selection device, method, and program of the present invention, for each of a plurality of image features obtained from an image based on a positive set and a negative set, a histogram representing the distribution of the image features of the positive set image, Generating a histogram representing the distribution of image features of the negative set image, calculating a distance between the positive set histogram and the negative set histogram for each of the plurality of image features, and calculating the calculated distance By selecting the top N image features as image feature descriptors, it is possible to obtain an effect that image features effective for image identification can be acquired.

また、本発明のタグ関連領域抽出装置、方法、及びプログラムによれば、ポジティブセットに含まれる画像の各々及びネガティブセットに含まれる画像の各々をニューラルネットワークへ入力し、ニューラルネットワークの各ユニットの出力に対し、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算し、計算された距離について上位N個のユニットの出力を選択し、入力画像に対してマスキングするための大きさが異なるマスクを複数生成し、選択されたユニットの各々の出力に対し、複数のマスクの各々によってマスキングされた入力画像であるマスク画像の各々をニューラルネットワークへ入力し、マスク画像の各々から得られる、ユニットの出力の平均を表す画像を画像特徴記述子として生成し、生成された画像特徴記述子を正規化した正規化画像特徴記述子を生成し、選択されたユニットの各々の出力について得られた距離の各々と、選択されたユニットの各々の出力について生成された正規化画像特徴記述子の各々とに基づいて、正規化画像特徴記述子の各々を距離に応じた重みで足し合わせることにより、入力画像の各画素についての、タグと画素との間の関連度を算出することにより、画像中のタグと関連する領域を精度よく抽出することができる、という効果が得られる。   In addition, according to the tag related region extraction apparatus, method, and program of the present invention, each of the images included in the positive set and each of the images included in the negative set are input to the neural network, and the output of each unit of the neural network is output. In contrast, the distance between the positive set histogram and the negative set histogram is calculated, the output of the top N units is selected for the calculated distance, and the size for masking the input image is different. A unit that generates a plurality of masks and inputs each mask image, which is an input image masked by each of the plurality of masks, to the neural network for each output of the selected unit, and is obtained from each of the mask images An image representing the average of the output of the image is generated as an image feature descriptor Generate a normalized image feature descriptor that is a normalization of the generated image feature descriptor, and generate each of the distances obtained for each output of the selected unit and each output of the selected unit. Based on each of the normalized image feature descriptors, the degree of association between the tag and the pixel for each pixel of the input image by adding each of the normalized image feature descriptors with a weight corresponding to the distance. By calculating, it is possible to extract an area related to the tag in the image with high accuracy.

本発明の実施の形態に係るタグ関連領域抽出装置の構成を示すブロック図である。It is a block diagram which shows the structure of the tag relevant area extraction apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係るタグ関連領域抽出装置のタグ関連領域抽出部の一構成例を示す図である。It is a figure which shows the example of 1 structure of the tag relevant area extraction part of the tag relevant area extraction apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係るタグ関連領域抽出装置におけるタグ関連領域抽出処理ルーチンを示すフローチャートである。It is a flowchart which shows the tag relevant area extraction processing routine in the tag relevant area extraction apparatus which concerns on embodiment of this invention. 本発明の実施の形態を用いた実験結果の例を示す図である。It is a figure which shows the example of the experimental result using embodiment of this invention. 本発明の実施の形態を用いた実験結果の例を示す図である。It is a figure which shows the example of the experimental result using embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態に係る概要> <Outline according to Embodiment of the Present Invention>

本発明の実施の形態では、タグの有無による画像特徴の分布の変化および画像の各領域から得られる特徴記述子の違いを用いて、タグと関連の強い領域を画像から抽出する。   In the embodiment of the present invention, a region strongly associated with a tag is extracted from an image by using a change in distribution of image features depending on the presence or absence of a tag and a difference in feature descriptors obtained from each region of the image.

具体的には、何らかの局所的な特徴記述子を画像集合に適用し、タグが付与された画像集合から得られる画像特徴の分布と、タグが付与されていない画像集合から得られる画像特徴の分布との間で分布間距離を算出し、最も距離が離れているものから認識容易なタグであるとして選出する。この場合、特徴記述子を多数用意することで、画像特徴の分布間距離の大きいタグと同時に、画像特徴の分布間距離の大きな特徴記述子を得ることができる。これは、視覚的な認識において有用な特徴記述子であると見ることができる。   Specifically, applying some local feature descriptor to the image set, the distribution of image features obtained from the image set with the tag attached, and the distribution of image features obtained from the image set without the tag attached The distance between the distributions is calculated between them, and the tag that is the most distant is selected as the tag that can be easily recognized. In this case, by preparing a large number of feature descriptors, it is possible to obtain a feature descriptor having a large distance between image feature distributions simultaneously with a tag having a large distance between image feature distributions. This can be seen as a feature descriptor useful in visual recognition.

さらにこれを用いて、タグが付与された画像集合に特徴的な画像特徴記述を得ることができる。こうして得られた特徴記述子と特徴的な画像特徴記述と画像の各領域から得られる特徴記述とを比べることで、タグと関連の強い領域を得ることができる。   Furthermore, using this, it is possible to obtain an image feature description characteristic of the image set to which the tag is attached. By comparing the feature descriptor thus obtained, the characteristic image feature description, and the feature description obtained from each region of the image, a region strongly associated with the tag can be obtained.

以下では、タグが付与された画像集合としてSNSに投稿されたファッションコーディネート画像と関連のタグとのセットを想定する。   In the following, a set of a fashion coordinated image posted to the SNS as an image set to which a tag is attached and a related tag is assumed.

<本発明の実施の形態に係るタグ関連領域抽出装置の構成> <Configuration of Tag Related Area Extraction Device According to Embodiment of the Present Invention>

次に、本発明の実施の形態に係るタグ関連領域抽出装置の構成について説明する。図1に示すように、本発明の実施の形態に係るタグ関連領域抽出装置100は、CPUと、RAMと、後述するタグ関連領域抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。このタグ関連領域抽出装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部40とを備えている。タグ関連領域抽出装置100は、タグが付与された画像集合からタグに関連する領域を抽出する。   Next, the configuration of the tag related area extracting apparatus according to the embodiment of the present invention will be described. As shown in FIG. 1, a tag related area extraction device 100 according to an embodiment of the present invention includes a CPU, a RAM, and a ROM that stores a program and various data for executing a tag related area extraction processing routine described later. And a computer including the above. Functionally, the tag related area extracting apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 40 as shown in FIG. The tag related area extraction apparatus 100 extracts an area related to a tag from an image set to which the tag is assigned.

入力部10は、タグ付き画像集合Dを受け付ける。タグは、画像に特定の物体が含まれていることを表す。タグ付き画像集合Dには、タグu毎に、タグuが付与された画像の集合であるポジティブセットD と、タグuが付与されていない画像の集合であるネガティブセットD とが含まれている。また、入力部10は、タグu毎に、当該タグが付与された入力画像I(x,y)を受け付ける。 The input unit 10 receives the tagged image set D. The tag represents that a specific object is included in the image. The tagged image set D includes, for each tag u, a positive set D u + that is a set of images to which the tag u is assigned and a negative set D u that is a set of images to which the tag u is not assigned. include. Further, the input unit 10 receives an input image I (x, y) to which the tag is assigned for each tag u.

演算部20は、画像集合データベース22と、画像特徴生成部24と、画像特徴分布比較部26と、特徴記述子選択部28と、タグ関連領域抽出部30とを備えている。   The calculation unit 20 includes an image set database 22, an image feature generation unit 24, an image feature distribution comparison unit 26, a feature descriptor selection unit 28, and a tag related region extraction unit 30.

画像集合データベース22には、入力部10によって受け付けた、各タグuのポジティブセットD とネガティブセットD とを含むタグ付き画像集合Dが格納される。 The image set database 22 stores the tagged image set D including the positive set D u + and the negative set D u − of each tag u, which is received by the input unit 10.

画像特徴生成部24は、タグu毎に、画像集合データベース22に格納されている、ポジティブセットD 及びネガティブセットD と、予め学習されたニューラルネットワークとに基づいて、ポジティブセットD 及びネガティブセットD に含まれる全ての画像に対し、画像特徴を生成する。 The image feature generation unit 24, for each tag u, based on the positive set D u + and the negative set D u stored in the image set database 22 and the previously learned neural network, the positive set D u. Image features are generated for all images included in the + and negative set D u .

具体的には、まず、画像特徴生成部24は、画像集合データベース22に格納されたポジティブセットD に含まれる画像の各々及びネガティブセットD に含まれる画像の各々を、予め学習されたニューラルネットワークへ入力する。 Specifically, first, the image feature generation unit 24 learns in advance each of the images included in the positive set D u + and each of the images included in the negative set D u stored in the image set database 22. Input to the neural network.

本実施の形態では、画像から得られる各画像特徴として、予め学習されたニューラルネットワークの各ユニットの出力を用いる場合を例に説明する。また、予め学習されたニューラルネットワークとして、Convolutional Neural Network(CNN)を用いる場合を例に説明する。CNNは局所的な特徴記述子としてみなすことができる。CNNは内部に多数のフィルタを保持しており、それぞれのフィルタの出力を異なる特徴記述子として用いることができる。なお、本実施の形態では、CNNのフィルタは物体認識のための画像データセットなどを用いて事前に学習されたものを用いる。以下では、CNNの各層において用いられるフィルタをユニットと呼ぶ。   In the present embodiment, a case where the output of each unit of a neural network learned in advance is used as each image feature obtained from an image will be described as an example. A case where a convolutional neural network (CNN) is used as a previously learned neural network will be described as an example. The CNN can be viewed as a local feature descriptor. The CNN has a large number of filters inside, and the output of each filter can be used as a different feature descriptor. In the present embodiment, a CNN filter that has been learned in advance using an image data set for object recognition or the like is used. Below, the filter used in each layer of CNN is called a unit.

次に、画像特徴生成部24は、画像から得られる各画像特徴としてのニューラルネットワークの各ユニットiに対し、ポジティブセットD に含まれる画像の各々についての当該ユニットの出力の分布を表すヒストグラムP と、ネガティブセットD に含まれる画像の各々についての当該ユニットiの出力の分布を表すヒストグラムP とを生成する。 Next, for each unit i of the neural network as each image feature obtained from the image, the image feature generation unit 24 represents a histogram representing the output distribution of the unit for each of the images included in the positive set D u +. P i + and a histogram P i representing the output distribution of the unit i for each of the images included in the negative set D u are generated.

画像特徴分布比較部26は、タグu毎に、複数のユニットiの各々について、画像特徴生成部24によって生成されたポジティブセットD のヒストグラムP とネガティブセットD のヒストグラムP との間の距離を計算する。 Image feature distribution comparing unit 26, for each tag u, for each of a plurality of units i, positive set generated by the image feature generation unit 24 D u + histogram P i + and negative set of D u - histogram P i - calculating the distance between the.

本実施の形態では、ヒストグラムP とヒストグラムP と間の距離として、カルバック・ライブラー距離(以下、KL距離と称する)を用いる場合を例に説明する。 In the present embodiment, a case will be described as an example in which a Cullback-Lailer distance (hereinafter referred to as KL distance) is used as the distance between the histogram P i + and the histogram P i .

画像集合データベース22に格納されたタグ付き画像集合Dから得られる、タグuに対する、ポジティブセットD とネガティブセットD との間のKL距離S(u│D)は、ヒストグラムの各binをxとして以下のように求められる。なお、xは各ユニットから出力される値を表す。 The KL distance S i (u | D) between the positive set D u + and the negative set D u for the tag u, obtained from the tagged image set D stored in the image set database 22, is calculated for each histogram. It is obtained as follows with bin as x. Note that x represents a value output from each unit.

例えば、uが視覚的に認識容易でないタグである場合、ポジティブセットD の画像特徴の分布はランダムに近くなり、ポジティブセットD の画像特徴の分布とネガティブセットD の画像特徴の分布との差は小さくなる。一方、uが視覚的に認識容易なタグである場合、ポジティブセットD の画像特徴の分布とネガティブセットD の画像特徴の分布との差が大きくなる。 For example, if u is a tag not visually recognized easily, the distribution of positive set D u + of the image features it is close to random, positive set D u + of the image features of the distribution and negative set D u - image features The difference from the distribution of is small. On the other hand, when u is a visually recognizable tag, the difference between the distribution of image features of the positive set D u + and the distribution of image features of the negative set D u becomes large.

そのため、例えば「赤」「白」といった色の名前のタグや、「ボーダー」「花柄」といったテクスチャのタグの場合、KL距離S(u│D)の値は大きくなる。 Therefore, for example, in the case of a tag with a color name such as “red” or “white” or a texture tag such as “border” or “floral pattern”, the value of the KL distance S i (u | D) increases.

そして、画像特徴分布比較部26は、複数のユニットの各々についての、KL距離S(u│D)を出力する。 Then, the image feature distribution comparison unit 26 outputs the KL distance S i (u | D) for each of the plurality of units.

特徴記述子選択部28は、タグu毎に、画像特徴分布比較部26によって計算された距離について上位N個のユニットを画像特徴として選択する。   The feature descriptor selection unit 28 selects, for each tag u, the top N units for the distance calculated by the image feature distribution comparison unit 26 as image features.

具体的には、特徴記述子選択部28は、画像特徴分布比較部26によって計算されたKL距離S(u│D)を入力として、KL距離S(u│D)の値が大きい方からN個のユニットを画像特徴として選択し、選択されたKL距離S(u│D)の上位N個のユニットからなる集合をθとする。 Specifically, the feature descriptor selection unit 28 uses the KL distance S i (u | D) calculated by the image feature distribution comparison unit 26 as an input, and has a larger value of the KL distance S i (u | D). N units are selected as image features, and a set consisting of the top N units of the selected KL distance S i (u | D) is defined as θ u .

タグ関連領域抽出部30は、タグu毎に、特徴記述子選択部28によって選択されたKL距離S(u│D)の上位N個のユニットからなる集合θに基づいて、当該タグが付与された入力画像から、当該タグと関連する領域を抽出する。タグ関連領域抽出部30は、マスク生成部32と、特徴記述子生成部34と、特徴記述子正規化部36と、タグ関連度算出部38とを備えている。 For each tag u, the tag related region extraction unit 30 determines that the tag is based on a set θ u composed of the top N units of the KL distance S i (u | D) selected by the feature descriptor selection unit 28. A region related to the tag is extracted from the given input image. The tag related area extraction unit 30 includes a mask generation unit 32, a feature descriptor generation unit 34, a feature descriptor normalization unit 36, and a tag association degree calculation unit 38.

マスク生成部32は、入力部10によって受け付けた入力画像I(x,y)に対してマスキングするための、大きさが異なるマスクを複数生成する。マスクは、データセットの平均画像(マスクをかける画像と同じ解像度)の対応する同じ位置から切り取ったものを用いる。マスクのサイズは、例えば入力画像I(x,y)の10分の1、5分の1、3分の1などとする。   The mask generation unit 32 generates a plurality of masks having different sizes for masking the input image I (x, y) received by the input unit 10. As the mask, an image cut from the same corresponding position of the average image (the same resolution as the image to be masked) of the data set is used. The size of the mask is, for example, one tenth, one fifth, one third, or the like of the input image I (x, y).

特徴記述子生成部34は、タグu毎に、特徴記述子選択部28によって当該タグuについて選択されたユニットからなる集合θの各ユニットの出力に対し、マスク生成部32によって生成された複数のマスクの各々によってマスキングされた入力画像であるマスク画像の各々を、ニューラルネットワークへ入力する。そして、特徴記述子生成部34は、当該タグuについて選択されたユニットからなる集合θの各ユニットの出力に対し、マスク画像の各々から得られる、当該ユニットの出力の平均を表す画像を、画像特徴記述子として生成する。 For each tag u, the feature descriptor generator 34 generates a plurality of units generated by the mask generator 32 for the output of each unit of the set θ u composed of units selected for the tag u by the feature descriptor selector 28. Each mask image, which is an input image masked by each of the masks, is input to the neural network. Then, the feature descriptor generation unit 34 obtains an image representing the average of the outputs of the units obtained from each of the mask images for the output of each unit of the set θ u composed of the units selected for the tag u. Generated as an image feature descriptor.

特徴記述子生成部34では、入力画像I(x,y)に対し(x,y)で規定されるマスクによって画像の一部領域を隠し、ユニットiの出力に対して、一部領域が隠された画像から画像特徴記述子A(x,y)を生成する。このようなマスクから画像特徴記述子を生成する関数をa(x,y)と定義する。A(x,y)は、i番目の特徴記述子(ここではi番目のユニットの出力)で、複数のマスクに対応して得られた出力の平均とする。 The feature descriptor generation unit 34 hides a partial area of the image with the mask defined by (x, y) with respect to the input image I (x, y) and hides the partial area with respect to the output of the unit i. An image feature descriptor A i (x, y) is generated from the processed image. A function for generating an image feature descriptor from such a mask is defined as a i (x, y). A i (x, y) is an i-th feature descriptor (here, the output of the i-th unit), and is an average of outputs obtained corresponding to a plurality of masks.

特徴記述子正規化部36は、タグu毎に、特徴記述子選択部28によって選択されたユニットからなる集合θのユニットiの各々の出力について、特徴記述子生成部34によって生成された画像特徴記述子A(x,y)を正規化した正規化画像特徴記述子R(x,y)を生成する。 The feature descriptor normalization unit 36 generates an image generated by the feature descriptor generation unit 34 for each output of the unit i of the set θ u composed of units selected by the feature descriptor selection unit 28 for each tag u. A normalized image feature descriptor R i (x, y) obtained by normalizing the feature descriptor A i (x, y) is generated.

具体的には、まず、特徴記述子正規化部36は、各ユニットiの画像特徴記述子A(x,y)の平均画像を算出する。そして、特徴記述子正規化部36は、ユニットiの各々について、画像特徴記述子A(x,y)を入力し、画像特徴記述子A(x,y)と平均画像との差分が最大値をとるときの、当該差分の値が負である場合は画像特徴記述子A(x,y)全体に−1を掛ける。そして、特徴記述子正規化部36は、各ユニットiの画像特徴記述子A(x,y)を、0から1の間の値に正規化したものを正規化画像特徴記述子R(x,y)とする。 Specifically, first, the feature descriptor normalization unit 36 calculates an average image of the image feature descriptors A i (x, y) of each unit i. The feature descriptor normalizing unit 36, for each unit i, the image characteristic descriptor A i (x, y) enter the image feature descriptors A i (x, y) the difference between the average image and the When the value of the difference when taking the maximum value is negative, the entire image feature descriptor A i (x, y) is multiplied by −1. Then, the feature descriptor normalization unit 36 normalizes the image feature descriptor A i (x, y) of each unit i to a value between 0 and 1, and the normalized image feature descriptor R i ( x, y).

タグ関連度算出部38は、タグu毎に、特徴記述子選択部28によって選択されたユニットからなる集合θのユニットiの各々の出力について得られたKL距離S(u│D)の各々と、特徴記述子正規化部36によって選択されたユニットiの各々の出力について生成された正規化画像特徴記述子R(x,y)の各々とに基づいて、正規化画像特徴記述子R(x,y)の各々を、KL距離S(u│D)に応じた重みで足し合わせることにより、入力画像I(x,y)の各画素についての、タグと画素との間の関連度を算出する。 For each tag u, the tag relevance calculation unit 38 calculates the KL distance S i (u | D) obtained for each output of the unit i of the set θ u composed of units selected by the feature descriptor selection unit 28. Based on each and each of the normalized image feature descriptors R i (x, y) generated for each output of the unit i selected by the feature descriptor normalization unit 36, By adding each of R i (x, y) with a weight according to the KL distance S i (u | D), between the tag and the pixel for each pixel of the input image I (x, y). The relevance of is calculated.

タグ関連度算出部38は、入力画像I(x,y)の各画素についての、タグuと画素との間の関連度を表すタグ関連領域M(x,y|u,I)を、以下の式(2)により算出する。   The tag relevance calculating unit 38 calculates a tag related region M (x, y | u, I) representing the relevance between the tag u and the pixel for each pixel of the input image I (x, y) as follows. (2) is calculated.

ここで、S(u│D)はタグ付き画像集合Dから得られる、タグuに対する、ポジティブセットD のヒストグラムP とネガティブセットD のヒストグラムP との間のKL距離であり、ZはS(u│D)の大きいユニットから順にN個のユニットまでのS(u│D)を足し合わせたものである。 Here, S i (u│D) is obtained from the tagged image set D, to the tag u, positive set D u + histogram P i + and negative set D u - KL between - histogram P i Z is a sum of S i (u | D) from the unit with the largest S i (u | D) up to N units.

また、タグ関連度算出部38は、更に、上記式(2)に従って算出した関連度が予め定められた値以上である画像からなる領域を、タグと関連する領域として抽出してもよい。   In addition, the tag relevance calculation unit 38 may further extract an area including images whose relevance calculated according to the above equation (2) is equal to or greater than a predetermined value as an area related to the tag.

<本発明の実施の形態に係るタグ関連領域抽出装置の作用> <Operation of Tag Related Area Extraction Device According to Embodiment of Present Invention>

次に、本発明の実施の形態に係るタグ関連領域抽出装置100の作用について説明する。入力部10においてタグ付き画像集合Dを受け付けて画像集合データベース22に格納し、入力画像I(x,y)が入力されると、タグ関連領域抽出装置100は、タグu毎に、図3に示すタグ関連領域抽出処理ルーチンを実行する。   Next, the operation of the tag related region extraction device 100 according to the embodiment of the present invention will be described. When the input unit 10 receives the tagged image set D and stores it in the image set database 22, and the input image I (x, y) is input, the tag related area extracting device 100 performs the process shown in FIG. The tag related area extraction processing routine shown is executed.

まず、ステップS100において、画像特徴生成部24は、画像集合データベース22に格納されている、ポジティブセットD 及びネガティブセットD を取得する。 First, in step S < b > 100, the image feature generation unit 24 obtains a positive set D u + and a negative set D u stored in the image set database 22.

次に、ステップS102において、画像特徴生成部24は、上記ステップS100で取得したポジティブセットD に含まれる画像の各々及びネガティブセットD に含まれる画像の各々を、CNNへ入力する。そして、画像特徴生成部24は、CNNの各ユニットiに対し、ポジティブセットD に含まれる画像の各々についての当該ユニットの出力の分布を表すヒストグラムP と、ネガティブセットD に含まれる画像の各々についての当該ユニットiの出力の分布を表すヒストグラムP とを生成する。 Next, in step S102, the image feature generation unit 24 inputs each of the images included in the positive set D u + acquired in step S100 and each of the images included in the negative set D u to the CNN. Then, the image feature generation unit 24, for each unit i of the CNN, the histogram P i + representing the distribution of the output of the unit for each of the images included in the positive set D u +, negative set function D u - in A histogram P i representing the output distribution of the unit i for each of the included images is generated.

ステップS104において、画像特徴分布比較部26は、上記ステップS102で生成された、複数のユニットの各々についての、ポジティブセットD のヒストグラムP とネガティブセットD のヒストグラムP との間の距離を、上記式(1)に従って計算する。 In step S104, the image feature distribution comparison unit 26 generates the positive set D u + histogram P i + and the negative set D u histogram P i for each of the plurality of units generated in step S102. Is calculated according to the above equation (1).

ステップS106において、特徴記述子選択部28は、上記ステップS104で計算された距離について上位N個のユニットを選択し、ユニットの集合θとする。 In step S106, the feature descriptor selection unit 28 selects the top N units for the distance calculated in step S104, and sets it as a unit set θ u .

ステップS108において、マスク生成部32は、入力部10によって受け付けた入力画像I(x,y)に対してマスキングするための、大きさが異なるマスクを複数生成する。   In step S <b> 108, the mask generating unit 32 generates a plurality of masks having different sizes for masking the input image I (x, y) received by the input unit 10.

ステップS110において、特徴記述子生成部34は、上記ステップS106で選択されたユニットからなる集合θのユニットiの各々の出力に対し、上記ステップS108で生成された複数のマスクの各々によってマスキングされた入力画像であるマスク画像の各々を、ニューラルネットワークへ入力する。そして、特徴記述子生成部34は、ユニットiの各々の出力に対し、マスク画像の各々から得られる、ユニットiの出力の平均を表す画像を、画像特徴記述子A(x,y)として生成する。 In step S110, the feature descriptor generation unit 34 masks each output of the unit i of the set θ u composed of the units selected in step S106 with each of the plurality of masks generated in step S108. Each of the mask images as input images is input to the neural network. Then, the feature descriptor generation unit 34 sets, as an image feature descriptor A i (x, y), an image representing the average of the output of the unit i obtained from each of the mask images for each output of the unit i. Generate.

ステップS112において、特徴記述子正規化部36は、上記ステップS106で選択されたユニットからなる集合θのユニットiの各々の出力について、上記ステップS110で生成された画像特徴記述子A(x,y)を正規化した正規化画像特徴記述子R(x,y)を生成する。 In step S112, the feature descriptor normalization unit 36 generates the image feature descriptor A i (x) generated in step S110 for each output of the unit i of the set θ u composed of the units selected in step S106. , Y) to generate a normalized image feature descriptor R i (x, y).

ステップS114において、タグ関連度算出部38は、上記ステップS106で選択されたユニットからなる集合θのユニットiの各々の出力について得られたKL距離S(u│D)の各々と、選択されたユニットiの各々の出力について上記ステップS112で生成された正規化画像特徴記述子R(x,y)の各々とに基づいて、上記式(2)に従って、正規化画像特徴記述子R(x,y)の各々を、KL距離S(u│D)に応じた重みで足し合わせることにより、入力画像I(x,y)の各画素についての、タグと画素との間の関連度を算出する。 In step S114, the tag relevance calculation unit 38 selects each of the KL distances S i (u | D) obtained for each output of the unit i of the set θ u including the units selected in step S106, and selects Based on each of the normalized image feature descriptors R i (x, y) generated in step S112 for each output of the unit i, the normalized image feature descriptor R according to the above equation (2). By adding each of i (x, y) with a weight according to the KL distance S i (u | D), between the tag and the pixel for each pixel of the input image I (x, y) Calculate relevance.

ステップS116において、出力部40は、上記ステップS114で算出された、入力画像I(x,y)の各画素についての、タグと画素との間の関連度を結果として出力し処理を終了する。   In step S116, the output unit 40 outputs the degree of association between the tag and the pixel for each pixel of the input image I (x, y) calculated in step S114, and ends the process.

<実験例>
図4は、実際の画像に対し、人手でタグ抽出したタグ関連領域と、本発明の実施の形態に係るタグ関連領域抽出装置により得られたタグ関連領域の例である。また、図5は、ヒストグラム間の距離S(u│D)の大きい方から選択するユニットの数Nの値を変えた場合の抽出されたタグ関連領域である。最適なユニットの数Nの値はタグにより異なる。ユニットの数Nの値が大きくなると計算量は増えるが、より詳細にタグ関連領域が抽出されている。
<Experimental example>
FIG. 4 is an example of a tag-related region obtained by manually extracting tags from an actual image and a tag-related region obtained by the tag-related region extraction device according to the embodiment of the present invention. FIG. 5 shows extracted tag-related regions when the value of the number N of units to be selected from the one having the larger distance S i (u | D) between the histograms is changed. The value of the optimal number N of units depends on the tag. As the number N of units increases, the amount of calculation increases, but tag-related areas are extracted in more detail.

以上説明したように、本発明の実施の形態に係るタグ関連領域抽出装置によれば、ポジティブセットに含まれる画像の各々及びネガティブセットに含まれる画像の各々をCNNへ入力し、CNNの各ユニットの出力に対し、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算し、計算された距離について上位N個のユニットの出力を選択し、入力画像に対してマスキングするための大きさが異なるマスクを複数生成し、選択されたユニットの各々の出力に対し、複数のマスクの各々によってマスキングされた入力画像であるマスク画像の各々をCNNへ入力し、マスク画像の各々から得られる、ユニットの出力の平均を表す画像を画像特徴記述子として生成し、生成された画像特徴記述子を正規化した正規化画像特徴記述子を生成し、選択されたユニットの各々の出力について得られた距離の各々と、選択されたユニットの各々の出力について生成された正規化画像特徴記述子の各々とに基づいて、正規化画像特徴記述子の各々を距離に応じた重みで足し合わせることにより、入力画像の各画素についての、タグと画素との間の関連度を算出することにより、画像中のタグと関連する領域を精度よく抽出することができる。   As described above, according to the tag related region extracting device according to the embodiment of the present invention, each of the images included in the positive set and each of the images included in the negative set are input to the CNN, and each unit of the CNN is input. The size for calculating the distance between the positive set histogram and the negative set histogram, selecting the output of the top N units for the calculated distance, and masking the input image A plurality of different masks are generated, and for each output of the selected unit, each of the mask images, which are input images masked by each of the plurality of masks, is input to the CNN and obtained from each of the mask images. An image representing the average output of the unit is generated as an image feature descriptor, and the generated image feature descriptor is normalized. Based on each of the distances obtained for each output of the selected unit and each of the normalized image feature descriptors generated for each output of the selected unit. By adding each of the normalized image feature descriptors with a weight corresponding to the distance, the degree of association between the tag and the pixel for each pixel of the input image is calculated, thereby associating with the tag in the image. The area to be performed can be extracted with high accuracy.

また、本発明の実施の形態によれば、このような領域情報は含まないが、画像と画像に含まれるタグが紐付いたデータから、タグ毎の関連領域を学習することができる。   Further, according to the embodiment of the present invention, such region information is not included, but a related region for each tag can be learned from data associated with an image and a tag included in the image.

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

例えば、上記の実施の形態は、本発明をタグ関連領域抽出装置に適用した場合を例に説明したが、これに限定されるものではなく、本発明を特徴選択装置に適用してもよい。その場合には、特徴選択装置は、画像特徴生成部24と、画像特徴分布比較部26と、特徴記述子選択部28とを含んで構成される。   For example, in the above-described embodiment, the case where the present invention is applied to the tag-related region extraction device has been described as an example. However, the present invention is not limited to this, and the present invention may be applied to a feature selection device. In this case, the feature selection device includes an image feature generation unit 24, an image feature distribution comparison unit 26, and a feature descriptor selection unit 28.

この特徴選択装置によれば、ポジティブセット及びネガティブセットに基づいて、画像から得られる複数の画像特徴の各々に対し、ポジティブセットの画像の画像特徴の分布を表すヒストグラムと、ネガティブセットの画像の画像特徴の分布を表すヒストグラムとを生成し、複数の画像特徴の各々についての、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算し、計算された距離について上位N個の画像特徴を画像特徴記述子として選択することにより、画像識別に有効な画像特徴を取得することができる。   According to this feature selection apparatus, for each of a plurality of image features obtained from an image based on a positive set and a negative set, a histogram representing the distribution of image features of the positive set image and an image of the negative set image Generating a histogram representing the distribution of features, calculating a distance between the positive set histogram and the negative set histogram for each of the plurality of image features, and calculating the top N image features for the calculated distance. By selecting as an image feature descriptor, an image feature effective for image identification can be acquired.

また、上記の実施の形態は、画像から得られる各画像特徴として、予め学習されたニューラルネットワークの各ユニットの出力を用いる場合を例に説明したが、これに限定されるものではなく、他の画像特徴を用いてもよい。   In the above embodiment, the case where the output of each unit of the neural network learned in advance is used as each image feature obtained from the image is described as an example. However, the present invention is not limited to this. Image features may be used.

また、上述した実施の形態では、ニューラルネットワークとしてCNNを用いる場合を例に説明したがこれに限定されるものではなく、他のニューラルネットワークを用いてもよい。   In the above-described embodiment, the case where CNN is used as the neural network has been described as an example. However, the present invention is not limited to this, and another neural network may be used.

また、上述した実施の形態では、ヒストグラム間の距離としてカルバック・ライブラー距離を用いる場合を例に説明したがこれに限定されるものではなく、他の距離を用いてもよい。   Further, in the above-described embodiment, the case where the Cullback / Librer distance is used as the distance between the histograms has been described as an example, but the present invention is not limited to this, and other distances may be used.

上述のタグ関連領域抽出装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   The tag related area extracting apparatus 100 described above has a computer system inside, but the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. .

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10 入力部
20 演算部
22 画像集合データベース
24 画像特徴生成部
26 画像特徴分布比較部
28 特徴記述子選択部
30 タグ関連領域抽出部
32 マスク生成部
34 特徴記述子生成部
36 特徴記述子正規化部
38 タグ関連度算出部
40 出力部
100 タグ関連領域抽出装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 22 Image set database 24 Image feature generation part 26 Image feature distribution comparison part 28 Feature descriptor selection part 30 Tag related area extraction part 32 Mask generation part 34 Feature descriptor generation part 36 Feature descriptor normalization part 38 Tag Relevance Degree Calculation Unit 40 Output Unit 100 Tag Related Area Extraction Device

Claims (8)

画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成する画像特徴生成部と、
前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算する画像特徴分布比較部と、
前記画像特徴分布比較部によって計算された前記距離について上位N個の前記画像特徴を選択する特徴記述子選択部と、
を含む特徴選択装置。
Based on a positive set which is a set of images to which a tag representing a specific object included in the image is assigned and a negative set which is a set of images to which the tag is not assigned, a plurality of image features obtained from the image Image features that generate, for each, a histogram representing the distribution of the image features for each of the images included in the positive set and a histogram representing the distribution of the image features for each of the images included in the negative set. A generator,
An image feature distribution comparison unit that calculates a distance between the histogram of the positive set and the histogram of the negative set for each of a plurality of the image features generated by the image feature generation unit;
A feature descriptor selection unit that selects the top N image features for the distance calculated by the image feature distribution comparison unit;
A feature selection device.
前記画像特徴生成部は、前記ポジティブセット及び前記ネガティブセットと、予め学習されたニューラルネットワークとに基づいて、前記ポジティブセットに含まれる画像の各々及び前記ネガティブセットに含まれる画像の各々を前記ニューラルネットワークへ入力し、前記画像から得られる複数の画像特徴の各々としての前記ニューラルネットワークの各ユニットの出力に対し、前記ポジティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムとを生成し、
前記特徴記述子選択部は、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記ユニットの出力を選択する
請求項1に記載の特徴選択装置。
The image feature generation unit is configured to convert each of the images included in the positive set and each of the images included in the negative set based on the positive set and the negative set and a previously learned neural network to the neural network. A histogram representing the distribution of the output of the unit for each of the images included in the positive set, for the output of each unit of the neural network as each of a plurality of image features obtained from the image; Generating a histogram representing the distribution of the output of the unit for each of the images included in the negative set;
The feature selection apparatus according to claim 1, wherein the feature descriptor selection unit selects the outputs of the top N units for the distance calculated by the image feature distribution comparison unit.
請求項2に記載の特徴選択装置と、
入力画像に対してマスキングするための大きさが異なるマスクを複数生成するマスク生成部と、
前記特徴記述子選択部によって選択された前記ユニットの各々の出力に対し、前記マスク生成部によって生成された複数の前記マスクの各々によってマスキングされた前記入力画像であるマスク画像の各々を、前記ニューラルネットワークへ入力し、前記マスク画像の各々から得られる、前記ユニットの出力の平均を表す画像を、画像特徴記述子として生成する特徴記述子生成部と、
前記特徴記述子選択部によって選択された前記ユニットの各々の出力について、前記特徴記述子生成部によって生成された前記画像特徴記述子を正規化した正規化画像特徴記述子を生成する特徴記述子正規化部と、
前記画像特徴分布比較部によって前記選択された前記ユニットの各々の出力について得られた前記距離の各々と、前記特徴記述子正規化部によって前記選択された前記ユニットの各々の出力について生成された前記正規化画像特徴記述子の各々とに基づいて、前記正規化画像特徴記述子の各々を、前記距離に応じた重みで足し合わせることにより、前記入力画像の各画素についての、前記タグと前記画素との間の関連度を算出するタグ関連度算出部と、
を含むタグ関連領域抽出装置。
A feature selection device according to claim 2;
A mask generation unit that generates a plurality of masks having different sizes for masking an input image;
For each output of the unit selected by the feature descriptor selection unit, each of the mask images as the input image masked by each of the plurality of masks generated by the mask generation unit is converted into the neural network. A feature descriptor generator for generating an image representing an average of the output of the unit, which is input to the network and obtained from each of the mask images, as an image feature descriptor;
A feature descriptor normal that generates a normalized image feature descriptor obtained by normalizing the image feature descriptor generated by the feature descriptor generation unit for each output of the unit selected by the feature descriptor selection unit. And
Each of the distances obtained for the output of each of the selected units by the image feature distribution comparison unit, and the output of each of the units selected by the feature descriptor normalization unit. The tag and the pixel for each pixel of the input image by adding each of the normalized image feature descriptors with a weight according to the distance based on each of the normalized image feature descriptors A tag relevance calculator that calculates the relevance between
A tag-related area extracting device including:
前記タグ関連度算出部は、更に、前記関連度が予め定められた値以上である画像からなる領域を、前記タグと関連する領域として抽出する
請求項3に記載のタグ関連領域抽出装置。
The tag related region extraction device according to claim 3, wherein the tag relevance calculation unit further extracts a region formed of an image having a relevance greater than or equal to a predetermined value as a region related to the tag.
前記ニューラルネットワークにはCNN(Convolutional Neural Network)を用いる
請求項2に記載の特徴選択装置。
The feature selection device according to claim 2, wherein a CNN (Convolutional Neural Network) is used for the neural network.
前記ニューラルネットワークにはCNN(Convolutional Neural Network)を用いる
請求項3又は請求項4に記載のタグ関連領域抽出装置。
The tag-related region extraction device according to claim 3 or 4, wherein a CNN (Convolutional Neural Network) is used for the neural network.
画像特徴生成部が、画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成するステップと、
画像特徴分布比較部が、前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算するステップと、
特徴記述子選択部が、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記画像特徴を選択するステップと、
を含む特徴選択方法。
The image feature generation unit is obtained from the image based on a positive set that is a set of images to which a tag representing a specific object included in the image is assigned and a negative set that is a set of images to which the tag is not assigned. A histogram representing the distribution of the image features for each of the images included in the positive set and a histogram representing the distribution of the image features for each of the images included in the negative set. Generating and
An image feature distribution comparison unit calculating a distance between the histogram of the positive set and the histogram of the negative set for each of the plurality of image features generated by the image feature generation unit; ,
A feature descriptor selection unit selecting the top N image features for the distance calculated by the image feature distribution comparison unit;
A feature selection method including:
コンピュータを、請求項1、請求項2、又は請求項5に記載の特徴選択装置、あるいは請求項3、請求項4、又は請求項6に記載のタグ関連領域抽出装置の各部として機能させるためのプログラム。   For causing a computer to function as each part of the feature selection device according to claim 1, claim 2, or 5, or the tag related region extraction device according to claim 3, claim 4, or claim 6 program.
JP2016141830A 2016-07-19 2016-07-19 Feature selecting device, tag related area extracting device, method, and program Active JP6699048B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016141830A JP6699048B2 (en) 2016-07-19 2016-07-19 Feature selecting device, tag related area extracting device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016141830A JP6699048B2 (en) 2016-07-19 2016-07-19 Feature selecting device, tag related area extracting device, method, and program

Publications (2)

Publication Number Publication Date
JP2018013887A true JP2018013887A (en) 2018-01-25
JP6699048B2 JP6699048B2 (en) 2020-05-27

Family

ID=61019497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016141830A Active JP6699048B2 (en) 2016-07-19 2016-07-19 Feature selecting device, tag related area extracting device, method, and program

Country Status (1)

Country Link
JP (1) JP6699048B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020004179A (en) * 2018-06-29 2020-01-09 富士通株式会社 Image processing program, image processing apparatus, and image processing method
CN113159312B (en) * 2020-01-23 2023-08-18 腾讯美国有限责任公司 Method for compressing neural network model, computer system and storage medium
JP7350582B2 (en) 2019-03-28 2023-09-26 キヤノンメディカルシステムズ株式会社 Systems, devices, and learning methods for model learning

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020004179A (en) * 2018-06-29 2020-01-09 富士通株式会社 Image processing program, image processing apparatus, and image processing method
JP7070157B2 (en) 2018-06-29 2022-05-18 富士通株式会社 Image processing program, image processing device and image processing method
JP7350582B2 (en) 2019-03-28 2023-09-26 キヤノンメディカルシステムズ株式会社 Systems, devices, and learning methods for model learning
CN113159312B (en) * 2020-01-23 2023-08-18 腾讯美国有限责任公司 Method for compressing neural network model, computer system and storage medium

Also Published As

Publication number Publication date
JP6699048B2 (en) 2020-05-27

Similar Documents

Publication Publication Date Title
WO2019169772A1 (en) Picture processing method, electronic apparatus, and storage medium
CN109284729B (en) Method, device and medium for acquiring face recognition model training data based on video
Zhao et al. ApLeaf: An efficient android-based plant leaf identification system
US9122958B1 (en) Object recognition or detection based on verification tests
US8792722B2 (en) Hand gesture detection
US8750573B2 (en) Hand gesture detection
CN109583449A (en) Character identifying method and Related product
CN108492294B (en) Method and device for evaluating harmony degree of image colors
US10445602B2 (en) Apparatus and method for recognizing traffic signs
JP2019145040A (en) Feature expression device, method and program
CN108960412B (en) Image recognition method, device and computer readable storage medium
CN109871845B (en) Certificate image extraction method and terminal equipment
CN112633297B (en) Target object identification method and device, storage medium and electronic device
CN108875727B (en) The detection method and device of graph-text identification, storage medium, processor
CN112348126B (en) Method and device for identifying target object in printed article
CN114862845B (en) Defect detection method, device and equipment for mobile phone touch screen and storage medium
CN112101386B (en) Text detection method, device, computer equipment and storage medium
JP6699048B2 (en) Feature selecting device, tag related area extracting device, method, and program
CN108647264A (en) A kind of image automatic annotation method and device based on support vector machines
Shete et al. Tasselgan: An application of the generative adversarial model for creating field-based maize tassel data
TWI731919B (en) Image recognition method and device and metric learning method and device
JP2018013886A (en) Recognition easiness index calculation device, method, and program
CN110795995A (en) Data processing method, device and computer readable storage medium
CN112069357B (en) Video resource processing method and device, electronic equipment and storage medium
CN112434547B (en) User identity auditing method and device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200408

R150 Certificate of patent or registration of utility model

Ref document number: 6699048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250