JP7394680B2 - Image similarity estimation system, learning device, estimation device, and program - Google Patents
Image similarity estimation system, learning device, estimation device, and program Download PDFInfo
- Publication number
- JP7394680B2 JP7394680B2 JP2020057919A JP2020057919A JP7394680B2 JP 7394680 B2 JP7394680 B2 JP 7394680B2 JP 2020057919 A JP2020057919 A JP 2020057919A JP 2020057919 A JP2020057919 A JP 2020057919A JP 7394680 B2 JP7394680 B2 JP 7394680B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- appearance
- model
- feature
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 claims description 186
- 239000000284 extract Substances 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 28
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 description 18
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 238000013136 deep learning model Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Images
Description
特許法第30条第2項適用 (1) 発行者名 一般社団法人 電子情報通信学会 刊行物名 信学技報,vol.119,no.386,MVE2019-30,pp.31-32,2020年1月 発行年月日 令和2年1月16日 (2) 公開日 令和2年1月23日 集会名 メディアエクスペリエンス・バーチャル環境基礎研究会(MVE) 開催場所 奈良先端科学技術大学院大学 情報科学棟 A会場(奈良県生駒市高山町8916番地の5(けいはんな学研都市))Application of Article 30, Paragraph 2 of the Patent Act (1) Publisher name: Institute of Electronics, Information and Communication Engineers Publication name: IEICE Technical Report, vol. 119, no. 386, MVE2019-30, pp. 31-32, January 2020 Publication date January 16, 2020 (2) Publication date January 23, 2020 Meeting name Media Experience Virtual Environment Basic Study Group (MVE) Venue Nara Advanced Research Center Graduate University of Science and Technology Information Science Building Venue A (8916-5 Takayama-cho, Ikoma City, Nara Prefecture (Keihanna Science City))
本発明は、画像類似度推定システム、学習装置、推定装置、及びプログラムに関する。 The present invention relates to an image similarity estimation system, a learning device, an estimation device, and a program.
特許庁における商標出願の審査においては、出願に係る商標と、既に出願済みの商標とが類似するか否かが判断される。文字や図形等などの画像が類似するか否かを判定する技術として、画像の特徴に基づく深層学習を行い、類似する画像を抽出するものがある。例えば、特許文献1には、画像の複数個所を特定し、特定したそれぞれの箇所の特徴量を算出し、算出したそれぞれの特徴量に基づき、類似する画像を抽出する技術が開示されている。
When examining a trademark application at the Japan Patent Office, it is determined whether the trademark in the application is similar to a trademark that has already been applied for. As a technique for determining whether images of characters, figures, etc. are similar, there is a technique that performs deep learning based on image characteristics to extract similar images. For example,
しかしながら、商標の類否は、出願商標及び引用商標がその外観、称呼又は観念等によって需要者に与える印象、記憶、連想等を総合して全体的に観察し、出願商標を指定商品又は指定役務に使用した場合に引用商標と出所混同のおそれがあるか否かにより判断する(商標法第4条第1項第11号の審査基準)。つまり、外観のみならず、称呼及び観念のそれぞれの観点から、総合的に商標の類否が判断される。このため、特許文献1の技術を用いて画像の類似性、つまり外観の類似性のみを判定するだけでは、商標の類比を判断するうえで不十分となる問題があった。
However, the similarity of trademarks is determined by comprehensively observing the impression, memory, association, etc. that the applied trademark and cited trademark give to consumers through their appearance, pronunciation, concept, etc., and Judgment will be made based on whether there is a risk of confusion with the source of the cited trademark when used in a trademark (examination criteria under Article 4,
本発明は、上記問題を解決すべくなされたもので、その目的は、外観のみならず観念を考慮して画像の類否を判定することができる画像類似度推定システム、学習装置、推定装置、及びプログラムを提供することにある。 The present invention has been made to solve the above-mentioned problems, and its purpose is to provide an image similarity estimation system, a learning device, an estimation device, and a learning device capable of determining the similarity of images by considering not only the appearance but also the concept. and programs.
上記問題を解決するために、本発明の一態様は、画像の外観を示す外観情報を取得する外観情報取得部と、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、を備え、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、ことを特徴とする画像類似度推定システムである。 In order to solve the above problem, one aspect of the present invention uses an appearance information acquisition unit that acquires appearance information indicating the appearance of an image, the appearance information in the image, and an appearance feature extraction model to determine the appearance of the image. an appearance feature extraction unit that extracts appearance feature quantities indicating the characteristics of the image; a classification information acquisition unit that acquires classification information indicating the classification of the image; A classified text feature extraction unit that extracts a classified text feature indicating the feature of the wording that indicates the classification of the image, the appearance feature in the image, the classified text feature, and a multimodal model to extract the entire image in the image. an overall feature extraction unit that extracts an overall feature amount that is a feature; a model generation unit that generates the appearance feature extraction model and the multimodal model; the overall feature amount in the target image and the overall feature amount in the comparison image. an image similarity estimating unit that estimates a degree of similarity between the target image and the comparison image based on the above, and the appearance feature extraction model outputs the appearance feature amount in the image from the appearance information in the image. The model generation unit generates the appearance feature extraction model by making the learning model learn the correspondence between the appearance information and the classification information in the learning image, and the classified text feature extraction model , the multimodal model is a model that outputs the overall feature amount of the image from the appearance feature amount and the classified text feature amount of the image; The model generation unit includes the appearance feature amount in the training image extracted by the appearance feature extraction unit, the classified text feature amount in the training image extracted by the classified text feature extraction unit, and the training image. The image similarity estimation system is characterized in that the multimodal model is generated by causing a learning model to learn the correspondence relationship between the images and the classification information.
また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記外観特徴抽出モデルは、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構を含み、前記モデル生成部は、前記アテンション機構に、前記学習用画像における前記外観情報と前記分類情報との対応関係に応じた重みを学習させるようにしてもよい。 Further, in one aspect of the present invention, in the image similarity estimation system described above, the appearance feature extraction model includes an attention mechanism that outputs a value weighted to an internal state of a deep learning learning model, and the model generation The unit may cause the attention mechanism to learn a weight according to a correspondence relationship between the appearance information and the classification information in the learning image.
また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記分類テキスト特徴抽出モデルは、文言に含まれる単語の特徴量を示す単語特徴量を、前記単語のidf値で重みづけした値に基づいて当該文言の特徴を抽出するモデルであり、前記idf値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値であるようにしてもよい。 In addition, one aspect of the present invention is that in the image similarity estimation system described above, the classified text feature extraction model weights word features indicating features of words included in a sentence using an idf value of the word. The idf value may be a value calculated by performing statistical processing on an image group that is a set of classified images. .
また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記idf値は、分類済みの画像の集合である画像群の数における、前記分類テキスト特徴量を含む画像の数に対する割合を用いて算出される値であるようにしてもよい。 Further, in one aspect of the present invention, in the image similarity estimation system described above, the idf value is determined based on the number of images including the classified text feature amount in the number of image groups that are a set of classified images. The value may be calculated using a ratio.
また、本発明の一態様は、上記に記載の画像類似度推定システムにおいて、前記モデル生成部は、前記学習用画像における前記外観特徴量及び前記分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する前処理を行い、前記前処理を行った前記学習用画像における、前記外観特徴量及び前記分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成するようにしてもよい。 Further, in one aspect of the present invention, in the image similarity estimation system described above, the model generation unit is configured such that the appearance feature amount and the classified text feature amount in the learning image are included within the same range. performing preprocessing to normalize the data, and causing a learning model to learn the correspondence between the appearance feature amount, the classified text feature amount, and the classification information in the learning image subjected to the preprocessing. The multimodal model may be generated by:
また、本発明の一態様は、画像の外観を示す外観情報を取得する外観情報取得部と、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、を備え、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する学習装置である。 Further, one aspect of the present invention provides an appearance information acquisition unit that acquires appearance information indicating the appearance of an image, and an appearance feature indicating the appearance feature of the image using the appearance information in the image and an appearance feature extraction model. an appearance feature extraction unit that extracts the quantity; a classification information acquisition unit that acquires classification information indicating the classification of the image; A classified text feature extraction unit that extracts a classified text feature indicating a feature, and a global feature that is a feature of the entire image in the image using the appearance feature, the classified text feature, and a multimodal model in the image. and a model generation unit that generates the appearance feature extraction model and the multimodal model, and the appearance feature extraction model extracts the appearance features in the image from the appearance information in the image. The model generation unit generates the appearance feature extraction model by making the learning model learn the correspondence between the appearance information and the classification information in the learning image, and generates the appearance feature extraction model and generates the classification text. The feature extraction model is a model that extracts the feature amount of words indicating classification, and the multimodal model is a model that outputs the overall feature amount of the image from the appearance feature amount and the classification text feature amount of the image. The model generation unit is configured to include the appearance feature amount in the training image extracted by the appearance feature extraction unit, and the classified text feature amount in the training image extracted by the classification text feature extraction unit. , a learning device that generates the multimodal model by causing a learning model to learn a correspondence relationship with the classification information in the learning image.
また、本発明の一態様は、画像の外観を示す外観情報を取得する外観情報取得部と、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、を備え、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである推定装置である。 Further, one aspect of the present invention provides an appearance information acquisition unit that acquires appearance information indicating the appearance of an image, and an appearance feature indicating the appearance feature of the image using the appearance information in the image and an appearance feature extraction model. an appearance feature extraction unit that extracts the quantity; a classification information acquisition unit that acquires classification information indicating the classification of the image; A classified text feature extraction unit that extracts a classified text feature indicating a feature, and a global feature that is a feature of the entire image in the image using the appearance feature, the classified text feature, and a multimodal model in the image. an image similarity estimating unit that estimates a degree of similarity between the target image and the comparison image based on the overall feature amount in the target image and the overall feature amount in the comparison image. The appearance feature extraction model is a model that outputs the appearance feature amount in the image from the appearance information in the image, and causes the learning model to learn the correspondence between the appearance information and the classification information in the learning image. The classified text feature extraction model is a model that extracts the feature amount of the wording indicating the classification, and the multimodal model is a model that extracts the feature amount of the wording that indicates the classification. , is a model that outputs the overall feature amount in the image, the appearance feature amount in the training image extracted by the appearance feature extraction unit, and the training image extracted by the classified text feature extraction unit. The estimation device is a model generated by causing a learning model to learn the correspondence between the classified text feature amount and the classification information in the learning image.
また、本発明の一態様は、コンピュータを、画像の外観を示す外観情報を取得する外観情報取得手段、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、画像の分類を示す分類情報を取得する分類情報取得手段、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出手段、前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成手段、として機能させるためのプログラムであって、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、前記モデル生成手段において、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルが生成され、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記モデル生成手段において、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルが生成される、プログラムである。 Further, one aspect of the present invention provides a computer that uses an appearance information acquisition unit that acquires appearance information indicating the appearance of an image, the appearance information in the image, and an appearance feature extraction model to indicate the appearance characteristics of the image. Appearance feature extraction means for extracting appearance feature amounts, classification information acquisition means for acquiring classification information indicating the classification of the image, the classification information in the image, and a classification text feature extraction model to extract the text indicating the classification of the image. A classified text feature extraction means for extracting a classified text feature indicating a feature, the appearance feature in the image, the classified text feature, and a multimodal model to extract the overall feature that is the feature of the entire image in the image. A program for functioning as overall feature extraction means for extracting, the appearance feature extraction model, and model generation means for generating the multimodal model, wherein the appearance feature extraction model extracts the appearance information from the image from the appearance information in the image. The model outputs the appearance feature amount in the model generation means, and the appearance feature extraction model is generated by causing the learning model to learn the correspondence between the appearance information and the classification information in the learning image. , the classification text feature extraction model is a model for extracting the feature amount of a wording indicating classification, and the multimodal model extracts the overall feature amount in the image from the appearance feature amount and the classification text feature amount in the image. In the model generating means, the appearance feature quantity in the learning image extracted by the appearance feature extraction means and the classification in the learning image extracted by the classified text feature extraction means are used. This program generates the multimodal model by causing a learning model to learn the correspondence between text features and the classification information in the learning image.
また、本発明の一態様は、コンピュータを、画像の外観を示す外観情報を取得する外観情報取得手段、画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、画像の分類を示す分類情報を取得する分類情報取得手段、画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定手段、として機能させるためのプログラムであって、前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、プログラムである。 Further, one aspect of the present invention provides a computer that uses an appearance information acquisition unit that acquires appearance information indicating the appearance of an image, the appearance information in the image, and an appearance feature extraction model to indicate the appearance characteristics of the image. Appearance feature extraction means for extracting appearance feature amounts, classification information acquisition means for acquiring classification information indicating the classification of the image, the classification information in the image, and a classification text feature extraction model to extract the text indicating the classification of the image. A classified text feature extraction means for extracting a classified text feature indicating a feature, the appearance feature in the image, the classified text feature, and a multimodal model to extract the overall feature that is the feature of the entire image in the image. It functions as an overall feature extraction unit that extracts, and an image similarity estimation unit that estimates a degree of similarity between the target image and the comparison image based on the overall feature amount in the target image and the overall feature amount in the comparison image. The appearance feature extraction model is a model that outputs the appearance feature amount of the image from the appearance information of the image, and calculates the correspondence between the appearance information and the classification information in the learning image. The model is a model generated by training a learning model, the classification text feature extraction model is a model that extracts the feature amount of a wording indicating classification, and the multimodal model is a model that extracts the feature amount of the wording indicating the classification, and the multimodal model is a model that extracts the feature amount of the wording indicating the classification. It is a model that outputs the overall feature amount of the image from the classified text feature amount, and the appearance feature amount in the training image extracted by the appearance feature extraction means and the appearance feature amount extracted by the classified text feature extraction means. The program is a model that is generated by causing a learning model to learn the correspondence between the classified text feature amount in the learning image and the classification information in the learning image.
この発明によれば、外観のみならず観念を考慮して画像の類否を判定することができる。 According to this invention, it is possible to determine the similarity of images by considering not only the appearance but also the concept.
以下、本発明の実施形態について図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.
実施形態の画像類似度推定システム1は、画像同士が類似する度合いを推定するシステムである。画像類似度推定システム1は、例えば、特許庁における商標出願の審査における、出願に係る商標の類似の判定に適用される。
The image
商標の審査においては、外観の類似のみならず、称呼や概念的な類似を考慮した類似が判断される。例えば、商標の審査では、商標に付与される図形分類を用いて検索の論理式が作成される。そして、作成された論理式を用いた検索が実行されることにより、既に出願済みの商標の中から、出願に係る商標に類似する可能性がある商標の絞り込みが行われる。絞り込まれた商標の中から、外観、称呼、又は概念が類似するものが抽出される。 When examining trademarks, similarity is determined not only by appearance, but also by appellation and conceptual similarity. For example, in trademark examination, a logical search formula is created using the graphic classification assigned to the trademark. Then, by executing a search using the created logical formula, trademarks that are likely to be similar to the trademark in the application are narrowed down from among the trademarks that have already been applied for. From the narrowed down trademarks, those with similar appearance, name, or concept are extracted.
一般的に、深層学習のモデルを用いた画像処理では、画像における外観の特徴が多次元で抽出される。そして、外観の特徴を多次元空間で表現したベクトル同士の距離の近さに応じて類似度合いが推定される。すなわち、画像における外観の特徴から、類似度合いが推定される。このため、外観の特徴が全く異なる画像を類似すると推定することはほとんどあり得ない。例えば、同じ物体(例えば、たて琴など)を表現した画像であって、一方が写真など写実的な自然画像であり、他方がデザインされたイラスト画像である場合を考える。この場合、両画像における外観の特徴が大きく異なっている場合には、両者が類似すると推定されることは困難である。すなわち、たて琴の写真を示す画像と、たて琴をデザインしたイラスト画像とが類似すると推定されることは困難である。しかしながら、「たて琴」という概念が同一であることから、商標の類否判定においては、しばしば、両者が概念的に類似すると判断される場合がある。一般的な深層学習のモデルを用いた画像処理では、このような商標における概念が類似する画像を精度よく推定することが困難であった。 Generally, in image processing using a deep learning model, external features in an image are extracted in multiple dimensions. Then, the degree of similarity is estimated according to the closeness of the vectors expressing the appearance features in a multidimensional space. That is, the degree of similarity is estimated from the appearance characteristics of the images. For this reason, it is almost impossible to estimate that images with completely different external features are similar. For example, consider a case where two images depict the same object (such as a harp), one of which is a realistic natural image such as a photograph, and the other a designed illustration image. In this case, if the external features of both images are significantly different, it is difficult to estimate that the two images are similar. That is, it is difficult to estimate that an image showing a photograph of a harp and an illustration image in which a harp is designed are similar. However, since the concept of "tatekoto" is the same, when determining similarity of trademarks, it is often determined that the two are conceptually similar. In image processing using general deep learning models, it is difficult to accurately estimate images with similar concepts in trademarks.
この対策として、本実施形態の画像類似度推定システム1では、分類テキスト特徴抽出モデル173を用いた推定を行う。分類テキスト特徴抽出モデル173は、画像における概念の特徴を学習させたモデルである。すなわち、本実施形態の画像類似度推定システム1では、画像における外観の特徴のみならず、画像における概念の特徴を抽出することができる。これにより、画像から抽出した概念の特徴を示すベクトル同士の距離の近さに応じて、概念の観点から類似度合いを推定することが可能となる。したがって、概念が類似する画像を抽出することができる。
As a countermeasure against this, the image
なお、ここでの画像における概念とは、画像の分類を示す文言であり、例えば、商標に付与された図形分類に相当する文言である。本実施形態における概念の特徴とは、文言に含まれる単語の特徴であり、例えば、単語を分散表現した単語ベクトルである。以下の説明では、画像における概念の特徴を、分類テキスト特徴と称する場合がある。 Note that the concept in the image here is a wording that indicates the classification of the image, and is, for example, a wording that corresponds to a graphical classification given to a trademark. The feature of a concept in this embodiment is a feature of a word included in a sentence, and is, for example, a word vector that is a distributed representation of a word. In the following description, conceptual features in images may be referred to as classified text features.
また、本実施形態の画像類似度推定システム1では、深層学習のモデルを用いて外観特徴抽出モデル172と分類テキスト特徴抽出モデル173を生成する。外観特徴抽出モデル172は、画像における外観の特徴を学習させたモデルである。分類テキスト特徴抽出モデル173は、外観と概念のそれぞれの特徴量に基づいて画像全体の特徴(以下、全体特徴ともいう)を抽出するモデルである。すなわち、本実施形態の画像類似度推定システム1では、画像における外観と概念のそれぞれの特徴量を統合させた特徴(全体特徴)を抽出することができる。これにより、画像から抽出した外観と概念の特徴を統合的に示すベクトル同士の距離の近さに応じて、外観と概念の両方を統合させた観点から類似度合いを推定することが可能となる。したがって、外観と概念とを統合的にみて類似する画像を抽出することができる。
Furthermore, the image
図1は、実施形態の画像類似度推定システム1の構成例を示すブロック図である。画像類似度推定システム1は、例えば、外観情報取得部10と、外観特徴抽出部11と、分類情報取得部12と、分類テキスト特徴抽出部13と、全体特徴抽出部14と、モデル生成部15と、画像類似度推定部16と、記憶部17と、推定結果出力部18とを備える。
FIG. 1 is a block diagram showing a configuration example of an image
外観情報取得部10は、画像における外観を示す情報を取得する。画像における外観を示す情報は、画像の見た目を示す情報であって、例えば、画素ごとの座標にRGB値が対応づけられた情報である。外観情報取得部10は、取得した情報を、記憶部17の外観情報170として記憶させる。
The appearance
外観特徴抽出部11は、画像における外観情報170、及び外観特徴抽出モデル172を用いて、当該画像における外観の特徴量(外観特徴量)を抽出する。外観特徴抽出モデル172は、画像における外観情報から当該画像における外観特徴量を出力するモデルである。外観特徴抽出モデル172は、モデル生成部15によって生成される。外観特徴抽出モデル172の詳細については後で詳しく説明する。
The appearance
分類情報取得部12は、画像における分類を示す情報を取得する。画像における分類を示す情報は、画像に示された内容を分類する情報であって、例えば、商標における図形分類を示す情報である。分類情報取得部12は、取得した情報を、記憶部17の分類情報171として記憶させる。
The classification
分類テキスト特徴抽出部13は、画像における分類情報171、及び分類テキスト特徴抽出モデル173を用いて、当該画像における分類を示す文言の特徴量(分類テキスト特徴量)を抽出する。分類テキスト特徴抽出モデル173は、画像における分類情報から当該画像における分類テキスト特徴量を出力するモデルである。分類テキスト特徴抽出モデル173は、モデル生成部15によって生成される。分類テキスト特徴抽出モデル173の詳細については後で詳しく説明する。
The classified text
全体特徴抽出部14は、画像における外観特徴量、分類テキスト特徴量、及びマルチモーダルモデル174を用いて、当該画像における画像全体の特徴量(全体特徴量)を抽出する。全体特徴抽出部14は、画像における外観特徴量を外観特徴抽出部11から取得する。全体特徴抽出部14は、画像における分類テキスト特徴量を分類テキスト特徴抽出部13から取得する。マルチモーダルモデル174は、画像における外観特徴量及び分類テキスト特徴量から、当該画像における全体特徴量を出力するモデルである。マルチモーダルモデル174の詳細については後で詳しく説明する。
The overall
モデル生成部15は、外観特徴抽出モデル172を生成する。この際、モデル生成部15は、学習用画像における外観情報と分類情報との対応関係を深層学習のモデルに学習させる。これにより、モデル生成部15は、入力された画像の外観情報から、当該画像における分類情報を出力するモデルを生成し、生成したモデルを示す情報を記憶部17の外観特徴抽出モデル172として記憶させる。モデルを示す情報は、例えば、深層学習のモデルがCNN(Convolutional Neural Network)の学習モデルであれば、CNNの入力層、中間層、出力層の各層のユニット数、隠れ層の層数、活性化関数などを示す情報や、各階層のノードを結合する結合係数や重みを示す情報である。
The
また、モデル生成部15は、マルチモーダルモデル174を生成する。この際、モデル生成部15は、学習用画像における外観特徴量及び分類テキスト特徴量と、分類情報との対応関係を深層学習のモデルに学習させる。モデル生成部15は、外観特徴抽出部11によって抽出された学習用画像における外観特徴量を取得する。モデル生成部15は、分類テキスト特徴抽出部13によって抽出された学習用画像における分類テキスト特徴量を取得する。これにより、モデル生成部15は、入力された画像の外観特徴量及び分類テキスト特徴量から、当該画像における分類情報を出力するモデルを生成する。
Furthermore, the
ここで、画像の外観特徴量及び分類テキスト特徴量から抽出された分類情報は、画像の外観特徴量及び分類テキスト特徴量の双方に基づく特徴であり、全体特徴ということができる。すなわち、モデル生成部15は、学習用画像における外観特徴量及び分類テキスト特徴量と、分類情報との対応関係を深層学習のモデルに学習させることにより、当該画像における全体特徴を出力するモデルを生成する。モデル生成部15は、作成したモデルを示す情報を記憶部17のマルチモーダルモデル174として記憶させる。
Here, the classification information extracted from the appearance feature amount and the classified text feature amount of the image is a feature based on both the image appearance feature amount and the classified text feature amount, and can be called an overall feature. That is, the
画像類似度推定部16は、画像の類似度合い(画像類似度)を推定する。画像類似度推定部16は、複数の画像のそれぞれについて全体特徴量を取得する。画像類似度推定部16は、全体特徴抽出部14によって抽出された画像の全体特徴量を取得する。画像類似度推定部16は、それぞれの画像から抽出された全体特徴における互いのベクトル空間上の距離(例えば、コサイン類似度)を算出する。例えば、画像類似度推定部16は、算出した距離の順番を、類似する可能性が高い順序として推定する。或いは、画像類似度推定部16は、算出した距離が所定の閾値未満であった場合、両画像が類似すると推定するようにしてもよい。
The image
推定結果出力部18は、画像類似度推定部16によって推定された推定結果を出力する。推定結果出力部18は、例えば、推定結果を図示しないディスプレイに出力することにより、推定結果を表示させる。或いは、推定結果出力部18は、推定結果を図示しないプリンタに出力することにより、推定結果を印刷するようにしてもよい。
The estimation
上述した画像類似度推定システム1の機能部(外観情報取得部10、外観特徴抽出部11、分類情報取得部12、分類テキスト特徴抽出部13、全体特徴抽出部14、モデル生成部15、画像類似度推定部16、及び推定結果出力部18)は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
Functional units of the image
記憶部17は、少なくとも1つの記憶媒体を任意に組み合わせることによって構成される。記憶媒体は、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)である。記憶部17は、画像類似度推定システム1の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。
The
記憶部17は、例えば、外観情報170と、分類情報171と、外観特徴抽出モデル172と、分類テキスト特徴抽出モデル173と、マルチモーダルモデル174とを記憶する。
The
ここで、外観情報170と、分類情報171について、図2から図5を用いて説明する。
図2は、実施形態の画像Gの例を示すブロック図である。図3は、実施形態の図形分類Zの例を示す図である。図4は、実施形態の外観情報170の構成例を示す図である。図5は、実施形態の分類情報171の構成例を示す図である。
Here, the
FIG. 2 is a block diagram showing an example of the image G of the embodiment. FIG. 3 is a diagram showing an example of figure classification Z according to the embodiment. FIG. 4 is a diagram illustrating a configuration example of
図2に示すように、画像Gは、例えば、円の中に描かれた看護師のイラストを示す画像である。図2の例に示す画像Gにおける外観の特徴として、例えば、図3に示すような図形分類Zが付与される。この例では、図形分類Zは、「2.3.1 頭部、上半身」及び「2.3.3 尼僧、看護婦」などである。 As shown in FIG. 2, the image G is, for example, an image showing an illustration of a nurse drawn in a circle. As a feature of the appearance of the image G shown in the example of FIG. 2, for example, a figure classification Z as shown in FIG. 3 is assigned. In this example, the figure classifications Z are "2.3.1 Head, upper body" and "2.3.3 Nun, nurse".
図4に示すように外観情報170は、例えば、画像IDと外観情報とを備える。画像IDは画像を一意に識別する識別情報である。外観情報は、画像における外観を示す情報である。この例では、外観情報として、画素ごとの座標とRGB値とを示す情報が示されている。
As shown in FIG. 4, the
図5に示すように分類情報171は、例えば、画像IDと分類情報とを備える。画像IDは画像を一意に識別する識別情報である。分類情報は、画像における分類を示す情報である。この例では、分類情報として、商標における図形分類の番号体系とその番号体系に対応する分類の文言とが対応づけられた情報が示されている。
As shown in FIG. 5, the
ここで、画像類似度推定システム1が画像の全体特徴を抽出する処理の流れを説明する。図6は、実施形態の画像類似度推定システム1が行う処理を説明する図である。
Here, a process flow in which the image
図6に示すように、画像類似度推定システム1は、画像Gにおける外観情報を外観特徴抽出モデル172に入力させることにより、外観特徴抽出モデル172から画像Gの外観特徴量を出力させる。また、画像類似度推定システム1は、画像Gにおける分類情報を分類テキスト特徴抽出モデル173に入力させることにより、分類テキスト特徴抽出モデル173から画像Gの分類テキスト特徴量を出力させる。そして、画像類似度推定システム1は、マルチモーダルモデル174に、画像Gにおける外観特徴量及び分類テキスト特徴量を入力させることにより、マルチモーダルモデル174から、画像Gにおける全体特徴量を出力させる。このように、画像類似度推定システム1では、外観特徴抽出モデル172、分類テキスト特徴抽出モデル173、及びマルチモーダルモデル174を用いて、画像Gにおける外観情報及び分類情報から、画像Gの全体特徴量を抽出する。
As shown in FIG. 6, the image
ここで、外観特徴抽出モデル172について、図7を用いて詳しく説明する。図7は、実施形態の外観特徴抽出モデル172を説明する図である。図7に示すように、外観特徴抽出モデル172は、例えば、CNN部172Aと、アテンション機構172Bと、乗算部172Cと、外観特徴出力部172Dとを備える。
Here, the appearance
CNN部172Aは、CNNによる深層学習のモデルである。アテンション機構172Bは、CNN部172Aから出力される内部状態に重みを付けて出力する機構である。例えば、アテンション機構172Bは、推定に重要でない部分(例えば、画像における背景の領域など)に、重要な部分と比較して小さな重みづけを行う。これにより、推定に有効な特徴に焦点をあて、推定結果により大きな影響を与えることが可能となる。加算部172Cは、CNN部172Aからの出力と、アテンション機構172Bからの出力とのそれぞれに重みを乗算して出力する。乗算部172Cは、例えば、CNN部172Aからの出力、又はアテンション機構172Bからの出力のいずれか一方を出力するスイッチとして機能する。これにより、アテンション機構172Bの有無を制御し、アテンション機構172Bの有無が推定の精度に与える影響を検証することが可能となる。外観特徴出力部172Dは、外観特徴抽出モデル172からの出力、つまり画像Gにおける外観特徴量が格納される出力層である。
The
例えば、まず、モデル生成部15は、CNN部172Aのファインチューニングを行う。具体的に、モデル生成部15は、CNN部172Aに、学習用画像における外観情報と分類情報との対応関係を、所定の終了条件を満たすまで繰り返し学習させる。学習用画像は、モデルの学習に用いられる画像であって、画像に対して、既にその分類情報が対応づけられている画像である。学習用画像は、例えば、出願済みの商標であって、商標における図形分類が付与されているものが用いられる。所定の終了条件は、任意に定められた条件であってよいが、例えば、学習段階における推定の精度の変化が収束することである。或いは所定の終了条件は、学習の回数が所定の上限に到達する、或いは推定の精度が所定の閾値以上になる、などの条件であってもよい。
For example, first, the
次に、モデル生成部15は、ファインチューニングをしたCNN部172Aを用いて、アテンション機構172Bを学習させる。モデル生成部15は、学習用画像における外観情報を入力することにより、CNN部172Aを介してアテンション機構172Bから出力される特徴量に基づき付与される確率が高い分類情報が、学習用画像における分類情報に近づくように、アテンション機構172Bにおけるパラメータを調整することにより、アテンション機構172Bを学習させる。
Next, the
このように、モデル生成部15は、CNN部172Aのファインチューニング、及びアテンション機構172Bの学習の二つの手順を行うことにより、外観特徴抽出モデル172を生成する。
In this way, the
ここで、分類テキスト特徴抽出モデル173について、図8を用いて詳しく説明する。図8は、分類テキスト特徴抽出モデル173を説明する図である。図8に示すように、分類テキスト特徴抽出モデル173は、例えば、抽出単語入力層173Aと、単語特徴埋込部173Bと、加重平均部173Cと、分類テキスト特徴出力部173Dとを備える。
Here, the classified text
抽出単語入力層173Aは、画像Gの分類を示す文言から抽出された単語が入力される入力層である。抽出単語入力層173Aには、例えば、画像Gの分類を示す文言において分かち書きされた単語のそれぞれが入力される。例えば、分類を示す文言が「頭部、上半身」である場合、抽出単語入力層173Aには、「頭部」と「上半身」がそれぞれ入力される。図8の例では、例えば、抽出単語入力層173Aにおける、w1に「頭部」が入力され、w2に「上半身」が入力される。この例のように、抽出単語入力層173Aには、単語の数に応じた数のノードが設定されてよい。また、分類を示す文言が分かち書きされていない場合に、分類を示す文言を形態素解析することにより、品詞ごとに分離して、分類を示す文言から、分類を示す単語(例えば、名詞など)を抽出するようにしてもよい。
The extracted
単語特徴埋込部173Bには、抽出単語入力層173Aのそれぞれのノードに入力された単語の特徴が出力される。単語の特徴は、いわゆる単語の分散表現であり、例えば、コーパスを用いて学習したWord2Vec(以下、W2V)などの自然言語処理モデルに単語を入力させることにより得られる、単語の特徴を示す情報である。
The word
ここで、図形の分類情報、特に商標における図形分類には、類似する商標を漏れなく抽出する必要があることから、比較的広い概念で図形分類が付与されているものがある。ここでの広い概念とは、例えば、「26.1.1 円」などの分類である。円が用いられている画像は数多く存在しており、この様な比較的広い概念での分類を示す文言の特徴を用いると、多数の画像が類似することになり、実質的な絞り込みとならない可能性が高い。つまり、比較的広い概念での分類を示す文言の特徴を反映させると、推定の精度を劣化させてしまう可能性がある。 Here, some graphic classification information, particularly graphic classification of trademarks, is given a relatively broad concept of graphic classification because it is necessary to extract all similar trademarks. The broad concept here is, for example, a classification such as "26.1.1 yen". There are many images that use circles, and if we use the characteristics of the wording that indicates classification based on a relatively broad concept, many images will be similar, and it may not be possible to narrow down the search effectively. Highly sexual. In other words, if the characteristics of the wording indicating a classification based on a relatively broad concept are reflected, the accuracy of estimation may deteriorate.
この対策として、本実施形態では、絞り込みの効果が期待できない単語の影響が小さくなるように重みづけを行う。具体的に、加重平均部173Cは、単語から抽出された単語ベクトル(単語の特徴量)に、その単語のidf値で重みづけし、単語ベクトルごとに加重平均した値を出力する。idf値は以下の(1)式で示される値である。
As a countermeasure for this, in this embodiment, weighting is performed so that the influence of words for which no narrowing effect can be expected is reduced. Specifically, the weighted
idf(X)=log(N_total/N_X) …(1) idf(X)=log(N_total/N_X)...(1)
(1)式において、idf(X)は単語(X)におけるidf値である。N_totalは、図形分類が付与された画像の総数である。N_Xは、単語(X)を含む図形分類が付与された画像の数である。(1)式に示す通り、画像の総数に対して多くの画像に付与されている分類に含まれる単語におけるidf値は小さな値となり、画像の総数に対して少ない画像に付与されている分類に含まれる単語におけるidf値は大きな値となる。このようなidf値で重みづけがなされることにより、絞り込みに有効な単語の特徴を、分類テキスト特徴量により大きく影響させることができる。その一方で、絞り込みに効果が期待できない単語の特徴が分類テキスト特徴量に与える影響を抑制させることができる。 In equation (1), idf(X) is the idf value for word (X). N_total is the total number of images to which graphic classifications have been assigned. N_X is the number of images to which a graphic classification including the word (X) is assigned. As shown in equation (1), the idf value for words included in classifications that are assigned to many images relative to the total number of images is small, and The idf value of the included words becomes a large value. By weighting with such idf values, the word features that are effective for narrowing down can be made to have a greater influence on the classified text feature amounts. On the other hand, it is possible to suppress the influence of word features that are not expected to be effective in narrowing down the classification text features.
分類テキスト特徴出力部173Dは、分類テキスト特徴抽出モデル173からの出力、つまり画像Gにおける分類テキスト特徴量が格納される出力層である。
The classified text
ここで、マルチモーダルモデル174について、図9を用いて詳しく説明する。図9は、マルチモーダルモデル174を説明する図である。図9に示すように、マルチモーダルモデル174は、例えば、特徴結合入力層174Aと、全結合層174Bと、全体特徴出力部174Cとを備える。
Here, the
特徴結合入力層174Aは、画像Gにおける外観特徴量及び分類テキスト特徴量が入力される、マルチモーダルモデル174の入力層である。全体特徴出力部174Cは、マルチモーダルモデル174からの出力、つまり画像Gにおける全体特徴量が格納される出力層である。全結合層174Bは、特徴結合入力層174Aと全体特徴出力部174Cとの間を全結合するFC(Full Connection)層である。
The feature
ここで、画像Gにおける外観特徴量は、外観特徴抽出モデル172から出力される。また、画像Gにおける分類テキスト特徴量は、分類テキスト特徴抽出モデル173から出力される。それぞれの特徴量が、互いに異なるモデルから出力されることから、それぞれの特徴量が取り得る範囲が、同じような範囲とならない可能性がある。このような取り得る範囲が異なる特徴量を単純にそのまま統合させて入力させてしまうと、モデルが一方の特徴量と出力との対応関係のみを学習してしまい、他方の特徴量が反映されていない偏った推定がなされる可能性が高くなる。
Here, the appearance feature amount in the image G is output from the appearance
このための対策として、本実施形態では、マルチモーダルモデル174に入力させる二つの特徴量を正規化する前処理を行う。具体的に、モデル生成部15は、画像Gにおける外観特徴量と、画像Gにおける分類テキスト特徴量とが同程度の範囲(例えば、0から1)となるように、一方の特徴量に所定の一律の値を乗算する。モデル生成部15は、必要に応じて他方の特徴量に、一方の特徴量に乗算した値とは異なる別の一律の値を乗算する。これにより、モデル生成部15は、マルチモーダルモデル174を、二つの特徴量の両方を考慮して全体特徴量を出力するように学習させることができる。
As a countermeasure for this, in the present embodiment, preprocessing is performed to normalize the two feature quantities input to the
ここで、画像類似度推定システム1が行う処理の流れについて、図10から図12を用いて説明する。図10から図12は、実施形態の画像類似度推定システム1が行う処理の流れを示すフロー図である。
Here, the flow of processing performed by the image
図10には、画像類似度推定システム1が分類テキスト特徴抽出モデル173を用いて画像から分類テキスト特徴量を抽出する処理の流れが示されている。画像類似度推定システム1は、画像Gの分類情報を取得する(ステップS10)。画像類似度推定システム1は、分類情報を用いて、画像Gの分類を示す文言を単語ごとに分離(分かち書き)する(ステップS11)。画像類似度推定システム1は、単語それぞれの単語ベクトルを抽出する(ステップS12)。
FIG. 10 shows a flow of processing in which the image
一方、画像類似度推定システム1は、単語それぞれのidf値を算出する(ステップS13)。画像類似度推定システム1は、単語の単語ベクトルに、その単語のidf値を重みづけ(乗算)する(ステップS14)。画像類似度推定システム1は、重みづけしたそれぞれの単語における単語ベクトルを、単語ベクトルごとに加重平均した値を、画像Gにおける分類テキスト特徴量として出力する(ステップS15)。
On the other hand, the image
なお、図10では、ステップS12で単語ベクトルを抽出した後に、ステップS13で単語のidf値を算出する流れを例示して説明したが、少なくともステップS14において単語ベクトルにidf値が乗算できればよく、単語のidf値を算出した後に、ステップS10~S12に示す処理を行うことにより単語ベクトルを抽出してもよい。或いは、図10における単語ベクトルを抽出する処理とは独立させた処理として、idf値を算出する処理を行ってもよい。 In addition, in FIG. 10, the flow of calculating the idf value of the word in step S13 after extracting the word vector in step S12 was explained as an example, but it is only necessary that the word vector can be multiplied by the idf value in step S14, After calculating the idf value of , word vectors may be extracted by performing the processing shown in steps S10 to S12. Alternatively, the process of calculating the idf value may be performed as a process independent of the process of extracting word vectors in FIG. 10.
図11には、画像類似度推定システム1が、外観特徴抽出モデル172、及びマルチモーダルモデル174を生成する処理の流れが示されている。画像類似度推定システム1は、学習用画像の外観情報を取得する(ステップS20)。画像類似度推定システム1は、学習用画像の分類情報を取得する(ステップS21)。画像類似度推定システム1は、学習用画像の外観情報と分類情報との対応関係をCNN部172Aに学習させることにより、外観特徴抽出モデル172のCNN部172Aを学習させる(ステップS22)。画像類似度推定システム1は、学習用画像の外観情報を入力させることにより得られるCNN部172Aの内部状態に基づき出力される可能性の高い分類情報が、学習用画像の分類情報に近づくように、外観特徴抽出モデル172のアテンション機構172Bを学習させる(ステップS23)。これにより、画像類似度推定システム1は、外観特徴抽出モデル172を生成する。
FIG. 11 shows a process flow in which the image
画像類似度推定システム1は、外観特徴抽出モデル172に学習用画像の外観情報を入力させることにより、学習用画像の外観特徴量を抽出する(ステップS24)。画像類似度推定システム1は、分類テキスト特徴抽出モデル173に学習用画像の分類情報を入力させることにより、学習用画像の分類テキスト特徴量を抽出する(ステップS25)。画像類似度推定システム1は、学習用画像の外観特徴量と分類テキスト特徴量とを正規化する処理を行う(ステップS26)。画像類似度推定システム1は、正規化する処理をした学習用画像の外観特徴量と分類テキスト特徴量に基づき出力される可能性が高い分類情報が、学習用画像の分類情報(ここでは全体特徴量に相当する)近づくように、全結合層174Bを学習させる(パラメータを調整する)ことにより、マルチモーダルモデル174を生成する(ステップS27)。画像類似度推定システム1は、生成した外観特徴抽出モデル172、マルチモーダルモデル174を記憶させる(ステップS28)。
The image
なお、図11では、ステップS24で外観特徴量を抽出した後に、ステップS25で分類テキスト特徴量を抽出する流れを例示して説明したが、少なくともステップS26において二つの特徴量(外観特徴量と分類テキスト特徴量)が正規化できればよく、分類テキスト特徴量を抽出した後に外観特徴量を抽出してもよい。 In FIG. 11, the flow of extracting the appearance feature amount in step S24 and then extracting the classified text feature amount in step S25 was explained as an example, but at least two feature amounts (appearance feature amount and classification text feature amount) are extracted in step S26. It is only necessary that the text feature amount) can be normalized, and the appearance feature amount may be extracted after the classified text feature amount is extracted.
図12には、画像類似度推定システム1が、二つの画像(ここでは対象画像と比較画像)の類似度を推定する処理の流れが示されている。画像類似度推定システム1は、対象画像における外観情報を取得し(ステップS30)、取得した情報と外観特徴抽出モデル172とを用いて、対象画像における外観特徴量を抽出する(ステップS31)。また、画像類似度推定システム1は、対象画像における分類情報を取得し(ステップS32)、取得した情報と分類テキスト特徴抽出モデル173とを用いて、対象画像における分類テキスト特徴量を抽出する(ステップS33)。そして、画像類似度推定システム1は、対象画像における外観特徴量と、分類テキスト特徴量と、マルチモーダルモデル174を用いて、対象画像における全体特徴量を抽出する(ステップS34)。
FIG. 12 shows a process flow in which the image
一方、画像類似度推定システム1は、比較画像における全体特徴量を抽出する(ステップS35)。画像類似度推定システム1が比較画像における全体特徴量を抽出する処理の流れは、対象画像における全体特徴量を抽出する処理の流れと同様である。
On the other hand, the image
画像類似度推定システム1は、対象画像との類似度を推定したい全ての比較画像についてその全体特徴量を算出したか否かを判定する(ステップS36)。画像類似度推定システム1は、対象画像と比較画像のそれぞれの全体特徴におけるベクトル空間上の距離をコサイン類似度として算出する(ステップS37)。
The image
なお、図12では、ステップS36で対象画像との類似度を推定したい全ての比較画像についてその全体特徴量を算出した後に、ステップS36でそれぞれのコサイン類似度を算出する流れを例示して説明したが、少なくとも対象画像と比較画像の類似度を算出できればよく、比較画像における全体特徴量を抽出する都度、コサイン類似度を算出するようにしてもよい。 In addition, FIG. 12 illustrates and explains the flow of calculating the cosine similarity of each image in step S36 after calculating the overall feature amount of all comparison images whose similarity with the target image is to be estimated in step S36. However, it is only necessary to be able to calculate at least the similarity between the target image and the comparison image, and the cosine similarity may be calculated each time the overall feature amount in the comparison image is extracted.
以上説明したように、実施形態の画像類似度推定システム1は、外観情報取得部10と、外観特徴抽出部11と、分類情報取得部12と、分類テキスト特徴抽出部13と、全体特徴抽出部14と、モデル生成部15と、画像類似度推定部16とを備える。外観情報取得部10は画像Gの外観を示す外観情報170を取得する。外観特徴抽出部11は画像Gにおける外観情報170、及び外観特徴抽出モデル172を用いて、画像Gの外観の特徴を示す外観特徴量を抽出する。分類情報取得部12は画像Gの分類を示す分類情報171を取得する。分類テキスト特徴抽出部13は、画像Gにおける分類情報171、及び分類テキスト特徴抽出モデル173を用いて、画像Gの分類を示す文言の特徴を示す分類テキスト特徴量を抽出する。全体特徴抽出部14は、画像Gにおける外観特徴量、分類テキスト特徴量、及びマルチモーダルモデル174を用いて、画像Gにおける画像全体の特徴である全体特徴量を抽出する。モデル生成部15は、外観特徴抽出モデル172と、マルチモーダルモデル174を生成する。画像類似度推定部16は、対象画像における全体特徴量、及び比較画像における全体特徴量に基づいて、対象画像と比較画像の類似度合いを推定する。これにより、実施形態の画像類似度推定システム1は、画像Gにおける外観と概念との両方を考慮した特徴を抽出することができ、外観のみならず観念を考慮して画像の類否を判定することが可能である。
As described above, the image
また、実施形態の画像類似度推定システム1では、外観特徴抽出モデル172は、深層学習の学習モデルの内部状態に重み付けした値を出力するアテンション機構172Bを含む。モデル生成部15は、アテンション機構172Bに、学習用画像における外観情報と前記分類情報との対応関係に応じた重みを学習させる。これにより、実施形態の画像類似度推定システム1では、外観特徴抽出モデル172の内部状態において外観の特徴を抽出するのに有効なものに焦点をあてることができ、より精度よく外観特徴量を抽出することが可能となる。
Further, in the image
また、実施形態の画像類似度推定システム1では、分類テキスト特徴抽出モデル173は、文言に含まれる単語の特徴量を示す単語特徴量を、単語のidf値で重みづけした値に基づいて当該文言の特徴を抽出するモデルである。idf値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値である。これにより、実施形態の画像類似度推定システム1では、絞り込みに効果が期待できない図形分類の影響を弱め、絞り込みに有効な図形分類の影響を強めることができる。したがって、絞り込みにより効果的な分類テキスト特徴量を抽出することが可能となる。
In addition, in the image
また、実施形態の画像類似度推定システム1では、idf値は、分類済みの画像の集合である画像群の数に対する、前記分類テキスト特徴量を抽出する画像と同じ分類とされた画像の数の割合を用いて算出される値である。これにより、実施形態の画像類似度推定システム1では、上述した効果と同様の効果を奏する。
Furthermore, in the image
また、実施形態の画像類似度推定システム1では、モデル生成部15は、学習用画像における外観特徴量及び分類テキスト特徴量が、同一の範囲内に含まれるデータとなるように正規化する処理を行う。モデル生成部15は、正規化する処理を行った前記学習用画像における、外観特徴量及び分類テキスト特徴量と前記分類情報との対応関係を学習モデルに学習させることにより、マルチモーダルモデル174を生成する。これにより、実施形態の画像類似度推定システム1では、二つの特徴量の一方に偏ることなく、両方の特徴量が共に反映された全体特徴量を抽出することができる。したがって、外観と概念の双方を鑑みて類似する画像を推定することができる。
Further, in the image
また、実施形態の画像類似度推定システム1は、学習装置として適用されてもよい。この場合、学習装置は、外観情報取得部10と、外観特徴抽出部11と、分類情報取得部12と、分類テキスト特徴抽出部13と、全体特徴抽出部14と、モデル生成部15とを備える。これにより、学習装置は、画像Gにおける外観と概念とを考慮した全体特徴を抽出することができるモデルを生成することができる。
Moreover, the image
また、実施形態の画像類似度推定システム1は、推定装置として適用されてもよい。この場合、推定装置は、外観情報取得部10と、外観特徴抽出部11と、分類情報取得部12と、分類テキスト特徴抽出部13と、全体特徴抽出部14と、画像類似度推定部16とを備える。これにより、推定装置は、画像Gにおける外観と概念とを考慮した全体特徴を抽出することができる。したがって、画像Gにおける外観と概念とを考慮して、類似する画像を推定することが可能である。
Moreover, the image
上述した実施形態における画像類似度推定システム1の全部又は一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
All or part of the image
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiments of the present invention have been described above in detail with reference to the drawings, the specific configuration is not limited to these embodiments, and includes designs within the scope of the gist of the present invention.
1 画像類似度推定システム
10 外観情報取得部
11 外観特徴抽出部
12 分類情報取得部
13 分類テキスト特徴抽出部
14 全体特徴抽出部
15 モデル生成部
16 画像類似度推定部
17 記憶部
18 推定結果出力部
170 外観情報
171 分類情報
172 外観特徴抽出モデル
173 分類テキスト特徴抽出モデル
174 マルチモーダルモデル
1 Image
Claims (9)
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
画像類似度推定システム。 an appearance information acquisition unit that acquires appearance information indicating the appearance of the image;
an appearance feature extraction unit that uses the appearance information in the image and the appearance feature extraction model to extract appearance feature amounts indicating the appearance characteristics of the image;
a classification information acquisition unit that acquires classification information indicating the classification of the image;
a classified text feature extraction unit that uses the classification information in the image and the classified text feature extraction model to extract a classified text feature quantity that represents a feature of a wording that indicates the classification of the image;
an overall feature extraction unit that extracts an overall feature that is a feature of the entire image in the image using the appearance feature, the classified text feature, and the multimodal model in the image;
a model generation unit that generates the appearance feature extraction model and the multimodal model;
an image similarity estimation unit that estimates a degree of similarity between the target image and the comparison image based on the overall feature amount in the target image and the overall feature amount in the comparison image;
Equipped with
The appearance feature extraction model is a model that outputs the appearance feature amount in the image from the appearance information in the image,
The model generation unit generates the appearance feature extraction model by causing a learning model to learn a correspondence relationship between the appearance information and the classification information in the learning image,
The classified text feature extraction model is a model that extracts feature amounts of text indicating classification,
The multimodal model is a model that outputs the overall feature amount in the image from the appearance feature amount and the classified text feature amount in the image,
The model generation unit includes the appearance feature amount in the training image extracted by the appearance feature extraction unit, the classified text feature amount in the training image extracted by the classified text feature extraction unit, and the training image. generating the multimodal model by causing a learning model to learn the correspondence relationship with the classification information in the image for use;
Image similarity estimation system.
前記モデル生成部は、前記アテンション機構に、前記学習用画像における前記外観情報と前記分類情報との対応関係に応じた重みを学習させる、
請求項1に記載の画像類似度推定システム。 The appearance feature extraction model includes an attention mechanism that outputs a weighted value for the internal state of the deep learning learning model,
The model generation unit causes the attention mechanism to learn weights according to the correspondence between the appearance information and the classification information in the learning image.
The image similarity estimation system according to claim 1.
前記idf値は、分類済みの画像の集合である画像群に統計処理を行うことにより算出される値である、
請求項1又は請求項2に記載の画像類似度推定システム。 The classified text feature extraction model is a model that extracts features of a word based on a value obtained by weighting a word feature representing a feature of a word included in the word with an idf value of the word,
The idf value is a value calculated by performing statistical processing on an image group that is a set of classified images.
The image similarity estimation system according to claim 1 or claim 2.
請求項3に記載の画像類似度推定システム。 The idf value is a value calculated using the ratio of the number of image groups that are a set of classified images to the number of images that include the classified text feature amount,
The image similarity estimation system according to claim 3.
請求項1から請求項4の何れか一項に記載の画像類似度推定システム。 The model generation unit performs normalization processing such that the appearance feature amount and the classified text feature amount in the training image are data included in the same range, and performs the normalization processing. generating the multimodal model by causing a learning model to learn the correspondence between the appearance feature amount, the classified text feature amount, and the classification information in the learning image;
The image similarity estimation system according to any one of claims 1 to 4.
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成部は、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルを生成し、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成部は、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルを生成する、
学習装置。 an appearance information acquisition unit that acquires appearance information indicating the appearance of the image;
an appearance feature extraction unit that uses the appearance information in the image and the appearance feature extraction model to extract appearance feature amounts indicating the appearance characteristics of the image;
a classification information acquisition unit that acquires classification information indicating the classification of the image;
a classified text feature extraction unit that uses the classification information in the image and the classified text feature extraction model to extract a classified text feature quantity that represents a feature of a wording that indicates the classification of the image;
an overall feature extraction unit that extracts an overall feature that is a feature of the entire image in the image using the appearance feature, the classified text feature, and the multimodal model in the image;
a model generation unit that generates the appearance feature extraction model and the multimodal model;
Equipped with
The appearance feature extraction model is a model that outputs the appearance feature amount in the image from the appearance information in the image,
The model generation unit generates the appearance feature extraction model by causing a learning model to learn a correspondence relationship between the appearance information and the classification information in the learning image,
The classified text feature extraction model is a model that extracts feature amounts of text indicating classification,
The multimodal model is a model that outputs the overall feature amount in the image from the appearance feature amount and the classified text feature amount in the image,
The model generation unit includes the appearance feature amount in the training image extracted by the appearance feature extraction unit, the classified text feature amount in the training image extracted by the classified text feature extraction unit, and the training image. generating the multimodal model by causing a learning model to learn the correspondence relationship with the classification information in the image for use;
learning device.
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、
画像の分類を示す分類情報を取得する分類情報取得部と、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定部と、
を備え、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出部によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出部によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
推定装置。 an appearance information acquisition unit that acquires appearance information indicating the appearance of the image;
an appearance feature extraction unit that uses the appearance information in the image and the appearance feature extraction model to extract appearance feature amounts indicating the appearance characteristics of the image;
a classification information acquisition unit that acquires classification information indicating the classification of the image;
a classified text feature extraction unit that uses the classification information in the image and the classified text feature extraction model to extract a classified text feature quantity that represents a feature of a wording that indicates the classification of the image;
an overall feature extraction unit that extracts an overall feature that is a feature of the entire image in the image using the appearance feature, the classified text feature, and the multimodal model in the image;
an image similarity estimation unit that estimates a degree of similarity between the target image and the comparison image based on the overall feature amount in the target image and the overall feature amount in the comparison image;
Equipped with
The appearance feature extraction model is a model that outputs the appearance feature amount of the image from the appearance information in the image, and by making the learning model learn the correspondence between the appearance information and the classification information in the learning image. The generated model is
The classified text feature extraction model is a model that extracts feature amounts of text indicating classification,
The multimodal model is a model that outputs the overall feature amount in the image from the appearance feature amount and the classified text feature amount in the image, and the multimodal model outputs the overall feature amount in the image, and the appearance feature amount in the learning image extracted by the appearance feature extraction unit. A model generated by causing a learning model to learn the correspondence between the feature amount and the classified text feature amount in the training image extracted by the classified text feature extraction unit and the classification information in the training image. is,
Estimation device.
画像の外観を示す外観情報を取得する外観情報取得手段、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
画像の分類を示す分類情報を取得する分類情報取得手段、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出手段、
前記外観特徴抽出モデル、及び前記マルチモーダルモデルを生成するモデル生成手段、
として機能させるためのプログラムであって、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、
前記モデル生成手段において、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより、前記外観特徴抽出モデルが生成され、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、
前記モデル生成手段において、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより、前記マルチモーダルモデルが生成される、
プログラム。 computer,
Appearance information acquisition means for acquiring appearance information indicating the appearance of the image;
Appearance feature extraction means for extracting appearance feature amounts indicating the appearance characteristics of the image using the appearance information in the image and the appearance feature extraction model;
classification information acquisition means for acquiring classification information indicating the classification of the image;
Classified text feature extraction means that uses the classification information in the image and a classified text feature extraction model to extract a classified text feature quantity that represents a feature of a wording that indicates the classification of the image;
overall feature extraction means for extracting an overall feature amount that is a feature of the entire image in the image using the appearance feature amount, the classified text feature amount, and the multimodal model in the image;
model generation means for generating the appearance feature extraction model and the multimodal model;
It is a program to function as
The appearance feature extraction model is a model that outputs the appearance feature amount in the image from the appearance information in the image,
In the model generation means, the appearance feature extraction model is generated by causing a learning model to learn the correspondence between the appearance information and the classification information in the learning image,
The classified text feature extraction model is a model that extracts feature amounts of text indicating classification,
The multimodal model is a model that outputs the overall feature amount in the image from the appearance feature amount and the classified text feature amount in the image,
In the model generation means, the appearance feature amount in the learning image extracted by the appearance feature extraction means, the classified text feature amount in the learning image extracted by the classified text feature extraction means, and the learning The multimodal model is generated by causing a learning model to learn the correspondence relationship with the classification information in the image for use.
program.
画像の外観を示す外観情報を取得する外観情報取得手段、
画像における前記外観情報、及び外観特徴抽出モデルを用いて、当該画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出手段、
画像の分類を示す分類情報を取得する分類情報取得手段、
画像における前記分類情報、及び分類テキスト特徴抽出モデルを用いて、当該画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出手段、
画像における前記外観特徴量、前記分類テキスト特徴量、及びマルチモーダルモデルを用いて、当該画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、
対象画像における前記全体特徴量、及び比較画像における前記全体特徴量に基づいて、前記対象画像と前記比較画像の類似度合いを推定する画像類似度推定手段、
として機能させるためのプログラムであって、
前記外観特徴抽出モデルは、画像における前記外観情報から当該画像における前記外観特徴量を出力するモデルであり、学習用画像における前記外観情報と前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルであり、
前記分類テキスト特徴抽出モデルは、分類を示す文言の特徴量を抽出するモデルであり、
前記マルチモーダルモデルは、画像における前記外観特徴量及び前記分類テキスト特徴量から、当該画像における前記全体特徴量を出力するモデルであり、前記外観特徴抽出手段によって抽出された前記学習用画像における前記外観特徴量、及び前記分類テキスト特徴抽出手段によって抽出された前記学習用画像における前記分類テキスト特徴量と、前記学習用画像における前記分類情報との対応関係を学習モデルに学習させることにより生成されたモデルである、
プログラム。 computer,
Appearance information acquisition means for acquiring appearance information indicating the appearance of the image;
Appearance feature extraction means for extracting appearance feature amounts indicating the appearance characteristics of the image using the appearance information in the image and the appearance feature extraction model;
classification information acquisition means for acquiring classification information indicating the classification of the image;
Classified text feature extraction means that uses the classification information in the image and a classified text feature extraction model to extract a classified text feature quantity that represents a feature of a wording that indicates the classification of the image;
an overall feature extraction unit that extracts an overall feature that is a feature of the entire image in the image using the appearance feature, the classified text feature, and the multimodal model in the image;
image similarity estimating means for estimating the degree of similarity between the target image and the comparison image based on the overall feature amount in the target image and the overall feature amount in the comparison image;
It is a program to function as
The appearance feature extraction model is a model that outputs the appearance feature amount of the image from the appearance information in the image, and by making the learning model learn the correspondence between the appearance information and the classification information in the learning image. The generated model is
The classified text feature extraction model is a model that extracts feature amounts of text indicating classification,
The multimodal model is a model that outputs the overall feature amount in the image from the appearance feature amount and the classified text feature amount in the image, and the multimodal model outputs the overall feature amount in the image, and the appearance feature amount in the learning image extracted by the appearance feature extraction means. A model generated by having a learning model learn the correspondence between the feature amount and the classified text feature amount in the training image extracted by the classified text feature extraction means and the classification information in the training image. is,
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020057919A JP7394680B2 (en) | 2020-03-27 | 2020-03-27 | Image similarity estimation system, learning device, estimation device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020057919A JP7394680B2 (en) | 2020-03-27 | 2020-03-27 | Image similarity estimation system, learning device, estimation device, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021157570A JP2021157570A (en) | 2021-10-07 |
JP7394680B2 true JP7394680B2 (en) | 2023-12-08 |
Family
ID=77918039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020057919A Active JP7394680B2 (en) | 2020-03-27 | 2020-03-27 | Image similarity estimation system, learning device, estimation device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7394680B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004966A1 (en) | 2001-06-18 | 2003-01-02 | International Business Machines Corporation | Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities |
JP6310599B1 (en) | 2017-05-10 | 2018-04-11 | ヤフー株式会社 | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM |
CN110298338A (en) | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | A kind of file and picture classification method and device |
-
2020
- 2020-03-27 JP JP2020057919A patent/JP7394680B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004966A1 (en) | 2001-06-18 | 2003-01-02 | International Business Machines Corporation | Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities |
JP6310599B1 (en) | 2017-05-10 | 2018-04-11 | ヤフー株式会社 | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM |
CN110298338A (en) | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | A kind of file and picture classification method and device |
Also Published As
Publication number | Publication date |
---|---|
JP2021157570A (en) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019222819B2 (en) | Method for scaling object detection to a very large number of categories | |
El Aziz et al. | Multi-objective whale optimization algorithm for multilevel thresholding segmentation | |
US11861307B2 (en) | Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system | |
Chen et al. | Mind's eye: A recurrent visual representation for image caption generation | |
Chen et al. | Learning a recurrent visual representation for image caption generation | |
US10380502B2 (en) | Calculation apparatus, calculation method, learning apparatus, learning method, and program | |
US10949615B2 (en) | Apparatus and method for verifying sentence | |
AU2016225947A1 (en) | System and method for multimedia document summarization | |
Hwang et al. | Fairfacegan: Fairness-aware facial image-to-image translation | |
CN113139664B (en) | Cross-modal migration learning method | |
WO2021069983A1 (en) | Method and system for producing digital image | |
JPWO2019106965A1 (en) | Information processing equipment, information processing methods, and programs | |
CN113128203A (en) | Attention mechanism-based relationship extraction method, system, equipment and storage medium | |
WO2023088174A1 (en) | Target detection method and apparatus | |
CN109033321B (en) | Image and natural language feature extraction and keyword-based language indication image segmentation method | |
Zhu et al. | Context aware document embedding | |
Roy et al. | Tips: Text-induced pose synthesis | |
JP7259935B2 (en) | Information processing system, information processing method and program | |
JP7394680B2 (en) | Image similarity estimation system, learning device, estimation device, and program | |
JP7270839B2 (en) | General Representation Learning for Face Recognition | |
US11961249B2 (en) | Generating stereo-based dense depth images | |
EP3910549A1 (en) | System and method for few-shot learning | |
CN111373391A (en) | Language processing device, language processing system, and language processing method | |
WO2021137942A1 (en) | Pattern generation | |
WO2021215261A1 (en) | Information processing method, information processing device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200413 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7394680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |