JP7366204B1 - 情報処理方法、コンピュータプログラム及び情報処理装置 - Google Patents
情報処理方法、コンピュータプログラム及び情報処理装置 Download PDFInfo
- Publication number
- JP7366204B1 JP7366204B1 JP2022116617A JP2022116617A JP7366204B1 JP 7366204 B1 JP7366204 B1 JP 7366204B1 JP 2022116617 A JP2022116617 A JP 2022116617A JP 2022116617 A JP2022116617 A JP 2022116617A JP 7366204 B1 JP7366204 B1 JP 7366204B1
- Authority
- JP
- Japan
- Prior art keywords
- image
- text
- similarity
- images
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 63
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000004590 computer program Methods 0.000 title claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 47
- 238000009826 distribution Methods 0.000 claims description 45
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 15
- 230000006978 adaptation Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 19
- 238000003860 storage Methods 0.000 description 31
- 238000012795 verification Methods 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 9
- 230000004044 response Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 240000006890 Erythroxylum coca Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 235000008957 cocaer Nutrition 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
また一実施形態に係る情報処理方法は、情報処理装置が、処理対象となる複数の画像を取得し、前記複数の画像からの画像の抽出条件となるテキストを取得し、画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、取得した各組の類似度の分布を表示部に表示し、前記分布に基づいて閾値の設定を受け付け、取得した各組の類似度と、受け付けた前記閾値とを比較し、前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する。
図1は、本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係る情報処理システムは、一又は複数のカメラ3が撮影した画像を、サーバ装置1が取得して画像DB(データベース)5に記憶して蓄積するシステムである。ユーザは例えば端末装置7を利用してサーバ装置1にアクセスし、画像DB5に蓄積された画像の閲覧及び取得(ダウンロード)等を行うことができる。この際に本実施の形態に係る情報処理システムでは、ユーザがキーワード等のテキストを入力することで、このテキストに応じた画像の検索又は抽出等を行うことが可能である。
図2は、本実施の形態に係るサーバ装置1の構成を示すブロック図である。本実施の形態に係るサーバ装置1は、処理部11、記憶部(ストレージ)12及び通信部(トランシーバ)13等を備えて構成されている。なお本実施の形態においては、1つのサーバ装置1にて処理が行われるものとして説明を行うが、複数のサーバ装置が分散して処理を行ってもよい。
図3は、本実施の形態に係る情報処理システムが使用する学習モデル20の一構成例を示す模式図である。本実施の形態に係る学習モデル20は、画像及びテキストの入力を受け付けて、この画像及びテキストの類似度を出力する学習モデルである。学習モデル20には、例えばCLIPの学習モデルが採用され得る。学習モデル20は、テキストエンコーダ21及び画像エンコーダ22を有しており、入力されたテキストをテキストエンコーダ21へ入力し、入力された画像を画像エンコーダ22へ入力する。
上述のように、本実施の形態に係る情報処理システムは、学習モデル20が出力する画像及びテキストの類似度が閾値を超える場合に、この画像がテキストに類似する画像であると判定する。この判定に用いられる閾値の決定方法には、例えば以下の4つの方法のいずれかが採用され得る。
(1)適合度又は再現度に基づく閾値の決定
(2)代表値に基づく閾値の決定
(3)分布に基づく閾値の決定
(4)ユーザによる閾値の決定
第1の決定方法には、画像に対して正しいテキストが対応付けられたデータ(正例)と、画像に対して誤ったテキストが対応付けられたデータ(負例)とを含む、検証用データが必要である。本実施の形態に係るサーバ装置1は、機械学習がなされた学習モデル20に対して検証用データを入力し、検証用データの画像及びテキストの各組に対する類似度を取得する。サーバ装置1は、閾値Xを用いて類似度との比較を行った場合の適合度又は再現度を、閾値Xの値を変化させてそれぞれ算出し、適合度又は再現度が所定値(例えば0.9)となる閾値Xを特定する。なお、適合度又は再現度に対する所定値は、本実施の形態に係る情報処理システムの設計者又は管理者等により予め定められる。
第2の決定方法には、画像に対して正しいテキストが対応付けられたデータ(正例)が検証用データとして用いられる。この検証用データには、画像に対して誤ったテキストが対応付けられたデータ(負例)が含まれない。本実施の形態に係るサーバ装置1は、機械学習がなされた学習モデル20に対して検証用データを入力し、検証用データの画像及びテキストの各組に対する類似度を取得する。サーバ装置1は、正例の検証用データに関して算出した複数の類似度について、例えば平均値又は最小値等の代表値を算出し、算出した代表値を閾値とする。サーバ装置1は、算出した代表値を閾値として例えば学習モデル記憶部12bに学習モデル20に関する情報と共に記憶し、図5に示した画像抽出処理において記憶した閾値を用いて判定を行う。
第3の決定方法では、正例又は負例の検証用データを用いるのではなく、画像抽出の対象となる全画像に対して指定されたテキストとの類似度をそれぞれ取得し、取得した全類似度の分布に基づいて閾値を決定する。サーバ装置1は、例えば画像抽出の対象となる全画像に対して、例えば設計者又は管理者等により類似度の上位X%を抽出することが定められている。サーバ装置1は、全画像について取得した画像及びテキストの類似度をソートして並べ替え、類似度が高いものから上位X%に相当する類似度を特定し、特定した類似度を閾値とする。
第4の決定方法では、ユーザが端末装置7にて閾値を決定することができる。サーバ装置1は、端末装置7を介してユーザが入力したテキストを取得し、対象となる全ての画像と取得したテキストとの類似度をそれぞれ学習モデル20を用いて取得する。サーバ装置1は、全ての画像及びテキストの組について算出した類似度について例えばヒストグラム等のグラフを作成し、作成したグラフのデータを端末装置7へ送信する。またサーバ装置1は、ヒストグラムのデータと共に、デフォルトの閾値を用いて抽出した画像を端末装置7へ送信する。サーバ装置1からグラフのデータ及び抽出された画像を受信した端末装置7は、受信したデータに基づいて、ヒストグラム等のグラフを表示部に表示すると共に、抽出された一又は複数の画像を表示する。
以上の構成の本実施の形態に係る情報処理システムでは、サーバ装置1が画像DB5から処理対象となる複数の画像を取得し、画像の抽出条件となるテキストを端末装置7から取得し、予め機械学習がなされた学習モデル20に書く画像及びテキストを入力して類似度を取得することにより、複数の画像とテキストとの各組の類似度を取得する。サーバ装置1は、画像及びテキストの各組の類似度と所定の閾値とを比較して、処理対象の複数の画像から類似度が閾値を超える画像を抽出して出力する。これにより本実施の形態に係る情報処理システムでは、画像DB5に記憶する画像に予めタグ付けを行う必要なく、画像DB5に記憶した複数の画像からテキスト入力に基づく画像の抽出又は検索等を行うことが期待できる。
3 カメラ
5 画像DB
7 端末装置
11 処理部
11a 画像取得部
11b テキスト取得部
11c 類似度算出部
11d 閾値決定部
11e 画像抽出部
12 記憶部
12a プログラム(コンピュータプログラム)
12b 学習モデル記憶部
13 通信部
20 学習モデル
21 テキストエンコーダ
22 画像エンコーダ
99 記録媒体
N ネットワーク
Claims (12)
- 情報処理装置が、
画像及び当該画像に対応するテキストが対応付けられた正例の組を複数取得し、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した正例の組の各組の画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、複数の前記正例の組の類似度をそれぞれ取得し、
取得した類似度の分布に基づいて閾値を決定し、
処理対象となる複数の画像を取得し、
前記複数の画像からの画像の抽出条件となるテキストを取得し、
取得した画像及びテキストを前記学習モデルへ入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、
取得した各組の類似度と、決定した前記閾値とを比較し、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する、
情報処理方法。 - 情報処理装置が、
処理対象となる複数の画像を取得し、
前記複数の画像からの画像の抽出条件となるテキストを取得し、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、
取得した各組の類似度の分布を表示部に表示し、
前記分布に基づいて閾値の設定を受け付け、
取得した各組の類似度と、受け付けた前記閾値とを比較し、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する、
情報処理方法。 - 前記情報処理装置が、
前記画像及び当該画像に対応するテキストが対応付けられた正例の組と、前記画像及び当該画像に対応しないテキストとが対応付けられた負例の組とをそれぞれ複数取得し、
取得した正例の組及び負例の組の各組ついて前記学習モデルによる類似度をそれぞれ取得し、
取得した類似度に基づいて、前記学習モデルの適合度又は再現度を算出し、
算出した前記適合度又は前記再現度に基づいて前記閾値を決定する、
請求項1又は請求項2に記載の情報処理方法。 - 前記情報処理装置が、
取得した各組の類似度の分布に基づいて前記閾値を決定する、
請求項1又は請求項2に記載の情報処理方法。 - 前記情報処理装置が、
取得した各組の類似度に基づいて前記複数の画像を順位付けし、
所定の順位の画像を抽出するよう前記閾値を決定する、
請求項4に記載の情報処理方法。 - 前記情報処理装置が、
前記類似度の分布に関するパラメータを算出し、
前記類似度の分布が所定分布であるとみなし、算出した前記パラメータに応じて前記閾値を決定する、
請求項4に記載の情報処理方法。 - 前記学習モデルは、
入力された画像の特徴量を出力する画像エンコーダと、
入力されたテキストの特徴量を出力するテキストエンコーダと、
前記画像エンコーダが出力した特徴量及び前記テキストエンコーダが出力した特徴量を基に類似度を算出する算出部と
を有する、
請求項1又は請求項2に記載の情報処理方法。 - 前記学習モデルは、大規模汎用画像モデルである、
請求項1又は請求項2に記載の情報処理方法。 - コンピュータに、
画像及び当該画像に対応するテキストが対応付けられた正例の組を複数取得し、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した正例の組の各組の画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、複数の前記正例の組の類似度をそれぞれ取得し、
取得した類似度の分布に基づいて閾値を決定し、
処理対象となる複数の画像を取得し、
前記複数の画像からの画像の抽出条件となるテキストを取得し、
取得した画像及びテキストを前記学習モデルへ入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、
取得した各組の類似度と、決定した前記閾値とを比較し、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する
処理を実行させる、コンピュータプログラム。 - コンピュータに、
処理対象となる複数の画像を取得し、
前記複数の画像からの画像の抽出条件となるテキストを取得し、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、
取得した各組の類似度の分布を表示部に表示し、
前記分布に基づいて閾値の設定を受け付け、
取得した各組の類似度と、受け付けた前記閾値とを比較し、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する
処理を実行させる、コンピュータプログラム。 - 画像及び当該画像に対応するテキストが対応付けられた正例の組を複数取得する正例取得部と、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した正例の組の各組の画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、複数の前記正例の組の類似度をそれぞれ取得する第1類似度取得部と、
取得した類似度の分布に基づいて閾値を決定する閾値決定部と、
処理対象となる複数の画像を取得する画像取得部と、
前記複数の画像からの画像の抽出条件となるテキストを取得するテキスト取得部と、
取得した画像及びテキストを前記学習モデルへ入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得する第2類似度取得部と、
取得した各組の類似度と所定の閾値とを比較する比較部と、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する出力部と
を備える、情報処理装置。 - 処理対象となる複数の画像を取得する画像取得部と、
前記複数の画像からの画像の抽出条件となるテキストを取得するテキスト取得部と、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得する類似度取得部と、
取得した各組の類似度の分布を表示部に表示する表示処理部と、
前記分布に基づいて閾値の設定を受け付ける受付部と、
取得した各組の類似度と、受け付けた前記閾値とを比較する比較部と、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する出力部と
を備える、情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022116617A JP7366204B1 (ja) | 2022-07-21 | 2022-07-21 | 情報処理方法、コンピュータプログラム及び情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022116617A JP7366204B1 (ja) | 2022-07-21 | 2022-07-21 | 情報処理方法、コンピュータプログラム及び情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7366204B1 true JP7366204B1 (ja) | 2023-10-20 |
JP2024014057A JP2024014057A (ja) | 2024-02-01 |
Family
ID=88372773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022116617A Active JP7366204B1 (ja) | 2022-07-21 | 2022-07-21 | 情報処理方法、コンピュータプログラム及び情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7366204B1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020522791A (ja) | 2017-09-12 | 2020-07-30 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置 |
JP2022509327A (ja) | 2019-01-31 | 2022-01-20 | シェンチェン センスタイム テクノロジー カンパニー リミテッド | クロスモーダル情報検索方法及びその装置、並びに記憶媒体 |
JP2022180941A (ja) | 2021-05-25 | 2022-12-07 | ソフトバンク株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
-
2022
- 2022-07-21 JP JP2022116617A patent/JP7366204B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020522791A (ja) | 2017-09-12 | 2020-07-30 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置 |
JP2022509327A (ja) | 2019-01-31 | 2022-01-20 | シェンチェン センスタイム テクノロジー カンパニー リミテッド | クロスモーダル情報検索方法及びその装置、並びに記憶媒体 |
JP2022180941A (ja) | 2021-05-25 | 2022-12-07 | ソフトバンク株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2024014057A (ja) | 2024-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12086198B2 (en) | Embedding based retrieval for image search | |
US11294953B2 (en) | Similar face retrieval method, device and storage medium | |
CN112119388A (zh) | 训练图像嵌入模型和文本嵌入模型 | |
US8200695B2 (en) | Database for uploading, storing, and retrieving similar documents | |
EP3270304A1 (en) | Artificial intelligence-based prior art document identification system | |
CN110909145B (zh) | 针对多任务模型的训练方法及装置 | |
US20220254134A1 (en) | Region recognition method, apparatus and device, and readable storage medium | |
CN109905772A (zh) | 视频片段查询方法、装置、计算机设备及存储介质 | |
CN112074828A (zh) | 训练图像嵌入模型和文本嵌入模型 | |
CN111831924A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN114168841A (zh) | 内容推荐方法及其装置 | |
WO2021219117A1 (zh) | 图像检索方法、图像检索装置、图像检索系统及图像显示系统 | |
JP2011053781A (ja) | 画像データベース作成装置、画像検索装置、画像データベース作成方法および画像検索方法 | |
CN112765387A (zh) | 图像检索方法、图像检索装置和电子设备 | |
JP2021086438A (ja) | 画像検索装置、画像検索方法、及びプログラム | |
CN116612324A (zh) | 基于语义自适应融合机制的小样本图像分类方法及装置 | |
WO2021012691A1 (zh) | 用于检索图像的方法和装置 | |
WO2024114659A1 (zh) | 一种摘要生成方法及其相关设备 | |
CN111460206B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN113641855A (zh) | 一种视频推荐方法、装置、设备及存储介质 | |
CN111597336B (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
JP7366204B1 (ja) | 情報処理方法、コンピュータプログラム及び情報処理装置 | |
US20240256597A1 (en) | Machine learning selection of images | |
CN110705251B (zh) | 计算机执行的文本分析方法及装置 | |
CN113761004A (zh) | 网络模型数据处理、数据展示方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230414 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7366204 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |