JP7360497B2 - クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム - Google Patents
クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム Download PDFInfo
- Publication number
- JP7360497B2 JP7360497B2 JP2022062888A JP2022062888A JP7360497B2 JP 7360497 B2 JP7360497 B2 JP 7360497B2 JP 2022062888 A JP2022062888 A JP 2022062888A JP 2022062888 A JP2022062888 A JP 2022062888A JP 7360497 B2 JP7360497 B2 JP 7360497B2
- Authority
- JP
- Japan
- Prior art keywords
- modality
- data item
- quantization
- neural network
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims 17
- 238000013139 quantization Methods 0.000 claims description 102
- 239000013598 vector Substances 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 66
- 238000013528 artificial neural network Methods 0.000 claims description 45
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000007423 decrease Effects 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 235000012489 doughnuts Nutrition 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 241000191291 Abies alba Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
(1)異なるモーダル性の間の類似度を密な特徴ベクトルに基づいて測るクロスエントロピー損失。
(2)密な特徴ベクトルと量子化された特徴との間の違いを測る量子化損失。
(3)密な特徴ベクトルとバイナリ化された特徴との間の違いを測るバイナリハッシュ損失。
(4)バイナリコード内のビット情報を最適化するためのバランス損失。
(1)検索効率。探索空間を単純なバイナリコードで絞り込むことによって、検索プロセスの速度は、密な特徴ベクトルのみ、あるいは、量子化コードのみに基づいて探索をする手法に比べて格段に向上する。
(2)検索品質。特徴学習は、ハッシュ損失と量子化損失を用いて律則される。量子化では限られた数の連続特徴表現を学習する一方で、バイナリハッシュでは、特徴を離散化する。2つのコード化手法の組み合わせは、特徴学習における正則化として働くので、システムは、データモーダル性をまたいだ類似あるいは非類似を保存するような良いデータ表現を学習することができる。
訓練方法について、図1および3Aを参照して説明する。図1は、バイナリハッシュと量子化を使用するクロスモーダルデータ検索を実行するシステムを訓練する方法を図示している。図3Aは、1つの実施形態に係る訓練方法の例を図解して示す。図解された例においては、2つのデータモーダル性は、画像とテキストであるが、本方法は、これらのモーダル性に限定されるものではない。
システムは、異なるモーダル性を有するデータアイテムの複数ペアからなる訓練データセットを取得する(ステップ110)。特に、各ペアは、第1モーダル性を有するデータアイテムと、第2モーダル性を有するデータアイテムと、を含み、第1モーダル性と、第2モーダル性と、は異なる。データモーダル性には、たとえば、テキスト、画像、動画等がある。たとえば、ペアのおける一方のアイテムはテキストアイテムであり、他方のアイテムは画像もしくは動画である。
ニューラルネットワークを使用して、訓練データアイテムの特徴ベクトル表現を生成する。特に、システムは、第1ニューラルネットワークを、訓練データセット内の第1モーダル性を有するデータアイテムに適用して、これらのアイテムのそれぞれに対する特徴ベクトルを生成する(ステップ120)。同様に、システムは、第2ニューラルネットワークを、訓練データセット内の第2モーダル性を有するデータアイテムに適用して、これらのアイテムのそれぞれに対する特徴ベクトルを生成する(ステップ130)。たとえば、図3Aでは、鉢(bowl)に入ったりんご(apple)等の有機果実(organic fruits)が撮影された画像が訓練画像310として図示されており、「apple」「orange」「pear」「bowl」「fruits」「organic」が訓練テキストアイテム330として図示されている。本図に示すように、ニューラルネットワーク320は、画像の特徴抽出器として機能して、入力された訓練画像310のそれぞれに対する特徴ベクトルfiを生成し、ニューラルネットワーク340は、テキストの特徴抽出器として機能して、入力された訓練テキストアイテム330のそれぞれに対する特徴ベクトルfjを生成する。ある実施形態では、畳み込みニューラルネットワークを画像や動画のデータアイテムに適用し、長・短期記憶(LSTM; Long Short-Term Memory)ニューラルネットワークや多層パーセプトロンをテキストデータに適用する。ある実施形態では、特徴ベクトルは密な特徴ベクトルである。
以下に詳細に説明するように、システムは、訓練データアイテムのそれぞれに対するバイナリハッシュコードおよび量子化コードを、そのアイテムに対する特徴ベクトルから生成する(ステップ140)。
あるデータアイテムに対する特徴ベクトルx∈Rnが与えられると、システムはバイナリハッシュコードhx = H(x)∈Rnを計算する。ここで、H()は、連続値を、集合{+1,-1}に写像する関数である。たとえば、図3Aでは、バイナリハッシュコードhiが、画像特徴ベクトルfiに基づいて生成され、バイナリハッシュコードhjが、テキスト特徴ベクトルfjに基づいて生成される。
あるデータアイテムに対する特徴ベクトルx∈Rnが与えられると、システムは、量子化コードを、Cbx≒xにより計算する。
前述の通り、システムは、訓練データに対して特徴ベクトル、バイナリハッシュコード、量子化コードを繰り返し生成し(ステップ120-140)、これらの表現に基づいて損失値を計算し(ステップ150)、ニューラルネットワーク、バイナリハッシュアルゴリズム、および、量子化アルゴリズムのパラメータを、損失値を最小化するように調整する(ステップ160)。システムは、学習された特徴ならびにバイナリハッシュおよび量子化コードがモーダル性をまたがる訓練データの間の意味論的な類似関係を保存する度合を測る損失関数を使用する(すなわち、意味論的に類似する2つのデータアイテムに対するハッシュコードと量子化コードが、類似するように訓練される)。
(1)異なるモーダル性の間の類似度を密な特徴ベクトルに基づいて測るクロスエントロピー損失。
(2)密な特徴ベクトルと量子化された特徴との間の違いを測る量子化損失。
(3)密な特徴ベクトルとバイナリ化された特徴との間の違いを測るバイナリハッシュ損失。
(4)バイナリコード内のビット情報を最適化するためのバランス損失。
この種の損失関数によって、システムは、特徴ベクトル、バイナリハッシュコード、および、量子化コードを同時に最適化できるようになる。
図2Aおよび2Bは、バイナリハッシュ及び量子化を用いて、異なるモーダル性を有するクエリアイテムに対して意味論的な意味が類似するデータベースアイテムをクロスモーダル検索する方法について図示する。予測フェーズでは、システムは、訓練フェーズで訓練されたニューラルネットワーク、バイナリハッシュアルゴリズム、および、量子化アルゴリズムを使用する。予測フェーズにおけるデータモーダル性は、訓練フェーズにおけるデータモーダル性と同じである。これを説明する目的のため、データベースアイテムは第1モーダル性(訓練フェーズにおける第1モーダル性と同じもの)を有し、クエリアイテムは第2モーダル性(訓練フェーズにおける第2モーダル性と同じもの)を有するものとする。
システムは、第1モーダル性を有するデータベースを複数持つデータベースにアクセスする(ステップ210)。システムは、第1ニューラルネットワークをデータベースアイテムに適用して、データベースアイテムの各々について、特徴ベクトルを生成する(ステップ220)。システムは、バイナリハッシュアルゴリズムと量子化アルゴリズムを使用して、データベースアイテムの各々について、バイナリハッシュコードと量子化コードを生成する(ステップ230)。これらのステップで使用される第1ニューラルネットワーク、および、バイナリハッシュならびに量子化アルゴリズムは、訓練フェーズで訓練されたものである。
予測フェーズを実行するシステムは、第2モーダル性を有するクエリアイテムを受け取り、第2ニューラルネットワークをクエリアイテムに適用して、クエリアイテムに対する特徴ベクトルを生成する(ステップ240, 250)。ついで、システムは、特徴ベクトルとバイナリハッシュアルゴリズムに基づいて、クエリアイテムに対するバイナリハッシュコードを生成する(ステップ260)。実施形態によっては、アイテム間の類似度を測るために量子化コードに基づく量子化距離(quantization distance)あるいは非対称量子化距離(AQD; Asymmetric Quantization Distance)を使用するかに応じて、システムがクエリアイテムに対する量子化コードも生成することとしても良い(後述する)。
システムは、クエリアイテムと、データベースアイテムの各々と、の間の距離(すなわち、類似性の尺度)を、クエリアイテムとデータベースアイテムのバイナリハッシュコードに基づいて計算する(ステップ260)。ある実施形態では、類似性の尺度はハミング距離
dist(hx,hy) = sum(hx XOR hy)
とする。ここで、hxおよびhyはクエリアイテムxおよびyに対するバイナリハッシュコードである。ハミング距離の値が大きくなればなるほど、アイテムxとyは意味論的に、一層非類似となる。
ついで、システムは、クエリアイテムと、絞り込まれた探索空間内のデータベースアイテムのそれぞれ(すなわち、選択された部分集合内のデータベースアイテムのそれぞれ)と、の間の量子化距離を計算する(ステップ280)。量子化距離は、
データベースアイテムの部分集合のそれぞれに対応付けられる量子化コードと、
クエリアイテムの特徴ベクトルもしくはクエリアイテムの量子化コードのいずれか一方と、
を使用して計算される。
AQD(x,y) = fx T (Cby)
ここで、
xはクエリアイテムであり、yはデータベースアイテムであり、
fxは、xの特徴ベクトルであり、
Tは転置操作であり、
Cは量子化に対する辞書であり、
byは、辞書の列を示すインデックス指示子である。
QD(x,y) = (Cbx)T(Cby)
QD値が大きくなればなるほど、両アイテムの量子化距離は小さくなり、両アイテムは一層類似することになる。
図3Bは、1つの実施形態に対する予測プロセスの例を図示して示す。この例では、システムは、画像クエリアイテム350 (本図では、ドーナツの形のオーナメントが飾られたクリスマスツリーの写真の画像を例として示す。)に対して、データベース365からマッチするテキスト記述を探す。ニューラルネットワーク360は、画像の特徴抽出器として機能して、画像クエリアイテム350に対する特徴ベクトルfを生成する。それから、バイナリハッシュコードhが特徴ベクトルに基づいて計算させる。それから、このプロセスは、以下のように進む。
図4に、ここで説明した手法によるクロスモーダル検索を実行するシステムのソフトウェアアーキテクチャの例を図示する。他のソフトウェアアーキテクチャを使用することも可能であり、ここで説明した手法は、図示するアーキテクチャに限られるものではない。
以下では、上記実施形態に対する注記をいくつか掲げる。
本願図面において記述された手法は、ソフトウェア内に具体化され、当該ソフトウェアを実行(execute)する(1以上のコンピューティングデバイスを備える)コンピュータシステムによって実行(perform)される。コンピュータシステムは、ソフトウェア指令を格納するための1以上の物理メモリユニット、ディスクあるいは他の物理的な、コンピュータ読取可能なストレージメディアを有するほか、ソフトウェア指令を実行するための1以上のプロセッサを有する。コンピュータシステムは、スタンドアロンのものでも良いし、コンピュータ通信網にサーバとして接続されたものでも良い。実施形態によっては、あるエンティティにより制御されるコンピュータシステムが訓練プロセスを実行し、別のエンティティにより制御されるコンピュータシステムが予測プロセスを実行することとしても良い。
本願においては、アメリカ合衆国に対して令和1年(2019年)12月20日(金)に出願した仮出願62/952090、および、アメリカ合衆国に対して令和2年(2020年)5月7日(木)に出願した特許出願16/869408を基礎とする優先権を主張するものとし、法令が許す限り、当該基礎出願の内容を本願に取り込むものとする。
320 ニューラルネットワーク
330 訓練テキストアイテム
340 ニューラルネットワーク
350 画像クエリアイテム
360 ニューラルネットワーク
365 テキストデータベース
370 バイナリハッシュコード
375 データベースアイテムの部分集合
380 量子化コード
400 システム
405 訓練データ
410 データベース
415 データベースインターフェース
420 クエリアイテム
430 データ表現モジュール
450 ニューラルネットワークモジュール
460 バイナリハッシュモジュール
470 量子化モジュール
480 クエリモジュール
484 ハミング距離モジュール
488 AQDモジュール
490 訓練モジュール
Claims (12)
- 抽出装置が、
入力されたデータアイテムに対して、
当該データアイテムが第1モーダル性を有すれば、学習済の第1ニューラルネットワークを適用し、
当該データアイテムが第2モーダル性を有すれば、学習済の第2ニューラルネットワークを適用する
ことにより、当該データアイテムの特徴ベクトルを生成し、
前記生成された特徴ベクトルに対して、学習済のバイナリハッシュアルゴリズムを適用することにより、バイナリハッシュコードを生成し、
前記生成された特徴ベクトルに対して、学習済の量子化アルゴリズムを適用することにより、量子化コードを生成し、
当該データアイテムの意味論的な特徴表現として、少なくとも、前記生成されたバイナリハッシュコードと、前記生成された量子化コードと、を出力する
抽出方法であって、
前記第1ニューラルネットワークと、前記第2ニューラルネットワークと、は、
データアイテムのペアを複数含む訓練データセットであって、
各ペアは、第1モーダル性のデータアイテムと、第2モーダル性のデータアイテムと、を含み、
第1モーダル性と第2モーダル性は異なり、
ペアの第1部分集合は、意味論的な意味が類似するデータアイテムを含み、
ペアの第2部分集合は、意味論的な意味が非類似のデータアイテムを含み、
各ペアは、ペア内のデータアイテムの意味論的な意味が類似か非類似かに基づいてラベルが付けられている
訓練データセットにより学習されたものである
ことを特徴とする抽出方法。 - 前記第1ニューラルネットワークと、前記第2ニューラルネットワークと、は、
第1ニューラルネットワークを当該訓練データセット内の第1モーダル性を有するデータアイテムに適用して、第1モーダル性を有するデータアイテムのそれぞれの特徴ベクトルを生成し、
第2ニューラルネットワークを当該訓練データセット内の第2モーダル性を有するデータアイテムに適用して、第2モーダル性を有するデータアイテムのそれぞれの特徴ベクトルを生成し、
バイナリハッシュコードと量子化コードを、訓練データセット内のデータアイテムの各々に対して、当該データアイテムの特徴ベクトルに基づいて生成し、
当該バイナリハッシュコードはバイナリハッシュアルゴリズムを使用して生成され、
当該量子化コードは量子化アルゴリズムを使用して生成され、
損失関数を使用して損失値を計算し、
当該損失関数は、当該特徴ベクトルと、当該バイナリハッシュコードと、当該量子化コードと、が訓練データペア内の意味論的な類似関係を保存する度合を測り、
当該第1ニューラルネットワークと、当該第2ニューラルネットワークと、当該バイナリハッシュアルゴリズムと、当該量子化アルゴリズムと、のパラメータを、当該損失値が減るように更新する
ことを繰り返す
ことにより学習される
ことを特徴とする請求項1に記載の抽出方法。 - 当該第1モーダル性はテキストであり、当該第2モーダル性は画像である
ことを特徴とする請求項1に記載の抽出方法。 - 当該第1モーダル性は画像であり、当該第2モーダル性はテキストである
ことを特徴とする請求項1に記載の抽出方法。 - 当該損失関数は、
訓練データアイテムのペアの特徴ベクトル間の類似度を測る類似損失サブ関数と、
バイナリコード誤差を測るハッシュ損失サブ関数と、
量子化誤差を測る量子化損失サブ関数と、
を備えることを特徴とする請求項2に記載の抽出方法。 - 当該損失関数は、当該訓練データセットに対する当該バイナリハッシュコードにおける+1と-1のバイナリビットの数の分布を測るバランス損失サブ関数を備えることを特徴とする請求項5に記載の抽出方法。
- 畳み込みニューラルネットワークを画像データアイテムに適用し、長・短期記憶ニューラルネットワークもしくは多層パーセプトロンをテキストデータアイテムに適用することを特徴とする請求項1から6のいずれか1項に記載の抽出方法。
- 当該バイナリハッシュコードに基づいて計算されるハミング距離により、前記類似関係を保存する度合が測られる
ことを特徴とする請求項2、5、6のいずれか1項に記載の抽出方法。 - 第1データアイテムと、第2データアイテムと、の類似関係を保存する度合は、当該第1データアイテムの特徴ベクトルと、当該第2データアイテムの量子化コードと、を使用して計算される非対称量子化距離により、測られる
ことを特徴とする請求項2、5、6、8のいずれか1項に記載の抽出方法。 - 第1データアイテムと、第2データアイテムと、の類似関係を保存する度合は、当該第1データアイテムの量子化コードと、当該第2データアイテムの量子化コードと、を使用して計算される量子化距離により測られる
ことを特徴とする請求項2、5、6、8のいずれか1項に記載の抽出方法。 - 入力されたデータアイテムに対して、
当該データアイテムが第1モーダル性を有すれば、学習済の第1ニューラルネットワークを適用し、
当該データアイテムが第2モーダル性を有すれば、学習済の第2ニューラルネットワークを適用する
ことにより、当該データアイテムの特徴ベクトルを生成する特徴ベクトル生成部、
前記生成された特徴ベクトルに対して、学習済のバイナリハッシュアルゴリズムを適用することにより、バイナリハッシュコードを生成するバイナリハッシュコード生成部、
前記生成された特徴ベクトルに対して、学習済の量子化アルゴリズムを適用することにより、量子化コードを生成する量子化コード生成部、
当該データアイテムの意味論的な特徴表現として、少なくとも、前記生成されたバイナリハッシュコードと、前記生成された量子化コードと、を出力する出力部
を備え、
前記第1ニューラルネットワークと、前記第2ニューラルネットワークと、は、
データアイテムのペアを複数含む訓練データセットであって、
各ペアは、第1モーダル性のデータアイテムと、第2モーダル性のデータアイテムと、を含み、
第1モーダル性と第2モーダル性は異なり、
ペアの第1部分集合は、意味論的な意味が類似するデータアイテムを含み、
ペアの第2部分集合は、意味論的な意味が非類似のデータアイテムを含み、
各ペアは、ペア内のデータアイテムの意味論的な意味が類似か非類似かに基づいてラベルが付けられている
訓練データセットにより学習されたものである
ことを特徴とする抽出装置。 - コンピュータに、
入力されたデータアイテムに対して、
当該データアイテムが第1モーダル性を有すれば、学習済の第1ニューラルネットワークを適用し、
当該データアイテムが第2モーダル性を有すれば、学習済の第2ニューラルネットワークを適用する
ことにより、当該データアイテムの特徴ベクトルを生成する工程、
前記生成された特徴ベクトルに対して、学習済のバイナリハッシュアルゴリズムを適用することにより、バイナリハッシュコードを生成する工程、
前記生成された特徴ベクトルに対して、学習済の量子化アルゴリズムを適用することにより、量子化コードを生成する工程、
当該データアイテムの意味論的な特徴表現として、少なくとも、前記生成されたバイナリハッシュコードと、前記生成された量子化コードと、を出力する工程
を実行させ、
前記第1ニューラルネットワークと、前記第2ニューラルネットワークと、は、
データアイテムのペアを複数含む訓練データセットであって、
各ペアは、第1モーダル性のデータアイテムと、第2モーダル性のデータアイテムと、を含み、
第1モーダル性と第2モーダル性は異なり、
ペアの第1部分集合は、意味論的な意味が類似するデータアイテムを含み、
ペアの第2部分集合は、意味論的な意味が非類似のデータアイテムを含み、
各ペアは、ペア内のデータアイテムの意味論的な意味が類似か非類似かに基づいてラベルが付けられている
訓練データセットにより学習されたものである
ことを特徴とするプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962952090P | 2019-12-20 | 2019-12-20 | |
US62/952090 | 2019-12-20 | ||
US16/869408 | 2020-05-07 | ||
US16/869,408 US11651037B2 (en) | 2019-12-20 | 2020-05-07 | Efficient cross-modal retrieval via deep binary hashing and quantization |
JP2020209580A JP7055187B2 (ja) | 2019-12-20 | 2020-12-17 | ディープバイナリハッシュおよび量子化を介した効率的なクロスモーダル検索 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020209580A Division JP7055187B2 (ja) | 2019-12-20 | 2020-12-17 | ディープバイナリハッシュおよび量子化を介した効率的なクロスモーダル検索 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022089883A JP2022089883A (ja) | 2022-06-16 |
JP7360497B2 true JP7360497B2 (ja) | 2023-10-12 |
Family
ID=76437406
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020209580A Active JP7055187B2 (ja) | 2019-12-20 | 2020-12-17 | ディープバイナリハッシュおよび量子化を介した効率的なクロスモーダル検索 |
JP2022062888A Active JP7360497B2 (ja) | 2019-12-20 | 2022-04-05 | クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020209580A Active JP7055187B2 (ja) | 2019-12-20 | 2020-12-17 | ディープバイナリハッシュおよび量子化を介した効率的なクロスモーダル検索 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11651037B2 (ja) |
JP (2) | JP7055187B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11681610B2 (en) * | 2020-05-13 | 2023-06-20 | Data-Core Systems, Inc. | Synthesizing data based on topic modeling for training and testing machine learning systems |
US20230195723A1 (en) * | 2020-05-20 | 2023-06-22 | Nippon Telegraph And Telephone Corporation | Estimation apparatus, learning apparatus, estimation method, learning method and program |
EP4264499A1 (en) * | 2020-12-21 | 2023-10-25 | Citrix Systems, Inc. | Multimodal modelling for systems using distance metric learning |
US20220383037A1 (en) * | 2021-05-27 | 2022-12-01 | Adobe Inc. | Extracting attributes from arbitrary digital images utilizing a multi-attribute contrastive classification neural network |
US12062080B2 (en) | 2021-07-14 | 2024-08-13 | Rakuten Group, Inc. | Reducing sample selection bias in a machine learning-based recommender system |
CN113312505B (zh) * | 2021-07-29 | 2021-11-02 | 山东大学 | 一种基于离散在线哈希学习的跨模态检索方法及系统 |
CN113326289B (zh) * | 2021-08-02 | 2021-11-02 | 山东大学 | 面向携带新类别的增量数据的快速跨模态检索方法及系统 |
CN113961727B (zh) * | 2021-09-13 | 2022-10-21 | 哈尔滨工业大学(深圳) | 一种跨媒体哈希检索方法、装置、终端及存储介质 |
US11790388B2 (en) | 2021-09-30 | 2023-10-17 | Rakuten Group, Inc. | System, method, and computer program for automatic coupon code fill in a mobile application |
CN113868366B (zh) * | 2021-12-06 | 2022-04-01 | 山东大学 | 一种面向流数据的在线跨模态检索方法与系统 |
US11775740B2 (en) | 2021-12-30 | 2023-10-03 | Rakuten Group, Inc. | System, method, and computer program for testing the accuracy of software that identifies user interface elements on a webpage |
CN114531220A (zh) * | 2022-01-12 | 2022-05-24 | 重庆邮电大学 | 一种基于前向和后向隐私的高效容错动态短语搜索方法 |
CN114461839B (zh) * | 2022-04-12 | 2023-02-07 | 智者四海(北京)技术有限公司 | 基于多模态预训练的相似图片检索方法、装置及电子设备 |
CN114861016A (zh) * | 2022-07-05 | 2022-08-05 | 人民中科(北京)智能技术有限公司 | 一种跨模态检索方法、装置以及存储介质 |
CN115080880B (zh) * | 2022-08-23 | 2022-11-08 | 山东建筑大学 | 一种基于鲁棒相似保持的跨模态检索方法及系统 |
CN115687571B (zh) * | 2022-10-28 | 2024-01-26 | 重庆师范大学 | 一种基于模态融合重建哈希的深度无监督跨模态检索方法 |
CN118093907B (zh) * | 2024-04-22 | 2024-07-02 | 山东建筑大学 | 融合相似性的在线哈希多媒体数据跨模态检索方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016197375A (ja) | 2015-04-06 | 2016-11-24 | 日本電信電話株式会社 | 写像学習方法、情報圧縮方法、装置、及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3143532B2 (ja) * | 1992-11-30 | 2001-03-07 | キヤノン株式会社 | 画像検索装置及び方法 |
JP5142705B2 (ja) | 2007-12-29 | 2013-02-13 | シャープ株式会社 | 画像検索装置 |
JP5458815B2 (ja) | 2009-11-11 | 2014-04-02 | 株式会社デンソーアイティーラボラトリ | マルチメディア検索システム |
US10120879B2 (en) * | 2013-11-29 | 2018-11-06 | Canon Kabushiki Kaisha | Scalable attribute-driven image retrieval and re-ranking |
JP6397385B2 (ja) | 2015-08-21 | 2018-09-26 | 日本電信電話株式会社 | 学習装置、探索装置、方法、及びプログラム |
CN107256271B (zh) | 2017-06-27 | 2020-04-03 | 鲁东大学 | 基于映射字典学习的跨模态哈希检索方法 |
CN110019652B (zh) * | 2019-03-14 | 2022-06-03 | 九江学院 | 一种基于深度学习的跨模态哈希检索方法 |
US11604822B2 (en) * | 2019-05-30 | 2023-03-14 | Adobe Inc. | Multi-modal differential search with real-time focus adaptation |
CN110309331B (zh) * | 2019-07-04 | 2021-07-27 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN110516085B (zh) * | 2019-07-11 | 2022-05-17 | 西安电子科技大学 | 基于双向注意力的图像文本互检索方法 |
-
2020
- 2020-05-07 US US16/869,408 patent/US11651037B2/en active Active
- 2020-12-17 JP JP2020209580A patent/JP7055187B2/ja active Active
-
2022
- 2022-04-05 JP JP2022062888A patent/JP7360497B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016197375A (ja) | 2015-04-06 | 2016-11-24 | 日本電信電話株式会社 | 写像学習方法、情報圧縮方法、装置、及びプログラム |
Non-Patent Citations (1)
Title |
---|
CAO, Yue ほか,Deep Visual-Semantic Hashing for Cross-Modal Retrieval,Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2016年08月13日,PP. 1445-1454 |
Also Published As
Publication number | Publication date |
---|---|
JP7055187B2 (ja) | 2022-04-15 |
JP2022089883A (ja) | 2022-06-16 |
US11651037B2 (en) | 2023-05-16 |
JP2021099803A (ja) | 2021-07-01 |
US20210191990A1 (en) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7360497B2 (ja) | クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム | |
CN113535984B (zh) | 一种基于注意力机制的知识图谱关系预测方法及装置 | |
Lin et al. | A structured self-attentive sentence embedding | |
CN112800776B (zh) | 双向gru关系抽取数据处理方法、系统、终端、介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
US11023473B2 (en) | Recurrent binary embedding for information retrieval | |
CN112368697A (zh) | 经由对偶分解评估损失函数或损失函数的梯度的系统和方法 | |
CN112395438A (zh) | 一种多标签图像的哈希码生成方法和系统 | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN111026887B (zh) | 一种跨媒体检索的方法及系统 | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
Zhang et al. | Dual-constrained deep semi-supervised coupled factorization network with enriched prior | |
CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
Almiman et al. | Deep neural network approach for Arabic community question answering | |
Ciaburro et al. | Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets | |
Zhang et al. | An attention-based word-level interaction model: Relation detection for knowledge base question answering | |
CN116680363A (zh) | 一种基于多模态评论数据的情感分析方法 | |
CN117252665B (zh) | 业务推荐方法、装置、电子设备及存储介质 | |
CN113792594B (zh) | 一种基于对比学习的视频中语言片段定位方法及装置 | |
Zhang et al. | CapsNet-based supervised hashing | |
Ngueilbaye et al. | SDLER: stacked dedupe learning for entity resolution in big data era | |
CN117992573A (zh) | 基于文本扩展的信息检索方法、装置、电子设备及介质 | |
Mahalakshmi et al. | Collaborative text and image based information retrieval model using bilstm and residual networks | |
CN116340635A (zh) | 物品推荐方法、模型训练方法、装置及设备 | |
CN106203517A (zh) | 一种核范数驱动的数据分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220510 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230929 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7360497 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |