JP2023060846A - モデル決定方法、装置、電子機器及びメモリ - Google Patents

モデル決定方法、装置、電子機器及びメモリ Download PDF

Info

Publication number
JP2023060846A
JP2023060846A JP2022166953A JP2022166953A JP2023060846A JP 2023060846 A JP2023060846 A JP 2023060846A JP 2022166953 A JP2022166953 A JP 2022166953A JP 2022166953 A JP2022166953 A JP 2022166953A JP 2023060846 A JP2023060846 A JP 2023060846A
Authority
JP
Japan
Prior art keywords
image
text
samples
model
cue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2022166953A
Other languages
English (en)
Inventor
ワン,ロンチャオ
Longchao Wang
サン,イーペン
Yipeng Sun
ヤオ,クン
Kun Yao
ハン,ジュンユ
Junyu Han
リウ,ジントゥオ
Jingtuo Liu
ディン,エァールイ
Errui Ding
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023060846A publication Critical patent/JP2023060846A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 2023060846000001
【課題】画像処理、画像認識などのシーンに適用できる、初期化モデルの訓練効率が低いという技術的問題を解決するモデル決定方法、モデル決定装置、画像処理装置、電子機器、プログラム及び記憶媒体を提供する。
【解決手段】方法は、画像サンプル及びテキストサンプルを取得する。テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる。方法はさらに、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、第1キュー及び第2キューを訓練して、第1ターゲットモデルを取得し、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定する。
【選択図】図1A

Description

本開示は、人工知能技術の分野に関し、特に、コンピュータビジョン及び深層学習の分野に関し、画像処理、画像認識などのシーンに適用でき、具体的には、モデル決定方法、装置、電子機器及びメモリに関する。
現在、グラフィックス及びテキストの予備訓練において、対比損失(loss)を用いて訓練して初期化モデルを得るのが一般的であるが、初期化モデルの指標が高くならないように、大量のコンピューティングリソースを用いてモデルを訓練する必要があり、かつ、多大な時間を要する。
本開示は、モデル決定方法、装置、電子機器及びメモリを提供する。
本開示の一態様によれば、モデル決定方法を提供する。当該方法は、画像サンプル及びテキストサンプルを取得するステップであって、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップと、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶するステップと、第1キュー及び第2キューを訓練して、第1ターゲットモデルを得るステップと、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定するステップと、を含み得る。
本開示の一態様によれば、別のモデル決定方法を提供する。当該方法は、サーバにモデル訓練要求を送信するステップであって、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップと、サーバがモデル訓練要求に応答して送信する初期化モデルを受信するステップであって、初期化モデルは、サーバが画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、第1キュー及び第2キューを訓練することによって得られるものである、ステップと、を含み得る。
本開示の一態様によれば、画像処理方法を提供する。当該方法は、被処理画像を取得するステップと、被処理画像を、本開示の実施例のモデル決定方法によって取得される第2ターゲットモデルに入力するステップと、第2ターゲットモデルの処理結果を取得するステップと、を含み得る。
本開示の別の態様によれば、モデル決定装置をさらに提供する。当該装置は、画像サンプル及びテキストサンプルを取得するために用いられ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、第1取得ユニットと、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶するための記憶ユニットと、第1キュー及び第2キューを訓練して、第1ターゲットモデルを得るための訓練ユニットと、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定するための決定ユニットと、を含み得る。
本開示の別の態様によれば、別のモデル決定装置をさらに提供する。当該装置は、サーバにモデル訓練要求を送信するために用いられ、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、送信ユニットと、サーバがモデル訓練要求に応答して送信する初期化モデルを受信するために用いられ、初期化モデルは、サーバが画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、第1キュー及び前記第2キューを訓練することによって得られるものである、受信ユニットと、を含み得る。
本開示の別の態様によれば、別の画像処理装置をさらに提供する。当該装置は、被処理画像を取得するための第2取得ユニットと、被処理画像を、本開示の実施例のモデル決定方法によって取得される第2ターゲットモデルに入力するための入力ユニットと、第2ターゲットモデルの処理結果を取得するための第3取得ユニットと、を含み得る。
本開示の別の態様によれば、電子機器をさらに提供する。当該電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されるメモリとを含み、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、少なくとも1つのプロセッサが本開示の実施例のモデル決定方法を実行できるように、命令が少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体をさらに提供し、コンピュータ命令は、コンピュータに本開示の実施例のモデル決定方法を実行させるために用いられる。
本明細書に記述の内容は、本開示の実施例の肝心な特徴又は重要な特徴を特定することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書によって容易に理解されるであろう。
図面は、本解決手段をよりよく理解するためのものであり、本開示を限定するものではない。
本開示の実施例によるモデル決定方法のフローチャートである。 本開示の実施例による別のモデル決定方法のフローチャートである。 本開示の実施例による画像処理方法のローチャートである。 本開示の実施例によるキュー技術に基づくグラフィックス及びテキストの予備訓練システムの模式図である。 本開示の実施例によるDeitモデル構造の模式図である。 本開示の実施例によるキューモジュールの模式図である。 本開示の実施例による画像特徴とテキスト特徴とのマッチングを行う模式図である。 本開示の実施例によるモデル決定装置の模式図である。 本開示の実施例による別のモデル決定装置の模式図である。 本開示の実施例による画像処理装置の模式図である。 本開示の実施例による電子機器の模式的なブロック図である。
以下、図面を参照しながら、本開示の例示性実施例を説明するが、理解を容易にするために、この説明には本開示の実施例の様々な詳細が含まれており、それらを単なる例示的なものと見なすべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解できるだろう。同様に、分かりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造についての説明を省略する。
図1Aは、本開示の実施例によるモデル決定方法のフローチャートである。図1Aに示すように、当該方法は、ステップS102~ステップS108を含み得る。
ステップS102、画像サンプル及びテキストサンプルを取得し、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる。
本開示の上記のステップ102にて提供される技術案において、テキスト(text)サンプルにおけるテキスト(テキストデータ)は、画像(image)サンプルにおけるターゲット画像(画像データ)を文字で記述するために用いられる。
当該実施例のモデル決定方法は、グラフィックス及びテキストの予備訓練についてのモデル決定方法である。グラフィックス及びテキストの予備訓練は、大量のデータを必要とし、当該実施例では、画像サンプル及びテキストサンプルを取得して訓練サンプルとすることができ、当該テキストサンプルは画像サンプルに対応し、ここで、テキストサンプルには大量のテキスを含めることができ、画像サンプルには大量の画像を含めることができ、当該画像は写真を含めることができ、各テキストは、画像サンプルにおける大量の画像のターゲット画像を文字で記述するために用いられ、つまり、テキストサンプルにおける各テキストは、画像サンプルにおけるターゲット画像と1対1に対応し、当該テキストサンプルにおける各テキスト及び対応するターゲット画像は、画像テキストペアとも呼ばれる。
選択可能に、当該実施例では、インターネットクローラーで上記の画像サンプル及びテキストサンプルをクローリングすることができる。
選択可能に、当該実施例の上記の画像サンプル及びテキストサンプルは、手動で注釈及びクレンジングする必要がないため、人件費を節約することができる。
ステップS104:画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶する。
本開示の上記のステップ104にて提供される技術案において、画像サンプル及びテキストサンプルを取得した後、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、ここで、第1キュー及び第2キューは、まとめてグラフィックス及びテキストのデュアルキューと称される。
グラフィックス及びテキストの予備訓練におけるコントラストlossは、ネガティブ情報ペアをマイニングする能力に非常に依頼するため、各ミニバッチ(minibatch)から十分なネガティブ情報ペアを収集するために、当該実施例では、第1キュー及び第2キューを含むデュアルキューモジュールを設けた。当該実施例は、先に画像サンプルの画像特徴を取得することができ、画像サンプルを画像エンコーダ(Image Encoder)に入力することができ、画像サンプルから第1画像特徴が当該画像エンコーダによって抽出され、例えば、当該画像特徴は、I、I……Iであってもよく、さらに、第1キューに記憶され、つまり、当該実施例の第1キューは画像特徴のキューである。選択可能に、当該実施例の第1キューに記憶された画像特徴の数は限られており、第1キューが新しい画像特徴を記憶するのに不十分である場合、最初に記憶された画像特徴を第1キューから削除して、新しい画像特徴を記憶するためのスペースを確保することができ、それにより、第1キューによって画像特徴を記録及び更新する目的を実現して、初期化モデルの訓練速度及びモデル指標(訓練指標)を向上させ、当該モデル指標は、初期化モデルの訓練効果を示すための指標である。
選択可能に、当該実施例の上記の画像エンコーダは、データ効率のよい画像(Deit)モデルを使用して第1画像特徴を抽出してもよく、つまり、Deitは、変形モデル(Transformer)を自然言語処理(Natural Language Processing、NLPと略称)からコンピュータビジョン(Computer Vision、CVと略称)に適用した。
当該実施例は、さらに、テキストサンプルのテキスト特徴を取得でき、テキストサンプルをテキストエンコーダ(TextEncoder)に入力することができ、テキストサンプルからテキスト特徴が当該テキストエンコーダによって抽出されることができ、当該テキスト特徴は、T、T……Tであってもよく、さらに、第2キューに記憶され、つまり、当該実施例の第2キューはテキスト特徴のキューである。選択可能に、当該実施例の第2キューに記憶されたテキスト特徴の数は限られており、第2キューが新しいテキスト特徴を記憶するのに十分でない場合、最初に記憶されたテキスト特徴を第2キューから削除して、新しい画像特徴を記憶するためのスペースを確保することができ、それにより、第2キューによってテキスト特徴を記録及び更新する目的を実現して、初期化モデルの訓練速度及びモデル指標を向上させる。
選択可能に、当該実施例の上記のテキストエンコーダは、RoBERTaモデルを使用してテキスト特徴を抽出してもよく、ここで、RoBERTaモデルは、言語表現モデル(BERT)を基にアップグレードされたものであり、モデルの具体的な詳細レベルにおいて、最適化関数を改善することと、訓練戦略レベルにおいて、動的マスク方法を使用してモデルを訓練して、次の語句の予測モデル(Next Sentence Prediction、NSPと略称)の訓練戦略の不足を証明し、より大きいバッチサイズ(batch size)を用いることと、また、データレベルにおいて、より大きなデータセットを使用する一方、バイトペアエンコーディング(Byte‐Pair Encoding、BPEと略称)を使用してテキストデータを処理することと、を含む。
ステップS106:第1キュー及び第2キューを訓練して、第1ターゲットモデルを得る。
本開示の上記のステップ106にて提供される技術案において、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶した後、第1キュー及び第2キューを訓練して、第1ターゲットモデルを得る。
当該実施例では、第1キュー及び第2キューを訓練することができ、選択可能に、コントラスト学習モデルによって、第1キューや画像サンプルにおける現在バッチの画像特徴、第2キューやテキストサンプルにおける現在バッチのテキスト特徴に対してコントラスト学習訓練を行って、バッチサイズ(batchsize)を等価的に大きくし、それにより、コンピューティングリソースを節約するとともに、初期化モデルのモデル指標を向上させることもできる。ここで、現在バッチとは、現在、バッチ訓練が行われている画像サンプルの画像特徴のバッチを言う。
ステップS108:第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定する。
本開示の上記のステップ108にて提供される技術案において、第1キュー及び第2キューを訓練して、第1ターゲットモデルを得た後、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定することができる。
当該実施例では、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定し、当該初期化モデルは、訓練して第2ターゲットモデルを得るために用いられ、当該第2ターゲットモデルは、画像検出モデル、画像分割モデル、画像分類モデルなどであり得る。
なお、当該実施例の上記の第2ターゲットモデルは、画像検出モデル、画像分割モデル、画像分類モデルであり、本開示の実施例の1つの例にすぎず、本開示の実施例の第2ターゲットモデルが単に画像検出モデル、画像分割モデル、画像分類モデルであることを表すものではなく、初期化モデルの訓練によって取得できるいずれのモデルも全部当該実施例の範囲内にあり、ここでは一つ一つ例示しない。
本願の上記のステップS102~ステップS108により、画像サンプル及びテキストサンプルを取得し、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられ、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、第1キュー及び第2キューを訓練して、第1ターゲットモデルを取得し、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定する。つまり、当該実施例の予備訓練は、デュアルキューで画像特徴及びテキスト特徴をそれぞれ保存して、初期化モデルの訓練に用いるため、コンピューティングリソースを大幅に節約することができ、初期化モデルの訓練効率が低いという技術的問題を解決し、初期化モデルの訓練効率を向上させるという技術的効果に達した。
以下、当該実施例の上記の方法についてさらに紹介する。
選択可能な実施形態として、第1キュー及び第2キューを訓練して、第1ターゲットモデルを得るステップS106は、第1キュー及び第2キューに基づいてネガティブサンプルを決定するステップと、ネガティブサンプルを訓練して、第1ターゲットモデルを得るステップと、を含む。
当該実施例では、第1キュー及び第2キューを訓練して、第1ターゲットモデルを得ることが実現されると、第1キュー及び第2キューに基づいてネガティブサンプルを取得することができ、さらに、ネガティブサンプルを訓練して、損失計算に参加させることができることにより、第1ターゲットモデルを取得し、大量のコンピューティングリソースを節約し、さらに、初期化モデルの訓練速度及び訓練指標を向上させ、ここで、当該訓練指標は、初期化モデルの訓練効果を表すための指標である。
選択可能な実施形態として、ネガティブサンプルには、第1ネガティブサンプル及び第2ネガティブサンプルが含まれ、ここで、第1キュー及び第2キューに基づいてネガティブサンプルを決定するステップは、第1キュー及びテキスト特徴に基づいて第1ネガティブサンプルを決定するステップと、第2キュー及び画像特徴に基づいて第2ネガティブサンプルを決定するステップと、を含む。
当該実施例では、画像サンプルの画像特徴を第1キューに記憶した後、第1キュー及びテキスト特徴に基づいて第1ネガティブサンプルを決定してもよいし、第1キュー及びテキストサンプルのうちのターゲットバッチ(batch)サンプルのテキスト特徴で第1ネガティブサンプルが構成されてもよく、上記のネガティブサンプルには当該第1ネガティブサンプルが含まれる。選択可能に、テキストサンプルのテキスト特徴を第2キューに記憶するステップにおいて、第2キュー及び画像サンプルのうちのターゲットバッチサンプルの画像特徴で第2ネガティブサンプルが構成されてもよく、上記のネガティブサンプルには第2ネガティブサンプルが含まれ、当該第2ネガティブサンプル及び第1ネガティブサンプルは、loss計算に関与する。ネガティブサンプルの数が初期化モデルの訓練効果に大きく影響するため、上記の方法によりネガティブサンプルの数を大幅に増やし、初期化モデルの訓練速度及びモデルの指標を向上させることができる。
選択可能な実施形態として、第1キュー及びテキスト特徴に基づいて第1ネガティブサンプルを決定するステップは、第1キュー及びテキストサンプルのうちの現在バッチのサンプルのテキスト特徴に基づいて第1ネガティブサンプルを決定するステップを含む。
当該実施例では、第1キュー及びテキスト特徴に基づいて第1ネガティブサンプルを決定するステップが実施される場合、テキストサンプルのうちの現在バッチのサンプルのテキスト特徴を取得することができ、つまり、現在batchのテキスト特徴を取得してから、第1キュー及び現在バッチのサンプルのテキスト特徴で第1ネガティブサンプルが構成されて、ネガティブサンプルの数を増やす。
選択可能な実施形態として、第2キュー及び画像特徴に基づいて第2ネガティブサンプルを決定するステップは、第2キュー及び画像サンプルのうちの現在バッチのサンプルの画像特徴に基づいて第2ネガティブサンプルを決定するステップを含む。
当該実施例では、第2キュー及び画像特徴に基づいて第2ネガティブサンプルを決定するステップが実施される場合、テキストサンプルのうちの現在バッチのサンプルのテキスト特徴を取得することができ、つまり、現在batchの画像特徴を取得してから、第2キュー及び現在バッチのサンプルの画像特徴で第2ネガティブサンプルが構成されて、ネガティブサンプルの数を増やす。
選択可能な実施形態として、ネガティブサンプルを訓練して、第1ターゲットモデルを得るステップは、ネガティブサンプルの複数の画像特徴と複数のテキスト特徴とのマッチングを行って、互いに正常にマッチングされた画像特徴及びテキスト特徴を含む複数のマッチング結果と、互いにマッチングが失敗した画像特徴及びテキスト特徴を含む複数の非マッチング結果を得るステップと、複数のマッチング結果及び複数の非マッチング結果に基づいてモデルパラメータを決定するステップと、モデルパラメータに基づいて第1ターゲットモデルを決定するステップと、を含む。
当該実施例では、ネガティブサンプルを訓練して、第1ターゲットモデルを得るステップが実施される場合、ネガティブサンプルの複数の画像特徴と複数のテキスト特徴とをそれぞれマッチングさせ、例えば、当該画像特徴はI、I・・・Iであってもよく、テキスト特徴はT、T・・・Tであってもよく、上記のI、I・・・I及びT、T・・・Tをそれぞれマッチングさせて、複数のマッチング結果及び複数の非マッチング結果を取得し、マッチング結果には、I・T、I・T・・・I・Tなどの互いに正常にマッチングされた画像特徴及びテキスト特徴が含まれてもよく、非マッチング結果には、I・T、I・T・・・I・T、I・T、I・T・・・I・Tなどの、マッチングが失敗した画像特徴及びテキスト特徴が含まれてもよい。
上記の複数のマッチング結果及び複数の非マッチング結果を決定した後、複数のマッチング結果及び複数の非マッチング結果に基づいてモデルパラメータを決定することができる。選択可能に、当該実施例は、損失関数(InfoNCE loss)を使用して、複数のマッチング結果及び複数の非マッチング結果を利用して実現され、例えば、下記の式によって実現される。
Figure 2023060846000002
ここで、xは、ネットワーク出力結果がi番目のタイプに属する概率を表すために用いられ、xは、ネットワーク出力結果がj番目のタイプに属する確率を表すために用いられ、選択可能に、当該実施例では、上記のexp(x)は、複数の画像特徴と複数のテキスト特徴とをマッチングさせたマッチング結果を表すために用いられてもよく、Σexp(x)は、複数の画像特徴と複数のテキスト特徴との非マッチング結果を表すために用いられてもよい。
そのため、当該実施例は、第1キュー及び第2キューを加えた後、infoNCE lossのネガティブサンプルを増やしたことに相当するため、コンピューティングリソースを多く節約することができる。
モデルパラメータを決定した後、当該実施例は、当該モデルパラメータによって第1ターゲットモデルを生成することができる。
選択可能に、当該実施例の上記のコントラスト学習モデルは、主にInfoNCE lossを使用して、第1ターゲットモデルを生成することができる。
選択可能な実施形態として、画像サンプルには画像ノイズデータが含まれ、及び/又は、テキストサンプルにはテキストノイズデータが含まれる。
当該実施例では、グラフィックス及びテキストの予備訓練は、大量のデータを必要とし、画像サンプル及びテキストサンプルを取得するには、一定のノイズデータを許容し、画像サンプルには画像ノイズデータが含まれ、テキストサンプルには第2テキストノイズデータが含まれることが可能であり、つまり、当該実施例では、人件費を節約するために、画像サンプルの画像ノイズデータ及びテキストサンプルのテキストノイズデータを特別に処理しなくてもよい。
選択可能な実施形態として、画像サンプルは、注釈のない画像サンプルであり、及び/又は、テキストサンプルは、注釈のないテキストサンプルである。
当該実施例では、人件費を節約するために、注釈のないテキストサンプル及び画像サンプルを大量用いて訓練サンプルとし、手動で注釈及びクレンジングする必要がなく、さらに、テキストエンコーダにより、注釈のない大量のテキストサンプルからテキスト特徴を抽出して第2キューに記憶し、画像エンコーダにより、注釈のない大量の画像サンプルから画像特徴を抽出して第1キューに記憶し、第1キュー及び第2キューを訓練して、初期化モデルを得る。
図1Bは、本開示の実施例による別のモデル決定方法のフローチャートである。図1Bに示すように、当該方法は、ステップS1002と、ステップS1004とを含む。
ステップS1002:サーバにモデル訓練要求を送信し、ここで、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる。
本開示の上記のステップ1002にて提供される技術案において、訓練して出来上がり精度が高い初期化モデルを得ることができるために、大量の画像サンプル及びテキストサンプルを訓練する必要があり、訓練過程全体のデータ量及び演算量が大きい。ユーザ機器(例えば、スマートフォン、タブレット、ノート型パソコン、パームトップコンピュータ、パーソナルコンピュータなど)のリソース消費を減らすために、サービスによってモデルの訓練を行ってもよく、ユーザの使用を容易にするために、ユーザ機器に訓練済みのモデルのみを配置すればよい。
当該実施例では、上記のモデル訓練要求は、ユーザのモデル使用要件に応じて生成されてもよく、当該モデル訓練要求には、処理する必要のある画像サンプル及びテキストサンプルが含まれ、さらに、達成されると期待する処理結果などが含まれてもよい。
選択可能に、当該実施例では、ユーザ機器にグラフィックユーザインタフェースを提供でき、ユーザがグラフィックユーザインタフェースの入力領域にモデル訓練要求を入力することにより、ユーザ機器は、ネットワークを介してモデル訓練要求をサーバに送信することができる。よりねらいがあるために、サーバは、ユーザのタイプに応じて異なるモデル訓練スキームをユーザに提供することができ、ユーザが入力領域内で選択するため、ユーザ機器は、ユーザの回転結果にしたがってモデル訓練要求を生成して、ネットワークを介してサーバに送信することができる。
ステップS1004:サーバがモデル訓練要求に応答して送信する初期化モデルを受信するステップであって、ここで、初期化モデルは、サーバが画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、第1キュー及び第2キューを訓練することによって得られるものである。
本開示の上記のステップ1004にて提供される技術案において、サーバがモデル訓練要求に応答するステップは、サーバが、先に、画像サンプルの画像特徴を取得することであってもよいし、画像サンプルを画像エンコーダに入力して、当該画像エンコーダによって画像サンプルから第1画像特徴を抽出し、さらに、第1キューに記憶することであってもよい。選択可能に、第1キューが新しい画像特徴を記憶するのに不十分である場合、サーバは、最初に記憶された画像特徴を第1キューから削除して、新しい画像特徴を記憶するためのスペースを確保することができ、それにより、第1キューによって画像特徴を記録及び更新する目的を実現して、初期化モデルの訓練速度及びモデル指標を向上させる。
当該実施例のサーバは、テキストサンプルのテキスト特徴を取得することもでき、サーバは、テキストサンプルをテキストエンコーダに入力することができ、当該テキストエンコーダによってテキストサンプルからテキスト特徴を抽出し、さらに、第2キューに記憶する。選択可能に、第2キューが新しいテキスト特徴を記憶するのに不十分である場合、サーバは、最初に記憶されたテキスト特徴を第2キューから削除して、新しい画像特徴を記憶するためのスペースを確保することができ、それにより、第2キューによって、テキスト特徴を記録及び更新する目的を実現して、初期化モデルの訓練速度及びモデル指標を向上させる。
サーバが画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶した後、サーバが第1キュー及び第2キューを訓練するステップは、コントラスト学習モデルによって、第1キューや画像サンプルにおける現在バッチの画像特徴、第2キューやテキストサンプルにおける現在バッチのテキスト特徴に対してコントラスト学習訓練を行って、バッチサイズ(batchsize)を等価的に大きくし、それにより、初期化モデルを得ることができ、こうすると、コンピューティングリソースを節約するとともに、初期化モデルのモデル指標を向上させることもできる。
さらに、ユーザ機器の演算負荷を大幅に低減するために、訓練済みの初期化モデルをサーバに直接配置してもよく、ユーザ機器は、特定のインターフェースを介してサーバに接続され、ネットワークを介してサーバにモデル取得要求を送信し、ユーザ機器はネットワークを介して、サーバがモデル取得要求に応答して送信した初期化モデルを取得し、それを第2ターゲットモデルの初期化モデルとし、モデル予備訓練の目的が実現された。
図1Cは、本開示の実施例による画像処理方法のフローチャートである。図1Cに示すように、当該方法は、ステップS10002~ステップS10006を含める。
ステップS10002:被処理画像を取得する。
本開示の上記のステップ10002にて提供される技術案において、被処理画像は、画像処理を行う必要のある画像であってもよく、例えば、画像検出、画像分割、画像分類、画像認識などの処理を行う必要のある画像であり、当該処理タイプは、画像適用シーンにしたがって柔軟に決定でき、例えば、道路シーン、教育シーン、植生予測シーン、天気予測シーンなどにしたがって柔軟に決定し、ここでは特に限定しない。
選択可能に、当該実施例は、被処理画像は、画像収集機器によって収集されることができ、例えば、被処理画像は、一定のスペースに配置されたカメラによって収集される。
ステップS10004:被処理画像を、本開示の実施例のモデル決定方法によって取得される第2ターゲットモデルに入力する。
本開示の上記のステップ10004にて提供される技術案において、収集された被処理画像を第2ターゲットモデルに入力し、選択可能に、当該実施例の第2ターゲットモデルは、初期化モデルを訓練することによって得られ、当該初期化モデルは、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、第1キュー及び第2キューを訓練することによって得られるものであり、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられ、例えば、当該初期化モデルは、リカレントニューラルネットワークモデルであってもよく、ここでは特に限定しない。
選択可能に、当該実施例では、初期化モデルを訓練して、第2ターゲットモデルを得るステップが実施される場合、大量の画像サンプルを含み得るサンプルデータを事前に大量収集することができ、それに注釈して、画像検出、画像分割、画像分類、画像認識などの画像処理に関連する複数のタグを得ることができる。その後、サンプルデータ及び対応するタグで初期化モデルを訓練して、第2ターゲットモデルを得る。
選択可能に、当該実施例では、サンプルデータにおいて、畳み込みニューラルネットワークで各サンプルデータから特徴を抽出して、複数の特徴を含む特徴ベクトルを得ることができ、例えば、当該特徴ベクトルには、上記のタグに関連する特徴が含まれ、特徴ベクトル及び対応するタグで初期化モデルを訓練して、ターゲットパラメータを得ることができ、当該ターゲットパラメータは、モデル最適化パラメータであってもよく、第2ターゲットモデルは当該ターゲットパラメータ及び初期化モデルによって決定されてもよい。
選択可能に、当該実施例は、分散型コンセンサスアルゴリズム、ノイズ除去などのアルゴリズムにしたがって、サンプルデータを前処理してから、前処理後のデータに対して特徴抽出、特徴変換、特徴正規化、特徴組み合わせなどを行って、初期化モデルを訓練するための特徴を得ることができる。選択可能に、当該実施例は、さらに、最適化アルゴリズム、仮説関数、損失関数、決定境界、収束速度、反復戦略などで特徴を一層処理することができ、処理後の特徴で初期化モデルを訓練して、第2ターゲットモデルを得る。
選択可能に、当該実施例では、第2ターゲットモデルの後、さらに、第2ターゲットモデルに対して交差検証、ターゲット評価、オーバーフィッティング、アンダーフィッティングなどの評価を行うこともでき、それにより、最終的な第2ターゲットモデルを決定して、第2ターゲットモデルにより、入力画像に対する画像検出、画像分割、画像分類、画像認識などの処理が実現される。
ステップS10006:第2ターゲットモデルの処理結果を取得する。
本開示の上記のステップ10006にて提供される技術案において、第2ターゲットモデルは、被処理画像を処理することができ、例えば、第2ターゲットモデルに対して画像検出、画像分割、画像分類、画像認識などの処理を行って、画像検出結果、画像分割結果、画像分類結果、画像認識結果などを含む処理結果を得て、それを出力し、例えば、画像検出結果、画像分割結果、画像分類結果、画像認識結果などを一層分析するために、グラフィックユーザインタフェースで表示する。
当該実施例では、予備訓練は、キュー技術に基づくグラフィックス及びテキストの予備訓練の最適化を用いて、画像及びテキスト特徴を保存するとともに、infoncelossの計算に用いられる。グラフィックス及びテキストのデュアルキューを加えた後、infoNCE lossのネガティブサンプルを増やしたことに相当し、つまり、デュアルキュー技術でbatchsizeを等価的に大きくすることにより、コンピューティングリソースを大幅に節約することができ、かつ、初期化モデルのモデル指標を提供することができ、初期化モデルの訓練効率が低いという技術的問題を解決し、初期化モデルの訓練効率を向上させるという技術的効果に達した。
以下、好ましい実施形態と合わせて、本開示の実施例の上記の技術案について、さらに例を上げて説明する。
関連技術において、グラフィックス及びテキストの予備訓練は、大量のグラフィックス及びテキストサンプル及び大量のコンピューティングリソースを必要とする。グラフィックス及びテキストの予備訓練は、コントラストlossを用いて訓練することができ、ここで、ネガティブサンプルの数は、モデルの効果に大きく影響するため、batchsizeが大きいほど、モデルの効果がよくなる。しかし、batchsizeが大きくなると、より大きなビデオメモリを必要とすることを意味する。そして、関連技術におけるグラフィックス及びテキストの予備訓練は、大量のGPUなどのコンピューティングリソースを必要とし、訓練時間が非常に長く、予備訓練モデル指標が低いため、モデル指標を継続的に向上させるためには最適化スキームを必要とする。
また、関連技術におけるグラフィックス及びテキストの予備訓練は、大量の画像プロセッサ(TPU)、分散型などのような大量のコンピューティングリソースを用いてモデルを訓練し、そして、関連技術の予備訓練は、膨大な時間の消費を必要とし、訓練過程も非常に長く、モデルの指標を向上させる必要がある。
以上の問題に対して、当該実施例では、デュアルキュー技術でbatchsizeを等価的に大きくして、訓練リソースを節約するとともに、モデル指標を向上させることもできる。以下では、当該実施例の上記の方法を一層紹介する。
図2は、本開示の実施例によるキュー技術に基づくグラフィックス及びテキストの予備訓練システムの模式図である。図2に示すように、大量の画像サンプル及びテキストサンプル(Noisy Product Image-Text Data)を収集し、ここで、画像サンプルには写真が含まれ、テキストサンプルには写真に対応するテキストデータが含まれる。当該実施例のグラフィックス及びテキストの予備訓練は、大量のデータを必要とし、かつ、一定のノイズを許容する。当該実施例では、注釈のない大量のテキストサンプル及び画像サンプルを訓練サンプルとして採用してもよく、手動で注釈及びクレンジングする必要がなく、画像サンプルをテキストエンコーダに入力して、画像サンプルの画像特徴を抽出し、画像特徴を画像特徴キューに記憶し、対応するテキストサンプルを画像エンコーダに入力して、テキストサンプルのテキスト特徴を抽出し、テキスト特徴をテキスト特徴キューに記憶し、さらに、コントラスト学習モデルによって、画像特徴キュー、現在batchの画像特徴、テキスト特徴キュー、現在batchのテキスト特徴に対してコントラスト学習を行うことにより、初期化モデルを得る。
当該実施例では、上記のテキストエンコーダモジュールは、RoBERTaモデルを使用してテキスト特徴を抽出し、RoBERTaモデルは、BERTモデルを基にアップグレードしたものである。画像エンコーダは、Deitモデルを使用して画像特徴を抽出し、図3に示すように、ここで、図3は、本開示の実施例によるDeitモデル構造の模式図であり、データタイプトークン(class token)、パッチトークン(patch tokens)、蒸留トークン(distinguish token)を入力することにより、自己注意機構(self attention)及び完全接続ネットワーク(FFN)の処理を経て、得られた出力結果は、画像特徴を得るために用いられることができる。当該実施例のDeitは、transformerをNLPからコンピュータビジョンに応用したものである。
当該実施例では、グラフィックス及びテキストの予備訓練におけるコントラストlossは、そのネガティブ情報ペアをマイニングする能力に非常に依頼するため、各minibatchから十分なネガティブ情報ペアを収集するために、本開示では、それぞれ画像特徴及び文字特徴を記憶するための2つのキューを追加した。訓練過程全体において、実例のembeddingは、実際には、比較的遅い速度で変化する。このような現象に基づいて、本開示では、最も近い小バッチ処理の深層特性を記録及び更新するためのクロスバッチ処理メモリモジュールを提案し、それにより、小バッチ処理にわたって情報をマイニングできる実例は、訓練速度及びモデル指標を向上させる。ここで、最近の小バッチ処理とは、キューの長さが一定であり、現在記憶されている特徴量がキューの長さに達すると、新しい特徴を記憶するために、最初にキューに記憶された特徴が破棄される。
図4Aは、本開示の実施例によるキューモジュールの模式図である。図4Aに示すように、当該実施例のキューモジュールには、画像特徴キュー及びテキスト特徴キューが含まれ、ここで、画像特徴キューは、エンコーダ(Encoder)によって処理されてから得られる画像サンプルの特徴を記憶するために用いられ、それには、ネガティブ画像サンプル(Negative Images)の特徴及び現在バッチの画像(Image)サンプルの画像特徴が含まれ、テキスト特徴キューは、エンコーダによって処理されて得られるテキストサンプルの特徴を記憶するために用いられ、それには、ネガティブテキストサンプル(Texts Images)の特徴及び現在バッチにおけるテキスト(Text)サンプルの画像特徴が含まれる。選択可能に、グラフィック特徴キュー及び現在batchのテキスト特徴でネガティブサンプルが構成され、テキスト特徴キュー及び現在batchの画像特徴でネガティブサンプルが構成され、この2つの部分のネガティブサンプルは、loss計算に関与し、こうすると、ネガティブサンプルの数を大幅に増やし、さらに、初期化モデルの訓練速度及び訓練指標を向上させることができる。
当該実施例のコントラスト学習モジュールは、主にInfoNCE lossを使用してもよく、その計算式は下記のとおりである。
Figure 2023060846000003
ここで、xは、ネットワーク出力結果がi番目のタイプに属する概率を表すために用いられ、xは、ネットワーク出力結果がj番目のタイプに属する確率を表すために用いられ、上記のexp(x)は、画像特徴とテキスト特徴とをマッチングさせたマッチング結果を表すために用いられてもよく、Σexp(x)は、画像特徴とテキスト特徴とのマッチングが失敗したマッチング結果を表すために用いられてもよい。図4Bに示すように、ここで、図4Bは、本開示の実施例による画像特徴とテキスト特徴とのマッチングを行う模式図である。図4に示すように、入力された画像サンプルから画像特徴I、I・・・Iが画像エンコーダによって抽出され、入力されたテキストサンプルからテキスト特徴T、T・・・Tがテキストエンコーダによって抽出されることにより、画像特徴I、I・・・IとT、T・・・Tとをそれぞれマッチングさせて、マッチング結果を取得し、ここで、対角線上のマッチング結果はテキスト特徴と画像特徴とが正常にマッチングした結果であり、対角線以外のマッチング結果は、テキスト特徴と画像特徴とのマッチングが失敗したマッチング結果である。
当該実施例のInfoNCE lossに上のキューモジュールを合わせて、ネガティブサンプルの数を等価的に大きくし、初期化モデルの訓練指標を向上させることができる。
当該実施例の予備訓練は、キュー技術に基づくグラフィックス及びテキストの予備訓練の最適化方法を採用し、デュアルキューを利用して画像サンプルの画像特徴及びテキストサンプルのテキスト特徴をそれぞれ保存して、infonceNCE lossの計算に使用する。なお、当該実施例では、グラフィックス及びテキストのデュアルキューを加えた後、infoNCE lossのネガティブサンプルを増やしたことに相当し、それにより、コンピューティングリソースを大幅に節約することができ、かつ、初期化モデルのモデル指標を向上させることができる。
本開示の実施例は、さらに、図1Aに示す実施例のモデル決定方法を実行するためのモデル決定装置を提供する。
図5Aは、本開示の実施例によるモデル決定装置の模式図である。図5Aに示すように、モデル決定装置50は、第1取得ユニット51、記憶ユニット52、訓練ユニット53及び決定ユニット54を含み得る。
第1取得ユニット51は、画像サンプル及びテキストサンプルを取得するために用いられ、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる。
記憶ユニット52は、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶するために用いられる。
訓練ユニット53は、第1キュー及び第2キューを訓練して、第1ターゲットモデルを得るために用いられる。
決定ユニット54は、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定するために用いられる。
選択可能に、訓練ユニットは、第1キュー及び第2キューに基づいてネガティブサンプルを決定するための決定モジュールと、ネガティブサンプルを訓練して、第1ターゲットモデルを得るための訓練モジュールとを含む。
選択可能に、ネガティブサンプルには、第1ネガティブサンプル及び第2ネガティブサンプルが含まれ、ここで、決定モジュールは、第1キュー及びテキスト特徴に基づいて第1ネガティブサンプルを決定するための第1決定サブモジュールと、第2キュー及び画像特徴に基づいて第2ネガティブサンプルを決定するための第2決定サブモジュールと、を含む。
選択可能に、第1決定サブモジュールは、第1キュー及びテキストサンプルのうちの現在バッチのサンプルのテキスト特徴に基づいて第1ネガティブサンプルを決定するステップにより、第1キュー及びテキスト特徴に基づいて第1ネガティブサンプルを決定するために用いられる。
選択可能に、第2決定サブモジュールは、第2キュー及び画像サンプルのうちの現在バッチのサンプルの画像特徴に基づいて第2ネガティブサンプルを決定するステップにより、第2キュー及び画像特徴に基づいて第2ネガティブサンプルを決定するために用いられる。
選択可能に、訓練モジュールは、ネガティブサンプルの複数の画像特徴と複数のテキスト特徴とのマッチングを行って、複数のマッチング結果及び複数の非マッチング結果を得るために用いられ、ここで、マッチング結果には、互いに正常にマッチングされた画像特徴及びテキスト特徴が含まれ、非マッチング結果には、互いにマッチングが失敗した画像特徴及びテキスト特徴が含まれるマッチングサブモジュールと、複数のマッチング結果及び複数の非マッチング結果に基づいてモデルパラメータを決定するための第3決定サブモジュールと、モデルパラメータに基づいて第1ターゲットモデルを決定するための第4決定サブモジュールと、を含む。
選択可能に、画像サンプルには、画像ノイズデータが含まれ、及び/又は、テキストサンプルにはテキストノイズデータが含まれる。
選択可能に、画像サンプルは、注釈のない画像サンプルであり、及び/又は、テキストサンプルは、注釈のないテキストサンプルである。
本開示の実施例は、さらに、図1Bに示す実施例のモデル決定方法を実行するためのモデル決定装置を提供する。
図5Bは、本開示の実施例による別のモデル決定装置の模式図である。図5Bに示すように、モデル決定装置500は、送信ユニット502及び受信ユニット504を含み得る。
送信ユニット502は、サーバにモデル訓練要求を送信するために用いられ、ここで、前記モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、前記テキストサンプルにおけるテキストは、前記画像サンプルのターゲット画像を文字で記述するために用いられる。
受信ユニット504は、前記サーバが前記モデル訓練要求に応答して送信した初期化モデルを受信するために用いられ、ここで、前記初期化モデルは、前記サーバが前記画像サンプルの画像特徴を第1キューに記憶し、かつ、前記テキストサンプルのテキスト特徴を第2キューに記憶し、前記第1キュー及び前記第2キューを訓練することによって得られるものである。
本開示の実施例は、さらに、図1Cに示す実施例の画像処理方法を実行するための画像処理装置を提供する。
図5Cは、本開示の実施例による画像処理装置の模式図である。図5Cに示すように、画像処理装置5000は、第2取得ユニット5001、入力ユニット5002及び第3取得ユニット5003を含み得る。
第2取得ユニット5001は、被処理画像を取得するために用いられる。
入力ユニット5002は、被処理画像を、本開示の実施例のモデル決定方法によって取得される第2ターゲットモデルに入力するために用いられる。
第3取得ユニット5003は、第2ターゲットモデルの処理結果を取得するために用いられる。
当該実施例では、予備訓練は、デュアルキューで画像特徴及びテキスト特徴をそれぞれ保存して、初期化モデルの訓練に用いるため、コンピューティングリソースを大幅に節約することができ、初期化モデルの訓練効率が低いという技術的問題を解決し、初期化モデルの訓練効率を向上させるという技術的効果に達した。
なお、上記の各ユニット及びモジュールは、ソフトウェア又はハードウェアによって実装されてもよく、後者にとって、上記のユニット及びモジュールがいずれも同じプロセッサに位置する方式、又は、上記の各ユニット及びモジュールが任意の組み合わせ形態でそれぞれ異なるプロセッサに位置する方式で実装されてもよいが、これらに限定されない。
本開示の技術案において、係るユーザの個人情報の取得、記憶及び適用などは、いずれも関連の法規制の規定に準拠しており、公序良俗に反するものではない。
本開示の実施例によれば、本開示は、電子機器をさらに提供する。当該電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されるメモリとを含み、ここで、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、少なくとも1つのプロセッサが本開示の実施例のモデル決定方法を実行できるように、命令が少なくとも1つのプロセッサによって実行される。
選択可能に、上記の電子機器は、さらに、伝送機器及び入出力機器を含み、ここで、当該伝送機器は上記のプロセッサに接続され、当該入出力機器は上記のプロセッサに接続される。
本開示の実施例によれば、本開示は、さらに、コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体を提供し、ここで、コンピュータ命令は、コンピュータに本開示の実施例のモデル決定方法を実行させるために用いられる。
選択可能に、本実施例において、上記の不揮発性記憶媒体は、画像サンプル及びテキストサンプルを取得するステップであって、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップS1と、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶するステップS2と、第1キュー及び第2キューを訓練して、第1ターゲットモデルを得るステップS3と、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定するステップS4と、を実行するためのコンピュータプログラムを記憶するように構成されてもよい。
選択可能に、本実施例において、上記の不揮発性記憶媒体は、さらに、サーバにモデル訓練要求を送信するステップであって、ここで、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップS1と、S2、サーバがモデル訓練要求に応答して送信する初期化モデルを受信するステップであって、ここで、初期化モデルは、サーバが画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、第1キュー及び第2キューを訓練することによって得られるものである、ステップS2と、を実行するためのコンピュータプログラムを記憶するように構成されてもよい。
選択可能に、本実施例において、上記の不揮発性記憶媒体は、さらに、被処理画像を取得するステップS1と、被処理画像を、本開示の実施例のモデル決定方法によって取得される第2ターゲットモデルに入力するステップS2と、第2ターゲットモデルの処理結果を取得するステップS3と、を実行するためのコンピュータプログラムを記憶するように構成されてもよい。
選択可能に、本実施例において、上記の非一時的コンピュータ可読記憶媒体は、電子もの、磁気もの、光学もの、電磁もの、赤外線もの、又は半導体システム、装置や機器、又は上記内容の任意の適切な組み合わせを含み得るが、これらに限定されない。可読記憶媒体のさらなる具体的例示は、1つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいずれの適切な組み合わせを含む。
本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを含むコンピュータプログラム製品を提供し、当該コンピュータプログラムがプロセッサによって実行されると、画像サンプル及びテキストサンプルを取得するステップであって、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップS1と、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶するステップS2と、第1キュー及び第2キューを訓練して、第1ターゲットモデルを得るステップS3と、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定するステップS4と、を実施できる。
選択可能に、上記のコンピュータプログラムがプロセッサによって実行されると、さらに、サーバにモデル訓練要求を送信するステップであって、ここで、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップS1と、サーバがモデル訓練要求に応答して送信する初期化モデルを受信するステップであって、ここで、初期化モデルは、サーバが画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、第1キュー及び第2キューを訓練することによって得られるものである、ステップS2と、を実現できる。
選択可能に、上記のコンピュータプログラムがプロセッサによって実行されると、さらに、被処理画像を取得するステップS1と、被処理画像を、本開示の実施例のモデル決定方法によって取得される第2ターゲットモデルに入力するステップS2と、第2ターゲットモデルの処理結果を取得するステップS3と、を実現できる。
選択可能に、本実施例の具体的な例示は、上記の実施例及び選択可能な実施形態に説明されている例示を参照でき、本実施例では詳細な説明を省略する。
当該実施例の、本開示のモデル決定方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて編集されてもよい。これらのプログラムコードは、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図で定義された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルモデル決定装置のプロセッサ又はコントローラに提供できる。プログラムコードは、完全に機械上で実行されても、部分的に機械上で実行されてもよいし、独立型ソフトウェアパッケージとして、一部が機械上で実行されるとともに、一部がリモート機械上で実行されてもよいし、完全にリモート機械もしくはサーバ上で実行されてもよい。
図6は、本開示の実施例による電子機器の模式的なブロック図である。電子機器は、例えばラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを示すことを目的とする。電子機器は、例えばパーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを示すこともできる。本明細書に示す構成要素、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書に説明及び/又は要求される本開示の実施を制限することを意図するものではない。
図6に示すように、機器600は、コンピューティングユニット601を含み、読み取り専用メモリ(ROM)602に記憶されているコンピュータプログラム、又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに応じて、様々な適切な動作及び処理を実行することができる。RAM603には、機器600の操作に必要な様々なプログラムやデータも記憶できる。コンピューティングユニット601、ROM602、及びRAM603は、バス604を介して互に接続される。入力/出力(I/O)インターフェース605もバス604に接続される。
キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット609とを含む機器600の複数の構成要素は、I/Oインターフェース605に接続される。通信ユニット609は、インターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して、機器600が他のデバイスと情報/データを交換することを可能にする。
コンピューティングユニット601は、処理及びコンピューティング能力を有する様々な汎用及び/又は専用処理コンポーネントであり得る。コンピューティングユニット601のいくつかの例示は、中央処理ユニット(CPU)、グラフィックスプロセッサ(GPU)、様々な専用人工知能(AI)コンピューティングチップ、様々な機械学習モデルアルゴリズムを実行するコンピューティングユニット、デジタルシグナルプロセッサ(DSP)、及びいずれの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット601は、以上に説明された各方法及び各処理、例えばモデル決定方法を実行する。例えば、いくつかの実施例において、モデル決定方法は、例えば記憶ユニット608などの機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介して機器600にロード及び/又はインストールされてもよい。コンピュータプログラムは、RAM603にロードされてコンピューティングユニット601によって実行されると、以上に説明されたモデル決定方法の1つ又は複数のステップを実行することができる。代替のものとして、他の実施例において、コンピューティングユニット601は、他のいずれの適切な方式で(例えば、ファームウェアを用いて)、モデル決定方法を実行するように構成されてもよい。
本明細書の以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップ(SOC)、複雑プログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実装され得る。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含み、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつ、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を送信することができる。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで編集されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルモデル決定装置のプロセッサ又はコントローラに提供されてもよく、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図で定義された機能/操作が実施される。プログラムコードは、完全に機械上で実行されても、部分的に機械上で実行されてもよいし、独立型ソフトウェアパッケージとして、一部が機械上で実行されるとともに、一部がリモート機械上で実行されてもよいし、完全にリモート機械もしくはサーバ上で実行されてもよい。
本開示の文脈上に、機械読み取り可能な媒体は、命令実行システム、装置或いはデバイスの使用に提供されるか、又は命令実行システム、装置或いはデバイスと結合して使用されるプログラムを含むか、又は記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子もの、磁気もの、光学もの、電磁もの、赤外線もの、又は半導体システム、装置やデバイス、又は上記内容の任意の適切な組み合わせを含み得るが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は記内容のいずれの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上で本明細書に説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって、コンピュータに入力することが可能になる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
本明細書で説明するシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザにより本明細書で説明するシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムに実装されることができる。システムの構成要素は、いずれの形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して互いに接続されることができる。通信ネットワークの例示には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
コンピュータシステムは、クライアントとサーバとを含み得る。クライアント及びサーバは、一般に、互いに遠く離れており、通常は、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行されるとともに、互いにクライアント-サーバの関係を有するコンピュータプログラムにより、クライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよいし、分散型システムのサーバであってもよいし、ブロックチェーンと組み合わせたサーバであってもよい。
上記に示される様々な形態のフローを使用して、ステップの並べ替え、追加、又は削除を行うことができることを理解されたい。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本開示に開示される技術案が所望の結果を実現する限り、本明細書に限定されない。
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者には、設計要件及び他の要因に基づいて、様々な修正、コンビネーション、サブコンビネーション、及び置換を行うことができることを理解されたい。本開示の精神と原則の範囲内で行われる修正、等価置換及び改良などは、いずれも本開示の保護範囲に含まれるべきである。

Claims (22)

  1. 画像サンプル及びテキストサンプルを取得するステップであって、前記テキストサンプルにおけるテキストは、前記画像サンプルのターゲット画像を文字で記述するために用いられる、ステップと、
    前記画像サンプルの画像特徴を第1キューに記憶し、かつ、前記テキストサンプルのテキスト特徴を第2キューに記憶するステップと、
    前記第1キュー及び前記第2キューを訓練して、第1ターゲットモデルを得るステップと、
    前記第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定するステップと、を含む、
    モデルの決定方法。
  2. 前記第1キュー及び前記第2キューを訓練して、第1ターゲットモデルを得るステップは、
    前記第1キュー及び前記第2キューに基づいて、ネガティブサンプルを決定するステップと、
    前記ネガティブサンプルを訓練して、前記第1ターゲットモデルを得るステップと、を含む、
    請求項1に記載の方法。
  3. 前記ネガティブサンプルには、第1ネガティブサンプル及び第2ネガティブサンプルが含まれ、前記第1キュー及び前記第2キューに基づいてネガティブサンプルを決定するステップは、
    前記第1キュー及び前記テキスト特徴に基づいて、前記第1ネガティブサンプルを決定するステップと、
    前記第2キュー及び前記画像特徴に基づいて、前記第2ネガティブサンプルを決定するステップと、を含む、
    請求項2に記載の方法。
  4. 前記第1キュー及び前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するステップは、
    前記第1キュー及び前記テキストサンプルのうちの現在バッチのサンプルの前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するステップを含む、
    請求項3に記載の方法。
  5. 前記第2キュー及び前記画像特徴に基づいて前記第2ネガティブサンプルを決定するステップは、
    前記第2キュー及び前記画像サンプルのうちの現在バッチのサンプルの前記画像特徴に基づいて前記第2ネガティブサンプルを決定するステップを含む、
    請求項3に記載の方法。
  6. 前記ネガティブサンプルを訓練して、前記第1ターゲットモデルを得るステップは、
    前記ネガティブサンプルにおける複数の前記画像特徴と複数の前記テキスト特徴とのマッチングを行って、複数のマッチング結果及び複数の非マッチング結果を得るステップであって、前記マッチング結果には、互いに正常にマッチングされた前記画像特徴及び前記テキスト特徴が含まれ、前記非マッチング結果には、互いにマッチングが失敗した前記画像特徴及び前記テキスト特徴が含まれる、ステップと、
    複数の前記マッチング結果及び複数の前記非マッチング結果に基づいてモデルパラメータを決定するステップと、
    前記モデルパラメータに基づいて前記第1ターゲットモデルを決定するステップと、を含む、
    請求項2に記載の方法。
  7. 前記画像サンプルは画像ノイズデータを含み、及び/又は、前記テキストサンプルはテキストノイズデータを含む、
    請求項1に記載の方法。
  8. 前記画像サンプルは注釈していない画像サンプルであり、及び/又は、前記テキストサンプルは注釈していないテキストサンプルである、
    請求項1に記載の方法。
  9. 被処理画像を取得するステップと、
    前記被処理画像を、請求項1~8のいずれか1項に記載のモデル決定方法によって得られる第2ターゲットモデルに入力するステップと、
    前記第2ターゲットモデルの処理結果を取得するステップと、を含む、
    画像処理方法。
  10. 画像サンプル及びテキストサンプルを取得するために用いられ、前記テキストサンプルにおけるテキストは、前記画像サンプルのターゲット画像を文字で記述するために用いられる、第1取得ユニットと、
    前記画像サンプルの画像特徴を第1キューに記憶し、かつ、前記テキストサンプルのテキスト特徴を第2キューに記憶するための記憶ユニットと、
    前記第1キュー及び前記第2キューを訓練して、第1ターゲットモデルを得るための訓練ユニットと、
    前記第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定するための決定ユニットと、を含む、
    モデル決定装置。
  11. 前記訓練ユニットは、
    前記第1キュー及び前記第2キューに基づいて、ネガティブサンプルを決定するための決定モジュールと、
    前記ネガティブサンプルを訓練して、前記第1ターゲットモデルを得るための訓練モジュールと、を含む、
    請求項10に記載の装置。
  12. 前記ネガティブサンプルには、第1ネガティブサンプル及び第2ネガティブサンプルが含まれ、決定モジュールは、
    前記第1キュー及び前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するための第1決定サブモジュールと、
    前記第2キュー及び前記画像特徴に基づいて前記第2ネガティブサンプルを決定するための第2決定サブモジュールと、を含む、
    請求項11に記載の装置。
  13. 前記第1決定サブモジュールは、前記第1キュー及び前記テキストサンプルのうちの現在バッチのサンプルの前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するステップにより、
    前記第1キュー及び前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するために用いられる、
    請求項12に記載の装置。
  14. 第2決定サブモジュールは、前記第2キュー及び前記画像サンプルのうちの現在バッチのサンプルの前記画像特徴に基づいて前記第2ネガティブサンプルを決定するステップにより、
    前記第2キュー及び前記画像特徴に基づいて前記第2ネガティブサンプルを決定するために用いられる、
    請求項12に記載の装置。
  15. 前記訓練モジュールは、
    前記ネガティブサンプルの複数の前記画像特徴と複数の前記テキスト特徴とのマッチングを行って、複数のマッチング結果及び複数の非マッチング結果を得るために用いられ、前記マッチング結果には、互いに正常にマッチングされた前記画像特徴及び前記テキスト特徴が含まれ、前記非マッチング結果には、互いにマッチングが失敗した前記画像特徴及び前記テキスト特徴が含まれる、マッチングサブモジュールと、
    複数の前記マッチング結果及び複数の前記非マッチング結果に基づいてモデルパラメータを決定するための第3決定サブモジュールと、
    前記モデルパラメータに基づいて前記第1ターゲットモデルを決定するための第4決定サブモジュールと、を含む、
    請求項11に記載の装置。
  16. 被処理画像を取得するための第2取得ユニットと、
    前記被処理画像を、請求項1~8のいずれか1項に記載のモデル決定方法によって得られる第2ターゲットモデルに入力するための入力ユニットと、
    前記第2ターゲットモデルの処理結果を取得するための第3取得ユニットと、を含む、
    画像処理装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリとを含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが請求項1~8のいずれか1項に記載の方法を実行できるように、前記命令が前記少なくとも1つのプロセッサによって実行される、
    電子機器。
  18. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリとを含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが請求項9に記載の方法を実行できるように、前記命令が前記少なくとも1つのプロセッサによって実行される、
    電子機器。
  19. コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1~8のいずれか1項に記載の方法を実行させるために用いられる、
    非一時的コンピュータ可読記憶媒体。
  20. コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項9に記載の方法を実行させるために用いられる、
    非一時的コンピュータ可読記憶媒体。
  21. コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると、請求項1~8のいずれか1項に記載の方法が実施される、
    コンピュータプログラム製品。
  22. コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると、請求項9に記載の方法が実施される、
    コンピュータプログラム製品。
JP2022166953A 2021-10-18 2022-10-18 モデル決定方法、装置、電子機器及びメモリ Ceased JP2023060846A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111212317.8 2021-10-18
CN202111212317.8A CN113947700A (zh) 2021-10-18 2021-10-18 模型确定方法、装置、电子设备和存储器

Publications (1)

Publication Number Publication Date
JP2023060846A true JP2023060846A (ja) 2023-04-28

Family

ID=79331477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022166953A Ceased JP2023060846A (ja) 2021-10-18 2022-10-18 モデル決定方法、装置、電子機器及びメモリ

Country Status (4)

Country Link
US (1) US20230124389A1 (ja)
EP (1) EP4167137A1 (ja)
JP (1) JP2023060846A (ja)
CN (1) CN113947700A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230237773A1 (en) * 2022-01-21 2023-07-27 Salesforce, Inc. Systems and methods for unified vision-language understanding and generation
CN116543075B (zh) * 2023-03-31 2024-02-13 北京百度网讯科技有限公司 图像生成方法、装置、电子设备及存储介质
CN117132790B (zh) * 2023-10-23 2024-02-02 南方医科大学南方医院 基于人工智能的消化道肿瘤诊断辅助系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200380027A1 (en) * 2019-05-30 2020-12-03 Adobe Inc. Multi-Modal Differential Search with Real-Time Focus Adaptation
JP2021163456A (ja) * 2020-03-30 2021-10-11 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288067B (zh) * 2017-09-12 2020-07-24 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN112417855A (zh) * 2020-11-20 2021-02-26 平安科技(深圳)有限公司 文本意图识别方法、装置以及相关设备
CN112650867B (zh) * 2020-12-25 2024-09-24 北京中科闻歌科技股份有限公司 图片匹配方法、装置、电子设备以及存储介质
CN113378833B (zh) * 2021-06-25 2023-09-01 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备
CN113435529B (zh) * 2021-07-06 2023-11-07 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113240056B (zh) * 2021-07-12 2022-05-17 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113283551B (zh) * 2021-07-22 2021-10-29 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200380027A1 (en) * 2019-05-30 2020-12-03 Adobe Inc. Multi-Modal Differential Search with Real-Time Focus Adaptation
JP2021163456A (ja) * 2020-03-30 2021-10-11 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI, W ET AL.: ""UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning"", ARXIV.ORG [ONLINE], JPN6023039196, 2020, pages 1 - 11, ISSN: 0005156254 *
大石 康智 ほか: ""画像を説明する多言語音声データを利用したクロスモーダル探索"", 電子情報通信学会技術研究報告, vol. 第119巻, 第64号, JPN6022025257, 2019, pages 283 - 288, ISSN: 0005156255 *

Also Published As

Publication number Publication date
EP4167137A1 (en) 2023-04-19
US20230124389A1 (en) 2023-04-20
CN113947700A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
US20220335711A1 (en) Method for generating pre-trained model, electronic device and storage medium
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
JP2023060846A (ja) モデル決定方法、装置、電子機器及びメモリ
CN113590645B (zh) 搜索方法、装置、电子设备及存储介质
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
US20220270384A1 (en) Method for training adversarial network model, method for building character library, electronic device, and storage medium
CN113033622A (zh) 跨模态检索模型的训练方法、装置、设备和存储介质
US20220301547A1 (en) Method for processing audio signal, method for training model, device and medium
US12118770B2 (en) Image recognition method and apparatus, electronic device and readable storage medium
WO2023178965A1 (zh) 一种意图识别方法、装置、电子设备及存储介质
WO2023093015A1 (zh) 一种数据筛选方法、装置、设备以及存储介质
US20230206522A1 (en) Training method for handwritten text image generation mode, electronic device and storage medium
US20230215136A1 (en) Method for training multi-modal data matching degree calculation model, method for calculating multi-modal data matching degree, and related apparatuses
US12086171B2 (en) Word mining method and apparatus, electronic device and readable storage medium
JP7357114B2 (ja) 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
JP2023062150A (ja) 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
CN113657411B (zh) 神经网络模型的训练方法、图像特征提取方法及相关装置
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
CN115186738B (zh) 模型训练方法、装置和存储介质
CN117076625A (zh) 文档检索方法、装置、电子设备及存储介质
US20230081015A1 (en) Method and apparatus for acquiring information, electronic device and storage medium
CN115937993A (zh) 活体检测模型训练方法、活体检测方法、装置和电子设备
CN114842541A (zh) 模型的训练及人脸识别方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20240726