JP2023060846A - モデル決定方法、装置、電子機器及びメモリ - Google Patents
モデル決定方法、装置、電子機器及びメモリ Download PDFInfo
- Publication number
- JP2023060846A JP2023060846A JP2022166953A JP2022166953A JP2023060846A JP 2023060846 A JP2023060846 A JP 2023060846A JP 2022166953 A JP2022166953 A JP 2022166953A JP 2022166953 A JP2022166953 A JP 2022166953A JP 2023060846 A JP2023060846 A JP 2023060846A
- Authority
- JP
- Japan
- Prior art keywords
- image
- text
- samples
- model
- cue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000015654 memory Effects 0.000 title claims description 22
- 238000012549 training Methods 0.000 claims abstract description 118
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 18
- 238000003672 processing method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 9
- 238000003709 image segmentation Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000009977 dual effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 229920002803 thermoplastic polyurethane Polymers 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/87—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】方法は、画像サンプル及びテキストサンプルを取得する。テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる。方法はさらに、画像サンプルの画像特徴を第1キューに記憶し、かつ、テキストサンプルのテキスト特徴を第2キューに記憶し、第1キュー及び第2キューを訓練して、第1ターゲットモデルを取得し、第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定する。
【選択図】図1A
Description
Claims (22)
- 画像サンプル及びテキストサンプルを取得するステップであって、前記テキストサンプルにおけるテキストは、前記画像サンプルのターゲット画像を文字で記述するために用いられる、ステップと、
前記画像サンプルの画像特徴を第1キューに記憶し、かつ、前記テキストサンプルのテキスト特徴を第2キューに記憶するステップと、
前記第1キュー及び前記第2キューを訓練して、第1ターゲットモデルを得るステップと、
前記第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定するステップと、を含む、
モデルの決定方法。 - 前記第1キュー及び前記第2キューを訓練して、第1ターゲットモデルを得るステップは、
前記第1キュー及び前記第2キューに基づいて、ネガティブサンプルを決定するステップと、
前記ネガティブサンプルを訓練して、前記第1ターゲットモデルを得るステップと、を含む、
請求項1に記載の方法。 - 前記ネガティブサンプルには、第1ネガティブサンプル及び第2ネガティブサンプルが含まれ、前記第1キュー及び前記第2キューに基づいてネガティブサンプルを決定するステップは、
前記第1キュー及び前記テキスト特徴に基づいて、前記第1ネガティブサンプルを決定するステップと、
前記第2キュー及び前記画像特徴に基づいて、前記第2ネガティブサンプルを決定するステップと、を含む、
請求項2に記載の方法。 - 前記第1キュー及び前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するステップは、
前記第1キュー及び前記テキストサンプルのうちの現在バッチのサンプルの前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するステップを含む、
請求項3に記載の方法。 - 前記第2キュー及び前記画像特徴に基づいて前記第2ネガティブサンプルを決定するステップは、
前記第2キュー及び前記画像サンプルのうちの現在バッチのサンプルの前記画像特徴に基づいて前記第2ネガティブサンプルを決定するステップを含む、
請求項3に記載の方法。 - 前記ネガティブサンプルを訓練して、前記第1ターゲットモデルを得るステップは、
前記ネガティブサンプルにおける複数の前記画像特徴と複数の前記テキスト特徴とのマッチングを行って、複数のマッチング結果及び複数の非マッチング結果を得るステップであって、前記マッチング結果には、互いに正常にマッチングされた前記画像特徴及び前記テキスト特徴が含まれ、前記非マッチング結果には、互いにマッチングが失敗した前記画像特徴及び前記テキスト特徴が含まれる、ステップと、
複数の前記マッチング結果及び複数の前記非マッチング結果に基づいてモデルパラメータを決定するステップと、
前記モデルパラメータに基づいて前記第1ターゲットモデルを決定するステップと、を含む、
請求項2に記載の方法。 - 前記画像サンプルは画像ノイズデータを含み、及び/又は、前記テキストサンプルはテキストノイズデータを含む、
請求項1に記載の方法。 - 前記画像サンプルは注釈していない画像サンプルであり、及び/又は、前記テキストサンプルは注釈していないテキストサンプルである、
請求項1に記載の方法。 - 被処理画像を取得するステップと、
前記被処理画像を、請求項1~8のいずれか1項に記載のモデル決定方法によって得られる第2ターゲットモデルに入力するステップと、
前記第2ターゲットモデルの処理結果を取得するステップと、を含む、
画像処理方法。 - 画像サンプル及びテキストサンプルを取得するために用いられ、前記テキストサンプルにおけるテキストは、前記画像サンプルのターゲット画像を文字で記述するために用いられる、第1取得ユニットと、
前記画像サンプルの画像特徴を第1キューに記憶し、かつ、前記テキストサンプルのテキスト特徴を第2キューに記憶するための記憶ユニットと、
前記第1キュー及び前記第2キューを訓練して、第1ターゲットモデルを得るための訓練ユニットと、
前記第1ターゲットモデルを第2ターゲットモデルの初期化モデルとして決定するための決定ユニットと、を含む、
モデル決定装置。 - 前記訓練ユニットは、
前記第1キュー及び前記第2キューに基づいて、ネガティブサンプルを決定するための決定モジュールと、
前記ネガティブサンプルを訓練して、前記第1ターゲットモデルを得るための訓練モジュールと、を含む、
請求項10に記載の装置。 - 前記ネガティブサンプルには、第1ネガティブサンプル及び第2ネガティブサンプルが含まれ、決定モジュールは、
前記第1キュー及び前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するための第1決定サブモジュールと、
前記第2キュー及び前記画像特徴に基づいて前記第2ネガティブサンプルを決定するための第2決定サブモジュールと、を含む、
請求項11に記載の装置。 - 前記第1決定サブモジュールは、前記第1キュー及び前記テキストサンプルのうちの現在バッチのサンプルの前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するステップにより、
前記第1キュー及び前記テキスト特徴に基づいて前記第1ネガティブサンプルを決定するために用いられる、
請求項12に記載の装置。 - 第2決定サブモジュールは、前記第2キュー及び前記画像サンプルのうちの現在バッチのサンプルの前記画像特徴に基づいて前記第2ネガティブサンプルを決定するステップにより、
前記第2キュー及び前記画像特徴に基づいて前記第2ネガティブサンプルを決定するために用いられる、
請求項12に記載の装置。 - 前記訓練モジュールは、
前記ネガティブサンプルの複数の前記画像特徴と複数の前記テキスト特徴とのマッチングを行って、複数のマッチング結果及び複数の非マッチング結果を得るために用いられ、前記マッチング結果には、互いに正常にマッチングされた前記画像特徴及び前記テキスト特徴が含まれ、前記非マッチング結果には、互いにマッチングが失敗した前記画像特徴及び前記テキスト特徴が含まれる、マッチングサブモジュールと、
複数の前記マッチング結果及び複数の前記非マッチング結果に基づいてモデルパラメータを決定するための第3決定サブモジュールと、
前記モデルパラメータに基づいて前記第1ターゲットモデルを決定するための第4決定サブモジュールと、を含む、
請求項11に記載の装置。 - 被処理画像を取得するための第2取得ユニットと、
前記被処理画像を、請求項1~8のいずれか1項に記載のモデル決定方法によって得られる第2ターゲットモデルに入力するための入力ユニットと、
前記第2ターゲットモデルの処理結果を取得するための第3取得ユニットと、を含む、
画像処理装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが請求項1~8のいずれか1項に記載の方法を実行できるように、前記命令が前記少なくとも1つのプロセッサによって実行される、
電子機器。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが請求項9に記載の方法を実行できるように、前記命令が前記少なくとも1つのプロセッサによって実行される、
電子機器。 - コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1~8のいずれか1項に記載の方法を実行させるために用いられる、
非一時的コンピュータ可読記憶媒体。 - コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項9に記載の方法を実行させるために用いられる、
非一時的コンピュータ可読記憶媒体。 - コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると、請求項1~8のいずれか1項に記載の方法が実施される、
コンピュータプログラム製品。 - コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると、請求項9に記載の方法が実施される、
コンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212317.8 | 2021-10-18 | ||
CN202111212317.8A CN113947700A (zh) | 2021-10-18 | 2021-10-18 | 模型确定方法、装置、电子设备和存储器 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023060846A true JP2023060846A (ja) | 2023-04-28 |
Family
ID=79331477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022166953A Ceased JP2023060846A (ja) | 2021-10-18 | 2022-10-18 | モデル決定方法、装置、電子機器及びメモリ |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230124389A1 (ja) |
EP (1) | EP4167137A1 (ja) |
JP (1) | JP2023060846A (ja) |
CN (1) | CN113947700A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230237773A1 (en) * | 2022-01-21 | 2023-07-27 | Salesforce, Inc. | Systems and methods for unified vision-language understanding and generation |
CN116543075B (zh) * | 2023-03-31 | 2024-02-13 | 北京百度网讯科技有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN117132790B (zh) * | 2023-10-23 | 2024-02-02 | 南方医科大学南方医院 | 基于人工智能的消化道肿瘤诊断辅助系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200380027A1 (en) * | 2019-05-30 | 2020-12-03 | Adobe Inc. | Multi-Modal Differential Search with Real-Time Focus Adaptation |
JP2021163456A (ja) * | 2020-03-30 | 2021-10-11 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288067B (zh) * | 2017-09-12 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
CN112417855A (zh) * | 2020-11-20 | 2021-02-26 | 平安科技(深圳)有限公司 | 文本意图识别方法、装置以及相关设备 |
CN112650867B (zh) * | 2020-12-25 | 2024-09-24 | 北京中科闻歌科技股份有限公司 | 图片匹配方法、装置、电子设备以及存储介质 |
CN113378833B (zh) * | 2021-06-25 | 2023-09-01 | 北京百度网讯科技有限公司 | 图像识别模型训练方法、图像识别方法、装置及电子设备 |
CN113435529B (zh) * | 2021-07-06 | 2023-11-07 | 北京百度网讯科技有限公司 | 模型预训练方法、模型训练方法及图像处理方法 |
CN113240056B (zh) * | 2021-07-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 多模态数据联合学习模型训练方法及装置 |
CN113283551B (zh) * | 2021-07-22 | 2021-10-29 | 智者四海(北京)技术有限公司 | 多模态预训练模型的训练方法、训练装置及电子设备 |
-
2021
- 2021-10-18 CN CN202111212317.8A patent/CN113947700A/zh active Pending
-
2022
- 2022-06-27 EP EP22181294.4A patent/EP4167137A1/en not_active Withdrawn
- 2022-08-15 US US17/887,690 patent/US20230124389A1/en not_active Abandoned
- 2022-10-18 JP JP2022166953A patent/JP2023060846A/ja not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200380027A1 (en) * | 2019-05-30 | 2020-12-03 | Adobe Inc. | Multi-Modal Differential Search with Real-Time Focus Adaptation |
JP2021163456A (ja) * | 2020-03-30 | 2021-10-11 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 |
Non-Patent Citations (2)
Title |
---|
LI, W ET AL.: ""UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning"", ARXIV.ORG [ONLINE], JPN6023039196, 2020, pages 1 - 11, ISSN: 0005156254 * |
大石 康智 ほか: ""画像を説明する多言語音声データを利用したクロスモーダル探索"", 電子情報通信学会技術研究報告, vol. 第119巻, 第64号, JPN6022025257, 2019, pages 283 - 288, ISSN: 0005156255 * |
Also Published As
Publication number | Publication date |
---|---|
EP4167137A1 (en) | 2023-04-19 |
US20230124389A1 (en) | 2023-04-20 |
CN113947700A (zh) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220335711A1 (en) | Method for generating pre-trained model, electronic device and storage medium | |
US20210312139A1 (en) | Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium | |
TWI729472B (zh) | 特徵詞的確定方法、裝置和伺服器 | |
JP2023060846A (ja) | モデル決定方法、装置、電子機器及びメモリ | |
CN113590645B (zh) | 搜索方法、装置、电子设备及存储介质 | |
EP3872652B1 (en) | Method and apparatus for processing video, electronic device, medium and product | |
US20220270384A1 (en) | Method for training adversarial network model, method for building character library, electronic device, and storage medium | |
CN113033622A (zh) | 跨模态检索模型的训练方法、装置、设备和存储介质 | |
US20220301547A1 (en) | Method for processing audio signal, method for training model, device and medium | |
US12118770B2 (en) | Image recognition method and apparatus, electronic device and readable storage medium | |
WO2023178965A1 (zh) | 一种意图识别方法、装置、电子设备及存储介质 | |
WO2023093015A1 (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
US20230206522A1 (en) | Training method for handwritten text image generation mode, electronic device and storage medium | |
US20230215136A1 (en) | Method for training multi-modal data matching degree calculation model, method for calculating multi-modal data matching degree, and related apparatuses | |
US12086171B2 (en) | Word mining method and apparatus, electronic device and readable storage medium | |
JP7357114B2 (ja) | 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
JP2023062150A (ja) | 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 | |
CN113657411B (zh) | 神经网络模型的训练方法、图像特征提取方法及相关装置 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN117076625A (zh) | 文档检索方法、装置、电子设备及存储介质 | |
US20230081015A1 (en) | Method and apparatus for acquiring information, electronic device and storage medium | |
CN115937993A (zh) | 活体检测模型训练方法、活体检测方法、装置和电子设备 | |
CN114842541A (zh) | 模型的训练及人脸识别方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20240726 |