JP7096444B2 - 画像領域位置決め方法、モデル訓練方法及び関連装置 - Google Patents
画像領域位置決め方法、モデル訓練方法及び関連装置 Download PDFInfo
- Publication number
- JP7096444B2 JP7096444B2 JP2021546041A JP2021546041A JP7096444B2 JP 7096444 B2 JP7096444 B2 JP 7096444B2 JP 2021546041 A JP2021546041 A JP 2021546041A JP 2021546041 A JP2021546041 A JP 2021546041A JP 7096444 B2 JP7096444 B2 JP 7096444B2
- Authority
- JP
- Japan
- Prior art keywords
- region
- semantic information
- text
- image
- image candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 330
- 238000000034 method Methods 0.000 title claims description 137
- 239000013598 vector Substances 0.000 claims description 105
- 239000011159 matrix material Substances 0.000 claims description 91
- 230000006870 function Effects 0.000 claims description 72
- 230000015654 memory Effects 0.000 claims description 58
- 238000010606 normalization Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 30
- 230000006403 short-term memory Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 141
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011840 criminal investigation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本願は、2019年03月13日に提出された出願番号が201910190207.2であり、発明名称が「画像領域位置決め方法、モデル訓練方法及び関連装置」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む。
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含む。
生成モジュールは、位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するように構成され、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応し、
取得モジュールは、グラフ畳み込みネットワークによって、前記生成モジュールが生成した前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するように構成され、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられ、
前記取得モジュールは更に、画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するように構成され、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応し、
決定モジュールは、前記取得モジュールが取得した前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するように構成される。
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するように構成される取得モジュールであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、取得モジュールと、
前記取得モジュールが取得した前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するように構成される決定モジュールと、
前記決定モジュールが決定した前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るように構成される訓練モジュールであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、訓練モジュールと、を備える。
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Nは、1より大きいか等しい整数である、ステップと、を含む。
前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を含む。
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を含む。
式
ここで、前記ni kは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記nj k-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記wj kは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記bj kは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記Eijは、ターゲット接続行列における要素を表す。
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を含む。
式
ここで、前記htは、前記テキスト特徴集合におけるt番目のテキスト特徴を表し、前記LSTM( )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、前記wtは、前記テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、前記ht-1は、前記テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
式
ここで、前記Lは、前記ターゲット損失関数を表し、前記ni +は、第1訓練対象の画像候補領域を表し、前記hi +は、前記第1訓練対象のテキストを表し、前記nj -は、前記第2訓練対象の画像候補領域を表し、前記hk -は、前記第2訓練対象のテキストを表し、前記d( )は、訓練対象のデータペアを表し、前記max( )は、最大値を取ることを表し、前記λ1は、第1パラメータ制御重みを表し、前記λ2は、第2パラメータ制御重みを表し、前記u1は、第1プリセット閾値を表し、前記u2は、第2プリセット閾値を表す。
画像位置決め命令を受信するステップと、
前記画像位置決め命令に応答して、前記画像位置決め命令に基づいて、位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、N個の画像候補領域が含まれ、前記Nは、1より大きいか等しい整数である、ステップと、
前記画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合に、N個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、T個の単語を含み、前記テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、前記Tは、1より大きいか等しい整数である、ステップと、
画像領域位置決めネットワークモデルによって、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、
クライアントに画像生成命令を送信し、前記クライアントに、前記画像生成命令に基づいて前記ターゲット画像候補領域を展示させるステップと、を含む。
画像候補領域biをCNNに入力した後、以下を得る。
画像領域位置決め装置が第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
画像領域位置決め装置が第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
画像領域位置決め装置が領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
画像領域位置決め装置がグラフ畳み込みネットワークによって、ターゲット接続行列に対応する拡張セマンティック情報集合を決定するステップと、を含んでもよい。
画像領域位置決め装置が領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
画像領域位置決め装置が接続行列及び単位行列に基づいて、ターゲット接続行列を生成するステップと、を含んでもよい。
ここで、ni kは、第1領域セマンティック情報を表し、nj kは、第2領域セマンティック情報を表し、b1、b2、w1及びw2はいずれもGCNのモデルパラメータであり、eijは、第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度を表す。
画像領域位置決め装置が式
ここで、ni kは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、nj k-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、wj kは、第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、bj kは、第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、Eijは、ターゲット接続行列における要素を表す。
画像領域位置決め装置が位置決め対象のテキストを取得するステップと、
画像領域位置決め装置が位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応する、ステップと、
画像領域位置決め装置がテキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
T個の単語ベクトルに対応するテキスト特徴を取得した場合、画像領域位置決め装置がT個のテキスト特徴に基づいて、テキスト特徴集合を生成するステップと、を含んでもよい。
画像領域位置決め装置が式
ここで、htは、テキスト特徴集合におけるt番目のテキスト特徴を表し、LSTM( )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、wtは、テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、ht-1は、テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
モデル訓練装置が、式
ここで、Lは、ターゲット損失関数を表し、ni +は、第1訓練対象の画像候補領域を表し、hi +は、第1訓練対象のテキストを表し、nj -は、第2訓練対象の画像候補領域を表し、hk -は、第2訓練対象のテキストを表し、d( )は、訓練対象のデータペアを表し、max( )は、最大値を取ることを表し、λ1は、第1パラメータ制御重みを表し、λ2は、第2パラメータ制御重みを表し、u1は、第1プリセット閾値を表し、u2は、第2プリセット閾値を表す。
ここで、(ni +,hi +)は、ポジティプサンプルを表し、つまり、セマンティック関係を有する画像候補領域と自然言語ペアを表し、(ni +,hk -)及び(nj -,hi +)は、ネガティブサンプルを表し、つまり、相関していない画像候補領域と自然言語ペアを表す。(ni +,hi +)は、ポジティプサンプルであり、ni +に対して、1つの対応するネガティブサンプル(ni +,hk -)を取る。該マッチング関数の学習により、ポジティプサンプルのマッチング関係をネガティブサンプルのマッチング関係よりも高くする。(ni +,hi +)は、ポジティプサンプルであり、hi +に対して、1つの対応するネガティブサンプル(nj -,hi +)を取る。該マッチング関数の学習により、ポジティプサンプルのマッチング関係をネガティブサンプルのマッチング関係よりも高くする。
取得モジュール301は、位置決め対象の画像における画像候補領域集合を取得するように構成され、前記画像候補領域集合に、N個の画像候補領域が含まれ、前記Nは、1より大きいか等しい整数であり、
生成モジュール302は、前記取得モジュール301が取得した前記画像候補領域集合(即ち、位置決め対象の画像における画像候補領域集合)に基づいて、領域セマンティック情報集合を生成するように構成され、前記領域セマンティック情報集合にN個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応し(つまり、領域セマンティック情報集合における各領域セマンティック情報は、画像候補領域集合における1つの画像候補領域に対応する)、
前記取得モジュール301は更に、グラフ畳み込みネットワークによって、前記生成モジュール302が生成した前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するように構成され、前記拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し(つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における1つの領域セマンティック情報に対応する)、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられ、
前記取得モジュール301は更に、位置決め対象のテキストに対応するテキスト特徴集合を取得するように構成され、前記位置決め対象のテキストは、T個の単語を含み、前記テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、前記Tは、1より大きいか等しい整数であり(つまり、位置決め対象のテキストにおける各単語は、テキスト特徴集合における1つの単語特徴に対応する)、
前記取得モジュール301は更に、画像領域位置決めネットワークモデルによって、前記テキスト特徴集合(即ち、位置決め対象のテキストに対応するテキスト特徴集合)と前記各拡張セマンティック情報とのマッチング度を取得するように構成され、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、
決定モジュール303は、前記取得モジュール301が取得した、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するように構成される。
前記生成モジュール302は具体的には、畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するように構成され、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含み、
前記生成モジュール302は具体的には、N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するように構成される。
前記取得モジュール301は具体的には、前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するように構成され、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、
前記取得モジュール301は具体的には、前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得し、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行い、正規化強度を得て、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定し、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するように構成される。
前記取得モジュール301は具体的には、前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成し、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するように構成される。
前記取得モジュール301は具体的には、
式
ここで、前記ni kは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記nj k-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記wj kは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記bj kは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記Eijは、ターゲット接続行列における要素を表す
前記取得モジュール301は具体的には、前記位置決め対象のテキストを取得し、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するように構成され、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数であり、
前記取得モジュール301は具体的には、前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行い、テキスト特徴を得て、
T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するように構成される。
前記取得モジュール301は具体的には、
式
ここで、前記htは、前記テキスト特徴集合におけるt番目のテキスト特徴を表し、前記LSTM( )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、前記wtは、前記テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、前記ht-1は、前記テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するように構成される取得モジュールであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、取得モジュール401と、
前記取得モジュール401が取得した前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するように構成される決定モジュール402と、
前記決定モジュール402が決定した前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るように構成される訓練モジュールであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、訓練モジュール403と、を備える。
前記決定モジュール402は具体的には、
式
ここで、前記Lは、前記ターゲット損失関数を表し、前記ni +は、第1訓練対象の画像候補領域を表し、前記hi +は、前記第1訓練対象のテキストを表し、前記nj -は、前記第2訓練対象の画像候補領域を表し、前記hk -は、前記第2訓練対象のテキストを表し、前記d( )は、訓練対象のデータペアを表し、前記max( )は、最大値を取ることを表し、前記λ1は、第1パラメータ制御重みを表し、前記λ2は、第2パラメータ制御重みを表し、前記u1は、第1プリセット閾値を表し、前記u2は、第2プリセット閾値を表す。
位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、N個の画像候補領域が含まれ、前記Nは、1より大きいか等しい整数である、ステップと、
前記画像候補領域集合(即ち、位置決め対象の画像における画像候補領域集合)に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合にN個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応する(つまり、領域セマンティック情報集合における各領域セマンティック情報は、画像候補領域集合における1つの画像候補領域に対応する)、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し(つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における1つの領域セマンティック情報に対応する)、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、T個の単語を含み、前記テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、前記Tは、1より大きいか等しい整数である(つまり、位置決め対象のテキストにおける各単語は、テキスト特徴集合における1つの単語特徴に対応する)、ステップと、
画像領域位置決めネットワークモデルによって、前記テキスト特徴集合(即ち、位置決め対象のテキストに対応するテキスト特徴集合)と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む機能を更に有する。
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Nは、1より大きいか等しい整数である、ステップと、を実行するように構成される。
前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を実行するように構成される。
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、ターゲット接続行列を生成するステップと、を実行するように構成される。
式
ここで、前記ni kは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記nj k-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記wj kは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記bj kは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記Eijは、ターゲット接続行列における要素を表す。
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を実行するように構成される。
式
ここで、前記htは、前記テキスト特徴集合におけるt番目のテキスト特徴を表し、前記LSTM( )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、前記wtは、前記テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、前記ht-1は、前記テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、N個の画像候補領域が含まれ、前記Nは、1より大きいか等しい整数である、ステップと、
前記画像候補領域集合(即ち、位置決め対象の画像における画像候補領域集合)に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合にN個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応する(つまり、領域セマンティック情報集合における各領域セマンティック情報は、画像候補領域集合における1つの画像候補領域に対応する)、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し(つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における1つの領域セマンティック情報に対応する)、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、T個の単語を含み、前記テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、前記Tは、1より大きいか等しい整数である(つまり、位置決め対象のテキストにおける各単語は、テキスト特徴集合における1つの単語特徴に対応する)、ステップと、
画像領域位置決めネットワークモデルによって、前記テキスト特徴集合(即ち、位置決め対象のテキストに対応するテキスト特徴集合)と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む機能を更に有する。
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Nは、1より大きいか等しい整数である、ステップと、を実行するように構成される。
前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を実行するように構成される。
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を実行するように構成される。
式
ここで、前記ni kは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記nj k-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記wj kは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記bj kは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記Eijは、ターゲット接続行列における要素を表す。
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を実行するように構成される。
式
ここで、前記htは、前記テキスト特徴集合におけるt番目のテキスト特徴を表し、前記LSTM( )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、前記wtは、前記テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、前記ht-1は、前記テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含む機能を更に有する。
式
ここで、前記Lは、前記ターゲット損失関数を表し、前記ni +は、第1訓練対象の画像候補領域を表し、前記hi +は、前記第1訓練対象のテキストを表し、前記nj -は、前記第2訓練対象の画像候補領域を表し、前記hk -は、前記第2訓練対象のテキストを表し、前記d( )は、訓練対象のデータペアを表し、前記max( )は、最大値を取ることを表し、前記λ1は、第1パラメータ制御重みを表し、前記λ2は、第2パラメータ制御重みを表し、前記u1は、第1プリセット閾値を表し、前記u2は、第2プリセット閾値を表す。
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する強化セマンティック情報集合を取得するステップであって、前記強化セマンティック情報集合における各強化セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各強化セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各強化セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を実行するように構成される。
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Nは、1より大きいか等しい整数である、ステップと、を実行するように構成される。
前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を実行するように構成される。
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を実行するように構成される。
式
ここで、前記ni kは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記nj k-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記wj kは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記bj kは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記Eijは、ターゲット接続行列における要素を表す。
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を実行するように構成される。
式
ここで、前記htは、前記テキスト特徴集合におけるt番目のテキスト特徴を表し、前記LSTM( )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、前記wtは、前記テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、前記ht-1は、前記テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を実行するように構成される。
式
ここで、前記Lは、前記ターゲット損失関数を表し、前記ni +は、第1訓練対象の画像候補領域を表し、前記hi +は、前記第1訓練対象のテキストを表し、前記nj -は、前記第2訓練対象の画像候補領域を表し、前記hk -は、前記第2訓練対象のテキストを表し、前記d( )は、訓練対象のデータペアを表し、前記max( )は、最大値を取ることを表し、前記λ1は、第1パラメータ制御重みを表し、前記λ2は、第2パラメータ制御重みを表し、前記u1は、第1プリセット閾値を表し、前記u2は、第2プリセット閾値を表す。
40 モデル訓練装置
301 取得モジュール
302 生成モジュール
303 決定モジュール
401 取得モジュール
402 決定モジュール
403 訓練モジュール
510 RF回路
520 メモリ
530 入力ユニット
531 タッチパネル
532 他の入力装置
540 表示ユニット
541 表示パネル
550 センサ
560 オーディオ回路
561 スピーカー
562 マイクロホン
570 WiFiモジュール
580 プロセッサ
590 電源
600 サーバ
622 中央演算処理装置
626 電源
630 記憶媒体
632 メモリ
641 オペレーティングシステム
642 アプリケーションプログラム
644 データ
650 有線又は無線ネットワークインタフェース
658 入力/出力インタフェース
Claims (20)
- 画像領域位置決め方法であって、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する強化セマンティック情報集合を取得するステップであって、前記強化セマンティック情報集合における各強化セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各強化セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各強化セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む、画像領域位置決め方法。 - 位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成する前記ステップは、
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Nは、1より大きいか等しい整数である、ステップと、を含むことを特徴とする
請求項1に記載の画像領域位置決め方法。 - グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する強化セマンティック情報集合を取得する前記ステップは、
前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する拡張セマンティック情報集合を決定するステップと、を含むことを特徴とする
請求項1又は2に記載の画像領域位置決め方法。 - 前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップは、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を含むことを特徴とする
請求項3に記載の画像領域位置決め方法。 - 前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップは、
式
前記ni kは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記nj k-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記wj kは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記bj kは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記Eijは、ターゲット接続行列における要素を表すことを特徴とする
請求項3又は4に記載の画像領域位置決め方法。 - 画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各強化セマンティック情報とのマッチング度を取得する前に、前記方法は、
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を更に含むことを特徴とする
請求項1ないし5のうちいずれか一項に記載の画像領域位置決め方法。 - モデル訓練方法であって、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含む、モデル訓練方法。 - 前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップは、
式
前記Lは、前記ターゲット損失関数を表し、前記ni +は、第1訓練対象の画像候補領域を表し、前記hi +は、前記第1訓練対象のテキストを表し、前記nj -は、前記第2訓練対象の画像候補領域を表し、前記hk -は、前記第2訓練対象のテキストを表し、前記d( )は、訓練対象のデータペアを表し、前記max( )は、最大値を取ることを表し、前記λ1は、第1パラメータ制御重みを表し、前記λ2は、第2パラメータ制御重みを表し、前記u1は、第1プリセット閾値を表し、前記u2は、第2プリセット閾値を表すことを特徴とする
請求項8に記載のモデル訓練方法。 - 画像領域位置決め装置であって、生成モジュールと、取得モジュールと、決定モジュールと、を備え、
前記生成モジュールは、位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するように構成され、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応し、
前記取得モジュールは、グラフ畳み込みネットワークによって、前記生成モジュールが生成した前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するように構成され、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられ、
前記取得モジュールは更に、画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するように構成され、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応し、
前記決定モジュールは、前記取得モジュールが取得した前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するように構成される、画像領域位置決め装置。 - モデル訓練装置であって、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するように構成される取得モジュールであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、取得モジュールと、
前記取得モジュールが取得した前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するように構成される決定モジュールと、
前記決定モジュールが決定した前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るように構成される訓練モジュールであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、訓練モジュールと、を備える、モデル訓練装置。 - 端末機器であって、メモリと、トランシーバと、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、端末機器。 - 前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Nは、1より大きいか等しい整数である、ステップと、を含むことを特徴とする
請求項12に記載の端末機器。 - 前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を含むことを特徴とする
請求項12又は13に記載の端末機器。 - 前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を含むことを特徴とする
請求項14に記載の端末機器。 - 前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
式
前記ni kは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記nj k-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記wj kは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記bj kは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記Eijは、ターゲット接続行列における要素を表すことを特徴とする
請求項14又は15に記載の端末機器。 - サーバであって、メモリと、トランシーバと、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、サーバ。 - サーバであって、メモリと、トランシーバと、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、サーバ。 - 画像領域位置決め方法であって、
画像位置決め命令を受信するステップと、
前記画像位置決め命令に応答して、前記画像位置決め命令に基づいて、位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、N個の画像候補領域が含まれ、前記Nは、1より大きいか等しい整数である、ステップと、
前記画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合に、N個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、T個の単語を含み、前記テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、前記Tは、1より大きいか等しい整数である、ステップと、
画像領域位置決めネットワークモデルによって、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、
クライアントに画像生成命令を送信し、前記クライアントに、前記画像生成命令に基づいて前記ターゲット画像候補領域を展示させるステップと、を含む、画像領域位置決め方法。 - コンピュータプログラムであって、
コンピュータに、請求項1ないし7のいずれか一項に記載の画像領域位置決め方法、または請求項8又は9に記載のモデル訓練方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910190207.2 | 2019-03-13 | ||
CN201910190207.2A CN109903314A (zh) | 2019-03-13 | 2019-03-13 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
PCT/CN2020/078532 WO2020182112A1 (zh) | 2019-03-13 | 2020-03-10 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022508790A JP2022508790A (ja) | 2022-01-19 |
JP7096444B2 true JP7096444B2 (ja) | 2022-07-05 |
Family
ID=66952124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021546041A Active JP7096444B2 (ja) | 2019-03-13 | 2020-03-10 | 画像領域位置決め方法、モデル訓練方法及び関連装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210264227A1 (ja) |
EP (1) | EP3940638B1 (ja) |
JP (1) | JP7096444B2 (ja) |
KR (1) | KR102646667B1 (ja) |
CN (1) | CN109903314A (ja) |
WO (1) | WO2020182112A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903314A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
CN110288026B (zh) * | 2019-06-27 | 2021-08-10 | 山东浪潮科学研究院有限公司 | 一种基于度量关系图学习的图像分割方法及装置 |
CN110660103B (zh) * | 2019-09-17 | 2020-12-25 | 北京三快在线科技有限公司 | 一种无人车定位方法及装置 |
CN110705407B (zh) * | 2019-09-20 | 2022-11-15 | 五邑大学 | 基于多任务迁移的人脸美丽预测方法及装置 |
CN110825901B (zh) * | 2019-11-11 | 2024-08-06 | 腾讯科技(北京)有限公司 | 基于人工智能的图文匹配方法、装置、设备及存储介质 |
CN113128509A (zh) * | 2019-12-31 | 2021-07-16 | 广东爱因智能数字营销有限公司 | 一种图像语义要素提取方法 |
CN111275041B (zh) * | 2020-01-20 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 内窥镜图像展示方法、装置、计算机设备及存储介质 |
CN111291813B (zh) * | 2020-02-13 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 图像标注方法、装置、计算机设备和存储介质 |
US11442986B2 (en) | 2020-02-15 | 2022-09-13 | International Business Machines Corporation | Graph convolutional networks for video grounding |
CN111598155A (zh) * | 2020-05-13 | 2020-08-28 | 北京工业大学 | 一种基于深度学习的细粒度图像弱监督目标定位方法 |
CN111598900B (zh) * | 2020-05-18 | 2022-08-09 | 腾讯医疗健康(深圳)有限公司 | 一种图像区域分割模型训练方法、分割方法和装置 |
CN111783457B (zh) * | 2020-07-28 | 2021-05-11 | 北京深睿博联科技有限责任公司 | 一种基于多模态图卷积网络的语义视觉定位方法及装置 |
CN111986262B (zh) * | 2020-09-07 | 2024-04-26 | 凌云光技术股份有限公司 | 一种图像区域定位方法及装置 |
CN112269316B (zh) * | 2020-10-28 | 2022-06-07 | 中国科学院信息工程研究所 | 一种基于图神经网络的高鲁棒性威胁狩猎系统与方法 |
CN112613483A (zh) * | 2021-01-05 | 2021-04-06 | 中国科学技术大学 | 一种基于语义分割和识别的户外火灾预警方法 |
CN112860928A (zh) * | 2021-02-08 | 2021-05-28 | 天津大学 | 一种基于类别感知图神经网络的服饰检索方法 |
CN113111184B (zh) * | 2021-04-27 | 2022-03-08 | 清华大学深圳国际研究生院 | 基于显式事件结构知识增强的事件检测方法及终端设备 |
CN113392370B (zh) * | 2021-06-15 | 2022-01-04 | 元橡科技(苏州)有限公司 | 一种slam系统 |
CN113393558A (zh) * | 2021-06-29 | 2021-09-14 | 维沃软件技术有限公司 | 漫画生成方法、装置、电子设备和存储介质 |
CN113449640B (zh) * | 2021-06-29 | 2022-02-11 | 中国地质大学(武汉) | 基于多任务cnn+gcn的遥感影像建筑物语义分割边缘优化方法 |
CN113434716B (zh) * | 2021-07-02 | 2024-01-26 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
CN113806631A (zh) * | 2021-08-20 | 2021-12-17 | 华为技术有限公司 | 一种推荐方法、训练方法、装置、设备及新闻推荐系统 |
CN115295079A (zh) * | 2022-01-20 | 2022-11-04 | 云南师范大学 | 基于元图学习的长链非编码rna亚细胞定位预测方法 |
CN114896438B (zh) * | 2022-05-10 | 2024-06-28 | 西安电子科技大学 | 基于分层对齐和广义池化图注意力机制的图文检索方法 |
CN115269912B (zh) * | 2022-09-29 | 2023-01-06 | 浙江省公众信息产业有限公司无线运营分公司 | 图像检索方法及系统 |
CN116978011B (zh) * | 2023-08-23 | 2024-03-15 | 广州新华学院 | 一种用于智能目标识别的图像语义通信方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121768A1 (en) | 2016-10-28 | 2018-05-03 | Adobe Systems Incorporated | Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media |
CN108229287A (zh) | 2017-05-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像识别方法和装置、电子设备和计算机存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
US9436760B1 (en) * | 2016-02-05 | 2016-09-06 | Quid, Inc. | Measuring accuracy of semantic graphs with exogenous datasets |
US10579902B2 (en) * | 2016-12-21 | 2020-03-03 | Samsung Electronics Co., Ltd. | Method and electronic device for providing text-related image |
CN106845499A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于自然语言语义的图像目标检测方法 |
CN108228757A (zh) * | 2017-12-21 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像搜索方法和装置、电子设备、存储介质、程序 |
CN108960330B (zh) * | 2018-07-09 | 2021-09-10 | 西安电子科技大学 | 基于快速区域卷积神经网络的遥感图像语义生成方法 |
CN109002852B (zh) * | 2018-07-11 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
JP7132046B2 (ja) * | 2018-09-13 | 2022-09-06 | 株式会社東芝 | 検索装置、検索方法及びプログラム |
US11436825B2 (en) * | 2018-12-14 | 2022-09-06 | Samsung Electronics Co., Ltd. | Method and apparatus for determining target object in image based on interactive input |
CN109903314A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
US11823378B2 (en) * | 2019-12-20 | 2023-11-21 | PAIGE.AI, Inc. | Systems and methods for processing electronic images to detect contamination in specimen preparations |
-
2019
- 2019-03-13 CN CN201910190207.2A patent/CN109903314A/zh active Pending
-
2020
- 2020-03-10 EP EP20771005.4A patent/EP3940638B1/en active Active
- 2020-03-10 KR KR1020217014824A patent/KR102646667B1/ko active IP Right Grant
- 2020-03-10 WO PCT/CN2020/078532 patent/WO2020182112A1/zh unknown
- 2020-03-10 JP JP2021546041A patent/JP7096444B2/ja active Active
-
2021
- 2021-05-12 US US17/319,028 patent/US20210264227A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121768A1 (en) | 2016-10-28 | 2018-05-03 | Adobe Systems Incorporated | Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media |
CN108229287A (zh) | 2017-05-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像识别方法和装置、电子设备和计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
Da Zhang et al.,MAN: Moment Alignment Network for Natural Language Moment Retrieval via Iterative Graph Adjustment,[online],2018年11月,https://arxiv.org/pdf/1812.00087v1.pdf |
Also Published As
Publication number | Publication date |
---|---|
US20210264227A1 (en) | 2021-08-26 |
EP3940638A4 (en) | 2022-05-11 |
KR102646667B1 (ko) | 2024-03-11 |
KR20210076110A (ko) | 2021-06-23 |
WO2020182112A1 (zh) | 2020-09-17 |
EP3940638A1 (en) | 2022-01-19 |
EP3940638B1 (en) | 2024-01-17 |
JP2022508790A (ja) | 2022-01-19 |
CN109903314A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7096444B2 (ja) | 画像領域位置決め方法、モデル訓練方法及び関連装置 | |
WO2020199932A1 (zh) | 模型训练方法、人脸识别方法、装置、设备及存储介质 | |
WO2021036695A1 (zh) | 一种待标注图像确定的方法、模型训练的方法及装置 | |
JP7185039B2 (ja) | 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム | |
WO2020199926A1 (zh) | 一种图像识别网络模型训练方法、图像识别方法及装置 | |
CN110009052B (zh) | 一种图像识别的方法、图像识别模型训练的方法及装置 | |
WO2020177673A1 (zh) | 一种视频序列选择的方法、计算机设备及存储介质 | |
WO2020103721A1 (zh) | 信息处理的方法、装置及存储介质 | |
WO2020108483A1 (zh) | 模型训练方法、机器翻译方法、计算机设备和存储介质 | |
US10755447B2 (en) | Makeup identification using deep learning | |
CN108280458B (zh) | 群体关系类型识别方法及装置 | |
CN111816159B (zh) | 一种语种识别方法以及相关装置 | |
WO2020147369A1 (zh) | 自然语言处理方法、训练方法及数据处理设备 | |
WO2024041479A1 (zh) | 一种数据处理方法及其装置 | |
CN113821589B (zh) | 一种文本标签的确定方法及装置、计算机设备和存储介质 | |
CN110555337B (zh) | 一种指示对象的检测方法、装置以及相关设备 | |
CN114722937B (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
WO2017088434A1 (zh) | 人脸模型矩阵训练方法、装置及存储介质 | |
CN113723378B (zh) | 一种模型训练的方法、装置、计算机设备和存储介质 | |
CN116935188B (zh) | 模型训练方法、图像识别方法、装置、设备及介质 | |
CN113761122A (zh) | 一种事件抽取方法、相关装置、设备及存储介质 | |
CN113111917A (zh) | 一种基于双重自编码器的零样本图像分类方法及装置 | |
CN109583583A (zh) | 神经网络训练方法、装置、计算机设备及可读介质 | |
CN114462539A (zh) | 一种内容分类模型的训练方法、内容分类的方法及装置 | |
CN118427350A (zh) | 文本情感分析方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210414 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096444 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |