JP2023545543A - 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム - Google Patents
情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2023545543A JP2023545543A JP2023523236A JP2023523236A JP2023545543A JP 2023545543 A JP2023545543 A JP 2023545543A JP 2023523236 A JP2023523236 A JP 2023523236A JP 2023523236 A JP2023523236 A JP 2023523236A JP 2023545543 A JP2023545543 A JP 2023545543A
- Authority
- JP
- Japan
- Prior art keywords
- time step
- attention
- vector
- semantic
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000004590 computer program Methods 0.000 title claims description 18
- 230000000007 visual effect Effects 0.000 claims abstract description 231
- 230000004927 fusion Effects 0.000 claims abstract description 86
- 230000008569 process Effects 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 208
- 230000007246 mechanism Effects 0.000 claims description 32
- 239000000284 extract Substances 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 22
- 238000007499 fusion processing Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 20
- 230000000295 complement effect Effects 0.000 abstract description 9
- 238000012549 training Methods 0.000 description 33
- 238000013527 convolutional neural network Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000009977 dual effect Effects 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000001771 impaired effect Effects 0.000 description 5
- 230000002301 combined effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
- 230000004382 visual function Effects 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
画像処理の技術分野に関する情報生成方法、装置、機器、記憶媒体及びプログラム製品を提供する。該方法は、ターゲット画像を取得するステップ(210)と、ターゲット画像の意味特徴集合を抽出し、ターゲット画像の視覚特徴集合を抽出するステップ(220)と、n個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、n個の時間ステップにおける記述語を取得するステップ(230)と、ターゲット画像のn個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成するステップ(240)と、を含む。該方法によれば、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させる。【選択図】図2
Description
本発明は、2021年1月29日に出願した出願番号が202110126753.7であり、発明の名称が「画像キャプション情報生成方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容を参照により本発明に援用する。
本発明は、画像処理の技術分野に関し、特に情報生成方法、装置、機器、記憶媒体及びプログラム製品に関する。
画像認識技術の発展に伴い、コンピュータの「図を見て説明する」機能は、アルゴリズムで実現できるようになった。言い換えれば、コンピュータ機器は、画像キャプション(Image Caption)により、画像におけるコンテンツ情報を画像キャプション情報に変換することができる。
関連技術では、抽出された画像の視覚特徴に基づいて画像の画像キャプション情報を生成すること、即ち、コンピュータ機器がエンコーダにより画像の視覚特徴を取得した後、1つのリカレントニューラルネットワークを用いて画像全体のキャプションを生成することに着目する場合が多い。
本発明の実施例は、情報生成方法、装置、機器、記憶媒体及びプログラム製品を提供する。その技術的手段は、以下の通りである。
1つの態様では、コンピュータ機器が実行する情報生成方法であって、ターゲット画像を取得するステップと、前記ターゲット画像の意味特徴集合を抽出し、前記ターゲット画像の視覚特徴集合を抽出するステップと、n個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記n個の時間ステップにおける記述語を取得するステップであって、前記アテンション融合のプロセスのt番目の時間ステップにおける入力は、前記t番目の時間ステップにおける意味アテンションベクトル、前記t番目の時間ステップにおける視覚アテンションベクトル、及び前記アテンション融合のプロセスのt-1番目の時間ステップにおける出力結果を含み、前記t番目の時間ステップにおける前記意味アテンションベクトルは、前記t番目の時間ステップにおいて前記意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記t番目の時間ステップにおける前記視覚アテンションベクトルは、前記t番目の時間ステップにおいて前記視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記アテンション融合のプロセスの前記t-1番目の時間ステップにおける出力結果は、前記t-1番目の時間ステップにおける記述語を示すために使用され、前記t番目の時間ステップは、前記n個の時間ステップのうちの何れかであり、1≦t≦n、t及びnは何れも正の整数である、ステップと、前記ターゲット画像の前記n個の時間ステップにおける記述語に基づいて、前記ターゲット画像の画像キャプション情報を生成するステップと、を含む、方法を提供する。
もう1つの態様では、情報生成装置であって、ターゲット画像を取得する画像取得モジュールと、前記ターゲット画像の意味特徴集合を抽出し、前記ターゲット画像の視覚特徴集合を抽出する特徴抽出モジュールと、n個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記n個の時間ステップにおける記述語を取得する記述語取得モジュールであって、前記アテンション融合のプロセスのt番目の時間ステップにおける入力は、前記t番目の時間ステップにおける意味アテンションベクトル、前記t番目の時間ステップにおける視覚アテンションベクトル、及び前記アテンション融合のプロセスのt-1番目の時間ステップにおける出力結果を含み、前記t番目の時間ステップにおける前記意味アテンションベクトルは、前記t番目の時間ステップにおいて前記意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記t番目の時間ステップにおける前記視覚アテンションベクトルは、前記t番目の時間ステップにおいて前記視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記アテンション融合のプロセスの前記t-1番目の時間ステップにおける出力結果は、前記t-1番目の時間ステップにおける記述語を示すために使用され、前記t番目の時間ステップは、前記n個の時間ステップのうちの何れかであり、1≦t≦n、t及びnは何れも正の整数である、記述語取得モジュールと、前記ターゲット画像の前記n個の時間ステップにおける記述語に基づいて、前記ターゲット画像の画像キャプション情報を生成する情報生成モジュールと、を含む、装置を提供する。
もう1つの態様では、プロセッサと、少なくとも1つのコンピュータプログラムが記憶されたメモリと、を含むコンピュータ機器であって、前記コンピュータプログラムは、上記の情報生成方法を実現するように、前記プロセッサによりロードされて実行される、コンピュータ機器を提供する。
もう1つの態様では、少なくとも1つのコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、上記の情報生成方法を実現するように、プロセッサによりロードされて実行される、記憶媒体を提供する。
もう1つの態様では、少なくとも1つのコンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、上記の情報生成方法を実現するように、プロセッサによりロードされて実行される、コンピュータプログラム製品を提供する。
本発明の実施例の技術的手段は、少なくとも以下の有利な効果を奏する。
ターゲット画像の意味特徴集合及び視覚特徴集合をそれぞれ抽出し、n個の時間ステップにおいて意味特徴と視覚特徴とに対してアテンション融合を行い、コンピュータ機器が画像キャプション情報を生成するための各時間ステップにおいて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。
図1は、本発明の1つの例示的な実施例に係る情報生成方法に使用されるシステムを示す概略図である。図1に示すように、該システムは、サーバ110と端末120とを含む。
ここで、サーバ110は、独立した物理サーバであってもよいし、複数の物理サーバにより構成されるサーバクラスタや分散型システムであってもよい。
端末120は、ネットワーク接続機能及び画像表示機能及び/又はビデオ再生機能を有する端末装置であってもよい。また、該端末は、画像キャプション情報を生成する機能を有する端末であってもよい。例えば、端末120は、スマートフォン、タブレットコンピュータ、電子書籍リーダ、スマートメガネ、スマートウォッチ、スマートテレビ、MP3プレーヤ(Moving Picture Experts Group Audio Layer III:ムービング・ピクチャー・エクスパーツ・グループ・オーディオ・レイヤー・3)、MP4(Moving Picture Experts Group Audio Layer IV:ムービング・ピクチャー・エクスパーツ・グループ・オーディオ・レイヤー・4)プレーヤ、ラップトップポータブルコンピュータ及びデスクトップコンピュータなどであってもよい。
好ましくは、上記のシステムは、1つ又は複数のサーバ110と、複数の端末120とを含む。本発明の実施例は、サーバ110及び端末120の数に限定されない。
端末とサーバとは、通信ネットワークを介して接続されてもよい。好ましくは、通信ネットワークは、有線ネットワーク又は無線ネットワークである。
本発明の実施例では、コンピュータ機器は、ターゲット画像を取得し、ターゲット画像の意味特徴集合を抽出し、ターゲット画像の視覚特徴集合を抽出し、n個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、n個の時間ステップにおける記述語を取得し、該アテンション融合のプロセスのt番目の時間ステップにおける入力は、t番目の時間ステップにおける意味アテンションベクトル、t番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合のプロセスのt-1番目の時間ステップにおける出力結果を含み、t番目の時間ステップにおける意味アテンションベクトルは、t番目の時間ステップにおいて意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、t番目の時間ステップにおける視覚アテンションベクトルは、t番目の時間ステップにおいて視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、アテンション融合のプロセスのt-1番目の時間ステップにおける出力結果は、t-1番目の時間ステップにおける記述語を示すために使用され、t番目の時間ステップは、n個の時間ステップのうちの何れかであり、1≦t≦n、t及びnは何れも正の整数であり、ターゲット画像のn個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成する。該方法によれば、コンピュータ機器は、画像キャプション情報を生成するプロセスにおける各時間ステップおいて、ターゲット画像の視覚特徴と意味特徴とに対してアテンション融合を行うことで、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。
好ましくは、コンピュータ機器は、情報生成モデルにおけるアテンション融合ネットワークにより、ターゲット画像の意味特徴と視覚特徴とに対してアテンション融合を行うことによって、各時間ステップにおける記述語を取得してもよい。図2は、本発明の1つの例示的な実施例に係る情報生成方法を示すフローチャートである。該方法は、コンピュータ機器により実行されてもよい。該コンピュータ機器は、端末又はサーバとして実現されてもよく、該端末又はサーバは図1に示す端末又はサーバであってもよい。図2に示すように、該情報生成方法は、以下のステップを含んでもよい。
ステップ210:ターゲット画像を取得する。
1つの可能な態様では、該ターゲット画像は、ローカルに記憶された画像であってもよく、或いは、該ターゲット画像は、ターゲット対象指定操作に基づいてリアルタイムで取得された画像であってもよい。例えば、該ターゲット画像は、ターゲット対象によりスクリーンキャスト操作に基づいてリアルタイムで取得された画像であってもよい。或いは、該ターゲット画像は、ターゲット対象が画面内の指定領域を長押しすることによって画像キャプション情報の生成をトリガする際に、コンピュータ機器によりリアルタイムで収集された端末画面上の画像であってもよい。或いは、該ターゲット画像は、端末の画像取得コンポーネントによりリアルタイムで取得された画像であってもよい。なお、本発明は、ターゲット画像の取得方式に限定されない。
ステップ220:ターゲット画像の意味特徴集合を抽出し、ターゲット画像の視覚特徴集合を抽出する。
ターゲット画像の意味特徴集合は、ターゲット画像の画像情報を記述するための候補記述語に対応する語ベクトルの集合を示すために用いられる。
ターゲット画像の視覚特徴集合は、ターゲット画像の画素点のRGB(赤緑青)分布などの特徴に基づいて取得された画像特徴の集合を示すために使用される。
ステップ230:情報生成モデルにおけるアテンション融合ネットワークにより、n個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、n個の時間ステップにおける記述語を取得する。
上記のアテンション融合のプロセスに対応して、該アテンション融合ネットワークのt番目の時間ステップにおける入力は、t番目の時間ステップにおける意味アテンションベクトル、t番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合ネットワークのt-1番目の時間ステップにおける出力結果を含み、t番目の時間ステップにおける意味アテンションベクトルは、t番目の時間ステップにおいて意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、t番目の時間ステップにおける視覚アテンションベクトルは、t番目の時間ステップにおいて視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、アテンション融合ネットワークのt-1番目の時間ステップにおける出力結果は、t-1番目の時間ステップにおける記述語を示すために使用され、t番目の時間ステップは、n個の時間ステップのうちの何れかであり、1≦t≦n、t及びnは何れも正の整数である。
ここで、時間ステップの数nは、ターゲット画像の画像キャプション情報を生成するために必要な時間ステップの数である。
アテンションメカニズム(Attention Mechanism)の本質は、ネットワークを介して自律的に学習された重み係数のセットであり、「動的重み付け」の方式でターゲット対象の関心領域を強調し、関連性のない背景領域を抑制するメカニズムである。コンピュータビジョンの分野では、アテンションメカニズムは、主にハード(hard)アテンションとソフト(soft)アテンションの2種類に分けられる。
アテンションメカニズムは、RNN(Recurrent Neural Networks:リカレントニューラルネットワーク)によく用いられる。アテンションメカニズム付きのRNNは、ターゲット画像の一部の画素を処理するたびに、ターゲット画像の全ての画素に基づいて処理を行うことではなく、現在の状態の前の状態により注目される、ターゲット画像の部分画素に基づいて処理を行うことで、タスクの処理複雑度を低減させることができる。
本発明の実施例では、コンピュータ機器は、画像キャプション情報を生成する際に、1つの単語を生成した後、生成された該単語に基づいて次の単語を生成する。ここで、1つの単語を生成するために必要な時間は、時間ステップ(Time Step)と称される。好ましくは、時間ステップ数nは、1より大きい非固定値であってもよい。生成された記述語は、記述語の生成プロセスの終了を示すための単語又は文字である場合、コンピュータ機器は、記述語の生成プロセスを終了する。
本発明の実施例に係る情報生成モデルは、画像の画像キャプション情報を生成するために用いられる。該情報生成モデルは、サンプル画像と、サンプル画像に対応する画像キャプション情報とを訓練することによって生成される。ここで、サンプル画像の画像キャプション情報は、テキスト情報であってもよい。
本発明の実施例では、意味アテンションベクトルは、複数の属性を利用して視覚記述語と非視覚記述語の両方の生成を強化してもよい。視覚記述語とは、画像の画素情報に基づいて直接抽出できる記述語情報を意味し、例えば、画像キャプション情報のうち、品詞が名詞である記述語などである。一方、非視覚記述語とは、画像の画素情報に基づいて抽出される確率の低い記述語情報、或いは直接抽出できない記述語情報を意味し、例えば、画像の記述情報のうち、品詞が動詞又は前置詞である記述語などである。
視覚アテンションベクトルは、視覚記述語の生成を強化し、抽出画像における視覚記述語に良い表現を有する。図3は、本発明の1つの例示的な実施例に係る異なるアテンションに基づいて画像における単語情報を抽出することを示す概略図である。図3のA部分は、所定画像について意味アテンションメカニズムにより取得された各記述語の重みの変化を示している。図3のB部分は、同一の所定画像について視覚アテンションメカニズムにより取得された各記述語の重みの変化を示している。記述語が単語である場合、「people」、「standing」、「table」という3つの単語について、意味アテンションメカニズムでは、各単語が生成された時点で、各単語に対応する重みがピークとなり、即ち、意味アテンションメカニズムは現在の文脈との関連度が最も高い単語に注目する。視覚アテンションメカニズムでは、3つの単語のうちの視覚単語を生成する際に、即ち、「people」及び「table」を生成する際に、視覚アテンションは、所定画像内の視覚単語に対応する画像領域に注目する。例えば、図3に示すように、「people」を生成する際に、視覚アテンションは、所定画像内の顔を含む領域310に注目する。3つの単語のうちの非視覚単語を生成する際に、即ち、「table」を生成する際に、視覚アテンションは、所定画像内のテーブルを含む領域320に注目する。しかし、視覚アテンションメカニズムに基づいて非視覚単語を生成する際に、例えば「standing」を生成する際に、視覚アテンションメカニズムは、無関係な誤解を招く可能性のある画像領域330に注目する。
従って、視覚アテンションメカニズムの視覚語彙を生成する際の優位性と、意味アテンションメカニズムの非視覚特徴を生成する際の優位性とを両立するために、本発明の実施例では、視覚アテンションと意味アテンションとを組み合わせることで、コンピュータ機器は、視覚単語及び非視覚単語の生成をより正確に誘導することができると共に、非視覚単語の生成における視覚アテンションの干渉を低減させ、より完全、且つ充実した画像キャプションを生成することができる。
ステップ240:ターゲット画像のn個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成する。
1つの可能な態様では、ターゲット画像の画像キャプション情報を生成するために、所定の順序に従ってn個の時間ステップにおける記述語を並び替え、例えば順次並び替える。
上述したように、本発明の実施例に係る情報生成方法は、ターゲット画像の意味特徴集合及び視覚特徴集合をそれぞれ抽出し、情報生成モデルにおけるアテンション融合ネットワークを使用して、意味特徴と視覚特徴とに対してアテンション融合を行い、コンピュータ機器が画像キャプション情報を生成するための各時間ステップにおいて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。
なお、本発明の実施例に係る方法は、以下のシナリオに適用されてもよいが、該シナリオに限定されない。
1.視覚障害者が画像情報を取得するシナリオ
視覚障害者(視覚障害のある人)の視覚機能は、視力低下又は視野障害のために正常な視力を得られず、視覚情報の取得が障害される。例えば、視覚障害者が携帯電話を用いて画像や文字、動画を見る場合、視覚に完全な視覚情報の内容を得ることができないため、聴覚により画像における情報を得る必要がある。1つの可能な方法は、ターゲット対象が閲覧するコンテンツの存在する領域又は領域範囲を選択し、本発明の実施形態に係る情報生成方法により、該領域に対応する画像キャプション情報を生成し、該画像キャプション情報を文字情報から音声情報に変換して再生することによって、視覚障害者が完全な画像情報を取得することを支援する。
視覚障害者(視覚障害のある人)の視覚機能は、視力低下又は視野障害のために正常な視力を得られず、視覚情報の取得が障害される。例えば、視覚障害者が携帯電話を用いて画像や文字、動画を見る場合、視覚に完全な視覚情報の内容を得ることができないため、聴覚により画像における情報を得る必要がある。1つの可能な方法は、ターゲット対象が閲覧するコンテンツの存在する領域又は領域範囲を選択し、本発明の実施形態に係る情報生成方法により、該領域に対応する画像キャプション情報を生成し、該画像キャプション情報を文字情報から音声情報に変換して再生することによって、視覚障害者が完全な画像情報を取得することを支援する。
図4は、本発明の1つの例示的な実施例に係る映像シナリオにおける対応するターゲット画像の選択を示す概略図である。図4に示すように、該ターゲット画像は、コンピュータ機器により再生中の映像から、受信された再生中の映像の所定操作に基づいて取得された画像であってもよいし、コンピュータ機器により受信されたライブプレビューインタフェースにリアルタイムで表示されるライブブースの動的映像から、受信された動的映像に対する所定操作に基づいて取得された画像であってもよい。該ライブプレビューインタフェースに表示される動的映像は、ターゲット対象がライブブース内のリアルタイムコンテンツをプレビューすることで、ライブブースに入って視聴するか否かを判断することを支援するために用いられる。
1つの可能な態様では、ターゲット対象は、ビデオ画像又は動的映像の領域をクリック(所定操作)して、該領域内の現在の画像(クリック操作を受け付けた際の画像)をターゲット画像として取得することを決定してもよい。
表示ターゲット対象のターゲット画像の選択を強化するために、所定操作で選択された領域を強調表示してもよく、例えば、ハイライト表示、拡大表示、枠線の太く表示などを行ってもよい。図4に示すように、領域410の枠線を太く表示する。
2.早期教育のシナリオ
早期教育のシナリオでは、幼児の物体や文字に対する認知範囲が限られているため、画像による教育が効果的である。このようなシナリオでは、本発明に係る情報生成方法により、幼児がタッチした画像に対して画像情報キャプションを行うことによって、視覚と聴覚という2つの面から幼児に情報伝達を行い、幼児の学習意欲を喚起し、情報伝達効果を高めることができる。
早期教育のシナリオでは、幼児の物体や文字に対する認知範囲が限られているため、画像による教育が効果的である。このようなシナリオでは、本発明に係る情報生成方法により、幼児がタッチした画像に対して画像情報キャプションを行うことによって、視覚と聴覚という2つの面から幼児に情報伝達を行い、幼児の学習意欲を喚起し、情報伝達効果を高めることができる。
本発明に係る方法は、モデル訓練段階及び情報生成段階を含む。図5は、1つの例示的な実施例に係るモデル訓練段階及び情報生成段階を示す概略図である。図5に示すように、モデル訓練段階において、モデル訓練装置510は、予め設定された訓練サンプル(サンプル画像と、サンプル画像に対応する画像キャプション情報とを含み、例えば、該画像キャプション情報は、順次配列された記述語であってもよい)を用いて、視覚-意味の二重アテンション(Visual-Semantic Double Attention:VSDA)モデル、即ち情報生成モデルを得る。この視覚-意味の二重アテンションモデルは、意味アテンションネットワーク、視覚アテンションネットワーク、及びアテンション融合ネットワークを含む。
情報生成段階において、情報生成装置520は、該視覚-意味の二重アテンションモデルに基づいて、入力されたターゲット画像を処理し、ターゲット画像に対応する画像キャプション情報を取得する。
ここで、上記のモデル訓練装置510及び情報生成装置520は、コンピュータ機器であってもよい。例えば、該コンピュータ機器は、パーソナルコンピュータ、サーバ等の固定型のコンピュータ機器であってもよいし、タブレットコンピュータ、電子書籍リーダ等の移動型のコンピュータ機器であってもよい。
好ましくは、上記のモデル訓練装置510と情報生成装置520とが同一の装置であってもよいし、モデル訓練装置510と情報生成装置520とが異なる装置であってもよい。また、モデル訓練装置510と情報生成装置520とが異なる装置である場合、モデル訓練装置510と情報生成装置520とが同一のタイプの装置であってもよく、例えば、モデル訓練装置510と情報生成装置520とが何れもサーバであってもよい。或いは、モデル訓練装置510と情報生成装置520とが異なるタイプの装置であってもよく、例えば、情報生成装置520はパーソナルコンピュータ又は端末であってもよく、モデル訓練装置510はサーバ等であってもよい。なお、本発明の実施例は、モデル訓練装置510及び情報生成装置520の具体的なタイプに限定されない。
図6は、本発明の1つの例示的な実施例に係る情報生成モデルの訓練方法を示すフローチャートである。該方法はコンピュータ機器により実行されてもよく、該コンピュータ機器は端末又はサーバとして実現されてもよい。図6に示すように、該情報生成モデルの訓練方法は、以下のステップを含む。
ステップ610:サンプル画像セットを取得し、該サンプル画像セットは、少なくとも2つの画像サンプルと、少なくとも2つの画像サンプルにそれぞれ対応する画像キャプション情報とを含む。
ステップ620:サンプル画像セットに基づいて訓練を行い、情報生成モデルを取得する。
該情報生成モデルは、視覚-意味の二重アテンションモデルであってもよく、該モデルは、意味アテンションネットワーク、視覚アテンションネットワーク、及びアテンション融合ネットワークを含む。該意味アテンションネットワークは、画像の意味特徴集合に基づいて意味アテンションベクトルを取得するために使用され、該視覚アテンションネットワークは、画像の視覚特徴集合に基づいて視覚アテンションベクトルを取得するために使用される。該アテンション融合ネットワークは、画像の意味特徴と視覚特徴とに対してアテンション融合を行い、画像に対応する画像キャプション情報を構成する記述語を取得するために使用される。
上述したように、本発明の実施例に係る情報生成モデルの訓練方法は、サンプル画像セットの訓練により、意味アテンションネットワーク、視覚アテンションネットワーク及びアテンション融合ネットワークを含む情報生成モデルを取得する。画像キャプション情報を生成するプロセスにおいて、上記の情報生成モデルを用いて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。
本発明の実施例では、モデル訓練のプロセスはサーバにより実行されてもよく、画像キャプション情報の生成プロセスはサーバ又は端末により実行されてもよい。画像キャプション情報の生成プロセスが端末により実行される場合、サーバは、訓練済みの視覚-意味の二重アテンションモデルを端末に送信し、端末が視覚-意味の二重アテンションモデルにより、取得されたターゲット画像を処理し、ターゲット画像の画像キャプション情報を取得してもよい。以下の実施例では、モデル訓練プロセス及び画像キャプション情報の生成プロセスの両方がサーバにより実行されることを一例にして説明する。図7は、本発明の1つの例示的な実施例に係るモデル訓練及び情報生成方法を示すフローチャートである。該方法は、コンピュータ機器により実行されてもよい。図7に示すように、該モデル訓練及び情報生成方法は、以下のステップを含んでもよい。
ステップ701:サンプル画像セットを取得し、該サンプル画像セットは、少なくとも2つの画像サンプルと、該少なくとも2つの画像サンプルにそれぞれ対応する画像キャプション情報とを含む。
ここで、各サンプル画像にそれぞれ対応する画像キャプション情報は、関係者によりラベル付けされてもよい。
ステップ702:サンプル画像セットに基づいて訓練を行い、情報生成モデルを取得する。
該情報生成モデルは、視覚-意味の二重アテンションモデルであってもよく、該モデルは、意味アテンションネットワーク、視覚アテンションネットワーク、及びアテンション融合ネットワークを含む。該意味アテンションネットワークは、ターゲット画像の意味特徴集合に基づいて意味アテンションベクトルを取得するために使用され、該視覚アテンションネットワークは、ターゲット画像の視覚特徴集合に基づいて視覚アテンションベクトルを取得するために使用される。該アテンション融合ネットワークは、ターゲット画像の意味特徴と視覚特徴とに対してアテンション融合を行い、ターゲット画像に対応する画像キャプション情報を構成する記述語を取得するために使用される。
1つの可能な態様では、情報生成モデルは、意味畳み込みニューラルネットワーク及び視覚畳み込みニューラルネットワークをさらに含む。ここで、意味畳み込みニューラルネットワークは、ターゲット画像を処理し、ターゲット画像の意味特徴ベクトルを取得して、該ターゲット画像に対応する記述語集合を取得するために使用される。視覚畳み込みニューラルネットワークは、ターゲット画像を処理し、該ターゲット画像に対応する視覚特徴集合を取得するために使用される。
1つの可能な態様では、情報生成モデルを訓練するプロセスは、以下のように実現される。
サンプル画像セットの各サンプル画像を情報生成モデルに入力し、各サンプル画像に対応する予測画像キャプション情報を取得する。
各サンプル画像に対応する予測画像キャプション情報と、各サンプル画像に対応する画像キャプション情報とに基づいて、損失関数値を計算する。
損失関数値に基づいて、情報生成モデルのパラメータを更新する。
情報生成モデルを応用する際に生成されたターゲット画像の画像キャプション情報の正確性を保証するために、情報生成モデルのサンプル画像に基づく出力結果(即ち、予測画像キャプション情報)をサンプル画像に対応する画像キャプション情報と近似させる必要があるため、情報生成モデルが収束するまで、情報生成モデルの訓練プロセスにおいて複数回の訓練を行い、情報生成モデルにおける各ネットワークの各パラメータを更新する必要がある。
情報生成モデルに関与する全てのパラメータをθとし、目標シーケンス(Ground Truth Sequence){w1,w2,…,wt}、即ちサンプル画像の画像キャプション情報における記述語シーケンスを設定し、損失関数を最小化クロスエントロピー(Cross Entropy loss)関数とすると、情報生成モデルに対応する損失関数値を計算する式は、以下のように表してもよい。
(外1)
は情報生成モデルにより出力された予測画像キャプション情報における各記述語の確率を表す。損失関数の計算結果に基づいて、情報生成モデルにおける各ネットワークの各パラメータを調整する。
ステップ703:ターゲット画像を取得する。
画像キャプション情報の生成プロセスがサーバにより実行される場合、該ターゲット画像は、端末によりターゲット画像が取得された後に、画像キャプション情報の取得のためにサーバに送信された画像であってもよい。それに応じて、サーバは、ターゲット画像を受信する。
ステップ704:ターゲット画像の意味特徴ベクトルを取得する。
1つの可能な態様では、ターゲット画像を意味畳み込みニューラルネットワークに入力し、意味畳み込みニューラルネットワークにより出力されたターゲット画像の意味特徴ベクトルを取得する。
ここで、該意味畳み込みニューラルネットワークは、全畳み込みネットワーク(Fully Conventional Network:FCN)であってもよいし、畳み込みニューラルネットワーク(Convolutional Neural Networks:CNN)であってもよい。ここで、CNNは、フィードフォワードニューラルネットワークであり、一方向多層構造のニューラルネットワークである。同一の層のニューロン間に相互接続がなく、層間の情報伝達は一方向にのみ行われ、入力層、出力層を除く中間の全てが隠れ層であり、隠れ層は1つの層又は複数層がある。CNNは画像の下位層の画素の特徴から直接、画像を層ごとに特徴抽出を行うことができる。CNNは、エンコーダの最も一般的な実装モデルであり、画像をベクトルにエンコードする。
コンピュータ機器は、該意味畳み込みニューラルネットワークによりターゲット画像を処理し、該ターゲット画像の大まかなグラフ表現ベクトル、即ち、ターゲット画像の意味特徴ベクトルを取得することができる。
ステップ705:該意味特徴ベクトルに基づいて、ターゲット画像の意味特徴集合を抽出する。
語彙ライブラリでは、全ての属性語が該ターゲット画像に対応するわけではないため、語彙ライブラリにおける全ての語に対して確率計算又は検証を行うと、過多、且つ不必要なデータ処理を引き起こすため、記述語集合の取得を行う前に、コンピュータ機器は、取得されたターゲット画像属性を示す意味特徴ベクトルに基づいて、語彙ライブラリにおける属性語に対してスクリーニングを行い、その中からターゲット画像に対応する属性語により構成される属性語集合、即ち候補記述語集合を取得し、その後、候補記述語集合における属性語の意味特徴を抽出し、ターゲット画像の意味特徴集合を取得してもよい。
1つの可能な態様では、コンピュータ機器は、意味特徴ベクトルに基づいて、語彙ライブラリからターゲット画像の対応する属性語集合を抽出してもよい。該属性語集合とは、ターゲット画像を記述するための候補記述語の集合である。
そして、属性語集合に対応する語ベクトル集合を、ターゲット画像の前記意味特徴集合として取得する。該語ベクトル集合には、属性語集合における各候補記述語のそれぞれに対応する語ベクトルが含まれる。
該属性語集合における候補記述語は、ターゲット画像の文脈に対応する属性語である。本発明は、属性語集合における候補記述語の数に限定されない。
ここで、候補記述語は、例えば、play、playing、playsなどのように、同一の単語の異なる形式を含んでもよい。
1つの可能な態様では、各語彙のマッチング確率を取得し、各語彙のマッチング確率に基づいて語彙ライブラリから候補記述語を選択し、属性語集合を構成するプロセスは、以下のように実現されてもよい。
意味特徴ベクトルに基づいて、語彙ライブラリにおける各語彙のマッチング確率を取得する。該マッチング確率は、語彙ライブラリにおける語彙とターゲット画像とが合致する確率である。
語彙ライブラリから、マッチング確率がマッチング確率閾値よりも大きい語彙を候補記述語として抽出し、属性語集合を構成する。
1つの可能な態様では、Noisy-ORの方法により、画像内の各属性語の確率を計算してもよい。得られた属性語の精度を向上させるために、該確率閾値を0.5に設定してもよい。なお、該確率閾値の設定は、状況に応じて調整されてもよく、本発明はこれに限定あされない。
属性語取得の精度を向上させるために、1つの可能な態様では、語彙検出器を予め訓練してもよく、該語彙検出器は、ターゲット画像の特徴ベクトルに基づいて、語彙ライブラリから属性語を取得するために用いられる。従って、コンピュータは、訓練済みの語彙検出器を用いて属性語を取得してもよい。
語彙検出器が特徴ベクトルに基づいて語彙ライブラリから属性語を抽出するように、特徴ベクトルを語彙検出器に入力する。
好ましくは、該語彙検出器は、マルチインスタンス学習(Multiple Instance Learning:MIL)の弱教師あり学習により得られた語彙検出モデルである。
ステップ706:ターゲット画像の視覚特徴集合を抽出する。
1つの可能な態様では、コンピュータ機器は、視覚畳み込みニューラルネットワークにターゲット画像を入力し、視覚畳み込みニューラルネットワークにより出力されたターゲット画像の視覚特徴集合を取得してもよい。
取得された視覚特徴の集合の正確性を向上させるために、1つの可能な態様では、コンピュータ装置は、ターゲット画像の視覚特徴集合を抽出する前に、ターゲット画像を前処理してもよい。該前処理のプロセスは、以下のステップを含んでもよい。
ターゲット画像に対してサブ領域分割を行い、少なくとも1つのサブ領域を取得する。
この場合、ターゲット画像の視覚特徴集合を抽出するプロセスは、以下のように実現される。
少なくとも1つのサブ領域の視覚特徴をそれぞれ抽出し、視覚特徴集合を構成する。
ここで、コンピュータ機器は、ターゲット画像を等間隔で分割して、少なくとも1つのサブ領域を取得してもよい。分割の間隔は、コンピュータ機器によりターゲット画像の画像サイズに基づいて設定されてもよく、異なる画像サイズに対応する分割間隔は異なる。本発明は、サブブロックの数及び分割間隔の大きさに限定されない。
本発明の実施例では、ターゲット対象の意味特徴集合を抽出するプロセスと、ターゲット対象の視覚特徴集合を抽出するプロセスとは、同期して実行されてもよく、即ち、ステップ704~ステップ705とステップ706とは同期して実行されてもよい。
ステップ707:情報生成モデルにおけるアテンション融合ネットワークにより、n個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、n個の時間ステップにおける記述語を取得する。
n個の時間ステップにおけるt番目の時間ステップを一例にすると、t番目の時間ステップにおける記述語を取得するプロセスは、以下のように実現されてもよい。
t番目の時間ステップにおいて、t番目の時間ステップにおける意味アテンションベクトル、t番目の時間ステップにおける視覚アテンションベクトル、t-1番目の時間ステップにおける隠れ層ベクトル、及びアテンション融合ネットワークのt-1番目の時間ステップにおける出力結果をアテンション融合ネットワークに入力し、アテンション融合ネットワークのt番目の時間ステップにおける出力結果、及びt番目の時間ステップにおける隠れ層ベクトルを取得する。
或いは、t番目の時間ステップにおいて、t番目の時間ステップにおける意味アテンションベクトル、t番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合ネットワークのt-1番目の時間ステップにおける出力結果をアテンション融合ネットワークに入力し、アテンション融合ネットワークのt番目の時間ステップにおける出力結果、及びt番目の時間ステップにおける隠れ層ベクトルを取得する。
言い換えれば、1つの可能な態様では、意味アテンションベクトル及び視覚アテンションベクトルを前の時間ステップにおける出力結果に適用して、現在の時間ステップにおける出力結果を取得してもよい。或いは、もう1つの可能な態様では、得られた各時間ステップにおける出力結果の正確性を向上させるために、意味アテンションベクトル、視覚アテンションベクトル及び前の時間ステップにおける隠れ層ベクトルを前の時間ステップにおける出力結果に適用して、現在の時間ステップにおける出力結果を取得してもよい。現在の時間ステップにおける出力結果は、現在の時間ステップの記述語の語ベクトルである。
ターゲット画像の各時間ステップにおける記述語を取得するために、ターゲット画像の各時間ステップにおけるアテンションベクトルを取得する必要があり、該アテンションベクトルは、意味アテンションベクトル及び視覚アテンションベクトルを含む。
t番目の時間ステップを一例にすると、意味アテンションベクトルを取得する際に、t番目の時間ステップにおいて、t-1番目の時間ステップにおける隠れ層ベクトル、及び意味特徴集合に基づいて、t番目の時間ステップにおける意味アテンションベクトルを生成する。
ここで、隠れ層ベクトルは、記述語を生成する際に生成された中間コンテンツを示し、隠れ層ベクトルには、次の記述語の生成を示す履歴情報又は文脈情報が含まれる。これによって、次の時間ステップにおいて生成された次の記述語は現在の文脈により適合する。
t番目の時間ステップは、n個の時間ステップのうちの任意の時間ステップを表し、nは、画像キャプション情報を生成するために必要な時間ステップの数を表し、1≦t≦nであり、t及びnはいずれも正の整数である。
現在の時間ステップにおける意味アテンションベクトルを生成する際に、情報生成モデルは、前の時間ステップにおける隠れ層ベクトルと、ターゲット画像の意味特徴集合とに基づいて、現在の時間ステップにおける意味アテンションベクトルを生成してもよい。
1つの可能な態様では、情報生成モデルは、t-1番目の時間ステップにおいて出力された隠れ層ベクトル、及びターゲット画像の意味特徴集合を情報生成モデルにおける意味アテンションネットワークに入力し、意味アテンションネットワークにより出力されたt番目の時間ステップにおける意味アテンションベクトルを取得してもよい。
該意味アテンションネットワークは、t-1番目の時間ステップにおける隠れ層ベクトル及び意味特徴集合に基づいて、意味特徴集合における各意味特徴のt-1番目の時間ステップにおける重みを取得する。
情報生成モデルは、意味特徴集合における各意味特徴のt-1番目の時間ステップにおける重み、及び意味特徴集合に基づいて、t番目の時間ステップにおける意味アテンションベクトルを生成してもよい。
ここで、各時間ステップにおける意味アテンションベクトルは、各属性語の重みの和であり、計算式は以下のようになる。
t番目の時間ステップを一例にすると、視覚アテンションベクトルを取得する際に、t番目の時間ステップにおいて、t-1番目の時間ステップにおける隠れ層ベクトル、及び視覚特徴集合に基づいて、t番目の時間ステップにおける視覚アテンションベクトルを生成する。
現在の時間ステップにおける視覚アテンションベクトルを生成する際に、情報生成モデルは、前の時間ステップにおいて出力された隠れ層ベクトルと、ターゲット画像の視覚特徴の集合とに基づいて、現在の時間ステップにおける視覚アテンションベクトルを生成してもよい。
1つの可能な態様では、情報生成モデルは、t-1番目の時間ステップにおいて出力された隠れ層ベクトル、及びターゲット画像の視覚特徴集合を情報生成モデルにおける視覚アテンションモデルに入力し、視覚アテンションモデルにより出力されたt番目の時間ステップの意味アテンションベクトルを取得してもよい。
該視覚アテンションモデルは、t-1番目の時間ステップにおける隠れ層ベクトル及び視覚特徴集合に基づいて、視覚特徴集合における各視覚特徴のt-1番目の時間ステップにおける重みを取得する。
情報生成モデルは、視覚特徴集合における各視覚特徴のt-1番目の時間ステップにおける重み、及び視覚特徴集合に基づいて、t番目の時間ステップにおける視覚アテンションベクトルを生成してもよい。
ここで、各時間ステップにおける視覚アテンションベクトルは、各サブ領域の視覚特徴の重みの和であり、計算式は以下のようになる。
ここで、情報生成モデルは、各サブ領域の視覚特徴に対応する重みを計算する際に、より良好な性能を得るために、要素ごとの乗算戦略(Element-Wise Multiplication Strategy)により計算を行ってもよい。
アテンションモデルはより詳細なサブ領域画像特徴を取得することができるため、ソフトアテンションメカニズムは、異なる物体の記述語彙を生成する際に、対応する領域に適応的に注目することができ、より良好な性能を有する。このため、本発明の実施例では、ソフトアテンションメカニズムに基づいて構築された視覚アテンションモデルを採用する。
視覚アテンションモデル及び意味アテンションモデルは、それぞれの時間ステップにおいて対応する特徴ベクトルの重みを計算する。異なる時間ステップにおける隠れ層ベクトルが異なり、各時間ステップにおいて得られた各特徴ベクトルの重みが異なるため、各時間ステップにおいて、情報生成モデルは、各時間ステップにおける文脈により適合する画像焦点領域及び画像キャプションを生成するための特徴語に注目してもよい。
1つの可能な態様では、該情報生成モデルにおけるアテンション融合ネットワークは、シーケンスネットワークとして実現されてもよく、該シーケンスネットワークは、LSTM(Long Short Term Memory:長短期記憶ネットワーク)、Transformerネットワークなどを含んでもよい。ここで、LSTMは、時系列における間隔或いは遅延が相対的に長い重要な時間を予測する時間リカレントニューラルネットワークであり、特別なRNNである。
該シーケンスネットワークがLSTMネットワークであることを一例とすると、画像キャプション情報を生成する際に、視覚アテンションベクトルVと意味アテンションベクトルAをLSTMネットワークの追加入力パラメータとし、この2つのアテンション特徴をLSTMネットワークのユニットノードに合併して画像キャプション情報の生成を誘導し、誘導情報生成モデルは、画像の視覚特徴と意味特徴に同時に注目して、2つの特徴ベクトルを相互に補完させる。
本発明の実施例では、BOS及びEOSの記号を使用して、文の先頭及び末尾をそれぞれ表してもよい。これに基づき、LSTMネットワークは、視覚アテンションベクトルと意味アテンションベクトルに基づいて記述語を生成する式は、以下の通りである。
(外2)
はユニットを表す)を表し、itはinput gateを表し、ftはforget gateを表し、otはoutput gateを表す。
LSTMは、softmax関数を使用して次の単語の確率分布を出力する。
画像キャプション情報の生成プロセスにおいて、視覚アテンション特徴と意味アテンション特徴は異なる面で情報生成モデルにより生成された画像キャプション情報に影響を与えるため、視覚アテンションベクトルVはモデルを画像の関連領域に注目するように誘導し、意味アテンションベクトルAは関連度が最も高い属性単語の生成を強化する。2つのアテンションベクトルが相互に補完的であることを考慮して、2つのアテンションベクトルの最適な組み合わせを決定するために、アテンション融合ネットワークにおいてハイパーパラメータを設定してもよい。依然として該アテンション融合ネットワークがLSTMネットワークであることを一例にすると、更新されたLSTMネットワークが視覚アテンションベクトルと意味アテンションベクトルに基づいて記述語を生成する式は、以下の通りである。
なお、ハイパーパラメータの数値設定は、異なる重みの割り当てにおけるモデルの表現効果に応じて設定されてもよく、本発明はハイパーパラメータの数値の大きさに限定されない。
ステップ708:ターゲット画像のn個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成する。
1つの可能な態様では、情報生成モデルにより生成された画像キャプション情報は、第1の言語のキャプション情報である。例えば、第1の言語は、英語であってもよいし、中国語であってもよいし、その他の言語であってもよい。
画像キャプション情報を異なる対象の使用要件により適合させるために、1つの可能な態様では、生成されたターゲット画像キャプション情報の言語が非所定言語である場合、コンピュータ機器は、生成された第1の言語のキャプション情報を所定言語のキャプション情報に変更してもよい。例えば、情報生成モデルにより生成された画像キャプション情報が英語のキャプション情報であり、ターゲット対象により要求される所定言語が中国語である場合、情報生成モデルにより英語の画像キャプション情報が生成されると、コンピュータ機器は、該英語の画像キャプション情報を中国語の画像キャプション情報に翻訳して出力してもよい。
ここで、出力された画像キャプション情報の言語タイプ、即ち、所定言語のタイプは、関連対象により実際の需要に応じて設定されてもよいが、本発明は画像キャプション情報の言語タイプに限定されない。
1つの可能な態様では、生成された画像キャプション情報は文字情報であるため、ターゲット対象が画像キャプション情報を容易に受信するために、コンピュータ機器は、TTS(Text-To-Speech:音声合成)技術に基づいて、文字タイプの画像キャプション情報を音声タイプの画像キャプション情報に変換し、音声再生の形で画像キャプション情報をターゲット対象に伝送してもよい。
上記のプロセスは以下のように実現されてもよい。サーバは、取得された文字タイプの画像キャプション情報をTTS技術により音声タイプの画像キャプション情報に変換した後、
端末が取得された音声タイプの画像キャプション情報に応じて画像キャプション情報を再生するように、端末に音声タイプの画像キャプション情報を送信してもよい。或いは、サーバは、文字タイプの画像キャプション情報を端末に送信し、端末がTTS技術により文字タイプの画像キャプション情報を音声タイプの画像キャプション情報に変換した後、音声再生を行ってもよい。
端末が取得された音声タイプの画像キャプション情報に応じて画像キャプション情報を再生するように、端末に音声タイプの画像キャプション情報を送信してもよい。或いは、サーバは、文字タイプの画像キャプション情報を端末に送信し、端末がTTS技術により文字タイプの画像キャプション情報を音声タイプの画像キャプション情報に変換した後、音声再生を行ってもよい。
上述したように、本発明の実施例に係るモデル訓練及び情報生成方法は、ターゲット画像の意味特徴集合と視覚特徴集合をそれぞれ抽出し、情報生成モデルにおけるアテンション融合ネットワークを利用して、意味特徴と視覚特徴とに対してアテンション融合を行い、画像キャプション情報を生成するための各時間ステップにおいて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。
また、意味アテンションネットワークが各属性語の重みを取得する前に、画像の特徴ベクトルに基づいて語彙ライブラリにおける語彙をスクリーニングし、画像に関連する属性語を候補記述語として取得し、候補記述語に基づいて重み計算を行う。これによって、意味アテンションネットワークのデータ処理量を低減させ、処理精度を保証すると共に、情報生成モデルのデータ処理圧力を低減させることができる。
アテンション融合ネットワークがLSTMネットワークであり、アテンション融合ネットワークの入力が前の時間ステップの隠れ層ベクトルと、前の時間ステップの出力結果と、現在の時間ステップの視覚アテンションベクトルと、現在の時間ステップの意味アテンションベクトルとを含むことを一例にする。図8は、本発明の1つの例示的な実施例に係る画像キャプション情報の生成プロセスを示す概略図である。図8に示すように、コンピュータ機器は、ターゲット画像810を取得した後、ターゲット画像810を情報生成モデル820に入力する。情報生成モデル820は、該ターゲット画像810を意味畳み込みニューラルネットワーク821に入力し、ターゲット画像の意味特徴ベクトルを取得する。その後、語彙検出器822は、ターゲット画像の意味特徴ベクトルに基づいて語彙ライブラリにおける属性語をスクリーニングし、ターゲット画像に対応する候補記述語823を取得し、ターゲット画像に対応する意味特徴集合を取得する。同時に、情報生成モデル820は、ターゲット画像810を視覚畳み込みニューラルネットワーク824に入力し、ターゲット画像に対応する視覚特徴集合825を取得する。意味アテンションネットワーク826が入力された前の時間ステップにおいて出力された隠れ層ベクトルに基づいて現在の時間ステップにおける意味アテンションベクトルAtを取得するように、意味特徴集合を意味アテンションネットワーク826に入力する。tは、現在の時間ステップを表す。ここで、t=1の場合、前の時間ステップにおいて出力された隠れ層ベクトルは、事前設定された隠れ層ベクトルである。それに応じて、視覚アテンションネットワーク827が入力された前の時間ステップにおいて出力された隠れ層ベクトルに基づいて現在の時間ステップにおける視覚アテンションベクトルVtを取得するように、視覚特徴の集合を視覚アテンションネットワーク827に入力する。視覚アテンションベクトルVt、意味アテンションベクトルAt、前の時間ステップにおいて出力された隠れ層ベクトル及び前の時間ステップにおいて出力された記述語xt(即ちyt-1)をLSTMネットワーク828に入力し、LSTMネットワーク828により出力された現在の時間ステップにおける記述語ytを取得する。ここで、t=1の場合、前の時間ステップにおいて出力された記述語は、事前設定された開始語又は文字である。LSTMネットワークにより取得された記述語が終了語又は終端文字になるまで、上記のプロセスを繰り返す。コンピュータ機器は、取得された各記述語を取得の順序に従って並び替えて、ターゲット画像の画像キャプション情報830を取得する。
ここで、図9は、本発明の1つの例示的な実施例に係るアテンション融合ネットワークの入力と出力を示す概略図である。図9に示すように、t番目の時間ステップの場合、アテンション融合ネットワーク910の入力は、t-1番目の時間ステップにおける隠れ層ベクトルht-1と、ht-1に基づいて生成されたt番目の時間ステップにおける視覚アテンションベクトルVtと、ht-1に基づいて生成された意味アテンションベクトルAtと、t-1番目の時間ステップにおいて出力された記述語のグラフ表現ベクトル(即ち、t-1時間ステップの出力ベクトルyt-1)とを含む。アテンション融合ネットワーク910の出力は、t番目の時間ステップの出力ベクトル(yt)と、t番目の時間ステップの隠れ層ベクトル(ht:次の記述語を生成するために用いられる)とを含む。ここで、視覚アテンションベクトルは、視覚アテンションネットワーク930により各サブ領域に対応する視覚特徴の重み付け和に基づいて計算され、意味アテンションベクトルは、意味アテンションネットワーク920により各属性語の重み付け和に基づいて計算される。
なお、本発明の具体的な実施形態では、ターゲット画像などに関連するデータが言及されているが、本発明の上記の実施形態が具体的な製品又は技術に適用される際に、ユーザの許可又は同意が必要であり、関連するデータの収集、使用及び処理は、関連する国及び地域の関連する法令及び基準に準拠する必要がある。
図10は、本発明の1つの例示的な実施例に係る情報生成装置の構成を示すブロック図である。図10に示すように、該装置は、以下のモジュールを含む。
画像取得モジュール1010は、ターゲット画像を取得する。
特徴抽出モジュール1020は、ターゲット画像の意味特徴集合を抽出し、ターゲット画像の視覚特徴集合を抽出する。
記述語取得モジュール1030は、n個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、n個の時間ステップにおける記述語を取得する。該アテンション融合のプロセスのt番目の時間ステップにおける入力は、t番目の時間ステップにおける意味アテンションベクトル、t番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合のプロセスのt-1番目の時間ステップにおける出力結果を含み、t番目の時間ステップにおける意味アテンションベクトルは、t番目の時間ステップにおいて意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、t番目の時間ステップにおける視覚アテンションベクトルは、t番目の時間ステップにおいて視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、アテンション融合のプロセスのt-1番目の時間ステップにおける出力結果は、t-1番目の時間ステップにおける記述語を示すために使用され、t番目の時間ステップは、n個の時間ステップのうちの何れかであり、1≦t≦n、t及びnは何れも正の整数である。
情報生成モジュール1040は、ターゲット画像のn個の時間ステップにおける記述語に基づいて、ターゲット画像の画像キャプション情報を生成する。
1つの可能な態様では、記述語取得モジュール1030は、情報生成モデルにおけるアテンション融合ネットワークにより、n個の時間ステップにおいてターゲット画像の意味特徴とターゲット画像の視覚特徴とに対してアテンション融合を行い、n個の時間ステップにおける記述語を取得する。
1つの可能な態様では、記述語取得モジュール1030は、t番目の時間ステップにおいて、t番目の時間ステップにおける意味アテンションベクトル、t番目の時間ステップにおける視覚アテンションベクトル、t-1番目の時間ステップにおける隠れ層ベクトル、及びアテンション融合ネットワークのt-1番目の時間ステップにおける出力結果をアテンション融合ネットワークに入力し、アテンション融合ネットワークのt番目の時間ステップにおける出力結果、及びt番目の時間ステップにおける隠れ層ベクトルを取得する。
或いは、記述語取得モジュール1030は、t番目の時間ステップにおいて、t番目の時間ステップにおける意味アテンションベクトル、t番目の時間ステップにおける視覚アテンションベクトル、及びアテンション融合ネットワークのt-1番目の時間ステップにおける出力結果をアテンション融合ネットワークに入力し、アテンション融合ネットワークのt番目の時間ステップにおける出力結果、及びt番目の時間ステップにおける隠れ層ベクトルを取得する。
1つの可能な態様では、アテンション融合ネットワークには、ハイパーパラメータが設定され、ハイパーパラメータは、アテンション融合ネットワークにおける視覚アテンションベクトル及び意味アテンションベクトルのそれぞれの重みを示す。
1つの可能な態様では、該装置は、以下のモジュールをさらに含む。
第1の生成モジュールは、t番目の時間ステップにおいて、t-1番目の時間ステップにおける隠れ層ベクトル、及び意味特徴集合に基づいて、t番目の時間ステップにおける意味アテンションベクトルを生成する。
1つの可能な態様では、第1の生成モジュールは、以下のサブモジュールを含む。
第1の取得サブモジュールは、t-1番目の時間ステップにおける隠れ層ベクトル及び意味特徴集合に基づいて、意味特徴集合における各意味特徴のt-1番目の時間ステップにおける重みを取得する。
第1の生成サブモジュールは、意味特徴集合における各意味特徴のt-1番目の時間ステップにおける重み、及び意味特徴集合に基づいて、t番目の時間ステップにおける意味アテンションベクトルを生成する。
1つの可能な態様では、該装置は、以下のモジュールをさらに含む。
第2の生成モジュールは、t番目の時間ステップにおいて、t-1番目の時間ステップにおける隠れ層ベクトル、及び視覚特徴集合に基づいて、t番目の時間ステップにおける視覚アテンションベクトルを生成する。
1つの可能な態様では、第2の生成モジュールは、以下のサブモジュールを含む。
第2の取得サブモジュールは、t-1番目の時間ステップにおける隠れ層ベクトル及び視覚特徴集合に基づいて、視覚特徴集合における各視覚特徴のt-1番目の時間ステップにおける重みを取得する。
第2の生成サブモジュールは、視覚特徴集合における各視覚特徴のt-1番目の時間ステップにおける重み、及び視覚特徴集合に基づいて、t番目の時間ステップにおける視覚アテンションベクトルを生成する。
1つの可能な態様では、特徴抽出モジュール1020は、以下のサブモジュールを含む。
第3の取得サブモジュールは、ターゲット画像の意味特徴ベクトルを取得する。
抽出サブモジュールは、意味特徴ベクトルに基づいて、ターゲット画像の意味特徴集合を抽出する。
1つの可能な態様では、抽出サブモジュールは、以下の各部を含む。
属性語抽出部は、意味特徴ベクトルに基づいて、語彙ライブラリからターゲット画像に対応する属性語集合を抽出する。該属性語集合は、ターゲット画像を記述するための候補記述語の集合である。
意味特徴抽出部は、属性語集合に対応する語ベクトル集合を、ターゲット画像の意味特徴集合として取得する。
1つの可能な態様では、属性語抽出部は、意味特徴ベクトルに基づいて、語彙ライブラリにおける各語彙のマッチング確率を取得する。該マッチング確率は、語彙ライブラリにおける語彙とターゲット画像とが合致する確率である。
属性語抽出部は、語彙ライブラリから、マッチング確率がマッチング確率閾値よりも大きい語彙を候補記述語として抽出し、属性語集合を構成する。
1つの可能な態様では、属性語抽出部は、意味特徴ベクトルを語彙検出器に入力し、語彙検出器により意味特徴ベクトルに基づいて語彙ライブラリから抽出された属性語集合を取得する。
ここで、語彙検出器は、マルチインスタンス学習の弱教師あり学習により得られた語彙検出モデルである。
1つの可能な態様では、特徴抽出モジュール1020がターゲット画像の視覚特徴集合を抽出する前に、該装置は、以下のモジュールをさらに含む。
サブ領域分割モジュール、ターゲット画像に対してサブ領域分割を行い、少なくとも1つのサブ領域を取得する。
特徴抽出モジュール1020は、少なくとも1つのサブ領域の視覚特徴をそれぞれ抽出し、視覚特徴集合を構成する。
上述したように、本発明の実施例に係る情報生成装置は、ターゲット画像の意味特徴集合及び視覚特徴集合をそれぞれ抽出し、n個の時間ステップにおいて意味特徴と視覚特徴とに対してアテンション融合を行い、コンピュータ機器が画像キャプション情報を生成するための各時間ステップにおいて、ターゲット画像の視覚特徴と語義特徴との前の時間ステップにおける出力結果の総合作用に基づいて、現在の時間ステップにおけるターゲット画像の記述語を生成して、ターゲット画像に対応する画像キャプション情報を生成する。これによって、画像キャプション情報を生成するプロセスにおいて、視覚特徴の視覚語彙を生成する際の優位性と、意味特徴の非視覚特徴を生成する際の優位性とが互いに補完し合い、画像キャプション情報の生成の正確性を向上させることができる。
図11は、本発明の1つの例示的な実施例に係るコンピュータ機器1100の構成を示すブロック図である。該コンピュータ機器は、本発明の上述の実施形態におけるサーバとして実現されてもよい。コンピュータ機器1100は、中央処理ユニット(Central Processing Unit:CPU)1101、ランダムアクセスメモリ(Random Access Memory:RAM)1102及び読み取り専用メモリ(Read-Only Memory:ROM)1103を含むシステムメモリ1104、並びにシステムメモリ1104及び中央処理ユニット1101に接続されるシステムバス1105を含む。コンピュータ機器1100は、オペレーティングシステム1109、アプリケーションプログラム1110、及び他のプログラムモジュール1111を記憶するための大容量記憶装置1106も含む。
なお、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体及び通信媒体を含んでもよい。コンピュータ記憶媒体は、RAM、ROM、消去可能プログラム可能読み取り専用メモリ(Erasable Programmable Read-Only Memory:EPROM)、電気的消去可能プログラム可能読み取り専用メモリ(Electrically Erasable Programmable Read-Only Memory:EEPROM)、フラッシュメモリ又はその他のソリッドステートストレージテクノロジ、CD-ROM、デジタル多用途ディスク(Digital Versatile Disc:DVD)又はその他の光ストレージ、テープカートリッジ、磁気テープ、ディスクストレージ、又はその他の磁気ストレージデバイスを含む。なお、当業者が分かるように、コンピュータ記憶媒体は上記のものに限定されない。上記のシステムメモリ1104及び大容量記憶装置1106は、メモリと総称されてもよい。
該メモリには、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、該少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットは、上記の各実施例に係る情報生成方法におけるステップの全部又は一部を実現するように、中央処理ユニット1101により実行される。
図12は、本発明の1つの例示的な実施例に係るコンピュータ機器1200の構成を示すブロック図である。コンピュータ機器1200は、上述した顔品質の評価装置及び/又は品質評価モデルの訓練装置、例えばスマートフォン、タブレットコンピュータ、ラップトップコンピュータ又はデスクトップコンピュータとして実現されてもよい。コンピュータ機器1200は、端末装置、携帯型端末、ラップトップ端末、デスクトップ端末などの他の名称と称されてもよい。
通常、コンピュータ機器1200は、プロセッサ1201及びメモリ1202を含む。
プロセッサ1201は、1つ又は複数の処理コアを含んでもよい。
メモリ1202は、1つ又は複数のコンピュータ読み取り可能な記憶媒体を含んでもよく、該コンピュータ読み取り可能な記憶媒体は、有形で非一時的であってもよい。幾つかの実施例では、メモリ1202における非一時的なコンピュータ読み取り可能な記憶媒体は、少なくとも1つの命令が記憶され、該少なくとも1つの命令は、本発明の方法の実施例に係る情報生成方法を実現するように、プロセッサ1201により実行されるために使用される。
幾つかの実施例では、コンピュータ機器1200は、好ましくは、周辺機器インターフェース1203及び少なくとも1つの周辺機器をさらに含んでもよい。プロセッサ1201とメモリ1202と周辺機器インターフェース1203とは、バス又は信号線を介して接続することができる。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インターフェース1203に接続することができる。具体的には、周辺機器は、無線周波数回路1204、表示スクリーン1205、カメラコンポーネント1206、オーディオ回路1207、及び電源1208のうちの少なくとも1つを含む。
幾つかの実施例では、コンピュータ機器1200は、1つ又は複数のセンサ1209をさらに含む。該1つ又は複数のセンサ1209は、加速度センサ1210、ジャイロスコープセンサ1211、圧力センサ1212、光学センサ1213、及び近接センサ1214を含むが、これらに限定されない。
なお、当業者が理解できるように、コンピュータ機器1200は、図12に示す構成に限定されず、図示されているものより多く、又は少ない構成要素を含んでもよいし、特定の構成要素を組み合わせてもよいし、異なる構成要素の配置を採用してもよい。
1つの例示的な実施例では、少なくとも1つのコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体をさらに提供する。該コンピュータプログラムは、上記の情報生成方法におけるステップの全部又は一部を実現するように、プロセッサによりロードされて実行される。例えば、該コンピュータで読み取り可能な記憶媒体は、ROM(Read-Only Memory:読み取り専用メモリ)、RAM(Random-Access Memory:ランダムアクセスメモリ)、CD-ROM(Compact Disc Read-Only Memory:コンパクトディスク読み取り専用メモリ)、磁気テープ、フロッピーディスク、光データストレージデバイスなどを含む。
1つの例示的な実施例では、少なくとも1つのコンピュータプログラムを含むコンピュータプログラムプロダクトをさらに提供する。該コンピュータプログラムは、上記の図2、図6又は図7の何れかの実施例に係る方法におけるステップの全部又は一部を実現するように、プロセッサによりロードされて実行される。
Claims (20)
- コンピュータ機器が実行する情報生成方法であって、
ターゲット画像を取得するステップと、
前記ターゲット画像の意味特徴集合を抽出し、前記ターゲット画像の視覚特徴集合を抽出するステップと、
n個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記n個の時間ステップにおける記述語を取得するステップであって、前記アテンション融合のプロセスのt番目の時間ステップにおける入力は、前記t番目の時間ステップにおける意味アテンションベクトル、前記t番目の時間ステップにおける視覚アテンションベクトル、及び前記アテンション融合のプロセスのt-1番目の時間ステップにおける出力結果を含み、前記t番目の時間ステップにおける前記意味アテンションベクトルは、前記t番目の時間ステップにおいて前記意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記t番目の時間ステップにおける前記視覚アテンションベクトルは、前記t番目の時間ステップにおいて前記視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記アテンション融合のプロセスの前記t-1番目の時間ステップにおける出力結果は、前記t-1番目の時間ステップにおける記述語を示すために使用され、前記t番目の時間ステップは、前記n個の時間ステップのうちの何れかであり、1≦t≦n、t及びnは何れも正の整数である、ステップと、
前記ターゲット画像の前記n個の時間ステップにおける記述語に基づいて、前記ターゲット画像の画像キャプション情報を生成するステップと、を含む、方法。 - 前記n個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記n個の時間ステップにおける記述語を取得するステップは、
情報生成モデルにおけるアテンション融合ネットワークにより、n個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記n個の時間ステップにおける記述語を取得するステップ、を含む、請求項1に記載の方法。 - 前記情報生成モデルにおけるアテンション融合ネットワークにより、n個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記n個の時間ステップにおける記述語を取得するステップは、
前記t番目の時間ステップにおいて、前記t番目の時間ステップにおける前記意味アテンションベクトル、前記t番目の時間ステップにおける前記視覚アテンションベクトル、前記t-1番目の時間ステップにおける隠れ層ベクトル、及び前記アテンション融合ネットワークのt-1番目の時間ステップにおける出力結果を前記アテンション融合ネットワークに入力し、前記アテンション融合ネットワークの前記t番目の時間ステップにおける出力結果、及び前記t番目の時間ステップにおける前記隠れ層ベクトルを取得するステップ、又は、
前記t番目の時間ステップにおいて、前記t番目の時間ステップにおける前記意味アテンションベクトル、前記t番目の時間ステップにおける前記視覚アテンションベクトル、及び前記アテンション融合ネットワークのt-1番目の時間ステップにおける出力結果を前記アテンション融合ネットワークに入力し、前記アテンション融合ネットワークの前記t番目の時間ステップにおける出力結果、及び前記t番目の時間ステップにおける前記隠れ層ベクトルを取得するステップ、を含む、請求項2に記載の方法。 - 前記アテンション融合ネットワークには、ハイパーパラメータが設定され、
前記ハイパーパラメータは、前記アテンション融合ネットワークにおける前記視覚アテンションベクトル及び前記意味アテンションベクトルのそれぞれの重みを示す、請求項2又は3に記載の方法。 - 前記t番目の時間ステップにおいて、前記t-1番目の時間ステップにおける前記隠れ層ベクトル、及び前記意味特徴集合に基づいて、前記t番目の時間ステップにおける前記意味アテンションベクトルを生成するステップ、をさらに含む、請求項3に記載の方法。
- 前記t番目の時間ステップにおいて、前記t-1番目の時間ステップにおける前記隠れ層ベクトル、及び前記意味特徴集合に基づいて、前記t番目の時間ステップにおける前記意味アテンションベクトルを生成するステップは、
前記t-1番目の時間ステップにおける前記隠れ層ベクトル及び前記意味特徴集合に基づいて、前記意味特徴集合における各意味特徴の前記t-1番目の時間ステップにおける重みを取得するステップと、
前記意味特徴集合における各意味特徴の前記t-1番目の時間ステップにおける重み、及び前記意味特徴集合に基づいて、前記t番目の時間ステップにおける前記意味アテンションベクトルを生成するステップと、を含む、請求項5に記載の方法。 - 前記t番目の時間ステップにおいて、前記t-1番目の時間ステップにおける前記隠れ層ベクトル、及び視覚特徴集合に基づいて、前記t番目の時間ステップにおける前記視覚アテンションベクトルを生成するステップ、をさらに含む、請求項3に記載の方法。
- 前記t番目の時間ステップにおいて、前記t-1番目の時間ステップにおける前記隠れ層ベクトル、及び視覚特徴集合に基づいて、前記t番目の時間ステップにおける前記視覚アテンションベクトルを生成するステップは、
前記t-1番目の時間ステップにおける前記隠れ層ベクトル及び前記視覚特徴集合に基づいて、前記視覚特徴集合における各視覚特徴の前記t-1番目の時間ステップにおける重みを取得するステップと、
前記視覚特徴集合における各視覚特徴の前記t-1番目の時間ステップにおける重み、及び前記視覚特徴集合に基づいて、前記t番目の時間ステップにおける前記視覚アテンションベクトルを生成するステップと、を含む、請求項7に記載の方法。 - 前記ターゲット画像の意味特徴集合を抽出するステップは、
前記ターゲット画像の意味特徴ベクトルを取得するステップと、
前記意味特徴ベクトルに基づいて、前記ターゲット画像の前記意味特徴集合を抽出するステップと、を含む、請求項1乃至8の何れかに記載の方法。 - 前記意味特徴ベクトルに基づいて、前記ターゲット画像の前記意味特徴集合を抽出するステップは、
前記意味特徴ベクトルに基づいて、語彙ライブラリから前記ターゲット画像に対応する属性語集合を抽出するステップであって、前記属性語集合は、前記ターゲット画像を記述するための候補記述語の集合である、ステップと、
前記属性語集合に対応する語ベクトル集合を、前記ターゲット画像の前記意味特徴集合として取得するステップと、を含む、請求項9に記載の方法。 - 前記意味特徴ベクトルに基づいて、語彙ライブラリから前記ターゲット画像に対応する属性語集合を抽出するステップは、
前記意味特徴ベクトルに基づいて、前記語彙ライブラリにおける各語彙のマッチング確率を取得するステップであって、前記マッチング確率は、前記語彙ライブラリにおける語彙と前記ターゲット画像とが合致する確率である、ステップと、
前記語彙ライブラリから、前記マッチング確率がマッチング確率閾値よりも大きい語彙を前記候補記述語として抽出し、前記属性語集合を構成するステップと、を含む、請求項10に記載の方法。 - 前記意味特徴ベクトルに基づいて、語彙ライブラリから前記ターゲット画像に対応する属性語集合を抽出するステップは、
前記意味特徴ベクトルを語彙検出器に入力し、前記語彙検出器により前記意味特徴ベクトルに基づいて前記語彙ライブラリから抽出された前記属性語集合を取得するステップ、を含み、
前記語彙検出器は、マルチインスタンス学習の弱教師あり学習により得られた語彙検出モデルである、請求項10に記載の方法。 - 前記ターゲット画像の視覚特徴集合を抽出する前に、
前記ターゲット画像に対してサブ領域分割を行い、少なくとも1つのサブ領域を取得するステップ、をさらに含み、
前記ターゲット画像の視覚特徴集合を抽出するステップは、
前記少なくとも1つのサブ領域の視覚特徴をそれぞれ抽出し、前記視覚特徴集合を構成するステップ、を含む、請求項1乃至12の何れかに記載の方法。 - 情報生成装置であって、
ターゲット画像を取得する画像取得モジュールと、
前記ターゲット画像の意味特徴集合を抽出し、前記ターゲット画像の視覚特徴集合を抽出する特徴抽出モジュールと、
n個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記n個の時間ステップにおける記述語を取得する記述語取得モジュールであって、前記アテンション融合のプロセスのt番目の時間ステップにおける入力は、前記t番目の時間ステップにおける意味アテンションベクトル、前記t番目の時間ステップにおける視覚アテンションベクトル、及び前記アテンション融合のプロセスのt-1番目の時間ステップにおける出力結果を含み、前記t番目の時間ステップにおける前記意味アテンションベクトルは、前記t番目の時間ステップにおいて前記意味特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記t番目の時間ステップにおける前記視覚アテンションベクトルは、前記t番目の時間ステップにおいて前記視覚特徴集合に対してアテンションメカニズム処理を行うことによって得られ、前記アテンション融合のプロセスの前記t-1番目の時間ステップにおける出力結果は、前記t-1番目の時間ステップにおける記述語を示すために使用され、前記t番目の時間ステップは、前記n個の時間ステップのうちの何れかであり、1≦t≦n、t及びnは何れも正の整数である、記述語取得モジュールと、
前記ターゲット画像の前記n個の時間ステップにおける記述語に基づいて、前記ターゲット画像の画像キャプション情報を生成する情報生成モジュールと、を含む、装置。 - 前記記述語取得モジュールは、
情報生成モデルにおけるアテンション融合ネットワークにより、n個の時間ステップにおいて前記ターゲット画像の意味特徴と前記ターゲット画像の視覚特徴とに対してアテンション融合を行い、前記n個の時間ステップにおける記述語を取得する、請求項14に記載の装置。 - 前記記述語取得モジュールは、
前記t番目の時間ステップにおいて、前記t番目の時間ステップにおける前記意味アテンションベクトル、前記t番目の時間ステップにおける前記視覚アテンションベクトル、前記t-1番目の時間ステップにおける隠れ層ベクトル、及び前記アテンション融合ネットワークのt-1番目の時間ステップにおける出力結果を前記アテンション融合ネットワークに入力し、前記アテンション融合ネットワークの前記t番目の時間ステップにおける出力結果、及び前記t番目の時間ステップにおける前記隠れ層ベクトルを取得し、或いは、
前記t番目の時間ステップにおいて、前記t番目の時間ステップにおける前記意味アテンションベクトル、前記t番目の時間ステップにおける前記視覚アテンションベクトル、及び前記アテンション融合ネットワークのt-1番目の時間ステップにおける出力結果を前記アテンション融合ネットワークに入力し、前記アテンション融合ネットワークの前記t番目の時間ステップにおける出力結果、及び前記t番目の時間ステップにおける前記隠れ層ベクトルを取得する、請求項15に記載の装置。 - 前記アテンション融合ネットワークには、ハイパーパラメータが設定され、
前記ハイパーパラメータは、前記アテンション融合ネットワークにおける前記視覚アテンションベクトル及び前記意味アテンションベクトルのそれぞれの重みを示す、請求項15又は16に記載の装置。 - プロセッサと、少なくとも1つのコンピュータプログラムが記憶されたメモリと、を含むコンピュータ機器であって、前記コンピュータプログラムは、請求項1乃至13の何れかに記載の情報生成方法を実現するように、前記プロセッサによりロードされて実行される、コンピュータ機器。
- 少なくとも1つのコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、請求項1乃至13の何れかに記載の情報生成方法を実現するように、プロセッサによりロードされて実行される、記憶媒体。
- 請求項1乃至13の何れかに記載の情報生成方法を実現するように、プロセッサによりロードされて実行される、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110126753.7A CN113569892A (zh) | 2021-01-29 | 2021-01-29 | 图像描述信息生成方法、装置、计算机设备及存储介质 |
CN202110126753.7 | 2021-01-29 | ||
PCT/CN2022/073372 WO2022161298A1 (zh) | 2021-01-29 | 2022-01-24 | 信息生成方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023545543A true JP2023545543A (ja) | 2023-10-30 |
Family
ID=78161062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023523236A Pending JP2023545543A (ja) | 2021-01-29 | 2022-01-24 | 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230103340A1 (ja) |
JP (1) | JP2023545543A (ja) |
CN (1) | CN113569892A (ja) |
WO (1) | WO2022161298A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569892A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像描述信息生成方法、装置、计算机设备及存储介质 |
CN114627353B (zh) * | 2022-03-21 | 2023-12-12 | 北京有竹居网络技术有限公司 | 一种图像描述生成方法、装置、设备、介质及产品 |
CN114693790B (zh) * | 2022-04-02 | 2022-11-18 | 江西财经大学 | 基于混合注意力机制的自动图像描述方法与系统 |
CN117237834A (zh) * | 2022-06-08 | 2023-12-15 | 华为技术有限公司 | 图像描述方法、电子设备及计算机可读存储介质 |
CN115238111B (zh) * | 2022-06-15 | 2023-11-14 | 荣耀终端有限公司 | 一种图片显示方法及电子设备 |
CN115687674A (zh) * | 2022-12-20 | 2023-02-03 | 昆明勤砖晟信息科技有限公司 | 服务于智慧云服务平台的大数据需求分析方法及系统 |
CN116416440B (zh) * | 2023-01-13 | 2024-02-06 | 北京百度网讯科技有限公司 | 目标识别方法、模型训练方法、装置、介质和电子设备 |
CN116453120B (zh) * | 2023-04-19 | 2024-04-05 | 浪潮智慧科技有限公司 | 基于时序场景图注意力机制的图像描述方法、设备及介质 |
CN116388184B (zh) * | 2023-06-05 | 2023-08-15 | 南京信息工程大学 | 一种基于风速日波动特征的超短期风速修订方法、系统 |
CN117454016B (zh) * | 2023-12-21 | 2024-03-15 | 深圳须弥云图空间科技有限公司 | 基于改进点击预测模型的对象推荐方法及装置 |
CN117742546B (zh) * | 2023-12-29 | 2024-06-18 | 广东福临门世家智能家居有限公司 | 基于悬浮窗的智能家居控制方法及系统 |
CN117830812A (zh) * | 2023-12-29 | 2024-04-05 | 暗物质(北京)智能科技有限公司 | 一种基于场景图子图的图像描述生成方法和系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943B (zh) * | 2017-09-08 | 2020-07-28 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN107563498B (zh) * | 2017-09-08 | 2020-07-14 | 中国石油大学(华东) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 |
US11210572B2 (en) * | 2018-12-17 | 2021-12-28 | Sri International | Aligning symbols and objects using co-attention for understanding visual content |
CN110472642B (zh) * | 2019-08-19 | 2022-02-01 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN113569892A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像描述信息生成方法、装置、计算机设备及存储介质 |
-
2021
- 2021-01-29 CN CN202110126753.7A patent/CN113569892A/zh active Pending
-
2022
- 2022-01-24 WO PCT/CN2022/073372 patent/WO2022161298A1/zh active Application Filing
- 2022-01-24 JP JP2023523236A patent/JP2023545543A/ja active Pending
- 2022-11-29 US US18/071,481 patent/US20230103340A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022161298A1 (zh) | 2022-08-04 |
CN113569892A (zh) | 2021-10-29 |
US20230103340A1 (en) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023545543A (ja) | 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム | |
US20220180202A1 (en) | Text processing model training method, and text processing method and apparatus | |
JP6916383B2 (ja) | 画像質問応答方法、装置、システムおよび記憶媒体 | |
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
JP7179183B2 (ja) | ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム | |
US12008810B2 (en) | Video sequence selection method, computer device, and storage medium | |
WO2022095380A1 (zh) | 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
WO2020199904A1 (zh) | 视频描述信息的生成方法、视频处理方法、相应的装置 | |
US20200371741A1 (en) | Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium | |
EP3885966B1 (en) | Method and device for generating natural language description information | |
CN111611436A (zh) | 一种标签数据处理方法、装置以及计算机可读存储介质 | |
WO2024000867A1 (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
CN113421547A (zh) | 一种语音处理方法及相关设备 | |
JP2022075668A (ja) | ビデオ処理方法、装置、デバイスおよび記憶媒体 | |
CN116306603A (zh) | 标题生成模型的训练方法和标题生成方法、装置和介质 | |
CN111126084A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN112785669B (zh) | 一种虚拟形象合成方法、装置、设备及存储介质 | |
US20230326369A1 (en) | Method and apparatus for generating sign language video, computer device, and storage medium | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
CN116662496A (zh) | 信息抽取方法、训练问答处理模型的方法及装置 | |
CN114970494A (zh) | 一种评论生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240123 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240418 |