JP2020149685A - Visual question answering model, electronic device, and storage medium - Google Patents

Visual question answering model, electronic device, and storage medium Download PDF

Info

Publication number
JP2020149685A
JP2020149685A JP2020041593A JP2020041593A JP2020149685A JP 2020149685 A JP2020149685 A JP 2020149685A JP 2020041593 A JP2020041593 A JP 2020041593A JP 2020041593 A JP2020041593 A JP 2020041593A JP 2020149685 A JP2020149685 A JP 2020149685A
Authority
JP
Japan
Prior art keywords
text
model
question
word vector
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020041593A
Other languages
Japanese (ja)
Inventor
ジャンフィ ファン,
Jianhui Huang
ジャンフィ ファン,
ミン キャオ,
Min Qiao
ミン キャオ,
ピンピン ファン,
Pingping Huang
ピンピン ファン,
ヨン チュウ,
Yong Zhu
ヨン チュウ,
ヤジュアン リュウ,
Yajuan Lyu
ヤジュアン リュウ,
イン リ,
Ying Li
イン リ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020149685A publication Critical patent/JP2020149685A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

To provide a visual question answering model, an electronic device, and a storage medium, which enable visual question answering by combining image information and text question information.SOLUTION: A visual question answering model is provided, including: a text encoder configured to perform pooling on a word vector sequence of an entered question text to extract a semantic representation vector of the question text; and an image encoder configured to extract an image feature of a given image in combination with the semantic representation vector.SELECTED DRAWING: Figure 1

Description

本発明の実施例は、人工知能技術の分野に関し、詳細には、視覚的質問応答モデル、電子機器、および記憶媒体に関する。 Examples of the present invention relate to the field of artificial intelligence technology, and more specifically to visual question answering models, electronic devices, and storage media.

視覚的質問応答(Visual Question Answering、以下、VQAと略称する)は、マルチモダリティ融合の典型的なアプリケーションである。例えば、所定画像について、画像には赤い服を着ている打者がいて、「what color shirt is the batter wearing」という関連質問をされると、VQAシステムは、画像情報とテキスト質問情報とを組み合わせて、回答を「red」として予測する必要がある。この処理では、主に画像とテキストとのセマンティック特徴の抽出、および抽出された画像とテキストとの2つのモダリティの特徴に対する融合を行うため、VQA関連モデルのコーディング部分は、主にテキストエンコーダと画像エンコーダとで構成される。 Visual Question Answering (hereinafter abbreviated as VQA) is a typical application for multi-modality fusion. For example, for a given image, when a batter dressed in red is asked the related question "what color shirt is the batter waering", the VQA system combines the image information with the text question information. , The answer needs to be predicted as "red". In this process, the semantic features of the image and the text are mainly extracted, and the extracted image and the text are fused for the two modality features. Therefore, the coding part of the VQA-related model is mainly the text encoder and the image. It consists of an encoder.

しかしながら、画像エンコーダとテキストエンコーダとの両方を同時に使用する必要があるため、VQAモデルには、多くのトレーニングする必要があるパラメータが含まれている場合が多いため、モデルのトレーニング時間が非常に長くなる。したがって、モデルの精度が大きく低下せずに工学上よりモデルを簡素化してモデルのトレーニング効率を向上するかは、現在解決する必要がある技術的な問題になっている。 However, because both the image encoder and the text encoder need to be used at the same time, the VQA model often contains a lot of parameters that need to be trained, so the training time of the model is very long. Become. Therefore, whether to simplify the model from the engineering point of view and improve the training efficiency of the model without significantly reducing the accuracy of the model is a technical problem that needs to be solved at present.

本発明の実施例は、視覚的質問応答モデルの精度が大きく低下せずに工学上よりモデルを簡素化して視覚的質問応答モデルのトレーニング効率を向上させることを達成する視覚的質問応答モデル、電子機器および記憶媒体を提供する。 An embodiment of the present invention achieves to improve the training efficiency of a visual question answering model by simplifying the model from an engineering point of view without significantly reducing the accuracy of the visual question answering model. Provides equipment and storage media.

第1の側面では、本発明の実施例は、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダと、前記セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するための画像エンコーダと、を備える視覚的質問応答モデルを提供する。 In the first aspect, an embodiment of the present invention combines a text encoder for pooling a word vector sequence of input question text to extract a semantic expression vector of the question text and the semantic expression vector. Provided is a visual question-and-answer model including an image encoder for extracting image features of a predetermined image.

第2の側面では、本発明の実施例は、電子機器をさらに提供し、前記電子機器が、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶するためのメモリとを備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行される場合、前記1つまたは複数のプロセッサが本発明のいずれかの実施例に記載の視覚的質問応答モデルを実行する。 In a second aspect, embodiments of the present invention further provide an electronic device, wherein the electronic device comprises one or more processors and a memory for storing one or more programs. When one or more programs are executed by the one or more processors, the one or more processors execute the visual question-and-answer model described in any of the embodiments of the present invention.

第3の態様では、本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該プログラムがプロセッサによって実行される場合、本発明のいずれかの実施例に記載の視覚的質問応答モデルが実行される。 In a third aspect, an embodiment of the present invention provides a computer-readable storage medium in which a computer program is stored, and if the program is executed by a processor, it is described in any of the embodiments of the present invention. Visual question answering model is executed.

本発明の実施例は、視覚的質問応答モデル、電子機器、および記憶媒体を提供する。視覚的質問応答モデルは、テキストベクトルをプーリング処理方式でエンコードすることにより、視覚的質問応答モデルを簡素化する目的を達成するとともに、プーリング処理という簡単なコーディング方式により、視覚的質問応答モデルでトレーニングする必要があるパラメータの数を減らし、視覚的質問応答モデルのトレーニング効率を効果的に向上させ、工学的利用に有益である。 The embodiments of the present invention provide a visual question answering model, electronic devices, and storage media. The visual question answering model achieves the purpose of simplifying the visual question answering model by encoding the text vector in a pooling process, and trains in the visual question answering model by a simple coding method called pooling process. It reduces the number of parameters that need to be done, effectively improves the training efficiency of the visual question answering model, and is beneficial for engineering use.

本発明の実施例1に係る視覚的質問応答モデルの概略構成図である。It is a schematic block diagram of the visual question answering model which concerns on Example 1 of this invention. 本発明の実施例2に係る別の視覚的質問応答モデルの概略構成図である。It is a schematic block diagram of another visual question answering model which concerns on Example 2 of this invention. 本発明の実施例3に係る電子機器の概略構成図である。It is a schematic block diagram of the electronic device which concerns on Example 3 of this invention.

以下、図面および実施例を参照して、本発明をさらに詳細に説明する。本明細書に記載される具体的な実施例は、単に本発明を解釈するためのものであり、本発明を限定するものではないことを理解されたい。なお、説明を簡潔にするために、本発明に関連する構成のすべてではなく、一部のみが図面に示されている。 Hereinafter, the present invention will be described in more detail with reference to the drawings and examples. It should be understood that the specific examples described herein are merely for the purpose of interpreting the present invention and are not intended to limit the present invention. For the sake of brevity, only some, but not all, of the configurations relating to the present invention are shown in the drawings.

実施例1
図1は、本発明の実施例1に係る視覚的質問応答モデルである。本実施例は、視覚的質問応答モデルを簡素化することにより、視覚的質問応答モデルのトレーニング効率を向上させ、当該モデルは、コンピュータ端末またはサーバのような電子機器で実行することができる。
Example 1
FIG. 1 is a visual question answering model according to the first embodiment of the present invention. This embodiment improves the training efficiency of the visual question-and-answer model by simplifying the visual question-and-answer model, which can be run on an electronic device such as a computer terminal or server.

図1に示すように、本発明の実施例に係る視覚的質問応答モデルは、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダを備えてもよい。 As shown in FIG. 1, the visual question answering model according to the embodiment of the present invention is a text encoder for pooling the word vector sequence of the input question text and extracting the semantic expression vector of the question text. May be provided.

ここで、質問テキストをエンコードする前に、質問テキストを予め処理する必要がある。例として、質問テキストをword2vecモデルまたはgloveモデルで処理して、当該質問テキストに対応する単語ベクトルシーケンスを取得する。質問テキストをエンコードするには、当該質問テキストに対応する単語ベクトルシーケンスをテキストエンコーダに入力し、テキストエンコーダによって質問テキストの単語ベクトルシーケンスをプーリング処理して、質問テキストのセマンティック表現ベクトルを抽出することができる。なお、従来技術では、LSTM(Long Short−Term Memory、長・短期記憶)モデルまたはBi−LSTM(Bi−directional Long Short−Term Memory、双方向LSTM)モデルがテキストエンコーダとして使用されているが、本願では、テキストエンコーダとしてLSTMモデルまたはBi−LSTMモデルの代わりにプーリング処理が使用されるので、視覚的質問応答モデルが簡素化される。 Here, the question text needs to be pre-processed before it can be encoded. As an example, the question text is processed by the word2vec model or the grow model to obtain the word vector sequence corresponding to the question text. To encode the question text, the word vector sequence corresponding to the question text can be input to the text encoder, and the word vector sequence of the question text can be pooled by the text encoder to extract the semantic expression vector of the question text. it can. In the prior art, an LSTM (Long Short-Term Memory, long / short-term memory) model or a Bi-LSTM (Bi-directional Long Short-Term Memory, bidirectional LSTM) model is used as a text encoder. In, the pooling process is used instead of the LSTM model or Bi-LSTM model as the text encoder, which simplifies the visual question-and-answer model.

この実施例では、プーリング処理は、最大化プーリング(maxPooling)処理であり、前記最大化プーリング処理は、次の式で表される。
f(w1,w2,...,wk)=max([w1,w2,...,wk],dim=1)
In this embodiment, the pooling process is a max Pooling process, and the maximize pooling process is represented by the following equation.
f (w1, w2, ..., wk) = max ([w1, w2, ..., wk], dim = 1)

ただし、fは最大化プーリング処理関数を表し、kは前記質問テキストに含まれる単語ベクトルの数であり、wiは、予めトレーニングされた単語ベクトルモデルを利用して前記質問テキストを処理することによって得られたi番目の単語ベクトルであり、iは[1,k]内の自然数であり、max([w1,w2,...、wk],dim=1)は単語ベクトルw1,w2,...,wkにおける各単語ベクトルに対応する次元の最大値を表し、、dim=1は次元を指し、つまり、所定の2次元行列について、行ごとに値を取ることを表す。 Where f represents the maximized pooling processing function, k is the number of word vectors contained in the question text, and wi is obtained by processing the question text using a pre-trained word vector model. Is the i-th word vector obtained, i is a natural number in [1, k], and max ([w1, w2, ..., wk], dim = 1) is the word vector w1, w2, .. It represents the maximum value of the dimension corresponding to each word vector in., Wk, and dim = 1 indicates a dimension, that is, it represents taking a value for each row in a predetermined two-dimensional matrix.

例として、1つの質問テキストの単語ベクトルシーケンスは、

Figure 2020149685
であり、上記の式によって当該単語ベクトルシーケンスを最大化プーリング処理して、
Figure 2020149685
を得るため、
Figure 2020149685
は、当該質問テキストのセマンティック表現ベクトルである。したがって、最大化プーリング処理することにより、視覚的質問応答モデルにおけるトレーニングする必要があるパラメータの数を削減し、視覚的質問応答モデルのトレーニング効率を向上させることができる。 As an example, a word vector sequence of one question text
Figure 2020149685
The word vector sequence is maximized and pooled by the above equation.
Figure 2020149685
To get
Figure 2020149685
Is the semantic representation vector of the question text. Therefore, the maximized pooling process can reduce the number of parameters that need to be trained in the visual question answering model and improve the training efficiency of the visual question answering model.

また、本発明の実施例の視覚的質問応答モデルにおける画像エンコーダは、セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するために使用される。 In addition, the image encoder in the visual question answering model of the embodiment of the present invention is used in combination with a semantic expression vector to extract image features of a predetermined image.

画像には背景および豊富なコンテンツが含まれているため、マシンが質問に関連する画像コンテンツに注意を払うことを確保し、質問の回答の精度を向上させるために、視覚的注意力メカニズム(図1中のAttention)を採用することができる。Attentionメカニズムを介して、画像エンコーダは、テキストエンコーダによって取得された質問テキストに対応するセマンティック表現ベクトルを組み合わせることにより、当該セマンティック表現ベクトルに最も関連する画像コンテンツを絞り、当該画像コンテンツの画像特徴を抽出して画像特徴ベクトルを取得することができる。Faster RCNNモデルのような畳み込みニューラルネットワークモデルを採用することができる。 The image contains background and rich content, so a visual attention mechanism (figure) to ensure that the machine pays attention to the image content related to the question and to improve the accuracy of answering the question. Attention in 1) can be adopted. Through the attachment mechanism, the image encoder narrows down the image content most related to the semantic expression vector by combining the semantic expression vectors corresponding to the question text acquired by the text encoder, and extracts the image features of the image content. The image feature vector can be obtained. A convolutional neural network model such as the Faster RCNN model can be adopted.

さらに、図1に示すように、当該視覚的質問応答モデルは、異なるモダリティの特徴を融合するための特徴融合器(fusion)をさらに備え、この実施例では、特徴融合器は、画像エンコーダによって出力された画像特徴ベクトルとテキストエンコーダによって出力されたセマンティック表現ベクトルとを融合する。例として、画像特徴ベクトルとセマンティック表現ベクトルとをドット積によって融合することができる。 Further, as shown in FIG. 1, the visual question-and-answer model further comprises a feature fusion for fusing features of different modality, and in this embodiment, the feature fusion is output by an image encoder. The resulting image feature vector and the semantic representation vector output by the text encoder are fused. As an example, the image feature vector and the semantic representation vector can be fused by the dot product.

当該視覚的質問応答モデルは、分類器をさらに備え、前記分類器は、上記の特徴融合器によって出力されたベクトルをsoftmax関数(正規化指数関数とも呼ばれる)によって数値的に処理して、異なる回答間の相対確率を取得し、相対確率最大値に対応する回答を出力する。 The visual question-and-answer model further comprises a classifier, which numerically processes the vector output by the feature fusion device by a softmax function (also called a normalized exponential function) to provide different answers. The relative probability between them is acquired, and the answer corresponding to the maximum relative probability is output.

上記の視覚的質問応答モデルについて、具体的な一実施形態において、スタンフォード人工知能研究所によってリリースされたデータセットVisual Genomeをトレーニングサンプルデータおよび検証データとし、トレーニングサンプルデータおよび検証データを2:1の比例でランダムに配分して、当該視覚的質問応答モデルをトレーニングおよび検証することができる。当該データセットの具体的なデータ統計を表1に示す。各画像には一定数の質問が含まれ、所定回答が人工によってラベル付けられる。 Regarding the above visual question answering model, in one specific embodiment, the dataset Visual Genome released by Stanford University Centers for Artificial Intelligence is used as training sample data and validation data, and the training sample data and validation data are 2: 1. The visual question answering model can be trained and validated in proportion and randomly distributed. Table 1 shows specific data statistics for the dataset. Each image contains a fixed number of questions and a given answer is artificially labeled.

Figure 2020149685
Figure 2020149685

上記のデータを使用して本実施例に係る視覚的質問応答モデルをトレーニングおよび検証する。具体的には、P40クラスタで当該視覚的質問応答モデルを実行することができ、P40クラスタの環境構成およびモデルの基本パラメータを表2に示す。比較のために、同時にLSTMまたはBi-LSTMをテキストエンコーダとした従来技術の視覚的質問応答モデルをトレーニングおよび検証し、結果を表3に示す。 The above data will be used to train and validate the visual question answering model for this example. Specifically, the visual question answering model can be executed in the P40 cluster, and Table 2 shows the environment configuration of the P40 cluster and the basic parameters of the model. For comparison, we also trained and validated a prior art visual question answering model using LSTM or Bi-LSTM as a text encoder, and the results are shown in Table 3.

表3に示された検証結果から、テキストエンコーダとして最大化プーリング処理を採用する本発明の実施例の視覚的質問応答モデルは、テキストエンコーダとしてLSTMまたはBi-LSTMを採用する従来の視覚的質問応答モデルと比較して、予測精度が約0.5%だけ低下するが、モデルの実行時間が最大3時間短縮され、トレーニング効率が大幅に向上することがわかる。 From the verification results shown in Table 3, the visual question-and-answer model of the embodiment of the present invention that employs the maximized pooling process as the text encoder is a conventional visual question-and-answer model that employs LSTM or Bi-LSTM as the text encoder. It can be seen that the prediction accuracy is reduced by about 0.5% as compared with the model, but the execution time of the model is shortened by up to 3 hours, and the training efficiency is greatly improved.

Figure 2020149685
Figure 2020149685

Figure 2020149685
Figure 2020149685

本発明の実施例では、視覚的質問応答モデルは、テキストベクトルをプーリング処理方式でエンコードし、視覚的質問応答モデルを簡素化する目的を達成するとともに、プーリング処理という簡単なエンコーディング方式によって、視覚的質問応答モデルの予測精度が大きく低下せずに視覚的質問応答モデルのトレーニング効率を効果的に向上させることが実現され、工学的利用に有益である。 In the embodiment of the present invention, the visual question answering model encodes a text vector by a pooling process to achieve the purpose of simplifying the visual question answering model, and visually by a simple encoding method called pooling. It is possible to effectively improve the training efficiency of the visual question answering model without significantly reducing the prediction accuracy of the question answering model, which is useful for engineering use.

実施例2
図2は、この実施例に係る別の視覚的質問応答モデルの概略構成図である。図2に示すように、視覚的質問応答モデルは、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダを備える。
Example 2
FIG. 2 is a schematic configuration diagram of another visual question answering model according to this embodiment. As shown in FIG. 2, the visual question answering model includes a text encoder for pooling a word vector sequence of input question text to extract a semantic representation vector of the question text.

ここで、前記プーリング処理は、平均化プーリング処理であり、前記平均化プーリング処理(avgPooling)は、次の式で表すことができる。

Figure 2020149685
ただし、pは平均化プーリング処理関数を表し、kは前記質問テキストに含まれる単語ベクトルの数であり、wiは予めトレーニングされた単語ベクトルモデルを利用して前記質問テキストを処理することによって得られたi番目の単語ベクトルであり、iは[1,k]内の自然数であり、
Figure 2020149685
は、単語ベクトルw1,w2,...,wkにおける各単語ベクトルに対応する次元の値の合計を表す。 Here, the pooling process is an averaging pooling process, and the averaging pooling process (avgPooling) can be expressed by the following equation.
Figure 2020149685
Where p represents the averaging pooling processing function, k is the number of word vectors contained in the question text, and wi is obtained by processing the question text using a pre-trained word vector model. Is the i-th word vector, i is a natural number in [1, k],
Figure 2020149685
Represents the sum of the dimensional values corresponding to each word vector in the word vectors w1, w2, ..., Wk.

例として、1つの質問テキストの単語ベクトルシーケンスは、

Figure 2020149685
であり、上記の式によって当該単語ベクトルシーケンスを平均化プーリング処理して
Figure 2020149685
を得るので、
Figure 2020149685
は当該質問テキストのセマンティック表現ベクトルである。したがって、平均化プーリング処理によって、視覚的質問応答モデルにおけるトレーニングする必要があるパラメータの数を減らし、視覚的質問応答モデルのトレーニング効率を向上させることができる。 As an example, a word vector sequence of one question text
Figure 2020149685
The word vector sequence is averaged and pooled by the above formula.
Figure 2020149685
Because you get
Figure 2020149685
Is the semantic representation vector of the question text. Therefore, the averaging pooling process can reduce the number of parameters that need to be trained in the visual question answering model and improve the training efficiency of the visual question answering model.

また、本発明の実施例の視覚的質問応答モデルにおける画像エンコーダは、セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するために使用される。 In addition, the image encoder in the visual question answering model of the embodiment of the present invention is used in combination with a semantic expression vector to extract image features of a predetermined image.

さらに、視覚的質問応答モデルは、特徴融合器および分類器をさらに備え、前記特徴融合器および分類器の詳細については、前述した実施例を参照し、詳細はここでは再度説明しない。 Further, the visual question answering model further comprises a feature fusion device and a classifier, the details of the feature fusion device and the classifier will be referred to the above-described embodiment, and the details will not be described again here.

本実施例の視覚的質問応答モデルについて、前述した実施例のVisualGenomeデータセットを上記実施例で記載されたP40クラスタでトレーニングおよび検証し、同時にLSTMまたはBi-LSTMをテキストエンコーダとした従来技術の視覚的質問応答モデルをトレーニングおよび検証し、結果を表4に示す。 For the visual question answering model of this example, the Visual Genome dataset of the above-described example was trained and verified in the P40 cluster described in the above example, and at the same time, the visual sense of the prior art using LSTM or Bi-LSTM as a text encoder. The question answering model was trained and validated, and the results are shown in Table 4.

Figure 2020149685
Figure 2020149685

表4から、テキストエンコーダとして平均化プーリング処理を採用する本発明の実施例の視覚的質問応答モデルは、テキストエンコーダとしてLSTMまたはBi-LSTMを採用する従来の視覚的質問応答モデルと比較して、予測精度が約0.4%だけ低下するが、モデルの実行時間が最大2.4時間短縮され、トレーニング効率が大幅に向上することがわかる。 From Table 4, the visual question-and-answer model of the embodiment of the present invention that employs the averaging pooling process as the text encoder is compared with the conventional visual question-and-answer model that employs LSTM or Bi-LSTM as the text encoder. It can be seen that the prediction accuracy is reduced by about 0.4%, but the model execution time is shortened by up to 2.4 hours, and the training efficiency is greatly improved.

本発明の実施例では、視覚的質問応答モデルは、テキストベクトルを平均化プーリング処理方式でエンコードし、視覚的質問応答モデルを簡素化する目的を達成するとともに、平均化プーリング処理という簡単なエンコーディング方式によって、視覚的質問応答モデルの予測精度が大きく低下せずに視覚的質問応答モデルのトレーニング効率を効果的に向上させることが実現され、工学的利用に有益である。 In the embodiment of the present invention, the visual question answering model encodes a text vector by an averaging pooling process to achieve the purpose of simplifying the visual question answering model, and a simple encoding method called averaging pooling process. As a result, it is possible to effectively improve the training efficiency of the visual question answering model without significantly reducing the prediction accuracy of the visual question answering model, which is useful for engineering use.

実施例3
図3は、本発明の実施例3に係る電子機器の概略構成図である。図3は、本発明の実施形態の実現に適する例示的な電子機器12のブロック図を示している。図3に示される電子機器12は単なる例であり、本願の実施例の機能および使用の範囲にいかなる制限もすべきではない。
Example 3
FIG. 3 is a schematic configuration diagram of an electronic device according to a third embodiment of the present invention. FIG. 3 shows a block diagram of an exemplary electronic device 12 suitable for realizing the embodiment of the present invention. The electronic device 12 shown in FIG. 3 is merely an example and should not limit the functionality and scope of use of the embodiments of the present application.

図3に示すように、電子機器12は、汎用コンピューティング機器の形態で示されている。電子機器12の構成要素は、1つまたは複数のプロセッサまたはプロセッサ16と、メモリ28と、異なるシステムの構成要素(メモリ28とプロセッサ126とを備える)を接続するバス18とを備えるが、これらに限定されない。 As shown in FIG. 3, the electronic device 12 is shown in the form of a general-purpose computing device. The components of the electronic device 12 include one or more processors or processors 16, a memory 28, and a bus 18 connecting components of different systems (including the memory 28 and the processor 126). Not limited.

バス18は、いくつかのタイプのバス構造のうちの1つまたは複数を表し、メモリバスまたはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ、または多様なバス構造のいずれかのバス構造を使用するローカルバスを含む。例えば、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス、およびペリフェラルコンポーネントインターコネクト(PCI)バスを含むが、これらに限定されない。 Bus 18 represents one or more of several types of bus structures, one of which is a memory bus or memory controller, a peripheral bus, an accelerated graphics port, a processor, or a variety of bus structures. Includes the local bus to use. For example, these architectures include Industry Standard Architecture (ISA) Bus, Micro Channel Architecture (MCA) Bus, Extended ISA Bus, Video Electronics Standards Association (VESA) Local Bus, and Peripheral Component Interconnect (PCI) Bus. Not limited to these.

電子機器12は、通常、複数種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、揮発性媒体および不揮発性媒体、リムーバブル媒体およびノンリムーバブル媒体を含む、電子機器12によってアクセスされ得る任意の使用可能な媒体であってもよい。 The electronic device 12 usually includes a plurality of types of computer system readable media. These media may be any usable medium accessible by the electronic device 12, including volatile and non-volatile media, removable and non-removable media.

メモリ28は、ランダムアクセスメモリ(RAM)30および/またはキャッシュメモリ32のような揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えてもよい。電子機器12は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに備えてもよい。例だけとするが、ストレージシステム34は、ノンリムーバブル、不揮発性磁気媒体(図3に図示せず、通常「ハードディスクドライバ」という)に対して読み出しおよび書き込みをするために用いることができる。図3に示されていないが、リムーバブル不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出しおよび書き込みをするための磁気ディスクドライバ、およびリムーバブル不揮発性光学ディスク(例えば、CD−ROM、DVD−ROMまたは他の光学媒体)に対して読み出しおよび書き込みをするための光学ディスクドライバを提供することができる。これらの場合、各ドライバは、1つまたは複数のデータメディアインターフェイスを介してバス18に接続することができる。メモリ28は、本開示の各実施例に記載の機能を実行するように構成される1セットの(例えば、少なくとも1つ)プログラムモジュールを有する少なくとも1つのプログラム製品を備えてもよい。 The memory 28 may include computer system readable media in the form of volatile memory such as random access memory (RAM) 30 and / or cache memory 32. The electronic device 12 may further include other removable / non-removable, volatile / non-volatile computer system storage media. By way of example only, the storage system 34 can be used to read and write to a non-removable, non-volatile magnetic medium (not shown in FIG. 3, usually referred to as a "hard disk driver"). Although not shown in FIG. 3, a magnetic disk driver for reading and writing to a removable non-volatile magnetic disk (eg, "floppy disk") and a removable non-volatile optical disk (eg, CD-ROM, DVD). -An optical disk driver for reading and writing to (ROM or other optical medium) can be provided. In these cases, each driver can be connected to bus 18 via one or more data media interfaces. The memory 28 may include at least one program product having a set (eg, at least one) of program modules configured to perform the functions described in each embodiment of the present disclosure.

1セットの(少なくとも1つ)プログラムモジュール42を有するプログラム/ユーティリティ40は、例えば、メモリ28に記憶されてもよく、このようなプログラムモジュール42は、オペレーティングシステム、1つまたは複数のアプリケーションプログラム、他のプログラムモジュールおよびプログラムデータを含むが、これらに限定されない。これらの例のそれぞれまたはある組み合わせにはネットワーキング環境の実現が含まれる可能性がある。プログラムモジュール42は、通常、本開示に記載の実施例における機能および/または方法を実行する。 A program / utility 40 having a set (at least one) of program modules 42 may be stored, for example, in memory 28, such program modules 42 as operating systems, one or more application programs, etc. Includes, but is not limited to, program modules and program data. Each or some combination of these examples may include the realization of a networking environment. Program module 42 typically performs the functions and / or methods of the embodiments described in the present disclosure.

電子機器12は、1つまたは複数の外部デバイス200(例えば、キーボード、ポインティングデバイス、ディスプレイ24など)と通信することができ、また、ユーザが当該電子機器12とインタラクションすることを可能にする1つまたは複数のデバイスと通信することができ、および/または、当該電子機器12が1つまたは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信することもできる。そのような通信は、入力/出力(I/O)インターフェイス22を介して行うことができる。また、電子機器12は、ネットワークアダプタ20を介して、1つまたは複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、および/またはインターネットのようなパブリックネットワーク)と通信することができる。図に示すように、ネットワークアダプタ20は、バス18を介して電子機器12の他のモジュールと通信する。なお、図に示されていないが、マイクロコード、デバイスドライバ、冗長化プロセッサ、外部ディスクドライブアレイ、RAIDシステム、テープドライバ、およびデータバックアップストレージシステムなどを含むが、これらに限定されない他のハードウェアおよび/またはソフトウェアモジュールを電子機器12と組み合わせて使用することができる。 The electronic device 12 is one that can communicate with one or more external devices 200 (eg, keyboard, pointing device, display 24, etc.) and also allows the user to interact with the electronic device 12. Or any device that can communicate with multiple devices and / or allow the electronic device 12 to communicate with one or more other computing devices (eg, network cards, modems, etc.). You can also communicate with. Such communication can be done via the input / output (I / O) interface 22. The electronic device 12 also communicates with one or more networks (eg, a local area network (LAN), a wide area network (WAN), and / or a public network such as the Internet) via a network adapter 20. be able to. As shown in the figure, the network adapter 20 communicates with other modules of the electronic device 12 via the bus 18. Other hardware and other hardware not shown in the figure, including, but not limited to, microcodes, device drivers, redundant processors, external disk drive arrays, RAID systems, tape drivers, and data backup storage systems. / Or the software module can be used in combination with the electronic device 12.

プロセッサ16は、メモリ28に記憶されているプログラムを実行することにより、多様な機能アプリケーションおよびデータ処理を実行し、例えば、前述した実施例に係る視覚的質問応答モデルを実現し、当該視覚的質問応答モデルは、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダと、前記セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するための画像エンコーダと、を備える。 The processor 16 executes various functional applications and data processing by executing a program stored in the memory 28, realizes, for example, a visual question answering model according to the above-described embodiment, and obtains the visual question. The response model pools the word vector sequence of the input question text and extracts the image features of the predetermined image in combination with the text encoder for extracting the semantic expression vector of the question text and the semantic expression vector. It is equipped with an image encoder for.

実施例4
本発明の実施例4は、コンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータ読み取り可能な記憶媒体は、本発明の実施例に係る視覚的質問応答モデルを記憶し、コンピュータプロセッサによって実行される。前記視覚的質問応答モデルは、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダと、前記セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するための画像エンコーダと、を備える。
Example 4
Example 4 of the present invention provides a computer-readable storage medium, which stores a visual question-and-answer model according to an embodiment of the present invention and is executed by a computer processor. The visual question answering model pools a word vector sequence of input question text and combines it with a text encoder for extracting a semantic expression vector of the question text and an image of a predetermined image. It includes an image encoder for extracting features.

勿論、本発明の実施例で提供されるコンピュータ読み取り可能な記憶媒体は、本発明の任意の実施例で提供される視覚的質問応答モデルを実行することもできる。 Of course, the computer-readable storage medium provided in the embodiments of the present invention can also carry out the visual question answering model provided in any of the embodiments of the present invention.

本発明の実施例のコンピュータ記憶媒体は、1つまたは複数のコンピュータ読み取り可能な媒体の任意の組み合わせを使用することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体であり得る。コンピュータ読み取り可能な記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、またはデバイス、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(非網羅的なリスト)は、1つまたは複数のリード線を備えた電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CDーROM)、光学記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含む。本明細書では、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置、またはデバイスによって使用され、またはそれらと組み合わせて使用できるプログラムを含む、または格納できる任意の有形の媒体であり得る。 As the computer storage medium of the embodiment of the present invention, any combination of one or more computer-readable media can be used. The computer-readable medium can be a computer-readable signal medium or a computer-readable storage medium. The computer-readable storage medium can be, but is not limited to, for example, electronic, magnetic, optical, electromagnetic, infrared, or semiconductor systems, devices, or devices, or any combination of the above. More specific examples (non-exhaustive lists) of computer-readable storage media are electrical connections with one or more leads, portable computer disks, hard disks, random access memory (RAM), and read-only memory. Includes (ROM), erasable programmable read-only memory (EPROM or flash memory), optical fiber, portable compact disk read-only memory (CD-ROM), optical storage, magnetic storage, or any suitable combination of the above. .. As used herein, a computer-readable storage medium can be any tangible medium that can contain or store programs that can be used by, or combined with, instruction execution systems, devices, or devices.

コンピュータ読み取り可能なの信号媒体は、ベースバンドにおける、または搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なプログラムコードが含まれる。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号または上記の任意の適切な組み合わせを含むがこれらに限定されない。さらに、コンピュータ読み取り可能なの信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、当該コンピュータ読み取り可能な媒体は、命令実行システム、装置またはデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播または伝送することができる。 Computer-readable signal media can include data signals propagating in the baseband or as part of a carrier wave, including computer-readable program code. The propagating data signal can adopt a variety of formats, including but not limited to electromagnetic signals, optical signals or any suitable combination of the above. Further, the computer-readable signal medium may be any computer-readable medium other than the computer-readable storage medium, which is used by the instruction execution system, device or device. Alternatively, a program used in combination with them can be transmitted, propagated or transmitted.

コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、RFなど、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送することができる。 The program code contained in the computer-readable medium can be transmitted by any suitable medium including, but not limited to, wireless, wired, optical cable, RF, etc., or any suitable combination described above.

1つまたは複数のプログラミング言語またはそれらの組み合わせで本発明の動作を実行するためのコンピュータプログラムコードを作成することができ、前記プログラミング言語は、Java(登録商標)、Smalltalk、C++などのプロジェクト指向のプログラミング言語を含み、「C」言語または類似のプログラミング言語のような従来の手続き型プログラミング言語をさらに含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、または完全にリモートコンピュータまたはサーバーで実行してもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザーのコンピュータに接続でき、または、外部コンピュータに接続できる(例えば、インターネットサービスプロバイダを利用して、インターネット経由で接続する)。 Computer programming code for performing the operations of the present invention can be created in one or more programming languages or a combination thereof, the programming languages being project-oriented such as Java®, Smalltalk, C ++. Includes programming languages, further including traditional procedural programming languages such as "C" or similar programming languages. The program code may be executed entirely on the user computer, partially on the user computer, as a stand-alone software package, or partially on the user computer. It may run on a remote computer, or it may run entirely on a remote computer or server. For remote computers, the remote computer can connect to the user's computer or to an external computer (eg, the Internet) over any type of network, including local area networks (LANs) or wide area networks (WANs). Connect via the Internet using a service provider).

なお、上記は、本発明の好ましい実施例およびそれらに適用される技術的原理に過ぎないことに留意されたい。当業者は、本発明が本明細書に記載の特定の実施例に限定されず、本発明の範囲から逸脱することなく様々な変形、再調整、および置き換えを行うことができることを理解することができる。したがって、本発明を上記実施例により詳細に説明したが、本発明は上記実施例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で同等の実施例を含むことができる。本発明の範囲は、特許請求の範囲によって決定される。 It should be noted that the above are merely preferred embodiments of the present invention and technical principles applied thereto. Those skilled in the art will appreciate that the invention is not limited to the particular embodiments described herein and that various modifications, readjustments, and replacements can be made without departing from the scope of the invention. it can. Therefore, although the present invention has been described in detail with reference to the above examples, the present invention is not limited to the above examples, and equivalent examples can be included without departing from the spirit of the present invention. The scope of the present invention is determined by the scope of claims.

Claims (6)

入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダと、
前記セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するための画像エンコーダと、
を備える視覚的質問応答モデル。
A text encoder for pooling the word vector sequence of the input question text to extract the semantic representation vector of the question text,
An image encoder for extracting image features of a predetermined image in combination with the semantic expression vector,
A visual question answering model with.
前記テキストエンコーダが、具体的には、
入力された質問テキストの単語ベクトルシーケンスを最大化プーリング処理するか、平均化プーリング処理することにより、前記質問テキストのセマンティック表現ベクトルを抽出する請求項1に記載のモデル。
Specifically, the text encoder
The model according to claim 1, wherein a semantic expression vector of the question text is extracted by maximizing pooling or averaging the word vector sequence of the input question text.
前記最大化プーリング処理は、以下の式で表される請求項2に記載のモデル。
f(w1,w2,...,wk)=max([w1,w2,...,wk],dim=1)
ただし、fは最大化プーリング処理関数を表し、kは前記質問テキストに含まれる単語ベクトルの数であり、wiは、予めトレーニングされた単語ベクトルモデルを利用して前記質問テキストを処理することによって得られたi番目の単語ベクトルであり、iは[1,k]内の自然数であり、max([w1,w2,...、wk],dim=1)は単語ベクトルw1,w2,...,wkにおける各単語ベクトルに対応する次元の最大値を表す。
The model according to claim 2, wherein the maximized pooling process is represented by the following equation.
f (w1, w2, ..., wk) = max ([w1, w2, ..., wk], dim = 1)
Where f represents the maximized pooling processing function, k is the number of word vectors contained in the question text, and wi is obtained by processing the question text using a pre-trained word vector model. Is the i-th word vector obtained, i is a natural number in [1, k], and max ([w1, w2, ..., wk], dim = 1) is the word vector w1, w2, .. ., Represents the maximum value of the dimension corresponding to each word vector in wk.
前記平均プーリング処理は、以下の式によって表される請求項2に記載のモデル。
Figure 2020149685
ただし、pは平均化プーリング処理関数を表し、kは前記質問テキストに含まれる単語ベクトルの数であり、wiは予めトレーニングされた単語ベクトルモデルを利用して前記質問テキストを処理することによって得られたi番目の単語ベクトルであり、iは[1,k]内の自然数であり、
Figure 2020149685
は、単語ベクトルw1,w2,...,wkにおける各単語ベクトルに対応する次元の値の合計を表す。
The model according to claim 2, wherein the average pooling process is represented by the following formula.
Figure 2020149685
Where p represents the averaging pooling processing function, k is the number of word vectors contained in the question text, and wi is obtained by processing the question text using a pre-trained word vector model. Is the i-th word vector, i is a natural number in [1, k],
Figure 2020149685
Represents the sum of the dimensional values corresponding to each word vector in the word vectors w1, w2, ..., Wk.
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するためのメモリと、を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行される場合、前記1つまたは複数のプロセッサが請求項1から4のいずれか一項に記載の視覚的質問応答モデルを実行する電子機器。
With one or more processors
An electronic device comprising a memory for storing one or more programs.
When the one or more programs are executed by the one or more processors, the one or more processors execute the visual question-and-answer model according to any one of claims 1 to 4. Electronics.
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
当該プログラムがプロセッサによって実行された場合、請求項1から4のいずれか一項に記載の視覚的質問応答モデルが実行されるコンピュータ読み取り可能な記憶媒体。
A computer-readable storage medium that stores computer programs
A computer-readable storage medium on which the visual question answering model according to any one of claims 1 to 4 is executed when the program is executed by a processor.
JP2020041593A 2019-03-12 2020-03-11 Visual question answering model, electronic device, and storage medium Pending JP2020149685A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910185125.9 2019-03-12
CN201910185125.9A CN109902166A (en) 2019-03-12 2019-03-12 Vision Question-Answering Model, electronic equipment and storage medium

Publications (1)

Publication Number Publication Date
JP2020149685A true JP2020149685A (en) 2020-09-17

Family

ID=66947100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020041593A Pending JP2020149685A (en) 2019-03-12 2020-03-11 Visual question answering model, electronic device, and storage medium

Country Status (5)

Country Link
US (1) US20200293921A1 (en)
EP (1) EP3709207A1 (en)
JP (1) JP2020149685A (en)
KR (1) KR102403108B1 (en)
CN (1) CN109902166A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022141587A (en) * 2021-03-15 2022-09-29 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Method and apparatus for acquiring pretraining model

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298338B (en) * 2019-06-20 2021-08-24 北京易道博识科技有限公司 Document image classification method and device
CN110516530A (en) * 2019-07-09 2019-11-29 杭州电子科技大学 A kind of Image Description Methods based on the enhancing of non-alignment multiple view feature
CN110348535B (en) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 Visual question-answering model training method and device
CN110516791B (en) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 Visual question-answering method and system based on multiple attention
CN110851760B (en) * 2019-11-12 2022-12-27 电子科技大学 Human-computer interaction system for integrating visual question answering in web3D environment
CN110852043B (en) * 2019-11-19 2023-05-23 北京字节跳动网络技术有限公司 Text transcription method, device, equipment and storage medium
CN111967487B (en) * 2020-03-23 2022-09-20 同济大学 Incremental data enhancement method for visual question-answer model training and application
CN111898678A (en) * 2020-07-30 2020-11-06 北京嘀嘀无限科技发展有限公司 Method and system for classifying samples
CN112148836A (en) * 2020-09-07 2020-12-29 北京字节跳动网络技术有限公司 Multi-modal information processing method, device, equipment and storage medium
US11901047B2 (en) * 2020-10-28 2024-02-13 International Business Machines Corporation Medical visual question answering
US11783008B2 (en) * 2020-11-06 2023-10-10 Adobe Inc. Machine-learning tool for generating segmentation and topic metadata for documents
CN112651403B (en) * 2020-12-02 2022-09-06 浙江大学 Zero-sample visual question-answering method based on semantic embedding
CN112559713B (en) * 2020-12-24 2023-12-01 北京百度网讯科技有限公司 Text relevance judging method and device, model, electronic equipment and readable medium
CN112685548B (en) * 2020-12-31 2023-09-08 科大讯飞(北京)有限公司 Question answering method, electronic device and storage device
CN113033580B (en) * 2021-03-31 2024-02-02 北京有竹居网络技术有限公司 Image processing method, device, storage medium and electronic equipment
CN113033579B (en) * 2021-03-31 2023-03-21 北京有竹居网络技术有限公司 Image processing method, image processing device, storage medium and electronic equipment
CN113205507B (en) * 2021-05-18 2023-03-10 合肥工业大学 Visual question answering method, system and server
CN113360699B (en) * 2021-06-30 2023-09-26 北京百度网讯科技有限公司 Model training method and device, and image question-answering method and device
CN113656570A (en) * 2021-08-25 2021-11-16 平安科技(深圳)有限公司 Visual question answering method and device based on deep learning model, medium and equipment
CN113722458A (en) * 2021-08-27 2021-11-30 海信电子科技(武汉)有限公司 Visual question answering processing method, device, computer readable medium and program product
CN113849623B (en) * 2021-10-12 2024-04-09 中国传媒大学 Text visual question-answering method and device
CN114495130B (en) * 2021-12-27 2023-03-24 北京百度网讯科技有限公司 Cross-modal information-based document reading understanding model training method and device
CN114840656B (en) * 2022-05-18 2024-03-01 北京百度网讯科技有限公司 Visual question-answering method, device, equipment and storage medium
CN115618061B (en) * 2022-11-29 2023-03-10 广东工业大学 Semantic-aligned video question-answering method
CN115880506B (en) * 2022-12-27 2024-03-08 北京百度网讯科技有限公司 Image generation method, model training method and device and electronic equipment
CN115688083B (en) * 2022-12-29 2023-03-28 广东工业大学 Method, device and equipment for identifying image-text verification code and storage medium
CN116257611B (en) * 2023-01-13 2023-11-10 北京百度网讯科技有限公司 Question-answering model training method, question-answering processing device and storage medium
CN115905591B (en) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 Visual question-answering method, system, equipment and readable storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017534956A (en) * 2015-05-21 2017-11-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC Multilingual image question answering

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
SG11202000855VA (en) * 2017-08-17 2020-02-27 Nat Univ Singapore Video visual relation detection methods and systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017534956A (en) * 2015-05-21 2017-11-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC Multilingual image question answering

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DINGHAN SHEN、他8名: "Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms", ARXIV[ONLINE], JPN7021004484, 24 May 2018 (2018-05-24), ISSN: 0004750828 *
FELIX SCHNEIDER: "Towards End-To-End Information Retrieval: Enabling Question Answering Systems To Answer Open-Domain", INTERACTIVE SYSTEMS LAB, JPN7021004483, 25 October 2018 (2018-10-25), ISSN: 0004750829 *
PENG WANG、他3名: "The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions", ARXIV[ONLINE], JPN7021001038, 16 December 2016 (2016-12-16), ISSN: 0004750830 *
YE ZHANG、他1名: "A Sensitivity Analysis of(and Practitioners' Guide to) Convolutional Neural Networks for Sentence Cl", ARXIV[ONLINE], JPN7021001039, 6 April 2016 (2016-04-06), ISSN: 0004750831 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022141587A (en) * 2021-03-15 2022-09-29 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Method and apparatus for acquiring pretraining model

Also Published As

Publication number Publication date
KR20200110154A (en) 2020-09-23
EP3709207A1 (en) 2020-09-16
KR102403108B1 (en) 2022-05-26
US20200293921A1 (en) 2020-09-17
CN109902166A (en) 2019-06-18

Similar Documents

Publication Publication Date Title
JP2020149685A (en) Visual question answering model, electronic device, and storage medium
CN107293296B (en) Voice recognition result correction method, device, equipment and storage medium
CN107291867B (en) Dialog processing method, device and equipment based on artificial intelligence and computer readable storage medium
CN107463601B (en) Dialog understanding system construction method, device and equipment based on artificial intelligence and computer readable storage medium
JP2023541119A (en) Character recognition model training method, character recognition method, device, electronic device, storage medium and computer program
WO2021175007A1 (en) Online customer service consultation method and apparatus, medium, and electronic device
US20200279147A1 (en) Method and apparatus for intelligently recommending object
CN108415939B (en) Dialog processing method, device and equipment based on artificial intelligence and computer readable storage medium
CN111291882A (en) Model conversion method, device, equipment and computer storage medium
CN107908641A (en) A kind of method and system for obtaining picture labeled data
CN111832449A (en) Engineering drawing display method and related device
CN110867231A (en) Disease prediction method, device, computer equipment and medium based on text classification
WO2022048170A1 (en) Method and apparatus for conducting human-machine conversation, computer device, and storage medium
CN112949758A (en) Response model training method, response method, device, equipment and storage medium
EP4287074A1 (en) Mixture-of-experts model implementation method and system, electronic device, and storage medium
CN110850982B (en) AR-based man-machine interaction learning method, system, equipment and storage medium
CN114840734A (en) Training method of multi-modal representation model, cross-modal retrieval method and device
CN114780701A (en) Automatic question-answer matching method, device, computer equipment and storage medium
CN113239799A (en) Training method, recognition method, device, electronic equipment and readable storage medium
CN114783597B (en) Method and device for diagnosing multi-class diseases, electronic equipment and storage medium
CN116340778A (en) Medical large model construction method based on multiple modes and related equipment thereof
CN113656555B (en) Training method, device, equipment and medium for nested named entity recognition model
CN115762704A (en) Prescription auditing method, device, equipment and storage medium
CN114297022A (en) Cloud environment anomaly detection method and device, electronic equipment and storage medium
CN109360631B (en) Man-machine interaction method and device based on picture recognition, computer equipment and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210630

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220225

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220225

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220310

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220315

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220415

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220419

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220802

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220913

C28A Non-patent document cited

Free format text: JAPANESE INTERMEDIATE CODE: C2838

Effective date: 20220913

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20221011

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20230131

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20230307

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20230307