JP2020149685A - Visual question answering model, electronic device, and storage medium - Google Patents
Visual question answering model, electronic device, and storage medium Download PDFInfo
- Publication number
- JP2020149685A JP2020149685A JP2020041593A JP2020041593A JP2020149685A JP 2020149685 A JP2020149685 A JP 2020149685A JP 2020041593 A JP2020041593 A JP 2020041593A JP 2020041593 A JP2020041593 A JP 2020041593A JP 2020149685 A JP2020149685 A JP 2020149685A
- Authority
- JP
- Japan
- Prior art keywords
- text
- model
- question
- word vector
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000011176 pooling Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 16
- 239000013604 expression vector Substances 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000006403 short-term memory Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
Description
本発明の実施例は、人工知能技術の分野に関し、詳細には、視覚的質問応答モデル、電子機器、および記憶媒体に関する。 Examples of the present invention relate to the field of artificial intelligence technology, and more specifically to visual question answering models, electronic devices, and storage media.
視覚的質問応答(Visual Question Answering、以下、VQAと略称する)は、マルチモダリティ融合の典型的なアプリケーションである。例えば、所定画像について、画像には赤い服を着ている打者がいて、「what color shirt is the batter wearing」という関連質問をされると、VQAシステムは、画像情報とテキスト質問情報とを組み合わせて、回答を「red」として予測する必要がある。この処理では、主に画像とテキストとのセマンティック特徴の抽出、および抽出された画像とテキストとの2つのモダリティの特徴に対する融合を行うため、VQA関連モデルのコーディング部分は、主にテキストエンコーダと画像エンコーダとで構成される。 Visual Question Answering (hereinafter abbreviated as VQA) is a typical application for multi-modality fusion. For example, for a given image, when a batter dressed in red is asked the related question "what color shirt is the batter waering", the VQA system combines the image information with the text question information. , The answer needs to be predicted as "red". In this process, the semantic features of the image and the text are mainly extracted, and the extracted image and the text are fused for the two modality features. Therefore, the coding part of the VQA-related model is mainly the text encoder and the image. It consists of an encoder.
しかしながら、画像エンコーダとテキストエンコーダとの両方を同時に使用する必要があるため、VQAモデルには、多くのトレーニングする必要があるパラメータが含まれている場合が多いため、モデルのトレーニング時間が非常に長くなる。したがって、モデルの精度が大きく低下せずに工学上よりモデルを簡素化してモデルのトレーニング効率を向上するかは、現在解決する必要がある技術的な問題になっている。 However, because both the image encoder and the text encoder need to be used at the same time, the VQA model often contains a lot of parameters that need to be trained, so the training time of the model is very long. Become. Therefore, whether to simplify the model from the engineering point of view and improve the training efficiency of the model without significantly reducing the accuracy of the model is a technical problem that needs to be solved at present.
本発明の実施例は、視覚的質問応答モデルの精度が大きく低下せずに工学上よりモデルを簡素化して視覚的質問応答モデルのトレーニング効率を向上させることを達成する視覚的質問応答モデル、電子機器および記憶媒体を提供する。 An embodiment of the present invention achieves to improve the training efficiency of a visual question answering model by simplifying the model from an engineering point of view without significantly reducing the accuracy of the visual question answering model. Provides equipment and storage media.
第1の側面では、本発明の実施例は、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダと、前記セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するための画像エンコーダと、を備える視覚的質問応答モデルを提供する。 In the first aspect, an embodiment of the present invention combines a text encoder for pooling a word vector sequence of input question text to extract a semantic expression vector of the question text and the semantic expression vector. Provided is a visual question-and-answer model including an image encoder for extracting image features of a predetermined image.
第2の側面では、本発明の実施例は、電子機器をさらに提供し、前記電子機器が、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶するためのメモリとを備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行される場合、前記1つまたは複数のプロセッサが本発明のいずれかの実施例に記載の視覚的質問応答モデルを実行する。 In a second aspect, embodiments of the present invention further provide an electronic device, wherein the electronic device comprises one or more processors and a memory for storing one or more programs. When one or more programs are executed by the one or more processors, the one or more processors execute the visual question-and-answer model described in any of the embodiments of the present invention.
第3の態様では、本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該プログラムがプロセッサによって実行される場合、本発明のいずれかの実施例に記載の視覚的質問応答モデルが実行される。 In a third aspect, an embodiment of the present invention provides a computer-readable storage medium in which a computer program is stored, and if the program is executed by a processor, it is described in any of the embodiments of the present invention. Visual question answering model is executed.
本発明の実施例は、視覚的質問応答モデル、電子機器、および記憶媒体を提供する。視覚的質問応答モデルは、テキストベクトルをプーリング処理方式でエンコードすることにより、視覚的質問応答モデルを簡素化する目的を達成するとともに、プーリング処理という簡単なコーディング方式により、視覚的質問応答モデルでトレーニングする必要があるパラメータの数を減らし、視覚的質問応答モデルのトレーニング効率を効果的に向上させ、工学的利用に有益である。 The embodiments of the present invention provide a visual question answering model, electronic devices, and storage media. The visual question answering model achieves the purpose of simplifying the visual question answering model by encoding the text vector in a pooling process, and trains in the visual question answering model by a simple coding method called pooling process. It reduces the number of parameters that need to be done, effectively improves the training efficiency of the visual question answering model, and is beneficial for engineering use.
以下、図面および実施例を参照して、本発明をさらに詳細に説明する。本明細書に記載される具体的な実施例は、単に本発明を解釈するためのものであり、本発明を限定するものではないことを理解されたい。なお、説明を簡潔にするために、本発明に関連する構成のすべてではなく、一部のみが図面に示されている。 Hereinafter, the present invention will be described in more detail with reference to the drawings and examples. It should be understood that the specific examples described herein are merely for the purpose of interpreting the present invention and are not intended to limit the present invention. For the sake of brevity, only some, but not all, of the configurations relating to the present invention are shown in the drawings.
実施例1
図1は、本発明の実施例1に係る視覚的質問応答モデルである。本実施例は、視覚的質問応答モデルを簡素化することにより、視覚的質問応答モデルのトレーニング効率を向上させ、当該モデルは、コンピュータ端末またはサーバのような電子機器で実行することができる。
Example 1
FIG. 1 is a visual question answering model according to the first embodiment of the present invention. This embodiment improves the training efficiency of the visual question-and-answer model by simplifying the visual question-and-answer model, which can be run on an electronic device such as a computer terminal or server.
図1に示すように、本発明の実施例に係る視覚的質問応答モデルは、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダを備えてもよい。 As shown in FIG. 1, the visual question answering model according to the embodiment of the present invention is a text encoder for pooling the word vector sequence of the input question text and extracting the semantic expression vector of the question text. May be provided.
ここで、質問テキストをエンコードする前に、質問テキストを予め処理する必要がある。例として、質問テキストをword2vecモデルまたはgloveモデルで処理して、当該質問テキストに対応する単語ベクトルシーケンスを取得する。質問テキストをエンコードするには、当該質問テキストに対応する単語ベクトルシーケンスをテキストエンコーダに入力し、テキストエンコーダによって質問テキストの単語ベクトルシーケンスをプーリング処理して、質問テキストのセマンティック表現ベクトルを抽出することができる。なお、従来技術では、LSTM(Long Short−Term Memory、長・短期記憶)モデルまたはBi−LSTM(Bi−directional Long Short−Term Memory、双方向LSTM)モデルがテキストエンコーダとして使用されているが、本願では、テキストエンコーダとしてLSTMモデルまたはBi−LSTMモデルの代わりにプーリング処理が使用されるので、視覚的質問応答モデルが簡素化される。 Here, the question text needs to be pre-processed before it can be encoded. As an example, the question text is processed by the word2vec model or the grow model to obtain the word vector sequence corresponding to the question text. To encode the question text, the word vector sequence corresponding to the question text can be input to the text encoder, and the word vector sequence of the question text can be pooled by the text encoder to extract the semantic expression vector of the question text. it can. In the prior art, an LSTM (Long Short-Term Memory, long / short-term memory) model or a Bi-LSTM (Bi-directional Long Short-Term Memory, bidirectional LSTM) model is used as a text encoder. In, the pooling process is used instead of the LSTM model or Bi-LSTM model as the text encoder, which simplifies the visual question-and-answer model.
この実施例では、プーリング処理は、最大化プーリング(maxPooling)処理であり、前記最大化プーリング処理は、次の式で表される。
f(w1,w2,...,wk)=max([w1,w2,...,wk],dim=1)
In this embodiment, the pooling process is a max Pooling process, and the maximize pooling process is represented by the following equation.
f (w1, w2, ..., wk) = max ([w1, w2, ..., wk], dim = 1)
ただし、fは最大化プーリング処理関数を表し、kは前記質問テキストに含まれる単語ベクトルの数であり、wiは、予めトレーニングされた単語ベクトルモデルを利用して前記質問テキストを処理することによって得られたi番目の単語ベクトルであり、iは[1,k]内の自然数であり、max([w1,w2,...、wk],dim=1)は単語ベクトルw1,w2,...,wkにおける各単語ベクトルに対応する次元の最大値を表し、、dim=1は次元を指し、つまり、所定の2次元行列について、行ごとに値を取ることを表す。 Where f represents the maximized pooling processing function, k is the number of word vectors contained in the question text, and wi is obtained by processing the question text using a pre-trained word vector model. Is the i-th word vector obtained, i is a natural number in [1, k], and max ([w1, w2, ..., wk], dim = 1) is the word vector w1, w2, .. It represents the maximum value of the dimension corresponding to each word vector in., Wk, and dim = 1 indicates a dimension, that is, it represents taking a value for each row in a predetermined two-dimensional matrix.
例として、1つの質問テキストの単語ベクトルシーケンスは、
また、本発明の実施例の視覚的質問応答モデルにおける画像エンコーダは、セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するために使用される。 In addition, the image encoder in the visual question answering model of the embodiment of the present invention is used in combination with a semantic expression vector to extract image features of a predetermined image.
画像には背景および豊富なコンテンツが含まれているため、マシンが質問に関連する画像コンテンツに注意を払うことを確保し、質問の回答の精度を向上させるために、視覚的注意力メカニズム(図1中のAttention)を採用することができる。Attentionメカニズムを介して、画像エンコーダは、テキストエンコーダによって取得された質問テキストに対応するセマンティック表現ベクトルを組み合わせることにより、当該セマンティック表現ベクトルに最も関連する画像コンテンツを絞り、当該画像コンテンツの画像特徴を抽出して画像特徴ベクトルを取得することができる。Faster RCNNモデルのような畳み込みニューラルネットワークモデルを採用することができる。 The image contains background and rich content, so a visual attention mechanism (figure) to ensure that the machine pays attention to the image content related to the question and to improve the accuracy of answering the question. Attention in 1) can be adopted. Through the attachment mechanism, the image encoder narrows down the image content most related to the semantic expression vector by combining the semantic expression vectors corresponding to the question text acquired by the text encoder, and extracts the image features of the image content. The image feature vector can be obtained. A convolutional neural network model such as the Faster RCNN model can be adopted.
さらに、図1に示すように、当該視覚的質問応答モデルは、異なるモダリティの特徴を融合するための特徴融合器(fusion)をさらに備え、この実施例では、特徴融合器は、画像エンコーダによって出力された画像特徴ベクトルとテキストエンコーダによって出力されたセマンティック表現ベクトルとを融合する。例として、画像特徴ベクトルとセマンティック表現ベクトルとをドット積によって融合することができる。 Further, as shown in FIG. 1, the visual question-and-answer model further comprises a feature fusion for fusing features of different modality, and in this embodiment, the feature fusion is output by an image encoder. The resulting image feature vector and the semantic representation vector output by the text encoder are fused. As an example, the image feature vector and the semantic representation vector can be fused by the dot product.
当該視覚的質問応答モデルは、分類器をさらに備え、前記分類器は、上記の特徴融合器によって出力されたベクトルをsoftmax関数(正規化指数関数とも呼ばれる)によって数値的に処理して、異なる回答間の相対確率を取得し、相対確率最大値に対応する回答を出力する。 The visual question-and-answer model further comprises a classifier, which numerically processes the vector output by the feature fusion device by a softmax function (also called a normalized exponential function) to provide different answers. The relative probability between them is acquired, and the answer corresponding to the maximum relative probability is output.
上記の視覚的質問応答モデルについて、具体的な一実施形態において、スタンフォード人工知能研究所によってリリースされたデータセットVisual Genomeをトレーニングサンプルデータおよび検証データとし、トレーニングサンプルデータおよび検証データを2:1の比例でランダムに配分して、当該視覚的質問応答モデルをトレーニングおよび検証することができる。当該データセットの具体的なデータ統計を表1に示す。各画像には一定数の質問が含まれ、所定回答が人工によってラベル付けられる。 Regarding the above visual question answering model, in one specific embodiment, the dataset Visual Genome released by Stanford University Centers for Artificial Intelligence is used as training sample data and validation data, and the training sample data and validation data are 2: 1. The visual question answering model can be trained and validated in proportion and randomly distributed. Table 1 shows specific data statistics for the dataset. Each image contains a fixed number of questions and a given answer is artificially labeled.
上記のデータを使用して本実施例に係る視覚的質問応答モデルをトレーニングおよび検証する。具体的には、P40クラスタで当該視覚的質問応答モデルを実行することができ、P40クラスタの環境構成およびモデルの基本パラメータを表2に示す。比較のために、同時にLSTMまたはBi-LSTMをテキストエンコーダとした従来技術の視覚的質問応答モデルをトレーニングおよび検証し、結果を表3に示す。 The above data will be used to train and validate the visual question answering model for this example. Specifically, the visual question answering model can be executed in the P40 cluster, and Table 2 shows the environment configuration of the P40 cluster and the basic parameters of the model. For comparison, we also trained and validated a prior art visual question answering model using LSTM or Bi-LSTM as a text encoder, and the results are shown in Table 3.
表3に示された検証結果から、テキストエンコーダとして最大化プーリング処理を採用する本発明の実施例の視覚的質問応答モデルは、テキストエンコーダとしてLSTMまたはBi-LSTMを採用する従来の視覚的質問応答モデルと比較して、予測精度が約0.5%だけ低下するが、モデルの実行時間が最大3時間短縮され、トレーニング効率が大幅に向上することがわかる。 From the verification results shown in Table 3, the visual question-and-answer model of the embodiment of the present invention that employs the maximized pooling process as the text encoder is a conventional visual question-and-answer model that employs LSTM or Bi-LSTM as the text encoder. It can be seen that the prediction accuracy is reduced by about 0.5% as compared with the model, but the execution time of the model is shortened by up to 3 hours, and the training efficiency is greatly improved.
本発明の実施例では、視覚的質問応答モデルは、テキストベクトルをプーリング処理方式でエンコードし、視覚的質問応答モデルを簡素化する目的を達成するとともに、プーリング処理という簡単なエンコーディング方式によって、視覚的質問応答モデルの予測精度が大きく低下せずに視覚的質問応答モデルのトレーニング効率を効果的に向上させることが実現され、工学的利用に有益である。 In the embodiment of the present invention, the visual question answering model encodes a text vector by a pooling process to achieve the purpose of simplifying the visual question answering model, and visually by a simple encoding method called pooling. It is possible to effectively improve the training efficiency of the visual question answering model without significantly reducing the prediction accuracy of the question answering model, which is useful for engineering use.
実施例2
図2は、この実施例に係る別の視覚的質問応答モデルの概略構成図である。図2に示すように、視覚的質問応答モデルは、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダを備える。
Example 2
FIG. 2 is a schematic configuration diagram of another visual question answering model according to this embodiment. As shown in FIG. 2, the visual question answering model includes a text encoder for pooling a word vector sequence of input question text to extract a semantic representation vector of the question text.
ここで、前記プーリング処理は、平均化プーリング処理であり、前記平均化プーリング処理(avgPooling)は、次の式で表すことができる。
例として、1つの質問テキストの単語ベクトルシーケンスは、
また、本発明の実施例の視覚的質問応答モデルにおける画像エンコーダは、セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するために使用される。 In addition, the image encoder in the visual question answering model of the embodiment of the present invention is used in combination with a semantic expression vector to extract image features of a predetermined image.
さらに、視覚的質問応答モデルは、特徴融合器および分類器をさらに備え、前記特徴融合器および分類器の詳細については、前述した実施例を参照し、詳細はここでは再度説明しない。 Further, the visual question answering model further comprises a feature fusion device and a classifier, the details of the feature fusion device and the classifier will be referred to the above-described embodiment, and the details will not be described again here.
本実施例の視覚的質問応答モデルについて、前述した実施例のVisualGenomeデータセットを上記実施例で記載されたP40クラスタでトレーニングおよび検証し、同時にLSTMまたはBi-LSTMをテキストエンコーダとした従来技術の視覚的質問応答モデルをトレーニングおよび検証し、結果を表4に示す。 For the visual question answering model of this example, the Visual Genome dataset of the above-described example was trained and verified in the P40 cluster described in the above example, and at the same time, the visual sense of the prior art using LSTM or Bi-LSTM as a text encoder. The question answering model was trained and validated, and the results are shown in Table 4.
表4から、テキストエンコーダとして平均化プーリング処理を採用する本発明の実施例の視覚的質問応答モデルは、テキストエンコーダとしてLSTMまたはBi-LSTMを採用する従来の視覚的質問応答モデルと比較して、予測精度が約0.4%だけ低下するが、モデルの実行時間が最大2.4時間短縮され、トレーニング効率が大幅に向上することがわかる。 From Table 4, the visual question-and-answer model of the embodiment of the present invention that employs the averaging pooling process as the text encoder is compared with the conventional visual question-and-answer model that employs LSTM or Bi-LSTM as the text encoder. It can be seen that the prediction accuracy is reduced by about 0.4%, but the model execution time is shortened by up to 2.4 hours, and the training efficiency is greatly improved.
本発明の実施例では、視覚的質問応答モデルは、テキストベクトルを平均化プーリング処理方式でエンコードし、視覚的質問応答モデルを簡素化する目的を達成するとともに、平均化プーリング処理という簡単なエンコーディング方式によって、視覚的質問応答モデルの予測精度が大きく低下せずに視覚的質問応答モデルのトレーニング効率を効果的に向上させることが実現され、工学的利用に有益である。 In the embodiment of the present invention, the visual question answering model encodes a text vector by an averaging pooling process to achieve the purpose of simplifying the visual question answering model, and a simple encoding method called averaging pooling process. As a result, it is possible to effectively improve the training efficiency of the visual question answering model without significantly reducing the prediction accuracy of the visual question answering model, which is useful for engineering use.
実施例3
図3は、本発明の実施例3に係る電子機器の概略構成図である。図3は、本発明の実施形態の実現に適する例示的な電子機器12のブロック図を示している。図3に示される電子機器12は単なる例であり、本願の実施例の機能および使用の範囲にいかなる制限もすべきではない。
Example 3
FIG. 3 is a schematic configuration diagram of an electronic device according to a third embodiment of the present invention. FIG. 3 shows a block diagram of an exemplary
図3に示すように、電子機器12は、汎用コンピューティング機器の形態で示されている。電子機器12の構成要素は、1つまたは複数のプロセッサまたはプロセッサ16と、メモリ28と、異なるシステムの構成要素(メモリ28とプロセッサ126とを備える)を接続するバス18とを備えるが、これらに限定されない。
As shown in FIG. 3, the
バス18は、いくつかのタイプのバス構造のうちの1つまたは複数を表し、メモリバスまたはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ、または多様なバス構造のいずれかのバス構造を使用するローカルバスを含む。例えば、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス、およびペリフェラルコンポーネントインターコネクト(PCI)バスを含むが、これらに限定されない。
電子機器12は、通常、複数種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、揮発性媒体および不揮発性媒体、リムーバブル媒体およびノンリムーバブル媒体を含む、電子機器12によってアクセスされ得る任意の使用可能な媒体であってもよい。
The
メモリ28は、ランダムアクセスメモリ(RAM)30および/またはキャッシュメモリ32のような揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えてもよい。電子機器12は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに備えてもよい。例だけとするが、ストレージシステム34は、ノンリムーバブル、不揮発性磁気媒体(図3に図示せず、通常「ハードディスクドライバ」という)に対して読み出しおよび書き込みをするために用いることができる。図3に示されていないが、リムーバブル不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出しおよび書き込みをするための磁気ディスクドライバ、およびリムーバブル不揮発性光学ディスク(例えば、CD−ROM、DVD−ROMまたは他の光学媒体)に対して読み出しおよび書き込みをするための光学ディスクドライバを提供することができる。これらの場合、各ドライバは、1つまたは複数のデータメディアインターフェイスを介してバス18に接続することができる。メモリ28は、本開示の各実施例に記載の機能を実行するように構成される1セットの(例えば、少なくとも1つ)プログラムモジュールを有する少なくとも1つのプログラム製品を備えてもよい。
The
1セットの(少なくとも1つ)プログラムモジュール42を有するプログラム/ユーティリティ40は、例えば、メモリ28に記憶されてもよく、このようなプログラムモジュール42は、オペレーティングシステム、1つまたは複数のアプリケーションプログラム、他のプログラムモジュールおよびプログラムデータを含むが、これらに限定されない。これらの例のそれぞれまたはある組み合わせにはネットワーキング環境の実現が含まれる可能性がある。プログラムモジュール42は、通常、本開示に記載の実施例における機能および/または方法を実行する。
A program /
電子機器12は、1つまたは複数の外部デバイス200(例えば、キーボード、ポインティングデバイス、ディスプレイ24など)と通信することができ、また、ユーザが当該電子機器12とインタラクションすることを可能にする1つまたは複数のデバイスと通信することができ、および/または、当該電子機器12が1つまたは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信することもできる。そのような通信は、入力/出力(I/O)インターフェイス22を介して行うことができる。また、電子機器12は、ネットワークアダプタ20を介して、1つまたは複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、および/またはインターネットのようなパブリックネットワーク)と通信することができる。図に示すように、ネットワークアダプタ20は、バス18を介して電子機器12の他のモジュールと通信する。なお、図に示されていないが、マイクロコード、デバイスドライバ、冗長化プロセッサ、外部ディスクドライブアレイ、RAIDシステム、テープドライバ、およびデータバックアップストレージシステムなどを含むが、これらに限定されない他のハードウェアおよび/またはソフトウェアモジュールを電子機器12と組み合わせて使用することができる。
The
プロセッサ16は、メモリ28に記憶されているプログラムを実行することにより、多様な機能アプリケーションおよびデータ処理を実行し、例えば、前述した実施例に係る視覚的質問応答モデルを実現し、当該視覚的質問応答モデルは、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダと、前記セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するための画像エンコーダと、を備える。
The
実施例4
本発明の実施例4は、コンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータ読み取り可能な記憶媒体は、本発明の実施例に係る視覚的質問応答モデルを記憶し、コンピュータプロセッサによって実行される。前記視覚的質問応答モデルは、入力された質問テキストの単語ベクトルシーケンスをプーリング処理して、前記質問テキストのセマンティック表現ベクトルを抽出するためのテキストエンコーダと、前記セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するための画像エンコーダと、を備える。
Example 4
Example 4 of the present invention provides a computer-readable storage medium, which stores a visual question-and-answer model according to an embodiment of the present invention and is executed by a computer processor. The visual question answering model pools a word vector sequence of input question text and combines it with a text encoder for extracting a semantic expression vector of the question text and an image of a predetermined image. It includes an image encoder for extracting features.
勿論、本発明の実施例で提供されるコンピュータ読み取り可能な記憶媒体は、本発明の任意の実施例で提供される視覚的質問応答モデルを実行することもできる。 Of course, the computer-readable storage medium provided in the embodiments of the present invention can also carry out the visual question answering model provided in any of the embodiments of the present invention.
本発明の実施例のコンピュータ記憶媒体は、1つまたは複数のコンピュータ読み取り可能な媒体の任意の組み合わせを使用することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体であり得る。コンピュータ読み取り可能な記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、またはデバイス、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(非網羅的なリスト)は、1つまたは複数のリード線を備えた電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CDーROM)、光学記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含む。本明細書では、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置、またはデバイスによって使用され、またはそれらと組み合わせて使用できるプログラムを含む、または格納できる任意の有形の媒体であり得る。 As the computer storage medium of the embodiment of the present invention, any combination of one or more computer-readable media can be used. The computer-readable medium can be a computer-readable signal medium or a computer-readable storage medium. The computer-readable storage medium can be, but is not limited to, for example, electronic, magnetic, optical, electromagnetic, infrared, or semiconductor systems, devices, or devices, or any combination of the above. More specific examples (non-exhaustive lists) of computer-readable storage media are electrical connections with one or more leads, portable computer disks, hard disks, random access memory (RAM), and read-only memory. Includes (ROM), erasable programmable read-only memory (EPROM or flash memory), optical fiber, portable compact disk read-only memory (CD-ROM), optical storage, magnetic storage, or any suitable combination of the above. .. As used herein, a computer-readable storage medium can be any tangible medium that can contain or store programs that can be used by, or combined with, instruction execution systems, devices, or devices.
コンピュータ読み取り可能なの信号媒体は、ベースバンドにおける、または搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なプログラムコードが含まれる。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号または上記の任意の適切な組み合わせを含むがこれらに限定されない。さらに、コンピュータ読み取り可能なの信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、当該コンピュータ読み取り可能な媒体は、命令実行システム、装置またはデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播または伝送することができる。 Computer-readable signal media can include data signals propagating in the baseband or as part of a carrier wave, including computer-readable program code. The propagating data signal can adopt a variety of formats, including but not limited to electromagnetic signals, optical signals or any suitable combination of the above. Further, the computer-readable signal medium may be any computer-readable medium other than the computer-readable storage medium, which is used by the instruction execution system, device or device. Alternatively, a program used in combination with them can be transmitted, propagated or transmitted.
コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、RFなど、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送することができる。 The program code contained in the computer-readable medium can be transmitted by any suitable medium including, but not limited to, wireless, wired, optical cable, RF, etc., or any suitable combination described above.
1つまたは複数のプログラミング言語またはそれらの組み合わせで本発明の動作を実行するためのコンピュータプログラムコードを作成することができ、前記プログラミング言語は、Java(登録商標)、Smalltalk、C++などのプロジェクト指向のプログラミング言語を含み、「C」言語または類似のプログラミング言語のような従来の手続き型プログラミング言語をさらに含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、または完全にリモートコンピュータまたはサーバーで実行してもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザーのコンピュータに接続でき、または、外部コンピュータに接続できる(例えば、インターネットサービスプロバイダを利用して、インターネット経由で接続する)。 Computer programming code for performing the operations of the present invention can be created in one or more programming languages or a combination thereof, the programming languages being project-oriented such as Java®, Smalltalk, C ++. Includes programming languages, further including traditional procedural programming languages such as "C" or similar programming languages. The program code may be executed entirely on the user computer, partially on the user computer, as a stand-alone software package, or partially on the user computer. It may run on a remote computer, or it may run entirely on a remote computer or server. For remote computers, the remote computer can connect to the user's computer or to an external computer (eg, the Internet) over any type of network, including local area networks (LANs) or wide area networks (WANs). Connect via the Internet using a service provider).
なお、上記は、本発明の好ましい実施例およびそれらに適用される技術的原理に過ぎないことに留意されたい。当業者は、本発明が本明細書に記載の特定の実施例に限定されず、本発明の範囲から逸脱することなく様々な変形、再調整、および置き換えを行うことができることを理解することができる。したがって、本発明を上記実施例により詳細に説明したが、本発明は上記実施例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で同等の実施例を含むことができる。本発明の範囲は、特許請求の範囲によって決定される。 It should be noted that the above are merely preferred embodiments of the present invention and technical principles applied thereto. Those skilled in the art will appreciate that the invention is not limited to the particular embodiments described herein and that various modifications, readjustments, and replacements can be made without departing from the scope of the invention. it can. Therefore, although the present invention has been described in detail with reference to the above examples, the present invention is not limited to the above examples, and equivalent examples can be included without departing from the spirit of the present invention. The scope of the present invention is determined by the scope of claims.
Claims (6)
前記セマンティック表現ベクトルと組み合わせて所定画像の画像特徴を抽出するための画像エンコーダと、
を備える視覚的質問応答モデル。 A text encoder for pooling the word vector sequence of the input question text to extract the semantic representation vector of the question text,
An image encoder for extracting image features of a predetermined image in combination with the semantic expression vector,
A visual question answering model with.
入力された質問テキストの単語ベクトルシーケンスを最大化プーリング処理するか、平均化プーリング処理することにより、前記質問テキストのセマンティック表現ベクトルを抽出する請求項1に記載のモデル。 Specifically, the text encoder
The model according to claim 1, wherein a semantic expression vector of the question text is extracted by maximizing pooling or averaging the word vector sequence of the input question text.
f(w1,w2,...,wk)=max([w1,w2,...,wk],dim=1)
ただし、fは最大化プーリング処理関数を表し、kは前記質問テキストに含まれる単語ベクトルの数であり、wiは、予めトレーニングされた単語ベクトルモデルを利用して前記質問テキストを処理することによって得られたi番目の単語ベクトルであり、iは[1,k]内の自然数であり、max([w1,w2,...、wk],dim=1)は単語ベクトルw1,w2,...,wkにおける各単語ベクトルに対応する次元の最大値を表す。 The model according to claim 2, wherein the maximized pooling process is represented by the following equation.
f (w1, w2, ..., wk) = max ([w1, w2, ..., wk], dim = 1)
Where f represents the maximized pooling processing function, k is the number of word vectors contained in the question text, and wi is obtained by processing the question text using a pre-trained word vector model. Is the i-th word vector obtained, i is a natural number in [1, k], and max ([w1, w2, ..., wk], dim = 1) is the word vector w1, w2, .. ., Represents the maximum value of the dimension corresponding to each word vector in wk.
1つまたは複数のプログラムを記憶するためのメモリと、を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行される場合、前記1つまたは複数のプロセッサが請求項1から4のいずれか一項に記載の視覚的質問応答モデルを実行する電子機器。 With one or more processors
An electronic device comprising a memory for storing one or more programs.
When the one or more programs are executed by the one or more processors, the one or more processors execute the visual question-and-answer model according to any one of claims 1 to 4. Electronics.
当該プログラムがプロセッサによって実行された場合、請求項1から4のいずれか一項に記載の視覚的質問応答モデルが実行されるコンピュータ読み取り可能な記憶媒体。 A computer-readable storage medium that stores computer programs
A computer-readable storage medium on which the visual question answering model according to any one of claims 1 to 4 is executed when the program is executed by a processor.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910185125.9 | 2019-03-12 | ||
CN201910185125.9A CN109902166A (en) | 2019-03-12 | 2019-03-12 | Vision Question-Answering Model, electronic equipment and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020149685A true JP2020149685A (en) | 2020-09-17 |
Family
ID=66947100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020041593A Pending JP2020149685A (en) | 2019-03-12 | 2020-03-11 | Visual question answering model, electronic device, and storage medium |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200293921A1 (en) |
EP (1) | EP3709207A1 (en) |
JP (1) | JP2020149685A (en) |
KR (1) | KR102403108B1 (en) |
CN (1) | CN109902166A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022141587A (en) * | 2021-03-15 | 2022-09-29 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Method and apparatus for acquiring pretraining model |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298338B (en) * | 2019-06-20 | 2021-08-24 | 北京易道博识科技有限公司 | Document image classification method and device |
CN110516530A (en) * | 2019-07-09 | 2019-11-29 | 杭州电子科技大学 | A kind of Image Description Methods based on the enhancing of non-alignment multiple view feature |
CN110348535B (en) * | 2019-07-17 | 2022-05-31 | 北京金山数字娱乐科技有限公司 | Visual question-answering model training method and device |
CN110516791B (en) * | 2019-08-20 | 2022-04-22 | 北京影谱科技股份有限公司 | Visual question-answering method and system based on multiple attention |
CN110851760B (en) * | 2019-11-12 | 2022-12-27 | 电子科技大学 | Human-computer interaction system for integrating visual question answering in web3D environment |
CN110852043B (en) * | 2019-11-19 | 2023-05-23 | 北京字节跳动网络技术有限公司 | Text transcription method, device, equipment and storage medium |
CN111967487B (en) * | 2020-03-23 | 2022-09-20 | 同济大学 | Incremental data enhancement method for visual question-answer model training and application |
CN111898678A (en) * | 2020-07-30 | 2020-11-06 | 北京嘀嘀无限科技发展有限公司 | Method and system for classifying samples |
CN112148836A (en) * | 2020-09-07 | 2020-12-29 | 北京字节跳动网络技术有限公司 | Multi-modal information processing method, device, equipment and storage medium |
US11901047B2 (en) * | 2020-10-28 | 2024-02-13 | International Business Machines Corporation | Medical visual question answering |
US11783008B2 (en) * | 2020-11-06 | 2023-10-10 | Adobe Inc. | Machine-learning tool for generating segmentation and topic metadata for documents |
CN112651403B (en) * | 2020-12-02 | 2022-09-06 | 浙江大学 | Zero-sample visual question-answering method based on semantic embedding |
CN112559713B (en) * | 2020-12-24 | 2023-12-01 | 北京百度网讯科技有限公司 | Text relevance judging method and device, model, electronic equipment and readable medium |
CN112685548B (en) * | 2020-12-31 | 2023-09-08 | 科大讯飞(北京)有限公司 | Question answering method, electronic device and storage device |
CN113033580B (en) * | 2021-03-31 | 2024-02-02 | 北京有竹居网络技术有限公司 | Image processing method, device, storage medium and electronic equipment |
CN113033579B (en) * | 2021-03-31 | 2023-03-21 | 北京有竹居网络技术有限公司 | Image processing method, image processing device, storage medium and electronic equipment |
CN113205507B (en) * | 2021-05-18 | 2023-03-10 | 合肥工业大学 | Visual question answering method, system and server |
CN113360699B (en) * | 2021-06-30 | 2023-09-26 | 北京百度网讯科技有限公司 | Model training method and device, and image question-answering method and device |
CN113656570A (en) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | Visual question answering method and device based on deep learning model, medium and equipment |
CN113722458A (en) * | 2021-08-27 | 2021-11-30 | 海信电子科技(武汉)有限公司 | Visual question answering processing method, device, computer readable medium and program product |
CN113849623B (en) * | 2021-10-12 | 2024-04-09 | 中国传媒大学 | Text visual question-answering method and device |
CN114495130B (en) * | 2021-12-27 | 2023-03-24 | 北京百度网讯科技有限公司 | Cross-modal information-based document reading understanding model training method and device |
CN114840656B (en) * | 2022-05-18 | 2024-03-01 | 北京百度网讯科技有限公司 | Visual question-answering method, device, equipment and storage medium |
CN115618061B (en) * | 2022-11-29 | 2023-03-10 | 广东工业大学 | Semantic-aligned video question-answering method |
CN115880506B (en) * | 2022-12-27 | 2024-03-08 | 北京百度网讯科技有限公司 | Image generation method, model training method and device and electronic equipment |
CN115688083B (en) * | 2022-12-29 | 2023-03-28 | 广东工业大学 | Method, device and equipment for identifying image-text verification code and storage medium |
CN116257611B (en) * | 2023-01-13 | 2023-11-10 | 北京百度网讯科技有限公司 | Question-answering model training method, question-answering processing device and storage medium |
CN115905591B (en) * | 2023-02-22 | 2023-05-30 | 浪潮电子信息产业股份有限公司 | Visual question-answering method, system, equipment and readable storage medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017534956A (en) * | 2015-05-21 | 2017-11-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | Multilingual image question answering |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
SG11202000855VA (en) * | 2017-08-17 | 2020-02-27 | Nat Univ Singapore | Video visual relation detection methods and systems |
-
2019
- 2019-03-12 CN CN201910185125.9A patent/CN109902166A/en active Pending
-
2020
- 2020-01-02 KR KR1020200000226A patent/KR102403108B1/en active IP Right Grant
- 2020-01-09 EP EP20150895.9A patent/EP3709207A1/en not_active Withdrawn
- 2020-01-23 US US16/750,304 patent/US20200293921A1/en not_active Abandoned
- 2020-03-11 JP JP2020041593A patent/JP2020149685A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017534956A (en) * | 2015-05-21 | 2017-11-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | Multilingual image question answering |
Non-Patent Citations (4)
Title |
---|
DINGHAN SHEN、他8名: "Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms", ARXIV[ONLINE], JPN7021004484, 24 May 2018 (2018-05-24), ISSN: 0004750828 * |
FELIX SCHNEIDER: "Towards End-To-End Information Retrieval: Enabling Question Answering Systems To Answer Open-Domain", INTERACTIVE SYSTEMS LAB, JPN7021004483, 25 October 2018 (2018-10-25), ISSN: 0004750829 * |
PENG WANG、他3名: "The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions", ARXIV[ONLINE], JPN7021001038, 16 December 2016 (2016-12-16), ISSN: 0004750830 * |
YE ZHANG、他1名: "A Sensitivity Analysis of(and Practitioners' Guide to) Convolutional Neural Networks for Sentence Cl", ARXIV[ONLINE], JPN7021001039, 6 April 2016 (2016-04-06), ISSN: 0004750831 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022141587A (en) * | 2021-03-15 | 2022-09-29 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Method and apparatus for acquiring pretraining model |
Also Published As
Publication number | Publication date |
---|---|
KR20200110154A (en) | 2020-09-23 |
EP3709207A1 (en) | 2020-09-16 |
KR102403108B1 (en) | 2022-05-26 |
US20200293921A1 (en) | 2020-09-17 |
CN109902166A (en) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020149685A (en) | Visual question answering model, electronic device, and storage medium | |
CN107293296B (en) | Voice recognition result correction method, device, equipment and storage medium | |
CN107291867B (en) | Dialog processing method, device and equipment based on artificial intelligence and computer readable storage medium | |
CN107463601B (en) | Dialog understanding system construction method, device and equipment based on artificial intelligence and computer readable storage medium | |
JP2023541119A (en) | Character recognition model training method, character recognition method, device, electronic device, storage medium and computer program | |
WO2021175007A1 (en) | Online customer service consultation method and apparatus, medium, and electronic device | |
US20200279147A1 (en) | Method and apparatus for intelligently recommending object | |
CN108415939B (en) | Dialog processing method, device and equipment based on artificial intelligence and computer readable storage medium | |
CN111291882A (en) | Model conversion method, device, equipment and computer storage medium | |
CN107908641A (en) | A kind of method and system for obtaining picture labeled data | |
CN111832449A (en) | Engineering drawing display method and related device | |
CN110867231A (en) | Disease prediction method, device, computer equipment and medium based on text classification | |
WO2022048170A1 (en) | Method and apparatus for conducting human-machine conversation, computer device, and storage medium | |
CN112949758A (en) | Response model training method, response method, device, equipment and storage medium | |
EP4287074A1 (en) | Mixture-of-experts model implementation method and system, electronic device, and storage medium | |
CN110850982B (en) | AR-based man-machine interaction learning method, system, equipment and storage medium | |
CN114840734A (en) | Training method of multi-modal representation model, cross-modal retrieval method and device | |
CN114780701A (en) | Automatic question-answer matching method, device, computer equipment and storage medium | |
CN113239799A (en) | Training method, recognition method, device, electronic equipment and readable storage medium | |
CN114783597B (en) | Method and device for diagnosing multi-class diseases, electronic equipment and storage medium | |
CN116340778A (en) | Medical large model construction method based on multiple modes and related equipment thereof | |
CN113656555B (en) | Training method, device, equipment and medium for nested named entity recognition model | |
CN115762704A (en) | Prescription auditing method, device, equipment and storage medium | |
CN114297022A (en) | Cloud environment anomaly detection method and device, electronic equipment and storage medium | |
CN109360631B (en) | Man-machine interaction method and device based on picture recognition, computer equipment and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210630 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220225 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220225 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220310 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220315 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20220415 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20220419 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220802 |
|
C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20220913 |
|
C28A | Non-patent document cited |
Free format text: JAPANESE INTERMEDIATE CODE: C2838 Effective date: 20220913 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20221011 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20230131 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20230307 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20230307 |