JP2020053018A - Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体 - Google Patents
Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体 Download PDFInfo
- Publication number
- JP2020053018A JP2020053018A JP2019131052A JP2019131052A JP2020053018A JP 2020053018 A JP2020053018 A JP 2020053018A JP 2019131052 A JP2019131052 A JP 2019131052A JP 2019131052 A JP2019131052 A JP 2019131052A JP 2020053018 A JP2020053018 A JP 2020053018A
- Authority
- JP
- Japan
- Prior art keywords
- training data
- question
- image
- data generation
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、本発明の一実施形態を実施することができる例示的な環境100を示す概略図である。例示的な環境100は、VQAシステム用のモデル(「VQAモデル」ともいう)の訓練プロセスを示す。本明細書において、「モデル」という用語は、訓練データから対応する入力と出力との関連を学習することができ、訓練が完了した後に、与えられた入力に対して対応する出力を生成することができる。図1において、本発明の範囲を限定することを一切暗示することなく、環境100の構成および機能を例示する目的のみのために記載されていることを理解されるべきである。本発明の実施形態は、異なる構成および/または機能を有する環境にも適用することができる。
以下に図1を参照して訓練データ生成方法200を詳細に説明する。
訓練データ生成方法200が、示されていない付加的なステップをさらに含んでもよく、および/または示されているステップを省略してもよいことを理解されるべきである。本発明の範囲は、この点に限定されない。
図3は、質問311および質問311に対応する回答312と、質問321および質問321に対応する回答322とを含む、訓練画像310に対して予め注記された訓練データ集合101をさらに例示的に示す。図3に示されるように、質問311は「女性は何物の隣に立っているのですか(What is the woman standing next to)」であり、回答312は「彼女の所持品(Her belongings)」である。質問321は「消火栓は何色ですか(What color is the fire hydrant)」であり、答え322は「黄色(Yellow)」である。図3に示されるような質問311と回答312との組み合わせ、または質問321と回答322との組み合わせが、第1のセットの訓練データの一例とすることができる。
方法400は、図2に示すステップ230の一例として実現することができる。例えば、方法400は、図1に示す訓練データ拡張装置110によって実行することができる。方法400は、示されていない付加的ステップをさらに含んでもよく、および/または示されているステップを省略してもよいことを理解されるべきである。本発明の範囲は、この点に限定されない。
訓練データ生成装置500は、例えば、図1の訓練データ拡張装置110で実施することができる。図5に示されるように、装置500は、第1の取得モジュール510と、第2の取得モジュール520と、質問生成モジュール530とを備えている。
電子機器600は、図1に示す訓練データ拡張装置110および/またはモデル訓練装置120を実現することができる。
図示のように、電子機器600は、読み出し専用メモリ(ROM)602に記憶されているコンピュータプログラム命令または記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラム命令に従ってさまざまな適切な動作およびプロセスを実行可能な中央処理装置(CPU)601を備える。
RAM603には、機器600の動作に必要な各種のプログラムやデータも記憶可能である。CPU601、ROM602およびRAM603は、バス604を介して相互に接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
本実施形態においては、コンピュータプログラムの少なくとも一部は、ROM602および/または通信ユニット609を介して機器600にロードおよび/またはインストールすることができる。
コンピュータプログラムがRAM603にロードされ、CPU601によって実行されると、上記の訓練データ生成方法200および/または方法400の少なくとも1つのステップが実行される。また、変形例としては、CPU601は、任意の他の適切な手段によって(例えば、ファームウェアによって)訓練データ生成方法200および/または方法400を実行するように構成されてもよい。
Claims (20)
- 視覚的質問応答システムの訓練データを生成する訓練データ生成方法であって、
前記視覚的質問応答システムシステムにおける画像に対する第1の質問と該第1の質問に対応する第1の回答とを含む、前記視覚的質問応答システムの第1セットの訓練データを取得するステップと、
前記画像に関する情報を取得するステップと、
前記情報に基づいて、前記第1の回答に対応する第2の質問を生成して、前記視覚的質問応答システムにおける前記画像に対する、前記第2の質問と前記第1の回答とを含む第2セットの訓練データを取得するステップとを含む視覚的質問応答システムの訓練データを生成する訓練データ生成方法。 - 前記第1セットの訓練データを取得するステップが、予め注記された前記視覚的質問応答システムに対する既存の訓練データ集合から前記第1セットの訓練データを取得するステップを含む請求項1に記載の訓練データ生成方法。
- 前記情報を取得するステップは、
前記画像に対して予め注記された、前記画像内の少なくとも1つの対象を識別する第1の情報、少なくとも1つの前記対象間の関係を識別する第2の情報、および少なくとも1つの前記対象の対応する属性を識別する第3の情報のうちの少なくとも1つを取得するステップを含む請求項1に記載の訓練データ生成方法。 - 前記第2の質問を生成するステップは、
前記第1の質問における、前記画像内の対象を説明するためのキーワードを決定するステップと、
前記キーワードの上位語を決定するステップと、
前記情報に基づいて、前記上位語を限定するための少なくとも1つの制約条件を生成して、少なくとも1つの該制約条件によって限定された前記上位語により、前記画像内の前記対象を一意に識別するステップと、
前記上位語と少なくとも1つの前記制約条件とに基づいて、前記第1の質問を前記第2の質問に変換するステップとを含む請求項1に記載の訓練データ生成方法。 - 前記上位語を決定するステップが、語彙辞書を検索することによって前記キーワードの前記上位語を決定するステップを含む請求項4に記載の訓練データ生成方法。
- 前記情報が前記対象と前記画像内の他の対象との関係を識別し、
少なくとも1つの前記制約条件を生成するステップが、前記関係に基づいて少なくとも1つの前記制約条件のうちの少なくとも1つを生成するステップを含む請求項4に記載の訓練データ生成方法。 - 前記情報が前記対象の属性を識別し、
少なくとも1つの前記制約条件を生成するステップが、前記属性に基づいて少なくとも1つの前記制約条件のうちの少なくとも1つを生成するステップを含む請求項4に記載の訓練データ生成方法。 - 少なくとも1つの前記制約条件を生成するステップが、前記情報に基づいて少なくとも1つの前記制約条件を生成して、少なくとも1つの前記制約条件の数を所定の閾値より小さくするステップを含む請求項4に記載の訓練データ生成方法。
- 前記第1の質問を前記第2の質問に変換するステップが、少なくとも1つの前記制約条件によって限定された前記上位語で前記第1の質問における前記キーワードを置き換えて前記第2の質問を取得するステップを含む請求項4に記載の訓練データ生成方法。
- 視覚的質問応答システムの訓練データを生成する装置であって、
前記視覚的質問応答システムにおける画像に対する第1の質問と該第1の質問に対応する第1の回答とを含む、前記視覚的質問応答システムの第1セットの訓練データを取得する第1の取得モジュールと、
前記画像に関する情報を取得する第2の取得モジュールと、
前記情報に基づいて、前記第1の回答に対応する第2の質問を生成して、前記視覚的質問応答システムにおける前記画像に対する、前記第2の質問と前記第1の回答とを含む第2セットの訓練データを取得する質問生成モジュールとを備える視覚的質問応答システムの訓練データ生成装置。 - 前記第1の取得モジュールが、予め注記された前記視覚的質問応答システムに対する既存の訓練データ集合から前記第1セットの訓練データを取得する請求項10に記載の訓練データ生成装置。
- 前記第2の取得モジュールが、前記画像に対して予め注記された、前記画像内の少なくとも1つの対象を識別する第1の情報、少なくとも1つの前記対象間の関係を識別する第2の情報、および少なくとも1つの前記対象の対応する属性を識別する第3の情報のうちの少なくとも1つを取得する請求項10に記載の訓練データ生成装置。
- 前記質問生成モジュールは、
前記第1の質問における、前記画像内の対象を説明するためのキーワードを決定する第1の決定ユニットと、
前記キーワードの上位語を決定する第2の決定ユニットと、
前記情報に基づいて、前記上位語を限定するための少なくとも1つの制約条件を生成して、少なくとも1つの前記制約条件によって限定された前記上位語により、前記画像内の前記対象を一意に識別する生成ユニットと、
前記上位語と少なくとも1つの前記制約条件とに基づいて、前記第1の質問を前記第2の質問に変換する変換ユニットとを備える請求項10に記載の訓練データ生成装置。 - 前記第2の決定ユニットが、語彙辞書を検索することによって前記キーワードの前記上位語を決定する請求項13に記載の訓練データ生成装置。
- 前記情報が前記対象と前記画像内の他の対象との関係を識別し、
前記生成ユニットが、前記関係に基づいて少なくとも1つの前記制約条件のうちの少なくとも1つを生成する請求項13に記載の訓練データ生成装置。 - 前記情報が前記対象の属性を識別し、
前記生成ユニットが、前記属性に基づいて少なくとも1つの前記制約条件のうちの少なくとも1つを生成する請求項13に記載の訓練データ生成装置。 - 前記生成ユニットが、前記情報に基づいて少なくとも1つの前記制約条件を生成して、少なくとも1つの前記制約条件の数を所定の閾値より小さくする請求項13に記載の訓練データ生成装置。
- 前記変換ユニットが、少なくとも1つの前記制約条件によって限定された前記上位語で前記第1の質問における前記キーワードを置き換えて前記第2の質問を取得する請求項13に記載の訓練データ生成装置。
- 少なくとも1つのプロセッサと、
少なくとも1つのプログラムが記憶されている記憶装置とを備え、
少なくとも1つの前記プログラムが少なくとも1つの前記プロセッサによって実行される場合に、少なくとも1つの前記プロセッサが、請求項1から請求項9のいずれかに記載の訓練データ生成方法を実現する電子機器。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される場合に、請求項1から請求項9のいずれかに記載の訓練データ生成方法が実現されるコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811134016.6A CN109241267B (zh) | 2018-09-27 | 2018-09-27 | 生成vqa系统的训练数据的方法、装置、设备和介质 |
CN201811134016.6 | 2018-09-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020053018A true JP2020053018A (ja) | 2020-04-02 |
JP6975752B2 JP6975752B2 (ja) | 2021-12-01 |
Family
ID=65057316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019131052A Active JP6975752B2 (ja) | 2018-09-27 | 2019-07-16 | Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11521118B2 (ja) |
EP (1) | EP3629253A1 (ja) |
JP (1) | JP6975752B2 (ja) |
KR (1) | KR102261977B1 (ja) |
CN (1) | CN109241267B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023153082A1 (ja) * | 2022-02-08 | 2023-08-17 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871457A (zh) | 2019-01-30 | 2019-06-11 | 北京百度网讯科技有限公司 | 基于图像的数据处理方法、装置、电子设备和存储介质 |
CN109858555B (zh) * | 2019-02-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于图像的数据处理方法、装置、设备及可读存储介质 |
CN111949824B (zh) * | 2020-07-08 | 2023-11-03 | 合肥工业大学 | 基于语义对齐的视觉问答方法和系统、存储介质 |
CN112651403B (zh) * | 2020-12-02 | 2022-09-06 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017091525A (ja) * | 2015-11-03 | 2017-05-25 | バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10339453B2 (en) * | 2013-12-23 | 2019-07-02 | International Business Machines Corporation | Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation |
CN104572998B (zh) * | 2015-01-07 | 2017-09-01 | 北京云知声信息技术有限公司 | 用于自动问答系统的问答排序模型更新方法及装置 |
US9910886B2 (en) * | 2015-04-17 | 2018-03-06 | International Business Machines Corporation | Visual representation of question quality |
US10909329B2 (en) | 2015-05-21 | 2021-02-02 | Baidu Usa Llc | Multilingual image question answering |
CN105630887B (zh) * | 2015-12-18 | 2017-06-16 | 北京中科汇联科技股份有限公司 | 中文问答系统 |
CN106339756B (zh) * | 2016-08-25 | 2019-04-02 | 北京百度网讯科技有限公司 | 训练数据的生成方法、搜索方法以及装置 |
KR102017853B1 (ko) | 2016-09-06 | 2019-09-03 | 주식회사 카카오 | 검색 방법 및 장치 |
WO2018165579A1 (en) * | 2017-03-10 | 2018-09-13 | Eduworks Corporation | Automated tool for question generation |
CN108090169A (zh) * | 2017-12-14 | 2018-05-29 | 上海智臻智能网络科技股份有限公司 | 问句扩展方法及装置、存储介质、终端 |
-
2018
- 2018-09-27 CN CN201811134016.6A patent/CN109241267B/zh active Active
-
2019
- 2019-07-16 JP JP2019131052A patent/JP6975752B2/ja active Active
- 2019-08-07 US US16/534,036 patent/US11521118B2/en active Active
- 2019-08-14 EP EP19191673.3A patent/EP3629253A1/en not_active Ceased
- 2019-09-05 KR KR1020190109836A patent/KR102261977B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017091525A (ja) * | 2015-11-03 | 2017-05-25 | バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 |
Non-Patent Citations (1)
Title |
---|
ISSEY MASUDA MORA, SANTIAGO PASCUAL DE LA PUENTE, XAVIER GIRO-I-NIETO: "Towards Automatic Generation of Question Answer Pairs from Images", VISUAL QUESTION ANSWERING CHALLENGE WORKSHOP, CVPR 2016, JPN6020034431, 2016, US, ISSN: 0004345024 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023153082A1 (ja) * | 2022-02-08 | 2023-08-17 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR102261977B1 (ko) | 2021-06-08 |
EP3629253A1 (en) | 2020-04-01 |
US11521118B2 (en) | 2022-12-06 |
CN109241267B (zh) | 2022-07-01 |
CN109241267A (zh) | 2019-01-18 |
JP6975752B2 (ja) | 2021-12-01 |
US20200104742A1 (en) | 2020-04-02 |
KR20200036741A (ko) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020053018A (ja) | Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体 | |
JP6601470B2 (ja) | 自然言語の生成方法、自然言語の生成装置及び電子機器 | |
US20230162723A1 (en) | Text data processing method and apparatus | |
Grefenstette et al. | A deep architecture for semantic parsing | |
WO2018192269A1 (zh) | 计算机模拟人脑学习知识的方法、逻辑推理机及类脑人工智能服务平台 | |
US10083398B2 (en) | Framework for annotated-text search using indexed parallel fields | |
US9703773B2 (en) | Pattern identification and correction of document misinterpretations in a natural language processing system | |
JP2020057359A (ja) | 訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な記憶媒体 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
US20230206661A1 (en) | Device and method for automatically generating domain-specific image caption by using semantic ontology | |
CN112214584A (zh) | 使用知识图利用实体关系来发现答案 | |
CN107291692A (zh) | 基于人工智能的分词模型的定制方法、装置、设备和介质 | |
CN111444313B (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
CN104021117A (zh) | 语言处理方法与电子设备 | |
US20190034408A1 (en) | Unsupervised Template Extraction | |
CN110442877B (zh) | 使用机器人规划作为平行语言语料库 | |
US10303765B2 (en) | Enhancing QA system cognition with improved lexical simplification using multilingual resources | |
WO2022001724A1 (zh) | 一种数据处理方法及装置 | |
US20210311985A1 (en) | Method and apparatus for image processing, electronic device, and computer readable storage medium | |
CN112632924B (zh) | 规则化执行序列标注的方法、系统、电子设备及存储介质 | |
US10303764B2 (en) | Using multilingual lexical resources to improve lexical simplification | |
KR20200068105A (ko) | 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템 | |
CN111209348B (zh) | 用于输出信息的方法和装置 | |
Sutherland | Using Dependency Parse Trees as a Method for Grounding Verbal Descriptions to Perceived Objects | |
KR20200075465A (ko) | 문장 복원 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211026 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6975752 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |