JP2020053018A

JP2020053018A - Ｖｑａシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体

Info

Publication number: JP2020053018A
Application number: JP2019131052A
Authority: JP
Inventors: ピンピンファン，; Pingping Huang; ミンキャオ，; Min Qiao
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-09-27
Filing date: 2019-07-16
Publication date: 2020-04-02
Anticipated expiration: 2039-07-16
Also published as: KR102261977B1; EP3629253A1; US11521118B2; CN109241267B; CN109241267A; JP6975752B2; US20200104742A1; KR20200036741A

Abstract

【課題】視覚的質問応答（ＶＱＡ）システムの訓練データを生成する。【解決手段】訓練データ生成方法２００は、ＶＱＡシステムにおける画像に対する第１の質問と第１の質問に対応する第１の回答とを含む、ＶＱＡシステムの第１セットの訓練データを取得するステップ２１０と、画像に関する情報を取得するステップ２２０と、情報に基づいて、第１の回答に対応する第２の質問を生成して、ＶＱＡシステムにおける画像に対する、第２の質問と第１の回答とを含む第２セットの訓練データを取得するステップ２３０とを含む。【効果】ＶＱＡシステム用の大量の訓練データを自動的、低コスト、かつ効率的に取得し、モデル訓練の効率を向上できる。また、取得された訓練データには画像に対する推理的質問が含まれているので、画像に対するＶＱＡシステムの理解能力を向上できる。【選択図】図２

Description

本発明は、コンピュータの分野に関し、より詳細には、視覚的質問応答（ＶｉｓｕａｌＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ、ＶＱＡ）システムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な記憶媒体に関する。

ＶＱＡシステムは、コンピュータビジョン、自然言語処理および知識表示（ＫＲ）などの多くの分野に関わっており、現在、既に人工知能研究のホットスポットとなっている。与えられた画像について、ＶＱＡシステムは、画像をめぐる質問に答えることができる。つまり、ＶＱＡシステムは、画像および画像に対する質問を受信して入力とし、質問に対する自然言語の回答を生成して出力とする。現在、ＶＱＡシステムは、一般的に、監督付きの機械学習方法に基づいて実現され、訓練データとして、大量の訓練画像と、訓練画像をめぐる質問および回答とを用いることにより、訓練されたモデルは、画像内容に基づいて質問に答えることができる。このような訓練方法の効果は、訓練データの量に直接頼っている。

現在、ＶＱＡシステム用の訓練データは、一般的に、手動注記によって取得される。例えば、与えられた訓練画像について、注記者は、当該画像に対して質問をし、対応する回答を注記する。このような方式は、コストが高く、速度が遅く、訓練データ量が限られている。また、注記者は、一般的に、画像内の目標対象をめぐって直接質問するため、訓練データにおける質問の形式が簡単であり、目標対象に対するより複雑な説明および推理に関わっていない。従って、訓練されたモデルは、画像内容に対するより深い理解を実現することができないため、画像に対する複雑な推理的質問に答えることができない。

本発明の例示的な実施例によれば、ＶＱＡシステムの訓練データを生成する訓練データ生成方法が提供される。

本発明の第１の態様では、ＶＱＡシステムの訓練データを生成する訓練データ生成方法が提供される。訓練データ生成方法は、ＶＱＡシステムにおける画像に対する第１の質問と該第１の質問に対応する第１の回答とを含む、前記視覚的質問応答システムの第１セットの訓練データを取得するステップと、前記画像に関する情報を取得するステップと、前記情報に基づいて、第１の回答に対応する第２の質問を生成して、前記ＶＱＡシステムにおける前記画像に対する、前記第２の質問と前記第１の回答とを含む第２セットの訓練データを取得するステップとを含む。

本発明の第２の態様では、ＶＱＡシステムの訓練データを生成する訓練データ生成装置が提供される。訓練データ生成装置は、ＶＱＡシステムにおける画像に対する第１の質問と該第１の質問に対応する第１の回答とを含む、前記ＶＱＡシステムの第１セットの訓練データを取得する第１の取得モジュールと、前記画像に関する情報を取得する第２の取得モジュールと、前記情報に基づいて、前記第１の回答に対応する第２の質問を生成して、前記ＶＱＡシステムにおける前記画像に対する、前記第２の質問と前記第１の回答とを含む第２セットの訓練データを取得する質問生成モジュールとを備える。

本発明の第３の態様では、電子機器が提供される。電子機器は、少なくとも１つのプロセッサと、少なくとも１つのプログラムが記憶されている記憶装置とを備え、少なくとも１つの前記プログラムが少なくとも１つの前記プロセッサによって実行される場合に、少なくとも１つの前記プロセッサが、上記の訓練データ生成方法を実現する。

本発明の第４の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体が提供される。コンピュータプログラムがプロセッサによって実行される場合に、上記の訓練データ生成方法が実現される。

なお、発明の内容部分に記載された内容は、本発明の実施例の肝心または重要な特徴を限定することを意図するものではなく、本発明の範囲を限定することを意図するものでもない。本発明の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面を合わせて以下の詳細な説明を参照することにより、本発明の各実施例の上記および他の特徴、利点および態様がより明らかになる。図面において同一または類似する符号は、常に同一または類似する構成要素を表す。
本発明の一実施形態に係る訓練データ生成方法を実施することができる例示的な環境を示す概略図である。本発明の一実施形態に係るＶＱＡシステムの訓練データを生成する訓練データ生成方法のフローチャートを示す。本発明の一実施形態に係る例示に基づいてデータを訓練する概略図である。本発明の一実施形態に係る推理的質問を生成する方法のフローチャートを示す。本発明の一実施形態に係るＶＱＡシステムの訓練データを生成する訓練データ生成装置のブロック図である。本発明の一実施形態に係る訓練データ生成方法を実施することができるコンピューティング機器のブロック図を示す。

本発明の一実施形態について、図面を参照して以下により詳細に説明する。本発明のいくつかの実施例が図面に示されているが、本発明が様々な形態で実現することができ、本明細書に記載の実施例に限定されると解釈されるべきではない。逆に、これらの実施例を提供することで本発明がより明白、且つ完全に理解されるためのものであると理解されるべきである。本発明の図面および実施例は、例示的なものにすぎず、本発明の保護範囲を限定するものではないと理解されるべきである。

本発明の実施例の説明において、「含む」という用語および類似の用語は、開放的に含む、すなわち、「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味すると理解されるべきである。「一実施形態」または「本実施形態」という用語は、「少なくとも一つの実施例」を意味すると理解されるべきである。「第１」、「第２」などの用語は、異なる対象または同一の対象を指すことができる。以下の説明は、他の明示的および暗示的な定義も含むことができる。

上述したように、従来の方法では、ＶＱＡシステム用の訓練データは、一般的に、手動注記によって取得される。例えば、与えられた訓練画像について、注記者は、画像に対して質問をし、対応する回答を注記する。このような方式は、コストが高く、速度が遅く、訓練データ量が限られている。また、注記者は、一般的に、画像内の目標対象をめぐって直接質問するため、訓練データにおける質問の形式が簡単であり、目標対象に対するより複雑な説明および推理に関わっていない。従って、訓練されたモデルは、画像内容に対するより深い理解を実現することができないため、画像に対する複雑な推理的質問に答えることができない。

本発明の一実施形態によれば、ＶＱＡシステムの訓練データを生成する訓練データ生成方法が提示される。この訓練データ生成方法は、訓練画像に対して予め注記された物体関係および物体属性などの情報を利用して、既存の訓練データ集合における手動注記された、簡単な質問を有する訓練データに基づいて、推理的質問を有する訓練データを自動的に生成する。このような方式で、訓練データ生成方法は、ＶＱＡシステム用の大量の訓練データを自動的に、低コストで、効率的に取得し、モデル訓練の効率を向上させることができる。また、取得された訓練データには画像に対する推理的質問が含まれているので、画像に対するＶＱＡシステムの理解能力を向上させることができる。これにより、訓練されたＶＱＡシステムは、画像に対するより複雑な推理的質問に答えることができる。

以下、本発明の一実施形態について、図面を参照しながら具体的に説明する。
図１は、本発明の一実施形態を実施することができる例示的な環境１００を示す概略図である。例示的な環境１００は、ＶＱＡシステム用のモデル（「ＶＱＡモデル」ともいう）の訓練プロセスを示す。本明細書において、「モデル」という用語は、訓練データから対応する入力と出力との関連を学習することができ、訓練が完了した後に、与えられた入力に対して対応する出力を生成することができる。図１において、本発明の範囲を限定することを一切暗示することなく、環境１００の構成および機能を例示する目的のみのために記載されていることを理解されるべきである。本発明の実施形態は、異なる構成および／または機能を有する環境にも適用することができる。

図１に示されるように、例示的な環境１００は、一般に、訓練データ拡張装置１１０とモデル訓練装置１２０とを備えている。本実施形態においては、訓練データ拡張装置１１０およびモデル訓練装置１２０は、同一の機器に実装することができる。また、変形例としては、訓練データ拡張装置１１０およびモデル訓練装置１２０は、それぞれ異なる機器に実装することができる。

本実施形態においては、訓練データ拡張装置１１０は、予め注記された、ＶＱＡシステムに対する訓練データ集合１０１を取得することができる。例えば、訓練データ拡張装置１１０は、既存のビジュアルゲノム（ＶｉｓｕａｌＧｅｎｏｍｅ）データ集合から訓練データ集合１０１を取得することができる。訓練データ集合１０１は、複数セットの訓練データを含んでいてもよい。例えば、訓練データ集合１０１における第１セットの訓練データは、特定の訓練画像に対する質問（以下、「第１の質問」ともいう）と、質問の回答（以下、「第１の回答」ともいう）とを含むことができる。

本実施形態においては、訓練データ拡張装置１１０は、訓練データ集合１０１に基づいて他の訓練データ集合１０２を生成することができる。例えば、訓練データ拡張装置１１０は、訓練データ集合１０１における第１セットの訓練データに基づいて、それに対応する第２セットの訓練データを生成することができる。第２セットの訓練データは、第１の質問に基づいて生成された推理的質問（以下、「第２の質問」ともいう）と、推理的質問の回答とを含むことができる。例えば、推理的質問は、第１の質問とは、同じ回答を有することができる。

本実施形態においては、図１に示されるように、ＶＱＡモデル１０３を訓練するために、訓練データ集合１０１および訓練データ集合１０２の両方は、モデル訓練装置１２０に提供されてもよい。本実施形態の変形例としては、ＶＱＡモデル１０３を訓練するために、訓練データ集合１０２のみが、モデル訓練装置１２０に提供されてもよい。訓練されたＶＱＡモデル１０３は、入力画像について提出された質問に答えることができる。

図２は、本発明の一実施形態に係るＶＱＡシステムの訓練データを生成する訓練データ生成方法２００のフローチャートを示す。例えば、訓練データ生成方法２００は、図２に示す訓練データ拡張装置１１０によって実行することができる。
以下に図１を参照して訓練データ生成方法２００を詳細に説明する。
訓練データ生成方法２００が、示されていない付加的なステップをさらに含んでもよく、および／または示されているステップを省略してもよいことを理解されるべきである。本発明の範囲は、この点に限定されない。

図２に示されるように、ステップ２１０において、訓練データ拡張装置１１０は、ＶＱＡシステムの第１セットの訓練データを取得する。第１セットの訓練データは、ＶＱＡシステム用の訓練画像に対する第１の質問と、第１の質問に対応する第１の回答とを含むことができる。

本実施形態においては、第１セットの訓練データにおける第１の質問および第１の回答は、任意の自然言語で表現されてもよい。自然言語の一例としては、中国語、英語、ドイツ語、スペイン語、フランス語などを含むが、これらに限定されない。以下の説明では、中国語および英語が自然言語の一例として使用される。しかしながら、これは例示する目的だけであり、本発明の範囲を限定することを意図しないと理解されるべきである。本実施形態は、様々な異なる自然言語に適用することができる。

本実施形態においては、訓練データ拡張装置１１０は、予め注記された訓練データ集合１０１から第１セットの訓練データを取得することができる。図３は、本発明の一実施形態に係る例示に基づいてデータを訓練する概略図である。図３は、黄色い消火栓と、当該消火栓をジャンプしている男性と、男性の後ろに立っているパンツを着ている女性とを含む訓練画像３１０を示す。
図３は、質問３１１および質問３１１に対応する回答３１２と、質問３２１および質問３２１に対応する回答３２２とを含む、訓練画像３１０に対して予め注記された訓練データ集合１０１をさらに例示的に示す。図３に示されるように、質問３１１は「女性は何物の隣に立っているのですか（Ｗｈａｔｉｓｔｈｅｗｏｍａｎｓｔａｎｄｉｎｇｎｅｘｔｔｏ）」であり、回答３１２は「彼女の所持品（Ｈｅｒｂｅｌｏｎｇｉｎｇｓ）」である。質問３２１は「消火栓は何色ですか（Ｗｈａｔｃｏｌｏｒｉｓｔｈｅｆｉｒｅｈｙｄｒａｎｔ）」であり、答え３２２は「黄色（Ｙｅｌｌｏｗ）」である。図３に示されるような質問３１１と回答３１２との組み合わせ、または質問３２１と回答３２２との組み合わせが、第１のセットの訓練データの一例とすることができる。

ステップ２２０において、訓練データ拡張装置１１０は、訓練画像に関する情報を取得する。

本実施形態においては、訓練データ拡張装置１１０は、画像に対して予め注記された、画像内の少なくとも１つの対象を識別する第１の情報、少なくとも１つの対象間の関係を識別する第２の情報、および少なくとも１つの対象の対応する属性を識別する第３の情報のうちの少なくとも１つを取得することができる。

本実施形態においては、画像に対して予め注記されたこれらの情報（すなわち、対象、関係および属性）が、所定の語彙辞書（例えば、ｗｏｒｄＮｅｔ語彙辞書）に整列されることができる。つまり、曖昧さがないことを確保するために、対象、関係および属性を説明するための単語は、すべて、所定の語彙辞書からのものである。

図３に示す画像３１０を一例とする。本実施形態においては、画像３１０に関する情報は、男性、女性および消火栓のような画像３１０内の対象を識別することができる。変形例としては、画像３１０に関する情報は、また、女性が男性の後ろにいる（例えば、関係は、ｉｓ_ｂｅｈｉｎｄ（ｗｏｍａｎ、ｍａｎ）として表されてもよい）、消火栓をジャンプしている（例えば、関係は、ｊｕｍｐｉｎｇ_ｏｖｅｒ（ｍａｎ、ｆｉｒｅｈｙｄｒａｎｔ）として表されもよい）などのような画像３１０内の異なる対象間の関係を識別することができる。また、他の変形例としては、画像３１０に関する情報は、消火栓が黄色である（例えば、ｃｏｌｏｒ（ｆｉｒｅｈｙｄｒａｎｔ、ｙｅｌｌｏｗ）として表される）、消火栓の材質が金属である（例えば、ｍａｔｅｒｉａｌ（ｆｉｒｅｈｙｄｒａｎｔ、ｍｅｔａｌとして表現される））などのような画像３１０内の異なる対象の対応する属性を識別することができる。

ステップ２３０において、訓練データ拡張装置１１０は、取得された情報に基づいて第１の回答に対応する推理的質問（すなわち、第２の質問）を生成して、ＶＱＡシステム用の訓練画像に対する第２セットの訓練データを取得する。第２セットの訓練データは、第２の質問と第１の回答とを含むことができる。

図４は、本発明の一実施形態に係る推理的質問を生成する方法４００のフローチャートを示す。
方法４００は、図２に示すステップ２３０の一例として実現することができる。例えば、方法４００は、図１に示す訓練データ拡張装置１１０によって実行することができる。方法４００は、示されていない付加的ステップをさらに含んでもよく、および／または示されているステップを省略してもよいことを理解されるべきである。本発明の範囲は、この点に限定されない。

ステップ４１０において、訓練データ拡張装置１１０は、第１の質問における、画像内の対象を説明するためのキーワードを決定する。図３に示す質問３１１を一例にすると、例えば、質問３１１におけるキーワードを「女性（ｔｈｅｗｏｍａｎ）」とすることができる。図３に示す質問３２１を一例にすると、例えば、質問３２１におけるキーワードを「消火栓（ｔｈｅｆｉｒｅｈｙｄｒａｎｔ）」とすることができる。

ステップ４２０において、訓練データ拡張装置１１０は、キーワードの上位語を決定する。本実施形態においては、訓練データ拡張装置１１０は、所定の語彙辞書（例えば、ｗｏｒｄＮｅｔ語彙辞書）を検索することにより、キーワードの上位語を決定することができる。図３に示す質問３１１を一例にすると、例えば、キーワード「女性（ｔｈｅｗｏｍａｎ）」の上位語を「人（ｐｅｒｓｏｎ）」とすることができる。図３に示す質問３２１を例にすると、例えば、キーワード「消火栓（ｔｈｅｆｉｒｅｈｙｄｒａｎｔ）」の上位語を「物（ｔｈｉｎｇ）」とすることができる。

ステップ４３０において、訓練データ拡張装置１１０は、上位語を限定するための少なくとも１つの制約条件を生成して、少なくとも１つの制約条件によって限定された上位語により、画像内の対象を一意に識別することができる。

本実施形態においては、上位語を限定するための制約条件は、対象間の関係に基づいて生成することができる。図３に示す質問３１１を一例にすると、キーワード「女性（ｔｈｅｗｏｍａｎ）」の上位語は、「人（ｐｅｒｓｏｎ）」である。画像３１０において男性の後ろにいる一意の人は、画像３１０内の女性であるため、関係ｉｓ_ｂｅｈｉｎｄ（ｗｏｍａｎ、ｍａｎ）は、画像３１０内の女性を一意に表すための上位語を限定することができる。

本実施形態においては、上位語を限定するための制約条件は、対象の属性に基づいて生成することができる。図３に示す質問３１２を例にすると、キーワード「消火栓（ｔｈｅｆｉｒｅｈｙｄｒａｎｔ）」の上位語は「物（ｔｈｉｎｇ）」である。画像３１０において消火栓のみが金属材質であると仮定すると、消火栓を一意に識別するための上位語「物（ｔｈｉｎｇ）」を属性ｍａｔｅｒｉａｌ（ｆｉｒｅｈｙｄｒａｎｔ、ｍｅｔａｌ）で限定することができる。

本実施形態においてでは、単一の制約条件で制約された上位語が画像内の対象を一意に識別することができない場合、複数の制約条件によって限定された上位語で画像内の対象を一意に識別することができるまで、制約条件の数を増やすことができる。例えば、複数の制約条件は、対象関係に基づいて生成された制約条件および／または対象属性に基づいて生成された制約条件を含むことができる。

本実施形態の変形例としては、生成された制約条件の数が最大数を超えないことを確保するために、上位語を限定するための制約条件の最大数を予め設定することができる。このようにすることで、生成された推理的質問が過度に複雑にならないことを確保することができる。例えば、設定される制約条件の最大数がＫであると仮定する（Ｋは自然数）と、訓練データ拡張装置１１０は、画像内の対象を一意に識別するために、Ｋ個を超える制約条件で上位語を限定しなければならないと判断した場合、制約条件の生成および対象を説明する後続のキーワードの置き換えを放棄することができる。

ステップ４４０において、訓練データ拡張装置１１０は、上位語と少なくとも１つの制約条件とに基づいて、第１の質問を第２の質問に変換する。本実施形態においては、訓練データ拡張装置１１０は、少なくとも１つの制約条件によって限定された上位語で第１の質問におけるキーワードを置き換えて第２の質問を取得することができる。

例えば、図３は、例示的な訓練データ集合１０１に基づいて生成された例示的な訓練データ集合１０２を示し、訓練データ集合１０２は、質問３１１が変換された推理的質問３３１である「男性の後ろにいる人が何物の隣に立っているか（Ｗｈａｔｉｓｔｈｅｐｅｒｓｏｎｔｈａｔｉｓｂｅｈｉｎｄｔｈｅｍａｎｓｔａｎｄｉｎｇｎｅｘｔｔｏ）」を含み、ここで、「男性の後ろにいる人（ｔｈｅｐｅｒｓｏｎｔｈａｔｉｓｂｅｈｉｎｄｔｈｅｍａｎ）」で質問３１１における「女性（ｔｈｅｗｏｍａｎ）」が置き換えられている。例えば、質問３３１の回答は、依然として「彼女の所持品」という回答３１２である。訓練データ集合１０２は、質問３２１が変換された推理的質問３４１である「金属からなるものは何色ですか（Ｗｈａｔｃｏｌｏｒｉｓｔｈｅｔｈｉｎｇｔｈａｔｉｓｍａｄｅｏｆｍｅｔａｌ）」をさらに含み、ここで、「金属からなるもの（ｔｈｅｔｈｉｎｇｔｈａｔｉｓｍａｄｅｏｆｍｅｔａｌ）」で質問３２１における「消火栓」（ｔｈｅｆｉｒｅｈｙｄｒａｎｔ）」が置き換えられている。例えば、質問３４１の回答は、依然として「黄色」という回答３２２である。

以上の説明から分かるように、本実施形態は、訓練画像に対して予め注記された物体関係および物体属性などの情報を利用して、既存の訓練データ集合における手動注記された、簡単な質問を有する訓練データに基づいて、推理的質問を有する訓練データを自動的に生成する。このような方式で、訓練データ生成方法は、ＶＱＡシステム用の大量の訓練データを自動的、低コストで、効率的に取得し、モデル訓練の効率を向上させることができる。また、取得された訓練データには画像に対する推理的質問が含まれているので、画像に対するＶＱＡシステムの理解能力を向上させることができる。これにより、訓練されたＶＱＡシステムは、画像に対するより複雑な推理的質問に答えることができる。

本実施形態は、上記の訓練データ生成方法またはプロセスを実現するための対応する装置を提供する。図５は、本発明の一実施形態に係るＶＱＡシステムの訓練データを生成する訓練データ生成装置５００の概略ブロック図を示す。
訓練データ生成装置５００は、例えば、図１の訓練データ拡張装置１１０で実施することができる。図５に示されるように、装置５００は、第１の取得モジュール５１０と、第２の取得モジュール５２０と、質問生成モジュール５３０とを備えている。

本実施形態においては、第１取得モジュール５１０は、視覚的質問応答システムの第１セットの訓練データを取得する。第１セットの訓練データは、視覚的質問応答システムにおける画像に対する第１の質問と第１の質問に対応する第１の回答とを含む。

本実施形態においては、第１の取得モジュール５１０は、予め注記された、視覚的質問応答システムに対する既存の訓練データ集合から第１セットの訓練データを取得する。

本実施形態においては、第２の取得モジュール５２０は、画像に関する情報を取得する。

本実施形態においては、第２の取得モジュール５２０は、画像に対して予め注記された、画像内の少なくとも１つの対象を識別する第１の情報、少なくとも１つの対象間の関係を識別する第２の情報、および少なくとも１つの対応する属性を識別する第３の情報のうちの少なくとも１つを取得する。

本実施形態においては、質問生成モジュール５３０は、情報に基づいて第１の回答に対応する第２の質問を生成して、視覚的質問応答システムにおける画像に対する第２セットの訓練データを取得する。第２セットの訓練データは、第２の質問と第１の回答とを含む。

本実施形態においては、質問生成モジュール５３０は、第１の質問における、画像内の対象を説明するためのキーワードを決定する第１の決定ユニットと、キーワードの上位語を決定する第２の決定ユニットと、情報に基づいて上位語を限定するための少なくとも１つの制約条件を生成して、少なくとも１つの制約条件によって限定された上位語により、画像内の対象を一意に識別する生成ユニットと、上位語および少なくとも１つの制約条件に基づいて第１の質問を第２の質問に変換する変換ユニットとを備える。

本実施形態において、第２の決定ユニットは、所定の語彙辞書を検索することにより、キーワードの上位語を決定する。

本実施形態においては、取得された情報は、対象と画像内の他の対象との関係を識別し、生成ユニットは、関係に基づいて少なくとも１つの制約条件のうちの少なくとも１つを生成する。

本実施形態の変形例としては、取得された情報は、対象の属性を識別し、生成ユニットは、属性に基づいて少なくとも１つの制約条件のうちの少なくとも１つを生成してもよい。

本実施形態においては、生成ユニットは、情報に基づいて少なくとも１つの制約条件を生成して、少なくとも１つの制約条件の数を所定の閾値より小さくするように構成してもよい。

本実施形態においては、変換ユニットは、少なくとも１つの制約条件によって限定された上位語で第１の質問におけるキーワードを置き換えて第２の質問を取得するように構成される。

訓練データ生成装置５００が備える各ユニットは、それぞれ、図２から図４を参照して説明された訓練データ生成方法２００および方法４００のそれぞれのステップに対応することを理解されるべきである。また、訓練データ生成装置５００および各ユニットの動作および特徴は、図２から図４を参照して説明された上記の動作および特徴に対応しており、同じ効果を有し、詳細は、再度説明しない。

訓練データ生成装置５００が備える各ユニットは、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせを含む様々な形態で実現することができる。本実施形態においては、少なくとも１つのユニットは、記憶媒体に記憶されている機械実行可能命令などのソフトウェアおよび／またはファームウェアによって実現することができる。機械実行可能命令のほか、または変形例として、訓練データ生成装置５００における少なくとも一部のユニットは、少なくとも部分的に、少なくとも１つのハードウェアロジックコンポーネントによって実現することができる。限定ではなく単なる一例として、使用することができる例示的なハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

図５に示されるこれらのユニットは、ハードウェアモジュール、ソフトウェアモジュール、ファームウェアモジュール、またはそれらの任意の組み合わせとして部分的にまたは全体的に実現することができる。特に、本実施形態においては、上記のプロセス、方法、またはプロセスは、ストレージシステム、またはストレージシステムに対応するホストコンピュータ、またはストレージシステムとは独立した他のコンピューティング機器によって実現することができる。

図６は、本発明の一実施形態に係る訓練データ生成方法を実施することができる例示的な電子機器６００の概略ブロック図を示す。
電子機器６００は、図１に示す訓練データ拡張装置１１０および／またはモデル訓練装置１２０を実現することができる。
図示のように、電子機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているコンピュータプログラム命令または記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラム命令に従ってさまざまな適切な動作およびプロセスを実行可能な中央処理装置（ＣＰＵ）６０１を備える。
ＲＡＭ６０３には、機器６００の動作に必要な各種のプログラムやデータも記憶可能である。ＣＰＵ６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

キーボード、マウスなどの入力ユニット６０６と、各種のディスプレイ、スピーカなどの出力ユニット６０７と、ディスク、ＣＤなどの記憶ユニット６０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信部６０９とを備える、電子機器６００における複数の構成要素は、Ｉ／Ｏインターフェース６０５に接続されている。通信ユニット６０９は、電子機器６００がインターネットおよび／または様々な電気通信ネットワークなどを介して他の機器と情報／データを交換することを可能にする。

処理ユニット６０１は、方法２００および／または４００など、上記のさまざまな方法およびプロセスを実行する。例えば、本実施形態においては、訓練データ生成方法２００および／または方法４００は、記憶ユニット６０８などの機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現することができる。
本実施形態においては、コンピュータプログラムの少なくとも一部は、ＲＯＭ６０２および／または通信ユニット６０９を介して機器６００にロードおよび／またはインストールすることができる。
コンピュータプログラムがＲＡＭ６０３にロードされ、ＣＰＵ６０１によって実行されると、上記の訓練データ生成方法２００および／または方法４００の少なくとも１つのステップが実行される。また、変形例としては、ＣＰＵ６０１は、任意の他の適切な手段によって（例えば、ファームウェアによって）訓練データ生成方法２００および／または方法４００を実行するように構成されてもよい。

本明細書では、上述した機能は、少なくとも部分的に、少なくとも１つのハードウェアロジックコンポーネントによって実行することができる。限定ではなく単なる一例として、使用することができる例示的なハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンポーネントプログラマブルロジックデバイス（ＣＰＬＤ）などである。

本発明に係る訓練データ生成方法を実施するためのプログラムコードは、少なくとも１つのプログラミング言語の任意の組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてもよい。その結果、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図において特定される機能／操作が実行される。プログラムコードは、完全に機器で実行、部分的に機器で実行することができ、スタンドアロンソフトウェアパッケージとして部分的に機器で実行され、部分的にリモート機器で実行されまたは全てリモート機器またはサーバで実行される。

本発明の明細書では、機器読み取り可能な媒体は、命令実行システム、装置、または機器によって使用されるまたは命令実行システム、装置、または機器と組み合わせて使用するためのプログラムを含むまたは記憶することができる有形の媒体とすることができる。機器読み取り可能な媒体は、機器読み取り可能な信号媒体または機器読み取り可能な記憶媒体とすることができる。機器読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、または機器、あるいは上記の任意の適切な組み合わせを含むことができるが、それらに限定されない。機器読み取り可能な記憶媒体のより具体的例としては、少なくとも１つのラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンメモリ（ＲＯＭ）、消去可能プログラマブルリードオンメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むことができる。

また、動作は、特定の順序で説明されたが、これは、そのような動作が示された特定の順序または順序の順番で実行されること、または所望の結果を達成するためにすべての示された動作が実行されることを必要とする。特定の状況では、マルチタスキングおよび並列処理は、有利な場合がある。同様に、いくつかの具体的な実現例の詳細が上記の説明に含まれているが、これらは本発明の範囲を限定するものとして解釈されるべきではない。別々の実施例で説明されているいくつかの特徴は、単一の実現において組み合わせて実現することもできる。逆に、単一の実施例に関して説明されている様々な特徴は、個別にまたは任意の適切なサブコンビネーションで複数の実施例で実施することができる。

主題は、構成的特徴および／または方法論理的動作に特有の言語で説明されているが、添付の特許請求の範囲で限定される主題は、説明された上記の特定の特徴または動作に限定されないことが理解されるべきである。逆に、上記の特定の特徴および動作は単に特許請求の範囲を実施する例示的な形態である。

Claims

視覚的質問応答システムの訓練データを生成する訓練データ生成方法であって、
前記視覚的質問応答システムシステムにおける画像に対する第１の質問と該第１の質問に対応する第１の回答とを含む、前記視覚的質問応答システムの第１セットの訓練データを取得するステップと、
前記画像に関する情報を取得するステップと、
前記情報に基づいて、前記第１の回答に対応する第２の質問を生成して、前記視覚的質問応答システムにおける前記画像に対する、前記第２の質問と前記第１の回答とを含む第２セットの訓練データを取得するステップとを含む視覚的質問応答システムの訓練データを生成する訓練データ生成方法。
前記第１セットの訓練データを取得するステップが、予め注記された前記視覚的質問応答システムに対する既存の訓練データ集合から前記第１セットの訓練データを取得するステップを含む請求項１に記載の訓練データ生成方法。
前記情報を取得するステップは、
前記画像に対して予め注記された、前記画像内の少なくとも１つの対象を識別する第１の情報、少なくとも１つの前記対象間の関係を識別する第２の情報、および少なくとも１つの前記対象の対応する属性を識別する第３の情報のうちの少なくとも１つを取得するステップを含む請求項１に記載の訓練データ生成方法。
前記第２の質問を生成するステップは、
前記第１の質問における、前記画像内の対象を説明するためのキーワードを決定するステップと、
前記キーワードの上位語を決定するステップと、
前記情報に基づいて、前記上位語を限定するための少なくとも１つの制約条件を生成して、少なくとも１つの該制約条件によって限定された前記上位語により、前記画像内の前記対象を一意に識別するステップと、
前記上位語と少なくとも１つの前記制約条件とに基づいて、前記第１の質問を前記第２の質問に変換するステップとを含む請求項１に記載の訓練データ生成方法。
前記上位語を決定するステップが、語彙辞書を検索することによって前記キーワードの前記上位語を決定するステップを含む請求項４に記載の訓練データ生成方法。
前記情報が前記対象と前記画像内の他の対象との関係を識別し、
少なくとも１つの前記制約条件を生成するステップが、前記関係に基づいて少なくとも１つの前記制約条件のうちの少なくとも１つを生成するステップを含む請求項４に記載の訓練データ生成方法。
前記情報が前記対象の属性を識別し、
少なくとも１つの前記制約条件を生成するステップが、前記属性に基づいて少なくとも１つの前記制約条件のうちの少なくとも１つを生成するステップを含む請求項４に記載の訓練データ生成方法。
少なくとも１つの前記制約条件を生成するステップが、前記情報に基づいて少なくとも１つの前記制約条件を生成して、少なくとも１つの前記制約条件の数を所定の閾値より小さくするステップを含む請求項４に記載の訓練データ生成方法。
前記第１の質問を前記第２の質問に変換するステップが、少なくとも１つの前記制約条件によって限定された前記上位語で前記第１の質問における前記キーワードを置き換えて前記第２の質問を取得するステップを含む請求項４に記載の訓練データ生成方法。
視覚的質問応答システムの訓練データを生成する装置であって、
前記視覚的質問応答システムにおける画像に対する第１の質問と該第１の質問に対応する第１の回答とを含む、前記視覚的質問応答システムの第１セットの訓練データを取得する第１の取得モジュールと、
前記画像に関する情報を取得する第２の取得モジュールと、
前記情報に基づいて、前記第１の回答に対応する第２の質問を生成して、前記視覚的質問応答システムにおける前記画像に対する、前記第２の質問と前記第１の回答とを含む第２セットの訓練データを取得する質問生成モジュールとを備える視覚的質問応答システムの訓練データ生成装置。
前記第１の取得モジュールが、予め注記された前記視覚的質問応答システムに対する既存の訓練データ集合から前記第１セットの訓練データを取得する請求項１０に記載の訓練データ生成装置。
前記第２の取得モジュールが、前記画像に対して予め注記された、前記画像内の少なくとも１つの対象を識別する第１の情報、少なくとも１つの前記対象間の関係を識別する第２の情報、および少なくとも１つの前記対象の対応する属性を識別する第３の情報のうちの少なくとも１つを取得する請求項１０に記載の訓練データ生成装置。
前記質問生成モジュールは、
前記第１の質問における、前記画像内の対象を説明するためのキーワードを決定する第１の決定ユニットと、
前記キーワードの上位語を決定する第２の決定ユニットと、
前記情報に基づいて、前記上位語を限定するための少なくとも１つの制約条件を生成して、少なくとも１つの前記制約条件によって限定された前記上位語により、前記画像内の前記対象を一意に識別する生成ユニットと、
前記上位語と少なくとも１つの前記制約条件とに基づいて、前記第１の質問を前記第２の質問に変換する変換ユニットとを備える請求項１０に記載の訓練データ生成装置。
前記第２の決定ユニットが、語彙辞書を検索することによって前記キーワードの前記上位語を決定する請求項１３に記載の訓練データ生成装置。
前記情報が前記対象と前記画像内の他の対象との関係を識別し、
前記生成ユニットが、前記関係に基づいて少なくとも１つの前記制約条件のうちの少なくとも１つを生成する請求項１３に記載の訓練データ生成装置。
前記情報が前記対象の属性を識別し、
前記生成ユニットが、前記属性に基づいて少なくとも１つの前記制約条件のうちの少なくとも１つを生成する請求項１３に記載の訓練データ生成装置。
前記生成ユニットが、前記情報に基づいて少なくとも１つの前記制約条件を生成して、少なくとも１つの前記制約条件の数を所定の閾値より小さくする請求項１３に記載の訓練データ生成装置。
前記変換ユニットが、少なくとも１つの前記制約条件によって限定された前記上位語で前記第１の質問における前記キーワードを置き換えて前記第２の質問を取得する請求項１３に記載の訓練データ生成装置。
少なくとも１つのプロセッサと、
少なくとも１つのプログラムが記憶されている記憶装置とを備え、
少なくとも１つの前記プログラムが少なくとも１つの前記プロセッサによって実行される場合に、少なくとも１つの前記プロセッサが、請求項１から請求項９のいずれかに記載の訓練データ生成方法を実現する電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される場合に、請求項１から請求項９のいずれかに記載の訓練データ生成方法が実現されるコンピュータ読み取り可能な記憶媒体。