JP2022509299A

JP2022509299A - ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム

Info

Publication number: JP2022509299A
Application number: JP2021531058A
Authority: JP
Inventors: 文杰裴; ▲記▼袁 ▲張▼; 磊柯; 宇▲榮▼ 戴; 小勇沈; 佳▲亞▼ ▲賈▼; 向▲榮▼ 王
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-22
Filing date: 2020-03-27
Publication date: 2022-01-20
Anticipated expiration: 2040-03-27
Also published as: EP3962097A4; US11743551B2; JP7179183B2; CN109874029B; EP3962097A1; KR20210095208A; CN109874029A; KR102477795B1; US20210281774A1; WO2020215988A1

Abstract

ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得ることと、ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを用いてターゲット視覚的特徴を復号し、各候補ワードに対応する第１選択確率を得ることと、ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各前記候補ワードに対応する第２選択確率を得ることであって、補助デコーダのメモリ構造に各候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、参照の視覚的コンテキスト情報は候補ワードに対応する関連ビデオに基づいて生成されることと、第１選択確率と第２選択確率とに基づいて、候補ワードにおける復号されたワードを決定することと、各復号されたワードに基づいてビデオキャプションを生成することとを含むビデオキャプション生成方法を提供する。

Description

［関連出願への相互参照］
本願は、２０１９年０４月２２日に中国特許局へ提出された、出願番号が２０１９１０３２５１９３０であり、出願名称が「ビデオキャプションの生成方法、装置、デバイスおよび記憶媒体」である中国特許出願の優先権を主張し、そのすべてが参照することにより本願に組み込まれる。

［技術分野］
本願の実施例は、人工知能の技術分野およびビデオキャプションの分野に関し、特に、ビデオキャプションの生成方法、装置、デバイスおよび記憶媒体に関する。

ビデオキャプション（ＶｉｄｅｏＣａｐｔｉｏｎｉｎｇ）は、ビデオのためにコンテンツキャプション情報を生成する技術である。人工知能の分野では、ビデオキャプション生成モデルを使用して、ビデオのためにビデオキャプションを自動的に生成するのが一般的であるが、ビデオキャプション生成モデルのほとんどは、符号化－復号（Ｅｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒ）フレームワークに基づくものである。

ビデオキャプション生成モデルを適用するプロセスでは、ビデオキャプション生成モデルは、まず、エンコーダによってビデオにおける視覚的特徴を抽出し、次に、抽出した視覚的特徴をデコーダに入力し、復号されたワードをデコーダによって視覚的特徴に基づいて順次に生成し、最終的に、生成した各復号されたワードをビデオキャプションとして組み合わせる。

関連技術におけるビデオキャプション生成モデルは、現在処理されているビデオのみに注目しているが、実際の応用では、同じ復号されたワードは、意味が類似しているが、完全に同じではない複数のビデオにおいて使用されることがあり、その結果、ビデオキャプション生成モデルが注目する角度が制限されすぎており、さらに、生成されたビデオキャプションの品質に影響を与えてしまう。

本願によって提供される様々な実施例によれば、ビデオキャプションの生成方法、装置、デバイスおよび記憶媒体が提供される。前記技術案は、以下の通りであり、即ち、
コンピュータデバイスによって実行されるビデオキャプション生成方法であって、
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得るステップと、
ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用してターゲット視覚的特徴を復号し、各候補ワードに対応する第１選択確率を得るステップと、
ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第２選択確率を得るステップであって、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報に含まれ、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものであるステップと、
第１選択確率と第２選択確率とに基づいて、候補ワードにおける、復号されたワードを決定するステップと、
各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成するステップと、
を含む方法。

コンピュータデバイスに配置されるビデオキャプション生成装置であって、
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得るために使用される符号化モジュールと、
ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用してターゲット視覚的特徴を復号し、各候補ワードに対応する第１選択確率を得るために使用される第１復号モジュールと、
ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第２選択確率を得るために使用される第２復号モジュールであって、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものである第２復号モジュールと、
第１選択確率と第２選択確率とに基づいて、候補ワード中における、復号されたワードを決定するために使用される第１決定モジュールと、
各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成するために使用される第１生成モジュールと、
を含む装置。

１つまたは複数のプロセッサと、メモリとを含むコンピュータデバイスであって、
メモリには、少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセットまたはコンピュータ読み取り可能な命令セットは、１つまたは複数のプロセッサによってロードして実行されて、上記の態様に記載のビデオキャプション生成方法を実現するコンピュータデバイス。

少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されている１つまたは複数のコンピュータ読み取り可能な記憶媒体であって、
少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセットまたはコンピュータ読み取り可能な命令セットは、１つまたは複数のプロセッサによってロードして実行されて、上記の態様に記載のビデオキャプション生成方法を実現するコンピュータ読み取り可能な記憶媒体。

コンピュータプログラム製品であって、
コンピュータ上で実行されると、上記の態様に記載ビデオキャプション生成方法をコンピュータに実行させるコンピュータプログラム製品。

本願の１つまたは複数の実施例の詳細は、以下の図面および説明において記載されている。本願の他の特徴、目的、および利点は、本願の明細書、図面、および特許請求の範囲に基づいて、より明らかになる。

本願の実施例に係る技術案をより明確に説明するために、以下では、実施例の説明において必要とされる図面を簡単に説明し、明らかに、以下の説明における図面は、本願の一部の実施例にすぎず、当業者にとって、創造的な努力なしに、これらの図面から他の図面を得ることもできる。

一実施例では関連技術における、ＳＡ－ＬＳＴＭモデルを使用してビデオキャプションを生成する原理の模式図である。一実施例におけるビデオ分類検索シナリオでのビデオキャプション生成方法の実施の模式図である。一実施例における視覚障害者支援シナリオでのビデオキャプション生成方法の実施の模式図である。一実施例における実施環境の模式図である。一実施例におけるビデオキャプション生成方法のフローチャートである。一実施例における、ビデオキャプション生成モデルによって生成されたビデオキャプションである。一実施例におけるビデオキャプション生成方法のフローチャートである。一実施例におけるビデオキャプション生成モデルの構造の模式図である。一実施例における、補助デコーダが候補ワードの選択確率を決定するプロセスのフローチャートである。一実施例では関連技術および本願の実施例における、ビデオキャプション生成モデルによって生成されたビデオキャプションである。一実施例における、候補ワードに対応する参照視覚コンテキスト情報の生成プロセスのフローチャートである。一実施例における、参照視覚コンテキスト情報を生成するプロセスの実施の模式図である。一実施例におけるビデオキャプション生成装置の構造のブロック図である。一実施例におけるコンピュータデバイスの構造の模式図である。

本願の目的、技術案、および利点をより明確にするために、以下、図面を参照しながら本願の実施形態をさらに詳細に説明する。本明細書に記載された特定の実施形態は、本願を解釈するためだけに使用され、本願を限定するために使用されない、ということを理解されたい。

ビデオキャプションの分野では、符号化－復号フレームワークに基づいて構築されたビデオキャプション生成モデルを使用して、ビデオのためにビデオキャプションを自動的に生成することは、従来の手段である。ここで、符号化－復号フレームワークに基づくビデオキャプション生成モデルは、ソフトアテンション長短期メモリ（ＳＡ－ＬＳＴＭ：ＳｏｆｔＡｔｔｅｎｔｉｏｎＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）モデルであってもよい。例示的な例では、ＳＡ－ＬＳＴＭモデルを使用してビデオキャプションを生成するプロセスは、図１に示すようになる。

ＳＡ－ＬＳＴＭモデルは、まず、入力されたビデオ１１から特徴を抽出し、ビデオ１１の視覚的特徴１２（ｖ１，ｖ２，…，ｖｎ）を取得する。次に、ＳＡ－ＬＳＴＭモデルは、ソフトアテンションメカニズムを使用して、前回の隠れ状態１３（ｔ－１回目の復号プロセスで出力された隠れ状態）と視覚的特徴１２とに基づいて、現在の復号プロセス（即ち、ｔ回目の復号）に対する各視覚的特徴１２の重み１４を計算することにより、視覚的特徴１２および重み１４に対して加重和計算を行い、現在の復号プロセスでのコンテキスト情報１５を取得する。さらに、ＳＡ－ＬＳＴＭモデルは、前回の隠れ状態１３、前回の復号されたワード１６、およびコンテキスト情報１５に基づいて、現在の隠れ状態１７を出力し、さらに、現在の隠れ状態１７に基づいて、現在の復号されたワード１８を決定する。

ここから分かるように、関連技術におけるＳＡ－ＬＳＴＭモデルを使用してビデオキャプションを生成する場合、ＳＡ－ＬＳＴＭモデルは、現在のビデオにおける視覚的特徴のみに注目し、相応的に、決定した、復号されたワードは、現在のビデオの視覚的特徴のみに関連するようになる。しかしながら、実際の状況では、同じ復号されたワードは、複数のビデオクリップ（ｖｉｄｅｏｃｌｉｐ）に現れ、また、異なるビデオクリップにおいて、類似しているが完全に同じではない意味を表現する場合がある（即ち、復号されたワードは、類似しているが完全に同じではない視覚的特徴に対応する可能性がある）ため、ＳＡ－ＬＳＴＭモデルによって出力される、復号されたワードの精度が低くなり、さらに、最終的に生成されたビデオキャプションの品質に影響を与えってしまう。

ビデオキャプションの品質を向上させるために、関連技術における「単一エンコーダ＋単一デコーダ」という構造とは異なり、本願の実施例では、ビデオキャプション生成モデルは、「エンコーダ＋基礎デコーダ＋補助デコーダ」という構造を採用し、メモリメカニズムを創造的に導入し、シソーラス（ｔｈｅｓａｕｒｕｓ）における各候補ワードと、関連ビデオとの間の関連関係をメモリ構造に保存して、メモリ構造を補助デコーダに追加する。本願の実施例によって提供されるビデオキャプション生成モデルは、現在のビデオ（基礎デコーダ）に注目することができるだけでなく、現在のビデオの視覚的特徴に類似している他のビデオ（補助デコーダ）に注目することもでき、これにより、現在のビデオのみに注目することに起因する、注目される角度への制限が回避され、さらに、出力される、復号されたワードの精度を向上させて、生成されるビデオキャプションの品質を向上させる。

本願の実施例によって提供されるビデオキャプション生成方法は、以下のいずれかのシナリオで適用され得る。

１、ビデオ分類／検索シナリオ

本願の実施例におけるビデオキャプション生成モデルは、ビデオ分類シナリオに適用される場合、ビデオ管理アプリケーションまたはビデオ管理アプリケーションの一部として実現され得る。ビデオキャプションを含まないビデオクリップがビデオ管理アプリケーションに入力された後、ビデオ管理アプリケーションは、ビデオキャプション生成モデルにおけるエンコーダによって、ビデオクリップにおける視覚的特徴を抽出して、基礎デコーダおよび補助デコーダをそれぞれ使用して、視覚的特徴に対して復号を行い、これによって、基礎デコーダおよび補助デコーダによる復号結果を統合して、復号されたワードを決定し、さらに、復号されたワードに基づいて、ビデオクリップのためにビデオキャプションを生成する。ビデオキャプションを含むビデオクリップに対して、ビデオ管理アプリケーションは、ビデオキャプションに基づいて、（例えば、意味識別によって）ビデオクリップを分類して、ビデオクリップのために、相応的なカテゴリタグを追加する。その後ビデオ検索を行う際に、ビデオ管理アプリケーションは、検索条件と、各ビデオクリップに対応するカテゴリタグとに基づいて、その検索条件に合致するビデオクリップを返すことができる。

１つの例示的な例では、図２に示すように、ユーザは、携帯電話を使用してビデオを撮影した後、保存コントロール２１をクリックして、そのビデオを携帯電話に記憶し、ビデオ管理アプリケーションは、そのビデオのためにビデオキャプション「一人の男性が公園で犬を散歩させる」をバックグラウンドで自動的に生成し、さらに、生成したビデオキャプションに基づいて、そのビデオのために「犬を散歩させる」というカテゴリタグを付加する。その後、ユーザは、携帯電話に記憶されている大量のビデオの中から、当該ビデオを検索する必要があるとき、ビデオ管理アプリケーションのビデオ検索インタフェース２２で、「犬を散歩させる」というキーワードを入力し、ビデオ管理アプリケーションは、このキーワードを各ビデオに対応するビデオカテゴリとマッチングさせることにより、マッチングされたビデオ２３を検索結果として表示する。

２、視覚的質問応答（ＶＱＡ：ＶｉｓｕａｌＱｕｅｓｔｉｏｎＡｎｓｗｅｒ）シナリオ

本願の実施例におけるビデオキャプション生成モデルは、視覚的質問応答シナリオに適用される場合、スマート質問応答アプリケーションまたはスマート質問応答アプリケーションの一部として実現され得る。スマート質問応答アプリケーションは、ビデオとこのビデオに対する質問とを取得した後、ビデオキャプション生成モデルによって、このビデオに対応するビデオキャプションを生成し、質問とビデオキャプションとに対して意味の識別を行うことにより、質問に対応する回答を生成し、さらに、この回答に対して表示を行う。

３、視覚障害者補助シナリオ

本願の実施例におけるビデオキャプション生成モデルは、視覚障害者補助シナリオに適用される場合、音声プロンプトアプリケーションまたは音声プロンプトアプリケーションの一部として実現され得る。音声プロンプトアプリケーションがインストールされた端末（例えば、視覚障害者が使用する補助デバイス）は、カメラによって視覚障害者周囲の環境ビデオを収集した後、音声プロンプトアプリケーションは、ビデオキャプション生成モデルによって、この環境ビデオに対して符号化－復号を行い、環境ビデオに対応するビデオキャプションを生成する。生成されたビデオキャプションについて、音声プロンプトアプリケーションは、このビデオキャプションを文字から音声に変換し、視覚障害者が周囲の環境状況を把握するのを助けるように音声再生を行うことができる。

１つの例示的な例では、図３に示すように、視覚障害者が着用するメガネ３１には、カメラ３２および骨伝導イヤホン３３が設けられている。動作状態では、カメラ３１は、前方の環境に対して画像を収集することで、環境ビデオ３４を収集する。メガネ３１は、プロセッサによって環境ビデオ３４のために、「前方に犬の散歩をさせている男性がいる」というビデオキャプションを生成し、このビデオキャプションを文字から音声に変換し、さらに、骨伝導イヤホン３３を介して再生され、これにより、視覚障害者は、音声プロンプトに従って避難することができる。

もちろん、本実施例によって提供される方法は、上記のシナリオに加えて、ビデオのためにビデオキャプションを生成する必要がある他のシナリオにも適用可能であり、本願の実施例は、具体的な適用シナリオについて限定しない。

本願の実施例によって提供されるビデオキャプション生成方法は、端末またはサーバなどのコンピュータデバイスに適用され得る。１つの実施例では、本願の実施例におけるビデオキャプション生成モデルは、アプリケーションまたはアプリケーションの一部として実現され、端末にインストールされて、これにより、端末は、ビデオキャプションを生成する機能を備えていてもよく、または、このビデオキャプション生成モデルは、アプリケーションのバックグラウンドサーバに適用され、これにより、サーバは、端末におけるアプリケーションのために、ビデオキャプションを生成する機能を提供してもよい。

本願の１つの例示的な実施例によって提供される実施環境の模式図が示されている図４を参照する。該実施環境は、端末４１０とサーバ４２０とを含み、ここで、端末４１０とサーバ４２０との間では、通信ネットワークを介してデータ通信が実行され、１つの実施例では、通信ネットワークは、有線ネットワークであってもよく、無線ネットワークであってもよいし、また、該通信ネットワークは、ローカルエリアネットワーク、メトロポリタンネットワーク、およびワイドエリアネットワークのうちの少なくとも１つであってもよい。

端末４１０には、ビデオ管理アプリケーション、スマート質問応答アプリケーション、音声プロンプトアプリケーション、字幕生成アプリケーション（ビデオ画面のために解説字幕を付加する）など、ビデオキャプションのニーズを有するアプリケーションがインストールされているが、本実施例は、これについて限定しない。１つの実施例では、端末は、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、視覚障害者補助デバイスなどのモバイル端末であってもよく、デスクトップコンピュータ、プロジェクションコンピュータなどの端末であってもよいが、本願の実施例は、これについて限定しない。

サーバ４２０は、１つのサーバとして実現されてもよく、１つグループのサーバで構成されるサーバクラスタとして実現されてもよいし、このサーバは、物理サーバとして実現されてもよく、クラウドサーバとして実現されてもよい。１つの実施例では、サーバ４２０は、端末４１０におけるアプリケーションのバックグラウンドサーバである。

図４に示すように、本願の実施例において、サーバ４２０には、事前にトレーニングされたビデオキャプション生成モデル４２１が記憶されている。１つの可能な適用シナリオで、ターゲットビデオのためにビデオキャプションを自動的に生成する必要がある場合、アプリケーションは、端末４１０によってターゲットビデオをサーバ４２０に送信し、サーバ４２０は、ターゲットビデオを受信した後、ターゲットビデオをビデオキャプション生成モデル４２１に入力する。ビデオキャプション生成モデル４２１は、デコーダ４２１Ａによってターゲットビデオから特徴を抽出し、抽出した特徴を基礎デコーダ４２１Ｂおよび補助デコーダ４２２Ｃのそれぞれによって復号することにより、復号結果に基づいてビデオキャプションを生成して端末４１０にフィードバックし、端末４１０におけるアプリケーションは、ビデオキャプションを表示する。

他の可能な実施形態では、ビデオキャプション生成モデル４２１が端末４１０におけるアプリケーションの一部として実現される場合、端末４１０は、サーバ４２０の助けを借りずに、ターゲットビデオのビデオキャプションをローカルで生成することができ、これによって、端末がビデオキャプションを取得する速度を向上させ、サーバとのインタラクションによって引き起こされる遅延を低減させる。

本願の１つの例示的な実施例によって提供されるビデオキャプション生成方法のフローチャートが示されている図５を参照する。本実施例は、該方法がコンピュータデバイスで使用されることを例として説明を行い、該方法は、ステップ５０１～ステップ５０５を含み、即ち、
ステップ５０１で、ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得る。

本願の実施例では、ビデオキャプション生成モデルにおけるエンコーダの役割は、ターゲットビデオからターゲット視覚的特徴（ｖｉｓｕａｌｆｅａｔｕｒｅ）を抽出し、抽出されたターゲット視覚的特徴をデコーダ（基礎デコーダおよび補助デコーダを含む）に入力することである。１つの実施例では、該ターゲット視覚的特徴は、ベクトルで示される。

１つの実施例では、ビデオキャプション生成モデルは、事前にトレーニングされた深層畳み込みニューラルネットワーク（ＣＮＮｓ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）をエンコーダとして利用して視覚的特徴の抽出を行い、また、エンコーダを利用して特徴の抽出を行う前に、前処理されたターゲットビデオがエンコーダの入力要求を満たすように、ターゲットビデオを前処理する必要がある。

抽出されたターゲット視覚的特徴について、エンコーダは、ターゲット視覚的特徴をそれぞれ基礎デコーダと補助デコーダに入力し、以下のステップ５０２およびステップ５０３を実行する。説明すべきものとして、下記のステップ５０２とステップ５０３との間に厳密な順序は存在せず、即ち、ステップ５０２とステップ５０３が同期して実行されることは可能であり、本実施例は、両者の実行順序対して限定しない。

ステップ５０２で、ビデオキャプション生成モデルの基礎デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第１選択確率を得て、基礎デコーダは、アテンションメカニズムを採用して、ターゲット視覚的特徴とマッチングする候補ワードを復号するために使用される。

１つの実施例では、該基礎デコーダは、ターゲットビデオに注目するので、ターゲットビデオのターゲット視覚的特徴に基づいて復号を行う。１つの実施例では、該基礎デコーダは、アテンションメカニズムを採用したリカレントニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）エンコーダであってもよい。例えば、該基礎デコーダは、ＳＡ－ＬＳＴＭモデルを採用し、また、復号を行うたびに、アテンションメカニズムを採用して、前回の復号によって出力された隠れ状態、前回の復号されたワード、およびターゲット視覚的特徴に基づいて、シソーラスにおける各候補ワードに対応する第１選択確率を決定する。もちろん、該基礎デコーダは、ＳＡ－ＬＳＴＭモデルに加えて、アテンションメカニズムに基づく他のＲＮＮエンコーダを採用することもでき、本願の実施例は、これに対する制限を構成するものではない。

１つの実施例では、基礎デコーダが復号を行うプロセスは、本質的に、分類タスクであり、即ち、ｓｏｆｔｍａｘ関数によってシソーラスにおける各候補ワードの（第１）選択確率を計算する。ここで、第１選択確率が大きいほど、候補ワードとビデオのコンテキスト情報とのマッチング度が高くなるということ、即ち、該候補ワードが表す意味がコンテキストとよりマッチングしているということを表明する。

ステップ５０３で、ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第２選択確率を得て、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものである。

ターゲットビデオのターゲット視覚的特徴のみに注目する基礎デコーダとは異なり、本実施例では、補助デコーダが候補ワードと関連ビデオとの間の相関性に注目するので、補助デコーダを使用してターゲット視覚的特徴を復号する際に、同一の候補ワードの異なるビデオにおける視覚的特徴をキャプチャし、それらをターゲットビデオのターゲット視覚的特徴とマッチングさせることによって、復号されたワードを決定する精度を向上させることができる。

１つの実施例では、候補ワードと関連ビデオとの相関性は、補助デコーダのメモリ構造（ｍｅｍｏｒｙｓｔｒｕｃｔｕｒｅ）に記憶され、候補ワードと参照の視覚的コンテキスト情報との間の対応関係によって表現化される。ここで、候補ワードに対応する参照の視覚的コンテキスト情報は、該候補ワードを含む関連ビデオの視覚的コンテキスト特徴を表すために使用されるのであり、また、該参照の視覚的コンテキスト情報は、サンプルビデオにおける、候補ワードに関連する関連ビデオに基づいて生成されるものである。下記の実施例では、参照の視覚的コンテキスト情報の生成方式について詳細に説明する。

説明すべきものとして、メモリ構造を使用して、候補ワードと関連ビデオとの間の相関性を構築することに加えて、グラフ（ｇｒａｐｈ）に基づくアルゴリズムを採用して、候補ワードと関連ビデオとの間の相関性を構築することも可能であり、本願は、これについて限定しない。

１つの実施例では、基礎デコーダと同様に、補助デコーダが復号を行うプロセスも、本質的に、分類タスクであり、即ち、ｓｏｆｔｍａｘ関数によってシソーラスにおける各候補ワードの（第２）選択確率を計算する。ここで、基礎デコーダと補助デコーダは、同じシソーラスに対応し、また、第２選択確率が大きいほど、候補ワードとビデオのコンテキスト情報とのマッチング度が高くなるということ、即ち、該候補ワードが表す意味がコンテキストとよりマッチングしているということを表明する。

ステップ５０４で、第１選択確率および第２選択確率に基づいて、候補ワードにおける、復号されたワードを決定する。

単一のデコーダの復号結果のみに基づいて復号されたワードを決定する関連技術とは異なり、本願の実施例では、ビデオキャプション生成モデルは、基礎デコーダによって出力された第１選択確率と、補助デコーダによって出力された第２選択確率とを統合して、シソーラスにおける各候補ワードから、今回の復号によって得られた、復号されたワードを決定する。

ステップ５０５で、各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成する。

ビデオキャプションは、通常、複数の復号されたワードによって構成される自然言語であるため、復号されるたびに、上記のステップ５０２～ステップ５０４を繰り返して、ビデオキャプションの各復号されたワードを順次に生成し、それによって、複数の復号されたワードを連結して、最終的に、ビデオキャプションを生成する必要がある。

以上のように、本願の実施例では、ビデオキャプション生成モデルのエンコーダを使用してターゲットビデオを符号化し、ターゲットの視覚的特徴を得た後、アテンションメカニズムに基づく基礎デコーダおよび補助デコーダのそれぞれによってターゲット視覚的特徴を復号し、各候補ワードの第１選択確率および第２選択確率を得て、これにより、第１選択確率および第２選択確率を総合して、候補ワードから、復号されたワードを決定し、さらに、複数の復号されたワードに基づいてビデオキャプションを生成する。ビデオキャプション生成モデルにおける補助デコーダのメモリ構造には、候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、かつ、この参照の視覚的コンテキスト情報が候補ワードの関連ビデオに基づいて生成されるものであるため、補助デコーダを使用して復号を行う際に、候補ワードと現在のビデオ以外の他のビデオとの間の相関性に注目することができ、これによって、復号されたワードの選出の精度を向上させ、さらに、その後に生成されるビデオキャプションの品質を向上させることができる。

１つの例示的な例では、図６に示すように、同じビデオ６１に対して、関連技術におけるビデオキャプション生成モデルによって生成されたビデオキャプションは、「ｗｏｍａｎｉｓｍｉｘｉｎｇｉｎｇｒｅｄｉｅｎｔｓｉｎａｂｏｗｌ．」（一人の女性がボウル内の材料を混ぜている」）である一方、本願の実施例におけるビデオキャプション生成モデルによって生成されたビデオキャプションは、「ａｗｏｍａｎｉｓｐｏｕｒｉｎｇｌｉｑｕｉｄｉｎｔｏａｂｏｗｌ．」（一人の女性がボウルに液体を注いでいる）である。ここから分かるように、関連技術におけるビデオキャプション生成モデルは、ビデオ６１における「ｐｏｕｒｉｎｇ」（注ぐ）を識別することができないが、本願の実施例では、補助デコーダのメモリ構造には、「ｐｏｕｒｉｎｇ」と関連ビデオピクチャ６２との間の相関性（即ち、参照の視覚的コンテキスト情報）が含まれているので、「ｐｏｕｒｉｎｇ」という復号されたワードを正確的に復号することができ、ビデオキャプションのキャプション品質を向上させる。

上記の実施例は、ビデオキャプション生成モデルの動作原理を簡単に説明したが、以下では、模式的な実施例を用いて、図面を参照しながら、ビデオキャプション生成プロセスに関与する符号化および復号のプロセスをより詳細に説明する。

図７は、本願の別の例示的な実施例によって提供されるビデオキャプション生成方法のフローチャートを示す。本実施例は、該方法がコンピュータデバイスで使用されることを例として説明を行う。該方法は、ステップ７０１～ステップ７０８を含み、即ち、
ステップ７０１で、エンコーダによってターゲットビデオを符号化し、ターゲットビデオの２次元視覚的特徴および３次元視覚的特徴を取得し、前記２次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、前記３次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものである。

ビデオは、連続する画像フレームによって構成されるため、ビデオの視覚的特徴には、単一フレーム画像の画像的特徴（即ち、２次元視覚的特徴）だけでなく、連続する画像フレームの時系列特徴（即ち、３次元視覚的特徴）も含まれている。１つの実施例では、エンコーダには、２次元視覚的特徴を抽出するために使用される第１サブエンコーダと、３次元視覚的特徴を抽出するために使用される第２サブエンコーダとが含まれている。

相応的に、ターゲットビデオを符号化する際に、ターゲットビデオを独立した画像フレームに分割し、第１サブエンコーダを使用して各画像フレームに対して特徴の抽出を行い、２次元視覚的特徴を得て、ターゲットビデオをいくつかのビデオクリップに分割し（各ビデオクリップには、いくつかの連続する画像フレームが含まれている）、第２サブエンコーダを使用して各ビデオクリップに対して特徴の抽出を行い、３次元視覚的特徴を得る。

１つの実施例では、第１サブエンコーダは、ＩｍａｇｅＮｅｔ（視覚的オブジェクトの識別ソフトウェアの研究のために使用される大規模な視覚化データベース）データセット上で事前にトレーニングされたＲｅｓＮｅｔ－１０１モデル（深さが１０１である残差ネットワーク）を採用する一方、第２サブエンコーダは、Ｋｉｎｅｔｉｃｓデータセット上で事前にトレーニングされたＲｅｓＮｅＸｔ－１０１モデルを採用する。もちろん、第１サブエンコーダおよび第２サブエンコーダは、他のモデルを採用することもでき、本願の実施例は、これについて限定しない。

１つの例示的な例では、Ｌ個の画像フレームを含むターゲットビデオに対して、デコーダによってターゲットビデオを符号化することで、２次元視覚的特徴

および３次元視覚的特徴

を得て、ここで、Ｎ＝Ｌ／ｄであり、ｄは、各ビデオクリップにおける画像フレームの数である。

模式的には、図８に示すように、エンコーダ８１は、２次元視覚的特徴８１１および３次元視覚的特徴８１２を抽出し得る。

ステップ７０で２、２次元視覚的特徴と３次元視覚的特徴とを同一の特徴次元に変換して、ターゲット視覚的特徴を得る。

抽出された２次元視覚的特徴および３次元視覚的特徴の特徴次元（たとえばベクトルサイズ）は異なる可能性があるため、視覚的特徴の特徴次元を統一し、２次元視覚的特徴と３次元視覚的特徴との相互汚染を回避するために、１つの実施例では、ビデオキャプション生成モデルは、２次元視覚的特徴および３次元視覚的特徴を隠れ空間（ｈｉｄｄｅｎｓｐａｃｅ）の同一の特徴次元に変換し、ターゲット視覚的特徴を得る。

１つの例示的な例では、任意の２次元視覚的特徴ｆ_ｌに対して、それが変換されたターゲット視覚的特徴は、

となり、任意の３次元視覚的特徴Ｖ_ｎに対して、それが変換されたターゲット視覚的特徴は、

となり、ここで、Ｍ_ｆとＭ_ｖは、変換行列であり、ｂ_ｆとｂ_ｖは、バイアス項である。

ステップ７０３で、ビデオキャプション生成モデルの基礎デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第１選択確率を得て、基礎デコーダは、アテンションメカニズムを採用して、ターゲット視覚的特徴とマッチングしている候補ワードを復号するために使用される。

１つの実施例では、ビデオキャプション生成モデルは、ゲート付き回帰型ユニット（ＧＲＵ：ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）を基礎デコーダの骨組みとして使用する。模式的には、図８に示すように、基礎デコーダ８２には、ＧＲＵ８２１、ＧＲＵ８２２、およびＧＲＵ８２３が含まれている。

相応的に、基礎デコーダが、ｔ回目の復号を行う際に、以下のステップを含むことができ、即ち、
一、ｔ回目の復号を行う際に、ｔ－１回目の復号によって得られた、ｔ－１番目の復号されたワードおよびｔ－１番目の隠れ状態を取得し、ｔ－１番目の隠れ状態は、基礎デコーダがｔ－１回目の復号を行う際に出力した隠れ状態であり、ｔは、２以上の整数である。

基礎デコーダは、復号を行うたびに、１つの隠れ状態を出力することがあり、その後、この隠れ状態に基づいて、今回の復号によって得られた、復号されたワードを決定する。本願の実施例では、ＧＲＵを使用して隠れ状態を出力する際に、前回の復号時に出力された隠れ状態および前回の復号されたワードを利用する必要があるため、基礎デコーダは、ｔ回目の復号を行う際に、ｔ－１番目の復号されたワードおよびｔ－１番目の隠れ状態を取得する必要がある。

模式的には、図８に示すように、基礎デコーダ８２は、ｔ回目の復号を行う際に、ＧＲＵ８２１から出力されたｔ－１番目の隠れ状態ｈ_ｔ－１と、ｔ－１番目の復号されたワードｗ_ｔ－１に対応するワードベクトルｅ_ｔ－１を取得する。

二、ｔ－１番目の復号されたワード、ｔ－１番目の隠れ状態、およびターゲット視覚的特徴に基づいて、候補ワードの第１選択確率を決定する。

異なる復号段階では、異なる視覚的特徴と現在の復号されたワードとの間の関連度に違いが存在しているため、第１選択確率を計算する前に、基礎デコーダは、アテンションメカニズムを採用して、エンコーダによって出力されたターゲット視覚的特徴に対して処理（加重和）を行って、今回の復号されたターゲット視覚的コンテキスト情報を得る必要がある。

１つの実施例では、基礎デコーダは、２次元視覚的特徴および３次元視覚的特徴をそれぞれ処理して、２次元視覚的コンテキスト情報および３次元視覚的コンテキスト情報を取得し、２次元視覚的コンテキスト情報と３次元視覚的コンテキスト情報とを融合してターゲット視覚的コンテキスト情報を取得する。

ここで、２次元視覚的特徴ｆ’_ｉに対して、それを処理して２次元視覚的コンテキスト情報

を得て、ここで、

であり、ｈ_ｔ－１は、ｔ－１番目の隠れ状態（ベクトル表現）であり、ｆ_ａｔｔは、アテンション関数である。

３次元視覚的特徴Ｖ’_ｉに対して、それを処理して３次元視覚的コンテキスト情報

を得て、ここで、

であり、ｈ_ｔ－１は、ｔ－１番目の隠れ状態（ベクトル表現）であり、ｆ_ａｔｔは、アテンション関数である。１つの一実施例では、２次元視覚的特徴の処理と３次元視覚的特徴の処理には、同じアテンション関数が使用される。

２次元視覚的コンテキスト情報と３次元視覚的コンテキスト情報とを融合してターゲット視覚的コンテキスト情報

を得る。

模式的には、図８に示すように、アテンションメカニズム（図におけるｆａｔｔ）を採用して、２次元視覚的特徴８１１および３次元視覚的特徴８１２をそれぞれ処理して、Ｃ_ｔ,２ＤとＣ_ｔ,３Ｄを得て、処理結果を融合して、ｔ回目の復号時のターゲット視覚的コンテキスト情報Ｃ_ｔを得る。

ＧＲＵは、ｔ－１番目の復号されたワード、第ｔ－１の隠れ状態、およびターゲット視覚的コンテキスト情報に基づいて、ｔ回目の復号のｔ番目の隠れ状態を出力する。ＧＲＵがｔ番目の隠れ状態を決定する方法は、以下のように表すことができ、即ち、

さらに、基礎デコーダは、ｔ番目の隠れ状態に基づいて、シソーラスにおける各候補ワードに対応する第１選択確率を計算する。第１選択確率の計算式は、次のとおりであり、即ち、

ここで、ｗ_ｉは、シソーラスにおけるｉ番目の候補ワードであり、Ｋは、シソーラスにおける候補ワードの総数であり、Ｗ_ｉとｂ_ｉは、ｉ番目の候補ワードの線形マッピングスコアを計算する際に使用されるパラメータである。

模式的には、図８に示すように、ターゲット視覚的コンテキスト情報Ｃ_ｔ、ＧＲＵ８２１によって出力されたｔ－１番目の隠れ状態ｈ_ｔ－１、およびｔ－１番目の復号されたワードのワードベクトルｅ_ｔ－１をＧＲＵ８２２に入力し、ＧＲＵ８２２は、各候補ワードの第１選択確率Ｐ_ｂを計算する。

ステップ７０４で、ｔ回目の復号を行う場合、ｔ－１回目の復号によって得られたｔ－１番目の復号されたワードとｔ－１番目の隠れ状態とを取得し、ｔ－１番目の隠れ状態は、基礎デコーダがｔ－１回目の復号を行う際に出力した隠れ状態であり、ｔは、２以上の整数である。

１つの実施例では、基礎デコーダと同様に、補助デコーダは、復号プロセスにおいて、前回の復号されたワードおよび前回の復号時に出力された隠れ状態を使用する必要もあり、したがって、ｔ回目の復号を行う際に、補助デコーダは、ｔ－１番目の復号されたワードとｔ－１番目の隠れ状態とを取得し、ｔ－１番目の隠れ状態は、基礎デコーダがｔ－１回目の復号を行う際に出力した隠れ状態である。

ステップ７０５で、ｔ－１番目の復号されたワード、ｔ－１番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、補助デコーダによって候補ワードの第２選択確率を決定する。

基礎デコーダと異なるのは、補助デコーダが、復号プロセスにおいて、関連ビデオにおける候補ワードの視覚的特徴に注目するように、復号プロセスにおいてメモリ構造における、各候補ワードに対応する参照の視覚的コンテキスト情報を取得する必要もある、ということである。

１つの実施例では、メモリ構造には、少なくとも各候補ワードに対応する参照の視覚的コンテキスト情報ｇ_ｒと、候補ワードのワードベクトル特徴ｅ_ｒが含まれている。相応的に、補助デコーダは、復号プロセスにおいて、候補ワードに対応するターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報との間のマッチング度、および、候補ワードのワード特徴ベクトルと前回の復号されたワードのワード特徴ベクトルとの間のマッチング度を重点的に計算し、さらに、２つのマッチング度に基づいて、候補ワードの第２選択確率を決定する。

１つの実施例では、図９に示すように、このステップ７０５は、ステップ７０５Ａ～ステップ７０５Ｅを含むようにしてもよく、即ち、
ステップ７０５Ａで、ターゲット視覚的特徴およびｔ－１番目の隠れ状態に基づいて、ｔ回目の復号を行う際のターゲット視覚的コンテキスト情報を生成する。

ここで、ターゲット視覚的特徴およびｔ－１番目の隠れ状態に基づいて、ターゲット視覚的コンテキスト情報を生成するプロセスは、上記のステップ７０３を参照することができ、本実施例は、これについて再度言及しない。

１つの実施例では、補助エンコーダは、計算を繰り返すことなく、基礎エンコーダからターゲット視覚的コンテキスト情報を取得することができ、本実施例は、これについて限定しない。

ステップ７０５Ｂで、ターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報とに基づいて、候補ワードの第１マッチング度を決定する。

候補ワードに対応する参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものであるため、該参照の視覚的コンテキスト情報は、該候補ワードを復号されたワードとする関連ビデオの視覚的特徴を反映することができる。相応的に、候補ワードに対応する参照の視覚的コンテキスト情報と今回の復号時のターゲット視覚的コンテキスト情報との間のマッチング度が高い場合、その候補ワードとターゲット視覚的コンテキスト情報との間のマッチング度も高くなる。

１つの実施例では、補助デコーダは、ターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報との間のマッチング度を、候補ワードの第１マッチング度として決定し、この第１マッチング度は、

として表すことができ、ここで、Ｗ_ｃとＷ_ｇは、線形変換行列であり、ｇ_ｉは、ｉ番目の候補ワードに対応する参照の視覚的コンテキスト情報である。

ステップ７０５Ｃで、メモリ構造における、候補ワードに対応する第１ワード特徴ベクトルと、ｔ－１番目の復号されたワードの第２ワード特徴ベクトルとを取得する。

補助デコーダは、視覚的コンテキスト情報に基づいて候補ワードのマッチング度を決定することに加えて、候補ワードと前回の復号されたワードとの語意に基づいて、候補ワードのマッチング度を決定し、これにより、後の復号によって得られた、復号されたワードと前回の復号されたワードとの間の一貫性を向上させることができる。

１つの実施例では、補助デコーダは、候補ワードに対応する第１ワード特徴ベクトルをメモリ構造から取得し、変換行列によってｔ－１番目の復号されたワードを第２ワード特徴ベクトルに変換する。

ステップ７０５Ｄで、第１ワード特徴ベクトルと第２ワード特徴ベクトルとに基づいて、候補ワードの第２マッチング度を決定する。

１つの実施例では、補助デコーダは、第１ワード特徴ベクトルと第２ワード特徴ベクトルとの間のマッチング度を候補ワードの第２マッチング度として決定し、この第２マッチング度は、

として表すことができ、ここで、Ｗ’_ｅとＷ_ｅは、線形変換行列であり、ｅ_ｉは、ｉ番目の候補ワードに対応するワードベクトル特徴である。

説明すべきものとして、上記のステップ７０５Ａおよび７０５Ｂと、ステップ７０５Ｃおよび７０５Ｄとの間には、厳密な前後の時系列が存在せず、即ち、ステップ７０５Ａおよび７０５Ｂは、ステップ７０５Ｃおよび７０５Ｄと同期して実行されてもよく、本願の実施例は、これに対して限定しない。

ステップ７０５Ｅで、第１マッチング度と第２マッチング度とに基づいて、候補ワードの第２選択確率を決定する。

１つの実施例では、第２選択確率と、第１マッチング度および第２マッチング度との間には、正の相関関係が表現され、即ち、第１マッチング度および第２マッチング度が高いほど、候補ワードの第２選択確率が高くなる。

１つの実施例では、復号の精度をさらに向上させるために、メモリ構造には、候補ワードに対応する参照の視覚的コンテキスト情報ｇ_ｒおよび候補ワードのワードベクトル特徴ｅ_ｒが含まれていることに加えて、候補ワードに対応する補助情報ｕ_ｒも含まれている。ここで、この補助情報は、候補ワードの品詞、候補ワードが属する分野、この候補ワードがよく使用されるビデオカテゴリなどであってもよい。

相応的に、補助デコーダは、補助情報、ｔ－１番目の復号されたワード、ｔ－１番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、候補ワードの第２選択確率を決定する。

１つの実施例では、候補ワードｗ_ｋの第２選択確率Ｐ_ｍは、以下のように表すことができ、即ち、

ここで、ｑ_ｋは、候補ワードｗ_ｋの相関性スコアであり、Ｋは、シソーラスにおける候補ワードの総数である。

１つの実施例では、候補ワードの相関性スコアの計算式は、以下の通りであり、即ち、

ここで、Ｗ_ｈとＷ_ｕは、線形変換行列であり、ｕ_ｉは、ｉ番目の候補ワードに対応する補助情報であり、ｂは、バイアス項である。

模式的には、図８に示すように、補助デコーダ８３のメモリ構造８３２には、各候補ワード（ｗ_ｉ）に対応する参照の視覚的コンテキスト情報ｇ_ｉ、ワードベクトル特徴ｅ_ｉおよび補助情報ｕ_ｉが含まれている。ｔ回目の復号が実行される場合、メモリ構造８３２における内容、ターゲット視覚的コンテキスト情報Ｃ_ｔ、ｔ－１番目の隠れ状態ｈ_ｔ－１、およびｔ－１番目の復号されたワードのワード特徴ベクトルｅ_ｔ－１は、復号コンポーネント８３１に入力され、復号コンポーネント８３１は、各候補ワードの第２選択確率Ｐ_ｍを出力する。

ステップ７０６で、第１選択確率および第１選択確率に対応する第１重みと、第２選択確率および第２選択確率に対応する第２重みとに基づいて、各候補ワードのターゲット選択確率を計算する。

１つの実施例では、ビデオキャプション生成モデルは、シソーラスにおける各候補ワードに対して、この候補ワードに対応する第１選択確率および第２選択確率を取得し、各選択確率のそれぞれに対応する重みに基づいて、重み付け計算を行ってその候補ワードのターゲット選択確率を得る。

模式的には、候補ワードｗ_ｋのターゲット選択確率の計算式は、次の通りであり、即ち、

ここで、λは、第２重みであり、（１－λ）は、第１重みである。

１つの実施例では、第１重みおよび第２重みは、実験を通じて得られたスーパーパラメータであり、また、第１重みは、第２重みよりも大きいものである。例えば、λの値の範囲は、（０．１,０．２）である。

ステップ７０７で、最も高いターゲット選択確率に対応する候補ワードを復号されたワードとして決定する。

さらに、ビデオキャプション生成モデルは、各候補ワードのターゲット選択確率を取得し、最も高いターゲット選択確率に対応する候補ワードを今回の復号によって得られた、復号されたワードとして決定する。

模式的には、図８に示すように、ビデオキャプション生成モデルは、第１選択確率Ｐ_ｂと第２選択確率Ｐ_ｍとに基づいて、ターゲット選択確率Ｐを算出し、ターゲット選択確率Ｐに基づいて、ｔ番目の復号されたワードｗ_ｔを決定する。

ステップ７０８で、各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成する。

１つの例示的な例では、図１０に示すように、同じビデオ１００１に対して、関連技術におけるビデオキャプション生成モデルによって生成されたビデオキャプションは、「ａｐｅｒｓｏｎｉｓｓｌｉｃｉｎｇｂｒｅａｄ」（一人はパンを切っている）である一方、本願の実施例におけるビデオキャプション生成モデルによって生成されたビデオキャプションは、「ａｍａｎｉｓｓｐｒｅａｄｉｎｇｂｕｔｔｅｒｏｎａｂｒｅａｄ」「一人がパンにバターを塗っている」である。ここから分かるように、関連技術におけるビデオキャプション生成モデルは、ビデオ１００１における「ｓｐｒｅａｄｉｎｇ」および「ｂｕｔｔｅｒ」を識別することができない一方、本願の実施例では、補助デコーダのメモリ構造には、「ｓｐｒｅａｄｉｎｇ」および「ｂｕｔｔｅｒ」と、関連ビデオ画面１００２との間の相関性（即ち、参照の視覚的コンテキスト情報）が含まれているので、「ｓｐｒｅａｄｉｎｇ」や「ｂｕｔｔｅｒ」などの復号されたワードを正確に復号することができ、これにより、ビデオキャプションの精度を向上させる。

本実施例では、ビデオキャプション生成モデルは、デコーダを使用して、ターゲットビデオを復号して２次元視覚的特徴と３次元視覚的特徴とを得て、２次元視覚的特徴と３次元視覚的特徴とを同一の特徴次元にマッピングすることにより、視覚的特徴の抽出の網羅性を向上させ、２次元視覚的特徴と３次元視覚的特徴との間の相互汚染を回避する。

また、本実施例では、補助デコーダは、候補ワードの参照視覚的特徴コンテキスト情報と、現在復号されているターゲット視覚的コンテキスト情報とに基づいて、候補ワードの選択確率を決定し、これは、最終的に決定された、復号されたワードの精度向上に寄与し、また、補助デコーダは、候補ワードと、前回の復号されたワードのワードベクトル特徴とに基づいて、候補ワードの選択確率を決定し、これは、最終的に決定された、復号されたワードと前回の復号されたワードとの間の一貫性の向上に寄与する。

上記した実施例における候補ワードに対応する参照の視覚的コンテキスト情報の生成プロセスについて、１つの実施例では、図１１に示すように、この生成プロセスは、ステップ１１０１～ステップ１１０４を含むようにしてもよく、即ち、
ステップ１１０１で、各候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、候補ワードに対応するＩ個の関連ビデオを決定し、関連ビデオのサンプルビデオキャプションには、候補ワードが含まれており、Ｉは、１以上の整数である。

１つの実施例では、開発者は、手動ラベリング方式を採用してサンプルビデオのためにサンプルビデオオキャプションを生成して追加するか、または、既存のビデオキャプション生成モデルを使用して、サンプルビデオのためにサンプルビデオキャプションを自動的に生成し、品質が予想よりも低いサンプルビデオキャプションを人工的にフィルタリングする。

コンピュータデバイスは、シソーラスにおける各候補ワードの関連ビデオを決定する際に、各サンプルビデオに対応するサンプルビデオキャプションを取得し、サンプルビデオキャプションにはこの候補ワードが含まれているビデオを、候補ワードの関連ビデオとして決定する。

１つの例示的な例では、候補ワード「散歩」について、サンプルビデオＡに対応するビデオキャプションが「一人の男性が犬をリードしている」である一方、サンプルビデオＢに対応するビデオキャプションが「一人の男性と一人の女性が公園で散歩している」である場合、コンピュータデバイスは、サンプルビデオＢを「散歩」に対応する関連ビデオとして決定する。

ステップ１１０２で、各関連ビデオについて、関連ビデオにおけるｋ個のキー視覚的特徴を決定し、キー視覚的特徴と候補ワードとの間のマッチング度は、関連ビデオにおける非キー視覚的特徴と候補ワードとの間のマッチング度よりも高くなり、ｋは、１以上の整数である。

各候補ワードに対応する各関連ビデオについては、関連ビデオにおけるすべての画像フレーム（またはビデオクリップ）がこの候補ワードに関連しているわけではないため、コンピュータデバイスは、各関連ビデオにおける、候補ワードに関連するキー視覚的特徴を決定する必要がある。非キー視覚的特徴は、各関連ビデオにおける、キー視覚的特徴以外の視覚的特徴である、ということが理解できる。

１つの実施例では、関連ビデオにおけるキー視覚的特徴の決定には、以下のステップを含むようにしてもよく、即ち、
一、基礎デコーダによって、候補ワードに対する、関連ビデオにおける各視覚的特徴の特徴重みを取得し、ここで、各特徴重みの合計は、１である。

１つの実施例では、コンピュータデバイスは、まず、ビデオキャプション生成モデルにおける基礎デコーダをトレーニングし、この基礎デコーダを利用して（アテンションメカニズムを採用して）、この候補ワードを復号する際の、この候補ワードに対する、関連ビデオにおける各視覚的特徴の特徴重みを取得する。

１つの例示的な例では、候補ワードがサンプルビデオに対応するサンプルビデオキャプションにおけるｔ番目の復号されたワードである場合、コンピュータデバイスは、基礎デコーダを使用してサンプルビデオの視覚的特徴を復号し、ｔ回目の復号時に基礎デコーダによって出力されたｔ－１番目の隠れ状態ｈｔ－１を取得することにより、アテンション関数ｆａｔｔによって、その候補ワードに対する各視覚的特徴（v’_iまたはf’_i）の特徴a_i,tを計算する。

二、最初のｋ個の特徴の重みに対応する視覚的特徴をキー視覚的特徴として決定する。

候補ワードに対する視覚的特徴の特徴重みが大きいほど、この視覚的特徴と候補ワードとの間の相関性が高くなる、ということが表明され、したがって、コンピュータデバイスは、最初のｋ個（Ｔｏｐ－ｋ）の特徴重みに対応する視覚的特徴を、候補ワードのキー視覚的特徴として決定することができる。

模式的には、図１２に示すように、コンピュータデバイスは、候補ワードに対応するＩ個の関連ビデオに対して、各関連ビデオの２次元視覚的特徴１２０１および３次元視覚的特徴１２０２をそれぞれ抽出し、基礎デコーダのアテンションメカニズムによって、候補ワードに対する、関連ビデオにおける各視覚的特徴の特徴重みを取得し、その中から、Ｔｏｐ－ｋ個の視覚的特徴をキー視覚的特徴１２０３として選択する。

ステップ１１０３で、Ｉ個の関連ビデオに対応する各キー視覚的特徴に基づいて、候補ワードに対応する参照の視覚的コンテキスト情報を生成する。

さらに、コンピュータデバイスは、各関連ビデオに対応するキー視覚的特徴を融合することにより、候補ワードに対応する参照の視覚的コンテキスト情報を生成する。

ここで、候補ワードに対応する参照の視覚的コンテキスト情報ｇ_ｒは、次のように表すことができ、即ち、

ここで、Ｉは、関連ビデオの個数であり、ｋは、各関連ビデオに対応するキー視覚的特徴の数であり、ａ_ｉ,ｊは、候補ワードに対するｊ番目の２次元キー視覚的特徴ｆ’_ｉ,ｊの特徴重みであり、ａ’_ｉ,ｊは、候補ワードに対するｊ番目の３次元キー視覚的特徴ｖ’_ｉ,ｊの特徴重みである。

模式的には、図１２に示すように、コンピュータデバイスは、各関連ビデオに対応するキー視覚的特徴１２０３を融合して、参照の視覚的コンテキスト情報１２０４を生成する。

ステップ１１０４で、各候補ワードに対応する参照の視覚的コンテキスト情報をメモリ構造に記憶する。

さらに、コンピュータデバイスは、後で使用するために、各候補ワードに対応する参照の視覚的コンテキスト情報を補助デコーダのメモリ構造に記憶する。

本実施例では、コンピュータデバイスは、候補ワードに対応する関連ビデオから、候補ワードのキー視覚的特徴を抽出することにより、多数のキー視覚的特徴に基づいて、候補ワードの参照の視覚的コンテキスト情報を生成して、メモリ構造に記憶し、これによって、後続の復号によって得られた、復号されたワードの精度を向上させるのに寄与する。

ＭＳＲ－ＶＴＴデータセットにおいて、関連技術および本願の実施例におけるビデオキャプション生成モデルのビデオキャプションの品質を分析し、得られた分析結果を表１に示すようにする。

ＭＳＶＤデータセットにおいて、関連技術および本願の実施例におけるビデオキャプション生成モデルのビデオキャプション品質を分析し、得られた分析結果を表２に示すようにする。

以上の分析結果から、本願の実施例におけるビデオキャプション生成モデルは、４つの評価指標（ＢＬＥＵ－４、ＭＥＴＥＲＯＲ、ＲＯＵＧＥ－Ｌ、ＣＩＤＥｒ）上で、いずれもトップレベルにある、ということが分かる。

説明すべきものとして、上記の各実施例のフローチャートにおける各ステップは、矢印の指示に従って順次に表示されているが、これらのステップは、必ずしも矢印で指示された順序に従って順次に実行されるわけではない。本願に明示的に記載されていない限り、これらのステップの実行には、厳密な順序制限がなく、これらのステップは、他の順序で実行されてもよい。さらに、上記の実施例におけるステップのうちの少なくとも一部は、複数のサブステップまたは複数の段階を含むことができ、これらのサブステップまたは段階は、必ずしも同じ時点で実行完了されるものではなく、異なる時点で実行されてもよいし、これらのサブステップまたは段階の実行順序は、必ずしも順次に行われるものではなく、他のステップ、あるいは他のステップのサブステップまたは段階のうちの少なくとも一部と交互にまたは順次に実行されてもよい。

図１３は、本願の１つの例示的な実施例によって提供されるビデオキャプション生成装置の構造ブロック図であり、この装置は、上記の実施例に記載のコンピュータデバイスに配置されてもよく、図１３に示すように、この装置は、
ビデオキャプション生成モデルのエンコーダによって、ターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得るために使用される符号化モジュール１３０１と、
ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを採用してターゲット視覚的特徴を復号し、各候補ワードに対応する第１選択確率を得るために使用される第１復号モジュール１３０２と、
ビデオキャプション生成モデルの補助デコーダによって、ターゲット視覚的特徴を復号し、各候補ワードに対応する第２選択確率を得るために使用される第２復号モジュール１３０３であって、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報が含まれており、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものである第２復号モジュール１３０３と、
第１選択確率と第２選択確率とに基づいて、候補ワードにおける復号されたワードを決定するために使用される第１決定モジュール１３０４と、
各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成するために使用される第１生成モジュール１３０５と、を含む。

１つの実施例では、第２復号モジュール１３０３は、
ｔ回目の復号を実行する場合、ｔ－１回目の復号によって得られた、ｔ－１番目の復号されたワードおよびｔ－１回目の隠れ状態を取得するために使用される第１取得ユニットであって、ｔ－１回目の隠れ状態は、基礎デコーダがｔ－１回目の復号を行う際に出力した隠れ状態であり、ｔは、２以上の整数である第１取得ユニットと、
ｔ－１番目の復号されたワード、ｔ－１番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、候補ワードの第２選択確率を決定するために使用される第１決定ユニットと、を含む。

１つの実施例では、第１決定ユニットは、
ターゲット視覚的特徴とｔ－１番目の隠れ状態とに基づいて、ｔ回目の復号時のターゲット視覚的コンテキスト情報を生成することと、
ターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報とに基づいて、候補ワードの第１マッチング度を決定することと、
メモリ構造における、候補ワードに対応する第１ワード特徴ベクトルおよびｔ－１番目の復号されたワードの第２ワード特徴ベクトルを取得することと、
第１ワード特徴ベクトルと第２ワード特徴ベクトルとに基づいて、候補ワードの第２マッチング度を決定することと、
第１マッチング度と第２マッチング度とに基づいて、候補ワードの第２選択確率を決定することと、のために使用される。

１つの実施例では、メモリ構造には、各候補ワードに対応する補助情報がさらに含まれている。第１決定ユニットは、
補助情報、ｔ－１番目の復号されたワード、ｔ－１番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、候補ワードの第２選択確率を決定することに使用される。

１つの実施例では、装置は、
各候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、候補ワードに対応するＩ個の関連ビデオを決定するために使用される第２決定モジュールであって、関連ビデオのサンプルビデオキャプションには、候補ワードが含まれており、Ｉは、１以上の整数である第２決定モジュールと、
各関連ビデオに対して、関連ビデオにおけるｋ個のキー視覚的特徴を決定するために使用される第３決定モジュールであって、キー視覚的特徴と候補ワードとの間のマッチング度は、関連ビデオにおける、非キー視覚的特徴と候補ワードとの間のマッチング度よりも高くなり、ｋは、１以上の整数である第３決定モジュールと、
Ｉ個の関連ビデオに対応する各キー視覚的特徴に基づいて、候補ワードに対応する参照の視覚的コンテキスト情報を生成するために使用される第２生成モジュールと、
各候補ワードに対応する参照の視覚的コンテキスト情報をメモリ構造に記憶するために使用される記憶モジュールと、を含む。

１つの実施例では、第３決定モジュールは、
基礎デコーダによって、候補ワードに対する関連ビデオにおける各視覚的特徴の特徴重みを取得するために使用される取得ユニットであって、各特徴重みの合計は１である取得ユニットと、
最初のｋ個の特徴重みに対応する視覚的特徴をキー視覚的特徴として決定するために使用される第２決定ユニットと、を含む。

１つの実施例では、第１決定モジュール１３０４は、
第１選択確率および第１選択確率に対応する第１重みと、第２選択確率および第２選択確率に対応する第２重みとに基づいて、各候補ワードのターゲット選択確率を計算するために使用される計算ユニットと、
最も高いターゲット選択確率に対応する候補ワードを復号されたワードとして決定するために使用される第３決定ユニットと、を含む。

１つの実施例では、符号化モジュール１３０１は、
エンコーダによってターゲットビデオを符号化し、ターゲットビデオの２次元視覚的特徴および３次元視覚的特徴を取得するために使用される符号化ユニットであって、２次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、３次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものである符号化ユニットと、
２次元視覚的特徴と３次元視覚的特徴とを同一の特徴次元に変換して、ターゲット視覚的特徴を得るために使用される変換ユニットと、を含む。

以上のように、本願の実施例は、ビデオキャプション生成モデルのエンコーダを使用してターゲットビデオを符号化し、ターゲットの視覚的特徴を得た後、アテンションメカニズムに基づく基礎デコーダおよび含まれている補助デコーダのそれぞれによってターゲット視覚的特徴を復号し、各候補ワードの第１選択確率および第２選択確率を得て、これにより、第１選択確率および第２選択確率を総合して、復号されたワードを候補ワードから決定し、さらに、複数の復号されたワードに基づいて、ビデオキャプションを生成する。ビデオキャプション生成モデルにおける補助デコーダのメモリ構造には、候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、かつ、この参照の視覚的コンテキスト情報が、候補ワードの関連ビデオに基づいて生成されるものであるため、補助デコーダを使用して復号を行う際に、候補ワードと、現在のビデオ以外の他のビデオとの間の相関性に注目することができ、これによって、復号されたワード選択の精度を向上させ、さらに、その後に生成されたビデオキャプションの品質を向上させることができる。

説明すべきものとして、上記の実施例によって提供されるビデオキャプション生成装置は、上記の各機能モジュールの分割を例に挙げて説明したが、実際の応用では、必要に応じて、上記の機能は、異なる機能モジュールまたはユニットが完成するように割り当てることができ、即ち、デバイスの内部構造を異なる機能モジュールまたはユニットに分割することで、上記の機能の全部または一部を達成することができる。各機能モジュールまたはユニットは、ソフトウェア、ハードウェア、またはそれらの組み合わせによって、全体的にまたは部分的に実現されてもよい。また、上記の実施例によって提供されるビデオキャプション生成装置は、ビデオキャプション生成方法の実施例と同じ概念に属し、その具体的な実現プロセスについて、方法の実施例を参照すればよく、ここでは再度言及されない。

本願の例示的な実施例によって提供されるコンピュータデバイスの構造の模式図を示す図１４を参照すると、具体的には、コンピュータデバイス１４００は、中央処理ユニット（ＣＰＵ）１４０１と、ランダムアクセスメモリ（ＲＡＭ）１４０２および読み取り専用メモリ（ＲＯＭ）１４０３を含むシステムメモリ１４０４と、システムメモリ１４０４と中央処理ユニット１４０１とを接続するシステムバス１４０５と、を含む。コンピュータデバイス１４００は、また、コンピュータ内の各部件間の情報の転送を支援する基本的な入力／出力システム（Ｉ／Ｏシステム）１４０６と、オペレーティングシステム１４１３、アプリケーション１４１４および他のプログラムモジュール１４１５を記憶する大容量記憶デバイス１４０７と、を含む。

基本的な入力／出力システム１４０６は、情報を表示するために使用されるディスプレイ１４０８と、ユーザが情報を入力するために使用されるマウスやキーボードなどの入力デバイス１４０９と、を含む。ここで、ディスプレイ１４０８と入力デバイス１４０９の両方は、システムバス１４０５に接続された入力／出力コントローラ１４１０を介して中央処理ユニット１４０１に接続される。基本的な入力／出力システム１４０６は、また、キーボード、マウス、または電子スタイラスなどの複数の他のデバイスからの入力を受信して処理するために使用される入力／出力コントローラ１４１０を含むことができる。同様に、入力／出力コントローラ１４１０は、ディスプレイスクリーン、プリンタや他のタイプの出力デバイスへの出力も提供する。

大容量記憶デバイス１４０７は、システムバス１４０５に接続された大容量記憶コントローラ（図示せず）を介して中央処理ユニット１４０１に接続される。大容量記憶デバイス１４０７およびそれに関連するコンピュータ読み取り可能な媒体は、コンピュータデバイス１４００のために不揮発性記憶を提供する。つまり、大容量記憶デバイス１４０７は、ハードディスクまたはＣＤ－ＲＯＩドライブなどのコンピュータ読み取り可能な媒体（図示せず）を含むことができる。

一般性を失わず、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュールや他のデータのなどの情報を記憶するために使用される、任意の方法または技術で実現される、揮発性および不揮発性、リムーバブルおよび非リムーバブルの、媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のソリッドステートストレージ技術、ＣＤ－ＲＯＭ、ＤＶＤまたは他の光学ストレージ、テープカートリッジ、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイスを含む。もちろん、当業者は、コンピュータ記憶媒体が上記のものに限定されない、ということを知っている。上記のシステムメモリ１４０４および大容量記憶デバイス１４０７は、まとめてメモリと呼ばれることがある。

メモリには、１つまたは複数のプログラムが記憶されており、１つまたは複数のプログラムは、１つまたは複数の中央処理ユニット１４０１によって実行されるように構成され、１つまたは複数のプログラムには、上記方法を実現するために使用されるコンピュータ読み取り可能な命令が含まれ、中央処理ユニット１４０１は、１つまたは複数のプログラムを実行して、上記の様々な方法実施例によって提供される方法を実現する。

本願の様々な実施例によれば、コンピュータデバイス１４００は、また、動作するために、インターネットなどのネットワークを介して、ネットワーク上のリモートコンピュータに接続されることができる。即ち、コンピュータデバイス１４００は、システムバス１４０５に接続されたネットワークインターフェイスユニット１４１１を介して、ネットワーク１４１２に接続することができ、または、ネットワークインターフェイスユニット１４１１を使用して、他のタイプのネットワークまたはリモートコンピュータシステム（図示せず）に接続することもできる。

メモリには、また、１つまたは複数のプログラムが含まれ、１つまたは複数のプログラムがメモリに記憶されており、１つまたは複数のプログラムは、本願の実施例によって提供される方法を実現するための、コンピュータデバイスによって実行されるステップを含む。

本願の実施例は、また、１つまたは複数のコンピュータ読み取り可能な記憶媒体を提供し、該読み取り可能な記憶媒体には、少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットは、１つまたは複数のプロセッサによってロードして実行されて、上記のいずれかの実施例に記載のビデオキャプション生成方法を実現する。

本願の実施例は、また、コンピュータ上で実行されると、上記の様々な方法実施例によって提供されるビデオキャプション生成方法をコンピュータに実行させるコンピュータプログラム製品を提供する。

当業者が理解できるように、上記の実施例の様々な方法におけるステップの全部または一部は、プログラムによって実現することができ、このプログラムは、上記の実施例におけるメモリに含まれるコンピュータ読み取り可能な記憶媒体であってもよいコンピュータ読み取り可能な記憶媒体に記憶されていてもよく、単独で存在し、端末に組み込まれていないコンピュータ読み取り可能な記憶媒体であってもよい。このコンピュータ読み取り可能な記憶媒体には、少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットは、プロセッサによってロードして実行されて、上記のいずれかの方法実施例のビデオキャプション生成方法を実現する。

１つの実施例では、このコンピュータ読み取り可能な記憶媒体は、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ソリッドステートドライブ（ＳＳＤ：ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅｓ）、または光ディスクなどを含むことができる。ここで、ランダムアクセスメモリは、レジスタンスランダムアクセスメモリ（ＲｅＲＡＭ：ＲｅｓｉｓｔａｎｃｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびダイナミックランダムアクセスメモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含むことができる。上記の本願の実施例の番号は、単に説明するためのものであり、実施例の優劣を表すものではない。

当業者が理解できるように、上記の実施例のステップの全部または一部は、ハードウェアによって達成されてもよく、プログラムによって実現することができる。プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、上記した記憶媒体は、読み取り専用メモリ、磁気ディスクや光ディスクなどであってもよい。

1301 符号化モジュール
1302 第１復号モジュール
1303 第２復号モジュール
1304 第１決定モジュール
1305 第１生成モジュール
1401 中央処理ユニット
1402 ランダムアクセスメモリ
1403 読み出し専用メモリ
1404 システムメモリ
1405 システムバス
1406 入力／出力システム
1407 大容量記憶デバイス
1408 ディスプレイ
1409 入力デバイス
1410 入力／出力コントローラ
1411 ネットワークインターフェイスユニット
1412 ネットワーク
1413 オペレーティングシステム
1414 アプリケーション
1415 他のプログラムモジュール

１つの例示的な例では、図３に示すように、視覚障害者が着用するメガネ３１には、カメラ３２および骨伝導イヤホン３３が設けられている。動作状態では、カメラ３２は、前方の環境に対して画像を収集することで、環境ビデオ３４を収集する。メガネ３１は、プロセッサによって環境ビデオ３４のために、「前方に犬の散歩をさせている男性がいる」というビデオキャプションを生成し、このビデオキャプションを文字から音声に変換し、さらに、骨伝導イヤホン３３を介して再生され、これにより、視覚障害者は、音声プロンプトに従って避難することができる。

模式的には、図８に示すように、基礎デコーダ８２は、ｔ回目の復号を行う際に、ＧＲＵ８２１から出力されたｔ－１番目の隠れ状態ｈ_ｔ－１と、ｔ－１番目の復号されたワードｗ_ｔ－１に対応するワード特徴ベクトルｅ_ｔ－１を取得する。

模式的には、図８に示すように、ターゲット視覚的コンテキスト情報Ｃ_ｔ、ＧＲＵ８２１によって出力されたｔ－１番目の隠れ状態ｈ_ｔ－１、およびｔ－１番目の復号されたワードのワード特徴ベクトルｅ_ｔ－１をＧＲＵ８２２に入力し、ＧＲＵ８２２は、各候補ワードの第１選択確率Ｐ_ｂを計算する。

１つの実施例では、メモリ構造には、少なくとも各候補ワードに対応する参照の視覚的コンテキスト情報ｇ_ｒと、候補ワードのワード特徴ベクトルｅ _ｒが含まれている。相応的に、補助デコーダは、復号プロセスにおいて、候補ワードに対応するターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報との間のマッチング度、および、候補ワードのワード特徴ベクトルと前回の復号されたワードのワード特徴ベクトルとの間のマッチング度を重点的に計算し、さらに、２つのマッチング度に基づいて、候補ワードの第２選択確率を決定する。

１つの実施例では、補助デコーダは、計算を繰り返すことなく、基礎デコーダからターゲット視覚的コンテキスト情報を取得することができ、本実施例は、これについて限定しない。

として表すことができ、ここで、Ｗ’_ｅとＷ_ｅは、線形変換行列であり、ｅ_ｉは、ｉ番目の候補ワードに対応するワード特徴ベクトルである。

１つの実施例では、復号の精度をさらに向上させるために、メモリ構造には、候補ワードに対応する参照の視覚的コンテキスト情報ｇ_ｒおよび候補ワードのワード特徴ベクトルｅ _ｒが含まれていることに加えて、候補ワードに対応する補助情報ｕ_ｒも含まれている。ここで、この補助情報は、候補ワードの品詞、候補ワードが属する分野、この候補ワードがよく使用されるビデオカテゴリなどであってもよい。

模式的には、図８に示すように、補助デコーダ８３のメモリ構造８３２には、各候補ワード（ｗ_ｉ）に対応する参照の視覚的コンテキスト情報ｇ_ｉ、ワード特徴ベクトルｅ _ｉおよび補助情報ｕ_ｉが含まれている。ｔ回目の復号が実行される場合、メモリ構造８３２における内容、ターゲット視覚的コンテキスト情報Ｃ_ｔ、ｔ－１番目の隠れ状態ｈ_ｔ－１、およびｔ－１番目の復号されたワードのワード特徴ベクトルｅ_ｔ－１は、復号コンポーネント８３１に入力され、復号コンポーネント８３１は、各候補ワードの第２選択確率Ｐ_ｍを出力する。

また、本実施例では、補助デコーダは、候補ワードの参照視覚的コンテキスト情報と、現在復号されているターゲット視覚的コンテキスト情報とに基づいて、候補ワードの選択確率を決定し、これは、最終的に決定された、復号されたワードの精度向上に寄与し、また、補助デコーダは、候補ワードと、前回の復号されたワードのワード特徴ベクトルとに基づいて、候補ワードの選択確率を決定し、これは、最終的に決定された、復号されたワードと前回の復号されたワードとの間の一貫性の向上に寄与する。

Claims

コンピュータデバイスによって実行されるビデオキャプション生成方法であって、
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、前記ターゲットビデオのターゲット視覚的特徴を得るステップと、
前記ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用して前記ターゲット視覚的特徴を復号し、各候補ワードに対応する第１選択確率を得るステップと、
前記ビデオキャプション生成モデルの補助デコーダによって前記ターゲット視覚的特徴を復号し、各前記候補ワードに対応する第２選択確率を得るステップであって、前記補助デコーダのメモリ構造には、各前記候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、前記参照の視覚的コンテキスト情報は、前記候補ワードに対応する関連ビデオに基づいて生成されるものであるステップと、
前記第１選択確率と前記第２選択確率とに基づいて、前記候補ワードにおける、復号されたワードを決定するステップと、
各前記復号されたワードに基づいて、前記ターゲットビデオに対応するビデオキャプションを生成するステップと、
を含むことを特徴とするビデオキャプション生成方法。
前記ビデオキャプション生成モデルの補助デコーダによって前記ターゲット視覚的特徴を復号し、各前記候補ワードに対応する第２選択確率を得る前記ステップは、
ｔ回目の復号を行う際に、ｔ－１回目の復号によって得られた、ｔ－１番目の復号されたワードとｔ－１番目の隠れ状態とを取得するステップであって、前記ｔ－１番目の隠れ状態は、前記基礎デコーダがｔ－１回目の復号を行う際に出力した隠れ状態であって、ｔは、２以上の整数であるステップと、
前記ｔ－１番目の復号されたワード、前記ｔ－１番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、補助デコーダによって前記候補ワードの前記第２選択確率を決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記ｔ－１番目の復号されたワード、前記ｔ－１番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第２選択確率を決定する前記ステップは、
前記ターゲット視覚的特徴と前記ｔ－１番目の隠れ状態とに基づいて、ｔ回目の復号を行う際のターゲット視覚的コンテキスト情報を生成するステップと、
前記ターゲット視覚的コンテキスト情報と前記参照の視覚的コンテキスト情報とに基づいて、前記候補ワードの第１マッチング度を決定するステップと、
前記メモリ構造における前記候補ワードに対応する第１ワード特徴ベクトルと、前記ｔ－１番目の復号されたワードの第２ワード特徴ベクトルとを取得するステップと、
前記第１ワード特徴ベクトルと前記第２ワード特徴ベクトルとに基づいて、前記候補ワードの第２マッチング度を決定するステップと、
前記第１マッチング度と前記第２マッチング度とに基づいて、前記候補ワードの前記第２選択確率を決定するステップと、を含む、
ことを特徴とする請求項２に記載の方法。
前記ターゲット視覚的特徴と前記ｔ－１番目の隠れ状態とに基づいて、ｔ回目の復号を行う際のターゲット視覚的コンテキスト情報を生成する前記ステップは、
前記ターゲット視覚的特徴と前記ｔ－１番目の隠れ状態とに基づいて、ｔ回目の復号を行う際の２次元視覚的コンテキスト情報および３次元視覚的コンテキスト情報を得るステップと、
前記２次元視覚的コンテキスト情報と前記３次元視覚的コンテキスト情報とを融合して、ｔ回目の復号を行う際のターゲット視覚的コンテキスト情報を得るステップと、を含む、
ことを特徴とする請求項３に記載の方法。
前記メモリ構造には、さらに、各前記候補ワードに対応する補助情報が含まれ、
前記ｔ－１番目の復号されたワード、前記ｔ－１番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第２選択確率を決定する前記ステップは、
前記補助情報、前記ｔ－１番目の復号されたワード、前記ｔ－１番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第２選択確率を決定するステップ、を含む、
ことを特徴とする請求項２に記載の方法。
各前記候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、前記候補ワードに対応するＩ個の前記関連ビデオを決定するステップであって、前記関連ビデオの前記サンプルビデオキャプションには、前記候補ワードが含まれ、Ｉは、１以上の整数であるステップと、
各前記関連ビデオに対して、前記関連ビデオにおけるｋ個のキー視覚的特徴を決定するステップであって、前記キー視覚的特徴と前記候補ワードとの間のマッチング度は、前記関連ビデオにおける非キー視覚的特徴と前記候補ワードとの間のマッチング度よりも高くなり、ｋは、１以上の整数であるステップと、
Ｉ個の前記関連ビデオに対応する各前記キー視覚的特徴に基づいて、前記候補ワードに対応する前記参照の視覚的コンテキスト情報を生成するステップと、
各前記候補ワードに対応する前記参照の視覚的コンテキスト情報を前記メモリ構造に記憶するステップと、を含む、
ことを特徴とする請求項１～５のいずれか１項に記載の方法。
前記関連ビデオにおけるｋ個のキー視覚的特徴を決定する前記ステップは、
前記基礎デコーダによって、前記候補ワードに対する、前記関連ビデオにおける各視覚的特徴の特徴重みを取得するステップであって、各特徴重みの合計は１であるステップと、
最初のｋ個の前記特徴重みに対応する前記視覚的特徴を前記キー視覚的特徴として決定するステップと、を含む、
ことを特徴とする請求項６に記載の方法。
前記第１選択確率と前記第２選択確率とに基づいて、前記候補ワードにおける、復号されたワードを決定する前記ステップは、
前記第１選択確率および前記第１選択確率に対応する第１重みと、前記第２選択確率および前記第２選択確率に対応する第２重みとに基づいて、各前記候補ワードのターゲット選択確率を計算するステップと、
最も高いターゲット選択確率に対応する前記候補ワードを前記復号されたワードとして決定するステップと、を含む、
ことを特徴とする請求項１～５のいずれか１項に記載の方法。
前記ビデオキャプション生成モデルのエンコーダによって、ターゲットビデオを符号化し、前記ターゲットビデオのターゲット視覚的特徴を得る前記ステップは、
前記エンコーダによって前記ターゲットビデオを符号化し、２次元視覚的特徴と３次元視覚的特徴とを得るステップであって、前記２次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、前記３次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものであるステップと、
前記２次元視覚的特徴と前記３次元視覚的特徴とを同一の特徴次元に変換して、前記ターゲット視覚的特徴を得るステップと、を含む、
ことを特徴とする請求項１～５のいずれか１項に記載の方法。
コンピュータデバイスに配置されるビデオキャプション生成装置であって、
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、前記ターゲットビデオのターゲット視覚的特徴を得るために使用される符号化モジュールと、
前記ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用して前記ターゲット視覚的特徴を復号し、各候補ワードに対応する第１選択確率を得るために使用される第１復号モジュールと、
前記ビデオキャプション生成モデルの補助デコーダによって前記ターゲット視覚的特徴を復号し、各前記候補ワードに対応する第２選択確率を得るために使用される第２復号モジュールであって、前記補助デコーダのメモリ構造には、各前記候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、前記参照の視覚的コンテキスト情報は、前記候補ワードに対応する関連ビデオに基づいて生成されるものである第２復号モジュールと、
前記第１選択確率と前記第２選択確率とに基づいて、前記候補ワードにおける、復号されたワードを決定するために使用される第１決定モジュールと、
各前記復号されたワードに基づいて、前記ターゲットビデオに対応するビデオキャプションを生成するために使用される第１生成モジュールと、
を含むことを特徴とするビデオキャプション生成装置。
前記第２復号モジュールは、
ｔ回目の復号を行う際に、ｔ－１回目の復号によって得られた、ｔ－１番目の復号されたワードとｔ－１番目の隠れ状態とを取得するために使用される第１取得ユニットであって、前記ｔ－１番目の隠れ状態は、前記基礎デコーダがｔ－１回目の復号を行う際に出力した隠れ状態であって、ｔは、２以上の整数である第１取得ユニットと、
前記ｔ－１番目の復号されたワード、前記ｔ－１番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、補助デコーダによって前記候補ワードの前記第２選択確率を決定するために使用される第１決定ユニットと、を含む、
ことを特徴とする請求項１０に記載の装置。
前記第１決定ユニットは、
前記ターゲット視覚的特徴と前記第ｔ－１の隠れ状態とに基づいて、ｔ回目の復号を行う際のターゲット視覚的コンテキスト情報を生成することと、
前記ターゲット視覚的コンテキスト情報と前記参照の視覚的コンテキスト情報とに基づいて、前記候補ワードの第１マッチング度を決定することと、
前記メモリ構造における前記候補ワードに対応する第１ワード特徴ベクトルと、前記ｔ－１番目の復号されたワードの第２ワード特徴ベクトルとを取得することと、
前記第１ワード特徴ベクトルと前記第２ワード特徴ベクトルとに基づいて、前記候補ワードの第２マッチング度を決定することと、
前記第１マッチング度と前記第２マッチング度とに基づいて、前記候補ワードの前記第２選択確率を決定することと、のために使用される、
ことを特徴とする請求項１１に記載の装置。
前記第１決定ユニットは、さらに、
前記ターゲット視覚的特徴と前記ｔ－１番目の隠れ状態とに基づいて、ｔ回目の復号を行う際の２次元視覚的コンテキスト情報および３次元視覚的コンテキスト情報を得ることと、
前記２次元視覚的コンテキスト情報と前記３次元視覚的コンテキスト情報とを融合して、ｔ回目の復号を行う際のターゲット視覚的コンテキスト情報を得ることと、のために使用される、
ことを特徴とする請求項１１に記載の装置。
前記メモリ構造には、さらに、各前記候補ワードに対応する補助情報が含まれ、
前記第１決定ユニットは、
前記補助情報、前記ｔ－１番目の復号されたワード、前記ｔ－１番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第２選択確率を決定するために使用される、
ことを特徴とする請求項１１に記載の装置。
各前記候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、前記候補ワードに対応するＩ個の前記関連ビデオを決定するために使用される第２決定モジュールであって、前記関連ビデオの前記サンプルビデオキャプションには、前記候補ワードが含まれ、Ｉは、１以上の整数である第２決定モジュールと、
各前記関連ビデオに対して、前記関連ビデオにおけるｋ個のキー視覚的特徴を決定するために使用される第３決定モジュールであって、前記キー視覚的特徴と前記候補ワードとの間のマッチング度は、前記関連ビデオ中の非キー視覚的特徴と前記候補ワードとの間のマッチング度よりも高くなり、ｋは、１以上の整数である第３決定モジュールと、
Ｉ個の前記関連ビデオに対応する各前記キー視覚的特徴に基づいて、前記候補ワードに対応する前記参照の視覚的コンテキスト情報を生成するために使用される第２生成モジュールと、
各前記候補ワードに対応する前記参照の視覚的コンテキスト情報を前記メモリ構造に記憶するために使用される記憶モジュールと、を含む、
ことを特徴とする請求項１０～１４のいずれか１項に記載の装置。
前記第３決定モジュールは、
前記基礎デコーダによって、前記候補ワードに対する、前記関連ビデオにおける各視覚的特徴の特徴重みを取得するために使用される取得ユニットであって、各特徴重みの合計は１である取得ユニットと、
最初のｋ個の前記特徴重みに対応する前記視覚的特徴を前記キー視覚的特徴として決定するために使用される第２決定ユニットと、を含む、
ことを特徴とする請求項１５に記載の装置。
前記第１決定モジュールは、
前記第１選択確率および前記第１選択確率に対応する第１重みと、前記第２選択確率および前記第２選択確率に対応する第２重みとに基づいて、各前記候補ワードのターゲット選択確率を計算するために使用される計算ユニットと、
最も高いターゲット選択確率に対応する前記候補ワードを前記復号されたワードとして決定するために使用される第３決定ユニットと、を含む、
ことを特徴とする請求項１０～１４のいずれか１項に記載の装置。
前記符号化モジュールは、
前記エンコーダによって前記ターゲットビデオを符号化し、２次元視覚的特徴と３次元視覚的特徴とを得る符号化ユニットであって、前記２次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、前記３次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものである符号化ユニットと、
前記２次元視覚的特徴と前記３次元視覚的特徴とを同一の特徴次元に変換して、前記ターゲット視覚的特徴を得るために使用される変換ユニット、とを含む、
ことを特徴とする請求項１０～１４のいずれか１項に記載の装置。
１つまたは複数のプロセッサと、メモリとを含むコンピュータデバイスであって、
前記メモリには、少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、前記少なくとも１つのコンピュータ読み取り可能な命令、前記少なくとも１つのプログラム、前記コードセットまたはコンピュータ読み取り可能な命令セットは、前記１つまたは複数のプロセッサによってロードして実行されて、請求項１～９のいずれかに記載のビデオキャプション生成方法を実現する、
ことを特徴とするコンピュータデバイス。
少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記少なくとも１つのコンピュータ読み取り可能な命令、少なくとも１つのプログラム、前記コードセットまたはコンピュータ読み取り可能な命令セットは、１つまたは複数のプロセッサによってロードして実行されて、請求項１～９のいずれかに記載のビデオキャプション生成方法を実現する、
ことを特徴とする１つまたは複数のコンピュータ読み取り可能な記憶媒体。