JP2022509299A - ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム - Google Patents

ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム Download PDF

Info

Publication number
JP2022509299A
JP2022509299A JP2021531058A JP2021531058A JP2022509299A JP 2022509299 A JP2022509299 A JP 2022509299A JP 2021531058 A JP2021531058 A JP 2021531058A JP 2021531058 A JP2021531058 A JP 2021531058A JP 2022509299 A JP2022509299 A JP 2022509299A
Authority
JP
Japan
Prior art keywords
video
candidate word
visual
word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021531058A
Other languages
English (en)
Other versions
JP7179183B2 (ja
Inventor
文杰 裴
▲記▼袁 ▲張▼
磊 柯
宇▲榮▼ 戴
小勇 沈
佳▲亞▼ ▲賈▼
向▲榮▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022509299A publication Critical patent/JP2022509299A/ja
Application granted granted Critical
Publication of JP7179183B2 publication Critical patent/JP7179183B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Figure 2022509299000001
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得ることと、ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを用いてターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得ることと、ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各前記候補ワードに対応する第2選択確率を得ることであって、補助デコーダのメモリ構造に各候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、参照の視覚的コンテキスト情報は候補ワードに対応する関連ビデオに基づいて生成されることと、第1選択確率と第2選択確率とに基づいて、候補ワードにおける復号されたワードを決定することと、各復号されたワードに基づいてビデオキャプションを生成することとを含むビデオキャプション生成方法を提供する。

Description

[関連出願への相互参照]
本願は、2019年04月22日に中国特許局へ提出された、出願番号が2019103251930であり、出願名称が「ビデオキャプションの生成方法、装置、デバイスおよび記憶媒体」である中国特許出願の優先権を主張し、そのすべてが参照することにより本願に組み込まれる。
[技術分野]
本願の実施例は、人工知能の技術分野およびビデオキャプションの分野に関し、特に、ビデオキャプションの生成方法、装置、デバイスおよび記憶媒体に関する。
ビデオキャプション(Video Captioning)は、ビデオのためにコンテンツキャプション情報を生成する技術である。人工知能の分野では、ビデオキャプション生成モデルを使用して、ビデオのためにビデオキャプションを自動的に生成するのが一般的であるが、ビデオキャプション生成モデルのほとんどは、符号化-復号(Encoder-Decoder)フレームワークに基づくものである。
ビデオキャプション生成モデルを適用するプロセスでは、ビデオキャプション生成モデルは、まず、エンコーダによってビデオにおける視覚的特徴を抽出し、次に、抽出した視覚的特徴をデコーダに入力し、復号されたワードをデコーダによって視覚的特徴に基づいて順次に生成し、最終的に、生成した各復号されたワードをビデオキャプションとして組み合わせる。
関連技術におけるビデオキャプション生成モデルは、現在処理されているビデオのみに注目しているが、実際の応用では、同じ復号されたワードは、意味が類似しているが、完全に同じではない複数のビデオにおいて使用されることがあり、その結果、ビデオキャプション生成モデルが注目する角度が制限されすぎており、さらに、生成されたビデオキャプションの品質に影響を与えてしまう。
本願によって提供される様々な実施例によれば、ビデオキャプションの生成方法、装置、デバイスおよび記憶媒体が提供される。前記技術案は、以下の通りであり、即ち、
コンピュータデバイスによって実行されるビデオキャプション生成方法であって、
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得るステップと、
ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用してターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るステップと、
ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第2選択確率を得るステップであって、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報に含まれ、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものであるステップと、
第1選択確率と第2選択確率とに基づいて、候補ワードにおける、復号されたワードを決定するステップと、
各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成するステップと、
を含む方法。
コンピュータデバイスに配置されるビデオキャプション生成装置であって、
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得るために使用される符号化モジュールと、
ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用してターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るために使用される第1復号モジュールと、
ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第2選択確率を得るために使用される第2復号モジュールであって、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものである第2復号モジュールと、
第1選択確率と第2選択確率とに基づいて、候補ワード中における、復号されたワードを決定するために使用される第1決定モジュールと、
各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成するために使用される第1生成モジュールと、
を含む装置。
1つまたは複数のプロセッサと、メモリとを含むコンピュータデバイスであって、
メモリには、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセットまたはコンピュータ読み取り可能な命令セットは、1つまたは複数のプロセッサによってロードして実行されて、上記の態様に記載のビデオキャプション生成方法を実現するコンピュータデバイス。
少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されている1つまたは複数のコンピュータ読み取り可能な記憶媒体であって、
少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセットまたはコンピュータ読み取り可能な命令セットは、1つまたは複数のプロセッサによってロードして実行されて、上記の態様に記載のビデオキャプション生成方法を実現するコンピュータ読み取り可能な記憶媒体。
コンピュータプログラム製品であって、
コンピュータ上で実行されると、上記の態様に記載ビデオキャプション生成方法をコンピュータに実行させるコンピュータプログラム製品。
本願の1つまたは複数の実施例の詳細は、以下の図面および説明において記載されている。本願の他の特徴、目的、および利点は、本願の明細書、図面、および特許請求の範囲に基づいて、より明らかになる。
本願の実施例に係る技術案をより明確に説明するために、以下では、実施例の説明において必要とされる図面を簡単に説明し、明らかに、以下の説明における図面は、本願の一部の実施例にすぎず、当業者にとって、創造的な努力なしに、これらの図面から他の図面を得ることもできる。
一実施例では関連技術における、SA-LSTMモデルを使用してビデオキャプションを生成する原理の模式図である。 一実施例におけるビデオ分類検索シナリオでのビデオキャプション生成方法の実施の模式図である。 一実施例における視覚障害者支援シナリオでのビデオキャプション生成方法の実施の模式図である。 一実施例における実施環境の模式図である。 一実施例におけるビデオキャプション生成方法のフローチャートである。 一実施例における、ビデオキャプション生成モデルによって生成されたビデオキャプションである。 一実施例におけるビデオキャプション生成方法のフローチャートである。 一実施例におけるビデオキャプション生成モデルの構造の模式図である。 一実施例における、補助デコーダが候補ワードの選択確率を決定するプロセスのフローチャートである。 一実施例では関連技術および本願の実施例における、ビデオキャプション生成モデルによって生成されたビデオキャプションである。 一実施例における、候補ワードに対応する参照視覚コンテキスト情報の生成プロセスのフローチャートである。 一実施例における、参照視覚コンテキスト情報を生成するプロセスの実施の模式図である。 一実施例におけるビデオキャプション生成装置の構造のブロック図である。 一実施例におけるコンピュータデバイスの構造の模式図である。
本願の目的、技術案、および利点をより明確にするために、以下、図面を参照しながら本願の実施形態をさらに詳細に説明する。本明細書に記載された特定の実施形態は、本願を解釈するためだけに使用され、本願を限定するために使用されない、ということを理解されたい。
ビデオキャプションの分野では、符号化-復号フレームワークに基づいて構築されたビデオキャプション生成モデルを使用して、ビデオのためにビデオキャプションを自動的に生成することは、従来の手段である。ここで、符号化-復号フレームワークに基づくビデオキャプション生成モデルは、ソフトアテンション長短期メモリ(SA-LSTM:Soft Attention Long Short-Term Memory)モデルであってもよい。例示的な例では、SA-LSTMモデルを使用してビデオキャプションを生成するプロセスは、図1に示すようになる。
SA-LSTMモデルは、まず、入力されたビデオ11から特徴を抽出し、ビデオ11の視覚的特徴12(v1,v2,…,vn)を取得する。次に、SA-LSTMモデルは、ソフトアテンションメカニズムを使用して、前回の隠れ状態13(t-1回目の復号プロセスで出力された隠れ状態)と視覚的特徴12とに基づいて、現在の復号プロセス(即ち、t回目の復号)に対する各視覚的特徴12の重み14を計算することにより、視覚的特徴12および重み14に対して加重和計算を行い、現在の復号プロセスでのコンテキスト情報15を取得する。さらに、SA-LSTMモデルは、前回の隠れ状態13、前回の復号されたワード16、およびコンテキスト情報15に基づいて、現在の隠れ状態17を出力し、さらに、現在の隠れ状態17に基づいて、現在の復号されたワード18を決定する。
ここから分かるように、関連技術におけるSA-LSTMモデルを使用してビデオキャプションを生成する場合、SA-LSTMモデルは、現在のビデオにおける視覚的特徴のみに注目し、相応的に、決定した、復号されたワードは、現在のビデオの視覚的特徴のみに関連するようになる。しかしながら、実際の状況では、同じ復号されたワードは、複数のビデオクリップ(video clip)に現れ、また、異なるビデオクリップにおいて、類似しているが完全に同じではない意味を表現する場合がある(即ち、復号されたワードは、類似しているが完全に同じではない視覚的特徴に対応する可能性がある)ため、SA-LSTMモデルによって出力される、復号されたワードの精度が低くなり、さらに、最終的に生成されたビデオキャプションの品質に影響を与えってしまう。
ビデオキャプションの品質を向上させるために、関連技術における「単一エンコーダ+単一デコーダ」という構造とは異なり、本願の実施例では、ビデオキャプション生成モデルは、「エンコーダ+基礎デコーダ+補助デコーダ」という構造を採用し、メモリメカニズムを創造的に導入し、シソーラス(thesaurus)における各候補ワードと、関連ビデオとの間の関連関係をメモリ構造に保存して、メモリ構造を補助デコーダに追加する。本願の実施例によって提供されるビデオキャプション生成モデルは、現在のビデオ(基礎デコーダ)に注目することができるだけでなく、現在のビデオの視覚的特徴に類似している他のビデオ(補助デコーダ)に注目することもでき、これにより、現在のビデオのみに注目することに起因する、注目される角度への制限が回避され、さらに、出力される、復号されたワードの精度を向上させて、生成されるビデオキャプションの品質を向上させる。
本願の実施例によって提供されるビデオキャプション生成方法は、以下のいずれかのシナリオで適用され得る。
1、ビデオ分類/検索シナリオ
本願の実施例におけるビデオキャプション生成モデルは、ビデオ分類シナリオに適用される場合、ビデオ管理アプリケーションまたはビデオ管理アプリケーションの一部として実現され得る。ビデオキャプションを含まないビデオクリップがビデオ管理アプリケーションに入力された後、ビデオ管理アプリケーションは、ビデオキャプション生成モデルにおけるエンコーダによって、ビデオクリップにおける視覚的特徴を抽出して、基礎デコーダおよび補助デコーダをそれぞれ使用して、視覚的特徴に対して復号を行い、これによって、基礎デコーダおよび補助デコーダによる復号結果を統合して、復号されたワードを決定し、さらに、復号されたワードに基づいて、ビデオクリップのためにビデオキャプションを生成する。ビデオキャプションを含むビデオクリップに対して、ビデオ管理アプリケーションは、ビデオキャプションに基づいて、(例えば、意味識別によって)ビデオクリップを分類して、ビデオクリップのために、相応的なカテゴリタグを追加する。その後ビデオ検索を行う際に、ビデオ管理アプリケーションは、検索条件と、各ビデオクリップに対応するカテゴリタグとに基づいて、その検索条件に合致するビデオクリップを返すことができる。
1つの例示的な例では、図2に示すように、ユーザは、携帯電話を使用してビデオを撮影した後、保存コントロール21をクリックして、そのビデオを携帯電話に記憶し、ビデオ管理アプリケーションは、そのビデオのためにビデオキャプション「一人の男性が公園で犬を散歩させる」をバックグラウンドで自動的に生成し、さらに、生成したビデオキャプションに基づいて、そのビデオのために「犬を散歩させる」というカテゴリタグを付加する。その後、ユーザは、携帯電話に記憶されている大量のビデオの中から、当該ビデオを検索する必要があるとき、ビデオ管理アプリケーションのビデオ検索インタフェース22で、「犬を散歩させる」というキーワードを入力し、ビデオ管理アプリケーションは、このキーワードを各ビデオに対応するビデオカテゴリとマッチングさせることにより、マッチングされたビデオ23を検索結果として表示する。
2、視覚的質問応答(VQA:Visual Question Answer)シナリオ
本願の実施例におけるビデオキャプション生成モデルは、視覚的質問応答シナリオに適用される場合、スマート質問応答アプリケーションまたはスマート質問応答アプリケーションの一部として実現され得る。スマート質問応答アプリケーションは、ビデオとこのビデオに対する質問とを取得した後、ビデオキャプション生成モデルによって、このビデオに対応するビデオキャプションを生成し、質問とビデオキャプションとに対して意味の識別を行うことにより、質問に対応する回答を生成し、さらに、この回答に対して表示を行う。
3、視覚障害者補助シナリオ
本願の実施例におけるビデオキャプション生成モデルは、視覚障害者補助シナリオに適用される場合、音声プロンプトアプリケーションまたは音声プロンプトアプリケーションの一部として実現され得る。音声プロンプトアプリケーションがインストールされた端末(例えば、視覚障害者が使用する補助デバイス)は、カメラによって視覚障害者周囲の環境ビデオを収集した後、音声プロンプトアプリケーションは、ビデオキャプション生成モデルによって、この環境ビデオに対して符号化-復号を行い、環境ビデオに対応するビデオキャプションを生成する。生成されたビデオキャプションについて、音声プロンプトアプリケーションは、このビデオキャプションを文字から音声に変換し、視覚障害者が周囲の環境状況を把握するのを助けるように音声再生を行うことができる。
1つの例示的な例では、図3に示すように、視覚障害者が着用するメガネ31には、カメラ32および骨伝導イヤホン33が設けられている。動作状態では、カメラ31は、前方の環境に対して画像を収集することで、環境ビデオ34を収集する。メガネ31は、プロセッサによって環境ビデオ34のために、「前方に犬の散歩をさせている男性がいる」というビデオキャプションを生成し、このビデオキャプションを文字から音声に変換し、さらに、骨伝導イヤホン33を介して再生され、これにより、視覚障害者は、音声プロンプトに従って避難することができる。
もちろん、本実施例によって提供される方法は、上記のシナリオに加えて、ビデオのためにビデオキャプションを生成する必要がある他のシナリオにも適用可能であり、本願の実施例は、具体的な適用シナリオについて限定しない。
本願の実施例によって提供されるビデオキャプション生成方法は、端末またはサーバなどのコンピュータデバイスに適用され得る。1つの実施例では、本願の実施例におけるビデオキャプション生成モデルは、アプリケーションまたはアプリケーションの一部として実現され、端末にインストールされて、これにより、端末は、ビデオキャプションを生成する機能を備えていてもよく、または、このビデオキャプション生成モデルは、アプリケーションのバックグラウンドサーバに適用され、これにより、サーバは、端末におけるアプリケーションのために、ビデオキャプションを生成する機能を提供してもよい。
本願の1つの例示的な実施例によって提供される実施環境の模式図が示されている図4を参照する。該実施環境は、端末410とサーバ420とを含み、ここで、端末410とサーバ420との間では、通信ネットワークを介してデータ通信が実行され、1つの実施例では、通信ネットワークは、有線ネットワークであってもよく、無線ネットワークであってもよいし、また、該通信ネットワークは、ローカルエリアネットワーク、メトロポリタンネットワーク、およびワイドエリアネットワークのうちの少なくとも1つであってもよい。
端末410には、ビデオ管理アプリケーション、スマート質問応答アプリケーション、音声プロンプトアプリケーション、字幕生成アプリケーション(ビデオ画面のために解説字幕を付加する)など、ビデオキャプションのニーズを有するアプリケーションがインストールされているが、本実施例は、これについて限定しない。1つの実施例では、端末は、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、視覚障害者補助デバイスなどのモバイル端末であってもよく、デスクトップコンピュータ、プロジェクションコンピュータなどの端末であってもよいが、本願の実施例は、これについて限定しない。
サーバ420は、1つのサーバとして実現されてもよく、1つグループのサーバで構成されるサーバクラスタとして実現されてもよいし、このサーバは、物理サーバとして実現されてもよく、クラウドサーバとして実現されてもよい。1つの実施例では、サーバ420は、端末410におけるアプリケーションのバックグラウンドサーバである。
図4に示すように、本願の実施例において、サーバ420には、事前にトレーニングされたビデオキャプション生成モデル421が記憶されている。1つの可能な適用シナリオで、ターゲットビデオのためにビデオキャプションを自動的に生成する必要がある場合、アプリケーションは、端末410によってターゲットビデオをサーバ420に送信し、サーバ420は、ターゲットビデオを受信した後、ターゲットビデオをビデオキャプション生成モデル421に入力する。ビデオキャプション生成モデル421は、デコーダ421Aによってターゲットビデオから特徴を抽出し、抽出した特徴を基礎デコーダ421Bおよび補助デコーダ422Cのそれぞれによって復号することにより、復号結果に基づいてビデオキャプションを生成して端末410にフィードバックし、端末410におけるアプリケーションは、ビデオキャプションを表示する。
他の可能な実施形態では、ビデオキャプション生成モデル421が端末410におけるアプリケーションの一部として実現される場合、端末410は、サーバ420の助けを借りずに、ターゲットビデオのビデオキャプションをローカルで生成することができ、これによって、端末がビデオキャプションを取得する速度を向上させ、サーバとのインタラクションによって引き起こされる遅延を低減させる。
本願の1つの例示的な実施例によって提供されるビデオキャプション生成方法のフローチャートが示されている図5を参照する。本実施例は、該方法がコンピュータデバイスで使用されることを例として説明を行い、該方法は、ステップ501~ステップ505を含み、即ち、
ステップ501で、ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得る。
本願の実施例では、ビデオキャプション生成モデルにおけるエンコーダの役割は、ターゲットビデオからターゲット視覚的特徴(visual feature)を抽出し、抽出されたターゲット視覚的特徴をデコーダ(基礎デコーダおよび補助デコーダを含む)に入力することである。1つの実施例では、該ターゲット視覚的特徴は、ベクトルで示される。
1つの実施例では、ビデオキャプション生成モデルは、事前にトレーニングされた深層畳み込みニューラルネットワーク(CNNs:Convolutional Neural Networks)をエンコーダとして利用して視覚的特徴の抽出を行い、また、エンコーダを利用して特徴の抽出を行う前に、前処理されたターゲットビデオがエンコーダの入力要求を満たすように、ターゲットビデオを前処理する必要がある。
抽出されたターゲット視覚的特徴について、エンコーダは、ターゲット視覚的特徴をそれぞれ基礎デコーダと補助デコーダに入力し、以下のステップ502およびステップ503を実行する。説明すべきものとして、下記のステップ502とステップ503との間に厳密な順序は存在せず、即ち、ステップ502とステップ503が同期して実行されることは可能であり、本実施例は、両者の実行順序対して限定しない。
ステップ502で、ビデオキャプション生成モデルの基礎デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得て、基礎デコーダは、アテンションメカニズムを採用して、ターゲット視覚的特徴とマッチングする候補ワードを復号するために使用される。
1つの実施例では、該基礎デコーダは、ターゲットビデオに注目するので、ターゲットビデオのターゲット視覚的特徴に基づいて復号を行う。1つの実施例では、該基礎デコーダは、アテンションメカニズムを採用したリカレントニューラルネットワーク(RNN:Recurrent Neural Network)エンコーダであってもよい。例えば、該基礎デコーダは、SA-LSTMモデルを採用し、また、復号を行うたびに、アテンションメカニズムを採用して、前回の復号によって出力された隠れ状態、前回の復号されたワード、およびターゲット視覚的特徴に基づいて、シソーラスにおける各候補ワードに対応する第1選択確率を決定する。もちろん、該基礎デコーダは、SA-LSTMモデルに加えて、アテンションメカニズムに基づく他のRNNエンコーダを採用することもでき、本願の実施例は、これに対する制限を構成するものではない。
1つの実施例では、基礎デコーダが復号を行うプロセスは、本質的に、分類タスクであり、即ち、softmax関数によってシソーラスにおける各候補ワードの(第1)選択確率を計算する。ここで、第1選択確率が大きいほど、候補ワードとビデオのコンテキスト情報とのマッチング度が高くなるということ、即ち、該候補ワードが表す意味がコンテキストとよりマッチングしているということを表明する。
ステップ503で、ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第2選択確率を得て、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものである。
ターゲットビデオのターゲット視覚的特徴のみに注目する基礎デコーダとは異なり、本実施例では、補助デコーダが候補ワードと関連ビデオとの間の相関性に注目するので、補助デコーダを使用してターゲット視覚的特徴を復号する際に、同一の候補ワードの異なるビデオにおける視覚的特徴をキャプチャし、それらをターゲットビデオのターゲット視覚的特徴とマッチングさせることによって、復号されたワードを決定する精度を向上させることができる。
1つの実施例では、候補ワードと関連ビデオとの相関性は、補助デコーダのメモリ構造(memory structure)に記憶され、候補ワードと参照の視覚的コンテキスト情報との間の対応関係によって表現化される。ここで、候補ワードに対応する参照の視覚的コンテキスト情報は、該候補ワードを含む関連ビデオの視覚的コンテキスト特徴を表すために使用されるのであり、また、該参照の視覚的コンテキスト情報は、サンプルビデオにおける、候補ワードに関連する関連ビデオに基づいて生成されるものである。下記の実施例では、参照の視覚的コンテキスト情報の生成方式について詳細に説明する。
説明すべきものとして、メモリ構造を使用して、候補ワードと関連ビデオとの間の相関性を構築することに加えて、グラフ(graph)に基づくアルゴリズムを採用して、候補ワードと関連ビデオとの間の相関性を構築することも可能であり、本願は、これについて限定しない。
1つの実施例では、基礎デコーダと同様に、補助デコーダが復号を行うプロセスも、本質的に、分類タスクであり、即ち、softmax関数によってシソーラスにおける各候補ワードの(第2)選択確率を計算する。ここで、基礎デコーダと補助デコーダは、同じシソーラスに対応し、また、第2選択確率が大きいほど、候補ワードとビデオのコンテキスト情報とのマッチング度が高くなるということ、即ち、該候補ワードが表す意味がコンテキストとよりマッチングしているということを表明する。
ステップ504で、第1選択確率および第2選択確率に基づいて、候補ワードにおける、復号されたワードを決定する。
単一のデコーダの復号結果のみに基づいて復号されたワードを決定する関連技術とは異なり、本願の実施例では、ビデオキャプション生成モデルは、基礎デコーダによって出力された第1選択確率と、補助デコーダによって出力された第2選択確率とを統合して、シソーラスにおける各候補ワードから、今回の復号によって得られた、復号されたワードを決定する。
ステップ505で、各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成する。
ビデオキャプションは、通常、複数の復号されたワードによって構成される自然言語であるため、復号されるたびに、上記のステップ502~ステップ504を繰り返して、ビデオキャプションの各復号されたワードを順次に生成し、それによって、複数の復号されたワードを連結して、最終的に、ビデオキャプションを生成する必要がある。
以上のように、本願の実施例では、ビデオキャプション生成モデルのエンコーダを使用してターゲットビデオを符号化し、ターゲットの視覚的特徴を得た後、アテンションメカニズムに基づく基礎デコーダおよび補助デコーダのそれぞれによってターゲット視覚的特徴を復号し、各候補ワードの第1選択確率および第2選択確率を得て、これにより、第1選択確率および第2選択確率を総合して、候補ワードから、復号されたワードを決定し、さらに、複数の復号されたワードに基づいてビデオキャプションを生成する。ビデオキャプション生成モデルにおける補助デコーダのメモリ構造には、候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、かつ、この参照の視覚的コンテキスト情報が候補ワードの関連ビデオに基づいて生成されるものであるため、補助デコーダを使用して復号を行う際に、候補ワードと現在のビデオ以外の他のビデオとの間の相関性に注目することができ、これによって、復号されたワードの選出の精度を向上させ、さらに、その後に生成されるビデオキャプションの品質を向上させることができる。
1つの例示的な例では、図6に示すように、同じビデオ61に対して、関連技術におけるビデオキャプション生成モデルによって生成されたビデオキャプションは、「woman is mixing ingredients in a bowl.」(一人の女性がボウル内の材料を混ぜている」)である一方、本願の実施例におけるビデオキャプション生成モデルによって生成されたビデオキャプションは、「a woman is pouring liquid into a bowl.」(一人の女性がボウルに液体を注いでいる)である。ここから分かるように、関連技術におけるビデオキャプション生成モデルは、ビデオ61における「pouring」(注ぐ)を識別することができないが、本願の実施例では、補助デコーダのメモリ構造には、「pouring」と関連ビデオピクチャ62との間の相関性(即ち、参照の視覚的コンテキスト情報)が含まれているので、「pouring」という復号されたワードを正確的に復号することができ、ビデオキャプションのキャプション品質を向上させる。
上記の実施例は、ビデオキャプション生成モデルの動作原理を簡単に説明したが、以下では、模式的な実施例を用いて、図面を参照しながら、ビデオキャプション生成プロセスに関与する符号化および復号のプロセスをより詳細に説明する。
図7は、本願の別の例示的な実施例によって提供されるビデオキャプション生成方法のフローチャートを示す。本実施例は、該方法がコンピュータデバイスで使用されることを例として説明を行う。該方法は、ステップ701~ステップ708を含み、即ち、
ステップ701で、エンコーダによってターゲットビデオを符号化し、ターゲットビデオの2次元視覚的特徴および3次元視覚的特徴を取得し、前記2次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、前記3次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものである。
ビデオは、連続する画像フレームによって構成されるため、ビデオの視覚的特徴には、単一フレーム画像の画像的特徴(即ち、2次元視覚的特徴)だけでなく、連続する画像フレームの時系列特徴(即ち、3次元視覚的特徴)も含まれている。1つの実施例では、エンコーダには、2次元視覚的特徴を抽出するために使用される第1サブエンコーダと、3次元視覚的特徴を抽出するために使用される第2サブエンコーダとが含まれている。
相応的に、ターゲットビデオを符号化する際に、ターゲットビデオを独立した画像フレームに分割し、第1サブエンコーダを使用して各画像フレームに対して特徴の抽出を行い、2次元視覚的特徴を得て、ターゲットビデオをいくつかのビデオクリップに分割し(各ビデオクリップには、いくつかの連続する画像フレームが含まれている)、第2サブエンコーダを使用して各ビデオクリップに対して特徴の抽出を行い、3次元視覚的特徴を得る。
1つの実施例では、第1サブエンコーダは、ImageNet(視覚的オブジェクトの識別ソフトウェアの研究のために使用される大規模な視覚化データベース)データセット上で事前にトレーニングされたResNet-101モデル(深さが101である残差ネットワーク)を採用する一方、第2サブエンコーダは、Kineticsデータセット上で事前にトレーニングされたResNeXt-101モデルを採用する。もちろん、第1サブエンコーダおよび第2サブエンコーダは、他のモデルを採用することもでき、本願の実施例は、これについて限定しない。
1つの例示的な例では、L個の画像フレームを含むターゲットビデオに対して、デコーダによってターゲットビデオを符号化することで、2次元視覚的特徴

Figure 2022509299000002
および3次元視覚的特徴

Figure 2022509299000003
を得て、ここで、N=L/dであり、dは、各ビデオクリップにおける画像フレームの数である。
模式的には、図8に示すように、エンコーダ81は、2次元視覚的特徴811および3次元視覚的特徴812を抽出し得る。
ステップ70で2、2次元視覚的特徴と3次元視覚的特徴とを同一の特徴次元に変換して、ターゲット視覚的特徴を得る。
抽出された2次元視覚的特徴および3次元視覚的特徴の特徴次元(たとえばベクトルサイズ)は異なる可能性があるため、視覚的特徴の特徴次元を統一し、2次元視覚的特徴と3次元視覚的特徴との相互汚染を回避するために、1つの実施例では、ビデオキャプション生成モデルは、2次元視覚的特徴および3次元視覚的特徴を隠れ空間(hidden space)の同一の特徴次元に変換し、ターゲット視覚的特徴を得る。
1つの例示的な例では、任意の2次元視覚的特徴fに対して、それが変換されたターゲット視覚的特徴は、

Figure 2022509299000004
となり、任意の3次元視覚的特徴Vに対して、それが変換されたターゲット視覚的特徴は、

Figure 2022509299000005
となり、ここで、MとMは、変換行列であり、bとbは、バイアス項である。
ステップ703で、ビデオキャプション生成モデルの基礎デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得て、基礎デコーダは、アテンションメカニズムを採用して、ターゲット視覚的特徴とマッチングしている候補ワードを復号するために使用される。
1つの実施例では、ビデオキャプション生成モデルは、ゲート付き回帰型ユニット(GRU:Gated Recurrent Unit)を基礎デコーダの骨組みとして使用する。模式的には、図8に示すように、基礎デコーダ82には、GRU 821、GRU 822、およびGRU 823が含まれている。
相応的に、基礎デコーダが、t回目の復号を行う際に、以下のステップを含むことができ、即ち、
一、t回目の復号を行う際に、t-1回目の復号によって得られた、t-1番目の復号されたワードおよびt-1番目の隠れ状態を取得し、t-1番目の隠れ状態は、基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態であり、tは、2以上の整数である。
基礎デコーダは、復号を行うたびに、1つの隠れ状態を出力することがあり、その後、この隠れ状態に基づいて、今回の復号によって得られた、復号されたワードを決定する。本願の実施例では、GRUを使用して隠れ状態を出力する際に、前回の復号時に出力された隠れ状態および前回の復号されたワードを利用する必要があるため、基礎デコーダは、t回目の復号を行う際に、t-1番目の復号されたワードおよびt-1番目の隠れ状態を取得する必要がある。
模式的には、図8に示すように、基礎デコーダ82は、t回目の復号を行う際に、GRU 821から出力されたt-1番目の隠れ状態ht-1と、t-1番目の復号されたワードwt-1に対応するワードベクトルet-1を取得する。
二、t-1番目の復号されたワード、t-1番目の隠れ状態、およびターゲット視覚的特徴に基づいて、候補ワードの第1選択確率を決定する。
異なる復号段階では、異なる視覚的特徴と現在の復号されたワードとの間の関連度に違いが存在しているため、第1選択確率を計算する前に、基礎デコーダは、アテンションメカニズムを採用して、エンコーダによって出力されたターゲット視覚的特徴に対して処理(加重和)を行って、今回の復号されたターゲット視覚的コンテキスト情報を得る必要がある。
1つの実施例では、基礎デコーダは、2次元視覚的特徴および3次元視覚的特徴をそれぞれ処理して、2次元視覚的コンテキスト情報および3次元視覚的コンテキスト情報を取得し、2次元視覚的コンテキスト情報と3次元視覚的コンテキスト情報とを融合してターゲット視覚的コンテキスト情報を取得する。
ここで、2次元視覚的特徴f’に対して、それを処理して2次元視覚的コンテキスト情報

Figure 2022509299000006
を得て、ここで、

Figure 2022509299000007
であり、ht-1は、t-1番目の隠れ状態(ベクトル表現)であり、fattは、アテンション関数である。
3次元視覚的特徴V’に対して、それを処理して3次元視覚的コンテキスト情報

Figure 2022509299000008
を得て、ここで、

Figure 2022509299000009
であり、ht-1は、t-1番目の隠れ状態(ベクトル表現)であり、fattは、アテンション関数である。1つの一実施例では、2次元視覚的特徴の処理と3次元視覚的特徴の処理には、同じアテンション関数が使用される。
2次元視覚的コンテキスト情報と3次元視覚的コンテキスト情報とを融合してターゲット視覚的コンテキスト情報

Figure 2022509299000010
を得る。
模式的には、図8に示すように、アテンションメカニズム(図におけるfatt)を採用して、2次元視覚的特徴811および3次元視覚的特徴812をそれぞれ処理して、Ct,2DとCt,3Dを得て、処理結果を融合して、t回目の復号時のターゲット視覚的コンテキスト情報Cを得る。
GRUは、t-1番目の復号されたワード、第t-1の隠れ状態、およびターゲット視覚的コンテキスト情報に基づいて、t回目の復号のt番目の隠れ状態を出力する。GRUがt番目の隠れ状態を決定する方法は、以下のように表すことができ、即ち、

Figure 2022509299000011
さらに、基礎デコーダは、t番目の隠れ状態に基づいて、シソーラスにおける各候補ワードに対応する第1選択確率を計算する。第1選択確率の計算式は、次のとおりであり、即ち、

Figure 2022509299000012
ここで、wは、シソーラスにおけるi番目の候補ワードであり、Kは、シソーラスにおける候補ワードの総数であり、Wとbは、i番目の候補ワードの線形マッピングスコアを計算する際に使用されるパラメータである。
模式的には、図8に示すように、ターゲット視覚的コンテキスト情報C、GRU 821によって出力されたt-1番目の隠れ状態ht-1、およびt-1番目の復号されたワードのワードベクトルet-1をGRU 822に入力し、GRU 822は、各候補ワードの第1選択確率Pを計算する。
ステップ704で、t回目の復号を行う場合、t-1回目の復号によって得られたt-1番目の復号されたワードとt-1番目の隠れ状態とを取得し、t-1番目の隠れ状態は、基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態であり、tは、2以上の整数である。
1つの実施例では、基礎デコーダと同様に、補助デコーダは、復号プロセスにおいて、前回の復号されたワードおよび前回の復号時に出力された隠れ状態を使用する必要もあり、したがって、t回目の復号を行う際に、補助デコーダは、t-1番目の復号されたワードとt-1番目の隠れ状態とを取得し、t-1番目の隠れ状態は、基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態である。
ステップ705で、t-1番目の復号されたワード、t-1番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、補助デコーダによって候補ワードの第2選択確率を決定する。
基礎デコーダと異なるのは、補助デコーダが、復号プロセスにおいて、関連ビデオにおける候補ワードの視覚的特徴に注目するように、復号プロセスにおいてメモリ構造における、各候補ワードに対応する参照の視覚的コンテキスト情報を取得する必要もある、ということである。
1つの実施例では、メモリ構造には、少なくとも各候補ワードに対応する参照の視覚的コンテキスト情報gと、候補ワードのワードベクトル特徴eが含まれている。相応的に、補助デコーダは、復号プロセスにおいて、候補ワードに対応するターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報との間のマッチング度、および、候補ワードのワード特徴ベクトルと前回の復号されたワードのワード特徴ベクトルとの間のマッチング度を重点的に計算し、さらに、2つのマッチング度に基づいて、候補ワードの第2選択確率を決定する。
1つの実施例では、図9に示すように、このステップ705は、ステップ705A~ステップ705Eを含むようにしてもよく、即ち、
ステップ705Aで、ターゲット視覚的特徴およびt-1番目の隠れ状態に基づいて、t回目の復号を行う際のターゲット視覚的コンテキスト情報を生成する。
ここで、ターゲット視覚的特徴およびt-1番目の隠れ状態に基づいて、ターゲット視覚的コンテキスト情報を生成するプロセスは、上記のステップ703を参照することができ、本実施例は、これについて再度言及しない。
1つの実施例では、補助エンコーダは、計算を繰り返すことなく、基礎エンコーダからターゲット視覚的コンテキスト情報を取得することができ、本実施例は、これについて限定しない。
ステップ705Bで、ターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報とに基づいて、候補ワードの第1マッチング度を決定する。
候補ワードに対応する参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものであるため、該参照の視覚的コンテキスト情報は、該候補ワードを復号されたワードとする関連ビデオの視覚的特徴を反映することができる。相応的に、候補ワードに対応する参照の視覚的コンテキスト情報と今回の復号時のターゲット視覚的コンテキスト情報との間のマッチング度が高い場合、その候補ワードとターゲット視覚的コンテキスト情報との間のマッチング度も高くなる。
1つの実施例では、補助デコーダは、ターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報との間のマッチング度を、候補ワードの第1マッチング度として決定し、この第1マッチング度は、

Figure 2022509299000013
として表すことができ、ここで、WとWは、線形変換行列であり、gは、i番目の候補ワードに対応する参照の視覚的コンテキスト情報である。
ステップ705Cで、メモリ構造における、候補ワードに対応する第1ワード特徴ベクトルと、t-1番目の復号されたワードの第2ワード特徴ベクトルとを取得する。
補助デコーダは、視覚的コンテキスト情報に基づいて候補ワードのマッチング度を決定することに加えて、候補ワードと前回の復号されたワードとの語意に基づいて、候補ワードのマッチング度を決定し、これにより、後の復号によって得られた、復号されたワードと前回の復号されたワードとの間の一貫性を向上させることができる。
1つの実施例では、補助デコーダは、候補ワードに対応する第1ワード特徴ベクトルをメモリ構造から取得し、変換行列によってt-1番目の復号されたワードを第2ワード特徴ベクトルに変換する。
ステップ705Dで、第1ワード特徴ベクトルと第2ワード特徴ベクトルとに基づいて、候補ワードの第2マッチング度を決定する。
1つの実施例では、補助デコーダは、第1ワード特徴ベクトルと第2ワード特徴ベクトルとの間のマッチング度を候補ワードの第2マッチング度として決定し、この第2マッチング度は、

Figure 2022509299000014
として表すことができ、ここで、W’とWは、線形変換行列であり、eは、i番目の候補ワードに対応するワードベクトル特徴である。
説明すべきものとして、上記のステップ705Aおよび705Bと、ステップ705Cおよび705Dとの間には、厳密な前後の時系列が存在せず、即ち、ステップ705Aおよび705Bは、ステップ705Cおよび705Dと同期して実行されてもよく、本願の実施例は、これに対して限定しない。
ステップ705Eで、第1マッチング度と第2マッチング度とに基づいて、候補ワードの第2選択確率を決定する。
1つの実施例では、第2選択確率と、第1マッチング度および第2マッチング度との間には、正の相関関係が表現され、即ち、第1マッチング度および第2マッチング度が高いほど、候補ワードの第2選択確率が高くなる。
1つの実施例では、復号の精度をさらに向上させるために、メモリ構造には、候補ワードに対応する参照の視覚的コンテキスト情報gおよび候補ワードのワードベクトル特徴eが含まれていることに加えて、候補ワードに対応する補助情報uも含まれている。ここで、この補助情報は、候補ワードの品詞、候補ワードが属する分野、この候補ワードがよく使用されるビデオカテゴリなどであってもよい。
相応的に、補助デコーダは、補助情報、t-1番目の復号されたワード、t-1番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、候補ワードの第2選択確率を決定する。
1つの実施例では、候補ワードwの第2選択確率Pは、以下のように表すことができ、即ち、

Figure 2022509299000015
ここで、qは、候補ワードwの相関性スコアであり、Kは、シソーラスにおける候補ワードの総数である。
1つの実施例では、候補ワードの相関性スコアの計算式は、以下の通りであり、即ち、

Figure 2022509299000016
ここで、WとWは、線形変換行列であり、uは、i番目の候補ワードに対応する補助情報であり、bは、バイアス項である。
模式的には、図8に示すように、補助デコーダ83のメモリ構造832には、各候補ワード(w)に対応する参照の視覚的コンテキスト情報g、ワードベクトル特徴eおよび補助情報uが含まれている。t回目の復号が実行される場合、メモリ構造832における内容、ターゲット視覚的コンテキスト情報C、t-1番目の隠れ状態ht-1、およびt-1番目の復号されたワードのワード特徴ベクトルet-1は、復号コンポーネント831に入力され、復号コンポーネント831は、各候補ワードの第2選択確率Pを出力する。
ステップ706で、第1選択確率および第1選択確率に対応する第1重みと、第2選択確率および第2選択確率に対応する第2重みとに基づいて、各候補ワードのターゲット選択確率を計算する。
1つの実施例では、ビデオキャプション生成モデルは、シソーラスにおける各候補ワードに対して、この候補ワードに対応する第1選択確率および第2選択確率を取得し、各選択確率のそれぞれに対応する重みに基づいて、重み付け計算を行ってその候補ワードのターゲット選択確率を得る。
模式的には、候補ワードwのターゲット選択確率の計算式は、次の通りであり、即ち、

Figure 2022509299000017
ここで、λは、第2重みであり、(1-λ)は、第1重みである。
1つの実施例では、第1重みおよび第2重みは、実験を通じて得られたスーパーパラメータであり、また、第1重みは、第2重みよりも大きいものである。例えば、λの値の範囲は、(0.1,0.2)である。
ステップ707で、最も高いターゲット選択確率に対応する候補ワードを復号されたワードとして決定する。
さらに、ビデオキャプション生成モデルは、各候補ワードのターゲット選択確率を取得し、最も高いターゲット選択確率に対応する候補ワードを今回の復号によって得られた、復号されたワードとして決定する。
模式的には、図8に示すように、ビデオキャプション生成モデルは、第1選択確率Pと第2選択確率Pとに基づいて、ターゲット選択確率Pを算出し、ターゲット選択確率Pに基づいて、t番目の復号されたワードwを決定する。
ステップ708で、各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成する。
1つの例示的な例では、図10に示すように、同じビデオ1001に対して、関連技術におけるビデオキャプション生成モデルによって生成されたビデオキャプションは、「a person is slicing bread」(一人はパンを切っている)である一方、本願の実施例におけるビデオキャプション生成モデルによって生成されたビデオキャプションは、「a man is spreading butter on a bread」「一人がパンにバターを塗っている」である。ここから分かるように、関連技術におけるビデオキャプション生成モデルは、ビデオ1001における「spreading」および「butter」を識別することができない一方、本願の実施例では、補助デコーダのメモリ構造には、「spreading」および「butter」と、関連ビデオ画面1002との間の相関性(即ち、参照の視覚的コンテキスト情報)が含まれているので、「spreading」や「butter」などの復号されたワードを正確に復号することができ、これにより、ビデオキャプションの精度を向上させる。
本実施例では、ビデオキャプション生成モデルは、デコーダを使用して、ターゲットビデオを復号して2次元視覚的特徴と3次元視覚的特徴とを得て、2次元視覚的特徴と3次元視覚的特徴とを同一の特徴次元にマッピングすることにより、視覚的特徴の抽出の網羅性を向上させ、2次元視覚的特徴と3次元視覚的特徴との間の相互汚染を回避する。
また、本実施例では、補助デコーダは、候補ワードの参照視覚的特徴コンテキスト情報と、現在復号されているターゲット視覚的コンテキスト情報とに基づいて、候補ワードの選択確率を決定し、これは、最終的に決定された、復号されたワードの精度向上に寄与し、また、補助デコーダは、候補ワードと、前回の復号されたワードのワードベクトル特徴とに基づいて、候補ワードの選択確率を決定し、これは、最終的に決定された、復号されたワードと前回の復号されたワードとの間の一貫性の向上に寄与する。
上記した実施例における候補ワードに対応する参照の視覚的コンテキスト情報の生成プロセスについて、1つの実施例では、図11に示すように、この生成プロセスは、ステップ1101~ステップ1104を含むようにしてもよく、即ち、
ステップ1101で、各候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、候補ワードに対応するI個の関連ビデオを決定し、関連ビデオのサンプルビデオキャプションには、候補ワードが含まれており、Iは、1以上の整数である。
1つの実施例では、開発者は、手動ラベリング方式を採用してサンプルビデオのためにサンプルビデオオキャプションを生成して追加するか、または、既存のビデオキャプション生成モデルを使用して、サンプルビデオのためにサンプルビデオキャプションを自動的に生成し、品質が予想よりも低いサンプルビデオキャプションを人工的にフィルタリングする。
コンピュータデバイスは、シソーラスにおける各候補ワードの関連ビデオを決定する際に、各サンプルビデオに対応するサンプルビデオキャプションを取得し、サンプルビデオキャプションにはこの候補ワードが含まれているビデオを、候補ワードの関連ビデオとして決定する。
1つの例示的な例では、候補ワード「散歩」について、サンプルビデオAに対応するビデオキャプションが「一人の男性が犬をリードしている」である一方、サンプルビデオBに対応するビデオキャプションが「一人の男性と一人の女性が公園で散歩している」である場合、コンピュータデバイスは、サンプルビデオBを「散歩」に対応する関連ビデオとして決定する。
ステップ1102で、各関連ビデオについて、関連ビデオにおけるk個のキー視覚的特徴を決定し、キー視覚的特徴と候補ワードとの間のマッチング度は、関連ビデオにおける非キー視覚的特徴と候補ワードとの間のマッチング度よりも高くなり、kは、1以上の整数である。
各候補ワードに対応する各関連ビデオについては、関連ビデオにおけるすべての画像フレーム(またはビデオクリップ)がこの候補ワードに関連しているわけではないため、コンピュータデバイスは、各関連ビデオにおける、候補ワードに関連するキー視覚的特徴を決定する必要がある。非キー視覚的特徴は、各関連ビデオにおける、キー視覚的特徴以外の視覚的特徴である、ということが理解できる。
1つの実施例では、関連ビデオにおけるキー視覚的特徴の決定には、以下のステップを含むようにしてもよく、即ち、
一、基礎デコーダによって、候補ワードに対する、関連ビデオにおける各視覚的特徴の特徴重みを取得し、ここで、各特徴重みの合計は、1である。
1つの実施例では、コンピュータデバイスは、まず、ビデオキャプション生成モデルにおける基礎デコーダをトレーニングし、この基礎デコーダを利用して(アテンションメカニズムを採用して)、この候補ワードを復号する際の、この候補ワードに対する、関連ビデオにおける各視覚的特徴の特徴重みを取得する。
1つの例示的な例では、候補ワードがサンプルビデオに対応するサンプルビデオキャプションにおけるt番目の復号されたワードである場合、コンピュータデバイスは、基礎デコーダを使用してサンプルビデオの視覚的特徴を復号し、t回目の復号時に基礎デコーダによって出力されたt-1番目の隠れ状態ht-1を取得することにより、アテンション関数fattによって、その候補ワードに対する各視覚的特徴(v’iまたはf’i)の特徴ai,tを計算する。
二、最初のk個の特徴の重みに対応する視覚的特徴をキー視覚的特徴として決定する。
候補ワードに対する視覚的特徴の特徴重みが大きいほど、この視覚的特徴と候補ワードとの間の相関性が高くなる、ということが表明され、したがって、コンピュータデバイスは、最初のk個(Top-k)の特徴重みに対応する視覚的特徴を、候補ワードのキー視覚的特徴として決定することができる。
模式的には、図12に示すように、コンピュータデバイスは、候補ワードに対応するI個の関連ビデオに対して、各関連ビデオの2次元視覚的特徴1201および3次元視覚的特徴1202をそれぞれ抽出し、基礎デコーダのアテンションメカニズムによって、候補ワードに対する、関連ビデオにおける各視覚的特徴の特徴重みを取得し、その中から、Top-k個の視覚的特徴をキー視覚的特徴1203として選択する。
ステップ1103で、I個の関連ビデオに対応する各キー視覚的特徴に基づいて、候補ワードに対応する参照の視覚的コンテキスト情報を生成する。
さらに、コンピュータデバイスは、各関連ビデオに対応するキー視覚的特徴を融合することにより、候補ワードに対応する参照の視覚的コンテキスト情報を生成する。
ここで、候補ワードに対応する参照の視覚的コンテキスト情報gは、次のように表すことができ、即ち、

Figure 2022509299000018
ここで、Iは、関連ビデオの個数であり、kは、各関連ビデオに対応するキー視覚的特徴の数であり、ai,jは、候補ワードに対するj番目の2次元キー視覚的特徴f’i,jの特徴重みであり、a’i,jは、候補ワードに対するj番目の3次元キー視覚的特徴v’i,jの特徴重みである。
模式的には、図12に示すように、コンピュータデバイスは、各関連ビデオに対応するキー視覚的特徴1203を融合して、参照の視覚的コンテキスト情報1204を生成する。
ステップ1104で、各候補ワードに対応する参照の視覚的コンテキスト情報をメモリ構造に記憶する。
さらに、コンピュータデバイスは、後で使用するために、各候補ワードに対応する参照の視覚的コンテキスト情報を補助デコーダのメモリ構造に記憶する。
本実施例では、コンピュータデバイスは、候補ワードに対応する関連ビデオから、候補ワードのキー視覚的特徴を抽出することにより、多数のキー視覚的特徴に基づいて、候補ワードの参照の視覚的コンテキスト情報を生成して、メモリ構造に記憶し、これによって、後続の復号によって得られた、復号されたワードの精度を向上させるのに寄与する。
MSR-VTTデータセットにおいて、関連技術および本願の実施例におけるビデオキャプション生成モデルのビデオキャプションの品質を分析し、得られた分析結果を表1に示すようにする。

Figure 2022509299000019
MSVDデータセットにおいて、関連技術および本願の実施例におけるビデオキャプション生成モデルのビデオキャプション品質を分析し、得られた分析結果を表2に示すようにする。

Figure 2022509299000020
以上の分析結果から、本願の実施例におけるビデオキャプション生成モデルは、4つの評価指標(BLEU-4、METEROR、ROUGE-L、CIDEr)上で、いずれもトップレベルにある、ということが分かる。
説明すべきものとして、上記の各実施例のフローチャートにおける各ステップは、矢印の指示に従って順次に表示されているが、これらのステップは、必ずしも矢印で指示された順序に従って順次に実行されるわけではない。本願に明示的に記載されていない限り、これらのステップの実行には、厳密な順序制限がなく、これらのステップは、他の順序で実行されてもよい。さらに、上記の実施例におけるステップのうちの少なくとも一部は、複数のサブステップまたは複数の段階を含むことができ、これらのサブステップまたは段階は、必ずしも同じ時点で実行完了されるものではなく、異なる時点で実行されてもよいし、これらのサブステップまたは段階の実行順序は、必ずしも順次に行われるものではなく、他のステップ、あるいは他のステップのサブステップまたは段階のうちの少なくとも一部と交互にまたは順次に実行されてもよい。
図13は、本願の1つの例示的な実施例によって提供されるビデオキャプション生成装置の構造ブロック図であり、この装置は、上記の実施例に記載のコンピュータデバイスに配置されてもよく、図13に示すように、この装置は、
ビデオキャプション生成モデルのエンコーダによって、ターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得るために使用される符号化モジュール1301と、
ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを採用してターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るために使用される第1復号モジュール1302と、
ビデオキャプション生成モデルの補助デコーダによって、ターゲット視覚的特徴を復号し、各候補ワードに対応する第2選択確率を得るために使用される第2復号モジュール1303であって、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報が含まれており、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものである第2復号モジュール1303と、
第1選択確率と第2選択確率とに基づいて、候補ワードにおける復号されたワードを決定するために使用される第1決定モジュール1304と、
各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成するために使用される第1生成モジュール1305と、を含む。
1つの実施例では、第2復号モジュール1303は、
t回目の復号を実行する場合、t-1回目の復号によって得られた、t-1番目の復号されたワードおよびt-1回目の隠れ状態を取得するために使用される第1取得ユニットであって、t-1回目の隠れ状態は、基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態であり、tは、2以上の整数である第1取得ユニットと、
t-1番目の復号されたワード、t-1番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、候補ワードの第2選択確率を決定するために使用される第1決定ユニットと、を含む。
1つの実施例では、第1決定ユニットは、
ターゲット視覚的特徴とt-1番目の隠れ状態とに基づいて、t回目の復号時のターゲット視覚的コンテキスト情報を生成することと、
ターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報とに基づいて、候補ワードの第1マッチング度を決定することと、
メモリ構造における、候補ワードに対応する第1ワード特徴ベクトルおよびt-1番目の復号されたワードの第2ワード特徴ベクトルを取得することと、
第1ワード特徴ベクトルと第2ワード特徴ベクトルとに基づいて、候補ワードの第2マッチング度を決定することと、
第1マッチング度と第2マッチング度とに基づいて、候補ワードの第2選択確率を決定することと、のために使用される。
1つの実施例では、メモリ構造には、各候補ワードに対応する補助情報がさらに含まれている。第1決定ユニットは、
補助情報、t-1番目の復号されたワード、t-1番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、候補ワードの第2選択確率を決定することに使用される。
1つの実施例では、装置は、
各候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、候補ワードに対応するI個の関連ビデオを決定するために使用される第2決定モジュールであって、関連ビデオのサンプルビデオキャプションには、候補ワードが含まれており、Iは、1以上の整数である第2決定モジュールと、
各関連ビデオに対して、関連ビデオにおけるk個のキー視覚的特徴を決定するために使用される第3決定モジュールであって、キー視覚的特徴と候補ワードとの間のマッチング度は、関連ビデオにおける、非キー視覚的特徴と候補ワードとの間のマッチング度よりも高くなり、kは、1以上の整数である第3決定モジュールと、
I個の関連ビデオに対応する各キー視覚的特徴に基づいて、候補ワードに対応する参照の視覚的コンテキスト情報を生成するために使用される第2生成モジュールと、
各候補ワードに対応する参照の視覚的コンテキスト情報をメモリ構造に記憶するために使用される記憶モジュールと、を含む。
1つの実施例では、第3決定モジュールは、
基礎デコーダによって、候補ワードに対する関連ビデオにおける各視覚的特徴の特徴重みを取得するために使用される取得ユニットであって、各特徴重みの合計は1である取得ユニットと、
最初のk個の特徴重みに対応する視覚的特徴をキー視覚的特徴として決定するために使用される第2決定ユニットと、を含む。
1つの実施例では、第1決定モジュール1304は、
第1選択確率および第1選択確率に対応する第1重みと、第2選択確率および第2選択確率に対応する第2重みとに基づいて、各候補ワードのターゲット選択確率を計算するために使用される計算ユニットと、
最も高いターゲット選択確率に対応する候補ワードを復号されたワードとして決定するために使用される第3決定ユニットと、を含む。
1つの実施例では、符号化モジュール1301は、
エンコーダによってターゲットビデオを符号化し、ターゲットビデオの2次元視覚的特徴および3次元視覚的特徴を取得するために使用される符号化ユニットであって、2次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、3次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものである符号化ユニットと、
2次元視覚的特徴と3次元視覚的特徴とを同一の特徴次元に変換して、ターゲット視覚的特徴を得るために使用される変換ユニットと、を含む。
以上のように、本願の実施例は、ビデオキャプション生成モデルのエンコーダを使用してターゲットビデオを符号化し、ターゲットの視覚的特徴を得た後、アテンションメカニズムに基づく基礎デコーダおよび含まれている補助デコーダのそれぞれによってターゲット視覚的特徴を復号し、各候補ワードの第1選択確率および第2選択確率を得て、これにより、第1選択確率および第2選択確率を総合して、復号されたワードを候補ワードから決定し、さらに、複数の復号されたワードに基づいて、ビデオキャプションを生成する。ビデオキャプション生成モデルにおける補助デコーダのメモリ構造には、候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、かつ、この参照の視覚的コンテキスト情報が、候補ワードの関連ビデオに基づいて生成されるものであるため、補助デコーダを使用して復号を行う際に、候補ワードと、現在のビデオ以外の他のビデオとの間の相関性に注目することができ、これによって、復号されたワード選択の精度を向上させ、さらに、その後に生成されたビデオキャプションの品質を向上させることができる。
説明すべきものとして、上記の実施例によって提供されるビデオキャプション生成装置は、上記の各機能モジュールの分割を例に挙げて説明したが、実際の応用では、必要に応じて、上記の機能は、異なる機能モジュールまたはユニットが完成するように割り当てることができ、即ち、デバイスの内部構造を異なる機能モジュールまたはユニットに分割することで、上記の機能の全部または一部を達成することができる。各機能モジュールまたはユニットは、ソフトウェア、ハードウェア、またはそれらの組み合わせによって、全体的にまたは部分的に実現されてもよい。また、上記の実施例によって提供されるビデオキャプション生成装置は、ビデオキャプション生成方法の実施例と同じ概念に属し、その具体的な実現プロセスについて、方法の実施例を参照すればよく、ここでは再度言及されない。
本願の例示的な実施例によって提供されるコンピュータデバイスの構造の模式図を示す図14を参照すると、具体的には、コンピュータデバイス1400は、中央処理ユニット(CPU)1401と、ランダムアクセスメモリ(RAM)1402および読み取り専用メモリ(ROM)1403を含むシステムメモリ1404と、システムメモリ1404と中央処理ユニット1401とを接続するシステムバス1405と、を含む。コンピュータデバイス1400は、また、コンピュータ内の各部件間の情報の転送を支援する基本的な入力/出力システム(I/Oシステム)1406と、オペレーティングシステム1413、アプリケーション1414および他のプログラムモジュール1415を記憶する大容量記憶デバイス1407と、を含む。
基本的な入力/出力システム1406は、情報を表示するために使用されるディスプレイ1408と、ユーザが情報を入力するために使用されるマウスやキーボードなどの入力デバイス1409と、を含む。ここで、ディスプレイ1408と入力デバイス1409の両方は、システムバス1405に接続された入力/出力コントローラ1410を介して中央処理ユニット1401に接続される。基本的な入力/出力システム1406は、また、キーボード、マウス、または電子スタイラスなどの複数の他のデバイスからの入力を受信して処理するために使用される入力/出力コントローラ1410を含むことができる。同様に、入力/出力コントローラ1410は、ディスプレイスクリーン、プリンタや他のタイプの出力デバイスへの出力も提供する。
大容量記憶デバイス1407は、システムバス1405に接続された大容量記憶コントローラ(図示せず)を介して中央処理ユニット1401に接続される。大容量記憶デバイス1407およびそれに関連するコンピュータ読み取り可能な媒体は、コンピュータデバイス1400のために不揮発性記憶を提供する。つまり、大容量記憶デバイス1407は、ハードディスクまたはCD-ROIドライブなどのコンピュータ読み取り可能な媒体(図示せず)を含むことができる。
一般性を失わず、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュールや他のデータのなどの情報を記憶するために使用される、任意の方法または技術で実現される、揮発性および不揮発性、リムーバブルおよび非リムーバブルの、媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EPROM、EEPROM、フラッシュメモリまたは他のソリッドステートストレージ技術、CD-ROM、DVDまたは他の光学ストレージ、テープカートリッジ、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイスを含む。もちろん、当業者は、コンピュータ記憶媒体が上記のものに限定されない、ということを知っている。上記のシステムメモリ1404および大容量記憶デバイス1407は、まとめてメモリと呼ばれることがある。
メモリには、1つまたは複数のプログラムが記憶されており、1つまたは複数のプログラムは、1つまたは複数の中央処理ユニット1401によって実行されるように構成され、1つまたは複数のプログラムには、上記方法を実現するために使用されるコンピュータ読み取り可能な命令が含まれ、中央処理ユニット1401は、1つまたは複数のプログラムを実行して、上記の様々な方法実施例によって提供される方法を実現する。
本願の様々な実施例によれば、コンピュータデバイス1400は、また、動作するために、インターネットなどのネットワークを介して、ネットワーク上のリモートコンピュータに接続されることができる。即ち、コンピュータデバイス1400は、システムバス1405に接続されたネットワークインターフェイスユニット1411を介して、ネットワーク1412に接続することができ、または、ネットワークインターフェイスユニット1411を使用して、他のタイプのネットワークまたはリモートコンピュータシステム(図示せず)に接続することもできる。
メモリには、また、1つまたは複数のプログラムが含まれ、1つまたは複数のプログラムがメモリに記憶されており、1つまたは複数のプログラムは、本願の実施例によって提供される方法を実現するための、コンピュータデバイスによって実行されるステップを含む。
本願の実施例は、また、1つまたは複数のコンピュータ読み取り可能な記憶媒体を提供し、該読み取り可能な記憶媒体には、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットは、1つまたは複数のプロセッサによってロードして実行されて、上記のいずれかの実施例に記載のビデオキャプション生成方法を実現する。
本願の実施例は、また、コンピュータ上で実行されると、上記の様々な方法実施例によって提供されるビデオキャプション生成方法をコンピュータに実行させるコンピュータプログラム製品を提供する。
当業者が理解できるように、上記の実施例の様々な方法におけるステップの全部または一部は、プログラムによって実現することができ、このプログラムは、上記の実施例におけるメモリに含まれるコンピュータ読み取り可能な記憶媒体であってもよいコンピュータ読み取り可能な記憶媒体に記憶されていてもよく、単独で存在し、端末に組み込まれていないコンピュータ読み取り可能な記憶媒体であってもよい。このコンピュータ読み取り可能な記憶媒体には、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットは、プロセッサによってロードして実行されて、上記のいずれかの方法実施例のビデオキャプション生成方法を実現する。
1つの実施例では、このコンピュータ読み取り可能な記憶媒体は、読み取り専用メモリ(ROM:Read Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、ソリッドステートドライブ(SSD:Solid State Drives)、または光ディスクなどを含むことができる。ここで、ランダムアクセスメモリは、レジスタンスランダムアクセスメモリ(ReRAM:Resistance Random Access Memory)およびダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)を含むことができる。上記の本願の実施例の番号は、単に説明するためのものであり、実施例の優劣を表すものではない。
当業者が理解できるように、上記の実施例のステップの全部または一部は、ハードウェアによって達成されてもよく、プログラムによって実現することができる。プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、上記した記憶媒体は、読み取り専用メモリ、磁気ディスクや光ディスクなどであってもよい。
1301 符号化モジュール
1302 第1復号モジュール
1303 第2復号モジュール
1304 第1決定モジュール
1305 第1生成モジュール
1401 中央処理ユニット
1402 ランダムアクセスメモリ
1403 読み出し専用メモリ
1404 システムメモリ
1405 システムバス
1406 入力/出力システム
1407 大容量記憶デバイス
1408 ディスプレイ
1409 入力デバイス
1410 入力/出力コントローラ
1411 ネットワークインターフェイスユニット
1412 ネットワーク
1413 オペレーティングシステム
1414 アプリケーション
1415 他のプログラムモジュール
1つの例示的な例では、図3に示すように、視覚障害者が着用するメガネ31には、カメラ32および骨伝導イヤホン33が設けられている。動作状態では、カメラ3は、前方の環境に対して画像を収集することで、環境ビデオ34を収集する。メガネ31は、プロセッサによって環境ビデオ34のために、「前方に犬の散歩をさせている男性がいる」というビデオキャプションを生成し、このビデオキャプションを文字から音声に変換し、さらに、骨伝導イヤホン33を介して再生され、これにより、視覚障害者は、音声プロンプトに従って避難することができる。
模式的には、図8に示すように、基礎デコーダ82は、t回目の復号を行う際に、GRU 821から出力されたt-1番目の隠れ状態ht-1と、t-1番目の復号されたワードwt-1に対応するワード特徴ベクトルet-1を取得する。
模式的には、図8に示すように、ターゲット視覚的コンテキスト情報C、GRU 821によって出力されたt-1番目の隠れ状態ht-1、およびt-1番目の復号されたワードのワード特徴ベクトルet-1をGRU 822に入力し、GRU 822は、各候補ワードの第1選択確率Pを計算する。
1つの実施例では、メモリ構造には、少なくとも各候補ワードに対応する参照の視覚的コンテキスト情報gと、候補ワードのワード特徴ベクトルe が含まれている。相応的に、補助デコーダは、復号プロセスにおいて、候補ワードに対応するターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報との間のマッチング度、および、候補ワードのワード特徴ベクトルと前回の復号されたワードのワード特徴ベクトルとの間のマッチング度を重点的に計算し、さらに、2つのマッチング度に基づいて、候補ワードの第2選択確率を決定する。
1つの実施例では、補助デコーダは、計算を繰り返すことなく、基礎デコーダからターゲット視覚的コンテキスト情報を取得することができ、本実施例は、これについて限定しない。
1つの実施例では、補助デコーダは、第1ワード特徴ベクトルと第2ワード特徴ベクトルとの間のマッチング度を候補ワードの第2マッチング度として決定し、この第2マッチング度は、

Figure 2022509299000035
として表すことができ、ここで、W’とWは、線形変換行列であり、eは、i番目の候補ワードに対応するワード特徴ベクトルである。
1つの実施例では、復号の精度をさらに向上させるために、メモリ構造には、候補ワードに対応する参照の視覚的コンテキスト情報gおよび候補ワードのワード特徴ベクトルe が含まれていることに加えて、候補ワードに対応する補助情報uも含まれている。ここで、この補助情報は、候補ワードの品詞、候補ワードが属する分野、この候補ワードがよく使用されるビデオカテゴリなどであってもよい。
模式的には、図8に示すように、補助デコーダ83のメモリ構造832には、各候補ワード(w)に対応する参照の視覚的コンテキスト情報g、ワード特徴ベクトルe および補助情報uが含まれている。t回目の復号が実行される場合、メモリ構造832における内容、ターゲット視覚的コンテキスト情報C、t-1番目の隠れ状態ht-1、およびt-1番目の復号されたワードのワード特徴ベクトルet-1は、復号コンポーネント831に入力され、復号コンポーネント831は、各候補ワードの第2選択確率Pを出力する。
また、本実施例では、補助デコーダは、候補ワードの参照視覚的コンテキスト情報と、現在復号されているターゲット視覚的コンテキスト情報とに基づいて、候補ワードの選択確率を決定し、これは、最終的に決定された、復号されたワードの精度向上に寄与し、また、補助デコーダは、候補ワードと、前回の復号されたワードのワード特徴ベクトルとに基づいて、候補ワードの選択確率を決定し、これは、最終的に決定された、復号されたワードと前回の復号されたワードとの間の一貫性の向上に寄与する。

Claims (20)

  1. コンピュータデバイスによって実行されるビデオキャプション生成方法であって、
    ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、前記ターゲットビデオのターゲット視覚的特徴を得るステップと、
    前記ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用して前記ターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るステップと、
    前記ビデオキャプション生成モデルの補助デコーダによって前記ターゲット視覚的特徴を復号し、各前記候補ワードに対応する第2選択確率を得るステップであって、前記補助デコーダのメモリ構造には、各前記候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、前記参照の視覚的コンテキスト情報は、前記候補ワードに対応する関連ビデオに基づいて生成されるものであるステップと、
    前記第1選択確率と前記第2選択確率とに基づいて、前記候補ワードにおける、復号されたワードを決定するステップと、
    各前記復号されたワードに基づいて、前記ターゲットビデオに対応するビデオキャプションを生成するステップと、
    を含むことを特徴とするビデオキャプション生成方法。
  2. 前記ビデオキャプション生成モデルの補助デコーダによって前記ターゲット視覚的特徴を復号し、各前記候補ワードに対応する第2選択確率を得る前記ステップは、
    t回目の復号を行う際に、t-1回目の復号によって得られた、t-1番目の復号されたワードとt-1番目の隠れ状態とを取得するステップであって、前記t-1番目の隠れ状態は、前記基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態であって、tは、2以上の整数であるステップと、
    前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、補助デコーダによって前記候補ワードの前記第2選択確率を決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第2選択確率を決定する前記ステップは、
    前記ターゲット視覚的特徴と前記t-1番目の隠れ状態とに基づいて、t回目の復号を行う際のターゲット視覚的コンテキスト情報を生成するステップと、
    前記ターゲット視覚的コンテキスト情報と前記参照の視覚的コンテキスト情報とに基づいて、前記候補ワードの第1マッチング度を決定するステップと、
    前記メモリ構造における前記候補ワードに対応する第1ワード特徴ベクトルと、前記t-1番目の復号されたワードの第2ワード特徴ベクトルとを取得するステップと、
    前記第1ワード特徴ベクトルと前記第2ワード特徴ベクトルとに基づいて、前記候補ワードの第2マッチング度を決定するステップと、
    前記第1マッチング度と前記第2マッチング度とに基づいて、前記候補ワードの前記第2選択確率を決定するステップと、を含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記ターゲット視覚的特徴と前記t-1番目の隠れ状態とに基づいて、t回目の復号を行う際のターゲット視覚的コンテキスト情報を生成する前記ステップは、
    前記ターゲット視覚的特徴と前記t-1番目の隠れ状態とに基づいて、t回目の復号を行う際の2次元視覚的コンテキスト情報および3次元視覚的コンテキスト情報を得るステップと、
    前記2次元視覚的コンテキスト情報と前記3次元視覚的コンテキスト情報とを融合して、t回目の復号を行う際のターゲット視覚的コンテキスト情報を得るステップと、を含む、
    ことを特徴とする請求項3に記載の方法。
  5. 前記メモリ構造には、さらに、各前記候補ワードに対応する補助情報が含まれ、
    前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第2選択確率を決定する前記ステップは、
    前記補助情報、前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第2選択確率を決定するステップ、を含む、
    ことを特徴とする請求項2に記載の方法。
  6. 各前記候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、前記候補ワードに対応するI個の前記関連ビデオを決定するステップであって、前記関連ビデオの前記サンプルビデオキャプションには、前記候補ワードが含まれ、Iは、1以上の整数であるステップと、
    各前記関連ビデオに対して、前記関連ビデオにおけるk個のキー視覚的特徴を決定するステップであって、前記キー視覚的特徴と前記候補ワードとの間のマッチング度は、前記関連ビデオにおける非キー視覚的特徴と前記候補ワードとの間のマッチング度よりも高くなり、kは、1以上の整数であるステップと、
    I個の前記関連ビデオに対応する各前記キー視覚的特徴に基づいて、前記候補ワードに対応する前記参照の視覚的コンテキスト情報を生成するステップと、
    各前記候補ワードに対応する前記参照の視覚的コンテキスト情報を前記メモリ構造に記憶するステップと、を含む、
    ことを特徴とする請求項1~5のいずれか1項に記載の方法。
  7. 前記関連ビデオにおけるk個のキー視覚的特徴を決定する前記ステップは、
    前記基礎デコーダによって、前記候補ワードに対する、前記関連ビデオにおける各視覚的特徴の特徴重みを取得するステップであって、各特徴重みの合計は1であるステップと、
    最初のk個の前記特徴重みに対応する前記視覚的特徴を前記キー視覚的特徴として決定するステップと、を含む、
    ことを特徴とする請求項6に記載の方法。
  8. 前記第1選択確率と前記第2選択確率とに基づいて、前記候補ワードにおける、復号されたワードを決定する前記ステップは、
    前記第1選択確率および前記第1選択確率に対応する第1重みと、前記第2選択確率および前記第2選択確率に対応する第2重みとに基づいて、各前記候補ワードのターゲット選択確率を計算するステップと、
    最も高いターゲット選択確率に対応する前記候補ワードを前記復号されたワードとして決定するステップと、を含む、
    ことを特徴とする請求項1~5のいずれか1項に記載の方法。
  9. 前記ビデオキャプション生成モデルのエンコーダによって、ターゲットビデオを符号化し、前記ターゲットビデオのターゲット視覚的特徴を得る前記ステップは、
    前記エンコーダによって前記ターゲットビデオを符号化し、2次元視覚的特徴と3次元視覚的特徴とを得るステップであって、前記2次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、前記3次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものであるステップと、
    前記2次元視覚的特徴と前記3次元視覚的特徴とを同一の特徴次元に変換して、前記ターゲット視覚的特徴を得るステップと、を含む、
    ことを特徴とする請求項1~5のいずれか1項に記載の方法。
  10. コンピュータデバイスに配置されるビデオキャプション生成装置であって、
    ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、前記ターゲットビデオのターゲット視覚的特徴を得るために使用される符号化モジュールと、
    前記ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用して前記ターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るために使用される第1復号モジュールと、
    前記ビデオキャプション生成モデルの補助デコーダによって前記ターゲット視覚的特徴を復号し、各前記候補ワードに対応する第2選択確率を得るために使用される第2復号モジュールであって、前記補助デコーダのメモリ構造には、各前記候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、前記参照の視覚的コンテキスト情報は、前記候補ワードに対応する関連ビデオに基づいて生成されるものである第2復号モジュールと、
    前記第1選択確率と前記第2選択確率とに基づいて、前記候補ワードにおける、復号されたワードを決定するために使用される第1決定モジュールと、
    各前記復号されたワードに基づいて、前記ターゲットビデオに対応するビデオキャプションを生成するために使用される第1生成モジュールと、
    を含むことを特徴とするビデオキャプション生成装置。
  11. 前記第2復号モジュールは、
    t回目の復号を行う際に、t-1回目の復号によって得られた、t-1番目の復号されたワードとt-1番目の隠れ状態とを取得するために使用される第1取得ユニットであって、前記t-1番目の隠れ状態は、前記基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態であって、tは、2以上の整数である第1取得ユニットと、
    前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、補助デコーダによって前記候補ワードの前記第2選択確率を決定するために使用される第1決定ユニットと、を含む、
    ことを特徴とする請求項10に記載の装置。
  12. 前記第1決定ユニットは、
    前記ターゲット視覚的特徴と前記第t-1の隠れ状態とに基づいて、t回目の復号を行う際のターゲット視覚的コンテキスト情報を生成することと、
    前記ターゲット視覚的コンテキスト情報と前記参照の視覚的コンテキスト情報とに基づいて、前記候補ワードの第1マッチング度を決定することと、
    前記メモリ構造における前記候補ワードに対応する第1ワード特徴ベクトルと、前記t-1番目の復号されたワードの第2ワード特徴ベクトルとを取得することと、
    前記第1ワード特徴ベクトルと前記第2ワード特徴ベクトルとに基づいて、前記候補ワードの第2マッチング度を決定することと、
    前記第1マッチング度と前記第2マッチング度とに基づいて、前記候補ワードの前記第2選択確率を決定することと、のために使用される、
    ことを特徴とする請求項11に記載の装置。
  13. 前記第1決定ユニットは、さらに、
    前記ターゲット視覚的特徴と前記t-1番目の隠れ状態とに基づいて、t回目の復号を行う際の2次元視覚的コンテキスト情報および3次元視覚的コンテキスト情報を得ることと、
    前記2次元視覚的コンテキスト情報と前記3次元視覚的コンテキスト情報とを融合して、t回目の復号を行う際のターゲット視覚的コンテキスト情報を得ることと、のために使用される、
    ことを特徴とする請求項11に記載の装置。
  14. 前記メモリ構造には、さらに、各前記候補ワードに対応する補助情報が含まれ、
    前記第1決定ユニットは、
    前記補助情報、前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第2選択確率を決定するために使用される、
    ことを特徴とする請求項11に記載の装置。
  15. 各前記候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、前記候補ワードに対応するI個の前記関連ビデオを決定するために使用される第2決定モジュールであって、前記関連ビデオの前記サンプルビデオキャプションには、前記候補ワードが含まれ、Iは、1以上の整数である第2決定モジュールと、
    各前記関連ビデオに対して、前記関連ビデオにおけるk個のキー視覚的特徴を決定するために使用される第3決定モジュールであって、前記キー視覚的特徴と前記候補ワードとの間のマッチング度は、前記関連ビデオ中の非キー視覚的特徴と前記候補ワードとの間のマッチング度よりも高くなり、kは、1以上の整数である第3決定モジュールと、
    I個の前記関連ビデオに対応する各前記キー視覚的特徴に基づいて、前記候補ワードに対応する前記参照の視覚的コンテキスト情報を生成するために使用される第2生成モジュールと、
    各前記候補ワードに対応する前記参照の視覚的コンテキスト情報を前記メモリ構造に記憶するために使用される記憶モジュールと、を含む、
    ことを特徴とする請求項10~14のいずれか1項に記載の装置。
  16. 前記第3決定モジュールは、
    前記基礎デコーダによって、前記候補ワードに対する、前記関連ビデオにおける各視覚的特徴の特徴重みを取得するために使用される取得ユニットであって、各特徴重みの合計は1である取得ユニットと、
    最初のk個の前記特徴重みに対応する前記視覚的特徴を前記キー視覚的特徴として決定するために使用される第2決定ユニットと、を含む、
    ことを特徴とする請求項15に記載の装置。
  17. 前記第1決定モジュールは、
    前記第1選択確率および前記第1選択確率に対応する第1重みと、前記第2選択確率および前記第2選択確率に対応する第2重みとに基づいて、各前記候補ワードのターゲット選択確率を計算するために使用される計算ユニットと、
    最も高いターゲット選択確率に対応する前記候補ワードを前記復号されたワードとして決定するために使用される第3決定ユニットと、を含む、
    ことを特徴とする請求項10~14のいずれか1項に記載の装置。
  18. 前記符号化モジュールは、
    前記エンコーダによって前記ターゲットビデオを符号化し、2次元視覚的特徴と3次元視覚的特徴とを得る符号化ユニットであって、前記2次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、前記3次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものである符号化ユニットと、
    前記2次元視覚的特徴と前記3次元視覚的特徴とを同一の特徴次元に変換して、前記ターゲット視覚的特徴を得るために使用される変換ユニット、とを含む、
    ことを特徴とする請求項10~14のいずれか1項に記載の装置。
  19. 1つまたは複数のプロセッサと、メモリとを含むコンピュータデバイスであって、
    前記メモリには、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、前記少なくとも1つのコンピュータ読み取り可能な命令、前記少なくとも1つのプログラム、前記コードセットまたはコンピュータ読み取り可能な命令セットは、前記1つまたは複数のプロセッサによってロードして実行されて、請求項1~9のいずれかに記載のビデオキャプション生成方法を実現する、
    ことを特徴とするコンピュータデバイス。
  20. 少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、前記コードセットまたはコンピュータ読み取り可能な命令セットは、1つまたは複数のプロセッサによってロードして実行されて、請求項1~9のいずれかに記載のビデオキャプション生成方法を実現する、
    ことを特徴とする1つまたは複数のコンピュータ読み取り可能な記憶媒体。
JP2021531058A 2019-04-22 2020-03-27 ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム Active JP7179183B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910325193.0A CN109874029B (zh) 2019-04-22 2019-04-22 视频描述生成方法、装置、设备及存储介质
CN201910325193.0 2019-04-22
PCT/CN2020/081721 WO2020215988A1 (zh) 2019-04-22 2020-03-27 视频描述生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022509299A true JP2022509299A (ja) 2022-01-20
JP7179183B2 JP7179183B2 (ja) 2022-11-28

Family

ID=66922965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021531058A Active JP7179183B2 (ja) 2019-04-22 2020-03-27 ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム

Country Status (6)

Country Link
US (1) US11743551B2 (ja)
EP (1) EP3962097A4 (ja)
JP (1) JP7179183B2 (ja)
KR (1) KR102477795B1 (ja)
CN (1) CN109874029B (ja)
WO (1) WO2020215988A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109874029B (zh) * 2019-04-22 2021-02-12 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
CN110263218B (zh) * 2019-06-21 2022-02-25 北京百度网讯科技有限公司 视频描述文本生成方法、装置、设备和介质
CN110891201B (zh) * 2019-11-07 2022-11-01 腾讯科技(深圳)有限公司 文本生成方法、装置、服务器和存储介质
CN111860597B (zh) * 2020-06-17 2021-09-07 腾讯科技(深圳)有限公司 一种视频信息处理方法、装置、电子设备及存储介质
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
CN112580570B (zh) * 2020-12-25 2024-06-21 南通大学 人体姿态图像的关键点检测方法
CN113569068B (zh) * 2021-01-19 2023-09-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置
CN113099228B (zh) * 2021-04-30 2024-04-05 中南大学 一种视频编解码方法及系统
CN113343986B (zh) * 2021-06-29 2023-08-25 北京奇艺世纪科技有限公司 字幕时间区间确定方法、装置、电子设备及可读存储介质
CN113596557B (zh) * 2021-07-08 2023-03-21 大连三通科技发展有限公司 一种视频生成方法及装置
CN113673376B (zh) * 2021-08-03 2023-09-01 北京奇艺世纪科技有限公司 弹幕生成方法、装置、计算机设备和存储介质
CN113792166B (zh) * 2021-08-18 2023-04-07 北京达佳互联信息技术有限公司 信息获取方法、装置、电子设备及存储介质
CN113810730B (zh) * 2021-09-17 2023-08-01 咪咕数字传媒有限公司 基于视频的实时文本生成方法、装置及计算设备
CN114422841B (zh) * 2021-12-17 2024-01-02 北京达佳互联信息技术有限公司 字幕生成方法、装置、电子设备及存储介质
CN114501064B (zh) * 2022-01-29 2023-07-14 北京有竹居网络技术有限公司 一种视频生成方法、装置、设备、介质及产品
CN116166827B (zh) * 2023-04-24 2023-12-15 北京百度网讯科技有限公司 语义标签抽取模型的训练和语义标签的抽取方法及其装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018101317A (ja) * 2016-12-21 2018-06-28 ホーチキ株式会社 異常監視システム
JP2019008778A (ja) * 2017-05-02 2019-01-17 ダッソー システムズDassault Systemes 画像の領域のキャプション付加

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104661031B (zh) * 2015-02-16 2017-12-22 华为技术有限公司 用于视频图像编码和解码的方法、编码设备和解码设备
US10303768B2 (en) * 2015-05-04 2019-05-28 Sri International Exploiting multi-modal affect and semantics to assess the persuasiveness of a video
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN108062505B (zh) * 2016-11-09 2022-03-18 微软技术许可有限责任公司 用于基于神经网络的动作检测的方法和设备
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US10592751B2 (en) * 2017-02-03 2020-03-17 Fuji Xerox Co., Ltd. Method and system to generate targeted captions and summarize long, continuous media files
CN108509411B (zh) 2017-10-10 2021-05-11 腾讯科技(深圳)有限公司 语义分析方法和装置
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108388900B (zh) * 2018-02-05 2021-06-08 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108419094B (zh) * 2018-03-05 2021-01-29 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
US10909157B2 (en) * 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
CN109344288B (zh) * 2018-09-19 2021-09-24 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109359214A (zh) * 2018-10-15 2019-02-19 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、存储介质及终端设备
US10831834B2 (en) * 2018-11-27 2020-11-10 Sap Se Unsupervised document summarization by attention and reconstruction
EP3892005A4 (en) * 2019-03-21 2022-07-06 Samsung Electronics Co., Ltd. METHOD, DEVICE, DEVICE AND MEDIA FOR GENERATION OF SUBTITLING INFORMATION FROM MULTIMEDIA DATA
CN111836111A (zh) * 2019-04-17 2020-10-27 微软技术许可有限责任公司 生成弹幕的技术
CN109874029B (zh) * 2019-04-22 2021-02-12 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018101317A (ja) * 2016-12-21 2018-06-28 ホーチキ株式会社 異常監視システム
JP2019008778A (ja) * 2017-05-02 2019-01-17 ダッソー システムズDassault Systemes 画像の領域のキャプション付加

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHAGAN SAH ET AL.: ""Semantic Text Summarization of Long Videos"", 2017 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV), JPN6022023054, 24 March 2017 (2017-03-24), US, pages 989 - 997, XP033096883, ISSN: 0004896787, DOI: 10.1109/WACV.2017.115 *
SUBHASHINI VENUGOPALAN ET AL.: ""Sequence to Sequence -- Video to Text"", 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6022023057, 7 December 2015 (2015-12-07), US, pages 4534 - 4542, XP032866820, ISSN: 0004896786, DOI: 10.1109/ICCV.2015.515 *
YANLONG HAO ET AL.: ""Image Caption via Visual Attention Switch on DenseNet"", 2018 INTERNATIONAL CONFERENCE ON NETWORK INFRASTRUCTURE AND DIGITAL CONTENT (IC-NIDC), JPN6022023053, 22 August 2018 (2018-08-22), US, pages 334 - 338, XP033441762, ISSN: 0004896788, DOI: 10.1109/ICNIDC.2018.8525732 *

Also Published As

Publication number Publication date
EP3962097A4 (en) 2022-07-13
US11743551B2 (en) 2023-08-29
JP7179183B2 (ja) 2022-11-28
CN109874029B (zh) 2021-02-12
EP3962097A1 (en) 2022-03-02
KR20210095208A (ko) 2021-07-30
CN109874029A (zh) 2019-06-11
KR102477795B1 (ko) 2022-12-14
US20210281774A1 (en) 2021-09-09
WO2020215988A1 (zh) 2020-10-29

Similar Documents

Publication Publication Date Title
JP2022509299A (ja) ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム
Pei et al. Memory-attended recurrent network for video captioning
CN111488807B (zh) 基于图卷积网络的视频描述生成系统
CN108986186B (zh) 文字转化视频的方法和系统
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
WO2019114695A1 (zh) 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质
CN107861938B (zh) 一种poi文案生成方法及装置,电子设备
US20210224601A1 (en) Video sequence selection method, computer device, and storage medium
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
EP3885966B1 (en) Method and device for generating natural language description information
WO2022033208A1 (zh) 视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质
Li et al. Residual attention-based LSTM for video captioning
WO2023065619A1 (zh) 多维度细粒度动态情感分析方法及系统
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN114390218B (zh) 视频生成方法、装置、计算机设备和存储介质
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
US20240062744A1 (en) Real-time voice recognition method, model training method, apparatuses, device, and storage medium
CN113392265A (zh) 多媒体处理方法、装置及设备
Bie et al. Renaissance: A survey into ai text-to-image generation in the era of large model
CN117093739A (zh) 图像生成以及图文对齐方法、装置、终端设备及存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
Rastgoo et al. A survey on recent advances in Sign Language Production
CN116958343A (zh) 面部动画生成方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221115

R150 Certificate of patent or registration of utility model

Ref document number: 7179183

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150