JP2022509299A - ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム - Google Patents
ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム Download PDFInfo
- Publication number
- JP2022509299A JP2022509299A JP2021531058A JP2021531058A JP2022509299A JP 2022509299 A JP2022509299 A JP 2022509299A JP 2021531058 A JP2021531058 A JP 2021531058A JP 2021531058 A JP2021531058 A JP 2021531058A JP 2022509299 A JP2022509299 A JP 2022509299A
- Authority
- JP
- Japan
- Prior art keywords
- video
- candidate word
- visual
- word
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title description 4
- 230000000007 visual effect Effects 0.000 claims abstract description 307
- 238000000034 method Methods 0.000 claims abstract description 90
- 230000015654 memory Effects 0.000 claims abstract description 58
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 11
- 230000001771 impaired effect Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 210000000988 bone and bone Anatomy 0.000 description 4
- 235000008429 bread Nutrition 0.000 description 4
- 235000014121 butter Nutrition 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000019197 fats Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000012864 cross contamination Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本願は、2019年04月22日に中国特許局へ提出された、出願番号が2019103251930であり、出願名称が「ビデオキャプションの生成方法、装置、デバイスおよび記憶媒体」である中国特許出願の優先権を主張し、そのすべてが参照することにより本願に組み込まれる。
本願の実施例は、人工知能の技術分野およびビデオキャプションの分野に関し、特に、ビデオキャプションの生成方法、装置、デバイスおよび記憶媒体に関する。
コンピュータデバイスによって実行されるビデオキャプション生成方法であって、
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得るステップと、
ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用してターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るステップと、
ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第2選択確率を得るステップであって、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報に含まれ、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものであるステップと、
第1選択確率と第2選択確率とに基づいて、候補ワードにおける、復号されたワードを決定するステップと、
各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成するステップと、
を含む方法。
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得るために使用される符号化モジュールと、
ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用してターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るために使用される第1復号モジュールと、
ビデオキャプション生成モデルの補助デコーダによってターゲット視覚的特徴を復号し、各候補ワードに対応する第2選択確率を得るために使用される第2復号モジュールであって、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものである第2復号モジュールと、
第1選択確率と第2選択確率とに基づいて、候補ワード中における、復号されたワードを決定するために使用される第1決定モジュールと、
各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成するために使用される第1生成モジュールと、
を含む装置。
メモリには、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセットまたはコンピュータ読み取り可能な命令セットは、1つまたは複数のプロセッサによってロードして実行されて、上記の態様に記載のビデオキャプション生成方法を実現するコンピュータデバイス。
少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセットまたはコンピュータ読み取り可能な命令セットは、1つまたは複数のプロセッサによってロードして実行されて、上記の態様に記載のビデオキャプション生成方法を実現するコンピュータ読み取り可能な記憶媒体。
コンピュータ上で実行されると、上記の態様に記載ビデオキャプション生成方法をコンピュータに実行させるコンピュータプログラム製品。
ステップ501で、ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得る。
ステップ701で、エンコーダによってターゲットビデオを符号化し、ターゲットビデオの2次元視覚的特徴および3次元視覚的特徴を取得し、前記2次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、前記3次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものである。
一、t回目の復号を行う際に、t-1回目の復号によって得られた、t-1番目の復号されたワードおよびt-1番目の隠れ状態を取得し、t-1番目の隠れ状態は、基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態であり、tは、2以上の整数である。
ステップ705Aで、ターゲット視覚的特徴およびt-1番目の隠れ状態に基づいて、t回目の復号を行う際のターゲット視覚的コンテキスト情報を生成する。
ステップ1101で、各候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、候補ワードに対応するI個の関連ビデオを決定し、関連ビデオのサンプルビデオキャプションには、候補ワードが含まれており、Iは、1以上の整数である。
一、基礎デコーダによって、候補ワードに対する、関連ビデオにおける各視覚的特徴の特徴重みを取得し、ここで、各特徴重みの合計は、1である。
ビデオキャプション生成モデルのエンコーダによって、ターゲットビデオを符号化し、ターゲットビデオのターゲット視覚的特徴を得るために使用される符号化モジュール1301と、
ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを採用してターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るために使用される第1復号モジュール1302と、
ビデオキャプション生成モデルの補助デコーダによって、ターゲット視覚的特徴を復号し、各候補ワードに対応する第2選択確率を得るために使用される第2復号モジュール1303であって、補助デコーダのメモリ構造には、各候補ワードに対応する参照の視覚的コンテキスト情報が含まれており、参照の視覚的コンテキスト情報は、候補ワードに対応する関連ビデオに基づいて生成されるものである第2復号モジュール1303と、
第1選択確率と第2選択確率とに基づいて、候補ワードにおける復号されたワードを決定するために使用される第1決定モジュール1304と、
各復号されたワードに基づいて、ターゲットビデオに対応するビデオキャプションを生成するために使用される第1生成モジュール1305と、を含む。
t回目の復号を実行する場合、t-1回目の復号によって得られた、t-1番目の復号されたワードおよびt-1回目の隠れ状態を取得するために使用される第1取得ユニットであって、t-1回目の隠れ状態は、基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態であり、tは、2以上の整数である第1取得ユニットと、
t-1番目の復号されたワード、t-1番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、候補ワードの第2選択確率を決定するために使用される第1決定ユニットと、を含む。
ターゲット視覚的特徴とt-1番目の隠れ状態とに基づいて、t回目の復号時のターゲット視覚的コンテキスト情報を生成することと、
ターゲット視覚的コンテキスト情報と参照の視覚的コンテキスト情報とに基づいて、候補ワードの第1マッチング度を決定することと、
メモリ構造における、候補ワードに対応する第1ワード特徴ベクトルおよびt-1番目の復号されたワードの第2ワード特徴ベクトルを取得することと、
第1ワード特徴ベクトルと第2ワード特徴ベクトルとに基づいて、候補ワードの第2マッチング度を決定することと、
第1マッチング度と第2マッチング度とに基づいて、候補ワードの第2選択確率を決定することと、のために使用される。
補助情報、t-1番目の復号されたワード、t-1番目の隠れ状態、ターゲット視覚的特徴、および候補ワードに対応する参照の視覚的コンテキスト情報に基づいて、候補ワードの第2選択確率を決定することに使用される。
各候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、候補ワードに対応するI個の関連ビデオを決定するために使用される第2決定モジュールであって、関連ビデオのサンプルビデオキャプションには、候補ワードが含まれており、Iは、1以上の整数である第2決定モジュールと、
各関連ビデオに対して、関連ビデオにおけるk個のキー視覚的特徴を決定するために使用される第3決定モジュールであって、キー視覚的特徴と候補ワードとの間のマッチング度は、関連ビデオにおける、非キー視覚的特徴と候補ワードとの間のマッチング度よりも高くなり、kは、1以上の整数である第3決定モジュールと、
I個の関連ビデオに対応する各キー視覚的特徴に基づいて、候補ワードに対応する参照の視覚的コンテキスト情報を生成するために使用される第2生成モジュールと、
各候補ワードに対応する参照の視覚的コンテキスト情報をメモリ構造に記憶するために使用される記憶モジュールと、を含む。
基礎デコーダによって、候補ワードに対する関連ビデオにおける各視覚的特徴の特徴重みを取得するために使用される取得ユニットであって、各特徴重みの合計は1である取得ユニットと、
最初のk個の特徴重みに対応する視覚的特徴をキー視覚的特徴として決定するために使用される第2決定ユニットと、を含む。
第1選択確率および第1選択確率に対応する第1重みと、第2選択確率および第2選択確率に対応する第2重みとに基づいて、各候補ワードのターゲット選択確率を計算するために使用される計算ユニットと、
最も高いターゲット選択確率に対応する候補ワードを復号されたワードとして決定するために使用される第3決定ユニットと、を含む。
エンコーダによってターゲットビデオを符号化し、ターゲットビデオの2次元視覚的特徴および3次元視覚的特徴を取得するために使用される符号化ユニットであって、2次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、3次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものである符号化ユニットと、
2次元視覚的特徴と3次元視覚的特徴とを同一の特徴次元に変換して、ターゲット視覚的特徴を得るために使用される変換ユニットと、を含む。
1302 第1復号モジュール
1303 第2復号モジュール
1304 第1決定モジュール
1305 第1生成モジュール
1401 中央処理ユニット
1402 ランダムアクセスメモリ
1403 読み出し専用メモリ
1404 システムメモリ
1405 システムバス
1406 入力/出力システム
1407 大容量記憶デバイス
1408 ディスプレイ
1409 入力デバイス
1410 入力/出力コントローラ
1411 ネットワークインターフェイスユニット
1412 ネットワーク
1413 オペレーティングシステム
1414 アプリケーション
1415 他のプログラムモジュール
Claims (20)
- コンピュータデバイスによって実行されるビデオキャプション生成方法であって、
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、前記ターゲットビデオのターゲット視覚的特徴を得るステップと、
前記ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用して前記ターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るステップと、
前記ビデオキャプション生成モデルの補助デコーダによって前記ターゲット視覚的特徴を復号し、各前記候補ワードに対応する第2選択確率を得るステップであって、前記補助デコーダのメモリ構造には、各前記候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、前記参照の視覚的コンテキスト情報は、前記候補ワードに対応する関連ビデオに基づいて生成されるものであるステップと、
前記第1選択確率と前記第2選択確率とに基づいて、前記候補ワードにおける、復号されたワードを決定するステップと、
各前記復号されたワードに基づいて、前記ターゲットビデオに対応するビデオキャプションを生成するステップと、
を含むことを特徴とするビデオキャプション生成方法。 - 前記ビデオキャプション生成モデルの補助デコーダによって前記ターゲット視覚的特徴を復号し、各前記候補ワードに対応する第2選択確率を得る前記ステップは、
t回目の復号を行う際に、t-1回目の復号によって得られた、t-1番目の復号されたワードとt-1番目の隠れ状態とを取得するステップであって、前記t-1番目の隠れ状態は、前記基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態であって、tは、2以上の整数であるステップと、
前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、補助デコーダによって前記候補ワードの前記第2選択確率を決定するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第2選択確率を決定する前記ステップは、
前記ターゲット視覚的特徴と前記t-1番目の隠れ状態とに基づいて、t回目の復号を行う際のターゲット視覚的コンテキスト情報を生成するステップと、
前記ターゲット視覚的コンテキスト情報と前記参照の視覚的コンテキスト情報とに基づいて、前記候補ワードの第1マッチング度を決定するステップと、
前記メモリ構造における前記候補ワードに対応する第1ワード特徴ベクトルと、前記t-1番目の復号されたワードの第2ワード特徴ベクトルとを取得するステップと、
前記第1ワード特徴ベクトルと前記第2ワード特徴ベクトルとに基づいて、前記候補ワードの第2マッチング度を決定するステップと、
前記第1マッチング度と前記第2マッチング度とに基づいて、前記候補ワードの前記第2選択確率を決定するステップと、を含む、
ことを特徴とする請求項2に記載の方法。 - 前記ターゲット視覚的特徴と前記t-1番目の隠れ状態とに基づいて、t回目の復号を行う際のターゲット視覚的コンテキスト情報を生成する前記ステップは、
前記ターゲット視覚的特徴と前記t-1番目の隠れ状態とに基づいて、t回目の復号を行う際の2次元視覚的コンテキスト情報および3次元視覚的コンテキスト情報を得るステップと、
前記2次元視覚的コンテキスト情報と前記3次元視覚的コンテキスト情報とを融合して、t回目の復号を行う際のターゲット視覚的コンテキスト情報を得るステップと、を含む、
ことを特徴とする請求項3に記載の方法。 - 前記メモリ構造には、さらに、各前記候補ワードに対応する補助情報が含まれ、
前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第2選択確率を決定する前記ステップは、
前記補助情報、前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第2選択確率を決定するステップ、を含む、
ことを特徴とする請求項2に記載の方法。 - 各前記候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、前記候補ワードに対応するI個の前記関連ビデオを決定するステップであって、前記関連ビデオの前記サンプルビデオキャプションには、前記候補ワードが含まれ、Iは、1以上の整数であるステップと、
各前記関連ビデオに対して、前記関連ビデオにおけるk個のキー視覚的特徴を決定するステップであって、前記キー視覚的特徴と前記候補ワードとの間のマッチング度は、前記関連ビデオにおける非キー視覚的特徴と前記候補ワードとの間のマッチング度よりも高くなり、kは、1以上の整数であるステップと、
I個の前記関連ビデオに対応する各前記キー視覚的特徴に基づいて、前記候補ワードに対応する前記参照の視覚的コンテキスト情報を生成するステップと、
各前記候補ワードに対応する前記参照の視覚的コンテキスト情報を前記メモリ構造に記憶するステップと、を含む、
ことを特徴とする請求項1~5のいずれか1項に記載の方法。 - 前記関連ビデオにおけるk個のキー視覚的特徴を決定する前記ステップは、
前記基礎デコーダによって、前記候補ワードに対する、前記関連ビデオにおける各視覚的特徴の特徴重みを取得するステップであって、各特徴重みの合計は1であるステップと、
最初のk個の前記特徴重みに対応する前記視覚的特徴を前記キー視覚的特徴として決定するステップと、を含む、
ことを特徴とする請求項6に記載の方法。 - 前記第1選択確率と前記第2選択確率とに基づいて、前記候補ワードにおける、復号されたワードを決定する前記ステップは、
前記第1選択確率および前記第1選択確率に対応する第1重みと、前記第2選択確率および前記第2選択確率に対応する第2重みとに基づいて、各前記候補ワードのターゲット選択確率を計算するステップと、
最も高いターゲット選択確率に対応する前記候補ワードを前記復号されたワードとして決定するステップと、を含む、
ことを特徴とする請求項1~5のいずれか1項に記載の方法。 - 前記ビデオキャプション生成モデルのエンコーダによって、ターゲットビデオを符号化し、前記ターゲットビデオのターゲット視覚的特徴を得る前記ステップは、
前記エンコーダによって前記ターゲットビデオを符号化し、2次元視覚的特徴と3次元視覚的特徴とを得るステップであって、前記2次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、前記3次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものであるステップと、
前記2次元視覚的特徴と前記3次元視覚的特徴とを同一の特徴次元に変換して、前記ターゲット視覚的特徴を得るステップと、を含む、
ことを特徴とする請求項1~5のいずれか1項に記載の方法。 - コンピュータデバイスに配置されるビデオキャプション生成装置であって、
ビデオキャプション生成モデルのエンコーダによってターゲットビデオを符号化し、前記ターゲットビデオのターゲット視覚的特徴を得るために使用される符号化モジュールと、
前記ビデオキャプション生成モデルの基礎デコーダによって、アテンションメカニズムを使用して前記ターゲット視覚的特徴を復号し、各候補ワードに対応する第1選択確率を得るために使用される第1復号モジュールと、
前記ビデオキャプション生成モデルの補助デコーダによって前記ターゲット視覚的特徴を復号し、各前記候補ワードに対応する第2選択確率を得るために使用される第2復号モジュールであって、前記補助デコーダのメモリ構造には、各前記候補ワードに対応する参照の視覚的コンテキスト情報が含まれ、前記参照の視覚的コンテキスト情報は、前記候補ワードに対応する関連ビデオに基づいて生成されるものである第2復号モジュールと、
前記第1選択確率と前記第2選択確率とに基づいて、前記候補ワードにおける、復号されたワードを決定するために使用される第1決定モジュールと、
各前記復号されたワードに基づいて、前記ターゲットビデオに対応するビデオキャプションを生成するために使用される第1生成モジュールと、
を含むことを特徴とするビデオキャプション生成装置。 - 前記第2復号モジュールは、
t回目の復号を行う際に、t-1回目の復号によって得られた、t-1番目の復号されたワードとt-1番目の隠れ状態とを取得するために使用される第1取得ユニットであって、前記t-1番目の隠れ状態は、前記基礎デコーダがt-1回目の復号を行う際に出力した隠れ状態であって、tは、2以上の整数である第1取得ユニットと、
前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、補助デコーダによって前記候補ワードの前記第2選択確率を決定するために使用される第1決定ユニットと、を含む、
ことを特徴とする請求項10に記載の装置。 - 前記第1決定ユニットは、
前記ターゲット視覚的特徴と前記第t-1の隠れ状態とに基づいて、t回目の復号を行う際のターゲット視覚的コンテキスト情報を生成することと、
前記ターゲット視覚的コンテキスト情報と前記参照の視覚的コンテキスト情報とに基づいて、前記候補ワードの第1マッチング度を決定することと、
前記メモリ構造における前記候補ワードに対応する第1ワード特徴ベクトルと、前記t-1番目の復号されたワードの第2ワード特徴ベクトルとを取得することと、
前記第1ワード特徴ベクトルと前記第2ワード特徴ベクトルとに基づいて、前記候補ワードの第2マッチング度を決定することと、
前記第1マッチング度と前記第2マッチング度とに基づいて、前記候補ワードの前記第2選択確率を決定することと、のために使用される、
ことを特徴とする請求項11に記載の装置。 - 前記第1決定ユニットは、さらに、
前記ターゲット視覚的特徴と前記t-1番目の隠れ状態とに基づいて、t回目の復号を行う際の2次元視覚的コンテキスト情報および3次元視覚的コンテキスト情報を得ることと、
前記2次元視覚的コンテキスト情報と前記3次元視覚的コンテキスト情報とを融合して、t回目の復号を行う際のターゲット視覚的コンテキスト情報を得ることと、のために使用される、
ことを特徴とする請求項11に記載の装置。 - 前記メモリ構造には、さらに、各前記候補ワードに対応する補助情報が含まれ、
前記第1決定ユニットは、
前記補助情報、前記t-1番目の復号されたワード、前記t-1番目の隠れ状態、前記ターゲット視覚的特徴、および前記候補ワードに対応する前記参照の視覚的コンテキスト情報に基づいて、前記候補ワードの前記第2選択確率を決定するために使用される、
ことを特徴とする請求項11に記載の装置。 - 各前記候補ワードに対して、サンプルビデオに対応するサンプルビデオキャプションに基づいて、前記候補ワードに対応するI個の前記関連ビデオを決定するために使用される第2決定モジュールであって、前記関連ビデオの前記サンプルビデオキャプションには、前記候補ワードが含まれ、Iは、1以上の整数である第2決定モジュールと、
各前記関連ビデオに対して、前記関連ビデオにおけるk個のキー視覚的特徴を決定するために使用される第3決定モジュールであって、前記キー視覚的特徴と前記候補ワードとの間のマッチング度は、前記関連ビデオ中の非キー視覚的特徴と前記候補ワードとの間のマッチング度よりも高くなり、kは、1以上の整数である第3決定モジュールと、
I個の前記関連ビデオに対応する各前記キー視覚的特徴に基づいて、前記候補ワードに対応する前記参照の視覚的コンテキスト情報を生成するために使用される第2生成モジュールと、
各前記候補ワードに対応する前記参照の視覚的コンテキスト情報を前記メモリ構造に記憶するために使用される記憶モジュールと、を含む、
ことを特徴とする請求項10~14のいずれか1項に記載の装置。 - 前記第3決定モジュールは、
前記基礎デコーダによって、前記候補ワードに対する、前記関連ビデオにおける各視覚的特徴の特徴重みを取得するために使用される取得ユニットであって、各特徴重みの合計は1である取得ユニットと、
最初のk個の前記特徴重みに対応する前記視覚的特徴を前記キー視覚的特徴として決定するために使用される第2決定ユニットと、を含む、
ことを特徴とする請求項15に記載の装置。 - 前記第1決定モジュールは、
前記第1選択確率および前記第1選択確率に対応する第1重みと、前記第2選択確率および前記第2選択確率に対応する第2重みとに基づいて、各前記候補ワードのターゲット選択確率を計算するために使用される計算ユニットと、
最も高いターゲット選択確率に対応する前記候補ワードを前記復号されたワードとして決定するために使用される第3決定ユニットと、を含む、
ことを特徴とする請求項10~14のいずれか1項に記載の装置。 - 前記符号化モジュールは、
前記エンコーダによって前記ターゲットビデオを符号化し、2次元視覚的特徴と3次元視覚的特徴とを得る符号化ユニットであって、前記2次元視覚的特徴は、単一フレーム画像の特徴を示すために使用されるものであり、前記3次元視覚的特徴は、連続する画像フレームの時系列特徴を示すために使用されるものである符号化ユニットと、
前記2次元視覚的特徴と前記3次元視覚的特徴とを同一の特徴次元に変換して、前記ターゲット視覚的特徴を得るために使用される変換ユニット、とを含む、
ことを特徴とする請求項10~14のいずれか1項に記載の装置。 - 1つまたは複数のプロセッサと、メモリとを含むコンピュータデバイスであって、
前記メモリには、少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されており、前記少なくとも1つのコンピュータ読み取り可能な命令、前記少なくとも1つのプログラム、前記コードセットまたはコンピュータ読み取り可能な命令セットは、前記1つまたは複数のプロセッサによってロードして実行されて、請求項1~9のいずれかに記載のビデオキャプション生成方法を実現する、
ことを特徴とするコンピュータデバイス。 - 少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、コードセット、またはコンピュータ読み取り可能な命令セットが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記少なくとも1つのコンピュータ読み取り可能な命令、少なくとも1つのプログラム、前記コードセットまたはコンピュータ読み取り可能な命令セットは、1つまたは複数のプロセッサによってロードして実行されて、請求項1~9のいずれかに記載のビデオキャプション生成方法を実現する、
ことを特徴とする1つまたは複数のコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910325193.0A CN109874029B (zh) | 2019-04-22 | 2019-04-22 | 视频描述生成方法、装置、设备及存储介质 |
CN201910325193.0 | 2019-04-22 | ||
PCT/CN2020/081721 WO2020215988A1 (zh) | 2019-04-22 | 2020-03-27 | 视频描述生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022509299A true JP2022509299A (ja) | 2022-01-20 |
JP7179183B2 JP7179183B2 (ja) | 2022-11-28 |
Family
ID=66922965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021531058A Active JP7179183B2 (ja) | 2019-04-22 | 2020-03-27 | ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11743551B2 (ja) |
EP (1) | EP3962097A4 (ja) |
JP (1) | JP7179183B2 (ja) |
KR (1) | KR102477795B1 (ja) |
CN (1) | CN109874029B (ja) |
WO (1) | WO2020215988A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109874029B (zh) * | 2019-04-22 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
CN110263218B (zh) * | 2019-06-21 | 2022-02-25 | 北京百度网讯科技有限公司 | 视频描述文本生成方法、装置、设备和介质 |
CN110891201B (zh) * | 2019-11-07 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、服务器和存储介质 |
CN111860597B (zh) * | 2020-06-17 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 一种视频信息处理方法、装置、电子设备及存储介质 |
CN112528883A (zh) * | 2020-12-15 | 2021-03-19 | 杭州义顺科技有限公司 | 一种基于反思网络的教学场景视频描述生成方法 |
CN112580570B (zh) * | 2020-12-25 | 2024-06-21 | 南通大学 | 人体姿态图像的关键点检测方法 |
CN113569068B (zh) * | 2021-01-19 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 描述内容生成方法、视觉内容的编码、解码方法、装置 |
CN113099228B (zh) * | 2021-04-30 | 2024-04-05 | 中南大学 | 一种视频编解码方法及系统 |
CN113343986B (zh) * | 2021-06-29 | 2023-08-25 | 北京奇艺世纪科技有限公司 | 字幕时间区间确定方法、装置、电子设备及可读存储介质 |
CN113596557B (zh) * | 2021-07-08 | 2023-03-21 | 大连三通科技发展有限公司 | 一种视频生成方法及装置 |
CN113673376B (zh) * | 2021-08-03 | 2023-09-01 | 北京奇艺世纪科技有限公司 | 弹幕生成方法、装置、计算机设备和存储介质 |
CN113792166B (zh) * | 2021-08-18 | 2023-04-07 | 北京达佳互联信息技术有限公司 | 信息获取方法、装置、电子设备及存储介质 |
CN113810730B (zh) * | 2021-09-17 | 2023-08-01 | 咪咕数字传媒有限公司 | 基于视频的实时文本生成方法、装置及计算设备 |
CN114422841B (zh) * | 2021-12-17 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 字幕生成方法、装置、电子设备及存储介质 |
CN114501064B (zh) * | 2022-01-29 | 2023-07-14 | 北京有竹居网络技术有限公司 | 一种视频生成方法、装置、设备、介质及产品 |
CN116166827B (zh) * | 2023-04-24 | 2023-12-15 | 北京百度网讯科技有限公司 | 语义标签抽取模型的训练和语义标签的抽取方法及其装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018101317A (ja) * | 2016-12-21 | 2018-06-28 | ホーチキ株式会社 | 異常監視システム |
JP2019008778A (ja) * | 2017-05-02 | 2019-01-17 | ダッソー システムズDassault Systemes | 画像の領域のキャプション付加 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104661031B (zh) * | 2015-02-16 | 2017-12-22 | 华为技术有限公司 | 用于视频图像编码和解码的方法、编码设备和解码设备 |
US10303768B2 (en) * | 2015-05-04 | 2019-05-28 | Sri International | Exploiting multi-modal affect and semantics to assess the persuasiveness of a video |
US11409791B2 (en) * | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US10402658B2 (en) * | 2016-11-03 | 2019-09-03 | Nec Corporation | Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation |
CN108062505B (zh) * | 2016-11-09 | 2022-03-18 | 微软技术许可有限责任公司 | 用于基于神经网络的动作检测的方法和设备 |
US10565305B2 (en) * | 2016-11-18 | 2020-02-18 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
US10592751B2 (en) * | 2017-02-03 | 2020-03-17 | Fuji Xerox Co., Ltd. | Method and system to generate targeted captions and summarize long, continuous media files |
CN108509411B (zh) | 2017-10-10 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 语义分析方法和装置 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108388900B (zh) * | 2018-02-05 | 2021-06-08 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN108419094B (zh) * | 2018-03-05 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 视频处理方法、视频检索方法、装置、介质及服务器 |
US10909157B2 (en) * | 2018-05-22 | 2021-02-02 | Salesforce.Com, Inc. | Abstraction of text summarization |
CN109344288B (zh) * | 2018-09-19 | 2021-09-24 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109359214A (zh) * | 2018-10-15 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频描述生成方法、存储介质及终端设备 |
US10831834B2 (en) * | 2018-11-27 | 2020-11-10 | Sap Se | Unsupervised document summarization by attention and reconstruction |
EP3892005A4 (en) * | 2019-03-21 | 2022-07-06 | Samsung Electronics Co., Ltd. | METHOD, DEVICE, DEVICE AND MEDIA FOR GENERATION OF SUBTITLING INFORMATION FROM MULTIMEDIA DATA |
CN111836111A (zh) * | 2019-04-17 | 2020-10-27 | 微软技术许可有限责任公司 | 生成弹幕的技术 |
CN109874029B (zh) * | 2019-04-22 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
-
2019
- 2019-04-22 CN CN201910325193.0A patent/CN109874029B/zh active Active
-
2020
- 2020-03-27 JP JP2021531058A patent/JP7179183B2/ja active Active
- 2020-03-27 KR KR1020217020589A patent/KR102477795B1/ko active IP Right Grant
- 2020-03-27 EP EP20795471.0A patent/EP3962097A4/en active Pending
- 2020-03-27 WO PCT/CN2020/081721 patent/WO2020215988A1/zh unknown
-
2021
- 2021-05-24 US US17/328,970 patent/US11743551B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018101317A (ja) * | 2016-12-21 | 2018-06-28 | ホーチキ株式会社 | 異常監視システム |
JP2019008778A (ja) * | 2017-05-02 | 2019-01-17 | ダッソー システムズDassault Systemes | 画像の領域のキャプション付加 |
Non-Patent Citations (3)
Title |
---|
SHAGAN SAH ET AL.: ""Semantic Text Summarization of Long Videos"", 2017 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV), JPN6022023054, 24 March 2017 (2017-03-24), US, pages 989 - 997, XP033096883, ISSN: 0004896787, DOI: 10.1109/WACV.2017.115 * |
SUBHASHINI VENUGOPALAN ET AL.: ""Sequence to Sequence -- Video to Text"", 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6022023057, 7 December 2015 (2015-12-07), US, pages 4534 - 4542, XP032866820, ISSN: 0004896786, DOI: 10.1109/ICCV.2015.515 * |
YANLONG HAO ET AL.: ""Image Caption via Visual Attention Switch on DenseNet"", 2018 INTERNATIONAL CONFERENCE ON NETWORK INFRASTRUCTURE AND DIGITAL CONTENT (IC-NIDC), JPN6022023053, 22 August 2018 (2018-08-22), US, pages 334 - 338, XP033441762, ISSN: 0004896788, DOI: 10.1109/ICNIDC.2018.8525732 * |
Also Published As
Publication number | Publication date |
---|---|
EP3962097A4 (en) | 2022-07-13 |
US11743551B2 (en) | 2023-08-29 |
JP7179183B2 (ja) | 2022-11-28 |
CN109874029B (zh) | 2021-02-12 |
EP3962097A1 (en) | 2022-03-02 |
KR20210095208A (ko) | 2021-07-30 |
CN109874029A (zh) | 2019-06-11 |
KR102477795B1 (ko) | 2022-12-14 |
US20210281774A1 (en) | 2021-09-09 |
WO2020215988A1 (zh) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022509299A (ja) | ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム | |
Pei et al. | Memory-attended recurrent network for video captioning | |
CN111488807B (zh) | 基于图卷积网络的视频描述生成系统 | |
CN108986186B (zh) | 文字转化视频的方法和系统 | |
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
WO2019114695A1 (zh) | 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质 | |
CN107861938B (zh) | 一种poi文案生成方法及装置,电子设备 | |
US20210224601A1 (en) | Video sequence selection method, computer device, and storage medium | |
CN111079601A (zh) | 基于多模态注意力机制的视频内容描述方法、系统、装置 | |
EP3885966B1 (en) | Method and device for generating natural language description information | |
WO2022033208A1 (zh) | 视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质 | |
Li et al. | Residual attention-based LSTM for video captioning | |
WO2023065619A1 (zh) | 多维度细粒度动态情感分析方法及系统 | |
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN114390218B (zh) | 视频生成方法、装置、计算机设备和存储介质 | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
JP2015162244A (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
CN113870395A (zh) | 动画视频生成方法、装置、设备及存储介质 | |
US20240062744A1 (en) | Real-time voice recognition method, model training method, apparatuses, device, and storage medium | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
Bie et al. | Renaissance: A survey into ai text-to-image generation in the era of large model | |
CN117093739A (zh) | 图像生成以及图文对齐方法、装置、终端设备及存储介质 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
Rastgoo et al. | A survey on recent advances in Sign Language Production | |
CN116958343A (zh) | 面部动画生成方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210528 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7179183 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |