JP7299282B2 - ビデオ処理方法、装置、電子デバイス、記憶媒体、及びプログラム - Google Patents
ビデオ処理方法、装置、電子デバイス、記憶媒体、及びプログラム Download PDFInfo
- Publication number
- JP7299282B2 JP7299282B2 JP2021166004A JP2021166004A JP7299282B2 JP 7299282 B2 JP7299282 B2 JP 7299282B2 JP 2021166004 A JP2021166004 A JP 2021166004A JP 2021166004 A JP2021166004 A JP 2021166004A JP 7299282 B2 JP7299282 B2 JP 7299282B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- video
- video frames
- neural network
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 21
- 238000003860 storage Methods 0.000 title claims description 10
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 230000004927 fusion Effects 0.000 claims description 55
- 230000011218 segmentation Effects 0.000 claims description 54
- 238000003062 neural network model Methods 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 17
- 230000007704 transition Effects 0.000 claims description 9
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Description
複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することと、
前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得することと、
前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得することとを含むビデオ処理方法が提供される。
複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得するための分割モジュールと、
前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得するための符号化モジュールと、
前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得するためのビデオ処理モジュールとを備えるビデオ処理装置が提供される。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子デバイスが提供される。
本開示の実施形態を応用する1つの処理流れは、以下の内容を含む。
ビデオ分割モジュールにより、ビデオセグメントのきめ細かい分割を行うことができる。きめ細かい分割の原則は、主に、次の内容を含む。1)色調に基づく分割であり、2つのフレームのグレースケール差を直接に計算することができ、合計するフレーム差が設定されたある閾値より大きい場合、シーンの急変がある。2)エッジに基づく分割であり、エッジ特徴がシーンの分割に用いられることができ、まず、フレーム間の全体的な変位を計算し、これに基づいて位置合わせを行い、次に、エッジの数及び位置を計算する。3)ブロックマッチングに基づく分割であり、非圧縮ビデオに用いられるブロックマッチングシーンを例とする場合、動きの滑らかさの度量を用いてシーンの変化を検出することができる。4)統計的決定に基づく分割であり、動き補償特徴、適応閾値方式、ビデオシーケンスの時系列シーン急変モード及びシーン長さ分布情報を用い、統計的決定モデルを確立し、当該統計的決定モデルが推定した基準により、シーン検出エラー率を最小限に抑えることができる。5)双閾値の比較に基づく分割であり、双閾値(例えば、Tb、Ts)を設定することができる。フレーム差がTbより大きい場合、シーンの急変があるが、フレーム差がTbより小さく且つTsより大きい場合、シーンの段階的な変化がある。接続するフレームのフレーム差がTsを超え始めると、このフレームは、シーンの段階的な変化の開始フレームと呼ばれ、これによって類推する。
図4は、本開示の実施形態による、マルチモーダル情報に基づいて特徴符号化を実現する模式図である。マルチモーダル特徴符号化は、主に、複数のエキスパートモデルにより若干のエキスパートベクトル(experts embedding)を取得し、これらのexperts embeddingによりビデオ全体のマルチモーダル情報の描画及び特徴抽出を完了する。図4に示すように、以下の内容を含む。
Ω(υ)は、ビデオフレーム特徴符号化の後のベクトル出力を表す。
図5は、本開示の実施形態による類似度のマッチングの模式図である。類似度マッチングモジュールにより、2つの隣接するビデオセグメントの類似度の計算を主に完成し、類似度マッチングは、上下対称するモジュールの設計を採用する。複数のエキスパートモデルembedingの類似性を計算し、重み計算(重みは、注意機構により自動的に学習することができる)を用いて類似度の採点を取得することにより、類似度のマッチング結果を取得する。また、損失関数は、双方向の最大結合ランキング損失関数(bi-directional max-margin ranking loss)を採用でき、式(6)に示されている。
図8は、本開示の実施形態による例示するビデオ処理方法を実現するための電子デイバスのブロック図である。当該デバイスは、上述した展開デバイス又はエージェントデバイスであっても良い。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータのような様々な形態のデジタルコンピュータ及び他の好適なコンピュータを表すことを目的としている。また、電子デバイスは、また、様々な形態のモバイルデバイス、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似のコンピューティングデバイスを表すことができる。本明細書に記載のコンポーネント、それらの接続及び関係、ならびにそれらの機能は、例としてのみ意図されており、本明細書に記載及び/又は要求される本開示の実現を限定することを意図するものではない。
Claims (13)
- 複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することと、
前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得することと、
前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得することと、
予めトレーニングされた第1ニューラルネットワークモデルにより、前記複数の第2ビデオフレームから前記マルチモーダル情報を識別することと、
第2ニューラルネットワークモデルにより、前記マルチモーダル情報の中の各種類の情報に対して区別を行うことと、
第3ニューラルネットワークモデルにより、前記マルチモーダル情報に関する時系列情報に対して識別を行うことと、
前記第1ニューラルネットワークモデル、前記第2ニューラルネットワークモデル、前記第3ニューラルネットワークモデルの出力結果に対して融合を行い、前記特徴融合情報を取得することと、を含む
ことを特徴とするビデオ処理方法。 - 複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することは、
シーン及び色彩転換を特徴付けるためのパラメータに基づき、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することを含む
ことを特徴とする請求項1に記載のビデオ処理方法。 - 前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得することは、
前記マルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴抽出及び特徴融合の処理を行い、前記特徴融合情報を取得することを含む
ことを特徴とする請求項1に記載のビデオ処理方法。 - 前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得することは、
前記特徴融合情報に基づき、前記複数の第2ビデオフレームの類似度に対して採点し、採点結果を前記類似度のマッチング結果とすることと、
前記類似度のマッチング結果として、同じイベントコンテンツに関する、隣接するビデオフレームが類似している場合、前記複数の第2ビデオフレームのそれぞれに対して、前記隣接するビデオフレームに対する結合がされるまで、前記隣接するビデオフレームに対してビデオ結合を行い、ビデオ結合結果に基づいて前記ターゲットビデオを取得することとを含む
ことを特徴とする請求項1に記載のビデオ処理方法。 - 予めトレーニングされた第1ニューラルネットワークモデルにより、前記複数の第2ビデオフレームから前記マルチモーダル情報を識別することは、
前記第1ニューラルネットワークモデルの中のナレッジグラフ抽出器により、ナレッジグラフ情報を識別することと、
前記第1ニューラルネットワークモデルの中のテキスト抽出器により、テキスト情報を識別することと、
前記第1ニューラルネットワークモデルの中のオーディオ抽出器により、オーディオ情報を識別することと、
前記第1ニューラルネットワークモデルの中の色調抽出器により、色調情報を識別することと、
前記第1ニューラルネットワークモデルの中の物体抽出器により、物体情報を識別することと、
前記第1ニューラルネットワークモデルの中の動作抽出器により、動作情報を識別することとを含み、
前記マルチモーダル情報は、前記ナレッジグラフ情報、前記テキスト情報、前記オーディオ情報、前記色調情報、前記物体情報、前記動作情報の中の少なくとも1つを含む
ことを特徴とする請求項1に記載のビデオ処理方法。 - 複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得するための分割モジュールと、
前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得するための符号化モジュールと、
前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得するためのビデオ処理モジュールと、
予めトレーニングされた第1ニューラルネットワークモデルにより、前記複数の第2ビデオフレームから前記マルチモーダル情報を識別するための識別モジュールと、
第2ニューラルネットワークモデルにより、前記マルチモーダル情報の中の各種類の情報に対して区別を行い、
第3ニューラルネットワークモデルにより、前記マルチモーダル情報に関する時系列情報に対して識別を行い、
前記第1ニューラルネットワークモデル、前記第2ニューラルネットワークモデル、前記第3ニューラルネットワークモデルの出力結果に対して融合を行い、前記特徴融合情報を取得するための融合モジュールと、を備える
ことを特徴とするビデオ処理装置。 - 前記分割モジュールは、
シーン及び色彩転換を特徴付けるためのパラメータに基づき、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することに用いられる
ことを特徴とする請求項6に記載のビデオ処理装置。 - 前記符号化モジュールは、
前記マルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴抽出及び特徴融合の処理を行い、前記特徴融合情報を取得することに用いられる
ことを特徴とする請求項6に記載のビデオ処理装置。 - 前記ビデオ処理モジュールは、
前記特徴融合情報に基づき、前記複数の第2ビデオフレームの類似度に対して採点し、採点結果を前記類似度のマッチング結果とし、
前記類似度のマッチング結果として、同じイベントコンテンツに関する、隣接するビデオフレームが類似している場合、前記複数の第2ビデオフレームのそれぞれに対して、前記隣接するビデオフレームに対する結合がされるまで、前記隣接するビデオフレームに対してビデオ結合を行い、ビデオ結合の結果に基づいて前記ターゲットビデオを取得することに用いられる
ことを特徴とする請求項6に記載のビデオ処理装置。 - 前記識別モジュールは、
前記第1ニューラルネットワークモデルの中のナレッジグラフ抽出器により、ナレッジグラフ情報を識別し、
前記第1ニューラルネットワークモデルの中のテキスト抽出器により、テキスト情報を識別し、
前記第1ニューラルネットワークモデルの中のオーディオ抽出器により、オーディオ情報を識別し、
前記第1ニューラルネットワークモデルの中の色調抽出器により、色調情報を識別し、
前記第1ニューラルネットワークモデルの中の物体抽出器により、物体情報を識別し、
前記第1ニューラルネットワークモデルの中の動作抽出器により、動作情報を識別するために用いられ、
前記マルチモーダル情報は、前記ナレッジグラフ情報、前記テキスト情報、前記オーディオ情報、前記色調情報、前記物体情報、前記動作情報の中の少なくとも1つを含む
ことを特徴とする請求項6に記載のビデオ処理装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリと、を備え、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか1項に記載のビデオ処理方法を実行させる
ことを特徴とする電子デバイス。 - コンピュータに請求項1~5のいずれか1項に記載のビデオ処理方法を実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体。
- コンピュータにおいて、プロセッサにより実行されると、請求項1~5のいずれか1項に記載のビデオ処理方法を実現することを特徴とするプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011358245.3 | 2020-11-27 | ||
CN202011358245.3A CN112464814A (zh) | 2020-11-27 | 2020-11-27 | 视频处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022020647A JP2022020647A (ja) | 2022-02-01 |
JP7299282B2 true JP7299282B2 (ja) | 2023-06-27 |
Family
ID=74809546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021166004A Active JP7299282B2 (ja) | 2020-11-27 | 2021-10-08 | ビデオ処理方法、装置、電子デバイス、記憶媒体、及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US12112539B2 (ja) |
EP (1) | EP3933686A3 (ja) |
JP (1) | JP7299282B2 (ja) |
KR (1) | KR102683700B1 (ja) |
CN (1) | CN112464814A (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033662A (zh) * | 2021-03-25 | 2021-06-25 | 北京华宇信息技术有限公司 | 多视频关联方法及装置 |
CN113301382B (zh) * | 2021-05-07 | 2022-12-13 | 北京百度网讯科技有限公司 | 视频处理方法、设备、介质及程序产品 |
US11610402B2 (en) * | 2021-05-11 | 2023-03-21 | CLIPr Co. | System and method for crowdsourcing a video summary for creating an enhanced video summary |
CN113360712B (zh) * | 2021-05-21 | 2022-12-06 | 北京百度网讯科技有限公司 | 视频表示的生成方法、装置和电子设备 |
CN113177538B (zh) * | 2021-06-30 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种视频循环识别方法、装置、计算机设备及存储介质 |
CN113239184B (zh) * | 2021-07-09 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 知识库获取方法、装置、计算机设备及存储介质 |
CN113569942B (zh) * | 2021-07-26 | 2024-04-05 | 上海明略人工智能(集团)有限公司 | 短视频事件分类方法、系统、电子设备及存储介质 |
CN113747239B (zh) * | 2021-09-08 | 2023-05-05 | 北京快来文化传播集团有限公司 | 视频剪辑方法及其装置 |
WO2023068756A1 (ko) * | 2021-10-19 | 2023-04-27 | 삼성전자 주식회사 | 멀티 모달리티를 제공하는 웨어러블 디바이스 및 이의 동작 방법 |
CN114020964B (zh) * | 2021-11-15 | 2024-10-22 | 上海大学 | 一种利用记忆网络和门控循环单元实现视频摘要的方法 |
CN114186093B (zh) * | 2021-12-13 | 2023-04-28 | 北京百度网讯科技有限公司 | 多媒体数据的处理方法、装置、设备和介质 |
CN114266779A (zh) * | 2021-12-22 | 2022-04-01 | 中国建设银行股份有限公司 | 直播视频的裁剪方法以及直播视频的裁剪装置 |
KR102411095B1 (ko) * | 2021-12-30 | 2022-06-22 | 주식회사 파일러 | 광고 적합 콘텐츠 탐색 시스템 및 방법 |
CN114064967B (zh) * | 2022-01-18 | 2022-05-06 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN114419508A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 识别方法、训练方法、装置、设备及存储介质 |
KR102438743B1 (ko) * | 2022-03-02 | 2022-08-31 | 인하대학교 산학협력단 | 클라우드 서비스용 3d 매뉴얼을 2d 인터랙티브 비디오로 변환하는 방법 및 장치 |
CN114581821B (zh) * | 2022-02-23 | 2024-11-08 | 腾讯科技(深圳)有限公司 | 一种视频检测方法、系统及存储介质和服务器 |
CN114596523B (zh) * | 2022-02-23 | 2024-11-08 | 桂林电子科技大学 | 一种多特征融合的视频描述方法、装置及存储介质 |
CN114610911B (zh) * | 2022-03-04 | 2023-09-19 | 中国电子科技集团公司第十研究所 | 多模态知识本征表示学习方法、装置、设备及存储介质 |
CN114598933B (zh) * | 2022-03-16 | 2022-12-27 | 平安科技(深圳)有限公司 | 一种视频内容处理方法、系统、终端及存储介质 |
CN115499707B (zh) * | 2022-09-22 | 2024-08-06 | 上海联屏文化科技有限公司 | 视频相似度的确定方法和装置 |
CN117152650B (zh) * | 2023-04-23 | 2024-07-02 | 青岛尘元科技信息有限公司 | 海量视频的视频内容分析方法和视频事件信息网络 |
CN117278776B (zh) * | 2023-04-23 | 2024-09-03 | 青岛尘元科技信息有限公司 | 多通道视频内容实时比对方法和装置、设备及存储介质 |
CN116186330B (zh) * | 2023-04-23 | 2023-07-11 | 之江实验室 | 一种基于多模态学习的视频去重方法及装置 |
CN117132926B (zh) * | 2023-10-27 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 一种视频处理的方法、相关装置、设备以及存储介质 |
KR102744887B1 (ko) | 2024-04-01 | 2024-12-19 | 주식회사 리턴제로 | 영상데이터 분석을 통한 영상컨텐츠 자동 생성 장치 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007052395A1 (ja) | 2005-10-31 | 2007-05-10 | Sharp Kabushiki Kaisha | 視聴環境制御システム |
JP2011124681A (ja) | 2009-12-09 | 2011-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 映像編集装置,映像編集方法および映像編集プログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3358692B2 (ja) | 1995-08-02 | 2002-12-24 | 日本電信電話株式会社 | 映像ブロック分類方法及び装置 |
CN103605991A (zh) * | 2013-10-28 | 2014-02-26 | 复旦大学 | 一种视频广告的自动检测方法 |
CN104199933B (zh) * | 2014-09-04 | 2017-07-07 | 华中科技大学 | 一种多模态信息融合的足球视频事件检测与语义标注方法 |
US9436876B1 (en) * | 2014-12-19 | 2016-09-06 | Amazon Technologies, Inc. | Video segmentation techniques |
CN107589828A (zh) * | 2016-07-07 | 2018-01-16 | 深圳狗尾草智能科技有限公司 | 基于知识图谱的人机交互方法及系统 |
CN106682108B (zh) * | 2016-12-06 | 2022-07-12 | 浙江大学 | 一种基于多模态卷积神经网络的视频检索方法 |
US10628486B2 (en) * | 2017-11-15 | 2020-04-21 | Google Llc | Partitioning videos |
CN110798752B (zh) | 2018-08-03 | 2021-10-15 | 北京京东尚科信息技术有限公司 | 用于生成视频摘要的方法和系统 |
CN117880607A (zh) * | 2019-02-28 | 2024-04-12 | 斯塔特斯公司 | 可跟踪视频帧的生成方法、识别系统和介质 |
CN110704683A (zh) * | 2019-09-27 | 2020-01-17 | 深圳市商汤科技有限公司 | 音视频信息处理方法及装置、电子设备和存储介质 |
CN111428590B (zh) | 2020-03-11 | 2023-05-09 | 新华智云科技有限公司 | 一种视频聚类切分方法和系统 |
CN111783709B (zh) * | 2020-07-09 | 2022-09-06 | 中国科学技术大学 | 针对教育视频的信息预测方法及装置 |
-
2020
- 2020-11-27 CN CN202011358245.3A patent/CN112464814A/zh active Pending
-
2021
- 2021-10-06 US US17/450,158 patent/US12112539B2/en active Active
- 2021-10-08 EP EP21201637.2A patent/EP3933686A3/en active Pending
- 2021-10-08 JP JP2021166004A patent/JP7299282B2/ja active Active
- 2021-10-22 KR KR1020210142151A patent/KR102683700B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007052395A1 (ja) | 2005-10-31 | 2007-05-10 | Sharp Kabushiki Kaisha | 視聴環境制御システム |
JP2011124681A (ja) | 2009-12-09 | 2011-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 映像編集装置,映像編集方法および映像編集プログラム |
Non-Patent Citations (1)
Title |
---|
丹野 良介,マルチモーダル深層学習によるドライブレコーダーデータの分類,映像情報メディア学会誌 第74巻 第1号,日本,一般社団法人映像情報メディア学会,2020年,第74巻 第1号,p.44-p.48 |
Also Published As
Publication number | Publication date |
---|---|
KR20210134528A (ko) | 2021-11-10 |
EP3933686A3 (en) | 2022-04-27 |
JP2022020647A (ja) | 2022-02-01 |
CN112464814A (zh) | 2021-03-09 |
KR102683700B1 (ko) | 2024-07-09 |
US20220027634A1 (en) | 2022-01-27 |
EP3933686A2 (en) | 2022-01-05 |
US12112539B2 (en) | 2024-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7299282B2 (ja) | ビデオ処理方法、装置、電子デバイス、記憶媒体、及びプログラム | |
US11722727B2 (en) | Special effect processing method and apparatus for live broadcasting, and server | |
CN109117777B (zh) | 生成信息的方法和装置 | |
CN112929744B (zh) | 用于分割视频剪辑的方法、装置、设备、介质和程序产品 | |
US10168794B2 (en) | Motion-assisted visual language for human computer interfaces | |
CN109874053B (zh) | 基于视频内容理解和用户动态兴趣的短视频推荐方法 | |
CN114186069B (zh) | 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法 | |
Huang et al. | RGB-D salient object detection by a CNN with multiple layers fusion | |
WO2020092276A1 (en) | Video recognition using multiple modalities | |
CN113642536B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
WO2023071578A1 (zh) | 一种文本对齐语音的方法、装置、设备及介质 | |
CN115129934A (zh) | 一种多模态视频理解方法 | |
CN115171014A (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN113810765B (zh) | 视频处理方法、装置、设备和介质 | |
CN113360683A (zh) | 训练跨模态检索模型的方法以及跨模态检索方法和装置 | |
Sheng et al. | Multilayer deep features with multiple kernel learning for action recognition | |
CN117764115A (zh) | 多模态模型的多任务预训练方法、多模态识别方法及设备 | |
CN108733737B (zh) | 视频库的建立方法及装置 | |
CN114707591B (zh) | 数据处理方法和数据处理模型的训练方法、装置 | |
Mahmud et al. | MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers | |
Hong et al. | Advances in Multimedia Information Processing–PCM 2018: 19th Pacific-Rim Conference on Multimedia, Hefei, China, September 21-22, 2018, Proceedings, Part III | |
CN116932788A (zh) | 封面图像提取方法、装置、设备及计算机存储介质 | |
CN117676121A (zh) | 视频质量评估方法、装置、设备及计算机存储介质 | |
CN113269068A (zh) | 一种基于多模态特征调节与嵌入表示增强的手势识别方法 | |
CN114792406B (zh) | 用于生成用户生成内容的标签的方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7299282 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |