JP7299282B2 - ビデオ処理方法、装置、電子デバイス、記憶媒体、及びプログラム - Google Patents

ビデオ処理方法、装置、電子デバイス、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP7299282B2
JP7299282B2 JP2021166004A JP2021166004A JP7299282B2 JP 7299282 B2 JP7299282 B2 JP 7299282B2 JP 2021166004 A JP2021166004 A JP 2021166004A JP 2021166004 A JP2021166004 A JP 2021166004A JP 7299282 B2 JP7299282 B2 JP 7299282B2
Authority
JP
Japan
Prior art keywords
information
video
video frames
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021166004A
Other languages
English (en)
Other versions
JP2022020647A (ja
Inventor
ワン チー
フォン チーファン
ヤン フー
チャイ チュンコアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022020647A publication Critical patent/JP2022020647A/ja
Application granted granted Critical
Publication of JP7299282B2 publication Critical patent/JP7299282B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本開示は、人工知能分野に関し、特に、ディープラーニング、モデルトレーニング、ナレッジグラフ及びビデオ処理等の分野に関する。
ポータブル機器、携帯電話端末等の電子デバイスは、以前よりもっとインテリジェントになり、チップの分析能力がより強く、特に、ビデオ情報の分析、画面のレンダリング等は、以前より高速且つ鮮明になり、ビデオ品質に対するユーザの要求が以前より高く、特に、高適時性シナリオ(例えば、軍事パレードシナリオ、スポーツイベント、リアルタイムビデオ生中継等)の場合、各ビデオの瞬間の素晴らしい画面に対し、ユーザは、キャプチャしたいと希望しているので、より正確で且つ鮮明なビデオ画面が必要になっている。
ビデオ処理においては、ビデオの分割を例とすると、手動の方式でビデオの分割を実現することができるが、多くの人件費を消費するだけではなく、上述した高適時性シナリオの要求を満たすことができない。一方、非手動での幾つかのビデオ分割方式では、ビデオフレームのコンテンツ情報(例えば、テキスト、ビデオ内の物体、動作等)を十分に理解することができず、ビデオイベントの連続性(例えば、シーン転換によるシナリオの切り替え等)も正しく制御することができないので、ビデオ画面に対する解釈の正確性が大幅に低下し、最終的なターゲットビデオにより提示されたビデオ品質の効果に影響を与えてしまう。
本開示は、ビデオ処理方法、装置、電子デバイス及び記憶媒体を提供する。
本開示の1つの側面では、
複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することと、
前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得することと、
前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得することとを含むビデオ処理方法が提供される。
本開示のもう1つの側面では、
複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得するための分割モジュールと、
前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得するための符号化モジュールと、
前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得するためのビデオ処理モジュールとを備えるビデオ処理装置が提供される。
本開示のもう1つの側面では、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子デバイスが提供される。
ここで、前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに本開示の任意の1つの実施形態による方法を実行させる。
本開示のもう1つの側面では、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体が提供される。ここで、前記コンピュータ命令は、前記コンピュータに本開示の任意の1つの実施形態による方法を実行させることに用いられる。
本開示によれば、複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得する。前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得する。前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得する。当該マルチモーダル情報に基づいて特徴符号化を行うことにより、より多くのビデオコンテンツの詳細を含む情報を取得し、類似度に基づいてマッチングされた後、得られたターゲットビデオの精度がより高いので、ビデオ分割の正確性を高めることができる。
当該部分に記載の内容は、本開示の実施形態の肝心又は重要な特徴を示すことを意図するものではなく、本開示の範囲を制限しないことが理解されたい。本開示の他の特徴は、以下の説明により、より理解しやすくなる。
添付の図面は、本実施形態をより良く理解するために用いられ、本開示に対する限定を構成するものではない。
本開示の実施形態によるビデオ処理の高適時性シナリオの複数のビデオフレームの模式図である。 本開示の実施形態によるビデオ処理方法のフローチャート模式図である。 本開示の実施形態によるビデオ処理方法を実現するシステムモジュールのアーキテクチャ図である。 本開示の実施形態による、マルチモーダル情報に基づいて特徴符号化を実現する模式図である。 本開示の実施形態による類似度のマッチングの模式図である。 本開示の実施形態によるビデオ結合の模式図である。 本開示の実施形態によるビデオ処理装置の構成構造模式図である。 本開示の実施形態によるビデオ処理方法を実現するための電子デバイスのブロック図である。
以下、図面を参照しながら、本開示の例示的な実施形態を説明し、理解を助けるために本開示の実施形態の様々な詳細を含んでいるが、これらは、単に例示的なものとみなされるべきである。よって、当業者は、本開示の範囲及び要旨から逸脱することなく、本明細書に記載の実施形態に様々な変更及び修正を加えることができることを識別すべきである。明瞭で且つ簡潔にするために、以下の説明では、周知の機能と構造の説明を省略している。
本文における用語「及び/又は」は、関連対象の関連関係を説明するものに過ぎず、3つの関係があっても良いことを表し、例えば、A及び/又はBは、Aだけがあり、A及びBがあり、Bだけがあるという3つの場合を表すことができる。本文における用語「少なくとも1つ」は、複数の中の任意の1つ又は複数の中の少なくとも2つの任意の組み合わせを表し、例えば、A、B、Cの中の少なくとも1つを含むことは、A、B、Cからなる集合から選択された任意の1つ又は複数の元素を含むことを表すことができる。本文における用語「第1」、「第2」は、複数の類似する技術用語を指し、それらを区別するためのものであり、順序を制限する意味がなく、又は、2つだけに制限する意味がなく、例えば、第1特徴及び第2特徴は、2種類/2つの特徴を指し、第1特徴は1つ又は複数であっても良く、第2特徴も1つ又は複数であっても良い。
また、本開示をより良く説明するために、後述における具体的な実施形態においては、沢山の具体的な詳細が記載されている。当業者は、幾つかの具体的な詳細がなくても、本開示は、同様に実施することができることを理解すべきである。幾つかの実施形態においては、本開示の主旨を強調するために、当業者に周知されている方法、手段、素子及び回路に対しては詳しく説明していない。
ビデオ分割は、インターネットビデオ及びニューメディアの短いビデオコンテンツプラットフォームのニーズにより、従来のテレビメディア番組に対して行われた二次処理であり、即ち、元の完全な番組コンテンツを、ある論理的な思考又は特別のニーズに従って複数のビデオに分割するものである。インターネットビデオコンテンツの主なソースは、従来のテレビメディアの番組、様々な機関のビデオ製品、映画とテレビ会社の映画とテレビ作品を含み、これらのビデオを分割することにより、貴重な情報を深く掘り下げることができ、新たに編集された後、インターネットプロトコルテレビジョン(IPTV)、OTT、モバイルTV及びニューメディアの短いビデオプラットフォームに用いることができ、ニューメディアオーディオビジュアル番組の断片化の要求を満たすことができ、オーディオビジュアルの編集業界の1つの新しい試み及び探索となる。
従来の手動によるビデオ分割技術は、人手でビデオを編集及び分割するので、処理時間が長く、ビデオの量が多い場合、生産性の向上が遅いため、高適時性等のシナリオに応用することができず、大量の時間及び経験を消費するだけではなく、経済的コスト及び適時性の要求を満たすことができない。非機械学習の従来のビデオ分割アルゴリズムのような、非手動によるビデオ分割技術の場合、色調及びブロックマッチングに基づいてビデオ分割を行うことができるが、ピクチャー、シーンの間の視覚情報しか考慮せず、ビデオフレームのコンテンツ情報を十分に理解することができない。また、機械学習に基づくビデオ分割技術の場合、クラスタリング方法に基づいてビデオ分割(キーフレームの抽出、画像特徴の説明、クラスタリング等を含む)を行うことができるが、ビデオイベントの連続性を考慮せず、幾つかのシーン切り替えが比較的頻繁なシナリオ(図1に示す体育イベントの中の複数のビデオフレームから構成される素晴らしい瞬間等)、又は、複雑なイベントのシナリオにおいて複数のシーンの連続的な転換があるビデオの場合、ビデオ分割の効果が良くなく、ビデオ分割の正確率が低い。
本開示の実施形態では、ビデオ処理方法が提供される。図2は、本開示の実施形態によるビデオ処理方法のフローチャート模式図であり、当該方法は、ビデオ処理装置に用いることができ、例えば、当該装置は、端末、サーバ又は他の処理デバイスに展開でき、ビデオフレーム分割、ビデオフレーム特徴符号化、ビデオフレーム類似度のマッチングを実行することにより、最終的なターゲットビデオ等を取得することができる。ここで、端末は、ユーザ機器(UE、User Equipment)、モバイルデバイス、携帯電話、コードレス電話、パーソナルデジタルアシスタント(PDA、Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアラブル機器等であっても良い。幾つかの可能な実現方法においては、当該方法は、プロセッサがメモリに記憶されたコンピュータ可読命令を呼び出す方式により実現することができる。図2に示すように、ステップS101、ステップS102及びステップS103を含む。
ステップS101においては、複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得する。
ステップS102においては、前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得する。
ステップS103においては、前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得する。
ステップS101においては、シーン及び色彩転換を特徴付けるためのパラメータに基づき、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、前記複数の第2ビデオフレームを取得する。シーン及び色彩転換を特徴付けるためのパラメータは、シーンの観点からは、ビデオエッジに対する分割、ビデオの中のブロックマッチングに基づくビデオ分割、統計的決定に基づくビデオ分割及び双閾値の比較(双閾値の比較を設定することにより、シーンの急変なのか、シーンの段階的な変化なのかを区別する)に基づくビデオ分割等を含むことができる。色彩転換の観点からは、色調に基づくビデオ分割を含むことができる。
ステップS102においては、前記マルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴抽出及び特徴融合処理を行い、前記特徴融合情報を取得する。ここで、特徴融合処理は、複数のニューラルネットワークモデル、又は、多機能抽出に統合された1つのニューラルネットワークモデルをエキスパートモデルとして用いることにより、第2ビデオフレームに関するマルチモーダル情報に対してそれぞれ特徴抽出を行う。ここで、マルチモーダル情報は、ナレッジグラフ情報、テキスト情報、オーディオ情報、色調情報、物体情報、動作情報の中の少なくとも1つを含む。
ステップS103においては、前記特徴融合情報に基づき、前記複数の第2ビデオフレームの類似度に対して採点し、採点結果を前記類似度のマッチング結果とし、前記類似度のマッチング結果として、同じイベントコンテンツに関する、隣接するビデオフレームが類似している場合、前記複数の第2ビデオフレームのそれぞれに対して、前記隣接するビデオフレームに対する結合がされるまで、前記隣接するビデオフレームに対してビデオ結合を行い、ビデオ結合の結果に基づいて前記ターゲットビデオを取得する。
本開示によれば、複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得する。前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得することができる。前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得することができる。当該マルチモーダル情報に基づいて特徴符号化を行うことにより、より多くのビデオコンテンツの詳細を含む情報を取得し、類似度に基づいてマッチングされた後、得られたターゲットビデオの精度がより高いので、ビデオ分割の正確性を高めることができる。
1つの例においては、ビデオ分割モジュール、マルチモーダル特徴符号化モジュール、類似度マッチングモジュール(主に、隣接するビデオセグメントに対する類似度のマッチング)、ビデオフレームスプライシングモジュールにより、上述したステップS101~ステップS103を実現することができる。具体的には、当該ビデオ分割モジュールに入力された複数の第1ビデオフレームを取得した後、シーン及び色彩転換に従い、取得された複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することができる。当該マルチモーダル特徴符号化モジュールに入力された当該複数の第2ビデオフレームに対し、マルチモーダル情報に基づいて特徴符号化(例えば、マルチモーダル情報の特徴抽出及び特徴融合)を行い、マルチモーダル情報が融合された後の特徴情報を取得する。当該特徴情報を当該類似度マッチングモジュールに入力してビデオの類似度のマッチングを行い、類似度のマッチング結果(例えば、類似度の採点結果)を取得する。類似度のマッチング結果は、同じイベントコンテンツの2つの隣接するビデオフレームが類似している場合、同じイベント内のビデオセグメントに対して復元を行うという戦略に基づき、当該ビデオフレームスプライシングモジュールにより同じイベントコンテンツの2つの隣接するビデオフレームに対してそれぞれビデオ結合を行い、ビデオ処理後の最終的なビデオ分割結果を取得する。同じイベントコンテンツの類似度に従って結合し、ビデオコンテンツの詳細の類似度をより注目するので、ビデオ分割がより正確になり、最終的なビデオ分割結果の正確性を大幅に高めることができる。
1つの実施形態においては、予めトレーニングされた第1ニューラルネットワークモデルにより、前記複数の第2ビデオフレームから前記マルチモーダル情報を識別する。
1つの例においては、第1ニューラルネットワークモデルは、複数のエキスパートモデルから構成されても良く、複数のエキスパートモデルのそれぞれの機能を、1つのニューラルネットワークに集積されて構成されても良い。複数のエキスパートモデルのそれぞれの機能を、1つのニューラルネットワークに集積して構成される第1ニューラルネットワークモデルを例とする場合、当該第1ニューラルネットワークモデルは、ナレッジグラフ抽出器、テキスト抽出器、オーディオ抽出器、色調抽出器、物体抽出器及び動作抽出器を含んでも良い。ここで、第1ニューラルネットワークモデルの中のナレッジグラフ抽出器(又は、ナレッジグラフに基づく構造化ラベルベクトル抽出器と呼ばれる)により、ナレッジグラフ情報(例えば、knowledge特徴等)を識別することができ、第1ニューラルネットワークの中のテキスト抽出器(又は、テキストに基づくテキストベクトル抽出器と呼ばれる)により、テキスト情報(例えば、text特徴)を識別することができ、第1ニューラルネットワークの中のオーディオ抽出器(又は、オーディオに基づくオーディオベクトル抽出器と呼ばれる)により、オーディオ情報(例えば、audio情報)を識別することができ、前記第1ニューラルネットワークの中の色調抽出器(又は、画像に基づくRGB抽出器と呼ばれる)により、色調情報(例えば、RGB特徴)を識別することができ、前記第1ニューラルネットワークの中の物体抽出器(又は、ターゲット検出に基づく物体特徴抽出器と呼ばれる)により、物体情報(例えば、object特徴)を識別することができ、前記第1ニューラルネットワークの中の動作抽出器(動作識別に基づく動作ベクトル抽出器)により、動作情報(例えば、action特徴)を識別することができる。ここで、前記マルチモーダル情報は、前記ナレッジグラフ情報、前記テキスト情報、前記オーディオ情報、前記色調情報、前記物体情報及び前記動作情報の中の少なくとも1つを含む。
本実施形態によれば、本開示のインテリジェントビデオ分割技術と機械学習に基づく複数のエキスパートモデルを組み合わせることで、マルチモーダル情報の特徴識別、特徴抽出及び特徴融合を実現する。更に、融合された特徴情報(特徴融合情報と呼ばれる)に対して類似度の比較を実現する。よって、より詳細なビデオコンテンツ情報を取得し、ビデオコンテンツ及びイベント知識をより深く理解することができるので、最も正しいビデオ分割結果が得られ、最終的なビデオ分割結果の正確度を大幅に高めることができる。
1つの実施形態においては、予めトレーニングされた、ビデオ特徴抽出モデルF(υ)のような第1ニューラルネットワークモデルにより、前記複数の第2ビデオフレームから前記マルチモーダル情報を識別及び抽出することができる。ビデオ特徴識別モデルM(υ)のような第2ニューラルネットワークモデルにより、前記マルチモーダル情報のそれぞれの情報を区別することができる。ビデオに対応する時系列情報の抽出モデルT(υ)のような、第3ニューラルネットワークモデルにより、前記マルチモーダル情報に関する時系列情報を識別及び抽出し、前記ビデオ特徴抽出の時間オフセット表現を記録し、前記第1ニューラルネットワークモデル、第2ニューラルネットワークモデル及び第3ニューラルネットワークモデルの出力結果を融合し、前記特徴融合情報を取得する。特徴融合情報は、より多くのビデオコンテンツの詳細を記述することができるので、後続において類似度の比較を行う際にマッチング速度及び精度を高め、同じイベントコンテンツの2つの隣接するビデオフレームに対して類似度のマッチングが行われた後にビデオ処理の最終的なビデオ分割結果を取得し、結果がより正確であり、ビデオ分割がより正確であり、最終的なビデオ分割結果の正確度を大幅に高めることができる。
応用例
本開示の実施形態を応用する1つの処理流れは、以下の内容を含む。
図3は、本開示の実施形態によるビデオ処理方法を実現するシステムモジュールのアーキテクチャ図であり、ビデオ分割モジュール(主に、シーン及び色彩転換に従い、ビデオに対してきめ細かい分割を行う)、マルチモーダル特徴符号化モジュール(主に、マルチモーダル情報を用いてビデオに対して特徴符号化を行う)、類似度マッチングモジュール(主に、隣接するビデオセグメントに対して類似度のマッチングを行い、更に、同じイベントコンテンツに従い、ビデオセグメントに対してビデオ結合を行うことにより、最終的なビデオ分割結果を取得することができる)から構成されるシステムにより、本開示のインテリジェントビデオ分割の流れを実現することができる。マルチモーダル情報の融合により、ビデオコンテンツ及びイベント知識を深く理解し、ディープラーニングを組み合わせてビデオを分割する。図3に示すように、以下の内容を含む。
ビデオ分割モジュール
ビデオ分割モジュールにより、ビデオセグメントのきめ細かい分割を行うことができる。きめ細かい分割の原則は、主に、次の内容を含む。1)色調に基づく分割であり、2つのフレームのグレースケール差を直接に計算することができ、合計するフレーム差が設定されたある閾値より大きい場合、シーンの急変がある。2)エッジに基づく分割であり、エッジ特徴がシーンの分割に用いられることができ、まず、フレーム間の全体的な変位を計算し、これに基づいて位置合わせを行い、次に、エッジの数及び位置を計算する。3)ブロックマッチングに基づく分割であり、非圧縮ビデオに用いられるブロックマッチングシーンを例とする場合、動きの滑らかさの度量を用いてシーンの変化を検出することができる。4)統計的決定に基づく分割であり、動き補償特徴、適応閾値方式、ビデオシーケンスの時系列シーン急変モード及びシーン長さ分布情報を用い、統計的決定モデルを確立し、当該統計的決定モデルが推定した基準により、シーン検出エラー率を最小限に抑えることができる。5)双閾値の比較に基づく分割であり、双閾値(例えば、Tb、Ts)を設定することができる。フレーム差がTbより大きい場合、シーンの急変があるが、フレーム差がTbより小さく且つTsより大きい場合、シーンの段階的な変化がある。接続するフレームのフレーム差がTsを超え始めると、このフレームは、シーンの段階的な変化の開始フレームと呼ばれ、これによって類推する。
二、マルチモーダル特徴符号化モジュール
図4は、本開示の実施形態による、マルチモーダル情報に基づいて特徴符号化を実現する模式図である。マルチモーダル特徴符号化は、主に、複数のエキスパートモデルにより若干のエキスパートベクトル(experts embedding)を取得し、これらのexperts embeddingによりビデオ全体のマルチモーダル情報の描画及び特徴抽出を完了する。図4に示すように、以下の内容を含む。
ビデオレベルベクトル(embedding)表現は、マルチモーダルトランスフォーマー(MMT、Multi-modual Transformer)のようなマルチモーダルコーディングモジュールの1つの例により得られる。MMTは、Transformerエンコーダーのアーキテクチャに従うことができ、Transformerエンコーダーは、スタックされた自己注意機構(Self-Attention)層及び完全接続層で構成される。MMTの入力Ω(υ)は、ワンセットのembedding表現であり、全ての次元が同じであり、dmodel次元として定義され、その中のそれぞれのembeddingは、何れもワンセットの特徴表現を表し、この入力は、式(1)に示されている。
Figure 0007299282000001
ここで、式(1)の中のそれぞれのパラメータの意味は、次の通りである。
Ω(υ)は、ビデオフレーム特徴符号化の後のベクトル出力を表す。
F(υ)は、ビデオ特徴抽出モデルを表し、ビデオの中のマルチモーダル情報を抽出することに用いられる。ここで、Fagg kno、F1 kno、・・・F knoは、ナレッジグラフ情報(例えば、knowledge)を抽出することを表し、「kno」は、knowledge特徴の略称であり、「k」は、ベクトルの次元を表し、「agg」は、平均ベクトルを表し、これによって類推し、テキスト情報(例えば、text特徴)、オーディオ情報(例えば、audio特徴)、色調情報(例えば、RGB特徴)、物体情報(例えば、object特徴)及び動作情報(例えば、action特徴)に対してそれぞれ抽出する。
M(υ)は、ビデオ特徴識別モデルを表し、マルチモーダル情報の中の異なるタイプの情報を区別することに用いられる。
T(υ)は、ビデオに対応する時系列情報の抽出モデルを表し、時系列情報(即ち、時系列ベクトル)を抽出及び記録することにより、特徴抽出の時間オフセット表現を記録するために用いられ、ここで、Tagg、T1、・・・TDは、抽出する時系列情報を表し、「D」は、何秒を表す。
F(υ)により抽出された前記マルチモーダル情報の場合、ビデオデータの固有の異なる形式から効果的な表現を学習するために、様々なエキスパートモデルをビデオ特徴抽出器として用いることにより、前記マルチモーダル情報を抽出することができる。様々なエキスパートモデルは、ナレッジグラフに基づく構造化ラベルembedding抽出器、テキストに基づくtext embedding抽出器、オーディオに基づくaudio embedding抽出器、画像に基づくRGB抽出器、ターゲット検出に基づくobject特徴抽出器及び動作識別に基づくaction embedding抽出器を主に含み、様々なエキスパートモデルがそれぞれ抽出された前記マルチモーダル情報に対して特徴融合を行うことにより、様々なコンテンツ次元でビデオ情報を完全に特徴付けることができる。特徴融合により、学習された、異なるエキスパートモデルにより抽出された前記マルチモーダル情報の間の関係に基づき、クロスモードとロングシーケンスの時間関係を利用して共同表現を行うことで、予めトレーニングされた異なるエキスパートモデル{Fn=1 Nを用いてより正確なビデオコンテンツの詳細を取得することができる。
それぞれのエキスパートモデルは、特別のタスクによるトレーニングによって取得されるものであり、その後、マルチモーダル情報の特徴抽出に用いられる。ビデオυに対し、それぞれのエキスパートモデルは、K個の特徴(features)を含むシーケンスを抽出することができ、Fn (υ)=[F1 n,…,Fk n]として表す。
様々なエキスパートモデルにより抽出されたビデオのfeature特徴付けは、異なるエキスパートモデルを用いて特徴抽出を行うので、抽出された異なるエキスパートベクトルの特徴(又は、特徴ベクトルと呼ばれる)を共通のdmodel次元にマッピングするために、N個のlinear layes(それぞれのエキスパートごとに1つ)を用いて全ての特徴をRdmodelに投影することができる。
Transformerエンコーダーは、それぞれの特徴入力ごとに1つのembeddingを生成するので、複数の特徴に複数のembedding表現を提供する。それぞれの特徴の唯一のembedding表現を得るために、1つの纏めembeddingFagg nを定義することができ、当該embeddingは、収集された特徴をコンテキスト化(現在の表現を集合して)し、最大プーリングにより当該埋め込みを初期化する:Fagg n=maxpool({Fk n}k=1 N)、よって、入力featureシーケンス全体の形式は、式(2)に示されている。
Figure 0007299282000002
式(2)においては、Nは、エキスパートモデルの数(Nは、1より大きい正整数である)を表し、Kは、ベクトル次元(Kは、1より大きい正整数である)を表す。
M(υ)によりマルチモーダル情報の中の異なるタイプの情報を区別する場合、マルチモーダル情報をより良く処理及び区別するために、MMTは、現在処理しているembedding埋め込みがどのエキスパートモデルからの入力であるかを区別する必要があり、N個のdmodel次元のembedding埋め込み{E1,…,En}を学習することにより、異なるエキスパートのembedding表現を区別することができる。エキスパートモデルのembeddingからビデオエンコーダへのシーケンスは、次の式(3)に示す形式を採用することができる。
Figure 0007299282000003
式(3)においては、Nは、エキスパートモデルの数(Nは、1より大きい正整数である)を表す。
T(υ)により時系列情報を記録する場合、ビデオのそれぞれの特徴が抽出したMMTからの時間情報を提供する。1つのビデオの最長継続時間は、tmax秒であっても良く、「秒」を測定パラメータとし、{T1,…,TD}のように、秒ごとに1つのdmodel次元のD=|tmax|を学習する。時間範囲[t,t+1)から抽出されたそれぞれのエキスパートモードfeatureをTt+1として表す。例えば、ビデオにおいては、2.2秒で抽出された特徴は、時間埋め込みT3により時間符号化される。2つの追加する時間埋め込みTagg及びTunkを学習し、集約特徴及び未知の時間情報特徴に対してそれぞれ符号化する。最後に、Temporal embeddingsTは、次の式(4)に示す形式を採用する。
Figure 0007299282000004
式(4)においては、Taggは、時間情報の平均ベクトルを表し、TDは、第D秒(Dは、1秒より大きい数値である)の時間情報を表す。
MMTの実現方式は、式(5)に示されている。
Figure 0007299282000005
式(5)においては、Nは、エキスパートモデルの数を表し、同時に、ψagg(υ)は、ビデオ纏めの情報を表す。Ω(υ)は、MMTの入力を表す。
三、類似度マッチングモジュール
図5は、本開示の実施形態による類似度のマッチングの模式図である。類似度マッチングモジュールにより、2つの隣接するビデオセグメントの類似度の計算を主に完成し、類似度マッチングは、上下対称するモジュールの設計を採用する。複数のエキスパートモデルembedingの類似性を計算し、重み計算(重みは、注意機構により自動的に学習することができる)を用いて類似度の採点を取得することにより、類似度のマッチング結果を取得する。また、損失関数は、双方向の最大結合ランキング損失関数(bi-directional max-margin ranking loss)を採用でき、式(6)に示されている。
Figure 0007299282000006
式(6)においては、Lは、前記損失関数を表し、Bは、サンプルバッチ処理に用いられるハイパーパラメータ(batch size)を表し、sij=similarity(vi,vj)であり、sijは、2つのビデオセグメントの類似度を表し、mは、marginであり、値(0,1)を取ることができる。
四、類似度マッチングモジュール又は上述した図3を元に、類似度マッチングモジュールの後に、ビデオスプライシング処理に特別に用いられるビデオフレームスプライシングモジュールを追加する。
図6は、本開示の実施形態によるビデオ結合の模式図であり、当該ビデオスプライシング処理を統合する類似度マッチングモジュールを例とする。図6に示すように、類似度マッチングモジュールにより、隣接するビデオセグメントの結合とスプライシングを実現することができる。主に、同じイベント内の細かいビデオセグメントを復元する。2つの隣接するビデオセグメントが類似していると判断された場合、2つのビデオを結合し、順に比較し、最終的なビデオ分割結果を取得する。
本応用例によれば、マルチモーダル情報を抽出するための複数のエキスパートモデルの情報を融合し、マルチモーダル情報をキャプチャ及び融合することができるので、ビデオコンテンツ全体を完全に描画し、ビデオ画面の再現効果を高めることができる。ディープラーニングの方式により、大規模な且つ大量のビデオ分割を行うことができ、プロセス全体がより効率であり、コストがより低く、高適時性のビデオ要求を満たすことができる。KGに基づく構造化ラベル技術(例えば、実体、主題等である)、テキストに基づく表現技術、ビジョンに基づく(RGB、Object Action)等を結合し、ビデオコンテンツの角度からビデオを分割し、複数のシーンの頻繁な切り替えによる分割効果の悪い問題を解決することができる。また、スケーラビリティが良く、使用シナリオは、ビデオ技術に限らず、ビデオ指紋識別、ビデオ短帯域長、同じビデオマッチング等のような、任意のビデオの類似度のマッチングシナリオに適用できる。
本開示の実施形態によれば、ビデオ処理装置が提供される。図7は、本開示の実施形態によるビデオ処理装置の構成構造模式図である。図7に示すように、当該ビデオ処理装置は、分割モジュール41、符号化モジュール42及びビデオ処理モジュール43を備える。
分割モジュール41は、複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することに用いられる。
符号化モジュール42は、前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得することに用いられる。
ビデオ処理モジュール43は、前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得することに用いられる。
1つの実施形態においては、前記分割モジュールは、シーン及び色彩転換を特徴付けるためのパラメータに基づき、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することに用いられる。
1つの実施形態においては、前記符号化モジュールは、前記マルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴抽出及び特徴融合の処理を行い、前記特徴融合情報を取得することに用いられる。
1つの実施形態においては、前記特徴融合情報に基づき、前記複数の第2ビデオフレームの類似度に対して採点し、採点結果を前記類似度のマッチング結果とし、前記類似度のマッチング結果として、同じイベントコンテンツに関する、隣接するビデオフレームが類似している場合、前記複数の第2ビデオフレームのそれぞれに対して、隣接するビデオフレームに対する結合がされるまで、前記隣接するビデオフレームに対してビデオ結合を行い、ビデオ結合の結果に基づいて前記ターゲットビデオを取得することに用いられる。
1つの実施形態においては、予めトレーニングされた第1ニューラルネットワークモデルにより、前記複数の第2ビデオフレームから前記マルチモーダル情報を識別するための識別モジュールを更に備える。
1つの実施形態においては、前記識別モジュールは、前記第1ニューラルネットワークモデルの中のナレッジグラフ抽出器により、ナレッジグラフ情報を識別し、前記第1ニューラルネットワークモデルの中のテキスト抽出器により、テキスト情報を識別し、前記第1ニューラルネットワークモデルの中のオーディオ抽出器により、オーディオ情報を識別し、前記第1ニューラルネットワークモデルの中の色調抽出器により、色調情報を識別し、前記第1ニューラルネットワークモデルの中の物体抽出器により、物体情報を識別し、前記第1ニューラルネットワークモデルの中の動作抽出器により、動作情報を識別することに用いられる。前記マルチモーダル情報は、前記ナレッジグラフ情報、前記テキスト情報、前記オーディオ情報、前記色調情報、前記物体情報、前記動作情報の中の少なくとも1つを含む。
1つの実施形態においては、第2ニューラルネットワークモデルにより、前記マルチモーダル情報の中の各種類の情報に対して区別を行い、第3ニューラルネットワークモデルにより、前記マルチモーダル情報に関する時系列情報に対して識別を行い、前記第1ニューラルネットワークモデル、前記第2ニューラルネットワークモデル、前記第3ニューラルネットワークモデルの出力結果に対して融合を行い、前記特徴融合情報を取得するための融合モジュールを更に備える。
本開示の実施形態におけるそれぞれの装置の中の各モジュールの機能は、上述した方法の対応する記載を参照することができ、ここでは、繰り返して説明しない。
本開示の実施形態によれば、本開示は、電子デバイス及び可読記憶媒体が更に提供される。
図8は、本開示の実施形態による例示するビデオ処理方法を実現するための電子デイバスのブロック図である。当該デバイスは、上述した展開デバイス又はエージェントデバイスであっても良い。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータのような様々な形態のデジタルコンピュータ及び他の好適なコンピュータを表すことを目的としている。また、電子デバイスは、また、様々な形態のモバイルデバイス、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似のコンピューティングデバイスを表すことができる。本明細書に記載のコンポーネント、それらの接続及び関係、ならびにそれらの機能は、例としてのみ意図されており、本明細書に記載及び/又は要求される本開示の実現を限定することを意図するものではない。
当該電子デバイスは、1つ以上のプロセッサ801、メモリ802、及び各コンポーネントを接続するための、高速インターフェース及び低速インターフェースを含むインターフェースを有する。様々なコンポーネントは、異なるバスを用いて相互に接続されており、共通のマザーボード上に実装されてもよいし、必要に応じて他の方式で実装されてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、当該命令は、メモリに又はメモリ上に記憶されることによって、外部入出力装置(例えば、インターフェースに結合されたディスプレイ装置)にGUIのグラフィカル情報を表示させるための命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリと一緒に使用してもよい。同様に、複数の電子デバイスが接続されていてもよく、個々のデバイスが必要な操作の一部を提供する(例えば、サーバアレイ、ブレードサーバのグループ又はマルチプロセッサシステムとして)。図8は、一つのプロセッサ801を例としている。
メモリ802は、本開示によって提供される非一時的なコンピュータ可読記憶媒体である。ここで、前記メモリは、本開示により提供されるビデオ処理方法を前記少なくとも1つのプロセッサに実行させるために、前記少なくとも1つのプロセッサにより実行可能な命令を記憶している。本開示の非一時的なコンピュータ可読記憶媒体は、本開示によって提供されるタッチコマンドの処理方法をコンピュータに実行させるために使用されるコンピュータ命令を記憶している。
メモリ802は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール、例えば、本開示の実施形態におけるビデオ処理方法に対応するプログラム命令/モジュール(例えば、図7に示す分割モジュール、符号化モジュール、ビデオ処理モジュール等のモジュール)を格納するために使用することができる。プロセッサ801は、メモリ802に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各種機能アプリケーション及びデータ処理を実行し、上述した方法の実施形態におけるビデオ処理方法を実現する。
メモリ802は、プログラム記憶領域とデータ記憶領域とを含んでもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを格納してもよく、データ記憶領域は、タッチコマンドの処理方法の電子デバイスの使用により作成されたデータなどを格納してもよい。また、メモリ802は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つのディスクメモリ装置、フラッシュメモリ装置又は他の非一時的なソリッドステートメモリ装置などの非一時的なメモリを更に含んでもよい。幾つかの実施形態では、メモリ802は、プロセッサ801に対して相対的に遠隔に配置されたメモリを含むことが好ましく、これらの遠隔メモリは、ネットワークを介して、タッチコマンドの処理方法の電子デバイスに接続されてもよい。前記ネットワークの例としては、インターネット、企業のイントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びそれらの組合せが挙げられるが、これらに限定されない。
ビデオ処理方法の電子デバイスは、入力装置803と出力装置804を更に含んでもよい。プロセッサ801、メモリ802、入力装置803及び出力装置804は、バスを介して接続されていてもよく、他の方式で接続されていてもよく、図8ではバスを介した接続を例に挙げている。
入力装置803は、入力された数値情報又は文字情報を受信するとともにタッチコマンドの処理方法の電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成してもよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック、その他の入力装置などが挙げられる。出力装置804は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)等を含んでもよい。当該表示装置としては、液晶ディスプレイ(Liquid Crystal Display、LCD)、発光ダイオード(Light Emitting Diode、LED)、プラズマディスプレイ等が挙げられるが、これらに限定されない。幾つかの実施形態では、表示装置は、タッチスクリーンであってもよい。
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路(Application Specific Integrated Circuits、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現することができる。これらの様々な実施形態は、以下を含み得る。1つ以上のコンピュータプログラムで実施し、当該1つ以上のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈され、当該プログラマブルプロセッサは、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、且つデータ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置へ転送することができる専用又は汎用のプログラマブルプロセッサであってもよい。
これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれ、プログラマブルプロセッサのための機械命令を含み、高レベル手順及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械語を使用してこれらのコンピュータプログラムを実装することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、デバイス、及び/又は装置、例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(programmable logic device、PLD)を指し、機械可読信号である機械命令を受け取る機械可読媒体を含む。「機械可読信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に記載されているシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(Cathode Ray Tube、陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供するためのキーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有するコンピュータ上に実装されてもよい。他の種類の装置もユーザとのインタラクティブを提供するためにも使用されてもよく、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、ユーザからの入力は、任意の形態(音響入力、音声入力、又は触覚入力を含む)で受信されてもよい。
本明細書に記載されているシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバー)、ミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザーを備えたユーザコンピューター。当該グラフィカルユーザインターフェース又は当該ウェブブラウザーを介して、ユーザはここで説明するシステム及び技術の実装とインタラクティブできる)、又はそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムで実装されてもよい。システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続されていてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(Local Area Network、LAN)、ワイドエリアネットワーク(Wide Area Network、WAN)及びインターネット等がある。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは一般的に互いに遠隔地にあり、通常は、通信ネットワークを介してインタラクティブする。クライアント-サーバ関係は、対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであっても良く、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホスト及び仮想プライベートサーバー(VPS)サービスにおける管理困難の問題及び業務拡大性が弱いという欠陥を解決する。サーバは、分散システムのサーバであっても良く、ブロックチェーンと組み合わせたサーバであっても良い。
本開示によれば、複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得し、前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得し、前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得する。本開示によれば、当該マルチモーダル情報に基づいて特徴符号化を行うことができるので、より多くのビデオコンテンツの詳細を含む情報を取得することができ、類似度のマッチングがされた後、取得されたターゲットビデオがより正確であり、ビデオ分割の正確性を高めることができる。
上述した処理の様々なプロセスを用い、順序を変えたり、ステップを追加又は削除したりすることができることが理解されるべきである。例えば、本開示に記載の各ステップは、並行して実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果が達成される限り、限定されない。
上記の具体的な実施形態は、本開示の保護範囲の制限を構成するものではない。設計要件及び他の要因に応じて、様々な変更、組み合わせ、サブ組み合わせ及び置換えが行われ得ることは、当業者によって理解されるべきである。本開示の要旨及び原則の範囲内で行われる如何なる修正、同等の代替、改良等は、すべて本開示の保護範囲に含まれる。

Claims (13)

  1. 複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することと、
    前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得することと、
    前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得することと、
    予めトレーニングされた第1ニューラルネットワークモデルにより、前記複数の第2ビデオフレームから前記マルチモーダル情報を識別することと、
    第2ニューラルネットワークモデルにより、前記マルチモーダル情報の中の各種類の情報に対して区別を行うことと、
    第3ニューラルネットワークモデルにより、前記マルチモーダル情報に関する時系列情報に対して識別を行うことと、
    前記第1ニューラルネットワークモデル、前記第2ニューラルネットワークモデル、前記第3ニューラルネットワークモデルの出力結果に対して融合を行い、前記特徴融合情報を取得することと、を含む
    ことを特徴とするビデオ処理方法。
  2. 複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することは、
    シーン及び色彩転換を特徴付けるためのパラメータに基づき、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することを含む
    ことを特徴とする請求項1に記載のビデオ処理方法。
  3. 前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得することは、
    前記マルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴抽出及び特徴融合の処理を行い、前記特徴融合情報を取得することを含む
    ことを特徴とする請求項1に記載のビデオ処理方法。
  4. 前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得することは、
    前記特徴融合情報に基づき、前記複数の第2ビデオフレームの類似度に対して採点し、採点結果を前記類似度のマッチング結果とすることと、
    前記類似度のマッチング結果として、同じイベントコンテンツに関する、隣接するビデオフレームが類似している場合、前記複数の第2ビデオフレームのそれぞれに対して、前記隣接するビデオフレームに対する結合がされるまで、前記隣接するビデオフレームに対してビデオ結合を行い、ビデオ結合結果に基づいて前記ターゲットビデオを取得することとを含む
    ことを特徴とする請求項1に記載のビデオ処理方法。
  5. 予めトレーニングされた第1ニューラルネットワークモデルにより、前記複数の第2ビデオフレームから前記マルチモーダル情報を識別することは、
    前記第1ニューラルネットワークモデルの中のナレッジグラフ抽出器により、ナレッジグラフ情報を識別することと、
    前記第1ニューラルネットワークモデルの中のテキスト抽出器により、テキスト情報を識別することと、
    前記第1ニューラルネットワークモデルの中のオーディオ抽出器により、オーディオ情報を識別することと、
    前記第1ニューラルネットワークモデルの中の色調抽出器により、色調情報を識別することと、
    前記第1ニューラルネットワークモデルの中の物体抽出器により、物体情報を識別することと、
    前記第1ニューラルネットワークモデルの中の動作抽出器により、動作情報を識別することとを含み、
    前記マルチモーダル情報は、前記ナレッジグラフ情報、前記テキスト情報、前記オーディオ情報、前記色調情報、前記物体情報、前記動作情報の中の少なくとも1つを含む
    ことを特徴とする請求項1に記載のビデオ処理方法。
  6. 複数の第1ビデオフレームを取得し、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得するための分割モジュールと、
    前記複数の第2ビデオフレームに関するマルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴符号化を行い、前記マルチモーダル情報の融合を特徴付けるための特徴融合情報を取得するための符号化モジュールと、
    前記特徴融合情報に基づき、前記複数の第2ビデオフレームに対して類似度のマッチングを行い、類似度のマッチング結果に基づいてターゲットビデオを取得するためのビデオ処理モジュールと、
    予めトレーニングされた第1ニューラルネットワークモデルにより、前記複数の第2ビデオフレームから前記マルチモーダル情報を識別するための識別モジュールと、
    第2ニューラルネットワークモデルにより、前記マルチモーダル情報の中の各種類の情報に対して区別を行い、
    第3ニューラルネットワークモデルにより、前記マルチモーダル情報に関する時系列情報に対して識別を行い、
    前記第1ニューラルネットワークモデル、前記第2ニューラルネットワークモデル、前記第3ニューラルネットワークモデルの出力結果に対して融合を行い、前記特徴融合情報を取得するための融合モジュールと、を備える
    ことを特徴とするビデオ処理装置。
  7. 前記分割モジュールは、
    シーン及び色彩転換を特徴付けるためのパラメータに基づき、前記複数の第1ビデオフレームに対してきめ細かい分割を行い、複数の第2ビデオフレームを取得することに用いられる
    ことを特徴とする請求項6に記載のビデオ処理装置。
  8. 前記符号化モジュールは、
    前記マルチモーダル情報に基づき、前記複数の第2ビデオフレームに対して特徴抽出及び特徴融合の処理を行い、前記特徴融合情報を取得することに用いられる
    ことを特徴とする請求項6に記載のビデオ処理装置。
  9. 前記ビデオ処理モジュールは、
    前記特徴融合情報に基づき、前記複数の第2ビデオフレームの類似度に対して採点し、採点結果を前記類似度のマッチング結果とし、
    前記類似度のマッチング結果として、同じイベントコンテンツに関する、隣接するビデオフレームが類似している場合、前記複数の第2ビデオフレームのそれぞれに対して、前記隣接するビデオフレームに対する結合がされるまで、前記隣接するビデオフレームに対してビデオ結合を行い、ビデオ結合の結果に基づいて前記ターゲットビデオを取得することに用いられる
    ことを特徴とする請求項6に記載のビデオ処理装置。
  10. 前記識別モジュールは、
    前記第1ニューラルネットワークモデルの中のナレッジグラフ抽出器により、ナレッジグラフ情報を識別し、
    前記第1ニューラルネットワークモデルの中のテキスト抽出器により、テキスト情報を識別し、
    前記第1ニューラルネットワークモデルの中のオーディオ抽出器により、オーディオ情報を識別し、
    前記第1ニューラルネットワークモデルの中の色調抽出器により、色調情報を識別し、
    前記第1ニューラルネットワークモデルの中の物体抽出器により、物体情報を識別し、
    前記第1ニューラルネットワークモデルの中の動作抽出器により、動作情報を識別するために用いられ、
    前記マルチモーダル情報は、前記ナレッジグラフ情報、前記テキスト情報、前記オーディオ情報、前記色調情報、前記物体情報、前記動作情報の中の少なくとも1つを含む
    ことを特徴とする請求項6に記載のビデオ処理装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリと、を備え、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか1項に記載のビデオ処理方法を実行させる
    ことを特徴とする電子デバイス。
  12. コンピュータに請求項1~5のいずれか1項に記載のビデオ処理方法を実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体。
  13. コンピュータにおいて、プロセッサにより実行されると、請求項1~5のいずれか1項に記載のビデオ処理方法を実現することを特徴とするプログラム。
JP2021166004A 2020-11-27 2021-10-08 ビデオ処理方法、装置、電子デバイス、記憶媒体、及びプログラム Active JP7299282B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011358245.3 2020-11-27
CN202011358245.3A CN112464814A (zh) 2020-11-27 2020-11-27 视频处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022020647A JP2022020647A (ja) 2022-02-01
JP7299282B2 true JP7299282B2 (ja) 2023-06-27

Family

ID=74809546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021166004A Active JP7299282B2 (ja) 2020-11-27 2021-10-08 ビデオ処理方法、装置、電子デバイス、記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US12112539B2 (ja)
EP (1) EP3933686A3 (ja)
JP (1) JP7299282B2 (ja)
KR (1) KR102683700B1 (ja)
CN (1) CN112464814A (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033662A (zh) * 2021-03-25 2021-06-25 北京华宇信息技术有限公司 多视频关联方法及装置
CN113301382B (zh) * 2021-05-07 2022-12-13 北京百度网讯科技有限公司 视频处理方法、设备、介质及程序产品
US11610402B2 (en) * 2021-05-11 2023-03-21 CLIPr Co. System and method for crowdsourcing a video summary for creating an enhanced video summary
CN113360712B (zh) * 2021-05-21 2022-12-06 北京百度网讯科技有限公司 视频表示的生成方法、装置和电子设备
CN113177538B (zh) * 2021-06-30 2021-08-24 腾讯科技(深圳)有限公司 一种视频循环识别方法、装置、计算机设备及存储介质
CN113239184B (zh) * 2021-07-09 2021-11-02 腾讯科技(深圳)有限公司 知识库获取方法、装置、计算机设备及存储介质
CN113569942B (zh) * 2021-07-26 2024-04-05 上海明略人工智能(集团)有限公司 短视频事件分类方法、系统、电子设备及存储介质
CN113747239B (zh) * 2021-09-08 2023-05-05 北京快来文化传播集团有限公司 视频剪辑方法及其装置
WO2023068756A1 (ko) * 2021-10-19 2023-04-27 삼성전자 주식회사 멀티 모달리티를 제공하는 웨어러블 디바이스 및 이의 동작 방법
CN114020964B (zh) * 2021-11-15 2024-10-22 上海大学 一种利用记忆网络和门控循环单元实现视频摘要的方法
CN114186093B (zh) * 2021-12-13 2023-04-28 北京百度网讯科技有限公司 多媒体数据的处理方法、装置、设备和介质
CN114266779A (zh) * 2021-12-22 2022-04-01 中国建设银行股份有限公司 直播视频的裁剪方法以及直播视频的裁剪装置
KR102411095B1 (ko) * 2021-12-30 2022-06-22 주식회사 파일러 광고 적합 콘텐츠 탐색 시스템 및 방법
CN114064967B (zh) * 2022-01-18 2022-05-06 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114419508A (zh) * 2022-01-19 2022-04-29 北京百度网讯科技有限公司 识别方法、训练方法、装置、设备及存储介质
KR102438743B1 (ko) * 2022-03-02 2022-08-31 인하대학교 산학협력단 클라우드 서비스용 3d 매뉴얼을 2d 인터랙티브 비디오로 변환하는 방법 및 장치
CN114581821B (zh) * 2022-02-23 2024-11-08 腾讯科技(深圳)有限公司 一种视频检测方法、系统及存储介质和服务器
CN114596523B (zh) * 2022-02-23 2024-11-08 桂林电子科技大学 一种多特征融合的视频描述方法、装置及存储介质
CN114610911B (zh) * 2022-03-04 2023-09-19 中国电子科技集团公司第十研究所 多模态知识本征表示学习方法、装置、设备及存储介质
CN114598933B (zh) * 2022-03-16 2022-12-27 平安科技(深圳)有限公司 一种视频内容处理方法、系统、终端及存储介质
CN115499707B (zh) * 2022-09-22 2024-08-06 上海联屏文化科技有限公司 视频相似度的确定方法和装置
CN117152650B (zh) * 2023-04-23 2024-07-02 青岛尘元科技信息有限公司 海量视频的视频内容分析方法和视频事件信息网络
CN117278776B (zh) * 2023-04-23 2024-09-03 青岛尘元科技信息有限公司 多通道视频内容实时比对方法和装置、设备及存储介质
CN116186330B (zh) * 2023-04-23 2023-07-11 之江实验室 一种基于多模态学习的视频去重方法及装置
CN117132926B (zh) * 2023-10-27 2024-02-09 腾讯科技(深圳)有限公司 一种视频处理的方法、相关装置、设备以及存储介质
KR102744887B1 (ko) 2024-04-01 2024-12-19 주식회사 리턴제로 영상데이터 분석을 통한 영상컨텐츠 자동 생성 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007052395A1 (ja) 2005-10-31 2007-05-10 Sharp Kabushiki Kaisha 視聴環境制御システム
JP2011124681A (ja) 2009-12-09 2011-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像編集装置,映像編集方法および映像編集プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3358692B2 (ja) 1995-08-02 2002-12-24 日本電信電話株式会社 映像ブロック分類方法及び装置
CN103605991A (zh) * 2013-10-28 2014-02-26 复旦大学 一种视频广告的自动检测方法
CN104199933B (zh) * 2014-09-04 2017-07-07 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
US9436876B1 (en) * 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
CN107589828A (zh) * 2016-07-07 2018-01-16 深圳狗尾草智能科技有限公司 基于知识图谱的人机交互方法及系统
CN106682108B (zh) * 2016-12-06 2022-07-12 浙江大学 一种基于多模态卷积神经网络的视频检索方法
US10628486B2 (en) * 2017-11-15 2020-04-21 Google Llc Partitioning videos
CN110798752B (zh) 2018-08-03 2021-10-15 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
CN117880607A (zh) * 2019-02-28 2024-04-12 斯塔特斯公司 可跟踪视频帧的生成方法、识别系统和介质
CN110704683A (zh) * 2019-09-27 2020-01-17 深圳市商汤科技有限公司 音视频信息处理方法及装置、电子设备和存储介质
CN111428590B (zh) 2020-03-11 2023-05-09 新华智云科技有限公司 一种视频聚类切分方法和系统
CN111783709B (zh) * 2020-07-09 2022-09-06 中国科学技术大学 针对教育视频的信息预测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007052395A1 (ja) 2005-10-31 2007-05-10 Sharp Kabushiki Kaisha 視聴環境制御システム
JP2011124681A (ja) 2009-12-09 2011-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像編集装置,映像編集方法および映像編集プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丹野 良介,マルチモーダル深層学習によるドライブレコーダーデータの分類,映像情報メディア学会誌 第74巻 第1号,日本,一般社団法人映像情報メディア学会,2020年,第74巻 第1号,p.44-p.48

Also Published As

Publication number Publication date
KR20210134528A (ko) 2021-11-10
EP3933686A3 (en) 2022-04-27
JP2022020647A (ja) 2022-02-01
CN112464814A (zh) 2021-03-09
KR102683700B1 (ko) 2024-07-09
US20220027634A1 (en) 2022-01-27
EP3933686A2 (en) 2022-01-05
US12112539B2 (en) 2024-10-08

Similar Documents

Publication Publication Date Title
JP7299282B2 (ja) ビデオ処理方法、装置、電子デバイス、記憶媒体、及びプログラム
US11722727B2 (en) Special effect processing method and apparatus for live broadcasting, and server
CN109117777B (zh) 生成信息的方法和装置
CN112929744B (zh) 用于分割视频剪辑的方法、装置、设备、介质和程序产品
US10168794B2 (en) Motion-assisted visual language for human computer interfaces
CN109874053B (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN114186069B (zh) 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法
Huang et al. RGB-D salient object detection by a CNN with multiple layers fusion
WO2020092276A1 (en) Video recognition using multiple modalities
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
WO2023071578A1 (zh) 一种文本对齐语音的方法、装置、设备及介质
CN115129934A (zh) 一种多模态视频理解方法
CN115171014A (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN113810765B (zh) 视频处理方法、装置、设备和介质
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
Sheng et al. Multilayer deep features with multiple kernel learning for action recognition
CN117764115A (zh) 多模态模型的多任务预训练方法、多模态识别方法及设备
CN108733737B (zh) 视频库的建立方法及装置
CN114707591B (zh) 数据处理方法和数据处理模型的训练方法、装置
Mahmud et al. MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers
Hong et al. Advances in Multimedia Information Processing–PCM 2018: 19th Pacific-Rim Conference on Multimedia, Hefei, China, September 21-22, 2018, Proceedings, Part III
CN116932788A (zh) 封面图像提取方法、装置、设备及计算机存储介质
CN117676121A (zh) 视频质量评估方法、装置、设备及计算机存储介质
CN113269068A (zh) 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN114792406B (zh) 用于生成用户生成内容的标签的方法、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230615

R150 Certificate of patent or registration of utility model

Ref document number: 7299282

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150