JP7394809B2 - ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム - Google Patents

ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP7394809B2
JP7394809B2 JP2021100506A JP2021100506A JP7394809B2 JP 7394809 B2 JP7394809 B2 JP 7394809B2 JP 2021100506 A JP2021100506 A JP 2021100506A JP 2021100506 A JP2021100506 A JP 2021100506A JP 7394809 B2 JP7394809 B2 JP 7394809B2
Authority
JP
Japan
Prior art keywords
video
target
model
determining
output data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021100506A
Other languages
English (en)
Other versions
JP2022088304A (ja
Inventor
シャンミン ツァオ
フェイ リ
ティン ユン
グゥオチィン チェン
サイクン リン
リン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022088304A publication Critical patent/JP2022088304A/ja
Application granted granted Critical
Publication of JP7394809B2 publication Critical patent/JP7394809B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4756End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Description

本出願は、コンピュータ技術分野に関し、具体的には、人工知能分野に関し、特に、ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラムに関する。
現在、インターネットの急速な発展に伴い、インターネットユーザはインターネット上で大量のビデオを共有し、それによりネットワークビデオリソースが益々多くなっている。
これらのネットワークビデオリソースを閲覧するとき、ユーザはビデオのポスターに基づいてそのビデオを再生するか否かを選択する。もし、ユーザがあるビデオのポスターに基づいてそのビデオの再生を選択し、そのビデオポスターが十分正確でないことに気付いた場合、ビデオコンテンツとビデオポスターとがマッチしないことになる。
従って、ビデオポスターの精度を向上させることが解決すべき問題となっている。
ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラムを提供する。
第1の態様によれば、ビデオを処理するための方法を提供し、ターゲットビデオを取得するステップと、予め設定された少なくとも1つのモデルからターゲットモデルを選択するステップと、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップと、前記出力データが前記ターゲットモデルに対応する条件を満たさないことが判定されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも1つのモデルから前記ターゲットモデルを再選択するステップと、前記出力データに基づいて、前記ターゲットビデオからダイナミックポスターを特定するステップと、を含む。
第2の態様によれば、ビデオを処理するための装置を提供し、ターゲットビデオを取得するように構成されるビデオ取得ユニットと、予め設定された少なくとも1つのモデルからターゲットモデルを選択するように構成されるモデル選択ユニットと、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するように構成されるデータ確定ユニットと、前記出力データが前記ターゲットモデルに対応する条件を満たさないことが判定されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも1つのモデルから前記ターゲットモデルを再選択するように構成される条件判定ユニットと、前記出力データに基づいて、前記ターゲットビデオからダイナミックポスターを特定するように構成されるポスター特定ユニットと、を備える。
第3の態様によれば、ビデオを処理するための電子機器を提供し、1つ又は複数のコンピューティングユニットと、1つ又は複数のプログラムが格納されている記憶ユニットと、を備え、1つ又は複数のプログラムが1つ又は複数のコンピューティングユニットによって実行されるとき、1つ又は複数のコンピューティングユニットに上記いずれかに記載のビデオを処理するための方法を実施させる。
第4の態様によれば、コンピュータに上記いずれかに記載のビデオを処理するための方法を実行させるためのコンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体を提供する。
第5の態様によれば、コンピューティングユニットにより実行されるとき、上記いずれかに記載のターゲット検出モデルを訓練するための方法又はターゲット検出方法を実施するコンピュータプログラムを提供する。
本出願の技術によれば、ビデオを処理するための方法は、予め設定された少なくとも1つのモデルからターゲットモデルを確定し、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定し、出力データがターゲットモデルに対応する条件を満たす場合、出力データに基づいて、ターゲットビデオからダイナミックポスターを特定することができる。このプロセスは、少なくとも1つのモデルから適切なターゲットモデルを確定することができて、モデル確定の精度が向上され、それにより、ターゲットモデル及び対応する条件に基づいて、ターゲットビデオのダイナミックポスターを特定し、ポスターの確定精度を向上させることができる。
本明細書で述べる内容は、本開示の実施例のポイント又は重要な特徴を表すためのものではなく、また、本開示の範囲を制限するためのものでもないことを理解されたい。本開示のその他特徴は以下の説明により容易に理解されるものになる。
図面は本技術的手段をよりよく理解するためのものであって、本出願を限定するものではない。

本出願の一実施例が適用可能な例示的システムアーキテクチャである。 本出願によるビデオを処理するための方法の一実施例のフローチャートである。 本出願によるビデオを処理するための方法の応用シーンの概略図である。 本出願によるビデオを処理するための方法の別の一実施例のフローチャートである。 本出願によるビデオを処理するための装置の一実施例の構造概略図である。 本出願の実施例のビデオを処理するための方法を実施するための電子機器のブロック図である。
以下、理解を容易にするために、本出願の実施例の様々な細部を含む例示的な実施例を添付図面を参照しながら説明し、それらは単なる例示的なものとして見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを理解されたい。また、以下の説明では、明確性及び簡潔性を図って、周知機能及び構造に対する説明は省略されている。
また、本出願における実施例及び実施例における特徴は、衝突しない限り、互いに組み合わせ可能である。以下、添付図面に実施例を合わせて本出願を詳細に説明する。
図1は、本出願のビデオを処理するための方法又はビデオを処理するための装置の実施例を適用することができる例示的なシステムアーキテクチャ100を示す。
図1に示されるように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、及びサーバ105を含むことができる。ネットワーク104は、端末装置101、102、103とサーバ105との間に通信リンクのための媒体を提供するために使用される。ネットワーク104は、例えば、有線、無線通信リンク又は光ファイバーケーブルなど様々な接続タイプを含むことができる。
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105とインタラクションを行い、メッセージなどを送受信することができる。端末装置101、102、103は、テレビ、コンピュータ、及びタブレットなどの電子機器であってもよく、例えば、ショートビデオエンターテインメントアプリケーションなどの様々なタイプのクライアントアプリケーションがインストールされてもよい。ユーザは、端末装置101、102、103を介してショートビデオエンターテインメントアプリケーションを実行して、該アプリケーション内の大量のショートビデオを取得することができる。
端末装置101、102、103は、ハードウェアであっても良く、ソフトウェアであっても良い。端末装置101、102、103がハードウェアである場合、テレビ、スマートフォン、タブレットコンピュータ、電子書籍リーダー、車載コンピュータ、ラップトップコンピュータ及びデスクトップコンピュータなど様々な電子機器であってもよいが、これらに限定されない。端末装置101、102、103がソフトウェアである場合は、上記に挙げられた電子機器にインストールされても良い。端末装置101、102、103がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供するためのもの)として実施されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実施されてもよい。ここでは具体的な限定はしない。
サーバ105は、例えば、端末装置101、102、103のショートビデオエンターテインメントアプリケーション(short video entertainment applications)のビデオを取得するとともに、予め設定された少なくとも1つのモデルからターゲットモデルを確定し、ターゲットモデルに基づいて各ビデオに対応するダイナミックポスターを特定するなど、様々なサービスを提供するサーバであってもよい。さらに、サーバ105は、また、ネットワーク104を介して各ビデオに対応するダイナミックポスターを端末装置101、102、103に送信することができる。ユーザが端末装置101、102、103におけるショートビデオエンターテインメントアプリケーションでビデオを閲覧するとき、ビデオカードがロードされると、該ビデオに対応するダイナミックポスターを表示し、ユーザがダイナミックポスターに基づいて該ビデオのビデオ情報を分かり、情報取得の効率が向上される。
サーバ105はハードウェアであってもよく、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実施されてもよく、単一のサーバとして実施されてもよい。サーバ105がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供するためのもの)として実施されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実施されてもよい。ここでは具体的な限定はしない。
本出願の実施例によるビデオを処理するための方法は、サーバ105によって実行されてもよく、端末装置101、102、103によって実行されてもよいことに留意されたい。応じて、ビデオを処理するための装置は、サーバ105に設けられてもよく、端末装置101、102、103に設けられてもよい。
図1における端末装置、ネットワーク及びサーバの数は単なる例示的なものであることを理解されたい。実施の必要に応じて、任意の数の端末装置、ネットワーク及びサーバを有することができる。
引き続き図2を参照し、本出願によるビデオを処理するための方法の一実施例のフローチャート200である。本実施例のビデオを処理するための方法は以下のステップを含む。
ステップ201では、ターゲットビデオを取得する。
本実施例において、ターゲットビデオは、ショートビデオアプリケーションにおけるビデオであってもよく、ソーシャルアプリケーションにおけるユーザによって共有されたビデオであってもよく、又は検索アプリケーションにおけるエントリー定義ビデオなどであってもよく、本実施例はターゲットビデオのソースを限定しない。実行主体(図1における端末装置101、102、103又はサーバ105など)は、ネットワークを介してこれらのアプリケーションにおけるターゲットビデオを取得することができる。ターゲットビデオを取得した後、実行主体は、ターゲットビデオをダウンロードするか、又はターゲットビデオをオンラインで閲覧するかを選択することができ、本実施例はこれを限定しない。
ステップ202では、予め設定された少なくとも1つのモデルからターゲットモデルを選択する。
本実施例において、予め設定された少なくとも1つのモデルのそれぞれを使用してビデオを処理することができ、ダイナミックポスターの特定を補助することができる出力データを取得することができる。予め設定された少なくとも1つのモデルは顔認識モデル、行動認識モデル、意味解析モデル、コンテンツスコアリングモデルなどを含み得るが、これらに限定されない。具体的には、顔認識モデルを使用してターゲットビデオにおける顔画像を認識し、行動認識モデルを使用してターゲットビデオにおける行動データを認識し、意味解析モデルを使用してターゲットビデオにおける字幕の解釈を認識し、コンテンツスコアリングモデルを使用してターゲットビデオにおけるコンテンツの精彩度を認識することができる。これらの異なるビデオ処理モデルは異なる次元でターゲットビデオを認識するモデルであってもよく、ターゲットビデオ認識に関する様々なニーズを満たすことができる。さらに、実行主体は、予め設定された少なくとも1つのモデルからターゲットモデルを確定することは、現在の処理需要に応じてターゲットモデルを確定してもよく、又は予め設定された各モデルの優先度に基づいてターゲットモデルを確定してもよい。オプションとして、顔認識モデルの優先度を行動認識モデルの優先度よりも高く設定し、行動認識モデルの優先度をコンテンツスコアリングモデルの優先度よりも高く設定してもよい。
予め設定された少なくとも1つのモデルから、ターゲットモデルを確定するステップは、ターゲットビデオに対応するビデオ処理カテゴリを取得するステップと、ビデオ処理カテゴリが関連度優先を指示するための第1のカテゴリであることが判定されたことに応答して、予め設定された少なくとも1つのモデルから関連度に対応するターゲットモデルを確定するステップと、ビデオ処理カテゴリが精彩度優先を指示するための第2のカテゴリであることが判定されたことに応答して、予め設定された少なくとも1つのモデルから精彩度に対応するターゲットモデルを確定するステップと、を含むことができる。
本実施形態において、予め設定された少なくとも1つのモデルは、関連度に対応するモデル及び精彩度に対応するモデルを含み得る。関連度に対応するモデルは、ビデオセグメントがビデオタイトルに関連しているか否か、及びビデオ動作が予め設定された動作に関連しているか否かを判定するために使用される。精彩度に対応するモデルは、ビデオセグメントがビデオ全体を代表できるか否か、及びビデオセグメントが連続したビデオフレーム画面であるか否かを判定するために使用される。関連度に対応するモデルは上記の顔認識モデル、行動認識モデルを含み得るが、これらに限定されず、精彩度に対応するモデルは上記のコンテンツスコアリングモデルを含み得るが、これに限定されない。このプロセスは、関連度の高いポスターを優先的に選択するか、或いは精彩度の高いポスターを優先的に選択するかなど、異なるポスターニーズに応じて、対応するターゲットモデルを選択することができる。ポスターの生成は、多様な生成需要をより柔軟に満たすことができる。
ステップ203では、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定する。
本実施例において、実行主体は、ターゲットモデルを確定した後、ターゲットモデルを使用してターゲットビデオに対してビデオ処理を行って、ターゲットモデルの出力データを取得することができる。うち、ターゲットモデルの出力データは、ターゲットビデオのビデオ特徴を解析して得た出力データである。例えば、ターゲットモデルが前記顔認識モデルである場合、ターゲットビデオ及びターゲットモデルに基づいて確定された出力データは、ターゲットビデオにおける顔とターゲットビデオのタイトルとの一致度であってもよく、ターゲットモデルが前記行動認識モデルである場合、ターゲットビデオ及びターゲットモデルに基づいて確定された出力データは、ターゲットビデオにおける行動と予め設定された行動との一致度であってもよく、ターゲットモデルが前記コンテンツスコアリングモデルである場合、ターゲットビデオ及びターゲットモデルに基づいて確定された出力データは、ターゲットビデオの各ビデオフレームに対応するコンテンツスコアであってもよく、ターゲットモデルが前記意味解析モデルである場合、ターゲットビデオ及びターゲットモデルに基づいて確定された出力データは、ターゲットビデオの字幕とターゲットビデオのタイトルとの一致度であってもよい。
ステップ204では、出力データがターゲットモデルに対応する条件を満たさないと判定されたことに応答して、出力データがターゲットモデルに対応する条件を満たすまで、予め設定された少なくとも1つのモデルからターゲットモデルを再選択する。
本実施例において、前記少なくとも1つのモデルのそれぞれには対応する条件が存在する。ターゲットモデルの出力データが該ターゲットモデルに対応する条件を満たす場合、ターゲットモデルの出力データに基づいてターゲットビデオからダイナミックポスターを特定する。ターゲットモデルの出力データが該ターゲットモデルに対応する条件を満たさない場合、ターゲットモデルの出力データが該ターゲットモデルに対応する条件を満たすまで、予め設定された少なくとも1つのモデルからターゲットモデルを再選択する。
ステップ205では、出力データに基づいて、ターゲットビデオからダイナミックポスターを特定する。
本実施例において、ダイナミックポスターは、ターゲットビデオ内のビデオフレームからなるビデオセグメントであってもよい。例えば、ターゲットモデルが前記顔認識モデルである場合、顔認識モデルに対応する条件は、ターゲットビデオにおける顔とターゲットビデオのタイトルとの一致度が高いことであってもよく、このとき、ターゲットビデオにターゲットビデオタイトルにおける人物のビデオセグメントがあることを示し、ターゲットビデオにおける顔とターゲットビデオのタイトルとの類似度に基づいて、ターゲットビデオから該顔が現れたビデオセグメントをダイナミックポスターとして選択することができる。或いは、ターゲットモデルが前記行動認識モデルである場合、行動認識モデルに対応する条件は、ターゲットビデオにおける行動に指定動作が現れた確率が高いことであってもよく、このとき、ターゲットビデオにおける行動に指定動作が現れた確率に基づいて、ターゲットビデオから、予め設定された行動が現れたビデオセグメントをダイナミックポスターとして選択してもよい。或いは、ターゲットモデルが前記コンテンツスコアリングモデルである場合、コンテンツスコアリングモデルに対応する条件は、ターゲットビデオにおけるコンテンツスコアが高いことであってもよく、このとき、ターゲットビデオに精彩なコンテンツがあることを示し、ターゲットビデオの各ビデオフレームに対応するコンテンツスコアに基づいて、ターゲットビデオからコンテンツスコアが最も高いビデオセグメントをダイナミックポスターとして選択してもよい。
引き続き、図3を参照し、本出願によるビデオを処理するための方法の一つの応用シーンの概略図が示されている。図3の応用シーンでは、前記ビデオを処理するための方法は、ターゲットビデオのダイナミックポスターを生成するシーンに適用することができる。図3に示されるように、ダイナミックポスターを生成する必要のあるターゲットビデオ301は複数の連続したビデオフレームを含み、ターゲットビデオ301をサーバ302に入力し、サーバ302が、本実施例のビデオを処理するための方法を実行して、ターゲットビデオ301からダイナミックポスター303を選択するようにする。うち、ターゲットビデオ301を端末装置などの他の電子機器に入力し、電子機器が、本実施例のビデオを処理するための方法を実行し、ターゲットビデオ301から所定数のビデオフレームを選択し、該所定数のビデオフレームをダイナミックポスター303として特定するようにすることもできる。ユーザが選択的に再生するために、該ターゲットビデオ301を端末装置にプッシュした場合、端末装置は、ユーザが該ターゲットビデオ301に位置特定されたことを確定したうえで、該ターゲットビデオ302が位置する表示領域でダイナミックポスター303を再生することができる。ユーザは、ダイナミックポスター303によって再生されたコンテンツを通じて、ターゲットビデオ302全体を見るか否かを判断することができる。ダイナミックポスター303の特定プロセスに予め設定された少なくとも1つのモデルが採用され、予め設定された少なくとも1つのモデルから確定されたターゲットモデル及び該ターゲットモデルに対応する条件に基づいて、ターゲットビデオから精度の高いダイナミックポスターを特定することができるので、ユーザはダイナミックポスターに基づいてターゲットビデオ301のコンテンツを正確に推定することができ、情報取得の効率が向上された。
本出願の上記実施例によるビデオを処理するための方法は、予め設定された少なくとも1つのモデルにおいて適切なターゲットモデルを確定することを通じて、該ターゲットモデル及び該ターゲットモデルに対応する条件に応じて、ターゲットモデルの出力データに基づいて、ターゲットビデオからダイナミックポスターを正確に特定することができる。少なくとも1つのモデルに基づいて、ポスターの特定精度を向上させることができる。
引き続き、図4を参照し、本出願によるビデオを処理するための方法の別の実施例のフローチャート400である。図4に示されるように、本実施例のビデオを処理するための方法は以下のステップを含む。
ステップ401では、ターゲットビデオを取得する。
本実施例において、ステップ401の詳細な説明についてはステップ201の詳細な説明を参照し、ここでは繰り返さない。
本実施例のいくつかのオプション的な実施形態において、ターゲットビデオの取得は、ビデオアドレス及び/又はビデオタイトルに基づいてターゲットビデオを取得するステップを含んでもよい。
本実施形態において、ビデオアドレスはターゲットビデオのアドレスリンクであってもよく、該アドレスリンクを介してターゲットビデオの所在位置を特定することができる。ビデオタイトルは、ターゲットビデオのタイトルであってもよく、通常、ターゲットビデオのコンテンツを反映できる重要な情報である。ビデオアドレス及び/又はビデオタイトルに基づいて、ビデオアドレスとターゲットビデオとの対応関係、及び/又はビデオタイトルとターゲットビデオとの対応関係に基づいて、ターゲットビデオを取得することができる。
ステップ402では、選択回数を決定する。
ステップ403では、予め設定された少なくとも1つのモデルから、予め設定されたモデル選択順番と選択回数とがマッチするモデルをターゲットモデルとする。
本実施例において、ターゲットモデルは、予め設定された選択順番に基づいて選択してもよく、又は、少なくとも1つのモデルのうちの各モデルのモデル重みに基づいて選択してもよいなど、本実施例はこれを限定しない。うち、選択回数は、ターゲットモデルを選択する回数を示すために使用され、選択回数1は、1回目のターゲットモデルの選択を示すことができる。さらに、予め設定された少なくとも1つのモデルのうちの各モデルに対応する選択順番を決定してもよく、該選択順番は予め設定された順番であってもよい。予め設定された少なくとも1つのモデルから、選択順番が現在の選択回数にマッチするモデルをターゲットモデルとして決定してもよい。例えば、選択回数が2であり、予め設定された少なくとも1つのモデルのうちの上記第2のモデルに対応する選択順番が2であれば、このとき、上記第2のモデルをターゲットモデルとして決定することができる。
本実施例のいくつかのオプション的な実施形態において、予め設定された少なくとも1つのモデルのうちの各モデルの初期重みを確定するステップであって、該初期重みが、事前に設定された、モデル属性に対応する重みであるステップと、該初期重みが高から低の順に従って、予め設定された少なくとも1つのモデルからターゲットモデルを逐次確定するステップと、を実行してターゲットモデルを選択してもよい。オプションとして、ターゲットモデルが確定されたたびに、選択されたモデルをマークするために、初期重みを更新してもよい。
例えば、予め設定された少なくとも1つのモデルに、第1のモデル、第2のモデル及び第3のモデルが含まれていると仮定する。第1のモデルに第1の重みが対応し、第2のモデルに第2の重みが対応し、第3のモデルに第3の重みが対応する。また、第1の重みの値が第2の重みよりも大きく、第2の重みの値が第3の重みよりも大きい。初めてターゲットモデルを確定する際には第1のモデルをターゲットモデルとして確定してもよい。その後、第1の重みの値を予め設定された比率で低減することで、初期重みを更新することができる。2回目にターゲットモデルを確定する際、その時点で低減された第1の重みの値が第3の重みよりも小さい場合、今回ターゲットモデルを確定する際に第2のモデルをターゲットモデルとして確定してもよい。
ステップ404では、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定する。
本実施例において、ターゲットモデルは、顔認識モデル、行動認識モデル及びコンテンツスコアリングモデルの任意の組み合わせを含む。オプションとして、ターゲットビデオはターゲットモデルの入力データとして使用されてもよく、ターゲットモデルは、ターゲットビデオに対応するターゲットモデルの出力データを出力することができる。ステップ404の詳細な説明についてはステップ203の詳細な説明を参照し、ここでは繰り返さない。
本実施例のいくつかのオプション的な実施形態において、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップは、ターゲットビデオ及び顔認識モデルに基づいて、ターゲットビデオにおける顔画像と予め設定された少なくとも1つの顔オブジェクトとの類似度を確定するステップを含む。
本実施形態において、顔認識モデルは、ターゲットビデオの各ビデオフレームの顔オブジェクトを認識し、該顔オブジェクトと予め設定された少なくとも1つの顔オブジェクトとの類似度を確定することができる。うち、予め設定された少なくとも1つの顔オブジェクトは、少なくとも1人の有名人の顔を含んでもよい。オプションとして、顔認識モデルは、ターゲットビデオの各ビデオフレームの顔オブジェクトを認識した後、総画像サイズに対する顔部分サイズの比率を算出することもできる。ターゲットモデルの出力データに基づいて、ターゲットビデオからダイナミックポスターを特定する際に、該比率が最大となるビデオフレームに対応するビデオセグメントをダイナミックポスターとして特定してもよい。
本実施例のいくつかのオプション的な実施形態において、ターゲットビデオは、人の名前を含むタイトルを含み、そして、類似度が予め設定された第1の閾値未満であるか、又は、類似度が第1の閾値以上であるが、ターゲットビデオにおける顔オブジェクトが人の名前とマッチしないと判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するステップを実行してもよい。
本実施形態において、ターゲットビデオにおける顔画像と予め設定された少なくとも1つの顔オブジェクトとの類似度が、予め設定された第1の閾値以上であれば、ターゲットビデオに有名人の顔が現れたことを意味し、顔オブジェクトとビデオタイトルにおける人の名前とがマッチするか否かをさらに判定してもよい。ターゲットビデオにおける顔オブジェクトと人の名前とをマッチすることで、ターゲットビデオに現れた有名人がビデオタイトルにおける有名人であるか否かを判定することができる。前記類似度及び前記ターゲットビデオにおける顔オブジェクトが人の名前とマッチするか否かの判断結果に基づいて、ターゲットモデルの出力データがターゲットモデルに対応する条件を満たすか否かを判定することができる。類似度が予め設定された第1の閾値未満である場合、又は、類似度が第1の閾値以上であるが、ターゲットビデオにおける顔オブジェクトが人の名前とマッチしない場合、出力データがターゲットモデルに対応する条件を満たさないと判定することができる。
本実施例のいくつかのオプション的な実施形態において、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップは、ターゲットビデオ及び行動認識モデルに基づいて、ターゲットビデオにおける行動情報が指定動作を含む確率スコアを確定するステップを含む。
本実施形態において、行動認識モデルは、ターゲットビデオにおける行動情報を認識し、ターゲットビデオにおける行動情報が指定動作を含む確率スコアを確定するために使用される。うち、行動認識モデルは画像二項分類モデルであってもよく、該画像二項分類モデルの訓練において、指定動作を含む行動を正のサンプルとし、指定動作を含まない行動を負のサンプルとしてもよい。ターゲットビデオを行動認識モデルに入力した後、行動認識モデルの前進計算結果に基づいて、ターゲットビデオの各ビデオフレームにおける行動情報が指定動作を含む確率スコアを得ることができる。確率スコアに基づいて、ターゲットモデルの出力データを確定することができる。うち、指定動作には、抱擁行動情報、キス行動情報などが含まれるが、これらに限定されない。
本実施例のいくつかのオプション的な実施形態において、確率スコアが予め設定された第2の閾値未満であると判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するステップをさらに実行してもよい。
本実施形態において、ターゲットモデルの出力データが、確率スコアが予め設定された第2の閾値未満であることを示す場合、ターゲットビデオに指定動作が含まれる確率が小さいことを示し、このとき、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たさないと判定してもよい。ターゲットモデルの出力データが、確率スコアが予め設定された第2の閾値以上であることを示す場合、ターゲットビデオに指定動作が含まれる確率が大きいことを示し、このとき、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たすと判定してもよい。
本実施例のいくつかのオプション的な実施形態において、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップは、ターゲットビデオにおける複数のビデオフレームに対し、コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップを含む。
本実施形態において、コンテンツスコアリングモデルは、ターゲットビデオのビデオコンテンツをスコアリングするためのモデルである。ターゲットビデオをコンテンツスコアリングモデルに入力して、ターゲットビデオの複数のビデオフレームのコンテンツスコアを得ることができる。
本実施例のいくつかのオプション的な実施形態において、ターゲットビデオの複数のビデオフレームに対し、コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップは、ターゲットビデオの複数のビデオフレームをコンテンツスコアリングモデルに入力し、コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて、各ビデオフレーム間の差異特徴及び類似特徴を確定し、差異特徴及び類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するようにするステップを含む。
本実施形態において、各ビデオフレーム間の差異特徴は、ビデオフレーム間に存在する差異の特徴を反映することができ、各ビデオフレーム間の類似特徴は、ビデオフレーム間に存在する類似の特徴を反映することができる。差異特徴に基づいて他のビデオフレームと区別されるビデオフレームをフィルタリングすることができ、類似特徴に基づいてビデオを代表できるビデオフレームをフィルタリングすることができるので、差異性及び代表性から精彩なコンテンツをフィルタリングすることができる。
本実施例のいくつかのオプション的な実施形態において、コンテンツスコアが予め設定された第3の閾値未満であると判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するステップをさらに実行してもよい。
本実施形態において、コンテンツスコアが予め設定された第3の閾値未満であれば、該ターゲットビデオに比較的精彩なコンテンツセグメントがないことを示し、このとき、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たさないと判定してもよい。コンテンツスコアが予め設定された第3の閾値以上であれば、該ターゲットビデオに比較的精彩なコンテンツセグメントがあることを示し、このとき、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たすと判定することができる。
本実施例のいくつかのオプション的な実施形態において、コンテンツスコアリングモデルは、サンプルビデオを取得するステップと、トレーニング対象のコンテンツスコアリングモデルにサンプルビデオを入力して、トレーニング対象のコンテンツスコアリングモデルがサンプルビデオの各ビデオフレームの特徴情報を抽出し、特徴情報に基づいてサンプルビデオの各ビデオフレームのコンテンツスコアを確定し、サンプルビデオの各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを特定するようにするステップと、サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、セグメント内部パラメータ及びセグメント外部パラメータに基づいて、トレーニング対象のコンテンツスコアリングモデルをトレーニングして、トレーニング済みコンテンツスコアリングモデルを得るステップと、によってトレーニングされる。
本実施形態において、コンテンツスコアリングモデルは、CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)、LSTM(Long Short-Term Memory、長・短期記憶ネットワーク)及び強化学習に基づいて得ることができる。オプションとして、コンテンツスコアリングモデルの符号化フレームワークとしてAuto Encoder-Decoder(自動符号化・復号化)フレームワークを採用することができる。うち、エンコーダはResnet(Residual Neural Network、残差ネットワーク)を採用してもよく、デコーダは双方向のLSTMを採用してもよい。コンテンツスコアリングモデルのトレーニング段階では、まず、サンプルビデオを取得した後、トレーニング対象のコンテンツスコアリングモデルにサンプルビデオを入力して、トレーニング対象のコンテンツスコアリングモデルがCNNを介してサンプルビデオの各ビデオフレームの特徴情報を抽出した後、各ビデオフレームの特徴情報をLSTMに入力して各ビデオフレームのコンテンツスコアを得るようにしてもよい。うち、コンテンツスコアは、該ビデオフレームのコンテンツがダイナミックポスターとして選択される確率を記述するために使用される。さらに、サンプルビデオをコンテンツスコアに基づいてベルヌーイサンプリングして、サンプルビデオセグメントを得ることができる。そして、サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定する。うち、セグメント内部パラメータは、ビデオセグメントのフレーム間の差異性を記述するために使用され、セグメント外部パラメータは、該ビデオセグメントがサンプルビデオを代表できる代表性を記述するために使用される。セグメント内部パラメータ及びセグメント外部パラメータに基づいて、報酬関数を構築することができる。報酬関数に基づいてトレーニング対象のコンテンツスコアリングモデルをフィードバック及び更新して、トレーニング済みコンテンツスコアリングモデルを得ることができる。うち、報酬関数は、下記式に基づいて得ることができる。
Figure 0007394809000001
(式中、R(S)は報酬関数を表し、Rdivはセグメント内部パラメータを表し、Rrepはセグメント外部パラメータを表す。)
セグメント内部パラメータは、下記式に基づいて得ることができる。
Figure 0007394809000002
(式中、yはビデオのビデオフレーム総数を表し、xtはビデオ中t番目のフレームの特徴ベクトルを表し、dはコサイン類似度の計算を表す。)
セグメント外部パラメータは、下記式に基づいて得ることができる。
Figure 0007394809000003
(式中、Tはビデオの持続時間を表す。ビデオレートが1フレーム/秒の場合、Tとyの値は同じである。この場合、tはt番目のフレーム及び第t秒を表す。)
ステップ405では、出力データがターゲットモデルに対応する条件を満たさないと判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たすまで、予め設定された少なくとも1つのモデルからターゲットモデルを再選択する。
本実施例において、ステップ405の詳細な説明についてはステップ204の詳細な説明を参照し、ここでは繰り返さない。
ステップ406では、出力データに基づいて、ターゲットビデオからダイナミックポスターを特定する。
本実施例において、ステップ406の詳細な説明についてはステップ205の詳細な説明を参照し、ここでは繰り返さない。
本実施例のいくつかのオプション的な実施形態において、ターゲットモデルの出力データに基づいて、ターゲットビデオからダイナミックポスターを特定するステップは、予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、ターゲットモデルの出力データに基づいて、候補ビデオセグメントセットからダイナミックポスターを特定するステップと、を含む。
本実施形態において、予め設定されたビデオセグメント長は、例えば、6秒又は10フレームなどの持続時間及びフレーム数を含んでもよく、本実施例は具体的な数値を限定しない。予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定することができる。うち、候補ビデオセグメントセットにおける各候補ビデオセグメントの長さは該予め設定されたビデオセグメント長である。具体的には、ターゲットビデオの各フレームのビデオの特徴ベクトル(該特徴ベクトルはセグメント外部パラメータを計算する際に取得されたベクトルである)を取得した後、特徴ベクトルに基づいて候補ビデオセグメントセットからセグメント内部が連続画像であり且つセグメントがビデオ全体を代表できる候補ビデオセグメントを選択してもよい。
本実施例のいくつかのオプション的な実施形態において、ターゲットモデルの出力データに基づいて、候補ビデオセグメントセットからダイナミックポスターを特定するステップは、ターゲットモデルの出力データに基づいて、候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定するステップと、各候補ビデオセグメントに対応するコンテンツスコアに基づいて、候補ビデオセグメントセットにおいてダイナミックポスターを特定するステップと、を含む。
本実施形態において、コンテンツスコアリングモデルのターゲットモデルの出力データに基づいて、候補ビデオセグメントセットにおける各候補ビデオセグメントの各ビデオフレームのコンテンツスコアを確定し、各ビデオフレームのコンテンツスコアを総合して該候補ビデオセグメントのコンテンツスコアを得ることができる。好ましくは、コンテンツスコアのスコアが最も高い候補ビデオセグメントをダイナミックポスターとして特定してもよい。
本実施例のいくつかのオプション的な実施形態において、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップは、ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを得るステップと、ビデオフレームセット及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するステップと、を含む。
本実施形態において、ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを得ることができる。具体的には、所定数のフレームごとに抽出を行ってもよく、又は予め設定された時間ごとに抽出を行ってもよく、本実施例はこれを限定しない。オプションとして、ビデオフレームセットにおけるビデオフレームに所要のキーフレームが含まれるように、キーフレームの所在位置を考慮しながらターゲットビデオを抽出してもよい。さらに、ビデオフレームセットにおける各ビデオフレームをターゲットモデルに順次入力して、ターゲットモデルの出力データを確定してもよい。
本実施例のいくつかのオプション的な実施形態において、予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定するステップと、ターゲットビデオにおいて黒帯付きビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、を含む。
本実施形態において、ターゲットビデオにおいてビデオ黒帯が現れたビデオフレームを検出して、それらを黒帯付きビデオフレームとし、次に、ターゲットビデオにおいて黒帯付きビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、候補ビデオセグメントセットを確定することができる。それにより、確定された候補ビデオセグメントセットが黒帯付きビデオフレームを含まないか、含まれる黒帯付きビデオフレームの数を少なくする。ターゲットビデオにおいてビデオ黒帯が現れたビデオフレームを検出するステップについては、従来の黒帯検出技術を採用することができ、ここでは繰り返さない。
本実施例のいくつかのオプション的な実施形態において、予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定するステップと、ターゲットビデオにおいて静止ビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、を含む。
本実施形態において、ターゲットビデオにおいて静止画が現れたビデオフレームを検出して、それらを静止ビデオフレームとし、次に、ターゲットビデオにおいて静止ビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、候補ビデオセグメントセットを確定することができる。それにより、確定された候補ビデオセグメントセットが静止ビデオフレームを含まないか、含まれた静止ビデオフレームの数を少なくする。ターゲットビデオにおいて静止画が現れたビデオフレームを検出するステップについては、従来の静止画認識技術を採用してもよく、ここでは説明を繰り返さない。
例えば、ビデオアドレス及び/又はビデオタイトルに基づいてターゲットビデオを取得した後、予め設定された選択順番に基づいて、まず、予め設定された少なくとも1つのモデルから、顔認識モデルをターゲットモデルとして確定し、ターゲットビデオ及び顔認識モデルに基づいて、ターゲットビデオに、ビデオタイトルにおける有名人に対応する顔が存在するか否かを判定することができる。ターゲットビデオに該有名人に対応する顔が存在すれば、ターゲットモデルの出力データが顔認識モデルに対応する条件を満たすと判定し、ターゲットビデオから有名人に対応する顔が現れたビデオセグメントをダイナミックポスターとして選択する。ターゲットビデオに、該有名人に対応する顔が存在しなければ、ターゲットモデルの出力データが顔認識モデルに対応する条件を満たさないと判定し、少なくとも1つのモデルから行動認識モデルを再選択する。さらに、ターゲットビデオ及び行動認識モデルに基づいて、ターゲットビデオに予め設定された行動が存在するか否かを判定する。ターゲットビデオに予め設定された行動が存在すれば、ターゲットモデルの出力データがターゲットモデルに対応する条件を満たすと判定し、予め設定された行動を含むビデオセグメントをダイナミックポスターとする。ターゲットビデオに予め設定された行動が存在しなければ、ターゲットモデルの出力データがターゲットモデルに対応する条件を満たさないと判定し、再び少なくとも1つのモデルからコンテンツスコアリングモデルを再選択する。ターゲットビデオ及びコンテンツスコアリングモデルに基づいて、ターゲットビデオにおける各フレームビデオのコンテンツスコアを計算し、コンテンツスコアが最も高いセグメントをダイナミックポスターとして再選択する。
図4から分かるように、図2に対応する実施例に比べて、本実施例におけるビデオを処理するための方法のプロセス400は、ターゲットモデルの出力データがターゲットモデルに対応する条件を満たさないと判断されたことに応答して、ターゲットモデルを再選択し、新しいターゲットモデルの出力データがターゲットモデルに対応する条件を満たすまで、ターゲットモデルの出力データを再確定することができて、ターゲットビデオからダイナミックポスターを特定することができる。このプロセスは、複数のモデルを順番に利用してターゲットモデルの出力データが対応する条件を満たすか否かを順次判定し、対応する条件を満たすモデルのターゲットモデルの出力データを選択してダイナミックポスターとして特定し、ダイナミックポスターの特定精度を一層高めることができる。また、ターゲットモデルは、顔認識モデル、行動認識モデル及びコンテンツ認識モデルを含んでもよく、これらの3つのモデルを通じてビデオ画像とビデオタイトルとの関連特徴、ビデオ画像における行動特徴及びビデオコンテンツの精彩度を総合的に考慮して、ダイナミックポスターを得ることができて、ダイナミックポスターとビデオとの相関性、及びダイナミックポスターの精彩度を向上させることができ、ダイナミックポスターの選択効果が向上された。その中のコンテンツ認識モデルはラベル情報のない教師なしモデルにすることができ、モデルトレーニングのラベル付けコストが低減され、モデルトレーニングの効率がより高い。また、黒帯検出、静止画面認識、シーンセグメンテーションなどの技術的手段を用いて候補ビデオセグメントを特定することもできるので、ダイナミックポスターの有効性が向上された。
さらに、図5を参照し、上記各図に示された方法の実施として、本出願は、ビデオを処理するための装置の一実施例を提供し、該装置の実施例は図2に示された方法の実施例に対応しており、該装置は様々な電子機器に適用可能である。
図5に示すように、本実施例のビデオを処理するための装置500は、ビデオ取得ユニット501、モデル選択ユニット502、データ確定ユニット503、条件判定ユニット504、及びポスター特定ユニット505を備える。
ビデオ取得ユニット501は、ターゲットビデオを取得するように構成される。
モデル選択ユニット502は、予め設定された少なくとも1つのモデルからターゲットモデルを選択するように構成される。
データ確定ユニット503は、ターゲットビデオ及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するように構成される。
条件判定ユニット504は、出力データがターゲットモデルに対応する条件を満たさないと判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たすまで、予め設定された少なくとも1つのモデルからターゲットモデルを再選択するように構成される。
ポスター特定ユニット505は、出力データに基づいて、ターゲットビデオからダイナミックポスターを特定するように構成される。
本実施例のいくつかのオプション的な実施形態において、ターゲットモデルは、選択回数を決定するステップと、予め設定された少なくとも1つのモデルから、予め設定されたモデル選択順番と選択回数とがマッチするモデルをターゲットモデルとするステップと、によって選択される。
本実施例のいくつかのオプション的な実施形態において、ターゲットモデルは顔認識モデルを含み、データ確定ユニット503は、さらに、ターゲットビデオ及び顔認識モデルに基づいて、ターゲットビデオにおける顔オブジェクトと予め設定された少なくとも1つの顔オブジェクトとの類似度を確定するように構成される。
本実施例のいくつかのオプション的な実施形態において、ターゲットビデオは、人の名前を含むタイトルを含み、条件判定ユニット504は、さらに、類似度が予め設定された第1の閾値未満である場合、又は類似度が第1の閾値以上であるが、ターゲットビデオにおける顔オブジェクトが人の名前とマッチしないと判断された場合、出力データがターゲットモデルに対応する条件を満たさないと判定するように構成される。
本実施例のいくつかのオプション的な実施形態において、ターゲットモデルは行動認識モデルを含み、データ確定ユニット503は、さらに、ターゲットビデオ及び行動認識モデルに基づいて、ターゲットビデオにおける行動情報が指定動作を含む確率スコアを確定するように構成される。
本実施例のいくつかのオプション的な実施形態において、条件判定ユニット504は、さらに、確率スコアが予め設定された第2の閾値未満であると判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するように構成される。
本実施例のいくつかのオプション的な実施形態において、ターゲットモデルはコンテンツスコアリングモデルを含み、データ確定ユニット503は、さらに、ターゲットビデオにおける複数のビデオフレームに対し、コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るように構成される。
本実施例のいくつかのオプション的な実施形態において、装置は、ターゲットモデルの出力データが、確率スコアが予め設定された第3の閾値よりも大きいことを示すと判断されたことに応答して、ターゲットモデルの出力データが行動認識モデルに対応する条件を満たすと判定するように構成される第2条件判定ユニット504をさらに備える。
本実施例のいくつかのオプション的な実施形態において、データ確定ユニット503は、さらに、ターゲットビデオにおける複数のビデオフレームをコンテンツスコアリングモデルに入力し、コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて各ビデオフレーム間の差異特徴及び類似特徴を確定し、差異特徴及び類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するように構成される。
本実施例のいくつかのオプション的な実施形態において、条件判定ユニット504は、さらに、コンテンツスコアが予め設定された第3の閾値未満であると判断されたことに応答して、出力データがターゲットモデルに対応する条件を満たさないと判定するように構成される。
本実施例のいくつかのオプション的な実施形態において、ポスター特定ユニット505は、さらに、予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定し、出力データに基づいて、候補ビデオセグメントセットからダイナミックポスターを特定するように構成される。
本実施例のいくつかのオプション的な実施形態において、ポスター特定ユニット505は、さらに、出力データに基づいて、候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定し、各候補ビデオセグメントに対応するコンテンツスコアに基づいて、候補ビデオセグメントセットにおいてダイナミックポスターを特定するように構成される。
本実施例のいくつかのオプション的な実施形態において、データ確定ユニット503は、さらに、ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを取得し、ビデオフレームセット及びターゲットモデルに基づいて、ターゲットモデルの出力データを確定するように構成される。
本実施例のいくつかのオプション的な実施形態において、コンテンツスコアリングモデルは、サンプルビデオを取得するステップと、トレーニング対象のコンテンツスコアリングモデルにサンプルビデオを入力し、トレーニング対象のコンテンツスコアリングモデルが、サンプルビデオにおける各ビデオフレームの特徴情報を抽出し、特徴情報に基づいてサンプルビデオにおける各ビデオフレームのコンテンツスコアを確定し、サンプルビデオにおける各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを特定するようにするステップと、サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、セグメント内部パラメータ及びセグメント外部パラメータに基づいて、トレーニング対象のコンテンツスコアリングモデルをトレーニングし、トレーニングされたコンテンツスコアリングモデルを得るステップと、によってトレーニングされる。
本実施例のいくつかのオプション的な実施形態において、ポスター特定ユニット505は、さらに、ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定し、ターゲットビデオにおいて黒帯付きビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される。
本実施例のいくつかのオプション的な実施形態において、ポスター特定ユニット504は、さらに、ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定し、ターゲットビデオにおいて静止ビデオフレームを除くその他のビデオフレーム及び予め設定されたビデオセグメント長に基づいて、ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される。
ビデオを処理するための装置500に記載されているユニット501からユニット503がそれぞれ図2において説明した方法の各ステップに対応することを理解されたい。従って、上記のビデオを処理するための方法に対して説明する操作及び特徴は、装置500及びそれに含まれるユニットに同様に適用可能であり、ここでは説明を繰り返さない。
本出願の実施例によれば、本出願はさらに、電子機器、可読記憶媒体及びコンピュータプログラムを提供している。
図6は、本開示の実施例のビデオを処理するための方法を実施するための電子機器600のブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、その他の適切なコンピュータなど、さまざまな形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナル・デジタル・アシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他類似のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを表すこともできる。本明細書に示されている部品、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び/又は要求されている本開示の実施を制限するものではない。
図6に示すように、電子機器600は、コンピューティングユニット601を含み、これは、読み出し専用メモリ(ROM)602に記憶されたコンピュータプログラム、又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる。RAM603には、電子機器600の操作に必要な様々なプログラム及びデータがさらに記憶されていてもよい。コンピューティングユニット601、ROM602及びRAM603は、バス604を介して互いに接続されている。入/出力(I/O)インターフェース605もバス604に接続されている。
機器600内の複数のコンポーネント、例えば、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット609とを含むコンポーネントはI/Oインターフェース605に接続されている。通信ユニット609は、機器600が、インターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
コンピューティングユニット601は、処理及びコンピューティング機能を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。コンピューティングユニット601のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号コンピューティングユニット(DSP)、及び任意の適切なコンピューティングユニット、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット601は、上記で説明された各々の方法及び処理、例えば、ビデオを処理するための方法を実行する。例えば、いくつかの実施例では、ビデオを処理するための方法は、記憶ユニット608のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実施されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介して機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされ、コンピューティングユニット601によって実行されるとき、上記で説明されたビデオを処理するための方法の1つ又は複数のステップを実行することができる。或いは、他の実施例では、コンピューティングユニット601は、他の任意の適切な方法(例えば、ファームウェア)によって、ビデオ処理のための方法を実行するように構成されてもよい。
本明細書にて説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、プレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実施することができる。これら様々な実施形態は以下を含むことができる。すなわち、一つ又は複数のコンピュータプログラムにおいて実施され、該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルコンピューティングユニットを含むプログラム可能なシステムで実行、及び/又は解釈されてもよく、該プログラマブルコンピューティングユニットは、専用又は汎用のプログラマブルコンピューティングユニットであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び指令を受信するとともに、データ及び指令を該ストレージシステム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを使用して書くことができる。これらのプログラムコードは、プログラムコードがコンピューティングユニット又はコントローラによって実行されるときに、フローチャート及び/又はブロック図に規定された機能/操作を実施するように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のコンピューティングユニット又はコントローラに提供することができる。プログラムコードは、完全に機械上で実行するか、部分的に機械上で実行してもよく、独立したソフトウェアパッケージとして機械上で一部実行し且つ一部を遠隔機械上で実行するか又は完全に遠隔機械又はサーバ上で実行することができる。
本開示の文脈では、機械可読媒体は、コマンド実行システム、装置又は機器が使用するため、又はコマンド実行システム、装置、又は機器と組み合わせて使用するためのプログラムを含むか又は記憶することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、或いはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上で明細書において説明したシステム及び技術を実施してもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、及びユーザがコンピュータに入力を提供するためのキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)を有する。他の種類の装置は、ユーザとのインタラクションを提供するために用いられてもよく、例えば、ユーザに提供されるフィードバックは任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信することができる。
本明細書で説明されるシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又は、ミドルウェアコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、又は、フロントエンドコンポーネント(例えば、グラフィカルユーザインターフェース又はウェブブラウザを備えたユーザーコンピュータは、ユーザが該グラフィカルユーザインターフェース又は該ウェブブラウザを介して、本明細書で説明するシステム及び技術の実施形態とインタラクションすることができる)、又は、これらのバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。また、システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続することができる。通信ネットワークの例示として、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムにはクライアント及びサーバを含むことができる。クライアントとサーバは一般的に互いに離れており、通常は通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、対応するコンピュータにおいて実行されるとともに互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番で実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (33)

  1. ターゲットビデオを取得するステップと、
    予め設定された少なくとも1つのモデルからターゲットモデルを選択するステップと、
    前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップと、
    前記出力データが前記ターゲットモデルに対応する条件を満たさないと判断されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも1つのモデルから前記ターゲットモデルを再選択するステップと、
    前記出力データに基づいて前記ターゲットビデオからダイナミックポスターを特定するステップと、を含むビデオを処理するための方法。
  2. 前記ターゲットモデルは、
    選択回数を決定するステップと、
    前記予め設定された少なくとも1つのモデルから、予め設定されたモデル選択順番が前記選択回数とマッチするモデルを前記ターゲットモデルとして確定するステップと、
    によって選択される請求項1に記載のビデオを処理するための方法。
  3. 前記ターゲットモデルは、顔認識モデルを含み、
    前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
    前記ターゲットビデオ及び前記顔認識モデルに基づいて、前記ターゲットビデオにおける顔オブジェクトと予め設定された少なくとも1つの顔オブジェクトとの類似度を判定するステップを含む請求項1に記載のビデオを処理するための方法。
  4. 前記ターゲットビデオは、人の名前を含むタイトルを含み、
    前記方法は、
    前記類似度が予め設定された第1の閾値未満である場合、又は、前記類似度が前記第1の閾値以上であるが、前記ターゲットビデオにおける顔オブジェクトが前記人の名前とマッチしないと判断された場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するステップをさらに含む請求項3に記載のビデオを処理するための方法。
  5. 前記ターゲットモデルは、行動認識モデルを含み、
    前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
    前記ターゲットビデオ及び前記行動認識モデルに基づいて、前記ターゲットビデオにおける行動情報の、指定動作を含む確率スコアを確定するステップを含む請求項1に記載のビデオを処理するための方法。
  6. 前記確率スコアが予め設定された第2の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するステップをさらに含む請求項5に記載のビデオを処理するための方法。
  7. 前記ターゲットモデルは、コンテンツスコアリングモデルを含み、
    前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
    前記ターゲットビデオにおける複数のビデオフレームに対して、前記コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップを含む請求項1に記載のビデオを処理するための方法。
  8. 前記の、前記ターゲットビデオにおける複数のビデオフレームに対して、前記コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップは、
    前記ターゲットビデオにおける複数のビデオフレームを前記コンテンツスコアリングモデルに入力し、前記コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて各ビデオフレーム間の差異特徴及び類似特徴を確定し、前記差異特徴及び前記類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するようにするステップを含む請求項7に記載のビデオを処理するための方法。
  9. 前記コンテンツスコアが予め設定された第3の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するステップをさらに含む請求項7に記載のビデオを処理するための方法。
  10. 前記の、前記出力データに基づいて前記ターゲットビデオからダイナミックポスターを特定するステップは、
    予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、
    前記出力データに基づいて、前記候補ビデオセグメントセットからダイナミックポスターを特定するステップと、を含む請求項9に記載のビデオを処理するための方法。
  11. 前記の、前記出力データに基づいて、前記候補ビデオセグメントセットからダイナミックポスターを特定するステップは、
    前記出力データに基づいて、前記候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定するステップと、
    各候補ビデオセグメントに対応するコンテンツスコアに基づいて、前記候補ビデオセグメントセットにおいて前記ダイナミックポスターを特定するステップと、を含む請求項10に記載のビデオを処理するための方法。
  12. 前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
    前記ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを得るステップと、
    前記ビデオフレームセット及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップと、を含む請求項1に記載のビデオを処理するための方法。
  13. 前記コンテンツスコアリングモデルは、
    サンプルビデオを取得するステップと、
    前記サンプルビデオをトレーニング対象のコンテンツスコアリングモデルに入力して、前記トレーニング対象のコンテンツスコアリングモデルが、前記サンプルビデオの各ビデオフレームの特徴情報を抽出し、前記特徴情報に基づいて前記サンプルビデオの各ビデオフレームのコンテンツスコアを確定するとともに、前記サンプルビデオの各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを確定するようにするステップと、
    前記サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、
    前記セグメント内部パラメータ及び前記セグメント外部パラメータに基づいて、前記トレーニング対象のコンテンツスコアリングモデルをトレーニングして、トレーニング済みコンテンツスコアリングモデルを得るステップと、
    によってトレーニングされて得る請求項7に記載のビデオを処理するための方法。
  14. 前記の、予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、
    前記ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定するステップと、
    前記ターゲットビデオにおいて前記黒帯付きビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、
    を含む請求項10に記載のビデオを処理するための方法。
  15. 前記の、予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、
    前記ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定するステップと、
    前記ターゲットビデオにおいて前記静止ビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、を含む請求項10に記載のビデオを処理するための方法。
  16. ターゲットビデオを取得するように構成されるビデオ取得ユニットと、
    予め設定された少なくとも1つのモデルからターゲットモデルを選択するように構成されるモデル選択ユニットと、
    前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するように構成されるデータ確定ユニットと、
    前記出力データが前記ターゲットモデルに対応する条件を満たさないと判断されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも1つのモデルから前記ターゲットモデルを再選択するように構成される条件判定ユニットと、
    前記出力データに基づいて前記ターゲットビデオからダイナミックポスターを特定するように構成されるポスター特定ユニットと、を備えるビデオを処理するための装置。
  17. 前記ターゲットモデルは、
    選択回数を決定するステップと、
    前記予め設定された少なくとも1つのモデルから、予め設定されたモデル選択順番が前記選択回数とマッチするモデルを前記ターゲットモデルとして確定するステップと、
    によって選択される請求項16に記載のビデオを処理するための装置。
  18. 前記ターゲットモデルは、顔認識モデルを含み、
    前記データ確定ユニットは、さらに、
    前記ターゲットビデオ及び前記顔認識モデルに基づいて、前記ターゲットビデオにおける顔オブジェクトと予め設定された少なくとも1つの顔オブジェクトとの類似度を判定するように構成される請求項16に記載のビデオを処理するための装置。
  19. 前記ターゲットビデオは、人の名前を含むタイトルを含み、
    前記条件判定ユニットは、さらに、
    前記類似度が予め設定された第1の閾値未満である場合、又は、前記類似度が前記第1の閾値以上であるが、前記ターゲットビデオにおける顔オブジェクトが前記人の名前とマッチしないと判断された場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するように構成される請求項18に記載のビデオを処理するための装置。
  20. 前記ターゲットモデルは、行動認識モデルを含み、
    前記データ確定ユニットは、さらに、
    前記ターゲットビデオ及び前記行動認識モデルに基づいて、前記ターゲットビデオにおける行動情報の、指定動作を含む確率スコアを確定するように構成される請求項16に記載のビデオを処理するための装置。
  21. 前記条件判定ユニットは、さらに、
    前記確率スコアが予め設定された第2の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するように構成される請求項20に記載のビデオを処理するための装置。
  22. 前記ターゲットモデルは、コンテンツスコアリングモデルを含み、
    前記データ確定ユニットは、さらに、
    前記ターゲットビデオにおける複数のビデオフレームに対して、前記コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るように構成される請求項16に記載のビデオを処理するための装置。
  23. 前記データ確定ユニットは、さらに、
    前記ターゲットビデオにおける複数のビデオフレームを前記コンテンツスコアリングモデルに入力し、前記コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて各ビデオフレーム間の差異特徴及び類似特徴を確定し、前記差異特徴及び前記類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するように構成される請求項22に記載のビデオを処理するための装置。
  24. 前記条件判定ユニットは、さらに、
    前記コンテンツスコアが予め設定された第3の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するように構成される請求項2に記載のビデオを処理するための装置。
  25. 前記ポスター特定ユニットは、さらに、
    予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定し、
    前記出力データに基づいて、前記候補ビデオセグメントセットからダイナミックポスターを特定するように構成される請求項24に記載のビデオを処理するための装置。
  26. 前記ポスター特定ユニットは、さらに、
    前記出力データに基づいて、前記候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定し、
    各候補ビデオセグメントに対応するコンテンツスコアに基づいて、前記候補ビデオセグメントセットにおいて前記ダイナミックポスターを特定するように構成される請求項25に記載のビデオを処理するための装置。
  27. 前記データ確定ユニットは、さらに、
    前記ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを取得し、
    前記ビデオフレームセット及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するように構成される請求項16に記載のビデオを処理するための装置。
  28. 前記コンテンツスコアリングモデルは、
    サンプルビデオを取得するステップと、
    前記サンプルビデオをトレーニング対象のコンテンツスコアリングモデルに入力して、前記トレーニング対象のコンテンツスコアリングモデルが、前記サンプルビデオの各ビデオフレームの特徴情報を抽出し、前記特徴情報に基づいて前記サンプルビデオの各ビデオフレームのコンテンツスコアを確定するとともに、前記サンプルビデオの各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを確定するようにするステップと、
    前記サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、
    前記セグメント内部パラメータ及び前記セグメント外部パラメータに基づいて、前記トレーニング対象のコンテンツスコアリングモデルをトレーニングして、トレーニング済みコンテンツスコアリングモデルを得るステップと、
    によってトレーニングされて得る請求項22に記載のビデオを処理するための装置。
  29. 前記ポスター特定ユニットは、さらに、
    前記ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定し、
    前記ターゲットビデオにおいて前記黒帯付きビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される請求項25に記載のビデオを処理するための装置。
  30. 前記ポスター特定ユニットは、さらに、
    前記ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定し、
    前記ターゲットビデオにおいて前記静止ビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される請求項25に記載のビデオを処理するための装置。
  31. 1つ又は複数のコンピューティングユニットと、
    1つ又は複数のコンピュータプログラムが格納されている記憶ユニットと、を備え、
    前記1つ又は複数のコンピュータプログラムが前記1つ又は複数のコンピューティングユニットによって実行されるとき、前記1つ又は複数のコンピューティングユニットに請求項1~15のいずれか1項に記載の方法が実行される、ビデオを処理するための電子機器。
  32. 請求項1~15のいずれか1項に記載の方法をコンピュータに実行させるためのコンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体。
  33. コンピューティングユニットにより実行されるとき、請求項1~15のいずれか1項に記載の方法が実現されるコンピュータプログラム。
JP2021100506A 2020-12-17 2021-06-16 ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム Active JP7394809B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011496732.6 2020-12-17
CN202011496732.6A CN112559800B (zh) 2020-12-17 2020-12-17 用于处理视频的方法、装置、电子设备、介质和产品

Publications (2)

Publication Number Publication Date
JP2022088304A JP2022088304A (ja) 2022-06-14
JP7394809B2 true JP7394809B2 (ja) 2023-12-08

Family

ID=75064731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021100506A Active JP7394809B2 (ja) 2020-12-17 2021-06-16 ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11856277B2 (ja)
EP (1) EP3872652B1 (ja)
JP (1) JP7394809B2 (ja)
KR (1) KR102576344B1 (ja)
CN (1) CN112559800B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627363B (zh) * 2021-08-13 2023-08-15 百度在线网络技术(北京)有限公司 视频文件的处理方法、装置、设备以及存储介质
CN114363660B (zh) * 2021-12-24 2023-09-08 腾讯科技(武汉)有限公司 视频合集确定方法、装置、电子设备及存储介质
CN114449362B (zh) * 2022-03-17 2023-08-22 腾讯科技(上海)有限公司 视频封面的选取方法、装置、设备及存储介质
CN114827730A (zh) * 2022-04-19 2022-07-29 咪咕文化科技有限公司 视频封面选取方法、装置、设备及存储介质
CN116777914B (zh) * 2023-08-22 2023-11-07 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及计算机可读存储介质
CN117651159B (zh) * 2024-01-29 2024-04-23 杭州锐颖科技有限公司 一种运动实时视频自动剪辑推送方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000311180A (ja) 1999-03-11 2000-11-07 Fuji Xerox Co Ltd 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
JP2010502085A (ja) 2006-08-25 2010-01-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディアコンテンツアイテムのサマリーを自動生成する方法及び装置
JP2013207530A (ja) 2012-03-28 2013-10-07 Sony Corp 情報処理装置、情報処理方法、及びプログラム
JP2020516107A (ja) 2017-05-05 2020-05-28 グーグル エルエルシー ビデオコンテンツの要約処理
CN111274444A (zh) 2020-02-24 2020-06-12 北京达佳互联信息技术有限公司 视频封面确定模型的生成方法及装置、视频封面确定方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7760956B2 (en) * 2005-05-12 2010-07-20 Hewlett-Packard Development Company, L.P. System and method for producing a page using frames of a video stream
US20110047163A1 (en) 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
US9508390B2 (en) 2013-07-12 2016-11-29 Apple Inc. Trick play in digital video streaming
US9344626B2 (en) 2013-11-18 2016-05-17 Apple Inc. Modeless video and still frame capture using interleaved frames of video and still resolutions
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
US10331766B2 (en) * 2015-06-07 2019-06-25 Apple Inc. Templating for content authoring and distribution
US9818032B2 (en) 2015-10-28 2017-11-14 Intel Corporation Automatic video summarization
CN109145784B (zh) * 2018-08-03 2022-06-03 百度在线网络技术(北京)有限公司 用于处理视频的方法和装置
CN109977839A (zh) * 2019-03-20 2019-07-05 北京字节跳动网络技术有限公司 信息处理方法和装置
WO2020190112A1 (en) 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data
CN110399848A (zh) * 2019-07-30 2019-11-01 北京字节跳动网络技术有限公司 视频封面生成方法、装置及电子设备
CN110909205B (zh) * 2019-11-22 2023-04-07 北京金山云网络技术有限公司 一种视频封面确定方法、装置、电子设备及可读存储介质
CN111432282B (zh) 2020-04-01 2022-01-04 腾讯科技(深圳)有限公司 一种视频推荐方法及装置
CN111491173B (zh) * 2020-04-15 2023-08-08 腾讯科技(深圳)有限公司 一种直播封面确定方法、装置、计算机设备及存储介质
CN111787356B (zh) 2020-07-09 2022-09-30 易视腾科技股份有限公司 目标视频片段提取方法和装置
CN111918130A (zh) 2020-08-11 2020-11-10 北京达佳互联信息技术有限公司 视频封面确定方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000311180A (ja) 1999-03-11 2000-11-07 Fuji Xerox Co Ltd 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
JP2010502085A (ja) 2006-08-25 2010-01-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディアコンテンツアイテムのサマリーを自動生成する方法及び装置
JP2013207530A (ja) 2012-03-28 2013-10-07 Sony Corp 情報処理装置、情報処理方法、及びプログラム
JP2020516107A (ja) 2017-05-05 2020-05-28 グーグル エルエルシー ビデオコンテンツの要約処理
CN111274444A (zh) 2020-02-24 2020-06-12 北京达佳互联信息技术有限公司 视频封面确定模型的生成方法及装置、视频封面确定方法及装置

Also Published As

Publication number Publication date
JP2022088304A (ja) 2022-06-14
CN112559800B (zh) 2023-11-14
CN112559800A (zh) 2021-03-26
US11856277B2 (en) 2023-12-26
US20210303864A1 (en) 2021-09-30
EP3872652B1 (en) 2023-12-20
KR102576344B1 (ko) 2023-09-08
KR20210091076A (ko) 2021-07-21
EP3872652A3 (en) 2021-12-15
EP3872652A2 (en) 2021-09-01

Similar Documents

Publication Publication Date Title
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN109117777B (zh) 生成信息的方法和装置
US11436863B2 (en) Method and apparatus for outputting data
CN108989882B (zh) 用于输出视频中的音乐片段的方法和装置
WO2019242222A1 (zh) 用于生成信息的方法和装置
CN113378784B (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
CN109582825B (zh) 用于生成信息的方法和装置
CN113806588B (zh) 搜索视频的方法和装置
CN116166827B (zh) 语义标签抽取模型的训练和语义标签的抽取方法及其装置
JP2023535108A (ja) ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN114627556B (zh) 动作检测方法、动作检测装置、电子设备以及存储介质
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
CN106959945B (zh) 基于人工智能的为新闻生成短标题的方法和装置
CN113361462B (zh) 视频处理和字幕检测模型的方法及装置
US10910014B2 (en) Method and apparatus for generating video
CN113688938A (zh) 确定对象情感的方法、训练情感分类模型的方法及装置
CN113378774A (zh) 手势识别方法、装置、设备、存储介质以及程序产品
CN113360712B (zh) 视频表示的生成方法、装置和电子设备
CN114697761B (zh) 一种处理方法、装置、终端设备及介质
CN112650830B (zh) 关键词提取方法、装置、电子设备和存储介质
CN114501112B (zh) 用于生成视频笔记的方法、装置、设备、介质和产品
CN114664307A (zh) 语音识别方法、装置、电子设备和存储介质
CN116468001A (zh) 视频目录生成、视频播放以及深度学习模型的训练方法
CN113934918A (zh) 用于直播的搜索方法、装置、电子设备以及存储介质
CN116091966A (zh) 视频特征提取方法、视频满意度评价方法及相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231128

R150 Certificate of patent or registration of utility model

Ref document number: 7394809

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150