JP2021519474A - ビデオ処理方法及び装置、電子機器並びに記憶媒体 - Google Patents

ビデオ処理方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2021519474A
JP2021519474A JP2020573569A JP2020573569A JP2021519474A JP 2021519474 A JP2021519474 A JP 2021519474A JP 2020573569 A JP2020573569 A JP 2020573569A JP 2020573569 A JP2020573569 A JP 2020573569A JP 2021519474 A JP2021519474 A JP 2021519474A
Authority
JP
Japan
Prior art keywords
video
feature information
feature
target
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020573569A
Other languages
English (en)
Other versions
JP6916970B2 (ja
Inventor
▲湯▼▲曉▼▲鴎▼
邵典
熊宇
▲趙▼岳
黄青▲ちう▼
▲喬▼宇
林▲達▼▲華▼
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021519474A publication Critical patent/JP2021519474A/ja
Application granted granted Critical
Publication of JP6916970B2 publication Critical patent/JP6916970B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本出願は、ビデオ処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、複数のビデオのうちの、クエリテキスト段落に関連する予備選択ビデオを決定することと、予備選択ビデオのビデオフレーム情報及びクエリテキスト段落のセンテンス情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定することとを含む。本出願の実施例のビデオ処理方法によれば、ビデオとクエリテキスト段落との相関性に基づいてビデオを検索し、ターゲットビデオを正確にクエリし、冗長な検出結果を避けることができる。また、自然言語のようなクエリテキスト段落を処理することができ、コンテンツタグの固有コンテンツによる制限を受けることがない。【選択図】図1

Description

(関連出願の相互参照)
本出願は、2018年8月7日に中国特許局に提出された出願番号が201810892997.4であり、発明名称が「ビデオ処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願に基づく優先権を主張するものであり、該中国特許出願の全ての内容を参照として本出願に援用する。
本出願は、コンピュータ技術分野に関し、特にビデオ処理方法及び装置、電子機器並びに記憶媒体に関する。
関連技術において、センテンスによりビデオライブラリーにおけるビデオをクエリ又は検索する。ビデオライブラリーにおけるビデオにコンテンツタグを予め定義して、タグによりビデオを検索することが一般的である。幾つかのビデオに対して、コンテンツタグの定義が困難であり、且つコンテンツタグが拡張性を有していないため、タグに含まれないビデオコンテンツを検出することができない。また、異なるビデオのコンテンツタグが重複することがあるため、冗長な検索結果を引き起こす可能性がある。従って、コンテンツタグによれば、自然言語のようにコンテンツを処理するのが困難である。
本出願は、ビデオ処理方法及び装置、電子機器並び記憶媒体を提供する。
本出願の一態様によれば、ビデオ処理方法を提供する。該方法は、クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することと、前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することとを含む。
本出願の実施例のビデオ処理方法は、クエリテキスト段落の段落情報及びビデオのビデオ情報に基づいて、予備選択ビデオを決定し、クエリテキスト段落のセンテンス情報及び予備選択ビデオのビデオフレーム情報に基づいてターゲットビデオを決定する。ビデオとクエリテキスト段落との相関性に基づいてビデオを検索し、ターゲットビデオを正確にクエリし、冗長な検出結果を避ける。また、自然言語のようなクエリテキスト段落を処理することができ、コンテンツタグの固有コンテンツによる制限を受けることがない。
本出願のもう1つの態様によれば、ビデオ処理装置を提供する。該装置は、クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュールと、前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュールとを備える。
本出願のもう1つの態様によれば、電子機器を提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するためのメモリと備え、前記プロセッサは、上記ビデオ処理方法を実行するように構成される。
本出願のもう1つの態様によれば、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、上記ビデオ処理方法を実現させる。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。
本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
本出願の実施例によるビデオ処理方法を示すフローチャートである。 本出願の実施例によるビデオ処理方法を示すフローチャートである。 本出願の実施例によるビデオ処理方法を示すフローチャートである。 本出願の実施例によるビデオ処理方法を示すフローチャートである。 本出願の実施例によるビデオ処理方法の適用を示す概略図である。 本出願の実施例によるビデオ処理装置を示すブロック図である。 本出願の実施例による電子機器を示すブロック図である。 本出願の実施例による電子機器を示すブロック図である。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。
以下、図面を参照しながら本出願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。
ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
なお、本出願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
図1は、本出願の実施例によるビデオ処理方法を示すフローチャートである。図1に示すように、ビデオ処理方法は以下を含む。
ステップS11において、クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定する。
ステップS12において、予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定する。
本出願の実施例のビデオ処理方法は、クエリテキスト段落の段落情報及びビデオのビデオ情報に基づいて、予備選択ビデオを決定し、クエリテキスト段落のセンテンス情報及び予備選択ビデオのビデオフレーム情報に基づいてターゲットビデオを決定する。ビデオとクエリテキスト段落との相関性に基づいてビデオを検索し、ターゲットビデオを正確にクエリし、冗長な検出結果を避ける。また、自然言語のようなクエリテキスト段落を処理することができ、コンテンツタグの固有コンテンツによる制限を受けることがない。
可能な実現形態において、ビデオ処理方法は、端末装置やサーバ又は他の処理装置により実行されてもよい。ここで、端末装置は、ユーザ装置(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該ビデオ処理方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。データベースにおけるビデオを検索又はクエリする時、クエリテキスト段落を入力することができる。クエリテキスト段落には、1つ又は複数のセンテンスが含まれる。データベースにおいて、クエリテキスト段落で記述されたコンテンツに最も近似したビデオをクエリすることができる。
可能な実現形態において、センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含む。段落情報は、クエリテキスト段落の第2特徴情報を含む。ビデオフレーム情報は、ビデオの複数のビデオフレームの第4特徴情報を含む。ビデオ情報は、ビデオの第3特徴情報を含む。
可能な実現形態において、クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報を取得し、クエリテキスト段落の第2特徴情報を決定することができる。ここで、センテンスの第1特徴情報は、センテンスのセマンティクスを表す特徴ベクトルであってもよく、前記方法は、クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、1つ又は複数のセンテンスの第1特徴情報を取得することと、クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、クエリテキスト段落の第2特徴情報を決定することとを含む。
可能な実現形態において、セマンティクス認識等の方法により、1つ又は複数のセンテンスのコンテンツに対して特徴抽出を行い、1つ又は複数のセンテンスの第1特徴情報を取得することができる。例えば、,ニューラルネットワークにより、1つ又は複数のセンテンスのコンテンツに対してセマンティクス認識を行い、1つ又は複数のセンテンスのコンテンツに対して特徴抽出を行い、1つ又は複数のセンテンスの第1特徴情報を取得することができる。本出願は、1つ又は複数のセンテンスのコンテンツの特徴抽出方法を限定するものではない。
可能な実現形態において、第1特徴情報は、センテンスのセマンティクスを表す特徴ベクトルであってもよい。クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報をフュージョンし、クエリテキスト段落の第2特徴情報を取得することができる。第2特徴情報は、クエリテキスト段落のセマンティクスを表す特徴ベクトルであってもよい。例において、第1特徴情報は、センテンスのセマンティクスを表す特徴ベクトルである。1つ又は複数のセンテンスの第1特徴情報に対して、加算処理、平均化処理又は他の処理を行い、クエリテキスト段落の第2特徴情報を取得することができる。例えば、クエリテキスト段落にM個のセンテンスが含まれ、M個のセンテンスの第1特徴情報がそれぞれs,s,…,sであり、s,s,…,sに対して加算処理、平均化処理又は他の処理を行い、クエリテキスト段落の第2特徴情報Pとなるようにフュージョンする。第2特徴情報Pは、次元がs, s,…,sの次元と同じである特徴ベクトルである。本出願は、クエリテキスト段落の第2特徴情報の取得方法を限定するものではない。
このような形態によれば、クエリテキスト段落における各センテンスの第1特徴情報を抽出することで、クエリテキスト段落の第2特徴情報を取得することができ、第2特徴情報により、クエリテキスト段落のセマンティクスを正確に表すことができる。
可能な実現形態において、ビデオの各ビデオフレームの第4特徴情報を取得し、第4特徴情報に基づいてビデオの第3特徴情報を取得することができる。前記方法は、複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、第2ビデオの複数のビデオフレームの第4特徴情報を取得することと、第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、第2ビデオの第3特徴情報を決定することとを更に含む。
可能な実現形態において、第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、第2ビデオの複数のビデオフレームの第4特徴情報を取得することができる。例において、第2ビデオにおける各ビデオフレームに対してい特徴抽出処理を行ってもよいし、所定のフレーム数おきに1つのビデオフレームを選択して特徴抽出処理を行ってもよい。例において、5つのビデオフレームおきに(つまり、6つのビデオフレーム毎に)1つのビデオフレームを選択して特徴抽出処理を行うことができる(つまり、6つのビデオフレームから選択された1つのビデオフレームの特徴情報を第4特徴情報として決定する)。又は、該6つのビデオフレームの特徴情報をフュージョン処理し(例えば、加算処理、平均化処理又は他の処理を行い、つまり、6つのビデオフレームの特徴情報を1つにフュージョンし、6つのビデオフレームの特徴情報をフュージョンして得られた特徴情報を第4特徴情報と決定する)、第2ビデオの各ビデオフレームの特徴情報をそれぞれ抽出して第4特徴情報とすることもできる。例において、第4特徴情報は、ビデオフレームにおける特徴情報を表す特徴ベクトルであってもよい。例えば、第4特徴情報は、ビデオフレームにおける人物、衣類の色、動作及びシーンなどの特徴情報を表すことができる。畳み込みニューラルネットワークにより、ビデオフレームに対して特徴抽出処理を行うことができる。本出願は、ビデオフレームにおける特徴情報の抽出方法を限定するものではない。
可能な実現形態において、第2ビデオの複数のビデオフレームの第4特徴情報をフュージョンし、第2ビデオの第3特徴情報を取得することができる。例において、第4特徴情報は、ビデオフレームにおける特徴情報を表す特徴ベクトルである。複数の第4特徴情報に対して、加算処理、平均化処理又は他の処理を行い、第2ビデオの第3特徴情報を取得することができる。第3特徴情報は、第2ビデオの特徴情報を表す特徴ベクトルであってもよい。例えば、第2ビデオの複数のビデオフレームにおいて、T(Tが正整数である)個のビデオフレームの第4特徴情報f,f,…,fを取得する。f,f,…,fに対して、加算処理、平均化処理又は他の処理を行い、第2ビデオの第3特徴情報Vとなるようにフュージョンすることができる。1≦i≦Nであり、Nは、ビデオライブラリーにおけるビデオ数である。本出願は、第3特徴情報の取得方法を限定するものではない。
可能な実現形態において、ステップS11を実行する前に、ビデオライブラリーにおける全てのビデオに対して予め特徴抽出を行い、ビデオライブラリーにおける全てのビデオの第3特徴情報及び第4特徴情報を取得することができる。ビデオライブラリーに新たなビデオが追加された場合、新たなビデオに対して特徴抽出を行い、新たなビデオの第3特徴情報及び第4特徴情報を取得することができる。
このような形態によれば、第2ビデオにおけるビデオフレームの第4特徴情報を抽出することで、第2ビデオの第3特徴情報を取得し、第3特徴情報により、第2ビデオの特徴情報を正確に表すことができる。
図2は、本出願の実施例によるビデオ処理方法を示すフローチャートである。図2に示すように、ステップS11は以下を含む。
ステップS111において、クエリテキスト段落の第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、複数のビデオのうちの、クエリテキスト段落に関連する予備選択ビデオを決定する。
可能な実現形態において、第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、複数のビデオのうちの、クエリテキスト段落に関連する予備選択ビデオを決定することは、第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、クエリテキスト段落と複数のビデオとの第1相関性スコアをそれぞれ決定することと、第1相関性スコアに基づいて、複数のビデオのうちの予備選択ビデオを決定することとを含む。
可能な実現形態において、第2特徴情報は、クエリテキスト段落のセマンティクスを表す特徴ベクトルであってもよい。第3特徴情報は、第2ビデオの特徴情報を表す特徴ベクトルであってもよい。第2特徴情報と第3特徴情報とは、次元が異なってもよい。つまり、第2特徴情報と第3特徴情報は、同一次元のベクトル空間に位置しなくてもよい。従って、第2特徴情報及び第3特徴情報を処理し、処理された第2特徴情報及び第3特徴情報を同一次元のベクトル空間に位置させることができる。
可能な実現形態において、第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、クエリテキスト段落と複数のビデオとの第1相関性スコアをそれぞれ決定することは、複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを取得することと、第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度をクエリテキスト段落と第1ビデオとの第1相関性スコアとして決定することとを含む。
このような態様によれば、第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度をクエリテキスト段落と第1ビデオとの第1相関性スコアとして決定することで、クエリテキスト段落のセマンティクスコンテンツと第1ビデオの特徴情報との相関性を正確に決定することができる。
可能な実現形態において、マッピング形態により、第1ビデオの第3特徴情報及び第2特徴情報を同一次元のベクトル空間にマッピングすることができる。例において、第1ビデオの第3特徴情報は特徴ベクトルVであり、1≦j≦Nである。クエリテキスト段落の第2特徴情報は特徴ベクトルPであり、PとVとは、次元が異なる。マッピング形態により、P及びVを同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル
Figure 2021519474
及びクエリテキスト段落の第2特徴ベクトル
Figure 2021519474
を取得することができる。
可能な実現形態において、ニューラルネットワークを利用して第3特徴情報及び第2特徴情報を同一次元のベクトル空間にマッピングすることができる。例において、第1ビデオの第3特徴情報及び第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを取得することは、第1ニューラルネットワークを利用して第3特徴情報を第3特徴ベクトルとなるようにマッピングし、第2ニューラルネットワークを利用して第2特徴情報を第2特徴ベクトルとなるようにマッピングすることを含む。
例において、第1ニューラルネットワーク及び第2ニューラルネットワークは、逆伝播(back propagation:BP)ニューラルネットワーク、畳み込みニューラルネットワーク又は再帰型ニューラルネットワークなどであってもよい。本出願は、第1ニューラルネットワーク及び第2ニューラルネットワークのタイプを限定するものではない。例えば、第3特徴情報Vの次元が10であり、第2特徴情報Pの次元が6である。1つの同一次元のベクトル空間を決定する。例えば、ベクトル空間の次元が8である。第1ニューラルネットワーク
Figure 2021519474
を利用して10次元の第3特徴情報Vを8次元のベクトル空間にマッピングし、8次元の第3特徴ベクトル
Figure 2021519474
を取得し、第2ニューラルネットワーク
Figure 2021519474
を利用して6次元の第2特徴情報Pを8次元のベクトル空間にマッピングし、8次元の第2特徴ベクトル
Figure 2021519474
を取得することができる。本出願は、次元数を限定するものではない。
可能な実現形態において、第2特徴ベクトル
Figure 2021519474
と第三特徴ベクトル
Figure 2021519474
とのコサイン類似度を決定し、
Figure 2021519474
とのコサイン類似度をクエリテキスト段落と第1ビデオとの第1相関性スコアSt(V、 P)と決定することができる。
可能な実現形態において、第1ニューラルネットワーク
Figure 2021519474
を利用してビデオライブラリーにおける各ビデオの第3特徴情報V,V,…,Vをマッピングし、ビデオライブラリーにおける全てのビデオの第3特徴ベクトル
Figure 2021519474
を得て、第2特徴ベクトル
Figure 2021519474
と全てのビデオの第3特徴ベクトル
Figure 2021519474
とのコサイン類似度をそれぞれ決定し、クエリテキスト段落と各ビデオとの第1相関性スコアとする。第1相関性スコアに基づいて、複数のビデオのうちの予備選択ビデオを決定することができる。例えば、第1相関性スコアがスコア閾値より高いビデオを予備選択ビデオとして選択することができる。又は、複数のビデオを第1相関性スコアに応じて順序付け、ビデオ配列内の所定の数のビデオを予備選択ビデオとして選択することができる。本出願は、予備選択の選択形態及び選択数を限定するものではない。
このような態様によれば、第2特徴情報及び第3特徴情報により、クエリテキスト段落とビデオとの第1相関性スコアを決定し、第1相関性スコアに基づいて、予備選択ビデオを選択し、予備選択ビデオの選択の正確度を向上させることができる。また、予備選択ビデオを選択してから、ビデオライブラリーにおける全てのビデオを処理する必要がなく、予備選択ビデオのみに対して処理を行い、演算のオーバヘッドを削減し、処理効率を向上させる。
可能な実現形態において、第1ニューラルネットワーク及び第2ニューラルネットワークを利用してマッピング処理を行う前に、第1ニューラルネットワーク及び第2ニューラルネットワークをトレーニングすることができる。前記方法は、サンプルビデオの第3サンプル特徴情報及びサンプルテキスト段落の第2サンプル特徴情報に基づいて、第1ニューラルネットワーク及び第2ニューラルネットワークをトレーニングすることを更に含む。
可能な実現形態において、ビデオライブラリーにおけるビデオをサンプルビデオとして用いてもよいし、他のビデオライブラリーにおけるビデオをサンプルビデオとして用いてもよい。本出願は、サンプルビデオを限定するものではない。サンプルビデオのビデオフレームの第4サンプル特徴情報を抽出し、第4サンプル特徴情報に基づいて、サンプルビデオの第3サンプル特徴情報を決定することができる。
可能な実現形態において、任意のクエリテキスト段落を入力してサンプルテキスト段落とすることができる。サンプルテキスト段落は、1つ又は複数のセンテンスを含んでもよい。トレーニングセンテンスの第1サンプル特徴情報を抽出し、第1サンプル特徴情報に基づいてサンプルテキスト段落の第2サンプル特徴情報を決定することができる。サンプルビデオにおいて、サンプルテキスト段落に対応するビデオが存在する。つまり、コンテンツがサンプルテキスト段落のコンテンツと一致するサンプルビデオが存在する。
可能な実現形態において、複数のサンプルビデオの第3サンプル特徴情報を第1ニューラルネットワークに入力してマッピングし、第3サンプル特徴ベクトルを得ることができる。サンプルテキスト段落の第2サンプル特徴情報を第2ニューラルネットワークに入力し、第2サンプル特徴ベクトルを得ることができる。
可能な実現形態において、第2サンプル特徴ベクトルと各第3サンプル特徴ベクトルとのコサイン類似度をそれぞれ決定し、コサイン類似度に基づいて第1総合ネットワーク損失を決定することができる。例において、下記式(1)により、第1総合ネットワーク損失を決定することができ、
Figure 2021519474
ただし、
Figure 2021519474
は、第1総合ネットワーク損失であり、
Figure 2021519474
は、a番目のサンプルテキスト段落の第2サンプル特徴ベクトルとb番目のサンプルビデオの第3サンプル特徴ベクトルとのコサイン類似度である。ただし、
Figure 2021519474
は、a番目のサンプルテキスト段落に対応するサンプルビデオの第3サンプル特徴情報であり、
Figure 2021519474
は、a番目のサンプルテキスト段落の第2サンプル特徴ベクトルと、対応するサンプルビデオの第3サンプル特徴ベクトルとのコサイン類似度である。a及びbはいずれも正整数である。
Figure 2021519474
は、設定された定数であり、例において、
Figure 2021519474
は、0.2としてもよい。
可能な実現形態において、第1総合ネットワーク損失を利用して第1ニューラルネットワーク及び第2ニューラルネットワークのネットワークパラメータを調整することができる。例において、第1総合ネットワーク損失を最小化させるように、第1ニューラルネットワーク及び第2ニューラルネットワークのネットワークパラメータを調整し、調整された第1ニューラルネットワーク及び第2ニューラルネットワークに、良いフィッティング度合いを持たせると共に、過剰フィッティングを避ける。本出願は、第1ニューラルネットワーク及び第2ニューラルネットワークのネットワークパラメータの調整方法を限定するものではない。
可能な実現形態において、第1ニューラルネットワーク及び第2ニューラルネットワークのネットワークパラメータを調整するステップを繰り返して実行することができ、第1総合ネットワーク損失を低下又は収束させるように、第1ニューラルネットワーク及び第2ニューラルネットワークのネットワークパラメータを逐次的に調整する。例において、サンプルテキスト段落を所定の回数で入力し、つまり、所定の回数繰り返して実行する。例において、繰り返して実行する回数を限定しなくてもよい。第1総合ネットワーク損失が一定程度まで低減したか又は所定の閾値内に収束した時、繰り返しを中止し、繰り返して調整された第1ニューラルネットワーク及び第2ニューラルネットワークを得る。繰り返して調整された第1ニューラルネットワーク及び第2ニューラルネットワークを、第1ビデオの第3特徴情報及びクエリテキスト段落の第2特徴情報のマッピングプロセスに用いることができる。
図3は、本出願の実施例によるビデオ処理方法を示すフローチャートである。図3に示すように、ステップS12は以下を含む。
ステップS121において、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報及び予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定する。
可能な実現形態において、1つ又は複数のセンテンスの第1特徴情報及び予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、クエリテキスト段落と予備選択ビデオのうちのビデオとの相関性を更に決定することができる。
可能な実現形態において、1つ又は複数のセンテンスの第1特徴情報及び予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定することは、1つ又は複数のセンテンスの第1特徴情報及び予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、クエリテキスト段落と予備選択ビデオとの第2相関性スコアを決定することと、第1相関性スコア及び第2相関性スコアに基づいて、予備選択ビデオのうちのターゲットビデオを決定することとを含む。
可能な実現形態において、1つ又は複数のセンテンスの第1特徴情報及び予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、クエリテキスト段落と予備選択ビデオとの第2相関性スコアを決定することは、予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得ることと、第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定することであって、ターゲットセンテンスが、1つ又は複数のセンテンスのうちのいずれか1つであることと、ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることと、ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定することと、1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、クエリテキスト段落とターゲット予備選択ビデオとの第2相関性スコアを決定することとを含む。
このような形態によれば、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいてクエリテキスト段落とターゲット予備選択ビデオとの第2相関性スコアを決定し、クエリテキスト段落のセマンティクスコンテンツとターゲット予備選択ビデオとの相関性を正確に決定することができる。
可能な実現形態において、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報の次元は、1つ又は複数のセンテンスの第1特徴情報の次元と異なる。マッピング形態により、第4特徴情報及び第1特徴情報を同一次元のベクトル空間にマッピングすることができる。例において、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報は、特徴ベクトルf,f,…,f(Kは、ターゲット予備選択ビデオのビデオフレームの数であり、Kは正整数である)であってもよく、1つ又は複数のセンテンスの第1特徴情報は、特徴ベクトルs,s,…,s(Mは、クエリテキスト段落のセンテンスの数であり、Mは正整数である)であってもよい。マッピング形態により、f,f,…,f及びs,s,…,sを同一次元のベクトル空間にマッピングし、第4特徴ベクトル
Figure 2021519474
及び第1特徴ベクトル
Figure 2021519474
を得ることができる。
可能な実現形態において、ニューラルネットワークを利用して第4特徴情報及び第1特徴情報を同一次元のベクトル空間にマッピングすることができる。例において、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得ることは、第3ニューラルネットワークを利用して第4特徴情報を第4特徴ベクトルとなるようにマッピングし、第4ニューラルネットワークを利用して第1特徴情報を第1特徴ベクトルとなるようにマッピングすることを含む。
例において、第3ニューラルネットワーク及び第4ニューラルネットワークは、BPニューラルネットワーク、畳み込みニューラルネットワーク又は再帰型ニューラルネットワーク等でってもよい。本出願は、第3ニューラルネットワーク及び第4ニューラルネットワークのタイプを限定するものではない。例えば、第4特徴情報f, f,…,fの次元が10であり、第1特徴情報s,s,…,sの次元が6である。同一次元のベクトル空間を決定する。例えば、ベクトル空間の次元が8である。第3ニューラルネットワーク
Figure 2021519474
を利用して10次元の第4特徴情報f,f,…,fを8次元のベクトル空間にマッピングし、8次元の第4特徴ベクトル
Figure 2021519474
を得て、第4ニューラルネットワーク
Figure 2021519474
を利用して6次元の第1特徴情報s,s,…,sを8次元のベクトル空間にマッピングし、8次元の第1特徴ベクトル
Figure 2021519474
を得ることができる。本出願は、次元数を限定するものではない。
可能な実現形態において、第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上である目標特徴ベクトルを決定することができる。例において、1つ又は複数のセンテンスからいずれか1つのセンテンスを選択してターゲットセンテンスとし(例えば、y番目のセンテンスを選択してターゲットセンテンスとし、1≦y≦Kである)、ターゲット予備選択ビデオの複数の第4特徴ベクトル
Figure 2021519474
と、ターゲットセンテンスの第1特徴ベクトルsとのコサイン類似度をそれぞれ算出し、複数の第4特徴ベクトル
Figure 2021519474
において、第1特徴ベクトルsとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定する。例えば、
Figure 2021519474
であり、ただし、1≦h≦K、1≦u≦K、1≦q≦Kである。類似度閾値は、0.5などのような事前設定された閾値であってもよい。本出願は、類似度閾値を限定するものではない。
可能な実現形態において、ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることができる。例において、第4特徴情報は、ターゲット予備選択ビデオにおいて、5つのビデオフレームおきに(つまり、6つのビデオフレーム毎に)1つのビデオフレームを選択して特徴抽出処理を行うことで得られた特徴ベクトルであってもよい。第四特徴ベクトルは、第4特徴情報をマッピングすることで得られた特徴ベクトルである。各第4特徴ベクトルに対応するビデオフレームは、第4特徴情報抽出に用いられるビデオフレーム及び該ビデオフレームの前又は後の5つのビデオフレームであってもよい。全てのターゲット特徴ベクトルに対応するビデオフレームを合成してビデオクリップを得ることができる。該ビデオクリップは、ターゲットセンテンスに対応するビデオクリップである。例えば、
Figure 2021519474
に対応するビデオフレームを合成し、ターゲットセンテンスに対応するビデオクリップを得る。本出願は、ターゲット特徴ベクトルに対応するビデオフレームを限定するものではない。
可能な実現形態において、ターゲット予備選択ビデオにおいて、各センテンスの特徴ベクトルに対応するビデオクリップを決定し、各センテンスの特徴ベクトルにそれぞれ対応するビデオクリップに含まれるビデオフレームのタイムスタンプ又はフレーム番号などの情報に基づいて、ターゲット予備選択ビデオにおける各センテンスのセマンティクスコンテンツの位置を決定することができる。
可能な実現形態において、ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定する。例において、ターゲット特徴ベクトル
Figure 2021519474
に対して加算処理、平均化処理又は他の処理を行い、第5特徴ベクトルgとなるようにフュージョンすることができる。例において、ターゲットセンテンスは、複数の対応するビデオクリップを有してもよい。例えば、ターゲット特徴ベクトルは、
Figure 2021519474
Figure 2021519474
であってもよい。ただし、
Figure 2021519474
は、隣接するターゲット特徴ベクトルであり、
Figure 2021519474
は、隣接するターゲット目標特徴ベクトルであり、
Figure 2021519474
は、隣接するターゲット特徴ベクトルである。
Figure 2021519474
を第5特徴ベクトルgy1となるようにフュージョンし、
Figure 2021519474
を第5特徴ベクトルgy2となるようにフュージョンし、
Figure 2021519474
を第5特徴ベクトルgy3となるようにフュージョンすることができる。つまり、各センテンスは、1つ又は複数の第5特徴ベクトルに対応してもよい。例において、各第五特徴ベクトルは、1つのセンテンスに対応してもよい。
可能な実現形態において、1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、クエリテキスト段落とターゲット予備選択ビデオとの相関性スコアを決定することができる。例において、複数のセンテンスの第1特徴ベクトルは
Figure 2021519474
であり、Mは正整数である。複数のビデオクリップの第5特徴ベクトルはg, g, …,g,であり、Wは正整数である。ここで、第1特徴ベクトル
Figure 2021519474
に対応する第5特徴ベクトルはg, g, …,g(Oは、第1特徴ベクトル
Figure 2021519474
に対応する第5特徴ベクトルの数であり、OはW未満の正整数である)であり、
Figure 2021519474
に対応する第5特徴ベクトルはgO+1, gO+2, …,g(Vは、第1特徴ベクトル
Figure 2021519474
に対応する第5特徴ベクトルの数であり、Vは、W未満であって且つ0を超える正整数である)であり、
Figure 2021519474
に対応する第5特徴ベクトルはg, gZ+1, …, g(Zは、第1特徴ベクトル
Figure 2021519474
に対応する第5特徴ベクトルの数であり、VはW未満であって且つOを超える正整数である)である。
可能な実現形態において、下記式(2)により、クエリテキスト段落とターゲット予備選択ビデオとの第2相関性スコアを決定することができ、
Figure 2021519474
ただし、
Figure 2021519474
は、i番目のセンテンスがj番目のビデオクリップに対応しているかを表す。j番目のビデオクリップの第5特徴ベクトルがi番目のセンテンスの第1特徴ベクトルに対応する第5特徴ベクトルである時、
Figure 2021519474
であり、そうでなければ、
Figure 2021519474
である。例において、i番目のセンテンスとj番目のビデオが2枚の画像において一致するかを判定することができる。i番目のセンテンスとj番目のビデオが2枚の画像において一致すると、
Figure 2021519474
であり、そうでなければ、
Figure 2021519474
である。例において、i番目のセンテンスの場合、
Figure 2021519474
である。つまり、ターゲット予備選択ビデオにおいて、1つセンテンスは、最大
Figure 2021519474
個の対応するビデオクリップを有する。ただし、
Figure 2021519474
は、所定のビデオクリップの数であり、
Figure 2021519474
である。例において、j番目のビデオクリップの場合、
Figure 2021519474
である。つまり、ターゲット予備選択ビデオにおいて、各ビデオクリップは、1つの対応するセンテンスのみを有する。
Figure 2021519474
は、i番目のセンテンスの第1特徴ベクトルと、j番目のビデオクリップの第5特徴ベクトルとのコサイン類似度である。
Figure 2021519474
は、クエリテキスト段落とターゲット予備選択ビデオとの第2相関性スコアである。
可能な実現形態において、クエリテキスト段落とターゲット予備選択ビデオとの第1相関性スコア
Figure 2021519474
、及びクエリテキスト段落とターゲット予備選択ビデオとの第2相関性スコア
Figure 2021519474
に基づいて、クエリテキスト段落とターゲット予備選択ビデオとの第3相関性スコア
Figure 2021519474
を決定することができ、クエリテキスト段落と各予備選択ビデオとの第3相関性スコアを決定することができる。例において、第1相関性スコアと第2相関性スコアとの積を第3相関性スコアとして決定する。第3相関性スコアに基づいて、予備選択ビデオにおいて、ターゲットビデオを決定する。クエリテキスト段落と各予備選択ビデオとの第3相関性スコアに基づいて予備選択ビデオを順序付け、順序付けされたビデオ配列内の所定の数のビデオを選択する。又は、第3相関性スコアがスコア閾値以上であるビデオを選択する。本出願は、ターゲットビデオの選択方法を限定するものではない。
可能な実現形態において、第3ニューラルネットワーク及び第4ニューラルネットワークを利用してマッピング処理を行う前に、第3ニューラルネットワーク及び第4ニューラルネットワークをトレーニングすることができる。前記方法は、サンプルビデオにおける複数のビデオフレームの第4サンプル特徴情報及びサンプルテキスト段落の1つ又は複数のセンテンスの第1サンプル特徴情報に基づいて、第3ニューラルネットワーク及び第4ニューラルネットワークをトレーニングすることを更に含む。
可能な実現形態において、ビデオライブラリーにおけるビデオをサンプルビデオとして用いてもよいし、他のビデオライブラリーにおけるビデオをサンプルビデオとして用いてもよい。本出願は、サンプルビデオを限定するものではない。サンプルビデオのビデオフレームの第4サンプル特徴情報を抽出する。任意のクエリテキスト段落を入力してサンプルテキスト段落とすることがdけいる。サンプルテキスト段落は1つ又は複数のセンテンスを含んでもよく。トレーニングセンテンス的の第1サンプル特徴情報を抽出することができる。
可能な実現形態において、サンプルビデオの複数のビデオフレームの第4サンプル特徴情報を第3ニューラルネットワークに入力し、第4サンプル特徴ベクトルを得ることができる。サンプルテキスト段落の1つ又は複数のセンテンスの第1サンプル特徴情報を第4ニューラルネットワークに入力し、第1サンプル特徴ベクトルを得ることができる。
可能な実現形態において、第4サンプル特徴ベクトルにおいて、第1ターゲットサンプル特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲットサンプル特徴ベクトルを決定することができる。ここで、第1ターゲットサンプル特徴ベクトルは、第1サンプル特徴ベクトルのうちのいずれか1つである。更に、ターゲットサンプル特徴ベクトルを第1ターゲットサンプル特徴ベクトルに対応する第5サンプル特徴ベクトルとなるようにフュージョンすることができる。例において、各第1サンプル特徴ベクトルに対応する第5サンプル特徴ベクトルをそれぞれ決定することができる。
可能な実現形態において、各第5サンプル特徴ベクトルと第1サンプル特徴ベクトルとのコサイン類似度をそれぞれ決定し、コサイン類似度に基づいて第2総合ネットワーク損失を決定することができる。例において、下記式(3)により第2総合ネットワーク損失を決定することができ、
Figure 2021519474
ただし、
Figure 2021519474
は、第2総合ネットワーク損失であり、
Figure 2021519474
は、第1ターゲットサンプル特徴ベクトルであり、
Figure 2021519474
は、d番目の第5サンプル特徴ベクトルであり、
Figure 2021519474
は、第1ターゲットサンプル特徴ベクトルに対応する第5サンプル特徴ベクトルであり、
Figure 2021519474
のコサイン類似度であり、
Figure 2021519474
のコサイン類似度である。
Figure 2021519474
は、設定された定数であり、例において、
Figure 2021519474
は、0.1としてもよい。
可能な実現形態において、第2総合ネットワーク損失を利用して第3ニューラルネットワーク及び第4ニューラルネットワークのネットワークパラメータを調整することができる。例において、第2総合ネットワーク損失を最小化させるように、第3ニューラルネットワーク及び第4ニューラルネットワークのネットワークパラメータを調整し、調整された第3ニューラルネットワーク及び第4ニューラルネットワークに、良いフィッティング度合いを持たせると共に、過剰フィッティングを避ける。本出願は、第3ニューラルネットワーク及び第4ニューラルネットワークのネットワークパラメータの調整方法を限定するものではない。
可能な実現形態において、第3ニューラルネットワーク及び第4ニューラルネットワークのネットワークパラメータを調整するステップを繰り返して実行し、第2総合ネットワーク損失を低下又は収束させるように、第3ニューラルネットワーク及び第4ニューラルネットワークのネットワークパラメータを逐次的に調整する。例において、サンプルテキスト段落又はサンプルビデオを所定の回数で入力し、つまり、所定の回数繰り返して実行する。例において、繰り返して実行する回数を限定しなくてもよい。第2総合ネットワーク損失が一定程度まで低下するか又は所定の閾値内に収束した時、繰り返しを中止し、繰り返して調整された第3ニューラルネットワーク及び第4ニューラルネットワークを得る。繰り返して調整された第3ニューラルネットワーク及び第4ニューラルネットワークを、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び1つ又は複数のセンテンスの第1特徴情報のマッピングプロセスに用いることができる。
図4は、本出願の実施例によるビデオ処理方法を示すフローチャートである。要するに、ステップS111において、クエリテキスト段落の第2特徴情報及び第3特徴情報に基づいて、予備選択ビデオを決定し、ステップS121において、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報及び第4特徴情報に基づいて、予備選択ビデオからターゲットビデオを決定することができる。上記ビデオ処理方法の具体的な処理形態は上記実施例を参照されたい。ここで、詳しく説明しないようにする。
図5は、本出願の実施例によるビデオ処理方法の適用を示す概略図である。図5に示すように、ビデオライブラリーには、N個のビデオが含まれる。各ビデオの複数のビデオフレームの第4特徴情報を取得し、第4特徴情報に基づいて各ビデオの第3特徴情報を得ることができる。
可能な実現形態において、クエリテキスト段落を入力する。クエリテキスト段落には、1つ又は複数のセンテンスが含まれる。各センテンスの第1特徴情報を抽出し、第1特徴情報に基づいて、クエリテキスト段落の第2特徴情報を決定する。
可能な実現形態において、第3特徴情報と第2特徴情報とは、次元が異なってもよい。第1ニューラルネットワークにより、第3特徴情報を第3特徴ベクトルとなるようにマッピングし、第2ニューラルネットワークにより、第2特徴情報を第2特徴ベクトルとなるようにマッピングする。第3特徴ベクトルと第2特徴ベクトルは、同一次元のベクトル空間に位置する。クエリテキスト段落の第2特徴ベクトルと各ビデオの第3特徴ベクトルとのコサイン類似度を決定し、コサイン類似度をクエリテキスト段落と各ビデオとの第1相関性スコアとして決定することができる。第1相関性スコアに基づいて、ビデオライブラリーにおけるビデオを順序付けすることができる。例えば、図6における左側のビデオライブラリーのように、第1相関性スコアに基づいて、ビデオライブラリーにおけるビデオを順序付けすることで得られたビデオ配列は、ビデオ1、ビデオ2、ビデオ3…ビデオNである。該ビデオ配列から最初のE(1≦E≦N)個のビデオを選択して予備選択ビデオとする。
可能な実現形態において、第3ニューラルネットワークを利用して、予備選択ビデオの第4特徴情報を第4特徴ベクトルとなるようにマッピングし、第4ニューラルネットワークを利用して、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を第1特徴ベクトルとなるようにマッピングすることができる。第4特徴ベクトルと第1特徴ベクトルは同一次元のベクトル空間に位置する。ターゲット予備選択ビデオにおいて、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上である第四特徴ベクトルを決定してターゲット特徴ベクトルとし、ターゲット特徴ベクトルに対応するターゲット予備選択ビデオのビデオフレームを合成してビデオクリップを得ることができ、ターゲット特徴ベクトルを第5特徴ベクトルとなるようにフュージョンすることもできる。式(2)により、クエリテキスト段落とターゲット予備選択ビデオとの第2相関性スコアを決定することができる。更に、クエリテキスト段落と各予備選択ビデオとの第2相関性スコアを決定することができる。
可能な実現形態において、クエリテキスト段落と予備選択ビデオとの第1相関性スコアと、クエリテキスト段落と予備選択ビデオとの第2相関性スコアを乗算し、クエリテキスト段落と予備選択ビデオとの第3相関性スコアを得て、第3相関性スコアに基づいて、E子の予備選択ビデオに対して順序付けすることができる。例えば、図5における右側のビデオライブラリーのように、第3相関性スコアに基づいてE個の予備選択ビデオを順序付けすることで得られたビデオ配列は、ビデオ3、ビデオ5、ビデオ8…である。該順序付けを行ってから、ビデオ3は、第3相関性スコアが最も高いビデオであり、つまり、クエリテキスト段落のセマンティクスコンテンツとの相関性が最も高いビデオである。続いて、ビデオ5、ビデオ8…である。ビデオ3をターゲットビデオとして選択することができ、最初のX(X≦E)個のビデオをターゲットビデオとして選択することもできる。
本出願の実施例のビデオ処理方法によれば、クエリテキスト段落の第2特徴ベクトルとビデオの第3特徴ベクトルとのコサイン類似度をクエリテキスト段落とビデオとの第1相関性スコアとして決定することで、クエリテキスト段落のセマンティクスコンテンツとビデオの特徴情報との相関性を正確に決定し、予備選択ビデオを正確に選択することができる。予備選択ビデオを選択してから、ビデオライブラリーにおける全てのビデオを処理する必要がなく、予備選択ビデオのみに対して処理を行い、演算のオーバヘッドを削減し、処理効率を向上させる。更に、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、クエリテキスト段落とターゲット予備選択ビデオとの第2相関性スコアを決定し、第2相関性スコア及び第1相関性スコアに基づいてターゲットビデオを決定することができる。ビデオとクエリテキスト段落との相関性に基づいてビデオを検索することで、ターゲットビデオを正確にクエリすることができ、冗長な検出結果を避ける。また、自然言語のようなクエリテキスト段落を処理することができ、コンテンツタグの固有コンテンツによる制限を受けることがない。
本出願に言及した上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本出願において逐一説明しないことが理解されるべきである。
なお、本出願は、ビデオ処理装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記はいずれも、本出願で提供されるいずれか1つのビデオ処理方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、同業者であれば理解すべきである。
図6は、本出願の実施例によるビデオ処理装置を示すブロック図である。図6に示すように、前記装置は、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュール11と、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュール12とを備える。
センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含み、段落情報は、クエリテキスト段落の第2特徴情報を含み、ビデオフレーム情報は、ビデオの複数のビデオフレームの第4特徴情報を含み、ビデオ情報はビデオの第3特徴情報を含む。
予備選択ビデオ決定モジュールは更に、
第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、複数のビデオのうちの、クエリテキスト段落に関連する予備選択ビデオを決定するように構成される。
可能な実現形態において、前記方法は、
クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、1つ又は複数のセンテンスの第1特徴情報を得るように構成されるセンテンス特徴抽出モジュールと、
クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、クエリテキスト段落の第2特徴情報を決定するように構成される第2決定モジュールとを更に備える。
可能な実現形態において、前記装置は、
複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、第2ビデオの複数のビデオフレームの第4特徴情報を得るように構成されるビデオ特徴抽出モジュールと、
第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、第2ビデオの第3特徴情報を決定するように構成される第1決定モジュールとを更に備える。
可能な実現形態において、予備選択ビデオ決定モジュールは更に、
第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、クエリテキスト段落と複数のビデオとの第1相関性スコアをそれぞれ決定し、
第1相関性スコアに基づいて、複数のビデオのうちの予備選択ビデオを決定するように構成される。
可能な実現形態において、予備選択ビデオ決定モジュールは更に、
複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得て、
第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度をクエリテキスト段落と第1ビデオとの第1相関性スコアとして決定するように構成される。
可能な実現形態において、ターゲットビデオ決定モジュールは更に、
1つ又は複数のセンテンスの第1特徴情報及び予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定するように構成される。
可能な実現形態において、ターゲットビデオ決定モジュールは更に、
1つ又は複数のセンテンスの第1特徴情報及び予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、クエリテキスト段落と予備選択ビデオとの第2相関性スコアを決定し、
第1相関性スコア及び第2相関性スコアに基づいて、予備選択ビデオのうちのターゲットビデオを決定するように構成される。
可能な実現形態において、ターゲットビデオ決定モジュールは更に、
予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得て、
第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定し、ターゲットセンテンスが、1つ又は複数のセンテンスのうちのいずれか1つであり、
ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得、、
ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定し、
1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、クエリテキスト段落とターゲット予備選択ビデオとの第2相関性スコアを決定するように構成される。
可能な実現形態において、ターゲットビデオ決定モジュールは更に、
第1相関性スコアと第2相関性スコアとの積を第3相関性スコアとして決定し、
第3相関性スコアに基づいて、予備選択ビデオにおいて、ターゲットビデオを決定するように構成される。
幾つかの実施例において、本出願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
本出願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、上記方法を実現させる。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。
本出願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するためのメモリとを備え、プロセッサは、上記方法を実行するように構成される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図7は一例示的な実施例による電子機器800を示すブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。
図7を参照すると、電子機器800は、処理ユニット802、メモリ804、電源ユニット806、マルチメディアユニット808、オーディオユニット810、入力/出力(I/O)インタフェース812、センサユニット814及び通信ユニット816のうちの1つ又は複数を備えてもよい。
処理ユニット802は一般的には、電子機器800の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット802は、指令を実行するための1つ又は複数のプロセッサ820を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット802は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理ユニット802はマルチメディアモジュールを備えることで、マルチメディアユニット808と処理ユニット802とのインタラクションに寄与する。
メモリ804は、各種のデータを記憶することで電子機器800における操作をサポートするように構成される。これらのデータの例として、電子機器800上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ804は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
電源ユニット806は電子機器800の様々なユニットに電力を提供する。電源ユニット806は、電源管理システム、1つ又は複数の電源、及び電子機器800のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
マルチメディアユニット808は、上記電子機器800とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット808は、フロントカメラ及び/又はリアカメラを備える。電子機器800が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
オーディオユニット810は、オーディオ信号を出力/入力するように構成される。例えば、オーディオユニット810は、マイクロホン(MIC)を備える。電子機器800が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ804に記憶するか、又は通信ユニット816を経由して送信することができる。幾つかの実施例において、オーディオユニット810は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
I/Oインタフェース812は、処理ユニット802と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
センサユニット814は、1つ又は複数のセンサを備え、電子機器800のために様々な状態の評価を行うように構成される。例えば、センサユニット814は、電子機器800のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器800のディスプレイ及びキーパッドである。センサユニット814は電子機器800又は電子機器800における1つのユニットの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位又は加速/減速及び電子機器800の温度の変動を検出することもできる。センサユニット814は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット814は、CMOS又はCCD画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
通信ユニット816は、電子機器800と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器800は、WiFi、2G又は3G又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット816は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット816は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現される。
例示的な実施例において、電子機器800は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
例示的な実施例において、コンピュータプログラム命令を記憶したメモリ804のような非一時的コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器800のプロセッサ820により実行され上記方法を完了する。
図8は、本出願の実施例によるもう1つの電子機器1900を示すブロック図である。例えば、電子機器1900は、サーバとして提供されてもよい。図8を参照すると、電子機器1900は、処理ユニット1922を備える。ぞれは1つ又は複数のプロセッサと、メモリ1932で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット1922により実行される命令を記憶するためのものである。メモリ1932に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理ユニット1922は、命令を実行して、上記方法を実行するように構成される。
電子機器1900は、電子機器1900の電源管理を実行するように構成される電源ユニット1926と、電子機器1900をネットワークに接続するように構成される有線又は無線ネットワークインタフェース1950と、入力出力(I/O)インタフェース1958を更に備えてもよい。電子機器1900は、Windows(登録商標) ServerTM、Mac OS XTM、UnixTM, Linux(登録商標)TM、FreeBSDTM又は類似したものような、メモリ1932に記憶されているオペレーティングシステムを実行することができる。
例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ1932のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器1900の処理ユニット1922により実行されて上記方法を完了する。
本出願は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本出願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD−ROM)、デジタル多目的ディスク(DVD)、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。
ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング/処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング/処理装置におけるコンピュータ可読記憶媒体に記憶する。
本出願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、ローカルエリアネットワーク(LAN)やワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する)。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブル論理アレイ(PLA)のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本出願の各態様を実現させることができる。
ここで、本出願の実施例の方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、本出願の各態様を説明する。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図おける1つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。
コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現させる。
図面におけるフローチャート及びブック図は、本出願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術への改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
ビデオ処理方法であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することと、を含む、前記方法。
(項目2)
前記段落情報は、クエリテキスト段落の第2特徴情報を含み、前記ビデオ情報は、ビデオの第3特徴情報を含み、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することを含むことを特徴とする
項目1に記載の方法。
(項目3)
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定することと、
前記第1相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定することと、を含むことを特徴とする
項目2に記載の方法。
(項目4)
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定することは、
前記複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び前記第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得ることと、
前記第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第1ビデオとの第1相関性スコアとして決定することを含むことを特徴とする
項目3に記載の方法。
(項目5)
前記センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第4特徴情報を含み、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することを含むことを特徴とする
項目1から4のいずれか一項に記載の方法。
(項目6)
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定することと、
第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することとを含むことを特徴とする
項目5に記載の方法。
(項目7)
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定することは、
前記予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び前記1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得ることと、
第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定することであって、前記ターゲットセンテンスが、前記1つ又は複数のセンテンスのうちのいずれか1つであることと、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることと、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定することと、
1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第2相関性スコアを決定することとを含むことを特徴とする
項目6に記載の方法。
(項目8)
第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記第1相関性スコアと前記第2相関性スコアの積を第3相関性スコアとして決定することと、
前記第3相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定することとを含むことを特徴とする
項目6に記載の方法。
(項目9)
前記方法は、
前記複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第2ビデオの複数のビデオフレームの第4特徴情報を得ることと、
前記第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、前記第2ビデオの第3特徴情報を決定することと、を更に含むことを特徴とする
項目1−8のいずれか一項に記載の方法。
(項目10)
前記方法は、
前記クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記1つ又は複数のセンテンスの第1特徴情報を得ることと、
前記クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、前記クエリテキスト段落の第2特徴情報を決定することと、を更に含むことを特徴とする
項目1−9のいずれか一項に記載の方法。
(項目11)
ビデオ処理装置であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュールと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュールと、を備える、前記装置。
(項目12)
前記段落情報は、クエリテキスト段落の第2特徴情報を含み、前記ビデオ情報はビデオの第3特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成されることを特徴とする
項目11に記載の装置。
(項目13)
前記予備選択ビデオ決定モジュールは更に、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定し、
前記第1相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定するように構成されることを特徴とする
項目12に記載の装置。
(項目14)
前記予備選択ビデオ決定モジュールは更に、
前記複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び前記第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得て、
前記第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第1ビデオとの第1相関性スコアとして決定するように構成されることを特徴とする
項目13に記載の装置。
(項目15)
前記センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第4特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
項目11から14のいずれか一項に記載の装置。
(項目16)
前記ターゲットビデオ決定モジュールは更に、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定し、
第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
項目15に記載の装置。
(項目17)
前記ターゲットビデオ決定モジュールは更に、
前記予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び前記1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得て、
第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定し、前記ターゲットセンテンスが、前記1つ又は複数のセンテンスのうちのいずれか1つであり、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定し、
1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第2相関性スコアを決定するように構成されることを特徴とする
項目16に記載の装置。
(項目18)
前記ターゲットビデオ決定モジュールは更に、
前記第1相関性スコアと前記第2相関性スコアの積を第3相関性スコアとして決定し、
前記第3相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定するように構成されることを特徴とする
項目16に記載の装置。
(項目19)
前記装置は、
前記複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第2ビデオの複数のビデオフレームの第4特徴情報を得るように構成されるビデオ特徴抽出モジュールと、
前記第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、前記第2ビデオの第3特徴情報を決定するように構成される第1決定モジュールと、を更に備えることを特徴とする
項目11−18のいずれか一項に記載の装置。
(項目20)
前記装置は、
前記クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記1つ又は複数のセンテンスの第1特徴情報を得るように構成されるセンテンス特徴抽出モジュールと、
前記クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、前記クエリテキスト段落の第2特徴情報を決定するように構成される第2決定モジュールと、を更に備えることを特徴とする
項目11−19のいずれか一項に記載の装置。
(項目21)
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、項目1から10のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
(項目22)
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、項目1から10のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。

Claims (22)

  1. ビデオ処理方法であって、
    クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することと、
    前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することと、を含む、前記方法。
  2. 前記段落情報は、クエリテキスト段落の第2特徴情報を含み、前記ビデオ情報は、ビデオの第3特徴情報を含み、
    クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
    前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することを含むことを特徴とする
    請求項1に記載の方法。
  3. 前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
    前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定することと、
    前記第1相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定することと、を含むことを特徴とする
    請求項2に記載の方法。
  4. 前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定することは、
    前記複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び前記第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得ることと、
    前記第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第1ビデオとの第1相関性スコアとして決定することを含むことを特徴とする
    請求項3に記載の方法。
  5. 前記センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第4特徴情報を含み、
    前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
    前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することを含むことを特徴とする
    請求項1から4のいずれか一項に記載の方法。
  6. 前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
    前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定することと、
    第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することとを含むことを特徴とする
    請求項5に記載の方法。
  7. 前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定することは、
    前記予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び前記1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得ることと、
    第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定することであって、前記ターゲットセンテンスが、前記1つ又は複数のセンテンスのうちのいずれか1つであることと、
    前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることと、
    前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定することと、
    1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第2相関性スコアを決定することとを含むことを特徴とする
    請求項6に記載の方法。
  8. 第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
    前記第1相関性スコアと前記第2相関性スコアの積を第3相関性スコアとして決定することと、
    前記第3相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定することとを含むことを特徴とする
    請求項6に記載の方法。
  9. 前記方法は、
    前記複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第2ビデオの複数のビデオフレームの第4特徴情報を得ることと、
    前記第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、前記第2ビデオの第3特徴情報を決定することと、を更に含むことを特徴とする
    請求項1−8のいずれか一項に記載の方法。
  10. 前記方法は、
    前記クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記1つ又は複数のセンテンスの第1特徴情報を得ることと、
    前記クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、前記クエリテキスト段落の第2特徴情報を決定することと、を更に含むことを特徴とする
    請求項1−9のいずれか一項に記載の方法。
  11. ビデオ処理装置であって、
    クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュールと、
    前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュールと、を備える、前記装置。
  12. 前記段落情報は、クエリテキスト段落の第2特徴情報を含み、前記ビデオ情報はビデオの第3特徴情報を含み、
    前記予備選択ビデオ決定モジュールは更に、
    前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成されることを特徴とする
    請求項11に記載の装置。
  13. 前記予備選択ビデオ決定モジュールは更に、
    前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定し、
    前記第1相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定するように構成されることを特徴とする
    請求項12に記載の装置。
  14. 前記予備選択ビデオ決定モジュールは更に、
    前記複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び前記第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得て、
    前記第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第1ビデオとの第1相関性スコアとして決定するように構成されることを特徴とする
    請求項13に記載の装置。
  15. 前記センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第4特徴情報を含み、
    前記予備選択ビデオ決定モジュールは更に、
    前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
    請求項11から14のいずれか一項に記載の装置。
  16. 前記ターゲットビデオ決定モジュールは更に、
    前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定し、
    第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
    請求項15に記載の装置。
  17. 前記ターゲットビデオ決定モジュールは更に、
    前記予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び前記1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得て、
    第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定し、前記ターゲットセンテンスが、前記1つ又は複数のセンテンスのうちのいずれか1つであり、
    前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得、
    前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定し、
    1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第2相関性スコアを決定するように構成されることを特徴とする
    請求項16に記載の装置。
  18. 前記ターゲットビデオ決定モジュールは更に、
    前記第1相関性スコアと前記第2相関性スコアの積を第3相関性スコアとして決定し、
    前記第3相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定するように構成されることを特徴とする
    請求項16に記載の装置。
  19. 前記装置は、
    前記複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第2ビデオの複数のビデオフレームの第4特徴情報を得るように構成されるビデオ特徴抽出モジュールと、
    前記第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、前記第2ビデオの第3特徴情報を決定するように構成される第1決定モジュールと、を更に備えることを特徴とする
    請求項11−18のいずれか一項に記載の装置。
  20. 前記装置は、
    前記クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記1つ又は複数のセンテンスの第1特徴情報を得るように構成されるセンテンス特徴抽出モジュールと、
    前記クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、前記クエリテキスト段落の第2特徴情報を決定するように構成される第2決定モジュールと、を更に備えることを特徴とする
    請求項11−19のいずれか一項に記載の装置。
  21. 電子機器であって、
    プロセッサと、
    プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
    前記プロセッサは、請求項1から10のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
  22. コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、請求項1から10のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
JP2020573569A 2018-08-07 2019-08-06 ビデオ処理方法及び装置、電子機器並びに記憶媒体 Active JP6916970B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810892997.4 2018-08-07
CN201810892997.4A CN109089133B (zh) 2018-08-07 2018-08-07 视频处理方法及装置、电子设备和存储介质
PCT/CN2019/099486 WO2020029966A1 (zh) 2018-08-07 2019-08-06 视频处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021519474A true JP2021519474A (ja) 2021-08-10
JP6916970B2 JP6916970B2 (ja) 2021-08-11

Family

ID=64834271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020573569A Active JP6916970B2 (ja) 2018-08-07 2019-08-06 ビデオ処理方法及び装置、電子機器並びに記憶媒体

Country Status (7)

Country Link
US (1) US11120078B2 (ja)
JP (1) JP6916970B2 (ja)
KR (1) KR102222300B1 (ja)
CN (1) CN109089133B (ja)
MY (1) MY187857A (ja)
SG (1) SG11202008134YA (ja)
WO (1) WO2020029966A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674331A (zh) * 2018-06-15 2020-01-10 华为技术有限公司 信息处理方法、相关设备及计算机存储介质
CN110163050B (zh) * 2018-07-23 2022-09-27 腾讯科技(深圳)有限公司 一种视频处理方法及装置、终端设备、服务器及存储介质
CN109089133B (zh) * 2018-08-07 2020-08-11 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
US11621081B1 (en) * 2018-11-13 2023-04-04 Iqvia Inc. System for predicting patient health conditions
CN111435432B (zh) * 2019-01-15 2023-05-26 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN110213668A (zh) * 2019-04-29 2019-09-06 北京三快在线科技有限公司 视频标题的生成方法、装置、电子设备和存储介质
CN110188829B (zh) * 2019-05-31 2022-01-28 北京市商汤科技开发有限公司 神经网络的训练方法、目标识别的方法及相关产品
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
CN111209439B (zh) * 2020-01-10 2023-11-21 北京百度网讯科技有限公司 视频片段检索方法、装置、电子设备及存储介质
CN113641782A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 基于检索语句的信息检索方法、装置、设备和介质
CN111918146B (zh) * 2020-07-28 2021-06-01 广州筷子信息科技有限公司 一种视频合成方法和系统
CN112181982B (zh) * 2020-09-23 2021-10-12 况客科技(北京)有限公司 数据选取方法、电子设备和介质
CN112738557A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置
CN113032624B (zh) * 2021-04-21 2023-07-25 北京奇艺世纪科技有限公司 视频观影兴趣度确定方法、装置、电子设备及介质
CN113254714B (zh) * 2021-06-21 2021-11-05 平安科技(深圳)有限公司 基于query分析的视频反馈方法、装置、设备及介质
CN113590881B (zh) * 2021-08-09 2024-03-19 北京达佳互联信息技术有限公司 视频片段检索方法、视频片段检索模型的训练方法及装置
CN114329068B (zh) * 2021-08-11 2024-05-31 腾讯科技(深圳)有限公司 一种数据处理方法及装置、电子设备、存储介质
CN113792183B (zh) * 2021-09-17 2023-09-08 咪咕数字传媒有限公司 一种文本生成方法、装置及计算设备
WO2024015322A1 (en) * 2022-07-12 2024-01-18 Loop Now Technologies, Inc. Search using generative model synthesized images

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110047163A1 (en) * 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
CN101894170B (zh) * 2010-08-13 2011-12-28 武汉大学 基于语义关联网络的跨模信息检索方法
US20120131060A1 (en) * 2010-11-24 2012-05-24 Robert Heidasch Systems and methods performing semantic analysis to facilitate audio information searches
CN102750366B (zh) * 2012-06-18 2015-05-27 海信集团有限公司 基于自然交互输入的视频搜索系统及方法
CN103593363B (zh) * 2012-08-15 2016-12-21 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置
CN104798068A (zh) * 2012-11-30 2015-07-22 汤姆逊许可公司 视频检索方法和装置
CN104239501B (zh) * 2014-09-10 2017-04-12 中国电子科技集团公司第二十八研究所 一种基于Spark的海量视频语义标注方法
CN106156204B (zh) 2015-04-23 2020-05-29 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
US9807473B2 (en) 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
US11409791B2 (en) 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10346417B2 (en) * 2016-08-18 2019-07-09 Google Llc Optimizing digital video distribution
CN108304506B (zh) * 2018-01-18 2022-08-26 腾讯科技(深圳)有限公司 检索方法、装置及设备
US11295783B2 (en) * 2018-04-05 2022-04-05 Tvu Networks Corporation Methods, apparatus, and systems for AI-assisted or automatic video production
CN109089133B (zh) * 2018-08-07 2020-08-11 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
JP6916970B2 (ja) 2021-08-11
US11120078B2 (en) 2021-09-14
US20200394216A1 (en) 2020-12-17
WO2020029966A1 (zh) 2020-02-13
CN109089133A (zh) 2018-12-25
SG11202008134YA (en) 2020-09-29
KR20200128165A (ko) 2020-11-11
CN109089133B (zh) 2020-08-11
KR102222300B1 (ko) 2021-03-03
MY187857A (en) 2021-10-26

Similar Documents

Publication Publication Date Title
JP6916970B2 (ja) ビデオ処理方法及び装置、電子機器並びに記憶媒体
JP6852150B2 (ja) 生体検知方法および装置、システム、電子機器、記憶媒体
JP7171884B2 (ja) 歩行者認識方法及び装置
US20210117726A1 (en) Method for training image classifying model, server and storage medium
WO2021051857A1 (zh) 目标对象匹配方法及装置、电子设备和存储介质
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
WO2020107813A1 (zh) 图像的描述语句定位方法及装置、电子设备和存储介质
CN110781957B (zh) 图像处理方法及装置、电子设备和存储介质
WO2021036382A1 (zh) 图像处理方法及装置、电子设备和存储介质
KR102454515B1 (ko) 네트워크 최적화 방법 및 장치, 이미지 처리 방법 및 장치, 및 기억 매체
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
JP2022526381A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
WO2021208666A1 (zh) 字符识别方法及装置、电子设备和存储介质
CN111582383B (zh) 属性识别方法及装置、电子设备和存储介质
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
CN113326768B (zh) 训练方法、图像特征提取方法、图像识别方法及装置
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN111259967A (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
CN113486830A (zh) 图像处理方法及装置、电子设备和存储介质
CN111652107B (zh) 对象计数方法及装置、电子设备和存储介质
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
CN114332503A (zh) 对象重识别方法及装置、电子设备和存储介质
CN111178115B (zh) 对象识别网络的训练方法及系统
CN109325141B (zh) 图像检索方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201125

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210716

R150 Certificate of patent or registration of utility model

Ref document number: 6916970

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250