JP2022511828A - Video data processing methods, video data processing equipment, computer equipment, and computer programs - Google Patents

Video data processing methods, video data processing equipment, computer equipment, and computer programs Download PDF

Info

Publication number
JP2022511828A
JP2022511828A JP2021531593A JP2021531593A JP2022511828A JP 2022511828 A JP2022511828 A JP 2022511828A JP 2021531593 A JP2021531593 A JP 2021531593A JP 2021531593 A JP2021531593 A JP 2021531593A JP 2022511828 A JP2022511828 A JP 2022511828A
Authority
JP
Japan
Prior art keywords
video frame
target
matrix
pixel point
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021531593A
Other languages
Japanese (ja)
Other versions
JP7258400B2 (en
JP7258400B6 (en
Inventor
▲遠▼力 ▲鄭▼
▲澤▼▲龍▼ 殷
年▲華▼ ▲謝▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022511828A publication Critical patent/JP2022511828A/en
Publication of JP7258400B2 publication Critical patent/JP7258400B2/en
Application granted granted Critical
Publication of JP7258400B6 publication Critical patent/JP7258400B6/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20101Interactive definition of point of interest, landmark or seed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本願の実施例は、ビデオデータ処理方法、装置、及び記憶媒体を開示している。この方法は、ターゲットビデオに対するトリガ操作に応答して、ターゲットビデオのキービデオフレームからターゲットオブジェクトを決定し、ターゲットオブジェクトに関連付けられたマルチメディア情報を取得するステップと、ターゲットオブジェクトにおけるターゲット画素点の、キービデオフレームにおける位置情報に基づいて、ターゲット画素点に対応する軌跡取得要求を決定するステップと、軌跡取得要求に基づいて、ターゲット画素点のキービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得するステップと、キービデオフレームの次のビデオフレームを再生する際に、ターゲット軌跡情報における、ターゲット画素点の、キービデオフレームの次のビデオフレームにおける位置情報に基づいて、マルチメディア情報を表示するステップと、を含む。The embodiments of the present application disclose video data processing methods, devices, and storage media. This method determines the target object from the key video frame of the target video in response to a trigger operation on the target video and obtains the multimedia information associated with the target object, and the target pixel point in the target object. The step of determining the locus acquisition request corresponding to the target pixel point based on the position information in the key video frame, and the target locus information associated with the position information in the key video frame of the target pixel point based on the locus acquisition request. Display multimedia information based on the step to be acquired and the position information of the target pixel point in the target locus information in the next video frame of the key video frame when playing the next video frame of the key video frame. Including steps.

Description

本願は、2019年4月30日に提出された、出願番号が第201910358569.8号であり、発明の名称が「ビデオデータ処理方法及び関連装置」である中国特許出願に基づく優先権を主張し、その全ての内容が参照によって本願に組み込まれる。 This application claims priority based on a Chinese patent application filed on April 30, 2019, with an application number of 2019103558569.8 and the title of the invention being "Video Data Processing Methods and Related Devices". , All of which are incorporated herein by reference.

本願は、インターネットの技術分野に関し、特にビデオデータ処理方法及び関連装置に関する。 The present application relates to the technical field of the Internet, and particularly to video data processing methods and related devices.

ユーザは、ユーザ端末を介してネットワークビデオを視聴している間に、該ユーザ又は他のユーザから投稿されたユーザ文字やユーザコメントをビデオ再生インタフェースで見ることができる。従来のユーザ文字の表示方式では、ビデオ再生インタフェースに出力されるユーザ文字は、通常、該ビデオ再生インタフェースにおける固定の文字表示トラックを介して出力表示される。 While the user is watching the network video through the user terminal, the user can see the user characters and user comments posted by the user or another user on the video playback interface. In the conventional user character display method, the user character output to the video reproduction interface is usually output and displayed via a fixed character display track in the video reproduction interface.

本願の実施例は、ビデオデータ処理方法及び関連装置を提供する。 The embodiments of the present application provide video data processing methods and related devices.

本願の実施例の一態様では、コンピュータ機器に適用されるビデオデータ処理方法が提供されており、前記方法は、
ターゲットビデオに対するトリガ操作に応答して、前記ターゲットビデオのキービデオフレームからターゲット画素点を決定し、前記ターゲット画素点に関連付けられたマルチメディア情報を取得するステップであって、前記キービデオフレームは、前記トリガ操作が位置するビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける、前記トリガ操作に対応する画素点である、ステップと、
前記ターゲット画素点の前記キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定するステップと、
前記軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得するステップであって、前記ターゲット軌跡情報は、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報を含み、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報は、前記ターゲット画素点を追跡することにより取得されたものである、ステップと、
前記キービデオフレームの次のビデオフレームを再生する際に、前記ターゲット軌跡情報における、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報に基づいて、前記マルチメディア情報を表示するステップと、を含む。
In one aspect of the embodiments of the present application, a video data processing method applied to a computer device is provided, and the method is described.
A step of determining a target pixel point from a key video frame of the target video in response to a trigger operation on the target video and acquiring multimedia information associated with the target pixel point, wherein the key video frame is a step. A step and a step, which is a video frame in which the trigger operation is located, and the target pixel point is a pixel point corresponding to the trigger operation in the key video frame.
A step of determining a locus acquisition request corresponding to the target pixel point based on the position information of the target pixel point in the key video frame, and
The step of acquiring the target locus information associated with the position information of the target pixel point in the key video frame based on the locus acquisition request, wherein the target locus information is the key video of the target pixel point. The position information of the target pixel point in the next video frame of the key video frame, including the position information in the video frame next to the frame, is obtained by tracking the target pixel point. ,
When playing back the video frame next to the key video frame, the multimedia information is displayed based on the position information of the target pixel point in the video frame next to the key video frame in the target locus information. Including steps.

本願の実施例の一態様では、サービスサーバに適用されるビデオデータ処理方法が提供されており、前記方法は、
キービデオフレームにおけるターゲット画素点に対する軌跡取得要求に応答して、ターゲットビデオに関連付けられた軌跡情報を取得するステップであって、前記キービデオフレームは、前記ターゲットビデオにおけるビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける画素点であり、前記軌跡情報は、前記ターゲットビデオの各ビデオフレームにおける画素点の位置情報によって決定されたものである、ステップと、
前記ターゲットビデオに関連付けられた軌跡情報の中から、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を選別し、前記ターゲット軌跡情報を返信するステップであって、前記ターゲット軌跡情報は、ターゲット位置情報を含み、前記ターゲット位置情報は、前記キービデオフレームの次のビデオフレームにおいて、前記ターゲット画素点に関連付けられたマルチメディア情報を表示することをトリガするためのものである、ステップと、を含む。
In one aspect of the embodiments of the present application, a video data processing method applied to a service server is provided, wherein the method is described.
A step of acquiring trajectory information associated with a target video in response to a trajectory acquisition request for a target pixel point in a key video frame, wherein the key video frame is a video frame in the target video and the target pixel. The points are the pixel points in the key video frame, and the locus information is determined by the position information of the pixel points in each video frame of the target video.
It is a step of selecting the target locus information associated with the position information of the target pixel point in the key video frame from the locus information associated with the target video, and returning the target locus information. The locus information includes the target position information, and the target position information is for triggering to display the multimedia information associated with the target pixel point in the next video frame of the key video frame. , Steps and, including.

本願の実施例の一態様では、ビデオデータ処理方法が提供されており、前記方法は、
ターゲットビデオから、隣接する第1ビデオフレーム及び第2ビデオフレームを取得するステップと、
前記ターゲットビデオに対応するオプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点と、前記第2ビデオフレームにおける画素点とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定するステップと、
前記平均変位行列に基づいて、前記第1ビデオフレームにおける画素点の位置情報を追跡し、前記第2ビデオフレームにおいて、追跡された画素点の位置情報を決定するステップと、
前記第1ビデオフレームにおける画素点の位置情報と、前記追跡された画素点の前記第2ビデオフレームにおける位置情報とに基づいて、前記ターゲットビデオに関連付けられた軌跡情報を生成するステップであって、前記軌跡情報は、ターゲットビデオにおけるターゲット画素点に関連付けられたマルチメディア情報を追跡して表示するためのターゲット軌跡情報を含む、ステップと、を含む。
In one aspect of the embodiments of the present application, a video data processing method is provided, wherein the method is described.
The step of acquiring the adjacent first video frame and second video frame from the target video, and
A step of determining an average displacement matrix corresponding to the first video frame based on the optical flow tracking rule corresponding to the target video, the pixel points in the first video frame, and the pixel points in the second video frame. When,
A step of tracking the position information of the pixel points in the first video frame based on the average displacement matrix and determining the position information of the traced pixel points in the second video frame.
A step of generating trajectory information associated with the target video based on the position information of the pixel points in the first video frame and the position information of the tracked pixel points in the second video frame. The locus information includes a step that includes target locus information for tracking and displaying multimedia information associated with a target pixel point in a target video.

本願の実施例の一態様では、コンピュータ機器に適用されるビデオデータ処理装置が提供されており、前記装置は、
ターゲットビデオに対するトリガ操作に応答して、前記ターゲットビデオのキービデオフレームからターゲット画素点を決定し、前記ターゲット画素点に関連付けられたマルチメディア情報を取得するオブジェクト決定モジュールであって、前記キービデオフレームは、前記トリガ操作が位置するビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける、前記トリガ操作に対応する画素点である、オブジェクト決定モジュールと、
前記ターゲット画素点の前記キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定する要求決定モジュールと、
前記軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得する軌跡取得モジュールであって、前記ターゲット軌跡情報は、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報を含み、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報は、前記ターゲット画素点を追跡することにより取得されたものである、軌跡取得モジュールと、
前記キービデオフレームの次のビデオフレームを再生する際に、前記ターゲット軌跡情報における、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報に基づいて、前記マルチメディア情報を表示するテキスト表示モジュールと、を含む。
In one aspect of the embodiments of the present application, a video data processing device applied to a computer device is provided, and the device is used.
An object determination module that determines a target pixel point from a key video frame of the target video in response to a trigger operation on the target video and acquires multimedia information associated with the target pixel point, and is the key video frame. Is a video frame in which the trigger operation is located, and the target pixel point is an object determination module, which is a pixel point corresponding to the trigger operation in the key video frame.
A request determination module that determines a locus acquisition request corresponding to the target pixel point based on the position information of the target pixel point in the key video frame.
A locus acquisition module that acquires target locus information associated with position information of the target pixel point in the key video frame based on the locus acquisition request, wherein the target locus information is the target pixel point of the target pixel point. The position information of the target pixel point in the next video frame of the key video frame, including the position information in the video frame next to the key video frame, is obtained by tracking the target pixel point. Trajectory acquisition module and
When playing back the video frame next to the key video frame, the multimedia information is displayed based on the position information of the target pixel point in the video frame next to the key video frame in the target locus information. Includes a text display module.

本願の実施例の一態様では、サービスサーバに適用されるビデオデータ処理装置が提供されており、前記装置は、
キービデオフレームにおけるターゲット画素点に対する軌跡取得要求に応答して、ターゲットビデオに関連付けられた軌跡情報を取得する要求応答モジュールであって、前記キービデオフレームは、前記ターゲットビデオにおけるビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける画素点であり、前記軌跡情報は、前記ターゲットビデオの各ビデオフレームにおける画素点の位置情報によって決定されたものである、要求応答モジュールと、
前記ターゲットビデオに関連付けられた軌跡情報の中から、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を選別し、前記ターゲット軌跡情報を返信する軌跡選別モジュールであって、前記ターゲット軌跡情報は、ターゲット位置情報を含み、前記ターゲット位置情報は、前記キービデオフレームの次のビデオフレームにおいて、前記ターゲット画素点に関連付けられたマルチメディア情報を表示することをトリガするためのものである、軌跡選別モジュールと、を含む。
In one aspect of the embodiments of the present application, a video data processing device applied to a service server is provided, and the device is used.
A request response module that acquires trajectory information associated with a target video in response to a trajectory acquisition request for a target pixel point in a key video frame, wherein the key video frame is a video frame in the target video, and the said. The target pixel point is a pixel point in the key video frame, and the locus information is determined by the position information of the pixel point in each video frame of the target video.
A locus selection module that selects target locus information associated with the position information of the target pixel point in the key video frame from the locus information associated with the target video, and returns the target locus information. The target locus information includes target position information, and the target position information is for triggering display of multimedia information associated with the target pixel point in the next video frame of the key video frame. Includes a locus sorting module, which is.

本願の実施例の一態様では、ビデオデータ処理装置が提供されており、前記装置は、
ターゲットビデオから、隣接する第1ビデオフレーム及び第2ビデオフレームを取得する第1取得モジュールと、
前記ターゲットビデオに対応するオプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点と、前記第2ビデオフレームにおける画素点とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定する行列取得モジュールと、
前記平均変位行列に基づいて、前記第1ビデオフレームにおける画素点の位置情報を追跡し、前記第2ビデオフレームにおいて、追跡された画素点の位置情報を決定する位置追跡モジュールと、
前記第1ビデオフレームにおける画素点の位置情報と、前記追跡された画素点の前記第2ビデオフレームにおける位置情報とに基づいて、前記ターゲットビデオに関連付けられた軌跡情報を生成する追跡生成モジュールあって、前記軌跡情報は、ターゲットビデオにおけるターゲット画素点に関連付けられたマルチメディア情報を追跡して表示するためのターゲット軌跡情報を含む、追跡生成モジュールと、を含む。
In one aspect of the embodiments of the present application, a video data processing apparatus is provided, wherein the apparatus is
The first acquisition module that acquires the adjacent first video frame and second video frame from the target video,
A matrix that determines the average displacement matrix corresponding to the first video frame based on the optical flow tracking rule corresponding to the target video, the pixel points in the first video frame, and the pixel points in the second video frame. Get module and
A position tracking module that tracks the position information of the pixel points in the first video frame based on the average displacement matrix and determines the position information of the tracked pixel points in the second video frame.
There is a tracking generation module that generates trajectory information associated with the target video based on the position information of the pixel points in the first video frame and the position information of the tracked pixel points in the second video frame. , The trajectory information includes a tracking generation module, including target trajectory information for tracking and displaying multimedia information associated with a target pixel point in a target video.

本願の実施例の一態様では、コンピュータ機器が提供されており、前記コンピュータ機器は、プロセッサと、メモリと、ネットワークインタフェースと、を備え、
前記プロセッサは、前記メモリ及び前記ネットワークインタフェースに接続され、前記ネットワークインタフェースは、データ通信機能を提供し、前記メモリは、コンピュータプログラムを記憶し、前記プロセッサは、前記コンピュータプログラムを呼び出すことにより、本願の実施例の一態様に記載の方法を実行する。
In one aspect of the embodiments of the present application, a computer device is provided, wherein the computer device comprises a processor, a memory, a network interface, and the like.
The processor is connected to the memory and the network interface, the network interface provides a data communication function, the memory stores a computer program, and the processor calls the computer program. The method described in one embodiment of the embodiment is carried out.

本願の実施例の一態様では、コンピュータ記憶媒体が提供されており、前記コンピュータ記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムには、プログラム命令が含まれ、前記プログラム命令は、プロセッサによって実行されると、本願の実施例の一態様に記載の方法を実行させる。 In one embodiment of the present embodiment, a computer storage medium is provided, the computer storage medium stores a computer program, the computer program includes program instructions, and the program instructions are delivered by a processor. When executed, the method described in one embodiment of the present application is executed.

本願の実施例又は従来技術における構成をより明確に説明するために、以下、実施例又は従来技術の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているにすぎず、当業者にとって、創造的な労働をせずに、これらの図面から他の図面を得ることもできる。 In order to more clearly explain the configuration in the embodiment or the prior art of the present application, the drawings necessary for the description of the embodiment or the prior art will be briefly introduced below. Obviously, the drawings in the following description show only some embodiments of the present application, and for those skilled in the art, other drawings can be obtained from these drawings without any creative effort.

本願の実施例で提供されるネットワークアーキテクチャの構成の模式図である。It is a schematic diagram of the configuration of the network architecture provided in the embodiment of this application. 本願の実施例で提供されるターゲットビデオにおける複数のビデオフレームの模式図である。FIG. 3 is a schematic diagram of a plurality of video frames in the target video provided in the embodiments of the present application. 本願の実施例で提供されるターゲットビデオを取得するシナリオの模式図である。FIG. 3 is a schematic diagram of a scenario for acquiring a target video provided in an embodiment of the present application. 本願の実施例で提供されるビデオデータ処理方法のフローの模式図である。It is a schematic diagram of the flow of the video data processing method provided in the Example of this application. 本願の実施例で提供されるマルチメディア情報の取得の模式図である。It is a schematic diagram of acquisition of multimedia information provided in the Example of this application. 本願の実施例で提供される全画素追跡の模式図である。It is a schematic diagram of all pixel tracking provided in the Example of this application. 本願の実施例で提供される連続する複数のビデオフレームにおける弾幕データの追跡の模式図である。It is a schematic diagram of the tracking of barrage data in a plurality of consecutive video frames provided in the embodiment of the present application. 本願の実施例で提供される別のビデオデータ処理方法の模式図である。It is a schematic diagram of another video data processing method provided in the Example of this application. 本願の実施例で提供される有効画素点を決定する方法である。It is a method of determining the effective pixel point provided in the embodiment of this application. 本願の実施例で提供される軌跡情報に基づく弾幕データの表示の模式図である。It is a schematic diagram of the barrage data display based on the locus information provided in the embodiment of the present application. 本願の実施例で提供されるビデオデータ処理装置の構成の模式図である。It is a schematic diagram of the structure of the video data processing apparatus provided in the Example of this application. 本願の実施例で提供されるコンピュータ機器の構成の模式図である。It is a schematic diagram of the structure of the computer equipment provided in the Example of this application. 本願の実施例で提供される別のビデオデータ処理装置の構成の模式図である。It is a schematic diagram of the configuration of another video data processing apparatus provided in the embodiment of this application. 本願の実施例で提供される別のコンピュータ機器の構成の模式図である。It is a schematic diagram of the configuration of another computer device provided in the embodiment of this application. 本願の実施例で提供される別のビデオデータ処理装置の構成の模式図である。It is a schematic diagram of the configuration of another video data processing apparatus provided in the embodiment of this application. 本願の実施例で提供される別のコンピュータ機器の構成の模式図である。It is a schematic diagram of the configuration of another computer device provided in the embodiment of this application.

以下、本願の実施例の図面を参照しながら、本願の実施例の構成を明確かつ十分に説明するが、明らかなように、説明する実施例は、本願の一部の実施例にすぎず、全ての実施例ではない。当業者が創造的な労働をせずに本願の実施例から得る全ての他の実施例は、本願の保護範囲に属する。 Hereinafter, the configuration of the embodiment of the present application will be clearly and sufficiently described with reference to the drawings of the embodiment of the present application, but as is clear, the embodiment described is only a part of the embodiment of the present application. Not all examples. All other embodiments that one of ordinary skill in the art obtains from the embodiments of the present application without creative labor fall within the scope of protection of the present application.

従来のネットワークビデオの再生過程において、ビデオ再生インタフェースに表示されるユーザ文字は、ビデオ再生インタフェースで再生されるビデオコンテンツとは独立しているので、表示されるユーザ文字とビデオコンテンツとの間に一定の相関性がない。また、ユーザがユーザ文字を送信しようとする場合、ユーザ端末は、取得したユーザ文字を所定の文字表示トラックで出力する。したがって、各ユーザから送信されたユーザ文字が全て同一の文字表示トラックで出力されるため、ビデオコンテンツに対する個性的なコメントは不可能である。 In the conventional network video playback process, the user characters displayed on the video playback interface are independent of the video content played on the video playback interface, so there is a constant distance between the displayed user characters and the video content. There is no correlation. Further, when the user intends to transmit the user character, the user terminal outputs the acquired user character in a predetermined character display track. Therefore, since all the user characters transmitted from each user are output on the same character display track, it is impossible to make a unique comment on the video content.

本願の実施例で提供されるネットワークアーキテクチャの構成の模式図である図1を参照されたい。図1に示すように、前記ネットワークアーキテクチャは、サービスサーバ2000(又はアプリケーションサーバ2000)と、ユーザ端末クラスタと、を含んでもよい。前記サービスサーバ2000は、多数のサーバからなるサーバクラスタ、例えば、クラウドサーバ(又は、クラウドと略称する)であってもよい。前記ユーザ端末クラスタは、複数のユーザ端末を含んでもよく、図1に示すように、具体的に、ユーザ端末3000a、ユーザ端末3000b、ユーザ端末3000c、…、ユーザ端末3000nを含んでもよい。図1に示すように、ユーザ端末3000a、ユーザ端末3000b、ユーザ端末3000c、…、ユーザ端末3000nは、それぞれ、前記サービスサーバ2000にネットワーク接続されてもよい。これにより、各ユーザ端末は、該ネットワーク接続を介して、サービスサーバ2000とデータやり取りすることができる。 See FIG. 1, which is a schematic diagram of the configuration of the network architecture provided in the examples of the present application. As shown in FIG. 1, the network architecture may include a service server 2000 (or application server 2000) and a user terminal cluster. The service server 2000 may be a server cluster composed of a large number of servers, for example, a cloud server (or abbreviated as cloud). The user terminal cluster may include a plurality of user terminals, and specifically, as shown in FIG. 1, may include a user terminal 3000a, a user terminal 3000b, a user terminal 3000c, ..., And a user terminal 3000n. As shown in FIG. 1, the user terminal 3000a, the user terminal 3000b, the user terminal 3000c, ..., And the user terminal 3000n may each be network-connected to the service server 2000. As a result, each user terminal can exchange data with the service server 2000 via the network connection.

図1に示すように、ユーザ端末クラスタの各ユーザ端末のいずれにも、ターゲットアプリケーションを統合してインストールしてもよい。該ターゲットアプリケーションが各ユーザ端末で実行されると、それぞれ、上記図1に示すサービスサーバ2000とデータやり取りすることができる。ここで、ターゲットアプリケーションは、マルチメディアアプリケーション、ソーシャルアプリケーション、エンターテイメントアプリケーションなど、ビデオ再生機能を有するアプリケーションを含んでもよい。理解を容易にするために、本願の実施例では、前記複数のユーザ端末のうちの1つをターゲットユーザ端末とする場合を例に、該ターゲットアプリケーションが統合されたターゲットユーザ端末が、サービスデータ展示プラットフォームによって、前記サービスサーバ2000との間でデータやり取りを実現する具体的な過程を説明する。ここで、本願の実施例におけるターゲットユーザ端末は、パーソナルコンピュータ、タブレットコンピュータ、ノート型コンピュータ、スマートフォンなどの、上記ターゲットアプリケーションが統合されたモバイル端末を含んでもよい。ここで、該サービスサーバ2000は、該ターゲットアプリケーションのバックグラウンドサーバであってもよく、該バックグラウンドサーバに対応するサービスデータベースは、該サービスデータ展示プラットフォームに展示された各サービスデータ情報を記憶するために用いることができ、該サービスデータ情報は、ビデオデータなどのインターネット情報を含んでもよい。理解すべきものとして、該サービスデータ展示プラットフォームには、複数のビデオが表示されてもよく、ターゲットユーザが、該ターゲットユーザ端末において、該サービスデータ展示プラットフォームを介して複数のビデオのうちの1つをトリガすると、該ビデオに対応するビデオデータを取得してもよく、さらに、該ターゲットユーザ端末で該ビデオデータを再生してもよく、さらに、該ターゲットユーザ端末で現在再生されているビデオデータをターゲットビデオと呼ぶことができる。該ターゲットビデオは、ターゲットユーザ端末から送信されたデータロード指示に基づいて該サービスサーバ2000が返信したビデオデータである。 As shown in FIG. 1, the target application may be integrated and installed in any of the user terminals of the user terminal cluster. When the target application is executed on each user terminal, data can be exchanged with the service server 2000 shown in FIG. 1, respectively. Here, the target application may include an application having a video playback function, such as a multimedia application, a social application, and an entertainment application. In order to facilitate understanding, in the embodiment of the present application, the service data display is performed by the target user terminal integrated with the target application, taking as an example the case where one of the plurality of user terminals is used as the target user terminal. A specific process for realizing data exchange with the service server 2000 by the platform will be described. Here, the target user terminal in the embodiment of the present application may include a mobile terminal in which the target application is integrated, such as a personal computer, a tablet computer, a notebook computer, and a smartphone. Here, the service server 2000 may be a background server of the target application, and the service database corresponding to the background server stores each service data information displayed on the service data display platform. The service data information may include internet information such as video data. It should be understood that the service data display platform may display a plurality of videos, and the target user may display one of the plurality of videos on the target user terminal via the service data display platform. When triggered, the video data corresponding to the video may be acquired, the video data may be played back on the target user terminal, and the video data currently being played on the target user terminal may be targeted. It can be called a video. The target video is video data returned by the service server 2000 based on a data load instruction transmitted from the target user terminal.

ここで、前記ターゲットビデオは、複数のビデオフレームを含んでもよい。各ビデオフレームは、いずれも、1つの画像データと呼ぶことができる。また、各ビデオフレームは、いずれも、該ターゲットビデオの再生期間内の1つの再生タイムスタンプ(即ち、1つの時刻)に対応する。これにより、ターゲットユーザ端末が後続で該ターゲットビデオをロードして再生する際に、該ターゲットビデオにおける各ビデオフレームそれぞれに対応する再生タイムスタンプに基づいて、再生表示インタフェースに各ビデオフレームを表示することができる。 Here, the target video may include a plurality of video frames. Each video frame can be referred to as one image data. Also, each video frame corresponds to one playback time stamp (ie, one time) within the playback period of the target video. As a result, when the target user terminal subsequently loads and plays the target video, each video frame is displayed on the playback display interface based on the playback time stamp corresponding to each video frame in the target video. Can be done.

ここで、サービスサーバ2000は、ビデオの前処理段階において、サービスデータベースに記憶されたビデオセットの各ビデオに対してフレーム化処理を行ってもよい。これにより、各ビデオそれぞれに含まれる複数のビデオフレームを1枚ずつのピクチャとして分割することができる。理解を容易にするために、さらに、本願の実施例で提供されるターゲットビデオにおける複数のビデオフレームの模式図である図2を参照されたい。ここで、該ターゲットビデオは、前述のサービスデータベースにおけるビデオAであってもよく、図2に示すように、該ビデオAは、n個(nは0より大きい正の整数である)のビデオフレームを含んでもよい。サービスサーバ2000は、該ビデオAにおけるn個のビデオフレームをn個のピクチャとして予め分割してもよい。これらのn個のピクチャのうち、前後に隣接する2つずつのピクチャを1つの画像ペアと呼ぶことができる。例えば、図2に示すように、本願の実施例では、図2に示される第1時刻に対応するビデオフレームと、第2時刻に対応するビデオフレームとを1つの画像ペアと呼ぶことができ、第2時刻に対応するビデオフレームと、第3時刻に対応するビデオフレームとを1つの画像ペアと呼ぶことができ、第n-1時刻のビデオフレームと、第n時刻に対応するビデオフレームとを第1画像ペアと呼ぶことができる。換言すれば、1つのターゲットビデオについて、該ターゲットビデオの複数のビデオフレームから、複数の画像ペアを決定することができ、各画像ペアのいずれにも、前後に隣接する2つの時刻に対応するビデオフレームが含まれてもよく、即ち、各画像ペアのいずれにも、隣接する2つのビデオフレームが含まれてもよい。 Here, the service server 2000 may perform framing processing on each video of the video set stored in the service database in the video preprocessing stage. As a result, a plurality of video frames included in each video can be divided into one picture. Further, for ease of understanding, see FIG. 2, which is a schematic diagram of a plurality of video frames in the target video provided in the embodiments of the present application. Here, the target video may be video A in the service database described above, and as shown in FIG. 2, the video A is n video frames (n is a positive integer greater than 0). May include. The service server 2000 may predivide the n video frames in the video A into n pictures. Of these n pictures, two pictures adjacent to each other in the front and back can be called one image pair. For example, as shown in FIG. 2, in the embodiment of the present application, the video frame corresponding to the first time shown in FIG. 2 and the video frame corresponding to the second time can be referred to as one image pair. The video frame corresponding to the second time and the video frame corresponding to the third time can be called one image pair, and the video frame of the n-1th time and the video frame corresponding to the nth time can be referred to as one image pair. It can be called a first image pair. In other words, for one target video, multiple image pairs can be determined from multiple video frames of the target video, and each image pair has a video corresponding to two adjacent times before and after. Frames may be included, i.e., each image pair may contain two adjacent video frames.

理解を容易にするために、本願の実施例では、前記複数の画像ペアのうちの最初の画像ペアを例に挙げる。ビデオの前処理段階において、本願の実施例では、該最初の画像ペアの一方のビデオフレーム(例えば、図2に示される第1時刻に対応するビデオフレーム)を第1ビデオフレームと呼ぶことができ、該画像ペアの他方のビデオフレーム(即ち、第2時刻に対応するビデオフレーム)を第2ビデオフレームと呼ぶことができ、さらに、オプティカルフロー追跡規則に基づいて、該画像ペアの第1ビデオフレームにおける全ての画素点の位置情報を追跡することにより、該第1ビデオフレームにおける各画素点の第2ビデオフレームにおける出現位置情報を取得することができる。各画像ペアのいずれにも、隣接する2つのビデオフレームが含まれるので、各画像ペアそれぞれの第1ビデオフレームにおける画素点の、次のビデオフレームにおける出現位置情報を算出することができ、最後に、該サービスサーバ2000において、該ビデオAにおける全ての画素点の、全てのビデオフレームにおける移動軌跡を決定することができ、これらの画素点の移動軌跡を画素点の軌跡情報と総称することができる。 For ease of understanding, in the embodiments of the present application, the first image pair among the plurality of image pairs will be taken as an example. In the video preprocessing stage, in the embodiment of the present application, one video frame of the first image pair (for example, the video frame corresponding to the first time shown in FIG. 2) can be referred to as a first video frame. , The other video frame of the image pair (ie, the video frame corresponding to the second time) can be referred to as the second video frame, and further, based on the optical flow tracking rules, the first video frame of the image pair. By tracking the position information of all the pixel points in the above, it is possible to acquire the appearance position information of each pixel point in the second video frame in the first video frame. Since each of the image pairs contains two adjacent video frames, it is possible to calculate the appearance position information of the pixel points in the first video frame of each image pair in the next video frame, and finally. In the service server 2000, the movement loci of all the pixel points in the video A in all the video frames can be determined, and the movement loci of these pixel points can be collectively referred to as the locus information of the pixel points. ..

サービスサーバ2000が、該ビデオAにおける全ての画素点の軌跡情報を予め計算しておくことができるので、ターゲットユーザがターゲットユーザ端末で該ビデオAを再生する際に、現在再生されているビデオAをターゲットビデオと呼ぶことができる。該ターゲットビデオの再生中に、ターゲットユーザは、あるオブジェクトを追跡する必要がある場合、ターゲットユーザ端末において、追跡する必要があるオブジェクト(即ち、ターゲットオブジェクト)に対してトリガ操作を実行してもよい。トリガ操作に対応する画素点は、ターゲット画素点と呼ばれ、即ち、該ターゲット画素点は、現在再生されているビデオフレームにおけるターゲットオブジェクトに対して該ターゲットユーザが実行したトリガ操作によって決定され、該トリガ操作は、現在再生されているビデオフレームから、追跡する必要があるターゲットオブジェクトを選択することに使用することができる。ここで、本願の実施例では、該トリガ操作に対応するビデオフレームをキービデオフレームと呼ぶことができる。換言すれば、本願の実施例では、現在該ターゲット画素点を含むビデオフレームを、該ターゲットビデオにおけるキービデオフレームと呼ぶことができる。理解すべきものとして、該キービデオフレームは、上記図2に対応する実施例における第1時刻に対応するビデオフレームであってもよい。任意選択的に、該キービデオフレームは、上記図2に対応する実施例における第2時刻に対応するビデオフレームであってもよいが、ここでは網羅的に挙げない。 Since the service server 2000 can calculate the locus information of all the pixel points in the video A in advance, the video A currently being played when the target user plays the video A on the target user terminal. Can be called the target video. During playback of the target video, if the target user needs to track an object, the target user may perform a trigger operation on the object to be tracked (that is, the target object) on the target user terminal. .. The pixel point corresponding to the trigger operation is called the target pixel point, that is, the target pixel point is determined by the trigger operation performed by the target user on the target object in the currently playing video frame, and the target pixel point is determined. Trigger operations can be used to select the target object that needs to be tracked from the currently playing video frame. Here, in the embodiment of the present application, the video frame corresponding to the trigger operation can be referred to as a key video frame. In other words, in the embodiment of the present application, the video frame currently including the target pixel point can be referred to as a key video frame in the target video. As should be understood, the key video frame may be a video frame corresponding to the first time in the embodiment corresponding to FIG. 2 above. Optionally, the key video frame may be a video frame corresponding to the second time in the embodiment corresponding to FIG. 2, but is not exhaustively mentioned here.

理解すべきものとして、本願の実施例では、該キービデオフレーム、該キービデオフレームにおけるターゲット画素点、及び該ターゲット画素点の位置情報を、上記図1に対応する実施例におけるサービスサーバ2000に与えることができる。これにより、該サービスサーバ2000は、該ターゲット画素点の該キービデオフレームにおける位置情報に基づいて、予め算出された、該ターゲットビデオにおける全ての画素点の軌跡情報の中から、該ターゲット画素点の位置情報にマッチングする軌跡情報をターゲット軌跡情報として選別することができる。ここで、前記ターゲット軌跡情報は、ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置座標を含んでもよい。さらに、サービスサーバ2000は、該ターゲット軌跡情報を該ターゲットユーザ端末に返信してもよい。これにより、ターゲットユーザ端末は、該キービデオフレームの次のビデオフレームを再生する際に、さらに、該ターゲット軌跡情報に基づいて、ターゲット画素点の、該キービデオフレームの次のビデオフレームにおける位置情報を決定することができ、即ち、該ターゲット画素点のターゲット位置情報を取得することができ、さらに、該ターゲット位置情報に基づいて、該ターゲットオブジェクトに対応するマルチメディア情報を表示することができる。 As to be understood, in the embodiment of the present application, the key video frame, the target pixel point in the key video frame, and the position information of the target pixel point are given to the service server 2000 in the embodiment corresponding to FIG. Can be done. As a result, the service server 2000 selects the target pixel point from the locus information of all the pixel points in the target video calculated in advance based on the position information of the target pixel point in the key video frame. The locus information that matches the position information can be selected as the target locus information. Here, the target locus information may include the position coordinates of the target pixel point in the next video frame of the key video frame. Further, the service server 2000 may return the target locus information to the target user terminal. As a result, when the target user terminal plays the video frame next to the key video frame, the position information of the target pixel point in the video frame next to the key video frame is further based on the target locus information. That is, the target position information of the target pixel point can be acquired, and further, the multimedia information corresponding to the target object can be displayed based on the target position information.

さらに、本願の実施例で提供されるターゲットビデオを取得するシナリオの模式図である図3を参照されたい。図3に示すターゲットユーザ端末は、上記図1に対応する実施例におけるユーザ端末3000aであってもよい。図3に示すように、ターゲットユーザは、該ターゲットアプリケーションに入った後、該ターゲットユーザ端末(例えば、スマートフォン)に該ターゲットアプリケーションのサービスデータ展示プラットフォームを表示させてもよい。該サービスデータ展示プラットフォームには、図3に示されるビデオ10a、ビデオ20a、ビデオ30a、及びビデオ40aが表示されてもよい。ターゲットユーザは、図3に示されるビデオ30a(該ビデオ30aは、上記図3に対応する実施例におけるビデオAであってもよい)をターゲットユーザ端末で再生する必要がある場合、該ビデオ30aが位置する領域に対して再生操作を実行してもよく(例えば、ターゲットユーザは、該ビデオ30aに対してクリック操作を実行してもよい)、さらに、該ビデオ30aに対応するターゲット識別情報を、図3に示すデータロード指示に付加して、該ターゲットユーザ端末とネットワーク接続関係があるアプリケーションサーバに該データロード指示をさらに与えてもよい。該アプリケーションサーバは、上記図1に対応する実施例におけるサービスサーバ2000であってもよい。理解できるように、該アプリケーションサーバは、データロード指示を取得すると、サービスデータベースから、該ターゲット識別情報に対応するビデオデータを検索することができ、検出されたビデオデータをターゲットデータと総称することができる。これにより、図3に示すターゲットユーザ端末に該ターゲットデータを与えることができ、該ターゲットユーザ端末は、図3に示すビデオ再生インタフェースで該ビデオデータを再生することができる。このとき、該ターゲットユーザ端末は、該ターゲットユーザによって選択されて再生されるビデオ30aをターゲットビデオと呼ぶことができる。即ち、このとき、該ターゲットユーザ端末は、上記図3に示す再生タイムスタンプに従って、ビデオAにおける各ビデオフレームを再生することができる。 Further, see FIG. 3, which is a schematic diagram of a scenario for acquiring a target video provided in an embodiment of the present application. The target user terminal shown in FIG. 3 may be the user terminal 3000a in the embodiment corresponding to FIG. 1 above. As shown in FIG. 3, after entering the target application, the target user may display the service data display platform of the target application on the target user terminal (for example, a smartphone). The service data display platform may display video 10a, video 20a, video 30a, and video 40a shown in FIG. When the target user needs to play the video 30a shown in FIG. 3 (the video 30a may be the video A in the embodiment corresponding to the above FIG. 3) on the target user terminal, the video 30a A playback operation may be performed on the located area (for example, the target user may perform a click operation on the video 30a), and the target identification information corresponding to the video 30a may be obtained. In addition to the data load instruction shown in FIG. 3, the data load instruction may be further given to the application server having a network connection relationship with the target user terminal. The application server may be the service server 2000 in the embodiment corresponding to FIG. 1 above. As can be understood, when the application server obtains the data load instruction, the video data corresponding to the target identification information can be searched from the service database, and the detected video data may be collectively referred to as the target data. can. Thereby, the target data can be given to the target user terminal shown in FIG. 3, and the target user terminal can reproduce the video data by the video reproduction interface shown in FIG. At this time, the target user terminal can refer to the video 30a selected and played by the target user as the target video. That is, at this time, the target user terminal can reproduce each video frame in the video A according to the reproduction time stamp shown in FIG.

ここで、上記ターゲットユーザ端末によるターゲットオブジェクトの取得及びターゲット軌跡情報の取得の具体的な過程については、以下の図4~図7に対応する実施例で提供される実現方式を参照すればよい。また、上記サービスサーバ2000による前記画素点の前記第2ビデオフレームにおける位置情報の取得、及び前記ターゲット画素点に対応するターゲット軌跡情報の選別の具体的な過程については、以下の図8~図10に対応する実施例で提供される実現方式を参照すればよい。 Here, for a specific process of acquiring the target object and acquiring the target locus information by the target user terminal, the realization method provided in the examples corresponding to FIGS. 4 to 7 below may be referred to. Further, the specific processes of acquiring the position information of the pixel points in the second video frame by the service server 2000 and selecting the target locus information corresponding to the target pixel points are described in FIGS. 8 to 10 below. The implementation method provided in the embodiment corresponding to the above may be referred to.

本願の実施例で提供されるビデオデータ処理方法のフローの模式図である図4を参照されたい。図4に示すように、この方法は、上記図1に対応する実施例におけるターゲットユーザ端末に適用可能である。この方法は、以下のステップを含んでもよい。 See FIG. 4, which is a schematic diagram of the flow of the video data processing method provided in the examples of the present application. As shown in FIG. 4, this method is applicable to the target user terminal in the embodiment corresponding to FIG. 1 above. This method may include the following steps.

ステップS101で、ターゲットビデオに対するトリガ操作に応答して、前記ターゲットビデオのキービデオフレームからターゲット画素点を決定し、前記ターゲット画素点に関連付けられたマルチメディア情報を取得し、前記キービデオフレームは、前記トリガ操作が位置するビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける、前記トリガ操作に対応する画素点である。 In step S101, in response to the trigger operation for the target video, the target pixel point is determined from the key video frame of the target video, and the multimedia information associated with the target pixel point is acquired. It is a video frame in which the trigger operation is located, and the target pixel point is a pixel point corresponding to the trigger operation in the key video frame.

具体的には、ターゲットユーザ端末は、ターゲットアプリケーションにアクセスする際に、複数のサービスデータ情報を搭載するためのサービスデータ展示プラットフォームを該ターゲットアプリケーションの表示インタフェースに表示してもよい。例えば、該サービスデータ展示プラットフォーム上の各サービスデータ情報それぞれは、1つのビデオであってもよい。該サービスデータ展示プラットフォームに展示されるサービスデータ情報は、該ターゲットユーザ端末とネットワーク接続関係があるアプリケーションサーバが、ターゲットユーザのユーザプロファイルデータ(例えば、該ターゲットユーザの行動履歴データ)に基づいて選別を行うことにより決定されてもよい。ターゲットユーザが、該サービスデータ展示プラットフォーム上の1つのサービスデータ情報(例えば、1つのビデオ)に対して再生操作を実行すると、該アプリケーションサーバに対応するサービスデータベースから、該ビデオに対応するビデオデータをロードしてもよく、さらに、該ロードしたビデオデータを、該ターゲットユーザ端末のビデオ再生インタフェースで再生してもよい。さらに、ターゲットユーザ端末は、ビデオデータを再生している間に、該ビデオ再生インタフェースにおけるターゲットオブジェクト(即ち、追跡する必要があるオブジェクト)に対してターゲットユーザが実行したトリガ操作を取得してもよい。前記トリガ操作は、例えば、ターゲットユーザ端末のディスプレイに表示されているビデオフレームにおけるターゲットオブジェクトのある点を、マウスでクリックするか、又はタッチすることである。該トリガ操作に対応するビデオフレームをキービデオフレームと呼ぶことができ、該キービデオフレームにおける、トリガ操作に対応する画素点をターゲット画素点と呼ぶことができる。画素点は、画像(例えば、ビデオフレーム)における1つ1つの点である。画像が解像度640×480のピクチャである場合、該画像に640×480個の画素点が分布している。通常、画像の画素点には、空間的な位置と色(又は階調)の属性がある。これと同時に、該ターゲットユーザ端末は、該ビデオ再生インタフェースとは独立したサブウィンドウ内にテキストボックスを作成してもよい。これにより、該ターゲットユーザは、該ターゲットオブジェクトと関連関係があるマルチメディア情報を該テキストボックスに入力することができる。ターゲットユーザが該テキストボックスにマルチメディア情報を入力すると、該ターゲットユーザ端末は、該ターゲットオブジェクトに関連付けられたマルチメディア情報を取得することができる。即ち、該ターゲットオブジェクトに関連付けられたマルチメディア情報は、該ターゲットユーザにより入力されたユーザ文字やユーザコメントと総称することができる。 Specifically, the target user terminal may display a service data display platform for mounting a plurality of service data information on the display interface of the target application when accessing the target application. For example, each service data information on the service data exhibition platform may be one video. The service data information displayed on the service data display platform is selected by the application server having a network connection relationship with the target user terminal based on the user profile data of the target user (for example, the behavior history data of the target user). It may be determined by doing. When the target user executes a playback operation on one service data information (for example, one video) on the service data exhibition platform, the video data corresponding to the video is obtained from the service database corresponding to the application server. It may be loaded, and the loaded video data may be played back on the video playback interface of the target user terminal. Further, the target user terminal may acquire the trigger operation performed by the target user on the target object (that is, the object that needs to be tracked) in the video playback interface while playing the video data. .. The trigger operation is, for example, clicking or touching a certain point of the target object in the video frame displayed on the display of the target user terminal with the mouse. The video frame corresponding to the trigger operation can be called a key video frame, and the pixel point corresponding to the trigger operation in the key video frame can be called a target pixel point. Pixel points are individual points in an image (eg, a video frame). When the image is a picture having a resolution of 640 × 480, 640 × 480 pixel points are distributed in the image. Usually, pixel points in an image have spatial position and color (or gradation) attributes. At the same time, the target user terminal may create a text box in a subwindow independent of the video playback interface. This allows the target user to enter multimedia information related to the target object in the text box. When the target user inputs the multimedia information in the text box, the target user terminal can acquire the multimedia information associated with the target object. That is, the multimedia information associated with the target object can be collectively referred to as user characters and user comments input by the target user.

ここで、前記ターゲットユーザ端末は、ビデオデータ再生機能を有する端末機器であってもよい。前記ターゲットユーザ端末は、上記図1に対応する実施例におけるユーザ端末3000aであってもよい。該ターゲットユーザ端末は、モバイル端末として理解されてもよい。ここで、前記アプリケーションサーバは、上記図1に対応する実施例におけるサービスサーバ2000であってもよい。 Here, the target user terminal may be a terminal device having a video data reproduction function. The target user terminal may be the user terminal 3000a in the embodiment corresponding to FIG. 1. The target user terminal may be understood as a mobile terminal. Here, the application server may be the service server 2000 in the embodiment corresponding to FIG. 1.

理解を容易にするために、さらに、本願の実施例で提供されるマルチメディア情報の取得の模式図である図5を参照されたい。図5に示すように、上記図3に対応する実施例におけるビデオ30aをターゲットユーザ端末が再生している間に、該ターゲットユーザ端末は、現在再生されているビデオ30aをターゲットビデオとしてもよい。理解できるように、ターゲットユーザは、該ビデオ30aが再生されている任意の時刻に、該ビデオ30aに含まれる複数のビデオフレームのうちのいずれか1つに対してトリガ操作を実行してもよい。ターゲットユーザ端末は、該トリガ操作に対応するビデオフレームをキービデオフレームとしてもよい。例えば、図5に示すように、ターゲットユーザは、図5に示すビデオ再生インタフェース100aにおいて、オブジェクトAをターゲットオブジェクトとして選択してもよい。この場合、ターゲットユーザ端末は、ビデオ再生インタフェース100aで現在再生されているビデオフレームをキービデオフレームと呼ぶことができる。換言すれば、該ターゲットユーザ端末は、該選択操作(即ち、トリガ操作)に対応するビデオフレームをキービデオフレームとしてもよく、該キービデオフレームにおける、選択操作に対応する画素点をターゲット画素点としてもよい。このとき、該ターゲット画素点は、該ターゲットユーザ端末で取得されたターゲットビデオにおけるキービデオフレームの画素点である。 Further, for ease of understanding, see FIG. 5, which is a schematic diagram of the acquisition of multimedia information provided in the embodiments of the present application. As shown in FIG. 5, while the target user terminal is playing the video 30a in the embodiment corresponding to FIG. 3, the target user terminal may use the video 30a currently being played as the target video. As can be seen, the target user may perform a trigger operation on any one of the plurality of video frames included in the video 30a at any time during which the video 30a is being played. .. The target user terminal may use the video frame corresponding to the trigger operation as the key video frame. For example, as shown in FIG. 5, the target user may select the object A as the target object in the video reproduction interface 100a shown in FIG. In this case, the target user terminal can refer to the video frame currently being reproduced by the video reproduction interface 100a as a key video frame. In other words, the target user terminal may use the video frame corresponding to the selection operation (that is, the trigger operation) as the key video frame, and the pixel point corresponding to the selection operation in the key video frame as the target pixel point. May be good. At this time, the target pixel point is the pixel point of the key video frame in the target video acquired by the target user terminal.

図5に示すように、図5に示すビデオ再生インタフェース100aにおいて、オブジェクトAに対してターゲットユーザがトリガ操作を行うと、図5に示すビデオ再生インタフェース200aにおいて、図5に示すテキストボックスをポップアップしてもよく、該テキストボックスは、ダイアログボックスとも呼ばれる。図5に示すテキストボックスは、該ビデオ再生インタフェース200aとは独立したフローティングウィンドウとして理解することができる。また、図5に示すテキストボックスは、図5に示すオブジェクトAと関連関係があってもよい(例えば、該オブジェクトAにおけるターゲット画素点と表示位置上の相対関係があってもよい。これにより、該ビデオ30aにおけるターゲットオブジェクトのターゲット画素点と、該ターゲットオブジェクトに関連付けられたマルチメディア情報との関連性を構築する)。前記フローティングウィンドウの実現は、前記ビデオ再生インタフェースの実現と類似するか又は同じであってもよい。理解すべきものとして、本願の実施例のダイアログボックスに入力されるマルチメディア情報は、ユーザ文字、ユーザピクチャ、及びユーザ表情などのデータを含んでもよく、該ターゲットユーザが該ダイアログボックスに入力するユーザ文字(即ち、テキスト情報)、ユーザピクチャ(即ち、ピクチャ情報)、及びユーザ表情(即ち、表情情報)などを弾幕データと総称することができる。前記弾幕データの表示は、字幕と類似してもよい。 As shown in FIG. 5, when the target user performs a trigger operation on the object A in the video playback interface 100a shown in FIG. 5, the text box shown in FIG. 5 pops up in the video playback interface 200a shown in FIG. The text box may also be referred to as a dialog box. The text box shown in FIG. 5 can be understood as a floating window independent of the video playback interface 200a. Further, the text box shown in FIG. 5 may have a relational relationship with the object A shown in FIG. 5 (for example, there may be a relative relationship between the target pixel point in the object A and the display position. The relationship between the target pixel point of the target object in the video 30a and the multimedia information associated with the target object is constructed). The realization of the floating window may be similar to or the same as the realization of the video playback interface. It should be understood that the multimedia information entered in the dialog box of the embodiments of the present application may include data such as user characters, user pictures, and user facial expressions, and the user characters entered by the target user in the dialog box. (That is, text information), user pictures (that is, picture information), user facial expressions (that is, facial expression information), and the like can be collectively referred to as dialog data. The display of the barrage data may be similar to that of subtitles.

したがって、図5に示すビデオ再生インタフェース200aのテキストボックスにターゲットユーザがテキスト情報Aを入力すると、図5に示すビデオ再生インタフェース300aに、入力された該テキスト情報Aを表示させてもよい。入力された該テキスト情報Aは、図5に示すような、該オブジェクトAのターゲット画素点と一定の位置間隔距離があるテキスト情報であってもよい。該ビデオ再生インタフェース300aに表示されたテキスト情報Aは、該ターゲットオブジェクトに関連付けられた弾幕データと呼ぶことができる。 Therefore, when the target user inputs the text information A in the text box of the video reproduction interface 200a shown in FIG. 5, the input text information A may be displayed in the video reproduction interface 300a shown in FIG. The input text information A may be text information having a certain position interval distance from the target pixel point of the object A as shown in FIG. The text information A displayed on the video reproduction interface 300a can be referred to as barrage data associated with the target object.

ステップS102で、前記ターゲット画素点の前記キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定する。 In step S102, the locus acquisition request corresponding to the target pixel point is determined based on the position information of the target pixel point in the key video frame.

具体的には、ターゲットユーザ端末は、該キービデオフレームにおいて、該ターゲット画素点の位置情報を決定してもよく、該キービデオフレームのターゲットビデオにおけるフレーム番号と、該ターゲット画素点の該キービデオフレームにおける位置情報とに基づいて、該ターゲット画素点に対応する軌跡取得要求を生成してもよい。これにより、ステップS103をさらに実行することができる。 Specifically, the target user terminal may determine the position information of the target pixel point in the key video frame, and the frame number in the target video of the key video frame and the key video of the target pixel point. A locus acquisition request corresponding to the target pixel point may be generated based on the position information in the frame. As a result, step S103 can be further executed.

ここで、該軌跡取得要求は、アプリケーションサーバに対して、予め算出された該ターゲットビデオにおける全ての画素点のそれぞれに対応する軌跡情報の中から、該ターゲット画素点にマッチングする軌跡情報を選別するように指示するために用いることができる。 Here, the locus acquisition request selects the locus information matching the target pixel point from the locus information corresponding to each of all the pixel points in the target video calculated in advance to the application server. Can be used to instruct.

ステップS103で、前記軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得する。 In step S103, the target locus information associated with the position information of the target pixel point in the key video frame is acquired based on the locus acquisition request.

ここで、前記ターゲット軌跡情報は、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報を含み、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報は、前記ターゲット画素点を追跡することにより取得されたものである。 Here, the target locus information includes the position information of the target pixel point in the video frame next to the key video frame, and the position information of the target pixel point in the video frame next to the key video frame is. It is obtained by tracking the target pixel point.

本願の実施例では、ターゲットユーザ端末は、アプリケーションサーバによって予め算出された、ターゲットビデオにおける全ての画素点の、全てのビデオフレームにおける移動軌跡(各画素点それぞれの移動軌跡は、1つの軌跡情報と総称することができる)に基づいて、これらの画素点に対応する移動軌跡の中から、ターゲット画素点にマッチングする画素点の移動軌跡を、該ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報として選別してもよい。換言すれば、該ターゲットユーザ端末は、該ターゲット軌跡情報を取得すると、該ターゲット軌跡情報に含まれる、前記ターゲット画素点の、該キービデオフレームの次のビデオフレームにおける位置情報に基づいて、上記図5に対応する実施例におけるターゲットオブジェクトにおけるターゲット画素点と、該ターゲットオブジェクトに関連付けられたマルチメディア情報との位置間隔距離、又は、ターゲット画素点とマルチメディア情報との位置間隔を迅速に決定することができ、即ち、該マルチメディア情報の、該キービデオフレームの次のビデオフレームにおける出現位置情報を迅速に取得することができる。 In the embodiment of the present application, the target user terminal has a movement locus in all video frames of all pixel points in the target video calculated in advance by the application server (the movement locus of each pixel point is one locus information). Based on (which can be generically referred to), the movement locus of the pixel point matching the target pixel point is associated with the position information of the target pixel point in the key video frame from the movement loci corresponding to these pixel points. It may be selected as the target locus information obtained. In other words, when the target user terminal acquires the target locus information, the above figure is based on the position information of the target pixel point included in the target locus information in the next video frame of the key video frame. To quickly determine the position spacing distance between the target pixel point in the target object and the multimedia information associated with the target object, or the position spacing between the target pixel point and the multimedia information in the embodiment corresponding to 5. That is, the appearance position information of the multimedia information in the next video frame of the key video frame can be quickly acquired.

理解できるように、該位置間隔距離は、前記キービデオフレームにおけるターゲット画素点と、対応する弾幕データとの相対的な位置間隔距離として理解してもよい。即ち、該位置離間距離は、水平方向(即ち、横方向)の相対的な位置離間距離を含んでもよく、垂直方向(即ち、縦方向)の相対的な位置間隔距離を含んでもよい。これにより、ターゲットユーザ端末が、ターゲット画素点の、キービデオフレームの次のビデオフレームにおける位置情報を取得すると、前記相対的な位置間隔距離に基づいて、テキスト情報Aの、キービデオフレームの次のビデオフレームにおける位置情報を迅速に算出できることを確保することができる。即ち、このとき、上記図5に対応する実施例におけるビデオ再生インタフェース300aに表示されるテキスト情報Aの位置情報は、ターゲット画素点の、該キービデオフレームの後の他のビデオフレームにおける位置情報により決まる。ターゲットユーザ端末の計算性能が普通である場合、該ターゲットユーザ端末は、該ターゲットユーザ端末とネットワーク接続関係があるアプリケーションサーバから、該キービデオフレームにおけるターゲット画素点の位置情報に合致する軌跡情報をターゲット軌跡情報として取得してもよい。これにより、該ターゲットユーザ端末は、該アプリケーションサーバによって予め算出された該ターゲット画素点のターゲット軌跡情報を取得すると、さらに、該ターゲット軌跡情報におけるターゲット画素点の、該キービデオフレームの次のビデオフレームにおける出現位置情報に基づいて、該弾幕データの高速追跡を有効期間内に迅速かつ正確に実現することができる。このように、該ターゲットユーザ端末の計算量を効果的に削減することができ、該ターゲットユーザ端末の計算性能が普通である場合にも、該弾幕データを高速に追跡できることを確保することができる。 As can be understood, the position spacing distance may be understood as the relative position spacing distance between the target pixel point in the key video frame and the corresponding barrage data. That is, the position separation distance may include a relative position separation distance in the horizontal direction (that is, the lateral direction), or may include a relative position separation distance in the vertical direction (that is, the vertical direction). As a result, when the target user terminal acquires the position information of the target pixel point in the video frame next to the key video frame, the text information A next to the key video frame is based on the relative position spacing distance. It is possible to ensure that the position information in the video frame can be calculated quickly. That is, at this time, the position information of the text information A displayed on the video reproduction interface 300a in the embodiment corresponding to FIG. 5 is based on the position information of the target pixel point in another video frame after the key video frame. It will be decided. When the calculation performance of the target user terminal is normal, the target user terminal targets the locus information matching the position information of the target pixel point in the key video frame from the application server having a network connection relationship with the target user terminal. It may be acquired as trajectory information. As a result, when the target user terminal acquires the target locus information of the target pixel point calculated in advance by the application server, the target pixel point in the target locus information is the next video frame of the key video frame. Based on the appearance position information in, high-speed tracking of the barrage data can be realized quickly and accurately within a valid period. In this way, the amount of calculation of the target user terminal can be effectively reduced, and even when the calculation performance of the target user terminal is normal, it is possible to ensure that the barrage data can be tracked at high speed. ..

ここで、該有効期間は、弾幕データに対応する表示期間であってもよい。即ち、該ターゲットユーザ端末は、該表示期間内に、該ターゲットオブジェクトに関連付けられた弾幕データを追跡することができる。 Here, the valid period may be a display period corresponding to the barrage data. That is, the target user terminal can track the barrage data associated with the target object within the display period.

理解すべきものとして、該ターゲットビデオにおける各画素点の移動軌跡(即ち、各画素点の軌跡情報)は、各画素点の、該ターゲットビデオの各ビデオフレームにおける位置情報によって決定されたものである。ここで、複数のビデオフレームを含むターゲットビデオの場合、本願の実施例では、この複数のビデオフレームのうち、隣接する任意の2つのビデオフレームを1つの画像ペアとして決定してもよい。理解すべきものとして、この複数のビデオフレームの中から決定された各画像ペアそれぞれに含まれる2つのビデオフレームのうち、一方のビデオフレームを第1ビデオフレームと呼ぶことができ、他方のビデオフレームを第2ビデオフレームと呼ぶことができる。上記図2に対応する実施例における第1時刻に対応するビデオフレームと、第2時刻に対応するビデオフレームとからなる画像ペア1については、該画像ペア1において、第1時刻に対応するビデオフレームを第1ビデオフレームと呼ぶことができ、該第2時刻に対応するビデオフレームを第2ビデオフレームと呼ぶことができる。さらに、予め算出された、該画像ペア1におけるこの2つのビデオフレーム間の平均変位行列に基づいて、該第1ビデオフレームにおける全ての画素点を追跡して、該第1ビデオフレームにおける全ての画素点の第2ビデオフレームにおける出現位置情報を決定することができる。同様に、上記図2に対応する実施例における第2時刻に対応するビデオフレームと、第3時刻に対応するビデオフレームとからなる画像ペア2についても、該第2時刻に対応するビデオフレームを第1ビデオフレームと呼ぶことができ、該第3時刻に対応するビデオフレームを第2ビデオフレームと呼ぶことができる。これにより、予め算出された、該画像ペア2におけるこの2つのビデオフレーム間の平均変位行列に基づいて、該第1ビデオフレームにおける全ての画素点を追跡して、該第1ビデオフレームにおける全ての画素点の第2ビデオフレームにおける出現位置情報を決定することができる。このようにして、本願の実施例では、各画像ペアそれぞれに対応する平均変位行列を取得することができ、各画像ペアそれぞれに対応する平均変位行列は、各画像ペアそれぞれにおける第1ビデオフレームに対応する平均変位行列と呼ぶことができ、各第1ビデオフレームそれぞれに対応する平均変位行列は、第1ビデオフレームにおける全ての画素点を第2ビデオフレームにマッピングして、第2ビデオフレームにおいて、マッピングされたこれら画素点の位置情報を正確に取得するために用いることができる。理解すべきものとして、本願の実施例における平均変位行列は、縦方向平均変位行列と横方向平均変位行列とを含んでもよい。縦方向平均変位行列によって、第1ビデオフレームにおける各画素点の第1縦方向座標値(例えば、y値)に対して縦方向座標変換を行って、各画素点の、第2ビデオフレームにマッピングされた第2縦方向座標を取得することができる。同様に、横方向平均変位行列によって、第1ビデオフレームにおける各画素点の第1横方向座標値(例えば、x値)に対して横方向座標変換を行って、各画素点の、第2ビデオフレームにマッピングされた第2横方向座標を取得することができる。理解すべきものとして、本願の実施例では、各画素点の第1ビデオフレームにおける第1横方向座標及び第1縦方向座標値を、該第1ビデオフレームにおける各画素点の第1位置情報と呼ぶことができ、各画素点の、第1ビデオフレームにマッピングされた第2横方向座標及び第2縦方向座標値を、該第2ビデオフレームにおける各マッピングされた画素点の第2位置情報と呼ぶことができる。各画像ペアは、いずれも、1つの平均変位行列に対応するので、第1ビデオフレームにおける画素点の第1位置情報に基づいて、対応する第2位置情報を算出することができ、算出した第2ビデオフレームにおける各マッピングされた画素点の第2位置情報を保存することができ、さらに、同一画素点の各ビデオフレームにおける位置情報を統合して、該ビデオフレームにおける全ての画素点の移動軌跡を取得することができる。これにより、該ターゲットビデオの全てのビデオフレームにおける全ての画素点の追跡を実現することができる。 It should be understood that the movement locus of each pixel point in the target video (that is, the locus information of each pixel point) is determined by the position information of each pixel point in each video frame of the target video. Here, in the case of a target video including a plurality of video frames, in the embodiment of the present application, any two adjacent video frames among the plurality of video frames may be determined as one image pair. It should be understood that, of the two video frames contained in each image pair determined from the plurality of video frames, one video frame can be referred to as the first video frame, and the other video frame can be referred to as the first video frame. It can be called a second video frame. Regarding the image pair 1 including the video frame corresponding to the first time and the video frame corresponding to the second time in the embodiment corresponding to FIG. 2, the video frame corresponding to the first time in the image pair 1 Can be referred to as a first video frame, and a video frame corresponding to the second time can be referred to as a second video frame. Further, based on the pre-calculated average displacement matrix between the two video frames in the image pair 1, all the pixel points in the first video frame are tracked and all the pixels in the first video frame are traced. The appearance position information of the point in the second video frame can be determined. Similarly, for the image pair 2 including the video frame corresponding to the second time and the video frame corresponding to the third time in the embodiment corresponding to FIG. 2, the video frame corresponding to the second time is the second. It can be called one video frame, and the video frame corresponding to the third time can be called the second video frame. Thereby, based on the pre-calculated average displacement matrix between the two video frames in the image pair 2, all the pixel points in the first video frame are tracked, and all the pixel points in the first video frame are traced. The appearance position information of the pixel point in the second video frame can be determined. In this way, in the embodiment of the present application, the average displacement matrix corresponding to each image pair can be acquired, and the average displacement matrix corresponding to each image pair is set in the first video frame in each image pair. It can be called the corresponding average displacement matrix, and the average displacement matrix corresponding to each first video frame maps all the pixel points in the first video frame to the second video frame, and in the second video frame, It can be used to accurately acquire the position information of these mapped pixel points. It should be understood that the average displacement matrix in the embodiments of the present application may include a longitudinal average displacement matrix and a lateral average displacement matrix. The vertical average displacement matrix performs vertical coordinate conversion on the first vertical coordinate value (for example, y value) of each pixel point in the first video frame, and maps it to the second video frame of each pixel point. The second vertical coordinate obtained can be obtained. Similarly, the lateral average displacement matrix is used to perform lateral coordinate conversion on the first lateral coordinate value (for example, x value) of each pixel point in the first video frame, and the second video of each pixel point. The second lateral coordinates mapped to the frame can be obtained. As should be understood, in the embodiment of the present application, the first horizontal coordinate and the first vertical coordinate value of each pixel point in the first video frame are referred to as the first position information of each pixel point in the first video frame. The second horizontal coordinate and the second vertical coordinate value of each pixel point mapped to the first video frame are referred to as the second position information of each mapped pixel point in the second video frame. be able to. Since each image pair corresponds to one average displacement matrix, the corresponding second position information can be calculated based on the first position information of the pixel points in the first video frame, and the calculated second position information can be calculated. The second position information of each mapped pixel point in the two video frames can be stored, and the position information in each video frame of the same pixel point is integrated to move the locus of all the pixel points in the video frame. Can be obtained. Thereby, it is possible to realize the tracking of all the pixel points in all the video frames of the target video.

理解すべきものとして、上記図2に対応する実施例で示された該ターゲットビデオにおける複数のビデオは、複数の連続する画像フレームであってもよい。したがって、上記の図2に示したターゲットビデオを分割した後、分割された各画像フレーム(即ち、ビデオフレーム)に、再生順に応じたビデオフレーム番号を設定することができる。例えば、上記の第1時刻に取得されたビデオフレームのビデオフレーム番号は、1であってもよく、該ビデオフレーム番号1は、該第1時刻に取得されたビデオフレームが、該ターゲットビデオにおける第1フレームであることを示すために用いることができる。同様に、上記の第2時刻に取得されたビデオフレームのビデオフレーム番号は、2であってもよく、該ビデオフレーム番号2は、該第2時刻に取得されたビデオフレームが、該ターゲットビデオにおける第2フレームであることを示すために用いることができる。このようにして、上記の第n-1時刻に取得されたビデオフレームのビデオフレーム番号は、n-1であってもよく、該ビデオフレーム番号n-1は、該第n-1時刻に取得されたビデオフレームが、該ターゲットビデオにおける第n-1フレームであることを示すために用いることができ、上記の第n時刻に取得されたビデオフレームのビデオフレーム番号は、nであってもよく、該ビデオフレーム番号nは、該第n時刻に取得されたビデオフレームが、該ターゲットビデオにおける第nフレーム、即ち該ターゲットビデオにおける最後のフレームであることを示すために用いることができる。 It should be understood that the plurality of videos in the target video shown in the embodiment corresponding to FIG. 2 above may be a plurality of consecutive image frames. Therefore, after the target video shown in FIG. 2 above is divided, a video frame number corresponding to the playback order can be set for each divided image frame (that is, a video frame). For example, the video frame number of the video frame acquired at the first time may be 1, and the video frame number 1 is such that the video frame acquired at the first time is the first in the target video. It can be used to indicate that it is one frame. Similarly, the video frame number of the video frame acquired at the second time may be 2, and the video frame number 2 is such that the video frame acquired at the second time is the target video. It can be used to indicate that it is the second frame. In this way, the video frame number of the video frame acquired at the above-mentioned n-1 time may be n-1, and the video frame number n-1 is acquired at the n-1 time. The resulting video frame can be used to indicate that it is the n-1th frame in the target video, and the video frame number of the video frame acquired at the above nth time may be n. The video frame number n can be used to indicate that the video frame acquired at the nth time is the nth frame in the target video, that is, the last frame in the target video.

理解を容易にするために、本願の実施例では、平均変位行列によって、第1フレームにおける画素点を第2フレームに平行移動変換して、画素追跡を実現する具体的な過程を説明するために、上記図2に示された複数のビデオフレームのうち、第1フレームと第2フレームとからなる画像ペアを、最初の画像ペアと呼ぶことができる。ここで、該最初の画像ペアにおける第1フレームは、上記図2に対応する実施例における第1時刻に対応するビデオフレームであり、該最初の画像ペアにおける第2フレームは、上記図2に対応する実施例における第2時刻に対応するビデオフレームである。さらに、本願の実施例で提供される全画素追跡の模式図である図6を参照されたい。図6に示す画像ペア(1,2)は、前述した最初の画像ペアであってもよい。該最初の画像ペアにおける第1ビデオフレームは、前述した第1時刻に対応するビデオフレーム(即ち、第1フレーム)であってもよく、該最初の画像ペアにおける第2ビデオフレームは、前述した第2時刻に対応するビデオフレーム(即ち、第2フレーム)であってもよい。ここで、理解すべきものとして、該画像ペア(1,2)の数値1は第1フレームのビデオフレーム番号であり、数値2は第2フレームのビデオフレーム番号である。したがって、該ターゲットビデオにおける前後に隣接する任意の2つのビデオフレームを、該ターゲットビデオにおける各ビデオフレームのビデオフレーム番号で表すことができる。図6に示す画素点表示領域600aは、該画像ペアの第1ビデオフレームから抽出された全ての画素点を含んでもよく、例えば、該画素点表示領域600aにおける各画素点は、いずれも、1つの領域識別子に対応することができる。図6の画素点表示領域600aは、例示するためのものにすぎず、画素点表示領域600aは、画素点領域などとも呼ぶことができる。理解すべきものとして、本願の実施例では、該第1ビデオフレームから取得された画素点が20個の画素点である場合のみを例にしているが、実際には、該第1ビデオフレームから取得された画素点の数は、本願の実施例で列挙された20個よりもはるかに多い。理解すべきものとして、同一ビデオにおける複数のビデオフレームが、同一端末による画像収集により取得されたものであるので、同一ビデオに含まれる各ビデオフレームにおける画素点の数は同じである。 In order to facilitate understanding, in the embodiment of the present application, in order to explain a specific process for realizing pixel tracking by translating a pixel point in the first frame to a second frame by an average displacement matrix. Of the plurality of video frames shown in FIG. 2, the image pair composed of the first frame and the second frame can be referred to as the first image pair. Here, the first frame in the first image pair corresponds to the video frame corresponding to the first time in the embodiment corresponding to FIG. 2, and the second frame in the first image pair corresponds to FIG. 2 above. It is a video frame corresponding to the second time in the embodiment. Further, see FIG. 6, which is a schematic diagram of all pixel tracking provided in the examples of the present application. The image pair (1, 2) shown in FIG. 6 may be the first image pair described above. The first video frame in the first image pair may be the video frame corresponding to the first time described above (that is, the first frame), and the second video frame in the first image pair may be the first video frame described above. It may be a video frame (that is, a second frame) corresponding to two times. Here, it should be understood that the numerical value 1 of the image pair (1, 2) is the video frame number of the first frame, and the numerical value 2 is the video frame number of the second frame. Therefore, any two video frames adjacent to each other before and after in the target video can be represented by the video frame number of each video frame in the target video. The pixel point display area 600a shown in FIG. 6 may include all the pixel points extracted from the first video frame of the image pair. For example, each pixel point in the pixel point display area 600a is 1. It can correspond to one area identifier. The pixel point display area 600a in FIG. 6 is merely for illustration purposes, and the pixel point display area 600a can also be referred to as a pixel point area or the like. As a matter of understanding, in the embodiment of the present application, only the case where the pixel points acquired from the first video frame are 20 pixel points is taken as an example, but in reality, the acquisition is performed from the first video frame. The number of pixel points created is much higher than the 20 listed in the examples of the present application. It should be understood that since a plurality of video frames in the same video are acquired by image collection by the same terminal, the number of pixel points in each video frame included in the same video is the same.

図6に示すように、該第1ビデオフレームにおける各画素点が取得された後、取得されたこれらの全ての画素点を画素点と総称することができ、さらに、図6に示す平均変位行列によって、該画素点表示領域600aにおける全ての画素点を追跡することができ、さらに、第2ビデオフレームに対応する画素点表示領域700aにおいて、マッピングされた画素点の位置情報を決定することができる。例えば、図6に示す画素点Aを例にとると、該画素点Aの、図6に示す画素点表示領域600aにおける位置情報は、領域識別子5の座標位置情報であってもよく、該平均変位行列によって、該画素点Aを、図6に示す画素点表示領域700aにマッピングすることができ、該画素点Aの、図6に示す画素点表示領域700aにおける位置情報は、領域識別子10の座標位置情報であってもよい。本願の実施例では、該画素点Aの該第2ビデオフレームにおける位置情報を算出した後、該位置情報を記憶することができる。該ターゲットビデオにおける各画像ペアは、いずれも、1つの平均変位行列に対応することができるので、各第1ビデオフレームそれぞれにおける画素点の、第2ビデオフレームにマッピングされた位置情報を算出することができる。各画像ペアにおける同一画素点の、連続するビデオフレームにおける出現位置情報を統合することにより、該画素点Aの、該ターゲットビデオの各ビデオフレームにおける出現位置情報を取得することができ、さらに、該画素点Aの、該ターゲットビデオの各ビデオフレームにおける位置情報に基づいて、該画素点Aの移動軌跡を取得することができる。 As shown in FIG. 6, after each pixel point in the first video frame is acquired, all the acquired pixel points can be collectively referred to as a pixel point, and further, an average displacement matrix shown in FIG. Therefore, all the pixel points in the pixel point display area 600a can be tracked, and further, the position information of the mapped pixel points can be determined in the pixel point display area 700a corresponding to the second video frame. .. For example, taking the pixel point A shown in FIG. 6 as an example, the position information of the pixel point A in the pixel point display area 600a shown in FIG. 6 may be the coordinate position information of the area identifier 5, and the average thereof. The pixel point A can be mapped to the pixel point display area 700a shown in FIG. 6 by the displacement matrix, and the position information of the pixel point A in the pixel point display area 700a shown in FIG. 6 is the area identifier 10. It may be coordinate position information. In the embodiment of the present application, after calculating the position information of the pixel point A in the second video frame, the position information can be stored. Since each image pair in the target video can correspond to one average displacement matrix, the position information of the pixel point in each first video frame, which is mapped to the second video frame, is calculated. Can be done. By integrating the appearance position information of the same pixel point in each image pair in consecutive video frames, it is possible to acquire the appearance position information of the pixel point A in each video frame of the target video, and further, the said The movement locus of the pixel point A can be acquired based on the position information of the pixel point A in each video frame of the target video.

同様に、該ビデオフレームにおける全ての画素点のうちの他の画素点については、各画像ペアそれぞれに対応する平均変位行列(即ち、各画像ペアそれぞれにおける第1ビデオフレームに対応する平均変位行列)によって、他の画素点のそれぞれの、該ターゲットビデオの各ビデオフレームにおける位置情報を決定することができ、さらに、他の画素点の移動軌跡を取得して、各画像ペアそれぞれの第1ビデオフレームにおける全ての画素点の全画素追跡を実現することができ、さらに、該ターゲットビデオの全ての画素点の各ビデオフレームにおける位置情報を取得することができる。理解すべきものとして、本願の実施例では、該ターゲットビデオにおける全ての画素点のそれぞれに対応する軌跡情報を、画素点に対応する軌跡情報と総称することができる。 Similarly, for the other pixel points of all the pixel points in the video frame, the average displacement matrix corresponding to each image pair (that is, the average displacement matrix corresponding to the first video frame in each image pair). It is possible to determine the position information of each of the other pixel points in each video frame of the target video, and further, the movement locus of the other pixel points is acquired to obtain the first video frame of each image pair. It is possible to realize all pixel tracking of all the pixel points in the above, and further, it is possible to acquire the position information in each video frame of all the pixel points of the target video. As should be understood, in the embodiment of the present application, the locus information corresponding to each of all the pixel points in the target video can be collectively referred to as the locus information corresponding to the pixel points.

ここで、該ターゲットユーザ端末の計算性能は、大量の画素点を追跡する計算要求を満たすことが困難である場合、該ターゲットユーザ端末の計算量を減らすために、該ターゲットユーザ端末とネットワーク接続関係があるアプリケーションサーバによって、該ターゲットビデオにおける全ての画素点の移動軌跡を予め算出してもよい。これにより、該ターゲットユーザ端末が該ターゲットビデオを実際に再生する際に、アプリケーションサーバは、ターゲットユーザ端末から送信された、ターゲット画素点のキービデオフレームにおける位置情報を受信し、予め算出された、画素点に対応する軌跡情報の中から、該ターゲット画素点にマッチングする軌跡情報をターゲット軌跡情報として選別し、さらに、該ターゲット軌跡情報をターゲットユーザ端末に返信することができる。これにより、ターゲットユーザ端末は、取得した該ターゲット軌跡情報に基づいて、ステップS104をさらに実行することができる。ここで、該ターゲット画素点は、ターゲットユーザによって選択されたキービデオフレームにおける画素点である。 Here, when it is difficult to satisfy the calculation request for tracking a large number of pixel points, the calculation performance of the target user terminal has a network connection relationship with the target user terminal in order to reduce the calculation amount of the target user terminal. A certain application server may pre-calculate the movement locus of all pixel points in the target video. As a result, when the target user terminal actually plays the target video, the application server receives the position information in the key video frame of the target pixel point transmitted from the target user terminal, and is calculated in advance. From the locus information corresponding to the pixel points, the locus information matching the target pixel points can be selected as the target locus information, and the target locus information can be returned to the target user terminal. As a result, the target user terminal can further execute step S104 based on the acquired target locus information. Here, the target pixel point is a pixel point in the key video frame selected by the target user.

任意選択的に、該ターゲットユーザ端末が良好な計算性能を有する場合、該ターゲットユーザ端末において、該ターゲットビデオにおける全ての画素点の移動軌跡を予め算出してもよい。これにより、該ターゲットユーザ端末が該ターゲットビデオを実際に再生する際に、さらに、ターゲットユーザによって選択されたターゲットオブジェクトにおけるターゲット画素点に基づいて、これらの画素点に対応する軌跡情報の中から、該ターゲット画素点にマッチングする軌跡情報をターゲット軌跡情報として選別することができ、ステップS104をさらに実行することを可能にする。 Optionally, if the target user terminal has good calculation performance, the movement loci of all the pixel points in the target video may be calculated in advance in the target user terminal. As a result, when the target user terminal actually plays the target video, further, based on the target pixel points in the target object selected by the target user, from the locus information corresponding to these pixel points, The locus information matching the target pixel point can be selected as the target locus information, and step S104 can be further executed.

ステップS104で、前記キービデオフレームの次のビデオフレームを再生する際に、前記ターゲット軌跡情報における、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報に基づいて、前記マルチメディア情報を表示する。 In step S104, when the video frame next to the key video frame is played back, the multimedia is based on the position information of the target pixel point in the video frame next to the key video frame in the target locus information. Display information.

理解を容易にするために、さらに、本願の実施例で提供される連続する複数のビデオフレームにおける弾幕データの追跡の模式図である図7を参照されたい。理解すべきものとして、本願の実施例では、弾幕追跡のための連続する複数のビデオフレームは、現在再生されているキービデオフレームと、まだ再生されていない、該ターゲットビデオにおけるキービデオフレームの後に位置するビデオフレームとを含んでもよい。例えば、図7に示すビデオフレーム10をキービデオフレームとした場合、該キービデオフレームの後の各ビデオフレーム(例えば、ビデオフレーム20、ビデオフレーム30などのビデオフレーム)において、ビデオフレーム10に現れた弾幕データに対して弾幕追跡を行ってもよい。ここで、図7に示されたビデオフレーム10は、上記図5に対応する実施例における、ビデオ再生インタフェース300aに表示されているビデオフレームであってもよく、即ち、図7に示されたビデオフレーム10は、ターゲットユーザ端末で現在再生されているターゲットビデオにおける、該ターゲットユーザに関連付けられたキービデオフレームであってもよい。換言すれば、本願の実施例におけるキービデオフレームは、ターゲットユーザがターゲットオブジェクトを選択する際に実行したトリガ操作に対応するビデオフレームとして理解することができる。理解すべきものとして、本願の実施例におけるターゲットオブジェクトは、再生中のビデオフレームにおいてターゲットユーザがクリック操作によって選択した人物、動物、植物などのオブジェクトを含んでもよい。換言すれば、該ターゲットユーザ端末は、該ターゲットユーザによって選択されたオブジェクトをターゲットオブジェクトと呼ぶことができ、該キービデオフレームのターゲットオブジェクトにおける、トリガ操作に対応する画素点をターゲット画素点とすることができ、さらに、アプリケーションサーバによって予め算出された、該ターゲットビデオにおける全ての画素点の軌跡情報の中から、該ターゲットオブジェクトにおけるターゲット画素点に関連付けられた軌跡情報を取得することができ、取得した軌跡情報を、該ターゲット画素点に対応するターゲット軌跡情報とすることができる。該ターゲット軌跡情報は、該ターゲット画素点の該キービデオフレームにおける位置情報を含んでもよく、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレーム(例えば、該キービデオフレームの次のビデオフレーム)における位置情報も含んでもよい。理解すべきものとして、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける位置情報に基づいて、ターゲットオブジェクトに関連付けられた(ターゲット画素点にも関連付けられた)マルチメディア情報(即ち、上記図5に対応する実施例における弾幕データ)の、該キービデオフレームの後の各ビデオフレームにおける位置情報を迅速に算出して、該ターゲットオブジェクトに関連付けられた弾幕データの高速追跡を実現することができる。これにより、該ターゲットユーザ端末が該キービデオフレームの次のビデオフレームを再生する際に、算出された、前記弾幕データの前記キービデオフレームにおける位置情報に基づいて、前記の次のビデオフレームにおいて該弾幕データをリアルタイムに表示することを可能にする。前記弾幕データの表示は、字幕の表示と類似してもよい。 Further, for ease of understanding, see FIG. 7, which is a schematic diagram of tracking barrage data in a plurality of consecutive video frames provided in the embodiments of the present application. It should be understood that in the embodiments of the present application, a plurality of consecutive video frames for barrage tracking are located after the key video frame currently being played and the key video frame in the target video that has not yet been played. It may include a video frame to be used. For example, when the video frame 10 shown in FIG. 7 is used as a key video frame, it appears in the video frame 10 in each video frame after the key video frame (for example, a video frame such as a video frame 20 and a video frame 30). Barrage tracking may be performed on the barrage data. Here, the video frame 10 shown in FIG. 7 may be the video frame displayed on the video playback interface 300a in the embodiment corresponding to FIG. 5, that is, the video shown in FIG. 7. The frame 10 may be a key video frame associated with the target user in the target video currently being played on the target user terminal. In other words, the key video frame in the embodiment of the present application can be understood as a video frame corresponding to the trigger operation performed when the target user selects the target object. As should be understood, the target object in the embodiment of the present application may include an object such as a person, an animal, or a plant selected by the target user by a click operation in the video frame being played. In other words, the target user terminal can call the object selected by the target user the target object, and the pixel point corresponding to the trigger operation in the target object of the key video frame is set as the target pixel point. Further, from the locus information of all the pixel points in the target video calculated in advance by the application server, the locus information associated with the target pixel point in the target object can be acquired and acquired. The locus information can be the target locus information corresponding to the target pixel point. The target locus information may include position information of the target pixel point in the key video frame, and each video frame of the target pixel point after the key video frame (for example, the next video of the key video frame). The position information in the frame) may also be included. It should be understood that the multimedia information (ie, also associated with the target pixel point) associated with the target object (ie, also associated with the target pixel point) based on the position information of the target pixel point in each video frame after the key video frame. The position information in each video frame after the key video frame of the (bullet data in the embodiment corresponding to FIG. 5) is quickly calculated to realize high-speed tracking of the bullet data associated with the target object. Can be done. Thereby, when the target user terminal plays the next video frame of the key video frame, the barrage data is calculated in the next video frame based on the position information of the barrage data in the key video frame. Allows barrage data to be displayed in real time. The display of the barrage data may be similar to the display of subtitles.

理解すべきものとして、本願の実施例では、弾幕データを、該キービデオフレームにおけるターゲットオブジェクトに関連付けることにより、影の形に添うような弾幕データとターゲットオブジェクトとを実現することができ、即ち、ユーザによって入力された弾幕が、有効追跡期間内にずっとこの追跡対象のターゲットオブジェクトに従って相対的に移動することができる。例えば、該ターゲットビデオにおいて、該キービデオフレームの後の連続する複数のビデオフレームのいずれにもターゲットオブジェクトが存在する場合、該ターゲットオブジェクトにおけるターゲット画素点の、これらの連続するいくつかのビデオフレームにおける位置情報に基づいて、該ターゲットオブジェクトに関連付けられた弾幕データ(即ち、前述したテキスト情報A)を表示することができる。 It should be understood that in the embodiments of the present application, the barrage data can be associated with the target object in the key video frame to realize the barrage data and the target object that follow the shape of the shadow, that is, the user. The barrage entered by can move relative to this tracked target object throughout the valid tracking period. For example, in the target video, if the target object is present in any of the plurality of consecutive video frames after the key video frame, the target pixel points in the target object are in some of these consecutive video frames. Based on the position information, the barrage data (that is, the above-mentioned text information A) associated with the target object can be displayed.

ターゲットユーザ端末は、ユーザによって入力された弾幕データ(マルチメディア情報)と、算出した、弾幕データの、ターゲットビデオの各ビデオフレームにおける位置情報とをサーバに送信してもよい。あるいは、サーバは、ターゲットユーザ端末から送信された、ユーザがクリックしたターゲットビデオにおけるキービデオフレームのフレーム番号、ターゲット画素点座標、入力された弾幕データ(マルチメディア情報)を受信し、ターゲット画素点の、ターゲットビデオの各ビデオフレームにおけるターゲット軌跡情報を算出し、該ターゲット軌跡情報に基づいて、弾幕データの、ターゲットビデオの各ビデオフレームにおける位置情報を算出し、前記弾幕データの位置情報を保存してもよい。サーバは、ターゲットユーザ端末から送信された情報を受信する際に、ターゲットユーザ端末の識別子、及び/又は、ターゲットユーザ端末においてユーザがターゲットアプリケーションにログインしたユーザ識別子などの情報も受信してもよい。そして、他のユーザ端末で前記ターゲットビデオを再生する際に、サーバが、前記弾幕データと、前記弾幕データの、ターゲットビデオの各ビデオフレームにおける位置情報と、ユーザ識別子とを他のユーザ端末に送信し、他のユーザ端末が、弾幕データの位置情報に基づいて、ターゲットビデオの各ビデオフレームにおいて弾幕データを表示するようにしてもよい。 The target user terminal may transmit the barrage data (multimedia information) input by the user and the calculated position information of the barrage data in each video frame of the target video to the server. Alternatively, the server receives the frame number of the key video frame in the target video clicked by the user, the target pixel point coordinates, and the input bullet data (multimedia information) transmitted from the target user terminal, and receives the input bullet data (multimedia information) of the target pixel point. , The target locus information in each video frame of the target video is calculated, the position information of the bullet data in each video frame of the target video is calculated based on the target locus information, and the position information of the bullet data is saved. May be good. When receiving the information transmitted from the target user terminal, the server may also receive information such as an identifier of the target user terminal and / or a user identifier in which the user logs in to the target application at the target user terminal. Then, when playing the target video on another user terminal, the server transmits the bullet data, the position information of the bullet data in each video frame of the target video, and the user identifier to the other user terminal. However, another user terminal may display the bullet data in each video frame of the target video based on the position information of the bullet data.

理解すべきものとして、ターゲットユーザ端末で再生されるいずれのビデオについても、ターゲットユーザは、現在の時刻が時刻T1であるときに、現在再生されているビデオフレームから、該ターゲットユーザが追跡する必要があると考えるオブジェクトを選択することができる。選択した該オブジェクトをターゲットオブジェクトと呼ぶことができる。さらに、ターゲットユーザ端末は、予め算出された、該ビデオにおける全ての画素点のそれぞれに対応する軌跡情報の中から、該ターゲットオブジェクトにおけるターゲット画素点に関連付けられた軌跡情報を選別することにより、該ターゲットオブジェクトにおけるターゲット画素点に対応するターゲット軌跡情報を迅速に取得することができる。ここで、理解すべきものとして、予め算出された、該ビデオにおける各画素点のいずれに対応する軌跡情報でも、該画素点の、該ビデオの各ビデオフレームにおける位置情報を記述するために使用することができる。したがって、ターゲットユーザ端末は、時刻T1に再生されたビデオフレームをキービデオフレームとした場合、該キービデオフレームにおいて、該ターゲットオブジェクトにおけるターゲット画素点を取得することができ、さらに、該ターゲット画素点に対応するターゲット軌跡情報の中から、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける位置情報を迅速に取得することができ、該ターゲット軌跡情報に基づいて、該ターゲットオブジェクトに関連付けられたマルチメディア情報を表示することができる。ここで、理解できるように、各ビデオフレームにおいてターゲット画素点によって形成された軌跡情報が円である場合、該ターゲットオブジェクトに関連付けられたマルチメディア情報は、同期的に該軌跡情報に従って回転することができる。このようにして、該ターゲットビデオにおける全ての画素点を予め追跡することにより、各画素点それぞれに対応する軌跡情報を予め取得することができる。これにより、該ターゲットビデオがターゲットユーザ端末で再生されているときに、ターゲットユーザが実行したトリガ操作に基づいて、トリガ操作に対応するターゲットオブジェクトにおける画素点をターゲット画素点とし、該ターゲット画素点に関連付けられた軌跡情報をターゲット軌跡情報として取得することができ、さらに、取得した該ターゲット軌跡情報に基づいて、該ターゲットオブジェクトに関連付けられたマルチメディア情報の正確な追跡を迅速に実現することができる。 It should be understood that for any video played on the target user terminal, the target user needs to be tracked by the target user from the currently playing video frame when the current time is time T1. You can select the object you think you have. The selected object can be called a target object. Further, the target user terminal selects the locus information associated with the target pixel point in the target object from the previously calculated locus information corresponding to each of all the pixel points in the video. The target locus information corresponding to the target pixel point in the target object can be quickly acquired. Here, it should be understood that the trajectory information corresponding to any of the pixel points in the video, which is calculated in advance, is used to describe the position information of the pixel points in each video frame of the video. Can be done. Therefore, when the video frame reproduced at time T1 is used as the key video frame, the target user terminal can acquire the target pixel point in the target object in the key video frame, and further, the target pixel point is set to the target pixel point. From the corresponding target locus information, the position information of the target pixel point in each video frame after the key video frame can be quickly acquired, and the position information is associated with the target object based on the target locus information. It is possible to display the provided multimedia information. Here, as can be understood, when the locus information formed by the target pixel points in each video frame is a circle, the multimedia information associated with the target object may rotate synchronously according to the locus information. can. In this way, by tracking all the pixel points in the target video in advance, the locus information corresponding to each pixel point can be acquired in advance. As a result, when the target video is being played back on the target user terminal, the pixel point in the target object corresponding to the trigger operation is set as the target pixel point based on the trigger operation executed by the target user, and the target pixel point is set as the target pixel point. The associated locus information can be acquired as the target locus information, and further, based on the acquired target locus information, accurate tracking of the multimedia information associated with the target object can be quickly realized. ..

そこで、該キービデオフレームにおける異なるオブジェクトについては、異なるオブジェクトにおけるターゲット画素点のそれぞれに対応する移動軌跡を取得することができる。これにより、異なるターゲットオブジェクトに関連付けられた弾幕データが、異なる軌跡で移動することができ、弾幕データと、弾幕データのターゲットとなるオブジェクトとの関連がより強くなり、さらに、弾幕データの視覚的な展示効果を豊かにすることができ、弾幕データの表示態様の柔軟性を高めることもできる。 Therefore, for different objects in the key video frame, it is possible to acquire a movement locus corresponding to each of the target pixel points in the different objects. This allows the barrage data associated with different target objects to move in different trajectories, making the barrage data more relevant to the target object of the barrage data, and the visuals of the barrage data. The exhibition effect can be enriched, and the flexibility of the barrage data display mode can be increased.

本願の実施例では、ターゲットビデオに対するターゲットユーザのトリガ操作が取得されると、該ターゲットビデオにおける、該トリガ操作に対応するビデオフレームをキービデオフレームとすることができる。これにより、該キービデオフレームからターゲット画素点を決定し、該ターゲット画素点及び該ターゲット画素点が位置するターゲットオブジェクトに関連付けられたマルチメディア情報(例えば、該マルチメディア情報は、該ターゲットビデオにおけるユーザ文字、ピクチャ、表情などの弾幕データであってもよい)を取得することができる。さらに、該ターゲット画素点の該キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定する。さらに、該軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得することができる。これにより、該キービデオフレームの次のビデオフレームを再生する際に、該ターゲット軌跡情報に基づいて、該ターゲット画素点及び該ターゲット画素点が位置するターゲットオブジェクトに関連付けられた弾幕データを表示することができる。ここから分かるように、本願の実施例では、キービデオフレームが決定されると、さらに、該キービデオフレームにおける全ての画素点の軌跡情報の中から、ターゲット画素点の軌跡情報を選別し、選別したターゲット画素点の軌跡情報をターゲット軌跡情報とすることができる。これにより、取得されたターゲット軌跡情報に基づいて、弾幕データの展示効果を豊かにすることができる。例えば、異なるターゲットオブジェクトにおけるターゲット画素点について、取得されるターゲット軌跡情報が異なる可能性があり、その結果、弾幕データの展示効果が異なる。また、ターゲットオブジェクトと弾幕データとの関連関係に基づいて、該弾幕データの、該キービデオフレームの後の各ビデオフレームにおける位置情報を迅速に決定することができる。換言すれば、該弾幕データは、該ターゲットビデオにおいてずっと該ターゲットオブジェクトに従って変動し、さらに、ビデオにおけるユーザ文字の視覚的な展示効果を豊かにすることができ、弾幕データと、ターゲットオブジェクト、又はコメント対象のビデオにおけるオブジェクトとの関連性をより強くすることができる。 In the embodiment of the present application, when the target user's trigger operation for the target video is acquired, the video frame corresponding to the trigger operation in the target video can be used as a key video frame. Thereby, the target pixel point is determined from the key video frame, and the multimedia information associated with the target pixel point and the target object in which the target pixel point is located (for example, the multimedia information is the user in the target video). It may be multimedia data such as characters, pictures, and facial expressions). Further, the locus acquisition request corresponding to the target pixel point is determined based on the position information of the target pixel point in the key video frame. Further, based on the locus acquisition request, the target locus information associated with the position information of the target pixel point in the key video frame can be acquired. Thereby, when playing the next video frame of the key video frame, the barrage data associated with the target pixel point and the target object in which the target pixel point is located is displayed based on the target locus information. Can be done. As can be seen from this, in the embodiment of the present application, when the key video frame is determined, the locus information of the target pixel point is further selected and selected from the locus information of all the pixel points in the key video frame. The locus information of the target pixel point can be used as the target locus information. As a result, the barrage data display effect can be enriched based on the acquired target trajectory information. For example, the acquired target trajectory information may be different for the target pixel points in different target objects, and as a result, the barrage data display effect is different. Further, based on the relationship between the target object and the barrage data, the position information of the barrage data in each video frame after the key video frame can be quickly determined. In other words, the barrage data can fluctuate according to the target object throughout the target video, and can further enhance the visual display effect of the user characters in the video, with the barrage data and the target object, or comment. It can be more relevant to the object in the target video.

理解を容易にするために、さらに、本願の実施例の別のビデオデータ処理方法の模式図である図8を参照されたい。この方法は、主にターゲットユーザ端末とアプリケーションサーバとの間のデータやり取りの過程を記述するために用いられる。該方法は、以下のステップを含んでもよい。 Further, for ease of understanding, see FIG. 8, which is a schematic diagram of another video data processing method according to an embodiment of the present application. This method is mainly used to describe the process of data exchange between the target user terminal and the application server. The method may include the following steps.

ステップS201で、ターゲットビデオから、隣接する第1ビデオフレーム及び第2ビデオフレームを取得する。 In step S201, the adjacent first video frame and second video frame are acquired from the target video.

具体的には、アプリケーションサーバは、ターゲットビデオに含まれる複数のビデオフレームから、複数の画像ペアを決定することができ、この複数の画像ペアは、いずれも、該ターゲットビデオにおける隣接する2つのビデオフレームからなる。 Specifically, the application server can determine a plurality of image pairs from a plurality of video frames included in the target video, and each of the plurality of image pairs is two adjacent videos in the target video. It consists of a frame.

換言すれば、アプリケーションサーバは、該ターゲットビデオに対するビデオ前処理段階において、まず、該ターゲットビデオをフレーム化処理して、該ターゲットビデオにおける複数のビデオフレームを、再生時系列に従って1枚ずつのピクチャに分割してもよい。これにより、上記図2に示すような再生時系列で配置された複数のビデオフレームを取得することができる。該ターゲットビデオの各ビデオフレームを分割することにより、各ビデオフレームそれぞれに対応するピクチャを取得することができ、即ち、1つの画像を1つの画像フレームと見なすことができる。さらに、該アプリケーションサーバは、前方後方オプティカルフロー法によって、各画像ペアそれぞれの2つのビデオフレームにおける画素点に対して画素追跡を行ってもよい。例えば、n個のビデオフレームを含むターゲットビデオの場合、該アプリケーションサーバは、該ターゲットビデオの各ビデオフレームのビデオフレーム番号に基づいて、隣接するフレーム番号を有する2つのビデオフレームを1つの画像ペアとして決定してもよい。換言すれば、該アプリケーションサーバは、ビデオフレーム番号が1であるビデオフレームと、ビデオフレーム番号が2であるビデオフレームとを1つの画像ペアとして決定してもよい。同様に、該アプリケーションサーバは、ビデオフレーム番号が2でありビデオフレームと、ビデオフレーム番号が3であるビデオフレームとを1つの画像ペアとして決定してもよい。このようにして、該アプリケーションサーバは、ビデオフレーム番号がn-1であるビデオフレームと、ビデオフレーム番号がnであるビデオフレームとを1つの画像ペアとして決定してもよい。 In other words, the application server first frames the target video in the video preprocessing stage for the target video, and converts the plurality of video frames in the target video into one picture at a time according to the playback time series. It may be divided. As a result, it is possible to acquire a plurality of video frames arranged in the reproduction time series as shown in FIG. By dividing each video frame of the target video, a picture corresponding to each video frame can be acquired, that is, one image can be regarded as one image frame. Further, the application server may perform pixel tracking for pixel points in two video frames of each image pair by the front-back optical flow method. For example, in the case of a target video containing n video frames, the application server may use two video frames with adjacent frame numbers as one image pair based on the video frame number of each video frame of the target video. You may decide. In other words, the application server may determine a video frame having a video frame number of 1 and a video frame having a video frame number of 2 as one image pair. Similarly, the application server may determine a video frame having a video frame number of 2 and a video frame having a video frame number of 3 as one image pair. In this way, the application server may determine the video frame having the video frame number n-1 and the video frame having the video frame number n as one image pair.

該ターゲットビデオにおける各画像ペアについて、各画像ペアそれぞれにおける2つのビデオフレームを、各ビデオフレームのビデオフレーム番号で記述することができる。したがって、前述したn個のビデオフレームを含むターゲットビデオの場合、n-1個の画像ペアを取得することができ、これらのn-1個の画像ペアは、(1,2)、(2,3)、(3,4)、…(n-1,n)と表すことができる。ここで、画像ペアにおいて、ビデオフレーム番号が1であるビデオフレームは、該ターゲットビデオの第1フレームと呼ぶことができ、ビデオフレーム番号が2であるビデオフレームは、該ターゲットビデオの第2フレームと呼ぶことができ、このようにして、画像ペアにおいて、ビデオフレーム番号がn-1であるビデオフレームは、該ターゲットビデオの第n-1フレームと呼ぶことができ、ビデオフレーム番号がnであるビデオフレームは、該ターゲットビデオの第nフレームと呼ぶことができる。さらに、該アプリケーションサーバは、クラウド前方後方オプティカルフロー法によって、該ターゲットビデオの各画像ペアにおける画素点を追跡してもよい。ここで、該クラウド前方後方オプティカルフロー法は、オプティカルフロー法と総称することができ、このオプティカルフロー法は、各画像ペアそれぞれにおける2つのビデオフレーム間の画素点変位を計算するために用いることができる。 For each image pair in the target video, two video frames in each image pair can be described by the video frame number of each video frame. Therefore, in the case of the target video including the above-mentioned n video frames, n-1 image pairs can be acquired, and these n-1 image pairs are (1, 2), (2, 2). 3), (3,4), ... (N-1, n) can be expressed. Here, in the image pair, the video frame having the video frame number 1 can be referred to as the first frame of the target video, and the video frame having the video frame number 2 is the second frame of the target video. In this way, the video frame having the video frame number n-1 in the image pair can be called the n-1th frame of the target video, and the video having the video frame number n. The frame can be referred to as the nth frame of the target video. Further, the application server may track the pixel points in each image pair of the target video by the cloud front-back optical flow method. Here, the cloud anterior-posterior optical flow method can be collectively referred to as an optical flow method, and this optical flow method can be used to calculate pixel point displacement between two video frames in each image pair. can.

理解できるように、各画像ペアは、いずれも、前後に隣接する2つのビデオフレームからなるので、各画像ペアそれぞれにおける一方のビデオフレームを第1ビデオフレームと呼ぶことができ、各画像ペアそれぞれにおける他方のビデオフレームを第2ビデオフレームと呼ぶことができる。これにより、ステップS202をさらに実行することを可能にする。 As you can see, each image pair consists of two adjacent video frames in the front and back, so one video frame in each image pair can be called the first video frame, and in each image pair. The other video frame can be called a second video frame. This makes it possible to further execute step S202.

ここで、理解を容易にするために、本願の実施例では、ターゲットビデオから取得された各画像ペアそれぞれにおける2つのビデオフレームを、第1ビデオフレーム及び第2ビデオフレームと総称することができ、即ち、該アプリケーションサーバは、ターゲットビデオから、隣接する第1ビデオフレーム及び第2ビデオフレームを取得することができる。 Here, for ease of understanding, in the embodiment of the present application, the two video frames in each image pair acquired from the target video can be collectively referred to as a first video frame and a second video frame. That is, the application server can acquire the adjacent first video frame and second video frame from the target video.

ステップS202で、前記ターゲットビデオに対応するオプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点と、前記第2ビデオフレームにおける画素点とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定する。 In step S202, the average displacement matrix corresponding to the first video frame is based on the optical flow tracking rule corresponding to the target video, the pixel points in the first video frame, and the pixel points in the second video frame. To decide.

具体的には、アプリケーションサーバは、第1ビデオフレームの全ての画素点を抽出してもよい。抽出された全ての画素点を画素点と総称することができる。ここで、該ターゲットビデオに対応するオプティカルフロー追跡規則は、前述したクラウド前方後方オプティカルフロー法を含んでもよく、クラウド変位積分法及びクラウド変位差分法を含んでもよい。理解すべきものとして、該オプティカルフロー追跡規則によって、各画像ペアそれぞれの、第1ビデオフレームにおける画素点及び第2ビデオフレームにおける画素点に対して、オプティカルフロー演算を行って、各画像ペアそれぞれに対応するオプティカルフロー追跡結果を取得することができ、さらに、該オプティカルフロー追跡結果に基づいて、各画像ペアそれぞれに対応するターゲット状態行列及びターゲット変位行列を決定することができる。ターゲット状態行列及びターゲット変位行列を直接使用して、ビデオフレームにおける画素点を追跡することも可能であるが、追跡結果はあまり正確ではない可能性がある。追跡の正確さを向上させるために、画素点の第1ビデオフレーム及び第2ビデオフレームにおける変位を計算する際に、画素点の周囲の画素点の変位の情報を考慮してもよい。例えば、アプリケーションサーバは、前記第1ビデオフレームにおける各画素点それぞれに対して、該画素点を中心として、該画素点の周囲の画像ブロック(該画素点及び該画素点の周囲の画素点を含む)を選択し、前記画像ブロックにおける全ての画素点の平均変位を計算して、該画素点の変位としてもよい。このような処理方式では、演算量が大きくなる可能性がある。本願の実施例によれば、該オプティカルフロー追跡規則によって、さらに、各画像ペアそれぞれに対応するターゲット状態行列及びターゲット変位行列に対して、変位積分演算を行って、各画像ペアそれぞれに対応する状態積分行列及び変位積分行列を取得することもできる。さらに、該オプティカルフロー追跡規則によって、各画像ペアそれぞれに対応する状態積分行列及び変位積分行列に対して、変位差分演算を行って、各画像ペアそれぞれに対応する平均変位行列を取得することもできる。換言すれば、該オプティカルフロー追跡規則によって、各画像ペアそれぞれの第1ビデオフレームにおける画素点の位置情報の正確な追跡に使用可能な平均変位行列を正確に取得することができる。上記した変位積分演算及び変位差分演算によれば、アプリケーションサーバは、第1ビデオフレームにおける画素点と、第2ビデオフレームにおける画素点との平均変位をバッチで計算することができるので、演算速度を向上させ、画素点及びビデオフレームの処理効率を向上させることができる。 Specifically, the application server may extract all the pixel points of the first video frame. All the extracted pixel points can be collectively referred to as pixel points. Here, the optical flow tracking rule corresponding to the target video may include the cloud forward / backward optical flow method described above, or may include a cloud displacement integration method and a cloud displacement difference method. It should be understood that the optical flow tracking rule performs an optical flow operation on the pixel points in the first video frame and the pixel points in the second video frame of each image pair to correspond to each image pair. The optical flow tracking result can be obtained, and further, the target state matrix and the target displacement matrix corresponding to each image pair can be determined based on the optical flow tracking result. It is possible to use the target state matrix and the target displacement matrix directly to track the pixel points in the video frame, but the tracking results may not be very accurate. In order to improve the accuracy of tracking, information on the displacement of the pixel points around the pixel points may be taken into consideration when calculating the displacement of the pixel points in the first video frame and the second video frame. For example, the application server includes, for each pixel point in the first video frame, an image block around the pixel point (the pixel point and the pixel points around the pixel point) around the pixel point. ), And the average displacement of all the pixel points in the image block may be calculated and used as the displacement of the pixel points. With such a processing method, the amount of calculation may be large. According to the embodiment of the present application, the optical flow tracking rule further performs a displacement integral calculation on the target state matrix and the target displacement matrix corresponding to each image pair, and the state corresponding to each image pair. It is also possible to obtain an integral matrix and a displacement integral matrix. Further, according to the optical flow tracking rule, it is also possible to perform a displacement difference calculation on the state integral matrix and the displacement integral matrix corresponding to each image pair to obtain the average displacement matrix corresponding to each image pair. .. In other words, the optical flow tracking rule can accurately obtain an average displacement matrix that can be used to accurately track the position information of pixel points in the first video frame of each image pair. According to the displacement integration calculation and the displacement difference calculation described above, the application server can calculate the average displacement between the pixel points in the first video frame and the pixel points in the second video frame in a batch, so that the calculation speed can be determined. It can be improved and the processing efficiency of the pixel point and the video frame can be improved.

ここで、クラウド前方後方オプティカルフロー法は、各画像ペアそれぞれにおける第1ビデオフレーム及び第2ビデオフレームに対して、順方向逆方向オプティカルフロー法による計算を同期的に行って、各画像ペアそれぞれに対応するオプティカルフロー追跡結果を取得するために用いることができる。換言すれば、アプリケーションサーバで取得されたオプティカルフロー追跡結果は、各画像ペアそれぞれにおける第1ビデオフレームに対応する順方向変位行列を含んでもよく、各画像ペアそれぞれにおける第2ビデオフレームに対応する逆方向変位行列を含んでもよい。本願の実施例では、順方向変位行列及び逆方向変位行列の各行列要素は、いずれも、2つの次元の変位(例えば、(Δx,Δy))を含んでもよい。ここで、この2つの次元の変位は、同一画素点の水平方向の変位(即ち、Δx)及び垂直方向の変位(即ち、Δy)として理解することができる。理解すべきものとして、該ターゲットビデオにおける各画像ペアのいずれに対しても、該オプティカルフロー法によって計算を行うと、順方向水平方向変位行列、順方向垂直方向変位行列、逆方向水平方向変位行列、逆方向垂直方向変位行列を取得することができ、取得された4つの行列をオプティカルフロー結果と呼ぶことができる。さらに、アプリケーションサーバは、各画像ペアそれぞれにおける第1ビデオフレームに対して初期状態行列を設定してもよく、さらに、先に取得された順方向変位行列及び逆方向変位行列に基づいて、各画像ペアそれぞれの第1ビデオフレームにおける画素点がターゲット選別条件を満たすか否かを判定してもよい。第1ビデオフレームには、ターゲット選別条件を満たす画素点が存在する場合、アプリケーションサーバは、ターゲット選別条件を満たす画素点を有効画素点として決定してもよく、さらに、決定した有効画素点に基づいて、前記第1ビデオフレームに対応する初期状態行列及び前記順方向変位行列を修正して、各画像ペアそれぞれにおける第1ビデオフレームに対応するターゲット状態行列及びターゲット変位行列を取得してもよい。さらに、アプリケーションサーバは、上記したクラウド変位積分法及びクラウド変位差分法と、取得されたターゲット状態行列及びターゲット変位行列とによって、各画像ペアそれぞれにおける第1ビデオフレームに対応する平均変位行列を決定してもよい。 Here, in the cloud forward / backward optical flow method, the calculation by the forward / reverse optical flow method is performed synchronously for the first video frame and the second video frame in each image pair, and each image pair is subjected to the calculation. It can be used to obtain the corresponding optical flow tracking results. In other words, the optical flow tracking results obtained by the application server may include a forward displacement matrix corresponding to the first video frame in each image pair, or the inverse corresponding to the second video frame in each image pair. It may include a directional displacement matrix. In the embodiments of the present application, each matrix element of the forward displacement matrix and the reverse displacement matrix may contain displacements of two dimensions (eg, (Δx, Δy)). Here, these two dimensional displacements can be understood as horizontal displacements (ie, Δx) and vertical displacements (ie, Δy) of the same pixel point. It should be understood that for any of the image pairs in the target video, when calculated by the optical flow method, a forward horizontal displacement matrix, a forward vertical displacement matrix, an inverse horizontal displacement matrix, The inverse vertical displacement matrix can be acquired, and the acquired four matrices can be called the optical flow result. Further, the application server may set an initial state matrix for the first video frame in each image pair, and further, based on the previously acquired forward displacement matrix and reverse displacement matrix, each image. It may be determined whether or not the pixel points in the first video frame of each pair satisfy the target selection condition. When the first video frame has pixel points satisfying the target selection condition, the application server may determine the pixel points satisfying the target selection condition as the effective pixel points, and further, based on the determined effective pixel points. Then, the initial state matrix corresponding to the first video frame and the forward displacement matrix may be modified to obtain the target state matrix and the target displacement matrix corresponding to the first video frame in each image pair. Further, the application server determines the average displacement matrix corresponding to the first video frame in each image pair by the above-mentioned cloud displacement integration method and cloud displacement difference method, and the acquired target state matrix and target displacement matrix. You may.

ここで、本願の実施例では、該順方向水平方向変位行列及び順方向垂直方向変位行列を順方向変位行列と総称することができ、逆方向水平方向変位行列及び逆方向垂直方向変位行列を逆方向変位行列と総称することができる。理解を容易にするために、本願の実施例では、複数の画像ペアのうちの1つを例にして、該画像ペアにおける第1ビデオフレーム及び第2ビデオフレームから、該画像ペアに対応する平均変位行列を取得する過程を説明する。ここで、該画像ペアにおける第1ビデオフレームは、上記したビデオフレーム番号が1であるビデオフレームであってもよく、第2ビデオフレームは、上記したビデオフレーム番号が2であるビデオフレームであってもよい。したがって、該ビデオフレーム番号が1であるビデオフレームと、ビデオフレーム番号が2であるビデオフレームとからなる画像ペアを画像ペア1と呼び、該画像ペア1を(1,2)で表すことができる。 Here, in the embodiment of the present application, the forward horizontal displacement matrix and the forward vertical displacement matrix can be collectively referred to as a forward displacement matrix, and the reverse horizontal displacement matrix and the reverse vertical displacement matrix can be reversed. It can be collectively referred to as a directional displacement matrix. For ease of understanding, in the embodiments of the present application, one of a plurality of image pairs is taken as an example, and the average corresponding to the image pair is taken from the first video frame and the second video frame in the image pair. The process of acquiring the displacement matrix will be described. Here, the first video frame in the image pair may be a video frame having the above-mentioned video frame number of 1, and the second video frame is a video frame having the above-mentioned video frame number of 2. May be good. Therefore, an image pair consisting of a video frame having a video frame number of 1 and a video frame having a video frame number of 2 is called an image pair 1, and the image pair 1 can be represented by (1, 2). ..

ここで、オプティカルフロー法によって算出された該画像ペア1に対応する順方向変位行列は、順方向水平変位行列(例えば、該順方向水平変位行列は、行列Q1,2,xであってもよい)と、順方向垂直変位行列(例えば、該順方向垂直変位行列は、行列Q1,2,yであってもよい)と、を含んでもよい。ここで、理解すべきものとして、行列Q1,2,xの各行列要素は、第1ビデオフレームにおける画素点の、第2ビデオフレームにおける水平方向の変位として理解することができる。即ち、該順方向水平変位行列の各行列要素は、第1ビデオフレームにおける画素点に対応する第1横方向変位と呼ぶことができる。同様に、行列Q1,2,yの各行列要素は、第1ビデオフレームにおける画素点の、第2ビデオフレームにおける垂直方向の変位として理解することができる。即ち、該順方向水平変位行列の各行列要素は、第1ビデオフレームにおける画素点に対応する第1縦方向変位と呼ぶことができる。換言すれば、オプティカルフロー計算法によって取得されたこの2つの行列(即ち、行列Q1,2,x及び行列Q1,2,x)の行列サイズは、第1ビデオフレームのサイズと同じであり、即ち、1つの行列要素は、第1ビデオフレームにおける1つの画素点に対応することができる。 Here, the forward displacement matrix corresponding to the image pair 1 calculated by the optical flow method is a forward horizontal displacement matrix (for example, even if the forward horizontal displacement matrix is the matrices Q1 , 2, x ). May be included) and a forward vertical displacement matrix (eg, the forward vertical displacement matrix may be matrices Q1 , 2, y ). Here, it should be understood that each matrix element of the matrix Q1 , 2, x can be understood as the horizontal displacement of the pixel point in the first video frame in the second video frame. That is, each matrix element of the forward horizontal displacement matrix can be referred to as a first lateral displacement corresponding to a pixel point in the first video frame. Similarly, each matrix element of the matrix Q1 , 2, y can be understood as the vertical displacement of the pixel points in the first video frame in the second video frame. That is, each matrix element of the forward horizontal displacement matrix can be referred to as a first longitudinal displacement corresponding to a pixel point in the first video frame. In other words, the matrix size of these two matrices (ie, matrix Q 1,2, x and matrix Q 1, 2, x ) obtained by the optical flow calculation method is the same as the size of the first video frame. That is, one matrix element can correspond to one pixel point in the first video frame.

同様に、オプティカルフロー法によって算出された該画像ペア1に対応する逆方向変位行列は、逆方向水平変位行列(即ち、該逆方向水平変位行列は、行列Q2,1,xであってもよい)と、逆方向垂直変位行列(即ち、該逆方向垂直変位行列は、行列Q2,1,yであってもよい)と、を含んでもよい。ここで、理解すべきものとして、行列Q2,1,xの各行列要素は、第2ビデオフレームにおける画素点の、第1ビデオフレームにおける水平方向の変位として理解することができる。即ち、該逆方向水平変位行列の各行列要素は、第2ビデオフレームにおける画素点に対応する第2横方向変位と呼ぶことができる。同様に、行列Q2,1,yの各行列要素は、第2ビデオフレームにおける画素点の、第1ビデオフレームにおける垂直方向の変位として理解することができる。即ち、該逆方向垂直変位行列の各行列要素は、第2ビデオフレームにおける画素点に対応する第2縦方向変位と呼ぶことができる。換言すれば、オプティカルフロー計算法によって取得されたこの2つの行列(即ち、行列Q2,1,x及び行列Q2,1,y)の行列サイズは、第2ビデオフレームのサイズと同じであり、即ち、1つの行列要素は、第2ビデオフレームにおける1つの画素点に対応することができる。 Similarly, the reverse displacement matrix corresponding to the image pair 1 calculated by the optical flow method may be a reverse horizontal displacement matrix (that is, the reverse horizontal displacement matrix may be matrices Q 2, 1, x ). May be included) and a reverse vertical displacement matrix (ie, the reverse vertical displacement matrix may be matrices Q 2, 1, y ). Here, it should be understood that each matrix element of the matrix Q 2, 1, x can be understood as the horizontal displacement of the pixel points in the second video frame in the first video frame. That is, each matrix element of the reverse horizontal displacement matrix can be referred to as a second lateral displacement corresponding to a pixel point in the second video frame. Similarly, each matrix element of the matrix Q 2, 1, y can be understood as the vertical displacement of the pixel points in the second video frame in the first video frame. That is, each matrix element of the reverse vertical displacement matrix can be referred to as a second vertical displacement corresponding to a pixel point in the second video frame. In other words, the matrix size of these two matrices (ie, matrix Q 2,1, x and matrix Q 2,1, y ) obtained by the optical flow calculation method is the same as the size of the second video frame. That is, one matrix element can correspond to one pixel point in the second video frame.

理解すべきものとして、ターゲットビデオにおける各ビデオフレームについては、各ビデオフレームにおける画素点の数が同じであるので、オプティカルフロー計算法によって取得された、該画像ペア1に対応するこの4つの行列(即ち、行列Q1,2,x、行列Q1,2,y、行列Q2,1,x、行列Q2,1,y)の行列サイズは同じである。例えば、各ビデオフレームそれぞれにおける画素点の数がm×n個である場合、取得されたこの4つの行列の行列サイズは、いずれも、m×nであってもよい。ここから分かるように、順方向水平変位行列及び順方向垂直変位行列の各行列要素は、いずれも、第1ビデオフレームにおける画素点に対応することができる。したがって、該画像ペア1に対応する順方向変位行列の各行列要素は、第1ビデオフレームにおける画素点の、第2ビデオフレームにおける2つの次元の変位を表すことができる。該画像ペア1に対応する順方向変位行列を、第1ビデオフレームに対応する順方向変位行列と総称することができる。同様に、画像ペア1に対応する逆方向変位行列の各行列要素は、第2ビデオフレームにおける画素点の、第1ビデオフレームにおける2つの次元の変位を表すことができる。該画像ペア1に対応する逆方向変位行列を、第2ビデオフレームに対応する逆方向変位行列と総称することができる。 It should be understood that for each video frame in the target video, the number of pixel points in each video frame is the same, so these four matrices (ie,) corresponding to the image pair 1 obtained by the optical flow calculation method. , Matrix Q 1, 2, x , Matrix Q 1, 2, y , Matrix Q 2, 1, x , Matrix Q 2, 1, y ) have the same matrix size. For example, when the number of pixel points in each video frame is m × n, the matrix size of the acquired four matrices may be m × n. As can be seen, each matrix element of the forward horizontal displacement matrix and the forward vertical displacement matrix can correspond to the pixel points in the first video frame. Therefore, each matrix element of the forward displacement matrix corresponding to the image pair 1 can represent a two-dimensional displacement of the pixel points in the first video frame in the second video frame. The forward displacement matrix corresponding to the image pair 1 can be collectively referred to as a forward displacement matrix corresponding to the first video frame. Similarly, each matrix element of the reverse displacement matrix corresponding to the image pair 1 can represent a two-dimensional displacement of the pixel points in the second video frame in the first video frame. The reverse displacement matrix corresponding to the image pair 1 can be collectively referred to as a reverse displacement matrix corresponding to the second video frame.

ここから分かるように、アプリケーションサーバは、前記第1ビデオフレームにおける画素点の第1位置情報と、前記オプティカルフロー追跡規則とに基づいて、前記第1ビデオフレームにおける画素点を前記第2ビデオフレームに順方向にマッピングし、前記第2ビデオフレームにおいて、マッピングされた第1マッピング点の第2位置情報を決定することができ、さらに、前記画素点の第1位置情報と、前記第1マッピング点の第2位置情報とに基づいて、前記第1ビデオフレームに対応する順方向変位行列を決定することができる。さらに、アプリケーションサーバは、前記第2ビデオフレームにおける画素点の第2位置情報と、前記オプティカルフロー追跡規則とに基づいて、前記第2ビデオフレームにおける画素点を前記第1ビデオフレームに逆方向にマッピングし、前記第1ビデオフレームにおいて、マッピングされた第2マッピング点の第3位置情報を決定することができ、さらに、前記第1マッピング点の第2位置情報と、前記第2マッピング点の第3位置情報とに基づいて、前記第2ビデオフレームに対応する逆方向変位行列を決定することができる。ここで、前記第1マッピング点及び前記第2マッピング点は、いずれも、オプティカルフロー法によって、画像ペアの一方のビデオフレームにおける画素点を他方のビデオフレームにマッピングした画素点である。 As can be seen from this, the application server transfers the pixel points in the first video frame to the second video frame based on the first position information of the pixel points in the first video frame and the optical flow tracking rule. By mapping in the forward direction, it is possible to determine the second position information of the mapped first mapping point in the second video frame, and further, the first position information of the pixel point and the first mapping point. Based on the second position information, the forward displacement matrix corresponding to the first video frame can be determined. Further, the application server maps the pixel points in the second video frame to the first video frame in the reverse direction based on the second position information of the pixel points in the second video frame and the optical flow tracking rule. Then, in the first video frame, the third position information of the mapped second mapping point can be determined, and further, the second position information of the first mapping point and the third position information of the second mapping point. Based on the position information, the reverse displacement matrix corresponding to the second video frame can be determined. Here, the first mapping point and the second mapping point are both pixel points in which the pixel points in one video frame of the image pair are mapped to the other video frame by the optical flow method.

さらに、アプリケーションサーバは、前記第1ビデオフレームにおける画素点の第1位置情報と、前記順方向変位行列と、前記逆方向変位行列とに基づいて、前記画素点のうち、ターゲット選別条件を満たす画素点を有効画素点として決定することができる。ここで、該アプリケーションサーバが有効画素点を決定する具体的な過程は、以下のように記述することができる。 Further, the application server uses the pixel points that satisfy the target selection condition among the pixel points based on the first position information of the pixel points in the first video frame, the forward displacement matrix, and the reverse displacement matrix. A point can be determined as an effective pixel point. Here, the specific process of determining the effective pixel point by the application server can be described as follows.

アプリケーションサーバは、前記第1ビデオフレームにおける画素点の中から、第1画素点を取得し、前記第1ビデオフレームにおいて、前記第1画素点の第1位置情報を決定し、前記順方向変位行列から、前記第1画素点に対応する第1横方向変位及び第1縦方向変位を決定してもよい。さらに、アプリケーションサーバは、前記第1画素点の第1位置情報と、前記第1画素点に対応する第1横方向変位及び第1縦方向変位とに基づいて、前記第1画素点を前記第2ビデオフレームに順方向にマッピングし、前記第2ビデオフレームにおいて、マッピングされた第2画素点の第2位置情報を決定してもよい。さらに、アプリケーションサーバは、前記逆方向変位行列から、前記第2画素点に対応する第2横方向変位及び第2縦方向変位を決定し、前記第2画素点の第2位置情報と、前記第2画素点に対応する第2横方向変位及び第2縦方向変位とに基づいて、前記第2画素点を前記第1ビデオフレームに逆方向にマッピングし、前記第1ビデオフレームにおいて、マッピングされた第3画素点の第3位置情報を決定してもよい。さらに、アプリケーションサーバは、前記第1画素点の第1位置情報と、前記第3画素点の第3位置情報とに基づいて、前記第1画素点と前記第3画素点との誤差距離を決定し、前記第1画素点の第1位置情報と、前記第2画素点の第2位置情報とに基づいて、第1画素点を含む画像ブロックと、前記第2画素点を含む画像ブロックとの相関係数を決定してもよい。さらに、アプリケーションサーバは、前記画素点のうち、誤差距離が誤差距離閾値未満であり、かつ前記相関係数が相関係数閾値より大きい画素点を有効画素点として決定してもよい。 The application server acquires the first pixel point from the pixel points in the first video frame, determines the first position information of the first pixel point in the first video frame, and determines the first position information of the first pixel point, and the forward displacement matrix. Therefore, the first lateral displacement and the first longitudinal displacement corresponding to the first pixel point may be determined. Further, the application server determines the first pixel point as the first pixel point based on the first position information of the first pixel point and the first lateral displacement and the first vertical displacement corresponding to the first pixel point. It may be mapped in the forward direction to the two video frames, and the second position information of the mapped second pixel point may be determined in the second video frame. Further, the application server determines the second lateral displacement and the second longitudinal displacement corresponding to the second pixel point from the reverse displacement matrix, and obtains the second position information of the second pixel point and the second pixel point. Based on the second lateral displacement and the second longitudinal displacement corresponding to the two pixel points, the second pixel point was mapped in the opposite direction to the first video frame and mapped in the first video frame. The third position information of the third pixel point may be determined. Further, the application server determines the error distance between the first pixel point and the third pixel point based on the first position information of the first pixel point and the third position information of the third pixel point. Then, based on the first position information of the first pixel point and the second position information of the second pixel point, the image block including the first pixel point and the image block including the second pixel point The correlation coefficient may be determined. Further, the application server may determine, among the pixel points, the pixel points whose error distance is less than the error distance threshold and whose correlation coefficient is larger than the correlation coefficient threshold as effective pixel points.

このように取得されたオプティカルフロー追跡結果における順方向変位行列及び逆方向変位行列の行列要素の正確性を検証するために、本願の実施例では、行列変換によって、上記した4つの変位行列の行列要素を選別してもよく、即ち、構築された初期状態行列における、各画素点それぞれに対応する位置にある行列要素の変化状況によって、この4つの行列から、各画素点それぞれに対応する位置にある、変位誤差が大きい行列要素を除去してもよい。これにより、第1ビデオフレームの画素点の中から、有効画素点を決定することができる。 In order to verify the accuracy of the matrix elements of the forward displacement matrix and the reverse displacement matrix in the optical flow tracking result obtained in this way, in the embodiment of the present application, the matrix of the above-mentioned four displacement matrices is obtained by matrix transformation. The elements may be selected, that is, depending on the change status of the matrix elements at the positions corresponding to the respective pixel points in the constructed initial state matrix, the four matrices may be changed to the positions corresponding to the respective pixel points. Certain matrix elements with large displacement errors may be removed. Thereby, the effective pixel point can be determined from the pixel points of the first video frame.

理解を容易にするために、さらに、本願の実施例で提供される有効画素点を決定する方法である図9を参照されたい。図9に示すように、該アプリケーションサーバは、この4つの行列の行列要素を選別する前に、まず、該第1ビデオと同じサイズの状態行列Sを初期化してもよい。この場合、該アプリケーションサーバは、該状態行列Sを初期状態行列と呼ぶことができる。ここで、該初期状態行列において、各画素点それぞれに対応する行列要素の値は、第1数値と呼ぶことができる。このとき、該初期状態行列における第1数値は、いずれも、ゼロである。該初期状態行列の行列要素の値の変化状況は、第1ビデオフレームにおける画素点がターゲット選別条件を満たすか否かを表すために用いることができる。これにより、ターゲット選別条件を満たす画素点を有効追跡画素点(即ち、有効画素点)とすることができる。 Further, for ease of understanding, see FIG. 9, which is a method of determining effective pixel points provided in the embodiments of the present application. As shown in FIG. 9, the application server may first initialize the state matrix S1 having the same size as the first video before selecting the matrix elements of the four matrices. In this case, the application server can call the state matrix S 1 the initial state matrix. Here, in the initial state matrix, the value of the matrix element corresponding to each pixel point can be called a first numerical value. At this time, the first numerical value in the initial state matrix is zero. The change state of the value of the matrix element of the initial state matrix can be used to indicate whether or not the pixel point in the first video frame satisfies the target selection condition. Thereby, the pixel points satisfying the target selection condition can be set as the effective tracking pixel points (that is, the effective pixel points).

ここで、図9に示す第1画像フレームは、上記した画像ペア1におけるビデオフレーム番号が1であるビデオフレームであってもよい。該第1ビデオフレームにおける画素点は、図9に示すような第1画素点p1を含んでもよく、即ち、該第1画素点p1は、該第1ビデオフレームの全ての画素点のうちの1つであってもよく、該第1画素点p1の第1ビデオフレームにおける位置情報を第1位置情報と呼ぶことができる。さらに、アプリケーションサーバは、上記の順方向変位行列の順方向水平変位行列から、該第1画素点p1に対応する第1横方向変位を見つけて、上記の順方向変位行列の順方向垂直変位行列から、該第1画素点p1に対応する第1縦方向変位を見つけることができ、さらに、該第1画素点p1の第1位置情報と、該第1画素点p1に対応する第1横方向変位及び第1縦方向変位とに基づいて、該第1画素点p1を、図9に示す第2ビデオフレームに順方向にマッピングし、第2ビデオフレームにおいて、マッピングされた第2画素点p2の第2位置情報を決定することができる。理解できるように、このとき、該第2画素点p2は、第1画素点p1を行列変換した画素点である。さらに、該アプリケーションサーバは、上記の逆方向変位行列から、該第2画素点p2に対応する第2横方向変位及び第2縦方向変位を決定することができ、該第2画素点p2の第2位置情報と、該第2画素点p2に対応する第2横方向変位及び第2縦方向変位とに基づいて、該第2画素点p2を、図9に示す第1ビデオフレームに逆方向にマッピングすることができ、該第1ビデオフレームにおいて、マッピングされた第3画素点p1’の第3位置情報を決定することができる。理解できるように、このとき、該第3画素点p1’は、第1画素点p1をマッピングした第2画素点p2を行列変換した画素点である。 Here, the first image frame shown in FIG. 9 may be a video frame having a video frame number of 1 in the above-mentioned image pair 1. The pixel point in the first video frame may include the first pixel point p1 as shown in FIG. 9, that is, the first pixel point p1 is one of all the pixel points of the first video frame. The position information in the first video frame of the first pixel point p1 can be referred to as the first position information. Further, the application server finds the first lateral displacement corresponding to the first pixel point p1 from the forward horizontal displacement matrix of the forward displacement matrix, and finds the forward vertical displacement matrix of the forward displacement matrix. From, the first longitudinal displacement corresponding to the first pixel point p1 can be found, and further, the first position information of the first pixel point p1 and the first horizontal direction corresponding to the first pixel point p1. Based on the displacement and the first longitudinal displacement, the first pixel point p1 is forward-mapped to the second video frame shown in FIG. 9, and in the second video frame, the mapped second pixel point p2. The second position information can be determined. As can be understood, at this time, the second pixel point p2 is a pixel point obtained by matrix-converting the first pixel point p1. Further, the application server can determine the second lateral displacement and the second longitudinal displacement corresponding to the second pixel point p2 from the above-mentioned reverse displacement matrix, and the second pixel point p2 can be determined. Based on the two position information and the second lateral displacement and the second longitudinal displacement corresponding to the second pixel point p2, the second pixel point p2 is moved in the opposite direction to the first video frame shown in FIG. It can be mapped, and in the first video frame, the third position information of the mapped third pixel point p1'can be determined. As can be understood, at this time, the third pixel point p1'is a pixel point obtained by matrix-converting the second pixel point p2 to which the first pixel point p1 is mapped.

さらに、該アプリケーションサーバは、第1ビデオフレームにおいて、第1画素点p1の第1位置情報と、行列変換された第3画素点p1’の第3位置情報との2つの位置間の位置誤差t11’を決定することができる。さらに、アプリケーションサーバは、図9に示す第1ビデオフレームにおいて、第1画素点p1の第1位置情報を中心として、サイズがk*k画素(例えば、8*8画素)である画像ブロック10を選択してもよい。また、図9に示すように、アプリケーションサーバは、図9に示す第2ビデオフレームにおいて、第2画素点p2の第2位置情報を中心として、同様に、サイズがk*k画素である画像ブロック20を選択してもよく、さらに、この2つの画像ブロック間の相関係数(該相関係数は、N1,2であってもよい)を計算してもよい。 Further, the application server has a position error t between two positions of the first position information of the first pixel point p1 and the third position information of the matrix-converted third pixel point p1'in the first video frame. 11'can be determined. Further, the application server displays an image block 10 having a size of k * k pixels (for example, 8 * 8 pixels) centered on the first position information of the first pixel point p1 in the first video frame shown in FIG. You may choose. Further, as shown in FIG. 9, the application server similarly has an image block having a size of k * k pixels centered on the second position information of the second pixel point p2 in the second video frame shown in FIG. 20 may be selected, and a correlation coefficient between the two image blocks (the correlation coefficient may be N 1 , 2) may be calculated.

ここで、相関係数N1,2の計算式は、次の通りである。 Here, the calculation formulas of the correlation coefficients N 1 and 2 are as follows.

Figure 2022511828000002
Figure 2022511828000002

数式1におけるpatch(a,b)は、図9に示す画像ブロック10のa行b列の位置にある画素点の画素値を表すことができる。前記画素値は、0~255の間にある、画素の階調値であってもよい。E(patch)は、図9に示す画像ブロック10の平均画素値を表す。patch(a,b)は、図9に示す画像ブロック20のa行b列の位置にある画素点の画素値を表す。E(patch)は、図9に示す画像ブロック20の平均画素値を表す。 Patch 1 (a, b) in Equation 1 can represent the pixel value of the pixel point at the position of row a and column b of the image block 10 shown in FIG. The pixel value may be a pixel gradation value between 0 and 255. E (patch 1 ) represents the average pixel value of the image block 10 shown in FIG. Patch 2 (a, b) represents the pixel value of the pixel point at the position of row a and column b of the image block 20 shown in FIG. E (patch 2 ) represents the average pixel value of the image block 20 shown in FIG.

ここで、理解できるように、本願の実施例では、図9に示す第1画素点p1と第3画素点p1’との誤差距離を算出した後、この算出した誤差距離を、予め設定された誤差距離と比較してもよい。t11’<T、かつN1,2≧Tである場合は(ここで、Tは設定された誤差距離閾値、Tは設定された相関係数閾値)、該第1ビデオフレームにおける第1画素点p1が前述のターゲット選別条件を満たすことを表すため、該第1画素点p1が有効画素点であると決定することができる。 Here, as can be understood, in the embodiment of the present application, after the error distance between the first pixel point p1 and the third pixel point p1'shown in FIG. 9 is calculated, the calculated error distance is set in advance. It may be compared with the error distance. If t 11' < TB and N 1, 2TA (where TB is the set error distance threshold and TA is the set correlation coefficient threshold), the first video frame. Since the first pixel point p1 in 1 satisfies the above-mentioned target selection condition, it can be determined that the first pixel point p1 is an effective pixel point.

さらに、該アプリケーションサーバは、初期状態行列Sにおける、該第1画素点p1に対応する位置にある行列要素の値を第2数値に設定してもよい。例えば、第1ビデオフレームにおける第1画素点p1が有効画素点であることを表すために、該初期状態行列Sにおける、第1画素点p1に対応する要素の値を0から1に切り替えてもよい。逆に、t11’≧TB、及び/又は、N1,2<Tである場合は、該第1ビデオフレームにおける第1画素点p1が前述のターゲット選別条件を満たさないことを表す。この場合、該アプリケーションサーバは、上記図9に示す第1画素点p1を無効追跡画素点と判断することができる。即ち、該初期状態行列Sにおいて、第1画素点p1に対応する要素の値は、0のままである。これと同時に、該アプリケーションサーバは、さらに、上記の順方向変位行列(即ち、上記行列Q1,2,x及び行列Q1,2,y)における、該第1画素点p1に対応する位置にある行列要素の値を0に設定してもよい。これにより、前記第1数値を含むこの順方向変位行列を、ターゲット変位行列(例えば、順方向水平変位行列Qx1及び順方向水平変位行列Qy1)として決定することができる。即ち、該ターゲット変位行列におけるこれらの位置にある行列要素は、上記の順方向変位行列から選別されて、大きな誤差が存在する誤り追跡変位が除外された後に決定された行列を表すために用いることができる。 Further, the application server may set the value of the matrix element at the position corresponding to the first pixel point p1 in the initial state matrix S1 to the second numerical value. For example, in order to indicate that the first pixel point p1 in the first video frame is an effective pixel point, the value of the element corresponding to the first pixel point p1 in the initial state matrix S1 is switched from 0 to 1. May be good. On the contrary, when t 11'TB and / or N 1, 2 < TA , it means that the first pixel point p1 in the first video frame does not satisfy the above-mentioned target selection condition. In this case, the application server can determine that the first pixel point p1 shown in FIG. 9 is an invalid tracking pixel point. That is, in the initial state matrix S1, the value of the element corresponding to the first pixel point p1 remains 0. At the same time, the application server is further located at a position corresponding to the first pixel point p1 in the forward displacement matrix (that is, the matrix Q1 , 2, x and the matrix Q 1, 2, y ). The value of a matrix element may be set to 0. Thereby, the forward displacement matrix including the first numerical value can be determined as the target displacement matrix (for example, the forward horizontal displacement matrix Q x1 and the forward horizontal displacement matrix Q y1 ). That is, the matrix elements at these positions in the target displacement matrix are used to represent the matrix determined after the error tracking displacements with large errors are excluded from the forward displacement matrix described above. Can be done.

理解できるように、上記図9に示す他の画素点については、図9に示す第1ビデオフレームから画素点を順次選択して第1画素点として、有効画素点を決定する上記のステップを繰り返してもよい。該第1ビデオフレームにおける全ての画素点のいずれも第1画素点とされると、該第1ビデオフレームにおける全ての有効画素点を決定することができる。これにより、該有効画素点の該初期状態行列における位置情報に基づいて、該初期状態行列における行列要素を更新することができ、さらに、第2数値を含む初期状態行列を、前記第1ビデオフレームに対応するターゲット状態行列Sとして決定することができる。そして、該第1ビデオフレームに対応するターゲット変位行列(即ち、ターゲット水平変位行列Qx,1及びターゲット水平変位行列Qy,1)を取得することができる。同様に、複数の画像ペアのうちの他の画像ペアについても、画像ペア1から有効画素点を決定する上記のステップを繰り返すことにより、残りの画像ペアのそれぞれにおける第1ビデオフレームに対応するターゲット状態行列、ターゲット変位行列を取得することができる。例えば、ターゲットビデオにおける、ビデオフレーム番号がそれぞれ1、2、3、4、…、nである連続する複数のビデオフレームを例にとると、構成された複数の画像ペアは、それぞれ、(1,2)、(2,3)、(3,4)、…、(n-1,n)と表すことができる。そうすると、各画像ペアそれぞれに対応するオプティカルフロー追跡結果から、上記の有効画素点の判断方式によって、画像ペア(1,2)に対応するターゲット状態行列Sと、画像ペア(1,2)に対応するターゲット変位行列Q(即ち、前述のターゲット水平変位行列Qx,1及びターゲット垂直変位行列Qy,1)を最終的に取得することができる。このようにして、画像ペア(n-1,n)に対応するターゲット状態行列Sn-1と、画像ペア(1,2)に対応するターゲット変位行列Qn-1(即ち、前述のターゲット水平変位行列Qx,n-1及びターゲット水平変位行列Qy,n-1)を取得することができる。 As can be understood, for the other pixel points shown in FIG. 9, the above steps of sequentially selecting the pixel points from the first video frame shown in FIG. 9 and using them as the first pixel points to determine the effective pixel points are repeated. You may. If any of all the pixel points in the first video frame is set as the first pixel point, all the effective pixel points in the first video frame can be determined. Thereby, the matrix element in the initial state matrix can be updated based on the position information of the effective pixel point in the initial state matrix, and the initial state matrix including the second numerical value can be obtained by the first video frame. Can be determined as the target state matrix S1 corresponding to. Then, the target displacement matrix corresponding to the first video frame (that is, the target horizontal displacement matrix Q x, 1 and the target horizontal displacement matrix Q y, 1 ) can be acquired. Similarly, for other image pairs among the plurality of image pairs, the target corresponding to the first video frame in each of the remaining image pairs can be obtained by repeating the above step of determining the effective pixel points from the image pair 1. The state matrix and target displacement matrix can be obtained. For example, taking a plurality of consecutive video frames having video frame numbers 1, 2, 3, 4, ..., N in the target video as an example, the plurality of configured image pairs are each (1, 1,). It can be expressed as 2), (2,3), (3,4), ..., (N-1, n). Then, from the optical flow tracking result corresponding to each image pair, the target state matrix S1 corresponding to the image pair ( 1 , 2) and the image pair (1, 2) are obtained by the above-mentioned effective pixel point determination method. The corresponding target displacement matrix Q 1 (that is, the target horizontal displacement matrix Q x, 1 and the target vertical displacement matrix Q y, 1 described above) can be finally obtained. In this way, the target state matrix S n-1 corresponding to the image pair (n-1, n) and the target displacement matrix Q n-1 corresponding to the image pair (1, 2) (that is, the above-mentioned target horizontal). The displacement matrix Q x, n-1 and the target horizontal displacement matrix Q y, n-1 ) can be acquired.

さらに、アプリケーションサーバは、クラウド変位積分法によって、上記画像ペア1に対応するターゲット状態行列S及び前記ターゲット変位行列Qに対して積分演算を行って、該第1ビデオフレームにおける画素点に対応する状態積分行列Sin(x,y)及び変位積分行列Qin(x,y)を取得することができる。ここで、変位積分行列Qin(x,y)は、横方向変位積分行列Qx,in(x,y)と、縦方向変位積分行列Qy,in(x,y)と、を含んでもよい。また、該状態積分行列Sin(x,y)、横方向変位積分行列Qx,in(x,y)、及び縦方向変位積分行列Qy,in(x,y)は、次の行列積分式によって取得することができる。 Further, the application server performs an integral calculation on the target state matrix S1 corresponding to the image pair 1 and the target displacement matrix Q1 by the cloud displacement integration method, and corresponds to the pixel points in the first video frame. The state integral matrix S in (x, y) and the displacement integral matrix Q in (x, y) can be obtained. Here, the displacement integral matrix Q in (x, y) may include the lateral displacement integral matrix Q x, in (x, y) and the longitudinal displacement integral matrix Q y, in (x, y). good. Further, the state integral matrix S in (x, y), the lateral displacement integral matrix Q x, in (x, y), and the longitudinal displacement integral matrix Q y, in (x, y) are the following matrix integrals. It can be obtained by an expression.

Figure 2022511828000003
Figure 2022511828000003

数式2、数式3、数式4におけるx及びyは、第1ビデオフレームに対応する状態積分行列、変位積分行列における全ての行列要素の座標を表すために用いることができ、例えば、Sin(x,y)は、状態積分行列のx行y列の行列要素の値を表すことができる。また、数式2、数式3、数式4におけるx’及びy’は、ターゲット状態行列及びターゲット変位行列における行列要素の座標を表すことができ、例えば、S(x’,y’)は、ターゲット状態行列のx’行y’列の行列要素の値を表すことができる。 The x and y in Equations 2, 3, and 4 can be used to represent the coordinates of all the matrix elements in the state-integrated matrix and the displacement-integrated matrix corresponding to the first video frame, for example, Sin (x). , Y) can represent the values of the matrix elements of the x-by-y column of the state integration matrix. Further, x'and y'in Equation 2, Equation 3, and Equation 4 can represent the coordinates of the matrix elements in the target state matrix and the target displacement matrix. For example, S (x', y') is the target state. It can represent the value of a matrix element in the x'row y'column of a matrix.

さらに、アプリケーションサーバは、クラウド変位差分法によって、第1ビデオフレームにおいて、高さがMであり、かつ幅がNであるターゲットボックスを選択してもよく、さらに、該ターゲットボックス内で、数式2、数式3、数式4によって取得されたこの3つの積分行列に対して変位差分演算を行って、状態差分行列Sdif(x,y)及び変位差分行列Qdif(x,y)をそれぞれ取得することができる。前記ターゲットボックスは、画素点の周囲の一定の領域の全ての画素点を選択して、平均変位を計算するためのものであり、例えば、80×80画素のサイズである。 Further, the application server may select a target box having a height of M and a width of N in the first video frame by the cloud displacement difference method, and further, within the target box, Equation 2 may be selected. , The displacement difference calculation is performed on these three integral matrices acquired by the equations 3 and 4, and the state difference matrix S dif (x, y) and the displacement difference matrix Q dif (x, y) are acquired, respectively. be able to. The target box is for selecting all the pixel points in a certain area around the pixel points and calculating the average displacement, for example, having a size of 80 × 80 pixels.

ここで、変位差分行列Qdif(x,y)は、横方向変位差分行列Qx,dif(x,y)と、縦方向変位積分行列Qy,dif(x,y)と、を含んでもよい。該状態積分行列Sdif(x,y)、横方向変位差分行列Qx,dif(x,y)、及び縦方向変位積分行列Qy,dif(x,y)は、次の行列差分式(数式5)によって取得することができる。 Here, the displacement difference matrix Q dif (x, y) may include the lateral displacement difference matrix Q x, dif (x, y) and the vertical displacement integration matrix Q y, dif (x, y). good. The state integral matrix S dif (x, y), the lateral displacement difference matrix Q x, dif (x, y), and the longitudinal displacement integral matrix Q y, dif (x, y) are the following matrix difference equations (x, y). It can be obtained by the formula 5).

Figure 2022511828000004
Figure 2022511828000004

ここで、理解できるように、本願の実施例では、該第1ビデオフレームにおける、該ターゲットブロックが位置する領域を、差分領域と呼ぶことができる。これにより、該差分領域のサイズ情報、状態積分行列、横方向変位積分行列、及び縦方向変位積分行列に基づいて、前記第1ビデオフレームに対応する平均変位行列を決定することができる。ここで、該変位差分演算式におけるM及びNは、該差分領域の長さの値及び幅の値である。ここで、該変位差分演算式におけるx及びyは、それぞれ、第1ビデオフレームにおける各画素点の位置情報である。該変位差分演算式によって、該差分領域内の全ての画素点の平均値を迅速に取得することができる。例えば、状態積分行列の場合は、該状態積分行列Sin(x,y)に対応する状態差分行列Sdif(x,y)を取得することができる。横方向変位積分行列Qx,in(x,y)及び縦方向変位積分行列Qy,in(x,y)の場合は、横方向変位差分行列Qx,dif(x,y)及び縦方向変位差分行列Qy,dif(x,y)を取得することができる。 Here, as can be understood, in the embodiment of the present application, the region where the target block is located in the first video frame can be referred to as a difference region. Thereby, the average displacement matrix corresponding to the first video frame can be determined based on the size information of the difference region, the state integral matrix, the lateral displacement integral matrix, and the longitudinal displacement integral matrix. Here, M and N in the displacement difference calculation formula are the length value and the width value of the difference region. Here, x and y in the displacement difference calculation formula are the position information of each pixel point in the first video frame, respectively. By the displacement difference calculation formula, the average value of all the pixel points in the difference region can be quickly obtained. For example, in the case of a state integration matrix, the state difference matrix S dif (x, y) corresponding to the state integration matrix S in (x, y) can be acquired. In the case of the lateral displacement integral matrix Q x, in (x, y) and the longitudinal displacement integral matrix Q y, in (x, y), the lateral displacement difference matrix Q x, def (x, y) and the longitudinal direction. The displacement difference matrix Q y, dif (x, y) can be acquired.

さらに、該アプリケーションサーバは、横方向変位差分行列Qx,dif(x,y)と前記状態差分行列Sdif(x,y)との比を横方向平均変位行列Qx,F(x,y)として決定し、前記縦方向変位差分行列Qy,in(x,y)と前記状態差分行列Sdif(x,y)との比を縦方向平均変位行列Qy,F(x,y)として決定してもよい。 Further, the application server sets the ratio of the lateral displacement difference matrix Q x, def (x, y) and the state difference matrix S div (x, y) to the lateral average displacement matrix Q x, F (x, y). ), And the ratio of the vertical displacement difference matrix Q y, in (x, y) to the state difference matrix S dif (x, y) is the vertical average displacement matrix Q y, F (x, y). May be determined as.

Figure 2022511828000005
Figure 2022511828000005

数式6及び数式7におけるeは、0.001のような、人為的に設定された比較的小さな数を表す。即ち、数式6及び数式7におけるeは、状態差分行列Sdif(x,y)における行列要素の値が全て0である場合、直接0で除算することを回避するためのものである。これにより、ステップS203をさらに実行して、該第1ビデオフレームにおける画素点の第2ビデオフレームにおける出現位置情報を該ターゲットユーザ端末で予め算出することができる。 E in Equations 6 and 7 represents an artificially set relatively small number, such as 0.001. That is, e in the equations 6 and 7 is for avoiding direct division by 0 when all the values of the matrix elements in the state difference matrix S dif (x, y) are 0. As a result, step S203 can be further executed, and the appearance position information of the pixel points in the first video frame in the second video frame can be calculated in advance on the target user terminal.

ステップS203で、前記平均変位行列に基づいて、前記第1ビデオフレームにおける画素点の位置情報を追跡し、前記第2ビデオフレームにおいて、追跡された画素点の位置情報を決定する。 In step S203, the position information of the pixel points in the first video frame is tracked based on the average displacement matrix, and the position information of the tracked pixel points in the second video frame is determined.

具体的には、アプリケーションサーバは、前述したステップS203で取得された平均変位行列(該平均変位行列は、横方向平均変位行列Qx,F(x,y)と、縦方向平均変位行列Qy,F(x,y)と、を含んでもよい)に基づいて、さらに、該第1ビデオフレームにおける画素点の、次のビデオフレーム(即ち、上記の画像ペア1における第2ビデオフレーム)における出現位置情報を迅速かつ正確に追跡することができ、即ち、変位変換を行うことにより、前記第2ビデオフレームにおいて、該第1ビデオフレームにおける画素点を追跡して得られた画素点の位置情報を決定することができる。 Specifically, the application server uses the average displacement matrix acquired in step S203 described above (the average displacement matrix is the horizontal average displacement matrix Q x, F (x, y) and the vertical average displacement matrix Q y ). , F (x, y), and may also be included), and further, the appearance of the pixel points in the first video frame in the next video frame (ie, the second video frame in the image pair 1 above). The position information can be traced quickly and accurately, that is, the position information of the pixel points obtained by tracking the pixel points in the first video frame in the second video frame by performing displacement conversion can be obtained. Can be decided.

Figure 2022511828000006
Figure 2022511828000006

数式8におけるxは、該第1ビデオフレームにおける画素点の横方向の位置座標であり、Qx,F(x,y)は、該第1ビデオフレームに対応する横方向平均変位行列であり、該数式8によって、第1ビデオフレームにおける画素点の横方向の位置座標を座標変換して、該第1ビデオフレームにおける画素点の、次のビデオフレームにおける横方向の位置座標を取得することができる。同様に、数式9におけるyは、該第1ビデオフレームにおける画素点の縦方向の位置座標であり、Qx,y(x,y)は、該第1ビデオフレームに対応する縦方向平均変位行列であり、該数式9によって、第1ビデオフレームにおける画素点の縦方向位置座標を座標変換して、該第1ビデオフレームにおける画素点の、次のビデオフレームにおける縦方向の位置座標を取得することができる。 In Equation 8, x is the lateral position coordinate of the pixel point in the first video frame, and Q x, F (x, y) is the lateral average displacement matrix corresponding to the first video frame. According to the equation 8, the lateral position coordinates of the pixel points in the first video frame can be coordinate-converted, and the lateral position coordinates of the pixel points in the first video frame can be obtained in the next video frame. .. Similarly, y in Equation 9 is the vertical position coordinate of the pixel point in the first video frame, and Q x, y (x, y) is the vertical average displacement matrix corresponding to the first video frame. In addition, according to the equation 9, the vertical position coordinates of the pixel points in the first video frame are coordinate-converted, and the vertical position coordinates of the pixel points in the first video frame are obtained in the next video frame. Can be done.

理解できるように、各画像ペアのいずれについても、該画像ペアにおける第1ビデオフレームに対応する平均変位行列によって、該画像ペアの第1ビデオフレームにおける画素点を迅速に追跡することができ、該画像ペアの第2ビデオフレームにおいて、追跡された画素点の位置座標を決定することができ、即ち、各画像ペアそれぞれの第2ビデオフレームにおいて、追跡された画素点の位置情報を決定することができる。該アプリケーションサーバは、ステップS204をさらに実行することを可能にするために、各画像ペアにおいて追跡された画素点の位置情報をさらに記憶してもよい。 As you can see, for any of the image pairs, the average displacement matrix corresponding to the first video frame in the image pair allows the pixel points in the first video frame of the image pair to be quickly tracked. In the second video frame of the image pair, the position coordinates of the tracked pixel points can be determined, i.e., in the second video frame of each image pair, the position information of the tracked pixel points can be determined. can. The application server may further store the location information of the pixel points tracked in each image pair to allow further execution of step S204.

ステップS204で、前記第1ビデオフレームにおける画素点の位置情報と、前記追跡された画素点の前記第2ビデオフレームにおける位置情報とに基づいて、前記ターゲットビデオに関連付けられた軌跡情報を生成する。 In step S204, the locus information associated with the target video is generated based on the position information of the pixel points in the first video frame and the position information of the tracked pixel points in the second video frame.

ここで、前記軌跡情報は、ターゲットビデオにおけるターゲットオブジェクトに関連付けられたマルチメディア情報を追跡して表示するためのターゲット軌跡情報を含む。 Here, the locus information includes target locus information for tracking and displaying multimedia information associated with the target object in the target video.

ステップS205で、ターゲットビデオに対するトリガ操作に応答して、前記ターゲットビデオのキービデオフレームからターゲット画素点を決定し、前記ターゲット画素点に関連付けられたマルチメディア情報を取得する。 In step S205, in response to the trigger operation for the target video, the target pixel point is determined from the key video frame of the target video, and the multimedia information associated with the target pixel point is acquired.

ステップS206で、前記ターゲット画素点の前記キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定する。 In step S206, a locus acquisition request corresponding to the target pixel point is determined based on the position information of the target pixel point in the key video frame.

ここで、ステップS205及びステップS206の具体的な実現方式については、上記図4に対応する実施例におけるターゲットユーザ端末の説明を参照すればよいが、ここではこれ以上の説明を省略する。 Here, for the specific implementation method of step S205 and step S206, the description of the target user terminal in the embodiment corresponding to FIG. 4 may be referred to, but further description thereof will be omitted here.

ステップS207で、キービデオフレームにおけるターゲット画素点に対する軌跡取得要求に応答して、ターゲットビデオに関連付けられた軌跡情報を取得する。 In step S207, the locus information associated with the target video is acquired in response to the locus acquisition request for the target pixel point in the key video frame.

具体的には、アプリケーションサーバは、ターゲットユーザ端末が、キービデオフレームにおけるターゲット画素点に基づいて送信した軌跡取得要求を受信してもよく、さらに、上述したアプリケーションサーバによって予め算出された、該ターゲットビデオにおける全ての画素点のそれぞれに関連付けられた軌跡情報を取得してもよい。これにより、ステップS208をさらに実行することを可能にする。 Specifically, the application server may receive the locus acquisition request transmitted by the target user terminal based on the target pixel point in the key video frame, and further, the target calculated in advance by the application server described above. The locus information associated with each of all the pixel points in the video may be acquired. This makes it possible to further execute step S208.

ステップS208で、前記ターゲットビデオに関連付けられた軌跡情報の中から、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を選別し、前記ターゲット軌跡情報を返信する。 In step S208, the target locus information associated with the position information of the target pixel point in the key video frame is selected from the locus information associated with the target video, and the target locus information is returned.

具体的には、アプリケーションサーバは、該軌跡取得要求から、該キービデオフレームのターゲットビデオにおけるビデオフレーム番号と、ターゲット画素点の該キービデオフレームにおける位置情報とを取得してもよく、さらに、該アプリケーションサーバが予め取得した、該ターゲットビデオに関連付けられた軌跡情報の中から、該ターゲット画素点に関連付けられた軌跡情報を選別してもよく、選別した軌跡情報をターゲット軌跡情報と呼ぶことができ、さらに、該ターゲット軌跡情報をターゲットユーザ端末に返信してもよい。これにより、該ターゲットユーザ端末は、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける出現位置情報が取得されるまで、該キービデオフレームのフレーム番号に基づいて、受信した該ターゲット軌跡情報の中から、ターゲット画素点の、該キービデオフレームの次のビデオにおける出現位置情報を迅速に見つけることができる。この場合、該ターゲットユーザ端末は、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける出現位置情報からなる新たな軌跡情報を。任意選択的に、理解すべきものとして、該アプリケーションサーバは、該キービデオフレームのフレーム番号を取得すると、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける出現位置情報が取得されるまで、選別した該軌跡情報の中から、ターゲット画素点の、該キービデオフレームの次のビデオにおける出現位置情報を迅速に見つけてもよい。この場合、該アプリケーションサーバは、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける出現位置情報からなる新たな軌跡情報をターゲット軌跡情報と呼ぶことができる。 Specifically, the application server may acquire the video frame number in the target video of the key video frame and the position information of the target pixel point in the key video frame from the trajectory acquisition request, and further, the said. The trajectory information associated with the target pixel point may be selected from the trajectory information associated with the target video acquired in advance by the application server, and the selected trajectory information can be referred to as target trajectory information. Further, the target locus information may be returned to the target user terminal. As a result, the target user terminal receives the target based on the frame number of the key video frame until the appearance position information of the target pixel point in each video frame after the key video frame is acquired. From the locus information, the appearance position information of the target pixel point in the next video of the key video frame can be quickly found. In this case, the target user terminal obtains new locus information consisting of appearance position information of the target pixel point in each video frame after the key video frame. Optionally, it should be understood that when the application server acquires the frame number of the key video frame, the appearance position information of the target pixel point in each video frame after the key video frame is acquired. From the selected locus information, the appearance position information of the target pixel point in the next video of the key video frame may be quickly found. In this case, the application server can call the new locus information consisting of the appearance position information of the target pixel point in each video frame after the key video frame as the target locus information.

ここで、理解できるように、ターゲットユーザ端末の計算性能がオブジェクト追跡の需要を満たせない場合、該ターゲットユーザ端末は、該ターゲット画素点に対応する軌跡取得要求を生成すると、該軌跡取得要求をアプリケーションサーバに送信してもよい。これにより、アプリケーションサーバは、前記軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得することができ、取得したターゲット軌跡情報を該ターゲットユーザ端末に返信することができる。 Here, as can be understood, when the computational performance of the target user terminal cannot meet the demand for object tracking, the target user terminal generates a trajectory acquisition request corresponding to the target pixel point, and the trajectory acquisition request is applied to the application. It may be sent to the server. As a result, the application server can acquire the target locus information associated with the position information of the target pixel point in the key video frame based on the locus acquisition request, and the acquired target locus information can be obtained by the target user. You can reply to the terminal.

任意選択的に、ターゲットユーザ端末の計算性能がオブジェクト追跡の需要を満たせる場合、該ターゲットユーザ端末は、上記したステップS201~ステップS204を該ターゲットユーザ端末で実行してもよい。これにより、該ターゲットユーザ端末では、該ターゲットビデオにおける全ての画素点の全画素追跡を予め行って、該ターゲットビデオにおける全ての画素点の各ビデオフレームにおける位置情報を予め取得し、さらに、該ターゲットビデオにおける各画素点の各ビデオフレームにおける位置情報について位置を統合して、該ターゲットビデオにおける各画素点それぞれに対応する軌跡情報を取得することができる。この場合、該ターゲットユーザ端末は、前記ターゲットオブジェクトにおけるターゲット画素点の前記キービデオフレームにおける位置情報に基づいて、該ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を該ターゲットユーザ端末において直接取得してもよい。これにより、ステップS209をさらに実行することを可能にする。 Optionally, if the computational performance of the target user terminal can meet the demand for object tracking, the target user terminal may execute the above-mentioned steps S201 to S204 on the target user terminal. As a result, in the target user terminal, all pixel tracking of all pixel points in the target video is performed in advance, position information of all pixel points in the target video in each video frame is acquired in advance, and further, the target It is possible to integrate the positions of the position information of each pixel point in the video in each video frame and acquire the locus information corresponding to each pixel point in the target video. In this case, the target user terminal sets the target locus information associated with the position information of the target pixel point in the key video frame based on the position information of the target pixel point in the target object in the key video frame. It may be acquired directly on the user terminal. This makes it possible to further execute step S209.

ここで、前記ターゲット軌跡情報は、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報を含み、前記キービデオフレームの次のビデオフレームにおける位置情報は、前記ターゲットオブジェクトを追跡することにより取得されたものである。 Here, the target locus information includes the position information of the target pixel point in the video frame next to the key video frame, and the position information in the video frame next to the key video frame tracks the target object. It was acquired by.

例えば、現在再生されているビデオ(即ち、ターゲットビデオ)に含まれる複数の連続するビデオフレームが以下の6つのビデオフレームである場合を例にとる。この6つのビデオフレームは、ビデオフレームa、ビデオフレームb、ビデオフレームc、ビデオフレームd、ビデオフレームe、ビデオフレームfであってもよい。したがって、アプリケーションサーバは、ビデオの前処理段階で、該ターゲットビデオにおける各ビデオフレームに対して前処理を予め行ってもよく、即ち、上記したオプティカルフロー追跡規則に基づいて、該ターゲットビデオにおける2つずつの隣接するビデオフレームからなる画像ペアのそれぞれに対応する平均変位行列を決定してもよく、さらに、各画像ペアそれぞれに対応する平均変位行列(各画像ペアそれぞれにおける第1ビデオフレームに対応する平均変位行列とも呼ぶことができる)に基づいて、該第1ビデオフレームにおける全ての画素点を追跡してもよい。これにより、該第1ビデオフレームにおける全ての画素点の第2ビデオフレームにおける出現位置情報を取得することができ、さらに、該ターゲットビデオの全ての画素点の各ビデオフレームにおける位置情報を取得することができ(即ち、該ターゲットビデオの全ての画素点の、上記したビデオフレームa、ビデオフレームb、ビデオフレームc、ビデオフレームd、ビデオフレームe、ビデオフレームfにおける位置情報を取得することができ)、該ターゲットビデオの全ての画素点の各ビデオフレームにおける位置情報に基づいて、該ターゲットビデオの全ての画素点のそれぞれに対応する軌跡情報を取得することができる。該ターゲットビデオの全ての画素点のそれぞれに対応する軌跡情報を、該ターゲットビデオに関連付けられた軌跡情報と呼ぶ。 For example, take the case where a plurality of consecutive video frames included in the currently played video (that is, the target video) are the following six video frames. The six video frames may be a video frame a, a video frame b, a video frame c, a video frame d, a video frame e, and a video frame f. Therefore, the application server may preprocess each video frame in the target video during the video preprocessing stage, i.e., two in the target video based on the optical flow tracking rules described above. The average displacement matrix corresponding to each of the image pairs consisting of adjacent video frames may be determined, and further, the average displacement matrix corresponding to each image pair (corresponding to the first video frame in each image pair). All pixel points in the first video frame may be tracked based on (which can also be referred to as an average displacement matrix). As a result, the appearance position information of all the pixel points in the first video frame in the second video frame can be acquired, and further, the position information of all the pixel points of the target video in each video frame can be acquired. (That is, the position information of all the pixel points of the target video in the above-mentioned video frame a, video frame b, video frame c, video frame d, video frame e, and video frame f can be acquired). Based on the position information of all the pixel points of the target video in each video frame, the locus information corresponding to each of all the pixel points of the target video can be acquired. The locus information corresponding to each of all the pixel points of the target video is referred to as locus information associated with the target video.

また、例えば、アプリケーションサーバは、該ターゲットビデオに対して前処理を行う際に、該ターゲットビデオにおける画素点A(例えば、該画素点Aは、該ターゲットビデオにおける全ての画素点のうちの1つであってもよい)に対応する軌跡情報を予め算出してもよく、該画素点Aに対応する軌跡情報には、該画素点Aの、該ターゲットビデオの各ビデオフレーム(即ち、上記ビデオフレームa、ビデオフレームb、ビデオフレームc、ビデオフレームd、ビデオフレームe、ビデオフレームf)における位置情報が含まれる場合、ターゲットユーザ端末におけるターゲット画素点に対応するキービデオフレームが、該ターゲットビデオのビデオフレームcであれば、さらに、該ビデオフレームcにおけるターゲットオブジェクトにおける画素点Aをターゲット画素点としてもよく、さらに、該ターゲット画素点が画素点Aである場合、アプリケーションサーバにおいて該画素点Aの軌跡情報を選別してもよく、さらに、選別したこの画素点Aの軌跡情報に基づいて、該画素点Aの、該キービデオフレームの後の各ビデオフレーム(即ち、ビデオフレームd、ビデオフレームe、ビデオフレームf)における位置情報を取得することができる。 Further, for example, when the application server performs preprocessing on the target video, the pixel point A in the target video (for example, the pixel point A is one of all the pixel points in the target video). The locus information corresponding to the pixel point A may be calculated in advance, and the locus information corresponding to the pixel point A includes each video frame of the target video of the pixel point A (that is, the video frame). When the position information in a, the video frame b, the video frame c, the video frame d, the video frame e, and the video frame f) is included, the key video frame corresponding to the target pixel point in the target user terminal is the video of the target video. If it is the frame c, the pixel point A in the target object in the video frame c may be further set as the target pixel point, and further, when the target pixel point is the pixel point A, the locus of the pixel point A in the application server. Information may be selected, and further, based on the selected locus information of the pixel point A, each video frame of the pixel point A after the key video frame (that is, video frame d, video frame e, The position information in the video frame f) can be acquired.

本願の実施例では、キービデオフレームが該ターゲットビデオにおける最初のビデオフレームである場合、ターゲットユーザ端末が取得したターゲット軌跡情報は、予め算出された軌跡情報であってもよい。例えば、前述したキービデオフレームがターゲットビデオにおけるビデオフレームa(最初のビデオフレーム)である場合を例にすると、該ターゲットユーザ端末が取得したターゲット軌跡情報は、該ターゲット画素点の、上記ビデオフレームa、ビデオフレームb、ビデオフレームc、ビデオフレームd、ビデオフレームe、ビデオフレームfにおける位置情報を含んでもよい。任意選択的に、キービデオフレームが該ターゲットビデオにおける非最初のビデオフレームである場合、ターゲットユーザ端末が取得したターゲット軌跡情報は、予め算出された軌跡情報の中から決定された部分位置情報からなる軌跡情報であってもよい。例えば、前述したキービデオフレームがターゲットビデオにおけるビデオフレームc(即ち、非最初のビデオフレーム)である場合を例にすると、該ターゲットユーザ端末が取得したターゲット軌跡情報は、該ターゲット画素点の、ビデオフレームd、ビデオフレームe、ビデオフレームfにおける位置情報を含んでもよく、ターゲット画素点の、ビデオフレームd、ビデオフレームe、ビデオフレームfにおける位置情報を部分位置情報と呼ぶことができる。 In the embodiment of the present application, when the key video frame is the first video frame in the target video, the target locus information acquired by the target user terminal may be the locus information calculated in advance. For example, in the case where the key video frame described above is the video frame a (first video frame) in the target video, the target locus information acquired by the target user terminal is the video frame a at the target pixel point. , The video frame b, the video frame c, the video frame d, the video frame e, and the position information in the video frame f may be included. Optionally, when the key video frame is the non-first video frame in the target video, the target locus information acquired by the target user terminal consists of partial position information determined from the previously calculated locus information. It may be trajectory information. For example, in the case where the key video frame described above is the video frame c (that is, the non-first video frame) in the target video, the target locus information acquired by the target user terminal is the video of the target pixel point. The position information in the frame d, the video frame e, and the video frame f may be included, and the position information in the video frame d, the video frame e, and the video frame f of the target pixel point can be referred to as partial position information.

理解できるように、任意選択的に、該ターゲットユーザ端末は、該アプリケーションサーバによって検索された、該ターゲット画素点のキービデオフレームにおける位置情報を含む軌跡情報(即ち、上記画素点Aに対応する軌跡情報)を、ターゲット軌跡情報と総称することもできる。この場合、該ターゲット軌跡情報は、該ターゲットビデオの全ての画素点の中から検索された、ターゲット画素点にマッチングする画素点Aに対応する軌跡情報と見なすことができる。該軌跡情報は、該画素点Aの、該ターゲットビデオの各ビデオフレームにおける位置情報を含むことができるので、当然、該軌跡情報の中から、該ターゲット画素点の、該キービデオの後の各ビデオフレームにおける位置情報を迅速に取得することもできる。 As can be understood, optionally, the target user terminal has a locus information including position information in a key video frame of the target pixel point searched by the application server (that is, a locus corresponding to the pixel point A). Information) can also be collectively referred to as target trajectory information. In this case, the target locus information can be regarded as locus information corresponding to the pixel point A matching the target pixel point, which is searched from all the pixel points of the target video. Since the locus information can include the position information of the pixel point A in each video frame of the target video, naturally, from the locus information, each of the target pixel points after the key video. It is also possible to quickly acquire the position information in the video frame.

ステップS209で、前記キービデオフレームの次のビデオフレームを再生する際に、前記ターゲット軌跡情報における、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報に基づいて、前記マルチメディア情報を表示する。 In step S209, when the video frame next to the key video frame is played back, the multimedia is based on the position information of the target pixel point in the video frame next to the key video frame in the target locus information. Display information.

ここで、理解できるように、本願の実施例では、ターゲットユーザによって選択されたターゲットオブジェクトにおけるターゲット画素点を取得すると、予め算出された、全ての画素点のそれぞれに対応するこれらの軌跡情報の中から、該キービデオフレームにおけるターゲット画素点の位置情報に関連付けられた軌跡情報を選別することができ、さらに、選別した軌跡情報をターゲット軌跡情報と呼ぶことができる。本願の実施例では、該ビデオの各ビデオフレームにおける画素点の画素追跡を予め行うことができるので、各画像ペアそれぞれにおける第1ビデオフレームに対応する平均変位行列を取得すると、該ビデオにおける各画素点の、対応するビデオフレームにおける位置情報を迅速に取得することができる。理解すべきものとして、予め算出された、各画素点の、対応するビデオフレームにおける位置情報は、現在ビデオ再生インタフェースで再生されている該ビデオにおける各画素点の、対応するビデオフレームにおける位置情報を表すために用いることができる。したがって、ターゲットユーザ端末は、ターゲットオブジェクトにおけるターゲット画素点、及びターゲットオブジェクトに関連付けられたマルチメディア情報を取得すると、全ての画素点のそれぞれに対応する軌跡情報の中から選別された、該ターゲット画素点に対応する軌跡情報を迅速にターゲット軌跡情報と呼ぶことができ、さらに、該ターゲット軌跡情報をターゲットユーザ端末に返信することができる。これにより、該ターゲットユーザ端末は、該ターゲット軌跡情報に付されている、該ターゲット画素点の、キービデオフレームの後の各ビデオフレームにおける位置情報に基づいて、該ターゲットオブジェクトに関連付けられたマルチメディア情報(例えば、弾幕データ)を追跡して表示することができる。 Here, as can be understood, in the embodiment of the present application, when the target pixel points in the target object selected by the target user are acquired, the locus information corresponding to each of all the pixel points calculated in advance is included. Therefore, the locus information associated with the position information of the target pixel point in the key video frame can be selected, and the selected locus information can be called the target locus information. In the embodiment of the present application, pixel tracking of pixel points in each video frame of the video can be performed in advance. Therefore, when the average displacement matrix corresponding to the first video frame in each image pair is acquired, each pixel in the video is obtained. The position information of the point in the corresponding video frame can be quickly acquired. It should be understood that the pre-calculated position information of each pixel point in the corresponding video frame represents the position information of each pixel point in the video currently being played on the video playback interface in the corresponding video frame. Can be used for Therefore, when the target user terminal acquires the target pixel point in the target object and the multimedia information associated with the target object, the target pixel point is selected from the locus information corresponding to each of the target pixel points. The locus information corresponding to the above can be quickly called the target locus information, and the target locus information can be returned to the target user terminal. As a result, the target user terminal is attached to the target locus information, and the multimedia associated with the target object is based on the position information of the target pixel point in each video frame after the key video frame. Information (eg, barrage data) can be tracked and displayed.

理解できるように、該ターゲット画素点の、該キービデオフレームの後の連続する複数のビデオフレームにおける位置情報によって形成された軌跡が円である場合、該弾幕データは、該ターゲットユーザ端末において、この軌跡に従って回転しながら表示されることができる。 As can be understood, when the locus formed by the position information of the target pixel point in a plurality of consecutive video frames after the key video frame is a circle, the barrage data is obtained in the target user terminal. It can be displayed while rotating according to the trajectory.

理解を容易にするために、本願の実施例で提供される軌跡情報に基づく弾幕データの表示の模式図である図10を参照されたい。図10に示すようなビデオフレーム100は、複数のオブジェクトを含んでもよく、例えば、図10に示すオブジェクト1、オブジェクト2、及びオブジェクト3を含んでもよい。ターゲットユーザがターゲットユーザ端末で図10に示すオブジェクト1をターゲットオブジェクトとした場合、該ビデオフレーム100をキービデオフレームと呼ぶことができ、該ターゲットオブジェクトにおける、該ターゲットユーザによるトリガ操作に対応する画素点をターゲット画素点と呼ぶことができる。該ターゲットユーザ端末が、強い計算性能を有する場合、該ターゲットユーザ端末で、該ターゲットビデオにおける各画素点の各ビデオフレームにおける位置情報を予め算出してもよい。これにより、該ターゲットユーザ端末において、該ターゲットビデオに関連付けられた軌跡情報を取得することができる。例えば、図10に示す軌跡情報1は、予め算出されたものとして取得することができ、即ち、該軌跡情報1における位置情報は、いずれも、該ターゲットビデオにおける画素点の、該ターゲットビデオの各ビデオフレームにおける位置情報によって決定されたものである。したがって、該ターゲットユーザ端末は、該オブジェクト1におけるターゲット画素点の位置情報に基づいて、図10に示す軌跡情報1を迅速にターゲット軌跡情報と見なすことができ、該軌跡情報1における、オブジェクト1の、該キービデオフレームの後の各ビデオフレーム(即ち、図10に示すビデオフレーム200及びビデオフレーム300)における位置情報に基づいて、該ターゲットオブジェクト(即ち、オブジェクト1)に関連付けられたマルチメディア情報(即ち、図10に示す弾幕データ1「BBBBB」)を迅速に追跡して表示することができる。即ち、図10に示すビデオフレーム200及びビデオフレーム300に表示されている弾幕データは、いずれも、図10に示す軌跡情報1における位置情報によって決定されたものである。 For ease of understanding, see FIG. 10, which is a schematic diagram of the barrage data display based on the trajectory information provided in the embodiments of the present application. The video frame 100 as shown in FIG. 10 may include a plurality of objects, and may include, for example, the object 1, the object 2, and the object 3 shown in FIG. When the target user uses the object 1 shown in FIG. 10 as the target object on the target user terminal, the video frame 100 can be called a key video frame, and the pixel points corresponding to the trigger operation by the target user in the target object. Can be called a target pixel point. When the target user terminal has strong calculation performance, the target user terminal may pre-calculate the position information in each video frame of each pixel point in the target video. As a result, the locus information associated with the target video can be acquired in the target user terminal. For example, the locus information 1 shown in FIG. 10 can be acquired as calculated in advance, that is, the position information in the locus information 1 is each of the pixel points in the target video of the target video. It is determined by the position information in the video frame. Therefore, the target user terminal can quickly consider the locus information 1 shown in FIG. 10 as the target locus information based on the position information of the target pixel point in the object 1, and the object 1 in the locus information 1 can be regarded as the target locus information 1. , Multimedia information associated with the target object (ie, object 1) based on position information in each video frame after the key video frame (ie, video frame 200 and video frame 300 shown in FIG. 10). That is, the bullet data 1 “BBBBBB”) shown in FIG. 10 can be quickly tracked and displayed. That is, the barrage data displayed on the video frame 200 and the video frame 300 shown in FIG. 10 are both determined by the position information in the locus information 1 shown in FIG.

理解できるように、図10に示すターゲットビデオに関連付けられた軌跡情報は、上述したアプリケーションサーバによって予め算出されたものであってもよい。これにより、アプリケーションサーバが、上記したオブジェクト1におけるターゲット画素点に対する軌跡取得要求を受信した場合にも、図10に示すターゲットビデオに関連付けられた軌跡情報の中から、該キービデオフレームにおけるターゲット画素点の位置情報に関連付けられた軌跡情報を迅速に取得することができる。即ち、ターゲットビデオにおける全ての画素点の全画素追跡をアプリケーションサーバで実行することにより、ターゲットユーザ端末の計算量を効果的に削減することができるので、ターゲットユーザ端末が、図10に示す軌跡情報1を取得すると、該軌跡情報1における位置情報に基づいて、図10に示す弾幕データ1を迅速に追跡して表示できることを確保することができ、弾幕データの表示の柔軟性を向上させることができる。理解すべきものとして、ビデオ再生インタフェースには、該ターゲットオブジェクトに関連付けられた複数の弾幕が存在することができるが、ターゲットユーザ端末は、該ビデオ再生インタフェースに存在する複数の弾幕に重なりがあることを検出した場合、重なりがあるこれらの弾幕をマージして、重なりがあるこれらの弾幕のうち、該ターゲットユーザ端末が最新に取得した弾幕を保持してもよい。 As can be understood, the locus information associated with the target video shown in FIG. 10 may be pre-calculated by the application server described above. As a result, even when the application server receives the locus acquisition request for the target pixel point in the object 1 described above, the target pixel point in the key video frame is selected from the locus information associated with the target video shown in FIG. It is possible to quickly acquire the trajectory information associated with the position information of. That is, by executing all pixel tracking of all pixel points in the target video on the application server, the amount of calculation of the target user terminal can be effectively reduced, so that the target user terminal has the locus information shown in FIG. When 1 is acquired, it is possible to ensure that the barrage data 1 shown in FIG. 10 can be quickly tracked and displayed based on the position information in the trajectory information 1, and the flexibility of displaying the barrage data can be improved. can. It should be understood that the video playback interface may have multiple barrages associated with the target object, but the target user terminal may overlap the multiple barrages present in the video playback interface. If detected, these barrages with overlap may be merged to retain the barrage most recently acquired by the target user terminal among these barrages with overlap.

本願の実施例では、ターゲットビデオに対するターゲットユーザのトリガ操作が取得されると、該ターゲットビデオにおける、該トリガ操作に対応するビデオフレームをキービデオフレームと呼ぶことができる。これにより、該キービデオフレームからターゲット画素点を決定し、該ターゲット画素点及び該ターゲット画素点が位置するターゲットオブジェクトに関連付けられたマルチメディア情報(例えば、該マルチメディア情報は、該ターゲットビデオにおけるユーザ文字、ピクチャ、表情などの弾幕データであってもよい)を取得することができる。さらに、ターゲット画素点の該キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定する。さらに、該軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得することができる。これにより、該キービデオフレームの次のビデオフレームを再生する際に、該ターゲット軌跡情報に基づいて、該ターゲット画素点及び該ターゲット画素点が位置するターゲットオブジェクトに関連付けられた弾幕データを表示することができる。ここから分かるように、本願の実施例では、キービデオフレームが決定されると、さらに、該キービデオフレームにおける全ての画素点の軌跡情報の中から、ターゲット画素点の軌跡情報を選別し、選別したターゲット画素点の軌跡情報をターゲット軌跡情報と呼ぶことができる。これにより、取得されたターゲット軌跡情報に基づいて、弾幕データの展示効果を豊かにすることができる。例えば、異なるターゲットオブジェクトにおけるターゲット画素点について、取得されるターゲット軌跡情報が異なる可能性があり、その結果、弾幕データの展示効果が異なる。また、ターゲットオブジェクトと弾幕データとの関連関係に基づいて、該弾幕データの、該キービデオフレームの後の各ビデオフレームにおける位置情報を迅速に決定することができる。換言すれば、該弾幕データは、該ターゲットビデオにおいてずっと該ターゲットオブジェクトに従って変動し、さらに、ビデオにおけるユーザ文字の視覚的な展示効果を豊かにすることができ、弾幕データと、ターゲットオブジェクト、又はコメント対象のビデオにおけるオブジェクトとの関連性をより強くすることができる。 In the embodiment of the present application, when the target user's trigger operation for the target video is acquired, the video frame corresponding to the trigger operation in the target video can be called a key video frame. Thereby, the target pixel point is determined from the key video frame, and the multimedia information associated with the target pixel point and the target object in which the target pixel point is located (for example, the multimedia information is the user in the target video). It may be multimedia data such as characters, pictures, and facial expressions). Further, the locus acquisition request corresponding to the target pixel point is determined based on the position information of the target pixel point in the key video frame. Further, based on the locus acquisition request, the target locus information associated with the position information of the target pixel point in the key video frame can be acquired. Thereby, when playing the next video frame of the key video frame, the barrage data associated with the target pixel point and the target object in which the target pixel point is located is displayed based on the target locus information. Can be done. As can be seen from this, in the embodiment of the present application, when the key video frame is determined, the locus information of the target pixel point is further selected and selected from the locus information of all the pixel points in the key video frame. The locus information of the target pixel point can be called the target locus information. As a result, the barrage data display effect can be enriched based on the acquired target trajectory information. For example, the acquired target trajectory information may be different for the target pixel points in different target objects, and as a result, the barrage data display effect is different. Further, based on the relationship between the target object and the barrage data, the position information of the barrage data in each video frame after the key video frame can be quickly determined. In other words, the barrage data can fluctuate according to the target object throughout the target video, and can further enhance the visual display effect of the user characters in the video, with the barrage data and the target object, or comment. It can be more relevant to the object in the target video.

さらに、本願の実施例で提供されるビデオデータ処理装置の構成の模式図である図11を参照されたい。図11に示すように、該ビデオデータ処理装置1は、上記図1に対応する実施例におけるターゲットユーザ端末に適用できる。該ビデオデータ処理装置1は、オブジェクト決定モジュール1101と、要求決定モジュール1102と、軌跡取得モジュール1103と、テキスト表示モジュール1104と、を含んでもよい。 Further, refer to FIG. 11, which is a schematic diagram of the configuration of the video data processing apparatus provided in the embodiment of the present application. As shown in FIG. 11, the video data processing device 1 can be applied to the target user terminal in the embodiment corresponding to the above FIG. The video data processing device 1 may include an object determination module 1101, a request determination module 1102, a locus acquisition module 1103, and a text display module 1104.

オブジェクト決定モジュール1101は、ターゲットビデオに対するトリガ操作に応答して、前記ターゲットビデオのキービデオフレームからターゲット画素点を決定し、前記ターゲット画素点に関連付けられたマルチメディア情報を取得し、前記キービデオフレームは、前記トリガ操作が位置するビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける、前記トリガ操作に対応する画素点である。 The object determination module 1101 determines the target pixel point from the key video frame of the target video in response to the trigger operation for the target video, acquires the multimedia information associated with the target pixel point, and obtains the multimedia information associated with the target pixel point. Is a video frame in which the trigger operation is located, and the target pixel point is a pixel point corresponding to the trigger operation in the key video frame.

要求決定モジュール1102は、前記ターゲット画素点の前記キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定する。 The request determination module 1102 determines a locus acquisition request corresponding to the target pixel point based on the position information of the target pixel point in the key video frame.

軌跡取得モジュール1103は、前記軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得し、前記ターゲット軌跡情報は、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報を含み、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報は、前記ターゲット画素点を追跡することにより取得されたものである。 The locus acquisition module 1103 acquires the target locus information associated with the position information of the target pixel point in the key video frame based on the locus acquisition request, and the target locus information is the target pixel point of the target pixel point. The position information of the target pixel point in the video frame next to the key video frame, including the position information in the video frame next to the key video frame, is obtained by tracking the target pixel point.

テキスト表示モジュール1104は、前記キービデオフレームの次のビデオフレームを再生する際に、前記ターゲット軌跡情報における、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報に基づいて、前記マルチメディア情報を表示する。 When the text display module 1104 reproduces the video frame next to the key video frame, the text display module 1104 is based on the position information of the target pixel point in the video frame next to the key video frame in the target locus information. Display multimedia information.

ここで、オブジェクト決定モジュール1101、要求決定モジュール1102、軌跡取得モジュール1103、テキスト表示モジュール1104の具体的な実行方式については、上記図4に対応する実施例におけるステップS101~ステップS104の説明を参照すればよいが、ここではこれ以上の説明を省略する。 Here, for the specific execution method of the object determination module 1101, the request determination module 1102, the locus acquisition module 1103, and the text display module 1104, refer to the description of steps S101 to S104 in the embodiment corresponding to FIG. However, further description will be omitted here.

本願の実施例では、ターゲットビデオに対するターゲットユーザのトリガ操作が取得されると、該ターゲットビデオにおける、該トリガ操作に対応するビデオフレームをキービデオフレームとすることができる。これにより、該キービデオフレームからターゲット画素点を決定し、該ターゲット画素点及び該ターゲット画素点が位置するターゲットオブジェクトに関連付けられたマルチメディア情報(例えば、該マルチメディア情報は、該ターゲットビデオにおけるユーザ文字、ピクチャ、表情などの弾幕データであってもよい)を取得することができる。さらに、ターゲット画素点の該キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定する。さらに、該軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得することができる。これにより、該キービデオフレームの次のビデオフレームを再生する際に、該ターゲット軌跡情報に基づいて、該ターゲット画素点及び該ターゲット画素点が位置するターゲットオブジェクトに関連付けられた弾幕データを表示することができる。ここから分かるように、本願の実施例では、キービデオフレームが決定されると、さらに、該キービデオフレームにおける全ての画素点の軌跡情報の中から、ターゲット画素点の軌跡情報を選別し、選別したターゲット画素点の軌跡情報をターゲット軌跡情報とすることができる。これにより、取得されたターゲット軌跡情報に基づいて、弾幕データの展示効果を豊かにすることができる。例えば、異なるターゲットオブジェクトにおけるターゲット画素点について、取得されるターゲット軌跡情報が異なる可能性があり、その結果、弾幕データの展示効果が異なる。また、ターゲットオブジェクトと弾幕データとの関連関係に基づいて、該弾幕データの、該キービデオフレームの後の各ビデオフレームにおける位置情報を迅速に決定することができる。換言すれば、該弾幕データは、該ターゲットビデオにおいてずっと該ターゲットオブジェクトに従って変動し、さらに、ビデオにおけるユーザ文字の視覚的な展示効果を豊かにすることができ、弾幕データと、ターゲットオブジェクト、又はコメント対象のビデオにおけるオブジェクトとの関連性をより強くすることができる。 In the embodiment of the present application, when the target user's trigger operation for the target video is acquired, the video frame corresponding to the trigger operation in the target video can be used as a key video frame. Thereby, the target pixel point is determined from the key video frame, and the multimedia information associated with the target pixel point and the target object in which the target pixel point is located (for example, the multimedia information is the user in the target video). It may be multimedia data such as characters, pictures, and facial expressions). Further, the locus acquisition request corresponding to the target pixel point is determined based on the position information of the target pixel point in the key video frame. Further, based on the locus acquisition request, the target locus information associated with the position information of the target pixel point in the key video frame can be acquired. Thereby, when playing the next video frame of the key video frame, the barrage data associated with the target pixel point and the target object in which the target pixel point is located is displayed based on the target locus information. Can be done. As can be seen from this, in the embodiment of the present application, when the key video frame is determined, the locus information of the target pixel point is further selected and selected from the locus information of all the pixel points in the key video frame. The locus information of the target pixel point can be used as the target locus information. As a result, the barrage data display effect can be enriched based on the acquired target trajectory information. For example, the acquired target trajectory information may be different for the target pixel points in different target objects, and as a result, the barrage data display effect is different. Further, based on the relationship between the target object and the barrage data, the position information of the barrage data in each video frame after the key video frame can be quickly determined. In other words, the barrage data can fluctuate according to the target object throughout the target video, and can further enhance the visual display effect of the user characters in the video, with the barrage data and the target object, or comment. It can be more relevant to the object in the target video.

さらに、本願の実施例で提供されるコンピュータ機器の構成の模式図である図12を参照されたい。図12に示すように、コンピュータ機器1000は、上記図1に対応する実施例におけるターゲットユーザ端末であってもよい。上記コンピュータ機器1000は、プロセッサ1001と、ネットワークインタフェース1004と、メモリ1005と、を含んでもよい。また、上記コンピュータ機器1000は、ユーザインタフェース1003と、少なくとも1つの通信バス1002と、を含んでもよい。ここで、通信バス1002は、これらのコンポーネント間の接続通信を実現するためのものである。ここで、ユーザインタフェース1003は、ディスプレイ(Display)、キーボード(Keyboard)を含んでもよい。任意選択的なユーザインタフェース1003は、標準的な有線インタフェース、無線インタフェースを含んでもよい。ネットワークインタフェース1004は、任意選択的に、標準的な有線インタフェース、無線インタフェース(例えば、Wi-Fiインタフェース)を含んでもよい。メモリ1004は、高速RAMであってもよく、不揮発性メモリ(non-volatile memory)、例えば、少なくとも1つの磁気ディスクメモリであってもよい。メモリ1005は、任意選択的に、前述のプロセッサ1001から離れた位置にある少なくとも1つの記憶装置であってもよい。図12に示すように、コンピュータ記憶媒体であるメモリ1005には、オペレーティングシステム、ネットワーク通信モジュール、ユーザインタフェースモジュール、及び機器制御アプリケーションが含まれてもよい。 Further, see FIG. 12, which is a schematic diagram of the configuration of the computer equipment provided in the embodiments of the present application. As shown in FIG. 12, the computer device 1000 may be the target user terminal in the embodiment corresponding to FIG. 1 above. The computer device 1000 may include a processor 1001, a network interface 1004, and a memory 1005. Further, the computer device 1000 may include a user interface 1003 and at least one communication bus 1002. Here, the communication bus 1002 is for realizing connection communication between these components. Here, the user interface 1003 may include a display (Display) and a keyboard (Keyboard). The optional user interface 1003 may include standard wired and wireless interfaces. The network interface 1004 may optionally include standard wired and wireless interfaces (eg, Wi-Fi interfaces). The memory 1004 may be a high-speed RAM or a non-volatile memory, for example, at least one magnetic disk memory. The memory 1005 may optionally be at least one storage device located away from the processor 1001 described above. As shown in FIG. 12, the memory 1005, which is a computer storage medium, may include an operating system, a network communication module, a user interface module, and a device control application.

図12に示すコンピュータ機器1000では、ネットワークインタフェース1004は、ネットワーク通信機能を提供することができ、ユーザインタフェース1003は、主にユーザに入力用のインタフェースを提供し、プロセッサ1001は、メモリ1005に記憶された機器制御アプリケーションを呼び出すことにより、
ターゲットビデオに対するトリガ操作に応答して、前記ターゲットビデオのキービデオフレームからターゲット画素点を決定し、前記ターゲット画素点に関連付けられたマルチメディア情報を取得するステップであって、前記キービデオフレームは、前記トリガ操作が位置するビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける、前記トリガ操作に対応する画素点である、ステップと、
前記ターゲット画素点の前記キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定するステップと、
前記軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得するステップであって、前記ターゲット軌跡情報は、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報を含み、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報は、前記ターゲット画素点を追跡することにより取得されたものである、ステップと、
前記キービデオフレームの次のビデオフレームを再生する際に、前記ターゲット軌跡情報における、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報に基づいて、前記マルチメディア情報を表示するステップと、
を実現するために用いることができる。
In the computer device 1000 shown in FIG. 12, the network interface 1004 can provide a network communication function, the user interface 1003 mainly provides an interface for input to the user, and the processor 1001 is stored in the memory 1005. By calling the device control application
A step of determining a target pixel point from a key video frame of the target video in response to a trigger operation on the target video and acquiring multimedia information associated with the target pixel point, wherein the key video frame is a step. A step and a step, which is a video frame in which the trigger operation is located, and the target pixel point is a pixel point corresponding to the trigger operation in the key video frame.
A step of determining a locus acquisition request corresponding to the target pixel point based on the position information of the target pixel point in the key video frame, and
The step of acquiring the target locus information associated with the position information of the target pixel point in the key video frame based on the locus acquisition request, wherein the target locus information is the key video of the target pixel point. The position information of the target pixel point in the next video frame of the key video frame, including the position information in the video frame next to the frame, is obtained by tracking the target pixel point. ,
When playing back the video frame next to the key video frame, the multimedia information is displayed based on the position information of the target pixel point in the video frame next to the key video frame in the target locus information. Steps and
Can be used to realize.

理解すべきものとして、本願の実施例で説明されたコンピュータ機器1000は、上記図4に対応する実施例における上記ビデオデータ処理方法の説明に従って実行してもよく、上記図11に対応する実施例における上記ビデオデータ処理装置1の説明に従って実行してもよいが、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。 As should be understood, the computer device 1000 described in the embodiment of the present application may be executed according to the description of the video data processing method in the embodiment corresponding to FIG. 4, and in the embodiment corresponding to FIG. 11 It may be executed according to the above description of the video data processing device 1, but further description thereof will be omitted here. Further, further description of the beneficial effect when the same method is used will be omitted.

また、ここで指摘すべきものとして、本願の実施例では、コンピュータ記憶媒体がさらに提供されており、上記コンピュータ記憶媒体には、上記で言及されたビデオデータ処理装置1が実行するコンピュータプログラムが記憶され、上記コンピュータプログラムは、プログラム命令を含み、上記プロセッサは、上記プログラム命令を実行すると、上記図4に対応する実施例における上記ビデオデータ処理方法の説明に従って実行できるので、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。本願に係るコンピュータ記憶媒体の実施例に披露されていない技術的詳細については、本願の方法の実施例の説明を参照されたい。 Further, it should be pointed out here that, in the embodiment of the present application, a computer storage medium is further provided, and the computer storage medium stores a computer program executed by the video data processing device 1 mentioned above. The computer program includes a program instruction, and the processor can execute the program instruction according to the description of the video data processing method in the embodiment corresponding to FIG. 4, and further the description thereof will be described here. Omit. Further, further description of the beneficial effect when the same method is used will be omitted. For technical details not shown in the examples of computer storage media according to the present application, refer to the description of the examples of the method of the present application.

さらに、本願の実施例で提供される別のビデオデータ処理装置の構成の模式図である図13を参照されたい。図13に示すように、該ビデオデータ処理装置2は、上記図8に対応する実施例におけるアプリケーションサーバに適用でき、該アプリケーションサーバは、上記図1に対応する実施例におけるサービスサーバ2000であってもよい。該ビデオデータ処理装置2は、要求応答モジュール1301と、軌跡選別モジュール1302と、を含んでもよい。 Further, see FIG. 13, which is a schematic diagram of the configuration of another video data processing apparatus provided in the embodiments of the present application. As shown in FIG. 13, the video data processing device 2 can be applied to the application server in the embodiment corresponding to FIG. 8, and the application server is the service server 2000 in the embodiment corresponding to FIG. May be good. The video data processing device 2 may include a request response module 1301 and a locus selection module 1302.

要求応答モジュール1301は、キービデオフレームにおけるターゲット画素点に対する軌跡取得要求に応答して、ターゲットビデオに関連付けられた軌跡情報を取得し、前記キービデオフレームは、前記ターゲットビデオにおけるビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける画素点であり、前記軌跡情報は、前記ターゲットビデオの各ビデオフレームにおける画素点の位置情報によって決定されたものである。 The request response module 1301 acquires the locus information associated with the target video in response to the locus acquisition request for the target pixel point in the key video frame, and the key video frame is a video frame in the target video. The target pixel point is a pixel point in the key video frame, and the locus information is determined by the position information of the pixel point in each video frame of the target video.

軌跡選別モジュール1302は、前記ターゲットビデオに関連付けられた軌跡情報の中から、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を選別し、前記ターゲット軌跡情報を返信し、前記ターゲット軌跡情報は、ターゲット位置情報を含み、前記ターゲット位置情報は、前記キービデオフレームの次のビデオフレームにおいて、前記ターゲット画素点に関連付けられたマルチメディア情報を表示することをトリガするためのものである。 The locus selection module 1302 selects the target locus information associated with the position information of the target pixel point in the key video frame from the locus information associated with the target video, and returns the target locus information. The target locus information includes target position information, and the target position information is for triggering display of multimedia information associated with the target pixel point in the next video frame of the key video frame. Is.

ここで、要求応答モジュール1301及び軌跡選別モジュール1302の具体的な実現方式については、上記図8に対応する実施例におけるステップS207及びステップS208の説明を参照すればよいが、ここではこれ以上の説明を省略する。 Here, for the specific implementation method of the request response module 1301 and the locus selection module 1302, the description of steps S207 and S208 in the embodiment corresponding to FIG. 8 may be referred to, but further description is given here. Is omitted.

さらに、本願の実施例で提供される別のコンピュータ機器の構成の模式図である図14を参照されたい。図14に示すように、コンピュータ機器2000は、上記図1に対応する実施例におけるターゲットサービスサーバ2000であってもよい。上記コンピュータ機器2000は、プロセッサ2001と、ネットワークインタフェース2004と、メモリ2005と、を含んでもよい。さらに、上記コンピュータ機器2000は、ユーザインタフェース2003と、少なくとも1つの通信バス2002と、を含んでもよい。ここで、通信バス2002は、これらのコンポーネント間の接続通信を実現するためのものである。ここで、ユーザインタフェース2003は、ディスプレイ(Display)、キーボード(Keyboard)を含んでもよく、任意選択的なユーザインタフェース2003は、標準的な有線インタフェース、無線インタフェースを含んでもよい。ネットワークインタフェース2004は、任意選択的に、標準的な有線インタフェース、無線インタフェース(例えば、Wi-Fiインタフェース)を含んでもよい。メモリ2004は、高速RAMであってもよく、不揮発性メモリ(non-volatile memory)、例えば、少なくとも1つの磁気ディスクメモリであってもよい。メモリ2005は、任意選択的に、前述のプロセッサ2001から離れた位置にある少なくとも1つの記憶装置であってもよい。図14に示すように、コンピュータ記憶媒体であるメモリ2005には、オペレーティングシステム、ネットワーク通信モジュール、ユーザインタフェースモジュール、及び機器制御アプリケーションが含まれてもよい。 Further, see FIG. 14, which is a schematic diagram of the configuration of another computer device provided in the embodiments of the present application. As shown in FIG. 14, the computer device 2000 may be the target service server 2000 in the embodiment corresponding to FIG. 1 above. The computer device 2000 may include a processor 2001, a network interface 2004, and a memory 2005. Further, the computer equipment 2000 may include a user interface 2003 and at least one communication bus 2002. Here, the communication bus 2002 is for realizing connection communication between these components. Here, the user interface 2003 may include a display and a keyboard, and the optional user interface 2003 may include a standard wired interface and a wireless interface. The network interface 2004 may optionally include standard wired and wireless interfaces (eg, Wi-Fi interfaces). The memory 2004 may be a high-speed RAM or a non-volatile memory, for example, at least one magnetic disk memory. The memory 2005 may optionally be at least one storage device located away from the aforementioned processor 2001. As shown in FIG. 14, memory 2005, which is a computer storage medium, may include an operating system, a network communication module, a user interface module, and a device control application.

図14に示すコンピュータ機器2000では、ネットワークインタフェース2004は、ネットワーク通信機能を提供することができ、ユーザインタフェース2003は、主にユーザに入力用のインタフェースを提供し、プロセッサ2001は、メモリ2005に記憶された機器制御アプリケーションを呼び出すことにより、
キービデオフレームにおけるターゲット画素点に対する軌跡取得要求に応答して、ターゲットビデオに関連付けられた軌跡情報を取得するステップであって、前記キービデオフレームは、前記ターゲットビデオにおけるビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける画素点であり、前記軌跡情報は、前記ターゲットビデオの各ビデオフレームにおける画素点の位置情報によって決定されたものである、ステップと、
前記ターゲットビデオに関連付けられた軌跡情報の中から、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を選別し、前記ターゲット軌跡情報を返信するステップであって、前記ターゲット軌跡情報は、ターゲット位置情報を含み、前記ターゲット位置情報は、前記キービデオフレームの次のビデオフレームにおいて、前記ターゲット画素点に関連付けられたマルチメディア情報を表示することをトリガするためのものである、ステップと、
を実現するために用いることができる。
In the computer equipment 2000 shown in FIG. 14, the network interface 2004 can provide a network communication function, the user interface 2003 mainly provides an input interface to the user, and the processor 2001 is stored in the memory 2005. By calling the device control application
A step of acquiring trajectory information associated with a target video in response to a trajectory acquisition request for a target pixel point in a key video frame, wherein the key video frame is a video frame in the target video and the target pixel. The points are the pixel points in the key video frame, and the locus information is determined by the position information of the pixel points in each video frame of the target video.
It is a step of selecting the target locus information associated with the position information of the target pixel point in the key video frame from the locus information associated with the target video, and returning the target locus information. The locus information includes the target position information, and the target position information is for triggering to display the multimedia information associated with the target pixel point in the next video frame of the key video frame. , Steps and
Can be used to realize.

理解すべきものとして、本願の実施例で説明されたコンピュータ機器2000は、上記図8に対応する実施例における上記ビデオデータ処理方法の説明に従って実行してもよく、上記図13に対応する実施例における上記ビデオデータ処理装置2の説明に従って実行してもよいが、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。 As a matter of understanding, the computer equipment 2000 described in the embodiment of the present application may be executed according to the description of the video data processing method in the embodiment corresponding to FIG. 8, and in the embodiment corresponding to FIG. It may be executed according to the above description of the video data processing device 2, but further description thereof will be omitted here. Further, further description of the beneficial effect when the same method is used will be omitted.

また、ここで指摘すべきものとして、本願の実施例では、コンピュータ記憶媒体がさらに提供されており、上記コンピュータ記憶媒体には、上記で言及されたビデオデータ処理装置2が実行するコンピュータプログラムが記憶され、上記コンピュータプログラムは、プログラム命令を含み、上記プロセッサは、上記プログラム命令を実行すると、上記図8に対応する実施例における上記ビデオデータ処理方法の説明に従って実行できるので、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。本願に係るコンピュータ記憶媒体の実施例に披露されていない技術的詳細については、本願の方法の実施例の説明を参照されたい。 Further, it should be pointed out here that, in the embodiment of the present application, a computer storage medium is further provided, and the computer storage medium stores a computer program executed by the video data processing device 2 mentioned above. The computer program includes a program instruction, and the processor can execute the program instruction according to the description of the video data processing method in the embodiment corresponding to FIG. 8, and further the description thereof will be described here. Omit. Further, further description of the beneficial effect when the same method is used will be omitted. For technical details not shown in the examples of computer storage media according to the present application, refer to the description of the examples of the method of the present application.

さらに、本願の実施例で提供される別のビデオデータ処理装置の構成の模式図である図15を参照されたい。図15に示すように、該ビデオデータ処理装置3は、上記図1に対応する実施例におけるサービスサーバ2000に適用してもよいし、上記図1に対応する実施例におけるターゲットユーザ端末に適用してもよい。該ビデオデータ処理装置3は、第1取得モジュール310と、行列取得モジュール410と、位置追跡モジュール510と、軌跡生成モジュール610とを含んでもよい。 Further, see FIG. 15, which is a schematic diagram of the configuration of another video data processing apparatus provided in the embodiments of the present application. As shown in FIG. 15, the video data processing device 3 may be applied to the service server 2000 in the embodiment corresponding to FIG. 1, or may be applied to the target user terminal in the embodiment corresponding to FIG. You may. The video data processing device 3 may include a first acquisition module 310, a matrix acquisition module 410, a position tracking module 510, and a locus generation module 610.

第1取得モジュール310は、ターゲットビデオから、隣接する第1ビデオフレーム及び第2ビデオフレームを取得する。 The first acquisition module 310 acquires the adjacent first video frame and second video frame from the target video.

行列取得モジュール410は、前記ターゲットビデオに対応するオプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点と、前記第2ビデオフレームにおける画素点とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定する。 The matrix acquisition module 410 is based on the optical flow tracking rule corresponding to the target video, the pixel points in the first video frame, and the pixel points in the second video frame, and the average corresponding to the first video frame. Determine the displacement matrix.

ここで、前記行列取得モジュール410は、第1決定ユニット4001と、行列決定ユニット4002と、画素点選別ユニット4003と、行列修正ユニット4004と、第2決定ユニット4005とを含んでもよい。 Here, the matrix acquisition module 410 may include a first determination unit 4001, a matrix determination unit 4002, a pixel point selection unit 4003, a matrix correction unit 4004, and a second determination unit 4005.

第1決定ユニット4001は、前記ターゲットビデオに対応するオプティカルフロー追跡規則を取得し、前記第1ビデオフレームにおける画素点の位置情報を第1位置情報として決定し、前記第2ビデオフレームにおける画素点の位置情報を第2位置情報として決定する。 The first determination unit 4001 acquires the optical flow tracking rule corresponding to the target video, determines the position information of the pixel points in the first video frame as the first position information, and determines the position information of the pixel points in the second video frame. The position information is determined as the second position information.

行列決定ユニット4002は、前記オプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点の第1位置情報と、前記第2ビデオフレームにおける画素点の第2位置情報とに基づいて、前記第1ビデオフレームに対応する順方向変位行列を取得し、前記第2ビデオフレームに対応する逆方向変位行列を取得する。 The matrix determination unit 4002 is based on the optical flow tracking rule, the first position information of the pixel points in the first video frame, and the second position information of the pixel points in the second video frame. The forward displacement matrix corresponding to the frame is acquired, and the reverse displacement matrix corresponding to the second video frame is acquired.

ここで、行列決定ユニット4002は、第1追跡サブユニット4021と、第2追跡サブユニット4022と、を含む。 Here, the matrix determination unit 4002 includes a first tracking subunit 4021 and a second tracking subunit 4022.

第1追跡サブユニット4021は、前記第1ビデオフレームにおける画素点の第1位置情報と、前記オプティカルフロー追跡規則とに基づいて、前記第1ビデオフレームにおける画素点を前記第2ビデオフレームに順方向にマッピングし、前記第2ビデオフレームにおいて、マッピングされた第1マッピング点の第2位置情報を決定し、前記画素点の第1位置情報と、前記第1マッピング点の第2位置情報とに基づいて、前記第1ビデオフレームに対応する順方向変位行列を決定する。 The first tracking subsystem 4021 forwards the pixel points in the first video frame to the second video frame based on the first position information of the pixel points in the first video frame and the optical flow tracking rule. In the second video frame, the second position information of the mapped first mapping point is determined, and based on the first position information of the pixel point and the second position information of the first mapping point. The forward displacement matrix corresponding to the first video frame is determined.

第2追跡サブユニット4022は、前記第2ビデオフレームにおける画素点の第2位置情報と、前記オプティカルフロー追跡規則とに基づいて、前記第2ビデオフレームにおける第1マッピング点を前記第1ビデオフレームに逆方向にマッピングし、前記第1ビデオフレームにおいて、マッピングされた第2マッピング点の第3位置情報を決定し、前記第1マッピング点の第2位置情報と、前記第2マッピング点の第3位置情報とに基づいて、前記第2ビデオフレームに対応する逆方向変位行列を決定する。 The second tracking subsystem 4022 uses the first mapping point in the second video frame as the first video frame based on the second position information of the pixel point in the second video frame and the optical flow tracking rule. Mapping in the reverse direction, in the first video frame, the third position information of the mapped second mapping point is determined, the second position information of the first mapping point and the third position of the second mapping point. Based on the information, the reverse displacement matrix corresponding to the second video frame is determined.

ここで、第1追跡サブユニット4021及び第2追跡サブユニット4022の具体的な実現方式については、上記図8に対応する実施例におけるクラウド前方後方オプティカルフロー法の説明を参照すればよいが、ここではこれ以上の説明を省略する。 Here, for the specific implementation method of the first tracking subunit 4021 and the second tracking subunit 4022, the description of the cloud forward / backward optical flow method in the embodiment corresponding to FIG. 8 may be referred to. Then, further explanation will be omitted.

画素点選別ユニット4003は、記第1ビデオフレームにおける画素点の第1位置情報と、前記順方向変位行列と、前記逆方向変位行列とに基づいて、前記画素点のうちターゲット選別条件を満たす画素点を有効画素点として決定する。 The pixel point selection unit 4003 is a pixel that satisfies the target selection condition among the pixel points based on the first position information of the pixel points in the first video frame, the forward displacement matrix, and the reverse displacement matrix. The point is determined as an effective pixel point.

ここで、前記画素点選別ユニット4003は、第1位置決定サブユニット4031と、第2位置決定サブユニット4032と、第3位置決定サブユニット4033と、誤差決定サブユニット4034と、有効選別サブユニット4035と、を含む。 Here, the pixel point sorting unit 4003 includes a first position-fixing subunit 4031, a second position-fixing subunit 4032, a third position-fixing subunit 4033, an error determination subunit 4034, and an effective sorting subunit 4035. And, including.

第1位置決定サブユニット4031は、前記第1ビデオフレームにおける画素点の中から第1画素点を取得し、前記第1ビデオフレームにおいて、前記第1画素点の第1位置情報を決定し、前記順方向変位行列から、前記第1画素点に対応する第1横方向変位及び第1縦方向変位を決定する。 The first position determination subunit 4031 acquires the first pixel point from the pixel points in the first video frame, determines the first position information of the first pixel point in the first video frame, and the said. From the forward displacement matrix, the first lateral displacement and the first longitudinal displacement corresponding to the first pixel point are determined.

第2位置決定サブユニット4032は、前記第1画素点の第1位置情報と、前記第1画素点に対応する第1横方向変位及び第1縦方向変位とに基づいて、前記第1画素点を前記第2ビデオフレームに順方向にマッピングし、前記第2ビデオフレームにおいて、マッピングされた第2画素点の第2位置情報を決定する。 The second position-determining subunit 4032 is based on the first position information of the first pixel point and the first lateral displacement and the first vertical displacement corresponding to the first pixel point, and the first pixel point. Is forward-mapped to the second video frame, and in the second video frame, the second position information of the mapped second pixel point is determined.

第3位置決定サブユニット4033は、前記逆方向変位行列から、前記第2画素点に対応する第2横方向変位及び第2縦方向変位を決定し、前記第2画素点の第2位置情報と、前記第2画素点に対応する第2横方向変位及び第2縦方向変位とに基づいて、前記第2画素点を前記第1ビデオフレームに逆方向にマッピングし、前記第1ビデオフレームにおいて、マッピングされた第3画素点の第3位置情報を決定する。 The third position determination subunit 4033 determines the second lateral displacement and the second longitudinal displacement corresponding to the second pixel point from the reverse displacement matrix, and together with the second position information of the second pixel point. , The second pixel point is mapped in the reverse direction to the first video frame based on the second lateral displacement and the second longitudinal displacement corresponding to the second pixel point, and in the first video frame. The third position information of the mapped third pixel point is determined.

誤差決定サブユニット4034は、前記第1画素点の第1位置情報と、前記第3画素点の第3位置情報とに基づいて、前記第1画素点と前記第3画素点との誤差距離を決定し、前記第1画素点の第1位置情報と、前記第2画素点の第2位置情報とに基づいて、第1画素点を含む画像ブロックと、前記第2画素点を含む画像ブロックとの相関係数を決定する。 The error determination subsystem 4034 determines the error distance between the first pixel point and the third pixel point based on the first position information of the first pixel point and the third position information of the third pixel point. An image block including the first pixel point and an image block including the second pixel point are determined and based on the first position information of the first pixel point and the second position information of the second pixel point. Determine the correlation coefficient of.

有効選別サブユニット4035は、前記画素点のうち、誤差距離が誤差距離閾値未満であり、かつ前記相関係数が相関係数閾値以上である画素点を有効画素点として決定する。 The effective selection subunit 4035 determines, among the pixel points, the pixel points whose error distance is less than the error distance threshold value and whose correlation coefficient is equal to or larger than the correlation coefficient threshold value are defined as effective pixel points.

ここで、第1位置決定サブユニット4031、第2位置決定サブユニット4032、第3位置決定サブユニット4033、誤差決定サブユニット4034、及び有効選別サブユニット4035の具体的な実現方式については、上記図8に対応する実施例における有効画素点を決定する具体的な過程の説明を参照すればよいが、ここではこれ以上の説明を省略する。 Here, the specific implementation method of the first position-fixing subunit 4031, the second position-fixing subunit 4032, the third position-fixing subunit 4033, the error determination subunit 4034, and the effective selection subunit 4035 is shown in the above figure. Although the description of the specific process for determining the effective pixel point in the embodiment corresponding to No. 8 may be referred to, further description thereof will be omitted here.

行列修正ユニット4004は、前記有効画素点に基づいて、前記第1ビデオフレームに対応する初期状態行列及び前記順方向変位行列を修正することにより、前記第1ビデオフレームに対応するターゲット状態行列及びターゲット変位行列を取得する。 The matrix correction unit 4004 corrects the initial state matrix corresponding to the first video frame and the forward displacement matrix based on the effective pixel points, thereby modifying the target state matrix and the target corresponding to the first video frame. Get the displacement matrix.

ここで、前記行列修正ユニット4004は、初期取得サブユニット4041と、数値切替サブユニット4042と、変位設定サブユニット4043とを含む。 Here, the matrix correction unit 4004 includes an initial acquisition subunit 4041, a numerical switching subunit 4042, and a displacement setting subunit 4043.

初期取得サブユニット4041は、第1ビデオフレームに対応する初期状態行列を取得し、前記初期状態行列の各行列要素の状態値は、いずれも第1数値であり、1つの行列要素は、前記画素点のうちの1つに対応する。 The initial acquisition subunit 4041 acquires an initial state matrix corresponding to the first video frame, the state values of each matrix element of the initial state matrix are all first numerical values, and one matrix element is the pixel. Corresponds to one of the points.

数値切替サブユニット4042は、前記初期状態行列において、前記有効画素点に対応する行列要素の状態値を第1数値から第2数値に切り替え、第2数値を含む初期状態行列を、前記第1ビデオフレームに対応するターゲット状態行列として決定する。 The numerical switching subsystem 4042 switches the state value of the matrix element corresponding to the effective pixel point from the first numerical value to the second numerical value in the initial state matrix, and the initial state matrix including the second numerical value is the first video. Determined as the target state matrix corresponding to the frame.

変位設定サブユニット4043は、前記順方向変位行列において、前記残りの画素点に対応する行列要素の変位を前記第1数値に設定し、前記第1数値を含む順方向変位行列をターゲット変位行列として決定し、前記残りの画素点は、前記画素点のうち前記有効画素点以外の画素点である。 In the forward displacement matrix, the displacement setting subsystem 4043 sets the displacement of the matrix element corresponding to the remaining pixel points to the first numerical value, and sets the forward displacement matrix including the first numerical value as the target displacement matrix. The remaining pixel points are determined and are pixel points other than the effective pixel points among the pixel points.

ここで、前記変位設定サブユニット4043は、具体的に、前記順方向変位行列に初期横方向変位行列及び初期縦方向変位行列が含まれる場合、前記初期横方向変位行列において、前記残りの画素点に対応する行列要素の第1横方向変位を前記第1数値に設定し、前記第1数値を含む初期横方向変位を、前記第1ビデオフレームに対応する横方向変位行列として決定する。 Here, the displacement setting subsystem 4043 specifically, when the forward displacement matrix includes the initial lateral displacement matrix and the initial longitudinal displacement matrix, the remaining pixel points in the initial lateral displacement matrix. The first lateral displacement of the matrix element corresponding to is set to the first numerical value, and the initial lateral displacement including the first numerical value is determined as the lateral displacement matrix corresponding to the first video frame.

さらに、前記変位設定サブユニット4043は、具体的に、前記初期縦方向変位行列において、前記残りの画素点に対応する行列要素の第1縦方向変位を前記第1数値に設定し、前記第1数値を含む初期縦方向変位を、前記第1ビデオフレームに対応する縦方向変位行列として決定する。 Further, the displacement setting subsystem 4043 specifically sets the first vertical displacement of the matrix element corresponding to the remaining pixel points to the first numerical value in the initial vertical displacement matrix, and sets the first numerical value. The initial vertical displacement including the numerical value is determined as the vertical displacement matrix corresponding to the first video frame.

さらに、前記変位設定サブユニット4043は、具体的に、前記第1ビデオフレームに対応する横方向変位行列と、前記第1ビデオフレームに対応する縦方向変位行列とをターゲット変位行列として決定する。 Further, the displacement setting subunit 4043 specifically determines the lateral displacement matrix corresponding to the first video frame and the longitudinal displacement matrix corresponding to the first video frame as the target displacement matrix.

初期取得サブユニット4041、数値切替サブユニット4042、変位設定サブユニット4043の具体的な実現方式については、上記図8に対応する実施例における初期状態行列及び順方向変位行列を修正することについての説明を参照すればよいが、ここではこれ以上の説明を省略する。 Regarding the specific implementation method of the initial acquisition subunit 4041, the numerical switching subunit 4042, and the displacement setting subunit 4043, the description of modifying the initial state matrix and the forward displacement matrix in the embodiment corresponding to FIG. 8 above. However, further description thereof will be omitted here.

第2決定ユニット4005は、前記ターゲット状態行列及び前記ターゲット変位行列に基づいて、前記第1ビデオフレームに対応する平均変位行列を決定する。 The second determination unit 4005 determines the average displacement matrix corresponding to the first video frame based on the target state matrix and the target displacement matrix.

ここで、前記第2決定ユニット4005は、第1積分サブユニット4051と、第2積分サブユニット4052と、第3積分サブユニット4053と、差分演算サブユニット4054と、を含む。 Here, the second determination unit 4005 includes a first integral subunit 4051, a second integral subunit 4052, a third integral subunit 4053, and a difference calculation subunit 4054.

第1積分サブユニット4051は、前記第1ビデオフレームにおいて、前記ターゲット状態行列に対して変位積分演算を行うことにより、前記第1ビデオフレームにおける画素点に対応する状態積分行列を取得する。 The first integration subunit 4051 acquires a state integration matrix corresponding to a pixel point in the first video frame by performing a displacement integration operation on the target state matrix in the first video frame.

第2積分サブユニット4052は、前記第1ビデオフレームにおいて、前記ターゲット状態行列における横方向変位行列に対して変位積分演算を行うことにより、前記第1ビデオフレームにおける画素点に対応する横方向変位積分行列を取得する。 In the first video frame, the second integration subsystem 4052 performs a displacement integration calculation on the lateral displacement matrix in the target state matrix, thereby performing a lateral displacement integral corresponding to the pixel points in the first video frame. Get the matrix.

第3積分サブユニット4053は、前記第1ビデオフレームにおいて、前記ターゲット状態行列における縦方向変位行列に対して変位積分演算を行うことにより、前記第1ビデオフレームにおける画素点に対応する縦方向変位積分行列を取得する。 The third integration subsystem 4053 performs a displacement integration calculation on the vertical displacement matrix in the target state matrix in the first video frame, thereby performing a vertical displacement integration corresponding to the pixel points in the first video frame. Get the matrix.

差分演算サブユニット4054は、前記第1ビデオフレームから、変位差分演算に対応する差分領域を決定し、前記差分領域のサイズ情報と、状態積分行列と、横方向変位積分行列と、縦方向変位積分行列とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定する。 The difference calculation subsystem 4054 determines a difference region corresponding to the displacement difference calculation from the first video frame, and determines the size information of the difference region, the state integral matrix, the lateral displacement integral matrix, and the vertical displacement integral. Based on the matrix, the average displacement matrix corresponding to the first video frame is determined.

ここで、前記差分演算サブユニット4054は、第1差分サブユニット4055と、第2差分サブユニット4056と、第3差分サブユニット4057と、平均決定サブユニット4058と、を含む。 Here, the difference calculation subunit 4054 includes a first difference subunit 4055, a second difference subunit 4056, a third difference subunit 4057, and an average determination subunit 4058.

第1差分サブユニット4055は、前記差分領域に対応する長さ情報及び幅情報に基づいて、前記状態積分行列に対して変位差分演算を行うことにより、前記第1画像フレームに対応する状態差分行列を取得する。 The first difference subsystem 4055 performs a displacement difference operation on the state integral matrix based on the length information and the width information corresponding to the difference region, so that the state difference matrix corresponding to the first image frame is performed. To get.

第2差分サブユニット4056は、前記差分領域に対応する長さ情報及び幅情報に基づいて、前記横方向変位積分行列及び縦方向変位積分行列のそれぞれに対して変位差分演算を行うことにより、前記第1画像フレームに対応する横方向変位差分行列及び縦方向変位差分行列を取得する。 The second difference subsystem 4056 performs a displacement difference calculation on each of the lateral displacement integral matrix and the longitudinal displacement integral matrix based on the length information and the width information corresponding to the difference region. The horizontal displacement difference matrix and the vertical displacement difference matrix corresponding to the first image frame are acquired.

第3差分サブユニット4057は、前記横方向変位差分行列と前記状態差分行列との比を横方向平均変位行列として決定し、前記縦方向変位差分行列と前記状態差分行列との比を縦方向平均変位行列として決定する。 The third difference subsystem 4057 determines the ratio between the lateral displacement difference matrix and the state difference matrix as the horizontal average displacement matrix, and the ratio between the vertical displacement difference matrix and the state difference matrix is the vertical average. Determined as a displacement matrix.

平均決定サブユニット4058は、前記縦方向変位差分行列及び前記縦方向平均変位行列を、前記第1ビデオフレームに対応する平均変位行列として決定する。 The average determination subunit 4058 determines the longitudinal displacement difference matrix and the longitudinal average displacement matrix as the average displacement matrix corresponding to the first video frame.

ここで、第1積分サブユニット4051、第2積分サブユニット4052、第3積分サブユニット4053、差分演算サブユニット4054の具体的な実現方式については、上記図8に対応する実施例におけるクラウド変位積分方法及びクラウド変位差分方法の説明を参照すればよいが、ここではこれ以上の説明を省略する。 Here, regarding the specific implementation method of the first integral subunit 4051, the second integral subunit 4052, the third integral subunit 4053, and the difference calculation subunit 4054, the cloud displacement integral in the embodiment corresponding to FIG. 8 above. The description of the method and the cloud displacement difference method may be referred to, but further description thereof will be omitted here.

ここで、第1決定ユニット4001、行列決定ユニット4002、画素点選別ユニット4003、行列修正ユニット4004、第2決定ユニット4005の具体的な実現方式については、上記図8に対応する実施例におけるステップS202の説明を参照すればよいが、ここではこれ以上の説明を省略する。 Here, the specific implementation method of the first determination unit 4001, the matrix determination unit 4002, the pixel point selection unit 4003, the matrix correction unit 4004, and the second determination unit 4005 is described in step S202 in the embodiment corresponding to FIG. However, further description will be omitted here.

位置追跡モジュール510は、前記平均変位行列に基づいて、前記第1ビデオフレームにおける画素点の位置情報を追跡し、前記第2ビデオフレームにおいて、追跡された画素点の位置情報を決定する。 The position tracking module 510 tracks the position information of the pixel points in the first video frame based on the average displacement matrix, and determines the position information of the tracked pixel points in the second video frame.

軌跡生成モジュール610は、前記第1ビデオフレームにおける画素点の位置情報と、前記追跡された画素点の前記第2ビデオフレームにおける位置情報とに基づいて、前記ターゲットビデオに関連付けられた軌跡情報を生成し、前記軌跡情報は、ターゲットビデオにおけるターゲット画素点に関連付けられたマルチメディア情報を追跡して表示するためのターゲット軌跡情報を含む。 The locus generation module 610 generates locus information associated with the target video based on the position information of the pixel points in the first video frame and the position information of the tracked pixel points in the second video frame. However, the locus information includes target locus information for tracking and displaying multimedia information associated with a target pixel point in a target video.

ここで、第1取得モジュール310、行列取得モジュール410、位置追跡モジュール510、軌跡生成モジュール610の具体的な実現方式については、上記図8に対応する実施例におけるステップS201~ステップS204の説明を参照すればよいが、ここではこれ以上の説明を省略する。 Here, for specific implementation methods of the first acquisition module 310, the matrix acquisition module 410, the position tracking module 510, and the locus generation module 610, refer to the description of steps S201 to S204 in the embodiment corresponding to FIG. However, further description will be omitted here.

さらに、本願の実施例で提供される別のコンピュータ機器の構成の模式図である図16を参照されたい。図16に示すように、上記コンピュータ機器3000は、上記図1に対応する実施例におけるサービスサーバ2000に適用できる。上記コンピュータ機器3000は、プロセッサ3001と、ネットワークインタフェース3004と、メモリ3005と、を含んでもよい。さらに、上記ビデオデータ処理装置3000は、ユーザインタフェース3003と、及び少なくとも1つの通信バス3002と、を含んでもよい。ここで、通信バス3002は、これらのコンポーネント間の接続通信を実現するためのものである。ここで、ユーザインタフェース3003は、ディスプレイ(Display)、キーボード(Keyboard)を含んでもよく、任意選択的なユーザインタフェース3003は、標準的な有線インタフェース、無線インタフェースを含んでもよい。ネットワークインタフェース3004は、任意選択的に、標準的な有線インタフェース、無線インタフェース(例えば、Wi-Fiインタフェース)を含んでもよい。メモリ3004は、高速RAMであってもよく、不揮発性メモリ(non-volatile memory)、例えば、少なくとも1つの磁気ディスクメモリであってもよい。メモリ3005は、任意選択的に、前述のプロセッサ3001から離れた位置にある少なくとも1つの記憶装置であってもよい。図16に示すように、コンピュータ記憶媒体であるメモリ3005には、オペレーティングシステム、ネットワーク通信モジュール、ユーザインタフェースモジュール、及び機器制御アプリケーションが含まれてもよい。 Further, see FIG. 16, which is a schematic diagram of the configuration of another computer device provided in the embodiments of the present application. As shown in FIG. 16, the computer device 3000 can be applied to the service server 2000 in the embodiment corresponding to FIG. 1. The computer device 3000 may include a processor 3001, a network interface 3004, and a memory 3005. Further, the video data processing device 3000 may include a user interface 3003 and at least one communication bus 3002. Here, the communication bus 3002 is for realizing connection communication between these components. Here, the user interface 3003 may include a display and a keyboard, and the optional user interface 3003 may include a standard wired interface and a wireless interface. The network interface 3004 may optionally include standard wired and wireless interfaces (eg, Wi-Fi interfaces). The memory 3004 may be a high-speed RAM or a non-volatile memory, for example, at least one magnetic disk memory. The memory 3005 may optionally be at least one storage device located away from the processor 3001 described above. As shown in FIG. 16, the memory 3005, which is a computer storage medium, may include an operating system, a network communication module, a user interface module, and a device control application.

図16に示すコンピュータ機器3000では、ネットワークインタフェース3004は、ネットワーク通信機能を提供することができ、ユーザインタフェース3003は、主にユーザに入力用のインタフェースを提供し、プロセッサ3001は、メモリ3005に記憶された機器制御アプリケーションを呼び出すことにより、
ターゲットビデオから、隣接する第1ビデオフレーム及び第2ビデオフレームを取得するステップと、
前記ターゲットビデオに対応するオプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点と、前記第2ビデオフレームにおける画素点とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定するステップと、
前記平均変位行列に基づいて、前記第1ビデオフレームにおける画素点の位置情報を追跡し、前記第2ビデオフレームにおいて、追跡された画素点の位置情報を決定するステップと、
前記第1ビデオフレームにおける画素点の位置情報と、前記追跡された画素点の前記第2ビデオフレームにおける位置情報とに基づいて、前記ターゲットビデオに関連付けられた軌跡情報を生成するステップであって、前記軌跡情報は、ターゲットビデオにおけるターゲット画素点に関連付けられたマルチメディア情報を追跡して表示するためのターゲット軌跡情報を含む、ステップと、
を実現するために用いることができる。
In the computer equipment 3000 shown in FIG. 16, the network interface 3004 can provide a network communication function, the user interface 3003 mainly provides an input interface to the user, and the processor 3001 is stored in the memory 3005. By calling the device control application
The step of acquiring the adjacent first video frame and second video frame from the target video, and
A step of determining an average displacement matrix corresponding to the first video frame based on the optical flow tracking rule corresponding to the target video, the pixel points in the first video frame, and the pixel points in the second video frame. When,
A step of tracking the position information of the pixel points in the first video frame based on the average displacement matrix and determining the position information of the traced pixel points in the second video frame.
A step of generating trajectory information associated with the target video based on the position information of the pixel points in the first video frame and the position information of the tracked pixel points in the second video frame. The locus information includes a step and a target locus information for tracking and displaying multimedia information associated with a target pixel point in a target video.
Can be used to realize.

理解すべきものとして、本願の実施例で説明されたコンピュータ機器3000は、上記図8に対応する実施例における上記ビデオデータ処理方法の説明に従って実行してもよく、上記図15に対応する実施例における上記ビデオデータ処理装置3の説明に従って実行してもよいが、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。 As should be understood, the computer device 3000 described in the embodiment of the present application may be executed according to the description of the video data processing method in the embodiment corresponding to FIG. 8, and in the embodiment corresponding to FIG. It may be executed according to the above description of the video data processing device 3, but further description thereof will be omitted here. Further, further description of the beneficial effect when the same method is used will be omitted.

また、ここで指摘すべきものとして、本願の実施例では、コンピュータ記憶媒体がさらに提供されており、上記コンピュータ記憶媒体には、上記で言及されたビデオデータ処理装置3が実行するコンピュータプログラムが記憶され、上記コンピュータプログラムは、プログラム命令を含み、上記プロセッサは、上記プログラム命令を実行すると、上記図8に対応する実施例における上記ビデオデータ処理方法の説明に従って実行できるので、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。本願に係るコンピュータ記憶媒体の実施例に披露されていない技術的詳細については、本願の方法の実施例の説明を参照されたい。 Further, it should be pointed out here that, in the embodiment of the present application, a computer storage medium is further provided, and the computer storage medium stores a computer program executed by the video data processing device 3 mentioned above. The computer program includes a program instruction, and the processor can execute the program instruction according to the description of the video data processing method in the embodiment corresponding to FIG. 8, and further the description thereof will be described here. Omit. Further, further description of the beneficial effect when the same method is used will be omitted. For technical details not shown in the examples of computer storage media according to the present application, refer to the description of the examples of the method of the present application.

当業者であれば理解できるように、上記の実施例における方法の手順の全部又は一部は、コンピュータプログラムを介して関連のハードウェアに指示することにより実行されてもよい。上記プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。このプログラムが実行されると、上記のような各方法の実施例の手順が実行される。ここで、上記した記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ(ROM:Read-Only Memory)、又はランダムアクセスメモリ(RAM:Random Access Memory)などであってもよい。 As will be appreciated by those skilled in the art, all or part of the procedure of the method in the above embodiment may be performed by instructing the relevant hardware via a computer program. The above program may be stored in a computer-readable storage medium. When this program is executed, the procedure of the embodiment of each method as described above is executed. Here, the storage medium described above may be a magnetic disk, an optical disk, a read-only memory (ROM: Read-Only Memory), a random access memory (RAM: Random Access Memory), or the like.

以上の掲示は本願の好ましい実施例にすぎず、もちろん、これによって本願の権利範囲を限定することを意図しないので、本願の特許請求の範囲に基づいた同等な変更は、依然として本願の保護範囲に属する。 Since the above notices are merely preferred embodiments of the present application and, of course, are not intended to limit the scope of rights of the present application, equivalent changes based on the claims of the present application are still within the scope of protection of the present application. Belongs.

2000 サービスサーバ
3000a,3000b,3000c,3000n ユーザ端末
1,2,3 ビデオデータ処理装置
310 第1取得モジュール
410 行列取得モジュール
510 位置追跡モジュール
610 軌跡生成モジュール
1000,2000,3000 コンピュータ機器
1001,2001,3001 プロセッサ
1002,2002,3002 通信バス
1003,2003,3003 ユーザインタフェース
1004,2004,3004 ネットワークインタフェース
1005,2005,3005 メモリ
1101 オブジェクト決定モジュール
1102 要求決定モジュール
1103 軌跡取得モジュール
1104 テキスト表示モジュール
1301 要求応答モジュール
1302 軌跡選別モジュール
4001 第1決定ユニット
4002 行列決定ユニット
4003 画素点選別ユニット
4004 行列修正ユニット
4005 第2決定ユニット
4021 第1追跡サブユニット
4022 第2追跡サブユニット
4031 第1位置決定サブユニット
4032 第2位置決定サブユニット
4033 第3位置決定サブユニット
4034 誤差決定サブユニット
4035 有効選別サブユニット
4041 初期取得サブユニット
4042 数値切替サブユニット
4043 変位設定サブユニット
4051 第1積分サブユニット
4052 第2積分サブユニット
4053 第3積分サブユニット
4054 差分演算サブユニット
4055 第1差分サブユニット
4056 第2差分サブユニット
4057 第3差分サブユニット
4058 平均決定サブユニット
2000 Service server 3000a, 3000b, 3000c, 3000n User terminal 1,2,3 Video data processing device 310 First acquisition module 410 Matrix acquisition module 510 Position tracking module 610 Trajectory generation module 1000, 2000, 3000 Computer equipment 1001, 2001, 3001 Processor 1002,2002,3002 Communication bus 1003,2003,3003 User interface 1004,2004,3004 Network interface 1005,2005,3005 Memory 1101 Object determination module 1102 Request determination module 1103 Trajectory acquisition module 1104 Text display module 1301 Request response module 1302 Trajectory Sorting module 4001 1st decision unit 4002 Matrix decision unit 4003 Pixel point sort unit 4004 Matrix correction unit 4005 2nd decision unit 4021 1st tracking sub unit 4022 2nd tracking sub unit 4031 1st positioning sub unit 4032 2nd positioning sub Unit 4033 3rd Position Determination Subunit 4034 Error Determination Subunit 4035 Effective Sort Subunit 4041 Initial Acquisition Subunit 4042 Numerical Switching Subunit 4043 Displacement Setting Subunit 4051 1st Integral Subunit 4052 2nd Integral Subunit 4053 3rd Integral Subunit Unit 4054 Difference calculation sub-unit 4055 First difference sub-unit 4056 Second difference sub-unit 4057 Third difference sub-unit 4058 Average determination sub-unit

本願の実施例で提供されるネットワークアーキテクチャの構成の模式図である。It is a schematic diagram of the configuration of the network architecture provided in the embodiment of this application. 本願の実施例で提供されるターゲットビデオにおける複数のビデオフレームの模式図である。FIG. 3 is a schematic diagram of a plurality of video frames in the target video provided in the embodiments of the present application. 本願の実施例で提供されるターゲットビデオを取得するシナリオの模式図である。FIG. 3 is a schematic diagram of a scenario for acquiring a target video provided in an embodiment of the present application. 本願の実施例で提供されるビデオデータ処理方法のフローの模式図である。It is a schematic diagram of the flow of the video data processing method provided in the Example of this application. 本願の実施例で提供されるマルチメディア情報の取得の模式図である。It is a schematic diagram of acquisition of multimedia information provided in the Example of this application. 本願の実施例で提供される全画素追跡の模式図である。It is a schematic diagram of all pixel tracking provided in the Example of this application. 本願の実施例で提供される連続する複数のビデオフレームにおける弾幕データの追跡の模式図である。It is a schematic diagram of the tracking of barrage data in a plurality of consecutive video frames provided in the embodiment of the present application. 本願の実施例で提供される別のビデオデータ処理方法の模式図である。It is a schematic diagram of another video data processing method provided in the Example of this application. 本願の実施例で提供される有効画素点を決定する方法の模式図である。It is a schematic diagram of the method of determining the effective pixel point provided in the Example of this application. 本願の実施例で提供される軌跡情報に基づく弾幕データの表示の模式図である。It is a schematic diagram of the barrage data display based on the locus information provided in the embodiment of the present application. 本願の実施例で提供されるビデオデータ処理装置の構成の模式図である。It is a schematic diagram of the structure of the video data processing apparatus provided in the Example of this application. 本願の実施例で提供されるコンピュータ機器の構成の模式図である。It is a schematic diagram of the structure of the computer equipment provided in the Example of this application. 本願の実施例で提供される別のビデオデータ処理装置の構成の模式図である。It is a schematic diagram of the configuration of another video data processing apparatus provided in the embodiment of this application. 本願の実施例で提供される別のコンピュータ機器の構成の模式図である。It is a schematic diagram of the configuration of another computer device provided in the embodiment of this application. 本願の実施例で提供される別のビデオデータ処理装置の構成の模式図である。It is a schematic diagram of the configuration of another video data processing apparatus provided in the embodiment of this application. 本願の実施例で提供される別のコンピュータ機器の構成の模式図である。It is a schematic diagram of the configuration of another computer device provided in the embodiment of this application.

ここで、サービスサーバ2000は、ビデオの前処理段階において、サービスデータベースに記憶されたビデオセットの各ビデオに対してフレーム化処理を行ってもよい。これにより、各ビデオそれぞれに含まれる複数のビデオフレームを1枚ずつのピクチャとして分割することができる。理解を容易にするために、さらに、本願の実施例で提供されるターゲットビデオにおける複数のビデオフレームの模式図である図2を参照されたい。ここで、該ターゲットビデオは、前述のサービスデータベースにおけるビデオAであってもよく、図2に示すように、該ビデオAは、n個(nは0より大きい正の整数である)のビデオフレームを含んでもよい。サービスサーバ2000は、該ビデオAにおけるn個のビデオフレームをn個のピクチャとして予め分割してもよい。これらのn個のピクチャのうち、前後に隣接する2つずつのピクチャを1つの画像ペアと呼ぶことができる。例えば、図2に示すように、本願の実施例では、図2に示される第1時刻に対応するビデオフレームと、第2時刻に対応するビデオフレームとを1つの画像ペアと呼ぶことができ、第2時刻に対応するビデオフレームと、第3時刻に対応するビデオフレームとを1つの画像ペアと呼ぶことができ、第n-1時刻に対応するビデオフレームと、第n時刻に対応するビデオフレームとを1つの画像ペアと呼ぶことができる。換言すれば、1つのターゲットビデオについて、該ターゲットビデオの複数のビデオフレームから、複数の画像ペアを決定することができ、各画像ペアのいずれにも、前後に隣接する2つの時刻に対応するビデオフレームが含まれてもよく、即ち、各画像ペアのいずれにも、隣接する2つのビデオフレームが含まれてもよい。 Here, the service server 2000 may perform framing processing on each video of the video set stored in the service database in the video preprocessing stage. As a result, a plurality of video frames included in each video can be divided into one picture. Further, for ease of understanding, see FIG. 2, which is a schematic diagram of a plurality of video frames in the target video provided in the embodiments of the present application. Here, the target video may be video A in the service database described above, and as shown in FIG. 2, the video A is n video frames (n is a positive integer greater than 0). May include. The service server 2000 may predivide the n video frames in the video A into n pictures. Of these n pictures, two pictures adjacent to each other in the front and back can be called one image pair. For example, as shown in FIG. 2, in the embodiment of the present application, the video frame corresponding to the first time shown in FIG. 2 and the video frame corresponding to the second time can be referred to as one image pair. The video frame corresponding to the second time and the video frame corresponding to the third time can be called one image pair, and the video frame corresponding to the n-1th time and the video frame corresponding to the nth time can be called one. Can be called one image pair. In other words, for one target video, multiple image pairs can be determined from multiple video frames of the target video, and each image pair has a video corresponding to two adjacent times before and after. Frames may be included, i.e., each image pair may contain two adjacent video frames.

さらに、本願の実施例で提供されるターゲットビデオを取得するシナリオの模式図である図3を参照されたい。図3に示すターゲットユーザ端末は、上記図1に対応する実施例におけるユーザ端末3000aであってもよい。図3に示すように、ターゲットユーザは、該ターゲットアプリケーションに入った後、該ターゲットユーザ端末(例えば、スマートフォン)に該ターゲットアプリケーションのサービスデータ展示プラットフォームを表示させてもよい。該サービスデータ展示プラットフォームには、図3に示されるビデオ10a、ビデオ20a、ビデオ30a、及びビデオ40aが表示されてもよい。ターゲットユーザは、図3に示されるビデオ30a(該ビデオ30aは、上記図に対応する実施例におけるビデオAであってもよい)をターゲットユーザ端末で再生する必要がある場合、該ビデオ30aが位置する領域に対して再生操作を実行してもよく(例えば、ターゲットユーザは、該ビデオ30aに対してクリック操作を実行してもよい)、さらに、該ビデオ30aに対応するターゲット識別情報を、図3に示すデータロード指示に付加して、該ターゲットユーザ端末とネットワーク接続関係があるアプリケーションサーバに該データロード指示をさらに与えてもよい。該アプリケーションサーバは、上記図1に対応する実施例におけるサービスサーバ2000であってもよい。理解できるように、該アプリケーションサーバは、データロード指示を取得すると、サービスデータベースから、該ターゲット識別情報に対応するビデオデータを検索することができ、検出されたビデオデータをターゲットデータと総称することができる。これにより、図3に示すターゲットユーザ端末に該ターゲットデータを与えることができ、該ターゲットユーザ端末は、図3に示すビデオ再生インタフェースで該ビデオデータを再生することができる。このとき、該ターゲットユーザ端末は、該ターゲットユーザによって選択されて再生されるビデオ30aをターゲットビデオと呼ぶことができる。即ち、このとき、該ターゲットユーザ端末は、上記図3に示す再生タイムスタンプに従って、ビデオ30aにおける各ビデオフレームを再生することができる。 Further, see FIG. 3, which is a schematic diagram of a scenario for acquiring a target video provided in an embodiment of the present application. The target user terminal shown in FIG. 3 may be the user terminal 3000a in the embodiment corresponding to FIG. 1 above. As shown in FIG. 3, after entering the target application, the target user may display the service data display platform of the target application on the target user terminal (for example, a smartphone). The service data display platform may display video 10a, video 20a, video 30a, and video 40a shown in FIG. When the target user needs to play the video 30a shown in FIG. 3 (the video 30a may be the video A in the embodiment corresponding to the above FIG. 2 ) on the target user terminal, the video 30a A playback operation may be performed on the located area (for example, the target user may perform a click operation on the video 30a), and the target identification information corresponding to the video 30a may be obtained. In addition to the data load instruction shown in FIG. 3, the data load instruction may be further given to the application server having a network connection relationship with the target user terminal. The application server may be the service server 2000 in the embodiment corresponding to FIG. 1 above. As can be understood, when the application server obtains the data load instruction, the video data corresponding to the target identification information can be searched from the service database, and the detected video data may be collectively referred to as the target data. can. Thereby, the target data can be given to the target user terminal shown in FIG. 3, and the target user terminal can reproduce the video data by the video reproduction interface shown in FIG. At this time, the target user terminal can refer to the video 30a selected and played by the target user as the target video. That is, at this time, the target user terminal can reproduce each video frame in the video 30a according to the reproduction time stamp shown in FIG.

理解すべきものとして、該ターゲットビデオにおける各画素点の移動軌跡(即ち、各画素点の軌跡情報)は、各画素点の、該ターゲットビデオの各ビデオフレームにおける位置情報によって決定されたものである。ここで、複数のビデオフレームを含むターゲットビデオの場合、本願の実施例では、この複数のビデオフレームのうち、隣接する任意の2つのビデオフレームを1つの画像ペアとして決定してもよい。理解すべきものとして、この複数のビデオフレームの中から決定された各画像ペアそれぞれに含まれる2つのビデオフレームのうち、一方のビデオフレームを第1ビデオフレームと呼ぶことができ、他方のビデオフレームを第2ビデオフレームと呼ぶことができる。上記図2に対応する実施例における第1時刻に対応するビデオフレームと、第2時刻に対応するビデオフレームとからなる画像ペア1については、該画像ペア1において、第1時刻に対応するビデオフレームを第1ビデオフレームと呼ぶことができ、該第2時刻に対応するビデオフレームを第2ビデオフレームと呼ぶことができる。さらに、予め算出された、該画像ペア1におけるこの2つのビデオフレーム間の平均変位行列に基づいて、該第1ビデオフレームにおける全ての画素点を追跡して、該第1ビデオフレームにおける全ての画素点の第2ビデオフレームにおける出現位置情報を決定することができる。同様に、上記図2に対応する実施例における第2時刻に対応するビデオフレームと、第3時刻に対応するビデオフレームとからなる画像ペア2についても、該第2時刻に対応するビデオフレームを第1ビデオフレームと呼ぶことができ、該第3時刻に対応するビデオフレームを第2ビデオフレームと呼ぶことができる。これにより、予め算出された、該画像ペア2におけるこの2つのビデオフレーム間の平均変位行列に基づいて、該第1ビデオフレームにおける全ての画素点を追跡して、該第1ビデオフレームにおける全ての画素点の第2ビデオフレームにおける出現位置情報を決定することができる。このようにして、本願の実施例では、各画像ペアそれぞれに対応する平均変位行列を取得することができ、各画像ペアそれぞれに対応する平均変位行列は、各画像ペアそれぞれにおける第1ビデオフレームに対応する平均変位行列と呼ぶことができ、各第1ビデオフレームそれぞれに対応する平均変位行列は、第1ビデオフレームにおける全ての画素点を第2ビデオフレームにマッピングして、第2ビデオフレームにおいて、マッピングされたこれら画素点の位置情報を正確に取得するために用いることができる。理解すべきものとして、本願の実施例における平均変位行列は、縦方向平均変位行列と横方向平均変位行列とを含んでもよい。縦方向平均変位行列によって、第1ビデオフレームにおける各画素点の第1縦方向座標値(例えば、y値)に対して縦方向座標変換を行って、各画素点の、第2ビデオフレームにマッピングされた第2縦方向座標を取得することができる。同様に、横方向平均変位行列によって、第1ビデオフレームにおける各画素点の第1横方向座標値(例えば、x値)に対して横方向座標変換を行って、各画素点の、第2ビデオフレームにマッピングされた第2横方向座標を取得することができる。理解すべきものとして、本願の実施例では、各画素点の第1ビデオフレームにおける第1横方向座標及び第1縦方向座標値を、該第1ビデオフレームにおける各画素点の第1位置情報と呼ぶことができ、各画素点の、第ビデオフレームにマッピングされた第2横方向座標及び第2縦方向座標値を、該第2ビデオフレームにおける各マッピングされた画素点の第2位置情報と呼ぶことができる。各画像ペアは、いずれも、1つの平均変位行列に対応するので、第1ビデオフレームにおける画素点の第1位置情報に基づいて、対応する第2位置情報を算出することができ、算出した第2ビデオフレームにおける各マッピングされた画素点の第2位置情報を保存することができ、さらに、同一画素点の各ビデオフレームにおける位置情報を統合して、該ビデオフレームにおける全ての画素点の移動軌跡を取得することができる。これにより、該ターゲットビデオの全てのビデオフレームにおける全ての画素点の追跡を実現することができる。 It should be understood that the movement locus of each pixel point in the target video (that is, the locus information of each pixel point) is determined by the position information of each pixel point in each video frame of the target video. Here, in the case of a target video including a plurality of video frames, in the embodiment of the present application, any two adjacent video frames among the plurality of video frames may be determined as one image pair. It should be understood that, of the two video frames contained in each image pair determined from the plurality of video frames, one video frame can be referred to as the first video frame, and the other video frame can be referred to as the first video frame. It can be called a second video frame. Regarding the image pair 1 including the video frame corresponding to the first time and the video frame corresponding to the second time in the embodiment corresponding to FIG. 2, the video frame corresponding to the first time in the image pair 1 Can be referred to as a first video frame, and a video frame corresponding to the second time can be referred to as a second video frame. Further, based on the pre-calculated average displacement matrix between the two video frames in the image pair 1, all the pixel points in the first video frame are tracked and all the pixels in the first video frame are traced. The appearance position information of the point in the second video frame can be determined. Similarly, for the image pair 2 including the video frame corresponding to the second time and the video frame corresponding to the third time in the embodiment corresponding to FIG. 2, the video frame corresponding to the second time is the second. It can be called one video frame, and the video frame corresponding to the third time can be called the second video frame. Thereby, based on the pre-calculated average displacement matrix between the two video frames in the image pair 2, all the pixel points in the first video frame are tracked, and all the pixel points in the first video frame are traced. The appearance position information of the pixel points in the second video frame can be determined. In this way, in the embodiment of the present application, the average displacement matrix corresponding to each image pair can be acquired, and the average displacement matrix corresponding to each image pair is set in the first video frame in each image pair. It can be called the corresponding average displacement matrix, and the average displacement matrix corresponding to each first video frame maps all the pixel points in the first video frame to the second video frame, and in the second video frame, It can be used to accurately acquire the position information of these mapped pixel points. It should be understood that the average displacement matrix in the embodiments of the present application may include a longitudinal average displacement matrix and a lateral average displacement matrix. The vertical average displacement matrix performs vertical coordinate conversion on the first vertical coordinate value (for example, y value) of each pixel point in the first video frame, and maps it to the second video frame of each pixel point. The second vertical coordinate obtained can be obtained. Similarly, the lateral average displacement matrix is used to perform lateral coordinate conversion on the first lateral coordinate value (for example, x value) of each pixel point in the first video frame, and the second video of each pixel point. The second lateral coordinates mapped to the frame can be obtained. As a matter of understanding, in the embodiment of the present application, the first horizontal coordinate value and the first vertical coordinate value of each pixel point in the first video frame are referred to as the first position information of each pixel point in the first video frame. The second horizontal coordinate value and the second vertical coordinate value of each pixel point mapped to the second video frame can be referred to as the second position information of each mapped pixel point in the second video frame. Can be called. Since each image pair corresponds to one average displacement matrix, the corresponding second position information can be calculated based on the first position information of the pixel points in the first video frame, and the calculated second position information can be calculated. The second position information of each mapped pixel point in the two video frames can be stored, and the position information in each video frame of the same pixel point is integrated to move the locus of all the pixel points in the video frame. Can be obtained. Thereby, it is possible to realize the tracking of all the pixel points in all the video frames of the target video.

理解すべきものとして、上記図2に対応する実施例で示された該ターゲットビデオにおける複数のビデオフレームは、複数の連続する画像フレームであってもよい。したがって、上記の図2に示したターゲットビデオを分割した後、分割された各画像フレーム(即ち、ビデオフレーム)に、再生順に応じたビデオフレーム番号を設定することができる。例えば、上記の第1時刻に取得されたビデオフレームのビデオフレーム番号は、1であってもよく、該ビデオフレーム番号1は、該第1時刻に取得されたビデオフレームが、該ターゲットビデオにおける第1フレームであることを示すために用いることができる。同様に、上記の第2時刻に取得されたビデオフレームのビデオフレーム番号は、2であってもよく、該ビデオフレーム番号2は、該第2時刻に取得されたビデオフレームが、該ターゲットビデオにおける第2フレームであることを示すために用いることができる。このようにして、上記の第n-1時刻に取得されたビデオフレームのビデオフレーム番号は、n-1であってもよく、該ビデオフレーム番号n-1は、該第n-1時刻に取得されたビデオフレームが、該ターゲットビデオにおける第n-1フレームであることを示すために用いることができ、上記の第n時刻に取得されたビデオフレームのビデオフレーム番号は、nであってもよく、該ビデオフレーム番号nは、該第n時刻に取得されたビデオフレームが、該ターゲットビデオにおける第nフレーム、即ち該ターゲットビデオにおける最後のフレームであることを示すために用いることができる。 It should be understood that the plurality of video frames in the target video shown in the embodiment corresponding to FIG. 2 above may be a plurality of consecutive image frames. Therefore, after the target video shown in FIG. 2 above is divided, a video frame number corresponding to the playback order can be set for each divided image frame (that is, a video frame). For example, the video frame number of the video frame acquired at the first time may be 1, and the video frame number 1 is such that the video frame acquired at the first time is the first in the target video. It can be used to indicate that it is one frame. Similarly, the video frame number of the video frame acquired at the second time may be 2, and the video frame number 2 is such that the video frame acquired at the second time is the target video. It can be used to indicate that it is the second frame. In this way, the video frame number of the video frame acquired at the above-mentioned n-1 time may be n-1, and the video frame number n-1 is acquired at the n-1 time. The resulting video frame can be used to indicate that it is the n-1th frame in the target video, and the video frame number of the video frame acquired at the above nth time may be n. The video frame number n can be used to indicate that the video frame acquired at the nth time is the nth frame in the target video, that is, the last frame in the target video.

図6に示すように、該第1ビデオフレームにおける各画素点が取得された後、取得されたこれらの全ての画素点を画素点と総称することができ、さらに、図6に示す平均変位行列によって、該画素点表示領域600aにおける全ての画素点を追跡することができ、さらに、第2ビデオフレームに対応する画素点表示領域700aにおいて、マッピングされた画素点の位置情報を決定することができる。例えば、図6に示す画素点Aを例にとると、該画素点Aの、図6に示す画素点表示領域600aにおける位置情報は、領域識別子5の座標位置情報であってもよく、該平均変位行列によって、該画素点Aを、図6に示す画素点表示領域700aにマッピングすることができ、該画素点Aの、図6に示す画素点表示領域700aにおける位置情報は、領域識別子10の座標位置情報であってもよい。本願の実施例では、該画素点Aの該第2ビデオフレームにおける位置情報を算出した後、該位置情報を記憶することができる。該ターゲットビデオにおける各画像ペアは、いずれも、1つの平均変位行列に対応することができるので、各第1ビデオフレームそれぞれにおける画素点の、第2ビデオフレームにマッピングされた位置情報を算出することができる。各画像ペアにおける同一画素点の、連続するビデオフレームにおける出現位置情報を統合することにより、該画素点Aの、該ターゲットビデオの各ビデオフレームにおける出現位置情報を取得することができ、さらに、該画素点Aの、該ターゲットビデオの各ビデオフレームにおける出現位置情報に基づいて、該画素点Aの移動軌跡を取得することができる。 As shown in FIG. 6, after each pixel point in the first video frame is acquired, all the acquired pixel points can be collectively referred to as a pixel point, and further, an average displacement matrix shown in FIG. Therefore, all the pixel points in the pixel point display area 600a can be tracked, and further, the position information of the mapped pixel points can be determined in the pixel point display area 700a corresponding to the second video frame. .. For example, taking the pixel point A shown in FIG. 6 as an example, the position information of the pixel point A in the pixel point display area 600a shown in FIG. 6 may be the coordinate position information of the area identifier 5, and the average thereof. The pixel point A can be mapped to the pixel point display area 700a shown in FIG. 6 by the displacement matrix, and the position information of the pixel point A in the pixel point display area 700a shown in FIG. 6 is the area identifier 10. It may be coordinate position information. In the embodiment of the present application, after calculating the position information of the pixel point A in the second video frame, the position information can be stored. Since each image pair in the target video can correspond to one average displacement matrix, the position information of the pixel point in each first video frame, which is mapped to the second video frame, is calculated. Can be done. By integrating the appearance position information of the same pixel point in each image pair in consecutive video frames, it is possible to acquire the appearance position information of the pixel point A in each video frame of the target video, and further, the said The movement locus of the pixel point A can be acquired based on the appearance position information of the pixel point A in each video frame of the target video.

ターゲットユーザ端末は、ユーザによって入力された弾幕データ(マルチメディア情報)と、算出した、弾幕データの、ターゲットビデオの各ビデオフレームにおける位置情報とをサーバに送信してもよい。あるいは、サーバは、ターゲットユーザ端末から送信された、ユーザがクリックしたターゲットビデオにおけるキービデオフレームのフレーム番号、ターゲット画素点座標、入力された弾幕データ(マルチメディア情報)を受信し、ターゲット画素点の、ターゲットビデオの各ビデオフレームにおけるターゲット軌跡情報を算出し、該ターゲット軌跡情報に基づいて、弾幕データの、ターゲットビデオの各ビデオフレームにおける位置情報を算出し、前記弾幕データの位置情報を保存してもよい。サーバは、ターゲットユーザ端末から送信された情報を受信する際に、ターゲットユーザ端末の識別子、及び/又は、ターゲットユーザ端末においてユーザがターゲットアプリケーションにログインしたときに使用したユーザ識別子などの情報も受信してもよい。そして、他のユーザ端末で前記ターゲットビデオを再生する際に、サーバが、前記弾幕データと、前記弾幕データの、ターゲットビデオの各ビデオフレームにおける位置情報と、ユーザ識別子とを他のユーザ端末に送信し、他のユーザ端末が、弾幕データの位置情報に基づいて、ターゲットビデオの各ビデオフレームにおいて弾幕データを表示するようにしてもよい。 The target user terminal may transmit the barrage data (multimedia information) input by the user and the calculated position information of the barrage data in each video frame of the target video to the server. Alternatively, the server receives the frame number of the key video frame in the target video clicked by the user, the target pixel point coordinates, and the input bullet data (multimedia information) transmitted from the target user terminal, and receives the input bullet data (multimedia information) of the target pixel point. , The target locus information in each video frame of the target video is calculated, the position information of the bullet data in each video frame of the target video is calculated based on the target locus information, and the position information of the bullet data is saved. May be good. When the server receives the information transmitted from the target user terminal, it also receives information such as the identifier of the target user terminal and / or the user identifier used when the user logs in to the target application on the target user terminal. You may. Then, when playing the target video on another user terminal, the server transmits the bullet data, the position information of the bullet data in each video frame of the target video, and the user identifier to the other user terminal. However, another user terminal may display the bullet data in each video frame of the target video based on the position information of the bullet data.

そこで、該キービデオフレームにおける異なるオブジェクトについては、異なるオブジェクトにおけるターゲット画素点のそれぞれに対応する移動軌跡を取得することができる。これにより、異なるターゲットオブジェクトに関連付けられた弾幕データが、異なる軌跡で移動することができ、弾幕データと、弾幕データのターゲットとなるオブジェクトとの関連がより強くなり、さらに、弾幕データの視覚的な展示効果を豊かにすることができ、弾幕データの表示態様の柔軟性を高めることもできる。 Therefore, for different objects in the key video frame, it is possible to acquire a movement locus corresponding to each of the target pixel points in the different objects. This allows the barrage data associated with different target objects to move in different trajectories, making the barrage data more relevant to the target object of the barrage data, and further visualizing the barrage data. It is possible to enrich the display effect and increase the flexibility of the barrage data display mode.

ここで、クラウド前方後方オプティカルフロー法は、各画像ペアそれぞれにおける第1ビデオフレーム及び第2ビデオフレームに対して、順方向逆方向オプティカルフロー法による計算を同期的に行って、各画像ペアそれぞれに対応するオプティカルフロー追跡結果を取得するために用いることができる。換言すれば、アプリケーションサーバで取得されたオプティカルフロー追跡結果は、各画像ペアそれぞれにおける第1ビデオフレームに対応する順方向変位行列を含んでもよく、各画像ペアそれぞれにおける第2ビデオフレームに対応する逆方向変位行列を含んでもよい。本願の実施例では、順方向変位行列及び逆方向変位行列の各行列要素は、いずれも、2つの次元の変位(例えば、(Δx,Δy))を含んでもよい。ここで、この2つの次元の変位は、同一画素点の水平方向の変位(即ち、Δx)及び垂直方向の変位(即ち、Δy)として理解することができる。理解すべきものとして、該ターゲットビデオにおける各画像ペアのいずれに対しても、該オプティカルフロー法によって計算を行うと、順方向水平変位行列、順方向垂直変位行列、逆方向水平変位行列、逆方向垂直変位行列を取得することができ、取得された4つの行列をオプティカルフロー結果と呼ぶことができる。さらに、アプリケーションサーバは、各画像ペアそれぞれにおける第1ビデオフレームに対して初期状態行列を設定してもよく、さらに、先に取得された順方向変位行列及び逆方向変位行列に基づいて、各画像ペアそれぞれの第1ビデオフレームにおける画素点がターゲット選別条件を満たすか否かを判定してもよい。第1ビデオフレームには、ターゲット選別条件を満たす画素点が存在する場合、アプリケーションサーバは、ターゲット選別条件を満たす画素点を有効画素点として決定してもよく、さらに、決定した有効画素点に基づいて、前記第1ビデオフレームに対応する初期状態行列及び前記順方向変位行列を修正して、各画像ペアそれぞれにおける第1ビデオフレームに対応するターゲット状態行列及びターゲット変位行列を取得してもよい。さらに、アプリケーションサーバは、上記したクラウド変位積分法及びクラウド変位差分法と、取得されたターゲット状態行列及びターゲット変位行列とによって、各画像ペアそれぞれにおける第1ビデオフレームに対応する平均変位行列を決定してもよい。 Here, in the cloud forward / backward optical flow method, the calculation by the forward / reverse optical flow method is performed synchronously for the first video frame and the second video frame in each image pair, and each image pair is subjected to the calculation. It can be used to obtain the corresponding optical flow tracking results. In other words, the optical flow tracking results obtained by the application server may include a forward displacement matrix corresponding to the first video frame in each image pair, or the inverse corresponding to the second video frame in each image pair. It may include a directional displacement matrix. In the embodiments of the present application, each matrix element of the forward displacement matrix and the reverse displacement matrix may contain displacements of two dimensions (eg, (Δx, Δy)). Here, these two dimensional displacements can be understood as horizontal displacements (ie, Δx) and vertical displacements (ie, Δy) of the same pixel point. It should be understood that for any of the image pairs in the target video, when calculated by the optical flow method, the forward horizontal displacement matrix, the forward vertical displacement matrix, and the inverse horizontal variation are performed. The position matrix and the inverse vertical displacement matrix can be acquired, and the acquired four matrices can be called the optical flow result. Further, the application server may set an initial state matrix for the first video frame in each image pair, and further, based on the previously acquired forward displacement matrix and reverse displacement matrix, each image. It may be determined whether or not the pixel points in the first video frame of each pair satisfy the target selection condition. When the first video frame has pixel points satisfying the target selection condition, the application server may determine the pixel points satisfying the target selection condition as the effective pixel points, and further, based on the determined effective pixel points. Then, the initial state matrix corresponding to the first video frame and the forward displacement matrix may be modified to obtain the target state matrix and the target displacement matrix corresponding to the first video frame in each image pair. Further, the application server determines the average displacement matrix corresponding to the first video frame in each image pair by the above-mentioned cloud displacement integration method and cloud displacement difference method, and the acquired target state matrix and target displacement matrix. You may.

ここで、本願の実施例では、該順方向水平変位行列及び順方向垂直変位行列を順方向変位行列と総称することができ、逆方向水平変位行列及び逆方向垂直変位行列を逆方向変位行列と総称することができる。理解を容易にするために、本願の実施例では、複数の画像ペアのうちの1つを例にして、該画像ペアにおける第1ビデオフレーム及び第2ビデオフレームから、該画像ペアに対応する平均変位行列を取得する過程を説明する。ここで、該画像ペアにおける第1ビデオフレームは、上記したビデオフレーム番号が1であるビデオフレームであってもよく、第2ビデオフレームは、上記したビデオフレーム番号が2であるビデオフレームであってもよい。したがって、該ビデオフレーム番号が1であるビデオフレームと、ビデオフレーム番号が2であるビデオフレームとからなる画像ペアを画像ペア1と呼び、該画像ペア1を(1,2)で表すことができる。 Here, in the embodiment of the present application, the forward horizontal displacement matrix and the forward vertical displacement matrix can be collectively referred to as a forward horizontal displacement matrix, and the reverse horizontal displacement matrix and the reverse vertical displacement matrix can be collectively referred to. The position matrix can be collectively referred to as a reverse displacement matrix. For ease of understanding, in the embodiments of the present application, one of a plurality of image pairs is taken as an example, and the average corresponding to the image pair is taken from the first video frame and the second video frame in the image pair. The process of acquiring the displacement matrix will be described. Here, the first video frame in the image pair may be a video frame having the above-mentioned video frame number of 1, and the second video frame is a video frame having the above-mentioned video frame number of 2. May be good. Therefore, an image pair consisting of a video frame having a video frame number of 1 and a video frame having a video frame number of 2 is called an image pair 1, and the image pair 1 can be represented by (1, 2). ..

ここで、オプティカルフロー法によって算出された該画像ペア1に対応する順方向変位行列は、順方向水平変位行列(例えば、該順方向水平変位行列は、行列Q1,2,xであってもよい)と、順方向垂直変位行列(例えば、該順方向垂直変位行列は、行列Q1,2,yであってもよい)と、を含んでもよい。ここで、理解すべきものとして、行列Q1,2,xの各行列要素は、第1ビデオフレームにおける画素点の、第2ビデオフレームにおける水平方向の変位として理解することができる。即ち、該順方向水平変位行列の各行列要素は、第1ビデオフレームにおける画素点に対応する第1横方向変位と呼ぶことができる。同様に、行列Q1,2,yの各行列要素は、第1ビデオフレームにおける画素点の、第2ビデオフレームにおける垂直方向の変位として理解することができる。即ち、該順方向垂直変位行列の各行列要素は、第1ビデオフレームにおける画素点に対応する第1縦方向変位と呼ぶことができる。換言すれば、オプティカルフロー法によって算出されたこの2つの行列(即ち、行列Q1,2,x及び行列Q1,2, )の行列サイズは、第1ビデオフレームのサイズと同じであり、即ち、1つの行列要素は、第1ビデオフレームにおける1つの画素点に対応することができる。 Here, the forward displacement matrix corresponding to the image pair 1 calculated by the optical flow method is a forward horizontal displacement matrix (for example, even if the forward horizontal displacement matrix is the matrices Q1 , 2, x ). May be included) and a forward vertical displacement matrix (eg, the forward vertical displacement matrix may be matrices Q1 , 2, y ). Here, it should be understood that each matrix element of the matrix Q1 , 2, x can be understood as the horizontal displacement of the pixel point in the first video frame in the second video frame. That is, each matrix element of the forward horizontal displacement matrix can be referred to as a first lateral displacement corresponding to a pixel point in the first video frame. Similarly, each matrix element of the matrix Q1 , 2, y can be understood as the vertical displacement of the pixel points in the first video frame in the second video frame. That is, each matrix element of the forward vertical displacement matrix can be referred to as a first longitudinal displacement corresponding to a pixel point in the first video frame. In other words, the matrix size of these two matrices calculated by the optical flow method (that is, the matrix Q 1, 2, x and the matrix Q 1, 2, y ) is the same as the size of the first video frame. That is, one matrix element can correspond to one pixel point in the first video frame.

同様に、オプティカルフロー法によって算出された該画像ペア1に対応する逆方向変位行列は、逆方向水平変位行列(即ち、該逆方向水平変位行列は、行列Q2,1,xであってもよい)と、逆方向垂直変位行列(即ち、該逆方向垂直変位行列は、行列Q2,1,yであってもよい)と、を含んでもよい。ここで、理解すべきものとして、行列Q2,1,xの各行列要素は、第2ビデオフレームにおける画素点の、第1ビデオフレームにおける水平方向の変位として理解することができる。即ち、該逆方向水平変位行列の各行列要素は、第2ビデオフレームにおける画素点に対応する第2横方向変位と呼ぶことができる。同様に、行列Q2,1,yの各行列要素は、第2ビデオフレームにおける画素点の、第1ビデオフレームにおける垂直方向の変位として理解することができる。即ち、該逆方向垂直変位行列の各行列要素は、第2ビデオフレームにおける画素点に対応する第2縦方向変位と呼ぶことができる。換言すれば、オプティカルフロー法によって算出されたこの2つの行列(即ち、行列Q2,1,x及び行列Q2,1,y)の行列サイズは、第2ビデオフレームのサイズと同じであり、即ち、1つの行列要素は、第2ビデオフレームにおける1つの画素点に対応することができる。 Similarly, the reverse displacement matrix corresponding to the image pair 1 calculated by the optical flow method may be a reverse horizontal displacement matrix (that is, the reverse horizontal displacement matrix may be matrices Q 2, 1, x ). May be included) and a reverse vertical displacement matrix (ie, the reverse vertical displacement matrix may be matrices Q 2, 1, y ). Here, it should be understood that each matrix element of the matrix Q 2, 1, x can be understood as the horizontal displacement of the pixel points in the second video frame in the first video frame. That is, each matrix element of the reverse horizontal displacement matrix can be referred to as a second lateral displacement corresponding to a pixel point in the second video frame. Similarly, each matrix element of the matrix Q 2, 1, y can be understood as the vertical displacement of the pixel points in the second video frame in the first video frame. That is, each matrix element of the reverse vertical displacement matrix can be referred to as a second vertical displacement corresponding to a pixel point in the second video frame. In other words, the matrix size of these two matrices (ie, matrix Q 2,1, x and matrix Q 2,1, y ) calculated by the optical flow method is the same as the size of the second video frame. That is, one matrix element can correspond to one pixel point in the second video frame.

理解すべきものとして、ターゲットビデオにおける各ビデオフレームについては、各ビデオフレームにおける画素点の数が同じであるので、オプティカルフロー法によって算出された、該画像ペア1に対応するこの4つの行列(即ち、行列Q1,2,x、行列Q1,2,y、行列Q2,1,x、行列Q2,1,y)の行列サイズは同じである。例えば、各ビデオフレームそれぞれにおける画素点の数がm×n個である場合、取得されたこの4つの行列の行列サイズは、いずれも、m×nであってもよい。ここから分かるように、順方向水平変位行列及び順方向垂直変位行列の各行列要素は、いずれも、第1ビデオフレームにおける画素点に対応することができる。したがって、該画像ペア1に対応する順方向変位行列の各行列要素は、第1ビデオフレームにおける画素点の、第2ビデオフレームにおける2つの次元の変位を表すことができる。該画像ペア1に対応する順方向変位行列を、第1ビデオフレームに対応する順方向変位行列と総称することができる。同様に、画像ペア1に対応する逆方向変位行列の各行列要素は、第2ビデオフレームにおける画素点の、第1ビデオフレームにおける2つの次元の変位を表すことができる。該画像ペア1に対応する逆方向変位行列を、第2ビデオフレームに対応する逆方向変位行列と総称することができる。 It should be understood that for each video frame in the target video, the number of pixel points in each video frame is the same, so these four matrices (ie,) corresponding to the image pair 1 calculated by the optical flow method . , Matrix Q 1, 2, x , Matrix Q 1, 2, y , Matrix Q 2, 1, x , Matrix Q 2, 1, y ) have the same matrix size. For example, when the number of pixel points in each video frame is m × n, the matrix size of the acquired four matrices may be m × n. As can be seen, each matrix element of the forward horizontal displacement matrix and the forward vertical displacement matrix can correspond to the pixel points in the first video frame. Therefore, each matrix element of the forward displacement matrix corresponding to the image pair 1 can represent a two-dimensional displacement of the pixel points in the first video frame in the second video frame. The forward displacement matrix corresponding to the image pair 1 can be collectively referred to as a forward displacement matrix corresponding to the first video frame. Similarly, each matrix element of the reverse displacement matrix corresponding to the image pair 1 can represent a two-dimensional displacement of the pixel points in the second video frame in the first video frame. The reverse displacement matrix corresponding to the image pair 1 can be collectively referred to as a reverse displacement matrix corresponding to the second video frame.

アプリケーションサーバは、前記第1ビデオフレームにおける画素点の中から、第1画素点を取得し、前記第1ビデオフレームにおいて、前記第1画素点の第1位置情報を決定し、前記順方向変位行列から、前記第1画素点に対応する第1横方向変位及び第1縦方向変位を決定してもよい。さらに、アプリケーションサーバは、前記第1画素点の第1位置情報と、前記第1画素点に対応する第1横方向変位及び第1縦方向変位とに基づいて、前記第1画素点を前記第2ビデオフレームに順方向にマッピングし、前記第2ビデオフレームにおいて、マッピングされた第2画素点の第2位置情報を決定してもよい。さらに、アプリケーションサーバは、前記逆方向変位行列から、前記第2画素点に対応する第2横方向変位及び第2縦方向変位を決定し、前記第2画素点の第2位置情報と、前記第2画素点に対応する第2横方向変位及び第2縦方向変位とに基づいて、前記第2画素点を前記第1ビデオフレームに逆方向にマッピングし、前記第1ビデオフレームにおいて、マッピングされた第3画素点の第3位置情報を決定してもよい。さらに、アプリケーションサーバは、前記第1画素点の第1位置情報と、前記第3画素点の第3位置情報とに基づいて、前記第1画素点と前記第3画素点との誤差距離を決定し、前記第1画素点の第1位置情報と、前記第2画素点の第2位置情報とに基づいて、第1画素点を含む画像ブロックと、前記第2画素点を含む画像ブロックとの相関係数を決定してもよい。さらに、アプリケーションサーバは、前記画素点のうち、誤差距離が誤差距離閾値未満であり、かつ前記相関係数が相関係数閾値以上である画素点を有効画素点として決定してもよい。 The application server acquires the first pixel point from the pixel points in the first video frame, determines the first position information of the first pixel point in the first video frame, and determines the first position information of the first pixel point, and the forward displacement matrix. Therefore, the first lateral displacement and the first longitudinal displacement corresponding to the first pixel point may be determined. Further, the application server determines the first pixel point as the first pixel point based on the first position information of the first pixel point and the first lateral displacement and the first vertical displacement corresponding to the first pixel point. It may be mapped in the forward direction to the two video frames, and the second position information of the mapped second pixel point may be determined in the second video frame. Further, the application server determines the second lateral displacement and the second longitudinal displacement corresponding to the second pixel point from the reverse displacement matrix, and obtains the second position information of the second pixel point and the second pixel point. Based on the second lateral displacement and the second longitudinal displacement corresponding to the two pixel points, the second pixel point was mapped in the opposite direction to the first video frame and mapped in the first video frame. The third position information of the third pixel point may be determined. Further, the application server determines the error distance between the first pixel point and the third pixel point based on the first position information of the first pixel point and the third position information of the third pixel point. Then, based on the first position information of the first pixel point and the second position information of the second pixel point, the image block including the first pixel point and the image block including the second pixel point The correlation coefficient may be determined. Further, the application server may determine, among the pixel points, the pixel points whose error distance is less than the error distance threshold and whose correlation coefficient is equal to or larger than the correlation coefficient threshold as effective pixel points.

理解を容易にするために、さらに、本願の実施例で提供される有効画素点を決定する方法の模式図である図9を参照されたい。図9に示すように、該アプリケーションサーバは、この4つの行列の行列要素を選別する前に、まず、該第1ビデオフレームと同じサイズの状態行列Sを初期化してもよい。この場合、該アプリケーションサーバは、該状態行列Sを初期状態行列と呼ぶことができる。ここで、該初期状態行列において、各画素点それぞれに対応する行列要素の値は、第1数値と呼ぶことができる。このとき、該初期状態行列における第1数値は、いずれも、ゼロである。該初期状態行列の行列要素の値の変化状況は、第1ビデオフレームにおける画素点がターゲット選別条件を満たすか否かを表すために用いることができる。これにより、ターゲット選別条件を満たす画素点を有効追跡画素点(即ち、有効画素点)とすることができる。 Further, for ease of understanding, see FIG. 9, which is a schematic diagram of the method of determining effective pixel points provided in the embodiments of the present application. As shown in FIG. 9, the application server may first initialize the state matrix S1 having the same size as the first video frame before selecting the matrix elements of the four matrices. In this case, the application server can call the state matrix S 1 the initial state matrix. Here, in the initial state matrix, the value of the matrix element corresponding to each pixel point can be called a first numerical value. At this time, the first numerical value in the initial state matrix is zero. The change state of the value of the matrix element of the initial state matrix can be used to indicate whether or not the pixel point in the first video frame satisfies the target selection condition. As a result, the pixel points satisfying the target selection condition can be set as effective tracking pixel points (that is, effective pixel points).

さらに、該アプリケーションサーバは、第1ビデオフレームにおいて、第1画素点p1の第1位置情報と、行列変換された第3画素点p1’の第3位置情報との2つの位置間の誤距離11’を決定することができる。さらに、アプリケーションサーバは、図9に示す第1ビデオフレームにおいて、第1画素点p1の第1位置情報を中心として、サイズがk*k画素(例えば、8*8画素)である画像ブロック10を選択してもよい。また、図9に示すように、アプリケーションサーバは、図9に示す第2ビデオフレームにおいて、第2画素点p2の第2位置情報を中心として、同様に、サイズがk*k画素である画像ブロック20を選択してもよく、さらに、この2つの画像ブロック間の相関係数(該相関係数は、N1,2であってもよい)を計算してもよい。 Further, the application server has an error distance between two positions of the first position information of the first pixel point p1 and the third position information of the matrix-converted third pixel point p1'in the first video frame. t 11'can be determined. Further, the application server displays an image block 10 having a size of k * k pixels (for example, 8 * 8 pixels) centered on the first position information of the first pixel point p1 in the first video frame shown in FIG. You may choose. Further, as shown in FIG. 9, the application server similarly has an image block having a size of k * k pixels centered on the second position information of the second pixel point p2 in the second video frame shown in FIG. 20 may be selected, and a correlation coefficient between the two image blocks (the correlation coefficient may be N 1 , 2) may be calculated.

ここで、理解できるように、本願の実施例では、図9に示す第1画素点p1と第3画素点p1’との誤差距離を算出した後、この算出した誤差距離を、予め設定された誤差距離閾値と比較してもよい。t11’<T、かつN1,2≧Tである場合は(ここで、Tは設定された誤差距離閾値、Tは設定された相関係数閾値)、該第1ビデオフレームにおける第1画素点p1が前述のターゲット選別条件を満たすことを表すため、該第1画素点p1が有効画素点であると決定することができる。 Here, as can be understood, in the embodiment of the present application, after the error distance between the first pixel point p1 and the third pixel point p1'shown in FIG. 9 is calculated, the calculated error distance is set in advance. It may be compared with the error distance threshold . If t 11' < TB and N 1, 2TA (where TB is the set error distance threshold and TA is the set correlation coefficient threshold), the first video frame. Since the first pixel point p1 in 1 satisfies the above-mentioned target selection condition, it can be determined that the first pixel point p1 is an effective pixel point.

さらに、該アプリケーションサーバは、初期状態行列Sにおける、該第1画素点p1に対応する位置にある行列要素の値を第2数値に設定してもよい。例えば、第1ビデオフレームにおける第1画素点p1が有効画素点であることを表すために、該初期状態行列Sにおける、第1画素点p1に対応する要素の値を0から1に切り替えてもよい。逆に、t11’≧TB、及び/又は、N1,2<Tである場合は、該第1ビデオフレームにおける第1画素点p1が前述のターゲット選別条件を満たさないことを表す。この場合、該アプリケーションサーバは、上記図9に示す第1画素点p1を無効追跡画素点と判断することができる。即ち、該初期状態行列Sにおいて、第1画素点p1に対応する要素の値は、0のままである。これと同時に、該アプリケーションサーバは、さらに、上記の順方向変位行列(即ち、上記行列Q1,2,x及び行列Q1,2,y)における、該第1画素点p1に対応する位置にある行列要素の値を0に設定してもよい。これにより、前記第1数値を含むこの順方向変位行列を、ターゲット変位行列(例えば、順方向水平変位行列Qx1及び順方向垂直変位行列Qy1)として決定することができる。即ち、該ターゲット変位行列におけるこれらの位置にある行列要素は、上記の順方向変位行列から選別されて、大きな誤差が存在する誤り追跡変位が除外された後に決定された行列を表すために用いることができる。 Further, the application server may set the value of the matrix element at the position corresponding to the first pixel point p1 in the initial state matrix S1 to the second numerical value. For example, in order to indicate that the first pixel point p1 in the first video frame is an effective pixel point, the value of the element corresponding to the first pixel point p1 in the initial state matrix S1 is switched from 0 to 1. May be good. On the contrary, when t 11'TB and / or N 1, 2 < TA , it means that the first pixel point p1 in the first video frame does not satisfy the above-mentioned target selection condition. In this case, the application server can determine that the first pixel point p1 shown in FIG. 9 is an invalid tracking pixel point. That is, in the initial state matrix S1, the value of the element corresponding to the first pixel point p1 remains 0. At the same time, the application server is further located at a position corresponding to the first pixel point p1 in the forward displacement matrix (that is, the matrix Q1 , 2, x and the matrix Q 1, 2, y ). The value of a matrix element may be set to 0. Thereby, the forward displacement matrix including the first numerical value can be determined as the target displacement matrix (for example, the forward horizontal displacement matrix Q x1 and the forward vertical displacement matrix Q y1 ). That is, the matrix elements at these positions in the target displacement matrix are used to represent the matrix determined after the error tracking displacements with large errors are excluded from the forward displacement matrix described above. Can be done.

理解できるように、上記図9に示す他の画素点については、図9に示す第1ビデオフレームから画素点を順次選択して第1画素点として、有効画素点を決定する上記のステップを繰り返してもよい。該第1ビデオフレームにおける全ての画素点のいずれも第1画素点とされると、該第1ビデオフレームにおける全ての有効画素点を決定することができる。これにより、該有効画素点の該初期状態行列における位置情報に基づいて、該初期状態行列における行列要素を更新することができ、さらに、第2数値を含む初期状態行列を、前記第1ビデオフレームに対応するターゲット状態行列Sとして決定することができる。そして、該第1ビデオフレームに対応するターゲット変位行列(即ち、ターゲット水平変位行列Qx,1及びターゲット垂直変位行列Qy,1)を取得することができる。同様に、複数の画像ペアのうちの他の画像ペアについても、画像ペア1から有効画素点を決定する上記のステップを繰り返すことにより、残りの画像ペアのそれぞれにおける第1ビデオフレームに対応するターゲット状態行列、ターゲット変位行列を取得することができる。例えば、ターゲットビデオにおける、ビデオフレーム番号がそれぞれ1、2、3、4、…、nである連続する複数のビデオフレームを例にとると、構成された複数の画像ペアは、それぞれ、(1,2)、(2,3)、(3,4)、…、(n-1,n)と表すことができる。そうすると、各画像ペアそれぞれに対応するオプティカルフロー追跡結果から、上記の有効画素点の判断方式によって、画像ペア(1,2)に対応するターゲット状態行列Sと、画像ペア(1,2)に対応するターゲット変位行列Q(即ち、前述のターゲット水平変位行列Qx,1及びターゲット垂直変位行列Qy,1)を最終的に取得することができる。このようにして、画像ペア(n-1,n)に対応するターゲット状態行列Sn-1と、画像ペア(n-1)に対応するターゲット変位行列Qn-1(即ち、前述のターゲット水平変位行列Qx,n-1及びターゲット水垂直位行列Qy,n-1)を取得することができる。 As can be understood, for the other pixel points shown in FIG. 9, the above steps of sequentially selecting the pixel points from the first video frame shown in FIG. 9 and using them as the first pixel points to determine the effective pixel points are repeated. You may. If any of all the pixel points in the first video frame is set as the first pixel point, all the effective pixel points in the first video frame can be determined. Thereby, the matrix element in the initial state matrix can be updated based on the position information of the effective pixel point in the initial state matrix, and the initial state matrix including the second numerical value can be obtained by the first video frame. Can be determined as the target state matrix S1 corresponding to. Then, the target displacement matrix corresponding to the first video frame (that is, the target horizontal displacement matrix Q x, 1 and the target vertical displacement matrix Q y, 1 ) can be acquired. Similarly, for other image pairs among the plurality of image pairs, the target corresponding to the first video frame in each of the remaining image pairs can be obtained by repeating the above step of determining the effective pixel points from the image pair 1. The state matrix and target displacement matrix can be obtained. For example, taking a plurality of consecutive video frames having video frame numbers 1, 2, 3, 4, ..., N in the target video as an example, the plurality of configured image pairs are each (1, 1,). It can be expressed as 2), (2,3), (3,4), ..., (N-1, n). Then, from the optical flow tracking result corresponding to each image pair, the target state matrix S1 corresponding to the image pair ( 1 , 2) and the image pair (1, 2) are obtained by the above-mentioned effective pixel point determination method. The corresponding target displacement matrix Q 1 (that is, the target horizontal displacement matrix Q x, 1 and the target vertical displacement matrix Q y, 1 described above) can be finally obtained. In this way, the target state matrix S n-1 corresponding to the image pair ( n-1 , n ) and the target displacement matrix Q n-1 corresponding to the image pair (n-1, n) (that is, described above). The target horizontal displacement matrix Q x, n-1 and the target horizontal position matrix Q y, n-1 ) can be acquired.

ここで、変位差分行列Qdif(x,y)は、横方向変位差分行列Qx,dif(x,y)と、縦方向変位分行列Qy,dif(x,y)と、を含んでもよい。該状態分行列Sdif(x,y)、横方向変位差分行列Qx,dif(x,y)、及び縦方向変位分行列Qy,dif(x,y)は、次の変位差分演算式(数式5)によって取得することができる。 Here, the displacement difference matrix Q dif (x, y) includes the lateral displacement difference matrix Q x, dif (x, y) and the vertical displacement difference matrix Q y, dif (x, y). But it may be. The state difference matrix S dif (x, y), the lateral displacement difference matrix Q x, dif (x, y), and the vertical displacement difference matrix Q y, dif (x, y) are the following displacement differences. It can be obtained by the calculation formula (formula 5).

さらに、該アプリケーションサーバは、横方向変位差分行列Qx,dif(x,y)と前記状態差分行列Sdif(x,y)との比を横方向平均変位行列Qx,F(x,y)として決定し、前記縦方向変位差分行列Qy,dif (x,y)と前記状態差分行列Sdif(x,y)との比を縦方向平均変位行列Qy,F(x,y)として決定してもよい。 Further, the application server sets the ratio of the lateral displacement difference matrix Q x, def (x, y) and the state difference matrix S div (x, y) to the lateral average displacement matrix Q x, F (x, y). ), And the ratio of the vertical displacement difference matrix Q y, dif (x, y) to the state difference matrix S dif (x, y) is the vertical average displacement matrix Q y, F (x, y). May be determined as.

具体的には、アプリケーションサーバは、前述したステップS20で取得された平均変位行列(該平均変位行列は、横方向平均変位行列Qx,F(x,y)と、縦方向平均変位行列Qy,F(x,y)と、を含んでもよい)に基づいて、さらに、該第1ビデオフレームにおける画素点の、次のビデオフレーム(即ち、上記の画像ペア1における第2ビデオフレーム)における出現位置情報を迅速かつ正確に追跡することができ、即ち、変位変換を行うことにより、前記第2ビデオフレームにおいて、該第1ビデオフレームにおける画素点を追跡して得られた画素点の位置情報を決定することができる。 Specifically, the application server uses the average displacement matrix acquired in step S202 described above (the average displacement matrix is the horizontal average displacement matrix Q x, F (x, y) and the vertical average displacement matrix Q. Based on y, F (x, y) and may be included), further in the next video frame (ie, the second video frame in the image pair 1 above) of the pixel points in the first video frame. The appearance position information can be quickly and accurately tracked, that is, the position information of the pixel points obtained by tracking the pixel points in the first video frame in the second video frame by performing displacement conversion. Can be determined.

数式8におけるxは、該第1ビデオフレームにおける画素点の横方向の位置座標であり、Qx,F(x,y)は、該第1ビデオフレームに対応する横方向平均変位行列であり、該数式8によって、第1ビデオフレームにおける画素点の横方向の位置座標を座標変換して、該第1ビデオフレームにおける画素点の、次のビデオフレームにおける横方向の位置座標を取得することができる。同様に、数式9におけるyは、該第1ビデオフレームにおける画素点の縦方向の位置座標であり、Q (x,y)は、該第1ビデオフレームに対応する縦方向平均変位行列であり、該数式9によって、第1ビデオフレームにおける画素点の縦方向位置座標を座標変換して、該第1ビデオフレームにおける画素点の、次のビデオフレームにおける縦方向の位置座標を取得することができる。 In Equation 8, x is the lateral position coordinate of the pixel point in the first video frame, and Q x, F (x, y) is the lateral average displacement matrix corresponding to the first video frame. According to the equation 8, the lateral position coordinates of the pixel points in the first video frame can be coordinate-converted, and the lateral position coordinates of the pixel points in the first video frame can be obtained in the next video frame. .. Similarly, y in Equation 9 is the vertical position coordinate of the pixel point in the first video frame, and Q y , F (x, y) is the vertical average displacement matrix corresponding to the first video frame. In addition, according to the equation 9, the vertical position coordinates of the pixel points in the first video frame are coordinate-converted, and the vertical position coordinates of the pixel points in the first video frame are obtained in the next video frame. Can be done.

具体的には、アプリケーションサーバは、該軌跡取得要求から、該キービデオフレームのターゲットビデオにおけるビデオフレーム番号と、ターゲット画素点の該キービデオフレームにおける位置情報とを取得してもよく、さらに、該アプリケーションサーバが予め取得した、該ターゲットビデオに関連付けられた軌跡情報の中から、該ターゲット画素点に関連付けられた軌跡情報を選別してもよく、選別した軌跡情報をターゲット軌跡情報と呼ぶことができ、さらに、該ターゲット軌跡情報をターゲットユーザ端末に返信してもよい。これにより、該ターゲットユーザ端末は、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける出現位置情報が取得されるまで、該キービデオフレームのフレーム番号に基づいて、受信した該ターゲット軌跡情報の中から、ターゲット画素点の、該キービデオフレームの次のビデオフレームにおける出現位置情報を迅速に見つけることができる。この場合、該ターゲットユーザ端末は、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける出現位置情報からなる新たな軌跡情報をターゲット軌跡情報と呼ぶことができる。任意選択的に、理解すべきものとして、該アプリケーションサーバは、該キービデオフレームのフレーム番号を取得すると、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける出現位置情報が取得されるまで、選別した該軌跡情報の中から、ターゲット画素点の、該キービデオフレームの次のビデオフレームにおける出現位置情報を迅速に見つけてもよい。この場合、該アプリケーションサーバは、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける出現位置情報からなる新たな軌跡情報をターゲット軌跡情報と呼ぶことができる。 Specifically, the application server may acquire the video frame number in the target video of the key video frame and the position information of the target pixel point in the key video frame from the trajectory acquisition request, and further, the said. The trajectory information associated with the target pixel point may be selected from the trajectory information associated with the target video acquired in advance by the application server, and the selected trajectory information can be referred to as target trajectory information. Further, the target locus information may be returned to the target user terminal. As a result, the target user terminal receives the target based on the frame number of the key video frame until the appearance position information of the target pixel point in each video frame after the key video frame is acquired. From the locus information, it is possible to quickly find the appearance position information of the target pixel point in the video frame next to the key video frame. In this case, the target user terminal can refer to new locus information consisting of appearance position information of the target pixel point in each video frame after the key video frame as target locus information . Optionally, it should be understood that when the application server acquires the frame number of the key video frame, the appearance position information of the target pixel point in each video frame after the key video frame is acquired. From the selected locus information, the appearance position information of the target pixel point in the video frame next to the key video frame may be quickly found. In this case, the application server can call the new locus information consisting of the appearance position information of the target pixel point in each video frame after the key video frame as the target locus information.

理解できるように、任意選択的に、該ターゲットユーザ端末は、該アプリケーションサーバによって検索された、該ターゲット画素点のキービデオフレームにおける位置情報を含む軌跡情報(即ち、上記画素点Aに対応する軌跡情報)を、ターゲット軌跡情報と総称することもできる。この場合、該ターゲット軌跡情報は、該ターゲットビデオの全ての画素点の中から検索された、ターゲット画素点にマッチングする画素点Aに対応する軌跡情報と見なすことができる。該軌跡情報は、該画素点Aの、該ターゲットビデオの各ビデオフレームにおける位置情報を含むことができるので、当然、該軌跡情報の中から、該ターゲット画素点の、該キービデオフレームの後の各ビデオフレームにおける位置情報を迅速に取得することもできる。 As can be understood, optionally, the target user terminal has a locus information including position information in a key video frame of the target pixel point searched by the application server (that is, a locus corresponding to the pixel point A). Information) can also be collectively referred to as target trajectory information. In this case, the target locus information can be regarded as locus information corresponding to the pixel point A matching the target pixel point, which is searched from all the pixel points of the target video. Since the locus information can include the position information of the pixel point A in each video frame of the target video, naturally, from the locus information, after the key video frame of the target pixel point. It is also possible to quickly acquire the position information in each video frame.

ここで、理解できるように、本願の実施例では、ターゲットユーザによって選択されたターゲットオブジェクトにおけるターゲット画素点を取得すると、予め算出された、全ての画素点のそれぞれに対応するこれらの軌跡情報の中から、該キービデオフレームにおけるターゲット画素点の位置情報に関連付けられた軌跡情報を選別することができ、さらに、選別した軌跡情報をターゲット軌跡情報と呼ぶことができる。本願の実施例では、該ビデオの各ビデオフレームにおける画素点の画素追跡を予め行うことができるので、各画像ペアそれぞれにおける第1ビデオフレームに対応する平均変位行列を取得すると、該ビデオにおける各画素点の、対応するビデオフレームにおける位置情報を迅速に取得することができる。理解すべきものとして、予め算出された、各画素点の、対応するビデオフレームにおける位置情報は、現在ビデオ再生インタフェースで再生されている該ビデオにおける各画素点の、対応するビデオフレームにおける位置情報を表すために用いることができる。したがって、ターゲットユーザ端末は、ターゲットオブジェクトにおけるターゲット画素点、及びターゲットオブジェクトに関連付けられたマルチメディア情報を取得すると、全ての画素点のそれぞれに対応する軌跡情報の中から選別された、該ターゲット画素点に対応する軌跡情報をターゲット軌跡情報と呼ぶことができ、さらに、該ターゲット軌跡情報をターゲットユーザ端末に返信することができる。これにより、該ターゲットユーザ端末は、該ターゲット軌跡情報に付されている、該ターゲット画素点の、キービデオフレームの後の各ビデオフレームにおける位置情報に基づいて、該ターゲットオブジェクトに関連付けられたマルチメディア情報(例えば、弾幕データ)を追跡して表示することができる。 Here, as can be understood, in the embodiment of the present application, when the target pixel points in the target object selected by the target user are acquired, the locus information corresponding to each of all the pixel points calculated in advance is included. Therefore, the locus information associated with the position information of the target pixel point in the key video frame can be selected, and the selected locus information can be called the target locus information. In the embodiment of the present application, pixel tracking of pixel points in each video frame of the video can be performed in advance. Therefore, when the average displacement matrix corresponding to the first video frame in each image pair is acquired, each pixel in the video is obtained. The position information of the point in the corresponding video frame can be quickly acquired. It should be understood that the pre-calculated position information of each pixel point in the corresponding video frame represents the position information of each pixel point in the video currently being played on the video playback interface in the corresponding video frame. Can be used for Therefore, when the target user terminal acquires the target pixel point in the target object and the multimedia information associated with the target object, the target pixel point is selected from the locus information corresponding to each of the target pixel points. The locus information corresponding to can be called the target locus information, and the target locus information can be returned to the target user terminal. As a result, the target user terminal is attached to the target locus information, and the multimedia associated with the target object is based on the position information of the target pixel point in each video frame after the key video frame. Information (eg, barrage data) can be tracked and displayed.

さらに、本願の実施例で提供されるコンピュータ機器の構成の模式図である図12を参照されたい。図12に示すように、コンピュータ機器1000は、上記図1に対応する実施例におけるターゲットユーザ端末であってもよい。上記コンピュータ機器1000は、プロセッサ1001と、ネットワークインタフェース1004と、メモリ1005と、を含んでもよい。また、上記コンピュータ機器1000は、ユーザインタフェース1003と、少なくとも1つの通信バス1002と、を含んでもよい。ここで、通信バス1002は、これらのコンポーネント間の接続通信を実現するためのものである。ここで、ユーザインタフェース1003は、ディスプレイ(Display)、キーボード(Keyboard)を含んでもよい。任意選択的なユーザインタフェース1003は、標準的な有線インタフェース、無線インタフェースを含んでもよい。ネットワークインタフェース1004は、任意選択的に、標準的な有線インタフェース、無線インタフェース(例えば、Wi-Fiインタフェース)を含んでもよい。メモリ100は、高速RAMであってもよく、不揮発性メモリ(non-volatile memory)、例えば、少なくとも1つの磁気ディスクメモリであってもよい。メモリ1005は、任意選択的に、前述のプロセッサ1001から離れた位置にある少なくとも1つの記憶装置であってもよい。図12に示すように、コンピュータ記憶媒体であるメモリ1005には、オペレーティングシステム、ネットワーク通信モジュール、ユーザインタフェースモジュール、及び機器制御アプリケーションが含まれてもよい。 Further, see FIG. 12, which is a schematic diagram of the configuration of the computer equipment provided in the embodiments of the present application. As shown in FIG. 12, the computer device 1000 may be the target user terminal in the embodiment corresponding to FIG. 1 above. The computer device 1000 may include a processor 1001, a network interface 1004, and a memory 1005. Further, the computer device 1000 may include a user interface 1003 and at least one communication bus 1002. Here, the communication bus 1002 is for realizing connection communication between these components. Here, the user interface 1003 may include a display (Display) and a keyboard (Keyboard). The optional user interface 1003 may include standard wired and wireless interfaces. The network interface 1004 may optionally include standard wired and wireless interfaces (eg, Wi-Fi interfaces). The memory 100 5 may be a high-speed RAM or a non-volatile memory, for example, at least one magnetic disk memory. The memory 1005 may optionally be at least one storage device located away from the processor 1001 described above. As shown in FIG. 12, the memory 1005, which is a computer storage medium, may include an operating system, a network communication module, a user interface module, and a device control application.

さらに、本願の実施例で提供される別のコンピュータ機器の構成の模式図である図14を参照されたい。図14に示すように、コンピュータ機器2000は、上記図1に対応する実施例におけるサービスサーバ2000であってもよい。上記コンピュータ機器2000は、プロセッサ2001と、ネットワークインタフェース2004と、メモリ2005と、を含んでもよい。さらに、上記コンピュータ機器2000は、ユーザインタフェース2003と、少なくとも1つの通信バス2002と、を含んでもよい。ここで、通信バス2002は、これらのコンポーネント間の接続通信を実現するためのものである。ここで、ユーザインタフェース2003は、ディスプレイ(Display)、キーボード(Keyboard)を含んでもよく、任意選択的なユーザインタフェース2003は、標準的な有線インタフェース、無線インタフェースを含んでもよい。ネットワークインタフェース2004は、任意選択的に、標準的な有線インタフェース、無線インタフェース(例えば、Wi-Fiインタフェース)を含んでもよい。メモリ200は、高速RAMであってもよく、不揮発性メモリ(non-volatile memory)、例えば、少なくとも1つの磁気ディスクメモリであってもよい。メモリ2005は、任意選択的に、前述のプロセッサ2001から離れた位置にある少なくとも1つの記憶装置であってもよい。図14に示すように、コンピュータ記憶媒体であるメモリ2005には、オペレーティングシステム、ネットワーク通信モジュール、ユーザインタフェースモジュール、及び機器制御アプリケーションが含まれてもよい。 Further, see FIG. 14, which is a schematic diagram of the configuration of another computer device provided in the embodiments of the present application. As shown in FIG. 14, the computer device 2000 may be the service server 2000 in the embodiment corresponding to FIG. 1 above. The computer device 2000 may include a processor 2001, a network interface 2004, and a memory 2005. Further, the computer equipment 2000 may include a user interface 2003 and at least one communication bus 2002. Here, the communication bus 2002 is for realizing connection communication between these components. Here, the user interface 2003 may include a display and a keyboard, and the optional user interface 2003 may include a standard wired interface and a wireless interface. The network interface 2004 may optionally include standard wired and wireless interfaces (eg, Wi-Fi interfaces). The memory 2005 may be a high - speed RAM or a non-volatile memory, for example, at least one magnetic disk memory. The memory 2005 may optionally be at least one storage device located away from the aforementioned processor 2001. As shown in FIG. 14, memory 2005, which is a computer storage medium, may include an operating system, a network communication module, a user interface module, and a device control application.

変位設定サブユニット4043は、前記順方向変位行列において、残りの画素点に対応する行列要素の変位を前記第1数値に設定し、前記第1数値を含む順方向変位行列をターゲット変位行列として決定し、前記残りの画素点は、前記画素点のうち前記有効画素点以外の画素点である。 In the forward displacement matrix, the displacement setting subsystem 4043 sets the displacement of the matrix element corresponding to the remaining pixel points to the first numerical value, and sets the forward displacement matrix including the first numerical value as the target displacement matrix. The remaining pixel points are determined and are pixel points other than the effective pixel points among the pixel points.

ここで、前記変位設定サブユニット4043は、具体的に、前記順方向変位行列に初期横方向変位行列及び初期縦方向変位行列が含まれる場合、前記初期横方向変位行列において、前記残りの画素点に対応する行列要素の第1横方向変位を前記第1数値に設定し、前記第1数値を含む初期横方向変位行列を、前記第1ビデオフレームに対応する横方向変位行列として決定する。 Here, the displacement setting subsystem 4043 specifically, when the forward displacement matrix includes the initial lateral displacement matrix and the initial longitudinal displacement matrix, the remaining pixel points in the initial lateral displacement matrix. The first lateral displacement of the matrix element corresponding to is set to the first numerical value, and the initial lateral displacement matrix including the first numerical value is determined as the lateral displacement matrix corresponding to the first video frame.

さらに、前記変位設定サブユニット4043は、具体的に、前記初期縦方向変位行列において、前記残りの画素点に対応する行列要素の第1縦方向変位を前記第1数値に設定し、前記第1数値を含む初期縦方向変位行列を、前記第1ビデオフレームに対応する縦方向変位行列として決定する。 Further, the displacement setting subsystem 4043 specifically sets the first vertical displacement of the matrix element corresponding to the remaining pixel points to the first numerical value in the initial vertical displacement matrix, and sets the first numerical value. The initial vertical displacement matrix including the numerical values is determined as the vertical displacement matrix corresponding to the first video frame.

第2積分サブユニット4052は、前記第1ビデオフレームにおいて、前記ターゲット変位行列における横方向変位行列に対して変位積分演算を行うことにより、前記第1ビデオフレームにおける画素点に対応する横方向変位積分行列を取得する。 In the first video frame, the second integration subsystem 4052 performs a displacement integration calculation on the lateral displacement matrix in the target displacement matrix, thereby performing the lateral displacement integration corresponding to the pixel points in the first video frame. Get the matrix.

第3積分サブユニット4053は、前記第1ビデオフレームにおいて、前記ターゲット変位行列における縦方向変位行列に対して変位積分演算を行うことにより、前記第1ビデオフレームにおける画素点に対応する縦方向変位積分行列を取得する。 The third integration subsystem 4053 performs a displacement integration calculation on the vertical displacement matrix in the target displacement matrix in the first video frame, thereby performing a vertical displacement integration corresponding to the pixel points in the first video frame. Get the matrix.

第1差分サブユニット4055は、前記差分領域に対応する長さ情報及び幅情報に基づいて、前記状態積分行列に対して変位差分演算を行うことにより、前記第1ビデオフレームに対応する状態差分行列を取得する。 The first difference subsystem 4055 performs a displacement difference operation on the state integral matrix based on the length information and the width information corresponding to the difference region, so that the state difference matrix corresponding to the first video frame is performed. To get.

第2差分サブユニット4056は、前記差分領域に対応する長さ情報及び幅情報に基づいて、前記横方向変位積分行列及び前記縦方向変位積分行列のそれぞれに対して変位差分演算を行うことにより、前記第1ビデオフレームに対応する横方向変位差分行列及び縦方向変位差分行列を取得する。 The second difference subsystem 4056 performs a displacement difference calculation for each of the lateral displacement integral matrix and the vertical displacement integral matrix based on the length information and the width information corresponding to the difference region. The horizontal displacement difference matrix and the vertical displacement difference matrix corresponding to the first video frame are acquired.

平均決定サブユニット4058は、前記方向平均位行列及び前記縦方向平均変位行列を、前記第1ビデオフレームに対応する平均変位行列として決定する。 The average determination subunit 4058 determines the horizontal average displacement matrix and the vertical average displacement matrix as the average displacement matrix corresponding to the first video frame.

さらに、本願の実施例で提供される別のコンピュータ機器の構成の模式図である図16を参照されたい。図16に示すように、上記コンピュータ機器3000は、上記図1に対応する実施例におけるサービスサーバ2000に適用できる。上記コンピュータ機器3000は、プロセッサ3001と、ネットワークインタフェース3004と、メモリ3005と、を含んでもよい。さらに、上記コンピュータ機器3000は、ユーザインタフェース3003と、及び少なくとも1つの通信バス3002と、を含んでもよい。ここで、通信バス3002は、これらのコンポーネント間の接続通信を実現するためのものである。ここで、ユーザインタフェース3003は、ディスプレイ(Display)、キーボード(Keyboard)を含んでもよく、任意選択的なユーザインタフェース3003は、標準的な有線インタフェース、無線インタフェースを含んでもよい。ネットワークインタフェース3004は、任意選択的に、標準的な有線インタフェース、無線インタフェース(例えば、Wi-Fiインタフェース)を含んでもよい。メモリ300は、高速RAMであってもよく、不揮発性メモリ(non-volatile memory)、例えば、少なくとも1つの磁気ディスクメモリであってもよい。メモリ3005は、任意選択的に、前述のプロセッサ3001から離れた位置にある少なくとも1つの記憶装置であってもよい。図16に示すように、コンピュータ記憶媒体であるメモリ3005には、オペレーティングシステム、ネットワーク通信モジュール、ユーザインタフェースモジュール、及び機器制御アプリケーションが含まれてもよい。 Further, see FIG. 16, which is a schematic diagram of the configuration of another computer device provided in the embodiments of the present application. As shown in FIG. 16, the computer device 3000 can be applied to the service server 2000 in the embodiment corresponding to FIG. 1. The computer device 3000 may include a processor 3001, a network interface 3004, and a memory 3005. Further, the computer device 3000 may include a user interface 3003 and at least one communication bus 3002. Here, the communication bus 3002 is for realizing connection communication between these components. Here, the user interface 3003 may include a display and a keyboard, and the optional user interface 3003 may include a standard wired interface and a wireless interface. The network interface 3004 may optionally include standard wired and wireless interfaces (eg, Wi-Fi interfaces). The memory 300 5 may be a high-speed RAM or a non-volatile memory, for example, at least one magnetic disk memory. The memory 3005 may optionally be at least one storage device located away from the processor 3001 described above. As shown in FIG. 16, the memory 3005, which is a computer storage medium, may include an operating system, a network communication module, a user interface module, and a device control application.

Claims (15)

コンピュータ機器に適用されるビデオデータ処理方法であって、
ターゲットビデオに対するトリガ操作に応答して、前記ターゲットビデオのキービデオフレームからターゲット画素点を決定し、前記ターゲット画素点に関連付けられたマルチメディア情報を取得するステップであって、前記キービデオフレームは、前記トリガ操作が位置するビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける、前記トリガ操作に対応する画素点である、ステップと、
前記ターゲット画素点の前記キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定するステップと、
前記軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得するステップであって、前記ターゲット軌跡情報は、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報を含み、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報は、前記ターゲット画素点を追跡することにより取得されたものである、ステップと、
前記キービデオフレームの次のビデオフレームを再生する際に、前記ターゲット軌跡情報における、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報に基づいて、前記マルチメディア情報を表示するステップと、
を含むことを特徴とする方法。
A video data processing method applied to computer equipment.
A step of determining a target pixel point from a key video frame of the target video in response to a trigger operation on the target video and acquiring multimedia information associated with the target pixel point, wherein the key video frame is a step. A step and a step, which is a video frame in which the trigger operation is located, and the target pixel point is a pixel point corresponding to the trigger operation in the key video frame.
A step of determining a locus acquisition request corresponding to the target pixel point based on the position information of the target pixel point in the key video frame, and
The step of acquiring the target locus information associated with the position information of the target pixel point in the key video frame based on the locus acquisition request, wherein the target locus information is the key video of the target pixel point. The position information of the target pixel point in the next video frame of the key video frame, including the position information in the video frame next to the frame, is obtained by tracking the target pixel point. ,
When playing back the video frame next to the key video frame, the multimedia information is displayed based on the position information of the target pixel point in the video frame next to the key video frame in the target locus information. Steps and
A method characterized by including.
サービスサーバに適用されるビデオデータ処理方法であって、
キービデオフレームにおけるターゲット画素点に対する軌跡取得要求に応答して、ターゲットビデオに関連付けられた軌跡情報を取得するステップであって、前記キービデオフレームは、前記ターゲットビデオにおけるビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける画素点であり、前記軌跡情報は、前記ターゲットビデオの各ビデオフレームにおける画素点の位置情報によって決定されたものである、ステップと、
前記ターゲットビデオに関連付けられた軌跡情報の中から、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を選別し、前記ターゲット軌跡情報を返信するステップであって、前記ターゲット軌跡情報は、ターゲット位置情報を含み、前記ターゲット位置情報は、前記キービデオフレームの次のビデオフレームにおいて、前記ターゲット画素点に関連付けられたマルチメディア情報を表示することをトリガするためのものである、ステップと、
を含むことを特徴とする方法。
Video data processing method applied to service servers
A step of acquiring trajectory information associated with a target video in response to a trajectory acquisition request for a target pixel point in a key video frame, wherein the key video frame is a video frame in the target video and the target pixel. The points are the pixel points in the key video frame, and the locus information is determined by the position information of the pixel points in each video frame of the target video.
It is a step of selecting the target locus information associated with the position information of the target pixel point in the key video frame from the locus information associated with the target video, and returning the target locus information. The locus information includes the target position information, and the target position information is for triggering to display the multimedia information associated with the target pixel point in the next video frame of the key video frame. , Steps and
A method characterized by including.
ビデオデータ処理方法であって、
ターゲットビデオから、隣接する第1ビデオフレーム及び第2ビデオフレームを取得するステップと、
前記ターゲットビデオに対応するオプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点と、前記第2ビデオフレームにおける画素点とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定するステップと、
前記平均変位行列に基づいて、前記第1ビデオフレームにおける画素点の位置情報を追跡し、前記第2ビデオフレームにおいて、追跡された画素点の位置情報を決定するステップと、
前記第1ビデオフレームにおける画素点の位置情報と、前記追跡された画素点の前記第2ビデオフレームにおける位置情報とに基づいて、前記ターゲットビデオに関連付けられた軌跡情報を生成するステップであって、前記軌跡情報は、ターゲットビデオにおけるターゲット画素点に関連付けられたマルチメディア情報を追跡して表示するためのターゲット軌跡情報を含む、ステップと、
を含むことを特徴とする方法。
It ’s a video data processing method.
The step of acquiring the adjacent first video frame and second video frame from the target video, and
A step of determining an average displacement matrix corresponding to the first video frame based on the optical flow tracking rule corresponding to the target video, the pixel points in the first video frame, and the pixel points in the second video frame. When,
A step of tracking the position information of the pixel points in the first video frame based on the average displacement matrix and determining the position information of the traced pixel points in the second video frame.
A step of generating trajectory information associated with the target video based on the position information of the pixel points in the first video frame and the position information of the tracked pixel points in the second video frame. The locus information includes a step and a target locus information for tracking and displaying multimedia information associated with a target pixel point in a target video.
A method characterized by including.
前記ターゲットビデオに対応するオプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点と、前記第2ビデオフレームにおける画素点とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定する前記ステップは、
前記ターゲットビデオに対応するオプティカルフロー追跡規則を取得し、前記第1ビデオフレームにおける画素点の位置情報を第1位置情報として決定し、前記第2ビデオフレームにおける画素点の位置情報を第2位置情報として決定するステップと、
前記オプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点の第1位置情報と、前記第2ビデオフレームにおける画素点の第2位置情報とに基づいて、前記第1ビデオフレームに対応する順方向変位行列を取得し、前記第2ビデオフレームに対応する逆方向変位行列を取得するステップと、
前記第1ビデオフレームにおける画素点の第1位置情報と、前記順方向変位行列と、前記逆方向変位行列とに基づいて、前記画素点のうちターゲット選別条件を満たす画素点を有効画素点として決定するステップと、
前記有効画素点に基づいて、前記第1ビデオフレームに対応する初期状態行列及び前記順方向変位行列を修正することにより、前記第1ビデオフレームに対応するターゲット状態行列及びターゲット変位行列を取得するステップと、
前記ターゲット状態行列及び前記ターゲット変位行列に基づいて、前記第1ビデオフレームに対応する平均変位行列を決定するステップと、
を含むことを特徴とする請求項3に記載の方法。
The said, which determines the average displacement matrix corresponding to the first video frame based on the optical flow tracking rule corresponding to the target video, the pixel points in the first video frame, and the pixel points in the second video frame. The step is
The optical flow tracking rule corresponding to the target video is acquired, the position information of the pixel points in the first video frame is determined as the first position information, and the position information of the pixel points in the second video frame is the second position information. And the steps to decide as
Based on the optical flow tracking rule, the first position information of the pixel point in the first video frame, and the second position information of the pixel point in the second video frame, the forward direction corresponding to the first video frame. The step of acquiring the displacement matrix and acquiring the reverse displacement matrix corresponding to the second video frame,
Based on the first position information of the pixel points in the first video frame, the forward displacement matrix, and the reverse displacement matrix, the pixel points satisfying the target selection condition among the pixel points are determined as effective pixel points. Steps to do and
A step of acquiring a target state matrix and a target displacement matrix corresponding to the first video frame by modifying the initial state matrix and the forward displacement matrix corresponding to the first video frame based on the effective pixel points. When,
A step of determining an average displacement matrix corresponding to the first video frame based on the target state matrix and the target displacement matrix.
The method according to claim 3, wherein the method comprises.
前記オプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点の第1位置情報と、前記第2ビデオフレームにおける画素点の第2位置情報とに基づいて、前記第1ビデオフレームに対応する順方向変位行列を取得し、前記第2ビデオフレームに対応する逆方向変位行列を取得する前記ステップは、
前記第1ビデオフレームにおける画素点の第1位置情報と、前記オプティカルフロー追跡規則とに基づいて、前記第1ビデオフレームにおける画素点を前記第2ビデオフレームに順方向にマッピングし、前記第2ビデオフレームにおいて、マッピングされた第1マッピング点の第2位置情報を決定し、前記画素点の第1位置情報と、前記第1マッピング点の第2位置情報とに基づいて、前記第1ビデオフレームに対応する順方向変位行列を決定するステップと、
前記第2ビデオフレームにおける画素点の第2位置情報と、前記オプティカルフロー追跡規則とに基づいて、前記第2ビデオフレームにおける画素点を前記第1ビデオフレームに逆方向にマッピングし、前記第1ビデオフレームにおいて、マッピングされた第2マッピング点の第3位置情報を決定し、前記第1マッピング点の第2位置情報と、前記第2マッピング点の第3位置情報とに基づいて、前記第2ビデオフレームに対応する逆方向変位行列を決定するステップと、
を含むことを特徴とする請求項4に記載の方法。
Based on the optical flow tracking rule, the first position information of the pixel point in the first video frame, and the second position information of the pixel point in the second video frame, the forward direction corresponding to the first video frame. The step of acquiring the displacement matrix and acquiring the reverse displacement matrix corresponding to the second video frame is
Based on the first position information of the pixel points in the first video frame and the optical flow tracking rule, the pixel points in the first video frame are forward-mapped to the second video frame, and the second video is used. In the frame, the second position information of the mapped first mapping point is determined, and the first video frame is set based on the first position information of the pixel point and the second position information of the first mapping point. Steps to determine the corresponding forward displacement matrix, and
Based on the second position information of the pixel points in the second video frame and the optical flow tracking rule, the pixel points in the second video frame are mapped in the opposite direction to the first video frame, and the first video is used. In the frame, the third position information of the mapped second mapping point is determined, and the second video is based on the second position information of the first mapping point and the third position information of the second mapping point. Steps to determine the reverse displacement matrix corresponding to the frame,
4. The method according to claim 4, wherein the method comprises.
前記第1ビデオフレームにおける画素点の第1位置情報と、前記順方向変位行列と、前記逆方向変位行列とに基づいて、前記画素点のうちターゲット選別条件を満たす画素点を有効画素点として決定する前記ステップは、
前記第1ビデオフレームにおける画素点の中から第1画素点を取得し、前記第1ビデオフレームにおいて、前記第1画素点の第1位置情報を決定し、前記順方向変位行列から、前記第1画素点に対応する第1横方向変位及び第1縦方向変位を決定するステップと、
前記第1画素点の第1位置情報と、前記第1画素点に対応する第1横方向変位及び第1縦方向変位とに基づいて、前記第1画素点を前記第2ビデオフレームに順方向にマッピングし、前記第2ビデオフレームにおいて、マッピングされた第2画素点の第2位置情報を決定するステップと、
前記逆方向変位行列から、前記第2画素点に対応する第2横方向変位及び第2縦方向変位を決定し、前記第2画素点の第2位置情報と、前記第2画素点に対応する第2横方向変位及び第2縦方向変位とに基づいて、前記第2画素点を前記第1ビデオフレームに逆方向にマッピングし、前記第1ビデオフレームにおいて、マッピングされた第3画素点の第3位置情報を決定するステップと、
前記第1画素点の第1位置情報と、前記第3画素点の第3位置情報とに基づいて、前記第1画素点と前記第3画素点との誤差距離を決定し、前記第1画素点の第1位置情報と、前記第2画素点の第2位置情報とに基づいて、第1画素点を含む画像ブロックと、前記第2画素点を含む画像ブロックとの相関係数を決定するステップと、
前記画素点のうち、誤差距離が誤差距離閾値未満であり、かつ前記相関係数が相関係数閾値以上である画素点を有効画素点として決定するステップと、
を含むことを特徴とする請求項4に記載の方法。
Based on the first position information of the pixel points in the first video frame, the forward displacement matrix, and the reverse displacement matrix, the pixel points satisfying the target selection condition among the pixel points are determined as effective pixel points. The steps to be performed are
The first pixel point is acquired from the pixel points in the first video frame, the first position information of the first pixel point is determined in the first video frame, and the first position is obtained from the forward displacement matrix. The step of determining the first lateral displacement and the first longitudinal displacement corresponding to the pixel points, and
Based on the first position information of the first pixel point and the first lateral displacement and the first vertical displacement corresponding to the first pixel point, the first pixel point is forward to the second video frame. And the step of determining the second position information of the mapped second pixel point in the second video frame.
From the reverse displacement matrix, the second lateral displacement and the second longitudinal displacement corresponding to the second pixel point are determined, and the second position information of the second pixel point and the second pixel point correspond to the second pixel point. Based on the second lateral displacement and the second longitudinal displacement, the second pixel point is mapped in the opposite direction to the first video frame, and in the first video frame, the mapped third pixel point is the third. 3 Steps to determine position information and
Based on the first position information of the first pixel point and the third position information of the third pixel point, the error distance between the first pixel point and the third pixel point is determined, and the first pixel. Based on the first position information of the point and the second position information of the second pixel point, the correlation coefficient between the image block including the first pixel point and the image block including the second pixel point is determined. Steps and
Among the pixel points, a step of determining a pixel point whose error distance is less than the error distance threshold value and whose correlation coefficient is equal to or larger than the correlation coefficient threshold value is determined as an effective pixel point.
4. The method according to claim 4, wherein the method comprises.
前記有効画素点に基づいて、前記第1ビデオフレームに対応する初期状態行列及び前記順方向変位行列を修正することにより、前記第1ビデオフレームに対応するターゲット状態行列及びターゲット変位行列を取得する前記ステップは、
前記第1ビデオフレームに対応する初期状態行列を取得するステップであって、前記初期状態行列の各行列要素の状態値は、いずれも第1数値であり、1つの行列要素は、前記画素点のうちの1つに対応する、ステップと、
前記初期状態行列において、前記有効画素点に対応する行列要素の状態値を第1数値から第2数値に切り替え、第2数値を含む初期状態行列を、前記第1ビデオフレームに対応するターゲット状態行列として決定するステップと、
前記順方向変位行列において、前記残りの画素点に対応する行列要素の変位を前記第1数値に設定し、前記第1数値を含む順方向変位行列をターゲット変位行列として決定するステップであって、前記残りの画素点は、前記画素点のうち前記有効画素点以外の画素点である、ステップと、
を含むことを特徴とする請求項4に記載の方法。
The target state matrix and the target displacement matrix corresponding to the first video frame are acquired by modifying the initial state matrix and the forward displacement matrix corresponding to the first video frame based on the effective pixel points. The step is
In the step of acquiring the initial state matrix corresponding to the first video frame, the state values of each matrix element of the initial state matrix are all first numerical values, and one matrix element is the pixel point. Steps and steps that correspond to one of them,
In the initial state matrix, the state value of the matrix element corresponding to the effective pixel point is switched from the first numerical value to the second numerical value, and the initial state matrix including the second numerical value is the target state matrix corresponding to the first video frame. And the steps to decide as
In the forward displacement matrix, the displacement of the matrix element corresponding to the remaining pixel points is set to the first numerical value, and the forward displacement matrix including the first numerical value is determined as the target displacement matrix. The remaining pixel points are pixel points other than the effective pixel points among the pixel points.
4. The method according to claim 4, wherein the method comprises.
前記順方向変位行列において、前記残りの画素点に対応する行列要素の変位を前記第1数値に設定し、前記第1数値を含む順方向変位行列をターゲット変位行列として決定する前記ステップは、
前記順方向変位行列に初期横方向変位行列及び初期縦方向変位行列が含まれる場合、前記初期横方向変位行列において、前記残りの画素点に対応する行列要素の第1横方向変位を前記第1数値に設定し、前記第1数値を含む初期横方向変位を、前記第1ビデオフレームに対応する横方向変位行列として決定するステップと、
前記初期縦方向変位行列において、前記残りの画素点に対応する行列要素の第1縦方向変位を前記第1数値に設定し、前記第1数値を含む初期縦方向変位を、前記第1ビデオフレームに対応する縦方向変位行列として決定するステップと、
前記第1ビデオフレームに対応する横方向変位行列と、前記第1ビデオフレームに対応する縦方向変位行列とをターゲット変位行列として決定するステップと、
を含むことを特徴とする請求項7に記載の方法。
In the forward displacement matrix, the step of setting the displacement of the matrix element corresponding to the remaining pixel points to the first numerical value and determining the forward displacement matrix including the first numerical value as the target displacement matrix is
When the forward displacement matrix includes an initial lateral displacement matrix and an initial longitudinal displacement matrix, the first lateral displacement of the matrix elements corresponding to the remaining pixel points in the initial lateral displacement matrix is the first. A step of setting a numerical value and determining the initial lateral displacement including the first numerical value as a lateral displacement matrix corresponding to the first video frame.
In the initial vertical displacement matrix, the first vertical displacement of the matrix element corresponding to the remaining pixel points is set to the first numerical value, and the initial vertical displacement including the first numerical value is set to the first video frame. And the steps to determine as the vertical displacement matrix corresponding to
A step of determining a lateral displacement matrix corresponding to the first video frame and a longitudinal displacement matrix corresponding to the first video frame as a target displacement matrix.
7. The method according to claim 7, wherein the method comprises.
前記ターゲット状態行列及び前記ターゲット変位行列に基づいて、前記第1ビデオフレームに対応する平均変位行列を決定する前記ステップは、
前記第1ビデオフレームにおいて、前記ターゲット状態行列に対して変位積分演算を行うことにより、前記第1ビデオフレームにおける画素点に対応する状態積分行列を取得するステップと、
前記第1ビデオフレームにおいて、前記ターゲット状態行列における横方向変位行列に対して変位積分演算を行うことにより、前記第1ビデオフレームにおける画素点に対応する横方向変位積分行列を取得するステップと、
前記第1ビデオフレームにおいて、前記ターゲット状態行列における縦方向変位行列に対して変位積分演算を行うことにより、前記第1ビデオフレームにおける画素点に対応する縦方向変位積分行列を取得するステップと、
前記第1ビデオフレームから、変位差分演算に対応する差分領域を決定し、前記差分領域のサイズ情報と、状態積分行列と、横方向変位積分行列と、縦方向変位積分行列とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定するステップと、
を含むことを特徴とする請求項4に記載の方法。
The step of determining the average displacement matrix corresponding to the first video frame based on the target state matrix and the target displacement matrix is
In the first video frame, a step of acquiring a state integral matrix corresponding to a pixel point in the first video frame by performing a displacement integral operation on the target state matrix, and
In the first video frame, a step of acquiring a lateral displacement integral matrix corresponding to a pixel point in the first video frame by performing a displacement integral operation on the lateral displacement matrix in the target state matrix.
In the first video frame, a step of acquiring a vertical displacement integral matrix corresponding to a pixel point in the first video frame by performing a displacement integral operation on the vertical displacement matrix in the target state matrix.
From the first video frame, a difference region corresponding to the displacement difference calculation is determined, and based on the size information of the difference region, the state integral matrix, the lateral displacement integral matrix, and the vertical displacement integral matrix, the said Steps to determine the average displacement matrix corresponding to the first video frame,
4. The method according to claim 4, wherein the method comprises.
前記差分領域のサイズ情報と、状態積分行列と、横方向変位積分行列と、縦方向変位積分行列とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定する前記ステップは、
前記差分領域に対応する長さ情報及び幅情報に基づいて、前記状態積分行列に対して変位差分演算を行うことにより、前記第1画像フレームに対応する状態差分行列を取得するステップと、
前記差分領域に対応する長さ情報及び幅情報に基づいて、前記横方向変位積分行列及び縦方向変位積分行列のそれぞれに対して変位差分演算を行うことにより、前記第1画像フレームに対応する横方向変位差分行列及び縦方向変位差分行列を取得するステップと、
前記横方向変位差分行列と前記状態差分行列との比を横方向平均変位行列として決定し、前記縦方向変位差分行列と前記状態差分行列との比を縦方向平均変位行列として決定するステップと、
前記縦方向変位差分行列及び前記縦方向平均変位行列を、前記第1ビデオフレームに対応する平均変位行列として決定するステップと、
を含むことを特徴とする請求項9に記載の方法。
The step of determining the average displacement matrix corresponding to the first video frame based on the size information of the difference region, the state integral matrix, the lateral displacement integral matrix, and the longitudinal displacement integral matrix is the step.
A step of acquiring a state difference matrix corresponding to the first image frame by performing a displacement difference calculation on the state integral matrix based on the length information and the width information corresponding to the difference region.
The lateral displacement corresponding to the first image frame is performed by performing the displacement difference calculation for each of the lateral displacement integration matrix and the longitudinal displacement integration matrix based on the length information and the width information corresponding to the difference region. Steps to acquire the directional displacement difference matrix and the longitudinal displacement difference matrix,
A step of determining the ratio of the lateral displacement difference matrix to the state difference matrix as a lateral average displacement matrix, and determining the ratio of the longitudinal displacement difference matrix to the state difference matrix as a longitudinal average displacement matrix.
A step of determining the vertical displacement difference matrix and the vertical average displacement matrix as the average displacement matrix corresponding to the first video frame, and
9. The method of claim 9.
コンピュータ機器に適用されるビデオデータ処理装置であって、
ターゲットビデオに対するトリガ操作に応答して、前記ターゲットビデオのキービデオフレームからターゲット画素点を決定し、前記ターゲット画素点に関連付けられたマルチメディア情報を取得するオブジェクト決定モジュールであって、前記キービデオフレームは、前記トリガ操作が位置するビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける、前記トリガ操作に対応する画素点である、オブジェクト決定モジュールと、
前記ターゲット画素点の前記キービデオフレームにおける位置情報に基づいて、前記ターゲット画素点に対応する軌跡取得要求を決定する要求決定モジュールと、
前記軌跡取得要求に基づいて、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を取得する軌跡取得モジュールであって、前記ターゲット軌跡情報は、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報を含み、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報は、前記ターゲット画素点を追跡することにより取得されたものである、軌跡取得モジュールと、
前記キービデオフレームの次のビデオフレームを再生する際に、前記ターゲット軌跡情報における、前記ターゲット画素点の、前記キービデオフレームの次のビデオフレームにおける位置情報に基づいて、前記マルチメディア情報を表示するテキスト表示モジュールと、
を含むことを特徴とするビデオデータ処理装置。
A video data processing device applied to computer equipment.
An object determination module that determines a target pixel point from a key video frame of the target video in response to a trigger operation on the target video and acquires multimedia information associated with the target pixel point, and is the key video frame. Is a video frame in which the trigger operation is located, and the target pixel point is an object determination module, which is a pixel point corresponding to the trigger operation in the key video frame.
A request determination module that determines a locus acquisition request corresponding to the target pixel point based on the position information of the target pixel point in the key video frame.
A locus acquisition module that acquires target locus information associated with position information of the target pixel point in the key video frame based on the locus acquisition request, wherein the target locus information is the target pixel point of the target pixel point. The position information of the target pixel point in the next video frame of the key video frame, including the position information in the video frame next to the key video frame, is obtained by tracking the target pixel point. Trajectory acquisition module and
When playing back the video frame next to the key video frame, the multimedia information is displayed based on the position information of the target pixel point in the video frame next to the key video frame in the target locus information. Text display module and
A video data processing device characterized by including.
サービスサーバに適用されるビデオデータ処理装置であって、
キービデオフレームにおけるターゲット画素点に対する軌跡取得要求に応答して、ターゲットビデオに関連付けられた軌跡情報を取得する要求応答モジュールであって、前記キービデオフレームは、前記ターゲットビデオにおけるビデオフレームであり、前記ターゲット画素点は、前記キービデオフレームにおける画素点であり、前記軌跡情報は、前記ターゲットビデオの各ビデオフレームにおける画素点の位置情報によって決定されたものである、要求応答モジュールと、
前記ターゲットビデオに関連付けられた軌跡情報の中から、前記ターゲット画素点の前記キービデオフレームにおける位置情報に関連付けられたターゲット軌跡情報を選別し、前記ターゲット軌跡情報を返信する軌跡選別モジュールであって、前記ターゲット軌跡情報は、ターゲット位置情報を含み、前記ターゲット位置情報は、前記キービデオフレームの次のビデオフレームにおいて、前記ターゲット画素点に関連付けられたマルチメディア情報を表示することをトリガするためのものである、軌跡選別モジュールと、
を含むことを特徴とするビデオデータ処理装置。
A video data processing device applied to a service server.
A request response module that acquires trajectory information associated with a target video in response to a trajectory acquisition request for a target pixel point in a key video frame, wherein the key video frame is a video frame in the target video, and the said. The target pixel point is a pixel point in the key video frame, and the locus information is determined by the position information of the pixel point in each video frame of the target video.
A locus selection module that selects target locus information associated with the position information of the target pixel point in the key video frame from the locus information associated with the target video, and returns the target locus information. The target locus information includes target position information, and the target position information is for triggering display of multimedia information associated with the target pixel point in the next video frame of the key video frame. The trajectory selection module and
A video data processing device characterized by including.
ビデオデータ処理装置であって、
ターゲットビデオから、隣接する第1ビデオフレーム及び第2ビデオフレームを取得する第1取得モジュールと、
前記ターゲットビデオに対応するオプティカルフロー追跡規則と、前記第1ビデオフレームにおける画素点と、前記第2ビデオフレームにおける画素点とに基づいて、前記第1ビデオフレームに対応する平均変位行列を決定する行列取得モジュールと、
前記平均変位行列に基づいて、前記第1ビデオフレームにおける画素点の位置情報を追跡し、前記第2ビデオフレームにおいて、追跡された画素点の位置情報を決定する位置追跡モジュールと、
前記第1ビデオフレームにおける画素点の位置情報と、前記追跡された画素点の前記第2ビデオフレームにおける位置情報とに基づいて、前記ターゲットビデオに関連付けられた軌跡情報を生成する追跡生成モジュールあって、前記軌跡情報は、ターゲットビデオにおけるターゲット画素点に関連付けられたマルチメディア情報を追跡して表示するためのターゲット軌跡情報を含む、追跡生成モジュールと、
を含むことを特徴とするビデオデータ処理装置。
It ’s a video data processing device.
The first acquisition module that acquires the adjacent first video frame and second video frame from the target video,
A matrix that determines the average displacement matrix corresponding to the first video frame based on the optical flow tracking rule corresponding to the target video, the pixel points in the first video frame, and the pixel points in the second video frame. Get module and
A position tracking module that tracks the position information of the pixel points in the first video frame based on the average displacement matrix and determines the position information of the tracked pixel points in the second video frame.
There is a tracking generation module that generates trajectory information associated with the target video based on the position information of the pixel points in the first video frame and the position information of the tracked pixel points in the second video frame. The trajectory information includes a tracking generation module for tracking and displaying multimedia information associated with a target pixel point in a target video.
A video data processing device characterized by including.
コンピュータ機器であって、
プロセッサと、メモリと、ネットワークインタフェースと、を備え、
前記プロセッサは、前記メモリ及び前記ネットワークインタフェースに接続され、前記ネットワークインタフェースは、データ通信機能を提供し、前記メモリは、コンピュータプログラムを記憶し、前記プロセッサは、前記コンピュータプログラムを呼び出すことにより、請求項1、2、および3から10のいずれか一項に記載の方法を実行する、
ことを特徴とするコンピュータ機器。
It ’s a computer device,
It has a processor, memory, and a network interface.
The processor is connected to the memory and the network interface, the network interface provides a data communication function, the memory stores a computer program, and the processor calls the computer program, thereby claiming. 1, 2, and the method according to any one of 3 to 10.
A computer device that features that.
コンピュータ読み取り可能な記憶媒体であって、コンピュータプログラムが記憶され、前記コンピュータプログラムには、プログラム命令が含まれ、前記プログラム命令は、プロセッサによって実行されると、請求項1、2、および3から10のいずれか一項に記載の方法を実行させる、ことを特徴とするコンピュータ読み取り可能な記憶媒体。 A computer-readable storage medium in which a computer program is stored, the computer program includes program instructions, and the program instructions are executed by a processor according to claims 1, 2, and 3 to 10. A computer-readable storage medium, characterized in that the method according to any one of the above is performed.
JP2021531593A 2019-04-30 2020-04-10 Video data processing method, video data processing device, computer equipment, and computer program Active JP7258400B6 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910358569.8 2019-04-30
CN201910358569.8A CN110062272B (en) 2019-04-30 2019-04-30 Video data processing method and related device
PCT/CN2020/084112 WO2020220968A1 (en) 2019-04-30 2020-04-10 Video data processing method and related device

Publications (3)

Publication Number Publication Date
JP2022511828A true JP2022511828A (en) 2022-02-01
JP7258400B2 JP7258400B2 (en) 2023-04-17
JP7258400B6 JP7258400B6 (en) 2024-02-19

Family

ID=67321748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021531593A Active JP7258400B6 (en) 2019-04-30 2020-04-10 Video data processing method, video data processing device, computer equipment, and computer program

Country Status (7)

Country Link
US (1) US11900614B2 (en)
EP (1) EP3965431A4 (en)
JP (1) JP7258400B6 (en)
KR (1) KR102562208B1 (en)
CN (1) CN110062272B (en)
SG (1) SG11202105410RA (en)
WO (1) WO2020220968A1 (en)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062272B (en) 2019-04-30 2021-09-28 腾讯科技(深圳)有限公司 Video data processing method and related device
CN111161309B (en) * 2019-11-19 2023-09-12 北航航空航天产业研究院丹阳有限公司 Searching and positioning method for vehicle-mounted video dynamic target
CN111193938B (en) * 2020-01-14 2021-07-13 腾讯科技(深圳)有限公司 Video data processing method, device and computer readable storage medium
CN112258551B (en) * 2020-03-18 2023-09-05 北京京东振世信息技术有限公司 Article drop detection method, device, equipment and storage medium
CN111753679B (en) * 2020-06-10 2023-11-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) Micro-motion monitoring method, device, equipment and computer readable storage medium
CN111901662A (en) * 2020-08-05 2020-11-06 腾讯科技(深圳)有限公司 Extended information processing method, apparatus and storage medium for video
CN114449326A (en) * 2020-11-06 2022-05-06 上海哔哩哔哩科技有限公司 Video annotation method, client, server and system
CN114584824A (en) * 2020-12-01 2022-06-03 阿里巴巴集团控股有限公司 Data processing method and system, electronic equipment, server and client equipment
CN112884830B (en) * 2021-01-21 2024-03-29 浙江大华技术股份有限公司 Target frame determining method and device
CN113034458B (en) * 2021-03-18 2023-06-23 广州市索图智能电子有限公司 Indoor personnel track analysis method, device and storage medium
US12020279B2 (en) * 2021-05-03 2024-06-25 Refercloud Llc System and methods to predict winning TV ads, online videos, and other audiovisual content before production
CN114281447B (en) * 2021-12-02 2024-03-19 武汉华工激光工程有限责任公司 Carrier plate laser processing software interface processing method, system and storage medium
CN114827754B (en) * 2022-02-23 2023-09-12 阿里巴巴(中国)有限公司 Video first frame time detection method and device
CN117270982A (en) * 2022-06-13 2023-12-22 中兴通讯股份有限公司 Data processing method, control device, electronic apparatus, and computer-readable medium
CN115297355B (en) * 2022-08-02 2024-01-23 北京奇艺世纪科技有限公司 Barrage display method, barrage generation method, barrage display device, electronic equipment and storage medium
CN116309057B (en) * 2023-03-14 2024-09-24 中科星图数字地球合肥有限公司 Remote sensing image splicing method, device, computer equipment and storage medium
CN116152301B (en) * 2023-04-24 2023-07-14 知行汽车科技(苏州)股份有限公司 Target speed estimation method, device, equipment and medium
CN117812392B (en) * 2024-01-09 2024-05-31 广州巨隆科技有限公司 Resolution self-adaptive adjustment method, system, medium and device for visual screen

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014013690A1 (en) * 2012-07-17 2014-01-23 パナソニック株式会社 Comment information generation device and comment information generation method

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363109B2 (en) * 2009-12-10 2013-01-29 Harris Corporation Video processing system providing enhanced tracking features for moving objects outside of a viewable window and related methods
CN101930779B (en) * 2010-07-29 2012-02-29 华为终端有限公司 Video commenting method and video player
US20140245350A1 (en) * 2013-02-27 2014-08-28 Blendagram, Inc. System for and method of processing a video clip to identify an occluding object
CN104881640B (en) * 2015-05-15 2018-06-15 华为技术有限公司 A kind of method and device for obtaining vector
CN105872442A (en) * 2016-03-30 2016-08-17 宁波三博电子科技有限公司 Instant bullet screen gift giving method and instant bullet screen gift giving system based on face recognition
EP3466097A1 (en) * 2016-05-23 2019-04-10 Robert Brouwer Video tagging and annotation
US20190253747A1 (en) 2016-07-22 2019-08-15 Vid Scale, Inc. Systems and methods for integrating and delivering objects of interest in video
US20180082428A1 (en) * 2016-09-16 2018-03-22 Qualcomm Incorporated Use of motion information in video data to track fast moving objects
WO2018105290A1 (en) * 2016-12-07 2018-06-14 ソニーセミコンダクタソリューションズ株式会社 Image sensor
US10592786B2 (en) * 2017-08-14 2020-03-17 Huawei Technologies Co., Ltd. Generating labeled data for deep object tracking
CN109559330B (en) * 2017-09-25 2021-09-10 北京金山云网络技术有限公司 Visual tracking method and device for moving target, electronic equipment and storage medium
CN108242062B (en) * 2017-12-27 2023-06-30 北京纵目安驰智能科技有限公司 Target tracking method, system, terminal and medium based on depth feature flow
CN108389217A (en) * 2018-01-31 2018-08-10 华东理工大学 A kind of image synthesizing method based on gradient field mixing
US20190392591A1 (en) * 2018-06-25 2019-12-26 Electronics And Telecommunications Research Institute Apparatus and method for detecting moving object using optical flow prediction
CN109087335B (en) * 2018-07-16 2022-02-22 腾讯科技(深圳)有限公司 Face tracking method, device and storage medium
CN109558505A (en) * 2018-11-21 2019-04-02 百度在线网络技术(北京)有限公司 Visual search method, apparatus, computer equipment and storage medium
US10956747B2 (en) * 2018-12-31 2021-03-23 International Business Machines Corporation Creating sparsely labeled video annotations
CN110062272B (en) * 2019-04-30 2021-09-28 腾讯科技(深圳)有限公司 Video data processing method and related device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014013690A1 (en) * 2012-07-17 2014-01-23 パナソニック株式会社 Comment information generation device and comment information generation method

Also Published As

Publication number Publication date
KR102562208B1 (en) 2023-07-31
EP3965431A1 (en) 2022-03-09
KR20210095953A (en) 2021-08-03
US20210287379A1 (en) 2021-09-16
JP7258400B2 (en) 2023-04-17
JP7258400B6 (en) 2024-02-19
CN110062272B (en) 2021-09-28
CN110062272A (en) 2019-07-26
SG11202105410RA (en) 2021-06-29
US11900614B2 (en) 2024-02-13
WO2020220968A1 (en) 2020-11-05
EP3965431A4 (en) 2022-10-12

Similar Documents

Publication Publication Date Title
JP7258400B2 (en) Video data processing method, video data processing apparatus, computer equipment, and computer program
CN111369681B (en) Three-dimensional model reconstruction method, device, equipment and storage medium
CN110083739B (en) System and method for addressing media databases using distance associative hashing
CN111464834B (en) Video frame processing method and device, computing equipment and storage medium
CN107145280B (en) Image data processing method and device
Fu et al. Online video synopsis of structured motion
CN109829428B (en) Video image pedestrian detection method and system based on improved YOLOv2
US11561675B2 (en) Method and apparatus for visualization of public welfare activities
CN109598744A (en) A kind of method, apparatus of video tracking, equipment and storage medium
JP2014095967A (en) Information processing apparatus, information processing method and program
CN110120087B (en) Label marking method and device for three-dimensional virtual sand table and terminal equipment
CN113705520A (en) Motion capture method and device and server
US11921983B2 (en) Method and apparatus for visualization of public welfare activities
CN114344894B (en) Scene element processing method, device, equipment and medium
CN112752158A (en) Video display method and device, electronic equipment and storage medium
CN115494987A (en) Video-based interaction method and device, computer equipment and storage medium
CN112702643B (en) Barrage information display method and device and mobile terminal
CN116958267B (en) Pose processing method and device, electronic equipment and storage medium
CN116862813B (en) Color calibration method and system for augmented reality technology
CN117237514A (en) Image processing method and image processing apparatus
CN113592875A (en) Data processing method, image processing method, storage medium and computing device
CN113971686A (en) Target tracking method based on background restoration and capsule network
CN116506680B (en) Comment data processing method and device for virtual space and electronic equipment
WO2023037451A1 (en) Image processing device, method, and program
CN116385273B (en) Method, system and storage medium for moving points in stepping panoramic roaming

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210602

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230330

R150 Certificate of patent or registration of utility model

Ref document number: 7258400

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150