CN113613062A

CN113613062A - 视频数据处理方法、装置、设备、存储介质和程序产品

Info

Publication number: CN113613062A
Application number: CN202110770921.6A
Authority: CN
Inventors: 杜达亮; 王华华
Original assignee: Guangzhou Yunzhidachuang Technology Co ltd
Current assignee: Guangzhou Yunzhidachuang Technology Co ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-11-05
Anticipated expiration: 2041-07-08
Also published as: CN113613062B

Abstract

本发明公开了一种视频数据处理方法，涉及数据处理技术领域，包括：若检测到视频流数据，则识别所述视频流数据中是否包含预设的目标信息，以得到识别结果，所述目标信息包括产品信息、文字信息、语音信息、链接信息；检测所述视频流数据的播放类型，基于所述识别结果和所述播放类型，获取对应的渲染数据；基于所述渲染数据对所述视频流数据进行渲染，并基于所述播放类型，输出渲染后的视频流数据。本发明还公开了一种视频数据处理装置、设备、存储介质和程序产品。本发明通过识别视频流数据的播放类型和目标信息，选择不同的渲染数据进行渲染，使得视频流数据更贴合播放要求，提高了视频画面的丰富程度，实现视频环境的智能搭建。

Description

视频数据处理方法、装置、设备、存储介质和程序产品

技术领域

本发明涉及数据处理技术领域，尤其涉及视频数据处理方法、装置、设备、存储介质和程序产品。

背景技术

近年来，随着视频技术的发展，视频带货成为产品销售的必争之地，如直播带货，而为了能吸引用户观看直播，从而提升产品或者品牌的曝光度，除了主播卖力的宣讲介绍之外，还需要一个好的、贴合产品的直播环境，如在直播卖牛奶时，配上奶牛的照片作为背景板，或者奶牛的叫声作为特效等，将使得直播画面更加真实，起到更好的宣传作用。

目前的直播环境需要导播或者助手等工作人员搭建，如为不同的产品搭配不同的背景板或字幕或特效等，也即一般的直播需要较多的场控人员(导播或助手等)在主播直播过程中帮忙切换背景或字幕或特效等，以贴合直播产品，较耗费人力；且直播环境会因为产品的不同，需要对应更换，使得之前搭建的直播环境复用性差。

因此，如何在不需要频繁更换直播环境，减少人力的情况下，使得直播画面更加丰富是目前需要解决的技术问题。

发明内容

本发明的主要目的在于提出一种视频数据处理方法、装置、设备、存储介质和程序产品，旨在实现视频画面中，视频环境的智能搭建。

为实现上述目的，本发明提供一种视频数据处理方法，所述视频数据处理方法包括如下步骤：

若检测到视频流数据，则识别所述视频流数据中是否包含预设的目标信息，以得到识别结果，所述目标信息包括产品信息、文字信息、语音信息、链接信息；

检测所述视频流数据的播放类型，基于所述识别结果和所述播放类型，获取对应的渲染数据；

基于所述渲染数据对所述视频流数据进行渲染，并基于所述播放类型，输出渲染后的视频流数据。

优选地，所述基于所述识别结果和所述播放类型，获取对应的渲染数据的步骤包括：

若所述识别结果为包含预设的目标信息，则获取所述目标信息对应的目标数据，并基于所述目标数据和所述播放类型，确定对应的渲染数据；

若识别结果为未包含预设的目标信息，则获取默认数据，并基于所述默认数据和所述播放类型，确定对应的渲染数据。

优选地，所述获取所述目标信息对应的目标数据的步骤包括：

基于预设关联表，确定所述目标信息对应的联想信息；

获取所述联想信息对应的目标数据。

若所述播放类型为录播，则识别所述视频流数据中的产品信息，并获取所述产品信息对应的产品更新信息；

基于所述识别结果和所述产品更新信息，确定对应的渲染数据；

若所述播放类型为直播，则基于所述识别结果，获取对应的渲染数据。

优选地，所述渲染数据至少包括目标背景、视频特效、语音特效或文字特效中的一种或几种，所述基于所述渲染数据对所述视频流数据进行渲染的步骤包括：

若所述渲染数据包括目标背景、视频特效、语音特效和文字特效，则在对所述视频流数据进行渲染的过程中，识别所述视频流数据中的初始背景；

将所述初始背景替换成所述目标背景，并将所述视频特效、语音特效和文字特效添加进所述视频流数据中。

优选地，所述将所述初始背景替换成所述目标背景的步骤包括：

识别所述视频流数据中的主播，并确定所述主播在所述视频流数据中的位置信息，所述位置信息随播放时间动态变化；

基于所述位置信息，确定所述初始背景对应的待替换部位；

基于所述待替换部位，将所述初始背景替换成所述目标背景。

此外，为实现上述目的，本发明还提供一种视频数据处理装置，所述视频数据处理装置包括：

识别模块，用于若检测到视频流数据，则识别所述视频流数据中是否包含预设的目标信息，以得到识别结果，所述目标信息包括产品信息、文字信息、语音信息、链接信息；

获取模块，用于检测所述视频流数据的播放类型，基于所述识别结果和所述播放类型，获取对应的渲染数据；

渲染模块，用于基于所述渲染数据对所述视频流数据进行渲染，并基于所述播放类型，输出渲染后的视频流数据。

优选地，所述获取模块还用于：

基于预设关联表，确定所述目标信息对应的联想信息；

获取所述联想信息对应的目标数据。

优选地，所述获取模块还用于：

优选地，所述渲染数据至少包括目标背景、视频特效、语音特效或文字特效中的一种或几种，所述渲染模块还用于：

优选地，所述渲染模块还用于：

基于所述位置信息，确定所述初始背景对应的待替换部位；

此外，为实现上述目的，本发明还提供一种视频数据处理设备，所述视频数据处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频数据处理程序，所述视频数据处理程序被所述处理器执行时实现如上所述的视频数据处理方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质为计算机可读存储介质，所述计算机可读存储介质上存储有视频数据处理程序，所述视频数据处理程序被处理器执行时实现如上所述的视频数据处理方法的步骤。

此外，为实现上述目的，本发明还提供一种程序产品，所述程序产品包括视频数据处理程序，所述视频数据处理程序被处理器执行时实现如上所述的视频数据处理方法的步骤。

本发明提出的一种视频数据处理方法，若检测到视频流数据，则识别所述视频流数据中是否包含预设的目标信息，以得到识别结果，所述目标信息包括产品信息、文字信息、语音信息、链接信息；检测所述视频流数据的播放类型，基于所述识别结果和所述播放类型，获取对应的渲染数据；基于所述渲染数据对所述视频流数据进行渲染，并基于所述播放类型，输出渲染后的视频流数据。本发明通过识别视频流数据的播放类型和目标信息，选择不同的渲染数据进行渲染，使得视频流数据更贴合播放要求，提高了视频画面的丰富程度，实现视频环境的智能搭建。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明视频数据处理方法第一实施例的流程示意图

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例设备可以是终端或服务器设备。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频数据处理程序。

其中，操作系统是管理和控制视频数据处理设备与软件资源的程序，支持网络通信模块、用户接口模块、视频数据处理程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1002；用户接口模块用于管理和控制用户接口1003。

在图1所示的视频数据处理设备中，所述视频数据处理设备通过处理器1001调用存储器1005中存储的视频数据处理程序，并执行下述视频数据处理方法各个实施例中的操作。

基于上述硬件结构，提出本发明视频数据处理方法实施例。

参照图2，图2为本发明视频数据处理方法第一实施例的流程示意图，所述方法包括：

步骤S10，若检测到视频流数据，则识别所述视频流数据中是否包含预设的目标信息，以得到识别结果，所述目标信息包括产品信息、文字信息、语音信息、链接信息；

步骤S20，检测所述视频流数据的播放类型，基于所述识别结果和所述播放类型，获取对应的渲染数据；

步骤S30，基于所述渲染数据对所述视频流数据进行渲染，并基于所述播放类型，输出渲染后的视频流数据。

本实施例视频数据处理方法运用于视频数据处理设备中，视频数据处理设备可以是终端、机器人或者服务器设备，为描述方便，视频数据处理设备以处理设备简称。需要说明的是，本实施例的应用场景可以是直播场景也可以是录播场景。

在实际应用中，直播或者录播的视频流数据会先到达处理设备进行处理，再输送到用户的观看端进行显示，也即，在直播或者录播时，直播端采集主播当前的直播画面以及直播环境形成视频流数据，输送到处理设备进行渲染处理，再输送到观看直播的用户观看端；或者在检测到用户的观看端的观看指令时，获取对应的录播的视频流数据，再输送到处理设备进行渲染处理，再在用户的观看端进行播放显示。

处理设备在进行渲染处理时，具体是在检测到直播或者录播的视频流数据时，通过识别视频流数据中是否包含预设的目标信息，以及视频流数据的播放类型，获取对应的渲染数据，再以渲染数据对视频流数据进行渲染，从而使得最终呈现在用户观看端的视频画面丰富，通过渲染，实现视频画面中视频环境的智能搭建。

以下将对各个步骤进行详细说明：

步骤S10，若检测到视频流数据，则识别所述视频流数据中是否包含预设的目标信息，以得到识别结果，所述目标信息包括产品信息、文字信息、语音信息、链接信息。

在本实施例中，在检测到视频流数据时，通过智能识别技术对视频流数据进行目标信息的识别，具体进行语音识别、文字识别和图像识别，从而得到识别结果，其中，视频流数据包括直播视频数据、录播视频数据；目标信息包括产品信息，文字信息、语音信息和链接信息。

也即，处理设备通过图像识别，识别出视频流数据中的产品信息是什么，如识别出视频流数据中的产品是“农夫山泉”矿泉水；通过文字识别，识别出视频流数据中的字幕或者广告宣传语或者产品链接是什么，如“有点甜”；通过语音识别，识别出视频流数据中主播的宣传介绍，或者背景音乐，如主播宣传到：“大自然的搬运工”。

在实际实施时，可事先建立目标信息库，将视频流数据中涉及到的特定内容设置成目标信息，如上述“农夫山泉”矿泉水的图片、“有点甜”的文字、“大自然的搬运工”的语音等设为目标信息，从而建立目标信息库，再在检测到视频流数据时，将从视频流数据中识别出来的目标信息，与目标信息库中的目标信息进行比对，若是目标信息库中的目标信息，则得到当前视频流数据中包含预设的目标信息的识别结果，反之，则得到当前视频流数据中不包含预设的目标信息的识别结果。

步骤S20，检测所述视频流数据的播放类型，基于所述识别结果和所述播放类型，获取对应的渲染数据。

在本实施例中，由于视频流数据包括直播视频数据和录播视频数据，因此，处理设备进一步检测当期视频流数据的播放类型，再结合上一步的识别结果和当前步骤的播放类型，获取对应的渲染数据，其中，播放类型包括直播和录播。

具体，在一实施例中，基于所述识别结果和所述播放类型，获取对应的渲染数据的步骤包括：

步骤a，若所述识别结果为包含预设的目标信息，则获取所述目标信息对应的目标数据，并基于所述目标数据和所述播放类型，确定对应的渲染数据；

在一实施例中，若识别结果为包含预设的目标信息，也即当前视频流数据包含特定的内容，则获取目标信息对应的目标数据，再根据目标数据和播放类型，确定对应的渲染数据。

在具体实施时，每一个目标信息都对应有待渲染的目标数据，如目标信息为“农夫山泉”矿泉水的图像，则其对应的目标数据为微风轻拂且白云飘飘的大森林的背景；目标信息为“有点甜”的文字，则对应的目标数据为“有点甜”的艺术字；目标信息为“大自然的搬运工”的语音，则对应的目标数据为林间微风吹过树叶和小溪水流的背景声音等。

步骤b，若识别结果为未包含预设的目标信息，则获取默认数据，并基于所述默认数据和所述播放类型，确定对应的渲染数据。

在一实施例中，若识别结果为未包含预设的目标信息，则获取默认数据，具体的默认数据为统一设定的背景，再结合播放类型，确定对应的渲染数据。

在具体实施时，不管是直播还是录播，初始视频环境都采用绿幕作为背景，方便后期渲染替换，在当前视频流数据未包含任何目标信息时，则确定背景为默认数据的默认背景，后期在渲染时，将原先的绿幕背景替换成默认背景。

进一步地，在一实施例中，所述获取所述目标信息对应的目标数据的步骤包括：

步骤a1，基于预设关联表，确定所述目标信息对应的联想信息；

在一实施例中，为了丰富视频环境，还可在事先设置关联表，将目标信息与联想信息进行关联，如火锅与下火凉茶王老吉关联，羽绒服与象征温暖的太阳关联等，也即如目标信息是羽绒服，如直播卖的是羽绒服，则可获取到太阳等联想信息。

步骤a2，获取所述联想信息对应的目标数据。

接着，获取联想信息对应的目标数据，如直播在卖羽绒服，则获取联想信息太阳对应的目标数据，如太阳的视频/图片等，后期以太阳的视频/图片渲染视频流数据，从而衬托当前直播卖的羽绒服很温暖。

进一步地，在一实施例中，基于所述识别结果和所述播放类型，获取对应的渲染数据的步骤包括：

步骤c，若所述播放类型为录播，则识别所述视频流数据中的产品信息，并获取所述产品信息对应的产品更新信息；

在一实施例中，若当前视频流数据的播放类型为录播，说明当前视频流数据中的产品有可能不是最新的，则识别当前视频流数据中的产品信息，如“农夫山泉”，再获取对应的产品更新信息，如“农夫山泉”的新包装等信息。

步骤d，基于所述识别结果和所述产品更新信息，确定对应的渲染数据；

接着，根据识别结果和产品更新信息，确定对应的渲染数据，也即渲染数据中包括产品更新信息。

也即，对于不是直播的视频流数据，考虑到视频中的产品有可能更新换代，再对外进行宣传意义不大，应当更新其产品，因此，获取其对应的产品更新信息，后期在渲染时，将旧产品替换成新产品，如将“农夫山泉”的旧包装替换成新包装等。

步骤e，若所述播放类型为直播，则基于所述识别结果，获取对应的渲染数据。

若当前视频流数据的播放类型为直播，则可保证当前产品是最新的，不需要更新换代，因此，只需根据上一步的识别结果获取对应的渲染数据即可，也即此时的渲染数据不包含产品更新信息。

在本实施例中，处理设备根据获取的渲染数据，对当前视频流数据进行渲染，再根据播放类型，选择不同的输出方式，输出渲染后的视频流数据。

其中，若播放类型为直播，则将渲染后的视频流数据输出到对应的直播软件中即可；若播放类型为录播，则将渲染后的视频流数据输出为视频文件，以供用户端点击播放等。

具体的，所述渲染数据至少包括目标背景、视频特效、语音特效或文字特效中的一种或几种，渲染过程包括：

步骤f，若所述渲染数据包括目标背景、视频特效、语音特效和文字特效，则在对所述视频流数据进行渲染的过程中，识别所述视频流数据中的初始背景；

在一实施例中，若渲染数据包括了目标背景、视频特效、语音特效和文字特效，则在渲染过程中，先识别出当前视频流数据中的初始背景，在本实施例中，初始背景为绿幕背景，方便替换，且直播环境不需要特意布置。

步骤g，将所述初始背景替换成所述目标背景，并将所述视频特效、语音特效和文字特效添加进所述视频流数据中。

渲染时，将初始背景替换成目标背景，如目标背景为微风轻拂且白云飘飘的大森林的背景，在渲染时，将初始背景，也即绿幕背景替换成微风轻拂且白云飘飘的大森林的背景；接着还将视频特效、语音特效和文字特效等添加进当前视频流数据中，如将“有点甜”的艺术字，林间微风吹过树叶和小溪水流的背景声音，“买它买它”的动画特效添加进当前视频流数据中，从而将视频画面的视频环境渲染成更贴合产品——“农夫山泉”的售卖环境，实现视频环境的智能搭建。在宣传产品时，由于更为丰富的视频画面，能起到更好的宣传效果。

需要说明的是，在替换背景的过程中，在具体实施时，主播可采用深度摄像头进行直播，因此，可通过距离摄像头的距离远近，识别出主播和背景两层，类似两层图层，在替换时，直接将初始背景整个替换成目标背景。

为方便理解，以产品为“农夫山泉”矿泉水为例进行解释说明，当主播直播卖“农夫山泉”时，其直播环境只需要布置一块绿幕背景，且不需要导播或者助手，再采用深度摄像头、手机等采集工具采集直播画面，并将直播画面，也即视频流数据，实时传到处理设备中，处理设备在检测到传过来的视频流数据时，识别到“农夫山泉”，则获取其对应的微风轻拂且白云飘飘的大森林的背景，替换掉原先的初始背景，也即绿幕背景，再将渲染后的视频流数据输送到用户的观看端，此时用户看到的视频画面的背景即为微风轻拂且白云飘飘的大森林的背景。

若此时直播画面中还有一些广告宣传语，如“有点甜”，处理设备识别到之后，则获取“有点甜”的艺术字，并添加到视频流数据中，再输送到用户的观看端；若处理设备识别到购买链接，同样可以获取到相应的特效，如指向购买链接的手指，并附加上“买它买它”的声音，再输送到用户的观看端。

同理，若此时主播讲到“大自然的搬运工”，处理设备识别到该语音时，获取林间微风吹过树叶和小溪水流的背景声音，再将其添加到视频流数据中，再输送到用户的观看端......

若当前的视频流数据不是直播视频数据时，也即录播时，因为是录播，不要求实时性，用户观看的时间也有快有慢，快的当天看了，慢的可能隔一段时间，如隔一个月才看到，此时的视频中的产品可能不是最新的，因此，在当前视频流数据时录播时，处理设备可识别出视频中的产品，并到该产品的官网上获取该产品的最新信息，如最新包装等，替换掉原先的旧包装，从而使得即使是录播的，用户看到的产品也是最新的，提高了视频处理的智能性，利于产品的宣传。

本实施例的一个技术方案中，若检测到视频流数据，则识别所述视频流数据中是否包含预设的目标信息，以得到识别结果，所述目标信息包括产品信息、文字信息、语音信息、链接信息；检测所述视频流数据的播放类型，基于所述识别结果和所述播放类型，获取对应的渲染数据；基于所述渲染数据对所述视频流数据进行渲染，并基于所述播放类型，输出渲染后的视频流数据。本发明通过识别视频流数据的播放类型和目标信息，选择不同的渲染数据进行渲染，使得视频流数据更贴合播放要求，提高了视频画面的丰富程度，实现视频环境的智能搭建。

进一步地，基于本发明视频数据处理方法第一实施例，提出本发明视频数据处理方法第二实施例。

视频数据处理方法的第二实施例与视频数据处理方法的第一实施例的区别在于，所述将所述初始背景替换成所述目标背景的步骤包括：

步骤g1，识别所述视频流数据中的主播，并确定所述主播在所述视频流数据中的位置信息，所述位置信息随播放时间动态变化；

步骤g2，基于所述位置信息，确定所述初始背景对应的待替换部位；

步骤g3，基于所述待替换部位，将所述初始背景替换成所述目标背景；

本实施例为了使渲染后的视频流数据更真实，在替换初始背景过程中，采用平行画面层的方式进行替换，相对采用背景与主播分层呈现，导致画面失真的问题，本实施例能做到无缝替换，且不失真。

以下将对各个步骤进行详细说明：

步骤g1，识别所述视频流数据中的主播，并确定所述主播在所述视频流数据中的位置信息，所述位置信息随播放时间动态变化。

在本实施例中，先识别出视频流数据中的主播，具体可通过人脸识别，再通过连通识别，识别出身体和四肢，从而识别出主播，再确定主播在当前视频流数据中的位置信息，也即在视频画面的位置，该位置信息会随着播放时间的推移，主播肢体的动作而发生动态变化。

步骤g2，基于所述位置信息，确定所述初始背景对应的待替换部位。

在本实施例中，通过主播的动态位置信息，确定初始背景对应的待替换部位，可以理解的，由于主播的存在，主播势必会挡住部分背景，该部分背景由于被主播挡住，在直播画面中是不需要显示的(实际是存在的)，因此，该部分背景不需要替换，其他未被遮挡的背景才需要替换成目标背景。

步骤g3，基于所述待替换部位，将所述初始背景替换成所述目标背景。

在本实施例中，基于待替换部位，将初始背景替换成目标背景，也即将未被主播遮挡的部分替换成目标背景，具体的，基于待替换部位，确定目标背景的目标部位，将待替换部位替换成目标部位，该目标部位同样剔除主播遮挡的部分，使得目标背景不会覆盖主播。

相较于主播与背景分层，在替换时将背景整个替换，类似使得主播位于背景上方层，导致真实感略微不足，本实施例采用平行画面层的方式，主播与背景处于同一画面层，通过类似抠图的方式，将主播遮挡以外的背景替换成目标背景，使得整个画面更为真实，需要说明的是，背景只是背景板，不包括主播面前的工作台，产品等，因此，在替换背景时，不会将产品信息或者其他环境信息替换没。

本发明还提供一种视频数据处理装置。本发明视频数据处理装置包括：

优选地，所述获取模块还用于：

基于预设关联表，确定所述目标信息对应的联想信息；

获取所述联想信息对应的目标数据。

优选地，所述获取模块还用于：

优选地，所述渲染模块还用于：

基于所述位置信息，确定所述初始背景对应的待替换部位；

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有视频数据处理程序，所述视频数据处理程序被处理器执行时实现如上所述的视频数据处理方法的步骤。

本发明还提供一种程序产品。

本发明程序产品包括视频数据处理程序，所述视频数据处理程序被处理器执行时实现如上所述的视频数据处理方法的步骤。

其中，在所述处理器上运行的视频数据处理程序被执行时所实现的方法可参照本发明视频数据处理方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频数据处理方法，其特征在于，所述视频数据处理方法包括如下步骤：

2.如权利要求1所述的视频数据处理方法，其特征在于，所述基于所述识别结果和所述播放类型，获取对应的渲染数据的步骤包括：

3.如权利要求2所述的视频数据处理方法，其特征在于，所述获取所述目标信息对应的目标数据的步骤包括：

基于预设关联表，确定所述目标信息对应的联想信息；

获取所述联想信息对应的目标数据。

4.如权利要求1所述的视频数据处理方法，其特征在于，所述基于所述识别结果和所述播放类型，获取对应的渲染数据的步骤包括：

5.如权利要求1-4任一项所述的视频数据处理方法，其特征在于，所述渲染数据至少包括目标背景、视频特效、语音特效或文字特效中的一种或几种，所述基于所述渲染数据对所述视频流数据进行渲染的步骤包括：

6.如权利要求5所述的视频数据处理方法，其特征在于，所述将所述初始背景替换成所述目标背景的步骤包括：

基于所述位置信息，确定所述初始背景对应的待替换部位；

7.一种视频数据处理装置，其特征在于，所述视频数据处理装置包括：

8.一种视频数据处理设备，其特征在于，所述视频数据处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频数据处理程序，所述视频数据处理程序被所述处理器执行时实现如权利要求1至6中任一项所述的视频数据处理方法的步骤。

9.一种存储介质，其特征在于，所述存储介质为计算机可读存储介质，计算机可读存储介质上存储有视频数据处理程序，所述视频数据处理程序被处理器执行时实现如权利要求1至6中任一项所述的视频数据处理方法的步骤。

10.一种程序产品，其特征在于，所述程序产品包括视频数据处理程序，所述视频数据处理程序被处理器执行时实现如权利要求1至6中任一项所述的视频数据处理方法的步骤。