CN108513139A

CN108513139A - 视频直播中的虚拟对象识别方法、装置、存储介质和设备

Info

Publication number: CN108513139A
Application number: CN201810284401.2A
Authority: CN
Inventors: 刘龙坡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-09-07
Anticipated expiration: 2038-04-02
Also published as: CN108513139B

Abstract

本发明涉及一种视频直播中的虚拟对象识别方法、装置、存储介质和设备，包括：从直播视频流中截取视频帧；当所述视频帧中包括虚拟对象操控界面区域时，则在所述视频帧中确定与模板图像匹配的通用操控区域；根据通用操控区域与特征操控区域的相对位置，及确定的所述通用操控区域，确定所述视频帧中的特征操控区域；所述特征操控区域按虚拟对象区分；识别确定的所述特征操控区域所映射至的虚拟对象。本申请提供的方案提高了视频直播中的虚拟对象识别效率。

Description

视频直播中的虚拟对象识别方法、装置、存储介质和设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种视频直播中的虚拟对象识别方法、装置、存储介质和设备。

背景技术

随着计算机技术与网络技术的发展，视频直播成为一种热门的交互方式。越来越多的用户选择通过直播平台来观看视频直播，比如游戏直播等。由于不同的视频直播对应的虚拟对象不同，用户往往根据自身感兴趣的虚拟对象来选择相应的视频直播进行观看。

然而，传统技术中通常采用人工方式来识别视频直播对应的虚拟对象，直播平台管理人员需事先熟悉各个虚拟对象，再在主播进行直播时人工查看并识别出视频直播中包括的虚拟对象，这样导致视频直播中的虚拟对象识别效率低。

发明内容

基于此，有必要针对目前视频直播中的虚拟对象识别效率比较低的问题，提供一种视频直播中的虚拟对象识别方法、装置、存储介质和设备。

一种视频直播中的虚拟对象识别方法，包括：

从直播视频流中截取视频帧；

当所述视频帧中包括虚拟对象操控界面区域时，则

在所述视频帧中确定与模板图像匹配的通用操控区域；

根据通用操控区域与特征操控区域的相对位置，及确定的所述通用操控区域，确定所述视频帧中的特征操控区域；所述特征操控区域按虚拟对象区分；

识别确定的所述特征操控区域所映射至的虚拟对象。

一种视频直播中的虚拟对象识别装置，包括：

截取模块，用于从直播视频流中截取视频帧；

确定模块，用于当所述视频帧中包括虚拟对象操控界面区域时，则在所述视频帧中确定与模板图像匹配的通用操控区域；根据通用操控区域与特征操控区域的相对位置，及确定的所述通用操控区域，确定所述视频帧中的特征操控区域；所述特征操控区域按虚拟对象区分；

识别模块，用于识别确定的所述特征操控区域所映射至的虚拟对象。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

从直播视频流中截取视频帧；

当所述视频帧中包括虚拟对象操控界面区域时，则

在所述视频帧中确定与模板图像匹配的通用操控区域；

识别确定的所述特征操控区域所映射至的虚拟对象。

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

从直播视频流中截取视频帧；

当所述视频帧中包括虚拟对象操控界面区域时，则

在所述视频帧中确定与模板图像匹配的通用操控区域；

识别确定的所述特征操控区域所映射至的虚拟对象。

上述视频直播中的虚拟对象识别方法、装置、存储介质和设备，在有视频直播时，自动从直播视频流中截取视频帧，在截取出的视频帧中包括虚拟对象操控界面区域时，即在该视频帧中确定与模板图像匹配的通用操控区域，再根据通用操控区域与特征操控区域的相对位置，及前述确定的通用操控区域，即可确定视频帧中的特征操控区域。由于通用操控区域对各虚拟对象是统一的，特征操控区域则是按虚拟对象进行区分的，那么在根据统一的通用操控区域确定特征操控区域后，即可识别出该特征操控区域所映射至的虚拟对象，极大地提高了视频直播中的虚拟对象识别效率。

附图说明

图1为一个实施例中视频直播中的虚拟对象识别方法的应用环境图；

图2为一个实施例中视频直播中的虚拟对象识别方法的流程示意图；

图3为一个实施例中从直播视频流中截取的视频帧的示意图；

图4为另一个实施例中从直播视频流中截取的视频帧的示意图；

图5为另一个实施例中从直播视频流中截取的视频帧的示意图；

图6为一个实施例中虚拟对象分类模型的结构示意图；

图7为另一个实施例中视频直播中的虚拟对象识别方法的流程示意图；

图8为一个实施例中视频直播中的虚拟对象识别装置的模块结构图；

图9为另一个实施例中视频直播中的虚拟对象识别装置的模块结构图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中视频直播中的虚拟对象识别方法的应用环境图。参照图1，该视频直播中的虚拟对象识别方法应用于视频直播中的虚拟对象识别系统。该视频直播中的虚拟对象识别系统包括终端110和服务器120。其中，终端110和服务器120通过网络连接。终端110用于生成直播视频流上传至服务器120，服务器120用于执行该视频直播中的虚拟对象识别方法。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120具体可以是独立的服务器，也可以是多个独立的服务器组成的服务器集群。

图2为一个实施例中视频直播中的虚拟对象识别方法的流程示意图。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2，该视频直播中的虚拟对象识别方法具体包括如下步骤：

S202，从直播视频流中截取视频帧。

其中，直播视频流是进行连续视频直播所需的数据流。可以理解，视频通常由画面和/或声音等组成的。画面属于视频帧，声音则属于音频帧。

具体地，终端可通过内置或者外部连接的摄像头在采集图像序列形成直播视频流后，将直播视频流实时推送至服务器。这样，服务器在实时接收到直播视频流后，即可直接从直播视频流中截取视频帧。

在一个实施例中，直播视频流可以是终端通过内置或者外部连接的摄像头从现实场景中采集图像序列形成的直播视频流。比如演唱会直播或者竞技比赛直播等。直播视频流也可以是终端通过内置或者外部连接的摄像头录制终端屏幕展示画面而形成的直播视频流。比如游戏直播或者音视频文件直播等。直播视频流还可以是终端从现实场景中采集图像序列，并录制终端屏幕展示画面形成的直播视频流。比如包括主播画面的游戏直播或者音视频文件直播等。

在一个实施例中，从直播视频流中截取的视频帧中可以包括目标直播画面。目标直播画面是实际直播的目标内容所在的画面。比如演唱会直播中的演唱者演唱时的画面，竞技比赛直播中竞技对象比赛时的画面，或者，游戏直播中的游戏界面等。从直播视频流中截取的视频帧中还可以包括推广内容画面和/或主播画面等。其中，推广内容画面是展示推广内容的画面。推广内容是投放方提供的用于推广产品的信息。推广内容比如广告。主播画面是展示主播的画面。主播是进行视频直播的对象。可以理解，直播视频流中视频帧的画面即为直播画面，直播视频流中视频帧的画面组成可由主播自定义设置。

举例说明，图3示出了一个实施例中从直播视频流中截取的视频帧的示意图。在本实施例中，假设该直播视频流为游戏直播视频流。参考图3，可以明显看出，从该游戏直播视频流中截取的视频帧仅包括游戏界面310，也就是仅包括目标直播画面。再参考图4，图4示出了一个实施例中从直播视频流中截取的视频帧的示意图。在本实施例中，可以明显看出，从该游戏直播视频流中截取的视频帧不仅包括游戏界面410，还包括推广内容画面420以及主播画面430。

S204，当视频帧中包括虚拟对象操控界面区域时，则在视频帧中确定与模板图像匹配的通用操控区域。

其中，虚拟对象操控界面区域是虚拟对象操控界面图像在视频帧中的位置。虚拟对象操控界面图像是虚拟对象操作界面的界面图像。虚拟对象操控界面是可触发对应于虚拟对象的操控指令的界面。虚拟对象是计算机设备可操作的数字化对象。

虚拟对象操控界面具体可以是游戏操作界面。比如王者荣耀中进行英雄操控的界面。虚拟对象具体可以是游戏角色。比如王者荣耀中的英雄角色安其拉。操控指令是用户发起的交互操作，用于控制虚拟对象执行相应的交互动作。交互比如攻击交互或者躲避交互等。攻击又可以分为近距离攻击和远距离攻击等。

模板图像，是从虚拟对象操控界面图像中截取通用操控区域得到的、且用作模板的图像。通用操控区域是虚拟对象操控界面中固有的、且对各虚拟对象通用的操作区域。比如王者荣耀中的回城操作区域等。

具体地，服务器可在从直播视频流中截取视频帧后，提取该视频帧中包括的图像数据，并检测该图像数据是否包含操控界面特征数据。若服务器检测到该图像数据中包含操控界面特征数据，则判定该视频帧中包括虚拟对象操控界面区域。若服务器未检测到该图像数据中包含操控界面特征数据，则判定该视频帧中不包括虚拟对象操控界面区域。其中，操控界面特征数据是反映操控界面的特征数据。不包括虚拟对象操控界面区域的视频帧，可以包括虚拟对象准备界面或者虚拟对象展示界面等。

举例说明，在参考图3，该图中视频帧为包括虚拟对象操控界面区域的视频帧。图5示出了一个实施例中从直播视频流中截取的视频帧的示意图。该图中视频帧为包括虚拟对象准备界面区域511的视频帧。

在一个实施例中，在视频帧中确定与模板图像匹配的通用操控区域，包括：获取模板图像；对视频帧进行窗口扫描，获得窗口图像；将获得的窗口图像与模板图像进行匹配；选取与模板图像匹配的窗口图像在视频帧中的图像区域，作为与模板图像匹配的通用操控区域。

具体地，服务器可使用一个矩形窗口，按照预设方向和预设步长在视频帧中移动，从而进行窗口扫描，获得多个窗口图像。其中预设方向可为从左向右、从上向下、从右向左或者从下向上等；预设步长可分为水平步长和垂直步长，预设步长的值可为像素的个数，可根据实际需要设定。在本实施例中，矩形窗口的尺寸可以是模板图像的尺寸。

可以理解，由于直播视频流中视频帧的画面组成可由主播自定义设置，那么视频帧中包括虚拟对象操控界面区域可能会存在缩放的情况。那么服务器在实现设置模板图像时，可对应于该模板图像记录该模板图像截取自的虚拟对象操控界面图像的尺寸。服务器在对视频帧进行窗口扫描之前，则可先将视频帧中虚拟对象操控界面区域的尺寸调整至对应于模板图像记录的尺寸，这样可以提高在视频帧中确定与模板图像匹配的通用操控区域的准确性。

进一步地，服务器可在每扫描获得一个窗口图像时，实时判断该窗口图像与模板图像是否匹配。在判断获取的窗口图像和模板图像是否匹配，具体可先计算获取的窗口图像和模板图像之间的相似度，进而判断该相似度是否大于等于预设相似度；若是，则匹配；若否，则不匹配。

计算获取的窗口图像和模板图像之间的相似度时，可先提取选取的图像帧和模板图像各自的特征，从而计算两特征之间的差异，特征之间的差异越大则相似度越低，特征之间的差异越小则相似度越高。具体可通过经过训练的机器学习模型来提取特征。提取的图像特征具体可以颜色特征、纹理特征和形状特征中的一种或几种的组合。相似度可采用余弦相似度或者图像间各自感知哈希值的汉明距离或者欧式距离等。

在本实施例中，通过对视频帧进行窗口扫描获得窗口图像，再将获得的窗口图像与模板图像来进行匹配，这样每次仅将图像帧的部分区域与模板图像进行匹配，提高了在视频帧中确定通用操控区域的准确性。

S206，根据通用操控区域与特征操控区域的相对位置，及确定的通用操控区域，确定视频帧中的特征操控区域；特征操控区域按虚拟对象区分。

其中，特征操控区域是虚拟对象操控界面中固有的、但按虚拟对象进行区分的操作区域。不同虚拟对象所对应的虚拟对象操控界面中的特征操控区域存在互异性。特征操控区域比如虚拟对象技能操作区域。

可以理解，通用操控区域和特征操作区域均是虚拟对象操控界面中固有的区域。但虚拟对象操控界面中通用操控区域里的内容是固定的。但不同虚拟对象的虚拟对象操控界面中特征操控区域里的内容是互异的。

在一个实施例中，S206包括：获取通用操控区域与特征操控区域的相对位置；查询与相对位置相关联的界面尺寸；按界面尺寸调整视频帧中的虚拟对象操控界面区域；根据相对位置以及确定的通用操控区域，确定调整后的视频帧中的特征操控区域。

可以理解，虚拟对象操控界面中通用操控区域与特征操控区域的相对位置是已知的，也正是因为该相对位置已知、且通用操控区域的内容是固定的，所以才先根据模板图像在视频帧中确定通用操控区域，继而在视频帧中确定特征操控区域。

具体地，服务器可获取通用操控区域与特征操控区域的相对位置，并查询与该相对位置相关联的界面尺寸，再将调整视频帧的尺寸，以将视频帧中的虚拟对象操控界面区域调整至该界面尺寸。服务器可在调整完成后，根据相对位置以及确定的通用操控区域，确定调整后的视频帧中的特征操控区域。其中，通用操控区域与特征操控区域的相对位置可以是以通用操控区域为基准，在某个方位上的偏移距离。

在本实施例中，在视频帧中确定特征操控区域时，先将视频帧中的虚拟对象操控界面的尺寸量级调整至与预设的相对位置相应的尺寸量级，再根据该相对位置确定特征操控区域，提高了确定的特征操控区域的准确性。

在一个实施例中，模板图像的尺寸，和与通用操控区域与特征操控区域的相对位置相关联的界面尺寸是匹配的。若在视频帧中确定与模板图像匹配的通用操控区域时，已经按照模板图像的尺寸调整了视频帧，则在确定特征操控区域时，不再需要对视频帧进行调整。

S208，识别确定的特征操控区域所映射至的虚拟对象。

具体地，由于不同的虚拟对象分别对应不同的特征操控区域，那么服务器可事先从各虚拟对象对应的虚拟对象操控界面图像中截取特征操控区域，得到特征模板图像。这样服务器在确定视频帧中的特征操控区域后，即可从视频帧中截取特征操控区域得到待识别图像，再将该待识别图像与各特征模板图像进行匹配，获取匹配程度最高的特征模板图像所对应的虚拟对象，作为确定的特征操控区域所映射至的虚拟对象。

进一步地，服务器还可事先设置识别置信度阈值，在对确定的特征操控区域所映射至的虚拟对象的识别置信度高于该识别置信度阈值时，则认为此次识别结果可信；否则，则认为此次识别结果不可信，重新从直播视频流中截取视频帧进行识别，直至重新确定的特征操控区域所映射至的虚拟对象的识别置信度高于该识别置信度阈值。其中，对确定的特征操控区域所映射至的虚拟对象的识别置信度可以是待识别图像与特征模板图像的匹配程度。

上述视频直播中的虚拟对象识别方法，在有视频直播时，自动从直播视频流中截取视频帧，在截取出的视频帧中包括虚拟对象操控界面区域时，即在该视频帧中确定与模板图像匹配的通用操控区域，再根据通用操控区域与特征操控区域的相对位置，及前述确定的通用操控区域，即可确定视频帧中的特征操控区域。由于通用操控区域对各虚拟对象是统一的，特征操控区域则是按虚拟对象进行区分的，那么在根据统一的通用操控区域确定特征操控区域后，即可识别出该特征操控区域所映射至的虚拟对象，极大地提高了视频直播中的虚拟对象识别效率。

在一个实施例中，该视频直播中的虚拟对象识别方法还包括：从视频帧中提取图像特征；根据提取的图像特征生成特征向量；将生成的特征向量输入图像分类模型；获取图像分类模型输出的分类结果；分类结果为视频帧中包括虚拟对象操控界面区域，或者视频帧中不包括虚拟对象操控界面区域。

其中，图像特征是反映图像固有特征的数据。比如HOG(Histogram of OrientedGradient,方向梯度直方图)特征、LBP(Local Binary Pattern，局部二值模式)特征或者Haar特征等。特征向量是通过数学方式来表示图像特征的数据。图像分类模型是经过训练后具有分类能力的机器学习模型。机器学习英文全称为Machine Learning，简称ML。机器学习模型可通过样本学习具备分类能力。机器学习模型可采用神经网络模型、支持向量机(Support Vector Machine，SVM)或者逻辑回归模型等。

具体地，服务器可从根据预选的图像特征的定义，从视频帧中提取图像特征，根据提取的图像特征生成特征向量，将该特征向量输入图像分类模型中，获取图像分类模型对该特征向量进行分类处理后输出的分类结果。其中，分类结果为视频帧中包括虚拟对象操控界面区域，或者视频帧中不包括虚拟对象操控界面区域。预选的图像特征是预先设定的意图从图像中提取的图像特征，比如HOG特征。

本实施例中，利用机器学习模型强大的学习和表示能力进行图像特征的学习，所训练得到的机器学习模型对图像进行分类，较传统方法对图像进行分类的效果更好。

在一个实施例中，视频直播中的虚拟对象识别方法还包括：训练图像分类模型的步骤。该步骤具体包括：收集图像样本；图像样本为包括虚拟对象操控界面区域的图像和不包括虚拟对象操控界面区域的图像；确定各图像样本的分类标签；从各图像样本中提取图像特征生成特征向量样本；根据各图像样本的特征向量样本和分类标签训练得到图像分类模型。

其中，图像样本是用于训练图像分类模型的样本数据。图像样本是从直播视频流中截取视频帧转换得到的图像，包括正负样本，即包括虚拟对象操控界面区域的视频帧和不包括虚拟对象操控界面区域的视频帧。

具体地，服务器可从直播视频流中截取视频帧转换得到图像作为图像样本，再对每个图像样本添加相应的分类标签。分类标签用于表示图像样本是否包括虚拟对象操控界面区域。服务器继而从各图像样本中提取图像特征生成特征向量样本，再将各图像样本的分类标签作为各图像样本的特征向量样本的训练标签，将各图像样本的特征向量样本作为输入，以特征向量样本的训练标签作为目标，有监督地训练图像分类模型，根据图像分类模型的输出与训练标签的差异调整图像分类模型的模型参数，直到达到训练结束条件为止。

这里的图像分类模型可以是初始化的机器学习模型；也可以是将通用图像分类模型的模型参数导入该初始化的机器学习模型后，得到的带有模型参数的机器学习模型。模型参数是机器学习模型的模型结构中的各个参数，能反应模型输出和输入的对应关系。

在本实施例中，提供了图像分类模型的训练途径，针对性地训练使得图像分类模型具有特定的分类能力，从而能够有效地应用在针对是否包括虚拟对象操控界面区域的图像的识别中。

在一个实施例中，S208包括：从视频帧中截取确定的特征操控区域得到目标图像；将目标图像输入虚拟对象分类模型；获取虚拟对象分类模型输出的虚拟对象分类结果；确定虚拟对象分类结果所映射至的虚拟对象。

其中，虚拟对象分类模型是经过训练后具有分类能力的机器学习模型。可以理解，这里的虚拟对象分类模型和前述图像分类模型均为具有分类能力的机器学习模型，但两者的模型结构不同，分类目标也不同。图像分类模型是二分类的分类模型，输出为视频帧中包括虚拟对象操控界面区域或者视频帧中不包括虚拟对象操控界面区域这两者分类结果。虚拟对象分类模型则是多分类的分类模型，输出的各分类结果各自映射至一个虚拟对象。

具体地，服务器可从视频帧中截取确定的特征操控区域得到目标图像，将该目标图像输入虚拟对象分类模型中，获取虚拟对象分类模型对该目标图像进行分类处理后输出的分类结果。其中，分类结果与虚拟对象一一对应。

在一个实施例中，虚拟对象分类模型为深度残差网络模型；深度残差网络模型包括多个残差层；对于深度残差网络模型中的各残差层，相邻且在前的残差层的输入和输出共同作为相邻且在后的残差层的输入。

其中，深度残差网络模型(Deep Residual Neural Network)是将残差作为优化目标的神经网络模型。其中，残差可理解为残差层的期望输出与实际输入的差值，而该差值为该残差层的实际输出。在本实施例中，深度残差网络模型可包括多个残差层，即包括多个残差。每个残差层可以是包括多层卷积层的网络结构。对于深度残差网络模型中的各残差层，相邻且在前的残差层的输入和输出共同作为相邻且在后的残差层的输入。深度残差网络模型还包括池化层、展开层和归一输出层。

具体地，深度残差网络模型中的卷积层的输出为多个特征图。对于深度残差网络模型中的各残差层，将相邻且在前的残差层的输入和输出共同作为相邻且在后的残差层的输入，可以是将相邻且在前的残差层的输入图像和输出的特征图按像素位置相加后得到的图像，作为相邻且在后的残差层的输入。

其中，卷积层的卷积核大小可自定义设置，在本实施例中，可设置较小的卷积核(比如3*3等)以减少模型参数，使得模型运算耗时较少。输入的目标图像和输出的特征图可以为三维矩阵。在卷积操作过程中不改变矩阵大小，也就是说，假设输入为16*70*70的三维矩阵，则输出也为16*70*70的三维矩阵。

进一步地，深度残差网络模型对输入的目标图像进行卷积操作后，将末尾的残差层的输出接入到池化层进行池化，再通过展开层将池化后的输出展开为一维向量，最后通过归一输出层对该一维向量进行分类输出分类结果。

举例说明，图6示出了一个实施例中深度残差网络模型的示意图。参考图6，该模型结构自输入至输出包括1个卷积层、连续的4个残差层“Block”、1个池化层(ave pooling层)、1个展开层(Flatten层)和1个归一输出层(softmax层)。其中，“3*3conv，16”表示该层有16个3*3的卷积核。如图6中所示的结构601为一个残差层“Block2”，假设该“Block2”中三层网络的映射为F(x)，x表示该“Block2”的输入，merge2表示该“Block2”的输入连接到该“Block2”的输出，如图中箭头所示，那么该“Block2”的映射可以表示为H(x)＝F(x)+x，此时如图6中所示的结构602为一个残差层“Block3”的输入即为H(x)。

继续参考图6，深度残差网络模型中最后一个残差层“Block5”输出后连接至avepooling层。假设ave pooling层的大小为9*9，那么即为对“Block5”的输出中每9*9的区域进行平均池化。若Block5输出的三维矩阵的大小为64*18*18，那么经过ave pooling层后转换为64*2*2的三维矩阵，再经过Flatten层展开为包括64*2*2＝256个元素的一维向量，最后经过softmax层输出该一维向量的分类类别。

在本实施例中，通过将残差作为优化目标的神经网络模型，该网络模型在训练过程中可以避免网络加深带来的过拟合以及梯度消失的问题。而且，该网络模型的模型参数少，模型运算耗时少，提高了识别效率。

上述实施例中，利用机器学习模型强大的学习和表示能力进行特征操控区域的学习，所训练得到的机器学习模型对特征操控区域进行分类，较传统方法的分类效果更好。

在一个实施例中，视频直播中的虚拟对象识别方法还包括：训练虚拟对象分类模型的步骤。该步骤具体包括：收集与各虚拟对象分别对应的、且包括虚拟对象操控界面区域的图像样本；从收集的图像样本中截取特征操控区域样本；调整特征操控区域样本的图像尺寸或者图像方向；获取调整前后的特征操控区域样本作为训练样本；将训练样本截取自的图像样本所对应的虚拟对象，作为训练样本的训练标签；根据训练样本和相应的训练标签训练得到虚拟对象分类模型。

具体地，服务器可收集与各虚拟对象分别对应的、且包括虚拟对象操控界面区域的图像样本，从收集的图像样本中截取特征操控区域样本。再调整特征操控区域样本的图像尺寸或者图像方向，以将调整前后的特征操控区域样本均作为训练样本。服务器可再将训练样本截取自的图像样本所对应的虚拟对象，作为训练样本的训练标签，将各训练样本作为输入，以训练样本的训练标签作为目标，有监督地训练虚拟对象分类模型，根据虚拟对象分类模型的输出与训练标签的差异调整虚拟对象分类模型的模型参数，直到达到训练结束条件为止。

这里的虚拟对象分类模型可以是初始化的机器学习模型；也可以是将通用图像分类模型的模型参数导入该初始化的机器学习模型后，得到的带有模型参数的机器学习模型。

可以理解，由于直播视频流中视频帧的画面组成可由主播自定义设置，那么视频帧中包括虚拟对象操控界面区域可能会存在缩放的情况；而且，在图像帧中确定通用操控区域与特征操控区域也可能会存在缩放或者偏移的情况。因此，在构造训练数据时，调整从收集的图像样本中截取的特征操控区域样本的图像尺寸或者图像方向，以对作为模型输入的数据进行一定程度的缩放或者偏移，这样通过数据增强的方式增加训练数据，从而可以增强训练得到的模型的识别能力和鲁棒性。

而且，由于深度网络容易造成梯度在反向传播的过程中消失，导致训练效果很差，而深度残差网络在神经网络的结构层面解决了这一问题，使得就算网络很深，梯度也不会消失。

在一个实施例中，视频直播中的虚拟对象识别方法还包括：将识别出的虚拟对象的虚拟对象标签添加至直播视频流；按照添加的虚拟对象标签对各直播视频流进行聚类。

其中，虚拟对象标签用于唯一标识一个虚拟对象。虚拟对象标签可以是虚拟对象的名称。比如演唱会中演唱嘉宾的名字，或者游戏中操控的游戏角色的角色名等。具体地，服务器在对各直播视频流进行虚拟对象识别后，为各直播视频流添加识别出的虚拟对象的虚拟对象标签，然后按照添加的虚拟对象标签对各直播视频流进行分类，以将添加相同虚拟对象标签的直播视频流集中。这样可方便后续有针对性地对直播视频流进行推送。而且，服务器在按照添加的虚拟对象标签对各直播视频流进行聚类，并推送至终端后，可指示终端在展示直播视频流时，将聚类后的直播视频流集中展示。

在本实施例中，在对直播视频流进行虚拟对象识别后，即为其添加标识虚拟对象的虚拟对象标签，这样即可将直播视频流按照虚拟对象进行分类，极大地便利了后续推送等后续处理。

在一个实施例中，视频直播中的虚拟对象识别方法还包括：获取当前登录的用户标识；查询与用户标识关联的虚拟对象标签；将识别出的虚拟对象的虚拟对象标签与查询的虚拟对象标签一致的直播视频流，推送至用户标识。

具体地，终端上可运行有直播应用程序，终端在检测到通过用户标识登录该直播应用程序后，可获取当前登录的用户标识，并将该用户标识上传至服务器，服务器从而获取到当前登录的用户标识。这样，服务器则可查询与该用户标识关联的虚拟对象标签，再将识别出的虚拟对象的虚拟对象标签与查询的虚拟对象标签一致的直播视频流，推送至该用户标识所登录的终端。

服务器还可在接收到通过当前登录的用户标识发起的推送请求后，再查询与该用户标识关联的虚拟对象标签，然后将识别出的虚拟对象的虚拟对象标签与查询的虚拟对象标签一致的直播视频流，推送至该用户标识所登录的终端。

其中，与用户标识关联的虚拟对象标签，可以是通过该用户标识登录时，根据用户操作所添加的虚拟对象标签。比如，用户登录直播视频后，编辑个人信息时添加的感兴趣的游戏角色。与用户标识关联的虚拟对象标签，也可以是通过该用户标识登录历史观看的直播视频流所添加的虚拟对象标签。比如，用户登录直播视频后，历史观看的游戏直播中操控的游戏角色。

本实施例中，根据与用户标识关联的虚拟对象标签，有针对性地对用户进行直播视频流推送，提供了直播视频流推送的准确性。

如图7所示，在一个具体的实施例中，该视频直播中的虚拟对象识别方法具体包括以下步骤：

S702，收集图像样本；图像样本为包括虚拟对象操控界面区域的图像和不包括虚拟对象操控界面区域的图像；确定各图像样本的分类标签；从各图像样本中提取图像特征生成特征向量样本；根据各图像样本的特征向量样本和分类标签训练得到图像分类模型。

S704，收集与各虚拟对象分别对应的、且包括虚拟对象操控界面区域的图像样本；从收集的图像样本中截取特征操控区域样本；调整特征操控区域样本的图像尺寸或者图像方向；获取调整前后的特征操控区域样本作为训练样本；将训练样本截取自的图像样本所对应的虚拟对象，作为训练样本的训练标签；根据训练样本和相应的训练标签训练得到虚拟对象分类模型。

S706，从直播视频流中截取视频帧。

S708，从视频帧中提取图像特征；根据提取的图像特征生成特征向量；将生成的特征向量输入图像分类模型；获取图像分类模型输出的分类结果；分类结果为视频帧中包括虚拟对象操控界面区域，或者视频帧中不包括虚拟对象操控界面区域。

S710，判断图像分类模型输出的分类结果是否为视频帧中包括虚拟对象操控界面区域；若是，则跳转至步骤S712；若否，则返回步骤S706。

S712，获取模板图像；对视频帧进行窗口扫描，获得窗口图像；将获得的窗口图像与模板图像进行匹配；选取与模板图像匹配的窗口图像在视频帧中的图像区域，作为与模板图像匹配的通用操控区域。

S714，获取通用操控区域与特征操控区域的相对位置；查询与相对位置相关联的界面尺寸；按界面尺寸调整视频帧中的虚拟对象操控界面区域；根据相对位置以及确定的通用操控区域，确定调整后的视频帧中的特征操控区域；特征操控区域按虚拟对象区分。

S716，从视频帧中截取确定的特征操控区域得到目标图像；将目标图像输入虚拟对象分类模型；获取虚拟对象分类模型输出的虚拟对象分类结果；确定虚拟对象分类结果所映射至的虚拟对象。其中，虚拟对象分类模型为深度残差网络模型；深度残差网络模型包括多个残差层；对于深度残差网络模型中的各残差层，相邻且在前的残差层的输入和输出共同作为相邻且在后的残差层的输入。

S718，将识别出的虚拟对象的虚拟对象标签添加至直播视频流；按照添加的虚拟对象标签对各直播视频流进行聚类。

S720，获取当前登录的用户标识；查询与用户标识关联的虚拟对象标签；将识别出的虚拟对象的虚拟对象标签与查询的虚拟对象标签一致的直播视频流，推送至用户标识。

在本实施例中，在从直播视频流中截取视频帧进行虚拟对象识别时，由于虚拟对象控制界面中的通用操控区域对各虚拟对象是统一的，而特征操控区域则是按虚拟对象进行区分的，那么在根据统一的通用操控区域确定特征操控区域后，即可通过基于残差结构的深度神经网络识别出该特征操控区域所映射至的虚拟对象，极大地提高了视频直播中的虚拟对象识别效率。尤其是在视频帧中还包括非虚拟对象操控界面的其他画面时，效果尤为明显。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图8所示，在一个实施例中，提供了一种视频直播中的虚拟对象识别装置800。参照图8，该视频直播中的虚拟对象识别装置800包括：截取模块801、确定模块802和识别模块803。

截取模块801，用于从直播视频流中截取视频帧。

确定模块802，用于当视频帧中包括虚拟对象操控界面区域时，则在视频帧中确定与模板图像匹配的通用操控区域；根据通用操控区域与特征操控区域的相对位置，及确定的通用操控区域，确定视频帧中的特征操控区域；特征操控区域按虚拟对象区分。

识别模块803，用于识别确定的特征操控区域所映射至的虚拟对象。

在一个实施例中，该视频直播中的虚拟对象识别装置800还包括：分类模块804，用于从视频帧中提取图像特征；根据提取的图像特征生成特征向量；将生成的特征向量输入图像分类模型；获取图像分类模型输出的分类结果；分类结果为视频帧中包括虚拟对象操控界面区域，或者视频帧中不包括虚拟对象操控界面区域。

在一个实施例中，该视频直播中的虚拟对象识别装置800还包括：训练模块805，用于收集图像样本；图像样本为包括虚拟对象操控界面区域的图像和不包括虚拟对象操控界面区域的图像；确定各图像样本的分类标签；从各图像样本中提取图像特征生成特征向量样本；根据各图像样本的特征向量样本和分类标签训练得到图像分类模型。

在一个实施例中，确定模块802还用于在视频帧中确定与模板图像匹配的通用操控区域，包括：获取模板图像；对视频帧进行窗口扫描，获得窗口图像；将获得的窗口图像与模板图像进行匹配；选取与模板图像匹配的窗口图像在视频帧中的图像区域，作为与模板图像匹配的通用操控区域。

在一个实施例中，确定模块802还用于获取通用操控区域与特征操控区域的相对位置；查询与相对位置相关联的界面尺寸；按界面尺寸调整视频帧中的虚拟对象操控界面区域；根据相对位置以及确定的通用操控区域，确定调整后的视频帧中的特征操控区域。

在一个实施例中，识别模块803还用于从视频帧中截取确定的特征操控区域得到目标图像；将目标图像输入虚拟对象分类模型；获取虚拟对象分类模型输出的虚拟对象分类结果；确定虚拟对象分类结果所映射至的虚拟对象。

在一个实施例中，训练模块805还用于收集与各虚拟对象分别对应的、且包括虚拟对象操控界面区域的图像样本；从收集的图像样本中截取特征操控区域样本；调整特征操控区域样本的图像尺寸或者图像方向；获取调整前后的特征操控区域样本作为训练样本；将训练样本截取自的图像样本所对应的虚拟对象，作为训练样本的训练标签；根据训练样本和相应的训练标签训练得到虚拟对象分类模型。

如图9所示，在一个实施例中，该视频直播中的虚拟对象识别装置800还包括：分类模块804、训练模块805和应用模块806。

应用模块806，用于将识别出的虚拟对象的虚拟对象标签添加至直播视频流；按照添加的虚拟对象标签对各直播视频流进行聚类。

在一个实施例中，应用模块806还用于获取当前登录的用户标识；查询与用户标识关联的虚拟对象标签；将识别出的虚拟对象的虚拟对象标签与查询的虚拟对象标签一致的直播视频流，推送至用户标识。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现视频直播中的虚拟对象识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行视频直播中的虚拟对象识别方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的视频直播中的虚拟对象识别装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行，计算机设备的非易失性存储介质可存储组成该视频直播中的虚拟对象识别装置的各个程序模块，比如，图8所示的截取模块801、确定模块802和识别模块803等。各个程序模块组成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频直播中的虚拟对象识别方法中的步骤。

例如，图10所示的计算机设备可以通过如图8所示的视频直播中的虚拟对象识别装置800中的截取模块801从直播视频流中截取视频帧。通过确定模块802当视频帧中包括虚拟对象操控界面区域时，则在视频帧中确定与模板图像匹配的通用操控区域；根据通用操控区域与特征操控区域的相对位置，及确定的通用操控区域，确定视频帧中的特征操控区域；特征操控区域按虚拟对象区分。通过识别模块803识别确定的特征操控区域所映射至的虚拟对象。

在一个实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时，使得处理器执行以下步骤：从直播视频流中截取视频帧；当视频帧中包括虚拟对象操控界面区域时，则在视频帧中确定与模板图像匹配的通用操控区域；根据通用操控区域与特征操控区域的相对位置，及确定的通用操控区域，确定视频帧中的特征操控区域；特征操控区域按虚拟对象区分；识别确定的特征操控区域所映射至的虚拟对象。

在一个实施例中，该计算机程序被处理器执行时，还使得处理器执行以下步骤：从视频帧中提取图像特征；根据提取的图像特征生成特征向量；将生成的特征向量输入图像分类模型；获取图像分类模型输出的分类结果；分类结果为视频帧中包括虚拟对象操控界面区域，或者视频帧中不包括虚拟对象操控界面区域。

在一个实施例中，该计算机程序被处理器执行时，还使得处理器执行以下步骤：收集图像样本；图像样本为包括虚拟对象操控界面区域的图像和不包括虚拟对象操控界面区域的图像；确定各图像样本的分类标签；从各图像样本中提取图像特征生成特征向量样本；根据各图像样本的特征向量样本和分类标签训练得到图像分类模型。

在一个实施例中，根据通用操控区域与特征操控区域的相对位置，及确定的通用操控区域，确定视频帧中的特征操控区域，包括：获取通用操控区域与特征操控区域的相对位置；查询与相对位置相关联的界面尺寸；按界面尺寸调整视频帧中的虚拟对象操控界面区域；根据相对位置以及确定的通用操控区域，确定调整后的视频帧中的特征操控区域。

在一个实施例中，识别确定的特征操控区域所映射至的虚拟对象，包括：从视频帧中截取确定的特征操控区域得到目标图像；将目标图像输入虚拟对象分类模型；获取虚拟对象分类模型输出的虚拟对象分类结果；确定虚拟对象分类结果所映射至的虚拟对象。

在一个实施例中，该计算机程序被处理器执行时，还使得处理器执行以下步骤：收集与各虚拟对象分别对应的、且包括虚拟对象操控界面区域的图像样本；从收集的图像样本中截取特征操控区域样本；调整特征操控区域样本的图像尺寸或者图像方向；获取调整前后的特征操控区域样本作为训练样本；将训练样本截取自的图像样本所对应的虚拟对象，作为训练样本的训练标签；根据训练样本和相应的训练标签训练得到虚拟对象分类模型。

在一个实施例中，该计算机程序被处理器执行时，还使得处理器执行以下步骤：将识别出的虚拟对象的虚拟对象标签添加至直播视频流；按照添加的虚拟对象标签对各直播视频流进行聚类。

在一个实施例中，该计算机程序被处理器执行时，还使得处理器执行以下步骤：获取当前登录的用户标识；查询与用户标识关联的虚拟对象标签；将识别出的虚拟对象的虚拟对象标签与查询的虚拟对象标签一致的直播视频流，推送至用户标识。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：从直播视频流中截取视频帧；当视频帧中包括虚拟对象操控界面区域时，则在视频帧中确定与模板图像匹配的通用操控区域；根据通用操控区域与特征操控区域的相对位置，及确定的通用操控区域，确定视频帧中的特征操控区域；特征操控区域按虚拟对象区分；识别确定的特征操控区域所映射至的虚拟对象。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频直播中的虚拟对象识别方法，包括：

从直播视频流中截取视频帧；

当所述视频帧中包括虚拟对象操控界面区域时，则

在所述视频帧中确定与模板图像匹配的通用操控区域；

识别确定的所述特征操控区域所映射至的虚拟对象。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述视频帧中提取图像特征；

根据提取的所述图像特征生成特征向量；

将生成的所述特征向量输入图像分类模型；

获取所述图像分类模型输出的分类结果；所述分类结果为所述视频帧中包括虚拟对象操控界面区域，或者所述视频帧中不包括虚拟对象操控界面区域。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

收集图像样本；所述图像样本为包括虚拟对象操控界面区域的图像和不包括虚拟对象操控界面区域的图像；

确定各所述图像样本的分类标签；

从各所述图像样本中提取图像特征生成特征向量样本；

根据各所述图像样本的特征向量样本和分类标签训练得到图像分类模型。

4.根据权利要求1所述的方法，其特征在于，所述在所述视频帧中确定与模板图像匹配的通用操控区域，包括：

获取模板图像；

对所述视频帧进行窗口扫描，获得窗口图像；

将获得的窗口图像与所述模板图像进行匹配；

选取与所述模板图像匹配的窗口图像在所述视频帧中的图像区域，作为与模板图像匹配的通用操控区域。

5.根据权利要求1所述的方法，其特征在于，所述根据通用操控区域与特征操控区域的相对位置，及确定的所述通用操控区域，确定所述视频帧中的特征操控区域，包括：

获取通用操控区域与特征操控区域的相对位置；

查询与所述相对位置相关联的界面尺寸；

按所述界面尺寸调整所述视频帧中的虚拟对象操控界面区域；

根据所述相对位置以及确定的所述通用操控区域，确定调整后的所述视频帧中的特征操控区域。

6.根据权利要求1所述的方法，其特征在于，所述识别确定的所述特征操控区域所映射至的虚拟对象，包括：

从所述视频帧中截取确定的所述特征操控区域得到目标图像；

将所述目标图像输入虚拟对象分类模型；

获取所述虚拟对象分类模型输出的虚拟对象分类结果；

确定所述虚拟对象分类结果所映射至的虚拟对象。

7.根据权利要求6所述的方法，其特征在于，所述虚拟对象分类模型为深度残差网络模型；所述深度残差网络模型包括多个残差层；对于所述深度残差网络模型中的各残差层，相邻且在前的残差层的输入和输出共同作为相邻且在后的残差层的输入。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

收集与各虚拟对象分别对应的、且包括虚拟对象操控界面区域的图像样本；

从收集的所述图像样本中截取特征操控区域样本；

调整所述特征操控区域样本的图像尺寸或者图像方向；

获取调整前后的所述特征操控区域样本作为训练样本；

将所述训练样本截取自的图像样本所对应的虚拟对象，作为所述训练样本的训练标签；

根据所述训练样本和相应的训练标签训练得到虚拟对象分类模型。

9.根据权利要求1-8中任一项所述的方法，其特征在于，所述方法还包括：

将识别出的所述虚拟对象的虚拟对象标签添加至所述直播视频流；

按照添加的虚拟对象标签对各所述直播视频流进行聚类。

10.根据权利要求1-8中任一项所述的方法，其特征在于，所述方法还包括：

获取当前登录的用户标识；

查询与所述用户标识关联的虚拟对象标签；

将识别出的虚拟对象的虚拟对象标签与查询的所述虚拟对象标签一致的直播视频流，推送至所述用户标识。

11.一种视频直播中的虚拟对象识别装置，包括：

截取模块，用于从直播视频流中截取视频帧；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

分类模块，用于从所述视频帧中提取图像特征；根据提取的所述图像特征生成特征向量；将生成的所述特征向量输入图像分类模型；获取所述图像分类模型输出的分类结果；所述分类结果为所述视频帧中包括虚拟对象操控界面区域，或者所述视频帧中不包括虚拟对象操控界面区域。

13.根据权利要求11所述的装置，其特征在于，所述识别模块还用于从所述视频帧中截取确定的所述特征操控区域得到目标图像；将所述目标图像输入虚拟对象分类模型；获取所述虚拟对象分类模型输出的虚拟对象分类结果；确定所述虚拟对象分类结果所映射至的虚拟对象。

14.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述的方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述的方法的步骤。