CN107124662A

CN107124662A - 视频直播方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN107124662A
Application number: CN201710326479.1A
Authority: CN
Inventors: 陈志博
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2017-05-10
Filing date: 2017-05-10
Publication date: 2017-09-01
Anticipated expiration: 2037-05-10
Also published as: CN107124662B

Abstract

本发明涉及一种视频直播方法、装置、电子设备及计算机可读存储介质，包括：接收视频采集终端实时采集的第一视频流，根据直播属性获取所述第一视频流中的感兴趣区域，获取所述感兴趣区域对应的感兴趣对象；根据所述感兴趣对象的状态信息生成控制指令；将所述控制指令发送至所述视频采集终端，以使所述视频采集终端调整采集状态，并根据调整后的采集状态采集并返回第二视频流；将所述第二视频流发送至直播终端，提高直播内容采集的灵活性和直播内容的价值度。

Description

视频直播方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种视频直播方法、装置、电子设备及计算机可读存储介质。

背景技术

随着计算机技术的发展，直播成为一种热门的互动通信方式，直播是指利用互联网及流媒体技术进行数据实时共享，主播用户端可以建立在线直播房间，向在线直播房间中的观众用户端进行直播数据流的共享，观众用户可以看到当前在线直播房间中的直播内容。

传统的网络视频直播技术通常使用摄像机定点录制指定区域内的画面情况，然后将画面进行编码并发送到显示设备中，显示设备解码后直接播放，只能按照既定的设置对特定的区域进行无差别拍摄。

发明内容

基于此，有必要针对上述技术问题，提供一种视频直播方法、装置、电子设备及计算机可读存储介质，能够自适应地智能采集感兴趣的直播内容，提高直播内容采集的灵活性和直播内容的价值度。

一种视频直播方法，所述方法包括：

接收视频采集终端实时采集的第一视频流，根据直播属性获取所述第一视频流中的感兴趣区域，获取所述感兴趣区域对应的感兴趣对象；

根据所述感兴趣对象的状态信息生成控制指令；

将所述控制指令发送至所述视频采集终端，以使所述视频采集终端调整采集状态，并根据调整后的采集状态采集并返回第二视频流；

将所述第二视频流发送至直播终端。

一种视频直播装置，所述装置包括：

感兴趣对象确定模块，用于接收视频采集终端实时采集的第一视频流，根据直播属性获取所述第一视频流中的感兴趣区域，获取所述感兴趣区域对应的感兴趣对象；

控制指令生成模块，用于根据所述感兴趣对象的状态信息生成控制指令；

调整采集模块，用于将所述控制指令发送至所述视频采集终端，以使所述视频采集终端调整采集状态，并根据调整后的采集状态采集并返回第二视频流；

发送模块，用于将所述第二视频流发送至直播终端。

在其中一个实施例中，直播属性为表演类或无目标操作对象竞技类或监控类，所述感兴趣对象确定模块包括：

第一确定单元，用于识别人脸区域，根据所述人脸区域确定感兴趣区域，得到候选感兴趣对象，获取所述候选感兴趣对象的状态信息，所述状态信息包括运动特征信息、灯光信息、面积信息、角度信息中的至少一种信息，根据所述状态信息确定目标感兴趣对象。

在其中一个实施例中，直播属性为物品展示类，所述感兴趣对象确定模块包括：

第三确定模块，用于获取当前物品展示类对应的物品特征信息，根据所述特品特征信息识别当前展示的物品，根据所述当前展示的物品所在的区域得到感兴趣区域，所述当前展示的物品为所述感兴趣区域对应的感兴趣对象。

在其中一个实施例中，所述控制指令生成模块包括：

跟踪路径轨迹生成单元，用于根据感兴趣对象在连续视频帧的位置变化计算感兴趣对象的运动特征，根据运动特征生成对应的跟踪路径轨迹；

跟踪控制指令生成单元，用于根据所述跟踪路径轨迹生成对应的跟踪控制指令，所述跟踪控制指令用于连续调整视频采集终端的采集参数。

在其中一个实施例中，所述装置还包括：

辅助信息生成模块，用于根据所述感兴趣对象生成对应的辅助信息；

第一辅助模块，用于将所述辅助信息叠加在所述第二视频流对应的视频帧，并编码生成第二编码数据，将第二编码数据发送至直播终端，以使直播终端解码显示包含所述辅助信息的第二视频流；或

第二辅助模块，用于将所述辅助信息与第二视频流对应的视频帧关联，并编码生成第三编码数据，将第三编码数据发送至直播终端，以使直播终端根据所述辅助信息解码显示目标第二视频流。

在其中一个实施例中，所述视频采集终端集成于可移动机器人、门禁系统、视频监控系统中的至少一种中。

在其中一个实施例中，视频采集终端集成于可移动机器人，所述调整采集模块还用于所述视频采集终端分析控制指令，如果存在移动控制指令，则将所述移动控制指令发送至所述可移动机器人的腿部行为控制模块，以使所述可移动机器人根据所述移动控制指令控制腿部移动，如果存在旋转控制指令，则将所述旋转控制指令发送至所述可移动机器人的头部行为控制模块，以使所述可移动机器人根据所述旋转控制指令控制头部旋转。

一种电子设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述处理器执行所述计算机可读指令时，处理器执行以下步骤：

根据所述感兴趣对象的状态信息生成控制指令；

将所述第二视频流发送至直播终端。

一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现以下步骤：

根据所述感兴趣对象的状态信息生成控制指令；

将所述第二视频流发送至直播终端。

上述视频直播方法、装置、电子设备及计算机可读存储介质，通过接收视频采集终端实时采集的第一视频流，根据直播属性获取第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象，根据感兴趣对象的状态信息生成控制指令，将控制指令发送至视频采集终端，以使视频采集终端调整采集状态，并根据调整后的采集状态采集并返回第二视频流，将第二视频流发送至直播终端，根据直播属性确定感兴趣区域，可为不同直播属性的直播确定不同的感兴趣区域，提高直播内容的多样化，调整采集状态是根据感兴趣对象的状态信息生成的控制指令进行调整，从而能自适应地智能采集感兴趣的直播内容，在直播终端进行直播展示，提高直播内容采集的灵活性和直播内容的价值度。

附图说明

图1为一个实施例中视频直播方法的应用环境图；

图2为一个实施例中图1中服务器的内部结构图；

图3为一个实施例中视频直播方法的流程图；

图4为一个实施例中确定目标感兴趣对象的流程图；

图5为另一个实施例中确定目标感兴趣对象的流程图；

图6为再一个实施例中确定目标感兴趣对象的流程图；

图7为一个实施例中调整采集状态的流程图；

图8为另一个实施例中调整采集状态的流程图；

图9为一个具体的实施例中视频直播系统的结构示意图；

图10为一个实施例中视频直播装置的结构框图；

图11为一个实施例中感兴趣对象确定模块的结构框图；

图12为另一个实施例中感兴趣对象确定模块的结构框图；

图13为再一个实施例中感兴趣对象确定模块的结构框图；

图14为一个实施例中控制指令生成模块的结构框图；

图15为再一个实施例中视频直播装置的结构框图。

具体实施方式

图1为一个实施例中视频直播方法运行的应用环境图。如图1所示，该应用环境包括视频采集终端110、服务器120和直播终端130，其中视频采集终端110、服务器120和直播终端130通过网络进行通信。

在一个实施例中，图1中服务器120的内部结构如图2所示，该服务器120包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中，该服务器120的存储介质存储有操作系统、数据库、视频直播装置，数据库用于存储数据，如存储视频采集终端110发送的视频数据，视频直播装置用于实现一种适用于服务器120的视频直播方法。该服务器120的处理器用于提供计算和控制能力，支撑整个服务器120的运行。该服务器120的内存为存储介质中的视频直播装置的运行提供环境。该服务器120的网络接口用于与外部的视频采集终端110、直播终端130通过网络连接通信，比如视频采集终端110发送的实时采集的视频流等。图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图3所示，提供了一种视频直播方法，以应用于上述应用环境中服务器来举例说明，包括以下步骤：

步骤S210，接收视频采集终端实时采集的第一视频流，根据直播属性获取第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象。

具体地，视频采集终端可通过拍摄实时画面的摄像头实时采集第一视频流，并将第一视频流实时推送至服务器。服务器实时接收到第一视频流后，根据直播属性确定关注点类型，根据关注点类型采用对应的感兴趣算法获取对应的感兴趣区域，如果是关注点为人的场景，则采用人脸关注度感兴趣区域算法确定感兴趣区域，如果是关注点为目标操作对象和目标操作对象的当前操作者，则采用目标操作对象关注度感兴趣区域算法确定感兴趣区域，如果是物品关注场景，则采用物品特征感兴趣区域算法确定感兴趣区域，通过直播属性区分不同的感兴趣区域算法，从而获取与直播场景匹配的感兴趣区域。

其中直播属性是指与直播场景相关的信息，可根据直播属性确定关注点类型，直播属性包括主播用户信息、观众用户信息、直播房间信息中的至少一种，其中主播用户信息是指主播用户的相关信息，包括主播用户标识、主播用户资料信息，如主播用户帐号类别、主播用户帐号权限、主播用户类别、兴趣、职业、领域等。观众用户信息是指观众用户的相关信息，包括观众用户标识、观众用户资料信息，如观众用户帐号类别、观众用户帐号权限、观众用户类别、兴趣、职业、领域等，观众用户配置的信息，如配置的感兴趣类别、感兴趣特征信息等。直播房间信息用于描述直播房间的相关信息，如直播场景、类别、主题、直播时长、直播房间用户统计特征等。可将观众用户信息与主播用户信息、直播房间信息等进行结合或使用其中的至少一种信息获取第一视频流中的感兴趣区域，可根据观众用户信息为不同的用户获取不同的感兴趣区域，实现用户间的差别播放，提高直播内容的多样化与定制性。

在一个实施例中，视频采集终端包括多个，根据观众用户信息将观众用户分类，不同分类的观众用户分别关联不同的视频采集终端，从而不同的视频采集终端针对同一视频场景，可分别采集与关联的观众用户感兴趣的不同的实时视频流，实现同一时间同一直播场景的差别播放。

可根据直播房间信息为不同主题的直播房间匹配不同的感兴趣区域，提高直播主题与直播内容的高匹配性，可根据主播用户信息推断关注点类型，从而确定感兴趣区域。

具体的确定感兴趣区域的算法可根据需要自定义，如当前直播主题为植物欣赏，则获取第一视频流中的植物所在的区域为感兴趣区域，将不同的植物确定为感兴趣对象。感兴趣对象是指感兴趣区域中具有整体行为能力的对象，如一个人、一个物品等，可具有一定的行为特征，如运动速度和运动方向等。

步骤S220，根据感兴趣对象的状态信息生成控制指令。

具体地，状态信息是指感兴趣对象当前所处的状态对应的信息，包括外界环境状态信息，如光线变化信息，包括感兴趣对象自身状态信息，如运动速度信息、面积信息、角度信息、在当前视频画面的位置信息，还包括多个感兴趣对象之间形成的信息，如2个感兴趣对象之间的距离信息、作用面积信息等。根据感兴趣对象的状态信息生成控制指令，控制指令用于控制视频采集终端采集清楚易识别的感兴趣对象画面，如感兴趣对象位于当前视频画面的边缘，则可调整视频采集终端的位置，或调整视频采集终端的角度使得感兴趣对象位于当前视频画面的中间位置。如感兴趣对象与当前视频画面的面积比例小于预设阈值，则可调整视频采集终端与感兴趣对象之间的距离或改变视频采集终端的焦距，使得感兴趣对象在当前视频画面变大。如感兴趣对象处于非正面，则可调整视频采集终端的角度减小感兴趣对象正平面与视频采集终端对应的采集平面之间的角度。如感兴趣对象的亮度小于预设阈值，则可开启照明以增加感兴趣对象的亮度，具体的控制指令包括但不限于上述描述，可根据当前场景需要和视频采集终端的可控功能自定义控制指令，如视频采集终端具备场景辅助功能，如喷水功能，可在满足预设条件时生成对应的喷水指令。

步骤S230，将控制指令发送至视频采集终端，以使视频采集终端调整采集状态，并根据调整后的采集状态采集并返回第二视频流。

具体地，视频采集终端根据控制指令调整采集状态，可通过移动视频采集终端的位置、改变移动视频采集终端的采集角度、调用场景辅助功能模块等实现采集状态的调整。采集状态的调整可以是一次或多次调整，经过一次调整后，可再次进入所述接收视频采集终端实时采集的调整后的视频流的步骤，更新调整参数，得到更新的控制指令进行再一次的调整。一次控制指令也可以对应多次调整，如控制指令携带了视频采集终端的移动速度，则视频采集终端可根据移动速度进行持续的移动完成持续性的调整。在调整的过程中根据调整后的采集状态实时的采集第二视频流并返回至服务器。可以理解的是，视频采集终端先将第二视频流进行编码得到编码后的码流，再返回至服务器。视频采集终端可与可移动机器人、门禁系统、视频监控系统中的至少一种配合使用，可集成于可移动机器人、门禁系统、视频监控系统内部，也可为独立的个体与可移动机器人、门禁系统、视频监控系统关联使用。

步骤S240，将第二视频流发送至直播终端。

具体的，直播终端是观看视频采集终端实时采集的视频流的终端，可以是当前直播房间对应的用户登录的终端。由于视频采集终端实时的调整采集状态后采集的视频发送至直播终端进行展示，调整采集状态是根据感兴趣对象的状态信息生成的控制指令进行调整，从而能自适应地智能采集感兴趣的直播内容，在直播终端进行直播展示，提高直播内容采集的灵活性和直播内容的价值度。

本实施例中，通过接收视频采集终端实时采集的第一视频流，根据直播属性获取第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象，根据感兴趣对象的状态信息生成控制指令，将控制指令发送至视频采集终端，以使视频采集终端调整采集状态，并根据调整后的采集状态采集并返回第二视频流，将第二视频流发送至直播终端，根据直播属性确定感兴趣区域，可为不同直播属性的直播确定不同的感兴趣区域，提高直播内容的多样化，调整采集状态是根据感兴趣对象的状态信息生成的控制指令进行调整，从而能自适应地智能采集感兴趣的直播内容，在直播终端进行直播展示，提高直播内容采集的灵活性和直播内容的价值度。

在一个实施例中，所述直播属性为表演类或无目标操作对象竞技类或监控类，步骤S210中根据直播属性获取所述第一视频流中的感兴趣区域，如图所示，获取感兴趣区域对应的感兴趣对象的步骤包括：

步骤S211，识别人脸区域，根据人脸区域确定感兴趣区域，得到候选感兴趣对象。

具体地，无目标操作对象竞技类是指竞技类项目不存在目标操作对象，只是根据参与者本身的操作得到竞技结果，如游泳类、赛跑类等。监控类是指需要监控的场景，如门禁监控、公安监控等。由于表演类或无目标操作对象竞技类或监控类一般的关注对象在于人，所以对于此类直播属性的直播视频，需要根据人脸区域确定感兴趣区域。人脸区域的识别算法不限定，可将人脸区域所在区域的预设范围确定为感兴趣区域，预设范围可为矩形等。对于存在多个人脸区域的重叠区域，可根据人体特征进行感兴趣对象的划分，如根据衣服颜色、肤色、头发等。

步骤S212，获取候选感兴趣对象的状态信息，状态信息包括运动特征信息、灯光信息、面积信息、角度信息中的至少一种信息。

具体地，运动特征信息可根据同一感兴趣对象在不同视频帧的位置计算得到包括运动速度、加速度、运动方向、运动轨迹等信息，灯光信息可根据感兴趣对象在不同视频帧的灰度值确定，面积信息可根据感兴趣对象占用当前视频帧的像素或比例得到，可为特定部位的面积信息，如脸部的面积信息。角度信息可通过检测人脸的特征比对模板或通过角度算法计算得到，其中状态信息包括但不限于上述信息。

步骤S213，根据状态信息确定目标感兴趣对象。

具体的，根据场景可自定义算法根据状态信息确定目标感兴趣对象，如表演类当前表演者往往处于高亮度灯光下，可将亮度值高于预设阈值的感兴趣对象确定为目标感兴趣对象，一般处于正脸的感兴趣对象为当前表演者，可根据人脸的角度信息确定目标感兴趣对象。一般位于舞台前面的对象为当前表演者，可将面积信息超过预设阈值的对象，或将面积比例超过预设阈值的对象确定为目标感兴趣对象。如对于竞技类一般关注点在于运动速度较快的参与者，可将运动速度超过预设阈值的感兴趣对象确定为目标感兴趣对象。对于监控类，可将感兴趣对象的特征与模板特征进行对比，将符合模板特征的感兴趣对象确定为目标感兴趣对象，可用于特定用户的追踪。

本实施例中，对于表演类或无目标操作对象竞技类或监控类，关注点为人的场景，通过人脸区域初步确定候选感兴趣对象，并根据候选感兴趣对象的状态信息确定目标感兴趣对象，可针对关注点为人的场景方便获取精准的感兴趣对象。

在一个实施例中，直播属性为目标操作对象竞技类，步骤S210中根据直播属性获取所述第一视频流中的感兴趣区域，如图获取感兴趣区域对应的感兴趣对象的步骤包括：

步骤S214，识别目标操作对象，将目标操作对象预设范围内的区域确定为感兴趣区域。

具体的，目标操作对象是参与者操作的对象，如球类比赛中的足球、篮球等，对于目标操作对象竞技类，一般的关注点在于当前目标操作对象的位置和操作目标操作对象的参与者。从而需要先识别目标操作对象，可根据提交预设的与当前直播场景对应的目标操作对象的特征识别目标操作对象。可将目标操作对象的周围预设范围内的区域确定为感兴趣区域，区域的面积和形状可根据需要自定义，如以目标操作对象的中心为圆点，以预设长度为半径的圆周范围内。

步骤S215，识别感兴趣区域内的人脸区域，根据人脸区域得到候选感兴趣对象。

具体地，通过识别感兴趣区域内的人脸区域可确定操作此目标操作对象的参与者，候选感兴趣对象可能为一个或多个。

步骤S216，获取候选感兴趣对象与目标操作对象的操作状态信息，操作状态信息包括候选感兴趣对象与目标操作对象的距离、候选感兴趣对象对目标操作对象的作用区域范围中的至少一种。

步骤S217，根据操作状态信息确定目标感兴趣对象。

具体地，候选感兴趣对象与目标操作对象的操作状态信息是指候选感兴趣对象与目标操作对象之间互动的状态信息。可根据候选感兴趣对象与目标操作对象的操作状态信息筛选得到目标操作对象，如将候选感兴趣对象中与目标操作对象的距离大于预设距离阈值的对象过滤，得到与目标操作对象距离较近的对象作为目标感兴趣对象。将候选感兴趣对象中对目标操作对象的作用区域范围最大的对象作为目标感兴趣对象等，具体的算法可根据需要自定义。

本实施例中，通过先识别目标操作对象，将感兴趣区域的范围确定在目标操作对象的周围，可针对关注点为目标操作对象和当前操作目标操作对象的参与者的场景方便获取精准的感兴趣对象。

在一个实施例中，直播属性为物品展示类，步骤S210中根据直播属性获取所述第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象的步骤包括：

步骤S218，获取当前物品展示类对应的物品特征信息，根据物品特征信息识别当前展示的物品，根据当前展示的物品所在的区域得到感兴趣区域。

步骤S219，当前展示的物品为感兴趣区域对应的感兴趣对象。

具体地，物品展示类的直播可在直播前设置当前直播待展示的物品的特征信息，待展示的物品可为一个或多个，分别存在对应的物品特征信息。物品特征信息用于描述物品的固有特征，如颜色、大小、形状、纹理等信息，可为经过数学运算后提取的特征信息。可将识别出的当前展示的物品所在的预设范围内的区域确定为感兴趣区域，当前展示的物品即为感兴趣对象。

本实施例中，通过物品特征信息识别当前展示的物品，从而确定感兴趣对象，可针对关注点为展示物品的场景方便获取精准的感兴趣对象。

在一个实施例中，步骤S220包括：根据感兴趣对象的状态信息计算感兴趣对象与视频采集终端之间的距离，根据距离与预设距离阈值的关系生成对应的移动控制指令，移动控制指令用于控制视频采集终端移动，改变视频采集终端与感兴趣对象之间的距离。

具体地，可根据感兴趣对象与当前视频帧的面积比例计算感兴趣对象与视频采集终端之间的距离，或提取摄像参数，根据摄像参数与感兴趣对象的大小信息计算感兴趣对象与视频采集终端之间的距离。如果距离大于第一预设距离阈值，则说明视频采集终端偏远，需要减小视频采集终端与感兴趣对象之间的距离，生成控制指令控制视频采集终端向感兴趣对象移动。如果距离小于第二预设距离阈值，则生成移动控制指令，移动控制指令用于控制视频采集终端向偏离感兴趣对象的方向移动，如果视频采集终端与感兴趣对象之间的距离过小，也可能造成视频中的感兴趣对象不完整，需要增加视频采集终端与感兴趣对象之间的距离。主动寻找值得播放的内容，保证直播视频的图像内容质量。

在一个实施例中，如图7所示，步骤S220包括：

步骤S221，根据感兴趣对象的状态信息计算感兴趣对象正平面与视频采集终端对应的采集平面之间的角度。

具体的，如果感兴趣对象如果是人，则可通过图像分析算法计算当前人脸的角度，如果感兴趣对象是物品，则需要先获取物品正面特征信息，识别物品正面所在平面，然后根据采集平面与识别物品正面所在平面的夹角计算得到感兴趣对象正平面与视频采集终端对应的采集平面之间的角度，可建立三维空间坐标系进行计算。

步骤S222，如果角度超过预设角度阈值，则生成旋转控制指令，旋转控制指令用于控制视频采集终端旋转以减小感兴趣对象正平面与视频采集终端对应的采集平面之间的角度。

具体地，如果感兴趣对象正平面与视频采集终端对应的采集平面之间存在角度，则说明视频采集终端不是正对着感兴趣对象进行采集，导致采集的感兴趣对象不是正面图像，需要生成旋转控制指令，控制视频采集终端旋转以减小感兴趣对象正平面与视频采集终端对应的采集平面之间的角度，理想角度为0度。

本实施例中，通过生成旋转控制指令，使得视频采集终端采集感兴趣对象的正面图像，主动寻找值得播放的内容，保证图像的有效性与可识别性。

在一个实施例中，步骤S220包括：根据感兴趣对象在连续视频帧的位置变化计算感兴趣对象的运动特征，根据运动特征生成对应的跟踪路径轨迹，根据跟踪路径轨迹生成对应的跟踪控制指令，所述跟踪控制指令用于连续调整视频采集终端的采集参数。

具体地，根据感兴趣对象在历史连续视频帧的位置变化计算运动特征，包括运动速度、运动方向、运动变化规律，从而得到估计的感兴趣对象的跟踪路径轨迹，根据跟踪路径轨迹生成对应的跟踪控制指令，跟踪控制指令用于控制视频采集终端的移动速度、移动方向等，从而连续调整视频采集终端，使之适应感兴趣对象的移动轨迹，实现感兴趣对象的连续跟踪。

在一个实施例中，步骤S240之前，还包括：根据感兴趣对象生成对应的辅助信息，将辅助信息叠加在第二视频流对应的视频帧，并编码生成第二编码数据，将第二编码数据发送至直播终端，以使直播终端解码显示包含辅助信息的第二视频流；或将辅助信息与第二视频流对应的视频帧关联，并编码生成第三编码数据，将第三编码数据发送至直播终端，以使直播终端根据所述辅助信息解码显示目标第二视频流。

具体地，辅助信息可分为需要展示在视频画面的信息和不需要展示在视频画面辅助播放的信息。对于需要展示在视频画面的信息，辅助信息可为标识感兴趣对象的信息，如人脸区域框、人体区域框等。也可为与感兴趣对象相关的信息，如通过人脸识别得出的用户身份信息，如用户名、用户表情信息、物品名称信息、介绍信息等。还可为根据感兴趣对象生成的匹配的图像，如配饰等。通过将辅助信息叠加在第二视频流对应的视频帧，编码生成第二编码数据，可实现实时叠加辅助信息，帮助用户快速识别感兴趣对象的位置和信息，同时，由于将辅助信息叠加在码流中，改变了实际的视频帧，从而可实现辅助信息在直播回放中的重现。对于当辅助信息为不需要展示在视频画面辅助播放的信息时，只需要将辅助信息与第二视频流对应的视频帧关联，以使直播终端根据所述辅助信息解码显示目标第二视频流，如根据辅助信息筛选需要播放的视频帧，实现视频内容的分析和过滤等。

在一个实施例中，辅助信息为视频帧的画面特征信息，第二视频流发送至直播终端后，直播终端获取设置的感兴趣特征信息，将感兴趣特征信息与第二视频流中当前视频帧的画面特征信息对比，如果匹配，则播放当前视频帧，否则跳过当前视频帧，实现直播画面的可选择播放，为用户自动提取感兴的内容播放，且不同的用户可根据自己的设置提取对应的感兴趣内容，实现同一视频流的差别播放。

在一个实施例中，视频采集终端集成于可移动机器人、门禁系统、视频监控系统中的至少一种中。

具体的，将视频采集终端直接集成于可移动机器人、门禁系统、视频监控系统中的至少一种中，使得可移动机器人、门禁系统、视频监控系统具备根据直播属性确定感兴趣对象的功能，且由于可移动机器人移动范围更大，具备强大的控制支持系统，可与视频采集终端实现更优质的配合，进一步提高视频采集终端调整采集状态的灵活性。将视频采集终端集成于门禁系统，可实现访问者的实时直播与访问者的识别与跟踪，提高门禁的安全性与智能性。将视频采集终端集成于视频监控系统可实现自动跟踪感兴趣对象，简化监控的难度。

在一个实施例中，视频采集终端集成于可移动机器人，如图8所示，步骤S230中将控制指令发送至所述视频采集终端，以使所述视频采集终端调整采集状态的步骤包括：

步骤S231，视频采集终端分析控制指令，如果存在移动控制指令，则将移动控制指令发送至可移动机器人的腿部行为控制模块，以使可移动机器人根据所述移动控制指令控制腿部移动。

步骤S232，如果存在旋转控制指令，则将旋转控制指令发送至可移动机器人的头部行为控制模块，以使可移动机器人根据旋转控制指令控制头部旋转。

具体的，视频采集终端可通过自定义的传输协议与机器人的各个行为控制模块进行通信，实现各个行为控制模块的状态变化。由于可移动机器人存在强大的行为控制能力，可实现更精准的行为变化，可移动机器人还可具备行为轨迹的记忆能力，便于遇到相同的场景和配置，实现状态变化的重现。移动控制指令和旋转控制指令可并行发生，并同步进行腿部移动和头部旋转。

在一个具体的实施例中，视频直播方法应用于如图1所示的应用环境中，如图9所示，其中视频流采集终端110包括用于拍摄实时画面的摄像头111、用于向服务器120推送视频流和接收服务器120发送的控制指令的传输控制模块112、用于展示当前拍摄画面和其他消息的显示模块113，以及用于根据控制指令进行不同操作调整采集状态的行为模块114。服务器120包括用于接收视频流采集终端110发送的视频流和向视频流采集终端110和直播终端130发送控制指令的传输控制模块121、用于分析和处理视频流并产生相应控制指令的工作模块122。直播终端130包括用于接收服务器120发送的视频流和控制指令的传输控制模块131、用于解析视频流的解码模块132、用于展示当前直播画面的显示模块133。

视频直播方法的具体过程如下：

视频流采集终端110通过内部摄像头111拍摄到画面后，传输至自身的显示模块113进行反馈显示，同时将第一视频流经由传输控制模块112发送至服务器120进行分析处理，服务器120对收到的第一视频流进行解析处理，获取第一视频流对应的直播属性，根据直播属性获取感兴趣区域，获取感兴趣区域对应的感兴趣对象，根据所述感兴趣对象的状态信息生成控制指令或显示指令。控制指令通过传输控制模块121返回视频流采集终端110，送达终端内部行为模块114，指挥视频采集终端110做出相应的行为调整采集状态，如移动或旋转，当视频采集终端110与可移动机器人相连或与门禁相连，可通过控制可移动机器人行为运动实现视频采集终端110做出相应的行为，或控制门禁开启或关闭等。

根据调整后的采集状态采集得到第二视频流，显示指令和经处理后包括辅助信息的第二视频流将通过传输控制模块131传送给直播终端130，其中显示指令包括快进、暂停等。直播终端130根据显示指令和配置数据，通过解码模块132对第二视频流进行解码，然后传递至显示模块133，将视频画面展示给用户。

具体的实施例中，通过视频流采集终端的行为模块调整采集状态自动锁定感兴趣有意义的画面并向其靠近，提高拍摄精确度，着重突出对主题相关画面的捕捉，提升主题相关度，服务器在处理视频流的时增加特定的辅助信息，比如标注出主题区域的位置等以提高观众的关注度，帮助用户快速识别感兴趣对象的位置和信息。

在一个实施例中，如图10所示，提供了一种视频直播装置，包括：

感兴趣对象确定模块410，用于接收视频采集终端实时采集的第一视频流，根据直播属性获取第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象。

控制指令生成模块420，用于根据感兴趣对象的状态信息生成控制指令。

调整采集模块430，用于将控制指令发送至视频采集终端，以使视频采集终端调整采集状态，并根据调整后的采集状态采集并返回第二视频流。

发送模块440，用于将第二视频流发送至直播终端。

在一个实施例中，直播属性为表演类或无目标操作对象竞技类或监控类，如图11所示，感兴趣对象确定模块410包括：

第一确定单元411，用于识别人脸区域，根据人脸区域确定感兴趣区域，得到候选感兴趣对象，获取候选感兴趣对象的状态信息，状态信息包括运动特征信息、灯光信息、面积信息、角度信息中的至少一种信息，根据状态信息确定目标感兴趣对象。

在一个实施例中，直播属性为目标操作对象竞技类，如图12所示，感兴趣对象确定模块410包括：

第二确定单元412，用于识别目标操作对象，将目标操作对象预设范围内的区域确定为感兴趣区域，识别感兴趣区域内的人脸区域，根据人脸区域得到候选感兴趣对象，获取候选感兴趣对象与目标操作对象的操作状态信息，操作状态信息包括候选感兴趣对象与目标操作对象的距离、候选感兴趣对象对目标操作对象的作用区域范围中的至少一种，根据操作状态信息确定目标感兴趣对象。

在一个实施例中，直播属性为物品展示类，如图13所示，感兴趣对象确定模块410包括：

第三确定模块413，用于获取当前物品展示类对应的物品特征信息，根据物品特征信息识别当前展示的物品，根据所述当前展示的物品所在的区域得到感兴趣区域，所述当前展示的物品为所述感兴趣区域对应的感兴趣对象。

在一个实施例中，控制指令生成模块420还用于根据感兴趣对象的状态信息计算感兴趣对象与视频采集终端之间的距离，根据距离与预设距离阈值的关系生成对应的移动控制指令，移动控制指令用于控制视频采集终端移动，改变视频采集终端与感兴趣对象之间的距离。

在一个实施例中，控制指令生成模块420还用于根据感兴趣对象的状态信息计算感兴趣对象正平面与视频采集终端对应的采集平面之间的角度，如果角度超过预设角度阈值，则生成旋转控制指令，旋转控制指令用于控制视频采集终端旋转以减小感兴趣对象正平面与视频采集终端对应的采集平面之间的角度。

在一个实施例中，如图14所示，控制指令生成模块420包括：

跟踪路径轨迹生成单元421，用于根据感兴趣对象在连续视频帧的位置变化计算感兴趣对象的运动特征，根据运动特征生成对应的跟踪路径轨迹。

跟踪控制指令生成单元422，用于根据跟踪路径轨迹生成对应的跟踪控制指令，跟踪控制指令用于连续调整视频采集终端的采集参数。

在一个实施例中，如图15所示，装置还包括：

辅助信息生成模块450，用于根据感兴趣对象生成对应的辅助信息。

第一辅助模块460，用于将辅助信息叠加在第二视频流对应的视频帧，并编码生成第二编码数据，将第二编码数据发送至直播终端，以使直播终端解码显示包含所述辅助信息的第二视频流；或

第二辅助模块470，用于将辅助信息与第二视频流对应的视频帧关联，并编码生成第三编码数据，将第三编码数据发送至直播终端，以使直播终端根据辅助信息解码显示目标第二视频流。

在一个实施例中，视频采集终端集成于可移动机器人，调整采集模块430还用于视频采集终端分析控制指令，如果存在移动控制指令，则将移动控制指令发送至所述可移动机器人的腿部行为控制模块，以使可移动机器人根据所述移动控制指令控制腿部移动，如果存在旋转控制指令，则将旋转控制指令发送至所述可移动机器人的头部行为控制模块，以使可移动机器人根据所述旋转控制指令控制头部旋转。

一种电子设备，其特征在于，包括存储器和处理器，存储器中储存有计算机可读指令，处理器执行所述计算机可读指令时，处理器执行以下步骤：接收视频采集终端实时采集的第一视频流，根据直播属性获取所述第一视频流中的感兴趣区域，获取所述感兴趣区域对应的感兴趣对象，根据所述感兴趣对象的状态信息生成控制指令，将所述控制指令发送至所述视频采集终端，以使所述视频采集终端调整采集状态，并根据调整后的采集状态采集并返回第二视频流，将所述第二视频流发送至直播终端。

在一个实施例中，直播属性为表演类或无目标操作对象竞技类或监控类，处理器执行的根据直播属性获取第一视频流中的感兴趣区域，获取所述感兴趣区域对应的感兴趣对象，包括：识别人脸区域，根据人脸区域确定感兴趣区域，得到候选感兴趣对象，获取候选感兴趣对象的状态信息，状态信息包括运动特征信息、灯光信息、面积信息、角度信息中的至少一种信息；根据状态信息确定目标感兴趣对象。

在一个实施例中，直播属性为目标操作对象竞技类，处理器执行的根据直播属性获取所述第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象，包括：识别目标操作对象，将目标操作对象预设范围内的区域确定为感兴趣区域；识别感兴趣区域内的人脸区域，根据人脸区域得到候选感兴趣对象，获取所述候选感兴趣对象与目标操作对象的操作状态信息，操作状态信息包括候选感兴趣对象与所述目标操作对象的距离、候选感兴趣对象对目标操作对象的作用区域范围中的至少一种；根据操作状态信息确定目标感兴趣对象。

在一个实施例中，直播属性为物品展示类，处理器执行的根据直播属性获取所述第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象，包括：获取当前物品展示类对应的物品特征信息，根据物品特征信息识别当前展示的物品，根据当前展示的物品所在的区域得到感兴趣区域；当前展示的物品为所述感兴趣区域对应的感兴趣对象。

在一个实施例中，处理器执行的根据感兴趣对象的状态信息生成控制指令，包括：根据感兴趣对象的状态信息计算所述感兴趣对象与视频采集终端之间的距离，根据距离与预设距离阈值的关系生成对应的移动控制指令，移动控制指令用于控制视频采集终端移动，改变视频采集终端与感兴趣对象之间的距离。

在一个实施例中，处理器执行的根据感兴趣对象的状态信息生成控制指令，包括：根据感兴趣对象的状态信息计算感兴趣对象正平面与视频采集终端对应的采集平面之间的角度；如果角度超过预设角度阈值，则生成旋转控制指令，所述旋转控制指令用于控制视频采集终端旋转以减小感兴趣对象正平面与视频采集终端对应的采集平面之间的角度。

在一个实施例中，处理器执行的根据感兴趣对象的状态信息生成控制指令，包括：根据感兴趣对象在连续视频帧的位置变化计算感兴趣对象的运动特征，根据运动特征生成对应的跟踪路径轨迹；根据跟踪路径轨迹生成对应的跟踪控制指令，跟踪控制指令用于连续调整视频采集终端的采集参数。

在一个实施例中，计算机可读指令使得处理器在执行将第二视频流发送至直播终端之前，还执行以下步骤：根据感兴趣对象生成对应的辅助信息，将辅助信息叠加在第二视频流对应的视频帧，并编码生成第二编码数据，将第二编码数据发送至直播终端，以使直播终端解码显示包含辅助信息的第二视频流，或将辅助信息与第二视频流对应的视频帧关联，并编码生成第三编码数据，将第三编码数据发送至直播终端，以使直播终端根据辅助信息解码显示目标第二视频流。

在一个实施例中，视频采集终端集成于可移动机器人，处理器执行的将控制指令发送至所述视频采集终端，以使视频采集终端调整采集状态，包括：所述视频采集终端分析控制指令，如果存在移动控制指令，则将移动控制指令发送至所述可移动机器人的腿部行为控制模块，以使可移动机器人根据移动控制指令控制腿部移动，如果存在旋转控制指令，则将旋转控制指令发送至可移动机器人的头部行为控制模块，以使可移动机器人根据旋转控制指令控制头部旋转。

在一个实施例中，提出了一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现以下步骤：接收视频采集终端实时采集的第一视频流，根据直播属性获取第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象，根据感兴趣对象的状态信息生成控制指令，将控制指令发送至所述视频采集终端，以使视频采集终端调整采集状态，并根据调整后的采集状态采集并返回第二视频流，将第二视频流发送至直播终端。

在一个实施例中，直播属性为表演类或无目标操作对象竞技类或监控类，处理器执行的所述根据直播属性获取第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象，包括：识别人脸区域，根据所述人脸区域确定感兴趣区域，得到候选感兴趣对象；获取候选感兴趣对象的状态信息，状态信息包括运动特征信息、灯光信息、面积信息、角度信息中的至少一种信息，根据状态信息确定目标感兴趣对象。

在一个实施例中，直播属性为目标操作对象竞技类，处理器执行的根据直播属性获取所述第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象，包括：识别目标操作对象，将目标操作对象预设范围内的区域确定为感兴趣区域；识别感兴趣区域内的人脸区域，根据人脸区域得到候选感兴趣对象；获取所述候选感兴趣对象与所述目标操作对象的操作状态信息，操作状态信息包括候选感兴趣对象与所述目标操作对象的距离、候选感兴趣对象对目标操作对象的作用区域范围中的至少一种，根据操作状态信息确定目标感兴趣对象。

在一个实施例中，直播属性为物品展示类，处理器执行的根据直播属性获取所述第一视频流中的感兴趣区域，获取感兴趣区域对应的感兴趣对象，包括：获取当前物品展示类对应的物品特征信息，根据物品特征信息识别当前展示的物品，根据所述当前展示的物品所在的区域得到感兴趣区域，当前展示的物品为所述感兴趣区域对应的感兴趣对象。

在一个实施例中，处理器执行的根据感兴趣对象的状态信息生成控制指令，包括：根据感兴趣对象的状态信息计算感兴趣对象与视频采集终端之间的距离，根据所述距离与预设距离阈值的关系生成对应的移动控制指令，移动控制指令用于控制视频采集终端移动，改变视频采集终端与感兴趣对象之间的距离。

在一个实施例中，处理器执行的根据感兴趣对象的状态信息生成控制指令，包括：根据所述感兴趣对象的状态信息计算所述感兴趣对象正平面与视频采集终端对应的采集平面之间的角度，如果角度超过预设角度阈值，则生成旋转控制指令，旋转控制指令用于控制视频采集终端旋转以减小感兴趣对象正平面与视频采集终端对应的采集平面之间的角度。

在一个实施例中，计算机可读指令使得处理器在执行将第二视频流发送至直播终端之前，还执行以下步骤：根据感兴趣对象生成对应的辅助信息；将所述辅助信息叠加在所述第二视频流对应的视频帧，并编码生成第二编码数据，将第二编码数据发送至直播终端，以使直播终端解码显示包含所述辅助信息的第二视频流；或将辅助信息与第二视频流对应的视频帧关联，并编码生成第三编码数据，将第三编码数据发送至直播终端，以使直播终端根据辅助信息解码显示目标第二视频流。

在一个实施例中，视频采集终端集成于可移动机器人，处理器执行的将所述控制指令发送至所述视频采集终端，以使所述视频采集终端调整采集状态，包括：所述视频采集终端分析控制指令，如果存在移动控制指令，则将移动控制指令发送至可移动机器人的腿部行为控制模块，以使可移动机器人根据移动控制指令控制腿部移动；如果存在旋转控制指令，则将旋转控制指令发送至可移动机器人的头部行为控制模块，以使可移动机器人根据旋转控制指令控制头部旋转。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频直播方法，所述方法包括：

根据所述感兴趣对象的状态信息生成控制指令；

将所述第二视频流发送至直播终端。

2.根据权利要求1所述的方法，其特征在于，所述直播属性为表演类或无目标操作对象竞技类或监控类，所述根据直播属性获取所述第一视频流中的感兴趣区域，获取所述感兴趣区域对应的感兴趣对象的步骤包括：

识别人脸区域，根据所述人脸区域确定感兴趣区域，得到候选感兴趣对象；

获取所述候选感兴趣对象的状态信息，所述状态信息包括运动特征信息、灯光信息、面积信息、角度信息中的至少一种信息；

根据所述状态信息确定目标感兴趣对象。

3.根据权利要求1所述的方法，其特征在于，所述直播属性为目标操作对象竞技类，所述根据直播属性获取所述第一视频流中的感兴趣区域，获取所述感兴趣区域对应的感兴趣对象的步骤包括：

识别目标操作对象，将所述目标操作对象预设范围内的区域确定为感兴趣区域；

识别所述感兴趣区域内的人脸区域，根据所述人脸区域得到候选感兴趣对象；

获取所述候选感兴趣对象与所述目标操作对象的操作状态信息，所述操作状态信息包括候选感兴趣对象与所述目标操作对象的距离、候选感兴趣对象对所述目标操作对象的作用区域范围中的至少一种；

根据所述操作状态信息确定目标感兴趣对象。

4.根据权利要求1所述的方法，其特征在于，所述直播属性为物品展示类，所述根据直播属性获取所述第一视频流中的感兴趣区域，获取所述感兴趣区域对应的感兴趣对象的步骤包括：

获取当前物品展示类对应的物品特征信息，根据所述物品特征信息识别当前展示的物品，根据所述当前展示的物品所在的区域得到感兴趣区域；

所述当前展示的物品为所述感兴趣区域对应的感兴趣对象。

5.根据权利要求1所述的方法，其特征在于，所述根据所述感兴趣对象的状态信息生成控制指令的步骤包括：

根据所述感兴趣对象的状态信息计算所述感兴趣对象与视频采集终端之间的距离，根据所述距离与预设距离阈值的关系生成对应的移动控制指令，移动控制指令用于控制视频采集终端移动，改变视频采集终端与感兴趣对象之间的距离。

6.根据权利要求1所述的方法，其特征在于，所述根据所述感兴趣对象的状态信息生成控制指令的步骤包括：

根据所述感兴趣对象的状态信息计算所述感兴趣对象正平面与视频采集终端对应的采集平面之间的角度；

如果所述角度超过预设角度阈值，则生成旋转控制指令，所述旋转控制指令用于控制所述视频采集终端旋转以减小所述感兴趣对象正平面与视频采集终端对应的采集平面之间的角度。

7.根据权利要求1所述的方法，其特征在于，所述根据所述感兴趣对象的状态信息生成控制指令的步骤包括：

根据感兴趣对象在连续视频帧的位置变化计算感兴趣对象的运动特征，根据运动特征生成对应的跟踪路径轨迹；

根据所述跟踪路径轨迹生成对应的跟踪控制指令，所述跟踪控制指令用于连续调整视频采集终端的采集参数。

8.根据权利要求1所述的方法，其特征在于，所述将所述第二视频流发送至直播终端的步骤之前，还包括：

根据所述感兴趣对象生成对应的辅助信息；

将所述辅助信息叠加在所述第二视频流对应的视频帧，并编码生成第二编码数据，将第二编码数据发送至直播终端，以使直播终端解码显示包含所述辅助信息的第二视频流；或

将所述辅助信息与第二视频流对应的视频帧关联，并编码生成第三编码数据，将第三编码数据发送至直播终端，以使直播终端根据所述辅助信息解码显示目标第二视频流。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述视频采集终端集成于可移动机器人、门禁系统、视频监控系统中的至少一种中。

10.根据权利要求1所述的方法，其特征在于，所述视频采集终端集成于可移动机器人，所述将所述控制指令发送至所述视频采集终端，以使所述视频采集终端调整采集状态的步骤包括：

所述视频采集终端分析控制指令，如果存在移动控制指令，则将所述移动控制指令发送至所述可移动机器人的腿部行为控制模块，以使所述可移动机器人根据所述移动控制指令控制腿部移动；

如果存在旋转控制指令，则将所述旋转控制指令发送至所述可移动机器人的头部行为控制模块，以使所述可移动机器人根据所述旋转控制指令控制头部旋转。

11.一种视频直播装置，其特征在于，所述装置包括：

发送模块，用于将所述第二视频流发送至直播终端。

12.根据权利要求11所述的装置，其特征在于，所述直播属性为目标操作对象竞技类，所述感兴趣对象确定模块包括：

第二确定单元，用于识别目标操作对象，将所述目标操作对象预设范围内的区域确定为感兴趣区域，识别所述感兴趣区域内的人脸区域，根据所述人脸区域得到候选感兴趣对象，获取所述候选感兴趣对象与所述目标操作对象的操作状态信息，所述操作状态信息包括候选感兴趣对象与所述目标操作对象的距离、候选感兴趣对象对所述目标操作对象的作用区域范围中的至少一种，根据所述操作状态信息确定目标感兴趣对象。

13.根据权利要求11所述的装置，其特征在于，所述控制指令生成模块还用于根据所述感兴趣对象的状态信息计算所述感兴趣对象与视频采集终端之间的距离，根据所述距离与预设距离阈值的关系生成对应的移动控制指令，移动控制指令用于控制视频采集终端移动，改变视频采集终端与感兴趣对象之间的距离；和/或

所述控制指令生成模块还用于根据所述感兴趣对象的状态信息计算所述感兴趣对象正平面与视频采集终端对应的采集平面之间的角度，如果所述角度超过预设角度阈值，则生成旋转控制指令，所述旋转控制指令用于控制所述视频采集终端旋转以减小所述感兴趣对象正平面与视频采集终端对应的采集平面之间的角度。

14.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述处理器执行所述计算机可读指令时，实现权利要求1-10中任意一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现权利要求1-10中任意一项所述方法的步骤。