CN117714802A

CN117714802A - 一种网络直播智能机器人系统

Info

Publication number: CN117714802A
Application number: CN202311734712.1A
Authority: CN
Inventors: 王鑫; 龙悦强; 连毅; 吴生强; 龚亚军
Original assignee: Hangzhou Wuyou Digital Information Technology Co ltd
Current assignee: Hangzhou Wuyou Digital Information Technology Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-15
Anticipated expiration: 2043-12-15
Also published as: CN117714802B

Abstract

本发明提供一种网络直播智能机器人系统,包括第一摄像头模块、第二摄像头模块和信息处理模块；第一摄像头模块用于获取第一摄像头采集的第一视频画面数据；第二摄像头模块用于获取第二摄像头采集的第二视频画面数据；信息处理模块用于根据获取的第一视频画面数据和第二视频画面数据进行控制标识识别，当识别到控制标识时，生成相应的画面切换指令，以使得播放模块根据画面切换指令调取第一视频画面数据或第二视频画面数据在直播界面的主直播窗口进行播放。本发明有助于提高电商网络直播过程中主播针对画面操作的便捷水平，通过智能化检测和切换的方式，也有助于提高了直播的流畅程度和观感。

Description

一种网络直播智能机器人系统

技术领域

本发明涉及网络直播技术领域，特别是一种网络直播智能机器人系统。

背景技术

随着直播行业的发展，网络直播的相关技术也得到飞速的发展；目前，在网络直播的过程中，主播会利用大量的镜头效果，来提高观众观看直播的观感；例如针对带货直播，利用镜头对货物进行特写拍摄，以提高对货物的观感；或者是针对才艺主播，则利用不同角度镜头的切换，来提高表演的观感。

现有技术中，上述在网络直播过程中针对镜头的处理和切换，通常是需要专门的导播来通过后台设备配合完成，则在主播进行直播的过程中，还需要一名专门的导播来控制直播镜头，这样的方式配合起来容易出现误差，降低直播观感，也需要耗费额外的人力成本；而另一种方式则是主播需要在直播的过程中同时操作后台设备(例如需要通过鼠标键盘等控制电脑)，来对画面进行切换，但这样的方式也容易使得主播在操作后台设备的时候出现等待间隙，影响直播效果。

发明内容

针对上述提出的现有技术中针对网络直播中镜头切换或者直播画面处理的过程中出现的需要耗费额外人力成本、容易造成配合误差或者操作起来不方便导致影响直播效果的技术问题，本发明旨在提供一种网络直播智能机器人系统。

本发明的目的采用以下技术方案来实现：

本发明提出一种网络直播智能机器人系统，其特征在于，包括第一摄像头模块、第二摄像头模块和信息处理模块；

第一摄像头模块用于获取第一摄像头采集的第一视频画面数据，并将采集到的第一视频画面数据传输到信息处理模块；

第二摄像头模块用于获取第二摄像头采集的第二视频画面数据，并将采集到的第二视频画面数据传输到信息处理模块；

信息处理模块用于将获取的第一视频画面数据和第二视频画面数据传输至播放模块，由播放模块根据预设的直播界面模板对获取的第一视频画面数据或第二视频画面数据在直播界面相应的直播窗口位置进行播放；其中直播界面模板至少包含一个主直播窗口；

信息处理模块还用于进一步根据获取的第一视频画面数据和第二视频画面数据进行控制标识识别，当识别到控制标识时，生成相应的画面切换指令，以使得播放模块根据画面切换指令调取第一视频画面数据或第二视频画面数据在直播界面的主直播窗口进行播放。

优选的，所述系统还包括播放模块；

播放模块用于根据预设的直播界面模板将获取的第一视频画面数据和/或第二视频画面数据指定在直播界面相应的直播窗口位置进行播放；并在接收到画面切换指令后，根据画面切换指令调取第一视频画面数据或第二视频画面数据在直播界面的主直播窗口进行播放。

优选的，所述第一摄像头和第二摄像头从不同的角度对同一区域进行拍摄，或者所述第一摄像头和第二摄像头对准不同的区域，对不同的区域进行拍摄。

优选的，所述系统还包括配置模块；

配置模块用于完成直播摄像头数据接口的配置，以使得第一摄像头模块和第二摄像头模块能够获取相应摄像头采集并传输的数据；

配置模块还用于完成直播界面模板中窗口和界面参数的设置，包括设置直播界面中窗口的数量、位置、尺寸等参数。

优选的，所述系统还包括管理模块；

管理模块用于与主播用户进行智能交互，包括获取主播用户的身份信息，以及将配置信息与主播用户进行关联，其中配置信息包括直播界面模板配置信息和控制标识配置信息等。

优选的，信息处理模块包括接收单元、分析单元和传输单元；

接收单元用于分别接收由第一摄像头模块传输的第一视频画面数据和由第二摄像头模块传输的第二视频画面数据；

分析单元用于根据获取的第一视频画面数据和第二视频画面数据进行图像分析处理，检测并识别视频画面中出现的控制标识，并根据识别到的控制表示生成相应的画面切换指令；

传输单元用于将第一视频画面数据和第二视频画面数据传输到播放模块。

优选的，信息处理模块还包括视频增强单元；

视频增强单元用于对接收单元获取的第一视频画面数据和第二视频画面数据进行画面增强处理，并将画面增强处理后的视频画面数据传输到分析单元或传输单元。

优选的，分析单元包括手势识别单元；

手势识别单元用于根据获取的第一视频画面数据和第二视频画面数据分别进行手势识别处理，识别视频画面中主播的手势指令，并根据识别到的手势指令获取对应的画面切换指令；

其中手势识别处理基于深度学习的手势识别模型完成；手势指令至少包括第一手势和第二手势，其中第一手势对应的画面切换指令为将第一视频画面切换至主直播窗口进行播放；第二手势对应的画面切换指令为将第二视频画面切换至主直播窗口进行播放。

优选的，分析单元包括人脸识别单元；

人脸识别单元用于根据获取的第一视频画面数据和第二视频画面数据分别进行人脸识别，获取主播人脸在相应视频画面中的位置，并基于识别到的主播人脸分析主播人脸相对视频画面的角度，当当分析到主播人脸正对视频画面时，则生成与该主播正对的视频画面对应的画面切换指令；

当通过第一视频画面数据识别到主播人脸正对第一视频画面时，则生成第一画面切换指令，以使得将第一视频画面切换至主直播窗口进行播放；当通过第二视频画面数据识别到主播人脸正对第二视频画面时，则生成第二画面切换指令，以使得将第二视频画面切换至主直播窗口进行播放。

优选的，播放模块包括直播单元和画面切换单元；

直播单元用于根据预设的直播界面模板，将获取的第一视频画面数据和/或第二视频画面数据指定在直播界面相应的直播窗口位置进行播放；

画面切换单元用于根据接收到的画面切换指令，切换第一视频画面数据和/或第二视频画面数据在直播界面的播放位置。

优选的，直播界面模板包括单一窗口界面和双窗口界面；

单一窗口界面中只包含一个主直播窗口；在单一窗口界面模式下，直播单元将第一视频画面数据或第二视频画面数据指定到主直播窗口进行播放；画面切换单元根据接收到的画面切换指令，控制直播单元切换主直播窗口播放的视频画面数据；

双窗口界面包括主直播窗口和副直播窗口；在双窗口界面模式下，直播单元将第一视频画面数据或第二视频画面数据指定到主直播窗口进行播放，非主直播窗口的另一个视频画面则在副直播窗口播放；画面切换单元根据接收到的画面指令，控制直播单元切换主直播窗口和副直播窗口播放的视频画面数据。

本发明的有益效果为：本发明提出一种网络直播智能机器人，通过设置信息处理模块对获取的视频画面数据进行实时的分析和控制标识识别，并基于控制标识生成相应的画面切换指令控制当前直播窗口中视频画面的切换，能够辅助主播在进行网络直播的过程中完成自主、智能化的双摄像头画面的切换，无需额外的后台操作，有助于提高网络直播过程中主播针对画面操作的便捷水平，通过智能化检测和切换的方式，也有助于提高了直播的流畅程度和观感。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明实施例所示一种网络直播智能机器人系统的框架结构示意图。

具体实施方式

结合以下应用场景对本发明作进一步描述。

参见图1，其示出一种网络直播智能机器人系统，包括第一摄像头模块、第二摄像头模块和信息处理模块；

本发明上述实施方式，提出一种网络直播智能机器人，通过设置信息处理模块对获取的视频画面数据进行实时的分析和控制标识识别，并基于控制标识生成相应的画面切换指令控制当前直播窗口中视频画面的切换，能够辅助主播在进行网络直播的过程中完成自主、智能化的双摄像头画面的切换，无需额外的后台操作，有助于提高网络直播过程中主播针对画面操作的便捷水平，通过智能化检测和切换的方式，也有助于提高了直播的流畅程度和观感。

其中，该机器人系统基于直播服务器进行搭建，通过直播服务器对获取的视频画面数据进行处理，并基于视频画面数据对视频画面中的主播给出的控制标识进行识别，生成相应的画面切换指令，以控制直播画面中主窗口展示的视频画面数据；观看直播的用户通过登录直播服务器，能够获取相应的直播画面信息。

该机器人系统也可以基于本地直播终端进行搭建，例如是针对本地投影等场景下，本地直播终端根据采集的视频画面数据进行处理，并智能化切换相应的播放画面，最终通过视频输出设备(如投影仪等)将直播画面输出。

优选的，该系统还包括播放模块；

基于播放模块将视频画面嵌套在直播界面并进行播放，观看直播的用户通过访问播放模块来收看相应的直播画面。

针对不同的直播场景，第一摄像头和第二摄像头可以根据实际需要进行设置，其中针对手工、带货类型等需要进行近景拍摄的直播，则可以将第一摄像头对准主播，第二摄像头对准桌面或货架来进行特写拍摄，通过在主播需要进行特写的时候，则切换至第二摄像头进行近景画面的显示，提高特写画面的清晰度。而针对才艺主播、健身主播等，则可以在不同的角度设置第一摄像头和第二摄像头来分别对主播所在位置进行拍摄，通过不同角度画面的切换来，来提高直播效果。

优选的，该系统还包括配置模块；

在设置阶段：通过配置模块，主播将摄像头和相应的摄像头模块进行接口配对，以使得摄像头模块能够准确获取相应摄像头采集的视频画面数据。同时根据直播内容和直播风格的需要，能够对直播界面进行相应的设置。

信息处理模块具体针对获取的视频画面数据进行分析处理，基于图像分析技术对获取的视频画面数据进行实时分析，识别视频画面中包含的控制标识，并根据控制标识生成相应的画面切换指令，以控制直播窗口中画面的切换。

优选的，信息处理模块还包括视频增强单元；

其中，为了提高直播画面的效果和提高分析单元基于视频画面数据识别控制标识的准确性，信息处理模块中专门设置有视频增强单元来对获取的视频画面数据进行增强处理，提高视频画面的清晰度。

针对主播在转动头部方向，或者针对近景手部区域拍摄的时候，由于头部或者手部活动或移动(手部或头部区域相对固定画面的位置发生变化)过程中，手部或头部区域因区域调整导致受到光线变化的影响，使得拍摄到的画面中的头部或手部区域出现短暂的不清晰的情况，导致针对视频画面数据进行控制标识识别的时候出现准确性下降和出现延迟性的情况发生。

优选的，视频增强单元对接收单元获取的第一视频画面数据和第二视频画面数据进行画面增强处理，具体包括：

根据获取的视频画面进行边缘检测，根据获取的边缘信息进行前景目标提取，得到前景目标的轮廓区域图像，其中视频画面包括从第一视频画面数据和第二视频画面数据提取的视频画面帧；所述前景目标包括主播人脸或手部；

根据前景目标的轮廓区域图像和前一帧视频画面中的前景目标的轮廓区域图像进行匹配分析，基于前一帧得到的前景目标的轮廓区域图像作为图形模板，基于图形模板与当前帧获取的前景目标的轮廓区域图像进行相似度匹配，包括根据获取的图形模板和当前帧获取的前景目标的轮廓区域图像进行尺寸归一化处理，并以像素点的灰度梯度值作为特征值，计算各像素点特征值的偏差得到图形模板和当前帧获取的前景目标的轮廓区域图像之间的相似度其中/>表示像素点位置a属于尺寸归一化后的图形模板或轮廓区域图像范围/>内的像素点；sj(a,t)和sh(a,t-1)分别表示尺寸归一化后的当前帧获取的前景目标的轮廓区域图像和图形模板中a位置的灰度梯度值，N表示尺寸归一化后像素点的总数；

并进一步根据图形模板和当前帧获取的前景目标的轮廓区域图像的轮廓信息获取前景目标的位移量d(t)＝||∑_dir,d,l,r[s_dir(t)-s_dir(t-1)]||,其中dir＝u,d,l,r表示变量dir对应上、下、左、右边界，s_dir(t)和s_dir(t-1)分别表示当前帧获取的前景目标的轮廓区域图像和图形模板中最dir边界的位置，其中s_dir(T)-s_dir(t-1)为对应上、下、左、右方向上的矢量运算，‖*‖表示对矢量*求模运算；

根据得到相似度sim(t)和位移量d(t)进行分析，当相似度sim(t)和位移量d(t)均在预设的标准范围内时，即sim(t)>simT，且d(t)<dT；其中simT表示预设的相似度标准值，simT∈[70％,90％]，dT表示预设的位移标准值，其中dL表示视频画面的边长像素点尺寸；基于图形模板对当前帧画面的前景目标的轮廓区域图像进行亮度增强处理，包括采用下列函数对前景目标的轮廓区域图像内的像素点的亮度分量值进行增强处理：L′(a,t)＝ω1×L(a,t)+ω2×L(b,t-1)，a∈R，其中，a∈R表示像素点a输入当前帧视频画面中前景目标轮廓区域范围内的像素点，L′(a,t)表示增强处理后当前帧视频画面中前景目标轮廓区域范围内像素点a的亮度分量值，其中亮度分量值为根据视频画面转换到Lab颜色空间得到的亮度分量L对应的亮度分量值；L(a,t)表示增强处理前当前帧视频画面中前景目标轮廓区域范围内像素点a的亮度分量值；L(b,t-1)表示前一帧得到的图形模板中像素点位置b的亮度分量值，像素点b为图形模板中与像素点a对应的像素点位置；ω1和ω2分别表示权重因子，其中ω1,ω2>0，ω1+ω2＝1；完成前景目标的轮廓区域图像内的像素点的增强处理后，得到增强处理后的当前帧视频画面；

否则，当相似度sim(t)或位移量d(t)超出预设的标准范围内时，即sim(t)≤simT，或d(t)≥dT时，进一步基于图形模板和当前帧前景信息对当前帧画面的前景目标的轮廓区域图像进行亮度增强处理，包括采用下列函数对前景目标的轮廓区域图像内的像素点的亮度分量值进行增强处理：其中，a∈R表示像素点a输入当前帧视频画面中前景目标轮廓区域范围内的像素点，L′(a,t)表示增强处理后当前帧视频画面中前景目标轮廓区域范围内像素点a的亮度分量值，其中亮度分量值为根据视频画面转换到Lab颜色空间得到的亮度分量L对应的亮度分量值；表示增强处理前当前帧视频画面中前景目标轮廓区域范围内以像素点a为中心的3×3范围内各像素点的平均亮度分量值，L(c,t)表示当前帧视频画面中前景目标轮廓区域中距离像素点a最近的轮廓像素点c的亮度分量值，L(b,t-1)表示前一帧得到的图形模板中像素点位置b的亮度分量值，像素点b为图形模板中与像素点a对应的像素点位置；ω3、ω4和ω5分别表示权重因子，其中ω3>ω4>ω5>0，ω3+ω4+ω5＝1；完成前景目标的轮廓区域图像内的像素点的增强处理后，得到增强处理后的当前帧视频画面；

视频增强单元进一步将画面增强处理后的视频画面数据传输到分析单元或传输单元。

优选的，当针对当前帧前景目标的轮廓区域图像完成亮度调节后，将亮度调节后的前景目标的轮廓区域图像作为更新的图形模板，并基于此对下一帧视频画面进行增强处理。

优选的，边缘检测能够基于sobel算子、canny算子等边缘像素点检测技术完成，获取图像中的去边缘信息，并基于获得的边缘信息提取前景目标，根据前景目标的轮廓得到前景目标的轮廓区域图像。

优选的，尺寸归一化处理能够基于预设的图像拉伸模型来将前景目标轮廓区域图像调整至统一的尺寸。

本发明上述实施方式，提出一种针对获取的第一视频画面数据和第二视频画面数据进行增强处理的技术方案，来特别针对视频画面中存在的主播人脸或手部等前景目标进行增强，提高前景目标的清晰度。其中，首先基于边缘检测技术，来获取图像中的人脸部分或手部的前景目标，基于视频画面的时间变化特征，来根据前后两帧的视频画面计算得到前景目标的相似度特征和位移量特征，来反映视频画面中前景目标随时间的位姿变化信息(包括形态变化和位置变化)，并根据前景目标的位姿变化信息进行判断，当前景目标发生形态变化或位置变化过大(例如发生头部转动或者手势变化的时候，容易因为姿态的变化产生前景区域的阴影，导致前景区域出现画面不清楚的情况，或者时当前景目标位移过大的时候，容易使得前景目标移动至亮度变化较大的区域(如强光、阴影区域等)，导致前景目标出现不清晰的情况)时，则以当前前景目标区域内的像素点的区域亮度信息、前一帧画面中前景目标对应位置的亮度信息作为基础，并进一步加入前景目标轮廓位置的亮度信息作为参量，来对像素点的亮度进行增强处理，能够降低因位姿变化导致的亮度突变造成的影响，缓解画面局部不清晰的情况。而针对位姿变化不大的前景目标，则参考前一帧视频画面中相同位置的对的亮度信息对当前前景目标进行亮度增强处理，以常规减低画面因亮度波动导致的清晰度波动情况，进一步提高视频画面的清晰度和稳定性。有助于提高后续根据视频画面数据进一步识别主播控制标识识别的准确性和实时性。

优选的，所述控制标识包括主播的人脸或者控制手势。

作为示例性的实施方式，主播能够通过人脸或者手势模式来对直播画面的切换进行控制。

优选的，分析单元包括手势识别单元；

针对手工主播、带货主播等，主播在直播过程中做出相应的手势(如比出手势1伸出食指或手势2伸出食指和中指)后，分析单元能够识别到视频画面中的手势，生成相应的画面切换至零将视频画面从对准主播的一般直播画面切换到对指定区域(如工作台、商品展示区域)的特写画面，方便主播针对特写画面中展示的内容进行进一步的介绍。

优选的，分析单元包括人脸识别单元；

其中，基于视频画面数据的人脸识别处理和人脸朝向识别处理基于开源的百度AI人脸识别模型完成，或者基于人脸识别模型检测到的人脸区域，采用现有已经训练好的人脸朝向识别模型，来获取人脸相对于视频画面的角度。

其中，需要说明的是，上述所指的征对视频画面，应当被理解为人脸的朝向正对摄像头的方向；且当人脸的朝向偏离(如向上、下、左、右等方向偏离)摄像头的方向的角度在一定范围内(如5°、10°、或者根据第一摄像头和第二摄像头的拍摄角度差具体设置的角度等)时，也应当被认为是主播人脸正对视频画面。

针对健身主播、才艺主播等，主播通过在展示的过程中调整面向角度，又分析单元通过视频画面数据识别捕捉到主播正面后，则自动将当前的画面切换到对准主播正面的角度的视频画面进行播放，提高直播效果。

优选的，播放模块包括直播单元和画面切换单元；

优选的，直播界面模板包括单一窗口界面和双窗口界面；

根据不同主播类型的需求，主播能够根据自身的设备情况和直播需要完成直播界面的设置，并在直播过程中由直播单元对直播画面播放和完成视频画面的切换。

优选的，该系统还包括管理模块；

针对不同的主播，机器人系统能够对主播用户进行个性化管理，将主播用户对应的配置信息进行关联并存储到相应的服务器或者本地终端设备中，方便主播在后续直播的过程中进行调用。

需要说明的是，在本发明各个实施例中的各功能单元/模块可以集成在一个处理单元/模块中，也可以是各个单元/模块单独物理存在，也可以是两个或两个以上单元/模块集成在一个单元/模块中。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用软件功能单元/模块的形式实现。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解应当理解，可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现，处理器可以在一个或多个下列单元中实现：专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现，实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时，可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当分析，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种网络直播智能机器人系统，其特征在于，包括第一摄像头模块、第二摄像头模块和信息处理模块；

2.根据权利要求1所述的一种网络直播智能机器人系统，其特征在于，所述系统还包括播放模块；

3.根据权利要求1所述的一种网络直播智能机器人系统，其特征在于，所述系统还包括管理模块；

管理模块用于与主播用户进行智能交互，包括获取主播用户的身份信息，以及将配置信息与主播用户进行关联，其中配置信息包括直播界面模板配置信息和控制标识配置信息。

4.根据权利要求1所述的一种网络直播智能机器人系统，其特征在于，所述系统还包括配置模块；

5.根据权利要求1所述的一种网络直播智能机器人系统，其特征在于，信息处理模块包括接收单元、分析单元和传输单元；

6.根据权利要求5所述的一种网络直播智能机器人系统，其特征在于，信息处理模块还包括视频增强单元；

7.根据权利要求5所述的一种网络直播智能机器人系统，其特征在于，分析单元包括手势识别单元；

8.根据权利要求5所述的一种网络直播智能机器人系统，其特征在于，分析单元包括人脸识别单元；

9.根据权利要求1所述的一种网络直播智能机器人系统，其特征在于，播放模块包括直播单元和画面切换单元；

10.根据权利要求9所述的一种网络直播智能机器人系统，其特征在于，直播界面模板包括单一窗口界面和双窗口界面；