CN114710688A

CN114710688A - 一种可配置自动化驱动虚拟主播的直播互动系统及方法

Info

Publication number: CN114710688A
Application number: CN202210303776.5A
Authority: CN
Inventors: 肖永强; 唐尉棉; 肖金华
Original assignee: Xiamen Biebeyun Co ltd
Current assignee: Fujian Reliable Cloud Computing Technology Co.,Ltd.
Priority date: 2022-03-26
Filing date: 2022-03-26
Publication date: 2022-07-05
Anticipated expiration: 2042-03-26
Also published as: CN114710688B

Abstract

本发明涉及一种可配置自动化驱动虚拟主播的直播互动系统，包括客户端、FAQ服务器、语音服务器、弹幕采集服务单元、Unity3D虚拟动画服务单元,用户管理服务器；所述客户端与弹幕采集服务单元、Unity3D虚拟动画服务单元和用户管理服务器分别连接；所述用户管理服务器与FAQ服务器、语音服务器分别连接。本发明有效降低电商直播卖货中的人工成本，为虚拟主播赋能，支持可配置自动化流程。

Description

一种可配置自动化驱动虚拟主播的直播互动系统及方法

技术领域

本发明涉及计算机软件技术领域，具体涉及一种可配置自动化驱动虚拟主播的直播互动系统及方法。

背景技术

在电商直播卖货过程中，通常是由人工先介绍商品情况为主然后不定时与来访者互动，介绍商品往往是会预先准备的一些介绍台本，以及可能针对商品相关的FAQ，这样真人主播在直播的过程中能够相对准确地与粉丝互动。然而，重复性的工作使得人工成本太高，于是需要考虑智能化虚拟主播的赋能，让一系列重复性流程化的工作交给程序来处理。一方面用户在使用程序化虚拟主播时可以结合自己商品修改台本与FAQ数据，另一方面在互动上提供一些必要的辅助，比如及时欢迎进场、答谢礼物等。技术难点主要在于流程化配置，以及适配不同直播平台，尤其如何建立高效智能化的驱动虚拟直播互动上，也需要模拟制定出来。

发明内容

有鉴于此，本发明的目的在于提供一种可配置自动化驱动虚拟主播的直播互动系统及方法，实现为虚拟主播赋能，支持可配置自动化流程。

为实现上述目的，本发明采用如下技术方案：

一种可配置自动化驱动虚拟主播的直播互动系统，包括客户端、FAQ服务器、语音服务器、弹幕采集服务单元、Unity3D虚拟动画服务单元,用户管理服务器；所述客户端与弹幕采集服务单元、Unity3D虚拟动画服务单元和用户管理服务器分别连接；所述用户管理服务器与FAQ服务器、语音服务器分别连接。

进一步的，所述客户端实现可配置输入，包括：场景动画选择、台本选择编辑、欢迎答谢模板定制、FAQ编辑、合成声音选择、素材上传和运行日志。

进一步的，所述FAQ服务器基于Directional Skip-Gram大规模无监督学习的词向量模型对用户传上来的问答库预先转句子级向量。

进一步的，所述Unity3D虚拟动画服务单元预先设计不同形象虚拟主播，为每个虚拟主播配置不同的动作组合，通过开启接口监听，并实现与客户端对接，由客户端控制请求声音动作输出。

一种可配置自动化驱动虚拟主播的直播互动系统的互动方法，包括以下步骤:

客户端配置待驱动的虚拟主播工作流程;

当客户端配置完成后开启直播，进入粉丝问答时，会抽取最新n数量弹幕，对n条数量过滤之后进行FAQ计算请求，其中n由用户设定；

弹幕采集阶段采用两种方式进行采集，包括基于http传输的protobuf格式的弹幕采集和基于websocket传输的protobuf格式的弹幕采集。

进一步的，所述抽取最新n数量弹幕，具体为:设初始化的时间是T₀=0，而当前的时间是T_m，m表示工作流进入粉丝问答的次数，若T_m>T₀且当前粉丝发送弹幕时间在区间[T₀,T_m]产生的弹幕，则作为备用待互动候选集set₀，为了进一步从候选集中提取有效的互动数据集set₁，再进行判断每条汉字所占比例>=0.9，且数字字母<5个，其他字符<4个。

进一步的，所述FAQ计算，具体为：若互动数据集set₁的某一条存在词W_m不属于语义词集中，则用字符差异化编辑距离作为相似度兜底计算；

请求FAQ返回包含最高相似度配对问题Q_m、以及对应互动文本答案A_m，通过解析答案A_m，匹配用户预先设定对应的动作组集合，另外客户端还会将A_m请求语音合成服务器，对返回的语音连同动作集合一起传送给Unity3D虚拟动画服务，最后给直播间推合成视频流。

进一步的，所述基于http传输的protobuf格式的弹幕采集，具体为：

（1）、输入需要采集的直播页面地址；

（2）、使用selenium工具驱动浏览器打开直播页面，解析页面获取所需的直播间id等信息；

（3）、启动本地代理工具，配置工具脚本，采集来自指定直播间id的数据；

（4）、使用selenium工具配置本地代理地址以及端口，驱动浏览器打开需要采集的直播页面并保持页面在后台常驻；

（5）、本地代理工具开始捕获符合指定规则的接口路径，并保存接口返回数据到本地目录；

（6）、监听指定的本地目录，实时解析保存下来的protobuf格式数据；

（7）、将解析完成的弹幕信息保存至指定位置。

进一步的，所述基于websocket传输的protobuf格式的弹幕采集，具体为：

（1）、输入需要采集的直播页面地址；

（2）、使用selenium工具驱动浏览器打开直播页面，获取页面html源码；

（3）、从html源码中解析出弹幕websocket地址、直播流id、校验token信息；

（4）、获取最新的直播间礼物id与名称的映射文件，解析并记录到内存中；

（5）、使用aiohttp框架模拟网页请求与服务端websocket接口进行交互，并解析服务端返回数据；

（6）、将解析完成的弹幕信息保存至指定位置。

进一步的，所述客户端还设置有用户跟踪管理机制，加入了用户使用跟踪的功能，任何用户在使用客户端相关功能服务时，都会与用户管理服务器进行接收和发出消息，系统会复制并保存用户的各种操作信息，然后通过辅助分析工具进行分析。

本发明与现有技术相比具有以下有益效果：

1. 本发明有效降低电商直播卖货中的人工成本，为虚拟主播赋能，支持可配置自动化流程。

2. 本发明系统用户不需要专业的直播互动能力，就可以快速上手配置自己的虚拟主播，对于提高直播卖货转化率上也可以节省时间专注于剧情台本互动文案准备和优化。

3. 本发明独立的个性化可定制FAQ数据管理服务器便于数据备份与提取，用于分析不同用户间FAQ的差异，提升个性化程度的FAQ数据定制，降低冗余，提高语义相似度的准确性，进而提高与粉丝互动的相关性。

4. 本发明可私有化配置语音合成服务，除了提供已有的不同离线语音合成包，用户还可以上传一段清晰的说话音频段，提供声音克隆服务，打造差异化声线语音效果，实现私有化声音的定制。

附图说明

图1是本发明系统框架图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种可配置自动化驱动虚拟主播的直播互动系统，包括客户端、FAQ服务器、语音服务器、弹幕采集服务单元、Unity3D虚拟动画服务单元,用户管理服务器；所述客户端与弹幕采集服务单元、Unity3D虚拟动画服务单元和用户管理服务器分别连接；所述用户管理服务器与FAQ服务器、语音服务器分别连接。

在本实施例中，客户端实现可配置输入，包括：场景动画选择、台本选择编辑、欢迎答谢模板定制、FAQ编辑、合成声音选择、素材上传和运行日志。

在本实施例中，语音服务器对客户端请求的文本合成语音，对接离线语音合成包，提供不同声线供用户选择。

在本实施例中，FAQ服务器基于Directional Skip-Gram大规模无监督学习的词向量模型对用户传上来的问答库预先转句子级向量。

在本实施例中，Unity3D虚拟动画服务单元预先设计不同形象虚拟主播，为每个虚拟主播配置不同的动作组合，通过开启接口监听，并实现与客户端对接，由客户端控制请求声音动作输出。

在本实施例中，弹幕采集服务单元通过网络流包获取直播间弹幕信息，由客户端程序控制抽取待互动的有用信息。

在本实施例中，用户管理服务器用于对使用者进行身份认证与管理，以及跟踪反馈使用情况。

在本实施例中，还提供一种可配置自动化驱动虚拟主播的直播互动系统的互动方法，包括以下步骤:

配置预览阶段：

客户端配置待驱动的虚拟主播工作流程;

在本实施例中，工作流程包括：”剧情台本——欢迎进场——答谢礼物——气氛维护——粉丝问答——剧情台本——......，注意环节顺序可自定义。对每一小段剧情台本都可以预览虚拟主播执行的效果，调整适配的声音和动作组合；欢迎和答谢可以自定义设置模板，比如欢迎的模板类似“欢迎user小仙女进入直播间”，比如答谢的模板类似“感谢user的gift，大气大气！”，user和gift是变量；气氛维护则设定一些备选话术，可以不定时随机也可设定规则在工作流程中输出；粉丝问答是在直播阶段进行，而配置预览阶段主要配置领域FAQ文本数据集即可。可以设定多个场景scene，每一个scene都有一个自定义的虚拟主播工作流程，并且可以配置scene下不同素材，包括纯单人模式、单素材模式、双素材模式，一旦配置好不同的scene，后续可以修改编辑并随时开启直播。

直播阶段：

在直播过程中，系统是可以清晰被用户监管工作流程执行到哪一步，随时暂停并且修改后续还未完成的工作流。当工作流程进入粉丝问答时，会抽取最新n数量弹幕，对n条数量过滤之后进行FAQ请求，其中n由用户设定，默认值是10。本发明具体化，假设初始化的时间是T₀=0，而当前的时间是T_m，m表示工作流进入粉丝问答的次数，若T_m>T₀且当前粉丝发送弹幕时间在区间[T₀,T_m]产生的弹幕，则作为备用待互动候选集set₀，为了进一步从候选集中提取有效的互动数据集set₁，再进行判断每条汉字所占比例>=0.9，且数字字母<5个，其他字符<4个。

FAQ计算包含两种方式，第一种是基于Directional Skip-Gram大规模无监督学习的语义词向量余弦相似度，另一种是基于字符差异化编辑距离计算相似度，考虑到语义词向量可能存在词集缺陷问题，本发明融合这两种相似度计算。具体化，若互动数据集set₁的某一条存在词W_m不属于语义词集中，则用字符差异化编辑距离作为相似度兜底计算。请求FAQ返回包含最高相似度配对问题Q_m、以及对应互动文本答案A_m，通过解析答案A_m，匹配用户预先设定对应的动作组集合，另外客户端还会将A_m请求语音合成服务器，对返回的语音连同动作集合一起传送给Unity3D虚拟动画服务，最后给直播间推合成视频流。

弹幕采集阶段：

提供两种有效采集技术手段，已实现包含淘宝、抖音、快手、京东、钉钉、斗鱼、虎牙、NOW等等主流直播平台的采集，具体如下：

基于http传输的protobuf格式的弹幕采集，具体为：

（1）、输入需要采集的直播页面地址；

（7）、将解析完成的弹幕信息保存至指定位置。

基于websocket传输的protobuf格式的弹幕采集，具体为：

（1）、输入需要采集的直播页面地址；

（6）、将解析完成的弹幕信息保存至指定位置。

在本实施例中，优选的，客户端还设置有用户跟踪管理机制，加入了用户使用跟踪的功能，任何用户在使用客户端相关功能服务时，都会与用户管理服务器进行接收和发出消息，系统会复制并保存用户的各种操作信息，然后通过辅助分析工具进行分析。通过这种用户跟踪管理功能，如果出现故障，可以迅速的判断出是哪个环节的错误而导致的故障。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种可配置自动化驱动虚拟主播的直播互动系统，其特征在于，包括客户端、FAQ服务器、语音服务器、弹幕采集服务单元、Unity3D虚拟动画服务单元,用户管理服务器；所述客户端与弹幕采集服务单元、Unity3D虚拟动画服务单元和用户管理服务器分别连接；所述用户管理服务器与FAQ服务器、语音服务器分别连接。

2.根据权利要求1所述的一种可配置自动化驱动虚拟主播的直播互动系统，其特征在于，所述客户端实现可配置输入，包括：场景动画选择、台本选择编辑、欢迎答谢模板定制、FAQ编辑、合成声音选择、素材上传和运行日志。

3.根据权利要求1所述的一种可配置自动化驱动虚拟主播的直播互动系统，其特征在于，所述FAQ服务器基于Directional Skip-Gram大规模无监督学习的词向量模型对用户传上来的问答库预先转句子级向量。

4.根据权利要求1所述的一种可配置自动化驱动虚拟主播的直播互动系统，其特征在于，所述Unity3D虚拟动画服务单元预先设计不同形象虚拟主播，为每个虚拟主播配置不同的动作组合，通过开启接口监听，并实现与客户端对接，由客户端控制请求声音动作输出。

5.一种可配置自动化驱动虚拟主播的直播互动系统的互动方法，其特征在于，包括以下步骤:

客户端配置待驱动的虚拟主播工作流程;

6.根据权利要求5所述的一种可配置自动化驱动虚拟主播的直播互动系统的互动方法，其特征在于，所述抽取最新n数量弹幕，具体为:设初始化的时间是T₀=0，而当前的时间是T_m，m表示工作流进入粉丝问答的次数，若T_m>T₀且当前粉丝发送弹幕时间在区间[T₀,T_m]产生的弹幕，则作为备用待互动候选集set₀，为了进一步从候选集中提取有效的互动数据集set₁，再进行判断每条汉字所占比例>=0.9，且数字字母<5个，其他字符<4个。

7.根据权利要求5所述的一种可配置自动化驱动虚拟主播的直播互动系统的互动方法，其特征在于，所述FAQ计算，具体为：若互动数据集set₁的某一条存在词W_m不属于语义词集中，则用字符差异化编辑距离作为相似度兜底计算；

8.根据权利要求5所述的一种可配置自动化驱动虚拟主播的直播互动系统的互动方法，其特征在于，所述基于http传输的protobuf格式的弹幕采集，具体为：

（1）、输入需要采集的直播页面地址；

（7）、将解析完成的弹幕信息保存至指定位置。

9.根据权利要求5所述的一种可配置自动化驱动虚拟主播的直播互动系统的互动方法，其特征在于，所述基于websocket传输的protobuf格式的弹幕采集，具体为：

（1）、输入需要采集的直播页面地址；

（6）、将解析完成的弹幕信息保存至指定位置。

10.根据权利要求5所述的一种可配置自动化驱动虚拟主播的直播互动系统的互动方法，其特征在于，所述客户端还设置有用户跟踪管理机制，加入了用户使用跟踪的功能，任何用户在使用客户端相关功能服务时，都会与用户管理服务器进行接收和发出消息，系统会复制并保存用户的各种操作信息，然后通过辅助分析工具进行分析。