CN115515016B

CN115515016B - 一种可实现自交互回复的虚拟直播方法、系统及存储介质

Info

Publication number: CN115515016B
Application number: CN202211374895.6A
Authority: CN
Inventors: 王丽玲
Original assignee: Guangdong Xuanrun Digital Information Technology Co ltd
Current assignee: Guangdong Xuanrun Digital Information Technology Co ltd
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-03-31
Anticipated expiration: 2042-11-04
Also published as: CN115515016A

Abstract

本发明公开了一种可实现自交互回复的虚拟直播方法、系统及存储介质，涉及网络直播技术领域，包括如下步骤：在直播端进行虚拟直播场景构建，在所述虚拟直播场景中加载主直播虚拟形象；当观众进入所述虚拟直播场景中时，在观看端加载次直播虚拟形象；对观看端输入的交互弹幕进行实时捕捉，获得交互捕捉数据；获得交互特征信息；将所述交互特征信息与自动回复特征库进行匹配；若所述交互特征信息属于自动回复特征库的内容生成次直播虚拟形象控制控制次直播虚拟形象进行对应交互弹幕的回复。本发明的优点在于：通过在观看端中加载一个次直播虚拟形象，可制造出更加逼真的交互反馈感，极大的提高了直播交互的趣味性，可有效的提高直播的观众观感。

Description

一种可实现自交互回复的虚拟直播方法、系统及存储介质

技术领域

本发明涉及网络直播技术领域，具体是涉及一种可实现自交互回复的虚拟直播方法、系统及存储介质。

背景技术

近年来随着互联网技术的高速发展，衍生出一批便捷、有吸引力的网络娱乐方式。网络直播作为一种新兴产业，吸取和延续了互联网的优势，利用视讯方式进行网上现场直播，可以将产品展示、相关会议、背景介绍、方案测评、网上调查、对话访谈、在线培训等内容现场发布到互联网上，利用互联网的直观、快速，表现形式好、内容丰富、交互性强、地域不受限制、受众可划分等特点，加强活动现场的推广效果。

随着直播行业的不断的发展，虚拟形象直播的方式逐渐开始兴起虚拟形象直播是以原创的虚拟人格设定、形象在视频网站、社交平台上进行活动。形象多以MMD或Unity的3D模型或Live2D制作的2D模型出现，并以真人控制的一种新兴的直播形式。

网络直播的形式限定了其“一对多”的特征，即进行直播展示的一方人数有限，多数情况下为一名或多名主播，而观看直播的观众人数不会受到限制。主播与观众之间往往通过观众发出的弹幕信息进行交流互动，而当观众基数巨大时，弹幕数量剧增，主播一方难免会忽略部分弹幕信息，而导致部分观众的观看留言无法得到主播一方的反馈，会间接影响观众的观感，降低观众黏性，以至于影响直播效果，现有技术中，存在使用语音助手的方式实现对于一些弹幕信息进行自动语音回复的手段，然而，此方式缺乏观众视觉上的直接反馈，导致观众缺乏交互的真实感，基于此，本方案结合虚拟形象直播技术，提出一种可实现自交互回复的虚拟直播方法、系统及存储介质。

发明内容

为解决上述技术问题，提供一种可实现自交互回复的虚拟直播方法、系统及存储介质，本技术方案解决了上述的现有技术中，存在使用语音助手的方式实现对于一些弹幕信息进行自动语音回复的手段，然而，此方式缺乏观众视觉上的直接反馈，导致观众缺乏交互的真实感的问题。

为达到以上目的，本发明采用的技术方案为：

一种可实现自交互回复的虚拟直播方法，包括如下步骤：

在直播端进行虚拟直播场景构建，并在所述虚拟直播场景中加载主直播虚拟形象，所述主直播虚拟形象由真人主播控制；

当观众进入所述虚拟直播场景中时，在观看端加载次直播虚拟形象，所述次直播虚拟形象由AI智能控制，所述次直播虚拟形象与所述观看端一一对应；

对观看端输入的交互弹幕进行实时捕捉，获得交互捕捉数据；

对所述交互捕捉数据进行特征分析，获得交互特征信息；

将所述交互特征信息与自动回复特征库进行匹配，判断所述交互特征信息是否属于自动回复特征库的内容；

若所述交互特征信息属于自动回复特征库的内容，则从自动回复数据库中调取对应的自动回复数据，并根据所述自动回复数据生成次直播虚拟形象控制信号并发送至对应观看端的次直播虚拟形象，控制次直播虚拟形象进行对应交互弹幕的回复；

若所述交互特征信息不属于自动回复特征库的内容，则将所述交互特征信息对应的交互弹幕输送至直播后台，由真人主播判断是否进行回复；

对所有所述观看端捕捉的所有所述交互特征信息进行分析，获得交互分析数据；

根据交互分析数据对所述自动回复特征库分成第一特征库和第二特征库，其中，所述第一特征库内部的数据为匹配频率较高的自动回复特征，所述第二特征库内部的数据为匹配频率较低的自动回复特征；

在将所述交互特征信息与自动回复特征库进行匹配时，第一特征库的匹配优先级高于第二特征库的匹配优先级；

对所有所述观看端捕捉的所有所述交互特征信息进行分析，对所有可回复内容的交互特征信息按照特征出现频率进行筛分，获得出现频率较高但不属于自动回复特征库的所有待补充交互特征信息，获得待补充交互特征数据；

根据待补充交互特征数据，对每一条待补充交互特征信息输入对应的自动回复信息，并建立待补充交互特征信息与自动回复信息之间的映射关系后，将待补充交互特征信息与自动回复信息分别加入自动回复特征库和所述自动回复数据库中。

其中，所述次直播虚拟形象控制信号包括语音信号和动作信号；

所述语音信号根据所述自动回复数据自动生成，用于在对应的观看端以语音播报的形式进行自动回复数据的展示；

所述动作信号用于控制次直播虚拟形象根据自动回复数据进行对应的动作变化。

优选的，在将所述交互特征信息与自动回复特征库进行比对前，还包括：

对所述交互特征信息进行分析，判断所述交互特征信息对应的交互弹幕是否为可回复内容；

若判断为可回复内容，则执行将所述交互特征信息与自动回复特征库进行比对；

若判断为不可回复内容，则中止后续步骤。

优选的，所述动作信号包括语音口型信号，所述语音口型信号的生成方式为：

对自动回复数据进行识别，获得自动回复数据中的文字信息；

对自动回复数据中的文字信息进行识别，得到每一个文字信息对应的拼音字符串，所述拼音字符串包括声母音素和韵母音素；

从口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型，并根据声母口型、韵母口型合成相应的汉字口型；

将所有汉字口型按照自动回复数据中的文字顺序进行排列，获得口型数据；

根据次直播虚拟形象的嘴部模型的大小，获得开口幅度数据；

将口型数据与开口幅度数据组合，生成语音口型信号。

优选的，所述控制次直播虚拟形象进行对应交互弹幕的回复具体包括以下步骤：

次直播虚拟形象接收到发送的语音信号和语音口型信号；

次直播虚拟形象内置的音频系统分析语音信号，并输出对应的回复音频信息；

次直播虚拟形象根据语音口型信号，在输出回复音频信息时，同步进行嘴部模型的开合。

优选的，所述次直播虚拟形象可由主播建立或者观众建立中任意一种方式生成。

进一步的，提出一种可实现自交互回复的虚拟直播系统，用于实现如上述的可实现自交互回复的虚拟直播方法，包括：

虚拟形象模块，虚拟形象模块包括主虚拟形象模块和次虚拟形象模块，所述主直播虚拟形象模块用于进行主直播虚拟形象的建立、保存和加载，所述次虚拟形象模块用于进行次直播虚拟形象的建立、保存和加载；

主虚拟形象控制模块，主直播虚拟形象控制模块用于根据真人主播的形态动作控制主直播虚拟形象进行直播；

次虚拟形象控制模块，次虚拟形象控制模块用于生成次直播虚拟形象控制信号并发送至对应观看端的次直播虚拟形象，控制次直播虚拟形象进行响应；

数据库模块，数据库模块用于进行所述自动回复特征库和所述自动回复数据库的保存和更新；

捕捉模块，捕捉模块用于进行对观看端输入的交互弹幕进行实时捕捉；

分析模块，分析模块用于对所述交互捕捉数据进行特征分析，获得交互特征信息；

匹配模块，匹配模块用于将所述交互特征信息与自动回复特征库进行匹配。

可选的，所述主虚拟形象控制模块包括：

表情采集单元：所述表情采集单元用于采集真人主播的面部表情，并控制主直播虚拟形象进行对应的表情模拟；

声音采集单元：所述声音采集单元用于采集真人主播的语音并经过处理后进行直播。

再进一步的，提出一种计算机可读存储介质，其上存储有计算机可读程序，所述计算机可读程序被调用时执行如上述的可实现自交互回复的虚拟直播方法。

与现有技术相比，本发明的有益效果在于：

本发明提出一种可实现自交互回复的虚拟直播方案，通过在观看端的虚拟直播场景中加载一个次直播虚拟形象，在进行直播交互时，对观看端发送的交互弹幕进行实时捕捉，并根据自动回复特征库进行匹配后输出自动回复数据，并根据自动回复数据生成次直播虚拟形象控制信号，控制次直播虚拟形象进行对应交互弹幕的回复，在进行交互时，与传统的语音交互方式不同，采用虚拟形象回复的方式进行弹幕内容的交互回复，虚拟形象的动作可给观众视觉上的直接反馈，制造出更加逼真的交互反馈感，极大的提高了直播交互的趣味性，可有效的提高直播的观众观感，提高观众黏性，实现网络直播行业的良好发展。

附图说明

图1为实施例一提出的可实现自交互回复的虚拟直播方法流程图；

图2为实施例一中的语音口型信号的生成方法流程图；

图3为实施例一中的控制次直播虚拟形象的方法流程图；

图4为实施例二中的对自动回复特征库划分的方法流程图；

图5为实时例三中的自动回复特征库和自动回复数据库的更新方法流程图；

图6为本方案提出的可实现自交互回复的虚拟直播系统结构框图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。

实施例一：

参照图1-3所示，一种可实现自交互回复的虚拟直播方法，包括如下步骤：

在直播端进行虚拟直播场景构建，并在虚拟直播场景中加载主直播虚拟形象，主直播虚拟形象由真人主播控制；

当观众进入虚拟直播场景中时，在观看端加载次直播虚拟形象，次直播虚拟形象由AI智能控制，次直播虚拟形象与观看端一一对应；

对交互捕捉数据进行特征分析，获得交互特征信息；

对交互特征信息进行分析，判断所述交互特征信息对应的交互弹幕是否为可回复内容；

若判断为可回复内容，则执行下一步骤；

若判断为不可回复内容，则中止后续步骤。

将交互特征信息与自动回复特征库进行匹配，判断交互特征信息是否属于自动回复特征库的内容；

若交互特征信息属于自动回复特征库的内容，则从自动回复数据库中调取对应的自动回复数据，并根据自动回复数据生成次直播虚拟形象控制信号并发送至对应观看端的次直播虚拟形象，控制次直播虚拟形象进行对应交互弹幕的回复；

若交互特征信息不属于自动回复特征库的内容，则将所述交互特征信息对应的交互弹幕输送至直播后台，由真人主播判断是否进行回复；

其中，次直播虚拟形象控制信号包括语音信号和动作信号；

语音信号根据自动回复数据自动生成，用于在对应的观看端以语音播报的形式进行自动回复数据的展示；

动作信号用于控制次直播虚拟形象根据自动回复数据进行对应的动作变化。

本实施例中，通过在观看端的虚拟直播场景中加载一个次直播虚拟形象，在进行直播交互时，对观看端发送的交互弹幕进行实时捕捉，并根据自动回复特征库进行匹配后输出自动回复数据，并根据自动回复数据生成次直播虚拟形象控制信号，控制次直播虚拟形象进行对应交互弹幕的回复，可有效解决直播观众数量庞大时主播方无法全面且及时对弹幕信息进行反馈导致观众体验不佳的问题，同时虚拟形象回复可以给到直播间观众在视觉上和听觉上的双重反馈，制造出更加逼真的交互反馈感，进而有效的提高观众在直播交互的趣味性。

动作信号包括语音口型信号，语音口型信号的生成方式为：

对自动回复数据中的文字信息进行识别，得到每一个文字信息对应的拼音字符串，拼音字符串包括声母音素和韵母音素；

将口型数据与开口幅度数据组合，生成语音口型信号。

控制次直播虚拟形象进行对应交互弹幕的回复具体包括以下步骤：

次直播虚拟形象接收到发送的语音信号和语音口型信号；

为进一步增加在观看虚拟直播过程中的观众在获得交互反馈时的真实感，本方案还引入了口型匹配，在由次直播虚拟形象的控制信号中加入生成语音口型信号的生成，并在次直播虚拟形象进行交互反馈时，通过语音口型信号控制次直播虚拟形象根据交互反馈语音信息同步输出进行嘴部模型的开合，使次直播虚拟形象的口型适配交互反馈语音，进一步提高观众在进行获得直播交互反馈时的真实感，提高观众观看直播的趣味性。

次直播虚拟形象可由主播根据自己的直播风格来进行特定化建立或者由观众建立专属的特定化模型，在进行次直播虚拟形象加载时，可由观众自主选择加载何种次直播虚拟形象。

实施例二：

请参阅图4所示，在实施例一的基础上，本实施例提出一种可实现自交互回复的虚拟直播方法，还包括如下步骤：

对所有观看端捕捉的所有交互特征信息进行分析，获得交互分析数据；

根据交互分析数据对自动回复特征库分成第一特征库和第二特征库，其中，第一特征库内部的数据为匹配频率较高的自动回复特征，第二特征库内部的数据为匹配频率较低的自动回复特征；

在将交互特征信息与自动回复特征库进行匹配时，第一特征库的匹配优先级高于第二特征库的匹配优先级。

本实施例中，在实施例一的基础上增加了针对于直播间观众的弹幕分析，通过分析结果将自动回复特征库中的数据按照匹配的频率进行分成第一特征库和第二特征库，后续在进行交互特征信息匹配时，首先从匹配概率较高的第一特征库中进行匹配，可极大的缩短交互特征信息匹配用时，保证观众获得交互反馈的即时性。

实施例三：

请参阅图5所示，在实施例二的基础上，本实施例提出一种可实现自交互回复的虚拟直播方法，还包括对自动回复特征库和自动回复数据库进行更新，对自动回复特征库和自动回复数据库进行更新具体包括如下步骤：

对所有观看端捕捉的所有交互特征信息进行分析，对所有可回复内容的交互特征信息按照特征出现频率进行筛分，获得出现频率较高但不属于自动回复特征库的所有待补充交互特征信息，获得待补充交互特征数据；

根据待补充交互特征数据，对每一条待补充交互特征信息输入对应的自动回复信息，并建立待补充交互特征信息与自动回复信息之间的映射关系后，将待补充交互特征信息与自动回复信息分别加入自动回复特征库和自动回复数据库中。

由于预先建立的自动回复特征库和自动回复数据库难以含括所有观众可能希望进行交互的内容，本实施例中实现了针对于自动回复特征库和自动回复数据库的更新，对出现频率较高但不属于自动回复特征库的所有待补充交互特征信息进行补充更新，可进一步的扩大自动交互反馈的范围，保证观众可以获得所需要的反馈信息。

为进一步的说明本方案，以下结合上述可实现自交互回复的虚拟直播方法，提出一种可实现自交互回复的虚拟直播系统，包括：

虚拟形象模块，虚拟形象模块包括主虚拟形象模块和次虚拟形象模块，主直播虚拟形象模块用于进行主直播虚拟形象的建立、保存和加载，次虚拟形象模块用于进行次直播虚拟形象的建立、保存和加载；

数据库模块，数据库模块用于进行自动回复特征库和自动回复数据库的保存和更新；

分析模块，分析模块用于对交互捕捉数据进行特征分析，获得交互特征信息；

匹配模块，匹配模块用于将交互特征信息与自动回复特征库进行匹配。

其中，表情采集单元：表情采集单元用于采集真人主播的面部表情，并控制主直播虚拟形象进行对应的表情模拟；

声音采集单元：声音采集单元用于采集真人主播的语音并经过处理后进行直播。

上述虚拟直播系统的工作过程为：

S1、主播通过主虚拟形象模块进行建立主直播虚拟形象，并进行保存，主播和观众通过次虚拟形象模块进行建立次直播虚拟形象，并进行保存；

S2、主播通过数据库模块建立自动回复特征库和自动回复数据库；

S3、主播开启直播，在直播端进行虚拟直播场景构建，主虚拟形象模块在直播端的虚拟直播场景中加载对应的主直播虚拟形象，真人直播通过表情采集单元和声音采集单元采集自身的表情和语音进行控制主直播虚拟形象；

S4、观众打开对应直播间，选择需要加载的次直播虚拟形象，由次虚拟形象控制模块在观看端加载对应的次直播虚拟形象；

S5、当观众发送交互弹幕时，由捕捉模块对观看端输入的交互弹幕进行实时捕捉，并经过分析模块进行特征信息后，通过匹配模块与自动回复特征库进行匹配，根据匹配结果获得自动回复数据；

S6、次虚拟形象控制模块根据自动回复数据生成次直播虚拟形象控制信号并发送至对应观看端的次直播虚拟形象，控制次直播虚拟形象进行对应交互弹幕的回复。

S7、数据库模块对所有观看端捕捉的所有交互特征信息进行分析，根据分析结果，进行自动回复特征库和自动回复数据库的更新。

进一步的，本方案还提出一种计算机可读存储介质，其上存储有计算机可读程序，计算机可读程序被调用时执行如上述的可实现自交互回复的虚拟直播方法；

可以理解的是，计算机可读存储介质可以是磁性介质，例如，软盘、硬盘、磁带；光介质例如，DVD；或者半导体介质例如固态硬盘SolidStateDisk，SSD等。

综上所述，本发明的优点在于：通过在观看端的虚拟直播场景中加载一个次直播虚拟形象，可制造出更加逼真的交互反馈感，极大的提高了直播交互的趣味性，可有效的提高直播的观众观感，提高观众黏性，实现网络直播行业的良好发展。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种可实现自交互回复的虚拟直播方法，其特征在于，包括如下步骤：

对所述交互捕捉数据进行特征分析，获得交互特征信息；

根据待补充交互特征数据，对每一条待补充交互特征信息输入对应的自动回复信息，并建立待补充交互特征信息与自动回复信息之间的映射关系后，将待补充交互特征信息与自动回复信息分别加入自动回复特征库和所述自动回复数据库中；

2.根据权利要求1所述一种可实现自交互回复的虚拟直播方法，其特征在于，在将所述交互特征信息与自动回复特征库进行比对前，还包括：

若判断为不可回复内容，则中止后续步骤。

3.根据权利要求2所述一种可实现自交互回复的虚拟直播方法，其特征在于，所述动作信号包括语音口型信号，所述语音口型信号的生成方式为：

将口型数据与开口幅度数据组合，生成语音口型信号。

4.根据权利要求3所述一种可实现自交互回复的虚拟直播方法，其特征在于，所述控制次直播虚拟形象进行对应交互弹幕的回复具体包括以下步骤：

次直播虚拟形象接收到发送的语音信号和语音口型信号；

5.根据权利要求4所述一种可实现自交互回复的虚拟直播方法，其特征在于，所述次直播虚拟形象可由主播建立或者观众建立中任意一种方式生成。

6.一种可实现自交互回复的虚拟直播系统，用于实现如权利要求1-5任一项所述的可实现自交互回复的虚拟直播方法，其特征在于，包括：

7.根据权利要求6所述一种可实现自交互回复的虚拟直播系统，其特征在于，所述主虚拟形象控制模块包括：

8.一种计算机可读存储介质，其上存储有计算机可读程序，其特征在于，所述计算机可读程序被调用时执行如权利要求1-5任一项所述的可实现自交互回复的虚拟直播方法。