CN116828246A

CN116828246A - 一种数字人直播交互方法、系统、设备及存储介质

Info

Publication number: CN116828246A
Application number: CN202310790346.5A
Authority: CN
Inventors: 金聪; 陈亮; 高文
Original assignee: Zhongke Zhihong Beijing Technology Co ltd
Current assignee: Zhongke Zhihong Beijing Technology Co ltd
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-09-29
Anticipated expiration: 2043-06-29
Also published as: CN116828246B

Abstract

本发明属于智能交互技术领域，具体公开了一种数字人直播交互方法、系统、设备及存储介质，通过在数字人直播过程中获取用户的互动信息和等级信息，根据等级信息确定等级系数，对互动信息进行基于自然语言处理的情感分析，确定情感分类，根据等级系数和情感分类选取目标用户和其待反馈信息，然后对互动信息进行基于自然语言处理的意图识别，确定意图分类，根据意图分类匹配数字人的相关直播互动配置参数，最后利用匹配到的相应互动配置参数进行针对待反馈信息的数字人直播互动展示，以高效实现虚拟数字人与用户的直播互动。本发明可以提升数字人直播互动的内容质量，提升数字人直播的趣味性，增强观众的直播代入感，优化直播效果。

Description

一种数字人直播交互方法、系统、设备及存储介质

技术领域

本发明属于智能交互技术领域，具体涉及一种数字人直播交互方法、系统、设备及存储介质。

背景技术

随着移动互联网技术以及虚拟数字人技术的飞速发展，在真人直播的主流直播模式下开始出现虚拟数字人直播模式。虚拟数字人直播融合数字人物模型构建、表情动作模型训练、数字语音合成等技术，可以实现数字人在虚拟场景中向观众表演、表达的效果，这种直播模式可以突破真人实景的限制，展现出更丰富多样的直播内容。然而目前的数字人直播相较于真人直播，在与观众的直播互动方面表现不足甚至是没有互动，这就会导致观众的参与感低、直播代入感不高，进而使整体的直播效果较差。

发明内容

本发明的目的是提供一种数字人直播交互方法、系统、设备及存储介质，用以解决现有技术中存在的上述问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供一种数字人直播交互方法，包括：

获取数字人模型及数字人模型的直播配置信息集，并根据直播配置信息集在直播界面进行数字人模型的直播展示；

在数字人模型的直播展示过程中获取指定时间段内各用户端上传的直播互动信息和用户等级信息；

根据用户等级信息提取等级最高的若干个用户端作为筛选用户端，将筛选用户端的直播互动信息作为预存互动信息，并根据各筛选用户端的用户等级信息确定各筛选用户端的等级系数；

采用自然语言处理方法对各预存互动信息进行情感分析，得到各预存互动信息的情感分类，并根据情感分类确定各预存互动信息的情感评分；

根据各筛选用户端的等级系数以及各筛选用户端对应预存互动信息的情感评分计算各筛选用户端的互动得分，并选取互动得分最高的筛选用户端作为目标用户端，将目标用户端的直播互动信息作为待反馈信息；

采用自然语言处理方法对待反馈信息进行意图识别，得到待反馈信息的意图分类，并根据待反馈信息的意图分类从互动信息库中匹配对应的互动动作表情参数、互动背景效果渲染参数和互动文案信息；

根据互动动作表情参数控制数字人模型直播的动作和表情，根据互动背景效果渲染参数渲染数字人模型直播的界面背景效果，根据互动文案信息生成互动回复语音进行同步放送。

在一个可能的设计中，所述根据各筛选用户端的用户等级信息确定各筛选用户端的等级系数，包括：

将各筛选用户端的用户等级信息导入预置的等级系数表中进行检索匹配，确定各筛选用户端的用户等级信息所对应的等级系数，所述等级系数表中包含若干用户等级以及各用户等级关联对应的等级系数。

在一个可能的设计中，所述采用自然语言处理方法对各预存互动信息进行情感分析，得到各预存互动信息的情感分类，并根据情感分类确定各预存互动信息的情感评分，包括：

采用基于情感词典的文本匹配算法对各预存互动信息进行情感分析，确定各预存互动信息的情感分类；

将各预存互动信息的情感分类导入预置的情感分类评分表中进行匹配，确定各预存互动信息的情感评分，所述情感分类评分表中包含若干情感分类以及各情感分类对应的情感评分。

在一个可能的设计中，所述根据各筛选用户端的等级系数以及各筛选用户端对应预存互动信息的情感评分计算各筛选用户端的互动得分，包括：

将各筛选用户端的等级系数以及各筛选用户端对应预存互动信息的情感评分代入设定的互动得分计算模型进行计算，得到各筛选用户端的互动得分，所述互动得分计算模型为S＝P×Q，其中，S表征互动得分，P表征等级系数，Q表征情感评分。

在一个可能的设计中，所述采用自然语言处理方法对待反馈信息进行意图识别，得到待反馈信息的意图分类，包括：

对待反馈信息依次进行文本预处理和文本特征提取，得到文本特征，并将文本特征输入预置的文本分类模型进行意图识别，得到待反馈信息的意图分类，所述文本分类模型采用TextRCNN模型经标注数据集训练得到，所述标注数据集包含若干文本标注数据，且各文本标注数据均标记有相应的分类标签。

在一个可能的设计中，所述根据待反馈信息的意图分类从互动信息库中匹配对应的互动动作表情参数、互动背景效果渲染参数和互动文案信息，包括：

根据待反馈信息的意图分类从互动信息库的第一存储单元调取匹配的互动动作表情参数，所述第一存储单元预存有若干互动动作表情参数，各互动动作表情参数关联对应的意图分类；根据待反馈信息的意图分类从互动信息库的第二存储单元调取匹配的互动背景效果渲染参数，所述第二存储单元预存有若干互动背景效果渲染参数，各互动背景效果渲染参数关联对应的意图分类；根据待反馈信息的意图分类从互动信息库的第三存储单元调取匹配的互动文案信息，所述第三存储单元预存有若干互动文案信息，各互动文案信息关联对应的意图分类。

在一个可能的设计中，所述直播配置信息集包括直播动作表情参数、直播背景效果渲染参数和直播文案信息，所述根据直播配置信息集在直播界面进行数字人模型的直播展示，包括：根据直播动作表情参数控制数字人模型直播的动作和表情，根据直播背景效果渲染参数渲染数字人模型直播的界面背景效果，根据直播文案信息生成直播语音进行同步放送。

第二方面，提供一种数字人直播交互系统，包括直播单元、获取单元、筛选单元、评分单元、计算单元、识别单元和互动单元，其中：

直播单元，用于获取数字人模型及数字人模型的直播配置信息集，并根据直播配置信息集在直播界面进行数字人模型的直播展示；

获取单元，用于在数字人模型的直播展示过程中获取指定时间段内各用户端上传的直播互动信息和用户等级信息；

筛选单元，用于根据用户等级信息提取等级最高的若干个用户端作为筛选用户端，将筛选用户端的直播互动信息作为预存互动信息，并根据各筛选用户端的用户等级信息确定各筛选用户端的等级系数；

评分单元，用于采用自然语言处理方法对各预存互动信息进行情感分析，得到各预存互动信息的情感分类，并根据情感分类确定各预存互动信息的情感评分；

计算单元，用于根据各筛选用户端的等级系数以及各筛选用户端对应预存互动信息的情感评分计算各筛选用户端的互动得分，并选取互动得分最高的筛选用户端作为目标用户端，将目标用户端的直播互动信息作为待反馈信息；

识别单元，用于采用自然语言处理方法对待反馈信息进行意图识别，得到待反馈信息的意图分类，并根据待反馈信息的意图分类从互动信息库中匹配对应的互动动作表情参数、互动背景效果渲染参数和互动文案信息；

互动单元，用于根据互动动作表情参数控制数字人模型直播的动作和表情，根据互动背景效果渲染参数渲染数字人模型直播的界面背景效果，根据互动文案信息生成互动回复语音进行同步放送。

第三方面，提供一种数字人直播交互设备，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行上述第一方面中任意一种所述的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行第一方面中任意一种所述的方法。同时，还提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行第一方面中任意一种所述的方法。

有益效果：本发明通过在数字人直播过程中获取用户的互动信息和等级信息，根据等级信息确定等级系数，对互动信息进行基于自然语言处理的情感分析，确定情感分类，根据等级系数和情感分类选取目标用户和其待反馈信息，然后对互动信息进行基于自然语言处理的意图识别，确定意图分类，根据意图分类匹配数字人的相关直播互动配置参数，最后利用匹配到的相应互动配置参数进行针对待反馈信息的数字人直播互动展示，以高效实现虚拟数字人与用户的直播互动。本发明可以实现基于语义情感和用户等级综合判定的互动用户选择，提升了数字人直播的后端资源利用率，提升了数字人直播互动的内容质量；实现基于用户意图识别的数字人直播互动特效配置，提升了数字人直播的趣味性，增强了观众的直播代入感，优化了数字人直播的互动效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中方法的步骤示意图；

图2为本发明实施例2中系统的构成示意图；

图3为本发明实施例3中设备的构成示意图。

具体实施方式

在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，除非另有明确的规定和限定，术语“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在实施例中的具体含义。

在下面的描述中提供了特定的细节，以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实施例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得实施例不清楚。

实施例1：

本实施例提供一种数字人直播交互方法，可应用于相应的数字人直播交互服务器，如图1所示，方法包括以下步骤：

S1.获取数字人模型及数字人模型的直播配置信息集，并根据直播配置信息集在直播界面进行数字人模型的直播展示。

具体实施时，预先在服务器构建好数字人模型以及数字人模型的直播配置信息集，所述直播配置信息集包括直播动作表情参数、直播背景效果渲染参数和直播文案信息，在根据直播配置信息集在直播界面进行数字人模型的直播展示时，服务器根据直播动作表情参数控制数字人模型直播的动作和表情，根据直播背景效果渲染参数渲染数字人模型直播的界面背景效果，根据直播文案信息生成直播语音进行同步放送，最终形成数字人模型直播的视频流信息和同步音频流信息，将数字人模型直播的视频流信息和同步音频流信息传输至各用户端。

S2.在数字人模型的直播展示过程中获取指定时间段内各用户端上传的直播互动信息和用户等级信息。

具体实施时，在数字人模型的直播过程中，用户可通过用户端向服务器发送相应的互动信息，用户端同步将用户的用户等级信息发送至服务器，服务器选取指定时间段内各用户端上传的直播互动信息和用户等级信息。

S3.根据用户等级信息提取等级最高的若干个用户端作为筛选用户端，将筛选用户端的直播互动信息作为预存互动信息，并根据各筛选用户端的用户等级信息确定各筛选用户端的等级系数。

具体实施时，服务器可根据用户等级信息提取等级最高的若干个用户端作为筛选用户端，将筛选用户端的直播互动信息作为预存互动信息，然后将各筛选用户端的用户等级信息导入预置的等级系数表中进行检索匹配，确定各筛选用户端的用户等级信息所对应的等级系数，所述等级系数表中包含若干用户等级以及各用户等级关联对应的等级系数。

S4.采用自然语言处理方法对各预存互动信息进行情感分析，得到各预存互动信息的情感分类，并根据情感分类确定各预存互动信息的情感评分。

具体实施时，服务器可采用基于情感词典的文本匹配算法对各预存互动信息进行情感分析，确定各预存互动信息的情感分类，在采用基于情感词典的文本匹配算法对各预存互动信息进行情感分析时，先对各预存互动信息进行文本预处理，如分词和停用词处理，再利用预先构建好的情感词典对预处理后的文本进行字符串匹配，示例性地，包括遍历分词后的语句中的词句，如果词句中包含情感词典中的相应的字词，则进行对应的权重处理，得到最终权值，根据最终权值确定情感分类。然后将各预存互动信息的情感分类导入预置的情感分类评分表中进行匹配，确定各预存互动信息的情感评分，所述情感分类评分表中包含若干情感分类以及各情感分类对应的情感评分。

S5.根据各筛选用户端的等级系数以及各筛选用户端对应预存互动信息的情感评分计算各筛选用户端的互动得分，并选取互动得分最高的筛选用户端作为目标用户端，将目标用户端的直播互动信息作为待反馈信息。

具体实施时，服务器将各筛选用户端的等级系数以及各筛选用户端对应预存互动信息的情感评分代入设定的互动得分计算模型进行计算，得到各筛选用户端的互动得分，所述互动得分计算模型为S＝P×Q，其中，S表征互动得分，P表征等级系数，Q表征情感评分。在计算得到各筛选用户端的互动得分后，根据各筛选用户端的互动得分选取互动得分最高的筛选用户端作为目标用户端，将目标用户端的直播互动信息作为待反馈信息。

S6.采用自然语言处理方法对待反馈信息进行意图识别，得到待反馈信息的意图分类，并根据待反馈信息的意图分类从互动信息库中匹配对应的互动动作表情参数、互动背景效果渲染参数和互动文案信息。

具体实施时，可对待反馈信息依次进行文本预处理和文本特征提取，得到文本特征，然后将文本特征输入预置的文本分类模型进行意图识别，得到待反馈信息的意图分类，所述文本分类模型采用TextRCNN模型经标注数据集训练得到，所述标注数据集包含若干文本标注数据，且各文本标注数据均标记有相应的分类标签，经过深度学习训练后的TextRCNN模型作为文本分类模型可最大程度地捕捉文本中的上下文语义信息，从而输出相应的分类参数，根据分类参数即可确定待反馈信息的意图分类。在确定待反馈信息的意图分类后，服务器根据待反馈信息的意图分类从互动信息库中匹配对应的互动动作表情参数、互动背景效果渲染参数和互动文案信息，具体可根据待反馈信息的意图分类从互动信息库的第一存储单元调取匹配的互动动作表情参数，所述第一存储单元预存有若干互动动作表情参数，各互动动作表情参数关联对应的意图分类；根据待反馈信息的意图分类从互动信息库的第二存储单元调取匹配的互动背景效果渲染参数，所述第二存储单元预存有若干互动背景效果渲染参数，各互动背景效果渲染参数关联对应的意图分类；根据待反馈信息的意图分类从互动信息库的第三存储单元调取匹配的互动文案信息，所述第三存储单元预存有若干互动文案信息，各互动文案信息关联对应的意图分类。

S7.根据互动动作表情参数控制数字人模型直播的动作和表情，根据互动背景效果渲染参数渲染数字人模型直播的界面背景效果，根据互动文案信息生成互动回复语音进行同步放送。

具体实施时，在得到互动动作表情参数、互动背景效果渲染参数和互动文案信息后，服务器根据互动动作表情参数控制数字人模型直播的动作和表情，根据互动背景效果渲染参数渲染数字人模型直播的界面背景效果，根据互动文案信息生成互动回复语音进行同步放送，最终形成数字人模型互动的视频流信息和同步音频流信息，再将数字人模型互动的视频流信息和同步音频流信息传输至各用户端，使各用户端的用户接收到视频流信息和同步音频流信息，实现数字人直播互动。

本实施例方法可以实现基于语义情感和用户等级综合判定的互动用户选择，提升了数字人直播的后端资源利用率，提升了数字人直播互动的内容质量；实现基于用户意图识别的数字人直播互动特效配置，提升了数字人直播的趣味性，增强了观众的直播代入感，优化了数字人直播的互动效果。

实施例2：

本实施例提供一种数字人直播交互系统，如图2所示，包括直播单元、获取单元、筛选单元、评分单元、计算单元、识别单元和互动单元，其中：

实施例3：

本实施例提供一种数字人直播交互设备，如图3所示，在硬件层面，包括：

数据接口，用于建立处理器与各用户端的数据对接；

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行实施例1中的数字人直播交互方法。

可选地，该设备还包括内部总线。处理器与存储器和数据接口可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

所述存储器可以但不限于包括随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First InputFirst Output，FIFO)和/或先进后出存储器(First In Last Out，FILO)等。所述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例4：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行实施例1中的数字人直播交互方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。

本实施例还提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行实施例1中的数字人直播交互方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字人直播交互方法，其特征在于，包括：

2.根据权利要求1所述的一种数字人直播交互方法，其特征在于，所述根据各筛选用户端的用户等级信息确定各筛选用户端的等级系数，包括：

3.根据权利要求1所述的一种数字人直播交互方法，其特征在于，所述采用自然语言处理方法对各预存互动信息进行情感分析，得到各预存互动信息的情感分类，并根据情感分类确定各预存互动信息的情感评分，包括：

4.根据权利要求1所述的一种数字人直播交互方法，其特征在于，所述根据各筛选用户端的等级系数以及各筛选用户端对应预存互动信息的情感评分计算各筛选用户端的互动得分，包括：

5.根据权利要求1所述的一种数字人直播交互方法，其特征在于，所述采用自然语言处理方法对待反馈信息进行意图识别，得到待反馈信息的意图分类，包括：

6.根据权利要求1所述的一种数字人直播交互方法，其特征在于，所述根据待反馈信息的意图分类从互动信息库中匹配对应的互动动作表情参数、互动背景效果渲染参数和互动文案信息，包括：

7.根据权利要求1所述的一种数字人直播交互方法，其特征在于，所述直播配置信息集包括直播动作表情参数、直播背景效果渲染参数和直播文案信息，所述根据直播配置信息集在直播界面进行数字人模型的直播展示，包括：根据直播动作表情参数控制数字人模型直播的动作和表情，根据直播背景效果渲染参数渲染数字人模型直播的界面背景效果，根据直播文案信息生成直播语音进行同步放送。

8.一种数字人直播交互系统，其特征在于，包括直播单元、获取单元、筛选单元、评分单元、计算单元、识别单元和互动单元，其中：

9.一种数字人直播交互设备，其特征在于，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行权利要求1-7任意一项所述的数字人直播交互方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1-7任意一项所述的数字人直播交互方法。