CN116797695A

CN116797695A - 一种数字人与虚拟白板的交互方法、系统及存储介质

Info

Publication number: CN116797695A
Application number: CN202310390573.9A
Authority: CN
Inventors: 李兵; 刘一立; 陈波; 谢诗星; 刘文龙
Original assignee: Carbon Silk Road Culture Communication Chengdu Co ltd
Current assignee: Carbon Silk Road Culture Communication Chengdu Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-09-22

Abstract

本发明涉及智能技术领域，具体公开了一种数字人与虚拟白板的交互方法、系统及存储介质，通过获取针对目标虚拟白板的演讲语音来进行语音识别及自然语言处理，得到相应的关键情态词，然后利用关键情态词生成语义解析指令来调取针对目标数字人的姿态动作参数和交互规则参数，最后利用姿态动作参数和交互规则参数来控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互，适用于元宇宙中数字人进行讲演、讲课、培训时与虚拟白板交互的场景。本发明可以实现元宇宙空间中数字人与虚拟白板的高效、深度、协调互动，使数字人在讲解时呈现拟人化的行为状态，提升数字人讲解的表现力和趣味性。

Description

一种数字人与虚拟白板的交互方法、系统及存储介质

技术领域

本发明属于智能交互技术领域，具体涉及一种数字人与虚拟白板的交互方法、系统及存储介质。

背景技术

现实世界中，人们在讲话时常常伴随相应的动作、表情来提升讲解的表现力，而在虚拟世界中，虚拟的数字人就缺乏这方面的技术呈现。虚拟白板是元宇宙虚拟世界中常用的虚拟办公或教学工具，在目前的元宇宙场景下，虚拟数字人在数据驱动下进行拟人化讲演、讲课、培训时，仅能做到用单一化的手势指向虚拟白板，无法做到与虚拟白板上的内容产生深度互动，如进行做出相应的动作、表情，或在虚拟白板上对重点内容画线、画圈、打勾等标注，从而影响了数字人讲解的表现力和效果，数字人不具备拟人化的行为状态，行为动作单一、呆板，与白板交互不自然、不协调。

发明内容

本发明的目的是提供一种数字人与虚拟白板的交互方法、系统及存储介质，用以解决现有技术中存在的上述问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供一种数字人与虚拟白板的交互方法，包括：

获取针对目标虚拟白板的演讲语音；

对演讲语音进行语音识别处理，得到对应的文本信息，并对所述文本信息进行自然语言处理，提取出关键情态词；

根据关键情态词确定对应的语义解析指令；

根据语义解析指令从预置的交互规则库中匹配调取对应的交互规则参数，根据语义解析指令从预置的姿态动作库中匹配调取对应的姿态动作参数；

根据姿态动作参数和交互规则参数控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互。

在一个可能的设计中，所述演讲语音包括演讲者的实时演讲语音或者基于预存语音文本的同步播放语音。

在一个可能的设计中，所述对演讲语音进行语音识别处理，得到对应的文本信息，包括：将演讲语音输入预置的基于深度学习的语音识别模型进行语音识别处理，得到对应的文本信息。

在一个可能的设计中，所述对文本信息进行自然语言处理，提取出关键情态词，包括：将文本信息输入预置的基于深度学习的自然语言处理模型进行自然语言处理，输出关键情态词。

在一个可能的设计中，所述根据关键情态词确定对应的语义解析指令，包括：将关键情态词导入语义指令库中进行关联查找，得到与所述关键情态词匹配的语义解析指令，所述语义指令库中与预存有若干语义解析指令，各语义解析指令分别关联有对应的关键情态词。

在一个可能的设计中，在根据语义解析指令从预置的交互规则库中匹配调取对应的交互规则参数，根据语义解析指令从预置的姿态动作库中匹配调取对应的姿态动作参数之前，所述方法还包括：根据第一配置指令生成若干交互规则参数，并将各交互规则参数关联相应的语义解析指令后存入姿态动作库中；根据第二配置指令生成若干姿态动作参数，并将各姿态动作参数关联相应的语义解析指令后存入姿态动作库中。

在一个可能的设计中，所述根据姿态动作参数和交互规则参数控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互，包括：将姿态动作参数和交互规则参数输入基于深度学习的Transformer模型，输出姿态动作交互控制序列，并根据姿态动作交互控制序列控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互。

第二方面，提供一种数字人与虚拟白板的交互系统，包括获取单元、识别单元、确定单元、调取单元和交互单元，其中：

获取单元，用于获取针对目标虚拟白板的演讲语音；

识别单元，用于对演讲语音进行语音识别处理，得到对应的文本信息，并对所述文本信息进行自然语言处理，提取出关键情态词；

确定单元，用于根据关键情态词确定对应的语义解析指令；

调取单元，用于根据语义解析指令从预置的交互规则库中匹配调取对应的交互规则参数，根据语义解析指令从预置的姿态动作库中匹配调取对应的姿态动作参数；

交互单元，用于根据姿态动作参数和交互规则参数控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互。

第三方面，提供一种数字人与虚拟白板的交互系统，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行上述第一方面中任意一种所述的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行第一方面中任意一种所述的方法。同时，还提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行第一方面中任意一种所述的方法。

有益效果：本发明通过获取针对目标虚拟白板的演讲语音来进行语音识别及自然语言处理，得到相应的关键情态词，然后利用关键情态词生成语义解析指令来调取针对目标数字人的姿态动作参数和交互规则参数，最后利用姿态动作参数和交互规则参数来控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互，适用于元宇宙中数字人进行讲演、讲课、培训时与虚拟白板交互的场景。本发明可以实现元宇宙空间中数字人与虚拟白板的高效、深度、协调互动，使数字人在讲解时呈现拟人化的行为状态，提升数字人讲解的表现力和趣味性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中方法的步骤示意图；

图2为本发明实施例2中系统的构成示意图；

图3为本发明实施例3中系统的构成示意图。

具体实施方式

在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，除非另有明确的规定和限定，术语“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在实施例中的具体含义。

在下面的描述中提供了特定的细节，以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实施例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得实施例不清楚。

实施例1：

本实施例提供一种数字人与虚拟白板的交互方法，可应用于相应的元宇宙服务器侧，如图1所示，方法包括以下步骤：

S1.获取针对目标虚拟白板的演讲语音。

本实施例方法是为了实现元宇宙中数字人进行讲演、讲课、培训时与虚拟白板的深度交互，在具体实施时，需要先获取针对目标虚拟白板的演讲语音。所述演讲语音可以是演讲者的实时演讲语音或者是基于预存语音文本的同步播放语音。

S2.对演讲语音进行语音识别处理，得到对应的文本信息，并对所述文本信息进行自然语言处理，提取出关键情态词。

具体实施时，在获取到演讲语音后，先对演讲语音进行语音识别处理，示例性地，可将演讲语音输入预置的基于深度学习的语音识别模型进行语音识别处理，得到对应的文本信息。然后对文本信息进行自然语言处理，示例性地，可将文本信息输入预置的基于深度学习的自然语言处理模型进行自然语言处理，输出关键情态词，所述自然语言处理模型预先经过相应的语料训练集训练得到，所述语料训练集包含若干关键情态词，所述关键情态词可以是设定的自然语言中具有情绪、方位、动作等特征的词语。

S3.根据关键情态词确定对应的语义解析指令。

具体实施时，在提取出相应的关键情态词后，即可根据关键情态词确定对应的语义解析指令，示例性地，可将关键情态词导入语义指令库中进行关联查找，得到与所述关键情态词匹配的语义解析指令，所述语义指令库中与预存有若干语义解析指令，各语义解析指令分别关联有对应的关键情态词，所述语义解析指令可以为相应的数据串。

S4.根据语义解析指令从预置的交互规则库中匹配调取对应的交互规则参数，根据语义解析指令从预置的姿态动作库中匹配调取对应的姿态动作参数。

具体实施时，在确定语义解析指令后，即可根据语义解析指令从预置的交互规则库中匹配调取对应的交互规则参数，根据语义解析指令从预置的姿态动作库中匹配调取对应的姿态动作参数。在此之前，需要配置好交互规则库和姿态动作库，以便根据语义解析指令进行交互规则参数和姿态动作参数的调取，配置过程包括：根据配置人员的第一配置指令生成若干交互规则参数，并将各交互规则参数关联相应的语义解析指令后存入姿态动作库中；根据配置人员的第二配置指令生成若干姿态动作参数，并将各姿态动作参数关联相应的语义解析指令后存入姿态动作库中。所述姿态动作参数为映射数字人身体动作、表情动作等的相应配置参数，交互规则参数为映射数字人与虚拟白板的交互距离、交互方式、手势类型等的相应配置参数，交互距离包括在虚拟世界三维空间中数字人所处位置与虚拟白板位置的距离；交互方式包括做出动作、表情或手势等；手势类型包括画线、画圈、打勾、旋转、反射、高亮、回放、放大、翻页、分页等手势。

S5.根据姿态动作参数和交互规则参数控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互。

具体实施时，在调取到相应的姿态动作参数和交互规则参数后，就可以根据姿态动作参数和交互规则参数控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互。示例性地，可将姿态动作参数和交互规则参数输入基于深度学习的Transformer模型，输出姿态动作交互控制序列，并根据姿态动作交互控制序列控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互。姿态动作交互控制序列可包含对于数字人步态、路径、手势动作、手势指向物、手势类型、表情动作等的交互控制指令。

本实施例方法适用于元宇宙中数字人进行讲演、讲课、培训时与虚拟白板交互的场景，可以实现元宇宙空间中数字人与虚拟白板的高效、深度、协调互动，使数字人在讲解时呈现拟人化的行为状态，提升数字人讲解的表现力和趣味性。

实施例2：

本实施例提供一种数字人与虚拟白板的交互系统，如图2所示，包括获取单元、识别单元、确定单元、调取单元和交互单元，其中：

获取单元，用于获取针对目标虚拟白板的演讲语音；

确定单元，用于根据关键情态词确定对应的语义解析指令；

实施例3：

本实施例提供一种数字人与虚拟白板的交互系统，如图3所示，在硬件层面，包括：

数据接口，用于建立处理器与用户端的数据对接；

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行实施例1中数字人与虚拟白板的交互方法。

可选地，该系统还包括内部总线，处理器与存储器和数据接口可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

所述存储器可以但不限于包括随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First InputFirst Output，FIFO)和/或先进后出存储器(First In Last Out，FILO)等。所述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例4：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行实施例1中数字人与虚拟白板的交互方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。

本实施例还提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行实施例1中数字人与虚拟白板的交互方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字人与虚拟白板的交互方法，其特征在于，包括：

获取针对目标虚拟白板的演讲语音；

根据关键情态词确定对应的语义解析指令；

2.根据权利要求1所述的一种数字人与虚拟白板的交互方法，其特征在于，所述演讲语音包括演讲者的实时演讲语音或者基于预存语音文本的同步播放语音。

3.根据权利要求1所述的一种数字人与虚拟白板的交互方法，其特征在于，所述对演讲语音进行语音识别处理，得到对应的文本信息，包括：将演讲语音输入预置的基于深度学习的语音识别模型进行语音识别处理，得到对应的文本信息。

4.根据权利要求1所述的一种数字人与虚拟白板的交互方法，其特征在于，所述对文本信息进行自然语言处理，提取出关键情态词，包括：将文本信息输入预置的基于深度学习的自然语言处理模型进行自然语言处理，输出关键情态词。

5.根据权利要求1所述的一种数字人与虚拟白板的交互方法，其特征在于，所述根据关键情态词确定对应的语义解析指令，包括：将关键情态词导入语义指令库中进行关联查找，得到与所述关键情态词匹配的语义解析指令，所述语义指令库中与预存有若干语义解析指令，各语义解析指令分别关联有对应的关键情态词。

6.根据权利要求1所述的一种数字人与虚拟白板的交互方法，其特征在于，在根据语义解析指令从预置的交互规则库中匹配调取对应的交互规则参数，根据语义解析指令从预置的姿态动作库中匹配调取对应的姿态动作参数之前，所述方法还包括：根据第一配置指令生成若干交互规则参数，并将各交互规则参数关联相应的语义解析指令后存入姿态动作库中；根据第二配置指令生成若干姿态动作参数，并将各姿态动作参数关联相应的语义解析指令后存入姿态动作库中。

7.根据权利要求1所述的一种数字人与虚拟白板的交互方法，其特征在于，所述根据姿态动作参数和交互规则参数控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互，包括：将姿态动作参数和交互规则参数输入基于深度学习的Transformer模型，输出姿态动作交互控制序列，并根据姿态动作交互控制序列控制目标数字人在虚拟世界三维空间中与目标虚拟白板的姿态动作交互。

8.一种数字人与虚拟白板的交互系统，其特征在于，包括获取单元、识别单元、确定单元、调取单元和交互单元，其中：

获取单元，用于获取针对目标虚拟白板的演讲语音；

确定单元，用于根据关键情态词确定对应的语义解析指令；

9.一种数字人与虚拟白板的交互系统，其特征在于，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1-7任意一项所述的方法。