CN117198293B

CN117198293B - 数字人语音交互方法、装置、计算机设备和存储介质

Info

Publication number: CN117198293B
Application number: CN202311475634.8A
Authority: CN
Inventors: 刘治宇
Original assignee: Beijing Fenghuo Wanjia Technology Co ltd
Current assignee: Beijing Fenghuo Wanjia Technology Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-01-26
Anticipated expiration: 2043-11-08
Also published as: CN117198293A

Abstract

本申请实施例属于人工智能技术领域，具体地说，涉及一种数字人语音交互方法、装置、计算机设备和存储介质，该数字人语音交互方法包括：调用所述辅助信息模块接收第一语音信息，并将所述第一语音信息发送至所述数字人服务平台；其中，所述第一语音信息是指所述全息投影模块投放的数字人发出的智能语音信息，和/或，用户发出的自然语音信息；在所述数字人服务平台对所述第一语音信息进行解析，得到所述第一语音信息的第一语义；在所述数字人服务平台确定与所述第一语义匹配的第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放。提供了一种可以实现用户与数字人进行语音交互的方法。

Description

数字人语音交互方法、装置、计算机设备和存储介质

技术领域

本申请属于人工智能技术领域，具体地说，涉及一种数字人语音交互方法、装置、计算机设备和存储介质。

背景技术

在当前信息通信领域中，随着数字人的逐步被人认知，数字人技术的发展也日新月异，但是数字人的技术发展仍然处于起步阶段。数字人的技术主要集中在数字人生成以及在手机或电脑中播放数字人，而用户无法与数字人进行语音等交互。

因此，目前亟需一种可以与数字人进行语音交互的方法。

在背景技术中公开的上述信息仅用于加强对本申请的背景的理解，因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。

发明内容

本申请实施例中提供了一种数字人语音交互方法、装置、计算机设备和存储介质。

本申请实施例的第一个方面，提供了一种数字人语音交互方法，应用于数字人移动终端全息投影系统，所述数字人移动终端全息投影系统至少包括：移动终端与数字人服务平台；其中，所述移动终端至少配置有用于在移动终端投放数字人的全息投影模块，以及用于收发语音信息的辅助信息模块，所述数字人服务平台用于语音信息处理与回复，所述方法包括：

调用所述辅助信息模块接收第一语音信息，并将所述第一语音信息发送至所述数字人服务平台；其中，所述第一语音信息是指所述全息投影模块投放的数字人发出的智能语音信息，和/或，用户发出的自然语音信息；

在所述数字人服务平台对所述第一语音信息进行解析，得到所述第一语音信息的第一语义；

在所述数字人服务平台确定与所述第一语义匹配的第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放。

在本申请一个可选的实施例中，所述数字人服务平台至少包括：交互逻辑模块、智能语音模块与自然语言处理模块，若所述第一语音信息为所述智能语音信息，则所述在所述数字人服务平台对所述第一语音信息进行解析，得到所述第一语音信息的第一语义，包括：

在所述数字人服务平台调用交互逻辑模块接收所述第一语音信息，并将所述第一语音信息发送至所述智能语音模块；

在所述智能语音模块将所述第一语音信息的格式转换为所述自然语音信息；

将格式转换后的所述第一语音信息发送至所述自然语言处理模块，并在所述自然语言处理模块对所述第一语音信息进行语义解析，得到所述第一语音信息的所述第一语义。

在本申请一个可选的实施例中，在所述自然语言处理模块对所述第一语音信息进行语义解析，得到所述第一语音信息的所述第一语义，包括：

在所述自然语言处理模块基于预先训练的语言处理模型对所述第一语音信息进行关键字提取，得到语义关键词；

基于所述语义关键词确定所述第一语音信息的所述第一语义。

在本申请一个可选的实施例中，所述数字人服务平台还包括：语料知识库；所述语料知识库中包括不同语义内容对应的回复语料；

所述在所述数字人服务平台确定与所述第一语义匹配的第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放，包括：

在所述数字人服务平台中从所述语料知识库中确定与所述第一语义匹配的所述第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放。

在本申请一个可选的实施例中，所述在所述数字人服务平台中从所述语料知识库中确定与所述第一语义匹配的所述第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放，包括：

在所述数字人服务平台中从所述语料知识库中确定与所述第一语义匹配的第二语义信息，并将所述第二语义信息发送至所述智能语音模块；

在所述智能语音模块将所述第二语义信息转换为所述第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放。

在本申请一个可选的实施例中，所述在所述智能语音模块将所述第二语义信息转换为所述第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放，包括：

在所述智能语音模块将所述第二语义信息转换为所述第二语音信息，并将所述第二语音信息发送至所述交互逻辑模块，并基于所述交互逻辑模块将所述第二语音信息发送至所述辅助信息模块进行播放。

在本申请一个可选的实施例中，所述移动终端配置有数字人应用程序；

所述将所述第二语音信息发送至所述辅助信息模块进行播放，包括：

将所述第二语音信息发送至所述移动终端的所述数字人应用程序，并基于所述数字人应用程序调用播放器播放所述第二语音信息。

本申请实施例的第二个方面，提供了一种数字人语音交互装置，应用于数字人移动终端全息投影系统，所述数字人移动终端全息投影系统至少包括：移动终端与数字人服务平台；其中，所述移动终端至少配置有用于在移动终端投放数字人的全息投影模块，以及用于收发语音信息的辅助信息模块，所述数字人服务平台用于语音信息处理与回复，所述装置包括：

调用单元，用于调用所述辅助信息模块接收第一语音信息，并将所述第一语音信息发送至所述数字人服务平台；其中，所述第一语音信息是指所述全息投影模块投放的数字人发出的智能语音信息，和/或，用户发出的自然语音信息；

解析单元，用于在所述数字人服务平台对所述第一语音信息进行解析，得到所述第一语音信息的第一语义；

发送单元，用于在所述数字人服务平台确定与所述第一语义匹配的第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放。

本申请实施例的第三个方面，提供了一种计算机设备，包括：包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上任一项方法的步骤。

本申请实施例的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如上任一项的方法的步骤。

本申请实施例提供的数字人语音交互方法应用于数字人移动终端全息投影系统，数字人移动终端全息投影系统至少包括：移动终端与数字人服务平台，该数字人语音交互方法包括：调用辅助信息模块接收第一语音信息，并将第一语音信息发送至数字人服务平台，在数字人服务平台对第一语音信息进行解析，得到第一语音信息的第一语义，在数字人服务平台确定与第一语义匹配的第二语音信息，并将第二语音信息发送至辅助信息模块进行播放。

即通过移动终端接收用户或数字人发出的第一语音信息，并通过配置数字人服务平台，在数字人服务平台通过第二语音信息对该第一语音信息进行响应回复，并发送至移动终端的辅助信息模块进行播放，从而实现在移动终端与数字人的语音互动，提供了一种可以实现用户与数字人进行语音交互的方法，能够实现人与移动终端投影的全息数字人之间的语音交互，能够较为真实地感受到远方数字人的存在，更加接近真实的交互方式为用户之间实现即时面对面交流打下基础。同时将单向的数字人投放转换为用户与数字人双向的交互，提供更真实生动的人机交互体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的数字人移动终端全息投影系统的结构示意图；

图2为本申请实施例提供的数字人移动终端全息投影系统中全息投影模块的结构示意图；

图3为本申请实施例提供的数字人移动终端全息投影系统交互示意图；

图4为本申请实施例提供的数字人移动终端全息投影系统中数字人服务平台的结构示意图；

图5为本申请一个实施例提供的数字人语音交互方法的流程图；

图6为本申请一个实施例提供的数字人语音交互方法中在数字人服务平台中的交互示意图；

图7为本申请一个实施例提供的数字人语音交互方法中确定第一语义的流程图；

图8为本申请一个实施例提供的数字人语音交互方法中确定第一语义的解析流程图；

图9为本申请一个实施例提供的数字人语音交互方法中确定第二语音信息并播放的流程图；

图10为本申请一个实施例提供的数字人语音交互方法在移动终端的交互示意图；

图11为本申请一个实施例提供的数字人语音交互装置结构示意图；

图12为本申请一个实施例提供的计算机设备结构示意图。

具体实施方式

在实现本申请的过程中，发明人发现，在当前信息通信领域中，随着数字人的逐步被人认知，数字人技术的发展也日新月异，但是数字人的技术发展仍然处于起步阶段。数字人的技术主要集中在数字人生成以及在手机或电脑中播放数字人，而用户无法与数字人进行语音等交互。因此，目前亟需一种可以与数字人进行语音交互的方法。

本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

因此，目前亟需一种可以与数字人进行语音交互的方法。

基于此，本申请实施例提供了一种数字人语音交互方法，用以实现用户与数字人之间的语音互动。该数字人语音交互方法应用于数字人移动终端全息投影系统，所述数字人移动终端全息投影系统至少包括：移动终端与数字人服务平台；

该移动终端是指用户操作终端，包括硬件设备与软件系统等，本申请实施例对移动终端的硬件及软件均作出了对应改进，以具有对数字人全息投影的服务与处理能力。硬件部分的改进包括：在移动终端的主板部分增加全息投影模块，例如高性能图像/视频处理芯片，高亮度和高分辨率光源、精密投影光栅和镜头等；当然，该移动终端对应的壳体、主板电路布局等也会进行相应的调整，在此不作赘述，可根据实际情况灵活调整。软件模块的改进包括：对手机操作系统的改进，例如增设与数字人服务平台的通信接口，以及与其他辅助信息模块之间的通信接口，实现与全息投影模块和辅助信息模块之间的通信等。该移动终端至少包括全息投影模块和辅助信息模块，所述全息投影模块用于接收用户操作指令，例如打开或关闭数字人的全息投影，并根据所述所述操作指令控制数字人在空间的投影；所述辅助信息模块用于提供所述数字人与用户之间的信息交互通道。该移动终端可以为如图1中的手机终端，也可以为其他例如PAD等其他具有光学投影功能的可穿戴设备，本申请实施例不作具体限定，可根据实际情况灵活设定。

所述数字人服务平台用于接收所述数字人与用户的交互信息，并将所述交互信息转换为预设格式的交互内容并发送至所述移动终端的数字人应用程序，以供所述数字人应用程序基于所述交互内容控制所述数字人交互。该交互信息是指数字人产生的动作信息、语音信息、图像或视频信息等，以及用户产生的动作信息、语音信息、图像或视频信息等，该信息均通过移动终端进行采集并通过该数字人应用程序发送至数字人服务平台。

本申请实施例提供的数字人移动终端全息投影系统至少包括：移动终端和数字人服务平台；其中，所述移动终端至少包括全息投影模块和辅助信息模块，所述全息投影模块用于接收用户操作指令，并根据所述所述操作指令控制数字人在空间的投影；所述辅助信息模块用于提供所述数字人与用户之间的信息交互通道；所述数字人服务平台，用于接收所述数字人与用户的交互信息，并将所述交互信息转换为预设格式的交互内容并发送至所述移动终端的数字人应用程序，以供所述数字人应用程序基于所述交互内容控制所述数字人交互。第一方面，通过移动终端与数字人服务平台的交互结合，可以实现数字人的投影、展示与交互，相对于传统方式中的大型投影设备便捷性更优。

在本申请实施例中，通过在移动终端设置全息投影模块与辅助信息模块打通移动终端与数字人服务平台之间的通信接口，在移动终端提供全息投影支持，以一种新型的通信协议和开放接口实现通过上层数字人应用程序对全息投影模块的打开、投放、关闭等重要操作。同时，相较于传统的大型投影设备需要外接设备外壳、电源、通信线路与设备，本申请实施例全息投影模块只提取最核心的全息投影部分，以较小的功率投影较低像素的方式，实现了移动终端主板驱动并调用全息投影模块，适配于小型的移动终端，且在保障投影效果的前提下更为节能。

本申请实施例将传统以投影机主板等相关硬件驱动的方式来打开投影、投放全息、关闭投影等重要投影操作的能力改造成一种以移动终端上层的应用软件（即数字人应用程序）和移动终端相结合的全新的软硬一体的方式来实现，本申请实施例一方面摒弃了大型投影设备多余的设备空间、大型投影设备主板、硬件驱动投影的方式以及传统全息投影模块占用较大空间的弊端，从而实现全息投影模块的小型化，另一方面又实现了移动终端主板以较低功率驱动并调用全息模块的能力，从而使得在一个较小的移动终端内部实现了全息投影的功能，这样可以以一种更便捷、小型的方式实现了全息的投影。

在本申请一个可选实施例中，本申请实施例中的移动终端内部，操作系统与主板、全息模块、扬声器等相关模块进行交互通信协议可以如下：

1）数字人应用程序与操作系统之间：改造操作系统，使其具备解码播放数字人视频以及根据数字人视频的实际情况调用全息模块以及扬声器的能力，数字人应用程序程序与操作系统之间的协议格式如下：

其中：

会话ID为某个数字人的标识ID，或者数字人应用程序为了标识具体播放的数字人，专门分配的与某个数字人一一对应的ID；

消息序列为同一个会话ID下，需要多个消息传输数字人视频时，标识不同消息的序列ID；

命令类型为数字人投影相关的命令类型，例如可以为以下三种命令：打开全息投影模块（Open）、投影（Projection）、关闭全息模块（Close）；当为打开全息投影模块（Open）和关闭全息投影模块（Close）命令时，视频数据、音频数据为0；

消息标记主要两种：取1时表明还有后续消息，取0时表明本消息是最后一条消息，如果没有收到关闭的命令，全息投影模块可以自行关闭；

消息体为数字人具体的多媒体数据，包括视频流数据和音频数据流。

操作系统收到以上协议格式的命令时，执行相应的命令：

收到打开全息模块（Open）命令时，通过移动终端中的主板。操控系统等驱动打开全息投影模块；

收到投影（Projection）命令时，将视频数据通过主板发送给全息投影模块，通过辅助信息模块进行投影，将音频数据通过主板发送给辅助信息模块通过扬声器进行播放；

收到关闭全息模块（Close）命令时，通过主板驱动关闭全息投影模块。

操作系统与主板/全息投影模块之间的协议格式可以采用上述数字人应用程序程序与操作系统之间的协议格式，在此不再赘述。

改造后的操作系统具有音视频同步的能力，一方面将视频数据通过主板发送给全息投影模块进行投影，另一方面将音频数据通过主板发送给扬声器进行播放，让双方不至于失步。

操作系统调用扬声器的协议可以采用移动终端现有通用的协议，只需要可以实现信息交互的目的即可。

请参见图2，在本申请一个可选实施例中，所述全息投影模块至少包括：多媒体处理芯片、光源模块和镜头模块，其中：

该多媒体处理芯片设置于所述移动终端的主板，用于提供数字人的图像、视频、语音计算和处理中的至少一种；实现全息图像/视频复杂的计算和处理，能够将所述数字人服务平台中的所述数字人以全息图像/视频的方式呈现。该多媒体处理芯片可以包括：语音处理模块、图像处理模块、视频处理模块以及动作捕获与处理模块等，在此不作穷举，可根据实际情况灵活设定。当全息投影模块收到操作系统的打开指令，并且建立数字人投放通道之后，高性能图像/视频处理芯片处理来自数字人服务平台传过来的数字人视频信息，并调用光源模块产生高亮度和高分辨率光源。

该光源模块设置于所述移动终端的镜头模块，可以产生一个亮度高、色域广且分辨率高的光源，即用于为所述数字人的成像提供光源。

该镜头模块设置于所述移动终端的镜头模块，用于对所述光源模块发射出的光学进行控制和调整，例如能够对光线进行精细化控制和调整,实现光线的分化和重定向，从而以实现数字人的投影成像。该镜头模块通过光源产生的光，将数字人投放至相应的投影空间。该投影空间可以是空间的一个区域，也可以是有全息投影屏所在的一个区域。

本申请实施例通过在全息投影模块中设置多媒体处理芯片、光源模块和镜头模块等，从而硬件上支持数字人的全息成像，增加数字人的交互信息的丰富性，同时提高数字人交互信息的处理全面性，以实现为用户提供更为真实的感官体验效果。

在本申请一个可选实施例中，所述镜头模块至少包括：光栅和镜头。光栅的参数例如可以为：小尺寸(例如25.4 毫米外径，3 毫米厚)的光栅（光谱范围：350nm—2400nm，波前畸变：典型值1/5 wave,更高精度可定制，波前均匀性：<1/40 wave RMS，空间频率：125 lp/mm —-3600lp/mm），镜头的参数，例如可以为：分辨率:19201080、可视角度:168/178°、亮度:400cd/㎡、色彩:167.7m。通过该参数的光栅和镜头可以实现对数字人的较高亮度和较高分辨率的呈现，数字人成像更为真实，提高用户的感官体验。

在本申请一个可选实施例中，所述辅助信息模块至少包括：麦克风以及麦克风处理模块、扬声器以及扬声器处理模块。例如通过麦克风捕获用户的声音，然后将该声音信息通过数字人应用程序发送至数字人服务平台，数字人服务平台进行响应，并生成与该声音信息对应的响应内容，扬声器处理模块将该响应内容进行解析与格式转换后通过扬声器发出，用户听到后即可实现数字人与用户之间的语音互动。本申请实施例从语音的输入、输出以及语音信息的处理三个维度提高对用户声音和数字人之间的交互效果，进而为用户提供更为真实的感官体验效果。

在本申请一个可选实施例中，所述数字人应用程序在运行时在图形用户界面提供数字人的交互界面，其中，所述交互界面至少包括：数字人控制触控按钮，用于响应用户控制操作，并基于用户操控控制所述数字人投放或关闭。该数字人应用程序为上层的数字人服务应用，当用户需要投放某数字人的时候，可以通过该数字人服务应用（可以是APP，或Web，或任何类型的可以与用户进行交互的应用）点击相应的“投放”按钮，实现数字人的投放与交互。当需要关闭数字人时，可以点击该应用内的“关闭”按钮，实现数字人的关闭；该数字人服务应用还可以管理各种类型的数字人，可以以列表的形式展现各种类型的数字人，方便用户选择某一个数字人进行投放与交互。

在本申请一个可选实施例中，所述交互界面包含多个选择控件，一个选择控件对应一个类型的数字人，所述选择控件用于响应用户的选择操作，并根据所述选择操作从数字人库中确定需要投影的目标数字人；其中，所述数字人库中的各数字人的应用行业不完全相同，例如影视行业、传媒行业、游戏行业、金融行业、文旅行业等。通过行业应用模块，提供针对不同行业的数字人，能够支持不同行业的数字人通过该通道进行数字人的投放，进而提高数字人的应用领域与应用范围，且精细度更高。

在本申请一个可选实施例中，所述数字人服务平台至少包括：数字人生产服务系统、人工智能模块和用户管理模块，其中：

该数字人生产服务系统与所述移动终端的所述全息投影模块通信连接，所述数字人生产服务系统用于构建或存储数字人系统，并根据所述移动终端通过数字人应用程序发送的所述交互信息确定用于响应所述交互信息的所述交互内容；其中，所述交互内容包括但不限于：动作内容、语音内容和图像内容。该数字人生产服务系统：包括建模系统、动作捕捉系统、渲染平台、解决方案平台等，用于生产出满足各行业需求的数字人。该建模系统用于根据移动终端或者第三方平台的数字人需求，可以实时构建与该需求匹配的数字人，例如针对文旅行业的数字人或者在不同场景中提供不同皮肤等，在此不作具体限定，可根据实际情况灵活调整；该动作捕捉系统可以用于通过传感器等外设捕获用户的动作，也可以根据移动终端采集的数字人位置信息捕获数字人的动作信息等均可；该渲染平台用于对数字人的光影、色彩等进行渲染，以提高数字人的成像效果。该解决平台可以配置有多套预警方案，针对预设的意外情况配置对应的预警方案，一旦该意外情况被触发，则直接启动匹配的预警方案，从而实现闭环的方案自动处理，稳定更高；同时，还可以将该解决平台设定为开源的，一旦意外情况被触发，可以发出报警信号，以供工作人员根据报警信号确定对应的意外情况，从而及时高效的进行排查，以快速的进行问题解决。

该人工智能模块与所述数字人生产服务系统通信连接，所述人工智能模块用于对所述数字人生产服务系统发送的所述交互信息进行解析，并根据解析内容生成与所述交互信息对应的语音内容和/动作内容。该人工智能模块为AI能力平台，可以包括：计算机视觉、智能语音、自然语言处理等，生成数字人的语音和动作，识别用户回复的语音和语言，并且根据识别的内容，生成数字人回复给用户的语音和动作（音视频）等，提高数字人与用户的交互智能程度，提高用户的感官体验。

该用户管理模块用于实现各移动终端对应的用户的接入与管控，对各行业客户（商户）进行管理，方便行业客户系统（第三方平台）接入数字人服务平台，方便对各用户以及各数字人进行统筹管理与控制。

在本申请一个可选实施例中，该数字人移动终端全息投影系统，还包括：第三方平台，其中：

该第三方平台与所述数字人服务平台通信连接，用于基于所述数字人服务平台接入对应的数字人。该第三方平台是指具有数字人需求的第三方平台（商户平台），例如某一文旅公司的运营平台，通过与数字人服务平台的某一文旅数字人进行绑定，数字人服务平台向第三方平台开放全息数字人投放服务，数字人服务平台通过行业客户管理模块向第三方平台开放相应的接口，能够支持第三方的数字人通过该通道进行数字人的投放。用户在移动终端的数字人服务应用程序中开启数字人投影服务，与该文旅数字人进行交互，从而获得文旅讲解、展示以及互动等服务。

请参见图3，以下结合上述所有实施例对本申请实施例提供的数字人移动终端全息投影系统的交互过程作简要介绍：

步骤301、用户在移动终端的数字人应用程序点击“投影数字人”按钮（在此之前，数字人应用程序可以有数字人列表，方便用户选择某一个数字人进行投影）；

步骤302、移动终端全息投影模块通过移动终端向数字人服务平台获取相应的数字人；

步骤303、数字人服务平台构建相应的数字人，或从之前已经构建好相应的数字人；

步骤304、数字人服务平台返回相应的数字人；

步骤305、移动终端通过操作系统、主板，打开全息投影模块；

步骤306、全息投影模块、数字人服务模块与数字人服务平台之间建立数字人投影通道；

步骤307、全息投影模块将数字人投影到投影口对着的空间，空间中展现相应的数字人，数字人服务模块根据数字人播放场景调用手机内的辅助信息模块实现用户与数字人之间的交互；比如数字人说话时，数字人服务模块同时调用扬声器发出声音，用户发出的声音通过麦克风传至数字人服务模块，然后传至数字人服务平台，以此实现用户与数字人之间的交互；

步骤308、数字人交互结束，用户点击数字人应用程序中图形用户界面的“关闭”按钮，可以关闭数字人；

步骤309、移动终端的数字人应用程序向数字人服务平台发送关闭请求；

步骤310、数字人服务平台关闭数字人；

步骤311、数字人服务平台返回相应的响应；

步骤312、移动终端的数字人服务模块通过操作系统、主板关闭通道，关闭全息投影投影模块。

此外，上述移动终端至少配置有用于在移动终端投放数字人的全息投影模块，以及用于收发语音信息的辅助信息模块，数字人服务平台用于语音信息处理与回复。如图4，数字人服务平台在上述结构中还增加了语料知识库，该语料知识库中包括不同语义内容对应的回复语料。

以下对本申请实施例提供的数字人语音交互方法进行详细说明：

请参见图5，本申请实施例提供的数字人语音交互方法包括如下步骤501-步骤503：

步骤501、调用辅助信息模块接收第一语音信息，并将第一语音信息发送至数字人服务平台。

其中，第一语音信息是指全息投影模块投放的数字人发出的智能语音信息，和/或，用户发出的自然语音信息。本申请实施例中的语音信息可以为声音信息，也可以指声音经过格式转换的数字信息等，在此不作具体限定，可根据实际情况配置为任意声音类信息。

步骤502、在数字人服务平台对第一语音信息进行解析，得到第一语音信息的第一语义。

该第一语义即为第一语音信息所要表达的内容，该第一语义可以采用文本、语音或者其他任意形式进行表征，在此不作具体限定。该解析过程可以采用例如隐马尔科夫模型（HMM）、混合高斯模型（GMM）等，在此不作穷举。

步骤503、在数字人服务平台确定与第一语义匹配的第二语音信息，并将第二语音信息发送至辅助信息模块进行播放。

也就是说，数字人服务平台可以对第一语义进行语料回复，从而实现对用户或数字人发出的第一语音信息进行响应回复，并发送至移动终端的辅助信息模块，以通过该辅助信息模块中的扬声器等进行播放，从而实现在移动终端与数字人的语音互动。

请参见图6，在本申请一个可选实施例中，数字人服务平台至少包括：交互逻辑模块、智能语音模块、自然语言处理模块与语料知识库。其中，该交互逻辑模块用于实现移动终端与数字人服务平台之间的通信与交互，例如信息的收发（例如向移动终端下发数字人的语音信息，以及接受并处理来自人类的回复语音信息等），接口的协议配置等。该智能语音模块用于进行智能语音与自然语音之间的转换，其中，智能语音是指数字人发出的语音，自然语音是指用户发出的语音。自然语言处理模块用于语义解析，该自然语言处理模块中配置有语言解析模型，例如WACSP语义解析模型，LR-ASPP模型等，在此不作穷举，只需要可以实现语义解析的目的即可。该语料知识库中包括不同语义内容对应的回复语料，语料知识库为语音交互的数字人进行发言及答复的语料知识库，该库按照人工智能技术组织，供智能语音和自然语言处理模块调用，以实现数字人与自然人的自然交互，该库数据越丰富，则交互越流畅；该库的数据支持自然人与数字人交互，可以通过不断更新实现语料内容的自丰富。

请参见图7，若第一语音信息为智能语音信息，则上述步骤502、在数字人服务平台对第一语音信息进行解析，得到第一语音信息的第一语义，包括如下步骤701-步骤703：

请一并参见图6，步骤701、在数字人服务平台调用交互逻辑模块接收第一语音信息，并将第一语音信息发送至智能语音模块；

步骤702、在智能语音模块将第一语音信息的格式转换为自然语音信息；

步骤703、将格式转换后的第一语音信息发送至自然语言处理模块，并在自然语言处理模块对第一语音信息进行语义解析，得到第一语音信息的第一语义。

本申请实施例在数字人服务平台至少配置了：交互逻辑模块与智能语音模块，基于交互逻辑模块实现语音信息的收发，即实现与移动终端之间的信息交互，然后通过智能语音模块实现自然语言与智能语言之间的转换，最后通过自然语言处理模块对第一语音进行语义解析并基于语料知识库中的语料内容进行响应回复，效率更高，实现了用户的自然语言与数字人的智能语言之间的语音互动；且各个模块相互独立工作，干扰较小，可靠性更高。

在本申请一个可选实施例中，上述步骤503、在数字人服务平台确定与第一语义匹配的第二语音信息，并将第二语音信息发送至辅助信息模块进行播放，包括如下步骤：

在数字人服务平台中从语料知识库中确定与第一语义匹配的第二语音信息，并将第二语音信息发送至辅助信息模块进行播放。

本申请实施例基于数字人服务平台中预先配置的语料知识库进行第一语义匹配内容的确定，可靠性高，且对网络要求较低，效率更高；同时可对该语料知识库不断进行自更新，从而提高语音互动的丰富性。

请参见图8，在本申请一个可选实施例中，上述步骤703、在自然语言处理模块对第一语音信息进行语义解析，得到第一语音信息的第一语义，包括如下步骤801-步骤802：

步骤801、在自然语言处理模块基于预先训练的语言处理模型对第一语音信息进行关键字提取，得到语义关键词；

步骤802、基于语义关键词确定第一语音信息的第一语义。

该语言处理模型是指可以进行关键词提取的神经网络模型，例如TF-IDF模型、TextRank模型等对文本进行关键词提取的模型，还可以为直接对语音进行关键词提取的神经网络模型等均可，在此不作赘述。

本申请实施例先基于预先训练的语言处理模型对第一语音信息进行关键字提取得到语义关键词后，再基于该语义关键词确定第一语音信息的第一语义，可以减少第一语义确定时的数据处理量，进而提高生成第二语音信息的效率，进而提高本申请实施例数字人语音交互方法的互动效率。

请参见图9，在本申请一个可选实施例中，上述步骤在数字人服务平台中从语料知识库中确定与第一语义匹配的第二语音信息，并将第二语音信息发送至辅助信息模块进行播放，包括如下步骤901-步骤902：

步骤901、在数字人服务平台中从语料知识库中确定与第一语义匹配的第二语义信息，并将第二语义信息发送至智能语音模块；

步骤902、在智能语音模块将第二语义信息转换为第二语音信息，并将第二语音信息发送至辅助信息模块进行播放。

请继续参见图6，先基于数字人服务平台中的语料知识库确定第一语义对应的第二语义信息，然后再将该第二语义信息转换为第二语音信息，即该语料知识库中包含的是不同语义之间的对应关系，无需进行语义与语音之间对应关系的转换，该语料知识库的容量减小，从而降低数字人服务平台的存储压力，降低本申请实施例数字人移动终端全息投影系统的结构体积。

在本申请一个可选实施例中，上述步骤902、在智能语音模块将第二语义信息转换为第二语音信息，并将第二语音信息发送至辅助信息模块进行播放，包括如下步骤：

在智能语音模块将第二语义信息转换为第二语音信息，并将第二语音信息发送至交互逻辑模块，并基于交互逻辑模块将第二语音信息发送至辅助信息模块进行播放。

即本申请实施例在数字人服务平台中，基于智能语音模块将第二语义信息转换为第二语音信息，然后再通过交互逻辑模块将该第二语音信息发送至移动终端，各个模块相互独立工作，干扰小，可以提高第二语音信息传输的可靠性。

在本申请一个可选实施例中，上述移动终端配置有数字人应用程序，该数字人应用程序的结构与布局等均在上述实施例中已详细阐述，在此不再赘述。对应的，上述步骤503、将第二语音信息发送至辅助信息模块进行播放，包括如下步骤：

将第二语音信息发送至移动终端的数字人应用程序，并基于数字人应用程序调用播放器播放第二语音信息。

即通过移动终端的数字人应用程序调用播放器（例如扬声器等）播放第二语音信息，同时用户可以通过该数字人应用程序实现对数字人的控制，交互更为丰富，操控便捷性也更高。

以上为数字人服务平台中语音信息的交互过程，以下对本申请实施例提供的数字人语音交互方法在移动终端中的交互过程：

请参见图10，用户在移动终端上通过上述的数字人移动终端全息投影系统投影相应的数字人之后，移动终端将数字人服务平台中的数字人全息投影至相应的空间；

数字人服务平台的数字人生产服务模块的交互逻辑模块组织数字人相应话术的第二语音信息，并返回至移动终端的数字人应用程序；

移动终端的数字人服务应用通过全息投影模块和辅助信息模块将第二语音信息播放出来；

用户通过辅助信息模块中的麦克风等回复数字人相应的第一语音信息；该第一语音信息通过数字人应用程序发送至数字人服务平台，数字人服务平台根据用户的第一语音信息回复的内容组织自己要回复的内容；

数字人服务平台通过交互逻辑模块返回相应的第二语音信息给移动终端的数字人应用程序；

移动终端的数字人应用程序通过辅助信息模块操作系统、主板、扬声器将语音信息播放出来；

如此往复交互，用户与数字人就实现了相应的语音交互。

应该理解的是，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参见图11，本申请一个实施例提供了一种数字人语音交互装置1100，应用于数字人移动终端全息投影系统，数字人移动终端全息投影系统至少包括：移动终端与数字人服务平台；其中，移动终端至少配置有用于在移动终端投放数字人的全息投影模块，以及用于收发语音信息的辅助信息模块，数字人服务平台用于语音信息处理与回复，该数字人语音交互装置1100包括：调用单元1110、解析单元1120和发送单元1130，其中：

该调用单元1110，用于调用辅助信息模块接收第一语音信息，并将第一语音信息发送至数字人服务平台；其中，第一语音信息是指全息投影模块投放的数字人发出的智能语音信息，和/或，用户发出的自然语音信息；

该解析单元1120，用于在数字人服务平台对第一语音信息进行解析，得到第一语音信息的第一语义；

该发送单元1130，用于在数字人服务平台确定与第一语义匹配的第二语音信息，并将第二语音信息发送至辅助信息模块进行播放。

在本申请一个可选实施例中，数字人服务平台至少包括：交互逻辑模块、智能语音模块与自然语言处理模块，若第一语音信息为智能语音信息，则该解析单元1120具体用于，在数字人服务平台调用交互逻辑模块接收第一语音信息，并将第一语音信息发送至智能语音模块；在智能语音模块将第一语音信息的格式转换为自然语音信息；将格式转换后的第一语音信息发送至自然语言处理模块，并在自然语言处理模块对第一语音信息进行语义解析，得到第一语音信息的第一语义。

在本申请一个可选实施例中，该解析单元1120具体用于，在自然语言处理模块基于预先训练的语言处理模型对第一语音信息进行关键字提取，得到语义关键词；基于语义关键词确定第一语音信息的第一语义。

在本申请一个可选实施例中，数字人服务平台还包括：语料知识库；语料知识库中包括不同语义内容对应的回复语料；该发送单元1130具体用于，在数字人服务平台中从语料知识库中确定与第一语义匹配的第二语音信息，并将第二语音信息发送至辅助信息模块进行播放。

在本申请一个可选实施例中，该发送单元1130具体用于，在数字人服务平台中从语料知识库中确定与第一语义匹配的第二语义信息，并将第二语义信息发送至智能语音模块；在智能语音模块将第二语义信息转换为第二语音信息，并将第二语音信息发送至辅助信息模块进行播放。

在本申请一个可选实施例中，该发送单元1130具体用于，在智能语音模块将第二语义信息转换为第二语音信息，并将第二语音信息发送至交互逻辑模块，并基于交互逻辑模块将第二语音信息发送至辅助信息模块进行播放。

在本申请一个可选实施例中，移动终端配置有数字人应用程序；该发送单元1130具体用于，将第二语音信息发送至移动终端的数字人应用程序，并基于数字人应用程序调用播放器播放第二语音信息。

关于上述数字人语音交互装置1100的具体限定可以参见上文中对于数字人语音交互方法的限定，在此不再赘述。上述数字人语音交互装置1100中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备的内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现如上的一种数字人语音交互方法。包括：包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上数字人语音交互方法中的任一步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时可以实现如上数字人语音交互方法中的任一步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数字人语音交互方法，其特征在于，应用于数字人移动终端全息投影系统，所述数字人移动终端全息投影系统至少包括：移动终端与数字人服务平台；其中，所述移动终端至少配置有用于在移动终端投放数字人的全息投影模块，以及用于收发语音信息的辅助信息模块；所述全息投影模块至少包括：多媒体处理芯片、光源模块和镜头模块，其中：该多媒体处理芯片设置于所述移动终端的主板，用于提供数字人的图像、视频、语音计算和处理中的至少一种；该光源模块设置于所述移动终端的镜头模块，可用于为所述数字人的成像提供光源；该镜头模块设置于所述移动终端的镜头模块，用于对所述光源模块发射出的光学进行控制和调整，实现光线的分化和重定向，以实现数字人的投影成像；所述数字人服务平台用于语音信息处理与回复，所述方法包括：

2.根据权利要求1所述的数字人语音交互方法，其特征在于，所述数字人服务平台至少包括：交互逻辑模块、智能语音模块与自然语言处理模块，若所述第一语音信息为所述智能语音信息，则所述在所述数字人服务平台对所述第一语音信息进行解析，得到所述第一语音信息的第一语义，包括：

3.根据权利要求2所述的数字人语音交互方法，其特征在于，在所述自然语言处理模块对所述第一语音信息进行语义解析，得到所述第一语音信息的所述第一语义，包括：

4.根据权利要求2所述的数字人语音交互方法，其特征在于，所述数字人服务平台还包括：语料知识库；所述语料知识库中包括不同语义内容对应的回复语料；

5.根据权利要求4所述的数字人语音交互方法，其特征在于，所述在所述数字人服务平台中从所述语料知识库中确定与所述第一语义匹配的所述第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放，包括：

6.根据权利要求5所述的数字人语音交互方法，其特征在于，所述在所述智能语音模块将所述第二语义信息转换为所述第二语音信息，并将所述第二语音信息发送至所述辅助信息模块进行播放，包括：

7.根据权利要求1所述的数字人语音交互方法，其特征在于，所述移动终端配置有数字人应用程序；

8.一种数字人语音交互装置，其特征在于，应用于数字人移动终端全息投影系统，所述数字人移动终端全息投影系统至少包括：移动终端与数字人服务平台；其中，所述移动终端至少配置有用于在移动终端投放数字人的全息投影模块，以及用于收发语音信息的辅助信息模块；所述全息投影模块至少包括：多媒体处理芯片、光源模块和镜头模块，其中：该多媒体处理芯片设置于所述移动终端的主板，用于提供数字人的图像、视频、语音计算和处理中的至少一种；该光源模块设置于所述移动终端的镜头模块，可用于为所述数字人的成像提供光源；该镜头模块设置于所述移动终端的镜头模块，用于对所述光源模块发射出的光学进行控制和调整，实现光线的分化和重定向，以实现数字人的投影成像；所述数字人服务平台用于语音信息处理与回复，所述装置包括：

9.一种计算机设备，包括：包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。