CN111383642B

CN111383642B - 基于神经网络的语音应答方法、存储介质以终端设备

Info

Publication number: CN111383642B
Application number: CN201811614089.5A
Authority: CN
Inventors: 赵智宝
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2024-01-02
Anticipated expiration: 2038-12-27
Also published as: CN111383642A

Abstract

本发明公开了一种基于神经网络的语音应答方法、存储介质以终端设备，所述方法包括：当接收到用户输入的用户语音时，根据所述用户语音确定其对应的应答语音；将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列；根据所述表情特征序列确定所述应答语音对应的面部表情序列，并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列。本发明通过预设表情特征生成模型确定应答语音对应的表情特征序列，并根据所述表情特征序列对应的面部表情控制虚拟形象播放应答语音时的面部表情，使得应答语音以面部表情相对应，提高了面部表情的准确性和真实性，从而使得人机交互的真实感对话更加逼真和细腻。

Description

基于神经网络的语音应答方法、存储介质以终端设备

技术领域

本发明涉及语音交互技术领域，特别涉及一种基于神经网络的语音应答方法、存储介质以终端设备。

背景技术

随着人工智能时代的来临，基于AI的人机交互方式也越来越流行起来，其中，可视化语音应答成为人们关注的热点。可视化语音应答是通过虚拟形象播放应答语音的一种人机交互方式。目前，可视化语音应答虽然可以将普通用户与计算机，通过自然语言识别，理解，合成紧密的结合在一起。但是，当虚拟形象模拟真实人进行语音交互时，虚拟形象模拟的真人面部表情与真人面部表情偏差大，使得人机交互的真实感降低。

发明内容

鉴于现有技术的不足，本发明旨在提供一种基于神经网络的语音应答方法、存储介质以终端设备，以提高虚拟形象的面部表情的准确性。

本发明所采用的技术方案如下：

一种基于神经网络的语音应答方法，其包括：

当接收到用户输入的用户语音时，根据所述用户语音确定其对应的应答语音；

将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列；

根据所述表情特征序列确定所述应答语音对应的面部表情序列，并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列。

所述基于神经网络的语音应答方法，其中，所述将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列具体包括：

将所述应答语音转换到频域以得到其对应的第一频谱图，并将所述第一频谱图切分成时间序列；

将所述时间序列输入预设表情特征生成模型以获取相应的表情特征序列，其中，所述表情特征序列与应答语音按时间同步对应。

所述基于神经网络的语音应答方法，其中，所述根据所述表情特征序列确定所述应答语音对应的面部表情序列，并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括：

将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上，以得到所述应答语音对应的面部表情序列；

控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列，其中，所述面部表情序列与应答语音按时间轴同步。

所述基于神经网络的语音应答方法，其中，所述将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上，以得到所述应答语音对应的面部表情序列具体包括：

按照时间序列提取所述表情特征序列包含的各第一表情特征，其中，所述第一表情特征包括若干表情特征点；

对于每个第一表情特征将其包含的所有表情特征点均重定向至预设的虚拟形象的模型上，以得到所述应答语音对应的面部表情序列。

所述基于神经网络的语音应答方法，其中，所述第一表情特征包含的若干表情特征点均对应相同的时间点。

所述基于神经网络的语音应答方法，其中，所述控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括：

将得到的面部表情序列同步至虚拟形象的骨骼动画上，以得到应答语音对应的骨骼动画；

通过所述虚拟形象播放所述应答语音，并且按照时间轴同步播放所述骨骼动画。

所述基于神经网络的语音应答方法，其中，所述当接收到用户输入的用户语音时，根据所述用户语音确定其对应的应答语音之前包括：

采集文本语音信息，其中，所述文本语音信息包括语音信息以及图像信息；

提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合；

建立深度学习网络，并采用所述第二频谱图和表情特征集合对深度学习网络进行训练，以得到用于识别频谱图对应的第二表情特征的表情特征生成模型。

所述基于神经网络的语音应答方法，其中，所述提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合具体包括：

将所述语音信息转换到频域以得到对应的第二频谱图；

按照时间轴获取所述图像信息包括的各图像帧的第二表情特征，以得到图像信息对应的表情特征集合。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的基于神经网络的语音应答方法中的步骤。

一种终端设备，其包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的基于神经网络的语音应答方法中的步骤。

有益效果：与现有技术相比，本发明提供了一种基于神经网络的语音应答方法、存储介质以终端设备，所述方法包括：当接收到用户输入的用户语音时，根据所述用户语音确定其对应的应答语音；将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列；根据所述表情特征序列确定所述应答语音对应的面部表情序列，并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列。本发明通过预设表情特征生成模型确定应答语音对应的表情特征序列，并根据所述表情特征序列对应的面部表情控制虚拟形象播放应答语音时的面部表情，使得应答语音以面部表情相对应，提高了面部表情的准确性和真实性，从而使得人机交互的真实感对话更加逼真和细腻。

附图说明

图1为本发明提供的一种基于神经网络的语音应答方法的一个实施例的流程图。

图2为本发明提供的一种基于神经网络的语音应答方法的一个实施例中步骤S20的流程图。

图3为本发明提供的一种基于神经网络的语音应答方法的一个实施例中步骤S30的流程图。

图4为本发明提供的一种基于神经网络的语音应答方法的一个实施例中步骤S31的流程图。

图5为本发明提供的一种终端设备的一个实施例的结构原理图。

具体实施方式

本发明提供一种基于神经网络的语音应答方法、存储介质以终端设备，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

本实施例提供了一种基于神经网络的语音应答方法，如图1所示，所述方法包括：

S10、当接收到用户输入的用户语音时，根据所述用户语音确定其对应的应答语音。

具体地，所述用户语音可以是终端设备通过拾音器采集到用户实时输入的语音，也可以是外部设备通过网络发送至终端设备的语音等。所述应答语音用于与所述用户语音进行交互的语音，其可以是终端设备自身根据用户语音生成的，也可以是通过云端服务器生成并反馈至终端设备的语音。其中，所述终端设备为具有语音功能的终端设备，例如，智能手机等。

S20、将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列。

具体地，所述表情特征序列包含若干第一表情特征，并且所述表情特征序列是各第一表情特征按照其对应的应答语音的时间顺序进行排序得到的。也就是说，每个表情特征均与应答语音中的一个时刻相对应，应答语音中的每一时刻的语音均对应若干表情特征，以提高应答语音与面部表情的同步性。

同时在本实施例中，所述预设表情特征生成模型是以语音信息为输入数据，面部表情特征为输出数据的RNN双向表情特征生成模型。所述预设表情特征生成模型是通过对语音信息与面部表情特征的对应进行深度学习得到，在深度学习过程中，语音信息为输入数据，面部表情特征为样本元，通过将预设表情特征生成模型输入的面部表情特征与作为样本元的面部表情特征进行比对来对预设表情特征生成模型进行深度学习。相应的，所述当接收到用户输入的用户语音时，根据所述用户语音确定其对应的应答语音之前包括：

具体地，所述文本语音信息可以通过采用视频图像得到，所述视频图像包含语音以及人物形象的正面图。在获取到文本信息后，将所述语音信息包含的语音和图像信息包含的人体视频图像按照时间周进行关联。也就是说，图像信息包含的每个图像帧均对于一段语音，并且所述图像帧的帧时间与该段语音的播放时间相对应。相应的，所述提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合具体包括：将所述语音信息转换到频域以得到对应的第二频谱图；按照时间轴获取所述图像信息包括的各图像帧的第二表情特征，以得到图像信息对应的表情特征集合。其中，所述第二表情特征携带时间标识，通过所述时间标识可以确定其对应的语音。

同时在本实施例中，所述第二表情特征包括若干表情特征点，并且所述表情特征点包含表情特征标识以及位置信息。所述表情特征标识为面部位置的标识，例如，所述表情特征标识为鼻子，眼睛以及嘴巴等。各五官还可以进一步细分，例如，嘴巴可以细分为上嘴唇和下嘴唇等等，并且每个确定的部分均对应一个表情特征标识，并且各部分对应的表情特征标识不同。所述表情特征标识对应的位置信息为该表情特征对应的部位的位置坐标，根据所述位置坐标可以所述该表情特征对应的部位所处的位置。

进一步，所述预设的表情特征生成模型输出的表情特征序列是根据时间进行排序，那么作为预设的表情特征生成模型输入数据的应答语音，在输入表情特征生成模型之前需要转换为时间序列，以提高表情特征序列与应答语音在时间上的同步性。相应的，如图2所示，所述将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列具体包括：

S21、将所述应答语音转换到频域以得到其对应的第一频谱图，并将所述第一频谱图切分成时间序列；

S22、将所述时间序列输入预设表情特征生成模型以获取相应的表情特征序列，其中，所述表情特征序列与应答语音按时间同步对应。

具体地，所述应答语音转换到频域指的是将所述应答语音从时域转换到频域，并获取所述应答语音在频域上的第一频谱图，并且将所述频谱图切分为时间序列。其中，所述时间序列指的是将所述第一频谱图以时间划分轴进行划分，以得到若干子频谱图。所述若干子频谱图按照其对应的时间进行排序得到子频谱图序列，即时间序列。各子频谱图包含的时间长度均相等但各子频谱图对应的时间不同。此外，各子频谱图包含的时间长度可以根据预设表情特征生成模型的每个输入元的时间长度确定，以保证两者相等。

S30、根据所述表情特征序列确定所述应答语音对应的面部表情序列，并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列，其中，所述面部表情序列与应答语音按时间轴同步。

具体地，所述表情特征序列包含若干第一表情特征，并且各第一表情特征均包括若干表情特征点。其中，所述表情特征点的位置信息为二维坐标点。所述面部表情序列包含的各面部表情按时间与第一表情特征相对应，并且各面部表情为虚拟形象某一时间的面部表情，其包含的位置信息为三维坐标。也就说，需要将表情特征序列中的第一表情特征映射成三维的面部表情。其中，所述虚拟形象为预先配置用于呈现应答语音的形象，在本实施例中，所述虚拟形象优选为虚拟三维人，这样可以提高交互的真实性。

示例性地，如图3所示，所述根据所述表情特征序列确定所述应答语音对应的面部表情序列，并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括：

S31、将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上，以得所述应答语音对应的面部表情序列；

S32、控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列，其中，所述面部表情序列与应答语音按时间轴同步。

具体地，所述虚拟形象模型是预先建立，其为用于与用户进行语音交互。所述面部表情序列包含的各面板表情均为一个三维空间点的集合，其中，每个三维空间点对于面部的一个部位，并且三维空间点携带所述部位的标识。也就是说，将各第一表情特征重定向至虚拟形象模型上指的是将第一表情特征包含的各表情特征点重定向至虚拟形象模型上，得到其对应的三维空间点，并且所述三维空间点继承其对应的表情特征点的部位标识。相应的，如图4所示，所述将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上，以得所述应答语音对应的面部表情序列具体包括：

S311、按照时间序列提取所述表情特征序列包含的各第一表情特征，其中，所述第一表情特征包括若干表情特征点；

S312、对于每个第一表情特征将其包含的所有表情特征点均重定向至预设的虚拟形象的模型上，以得所述应答语音对应的面部表情序列。

具体地，对于每个第一表情特征将其包含的所有表情特征点均重定向至预设的虚拟形象的模型上得到第一表情特征对应的面部表情，所有第一表情特征对应的面部表情按照时间顺序排列生成所述面部表情序列。

此外，当生成面部表情序列之后，可以将面部表情序列同步至虚拟形象的骨骼动画，以骨骼动画的形式播放所述面部表情序列，并且面部表情序列播放的顺序与应答语音播放是顺序在时间上保持一直。相应的，所述根据得到的所有表情控制点生成所述应答语音对应的面部表情序列，并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括：将得到的所有表情控制点同步至虚拟形象的骨骼动画上，以得到应答语音对应的骨骼动画；通过所述虚拟形象播放所述应答语音，并且按照时间轴同步播放所述骨骼动画。

基于上述基于神经网络的语音应答方法，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的基于神经网络的语音应答方法中的步骤

本发明还提供了一种终端设备，如图5所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于神经网络的语音应答方法，其特征在于，其包括：

根据所述表情特征序列确定所述应答语音对应的面部表情序列，并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列；

所述将所述应答语音输入预设的表情特征生成模型以获取所述应答语音对应的表情特征序列具体包括：

将所述时间序列输入预设表情特征生成模型以获取相应的表情特征序列，其中，所述表情特征序列与应答语音按时间同步对应；

所述时间序列为若干子频谱图按照其对应的时间进行排序得到的子频谱图序列，所述若干子频谱图为所述第一频谱图以时间划分轴划分所得；

所述子频谱图包含的时间长度与预设表情特征生成模型的每个输入元的时间长度相等；

所述预设表情特征生成模型是以语音信息为输入数据，面部表情特征为输出数据的表情特征生成模型。

2.根据权利要求1所述基于神经网络的语音应答方法，其特征在于，所述根据所述表情特征序列确定所述应答语音对应的面部表情序列，并控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括：

3.根据权利要求2所述基于神经网络的语音应答方法，其特征在于，所述将所述表情特征序列中的各第一表情特征依次重定向至预设的虚拟形象模型上，以得到所述应答语音对应的面部表情序列具体包括：

4.根据权利要求3所述基于神经网络的语音应答方法，其特征在于，所述第一表情特征包含的若干表情特征点均对应相同的时间点。

5.根据权利要求2所述基于神经网络的语音应答方法，其特征在于，所述控制预设的虚拟形象播放所述应答语音且同步播放面部表情序列具体包括：

6.根据权利要求1所述基于神经网络的语音应答方法，其特征在于，所述当接收到用户输入的用户语音时，根据所述用户语音确定其对应的应答语音之前包括：

采集视频信息，其中，所述视频信息包括语音信息以及图像信息；

7.根据权利要求6所述基于神经网络的语音应答方法，其特征在于，所述提取所述语音信息对应的第二频谱图以及图像信息对应的表情特征集合具体包括：

将所述语音信息转换到频域以得到对应的第二频谱图；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～7任意一项所述的基于神经网络的语音应答方法中的步骤。

9.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的基于神经网络的语音应答方法中的步骤。