CN113555016A

CN113555016A - 语音交互方法、电子设备及可读存储介质

Info

Publication number: CN113555016A
Application number: CN202110704213.2A
Authority: CN
Inventors: 申俊伟; 李魁峰
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Beijing Fangjianghu Technology Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-10-26

Abstract

本发明提供一种语音交互方法、电子设备及可读存储介质，其中方法包括：获取用户的语音输入，并提取语音输入的梅尔倒谱系数特征，并基于梅尔倒谱系数特征，计算语音输入每帧的置信度；在基于所述置信度确定语音输入与预设唤醒词一致时，接收用户输入的语音服务指令，并将语音服务指令发送至服务器；接收服务器基于语音服务指令识别并下发的用户的指令意图；将指令意图转换为待执行指令，并基于待执行指令，执行对应的服务流程。本发明借助与服务器的数据交互及文本转语音TTS等核心技术，通过人机语音交互，使用户可以通过语音搜索入口获取目标服务，降低了对B端APP的学习成本，且极大地简化了作业场景操作流程，提高了服务效率。

Description

语音交互方法、电子设备及可读存储介质

技术领域

本发明涉及智能助手技术领域，尤其涉及一种语音交互方法、电子设备及可读存储介质。

背景技术

目前，在智能助手应用中，经纪人作业工具商家B端APP通常糅合了大量的作业工具及产品规则。但是，经纪人在查找特定信息和工具时，存在极高的学习成本和操作成本，尤其在即时通信(Instant Messaging,IM)场景，由于缺乏有效的交互工具，经纪人通常无法及时获取APP系统及产品规则的使用帮助，效率较低。

发明内容

本发明提供一种语音交互方法、电子设备及可读存储介质，用以解决现有技术中经纪人作业工具B端服务效率低、操作不便等问题的缺陷，实现更便利的服务并有效提高服务效率的目标。

本发明提供一种语音交互方法，应用于终端，包括：

获取用户的语音输入，并提取所述语音输入的梅尔倒谱系数特征，并基于所述梅尔倒谱系数特征，计算所述语音输入每帧的置信度；

在基于所述置信度确定所述语音输入与预设唤醒词一致时，接收用户输入的语音服务指令，并将所述语音服务指令发送至服务器；

接收所述服务器基于所述语音服务指令识别并下发的用户的指令意图；

将所述指令意图转换为待执行指令，并基于所述待执行指令，执行对应的服务流程。

根据本发明提供的一种语音交互方法，在基于所述置信度确定所述语音输入与所述预设唤醒词一致时，所述方法还包括：

弹出语音输入引导浮层，所述语音输入引导浮层用于引导用户输入所述语音服务指令。

根据本发明提供的一种语音交互方法，所述弹出语音输入引导浮层，包括：

对所述语音输入进行第一预设数据处理，提取所述语音输入的梅尔倒谱系数特征；

基于所述梅尔倒谱系数特征，利用目标全连接深度神经网络模型，计算所述语音输入每帧的置信度；

通过比较所述置信度与预设的唤醒阈值，判断所述语音输入与所述预设唤醒词是否一致，若一致，则弹出所述语音输入引导浮层。

根据本发明提供的一种语音交互方法，所述计算所述语音输入每帧的置信度，包括：

基于所述梅尔倒谱系数特征，利用目标全连接深度神经网络模型，计算所述语音输入每帧的标签后验概率；

计算所述标签后验概率的平滑度，获取平滑后的标签后验概率，并基于所述平滑后的标签后验概率，计算所述语音输入中每帧的置信度。

根据本发明提供的一种语音交互方法，所述基于所述待执行指令，执行对应的服务流程，包括：

基于所述待执行指令向所述服务端请求目标服务；

接收所述服务端通过服务注册方式处理所述待执行指令获取并下发的目标服务的结果，并将所述目标服务的结果进行展示。

本发明还提供一种语音交互装置，包括：

特征提取与计算模块，用于获取用户的语音输入，并提取所述语音输入的梅尔倒谱系数特征，并基于所述梅尔倒谱系数特征，计算所述语音输入每帧的置信度；

服务唤醒与请求模块，用于在基于所述置信度确定所述语音输入与预设唤醒词一致时，接收用户输入的语音服务指令，并将所述语音服务指令发送至服务器；

接收模块，用于接收所述服务器基于所述语音服务指令识别并下发的用户的指令意图；

服务执行模块，用于将所述指令意图转换为待执行指令，并基于所述待执行指令，执行对应的服务流程。

根据本发明提供的一种语音交互装置，所述服务唤醒与请求模块，还用于：

根据本发明提供的一种语音交互装置，所述服务唤醒与请求模块，在用于所述弹出语音输入引导浮层时，用于：

根据本发明提供的一种语音交互装置，所述服务唤醒与请求模块，在用于所述计算所述语音输入每帧的置信度时，用于：

根据本发明提供的一种语音交互装置，所述服务执行模块，在用于所述基于所述待执行指令，执行对应的服务流程时，用于：

基于所述待执行指令向所述服务端请求目标服务；

本发明还提供一种语音交互方法，应用于服务器，包括：

接收终端在根据用户的语音输入的梅尔倒谱系数特征计算所述语音输入每帧的置信度以进行唤醒词的一致性校验后发送的用户的语音服务指令，并采用基于RNN+CTC的声学模型，对所述语音服务指令进行语音识别，获取所述语音服务指令对应的文本指令；

基于所述文本指令，获取用户的指令意图，并将所述指令意图发送给所述终端；

接收所述终端基于所述指令意图发送的待执行指令，并基于所述待执行指令，执行对应的服务流程。

根据本发明提供的一种语音交互方法，所述对所述语音服务指令进行语音识别，包括：

对所述语音服务指令进行数据预处理，获取有效语音信息；

利用基于Kaldi语音识别工具的目标语言模型以及RNN+CTC声学模型，将所述有效语音信息转换为对应的文本信息，作为所述文本指令；

其中，所述目标语言模型和所述RNN+CTC声学模型为预先通过标注设定数量的目标行业领域的语音数据构建训练样本，并利用所述训练样本进行循环迭代训练获取的；

或者，

所述基于所述待执行指令，执行对应的服务流程，包括：

接收所述终端基于所述待执行指令发送的服务请求，所述服务请求用于向所述服务端请求目标服务；

通过服务注册方式检索所述待执行指令关联的目标服务，并基于所述目标服务处理所述待执行指令，获取目标服务的结果；

将所述目标服务的结果发送给所述终端。

本发明还提供一种语音交互装置，包括：

语音识别模块，用于接收终端在根据用户的语音输入的梅尔倒谱系数特征计算所述语音输入每帧的置信度以进行唤醒词的一致性校验后发送的用户的语音服务指令，并采用基于RNN+CTC的声学模型，对所述语音服务指令进行语音识别，获取所述语音服务指令对应的文本指令；

语义分析模块，用于基于所述文本指令，获取用户的指令意图，并将所述指令意图发送给所述终端；

服务执行模块，用于接收所述终端基于所述指令意图发送的待执行指令，并基于所述待执行指令，执行对应的服务流程。

根据本发明提供的一种语音交互装置，

所述语音识别模块，在用于所述对所述语音服务指令进行语音识别时，用于：

对所述语音服务指令进行数据预处理，获取有效语音信息；

或者，

所述服务执行模块，在用于所述基于所述待执行指令，执行对应的服务流程时，用于：

将所述目标服务的结果发送给所述终端。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述处理器执行所述程序或指令时，实现如上述任一种所述的语音交互方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有程序或指令，所述程序或指令被计算机执行时，实现如上述任一种所述的语音交互方法的步骤。

本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，实现如上述任一种所述的语音交互方法的步骤。

本发明提供的语音交互方法、电子设备及可读存储介质，借助与服务器的数据交互以及文本转语音TTS等核心技术，通过人机语音交互，用户可以通过语音搜索入口搜索房源、客源、标准作业程序SOP、系统工具及话术等相关信息，降低了经纪人对B端APP的学习成本。同时，为用户提供了更高效、简单的交互手段，用户可以在双手不方便的场景下继续作业，极大地简化了作业场景操作流程，并且提供了更短的交互链路，提高了服务效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的语音交互方法的流程示意图之一；

图2为根据本发明提供的语音交互方法进行交互的客户端界面示意图；

图3为本发明提供的语音交互装置的结构示意图之一；

图4为本发明提供的语音交互方法的流程示意图之二；

图5为本发明提供的语音交互装置的结构示意图之二；

图6为本发明提供的语音交互方法的流程示意图之三；

图7为本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对现有技术中经纪人作业工具B端服务效率低、操作不便等的问题，借助自动语音识别ASR、自然语言处理NLP及文本转语音TTS等核心技术，通过人机语音交互，用户可以通过语音搜索入口搜索房源、客源、标准作业程序SOP、系统工具及话术等相关信息，降低了经纪人对B端APP的学习成本。同时，为用户提供了更高效、简单的交互手段，用户可以在双手不方便的场景下继续作业，极大地简化了作业场景操作流程，并且提供了更短的交互链路，提高了服务效率。以下将结合附图，具体通过多个实施例对本发明进行展开说明和介绍。

图1为本发明提供的语音交互方法的流程示意图之一，该方法可由终端执行，如图1所示，该方法包括：

S101，获取用户的语音输入，并提取所述语音输入的梅尔倒谱系数特征，并基于所述梅尔倒谱系数特征，计算所述语音输入每帧的置信度。

可以理解为，本发明在利用终端实现人机语音交互从而为用户提供相应的服务时，首先需要唤醒终端的服务状态。具体的，用户可以通过对终端输入语音输入，来唤醒终端的语音服务。例如，用户可以在IM场景下对终端输入相应的语音唤醒词如“小X小X”或者“你好小X”等，当用户喊出的语音唤醒词与终端预设唤醒词一致时，命中唤醒词，唤醒终端的服务状态。

其中，语音唤醒可以基于tensorflow的深度神经网络(Deep Neural Network)，通过一系列数据处理实现。具体的，可以先接收用户通过语音输入设备输入的语音输入，再提取接收到的该语音输入的梅尔倒谱系数特征，然后基于该梅尔倒谱系数特征，计算语音输入的每帧的置信度。

S102，在基于所述置信度确定所述语音输入与预设唤醒词一致时，接收用户输入的语音服务指令，并将所述语音服务指令发送至服务器。

可以理解为，在获取用户的语音输入每帧的置信度的基础上，可以比较语音输入每帧的置信度与预设唤醒词对应的唤醒阈值，并根据比较结果确定用户的语音输入与预设唤醒词是否一致，在确定一致时，可以唤醒相应的语音服务。例如，当语音输入每帧的置信度均符合与唤醒阈值比较的标准时，确定用户的语音输入与预设唤醒词一致，此时可以开启终端的服务流程。

在语音服务已经唤醒的情况下，用户可以通过相应的语音输入设备(如麦克风)，输入需要客户端APP提供服务的语音请求，该请求可称为是语音服务指令。例如，用户可以通过语音输入“搜索某某小区某某朝向某某面积的二手房源”或“强提醒为什么不生效”等，这些语音即为用户向客户端APP发出的语音服务指令。

其中，可以将语音服务指令按照不同的结果展示方式，分为三种类型：(1)结果为页面展示方式的指令：如搜索“某某小区某某朝向某某面积的二手房源”，结果会从房源系统找到匹配的房源结果返回并弹窗展示，经纪人可以选择符合预期的结果内容勾选，发送给客户；(2)结果为语音播报方式的指令，如搜索“强提醒为什么不生效”，“当前APP版本”等，结果会已语音播放的方式告知用户；(3)结果为跳转页面方式的指令：如搜索“拨打对方语音电话”，“拨打可与语音电话”，“打开房贷计算器”等，会跳转到客户端响应页面。

S103，接收所述服务器基于所述语音服务指令识别并下发的用户的指令意图。

可以理解为，在将用户的语音服务指令发送至服务器的基础上，服务器可以对该语音服务指令进行相应的处理，最终识别出用户的指令意图，并将该指令意图反馈给终端。在服务器下发该用户的指令意图后，终端可以接收到该指令意图。

其中，指令意图表示用户所发出的语音服务指令所包含的真实目的、目标等，例如，上述“搜索某某小区某某朝向某某面积的二手房源”，对应的用户的真实意图就可能是到数据库或者网络上搜索某某小区某某朝向某某面积的二手房源相关的一些信息，如图片、视频、价格、户型、居室及周边配套等，并将搜索到的这些信息反馈给用户。

S104，将所述指令意图转换为待执行指令，并基于所述待执行指令，执行对应的服务流程。

可以理解为，在挖掘到用户的真实意图也即指令意图的基础上，可以采用文本转语音(Text To Speech,TTS)技术，将文本形式的用户意图转换成语音的形式，转换后得到的语音可称为是待执行指令。之后，可以利用客户端APP按照该待执行指令访问相应的服务端，以执行相应的服务流程，并最终可以将服务结果反馈给用户。

例如，如图2所示，为根据本发明提供的语音交互方法进行交互的客户端界面示意图，当点击输入框按钮或者语音输入预设唤醒词时，弹出语音输入引导浮层，引导用户正确输入语音服务指令，并最终根据不同的语音服务指令的类型，跳转到不同的服务流程，展示不同的反馈结果。

其中，TTS是人机对话的一部分，其宗旨是让机器能够输出人类语言，通过神经网络的设计，把文字智能地转化为自然语音流。

本发明提供的语音交互方法，借助与服务器的数据交互以及文本转语音TTS等核心技术，通过人机语音交互，用户可以通过语音搜索入口搜索房源、客源、标准作业程序SOP、系统工具及话术等相关信息，降低了经纪人对B端APP的学习成本。同时，为用户提供了更高效、简单的交互手段，用户可以在双手不方便的场景下继续作业，极大地简化了作业场景操作流程，并且提供了更短的交互链路，提高了服务效率。

其中，根据上述各实施例提供的语音交互方法可选地，在基于所述置信度确定所述语音输入与所述预设唤醒词一致时，所述方法还包括：弹出语音输入引导浮层，所述语音输入引导浮层用于引导用户输入所述语音服务指令。

具体而言，本发明在会话详情页，如IM作业场景会话详情页下，实时监听麦克风的语音输入，并获取语音识别信息。同时将识别到的信息与预设唤醒词进行比较，若二者一致，则相应的语音交互会被唤醒，当用户输入语音服务指令时，会执行对应的语音交互流程。

否则，无法进入正常的语音交互流程。例如，可以停止采集用户的语音输入，或者在采集到用户的语音输入后不执行相应的语音交互流程，并提示相应的语音交互未被唤醒，不能正常提供语音交互。

可选的，在语音交互被唤醒后，可以在用户端界面弹出一语音输入引导浮层，该语音输入引导浮层中会向用户展示正确输入语音服务指令的操作过程，以引导用户更快速便捷的进入到相应语音交互流程。

例如，在IM作用场景下，预设唤醒词设定为“小X小X”或者“你好小X”，则进入IM会话详情页，开始监听麦克风语音输入，当麦克风输入内容被识别为“小X小X”或者“你好小X”时，命中唤醒词，弹出语音输入引导浮层，引导经纪人输入咨询内容。

本发明通过设置语音唤醒限制，当用户在IM会话详情页喊出预设唤醒词，如“小X小X”或者“你好小X”时，唤起语音输入浮层，经纪人输入语音指令提示结束后，经纪人可以语音说出自己的问题，通过语音或页面交互获取答案，能够有效避免我操作，可靠性更高。

其中，根据上述各实施例提供的语音交互方法可选地，所述弹出语音输入引导浮层，包括：对所述语音输入进行第一预设数据处理，提取所述语音输入的梅尔倒谱系数特征；基于所述梅尔倒谱系数特征，利用目标全连接深度神经网络模型，计算所述语音输入每帧的置信度；通过比较所述置信度与预设的唤醒阈值，判断所述语音输入与所述预设唤醒词是否一致，若一致，则弹出所述语音输入引导浮层。

可以理解为，本发明的语音唤醒流程基于tensorflow的深度神经网络(DeepNeural Network,DNN)实现。具体的，在语音唤醒阶段，通过对用户的语音输入进行包括预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组以及拼帧的第一预设数据处理，提取语音输入的特征，该特征具体可以是梅尔倒谱系数特征。可以理解，梅尔倒谱系数特征是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性。

之后，将提取的梅尔倒谱系数特征输入到预先搭建的目标全连接深度神经网络模型中，并通过目标全连接深度神经网络模型根据该梅尔倒谱系数特征计算数据帧标签的后验概率，最终计算出计算语音输入中每帧的置信度。

最后，将计算得到的置信度与预设的唤醒阈值进行比较，也即，将语音输入中每帧的置信度分别与唤醒阈值进行比较，以判断每帧的置信度是否均符合预设标准，并根据语音输入中各帧的比较结果判断用户的语音输入与预设唤醒词是否一致。若判断出语音输入中每帧的置信度均符合预设标准，则认为用户的语音输入与预设唤醒词一致，并唤醒语音交互服务，同时弹出所述语音输入引导浮层。

其中，目标全连接深度神经网络模型是标准的全连接网络，包含k层隐层，每层隐层包含n个节点和RELU作为激活函数，最后一层通过softmax得到每个标签的后验概率。

本发明基于声音是人类最天然的交流方式，语音交互对用户而言是更本能的操作体验这一特性，借助语音唤醒及文本转语音TTS等技术，简化经纪人IM作业场景交互流程，提升了经纪人作业效率。

其中，根据上述各实施例提供的语音交互方法可选地，所述计算所述语音输入每帧的置信度，包括：基于所述梅尔倒谱系数特征，利用目标全连接深度神经网络模型，计算所述语音输入每帧的标签后验概率；计算所述标签后验概率的平滑度，获取平滑后的标签后验概率，并基于所述平滑后的标签后验概率，计算所述语音输入中每帧的置信度。

可以理解为，本发明在根据提取的梅尔倒谱系数特征计算语音输入每帧的置信度时，预先会收集一定量的训练样本，并通过对训练样本进行包括预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组及拼帧的第一预设数据处理的特征提取，搭建并训练全连接神经网络的模型，得到目标全连接深度神经网络模型。

之后，将由用户的语音输入提取的梅尔倒谱系数特征输入目标全连接深度神经网络模型，并由该模型通过内部运算得到语音输入每帧的标签后验概率。

再之后，对每帧的标签后验概率进行平滑度计算，得到基于帧的标签后验概率的平滑度以及平滑后的标签后验概率。其中，平滑度计算公式如下：

式中，p'_ij表示第j帧的第i个标签的平滑后验概率，p_ik表示第k帧的第i个标签的概率，k标识起始位置坐标。

最后，基于帧的标签后验概率的平滑度，计算帧基于平滑后的后验概率的置信度。其中，置信度计算公式如下：

式中，confidence表示第j帧的置信度，p_ik表示第k帧的第i个标签的概率。

在上述平滑度和置信度计算的基础上，本发明还可以通过每一帧对应的置信度与唤醒阈值比较，判断是否唤醒对应的语音交互。其中，唤醒阈值是人为设置的常量值，通过将其与计算得到的置信度比较，确定是否唤醒语音交互。例如，假设0是完全不匹配，1是完全匹配，可以设置0.5位阈值，标识置信度为0.5则标识满足匹配。

其中，根据上述各实施例提供的语音交互方法可选地，所述基于所述待执行指令，执行对应的服务流程，包括：基于所述待执行指令向所述服务端请求目标服务；接收所述服务端通过服务注册方式处理所述待执行指令获取并下发的目标服务的结果，并将所述目标服务的结果进行展示。

可以理解为，本发明在基于待执行指令执行对应的服务流程时，可以先将服务器识别到的指令意图转换为待执行指令。之后，终端通过待执行指令请求服务端，服务端通过服务注册方式来处理指令信息，并基于业务服务与信令集合的对应关系，通过指令找到对应服务，获取结果并返回到终端。具体的，本发明可以将逻辑处理结果通过TTS语音播报给经纪人或者UI弹窗展示结果。

其中，终端是指应用程序APP本身，整个系统会封装成SDK供APP依赖，SDK收到的信令会交给APP来处理。

另外，业务服务与信令集合的对应关系中，业务是按使用场景划分的，比如房源业务、客源业务、搜索业务等。每个业务都会分配一个根信令值，比如客源对应：lianjia://customer，该业务下不同动作对应具体信令，如搜索房源：lianjia://customer/search/name＝xxx。

本发明借助TTS等核心能力，通过人机语音交互，打造经纪人的语音助手，极大地简化操作流程，缩短操作路径，重塑传统文字作业场景，创造核心业务价值。

基于相同的发明构思，本发明根据上述各终端侧的方法实施例还提供一种语音交互装置，该装置用于在上述各终端侧的方法实施例中实现语音交互。因此，在上述各终端侧的方法实施例的语音交互方法中的描述和定义，可以用于本发明中各个执行模块的理解，具体可参考上述各终端侧方法实施例，此处不在赘述。

根据本发明的一个实施例，语音交互装置的结构如图3所示，为本发明提供的语音交互装置的结构示意图之一，该装置可以用于实现上述各终端侧的方法实施例中的语音交互，该装置包括：特征提取与计算模块301、服务唤醒与请求模块302、接收模块303和服务执行模块304。其中：

特征提取与计算模块301用于获取用户的语音输入，并提取所述语音输入的梅尔倒谱系数特征，并基于所述梅尔倒谱系数特征，计算所述语音输入每帧的置信度；服务唤醒与请求模块302用于在基于所述置信度确定所述语音输入与预设唤醒词一致时，接收用户输入的语音服务指令，并将所述语音服务指令发送至服务器；接收模块303用于接收所述服务器基于所述语音服务指令识别并下发的用户的指令意图；服务执行模块304用于将所述指令意图转换为待执行指令，并基于所述待执行指令，执行对应的服务流程。

具体而言，在利用终端实现人机语音交互从而为用户提供相应的服务时，特征提取与计算模块301需要接收用户的语音输入，并根据该语音输入通过特征提取进行语音输入每帧的置信度计算。

其中，语音唤醒可以基于tensorflow的深度神经网络(Deep Neural Network)，通过一系列数据处理实现。具体的，特征提取与计算模块301可以接收用户通过语音输入设备输入的语音输入，之后提取接收到的语音输入的梅尔倒谱系数特征，最后基于该梅尔倒谱系数特征，计算语音输入的每帧的置信度。

在获取用户的语音输入每帧的置信度的基础上，服务唤醒与请求模块302可以比较每帧的置信度与预设唤醒词对应的唤醒阈值，并根据比较结果确定用户的语音输入与预设唤醒词是否一致，在确定一致时，可以唤醒相应的语音服务。例如，当语音输入每帧的置信度均符合与唤醒阈值比较的标准时，确定用户的语音输入与预设唤醒词一致，此时可以开启终端的服务流程。

在语音交互已经唤醒的情况下，用户可以通过相应的语音输入设备(如麦克风)，输入需要客户端APP提供服务的语音请求，该请求可称为是语音服务指令。服务唤醒与请求模块302通过实时监听语音输入设备采集的输入信号，获取用户的语音服务指令，并将其发送到服务器，以使得服务器可以根据该语音服务指令确定用户发出语音指令的真实意图，可称为是用户的指令意图。

之后，接收模块303可以从服务器获取到该指令意图。其中，指令意图表示用户所发出的语音服务指令所包含的真实目的、目标等，例如，上述“搜索某某小区某某朝向某某面积的二手房源”，对应的用户的真实意图就可能是到数据库或者网络上搜索某某小区某某朝向某某面积的二手房源相关的一些信息，如图片、视频、价格、户型、居室及周边配套等，并将搜索到的这些信息反馈给用户。

最后，在挖掘到用户的真实意图也即指令意图的基础上，服务执行模块304可以采用文本转语音TTS技术，将文本形式的用户意图转换成语音的形式，转换后得到的语音可称为是待执行指令。之后，服务执行模块304可以利用客户端APP按照该待执行指令访问相应的服务端，以执行相应的服务流程，并最终可以将服务结果反馈给用户。

本发明提供的语音交互装置，借助与服务器的数据交互以及文本转语音TTS等核心技术，通过人机语音交互，用户可以通过语音搜索入口搜索房源、客源、标准作业程序SOP、系统工具及话术等相关信息，降低了经纪人对B端APP的学习成本。同时，为用户提供了更高效、简单的交互手段，用户可以在双手不方便的场景下继续作业，极大地简化了作业场景操作流程，并且提供了更短的交互链路，提高了服务效率。

可选地，本发明的语音交互装置中，所述服务唤醒与请求模块还用于：

可选地，所述服务唤醒与请求模块，在用于所述弹出语音输入引导浮层时，用于：

可选地，所述服务唤醒与请求模块，在用于所述计算所述语音输入每帧的置信度时，用于：

可选地，所述服务执行模块，在用于所述基于所述待执行指令，执行对应的服务流程时，用于：

基于所述待执行指令向所述服务端请求目标服务；

可以理解的是，本发明中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且，本发明的语音交互装置利用上述各程序模块，能够实现上述各终端侧方法实施例的语音交互流程，在用于实现上述各终端侧方法实施例中的语音交互时，本发明的装置产生的有益效果与对应的上述各终端侧方法实施例相同，可以参考上述各终端侧方法实施例，此处不再赘述。

本发明还提供一种语音交互方法，该交互方法通过客户终端与服务器的交互和共同工作完成语音交互，其中客户终端是基于上述各终端侧的语音交互方法实现语音交互的。如图4所示，为本发明提供的语音交互方法的流程示意图之二，该方法可由服务器执行，如图4所示，该方法包括：

S401，接收终端在根据用户的语音输入的梅尔倒谱系数特征计算所述语音输入每帧的置信度以进行唤醒词的一致性校验后发送的用户的语音服务指令，并采用基于RNN+CTC的声学模型，对所述语音服务指令进行语音识别，获取所述语音服务指令对应的文本指令。

可以理解为，在用户需要使用相应的语音服务时，可以通过语音输入设备向用户终端输入语音输入，终端则可以接收用户的语音输入，再提取接收到的该语音输入的梅尔倒谱系数特征，然后基于该梅尔倒谱系数特征，计算语音输入的每帧的置信度。之后，终端通过比较语音输入每帧的置信度与预设唤醒词对应的唤醒阈值，确定用户的语音输入与预设唤醒词是否一致，并在确定一致时，唤醒相应的语音服务。再之后，终端可以接收用户通过相应的语音输入设备(如麦克风)输入的需要客户端APP提供服务的语音请求，并将该请求上传服务器，该请求可称为是语音服务指令。在终端根据上述各终端侧方法实施例获取用户的语音服务指令并上传后，本发明可以接收到终端发送的该语音服务指令。

之后，可以借助自动语音识别(Automatic Speech Recognition,ASR)技术，采用基于Kaldi语音识别工具的目标语言模型以及RNN+CTC声学模型，将采集到的语音服务指令转换成对应的文本内容，则该文本内容可称为是文本指令。其中，ASR技术是一种可以将人的语音转换为文本的技术，在本发明中ASR可以将语音格式的语音服务指令转换为文本格式的文本指令。

S402，基于所述文本指令，获取用户的指令意图，并将所述指令意图发送给所述终端。

可以理解为，在对用户的语音服务指令进行语音识别处理得到对应的文本指令后，可以采用自然语言处理(Natural Language Processing,NLP)技术，来对文本指令进行语义、信息、情感等的分割和分析，确定用户发出语音指令的真实意图，可称为是用户的指令意图。

例如，上述“搜索某某小区某某朝向某某面积的二手房源”，对应的用户的真实意图就可能是到数据库或者网络上搜索某某小区某某朝向某某面积的二手房源相关的一些信息，如图片、视频、价格、户型、居室及周边配套等，并将搜索到的这些信息反馈给用户。

其中，自然语言处理是将语音识别到的人类自然语言转化成机器能够识别的机器语言，也即是非语言格式的数据，再利用机器运算，包括语义分析、信息抽取、情感分析以及文本挖掘等，确定自然语言真实的语义信息。本发明中，NLP可以根据文本指令，通过语义分析，识别出用户的指令意图。

S403，接收所述终端基于所述指令意图发送的待执行指令，并基于所述待执行指令，执行对应的服务流程。

可以理解为，在本发明根据上述步骤基于用户的语音服务指令识别出用户的指令意图并下发给终端后，终端可以将服务器识别到的指令意图转换为待执行指令。之后，终端通过待执行指令请求服务端，本发明可以根据终端的请求，通过服务注册方式来处理指令信息，并基于业务服务与信令集合的对应关系，通过指令找到对应服务，获取结果并返回到终端。

本发明提供的语音交互方法，借助与终端的数据交互以及自动语音识别ASR和自然语言处理NLP等核心技术，通过人机语音交互，用户可以通过语音搜索入口搜索房源、客源、标准作业程序SOP、系统工具及话术等相关信息，降低了经纪人对B端APP的学习成本。同时，为用户提供了更高效、简单的交互手段，用户可以在双手不方便的场景下继续作业，极大地简化了作业场景操作流程，并且提供了更短的交互链路，提高了服务效率。

其中，根据上述各实施例提供的语音交互方法可选地，所述对所述语音服务指令进行语音识别，包括：对所述语音服务指令进行数据预处理，获取有效语音信息；利用基于Kaldi语音识别工具的目标语言模型以及RNN+CTC声学模型，将所述有效语音信息转换为对应的文本信息，作为所述文本指令。

其中，所述目标语言模型和所述RNN+CTC声学模型为预先通过标注设定数量的目标行业领域的语音数据构建训练样本，并利用所述训练样本进行循环迭代训练获取的。

可以理解为，本发明中用户通过语音输入欲咨询内容，也即语音服务指令，用户端APP通过语音识别服务器，将语音内容转换为文本内容。具体的，先对语音服务指令进行数据预处理，包括进行数据清洗去除噪声数据、进行去重处理消除冗余以及进行归一化处理消除数据差异等，得到有效语音信息。之后，使用Kaldi工具，通过大量标注的房产行业领域的语音数据，训练声学模型RNN+CTC，并最终通过声学模型和语言模型，将有效语音信息识别成文字。

其中，声学模型的任务是给定文字后，判断这些文字发出目标语音的概率。具体利用预设的词典(lexicon)，把单词串转换成音素串，确定每个单词应该发什么音，也即确定文字对应的语音。语言模型一般利用链式法则，把一个句子的概率拆解成其中每个词的概率之积。

其中，根据上述各实施例提供的语音交互方法可选地，所述对所述文本指令进行自然语言处理，包括：利用基于神经网络的目标自然语言处理模型，对所述文本指令分别进行语义分析、信息抽取、情感分析、文本挖掘以及信息检索的数据处理，并输出所述语音服务指令对应的语义信息作为所述指令意图。

具体的，将语音识别后的文本，也即文本指令交由基于神经网络的NLP服务端分别进行语义分析、信息抽取、情感分析、文本挖掘和信息检索处理后，获得经纪人咨询的意图。

其中，根据上述各实施例提供的语音交互方法可选地，所述基于所述待执行指令，执行对应的服务流程，包括：接收所述终端基于所述待执行指令发送的服务请求，所述服务请求用于向所述服务端请求目标服务；通过服务注册方式检索所述待执行指令关联的目标服务，并基于所述目标服务处理所述待执行指令，获取目标服务的结果；将所述目标服务的结果发送给所述终端。

可以理解为，在本发明根据上述各服务器侧方法实施例，基于用户的语音服务指令识别出用户的指令意图并下发给终端后，终端可以将服务器识别到的指令意图转换为待执行指令。并且，终端可以通过该待执行指令向服务端请求服务。

在终端上传待执行指令以请求相应的服务后，本发明可以根据终端的该请求，通过服务注册方式来处理指令信息，并基于业务服务与信令集合的对应关系，通过指令找到对应的服务，并获取服务结果返回到终端。

本发明通过与终端的数据交互，使得用户可以通过人机语音交互，实现语音助手，从而可以极大地简化操作流程，缩短操作路径，重塑传统文字作业场景，创造核心业务价值。

基于相同的发明构思，本发明根据上述各服务器侧的方法实施例还提供一种语音交互装置，该装置用于在上述各服务器侧的方法实施例中实现语音交互。因此，在上述各服务器侧的方法实施例的语音交互方法中的描述和定义，可以用于本发明中各个执行模块的理解，具体可参考上述各服务器侧方法实施例，此处不在赘述。

根据本发明的一个实施例，语音交互装置的结构如图5所示，为本发明提供的语音交互装置的结构示意图之二，该装置可以用于实现上述各服务器侧的方法实施例中的语音交互，该装置包括：语音识别模块501、语义分析模块502和服务执行模块503。

其中，语音识别模块501用于接收终端在根据用户的语音输入的梅尔倒谱系数特征计算所述语音输入每帧的置信度以进行唤醒词的一致性校验后发送的用户的语音服务指令，并采用基于RNN+CTC的声学模型，对所述语音服务指令进行语音识别，获取所述语音服务指令对应的文本指令；语义分析模块502用于基于所述文本指令，获取用户的指令意图，并将所述指令意图发送给所述终端；服务执行模块503用于接收所述终端基于所述指令意图发送的待执行指令，并基于所述待执行指令，执行对应的服务流程。

具体而言，在用户需要使用相应的语音服务时，可以通过语音输入设备向用户终端输入语音输入，终端则可以接收用户的语音输入，再提取接收到的该语音输入的梅尔倒谱系数特征，然后基于该梅尔倒谱系数特征，计算语音输入的每帧的置信度。之后，终端通过比较语音输入每帧的置信度与预设唤醒词对应的唤醒阈值，确定用户的语音输入与预设唤醒词是否一致，并在确定一致时，唤醒相应的语音服务。再之后，终端可以接收用户通过相应的语音输入设备(如麦克风)输入的需要客户端APP提供服务的语音请求，并将该请求上传服务器，该请求可称为是语音服务指令。

在终端获取用户的语音服务指令并上传后，语音识别模块501可以接收到终端发送的该语音服务指令。之后，语音识别模块501可以借助自动语音识别(Automatic SpeechRecognition,ASR)技术，采用基于Kaldi语音识别工具的目标语言模型以及RNN+CTC声学模型，将采集到的语音服务指令转换成对应的文本内容，则该文本内容可称为是文本指令。其中，ASR技术是一种可以将人的语音转换为文本的技术。

再之后，语义分析模块502可以从语音识别模块501获取处理得到对应的文本指令，并可以采用自然语言处理(Natural Language Processing,NLP)技术，来对文本指令进行语义、信息、情感等的分割和分析，确定用户发出语音指令的真实意图。其中，该真实意图可称为是用户的指令意图，且在获取用户的指令意图后，语义分析模块502可以将其发送给终端。

最后，在终端根据用户的指令意图得到待执行指令，并通过待执行指令向上请求服务时，服务执行模块503可以根据终端的请求，通过服务注册方式来处理指令信息，并基于业务服务与信令集合的对应关系，通过指令找到对应服务，获取结果并返回到终端。

本发明提供的语音交互装置，借助与终端的数据交互以及自动语音识别ASR和自然语言处理NLP等核心技术，通过人机语音交互，用户可以通过语音搜索入口搜索房源、客源、标准作业程序SOP、系统工具及话术等相关信息，降低了经纪人对B端APP的学习成本。同时，为用户提供了更高效、简单的交互手段，用户可以在双手不方便的场景下继续作业，极大地简化了作业场景操作流程，并且提供了更短的交互链路，提高了服务效率。

可选地，所述语音识别模块，在用于所述对所述语音服务指令进行语音识别时，用于：

对所述语音服务指令进行数据预处理，获取有效语音信息；

可选地，所述语义分析模块，在用于所述对所述文本指令进行自然语言处理时，用于：

利用基于神经网络的目标自然语言处理模型，对所述文本指令分别进行语义分析、信息抽取、情感分析、文本挖掘以及信息检索的数据处理，并输出所述语音服务指令对应的语义信息作为所述指令意图。

将所述目标服务的结果发送给所述终端。

可以理解的是，本发明中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且，本发明的语音交互装置利用上述各程序模块，能够实现上述各服务器侧方法实施例的语音交互流程，在用于实现上述各服务器侧方法实施例中的语音交互时，本发明的装置产生的有益效果与对应的上述各服务器侧方法实施例相同，可以参考上述各服务器侧方法实施例，此处不再赘述。

为进一步说明本发明的技术方案，图6示出了基于数据交互实现本发明语音交互方法的流程示意图，为本发明提供的语音交互方法的流程示意图之三，包括：

设计通过一定的激活程序激活语音交互，之后终端正常的采集用户输入的语音服务指令，并将其上传到服务器。

之后，服务器对接收的语音服务指令执行正常的语音交互的语音识别ASR和自然语言处理NLP，得到用户对应的指令意图并下发给终端。

再之后，终端对由服务器获取的指令意图进行文本转语音TTS处理，得到对应的待执行指令，并根据得到的待执行指令向服务器请求服务。

最后，服务器在接收到终端基于待执行指令的服务请求后，通过服务注册方式来处理指令信息，并基于业务服务与信令集合的对应关系，通过指令找到对应服务，获取结果并返回到终端，完成相应的语音交互流程。

作为本发明的又一个方面，本实施例根据上述各实施例还提供一种电子设备，该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的程序或指令，该处理器执行该程序或指令时，实现如上述各实施例所述的语音交互方法的步骤。

进一步的，本发明的电子设备还可以包括通信接口和总线。参考图7，为本发明提供的电子设备的实体结构示意图，包括：至少一个存储器701、至少一个处理器702、通信接口703和总线704。

其中，存储器701、处理器702和通信接口703通过总线704完成相互间的通信，通信接口703用于该电子设备与终端麦克风设备之间的信息传输；存储器701中存储有可在处理器702上运行的程序或指令，处理器702执行该程序或指令时，实现如上述各实施例所述的语音交互方法的步骤。

可以理解为，该电子设备中至少包含存储器701、处理器702、通信接口703和总线704，且存储器701、处理器702和通信接口703通过总线704形成相互间的通信连接，并可完成相互间的通信，如处理器702从存储器701中读取语音交互方法的程序指令等。另外，通信接口703还可以实现该电子设备与终端麦克风设备之间的通信连接，并可完成相互间信息传输，如通过通信接口703实现语音服务指令的读取等。

电子设备运行时，处理器702调用存储器701中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取用户的语音输入，并提取所述语音输入的梅尔倒谱系数特征，并基于所述梅尔倒谱系数特征，计算所述语音输入每帧的置信度；在基于所述置信度确定所述语音输入与预设唤醒词一致时，接收用户输入的语音服务指令，并将所述语音服务指令发送至服务器；接收所述服务器基于所述语音服务指令识别并下发的用户的指令意图；将所述指令意图转换为待执行指令，并基于所述待执行指令，执行对应的服务流程等。

上述的存储器701中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。或者，实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还根据上述各实施例提供一种非暂态计算机可读存储介质，其上存储有程序或指令，该程序或指令被计算机执行时，实现如上述各实施例所述的语音交互方法的步骤，例如包括：获取用户的语音输入，并提取所述语音输入的梅尔倒谱系数特征，并基于所述梅尔倒谱系数特征，计算所述语音输入每帧的置信度；在基于所述置信度确定所述语音输入与预设唤醒词一致时，接收用户输入的语音服务指令，并将所述语音服务指令发送至服务器；接收所述服务器基于所述语音服务指令识别并下发的用户的指令意图；将所述指令意图转换为待执行指令，并基于所述待执行指令，执行对应的服务流程等。

作为本发明的再一个方面，本实施例根据上述各实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的语音交互方法。

本发明提供的电子设备、非暂态计算机可读存储介质和计算机程序产品，通过执行上述各实施例所述的语音交互方法的步骤，借助自动语音识别ASR、自然语言处理NLP及文本转语音TTS等核心技术，通过人机语音交互，用户可以通过语音搜索入口搜索房源、客源、标准作业程序SOP、系统工具及话术等相关信息，降低了经纪人对B端APP的学习成本。同时，为用户提供了更高效、简单的交互手段，用户可以在双手不方便的场景下继续作业，极大地简化了作业场景操作流程，并且提供了更短的交互链路，提高了服务效率。

可以理解的是，以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，既可以位于一个地方，或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解，各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令，用以使得一台计算机设备(如个人计算机，服务器，或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。

另外，本领域内的技术人员应当理解的是，在本发明的申请文件中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而应当理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音交互方法，应用于终端，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，在基于所述置信度确定所述语音输入与所述预设唤醒词一致时，所述方法还包括：

3.根据权利要求2所述的语音交互方法，其特征在于，所述弹出语音输入引导浮层，包括：

4.根据权利要求3所述的语音交互方法，其特征在于，所述计算所述语音输入每帧的置信度，包括：

5.根据权利要求1-4中任一所述的语音交互方法，其特征在于，所述基于所述待执行指令，执行对应的服务流程，包括：

基于所述待执行指令向所述服务端请求目标服务；

6.一种语音交互方法，应用于服务器，其特征在于，包括：

7.根据权利要求6所述的语音交互方法，其特征在于，所述对所述语音服务指令进行语音识别，包括：

对所述语音服务指令进行数据预处理，获取有效语音信息；

或者，

所述基于所述待执行指令，执行对应的服务流程，包括：

将所述目标服务的结果发送给所述终端。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令，其特征在于，所述处理器执行所述程序或指令时，实现如权利要求1至7中任一项所述的语音交互方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被计算机执行时，实现如权利要求1至7中任一项所述的语音交互方法的步骤。

10.一种计算机程序产品，所述计算机程序产品包括计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的语音交互方法的步骤。