CN114842835A

CN114842835A - 一种基于深度学习模型的语音交互系统

Info

Publication number: CN114842835A
Application number: CN202210411322.XA
Authority: CN
Inventors: 刘娜; 袁野; 吴国栋
Original assignee: Henan Zhongyuan Power Intelligent Manufacturing Co ltd
Current assignee: Henan Zhongyuan Power Intelligent Manufacturing Co ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-08-02

Abstract

本发明公开了一种基于深度学习模型的语音交互系统。该系统通过所述声源定位模块用于从所述采集的声音信号中获取相应的目标声音数据；所述语音识别模块用于得到所述目标声音数据对应的文本数据，并将所述文本数据传输至所述自然语言理解模块；所述自然语言理解模块用于得到所述文本数据的语义分析结果；所述对话管理模块用于根据接收的所述语义分析结果、当前的语义环境和预设的对话状态决策动作和更新语义环境；所述自然语言生成模块用于根据接收的所述语义分析结果生成回复文本；所述语音合成模块用于将所述回复文本转换为成语音进行播报。本发明技术方案提高了非接触式语音交互系统的语音交互效率。

Description

一种基于深度学习模型的语音交互系统

技术领域

本发明涉及语音交互技术领域，尤其涉及一种基于深度学习模型的语音交互系统。

背景技术

智能巡检机器人应用于高铁站广场，在广场上进行巡检。在高铁站广场上，当旅客有询问路线的需求，智能机器人语音交互系统不通过接触就可以回答行人的问题，以满足行人需求。目前，在商场中的语音交互还需要用户触屏点击获得相应的信息。而在疫情还未完全过去的当下，接触式的交互系统会给疫情防控带来巨大的隐患。非接触式的智能机器人语音交互系统可以大大减少这种隐患，在高铁站的巡检机器人中，加入语音交互系统，可以满足进站旅客对于进站口，取票点询问的需求，也可以满足出站旅客询问地铁站，公交站，酒店以及出租车乘车点的需求。

从语音交互整个处理流程来看，可将其分为3部分：语音输入、语音处理和语音输出，其中语音输入包括：语音增强；语音处理包括：语音唤醒、语音识别、语义理解；语音输出包括：语音合成和音效增强。声音的信号特征提取的质量将直接影响语音识别的准确率。由于环境噪声包含周围人的噪声、风噪、周围车辆噪声以及媒体播放声等，这些噪声源都会减弱人声的信号特征，从而加大识别难度。除此之外，广场上存在很多旅客，机器人需要找到某一个声源，并提取信息作出回应，而现有技术中，对声源进行识别和定位的准确率较低，进而导致人机交互的体验较差。

传统的语音识别的声学模型训练，对于每一帧的数据，需要知道对应的label才能进行有效的训练，在训练数据之前需要做语音对齐的预处理。因此，存在训练数据之前需要做语音对齐的预处理，工作比较耗时的问题，并且在缺失对齐标签时，无法做出准确预测的问题。传统的语音识别输出的预测是局部分类，只利用了当前帧的信息，并未利用序列的全局信息进行预测，因此存在识别精度低的问题。

发明内容

本发明提供一种基于深度学习模型的语音交互系统，提高了非接触式语音交互系统的语音交互效率。

本发明一实施例提供一种基于深度学习模型的语音交互系统，包括声源定位模块、语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和语音合成模块；

所述声源定位模块用于将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息，并根据所述声音定位信息从所述采集的声音信号中获取相应的目标声音数据后，传输至所述语音识别模块；

所述语音识别模块用于将接收到的所述目标声音数据输入至端到端的深度学习模型，得到所述目标声音数据对应的文本数据，并将所述文本数据传输至所述自然语言理解模块；

所述自然语言理解模块用于将接收到的所述文本数据进行分词、词性标注、命名实体识别和依存句法分析处理后，再结合所述文本数据的情感分析结果，得到所述文本数据的语义分析结果；

所述对话管理模块用于根据接收的所述语义分析结果、当前的语义环境和预设的对话状态决策动作和更新语义环境；

所述自然语言生成模块用于根据接收的所述语义分析结果生成回复文本；

所述语音合成模块用于将所述回复文本转换为成语音进行播报。

进一步的，将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息，具体为：

通过多个传声器阵列采集声音信号，将所述声音信号进行特征提取后输入至所述端到端声源定位模型；

所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息，得到所述声源对应的声音定位信息。

进一步的，所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息，具体为：

所述端到端声源定位模型根据延时估计算法计算各个传声器阵列采集的声音信号之间的时延差，再结合各个传声器阵列的几何结构计算所述声音信号对应的声源的方位角信息和俯仰角信息，再根据所述方位角信息、俯仰角信息和双曲线定位法计算所述声源的距离信息。

进一步的，所述端到端的深度学习模型的训练过程包括以下步骤：

确定所述端到端的深度学习模型的输入序列和预测序列，所述输入序列为音频文件对应的序列，所述预测序列为文本文件对应的序列；

将所述输入序列输入所述端到端的深度学习模型后，所述端到端的深度学习模型通过编码器对所述输入序列进行特征提取，并根据特征提取结果计算对应的预测序列的分布结果；

通过解码器对所述分布结果进行解码，再对解码结果进行线性变换和softmax归一化处理后，得到所述输入序列的预测结果。

进一步的，所述预测序列的获取过程为：

使用扩展标签集对收集的文本文件的序列进行标注得到第一序列集，将所述第一序列集中可以通过映射函数转换为真实序列的序列确定为预测序列。

进一步的，所述自然语言生成模块在生成回复文本时，包括以下步骤：

根据接收的所述语义分析结果确定需要回复的信息，并根据所述需要回复的信息确定合理的文本顺序；

根据所述文本顺序确定单个句子中所呈现的文本信息，根据所述单个句子的文本信息选择相应的多个单词和短语；

识别所述需要回复的信息所属的领域，并根据所述领域从所述多个单词和短语中选择对应领域的单词和短语；

将选择的所述对应领域的单词和短语组成格式正确的句子。

进一步的，所述对话管理模块和自然语言生成模块的执行方式为并行执行或同步执行。

本发明的实施例，具有如下有益效果：

本发明提供了一种基于深度学习模型的语音交互系统，所述语音交互系统的所述声源定位模块采用声源定位技术提了语音交互的效率。具体的，通过将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息，根据所述声音定位信息从所述采集的声音信号中获取相应的目标声音数据，提高了语音识别的准确率，进而提高了语音识别的效率。本发明采用一种完全端到端的深度学习模型，在对所述端到端的深度学习模型进行训练时，不需要预先对数据进行对齐处理，只需要一个输入序列和一个输出序列即可以训练。即无需像传统语音识别模型那样对数据对齐和一一标注。同时，本发明的端到端的深度学习模型直接输出序列预测的概率，其预测过程是基于全局序列信息进行预测的，因此，在输出序列预测的概率后不需要再进行外部的后处理，而传统的语音识别输出的预测是局部分类，只利用了当前帧的信息，并未利用序列的全局信息，因此需要采用其他外部的后处理。可见，本发明通过采用一种完全端到端的深度学习模型以获取所述目标声音数据对应的文本数据时，不仅提高了语音识别的准确率，还减少了模型训练的时间。

附图说明

图1是本发明一实施例提供的基于深度学习模型的语音交互系统的结构示意图；

图2是本发明一实施例提供的基于深度学习模型的语音交互系统的端到端声源定位模型的结构示意图；

图3是本发明一实施例提供的基于深度学习模型的语音交互系统的自然语言理解模块的处理流程示意图；

图4是本发明一实施例提供的基于深度学习模型的语音交互系统的自然语言生成模块的处理流程示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供的一种基于深度学习模型的语音交互系统，包括声源定位模块、语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和语音合成模块；

所述自然语言理解模块用于将接收到的所述文本数据进行分词、词性标注、命名实体识别和依存句法分析处理后，再结合所述文本数据的情感分析结果，得到所述文本数据的语义分析结果。具体的，如图所示，将所述文本数据进行预处理后输入至深度学习模型，所述深度学习模型提取文本数据的特征，转化为词向量，然后进行文本分类、情感分析、命名实体识别、机器翻译等处理。例如，自然语言理解模块对“我要购票”进行分析，识别出主语是“我”，谓语是“要”，宾语是“购票”，并从中找到接下来执行的动作“购票”。

所述对话管理模块用于根据接收的所述语义分析结果、当前的语义环境和预设的对话状态决策动作和更新语义环境。所述对话管理模块控制人机交互过程，维护和更新对话状态，并决策下一步的动作。所述预设的对话状态即对话规则，所述对话规则包括但不限于对话流程、动作判断、对话流程和动作判断的结合。例如，所述对话管理模块根据接收的所述自然语言理解模块的“购票”结果，自动打开购票系统界面，然后等待操作者接下来的命令，并在等待过程中会给出操作提示，所述提示包括但不限于选择出发地、选择到达地。

所述自然语言生成模块用于根据接收的所述语义分析结果生成回复文本。即所述自然语言生成模块用于将向用户传达的概念、知识、数据、意图等回复信息转化为语言文本。

所述语音合成模块用于将所述文本转换为语音进行播报。

作为其中一种实施例，如图2所示，将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息，具体为：

所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息，得到所述声源对应的声音定位信息。本发明实施例采用的声源定位技术使用球坐标系，所述声音定位信息包括方位角、俯仰角和距离。具体的，所述端到端声源定位模型根据声音传播的特征-位置映射原理计算出声源的定位信息，所述定位信息包括方位角信息、俯仰角信息和距离信息。所述声音传播的特征-位置映射原理在具体应用时包括延时估计算法和双曲线定位法。所述延时估计算法的原理为：针对同一声源，不同位置的传声器接收到声音的时间有差别，根据时间的差别，结合传播速率，可以计算出声源到不同传声器的距离，进而可以推断声源的位置。

作为其中一种实施例，所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息，具体为：

所述端到端声源定位模型根据延时估计算法计算各个传声器阵列采集的声音信号之间的时延差，再结合各个传声器阵列的几何结构计算所述声音信号对应的声源的方位角信息和俯仰角信息；优选地，所述延时估计算法包括互相关延时算法、广义互相关延时算法或相位差延时算法。由于各个传声器阵列接收到的信号都有不同程度的延时，因此需要计算时延差。

再根据所述方位角信息、俯仰角信息和双曲线定位法计算所述声源的距离信息。当对所述声音信号进行波达方向估计，得到所述声源的方位角信息和俯仰角信息后，所述声源可以定位在传声器阵列和捕获信号之间的双曲线内，此时则可以通过每个传声器阵列的双曲线交点对所述声源进行定位(即采用双曲线定位法)，得到所述声源的距离信息。

作为其中一种实施例，所述端到端的深度学习模型的训练过程包括以下步骤：

确定所述端到端的深度学习模型的输入序列X＝[x1,x2,...,xT]和预测序列(即标签数据)Y＝[y1,y2,...,yU]，所述输入序列为音频文件对应的序列，所述预测序列为文本文件对应的序列；其中，T是输入序列的长度，U是输出序列的长度。目的是要找到X到Y的一个映射。X和Y的长度都是变化且不相等的。

将所述输入序列X输入所述端到端的深度学习模型后，所述端到端的深度学习模型通过编码器对所述输入序列X进行特征提取，并根据特征提取结果计算对应的预测序列Y的分布结果；

通过解码器对所述分布结果进行解码，再对解码结果进行线性变换和softmax归一化处理后，得到所述输入序列X的预测结果。所述预测结果即所述输入序列对应的文本序列。

在训练时通过目标函数最大化所有正确的预测序列的概率和。在查找所有正确预测序列时，采用了前向后向算法。

作为其中一种实施例，所述标签数据的获取过程为：

所述输入序列是指音频文件对应的序列，所述预测序列是指深度学习模型的预测结果，即文本文件对应的序列。所述真实序列是指与所述音频文件完全对应的文本文件序列。例如，输入序列，即音频文件是“你吃饭了吗？”；真实序列，即与所述音频文件对应的正确的文本文件序列是“你吃饭了吗？”。而预测序列，则有很多种，如“你——吃饭了吗？”、“你吃饭——了吗？”、“你吃——饭了吗？”，破折号表示说话者语气延时等。本发明实施例的多个预测序列均为正确的预测，但真实序列只有一个。预测序列与真实序列之间仅仅是语气延迟的区别。所述预测序列可以通过映射函数转变为真实序列。

作为其中一种实施例，如图4所示，所述自然语言生成模块在生成回复文本时，包括以下步骤：

根据接收的所述语义分析结果确定需要回复的信息(即内容确定)，并根据所述需要回复的信息确定合理的文本顺序(即文本结构)；

根据所述文本顺序确定单个句子中所呈现的文本信息(即句子聚合)，根据所述单个句子的文本信息选择相应的多个单词和短语(即语法化)；

识别所述需要回复的信息所属的领域，并根据所述领域从所述多个单词和短语中选择对应领域的单词和短语(即参考表达式生成)；

将选择的所述对应领域的单词和短语组成格式正确的句子(即语音实现)。

本发明实施例在内容确定步骤中，需要决定哪些信息应该包含在正在构建的文本中，哪些不应该包含。在文本结构步骤中，需要合理的组织文本的顺序。在句子聚合步骤中，将多个信息合并到一个句子里表达可能会更加流畅，也更易于阅读。在语法化步骤中，将确定下来的句子内容组织成自然语言。在参考表达式生成步骤中，再次选择一些单词和短语来构成一个完整的句子。在语言实现步骤中，将所有已经确定的相关的单词和短语，组合起来形成一个结构良好的完整句子。例如，对话管理模块打开购票系统，提示操作者依次说出起始地、到达地、日期等信息。自然语言生成模块根据操作者说出的购票、起始地、到达地、日期等信息，最终生成完整的语句，即“您将购买a时间从b地点到c地点的车票1张，请确认”。

作为其中一种实施例，所述对话管理模块和自然语言生成模块的执行方式为并行执行或同步执行。即所述对话管理模块和自然语言生成模块可以并行执行，也可以先后执行。

本发明通过采用声源定位技术提了语音交互的效率。具体的，本发明采用多个麦克风在环境不同位置点对声信号进行测量，由于声信号到达各麦克风的时间有不同程度的延迟，利用算法对测量到的声信号进行处理，由此获得声源点相对于麦克风的波达方向DOA(包括方位角、俯仰角)和距离，大大提高了语音识别的准确率，进而提高了语音识别的效率。

本发明采用一种完全端到端的深度学习模型，在对所述端到端的深度学习模型进行训练时，不需要预先对数据进行对齐处理，只需要一个输入序列和一个输出序列即可以训练。即无需像传统语音识别模型那样对数据对齐和一一标注。本发明使用扩展标签集对收集的文本文件的序列进行标注得到第一序列集，将所述第一序列集中可以通过映射函数转换为真实序列的序列确定为标签数据，得到的标签数据即为正确的预测结果，可见，本发明无需数据对齐处理，即可得到预测序列。与此同时，本发明的端到端的深度学习模型直接输出序列预测的概率，其预测过程是基于全局序列信息进行预测的，因此，在输出序列预测的概率后不需要再进行外部的后处理，而传统的语音识别输出的预测是局部分类，只利用了当前帧的信息，并未利用序列的全局信息，因此需要采用其他外部的后处理(如非端到端模型需要将预测结果在时间点上与输入序列做对齐)。综上，本发明通过采用一种完全端到端的深度学习模型以获取所述目标声音数据对应的文本数据时，不仅提高了语音识别的准确率，还减少了模型训练的时间。

本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

Claims

1.一种基于深度学习模型的语音交互系统，其特征在于，包括声源定位模块、语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和语音合成模块；

2.根据权利要求1所述的基于深度学习模型的语音交互系统，其特征在于，将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息，具体为：

3.根据权利要求2所述的基于深度学习模型的语音交互系统，其特征在于，所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息，具体为：

4.根据权利要求3所述的基于深度学习模型的语音交互系统，其特征在于，所述端到端的深度学习模型的训练过程包括以下步骤：

5.根据权利要求4所述的基于深度学习模型的语音交互系统，其特征在于，所述预测序列的获取过程为：

6.根据权利要求5所述的基于深度学习模型的语音交互系统，其特征在于，所述自然语言生成模块在生成回复文本时，包括以下步骤：

将选择的所述对应领域的单词和短语组成格式正确的句子。

7.根据权利要求1至6任一项所述的基于深度学习模型的语音交互系统，其特征在于，所述对话管理模块和自然语言生成模块的执行方式为并行执行或同步执行。