CN109686360A

CN109686360A - 一种语音订餐机器人

Info

Publication number: CN109686360A
Application number: CN201910015420.XA
Authority: CN
Inventors: 黄金杰; 蔺江全; 王雅君
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-04-26

Abstract

本发明实施例公开了一种语音订餐机器人，系统包括:语音采集模块，用于采集和保存用户语音数据；语音识别模块，用于识别语音数据并转换成相应的文本数据；自然语言理解模块，用于提取文本数据中的意图和实体；对话管理模块，用于对话过程的状态控制、数据管理以及上下文管理；自然语言合成模块，用于将对话管理模块的非文本输出转换成文本数据；语音合成模块，用于将文本数据转换成语音数据；语音发声模块，用于播放语音。本发明能识别和理解订餐用户的语音信号，提取其中的意图和实体，并能进行多轮对话，能满足带有明确订餐目的并需要进行多轮对话的用户。

Description

一种语音订餐机器人

技术领域

本发明涉及一种语音订餐机器人系统，属于语音对话机器人技术领域，尤其涉及一种任务型语音对话机器人系统。

背景技术

近几年来，随着人工智能的飞速发展，世界上出现了许多语音对话机器人，如谷歌的谷歌助手、苹果的Siri、百度的度秘。这类语音对话机器人都属于闲聊型对话机器人，能识别人类的语音信号，并提取其中的有用信息，进行有趣的回复。但闲聊对话机器人没有对话管理模块，因此不能进行多轮对话，所以不能满足需要进行多轮对话才能达到目的的用户，尤其不能满足带有明确订餐目的并需要进行多轮对话的用户。

发明内容

针对上述问题，本发明要解决的技术问题是提供一种语音订餐机器人。

本发明解决其技术问题所采用的技术方案是：一种语音订餐机器人系统，包括：

语音采集模块，用于采集和保存用户的语音数据；

语音识别模块，用于识别语音数据并转换成相应的文本数据；

自然语言理解模块，用于提取文本数据中的意图和实体；

对话管理模块，用于对话过程的状态控制、数据管理以及上下文管理；

自然语言合成模块，将对话管理模块的非文本输出转换成文本数据；

语音合成模块，用于将文本数据转换成语音数据；

语音发声模块，用于播放语音。

其中，所述的语音采集模块包括语音端点监测模块和声卡驱动模块。

其中，所述的语音端点监测模块，用于监测用户说话的开始和结束；声卡驱动模块，用于采集来自话筒的语音数据，进行录音并保存成声音格式的文件。

其中，所述的语音识别模块通过网络与语音识别和合成服务器相连；所述语音合成模块通过网络与语音识别和合成服务器相连。

其中，所述的自然语言理解模块中意图识别和实体提取的模型采用双向循环神经网络+条件随机场的联合算法模型。

其中，所述的对话管理模块包括对话追踪模块、对话策略模块、对话动作模块。

其中，所述的对话追踪模块，用于对对话状态进行追踪，接受并记录文本意图和文本实体识别的最新状态；对话策略模块，用于接受当前的对话状态，在对话动作模块中选择响应合适的对话动作，被选中的对话动作记录在对话追踪模块中。

其中，所述的对话管理模块中对话策略模块是利用长短时记忆网络算法模型训练的对话策略模型。

其中，所述的自然语言生成模块采用检索式自然语言生成方式。

本发明的有益效果为：能识别和理解订餐用户的语音信号，提取其中的意图和实体，并能进行多轮对话，能满足带有明确订餐目的并需要进行多轮对话的用户。订餐用户也可在对话过程中不断修改或者完善自己的需求，对话机器人也可通过询问、澄清或确认来帮助订餐用户明确自己的需求。

附图说明

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1为本发明具体实施方式的整体结构示意图。

图2为本发明具体实施方式的语音采集模块的结构示意图。

图3为本发明具体实施方式的语音识别和语音合成模块的结构示意图。

图4为本发明具体实施方式的对话管理模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。另外还需要说明，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

如图1所示，本发明具体实施方式采用以下技术方案：它包含语音采集模块 1,用于采集和保存用户的语音数据；语音识别模块2，用于识别语音数据并转换成相应的文本数据；自然语言理解模块3，用于提取文本数据中的意图和实体；对话管理模块4，用于对话过程的状态控制、数据管理以及上下文管理；自然语言合成模块5，将对话管理模块4的非文本输出转换成文本数据；语音合成模块 6，用于将文本数据转换成语音数据；语音发声模块7，用于播放语音。

进一步的，所述的语音采集模块1包括语音端点监测模块11和声卡驱动模块12。

进一步的，所述的语音采集模块1是通过语音端点监测模块11监测用户说话的开始和结束，在说话期间通过声卡驱动模块12，采集来自话筒13的语音数据，进行录音并保存成声音格式的文件。

进一步的，所述的语音识别模块2将上述保存的声音格式文件转换成采样率是16000、16bit位深、单声道的wav格式的声音文件，通过网络传给语音识别和合成服务器8进行语音识别，并保存语音识别和合成服务器8识别后返回的文本数据。

进一步的，所述的自然语言理解模块3采用的是双向循环神经网络+条件随机场的联合算法模型进行意图识别和实体提取模型的训练。训练的数据采用的是订餐领域常用的口语，数据分为11类意图，训练集数据共65788条，测试数据共5800条。

进一步的，所述的自然语言理解模块3是将语音识别和合成服务器8识别后返回的文本数据，通过意图识别和实体提取模型提取返回文本中的意图和实体并传给对话管理模块4。

进一步的，所述的对话管理模块4包括对话追踪模块41、对话策略模块42、对话动作模块43。

进一步的，所述的对话追踪模块41，用于对对话状态进行追踪，接受并记录文本意图和文本实体识别的最新状态；对话策略模块42，用于接受当前的对话状态，在对话动作模块43中选择响应合适的对话动作，被选中的对话动作记录在对话追踪模块中。

进一步的，所述的对话管理模块4中对话策略模块42是利用长短时记忆网络算法模型训练的对话策略模型。训练数据为52种订餐对话场景。

进一步的，所述的自然语言生成模块5采用检索式自然语言生成方式，根据对话管理模块4输出的对话动作所对应的对话语料库，通过排序学习技术和匹配技术找到适合当前输入的最佳文本回复。

进一步的，所述的语音合成模块6将自然语言生成模块5生成的最佳文本回复，通过网络传给语音识别和合成服务器8进行语音合成，并保存语音识别和合成服务器8合成后返回的声音文件。

进一步的，所述的语音发声模块7通过调用声卡发声模块播放语音合成模块 6保存的声音文件。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种语音订餐机器人，其特征在于：所述的语音订餐机器人系统包括：语音采集模块,用于采集和保存用户的语音数据；语音识别模块，用于识别语音数据并转换成相应的文本数据；自然语言理解模块，用于提取文本数据中的意图和实体；对话管理模块，用于对话过程的状态控制、数据管理以及上下文管理；自然语言合成模块，将对话管理模块的非文本输出转换成文本数据；语音合成模块，用于将文本数据转换成语音数据；语音发声模块，用于播放语音。

2.根据权利要求1所述的一种语音订餐机器人，其特征在于：所述的语音采集模块包括语音端点监测模块和声卡驱动模块。

3.根据权利要求2所述的一种语音订餐机器人，其特征在于：所述的语音端点监测模块，用于监测用户说话的开始和结束；声卡驱动模块，用于采集来自话筒的语音数据，进行录音并保存成声音格式的文件。

4.根据权利要求1所述的一种语音订餐机器人，其特征在于：所述的语音识别模块通过网络与语音识别和合成服务器相连；所述的语音合成模块通过网络与语音识别和合成服务器相连。

5.根据权利要求1所述的一种语音订餐机器人，其特征在于：所述的自然语言理解模块中意图识别和实体提取的模型采用双向循环神经网络+条件随机场的联合算法模型。

6.根据权利要求1所述的一种语音订餐机器人，其特征在于：所述的对话管理模块包括对话追踪模块、对话策略模块、对话动作模块。

7.根据权利要求6所述的一种语音订餐机器人，其特征在于：所述的对话追踪模块，用于对对话状态进行追踪，接受并记录文本意图和文本实体识别的最新状态；对话策略模块，用于接受当前的对话状态，在对话动作模块中选择响应合适的对话动作，被选中的对话动作记录在对话追踪模块中。

8.根据权利要求1所述的一种语音订餐机器人，其特征在于：所述的对话管理模块中对话策略模块是利用长短时记忆网络算法模型训练的对话策略模型。

9.根据权利要求1所述的一种语音订餐机器人，其特征在于：所述的自然语言生成模块采用检索式自然语言生成方式。