CN112435669A

CN112435669A - 一种机器人多轮对话语音交互方法、系统和终端设备

Info

Publication number: CN112435669A
Application number: CN202011301188.5A
Authority: CN
Inventors: 冯皓; 郑晓崴
Original assignee: Fuzhou Lingyi Technology Co ltd
Current assignee: Fuzhou Lingyi Technology Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-03-02
Anticipated expiration: 2040-11-19
Also published as: CN112435669B

Abstract

本发明涉及语音处理技术领域，特别涉及一种机器人多轮对话语音交互方法、系统和终端设备。所述一种机器人多轮对话语音交互方法，包括步骤：终端设备接收语音数据，按帧读取语音数据；若存在连续多帧有效声音，若连续多帧有效声音的持续时间大于最大预设说话时间阈值，若用户停顿时间大于最小预设停顿时间且小于最大预设停顿时间，则进行语音识别，若用户停顿时间大于最大预设停顿时间，则分析得用户意图，根据所述用户意图播放目标音频文件。本方案中的处理方式可以使得处理效率大大提高，用户可以很快听到终端设备的回复，将大大提高互动效率，且当是有效声音的时候才发送给语音识别系统，亦可大大节约语音识别成本。

Description

一种机器人多轮对话语音交互方法、系统和终端设备

技术领域

本发明涉及语音处理技术领域，特别涉及一种机器人多轮对话语音交互方法、系统和终端设备。

背景技术

随着语音识别技术的发展，越来越多的终端设备都带有语音交互功能，目前语音交互通常是将录音音频流直接发送给语音识别接口，比如第三方阿里云、科大讯飞语音识别接口等，由第三方将音频流数据进行断句，返回每句识别结果。或者通过按住某个按钮将设备听筒处于激活状态，等待用户语音输入。在用户语音输入后停顿一段时间将输入语音提交到语音识别接口，进而返回语音识别文字。

对于完全交给第三方识别来反馈识别结果，第三方直接将所有的识别结果发送回来，不能实现机器人与人之间的多轮对话。通过按住某个键激发用户说话状态虽然能多轮对话，但是每次需要用户在说话时触发用户说话状态，对话不够自然。特别对于机器人与人通过电话通话的场景，需要实现多轮对话，用户不能像对讲机一样按住某个按键方式来对话，这样不够自然。

发明内容

为此，需要提供一种机器人多轮对话语音交互方法，用以解决现有语音识别技术中，人与机器人多轮对话时机器人回答慢、或需要人按住某个按键实现对话，对话过程不自然，用户体验差的问题。具体技术方案如下：

一种机器人多轮对话语音交互方法，包括步骤：

终端设备接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；

若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧，若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间，若用户停顿时间大于等于最小预设停顿时间，则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，则发送所述有效声音帧的语音数据至语音识别系统进行语音识别；

若在最大预设说话时间阈值内未遇到静音帧，则当超过最大预设说话时间阈值时直接发送所述有效声音帧的语音数据至语音识别系统进行语音识别；

语音识别系统根据语音识别得语义内容，并发送所述语义内容至终端设备；

所述终端设备根据预设知识图谱对所述语义内容进行分析得用户意图，根据所述用户意图播放所述目标音频文件。

进一步的，所述“若用户停顿时间大于等于最小预设停顿时间”后，还包括步骤：

判断所述静音帧前的有效声音帧的持续时间是否小于最小预设说话时间阈值，若小于最小预设说话时间阈值，则判定为无效声音。

进一步的，所述“所述终端设备根据预设知识图谱对所述语义内容进行分析得用户意图”，还包括步骤：

所述预设知识图谱上设置有多个节点，每个节点代表一个用户意图；

获取语义内容中的关键字，当语义内容中有多个关键字正则匹配上所述预设知识图谱上的节点时，则选定所述节点对应的用户意图为最终的用户意图；

或通过语义内容结合当前话题关联性，选取关联性大的用户意图为最终的用户意图；

或获取用户属性，结合用户属性、语义内容和预设知识图谱分析得用户意图。

进一步的，还包括步骤：

根据用户属性不同匹配不同预设规则。

进一步的，还包括步骤：交互完后，对整个交互过程中的用户语音数据进行处理，提取结构化数据；

对所述结构化数据进行统计分析，得统计分析结果，

或

对所述结构化数据进行分析，进而将所述结构化数据进行类别划分，所述类别划分包括：通知类。

进一步的，所述“判断每帧语音数据是否为有效声音”，还包括步骤：通过vad算法判断每帧语音数据是否为有效声音。

为解决上述技术问题，还提供了一种机器人多轮对话语音交互系统，具体技术方案如下：

一种机器人多轮对话语音交互系统，包括：终端设备和语音识别系统，所述终端设备连接所述语音识别系统；所述终端设备用于：接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧，若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间，若用户停顿时间大于等于最小预设停顿时间，则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，则所述语音识别系统用于：发送所述有效声音帧的语音数据至语音识别系统进行语音识别；

若在最大预设说话时间阈值内未遇到静音帧，则所述语音识别系统用于：直接发送所述有效声音帧的语音数据至语音识别系统进行语音识别；

所述语音识别系统还用于：根据语音识别得语义内容，并发送所述语义内容至终端设备；

所述终端设备还用于：根据预设知识图谱对所述语义内容进行分析得用户意图，根据所述用户意图播放所述目标音频文件。

进一步的，所述终端设备还用于：判断所述静音帧前的有效声音帧的持续时间是否小于最小预设说话时间阈值，若小于最小说话时间阈值，则判定为无效声音。

进一步的，所述终端设备还用于：所述预设知识图谱上设置有多个节点，每个节点代表一个用户意图；获取语义内容中的关键字，当语义内容中有多个关键字正则匹配上所述预设知识图谱上的节点时，则选定所述节点对应的用户意图为最终的用户意图；或通过语义内容结合当前话题关联性，选取关联性大的用户意图为最终的用户意图；或获取用户属性，结合用户属性、语义内容和预设知识图谱分析得用户意图。

为解决上述技术问题，还提供了一种终端设备，具体技术方案如下：

一种终端设备，所述终端设备用于：接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；

若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧，若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间，若用户停顿时间大于等于最小预设停顿时间，则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，则发送所述有效声音帧的语音数据至语音识别系统进行语音识别；若在最大预设说话时间阈值内未遇到静音帧，则当超过最大预设说话时间阈值时直接发送所述有效声音帧的语音数据至语音识别系统进行语音识别；获取语音识别系统发送的语义内容，根据预设知识图谱对所述语义内容进行分析得用户意图，根据所述用户意图播放所述目标音频文件。

本发明的有益效果是：通过终端设备接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧，若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间，若用户停顿时间大于等于最小预设停顿时间，则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，则发送所述有效声音帧的语音数据至语音识别系统进行语音识别；若在最大预设说话时间阈值内未遇到静音帧，则当超过最大预设说话时间阈值时直接发送所述有效声音帧的语音数据至语音识别系统进行语音识别；语音识别系统根据语音识别得语义内容，并发送所述语义内容至终端设备；所述终端设备根据预设知识图谱对所述语义内容进行分析得用户意图，根据所述用户意图播放所述目标音频文件。在本技术方案中，首先持续收集有效声音帧，但若遇到静音帧的时候，则会先去判断停顿时间是否大于等于最小预设停顿时间，若大于等于最小预设停顿时间，则可以判定用户现在是在有效地停顿，然后紧接着判断在用户停顿之前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，说明前面的有效声音帧为有效的语音，通过该方式，用户只要有效停顿，前面说的话就会被马上上传进行语音识别，可大大提高互动效率。而如果超过最大预设说话时间阈值都没有遇到静音帧的话，则会直接递交语音数据进行语音识别，确保语音识别的有效进行。且当是有效声音的时候才发送给语音识别系统，亦可大大节约语音识别成本。

附图说明

图1为具体实施方式所述一种机器人多轮对话语音交互方法的流程图；

图2为具体实施方式所述一种机器人多轮对话语音交互系统的模块示意图；

图3为具体实施方式所述一种终端设备的模块示意图。

附图标记说明：

200、一种机器人多轮对话语音交互系统，

201、终端设备，

202、语音识别系统，

300、终端设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，在本实施方式中，一种机器人多轮对话语音交互方法可应用在一种机器人多轮对话语音交互系统上，所述一种机器人多轮对话语音交互系统，包括：终端设备和语音识别系统，所述终端设备为：有播放语音，录音功能的语音交互终端。

步骤S101：终端设备接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音。在本实施方式中，优选通过vad算法判断每帧语音数据是否为有效声音。当是有效声音的时候才发送给语音识别系统，可大大节约语音识别成本。

步骤S102：若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧？具体可如下：2个以上相邻音频合起来是一个声音片段，对于连续有效声音帧连成的声音片段被认为此用户正在说话，而对于连续无效声音帧连成的声音片段被认为静音片段，用户没有说话。故此在本实施方式中，很巧妙地设置了一个最大预设说话时间阈值，当连续多帧有效声音的持续时间大于最大预设说话时间阈值时，会被强制认定为一句话终止，人说话都会有停顿和换气，如果持续发音超过最大说话时间阈值则可认定为故障音频。接下来我们需要来判断这句终止的话是逗号短句，还是句号短句。即在实际应用中，比如某个人说了：你好。那么接下来需要判断这个人就是只说完你好不再说其它话了，还是你好后面还有其它内容，比如：你好，请为我播放一首儿歌。

故此，接下来需要执行步骤S103：若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间。在本实施方式中，所谓停顿时间，指的是声音片段之间的连续静音片段的持续时间。

若用户停顿时间大于等于最小预设停顿时间，则判定为逗号短句，则执行步骤S104：所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值？若所述静音帧前的有效声音帧的持续时间大于等于最小预设说话时间阈值，则执行步骤S105：发送所述有效声音帧的语音数据至语音识别系统进行语音识别。相比于现有技术中等一次性全部说完再发给语音识别系统进行识别，本方案中的处理方式可以使得处理效率大大提高，且使得语音对话会更加流畅。

若在最大预设说话时间阈值内未遇到静音帧，则执行步骤S106：当超过最大预设说话时间阈值时直接发送所述有效声音帧的语音数据至语音识别系统进行语音识别。即默认为一句句号短句，直接发送语音数据至语音系统进行识别。

步骤S107：语音识别系统根据语音识别得语义内容，并发送所述语义内容至终端设备。具体可如下：语音识别系统接收到语音数据后，语音识别系统会将识别好的语义内容返回至终端设备。在本实施方式中，优选地使用现有的第三方语音识别系统，亦可以根据终端设备本身的功能定位，如：如果终端设备常被应用于医院场所，则也可以根据实际应用场景中经常出现的对话来自己开发语音识别系统。

步骤S108：所述终端设备根据预设知识图谱对所述语义内容进行分析得用户意图，根据所述用户意图播放所述目标音频文件。所述“所述终端设备根据预设知识图谱对所述语义内容进行分析得用户意图”，还包括步骤：所述预设知识图谱上设置有多个节点，每个节点代表一个用户意图；获取语义内容中的关键字，当语义内容中有多个关键字正则匹配上所述预设知识图谱上的节点时，则选定所述节点对应的用户意图为最终的用户意图；或通过语义内容结合当前话题关联性，选取关联性大的用户意图为最终的用户意图；或获取用户属性，结合用户属性、语义内容和预设知识图谱分析得用户意图。具体可如下：

在本实施方式中，知识图谱的预先训练出来的。对于知识图谱的识别主要包含两种：字面上的识别和语义上的识别，其中字面上的识别采用关键字形式，即获取语义内容中的关键字，当语义内容中有多个关键字正则匹配上所述预设知识图谱上的节点时，则选定所述节点对应的用户意图为最终的用户意图。根据用户意图来播放由录音文件、语音转文字(TTS)音频的若干组合，如：对于语音外呼通知儿童体检，开场白问“请问您是小明的家长吗？”，其中小明是通过TTS转换过来的，因为对于儿童姓名以及体检时间都是变量，通过系统导入儿童的姓名、年龄、体检时间来通知家长带小孩来体检。将这些音频文件链接为一个音频文件或直接用播放列表方式，向用户播放实现机器人“说话”。

此外语义上的识别则包括对用户说话内容与当前话题关联性来判定，选取关联性大的意图来匹配。即：语义识别在关键字之间建立关联关系，采用图数据库存储比如Neo4J，存储的是出院AI随访时，询问患者身体情况，患者说头疼，根据患者既往病史可以从图数据库中查询相关病史、以及头疼相关数据，建议患者挂哪个科室去诊疗。

进一步的，在这种应用场景下，还包括步骤：交互完后，对整个交互过程中的用户语音数据进行处理，提取结构化数据；对所述结构化数据进行统计分析，得统计分析结果。具体可如下：通过与患者的互动交流，如事后通过电话对用户进行回访，在整个交互过程结束后，对用户的语音数据进行处理，提取结构化数据，进而对大量的结构化数据进行统计分析，得到统计分析结果。而统计分析结果可供后期决策的制定、或服务的改进等等作为参考。比如满意度调查(出院满意度、门诊满意度)，慢病随访(高血压、糖尿病)，护士随访等等。

或对所述结构化数据进行分析，进而将所述结构化数据进行类别划分，所述类别划分包括：通知类。具体可如下：如在所述结构化数据中提取到了特定的一些词汇，如嗯、好的、谢谢提醒、已经收到等，则可将该结构化数据对应的语音交互判定为通知类，常见的如：体检通知、疫苗通知等等，相比于传统的短信通知，该种通知方式可确保用户收到通知。

进一步的，知识图谱的意图匹配还包括用户属性的判定，如：根据用户属性特征比如性别、年龄、病种等信息。如：在慢病随访时，根据患者不同病种属性意图会有所差别，对于高血压患者会根据高血压相关知识来组织机器人说话内容。而且同一个意图，机器人说话内容、语音语调可以有多种，来对应不同年龄段患者。

根据用户属性不同匹配不同预设规则。具体可如下：配置预设规则，根据导入用户不同属性信息来匹配不同预设规则(导入数据源包括工作人员输入、医院HIS系统、用户自己输入等)。还可以根据用户说话内容匹配规则，比如用户说“我听不清”等内容时将机器人说话语速调慢、用户说“我很忙”则与用户再约时间进行自动回访。根据用户回复音频进行音频分析来匹配规则，比如通过检查声音音量阈值来提醒用户稍微大一些声音，比如回复“抱歉，您能大一些声音吗？”；通过检查声音断断续续，机器人回复“可能信号不好，您能再重复一遍吗”；通过音频中能量值可以识别用户情绪，切换到更加温柔的语气。使得用户体验更好。

通过终端设备接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧，若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间，若用户停顿时间大于等于最小预设停顿时间，则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，则发送所述有效声音帧的语音数据至语音识别系统进行语音识别；若在最大预设说话时间阈值内未遇到静音帧，则当超过最大预设说话时间阈值时直接发送所述有效声音帧的语音数据至语音识别系统进行语音识别；语音识别系统根据语音识别得语义内容，并发送所述语义内容至终端设备；所述终端设备根据预设知识图谱对所述语义内容进行分析得用户意图，根据所述用户意图播放所述目标音频文件。在本技术方案中，首先持续收集有效声音帧，但若遇到静音帧的时候，则会先去判断停顿时间是否大于等于最小预设停顿时间，若大于等于最小预设停顿时间，则可以判定用户现在是在有效地停顿，然后紧接着判断在用户停顿之前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，说明前面的有效声音帧为有效的语音，通过该方式，用户只要有效停顿，前面说的话就会被马上上传进行语音识别，可大大提高互动效率。而如果超过最大预设说话时间阈值都没有遇到静音帧的话，则会直接递交语音数据进行语音识别，确保语音识别的有效进行。且当是有效声音的时候才发送给语音识别系统，亦可大大节约语音识别成本。

优选地，所述“若用户停顿时间大于等于最小预设停顿时间”后，还包括步骤：

请参阅图2，一种机器人多轮对话语音交互系统200的具体实施方式如下：

一种机器人多轮对话语音交互系统200，包括：终端设备201和语音识别系统202，所述终端设备201连接所述语音识别系统202；所述终端设备201用于：接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧，若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间，若用户停顿时间大于等于最小预设停顿时间，则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，则所述语音识别系统202用于：发送所述有效声音帧的语音数据至语音识别系统202进行语音识别；若在最大预设说话时间阈值内未遇到静音帧，则所述语音识别系统202用于：直接发送所述有效声音帧的语音数据至语音识别系统202进行语音识别；所述语音识别系统202还用于：根据语音识别得语义内容，并发送所述语义内容至终端设备201；所述终端设备201还用于：根据预设知识图谱对所述语义内容进行分析得用户意图，根据所述用户意图播放所述目标音频文件。在本实施方式中，优选通过vad算法判断每帧语音数据是否为有效声音。当是有效声音的时候才发送给语音识别系统202，可大大节约语音识别成本。

其中2个以上相邻音频合起来是一个声音片段，对于连续有效声音帧连成的声音片段被认为此用户正在说话，而对于连续无效声音帧连成的声音片段被认为静音片段，用户没有说话。故此在本实施方式中，很巧妙地设置了一个最大预设说话时间阈值，当连续多帧有效声音的持续时间大于最大预设说话时间阈值时，会被强制认定为一句话终止，人说话都会有停顿和换气，如果持续发音超过最大说话时间阈值则可认定为故障音频。接下来我们需要来判断这句终止的话是逗号短句，还是句号短句。即在实际应用中，比如某个人说了：你好。那么接下来需要判断这个人就是只说完你好不再说其它话了，还是你好后面还有其它内容，比如：你好，请为我播放一首儿歌。

在本实施方式中，所谓停顿时间，指的是声音片段之间的连续静音片段的持续时间。对于用户停顿时间大于最小预设停顿时间，则判定为逗号短句。则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值？若所述静音帧前的有效声音帧的持续时间大于等于最小预设说话时间阈值，则发送所述有效声音帧的语音数据至语音识别系统202进行语音识别。相比于现有技术中等一次性全部说完再发给语音识别系统202进行识别，本方案中的处理方式可以使得处理效率大大提高，且使得语音对话会更加流畅。

若在最大预设说话时间阈值内未遇到静音帧，则当超过最大预设说话时间阈值时直接发送所述有效声音帧的语音数据至语音识别系统202进行语音识别。即默认为一句句号短句，直接发送语音数据至语音系统进行识别。

语音识别系统202接收到语音数据后，语音识别系统202会将识别好的语义内容返回至终端设备201。在本实施方式中，优选地使用现有的第三方语音识别系统202，亦可以根据终端设备201本身的功能定位，如：如果终端设备201常被应用于医院场所，则也可以根据实际应用场景中经常出现的对话来自己开发语音识别系统202。

通过终端设备201接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧，若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间，若用户停顿时间大于等于最小预设停顿时间，则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，则发送所述有效声音帧的语音数据至语音识别系统202进行语音识别；若在最大预设说话时间阈值内未遇到静音帧，则当超过最大预设说话时间阈值时直接发送所述有效声音帧的语音数据至语音识别系统202进行语音识别；语音识别系统202根据语音识别得语义内容，并发送所述语义内容至终端设备201；所述终端设备201根据预设知识图谱对所述语义内容进行分析得用户意图，根据所述用户意图播放所述目标音频文件。在本技术方案中，首先持续收集有效声音帧，但若遇到静音帧的时候，则会先去判断停顿时间是否大于等于最小预设停顿时间，若大于等于最小预设停顿时间，则可以判定用户现在是在有效地停顿，然后紧接着判断在用户停顿之前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，说明前面的有效声音帧为有效的语音，通过该方式，用户只要有效停顿，前面说的话就会被马上上传进行语音识别，可大大提高互动效率。而如果超过最大预设说话时间阈值都没有遇到静音帧的话，则会直接递交语音数据进行语音识别，确保语音识别的有效进行。且当是有效声音的时候才发送给语音识别系统202，亦可大大节约语音识别成本。

进一步的，所述终端设备201还用于：判断所述静音帧前的有效声音帧的持续时间是否小于最小预设说话时间阈值，若小于最小预设说话时间阈值，则判定为无效声音。

进一步的，所述终端设备201还用于：所述预设知识图谱上设置有多个节点，每个节点代表一个用户意图；获取语义内容中的关键字，当语义内容中有多个关键字正则匹配上所述预设知识图谱上的节点时，则选定所述节点对应的用户意图为最终的用户意图；或通过语义内容结合当前话题关联性，选取关联性大的用户意图为最终的用户意图；或获取用户属性，结合用户属性、语义内容和预设知识图谱分析得用户意图。

具体可如下：

进一步的，在这种应用场景下，所述语音识别系统202还用于：交互完后，对整个交互过程中的用户语音数据进行处理，提取结构化数据；对所述结构化数据进行统计分析，得统计分析结果。具体可如下：通过与患者的互动交流，如事后通过电话对用户进行回访，在整个交互过程结束后，对用户的语音数据进行处理，提取结构化数据，进而对大量的结构化数据进行统计分析，得到统计分析结果。而统计分析结果可供后期决策的制定、或服务的改进等等作为参考。比如满意度调查(出院满意度、门诊满意度)，慢病随访(高血压、糖尿病)，护士随访等等。

请参阅图3，在本实施方式中，一种终端设备300的具体实施方式如下：

一种终端设备300，所述终端设备300用于：接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；

在本实施方式中，优选通过vad算法判断每帧语音数据是否为有效声音。当是有效声音的时候才发送给语音识别系统，可大大节约语音识别成本。

在本实施方式中，所谓停顿时间，指的是声音片段之间的连续静音片段的持续时间。对于用户停顿时间大于最小预设停顿时间，则判定为逗号短句。则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值？若所述静音帧前的有效声音帧的持续时间大于等于最小预设说话时间阈值，则发送所述有效声音帧的语音数据至语音识别系统进行语音识别。相比于现有技术中等一次性全部说完再发给语音识别系统进行识别，本方案中的处理方式可以使得处理效率大大提高，且使得语音对话会更加流畅。

若在最大预设说话时间阈值内未遇到静音帧，则当超过最大预设说话时间阈值时直接发送所述有效声音帧的语音数据至语音识别系统进行语音识别。即默认为一句句号短句，直接发送语音数据至语音系统进行识别。

语音识别系统接收到语音数据后，语音识别系统会将识别好的语义内容返回至终端设备300。在本实施方式中，优选地使用现有的第三方语音识别系统，亦可以根据终端设备300本身的功能定位，如：如果终端设备300常被应用于医院场所，则也可以根据实际应用场景中经常出现的对话来自己开发语音识别系统。

通过终端设备300接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧，若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间，若用户停顿时间大于等于最小预设停顿时间，则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，则发送所述有效声音帧的语音数据至语音识别系统进行语音识别；若在最大预设说话时间阈值内未遇到静音帧，则当超过最大预设说话时间阈值时直接发送所述有效声音帧的语音数据至语音识别系统进行语音识别；语音识别系统根据语音识别得语义内容，并发送所述语义内容至终端设备300；所述终端设备300根据预设知识图谱对所述语义内容进行分析得用户意图，根据所述用户意图播放所述目标音频文件。在本技术方案中，首先持续收集有效声音帧，但若遇到静音帧的时候，则会先去判断停顿时间是否大于等于最小预设停顿时间，若大于等于最小预设停顿时间，则可以判定用户现在是在有效地停顿，然后紧接着判断在用户停顿之前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，说明前面的有效声音帧为有效的语音，通过该方式，用户只要有效停顿，前面说的话就会被马上上传进行语音识别，可大大提高互动效率。而如果超过最大预设说话时间阈值都没有遇到静音帧的话，则会直接递交语音数据进行语音识别，确保语音识别的有效进行。且当是有效声音的时候才发送给语音识别系统，亦可大大节约语音识别成本。

进一步的，所述终端设备300还用于：判断所述静音帧前的有效声音帧的持续时间是否小于最小预设说话时间阈值，若小于最小预设说话时间阈值，则判定为无效声音。

进一步的，所述终端设备300还用于：所述预设知识图谱上设置有多个节点，每个节点代表一个用户意图；获取语义内容中的关键字，当语义内容中有多个关键字正则匹配上所述预设知识图谱上的节点时，则选定所述节点对应的用户意图为最终的用户意图；或通过语义内容结合当前话题关联性，选取关联性大的用户意图为最终的用户意图；或获取用户属性，结合用户属性、语义内容和预设知识图谱分析得用户意图。

具体可如下：

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种机器人多轮对话语音交互方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种机器人多轮对话语音交互方法，其特征在于，所述“若用户停顿时间大于等于最小预设停顿时间”后，还包括步骤：

3.根据权利要求1所述的一种机器人多轮对话语音交互方法，其特征在于，所述“所述终端设备根据预设知识图谱对所述语义内容进行分析得用户意图”，还包括步骤：

4.根据权利要求3所述的一种机器人多轮对话语音交互方法，其特征在于，还包括步骤：

根据用户属性不同匹配不同预设规则。

5.根据权利要求1所述的一种机器人多轮对话语音交互方法，其特征在于，还包括步骤：交互完后，对整个交互过程中的用户语音数据进行处理，提取结构化数据；

对所述结构化数据进行统计分析，得统计分析结果，

或

6.一种机器人多轮对话语音交互系统，其特征在于，包括：终端设备和语音识别系统，所述终端设备连接所述语音识别系统；所述终端设备用于：接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；若为有效声音，则持续收集有效声音帧，判断在最大预设说话时间阈值内是否遇到静音帧，若遇到静音帧，则当遇到所述静音帧时，判断用户停顿时间是否大于等于最小预设停顿时间，若用户停顿时间大于等于最小预设停顿时间，则判断所述静音帧前的有效声音帧的持续时间是否大于等于最小预设说话时间阈值，若大于等于最小说话时间阈值，则所述语音识别系统用于：发送所述有效声音帧的语音数据至语音识别系统进行语音识别；

7.根据权利要求6所述的一种机器人多轮对话语音交互系统，其特征在于，所述终端设备还用于：判断所述静音帧前的有效声音帧的持续时间是否小于最小预设说话时间阈值，若小于最小说话时间阈值，则判定为无效声音。

8.根据权利要求6所述的一种机器人多轮对话语音交互系统，其特征在于，所述终端设备还用于：所述预设知识图谱上设置有多个节点，每个节点代表一个用户意图；获取语义内容中的关键字，当语义内容中有多个关键字正则匹配上所述预设知识图谱上的节点时，则选定所述节点对应的用户意图为最终的用户意图；或通过语义内容结合当前话题关联性，选取关联性大的用户意图为最终的用户意图；或获取用户属性，结合用户属性、语义内容和预设知识图谱分析得用户意图。

9.一种终端设备，其特征在于，所述终端设备用于：接收语音数据，按帧读取所述语音数据，判断每帧语音数据是否为有效声音；

10.根据权利要求9所述的一种终端设备，其特征在于，所述终端设备还用于：所述预设知识图谱上设置有多个节点，每个节点代表一个用户意图；获取语义内容中的关键字，当语义内容中有多个关键字正则匹配上所述预设知识图谱上的节点时，则选定所述节点对应的用户意图为最终的用户意图；或通过语义内容结合当前话题关联性，选取关联性大的用户意图为最终的用户意图；或获取用户属性，结合用户属性、语义内容和预设知识图谱分析得用户意图。