CN110660393B

CN110660393B - 语音交互方法、装置、设备及存储介质

Info

Publication number: CN110660393B
Application number: CN201911057404.3A
Authority: CN
Inventors: 张新健
Original assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Current assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-12-03
Anticipated expiration: 2039-10-31
Also published as: CN110660393A

Abstract

本发明公开了一种语音交互方法、装置、设备及存储介质，属于语音识别技术领域。本发明在当前交互模式处于儿童模式时，会对用户的语音指令进行语音识别，获得与所述语音指令对应的至少两个文本信息，对所述文本信息进行拼接，基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息，对所述交互信息进行语音播放。本实施例在当前交互模式处于儿童模式时，不再将语音指令对应的各文本信息作为独立的信息，而是将其进行拼接后，对所述拼接结果进行自然语言处理，从而提高了儿童语音的识别性能。

Description

语音交互方法、装置、设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音交互方法、装置、设备及存储介质。

背景技术

空调、电风扇等家电设备已成为人们必不可少的产品，随着人工智能技术的快速发展，具备语音识别功能的家电产品也层出不穷，极大的改善着我们与家电产品的交互和体验。

语音识别功能应用于家庭环境，不仅可以提供本机设备的控制功能，同时也可以提供丰富的内容源及第三方服务，儿童语音的声学和语言学特性随着年龄急剧变化,而且与成人之间存在很大的差异。儿童的说话特点从直观上来说，儿童语音的语速普遍较慢，一字一顿较多。故而，直接采用目前的系统来识别儿童语音，识别性能明显较低。

发明内容

本发明的主要目的在于提供一种语音交互方法、装置、设备及存储介质，旨在解决现有技术中对儿童语音识别性能较低的技术问题。

为实现上述目的，本发明提供一种语音交互方法，所述语音交互方法包括以下步骤：

在当前交互模式处于儿童模式时，获取用户的语音指令；

对所述语音指令进行语音识别，获得与所述语音指令对应的至少两个文本信息；

对所述文本信息进行拼接，获得拼接结果；

基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息；

对所述交互信息进行语音播放。

可选地，所述基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息的步骤，包括：

对所述拼接结果进行文字删减处理，获得多个进行删减处理后的删减文本；

从多个所述删减文本中选取待处理文本；

基于预设内容源对所述待处理文本进行自然语言处理，获得交互信息。

可选地，所述从多个所述删减文本中选取待处理文本的步骤，包括：

对所述删减文本进行遍历；

计算遍历到的当前删减文本与预设语句集合中各语句的匹配率；

将计算的匹配率中的最大值作为所述当前删减文本的匹配率；

在对所述删减文本遍历结束后，将匹配率最高的删减文本作为待处理文本。

可选地，所述在当前交互模式处于儿童模式时，获取用户的语音指令的步骤之前，所述语音交互方法还包括：

获取语音信号；

根据所述语音信号通过基于深度识别技术的唤醒词识别模型进行类型识别，在类型识别结果为儿童时，将当前交互模式设置为儿童模式；或，对所述语音信号进行语音识别，在语音识别结果中具有预设语句时，将当前交互模式设置为儿童模式。

可选地，所述获取语音信号的步骤，包括：

通过麦克风确定声源位置；

根据所述目标声源位置采用波束成形算法通过麦克风采集语音信号。

可选地，所述在当前交互模式处于儿童模式时，获取用户的语音指令的步骤，包括：

在当前交互模式处于儿童模式时，通过预设语音端点检测算法获取用户的语音指令，所述预设语音端点检测算法为增加空挡时间窗口长度的语音端点检测算法。

可选地，所述基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息的步骤之前，所述语音交互方法还包括：

将具有预设标签的内容源作为预设内容源，所述预设标签为用于表征内容源适合儿童的标签；

或，

将预设儿童内容源集合中的内容源作为预设内容源。

此外，为实现上述目的，本发明还提供一种语音交互装置，所述语音交互装置包括：

指令获取模块，用于在当前交互模式处于儿童模式时，获取用户的语音指令；

语音识别模块，用于对所述语音指令进行语音识别，获得与所述语音指令对应的至少两个文本信息；

文本拼接模块，用于对所述文本信息进行拼接，获得拼接结果；

语言处理模块，用于基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息；

语音播放模块，用于对所述交互信息进行语音播放。

此外，为实现上述目的，本发明还提供一种语音交互设备，所述语音交互设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音交互程序，所述语音交互程序配置为实现如上所述的语音交互方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音交互程序，所述语音交互程序被处理器执行时实现如上所述的语音交互方法的步骤。

本发明在当前交互模式处于儿童模式时，会对用户的语音指令进行语音识别，获得与所述语音指令对应的至少两个文本信息，对所述文本信息进行拼接，基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息，对所述交互信息进行语音播放。本实施例在当前交互模式处于儿童模式时，不再将语音指令对应的各文本信息作为独立的信息，而是将其进行拼接后，对所述拼接结果进行自然语言处理，从而提高了儿童语音的识别性能。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的语音交互设备结构示意图；

图2为本发明语音交互方法第一实施例的流程示意图；

图3为本发明语音交互方法第二实施例的流程示意图；

图4为本发明语音交互方法第三实施例的流程示意图；

图5为本发明语音交互装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的语音交互设备结构示意图。

如图1所示，所述语音交互设备可以包括：处理器1001，例如CPU，网络接口1002，存储器1003。网络接口1002可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1003可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储语音交互设备。

在具体实现中，所述语音交互设备即可为家电设备(例如：空调、电视机、洗衣机及电风扇等设备)，还可为智能手机、笔记本电脑、个人电脑及平板电脑等电子设备，本实施例对此不加以限制。

本领域技术人员可以理解，图1中示出的结构并不构成对所述语音交互设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1003中可以包括操作系统、网络通信模块以及语音交互程序。

所述语音交互设备通过处理器1001调用存储器1003中存储的语音交互程序，并执行以下操作：

在当前交互模式处于儿童模式时，获取用户的语音指令；

对所述文本信息进行拼接，获得拼接结果；

对所述交互信息进行语音播放。

进一步地，处理器1001可以调用存储器1003中存储的语音交互程序，还执行以下操作：

从多个所述删减文本中选取待处理文本；

对所述删减文本进行遍历；

获取语音信号；

通过麦克风确定声源位置；

或，

将预设儿童内容源集合中的内容源作为预设内容源。

本实施例在当前交互模式处于儿童模式时，会对用户的语音指令进行语音识别，获得与所述语音指令对应的至少两个文本信息，对所述文本信息进行拼接，基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息，对所述交互信息进行语音播放。本实施例在当前交互模式处于儿童模式时，不再将语音指令对应的各文本信息作为独立的信息，而是将其进行拼接后，对所述拼接结果进行自然语言处理，从而提高了儿童语音的识别性能。

基于上述硬件结构，提出本发明语音交互方法的实施例。

参照图2，图2为本发明语音交互方法第一实施例的流程示意图。

在第一实施例中，所述语音交互方法包括以下步骤：

S10：在当前交互模式处于儿童模式时，获取用户的语音指令。

需要说明的是，对于交互模式而言，可划分为成人模式和儿童模式，所述成人模式即为现有技术中的语音交互模式，所述儿童模式即为可按照本实施例的方法进行语音识别的模式。

应理解的是，语音交互设备在进行语音指令的获取时，通常会通过预设语音端点检测(Voice Activity Detection，VAD)算法获取用户的语音指令，其目的是从一段给定的语音中找出起始点和结束点，为后续的处理做必要的准备，成人由于思想体系与语言系统已经成熟，说话方式是明确的，传统的VAD算法可以有效的判别成人一段语音的开始结束，若当前交互模式处于儿童模式，而儿童与成人之间存在很大的差异。儿童的说话特点是语速普遍较慢,一字一顿较多，且在表达连续的意图时，说话中间会有意象不到的停顿，从而造成传统VAD算法只能检测到前面说的一段语音而漏掉后面的一段语音，为了避免该问题，从而采集到儿童完整的语音指令，此时，可通过预设语音端点检测算法获取用户的语音指令，所述预设语音端点检测算法为增加空挡时间窗口长度的语音端点检测算法，所述增加空挡时间窗口长度可理解为相比传统VAD算法而言，其空挡时间窗口长度有所增加，例如：传统空挡时间窗口长度为1秒，此时，增加空挡时间窗口长度可设置为2秒、3秒等时长，使得端点检测算法对于语音片段中的未发音部分及静默部分时间容忍度加大，从而算法上可以给声音片段更多的空挡时间窗口，实现容纳儿童连续语音片段中更多空挡时间，提高得到一段儿童连续语音的能力，最终获得“更长”的语音指令。

S20：对所述语音指令进行语音识别，获得与所述语音指令对应的至少两个文本信息。

可理解的是，由于儿童的语言通常情况下会存在停顿，故而，对所述语音指令进行语音识别，可获得与所述语音指令对应的至少两个文本信息，例如：语音指令为“给我讲……个故事”，此时，可获得两个文本信息，分别为“给我讲”和“个故事”两个文本信息。

S30：对所述文本信息进行拼接，获得拼接结果。

在具体实现中，在对所述文本信息进行拼接后，即可获得拼接结果“给我讲个故事”。

假设按照成人模式的语音交互模式会将上述两个文本信息作为分别独立的信息，分别寻找对应的交互结果，但由于上述两个文本信息单独来看并没有组成有效的控制指令，故而，对所述控制命令不会有任何的响应。

S40：基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息。

可理解的是，对于所述自然语言处理可采用本地处理的方式实现，也就是说，在语音交互设备本地设置自然语言处理以及存储内容源的部件，通过这种方式，需要增加语音交互设备的处理负担，但可在不连网状态下进行自然语言处理。

当然，对于所述自然语言处理，还可采用服务器处理的方式实现，也就是说，设置一个用于进行自然语言处理的服务器(也可以为云服务器)，服务器可与语音交互设备进行数据交互，此时，服务器可在网络中寻找更加丰富的内容源，但由于其需要进行数据交互，故而，需要保证语音交互设备处于连网状态下。

应理解的是，按照上述拼接结果“给我讲个故事”而言，在基于预设内容源对所述拼接结果进行自然语言处理后，即可从预设内容源中查找到一个故事，并将查找到的故事作为交互信息。

由于儿童对于内容质量的分辨能力不足，而语音系统中通常存在很大一部分适用于成人的内容源，混用同一套内容源的情况下，儿童必然会接触到很多成人内容源，而这部分内容很可能并非是儿童自己想要寻找的，并且成人内容源可能包含了很多儿童不宜的资源，整体降低了语音产品对儿童用户的使用体验，为解决上述问题，本实施例中，可在步骤S40之前，可选择适合儿童的内容源对所述拼接结果进行自然语言处理，从而对儿童屏蔽掉部分不适合的成人内容，实现试听净化，保护儿童尚未成熟的认知体系。

在具体实现中，可能需要即时抓取内容源，在抓取内容源时，可通过关键词的匹配来对内容源打标签，例如：“成人”标签或“儿童”标签，此时，可将具有预设标签(即“儿童”标签)的内容源作为预设内容源，所述预设标签为用于表征内容源适合儿童的标签。

当然，还有一种情况是，可预先建立适合儿童的预设儿童内容源集合，此时，可直接将预设儿童内容源集合中的内容源作为预设内容源，例如预设儿童内容源集合中可拓展覆盖天文、地理、动植物、世界之最、万物起源等等儿童兴趣的领域，使得儿童交互体验更好。

另外，还可能会出现自然语言处理失败的情况，此时，不对所述语音指令进行响应即可，当然，还可进行再次输入语音指令的提示。

S50：对所述交互信息进行语音播放。

在具体实现中，可对所述交互信息进行语音播放，从而完成语音交互。

参照图3，图3为本发明语音交互方法第二实施例的流程示意图，基于上述图2所示的实施例，提出本发明语音交互方法的第二实施例。

在第二实施例中，步骤S40包括：

S41：对所述拼接结果进行文字删减处理，获得多个进行删减处理后的删减文本。

S42：从多个所述删减文本中选取待处理文本。

S43：基于预设内容源对所述待处理文本进行自然语言处理，获得交互信息。

需要说明的是，由于儿童的语言还可能会出现停顿较多的情况，故而，对所述语音指令进行语音识别，可获得与所述语音指令对应的至少两个文本信息，例如：语音指令为“给我讲……嗯嗯……讲……个故事”，此时，可获得四个文本信息，分别为“给我讲”、“嗯嗯”、“讲”和“个故事”四个文本信息，故而，拼接结果为“给我讲嗯嗯讲个故事”，但直接进行自然语言处理，会难以确定用户的意图，因此，本实施例中可先对所述拼接结果进行文字删减处理，获得多个进行删减处理后的删减文本，例如：删减文本分别为“给我讲嗯讲个故事”、“给我讲讲个故事”、“给我嗯讲个故事”和“给我讲个故事”。

为了保证选取的待处理文本是最有可能能够确定用户的意图的，本实施例中，可先对所述删减文本进行遍历，再计算遍历到的当前删减文本与预设语句集合中各语句的匹配率，将计算的匹配率中的最大值作为所述当前删减文本的匹配率，最后在对所述删减文本遍历结束后，将匹配率最高的删减文本作为待处理文本。

可理解的是，所述预设语句集合中的各语句可理解为较为标准的语句，例如：“给我讲个故事”、“给我放首歌曲”等。

在计算遍历到的当前删减文本与预设语句集合中各语句的匹配率时，可按照匹配的字数来计算匹配率，例如：在当前删减文本为“给我讲嗯讲个故事”时，其与预设语句集合中的“给我讲个故事”的匹配字数为6，由于当前删减文本的总字数为8，此时匹配度可计算为6/8＝75％；在当前删减文本为“给我讲讲个故事”时，其与预设语句集合中的“给我讲个故事”的匹配字数为6，由于当前删减文本的总字数为7，此时匹配度可计算为6/7＝86％；在当前删减文本为“给我嗯讲个故事”时，其与预设语句集合中的“给我讲个故事”的匹配字数为6，由于当前删减文本的总字数为7，此时匹配度可计算为6/7＝86％；在当前删减文本为“给我讲个故事”时，其与预设语句集合中的“给我讲个故事”的匹配字数为6，由于当前删减文本的总字数为6，此时匹配度可计算为6/6＝100％。

本实施例通过对所述拼接结果进行文字删减处理，获得多个进行删减处理后的删减文本，从多个所述删减文本中选取待处理文本，再基于预设内容源对所述待处理文本进行自然语言处理，获得交互信息，能够保证在儿童的语言出现停顿较多时，准确识别用户意图。

参照图4，图4为本发明语音交互方法第三实施例的流程示意图，基于上述图2所示的实施例，提出本发明语音交互方法的第三实施例。

在第三实施例中，步骤S10之前，所述语音交互方法还包括：

S01：获取语音信号。

可理解的是，由于儿童的声音音量可能较低，为了获得更加准确的语音信号，本实施例中，可通过麦克风确定声源位置，再根据所述目标声源位置采用波束成形算法通过麦克风采集语音信号。

当然，在采用波束成形算法之前时，还可先对麦克风采集到的语音信号预先进行回声消除、抗混响、降噪及人声增强及自动增益控制等处理。

其中，所述波束成形算法是阵列信号处理的一个非常重要的技术，其主要功能包括形成基阵系统的方向性，进行空域滤波，抑制空间干扰与环境噪声，提高信噪比。

S02：根据所述语音信号通过基于深度识别技术的唤醒词识别模型进行类型识别，在类型识别结果为儿童时，将当前交互模式设置为儿童模式；或，对所述语音信号进行语音识别，在语音识别结果中具有预设语句时，将当前交互模式设置为儿童模式。

需要说明的是，由于成人模式是更有可能出现的，故而，通常情况下默认的交互模式为成人模式，在某些特定情况下，可能需要触发儿童模式。

对于儿童模式的触发而言，，可采用多种方式，为了保证儿童模式触发的准确性，以下以两种方式为例进行说明。

第一种方式为：基于语音信号的特点来触发的方式。也就是说，在获取语音信号后，可根据所述语音信号通过基于深度识别技术的唤醒词识别模型进行类型识别，在类型识别结果为儿童时，将当前交互模式设置为儿童模式。

在具体实现中，由于儿童语音的声学和语言学特性随着年龄急剧变化,而且与成人之间存在很大的差异。儿童的说话特点从直观上来说,儿童语音的语速普遍较慢,一字一顿较多,有较严重的稚音；从声道特征来说,儿童的声道长度比成年人的短，故而，本实施例中，可获取大量的成人语音样本和儿童语音样本，通过这些样本通过深度识别技术对预设模型进行训练，从而获得基于深度识别技术的唤醒词识别模型。

第二种方式为：基于语音内容来触发的方式。也就是说，在获取语音信号后，可对所述语音信号进行语音识别，在语音识别结果中具有预设语句时，将当前交互模式设置为儿童模式。

当然，还可采用其他方式来触发儿童模式，本实施例对此不加以限制。

可理解的是，所述预设语句即为“开启儿童模式”及“启动儿童模式”等语句。

此外，本发明实施例还提出一种语音交互装置，参照图5，所述语音交互装置包括：

指令获取模块510，用于在当前交互模式处于儿童模式时，获取用户的语音指令；

语音识别模块520，用于对所述语音指令进行语音识别，获得与所述语音指令对应的至少两个文本信息；

文本拼接模块530，用于对所述文本信息进行拼接，获得拼接结果；

语言处理模块540，用于基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息；

语音播放模块550，用于对所述交互信息进行语音播放。

上述装置中的各模块可用于实现上述方法中的各个步骤，在此不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有语音交互程序，所述语音交互程序被处理器执行时实现如下操作：

在当前交互模式处于儿童模式时，获取用户的语音指令；

对所述文本信息进行拼接，获得拼接结果；

对所述交互信息进行语音播放。

上述存储介质中的语音交互程序被处理器执行时用于实现上述方法中的各个步骤，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音交互方法，其特征在于，所述语音交互方法包括以下步骤：

在当前交互模式处于儿童模式时，获取用户的语音指令；

对所述文本信息进行拼接，获得拼接结果；

对所述交互信息进行语音播放。

2.如权利要求1所述的语音交互方法，其特征在于，所述基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息的步骤，包括：

从多个所述删减文本中选取待处理文本；

3.如权利要求2所述的语音交互方法，其特征在于，所述从多个所述删减文本中选取待处理文本的步骤，包括：

对所述删减文本进行遍历；

4.如权利要求1～3中任一项所述的语音交互方法，其特征在于，所述在当前交互模式处于儿童模式时，获取用户的语音指令的步骤之前，所述语音交互方法还包括：

获取语音信号；

对所述语音信号进行语音识别，在语音识别结果中具有预设语句时，将当前交互模式设置为儿童模式。

5.如权利要求4所述的语音交互方法，其特征在于，所述获取语音信号的步骤，包括：

采集初始音频信号；

根据所述初始音频信号通过麦克风确定所述初始音频信号对应的声源位置；

根据所述声源位置采用波束成形算法对所述初始音频信号进行处理，得到对应的语音信号。

6.如权利要求1～3中任一项所述的语音交互方法，其特征在于，所述在当前交互模式处于儿童模式时，获取用户的语音指令的步骤，包括：

7.如权利要求1～3中任一项所述的语音交互方法，其特征在于，所述基于预设内容源对所述拼接结果进行自然语言处理，获得交互信息的步骤之前，所述语音交互方法还包括：

或，

将预设儿童内容源集合中的内容源作为预设内容源。

8.一种语音交互装置，其特征在于，所述语音交互装置包括：

语音播放模块，用于对所述交互信息进行语音播放。

9.一种语音交互设备，其特征在于，所述语音交互设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音交互程序，所述语音交互程序配置为实现如权利要求1至7中任一项所述的语音交互方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音交互程序，所述语音交互程序被处理器执行时实现如权利要求1至7中任一项所述的语音交互方法的步骤。