CN109243450A

CN109243450A - 一种交互式的语音识别方法及系统

Info

Publication number: CN109243450A
Application number: CN201811213056.XA
Authority: CN
Inventors: 饶竹; 饶竹一; 张云翔
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-01-18

Abstract

本发明提供一种交互式的语音识别方法，该方法包括下述步骤：向用户显示页面，所显示的页面对应语音识别设备提供的业务类型；获取用户录入的语音并将用户录入的语音转化为对应的语音信号；将所述语音信号转化为对应的第一文本，并从设定的文本数据信息中选取与所述第一文本最接近的第二文本；获取与所显示的页面的业务类型相关联的指令作为语音指令，并判断所述第二文本与所述语音指令是否匹配，若是，控制所述语音识别设备开启与所述第二文本对应的语音交互模式。采用本发明，当用户使用语音识别设备时，不需要额外的手动操作，提高用户的体验。

Description

一种交互式的语音识别方法及系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种交互式的语音识别方法及系统。

背景技术

随着电子技术的不断发展，各种交互式系统都采用了语音交互的方式，语音交互已成为一种重要的人机交互方式，以提高与用户的互动效率和提高趣味性。例如问答系统，先通过语音或图像显示的方式向用户抛出问题，然后用户语音回答。再例如一些展示系统，需要用户发出语音指令来选择展示哪些目录中的内容。在这些场景下都需要对用户的语音进行准确识别，才能在问答系统下判断用户给出的语音答案是否正确，以及在展示系统下判断用户到底选择了哪些目录，以便展示相应目录中的内容。

让机器听懂人的语言一直是人类的梦想，让机器听懂中国话更是中国人的梦想，世界上众多的从事信息产业的公司都展示了各自的语音识别技术。语音识别技术，是将人类说话的声音识别并转换为文本的技术，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，在各种智能设备上利用语音识别技术进行人机交互，并进行各项操作成为重要的功能是实现人机交互的重要途径之一。

然而，目前对于语音识别的输入，需要先开启语音输入的功能。常规的开启方式为，在语音设备上设置开启按钮，通过点击该按钮，启动语音识别功能。由于通过点击按钮的方式启动语音识别功能，需要用户额外进行手动操作，这给用户带来不好的体验。

因而，需要找到一种新的交互式的语音识别方法，并可进一步发展基于语音识别的语音交互系统，以克服上述问题。

发明内容

为解决上述技术问题，本发明提供一种交互式的语音识别方法及系统，当用户使用语音识别设备时，不需要额外的手动操作，提高用户的体验。

本发明提供的一种交互式的语音识别方法，包括下述步骤：

S1、向用户显示页面，所显示的页面对应语音识别设备提供的业务类型；

S2、获取用户录入的语音并将用户录入的语音转化为对应的语音信号；

S3、将所述语音信号转化为对应的第一文本，并从设定的文本数据信息中选取与所述第一文本最接近的第二文本；

S4、获取与所显示的页面的业务类型相关联的指令作为语音指令，并判断所述第二文本与所述语音指令是否匹配，若是，控制所述语音识别设备开启与所述第二文本对应的语音交互模式。

优选地，步骤S4中，获取与所显示的页面的业务类型相关联的指令作为语音指令，包括：

接收来自服务器的原始指令，并按照设定的规则，将所述原始指令解析成与所显示的页面的业务类型相关联的语音指令。

优选地，还包括下述步骤：

将与所述第二文本匹配的语音指令发送至服务器。

优选地，步骤S4中，控制所述语音识别设备开启与所述第二文本对应的语音交互模式，包括：

识别与所述第二文本匹配的语音指令，判断与所述第二文本匹配的语音指令是语音操作控制指令，还是语音文本输入指令，若与所述第二文本匹配的语音指令是语音操作控制指令，则控制所述语音识别设备开启语音操作的交互模式，若与所述第二文本匹配的语音指令是语音文本输入指令，则控制所述语音识别设备开启语音文本的交互模式。

优选地，步骤S4中，还包括下述步骤：

当所述第二文本与所述语音指令匹配时，还显示与所述第二文本匹配的语音指令的执行结果。

本发明还提供一种交互式的语音识别系统，包括：

显示模块，用于向用户显示页面，所显示的页面对应语音识别设备提供的业务类型；

提取模块，用于获取用户录入的语音并将用户录入的语音转化为对应的语音信号；

转换模块，用于将所述语音信号转化为对应的第一文本，并从设定的文本数据信息中选取与所述第一文本最接近的第二文本；

启动模块，用于获取与所显示的页面的业务类型相关联的指令作为语音指令，并判断所述第二文本与所述语音指令是否匹配，若是，控制所述语音识别设备开启与所述第二文本对应的语音交互模式。

优选地，所述启动模块，用于接收来自服务器的原始指令，并按照设定的规则，将所述原始指令解析成与所显示的页面的业务类型相关联的语音指令。

优选地，所述启动模块，用于识别与所述第二文本匹配的语音指令，判断与所述第二文本匹配的语音指令是语音操作控制指令，还是语音文本输入指令，若与所述第二文本匹配的语音指令是语音操作控制指令，则控制所述语音识别设备开启语音操作的交互模式，若与所述第二文本匹配的语音指令是语音文本输入指令，则控制所述语音识别设备开启语音文本的交互模式。

优选地，所述显示模块，还用于当所述第二文本与所述语音指令匹配时，还显示与所述第二文本匹配的语音指令的执行结果。

实施本发明，具有如下有益效果：本发明将用户录入的语音最后转化为对应的第二文本，当第二文本与显示页面的业务类型对应的语音指令相匹配时，则开启相应的语音交互模式。采用动态生成的唤醒词(即根据用户录入的语音转化而成的第二文本)与语音识别装置的具体业务紧密结合，不需要用户特地用固定唤醒词开启语音业务，从而提高用户的体验；可以实现全程语音操作，不用用户手动参与，操作上更加方便。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的交互式的语音识别方法的流程图。

图2是本发明提供的交互式的语音识别系统的原理框图。

图3是本发明提供的存储器与处理器的示意图。

具体实施方式

本发明提供一种交互式的语音识别方法，如图1所示，该方法包括下述步骤：

S3、将语音信号转化为对应的第一文本，并从设定的文本数据信息中选取与第一文本最接近的第二文本；

S4、获取与所显示的页面的业务类型相关联的指令作为语音指令，并判断第二文本与语音指令是否匹配，若是，控制语音识别设备开启与第二文本对应的语音交互模式。

例如，所显示页面的业务类型包括：音乐播放、视频播放、新闻播放等，音乐播放、视频播放、新闻播放等三种业务类型分别对应三种不同的语音指令，当第二文本与音乐播放的语音指令相匹配时，则控制语音识别设备开始播放音乐，当第二文本与视频播放的语音指令相匹配时，则控制语音识别设备开始播放视频。

当然，所显示的页面的业务类型也可以是一种业务类型，例如为音乐播放的类型，当第二文本与该业务类型对应的语音指令相匹配时，则控制语音识别设备开始播放音乐。

在执行步骤S1时，还可以包括步骤：结合所显示的页面，预先给用户语音提示。例如，所显示的页面为省市查询的页面，则可以进行语音提示：请说出你查询的省市的名称。

进一步地，步骤S4中，获取与所显示的页面的业务类型相关联的指令作为语音指令，包括：

接收来自服务器的原始指令，并按照设定的规则，将原始指令解析成与所显示的页面的业务类型相关联的语音指令。

来自服务器的原始指令，可以是将语音识别设备当前显示页面的业务类型相关联的多条语音指令进行压缩后的指令；按照设定的规则，将原始指令解析成与所显示页面的业务类型相关联的语音指令，也即是将压缩后的指令进行解压。

进一步地，交互式的语音识别方法还包括下述步骤：

将与第二文本匹配的语音指令发送至服务器，服务器将该语音指令存储备用。

进一步地，步骤S4中，控制语音识别设备开启与第二文本对应的语音交互模式，包括：

识别与第二文本匹配的语音指令，判断与第二文本匹配的语音指令是语音操作控制指令，还是语音文本输入指令，若与第二文本匹配的语音指令是语音操作控制指令，则控制语音识别设备开启语音操作的交互模式，若与第二文本匹配的语音指令是语音文本输入指令，则控制语音识别设备开启语音文本的交互模式。

将接收到的语音指令进行命令字转换，通过对命令字的判断(具体的，将语音指令的命令字与预设的命令字进行比对判断)，进而判断各语音识别设备接收的语音指令是语音操作控制指令，还是语音文本输入指令。

例如，与第二文本匹配的语音指令识别结果为“太太下班接孩子”，则判断识别结果的类型为语音操作控制指令，语音识别设备通过第三方应用程序执行呼叫太太的操作。若语音指令的识别结果为“谢谢”，则判断识别结果的类型为语音文本输入指令，语音识别设备通过第三方应用程序生成“谢谢”的文本信息。

进一步地，步骤S4中，还包括下述步骤：

当第二文本与语音指令匹配时，在启动语音交互模式的同时，还显示与第二文本匹配的语音指令的执行结果。

本发明还提供一种交互式的语音识别系统，如图2所示，交互式的语音识别系统1包括：显示模块11、提取模块12、转换模块13、启动模块14。

显示模块11用于向用户显示页面，所显示的页面对应语音识别装置提供的业务类型。

提取模块12用于获取用户录入的语音并将用户录入的语音转化为对应的语音信号。

转换模块13用于将语音信号转化为对应的第一文本，并从设定的文本数据信息中选取与第一文本最接近的第二文本。

启动模块14用于获取与所显示的页面的业务类型相关联的指令作为语音指令，并判断第二文本与语音指令是否匹配，若是，控制语音识别设备开启与第二文本对应的语音交互模式。

上述的提取模块12、转换模块13、启动模块14均可以是软件程序实现，其对应的软件程序存储于图3所示的存储器21中，通过处理器22加载存储器21中的软件程序并执行，存储器21与处理器22之间通过通信总线23连接通信。

存储器可能包含高速RAM(random access memory，随机存取存储器)存储器，也可能还包含非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器可以包含至少一个存储装置。

处理器可能是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。上述处理器可以是微处理器或者上述处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

优选的，语音识别设备还包括提示模块(图中未示出)和指令发送模块(图中未示出)。

提示模块用于在向用户显示页面时，结合所显示的页面，预先给用户语音提示。

指令发送模块用于将与第二文本匹配的语音指令发送至服务器，服务器将该语音指令存储备用。

进一步地，启动模块14用于接收来自服务器的原始指令，并按照设定的规则，将原始指令解析成与所显示的页面的业务类型相关联的语音指令。

进一步地，启动模块14用于识别与第二文本匹配的语音指令，判断与第二文本匹配的语音指令是语音操作控制指令，还是语音文本输入指令，若与第二文本匹配的语音指令是语音操作控制指令，则控制语音识别设备开启语音操作的交互模式，若与第二文本匹配的语音指令是语音文本输入指令，则控制语音识别设备开启语音文本的交互模式。

进一步地，显示模块11还用于当第二文本与语音指令匹配时，还显示与第二文本匹配的语音指令的执行结果。

综上所述，本发明提供的交互式的语音识别方法及系统，通过获取用户录入的语音，并将用户录入的语音转化为对应的语音信号，再将语音信号转换为第一文本，根据第一文本按照预设规则转换为第二文本；获取当前所显示的页面的业务类型相应的语音指令，判断语音指令与第二文本是否匹配，若匹配，则显示与第二文本匹配的语音指令的执行结果，同时启动语音交互模式。

所以，本发明达到了以下技术效果：采用动态生成的唤醒词(即根据用户录入的语音转化的第一文本，根据第一文本转化而成的第二文本)与语音识别装置的具体业务紧密结合，不需要用户特地用固定唤醒词开启语音业务，从而提高用户的体验；可以实现全程语音操作，不用用户手动参与，操作上更加方便。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种交互式的语音识别方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的交互式的语音识别方法，其特征在于，步骤S4中，获取与所显示的页面的业务类型相关联的指令作为语音指令，包括：

3.根据权利要求1所述的交互式的语音识别方法，其特征在于，还包括下述步骤：

将与所述第二文本匹配的语音指令发送至服务器。

4.根据权利要求1所述的交互式的语音识别方法，其特征在于，步骤S4中，控制所述语音识别设备开启与所述第二文本对应的语音交互模式，包括：

5.根据权利要求1所述的交互式的语音识别方法，其特征在于，步骤S4中，还包括下述步骤：

6.一种交互式的语音识别系统，其特征在于，包括：

7.根据权利要求6所述的交互式的语音识别系统，其特征在于，

所述启动模块，用于接收来自服务器的原始指令，并按照设定的规则，将所述原始指令解析成与所显示的页面的业务类型相关联的语音指令。

8.根据权利要求6所述的交互式的语音识别系统，其特征在于，

所述启动模块，用于识别与所述第二文本匹配的语音指令，判断与所述第二文本匹配的语音指令是语音操作控制指令，还是语音文本输入指令，若与所述第二文本匹配的语音指令是语音操作控制指令，则控制所述语音识别设备开启语音操作的交互模式，若与所述第二文本匹配的语音指令是语音文本输入指令，则控制所述语音识别设备开启语音文本的交互模式。

9.根据权利要求6所述的交互式的语音识别系统，其特征在于，

所述显示模块，还用于当所述第二文本与所述语音指令匹配时，还显示与所述第二文本匹配的语音指令的执行结果。