CN107018228A

CN107018228A - 一种语音控制系统、语音处理方法及终端设备

Info

Publication number: CN107018228A
Application number: CN201610061640.2A
Authority: CN
Inventors: 李向阳
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2017-08-04
Anticipated expiration: 2036-01-28
Also published as: WO2017128775A1; CN107018228B

Abstract

本发明提供一种语音控制系统、语音处理方法及终端设备，该语音控制系统搭载在一终端设备上，终端设备上还搭载有多个不同的语音业务应用，语音控制系统包括：配置模块和多个语音引擎模块；其中，配置模块用于根据不同的语音业务应用的绑定请求将语音业务应用与至少一个语音引擎模块绑定；语音引擎模块用于对输入语音业务应用的输入信息进行处理，并将处理结果输出给对应的语音业务应用，使得语音业务应用利用处理结果来进行语音控制。本发明实施例通过提供一语音控制系统，对搭载在同一终端设备上的多个语音业务应用提供统一的语音服务支撑，从而满足各个语音业务应用不同的差异性需求，同时达到降低资源占用，提升效率的目的。

Description

一种语音控制系统、语音处理方法及终端设备

技术领域

本发明涉及通信技术领域，特别涉及一种语音控制系统、语音处理方法及终端设备。

背景技术

随着移动通信技术迅猛发展，第四代数字通信(4G)时代开始普及，移动终端已成为人们日常生活的必需品，智能移动终端的硬件配置越来越高，目前其功能已极其繁杂，业务也迅速增多，这一方面满足了用户的多种需要，用户能够从小小的移动终端上获得海量的信息，满足不同用户群体的多种需求，但另一方面手机终端所嵌入的功能越多、各模块的功能越强大，其控制也就越复杂，控制流程也就越繁琐，从而给用户带来极大的困扰和不便。智能语音技术在解决此类问题上有显出极大的优势，能够极大地提高人机交互的体验，所以目前基于嵌入式终端的语音产品也越来越多。

目前，现有技术中基于嵌入式终端的语音产品都是各自独立的，包括语音服务和上层业务逻辑，终端如果支持多个语音应用时，占用的资源较大。另一方面，目前语音服务的支持普遍存在较大的封闭性和技术门槛，使其开发使用的便利性大大降低，也使其差异化的语音业务无法实现。即目前的各类终端语音业务应用是独立的，业务逻辑和对应的语音功能的支持耦合在一起，其功能范畴也相对固定，同一终端上的不同的语音业务软件即使含有相同的语音引擎支持，也彼此独立。

发明内容

本发明的目的在于提供一种语音控制系统、语音处理方法及终端设备，解决了现有技术中终端设备设备上的多个语音应用彼此独立，占用的资源较大的问题。

为了达到上述目的，本发明实施例提供一种语音控制系统，所述语音控制系统搭载在一终端设备上，所述终端设备上还搭载有多个不同的语音业务应用，所述语音控制系统包括：配置模块和多个语音引擎模块；其中，

所述配置模块用于根据不同的语音业务应用的绑定请求将所述语音业务应用与至少一个语音引擎模块绑定；

所述语音引擎模块用于对输入所述语音业务应用的输入信息进行处理，并将处理结果输出给对应的语音业务应用，使得所述语音业务应用利用所述处理结果来进行语音控制。

其中，所述语音控制系统还包括：

与所述语音引擎模块和所述配置模块连接的业务流程组件模块，所述业务流程组件模块用于对所述语音引擎模块、所述配置模块以及所述语音业务应用之间的业务流程交互进行逻辑控制。

其中，所述语音引擎模块是语音识别ASR模块、语音合成TTS模块、自然语义理解NLU模块或者声纹识别VPR模块。

其中，所述语音控制系统还包括：

与所述语音识别ASR模块和所述自然语义理解NLU模块对应的语音识别接口、与所述语音合成TTS模块对应的语音合成接口以及与所述声纹识别VPR模块对应的声纹识别接口中的一个或多个。

其中，所述语音控制系统还包括：

与所述业务流程组件模块对应的对外接口。

本发明实施例还提供一种多个语音业务应用的语音处理方法，所述多个语音业务应用搭载于同一终端设备上，所述语音处理方法包括：

根据不同的语音业务应用的绑定请求，与所述语音业务应用进行绑定；

针对已绑定的语音业务应用，对输入所述语音业务应用的输入信息进行处理，并将处理结果输出给对应的语音业务应用，使得所述语音业务应用利用所述处理结果来进行语音控制。

其中，所述多个语音业务应用在不同时间交叉处于激活状态。

其中，所述语音业务包括语音识别ASR业务、语音合成TTS业务、自然语义理解NLU业务或者声纹识别VPR业务。

本发明实施例还提供一种终端设备，包括语音控制系统，所述语音控制系统搭载在所述终端设备上，所述终端设备上还搭载有多个不同的语音业务应用，所述语音控制系统包括：配置模块和多个语音引擎模块；其中，

其中，所述语音控制系统还包括：

本发明的上述技术方案至少具有如下有益效果：

本发明实施例的语音控制系统、语音处理方法及终端设备中，通过提供一语音控制系统，对搭载在同一终端设备上的多个语音业务应用提供统一的语音服务支撑，从而满足各个语音业务应用不同的差异性需求，同时达到降低资源占用，提升效率的目的。

附图说明

图1表示本发明实施例提供的语音控制系统的组成结构示意图；

图2表示本发明实施例提供的语音处理方法的基本步骤流程图；

图3表示本发明实施例提供的语音控制系统中语音识别状态转移图；

图4表示本发明实施例提供的语音控制系统中语音合成状态转移图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有技术中终端设备设备上的多个语音应用彼此独立，占用的资源较大的问题，提供一种语音控制系统、语音处理方法及终端设备，通过提供一语音控制系统，对搭载在同一终端设备上的多个语音业务应用提供统一的语音服务支撑，从而满足各个语音业务应用不同的差异性需求，同时达到降低资源占用，提升效率的目的。

如图1所示，本发明实施例提供一种语音控制系统，所述语音控制系统搭载在一终端设备上，所述终端设备上还搭载有多个不同的语音业务应用，所述语音控制系统包括：配置模块10和多个语音引擎模块20；其中，

所述配置模块10用于根据不同的语音业务应用的绑定请求将所述语音业务应用与至少一个语音引擎模块绑定；

所述语音引擎模块20用于对输入所述语音业务应用的输入信息进行处理，并将处理结果输出给对应的语音业务应用，使得所述语音业务应用利用所述处理结果来进行语音控制。

本发明的上述实施例中，配置模块10主要实现该语音控制系统的可配置化，可以根据不同的需求场景，对语音平台系统进行语音引擎的可配置化；根据需要可以对语音引擎模块20各组合进行配置，可以只支持其中一个语音引擎模块20，也可以支持任何可选语音引擎模块的子集。同时还可对语音控制系统进行语音语种的可配置化，根据不同地域的需求，对所支持语音服务进行语种配置，以实现语音应用的本地化。对于上层需要实现语音功能的语音业务应用软件，根据其实现语音的功能需要，在其启动的时候，需绑定语音控制系统。例如，某应用软件只需要语音识别的功能，就仅需要与语音识别模块(语音引擎模块的一种)绑定，就可以通过语音识别模块来实现从音频输入到识别结果输出的整个功能，其语音业务应用只需要利用识别结果来处理控制逻辑即可。

进一步的，本发明的上述实施例中所述语音控制系统还包括：

与所述语音引擎模块20和所述配置模块10连接的业务流程组件模块30，所述业务流程组件模块30用于对所述语音引擎模块20、所述配置模块10以及所述语音业务应用之间的业务流程交互进行逻辑控制。

本发明的上述实施例提供的业务流程组件模块30包括常用于终端设备的语音通用标准流程组件，此组件除了支持上述多个语音引擎模块20支持的功能外，还包含了终端设备的其他常用功能的业务流程交互逻辑控制。如图1所示，业务流程组件模块30包含多个业务流程组件，终端设备的一个业务应用可对应一个或多个业务流程组件，一个业务流程组件也可用于一个或多个终端设备的业务应用，在此不进行具体限定。

具体的，本发明的上述实施例中，所述语音引擎模块是语音识别ASR模块、语音合成TTS模块、自然语义理解NLU模块或者声纹识别VPR模块。其中，语音识别(ASR)模块：语音识别模块主要对用户输入的音频录音通过模式识别等各种算法进行分析识别，最后将识别结果以约定的文本格式输出，结束本次识别。其中，语音识别模块包含语音唤醒子模块，语音唤醒子模块用于对用户预先设置的唤醒词进行持续识别，与普通识别类似的，语音唤醒子模块对用户根据唤醒词输入的音频进行分析识别，返回约定格式的文本效果后，立即开始下次录音监听，使得用户可随时输入音频进行识别。

语音合成TTS模块：语音合成模块主要根据用户输入的文本数据流，通过合成算法将文本数据与音频数据对应起来，最终将输入的文本数据流合成为音频数据流输出。

自然语义理解NLU模块：对用户的音频输入进行识别，并在识别的基础上进行进一步的语义分析，得到用户话语的真实意图，并根据用户意图提供进一步的信息内容的资源。

声纹识别VPR模块：声纹识别模块首先根据用户输入的音频数据，对其进行数据采集和特征提取，提取用户的音频特征和相关参数并保存，对以后用户的音频输入进行匹配和鉴权，主要用户安全场景。

较佳的，本发明的上述实施例中所述语音控制系统还包括：

本发明实施例提供的语音控制系统根据其语音功能封装统一的对外接口，如语音识别(ASR)功能提供统一的语音识别接口，语音合成(TTS)功能提供统一的语音合成接口，语音唤醒提供统一的语音唤醒接口，声纹识别(VPR)提供统一的声纹识别的接口。

进一步的，本发明实施例提供的语音控制系统还提供与所述业务流程组件模块30对应的对外接口。

对于上层需要实现语音功能的业务应用软件，根据其实现语音的功能需要，在其启动的时候，绑定语音控制系统，并调用其需要的对应的语音功能接口，例如某应用软件只需要语音识别的功能，就可以通过调用语音识别的接口来实现从音频输入到识别结果输出的整个功能，其应用只需利用识别结果来处理控制逻辑即可，同样的，应用也可根据自身需要同时调用语音平台支持的多个语音功能模块接口来实现相对应的语音功能。进一步地，上层应用软件也可通过调用语音平台系统的与业务流程组件模块30对应的对外接口来方便地同时实现对应的业务的语音功能支持和控制逻辑。

综上，本发明实施例提供的语音控制系统为智能终端上的语音业务应用提供统一的语音服务，终端上所有的语音业务应用都可以通过调用语音控制系统而获得对应的语音服务，而不必再各自独立包含语音引擎，大大节省了对资源的占用；同时，语音平台引擎的可配置化可以满足不同语音业务的差异性需求，大大便利了不同语音业务的集成，提高了终端的用户体验。

为了更好的实现上述目的，如图2所示，本发明实施例还提供一种多个语音业务应用的语音处理方法，所述多个语音业务应用搭载于同一终端设备上，所述语音处理方法包括：

步骤21，根据不同的语音业务应用的绑定请求，与所述语音业务应用进行绑定；

步骤22，针对已绑定的语音业务应用，对输入所述语音业务应用的输入信息进行处理，并将处理结果输出给对应的语音业务应用，使得所述语音业务应用利用所述处理结果来进行语音控制。

进一步的，本发明提供的语音处理方法中所述多个语音业务应用在不同时间交叉处于激活状态。

具体的，所述语音业务包括语音识别ASR业务、语音合成TTS业务、自然语义理解NLU业务或者声纹识别VPR业务。本发明实施例中提及的多个语音业务即为上述语音业务中的任意两个或多个的组合。

其中，语音识别(ASR)业务：语音识别模块主要对用户输入的音频录音通过模式识别等各种算法进行分析识别，最后将识别结果以约定的文本格式输出，结束本次识别。其中，语音识别模块包含语音唤醒子模块，语音唤醒子模块用于对用户预先设置的唤醒词进行持续识别，与普通识别类似的，语音唤醒子模块对用户根据唤醒词输入的音频进行分析识别，返回约定格式的文本效果后，立即开始下次录音监听，使得用户可随时输入音频进行识别。

语音合成TTS业务：语音合成模块主要根据用户输入的文本数据流，通过合成算法将文本数据与音频数据对应起来，最终将输入的文本数据流合成为音频数据流输出。

自然语义理解NLU业务：对用户的音频输入进行识别，并在识别的基础上进行进一步的语义分析，得到用户话语的真实意图，并根据用户意图提供进一步的信息内容的资源。

声纹识别VPR业务：声纹识别模块首先根据用户输入的音频数据，对其进行数据采集和特征提取，提取用户的音频特征和相关参数并保存，对以后用户的音频输入进行匹配和鉴权，主要用户安全场景。

本发明实施例中，终端设备的录音资源一般具有排他性，同一时间只能支持一个应用占用录音设备，也就意味着同一时间只有一个应用处于激活状态，而不同时间的应用可交叉处于激活状态，使用同一语音控制系统的语音服务支撑。但是若同一时间用户打开两个应用，则优先级较高的应用占用录音设备，优先级较低的应用自动断开；需要说明的是，其优先级的高低可预先设定或者由应用之间交互决定，不限于一固定形式。

举例说明如下：

这里以智能终端平台上支持两种语音业务应用产品为例，其中应用一为语音助手，可在正常使用的环境下对手机的大部分功能进行全语音操控，如打电话、发短信、播放音乐、声控拍照、生活服务语音搜索等等；另一种语音业务应用二为驾驶助手，可在驾驶环境下进行诸如导航、打电话、发短信、播放音乐等等功能的全语音操控。

为了尽可能地节省系统资源，首先，根据这两个应用的需求，确定语音平台系统需要支持的功能配置，这里需要语音识别、语音唤醒和语音合成三种引擎支持，那么由配置模块读取配置文件构建这一满足需求而又无冗余的语音平台系统版本。

应用一的调用流程如下:

应用一需要使用语音平台系统的语音服务，首先要绑定语音平台系统，绑定操作成功后，需要对各语音功能引擎进行初始化，就语音识别而言，初始化后还需要加载语法，加载语法成功后即达到语音识别的准备就绪状态，类似地，语音合成也需要进行引擎的初始化，初始化成功后即达到语音合成的准备就绪状态。对语音识别(包括语音唤醒)而言，准备就绪状态后，语音开始录音，并对录音进行识别，识别成功后返回文本的识别结果，应用根据这个识别结果来进行操作并继续下个语音交互流程或进入结束状态，如图3所示的状态转移图。而对语音合成而言，进入准备就绪状态后，如应用需要播报对应的文本，则可将对应的文本作为参数传入开始语音合成，设备对传入的文本进行语音播报，然后进行相关的操作并进入相应的下一环语音交互流程，或进入结束状态，如图4所示的状态转移图。

应用二的语音调用流程与应用一相似，目前的终端设备其录音资源一般具有排他性，同一时间只能支持一个应用占用录音设备，也就意味着同一时间只有一个应用处于激活状态，而不同时间不同的应用可交叉处于激活状态，使用同一语音平台系统的语音服务支撑。

这里需要说明的是，与上述类似的，本发明在终端硬件允许的条件下，可支持任意数量的差异化功能的语音业务应用，不局限于本实施例中所述情况。

为了更好的实现上述目的，本发明实施例还提供一种终端设备，包括语音控制系统，所述语音控制系统搭载在所述终端设备上，所述终端设备上还搭载有多个不同的语音业务应用，所述语音控制系统包括：配置模块和多个语音引擎模块；其中，

具体的，本发明具体实施例中所述语音控制系统还包括：

具体的，本发明具体实施例中所述语音引擎模块是语音识别ASR模块、语音合成TTS模块、自然语义理解NLU模块或者声纹识别VPR模块。

具体的，本发明具体实施例中所述语音控制系统还包括：

与所述业务流程组件模块对应的对外接口。

需要说明的是，本发明上述实施例提供的终端设备是承载上述语音控制系统和语音处理方法的终端设备，则上述语音控制系统和语音处理方法的所有实施例均适用于该终端设备，且均能达到相同或相似的有益效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音控制系统，其特征在于，所述语音控制系统搭载在一终端设备上，所述终端设备上还搭载有多个不同的语音业务应用，所述语音控制系统包括：配置模块和多个语音引擎模块；其中，

2.根据权利要求1所述的语音控制系统，其特征在于，所述语音控制系统还包括：

3.根据权利要求1所述的语音控制系统，其特征在于，所述语音引擎模块是语音识别ASR模块、语音合成TTS模块、自然语义理解NLU模块或者声纹识别VPR模块。

4.根据权利要求3所述的语音控制系统，其特征在于，所述语音控制系统还包括：

5.根据权利要求2所述的语音控制系统，其特征在于，所述语音控制系统还包括：

与所述业务流程组件模块对应的对外接口。

6.一种多个语音业务应用的语音处理方法，其特征在于，所述多个语音业务应用搭载于同一终端设备上，所述语音处理方法包括：

7.根据权利要求6所述的多个语音业务应用的语音处理方法，其特征在于，所述多个语音业务应用在不同时间交叉处于激活状态。

8.根据权利要求7所述的多个语音业务应用的语音处理方法，其特征在于，所述语音业务包括语音识别ASR业务、语音合成TTS业务、自然语义理解NLU业务或者声纹识别VPR业务。

9.一种终端设备，其特征在于，包括语音控制系统，所述语音控制系统搭载在所述终端设备上，所述终端设备上还搭载有多个不同的语音业务应用，所述语音控制系统包括：配置模块和多个语音引擎模块；其中，

10.根据权利要求9所述的终端设备，其特征在于，所述语音控制系统还包括：

11.根据权利要求9所述的终端设备，其特征在于，所述语音引擎模块是语音识别ASR模块、语音合成TTS模块、自然语义理解NLU模块或者声纹识别VPR模块。