CN108735211A

CN108735211A - 语音处理方法、装置、车辆、电子设备、程序及介质

Info

Publication number: CN108735211A
Application number: CN201810468596.6A
Authority: CN
Inventors: 戴帅军; 郑永辉; 李建东; 沈海寅
Original assignee: Leauto Intelligent Technology Beijing Co Ltd
Current assignee: Leauto Intelligent Technology Beijing Co Ltd
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2018-11-02

Abstract

本发明公开了一种语音处理方法、装置、车辆、电子设备、程序及介质，其特征在于，包括：获取目标语音指令；根据目标语音指令，得到目标语音指令对应的功能组；利用功能组分析目标语音指令，确定目标语音指令对应的应答信息；展示应答信息。本发明的技术方案可以根据用户发出的语音指令的类型划分为由不同的功能组对应处理，进而避免在更新语音识别系统中某一类型的功能场景时耗费时间的问题。

Description

语音处理方法、装置、车辆、电子设备、程序及介质

技术领域

本发明涉及语音处理领域，尤其是一种语音处理方法、装置、车辆、电子设备、程序及介质。

背景技术

随着通信时代与社会的发展，购买并使用各式各样的智能设备已经成为了越来越多的人的选择。

其中，在各式各样的智能设备中，具备语音功能往往是其不可或缺的一部分。以智能设备为汽车举例，由于用户在驾驶汽车时操作系统会带来安全隐患的问题，因此，开发者会在汽车中加入语音识别功能，以使用户在驾驶汽车时，通过语音即可达到对汽车系统进行操控的目的。

然而，当开发者在智能设备中开发语音识别系统时，是设置由同一服务器统一处理用户的语音指令，从而导致了一旦开发者只需要针对语音识别系统中某一类型的场景进行更新时，同样需要对整体服务器进行更新，进而极大增加了语音识别系统的更新迭代的时间。

发明内容

本发明实施例所要解决的一个技术问题是：提供一种语音处理方法、装置、车辆、电子设备、程序及介质。可以解决开发者在更新语音识别系统中某一类型的功能场景时耗费时间的问题。

根据本发明实施例的一个方面，提供的一种语音处理方法，包括：

获取目标语音指令；

根据所述目标语音指令，得到所述目标语音指令对应的功能组；

利用所述功能组分析所述目标语音指令，确定所述目标语音指令对应的应答信息；

展示所述应答信息。

可选地，在基于本发明上述方法的另一个实施例中，所述根据所述目标语音指令，得到所述目标语音指令对应的功能组，包括：

解析所述目标语音指令，得到所述目标语音指令的目标语义特征；

根据所述目标语义特征确定所述目标语音指令对应的语音指令类型；

根据所述语音指令类型以及预设的功能对应表，得到所述语音指令类型对应的功能组。

可选地，在基于本发明上述方法的另一个实施例中，所述利用所述功能组分析所述目标语音指令，确定所述目标语音指令对应的应答信息，包括：

利用所述功能组分析所述目标语义特征，确定所述应答信息。

可选地，在基于本发明上述方法的另一个实施例中，所述展示所述应答信息，包括：

在显示屏上显示所述应答信息；和/或，

语音播报所述应答信息。

可选地，在基于本发明上述方法的另一个实施例中，在所述在显示屏上显示所述应答信息之后，还包括：

在第一预设时间后关闭所述显示屏上的所述应答信息；和/或，

在第二预设时间后在所述显示屏上显示待操作视图；当接收到操作视图指令时，在所述显示屏上显示执行所述操作视图指令对应的视图，所述操作视图指令为根据所述待操作视图所生成的指令。

可选地，在基于本发明上述方法的另一个实施例中，所述语音播报所述应答信息，包括：

解析所述目标语音指令，得到所述目标语音指令的发音特征，所述发音特征为音色特征、音调特征、语速特征的至少一种；

根据所述发音特征,语音播报所述应答信息。

可选地，在基于本发明上述方法的另一个实施例中，所述解析所述目标语音指令，得到所述目标语音指令的发音特征，包括：

利用第一神经网络模型对所述目标语音指令进行识别，获取所述目标语音指令的发音特征。

可选地，在基于本发明上述方法的另一个实施例中，在获取目标语音指令之后，还包括：

获取用户的鉴权信息；

根据所述鉴权信息以及预设的权限策略检测所述用户是否为有权限用户；

当检测到所述用户为所述有权限用户时，根据目标语音指令，得到目标语音指令对应的功能组。

可选地，在基于本发明上述方法的另一个实施例中，所述获取用户的鉴权信息，包括：

利用指纹传感器获取所述用户的指纹信息；和/或，

利用第二神经网络模型对人体关键点特征进行识别，获取所述用户的面容信息，所述人体关键点特征为通过视频传感器获得的信息；和/或，

利用体态传感器获取所述用户的体态信息。

可选地，在基于本发明上述方法的另一个实施例中，在所述根据所述目标语音指令，得到所述目标语音指令对应的功能组之前，还包括：

采集至少一个样本语音指令；

解析每个样本语音指令，得到语义特征集合，所述语义特征集合包括每个样本语音指令对应的语义特征；

获取每个样本语音指令对应的功能；

根据功能组分类规则和所述语义特征集合，对每个样本语音指令对应的功能进行分类，得到至少一个功能组，所述功能组分类规则包括至少一种语音指令类型。

可选地，在基于本发明上述方法的另一个实施例中，

所述功能组包括以下任意一种或多种：

查询功能组、控制功能组、应用管理功能组、通话管理功能组、通用功能组。

可选地，在基于本发明上述方法的另一个实施例中，所述语音处理方法由车辆执行，所述车辆执行权上述任一项所述的语音处理方法。

可选地，在基于本发明上述方法的另一个实施例中，所述车辆执行上述任一项所述的语音处理方法，包括：

由所述车辆中的语音接收器执行所述获取目标语音指令的操作；

由所述车辆中的中控器执行所述根据所述目标语音指令，得到所述目标语音指令对应的功能组；利用所述功能组分析所述目标语音指令，确定所述目标语音指令对应的应答信息的操作；

由所述车辆的显示屏执行所述展示所述应答信息的操作。

可选地，在基于本发明上述方法的另一个实施例中，所述目标语音指令包括：用于对所述车辆的行驶状态或者所述车辆中零部件的工作状态进行控制的控制指令；所述方法还包括：

由所述车辆中的语音接收器接收所述控制指令并转发给所述车辆中的中控器；

由所述车辆的中控器根据所述述控制指令对所述车辆的行驶状态或者所述车辆中零部件的工作状态进行相应控制。

根据本发明实施例的另一个方面，提供的一种语音处理装置，所述装置包括：

获取模块，用于获取目标语音指令；

解析模块，用于根据所述目标语音指令，得到所述目标语音指令对应的功能组；

确定模块，用于利用所述功能组分析所述目标语音指令，确定所述目标语音指令对应的应答信息；

展示模块，用于展示所述应答信息。

可选地，在基于本发明上述装置的另一个实施例中，所述解析模块，包括：

解析单元，用于解析所述目标语音指令，得到所述目标语音指令的目标语义特征；

确定单元，用于根据所述目标语义特征确定所述目标语音指令对应的语音指令类型；

查找单元，用于根据所述语音指令类型以及预设的功能对应表，得到所述语音指令类型对应的功能组。

可选地，在基于本发明上述装置的另一个实施例中，所述确定单元，还用于利用所述功能组分析所述目标语义特征，确定所述应答信息。

可选地，在基于本发明上述装置的另一个实施例中，所述展示模块，包括：

显示单元，用于在显示屏上显示所述应答信息；

播放单元，用于语音播报所述应答信息。

可选地，在基于本发明上述装置的另一个实施例中，所述展示模块，还包括：关闭单元；

所述关闭单元，用于在第一预设时间后关闭所述显示屏上的所述应答信息；

所述显示单元，还用于在第二预设时间后在所述显示屏上显示待操作视图；以及，用于当接收到操作视图指令时，在所述显示屏上显示执行所述操作视图指令对应的视图，所述操作视图指令为根据所述待操作视图所生成的指令。

可选地，在基于本发明上述装置的另一个实施例中，所述解析模块，还用于解析所述目标语音指令，得到所述目标语音指令的发音特征，所述发音特征为音色特征、音调特征、语速特征的至少一种；

所述播放单元，还用于根据所述发音特征,语音播报所述应答信息。

可选地，在基于本发明上述装置的另一个实施例中，所述获取模块，还用于利用第一神经网络模型对所述目标语音指令进行识别，获取所述目标语音指令的发音特征。

可选地，在基于本发明上述装置的另一个实施例中，所述装置还包括：检测模块，

所述获取模块，还用于获取用户的鉴权信息；

所述检测模块，用于根据所述鉴权信息以及预设的权限策略检测所述用户是否为有权限用户；

所述解析模块，还用于当所述检测模块检测到所述用户为所述有权限用户时，根据所述目标语音指令，得到所述目标语音指令对应的功能组。

可选地，在基于本发明上述装置的另一个实施例中，所述获取模块，还用于利用指纹传感器获取所述用户的指纹信息；以及还用于利用第二神经网络模型对人体关键点特征进行识别，获取所述用户的面容信息，所述人体关键点特征为通过视频传感器获得的信息；以及还用于利用体态传感器获取所述用户的体态信息。

可选地，在基于本发明上述装置的另一个实施例中，所述装置还包括：采集模块，分类模块；

所述采集模块，用于采集至少一个样本语音指令；

所述解析模块，还用于解析每个样本语音指令，得到语义特征集合，所述语义特征集合包括每个样本语音指令对应的语义特征；

所述获取模块，还用于获取每个样本语音指令对应的功能；

所述分类模块，用于根据功能组分类规则和所述语义特征集合，对每个样本语音指令对应的功能进行分类，得到至少一个功能组，所述功能组分类规则包括至少一种语音指令类型。

可选地，在基于本发明上述装置的另一个实施例中，所述功能组包括以下任意一种或多种：

可选地，在基于本发明上述装置的另一个实施例中，所述装置应用于车辆；

所述获取模块设置在所述车辆的语音接收器中；

所述解析模块、所述解析模块中包括的各个单元、所述确定模块、所述检测模块、所述采集模块、所述分类模块设置在所述车辆的中控器中；

所述展示模块以及所述展示模块中包括的各个单元设置在所述车辆的显示屏中。

可选地，在基于本发明上述装置的另一个实施例中，所述目标语音指令包括：用于对所述车辆的行驶状态或者所述车辆中零部件的工作状态进行控制的控制指令；

所述车辆中的语音接收器，用于接收所述控制指令并转发给所述车辆中的中控器；

所述车辆的中控器，用于根据所述述控制指令对所述车辆的行驶状态或者所述车辆中零部件的工作状态进行相应控制。

根据本发明实施例的还一个方面，提供的一种车辆，其特征在于，包括：语音接收器、中控器、显示屏；

所述语音接收器，用于获取目标语音指令；

所述中控器，用于根据所述目标语音指令，得到所述目标语音指令对应的功能组；以及用于利用所述功能组分析所述目标语音指令，确定所述目标语音指令对应的应答信息；

所述显示屏，用于展示所述应答信息。

根据本发明实施例的又一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成上述所述语音处理方法的操作。

根据本发明实施例的还又一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述所述语音处理方法的操作。

根据本发明实施例的再一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述所述语音处理方法的操作。

本发明提供的一种语音处理方法、装置、车辆、电子设备、程序及介质，根据获取到的语音指令，得到对应的功能组，并利用该功能组确定语音指令的应答信息，进而展示该应答信息。本发明的技术方案可以根据用户发出的语音指令的类型划分为由不同的功能组对应处理，进而避免开发者在更新语音识别系统中某一类型的功能场景时，同样也需要对服务器整体更新所导致的耗费时间的问题。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明提出的一种语音处理方法一个实施例的流程图。

图2为本发明提出的一种语音处理方法另一个实施例的流程图。

图3为本发明提出的一种语音处理方法又一个实施例的流程图。

图4为本发明提出的一种语音处理装置的一个实施例的逻辑结构示意图。

图5为本发明提出的一种语音处理装置又一个实施例的逻辑结构示意图。

图6为本发明提出的一种语音处理装置另一个实施例的逻辑结构示意图。

图7为本发明电子设备一个实施例的逻辑结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

下面结合图1至图3来描述根据本发明示例性实施方式的用于进行的语音处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。本发明应用于集群用户设备，如后台服务器，推荐服务器等。

图1示意性地示出了根据本发明实施方式的一种语音处理方法的流程示意图。如图1所示，该方法包括：

S101，获取目标语音指令。

可选的，在本发明实施例中，目标语音指令为用户针对包含语音识别系统的智能设备所发出的语音指令。以智能设备为智能音箱为例，当用户想要了解当前该智能音箱所播放歌曲的信息时，用户即可针对该智能音箱发出：查询当前音乐的语音指令。又或者以智能设备为汽车为例，当用户想要进行导航时，用户即可在车内发出：开车去XX地的语音指令,以使用户在驾驶汽车时，通过语音即可达到对汽车系统进行操控的目的。本发明中不对目标语音指令的具体内容做限定，目标语音指令的具体内容并不会影响本发明的保护范围。

S102，根据目标语音指令，得到目标语音指令对应的功能组。

本发明中，功能组可以为处理用户语音指令的功能组，进一步的，根据目标语音指令的不同类型，得到可以处理该类型目标语音指令的功能组。例如，当目标语音指令为导航类型的语音指令时，根据该语音指令的类型，得到查询类功能组，以使查询类功能组后续处理该语音指令。又例如，当目标语音指令为调节音量类型的语音指令时，根据该语音指令的类型，得到操控类功能组，以使该操控类功能组后续处理该语音指令。

可选的，举例来说，本发明实施例中的功能组可以包括查询展示功能组、车辆控制功能组、应用管理工作组、通话管理功能组、通用功能组等等。

其中，在查询展示功能组中可以包括网络查询天气、路况、导航、美食、酒店等等。在车辆控制功能组中可以包括打开、关闭(近光灯、车窗、空调、儿童锁)。在应用管理功能组中可以包括打开、退出(音乐、地图、电话、车辆信息)等等。在通话管理功能组中可以包括拨打、重拨(联系人名、电话号码等)。在通用功能组中可以包括播放控制、地图控制、音量控制、无线网络控制、蓝牙控制等等。

S103，利用功能组分析目标语音指令，确定目标语音指令对应的应答信息。

本发明中，应答信息即为针对目标语音指令所生成的答复信息。例如，当获取到用户发出的语音指令时，利用功能组分析该目标语音指令，得到该目标应用指令为用户查询今日天气的语音指令。进一步的，确定今日的天气信息。

S104，展示应答信息。

本发明提供的一种语音处理方法，根据获取到的语音指令，得到对应的功能组，并利用该功能组确定语音指令的应答信息，进而展示该应答信息。本发明的技术方案可以根据用户发出的语音指令的类型划分为由不同的功能组对应处理，进而避免开发者在更新语音识别系统中某一类型的功能场景时，同样也需要对服务器整体更新所导致的耗费时间的问题。

可选的，在本发明中，展示应答信息的方式可以包括但不限于以下两种方式的任意一种或多种：

第一种方式：

在显示屏上显示应答信息。

其中，在利用功能组分析目标语音指令，确定目标语音指令对应的应答信息之后。可以在显示屏上显示该应答信息。其中，本发明不对显示屏做具体限定。例如，当本发明的技术方案应用在汽车中时，显示屏可以是汽车中控器上的显示屏。又例如，当本发明的技术方案应用在智能音箱上时，显示屏可以是存在于智能音箱上的显示屏。

可选的，在将应答信息显示在显示屏后，还包括以下两种情况的任意一种或多种：

第一种情况：

在第一预设时间后关闭显示屏上的应答信息。

为了避免显示屏始终点亮所带来的资源消耗的弊端。本发明还选择在将应答信息显示在显示屏后的第一预设时间后关闭显示屏上的应答信息。需要注意的是，本发明不对第一预设时间做具体限定，即第一预设时间可以为1分钟，第一预设时间也可以为2分钟。

第二种情况：

在第二预设时间后在显示屏上显示待操作视图；当接收到操作视图指令时，在显示屏上显示执行操作视图指令对应的视图，操作视图指令为根据待操作视图所生成的指令。可以理解的是，待操作视图中可以显示用于指示用户输入操作视图指令的视图。

同样的，本发明还可以在将应答信息显示在显示屏后的第二预设时间后在显示屏上显示待操作视图。其中，第二预设时间可以与第一预设时间相同，第二预设时间也可以与第一预设时间不相同。需要注意的是，本发明不对待操作视图做具体限定，即待操作视图可以是提示用户即将关闭显示屏的页面，也可以是根据目标语音指令所生成的待用户确认的相关页面。进一步的，当接收到用户针对待操作视图所生成的操作视图指令时，在显示屏上显示执行操作视图指令对应的视图。其中可选的，待操作视图中可以包括待机状态提醒方面和进入对话流程方面。其中待机状态提醒方面可以包括延时关闭语音显示、主动提示用户即将退出、立即关闭并待机。进入对话流程方面可以包括进入选择询问，选择项目名称/编号等等、进入确认流程，确定或取消、自定义问题，接收用户语音等等。

例如，当待操作视图为提示用户即将关闭显示屏的页面时，用户可以根据该待操作视图选择是否关闭显示屏，进一步的，当用户需要继续开启显示屏时，可以点击该待操作视图中的特定区域，以使当智能设备接收到用户针对待操作视图所生成的继续开启显示屏的操作视图指令时，在显示屏上显示将持续开启显示屏的通知视图。同样需要说明的是，本发明不对第二预设时间做具体限定，即第二预设时间可以为1分钟，第二预设时间也可以为2分钟。

第二种方式：

语音播报应答信息。

本发明中，还可以在利用功能组分析目标语音指令，确定目标语音指令对应的应答信息之后，语音播放该应答信息。以使目标语音指令的发起者能够快速，便捷的获知语音指令的答复信息。

进一步可选的，本发明还可以首先解析该目标语音指令，得到目标语音指令的发音特征，其中，该发音特征为音色特征、音调特征、语速特征的至少一种。更进一步的，根据发音特征,语音播报应答信息。

例如，本发明可以通过解析该目标语音指令，得到该目标语音指令发起者的声音的音色特征、音调特征、语速特征。并根据上述的发音特征,语音播报应答信息。例如，可以根据目标语音指令的音色特征确定该目标语音指令发起者的性别为女，进而根据目标语音指令的语速特征确定该目标语音指令发起者的年龄为20-30岁，更进一步的，根据目标语音指令的音调特征确定该目标语音指令发起者的当前状态为愉悦，则可以从数据库中同样调取性别为女，年龄为20-30岁，语态为愉悦的声音来播报该应答信息。

需要注意的是，本发明对获取目标语音指令的发音特征的方式不做具体限定。例如，本发明可以利用第一神经网络模型对目标语音指令进行识别，获取目标语音指令的发音特征。

进一步的，本发明中的第一神经网络模型可以是神经网络语音语义分割模型。需要说明的是，在利用神经网络语音语义分割模型获取目标语音指令的发音特征之前，需要首先获取样本特征，并利用样本特征对初始的神经网络语音语义分割模型进行训练，得到满足预设条件的神经网络语音语义分割模型。

其中，样本特征包括至少一个标记对象，标记对象可以与本发明实施例中的发音特征相同。即音色特征、音调特征、语速特征的至少一种。

需要说明的是，本发明中的上述两种展示应答信息的方式可以单独施行，也可以二者同步施行。

作为示例，本发明还包括一种语音处理方法，如图2所示，所述方法还包括：

S201，获取目标语音指令。

S202，解析目标语音指令，得到目标语音指令的目标语义特征。

可选的，在获取到用户的目标语音指令之后，本发明可以利用NLP(NaturalLanguageProcessing自然语言处理)对该目标应用指令进行解析。其中，NLP是一门融语言学、计算机科学、数学于一体的处理技术，旨在实现人与计算机之间用自然语言进行有效通信的目的。通过NLP解析该目标语音指令，可以得到该目标语音指令的语义特征。其中，语义特征是指某数据或代码在某个领域上的解释和逻辑所表示的特征。

S203，根据目标语义特征确定目标语音指令对应的语音指令类型。

进一步的，本发明可以根据目标语音指令对应的目标语义特征，确定该目标语音指令对应的语音指令类型。例如，当目标语音指令为：查询今日天气信息的语音时，解析该目标语音指令并得到对应的语义特征，并根据该语义特征确定该目标语音指令中包含“查询”的信息。进一步的，确定该目标语音指令为查询类型的语音指令。又例如，当目标语音指令为：呼叫XX电话的语音时，解析该目标语音指令并得到对应的语义特征，并根据该语义特征确定该目标语音指令中包含“呼叫”的信息。进一步的，确定该目标语音指令为通话类型的语音指令。需要注意的是，本发明不对语音指令类型做具体限定，即语音指令类型可以是通话语音指令类型，语音指令类型也可以是查询语音指令类型，语音指令类型还可以是支付语音指令类型。

S204，根据语音指令类型以及预设的功能对应表，得到语音指令类型对应的功能组。

需要注意的是，本发明中的功能对应表为预设的功能对应表。其中，功能对应表中有各语音指令类型与功能组集合中的各功能组的一一对应关系。进一步的，本发明中功能组集合可以包括以下功能组的任意一种或多种：

查询功能组、车辆控制功能组、应用管理功能组、通话管理功能组、通用功能组。

可选的，本发明根据语音指令类型以及语音指令类型对应的功能对应表，得到该语音指令类型对应的功能组。进一步可选的，本发明中的功能组为上述功能组集合中的其中一种功能组。

进一步的，当目标语音指令的语音指令类型为查询类型时(查询天气、路况、附近酒店、附近美食等)，该语音指令类型对应的功能组为查询功能组。当目标语音指令的语音指令类型为控制类型时(开启/关闭灯光、开启/关闭空调、开启/关闭锁等)，该语音指令类型对应的功能组为控制功能组。当目标语音指令的语音指令类型为操作应用类型时(利用导航应用规划路线、利用音乐应用播放歌曲等)，该语音指令类型对应的功能组为应用管理功能组。更进一步的，当目标语音指令的语音指令类型为通话类型时(拨打/接听电话、翻阅通讯录中联系人姓名/号码等)，该语音指令类型对应的功能组为通话管理功能组。当目标语音指令的语音指令类型为操控系统类型时(调节系统音量、开启系统无线近距离通信功能)，该语音指令类型对应的功能组为通用功能组。

需要说明的是，本发明中得到各功能组的方式可以为：

采集至少一个样本语音指令，解析每个样本语音指令，得到语义特征集合，该语义特征集合包括每个样本语音指令对应的语义特征。进一步的，获取每个样本语音指令对应的功能，并根据预设的功能组分类规则和上述的语义特征集合，对每个样本语音指令对应的功能进行分类，得到至少一个功能组，所述功能组分类规则包括至少一种语音指令类型。

S205，利用功能组分析目标语义特征，确定应答信息。

可选的，当根据语音指令类型以及预设的功能对应表确定出目标语音指令对应的功能组时，利用该功能组对由解析目标语音指令得到的目标语义特征进行分析。其中，分析目标语义特征的步骤可以为：识别该目标语义特征、确定目标语义特征对应的内容、确定应答信息。例如，以目标语音指令为查询附近酒店为例，由查询功能组识别该目标语音指令的语义特征，并在确定目标语音指令的内容后，查询距离发起目标语音指令所在地点的周边预设范围内的所有酒店，进一步的，整合上述所有酒店，在排除出当前没有营业或是不符合预设要求的酒店后，确定出所有满足条件的酒店的集合做为该目标语音指令的应答信息。又例如，以目标语音指令为开启系统无线近距离通信功能为例，由通用功能组识别该目标语音指令的语义特征，并在确定目标语音指令的内容后，开启系统无线近距离通信功能(蓝牙、NFC等)。

S206，展示应答信息。

本发明实施例中，通过根据解析语音指令得到的语义特征确定出该语音指令对应的语音指令类型，并根据该语音指令类型确定出对应的功能组，进而利用该功能组确定并展示语音指令对应的应答信息的技术方案。可以精准的由语音指令对应的功能组处理该语音指令并得到应答信息。进而极大提高了处理语音指令效率的目的。

作为示例，本发明中在S101(获取目标语音指令)之前，还包括一种语音处理方法，如图3所示，所述方法还包括：

S301，获取用户的鉴权信息。

其中，本发明不对鉴权信息做具体限定。即鉴权信息可以是用户的指纹信息，鉴权信息也可以是用户的面容信息。鉴权信息还可以是用户的体态信息。

可选的，本发明中获取鉴权信息的方式可以为以下几种情况的任意一种或多种：

利用指纹传感器获取用户的指纹信息、利用第二神经网络模型对人体关键点特征进行识别，获取用户的面容信息、利用体态传感器获取用户的体态信息。

进一步可选的，本发明可以根据存在于包含语音识别系统的智能设备上的指纹传感器来获取用户的指纹信息。也可以利用第二神经网络模型对人体关键点特征进行识别，进而获取用户的面容信息。其中，第二神经网络模型可以是神经网络图像语义分割模型。需要说明的是，在利用该神经网络图像语义分割模型获取用户的面容信息之前，需要首先获取样本特征，并利用样本特征对初始的神经网络图像语义分割模型进行训练，得到满足预设条件的神经网络图像语义分割模型。

其中，样本特征包括至少一个标记对象，标记对象可以为人体关键点特征。其中，人体关键点特征可以为面部轮廓，五官，头发等特征。

需要说明的是，当包含语音识别系统的智能设备为车辆、智能按摩椅等设备时，则还可以根据存在于智能设备座椅上的体态传感器获取用户的体态信息(腿长，体重等)。

S302，根据鉴权信息以及预设的权限策略检测用户是否为有权限用户。

进一步的，本发明可以根据用户的鉴权信息以及对应的权限策略检测该用户是否为有权限用户。例如，本发明可以根据获取到的用户的鉴权信息是否与自身预存的可信任权限列表里的权限信息相匹配。进一步的，如果该鉴权信息与可信任权限列表里的权限信息相匹配的情况下，则根据权限策略中的对应设置。判定该用户为有权限用户。更进一步的，如果该鉴权信息与可信任权限列表里的权限信息不匹配的情况下，则根据权限策略中的对应设置。判定该用户为无权限用户。

S303，当检测到用户为有权限用户时，根据目标语音指令，得到目标语音指令对应的功能组。

S304，利用功能组分析目标语音指令，确定目标语音指令对应的应答信息。

S305，展示应答信息。

本发明提供的一种语音处理方法，根据首先对用户进行权限检测，并在确定该用户为有权限用户的情况下，获取该用户的语音指令，得到对应的功能组，并利用该功能组确定语音指令的应答信息，进而展示该应答信息。本发明的技术方案不仅可以避免开发者在更新语音识别系统中某一类型的功能场景时，同样也需要对服务器整体更新所导致的耗费时间的问题，还可以减少出现人为恶意用户对语音处理过程的干扰，进而极大的提高了语音处理的效率。

进一步可选的，作为本发明的另一种实施方式，语音处理方法由车辆执行，车辆上述图1-图3描述的任一项的语音处理方法。

可选的，车辆执行上述图1-图3描述的任一项的语音处理方法，包括：由车辆中的语音接收器执行获取目标语音指令的操作；由车辆中的中控器执行根据目标语音指令，得到目标语音指令对应的功能组；利用功能组分析目标语音指令，确定目标语音指令对应的应答信息的操作；由车辆的显示屏执行展示应答信息的操作。

进一步可选的，目标语音指令包括：用于对车辆的行驶状态或者车辆中零部件的工作状态进行控制的控制指令；对应的，由车辆中的语音接收器接收控制指令并转发给车辆中的中控器；由车辆的中控器根据述控制指令对车辆的行驶状态或者车辆中零部件的工作状态进行相应控制。

在本发明的一种实施方式中，还提供一种语音处理装置，如图4所示，该装置包括获取模块401，解析模块402，确定模块403，展示模块404。

获取模块401，用于获取目标语音指令。

解析模块402，用于根据目标语音指令，得到目标语音指令对应的功能组。

确定模块403，用于利用功能组分析目标语音指令，确定目标语音指令对应的应答信息。

展示模块404，用于展示应答信息。

本发明提供的一种语音处理装置，根据获取到的语音指令，得到对应的功能组，并利用该功能组确定语音指令的应答信息，进而展示该应答信息。本发明的技术方案可以根据用户发出的语音指令的类型划分为由不同的功能组对应处理，进而避免开发者在更新语音识别系统中某一类型的功能场景时，同样也需要对服务器整体更新所导致的耗费时间的问题。

进一步地，本发明实施例还提供一种语音处理装置，如图5所示，在该装置中解析模块402包括：解析单元，确定单元，查找单元。

解析单元，用于解析目标语音指令，得到目标语音指令的目标语义特征。

确定单元，用于根据目标语义特征确定目标语音指令对应的语音指令类型。

获取单元，用于根据语音指令类型以及预设的功能对应表，得到语音指令类型对应的功能组。

可选的，在本发明的另一种实施方式中，确定单元，还用于利用功能组分析目标语义特征，确定应答信息。

可选的，在本发明的另一种实施方式中，展示模块404还包括：显示单元，播放单元。

显示单元，用于在显示屏上显示应答信息。

播放单元，用于语音播报应答信息。

可选的，在本发明的另一种实施方式中，展示模块404还包括：关闭单元。

其中，关闭单元，用于在第一预设时间后关闭显示屏上的应答信息。

进一步可选的，显示单元，还用于在第二预设时间后在显示屏上显示待操作视图；以及，用于当接收到操作视图指令时，在显示屏上显示执行操作视图指令对应的视图，操作视图指令为根据待操作视图所生成的指令。

可选的，在本发明的另一种实施方式中，解析模块402，还用于解析目标语音指令，得到目标语音指令的发音特征，发音特征为音色特征、音调特征、语速特征的至少一种。

可选的，对应的，展示模块404中的播放单元，还用于根据发音特征,语音播报应答信息。

可选的，在本发明的另一种实施方式中，获取模块401，还用于利用第一神经网络模型对目标语音指令进行识别，获取目标语音指令的发音特征。

可选的，在本发明的另一种实施方式中，如图5所示，本发明提供的一种语音处理装置还包括检测模块405。其中，获取模块401，还用于获取用户的鉴权信息。

对应的，检测模块405，用于根据鉴权信息以及预设的权限策略检测用户是否为有权限用户。

解析模块402，还用于当检测模块405检测到用户为有权限用户时，根据目标语音指令，得到目标语音指令对应的功能组。

可选的，在本发明的另一种实施方式中，获取模块401，还用于利用指纹传感器获取用户的指纹信息；以及还用于利用第二神经网络模型对人体关键点特征进行识别，获取用户的面容信息，人体关键点特征为通过视频传感器获得的信息；以及还用于利用体态传感器获取用户的体态信息。

可选的，在本发明的另一种实施方式中，如图6所示，本发明提供的一种语音处理装置还包括采集模块406，分类模块407。

采集模块406，用于采集至少一个样本语音指令。

解析模块402，还用于解析每个样本语音指令，得到语义特征集合，语义特征集合包括每个样本语音指令对应的语义特征。

获取模块401，还用于获取每个样本语音指令对应的功能。

所述分类模块407，用于根据功能组分类规则和语义特征集合，对每个样本语音指令对应的功能进行分类，得到至少一个功能组，功能组分类规则包括至少一种语音指令类型。

需要说明的是，上述描述的功能组包括以下任意一种或多种：

可选的，在本发明的另一种实施方式中，本发明的装置还可以应用于车辆。

其中，获取模块401设置在车辆的语音接收器中。

解析模块402、解析模块402中包括的各个单元、确定模块403、检测模块405、采集模块406、分类模块407设置在车辆的中控器中。

展示模块404以及展示模块404中包括的各个单元设置在车辆的显示屏中。

进一步可选的，目标语音指令可以包括：用于对车辆的行驶状态或者车辆中零部件的工作状态进行控制的控制指令。对应的，

车辆中的语音接收器，用于接收控制指令并转发给车辆中的中控器。

车辆的中控器，用于根据述控制指令对车辆的行驶状态或者车辆中零部件的工作状态进行相应控制。

值得说明的是，根据图5和图6可以看出，本发明还包括一种语音处理装置，该装置包括获取模块，解析模块，确定模块，展示模块，检测模块，采集模块，分类模块。上述模块的功能已做描述，在此不再一一赘述。

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图7对本发明示例性实施方式的、用于实现上述方法实施方式中所记载的各步骤的电子设备进行说明。图7显示的计算机系统/服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统/服务器以通用计算设备的形式表现。计算机系统/服务器的组件可以包括但不限于：一个或者多个处理器或者处理单元701，系统存储器702，连接不同系统组件(包括系统存储器702和处理单元701)的总线703。

计算机系统/服务器典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器702可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)7021和/或高速缓存存储器7022。计算机系统/服务器可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质(ROM)7023。仅作为举例，ROM7023可以用于读写不可移动的、非易失性磁介质(图7中未显示，通常称为“硬盘驱动器”)。尽管未在图7中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线703相连。系统存储器702中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块7024的程序/实用工具，可以存储在例如系统存储器702中，且这样的程序模块7024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块7024通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器也可以与一个或多个外部设备704(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口705进行。并且，计算机系统/服务器还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或者公共网络，例如因特网)通信。如图7所示，网络适配器706通过总线703与计算机系统/服务器的其它模块(如处理单元701等)通信。应当明白，尽管图7中未示出，可以结合计算机系统/服务器使用其它硬件和/或软件模块。

处理单元701通过运行存储在系统存储器702中的计算机程序，从而执行各种功能应用以及数据处理，例如，执行用于实现上述方法实施例中的各步骤的指令；具体而言，处理单元701可以执行系统存储器702中存储的计算机程序，且该计算机程序被执行时，下述指令被运行：

获取目标语音指令；

根据目标语音指令，得到目标语音指令对应的功能组；

利用功能组分析目标语音指令，确定目标语音指令对应的应答信息；

展示应答信息。

当然，电子设备还包括的其他指令如方法侧装置侧描述的内容，在此不再一一赘述。

本发明提供的一种电子设备，根据获取到的语音指令，得到对应的功能组，并利用该功能组确定语音指令的应答信息，进而展示该应答信息。本发明的技术方案可以根据用户发出的语音指令的类型划分为由不同的功能组对应处理，进而避免开发者在更新语音识别系统中某一类型的功能场景时，同样也需要对服务器整体更新所导致的耗费时间的问题。

本发明实施例还提供一种车辆，其特征在于，包括：语音接收器、中控器、显示屏。

语音接收器，用于获取目标语音指令；

中控器，用于根据目标语音指令，得到目标语音指令对应的功能组；以及用于利用功能组分析目标语音指令，确定目标语音指令对应的应答信息；

显示屏，用于展示应答信息。

可以理解的是，所述车辆中的各个单元执行用于实现上述图1至图3中包括的所述语音处理方法的操作。所述语音处理方法中描述的内容，在此不再一一赘述。

本发明实施例还提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述图1至图3中包括的所述语音处理方法的操作。所述语音处理方法中描述的内容，在此不再一一赘述。

本发明实施例还提供一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述图1至图3中包括的所述语音处理方法的操作。所述语音处理方法中描述的内容，在此不再一一赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种语音处理方法，其特征在于，包括：

获取目标语音指令；

展示所述应答信息。

2.如权利要求1所述的方法，其特征在于，所述根据所述目标语音指令，得到所述目标语音指令对应的功能组，包括：

3.如权利要求1或2所述的方法，其特征在于，所述利用所述功能组分析所述目标语音指令，确定所述目标语音指令对应的应答信息，包括：

4.如权利要求1-3中任一项所述的方法，其特征在于，所述展示所述应答信息，包括：

在显示屏上显示所述应答信息；和/或，

语音播报所述应答信息。

5.如权利要求1-4中任一项所述的方法，其特征在于，在所述在显示屏上显示所述应答信息之后，还包括：

6.一种语音处理装置，其特征在于，包括：

获取模块，用于获取目标语音指令；

展示模块，用于展示所述应答信息。

7.一种车辆，其特征在于，包括：语音接收器、中控器、显示屏；

所述语音接收器，用于获取目标语音指令；

所述显示屏，用于展示所述应答信息。

8.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1-5中任一所述语音处理方法的操作。

9.一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1-5中任一所述语音处理方法的操作。

10.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-5中任一所述语音处理方法的操作。