CN112116910A

CN112116910A - 语音指令的识别方法和装置、存储介质、电子装置

Info

Publication number: CN112116910A
Application number: CN202011195625.XA
Authority: CN
Inventors: 黄姿荣; 李禹慧; 贾巨涛; 戴林; 吴伟
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2020-12-22

Abstract

本申请公开了一种语音指令的识别方法和装置、存储介质、电子装置。其中，该方法包括：获取目标用户输入的当前语音信息；根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型，其中，所述多个语义识别模型中的每个语义识别模型与一种角色类型匹配，语义识别模型用于根据语音信息识别出用于用户控制智能家居的语音指令；使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令。本申请解决了相关技术中的语音识别准确率较低的技术问题。

Description

语音指令的识别方法和装置、存储介质、电子装置

技术领域

本申请涉及智能家居领域，具体而言，涉及一种语音指令的识别方法和装置、存储介质、电子装置。

背景技术

目前，智能家居的发展非常快速，然而在快速发展过程中出现的问题也明显易见。智能家居中的功能并没有围绕用户去解决问题，更多是结合产品的生态去考虑，很多功能不仅增加了交互的复杂度，同时也造成的系统之间的不稳定性，影响用户实际使用体验，因此智能家居的功能设计应该是结合人的便捷性处理进行考虑，例如，目前的语音交互较为复杂且智能家居对用户语音的识别准确度较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请提供了一种语音指令的识别方法和装置、存储介质、电子装置，以至少解决相关技术中的语音识别准确率较低的技术问题。

根据本申请实施例的一个方面，提供了一种语音指令的识别方法，包括：获取目标用户输入的当前语音信息；根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型，其中，所述多个语义识别模型中的每个语义识别模型与一种角色类型匹配，语义识别模型用于根据语音信息识别出用于用户控制智能家居的语音指令；使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令。

可选地，根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型包括：从所述当前语音信息中识别出所述目标用户的目标声纹信息；从多个角色类型中识别出与所述目标声纹信息匹配的所述目标角色类型。

可选地，在获取目标用户输入的当前语音信息之前，还包括：获取所述目标用户在使用语音控制功能时输入的语音信息和所配置的所述目标角色类型；从输入的语音信息中识别出所述目标用户的声纹信息，并记录识别出的声纹信息和所述目标角色类型之间的关联关系。

可选地，在获取目标用户输入的当前语音信息之前，按照如下方式训练得到每种角色类型匹配的语义识别模型：获取与角色类型匹配的训练数据和测试数据；利用训练数据对原始模型进行训练，得到中间模型；在中间模型通过测试数据的测试的情况下，将通过测试的中间模型作为语义识别模型；在中间模型未通过测试数据的测试的情况下，继续对中间模型进行训练。

可选地，使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令包括：将所述当前语音信息转换为文本信息；将所述文本信息输入所述目标语义识别模型，得到所述语义识别模型输出的所述当前语音指令。

可选地，在使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令的过程中，向所述目标用户发送询问语句，以确定所述当前语音指令。

可选地，在使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令之后，使用所述目标用户的历史语音信息对所述目标语义识别模型进行强化训练。

根据本申请实施例的另一方面，还提供了一种语音指令的识别装置，包括：获取单元，用于获取目标用户输入的当前语音信息；确定单元，用于根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型，其中，所述多个语义识别模型中的每个语义识别模型与一种角色类型匹配，语义识别模型用于根据语音信息识别出用于用户控制智能家居的语音指令；识别单元，用于使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令。

可选地，确定单元在根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型，还用于从所述当前语音信息中识别出所述目标用户的目标声纹信息；从多个角色类型中识别出与所述目标声纹信息匹配的所述目标角色类型。

可选地，本申请的装置还可包括：配置单元，用于在获取目标用户输入的当前语音信息之前，获取所述目标用户在使用语音控制功能时输入的语音信息和所配置的所述目标角色类型；从输入的语音信息中识别出所述目标用户的声纹信息，并记录识别出的声纹信息和所述目标角色类型之间的关联关系。

可选地，本申请的装置还可包括：训练单元，用于在获取目标用户输入的当前语音信息之前，按照如下方式训练得到每种角色类型匹配的语义识别模型：获取与角色类型匹配的训练数据和测试数据；利用训练数据对原始模型进行训练，得到中间模型；在中间模型通过测试数据的测试的情况下，将通过测试的中间模型作为语义识别模型；在中间模型未通过测试数据的测试的情况下，继续对中间模型进行训练。

可选地，识别单元使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令时，还用于将所述当前语音信息转换为文本信息；将所述文本信息输入所述目标语义识别模型，得到所述语义识别模型输出的所述当前语音指令。

可选地，识别单元在使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令的过程中，还用于向所述目标用户发送询问语句，以确定所述当前语音指令。

可选地，训练单元还用于在使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令之后，使用所述目标用户的历史语音信息对所述目标语义识别模型进行强化训练。

根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本申请实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

在本申请实施例中，通过针对不同角色定义，区分差异化的交互特点，有效提高语音识别的准确性，让语音控制简单便捷，可以解决相关技术中的语音识别准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的语音指令的识别方法的流程图；

图2是根据本申请实施例的一种可选的语音指令的识别方案的示意图；

图3是根据本申请实施例的一种可选的语音指令的识别装置的示意图；

以及

图4是根据本申请实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决当前语音交互复杂性以及识别语义的准确性的问题，根据本申请实施例的一方面，提供了一种语音指令的识别方法的方法实施例，结合角色化差异性的特征，产品适配不同的语音交互方式，提高语音控制准确性。图1是根据本申请实施例的一种可选的语音指令的识别方法的流程图，如图1所示，该方法可以包括以下步骤：

步骤S1，获取目标用户输入的当前语音信息，即用户的语音数据。

步骤S2，根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型，所述多个语义识别模型中的每个语义识别模型与一种角色类型匹配，语义识别模型用于根据语音信息识别出用于用户控制智能家居的语音指令，此处的角色类型可以根据需要设定，如根据职业(如医生、程序员、记者等)划分、也可根据年龄段(如儿童、成年以及老年)划分，后续以后者为例说明。

可选地，在获取目标用户输入的当前语音信息之前，可按照如下方式训练得到每种角色类型匹配的语义识别模型：获取与角色类型匹配的训练数据和测试数据，训练数据和测试数据的组成是相同的，即包括一条语音信息和与该语音信息匹配的语音指令；利用训练数据对原始模型进行训练(即对模型中参数的数值进行调整)，得到中间模型；在中间模型通过测试数据的测试的情况下(如识别准确率达到90％)，将通过测试的中间模型作为语义识别模型；在中间模型未通过测试数据的测试的情况下，继续对中间模型进行训练，具体的训练过程可以将语音信息转换为文本信息输入模型，并以该语音信息对应的语音指令为预计输出，从而对模型中的参数进行调整。

可选地，在获取目标用户输入的当前语音信息之前，可获取所述目标用户在使用语音控制功能时输入的语音信息和所选择的所述目标角色类型；从输入的语音信息中识别出所述目标用户的声纹信息，并记录识别出的声纹信息和所述目标角色类型之间的关联关系。

在根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型时，从所述当前语音信息中识别出所述目标用户的目标声纹信息；从多个角色类型中识别出与所述目标声纹信息匹配的所述目标角色类型。

在使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指时，将所述当前语音信息转换为文本信息，具体可以通过一些语音转文字的工具实现；将所述文本信息输入所述目标语义识别模型，得到所述语义识别模型输出的所述当前语音指令。

在使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令的过程中，若用户的指令不明确或者存在多个指令，则可向所述目标用户发送询问语句，以确定所述当前语音指令。

步骤S3，使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令。

在使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令之后，使用所述目标用户的历史语音信息对所述目标语义识别模型进行强化训练。

通过上述步骤，通过针对不同角色定义，区分差异化的交互特点，有效提高语音识别的准确性，让语音控制简单便捷，可以解决相关技术中的语音识别准确率较低的技术问题。

作为一种可选的实施例，如图2所示，下文结合具体的实施方式进一步详述本申请的技术方案。

语音交互用户群体主要分为三类，分别为儿童、成年以及老年。三类用户在语音控制过程中，会存在话术的差异，即对同一个功能的控制表达方式存在差异。如儿童与老年更偏向于自然话术的表达，即口语化，而成年人愿意使用书面化的表达方式，即携带句式结构的表达。

在使用语音控制功能中，用户需在APP上自定义自己的标签，标签主要分为三类，如儿童类、成年类以及老年类，同时录入用户一段音频，作为声纹的标示。云端采用三组不同的语义模型，由特定的语义模型解析对应标签用户的请求文本数据，同时由不同的功能控制服务进行分析控制字段到设备端执行。三个语义模型的相似度参数分别为儿童0.7，成年0.9，老年0.8，成年标签注重准确率。当儿童，老人说“我要洗衣服”，“已为您调至标准洗模式，放置衣服并关闭门后启动”；当成人说“我要洗衣服”，设备答复“请问你要设置什么模式呢”，进行参数的设定。前端语音识别模组在对音频转换过程中，请求体做对应标示。

每个设备的控制服务，都需要三种配置控制交互逻辑，主要重点的差异化在于语义模型的训练，做参数的不断优化。对音频的识别，主要采用音色识别的方法，通过分类模型进行分成三类。

提高语音控制的准确性，主要表现在三个方面，音频转文本的准确性，意图解析的准确性以及用户特征的差异性。用户在使用的普通话控制过程中，需要结合用户的使用场景以及表达习惯，现有的语音模型在大部分的领域知识积累不够，训练儿童，成年以及老年等三个语音模型，针对性转译文本，实现提高识别率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述语音指令的识别方法的语音指令的识别装置。图3是根据本申请实施例的一种可选的语音指令的识别装置的示意图，如图3所示，该装置可以包括：

获取单元31，用于获取目标用户输入的当前语音信息；

确定单元33，用于根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型，其中，所述多个语义识别模型中的每个语义识别模型与一种角色类型匹配，语义识别模型用于根据语音信息识别出用于用户控制智能家居的语音指令；

识别单元35，用于使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令。

需要说明的是，该实施例中的获取单元31可以用于执行本申请实施例中的步骤S1，该实施例中的确定单元33可以用于执行本申请实施例中的步骤S2，该实施例中的识别单元35可以用于执行本申请实施例中的步骤S3。

通过上述模块，通过针对不同角色定义，区分差异化的交互特点，有效提高语音识别的准确性，让语音控制简单便捷，可以解决相关技术中的语音识别准确率较低的技术问题。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在相应的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的另一个方面，还提供了一种用于实施上述语音指令的识别方法的服务器或终端。

图4是根据本申请实施例的一种终端的结构框图，如图4所示，该终端可以包括：一个或多个(仅示出一个)处理器201、存储器203、以及传输装置205，如图4所示，该终端还可以包括输入输出设备207。

其中，存储器203可用于存储软件程序以及模块，如本申请实施例中的语音指令的识别方法和装置对应的程序指令/模块，处理器201通过运行存储在存储器203内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音指令的识别方法。存储器203可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器203可进一步包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置205用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置205包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置205为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器203用于存储应用程序。

处理器201可以通过传输装置205调用存储器203存储的应用程序，以执行下述步骤：

获取目标用户输入的当前语音信息；

根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型，其中，所述多个语义识别模型中的每个语义识别模型与一种角色类型匹配，语义识别模型用于根据语音信息识别出用于用户控制智能家居的语音指令；

使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图4所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图4其并不对上述电子装置的结构造成限定。例如，终端还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图4所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行语音指令的识别方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

获取目标用户输入的当前语音信息；

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音指令的识别方法，其特征在于，包括：

获取目标用户输入的当前语音信息；

2.根据权利要求1所述的方法，其特征在于，根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型包括：

从所述当前语音信息中识别出所述目标用户的目标声纹信息；

从多个角色类型中识别出与所述目标声纹信息匹配的所述目标角色类型。

3.根据权利要求2所述的方法，其特征在于，在获取目标用户输入的当前语音信息之前，所述方法还包括：

获取所述目标用户在使用语音控制功能时输入的语音信息和所配置的所述目标角色类型；

从输入的语音信息中识别出所述目标用户的声纹信息，并记录识别出的声纹信息和所述目标角色类型之间的关联关系。

4.根据权利要求1所述的方法，其特征在于，在获取目标用户输入的当前语音信息之前，所述方法还包括按照如下方式训练得到每种角色类型匹配的语义识别模型：

获取与角色类型匹配的训练数据和测试数据；

利用训练数据对原始模型进行训练，得到中间模型；

在中间模型通过测试数据的测试的情况下，将通过测试的中间模型作为语义识别模型；

在中间模型未通过测试数据的测试的情况下，继续对中间模型进行训练。

5.根据权利要求1所述的方法，其特征在于，使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令包括：

将所述当前语音信息转换为文本信息；

将所述文本信息输入所述目标语义识别模型，得到所述语义识别模型输出的所述当前语音指令。

6.根据权利要求1所述的方法，其特征在于，在使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令的过程中，所述方法还包括：

向所述目标用户发送询问语句，以确定所述当前语音指令。

7.根据权利要求1所述的方法，其特征在于，在使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令之后，所述方法还包括：

使用所述目标用户的历史语音信息对所述目标语义识别模型进行强化训练。

8.一种语音指令的识别装置，其特征在于，包括：

获取单元，用于获取目标用户输入的当前语音信息；

确定单元，用于根据所述目标用户所属的目标角色类型确定多个语义识别模型中的目标语义识别模型，其中，所述多个语义识别模型中的每个语义识别模型与一种角色类型匹配，语义识别模型用于根据语音信息识别出用于用户控制智能家居的语音指令；

识别单元，用于使用所述目标语义识别模型从所述当前语音信息中识别出当前语音指令。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至7任一项中所述的方法。