CN111627442A

CN111627442A - 一种语音识别方法、处理器、系统、计算机设备和可读存储介质

Info

Publication number: CN111627442A
Application number: CN202010462534.1A
Authority: CN
Inventors: 葛友杰
Original assignee: Xingluo Intelligent Technology Co Ltd
Current assignee: Xingluo Intelligent Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-04

Abstract

本发明提供一种语音识别方法、处理器、系统、计算机设备及计算机可读存储介质，其中，该方法包括：接收并解析用户输入的第一语音信号，确定所述第一语音信号预期要执行的第一动作或所述第一动作操作的第一对象；获取接收所述第一语音信号之前的设定时间内用户输入的第二语音信号，根据所述第二语音信号确定所述用户当前所处的第一场景；根据所述第一语音信号和所述第一场景确定所述第一语音信号中预期要执行的第一动作和所述第一动作操作的第一对象，并发送控制指令，所述控制指令控制对所述第一对象执行所述第一动作。该方法能在用户语义不完整的情况下，实现用户语音的识别。

Description

一种语音识别方法、处理器、系统、计算机设备和可读存储介质

技术领域

本发明涉及语音识别技术领域，具体而言，主要涉及一种语音识别方法、处理器、系统、计算机设备和可读存储介质。

背景技术

目前现有的语音识别分析处理场景只能针对语音意图确定的指令识别，比如打开客厅的灯，对于语音意图不是很明确的指令，其往往难以识别。比如，客户的指令为打开或调亮等语义简短分歧的场景则无法处理。目前，急需要提出一种语义分析系统，以解决现有技术中的这种缺陷。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种语音识别方法、系统、计算机设备和可读存储介质，以解决现有技术中语音意图不明确而难以识别的问题。

为了实现上述目的，采用如下的技术方案：

本发明第一方面提供一种语音识别方法，包括：

接收并解析用户输入的第一语音信号，确定所述第一语音信号预期要执行的第一动作或所述第一动作操作的第一对象；

获取接收所述第一语音信号之前的设定时间内用户输入的第二语音信号，根据所述第二语音信号确定所述用户当前所处的第一场景；

根据所述第一语音信号和所述第一场景确定所述第一语音信号中预期要执行的第一动作和所述第一动作操作的第一对象，并发送控制指令，所述控制指令用于控制对所述第一对象执行所述第一动作。

在一具体实施方式中，所述获取接收所述第一语音信号之前的设定时间内的用户输入的第二语音信号，根据所述第二语音信号确定所述用户当前所处的第一场景具体包括：

获取接收所述第一语音信号之前的设定时间内用户输入的第二语音信号，所述第二语音信号包括预期要执行的第二动作和所述第二动作操作的第二对象；

根据所述第二动作和所述第二对象确定所述用户在输入所述第二语音信号时所处的第二场景；

将所述第二场景确定为所述第一场景。

获取接收所述第一语音信号之前的设定时间内用户输入的第二语音信号，所述第二语音信号仅包括预期要执行的第二动作或仅包括预期要执行的第二动作操作的第二对象；

根据所述第二操作动作确定所述用户当前所处的第二场景，或根据所述第二对象确定所述用户当前所处的第二场景；

将所述第二场景确定为所述第一场景。

在一具体实施方式中，所述根据所述第一语音信号和所述当前所处的第一场景确定所述第一语音信号中预期要执行的第一动作和所述第一动作操作的第一对象具体包括：

若所述第一语音信号中仅包括所述第一动作，则从已建立的用户场景数据栈中获取所述第一场景中的所述第一动作的操作对象及所述操作对象被执行的第一概率；

根据所述第一概率确定所述操作对象的优先级；

对优先级最高的所述操作对象执行所述第一操作。

若所述第一语音信号中仅包括所述第一对象，则从已建立的用户场景数据栈中获取所述第一场景中的与所述第一对象匹配的操作动作和所述操作动作被执行的第二概率；

根据所述第二概率确定与所述第一对象匹配的操作动作的优先级；

对所述第一对象执行优先级最高的所述操作动作。

在一具体实施方式中，所述建立用户场景数据栈具体包括：

获取用户输入的历史语音信息，对所述历史语音信息进行解析，获得用户输入历史语音信息所处的第三场景、所述历史语音信息预期要执行的第三动作和所述第三动作操作的第三对象；

保存所述第三场景、第三动作以及第三对象及其三者之间的对应关系，形成所述用户场景数据栈。

本发明第二方面提供一种语音识别处理器，所述处理器包括：

接收识别单元，用于接收并识别用户输入的第一语音信号，所述第一语音信号包括预期要执行的第一动作或所述第一动作操作的第一对象；

第一场景确定单元，用于获取接收所述第一语音信号之前的设定时间内用户输入的第二语音信号，根据所述第二语音信号确定所述用户当前所处的第一场景；

第一动作和第一对象确定单元，用于根据所述第一语音信号和所述第一场景确定所述第一语音信号中预期要执行的第一动作和所述第一动作操作的第一对象，并发送控制指令，所述控制指令控制对所述第一对象执行所述第一动作。

在一具体实施方式中，所述第一场景确定单元具体用于：

将所述第二场景确定为所述第一场景。

在一具体实施方式中，所述第一场景确定单元具体用于：

将所述第二场景确定为所述第一场景。

在一具体实施方式中，所述第一动作和第一对象确定单元具体用于：

根据所述第一概率确定所述操作对象的优先级；

对优先级最高的所述操作对象执行所述第一操作。

对所述第一对象执行优先级最高的所述操作动作。

在一具体实施方式中，所述系统还包括：

本发明第三方面提供一种语音识别处理系统，包括拾音设备、执行设备和前述的处理器，其中，

所述拾音设备用于采集用户输入的第一语音信号，并将所述第一语音信号发送给所述处理器；

所述执行设备用于接收所述控制指令，并对所述第一对象执行所述第一动作。

本发明第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被计算机设备执行时实现前述的方法步骤。

本发明第五方面提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行所述的方法的步骤。

本发明的有益效果：本发明实施例的语音识别方法接收并解析用户输入的第一语音信号，并获取接收所述第一语音信号设定时间内用户输入的第二语音信号处所的第一场景，根据所述第一语音信号和所述第一场景确定所述第一语音信号中预期要执行的第一动作和第一对象，并对所述第一对象执行所述第一操作。本发明实施例的方法，在用户输入的第一语音信号不完整的情况下，能够实现对用户输入的第一语音的分析，进而执行用户预期想要进行的操作。解决了现有技术中用户输入的语音信息语义不完整而无法操作的缺陷。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施方式，因此不应被看作是对本发明范围的限定。

图1为本发明实施例一的一种语音信号识别方法的流程示意图；

图2为本发明实施例二的一种语音信号识别处理器的结构示意图；

图3为本发明实施例三的一种语音识别系统的结构示意图。

具体实施方式

在下文中，将更全面地描述本发明的各种实施方式。本发明可具有各种实施方式，并且可在其中做出调整和改变。然而，应理解：不存在将本发明的各种实施方式限于在此公开的特定实施方式的意图，而是应将本发明理解为涵盖落入本发明的各种实施方式的精神和范围内的所有调整、等同物和/或可选方案。

在下文中，可在本发明的各种实施方式中使用的术语“包括”或“可包括”指示所公开的功能、操作或元件的存在，并且不限制一个或更多个功能、操作或元件的增加。此外，如在本发明的各种实施方式中所使用，术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

在本发明的各种实施方式中，表述“A或/和B”包括同时列出的文字的任何组合或所有组合，例如，可包括A、可包括B或可包括A和B二者。

在本发明的各种实施方式中使用的表述(诸如“第一”、“第二”等)可修饰在各种实施方式中的各种组成元件，不过可不限制相应组成元件。例如，以上表述并不限制所述元件的顺序和/或重要性。以上表述仅用于将一个元件与其它元件区别开的目的。例如，第一用户装置和第二用户装置指示不同用户装置，尽管二者都是用户装置。例如，在不脱离本发明的各种实施方式的范围的情况下，第一元件可被称为第二元件，同样地，第二元件也可被称为第一元件。

应注意到：在本发明中，除非另有明确的规定和定义，“安装”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接、也可以是可拆卸连接、或者一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也是可以通过中间媒介间接相连；可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，本领域的普通技术人员需要理解的是，文中指示方位或者位置关系的术语为基于附图所示的方位或者位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的各种实施方式中使用的术语仅用于描述特定实施方式的目的并且并非意在限制本发明的各种实施方式。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施方式所述领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施方式中被清楚地限定。

本发明实施例一提供一种语音识别方法，如图1所示，该方法包括如下步骤：

S1、接收并解析用户输入的第一语音信号，确定所述第一语音信号预期要执行的第一动作或所述第一动作操作的第一对象。

具体地，接收用户输入的第一语音信号，并对所述第一语音信号进行识别，确定所述第一语音信号预期要执行的第一动作或所述第一动作操作的第一对象。

在一具体实施方式中，所述第一语音信号语义不完整，即所述第一语音信号仅包括预期要执行的第一动作或仅包括所述第一动作操作的第一对象。

举例说明，打开灯为一完整语义信号，则所述第一语音信号仅包括预期要执行的第一动作打开，或仅包括第一动作操作的第一对象灯。

S2、获取接收所述第一语音信号之前的设定时间内用户输入的第二语音信号，根据所述第二语音信号确定所述用户当前所处的第一场景。

当接收到所述第一语音信号后，获取接收到所述第一语音信号前的设定时间内用户输入的第二语音信号，其中，所述设定时间内可以是3分钟之内，即接收到用户输入的第一语音信号后，判断接收第一语音信号之前的3分钟内用户输入的第二语音信号。其中所述第二语音信号可以是语义完整的语音信号，即所述第二语音信号包括预期需要执行的第二动作和第二动作操作的对象。

其中所述第二语音信号也可以是前述的动作语音信号或对象语音信号。

当所述第二语音信号为语音完整的语音信号时，则根据所述第二语音信号可以确定所述用户输入第二语音信号所处的场景、第二语音信号预期要执行的第二动作以及所述第二动作操作的第二对象。

当所述第二语音信号为动作语音信号时，则根据所述第二语音信号确定的最终的第二场景、第二动作和第二对象。

当所述第二语音信号为对象语音信号时，则获取根据所述第二语音信号最终确定的场景和执行动作确定所述第二语音信号所处的第二场景、第二动作和第二对象。

在确定了第二场景后，由于接收到第一语音信号和第二语音信号之间的时间差较短，因而可以认为用户当前所处的第一场景与用户输入第二语音信号时所处的场景一样，即第一场景与第二场景是同一个场景。

S3、根据所述第一语音信号和所述当前所处的第一场景确定所述第一语音信号中预期要执行的第一动作和所述第一动作操作的第一对象，并对所述第一对象执行所述第一动作。

具体地，若所述第一语音信号为动作语音信号，则确定所述第一场景中所述第一动作的操作对象，并获取所述第一操作对象对应的概率，并根据所述操作对象进行优先级排序，根据优先级依次对所述第一操作对象执行所述第一动作。

举例说明，假设所述第一语音信号为动作操作信号，假设第一动作为打开，而根据所述第一场景可知所述用户在输入第二语音信号所处的第二场景为智能家居场景，则认为所述用户输入第一语音信号所处的场景为智能家居场景，在智能家居场景中，获取打开动作对应的所有操作对象以及对应的概率，假设打开灯的概率为0.6，打开空调的概率为0.3，按照概率从大到小的顺序对操作对象的优先级进行排序，概率越大，优先级越高，则打开灯的优先级高于打开空调的优先级。按照优先级对所述等执行打开动作。

本发明实施例的语音识别方法，接收并解析用户输入的第一语音信号，并获取接收所述第一语音信号设定时间内用户输入的第二语音信号处所的第一场景，根据所述第一语音信号和所述第一场景确定所述第一语音信号中预期要执行的第一动作和第一对象，并对所述第一对象执行所述第一操作。本发明实施例的方法，在用户输入的第一语音信号不完整的情况下，能够实现对用户输入的第一语音的分析，进而执行用户预期想要进行的操作。解决了现有技术中用户输入的语音信息语义不完整而无法操作的缺陷。

基于本发明实施例一，本发明实施例二提供一种语音识别处理器，如图2所示，该处理器1包括：接收识别单元10、第一场景确定单元11和第一动作和第一对象确定单元12，其中，所述接收识别单元10用于接收用户输入的第一语音信号，所述第一语音信号包括预期要执行的第一动作或所述第一动作操作的第一对象，所述第一场景确定单元11用于获取接收所述第一语音信号之前的设定时间内用户输入的第二语音信号，根据所述第二语音信号确定所述用户当前所处的第一场景，所述第一动作和第一对象确定单元12用于根据所述第一语音信号和所述第一场景确定所述第一语音信号中预期要执行的第一动作和所述第一动作操作的第一对象，并发送控制指令，所述控制指令控制对所述第一对象执行所述第一动作。

其中，所述第一场景确定单元11具体用于获取接收所述第一语音信号之前的设定时间内用户输入的第二语音信号，所述第二语音信号包括预期要执行的第二动作和所述第二动作操作的第二对象，根据所述第二动作和所述第二对象确定所述用户在输入所述第二语音信号时所处的第二场景，根据所述第二场景确定所述第一场景。

其中，所述第一场景确定单元11具体用于获取接收所述第一语音信号之前的设定时间内用户输入的第二语音信号，所述第二语音信号仅包括预期要执行的第二动作或仅包括预期要执行的第二动作操作的第二对象，根据所述第二操作动作确定所述用户当前所处的第二场景，或根据所述第二对象确定所述用户当前所处的第二场景，根据所述第二场景确定所述第一场景。

其中，所述第一动作和第一对象确定单元12具体用于若所述第一语音信号中仅包括所述第一动作，则从已建立的用户场景数据栈中获取所述第一场景中的所述第一动作的操作对象及所述操作对象对应的第一概率，根据所述第一概率确定所述操作对象的优先级，对所述优先级最高的所述操作对象执行所述第一操作。

其中，所述第一动作和第一对象确定单元12具体用于若所述第一语音信号中仅包括所述第一对象，则从已建立的用户场景数据栈中获取所述第一场景中的与所述第一对象匹配的操作动作和所述操作动作被执行的第二概率，根据所述第二概率确定与所述第一对象匹配的操作动作的优先级，对所述第一对象执行优先级最高的所述操作动作。

其中，所述系统1还包括用户场景数据栈建立单元，用户场景数据栈建立单元，用于获取用户输入的历史语音信息，对所述历史语音信息进行解析，获得用户输入历史语音信息所处的第三场景、所述历史语音信息预期要执行的第三动作和所述第三动作操作的第三对象，并保存所述第三场景、第三动作以及第三对象及其三者之间的对应关系，形成所述用户场景数据栈。

基于本发明实施例二，本发明实施例三提供一种语音识别系统，如图3所示，该语音识别系统100包括拾音设备2、执行设备3和前述的处理器1，其中，所述拾音设备2用于采集用户输入的第一语音信号，并将所述第一语音信号发送给所述处理器1，所述执行设备3用于接收所述控制指令，并对所述第一对象执行所述第一动作。

基于本发明实施例一，本发明实施例四提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行前述的方法的步骤。

基于本发明实施例一，本发明实施例五提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被计算机设备执行时实现前述的方法步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)以及存储器总线动态RAM(RDRAM)等。

以上所述实施方式仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取接收所述第一语音信号之前的设定时间内的用户输入的第二语音信号，根据所述第二语音信号确定所述用户当前所处的第一场景具体包括：

将所述第二场景确定为所述第一场景。

3.根据权利要求1所述的方法，其特征在于，所述获取接收所述第一语音信号之前的设定时间内的用户输入的第二语音信号，根据所述第二语音信号确定所述用户当前所处的第一场景具体包括：

将所述第二场景确定为所述第一场景。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一语音信号和所述当前所处的第一场景确定所述第一语音信号中预期要执行的第一动作和所述第一动作操作的第一对象具体包括：

根据所述第一概率确定所述操作对象的优先级；

对优先级最高的所述操作对象执行所述第一操作。

5.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一语音信号和所述当前所处的第一场景确定所述第一语音信号中预期要执行的第一动作和所述第一动作操作的第一对象具体包括：

对所述第一对象执行优先级最高的所述操作动作。

6.根据权利要求4或5所述的方法，其特征在于，所述建立用户场景数据栈具体包括：

7.一种语音识别处理器，其特征在于，所述处理器包括：

接收识别单元，用于接收并识别用户输入的第一语音信号，确定所述第一语音信号预期要执行的第一动作或所述第一动作操作的第一对象；

8.根据权利要求7所述的处理器，其特征在于，所述第一场景确定单元具体用于：

将所述第二场景确定为所述第一场景。

9.根据权利要求7所述的系统，其特征在于，所述第一场景确定单元具体用于：

将所述第二场景确定为所述第一场景。

10.根据权利要求8或9所述的系统，其特征在于，所述第一动作和第一对象确定单元具体用于：

根据所述第一概率确定所述操作对象的优先级；

对优先级最高的所述操作对象执行所述第一操作。

11.根据权利要求8或9所述的系统，其特征在于，所述第一动作和第一对象确定单元具体用于：

对所述第一对象执行优先级最高的所述操作动作。

12.根据权利要求10或11所述的系统，其特征在于，所述系统还包括：

13.一种语音识别处理系统，其特征在于，包括拾音设备、执行设备和如权利要求7-12所述的处理器，其中，

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备执行时实现前述权利要求1至6任一项所述的方法步骤。

15.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以使所述计算机设备执行权利要求1至6任一项所述的方法的步骤。