CN109524010A

CN109524010A - 一种语音控制方法、装置、设备及存储介质

Info

Publication number: CN109524010A
Application number: CN201811585338.2A
Authority: CN
Inventors: 张瀚; 许文卿
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-03-26

Abstract

本发明实施例涉及数据处理技术领域，具体涉及一种语音控制方法、装置、设备及存储介质。所述语音控制方法包括：在第一场景下，接收第一语音信息；判断所述第一语音信息所属的场景；当所述第一语音信息所属的场景为第一场景时，根据所述第一语音信息进行控制。接收到语音信息时，先判断该语音信息是否属于当前场景，如果属于当前场景，才根据语音信息进行控制，从而避免了接收任意语音信息后都进行控制而导致的用户体验差、甚至导致意外发生的问题。

Description

一种语音控制方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理领域，具体涉及一种语音控制方法、装置、设备及存储介质。

背景技术

随着语音识别技术的发展，用户可以通过语音控制设备运行，例如用户可以通过车载语音交互系统通过语音进行导航、查询天气、开启空调、切换歌曲等。

现有技术中，在用户使用车载语音交互系统进行相应控制时，在每次发出语音控制指令前，需要先发出唤醒指令，以唤醒车载语音交互系统，使得车载语音交互系统根据后续的语音控制指令进行相应控制。

如果使得车载语音交互系统一直处于唤醒状态，不但耗费资源，而且会每当接收到语音信息时，就会根据语音信息进行相应控制，而往往这些语音信息并非用户相对车载语音交互系统进行控制而发出的，因此根据这些语音信息进行的控制往往不符合用户的意图，使得用户体验较差，甚至导致意外发生。

发明内容

为此，本发明实施例提供一种语音控制方法、装置、设备及存储介质，以解决现有技术中语音交互系统一直处于唤醒状态时，只要接收到语音信息就进行控制，而导致用户体验较差，甚至导致意外发生的问题。

为了实现上述目的，本发明的实施方式提供如下技术方案：

在本发明的实施方式的第一方面中，提供了一种语音控制方法，包括：在第一场景下，接收第一语音信息；判断所述第一语音信息所属的场景；当所述第一语音信息所属的场景为第一场景时，根据所述第一语音信息进行控制。

在本发明的一个实施例中，所述第一场景为根据第二语音信息确定的场景，所述第二语音信息为在接收所述第一语音信息之前接收到的语音信息。

在本发明的一个实施例中，所述语音控制方法还包括：在休眠状态下，接收所述第二语音信息；判断所述第二语音信息所属的场景；其中，判断得到的所述第二语音信息所属的场景为第一场景；从休眠状态进入第一场景。

在本发明的一个实施例中，所述第一场景为根据所述第二语音信息从多个预设场景中确定的场景。

在本发明的一个实施例中，所述判断第一语音信息所属的场景包括：解析所述第一语音信息对应的文本信息的语义；根据所述解析得到的语义判断所述第一语音信息所属的场景。

在本发明的一个实施例中，所述解析所述第一语音信息对应的文本信息的语义包括：使用语义解析模型解析所述第一语音信息对应的文本信息的语义。

在本发明的一个实施例中，所述语义解析模型为使用卷积神经网络训练得到的。

在本发明的实施方式的第二方面中，提供了一种语音控制装置，包括：接收单元，用于在第一场景下，接收第一语音信息；判断单元，用于判断所述第一语音信息所属的场景；控制单元，用于当所述第一语音信息所属的场景为第一场景时，根据所述第一语音信息进行控制。

在本发明的实施方式的第三方面中，提供了一种电子设备，包括处理器和存储器；其中，所述存储器存储代码；所述处理器执行所述代码，用于执行第一方面所述的语音控制方法。

在本发明的实施方式的第四方面中，提供了一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令被计算机执行时，使所述计算机执行第一方面所述的语音控制方法。

根据本发明的实施方式，本发明提供的语音控制方法、装置、设备及存储介质具有如下优点：接收到语音信息时，先判断该语音信息是否属于当前场景，如果属于当前场景，才根据语音信息进行控制，从而避免了接收任意语音信息后都进行控制而导致的用户体验差、甚至导致意外发生的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明的一实施例提供的一种语音控制方法的流程图；

图2为本发明的另一实施例提供的一种语音控制装置的结构示意图；

图3为本发明的另一实施例提供的一种电子设备的结构示意图。

图中：21.接收单元，22.判断单元，23.控制单元，31.处理器，32.存储器。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音控制方法可以应用于具有语音控制功能的系统，例如语音交互系统等。语音交互系统等可以采集用户的声音，即语音信息；并可以对语音信息进行判断，判断其是否属于当前场景，如果属于，则根据该语音信息进行相应控制。

语音交互系统具体可以为车载语音交互系统。

接下来，对本发明实施例提供的语音控制方法进行具体介绍。

实施例1

本实施例提供了一种语音控制方法，其执行主体可以为任何具有计算能力的电子设备，该电子设备可以为具有语音控制功能的系统，或者属于具有语音控制功能的系统。

如图1所示，所述语音控制方法包括如下步骤。

步骤11、在第一场景下，接收第一语音信息。

可以预设多种场景，例如导航场景、路况场景、天气查询场景、音乐播放场景等。

当电子设备处于上述各预设的场景时，电子设备处于唤醒状态。

在一个示例中，所述第一场景为根据第二语音信息确定的场景，所述第二语音信息为在接收所述第一语音信息之前接收到的语音信息。

在该示例中，用户可以通过声音指示电子设备进入特定的场景。以导航场景为例，用户可以说“请启动导航场景”，产生第二语音信息。电子设备根据这条第二语音信息进入导航场景。

电子设备的初始状态为休眠状态，在休眠状态下除了接收唤醒指令而进入唤醒状态外，忽略其他语音信息，即不会根据其他的语音信息进行控制。

需要说明的是，在本实施例中，唤醒指令的形式可以为语音，也可以为其他形式，例如用户通过触屏电子设备的触摸板产生的控制指令。

在一个示例中，所述语音控制方法还包括：在休眠状态下，接收所述第二语音信息；判断所述第二语音信息所属的场景；其中，判断得到的所述第二语音信息所属的场景为第一场景；从休眠状态进入第一场景。

可以理解，唤醒电子设备、使之进入特定的场景可以通过一条语音信息完成。仍以导航场景为例，上述用户说出的“请启动导航场景”，可以唤醒处于休眠状态的电子设备，并使之进入导航场景。

具体地，再接收到语音信息后，可以使用语音转文本技术，将语音信息转换成文本信息，然后解析文本信息的语义，例如可以使用语义解析模型解析文本信息的语义。语义解析模型可以为使用卷积神经网络训练得到的。如果解析出的语义唤醒处于休眠状态的电子设备，并使之进入导航场景，例如，解析出的语义表示“启动导航”，则处于休眠状态的电子设备进入导航场景。

语言转文本技术可以参考现有技术的介绍，此处不再赘述。

在一个示例中，所述第一场景为根据所述第二语音信息从多个预设场景中确定的场景。

如上所述，可以预先设置多个场景，例如导航场景、路况场景、天气查询场景、音乐播放场景等。当根据第二语音信息判断得到的场景为预设的场景中一个场景时，则唤醒处于休眠状态的电子设备，并使之进入该场景。

步骤12、判断所述第一语音信息所属的场景。

在一个示例中，所述判断第一语音信息所属的场景包括：解析所述第一语音信息对应的文本信息的语义；根据所述解析得到的语义判断所述第一语音信息所属的场景。

接收到语音信息后，使用语言语音转文本技术，将语音信息转换成文本信息，然后解析文本信息的语义，根据文本信息的语义解析结果判定语音信息所属的场景。

在一个示例中所述解析所述第一语音信息对应的文本信息的语义包括：使用语义解析模型解析所述第一语音信息对应的文本信息的语义。

语义解析模型的训练数据可以包括历史上或预设的用户意图与语音信息的文本信息的对应关系，例如文字信息为“我要到中关村”的语音信息和用户要导航对应，再例如文字信息为“我想听《甜蜜蜜》”的语音信息和用户想要听音乐对应，等等。

在一个示例中，所述语义解析模型为使用卷积神经网络训练得到的。

采用用户意图与语音信息的文本信息的对应关系使用卷积神经网络训练得到语义解析模型。根据该语义解析模型可以解析接收到的语音信息对应的文本信息，进而可以得出用户的意图，从而可以确定场景。文字信息为“到中关村”的语音信息经语义解析模型解析结果为与用户要导航，从而可以确定文字信息为“到中关村”的语音信息所属的场景为导航。

步骤13、当所述第一语音信息所属的场景为第一场景时，根据所述第一语音信息进行控制。

当判断出的语音信息所属的场景为当前场景时，在解析语音信息中的控制指令，进而进行控制，例如，当前场景为导航场景，“到王府井”，可以得知用户的控制指令为导航去王府井。

解析语音信息中的控制指令可以本实施例提供的语义解析模型进行，具体可参照上文介绍；也可以参照现有技术中的语义解析方法进行，此处不再赘述。

本实施例提供的评论分析方法具有如下优点：接收到语音信息时，先判断该语音信息是否属于当前场景，如果属于当前场景，才根据语音信息进行控制，从而避免了接收任意语音信息后都进行控制而导致的用户体验差、甚至导致意外发生的问题。

实施例2

本实施例提供了一种语音控制装置，如图2所示，包括：

接收单元21，用于在第一场景下，接收第一语音信息；

判断单元22，用于判断所述第一语音信息所属的场景；

控制单元23，用于当所述第一语音信息所属的场景为第一场景时，根据所述第一语音信息进行控制。

本实施例提供的语音控制装置各功能单元的功能可以参考实施例1记载的内容实现，此处不再赘述。

本实施例提供语音控制装置具有如下优点：接收到语音信息时，先判断该语音信息是否属于当前场景，如果属于当前场景，才根据语音信息进行控制，从而避免了接收任意语音信息都进行控制而导致的用户体验差、甚至导致意外发生的问题。

实施例3

本实施例提供了一种电子设备，如图3所示，包括处理器31和存储器32；其中，

所述存储器32存储代码；

所述处理器31执行所述代码，用于执行实施例1所述的语音控制方法。

本实施例提供电子设备具有如下优点：接收到语音信息时，先判断该语音信息是否属于当前场景，如果属于当前场景，才根据语音信息进行控制，从而避免了接收任意语音信息都进行控制而导致的用户体验差、甚至导致意外发生的问题。

实施例4

本实施例提供了一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令被计算机执行时，使所述计算机执行实施例1所述的语音控制方法。

在本发明的实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，包括：

在第一场景下，接收第一语音信息；

判断所述第一语音信息所属的场景；

当所述第一语音信息所属的场景为第一场景时，根据所述第一语音信息进行控制。

2.根据权利要求1所述的语音控制方法，其特征在于，所述第一场景为根据第二语音信息确定的场景，所述第二语音信息为在接收所述第一语音信息之前接收到的语音信息。

3.根据权利要求2所述的语音控制方法，其特征在于，所述语音控制方法还包括：

在休眠状态下，接收所述第二语音信息；

判断所述第二语音信息所属的场景；其中，判断得到的所述第二语音信息所属的场景为第一场景；

从休眠状态进入第一场景。

4.根据权利要求2所述的语音控制方法，其特征在于，所述第一场景为根据所述第二语音信息从多个预设场景中确定的场景。

5.根据权利要求1所述的语音控制方法，其特征在于，所述判断第一语音信息所属的场景包括：

解析所述第一语音信息对应的文本信息的语义；

根据所述解析得到的语义判断所述第一语音信息所属的场景。

6.根据权利要求5所述的语音控制方法，其特征在于，所述解析所述第一语音信息对应的文本信息的语义包括：

使用语义解析模型解析所述第一语音信息对应的文本信息的语义。

7.根据权利要求6所述的语音控制方法，其特征在于，所述语义解析模型为使用卷积神经网络训练得到的。

8.一种语音控制装置，其特征在于，包括：

接收单元，用于在第一场景下，接收第一语音信息；

判断单元，用于判断所述第一语音信息所属的场景；

控制单元，用于当所述第一语音信息所属的场景为第一场景时，根据所述第一语音信息进行控制。

9.一种电子设备，其特征在于，包括处理器和存储器；其中，

所述存储器存储代码；

所述处理器执行所述代码，用于执行权利要求1-7任一项所述的语音控制方法。

10.一种存储程序的计算机可读存储介质，其特征在于，所述程序包括指令，所述指令被计算机执行时，使所述计算机执行权利要求1-7任一项所述的语音控制方法。