CN108665900A

CN108665900A - 云端唤醒方法及系统、终端以及计算机可读存储介质

Info

Publication number: CN108665900A
Application number: CN201810367637.2A
Authority: CN
Inventors: 王知践; 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2018-10-16
Anticipated expiration: 2038-04-23
Also published as: CN108665900B; JP6866046B2; US20190325871A1; JP2019191552A; US11574632B2

Abstract

本发明提出一种云端唤醒方法及系统、终端以及计算机可读存储介质。该云端唤醒方法包括：接收用户输入的唤醒语音，并将所述唤醒语音传送至云端；对所述唤醒语音进行云端解码，生成被唤醒文本；识别出所述被唤醒文本中的唤醒文字；以及根据识别结果，给出唤醒指示。通过本发明的云端唤醒方法，能够在云端完成对语音的识别，并根据识别出的语音，在云端实现对智能设备的唤醒。从而，在保证唤醒质量的情况下，减少了终端设备的资源耗用，也降低了电能损耗。

Description

云端唤醒方法及系统、终端以及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种云端唤醒方法及系统、终端以及计算机可读存储介质。

背景技术

随着科技的发展，在家电等智能设备中，用户可以通过语音实现对其操纵。也就是，需要通过语音对智能设备进行唤醒。

目前，现有的唤醒方案都是采用本地唤醒。基于本地的唤醒，实际上对于终端设备的耗电和资源占用都有很大的要求。并且，由于终端设备的内存有限，需要对唤醒模型进行压缩。但是，唤醒模型一旦被压缩，会影响唤醒的效果，也会产生唤醒的误报，从而影响唤醒的质量。

因此，如何减少唤醒模型的资源耗用和电能损耗，并且不影响保证唤醒质量，是大家十分关注的问题。

发明内容

本发明实施例提供一种云端唤醒控制方法及系统、终端以及计算机可读存储介质，以解决现有技术中的以上的一个或多个技术问题，或至少提供一种有益的选择。

第一方面，本发明实施例提供了一种云端唤醒方法，所述方法包括：

接收用户输入的唤醒语音，并将所述唤醒语音传送至云端；

对所述唤醒语音进行云端解码，生成被唤醒文本；

识别出所述被唤醒文本中的唤醒文字；以及

根据识别结果，给出唤醒指示。

结合第一方面，本发明在第一方面的第一种实施方式中，所述方法还包括：

用户预设所述唤醒文字；以及

将所述唤醒文字传送至所述云端。

结合第一方面、第一方面的第一种实施方式，本发明在第一方面的第二种实施方式中，所述将所述唤醒文字传送至所述云端，包括：

当将所述唤醒语音传送至云端的同时，将预设的所述唤醒文字传送至所述云端。

结合第一方面、第一方面的第一种实施方式、第一方面的第二种实施方式本发明在第一方面的第三种实施方式中，对所述唤醒语音进行云端解码，生成被唤醒文本，包括：

在所述云端，通过声学模型、语言模型及发音字典，对所述唤醒语音进行解码，以生成被唤醒文本。

结合第一方面、第一方面的第一种实施方式、第一方面的第二种实施方式、第一方面的第三种实施方式，本发明在第一方面的第四种实施方式中，所述识别出所述被唤醒文本中的唤醒文字，包括：

在所述被唤醒文本中，识别出与所述唤醒文字相匹配的匹配文字；以及

根据所述匹配文字，进行调整和组合，生成唤醒词。

结合第一方面及上述任何一种实施方式，本发明在第一方面的第五种实施方式中，所述根据识别结果，给出唤醒指示，包括：

根据所述唤醒词，给出唤醒指示。

第二方面，本发明实施例提供了一种云端唤醒系统，所述系统包括：

语音接收单元，配置用于接收用户输入的唤醒语音，并将所述唤醒语音传送至云端；

语音解码单元，配置用于对所述唤醒语音进行云端解码，生成被唤醒文本；

语音识别单元，配置用于识别出所述被唤醒文本中的唤醒文字；以及

唤醒指示单元，配置用于根据识别结果，给出唤醒指示。

结合第二方面，本发明在第二方面的第一种实施方式中，所述系统还包括：

唤醒文字设定单元，配置用于用户预设所述唤醒文字；以及

唤醒文字传送单元，配置用于将所述唤醒文字传送至所述云端。

结合第二方面、第二方面的第一种实施方式和第二方面的第二种实施方式，本发明在第二方面的第二种实施方式中，唤醒文字传送单元，还配置用于当将所述唤醒语音传送至云端的同时，将预设的所述唤醒文字传送至所述云端。

结合第二方面、第二方面的第一种实施方式、第二方面的第二种实施方式，本发明在第二方面的第三种实施方式中，所述语音解码单元，配置用于在所述云端，通过声学模型、语言模型及发音字典，对所述唤醒语音进行解码，以生成被唤醒文本。

结合第二方面、第二方面的第一种实施方式、第二方面的第二种实施方式、第二方面的第三种实施方式，本发明在第二方面的第四种实施方式中，所述语音识别单元包括：

文字匹配单元，配置用于在所述被唤醒文本中，识别出与所述唤醒文字相匹配的匹配文字；以及

唤醒形成单元，配置用于根据所述匹配文字，进行调整和组合，生成唤醒词。

结合第二方面及上述任何一种实施方式，本发明在第二方面的第五种实施方式中，所述唤醒指示单元，还配置用于根据所述唤醒词，给出唤醒指示。

第三方面，本发明实施例提供了一种云端唤醒终端，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任一所述云端唤醒方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一种所述云端唤醒方法。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过本发明的云端唤醒方法，能够在云端完成对语音的识别，并根据识别出的语音，在云端实现对智能设备的唤醒。从而，在保证唤醒质量的情况下，减少了终端设备的资源耗用，也降低了电能损耗。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出了根据本发明一个实施例的云端唤醒方法100的流程图；

图2示出了根据本发明另一个实施例的云端唤醒方法200的流程图；

图3示出了根据本发明另一个实施例的云端唤醒方法300的流程图；

图4示出了根据本发明一个实施例的云端唤醒系统400的结构框图；

图5示出了根据本发明另一个实施例的云端唤醒系统500的结构框图；

图6示出了根据本发明另一个实施例的云端唤醒系统600的结构框图；以及

图7示出了根据本发明的云端唤醒终端的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下面结合图1至图7所示，对本发明的云端唤醒方法、系统和终端进行描述。

参见图1所示，本发明的云端唤醒方法100，包括步骤S101至步骤S104。

首先，通过语音接收步骤S101，接收用户输入的唤醒语音。

其中，可以通过终端设备的内置麦克风，对唤醒语音进行接收。也可以设置与终端设备连接的麦克风阵列，采用波束成形技术，根据声音的来源设置波束成形的角度，从而，能够指向性地对来自不同方向上的用户的远场语音进行接收。

唤醒语音基于用户当前的唤醒需要，例如：当用户想要打开冰箱时，可以输入唤醒语音“打开冰箱”；当然，用户的唤醒语音可以并不精确，也可以是一段表达唤醒需要的语音，例如：天气太热了，开会儿空调吧。

在接收到用户的唤醒语音后，将唤醒语音传送至云端。

接着，进入语音解码步骤S102，在云端，对传送来的唤醒语音进行解码。

在一种实施例中，解码操作可以通过声学模型、语言模型及发音字典等相互结合来实现，但并不仅限于此。唤醒语音进行解码后，可以将语音信号转换成文字信号，从而生成被唤醒文本。

其中，解码所使用的声学模型、语言模型及发音字典等都建立在云端，由于云端空间大，不必对声学模型、语言模型及发音字典等进行压缩，保证了解码质量。

在生成被唤醒文本之后，可以在语音识别步骤S103中，识别出被唤醒文本中的唤醒文字。从而，确定被唤醒文本中是否包含唤醒文字，以及包含哪些唤醒文字。

其中，唤醒文字可以预先设定在云端，也可以预先传送至云端。具体操作方式，将在下文进行描述。

在一种实施例中，唤醒文字可以包括智能设备的名称、昵称等，以及与开启、关闭、暂停、休眠等相关的动词；但并不仅限于此，可以根据用户的个人需要而设定相关的唤醒文字。

以被唤醒文本“打开空调”为例，语音识别步骤S103中，可以识别出“打开空调”中存在哪些唤醒文字，如，智能设备的名称“空调”，与开启相关的动词“开”。接着，可以将“空调”与“开”发送至唤醒指示步骤S104。

最后，在唤醒指示步骤S104中，可以根据识别结果，即，“空调”与“开”，给出唤醒指示。此时，可以根据识别结果，即，“空调”与“开”，给出使用空调的唤醒提示，并打开空调设备。

语音识别步骤S103和唤醒指示步骤S104也可以在云端完成，不再占据本地资源，减少了资源耗用，也降低了本地终端设备的电能损耗。

通过本发明的云端唤醒方法100，能够在云端完成对语音的解码和识别，并根据识别出的语音，在云端实现对智能设备的唤醒，从而，减少了终端设备的资源耗用，也降低了电能损耗。

参见图2所示，本发明一个实施例的云端唤醒方法200，在方法100的基础上，方法200还包括唤醒文字设定步骤S105和唤醒文字传送步骤S106。

在唤醒文字设定步骤S105中，用户可以根据需要，预设唤醒文字。

其中，唤醒文字可以只简单包括智能设备的名称，例如：冰箱、电视、空调等；还可以根据用户的喜爱程度对智能设备设置昵称，例如：小猪冰箱，小冷空调等；进一步地，唤醒文字还可以包括与操作相关的动词，例如：开启、关闭、暂停、休眠等相关的动词。

进一步地，在唤醒文字设定步骤S105中，用户还可以搜索到智能设备的出厂名称，即，厂家所设定的默认名称，也可以直接将这些出厂名称作为唤醒文字来使用。

在设定好唤醒文字之后，进入到唤醒文字传送步骤S106，将唤醒文字传送至云端。

在一种实施例中，用户可以在本地设定好唤醒文字，并且，设定后传送至云端保存，以便后续的语音识别。

优选地，在唤醒文字传送步骤S106中，在传送唤醒语音至云端的同时，将预设的唤醒文字也一起传送至云端。这样，唤醒文字随唤醒语音一同传送，便于在云端对唤醒语音解码后，即可对被唤醒文本做识别，并根据识别结果，指示唤醒。

通过本发明的云端唤醒方法200，将唤醒文字传送至云端，云端空间大，可以存储大规模的数据群，无需对唤醒文字进行压缩，从而，可以保证唤醒文字的覆盖面，增加唤醒文字与被唤醒文本的识别和匹配程度，提高唤醒效果，也减少了唤醒中误报的发生。

参见图3所示，本发明一个实施例的云端唤醒方法300，在方法200的基础上，语音识别步骤S103可以包括文字匹配步骤S1031和唤醒形成步骤S1032。

在一种实施例中，参见图3所示，在文字匹配步骤S1031中，可以在被唤醒文本中，识别出与唤醒文字相匹配的匹配文字。

以被唤醒文本“天气太热了，开会儿空调吧”为例，此时，被唤醒文本的语义比较模糊。而当预设的唤醒文字包括“电视”、“空调”、“打开”、“开启”时，在文字匹配步骤S1031中，可以识别出“天气太热了，开会儿空调吧”中与预设的唤醒文字(“电视”、“空调”、“打开”、“开启”)相匹配的文字是“空调”和“开”，即，匹配文字。

接着，在唤醒形成步骤S1032中，可以根据识别出的匹配文字，对其进行调整和组合，生成唤醒词。例如：将匹配文字“空调”和“开”，进行位置关系和逻辑关系上的调整和组合，形成唤醒词“开空调”。

在一种实施例中，在进入到唤醒指示步骤S104，可以根据唤醒词，给出唤醒指示。例如：根据唤醒词“开空调”，给出打开空调的唤醒指示，从而实现对空调的唤醒。

通过本发明的云端唤醒方法300，当被唤醒文本的语义比较模糊时，在识别出匹配文字之后，可以对匹配文字进行调整和组合，从而生成唤醒词。在方法300中，通过调整和组合就可以生成唤醒词，无需更改唤醒文字的构建模型，节省了技术资源，并且还能降低误报的发生。

参见图4所示，一种云端唤醒系统400，包括：语音接收单元401、语音解码单元402、语音识别单元403和唤醒指示单元404。

语音接收单元401，配置用于接收用户输入的唤醒语音，并将唤醒语音传送至云端。

语音解码单元402，配置用于对唤醒语音进行云端解码，生成被唤醒文本。

语音识别单元403，配置用于识别出被唤醒文本中的唤醒文字。

在一种实施例中，通过对被唤醒文本的识别，确定被唤醒文本中是否包含唤醒文字，以及包含哪些唤醒文字。

其中，唤醒文字可以预先设定在云端，也可以预先传送至云端。具体操作单元，将在下文进行描述。

唤醒指示单元404，配置用于根据识别结果，给出唤醒指示。

语音识别单元403和唤醒指示单元404也可以设置在云端，不再占据本地资源，减少了资源耗用，也降低了本地终端设备的电能损耗。

通过本发明的云端唤醒系统400，能够在云端完成对语音的解码和识别，并根据识别出的语音，在云端实现对智能设备的唤醒，从而，减少了终端设备的资源耗用，也降低了电能损耗。

具体地，图4所示的云端唤醒系统400与图1所示的云端唤醒方法100相对应。图4所示的系统的具体实现方式参照图1所示的方法的实施例中的描述。

参见图5所示，一种云端唤醒系统500，在系统400的基础上，系统500还包括唤醒文字设定单元405和唤醒文字传送单元406。

唤醒文字设定单元405，配置用于用户预设唤醒文字。

唤醒文字传送单元406，配置用于将唤醒文字传送至云端。

优选地，可以唤醒文字传送单元406在传送唤醒语音至云端的同时，将预设的唤醒文字也一起传送至云端。这样，唤醒文字随唤醒语音一同传送，便于在云端对唤醒语音解码后，即可对被唤醒文本做识别，并根据识别结果，指示唤醒。

具体地，图5所示的云端唤醒系统500与图2所示的云端唤醒方法200相对应。图5所示的系统的具体实现方式参照图2所示的方法的实施例中的描述。

参见图6所示，一种云端唤醒系统600，在系统500的基础上，语音识别单元403可以包括文字匹配单元4031和唤醒形成单元4032。

文字匹配单元4031，配置用于在被唤醒文本中，识别出与唤醒文字相匹配的匹配文字。

唤醒形成单元4032，配置用于根据匹配文字，进行调整和组合，生成唤醒词。

在一种实施例中，唤醒指示单元404，可以配置用于根据唤醒词，给出唤醒指示。

具体地，图6所示的云端唤醒系统600与图3所示的云端唤醒方法300相对应。图6所示的系统的具体实现方式参照图3所示的方法的实施例中的描述。

参见图7所示，一种云端唤醒控制终端包括存储器710和处理器720。存储器710内存储有可在处理器720上运行的计算机程序。处理器720执行计算机程序时实现上述实施例中的云端唤醒方法。存储器710和处理器720的数量可以为一个或多个。

该服务器还包括：

通信接口730，用于与外界设备进行通信，进行数据交互传输。

存储器710可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器710、处理器720和通信接口730独立实现，则存储器710、处理器720和通信接口730可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器710、处理器720及通信接口730集成在一块芯片上，则存储器710、处理器720及通信接口730可以通过内部接口完成相互间的通信。

在一种实施例中，本发明还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一种所述云端唤醒方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种云端唤醒方法，其特征在于，所述方法包括：

接收用户输入的唤醒语音，并将所述唤醒语音传送至云端；

对所述唤醒语音进行云端解码，生成被唤醒文本；

识别出所述被唤醒文本中的唤醒文字；以及

根据识别结果，给出唤醒指示。

2.根据权利要求1所述的方法，其特征在于，还包括：

用户预设所述唤醒文字；以及

将所述唤醒文字传送至所述云端。

3.根据权利要求2所述的方法，其特征在于，所述将所述唤醒文字传送至所述云端，包括：

4.根据权利要求3所述的方法，其特征在于，对所述唤醒语音进行云端解码，生成被唤醒文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述识别出所述被唤醒文本中的唤醒文字，包括：

根据所述匹配文字，进行调整和组合，生成唤醒词。

6.根据权利要求5所述的方法，其特征在于，所述根据识别结果，给出唤醒指示，包括：

根据所述唤醒词，给出唤醒指示。

7.一种云端唤醒系统，其特征在于，所述系统包括：

唤醒指示单元，配置用于根据识别结果，给出唤醒指示。

8.根据权利要求7所述的系统，其特征在于，还包括：

唤醒文字设定单元，配置用于用户预设所述唤醒文字；以及

9.根据权利要求8所述的系统，其特征在于，所述唤醒文字传送单元，还配置用于当将所述唤醒语音传送至云端的同时，将预设的所述唤醒文字传送至所述云端。

10.根据权利要求9所述的系统，其特征在于，所述语音解码单元，配置用于在所述云端，通过声学模型、语言模型及发音字典，对所述唤醒语音进行解码，以生成被唤醒文本。

11.根据权利要求10所述的系统，其特征在于，所述语音识别单元包括：

12.根据权利要求11所述的系统，其特征在于，所述唤醒指示单元，还配置用于根据所述唤醒词，给出唤醒指示。

13.一种云端唤醒终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。