CN106782554B

CN106782554B - 基于人工智能的语音唤醒方法和装置

Info

Publication number: CN106782554B
Application number: CN201611180119.7A
Authority: CN
Inventors: 李哲浩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2020-09-25
Anticipated expiration: 2036-12-19
Also published as: CN106782554A

Abstract

本发明提出一种基于人工智能的语音唤醒方法和装置，该基于人工智能的语音唤醒方法包括获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点；获取时间点前后第一预设时间范围之内语音的数据帧的识别文本；从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理。通过本发明能够优化语音唤醒处理过程，实现连续地语音唤醒识别，有效提升语音唤醒识别效率。

Description

基于人工智能的语音唤醒方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于人工智能的语音唤醒方法和装置。

背景技术

语音唤醒技术是语音识别技术中的重要分支，语音唤醒技术通过监听用户语音来判断用户是否说出了指定唤醒词来启动设备。目前在车载、导航，以及智能家居等方面有着重要的应用，用于用声音启动程序或者服务。人工智能(Artificial Intelligence，AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

相关技术中，通过在终端的后台运行一个唤醒模块，唤醒模块可以在离线状态下不断循环判断用户是否输入语音,当确定用户输入匹配的语音时,则开始启动语音识别,然后持续进行检测，在用户停止录入语音后,将识别到的语音的数据帧发送至服务器以启动程序或者服务。

这种方式下，在通过匹配的语音进行唤醒的过程中，需要两次问答才能够启动程序或者服务，语音唤醒识别效率不佳。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于人工智能的语音唤醒方法，能够优化语音唤醒处理过程，实现连续地语音唤醒识别，有效提升语音唤醒识别效率。

本发明的另一个目的在于提出一种基于人工智能的语音唤醒装置。

本发明的又一个目的在于提出一种基于人工智能的语音唤醒装置。

本发明的另一个目的在于提出一种非临时性计算机可读存储介质。

本发明的另一个目的在于提出一种计算机程序产品。

为达到上述目的，本发明第一方面实施例提出的基于人工智能的语音唤醒方法，包括：获取用户输入的语音，并在判定对终端唤醒成功之后，获取将所述终端唤醒的时间点；获取所述时间点前后第一预设时间范围之内所述语音的数据帧的识别文本；从所述识别文本中提取目标文本，并通过所述目标文本对所述用户输入的语音进行处理。

本发明第一方面实施例提出的基于人工智能的语音唤醒方法，通过本实施例中，通过获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点，获取时间点前后第一预设时间范围之内语音的数据帧的识别文本，以及从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理，由于是从识别文本中提取目标文本，而不是二次接收用户输入的语音，优化了语音唤醒处理过程，实现连续地语音唤醒识别，有效提升语音唤醒识别效率。

为达到上述目的，本发明第二方面实施例提出的基于人工智能的语音唤醒装置，包括：第一获取模块，用于获取用户输入的语音，并在判定对终端唤醒成功之后，获取将所述终端唤醒的时间点；第二获取模块，用于获取所述时间点前后第一预设时间范围之内所述语音的数据帧的识别文本；识别处理模块，用于从所述识别文本中提取目标文本，并通过所述目标文本对所述用户输入的语音进行处理。

本发明第二方面实施例提出的基于人工智能的语音唤醒装置，通过获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点，获取时间点前后第一预设时间范围之内语音的数据帧的识别文本，以及从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理，由于是从识别文本中提取目标文本，而不是二次接收用户输入的语音，优化了语音唤醒处理过程，实现连续地语音唤醒识别，有效提升语音唤醒识别效率。

为达到上述目的，本发明第三方面实施例提出的基于人工智能的语音唤醒装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取用户输入的语音，并在判定对终端唤醒成功之后，获取将所述终端唤醒的时间点；

获取所述时间点前后第一预设时间范围之内所述语音的数据帧的识别文本；

从所述识别文本中提取目标文本，并通过所述目标文本对所述用户输入的语音进行处理。

本发明第三方面实施例提出的基于人工智能的语音唤醒装置，通过获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点，获取时间点前后第一预设时间范围之内语音的数据帧的识别文本，以及从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理，由于是从识别文本中提取目标文本，而不是二次接收用户输入的语音，优化了语音唤醒处理过程，实现连续地语音唤醒识别，有效提升语音唤醒识别效率。

为达到上述目的，本发明第四方面实施例提出的非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器被执行时，使得移动终端能够执行一种基于人工智能的语音唤醒方法，所述方法包括：

本发明第四方面实施例提出的非临时性计算机可读存储介质，通过获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点，获取时间点前后第一预设时间范围之内语音的数据帧的识别文本，以及从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理，由于是从识别文本中提取目标文本，而不是二次接收用户输入的语音，优化了语音唤醒处理过程，实现连续地语音唤醒识别，有效提升语音唤醒识别效率。

为达到上述目的，本发明第五方面实施例提出的计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于人工智能的语音唤醒方法，所述方法包括：

本发明第五方面实施例提出的计算机程序产品，通过获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点，获取时间点前后第一预设时间范围之内语音的数据帧的识别文本，以及从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理，由于是从识别文本中提取目标文本，而不是二次接收用户输入的语音，优化了语音唤醒处理过程，实现连续地语音唤醒识别，有效提升语音唤醒识别效率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的基于人工智能的语音唤醒方法的流程示意图；

图2是本发明另一实施例提出的基于人工智能的语音唤醒方法的流程示意图；

图3是本发明另一实施例提出的基于人工智能的语音唤醒装置的结构示意图；

图4是本发明另一实施例提出的基于人工智能的语音唤醒装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的基于人工智能的语音唤醒方法的流程示意图。

应用在具有语音识别唤醒功能的终端中。

其中，终端可以是智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。

参见图1，该方法包括：

S11：获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点。

其中，用户可以在终端的麦克风处录入一段语音，终端中的语音采集模块采集到该语音后，可以触发用声音启动终端中的程序或者服务，例如，用户在终端处录入“你好小度”，语音采集模块采集到“你好小度”的语音，将该语音发送至语音识别模块，语音识别模块对其进行识别后得到识别结果，将识别结果发送至后台服务器，以触发终端提供查询天气的程序或者服务。

可选地，可以由终端中的语音识别模块在识别出用户录入的语音后，判断该语音是否为匹配的唤醒词，并在该语音为匹配的唤醒词之后，触发唤醒模块对终端的程序或者服务进行唤醒处理，进而在唤醒成功时，对唤醒成功的时间点进行记录。

S12：获取时间点前后第一预设时间范围之内语音的数据帧的识别文本。

可选地，可以将终端切换至连续唤醒模式之后，获取时间点前后第一预设时间范围之内语音的数据帧的识别文本。

其中，将终端切换至连续唤醒模式的方法流程可以参见后续实施例。

可选地，第一预设时间范围例如为0s～2s，第一预设时间范围可以由终端的出厂程序预先设定，或者，也可以由提供程序或者服务的应用开发商预先设定，其设定过程可以参照多数的用户语音录入的习惯，对此不作限制。

在本发明的实施例中，以用户录入的语音不仅包含唤醒词，还包含唤醒词之外的语音示例，用户录入的语音具体如“你好小度,帮我查下今天的天气”，唤醒词具体如“你好小度”。

S13：从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理。

其中，目标文本为从识别文本中将唤醒词删除后的识别文本，唤醒词即通过语音对终端的程序或者服务进行唤醒触发的预设的语音文本。

可选地，从识别文本中提取目标文本，包括：从识别文本中识别出唤醒词；将唤醒词从识别文本中删除，并将删除后的识别文本作为目标文本。

在本发明的实施例中，可以由终端从识别文本中识别出唤醒词；将唤醒词从识别文本中删除，并将删除后的识别文本作为目标文本，实现该过程中终端与服务器的解耦和，避免终端多次向服务器发网络请求，提升识别效率。

相关技术中，终端通过将“你好小度,帮我查下今天的天气”发送至后台服务器，由后台服务器进行识别，终端与服务器的耦合性较高，触发较多次数的网络请求，识别效率低，用户体验不佳。

而本发明的实施例中，通过在终端侧获取时间点前后第一预设时间范围之内语音的数据帧的识别文本，并采用语音识别模块对“你好小度,帮我查下今天的天气”进行识别，从识别得到的识别文本中提取目标文本，其中，目标文本中不包含唤醒词，可以实现直接通过目标文本对用户输入的语音进行处理，避免了两次录入语音数据才能够触发终端提供查询天气的程序或者服务。

进一步地，通过目标文本对用户输入的语音进行处理，包括：根据目标文本生成处理请求；将处理请求发送至语音服务器，以使语音服务器根据处理请求对用户输入的语音进行处理。

通过直接根据目标文本生成处理请求，其中，该处理请求用于触发终端中程序或者服务从语音服务器获取与用户录入的语音对应的处理结果，直接通过目标文本对用户输入的语音进行处理，有效提升语音唤醒识别效率。

本实施例中，通过获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点，获取时间点前后第一预设时间范围之内语音的数据帧的识别文本，以及从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理，由于是从识别文本中提取目标文本，而不是二次接收用户输入的语音，优化了语音唤醒处理过程，实现连续地语音唤醒识别，有效提升语音唤醒识别效率。

图2是本发明另一实施例提出的基于人工智能的语音唤醒方法的流程示意图。

参见图2，该方法包括：

S201：获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点。

S201的执行过程可以参见上述实施例，在此不再赘述。

S202：对终端的麦克风持续进行语音信号检测。

可选地，可以在终端中设置语音检测模块，语音检测模块可以采用语音活动检测技术(Voice activity detection，VAD)检测终端麦克风处用户输入的语音。

相关技术中，由终端向后台服务器发起网络请求，由后台服务器根据该网络请求检测语音信号，终端与服务器的耦合性较高，触发较多次数的网络请求，识别效率低。

而本发明的实施例中，通过由终端侧的语音检测模块对终端的麦克风持续进行语音信号检测，实现简单，实现终端与服务器解耦合。

S203：判断在时间点之后的第二预设时间范围之内是否检测到语音信号，若是，执行S206，否则，执行S204。

其中，第二预设时间范围例如为0s～2s，第二预设时间范围可以由终端的出厂程序预先设定，或者，也可以由提供程序或者服务的应用开发商预先设定，其设定过程可以参照多数的用户语音录入的习惯，对此不作限制。

在本发明的实施例中，通过判断在时间点之后的第二预设时间范围之内是否检测到语音信号，来确定用户是否输入完毕语音，根据不同的判断结果触发终端实现不同的功能，切换灵活，满足用户不同的语音录入需求，提升用户体验。

S204：将终端切换至非连续唤醒模式。

可以理解的是，用户输入的语音的识别文本只包含唤醒词，或者，也可能不仅包含唤醒词，还包含用于交互的目标文本，相对应的，在一些应用场景下，若用户输入的语音仅仅包含唤醒词，则可以在终端处于非连续唤醒模式下对用户输入的语音进行唤醒识别处理。

例如，用户输入的语音的识别文本为“你好小度”，该语音对终端唤醒成功之后，在唤醒时间点之后的2s之内未检测到语音信号，则表明用户仅仅触发了唤醒事件，此时，可以将终端切换为非连续唤醒模式，并在该模式下对“你好小度”进行识别处理。

S205：生成用于提示用户终端已被唤醒的信息，并根据信息对用户进行提示。

可选地，终端已被唤醒的信息例如为，“你好主人”的提示语音，可以通过终端的麦克风播放“你好主人”，以对用户进行唤醒提示。

通过生成用于提示用户终端已被唤醒的信息，并根据信息对用户进行提示，进一步提升用户体验。

S206：将终端切换至连续唤醒模式。

例如，用户输入的语音的识别文本为“你好小度”，该语音对终端唤醒成功之后，在唤醒时间点之后的2s之内检测到语音信号，则表明用户不仅仅触发了唤醒事件，还触发了后续程序或者服务，此时，可以将终端切换为连续唤醒模式，并在该模式下对“你好小度”以及后续连续的语音(即“你好小度,帮我查下今天的天气”)进行识别处理。

S207：获取时间点前后第一预设时间范围之内语音的数据帧的识别文本。

S208：从识别文本中识别出唤醒词。

S209：将唤醒词从识别文本中删除，并将删除后的识别文本作为目标文本。

S210：根据目标文本生成处理请求。

S211：将处理请求发送至语音服务器，以使语音服务器根据处理请求对用户输入的语音进行处理。

S207-S211的执行过程可以参见上述实施例，在此不再赘述。

本实施例中，通过由终端的语音检测模块对终端的麦克风持续进行语音信号检测，实现简单，实现终端与服务器解耦合。通过判断在时间点之后的第二预设时间范围之内是否检测到语音信号，来确定用户是否输入完毕语音，根据不同的判断结果触发终端实现不同的功能，切换灵活，满足用户不同的语音录入需求，提升用户体验。通过生成用于提示用户终端已被唤醒的信息，并根据信息对用户进行提示，进一步提升用户体验。通过获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点，获取时间点前后第一预设时间范围之内语音的数据帧的识别文本，以及从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理，由于是从识别文本中提取目标文本，而不是二次接收用户输入的语音，优化了语音唤醒处理过程，实现连续地语音唤醒识别，有效提升语音唤醒识别效率。

图3是本发明另一实施例提出的基于人工智能的语音唤醒装置的结构示意图。该基于人工智能的语音唤醒装置30可以通过软件、硬件或者两者的结合来实现。

参见图3，该基于人工智能的语音唤醒装置30包括：第一获取模块301、第二获取模块302，以及识别处理模块303。其中，

第一获取模块301，用于获取用户输入的语音，并在判定对终端唤醒成功之后，获取将终端唤醒的时间点。

第二获取模块302，用于获取时间点前后第一预设时间范围之内语音的数据帧的识别文本。

识别处理模块303，用于从识别文本中提取目标文本，并通过目标文本对用户输入的语音进行处理。

一些实施例中，参见图4，该基于人工智能的语音唤醒装置30还包括：

可选地，第二获取模块302包括：

切换子模块3021，用于将终端切换至连续唤醒模式；

获取子模块3022，用于在将终端切换至连续唤醒模式之后，获取时间点前后第一预设时间范围之内语音的数据帧的识别文本。

可选地，切换子模块3022具体用于：

在获取将终端唤醒的时间点之后，对终端的麦克风持续进行语音信号检测；

判断在时间点之后的第二预设时间范围之内是否检测到语音信号；

在检测到语音信号时，将终端切换至连续唤醒模式。

可选地，切换子模块3022还用于：

在未检测到语音信号时，将终端切换至非连续唤醒模式。

可选地，识别处理模块303具体用于：

从识别文本中识别出唤醒词；

将唤醒词从识别文本中删除，并将删除后的识别文本作为目标文本。

生成模块304，用于生成用于提示用户终端已被唤醒的信息，并根据信息对用户进行提示。

可选地，识别处理模块303具体用于：

根据目标文本生成处理请求；

将处理请求发送至语音服务器，以使语音服务器根据处理请求对用户输入的语音进行处理。

需要说明的是，前述图1-图2实施例中对基于人工智能的语音唤醒方法实施例的解释说明也适合用于该实施例的基于人工智能的语音唤醒装置30，其实现原理类似，此处不再赘述。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音唤醒方法，其特征在于，包括以下步骤：

获取所述时间点前后第一预设时间范围之内所述语音的数据帧的识别文本，所述第一预设时间由所述终端的出厂程序预先设定，或者，由提供程序或者服务的应用开发商预先设定，其设定过程参照多数的用户语音录入的习惯；

从所述识别文本中提取目标文本，并通过所述目标文本对所述用户输入的语音进行处理；

所述从所述识别文本中提取目标文本，包括：

从所述识别文本中识别出唤醒词；

将所述唤醒词从所述识别文本中删除，并将删除后的识别文本作为目标文本；

其中，由所述终端从识别文本中识别出唤醒词；将唤醒词从识别文本中删除，并将删除后的识别文本作为目标文本；

所述通过所述目标文本对所述用户输入的语音进行处理，包括：

根据所述目标文本生成处理请求；

将所述处理请求发送至语音服务器，以使所述语音服务器根据所述处理请求对所述用户输入的语音进行处理。

2.如权利要求1所述的基于人工智能的语音唤醒方法，其特征在于，所述获取所述时间点前后第一预设时间范围之内所述语音的数据帧的识别文本，包括：

将所述终端切换至连续唤醒模式之后，获取所述时间点前后第一预设时间范围之内所述语音的数据帧的识别文本。

3.如权利要求2所述的基于人工智能的语音唤醒方法，其特征在于，所述将所述终端切换至连续唤醒模式，包括：

在获取将所述终端唤醒的时间点之后，对所述终端的麦克风持续进行语音信号检测；

判断在所述时间点之后的第二预设时间范围之内是否检测到所述语音信号；

在检测到所述语音信号时，将所述终端切换至所述连续唤醒模式。

4.如权利要求3所述的基于人工智能的语音唤醒方法，其特征在于，所述判断在所述时间点之后的第二预设时间范围之内是否检测到所述语音信号之后，还包括：

在未检测到所述语音信号时，将所述终端切换至非连续唤醒模式。

5.如权利要求4所述的基于人工智能的语音唤醒方法，其特征在于，所述将所述终端切换至非连续唤醒模式之后，还包括：

生成用于提示用户所述终端已被唤醒的信息，并根据所述信息对所述用户进行提示。

6.一种基于人工智能的语音唤醒装置，其特征在于，包括：

第一获取模块，用于获取用户输入的语音，并在判定对终端唤醒成功之后，获取将所述终端唤醒的时间点；

第二获取模块，用于获取所述时间点前后第一预设时间范围之内所述语音的数据帧的识别文本，所述第一预设时间由所述终端的出厂程序预先设定，或者，由提供程序或者服务的应用开发商预先设定，其设定过程参照多数的用户语音录入的习惯；

识别处理模块，用于从所述识别文本中提取目标文本，并通过所述目标文本对所述用户输入的语音进行处理；

所述识别处理模块具体用于：

从所述识别文本中识别出唤醒词；

其中，控制所述终端从识别文本中识别出唤醒词；将唤醒词从识别文本中删除，并将删除后的识别文本作为目标文本；

所述识别处理模块具体用于：

根据所述目标文本生成处理请求；

7.如权利要求6所述的基于人工智能的语音唤醒装置，其特征在于，所述第二获取模块包括：

切换子模块，用于将所述终端切换至连续唤醒模式；

获取子模块，用于在将所述终端切换至连续唤醒模式之后，获取所述时间点前后第一预设时间范围之内所述语音的数据帧的识别文本。

8.如权利要求7所述的基于人工智能的语音唤醒装置，其特征在于，所述切换子模块具体用于：

9.如权利要求8所述的基于人工智能的语音唤醒装置，其特征在于，所述切换子模块还用于：

10.如权利要求9所述的基于人工智能的语音唤醒装置，其特征在于，还包括：

生成模块，用于生成用于提示用户所述终端已被唤醒的信息，并根据所述信息对所述用户进行提示。