CN107578776A

CN107578776A - 一种语音交互的唤醒方法、装置及计算机可读存储介质

Info

Publication number: CN107578776A
Application number: CN201710872245.7A
Authority: CN
Inventors: 李小海; 唐国宁; 孙凯; 赵磊
Original assignee: Migu Cultural Technology Co Ltd
Current assignee: Migu Cultural Technology Co Ltd
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2018-01-12
Anticipated expiration: 2037-09-25
Also published as: CN107578776B

Abstract

本发明公开了一种语音交互的唤醒方法，包括：网页页面检测到输入的语音时，识别所述语音中是否包含唤醒关键词；确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令；执行所述唤醒命令，开启网页页面的语音交互。本发明还同时公开了一种语音交互的唤醒装置以及计算机可读存储介质。

Description

一种语音交互的唤醒方法、装置及计算机可读存储介质

技术领域

本发明涉及语音技术领域，尤其涉及一种语音交互的唤醒方法、装置及计算机可读存储介质。

背景技术

目前，随着计算机技术的快速发展，当今人们的生活已经逐渐步入智能时代，在终端上进行智能语音交互的现象越来越多。语音交互是基于语音输入的新一代交互模式，即用户通过说话就可以得到反馈结果。在实际应用中，语音交互可以通过安装于终端上的应用程序如苹果的语音助手Siri实现。

目前，实现语音交互的方式包括：通过客户端实现语音交互的方式。但是，通过客户端实现语音交互，需要进行软件开发，开发周期长、更新复杂。

发明内容

有鉴于此，本发明实施例期望提供一种语音交互的唤醒方法、装置及计算机可读存储介质，能够基于网页页面开启语音交互。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种语音交互的唤醒方法，所述方法包括：

网页页面检测到输入的语音时，识别所述语音中是否包含唤醒关键词；

确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令；

执行所述唤醒命令，开启网页页面的语音交互。

上述方案中，所述识别所述语音中是否包含唤醒关键词，包括：

网页页面获取输入的语音；

对获取的语音进行端点检测，得到端点检测后的语音；

对所述端点检测后的语音进行识别，得到识别结果；所述识别结果用于指示所述语音中是否包含唤醒关键词。

上述方案中，所述网页页面获取输入的语音，包括：

获取对所述网页页面所在浏览器的访问权限；

获取到对所述浏览器的访问权限时，调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。

上述方案中，所述对获取的语音进行端点检测，得到端点检测后的语音，包括：

判断所述获取的语音是否存在噪音；

确定所述获取的语音不存在噪音时，从所述获取的语音中确定有效的语音段；

截取所述语音段起始点和结束点之间的语音，作为端点检测后的语音。

上述方案中，所述对所述端点检测后的语音进行识别，得到识别结果，包括：

利用所述网页页面所在的浏览器，基于超文本传送协议，将所述端点检测后的语音向服务器发送；所述端点检测后的语音用于供服务器进行语音识别，以确认是否包含唤醒关键词；

接收服务器发送的包含或不包含唤醒关键词的识别结果。

对所述端点检测后的语音进行特征提取，得到特征参数；

将所述特征参数与预先生成的训练模板中的参数进行匹配，得到匹配结果；

利用所述匹配结果，确认所述语音中包含或不包含唤醒关键词；

相应的，所述确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令，包括：

确认所述语音中包含唤醒关键词时，根据唤醒关键词与唤醒命令的预设对应关系，确定与所述唤醒关键词对应的唤醒命令。

上述方案中，所述开启网页页面的语音交互之后，所述方法还包括：

网页页面将再次获取的语音发送给服务器，所述再次获取的语音用于供服务器进行语音识别，以确定对应所述再次获取的语音的预设命令；

接收服务器发送的包括所述预设命令的识别结果；

执行所述预设命令，以进行网页页面的语音交互。

本发明实施例提供一种语音交互的唤醒装置，所述装置包括：

识别模块，用于在网页页面检测到输入的语音时，识别所述语音中是否包含唤醒关键词；

确定模块，用于确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令；

唤醒模块，用于执行所述唤醒命令，开启网页页面的语音交互。

上述方案中，所述识别模块，具体用于经由网页页面获取输入的语音；对获取的语音进行端点检测，得到端点检测后的语音；并对所述端点检测后的语音进行识别，得到识别结果；所述识别结果用于指示所述语音中是否包含唤醒关键词。

上述方案中，所述识别模块，具体用于获取对所述网页页面所在浏览器的访问权限；获取到对所述浏览器的访问权限时，调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。

上述方案中，所述识别模块，具体用于判断所述获取的语音是否存在噪音；确定所述获取的语音不存在噪音时，从所述获取的语音中确定有效的语音段；截取所述语音段起始点和结束点之间的语音，作为端点检测后的语音。

上述方案中，所述识别模块，具体用于利用所述网页页面所在的浏览器，基于超文本传送协议，将所述端点检测后的语音向服务器发送；所述端点检测后的语音用于供服务器进行语音识别，以确定是否包含唤醒关键词；接收服务器发送的包含或不包含唤醒关键词的识别结果。

上述方案中，所述识别模块，具体用于对所述端点检测后的语音进行特征提取，得到特征参数；将所述特征参数与预先生成的训练模板中的参数进行匹配，得到匹配结果；并利用所述匹配结果，确认所述语音中包含或不包含唤醒关键词；确认所述语音中包含唤醒关键词时，根据唤醒关键词与唤醒命令的预设对应关系，确定与所述唤醒关键词对应的唤醒命令。

上述方案中，所述装置还包括：

发送模块，用于经由网页页面将再次获取的语音发送给服务器，所述再次获取的语音用于供服务器进行语音识别，以确定对应所述再次获取的语音的预设命令；

接收模块，用于接收服务器发送的包括所述预设命令的识别结果；

语音交互模块，用于执行所述预设命令，以进行网页页面的语音交互。

本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上面所述任一种语音交互的唤醒方法的步骤。

本发明实施例提供一种语音交互的唤醒装置，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器用于运行所述计算机程序时，执行上面所述任一种语音交互的唤醒方法的步骤。

本发明实施例提供的语音交互的唤醒方法、装置及计算机可读存储介质，网页页面检测到语音时，识别所述语音中是否包含唤醒关键词；当确定包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令；执行所述唤醒命令，开启网页页面的语音交互。在本发明实施例中，网页页面识别检测到的语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令，执行所述唤醒命令，就可以开启网页页面的语音交互，因此，能够基于网页页面开启语音交互。

另外，本发明实施例中，开启的是网页页面的语音交互，由于无需对客户端软件进行开发，因此，实现较容易、开发周期较短。

附图说明

图1为本发明实施例语音交互的唤醒方法的实现流程示意图一；

图2为本发明实施例语音交互的唤醒方法的实现流程示意图二；

图3为本发明实施例语音交互的唤醒装置的组成结构示意图一；

图4为本发明实施例语音交互的唤醒装置的组成结构示意图二；

图5为本发明实施例语音交互的唤醒装置的组成结构示意图三；

图6为本发明实施例在线唤醒的具体实现流程示意图；

图7为本发明实施例语音交互的唤醒的具体实现流程示意图；

图8为本发明实施例离线唤醒的具体实现流程示意图。

具体实施方式

本发明实施例中，网页页面检测到输入的语音时，识别所述语音中是否包含唤醒关键词；确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令；执行所述唤醒命令，开启网页页面的语音交互。

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

如图1所示，详细说明本发明实施例语音交互的唤醒方法，本实施例的唤醒方法应用于终端侧，包括以下步骤：

步骤101：网页页面检测到输入的语音时，识别所述语音中是否包含唤醒关键词。

这里，所述网页页面可以是H5页面，即利用超文本标记语言(HTML，Hyper TextMark-up Language)的新版本即HTML5标准制作出来的页面。

本发明实施例中，语音交互的唤醒过程包括：在终端侧的网页页面上，识别出监听到的语音中包含的唤醒关键词后，根据唤醒关键词对应的唤醒命令开启语音交互。

所述唤醒包括：在线唤醒和/或离线唤醒；其中，在线唤醒的过程包括：网页页面监听到语音后，获取监听到的语音，将监听到的语音发送给服务器进行语音识别，根据服务器的识别结果，确定是否开启语音交互。离线唤醒的过程包括：网页页面监听到语音后，获取监听到的语音，由终端本地的网页页面直接对监听到的语音进行语音识别，根据识别结果，确定是否开启语音交互。

实际应用时，网页页面启动后，就可以开启语音监听功能，对用户通过麦克风输入的语音进行实时监听。

在一实施例中，所述识别所述语音中是否包含唤醒关键词，包括：

网页页面获取输入的语音；

对获取的语音进行端点检测，得到端点检测后的语音；

实际应用时，所述识别所述语音中是否包含唤醒关键词，包括：在线识别和离线识别；其中，在线识别为服务器对终端利用网页页面发送的所述端点检测后的语音进行识别；离线识别为终端本地的网页页面对所述端点检测后的语音进行识别。

这里，在线识别由于在服务器侧完成，开发人员可以在服务器侧更改唤醒关键词与唤醒命令的对应关系，因此，在线识别可以支持动态更换唤醒关键词。

在一实施例中，所述网页页面获取输入的语音，包括：先获取对所述网页页面所在浏览器的访问权限；获取到对所述浏览器的访问权限时，再调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。

这里，之所以要先获取对所述网页页面所在浏览器的访问权限，是因为：在实际应用中，出于对用户安全的考虑，网页页面在没有获取到对浏览器的访问权限之前，不能捕获用户输入的语音；这样，就可以避免在用户不知情的情况下，网页页面对浏览器的语音设备恶意访问以获取用户的语音。

网页页面检测到输入的语音时，可以尝试获取对网页页面所在浏览器的访问权限，当浏览器没有拒绝网页页面的访问时，也就是，网页页面获取到对所述浏览器的访问权限时，可以通过navigator.mediaDevices.getUserMedia调用所述浏览器的设备访问接口，同时通过window.AudioContext调用音频处理接口来获取输入的语音。

在一实施例中，所述对获取的语音进行端点检测，得到端点检测后的语音，包括：判断所述获取的语音是否存在噪音；确定所述获取的语音不存在噪音时，从所述获取的语音中确定有效的语音段；截取所述语音段起始点和结束点之间的语音，作为端点检测后的语音。

这里，所述端点检测，也称为语音活跃状态(VAD，Voice Activity Detection)检测，端点检测技术能实现：区分语音和非语音(如噪音)，获取输入语音中的有效语音等等；端点检测通常包括：时域端点检测或者频域端点检测。

实际应用时，网页页面可以实时对语音进行端点检测：判断是否存在有效的语音，检测语音的起始点以及语音的结束点。具体的，可以通过设置一个合理的阈值来判断是否是有效语音以及语音是否开始或者结束；当语音中存在噪音时，还需要对噪音进行降噪处理。

通过对获取的语音进行端点检测，也就是判断获取的语音的活跃状态，能够自动且精确得控制语音交互，并且提升语音交互的质量。比如，如果检测到获取的语音是噪音时，不会再对获取的语音进行识别，从而能避免不必要的语音识别。

在一实施例中，所述对所述端点检测后的语音进行识别，得到识别结果，包括：利用所述网页页面所在的浏览器，基于超文本传送协议，将所述端点检测后的语音向服务器发送；所述端点检测后的语音用于供服务器进行语音识别，以确认是否包含唤醒关键词；接收服务器发送的包含或不包含唤醒关键词的识别结果。

这里，网页页面可以接收服务器发送的包含或不包含唤醒关键词的识别结果，还可以接收服务器基于包含唤醒关键词的识别结果确定的唤醒命令。

实际应用时，当网页页面是H5页面时，可以基于以安全为目标的超文本传输(HTTPS，Hyper Text Transfer Protocol over Secure Socket Layer)协议，将所述端点检测后的语音向服务器发送。

在一实施例中，所述对所述端点检测后的语音进行识别，得到识别结果，包括：对所述端点检测后的语音进行特征提取，得到特征参数；将所述特征参数与预先生成的训练模板中的参数进行匹配，得到匹配结果；利用所述匹配结果，确认所述语音中包含或不包含唤醒关键词。

实际应用时，在终端本地经由网页页面对所述端点检测后的语音进行识别为离线识别，这种情况下，网页页面可以通过调用开源Pocketsphinx+，基于sphinx快速实现语音识别。

基于sphinx快速实现语音识别，具体包括生成训练模板以及特征匹配；其中，生成训练模板的过程包括：对预先采集的包含特定唤醒关键词的语音进行特征提取，得到特征参数，并将得到的特征参数作为训练模板中的参数；特征匹配的过程包括：将对所述端点检测后的语音进行特征提取得到的特征参数与训练模板中的参数进行匹配，得到匹配结果。

步骤102：确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令。

相应的，所述确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令，包括：确认所述语音中包含唤醒关键词时，根据唤醒关键词与唤醒命令的预设对应关系，确定与所述唤醒关键词对应的唤醒命令。

举个例子来说，唤醒关键词可以是“hello migu”，对应的唤醒命令可以为“开启语音交互”。

这里，如果确认所述语音中是否包含唤醒关键词由服务器完成，那么，可以直接由服务器根据唤醒关键词与唤醒命令的预设对应关系，确定对应所述唤醒关键词的唤醒命令，之后将唤醒命令返回终端侧的网页页面；也可以由服务器将包含或不包含唤醒关键词的识别结果返回终端侧的网页页面，由网页页面根据唤醒关键词与唤醒命令的预设对应关系，确定对应所述唤醒关键词的唤醒命令。

步骤103：执行所述唤醒命令，开启网页页面的语音交互。

在一实施例中，所述开启网页页面的语音交互之后，所述方法还包括：网页页面将再次获取的语音发送给服务器，所述再次获取的语音用于供服务器进行语音识别，以确定对应所述再次获取的语音的预设命令；接收服务器发送的包括所述预设命令的识别结果；执行所述预设命令，以进行网页页面的语音交互。

这里，所述预设命令可以是触发各种操作的命令；举个例子来说，再次获取的语音可以是“我想录音”，对应的预设命令可以是“开启录音器”。

实际应用时，网页页面为H5页面时，在H5页面开启语音交互后，可以将再次获取的用户的语音的格式转换成WAV格式，之后将转换格式后的语音缓存到本地。

H5页面还可以对获取的语音进行有效性验证，具体地，可以根据存储语音的文件占用存储空间的大小以及语音时长等参数进行判断。例如，当语音文件占用存储空间的大小大于预设的存储空间阈值，且语音时长大于预设的语音时长时，确定语音是有效的。通过对获取的语音进行有效验证，可以将有效的语音发送给服务器，无效的语音不会再占用发送资源发送给服务器，如此，可以减少调用接口的次数，减少数据的传输。这里，有效性验证的相关参数阈值，如预设的存储空间阈值、预设的语音时长等，可以通过服务器对H5页面进行配置，终端在重新加载H5页面后，配置的相关参数阈值即可生效。

在对语音进行有效性验证后，H5页面可以通过HTTPS将再次获取的语音发送给服务器，所述再次获取的语音用于服务器进行语音识别，以确定对应所述再次获取的语音的预设命令。

H5页面接收服务器返回的预设命令后，执行所述预设命令，进行语音交互。

本发明实施例提供的语音交互的唤醒方法，网页页面检测到语音时，识别所述语音中是否包含唤醒关键词；当确定包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令；执行所述唤醒命令，开启网页页面的语音交互。由于网页页面识别到语音中包含唤醒关键词时，可以根据唤醒关键词对应唤醒命令开启语音交互，因此，能够基于网页页面开启语音交互。由于无需对终端上的客户端软件进行开发，因此，实现较容易、开发周期较短。

如图2所示，本发明实施例详细说明本发明实施例语音交互的唤醒方法，本实施例的唤醒方法应用于服务器侧，包括以下步骤：

步骤201：接收终端利用网页页面所在的浏览器发送的所述端点检测后的语音；

步骤202：对所述端点检测后的语音进行识别，得到识别结果；

步骤203：根据所述识别结果，确定唤醒命令；

步骤204：将确定的唤醒命令发送给所述终端，以便于终端上的网页页面根据所述唤醒命令开启网页页面的语音交互。

这里，服务器可以基于HTTPS协议，接收网页页面(如H5页面)所在的浏览器发送的所述端点检测后的语音。

在一实施例中，所述对所述端点检测后的语音进行识别，得到识别结果；包括：对所述端点检测后的语音进行降噪，得到降噪后的语音；对降噪后的语音进行特征提取，得到特征参数；利用所述降噪后的语音，生成训练模板；将所述特征参数与所述生成的训练模板中的参数进行匹配，得到匹配结果；

相应的，根据所述识别结果，确定唤醒命令，包括：利用所述匹配结果，判断所述语音中是否包含唤醒关键词；当确定包含唤醒关键词时，根据唤醒关键词语唤醒命令的预设对应关系，查找与所述唤醒关键词对应的唤醒命令。

这里，可以使用降噪算法(如MMSE STSA算法)去除端点检测后的语音中的背景噪音，能够提高语音的识别率。

实际应用时，服务器可以调用语音识别服务，识别降噪后的语音中是否包含唤醒关键词，当确定包含唤醒关键词时，从唤醒关键词与唤醒命令的预设对应关系中查找对应的唤醒命令，并将唤醒命令返回给网页页面(如H5页面)，以便于终端上的网页页面(如H5页面)根据所述唤醒命令开启网页页面的语音交互。

服务器还可以调用语音识别服务，识别降噪后的语音中是否包含唤醒关键词，并将包含或不包含唤醒关键词的识别结果返回给网页页面(H5页面)；所述识别结果用于供网页页面(如H5页面)确定唤醒命令。

基于本申请各实施例提供的语音交互的唤醒方法，本申请还提供了一种语音交互的唤醒装置，可以设置在终端上，如图3所示，所述装置包括：识别模块31、确定模块32、唤醒模块33；其中，

识别模块31，用于在网页页面检测到输入的语音时，识别所述语音中是否包含唤醒关键词；

确定模块32，用于确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令；

唤醒模块33，用于执行所述唤醒命令，开启网页页面的语音交互。

这里，所述网页页面可以是H5页面，即利用HTML5标准制作出来的页面。所述识别所述语音中是否包含唤醒关键词，包括：在线识别和离线识别；其中，在线识别为服务器对终端利用网页页面发送的所述端点检测后的语音进行识别；离线识别为终端本地的网页页面对所述端点检测后的语音进行识别。

所述识别模块31，具体用于经由网页页面获取输入的语音；对获取的语音进行端点检测，得到端点检测后的语音；并对所述端点检测后的语音进行识别，得到识别结果；所述识别结果用于指示所述语音中是否包含唤醒关键词。

所述识别模块31，具体用于先获取对所述网页页面所在浏览器的访问权限；获取到对所述浏览器的访问权限时，再调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。

所述识别模块31，具体用于判断所述获取的语音是否存在噪音；确定所述获取的语音不存在噪音时，从所述获取的语音中确定有效的语音段；截取所述语音段起始点和结束点之间的语音，作为端点检测后的语音。

具体的，可以通过设置一个合理的阈值来判断是否是有效语音以及语音是否开始或者结束；当语音中存在噪音时，还需要对噪音进行降噪处理。

所述识别模块31，具体用于利用所述网页页面所在的浏览器，基于超文本传送协议，将所述端点检测后的语音向服务器发送；所述端点检测后的语音用于供服务器进行语音识别，以确定是否包含唤醒关键词；接收服务器发送的包含或不包含唤醒关键词的识别结果。

这里，可以接收服务器发送的包含或不包含唤醒关键词的识别结果，还可以接收服务器基于包含唤醒关键词的识别结果确定的唤醒命令。

实际应用时，当网页页面是H5页面时，可以基于HTTPS协议，将所述端点检测后的语音向服务器发送。

所述识别模块31，具体用于对所述端点检测后的语音进行特征提取，得到特征参数；将所述特征参数与预先生成的训练模板中的参数进行匹配，得到匹配结果；并利用所述匹配结果，确认所述语音中包含或不包含唤醒关键词；确认所述语音中包含唤醒关键词时，结合确定模块32根据唤醒关键词与唤醒命令的预设对应关系，确定与所述唤醒关键词对应的唤醒命令。

实际应用时，识别模块31可以经由网页页面调用开源Pocketsphinx+，基于sphinx快速实现语音识别。

所述确定模块32，具体用于确认所述语音中包含唤醒关键词时，根据唤醒关键词与唤醒命令的预设对应关系，确定与所述唤醒关键词对应的唤醒命令。

所述装置还包括：

实际应用时，可以将再次获取的用户的语音的格式转换成WAV格式，之后将转换格式后的语音缓存到本地。还可以对获取的语音进行有效性验证，具体地，可以根据存储语音的文件占用存储空间的大小以及语音时长等参数进行判断。在对语音进行有效性验证后，可以通过HTTPS将再次获取的语音发送给服务器。

需要说明的是：上述实施例提供的语音交互的唤醒装置在进行语音交互时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的语音交互的唤醒装置与语音交互的唤醒方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在实际应用中，发送模块、接收模块由位于语音交互的唤醒装置上的网络接口实现；识别模块31、确定模块32、唤醒模块33、语音交互模块可由位于语音交互的唤醒装置上的中央处理器(CPU，Central Processing Unit)、微处理器(MPU，Micro Processor Unit)、数字信号处理器(DSP，Digital Signal Processor)、或现场可编程门阵列(FPGA，FieldProgrammable Gate Array)等实现。

基于本申请各实施例提供的语音交互的唤醒方法，本申请还提供了一种语音交互的唤醒装置，可以设置在服务器上，如图4所示，所述装置包括：语音接入模块41、语音识别模块42、命令模块43、命令发送模块44；其中，

语音接入模块41，用于接收终端利用网页页面所在的浏览器发送的所述端点检测后的语音；

语音识别模块42，用于对所述端点检测后的语音进行识别，得到识别结果；

命令模块43，用于根据所述识别结果，确定唤醒命令；

命令发送模块44，用于将确定的唤醒命令发送给所述终端，以便于终端上的网页页面根据所述唤醒命令开启网页页面的语音交互。

在一实施例中，所述语音识别模块，还包括：

降噪模块，用于对所述端点检测后的语音进行降噪，得到降噪后的语音；

所述语音识别模块42，具体用于对降噪后的语音进行特征提取，得到特征参数；利用所述降噪后的语音，生成训练模板；将所述特征参数与所述生成的训练模板中的参数进行匹配，得到匹配结果；

所述命令模块43，具体用于利用所述匹配结果，判断所述语音中是否包含唤醒关键词；当确定包含唤醒关键词时，根据唤醒关键词语唤醒命令的预设对应关系，查找与所述唤醒关键词对应的唤醒命令。

实际应用时，语音识别模块42可以调用语音识别服务，识别降噪后的语音中是否包含唤醒关键词，当确定包含唤醒关键词时，结合命令模块43从唤醒关键词与唤醒命令的预设对应关系中确定对应的唤醒命令，并利用命令发送模块44将唤醒命令返回给网页页面(如H5页面)，以便于网页页面(如H5页面)根据所述唤醒命令开启网页页面的语音交互。

语音识别模块42还可以调用语音识别服务，识别降噪后的语音中是否包含唤醒关键词，并利用命令发送模块44将包含或不包含唤醒关键词的识别结果返回给网页页面(H5页面)；所述识别结果用于供网页页面(如H5页面)确定唤醒命令。

在实际应用中，语音接入模块41、命令发送模块44由位于语音交互的唤醒装置上的网络接口实现；语音识别模块42、命令模块43、降噪模块可由位于语音交互的唤醒装置上的CPU、MPU、DSP、FPGA等实现。

图5是本发明语音交互的唤醒装置的结构示意图，图5所示的语音交互的唤醒装置500包括：至少一个处理器501、存储器502、用户接口503、至少一个网络接口504。语音交互的唤醒装置500中的各个组件通过总线系统505耦合在一起。可理解，总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统505。

其中，用户接口503可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器502可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器502用于存储各种类型的数据以支持语音交互的唤醒装置500的操作。这些数据的示例包括：用于在语音交互的唤醒装置500上操作的任何计算机程序，如操作系统5021和应用程序5022；其中，操作系统5021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5022可以包含各种应用程序，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。

上述本发明实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成前述方法的步骤。

具体来说，本发明实施例还提供了一种语音交互的唤醒装置，参照图5所示，所述语音交互的唤醒装置包括：存储器502、处理器501以及存储在存储器上并可在处理器上运行的计算机程序，

其中，所述处理器501用于运行所述计算机程序时，执行以下操作：网页页面检测到输入的语音时，识别所述语音中是否包含唤醒关键词；确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令；执行所述唤醒命令，开启网页页面的语音交互。

在一实施例中，所述处理器501还用于运行所述计算机程序时，执行以下操作：网页页面获取输入的语音；对获取的语音进行端点检测，得到端点检测后的语音；对所述端点检测后的语音进行识别，得到识别结果；所述识别结果用于指示所述语音中是否包含唤醒关键词。

在一实施例中，所述处理器501还用于运行所述计算机程序时，执行以下操作：获取对所述网页页面所在浏览器的访问权限；获取到对所述浏览器的访问权限时，调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。

在一实施例中，所述处理器501还用于运行所述计算机程序时，执行以下操作：判断所述获取的语音是否存在噪音；确定所述获取的语音不存在噪音时，从所述获取的语音中确定有效的语音段；截取所述语音段起始点和结束点之间的语音，作为端点检测后的语音。

在一实施例中，所述处理器501还用于运行所述计算机程序时，执行以下操作：利用所述网页页面所在的浏览器，基于超文本传送协议，将所述端点检测后的语音向服务器发送；所述端点检测后的语音用于供服务器进行语音识别，以确认是否包含唤醒关键词；接收服务器发送的包含或不包含唤醒关键词的识别结果。

在一实施例中，所述处理器501还用于运行所述计算机程序时，执行以下操作：对所述端点检测后的语音进行特征提取，得到特征参数；将所述特征参数与预先生成的训练模板中的参数进行匹配，得到匹配结果；利用所述匹配结果，确认所述语音中包含或不包含唤醒关键词；

在一实施例中，所述处理器501还用于运行所述计算机程序时，执行以下操作：网页页面将再次获取的语音发送给服务器，所述再次获取的语音用于供服务器进行语音识别，以确定对应所述再次获取的语音的预设命令；接收服务器发送的包括所述预设命令的识别结果；执行所述预设命令，以进行网页页面的语音交互。

基于本申请各实施例提供的语音交互的唤醒方法，本申请还提供一种计算机可读存储介质，参照图5所示，所述计算机可读存储介质可以包括：用于存储计算机程序的存储器502，上述计算机程序可由语音交互的唤醒装置500的处理器501执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

具体地，本发明实施例提供的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行以下操作：网页页面检测到输入的语音时，识别所述语音中是否包含唤醒关键词；确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令；执行所述唤醒命令，开启网页页面的语音交互。

在一实施例中，所述计算机程序被处理器运行时，还执行以下操作：网页页面获取输入的语音；对获取的语音进行端点检测，得到端点检测后的语音；对所述端点检测后的语音进行识别，得到识别结果；所述识别结果用于指示所述语音中是否包含唤醒关键词。

在一实施例中，所述计算机程序被处理器运行时，还执行以下操作：获取对所述网页页面所在浏览器的访问权限；获取到对所述浏览器的访问权限时，调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。

在一实施例中，所述计算机程序被处理器运行时，还执行以下操作：判断所述获取的语音是否存在噪音；确定所述获取的语音不存在噪音时，从所述获取的语音中确定有效的语音段；截取所述语音段起始点和结束点之间的语音，作为端点检测后的语音。

在一实施例中，所述计算机程序被处理器运行时，还执行以下操作：利用所述网页页面所在的浏览器，基于超文本传送协议，将所述端点检测后的语音向服务器发送；所述端点检测后的语音用于供服务器进行语音识别，以确认是否包含唤醒关键词；接收服务器发送的包含或不包含唤醒关键词的识别结果。

在一实施例中，所述计算机程序被处理器运行时，还执行以下操作：对所述端点检测后的语音进行特征提取，得到特征参数；将所述特征参数与预先生成的训练模板中的参数进行匹配，得到匹配结果；利用所述匹配结果，确认所述语音中包含或不包含唤醒关键词；

相应的，所述确认所述语音中包含唤醒关键词时，确定对应所述唤醒关键词的唤醒命令，包括：确认所述语音中包含唤醒关键词时，根据唤醒关键词与唤醒命令的预设对应关系，查找与所述唤醒关键词对应的唤醒命令。

在一实施例中，所述计算机程序被处理器运行时，还执行以下操作：网页页面将再次获取的语音发送给服务器，所述再次获取的语音用于供服务器进行语音识别，以确定对应所述再次获取的语音的预设命令；接收服务器发送的包括所述预设命令的识别结果；执行所述预设命令，进行网页页面的语音交互。

下面以H5页面开启语音交互为例，详细说明本发明在实际应用中的实现过程及原理。

图6为本发明实施例在线唤醒的具体实现流程示意图，结合图7所示的语音交互的唤醒的示意图，具体实现过程，包括如下步骤：

步骤601：H5页面启动后，开启语音监听功能。

步骤602：当监听到语音时，H5页面获取对浏览器的访问权限；当获取到对所述浏览器的访问权限时，获取监听到的语音。

步骤603：H5页面对获得的语音进行端点检测，得到端点检测后的语音。

步骤604：H5页面将端点检测后的语音通过HTTPS上传给服务器。

服务器使用降噪算法(如MMSE STSA算法)去除端点检测后的语音中的背景噪音，调用语音识别服务，识别降噪后的语音中是否包含唤醒关键词，当确定包含唤醒关键词时，从唤醒关键词与唤醒命令的预设对应关系中查找对应的唤醒命令，并将唤醒命令返回给H5页面。

步骤605：H5页面接收到服务器发送的唤醒命令后，开启语音交互。

步骤606：H5页面在开启语音交互后的一段时间内，如果没有检测到任何输入的语音，则自动挂起并退出。

图8为本发明实施例离线唤醒的具体实现流程示意图，结合图7所示的语音交互的唤醒的示意图，具体实现过程，包括如下步骤：

步骤801：H5页面启动后，开启语音监听功能。

步骤802：当监听到语音时，H5页面获取对浏览器的访问权限；当获取到对所述浏览器的访问权限时，获取监听到的语音。

步骤803：H5页面对获得的语音进行端点检测。

步骤804：H5页面对端点检测后的语音进行识别，得到识别结果。

H5页面调用开源Pocketsphinx+，基于sphinx快速实现语音识别，包括生成训练模板以及特征匹配。其中，生成训练模板的过程包括：对预先采集的包含特定唤醒关键词的语音进行特征提取，得到特征参数，并将得到的特征参数作为训练模板中的参数。特征匹配的过程包括：将对所述端点检测后的语音进行特征提取得到的特征参数与训练模板中的参数进行匹配，得到匹配结果。

步骤805：H5页面根据识别结果确定端点检测后的语音中包含唤醒关键词时，确定对应的唤醒命令。

步骤806：H5页面执行所述唤醒命令，开启语音交互。

步骤807：检测在一段时间内没有语音输入时，H5页面自动挂起并退出。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种语音交互的唤醒方法，其特征在于，所述方法包括：

执行所述唤醒命令，开启网页页面的语音交互。

2.根据权利要求1所述的方法，其特征在于，所述识别所述语音中是否包含唤醒关键词，包括：

网页页面获取输入的语音；

对获取的语音进行端点检测，得到端点检测后的语音；

3.根据权利要求2所述的方法，其特征在于，所述网页页面获取输入的语音，包括：

获取对所述网页页面所在浏览器的访问权限；

4.根据权利要求2所述的方法，其特征在于，所述对获取的语音进行端点检测，得到端点检测后的语音，包括：

判断所述获取的语音是否存在噪音；

5.根据权利要求2至4任一项所述的方法，其特征在于，所述对所述端点检测后的语音进行识别，得到识别结果，包括：

接收服务器发送的包含或不包含唤醒关键词的识别结果。

6.根据权利要求2至4任一项所述的方法，其特征在于，所述对所述端点检测后的语音进行识别，得到识别结果，包括：

对所述端点检测后的语音进行特征提取，得到特征参数；

7.根据权利要求1所述的方法，其特征在于，所述开启网页页面的语音交互之后，所述方法还包括：

接收服务器发送的包括所述预设命令的识别结果；

执行所述预设命令，以进行网页页面的语音交互。

8.一种语音交互的唤醒装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，

所述识别模块，具体用于经由网页页面获取输入的语音；对获取的语音进行端点检测，得到端点检测后的语音；并对所述端点检测后的语音进行识别，得到识别结果；所述识别结果用于指示所述语音中是否包含唤醒关键词。

10.根据权利要求8所述的装置，其特征在于，

所述识别模块，具体用于获取对所述网页页面所在浏览器的访问权限；获取到对所述浏览器的访问权限时，调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。

11.根据权利要求8所述的装置，其特征在于，

所述识别模块，具体用于判断所述获取的语音是否存在噪音；确定所述获取的语音不存在噪音时，从所述获取的语音中确定有效的语音段；截取所述语音段起始点和结束点之间的语音，作为端点检测后的语音。

12.根据权利要求8至11任一项所述的装置，其特征在于，

所述识别模块，具体用于利用所述网页页面所在的浏览器，基于超文本传送协议，将所述端点检测后的语音向服务器发送；所述端点检测后的语音用于供服务器进行语音识别，以确定是否包含唤醒关键词；接收服务器发送的包含或不包含唤醒关键词的识别结果。

13.根据权利要求8至11任一项所述的装置，其特征在于，

所述识别模块，具体用于对所述端点检测后的语音进行特征提取，得到特征参数；将所述特征参数与预先生成的训练模板中的参数进行匹配，得到匹配结果；并利用所述匹配结果，确认所述语音中包含或不包含唤醒关键词；确认所述语音中包含唤醒关键词时，根据唤醒关键词与唤醒命令的预设对应关系，确定与所述唤醒关键词对应的唤醒命令。

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。

16.一种语音交互的唤醒装置，其特征在于，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。