CN110517679B

CN110517679B - 一种人工智能的音频数据处理方法及装置、存储介质

Info

Publication number: CN110517679B
Application number: CN201910809323.8A
Authority: CN
Inventors: 郑脊萌; 高毅; 黎韦伟; 于蒙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2022-03-08
Anticipated expiration: 2038-11-15
Also published as: CN110415698B; CN110517680B; CN110415698A; CN110517679A; CN110364162B; CN110164431B; CN110517680A; CN110364162A; CN110164431A

Abstract

本发明实施例提供了一种人工智能的音频数据处理方法及装置、存储介质，该方法包括：获取语音检测模型，所述语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系；当检测到的至少一个检测通路的数量为一个时，基于当前检测结果进行重置语音检测模型的重置时间点；当检测到的至少一个检测通路的数量为大于一个时，基于当前时间点进行重置语音检测模型的重置时间点；其中，所述重置时间点为在保证语音识别性能的情况下，初始化所述语音检测模型中的历史积累的时刻；在所述重置时间点到达时，重置所述语音检测模型。

Description

一种人工智能的音频数据处理方法及装置、存储介质

本申请基于申请号为201811361659.4、申请日为2018年11月15日、发明名称为一种音频数据处理方法及装置、存储介质的中国专利申请提出，在该中国专利申请记载的范围内提出分案，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本发明涉及人工智能领域中的语音识别技术，尤其涉及一种人工智能的音频数据处理方法及装置、存储介质。

背景技术

随着人工智能(AI，Artificial Intelligence)在各个领域中的应用越来越多，成为了各个领域进行决策和预测的一种重要手段。例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

目前，电子领域的语音交互智能设备主要是智能音箱，例如，带语音控制功能的智能电视或电视盒子等产品。这些语音交互智能设备等类似产品中一般都会设置一个或多个唤醒词。以智能音箱为例进行说明，当用户对智能音箱说出唤醒词并被智能音箱检测到之后，用户接下来说出的语音数据(音频数据)才被当语音命令送给智能音箱，进行语音识别，进而开启人机之间的语音交互功能。一般采用长短期记忆单元模型(LSTM，Long ShortTerm Memory)作为的唤醒检测模型来进行唤醒词的检测。

然而，由于LSTM的一个重要特征是历史信息积累特性，即采用LSTM进行语音识别时，对一段语音数据(例如，唤醒词的语音数据)的检测结果不仅与这段语音数据的本身相关，也受到这段语音数据之前的音频数据的巨大影响。因此，在唤醒词的检测中，免不了存在误唤醒的问题，并且在一段时间的噪声积累之后，噪声数据的积累对之后的唤醒词的检测性能产生影响，从而导致了唤醒词的语音识别的准确率下降。

发明内容

本发明实施例提供一种人工智能的音频数据处理方法及装置、存储介质，能够提高语音识别的准确率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种人工智能的音频数据处理方法，包括：

获取语音检测模型，所述语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系；

当检测到的至少一个检测通路的数量为一个时，基于当前检测结果进行重置语音检测模型的重置时间点；

当检测到的至少一个检测通路的数量为大于一个时，基于当前时间点进行重置语音检测模型的重置时间点；

其中，所述重置时间点为在保证语音识别性能的情况下，初始化所述语音检测模型中的历史积累的时刻；

在所述重置时间点到达时，重置所述语音检测模型。

本发明实施例提供一种人工智能的音频数据处理装置，包括：

获取单元，用于获取语音检测模型，所述语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系；

确定单元，用于当检测到的至少一个检测通路的数量为一个时，基于当前检测结果进行重置语音检测模型的重置时间点；当检测到的至少一个检测通路的数量为大于一个时，基于当前时间点进行重置语音检测模型的重置时间点；其中，所述重置时间点为在保证语音识别性能的情况下，初始化所述语音检测模型中的历史积累的时刻；

重置单元，用于在所述重置时间点到达时，重置所述语音检测模型。

在上述装置中，相应的，所述获取单元，还用于获取待检测音频数据；及利用所述语音检测模型对所述待检测音频数据进行识别，得到当前检测结果；

所述确定单元，还具体用于当所述当前检测结果满足预设重置门限时，确定当前时间点为所述重置时间点；其中，预设重置门限大于等于预设唤醒门限。

在上述装置中，所述获取单元，还用于所述利用所述语音检测模型对所述待检测音频数据进行识别，得到当前检测结果之后，获取当前时间点之前的历史检测结果；

所述确定单元，还用于当所述当前检测结果和所述历史检测结果之间的变化范围满足预设误唤醒范围时，确定所述当前时间点为所述重置时间点。

在上述装置中，所述至少一个检测通路包括：备份检测通路；

所述获取单元，还用于获取当前时间点；

所述确定单元，还用于当所述当前时间点达到预设预热时间点时，将所述当前时间点确定为所述备份检测通路的重置时间点，其中，所述预设预热时间点为从预设重置时间点开始之前的预设预热时间段的时间点。

在上述装置中，所述重置单元，具体用于当所述当前时间点达到预设预热时间点时，重置并启动所述备份检测通路。

在上述装置中，所述至少一个检测通路还包括：主检测通路；所述人工智能的音频数据处理装置还包括识别单元和关闭单元；

所述识别单元，用于所述重置并启动所述备份检测通路之后，采用所述主检测通路和所述备份检测通路进行语音识别；

所述重置单元，还具体用于当经过所述预设预热时间段之后，到达所述预设重置时间点时，重置所述主检测通路；

所述关闭单元，用于当从所述预设重置时间点开始再经过所述预设预热时间段时，关闭所述备份检测通路，

所述识别单元，还用于采用所述主检测通路进行语音识别。

在上述装置中，所述预设重置时间点为间隔预设时间长度的时间序列；

所述预设时间长度在2倍的预设预热时间段和预设容忍唤醒阈值的范围内；

所述预设容忍唤醒阈值在预设最佳唤醒上限值和预设最佳误唤醒下限值之间；

所述预设预热时间段大于等于预设唤醒词持续时间。

在上述装置中，所述人工智能的音频数据处理装置还包括接收单元和综合处理单元；

所述接收单元，用于接收待检测音频数据；

所述识别单元，具体用于采用所述主检测通路对所述待检测音频数据进行语音识别，得到主检测结果；以及当所述主检测结果大于预设唤醒门限时，识别出所述待检测音频数据为唤醒词，启动唤醒功能。

在上述装置中，所述人工智能的音频数据处理装置还包括识别单元；

所述识别单元，用于所述在所述重置时间点到达时，重置所述语音检测模型之后，采用重置后的语音检测模型进行语音识别。

在上述装置中，所述人工智能的音频数据处理装置还包括综合处理单元；

所述识别单元，具体用于在基于至少一个方向支路的语音检测中，根据所述重置后的语音检测模型对至少一个方向支路分别进行语音识别，得到至少一个当前检测结果；

所述综合处理单元，用于对所述至少一个当前检测结果进行综合处理，得到综合检测结果；

所述识别单元，还具体用于当所述综合检测结果大于预设唤醒门限时，识别出唤醒词，启动唤醒功能。

在上述装置中，所述重置单元，具体用于在所述重置时间点到达时，初始化所述语音检测模型中的具有历史积累特性的数据，得到重置后的语音检测模型。

存储器，用于存储可执行音频数据处理指令；

处理器，用于执行所述存储器中存储的可执行音频数据处理指令时，实现本发明实施例提供的人工智能的音频数据处理方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行音频数据处理指令，用于引起处理器执行时，实现本发明实施例提供的人工智能的音频数据处理方法。

本发明实施例具有以下有益效果：

本发明实施例提供了一种人工智能的音频数据处理方法及装置、存储介质，通过获取语音检测模型，所述语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系；基于检测到的所述至少一个检测通路的数量，确定参考对象；所述参考对象为进行重置操作判断的因素；基于所述参考对象，确定重置时间点，所述重置时间点为在保证语音识别性能的情况下，初始化所述语音检测模型中的历史积累的时刻；在所述重置时间点到达时，重置所述语音检测模型。采用上述技术实现方案，由于人工智能的音频数据处理装置针对不同语音检测模型的至少一个检测通路的数量，可以确定进行该语音检测模型中的重置操作的判断，从而基于参考对象再进一步的确定是重置时间点，也就是说，对于语音检测模型的不同检测通路来说，可以通过不同参考对象的确定，实现各自重置时间点的判断，并且该重置时间点为在保证语音识别性能的情况下，初始化所述语音检测模型中的历史积累的时刻的，那么在重置时间点，重置了语音检测模型的话，重置后的语音检测模型就不再有历史记忆，这样，语音检测模型在重置时间点保证唤醒性能的前提下，又不受长时间的历史积累特性的影响的情况下，进行唤醒词的语音识别的时候会提高语音识别的准确率。

附图说明

图1是本发明实施例提供的人工智能的音频数据处理系统架构的一个可选的结构示意图；

图2是本发明实施例提供的终端的一个可选的结构示意图；

图3是本发明实施例提供的人工智能的音频数据处理装置的一个可选的结构示意图；

图4是本发明实施例提供的人工智能的音频数据处理方法的一个可选的流程示意图一；

图5A是本发明实施例提供的示例性的唤醒词检测的场景示意图一；

图5B是本发明实施例提供的示例性的唤醒词检测的场景示意图二；

图6是本发明实施例提供的示例性的LSTM记忆单元的结构图；

图7是本发明实施例提供的人工智能的音频数据处理方法的一个可选的流程示意图二；

图8是本发明实施例提供的人工智能的音频数据处理方法的一个可选的流程示意图三；

图9是本发明实施例提供的示例性的至少两个检测通路的语音识别场景示意图；

图10是本发明实施例提供的示例性的第一次唤醒成功率和待机时间的关系曲线；

图11是本发明实施例提供的示例性的主备检测通路的时序示意图；

图12是本发明实施例提供的人工智能的音频数据处理方法的一个可选的流程示意图四；

图13是本发明实施例提供的示例性的多方向支路的语音检测场景示意图一；

图14是本发明实施例提供的示例性的多方向支路的语音检测场景示意图二；

图15是本发明实施例提供的示例性的多方向支路的语音检测场景示意图三；

图16是本发明实施例提供的示例性的多方向支路的语音检测场景示意图四；

图17是本发明实施例提供的示例性的语音识别场景示意图一；

图18是本发明实施例提供的示例性的语音识别场景示意图二。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)、唤醒词，用于语音交互智能设备的启动的关键词，在本发明实施例中，是指启动人工智能的音频数据处理装置的关键词对应的语音信号。

2)、特征提取：将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG]等)或者统计意义或核的特征。在本发明实施例中的特征提取是指对音频数据中提取重要音频信息的特征量。

3)、长短期记忆单元模型(LSTM，Long Short Term Memory)是一种时间递归神经网络，能选择性地记忆历史信息(历史积累特性)。在RNN模型基础上对其作进一步改进，采用LSTM单元替换RNN网络中的隐含层节点，就则形成LSTM。

4)、模型训练：将人工选择的样本输入给机器学习系统，通过不断调整模型参数，使最终模型对样本识别的准确率达到最优。

5)、机器学习(ML，Machine Learning)：依托概率论，统计学，神经传播等理论，使计算机能够模拟人类的学习行为，以获取新的知识或者技能，重新组织已有知识结构使之不断改善自身的性能。

6)、人工智能：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

需要说明的是，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

下面说明实现本发明实施例的人工智能的音频数据处理装置的示例性应用，本发明实施例提供的人工智能的音频数据处理装置可以实施为智能手机、平板电脑、笔记本电脑、语音交互智能设备(例如，智能音箱)等各种类型的具有语音识别或者人工智能的音频数据处理功能的用户终端，也可以实施为一服务器，这里的服务器为运行人工智能的音频数据处理功能或语音识别功能应用的后台服务器。下面，将说明人工智能的音频数据处理装置实施为终端时涵盖终端的示例性应用。

参见图1，图1是本发明实施例提供的人工智能的音频数据处理系统100的一个可选的架构示意图，为实现支撑一个示例性应用，终端400(示例性示出了终端400-1和终端400-2)通过网络200连接服务器300，网络200可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

其中，终端400，用于获取语音检测模型，语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系；基于检测到的至少一个检测通路的数量，确定参考对象；参考对象为进行重置操作判断的因素；基于参考对象，确定重置时间点，重置时间点为在保证语音识别性能的情况下，初始化语音检测模型中的历史积累的时刻；在重置时间点到达时，重置语音检测模型，得到重置后的语音检测模型；采用重置后的语音检测模型对获取到的待检测音频数据进行语音识别，确定是否进行唤醒功能，当确定为唤醒功能时，接收待检测功能音频数据，对待检测功能音频数据进行语音识别，得到功能语音指令，将功能语音指令发送至服务器300。

服务器300，用于根据功能语音指令，生成功能触发指令，依据功能触发指令控制终端400或者其他终端实现功能语音指令所触发的功能。

本发明实施例提供的人工智能的音频数据处理装置可以实施为硬件或者软硬件结合的方式，下面说明本发明实施例提供的装置的各种示例性实施。

参见图2，图2是本发明实施例提供的终端400一个可选的结构示意图，终端400可以是移动电话、计算机、数字广播终端、音频数据收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等根据终端400的结构，可以预见人工智能的音频数据处理装置实施为终端时的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

图2所示的终端400包括：至少一个处理器410、存储器440、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统450耦合在一起。可理解，总线系统450用于实现这些组件之间的连接通信。总线系统450除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统450。

用户接口430可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

存储器440可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static RandomAccess Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random AccessMemory)。本发明实施例描述的存储器440旨在包括这些和任意其它适合类型的存储器。

本发明实施例中的存储器440能够存储数据以支持终端400的操作。这些数据的示例包括：用于在终端400上操作的任何计算机程序，如操作系统442和可执行程序441。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。可执行程序可以包含各种应用程序，例如可执行人工智能的音频数据处理指令。

作为本发明实施例提供的人工智能的音频数据处理方法采用软硬件结合实施的示例，本发明实施例所提供的人工智能的音频数据处理方法可以直接体现为由处理器410执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器440，处理器410读取存储器440中软件模块包括的可执行音频数据处理指令，结合必要的硬件(例如，包括处理器410以及连接到总线450的其他组件)完成本发明实施例提供的人工智能的音频数据处理方法。

作为示例，处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

示例性的，本发明实施例提供了一种人工智能的音频数据处理装置，至少包括：

存储器440，用于存储可执行音频数据处理指令；

处理器410，用于执行所述存储器440中存储的可执行音频数据处理指令时，实现本发明实施例提供的人工智能的音频数据处理方法。

下面说明软件模块的示例性结构，在一些实施例中，如图3所示，人工智能的音频数据处理装置1中的软件模块可以包括：获取单元10、确定单元11和重置单元12；其中，

获取单元10，用于获取语音检测模型，所述语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系；

确定单元11，用于基于检测到的所述至少一个检测通路的数量，确定参考对象；所述参考对象为进行重置操作判断的因素；以及基于所述参考对象，确定重置时间点，所述重置时间点为在保证语音识别性能的情况下，初始化所述语音检测模型中的历史积累的时刻；

重置单元12，用于在所述重置时间点到达时，重置所述语音检测模型。

在本发明的一些实施例中，所述确定单元11，还用于当检测到的检测通路的数量为一个时，确定所述参考对象为当前检测结果。

在本发明的一些实施例中，所述确定单元11，还用于当检测到的检测通路的数量为大于一个时，确定所述参考对象为当前时间点。

在本发明的一些实施例中，所述获取单元10，还用于获取待检测音频数据；及利用所述语音检测模型对所述待检测音频数据进行识别，得到当前检测结果；

所述确定单元11，还具体用于当所述当前检测结果满足预设重置门限时，确定当前时间点为所述重置时间点；其中，预设重置门限大于等于预设唤醒门限。

在本发明的一些实施例中，所述获取单元10，还用于所述利用所述语音检测模型对所述待检测音频数据进行识别，得到当前检测结果之后，获取当前时间点之前的历史检测结果；

所述确定单元11，还用于当所述当前检测结果和所述历史检测结果之间的变化范围满足预设误唤醒范围时，确定所述当前时间点为所述重置时间点。

在本发明的一些实施例中，所述至少一个检测通路包括：备份检测通路；

所述获取单元10，还用于获取当前时间点；

所述确定单元11，还用于当所述当前时间点达到预设预热时间点时，将所述当前时间点确定为所述备份检测通路的重置时间点，其中，所述预设预热时间点为从预设重置时间点开始之前的预设预热时间段的时间点。

在本发明的一些实施例中，所述重置单元12，具体用于当所述当前时间点达到预设预热时间点时，重置并启动所述备份检测通路。

在本发明的一些实施例中，所述至少一个检测通路还包括：主检测通路；所述人工智能的音频数据处理装置1还包括识别单元13和关闭单元14；

所述识别单元13，用于所述重置并启动所述备份检测通路之后，采用所述主检测通路和所述备份检测通路进行语音识别；

所述重置单元12，还具体用于当经过所述预设预热时间段之后，到达所述预设重置时间点时，重置所述主检测通路；

所述关闭单元14，用于当从所述预设重置时间点开始再经过所述预设预热时间段时，关闭所述备份检测通路，

所述识别单元13，还用于采用所述主检测通路进行语音识别。

在本发明的一些实施例中，所述预设重置时间点为间隔预设时间长度的时间序列；

所述预设预热时间段大于等于预设唤醒词持续时间。

在本发明的一些实施例中，所述人工智能的音频数据处理装置1还包括接收单元15和综合处理单元16；

所述接收单元15，用于接收待检测音频数据；

所述识别单元13，具体用于采用所述主检测通路对所述待检测音频数据进行语音识别，得到主检测结果；以及当所述主检测结果大于预设唤醒门限时，识别出所述待检测音频数据为唤醒词，启动唤醒功能。

在本发明的一些实施例中，所述人工智能的音频数据处理装置1还包括识别单元13；

所述识别单元13，用于所述在所述重置时间点到达时，重置所述语音检测模型之后，采用重置后的语音检测模型进行语音识别。

在本发明的一些实施例中，所述人工智能的音频数据处理装置1还包括综合处理单元16；

所述识别单元13，具体用于在基于至少一个方向支路的语音检测中，根据所述重置后的语音检测模型对至少一个方向支路分别进行语音识别，得到至少一个当前检测结果；

所述综合处理单元16，用于对所述至少一个当前检测结果进行综合处理，得到综合检测结果；

所述识别单元13，还具体用于当所述综合检测结果大于预设唤醒门限时，识别出唤醒词，启动唤醒功能。

在本发明的一些实施例中，所述重置单元12，具体用于在所述重置时间点到达时，初始化所述语音检测模型中的具有历史积累特性的数据，得到重置后的语音检测模型。

在实际应用中，所述获取单元10、所述确定单元11、所述重置单元12、所述识别单元13、关闭单元14和所述综合处理单元16可以由处理器实现，而接收单元15则可由用户接口来实现，本发明实施例不作限制。

作为本发明实施例提供的人工智能的音频数据处理方法采用硬件实施的示例，本发明实施例所提供的人工智能的音频数据处理方法可以直接采用硬件译码处理器形式的处理器410来执行完成，例如，被一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Co mplex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Progra mmable Gate Array)或其他电子元件执行实现本发明实施例提供的人工智能的音频数据处理方法。

下面将结合前述的实现本发明实施例的人工智能的音频数据处理装置的示例性应用和实施，说明实现本发明实施例的人工智能的音频数据处理方法。

参见图4，图4是本发明实施例提供的人工智能的音频数据处理方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

S101、获取语音检测模型，语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系。

S102、基于检测到的至少一个检测通路的数量，确定参考对象；参考对象为进行重置操作判断的因素。

S103、基于参考对象，确定重置时间点，重置时间点为在保证语音识别性能的情况下，初始化语音检测模型中的历史积累的时刻。

S104、在重置时间点到达时，重置语音检测模型。

本发明实施例提供的一种人工智能的音频数据处理方法是应用在语音检测或者语音识别的场景中的，例如唤醒词检测场景，本发明实施例不作限制。

下面以唤醒词检测场景为例进行本发明实施例提供的人工智能的音频数据处理方法的示例性说明。

在本发明实施例中，在如图5A所示唤醒词检测模型中，人工智能的音频数据处理装置实时接收待检测音频数据，并将接收的待检测音频数据输入到唤醒词检测模型(即语音检测模型)中进行识别，最后输出唤醒词检测结果，根据检测结果判定是否唤醒人工智能的音频数据处理装置。

示例性的，待检测音频数据可以为单声道的连续信号(连续时域信号或者连续频域信号，本发明实施例不作限制)，该单声道的连续信号往往以帧为单位被送入唤醒词检测模型。唤醒词检测模型在获得每一帧输入连续信号后，检测/判定在最新的T时间窗内是否出现预定义的唤醒词，即识别是否为预设的唤醒词。最后，从唤醒词检测模型按帧输出检测结果。

需要说明的是，在本发明实施例中，不限制检测结果的输出形式，可以为具体的得分，可以为是或不是唤醒词两种标识形式，例如二进制表示，或者文字结果表示等，本发明实施例不作限制。

示例性的，检测结果采用二进制表示，输出1表征在T时间窗内检测到了唤醒词；输出0：在T时间窗内没有检测到唤醒词。

在本发明实施例中，基于图5A所示的类似语音识别的场景中，提出在对语音检测模型进行重置的时机的方法，以便于在采用检测或识别效果更好的重置后的语音检测模型进行后续的音频数据检测的过程中，可以保持在识别准确率较高的水平上。

这里，人工智能的音频数据处理装置采用语音检测模型进行语音识别，这里的语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系。人工智能的音频数据处理装置需要先获取语音检测模型，由于语音检测模型中的可进行语音识别检测的通路可以为一个或多个，因此，该人工智能的音频数据处理装置需要先对语音检测模型进行检测通路的检测，检测到至少一个检测通路后，基于该至少一个检测通路的数量，分别确定不同检测通路的情况下对应的参考对象；其中，参考对象为进行重置操作判断的因素，是保证在按照重置判断确定的重置时间点进行模型重置的时候，可以保持唤醒词检测的准确性的数据或特性。那么，在得到了参考对象之后，人工智能的音频数据处理装置就可以基于不同种2检测通路对应的参考对象，确定不同种检测通路情况下的重置时间点了，其中，重置时间点为在保证语音识别性能的情况下，初始化语音检测模型中的历史积累的时刻。在重置时间点到达时，重置语音检测模型，得到重置后的语音检测模型。

在本发明的一些实施例中，在本发明实施例中具体的重置过程为：在重置时间点到达时，初始化语音检测模型中的具有历史积累特性的数据，得到重置后的语音检测模型。

在本发明的一些实施例中，当检测到的检测通路的数量为一个时，确定参考对象为当前检测结果。

在本发明的一些实施例中，当检测到的检测通路的数量为大于一个时，确定参考对象为当前时间点。

也就是说，在本发明实施例中，不同种检测通路的情况可以分为一个检测通路的情况和至少两个(即大于一个)检测通路的情况。在一个检测通路的情况下，人工智能的音频数据处理装置是基于当前检测结果进行重置语音检测模型的重置时间点的判断的；而在至少两个检测通路的情况下，人工智能的音频数据处理装置是基于当前时间点进行重置语音检测模型的重置时间点的判断的，详细的是根据当前时间点和预先设置好的重置时间条件来进行重置时间点的判断的，将在后面的实施例中进行详细的说明。

可以理解的是，由于人工智能的音频数据处理装置针对不同语音检测模型的至少一个检测通路的数量，可以确定进行该语音检测模型中的重置操作的判断，从而基于参考对象再进一步的确定是重置时间点，也就是说，对于语音检测模型的不同检测通路来说，可以通过不同参考对象的确定，实现各自重置时间点的判断，并且该重置时间点为在保证语音识别性能的情况下，初始化所述语音检测模型中的历史积累的时刻的，那么在重置时间点，重置了语音检测模型的话，重置后的语音检测模型就不再有历史记忆，这样，语音检测模型在重置时间点保证唤醒性能的前提下，又不受长时间的历史积累特性的影响的情况下，进行唤醒词的语音识别的时候会提高语音识别的准确率。

在本发明的一些实施例中，S104之后，人工智能的音频数据处理装置在重置了语音检测模型之后，就可以采用重置后的语音检测模型进行语音识别了，这样得到的检测结果的识别准确率就会很好了。

需要说明的是，在本发明实施例中，语音检测模型为具有历史积累特性的语音识别模型，例如，LSTM。

在本发明实施例中，LSTM是一种时间递归神经网络，能选择性地记忆历史信息(历史积累特性)。在RNN模型基础上对其作进一步改进，采用LSTM单元替换RNN网络中的隐含层节点，就则形成LSTM。

LSTM单元的记忆单元((Memory Cell，Cell)(即核心门)状态受到3个门控制，即输入门(inputgate)、遗忘门(forgetgate)和输出门(outputgate)。

其中，输入门将当前数据选择性地输入到记忆单元；遗忘门调控历史信息对当前记忆单元状态值的影响；输出门用于选择性输出记忆单元状态值。3个门和独立记忆单元的设计，使LSTM单元具有保存、读取、重置及更新长距离历史信息作用。示例性的，如图6所示为一个LSTM记忆单元Cell的结构。

首先，t时刻输入特征x_t和t-1时刻隐藏层变量h_t-1，在权重转移矩阵W和U，以及偏置向量b的共同作用下，生成t时刻的状态量i_t、f_t和o_t，见公式(1)至公式(3)。进一步在t-1时刻核心门状态量c_t-1的辅助下，生成t时刻核心门状态量c_t，见公式(4)。最终，在t时刻核心门状态量c_t与输出门状态量o_t的作用下，生成t时刻隐藏层变量h_t，进而影响t+1时刻LSTM神经元的内部变化，见公式(5)。

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (1)

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (2)

o_t＝σ(W_ox_t+U_oh_t-1+b_o) (3)

c_t＝f_t*c_t-1+i_t*φ(W_cx_t+U_ch_t-1+b_c) (4)

h_t＝o_t*φ(c_t) (5)

其中，两种非线性激活函数分别为

和φ(x_t)＝tanh(x_t)。

i_t、f_t、o_t和c_t分别表示t时刻的输入门状态值、遗忘门状态值、输出门状态值和核心门状态值。在本发明实施例中，对于每一个逻辑门，W_i、W_f、W_o和W_c分别表示输入门、遗忘门、输出门和核心门所对应的权重转移矩阵；U_i、U_f、U_o和U_c分别代表输入门、遗忘门、输出门和核心门所对应的t-1时刻隐藏层变量h_t-1对应的权重转移矩阵，b_i、b_f、b_o和b_c则代表输入门、遗忘门、输出门和核心门所对应偏置向量。

示例性的，由于LSTM具有历史记忆(可以理解为历史积累特性)，在对待检测音频数据进行语音检测或者是语音识别的时候，会受到历史检测数据的影响而输出检测结果，而历史记忆是有限的，因此，不能无限制的存在下去，并且，在历史记忆存在的时间长度中，随着时间人工智能的音频数据处理装置的待机时间的增长，误唤醒性能将会越来越高，即误唤醒概率越来越大，本发明实施例中的重置时间点就是在这历史记忆的有限时间内设置的时间点，在重置时间点对语音检测模型进行重置，重置后的语音检测模型的唤醒性能就很好了。具体的重置过程就是人工智能的音频数据处理装置在重置时间点，对语音检测模型中存储的具有历史记忆的数据进行了初始化清理，使得重置后的语音检测模型不再受到长时间待机内历史记忆的影响。

在本发明的一些实施例中，当检测到的检测通路的数量为一个时，参考对象为当前检测结果，人工智能的音频数据处理装置在语音识别的过程中进行模型的重置过程参见图7，图7是本发明实施例提供的人工智能的音频数据处理方法的一个可选的流程示意图，在S102之后，还可以执行S201-S205。如下：

S201、获取待检测音频数据。

S202、利用语音检测模型对待检测音频数据进行识别，得到当前检测结果。

S203、当当前检测结果满足预设重置门限时，确定当前时间点为重置时间点。

其中，预设重置门限大于等于预设唤醒门限。

在本发明实施例中，当检测到的检测通路的数量为一个时，参考对象为当前检测结果，人工智能的音频数据处理装置就是在语音识别的过程中进行模型的重置的。

在S201中，人工智能的音频数据处理装置是实时的获取或者接收待检测音频数据的。

在本发明实施例中，由于是实时获取的，因此，待检测音频数据可能是接收到的外界中的杂音或噪音，也可能是接收到用户或别的发声装置输入的连续信号，本发明实施例不作限制。

在S202中，人工智能的音频数据处理装置在接收到待检测音频数据之后，由于人工智能的音频数据处理装置中时设置有语音检测模型的，因此，该人工智能的音频数据处理装置就可以采用语音检测模型对待检测音频数据进行语音识别了，然后，输出当前检测结果。

在本发明实施例中，人工智能的音频数据处理装置对待检测音频数据进行语音检测的过程中，该人工智能的音频数据处理装置需要先将待检测音频数据进行音频特征提取，将所述音频特征输入至语音检测装置中，从而输出了当前检测结果。

在本发明的一些实施例中，特征提取的方式包括：SPP特征提取，梅尔频率倒谱系数特征等，本发明实施例不做限制。

需要说明的是，本发明实施例中的检测结果可以为得分，也可以为标识信息(例如，0，1)等，本发明实施例不作限制。

在S203中，预设重置门限为与当前检测结果类型一致的数值，也就是说预设重置门限为可与当前检测结果比较的数据。在本发明实施例中，人工智能的音频数据处理装置将当前检测结果与预设重置门限进行对比，当当前检测结果满足预设重置门限时，表征可以此时可以进行语音检测模型的重置了，那么，人工智能的音频数据处理装置获取当前时间点，确定当前时间点为重置时间点。其中，预设重置门限大于等于预设唤醒门限。

在本发明实施例中，由预设重置门限表征可以进行语音检测模型重置的数值下限值，或者表征可以进行语音检测模型重置的数值范围；当当前检测结果满足语音检测模型重置的数值下限值，或者属于语音检测模型重置的数值范围的时候，表征可以进行语音检测模型的重置了。

需要说明的是，在本发明实施例中，应用于如图5B所示的唤醒词检测场景中时，人工智能的音频数据处理装置获取待检测音频数据，利用唤醒词检测模型(语音检测模型)对待检测音频数据进行识别，得到当前检测结果，根据当前检测结果进行重置判断，当当前检测结果满足预设重置门限时，确定当前时间点为重置时间点，在重置时间点进行唤醒词检测算法的重置。

预设重置门限一定大于预设唤醒词限的。预设唤醒门限为基于检测结果确定出的可以进行人工智能的音频数据处理装置唤醒功能的门限值。

需要说明的是，在本发明实施例中，当前检测结果既需要用来进行重置判断，又需要用来进行唤醒判断。

在本发明实施例中，当前检测结果超过预设重置门限时，重置语音检测模型(唤醒词检测算法)。可以理解的是，预设重置门限选择大于等于唤醒门限的时候，重置操作总是跟在唤醒判断之后，这样就可以规避在唤醒词检测中间进行重置问题，从而导致语音识别出现错误，准确率的问题了。

示例性的，人工智能的音频数据处理装置对音频数据1进行语音检测，得出检测结果为85分，而预设重置门限为90分，预设唤醒门限为80分，也就是说，在这次的检测中，人工智能的音频数据处理装置满足唤醒判决，被唤醒，不满足重置门限，不需要进行语音检测模型的重置，但是，若检测结果为95分的时候，语音检测模型检测出的检测结果的数值是慢慢往上涨的，最终得到95分，那么在检测结果增长到80分的时候就进行了唤醒判断，唤醒了人工智能的音频数据处理装置，然后继续增长直至超过90分，判断需要进行语音检测模型的重置，而这时，已经完成了唤醒的判断；若预设重置门限小于预设唤醒门限时，在唤醒条件还没达到的时候，就一直进行语音检测模型的重置，出现了误重置的情况，避开了在唤醒词检测中可能会被重置的问题。

需要说明的是，预设重置门限与预设唤醒门限的类型一致，具体的数值的限定本发明实施例不作限制。

需要说明的是，上述的重置时间点的设置最佳应用于用户需要在短时间内进行多次唤醒操作的使用场景中。

在本发明实施例中，如果用户需要在短时间内进行多次唤醒操作，当人工智能的音频数据处理装置对该用户的唤醒词(待检测音频数据)进行语音检测模型输出的得分(当前检测结果)成功超过预设重置门限一次以后，接下来的唤醒操作或唤醒判断都将得到最优的唤醒性能响应(因为每次重置后的唤醒性能都最优)；同时，因为重置了语音检测模型，接下来的唤醒词将更容易得到较高的得分，高得分又促进了很容易达到预设重置门限的目的，即更容易触发对语音检测模型的再次重置。

同时，在误唤醒方面，如果预设重置门限足够高(大于等于唤醒所采用的预设唤醒门限)，则语音检测模型在人工智能的音频数据处理装置在待机过程中被噪声导致重置的概率很小；并且，因为语音检测模型从初始化到第一次误唤醒之间的时间长度的期望均值远远大于即每一次重置之后，在误唤醒性能达至最优状态前的时间，因此，被噪声误唤醒或误重置的概率很低，所以，即使在待机过程中，人工智能的音频数据处理装置被噪声误唤醒且误重置了，也不会对人工智能的音频数据处理装置的唤醒性能有明显损伤，还可以提高语音识别例如唤醒操作的准确率。

S204、获取当前时间点之前的历史检测结果。

S205、当当前检测结果和所述历史检测结果之间的变化范围满足预设误唤醒范围时，确定当前时间点为重置时间点。

在S204中，人工智能的音频数据处理装置是在实时获取待检测音频数据的，因此，该音频检测装置是可以实时进行语音检测或语音识别的，那么人工智能的音频数据处理装置是可以获取到很多检测结果的。那么在当前时间点之前，人工智能的音频数据处理装置是已经进行了很多次语音检测的，因此，该人工智能的音频数据处理装置是可以获取到当前时间点之前的历史检测结果的。

示例性的，人工智能的音频数据处理装置在时间t之前，获取时间t之前的50次语音检测的50个历史检测结果。

在本发明的一些实施例中，人工智能的音频数据处理装置还可以获取当前时间点之前的预设时间段内的所有的检测结果，作为历史检测结果，具体的实现方式本发明实施例不作限制。

在S205中，人工智能的音频数据处理装置可以基于当前检测结果和历史检测结果，统计出在这么多次检测结果中，检测结果的变化是否很剧烈或变化大，当检测结果的变化较大，并且为快速剧烈下降时，就需要进行语音检测模型的重置了，也就是说，当当前检测结果和历史检测结果之间的变化范围满足预设误唤醒范围时，确定当前时间点为重置时间点，在重置时间点进行语音检测模型的重置后再继续进行语音识别或语音检测。

其中，预设误唤醒范围就表征检测结果剧烈下降的数值范围，这个范围内误唤醒的概率就很高了。

需要说明的是，当检测结果出现了快速而剧烈的下降时，重置语音检测模型。可以理解，带历史记忆的语音检测模型的检测结果在普通噪声(语音检测模型在训练数据集中已经包含了相应类型的噪声)下一般只会缓慢小幅下降，往往只有强噪声或语音检测模型在训练过程中没有见过的噪声类型出现在语音检测中的时候才能导致检测结果的快速且大幅的下降，进而导致之后的时间段内唤醒性能明显恶化；因此，当人工智能的音频数据处理装置检测到检测结果的这种变化时重置语音检测模型，就可以避免(本段内)上述问题，同时并不会对普通使用场景下的唤醒性能，误唤醒性能，以及内存和运算量有明显影响，还提高了唤醒的准确率。

需要说明的是，在本发明实施例中，S203和S204-S205为S202之后可选的两种实现方式，人工智能的音频数据处理装置可以根据实际情况执行S202之后的步骤，本发明实施例并不作限制。

在本发明的一些实施例中，当检测到的检测通路的数量为大于一个时，参考对象为当前时间点，这时的检测通路包括：备份检测通路和主检测通路；人工智能的音频数据处理装置在语音识别的过程中进行模型的重置过程参见图8，图8是本发明实施例提供的人工智能的音频数据处理方法的一个可选的流程示意图，在S102之后，还可以执行S301-S306。如下：

S301、获取当前时间点。

S302、当当前时间点达到预设预热时间点时，将当前时间点确定为备份检测通路的重置时间点，其中，预设预热时间点为从预设重置时间点开始之前的预设预热时间段的时间点。

S303、当当前时间点达到预设预热时间点时，重置并启动备份检测通路。

S304、采用主检测通路和备份检测通路进行语音识别。

S305、当经过预设预热时间段之后，到达所述预设重置时间点时，重置主检测通路。

S306、当从预设重置时间点开始再经过预设预热时间段时，关闭备份检测通路，采用主检测通路进行语音识别。

在本发明实施例中，当检测到的检测通路的数量为大于一个时，参考对象为当前时间点，而检测通路包括：备份检测通路和主检测通路；其中，备份检测通路和主检测通路的个数本发明实施例都不作限制。

示例性的，参见图9所示的语音检测过程中，在人工智能的音频数据处理装置中，以一个主检测通路和一个备份检测通路为例进行说明，在主检测通路和备份检测通路中间设置有重置和启动控制器，该重置和启动控制器用于控制主检测通路的重置，以及控制备份检测通路的重置和启动。待检测音频数据经过主检测通路和备份检测通路后，都可以得到检测结果(主检测结果和备份检测结果)，最后，将所有检测结果进行综合处理后再输出最终的检测结果，即总检测结果。

在本发明实施例中，参考对象为当前时间点，具体的，人工智能的音频数据处理装置是基于当前时间点和预设时间条件进行重置时间点的确定的。

其中，预设时间条件中的时间参数包括预设重置时间点、预设最佳唤醒上限值、预设最佳误唤醒下限值、预设预热时间段和预设唤醒词持续时间。其中，预设预热时间点为从预设重置时间点开始之前的预设预热时间段的时间点。

这样，人工智能的音频数据处理装置在获取当前时间点后，当当前时间点达到预设预热时间点时，将当前时间点确定为备份检测通路的重置时间点。当当前时间点达到预设预热时间点时，重置并启动备份检测通路。采用主检测通路和备份检测通路进行语音识别。当经过预设预热时间段之后，到达所述预设重置时间点时，重置主检测通路。当从预设重置时间点开始再经过预设预热时间段时，关闭备份检测通路，采用主检测通路进行语音识别。

其中，预设时间条件的时间参数满足：

预设重置时间点为间隔预设时间长度的时间序列；

预设时间长度在2倍的预设预热时间段和预设容忍唤醒阈值的范围内；

预设容忍唤醒阈值在预设最佳唤醒上限值和预设最佳误唤醒下限值之间；

预设预热时间段大于等于预设唤醒词持续时间。

需要说明的是，针对具有历史积累特性的语音检测模型而言，在唤醒检测场景中，唤醒成功率随着时间是有变化的。

示例性的，如图10所示的第一次唤醒成功率与待机时间的关系曲线，人工智能的音频数据处理装置在待机(没有接收到用户的唤醒词)时间t满足t≥T₀以后，接下来的第一次或头几次唤醒操作的唤醒成功率将明显降低。唤醒性能降低的幅度取决于t的大小和该待机时间段t内环境噪声的强度及特征。其中，T₀代表唤醒词检测算法(即语音检测模型)的历史不敏感时间的下限值，即预设最佳唤醒上限值。当t≤T₀时，唤醒成功率不会有明显下降(如果该待机时间段内的环境噪声的特征与模型训练时使用的噪声数据特征没有太大差异)。T₀的值取决于模型训练时的数据配置。而唤醒词检测算法的历史记忆时长往往是有限的，记为T₁(即预设最佳误唤醒下限值)，其值由该算法的语音检测模型的模型结构和调试参数决定，超过该时长的历史积累的数据将不会对唤醒词检测算法的当前结果产生影响(或该影响小到可以忽略)。

因此，在本发明实施例中，t≤T₁时为误唤醒性能到达最优前。

在本发明实施例中，当用户的唤醒操作在时间上是随机分布，且前后两次唤醒操作之间相隔时间(预设时间长度)较长，则需要在待机状态下进行重置操作以保证下一次用户的唤醒操作之前的待机时长t满足t≤T₁。

示例性的，如图11所示，在人工智能的音频数据处理装置待机状态下，在{t₁-K,t₂-K,t₃-K,…}时刻，重置和启动控制器会对备份检测通路的唤醒词检测算法发起重置和启动操作。备份检测通路的检测模块收到重置和启动命令后，清除其内部的历史积累的数据，并开始接收输入的待检测音频数据。此处K被称为预设预热时间段，K需要大于等于预设唤醒持续时间τ：K≥τ，以保证备份检测通路能够正确检测到唤醒词，提高唤醒词检测的准确率。

并且，重置和启动控制器模块每隔D时间(预设重置时间点)对主检测通路的唤醒词检测模块发起重置操作。

其中，D可以是一个小于T₁的常数也可以是一个每次重新生成的随机数。

在本发明实施例中，将预设重置时间点记为：{t₁,t₂,t₃,…}。重置时间点的选择需要满足公式(6)：

2K<t_i+1-t_i≤T₂ (6)

K为预设预热时间段，T₂为系统设计时选择的可容忍的性能下降时间，满足T₀≤T₂≤T₁。

在{t₁+K,t₂+K,t₃+K,…}时刻，重置和启动控制器会对备份检测通路的唤醒词检测算法发出停止命令，备份检测通路停止运行或关闭。

其中，备份检测通路的运行时间从t_i-K到t_i+K。

可以理解的是，如果t_i正好处于某个唤醒词的音频数据范围内，则至少备份检测通路可以接收到完整的唤醒词的音频数据，实现唤醒词的检测，提高了唤醒词检测的准确了。同时，只要满足公式(7)

T₀/2≥K≥τ (7)

那么，在t_i-K到t_i+K时间段内出现的唤醒词，都将得到备份检测通路的最优的唤醒性能的响应，达到最佳的唤醒词检测的准确度。

需要说明的是，在本发明实施例中，备份检测通路的初始态为关闭，只有在预设预热时间点到达时才启动。

在本发明的一些实施例中，S304中的人工智能的音频数据处理装置进行语音识别的具体过程为接收待检测音频数据；采用主检测通路和备份检测通路分别对待检测音频数据进行语音识别，得到主检测结果和备份检测结果；对主检测结果和备份检测结果进行综合处理，得到总检测结果；当总检测结果大于预设唤醒门限时，识别出待检测音频数据为唤醒词，启动唤醒功能。

在本发明的一些实施例中，S306中的人工智能的音频数据处理装置进行语音识别的具体过程为：接收待检测音频数据；采用主检测通路对待检测音频数据进行语音识别，得到主检测结果；当主检测结果大于预设唤醒门限时，识别出待检测音频数据为唤醒词，启动唤醒功能。

在本发明实施例中，人工智能的音频数据处理装置在启动备份检测通路的时候，主检测通路和备份检测通路都进行语音检测，因此，可以得到主检测结果和备份检测结果，那么人工智能的音频数据处理装置就可以基于主检测结果和备份检测结果的综合检测结果，即总检测结果进行唤醒判断了。并且，人工智能的音频数据处理装置在停止运行或关闭备份检测通路的时候，主检测通路都进行语音检测，因此，可以得到主检测结果，那么人工智能的音频数据处理装置就可以基于主检测结果进行唤醒判断了。这样，基于语音识别的准确率的提高，唤醒准确率也提高

在本发明实施例中，综合主检测通路和备份检测通路的唤醒词检测结果，综合处理后，输出总检测结果。

示例性的，一种简单的检测结果综合处理的实现是：在备份检测通路没有运行时(t_i-1+K～t_i-K)，仅使用主检测通路的主检测结果；在主通路和备份通路同时运行时(t_i-K～t_i+K)使用主检测通路和备份检测通路中检测结果中的较高者。假设主检测结果为z(t)，备份检测结果为b(t)，综合处理后总检测结果为s(t)，即公式(8)：

s(t)＝Z(t)，t∈(t_i-1+K～t_i-K)

s(t)＝max_z,b(z(t),b(t)),t∈(t_i-K～t_i+K) (8)

需要说明的是，综合处理还可以为均值运算，几何平均或加权算法等，本发明实施例不作限制。

在本发明实施例中，人工智能的音频数据处理装置在获取到总检测结果后，就可以与预设唤醒门限作比较，进行唤醒判决了。

在本发明的一些实施例中，基于前述实施例描述的语音检测模型重置的实现基础上，参见图12，图12是本发明实施例提供的人工智能的音频数据处理方法的一个可选的流程示意图，图12示出在S104之后，人工智能的音频数据处理装置可以采用重置后的语音检测模型进行语音识别。具体实现还可以执行S105-107。如下：

S105、在基于至少一个方向支路的语音检测中，根据重置后的语音检测模型对至少一个方向支路分别进行语音识别，得到至少一个当前检测结果。

S106、对至少一个当前检测结果进行综合处理，得到综合检测结果。

S107、当综合检测结果大于预设唤醒门限时，识别出唤醒词，启动唤醒功能。

在本发明实施例中，可以有多个方向支路的语音检测架构，前述实施例描述的都是一个方向上的语音检测模型架构。

在本发明的一些实施例中，多个方向支路(至少一个方向)的语音检测架构可以通过麦克风阵列将麦克风阵列信号分布在不同方向支路中，待检测音频数据输入后会传输在多方向支路的语音检测中，每个方向支路都会语音检测得到一个检测结果，那么，经过多方向支路的语音检测就会得到至少一个检测结果(如图13所示)。

在本发明实施例中，每个方向支路上都设置有单通道语音检测模型，该单通道语音检测模型就是上面实施例中所说的语音检测模型。

因此，人工智能的音频数据处理装置在基于至少一个方向支路的语音检测中，根据重置后的语音检测模型(重置后的单通道语音检测模型)对至少一个方向支路分别进行语音识别，可以得到至少一个当前检测结果，对至少一个当前检测结果进行综合处理，得到综合检测结果，基于综合检测结果和预设唤醒门限进行唤醒判断，即当综合检测结果大于预设唤醒门限时，识别出唤醒词，启动唤醒功能。

而针对每个方向支路中的重置后的单通道语音检测模型的得到，与前面实施例中描述的语音检测模型中的所有重置过程均一致。

也就是说，人工智能的音频数据处理装置在前面实施例中的重置时间点，进行重置语音检测模型的实现可以直接简单的在图13中的每一个方向支路独立使用，即各方向支路根据自身的检测结果对本方向支路进行重置操作，还可以是根据各方向支路中检测结果的最大值来统一重置所有方向支路中的单通道语音检测模型。

示例性的，如图14所示，采用一个检测通路的方式对图13中的多方向支路进行唤醒词检测和重置检测的过程。如图15所示，针对一个方向支路为例，采用一个主检测通路(单通道唤醒词检测)和一个备份检测通路(备份单通道唤醒词检测)的方式对图13中的多方向支路进行唤醒词检测和重置检测的过程。如图16所示，针对多方向支路的唤醒词检测的过程中，可以采用一个检测通路和至少两个检测通路配合的方式对不同方向支路使用。

需要说明的是，每个方向支路都可以采用图14至图16中的重置判断方式，本发明实施例不限制可以进行重置的支路的具体方向是哪个。详细的描述已在前面的实施例中进行了描述，此处不再赘述。

在本发明的一些实施例中，针对主检测通路和备份检测通路的场景中，对所有方向支路轮流进行重置和备份操作，在任意选择的重置时间点t_i，重置第i％N支路，其中N是支路的个数，“％”代表取余数操作；或者，在任意重置时间点t_i，选择当前检测结果最低的支路在t_i+1时刻进行重置和备份操作，本发明实施例不作限制。

下面，将说明本发明实施例在一个实际的采用智能音箱进行唤醒词检测的应用场景中的示例性应用，以至少两个检测通路的重置方式为例进行说明。

如图17所示，用户在时刻1发出“嗨，小四”的音频数据1(待检测音频数据)，该音频数据1由智能音箱接收到，智能音箱针对音频数据1进行唤醒检测和重置检测，智能音箱判断时刻1与预设预热时间点和预设重置时间点进行对比，得到时刻1达到预设预热时间点，于是，重置并启动备份检测通路，在这种情况下，智能音箱采用主检测通路和备份检测通路进行唤醒识别，得到主检测结果和备份检测结果；对主检测结果和备份检测结果进行综合处理，得到总检测结果；当总检测结果大于预设唤醒门限时，识别出待检测音频数据为唤醒词，启动唤醒功能，就输出“我在”的语音提示至用户。这样用户即就知道可以进行下一次的语音指令，控制智能音箱实现某种应用功能了。在本发明实施例中，该某种应用功能可以是智能音箱自身的应用功能，还可以通过服务器控制与其处于用一个局域网中的其他终端的应用功能。

示例性的，如图18所示，智能音箱被唤醒后，接收到“打开电视”的音频数据2，智能音箱在经过了前述的重置检测和唤醒判断后，启动了电视打开的唤醒功能，于是生成了电视启动指令给服务器，该服务器就根据电视启动指令通过网络控制电视打开，在电视的界面上显示“正在开机”的提示语。

本发明实施例提供一种存储有计算机可读存储介质，其中存储有可执行指令，当可执行音频数据处理指令被处理器执行时，将引起处理器执行本发明实施例提供的人工智能的音频数据处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种人工智能的音频数据处理方法，其特征在于，包括：

当检测到的至少一个检测通路的数量为一个时，基于当前检测结果进行重置语音检测模型的重置时间点；所述当前检测结果为利用所述语音检测模型对待检测音频数据进行识别得到的；

在所述重置时间点到达时，重置所述语音检测模型。

2.根据权利要求1所述的方法，其特征在于，所述基于当前检测结果进行重置语音检测模型的重置时间点，包括：

利用所述语音检测模型对所述待检测音频数据进行识别，得到当前检测结果；

当所述当前检测结果满足预设重置门限时，确定当前时间点为所述重置时间点；

其中，预设重置门限大于等于预设唤醒门限。

3.根据权利要求1所述的方法，其特征在于，所述至少一个检测通路包括：备份检测通路；所述基于当前时间点进行重置语音检测模型的重置时间点，包括：

获取当前时间点；

当所述当前时间点达到预设预热时间点时，将所述当前时间点确定为所述备份检测通路的重置时间点，其中，所述预设预热时间点为从预设重置时间点开始之前的预设预热时间段的时间点。

4.根据权利要求2所述的方法，其特征在于，所述利用所述语音检测模型对所述待检测音频数据进行识别，得到当前检测结果之后，所述方法还包括：

获取当前时间点之前的历史检测结果；

当所述当前检测结果和所述历史检测结果之间的变化范围满足预设误唤醒范围时，确定所述当前时间点为所述重置时间点。

5.根据权利要求3所述的方法，其特征在于，所述在所述重置时间点到达时，重置所述语音检测模型，包括：

当所述当前时间点达到预设预热时间点时，重置并启动所述备份检测通路。

6.根据权利要求5所述的方法，其特征在于，所述至少一个检测通路还包括：主检测通路；所述重置并启动所述备份检测通路之后，所述方法还包括：

采用所述主检测通路和所述备份检测通路进行语音识别；

当经过所述预设预热时间段之后，到达所述预设重置时间点时，重置所述主检测通路；

当从所述预设重置时间点开始再经过所述预设预热时间段时，关闭所述备份检测通路，采用所述主检测通路进行语音识别。

7.根据权利要求3、5或6任一项所述的方法，其特征在于，

所述预设重置时间点为间隔预设时间长度的时间序列；

所述预设预热时间段大于等于预设唤醒词持续时间。

8.根据权利要求6所述的方法，其特征在于，所述采用所述主检测通路和所述备份检测通路进行语音识别，包括：

接收待检测音频数据；

采用所述主检测通路和所述备份检测通路分别对所述待检测音频数据进行语音识别，得到主检测结果和备份检测结果；

对所述主检测结果和所述备份检测结果进行综合处理，得到总检测结果；

当所述总检测结果大于预设唤醒门限时，识别出所述待检测音频数据为唤醒词，启动唤醒功能。

9.根据权利要求6所述的方法，其特征在于，所述采用所述主检测通路进行语音识别，包括：

接收待检测音频数据；

采用所述主检测通路对所述待检测音频数据进行语音识别，得到主检测结果；

当所述主检测结果大于预设唤醒门限时，识别出所述待检测音频数据为唤醒词，启动唤醒功能。

10.根据权利要求1所述的方法，其特征在于，所述在所述重置时间点到达时，重置所述语音检测模型之后，所述方法还包括：

采用重置后的语音检测模型进行语音识别。

11.根据权利要求1所述的方法，其特征在于，所述在所述重置时间点到达时，重置所述语音检测模型，包括：

在所述重置时间点到达时，初始化所述语音检测模型中的具有历史积累特性的数据，得到重置后的语音检测模型。

12.一种人工智能的音频数据处理装置，其特征在于，包括：

确定单元，用于当检测到的至少一个检测通路的数量为一个时，基于当前检测结果进行重置语音检测模型的重置时间点；所述当前检测结果为利用所述语音检测模型对待检测音频数据进行识别得到的；当检测到的至少一个检测通路的数量为大于一个时，基于当前时间点进行重置语音检测模型的重置时间点；其中，所述重置时间点为在保证语音识别性能的情况下，初始化所述语音检测模型中的历史积累的时刻；

13.一种人工智能的音频数据处理装置，其特征在于，包括：

存储器，用于存储可执行音频数据处理指令；

处理器，用于执行所述存储器中存储的可执行音频数据处理指令时，实现权利要求1至11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，存储有可执行音频数据处理指令，用于引起处理器执行时，实现权利要求1至11任一项所述的方法。