CN111524528B

CN111524528B - 防录音检测的语音唤醒方法及装置

Info

Publication number: CN111524528B
Application number: CN202010472064.7A
Authority: CN
Inventors: 陈喆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2022-10-21
Anticipated expiration: 2040-05-28
Also published as: CN111524528A

Abstract

本申请公开了一种防录音检测的语音唤醒方法，包括：当检测到用户的初始语音数据时，启动所述语音唤醒模块，获取初始信号；确定所述初始信号对应的防录音检测策略；通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测；当接收到检测通过的目标指令时，关闭麦克风并启动预设应用。本申请实施例能够根据防录音检测策略控制语音唤醒过程，杜绝利用录音回放来唤醒手机，提高了手机的安全性，及进行语音唤醒的准确性和智能性，进而大大提升用户体验。

Description

防录音检测的语音唤醒方法及装置

技术领域

本申请涉及语音处理技术领域，具体涉及一种防录音检测的语音唤醒方法及相关装置。

背景技术

目前，通过语音唤醒，用户可以在不方便直接操控电子设备的情况下说出唤醒词来唤醒电子设备。然而，现有技术语音唤醒防录音攻击方案在训练模型时，将真实数据和录音数据一起做为训练集，这种方案在实际商用时，会出现语音唤醒主观测试和客观测试的测试数据出现比较大的误差，不利于语音唤醒模型的迭代和优化。

发明内容

本申请实施例提供一种防录音检测的语音唤醒方法及装置。

第一方面，本申请实施例提供一种防录音检测的语音唤醒方法，应用于电子设备，所述电子设备包括语音唤醒模块和算法模块，所述语音唤醒模块与所述算法模块进行通信连接，所述方法包括：

当检测到用户的初始语音数据时，启动所述语音唤醒模块，获取初始信号；

确定所述初始信号对应的防录音检测策略；

通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测；

当接收到检测通过的目标指令时，关闭麦克风并启动预设应用。

第二方面，本申请实施例提供一种防录音检测的语音唤醒装置，应用于电子设备，所述电子设备包括语音唤醒模块和算法模块，所述语音唤醒模块与所述算法模块进行通信连接，所述防录音检测的语音唤醒装置包括处理单元和通信单元，其中，

所述处理单元，用于当检测到用户的初始语音数据时，启动所述语音唤醒模块，获取初始信号；以及用于确定所述初始信号对应的防录音检测策略；以及用于通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测；以及用于当接收到检测通过的目标指令时，关闭麦克风并启动预设应用。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，在本申请实施例中，电子设备首先当检测到用户的初始语音数据时，启动所述语音唤醒模块，获取初始信号，其次，确定所述初始信号对应的防录音检测策略，然后，通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测。最后，当接收到检测通过的目标指令时，关闭麦克风并启动预设应用。可见，电子设备能够根据防录音检测策略控制语音唤醒过程，杜绝利用录音回放来唤醒手机，提高了手机的安全性，及进行语音唤醒的准确性和智能性，进而大大提升用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电子设备的结构示意图；

图2是本申请实施例提供的一种电子设备的软件结构示意图；

图3是本申请实施例提供的一种防录音检测的语音唤醒方法的流程示意图；

图4是本申请实施例提供了一种第一策略的防录音检测的语音唤醒基本流程；

图5是本申请实施例提供了一种录音检测模块流程；

图6是本申请实施例提供了一种第二策略的防录音检测的语音唤醒基本流程；

图7是本申请实施例提供的一种防录音检测的语音唤醒装置的示意图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

1)电子设备可以是还包含其它功能诸如个人数字助理和/或音乐播放器功能的便携式电子设备，诸如手机、平板电脑、具备无线通讯功能的可穿戴电子设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载IOS系统、Android系统、Microsoft系统或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备，诸如膝上型计算机(Laptop)等。还应当理解的是，在其他一些实施例中，上述电子设备也可以不是便携式电子设备，而是台式计算机。

第一部分，本申请所公开的技术方案的软硬件运行环境介绍如下。

示例性的，图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110、外部存储器接口120、内部存储器121、通用串行总线(universal serial bus，USB)接口130、充电管理模块140、电源管理模块141、电池142、天线1、天线2、移动通信模块150、无线通信模块160、音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、传感器模块180、指南针190、马达191、指示器192、摄像头193、显示屏194以及用户标识模块(subscriber identification module，SIM)卡接口195等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural－network processing unit，NPU)等。其中，不同的处理单元可以是独立的部件，也可以集成在一个或多个处理器中。在一些实施例中，电子设备101也可以包括一个或多个处理器110。其中，控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。在其他一些实施例中，处理器110中还可以设置存储器，用于存储指令和数据。示例性地，处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。这样就避免了重复存取，减少了处理器110的等待时间，因而提高了电子设备101处理数据或执行指令的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路间(inter－integrated circuit，I2C)接口、集成电路间音频(inter－integrated circuitsound，I2S)接口、脉冲编码调制(pulse code modulation，PCM)接口、通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口、移动产业处理器接口(mobile industry processor interface，MIPI)、用输入输出(general－purpose input/output，GPIO)接口、SIM卡接口和/或USB接口等。其中，USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口130可以用于连接充电器为电子设备101充电，也可以用于电子设备101与外围设备之间传输数据。该USB接口130也可以用于连接耳机，通过耳机播放音频。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110、内部存储器121、外部存储器、显示屏194、摄像头193和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数、电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi－Fi)网络)、蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)、调频(frequency modulation，FM)、近距离无线通信技术(near field communication，NFC)、红外技术(infrared，IR)、UWB等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像、视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)、有机发光二极管(organic light－emittingdiode，OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active－matrixorganic light emitting diode的，AMOLED)、柔性发光二极管(flex light－emittingdiode，FLED)、迷你发光二极管(mini light－emitting diode，miniled)、MicroLed、Micro－oLed、量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或多个显示屏194。

电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal－oxide－semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或多个摄像头193。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1、MPEG2、MPEG3、MPEG4等。

NPU为神经网络(neural－network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别、人脸识别、语音识别、文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令，从而使得电子设备101执行本申请一些实施例中所提供的显示页面元素的方法，以及各种应用以及数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统；该存储程序区还可以存储一个或多个应用(比如图库、联系人等)等。存储数据区可存储电子设备101使用过程中所创建的数据(比如照片，联系人等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储部件，闪存部件，通用闪存存储器(universal flash storage，UFS)等。在一些实施例中，处理器110可以通过运行存储在内部存储器121的指令，和/或存储在设置于处理器110中的存储器的指令，来使得电子设备101执行本申请实施例中所提供的显示页面元素的方法，以及其他应用及数据处理。电子设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、以及应用处理器等实现音频功能。例如音乐播放、录音等。

传感器模块180可以包括压力传感器180A、陀螺仪传感器180B、气压传感器180C、磁传感器180D、加速度传感器180E、距离传感器180F、接近光传感器180G、指纹传感器180H、温度传感器180J、触摸传感器180K、环境光传感器180L、骨传导传感器180M等。

其中，压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即X、Y和Z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

示例性的，图2示出了电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(media libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

第二部分，本申请实施例所公开的权要保护范围介绍如下。

请参阅图3，图3是本申请实施例提供了一种防录音检测的语音唤醒方法的流程示意图，应用于电子设备，所述电子设备包括语音唤醒模块和算法模块，所述语音唤醒模块与所述算法模块进行通信连接，如图所示，本防录音检测的语音唤醒方法包括以下操作。

步骤301：当检测到用户的初始语音数据时，启动所述语音唤醒模块，获取初始信号。

步骤302：确定所述初始信号对应的防录音检测策略。

在一个可能的示例中，所述确定所述初始信号对应的防录音检测策略包括：当初始信号为第一信号时，所述第一信号对应的防录音检测策略为第一策略；当初始信号为第二信号时，所述第二信号对应的防录音检测策略为第二策略。

其中，所述第一信号可以为True命令，所述第二信号可以为False命令。

其中，当为True命令时，进行含有录音检测的防录音检测的语音唤醒策略；当为False命令时，进行不含有录音检测的防录音检测的语音唤醒策略；即当进行客观测试时，由于客观测试采用人工嘴录音回放的方式，此时可以通过adb安卓调试桥命令预设函数，将防录音检测的系统属性值设为False，关闭防录音检测机制；当进行主观测试或者是正式出货版本时，为了防止被录音攻击，此时可以通过adb命令预设函数，将防录音检测的系统属性值设为True，打开防录音检测机制。

可见，本示例中，电子设备根据不同的策略，有差异性的进行防录音检测的语音唤醒流程，提高了进行语音唤醒的准确性和智能性。

步骤303：通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测。

其中，所述算法模块中包含有DSP数字信号处理模块和CPU中央处理器模块。

其中，所述DSP中可运行第一唤醒算法，所述CPU中可运行第二唤醒算法、声纹唤醒算法、录音检测算法等，此处不做唯一限定。

在一个可能的示例中，所述通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测，包括：将所述初始语音数据传送到所述算法模块；在所述算法模块中识别所述初始语音数据中的关键词，若含有预设关键词，则通过第一唤醒算法截取所述初始语音数据，得到第一语音数据；在所述算法模块运行第二唤醒算法，并通过所述第二唤醒算法对所述第一语音数据进行语音校准处理，得到第二语音数据；根据所述初始指令处理所述第二语音数据。

其中，所述第一唤醒算法可以为一级唤醒算法，即对初始语音数据进行关键词提取后，截取含有关键词的语音段落。

其中，所述第二唤醒算法可以为耳机唤醒算法，即把上述含有关键词的语音段落放入唤醒词类别模型中，进行二次校准，得到准确的语音数据。

其中，所述预设关键词可以为唤醒词，此处不做唯一限定。

可选的，所述防录音检测策略为第一策略，所述根据所述初始指令处理所述第二语音数据，包括：在所述算法模块运行录音检测算法，通过所述录音检测算法处理所述第二语音数据，得到第三语音数据；在所述算法模块中通过声纹唤醒算法处理所述第三语音数据，得到第一目标语音数据；解析所述第一目标语音数据，确定所述目标指令。

如图4所示，图4为第一策略的防录音检测的语音唤醒基本流程。

其中，在声纹唤醒算法中，还有训练的与预设唤醒词相关的声纹特征提取模型。比如，训练基于卷积神经网络的声纹特征提取模型，此处不做唯一限定。

具体用于，所述通过所述录音检测算法处理所述第二语音数据，得到第三语音数据，包括：对所述第二语音数据进行特征提取，得到至少一个特征；将所述至少一个特征输入预设语音分类模型，得到第三语音数据。

其中，录音检测模块可以多种算法实现，本发明中采用的算法流程实施例具体如图4所示，本发明首先对输入语音进行特征提取，举例来说：电子设备截取2s的语音，作为输入信号，进行分帧x_m(n)，其中m为第m帧，每帧N点，n＝1，2...N，具体实施时N＝1024；对于信号x_m(n)进行短时傅里叶变换，得到X_m(k)＝FFT[x_m(n)]，其中k为频点，k＝1，2...N；

当选定基频频点k1时，其三次谐波的频点为3＊k1，则谐波能量比为

基频频点的范围为250Hz－500Hz，采样率为16000khz，FFT点数N＝1024，则频率间隔为15.625Hz，基频频点的取值k＝16－32，一共17个点，构成特征向量h_m＝[α_m(16),α_m(17).....α_m(30),α_m(31),α_m(32)]，2s时间内一共有30帧，构成特征矩阵H＝[h₁,h₂.....h₃₀]；

根据训练样本提取的特征矩阵，通过SVM分类训练，生成语音分类模型；对于待识别语音，提取特征矩阵，送入语音分类模型进行决策识别，根据结果，判断是否为录音回放。如图5所示，图5为一种录音检测模块流程。

具体用于，在所述算法模块运行录音检测算法之后，所述方法还包括：若不通过录音检测算法，则继续通过所述麦克风持续采集语音数据；将所述语音数据发送至所述算法模块，并通过所述第一唤醒算法处理所述语音数据。

可见，在本示例中，电子设备在语音唤醒流程中增加录音检测模块，杜绝利用录音回放来唤醒手机，动态配置录音检测模块，不阻塞语音唤醒客观测试的进行，增加手机安全性。

可选的，所述防录音检测策略为第二策略，所述根据所述初始指令处理所述第二语音数据，包括：在所述算法模块中根据声纹唤醒算法处理所述第二语音数据，得到第二目标语音数据；解析所述第二目标语音数据，确定所述目标指令。

如图6所示，图6为第二策略的防录音检测的语音唤醒基本流程，

可见，本示例中，电子设备能够根据防录音检测策略控制语音唤醒过程，杜绝利用录音回放来唤醒手机，提高了手机的安全性，及进行语音唤醒的准确性和智能性，进而大大提升用户体验。

步骤304：当接收到检测通过的目标指令时，关闭麦克风并启动预设应用。

可选的，在所述算法模块中识别所述初始语音数据中的关键词之后，所述方法还包括：若不含有所述预设关键词，则将继续通过所述麦克风持续采集语音数据；持续检测所述语音数据，若检测到含有所述预设关键词时，将对应的语音数据发送至所述算法模块。

可见，本示例中，电子设备通过识别关键词，进一步的提高了语音唤醒的准确性和智能性。

可选的，在所述算法模块运行第二唤醒算法之后，所述方法还包括：若不通过第二唤醒算法，则将继续通过所述麦克风持续采集语音数据；持续检测所述语音数据，若检测到含有所述预设关键词时，将对应的语音数据发送至所述算法模块。

可选的，在所述通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测之后，所述方法还包括：当接收到检测不通过的指令时，将继续通过所述麦克风持续采集语音数据；持续检测所述语音数据，若检测到含有所述预设关键词时，将对应的语音数据发送至所述算法模块。

可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图7示出了防录音检测的语音唤醒装置的示意图，如图7所示，该防录音检测的语音唤醒装置700应用于电子设备，应用于电子设备，所述电子设备包括语音唤醒模块和算法模块，所述语音唤醒模块与所述算法模块进行通信连接，该防录音检测的语音唤醒装置700可以包括：处理单元701和通信单元702。

其中，所述处理单元701，所述处理单元，用于当检测到用户的初始语音数据时，启动所述语音唤醒模块，获取初始信号；以及用于确定所述初始信号对应的防录音检测策略；以及用于通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测；以及用于当接收到检测通过的目标指令时，关闭麦克风并启动预设应用。

其中，处理单元701可以用于支持电子设备执行上述步骤301－步骤304等，和/或用于本文所描述的技术的其他过程。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的电子设备，用于执行上述防录音检测的语音唤醒方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，电子设备可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对电子设备的动作进行控制管理，例如，可以用于支持电子设备执行上述处理单元701和通信单元702执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块，可以用于支持电子设备与其他设备的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi－Fi芯片等与其他电子设备交互的设备。

在一个实施例中，当处理模块为处理器，存储模块为存储器时，本实施例所涉及的电子设备可以为具有图1所示结构的设备。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的防录音检测的语音唤醒方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的防录音检测的语音唤醒方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的防录音检测的语音唤醒方法。

其中，本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种防录音检测的语音唤醒方法，其特征在于，应用于电子设备，所述电子设备包括语音唤醒模块和算法模块，所述语音唤醒模块与所述算法模块进行通信连接，所述方法包括：

确定所述初始信号对应的防录音检测策略；

通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测，包括：将所述初始语音数据传送到所述算法模块，在所述算法模块中识别所述初始语音数据中的关键词，若含有预设关键词，则通过第一唤醒算法截取所述初始语音数据，得到第一语音数据，在所述算法模块运行第二唤醒算法，并通过所述第二唤醒算法对所述第一语音数据进行语音校准处理，得到第二语音数据，根据初始指令处理所述第二语音数据；

2.根据权利要求1所述的方法，其特征在于，所述确定所述初始信号对应的防录音检测策略包括：

当初始信号为第一信号时，所述第一信号对应的防录音检测策略为第一策略；

当初始信号为第二信号时，所述第二信号对应的防录音检测策略为第二策略。

3.根据权利要求1所述的方法，其特征在于，所述防录音检测策略为第一策略，所述根据所述初始指令处理所述第二语音数据，包括：

在所述算法模块运行录音检测算法，通过所述录音检测算法处理所述第二语音数据，得到第三语音数据；

在所述算法模块中通过声纹唤醒算法处理所述第三语音数据，得到第一目标语音数据；

解析所述第一目标语音数据，确定所述目标指令。

4.根据权利要求3所述的方法，其特征在于，所述通过所述录音检测算法处理所述第二语音数据，得到第三语音数据，包括：

对所述第二语音数据进行特征提取，得到至少一个特征；

将所述至少一个特征输入预设语音分类模型，得到第三语音数据。

5.根据权利要求3所述的方法，其特征在于，在所述算法模块运行录音检测算法之后，所述方法还包括：

若不通过录音检测算法，则继续通过所述麦克风持续采集语音数据；

将所述语音数据发送至所述算法模块，并通过所述第一唤醒算法处理所述语音数据。

6.根据权利要求1所述的方法，其特征在于，所述防录音检测策略为第二策略，所述根据所述初始指令处理所述第二语音数据，包括：

在所述算法模块中根据声纹唤醒算法处理所述第二语音数据，得到第二目标语音数据；

解析所述第二目标语音数据，确定所述目标指令。

7.根据权利要求1－6任一项所述的方法，其特征在于，在所述算法模块中识别所述初始语音数据中的关键词之后，所述方法还包括：

若不含有所述预设关键词，则将继续通过所述麦克风持续采集语音数据；

持续检测所述语音数据，若检测到含有所述预设关键词时，将对应的语音数据发送至所述算法模块。

8.一种防录音检测的语音唤醒装置，其特征在于，应用于电子设备，所述电子设备包括语音唤醒模块和算法模块，所述语音唤醒模块与所述算法模块进行通信连接，所述防录音检测的语音唤醒装置包括处理单元和通信单元，其中，

所述处理单元，用于当检测到用户的初始语音数据时，启动所述语音唤醒模块，获取初始信号；以及用于确定所述初始信号对应的防录音检测策略；以及用于通过所述语音唤醒模块和所述算法模块根据所述防录音检测策略对所述语音数据进行防录音检测，具体用于将所述初始语音数据传送到所述算法模块，在所述算法模块中识别所述初始语音数据中的关键词，若含有预设关键词，则通过第一唤醒算法截取所述初始语音数据，得到第一语音数据，在所述算法模块运行第二唤醒算法，并通过所述第二唤醒算法对所述第一语音数据进行语音校准处理，得到第二语音数据，根据初始指令处理所述第二语音数；以及用于当接收到检测通过的目标指令时，关闭麦克风并启动预设应用。

9.一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1－7任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1－7任一项所述的方法。