CN116030820A

CN116030820A - 音频验证方法及装置、音频取证方法及装置

Info

Publication number: CN116030820A
Application number: CN202211504136.7A
Authority: CN
Inventors: 张灵峰; 高铭; 杨磊; 钱烽; 何思枫; 韩劲松; 任奎
Original assignee: Zhejiang University ZJU; Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Zhejiang University ZJU; Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-04-28

Abstract

本申请提供了一种音频验证方法及装置、音频取证方法及装置，涉及信息安全领域。该音频验证方法包括：获取待验证音频；若待验证音频中包含第一超声波，则确定第一超声波对应的超声特征；提取待验证音频中包含的语音数据；基于超声特征和语音数据的相关性，验证语音数据是否为目标对象在目标场景中表达的语音数据。本申请基于超声特征检测语音数据是否被篡改，提高了检测的准确率，并且该方法具有强可迁移性，能够导致超声特征和语音数据不对应的篡改手段都能够被检测到，从而能够抵御其他未知的篡改手段。

Description

音频验证方法及装置、音频取证方法及装置

技术领域

本申请涉及信息安全技术领域，具体涉及一种音频验证方法及装置、音频取证方法及装置。

背景技术

语料信息是司法取证、可信存证中数量繁多、信息丰富且直观的一环，同时也是最为脆弱的一个环节。针对语料信息的篡改手段众多，并且成本低廉，而以人工智能技术为基础的音频深度伪造技术更是加剧了语料信息所面临的安全威胁。

发明内容

为了解决上述技术问题，提出了本申请。本申请实施例提供了一种音频验证方法及装置、音频取证方法及装置。

第一方面，本申请一实施例提供了一种音频验证方法，包括：获取待验证音频；若待验证音频中包含第一超声波，则确定第一超声波对应的超声特征；提取待验证音频中包含的语音数据；基于超声特征和语音数据的相关性，验证语音数据是否为目标对象在目标场景中表达的语音数据。

结合第一方面，在第一方面的某些实现方式中，在确定第一超声波对应的超声特征前，进一步包括：若待验证音频中包含第一超声波，则确定第一超声波对应的时频谱图；基于第一超声波对应的时频谱图，确定第一超声波对应的斜率变化趋势；获取第二超声波对应的斜率变化趋势，第二超声波为目标对象预先在目标场景中发出声音时，向目标对象发射的超声波；判断第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势是否相同；所述方法还包括，当第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势相同时，确定第一超声波对应的超声特征。

结合第一方面，在第一方面的某些实现方式中，该音频验证方法还包括：若第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势不同，则确定语音数据并非目标对象在目标场景中表达的语音数据。

结合第一方面，在第一方面的某些实现方式中，基于第一超声波对应的时频谱图，确定第一超声波对应的斜率变化趋势，包括：基于第一超声波对应的时频谱图中的各个时刻的幅值，对第一超声波对应的时频谱图进行二值化处理；计算二值化处理后的时频谱图中的同一数值的相邻时刻之间的斜率；基于同一数值的相邻时刻之间的斜率，确定第一超声波对应的斜率变化趋势。

结合第一方面，在第一方面的某些实现方式中，该音频验证方法还包括：分别确定超声特征对应的时频谱图和语音数据对应的时频谱图；针对多个频谱通道中的每个频谱通道，确定超声特征对应的时频谱图和语音数据对应的时频谱图的相似性；基于多个频谱通道各自对应的相似性，确定超声特征和语音数据的相关性。

结合第一方面，在第一方面的某些实现方式中，分别确定超声特征对应的时频谱图和语音数据对应的时频谱图，包括：对语音数据进行语音端点检测，得到语音端点检测结果；利用语音端点检测结果分别对超声特征和语音数据进行分段，得到语音段的超声特征和语音段的语音数据；将语音段的超声特征对应的时频谱图确定为超声特征对应的时频谱图；将语音段的语音数据对应的时频谱图确定为语音数据对应的时频谱图。

结合第一方面，在第一方面的某些实现方式中，超声特征包括多普勒频移特征；或者，超声特征包括多普勒频移特征，并且超声特征还包括声学非线性特征和/或飞行时间特征。

第二方面，本申请一实施例提供了一种音频取证方法，包括：向位于目标场景中的目标对象发射超声波；目标对象在目标场景中发出声音时，采集目标对象表达的语音数据和经由目标对象反射的超声波，得到目标对象对应的可信音频数据。

第三方面，本申请一实施例提供了一种音频验证装置，包括：获取模块，用于获取待验证音频；确定模块，用于若待验证音频中包含第一超声波，则确定第一超声波对应的超声特征；提取模块，用于提取待验证音频中包含的语音数据；验证模块，用于基于超声特征和语音数据的相关性，验证语音数据是否为目标对象在目标场景中表达的语音数据。

第四方面，本申请一实施例提供了一种音频取证装置，包括：发射模块，用于向位于目标场景中的目标对象发射超声波；采集模块，用于目标对象在目标场景中发出声音时，采集目标对象表达的语音数据和经由目标对象反射的超声波，得到目标对象对应的可信音频数据。

第五方面，本申请一实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序用于执行第一方面和第二方面所述的方法。

第六方面，本申请一实施例提供了一种电子设备，该电子设备包括：处理器；用于存储处理器可执行指令的存储器；该处理器用于执行第一方面和第二方面所述的方法。

本申请实施例提供的音频验证方法具有如下有益效果：

首先，超声波人耳不可听，但具备较高的感知精度，本申请引入可信因子-超声波，并根据超声波对应的超声特征检测待验证音频中的语音数据是否被篡改，能够提高对待验证音频的检测精度，并且，超声波的频率范围和低频语音的频率范围不重合，不会对待验证音频中的语音数据的质量造成影响。其次，本申请中的音频验证方法具有强可迁移性，能够导致超声特征和语音数据不对应的篡改手段都能够被检测到，从而能够抵御其他未知的篡改手段。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1a所示为本申请实施例所适用的一应用场景示意图。

图1b所示为本申请实施例所适用的另一应用场景示意图。

图2所示为本申请一示例性实施例提供的音频验证方法的流程示意图。

图3所示为本申请一示例性实施例提供的确定第一超声波对应的超声特征的流程示意图。

图4所示为本申请一示例性实施例提供的确定第一超声波对应的斜率变化趋势的流程示意图。

图5所示为本申请另一示例性实施例提供的音频验证方法的流程示意图。

图6所示为本申请一示例性实施例提供的确定时频谱图的流程示意图。

图7所示为本申请一示例性实施例提供的音频取证方法的流程示意图。

图8所示为本申请一示例性实施例提供的音频取证及验证的系统结构图。

图9所示为本申请一示例性实施例提供的音频验证装置的结构示意图。

图10所示为本申请一示例性实施例提供的音频取证装置的结构示意图。

图11所示为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

申请概述

数据采集：通过传感器接收模拟信号，解码成数字信号，并将数字信号编码成特定数据格式的过程。

超声波：频率高于人耳听力范围上限(即大于18kHz)的机械波。

复制-移动篡改：将来自同一目标对象的某个语音片段复制到另一语音片段所在位置，以隐藏或修改整个音频文件所记录的语义。

音频深度伪造：利用人工智能技术生成目标对象的语音。

随着技术的发展，以人工智能技术为基础的音频深度伪造技术更是加剧了语料信息所面临的安全威胁。而现有的从数据层面分析的防御手段对于迅速发展的篡改技术具有一定的滞后性。此外，区块链技术致力于解决信任相关的应用问题，其中，商品溯源、事务监管、调查取证等均涉及链下与链上数据衔接的信任关卡问题，是源头可信的重要战场。一旦以伪造真实商品的生产和运输过程、捏造调查证据等为目的的虚假数据上链，会对链上数据产生污染，也会给上链信息的可信度和信息价值带来新的挑战。

对于链下人、物、场的描述，通常基于线下的物联网设备进行数据采集，对采集的数据上链后进行综合画像，构成链上抽象模型的真实存在证明，其中，以语料信息为核心的音频数据能够直接记录事件事实。链上的抽象模型在不同的应用场景下，具备一定的金融属性(质押货物)、法律属性(事实证据)和价值属性(商品及原材料)。这些链上数据结合一些特定的商业模式，即能产生相关的业务价值。现阶段区块链的链上可信流转技术已比较成熟，但信息(尤其是语料信息)从链下物理世界到真实反映至链上这一过程，仍然有许多亟待解决的问题。

相关对语料信息进行加密的方法包括音频水印技术、环境特征提取技术、相似度检测技术、音频深度伪造检测技术和区块链技术。

音频水印技术通过在获取的音频文件上添加数字密匙来加密音频文件。该方案的缺点是：(1)所添加的数字密钥会显著地降低音频文件的质量和可懂性；(2)数字密匙可能被伪造，从而导致真实的音频文件被误认为是伪造的。

环境特征提取技术通过提取音频录制过程中所包含的环境特征作为依据，进一步通过检测环境特征的连贯性以校验音频是否被篡改。该方案的缺点是：(1)易受环境噪音的干扰；(2)应用环境受限。如电网频率检测技术仅适用于有较强电网谐波的室内环境，无法应用于开阔的室外等场景。

相似度检测技术通过检测同源语料之间的相似性，防止复制-移动篡改。该方案的缺点是：(1)检测精度低；(2)当音频文件过多时，检测所需要的时间和计算量都呈指数增长。

音频深度伪造检测技术通过挖掘音频深度伪造过程中引入的特征和人类自然语音进行区分。该方案的缺点是：(1)需要采集大量的音频深度伪造的虚假音频文件用于训练；(2)可迁移性差，仅能应用于检测训练数据集中所包含的音频深度伪造技术，无法防御未见过的音频深度伪造技术；(3)滞后性，无法防御未来可能出现的新型音频深度伪造技术。

区块链技术通过在录制音频时将音频的录制时间和位置信息进行加密并上传区块链，生成区块链密匙嵌入音频中，以确保音频录制的语料信息的真实性。该方案的缺点是：(1)音频的时间和位置信息可能在手机上进行伪造，从而无法保证该信息的真实性；(2)无法保证音频数据的真实性。

综上所述，本申请提出一种音频验证方法，获取待验证音频，若待验证音频中包含第一超声波，则确定第一超声波对应的超声特征；提取待验证音频中包含的语音数据；基于超声特征和语音数据的相关性，验证语音数据是否为目标对象在目标场景中表达的语音数据。在本申请中，首先，超声波人耳不可听，但具备较高的感知精度，本申请引入可信因子-超声波，并根据超声波对应的超声特征检测待验证音频中的语音数据是否被篡改，能够提高对待验证音频的检测精度，并且，超声波的频率范围和低频语音的频率范围不重合，不会对待验证音频中的语音数据的质量造成影响。其次，本申请中的音频验证方法具有强可迁移性，任何导致超声特征和语音数据不对应的篡改手段都能够被检测到，并且，也能够抵御其他未知的篡改手段。

示例性场景

在数据采集过程中，利用数据采集所使用的传感器等硬件，为采集的语料信息引入额外的、难以伪造的、不可抵赖的可信因子。将可信因子作为数据采集的防篡改依据，从而有效提高数据的安全阈值，提高作恶者的作恶成本。本申请的价值便在于提高作恶成本，来阻止作恶的发生，以保证链下物理世界和链上信息的正确对应关系。

图1a所示为本申请实施例所适用的一应用场景示意图。本申请实施例提及的应用场景包括移动终端11、服务器12和扬声器13，移动终端11和服务器12之间通信连接。具体地，在音频取证阶段，目标对象在目标场景中发出声音时，扬声器13向目标对象发射调制后的超声波，移动终端11利用内置的麦克风采集目标对象说话时的语音信息和经由目标对象反射的超声波，并将采集到的语音信息发送至服务器12，进行真伪验证，也即验证语音信息是否被篡改。若未被篡改，则将采集的语音信息上传至区块链，以保证链下物理世界和链上信息的正确对应关系。

在另一种可实现场景中，将可信数据采集功能集成于预先开发好的可信采集应用程序(Application，APP)中，可信采集APP可在不装配外设或修改硬件的前提下部署于以智能手机为代表的移动终端中。具体地，如图1b所示，本使用场景包括端边设备，端边设备中安装有可信采集APP和其他应用APP。示例性地，其他应用APP为手机银行APP，端边设备为手机。用户在操作手机银行APP办理业务过程中，有对应的音频采集请求。手机银行APP跳转至可信采集APP，可信采集APP根据用户的音频采集请求，向目标对象发射超声波，同时录制目标对象的音频数据。基于音频数据中包含的超声波信号，对音频数据进行验证，若验证音频数据是目标对象在目标场景中表达的语音数据，则将音频数据上传至区块链存证。之后，可信采集APP将区块链存证返回的证据编码发送至手机银行APP，至此，对目标对象的音频采集、验证、上链过程结束。若手机银行APP有使用上述音频采集结果的需求，则将证据编码发送至区块链存证，并接收区块链存证发送的关于目标对象的音频采集结果。

示例性方法

图2所示为本申请一示例性实施例提供的音频验证方法的流程示意图。如图2所示，本申请实施例提供的音频验证方法包括如下步骤。

步骤210，获取待验证音频。

示例性地，响应于音频验证请求，获取待验证音频。音频验证请求用于验证待验证音频是否包含目标对象在目标场景中表达的语音数据，目标场景中包括发射的超声波，在采集目标对象的语音数据的过程中，得到的音频数据包含经由目标对象反射的超声波。

进一步地，待验证音频中可能是真实的目标对象表达的语音数据和非目标对象表达的语音数据，也可能是篡改后的目标对象表达的语音数据和非目标对象表达的语音数据，当然，待验证音频中也可能不包含非目标对象表达的语音数据。

步骤S220，若待验证音频中包含第一超声波，则确定第一超声波对应的超声特征。

步骤S230，提取待验证音频中包含的语音数据。

示例性地，利用高通滤波器对待验证音频进行低频语音过滤，得到过滤结果。查看过滤结果中是否包含高频超声部分，若包含，则认为待验证音频中包含第一超声波；若不包含，则认为待验证音频中不包含第一超声波。

进一步地，在待验证音频包含第一超声波的情况下，确定第一超声波对应的超声特征，并根据待验证音频，提取出待验证音频中包含的需要验证的语音数据。

步骤S240，基于超声特征和语音数据的相关性，验证语音数据是否为目标对象在目标场景中表达的语音数据。

具体地，目标对象在目标场景中发出声音时，向目标场景发射超声波，超声波能够采集到目标对象发出声音时的声道运动特征。若目标对象的语音数据未被篡改，则基于待验证音频解调得到的超声特征与目标对象的语音数据的相关性较大。若目标对象的语音数据被篡改，则基于待验证音频解调得到的超声特征与目标对象的语音数据中的特征不符。

示例性地，可设置等同阈值，若超声特征和语音数据的相关性数据大于等同阈值，则可认为从待验证音频数据中提取出的语音数据是目标对象在目标场景中表达的语音数据；否则，认为待验证音频中包含的语音数据被篡改。

在本申请实施例中，首先，超声波人耳不可听，但具备较高的感知精度，本申请引入可信因子-超声波，并根据超声波对应的超声特征检测待验证音频中的语音数据是否被篡改，能够提高对待验证音频的检测精度，并且，超声波的频率范围和目标对象表达的语音数据的频率范围不重合，不会对待验证音频中的语音数据的质量造成影响。其次，本申请中的音频验证方法具有强可迁移性，能够导致超声特征和语音数据不对应的篡改手段都能够被检测到，从而能够抵御其他未知的篡改手段。

图3所示为本申请一示例性实施例提供的确定第一超声波对应的超声特征的流程示意图。在图2所示实施例的基础上延伸出图3所示实施例，下面着重叙述图3所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图3所示，在本申请实施例中，在确定第一超声波对应的超声特征前，进一步包括如下步骤。

步骤S310，判断待验证音频中是否包含第一超声波。

示例性地，若步骤S310的判断结果为是，则执行步骤S320，即确定第一超声波对应的时频谱图；若步骤S310的判断结果为否，则执行步骤S370，即确定语音数据并非目标对象在目标场景中表达的语音数据。

具体地，利用高通滤波器滤除待验证音频中的低频语音信息，得到高频的第一超声波。对第一超声波进行傅里叶变换，得到第一超声波对应的时频谱图。

在本申请中，默认待验证音频的产生场景中包含由目标对象反射的超声波，因此，若待验证音频中不包含第一超声波，则认为待验证音频中的目标对象的语音数据被篡改，也即待验证音频中的语音数据并非目标对象在目标场景中表达的语音数据。

步骤S330，基于第一超声波对应的时频谱图，确定第一超声波对应的斜率变化趋势。

步骤S340，获取第二超声波对应的斜率变化趋势。第二超声波为目标对象预先在目标场景中发出声音时，向目标对象发射的超声波。

步骤S350，判断第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势是否相同。

具体地，为了保证验证的准确性，目标对象在目标场景中发出声音时，向目标对象发射的超声波为特定变化频率的超声波，也即，第二超声波为特定变化频率的超声波，而非恒定频率的超声波。因为恒定频率的超声波的作恶成本低、且不易被发现。

进一步地，在向目标对象发射第二超声波时，第二超声波的超声频率是已知的，继而第二超声波的超声频率的斜率变化趋势是已知的。通过比较第一超声波的超声频率的斜率变化趋势，可以确定待验证音频中的语音数据是否为目标对象在目标场景中表达的语音数据。示例性地，第二超声波的超声频率为正弦变化，则第二超声波的超声频率的斜率变化趋势为余弦变化。

示例性地，若步骤S350的判断结果为是，则执行步骤S360，即确定第一超声波对应的超声特征；若步骤S360的判断结果为否，则执行步骤S370，即确定语音数据并非目标对象在目标场景中表达的语音数据。

换句话说，若第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势相同，则可进一步确定第一超声波的超声特征，以便对待验证音频进行进一步的验证，双重验证提高验证的准确性。若第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势不同，则可认为待验证音频数据中的语音数据被篡改了。

在本申请实施例中，首先基于第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势，对待验证音频进行初筛，以确定待验证音频中关于目标对象的语音数据是否被篡改。该方法的计算量小，相应地提高了待验证音频的验证速度。

图4所示为本申请一示例性实施例提供的确定第一超声波对应的斜率变化趋势的流程示意图。在图3所示实施例的基础上延伸出图4所示实施例，下面着重叙述图4所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

如图4所示，在本申请实施例中，基于第一超声波对应的时频谱图，确定第一超声波对应的斜率变化趋势，包括如下步骤。

步骤S410，基于第一超声波对应的时频谱图中的各个时刻的幅值，对第一超声波对应的时频谱图进行二值化处理。

具体地，根据第一超声波的时频谱中的每一时刻的幅值，对第一超声波的时频谱图进行二值化操作。示例性地，设置高能量阈值，大于高能量阈值的点标记为1，其余点标记为0，以得到二值化后的时频谱图。

步骤S420，计算二值化处理后的时频谱图中的同一数值的相邻时刻之间的斜率。

步骤S430，基于同一数值的相邻时刻之间的斜率，确定第一超声波对应的斜率变化趋势。

沿用步骤S410中的示例，计算二值化处理后的时频谱图中的、值为1的相邻时刻之间的斜率。相应地，若在进行二值化处理时，将大于高能量阈值的点标记为0，则计算二值化处理后的时频谱图中的、值为0的相邻时刻之间的斜率。

沿用图3中的示例，若第二超声波的超声频率的斜率变化趋势为余弦变化，并且，若待验证音频中的关于目标对象的语音数据未被篡改，则解析出的第一超声波的超声频率的斜率变化趋势也应为余弦变化。

在本申请实施例中，对第一超声波的时频谱图进行二值化处理，能够更方便、准确地确定第一超声波的超声频率的斜率变化趋势，以便对待验证音频进行可信验证。

图5所示为本申请另一示例性实施例提供的音频验证方法的流程示意图。在图2所示实施例的基础上延伸出图5所示实施例，下面着重叙述图5所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图5所示，在本申请实施例中，音频验证方法还包括如下步骤。

步骤S510，分别确定超声特征对应的时频谱图和语音数据对应的时频谱图。

步骤S520，针对多个频谱通道中的每个频谱通道，确定超声特征对应的时频谱图和语音数据对应的时频谱图的相似性。

示例性地，利用低通滤波器对语音数据进行过滤，以便过滤掉语音数据中的高频成分。对超声特征和过滤后的语音数据进行傅里叶变换，得到超声特征对应的时频谱图和语音数据对应的时频谱图。此外，本申请实施例可以利用检测算法确定超声特征对应的时频谱图和语音数据对应的时频谱图的相似性，也可以利用训练好的检测模型确定超声特征对应的时频谱图和语音数据对应的时频谱图的相似性。

下面，以训练好的检测模型为例，对相似性的确定进行具体说明。

示例性地，在检测模型的训练阶段，将超声特征对应的时频谱图、以及与超声特征对应的语音数据的时频谱图按频谱通道拼接成正样本；进一步地，打乱超声特征的时频谱图和语音数据的时频谱图的对应关系，再按频谱通道拼接成负样本。将正样本和负样本按一定比例划分，组成训练集和验证集。示例性地，正样本：负样本＝4:1。

在检测模型的训练阶段，将每个频谱通道对应的拼接时频谱图作为输入，匹配的结果作为输出，输出0-1之间的自然数。输出值越高，表明超声特征与语音数据的相关性越强。通过交叉熵损失函数和反向传播算法对模型进行训练，利用验证集验证模型的性能。

进一步地，在检测模型的应用阶段，将超声特征对应的时频谱图和语音数据对应的时频谱图按频谱通道拼接后，输入检测模型中，得到相似性比较结果。

步骤S530，基于多个频谱通道各自对应的相似性，确定超声特征和语音数据的相关性。

示例性地，若相似性结果满足等同判定条件，则认为超声特征和语音数据具有强相关性，也即认为待验证音频中的语音数据为目标对象在目标场景中表达的语音数据。

在本申请实施例中，超声波的高频段会携带低频的语音数据的相关信息，基于此，对超声特征对应的时频谱图和语音数据对应的时频谱的相关性进行检测，以确保待验证音频的真实性，并且能够在待验证音频上链前，检测其是否被伪造。

图6所示为本申请一示例性实施例提供的确定时频谱图的流程示意图。在图5所示实施例的基础上，延伸出图6所示实施例，下面着重叙述图6所示实施例与图5所示实施例的不同之处，相同之处不再赘述。

如图6所示，在本申请实施例中，分别确定超声特征对应的时频谱图和语音数据对应的时频谱图，包括如下步骤。

步骤S610，对语音数据进行语音端点检测，得到语音端点检测结果。

步骤S620，利用语音端点检测结果分别对超声特征和语音数据进行分段，得到语音段的超声特征和语音段的语音数据。

步骤S630，将语音段的超声特征对应的时频谱图确定为超声特征对应的时频谱图，将语音段的语音数据对应的时频谱图确定为语音数据对应的时频谱图。

示例性地，可以利用谱熵法对语音数据进行端点检测，得到端点检测结果，也可用双门限法对语音数据进行端点检测，本申请实施例不限制端点检测的方式。

进一步地，根据语音端点检测结果对超声特征和语音数据进行分段，具体划分为语音段的超声特征和非语音段的超声特征、以及语音段的语音数据和非语音段的语音数据。并且，为了降低检测的计算量，可以仅对语音段的超声特征和语音段的语音数据进行相似性比较。

在另一种实施方式中，利用语音端点检测结果确定语音段的超声特征和非语音段的超声特征、以及语音段的语音数据和非语音段的语音数据后，也可不对非语音段的超声特征和非语音段的语音数据进行过滤，而是对语音段的超声特征和语音段的语音数据进行相似性比较、对非语音段的超声特征和非语音段的语音数据进行相似性比较。此时，若非语音段的超声特征出现相关的声道运动特征，可以证明，待检测音频被篡改。

在本申请实施例中，对超声特征和语音数据进行语音段和非语音段的划分，能够更准确、更精细化、更具有针对性地对待验证音频进行检测。

在本申请一示例性实施例中，超声特征包括多普勒频移特征；或者，超声特征包括多普勒频移特征，并且超声特征还包括声学非线性特征和/或飞行时间特征。

也即，本申请可以利用多普勒频移作为超声特征，以确定与语音数据的相关性；也可以利用多普勒频移特征、声学非线性特征、飞行时间特征等作为超声特征，确定与语音数据的相关性；或者利用多普勒频移特征和声学非线性特征、或多普勒频移特征和飞行时间特征作为超声特征，以确定与语音数据的相关性。

示例性地，以多普勒频移特征、声学非线性特征、飞行时间特征等作为超声特征。首先对待验证音频进行低频过滤，得到第一超声波，示例性地，通过自解调的方式将声学非线性特征、多普勒频移特征和飞行时间特征解调到低频段。自解调的方式如公式(1)所示。

在公式(1)中，U(t)表示第一超声波，F(t)表示第一超声波中包含的声学非线性特征、多普勒频移特征、飞行时间特征。

在本申请实施例中，通过多种声学效应方式，能够提高待验证音频验证的准确率。此外通过比对第一超声波上携带的声学非线性特征、多普勒频移特征、飞行时间特征和低频的语音数据的相关性，检测语音数据是否被篡改，能够导致超声特征和语音数据不对应的篡改手段都能够被检测到。

与音频验证方法对应的是音频取证方法，针对同一目标对象，若音频取证方法中采集的音频数据未被篡改，则该音频数据与音频验证方法中获取的待验证音频相同；否则，该音频数据与音频验证方法中获取的待验证音频不同。

图7所示为本申请一示例性实施例提供的音频取证方法的流程示意图。如图7所示，本申请实施例提供的音频取证方法包括如下步骤。

步骤S710，向位于目标场景中的目标对象发射超声波。

步骤S720，目标对象在目标场景中发出声音时，采集目标对象表达的语音数据和经由目标对象反射的超声波，得到目标对象对应的可信音频数据。

示例性地，发射超声波的调制方式如下公式(2)所示。

在公式(2)中，

为发射超声波频率，B为发射超声波的带宽，τ为发射超声波频率变化周期，F_bias为中心频率，A_u表示发射超声波的强度。

在本申请实施例中，通过在音频采集过程中发射超声波的方式，使接收到的音频的高频段携带与低频的语音相关的信息，确保音频采集的真实性。即使采集的音频在上链前被伪造，也能够通过对比较高频段携带的信息和低频的语音数据的相关性，进行真伪判断。

图8所示为本申请一示例性实施例提供的音频取证及音频验证的系统结构图。如图8所示，该系统包括数据采集模块810、失真检测模块820、超声特征解调模块830和篡改检测模块840。

数据采集模块利用手机内置的扬声器发射调制后的超声波，并利用内置的麦克风采集目标对象说话时的语音信息以及反射的超声波。失真检测模块对接收到的语音信息中的超声波的频率进行连续性检测，如果存在不连续的现象，则认为语音信息被篡改过。如果超声波的频率连续，则进入超声特征解调模块。超声特征解调模块对语音信息中的超声波进行解调，得到超声效应所产生的超声特征，示例性地，超声特征包括多普勒频移特征；或者，超声特征包括多普勒频移特征，并且超声特征还包括声学非线性特征和/或飞行时间特征。篡改检测模块对超声特征和低频的语音信息进行预处理，并利用检测模型对两者进行相似性比较，若相似性超过一定阈值则认为语音信息未被篡改。

本申请实施例在无需依赖任何外设或硬件修改的前提下，保证了线下产品链的真实性。本申请首先利用多种声学效应，挖掘可听声波(低频语音)与超声波之间的相关性。其次，利用超声波作为可信因子以防止音频被篡改，且该可信因子对人耳不可感知，不会对周围用户产生干扰，不会降低音频的质量与可懂性。

上文结合图2至图8，详细描述了本申请的方法实施例，下面结合图9和图10，详细描述本申请的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图9所示为本申请一示例性实施例提供的音频验证装置的结构示意图。如图9所示，本申请实施例提供的音频验证装置90包括：

获取模块910，用于获取待验证音频；

确定模块920，用于若待验证音频中包含第一超声波，则确定第一超声波对应的超声特征；

提取模块930，用于提取待验证音频中包含的语音数据；

验证模块940，用于基于超声特征和语音数据的相关性，验证语音数据是否为目标对象在目标场景中表达的语音数据。

在本申请一实施例中，确定模块920还用于，在确定第一超声波对应的超声特征前，进一步包括：若待验证音频中包含第一超声波，则确定第一超声波对应的时频谱图；基于第一超声波对应的时频谱图，确定第一超声波对应的斜率变化趋势；获取第二超声波对应的斜率变化趋势，第二超声波为目标对象预先在目标场景中发出声音时，向目标对象发射的超声波；判断第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势是否相同；所述方法还包括，当第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势相同时，确定第一超声波对应的超声特征。

在本申请一实施例中，确定模块920还用于，若第一超声波对应的斜率变化趋势和第二超声波对应的斜率变化趋势不同，则确定语音数据并非目标对象在目标场景中表达的语音数据。

在本申请一实施例中，确定模块920还用于，基于第一超声波对应的时频谱图中的各个时刻的幅值，对第一超声波对应的时频谱图进行二值化处理；计算二值化处理后的时频谱图中的同一数值的相邻时刻之间的斜率；基于同一数值的相邻时刻之间的斜率，确定第一超声波对应的斜率变化趋势。

在本申请一实施例中，验证模块940还用于，分别确定超声特征对应的时频谱图和语音数据对应的时频谱图；针对多个频谱通道中的每个频谱通道，确定超声特征对应的时频谱图和语音数据对应的时频谱图的相似性；基于多个频谱通道各自对应的相似性，确定超声特征和语音数据的相关性。

在本申请一实施例中，验证模块940还用于，对语音数据进行语音端点检测，得到语音端点检测结果；利用语音端点检测结果分别对超声特征和语音数据进行分段，得到语音段的超声特征和语音段的语音数据；将语音段的超声特征对应的时频谱图确定为超声特征对应的时频谱图；将语音段的语音数据对应的时频谱图确定为语音数据对应的时频谱图。

在本申请一实施例中，超声特征包括多普勒频移特征；或者，超声特征包括多普勒频移特征，并且超声特征还包括声学非线性特征和/或飞行时间特征。

图10所示为本申请一示例性实施例提供的音频取证装置的结构示意图。如图10所示，本申请实施例提供的音频取证装置100包括：

发射模块1010，用于向位于目标场景中的目标对象发射超声波；

采集模块1020，用于目标对象在目标场景中发出声音时，采集目标对象表达的语音数据和经由目标对象反射的超声波，得到目标对象对应的可信音频数据。

下面，参考图11来描述根据本申请实施例的电子设备。图11所示为本申请一示例性实施例提供的电子设备的结构示意图。

如图11所示，电子设备110包括一个或多个处理器1101和存储器1102。

处理器1101可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备110中的其他组件以执行期望的功能。

存储器1102可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1101可以运行所述程序指令，以实现上文所述的本申请的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如包括待验证音频、第一超声波、第二超声波、超声特征等各种内容。

在一个示例中，电子设备110还可以包括：输入装置1103和输出装置1104，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置1103可以包括例如键盘、鼠标等等。

该输出装置1104可以向外部输出各种信息，包括待验证音频、第一超声波、第二超声波、超声特征等。该输出装置1104可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备110中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备110还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种音频验证方法，包括：

获取待验证音频；

若所述待验证音频中包含第一超声波，则确定所述第一超声波对应的超声特征；

提取所述待验证音频中包含的语音数据；

基于所述超声特征和所述语音数据的相关性，验证所述语音数据是否为目标对象在目标场景中表达的语音数据。

2.根据权利要求1所述的方法，在确定所述第一超声波对应的超声特征前，进一步包括：

若所述待验证音频中包含所述第一超声波，则确定所述第一超声波对应的时频谱图；

基于所述第一超声波对应的时频谱图，确定所述第一超声波对应的斜率变化趋势；

获取第二超声波对应的斜率变化趋势，所述第二超声波为所述目标对象预先在所述目标场景中发出声音时，向所述目标对象发射的超声波；

判断所述第一超声波对应的斜率变化趋势和所述第二超声波对应的斜率变化趋势是否相同；

所述方法还包括，当所述第一超声波对应的斜率变化趋势和所述第二超声波对应的斜率变化趋势相同时，确定所述第一超声波对应的超声特征。

3.根据权利要求2所述的方法，还包括：

若所述第一超声波对应的斜率变化趋势和所述第二超声波对应的斜率变化趋势不同，则确定所述语音数据并非所述目标对象在所述目标场景中表达的语音数据。

4.根据权利要求2所述的方法，所述基于所述第一超声波对应的时频谱图，确定所述第一超声波对应的斜率变化趋势，包括：

基于所述第一超声波对应的时频谱图中的各个时刻的幅值，对所述第一超声波对应的时频谱图进行二值化处理；

计算二值化处理后的时频谱图中的同一数值的相邻时刻之间的斜率；

基于所述同一数值的相邻时刻之间的斜率，确定所述第一超声波对应的斜率变化趋势。

5.根据权利要求1至4任一项所述的方法，还包括：

分别确定所述超声特征对应的时频谱图和所述语音数据对应的时频谱图；

针对多个频谱通道中的每个频谱通道，确定所述超声特征对应的时频谱图和所述语音数据对应的时频谱图的相似性；

基于所述多个频谱通道各自对应的相似性，确定所述超声特征和所述语音数据的相关性。

6.根据权利要求5所述的方法，所述分别确定所述超声特征对应的时频谱图和所述语音数据对应的时频谱图，包括：

对所述语音数据进行语音端点检测，得到语音端点检测结果；

利用所述语音端点检测结果分别对所述超声特征和所述语音数据进行分段，得到语音段的超声特征和语音段的语音数据；

将所述语音段的超声特征对应的时频谱图确定为所述超声特征对应的时频谱图；

将所述语音段的语音数据对应的时频谱图确定为所述语音数据对应的时频谱图。

7.根据权利要求1至4任一项所述的方法，

所述超声特征包括多普勒频移特征；或者，

所述超声特征包括所述多普勒频移特征，并且所述超声特征还包括声学非线性特征和/或飞行时间特征。

8.一种音频取证方法，包括：

向位于目标场景中的目标对象发射超声波；

在所述目标对象在所述目标场景中发出声音时，采集所述目标对象表达的语音数据和经由所述目标对象反射的超声波，得到所述目标对象对应的可信音频数据。

9.一种音频验证装置，包括：

获取模块，用于获取待验证音频；

确定模块，用于若所述待验证音频中包含第一超声波，则确定所述第一超声波对应的超声特征；

提取模块，用于提取所述待验证音频中包含的语音数据；

验证模块，用于基于所述超声特征和所述语音数据的相关性，验证所述语音数据是否为目标对象在目标场景中表达的语音数据。

10.一种音频取证装置，包括：

发射模块，用于向位于目标场景中的目标对象发射超声波；

采集模块，用于在所述目标对象在所述目标场景中发出声音时，采集所述目标对象表达的语音数据和经由所述目标对象反射的超声波，得到所述目标对象对应的可信音频数据。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1至8任一项所述的方法。

12.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1至8任一项所述的方法。