CN116030831A

CN116030831A - 音频真伪检测方法、相关装置及存储介质

Info

Publication number: CN116030831A
Application number: CN202211611691.XA
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-04-28

Abstract

本申请实施例公开了一种音频真伪检测方法、相关装置及存储介质。所述方法包括：获取目标用户的待检测音频数据；对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵；确定所述初始频谱特征矩阵的时序相关性矩阵；根据所述初始频谱特征矩阵以及所述时序相关性矩阵确定目标频谱特征矩阵；将所述目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果。通过实施本申请实施例的方法可提高音频真伪检测的准确率。

Description

音频真伪检测方法、相关装置及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种音频真伪检测方法、相关装置及存储介质。

背景技术

随着5G技术的快速发展，语音深度伪造相关技术(如从文本到语音(Text ToSpeech，TTS)、声音转换(Voice Convers ion，VC)也愈发成熟，已经在医疗康复(如失声患者“重建”声音)、娱乐(如搞笑视频)等领域得到了广泛应用。然而，语音深度伪造技术在满足人们日常需求的同时，也带来了诸多隐患，如不法分子利用这类产品对具有社会影响力的人物的声音进行伪造来发布假新闻，或是对熟人声音进行伪造来实施诈骗、获取他人信息等。

针对该类隐患，现有技术提供一种基于声谱图训练的语音真伪检测模型，然而，使用这种语音真伪检测模型进行语音真伪检测的准确率较低，所以现亟需一种可以提高音频真伪检测准确率的音频真伪检测方法。

发明内容

本申请实施例提供了一种音频真伪检测方法、相关装置及存储介质，可以提高音频真伪检测的准确率。

第一方面，本申请实施例提供了一种音频真伪检测方法，其包括：

获取待检测音频数据；

对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵；

确定所述初始频谱特征矩阵的时序相关性矩阵；

根据所述初始频谱特征矩阵以及所述时序相关性矩阵确定目标频谱特征矩阵；

将所述目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果。

第二方面，本申请实施例还提供了一种音频真伪检测装置，其包括：

收发模块，用于获取待检测音频数据；

处理模块，用于对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵；确定所述初始频谱特征矩阵的时序相关性矩阵；根据所述初始频谱特征矩阵以及所述时序相关性矩阵确定目标频谱特征矩阵；将所述目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果。

在一些实施例中，所述处理模块在执行所述确定所述初始频谱特征矩阵的时序相关性矩阵；根据所述初始频谱特征矩阵以及所述时序相关性矩阵确定目标频谱特征矩阵步骤时，具体用于：

确定所述初始频谱特征矩阵的相邻帧相关性矩阵，以及确定所述初始频谱特征矩阵的相间帧相关性矩阵；

根据所述初始频谱特征矩阵、所述相邻帧相关性矩阵以及所述相间帧相关性矩阵确定所述目标频谱特征矩阵。

在一些实施例中，所述待检测音频数据包括多个子音频数据；所述初始频谱特征矩阵包括各所述子音频数据分别对应的初始频谱特征子矩阵；所述目标频谱特征矩阵包括各所述初始频谱特征子矩阵分别对应的目标频谱特征子矩阵；所述处理模块在执行所述将所述目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果步骤时，具体用于：

将各所述目标频谱特征子矩阵分别输入所述目标语音真伪检测模型，得到各所述目标频谱特征子矩阵分别对应的真伪检测子结果；

根据各所述真伪检测子结果以及预设的真伪判定逻辑确定所述目标真伪检测结果。

在一些实施例中，所述处理模块在执行所述获取待检测音频数据步骤之前，还用于：

通过所述收发模块获取初始音频数据；

若所述初始音频数据的音频长度超过预设长度阈值，则根据预设的长度拆分策略将初始音频数据拆分，得到所述待检测音频数据，所述待检测音频数据包括多个所述子音频数据。

在一些实施例中，所述相邻帧相关性矩阵以及所述相间帧相关性矩阵根据时序相关性特征工程构建规则得到，所述时序相关性特征工程构建规则包括相邻帧相关性构建规则以及相间帧相关性构建规则。

在一些实施例中，所述处理模块在执行所述根据所述初始频谱特征矩阵、所述相邻帧相关性矩阵以及所述相间帧相关性矩阵确定所述目标频谱特征矩阵步骤时，具体用于：

将所述初始频谱特征矩阵、所述相邻帧相关性矩阵以及所述相间帧相关性矩阵进行特征维度融合，得到融合后频谱特征矩阵；

将所述融合后频谱特征矩阵确定为所述目标频谱特征矩阵。

在一些实施例中，所述处理模块在执行所述对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵步骤之前，还用于：

对所述待检测音频数据进行数据增强处理，得到多个待匹配音频数据；

将各所述待匹配音频数据与预设的目标音频数据分别进行匹配处理，得到匹配结果；

此时，所述处理模块在执行所述对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵步骤时，具体用于：

若所述匹配结果为匹配通过，则对所述待检测音频数据进行特征提取，得到所述初始频谱特征矩阵。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述方法。

与现有技术相比，本申请实施例中，一方面，本实施例在接收到待检测音频数据之后，会提取待检测音频数据的频谱特征，并根据频谱特征对待检测音频数据进行真伪检测，发明人发现，伪音频的频谱特征的特征点比声谱图的特征点更加明显，故使用频谱特征进行音频的真伪检测，可以避免模型坍塌在不重要的特征上，提高音频真伪检测的准确率；另一方面，时序对于语音鉴伪比较重要，所以当语音真伪检测模型为非时序模型时，由于本实施例中的目标频谱特征矩阵融合了对应的时序相关性矩阵，使得进行真伪检测的目标频谱特征具有时序相关性，故本实施例在使用非时序模型作为语音真伪检测模型时，本方案也可以保证对语音真伪检测的准确率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的音频真伪检测方法的应用场景示意图；

图1b为本申请实施例提供的语音真伪检测模型的训练过程的流程示意图；

图2为本申请实施例提供的音频真伪检测方法的流程示意图；

图3a为本申请实施例提供的待检测音频数据的一个波形图；

图3b为本申请实施例提供的待检测音频数据的另一个波形图；

图3c为本申请实施例提供的待检测音频数据的另一个波形图；

图4为本申请另一实施例提供的音频真伪检测方法的流程示意图；

图5为本申请实施例提供的音频真伪检测装置的示意性框图；

图6为本申请实施例中服务器的一种结构示意图；

图7为本申请实施例中终端的一种结构示意图；

图8为本申请实施例中服务器的一种结构示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例供了一种音频真伪检测方法、装置及存储介质，该音频真伪检测方法的执行主体可以是本申请实施例提供的音频真伪检测装置，或者集成了该音频真伪检测装置的计算机设备，其中，该音频真伪检测装置可以采用硬件或者软件的方式实现，该计算机设备可以为终端或服务器。

当该计算机设备为服务器时，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

当该计算机设备为终端时，该终端可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、个人数字助理(英文全称：Persona l Digita l Ass istant，英文简称：PDA)、台式计算机、智能手表等携带多媒体数据处理功能(例如，视频数据播放功能、音乐数据播放功能)的智能终端，但并不局限于此。

本申请实施例的方案可基于人工智能技术实现，具体来说涉及人工智能技术中的计算机视觉技术技术领域和云技术中的云计算、云存储和数据库等领域，下面将分别进行介绍。

人工智能(Art ificia l I nte l l igence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vi s ion,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、人脸识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例的方案可基于云技术实现，具体来说涉及云技术中的云计算、云存储和数据库等技术领域，下面将分别进行介绍。

云技术(Cloud techno logy)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图像类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。本申请实施例可通过云技术对识别结果进行保存。

云存储(c loud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。在本申请实施例中，可将网络配置等信息均保存在该存储系统中，便于服务器调取。

目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识(I D，I D entity)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAI D，Redundant Array of I ndependent Di sk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

数据库(Database)，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统(英语：Database Management System，简称DBMS)是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、XML(Extens ib le MarkupLanguage,即可扩展标记语言)；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如SQL(结构化查询语言，Structured QueryLanguage)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。在本申请实施例中，可将识别结果存储在该数据库管理系统中，便于服务器调取。

其中，需要特别说明的是，本申请实施例涉及的服务终端，可以是指向服务终端提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。例如，个人通信业务(英文全称：Persona l Commun icat ion Service，英文简称：PCS)电话、无绳电话、会话发起协议(SI P)话机、无线本地环路(Wi re less Local Loop，英文简称：WLL)站、个人数字助理(英文全称：Persona l Digita l Ass i stant，英文简称：PDA)等设备。

在一些实施方式中，请参阅图1a，图1a为本申请实施例提供的音频真伪检测方法的一个应用场景示意图。本申请实施例可应用于如图1a所示的音频真伪检测系统1中，所述音频真伪检测系统1包括服务器10、以及用户终端20，其中，用户终端20将待检测音频数据发送至服务器10，服务器10获取到该待检测音频数据之后，将提取该待检测音频数据的初始频谱特征矩阵，并获取该初始频谱特征矩阵的时序相关性矩阵，然后根据该初始频谱特征矩阵以及时序相关性矩阵确定目标频谱特征矩阵，最后将该目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果，并向用户终端20返回该目标真伪检测结果。

其中，本申请实施例以服务器20作为执行主体为例，当执行主体为终端时，可参考服务器的实施例，不作赘述。

由于本申请实施例的音频真伪检测方法可以基于目标音频真伪检测模型(预先训练好的音频真伪检测模型)对待检测音频进行真伪检测，本实施例在介绍音频真伪检测方法之前，先介绍该音频真伪检测模型的训练过程。

在一些实施方式中，请参阅图1b，图1b为本实施例中提供的语音真伪检测模型的训练过程的流程示意图，包括步骤S110至步骤S150：

S110、获取音频集。

其中，所述音频集包括多个正样本以及多个负样本。

本实施例中，正样本为在真实语音场景下采集到的真实音频数据，例如在采访、直播等场景采集到的真实语音数据。

该负样本包括真实音频数据与伪造音频数据进行拼接的第一拼接音频数据、伪造音频数据与真实音频数据进行拼接的第二拼接音频数据、真实音频数据与真实音频数据的进行拼接的第三拼接音频数据以及全伪造音频数据。即负样本包括全伪造音频数据以及拼接音频数据，其中，伪造音频数据包括通过TTS生成的伪造音频数据和/或通过VC生成的伪造音频数据。

可见，由于本实施例在语音真伪检测模型的训练样本中增加了多种类型的波形拼接样本(真实音频数据+伪造音频数据、伪造音频数据+真实音频数据、真实音频数据+真实音频数据)，所以本申请提供的语音真伪检测模型在对拼接类型的伪造音频也具有比较好的识别效果。

S120、对各所述正样本进行频谱特征提取处理，得到各所述正样本分别对应的初始频谱特征正样本矩阵；以及对各所述负样本进行频谱特征提取处理，得到各所述负样本分别对应的初始频谱特征负样本矩阵。

本实施例中，获取到音频集之后，需要分别对音频集中的正样本以及负样本进行频谱特征提取处理。

以下实施例以频谱特征为线性预测倒谱系数(Linear Pred ict ion Cepstra lCoefficients、LFCC)特征为例对本申请进行详细描述，其中，本申请对于频谱特征的具体类型不作限定，频谱特征还可以为梅尔频率倒谱系数(Me l-Frequency Cepstra lCoefficients，MFCC)特征、常数Q变换频率倒谱系数(Constant Qtransform CepstrumCoefficients，CQCC)特征、线性预测倒谱系数(l inear pred ict ive cepstra lcoefficient，LPCC)特征、巴克频率倒谱系数(Bark-Frequency Cepstra l Coefficients，BFCC)特征或Gammatone倒谱系数(Gammatone Frequency Cepstrum Coefficient，GFCC)特征。

例如，获取到正样本以及负样本之后，对各正样本以及负样本分别进行如下操作：获取到正样本或负样本的音频数据之后，对音频数据依次进行预加重处理、分帧加窗处理、快速傅里叶变换处理、线性尺度滤波处理、对数运输处理、离散余弦变换处理，然后得到各帧音频的LFCC特征，然后根据各帧音频的LFCC特征构建初始频谱特征正样本矩阵以及初始频谱特征负样本矩阵。

S130、确定各所述初始频谱特征正样本矩阵的时序相关性正样本矩阵，以及确定各所述初始频谱特征负样本矩阵的时序相关性负样本矩阵。

本实施例中，由于时序对于语音鉴伪也是比较重要的，在进行语音鉴伪时增加时序特征，为了提高语音鉴伪的准确率，所以本实施例还需要确定初始频谱特征正样本矩阵的时序相关性正样本矩阵。

在一些实施例中，具体地，为了丰富样本中的时序特征，本实施例中的时序相关性正样本矩阵包括相邻帧相关性正样本矩阵以及相间帧相关性正样本矩阵，时序相关性负样本矩阵包括相邻帧相关性负样本矩阵以及相间帧相关性负样本矩阵，此时，S130包括：确定各所述初始频谱特征正样本矩阵的相邻帧相关性正样本矩阵，以及确定各所述初始频谱特征正样本矩阵的相间帧相关性正样本矩阵；确定各所述初始频谱特征负样本矩阵的相邻帧相关性负样本矩阵，以及确定各所述初始频谱特征负样本矩阵的相间帧相关性负样本矩阵。

S140、根据所述初始频谱特征正样本矩阵以及所述时序相关性正样本矩阵确定各正样本分别对应的目标频谱特征正样本矩阵，以及根据所述初始频谱特征负样本矩阵以及所述时序相关性负样本矩阵确定各负样本分别对应的目标频谱特征负样本矩阵。

当时序相关性正样本矩阵包括相邻帧相关性正样本矩阵以及相间帧相关性正样本矩阵，时序相关性负样本矩阵包括相邻帧相关性负样本矩阵以及相间帧相关性负样本矩阵时，步骤S140包括：将初始频谱特征正样本矩阵、相邻帧相关性正样本矩阵以及相间帧相关性正样本矩阵进行特征维度融合，得到各正样本分别对应的目标频谱特征正样本矩阵；以及将初始频谱特征负样本矩阵、相邻帧相关性负样本矩阵以及相间帧相关性负样本矩阵进行特征维度融合，得到各负样本分别对应的目标频谱特征负样本矩阵。

可见，本实施例中的目标频谱特征正样本矩阵以及目标频谱特征负样本矩阵融合了相邻帧相关性负样本矩阵以及相间帧相关性负样本矩阵两个与时序相关的矩阵，使得样本矩阵中的时序特征更加明显，进而提高音频真伪检测的准确度。

S150、根据目标频谱特征样本矩阵集合对预设的初始语音真伪检测模型进行训练，得到目标语音真伪检测模型，所述目标频谱特征样本矩阵集合包括多个目标频谱特征正样本矩阵以及多个目标频谱特征负样本矩阵。

具体地，本实施例中，得到各正样本的时序相关性正样本矩阵以及各负样本的时序相关性负样本矩阵之后，将根据正样本的时序相关性正样本矩阵以及负样本的时序相关性负样本矩阵确定目标频谱特征样本矩阵集合，然后根据目标频谱特征样本矩阵集合对初始语音真伪检测模型进行训练，得到所述目标语音真伪检测模型。

综上所述，本实施例提供的目标语音真伪检测模型根据音频样本的频谱特征矩阵训练得到，使用该模型进行语音真伪识别时，可以避免模型坍塌在不重要的特征上，此外，本实施例中的目标语音真伪检测模型可以为时序模型，也可以为非时序模型，由于本实施例中对模型进行训练的特征样本矩阵集合中的特征样本矩阵融合了对应的时序相关性矩阵，因此,即使使用非时序模型作为目标语音真伪检测模型，也可以保证语音真伪检测的准确率。

通过上述实施例得到目标语音真伪检测模型之后，将该模型设置在音频真伪检测装置中，可用来对音频数据进行真伪检测，本实施例以服务器作为执行主体为例，该服务器集成有该音频真伪检测装置，当执行主体为终端时，可参考服务器的实施例，不作赘述。以下基于图2对本实施例提供的音频真伪检测方法进行详细说明，如图2所示，该方法包括以下步骤S210-S250。

S210、服务器获取待检测音频数据。

本实施例中，该待检测音频数据可为目标用户的音频数据。该待检测音频数据可来自服务器外部，也可为服务器的本地数据，具体本申请实施例不对此作限定。

当该待检测音频数据来自服务器外部时，在一些实施例中，该待检测音频数据可为用户终端发送的待检测音频数据，在另一些实施例中，服务器可设置麦克风，此时，服务器可通过麦克风获取待检测音频数据。

在一些实施例中，为了提高音频真伪检测的精度，需要限制检测的音频的长度，当输入的音频超过预设长度阈值时，则需要对音频进行拆分处理，然后对拆分后的音频分别进行真伪检测。此时，在步骤S210之前，方法还包括：获取初始音频数据；若所述初始音频数据的音频长度超过预设长度阈值，则根据预设的长度拆分策略将初始音频数据拆分，得到所述待检测音频数据，所述待检测音频数据包括多个所述子音频数据。

其中，该长度拆分策略具体可以为滑动窗口策略，该预设长度阈值可以为1分钟，也可以为其他数值，具体可根据实际需要进行调节，长度拆分策略为：针对超过预设长度阈值的音频，根据预设长度阈值对音频进行拆分，例如，如果初始音频数据的音频长度为4.5分钟，则将初始音频拆分成4个1分钟长度的子音频数据，以及1个0.5分钟的子音频数据。

本实施例中，在对待检测音频数据进行特征提取之前，为了减少杂音对语音真伪检测的干扰，需要使用语音活动检测(Voice Act ivity Detect ion，VAD)去除待检测音频数据的干扰音音频，并且，为了避免由于缺失静音部分的频域信息导致偏置，结果倾向于某一个类别，本实施例只去除待检测音频数据的干扰音音频，但需要保留所述待检测音频数据中的静音音频。其中，图3a为原始的待检测音频数据的波形图，图3b为现有的VAD算法去除待检测音频数据的干扰音音频(包括去除静音音频)的波形图，图3c为本申请提供的VAD算法去除待检测音频数据的干扰音音频(不包括去除静音音频)的波形图。

S220、服务器对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵。

具体地，本实施例中，对待检测音频数据依次进行预加重处理、分帧加窗处理、快速傅里叶变换处理、线性尺度滤波处理、对数运输处理、离散余弦变换处理，然后得到待检测音频数据各帧的LFCC特征，并根据各帧的LFCC特征确定该待检测音频数据的初始频谱特征矩阵。

S230、服务器确定所述初始频谱特征矩阵的时序相关性矩阵。

本实施例中，具体地，需要确定所述初始频谱特征矩阵的相邻帧相关性矩阵，以及确定所述初始频谱特征矩阵的相间帧相关性矩阵。

进一步地，本实施例中的初始频谱特征矩阵包括多个维度的LFCC特征，定义初始频谱特征矩阵中第i维度的LFCC特征为F_i＝(f_1i,f_2i,f_3i,...,f_Ti)，其中，f_1i为第i维度的第一帧LFCC特征，f_Ti为第i维度的第T帧LFCC特征。在一些实施例中，初始频谱特征矩阵包括20维度的LFCC特征，此时i的取值为[1,20]中的整数。

其中，本实施例中的所述相邻帧相关性矩阵以及所述相间帧相关性矩阵根据时序相关性特征工程构建规则得到，所述时序相关性特征工程构建规则包括相邻帧相关性构建规则以及相间帧相关性构建规则。

在计算相邻帧相关性矩阵时，需要分别针对初始频谱特征矩阵每个维度分别进行计算，得到各维度的相邻帧相关性LFCC特征之后，将各维度的相邻帧相关性LFCC特征融合成相邻帧相关性矩阵。

例如，第i维度的LFCC特征的相邻帧LFCC特征计算方式(相邻帧相关性构建规则)如下：

其中，t∈(1,2,3,...T)，T为当前待检测音频数据的子音频数据的总帧数，ISF_i为该子音频数据第i维度的相邻帧LFCC特征，得到各维度的相邻帧LFCC特征之后，将各维度的相邻帧LFCC特征组合成相邻帧相关性矩阵。

同样地，在计算相间帧相关性矩阵时，需要分别针对初始频谱特征矩阵每个维度分别进行计算，得到各维度的相间帧相关性LFCC特征之后，将各维度的相间帧相关性LFCC特征融合成相间帧相关性矩阵。

例如，第i维度的LFCC特征的相间帧LFCC特征计算方式(相间帧相关性构建规则)如下：

其中，t∈(1,2,3,...T)，T为当前待检测音频数据的子音频数据的总帧数，CSF_i为该子音频数据第i维度的相间帧LFCC特征，得到各维度的相间帧LFCC特征之后，将各维度的相间帧LFCC特征组合成相间帧相关性矩阵。

S240、服务器根据所述初始频谱特征矩阵以及所述时序相关性矩阵确定目标频谱特征矩阵。

具体地，将所述初始频谱特征矩阵、所述相邻帧相关性矩阵以及所述相间帧相关性矩阵进行特征维度融合，得到融合后频谱特征矩阵；将所述融合后频谱特征矩阵确定为所述目标频谱特征矩阵。

为了进一步理解目标频谱特征矩阵的获取过程，以下以初始频谱特征矩阵的深度为20维度，帧数为8帧为例对目标频谱特征矩阵的计算过程进行描述。

例如，初始频谱特征矩阵(20*8)为：

计算得到的相邻帧相关性矩阵(20*8)为：

计算得到的相间帧相关性矩阵(20*8)为：

融合P1、P2以及P3，得到的目标频谱特征矩阵(60*8)为：

S250、服务器将所述目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果。

本实施例中，得到目标频谱特征矩阵之后，将该目标频谱特征矩阵输入预设的目标语音真伪检测模型，输出该待检测音频数据的目标真伪检测结果。

在一些实施例中，当待检测音频数据包括多个子音频数据时，本实施例需对各子音频数据分别执行步骤S220至步骤S240，此时，所述初始频谱特征矩阵包括各所述子音频数据分别对应的初始频谱特征子矩阵；所述目标频谱特征矩阵包括各所述初始频谱特征子矩阵分别对应的目标频谱特征子矩阵。

具体地，为了提高音频的真伪检测的检测精度，本实施例需要根据结合各子音频数据的真伪检测子结果进行音频的真伪检测，步骤S250具体包括：将各所述目标频谱特征子矩阵分别输入所述目标语音真伪检测模型，得到各所述目标频谱特征子矩阵分别对应的真伪检测子结果；根据各所述真伪检测子结果以及预设的真伪判定逻辑确定所述目标真伪检测结果。

其中，该真伪判定逻辑可以为以下任意一种：

第一种、获取真伪检测子结果中的最低分，获取真伪检测子结果的平均分，若最低分大于预设的最低阈值(如0.4分)，且平均分大于预设值(例如0.7分)，则确定该待检测音频数据为真音频数据。

可见，在第一种真伪判定逻辑中，在进行音频数据真伪判断时，不仅考虑了真伪检测子结果的平均分，还结合了真伪检测子结果中的最低分，当存在明显的伪造子音频数据时(分数低于最低阈值的子音频数据)时，可直接将该待检测音频数据确定为伪造音频数据，音频真伪检测精度高。

第二种，将真伪检测子结果中分数大于或等于真伪阈值(如0.6分)的子音频数据确定为真音频，将真伪检测子结果中分数小于真伪阈值的子音频数据确定为假音频，若待检测音频数据的多个子音频数据中，真音频的数量大于假音频的数量，则将该待检测音频数据确定为真音频。

可见，在第二种真伪判定逻辑中，可直接根据多个子音频数据中真假音频的数量确定待检测音频数据的真伪情况，可提高音频真伪检测的检测效率。

S260、服务器向用户终端发送目标真伪检测结果。

本实施例中，得到目标真伪检测结果之后，还需向用户终端返回待检测音频数据的真伪检测结果，使得用户获取该待检测音频数据的真伪检测结果。

综上所述，本申请实施例中，一方面，本实施例在接收到待检测音频数据之后，会提取待检测音频数据的频谱特征，并根据频谱特征对待检测音频数据进行真伪检测，发明人发现，伪音频的频谱特征的特征点比声谱图的特征点更加明显，故使用频谱特征进行音频的真伪检测，可以避免模型坍塌在不重要的特征上，提高音频真伪检测的准确率；另一方面，时序对于语音鉴伪是比较重要的，所以当语音真伪检测模型为非时序模型时，由于本实施例中的目标频谱特征矩阵融合了对应的时序相关性矩阵，使得进行真伪检测的目标频谱特征具有时序相关性，故本实施例在使用非时序模型作为语音真伪检测模型时，本方案也可以保证对语音真伪检测的准确率。

图4是本申请另一实施例提供的一种音频真伪检测方法的流程示意图。如图4所示，本实施例的音频真伪检测方法包括步骤S310-S380。

S310、服务器获取待检测音频数据。

其中，本步骤与图2对应实施例中的步骤S210类似，具体此处不作赘述。

S320、服务器对所述待检测音频数据进行数据增强处理，得到多个待匹配音频数据。

该数据增强处理的方式包括倍速、镜像翻转以及加入随机噪声等。其中，该倍速可以采用0.5、1.5以及其他倍速，具体倍数的数值此处不作限定；该镜像翻转可以为语音倒序；该随机噪声可以为随机添加不同干扰程度的高斯噪声、工厂噪声和粉红噪声等。

对待检测音频数据进行数据增强处理之后，多个待匹配音频数据，多个待匹配音频数据包括原始的待检测音频数据、倍速处理后的待检测音频数据、镜像处理后的待检测音频数据以及在待检测音频数据中加入了噪声的音频数据。

S330、服务器将各所述待匹配音频数据与预设的目标音频数据分别进行匹配处理，得到匹配结果。

其中，所述目标音频数据为目标用户的真实音频数据，需要说明的是，本实施例中的目标用户可以为一个用户，也可以为多个进行过语音注册的用户，此时，目标音频数据包括多个目标用户分别对应的注册语音，增强后待检测音频数据与任意一个注册语音匹配通过，则说明待检测音频数据与目标音频数据相匹配。

具体地，本实施例中，当多个待匹配音频数据中的任意一个待匹配音频数据与任意一个注册语音匹配通过，则说明待检测音频数据与目标音频数据相匹配。

本实施例中，某待匹配音频数据与目标音频数据的匹配处理过程具体包括，对待匹配音频数据进行声纹识别处理，得到待匹配音频数据的待匹配声纹信息；然后将该待匹配声纹信息与预设的目标声纹信息进行匹配，得到匹配结果，其中，该目标声纹信息为目标音频数据对应的声纹信息。

S340、若所述匹配结果为匹配通过，则服务器对所述待检测音频数据进行特征提取，得到所述初始频谱特征矩阵。

具体地，本实施例中，若所述匹配结果为匹配通过，则进一步对待检测音频数据进行特征提取；若匹配结果为匹配不通过，则返回匹配不通过的匹配结果至用户终端，结束流程。

S350、服务器确定所述初始频谱特征矩阵的时序相关性矩阵。

S360、服务器根据所述初始频谱特征矩阵以及所述时序相关性矩阵确定目标频谱特征矩阵。

S370、服务器将所述目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果。

S380、服务器向用户终端发送目标真伪检测结果。

需要说明的是，步骤S340至步骤S380与图2对应实施例中的步骤S220至步骤S260类似，具体此处不作赘述。

图5是本申请实施例提供的一种音频真伪检测装置的示意性框图。如图5所示，对应于以上音频真伪检测方法，本申请还提供一种音频真伪检测装置。该音频真伪检测装置包括用于执行上述音频真伪检测方法的单元，该装置可以被配置于终端或服务器中。具体地，请参阅图5，该音频真伪检测装置500包括收发模块501以及处理模块502。

收发模块501，用于获取待检测音频数据；

处理模块502，用于对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵；确定所述初始频谱特征矩阵的时序相关性矩阵；根据所述初始频谱特征矩阵以及所述时序相关性矩阵确定目标频谱特征矩阵；将所述目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果。

在一些实施例中，所述处理模块502在执行所述确定所述初始频谱特征矩阵的时序相关性矩阵；根据所述初始频谱特征矩阵以及所述时序相关性矩阵确定目标频谱特征矩阵步骤时，具体用于：

在一些实施例中，所述待检测音频数据包括多个子音频数据；所述初始频谱特征矩阵包括各所述子音频数据分别对应的初始频谱特征子矩阵；所述目标频谱特征矩阵包括各所述初始频谱特征子矩阵分别对应的目标频谱特征子矩阵；所述处理模块502在执行所述将所述目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果步骤时，具体用于：

在一些实施例中，所述处理模块502在执行所述获取待检测音频数据步骤之前，还用于：

通过所述收发模块501获取初始音频数据；

在一些实施例中，所述处理模块502在执行所述根据所述初始频谱特征矩阵、所述相邻帧相关性矩阵以及所述相间帧相关性矩阵确定所述目标频谱特征矩阵步骤时，具体用于：

将所述融合后频谱特征矩阵确定为所述目标频谱特征矩阵。

在一些实施例中，所述处理模块502在执行所述对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵步骤之前，还用于：

此时，所述处理模块502在执行所述对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵步骤时，具体用于：

综上所述，本实施例通过收发模块501接收待检测音频数据之后，将通过处理模块502提取待检测音频数据的频谱特征，并根据频谱特征对待检测音频数据进行真伪检测，发明人发现，伪音频的频谱特征的特征点比声谱图的特征点更加明显，故使用频谱特征进行音频的真伪检测，可以避免模型坍塌在不重要的特征上，提高音频真伪检测的准确率；另一方面，时序对于语音鉴伪比较重要，所以当语音真伪检测模型为非时序模型时，由于本实施例中的目标频谱特征矩阵融合了对应的时序相关性矩阵，使得进行真伪检测的目标频谱特征具有时序相关性，故本实施例在使用非时序模型作为语音真伪检测模型时，本方案也可以保证对语音真伪检测的准确率。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述音频真伪检测装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上面从模块化功能实体的角度对本申请实施例中的人脸识别系统进行了描述，下面从硬件处理的角度分别对本申请实施例中的人脸识别装置进行描述。

需要说明的是，在本申请实施例各实施例(包括图5所示的各实施例)中所有的收发模块对应的实体设备可以为收发器，所有的处理模块对应的实体设备可以为处理器。当其中一种装置具有如图5所示的结构时，处理器、收发器和存储器实现前述对应该装置的装置实施例提供的所述收发模块和所述处理模块相同或相似的功能，图6中的存储器存储处理器执行上述音频真伪检测方法时需要调用的计算机程序。

图5所示的装置可以具有如图6所示的结构，当图5所示的装置具有如图6所示的结构时，图6中的处理器能够实现前述对应该装置的装置实施例提供的所述处理模块相同或相似的功能，图6中的收发器能够实现前述对应该装置的装置实施例提供的所述收发模块相同或相似的功能，图6中的存储器存储处理器执行上述音频真伪检测方法时需要调用的计算机程序。在本申请实施例图5所示的实施例中的所述收发模块所对应的实体设备可以为输入输出接口，所述处理模块对应的实体设备可以为处理器。

本申请实施例还提供了另一种终端，如图7所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Persona l Digita l Ass i stant，英文简称：PDA)、销售终端(英文全称：Point of Sa les，英文简称：POS)、车载电脑等任意终端，以终端为手机为例：

图7示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图7，手机包括：射频(英文全称：Rad io Frequency，英文简称：RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(英文全称：wi re less fide lity，英文简称：Wi-Fi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：Low Noise Amp l ifier，英文简称：LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：G loba l System of Mobi le commun icat ion，英文简称：GSM)、通用分组无线服务(英文全称：Genera l Packet Rad io Service，英文简称：GPRS)、码分多址(英文全称：Code Divi s ion Mu lt ip le Access，英文简称：CDMA)、宽带码分多址(英文全称：Wideband Code Divi s ion Mu lt ip le Access,英文简称：WCDMA)、长期演进(英文全称：Long Term Evo l ut ion，英文简称：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，英文简称：SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(英文全称：Liqu idCrysta l Di sp l ay，英文简称：LCD)、有机发光二极管(英文全称：Organ ic Light-Emitt ing Diode,英文简称：OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了Wi-Fi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理模块；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器780还具有控制执行以上由图1b、图2以及图4所示流程图。

图8是本申请实施例提供的一种服务器结构示意图，该服务器820可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：centra lprocess ing un its，英文简称：CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器820上执行存储介质830中的一系列指令操作。

服务器820还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows Server，Mac OS X，Un ix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器820的结构。例如上述实施例中由图1b、图2以及图4所示的服务器的步骤可以基于该图8所示的服务器结构。例如，所述处理器822通过调用存储器832中的指令，执行以下操作：

获取待检测音频数据；

确定所述初始频谱特征矩阵的时序相关性矩阵；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘So l id State Di sk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种音频真伪检测方法，其特征在于，包括：

获取待检测音频数据；

确定所述初始频谱特征矩阵的时序相关性矩阵；

2.根据权利要求1所述的方法，其特征在于，所述确定所述初始频谱特征矩阵的时序相关性矩阵；根据所述初始频谱特征矩阵以及所述时序相关性矩阵确定目标频谱特征矩阵，包括：

3.根据权利要求2所述的方法，其特征在于，所述待检测音频数据包括多个子音频数据；所述初始频谱特征矩阵包括各所述子音频数据分别对应的初始频谱特征子矩阵；所述目标频谱特征矩阵包括各所述初始频谱特征子矩阵分别对应的目标频谱特征子矩阵；所述将所述目标频谱特征矩阵输入预设的目标语音真伪检测模型，得到所述待检测音频数据的目标真伪检测结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取待检测音频数据之前，所述方法还包括：

获取初始音频数据；

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述相邻帧相关性矩阵以及所述相间帧相关性矩阵根据时序相关性特征工程构建规则得到，所述时序相关性特征工程构建规则包括相邻帧相关性构建规则以及相间帧相关性构建规则。

6.根据权利要求5所述的方法，其特征在于，所述根据所述初始频谱特征矩阵、所述相邻帧相关性矩阵以及所述相间帧相关性矩阵确定所述目标频谱特征矩阵，包括：

将所述融合后频谱特征矩阵确定为所述目标频谱特征矩阵。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵之前，所述方法还包括：

所述对所述待检测音频数据进行特征提取，得到所述待检测音频数据的初始频谱特征矩阵，包括：

8.一种音频真伪检测装置，其特征在于，包括：

收发模块，用于获取待检测音频数据；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如权利要求1-7中任一项所述的方法。