CN116319467B

CN116319467B - 基于idc机房双向流量的深度合成音频检测方法及系统

Info

Publication number: CN116319467B
Application number: CN202310573012.2A
Authority: CN
Inventors: 魏亮; 谢玮; 魏薇; 彭志艺; 辛鑫
Original assignee: China Academy of Information and Communications Technology CAICT
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-07-21
Anticipated expiration: 2043-05-22
Also published as: CN116319467A

Abstract

本发明公开了一种基于IDC机房双向流量的深度合成音频检测方法及系统，该方法包括：按照预设采集策略获取现网IDC机房出口的原始流量数据，并对获取到的原始流量数据进行还原处理得到还原音频文件，其中原始流量数据包括加密流量数据和非加密流量数据；基于预先建立的样本特征库对还原音频文件进行数据去重处理；对经去重处理后的还原音频文件进行音频检测以得到检测结果；该方法可做到现网流量深度合成信息的实时检测，并为了提高文件检测效率，减轻检测端压力，对数据进行去重处理，整体检测流程数据流转思路明确，可扩展至对于其他类型文件的检测，检测方法的普适性较强。

Description

基于IDC机房双向流量的深度合成音频检测方法及系统

技术领域

本发明涉及网络通信技术领域，更具体地，涉及一种基于IDC机房双向流量的深度合成音频检测方法及系统。

背景技术

IDC (Internet Data Center) 机房是专门为网络数据存储、处理和传输而设计的数据中心。IDC机房通常由一系列服务器、存储设备、网络设备、电力设备、空调设备等组成。IDC机房的原始流量指的是通过流量探针对IDC机房实时采集而获得的双向流量，该双向流量包括加密流量和非加密流量两部分。现有的流量采集还原技术仅能够针对非加密流量进行协议解析和文件还原，无法处理加密流量，因此在IDC机房双向流量检测中将缺少大部分的加密流量，不能实现全网流量的监控覆盖。

目前采用深度合成检测技术检测IDC机房流量中的伪造信息，但现有深度合成检测技术存在诸多问题：

1）该检测技术使用的验证数据一般来源于实验室环境，对于现网伪造内容的检测缺乏实时性。受实验室部署环境限制，检测设备规模不足，检测样本量有限且合成手段多样性不足，难以真实的反映出深度合成检测技术在现网环境中的能力水平；

2）在检测过程中，面对海量数据样本，丰富的样本格式，在缺少样本去重环节的情况下，该检测技术存在检测耗时长，检测效率低及检测资源浪费等问题，无法有效的实时监控现网的流量；

3）在检测的过程中，采用的检测模型通常缺少数据预处理环节，若海量数据未经过数据的格式分类、静音检测等步骤，将导致整体检测步骤繁琐，增加检测复杂度，检测效率降低；

4）针对深度合成信息检测，常规的应用引擎种类单一，受检测引擎本身的训练数据、模型算法设计等影响，将导致检测结果准确性依据不充分。

因而，急需研发一种基于IDC机房双向流量的深度合成音频检测方法及系统以高效的解决上述存在的一个或多个问题。

发明内容

本发明的一个目的是提供一种基于IDC机房双向流量的深度合成音频检测方法及系统的新技术方案。

根据本发明的第一方面，提供了一种基于IDC机房双向流量的深度合成音频检测方法，所述方法包括：

步骤S1：按照预设采集策略获取现网IDC机房出口的原始流量数据，并对获取到的所述原始流量数据进行还原处理得到还原音频文件，其中所述原始流量数据包括加密流量数据和非加密流量数据；

步骤S2：基于预先建立的样本特征库对所述还原音频文件进行数据去重处理；

步骤S3：对经去重处理后的所述还原音频文件进行音频检测以得到检测结果。

可选地，在所述步骤S1中，所述按照预设采集策略采集现网IDC机房出口的原始流量数据具体包括：

当所述现网IDC机房出口的实时流量峰值小于预设流量阈值时，所述预设采集策略为实时采集方式；

当所述现网IDC机房出口的实时流量峰值大于所述预设流量阈值时，所述预设采集策略为轮巡采集方式。

可选地，在所述步骤S1中，所述对获取到的所述原始流量数据进行还原处理得到还原音频文件具体包括：

步骤S11：对获取到的所述原始流量数据进行数据解析处理以得到非加密解析输出数据，所述非加密解析输出数据包括传输层为IPv4协议的非加密流量数据和IPv6协议的非加密流量数据；

步骤S12：对所述非加密解析输出数据进行协议识别处理以得到数据处理输出数据，所述数据处理输出数据包括应用层为IPv4协议的加密流量数据和非加密流量数据、IPv6协议的加密流量数据和非加密流量数据，以及相应的流量协议标签记录；

步骤S13：基于从所述数据处理输出数据中提取的用户关联标识和文件信息对所述数据处理输出数据进行类型识别，以得到类型识别输出数据；

步骤S14：利用预设的文件类型识别模型对所述类型识别输出数据及进行处理以得到所述还原音频文件。

可选地，在所述步骤S2中，基于预先建立的样本特征库对所述还原音频文件进行数据去重处理具体包括：

步骤S21：提取所述还原音频文件的特征值得到第一样本特征值；

步骤S22：依据所述第一样本特征值在所述样本特征库中进行查询处理；

步骤S23：如果所述样本特征库中存在与所述第一样本特征值相同的样本特值，则确定所述还原音频文件为重复数据，同时仅更新所述样本特征库相应的样本特征值的命中次数；

步骤S24：如果所述样本特征库中不存在与所述第一样本特征值相同的样本特值，则根据所述还原音频文件构造新样本特征结构体数据并存储至所述样本特征库中。

可选地，所述步骤S24还包括：

重新提取所述还原音频文件的特征值得到第二样本特征值；

利用基于内容的同源音频检测算法检测所述样本特征库中是否存在与所述第二样本特征值同源的样本特征值；

如果所述样本特征库中存在与所述第二样本特征值同源的样本特征值，则确定所述还原音频文件为重复数据，同时仅更新所述样本特征库相应的样本特征值的命中次数；

如果所述样本特征库中不存在与所述第二样本特征值同源的样本特征值，则根据所述还原音频文件构造新样本特征结构体数据并存储至所述样本特征库中。

可选地，所述步骤S3具体包括：

步骤S31：对经去重处理后的所述还原音频文件进行预处理，其中所述预处理包括格式规整、静音检测以及切分的一种或多种；

步骤S32：对经去重和预处理后的所述还原音频文件进行音频检测以得到检测结果。

可选地，对所述还原音频文件进行音频检测以得到检测结果具体包括：

通过声纹识别算法对所述还原音频文件进行检测以得到第一检测结果，所述第一检测结果为：所述还原音频文件属于注册人或者所述还原音频文件属于非注册人；

采用语音伪造识别算法对将所述还原音频文件进行识别以得到第二检测结果，所述第二检测结果为：所述还原音频文件为真实语音或者所述还原音频文件为伪造语音。

根据本发明的第二方面，提供了一种基于IDC机房双向流量的深度合成音频检测系统，所述系统包括：

流量还原模块，被配置为，按照预设采集策略获取现网IDC机房出口的原始流量数据，并对获取到的所述原始流量数据进行还原处理得到还原音频文件，其中所述原始流量数据包括加密流量数据和非加密流量数据；

数据去重模块，被配置为，基于预先建立的样本特征库对所述还原音频文件进行数据去重处理；

音频检测引擎模块，被配置为，对经去重处理后的所述还原音频文件进行音频检测以得到检测结果。

根据本发明的第三方面，提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现如上述本发明第一方面所述的一种基于IDC机房双向流量的深度合成音频检测方法中的步骤。

根据本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述本发明第一方面所述的一种基于IDC机房双向流量的深度合成音频检测方法中的步骤。

根据本发明公开的一个实施例，具有如下有益效果：

本发明的基于IDC机房双向流量的深度合成音频检测方法为了获取全流量数据采用不同的采集策略进行数据采集，可做到现网流量深度合成信息的实时检测，并为了提高文件检测效率，减轻检测端压力，在数据去重处理中使用样本特征值去重和基于内容的同源音频文件特征去重的双重去重机制；整体检测流程数据流转思路明确，可扩展至对于其他类型文件的检测，检测方法的普适性较强。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法的流程示意图；

图2为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中步骤S1的流程示意图；

图3为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中步骤S2的流程示意图；

图4为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中步骤S3的流程示意图；

图5为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中步骤S1的具体实现过程流程图；

图6为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中数据解析的具体实现过程示意图；

图7为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中数据处理的具体实现过程示意图；

图8为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中文件类型识别的具体实现过程示意图；

图9为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中文件还原的具体实现过程示意图；

图10为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中数据去重的具体实现过程示意图；

图11为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中样本特征查询的具体实现过程示意图；

图12为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中样本特征入库更新的具体实现过程示意图；

图13为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中属于预处理的具体实现过程示意图；

图14为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测方法中音频检测的具体实现过程示意图；

图15为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测系统的结构框图；

图16为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测系统中模块间交互示意图一；

图17为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测系统中数据接入示意图；

图18为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测系统中数据存储示意图；

图19为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测系统中数据转发示意图；

图20为根据实施例提供的一种基于IDC机房双向流量的深度合成音频检测系统中模块间交互示意图二；

图21为一种电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

参见图1所示，本实施例提供了一种基于IDC机房双向流量的深度合成音频检测方法，所述方法包括：

步骤S1：按照预设采集策略获取现网IDC机房出口的原始流量数据，并对获取到的原始流量数据进行还原处理得到还原音频文件，其中原始流量数据包括加密流量数据和非加密流量数据；

步骤S2：基于预先建立的样本特征库对还原音频文件进行数据去重处理；

步骤S3：对经去重处理后的还原音频文件进行音频检测以得到检测结果。

可选地，本实施例的基于IDC机房双向流量的深度合成音频检测方法在步骤S1中，按照预设采集策略采集现网IDC机房出口的原始流量数据具体包括：

当现网IDC机房出口的实时流量峰值小于预设流量阈值时，预设采集策略为实时采集方式；

当现网IDC机房出口的实时流量峰值大于预设流量阈值时，预设采集策略为轮巡采集方式。

需要说明的是，本实施例中预设流量阈值根据实际需要确定，例如可以为60Gbps，在此不一一例举说明。

具体的，本实施例中可根据机房实际实时流量的大小不同采用不同的采集策略进行流量数据采集，本实施例中主要有以下两种实现方式：

1）对于小流量机房（实时流量峰值小于60Gbps），全量流量实时采集方式还原IDC出口原始流量数据。

2）对于大流量机房（实时流量峰值大于60Gbps），按照流量轮巡采集方式，每时间段对机房有限出口带宽流量进行处理，经过预定轮询时长间隔后实现机房全出口带宽流量覆盖。

另外，对于加密流量，还可通过网络爬虫的方式获取加密域名的流量信息，实现海量加密数据的爬取。从而使得深度合成检测范围最大限度的覆盖IDC机房流量。

可选地，参见图2所示，本实施例的基于IDC机房双向流量的深度合成音频检测方法在步骤S1中，对获取到的原始流量数据进行还原处理得到还原音频文件具体包括：

步骤S11：对获取到的原始流量数据进行数据解析处理以得到非加密解析输出数据，非加密解析输出数据包括传输层为IPv4协议的非加密流量数据和IPv6协议的非加密流量数据；

步骤S12：对非加密解析输出数据进行协议识别处理以得到数据处理输出数据，数据处理输出数据包括应用层为IPv4协议的加密流量数据和非加密流量数据、IPv6协议的加密流量数据和非加密流量数据，以及相应的流量协议标签记录；

步骤S13：基于从数据处理输出数据中提取的用户关联标识和文件信息对数据处理输出数据进行类型识别，以得到类型识别输出数据；

步骤S14：利用预设的文件类型识别模型对类型识别输出数据及进行处理以得到还原音频文件。

需要说明的是，本实施例中预设的文件类型识别模型为预先建立的文件类型识别算法或者一系列文件类型识别代码操作程序。

具体的，参见图5所示，本实施例的步骤S1除了数据采集之外还包括对原始流量数据的数据解析、数据处理、文件类型识别以及文件还原。

如图6所示，本实施例中步骤S11对原始流量数据进行数据解析的具体过程为：识别出传输层为IPv4和IPv6协议的流量数据；识别出传输层为加密和非加密的流量数据；对得到的传输层为非加密的流量数据，采用IP分片、TCP分段等包重组技术对异常包(如IP包/TCP包重传、乱序、分片（段）、丢包、丢包等)进行重组。

如图7所示，本实施例中对得到的非加密解析输出数据，进行协议识别，具体过程为：识别出应用层为IPv4和IPv6协议的流量数据；识别出应用层为加密和非加密的流量数据；分别加载相应的协议识别算法进行识别，并对相关流量进行协议标签记录。

如图8所示，本实施例中对解析和处理后得到的数据，进一步分析并进行文件类型识别，具体过程为：用户业务记录流量数据依据用户关联标识进行数据流关联；提取需要还原的文件信息（如文件名称、文件大小等）；对文件信息做包头校验；根据文件类型缓存所有数据包；按照指定格式对缓存的数据包进行重组，从而识别出数据的文件类型。

如图9所示，本实施例中对文件类型识别后得到的数据，通过加载文件识别类型模型，匹配得到音频mp3、m4a、wav等文件格式，重组相应的文件；输出不同类型的文件集合及日志。

可选地，参见图3所示，本实施例的基于IDC机房双向流量的深度合成音频检测方法在步骤S2中，基于预先建立的样本特征库（简称数据库）对还原音频文件进行数据去重处理具体包括：

步骤S21：提取还原音频文件的特征值得到第一样本特征值；

步骤S22：依据第一样本特征值在样本特征库中进行查询处理；

步骤S23：如果样本特征库中存在与第一样本特征值相同的样本特值，则确定还原音频文件为重复数据，同时仅更新样本特征库相应的样本特征值的命中次数；

步骤S24：如果样本特征库中不存在与第一样本特征值相同的样本特值，则根据还原音频文件构造新样本特征结构体数据并存储至样本特征库中。

可选地，本实施例的基于IDC机房双向流量的深度合成音频检测方法中步骤S24还包括：

重新提取还原音频文件的特征值得到第二样本特征值；

利用基于内容的同源音频检测算法检测样本特征库中是否存在与第二样本特征值同源的样本特征值；

如果样本特征库中存在与第二样本特征值同源的样本特征值，则确定还原音频文件为重复数据，同时仅更新样本特征库相应的样本特征值的命中次数；

如果样本特征库中不存在与第二样本特征值同源的样本特征值，则根据还原音频文件构造新样本特征结构体数据并存储至样本特征库中。

具体的，如图10所示，本实施例的基于IDC机房双向流量的深度合成音频检测方法中数据去重处理以样本特征排重技术为基础，对还原后的音频文件的样本特征值进行去重后，叠加使用基于内容的同源音频检测算法对因多因素导致还原文件类似但不重复得情况再次过滤去重，从而提高过检文件的去重率，降低检测引擎的检测压力。

如图11所示，本实施例在数据去重中首先进行样本特征查询，具体过程为：首先进行数据完整性校验；若数据完整，提取音频文件的样本特征值并查询数据库记录（即在样本特征库查询）；如果查询记录存在则在样本特征库中更新对应的命中次数，若不存在，则插入样本特征值入库；将命中结果返回，流程结束。

需要说明的是，本实施例中采用数据的批量查询能力，以此来提升整体的查询效率。批量查询是通过数据获取模块循环获取数据，存入待查询样本特征数组，当数组数量达到一定阈值时，将数组中的样本特征批量送入数据库查询。

如图12所示，本实施例在数据去重中针对查询未命中的样本特征值，构造新样本特征结构体数据入库存储；对于命中的样本特征值，确定为重复样本值，仅更新对应样本特征值的命中次数等相关信息。

另外，为了便于快速获取文件的真伪情况，样本特征库记录每个样本特征值对应文件的真伪状态，可根据后续音频检测处理获得检测结果，进行更新样本特征值对应文件的真伪状态的操作。

本实施例中样本特征查询和入库更新性能与样本特征库的规模密切相关。为保障数据处理性能，需要以样本特征库规模为阈值，定期清理老旧数据以控制样本特征库规模，具体的，样本特征库中样本特征删除的策略综合考虑数据查询时的命中率和更新时间间隔两大因素，优先删除命中率低且超过时间阈值的数据。

本实施例中，在完成样本特征的一次去重后还进行样本特征的二次去重，具体的，为优化因网络问题、播放问题等多因素导致的同文件不同样本特征的情况，提高检测效率，在第一次样本特征去重结果的基础上，叠加基于内容的同源音频检测方法，最大效率的提高检测文件的去重率，降低过检文件数量。

需要说明的是，本实施例中基于内容的同源音频检测算法为：对查询音频文件进行特征提取，并生成音频特征序列；逐个对这个序列中的特征点进行检索；根据特征点的描述算子以及数据库搭建时生成的索引，从数据库中获取查询特征点的匹配样本特征点集；由这个特征点集，计算匹配对的相似性，从而对数据库中所有的可能的匹配音频进行相似性计算，最终输出匹配音频结果。

可选地，参见图4所示，本实施例的基于IDC机房双向流量的深度合成音频检测方法中步骤S3具体包括：

步骤S31：对经去重处理后的还原音频文件进行预处理，其中预处理包括格式规整、静音检测以及切分的一种或多种；

步骤S32：对经去重和预处理后的还原音频文件进行音频检测以得到检测结果。

可选地，本实施例的基于IDC机房双向流量的深度合成音频检测方法中对还原音频文件进行音频检测以得到检测结果具体包括：

通过声纹识别算法对还原音频文件进行检测以得到第一检测结果，第一检测结果为：还原音频文件属于注册人或者还原音频文件属于非注册人；

采用语音伪造识别算法对将还原音频文件进行识别以得到第二检测结果，第二检测结果为：还原音频文件为真实语音或者还原音频文件为伪造语音。

具体的，本实施例中对现网各种音频数据（包括mp3、m4a、wav等）进行统一格式转换得到转码后的音频数据流，将多声道统一拆分成单声道后，进行VAD切分（音频时长切分），之后送入后续的音频检测流程，具体过程可为：先利用语音检测算法对音频文件进行语音质检，对过低信噪比和极短音频进行过滤；对过滤后的音频文件，通过声纹检测算法自动判断是否为注册人（即特定人）和非注册人（即非特定人），从而根据不同的接口任务调用不同的检测算法；若声纹检测结果判断为注册人即调用特定人检测算法，若判断为非注册人即调用非特定人检测算法，同步进行真伪音频的检测；接着按照约定的结果协议将得到的检测结果进行封装并转到接口日志；最后接口日志以kafka生产方式将响应结果的推送到消息队列，完成业务流程并上报处理结果。

其中，参见图13所示，对还原音频文件的数据预处理：对于采集到的音频直接进行预处理；对于来自视频的音频，首先使用工具抽取其音轨，再进行预处理。预处理过程包括对采集到的音频进行格式规整、静音检测以及切分，具体过程为：数据接入：音频检测算法以kafka消费拉取待处理的音频数据；音频检测算法对接收到的音频数据进行解析，得到音频数据和属性信息；多线程多节点模式下，为避免数据重复、多请求offset共享互斥机制复杂性，各节点、线程均拉取最新被推送的请求。文件解码：对现网音频数据（包括mp3、m4a、wav等）提取后规整为单声道采样率为16k的音频，并以Wav格式进行存储。VAD切分：在文件解码的基础上对语音进行质检，对过低信噪比和极短音频进行过滤；对满足步质检条件的音频进行VAD切分，并将其保存为长度不超过限定的音频片段，供音频检测引擎识别。

需要说明的是，VAD切分算法即语音端点检测(voice detection activity，简称VAD)，用于检测人声的状态，即静默状态还是激活状态，这样能够保证送进语音识别模型的是一句完整语音数据，排除噪音的干扰。以webrtc为例，检测原理是该算法主要原理是将信号在频谱上进行子带划分为80 Hz ~ 250Hz，250 Hz~ 500Hz，500 Hz~ 1 K，1 K ~ 2 K，2 K~ 3K，3 K ~4 KHz，6个频带，计算每个频带能量为特征；通过假设检验，构建了噪声和语音两个假设，从而对每个子带构建由2个高斯分布组合的噪声和语音的混合高斯分布模型。通过极大似然估计对模型进行自适应学习优化，并通过概率比判决推断。

本实施例设置了音频预处理环节。通过对采集到的音频直接进行预处理，对于来自视频的音频，抽取音轨后，再进行预处理。将采集到的音频的声道、采样率、格式进行规整后再做音频切分等工作，提高后续深度合成音频检测引擎的检测效率，优化检测判决流程。

参见图14所示，对还原音频文件的音频检测具体过程为：首先进行语音分离，利用音频检测算法对切分后的音频文件中说话人个数进行判断。如果人数为一人，不做说话人分离进入下一环节，如果说话人数大于一人，进行说话人分离进入下一环节。之后进行声纹识别，音频检测算法可对注册人物进行声纹识别，结合语音伪造识别处理，得出特定人与非特定人的相关真实语音与伪造语音。最后是输出检测结果。

另外，本实施例可依据第三方数据接口，对外来检测需求进行处理，丰富深度合成音频检测方法的检测场景，可更大限度的发挥检测引擎的监控能力。

综上所述，本发明实施例的基于IDC机房双向流量的深度合成音频检测方法中为了获取全流量数据采用不同的采集策略进行数据采集，可做到现网流量深度合成信息的实时检测，并为了提高文件检测效率，减轻检测端压力，在数据去重处理中使用样本特征值去重和基于内容的同源音频文件特征去重的双重去重机制；整体检测流程数据流转思路明确，可扩展至对于其他类型文件的检测，检测方法的普适性较强。

实施例2：

参见图15所示，本实施例提供了一种基于IDC机房双向流量的深度合成音频检测系统1，所述系统1包括：

流量还原模块10，被配置为，按照预设采集策略获取现网IDC机房出口的原始流量数据，并对获取到的原始流量数据进行还原处理得到还原音频文件，其中原始流量数据包括加密流量数据和非加密流量数据；

数据去重模块20，被配置为，基于预先建立的样本特征库对还原音频文件进行数据去重处理；

音频检测引擎模块30，被配置为，对经去重处理后的还原音频文件进行音频检测以得到检测结果。

可选地，本实施例的基于IDC机房双向流量的深度合成音频检测系统1还包括数据存储与转发模块，数据存储与转发模块主要功能是持久化存储还原音频文件，并通知音频检测引擎模块及时检测处理，并接收音频检测引擎模块反馈的检测结果，最终上报上级平台。数据去重模块与流量还原模块、数据存储与转发模块均有交互，交互关系如下图16所示。数据去重模块对外提供两个服务接口：给流量还原模块提供样本特征查询和批量同步接口，在特征查询后将命中结果，由流量还原模块在还原出文件时调用，实时返回查询结果；给数据存储与转发模块提供状态更新接口，由数据存储与转发模块接收到检测结果时调用，将检测结果更新到样本特征库。

具体的，本实施例中数据存储与转发模块包括数据接入单元、数据转发单元、数据结构化存储单元、数据非结构化存储单元、结构化数据检索单元、非结构化数据下载单元以及结构化数据下载单元等。

参见图17所示，数据接入：

步骤1.1：文件实时监听流量还原模块监控日志目录中的元数据文件（流量还原后的日志）；

步骤1.2：通过步骤1.1的监测结果，识别到新增元数据文件后，采集解析元数据文件，获取元数据文件地址；

步骤1.3：根据步骤1.2获得的元数据文件地址判断是否存在可下载音视频图像文件；

步骤1.4：通过步骤1.3得到判断结果。如可下载则将该元数据转发给数据存储模块，并将接入日志转发给日志系统；

步骤1.5：若步骤1.4成立，将已读取元数据文件删除；

步骤1.6：通过步骤1.3得到判断结果。如文件无法下载则将该元数据接入日志直接转发给日志系统。

参见图18所示，本数据存储：

步骤2.1：结构化数据存储单元接收来自数据接入单元的元数据（还原日志）及数据转发单元的引擎请求和响应数据；

步骤2.2：按照数据治理标准规范及数据架构设计，将步骤2.1的接入数据存储至分布式关系数据库。

步骤2.3：在步骤2.1数据结构化存储单元接收元数据后，将元数据FTP地址信息发送给结构化数据下载单元下载具体的音频文件；

步骤2.4：将步骤2.3下载的文件通过非结构化数据存储至对象存储中。

步骤2.5：存储的数据支持通过结构化数据检索单元查询检索以及通过非结构化数据下载单元高并发随机读取下载。

本实施例的音频检测引擎模块具体包括引擎处理通知单元、引擎响应解析单元、各音频检测引擎单元以及命中结果上报单元。

参见图19所示，数据转发：

步骤3.1：引擎处理通知单元接收到步骤2.5中数据存储与转发模块发出的音频数据上传完成通知后，下发指令通知各音频检测引擎单元检测（即音频检测引擎集群）；

步骤3.2：音频检测引擎单元经过特定人、非特定人的语音检测后结果统一反馈至引擎响应解析单元；

步骤3.3：引擎响应解析单元将解析后的鉴别数据统一发送至数据存储与转发模块入库，同时将解析结果推送给命中结果上报单元，如有检测命中结果则上报上级平台。

参见图20所示，模块间交互：

步骤4.1：数据存储与转发模块接收流量还原文件后，上传至分布式存储集群；

步骤4.2：在步骤4.1文件存储成功后通过数据存储与转发模块通知音频检测引擎集群及时识别处理；

步骤4.3：数据存储与转发模块接收步骤4.2的音频检测引擎集群的反馈结果，对于命中伪造数据的记录转发至上级平台。

步骤4.4：数据存储与转发模块支持来自于第三方途径的音频文件接入，支持外来音频文件检测；

步骤4.5：重复步骤4.2，通过数据存储与转发模块通知音频检测引擎集群及时识别处理；

步骤4.6：接收步骤4.5的音频检测引擎集群的反馈结果。对于命中伪造数据的记录转发至上级平台。

综上所述，本实施例的基于IDC机房双向流量的深度合成音频检测系统针对深度合成语音文件的处理专门设计了流量还原模块、数据存储与转发模块、数据去重模块以及音频检测引擎模块，以进行全流程处理，可做到现网流量深度合成信息的实时检测，提高了文件检测效率，减轻了检测端压力，可扩展至对于其他类型文件的检测，普适性较强。

实施例3：

本发明公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明公开实施例1中任一项的一种基于IDC机房双向流量的深度合成音频检测方法中的步骤。

图21为根据本发明实施例的一种电子设备的结构图，如图21所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图21中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

实施例4：

本发明公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本发明的实施例1中任一项的一种基于IDC机房双向流量的深度合成音频检测方法中的步骤。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

虽然已经通过例子对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种基于IDC机房双向流量的深度合成音频检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于IDC机房双向流量的深度合成音频检测方法，其特征在于，在所述步骤S1中，所述按照预设采集策略采集现网IDC机房出口的原始流量数据具体包括：

3.根据权利要求1所述的基于IDC机房双向流量的深度合成音频检测方法，其特征在于，在所述步骤S1中，所述对获取到的所述原始流量数据进行还原处理得到还原音频文件具体包括：

4.根据权利要求1所述的基于IDC机房双向流量的深度合成音频检测方法，其特征在于，在所述步骤S2中，基于预先建立的样本特征库对所述还原音频文件进行数据去重处理具体包括：

5.根据权利要求4所述的基于IDC机房双向流量的深度合成音频检测方法，其特征在于，所述步骤S24还包括：

重新提取所述还原音频文件的特征值得到第二样本特征值；

6.根据权利要求1所述的基于IDC机房双向流量的深度合成音频检测方法，其特征在于，所述步骤S3具体包括：

7.根据权利要求1或6所述的基于IDC机房双向流量的深度合成音频检测方法，其特征在于，对所述还原音频文件进行音频检测以得到检测结果具体包括：

8.一种基于IDC机房双向流量的深度合成音频检测系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至7中任一项所述的一种基于IDC机房双向流量的深度合成音频检测方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的一种基于IDC机房双向流量的深度合成音频检测方法中的步骤。