CN113407494A

CN113407494A - 一种违规文件检测方法、装置及设备

Info

Publication number: CN113407494A
Application number: CN202110585154.1A
Authority: CN
Inventors: 刘思瀚; 何光宇; 徐石成; 孟健
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-17
Anticipated expiration: 2041-05-27
Also published as: CN113407494B

Abstract

本申请实施例公开了一种违规文件检测方法、装置及设备，通过将待检测文件划分为多个分片文件，利用分片文件和敏感片段之间的相关性确定第一目标分片文件、第一可达敏感片段和第二目标分片文件；利用与第一目标分片文件和第二分片文件相关联的敏感片段的敏感度阈值分别得到第一目标分片文件和第二目标分片文件的敏感度值，将第一目标分片文件和第二目标分片文件的敏感度值相加得到第一求和结果，基于第一求和结果确定待检测文件是否为违规文件。可以基于分片文件实现对待检测文件整体是否是违规文件的检测，能够对分布式存储的文件进行有效地违规检测，使得更为全面地检测违规文件，能够提高违规文件检测的准确性，得到有效并且准确的检测结果。

Description

一种违规文件检测方法、装置及设备

技术领域

本申请涉及数据处理领域，具体涉及一种违规文件检测方法、装置及设备。

背景技术

违规文件是指包含不符合法律法规的信息的文件。在利用互联网进行数据传输时，通常需要检查传输的文件是否为违规文件，并对确定的违规文件进行对应的删除、屏蔽等处理，防止违规的信息进行传输。

目前，通常采用人工和软件结合的方式检查违规文件，并将对应的文件的特征信息进行储存，利用文件的特征信息实现对其他的违规文件检测。但是，现有的违规文件检测方法不能对部分储存类型的文件进行检测。因此，如何有效地对违规文件进行检测是亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种违规文件检测方法、装置及设备，能够通过确定分片文件的敏感值实现对待检测文件的整体是否违规进行有效并且准确地检测。

为解决上述问题，本申请实施例提供的技术方案如下：

一种违规文件检测方法，所述方法包括：

获取待检测文件，将所述待检测文件划分为多个分片文件；

将在所述分片文件中查找到的与至少一个敏感片段的相关性大于第一阈值的分片文件确定为第一目标分片文件；

针对每一所述第一目标分片文件，将与该第一目标分片文件的相关性大于第一阈值的各个敏感片段的敏感度阈值相加，得到该第一目标分片文件的敏感度值；

将在所述敏感片段中查找到的与至少一个所述第一目标分片文件的相关性大于第二阈值的敏感片段确定为第一可达敏感片段；

将在所述分片文件中查找到的与至少一个所述第一可达敏感片段的相关性大于第三阈值的分片文件确定为第二目标分片文件；

针对每一所述第二目标分片文件，将与该第二目标分片文件的相关性大于第三阈值的各个第一可达敏感片段的敏感度阈值相加，得到该第二目标分片文件的敏感度值；

将各个所述第一目标分片文件以及各个所述第二目标分片文件的敏感度值相加得到第一求和结果；

如果所述第一求和结果大于敏感度阈值，确定所述待检测文件为违规文件。

在一种可能的实现方式中，所述方法还包括：

如果在所述敏感片段中未查找到与至少一个所述第一目标分片文件的相关性大于第二阈值的敏感片段，或者，在所述分片文件中未查找到与至少一个所述第一可达敏感片段的相关性大于第三阈值的分片文件，将各个所述第一目标分片文件的敏感度值相加得到第二求和结果；

如果所述第二求和结果大于敏感度阈值，确定所述待检测文件为违规文件。

在一种可能的实现方式中，在将各个所述第一目标分片文件以及各个所述第二目标分片文件的敏感度值相加得到第一求和结果之前，所述方法还包括：

将在所述敏感片段中查找到的与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段确定为第二可达敏感片段；

将在所述分片文件中查找到的与至少一个所述第二可达敏感片段的相关性大于第五阈值的分片文件重新确定为第二目标分片文件；

针对每一重新确定的第二目标分片文件，将与该第二目标分片文件的相关性大于第五阈值的各个第二可达敏感片段的敏感度阈值相加，得到该第二目标分片文件的敏感度值；

重新执行将在所述敏感片段中查找到的与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段确定为第二可达敏感片段以及后续步骤，直到在所述敏感片段中未查找到与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段。

在一种可能的实现方式中，所述方法还包括：

如果在所述敏感片段中未查找到与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段，或者，在所述分片文件中未查找到与至少一个所述第二可达敏感片段的相关性大于第五阈值的分片文件，触发执行将各个所述第一目标分片文件以及各个所述第二目标分片文件的敏感度值相加得到第一求和结果以及后续步骤。

在一种可能的实现方式中，所述方法还包括：

如果在所述敏感片段中未查找到与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段，将该次查找得到的至少一个第二目标分片文件添加为所述敏感片段。

在一种可能的实现方式中，所述方法还包括：

如果在所述分片文件中未查找到与至少一个敏感片段的相关性大于第一阈值的分片文件，确定所述待检测文件为合规文件。

在一种可能的实现方式中，目标敏感片段的敏感度阈值是根据所述目标敏感片段在违规文件中的存在概率、所述目标敏感片段在合规文件中的存在概率、所述违规文件的概率以及所述合规文件的概率确定得到的；所述目标敏感片段为所述敏感片段中的任一个。

一种违规文件检测装置，所述装置包括：

获取单元，用于获取待检测文件，将所述待检测文件划分为多个分片文件；

查找单元，用于将在所述分片文件中查找到的与至少一个敏感片段的相关性大于第一阈值的分片文件确定为第一目标分片文件；

第一计算单元，用于针对每一所述第一目标分片文件，将与该第一目标分片文件的相关性大于第一阈值的各个敏感片段的敏感度阈值相加，得到该第一目标分片文件的敏感度值；

第一确定单元，用于将在所述敏感片段中查找到的与至少一个所述第一目标分片文件的相关性大于第二阈值的敏感片段确定为第一可达敏感片段；

第二确定单元，用于将在所述分片文件中查找到的与至少一个所述第一可达敏感片段的相关性大于第三阈值的分片文件确定为第二目标分片文件；

第二计算单元，用于针对每一所述第二目标分片文件，将与该第二目标分片文件的相关性大于第三阈值的各个第一可达敏感片段的敏感度阈值相加，得到该第二目标分片文件的敏感度值；

第三计算单元，用于将各个所述第一目标分片文件以及各个所述第二目标分片文件的敏感度值相加得到第一求和结果；

第三确定单元，用于如果所述第一求和结果大于敏感度阈值，确定所述待检测文件为违规文件。

一种违规文件检测设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的违规文件检测方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述的违规文件检测方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例提供的一种违规文件检测方法、装置及设备，通过将待检测文件划分为多个分片文件，并利用分片文件和敏感片段之间的相关性确定第一目标分片文件、第一可达敏感片段和第二目标分片文件；并利用与第一目标分片文件和第二分片文件相关联的敏感片段的敏感度阈值分别得到第一目标分片文件和第二目标分片文件的敏感度值，将第一目标分片文件和第二目标分片文件的敏感度值相加得到第一求和结果，利用第一求和结果确定待检测文件是否为违规文件。通过对待检测文件进行分片，得到分片文件，可以基于分片文件实现对待检测文件整体是否是违规文件的检测，能够对分布式存储的文件进行有效地违规检测，使得更为全面地检测违规文件。并且，基于分片文件与敏感片段之间的相关性，能够提高违规文件检测的准确性，得到有效并且准确的检测结果。

附图说明

图1为本申请实施例提供的示例性应用场景的框架示意图；

图2为本申请实施例提供的一种违规文件检测方法的流程图；

图3为本申请实施例提供的一种违规文件检测的示意图；

图4为本申请实施例提供的另一种违规文件检测的示意图；

图5为本申请实施例提供的另一种违规文件检测的示意图；

图6为本申请实施例提供的一种违规文件检测装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为了便于理解和解释本申请实施例提供的技术方案，下面将先对本申请的背景技术进行说明。

在对传统的违规文件的检测方法进行研究后发现，现有的违规文件检测是通过人工和软件结合的方式检测文件，将确定的违规文件的相关信息储存在违规文件记录表中，并利用违规文件记录表进行违规文件的查询和确定，最终实现违规文件的屏蔽和删除。比如，基于文件名称、文件的哈希以及文件的内容对文件进行检测。但是，此类方法仅适用于对整体文件是否违规进行检测，对于分布式传输或者储存的文件并不适用。例如，在利用区块链技术进行文件传输时，通常会采用数据分片的形式，对文件划分的分片文件进行传输和储存。现有的违规文件检测方法只能对文件整体进行检测，而分片文件是否违规并不能与待检测文件整体是否违规相一致，难以实现利用分片文件对整体的待检测文件是否违规进行检测。

基于此，本申请实施例提供了一种违规文件检测方法、装置及设备，通过将待检测文件划分为多个分片文件，并利用分片文件和敏感片段之间的相关性确定第一目标分片文件、第一可达敏感片段和第二目标分片文件；并利用与第一目标分片文件和第二分片文件相关联的敏感片段的敏感度阈值分别得到第一目标分片文件和第二目标分片文件的敏感度值，将第一目标分片文件和第二目标分片文件的敏感度值相加得到第一求和结果，利用第一求和结果确定待检测文件是否为违规文件。通过对待检测文件进行分片，得到分片文件，可以基于分片文件实现对待检测文件整体是否是违规文件的检测，能够对分布式存储的文件进行有效地违规检测，使得更为全面地检测违规文件。并且，基于分片文件与敏感片段之间的相关性，能够提高违规文件检测的准确性，得到有效并且准确的检测结果。

为了便于理解本申请实施例提供的违规文件检测方法，下面结合图1所示的场景示例进行说明。参见图1，该图为本申请实施例提供的示例性应用场景的框架示意图。

获取需要进行违规检测的待检测文件，并将待检测文件划分为多个分片文件。例如，将待检测文件划分为3个分片文件。将与预先确定的敏感片段中至少一个敏感片段相关性大于第一阈值的分片文件作为第一目标分片文件。图1中C₁、C₂和C₃为预先确定的敏感片段，F₁为与C₁和C₂的相关性大于第一阈值的分片文件，F₂为与C₂和C₃的相关性大于第一阈值的分片文件，将F₁和F₂确定为第一目标分片文件。并利用C₁、C₂和C₃的敏感度阈值确定F₁与F₂的敏感度值。在敏感片段中查找得到与F₁和F₂相关性大于第二阈值的敏感片段C₄。继续在分片文件中查找与C₄相关性大于第三阈值的敏感片段F₃。基于C₄的敏感度阈值，确定F₃的敏感度值。利用F₁、F₂和F₃的敏感度值，确定待检测文件整体是否为违规文件，得到对应的检测结果。

本领域技术人员可以理解，图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

为了便于理解本申请，下面结合附图对本申请实施例提供的违规文件检测方法进行说明。

参见图2，该图为本申请实施例提供的一种违规文件检测方法的流程图，如图2所示，该方法可以包括S201-S208：

S201：获取待检测文件，将待检测文件划分为多个分片文件。

待检测文件是需要确定是否符合法律法规的文件。具体可以是互联网中传输或者储存的文件。

将获取的待检测文件划分为多个分片文件，各个分片文件为待检测文件的一部分。各个分片文件之间具有一定的相关性，将分片文件按照一定的相关性连接，可以得到还原的待检测文件。

本申请实施例对于将待检测文件划分为多个分片文件的具体实现方式不进行限定。

S202：将在分片文件中查找到的与至少一个敏感片段的相关性大于第一阈值的分片文件确定为第一目标分片文件。

敏感片段为预先确定的违规文件的特征片段。敏感片段可以是对已确定为违规文件的文件进行处理后得到的。

分片文件与部分敏感片段可能具有相关性。分片文件与敏感片段的相关性可以是基于分片文件与敏感片段具有的共同的特征确定的。例如，在当分片文件是视频文件时，与属于违规的视频文件的敏感片段的相关性较高。分片文件与敏感片段的相关性具体可以通过相关性的计算方法计算得到。

在得到的分片文件中查找与至少一个敏感片段的相关性大于第一阈值的分片文件。如果可以查找得到相关的分片文件，可以将查找得到的分片文件确定为第一目标分片文件。

需要说明的是，本申请实施例不限定第一目标分片文件的数量，第一目标分片文件的数量可以根据预先设定的第一目标分片文件的数量阈值确定。具体的，可以按照分片文件的顺序分别确定该分片文件是否为第一目标分片文件。在确定有预设的第一目标分片文件数量阈值的第一目标分片文件后，可以停止对后续的分片文件是否为第一目标分片文件的确定。例如，若具有10个敏感片段，5个分片文件，在查找得到3个，即预设的第一目标分片文件数量阈值，第一目标分片文件后，停止对第一目标分片文件的查找。

S203：针对每一第一目标分片文件，将与该第一目标分片文件的相关性大于第一阈值的各个敏感片段的敏感度阈值相加，得到该第一目标分片文件的敏感度值。

各个敏感片段具有对应的敏感度阈值，表示该敏感片段的敏感程度。将敏感片段中的任一个作为目标敏感片段。目标敏感片段的敏感度阈值是根据目标敏感片段在违规文件中的存在概率、目标敏感片段在合规文件中的存在概率、违规文件的概率以及合规文件的概率确定得到的。具体可以通过下式计算得到：

其中，Pr(S|C)表示目标敏感片段C的敏感度阈值，Pr(C|S)表示违规文件中目标敏感片段C存在的概率，Pr(S)表示违规文件的概率，Pr(C|H)表示合规文件中目标敏感片段C存在的概率，Pr(H)表示合规文件的概率。

具体的，在大量历史被检测文件中，会检测出违规文件，其他文件则为合规文件。Pr(C|S)可以通过违规文件的数量以及全部违规文件中出现目标敏感片段C的总数量确定，Pr(S)可以通过违规文件的数量与全部历史被检测文件的数量确定，Pr(C|H)可以通过合规文件的数量以及全部合规文件中出现目标敏感片段C的总数量确定，Pr(H)可以通过合规文件的数量与全部历史被检测文件的数量确定。

通过贝叶斯方法来计算目标敏感片段的敏感度阈值，可以提高目标敏感片段敏感度阈值的准确性，进而提高确定违规文件的准确程度。

基于各个第一目标分片文件，将与该第一目标分片文件的相关性大于第一阈值的敏感片段的敏感度相加，得到该第一目标分片文件的敏感度值。例如，参见图1所示，F₁的敏感度值可以为C₁和C₂的敏感度阈值的和。

第一目标分片文件的敏感度值可以用于进行第一目标分片文件是否为敏感片段的判断，还可以用于对第一目标分片文件所属的待检测文件是否为违规文件的检测。

在一种可能的实现方式中，在得到第一目标分片文件的敏感度值之后，需要根据第一目标分片文件的敏感度值确定该第一目标分片文件是否是敏感片段。具体可以通过第一目标分片文件的敏感度值与预设的判断敏感片段的参数之间的大小关系确定。需要说明的是，待检测文件划分得到的分片文件是敏感片段，并不表示该待检测文件一定是违规文件，需要基于分片文件的具体情况进行确定。若确定第一目标分片文件中具有敏感片段，并且具有其他未进行检测的分片文件，可以进一步确定与第一目标分片文件相关的敏感片段，实现后续的分片文件的检测。

S204：将在敏感片段中查找到的与至少一个第一目标分片文件的相关性大于第二阈值的敏感片段确定为第一可达敏感片段。

基于确定的第一目标分片文件，在敏感片段中继续查找与第一目标分片文件的相关性大于第二阈值的敏感片段。其中，第二阈值可以小于第一阈值。第一可达敏感片段的数量大于一个。第一可达敏感片段与各个第一目标分片文件的相关性均大于第二阈值。

将查找到的与第一目标分片文件相关性大于第二阈值的敏感片段确定为第一可达敏感片段。参见图1所示，其中C₄为第一可达敏感片段。第一可达敏感片段中不包括之前确定的与第一目标分片文件相关性大于第一阈值的敏感片段。在一种可能的实现方式中，可以在去除与第一目标分片文件相关性大于第一阈值的敏感片段后，再进行与第一目标分片文件相关性大于第二阈值的敏感片段的查找。

S205：将在分片文件中查找到的与至少一个第一可达敏感片段的相关性大于第三阈值的分片文件确定为第二目标分片文件。

第一可达敏感片段与第一目标分片文件之间具有相关性。再基于确定的第一可达敏感片段，确定与至少一个第一可达敏感片段相关性大于第三阈值的分片文件，即第二目标分片文件。以图1为例，其中，F₃为第二目标分片文件。

本申请实施例不限定第三阈值与第一阈值以及第二阈值之间的大小关系，例如，在一种可能的实现方式中，第三阈值可以与第一阈值相等。

第二目标分片文件中不包括第一目标分片文件。在一种可能的实现方式中，可以先在分片文件中将第一目标分片文件进行去除，在得到的分片文件中查找第二目标分片文件。

S206：针对每一第二目标分片文件，将与该第二目标分片文件的相关性大于第三阈值的各个第一可达敏感片段的敏感度阈值相加，得到该第二目标分片文件的敏感度值。

第二目标分片文件的敏感度值，是基于与该第二目标分片文件的相关性大于第三阈值的各个第一可达敏感片段的敏感度阈值确定的。具体可以通过将与该第二目标分片文件的相关性大于第三阈值的各个第一可达敏感片段的敏感度阈值相加得到的。例如，F₃的敏感度值为C₄的敏感度阈值。

同样的，第二目标分片文件的敏感度值，可以用于对第二目标分片文件是否为敏感片段进行判断，也可以用于对第二目标分片文件所属的待检测文件进行是否是违规文件的判断。

S207：将各个第一目标分片文件以及各个第二目标分片文件的敏感度值相加得到第一求和结果。

若无其他需要进行检测的分片文件，可以利用得到的第一目标分片文件和第二目标分片文件进行对待检测文件是否为违规文件的判断。

将各个第一目标分片文件和各个第二目标分片文件的敏感度值相加，得到第一求和结果。

S208：如果第一求和结果大于敏感度阈值，确定待检测文件为违规文件。

将第一求和结果和用于确定违规文件的敏感度阈值进行比较，如果第一求和结果大于敏感度阈值，则说明第一目标分片文件和第二目标分片文件所属的待检测文件为违规文件。

基于上述S201-S208的相关内容可知，通过对待检测文件进行划分，并确定与分片文件具有相关性的敏感片段，可以基于敏感片段的敏感度阈值确定相关性较高的分片文件，也就是第一目标分片文件和第二目标分片文件的敏感度，并利用第一目标分片文件和第二目标分片文件的敏感度确定整体的待检测文件是否为违规文件。通过对待检测文件划分后的分片文件进行对待检测文件整体是否为违规文件的判断，更能适用于分布式传输或者储存的文件的违规检测。并且基于各个分片文件的情况实现对待检测文件的检测，可以得到更为准确的检测结果。从而实现对采用各类传输或者储存方式的文件的有效的违规检测，提高违规文件检测准确性。

在一种可能的实现方式中，在确定第一目标分片文件之后，可能无需继续对分片文件进行敏感度值的检测，可以直接利用第一目标分片文件的敏感度值进行待检测文件的违规检测。

对应的，本申请实施例提供一种违规文件检测方法，除上述S201-S208以外，方法还包括：

如果在敏感片段中未查找到与至少一个第一目标分片文件的相关性大于第二阈值的敏感片段，或者，在分片文件中未查找到与至少一个第一可达敏感片段的相关性大于第三阈值的分片文件，将各个第一目标分片文件的敏感度值相加得到第二求和结果；

如果第二求和结果大于敏感度阈值，确定待检测文件为违规文件。

在确定第一目标分片文件之后，如果敏感片段中不具有与至少一个第一目标分片文件相关性大于第二阈值的敏感片段，也就是不具有第一可达敏感片段，则无法进一步确定第二目标分片文件。可以直接利用第一目标分片文件的敏感度对待检测文件进行是否是违规文件的判断。参见图3所示，该图为本申请实施例提供的一种违规文件检测的示意图。以图3为例，在确定F₁和F₂之后，无法确定与F₁和F₂具有一定相关性的敏感片段，则可以利用F₁和F₂的敏感度阈值确定待检测文件是否为违规文件。

或者，基于确定的第一可达敏感片段，无法在分片文件中查询得到与至少一个第一可达敏感片段的相关性大于第三阈值的分片文件，也就是不具有第二目标分片文件，可以直接利用第一目标分片文件的敏感度对待检测文件进行是否是违规文件的判断。参见图4所示，该图为本申请实施例提供的另一种违规文件检测的示意图。在确定C₄之后，无法确定与C₄具有一定相关性的分片文件，则可以利用F₁和F₂的敏感度阈值确定待检测文件是否为违规文件。

需要说明的是，不具有第二目标分片文件可以包括以下两种情况：

情况一：具有除第一目标分片文件以外的分片文件，但是其余的分片文件与第一可达敏感片段的相关性小于或者等于第三阈值，不满足作为第二目标分片文件的条件。

情况二：不具有除第一目标分片文件以外的分片文件。分片文件均确定为第一目标分片文件。

将各个第一目标分片文件的敏感度值进行相加，得到第二求和结果。再利用第二求和结果对待检测文件是否为违规文件进行判断。将第二求和结果与用于确定违规文件的敏感度阈值进行比较，如果第二求和结果大于敏感度阈值，则可以确定待检测文件为违规文件。

在本申请实施例中，在不具有第二目标分片文件的基础上，利用第一目标分片文件的敏感度值进行对待检测文件是否违规的判断，实现了基于第一目标分片文件对待检测文件进行判断，能够满足具有较少层级的目标分片文件的情况下对待检测文件的检测。

在一种可能的实现方式中，可以进一步基于确定的第二目标分片文件继续进行敏感片段的选择和第二目标分片文件的更新。

本申请实施例提供一种违规文件检测方法，在S207，即将各个第一目标分片文件以及各个第二目标分片文件的敏感度值相加得到第一求和结果之前，方法还包括以下四个步骤：

A1：将在敏感片段中查找到的与至少一个第二目标分片文件的相关性大于第四阈值的敏感片段确定为第二可达敏感片段。

继续在敏感片段中查找与至少一个第二目标分片文件的相关性大于第四阈值的敏感片段。其中，本申请实施例不限定第四阈值的具体大小，具体可以根据选取敏感片段的需要进行设置。

将查找到的与至少一个第二目标分片文件的相关性大于第四阈值的敏感片段确定为第二可达敏感片段。例如，参见图5所示，该图为本申请实施例提供的另一种违规文件检测的示意图。其中，C₅为第二可达敏感片段。

A2：将在分片文件中查找到的与至少一个第二可达敏感片段的相关性大于第五阈值的分片文件重新确定为第二目标分片文件。

在基于确定的至少一个第二可达敏感片段，进一步确定第二目标分片文件。在分片文件中查找与至少一个第二可达敏感片段的相关性大于第五阈值的分片文件，将查找得到的分片文件重新确定为第二目标分片文件。

以图5为例，其中，F₄为重新确定的第二目标分片文件。

需要说明的是，重新确定的第二目标分片文件不包括基于第一可达敏感片段确定的第二目标分片文件。在一种可能的实现方式中，可以将分片文件中基于第一可达敏感片段确定的第二目标分片文件去除后，再进行基于第二可达敏感片段重新确定第二目标分片文件。

A3：针对每一重新确定的第二目标分片文件，将与该第二目标分片文件的相关性大于第五阈值的各个第二可达敏感片段的敏感度阈值相加，得到该第二目标分片文件的敏感度值。

针对重新确定的第二目标分片文件，分别计算各个重新确定的第二目标分片文件的敏感度阈值。将与该第二目标分片文件的相关性大于第五阈值的各个第二可达敏感片段的敏感度阈值相加，得到该第二目标分片文件的敏感度值。仍以上述图5为例，F₄的敏感度值为C₅的敏感度阈值。

A4：重新执行将在敏感片段中查找到的与至少一个第二目标分片文件的相关性大于第四阈值的敏感片段确定为第二可达敏感片段以及后续步骤，直到在敏感片段中未查找到与至少一个第二目标分片文件的相关性大于第四阈值的敏感片段。

在重新确定第二目标分片文件之后，可能还存在未检测的分片文件，可以继续对第二可达敏感片段进行更新。

具体的，重新执行将在敏感片段中查找到的与至少一个第二目标分片文件的相关性大于第四阈值的敏感片段确定为第二可达敏感片段以及后续重新确定第二目标分片文件以及后续步骤。

基于重新确定的第二目标分片文件对第二可达敏感片段进行更新，得到重新确定的第二可达敏感片段，并再利用重新确定的第二可达敏感片段重新确定第二目标分片文件，实现对第二目标分片文件的循环确定。

若敏感片段中不具有与至少一个第二目标分片文件相关性大于第四阈值的敏感片段，则本次确定第二目标分片文件结果，不再基于重新确定的第二目标分片文件重新确定第二可达敏感片段。

基于上述内容可知，通过循环确定第二可达敏感片段以及重新确定第二目标分片文件，可以实现对分片文件的进一步检测，能够基于重新确定的第二目标分片文件，实现对待检测文件是否违规进行更为准确地确定，得到待检测文件的有效的检测结果。

进一步的，在确定第二可达敏感片段或者重新确定第二目标分片的过程中，可能会出现无法确定第二可达敏感片段或者无法确定第二目标分片的情况。

在一种可能的实现方式中，所述方法还包括：

如果在敏感片段中未查找到与至少一个第二目标分片文件的相关性大于第四阈值的敏感片段，或者，在分片文件中未查找到与至少一个第二可达敏感片段的相关性大于第五阈值的分片文件，触发执行将各个第一目标分片文件以及各个第二目标分片文件的敏感度值相加得到第一求和结果以及后续步骤。

在确定第二目标分片文件之后，如果敏感片段中不具有与至少一个第二目标分片文件相关性大于第四阈值的敏感片段，也就是不具有第二可达敏感片段，则无法进一步重新确定第二目标分片文件，触发执行将各个第一目标分片文件以及各个第二目标分片文件的敏感度值相加得到第一求和结果以及后续步骤。

或者，基于确定的第二可达敏感片段，无法在分片文件中查询得到与至少一个第二可达敏感片段的相关性大于第五阈值的分片文件，也就是不具有可以重新确定的第二目标分片文件，触发执行将各个第一目标分片文件以及各个第二目标分片文件的敏感度值相加得到第一求和结果以及后续步骤。

需要说明的是，不具有重新确定的第二目标分片文件可以包括以下两种情况：

情况一：具有除第一目标分片文件以及确定过第二目标分片文件以外的分片文件，但是其余的分片文件与第二可达敏感片段的相关性小于或者等于第五阈值，不满足作为重新确定的第二目标分片文件的条件。

情况二：不具有除第一目标分片文件以及确定过第二目标分片文件以外的分片文件。

在本申请实施例中，当出现无法确定第二可达敏感片段或者无法确定重新确定的第二目标分片文件时，表示无法进一步确定第二目标分片文件，分片文件中不存在可以被确定为与敏感片段具有一定相关性的分片文件，停止对第二目标分片文件的重新确定。如此可以实现及时地得到待检测文件的检测结果，并且基于确定的第一目标分片文件和第二目标分片文件得到较为准确的待检测文件的检测结果。

进一步的，可以对第二目标分片文件添加为敏感片段，实现对敏感片段的扩充。

在一种可能的实现方式中，方法还包括：

如果在敏感片段中未查找到与至少一个第二目标分片文件的相关性大于第四阈值的敏感片段，将该次查找比较的至少一个第二目标分片文件添加为敏感片段。

若在敏感片段中未查找到与至少一个第二目标分片文件的相关性大于第四阈值的敏感片段，也就是第二可达敏感片段，则本次查找第二目标分片文件结束。

基于第二可达敏感片段查找得到的第二目标分片文件可以作为敏感片段，将本次查找得到的至少一个第二目标分片文件添加为敏感片段，实现对敏感片段的扩充。以图5为例，可以将F₄作为敏感片段，实现对敏感片段的扩充。

在本申请实施例中，通过在结束第二目标分片文件的查找后，将本次确定的第二目标分片文件添加为敏感片段，实现敏感片段的自动扩充。从而能够提高基于敏感片段对待检测文件进行违规文件检测的准确程度。

在一种可能的实现方式中，本申请实施例还提供了一种违规文件检测方法，除上述S201-S208以外，还包括：

如果在分片文件中未查找到与至少一个敏感片段的相关性大于第一阈值的分片文件，确定待检测文件为合规文件。

与敏感片段的相关性大于第一阈值的分片文件是具有较大概率为敏感片段的分片文件。若分片文件中未查找到与至少一个敏感片段的相关性大于第一阈值的分片文件，则说明待检测文件中不存在与敏感片段相关度较高的分片文件，待检测文件属于合规文件。

基于上述内容可知，通过分片文件与敏感片段之间的相关性，可以对待检测文件是否是违规文件进行确定。如此便于待检测文件进行检测，可以提高待检测文件的效率。

基于上述方法实施例提供的违规文件检测方法，本申请实施例还提供了一种违规文件检测装置，下面将结合附图对该违规文件检测装置进行说明。

参见图6，该图为本申请实施例提供的一种违规文件检测装置的结构示意图。如图6所示，该违规文件检测装置包括：

获取单元601，用于获取待检测文件，将所述待检测文件划分为多个分片文件；

查找单元602，用于将在所述分片文件中查找到的与至少一个敏感片段的相关性大于第一阈值的分片文件确定为第一目标分片文件；

第一计算单元603，用于针对每一所述第一目标分片文件，将与该第一目标分片文件的相关性大于第一阈值的各个敏感片段的敏感度阈值相加，得到该第一目标分片文件的敏感度值；

第一确定单元604，用于将在所述敏感片段中查找到的与至少一个所述第一目标分片文件的相关性大于第二阈值的敏感片段确定为第一可达敏感片段；

第二确定单元605，用于将在所述分片文件中查找到的与至少一个所述第一可达敏感片段的相关性大于第三阈值的分片文件确定为第二目标分片文件；

第二计算单元606，用于针对每一所述第二目标分片文件，将与该第二目标分片文件的相关性大于第三阈值的各个第一可达敏感片段的敏感度阈值相加，得到该第二目标分片文件的敏感度值；

第三计算单元607，用于将各个所述第一目标分片文件以及各个所述第二目标分片文件的敏感度值相加得到第一求和结果；

第三确定单元608，用于如果所述第一求和结果大于敏感度阈值，确定所述待检测文件为违规文件。

在一种可能的实现方式中，所述装置还包括：

第四计算单元，用于如果在所述敏感片段中未查找到与至少一个所述第一目标分片文件的相关性大于第二阈值的敏感片段，或者，在所述分片文件中未查找到与至少一个所述第一可达敏感片段的相关性大于第三阈值的分片文件，将各个所述第一目标分片文件的敏感度值相加得到第二求和结果；

第四确定单元，用于如果所述第二求和结果大于敏感度阈值，确定所述待检测文件为违规文件。

在一种可能的实现方式中，所述装置还包括：

第五确定单元，用于将在所述敏感片段中查找到的与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段确定为第二可达敏感片段；

第六确定单元，用于将在所述分片文件中查找到的与至少一个所述第二可达敏感片段的相关性大于第五阈值的分片文件重新确定为第二目标分片文件；

第五计算单元，用于针对每一重新确定的第二目标分片文件，将与该第二目标分片文件的相关性大于第五阈值的各个第二可达敏感片段的敏感度阈值相加，得到该第二目标分片文件的敏感度值；

执行单元，用于重新执行将在所述敏感片段中查找到的与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段确定为第二可达敏感片段以及后续步骤，直到在所述敏感片段中未查找到与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段。

在一种可能的实现方式中，所述装置还包括：

第六计算单元，用于如果在所述敏感片段中未查找到与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段，或者，在所述分片文件中未查找到与至少一个所述第二可达敏感片段的相关性大于第五阈值的分片文件，触发执行将各个所述第一目标分片文件以及各个所述第二目标分片文件的敏感度值相加得到第一求和结果以及后续步骤。

在一种可能的实现方式中，所述装置还包括：

添加单元，用于如果在所述敏感片段中未查找到与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段，将该次查找得到的至少一个第二目标分片文件添加为所述敏感片段。

在一种可能的实现方式中于，所述装置还包括：

第七确定单元，用于如果在所述分片文件中未查找到与至少一个敏感片段的相关性大于第一阈值的分片文件，确定所述待检测文件为合规文件。

另外，本申请实施例还提供了一种违规文件检测设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述任一项实施例所述的违规文件检测方法。

另外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如上述任一项实施例所述的违规文件检测方法。

本申请实施例提供的一种违规文件检测装置及设备，通过将待检测文件划分为多个分片文件，并利用分片文件和敏感片段之间的相关性确定第一目标分片文件、第一可达敏感片段和第二目标分片文件；并利用与第一目标分片文件和第二分片文件相关联的敏感片段的敏感度阈值分别得到第一目标分片文件和第二目标分片文件的敏感度值，将第一目标分片文件和第二目标分片文件的敏感度值相加得到第一求和结果，利用第一求和结果确定待检测文件是否为违规文件。通过对待检测文件进行分片，得到分片文件，可以基于分片文件实现对待检测文件整体是否是违规文件的检测，能够对分布式存储的文件进行有效地违规检测，使得更为全面地检测违规文件。并且，基于分片文件与敏感片段之间的相关性，能够提高违规文件检测的准确性，得到有效并且准确的检测结果。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种违规文件检测方法，其特征在于，所述方法包括：

获取待检测文件，将所述待检测文件划分为多个分片文件；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在将各个所述第一目标分片文件以及各个所述第二目标分片文件的敏感度值相加得到第一求和结果之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，目标敏感片段的敏感度阈值是根据所述目标敏感片段在违规文件中的存在概率、所述目标敏感片段在合规文件中的存在概率、所述违规文件的概率以及所述合规文件的概率确定得到的；所述目标敏感片段为所述敏感片段中的任一个。

8.一种违规文件检测装置，其特征在于，所述装置包括：

9.一种违规文件检测设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7任一项所述的违规文件检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-7任一项所述的违规文件检测方法。