CN111832024B

CN111832024B - 一种大数据安全防护方法及系统

Info

Publication number: CN111832024B
Application number: CN202010731934.8A
Authority: CN
Inventors: 梁玉娣; 梁燕明
Original assignee: Oriental Fortune Information Co ltd
Current assignee: Oriental Fortune Information Co.,Ltd.
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2021-09-24
Anticipated expiration: 2040-07-27
Also published as: CN111832024A

Abstract

本发明涉及数据安全处理技术领域，涉及一种大数据安全防护方法及系统。在该方法中，首先提取目标脚本文件中的文本特征信息和代码编写逻辑，其次通过筛选得到的目标信息字段来获取目标脚本文件的待分析源代码，然后构建待分析源代码的代码序列并查询得到目标代码序列从而确定目标脚本文件是第一脚本文件还是第二脚本文件。最后基于目标脚本文件的类别选用不同的识别方法来识别目标脚本文件是否为数据爬虫。本发明通过对脚本文件的源码以及编写逻辑进行分析，能够根据分析和识别得到的结果从源码层面来判断脚本文件是否为数据爬虫，从而可以快速、准确地识别出数据爬虫，对数据爬虫进行拦截或者销毁，确保设备间的数据交互的安全性和隐私性。

Description

一种大数据安全防护方法及系统

技术领域

本发明涉及数据安全处理技术领域，具体而言，特别涉及一种大数据安全防护方法及系统。

背景技术

数据爬虫是一种按照设定的方式或者逻辑自动地采集网页数据或者设备数据的软件程序或者脚本文件。数据爬虫通常可以用来进行数据分析，例如，先通过对数据进行清洗、抽取和转换，从而将数据做成标准化的数据，然后进行数据分析和挖掘，以获取数据的商业价值。由此可见，数据爬虫在一定程度上具有可取之处。

然而，随着现代社会的数据安全意识的增强，个人或者企业并不希望自身的用户数据或者行为数据随意地被数据爬虫所爬取，否则会导致一些隐私数据的丢失或者泄露。因此，在一些数据交互场景下，需要对数据爬虫进行拦截或者销毁。但是现如今的数据爬虫技术具有一定的隐蔽性，在进行数据交互时，数据服务器很难发现数据爬虫的存在。

发明内容

为改善相关技术中存在的上述技术问题，本发明提供了一种大数据安全防护方法及系统。

第一方面，提供一种大数据安全防护方法，应用于与智能终端通信的数据服务器，所述方法包括：

基于确定出的目标脚本文件对应的源码集合和文件结构数据，对所述目标脚本文件进行识别，以提取所述目标脚本文件中包括的文本特征信息以及代码编写逻辑；其中，所述目标脚本文件为所述数据服务器中的第一脚本文件或者所述智能终端中的第二脚本文件，所述文本特征信息是所述源码集合中的源代码的文本特征，所述代码编写逻辑与所述文件结构数据之间存在对应关系，所述对应关系用于表征所述源代码的编写逻辑；

通过筛选得到的所述文本特征信息中相对于所述代码编写逻辑存在调试标识的目标信息字段，获取所述目标脚本文件中代码唯一标识符不随所述目标信息字段的调整次数而更新的目标源代码，以作为所述目标脚本文件的待分析源代码；

构建所述待分析源代码的代码序列，从预设的序列集合中查询出与所述代码序列的匹配率最高的目标代码序列，根据所述目标代码序列唯一对应的签名信息确定所述代码序列对应的所述目标脚本文件是第一脚本文件还是第二脚本文件；

若所述目标脚本文件是所述第一脚本文件，则确定所述目标脚本文件在设定时段内的运行记录，根据所述运行记录识别所述目标脚本文件是否为数据爬虫；

若所述目标脚本文件是所述第二脚本文件，则根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数，基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫。

可选地，确定所述目标脚本文件在设定时段内的运行记录，根据所述运行记录识别所述目标脚本文件是否为数据爬虫，包括：

从所述数据服务器的运行日志文件中提取与所述目标脚本文件对应的在设定时段内的运行记录；其中，所述设定时段根据所述数据服务器的运行日志文件的更新频率确定；

获取所述运行记录的记录信息的时刻分布列表以及各记录信息；根据所述记录信息的时刻分布列表判定所述运行记录是否存在可调信息类别和不可调信息类别；其中，所述可调信息类别用于表征记录信息中的记录签名可修改，所述不可调信息类别用于表征记录信息中的记录签名为固定签名；

若判定出所述运行记录存在所述可调信息类别和所述不可调信息类别，依据所述运行记录在所述可调信息类别下的记录信息及其信息权限请求次数确定所述运行记录在所述不可调信息类别下的各记录信息与所述运行记录在所述可调信息类别下的各记录信息之间的安全性评价系数；其中，所述安全性评价系数用于表征所述可调信息类别和所述不可调类别下的记录信息之间的可转移性；

将所述运行记录在所述不可调信息类别下的与在所述可调信息类别下的记录信息之间的安全性评价系数超过设定系数的记录信息转移所述可调信息类别下；

确定所述可调信息类别下的记录信息的第一特征聚类轨迹以及所述不可调信息类别下记录信息的第二特征聚类轨迹，按照将所述第一特征聚类轨迹和所述第二特征聚类轨迹进行对比，得到所述第一特征聚类轨迹和所述第二特征聚类轨迹的重合度；在所述重合度低于设定阈值时判定所述目标脚本文件为数据爬虫。

可选地，所述方法还包括：

对所述运行日志文件所在的存储区进行划分，得到第一存储区和第二存储区；其中，所述第一存储区和所述第二存储区互相独立，所述第一存储区用于存储除所述第一脚本文件之外的文件对应的日志文件，所述第二存储区用于存储所述第二脚本文件的日志文件；

对所述第一脚本文件进行数字签名标记，并在获取到所述数据服务器产生的实时日志文件时判断所述实时日志文件是否存在所述数字签名；若存在，则将所述实时日志文件存入所述第二存储区，若不存在，则将所述实时日志文件存入所述第一存储区。

可选地，根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数，基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫，包括：

接收到所述文件传输协议后确定所述文件传输协议的加密协议字段，并基于所述加密协议字段进行所述第二脚本文件的第一时序参数抽取；其中，所述加密协议字段为所述文件传输协议中与所述数据服务器相关的通信协议的加密逻辑信息；

将所述第一时序参数与预设参数集中的各第二时序参数进行时序特征对比；其中，如果所述第一时序参数为多个，则通过以下方式进行时序特征对比：按照预先为各第一时序参数设置的权重等级，进行将每个第一时序参数分别与每个第二时序参数进行时序特征对比，得到特征对比结果，如果该特征对比结果表征所述第一时序参数在该第二时序参数所处的时段内为稳定，则将所述第一时序参数与下一个第二时序参数进行时序特征对比；如果所述第一时序参数与每个第二时序参数的特征对比结果表征所述第一时序参数在每个第二时序参数所处的时段内为稳定，则将所述第一时序参数导入预设的参数列表中；

将所述参数列表中的第一时序参数按照时序特征维度的大小顺序进行排序得到排序序列；确定所述排序序列的序列结构信息，并以所述序列结构信息对所述排序序列中的每个第一时序参数进行关键值提取，将提取出的关键值整合为时序稳定参数；

确定所述时序稳定参数在所述第二脚本文件中的多个映射参数值；根据所述多个映射参数值得到所述第二脚本文件的时序描述信息；根据所述时序描述信息确定所述第二脚本文件的运行轨迹，在所述运行轨迹中出现离散节点时，确定所述第二脚本文件为数据爬虫。

可选地，所述方法还包括：

提取所述第二脚本文件的执行指令代码；其中，所述智能终端通过调用所述执行指令代码实现所述第二脚本文件的；

解析所述执行指令代码得到多个代码权限信息；其中，每个代码权限信息对应所述智能终端中的其中一类用户数据；

确定出所述智能终端中隐私数据标识对应的用户数据的目标代码权限信息，对所述目标代码权限信息设置动态校验码；其中，所述智能终端在调用所述目标代码权限信息对应的指令代码时，通过所述动态校验码与所述数据服务器之间进行安全性验证。

可选地，构建所述待分析源代码的代码序列，包括：

获取待分析源代码的源代码标签对应的标签移植信息及所述源代码标签的版本更新信息，所述版本更新信息表示所述待分析源代码的源代码标签的标签有效时长；

生成与所述标签移植信息对应的标签信息集合，所述标签信息集合中包含有预先提取的所述待分析源代码的编译逻辑信息，所述编译逻辑信息用于表征所述待分析源代码的不同编译方式；

根据所述标签信息集合以及所述版本更新信息将所述待分析源代码拆分为多个代码字段，基于所述标签信息集合中的编译逻辑信息对应的优先级将多个代码字段进行排序得到所述代码序列。

第二方面，提供了一种大数据安全防护系统，包括互相之间通信的数据服务器和智能终端；

所述数据服务器，用于：

可选地，所述数据服务器确定所述目标脚本文件在设定时段内的运行记录，根据所述运行记录识别所述目标脚本文件是否为数据爬虫具体包括：

可选地，所述数据服务器根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数，基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫具体包括：

可选地，所述数据服务器构建所述待分析源代码的代码序列具体包括：

本发明的实施例提供的技术方案可以包括以下有益效果。

首先提取目标脚本文件中的文本特征信息和代码编写逻辑，其次通过筛选得到的目标信息字段来获取目标脚本文件的待分析源代码，然后构建待分析源代码的代码序列并查询得到目标代码序列从而确定目标脚本文件是第一脚本文件还是第二脚本文件。最后基于目标脚本文件的类别选用不同的识别方法来识别目标脚本文件是否为数据爬虫。

如此，通过对脚本文件的源码以及编写逻辑进行分析，从而对脚本文件的运行记录以及在时序上的稳定性进行分析和识别，这样能够根据分析和识别得到的结果从源码层面来判断脚本文件是否为数据爬虫，从而可以快速、准确地识别出数据爬虫，从而对数据爬虫进行拦截或者销毁，确保设备间的数据交互的安全性和隐私性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境（大数据安全防护系统）的示意图。

图2是根据一示例性实施例示出的一种大数据安全防护方法的流程图。

图3是根据另一示例性实施例示出的一种大数据安全防护装置的功能模块框图。

图4是根据另一示例性实施例示出的一种数据服务器的设备结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

发明人经调查和研究发现，常见的防数据爬虫技术可以总结为以下三个：

（1）基于程序本身防止数据爬虫，作为数据爬虫，爬取行为是对页面数据的源文件爬取，如爬取静态页面的html代码，可以用jquery去模仿写html，这种方法伪装的页面就很难被爬取了，但是这种方式的代码编写门槛高，难以大规模地应用；

（2）基于iptables和shell脚本防止数据爬虫，然而这种方式会占用服务器较多的内存资源，严重时可能导致服务器死机或崩溃；

（3）采用robots.txt文件阻止数据爬虫的运行，然而在一些场景下，如背景技术所提到的，数据爬虫的伪装性较强，难以准确识别出数据爬虫，这样也就使得采用robots.txt文件阻止数据爬虫的运行的方法的效果较差。

因此，为改善现有技术存在的难以识别数据爬虫的技术问题，本发明公开了一种大数据安全防护方法及系统，通过对脚本文件的源码以及编写逻辑进行分析，从而对脚本文件的运行记录以及在时序上的稳定性进行分析和识别，这样能够根据分析和识别得到的结果从源码层面来判断脚本文件是否为数据爬虫，从而可以快速、准确地识别出数据爬虫，从而对数据爬虫进行拦截或者销毁，确保设备间的数据交互的安全性和隐私性。

为实现上述目的，首先对所述大数据安全防护方法的系统架构进行介绍。请参阅图1，为本发明公开的一种大数据安全防护系统100的系统架构的示意图，所述大数据安全防护系统100可以包括数据服务器110和智能终端120，所述数据服务器110和所述智能终端120之间通信连接。在本实施例中，数据服务器110可以是网页服务器，也可以是设备服务器，智能终端120可以是手机、平板电脑、笔记本电脑或膝式计算机等具有数据处理和数据通信的电子设备，在此不作赘述。

进一步地，数据服务器110通过对自身的脚本文件或者智能终端120中的脚本文件进行分析和识别，能够快速、准确地识别出数据爬虫，从而对数据爬虫进行拦截或者销毁，确保数据服务器110与智能终端120之间的数据交互的安全性和隐私性。

在上述基础上，请结合参阅图2，为本发明公开的一种大数据安全防护方法的流程示意图，所述大数据安全防护方法可以应用于图1中的数据服务器110，所述数据服务器110在实现所述大数据安全防护方法时执行以下步骤S110-步骤S150所描述的内容。

步骤S110，基于确定出的目标脚本文件对应的源码集合和文件结构数据，对所述目标脚本文件进行识别，以提取所述目标脚本文件中包括的文本特征信息以及代码编写逻辑；其中，所述目标脚本文件为所述数据服务器中的第一脚本文件或者所述智能终端中的第二脚本文件，所述文本特征信息是所述源码集合中的源代码的文本特征，所述代码编写逻辑与所述文件结构数据之间存在对应关系，所述对应关系用于表征所述源代码的编写逻辑。

步骤S120，通过筛选得到的所述文本特征信息中相对于所述代码编写逻辑存在调试标识的目标信息字段，获取所述目标脚本文件中代码唯一标识符不随所述目标信息字段的调整次数而更新的目标源代码，以作为所述目标脚本文件的待分析源代码。

步骤S130，构建所述待分析源代码的代码序列，从预设的序列集合中查询出与所述代码序列的匹配率最高的目标代码序列，根据所述目标代码序列唯一对应的签名信息确定所述代码序列对应的所述目标脚本文件是第一脚本文件还是第二脚本文件。

步骤S140，若所述目标脚本文件是所述第一脚本文件，则确定所述目标脚本文件在设定时段内的运行记录，根据所述运行记录识别所述目标脚本文件是否为数据爬虫。

步骤S150，若所述目标脚本文件是所述第二脚本文件，则根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数，基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫。

在执行上述步骤S110-步骤S150所描述的内容时，首先提取目标脚本文件中的文本特征信息和代码编写逻辑，其次通过筛选得到的目标信息字段来获取目标脚本文件的待分析源代码，然后构建待分析源代码的代码序列并查询得到目标代码序列从而确定目标脚本文件是第一脚本文件还是第二脚本文件。最后基于目标脚本文件的类别选用不同的识别方法来识别目标脚本文件是否为数据爬虫。

在具体实施时，不同的脚本文件需要采用不同的爬虫识别方式来进行识别，在步骤S140中，若目标脚本文件是所述数据服务器中的第一脚本文件，则确定所述目标脚本文件在设定时段内的运行记录，根据所述运行记录识别所述目标脚本文件是否为数据爬虫，具体可以包括以下步骤S141-步骤S145所描述的内容。

步骤S141，从所述数据服务器的运行日志文件中提取与所述目标脚本文件对应的在设定时段内的运行记录；其中，所述设定时段根据所述数据服务器的运行日志文件的更新频率确定。

步骤S142，获取所述运行记录的记录信息的时刻分布列表以及各记录信息；根据所述记录信息的时刻分布列表判定所述运行记录是否存在可调信息类别和不可调信息类别；其中，所述可调信息类别用于表征记录信息中的记录签名可修改，所述不可调信息类别用于表征记录信息中的记录签名为固定签名。

步骤S143，若判定出所述运行记录存在所述可调信息类别和所述不可调信息类别，依据所述运行记录在所述可调信息类别下的记录信息及其信息权限请求次数确定所述运行记录在所述不可调信息类别下的各记录信息与所述运行记录在所述可调信息类别下的各记录信息之间的安全性评价系数；其中，所述安全性评价系数用于表征所述可调信息类别和所述不可调类别下的记录信息之间的可转移性。

在本实施例中，安全性评价系数越大，所述可调信息类别和所述不可调类别下的记录信息之间的可转移性越强，表征记录信息可以在所述可调信息类别和所述不可调类别下互相转移以改变运行记录的信息稳定性。

步骤S144，将所述运行记录在所述不可调信息类别下的与在所述可调信息类别下的记录信息之间的安全性评价系数超过设定系数的记录信息转移所述可调信息类别下。

步骤S145，确定所述可调信息类别下的记录信息的第一特征聚类轨迹以及所述不可调信息类别下记录信息的第二特征聚类轨迹，按照将所述第一特征聚类轨迹和所述第二特征聚类轨迹进行对比，得到所述第一特征聚类轨迹和所述第二特征聚类轨迹的重合度；在所述重合度低于设定阈值时判定所述目标脚本文件为数据爬虫。

可以理解，通过上述步骤S141-步骤S145，能够对运行记录中的记录信息进行分析，这样可以通过记录信息的可转移性确定目标脚本文件是否为数据爬虫，从而对数据服务器的运行日志文件进行深度剖析，以准确、可靠地识别出数据爬虫。

在上述步骤S141-步骤S145的基础上，如果确定出第一脚本文件为数据爬虫，为了避免在对第一脚本文件进行处理时影响到数据服务器的正常运行，可以通过以下步骤S146-步骤S147的方式对第一脚本文件进行拦截。

步骤S146，对所述运行日志文件所在的存储区进行划分，得到第一存储区和第二存储区；其中，所述第一存储区和所述第二存储区互相独立，所述第一存储区用于存储除所述第一脚本文件之外的文件对应的日志文件，所述第二存储区用于存储所述第二脚本文件的日志文件。

步骤S147，对所述第一脚本文件进行数字签名标记，并在获取到所述数据服务器产生的实时日志文件时判断所述实时日志文件是否存在所述数字签名；若存在，则将所述实时日志文件存入所述第二存储区，若不存在，则将所述实时日志文件存入所述第一存储区。

在本实施例中，第一存储区不与外界通信，如此，能够将第一脚本文件产生的日志文件进行“封锁”，避免第一脚本文件通过日志文件对数据服务器的隐私数据进行爬取和传输。通过上述步骤S146-步骤S147所描述的方法，无需中止第一脚本文件的运行，能确保数据服务器的正常运行，同时还可以确保第一脚本文件无法将爬取到的隐私数据进行传输。

进一步地，若目标脚本文件是所述智能终端中的第二脚本文件，则步骤S150所描述的根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数，基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫，具体可以包括以下步骤S151-步骤S154所描述的内容。

步骤S151，接收到所述文件传输协议后确定所述文件传输协议的加密协议字段，并基于所述加密协议字段进行所述第二脚本文件的第一时序参数抽取；其中，所述加密协议字段为所述文件传输协议中与所述数据服务器相关的通信协议的加密逻辑信息。

步骤S152，将所述第一时序参数与预设参数集中的各第二时序参数进行时序特征对比；其中，如果所述第一时序参数为多个，则通过以下方式进行时序特征对比：按照预先为各第一时序参数设置的权重等级，进行将每个第一时序参数分别与每个第二时序参数进行时序特征对比，得到特征对比结果，如果该特征对比结果表征所述第一时序参数在该第二时序参数所处的时段内为稳定，则将所述第一时序参数与下一个第二时序参数进行时序特征对比；如果所述第一时序参数与每个第二时序参数的特征对比结果表征所述第一时序参数在每个第二时序参数所处的时段内为稳定，则将所述第一时序参数导入预设的参数列表中。

步骤S153，将所述参数列表中的第一时序参数按照时序特征维度的大小顺序进行排序得到排序序列；确定所述排序序列的序列结构信息，并以所述序列结构信息对所述排序序列中的每个第一时序参数进行关键值提取，将提取出的关键值整合为时序稳定参数。

步骤S154，确定所述时序稳定参数在所述第二脚本文件中的多个映射参数值；根据所述多个映射参数值得到所述第二脚本文件的时序描述信息；根据所述时序描述信息确定所述第二脚本文件的运行轨迹，在所述运行轨迹中出现离散节点时，确定所述第二脚本文件为数据爬虫。

在本实施例中，所述时序描述信息用于表征所述第二脚本文件在所述智能终端中运行时的时序稳定性，所述时序稳定性用于表征所述第二脚本文件是否存在异常抓取行为。当运行轨迹中出现离散节点，表征第二脚本文件在运行时存在异常抓取行为，这样可以确定出第二脚本文件为数据爬虫。

可以理解，基于上述步骤S151-步骤S154，能够从第二脚本文件的运行稳定性层面进行数据爬虫的识别，这样能够快速、可靠地识别出第二脚本文件是否为数据爬虫。

在上述基础上，如果确定出第二脚本文件为数据爬虫，则可以通过以下步骤S155-步骤S157进行数据爬虫的防护处理。

步骤S155，提取所述第二脚本文件的执行指令代码；其中，所述智能终端通过调用所述执行指令代码实现所述第二脚本文件的。

步骤S156，解析所述执行指令代码得到多个代码权限信息；其中，每个代码权限信息对应所述智能终端中的其中一类用户数据。

步骤S157，确定出所述智能终端中隐私数据标识对应的用户数据的目标代码权限信息，对所述目标代码权限信息设置动态校验码；其中，所述智能终端在调用所述目标代码权限信息对应的指令代码时，通过所述动态校验码与所述数据服务器之间进行安全性验证。

在本实施例中，基于上述步骤S155-步骤S157，能够通过为目标代码权限信息设置动态校验码实现对第二脚本文件的运行权限的管理，从而避免第二脚本文件对智能终端和数据服务器的隐私数据的爬取。

在具体实施时，为了确保待分析源代码的代码序列的层级准确性，在步骤S130中，构建所述待分析源代码的代码序列，具体可以包括以下步骤S131-步骤S133所描述的内容。

步骤S131，获取待分析源代码的源代码标签对应的标签移植信息及所述源代码标签的版本更新信息，所述版本更新信息表示所述待分析源代码的源代码标签的标签有效时长。

步骤S132，生成与所述标签移植信息对应的标签信息集合，所述标签信息集合中包含有预先提取的所述待分析源代码的编译逻辑信息，所述编译逻辑信息用于表征所述待分析源代码的不同编译方式。

步骤S133，根据所述标签信息集合以及所述版本更新信息将所述待分析源代码拆分为多个代码字段，基于所述标签信息集合中的编译逻辑信息对应的优先级将多个代码字段进行排序得到所述代码序列。

可以理解，在实施上述步骤S131-步骤S133所描述的内容时，能够对待分析源代码的源代码标签对应的标签移植信息及所述源代码标签的版本更新信息进行分析，从而基于所述标签信息集合中的编译逻辑信息对应的优先级将拆分得到的多个代码字段进行排序得到代码序列。这样能够确保待分析源代码的代码序列的层级准确性。

在一种可替换的实施方式中，步骤S120所描述的，通过筛选得到的所述文本特征信息中相对于所述代码编写逻辑存在调试标识的目标信息字段，获取所述目标脚本文件中代码唯一标识符不随所述目标信息字段的调整次数而更新的目标源代码，具体可以包括以下步骤S121-步骤S125所描述的内容。

步骤S121，确定所述目标信息字段的调试标识的标识指向信息。

步骤S122，根据所述标识指向信息统计出所述目标脚本文件中的所有代码唯一标识符对应的初始源代码。

步骤S123，按照设定步长生成所述目标信息字段的调整次数变化轨迹，并确定每个代码唯一标识符在所述调整次数变化轨迹中的更新累计值。

步骤S124，筛选出更新累计值最小的代码唯一标识符。

步骤S125，将更新累计值最小的代码唯一标识符对应的初始源代码确定为所述目标源代码。

可以理解，通过上述步骤S121-步骤S125所描述的内容，能够准确确定出目标源代码。

基于上述相同的发明构思，提供了一种大数据安全防护装置300的功能模块框图，所述大数据安全防护装置300包括以下与图2所示的方法步骤相对应的功能模块。

脚本提取模块310，用于基于确定出的目标脚本文件对应的源码集合和文件结构数据，对所述目标脚本文件进行识别，以提取所述目标脚本文件中包括的文本特征信息以及代码编写逻辑；其中，所述目标脚本文件为所述数据服务器中的第一脚本文件或者所述智能终端中的第二脚本文件，所述文本特征信息是所述源码集合中的源代码的文本特征，所述代码编写逻辑与所述文件结构数据之间存在对应关系，所述对应关系用于表征所述源代码的编写逻辑。

代码获取模块320，用于通过筛选得到的所述文本特征信息中相对于所述代码编写逻辑存在调试标识的目标信息字段，获取所述目标脚本文件中代码唯一标识符不随所述目标信息字段的调整次数而更新的目标源代码，以作为所述目标脚本文件的待分析源代码。

文件确定模块330，用于构建所述待分析源代码的代码序列，从预设的序列集合中查询出与所述代码序列的匹配率最高的目标代码序列，根据所述目标代码序列唯一对应的签名信息确定所述代码序列对应的所述目标脚本文件是第一脚本文件还是第二脚本文件。

爬虫识别模块340，用于若所述目标脚本文件是所述第一脚本文件，则确定所述目标脚本文件在设定时段内的运行记录，根据所述运行记录识别所述目标脚本文件是否为数据爬虫；若所述目标脚本文件是所述第二脚本文件，则根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数，基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫。

在上述基础上，请结合参阅图4，提供了一种数据服务器110的设备硬件框图，所述数据服务器110可以包括互相之间通信的处理器111和存储器112，所述处理器111从所述存储器112中调取计算机程序并通过执行所述计算机程序实现上述的方法。

综上，本发明的实施例提供的技术方案，首先提取目标脚本文件中的文本特征信息和代码编写逻辑，其次通过筛选得到的目标信息字段来获取目标脚本文件的待分析源代码，然后构建待分析源代码的代码序列并查询得到目标代码序列从而确定目标脚本文件是第一脚本文件还是第二脚本文件。最后基于目标脚本文件的类别选用不同的识别方法来识别目标脚本文件是否为数据爬虫。

以上实施方式中的各种技术特征可以任意进行组合，只要特征之间的组合不存在冲突或矛盾，但是限于篇幅，未进行一一描述，因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。

Claims

1.一种大数据安全防护方法，其特征在于，应用于与智能终端通信的数据服务器，所述方法包括：

若所述目标脚本文件是所述第二脚本文件，则根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数，基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫；

其中，通过筛选得到的所述文本特征信息中相对于所述代码编写逻辑存在调试标识的目标信息字段，获取所述目标脚本文件中代码唯一标识符不随所述目标信息字段的调整次数而更新的目标源代码，以作为所述目标脚本文件的待分析源代码，包括：

确定所述目标信息字段的调试标识的标识指向信息；

根据所述标识指向信息统计出所述目标脚本文件中的所有代码唯一标识符对应的初始源代码；

按照设定步长生成所述目标信息字段的调整次数变化轨迹，并确定每个代码唯一标识符在所述调整次数变化轨迹中的更新累计值；

筛选出更新累计值最小的代码唯一标识符；

将更新累计值最小的代码唯一标识符对应的初始源代码确定为所述目标源代码；

其中，根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数，基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫，包括：

2.如权利要求1所述的大数据安全防护方法，其特征在于，确定所述目标脚本文件在设定时段内的运行记录，根据所述运行记录识别所述目标脚本文件是否为数据爬虫，包括：

3.如权利要求2所述的大数据安全防护方法，其特征在于，所述方法还包括：

4.如权利要求1所述的大数据安全防护方法，其特征在于，所述方法还包括：

提取所述第二脚本文件的执行指令代码；

5.如权利要求1所述的大数据安全防护方法，其特征在于，构建所述待分析源代码的代码序列，包括：

6.一种大数据安全防护系统，其特征在于，包括互相之间通信的数据服务器和智能终端；

所述数据服务器，用于：

确定所述目标信息字段的调试标识的标识指向信息；

筛选出更新累计值最小的代码唯一标识符；

其中，所述数据服务器根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数，基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫具体包括：

7.如权利要求6所述的大数据安全防护系统，其特征在于，所述数据服务器确定所述目标脚本文件在设定时段内的运行记录，根据所述运行记录识别所述目标脚本文件是否为数据爬虫具体包括：

8.如权利要求6所述的大数据安全防护系统，其特征在于，所述数据服务器构建所述待分析源代码的代码序列具体包括：