CN113360800A

CN113360800A - 无特征数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113360800A
Application number: CN202110629121.2A
Authority: CN
Inventors: 刘小龙
Original assignee: Shenzhen Hongtu Technology Co ltd
Current assignee: Shenzhen Hongtu Technology Co ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-07

Abstract

本发明实施例公开了无特征数据处理方法、装置、计算机设备及存储介质。所述方法包括：获取API接口上传输的数据，以得到待处理数据；获取终端所定义的数据标签；获取用户访问的URL，以得到待关联URL；对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果；展示所述分析结果。通过实施本发明实施例的方法可实现可对从API接口上传输数据进行采集，且对无特征数据进行定义标签，并自动进行数据的识别、分类以及分级，提高数据处理效率。

Description

无特征数据处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理方法，更具体地说是指无特征数据处理方法、装置、计算机设备及存储介质。

背景技术

在现有的数据处理中，一般都需要对数据进行数据标签处理，数据标签处理包括对数据的标识、分类以及分级等处理，数据包括传输中的数据以及相对静态存储于数据库系统中的数据，对于传输中的数据，特别是经过API(应用程序接口，ApplicationProgramming Interface)接口传输的数据，目前仅能针对有数据特征的数据进行处理，有数据特征的数据是指待识别的数据可以通过数据本身总结或抽象出一个或多个明显区别其它数据的特征，通过单个特征或组合多个特征使用正则、关键字、字典、机器学习模型、脚本等可以对数据进行唯一标识，如个人隐私数据中的姓名、性别、手机号码、邮箱等数据；但是，对于经过API接口传输的无数据特征的数据，则无法自动且快速地进行数据处理，无数据特征是指无法从数据本身通过单个特征或组合多个特征使用正则、关键字、字典、机器学习模型、脚本等可以对数据进行唯一标识，如财务类相关数据、销售类相关的成本/价格/利润…、不同行业中的业务数据等数据；由于无法对无特征数据进行识别、分类以及分级等处理，只能由人工执行，存在效率低下，且影响后续对于数据分析的效果。

因此，有必要设计一种新的方法，实现可对从API接口上传输数据进行采集，且对无特征数据进行定义标签，并自动进行数据的识别、分类以及分级，提高数据处理效率。

发明内容

本发明的目的在于克服现有技术的缺陷，提供无特征数据处理方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：无特征数据处理方法，包括：

获取API接口上传输的数据，以得到待处理数据；

获取终端所定义的数据标签；

获取用户访问的URL，以得到待关联URL；

对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果；

展示所述分析结果。

其进一步技术方案为：所述获取终端所定义的数据标签，包括：

由终端启动浏览器插件，并利用所述浏览器插件拦截用户交互动作的请求信息或响应信息；

由终端根据所拦截的信息定位用户访问指定的页面数据对应的URL及字段；

由终端对用户访问指定的页面数据对应的URL及字段进行数据标签定义，以得到数据标签；

获取所述数据标签。

其进一步技术方案为：所述由终端根据所拦截的信息定位用户访问指定的页面数据对应的URL及字段，包括：

由终端从用户访问页面复制指定的数据，并与所拦截的信息通过使用关键字或正则进行双向模糊匹配，当匹配到数据，获取匹配的数据所对应字段和URL，若页面数据上不同字段对应的数据不相同，则进行再次定位；若页面数据上存在不同字段对应的数据有相同值，则从上一次匹配结果中再次执行页面交互和定位动作，以获取用户访问指定的页面数据对应的URL及字段。

其进一步技术方案为：所述数据标签包括对数据的标识、分类以及分级的定义规则；所述数据标签可引用预置或自定义的数据标识名称、数据分类名称、数据分级名称，以对自定义的数据标识名称、数据分类名称、数据分级名称对应的字段进行数据标识、数据分类、数据分级。

其进一步技术方案为：所述对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果，包括：

对所述待关联URL匹配对应的API接口，以得到目标API接口；

将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联；

将所述数据标签中关于所述待关联URL对应的字段所对应的数据标签关联至所述目标API接口对应的字段，以得到关联结果；

根据所述关联结果生成所述目标API接口所采集的待处理数据对应的标签列表及图形，以得到分析结果。

其进一步技术方案为：所述对所述待关联URL匹配对应的API接口，以得到目标API接口，包括：

对所述待关联URL进行信息分割，以得到访问URL路径；

对所述访问URL路径进行分割，以得到第一有序数组；

对所述API接口进行信息分割和路径分割，以得到第二有序数组；

遍历所述第一有序数组，并将所述第一有序数组与所述第二有序数组相同位置的值进行对比，以确定所述待关联URL所匹配成功的API接口；

对所述待关联URL所匹配成功的API接口进行打标识，以得到目标API接口。

其进一步技术方案为：所述标签列表包括目标API接口名称、用户访问URL、URL对应的字段名称以及数据标签信息；所述图形包括有数据标签和无数据标签的API接口数量统计结果、有数据标签和无数据标签的API接口数量的百分比统计结果、前一百名的API接口数据标签、按天绘制新增数据标签的API接口数量的趋势图以及数据标签类别筛选统计结果。

本发明还提供了无特征数据处理装置，包括：

数据获取单元，用于获取API接口上传输的数据，以得到待处理数据；

标签获取单元，用于获取终端所定义的数据标签；

URL获取单元，用于获取用户访问的URL，以得到待关联URL；

关联单元，用于对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果；

展示单元，用于展示所述分析结果。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过获取API接口上传输的数据，并在终端上定义数据标签，获取用户访问的URL，根据用户访问的URL匹配API接口，并由数据标签和匹配的API接口上传输的数据进行关联，实现可对从API接口上传输数据进行采集，且对无特征数据进行定义标签，并自动进行数据的识别、分类以及分级，提高数据处理效率。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的无特征数据处理方法的应用场景示意图；

图2为本发明实施例提供的无特征数据处理方法的流程示意图；

图3为本发明实施例提供的无特征数据处理方法的子流程示意图；

图4为本发明实施例提供的无特征数据处理方法的子流程示意图；

图5为本发明实施例提供的无特征数据处理方法的子流程示意图；

图6为本发明实施例提供的无特征数据处理装置的示意性框图；

图7为本发明实施例提供的无特征数据处理装置的关联单元的示意性框图；

图8为本发明实施例提供的无特征数据处理装置的匹配子单元的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的无特征数据处理方法的应用场景示意图。图2为本发明实施例提供的无特征数据处理方法的示意性流程图。该无特征数据处理方法应用于管理服务器中。该管理服务器与终端以及应用服务器进行数据交互，其中，应用服务器采集API接口上传输的数据，并传输至管理服务器，终端则用于数据标签的定义，管理服务器结合API接口上传输的数据以及终端所定义的数据标签进行关联分析，并展示分析的结果，另外，在应用服务器上安装有agent，即应用客户端，应用客户端与管理端进行通讯，管理端一般为单独的服务器，通过管理端内设置的采集策略，实时推给应用客户端，结合应用客户端内置的采集开关进行实际采集策略的设定，当有用户通过用户终端发起的数据经过应用客户端的指定接口时，应用客户端采用字节增强技术对数据进行拦截，并采用实际采集策略对拦截的数据进行采集，并对采集到的数据进行缓存。

图2是本发明实施例提供的无特征数据处理方法的流程示意图。如图2所示，该方法包括以下步骤S110至S150。

S110、获取API接口上传输的数据，以得到待处理数据。

在本实施例中，待处理数据是指在API接口上传输的数据，如用户标识、协议、请求和响应等数据。

具体地，应用服务器上的应用客户端获取来自管理端的采集策略；根据所述采集策略采用开关模式设定实际采集策略；采用字节增强技术对访问数据进行拦截；根据所述实际采集策略结合联动机制对拦截的数据采集用户行为数据、应用传输数据，如用户标识、协议、请求和响应等数据，以得到待处理数据。

采集策略包括基于用户标识配置进行数据采集、基于应用服务配置进行数据采集、基于应用接口进行数据采集、根据应用接口的字段进行数据采集、基于所配置的频率进行数据采集以及基于配置的单次数据采集量进行数据采集中至少一种数据采集方式。

相对于网络流量采集和应用网关部署采集受限于特定的网络区域和部署位置，采集范围受限，本实施例在部署时以客户端即应用客户端的方式在应用服务主机上进行部署，部署简单，采集范围不受限制，有统一管理的管理端对应用客户端进行统一的配置管理；在管理端可以基于应用服务、用户标识、应用接口、应用接口字段、采集频率、数据采集量配置单个或组合数据采集策略进行用户行为数据、应用传输数据和应用资产数据的采集，实现数据采集的可管控性，通过在管理端更改采集策略，便可更改应用客户端对数据采集的策略，以达到数据采集的可控性。可以快速的配置数据采集策略，无需进行定点数据采集开发，节约了人力，大大缩短开发周期，提升了工作和项目效率；无需埋点和二开的用户行为数据、应用传输数据和应用资产数据的采集，减少了应用的运行维护和对应用系统的影响，从而可以更多的保障应用的正常运行。在部署时以客户端的方式在应用服务主机上进行部署，有统一管理的管理端对应用客户端进行统一的配置管理；对应用系统架构无影响，对现有的网络架构无任何影响。

具体地，上述的基于用户标识配置进行数据采集的数据采集方式是指基于用户标识配置是否采集应用传输数据，指定单个或多个或全部用户可以或不可以采集用户行为数据应用传输数据和应用资产数据，其中用户标识包括访问的用户账号、访问IP、访问mac、访问浏览器等。

基于应用服务配置进行数据采集的数据采集方式是指基于应用服务配置是否采集应用传输数据和应用资产数据，指定单个或多个或全部应用服务可以或不可以采集应用传输数据。

基于应用接口进行数据采集的数据采集方式是指基于应用接口是否采集应用传输数据和应用资产数据，指定单个或多个或全部应用接口可以或不可以采集应用传输数据。

根据应用接口的字段进行数据采集的数据采集方式是指应用接口的字段配置是否采集应用传输数据，主要通过接口名称上的接口字段进行控制，指定单个或多个或全部的应用接口字段可以或不可以采集应用传输数据。

基于所配置的频率进行数据采集的数据采集方式是通过采集数据的时间周期进行控制。

基于配置的单次数据采集量进行数据采集的数据采集方式主要通过需要采集的数据条数进行控制。

以上的数据采集方式任意组合配置是否采集应用传输数据，比如允许采集某个用户访问某个接口的行为数据或不允许采集指定或全部用户访问指定的某个应用服务的行为数据；由此形成采集策略。

在本实施例中，实际采集策略是指实际用于采集数据的策略，结合了客户端所传输的采集策略以及设定的开关模式，由此组成的多种数据采集策略，且这些数据采集策略按照设定的优先级依序执行。

在本实施例中，所述开关模式包括基于应用服务设置数据采集的开关、基于用户标识设置数据采集的开关、基于应用接口设置数据采集的开关、基于应用接口的字段设置数据采集的开关中至少一种模式；所述开关模式还包括数据采集的周期阀值以及基于单次数据的采集量的过滤规则。

具体地，基于应用服务设置数据采集的开关的模式是指当状态为启用时，应用客户端将打开应用服务的数据采集功能，这是采集功能可以正常工作的前置条件；当状态为关闭时，应用客户端将关闭应用服务的采集功能，此应用服务下所有采集功能将全部被关闭。

基于用户标识设置数据采集的开关的模式是指当状态为启用时，应用客户端打开基于用户标识的数据采集功能；当状态为关闭时，应用客户端关闭基于用户标识的数据采集功能，但其它采集开关和数据采集不受影响，只是不再基于用户标识采集数据。

基于应用接口设置数据采集的开关的模式是指当状态为启用时，默认对所有应用接口执行数据采集，也可以对指定接口的数据定义采集或不采集，其中指定接口可以是单个或多个或全部接口名称结合采集或不采集的标示；当状态为关闭时，默认将关闭基于此应用服务下的应用接口的数据采集功能，但可对指定接口如单个或多个或全部接口名称结合采集的标示的数据进行采集，此时其它采集开关和数据采集不受影响。

基于应用接口的字段设置数据采集的开关的模式指当状态为启用时，默认对所有接口和所有字段执行数据采集，对指定接口和指定字段如单个或多个或全部接口名称加上对应接口的字段名称以及不采集的标示的数据不进行采集；当状态为关闭时，将关闭基于应用接口字段的数据采集功能，但其它采集开关和数据采集不受影响，只是不再基于应用接口字段采集应用传输数据，但对指定接口和指定字段如单个或多个或全部接口名称加上对应接口的字段名称以及采集的标示的数据进行采集，此时其它采集开关和数据采集不受影响。

数据采集的周期阀值是通过采集数据的时间周期计数对需要采集的数据进行控制，针对采集的数据主体为单个的应用服务、服务中的应用接口及接口字段；基于单次数据的采集量的过滤规则是针对单个的应用服务、服务中的应用接口及接口字段的数据条数抽取进行过滤，过滤时将采取前置数据抽取、后置数据抽取、随机抽取、从某个特定数据点进行数据抽取等方式进行过滤。

管理端与应用客户端建立双向的通讯通道，可以随时发送指令给应用客户端，应用客户端亦可根据指令执行并返回执行结果，应用客户端也可通过这个双向的通讯通道主动发送应用客户端的状态等信息给管理端。初始安装时，应用客户端与管理端建立通讯后，管理端可按照应用客户端群组或按照单个的应用客户端进行采集策略的推送，当数据采集策略有进行更新时，亦会实时进行策略推送，应用客户端针对接收到的数据策略，根据采集策略中的不同采集指令执行不同的数据采集逻辑，从而达到可管可控数据采集的功能。

在本实施例中，访问数据是由用户终端发起的数据；拦截的数据是指经过应用客户端的指定接口的数据。

具体地，在Java字节码生成之后，根据Java字节码中定义的规则，对已经生成的Java字节码在JVM加载时进行动态修改，增加增强功能的内容，以根据所述增强功能的内容对访问数据进行拦截，以得到拦截的数据。

使用字节码增强技术，在Java字节码生成之后，根据Java字节码中定义的规则，对已经生成的Java字节码在JVM(Java虚拟机，Java Virtual Machine)加载的时候，进行动态修改，增加需要的字段或者是方法函数、或者继承实现新的类和接口等。这些动态增加的字段、或者方法函数、或者继承实现新的类和接口，都是增强的功能，增强的功能主要是指对方法函数的请求参数和返回结果进行自动提取的功能。

在提取相关数据之前，首先确定所关心的数据在用户一次访问得过程中必定会经过类的方法函数。确定这些方法函数之后，通过字节码增强技术在这些方法函数的调用前和调用后采集数据的逻辑，此时可以根据实际的需求采集到所需要采集到的应用系统，上述的方法函数包括Object first＝methond(String paramer)和/或Object second＝first.methond(String paramer)；

首先会将methond(String paramer)方法的主体内容抽取为一个方法名随机字符串的名称的函数中，比如sdfsdfsd(paramer)；接着将methond(String paramer)方法修改为：

最后在befor()和after()里面采集到的数据会存储在first对象中的某个变量中，这个变量是增强进去的。这样这个变量中的值就可以传递到first.methond(Stringparamer)中的befor和after方法中，这样就能将用户的数据在一次访问的整个生命周期中串联起来。

在提取得数据中，有不同类型的数据、用户标识信息比如用户账号、IP、mac、浏览器等，用户访问时间、访问结果、访问接口、访问数据以及访问次数等，不过这些数据都是分散在用户访问过程中的不同地方，通过上述的方法函数，可以将这些数据汇聚在一起并汇聚到任何的数据接入方，也就是采用字节码增强技术将所有的数据进行拦截汇集。

当用户访问和任务调度的访问数据流和接口调用经过应用客户端的Agent时，应用客户端将使用字节码增强技术对流经的数据进行拦截，基于字节码增强技术中获取的也是应用层协议解析后的传输数据，因此无需对协议进行解析和进行内容还原，所以在采集数据时不受加密协议和私有协议的影响。无需埋点和二开的用户行为数据、应用传输数据和应用资产数据采集，减少了应用的运行维护和对应用系统的影响，从而可以更多的保障应用的正常运行；对应用系统架构无影响，对现有的网络架构无任何影响。

因在应用服务器上部署了应用客户端，可以直接在应用系统上采集到应用组件、应用主机IP、应用实例，再结合上述两种数据采集，可以采集应用资产数据为应用名称、应用服务名称、应用接口、应用组件、应用主机IP、应用实例、数据库名称、数据库IP、数据库端口、数据库类别等。

具体地，根据实际采集策略对拦截的数据流进行数据解析，采集所需的用户行为数据、应用传输数据和应用资产数据。

在本实施例中，根据所述实际采集策略内不同的数据采集逻辑对拦截的数据采集用户行为数据、应用传输数据和应用资产数据；其中，不同的数据采集逻辑按照设定的优先级执行数据采集。

另外，上述的所述用户行为数据包括用户标识、采集时间、用户的访问行为、访问接口、访问数据条数以及访问数据量，所述用户标识包括用户账号、访问IP、访问mac以及访问浏览器；所述应用传输数据包括用户标识、数据传输的时间、协议中所有字段、协议中所有字段所对应的内容、传输的所有请求数据以及传输的所有响应数据；上述的应用传输数据包括用户标识、数据传输的时间、协议字段如http和RPC(远程过程调用，RemoteProcedure Call)等协议所有字段、协议内容如http和RPC(远程过程调用，RemoteProcedure Call)等协议字段所有内容、传输的所有请求数据以及传输的所有响应数据。上述的应用资产数据包括用户标识、应用名称、应用服务名称、应用接口、应用组件、应用主机IP、应用实例、数据传输的时间、数据库名称、数据库IP、数据库端口、数据库类别等。

在本实施例中，上述的优先级为：

当多条策略执行时按照优先级由高到低进行处理，从高到低按照基于应用服务配置进行数据采集的数据采集方式、基于所配置的频率进行数据采集的数据采集方式、基于配置的单次数据采集量进行数据采集的数据采集方式、基于应用接口进行数据采集的数据采集方式、根据应用接口的字段进行数据采集的数据采集方式、基于用户标识配置进行数据采集的数据采集方式进行处理。

当多条策略发生冲突时，按照高优先级处理，从高到低按照基于应用服务配置进行数据采集的数据采集方式、基于所配置的频率进行数据采集的数据采集方式、基于配置的单次数据采集量进行数据采集的数据采集方式、基于应用接口进行数据采集的数据采集方式、根据应用接口的字段进行数据采集的数据采集方式、基于用户标识配置进行数据采集的数据采集方式进行处理。

当执行的数据采集策略逻辑出现问题时，应用客户端将不执行数据采集指令，返回失败结果至管理端。

相对预置埋点和定点二开，本实施例可采集的数据更全面，采集时只需简单配置，因而使得用户行为数据、应用传输数据和应用资产数据的采集变得更简单和更灵活。

管理服务器从客户端接收到采集的数据后，开始进行以下处理：

API接口资产梳理：以API接口为主键梳理关联资产信息，关联的资产信息包括但不限于所属应用、所属服务、所在主机、所属实例、使用的组件等；

API接口数据梳理：以API接口为主键梳理接口上传输的数据，传输的数据包括但不限于协议及其字段信息、接口请求数据、接口响应数据等；

存储API接口的资产和数据信息。

S120、获取终端所定义的数据标签。

在本实施例中，数据标签是指对数据的标识、分类以及分级的定义规则；所述数据标签可引用预置或自定义的数据标识名称、数据分类名称、数据分级名称，以对自定义的数据标识名称、数据分类名称、数据分级名称对应的字段进行数据标识、数据分类、数据分级。

在一实施例中，请参阅图3，上述的步骤S120可包括步骤S121～S124。

S121、由终端启动浏览器插件，并利用所述浏览器插件拦截用户交互动作的请求信息或响应信息。

在本实施例中，在终端上安装并启动浏览器插件，具体是在用户访问应用的浏览器上安装并启动浏览器插件；当用户访问应用系统并执行交互动作时，可借助浏览器插件拦截用户交互动作的请求信息或响应信息。

浏览器插件的核心功能如下：通过管理服务器进行认证管理；通过重写浏览器底层API的请求与接收方法，比如XML Http Request，拦截用户访问应用时的请求和响应数据，并对数据进行定位分析，目前支持ajax、fetch请求及响应类型；在浏览器插件上进行数据标签操作并将标签数据同步到管理平台；支持的浏览器类型：谷歌、火狐、360、QQ、搜狗。

在终端的浏览器上通过扩展程序进行插件安装；启动浏览器插件；基于浏览器上弹出交互界面，操作前需要进行认证登录操作：浏览器插件需要进行登录认证，登录认证来自管理服务器的用户管理和角色管理，只有被授权使用浏览器插件的用户才能登录使用。

用户在浏览器上登录应用系统，基于访问页面执行请求和响应的交互动作，以下针对请求和响应的使用以下示例进行说明：

请求信息是指注册账号输入个人信息，如姓名、手机号码、地址、邮箱，并执行提交动作；

响应信息是指查询用户手机号码并获取列表信息，如姓名、手机号码。

另外，拦截请求信息时，具体操作如下：以注册账号输入个人信息，如用户账号、姓名、手机号码、年龄，并提交为例说明，此时插件将拦截到用户访问的URL(统一资源定位器，Uniform Resource Locator)，URL格式为‘协议类型://服务器地址[:端口号]/路径/文件名[参数＝值]’，获取请求信息中的数据，如姓名、手机号码、地址、邮箱，以及数据对应的字段。

拦截响应信息时，具体操作如下：以用户账号查询并获取用户列表信息，比如用户账号、姓名、手机号码、年龄，为例说明，此时插件将拦截到用户访问的URL，URL格式为‘协议类型://服务器地址[:端口号]/路径/文件名[参数＝值]’，获取响应信息中的数据，如姓名、手机号码，以及数据对应的字段。

S122、由终端根据所拦截的信息定位用户访问指定的页面数据对应的URL及字段。

在本实施例中，由终端从用户访问页面复制指定的数据，并与所拦截的信息通过使用关键字或正则进行双向模糊匹配，当匹配到数据，获取匹配的数据所对应字段和URL，若页面数据上不同字段对应的数据不相同，则进行再次定位；若页面数据上存在不同字段对应的数据有相同值，则从上一次匹配结果中再次执行页面交互和定位动作，以获取用户访问指定的页面数据对应的URL及字段。

具体地，对于请求信息的匹配及访问字段和URL定位时，从用户访问页面复制指定的提交数据，如文本框/下拉框/单选框/复选框等输入数据，以注册账号时的‘用户账号’提交数据作为示例说明，用户输入的‘用户账号’信息数据与插件拦截到的请求数据通过使用关键字或正则进行双向模糊匹配，即用户账号会与拦截数据进行模糊匹配，拦截的数据会与用户账号进行模糊匹配，如果匹配到数据，则获取匹配的请求数据所对应字段和URL，如果页面上不同字段对应的数据并不相同，一般可以一次定位，大部分时候会定位到一个URL和一个字段，如果页面上存在不同字段对应的数据有相同值，则用户可以在上一次匹配结果中再次执行页面交互和定位动作，需定位字段取数尽量不要与其它字段取数相同，直至完成字段和URL定位。

当进行响应数据的匹配及访问字段和URL定位时，从用户访问页面复制响应返回数据，如列表字段、概要统计、图形统计等对应数据，以用户账号查询并获取用户的‘年龄’数据信息作为示例说明，如数字类型的进行单向精准匹配，使用查询返回的‘年龄’数据与与插件拦截到的响应数据通过使用正则进行单向精准匹配，即返回的‘年龄’数据会与拦截到的响应数据进行精准匹配，如果匹配到数据，则获取匹配的请求数据所对应字段和URL，如果页面上不同字段对应的数据并不相同，一般可以一次定位，大部分时候会定位到一个URL和一个字段，如果页面上存在不同字段对应的数据有相同值，则用户可以再次执行页面交互和定位动作，需定位字段取数尽量不要与其它字段取数相同，直至完成字段和URL定位。

S123、由终端对用户访问指定的页面数据对应的URL及字段进行数据标签定义，以得到数据标签。

在本实施例中，当应用系统页面上指定的数据被定位后，则可以对定位到URL字段进行数据标签操作，对数据标签主要包括对数据标识、数据分类、数据分级，可以直接在交互页面上引用管理平台预置或自定义的数据标识名称、数据分类名称、数据分级名称，以对此字段进行数据标识、数据分类、数据分级，完成对字段的数据标签后，提交将数据标签信息同步到管理服务器。

S124、获取所述数据标签。

S130、获取用户访问的URL，以得到待关联URL。

在本实施例中，待关联URL是指用户访问的URL。

管理服务器从浏览器插件获取到用户访问的URL，在根据存储在管理服务器上的API接口数据，根据用户访问URL去匹配对应的API接口。

S140、对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果。

在本实施例中，分析结果是指用户访问URL所匹配的API接口所采集的待处理数据对应的标签列表及图形。自定义的标签可包括电话、财务等类型，可按照优先等级进行，在进行标识时，可针对个人隐私数据，姓名、地址、各个企业进行自定义，自动化管理分类和分级。

在一实施例中，请参阅图4，上述的步骤S140可包括步骤S141～S144。

S141、对所述待关联URL匹配对应的API接口，以得到目标API接口。

在本实施例中，目标API接口是指依据待关联URL生成的数组与依据API接口生成的数组中的字符串数量和值等同；两个数组中的字符串数量为变量，依据API接口生成的数组中对应位置为变量，这符合这两个条件的API接口。

在一实施例中，请参阅图5，上述的步骤S141可包括步骤S1411～S1416。

S1411、对所述待关联URL进行信息分割，以得到访问URL路径。

在本实施例中，访问URL路径是指访问URL信息中的指定位置的信息。

根据”//”从访问URL中分离出协议信息。以访问URL为‘https://主机:端口/system/user/getPage’作为示例，本示例中为https，再根据”/”分割url得出‘主机、端口和/system/user/getPage’，其中‘/system/user/getPage’为路径。

S1412、对所述访问URL路径进行分割，以得到第一有序数组。

在本实施例中，第一有序数组是指对访问URL路径进行单个字段的划分，以得到的数组。

将路径/system/user/getPage再根据“/”逐级分割成/system、/user、/getPage，得到有序数组A，由此得到第一有序数组。

S1413、对所述API接口进行信息分割和路径分割，以得到第二有序数组。

对于API接口也可按照上述的步骤S1411～S1412进行分割，得到有序数组B，即第二有序数组；此处不再赘述。

S1415、遍历所述第一有序数组，并将所述第一有序数组与所述第二有序数组相同位置的值进行对比，以确定所述待关联URL所匹配成功的API接口。

遍历有序数组A，逐个与有序数组B中相同位置值进行比较，如下两种情况，认为用户访问URL与API接口匹配成功：一种是有序数组A和有序数组B中的字符串数量和值等同；另外一种是有序数组A和有序数组B中的字符串数量为变量，有序数组B中对应位置为变量。

S1416、对所述待关联URL所匹配成功的API接口进行打标识，以得到目标API接口。

对用户访问URL匹配成功的API接口打上对应的标识，标识此用户访问URL与匹配成功的API接口等同。

S142、将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联。

在本实施例中，当用户访问URL与目标API接口关联对应后，此时对比字段名称，将用户访问URL下的字段名称与API接口下的字段名称进行关联，字段名称的值相同则进行关联。

S143、将所述数据标签中关于所述待关联URL对应的字段所对应的数据标签关联至所述目标API接口对应的字段，以得到关联结果。

在本实施例中，关联结果是指所述数据标签中关于所述待关联URL对应的字段所对应的数据标签与所述目标API接口对应的字段关联所得到的结果。

根据此前用户对访问URL下字段所定义的数据标签，如数据标识、数据分类、数据分级，将数据标签关联到目标API接口下已经对应关联的字段下。

S144、根据所述关联结果生成所述目标API接口所采集的待处理数据对应的标签列表及图形，以得到分析结果。

所述标签列表包括目标API接口名称、用户访问URL、URL对应的字段名称以及数据标签信息；所述图形包括有数据标签和无数据标签的API接口数量统计结果、有数据标签和无数据标签的API接口数量的百分比统计结果、前一百名的API接口数据标签、按天绘制新增数据标签的API接口数量的趋势图以及数据标签类别筛选统计结果。

具体地，数据标签类别筛选统计结果是指设置数据标识、数据分类、数据分级的具体筛选子项，统计API接口数量、整体占比。

S150、展示所述分析结果。

基于应用系统访问页面实现API接口传输无特征数据进行数据标识、数据分类和数据分级，首先基于字节码增强技术，通过对应用服务器上的服务安装agent，实现了对API接口上传输数据的采集，再基于浏览器应用开发的插件实现用户在应用系统访问页面上对可见的数据直接进行数据标签的定义，实现了对数据的可见即可定义标签的功能，并可推广至各业务系统使用用户进行数据标签定义。

本实施例基于字节码增强技术采集API接口数据，基于浏览器插件对访问页面的无特征数据进行数据标签操作，并结合API接口数据和数据标签操作信息进行数据关联分析，将应用访问页面上定义的数据标签信息与API接口字段关联并进行映射，从而达到对传输的API接口字段数据进行数据标签管理的目标，解决了行业对于API接口传输无特征数据无法进行数据标签的难题；解决了数据标签中数据分类和数据分级落地困难的难题：基于应用系统页面上对可见数据直接进行数据标签定义，可见即可定义，无需专业的安全人员或开发人员等进行识别和操作，操作简单，落地便捷；对于有特征数据的数据标签定义同样适用。

上述的无特征数据处理方法，通过获取API接口上传输的数据，并在终端上定义数据标签，获取用户访问的URL，根据用户访问的URL匹配API接口，并由数据标签和匹配的API接口上传输的数据进行关联，实现可对从API接口上传输数据进行采集，且对无特征数据进行定义标签，并自动进行数据的识别、分类以及分级，提高数据处理效率。

图6是本发明实施例提供的一种无特征数据处理装置300的示意性框图。如图6所示，对应于以上无特征数据处理方法，本发明还提供一种无特征数据处理装置300。该无特征数据处理装置300包括用于执行上述无特征数据处理方法的单元，该装置可以被配置于服务器中。具体地，请参阅图6，该无特征数据处理装置300包括数据获取单元301、标签获取单元302、URL获取单元303、关联单元304以及展示单元305。

数据获取单元301，用于获取API接口上传输的数据，以得到待处理数据；标签获取单元302，用于获取终端所定义的数据标签；URL获取单元303，用于获取用户访问的URL，以得到待关联URL；关联单元304，用于对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果；展示单元305，用于展示所述分析结果。

在一实施例中，标签获取单元302，用于由终端启动浏览器插件，并利用所述浏览器插件拦截用户交互动作的请求信息或响应信息；由终端根据所拦截的信息定位用户访问指定的页面数据对应的URL及字段；由终端对用户访问指定的页面数据对应的URL及字段进行数据标签定义，以得到数据标签；获取所述数据标签。

具体地，所述标签获取单元302，用于由终端从用户访问页面复制指定的数据，并与所拦截的信息通过使用关键字或正则进行双向模糊匹配，当匹配到数据，获取匹配的数据所对应字段和URL，若页面数据上不同字段对应的数据不相同，则进行再次定位；若页面数据上存在不同字段对应的数据有相同值，则从上一次匹配结果中再次执行页面交互和定位动作，以获取用户访问指定的页面数据对应的URL及字段。

在一实施例中，如图7所示，所述关联单元304包括匹配子单元3041、字段关联子单元3042、标签关联子单元3043以及分析子单元3044。

匹配子单元3041，用于对所述待关联URL匹配对应的API接口，以得到目标API接口；字段关联子单元3042，用于将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联；标签关联子单元3043，用于将所述数据标签中关于所述待关联URL对应的字段所对应的数据标签关联至所述目标API接口对应的字段，以得到关联结果；分析子单元3044，用于根据所述关联结果生成所述目标API接口所采集的待处理数据对应的标签列表及图形，以得到分析结果。

在一实施例中，如图8所示，所述匹配子单元3041包括第一分割模块30411、第二分割模块30412、第三分割模块30413、遍历模块30414以及标识处理模块30415。

第一分割模块30411，用于对所述待关联URL进行信息分割，以得到访问URL路径；第二分割模块30412，用于对所述访问URL路径进行分割，以得到第一有序数组；第三分割模块30413，用于对所述API接口进行信息分割和路径分割，以得到第二有序数组；遍历模块30414，用于遍历所述第一有序数组，并将所述第一有序数组与所述第二有序数组相同位置的值进行对比，以确定所述待关联URL所匹配成功的API接口；标识处理模块30415，用于对所述待关联URL所匹配成功的API接口进行打标识，以得到目标API接口。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述无特征数据处理装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述无特征数据处理装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种无特征数据处理方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种无特征数据处理方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取API接口上传输的数据，以得到待处理数据；获取终端所定义的数据标签；获取用户访问的URL，以得到待关联URL；对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果；展示所述分析结果。

其中，所述数据标签包括对数据的标识、分类以及分级的定义规则；所述数据标签可引用预置或自定义的数据标识名称、数据分类名称、数据分级名称，以对自定义的数据标识名称、数据分类名称、数据分级名称对应的字段进行数据标识、数据分类、数据分级。

在一实施例中，处理器502在实现所述获取终端所定义的数据标签步骤时，具体实现如下步骤：

由终端启动浏览器插件，并利用所述浏览器插件拦截用户交互动作的请求信息或响应信息；由终端根据所拦截的信息定位用户访问指定的页面数据对应的URL及字段；由终端对用户访问指定的页面数据对应的URL及字段进行数据标签定义，以得到数据标签；获取所述数据标签。

在一实施例中，处理器502在实现所述由终端根据所拦截的信息定位用户访问指定的页面数据对应的URL及字段步骤时，具体实现如下步骤：

在一实施例中，处理器502在实现所述对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果步骤时，具体实现如下步骤：

对所述待关联URL匹配对应的API接口，以得到目标API接口；将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联；将所述数据标签中关于所述待关联URL对应的字段所对应的数据标签关联至所述目标API接口对应的字段，以得到关联结果；根据所述关联结果生成所述目标API接口所采集的待处理数据对应的标签列表及图形，以得到分析结果。

其中，所述标签列表包括目标API接口名称、用户访问URL、URL对应的字段名称以及数据标签信息；所述图形包括有数据标签和无数据标签的API接口数量统计结果、有数据标签和无数据标签的API接口数量的百分比统计结果、前一百名的API接口数据标签、按天绘制新增数据标签的API接口数量的趋势图以及数据标签类别筛选统计结果。

在一实施例中，处理器502在实现所述对所述待关联URL匹配对应的API接口，以得到目标API接口步骤时，具体实现如下步骤：

对所述待关联URL进行信息分割，以得到访问URL路径；对所述访问URL路径进行分割，以得到第一有序数组；对所述API接口进行信息分割和路径分割，以得到第二有序数组；遍历所述第一有序数组，并将所述第一有序数组与所述第二有序数组相同位置的值进行对比，以确定所述待关联URL所匹配成功的API接口；对所述待关联URL所匹配成功的API接口进行打标识，以得到目标API接口。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述获取终端所定义的数据标签步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述由终端根据所拦截的信息定位用户访问指定的页面数据对应的URL及字段步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述待关联URL匹配对应的API接口，以得到目标API接口步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.无特征数据处理方法，其特征在于，包括：

获取API接口上传输的数据，以得到待处理数据；

获取终端所定义的数据标签；

获取用户访问的URL，以得到待关联URL；

展示所述分析结果。

2.根据权利要求1所述的无特征数据处理方法，其特征在于，所述获取终端所定义的数据标签，包括：

获取所述数据标签。

3.根据权利要求2所述的无特征数据处理方法，其特征在于，所述由终端根据所拦截的信息定位用户访问指定的页面数据对应的URL及字段，包括：

4.根据权利要求1所述的无特征数据处理方法，其特征在于，所述数据标签包括对数据的标识、分类以及分级的定义规则；所述数据标签可引用预置或自定义的数据标识名称、数据分类名称、数据分级名称，以对自定义的数据标识名称、数据分类名称、数据分级名称对应的字段进行数据标识、数据分类、数据分级。

5.根据权利要求1所述的无特征数据处理方法，其特征在于，所述对所述待关联URL匹配对应的API接口，并对所述数据标签以及待处理数据进行关联分析，以得到分析结果，包括：

对所述待关联URL匹配对应的API接口，以得到目标API接口；

6.根据权利要求5所述的无特征数据处理方法，其特征在于，所述对所述待关联URL匹配对应的API接口，以得到目标API接口，包括：

对所述待关联URL进行信息分割，以得到访问URL路径；

对所述访问URL路径进行分割，以得到第一有序数组；

7.根据权利要求5所述的无特征数据处理方法，其特征在于，所述标签列表包括目标API接口名称、用户访问URL、URL对应的字段名称以及数据标签信息；所述图形包括有数据标签和无数据标签的API接口数量统计结果、有数据标签和无数据标签的API接口数量的百分比统计结果、前一百名的API接口数据标签、按天绘制新增数据标签的API接口数量的趋势图以及数据标签类别筛选统计结果。

8.无特征数据处理装置，其特征在于，包括：

标签获取单元，用于获取终端所定义的数据标签；

URL获取单元，用于获取用户访问的URL，以得到待关联URL；

展示单元，用于展示所述分析结果。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。