CN115426299A - 无特征数据标识方法、装置、计算机设备及存储介质 - Google Patents

无特征数据标识方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115426299A
CN115426299A CN202211286283.1A CN202211286283A CN115426299A CN 115426299 A CN115426299 A CN 115426299A CN 202211286283 A CN202211286283 A CN 202211286283A CN 115426299 A CN115426299 A CN 115426299A
Authority
CN
China
Prior art keywords
data
url
identification
traffic
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211286283.1A
Other languages
English (en)
Other versions
CN115426299B (zh
Inventor
黄俊辉
刘新凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hongtu Technology Co ltd
Original Assignee
Shenzhen Hongtu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hongtu Technology Co ltd filed Critical Shenzhen Hongtu Technology Co ltd
Priority to CN202211286283.1A priority Critical patent/CN115426299B/zh
Publication of CN115426299A publication Critical patent/CN115426299A/zh
Application granted granted Critical
Publication of CN115426299B publication Critical patent/CN115426299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了无特征数据标识方法、装置、计算机设备及存储介质。所述方法包括:获取并处理客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据;获取浏览器插件自定义的数据标签内容;根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果;展示所述标识结果。通过实施本发明实施例的方法可实现解决经营数据等多种无特征数据进行数据标识困难的问题,突破无特征数据难以打标的困境。

Description

无特征数据标识方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理方法,更具体地说是指无特征数据标识方法、装置、计算机设备及存储介质。
背景技术
随着企业业务形态的演变,企业网络活动和复杂的应用系统结构中流转着庞大数量级的数据,这些数据种类繁多,类型涉及个人信息、业务经营和行业特有的数据种类。面对动态流转的经营类数据,企业面临着严峻数据安全挑战。在行业监管背景下,依照国家法律法规和行业标准要求,企业需对数据标记数据标签,并进行分类分级工作,以便加强对数据资产的管理能力。
目前现有的数据标签技术对于有特征数据,有特征数据是指可通过数据本身总结得出数据的一般特征或特性的汇总,例如身份证号、手机号、性别、地址、邮箱等数据,对于此类有特征数据一般通过使用正则表达式、关键字、字典或者机器学习模型来进行识别和标识,有特征数据打标标签目前市面上的方案与产品相对成熟。虽然能够解决大部分的有特征数据的识别和标识问题,但针对网络流量传输的、无法通过数据本身总结得出数据具有的特征和特性,例如经营数据、财务数据以及与行业本身特性相关的数据类型等无特征数据,市面上的技术手段难以通过使用正则表达式、关键字、字典或者机器学习模型去匹配此类数据的特征,难以进行识别和标识,并进一步完成分类和分级工作,目前市面上暂时没有根据网络流量传输的无特征数据进行数据标签的产品和解决方案。
因此,有必要设计一种新的方法,实现解决经营数据等多种无特征数据进行数据标识困难的问题,突破无特征数据难以打标的困境。
发明内容
本发明的目的在于克服现有技术的缺陷,提供无特征数据标识方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:无特征数据标识方法,包括:
获取并处理客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据;
获取浏览器插件自定义的数据标签内容;
根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果;
展示所述标识结果。
其进一步技术方案为:所述流量数据是当访问数据流和应用调用数据流经过客户端的流量Agent时,流量Agent采用TCP采集器根据管理端配置的数据采集策略对流经的数据进行拦截,并打包为PCAP包,将PCAP包传输至文件服务器或者存储至硬盘中形成的数据。
其进一步技术方案为:所述获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据,包括:
获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到PCAP包;
对所述PCAP包进行解析,以得到原始HTTP内容;
对所述原始HTTP内容进行不同类型数据的解析,以得到流量数据。
其进一步技术方案为:所述数据标签内容是通过浏览器插件对访问页面执行请求和响应的交互动作的信息进行拦截,定位访问URL字段,并对所述URL字段进行数据标签操作形成的。
其进一步技术方案为:所述数据标签操作包括对数据标识、数据分类、数据分级;在交互页面上引用管理平台预置或自定义的数据标识名称、数据分类名称、数据分级名称,以对URL字段进行数据标识、数据分类、数据分级。
其进一步技术方案为:所述根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果,包括:
获取用户访问的URL,以得到待关联URL;
对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果。
其进一步技术方案为:所述对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果,包括:
对所述待关联URL匹配对应的API接口,以得到目标API接口;
将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联;
将所述数据标签内容中关于所述待关联URL对应的字段所对应的数据标签内容关联至所述目标API接口对应的字段,以得到关联结果;
根据所述关联结果生成所述目标API接口所采集的流量数据对应的标签列表,以得到标识结果。
本发明还提供了无特征数据标识装置,包括:
数据获取单元,用于获取并处理客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据;
标签内容获取单元,用于获取浏览器插件自定义的数据标签内容;
关联单元,用于根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果;
展示单元,用于展示所述标识结果。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过基于网络流量抓取和解析实现对传输的无特征数据进行数据标识,借助管理端配置数据采集策略,再通过流量采集模块抓取网络流量并解析内容,借助用户访问应用的浏览器插件提交自定义数据标签操作,统一进行数据标签的关联分析和展示,实现解决经营数据等多种无特征数据进行数据标识困难的问题,突破无特征数据难以打标的困境。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的无特征数据标识方法的应用场景示意图;
图2为本发明实施例提供的无特征数据标识方法的流程示意图;
图3为本发明实施例提供的无特征数据标识方法的子流程示意图;
图4为本发明实施例提供的无特征数据标识方法的子流程示意图;
图5为本发明实施例提供的无特征数据标识方法的子流程示意图;
图6为本发明实施例提供的浏览器插件示意图;
图7为本发明实施例提供的无特征数据标识装置的示意性框图;
图8为本发明实施例提供的无特征数据标识装置的数据获取单元的示意性框图;
图9为本发明实施例提供的无特征数据标识装置的关联单元的示意性框图;
图10为本发明实施例提供的无特征数据标识装置的关联分析子单元的示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的无特征数据标识方法的应用场景示意图。图2为本发明实施例提供的无特征数据标识方法的示意性流程图。该无特征数据标识方法应用于管理服务器中。该管理服务器与终端以及应用服务器进行数据交互,其中,应用服务器采集网络流量,并进行打包,由管理服务器的嗅探器解析数据包,并传输至管理服务器,终端则用于数据标签的定义,管理服务器结合API接口上传输的数据以及终端所定义的数据标签进行关联分析,并展示分析的结果,另外,在应用服务器上安装有agent,即应用客户端,应用客户端与管理端进行通讯,管理端一般为单独的服务器,通过管理端内设置的采集策略,实时推给应用客户端,结合应用客户端内置的采集开关进行实际采集策略的设定,当有用户通过用户终端发起的数据经过应用客户端的指定接口时,应用客户端采用字节增强技术对数据进行拦截,并采用实际采集策略对拦截的数据进行采集,并对采集到的数据进行缓存。
本实施例的方法基于管理端的使用,按需合理配置采集策略;基于流量采集模块的使用,资源占用小,高效全面采集解析网络流量;基于数据标签自定义模块的使用,仅需要配合浏览器操作,即可完成无特征数据的数据标识,不影响业务流程;基于管理服务器的使用,高效管理数据标签结果,灵活调整,确保准确性。
图2是本发明实施例提供的无特征数据标识方法的流程示意图。如图2所示,该方法包括以下步骤S110至S140。
S110、获取并处理客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据。
在本实施例中,所述流量数据是当访问数据流和应用调用数据流经过客户端的流量Agent时,流量Agent采用TCP采集器根据管理端配置的数据采集策略对流经的数据进行拦截,并打包为PCAP包,将PCAP包传输至文件服务器或者存储至硬盘中形成的数据。
在本实施例中,企业在日常运营过程中产生经营数据的流转和存储;企业业务人员与应用系统进行交互,产生访问行为;管理端预先配置好数据采集的策略,设置所需采集数据的应用、接口、用户、评率和采集数据量;管理端与应用客户端建立通讯通道,按照采集策略执行数据采集操作;当访问数据流和应用调用数据流经过应用客户端的流量Agent时,流量Agent采用TCP采集器对流经的数据即网络流量进行拦截;TCP采集器一般部署在交换机或网关上,将网络流量打包为PCAP包;将PCAP包传输至文件服务器或者存储至硬盘中;嗅探器解析PCAP包数据,输出结果为原始的HTTP内容,包含所需的用户行为数据和应用传输数据,如用户标识、协议、请求和响应等数据。
在一实施例中,请参阅图3,上述的步骤S110可包括步骤S111~ S113。
S111、获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到PCAP包。
利用管理端配置的数据采集策略采集对应的网络流量,属于现有技术,此处不再赘述。
S112、对所述PCAP包进行解析,以得到原始HTTP内容。
在本实施例中,原始HTTP内容包含所需的用户行为数据和应用传输数据,如用户标识、协议、请求和响应等数据。
S113、对所述原始HTTP内容进行不同类型数据的解析,以得到流量数据。
在本实施例中,对原始HTTP内容进行处理,解析出所需要的不同类型的数据,有用户标识信息,比如用户账号、IP、MAC、浏览器信息等;有用户访问时间,访问结果,访问数据、访问次数等;有协议字段及内容数据,如HTTP字段名称、字段中对应的信息;有应用传输中请求数据和响应数据;有应用调用的接口信息和数据。
本实施例的方法借助流量Agent,解析原始HTTP内容,覆盖全面不遗漏信息。
S120、获取浏览器插件自定义的数据标签内容。
在本实施例中,所述数据标签内容是通过浏览器插件对访问页面执行请求和响应的交互动作的信息进行拦截,定位访问URL字段,并对所述URL字段进行数据标签操作形成的。
具体地,所述数据标签操作包括对数据标识、数据分类、数据分级;在交互页面上引用管理平台预置或自定义的数据标识名称、数据分类名称、数据分级名称,以对URL字段进行数据标识、数据分类、数据分级。
在本实施例中,使用数据标签自定义模块,首先需要在业务系统用户访问应用的浏览器上安装和启动浏览器插件,如图6所示;业务系统用户在应用系统上正常进行业务操作,基于访问页面执行请求即Request和响应即Response的交互动作,以下针对Request和Response的使用以下示例进行说明Request:业务系统录入客户个人信息(姓名、手机号码、地址、邮箱)并执行提交动作;Response:查询客户的个人信息,如手机号码并获取列表信息;浏览器插件会对业务系统用户交互动作的请求(Request)或响应(Response)信息进行拦截;此时插件将拦截到用户访问的URL(统一资源定位器,Uniform Resource Locator),URL格式为‘协议类型://服务器地址[:端口号]/路径/文件名[参数=值]’,获取Request/Response中的数据,以及数据对应的字段;当业务系统页面上指定的数据被定位后,则可以对定位到URL字段进行数据标签操作,对数据标签主要包括对数据标识、数据分类、数据分级,可以直接在交互页面上引用管理平台预置或自定义的数据标识名称、数据分类名称、数据分级名称,以对此字段进行数据标识、数据分类、数据分级;业务系统用户完成对字段的数据标签打标后,将数据标签信息提交同步至管理服务器。业务人员直接通过浏览器进行数据标识,业务开展过程中即可完成经营数据打标工作。
S130、根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果。
在本实施例中,标识结果是指根据流量数据以及数据标签内容对无特征数据进行标签关联所形成的标识内容。
在一实施例中,请参阅图4,上述的步骤S130可包括步骤S131~ S132。
S131、获取用户访问的URL,以得到待关联URL。
在本实施例中,待关联URL是指用户访问的URL。
管理服务器从浏览器插件获取到用户访问的URL,在根据存储在管理服务器上的API接口数据,根据用户访问URL去匹配对应的API接口。
S132、对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果。
在一实施例中,请参阅图5,上述的步骤S132可包括步骤S1321~ S1324。
S1321、对所述待关联URL匹配对应的API接口,以得到目标API接口;
S1322、将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联;
S1323、将所述数据标签内容中关于所述待关联URL对应的字段所对应的数据标签内容关联至所述目标API接口对应的字段,以得到关联结果;
S1324、根据所述关联结果生成所述目标API接口所采集的流量数据对应的标签列表,以得到标识结果。
在本实施例中,URL对应的字段与API接口对应的字段对比关联;当用户访问URL与API接口关联对应后,此时对比字段名称,将用户访问URL下的字段名称与API接口下的字段名称进行,值相同即进行关联;对无数据特征的API接口进行数据标签;根据此前用户对访问URL下字段所定义的数据标签,如数据标识、数据分类、数据分级,将其关联到API接口下已经对应关联的字段下,即可实现无特征数据的标识。改变以往数据标识的模式,解决后台操作打标不直观,难以找到对应的无特征数据的问题。
S140、展示所述标识结果。
本实施例的方法借助管理端配置数据采集策略,流量采集模块Agent按照预定采集策略对网络流量进行拦截和解析,再通过浏览器插件的数据标签自定义模块将网页上的数据进行打标,最后借助管理后台关联数据标签和接口,展示数据标签结果,实现解决经营数据等多种无特征数据的数据进行数据标识困难的问题,极大突破无特征数据难以打标的困境。
管理端单独进行部署安装,配置完成后与应用客户端建立通讯通道,执行数据采集策略;流量采集模块根据制定的数据采集策略,对网络流量进行采集和解析;数据标签自定义模块通过在用户访问应用浏览器上安装浏览器插件,获取用户交互动作信息,并将用户自定义的数据标签提交;管理服务器关联自定义无特征数据的数据标签和接口信息,对标签结果进行列表展示。
针对无特征数据的打标,能够有效地描述出业务实体的特征,方便用户查找分类梳理数据资产,通过不断丰富的无特征的数据标签类别,以更扩展的分析角度,全面、准确地分析数据对象,以更好地应对数据安全的风险和威胁。
上述的无特征数据标识方法,通过基于网络流量抓取和解析实现对传输的无特征数据进行数据标识,借助管理端配置数据采集策略,再通过流量采集模块抓取网络流量并解析内容,借助用户访问应用的浏览器插件提交自定义数据标签操作,统一进行数据标签的关联分析和展示,实现解决经营数据等多种无特征数据进行数据标识困难的问题,突破无特征数据难以打标的困境。
图7是本发明实施例提供的一种无特征数据标识装置300的示意性框图。如图7所示,对应于以上无特征数据标识方法,本发明还提供一种无特征数据标识装置300。该无特征数据标识装置300包括用于执行上述无特征数据标识方法的单元,该装置可以被配置于服务器中。具体地,请参阅图7,该无特征数据标识装置300包括数据获取单元301、标签内容获取单元302、关联单元303以及展示单元304。
数据获取单元301,用于获取并处理客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据;标签内容获取单元302,用于获取浏览器插件自定义的数据标签内容;关联单元303,用于根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果;展示单元304,用于展示所述标识结果。
在一实施例中,如图8所示,所述数据获取单元301包括数据包获取子单元3011、数据包解析子单元3012以及数据解析子单元3013。
数据包获取子单元3011,用于获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到PCAP包;数据包解析子单元3012,用于对所述PCAP包进行解析,以得到原始HTTP内容;数据解析子单元3013,用于对所述原始HTTP内容进行不同类型数据的解析,以得到流量数据。
在一实施例中,如图9所示,所述关联单元303包括URL获取子单元3031以及关联分析子单元3032。
URL获取子单元3031,用于获取用户访问的URL,以得到待关联URL;关联分析子单元3032,用于对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果。
在一实施例中,如图10所示,所述关联分析子单元3032包括接口匹配模块30321、字段关联模块30322、标签内容关联模块30323以及列表生成模块30324。
接口匹配模块30321,用于对所述待关联URL匹配对应的API接口,以得到目标API接口;字段关联模块30322,用于将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联;标签内容关联模块30323,用于将所述数据标签内容中关于所述待关联URL对应的字段所对应的数据标签内容关联至所述目标API接口对应的字段,以得到关联结果;列表生成模块30324,用于根据所述关联结果生成所述目标API接口所采集的流量数据对应的标签列表,以得到标识结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述无特征数据标识装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述无特征数据标识装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种无特征数据标识方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种无特征数据标识方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取并处理客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据;获取浏览器插件自定义的数据标签内容;根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果;展示所述标识结果。
其中,所述流量数据是当访问数据流和应用调用数据流经过客户端的流量Agent时,流量Agent采用TCP采集器根据管理端配置的数据采集策略对流经的数据进行拦截,并打包为PCAP包,将PCAP包传输至文件服务器或者存储至硬盘中形成的数据。
在一实施例中,处理器502在实现所述获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据步骤时,具体实现如下步骤:
获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到PCAP包;对所述PCAP包进行解析,以得到原始HTTP内容;对所述原始HTTP内容进行不同类型数据的解析,以得到流量数据。
其中,所述数据标签内容是通过浏览器插件对访问页面执行请求和响应的交互动作的信息进行拦截,定位访问URL字段,并对所述URL字段进行数据标签操作形成的。
所述数据标签操作包括对数据标识、数据分类、数据分级;在交互页面上引用管理平台预置或自定义的数据标识名称、数据分类名称、数据分级名称,以对URL字段进行数据标识、数据分类、数据分级。
在一实施例中,处理器502在实现所述根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果步骤时,具体实现如下步骤:
获取用户访问的URL,以得到待关联URL;对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果。
在一实施例中,处理器502在实现所述对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果步骤时,具体实现如下步骤:
对所述待关联URL匹配对应的API接口,以得到目标API接口;将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联;将所述数据标签内容中关于所述待关联URL对应的字段所对应的数据标签内容关联至所述目标API接口对应的字段,以得到关联结果;根据所述关联结果生成所述目标API接口所采集的流量数据对应的标签列表,以得到标识结果。
应当理解,在本申请实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取并处理客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据;获取浏览器插件自定义的数据标签内容;根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果;展示所述标识结果。
其中,所述流量数据是当访问数据流和应用调用数据流经过客户端的流量Agent时,流量Agent采用TCP采集器根据管理端配置的数据采集策略对流经的数据进行拦截,并打包为PCAP包,将PCAP包传输至文件服务器或者存储至硬盘中形成的数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据步骤时,具体实现如下步骤:
获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到PCAP包;对所述PCAP包进行解析,以得到原始HTTP内容;对所述原始HTTP内容进行不同类型数据的解析,以得到流量数据。
其中,所述数据标签内容是通过浏览器插件对访问页面执行请求和响应的交互动作的信息进行拦截,定位访问URL字段,并对所述URL字段进行数据标签操作形成的。
所述数据标签操作包括对数据标识、数据分类、数据分级;在交互页面上引用管理平台预置或自定义的数据标识名称、数据分类名称、数据分级名称,以对URL字段进行数据标识、数据分类、数据分级。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果步骤时,具体实现如下步骤:
获取用户访问的URL,以得到待关联URL;对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果步骤时,具体实现如下步骤:
对所述待关联URL匹配对应的API接口,以得到目标API接口;将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联;将所述数据标签内容中关于所述待关联URL对应的字段所对应的数据标签内容关联至所述目标API接口对应的字段,以得到关联结果;根据所述关联结果生成所述目标API接口所采集的流量数据对应的标签列表,以得到标识结果。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.无特征数据标识方法,其特征在于,包括:
获取并处理客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据;
获取浏览器插件自定义的数据标签内容;
根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果;
展示所述标识结果。
2.根据权利要求1所述的无特征数据标识方法,其特征在于,所述流量数据是当访问数据流和应用调用数据流经过客户端的流量Agent时,流量Agent采用TCP采集器根据管理端配置的数据采集策略对流经的数据进行拦截,并打包为PCAP包,将PCAP包传输至文件服务器或者存储至硬盘中形成的数据。
3.根据权利要求2所述的无特征数据标识方法,其特征在于,所述获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据,包括:
获取客户端根据管理端配置的数据采集策略所采集网络流量,以得到PCAP包;
对所述PCAP包进行解析,以得到原始HTTP内容;
对所述原始HTTP内容进行不同类型数据的解析,以得到流量数据。
4.根据权利要求3所述的无特征数据标识方法,其特征在于,所述数据标签内容是通过浏览器插件对访问页面执行请求和响应的交互动作的信息进行拦截,定位访问URL字段,并对所述URL字段进行数据标签操作形成的。
5.根据权利要求4所述的无特征数据标识方法,其特征在于,所述数据标签操作包括对数据标识、数据分类、数据分级;在交互页面上引用管理平台预置或自定义的数据标识名称、数据分类名称、数据分级名称,以对URL字段进行数据标识、数据分类、数据分级。
6.根据权利要求1所述的无特征数据标识方法,其特征在于,所述根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果,包括:
获取用户访问的URL,以得到待关联URL;
对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果。
7.根据权利要求6所述的无特征数据标识方法,其特征在于,所述对所述待关联URL匹配对应的API接口,并对所述流量数据以及数据标签内容进行关联分析,以得到标识结果,包括:
对所述待关联URL匹配对应的API接口,以得到目标API接口;
将所述待关联URL对应的字段与所述目标API接口对应的字段进行关联;
将所述数据标签内容中关于所述待关联URL对应的字段所对应的数据标签内容关联至所述目标API接口对应的字段,以得到关联结果;
根据所述关联结果生成所述目标API接口所采集的流量数据对应的标签列表,以得到标识结果。
8.无特征数据标识装置,其特征在于,包括:
数据获取单元,用于获取并处理客户端根据管理端配置的数据采集策略所采集网络流量,以得到流量数据;
标签内容获取单元,用于获取浏览器插件自定义的数据标签内容;
关联单元,用于根据所述流量数据以及数据标签内容进行数据标签的关联,以得到标识结果;
展示单元,用于展示所述标识结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
CN202211286283.1A 2022-10-20 2022-10-20 无特征数据标识方法、装置、计算机设备及存储介质 Active CN115426299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211286283.1A CN115426299B (zh) 2022-10-20 2022-10-20 无特征数据标识方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211286283.1A CN115426299B (zh) 2022-10-20 2022-10-20 无特征数据标识方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN115426299A true CN115426299A (zh) 2022-12-02
CN115426299B CN115426299B (zh) 2023-03-21

Family

ID=84208219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211286283.1A Active CN115426299B (zh) 2022-10-20 2022-10-20 无特征数据标识方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115426299B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665286A (zh) * 2022-12-26 2023-01-31 深圳红途科技有限公司 接口聚类方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107528870A (zh) * 2016-06-22 2017-12-29 腾讯科技(深圳)有限公司 一种数据采集方法及其设备
CN111224893A (zh) * 2019-12-30 2020-06-02 中国人民解放军国防科技大学 一种基于vpn的安卓手机流量采集与标注系统及方法
CN111953766A (zh) * 2020-08-07 2020-11-17 福建省天奕网络科技有限公司 一种网络数据采集的方法及其系统
CN112506733A (zh) * 2020-10-30 2021-03-16 福建亿能达信息技术股份有限公司 一种用户行为数据的精细化分析方法、装置、设备和介质
CN113360800A (zh) * 2021-06-03 2021-09-07 深圳红途科技有限公司 无特征数据处理方法、装置、计算机设备及存储介质
US20220086178A1 (en) * 2020-09-11 2022-03-17 Salesforce.Com, Inc. Efficient monitoring of network activity in a cloud computing environment
CN114513562A (zh) * 2022-01-04 2022-05-17 烽火通信科技股份有限公司 一种用户上网数据溯源标识方法及装置
CN114817968A (zh) * 2022-06-29 2022-07-29 深圳红途科技有限公司 无特征数据的路径追溯方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107528870A (zh) * 2016-06-22 2017-12-29 腾讯科技(深圳)有限公司 一种数据采集方法及其设备
CN111224893A (zh) * 2019-12-30 2020-06-02 中国人民解放军国防科技大学 一种基于vpn的安卓手机流量采集与标注系统及方法
CN111953766A (zh) * 2020-08-07 2020-11-17 福建省天奕网络科技有限公司 一种网络数据采集的方法及其系统
US20220086178A1 (en) * 2020-09-11 2022-03-17 Salesforce.Com, Inc. Efficient monitoring of network activity in a cloud computing environment
CN112506733A (zh) * 2020-10-30 2021-03-16 福建亿能达信息技术股份有限公司 一种用户行为数据的精细化分析方法、装置、设备和介质
CN113360800A (zh) * 2021-06-03 2021-09-07 深圳红途科技有限公司 无特征数据处理方法、装置、计算机设备及存储介质
CN114513562A (zh) * 2022-01-04 2022-05-17 烽火通信科技股份有限公司 一种用户上网数据溯源标识方法及装置
CN114817968A (zh) * 2022-06-29 2022-07-29 深圳红途科技有限公司 无特征数据的路径追溯方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665286A (zh) * 2022-12-26 2023-01-31 深圳红途科技有限公司 接口聚类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN115426299B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
US10795992B2 (en) Self-adaptive application programming interface level security monitoring
CN110609937A (zh) 一种爬虫识别方法及装置
CN110298662B (zh) 交易重复提交的自动化检测方法及装置
CN107528818B (zh) 媒体文件的数据处理方法和装置
CN112751835B (zh) 一种流量预警方法、系统、设备和存储介质
CN107634947A (zh) 限制恶意登录或注册的方法和装置
CN111898023A (zh) 一种消息推送方法、装置、可读存储介质及计算设备
CN110188159B (zh) 征信数据接入方法、装置、设备及计算机可读存储介质
CN104980421B (zh) 一种批量请求处理方法及系统
CN111049786A (zh) 一种网络攻击的检测方法、装置、设备及存储介质
CN115426299B (zh) 无特征数据标识方法、装置、计算机设备及存储介质
CN107168844B (zh) 一种性能监控的方法及装置
US10775751B2 (en) Automatic generation of regular expression based on log line data
CN111931189A (zh) Api接口转用风险检测方法、装置和api服务系统
CN114817968A (zh) 无特征数据的路径追溯方法、装置、设备及存储介质
WO2016188334A1 (zh) 一种用于处理应用访问数据的方法与设备
CN114422271A (zh) 数据处理方法、装置、设备及可读存储介质
CN109446807A (zh) 用于识别拦截恶意机器人的方法、装置以及电子设备
CN108804501A (zh) 一种检测有效信息的方法及装置
CN115378619A (zh) 敏感数据访问方法及电子设备、计算机可读存储介质
CN112732693A (zh) 智能化物联网数据采集方法、装置、设备及存储介质
CN115757995A (zh) 无特征数据标签处理方法、装置、计算机设备及存储介质
CN111340062A (zh) 一种映射关系确定方法及装置
CN116318974A (zh) 站点风险识别方法、装置、计算机可读介质及电子设备
CN115544558A (zh) 敏感信息检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant