CN115618085B - 一种基于动态标签的接口数据暴露探测方法 - Google Patents
一种基于动态标签的接口数据暴露探测方法 Download PDFInfo
- Publication number
- CN115618085B CN115618085B CN202211294662.5A CN202211294662A CN115618085B CN 115618085 B CN115618085 B CN 115618085B CN 202211294662 A CN202211294662 A CN 202211294662A CN 115618085 B CN115618085 B CN 115618085B
- Authority
- CN
- China
- Prior art keywords
- data
- tag
- interface
- label
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000005065 mining Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 9
- 238000007418 data mining Methods 0.000 claims description 8
- 238000011002 quantification Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008520 organization Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 239000002131 composite material Substances 0.000 claims 1
- 230000009193 crawling Effects 0.000 claims 1
- 238000002360 preparation method Methods 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000000586 desensitisation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于动态标签的接口数据暴露探测方法,包括以下步骤:从外部语料中提取数据安全相关的关键字作为标签写入标签库;标签库为敏感标签匹配模块提供匹配模式;敏感标签匹配模块进行风险接口识别;标签库评估标签风险系数;依据各标签的风险系数评估接口的数据安全暴露风险系数。上述技术方案针对App、小程序及网站的数据对外输出的API接口数据的安全探测,基于核心语料库,定义标签库中不同类型的标签后将给出从语料中挖掘并构建标签库,实现更为准确的接口数据安全监测,并可作为App运营者或电信监管部门接口数据安全方面支撑。
Description
技术领域
本发明涉及数据安全技术领域,尤其涉及一种基于动态标签的接口数据暴露探测方法。
背景技术
有资料显示,绝大多数App、小程序及网站的数据对外输出形式为基于Http的API接口,接口传输的数据包含用户ID、性别、地理位置、账号、昵称、账号与手机信息的绑定关系等个人敏感数据。如果接口数据未脱敏直接暴露在公网,则存在巨大的数据安全隐患,如被灰黑产利用则可能导致百万、千万、甚至亿级个人信息泄漏。而实际情况是,承载数据交互的API接口往往由于其“不可见”的特点,其安全问题易被忽略。App运营者及监管部门普遍关注数据库数据安全,从数据库权限控制和数据审计角度避免数据暴露,鲜有基于API接口数据安全管控、评估的方案及系统。
中国专利文献CN113986222A公开了一种“云计算的API接口翻译系统”。采用了主要针对开发方向,将接口编排系统用于在应用开发的需求下对接口进行自动编排或者手动编排,在自动或手动选择所需接口之后生成接口访问的路由,并将所有选择的接口按照应用所需的传输协议统一形成一个对外暴露的接口交由接口访问管理系统进行管理;接口访问管理系统用于对编排完成的接口进行集中化管理、监控以及访问优化,可针对不同平台实现的功能的不同,对接口进行编排,按需暴露接口,转换接口数据协议,统一数据协议,减少应用开发难度。上述技术方案采用统一格式管理,缺少针对性,对于结果难以实现高效查找和应用。
发明内容
本发明主要解决原有的技术方案采用统一格式管理,缺少针对性,对于结果难以实现高效查找和应用的技术问题,提供一种基于动态标签的接口数据暴露探测方法,针对App、小程序及网站的数据对外输出的API接口数据的安全探测,基于核心语料库,定义标签库中不同类型的标签后将给出从语料中挖掘并构建标签库,实现更为准确的接口数据安全监测,并可作为App运营者或电信监管部门接口数据安全方面支撑。
本发明的上述技术问题主要是通过下述技术方案得以解决的:本发明包括以下步骤:
S1从外部语料中提取数据安全相关的关键字作为标签写入标签库;
S2标签库为敏感标签匹配模块提供匹配模式;
S3敏感标签匹配模块进行风险接口识别;
S4标签库评估标签风险系数;
S5依据各标签的风险系数评估接口的数据安全暴露风险系数。
风险接口并不意味着存在敏感数据暴露行为,取决于接口数据是否脱敏,而数据脱敏判定不在本专利考虑范围内。
作为优选,所述的步骤S1中标签具备数据安全隐患相关特征,通过数据挖掘的手段不断从增量语料中提炼标签并不断更新标签库。数据库来源包括维基百科和数据安全领域文件,数据安全领域文件包含由国家工信部、网信办、司法部门、行业领头企业发布的数据安全白皮书、法律法规、政策、技术标准、指导、倡导性文件等。
作为优选,所述的步骤S3具体包括,数据请求方通过App运营的企业、组织提供的数据查询接口获取流量,系统接入网络流量后,首先需要对网络流量进行还原、解析形成接口数据,接口数据是标签匹配的对象,如果接口数据与标签匹配,则接口被判定为数据暴露风险接口。
作为优选,所述的对网络流量进行还原、解析形成接口数据具体包括,流量解析模块将不可读的二进制流还原为可读的字符串或文本,将Api接口数据还原为请求和响应数据,被还原数据均为受检对象。针对不同的场景本系统提供两种接入方案:镜像App运营方的出口网络流量;镜像监管部门的入口网络流量。
绝对大多数数据接口采用http协议传输数据,网络流量即特指符合http传输协议标准的二进制数据流。请求数据还原为“请求行-通用信息头-请求头-实体头-报文主体“的形式,响应数据被还原为“状态行-通用信息头-响应头-实体头-报文主体”的形式。其中,“请求行”与“报文主体”是标签匹配的对象。
作为优选,所述的标签包括:
元标签:从包括法律法规的重要文件中挖掘出的关键字,元标签不与接口数据匹配;
强标签:从非法律法规类的语料中挖掘出的与元标签关联性强的关键字;如果接口数据与强标签匹配,则意味着接口具有较高数据暴露风险。
弱标签:从语料中挖掘出的与强标签关联性不强的关键字,即强标签的衍生标签。如果接口内容与弱标签匹配,则意味着接口存在较低数据暴露风险。
作为优选,所述的关键字提取方法采用无监督的方法,不需要人工标注的语料,直接利用算法发现文本中重要的词作为标签关键字提取方法。
还包括有监督和半监督:
有监督的关键词抽取算法是将关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词;既然是分类问题,就需要提供已经标注好的训练语料,利用训练语料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取。
半监督的关键词提取算法只需要少量的训练数据,利用这些训练数据构建关键词抽取模型,然后使用模型对新的文本进行关键词提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入训练集,重新训练模型。
无监督意味着系统不需要专家意见或领域经验,只需要相关语料就能够提取出标签。而监督或半监督的方式都需要一定的领域知识支撑标签提取。避免了数据暴露风险判定需要数据安全领域专家高度干预的问题,并且能够克服领域专家干预模式(由领域专家给定数据标签、特征或指纹)下判定特征不完备、特征动态维护难度大、代价昂贵的问题。
本专利的核心是利用无监督数据挖掘算法抽取语料中的关键字构建标签库,避免了数据暴露风险判定需要数据安全领域专家高度干预的问题,并且能够克服领域专家干预模式(由领域专家给定数据标签、特征或指纹)下判定特征不完备、特征动态维护难度大、代价昂贵的问题。标签挖掘即提取数据安全领域相关的特征关键字,依赖自然语言处理中数据挖掘算法。在自然语言处理领域,无论是对于长文本还是短文本语料,往往可以通过几个关键词窥探整个文本的主题或特征。不管是基于文本的推荐还是基于文本的分类,对于文本关键词的依赖都很大,关键词提取的准确程度直接关系到文本分类的最终效果。
作为优选,采用word2vec算法进行文本关键字提取的目标计算:
p(s|wi)
其中s是文本,wi是文本中的词,如果wi是文本的关键词,那么应该使得上式概率最大,因此只需对文本中所有的词计算上述概率,然后降序排列,即可提取关键词,使用朴素贝叶斯假设,如果s由n个词w1,w2,…,wn组成,那么
这样,只需要估算词与词之间的转移概率p(wk|wi),转移概率表征词与词之间的关联性,通过转移概率得到条件概率p(s|wi),从而完成关键词的提取。
Word2Vec的Skip-gram模型是一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,即计算p(wk|wi)。Word2Vec的模型本质上是只具有一个隐含层的神经网络。
它的输入是采用One-Hot编码的词汇表向量,它的输出也是One-Hot编码的词汇表向量。使用所有的样本,训练这个神经元网络,等到收敛之后,从输入层到隐含层的那些权重,便是每一个词的采用Distributed Representation的词向量。这样就把原本维数为V的词向量变成了维数为N的词向量(N远小于V),并且词向量间保留了一定的相关关系。
作为优选,采用FP Growth算法从word2vec算法产生的大量关键字中提取元标签,具体包括:算法输入为数据集合D,支持度阈值α,输出最大的频繁k项集,算法核心步骤如下:
1)扫描数据,得到所有频繁1项集的计数。然后删除支持度低于阈值α的项,将1项频繁集放入FP Tree项头表,并按照支持度降序排列;
2)扫描数据,将读到的原始数据剔除非频繁1项集,并按照支持度降序排列;
3)读入排序后的数据集,按照排序后的顺序插入FP Tree,排序靠前的节点是祖先节点,而靠后的是子孙节点,如果有共用的祖先,则对应的公用祖先节点计数加1,插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点,直到所有的数据都插入到FP Tree后,FP Tree的建立完成;
4)从项头表的底部项依次向上找到项头表项对应的条件模式基,从条件模式基递归挖掘得到项头表项的频繁项集;
5)如果不限制频繁项集的项数,则返回步骤4)所有的频繁项集,否则只返回满足项数要求的频繁k项集。
FP Growth算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,FP Growth算法是在Apriori算法基础上引入FP Tree数据结构,解决其时间服务读问题。
作为优选,所述的步骤S5探测接口是否存在数据暴露风险的方式是:使用Hyperscan正则引擎进行标签匹配,判定接口的请求和响应数据是否含有强标签和弱标签,避免性能问题,常规基于NFA/DFA正则引擎匹配时间复杂度为O(n),当待匹配的标签数量为m时,标签库匹配的复杂度为m*O(n),标签匹配的时间复杂度随标签数量线性增长。随着构建标签体系的语料不断丰富,标签数量会不断增长,意味着标签匹配的时间开销不断线性增长,这将导致匹配时间开销不可控。
作为优选,所述的步骤S5对接口数据暴露风险系数进行量化,接口数据暴露风险的量化取决于接口匹配结果中的强标签和弱标签的风险系数,计算方式定义为:(强标签风险系数最大值+弱标签风险系数的均值),保证强标签为接口风险量化的主要因素,同时兼顾弱标签对风险评估的影响。
本发明的有益效果是:针对App、小程序及网站的数据对外输出的API接口数据的安全探测,基于核心语料库,定义标签库中不同类型的标签后将给出从语料中挖掘并构建标签库,实现更为准确的接口数据安全监测,并可作为App运营者或电信监管部门接口数据安全方面支撑。
附图说明
图1是本发明的一种流程图。
图2是本发明的一种工作原理图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种基于动态标签的接口数据暴露探测方法,如图1所示,包括以下步骤:
S1从外部语料中提取数据安全相关的关键字作为标签写入标签库。如图2所示,标签具备数据安全隐患相关特征,通过数据挖掘的手段不断从增量语料中提炼标签并不断更新标签库。
标签体系的重点是从语料库中不断挖掘标签构建、更新标签库,同时为标签分类并评估风险系数。
系统将对标签进行分类,这些类别包含:
元标签:从法律法规等重要文件中挖掘出的关键字,元标签不接口数据匹配;
强标签:从语料中(非法律法规类)挖掘出的与元标签关联性极强的关键字。如果接口数据与强标签匹配,则意味着接口具有较高数据暴露风险;
弱标签:从语料中挖掘出的与强标签关联性较高的关键字,即强标签的衍生标签。如果接口内容与弱标签匹配,则意味着接口存在较低数据暴露风险;
本专利的核心是利用无监督数据挖掘算法抽取语料中的关键字构建标签库,避免了数据暴露风险判定需要数据安全领域专家高度干预的问题,并且能够克服领域专家干预模式(由领域专家给定数据标签、特征或指纹)下判定特征不完备、特征动态维护难度大、代价昂贵的问题。
标签挖掘
标签挖掘即提取数据安全领域相关的特征关键字,依赖自然语言处理中数据挖掘算法。在自然语言处理领域,无论是对于长文本还是短文本语料,往往可以通过几个关键词窥探整个文本的主题或特征。不管是基于文本的推荐还是基于文本的分类,对于文本关键词的依赖都很大,关键词提取的准确程度直接关系到文本分类的最终效果。
因此,关键词提取在文本挖掘领域是一个很重要的部分。关于文本的关键词提取方法分为有监督、半监督和无监督三种:
有监督的关键词抽取算法是将关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词。既然是分类问题,就需要提供已经标注好的训练语料,利用训练语料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取。
半监督的关键词提取算法只需要少量的训练数据,利用这些训练数据构建关键词抽取模型,然后使用模型对新的文本进行关键词提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入训练集,重新训练模型。
无监督的方法不需要人工标注的语料,利用算法发现文本中比较重要的词作为标签。
实现无监督的思想是利用相关算法建立标签库,利用标签库进行匹配(在不基于数据挖掘的解决方案中,这个标签库需要专家提供,系统使用标签做匹配)。
算法核心思想是利用Bayes+Word2vec提取元标签,元标签的含义:如果所有预料中绝大多数词都与词A关联,那么词A就是元标签。强标签是再次使用word2vec获取与元标签关联程度最高的关键字。弱标签是使用word2vec获取与强标签关联度高的最高的关键字。FP算法用于是整理word2vec算法的结果,抓取元标签和强标签、强标签和弱标签之间关联性最高的标签集合。
元标签
元标签是标签体系中价值最高的标签,其他类型标签均由元标签直接或间接通过关联分析得到。本节以《个人信息保护法》作为示例语料,说明如何使用word2vec和FPGrowth算法提取元标签。
第一步,对《个人信息保护法》进行分词处理记为文本s。本专利采用jieba分词工具按词性进行分词,分词结果仅保留名词,分词作为NLP基础技术不在此赘述。以《个人信息保护法》第一条作为分词示例:“为了保护个人信息权益,规范个人信息处理活动,促进个人信息合理利用,根据宪法,制定本法”,其分词的结果:个人信息权益规范个人信息处理个人信息利用宪法本法。
第二步,通过语料计算“词与词”的先验相关性。这里的最佳语料为维基百科,但是理论上可以使用任何语料作为文本训练集。从wiki爬取语料作为word2vec的训练数据集,爬虫模块使用Scrapy框架,自动抽取结构和半结构数据。本专利使用开源爬虫工scrapy_for_zh_wiki爬取中卫维基中“信息安全”条目下的相关页面并提取为txt纯文本文件。爬虫提取的每个文本文件作为算法的一个输入样本Si,根据word2vec算法概述对word2vec算法的说明,Si输入算法后将得到词向量,词向量表征“词与词”的相关性。以下使用维基百科“数据泄露”页面(https://zh.wikipedia.org/wiki/数据泄漏)作为输入样本进行解释说明。首先对样本重复第一步的分词操作,然后使用算法训练样本,最后输出训练模型中与“个人信息”关联程度最高的关键字,核心步骤如下:
cut('数据泄漏_wiki.txt','数据泄漏_wiki分词.txt')
train('数据泄漏_wiki分词.txt')
print(model.wv.most_similar('个人信息',topn=20)
输出数据形式:(关键字,关键字与“个人信息”的相关系数),结果如下:
('网站',0.999011218547821),('姓名',0.9989246726036072),
('机密',0.9988574385643005),('国家',0.9988412857055664),
('账户',0.9988037347793579),('用户',0.9988016486167908),
('医保',0.9987966418266296),('密码',0.9986749291419983),
('苹果',0.9986098408699036),('雇员',0.9986026287078857),
('公司',0.9985162615776062),('报告',0.9984658360481262),
('信用卡',0.998325765132904),('记录',0.9981973171234131),
('档案',0.9981496067899481),('客户',0.9978189468383789),
('事故',0.9977312684059143),('员工',0.9975725412368774),
('个人',0.9975405335426331),('数据',0.9974167943000793)]。
从结果不难发现,“姓名”、“用户”、“密码”、“账户”、“信用卡”、“医保”、“档案”等关键字表现为与“个人信息”强相关。相关系数即word2vec算法概述描述的词与词之间的转移概率p(wk|wi),对于结果(‘密码’,0.9986749291419983)为:
wk=“密码”
wi=“个人信息”
p(wk|wi)=0.9986749291419983
第三步,根据word2vec算法概述使用转移概率p(wk|wi)计算条件概率p(s|wi)完成基于语料Si的文本s关键字提取,其中文本s为第一步《个人信息保护法》分词结果。基于语料Si,预测《个人信息保护法》的关键字和关键字与语料的相关系数co(s|wi)如下:
(信息,-1557.665167272091)
(跨境,-1559.3179305195808)
(个人信息,-1560.9807907044888)
(医疗,-1561.887493789196)
(姓名,-1564.6877086758614)
(国家,-1566.2985190153122)
(账户,-1568.50256639719)
(泄露,-1569.2311087548733)
第四步,假设爬虫从wiki页面提取了n个文本,每个文本Si通过第三步提取了《个人信息保护法》中的m个关键字,共计m*n个关键字,本步使用频繁项集挖掘算法FP Growth从m*n个关键字提取频繁k项集作为最终的元标签。
元标签与特定语料(《个人信息保护法》)的相关系数取频繁项相关系数的均值。
元标签包含两个部分,标签和相关系数,相关系数越高则标签与《个人信息保护法》语料关联性越强。元标签不参与接口匹配,下文的强标签和弱标签均由元标签通过算法间接获取。
强标签
强标签即与元标签相关性极强的关键字,强标签的提取属于元标签提取的逆向过程,区别在于处理的语料不同。在元标签的第二步中提到可以通过word2vec训练出的模型获取与“个人信息”强相关的关键字,假设“个人信息”为元标签,则这组强相关的关键字即为强标签,强标签与元标签的相关系数为p(wk|wi)。
通过足够语料收集到大量强标签后,仍然需要使用FP Growth算法进行频繁项集挖掘,去掉重复标签,约减与元标签相关性较弱的标签。
强标签和弱标签是接口数据标签匹配的主体,参与接口匹配与接口数据暴露风险量化。强标签的风险系数定义为:元标签与语料的相关系数*强标签与元标签的相关系数,对应于元标签第二、三步的示例,强标签的风险系数riski=co(s|wi)*p(s|wi)。
弱标签
在实践中发现强标签存在如下问题:对于元标签“个人信息”存在强标签“密码”,使用强标签“密码”确实能够匹配接口数据,但是在对接口数据安全进行量化评估时会出现问题。例如,某系统存在两个接口,分别包含“账户密码”和“银行卡密码”,它们都能够匹配强标签“密码”,如果仅依靠强标签量化接口风险则两接口评分一致,但实际上暴露“银行卡密码”的接口评分应高于暴露“账户密码”的评分。以上问题源自中文分词工具的普遍缺陷,“银行卡密码”会被分为“银行卡”、“密码”、“银行卡密码”三个词,而“密码”极大概率会被作为三者中的最大频繁项归于强标签,导致“银行卡”属性丢失。
针对上述问题,需要使用word2vec算法从语料中提取出与强标签关联的一组关键字,作为强标签衍生出的弱标签,同时得到弱标签与强标签的相关系数p(ws|wk)。最后仍需要使用FP Tree算法约减弱标签。弱标签的风险系数定义为:强标签的风险系数*强标签与弱标签的相关系数,即对于弱标签j及与之关联的强标签i,弱标签j的风险系数:
riskj=riski*p(ws|wk)=co(s|wi)*p(s|wi)*p(ws|wk)
word2vec算法概述
文本关键字提取的目标可用如下概率表示:
p(s|wi)
其中s是文本,wi是文本中的词,如果wi是文本的关键词,那么应该使得上式概率最大,因此只需对文本中所有的词计算上述概率,然后降序排列,即可提取关键词。使用朴素贝叶斯假设,如果s由n个词w1,w2,…,wn组成,那么
这样,只需要估算词与词之间的转移概率p(wk|wi),它表征词与词之间的关联性,通过它就可以得到条件概率p(s|wi),从而完成关键词的提取,但估算p(wk|wi),需要对大量的文本进行统计。
Word2Vec的Skip-gram模型是一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,即计算p(wk|wi)。
Word2Vec的模型本质上是只具有一个隐含层的神经网络。
它的输入是采用One-Hot编码的词汇表向量,它的输出也是One-Hot编码的词汇表向量。使用所有的样本,训练这个神经元网络,等到收敛之后,从输入层到隐含层的那些权重,便是每一个词的采用Distributed Representation的词向量。这样就把原本维数为V的词向量变成了维数为N的词向量(N远小于V),并且词向量间保留了一定的相关关系。
FP Growth算法概述
FP Growth算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,在本文中用于从word2vec算法产生的大量关键字中提取元标签。
FP Growth算法是在Apriori算法基础上引入FP Tree数据结构,解决其时间服务读问题。算法输入为数据集合D,支持度阈值α,输出最大的频繁k项集。算法核心步骤如下:
1)扫描数据,得到所有频繁1项集的计数。然后删除支持度低于阈值α的项,将1项频繁集放入FP Tree项头表,并按照支持度降序排列;
2)扫描数据,将读到的原始数据剔除非频繁1项集,并按照支持度降序排列;
3)读入排序后的数据集,按照排序后的顺序插入FP Tree,排序靠前的节点是祖先节点,而靠后的是子孙节点。如果有共用的祖先,则对应的公用祖先节点计数加1。插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP Tree后,FP Tree的建立完成。
4)从项头表的底部项依次向上找到项头表项对应的条件模式基。从条件模式基递归挖掘得到项头表项的频繁项集。
5)如果不限制频繁项集的项数,则返回步骤4所有的频繁项集,否则只返回满足项数要求的频繁k项集。
S2标签库为敏感标签匹配模块提供匹配模式;
S3敏感标签匹配模块进行风险接口识别,具体包括,数据请求方通过App运营的企业、组织提供的数据查询接口获取感兴趣的数据,系统接入网络流量后,首先需要对网络流量进行还原、解析形成接口数据,接口数据是标签匹配的对象,如果接口数据与标签匹配,则接口被判定为数据暴露风险接口。
数据请求方通过App运营的企业、组织提供的数据查询接口获取感兴趣的数据。针对不同的场景本系统提供两种接入方案:
(1)镜像App运营方的出口网络流量;
(2)镜像监管部门的入口网络流量。
系统接入网络流量后,首先需要对网络流量进行还原、解析形成接口数据,
接口数据是标签匹配的对象,如果接口数据与标签匹配,则接口被判定为数据暴露风险接口。
绝对大多数数据接口采用http协议传输数据,网络流量即特指符合http传输协议标准的二进制数据流。流量解析模块的核心功能是将不可读的二进制流还原为可读的字符串或文本。
Api接口数据将被还原为请求和响应数据,它们均为受检对象。请求数据还原为“请求行-通用信息头-请求头-实体头-报文主体”的形式,响应数据被还原为“状态行-通用信息头-响应头-实体头-报文主体”的形式。其中,“请求行”与“报文主体”是标签匹配的对象。
S4标签库评估标签风险系数。
S5依据各标签的风险系数评估接口的数据安全暴露风险系数。
探测接口是否存在数据暴露风险的方式是:判定接口的请求和响应数据是否含有强标签和弱标签。
标签匹配的普遍做法是使用正则表达式,常规基于NFA/DFA正则引擎匹配时间复杂度为O(n),当待匹配的标签数量为m时,标签库匹配的复杂度为m*O(n),标签匹配的时间复杂度随标签数量线性增长。随着构建标签体系的语料不断丰富,标签数量会不断增长,意味着标签匹配的时间开销不断线性增长,这将导致匹配时间开销不可控。
标签体系的匹配在文本分析领域可以归为多模式文本匹配问题,在实际工程问题中通常采用的算法是Aho-Corasick自动机,它能够保证在标签规模不断增长情况下,克服标签匹配时间开销随标签数量线性增长问题,保持O(n)的时间复杂度。但本专利未直接采用AC算法处理标签匹配,而是使用Hyperscan正则引擎,Hyperscan的匹配算法实现与AC算法不尽相同,但是都能够将问题降至O(n)时间复杂度。Hyperscan的优势在于,它针对服务器硬件架构及操作系统进行了优化,而不是局限于算法层面。
接口数据暴露风险的量化取决于接口匹配结果中的强标签和弱标签的风险系数,计算方式定义为:(强标签风险系数最大值+弱标签风险系数的均值),保证强标签为接口风险量化的主要因素,同时兼顾弱标签对风险评估的影响。
Claims (8)
1.一种基于动态标签的接口数据暴露探测方法,其特征在于,包括以下步骤:S1从外部语料中提取数据安全相关的关键字作为标签写入标签库;
标签包括:
元标签:从包括法律法规的数据安全领域重要文件中挖掘出的关键字,元标签不与接口数据匹配;具体包括,
对法律法规文件进行分词处理记为文本;
爬取语料作为word2vec的训练数据集,提取的每个文本文件作为word2vec算法的一个输入样本Si,Si输入算法后将得到词向量,词向量表征“词与词”的相关性,相关性表示为相关系数即word2vec算法描述的词与词之间的转移概率p(wk|wi);
根据word2vec算法使用转移概率p(wk|wi)计算条件概率p(s|wi)完成基于语料Si的文本s关键字提取,其中文本s为法律法规文件分词结果,wk和wi是文本s中的词;
使用频繁项集挖掘算法FP Growth从提取的关键字中提取频繁k项集作为最终元标签;
强标签:从非法律法规类的语料中挖掘出的与元标签关联性强的关键字;
弱标签:从语料中挖掘出的与强标签关联性不强的关键字,即强标签的衍生标签;
S2标签库为敏感标签匹配模块提供匹配模式;
S3敏感标签匹配模块进行风险接口识别;通过判定接口的请求和响应数据是否含有强标签和弱标签;
S4标签库评估标签风险系数;
强标签的风险系数定义为:元标签与语料的相关系数*强标签与元标签的相关系数;
弱标签的风险系数定义为:强标签的风险系数*强标签与弱标签的相关系数;S5依据各标签的风险系数评估接口的数据安全暴露风险系数;
对接口数据暴露风险系数进行量化,接口数据暴露风险的量化取决于接口匹配结果中的强标签和弱标签的风险系数,计算方式定义为:强标签风险系数最大值+弱标签风险系数的均值。
2.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述步骤S1中标签具备数据安全隐患相关特征,通过数据挖掘的手段不断从增量语料中提炼标签并不断更新标签库。
3.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述步骤S3具体包括,数据请求方通过App运营的企业、组织提供的数据查询接口获取流量,系统接入网络流量后,首先需要对网络流量进行还原、解析形成接口数据,接口数据是标签匹配的对象,如果接口数据与标签匹配,则接口被判定为数据暴露风险接口。
4.根据权利要求3所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述对网络流量进行还原、解析形成接口数据具体包括,流量解析模块将不可读的二进制流还原为可读的字符串或文本,将Api接口数据还原为请求和响应数据,被还原数据均为受检对象。
5.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述关键字提取方法采用无监督的方法,不需要人工标注的语料,直接利用算法发现文本中重要的词作为标签。
6.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,采用word2vec算法进行文本关键字提取的目标计算:
p(s|wi)
其中s是文本,wi是文本中的词,如果wi是文本的关键词,那么应该使得上式概率最大,因此只需对文本中所有的词计算上述概率,然后降序排列,即可提取关键词,使用朴素贝叶斯假设,如果s由n个词w1,w2,…,wn组成,那么
这样,只需要估算词与词之间的转移概率p(wk|wi),转移概率表征词与词之间的关联性,通过转移概率得到条件概率p(s|wi),从而完成关键词的提取。
7.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,采用FP Growth算法从word2vec算法产生的大量关键字中提取元标签,具体包括:算法输入为数据集合D,支持度阈值α,输出最大的频繁k项集,算法核心步骤如下:
1)扫描数据,得到所有频繁1项集的计数,然后删除支持度低于阈值α的项,将1项频繁集放入FP Tree项头表,并按照支持度降序排列;
2)扫描数据,将读到的原始数据剔除非频繁1项集,并按照支持度降序排列;
3)读入排序后的数据集,按照排序后的顺序插入FP Tree,排序靠前的节点是祖先节点,而靠后的是子孙节点,如果有共用的祖先,则对应的共用祖先节点计数加1,插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点,直到所有的数据都插入到FP Tree后,FP Tree的建立完成;
4)从项头表的底部项依次向上找到项头表项对应的条件模式基,从条件模式基递归挖掘得到项头表项的频繁项集;
5)如果不限制频繁项集的项数,则返回步骤4)所有的频繁项集,否则只返回满足项数要求的频繁k项集。
8.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述步骤S5探测接口是否存在数据暴露风险的方式是:使用Hyperscan正则引擎进行标签匹配,判定接口的请求和响应数据是否含有强标签和弱标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211294662.5A CN115618085B (zh) | 2022-10-21 | 2022-10-21 | 一种基于动态标签的接口数据暴露探测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211294662.5A CN115618085B (zh) | 2022-10-21 | 2022-10-21 | 一种基于动态标签的接口数据暴露探测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618085A CN115618085A (zh) | 2023-01-17 |
CN115618085B true CN115618085B (zh) | 2024-04-05 |
Family
ID=84864066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211294662.5A Active CN115618085B (zh) | 2022-10-21 | 2022-10-21 | 一种基于动态标签的接口数据暴露探测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115618085B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117514727B (zh) * | 2023-12-06 | 2024-04-23 | 广东鑫钻节能科技股份有限公司 | 数字能源空压站 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679084A (zh) * | 2017-08-31 | 2018-02-09 | 平安科技(深圳)有限公司 | 聚类标签生成方法、电子设备及计算机可读存储介质 |
CN107861944A (zh) * | 2017-10-24 | 2018-03-30 | 广东亿迅科技有限公司 | 一种基于Word2Vec的文本标签提取方法及装置 |
CN110209787A (zh) * | 2019-05-29 | 2019-09-06 | 袁琦 | 一种基于宠物知识图谱的智能问答方法及系统 |
CN110222058A (zh) * | 2019-06-05 | 2019-09-10 | 深圳市优网科技有限公司 | 基于FP-growth的多源数据关联隐私泄露风险评估系统 |
CN110489758A (zh) * | 2019-09-10 | 2019-11-22 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN110809764A (zh) * | 2018-06-05 | 2020-02-18 | 谷歌有限责任公司 | 评估数据泄漏风险 |
CN112948823A (zh) * | 2021-03-19 | 2021-06-11 | 中国人民解放军国防科技大学 | 一种数据泄露风险评估方法 |
-
2022
- 2022-10-21 CN CN202211294662.5A patent/CN115618085B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679084A (zh) * | 2017-08-31 | 2018-02-09 | 平安科技(深圳)有限公司 | 聚类标签生成方法、电子设备及计算机可读存储介质 |
CN107861944A (zh) * | 2017-10-24 | 2018-03-30 | 广东亿迅科技有限公司 | 一种基于Word2Vec的文本标签提取方法及装置 |
CN110809764A (zh) * | 2018-06-05 | 2020-02-18 | 谷歌有限责任公司 | 评估数据泄漏风险 |
CN110209787A (zh) * | 2019-05-29 | 2019-09-06 | 袁琦 | 一种基于宠物知识图谱的智能问答方法及系统 |
CN110222058A (zh) * | 2019-06-05 | 2019-09-10 | 深圳市优网科技有限公司 | 基于FP-growth的多源数据关联隐私泄露风险评估系统 |
CN110489758A (zh) * | 2019-09-10 | 2019-11-22 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN112948823A (zh) * | 2021-03-19 | 2021-06-11 | 中国人民解放军国防科技大学 | 一种数据泄露风险评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115618085A (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hulsebos et al. | Sherlock: A deep learning approach to semantic data type detection | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
CN112989841B (zh) | 一种用于突发事件新闻识别与分类的半监督学习方法 | |
JP5008024B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN112131350A (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN109960727B (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
JP4911599B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
Rashid et al. | Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining | |
CN110569350B (zh) | 法条推荐方法、设备和存储介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111813874B (zh) | 太赫兹知识图谱构建方法及系统 | |
CN115618085B (zh) | 一种基于动态标签的接口数据暴露探测方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN115718792A (zh) | 一种基于自然语义处理和深度学习的敏感信息提取方法 | |
CN116910238A (zh) | 一种基于孪生网络的知识感知虚假新闻检测方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
Yurtsever et al. | Figure search by text in large scale digital document collections | |
JP5366179B2 (ja) | 情報の重要度推定システム及び方法及びプログラム | |
Rao et al. | Hierarchical RNN for information extraction from lawsuit documents | |
CN113886529B (zh) | 一种面向网络安全领域的信息抽取方法及其系统 | |
CN112488593B (zh) | 一种用于招标的辅助评标系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |