CN116150349A - 一种数据产品安全合规性检查方法、装置及服务器 - Google Patents

一种数据产品安全合规性检查方法、装置及服务器 Download PDF

Info

Publication number
CN116150349A
CN116150349A CN202111372138.0A CN202111372138A CN116150349A CN 116150349 A CN116150349 A CN 116150349A CN 202111372138 A CN202111372138 A CN 202111372138A CN 116150349 A CN116150349 A CN 116150349A
Authority
CN
China
Prior art keywords
data
sensitive
word
information
compliance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111372138.0A
Other languages
English (en)
Inventor
汤奇峰
龙文明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Data Exchange Corp
Original Assignee
Shanghai Data Exchange Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Data Exchange Corp filed Critical Shanghai Data Exchange Corp
Priority to CN202111372138.0A priority Critical patent/CN116150349A/zh
Publication of CN116150349A publication Critical patent/CN116150349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种数据产品安全合规性检查方法、装置及服务器,其方法包括:获得数据产品中待检测数据,对所述待检测数据的来源合法性进行识别;待检测数据进行敏感词提取和/或信息内容提取;满足匹配要求的各提取数据进行词向量转换,分别与预先创建的敏感特征库的特征词词向量进行语义相似度计算,和/或对所述信息内容进行分句处理,每一分句进一步进行分词后转换分词词向量,与预先建立的规则库进行语义相似度匹配计算;获得的合规性分值信息进行所述数据产品的合规性适配控制操作,通过检查点及规则的确定,采用人工智能的文本语义分析等人工智能方法,自动鉴别数据提供方的数据产品是否合规,并运用于合规性审核,检测的全面性高且精准度高。

Description

一种数据产品安全合规性检查方法、装置及服务器
技术领域
本发明涉及大数据交易技术领域,尤其涉及一种数据产品安全合规性检查方法、装置及服务器。
背景技术
现有的数据流通模式主要采用点对点数据交易模式,也即从单一数据供方流转到单一数据需方,按需完成数据配送。即便存在多数据源的数据供应,点对点数据交易方案也无法为数据需求方提供来自多数据源的数据,使得数据需方无法获得多个数据供方的数据补充,阻碍了数据流通。而且,点对点的数据流通难以受到相关部门或者行业的监管,可能会侵犯用户隐私。由此,随着法律法规的制定与落地,构造一个安全、合规的数据交易平台成为一个必然的选择。数据交易中交易、流通的产品统称为数据产品,数据交易平台需要对流通中的数据产品、交付的数据产品进行合规性监管。
在202110287826.0中公开了一种数据处理方法和装置及电子设备。其中,该方法包括:通过获取目标应用发送的第一应用数据;对第一应用数据进行敏感数据查询与识别分析处理,以查询与识别满足敏感数据发现条件的敏感数据,其中,敏感数据发现条件为预先配置的条件;对第一应用数据中的敏感数据进行数据脱敏处理,得到经过数据脱敏处理后的第二应用数据;将经过数据脱敏处理后的第二应用数据写入目标数据库中,达到了在将目标应用的应用数据写入目标数据库之前,可以先对目标应用的应用数据进行脱敏的目的。该专利中,对平台中相互通信的各种数据先进行敏感数据查询,后脱敏操作处理成第二应用数据。这种处理操作对平台的数据库、硬件网络等资源要求高,占用的资源大。最重要的是,查找满足敏感数据发现条件的敏感数据采用的是文本匹配、二进制匹配和正则表达式匹配。对于敏感字段使用单纯的字段匹配其精度比较低,容易发生遗漏而且无法做到敏感句子等的比对,限定性强。同时,供方与需方进行数据产品交付时,数据交易平台更需要提供一种更全面、安全性更高,匹配精度更高的数据产品合规检查方法。
发明内容
为解决背景技术中出现的问题,本申请实施例通过提供一种数据产品安全合规性检查方法、装置及电子设备,实现了更精准、更全面的合规性检测。
一种数据产品安全合规性检查方法,其特征在于:包括:
获得数据产品中待检测数据,对所述待检测数据的来源合法性进行识别;
所述待检测数据进行敏感词提取和/或信息内容提取;
满足匹配要求的各提取数据进行词向量转换,分别与预先创建的敏感特征库的特征词词向量进行语义相似度计算,和/或对所述信息内容进行分句处理,每一分句进一步进行分词后转换分词词向量,与预先建立的规则库进行语义相似度匹配计算;
获得的合规性分值信息进行所述数据产品的合规性适配控制操作。
在上述第一方面的一种可能的实现中,敏感特征库的创建进一步包括以下步骤:
对敏感信息进行分类,并按照分类建立对应的子敏感特征库;
获得敏感词信息和计算特征词词向量信息,后存储于对应分类的子敏感特征库;
当从待检测数据中提取出所述敏感词后,找到所述敏感词对应分类的子敏感特征库,后对转换后的所述词向量与所述子敏感特征库中的特征词词向量分别进行语义相似度计算,获得敏感词的合规性分值信息。
在上述第一方面的一种可能的实现中,计算特征词词向量信息进一步包括:
使用爬虫工具爬取符合预设条件包括网络数据描述、相关文本在内的数据作为第一语料,并将所述第一语料数据存储在第一特征词语料文件中;
引入word2vec语言模型框架;
将所述第一特征词词语料文件在所述框架中进行加载;
按照所述第一特征词语料文件中的特征词语料通过词频来构建词典数结构,后通过神经网络训练所述特征词语料,得到训练模型model;
将所述model模型保存在word2vec.model文件中;
后通过model=Word2Vec.load("word2vec.model")拿到预先model模型导入内存,每一敏感词分别生成对应的特征词词向量。
在上述第一方面的一种可能的实现中,提取的所述信息内容与预先建立的规则库进行语义相似度匹配计算进一步包括:
提取的所述信息内容进行摘要信息提取后,再进行分句处理,每一分句分别进行分词处理,并对分词后数据分别进行词向量计算,所述分句中的所述些分词词向量与所述规则库中存储的敏感内容信息对应的内容词向量值分别进行语义相似度计算;
获得敏感内容的合规性分值信息。
在上述第一方面的一种可能的实现中,对所述待检测数据的来源合法性进行识别进一步包括:
所述待检测数据的数据提供方的数据来源url地址加上后缀robots.txt可获取该网站的robots.txt文件,并对入所述robots.txt结构进行分析,判断所述数据提供方提供的数据产品是否违反robot协议来识别其来源合法性。
在上述第一方面的一种可能的实现中,对所述待检测数据的来源合法性进行识别进一步包括:
所述待检测数据的数据提供方的数据来源记录为授权来源时,则检测所述数据提供方的授权人电子签章的真实性;和/或
所述待检测数据的数据提供方的数据来源记录为生产来源时,则检测所述待检测数据的数据产品中携带的电子签章,后对所述电子签章进行校验,并对其时间有效性进行检验;和/或
所述待检测数据的数据提供方的数据来源记录为生产来源时,则检测所述待检测数据的数据产品中携带的购买凭证信息,并进一步认证卖方资质在内的合法性。
在上述第一方面的一种可能的实现中,获得的合规性分值信息进行所述数据产品的合规性适配控制操作进一步包括:
通过敏感词的合规性分值信息和/或敏感内容的合规性分值信息确定对应的合规等级;
所述数据产品中设置数据产品的合规信息标记,所述合规信息标记包括对应的所述合规等级信息,
当监测数据资源流通时,从中获得所述数据产品,并解析出对应的合规等级,再根据该所述等级,所述数据产品被设置为允许其流通,或有条件允许其流通部分数据,满足预设条件后才允许流通或者设置为不允许所述数据产品流通。
与现有技术相比,一种数据产品智能安全合规性检查的装置。通过检查点及规则的确定,采用人工智能的文本语义分析等人工智能方法,自动鉴别数据提供方的数据产品是否合规,并运用于合规性审核。本发明了一种数据流通合规性控制装置。通过数据抽样,对敏感词匹配、合规规则匹配,对数据流通数据进行等级控制,而且合规性检测更为精准和全面。
附图说明
图1为本申请实施例一中数据产品合规性检测装置的原理图;
图2为本申请数据交易平台的原理图;
图3为本申请一种数据产品合规性检测的流程图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的.因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神.同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了更好的理解本方案,现对部分名词说明解释如下。
数据产品是指在数据交易中交易、流通的产品,是一种元数据,对数据资源的一种描述。
数据资源是数据产品的描述对象,是数据流通、交付的实际数据。
根据本发明实施例的一个方面,提供了一种数据产品合规性检测方法,可选地,作为一种可选的实施方式,上述检测方法可以但不限于应用于如图1,图2所示的环境中。数据交易平台101、需方数据前置服务端102、供方数据前置服务端103,其中数据交易平台101主要是指核心处理部件,需方与供方进行数据产品流通或者进行数据产品交付时,一般分别通过各自的需方数据前置服务端102、供方数据前置服务端103与数据交易平台101进行通信。本发明人通过数据交易平台可以实现自动化检测数据产品的合规性。并且,在数据交易平台101进一步设置:合规性分析子装置111、合规性控制子单元112及合规性支撑数据库113。
合规性支撑数据库113是合规性分析的基础,通过敏感特征库、合规规则库、数据来源文件库、交付抽样数据库的建立,从敏感信息、规则匹配、数据来源、数据抽样等方面进行结合最终给合规性分析提供数据支撑。这一部分的数据库可以按需要进行创建,一般在合规性分析之前进行创建,并可以定期进行更新。
敏感信息预先进行分类,可以按照分类分别建立对应子敏感特征库,也可以建立一个总的敏感特征库。
本申请人发现敏感信息可以分类为:
基本信息:为了完成大部分网络行为,消费者会根据服务商要求提交包括姓名、性别、年龄、身份证号码、电话号码、Email地址及家庭住址等在内的个人基本信息,有时甚至会包括婚姻、信仰、职业、工作单位、收入等相对隐私的个人基本信息。
设备信息:主要是指消费者所使用的各种计算机终端设备(包括移动和固定终端)的基本信息,如位置信息、Wifi列表信息、Mac地址、CPU信息、内存信息、SD卡信息、操作系统版本等。
账户信息:主要包括网银帐号、第三方支付帐号,社交帐号和重要邮箱帐号等。
隐私信息:主要包括通讯录信息、通话记录、短信记录、IM应用软件聊天记录、个人视频、照片等。
社会关系信息:这主要包括好友关系、家庭成员信息、工作单位信息等。
网络行为信息:主要是指上网行为记录,消费者在网络上的各种活动行为,如上网时间、上网地点、输入记录、聊天交友、网站访问行为、网络游戏行为等个人信息等。
每一类别建立一子敏感特征库,其进一步为:
首先按照上述原则对敏感词进行分类,分为基本信息、设备信息、账户信息、隐私信息、社会关系信息、网络行为信息等子敏感特征库;
然后分别根据敏感词分类进行敏感词收集,收集方式包括但不限于:从法律法规明确提出的敏感词;通过解读法律法规衍生出来的敏感词;迭代持续更新专家提出的敏感词及随着社会发展新发明的敏感词;
随后,通过大量的文本语料、通过词向量生成算法生成词向量;
再后,将敏感词分类、敏感词及计算出来的敏感词向量一同存储对应的子敏感词特征库。
当敏感特征库为一总库时,只需要将将敏感词分类、敏感词及计算出来的敏感词向量一同存储至该敏感特征库。
词向量是为了描述词与词之间的相似程度而构建的高维向量,是通过大量的语料训练而成的。词向量是对词的一个数学描述,可用于计算文本语义相似度。具体算法的实施例可以如下:
语料准备。使用Scrapy爬虫框架搭建爬虫工具,爬取各开放平台,政务数据网,国内数据交易网中数据的描述、相关文本(非服务中的数据)作为第一手语料。爬取数据描述、资讯等信息,作为word2vec的一手语料,语料文件命名:open_data.txt。
加载语料。通过sentences=word2vec.LineSentence('./open_data.txt ')
训练语料。通过model=word2vec.Word2Vec(sentences, hs=1,min_count=1,window=10,size=100)可得到训练模型model。
保存model。通过model.save("word2vec.model")将模型保存再 word2vec.model文件中。
后面可通过model=Word2Vec.load("word2vec.model")拿到保存的model 存入内存,便于计算某个词的词向量。例如print(model['身份证'])将输出 200维的向量,形如[-0.06076013-0.03567408-0.07054472…0.10322621]
Hs=1表示层级Softmax将会被使用,min_count是对词进行过滤,其设置的过滤单词为1。Window是句子中当前词与目标词之间的最大距离为10,sizw 是输出词向量的维数,本次为100。
并将敏感词分类、敏感词及计算出来的敏感词向量一同存储敏感词特征库。
现有的敏感词对比仅限于敏感词文本的单独对比,这种对比后敏感词的查找准确性弱。但是本申请人把词向量技术应用到敏感词文本的对比,提升了敏感词查询的准确性,而且,本申请人把敏感词先进行分类,按类进行子敏感特征库存储。可以按照不同敏感词的分类别的信息,设置不同的词向量计算方式。比如设备属性的敏感词,将计算机终端设备(包括移动和固定终端)的基本信息,如位置信息、Wifi列表信息、Mac地址、CPU信息、内存信息、SD卡信息、操作系统版本等敏感词特征值的找对应的语料预先通过model训练得到对应的词向量。同理,账户信息分类是通过找到各种账户的语料预先通过model训练得到对应的词向量。因此,可以按每一敏感词分别生成对应的特征词词向量,特别是本发明可以按类别来分类,再训练类别下的每一或某一种敏感词,得生成对应的特征词词向量。也就是说,本发明的model可以是每一子敏感特征词库对应一model,比将所有的敏感词词向量放在一个总敏感特征词训练更精准,效率高。
特别是数据产品采样的待处理的数据量比较多时,按照敏感特征库预先存储的敏感词先进行初筛,再采用jieba分词(jieba是常规一分词软件),后对分词jieba分词出来的各个字段输入到各个子敏感词特征库,分别计算其对应的向量值,后计算计算的向量值与预存储的各向量值之间的相似度,找到相似度值高,对应的该字段即为本方案找到的疑似敏感词,或将敏感相似度化分值设定为一较高值。
再介绍一下合规规则库。合规规则库主要是为了适应规则变化而创建的库,用户给出合规判断依据。合规规则库存储了以下规则:
数据来源规则一:数据是生产所得。该方式来源的数据,必须校验生产所得申明的单位电子签章是否真实,是否超过申明有效时间,通过人工智能内容摘要提取算法提取申明内容,判断是否满足申明要求,申明要求由平台更具法律法规制定。
数据来源规则二:数据是通过网络爬取而得。该方式来源的数据,必须提供数据来源网站,规则定义需要根据来源网站域名获取网站robot协议,需通过robot协议解析,判断是否遵循该协议。
数据来源规则三:数据是通过授权所得。该方式来源的数据,必须校验授权书电子签章是否真实有效,判断授权时限,通过人工智能内容摘要提取算法提权授权内容,判断授权书内容是否满足要求,授权关键内容由平台提供。
数据来源规则四:数据是通过购买所得。该方式来源的数据,必须检查购买凭证,判断凭证电子签章的合法性及购买的权力是否支持二次售卖,并追踪原始数据提供者,校验是否具有数据交易的权限。证明文件有数据提供方提供。
数据敏感度规则五:对敏感词进行匹配。需对正在流通的数据进行抽样,分词,词向量转换,与特征库数据词向量进行相似度匹配,给出相似度量化分值。
数据敏感度规则六:对敏感内容正则匹配。需对正在流通的数据进行抽样,分词,进行敏感正则进行相似度匹配,给出相似度量化分值。例如:手机号通常是11位的数字;身份证通常18位,最后4位可能带字母,其余全是数字;带姓名通常两个字或三个字且带姓氏等。
第三个介绍一下数据来源库。由数据供方提供数据来源证明材料,存入数据库。
最后,介绍交付抽样数据库。通过不定时抽样的方案等获取供方数据,将密文等存入数据库。
合规性分析子装置111进一步包括:
电子签章校验:比如与CA合作,通过签章ID及关键信息通过api方式给 ca校验。结果为两个值,通过/与不通过,该分析为一票否决,只要不通过,就直接判定为不合规,以上仅是举例,主要用于电子签章的认证。
语义相似度分析:其语义相似度分析包括:敏感词提取、信息内容摘要提取及相似度计算。
敏感词提取。首先对数据流通内容进行分词,通过敏感特征词库匹配,提取出敏感词,以备语义相似度计算。敏感词提取主要针对流通数据,是抽样进行的,并不是把所有流通数据都拦截下来。
信息内容摘要提取。对于一篇文本内容,通过人工智能工具及算法提取出文本的主要内容,后续可通过文本语义相似度算法算出摘要语义与匹配规则的相似度,在相似度分析时给出具体的合规分值。
语义相似度计算。将提取出的敏感词词向量,同敏感特征库的词向量进行余弦计算,计算出语义相似度,更具敏感词数量及相似度数值,最终计算出合规性分值;将信息内容摘要分词,转换词向量,同规则库进行语义相似度匹配,最终计算出合规性分值。
Robot协议分析。针对来源为爬取的数据,需要去来源网站获取robot协议,通过协议分析,所爬取的数据是否在允许范围内,若不在,则来源不合规。该分析也是一票否决,只要违背robot协议,就直接判定为不合规。
合规性控制子装置。合规性控制主要是一种监管活动,通过对数据来源、数据特征的分析,计算出一个综合性量化分值,根据级别划分,采用不同的管理控制方式。当电子签章校验、robot协议不通过,则直接定为不合规,严禁数据流通;只有电子签章校验、robot协议通过后,才允许数据流通,在流通的过程中每根据数据交付的频繁程度,对流通数据进行抽样探查,若样本数据中敏感词语义相似度分析分值达到一定的等级,通过合规性分析得出合规等级进行相应地控制。
以下结合附图3,说明本发明一种数据产品安全合规性检查方法的流程图。它包括:
S110:获得数据产品中待检测数据,对所述待检测数据的来源合法性进行识别;
S120:所述待检测数据进行敏感词提取和/或信息内容提取;
S130:满足匹配要求的各提取数据进行词向量转换,分别与预先创建的敏感特征库的特征词词向量进行语义相似度计算,和/或对所述信息内容进行分句处理,每一分句进一步进行分词后转换分词词向量,与预先建立的规则库进行语义相似度匹配计算;
S140:获得的合规性分值信息进行所述数据产品的合规性适配控制操作。
其中,在数据产品安全合规性检查之前,敏感特征库的创建进一步包括以下步骤:
对敏感信息进行分类,并按照分类建立对应的子敏感特征库;
获得敏感词信息和计算特征词词向量信息,后存储于对应分类的子敏感特征库;
当从待检测数据中提取出所述敏感词后,找到所述敏感词对应分类的子敏感特征库,后对转换后的所述词向量与所述子敏感特征库中的特征词词向量分别进行语义相似度计算,获得敏感词的合规性分值信息。
其中,计算特征词词向量信息进一步包括:
使用爬虫工具爬取符合预设条件包括网络数据描述、相关文本在内的数据作为第一语料,并将所述第一语料数据存储在第一特征词语料文件中;
引入word2vec语言模型框架;
将所述第一特征词词语料文件在所述框架中进行加载;
按照所述第一特征词语料文件中的特征词语料通过词频来构建词典数结构,后通过神经网络训练所述特征词语料,得到训练模型model;
将所述model模型保存在word2vec.model文件中;
后通过model=Word2Vec.load("word2vec.model")拿到预先model模型导入内存,每一敏感词分别生成对应的特征词词向量。
步骤S110进一步包括:获得数据产品中待检测数据是通过从数据产品中利用抽样的方式获得待检测数据。另外,抽样可以是按照预设的抽样设计来实现的,比如,抽样设计包括通过随机数算法获得随机数,在所述随机数对应的位置抽取某一随机字数的数据,和/或预先对分类的敏感信息进行属性设置及抽取等级设置,对所述数据产品进行分段,对每一段分别查询抽取等级高的敏感信息或敏感属性个数的统计,抽取等级高的敏感信息多或敏感属性多的段为所述抽样获得的待检测数据。通过上述方案,可以对抽样实现更为精准的控制,合规性的自动检测更为准确。
S110中对所述待检测数据的来源合法性进行识别进一步包括:
待检测数据的数据提供方的数据来源url地址加上后缀robots.txt可获取该网站的robots.txt文件,并对入所述robots.txt结构进行分析,判断所述数据提供方提供的数据产品是否违反robot协议来识别其来源合法性,如:
例如:某份数据的爬取地址是https://www.163.com/special/0077sp/abc.zip。那么我们通过https://www.163.com/robots.txt获取的robots.txt文件如下:
Figure BDA0003362676740000121
通过解析发现/special/0077sp目录不允许访问,所以https://www.163.com/special/0077sp/abc.zip数据源不违反了robot协议。和/或
待检测数据的数据提供方的数据来源记录为授权来源时,则检测所述数据提供方的授权人电子签章的真实性;和/或
待检测数据的数据提供方的数据来源记录为生产来源时,则检测所述待检测数据的数据产品中携带的电子签章,后对所述电子签章进行校验,并对其时间有效性进行检验;和/或
待检测数据的数据提供方的数据来源记录为生产来源时,则检测所述待检测数据的数据产品中携带的购买凭证信息,并进一步认证卖方资质在内的合法性。
步骤S120中对待检测数据进行敏感词提取和/或信息内容提取。可以从待检测数据按照子敏感特征库存储的敏感词进行对比,提取敏感词,另外当待检测数据的数据量小于某一值时,可以直接分词,后对分词后的数据进行词向量转换,并将转换后的词向量与子敏感特征库存储的词向量计算相似度。即,两个词之前的语义相似度计算,首先通过训练模型model生成词向量。例如:要比较词“身份证”与“证件号码”的相似度,则分别生成两个词的词向量 v1=model['身份证'],v2=model['证件号码'],然后通过cos(v1,v2)可计算出两词的相似度。
当待检测数据的数据长度超过某一值时,进行信息内容提取,并信息内容摘要分词,转换词向量,同规则库进行语义相似度匹配,最终计算出合规性分值。比如,提取的所述信息内容进行摘要信息提取后,再进行分句处理,每一分句分别进行分词处理,并对分词后数据分别进行词向量计算,所述分句中的所述些分词词向量与所述规则库中存储的敏感内容信息对应的内容词向量值分别进行语义相似度计算;获得敏感内容的合规性分值信息。
举例说明:句子与句子之间的语义相似度计算。以下以sentenceA=”输入身份证号码”与sentenceB=“填写证件号码”为例描述两个句子相似度计算过程:
·采用jieba分词分别对sentenceA及sentenceB进行分词。
Jieba.cut(sentenceA,cut_all=True)得到[“输入”,“身份证”,“号码”]三个词,Jieba.cut(sentenceB,cut_all=True)得到[“填写”,“证件”,“号码”] 三个词。
·分别计算两句子分词的向量Va1,Va2,Va3;Vb1,Vb2,Vb3;
·分别计算两个句子之间向量的组合余弦值,取最大值。
SVa1=max(cos(Va1,Vb1),cos(Va1,Vb2),cos(Va1,Vb3)),同理
SVa2=max(cos(Va2,Vb1),cos(Va2,Vb2),cos(Va2,Vb3),
SVa3=max(cos(Va3,Vb1),cos(Va3,Vb2),cos(Va3,Vb3)
·计算句相似度sim:
Figure BDA0003362676740000131
即将上一步计算的最大余弦值求平均数。
通过上述方式,可以将敏感内容进行相似度计算,不仅可以计算敏感词,还可以是敏感内容的相近以对比,敏感内容包括句子、摘要、段落等。这种方式下,收集敏感信息时不仅可以是特征值,也可以是句子、摘要等,建立对应的各模板分别过行训练后进行相似度计算,通用性更强,操作性也更方便。
步骤S140中获得的合规性分值信息进行所述数据产品的合规性适配控制操作进一步包括:
通过敏感词的合规性分值信息和/或敏感内容的合规性分值信息确定对应的合规等级;
数据产品中设置数据产品的合规信息标记,所述合规信息标记包括对应的所述合规等级信息,
当监测数据资源流通时,从中获得数据产品,并解析出对应的合规等级,再根据该所述等级,所述数据产品被设置为允许其流通,或有条件允许其流通部分数据,满足预设条件后才允许流通或者设置为不允许所述数据产品流通。
举例说明,如表1所示若样本数据中敏感词语义相似度分析分值达到一定的等级,通过合规性分析得出合规等级进行相应地控制:
表1
Figure BDA0003362676740000141
本发明通过解读当今国家关于数据安全、个人信息隐私保护的法律法规、地方政策,对数据交易中的数据产品进行合规性内容及规则的制定;采用人工智能方法对数据提供方的合规性材料进行自动审阅,批复;采用抽样、举报、规则监控等方式对数据流通、交付过程进行控制。本发明具体发明内容如下:
本提案发明了一种安全合规性检查的检查点及规则。本发明通过解读法律法规、地方政策,提炼出一种合规产品需要满足的条件,及检查的规则。
本提案发明了一种数据产品智能安全合规性检查的装置。通过检查点及规则的确定,采用人工智能的文本语义分析等人工智能方法,自动鉴别数据提供方的数据产品是否合规,并运用于合规性审核。
本提案发明了一种数据流通合规性控制装置。通过数据抽样,对敏感词匹配、合规规则匹配,对数据流通数据进行等级控制。
本发明提供第二种实例,其为一种更为简便的数据产品合规性装置,其包括:
敏感特征库:用于存储敏感特征信息及特征词词向量信息;
规则库:用于存储合规性的各种规则信息;
合法性识别模块:用于获得数据产品中待检测数据,对所述待检测数据的来源合法性进行识别;
提取模块:用于从所述待检测数据进行敏感词提取和/或信息内容提取;
语义相似度匹配计算模块:用于满足匹配要求的各提取数据进行词向量转换,分别与预先创建的敏感特征库的特征词词向量进行语义相似度计算,和/ 或对所述信息内容进行分句处理,每一分句进一步进行分词后转换分词词向量,与预先建立的规则库进行语义相似度匹配计算;
控制模块:获得的合规性分值信息进行所述数据产品的合规性适配控制操作。
一种电子设备,包括:一个或多个处理器;
存储器;用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述任一所述的方法。
一种服务器,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述的任一所述的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种数据产品安全合规性检查方法,其特征在于:包括:
获得数据产品中待检测数据,对所述待检测数据的来源合法性进行识别;
所述待检测数据进行敏感词提取和/或信息内容提取;
满足匹配要求的各提取数据进行词向量转换,分别与预先创建的敏感特征库的特征词词向量进行语义相似度计算,和/或对所述信息内容进行分句处理,每一分句进一步进行分词后转换分词词向量,与预先建立的规则库进行语义相似度匹配计算;
获得的合规性分值信息进行所述数据产品的合规性适配控制操作。
2.如权利要求1所述的数据产品安全合规性检查方法,其特征在于:
敏感特征库的创建进一步包括以下步骤:
对敏感信息进行分类,并按照分类建立对应的子敏感特征库;
获得敏感词信息和计算特征词词向量信息,后存储于对应分类的子敏感特征库;
当从待检测数据中提取出所述敏感词后,找到所述敏感词对应分类的子敏感特征库,后对转换后的所述词向量与所述子敏感特征库中的特征词词向量分别进行语义相似度计算,获得敏感词的合规性分值信息。
3.如权利要求2所述的数据产品安全合规性检查方法,其特征在于:计算特征词词向量信息进一步包括:
使用爬虫工具爬取符合预设条件包括网络数据描述、相关文本在内的数据作为第一语料,并将所述第一语料数据存储在第一特征词语料文件中;
引入word2vec语言模型框架;
将所述第一特征词词语料文件在所述框架中进行加载;
按照所述第一特征词语料文件中的特征词语料通过词频来构建词典数结构,后通过神经网络训练所述特征词语料,得到训练模型model;
将所述model模型保存在word2vec.model文件中;
后通过model=Word2Vec.load("word2vec.model")拿到预先model模型导入内存,每一敏感词分别生成对应的特征词词向量。
4.如权利要求1所述的方法,其特征在于,提取的所述信息内容与预先建立的规则库进行语义相似度匹配计算进一步包括:
提取的所述信息内容进行摘要信息提取后,再进行分句处理,每一分句分别进行分词处理,并对分词后数据分别进行词向量计算,所述分句中的所述些分词词向量与所述规则库中存储的敏感内容信息对应的内容词向量值分别进行语义相似度计算;
获得敏感内容的合规性分值信息。
5.如权利要求1所述的方法,其特征在于,对所述待检测数据的来源合法性进行识别进一步包括:
所述待检测数据的数据提供方的数据来源url地址加上后缀robots.txt可获取该网站的robots.txt文件,并对入所述robots.txt结构进行分析,判断所述数据提供方提供的数据产品是否违反robot协议来识别其来源合法性。
6.如权利要求1或5所述的方法,其特征在于,对所述待检测数据的来源合法性进行识别进一步包括:
所述待检测数据的数据提供方的数据来源记录为授权来源时,则检测所述数据提供方的授权人电子签章的真实性;和/或
所述待检测数据的数据提供方的数据来源记录为生产来源时,则检测所述待检测数据的数据产品中携带的电子签章,后对所述电子签章进行校验,并对其时间有效性进行检验;和/或
所述待检测数据的数据提供方的数据来源记录为生产来源时,则检测所述待检测数据的数据产品中携带的购买凭证信息,并进一步认证卖方资质在内的合法性。
7.如权利要求2或4所述的方法,其特征在于,获得的合规性分值信息进行所述数据产品的合规性适配控制操作进一步包括:
通过敏感词的合规性分值信息和/或敏感内容的合规性分值信息确定对应的合规等级;
所述数据产品中设置数据产品的合规信息标记,所述合规信息标记包括对应的所述合规等级信息,
当监测数据资源流通时,从中获得所述数据产品,并解析出对应的合规等级,再根据该所述等级,所述数据产品被设置为允许其流通,或有条件允许其流通部分数据,满足预设条件后才允许流通或者设置为不允许所述数据产品流通。
8.如权项2所述的方法,其特征在于,获得数据产品中待检测数据进一步包括:
通过对所述数据产品中数据进行抽样获得待检测数据;
所述抽样是按照预设的抽样设计来实现的,
所述抽样设计包括通过随机数算法获得随机数,在所述随机数对应的位置抽取某一随机字数的数据,和/或
预先对分类的敏感信息进行属性设置及抽取等级设置,对所述数据产品进行分段,对每一段分别查询抽取等级高的敏感信息或敏感属性个数的统计,抽取等级高的敏感信息多或敏感属性多的段为所述抽样获得的待检测数据。
9.一种数据产品合规性装置,其特征在于,包括:
敏感特征库:用于存储敏感特征信息及特征词词向量信息;
规则库:用于存储合规性的各种规则信息;
合法性识别模块:用于获得数据产品中待检测数据,对所述待检测数据的来源合法性进行识别;
提取模块:用于从所述待检测数据进行敏感词提取和/或信息内容提取;
语义相似度匹配计算模块:用于满足匹配要求的各提取数据进行词向量转换,分别与预先创建的敏感特征库的特征词词向量进行语义相似度计算,和/或对所述信息内容进行分句处理,每一分句进一步进行分词后转换分词词向量,与预先建立的规则库进行语义相似度匹配计算;
控制模块:获得的合规性分值信息进行所述数据产品的合规性适配控制操作。
10.如权利要求9所述的装置,其特征在于,还包括:
Rob协议分析模块:用于所述待检测数据的数据提供方的数据来源url地址加上后缀robots.txt可获取该网站的robots.txt文件,并对入所述robots.txt结构进行分析,判断所述数据提供方提供的数据产品是否违反robot协议来识别其来源合法性。
11.一种电子设备,其特征在于,包括:一个或多个处理器;
存储器;用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
12.一种服务器,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202111372138.0A 2021-11-18 2021-11-18 一种数据产品安全合规性检查方法、装置及服务器 Pending CN116150349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111372138.0A CN116150349A (zh) 2021-11-18 2021-11-18 一种数据产品安全合规性检查方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111372138.0A CN116150349A (zh) 2021-11-18 2021-11-18 一种数据产品安全合规性检查方法、装置及服务器

Publications (1)

Publication Number Publication Date
CN116150349A true CN116150349A (zh) 2023-05-23

Family

ID=86358666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111372138.0A Pending CN116150349A (zh) 2021-11-18 2021-11-18 一种数据产品安全合规性检查方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN116150349A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681086A (zh) * 2023-07-31 2023-09-01 深圳市傲天科技股份有限公司 数据分级方法、系统、设备及存储介质
CN117332039A (zh) * 2023-09-20 2024-01-02 鹏城实验室 文本检测方法、装置、设备和存储介质
CN117494212A (zh) * 2023-11-24 2024-02-02 北京风平智能科技有限公司 一种人工智能内容生产实时风控方法及装置
CN117592092A (zh) * 2024-01-19 2024-02-23 山东铭云信息技术有限公司 一种数据库内容的保密检查方法及系统
CN117332039B (zh) * 2023-09-20 2024-07-02 鹏城实验室 文本检测方法、装置、设备和存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681086A (zh) * 2023-07-31 2023-09-01 深圳市傲天科技股份有限公司 数据分级方法、系统、设备及存储介质
CN116681086B (zh) * 2023-07-31 2024-04-02 深圳市傲天科技股份有限公司 数据分级方法、系统、设备及存储介质
CN117332039A (zh) * 2023-09-20 2024-01-02 鹏城实验室 文本检测方法、装置、设备和存储介质
CN117332039B (zh) * 2023-09-20 2024-07-02 鹏城实验室 文本检测方法、装置、设备和存储介质
CN117494212A (zh) * 2023-11-24 2024-02-02 北京风平智能科技有限公司 一种人工智能内容生产实时风控方法及装置
CN117494212B (zh) * 2023-11-24 2024-06-07 北京风平智能科技有限公司 一种人工智能内容生产实时风控方法及装置
CN117592092A (zh) * 2024-01-19 2024-02-23 山东铭云信息技术有限公司 一种数据库内容的保密检查方法及系统
CN117592092B (zh) * 2024-01-19 2024-04-05 山东铭云信息技术有限公司 一种数据库内容的保密检查方法及系统

Similar Documents

Publication Publication Date Title
CN109635872B (zh) 身份识别方法、电子设备及计算机程序产品
CN110399925B (zh) 账号的风险识别方法、装置及存储介质
CN105590055B (zh) 用于在网络交互系统中识别用户可信行为的方法及装置
CN116150349A (zh) 一种数据产品安全合规性检查方法、装置及服务器
US11531987B2 (en) User profiling based on transaction data associated with a user
CN110263157B (zh) 一种数据风险预测方法、装置及设备
CN111343162B (zh) 系统安全登录方法、装置、介质及电子设备
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN110147540B (zh) 业务安全需求文档生成方法及系统
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN114760149B (zh) 数据跨境合规管控方法、装置、计算机设备及存储介质
CN109831459B (zh) 安全访问的方法、装置、存储介质和终端设备
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN105431859A (zh) 指示恶意软件的信号标记
CN113706176A (zh) 一种结合云计算的信息反欺诈处理方法及服务平台系统
CN112632409A (zh) 同一用户识别方法、装置、计算机设备和存储介质
CN111429110B (zh) 门店标准化审核方法、装置、设备及存储介质
CN111027065B (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
CN113705164A (zh) 一种文本处理方法、装置、计算机设备以及可读存储介质
CN110086826B (zh) 信息处理方法
CN110097258B (zh) 一种用户关系网络建立方法、装置及计算机可读存储介质
Chen et al. Fraud analysis and detection for real-time messaging communications on social networks
CN116318974A (zh) 站点风险识别方法、装置、计算机可读介质及电子设备
CN116431912A (zh) 用户画像推送方法及装置
CN115599345A (zh) 一种基于知识图谱的应用安全需求分析推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination