CN112307751A - 一种基于自然语言处理的数据脱敏方法和系统 - Google Patents
一种基于自然语言处理的数据脱敏方法和系统 Download PDFInfo
- Publication number
- CN112307751A CN112307751A CN202011228918.3A CN202011228918A CN112307751A CN 112307751 A CN112307751 A CN 112307751A CN 202011228918 A CN202011228918 A CN 202011228918A CN 112307751 A CN112307751 A CN 112307751A
- Authority
- CN
- China
- Prior art keywords
- desensitization
- data
- language processing
- natural language
- service node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 234
- 238000003058 natural language processing Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 76
- 238000005516 engineering process Methods 0.000 claims abstract description 23
- 239000002245 particle Substances 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000007787 long-term memory Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于自然语言处理的数据脱敏方法和系统,其中,数据脱敏方法包括:使用预设处理算法对获取到的数据进行自然语言处理,得到语言处理结果;根据用户需求,设置与所述语言处理结果对应的脱敏策略;按照所述脱敏策略、使用服务网格代理技术对所述数据进行数据脱敏操作,得到脱敏后的所述数据。本发明的技术方案能解决现有技术中的数据脱敏方式,脱敏的可靠性和易用性差的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于自然语言处理的数据脱敏方法和系统。
背景技术
现代社会已进入大数据时代,在大数据时代下,通过大数据分析等手段,海量数据中隐藏的价值得以挖掘;但大数据分析也带来用户隐私信息泄漏与关键性敏感数据保护失效等方面的问题。为解决上述问题,规避数据风险,相关技术中采用数据脱敏技术以进行数据保护。
传统的数据脱敏方式是根据不同种类的数据源人工设置脱敏规则,采取不同的脱敏方法,编写不同程序,应用不同配置的服务平台,从而对数据进行脱敏的。这种脱敏方式因为人工干预大,配置成本高,兼容性差、对用户的专业素养要求高,因此降低了数据脱敏的可靠性和易用性。
发明内容
本发明提供了一种基于自然语言处理的数据脱敏方法和系统,旨在解决现有技术中数据脱敏方式,人工干预大,匹配成本高,数据脱敏的可靠性和易用性差的问题。
为实现上述目的,根据本发明的第一方面,本发明提供了一种基于自然语言处理的数据脱敏方法,包括:
使用预设处理算法对获取到的数据进行自然语言处理,得到语言处理结果;
根据用户需求,设置与语言处理结果对应的脱敏策略;
按照脱敏策略、使用服务网格代理技术对数据进行数据脱敏操作,得到脱敏后的数据。
优选地,所述使用预设处理算法对获取到的数据进行自然语言处理的步骤,包括:
使用集成学习算法,结合多种自然语言处理模型对数据进行自然语言处理,分别得到多种模型预测结果;
使用预设共识算法对多种模型预测结果进行投票表决,得到语言处理结果。
优选地,所述使用预设处理算法对获取到的数据进行自然语言处理的步骤,包括:
获取服务节点发送的数据;
解析数据包含的自然语言内容;
使用预设学习算法,对数据包含的自然语言内容进行词性标注和实体识别。
优选地,所述根据用户需求,设置与语言处理结果对应的脱敏策略的步骤,包括:
获取用户选定的特定实体和脱敏规则;
控制服务节点从识别到的实体中匹配特定实体,并按照脱敏规则对数据中与特定实体的词性相同的实体进行脱敏。
优选地,所述按照脱敏策略、使用服务网格代理技术对数据进行数据脱敏操作的步骤,包括:
将脱敏策略发送至服务节点,以使服务节点按照脱敏策略对数据进行数据脱敏;
获取服务节点对数据的脱敏粒度;
判断数据的脱敏粒度是否在预设脱敏粒度范围内;
若判定脱敏粒度不在预设脱敏粒度范围内,则向服务节点发送脱敏粒度纠偏信息,以稳定服务节点的脱敏粒度。
根据本发明的第二方面,本发明还提供了一种基于自然语言处理的数据脱敏系统,包括:
语言处理模块,用于使用预设处理算法对获取到的数据进行自然语言处理,得到语言处理结果;
脱敏控制模块,用于根据用户需求,设置与语言处理结果对应的脱敏策略;
脱敏操作模块,用于按照脱敏策略、使用服务网格代理技术对数据进行数据脱敏操作,得到脱敏后的数据。
优选地,所述语言处理模块,包括:
处理子模块,用于使用集成学习算法,结合多种自然语言处理模型对数据进行自然语言处理,分别得到多种模型预测结果;
表决子模块,用于使用预设共识算法对多种模型预测结果进行投票表决,得到语言处理结果。
优选地,所述语言处理模块,包括:
数据获取子模块,用于获取服务节点发送的数据;
数据解析子模块,用于解析数据包含的自然语言内容;
词性标注子模块,用于使用预设学习算法,对数据包含的自然语言内容进行词性标注;
实体识别子模块,用于使用预设学习算法,对数据包含的自然语言内容进行实体识别。
优选地,所述脱敏控制模块,包括:
信息获取子模块,用于获取用户选定的特定实体和脱敏规则;
匹配控制子模块,用于控制服务节点从识别到的实体中匹配特定实体;
脱敏控制子模块,用于控制服务节点按照脱敏规则对数据中与特定实体的词性相同的实体进行脱敏。
优选地,所述脱敏控制模块,包括:
策略发送子模块,用于将脱敏策略发送至服务节点,以使服务节点按照脱敏策略对数据进行数据脱敏;
粒度获取子模块,用于获取服务节点对数据的脱敏粒度;
粒度判断子模块,用于判断数据的脱敏粒度是否在预设脱敏粒度范围内;
信息发送子模块,用于当粒度判断子模块判定脱敏粒度不在预设脱敏粒度范围内时,向服务节点发送脱敏粒度纠偏信息,以稳定服务节点的脱敏粒度。
综上,本申请提供的基于自然语言处理的数据脱敏方案,通过使用预设处理算法对数据进行自然语言处理,得到语言处理结果;然后根据用户需求制定与语言处理结果对应的脱敏策略,再按照该脱敏策略使用服务网格代理技术对数据进行数据脱敏操作,能够得到脱敏后的数据,因为这种脱敏方式是机器直接根据自然语言进行处理并脱敏的,因此只需要人工提供用户需求即可,不需要人工干预,配置成本低,提高了数据脱敏的可靠性和易用性。同上,本申请的技术方案,能够解决现有技术中的数据脱敏方式因为人工干预大,配置成本高,对用户的专业素养要求高,数据脱敏的可靠性和易用性差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例提供的一种基于自然语言处理的数据脱敏系统的结构示意图;
图2是本发明实施例提供的一种基于自然语言处理的数据脱敏系统方法的流程示意图;
图3是图2所示实施例提供的第一种自然语言处理方法的流程示意图;
图4是图2所示实施例提供的第二种自然语言处理方法的流程示意图;
图5是图2所示实施例提供的一种脱敏策略设置方法的流程示意图;
图6是图2所示实施例提供的一种数据脱敏方法的流程示意图;
图7是本发明实施例提供的第二种基于自然语言处理的数据脱敏系统的结构示意图;
图8是图7所示实施例提供的第一种语言处理模块的结构示意图;
图9是图7所示实施例提供的第二种语言处理模块的结构示意图;
图10是图7所示实施例提供的第一种脱敏控制模块的结构示意图;
图11是图7所示实施例提供的第二种脱敏控制模块的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要技术问题如下:
现有的数据脱敏方式是根据不同种类的数据源以人工设置脱敏规则,对于不同种类的数据源,会采用不同的脱敏方法,编写不用程序,应用不同配置的服务平台,对数据进行脱敏的。这种脱敏方式因人工干预大、配置成本高、兼容性差、对用户专业素养要求高,降低了数据脱敏的可靠性和易用性。
为解决上述问题,参见图1,图1为本发明实施例提供的一种基于自然语言处理的数据脱敏系统的结构示意图。如图1所示,该基于自然语言处理的数据脱敏系统包括:
服务节点1(包括图中服务节点A和服务节点B)和数据脱敏平台2,该数据脱敏平台2包括脱敏配置管理装置201、自然语言处理装置202和服务路由管理装置203。服务节点1包括数据脱敏装置101,该数据脱敏装置101是基于服务网格代理技术Istio Proxy的数据脱敏装置。自然语言处理装置202用于使用预设处理算法提供自然语言处理的相关服务,包括实体识别、模型训练、词典管理和词性标注等服务,通过上述服务得到语言处理结果;脱敏配置管理装置201根据用户需求设置用于与语言处理结果对应的脱敏策略;服务路由管理装置203用于获取各服务节点的路由路径,以便于收发数据。上述基于Istio proxy的数据脱敏装置101主要作用是基于上述脱敏策略,使用服务网格代理技术对数据执行数据脱敏操作,从而得到脱敏后的数据。
为实现上述数据脱敏的功能,参见图2,图2为本发明实施例提供的一种基于自然语言处理的数据脱敏方法的流程示意图。如图2所示,该基于自然语言处理的数据脱敏方法,包括:
S110:使用预设处理算法对获取到的数据进行自然语言处理,得到语言处理结果。
结合图1所示,该数据可通过上述各服务节点中的服务网格代理技术Isito Proxy返回的链路数据流得到,从而省去配置相关数据源的流程。另外,通过使用预设处理算法,例如集成学习算法Ensemble算法,使用隐马尔科夫模型HMM、条件随机场模型CRF、双向长短期记忆网络模型BiLSTM和BiLSTM+CRF模型分别对数据进行自然语言方面的处理,包括实体识别、模型训练、词典管理和词性标注等服务。
具体地,如图3所示,该使用预设处理算法对获取到的数据进行自然语言处理的步骤,具体包括:
S111:使用集成学习算法,结合多种自然语言处理模型对数据进行自然语言处理,分别得到多种模型预测结果。
集成学习算法Ensemble是一种将多种学习模型组合在一起,以取得更好表现的一种算法。Ensemble与统计总体算法不同,机器学习下的Ensemble主要是指有限的模型相互组合,而且可以有很多不同的结构。另外,这里的自然语言处理模型包括隐马尔科夫模型HMM、条件随机场模型CRF、双向长短期记忆网络模型BiLSTM、双向长短期记忆网络模型+条件随机场模型BiLSTM+CRF,HMM是统计模型,用来描述一个含有隐含未知参数的马尔科夫过程,能够从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析,从而统计自然语言中不同词性的实体。条件随机场模型CRF,是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字,通过该模型能够实现自然语言的词性标注等服务。双向长短期记忆网络模型BiLSTM由前向长短期记忆网络模型和后向长短期记忆网络模型组成,能够对时序数据(如自然语言)进行建模,通过该BiLSTM模型能够较好地捕捉到双向的语义依赖关系。通过集成学习算法,使用上述多种自然语言处理模型能够对数据实现实体识别、模型训练、词典管理和词性标注等多种自然语言的处理,从而得到多种模型预测结果(模型预测结果包括不同的词性、相同或类似的实体以及语言的分词结构等)。
S112:使用预设共识算法对多种模型预测结果进行投票表决,得到语言处理结果。
共识算法Raft算法,是工程上使用较为广泛的强一致性、去中心化和高可用的分布式协议。Raft算法是一种共识算法(consensus algorithm),所谓共识,就是多个节点对某个事情达成一致的看法,即使是在部分节点故障、网络延时或网络分割的情况下。在分布式系统中,共识算法更多用于提高系统的容错性。这样,Raft算法就是一种基于领导的共识算法。通过使用该Raft算法对上述多种模型,HMM、CRF、BiLSTM以及BiLSTM+CRF模型进行投票表决,就能够得到最终的语言处理结果,包括词性分析结果、分词结构以及识别到的实体等。
另外,作为一种优选的实施例,如图4所示,该使用预设处理算法对获取到的数据进行自然语言处理的步骤,具体如下:
S113:获取服务节点发送的数据。因为服务节点使用的服务网格代理技术(例如Istio Proxy)是一种完全开源的协议,能够透明地分布到现有的分布式应用程序中。这样,就能够在分布式系统中不同的服务节点设置服务网格代理技术,每个服务节点能够将需要处理的数据通过返回链路数据流的形式发送至相应的数据脱敏平台中,通过该数据脱敏平台对数据进行基于自然语言的处理服务,并设置相应的脱敏规则。
S114:解析数据包含的自然语言内容。因为数据是通过每台服务节点上的基于服务网格代理技术的数据脱敏装置发送的,数据发送的形式为返回链路数据流,这样数据脱敏平台需要对该返回链路数据流形式的数据进行解析,得到其中的自然语言内容。
S115:使用预设学习算法,对数据包含的自然语言内容进行词性标注和实体识别。通过其中该预设学习算法包括上述集成学习算法Ensemble算法以及共识算法Raft算法,Ensemble算法能够将HMM、CRF以及BiLSTM等模型的预测结果(标注的词性以及识别到的实体等)结合起来,并通过Raft算法,通过“投票表决”的方式得出最后的预测结果,包括词性标注和实体识别等。
图2所示的数据脱敏方法还包括以下步骤:
S120:根据用户需求,设置与语言处理结果对应的脱敏策略。在对数据进行脱敏时,需要根据用户需求做出,因为上述过程得到了语言处理结果,包括标注的词性以及识别到的实体,所以用户只需要输入相应的脱敏需求,例如对每类词语进行删除或隐藏等,这样就能够从上述语言处理结果,词性和实体中直接查找到同类的词句,从而设置与语言处理结果对应的脱敏策略,例如隐藏或删除等。
具体地,如图5所示,该根据用户需求,设置与语言处理结果对应的脱敏策略的步骤具体包括:
S121:获取用户选定的特定实体和脱敏规则。因为数据脱敏主要是对自然语言中的实体,例如:地点、人名、身份证号以及手机号等实体数据进行处理的,因此,这种基于自然语言处理的实体识别功能,还要搭配对相应的脱敏规则。当获取到用户选定的特定实体和脱敏规则时,根据该脱敏规则对特定实体进行脱敏即可。
S122:控制服务节点从识别到的实体中匹配特定实体,并按照脱敏规则对数据中与特定实体的词性相同的实体进行脱敏。
本申请实施例提供的技术方案中,通过控制服务节点使用服务网格代理技术Istio Proxy从识别到的实体中匹配用户选定的特定实体,并按照用户选定的脱敏规则对数据中与特定实体的词性相同的实体进行脱敏(例如隐藏或删除等)。
另外,图2所示的数据脱敏方法还包括以下步骤:
S130:按照脱敏策略、使用服务网格代理技术对数据进行数据脱敏操作,得到脱敏后的数据。数据脱敏平台在选定脱敏策略后,会将该脱敏策略连同上述包括语言处理结果的数据传回分布式网络的各台服务节点中,通过服务网格代理技术(例如Istio proxy)对数据进行数据脱敏操作,从而得到脱敏后的数据。因为使用服务网格代理技术,该服务网格代理技术是使用服务网格service mesh的思想实现的,因此对代码,即数据的侵入性为0。
具体地,如图6所示,该按照脱敏策略、使用服务网格代理技术对数据进行数据脱敏操作的步骤,包括:
S131:将脱敏策略发送至对应的服务节点中,以使服务节点按照脱敏策略对数据进行数据脱敏。因为在分布式系统中,每台服务节点均通过服务网格代理技术设置服务网格,这样服务节点在获取到数据后,交由相应的数据脱敏平台进行处理,得到相应的脱敏策略,从而服务节点根据该脱敏策略对数据进行脱敏操作。
S132:获取服务节点对数据的脱敏粒度。脱敏粒度反映了服务节点对数据脱敏的粗细程度;其中,细化程度越高,粒度级就越小;细化程度越低,粒度级就越大。
S133:判断数据的脱敏粒度是否在预设脱敏粒度范围内。
S134:若判定脱敏粒度不在预设脱敏粒度范围内,则向服务节点发送脱敏粒度纠偏信息,以稳定服务节点的脱敏粒度。
通过对服务网格代理Istio Proxy端的扩展,在数据转发前对数据进行分词和对特定词性的数据进行数据脱敏的处理,能够使得服务节点之间传递的数据以及给客户透出的数据都是经过脱敏处理的。服务节点和数据脱敏平台保持一个长连接以定时扫描数据脱敏平台的变化,可以实现脱敏策略、脱敏数据的粒度和数据路由的规则的动态监控。另外,数据脱敏平台通过与服务节点保持长连接,能够对脱敏规则进行维护,对自然语言处理服务的算法进行升级,对相应的自然语言处理模型进行训练,以及对路由管理与数据脱敏粒度的控制相关的配置管理。另外,数据脱敏平台还负责配置下发到各服务节点的服务网格代理服务和新配置的数据推送。
综上,本申请实施例提供的基于自然语言处理的数据脱敏方法,通过使用预设处理算法对数据进行自然语言处理,得到语言处理结果;然后根据用户需求制定与语言处理结果对应的脱敏策略,再按照该脱敏策略,使用服务网格代理技术对数据进行数据脱敏操作,能够得到脱敏后的数据,因为这种脱敏方式是直接根据自然语言进行处理并脱敏的,因此只需要人工提供用户需求即可,不需要人工干预,配置成本低,提高了数据脱敏的可靠性和易用性。综上,本申请的技术方案,能够解决现有技术中的数据脱敏方式因为人工干预大,配置成本高,对用户的专业素养要求高,数据脱敏的可靠性和易用性差的问题。
另外,基于上述方法实施例的同一构思,本发明实施例还提供了基于自然语言处理的数据脱敏系统,用于实现本发明的上述方法,由于该系统实施例解决问题的原理与上述方法相似,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参见7,图7为本发明实施例提供的第二种基于自然语言处理的数据脱敏系统的结构示意图。如图7所示,该基于自然语言处理的数据脱敏系统,包括:
语言处理模块110,用于使用预设处理算法对获取到的数据进行自然语言处理,得到语言处理结果;
脱敏控制模块120,用于根据用户需求,设置与语言处理结果对应的脱敏策略;
脱敏操作模块130,用于按照脱敏策略、使用服务网格代理技术对数据进行数据脱敏操作,得到脱敏后的数据。
综上,本申请实施例提供的基于自然语言处理的数据脱敏系统,通过语言处理模块110使用预设处理算法对数据进行自然语言处理,得到语言处理结果;然后脱敏控制模块120根据用户需求制定与语言处理结果对应的脱敏策略,再通过脱敏操作模块130按照该脱敏策略,使用服务网格代理技术对数据进行数据脱敏操作,能够得到脱敏后的数据。因为这种脱敏方式是直接根据自然语言进行处理并脱敏的,因此只需要人工提供用户需求即可,不需要人工干预,配置成本低,提高了数据脱敏的可靠性和易用性。同上,本申请的技术方案,能够解决现有技术中的数据脱敏方式因为人工干预大,配置成本高,对用户的专业素养要求高,数据脱敏的可靠性和易用性差的问题。
其中,上述语言处理模块110的结构如图8所示,包括:
处理子模块111,用于使用集成学习算法,结合多种自然语言处理模型对数据进行自然语言处理,分别得到多种模型预测结果;
表决子模块112,用于使用预设共识算法对多种模型预测结果进行投票表决,得到语言处理结果。
其中,上述语言处理模块110的结构如图9所示,包括:
数据获取子模块113,用于获取服务节点发送的数据;
数据解析子模块114,用于解析数据包含的自然语言内容;
词性标注子模块115,用于使用预设学习算法,对数据包含的自然语言内容进行词性标注;
实体识别子模块116,用于使用预设学习算法,对数据包含的自然语言内容进行实体识别。
其中,上述脱敏控制模块130的结构如图10所示,包括:
信息获取子模块131,用于获取用户选定的特定实体和脱敏规则;
匹配控制子模块132,用于控制服务节点从识别到的实体中匹配特定实体;
脱敏控制子模块133,用于控制服务节点按照脱敏规则对数据中与特定实体的词性相同的实体进行脱敏。
其中,上述脱敏控制模块130的结构如图11所示,包括:
策略发送子模块134,用于将脱敏策略发送至服务节点,以使服务节点按照脱敏策略对数据进行数据脱敏;
粒度获取子模块135,用于获取服务节点对数据的脱敏粒度;
粒度判断子模块136,用于判断数据的脱敏粒度是否在预设脱敏粒度范围内;
信息发送子模块137,用于当粒度判断子模块判定脱敏粒度不在预设脱敏粒度范围内时,向服务节点发送脱敏粒度纠偏信息,以稳定服务节点的脱敏粒度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于自然语言处理的数据脱敏方法,其特征在于,包括:
使用预设处理算法对获取到的数据进行自然语言处理,得到语言处理结果;
根据用户需求,设置与所述语言处理结果对应的脱敏策略;
按照所述脱敏策略、使用服务网格代理技术对所述数据进行数据脱敏操作,得到脱敏后的所述数据。
2.根据权利要求1所述的基于自然语言处理的数据脱敏方法,其特征在于,所述使用预设处理算法对获取到的数据进行自然语言处理的步骤,包括:
使用集成学习算法,结合多种自然语言处理模型对所述数据进行自然语言处理,分别得到多种模型预测结果;
使用预设共识算法对所述多种模型预测结果进行投票表决,得到所述语言处理结果。
3.根据权利要求1所述的基于自然语言处理的数据脱敏方法,其特征在于,所述使用预设处理算法对获取到的数据进行自然语言处理的步骤,包括:
获取服务节点发送的所述数据;
解析所述数据包含的自然语言内容;
使用所述预设学习算法,对所述数据包含的自然语言内容进行词性标注和实体识别。
4.根据权利要求3所述的基于自然语言处理的数据脱敏方法,其特征在于,所述根据用户需求,设置与所述语言处理结果对应的脱敏策略的步骤,包括:
获取用户选定的特定实体和脱敏规则;
控制所述服务节点从识别到的实体中匹配所述特定实体,并按照所述脱敏规则对所述数据中与所述特定实体的词性相同的实体进行脱敏。
5.根据权利要求1所述的基于自然语言处理的数据脱敏方法,其特征在于,所述按照脱敏策略、使用服务网格代理技术对所述数据进行数据脱敏操作的步骤,包括:
将所述脱敏策略发送至对应的服务节点,以使所述服务节点使用所述网格代理技术按照所述脱敏策略对所述数据进行数据脱敏;
获取所述服务节点对所述数据的脱敏粒度;
判断所述数据的脱敏粒度是否在预设脱敏粒度范围内;
若判定所述脱敏粒度不在所述预设脱敏粒度范围内,则向所述服务节点发送脱敏粒度纠偏信息,以稳定所述服务节点的脱敏粒度。
6.一种基于自然语言处理的数据脱敏系统,其特征在于,包括:
语言处理模块,用于使用预设处理算法对获取到的数据进行自然语言处理,得到语言处理结果;
脱敏控制模块,用于根据用户需求,设置与所述语言处理结果对应的脱敏策略;
脱敏操作模块,用于按照所述脱敏策略、使用服务网格代理技术对所述数据进行数据脱敏操作,得到脱敏后的所述数据。
7.根据权利要求6所述的基于自然语言处理的数据脱敏系统,其特征在于,所述语言处理模块,包括:
处理子模块,用于使用集成学习算法,结合多种自然语言处理模型对所述数据进行自然语言处理,分别得到多种模型预测结果;
表决子模块,用于使用预设共识算法对所述多种模型预测结果进行投票表决,得到所述语言处理结果。
8.根据权利要求6所述的基于自然语言处理的数据脱敏系统,其特征在于,所述语言处理模块,包括:
数据获取子模块,用于获取所述服务节点发送的所述数据;
数据解析子模块,用于解析所述数据包含的自然语言内容;
词性标注子模块,用于使用所述预设学习算法,对所述数据包含的自然语言内容进行词性标注;
实体识别子模块,用于使用所述预设学习算法,对所述数据包含的自然语言内容进行实体识别。
9.根据权利要求8所述的基于自然语言处理的数据脱敏系统,其特征在于,所述脱敏控制模块,包括:
信息获取子模块,用于获取用户选定的特定实体和脱敏规则;
匹配控制子模块,用于控制所述服务节点从识别到的实体中匹配所述特定实体;
脱敏控制子模块,用于控制所述服务节点按照所述脱敏规则对所述数据中与所述特定实体的词性相同的实体进行脱敏。
10.根据权利要求6所述的基于自然语言处理的数据脱敏系统,其特征在于,所述脱敏控制模块,包括:
策略发送子模块,用于将所述脱敏策略发送至对应的服务节点,以使所述服务节点按照所述脱敏策略对所述数据进行数据脱敏;
粒度获取子模块,用于获取所述服务节点对所述数据的脱敏粒度;
粒度判断子模块,用于判断所述数据的脱敏粒度是否在预设脱敏粒度范围内;
信息发送子模块,用于当所述粒度判断子模块判定所述脱敏粒度不在所述预设脱敏粒度范围内时,向所述服务节点发送脱敏粒度纠偏信息,以稳定所述服务节点的脱敏粒度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011228918.3A CN112307751A (zh) | 2020-11-06 | 2020-11-06 | 一种基于自然语言处理的数据脱敏方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011228918.3A CN112307751A (zh) | 2020-11-06 | 2020-11-06 | 一种基于自然语言处理的数据脱敏方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112307751A true CN112307751A (zh) | 2021-02-02 |
Family
ID=74326292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011228918.3A Withdrawn CN112307751A (zh) | 2020-11-06 | 2020-11-06 | 一种基于自然语言处理的数据脱敏方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307751A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580387A (zh) * | 2022-03-03 | 2022-06-03 | 戎行技术有限公司 | 一种基于多工具的自然语言处理方法、设备及介质 |
CN117010019A (zh) * | 2023-08-04 | 2023-11-07 | 北京泰策科技有限公司 | 一种基于nlp语言模型的数据脱敏方法及系统 |
-
2020
- 2020-11-06 CN CN202011228918.3A patent/CN112307751A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580387A (zh) * | 2022-03-03 | 2022-06-03 | 戎行技术有限公司 | 一种基于多工具的自然语言处理方法、设备及介质 |
CN114580387B (zh) * | 2022-03-03 | 2024-06-07 | 戎行技术有限公司 | 一种基于多工具的自然语言处理方法、设备及介质 |
CN117010019A (zh) * | 2023-08-04 | 2023-11-07 | 北京泰策科技有限公司 | 一种基于nlp语言模型的数据脱敏方法及系统 |
CN117010019B (zh) * | 2023-08-04 | 2024-04-16 | 北京泰策科技有限公司 | 一种基于nlp语言模型的数据脱敏方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7323504B2 (ja) | 議事録の生成方法、装置、電子機器、及びコンピュータ可読記憶媒体 | |
US10242670B2 (en) | Syntactic re-ranking of potential transcriptions during automatic speech recognition | |
JP6756079B2 (ja) | 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム | |
JP2020027649A (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
CN108829467B (zh) | 第三方平台对接实现方法、装置、设备及存储介质 | |
CN110162780A (zh) | 用户意图的识别方法和装置 | |
CN114417865B (zh) | 灾害事件的描述文本处理方法、装置、设备及存储介质 | |
CN111309305B (zh) | 面向智能合约的代码自动推荐方法、系统、计算机设备和存储介质 | |
CN115328756A (zh) | 一种测试用例生成方法、装置及设备 | |
CN109858024B (zh) | 一种基于word2vec的房源词向量训练方法及装置 | |
CN112307751A (zh) | 一种基于自然语言处理的数据脱敏方法和系统 | |
CN112650842A (zh) | 基于人机交互的客服机器人意图识别方法及相关设备 | |
CN110874528A (zh) | 文本相似度的获取方法及装置 | |
CN114116065A (zh) | 获取拓扑图数据对象的方法、装置、及电子设备 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN113343248A (zh) | 一种漏洞识别方法、装置、设备和存储介质 | |
CN113486659A (zh) | 文本匹配方法、装置、计算机设备及存储介质 | |
CN112270197A (zh) | 一种基于文字段落的动画草稿生成方法与装置 | |
CN112446208A (zh) | 广告标题的生成方法、装置、设备和存储介质 | |
CN117112065A (zh) | 大模型插件调用方法、装置、设备及介质 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
WO2022262080A1 (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN113015002B (zh) | 一种主播视频数据的处理方法和装置 | |
CN113314108A (zh) | 语音数据的处理方法、装置、设备、存储介质和程序产品 | |
CN111221843A (zh) | 大数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210202 |
|
WW01 | Invention patent application withdrawn after publication |