CN111966875A - 一种敏感信息识别方法和装置 - Google Patents
一种敏感信息识别方法和装置 Download PDFInfo
- Publication number
- CN111966875A CN111966875A CN202010832849.0A CN202010832849A CN111966875A CN 111966875 A CN111966875 A CN 111966875A CN 202010832849 A CN202010832849 A CN 202010832849A CN 111966875 A CN111966875 A CN 111966875A
- Authority
- CN
- China
- Prior art keywords
- sample
- determining
- data
- model
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种敏感信息识别方法和装置,该方法包括:建立显著敏感词语库,对样本数据进行预处理,确定样本训练数据;根据样本训练数据,确定样本训练集;根据样本训练集,确定样本向量;在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。
Description
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种敏感信息识别方法和装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
机器学习技术的不断发展与进步,可以训练数据实现模型的训练,以达到智能分类和识别的目的;在训练的过程中,需要大量的训练数据作为基础。
鉴于信息安全与用户隐私保护的考虑,在进行敏感信息筛选时,仅能在提供训练数据的参与方本地进行训练,原始数据是不能共享的;当存在多个参与方时,由于彼此之间不愿意泄露各自的本地原始数据,会造成“数据孤岛”的困境,导致各个参与方训练出的模型分类和识别准确率较低,而且各个参与方之间因原始数据的不同,会造成各参与方训练的耗时不同,同时由于采用同态加密,会影响计算速度,造成总得训练耗时增加,效率较低。
因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。
发明内容
本发明实施例提供一种敏感信息识别方法,通过横向联邦学习在保障数据隐私与安全的情况下联合训练模型,实现了敏感信息的高效精准识别,包括:
建立显著敏感词语库;
根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;
根据样本训练数据,确定样本训练集;
根据样本训练集,确定样本向量;
在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;
在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;
在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;
在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;
根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。
本发明实施例还提供一种敏感信息识别装置,包括:
显著敏感词语库建立模块,用于建立显著敏感词语库;
预处理模块,用于根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;
样本训练集确定模块,用于根据样本训练数据,确定样本训练集;
样本向量确定模块,用于根据样本训练集,确定样本向量;
模型梯度确定模块,用于在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;
同态加密模块,用于在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;
聚合加密数据确定模块,用于在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;
更新后朴素贝叶斯模型确定模块,用于在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;
敏感信息识别模块,用于根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种敏感信息识别方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述一种敏感信息识别方法的计算机程序。
本发明实施例提供的一种敏感信息识别方法和装置,首先建立显著敏感词语库;根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;利用显著敏感词语库对样本数据进行预处理,将样本数据进行过滤,可以减少模型训练所消耗的时间,提升效率;然后,根据样本训练数据,确定样本训练集;根据样本训练集,确定样本向量;通过将样本训练数据转化为样本向量,实现了特征对其,为多参与方进行横向联邦学习提供了基础;接着,在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。本发明实施例中各参与方计算出模型梯度后加密上传至中央参数服务器,利用横向联邦学习将加密数据基于同态运算进行聚合计算,确定聚合加密数据,然后再分发至各个参与方对朴素贝叶斯模型进行更新,打破了多个参与方由于不信任或数据安全及用户隐私造成的“数据孤岛”困境,实现了联合训练模型,同时采用对样本数据预处理的方式,减少了本地朴素贝叶斯模型的训练时间,弥补了同态加密导致效率低下而耗费的时间,从整体上减少了训练得出更新后朴素贝叶斯模型的时间,提高了整体效率;采用横向联邦学习使得各个参与方进行联合训练,大大提高了模型识别的准确率,通过更新后朴素贝叶斯模型,可以对样本训练数据进行精准高效的敏感信息识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例一种敏感信息识别方法示意图。
图2为本发明实施例一种敏感信息识别方法的确定样本向量过程示意图。
图3为本发明实施例一种敏感信息识别方法的确定更新后朴素贝叶斯模型过程示意图。
图4为运行本发明实施的一种敏感信息识别方法的计算机装置示意图。
图5为本发明实施例一种敏感信息识别装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1为本发明实施例一种敏感信息识别方法示意图,如图1所示,本发明实施例提供一种敏感信息识别方法,通过横向联邦学习在保障数据隐私与安全的情况下联合训练模型,实现了敏感信息的高效精准识别,包括:
步骤101:建立显著敏感词语库;
步骤102:根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;
步骤103:根据样本训练数据,确定样本训练集;
步骤104:根据样本训练集,确定样本向量;
步骤105:在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;
步骤106:在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;
步骤107:在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;
步骤108:在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;
步骤109:根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。
本发明实施例提供的一种敏感信息识别方法,首先建立显著敏感词语库;根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;利用显著敏感词语库对样本数据进行预处理,将样本数据进行过滤,可以减少模型训练所消耗的时间,提升效率;然后,根据样本训练数据,确定样本训练集;根据样本训练集,确定样本向量;通过将样本训练数据转化为样本向量,实现了特征对其,为多参与方进行横向联邦学习提供了基础;接着,在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。本发明实施例中各参与方计算出模型梯度后加密上传至中央参数服务器,利用横向联邦学习将加密数据基于同态运算进行聚合计算,确定聚合加密数据,然后再分发至各个参与方对朴素贝叶斯模型进行更新,打破了多个参与方由于不信任或数据安全及用户隐私造成的“数据孤岛”困境,实现了联合训练模型,同时采用对样本数据预处理的方式,减少了本地朴素贝叶斯模型的训练时间,弥补了同态加密导致效率低下而耗费的时间,从整体上减少了训练得出更新后朴素贝叶斯模型的时间,提高了整体效率;采用横向联邦学习使得各个参与方进行联合训练,大大提高了模型识别的准确率,通过更新后朴素贝叶斯模型,可以对样本训练数据进行精准高效的敏感信息识别。
本发明要解决存在多个敏感文本数据提供方,且彼此之间不愿意泄露各自的本地原始数据时,如何在保证数据隐私的情况下,高效训练出能识别敏感句子的模型。具体的本发明实施提供一种敏感信息识别方法,可以包括:
建立显著敏感词语库;根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;根据样本训练数据,确定样本训练集;根据样本训练集,确定样本向量;在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。
具体实施本发明实例提供的一种敏感信息识别方法时,在一个实施例中,前述的显著敏感词语库,包括:显著敏感词语;
前述的根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据,包括:
根据显著敏感词语库,将样本数据通过AC自动机进行字符串匹配进行预处理,当样本数据中的样本匹配到显著敏感词语时,将该样本从样本数据中剔除,将剩余的样本数据确定为样本训练数据。
实施例中,AC自动机,是指一种多模字符串匹配算法,可以进行字符串匹配;显著敏感词语,是指通过筛选得出的高敏感词语,这些词语的特点是不论上下文语境如何,只要包含了这些词语的句子,那么这句话有较高的概率不适合出现在公开文章中。如脏话、政治敏感词语等;显著敏感词语库,包括:多个显著敏感词语,是显著敏感词语的集合。将样本数据输入AC自动机,根据显著敏感词语库,将样本数据通过AC自动机进行字符串匹配进行预处理,当样本数据中的样本匹配到显著敏感词语时,则代表该样本敏感度很明确,不需要朴素贝叶斯模型判断就能识别为敏感信息,这类明确的敏感信息没有必要加入到贝叶斯模型的训练数据中,因此将该样本从样本数据中剔除,可以减少参与模型训练的数据,减少本地模型训练时间;然后将剩余的样本数据确定为样本训练数据。
由于采用同态加密技术,计算速度会受到影响,如果不能过滤太多样本,则无法降低模型训练的时间,那么将无法平衡基于同态运算导致的参数聚合时间的增加,使得总的训练时间可能增加。本发明实施例通过AC自动机过滤部分样本数据的方式减少本地模型训练时间,弥补联邦学习联合训练造成的时间损失,从一定程度克服了联邦学习对整体时间影响造成的低效率问题。
具体实施本发明实例提供的一种敏感信息识别方法时,在一个实施例中,前述的根据样本训练数据,确定样本训练集,包括:
对样本训练数据进行切词和去停用词处理,确定各参与方的样本训练集。
实施例中,对样本训练数据进行切词和去停用词处理,确定各参与方的样本训练集X1、X2、...、Xk;其中Xk代表第K个参与方切词后的训练集。前述的切词和去停用词处理,采用基于ANSJ的中文切词技术实现。
图2为本发明实施例一种敏感信息识别方法的确定样本向量过程示意图,如图2所示,具体实施本发明实例提供的一种敏感信息识别方法时,在一个实施例中,前述的根据样本训练集,确定样本向量,包括:
步骤201:各参与方根据样本训练集,计算各自不重复词语的数量;
步骤202:各参与方分享各自不重复词语的数量,将每一参与方分享的各自不重复词语的数量相加,确定不重复词语总数量;
步骤203:在各参与方中将样本训练集中每一样本分为多个词语,将每一样本的各个词语哈希散列到长度值为不重复词语总数量的一个向量上,确定样本向量。
实施例中,在各参与方中,根据样本训练集,确定样本向量,具体可以包括:
首先,在各参与方中,各参与方根据样本训练集,计算各自不重复词语的数量:n1、n2、...、nk;
然后,各参与方分享各自不重复词语的数量n1、n2、...、nk,将每一参与方分享的各自不重复词语的数量相加,确定不重复词语总数量N=n1+n2+...+nk;
最后,在各参与方中将样本训练集中每一样本分为多个词语,将每一样本的各个词语哈希散列到长度值为不重复词语总数量N的一个向量上,确定样本向量,将每个样本向量化,实现特征对齐,为横向联邦学习提供基础。
具体实施本发明实例提供的一种敏感信息识别方法时,在一个实施例中,前述的在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度,包括:各个参与方利用自己拥有的样本向量,在本地训练朴素贝叶斯模型,计算模型梯度。朴素贝叶斯模型,是指一种可用于二分类的机器学习模型。
具体实施本发明实例提供的一种敏感信息识别方法时,在一个实施例中,前述的在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器,包括:参与方中利用同态加密技术对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器,进行横向联邦学习。
具体实施本发明实例提供的一种敏感信息识别方法时,在一个实施例中,前述的在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方,包括:中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;前述的聚合加密数据,可以是参数的加权平均。
图3为本发明实施例一种敏感信息识别方法的确定更新后朴素贝叶斯模型过程示意图,如图3所示,具体实施本发明实例提供的一种敏感信息识别方法时,在一个实施例中,前述的在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型,包括:
步骤301:各参与方接收中央参数服务器发来的聚合加密数据;
步骤302:对聚合加密数据进行解密,确定模型更新参数;
步骤303:根据模型更新参数,更新朴素贝叶斯模型,进行二次训练;
步骤304:检测朴素贝叶斯模型在二次训练过程中的损失函数,在损失函数收敛时,二次训练停止,确定更新后朴素贝叶斯模型。
实施例中,在参数中央服务器计算完成后,将聚合加密数据发总至各参与方,各参与方接收中央参数服务器发来的聚合加密数据,对聚合加密数据进行解密,确定模型更新参数,据模型更新参数,更新朴素贝叶斯模型,进行二次训练,检测朴素贝叶斯模型在二次训练过程中的损失函数,在损失函数收敛或者其他设定收敛条件时,二次训练停止,确定更新后朴素贝叶斯模型。此时更新后朴素贝叶斯模型具备较高的敏感信息识别精度;
具体实施本发明实例提供的一种敏感信息识别方法时,在一个实施例中,前述的根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别,包括:在得到更新后朴素贝叶斯模型后,对前述的经过AC自动机筛选出的样本训练数据进行敏感信息识别,可以精确的识别出敏感信息。
本发明实施例主要包括如下步骤:数据准备:准备好显著敏感词语库;AC自动机实现样本过滤,降低训练数据,提高训练时间;ANSJ包切词和去停用词工具配置,对样本训练数据进行切词和去停用词处理;样本向量化;本地朴素贝叶斯算法训练的实现;导入横向联邦学习;在本发明实施例中,关键的是:数据准备,通过预处理训练数据的规模,影响模型训练是否高效;以及样本向量化;样本向量化能够使得各个参与方的特征对齐,保证了后续横向联邦学习成为可能,保障了横向联邦学习的数据基础。
图4为运行本发明实施的一种敏感信息识别方法的计算机装置示意图,如图4所示,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种敏感信息识别方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种敏感信息识别方法的计算机程序。
本发明实施例中还提供了一种敏感信息识别装置,如下面的实施例所述。由于该装置解决问题的原理与一种敏感信息识别方法相似,因此该装置的实施可以参见一种敏感信息识别方法的实施,重复之处不再赘述。
图5为本发明实施例一种敏感信息识别装置示意图,如图5所示,本发明实施例还提供一种敏感信息识别装置,具体实施时可以包括:
显著敏感词语库建立模块501,用于建立显著敏感词语库;
预处理模块502,用于根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;
样本训练集确定模块503,用于根据样本训练数据,确定样本训练集;
样本向量确定模块504,用于根据样本训练集,确定样本向量;
模型梯度确定模块505,用于在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;
同态加密模块506,用于在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;
聚合加密数据确定模块507,用于在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;
更新后朴素贝叶斯模型确定模块508,用于在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;
敏感信息识别模块509,用于根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。
具体实施本发明实例提供的一种敏感信息识别装置时,在一个实施例中,前述的显著敏感词语库,包括:显著敏感词语;
预处理模块,具体用于:
根据显著敏感词语库,将样本数据通过AC自动机进行字符串匹配进行预处理,当样本数据中的样本匹配到显著敏感词语时,将该样本从样本数据中剔除,将剩余的样本数据确定为样本训练数据。
具体实施本发明实例提供的一种敏感信息识别装置时,在一个实施例中,前述的样本训练集确定模块,具体用于:
对样本训练数据进行切词和去停用词处理,确定各参与方的样本训练集。
具体实施本发明实例提供的一种敏感信息识别装置时,在一个实施例中,前述的样本向量确定模块,具体用于:
各参与方根据样本训练集,计算各自不重复词语的数量;
各参与方分享各自不重复词语的数量,将每一参与方分享的各自不重复词语的数量相加,确定不重复词语总数量;
在各参与方中将样本训练集中每一样本分为多个词语,将每一样本的各个词语哈希散列到长度值为不重复词语总数量的一个向量上,确定样本向量。
具体实施本发明实例提供的一种敏感信息识别装置时,在一个实施例中,前述的更新后朴素贝叶斯模型确定模块,具体用于:
各参与方接收中央参数服务器发来的聚合加密数据;
对聚合加密数据进行解密,确定模型更新参数;
根据模型更新参数,更新朴素贝叶斯模型,进行二次训练;
检测朴素贝叶斯模型在二次训练过程中的损失函数,在损失函数收敛时,二次训练停止,确定更新后朴素贝叶斯模型。
本发明还提供一种敏感信息识别装置的另一实施例,具体包括:1、样本过滤模块;2、切词及去停用词模块;3、特征对齐模块;4、朴素贝叶斯模型训练模块;5、横向联邦学习模块;6、终止模块。模块1先对训练数据进行精简,缩短后续模型训练的时间。然后模块2对文本数据切词并去停用词。之后模块3对样本数据向量化并实现不同参与方的样本特征对齐。然后模块4开始进行模型的本地训练,接着模型5进行联合训练,得到聚合加密数据并发布给各个参与方,在这个过程中,根据模块6的终止条件,若不终止,回到模块4,否则终止联合训练,输出更新后朴素贝叶斯模型,根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。
综上,本发明实施例提供的一种敏感信息识别方法和装置,首先建立显著敏感词语库;根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;利用显著敏感词语库对样本数据进行预处理,将样本数据进行过滤,可以减少模型训练所消耗的时间,提升效率;然后,根据样本训练数据,确定样本训练集;根据样本训练集,确定样本向量;通过将样本训练数据转化为样本向量,实现了特征对其,为多参与方进行横向联邦学习提供了基础;接着,在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。本发明实施例中各参与方计算出模型梯度后加密上传至中央参数服务器,利用横向联邦学习将加密数据基于同态运算进行聚合计算,确定聚合加密数据,然后再分发至各个参与方对朴素贝叶斯模型进行更新,打破了多个参与方由于不信任或数据安全及用户隐私造成的“数据孤岛”困境,实现了联合训练模型,同时采用对样本数据预处理的方式,减少了本地朴素贝叶斯模型的训练时间,弥补了同态加密导致效率低下而耗费的时间,从整体上减少了训练得出更新后朴素贝叶斯模型的时间,提高了整体效率;采用横向联邦学习使得各个参与方进行联合训练,大大提高了模型识别的准确率,通过更新后朴素贝叶斯模型,可以对样本训练数据进行精准高效的敏感信息识别。
本发明实施例解决了如下问题:一是多参与方由于不信任造成的数据孤岛,无法联合训练模型。二是针对横向联邦学习涉及同态加密导致效率低下,提出了先用AC自动机过滤部分样本的方式减少本地模型训练时间,弥补联邦学习联合训练造成的时间损失。一定程度克服了联邦学习对整体时间影响造成的低效率问题。三是在多方参与的文本模型训练中,提出了一种可行的特征对齐方法。使得多方文本数据应用横向联邦学习成为可能。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种敏感信息识别方法,其特征在于,包括:
建立显著敏感词语库;
根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;
根据样本训练数据,确定样本训练集;
根据样本训练集,确定样本向量;
在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;
在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;
在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;
在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;
根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。
2.如权利要求1所述的方法,其特征在于,所述显著敏感词语库,包括:显著敏感词语;
根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据,包括:
根据显著敏感词语库,将样本数据通过AC自动机进行字符串匹配进行预处理,当样本数据中的样本匹配到显著敏感词语时,将该样本从样本数据中剔除,将剩余的样本数据确定为样本训练数据。
3.如权利要求1所述的方法,其特征在于,根据样本训练数据,确定样本训练集,包括:
对样本训练数据进行切词和去停用词处理,确定各参与方的样本训练集。
4.如权利要求3所述的方法,其特征在于,根据样本训练集,确定样本向量,包括:
各参与方根据样本训练集,计算各自不重复词语的数量;
各参与方分享各自不重复词语的数量,将每一参与方分享的各自不重复词语的数量相加,确定不重复词语总数量;
在各参与方中将样本训练集中每一样本分为多个词语,将每一样本的各个词语哈希散列到长度值为不重复词语总数量的一个向量上,确定样本向量。
5.如权利要求1所述的方法,其特征在于,在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型,包括:
各参与方接收中央参数服务器发来的聚合加密数据;
对聚合加密数据进行解密,确定模型更新参数;
根据模型更新参数,更新朴素贝叶斯模型,进行二次训练;
检测朴素贝叶斯模型在二次训练过程中的损失函数,在损失函数收敛时,二次训练停止,确定更新后朴素贝叶斯模型。
6.一种敏感信息识别装置,其特征在于,包括:
显著敏感词语库建立模块,用于建立显著敏感词语库;
预处理模块,用于根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;
样本训练集确定模块,用于根据样本训练数据,确定样本训练集;
样本向量确定模块,用于根据样本训练集,确定样本向量;
模型梯度确定模块,用于在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;
同态加密模块,用于在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;
聚合加密数据确定模块,用于在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;
更新后朴素贝叶斯模型确定模块,用于在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;
敏感信息识别模块,用于根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。
7.如权利要求6所述的装置,其特征在于,所述显著敏感词语库,包括:显著敏感词语;
预处理模块,具体用于:
根据显著敏感词语库,将样本数据通过AC自动机进行字符串匹配进行预处理,当样本数据中的样本匹配到显著敏感词语时,将该样本从样本数据中剔除,将剩余的样本数据确定为样本训练数据。
8.如权利要求6所述的装置,其特征在于,样本训练集确定模块,具体用于:
对样本训练数据进行切词和去停用词处理,确定各参与方的样本训练集。
9.如权利要求8所述的装置,其特征在于,样本向量确定模块,具体用于:
各参与方根据样本训练集,计算各自不重复词语的数量;
各参与方分享各自不重复词语的数量,将每一参与方分享的各自不重复词语的数量相加,确定不重复词语总数量;
在各参与方中将样本训练集中每一样本分为多个词语,将每一样本的各个词语哈希散列到长度值为不重复词语总数量的一个向量上,确定样本向量。
10.如权利要求6所述的装置,其特征在于,更新后朴素贝叶斯模型确定模块,具体用于:
各参与方接收中央参数服务器发来的聚合加密数据;
对聚合加密数据进行解密,确定模型更新参数;
根据模型更新参数,更新朴素贝叶斯模型,进行二次训练;
检测朴素贝叶斯模型在二次训练过程中的损失函数,在损失函数收敛时,二次训练停止,确定更新后朴素贝叶斯模型。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行实现权利要求1至5任一项所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832849.0A CN111966875B (zh) | 2020-08-18 | 2020-08-18 | 一种敏感信息识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832849.0A CN111966875B (zh) | 2020-08-18 | 2020-08-18 | 一种敏感信息识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966875A true CN111966875A (zh) | 2020-11-20 |
CN111966875B CN111966875B (zh) | 2023-08-22 |
Family
ID=73388906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010832849.0A Active CN111966875B (zh) | 2020-08-18 | 2020-08-18 | 一种敏感信息识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966875B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766514A (zh) * | 2021-01-22 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、系统及装置 |
CN113139475A (zh) * | 2021-01-27 | 2021-07-20 | 武汉星巡智能科技有限公司 | 智能摄像头模型终端训练方法、装置、设备及介质 |
CN113642326A (zh) * | 2021-08-16 | 2021-11-12 | 广东鸿数科技有限公司 | 敏感数据识别模型训练方法、敏感数据识别方法及系统 |
WO2022121183A1 (zh) * | 2020-12-11 | 2022-06-16 | 平安科技(深圳)有限公司 | 文本模型的训练方法、识别方法、装置、设备及存储介质 |
CN114707181A (zh) * | 2022-04-08 | 2022-07-05 | 北京国信网联科技有限公司 | 一种基于机器学习的数据安全交换系统及方法 |
CN115204320A (zh) * | 2022-09-15 | 2022-10-18 | 北京数牍科技有限公司 | 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质 |
CN115840965A (zh) * | 2022-12-27 | 2023-03-24 | 光谷技术有限公司 | 一种信息安全保障模型训练方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130148513A1 (en) * | 2011-12-08 | 2013-06-13 | Telefonaktiebolaget Lm | Creating packet traffic clustering models for profiling packet flows |
CN109558587A (zh) * | 2018-11-08 | 2019-04-02 | 武汉大学 | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 |
CN109684855A (zh) * | 2018-12-17 | 2019-04-26 | 电子科技大学 | 一种基于隐私保护技术的联合深度学习训练方法 |
CN111159727A (zh) * | 2019-12-11 | 2020-05-15 | 西安交通大学医学院第一附属医院 | 一种面向多方协同的贝叶斯分类器安全生成系统及方法 |
CN111260081A (zh) * | 2020-02-14 | 2020-06-09 | 广州大学 | 一种非交互式隐私保护多方机器学习方法 |
-
2020
- 2020-08-18 CN CN202010832849.0A patent/CN111966875B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130148513A1 (en) * | 2011-12-08 | 2013-06-13 | Telefonaktiebolaget Lm | Creating packet traffic clustering models for profiling packet flows |
CN109558587A (zh) * | 2018-11-08 | 2019-04-02 | 武汉大学 | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 |
CN109684855A (zh) * | 2018-12-17 | 2019-04-26 | 电子科技大学 | 一种基于隐私保护技术的联合深度学习训练方法 |
CN111159727A (zh) * | 2019-12-11 | 2020-05-15 | 西安交通大学医学院第一附属医院 | 一种面向多方协同的贝叶斯分类器安全生成系统及方法 |
CN111260081A (zh) * | 2020-02-14 | 2020-06-09 | 广州大学 | 一种非交互式隐私保护多方机器学习方法 |
Non-Patent Citations (1)
Title |
---|
陈启伟;王伟;马迪;毛伟;: "基于Ext-GBDT集成的类别不平衡信用评分模型", 计算机应用研究, no. 02 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022121183A1 (zh) * | 2020-12-11 | 2022-06-16 | 平安科技(深圳)有限公司 | 文本模型的训练方法、识别方法、装置、设备及存储介质 |
CN112766514A (zh) * | 2021-01-22 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、系统及装置 |
CN113139475A (zh) * | 2021-01-27 | 2021-07-20 | 武汉星巡智能科技有限公司 | 智能摄像头模型终端训练方法、装置、设备及介质 |
CN113642326A (zh) * | 2021-08-16 | 2021-11-12 | 广东鸿数科技有限公司 | 敏感数据识别模型训练方法、敏感数据识别方法及系统 |
CN114707181A (zh) * | 2022-04-08 | 2022-07-05 | 北京国信网联科技有限公司 | 一种基于机器学习的数据安全交换系统及方法 |
CN115204320A (zh) * | 2022-09-15 | 2022-10-18 | 北京数牍科技有限公司 | 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质 |
CN115204320B (zh) * | 2022-09-15 | 2022-11-15 | 北京数牍科技有限公司 | 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质 |
CN115840965A (zh) * | 2022-12-27 | 2023-03-24 | 光谷技术有限公司 | 一种信息安全保障模型训练方法和系统 |
CN115840965B (zh) * | 2022-12-27 | 2023-08-08 | 光谷技术有限公司 | 一种信息安全保障模型训练方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111966875B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966875A (zh) | 一种敏感信息识别方法和装置 | |
CN113610540B (zh) | 一种河蟹防伪溯源方法及系统 | |
CN111582009B (zh) | 训练分类模型的装置和方法及利用分类模型分类的装置 | |
CN112580826B (zh) | 业务模型训练方法、装置及系统 | |
CN111860829A (zh) | 联邦学习模型的训练方法及装置 | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
CN105930834A (zh) | 基于球哈希二值编码的人脸识别方法及装置 | |
CN111914555B (zh) | 基于Transformer结构的自动化关系抽取系统 | |
CN109344709A (zh) | 一种人脸生成伪造图像的检测方法 | |
CN114021168A (zh) | 基于联邦学习的地铁基坑开挖风险识别方法及装置 | |
CN108197561A (zh) | 人脸识别模型优化控制方法、装置、设备及存储介质 | |
KR20210033940A (ko) | 인간 안면 인식을 위하여 신경 네트워크를 트레이닝시키는 방법 | |
CN110032912A (zh) | 人脸验证方法和装置及计算机存储介质 | |
Bansal et al. | Multimodal biometrics by fusion for security using genetic algorithm | |
CN113516199B (zh) | 一种基于差分隐私的图像数据生成方法 | |
CN115879541A (zh) | 数据处理方法、数据表示学习方法、系统和设备 | |
CN112309375B (zh) | 语音识别模型的训练测试方法、装置、设备及存储介质 | |
CN114005184A (zh) | 一种基于少量样本的手写签名真伪识别方法和装置 | |
CN113657808A (zh) | 一种人员评定方法、装置、设备及存储介质 | |
CN116092094A (zh) | 图像文本识别方法、装置、计算机可读介质及电子设备 | |
CN113590786A (zh) | 一种数据预测方法、装置、设备及存储介质 | |
Gaber et al. | Optimisation of ensemble classifiers using genetic algorithm | |
Harmer et al. | Direct template-free encryption key generation from palm-veins | |
CN117237748B (zh) | 一种基于多视角对比置信度的图片识别方法及装置 | |
CN116629388B (zh) | 差分隐私联邦学习训练方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |