CN113988176A - 样本标注方法和装置 - Google Patents
样本标注方法和装置 Download PDFInfo
- Publication number
- CN113988176A CN113988176A CN202111253331.2A CN202111253331A CN113988176A CN 113988176 A CN113988176 A CN 113988176A CN 202111253331 A CN202111253331 A CN 202111253331A CN 113988176 A CN113988176 A CN 113988176A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- cluster
- samples
- sample
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000008569 process Effects 0.000 claims description 24
- 230000035945 sensitivity Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种样本标注方法和装置,方法包括:获取第一数量的敏感样本;将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注敏感类型;按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。本说明书实施例能够高效地对样本进行敏感类型的标注。
Description
技术领域
本说明书一个或多个实施例涉及数据处理技术,尤其涉及一种样本标注方法和装置。
背景技术
在当今互联网蓬勃发展的情况下,数据资产共享是助力业务发展的重要一环,但是数据共享也带来了数据资产泄露与滥用的风险。
为了保护数据安全,首要解决的问题是识别敏感数据。为了识别出敏感数据,需要一种较为高效的敏感数据处理方案。
发明内容
本说明书一个或多个实施例描述了一种样本标注方法和装置,能够高效地对样本进行敏感类型的标注。
根据第一方面,提供了一种样本标注方法,包括:
获取第一数量的敏感样本;
将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注敏感类型;
按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;
判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。
在一个实施例中,所述第二数量大于所述第一数量。
在一个实施例中,所述判断每一个聚类是否满足收敛条件,包括:
对每一个聚类确定对应的敏感类型数量;
根据每一个聚类对应的敏感类型数量和所述敏感类型的纯度,判断该聚类是否满足收敛条件,所述敏感类型的纯度为在一个聚类中所述敏感类型的敏感样本的数量占比。
在一个实施例中,所述根据每一个聚类对应的敏感类型数量和所述敏感类型的纯度,判断该聚类是否满足收敛条件,包括:
若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度大于等于预设纯度值,则该聚类满足收敛条件;
和/或,
若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度小于预设纯度值,则该聚类未收敛,并返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;
和/或,
若一个聚类对应的敏感类型数量大于1,且该聚类中包含的各个敏感类型的纯度均小于预设纯度值,则该聚类未收敛,对聚类处理中使用的预设聚类参数进行调整,并利用该调整后的预设聚类参数返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;
和/或,
若一个聚类对应的敏感类型数量大于1,且该聚类中包含纯度大于等于预设纯度值的敏感类型,则该聚类未收敛,并返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤。
在一个实施例中,所述按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类,包括:
根据所述敏感类型的上位类型对混合后的各个样本进行聚类处理,得到至少一个第一聚类;每一个上位类型中包括至少一个所述敏感类型;
根据所述敏感类型对每一个第一聚类中的各个样本进行聚类处理,得到该第一聚类下的至少一个第二聚类;
则,判断每一个聚类是否满足收敛条件,包括:判断每一个第二聚类是否满足收敛条件。
在一个实施例中,所述第一数量的敏感样本的敏感类型为预设的第一敏感类型;在所述得到至少一个聚类之后,还包括:
在不满足收敛条件的各聚类中检测是否包括第二敏感类型的样本,所述第二敏感类型为新增的敏感类型;
若是,则在不满足收敛条件的各聚类中选取第三数量的第二敏感类型的样本进行人工标注;
按照所述第一敏感类型和所述第二敏感类型对不满足收敛条件的各个聚类中的样本重新进行聚类处理,并对得到的聚类进行标注。
在一个实施例中,所述方法还包括:
将满足收敛条件的聚类在敏感类型标注之后从混合后的各个样本中移出;
判断当前剩余样本总数量与初始样本总数量之比是否大于预设阈值,若是,则返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤,否则结束本方法。
根据第二方面,提供了一种样本标注装置,包括:
样本获取模块,用于获取第一数量的敏感样本;
样本混合模块,用于将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注敏感类型;
聚类处理模块,用于按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;
样本标注模块,用于判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面中的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面中的方法。
本说明书实施例提供的样本标注方法和装置,通过对一部分样本进行敏感类型标注后,与未标注样本进行混合,进而通过聚类的方式得到多个聚类,对于满足收敛条件的聚类可以用其包含的敏感样本的敏感类型对聚类中未标注样本进行敏感类型标注,实现由局部标注扩充到整体标注,因此采用这种方式不必对所有的样本进行人工标注,可以节省人力和时间,而且因为减少了人工标注的工作量,也可以在一定程度上减少因人工标注工作而带来的误差,提高敏感类型识别的准确率,同时采用这种方式针对海量的样本数据具有可行且高效的优势。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例中样本标注方法的流程图;
图2a是本说明书一个实施例中在实际场景中对待处理样本标注身份证号、银行卡号和姓名的流程示意图;
图2b是本说明书一个实施例中增加敏感类型的流程示意图;
图3是本说明书一个实施例中样本标注装置的结构示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,为了数据安全,首要解决的问题是识别敏感数据。为了识别出敏感数据,可以采用纯人工标注的方式对样本中的敏感样本进行标注,标注出对应的敏感类型,但是在大数据时代下,针对海量样本采用纯人工标注的方式是不现实的,不仅会耗费大量的人力成本、时间成本,而且会引入由于人工大量标注工作所带来的误差。
为此,本说明书实施例提供一种新的标注思路:将一部分样本通过人工进行标注,标注出敏感类型;然后将这部分样本和未标注的样本进行混合,然后对混合后的样本进行聚类处理,对收敛的聚类中的敏感样本的敏感类型对所在聚类中的其它未标注样本进行标注,从而实现由部分样本对整体样本进行标注。
下面描述以上构思的具体实现方式。
图1示出根据一个实施例中样本标注方法的流程示意图,可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图1,该方法包括:S102、获取第一数量的敏感样本;S104、将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注出敏感类型;S106、按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;S108、判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。
在图1示出的样本标注方法中,通过对一部分样本进行敏感类型标注后,与未标注样本进行混合,进而通过聚类的方式得到多个聚类,对于满足收敛条件的聚类可以用其包含的敏感样本的敏感类型对聚类中未标注样本(即待处理样本)进行敏感类型标注,实现由局部标注扩充到整体标注,因此采用这种方式不必对所有的样本进行人工标注,可以节省人力和时间,而且因为减少了人工标注的工作量,也可以在一定程度上减少因人工标注工作而带来的误差,同时采用这种方式针对海量的样本数据具有可行且高效的优势。
下面表述图1所示的各个步骤的执行方式。
S102、获取第一数量的敏感样本。
如前所述,本说明书实施例可以实现由部分样本对整体样本进行标注,为了减少人工标注量,同时实现对较多样本的标注,第一样本的数量可以小于未标注样本(即待处理样本)的数量,即下文中的第二数量。
在具体实施时,S102中获取的敏感样本由人工标注实现,具体标注的敏感类型可以为当前比较常见的敏感类型,例如,身份证号、银行卡号、姓名、注册邮箱账号等。当然,敏感类型不限于这些类型,可以是用户自己定义的特定类型,一般为涉及用户隐私、安全的数据。
例如,针对10000条样本的大数据,可以选取其中的1000条进行人工标注,通过人工标注的1000对剩余的9000样本进行标注,即第一数量为1000,第二数量为9000。对于这1000条标注的敏感样本,其中,100条敏感样本对应的敏感类型为身份证号,200条敏感样本对应的敏感类型为银行卡号,400条敏感样本对应的敏感类型为姓名,300条敏感样本对应的敏感类型为注册邮箱账号。
S104、将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注出敏感类型;
可理解的是,第一数量的敏感样本被标注好敏感类型,而第二数量的待处理样本未被标注敏感类型,而本说明书实施例要实现的就是对第二数量的待处理样本也标注上敏感类型,从而实现对大量样本的敏感类型的识别。
为了便于区分,在获得第一数量的敏感样本之后,可以将第一数量的敏感样本称之为第一样本集,将第二数量的待处理样本称为第二样本集,将第一数量的敏感样本和第二数量的待处理样本进行混合,得到混合样本集。第一样本集可以为数量较小的小样本集,第二样本集可以为数量较大的大样本集,进而混合样本集为数量较大的大样本集。
可理解的是,这里将第一数量的敏感样本和第二数量的待处理样本进行混合,实际上是一部分已知敏感类型的样本污染未知敏感类型的样本的过程。所以混合样本集也可以称为污染样本集。
例如,第一样本集对应的第一数量为2000条,第二样本集对应的第二数量为30000条,则混合样本集包含32000条。
S106、按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;
可理解的是,聚类是指将混合样本集分成由类似样本组成的至少一个类的过程。
为了使得在同一个聚类中尽量只包含一种敏感类型的样本,可以进行分层聚类的方式,例如,先根据字符类型聚类,聚成多个大类,然后针对每一个大类中的样本进一步聚类,得到这个大类下的多个小类。字符类型可以分为数字类型和非数字类型,这样银行卡号和身份证号就聚成一个大类,而姓名和注册邮箱账号就聚成一个大类。对银行卡号和身份证号聚成的大类中的样本,可以进一步按照长度等进行聚类,从而得到身份证号对应的小类和银行卡号对应的小类。对于姓名和注册邮箱账号聚成的大类中的样本,可以进一步按照文字和非文字进行聚类,从而得到姓名对应的小类和注册邮箱账号对应的小类。
基于上述分层聚类的思想,S106可以包括:
S106a、根据所述敏感类型的上位类型对混合后的各个样本进行聚类处理,得到至少一个第一聚类;每一个上位类型中包括至少一个所述敏感类型;
S106b、根据所述敏感类型对每一个第一聚类中的各个样本进行聚类处理,得到该第一聚类下的至少一个第二聚类。
由于上位类型中包含至少一个敏感类型,而敏感类型作为下位类型,可以包括银行卡号、身份证号、姓名、注册邮箱账号等多个类型,因此上位类型可以是数字类型和非数字类型,当然上位类型也可以是文字类型和非文字类型,也就是说先通过样本是否为文字进行聚类,然后对非文字的大类进行进一步的聚类处理,得到银行卡号、身份证号、注册邮箱账号三个小类。这里所谓的小类是指S106b中的第二聚类,大类是指S106a中的第一聚类。
可理解的是,在后续步骤进行是否收敛判断时,实际上可以是对第二聚类是否收敛的判断。即S108中判断每一个聚类是否满足收敛条件,可以包括:判断每一个第二聚类是否满足收敛条件。
在具体实施时,聚类的方式有多种,例如,通过字符距离进行聚类、通过字符相似度进行聚类、通过数字长度进行聚类等。针对大类中的样本进一步聚类时,不同的大类具有不同的特点,针对不同的大类,可以采用不同的聚类方式,涉及到不同的聚类参数,后续在进行聚类参数调整时,可以针对不同的聚类方式涉及到的不同的聚类参数进行调整。例如,针对由身份证号和银行卡号的大类进一步聚类时,可以采用数字长度相似度的方式进行聚类,在数字长度在第一范围内时认定为样本为银行卡号,在数字长度在第二范围内时认定为样本为身份账号,这里涉及到数字长度范围的确定。如果在后续需要对聚类参数进行调整时,针对数字长度相似度这一聚类方式,可以对这两个范围进行适当调整。
S108、判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。
可理解的是,判断一个聚类是否收敛实际上是判断聚类处理之后得到的一个聚类是否合理的过程。例如,如果在一个聚类中即包含身份证号的敏感样本,也包含姓名的敏感样本,说明这个聚类不合理,不能确定按照哪种敏感类型对其余未标注样本进行标注。再例如,如果在一个聚类中只包含姓名的敏感样本,但是姓名的敏感样本的数量在所属聚类中的数量占比很小(例如,在包含100个样本的聚类中只有姓名的敏感样本,但该敏感样本的数量只有1条),如果采用姓名的敏感类型对这个聚类中其余的未标注样本进行标注,发生错误标注的风险是比较大的,因此此时不能采用姓名的敏感类型对这个聚类中其余的未标注样本进行标注,即此时这个聚类也是不合理的,不能称之为收敛。
在具体实施时,所述判断每一个聚类是否满足收敛条件,包括:对每一个聚类确定对应的敏感类型数量;根据每一个聚类对应的敏感类型数量和所述敏感类型的纯度,判断该聚类是否满足收敛条件,所述敏感类型的纯度为在一个聚类中所述敏感类型的敏感样本的数量占比。
即,在判断一个聚类是否收敛时,可以根据这个聚类中敏感类型的数量以及敏感类型的纯度进行判断。其中,所谓的敏感类型的数量是指敏感类型的种类的数量,不是敏感样本的数量。所谓的敏感类型的纯度,是指敏感类型的样本在整个聚类中的数量占比,例如,在一个聚类中,注册邮箱账号的样本数量为300条,这个聚类的样本数量为600条,则注册邮箱账号的纯度为300/600=50%。
下面对一个聚类是否收敛的几种情况进行说明:
(1)若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度大于等于预设纯度值,则该聚类满足收敛条件;
其中,预设纯度值,可以根据需要设置,具体可以在20%~100%范围内选取,例如,可以选择70%作为预设纯度值。
也就是说,在一个聚类中只包含一种敏感类型的敏感样本,而这个敏感类型的敏感样本的数量在这个聚类中的占比大于70%,则可以认为这个聚类是满足收敛条件的,则可以用这个敏感类型对这个聚类中未标注样本进行敏感类型标注,即将未标注样本也标注为这一敏感类型。
在具体实施时,在聚类处理之后,可能有一些聚类满足收敛条件,有一些聚类不满足收敛条件,针对满足收敛条件的聚类在进行敏感类型标注之后,可以将该聚类从混合样本集中移出,被移出的聚类可以单独存储在一个集合中,该集合专门用来存储满足收敛条件且对其中的未标注样本进行敏感类型标注完成的聚类中的样本。如果在移出之后,混合样本集中的剩余样本总数量为0或者很少,则说明混合样本集中的绝大部分样本已经完成敏感类型标注,此时可以认为整个混合样本集完成敏感类型标注。
即,本说明书实施例提供的样本标注方法还可以包括步骤:将满足收敛条件的聚类在敏感类型标注之后从混合后的各个样本中移出;判断当前剩余样本总数量与初始样本总数量之比是否大于预设阈值,若是,则返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤,否则结束本方法。
其中,预设阈值可以根据需要设置,例如,预设阈值设置为5%。
例如,混合后样本的初始样本总数量为10000条,而在移出已经收敛和完成标注的聚类之后,剩余样本总数量为20条,即20/10000=0.2%,此时该比值很小,小于预设阈值,说明混合后的绝大部分样本已经完成标注,可以结束整个标注流程。但是如果剩余样本总数量为1000条,则比值为10%,大于预设阈值,则认为标注任务还没有完成。而当前剩余的样本不满足收敛条件,则将剩余的样本重新进行聚类处理,重新进行收敛判断和进行敏感类型标注等,直到当前剩余样本总数量与初始样本总数量之比小于预设阈值,才能结束本说明书实施例提供的样本标注方法。
(2)若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度小于预设纯度值,则该聚类不满足收敛条件,返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;
可理解的是,如果在一个聚类中只有一种敏感类型的敏感样本,但这种敏感类型的敏感样本的数量占比很小,不能依据这一敏感类型对整个聚类进行标注,此时也不能认为这个聚类是收敛的,此时需要返回S106中重新进行聚类。当然,如果在本次聚类之后,有至少一个聚类是收敛的,则可以将这些收敛的聚类在移出混合后的各样本之后,再返回到S106中仅对未收敛的样本重新进行聚类处理。
(3)若一个聚类对应的敏感类型数量大于1,且该聚类中包含的各个敏感类型的纯度均小于预设纯度值,则该聚类未收敛,对聚类处理中使用的预设聚类参数进行调整,并利用该调整后的预设聚类参数返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;
如果一个聚类中包含多种敏感类型的敏感样本,而这些敏感类型的敏感样本的数量占比均小于预设纯度值,也就是说这个聚类中各个敏感类型的数量比较分散。例如,在一个聚类中有1000条样本,银行卡号的敏感样本为30条,身份证号的敏感样本为40条,银行卡号的纯度为3%,身份证号的纯度为4%,这两种敏感类型的纯度都低于预设纯度值30%。在聚类处理后本不应该出现这种情况,如果出现了这种情况则说明聚类处理时采用的聚类参数可能存在问题,此时可以对聚类处理中使用的聚类参数进行调整,然后利用调整后的聚类参数重新进行聚类处理。
举例来说,在聚类处理时采用了字符相似度的聚类方式,此时可以对字符相似度计算过程采用的相似度阈值进行调整。再例如,针对上述举例中的聚类中包含纯度为3%的银行卡号和纯度为4%的身份证号,说明聚类是没能将两种类型的样本区分开,可以对两种类型的样本的区分参数(例如,身份证号和银行卡号各自的长度范围)进行调整,也可以增加新的聚类参数。例如,身份证号和银行卡号的编码是有一定规律的,某一位或某几位的数字的取值范围是不同的,例如,身份证号为第一编码规律,银行卡号为第二编码规律,增加编码规律参数,分别按照两种编码规律进行聚类,可以得到两个聚类,一个是身份证号的聚类,一个是银行卡号的聚类。
当然,如果在本次聚类之后,有至少一个聚类是收敛的,则可以将这些收敛的聚类在移出混合后的各样本之后,再返回到S106中仅对未收敛的样本重新进行聚类处理。
(4)若一个聚类对应的敏感类型数量大于1,且该聚类中包含纯度大于等于预设纯度值的敏感类型,则该聚类未收敛,并返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;
如果一个聚类中包含多种敏感类型的敏感样本,而这些敏感类型的敏感样本的数量占比有的大于预设纯度值,有的小于预设纯度值,例如,在一个聚类中有1000条样本,银行卡号的敏感样本为80条,身份证号的敏感样本为300条,银行卡号的纯度为8%,身份证号的纯度为30%,银行卡号的纯度大于预设纯度值25%,而身份证号的纯度小于预设纯度值25%,说明聚类接近收敛,但是仍然未收敛,此时需要重新进行聚类,所以此时需返回S106中重新进行聚类,在重新进行聚类之后,得到的新聚类中可能只包含银行卡号的敏感样本。当然,如果在本次聚类之后,有至少一个聚类是收敛的,则可以将这些收敛的聚类在移出混合后的各样本之后,再返回到S106中仅对未收敛的样本重新进行聚类处理。
在具体实施时,上述提到的敏感类型为预设的第一敏感类型,即第一数量的敏感样本的敏感类型为第一敏感类型,所谓的第一敏感类型为常见的敏感类型。如果聚类之后发现某个或某些聚类中还存在一些不常见的敏感类型,例如,微信帐号、游戏账号、短视频网站的账号等。为了与上述常见敏感类型进行区分,可以将这些不常见的敏感类型称之为第二敏感类型。但是由于在上述过程中,仅根据第一敏感类型对混合后的各个样本进行标注,所以可能存在漏掉的情况。
为此本说明书实施例提供的样本标注方法中,在所述得到至少一个聚类之后,还可包括:在不满足收敛条件的各聚类中检测是否包括第二敏感类型的样本,所述第二敏感类型为新增的敏感类型;若是,则在不满足收敛条件的各聚类中选取第三数量的第二敏感类型的样本进行人工标注;按照所述第一敏感类型和所述第二敏感类型对不满足收敛条件的各个聚类中的样本重新进行聚类处理,并对得到的聚类进行标注。
也就是说,如果在聚类之后,发现不收敛的聚类中包含第二敏感类型的样本,例如,游戏账号,此时可以在所有不收敛的聚类中所有样本中选取第三数量的第二敏感类型的样本进行人工标注。由于在所有不收敛的聚类中可能仍然存在第一敏感类型的敏感样本,但是第一敏感类型的敏感样本在S102时已经是标注好的。在不满足收敛条件的各个聚类中标注第三数量的第二敏感类型的样本之后,便可以根据所述第一敏感类型和所述第二敏感类型对不满足收敛条件的各个聚类中的样本重新进行聚类处理,并对聚类进行标注。
这里仅对不收敛的聚类进行第二敏感类型的检测,因为对于收敛的聚类中即便包含第二敏感类型的样本,但是在收敛的聚类中第二敏感类型的数量也是较少的,对于这一聚类不会产生很大的影响,所以这里仅对不收敛的聚类增加第二敏感类型的处理。
举例来说,在本次聚类之后,有3个聚类未收敛,在这3个聚类中包含微信账号和游戏账号这两种第二敏感类型的样本。此时所有的未收敛聚类的样本数量为3000个,选取30个微信账号的样本,对这30个样本标注为微信账号,同时选取30个游戏账号,对这30个样本标注为游戏账号,这样在所有的未收敛聚类的样本中混合了一部分游戏账号的样本和一部分微信账号的样本。当然此时所有的未收敛聚类的样本中还可能包含一部分第一敏感类型的样本,例如,银行卡号的样本。然后依据当前的第一敏感类型和第二敏感类型对所有的未收敛聚类的样本进行聚类处理,并对得到的聚类进行标注即可,重新聚类和标注的过程可以参考S106和S108。
通过这种方式可以增加新的敏感类型,对于新增加的第二敏感类型的处理方式,与之前已经存在的第一敏感类型的处理方式是类似的,也是对一部分样本进行标注,然后基于这一部分样本实现对整体样本的标注。其中第三数量要小于所有不收敛的聚类的样本总和。
图2a为在实际场景中对待处理样本标注身份证号、银行卡号和姓名的流程示意图,首先,获取一定数量的身份证号样本、银行卡号样本和姓名样本,然后将这些样本和待处理样本进行混合,对混合之后的样本进行聚类处理,得到四个聚类,前三个聚类都满足收敛条件,第一个聚类中包含姓名样本,便将第一个聚类中的待处理样本全部标注为姓名,第二个聚类中包含银行卡号样本,便将第二个聚类中的待处理样本全部标注为银行卡号,第三个聚类中包含身份证号,则将第三个聚类中的待处理样本全部标注为身份证号。第四个聚类中不包含身份证号样本、银行卡号样本和姓名样本,因此称之为未知类。
图2b为对未知类进行敏感类型标注的流程示意图。在未知类中发现存在两个不同于身份证号、银行卡号和姓名的敏感类型,称之为新增类型1和新增类型2。在未知类中选取一定数量的新增类型1的样本对其标注为新增类型1,在未知类中选取一定数量的新增类型2的样本对其标注为新增类型2。在标注完成后,将标注好的样本和未知类中的其余样本混合,然后对混合样本进行聚类处理,得到两个聚类,第一个聚类中包含新增类型1的样本,便将这个聚类中的其余样本标注为新增类型1,第二个聚类包含新增类型2的样本,便将这个聚类中的其余样本标注为新增类型2。至此实现了对待处理样本的所有标注。
可理解的是,通过本说明书实施例提供的样本标注方法可以对第二数量的待处理样本识别出对应的敏感类型,可见待处理样本实际上也是敏感数据,只不过待处理样本的敏感类型在开始是未标注出来的。本说明书实施例尤其适合在大数据背景下的敏感类别标注需求。为了高效的识别出敏感类型,在大数据背景下,纯人工的样本标注的方式是不现实的,本说明书实施例通过对一部分已标注样本和一部分未标注样本混合,并进行聚类,对收敛的聚类进行标注,从而实现对未标注样本的敏感类型的识别,从而实现大数据的敏感类型的识别。同时还可以增加新的敏感类型,避免遗漏的情况发生。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种样本标注装置。图3示出根据一个实施例的样本标注装置的示意性框图。可以理解,该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。
如图3所示,该装置300包括:
样本获取模块302,用于获取第一数量的敏感样本;
样本混合模块304,用于将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注敏感类型;
聚类处理模块306,用于按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;
样本标注模块308,用于判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。
在一个实施例中,所述第二数量大于所述第一数量。
在一个实施例中,所述样本标注模块308进一步包括:
数量确定单元,用于对每一个聚类确定对应的敏感类型数量;
收敛判断单元,用于根据每一个聚类对应的敏感类型数量和所述敏感类型的纯度,判断该聚类是否满足收敛条件,所述敏感类型的纯度为在一个聚类中所述敏感类型的敏感样本的数量占比。
在一个实施例中,所述收敛判断单元进一步用于:
若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度大于等于预设纯度值,则该聚类满足收敛条件;
和/或,
若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度小于预设纯度值,则该聚类未收敛,并返回所述聚类处理模块306中执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;
和/或,
若一个聚类对应的敏感类型数量大于1,且该聚类中包含的各个敏感类型的纯度均小于预设纯度值,则该聚类未收敛,对聚类处理中使用的预设聚类参数进行调整,并利用该调整后的预设聚类参数使所述聚类处理模块306执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;
和/或,
若一个聚类对应的敏感类型数量大于1,且该聚类中包含纯度大于等于预设纯度值的敏感类型,则该聚类未收敛,并返回所述聚类处理模块306中执行所述按照敏感类型对混合后的各个样本进行聚类的步骤。
在一个实施例中,聚类处理模块306进一步用于:根据所述敏感类型的上位类型对混合后的各个样本进行聚类处理,得到至少一个第一聚类;每一个上位类型中包括至少一个所述敏感类型;根据所述敏感类型对每一个第一聚类中的各个样本进行聚类处理,得到该第一聚类下的至少一个第二聚类;
则,所述样本标注模块308或所述收敛判断单元在判断每一个聚类是否满足收敛条件时,进一步包括:判断每一个第二聚类是否满足收敛条件。
在一个实施例中,所述第一数量的敏感样本的敏感类型为预设的第一敏感类型;所述装置300还包括:
类型增加模块,用于:在所述聚类处理模块306聚类得到至少一个聚类之后,在不满足收敛条件的各聚类中检测是否包括第二敏感类型的样本,所述第二敏感类型为新增的敏感类型;若是,则在不满足收敛条件的各聚类中选取第三数量的第二敏感类型的样本进行人工标注;按照所述第一敏感类型和所述第二敏感类型对不满足收敛条件的各个聚类中的样本重新进行聚类处理,并对得到的聚类进行标注。
在一个实施例中,所述装置300还包括:
样本更新模块,用于将满足收敛条件的聚类在敏感类型标注之后从混合后的各个样本中移出;判断当前剩余样本总数量与初始样本总数量之比是否大于预设阈值,若是,则返回所述聚类处理模块306中执行按照敏感类型对混合后的各个样本进行聚类的步骤,否则结束本装置300对应的方法流程。
本说明书一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
本说明书一个实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现执行说明书中任一个实施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对本说明书实施例的装置的具体限定。在说明书的另一些实施例中,上述装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置、系统内的各模块之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种样本标注方法,包括:
获取第一数量的敏感样本;
将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注敏感类型;
按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;
判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。
2.根据权利要求1所述的方法,其中,所述第二数量大于所述第一数量。
3.根据权利要求1所述的方法,其中,所述判断每一个聚类是否满足收敛条件,包括:
对每一个聚类确定对应的敏感类型数量;
根据每一个聚类对应的敏感类型数量和所述敏感类型的纯度,判断该聚类是否满足收敛条件,所述敏感类型的纯度为在一个聚类中所述敏感类型的敏感样本的数量占比。
4.根据权利要求3所述的方法,其中,所述根据每一个聚类对应的敏感类型数量和所述敏感类型的纯度,判断该聚类是否满足收敛条件,包括:
若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度大于等于预设纯度值,则该聚类满足收敛条件;
和/或,
若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度小于预设纯度值,则该聚类未收敛,并返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;
和/或,
若一个聚类对应的敏感类型数量大于1,且该聚类中包含的各个敏感类型的纯度均小于预设纯度值,则该聚类未收敛,对聚类处理中使用的预设聚类参数进行调整,并利用该调整后的预设聚类参数返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;
和/或,
若一个聚类对应的敏感类型数量大于1,且该聚类中包含纯度大于等于预设纯度值的敏感类型,则该聚类未收敛,并返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤。
5.根据权利要求1至4中任一所述的方法,其中,所述按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类,包括:
根据所述敏感类型的上位类型对混合后的各个样本进行聚类处理,得到至少一个第一聚类;每一个上位类型中包括至少一个所述敏感类型;
根据所述敏感类型对每一个第一聚类中的各个样本进行聚类处理,得到该第一聚类下的至少一个第二聚类;
则,判断每一个聚类是否满足收敛条件,包括:判断每一个第二聚类是否满足收敛条件。
6.根据权利要求1至4中任一所述的方法,其中,所述第一数量的敏感样本的敏感类型为预设的第一敏感类型;
在所述得到至少一个聚类之后,还包括:
在不满足收敛条件的各聚类中检测是否包括第二敏感类型的样本,所述第二敏感类型为新增的敏感类型;
若是,则在不满足收敛条件的各聚类中选取第三数量的第二敏感类型的样本进行人工标注;
按照所述第一敏感类型和所述第二敏感类型对不满足收敛条件的各个聚类中的样本重新进行聚类处理,并对得到的聚类进行标注。
7.根据权利要求1至4中任一所述的方法,其中,所述方法还包括:
将满足收敛条件的聚类在敏感类型标注之后从混合后的各个样本中移出;
判断当前剩余样本总数量与初始样本总数量之比是否大于预设阈值,若是,则返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤,否则结束本方法。
8.一种样本标注装置,包括:
样本获取模块,用于获取第一数量的敏感样本;
样本混合模块,用于将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注敏感类型;
聚类处理模块,用于按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;
样本标注模块,用于判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。
9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项所述的方法。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111253331.2A CN113988176A (zh) | 2021-10-27 | 2021-10-27 | 样本标注方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111253331.2A CN113988176A (zh) | 2021-10-27 | 2021-10-27 | 样本标注方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988176A true CN113988176A (zh) | 2022-01-28 |
Family
ID=79742284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111253331.2A Pending CN113988176A (zh) | 2021-10-27 | 2021-10-27 | 样本标注方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988176A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376764A (zh) * | 2018-09-13 | 2019-02-22 | 北京字节跳动网络技术有限公司 | 基于聚类的数据收集方法、装置和计算机可读存储介质 |
CN109670039A (zh) * | 2018-11-20 | 2019-04-23 | 华南师范大学 | 基于三部图和聚类分析的半监督电商评论情感分析方法 |
CN110750528A (zh) * | 2019-10-25 | 2020-02-04 | 广东机场白云信息科技有限公司 | 一种多源数据可视分析与展现方法及系统 |
US20200082213A1 (en) * | 2018-09-07 | 2020-03-12 | Baidu Online Network Technology (Beijing) Co., Ltd. | Sample processing method and device |
CN111814192A (zh) * | 2020-08-28 | 2020-10-23 | 支付宝(杭州)信息技术有限公司 | 训练样本生成方法及装置、敏感信息检测方法及装置 |
CN112528030A (zh) * | 2021-02-09 | 2021-03-19 | 中关村科学城城市大脑股份有限公司 | 一种用于文本分类的半监督学习方法和系统 |
CN113190646A (zh) * | 2020-01-14 | 2021-07-30 | 北京达佳互联信息技术有限公司 | 一种用户名样本的标注方法、装置、电子设备及存储介质 |
-
2021
- 2021-10-27 CN CN202111253331.2A patent/CN113988176A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200082213A1 (en) * | 2018-09-07 | 2020-03-12 | Baidu Online Network Technology (Beijing) Co., Ltd. | Sample processing method and device |
CN109376764A (zh) * | 2018-09-13 | 2019-02-22 | 北京字节跳动网络技术有限公司 | 基于聚类的数据收集方法、装置和计算机可读存储介质 |
CN109670039A (zh) * | 2018-11-20 | 2019-04-23 | 华南师范大学 | 基于三部图和聚类分析的半监督电商评论情感分析方法 |
CN110750528A (zh) * | 2019-10-25 | 2020-02-04 | 广东机场白云信息科技有限公司 | 一种多源数据可视分析与展现方法及系统 |
CN113190646A (zh) * | 2020-01-14 | 2021-07-30 | 北京达佳互联信息技术有限公司 | 一种用户名样本的标注方法、装置、电子设备及存储介质 |
CN111814192A (zh) * | 2020-08-28 | 2020-10-23 | 支付宝(杭州)信息技术有限公司 | 训练样本生成方法及装置、敏感信息检测方法及装置 |
CN112528030A (zh) * | 2021-02-09 | 2021-03-19 | 中关村科学城城市大脑股份有限公司 | 一种用于文本分类的半监督学习方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW202020691A (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN111582169A (zh) | 图像识别数据纠错方法、装置、计算机设备和存储介质 | |
CN111859093A (zh) | 敏感词处理方法、装置及可读存储介质 | |
CN110007906B (zh) | 脚本文件的处理方法、装置和服务器 | |
CN109857957B (zh) | 建立标签库的方法、电子设备及计算机存储介质 | |
CN113961768B (zh) | 敏感词检测方法、装置、计算机设备和存储介质 | |
CN112711578B (zh) | 用于云计算业务的大数据去噪方法及云计算金融服务器 | |
CN115238688B (zh) | 电子信息数据关联关系分析方法、装置、设备和存储介质 | |
CN104317891A (zh) | 一种对页面标注标签的方法及装置 | |
CN116049397A (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN112364014A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN110929647B (zh) | 一种文本检测方法、装置、设备及存储介质 | |
CN110706035A (zh) | 一种更新效果的评价方法、装置、存储介质及电子设备 | |
CN113988176A (zh) | 样本标注方法和装置 | |
CN113220949B (zh) | 一种隐私数据识别系统的构建方法及装置 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN115774797A (zh) | 视频内容检索方法、装置、设备和计算机可读存储介质 | |
CN115841677B (zh) | 文本版面分析方法、装置、电子设备及存储介质 | |
CN115048543B (zh) | 图像相似判断方法、图像搜索方法及设备 | |
JP2017142712A (ja) | コールグラフ差分抽出方法、コールグラフ差分抽出プログラム、および情報処理装置 | |
CN118012987A (zh) | 信息搜索方法、装置、设备、介质以及计算机程序产品 | |
CN117851777A (zh) | 一种气象媒体资源标签的快速建立和整理方法 | |
CN116012867A (zh) | 一种表单解析方法及电子设备 | |
CN118069898A (zh) | 一种多日志源的日志泛化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |