发明内容
本说明书实施例的目的是提供一种数据分类方法、装置及电子设备,以提供一种准确率较高的数据分类方案。
为了解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种数据分类方法,所述方法包括:
获取待分类字段的字段特征;
根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。
可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之后,所述方法还包括:
根据预设的标签类别与字段敏感级别的映射关系、以及所述待分类字段的标签类别,确定所述待分类字段的敏感级别。
可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之前,所述方法还包括:
获取训练样本集,所述训练样本集中包括用于训练模型的训练样本,所述训练样本为标签类别已知的字段;
获取所述训练样本集中训练样本的字段特征;
根据特定决策树算法,对所述训练样本的字段特征和标签类别进行训练,得到预测模型,所述预测模型用于表征字段特征与标签类别的映射关系。
可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别,包括:
将所述待分类字段的字段特征输入到所述预测模型,得到所述待分类字段相对于各标签类别的得分;
将得分大于预设分数阈值的标签类别,确定为所述待分类字段的标签类别。
可选地,所述字段特征包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。
可选地,所述字段特征包括:字段的统计特征;
所述获取待分类字段的字段特征,包括:
获取字段访问记录、以及所述待分类字段所处数据库的数据分布情况;
根据所述字段访问记录,确定目标用户访问过的字段的标签类别分布情况,所述目标用户为访问过所述待分类字段的用户;
根据所述数据分布情况,确定目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况;所述目标数据表为所述待分类字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;
将所述目标用户访问过的字段的标签类别分布情况、所述目标数据表中字段的标签类别分布情况、以及所述邻近数据表中字段的标签类别分布情况中的至少一项,作为统计特征。
可选地,所述字段特征包括:字段的内容特征;
所述获取待分类字段的字段特征,包括:
获取所述待分类字段对应的内容;
利用正则表达式,识别所述待分类字段对应的内容中证件号类型的内容;
确定所述待分类字段对应的内容的字段类型;
计算所述待分类字段对应的内容的分布特征;
将所识别出的内容、所述字段特征、以及所述分布特征中的至少一项,作为内容特征。
可选地,所述字段特征包括:字段的语音特征;
所述获取待分类字段的字段特征,包括:
对所述待分类字段进行分词处理,得到所述待分类字段的第一词汇集;
对所述第一词汇集进行词频统计、去停用词、去重复词处理,得到第二词汇集;
根据word2vect模型和所述第二词汇集,确定所述待分类字段的语义特征。
可选地,所述特定决策树算法,包括:随机森林算法、或梯度提升决策树算法。
本说明书实施例提供的一种数据分类装置,所述装置包括:
第一获取模块,用于获取待分类字段的字段特征;
类别确定模块,用于根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。
可选地,所述装置还包括:
级别确定模块,用于根据预设的标签类别与字段敏感级别的映射关系、以及所述待分类字段的标签类别,确定所述待分类字段的敏感级别。
可选地,所述装置还包括:
第二获取模块,用于获取训练样本集,所述训练样本集中包括用于训练模型的训练样本,所述训练样本为标签类别已知的字段;
第三获取模块,用于获取所述训练样本集中训练样本的字段特征;
模型训练模块,用于根据特定决策树算法,对所述训练样本的字段特征和标签类别进行训练,得到预测模型,所述预测模型用于表征字段特征与标签类别的映射关系。
可选地,所述类别确定模块,包括:
特征输入单元,用于将所述待分类字段的字段特征输入到所述预测模型,得到所述待分类字段相对于各标签类别的得分;
标签类别确定单元,用于将得分大于预设分数阈值的标签类别,确定为所述待分类字段的标签类别。
可选地,所述字段特征包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。
可选地,所述字段特征包括:字段的统计特征;
所述第一获取模块,包括:
第一获取单元,用于获取字段访问记录、以及所述待分类字段所处数据库的数据分布情况;
第一分布情况确定单元,用于根据所述字段访问记录,确定目标用户访问过的字段的标签类别分布情况,所述目标用户为访问过所述待分类字段的用户;
第二分布情况确定单元,用于根据所述数据分布情况,确定目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况;所述目标数据表为所述待分类字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;
统计特征确定单元,用于将所述目标用户访问过的字段的标签类别分布情况、所述目标数据表中字段的标签类别分布情况、以及所述邻近数据表中字段的标签类别分布情况中的至少一项,作为统计特征。
可选地,所述字段特征包括:字段的内容特征;
所述第一获取模块,包括:
第二获取单元,用于获取所述待分类字段对应的内容;
内容识别单元,用于利用正则表达式,识别所述待分类字段对应的内容中证件号类型的内容;
字段类型确定单元,用于确定所述待分类字段对应的内容的字段类型;
分布特征计算单元,用于计算所述待分类字段对应的内容的分布特征;
内容特征确定单元,用于将所识别出的内容、所述字段特征、以及所述分布特征中的至少一项,作为内容特征。
可选地,所述字段特征包括:字段的语音特征;
所述第一获取单元,包括:
第一处理单元,用于对所述待分类字段进行分词处理,得到所述待分类字段的第一词汇集;
第二处理单元,用于对所述第一词汇集进行词频统计、去停用词、去重复词处理,得到第二词汇集;
语义特征确定单元,用于根据word2vect模型和所述第二词汇集,确定所述待分类字段的语义特征。
可选地,所述特定决策树算法,包括:随机森林算法、或梯度提升决策树算法。
本说明书实施例提供的一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待分类字段的字段特征;
根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。
本说明书实施例提供的一种计算机存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待分类字段的字段特征;
根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,可以根据待分类字段的字段特征、以及预设的字段特征与标签类别的映射关系,确定待分类字段的标签类别。由于字段的字段特征可以从很大程度上反映该字段所属的类别,因此本说明书实施例可以实现数据的精准分类。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种数据分类方法,该方法的执行主体可以为终端设备,或者可以是由终端设备和服务器共同执行,其中,该终端设备可以如个人计算机等设备,也可以如手机、平板电脑等移动终端设备,该终端设备可以为用户使用的终端设备。该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,而且,该服务器可以是进行数据分类的服务器。该方法可以用于进行数据分类等处理中。该方法具体可以包括以下步骤:
在步骤S102中,获取待分类字段的字段特征。
为了便于理解,首先对本说明书实施例中涉及到的一些概念进行介绍。
数据库:按照数据结构来组织、存储和管理数据的仓库;
数据表:数据库最重要的组成部分之一,一般由多个字段构成;
字段:数据库中存储信息的最小单位。本说明书实施例中的数据分类方法用于对数据库中类别未知的字段进行分类(类别预测)。
本说明书实施例中,待分类字段为标签类别未知的字段。
本说明书实施例中,字段特征可以包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。其中,字段的语义特征用于表征字段的语义,字段的内容特征用于表征字段对应的具体内容,字段的统计特征用于表征与该字段存在关联关系的字段的标签类别分布情况。字段的内容可以理解为该字段的键值,例如,当字段为“手机号”时,字段的内容为:一个或多个具体的手机号码;又例如,当字段为“是否为证件号码”时,字段的内容为:是或否。
考虑到采用的字段特征越多,分类结果越为准确,优选的,本说明书实施例中,字段特征包括:字段的语义特征、字段的内容特征和字段的统计特征;相应的,上述步骤S102具体包括以下步骤:获取待分类字段的语义特征、内容特征和统计特征。
本说明书实施例中,当字段特征包括:字段的语义特征时,可以通过以下方式获取待分类字段的语义特征:
对待分类字段进行分词处理,得到待分类字段的第一词汇集;
对第一词汇集进行词频统计、去停用词、去重复词处理,得到第二词汇集;
根据word2vect模型和第二词汇集,确定待分类字段的语义特征。
本说明书实施例中,word2vect模型为一种开源软件,通过大规模语料学习词语的向量表示。
本说明书实施例中,当字段特征包括:字段的内容特征时,可以通过以下方式获取待分类字段的内容特征:
获取待分类字段对应的内容;
利用正则表达式,识别待分类字段对应的内容中证件号类型的内容;其中,证件号类型可以包括:身份证号、银行卡号和手机号;
确定待分类字段对应的内容的字段类型;其中,字段类型可以包括:数字类型和文本类型;
计算待分类字段对应的内容的分布特征;其中,分布特征可以包括:字段的平均长度、数字字段均值、数字字段的标准差、数字字段的z分数、字段中的熵值和字段中的标点数量;
将所识别出的内容、字段类型、以及分布特征中的至少一项,作为内容特征。
本说明书实施例中,利用正则表达式,识别待分类字段对应的内容中证件号类型的内容,得到识别出的内容,该内容可以作为判断字段是否为证件号类型的依据。
本说明书实施例中,以分布特征中的数字字段的标准差为例,财产类的标准差都比较大,而订单号类的标准差都比较小;或者以分布特征中的数字字段均值为例,是否类型的均值,与财产类的均值以及订单号类的均值都相差比较多。
本说明书实施例中,当字段特征包括:字段的统计特征时,可以通过以下方式获取待分类字段的统计特征:
获取字段访问记录、以及待分类字段所处数据库的数据分布情况;
根据字段访问记录,确定目标用户访问过的字段的标签类别分布情况,该目标用户为访问过待分类字段的用户;
根据数据分布情况,确定目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况;该目标数据表为待分类字段所处的数据表,该邻近数据表为与目标数据表相邻的数据表;
将目标用户访问过的字段的标签类别分布情况、目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况中的至少一项,作为统计特征。
本说明书实施例中,当目标用户访问过的所有字段的类别均未知时,将目标用户访问过的字段的标签类别分布情况取值设置为一个默认值(例如Null)。当目标数据表中所有字段的类别均未知时,将目标数据表中字段的标签类别分布情况取值设置为一个默认值。当邻近数据表中所有字段的类别均未知时,将邻近数据表中字段的标签类别分布情况取值设置为一个默认值。
为了便于理解,结合一个例子对语义特征、内容特征和统计特征在字段分类中所起到的作用进行介绍。
在一个例子中,目前,在字段分类时是基于文字匹配进行的,例如,用于字段分类的模板为:“证件号”,待分类字段1为“证件号前六位”,待分类字段2为“是否证件号”,待分类字段为“身份证号”。虽然待分类字段1和待分类字段2均能匹配模板的“证件号”,但待分类字段1和待分类字段2实际上并不是证件号,而导致出现误报;虽然待分类字段3为证件号码,但无法与模板匹配,而导致出现漏报。
由于字段“证件号”与字段“身份证号”的含义是相似的,因此,本说明书实施例中,采用字段的语义特征可以识别出字段“身份证号”的类别,从而避免漏报。
由于字段“证件号”的内容应该为具体的证件号码,即一连串数字,而字段“是否证件号”的内容为:是或否,因此,本说明书实施例中,采用字段的内容特征可以过滤掉“是否证件号”等误报。
此外,考虑到处于数据库中同一数据表中的字段通常具有相同的类别,临近数据表中的字段通常也具有相同的类别,以及同一用户访问的字段通常也具有相同的类别,因此,本说明书实施例中,通过获取上述统计特征,有助于对待分类字段的进行类别确定。
在步骤S104中,根据预设的字段特征与标签类别的映射关系、以及待分类字段的字段特征,确定待分类字段的标签类别。
本说明书实施例中,标签类别用于表征字段的所属类别,例如,标签类别可以包括:交易类、财产类、身份信息类和订单号类。
本说明书实施例中,字段特征与标签类别的映射关系可以预先生成,当需要进行字段分类时直接使用该映射关系;字段特征与标签类别的映射关系也可以在需要进行字段分类时临时生成。
本说明书实施例中,预设的字段特征与标签类别的映射关系可以通过模型训练得到,相应的,本说明书实施例提供一种预测模型训练方法,该预测模型用于表征字段特征与标签类别的映射关系,如图2所示。该方法具体可以包括以下步骤:
在步骤S202中,获取训练样本集,该训练样本集中包括用于训练模型的训练样本,该训练样本为标签类别已知的字段。
本说明书实施例中,在选择训练样本集时,可以直接获取一些标签类别已知的字段作为训练样本集;或者,也可以选择一些标签类别未知的字段,人工对这些字段进行标签类别标注,将标注后的字段作为训练样本集。
在步骤S204中,获取训练样本集中训练样本的字段特征。
本说明书实施例中,字段特征可以包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。
可选的,当字段特征包括:字段的语义特征时,获取训练样本集中训练样本的语义特征;可选的,当字段特征包括:字段的内容特征时,获取训练样本集中训练样本的内容特征;可选的,当字段特征包括:字段的统计特征时,获取训练样本集中训练样本的统计特征;可选的,当字段特征包括:字段的语义特征和内容特征时,获取训练样本集中训练样本的语义特征和内容特征;可选的,当字段特征包括:字段的语义特征和统计特征时,获取训练样本集中训练样本的语义特征和统计特征;可选的,当字段特征包括:字段的统计特征和内容特征时,获取训练样本集中训练样本的统计特征和内容特征。
考虑到所参考的特征越多,模型的预测结果越为准确,优选的,本说明书实施例中,获取训练样本集中训练样本的语义特征、内容特征和统计特征,通过多个维度相似度来度量字段与标签类别间的相似度。
在步骤S206中,根据特定决策树算法,对训练样本的字段特征和标签类别进行训练,得到预测模型,该预测模型用于表征字段特征与标签类别的映射关系。
本说明书实施例中,特定决策树算法可以包括:随机森林算法、或梯度提升决策树算法。
以随机森林算法训练得到的预测模型为例,在使用该预测模型预测待分类字段的标签类别时,该预测模型的输入是待分类字段的字段特征,该预测模型的输出是该待分类字段属于各标签类别的概率,也就说是,待分类字段相对于每个标签类别都对应一个得分,其中,待分类字段相对于每个标签类别的得分的求和结果为1。
本说明书实施例中,当使用图2所示的预测模型进行字段分类时,上述步骤S104可以包括以下步骤:
将待分类字段的字段特征输入到预测模型,得到待分类字段相对于各标签类别的得分;将得分大于预设分数阈值的标签类别,确定为待分类字段的标签类别。
在一个例子中,预测模型为随机森林模型,该随机森林模型中有三颗决策树,分别为:交易类决策树、财产类决策树和身份信息类决策树,将待分类字段A的字段特征输入到上述随机森林模型中,得到字段A属于交易类的概率、字段A属于财产类的概率和字段A属于身份信息类的概率,其中,字段A属于交易类的概率+字段A属于财产类的概率+字段A属于身份信息类的概率=1。例如,字段A属于交易类的概率为0.6,字段A属于财产类的概率0.2,字段A属于身份信息类的概率为0.2,预设分数阈值为0.55,由于字段A属于交易类的概率为0.6大于预设分数阈值0.55,因此,确定字段A所处的标签类别为交易类。
为了便于数据的精细化管理,本说明书实施例中,还可以进一步划分字段的敏感级别,此时,在上述步骤S104步骤之后,还可以增加以下步骤:
根据预设的标签类别与字段敏感级别的映射关系、以及待分类字段的标签类别,确定待分类字段的敏感级别。
本说明书实施例中,敏感级别可以包括:公开、保密、机密和绝密等。
例如,身份信息类对应的敏感级别为机密,若待分类字段的标签类别为身份信息类,则该待分类字段的敏感级别为机密;又例如,财产类对应的敏感级别为保密,若待分类字段的标签类别为财产类,则该待分类字段的敏感级别为保密。
需要说明的是,为了保证预测结果的准确性,在对待分类字段进行类别预测时,优先选择与该待分类字段所属领域相同的训练样本训练得到的预测模型,例如,当待分类字段属于金融领域时,优先选择金融领域类训练样本得到的预测模型。
在一个优选实施例中,当需要对数据库中的字段进行分类时,可以从该数据库中选择部分字段,并为这部分字段进行标签类别标注,使用随机森林算法对人工标注字段的标签类别和字段特征进行训练,得到预测模型,使用该预测模型对该数据库中类别未知的字段进行类别预测。
在一个例子中,如图3所示的数据库,该数据库中包括:数据表1、数据表2、数据表3、数据表4、数据表5和数据表6,其中,数据表1中包括:字段1、字段2、字段3和字段4,数据表2中包括:字段5、字段6、字段7和字段8,数据表3中包括:字段9、字段10、字段11和字段12,数据表4中包括:字段13、字段14、字段15和字段16,数据表5中包括:字段17、字段18、字段19和字段20。可以人工标注字段2、字段3、字段5和字段9的标签类别,使用随机森林算法对字段2、字段3、字段5和字段9的标签类别及各自的语义特征、内容特征和统计特征进行训练得到预测模型,使用预测模型对该数据库中的剩余字段进行类别预测。可见,本说明书实施例中只需标准数据库中的少量字段,就可以完成整个数据库中所有字段的分类,操作比较简单。
本说明书实施例提供一种数据分类方法,可以根据待分类字段的字段特征、以及预设的字段特征与标签类别的映射关系,确定待分类字段的标签类别。由于字段的字段特征可以从很大程度上反映该字段所属的类别,因此本说明书实施例可以实现数据的精准分类。
实施例二
以上为本说明书实施例提供的数据分类方法,基于同样的思路,本说明书实施例还提供一种数据分类装置,如图4所示。
该数据分类装置包括:第一获取模块401和类别确定模块402,其中,
第一获取模块401,用于获取待分类字段的字段特征;
类别确定模块402,用于根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。
本说明书实施例中,所述装置还包括:
级别确定模块,用于根据预设的标签类别与字段敏感级别的映射关系、以及所述待分类字段的标签类别,确定所述待分类字段的敏感级别。
本说明书实施例中,所述装置还包括:
第二获取模块,用于获取训练样本集,所述训练样本集中包括用于训练模型的训练样本,所述训练样本为标签类别已知的字段;
第三获取模块,用于获取所述训练样本集中训练样本的字段特征;
模型训练模块,用于根据特定决策树算法,对所述训练样本的字段特征和标签类别进行训练,得到预测模型,所述预测模型用于表征字段特征与标签类别的映射关系。
本说明书实施例中,所述类别确定模块,包括:
特征输入单元,用于将所述待分类字段的字段特征输入到所述预测模型,得到所述待分类字段相对于各标签类别的得分;
标签类别确定单元,用于将得分大于预设分数阈值的标签类别,确定为所述待分类字段的标签类别。
本说明书实施例中,所述字段特征包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。
本说明书实施例中,所述字段特征包括:字段的统计特征;
所述第一获取模块,包括:
第一获取单元,用于获取字段访问记录、以及所述待分类字段所处数据库的数据分布情况;
第一分布情况确定单元,用于根据所述字段访问记录,确定目标用户访问过的字段的标签类别分布情况,所述目标用户为访问过所述待分类字段的用户;
第二分布情况确定单元,用于根据所述数据分布情况,确定目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况;所述目标数据表为所述待分类字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;
统计特征确定单元,用于将所述目标用户访问过的字段的标签类别分布情况、所述目标数据表中字段的标签类别分布情况、以及所述邻近数据表中字段的标签类别分布情况中的至少一项,作为统计特征。
本说明书实施例中,所述字段特征包括:字段的内容特征;
所述第一获取模块,包括:
第二获取单元,用于获取所述待分类字段对应的内容;
内容识别单元,用于利用正则表达式,识别所述待分类字段对应的内容中证件号类型的内容;
字段类型确定单元,用于确定所述待分类字段对应的内容的字段类型;
分布特征计算单元,用于计算所述待分类字段对应的内容的分布特征;
内容特征确定单元,用于将所识别出的内容、所述字段类型、以及所述分布特征中的至少一项,作为内容特征。
本说明书实施例中,所述字段特征包括:字段的语音特征;
所述第一获取单元,包括:
第一处理单元,用于对所述待分类字段进行分词处理,得到所述待分类字段的第一词汇集;
第二处理单元,用于对所述第一词汇集进行词频统计、去停用词、去重复词处理,得到第二词汇集;
语义特征确定单元,用于根据word2vect模型和所述第二词汇集,确定所述待分类字段的语义特征。
本说明书实施例中,所述特定决策树算法,包括:随机森林算法、或梯度提升决策树算法。
本说明书实施例提供一种数据分类装置,可以根据待分类字段的字段特征、以及预设的字段特征与标签类别的映射关系,确定待分类字段的标签类别。由于字段的字段特征可以从很大程度上反映该字段所属的类别,因此本说明书实施例可以实现数据的精准分类。
实施例三
以上为本说明书实施例提供的数据分类装置,基于同样的思路,本说明书实施例还提供一种电子设备,如图5所示。
在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据分类装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待分类字段的字段特征;
根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。
可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之后,所述方法还包括:
根据预设的标签类别与字段敏感级别的映射关系、以及所述待分类字段的标签类别,确定所述待分类字段的敏感级别。
可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之前,所述方法还包括:
获取训练样本集,所述训练样本集中包括用于训练模型的训练样本,所述训练样本为标签类别已知的字段;
获取所述训练样本集中训练样本的字段特征;
根据特定决策树算法,对所述训练样本的字段特征和标签类别进行训练,得到预测模型,所述预测模型用于表征字段特征与标签类别的映射关系。
可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别,包括:
将所述待分类字段的字段特征输入到所述预测模型,得到所述待分类字段相对于各标签类别的得分;
将得分大于预设分数阈值的标签类别,确定为所述待分类字段的标签类别。
可选地,所述字段特征包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。
可选地,所述字段特征包括:字段的统计特征;
所述获取待分类字段的字段特征,包括:
获取字段访问记录、以及所述待分类字段所处数据库的数据分布情况;
根据所述字段访问记录,确定目标用户访问过的字段的标签类别分布情况,所述目标用户为访问过所述待分类字段的用户;
根据所述数据分布情况,确定目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况;所述目标数据表为所述待分类字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;
将所述目标用户访问过的字段的标签类别分布情况、所述目标数据表中字段的标签类别分布情况、以及所述邻近数据表中字段的标签类别分布情况中的至少一项,作为统计特征。
可选地,所述字段特征包括:字段的内容特征;
所述获取待分类字段的字段特征,包括:
获取所述待分类字段对应的内容;
利用正则表达式,识别所述待分类字段对应的内容中证件号类型的内容;
确定所述待分类字段对应的内容的字段类型;
计算所述待分类字段对应的内容的分布特征;
将所识别出的内容、所述字段类型、以及所述分布特征中的至少一项,作为内容特征。
可选地,所述字段特征包括:字段的语音特征;
所述获取待分类字段的字段特征,包括:
对所述待分类字段进行分词处理,得到所述待分类字段的第一词汇集;
对所述第一词汇集进行词频统计、去停用词、去重复词处理,得到第二词汇集;
根据word2vect模型和所述第二词汇集,确定所述待分类字段的语义特征。
可选地,所述特定决策树算法,包括:随机森林算法、或梯度提升决策树算法。
上述如本说明书图4所示实施例揭示的数据分类装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下方法:
获取待分类字段的字段特征;
根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。