CN112084308A

CN112084308A - 用于文本类型数据识别的方法、系统及存储介质

Info

Publication number: CN112084308A
Application number: CN202010974941.0A
Authority: CN
Inventors: 魏薇; 张媛媛; 姜宇泽
Original assignee: China Academy of Information and Communications Technology CAICT
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-15

Abstract

本发明涉及用于文本类型数据识别的方法、系统及存储介质。在该方法中首先获取数据表中的各个字段，将所有字段信息进行连接得到字段集合，然后构建训练集，对训练集中的字段集合进行基于字节的1‑gram特征的提取，将提取的特征输入bayes分类器进行训练，最后对待识别的数据表进行特征的提取，将提取的特征输入分类器中进行识别，分类器输出分类识别结果。该方法使用单汉字或者单词为语义单位作为分类特征，避免了特征在训练样本中的稀疏性问题，将类别所有字段内容连接为一个大文件进行处理，且将贝叶斯概率计算用于该分类问题，将字段的先验概率、1‑gram的类别条件概率作为计算概率的主要变量，分类中使用对数运算实现得分的相加，提高了识别准确率。

Description

用于文本类型数据识别的方法、系统及存储介质

技术领域

本发明属于机器学习技术领域，更具体地，涉及一种用于文本类型数据识别的方法、系统及存储介质。

背景技术

随着数字经济时代的来临，数据作为新型生产要素，加速与传统产业生产力融合发展，推动经济发展质量变革、效率变革、动力变革。在此背景下，我国高度重视数据安全保护工作，为国家数据经济发展保驾护航。我国积极借鉴国外数据安全管理先进经验，出台《网络安全法》等法律法规，明确提出数据分类、加密等安全保障要求，将数据资产梳理、数据分级分类管理等作为数据安全保护基础措施与前置条件正式纳入到企业数据安全管理责任义务中进行要求。由于数据体量大、更新快、种类多等特点，使得人工梳理数据无法满足数据资产管理与分级分类的要求，因此，研发数据资产识别自动化工具，有助于高效、准确的完成数据资产识别与梳理，对于推动全行业提升网络数据安全保护能力，共筑国家数据安全防线有重要积极意义。

目前相关主体单位对于数据库、大数据平台等存储的数据主要采用基于正则表达式判定的方式进行数据分级分类识别。即需要人工预先根据数据的类型、内容、长度等数据特征建立该数据的正则表达式，进而通过计算数据与正则表达式的匹配程度，实现对数据级别和类别的识别。而现有的基于正则表达式的分级分类识别方法，主要存在以下问题：一是适用范围有限，该算法仅可对数据特征明显的数字型数据和二进制型数据等进行分类识别，如身份证号、电话号、帐号、密码等数字类型数据，无法识别姓名、公司名、健康状况、爱好等无明显数据特征，难以建立正则表达式的文本类型数据；二是前期需要人工定义数据识别规则，工作耗时长，工作效率低。

发明内容

提供了本公开以解决现有技术中存在的上述问题。

本公开使用单汉字或者单词为语义单位作为分类特征，避免了特征在训练样本中的稀疏性问题；将类别所有字段内容连接为一个大文件进行处理；将贝叶斯概率计算用于该分类问题，特别是将字段的先验概率、1-gram的类别条件概率作为计算概率的主要变量；训练过程中生成先验概率和条件概率；分类中使用对数运算实现得分的相加，解决了传统正则表达式数据资产梳理方法无法有效适用于大部分文本类型数据的问题。提高了识别准确率，省去了人工设置数据识别规则的时间，工作耗时短，运行效率较高。

根据本公开的第一方面，提供了一种用于文本类型数据识别的方法，包括以下步骤：

S1、获取数据表中的各个字段，将所有字段信息进行连接得到字段集合；

S2、构建训练集，训练集为步骤S1中的字段集合，对训练集中的字段集合进行基于字节的1-gram特征的提取；

S3、将步骤S2提取的特征输入bayes分类器进行训练；

S4、对待识别的数据表按照步骤S1-S2进行特征的提取，然后将提取的特征输入分类器中进行识别，分类器输出分类识别结果。

根据本公开的第二方面，所述步骤S2中，进行基于字节的1-gram特征的提取的具体步骤如下：

S21、设步骤S1中的字段包括字节B₁B₂B₃…B_N，对字节B₁B₂B₃…B_N进行基于1-gram的字节级分词处理；

S22、对字节B₁B₂B₃…B_N分词后的结果进行统计计数，将各计数按照从大到小进行排序，排名最前的编号为1，并记rank为1；随后的编号为2，并记rank为2；依此向下编号；

S23、计算字段的排名特征：

F-gram-rank(S)＝rank(B₁)+rank(B₂)+rank(B₃)+…+rank(B_n)。

根据本公开的第三方面，所述步骤S3进行分类器训练的具体步骤如下：

S31.给定的类别集合为C＝{c₁,c₂,…,c_m}，m为类别的个数，给定的训练集为字段集合T＝{t₁,t₂,…,t_N}，N为字段总数，将训练集中的所有汉字单字和英文单词作为独立的语义项，组成字典V；

S32.对于C中的每一类别c_i，对其中所有字段，计算先验概率

其中

为c_i类中字段的数量；

S33.对所有字段中的语义项r_i，计算其出现在c_i类中的条件概率

其中

为r_i出现在c_i类中的次数；

S34.输出训练结果：PR＝{pr[c_i]}，条件概率PC＝{pc[r_i][c_j]}。

根据本公开的第四方面，所述步骤S4的具体步骤如下：

S41.对于待分类的表或者字段d，对于每个类别c_i，记其得分为s[c_i]＝0；

S42.计算先验概率对数，累计先验概率得分：s[c_i]+＝log pr[c_i]；

S43.对于d中的所有语义项r_i，累计条件概率得分：s[c_i]+＝log pc[r_i][c_i]；

S44.输出得分最大的类别为分类结果：arg max s[c_i]。

根据本公开的第五方面，提供了一种用于文本类型数据识别的系统，包括获取模块、特征提取模块、分类器训练模块及分类器识别模块：

获取模块：用于获取数据表中的各个字段，将所有字段信息进行连接得到字段集合；

特征提取模块：用于构建训练集，训练集为获取模块得到的字段集合，对训练集中的字段集合进行基于字节的1-gram特征的提取；

分类器训练模块：用于将特征提取模块提取的特征输入bayes分类器进行训练；

分类器识别模块：用于对待识别的数据表，按照获取模块得到字段集合，然后特征提取模块进行特征的提取，最后将提取的特征输入分类器中进行识别，分类器输出分类识别结果。

根据本公开的第六方面，提供了一种用于文本类型数据识别的系统，其中特征提取模块包括分词模块、排序模块、第一计算模块：

分词模块：对获取模块得到的字段包括字节B₁B₂B₃…B_N进行基于1-gram 的字节级分词处理；

排序模块：用于对字节B₁B₂B₃…B_N分词后的结果进行统计计数，将各计数按照从大到小进行排序，排名最前的编号为1，并记rank为1；随后的编号为2，并记rank为2；依此向下编号；

第一计算模块：用于计算字段的排名特征：

F-gram-rank(S)＝rank(B₁)+rank(B₂)+rank(B₃)+…+rank(B_n)。

根据本公开的第七方面，提供了一种用于文本类型数据识别的系统，其中分类器训练模块包括：词典建立模块、第二计算模块、第三计算模块、第一输出模块：

词典建立模块：给定类别集合为C＝{c₁,c₂,…,c_m}，m为类别的个数，给定的训练集为字段集合T＝{t₁,t₂,…,t_N}，N为字段总数，将训练集中的所有汉字单字和英文单词作为独立的语义项，组成字典V；

第二计算模块：用于对于C中的每一类别c_i，对其中所有字段，计算先验概率

其中

为c_i类中字段的数量；

第三计算模块：用于对所有字段中的语义项r_i，计算其出现在c_i类中的条件概率

其中

为r_i出现在c_i类中的次数；

第一输出模块：用于输出训练结果：PR＝{pr[c_i]}，条件概率PC＝{pc[r_i][c_j]}。

根据本公开的第八方面，提供了一种用于文本类型数据识别的系统，其中分类器识别模块包括第四计算模块、第五计算模块、第六计算模块、第二输出模块：

第四计算模块：用于对待分类的表或者字段d，对于每个类别c_i，记其得分为s[c_i]＝0；

第五计算模块：用于计算先验概率对数，累计先验概率得分： s[c_i]+＝log pr[c_i]；

第六计算模块：用于对d中的所有语义项r_i，累计条件概率得分： s[c_i]+＝log pc[r_i][c_i]；

第二输出模块：用于输出得分最大的类别为分类结果：arg max s[c_i]。

根据本公开的第九方面，本公开还提供了一种存储介质，其内部存储有计算机程序，上述计算机程序运行时实现本公开第一方面至第四方面的用于文本类型数据识别的方法中的步骤。

根据本公开的第十方面，本公开还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开第一方面至第四方面的用于文本类型数据识别的方法中的步骤。

本发明的有益效果为：

(1)本发明弥补了传统基于正则表达式规则识别的算法无法识别大部分文本型数据字段的局限性，具有适用范围广、数据字段覆盖率高的特点。

(2)本算法基于机器学习技术，在大量学习的基础上，可以科学、准确的建立数据分类学习模型，具有较高的识别准确率。

(3)本算法在训练阶段和分类阶段的算法清晰、简单，且省去了人工设置数据识别规则的时间，工作耗时短，运行效率较高。

附图说明

图1示出了根据本发明实施例的用于文本类型数据识别的方法的流程图；

图2示出了根据本发明实施例的基于字节的1-gram特征提取的流程图；

图3示出了根据本发明实施例的分类器训练的流程图；

图4示出了根据本发明实施例的分类器识别的流程图；

图5示出了根据本发明实施例的用于文本类型数据识别的系统的示意图；

图6示出了根据本发明实施例的特征提取模块的示意图；

图7示出了根据本发明实施例的分类器训练模块的示意图；

图8示出了根据本发明实施例的分类器识别模块的示意图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述，但不作为对本公开的限定。

下面对本公开的具体实施方式进行描述，以便于本技术领域的技术人员理解本公开，但应该清楚，本公开不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本公开的精神和范围内，这些变化是显而易见的，一切利用本公开构思的发明创造均在保护之列。

实施例1

图1是根据本发明实施例的用于文本类型数据识别的方法，如图1所示，包括以下步骤：

数据源中会存在多张数据表，每个数据表中存在多个字段，将所有数据表中的所有字段以拼接的方式得到字段集合。

贝叶斯分类算法在对文本进行分析时，依据条件独立假设，假设文本中各词语之间是相互独立的，不依赖于文本中其他相邻的词语。例如，文本d由 l个特征组成，表示成d＝(x₁,x₂,...,x_l)，则该文本在语料库中出现的概率

式中x_i为文档的第i个特征。

N-gram模型建立在独立性假设基础上，假设文本中第n个词的出现与前 n-1个词相关，此时文本d在语料库中出现的概率

式中

其中 A(x_i-n+1,...,x_i)为文本d中连续词组x_i-n+1,...,x_i在语料库中出现的总数，使用拉普拉斯平滑进行处理，采用公式

式中A(n) 为语料库中所有不重复的n元词组的总数，根据N-gram模型，文本d在语料库中出现的概率

本公开采用基于字节的1-gram特征的提取，数据表中的字段中的中文汉字、英文单词是语义独立的。

S3、将步骤S2提取的特征输入bayes分类器进行训练；

将提取的特征输入bayes分类器进行训练，首先计算每个类别的先验概率，然后计算字段中的语义项出现在每个类别中的条件概率，最终输出训练结果，训练结果为每个字属于各个类别的条件概率，得到训练好的分类模型。

S4、对待识别的数据表按照步骤S1-S2进行特征的提取，然后将提取的特征输入分类器中进行识别，分类器输出分类识别结果；

对于待识别的数据表，首先获取数据表中的各个字段，将所有字段信息进行连接得到字段集合，然后对字段集合进行基于字节的1-gram特征的提取，将提取的特征输入已经训练好的分类器中进行识别，最终输出分类识别结果。

图2是根据本发明实施例的基于字节的1-gram特征提取流程图，如图2 所示，进行基于字节的1-gram特征的提取的具体步骤如下：

S23、计算字段的排名特征：

F-gram-rank(S)＝rank(B₁)+rank(B₂)+rank(B₃)+…+rank(B_n)。

图3是根据本发明实施例的分类器训练的流程图，分类器训练的具体步骤如下：

S32.对于C中的每一类别c_i，对其中所有字段，计算先验概率

其中

为c_i类中字段的数量；

其中

为r_i出现在c_i类中的次数；

S34.输出训练结果：PR＝{pr[c_i]}，条件概率PC＝{pc[r_i][c_j]}。

图4是根据本发明实施例的分类器识别的流程图，具体步骤如下：

S42.计算先验概率对数，累计先验概率得分：s[c_i]+＝logpr[c_i]；

S43.对于d中的所有语义项r_i，累计条件概率得分：s[c_i]+＝logpc[r_i][c_i]；

S44.输出得分最大的类别为分类结果：argmaxs[c_i]。

实施例2

图5是根据本发明实施例的用于文本类型数据识别的系统，如图2所示，包括以下模块：

获取模块51、特征提取模块52、分类器训练模块53及用于分类器识别模块54。

获取模块51用于获取数据表中的各个字段，将所有字段信息进行连接得到字段集合；

特征提取模块52用于构建训练集，训练集为获取模块51得到的字段集合，对训练集中的字段集合进行基于字节的1-gram特征的提取；

分类器训练模块53用于将特征提取模块52提取的特征输入bayes分类器进行训练；

分类器识别模块54对待识别的数据表经获取模块51和特征提取模块52 处理后进行特征的提取，然后将提取的特征输入分类器中进行识别，分类器输出分类识别结果。

图6示出了根据本发明实施例的特征提取模块的示意图，如图6所示，包括以下模块：

分词模块61：用于对获取模块得到的字段包括字节B₁B₂B₃…B_N进行基于 1-gram的字节级分词处理；

排序模块62：用于对字节B₁B₂B₃…B_N分词后的结果进行统计计数，将各计数按照从大到小进行排序，排名最前的编号为1，并记rank为1；随后的编号为2，并记rank为2；依此向下编号；

第一计算模块63：用于计算字段的排名特征：

F-gram-rank(S)＝rank(B₁)+rank(B₂)+rank(B₃)+…+rank(B_n)。

图7示出了根据本发明实施例的分类器训练模块的示意图，如图7所示，包括以下模块：

词典建立模块71：给定类别集合为C＝{c₁,c₂,…,c_m}，m为类别的个数，给定的训练集为字段集合T＝{t₁,t₂,…,t_N}，N为字段总数，将训练集中的所有汉字单字和英文单词作为独立的语义项，组成字典V；

第二计算模块72：用于对于C中的每一类别c_i，对其中所有字段，计算先验概率

其中

为c_i类中字段的数量；

第三计算模块73：用于对所有字段中的语义项r_i，计算其出现在c_i类中的条件概率

其中T_ciri为r_i出现在c_i类中的次数；

第一输出模块74：用于输出训练结果：PR＝{pr[c_i]}，条件概率 PC＝{pc[r_i][c_j]}。

图8示出了根据本发明实施例的分类器识别模块的示意图，如图8所示，包括以下模块：

第四计算模块81：用于对待分类的表或者字段d，对于每个类别c_i，记其得分为s[c_i]＝0；

第五计算模块82：用于计算先验概率对数，累计先验概率得分： s[c_i]+＝logpr[c_i]；

第六计算模块83：用于对d中的所有语义项r_i，累计条件概率得分： s[c_i]+＝logpc[r_i][c_i]；

第二输出模块84：用于输出得分最大的类别为分类结果：argmaxs[c_i]。

实施例3

假设训练集包括两个类别，各有一个数据表如下：

表1 c₁类：个人信息

姓名	地址
		张三	朝阳路
李四	人民路
		王五	文化路
朱六	学院路
		赵七	李宁路

表2 c₂类：企业信息

企业名	地址
		中安威士	中关村南大街
奇虎科技	望京街道
		百度科技	西二旗
新浪科技	中关村
		阿里集团	杭州

将每个类别的两个字段内容全部合并得到字段集合，视为一个大文件。在训练阶段需要计算每个语义项对各个类别的条件概率，作为分类模型。

类别为：C＝{个人信息，企业信息}；

字段总数为N＝4，字典大小为54，c₁、c₂总字数分别为25、38。

先验概率pr(c₁)＝2/4＝0.5，pr(c₂)＝2/4＝0.5；

分别对两个类别中的所有单字进行概率计算，比如：

pc[张|c₁]＝(1+1)/(25+54)＝0.025；

pc[张|c₂]＝(0+1)/(38+54)＝0.01；

pc[李|c₁]＝(1+1)/(25+54)＝0.025；

pc[李|c₂]＝(0+1)/(38+54)＝0.01；

……

最后，得到一张字与类别的条件概率表，也就是分类模型。如下所示：

表3条件概率表

字	个人信息	企业信息
			张	0.025	0.01
李	0.025	0.01
			……	……	……

在分类阶段，根据这个概率表，对待分类字段、表、或者记录中出现的每一个字，计算所属类别的可能性。

假设有两个只有一条记录的待分类表：[张良，学院路]与[安信科技，北京]。

使用上述模型进行类型判别，分别为：

1)对于[张良，学院路]，其在两个类别上的相关概率为：

pc[张|c₁]＝0.025；pc[张|c₂]＝0.01；

pc[良|c₁]＝0.01；pc[良|c₂]＝0.01；

pc[学|c₁]＝0.025；pc[学|c₂]＝0.01；

pc[院|c₁]＝0.025；pc[院|c₂]＝0.01；

pc[路|c₁]＝0.063；pc[路|c₂]＝0.01；

计算其在两个类别上的得分：

＝log(0.025)+log(0.01)+log(0.025)+log(0.025)+log(0.063)+log(0.5)

＝-1.602-2-1.602-1.201-0.301＝-8.308

＝log(0.01)+log(0.01)+log(0.01)+log(0.01)+log(0.01)+log(0.5)

＝-2-2-2-2-2-0.301＝-10.301

分类结果：由于s[c₁]>s[c₂]，所以[张良，学院路]的分类结果为c₁，即个人信息。

2)对于[安信科技，北京]，其相关概率为：

pc[安|c₁]＝0.01；pc[安|c₂]＝0.01；

pc[信|c₁]＝0.01；pc[信|c₂]＝0.01；

pc[科|c₁]＝0.01；pc[科|c₂]＝0.043；

pc[技|c₁]＝0.01；pc[技|c₂]＝0.043；

pc[北|c₁]＝0.01；pc[北|c₂]＝0.01；

pc[京|c₁]＝0.01；pc[京|c₂]＝0.01

计算其在两个类别上的得分：

＝log(0.01)+log(0.01)+log(0.01)+log(0.01)+log(0.01)+log(0.01)+log(0.5)

＝-2-2-2-2-2-2-0.301＝-12.308

＝log(0.01)+log(0.01)+log(0.043)+log(0.043)+log(0.01)+log(0.01)+log(0.5)

＝-2-2-1.367-1.367-2-2-0.301＝11.035

分类结果：由于s[c₂]>s[c₁]，所以[安信科技，北京]的分类结果为c₂，即企业信息。

本发明使用单汉字或者单词为语义单位作为分类特征，避免了特征在训练样本中的稀疏性问题；将类别所有字段内容连接为一个大文件进行处理；将贝叶斯概率计算用于该分类问题，特别是将字段的先验概率、1-gram的类别条件概率作为计算概率的主要变量；训练过程中生成先验概率和条件概率；分类中使用对数运算实现得分的相加，提高了识别准确率，省去了人工设置数据识别规则的时间，工作耗时短，运行效率较高。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。虽然以上结合附图描述了本发明的具体实施方式，但是本领域普通技术人员应当理解，这些仅是举例说明，可以对这些实施方式做出多种变形或修改，而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。