CN116975296A

CN116975296A - 一种基于词向量的数据安全分类方法及系统

Info

Publication number: CN116975296A
Application number: CN202311225736.4A
Authority: CN
Inventors: 高炜; 王琤; 朱金宝
Original assignee: Beijing Digital Language Technology Co ltd
Current assignee: Beijing Digital Language Technology Co ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-10-31

Abstract

本发明公开了一种基于词向量的数据安全分类方法及系统，涉及数据分类技术领域，方法包括：创建数据类别，并在对应的数据类别中设置分类名称和分类说明；对分类说明进行分词处理，并根据得到的分词构建当前数据类别的向量词组；读取未分类数据资产，并在预设的词向量库中查找未分类数据资产对应资产名称的资产名称向量值；在词向量库中查找所有数据类别的向量词组向量值，并遍历计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度；将未分类数据资产与所有数据类别中近似度最高的数据类别进行关联，完成未分类数据资产的分类。通过本发明的技术方案，实现数据安全的工作量非常小，且识别率高、数据分类效果好。

Description

一种基于词向量的数据安全分类方法及系统

技术领域

本发明涉及数据分类技术领域，尤其涉及一种基于词向量的数据安全分类方法以及一种基于词向量的数据安全分类系统。

背景技术

数据安全分类是一件工作量非常大的事情，比如对数十万的数据进行安全分类，如果人工方式需要半年到一年的时间。

现有技术中包括手工分类和自动分类两种方式进行数据安全分类。其中，手工分类过程包括：

1. 手工创建分类树（一种树结构的目录）；

2. 手工方式将数据库中的字段与分类（目录）进行关联；

3. 用户通过分类可以查看关联到的数据库字段。

自动分类过程包括：

1. 手工创建分类树（一种树结构的目录）；

2. 创建表达式并与分类进行绑定，例如：“*[手机号码|电话号码]*”与分类进行绑定；

3. 将表达式与数据库字段名称进行匹配，匹配上的则将表达式的分类与匹配到的字段进行关联。

目前，现有技术中自动分类通常是通过正则表达式进行分类，并与数据资产名称进行匹配完成。正则表达式仅限于包含关键字的方式完成，无法从语义上匹配数据。因此，采用正则表达式的方式，需要撰写大量的正则表达式以穷举的方式才可以达到实际效果，工作量巨大，一般都达不到实际要求，使用效果不好。

发明内容

针对上述问题，本发明提供了一种基于词向量的数据安全分类方法及系统，通过查找未分类数据资产的资产名称向量值，遍历计算其与预设数据类别分类说明的分词向量词组向量值之间的相似度，并与相似度最高的数据类别相关联，使得数据资产能够与数据类别通过词义（近义词）的方式进行匹配，实现数据安全分类，用户不需要撰写大量的表达式或其他标注信息即可进行匹配，相比现有技术中数据分类来说工作量非常小，且识别率高、数据分类效果好。

为实现上述目的，本发明提供了一种基于词向量的数据安全分类方法，包括：

创建数据类别，并在对应的数据类别中设置分类名称和分类说明；

对所述分类说明进行分词处理，并根据得到的分词构建当前数据类别的向量词组；

读取未分类数据资产，并在预设的词向量库中查找所述未分类数据资产对应资产名称的资产名称向量值；

在所述词向量库中查找所有数据类别的向量词组向量值，并遍历计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度；

将所述未分类数据资产与所有数据类别中近似度最高的数据类别进行关联，完成所述未分类数据资产的分类。

在上述技术方案中，优选地，所述分类说明为当前数据类别所应当关联的数据资产的文字说明。

在上述技术方案中，优选地，所述词向量库采用Word2Vec算法与语料库计算得到。

在上述技术方案中，优选地，采用Word2Vec的向量比较计算方法计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度。

在上述技术方案中，优选地，所述向量词组向量值为当前数据类别的向量词组中所有的分词对应的向量值的组合。

本发明还提出一种基于词向量的数据安全分类系统，其特征在于，应用如上述技术方案中任一项公开的基于词向量的数据安全分类方法，包括：

数据类别创建模块，用于创建数据类别，并在对应的数据类别中设置分类名称和分类说明；

分词向量构建模块，用于对所述分类说明进行分词处理，并根据得到的分词构建当前数据类别的向量词组；

名称向量检索模块，用于读取未分类数据资产，并在预设的词向量库中查找所述未分类数据资产对应资产名称的资产名称向量值；

近似向量计算模块，用于在所述词向量库中查找所有数据类别的向量词组向量值，并遍历计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度；

数据关联分类模块，用于将所述未分类数据资产与所有数据类别中近似度最高的数据类别进行关联，完成所述未分类数据资产的分类。

在上述技术方案中，优选地，所述近似向量计算模块采用Word2Vec的向量比较计算方法计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度。

与现有技术相比，本发明的有益效果为：通过查找未分类数据资产的资产名称向量值，遍历计算其与预设数据类别分类说明的分词向量词组向量值之间的相似度，并与相似度最高的数据类别相关联，使得数据资产能够与数据类别通过词义（近义词）的方式进行匹配，实现数据安全分类，用户不需要撰写大量的表达式或其他标注信息即可进行匹配，相比现有技术中数据分类来说工作量非常小，且识别率高、数据分类效果好。

附图说明

图1为本发明一种实施例公开的基于词向量的数据安全分类方法的流程示意图；

图2为本发明一种实施例公开的基于词向量的数据安全分类方法的实施逻辑示意图；

图3为本发明一种实施例公开的基于词向量的数据安全分类系统的模块示意图。

图中，各组件与附图标记之间的对应关系为：

1.数据类别创建模块，2.分词向量构建模块，3.名称向量检索模块，4.近似向量计算模块，5.数据关联分类模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1和图2所示，根据本发明提供的一种基于词向量的数据安全分类方法，包括：

对分类说明进行分词处理，并根据得到的分词构建当前数据类别的向量词组；

读取未分类数据资产，并在预设的词向量库中查找未分类数据资产对应资产名称的资产名称向量值；

在词向量库中查找所有数据类别的向量词组向量值，并遍历计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度；

将未分类数据资产与所有数据类别中近似度最高的数据类别进行关联，完成未分类数据资产的分类。

在该实施方式中，通过查找未分类数据资产的资产名称向量值，遍历计算其与预设数据类别分类说明的分词向量词组向量值之间的相似度，并与相似度最高的数据类别相关联，使得数据资产能够与数据类别通过词义（近义词）的方式进行匹配，实现数据安全分类，用户不需要撰写大量的表达式或其他标注信息即可进行匹配，相比现有技术中数据分类来说工作量非常小，且识别率高、数据分类效果好。

具体地，在针对所要分类的数据资产预先创建数据类别时，针对每个数据类别设置分类名称和分类说明的参数项。优选地，其中，分类名称用于标识该数据类别，分类说明为当前数据类别所应当关联的数据资产的文字说明。

例如，针对数据类别“信用卡业务信息”，对应的分类说明可以设置为“用卡业务的基本信息数据，如开卡日期、激活日期、信用额度和提现额度等。”在此基础上，利用中文分词器对分类说明进行分词处理，则分词后得到向量词组为“基本信息数据|开卡日期|激活日期|信用额度|提现额度”。

在词向量库中查询到上述向量词组对应的向量值，并将向量词组中所有的分词对应的向量值进行组合，构成向量词组向量值。

在得到未分类的数据资产的资产名称后，同样在词向量库中查询到对应的资产名称向量值，将该资产名称向量值与向量词组向量值进行近似度计算，并从中找出近似度最高的数据类别，将该数据资产与该数据类别进行关联，实现数据资产的分类。

在上述实施方式中，优选地，词向量库采用Word2Vec算法与语料库计算得到，其中，Word2Vec算法为现有算法，语料库可以采用与数据资产相关联领域的语料库，也可以采用基础普遍领域的语料库。语料库越大、语料越多，则在词向量库中查询到对应向量值的概率越大。

在上述实施方式中，优选地，采用Word2Vec的向量比较计算方法计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度。

如图3所示，本发明还提出一种基于词向量的数据安全分类系统，其特征在于，应用如上述实施方式中任一项公开的基于词向量的数据安全分类方法，包括：

数据类别创建模块1，用于创建数据类别，并在对应的数据类别中设置分类名称和分类说明；

分词向量构建模块2，用于对分类说明进行分词处理，并根据得到的分词构建当前数据类别的向量词组；

名称向量检索模块3，用于读取未分类数据资产，并在预设的词向量库中查找未分类数据资产对应资产名称的资产名称向量值；

近似向量计算模块4，用于在词向量库中查找所有数据类别的向量词组向量值，并遍历计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度；

数据关联分类模块5，用于将未分类数据资产与所有数据类别中近似度最高的数据类别进行关联，完成未分类数据资产的分类。

在上述实施方式中，优选地，分类说明为当前数据类别所应当关联的数据资产的文字说明。

在上述实施方式中，优选地，向量词组向量值为当前数据类别的向量词组中所有的分词对应的向量值的组合。

在上述实施方式中，优选地，词向量库采用Word2Vec算法与语料库计算得到。

在上述实施方式中，优选地，近似向量计算模块4采用Word2Vec的向量比较计算方法计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度。

根据上述实施方式公开的基于词向量的数据安全分类系统，其各模块所要实现的功能分别与上述实施方式公开的基于词向量的数据安全分类方法中的步骤对应一致，在实施过程中，参照上述实施方式中的数据安全分类方法进行实施，在此不再赘述。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于词向量的数据安全分类方法，其特征在于，包括：

2.根据权利要求1所述的基于词向量的数据安全分类方法，其特征在于，所述分类说明为当前数据类别所应当关联的数据资产的文字说明。

3.根据权利要求2所述的基于词向量的数据安全分类方法，其特征在于，所述词向量库采用Word2Vec算法与语料库计算得到。

4.根据权利要求2所述的基于词向量的数据安全分类方法，其特征在于，采用Word2Vec的向量比较计算方法计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度。

5.根据权利要求2所述的基于词向量的数据安全分类方法，其特征在于，所述向量词组向量值为当前数据类别的向量词组中所有的分词对应的向量值的组合。

6.一种基于词向量的数据安全分类系统，其特征在于，应用如权利要求1至5中任一项所述的基于词向量的数据安全分类方法，包括：

7.根据权利要求6所述的基于词向量的数据安全分类系统，其特征在于，所述分类说明为当前数据类别所应当关联的数据资产的文字说明。

8.根据权利要求7所述的基于词向量的数据安全分类系统，其特征在于，所述词向量库采用Word2Vec算法与语料库计算得到。

9.根据权利要求7所述的基于词向量的数据安全分类系统，其特征在于，所述近似向量计算模块采用Word2Vec的向量比较计算方法计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度。

10.根据权利要求7所述的基于词向量的数据安全分类系统，其特征在于，所述向量词组向量值为当前数据类别的向量词组中所有的分词对应的向量值的组合。