CN116975296A - 一种基于词向量的数据安全分类方法及系统 - Google Patents

一种基于词向量的数据安全分类方法及系统 Download PDF

Info

Publication number
CN116975296A
CN116975296A CN202311225736.4A CN202311225736A CN116975296A CN 116975296 A CN116975296 A CN 116975296A CN 202311225736 A CN202311225736 A CN 202311225736A CN 116975296 A CN116975296 A CN 116975296A
Authority
CN
China
Prior art keywords
vector
data
classification
word
asset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311225736.4A
Other languages
English (en)
Inventor
高炜
王琤
朱金宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Digital Language Technology Co ltd
Original Assignee
Beijing Digital Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Digital Language Technology Co ltd filed Critical Beijing Digital Language Technology Co ltd
Priority to CN202311225736.4A priority Critical patent/CN116975296A/zh
Publication of CN116975296A publication Critical patent/CN116975296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词向量的数据安全分类方法及系统,涉及数据分类技术领域,方法包括:创建数据类别,并在对应的数据类别中设置分类名称和分类说明;对分类说明进行分词处理,并根据得到的分词构建当前数据类别的向量词组;读取未分类数据资产,并在预设的词向量库中查找未分类数据资产对应资产名称的资产名称向量值;在词向量库中查找所有数据类别的向量词组向量值,并遍历计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度;将未分类数据资产与所有数据类别中近似度最高的数据类别进行关联,完成未分类数据资产的分类。通过本发明的技术方案,实现数据安全的工作量非常小,且识别率高、数据分类效果好。

Description

一种基于词向量的数据安全分类方法及系统
技术领域
本发明涉及数据分类技术领域,尤其涉及一种基于词向量的数据安全分类方法以及一种基于词向量的数据安全分类系统。
背景技术
数据安全分类是一件工作量非常大的事情,比如对数十万的数据进行安全分类,如果人工方式需要半年到一年的时间。
现有技术中包括手工分类和自动分类两种方式进行数据安全分类。其中,手工分类过程包括:
1. 手工创建分类树(一种树结构的目录);
2. 手工方式将数据库中的字段与分类(目录)进行关联;
3. 用户通过分类可以查看关联到的数据库字段。
自动分类过程包括:
1. 手工创建分类树(一种树结构的目录);
2. 创建表达式并与分类进行绑定,例如:“*[手机号码|电话号码]*”与分类进行绑定;
3. 将表达式与数据库字段名称进行匹配,匹配上的则将表达式的分类与匹配到的字段进行关联。
目前,现有技术中自动分类通常是通过正则表达式进行分类,并与数据资产名称进行匹配完成。正则表达式仅限于包含关键字的方式完成,无法从语义上匹配数据。因此,采用正则表达式的方式,需要撰写大量的正则表达式以穷举的方式才可以达到实际效果,工作量巨大,一般都达不到实际要求,使用效果不好。
发明内容
针对上述问题,本发明提供了一种基于词向量的数据安全分类方法及系统,通过查找未分类数据资产的资产名称向量值,遍历计算其与预设数据类别分类说明的分词向量词组向量值之间的相似度,并与相似度最高的数据类别相关联,使得数据资产能够与数据类别通过词义(近义词)的方式进行匹配,实现数据安全分类,用户不需要撰写大量的表达式或其他标注信息即可进行匹配,相比现有技术中数据分类来说工作量非常小,且识别率高、数据分类效果好。
为实现上述目的,本发明提供了一种基于词向量的数据安全分类方法,包括:
创建数据类别,并在对应的数据类别中设置分类名称和分类说明;
对所述分类说明进行分词处理,并根据得到的分词构建当前数据类别的向量词组;
读取未分类数据资产,并在预设的词向量库中查找所述未分类数据资产对应资产名称的资产名称向量值;
在所述词向量库中查找所有数据类别的向量词组向量值,并遍历计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度;
将所述未分类数据资产与所有数据类别中近似度最高的数据类别进行关联,完成所述未分类数据资产的分类。
在上述技术方案中,优选地,所述分类说明为当前数据类别所应当关联的数据资产的文字说明。
在上述技术方案中,优选地,所述词向量库采用Word2Vec算法与语料库计算得到。
在上述技术方案中,优选地,采用Word2Vec的向量比较计算方法计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度。
在上述技术方案中,优选地,所述向量词组向量值为当前数据类别的向量词组中所有的分词对应的向量值的组合。
本发明还提出一种基于词向量的数据安全分类系统,其特征在于,应用如上述技术方案中任一项公开的基于词向量的数据安全分类方法,包括:
数据类别创建模块,用于创建数据类别,并在对应的数据类别中设置分类名称和分类说明;
分词向量构建模块,用于对所述分类说明进行分词处理,并根据得到的分词构建当前数据类别的向量词组;
名称向量检索模块,用于读取未分类数据资产,并在预设的词向量库中查找所述未分类数据资产对应资产名称的资产名称向量值;
近似向量计算模块,用于在所述词向量库中查找所有数据类别的向量词组向量值,并遍历计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度;
数据关联分类模块,用于将所述未分类数据资产与所有数据类别中近似度最高的数据类别进行关联,完成所述未分类数据资产的分类。
在上述技术方案中,优选地,所述分类说明为当前数据类别所应当关联的数据资产的文字说明。
在上述技术方案中,优选地,所述词向量库采用Word2Vec算法与语料库计算得到。
在上述技术方案中,优选地,所述近似向量计算模块采用Word2Vec的向量比较计算方法计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度。
在上述技术方案中,优选地,所述向量词组向量值为当前数据类别的向量词组中所有的分词对应的向量值的组合。
与现有技术相比,本发明的有益效果为:通过查找未分类数据资产的资产名称向量值,遍历计算其与预设数据类别分类说明的分词向量词组向量值之间的相似度,并与相似度最高的数据类别相关联,使得数据资产能够与数据类别通过词义(近义词)的方式进行匹配,实现数据安全分类,用户不需要撰写大量的表达式或其他标注信息即可进行匹配,相比现有技术中数据分类来说工作量非常小,且识别率高、数据分类效果好。
附图说明
图1为本发明一种实施例公开的基于词向量的数据安全分类方法的流程示意图;
图2为本发明一种实施例公开的基于词向量的数据安全分类方法的实施逻辑示意图;
图3为本发明一种实施例公开的基于词向量的数据安全分类系统的模块示意图。
图中,各组件与附图标记之间的对应关系为:
1.数据类别创建模块,2.分词向量构建模块,3.名称向量检索模块,4.近似向量计算模块,5.数据关联分类模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1和图2所示,根据本发明提供的一种基于词向量的数据安全分类方法,包括:
创建数据类别,并在对应的数据类别中设置分类名称和分类说明;
对分类说明进行分词处理,并根据得到的分词构建当前数据类别的向量词组;
读取未分类数据资产,并在预设的词向量库中查找未分类数据资产对应资产名称的资产名称向量值;
在词向量库中查找所有数据类别的向量词组向量值,并遍历计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度;
将未分类数据资产与所有数据类别中近似度最高的数据类别进行关联,完成未分类数据资产的分类。
在该实施方式中,通过查找未分类数据资产的资产名称向量值,遍历计算其与预设数据类别分类说明的分词向量词组向量值之间的相似度,并与相似度最高的数据类别相关联,使得数据资产能够与数据类别通过词义(近义词)的方式进行匹配,实现数据安全分类,用户不需要撰写大量的表达式或其他标注信息即可进行匹配,相比现有技术中数据分类来说工作量非常小,且识别率高、数据分类效果好。
具体地,在针对所要分类的数据资产预先创建数据类别时,针对每个数据类别设置分类名称和分类说明的参数项。优选地,其中,分类名称用于标识该数据类别,分类说明为当前数据类别所应当关联的数据资产的文字说明。
例如,针对数据类别“信用卡业务信息”,对应的分类说明可以设置为“用卡业务的基本信息数据,如开卡日期、激活日期、信用额度和提现额度等。”在此基础上,利用中文分词器对分类说明进行分词处理,则分词后得到向量词组为“基本信息数据|开卡日期|激活日期|信用额度|提现额度”。
在词向量库中查询到上述向量词组对应的向量值,并将向量词组中所有的分词对应的向量值进行组合,构成向量词组向量值。
在得到未分类的数据资产的资产名称后,同样在词向量库中查询到对应的资产名称向量值,将该资产名称向量值与向量词组向量值进行近似度计算,并从中找出近似度最高的数据类别,将该数据资产与该数据类别进行关联,实现数据资产的分类。
在上述实施方式中,优选地,词向量库采用Word2Vec算法与语料库计算得到,其中,Word2Vec算法为现有算法,语料库可以采用与数据资产相关联领域的语料库,也可以采用基础普遍领域的语料库。语料库越大、语料越多,则在词向量库中查询到对应向量值的概率越大。
在上述实施方式中,优选地,采用Word2Vec的向量比较计算方法计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度。
如图3所示,本发明还提出一种基于词向量的数据安全分类系统,其特征在于,应用如上述实施方式中任一项公开的基于词向量的数据安全分类方法,包括:
数据类别创建模块1,用于创建数据类别,并在对应的数据类别中设置分类名称和分类说明;
分词向量构建模块2,用于对分类说明进行分词处理,并根据得到的分词构建当前数据类别的向量词组;
名称向量检索模块3,用于读取未分类数据资产,并在预设的词向量库中查找未分类数据资产对应资产名称的资产名称向量值;
近似向量计算模块4,用于在词向量库中查找所有数据类别的向量词组向量值,并遍历计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度;
数据关联分类模块5,用于将未分类数据资产与所有数据类别中近似度最高的数据类别进行关联,完成未分类数据资产的分类。
在该实施方式中,通过查找未分类数据资产的资产名称向量值,遍历计算其与预设数据类别分类说明的分词向量词组向量值之间的相似度,并与相似度最高的数据类别相关联,使得数据资产能够与数据类别通过词义(近义词)的方式进行匹配,实现数据安全分类,用户不需要撰写大量的表达式或其他标注信息即可进行匹配,相比现有技术中数据分类来说工作量非常小,且识别率高、数据分类效果好。
在上述实施方式中,优选地,分类说明为当前数据类别所应当关联的数据资产的文字说明。
在上述实施方式中,优选地,向量词组向量值为当前数据类别的向量词组中所有的分词对应的向量值的组合。
在上述实施方式中,优选地,词向量库采用Word2Vec算法与语料库计算得到。
在上述实施方式中,优选地,近似向量计算模块4采用Word2Vec的向量比较计算方法计算资产名称向量值与每个数据类别的向量词组向量值之间的近似度。
根据上述实施方式公开的基于词向量的数据安全分类系统,其各模块所要实现的功能分别与上述实施方式公开的基于词向量的数据安全分类方法中的步骤对应一致,在实施过程中,参照上述实施方式中的数据安全分类方法进行实施,在此不再赘述。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于词向量的数据安全分类方法,其特征在于,包括:
创建数据类别,并在对应的数据类别中设置分类名称和分类说明;
对所述分类说明进行分词处理,并根据得到的分词构建当前数据类别的向量词组;
读取未分类数据资产,并在预设的词向量库中查找所述未分类数据资产对应资产名称的资产名称向量值;
在所述词向量库中查找所有数据类别的向量词组向量值,并遍历计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度;
将所述未分类数据资产与所有数据类别中近似度最高的数据类别进行关联,完成所述未分类数据资产的分类。
2.根据权利要求1所述的基于词向量的数据安全分类方法,其特征在于,所述分类说明为当前数据类别所应当关联的数据资产的文字说明。
3.根据权利要求2所述的基于词向量的数据安全分类方法,其特征在于,所述词向量库采用Word2Vec算法与语料库计算得到。
4.根据权利要求2所述的基于词向量的数据安全分类方法,其特征在于,采用Word2Vec的向量比较计算方法计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度。
5.根据权利要求2所述的基于词向量的数据安全分类方法,其特征在于,所述向量词组向量值为当前数据类别的向量词组中所有的分词对应的向量值的组合。
6.一种基于词向量的数据安全分类系统,其特征在于,应用如权利要求1至5中任一项所述的基于词向量的数据安全分类方法,包括:
数据类别创建模块,用于创建数据类别,并在对应的数据类别中设置分类名称和分类说明;
分词向量构建模块,用于对所述分类说明进行分词处理,并根据得到的分词构建当前数据类别的向量词组;
名称向量检索模块,用于读取未分类数据资产,并在预设的词向量库中查找所述未分类数据资产对应资产名称的资产名称向量值;
近似向量计算模块,用于在所述词向量库中查找所有数据类别的向量词组向量值,并遍历计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度;
数据关联分类模块,用于将所述未分类数据资产与所有数据类别中近似度最高的数据类别进行关联,完成所述未分类数据资产的分类。
7.根据权利要求6所述的基于词向量的数据安全分类系统,其特征在于,所述分类说明为当前数据类别所应当关联的数据资产的文字说明。
8.根据权利要求7所述的基于词向量的数据安全分类系统,其特征在于,所述词向量库采用Word2Vec算法与语料库计算得到。
9.根据权利要求7所述的基于词向量的数据安全分类系统,其特征在于,所述近似向量计算模块采用Word2Vec的向量比较计算方法计算所述资产名称向量值与每个数据类别的向量词组向量值之间的近似度。
10.根据权利要求7所述的基于词向量的数据安全分类系统,其特征在于,所述向量词组向量值为当前数据类别的向量词组中所有的分词对应的向量值的组合。
CN202311225736.4A 2023-09-22 2023-09-22 一种基于词向量的数据安全分类方法及系统 Pending CN116975296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311225736.4A CN116975296A (zh) 2023-09-22 2023-09-22 一种基于词向量的数据安全分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311225736.4A CN116975296A (zh) 2023-09-22 2023-09-22 一种基于词向量的数据安全分类方法及系统

Publications (1)

Publication Number Publication Date
CN116975296A true CN116975296A (zh) 2023-10-31

Family

ID=88485310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311225736.4A Pending CN116975296A (zh) 2023-09-22 2023-09-22 一种基于词向量的数据安全分类方法及系统

Country Status (1)

Country Link
CN (1) CN116975296A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101681109B1 (ko) * 2015-10-01 2016-11-30 한국외국어대학교 연구산학협력단 대표 색인어와 유사도를 이용한 문서 자동 분류 방법
US20190095432A1 (en) * 2017-09-26 2019-03-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for building text classification model, and text classification method and apparatus
CN111159589A (zh) * 2019-12-30 2020-05-15 中国银联股份有限公司 分类字典建立方法、商户数据分类方法、装置及设备
CN115292450A (zh) * 2022-07-28 2022-11-04 四川大学 一种基于信息抽取的数据分类分级领域知识库构建方法
CN116521865A (zh) * 2023-03-31 2023-08-01 广东南方财经控股有限公司 一种基于自动识别技术的元数据分类方法、存储介质及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101681109B1 (ko) * 2015-10-01 2016-11-30 한국외국어대학교 연구산학협력단 대표 색인어와 유사도를 이용한 문서 자동 분류 방법
US20190095432A1 (en) * 2017-09-26 2019-03-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for building text classification model, and text classification method and apparatus
CN111159589A (zh) * 2019-12-30 2020-05-15 中国银联股份有限公司 分类字典建立方法、商户数据分类方法、装置及设备
CN115292450A (zh) * 2022-07-28 2022-11-04 四川大学 一种基于信息抽取的数据分类分级领域知识库构建方法
CN116521865A (zh) * 2023-03-31 2023-08-01 广东南方财经控股有限公司 一种基于自动识别技术的元数据分类方法、存储介质及系统

Similar Documents

Publication Publication Date Title
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
CN108520002A (zh) 数据处理方法、服务器及计算机存储介质
CN110019792A (zh) 文本分类方法及装置和分类器模型训练方法
CN108536677A (zh) 一种专利文本相似度计算方法
CN111191022B (zh) 商品短标题生成方法及装置
CN102479191A (zh) 提供多粒度分词结果的方法及其装置
CN109145110B (zh) 标签查询方法和装置
CN112507160A (zh) 商标侵权的自动化判定方法、装置、电子设备和存储介质
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
CN111368539A (zh) 一种热点分析建模方法
CN110795561B (zh) 一种电子卷宗材料类型自动识别系统及其自主学习方法
CN111309305A (zh) 面向智能合约的代码自动推荐方法、系统、计算机设备和存储介质
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN110728142A (zh) 一种流水文件识别方法、装置及计算机存储介质、电子设备
CN108875743B (zh) 一种文本识别方法及装置
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN115329048A (zh) 一种语句检索的方法及装置、电子设备、存储介质
CN110188340B (zh) 一种研报文本实体名词自动识别方法
CN116975296A (zh) 一种基于词向量的数据安全分类方法及系统
CN106649885A (zh) 一种专业类与标准专业名的匹配方法及系统
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
CN109992716B (zh) 一种基于itq算法的印尼语相似新闻推荐方法
CN109815996B (zh) 一种基于循环神经网络的场景自适配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination