CN116701641B - 一种非结构化数据的分级分类方法及装置 - Google Patents

一种非结构化数据的分级分类方法及装置 Download PDF

Info

Publication number
CN116701641B
CN116701641B CN202310987512.0A CN202310987512A CN116701641B CN 116701641 B CN116701641 B CN 116701641B CN 202310987512 A CN202310987512 A CN 202310987512A CN 116701641 B CN116701641 B CN 116701641B
Authority
CN
China
Prior art keywords
target
file
standard
target file
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310987512.0A
Other languages
English (en)
Other versions
CN116701641A (zh
Inventor
李烨
张正初
杨定
邱伟煌
王宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Original Assignee
Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd filed Critical Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Priority to CN202310987512.0A priority Critical patent/CN116701641B/zh
Publication of CN116701641A publication Critical patent/CN116701641A/zh
Application granted granted Critical
Publication of CN116701641B publication Critical patent/CN116701641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种非结构化数据的分级分类方法及装置,该方法包括:基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;基于关键词抽取算法,从目标文件所记载文本中抽取出目标文件对应的目标关键词集合;根据目标关键词集合确定关联词集合;计算目标文件对应的语义核心词集合与标准文件类型对应的标准关键词集合之间的相似度,得到目标文件与标准文件类型的分类相似度;从所有标准文件类型中筛选出分类相似度大于预设相似度阈值的标准文件类型作为目标文件的目标文件类型;根据目标文件类型和目标关键词集合,确定目标文件的目标安全保密等级。可见,实施本发明能够准确高效地对非结构化数据进行分级分类。

Description

一种非结构化数据的分级分类方法及装置
技术领域
本发明涉及数据治理技术领域,尤其涉及一种非结构化数据的分级分类方法及装置。
背景技术
非结构化数据是没有固定格式或固定规则的数据,非结构化数据包括文档、HTML、图像、音频、视频等类型的数据。
在实际应用中,需要对非结构化数据的内容进行识别解析,以管理非结构化数据。然而,识别解析非结构化数据内容通常依赖人工处理,且人工对非结构化数据进行分级分类的时间成本较高,导致非结构化数据的管理效率低下。因此,提出一种能够准确高效地对非结构化数据进行分级分类,以提高非结构化数据的管理效率的技术方案显得尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种非结构化数据的分级分类方法及装置,能够提高非结构化数据的分级分类效率和准确性,有利于提高非结构化数据的管理效率和管理准确性。
为了解决上述技术问题,本发明第一方面公开了一种非结构化数据的分级分类方法,所述方法包括:
基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,所述全盘扫描方式用于表示对所有所述非结构化数据文件的文件头进行扫描,每个所述非结构化数据文件的文件头包括该非结构化数据文件的文件格式;所述目标文件格式为不属于预设白名单的文件格式,所述预设白名单包括至少一种无需进行分类的文件格式;
基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,所述目标关键词集合包括至少一个目标关键词,所述关键词抽取算法包括文本预处理和关键词抽取,所述文本预处理至少包括分词和去停用词;
根据所述目标文件对应的目标关键词集合,确定所述目标文件对应的关联词集合,所述关联词集合包括至少一个关联词,每个所述关联词与所述目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;
对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到所述目标文件与该标准文件类型的分类相似度,所述目标文件对应的语义核心词集合包括所述目标文件对应的目标关键词集合和所述目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;
从所有所述标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为所述目标文件的目标文件类型;
根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级。
本发明第二方面公开了一种非结构化数据的分级分类装置,所述装置包括:
筛选模块,用于基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,所述全盘扫描方式用于表示对所有所述非结构化数据文件的文件头进行扫描,每个所述非结构化数据文件的文件头包括该非结构化数据文件的文件格式;所述目标文件格式为不属于预设白名单的文件格式,所述预设白名单包括至少一种无需进行分类的文件格式;
关键词抽取模块,用于基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,所述目标关键词集合包括至少一个目标关键词,所述关键词抽取算法包括文本预处理和关键词抽取,所述文本预处理至少包括分词和去停用词;
确定模块,用于根据所述目标文件对应的目标关键词集合,确定所述目标文件对应的关联词集合,所述关联词集合包括至少一个关联词,每个所述关联词与所述目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;
计算模块,用于对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到所述目标文件与该标准文件类型的分类相似度,所述目标文件对应的语义核心词集合包括所述目标文件对应的目标关键词集合和所述目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;
所述筛选模块,还用于从所有所述标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为所述目标文件的目标文件类型;
所述确定模块,还用于根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级。
本发明第三方面公开了另一种非结构化数据的分级分类装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的非结构化数据的分级分类方法。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的非结构化数据的分级分类方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,全盘扫描方式用于表示对所有非结构化数据文件的文件头进行扫描,每个非结构化数据文件的文件头包括该非结构化数据文件的文件格式;目标文件格式为不属于预设白名单的文件格式,预设白名单包括至少一种无需进行分类的文件格式;基于预先确定的关键词抽取算法,从目标文件所记载文本中抽取出目标文件对应的目标关键词集合,目标关键词集合包括至少一个目标关键词,关键词抽取算法包括文本预处理和关键词抽取,文本预处理至少包括分词和去停用词;根据目标文件对应的目标关键词集合,确定目标文件对应的关联词集合,关联词集合包括至少一个关联词,每个关联词与目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;对于每种预先确定的标准文件类型,计算目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到目标文件与该标准文件类型的分类相似度,目标文件对应的语义核心词集合包括目标文件对应的目标关键词集合和目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;从所有标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为目标文件的目标文件类型;根据目标文件的目标文件类型和目标文件对应的目标关键词集合,确定目标文件的目标安全保密等级。可见,实施本发明能够从所有非结构化数据文件中扫描得到目标文件格式的目标文件,并从目标文件中抽取出目标关键词集合,根据目标关键词集合确定出关联词集合,以及根据目标关键词集合和关联词集合与标准文件类型对应的标准关键词集合之间的相似度,确定出目标文件与每个标准文件类型的分类相似度,根据分类相似度筛选出目标文件的目标文件类型,再根据目标文件类型和目标关键词集合确定目标文件的目标安全保密等级,实现了非结构化数据的智能化分级分类,能够提高对非结构化数据的文本内容的分析效率和分析准确性,从而提高非结构化数据的分级分类效率和分级分类准确性,进而提高非结构化数据的管理效率和管理准确性,有利于提高数据治理的可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种非结构化数据的分级分类方法的流程示意图;
图2是本发明实施例公开的另一种非结构化数据的分级分类方法的流程示意图;
图3是本发明实施例公开的一种非结构化数据的分级分类装置的结构示意图;
图4是本发明实施例公开的另一种非结构化数据的分级分类装置的结构示意图;
图5是本发明实施例公开的又一种非结构化数据的分级分类装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种非结构化数据的分级分类方法及装置,能够从所有非结构化数据文件中扫描得到目标文件格式的目标文件,并从目标文件中抽取出目标关键词集合,根据目标关键词集合确定出关联词集合,以及根据目标关键词集合和关联词集合与标准文件类型对应的标准关键词集合之间的相似度,确定出目标文件与每个标准文件类型的分类相似度,根据分类相似度筛选出目标文件的目标文件类型,再根据目标文件类型和目标关键词集合确定目标文件的目标安全保密等级,实现了非结构化数据的智能化分级分类,能够提高对非结构化数据的文本内容的分析效率和分析准确性,从而提高非结构化数据的分级分类效率和分级分类准确性,进而提高非结构化数据的管理效率和管理准确性,有利于提高数据治理的可靠性。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种非结构化数据的分级分类方法的流程示意图。其中,图1所描述的非结构化数据的分级分类方法可以应用于非结构化数据的分级分类装置中,该装置可以包括分级分类设备、分级分类终端、分级分类系统和服务器中的一种,其中,服务器包括本地服务器或云服务器,且该装置也可以应用于数据治理平台,本发明实施例不做限定。如图1所示,该非结构化数据的分级分类方法可以包括以下操作:
101、基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件。
本发明实施例中,全盘扫描方式用于表示对所有非结构化数据文件的文件头进行扫描,每个非结构化数据文件的文件头包括该非结构化数据文件的文件格式,其中,文件头为位于文件最前面的预设字节数的数据;目标文件格式为不属于预设白名单的文件格式,预设白名单包括至少一种无需进行分类的文件格式;筛选得到的目标文件可以有一个或多个,本发明实施例不做限定。示例性的,文件格式可以包括JPG、MP3、ZIP等格式,目标文件格式可以为文档格式等记载有文本的文件格式,例如:DOC、DOCX、TXT,本发明实施例不做限定。
102、基于预先确定的关键词抽取算法,从目标文件所记载文本中抽取出目标文件对应的目标关键词集合。
本发明实施例中,目标关键词集合包括至少一个目标关键词,关键词抽取算法包括文本预处理和关键词抽取,文本预处理至少包括分词和去停用词,文本预处理还可以包括命名实体识别和/或词性标注,本发明实施例不做限定。
103、根据目标文件对应的目标关键词集合,确定目标文件对应的关联词集合。
本发明实施例中,关联词集合包括至少一个关联词,每个关联词与目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;其中,每个目标关键词可以只有一个相匹配的关联词,也可以有多个相匹配的关联词,本发明实施例不做限定;以及,每个关联词可以只与一个目标关键词之间的关联度大于或等于预设关联度,也可以分别与多个目标关键词之间的关联度大于或等于预设关联度,本发明实施例不做限定。
104、对于每种预先确定的标准文件类型,计算目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到目标文件与该标准文件类型的分类相似度。
本发明实施例中,目标文件对应的语义核心词集合包括目标文件对应的目标关键词集合和目标文件对应的关联词集合;标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词。其中,文件类型用于表示该文件所记载文本的内容类型,且标准文件类型为预先确定的至少一个用于作为分类标准的文件类型;可选的,可以根据本方法的应用对象(例如:学校、公司等组织)确定标准文件类型,也可以根据待管理的数据量确定标准文件类型,还可以根据管理目的确定标准文件类型,本发明实施例不做限定;示例性的,当本方法的应用对象为公司时,标准文件类型可以包括个人信息类型、薪资信息类型、财务信息类型、规划信息类型等文件类型,本发明实施例不做限定。其中,相似度可以表示字符的相似度,也可以表示语义的相似度,还可以表示字符和语义的相似度,本发明实施例不做限定;以及,相似度可以包括余弦相似度、欧式距离、皮尔逊相关系数、海明距离和杰卡德距离中的一种或多种的组合,本发明实施例不做限定。可选的,在发明实施例中,可以通过编辑距离算法计算词语单元之间的相似度,也可以通过SimHash算法计算词语单元之间的相似度,还可以基于词向量模型(例如:Word2vec模型)计算词语单元之间的相似度,还可以通过其他基于字符/语料库/知识等方式计算词语单元之间的相似度,本发明实施例不做限定;其中,词语单元包括目标关键词、关联词和标准关键词中的一种或多种的组合。
105、从所有标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为目标文件的目标文件类型。
106、根据目标文件的目标文件类型和目标文件对应的目标关键词集合,确定目标文件的目标安全保密等级。
本发明实施例中,目标安全保密等级为其中一个预先确定的安全保密等级;其中,文件的安全保密等级越高,表示该文件所记载内容的重要程度越高/机密程度越高/所包含的敏感信息越多,即需要对该文件实施更严格的安全保密措施。
可见,实施本发明实施例所描述的方法能够从所有非结构化数据文件中扫描得到目标文件格式的目标文件,并从目标文件中抽取出目标关键词集合,根据目标关键词集合确定出关联词集合,以及根据目标关键词集合和关联词集合与标准文件类型对应的标准关键词集合之间的相似度,确定出目标文件与每个标准文件类型的分类相似度,根据分类相似度筛选出目标文件的目标文件类型,再根据目标文件类型和目标关键词集合确定目标文件的目标安全保密等级,实现了非结构化数据的智能化分级分类,能够提高对非结构化数据的文本内容的分析效率和分析准确性,从而提高非结构化数据的分级分类效率和分级分类准确性,进而提高非结构化数据的管理效率和管理准确性,有利于提高数据治理的可靠性。
在一个可选的实施例中,根据目标文件的目标文件类型和目标文件对应的目标关键词集合,确定目标文件的目标安全保密等级,可以包括以下操作:
获取目标文件的目标文件类型对应的第一安全保密等级;
获取目标文件类型对应的敏感词集合,敏感词集合包括多个敏感词;
比对目标文件对应的目标关键词集合和敏感词集合,得到目标文件对应的敏感比对结果,敏感比对结果用于表示目标关键词集合与敏感词集合之间的重合情况;
根据目标文件对应的敏感比对结果,确定目标文件对应的信息敏感等级;
根据目标文件对应的信息敏感等级,从所有安全保密等级中筛选出与信息敏感等级相匹配的安全保密等级作为目标关键词集合对应的第二安全保密等级;
根据第一安全保密等级和第二安全保密等级,确定目标文件的目标安全保密等级。
其中,第一安全保密等级和第二安全保密等级可以是不同层级的安全保密等级,即第二安全保密等级可以是第一安全保密等级的子等级;第一安全保密等级和第二安全保密等级也可以是在同一层级并列的安全保密等级,本发明实施例不做限定;当第一安全保密等级和第二安全保密等级为不同层级的安全保密等级时,目标安全保密等级可以由第一安全保密等级和第二安全保密等级组合而成,即目标安全保密等级为多层级的安全保密等级;当第一安全保密等级和第二安全保密等级为在同一层级并列的安全保密等级时,目标安全保密等级可以通过综合评价第一安全保密等级和第二安全保密等级,确定出与第一安全保密等级和第二安全保密等级位于同一层级的安全保密等级。
示例性的,假设目标文件类型为个人信息类型,且目标文件类型对应的第一安全保密等级为二级安全保密,目标关键词集合对应的第二安全保密等级为四级安全保密,则经过综合评价之后,目标文件的目标安全等级可以为三级安全保密。
其中,目标文件类型对应的敏感词集合可以是该标准文件类型所预设的敏感词集合,也可以是本方法的应用对象所预设的敏感词集合,还可以是从历史敏感信息中检测到的敏感词集合,本发明实施例不做限定;目标文件对应的信息敏感等级越高,则表示目标文件所记载的敏感信息的信息量越大和/或敏感信息的敏感程度越高。
可见,该可选的实施例能够根据目标文件类型确定第一安全保密等级,并通过比对获取到的敏感词集合和目标关键词集合得到敏感比对结果,根据敏感比对结果确定目标文件对应的信息敏感等级,以及将与信息敏感等级相匹配的安全保密等级作为第二安全保密等级,结合第一安全保密等级和第二安全保密等级确定出目标文件的目标安全保密等级,实现了对文件中的敏感信息的智能化识别,能够提高敏感信息的识别准确性,从而提高文件信息敏感程度的确定准确性,进而提高文件安全保密等级的确定准确性,有利于针对安全保密等级设置准确的保密措施,以提高非结构化数据的的管理安全性。
在该可选的实施例中,可选的,根据目标文件对应的敏感比对结果,确定目标文件对应的信息敏感等级,可以包括以下操作:
当敏感比对结果用于表示在目标关键词集合中存在与敏感词集合重合的目标关键词时,从目标关键词集合中筛选出与敏感词集合重合的目标关键词作为敏感关键词;
统计敏感关键词的数量以及每个敏感关键词在目标文件中的出现频次;
根据敏感关键词的数量和所有敏感关键词对应的出现频次,确定目标文件对应的信息敏感等级;
当敏感比对结果用于表示在目标关键词集合中不存在与敏感词集合重合的目标关键词时,计算目标关键词集合与敏感词集合之间的敏感相似度;
根据敏感相似度,确定目标文件对应的信息敏感等级。
其中,若存在敏感关键词,则敏感关键词的数量越多和/或每个敏感关键词的出现频次越高,表示目标文件所包含的敏感信息越多,从而确定出的目标文件的信息敏感等级越高;若不存在敏感关键词,则计算得到的敏感相似度越高,表示目标文件包含敏感信息的可能性越大,从而确定出的目标文件的信息敏感等级越高。其中,词语单元还可以包括敏感词,关于敏感相似度的计算方式可以参考本发明实施例中关于相似度计算部分的详细描述,在本可选的实施例中不再赘述。
可见,该可选的实施例还能够在判断出目标关键词集合中存在敏感关键词时,根据统计得到的敏感关键词的数量和每个敏感关键词的出现频次确定目标文件的信息敏感等级,在判断出目标关键词集合中不存在敏感关键词时,根据目标关键词集合与敏感词集合之间的敏感相似度确定目标文件的信息敏感等级,能够提高确定敏感信息的识别灵活性和识别准确性,从而提高信息敏感等级的确定准确性,进而有利于提高文件安全保密等级的确定准确性。
在该可选的实施例中,进一步可选的,该方法还可以包括以下操作:
判断目标文件对应的信息敏感等级是否高于预设信息敏感等级;
当判断出目标文件对应的信息敏感等级高于预设信息敏感等级时,确定目标文件所记载文本中的敏感文本;
基于预先确定的加密算法和加密算法对应的目标密钥对,对目标文件所记载文本中的敏感文本进行加密处理,得到敏感文本对应的加密文本,目标密钥对包括目标私钥和目标公钥;
当检测到目标文件对应的文件读取请求时,判断文件读取请求中所包含的公钥是否为目标公钥;
当判断出文件读取请求中所包含的公钥为目标公钥时,读取目标文件所记载文本;
当判断出文件读取请求中所包含的公钥不为目标公钥时,读取敏感文本对应的加密文本以及目标文件所记载文本中除敏感文本之外的其余文本。
其中,敏感文本可以包括所有敏感关键词,也可以包括每个敏感关键词的前后文,还可以包括敏感关键词所对应的敏感信息,例如:敏感关键词为“身份证号”,敏感文本可以为在“身份证号”后记载的具体身份证号,也可以为具体身份证号中的某几个身份证号位,本发明实施例不做限定。其中,加密算法可以为非对称加密算法,即需要使用公钥和私钥对文本进行加密解密的算法,示例性的,加密算法可以为RSA或DSA,本发明实施例不做限定;本发明实施例中,使用目标私钥对敏感文本进行加密得到加密文本,使用目标公钥对加密文本进行解密得到原始的敏感文本。
可见,该可选的实施例还能够在判断出信息敏感等级高于预设信息敏感等级时确定目标文件中的敏感文本,并对敏感文本进行加密处理得到加密文本,若检测到文件读取请求,且文件读取请求中的公钥为目标公钥时,可以读取目标文件所记载的所有内容,若文件读取请求中的公钥不是目标公钥时,则只能读取加密文本而无法读取敏感文本,实现了对文件中的敏感信息的智能化保护,能够提高敏感信息的加密准确性,从而提高敏感信息的保护准确性和可靠性,进而有利于提高非结构化数据的的管理安全性。
实施例二
请参阅图2,图2是本发明实施例公开的一种非结构化数据的分级分类方法的流程示意图。其中,图2所描述的非结构化数据的分级分类方法可以应用于非结构化数据的分级分类方法可以应用于非结构化数据的分级分类装置中,该装置可以包括分级分类设备、分级分类终端、分级分类系统和服务器中的一种,其中,服务器包括本地服务器或云服务器,且该装置可以应用于数据治理平台,本发明实施例不做限定。如图2所示,该非结构化数据的分级分类方法可以包括以下操作:
201、基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件。
202、基于预先确定的关键词抽取算法,从目标文件所记载文本中抽取出目标文件对应的目标关键词集合。
203、根据目标文件对应的目标关键词集合,确定目标文件对应的关联词集合。
204、对于每种预先确定的标准文件类型,计算目标文件对应的目标关键词集合与该标准文件类型对应的标准关键词集合之间的第一标准相似度。
本发明实施例中,第一标准相似度可以根据每个目标关键词分别与每个标准关键词之间的相似度确定得到的。
205、对于每种标准文件类型,计算目标文件对应的关联词集合与该标准文件类型对应的标准关键词集合之间的第二标准相似度。
本发明实施例中,第二标准相似度可以根据每个关联词分别与每个标准关键词之间的相似度确定得到的。
206、对于每种标准文件类型,基于预先设定的语义分析算法,根据目标关键词集合和该标准文件类型对应的标准关键词集合,确定第一标准相似度的分类权重。
207、根据关联词集合和第一标准相似度的分类权重,确定第二标准相似度的分类权重。
208、对于每种标准文件类型,根据第一标准相似度、第一标准相似度的分类权重、第二标准相似度和第二标准相似度的分类权重,确定目标文件与该标准文件类型的分类相似度。
本发明实施例中,可以通过加权平均的方式,对第一标准相似度、第一标准相似度的分类权重、第二标准相似度和第二标准相似度的分类权重进行计算,得到分类相似度。
209、从所有标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为目标文件的目标文件类型。
210、根据目标文件的目标文件类型和目标文件对应的目标关键词集合,确定目标文件的目标安全保密等级。
本发明实施例中,针对步骤201-步骤203以及步骤209-步骤210的其它详细描述,请参照实施例一中针对步骤101-步骤103以及步骤105-步骤106的详细描述,本发明实施例不再赘述。
可见,实施本发明实施例所描述的方法能够从所有非结构化数据文件中扫描得到目标文件格式的目标文件,并从目标文件中抽取出目标关键词集合,根据目标关键词集合确定出关联词集合,以及根据目标关键词集合和关联词集合与标准文件类型对应的标准关键词集合之间的相似度,确定出目标文件与每个标准文件类型的分类相似度,根据分类相似度筛选出目标文件的目标文件类型,再根据目标文件类型和目标关键词集合确定目标文件的目标安全保密等级,实现了非结构化数据的智能化分级分类,能够提高对非结构化数据的文本内容的分析效率和分析准确性,从而提高非结构化数据的分级分类效率和分级分类准确性,进而提高非结构化数据的管理效率和管理准确性,有利于提高数据治理的可靠性。此外,还能够计算目标关键词集合、关联词集合分别与每种标准文件类型对应的标准关键词之间的标准相似度,并基于语义分析对目标关键词集合和标准关键词集合进行分析,得到第一标准相似度的分类权重,以及根据关联词集合和第一标准相似度的分类权重确定出第二标准相似度的分类权重,再对标准相似度及其分类权重确定出分类相似度,能够提高分类相似度的确定准确性,从而提高对非结构化数据的文本内容的分析准确性,进而有利于提高非结构化数据的分类准确性。
在一个可选的实施例中,对于每种标准文件类型,基于预先设定的语义分析算法,根据目标关键词集合和该标准文件类型对应的标准关键词集合,确定第一标准相似度的分类权重,可以包括以下操作:
基于预先设定的语义分析算法,确定目标关键词集合对应的第一语义主题信息;
对于每种标准文件类型,基于语义分析算法,确定该标准文件类型对应的标准关键词集合对应的第二语义主题信息;
对于每种标准文件类型,确定目标关键词集合对应的第一语义主题信息和该标准文件类型对应的第二语义主题信息之间的主题匹配度;
根据主题匹配度,确定第一标准相似度的分类权重。
其中,第一语义主题信息用于表示目标关键词集合中所有目标关键词在语义上所共同指向的核心信息;其中,可以由目标关键词构建加权图,目标关键词为节点,任意两个目标关键词之间的边所表示的权重用于表示两者之间的关联度,从加权图中筛选出所连接的边的数量最多且与其他目标关键词之间的关联度最高的目标关键词作为第一语义主题信息;也可以根据提取到的所有目标关键词的语义信息关联到目标关键词集合以外的核心词,将核心词作为第一语义主题信息,本发明实施例不做限定。以及,第二语义主题信息用于表示标准关键词集合中所有标准关键词在语义上所共同指向的核心信息;其中,第二语义主题信息的确定方式可以参考第一语义主题信息的确定方式,本发明实施例不再赘述。其中,若主题匹配度越高,第一标准相似度的分类权重就越高。
可见,该可选的实施例能够确定目标关键词集合对应的第一语义主题信息和标准关键词集合对应的第二语义主题信息,并分析第一语义主题信息和第二语义主题信息之间的主题匹配度,根据主体匹配度确定第一标准相似度的分类权重,能够提高文本内容的语义主题的确定准确性,从而提高分类权重的确定准确性,进而有利于提高匹配文本内容对应的类型的准确性,有利于提高非结构化数据的分类准确性。
在该可选的实施例中,可选的,对于每种标准文件类型,确定目标关键词集合对应的第一语义主题信息和该标准文件类型对应的第二语义主题信息之间的主题匹配度,可以包括以下操作:
对于每种标准文件类型,确定目标关键词集合对应的第一语义主题信息的第一主题主体以及该标准文件类型对应的第二语义主题信息的第二主题主体;
判断第一主题主体和第二主题主体是否为同一主体;
当判断出第一主题主体和第二主题主体为同一主体时,提取第一语义主题信息对应的第一情感信息和第二情感信息;
确定第一情感信息和第二情感信息之间的情感差异度;
根据情感差异度,确定第一语义主题信息和第二语义主题信息之间的主题匹配度;
当判断出第一主题主体和第二主题主体为不同主体时,确定第一主题主体和第二主题主体之间的主体差异度;
根据主体差异度,确定第一语义主题信息和第二语义主题信息之间的主题匹配度。
其中,主题主体可以为名词;情感信息用于描述情感信息所对应的主题主体的情感倾向,情感信息可以包括正面情感、中性情感和负面情感中的一种,正面情感用于表示对主题主体进行积极的、正面的描述,中性情感用于表示对主题主体进行主体属性的描述,负面情感用于表示对主题主体进行消极的、负面的描述。示例性的,若表示主题主体的效率增长,则该主题主体对应的情感信息为正面情感。
可见,该可选的实施例还能够分别确定第一语义主题信息和第二语义主题信息中的主题主体,若第一主题主体和第二主题主体相同,则根据两个语义主题信息中的情感信息之间的情感差异度确定主题匹配度,若第一主题主体和第二主题主体不同,则根据主体差异度确定主题匹配度,能够提高主题匹配度的确定灵活性和确定准确性,从而提高分类权重的确定准确性,进而有利于提高非结构化数据的分类准确性。
在该可选的实施例中,可选的,根据关联词集合和第一标准相似度的分类权重,确定第二标准相似度的分类权重,可以包括以下操作:
对于关联词集合中每个关联词,根据该关联词与该关联词相匹配的目标关键词之间的关联度,确定该关联词的分类关联子权重;
根据所有关联词的分类关联子权重,确定关联词集合的分类关联权重;
根据第一标准相似度的分类权重和关联词集合的分类关联权重,得到第二标准相似度的分类权重。
其中,若关联词与目标关键词之间的关联度越高,则表示计算得到的关联词与标准关键词之间的相似度的可靠度越高,从而确定得到的关联词的分类关联子权重越高;可选的,可以通过对所有分类关联子权重进行加权平均的方式得到关联词集合的分类关联权重,也可以通过筛选出满足预设权重条件的分类关联子权重作为关联词集合的分类关联权重,本发明实施例不做限定。
可见,该可选的实施例还能够根据关联度确定每个关联词的分类关联子权重,并根据所有关联词的分类关联子权重确定分关联词集合的分类关联权重,以确定第二标准相似度的分类权重,能够基于关联度确定出关联词和标准关键词之间的第二标准相似度的可靠性,从而提高分类相似度的可靠性,进而有利于提高非结构化数据的分类准确性。
在另一个可选的实施例中,基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,可以包括以下操作:
获取目标文件所记载文本的语言类型;
根据语言类型,对目标文件所记载文本进行语言类型对应的文本预处理,得到目标文件对应的候选词集合;
统计候选词集合中每个候选词对应的特征信息,特征信息包括位置信息、频次信息、词性信息和词跨度信息中的一种或多种的组合,词跨度信息用于表示候选词在目标文件中首次出现位置和末次出现位置之间的距离;
对于每个候选词,根据该候选词对应的特征信息,确定该候选词的候选权重;
从候选词集合中筛选出候选权重大于预设候选权重阈值的至少一个候选词作为目标关键词,得到目标文件对应的目标关键词集合。
其中,位置信息用于表示候选词在目标文件中出现的位置,示例性的,位置信息可以包括标题、摘要、引言、正文等文本中的章节,也可以包括每个文本段落中的行列位置,本发明实施例不做限定;频率信息用于表示候选词在目标文件中出现的次数;词性信息用于表示候选词的词性,词性信息可以包括名词、动词、副词、形容词等词性中的一种。
可见,该可选的实施例能够根据语言类型对目标文件所记载文本进行对应的文本预处理得到候选词集合,并根据统计到的候选词的特征信息确定候选词的候选权重,以及筛选出候选权重大于预设候选权重阈值的候选词作为目标关键词集合,能够提高对非结构化数据的文本内容的识别效率和识别准确性,以及提高了关键词的提取准确性,从而有利于提高对非结构化数据的文本内容的分析效率和分析准确性。
实施例三
请参阅图3,图3是是本发明实施例公开的一种非结构化数据的分级分类装置的结构示意图。其中,图3所描述的非结构化数据的分级分类装置可以包括分级分类设备、分级分类终端、分级分类系统和服务器中的一种,其中,服务器包括本地服务器或云服务器,且该装置可以应用于数据治理平台,本发明实施例不做限定。如图3所示,该非结构化数据的分级分类装置可以包括:
筛选模块301,用于基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,全盘扫描方式用于表示对所有非结构化数据文件的文件头进行扫描,每个非结构化数据文件的文件头包括该非结构化数据文件的文件格式;目标文件格式为不属于预设白名单的文件格式,预设白名单包括至少一种无需进行分类的文件格式;
关键词抽取模块302,用于基于预先确定的关键词抽取算法,从目标文件所记载文本中抽取出目标文件对应的目标关键词集合,目标关键词集合包括至少一个目标关键词,关键词抽取算法包括文本预处理和关键词抽取,文本预处理至少包括分词和去停用词;
确定模块303,用于根据目标文件对应的目标关键词集合,确定目标文件对应的关联词集合,关联词集合包括至少一个关联词,每个关联词与目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;
计算模块304,用于对于每种预先确定的标准文件类型,计算目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到目标文件与该标准文件类型的分类相似度,目标文件对应的语义核心词集合包括目标文件对应的目标关键词集合和目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;
筛选模块301,还用于从所有标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为目标文件的目标文件类型;
确定模块303,还用于根据目标文件的目标文件类型和目标文件对应的目标关键词集合,确定目标文件的目标安全保密等级。
可见,实施本发明实施例所描述的装置能够从所有非结构化数据文件中扫描得到目标文件格式的目标文件,并从目标文件中抽取出目标关键词集合,根据目标关键词集合确定出关联词集合,以及根据目标关键词集合和关联词集合与标准文件类型对应的标准关键词集合之间的相似度,确定出目标文件与每个标准文件类型的分类相似度,根据分类相似度筛选出目标文件的目标文件类型,再根据目标文件类型和目标关键词集合确定目标文件的目标安全保密等级,实现了非结构化数据的智能化分级分类,能够提高对非结构化数据的文本内容的分析效率和分析准确性,从而提高非结构化数据的分级分类效率和分级分类准确性,进而提高非结构化数据的管理效率和管理准确性,有利于提高数据治理的可靠性。
在一个可选的实施例中,确定模块303根据目标文件的目标文件类型和目标文件对应的目标关键词集合,确定目标文件的目标安全保密等级的具体方式可以包括:
获取目标文件的目标文件类型对应的第一安全保密等级;
获取目标文件类型对应的敏感词集合,敏感词集合包括多个敏感词;
比对目标文件对应的目标关键词集合和敏感词集合,得到目标文件对应的敏感比对结果,敏感比对结果用于表示目标关键词集合与敏感词集合之间的重合情况;
根据目标文件对应的敏感比对结果,确定目标文件对应的信息敏感等级;
根据目标文件对应的信息敏感等级,从所有安全保密等级中筛选出与信息敏感等级相匹配的安全保密等级作为目标关键词集合对应的第二安全保密等级;
根据第一安全保密等级和第二安全保密等级,确定目标文件的目标安全保密等级。
可见,实施该可选的实施例所描述的装置能够根据目标文件类型确定第一安全保密等级,并通过比对获取到的敏感词集合和目标关键词集合得到敏感比对结果,根据敏感比对结果确定目标文件对应的信息敏感等级,以及将与信息敏感等级相匹配的安全保密等级作为第二安全保密等级,结合第一安全保密等级和第二安全保密等级确定出目标文件的目标安全保密等级,实现了对文件中的敏感信息的智能化识别,能够提高敏感信息的识别准确性,从而提高文件信息敏感程度的确定准确性,进而提高文件安全保密等级的确定准确性,有利于针对安全保密等级设置准确的保密措施,以提高非结构化数据的的管理安全性。
在该可选的实施例中,可选的,确定模块303根据目标文件对应的敏感比对结果,确定目标文件对应的信息敏感等级的具体方式可以包括:
当敏感比对结果用于表示在目标关键词集合中存在与敏感词集合重合的目标关键词时,从目标关键词集合中筛选出与敏感词集合重合的目标关键词作为敏感关键词;
统计敏感关键词的数量以及每个敏感关键词在目标文件中的出现频次;
根据敏感关键词的数量和所有敏感关键词对应的出现频次,确定目标文件对应的信息敏感等级;
当敏感比对结果用于表示在目标关键词集合中不存在与敏感词集合重合的目标关键词时,计算目标关键词集合与敏感词集合之间的敏感相似度;
根据敏感相似度,确定目标文件对应的信息敏感等级。
可见,实施该可选的实施例所描述的装置还能够在判断出目标关键词集合中存在敏感关键词时,根据统计到的敏感关键词数量和每个敏感关键词的出现频次确定目标文件的信息敏感等级,在判断出目标关键词集合中不存在敏感关键词时,根据目标关键词集合与敏感词集合之间的敏感相似度确定目标文件的信息敏感等级,能够提高确定敏感信息的识别灵活性和识别准确性,从而提高信息敏感等级的确定准确性,进而有利于提高文件安全保密等级的确定准确性。
在该可选的实施例中,进一步可选的,如图4所示,该装置还可以包括:
判断模块305,用于判断目标文件对应的信息敏感等级是否高于预设信息敏感等级;
确定模块303,还用于当判断模块305判断出目标文件对应的信息敏感等级高于预设信息敏感等级时,确定目标文件所记载文本中的敏感文本;
加密模块306,用于基于预先确定的加密算法和加密算法对应的目标密钥对,对目标文件所记载文本中的敏感文本进行加密处理,得到敏感文本对应的加密文本,目标密钥对包括目标私钥和目标公钥;
判断模块305,还用于当检测到目标文件对应的文件读取请求时,判断文件读取请求中所包含的公钥是否为目标公钥;
读取模块307,用于当判断模块305判断出文件读取请求中所包含的公钥为目标公钥时,读取目标文件所记载文本;
读取模块307,还用于当判断模块305判断出文件读取请求中所包含的公钥不为目标公钥时,读取敏感文本对应的加密文本以及目标文件所记载文本中除敏感文本之外的其余文本。
可见,实施该可选的实施例所描述的装置还能够在判断出信息敏感等级高于预设信息敏感等级时确定目标文件中的敏感文本,并对敏感文本进行加密处理得到加密文本,若检测到文件读取请求,且文件读取请求中的公钥为目标公钥时,可以读取目标文件所记载的所有内容,若文件读取请求中的公钥不是目标公钥时,则只能读取加密文本而无法读取敏感文本,实现了对文件中的敏感信息的智能化保护,能够提高敏感信息的加密准确性,从而提高敏感信息的保护准确性和可靠性,进而有利于提高非结构化数据的的管理安全性。
在另一个可选的实施例中,计算模块304对于每种预先确定的标准文件类型,计算目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到目标文件与该标准文件类型的分类相似度的具体方式可以包括:
对于每种预先确定的标准文件类型,计算目标文件对应的目标关键词集合与该标准文件类型对应的标准关键词集合之间的第一标准相似度,以及计算目标文件对应的关联词集合与该标准文件类型对应的标准关键词集合之间的第二标准相似度;
对于每种标准文件类型,基于预先设定的语义分析算法,根据目标关键词集合和该标准文件类型对应的标准关键词集合,确定第一标准相似度的分类权重;
根据关联词集合和第一标准相似度的分类权重,确定第二标准相似度的分类权重;
对于每种标准文件类型,根据第一标准相似度、第一标准相似度的分类权重、第二标准相似度和第二标准相似度的分类权重,确定目标文件与该标准文件类型的分类相似度。
可见,实施该可选的实施例所描述的装置能够计算目标关键词集合、关联词集合分别与每种标准文件类型对应的标准关键词之间的标准相似度,并基于语义分析对目标关键词集合和标准关键词集合进行分析,得到第一标准相似度的分类权重,以及根据关联词集合和第一标准相似度的分类权重确定出第二标准相似度的分类权重,再对标准相似度及其分类权重确定出分类相似度,能够提高分类相似度的确定准确性,从而提高对非结构化数据的文本内容的分析准确性,进而有利于提高非结构化数据的分类准确性。
在该可选的实施例中,可选的,计算模块304对于每种标准文件类型,基于预先设定的语义分析算法,根据目标关键词集合和该标准文件类型对应的标准关键词集合,确定第一标准相似度的分类权重的具体方式可以包括:
基于预先设定的语义分析算法,确定目标关键词集合对应的第一语义主题信息;
对于每种标准文件类型,基于语义分析算法,确定该标准文件类型对应的标准关键词集合对应的第二语义主题信息;
对于每种标准文件类型,确定目标关键词集合对应的第一语义主题信息和该标准文件类型对应的第二语义主题信息之间的主题匹配度;
根据主题匹配度,确定第一标准相似度的分类权重。
可见,实施该可选的实施例所描述的装置还能够确定目标关键词集合对应的第一语义主题信息和标准关键词集合对应的第二语义主题信息,并分析第一语义主题信息和第二语义主题信息之间的主题匹配度,根据主体匹配度确定第一标准相似度的分类权重,能够提高文本内容的语义主题的确定准确性,从而提高分类权重的确定准确性,进而有利于提高匹配文本内容对应的类型的准确性,有利于提高非结构化数据的分类准确性。
在该可选的实施例中,可选的,计算模块304根据关联词集合和第一标准相似度的分类权重,确定第二标准相似度的分类权重的具体方式可以包括:
对于关联词集合中每个关联词,根据该关联词与该关联词相匹配的目标关键词之间的关联度,确定该关联词的分类关联子权重;
根据所有关联词的分类关联子权重,确定关联词集合的分类关联权重;
根据第一标准相似度的分类权重和关联词集合的分类关联权重,得到第二标准相似度的分类权重。
可见,实施该可选的实施例所描述的装置还能够根据关联度确定每个关联词的分类关联子权重,并根据所有关联词的分类关联子权重确定分关联词集合的分类关联权重,以确定第二标准相似度的分类权重,能够基于关联度确定出关联词和标准关键词之间的第二标准相似度的可靠性,从而提高分类相似度的可靠性,进而有利于提高非结构化数据的分类准确性。
实施例四
请参阅图5,图5是本发明实施例公开的又一种非结构化数据的分级分类装置的结构示意图。如图5所示,该非结构化数据的分级分类装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的非结构化数据的分级分类方法中的步骤。
实施例五
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的非结构化数据的分级分类方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的非结构化数据的分级分类方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种非结构化数据的分级分类方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (9)

1.一种非结构化数据的分级分类方法,其特征在于,所述方法包括:
基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,所述全盘扫描方式用于表示对所有所述非结构化数据文件的文件头进行扫描,每个所述非结构化数据文件的文件头包括该非结构化数据文件的文件格式;所述目标文件格式为不属于预设白名单的文件格式,所述预设白名单包括至少一种无需进行分类的文件格式;
基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,所述目标关键词集合包括至少一个目标关键词,所述关键词抽取算法包括文本预处理和关键词抽取,所述文本预处理至少包括分词和去停用词;
根据所述目标文件对应的目标关键词集合,确定所述目标文件对应的关联词集合,所述关联词集合包括至少一个关联词,每个所述关联词与所述目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;
对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到所述目标文件与该标准文件类型的分类相似度,所述目标文件对应的语义核心词集合包括所述目标文件对应的目标关键词集合和所述目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;
从所有所述标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为所述目标文件的目标文件类型;
根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级;
其中,所述根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级,包括:
获取所述目标文件的目标文件类型对应的第一安全保密等级;
获取所述目标文件类型对应的敏感词集合,所述敏感词集合包括多个敏感词;
比对所述目标文件对应的目标关键词集合和所述敏感词集合,得到所述目标文件对应的敏感比对结果,所述敏感比对结果用于表示所述目标关键词集合与所述敏感词集合之间的重合情况;
根据所述目标文件对应的敏感比对结果,确定所述目标文件对应的信息敏感等级;
根据所述目标文件对应的信息敏感等级,从所有安全保密等级中筛选出与所述信息敏感等级相匹配的安全保密等级作为所述目标关键词集合对应的第二安全保密等级;
根据所述第一安全保密等级和所述第二安全保密等级,确定所述目标文件的目标安全保密等级。
2.根据所述权利要求1所述的非结构化数据的分级分类方法,其特征在于,所述根据所述目标文件对应的敏感比对结果,确定所述目标文件对应的信息敏感等级,包括:
当所述敏感比对结果用于表示在所述目标关键词集合中存在与所述敏感词集合重合的目标关键词时,从所述目标关键词集合中筛选出与所述敏感词集合重合的目标关键词作为敏感关键词;
统计所述敏感关键词的数量以及每个所述敏感关键词在所述目标文件中的出现频次;
根据所述敏感关键词的数量和所有所述敏感关键词对应的出现频次,确定所述目标文件对应的信息敏感等级;
当所述敏感比对结果用于表示在所述目标关键词集合中不存在与所述敏感词集合重合的目标关键词时,计算所述目标关键词集合与所述敏感词集合之间的敏感相似度;
根据所述敏感相似度,确定所述目标文件对应的信息敏感等级。
3.根据权利要求1或2所述的非结构化数据的分级分类方法,其特征在于,所述方法还包括:
判断所述目标文件对应的信息敏感等级是否高于预设信息敏感等级;
当判断出所述目标文件对应的信息敏感等级高于所述预设信息敏感等级时,确定所述目标文件所记载文本中的敏感文本;
基于预先确定的加密算法和所述加密算法对应的目标密钥对,对所述目标文件所记载文本中的敏感文本进行加密处理,得到所述敏感文本对应的加密文本,所述目标密钥对包括目标私钥和目标公钥;
当检测到所述目标文件对应的文件读取请求时,判断所述文件读取请求中所包含的公钥是否为所述目标公钥;
当判断出所述文件读取请求中所包含的公钥为所述目标公钥时,读取所述目标文件所记载文本;
当判断出所述文件读取请求中所包含的公钥不为所述目标公钥时,读取所述敏感文本对应的加密文本以及所述目标文件所记载文本中除所述敏感文本之外的其余文本。
4.根据权利要求1所述的非结构化数据的分级分类方法,其特征在于,所述对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到所述目标文件与该标准文件类型的分类相似度,包括:
对于每种预先确定的标准文件类型,计算所述目标文件对应的目标关键词集合与该标准文件类型对应的标准关键词集合之间的第一标准相似度,以及计算所述目标文件对应的关联词集合与该标准文件类型对应的标准关键词集合之间的第二标准相似度;
对于每种所述标准文件类型,基于预先设定的语义分析算法,根据所述目标关键词集合和该标准文件类型对应的标准关键词集合,确定所述第一标准相似度的分类权重;
根据所述关联词集合和所述第一标准相似度的分类权重,确定所述第二标准相似度的分类权重;
对于每种所述标准文件类型,根据所述第一标准相似度、所述第一标准相似度的分类权重、所述第二标准相似度和所述第二标准相似度的分类权重,确定所述目标文件与该标准文件类型的分类相似度。
5.根据权利要求4所述的非结构化数据的分级分类方法,其特征在于,所述对于每种所述标准文件类型,基于预先设定的语义分析算法,根据所述目标关键词集合和该标准文件类型对应的标准关键词集合,确定所述第一标准相似度的分类权重,包括:
基于预先设定的语义分析算法,确定所述目标关键词集合对应的第一语义主题信息;
对于每种所述标准文件类型,基于所述语义分析算法,确定该标准文件类型对应的标准关键词集合对应的第二语义主题信息;
对于每种所述标准文件类型,确定所述目标关键词集合对应的第一语义主题信息和该标准文件类型对应的第二语义主题信息之间的主题匹配度;
根据所述主题匹配度,确定所述第一标准相似度的分类权重。
6.根据权利要求4或5所述的非结构化数据的分级分类方法,其特征在于,所述根据所述关联词集合和所述第一标准相似度的分类权重,确定所述第二标准相似度的分类权重,包括:
对于所述关联词集合中每个所述关联词,根据该关联词与该关联词相匹配的目标关键词之间的关联度,确定该关联词的分类关联子权重;
根据所有所述关联词的分类关联子权重,确定所述关联词集合的分类关联权重;
根据所述第一标准相似度的分类权重和所述关联词集合的分类关联权重,得到所述第二标准相似度的分类权重。
7.一种非结构化数据的分级分类装置,其特征在于,所述装置包括:
筛选模块,用于基于全盘扫描方式,从所有非结构化数据文件中筛选出文件格式为目标文件格式的目标文件;其中,所述全盘扫描方式用于表示对所有所述非结构化数据文件的文件头进行扫描,每个所述非结构化数据文件的文件头包括该非结构化数据文件的文件格式;所述目标文件格式为不属于预设白名单的文件格式,所述预设白名单包括至少一种无需进行分类的文件格式;
关键词抽取模块,用于基于预先确定的关键词抽取算法,从所述目标文件所记载文本中抽取出所述目标文件对应的目标关键词集合,所述目标关键词集合包括至少一个目标关键词,所述关键词抽取算法包括文本预处理和关键词抽取,所述文本预处理至少包括分词和去停用词;
确定模块,用于根据所述目标文件对应的目标关键词集合,确定所述目标文件对应的关联词集合,所述关联词集合包括至少一个关联词,每个所述关联词与所述目标关键词集合的其中一个目标关键词之间的关联度大于或等于预设关联度;
计算模块,用于对于每种预先确定的标准文件类型,计算所述目标文件对应的语义核心词集合与该标准文件类型对应的标准关键词集合之间的相似度,得到所述目标文件与该标准文件类型的分类相似度,所述目标文件对应的语义核心词集合包括所述目标文件对应的目标关键词集合和所述目标文件对应的关联词集合,该标准文件类型对应的标准关键词集合包括至少一个该标准文件类型对应的标准关键词;
所述筛选模块,还用于从所有所述标准文件类型中筛选出分类相似度大于预设相似度阈值的一种标准文件类型作为所述目标文件的目标文件类型;
所述确定模块,还用于根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级;
其中,所述确定模块根据所述目标文件的目标文件类型和所述目标文件对应的目标关键词集合,确定所述目标文件的目标安全保密等级的具体方式包括:
获取所述目标文件的目标文件类型对应的第一安全保密等级;
获取所述目标文件类型对应的敏感词集合,所述敏感词集合包括多个敏感词;
比对所述目标文件对应的目标关键词集合和所述敏感词集合,得到所述目标文件对应的敏感比对结果,所述敏感比对结果用于表示所述目标关键词集合与所述敏感词集合之间的重合情况;
根据所述目标文件对应的敏感比对结果,确定所述目标文件对应的信息敏感等级;
根据所述目标文件对应的信息敏感等级,从所有安全保密等级中筛选出与所述信息敏感等级相匹配的安全保密等级作为所述目标关键词集合对应的第二安全保密等级;
根据所述第一安全保密等级和所述第二安全保密等级,确定所述目标文件的目标安全保密等级。
8.一种非结构化数据的分级分类装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-6任一项所述的非结构化数据的分级分类方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-6任一项所述的非结构化数据的分级分类方法。
CN202310987512.0A 2023-08-08 2023-08-08 一种非结构化数据的分级分类方法及装置 Active CN116701641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310987512.0A CN116701641B (zh) 2023-08-08 2023-08-08 一种非结构化数据的分级分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310987512.0A CN116701641B (zh) 2023-08-08 2023-08-08 一种非结构化数据的分级分类方法及装置

Publications (2)

Publication Number Publication Date
CN116701641A CN116701641A (zh) 2023-09-05
CN116701641B true CN116701641B (zh) 2023-11-17

Family

ID=87834299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310987512.0A Active CN116701641B (zh) 2023-08-08 2023-08-08 一种非结构化数据的分级分类方法及装置

Country Status (1)

Country Link
CN (1) CN116701641B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117424731B (zh) * 2023-10-19 2024-06-25 陕西陕煤曹家滩矿业有限公司 基于大数据的网络安全监测与防御方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102156287B1 (ko) * 2020-03-20 2020-09-15 주식회사 비네아 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법
CN115935412A (zh) * 2022-11-18 2023-04-07 华信咨询设计研究院有限公司 一种非结构化数据自动分类分级方法及系统
CN116304008A (zh) * 2022-11-18 2023-06-23 杭州安恒信息技术股份有限公司 基于关键词的文本分类方法、装置和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11157816B2 (en) * 2018-10-17 2021-10-26 Capital One Services, Llc Systems and methods for selecting and generating log parsers using neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102156287B1 (ko) * 2020-03-20 2020-09-15 주식회사 비네아 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법
CN115935412A (zh) * 2022-11-18 2023-04-07 华信咨询设计研究院有限公司 一种非结构化数据自动分类分级方法及系统
CN116304008A (zh) * 2022-11-18 2023-06-23 杭州安恒信息技术股份有限公司 基于关键词的文本分类方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
非结构化文本的自动分类检索平台的研究与实现;谢子超;;软件(11);第112-114页 *

Also Published As

Publication number Publication date
CN116701641A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN109460455B (zh) 一种文本检测方法及装置
US8938384B2 (en) Language identification for documents containing multiple languages
RU2517368C2 (ru) Способ и устройство определения и оценки значимости слов
Iqbal et al. E-mail authorship verification for forensic investigation
EP2657884A2 (en) Identifying multimedia objects based on multimedia fingerprint
CN116701641B (zh) 一种非结构化数据的分级分类方法及装置
CN111522919A (zh) 一种文本处理方法、电子设备和存储介质
WO2023272850A1 (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN112214984A (zh) 内容抄袭识别方法、装置、设备及存储介质
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
US20080159585A1 (en) Statistical Categorization of Electronic Messages Based on an Analysis of Accompanying Images
CN114722141A (zh) 文本检测方法及装置
CN110929525A (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
Choi et al. Using topic modeling and adversarial neural networks for fake news video detection
CN114048740B (zh) 敏感词检测方法、装置及计算机可读存储介质
CN114117038A (zh) 一种文档分类方法、装置、系统及电子设备
CN111612284A (zh) 数据的处理方法、装置及设备
CN117195319A (zh) 保函文件电子件的验真方法、装置、电子设备和介质
CN112559679B (zh) 政法新媒体传播力的检测方法、装置、设备及存储介质
CN114049215A (zh) 异常交易识别方法、装置及应用
Hisham et al. An innovative approach for fake news detection using machine learning
CN112561714A (zh) 基于nlp技术的核保风险预测方法、装置及相关设备
CN112329468B (zh) 异质关系网络的构建方法、装置、计算机设备及存储介质
CN116719942B (zh) 数据资产分类方法、装置、计算机设备和计算机存储介质
CN117786121B (zh) 一种基于人工智能的档案鉴定方法以及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant