CN116628211B - 数据分类方法及装置、存储介质及电子设备 - Google Patents

数据分类方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116628211B
CN116628211B CN202310916605.4A CN202310916605A CN116628211B CN 116628211 B CN116628211 B CN 116628211B CN 202310916605 A CN202310916605 A CN 202310916605A CN 116628211 B CN116628211 B CN 116628211B
Authority
CN
China
Prior art keywords
data
classification
semantic
determining
sensitive element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310916605.4A
Other languages
English (en)
Other versions
CN116628211A (zh
Inventor
刘汉生
殷悦扬
钱栋军
柳洋
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202310916605.4A priority Critical patent/CN116628211B/zh
Publication of CN116628211A publication Critical patent/CN116628211A/zh
Application granted granted Critical
Publication of CN116628211B publication Critical patent/CN116628211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据分类方法及装置、存储介质及电子设备,涉及大数据技术领域,该方法包括:对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略;确定与所述敏感要素在语义相似度上满足设定阈值的相似词,将相似词与所述敏感要素进行关联,确定政务敏感要素语义库;将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略;根据所述匹配得到的敏感要素的所述出现频率以及所述对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果;政务数据的分级分类结果用于对政务数据执行对应的数据保护策略。

Description

数据分类方法及装置、存储介质及电子设备
技术领域
本公开涉及大数据技术领域,尤其涉及一种数据分类方法及装置、存储介质及电子设备。
背景技术
随着数据安全的发展及相关数据保护规定的发布,以促进数据共享应用为目标,推动数据分类分级管理,强化数据安全风险评估、监测预警和应急处置显得尤为重要。建立数据资产分类分级,掌握数据重要程度,是风险评估的基础。
政务数据中既有需要加强保护的敏感信息,也有需要向社会公布的公开信息,对于政务数据的分类分级是亟待解决的。
现阶段对于政务数据的分类,一种方式是采用人工分类的方式,由于政务数据的复杂性需要前期对人工投入大量培训,这种方式需要耗费大量的人力成本进行数据鉴别分类。
另一种方式是利用含有规则模型的数据分类筛选系统,利用分类筛选系统实现数据的自动化分类;但这种方式下,数据分类筛选系统中的规则模型,需要针对政务数据梳理大量正则化表达式进行数据筛选过滤,但规则模型容易被规避导致要素收集不全,造成政务数据分类错误,带来一系列数据安全泄露风险。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供一种数据分类方法及装置、存储介质及电子设备,至少在一定程度上克服由于相关技术的成本过高和分类准确度低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供了一种数据分类方法,包括:对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略;确定与所述敏感要素在语义相似度上满足设定阈值的相似词,将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库;将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略;根据所述匹配得到的敏感要素的所述出现频率以及所述对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果;所述政务数据的分级分类结果用于对所述政务数据执行对应的数据保护策略。
在一些实施例中,对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略,包括:提取数据保护法律法规类信息中具有分类等级的文本和不具有分类等级的文本,确定数据分级策略;对所述数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度,记录所述敏感要素的来源;根据所述敏感要素的来源,关联所述敏感要素与所述数据分级策略,确定敏感要素及对应的语义强度和数据分级策略。
在一些实施例中,对所述数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度,包括:对所述数据保护法律法规类信息进行停用词过滤和分词处理后进行文本解析和实体识别,确定敏感要素;提取所述敏感要素的约束程度用词,确定敏感要素对应的语义强度。
在一些实施例中,确定与所述敏感要素在语义相似度上满足设定阈值的相似词,包括:根据中文词库与所述敏感要素,建立并训练得到中文通用词向量相似度模型;所述中文词库包括现有中文词汇;基于所述中文通用词向量相似度模型,确定所述敏感要素的衍生词;所述衍生词与所述敏感要素在语义上存在相似或相关的关系;计算所述衍生词与所述敏感要素的语义相似度;将语义相似度满足设定阈值的所述衍生词确定为所述敏感要素的相似词。
在一些实施例中,将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库,包括:将所述相似词与所述敏感要素进行关联,以使所述相似词具有对应的语义强度和数据分级策略;根据所述敏感要素及对应的语义强度和数据分级策略和所述相似词及对应的语义强度和数据分级策略,确定政务敏感要素语义库。
在一些实施例中,将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略,包括:若政务数据为关系型数据,则提取所述政务数据的元数据作为数据资产;若政务数据为非关系型数据,则利用正则匹配和命名实体识别的方式将所述政务数据处理为数据资产;将所述数据资产与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略。
在一些实施例中,所述数据分级策略,包括:依据为具有分类等级文本的分级策略,依据为不具有分类等级文本的分级策略;根据所述匹配得到的敏感要素的所述出现频率以及所述对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果,包括:若所述匹配到的所述敏感要素对应的数据分级策略是所述依据为具有分类等级文本的分级策略,则将所述敏感要素在所述依据为具有分类等级文本的分级策略中对应的分类等级结果确定为所述政务数据的分级分类结果;若所述匹配到的所述敏感要素对应的数据分级策略是所述依据为不具有分类等级文本的分级策略,则根据所述匹配得到的敏感要素的出现频率以及对应的语义强度和依据为不具有分类等级文本的分级策略,确定所述政务数据的分级分类结果。
在一些实施例中,根据所述匹配得到的敏感要素的出现频率以及对应的语义强度和依据为不具有分类等级文本的分级策略,确定所述政务数据的分级分类结果,包括:根据所述匹配得到的敏感要素的出现频率,确定所述敏感要素平均出现频率;根据匹配得到的敏感要素对应的语义强度和依据为不具有分类等级文本的分级策略,确定依据为不具有分类等级文本的分级策略对应的分类等级结果和依据为不具有分类等级文本的分级策略对所述敏感要素的语义强度约束;设定最高匹配等级和最高语义强度,根据所述匹配得到的敏感要素的出现频率、所述敏感要素平均出现频率、依据为不具有分类等级文本的分级策略对应的分类等级结果和依据为不具有分类等级文本的分级策略对所述敏感要素的语义强度约束,确定所述政务数据的数据保护分级分类结果。
在一些实施例中,所述数据保护法律法规类信息,包括,法律法规文本,数据泄露案例,专业专著论文;对所述政务数据执行对应的数据保护策略,包括:基于文本相似度,确定所述匹配得到的敏感要素对应的数据泄露案例;提取所述数据泄露案例的整改信息,确定所述数据泄露案例的分级分类结果;将所述数据泄露案例的分级分类结果、所述匹配得到的敏感要素对应的法律法规文本和专业专著论文作为支撑数据;根据所述政务数据的分级分类结果,确定所述政务数据对应的数据保护策略;执行所述政务数据对应的数据保护策略,输出所述支撑数据。
根据本公开的另一个方面,还提供了一种数据分类装置,包括:解析模块,用于对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略;政务敏感要素语义库确定模块,用于确定与所述敏感要素在语义相似度上满足设定阈值的相似词,将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库;匹配模块,用于将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略;政务数据的分级分类结果确定模块,用于根据所述匹配得到的敏感要素的所述出现频率以及对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果;所述政务数据的分级分类结果用于对所述政务数据执行对应的数据保护策略。
根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据分类方法。
根据本公开的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据分类方法。
根据本公开的另一个方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任意一项的数据分类方法。
本公开的实施例中提供的数据分类方法及装置、存储介质及电子设备,对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略,接着确定与敏感要素在语义相似度上满足设定阈值的相似词,将相似词与敏感要素进行关联,确定政务敏感要素语义库;针对现有方案中要素收集不全规则易绕过等问题,本公开利用对语义相似度设定阈值的方式得到敏感要素的相似词,不仅能匹配已有的敏感要素,还可以针对可能绕过的相似词进行精准匹配,扩展了敏感要素的识别范围,增强了自适应性,进一步的,将政务数据与政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在政务数据中的出现频率以及对应的语义强度和数据分级策略;来确定政务数据的分级分类结果,对政务数据执行对应的数据保护策略;本公开从敏感要素、语义强度和数据分级策略多个维度进行数据分级分类评估,避免采用大量正则化表达式,优化了数据分级分类的方式,可以自动化识别数据的分级分类结果,优化识别准确率,实现政务数据按照对应的数据保护保护策略进行保护,提升数据分类的准确度,降低数据泄露风险。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开实施例中一种数据分类方法的系统结构的示意图。
图2示出本公开实施例中一种数据分类方法的示意图。
图3示出本公开实施例中一种数据分类方法的对数据保护法律法规类信息进行文本解析的过程示意图。
图4示出本公开实施例中一种数据分类方法的数据分类分级标准规范划分图。
图5示出本公开实施例中一种数据分类方法的确定敏感要素及对应的语义强度过程示意图。
图6示出本公开实施例中一种数据分类方法的计算相似词过程示意图。
图7示出本公开实施例中一种数据分类方法的确定政务敏感要素语义库过程示意图。
图8示出本公开实施例中一种数据分类方法的政务数据与政务敏感要素语义库匹配过程示意图。
图9示出本公开实施例中一种数据分类方法的确定政务数据的分级分类结果一实施例过程示意图。
图10示出本公开实施例中一种数据分类方法的确定政务数据的分级分类结果另一实施例过程示意图。
图11示出本公开实施例中一种数据分类方法的对政务数据执行对应的数据保护策略过程示意图。
图12示出本公开实施例中一种数据分类装置示意图。
图13示出本公开实施例中一种数据分类方法的计算机电子设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
为便于理解,在介绍本公开实施例之前,首先对本公开实施例中涉及到的几个名词进行解释如下。
下面结合附图,对本公开实施例的具体实施方式进行详细说明。
图1示出了可以应用本公开实施例中一种数据分类方法的示例性应用系统架构示意图。如图1所示,该系统架构可以包括终端设备101、网络102和服务器103。
网络102用以在终端设备101和服务器103之间提供通信链路的介质,可以是有线网络,也可以是无线网络。
可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(ExtensibleMarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(InternetProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
终端设备101可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、增强现实设备、虚拟现实设备等。
可选地,不同的终端设备101中安装的应用程序的客户端是相同的,或基于不同操作系统的同一类型应用程序的客户端。基于终端平台的不同,该应用程序的客户端的具体形态也可以不同,比如,该应用程序客户端可以是手机客户端、PC客户端等。
服务器103可以是提供各种服务的服务器,例如对用户利用终端设备101所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
可选地,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本领域技术人员可以知晓,图1中的终端设备、网络和服务器的数量仅仅是示意性的,根据实际需要,可以具有任意数目的终端设备、网络和服务器。本公开实施例对此不作限定。
在上述系统架构下,本公开实施例中提供了一种数据分类方法,该方法可以由任意具备计算处理能力的电子设备执行。
在一些实施例中,本公开实施例中提供的一种数据分类方法可以由上述系统架构的终端设备执行;在另一些实施例中,本公开实施例中提供的一种数据分类方法可以由上述系统架构中的服务器执行;在另一些实施例中,本公开实施例中提供的一种数据分类方法可以由上述系统架构中的终端设备和服务器通过交互的方式来实现。
图2示出本公开实施例中一种数据分类方法流程图,如图2所示,本公开实施例中提供的数据分类方法包括如下步骤:
S202:对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略;
S204:确定与所述敏感要素在语义相似度上满足设定阈值的相似词,将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库;
S206:将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略;
S208:根据所述匹配得到的敏感要素的所述出现频率以及所述对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果;所述政务数据的分级分类结果用于对所述政务数据执行对应的数据保护策略。
本公开实施例利一方面用对语义相似度设定阈值的方式得到敏感要素的相似词,不仅能匹配已有的敏感要素,还可以针对可能绕过的相似词进行精准匹配,扩展了敏感要素的识别范围,避免了要素收集不全的问题,增强了自适应性,另一方面,从敏感要素、语义强度和数据分级策略多个维度进行数据分级分类评估,避免采用大量正则化表达式,优化了数据分级分类的方式,可以自动化识别数据的分级分类结果,优化识别准确率,实现政务数据按照对应的数据保护保护策略进行保护,提升数据分类的准确度,降低数据泄露风险。本公开中的敏感要素,在本公开中可以是指政务数据中不能对外公开的数据,例如姓名、证件类型、证件号码和金融账户及账户交易信息等,敏感要素需要按照不同的数据保护策略进行保护。
如图3所示,在一个实施例中,在上述步骤S202对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略,可以包括:
S302:提取数据保护法律法规类信息中具有分类等级的文本和不具有分类等级的文本,确定数据分级策略;
S304:对所述数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度,记录所述敏感要素的来源;
S306:根据所述敏感要素的来源,关联所述敏感要素与所述数据分级策略,确定敏感要素及对应的语义强度和数据分级策略。
上述的数据保护法律法规类信息,一般可以包括法律法规文本、数据泄露案例和专业专著论文。在法律法规文本、数据泄露案例和专业专著论文中,一部分对于数据保护以及分类分级具有相应的分类等级,例如《信息安全技术、网络数据分类分级要求》这一相关规定中,对于信息安全以及网络数据具体规定了分类分级的条件和标准,另一部分则不具有分类等级,例如“某公司员工信息泄露案例”中,则是对具体的数据泄露情况进行描述,并附有对应的处理整改手段以及依据的相关规定,并不具有分类等级。因此,对于数据保护法律法规类信息,首先需要提取以上的具有分类等级的文本和不具有分类等级的文本,来确定数据分级策略。具体的,若数据保护法律法规类信息为具有分类等级的文本,则可以直接将该文本中的分类等级确定为依据为具有分类等级文本的分级策略。图4示出了一种数据分类分级标准规范划分图,上述的具有分类等级的文本,可以分为国家级标准、地方级标准和行业级标准。若数据保护法律法规类信息为不具有分类等级的文本,则对不具有分类等级的文本进行粗粒度数据筛选,得到依据为不具有分类等级文本的分级策略。不具有分类等级的文本,可以是上述的数据泄露案例,也可以是数据保护领域的专业专著论文。下一步,对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度,并记录敏感要素的来源;最后,根据敏感要素的来源,关联敏感要素与数据分级策略,确定敏感要素及对应的语义强度和数据分级策略。
如图5所示,上述步骤S304对所述数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度,可以包括:
S502:对所述数据保护法律法规类信息进行停用词过滤和分词处理后进行文本解析和实体识别,确定敏感要素;
S504:提取所述敏感要素的约束程度用词,确定敏感要素对应的语义强度。
实施例中,由于数据保护法律法规类信息中具有一些干扰性的描述,为了保证敏感要素解析识别的准确性,需要对数据保护法律法规类信息进行停用词过滤和分词处理,过滤掉干扰词语,得到处理完成的数据保护法律法规类信息。接下来对处理完成的数据保护法律法规类信息,利用文本解析算法和实体识别算法进行文本解析和实体识别,得到敏感要素。上述的文本解析算法,例如可以采用TF-IDF(Term Frequency–Inverse DocumentFrequency)算法、TextRank算法、LDA(Linear Discriminant Analysis)主题模型算法以及Word2Vec算法等。上述的实体识别算法,例如可以采用BERT+CRF算法、BI-LSTM+CRF算法以及BERT+LSTM+CRF算法等。上述的BERT为基于Transformer的双向编码器表示(BiDirectional Encoder Rpresentation From Transformers);上述的CRF为条件随机场(Conditional Random Field);上述的LSTM为长短期记忆网络(Long Short-TermMemory);BI-LSTM为双向长短期记忆网络(Bi-directional Long Short-Term Memory)。在得到敏感要素后,以敏感要素为依据,提取敏感要素的约束程度用词,确定敏感要素对应的语义强度。上述语义强度,可以是:禁止、建议和要求等。语义强度,用于约束敏感要素。在另一个实施例中,还可以利用人工对敏感要素和语义强度进行核查。例如,可以采用手动的方式对部分不具有分类等级的文本进行标注,得到敏感要素和语义强度,与上述利用文本解析和实体识别得到的敏感要素和语义强度进行比较核查,以核查文本解析和实体识别的准确性。
如图6所示,上述步骤S204中的确定与所述敏感要素在语义相似度上满足设定阈值的相似词,可以包括:
S602:根据中文词库与所述敏感要素,建立并训练得到中文通用词向量相似度模型;所述中文词库包括现有中文词汇;
S604:基于所述中文通用词向量相似度模型,确定所述敏感要素的衍生词;所述衍生词与所述敏感要素在语义上存在相似或相关的关系;
S606:计算所述衍生词与所述敏感要素的语义相似度;
S608:将语义相似度满足设定阈值的所述衍生词确定为所述敏感要素的相似词。
实施例中,在采用含有规则模型的数据分类筛选系统进行数据分级时,由于正则化表达式通常是根据经验设置,这样设置的正则化表达式有可能会被绕过或者故意规避,导致要素收集不全;为了解决以上问题,本实施例通过计算衍生词的相似度得到满足阈值的相似词,既可以匹配已有的敏感要素,还可以针对可能绕过的相似词进行精准匹配,扩展了敏感要素的识别范围,增强了自适应性。具体的,首先需要根据中文词库与敏感要素,建立模型;上述的中文词库,例如可以是CCL(Center for Chinese Linguistics)语料库,Sogou词库等。利用中文词库中的中文词汇,对上述模型进行训练,得到中文通用词向量相似度模型。接着,利用中文通用词向量相似度模型,衍生出敏感要素的衍生词。例如,当敏感要素为账户时,衍生词可以是:账号,账户号,卡号,号码,户号,户主等。这些衍生词在语义上与敏感要素存在相似或相关的关系。下一步,计算衍生词与敏感要素的语义相似度,将语义相似度满足设定阈值的衍生词确定为敏感要素的相似词。上述设定阈值的大小,一方面需要保证敏感要素的准确性,另一方面还需要考虑到相似词的覆盖范围。例如,将设定阈值设置为0.95,则语义相似度大于0.95的衍生词即确定为敏感要素的相似词。
实施例中,按照如下方式,计算衍生词与敏感要素的语义相似度:
其中,为衍生词与敏感要素的语义相似度;/>为第/>个衍生词;/>为第/>个敏感要素;/>为衍生词数量,/>;/>为乘法。
例如,通过上述语义相似度的计算,将敏感要素“账户”的相似词确定为“账户、账户号、卡号”。
如图7所示,上述步骤S204中的将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库,可以包括:
S702:将所述相似词与所述敏感要素进行关联,以使所述相似词具有对应的语义强度和数据分级策略;
S704:根据所述敏感要素及对应的语义强度和数据分级策略和所述相似词及对应的语义强度和数据分级策略,确定政务敏感要素语义库。
实施例中,在上述计算得到相似词后,将相似词与敏感要素进行关联,这样,敏感要素具有的语义强度和数据分级策略,可以相应的关联到相似词上,使得相似词也具有对应的语义强度和数据分级策略;接着,利用敏感要素及对应的语义强度和数据分级策略和相似词及对应的语义强度和数据分级策略,建立政务敏感要素语义库。
如图8所示,上述步骤S206的将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略,可以包括:
S802:若政务数据为关系型数据,则提取所述政务数据的元数据作为数据资产;
S804:若政务数据为非关系型数据,则利用正则匹配和命名实体识别的方式将所述政务数据处理为数据资产;
S806:将所述数据资产与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略。
实施例中,政务数据按照数据类型,可以分为关系型数据和非关系型数据,对于关系型数据,可以直接提取政务数据的元数据作为数据资产以进行扫描。对于非关系型数据,例如文本数据,主要包括证件号码手机号等识别难度不高的时候,可以使用正则匹配的方式进行提取处理得到数据资产,对于其他类型的非关系型数据,可以使用命名实体识别算法(NER ,Named Entity Recognition)识别其中包含的数据类型作为数据资产以进行评估扫描;上述的正则匹配,可以采用非确定型有限状态自动机算法(NFA,NondeterministicFinite Automata)。在得到数据资产后,将数据资产与政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在政务数据中的出现频率以及匹配得到的敏感要素对应的语义强度和数据分级策略。
如图9所示,上述的数据分级策略,包括:依据为具有分类等级文本的分级策略,依据为不具有分类等级文本的分级策略;
上述步骤S208的根据所述匹配得到的敏感要素的所述出现频率以及所述对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果,可以包括:
S902:若所述匹配到的所述敏感要素对应的数据分级策略是所述依据为具有分类等级文本的分级策略,则将所述敏感要素在所述依据为具有分类等级文本的分级策略中对应的分类等级结果确定为所述政务数据的分级分类结果;
S904:若所述匹配到的所述敏感要素对应的数据分级策略是所述依据为不具有分类等级文本的分级策略,则根据所述匹配得到的敏感要素的出现频率以及对应的语义强度和依据为不具有分类等级文本的分级策略,确定所述政务数据的分级分类结果。
实施例中,数据分级策略分为依据为具有分类等级文本的分级策略与依据为不具有分类等级文本的分级策略,若匹配到的敏感要素对应的数据分级策略是依据为具有分类等级文本的分级策略,则将敏感要素在依据为具有分类等级文本的分级策略中对应的分类等级结果确定为政务数据的分级分类结果;例如,当依据为具有分类等级文本的分级策略包括国家级标准、地方级标准和行业级标准三个约束等级时,若敏感要素在依据为具有分类等级文本的分级策略中对应的分类等级结果为国家级标准约束等级时,则将敏感要素在国家级标准作为约束等级时对应的分类等级结果确定为政务数据的分级分类结果。对应的,若敏感要素的约束等级为地方级标准或行业级标准时,政务数据的分级分类结果为对应地方级标准或行业级标准的分类等级结果。若匹配到的敏感要素对应的数据分级策略是依据为不具有分类等级文本的分级策略,则根据匹配得到的敏感要素的出现频率以及对应的语义强度和依据为不具有分类等级文本的分级策略,确定政务数据的分级分类结果。
如图10所示,上述步骤S904中的根据所述匹配得到的敏感要素的出现频率以及对应的语义强度和依据为不具有分类等级文本的分级策略,确定所述政务数据的分级分类结果,可以包括:
S1002:根据所述匹配得到的敏感要素的出现频率,确定所述敏感要素平均出现频率;
S1004:根据匹配得到的敏感要素对应的语义强度和依据为不具有分类等级文本的分级策略,确定依据为不具有分类等级文本的分级策略对应的分类等级结果和依据为不具有分类等级文本的分级策略对所述敏感要素的语义强度约束;
S1006:设定最高匹配等级和最高语义强度,根据所述匹配得到的敏感要素的出现频率、所述敏感要素平均出现频率、依据为不具有分类等级文本的分级策略对应的分类等级结果和依据为不具有分类等级文本的分级策略对所述敏感要素的语义强度约束,确定所述政务数据的数据保护分级分类结果。
实施例中,在计算政务数据的分级分类结果时,首先利用匹配得到的敏感要素的出现频率,计算敏感要素平均出现频率,接下来根据匹配得到的敏感要素对应的语义强度和依据为不具有分类等级文本的分级策略,确定依据为不具有分类等级文本的分级策略对应的分类等级结果和依据为不具有分类等级文本的分级策略对敏感要素的语义强度约束;最后,设定最高匹配等级和最高语义强度,根据匹配得到的敏感要素的出现频率、敏感要素平均出现频率、依据为不具有分类等级文本的分级策略对应的分类等级结果和依据为不具有分类等级文本的分级策略对敏感要素的语义强度约束,确定政务数据的数据保护分级分类结果。
实施例中,按照如下方式,确定所述政务数据的分级分类结果:
其中,为政务数据的分级分类结果;/>为匹配得到的敏感要素的出现频率;为敏感要素平均出现频率;/>为依据为不具有分类等级文本的分级策略对应的分类等级结果;/>为依据为不具有分类等级文本的分级策略对敏感要素的语义强度约束;为最高匹配等级;/>为最高语义强度;/>为取最大值函数;/>为分级策略中对应的分类等级结果,分为依据为具有分类等级文本的分级策略与依据为不具有分类等级文本的分级策略;/>为依据为不具有分类等级文本的分级策略;/>为分类等级结果的总等级;/>为政务数据;/>为依据为具有分类等级文本的分级策略对应的约束等级;/>为乘法。
在一个实例中,A城市政务类数据包括客户姓名、证件类型以及号码等敏感要素,通过匹配得到的敏感要素对应的数据分级策略是依据为具有分类等级文本的分级策略,敏感要素的来源为《A城市基础电信机器数据分级方法》、《A城市公共数据分级分类指南》等,则约束等级为包括A城市的地方级标准,满足,则可以直接将敏感要素在依据为具有分类等级文本的分级策略中对应的分类等级结果“第1级”,确定为所述政务数据的分级分类结果。
在另一个实例中,B城市教育行业类政务数据中包括账单等敏感要素,通过匹配得到的敏感要素对应的数据分级策略是依据为具有分类等级文本的分级策略,敏感要素的来源为《C城市教育行业数据开放规范》、《D城市公共教育行业管理方案》等,则约束等级中不包括B城市,此时满足,分类等级结果的总等级为4,最高匹配等级和最高语义强度设定为/>,敏感要素“账单”的出现频率为24,平均出现频率为60,依据为不具有分类等级文本的分级策略对应的分类等级结果为2,语义强度为“建议”,依据为不具有分类等级文本的分级策略对所述敏感要素的语义强度约束为2,则政务数据的分级分类结果/>,向上取整为2,则政务数据的分级分类结果“第2级”。
如图11所示,所述数据保护法律法规类信息,包括,法律法规文本,数据泄露案例,专业专著论文。
上述步骤S208中的对所述政务数据执行对应的数据保护策略,可以包括:
S1102:基于文本相似度,确定所述匹配得到的敏感要素对应的数据泄露案例;
S1104:提取所述数据泄露案例的整改信息,确定所述数据泄露案例的分级分类结果;
S1106:将所述数据泄露案例的分级分类结果、所述匹配得到的敏感要素对应的法律法规文本和专业专著论文作为支撑数据;
S1108:根据所述政务数据的分级分类结果,确定所述政务数据对应的数据保护策略;
S11010:执行所述政务数据对应的数据保护策略,输出所述支撑数据。
实施例中,现有技术中采用的数据分类方案,仅在最后输出一个分类结构,并没有相应的规范或案例进行支撑。为解决以上问题,在对政务数据执行数据保护策略时,首先计算匹配得到的敏感要素与数据泄露案例的文本相似度,获得确定匹配得到的敏感要素对应的数据泄露案例,提取上述数据泄露案例的整改信息,得到数据泄露案例的分级分类结果;下一步,数据泄露案例的分级分类结果、匹配得到的敏感要素对应的法律法规文本和专业专著论文作为支撑数据;根据政务数据的分级分类结果,确定政务数据对应的数据保护策略;执行政务数据对应的数据保护策略,输出支撑数据。通过将数据泄露案例的分级分类结果、匹配得到的敏感要素对应的法律法规文本和专业专著论文作为支撑数据,可以在对政务数据进行对应的保护策略时,输出支撑数据,为分类结果提供相关的依据,解释性更好,在实际应用时更具有说服力。
上述的数据保护策略,可以对应不同的政务数据的分级分类结果进行配置;例如,若政务数据的分级分类结果为“第1级”,则表示政务数据需要进行最高等级的保护,数据保护策略配置为将政务数据进行多层加密处理,并配置解密权限为最小范围,且解密时至少需要2人以上才能执行;若政务数据的分级分类结果为“第2级”,则表示政务数据需要进行最中等级的保护,数据保护策略配置为将政务数据进行单层加密处理,并配置解密权限为中等范围,解密时1人可以执行;若政务数据的分级分类结果为“第3级”,则表示政务数据需要进行最低等级的保护,数据保护策略配置为将政务数据无需进行加密处理,该政务数据属于公开信息,设定访问频率为1分钟1次,防止政务数据被非正常频率读取。
本公开利通过对法律法规、数据泄露案例、专业专著论文的文本解析及实体识别,可以提取出敏感要素,通过对相关敏感要素的语义强度识别,可以还原各敏感要素的分级标准;同时基于文本相似度匹配可以衍生扩展敏感要素的相似词,实现政务敏感要素语义库构建;基于语义强度、敏感要素、法律法规文本、数据泄露案例以及专业专著论文等综合评估数据分级分类的更新推理方法,通过敏感要素的出现频率、对敏感要素的语义约束程度、分级策略等指标为入口,同时结合相似数据泄露案例的处理及整改情况作为支撑数据,进而综合评估政务数据分级分类结果。改变优化了当前政务数据分级分类评估方式,可以自动化识别数据的安全等级。通过实体识别、语义分析、相似度判断等多种方式,可以对数据安全等级约束进行演绎推理;同时针对现有分类系统存在的要素收集不全、规则易绕过等问题,通过衍生相似敏感要素的相似词,优化识别准确率,降低数据泄露风险;通过法律法规索引、相似案例比较,能够为数据分级提供良好的依据,具有较好的解释性。本方案自适应更强,不仅能匹配已有的敏感元素,还可以对可能会绕过的衍生敏感元素的相似词进行精准匹配。相比于其他黑盒的基于人工智能的分级方法,该方法能输出法律法规及相关标准规范作为依据、敏感数据泄露案例作为支撑,解释性更好,在实际应用时更具有说服力。通过对与现有规则型分级模块相结合,形成标准化安全数据分级分类产品,向内外部赋能,一方面针对内部数据可以实现自动化分级分类,进行数据安全管理;另一方面该分级分类工具可以直接向外部政企客户打包出售相关模块,实现产品创收。
需要注意的是,本公开技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定,本公开实施例中获取的个人、客户和人群等相关的个人身份数据、操作数据、行为数据等多种类型的数据,均已获得授权。例如敏感要素的获取、存储、使用、处理等已经获得数据所有者的授权,政务数据的获取、存储、使用、处理等已获得数据所有者的授权,数据保护法律法规类信息的获取、存储、使用、处理等已获得数据所有者的授权。
基于同一发明构思,本公开实施例中还提供了一种数据分类装置,如下面的实施例所述。由于该装置实施例解决问题的原理与上述方法实施例相似,因此该装置实施例的实施可以参见上述方法实施例的实施,重复之处不再赘述。
图12示出本公开实施例中一种数据分类装置示意图,如图12所示,该装置包括:
解析模块1201,用于对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略;
政务敏感要素语义库确定模块1202,用于确定与所述敏感要素在语义相似度上满足设定阈值的相似词,将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库;
匹配模块1203,用于将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略;
政务数据的分级分类结果确定模块1204,用于根据所述匹配得到的敏感要素的所述出现频率以及对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果;所述政务数据的分级分类结果用于对所述政务数据执行对应的数据保护策略。
此处需要说明的是,上述解析模块1201、政务敏感要素语义库确定模块1202、匹配模块1203和政务数据的分级分类结果确定模块1204对应于方法实施例中的S202~S208,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述方法实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图13来描述根据本公开的这种实施方式的电子设备1300。图13显示的电子设备1300仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于:上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1310执行,使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1310可以执行上述方法实施例的如下步骤:对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略;确定与所述敏感要素在语义相似度上满足设定阈值的相似词,将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库;将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略;根据所述匹配得到的敏感要素的所述出现频率以及所述对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果;所述政务数据的分级分类结果用于对所述政务数据执行对应的数据保护策略。
存储单元1320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)13201和/或高速缓存存储单元13202,还可以进一步包括只读存储单元(ROM)13203。
存储单元1320还可以包括具有一组(至少一个)程序模块13205的程序/实用工具13204,这样的程序模块13205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1300也可以与一个或多个外部设备1340(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1300交互的设备通信,和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且,电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机程序产品,该计算机程序产品包括:计算机程序,所述计算机程序被处理器执行时实现上述一种数据分类方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
本公开中的计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本公开中,计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可选地,计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
在具体实施时,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (12)

1.一种数据分类方法,其特征在于,包括:
对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略;其中,所述数据保护法律法规类信息包括具有分类等级的文本和/或不具有分类等级的文本,所述数据分级策略包括依据为具有分类等级文本的分级策略和/或依据为不具有分类等级文本的分级策略;
确定与所述敏感要素在语义相似度上满足设定阈值的相似词,将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库;
将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略;
根据所述匹配得到的敏感要素的所述出现频率以及所述对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果;所述政务数据的分级分类结果用于对所述政务数据执行对应的数据保护策略。
2.根据权利要求1所述的数据分类方法,其特征在于,对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略,包括:
提取数据保护法律法规类信息中具有分类等级的文本和不具有分类等级的文本,确定数据分级策略;
对所述数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度,记录所述敏感要素的来源;
根据所述敏感要素的来源,关联所述敏感要素与所述数据分级策略,确定敏感要素及对应的语义强度和数据分级策略。
3.根据权利要求2所述的数据分类方法,其特征在于,对所述数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度,包括:
对所述数据保护法律法规类信息进行停用词过滤和分词处理后进行文本解析和实体识别,确定敏感要素;
提取所述敏感要素的约束程度用词,确定敏感要素对应的语义强度。
4.根据权利要求1所述的数据分类方法,其特征在于,确定与所述敏感要素在语义相似度上满足设定阈值的相似词,包括:
根据中文词库与所述敏感要素,建立并训练得到中文通用词向量相似度模型;所述中文词库包括现有中文词汇;
基于所述中文通用词向量相似度模型,确定所述敏感要素的衍生词;所述衍生词与所述敏感要素在语义上存在相似或相关的关系;
计算所述衍生词与所述敏感要素的语义相似度;
将语义相似度满足设定阈值的所述衍生词确定为所述敏感要素的相似词。
5.根据权利要求1所述的数据分类方法,其特征在于,将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库,包括:
将所述相似词与所述敏感要素进行关联,以使所述相似词具有对应的语义强度和数据分级策略;
根据所述敏感要素及对应的语义强度和数据分级策略和所述相似词及对应的语义强度和数据分级策略,确定政务敏感要素语义库。
6.根据权利要求1所述的数据分类方法,其特征在于,将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略,包括:
若政务数据为关系型数据,则提取所述政务数据的元数据作为数据资产;
若政务数据为非关系型数据,则利用正则匹配和命名实体识别的方式将所述政务数据处理为数据资产;
将所述数据资产与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略。
7.根据权利要求2所述的数据分类方法,其特征在于,根据所述匹配得到的敏感要素的所述出现频率以及所述对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果,包括:
若所述匹配到的所述敏感要素对应的数据分级策略是所述依据为具有分类等级文本的分级策略,则将所述敏感要素在所述依据为具有分类等级文本的分级策略中对应的分类等级结果确定为所述政务数据的分级分类结果;
若所述匹配到的所述敏感要素对应的数据分级策略是所述依据为不具有分类等级文本的分级策略,则根据所述匹配得到的敏感要素的出现频率以及对应的语义强度和依据为不具有分类等级文本的分级策略,确定所述政务数据的分级分类结果。
8.根据权利要求7所述的数据分类方法,其特征在于,根据所述匹配得到的敏感要素的出现频率以及对应的语义强度和依据为不具有分类等级文本的分级策略,确定所述政务数据的分级分类结果,包括:
根据所述匹配得到的敏感要素的出现频率,确定所述敏感要素平均出现频率;
根据匹配得到的敏感要素对应的语义强度和依据为不具有分类等级文本的分级策略,确定依据为不具有分类等级文本的分级策略对应的分类等级结果和依据为不具有分类等级文本的分级策略对所述敏感要素的语义强度约束;
设定最高匹配等级和最高语义强度,根据所述匹配得到的敏感要素的出现频率、所述敏感要素平均出现频率、依据为不具有分类等级文本的分级策略对应的分类等级结果和依据为不具有分类等级文本的分级策略对所述敏感要素的语义强度约束,确定所述政务数据的数据保护分级分类结果。
9.根据权利要求1所述的数据分类方法,其特征在于,所述数据保护法律法规类信息,包括,法律法规文本,数据泄露案例,专业专著论文;
对所述政务数据执行对应的数据保护策略,包括:
基于文本相似度,确定所述匹配得到的敏感要素对应的数据泄露案例;
提取所述数据泄露案例的整改信息,确定所述数据泄露案例的分级分类结果;
将所述数据泄露案例的分级分类结果、所述匹配得到的敏感要素对应的法律法规文本和专业专著论文作为支撑数据;
根据所述政务数据的分级分类结果,确定所述政务数据对应的数据保护策略;
执行所述政务数据对应的数据保护策略,输出所述支撑数据。
10.一种数据分类装置,其特征在于,包括:
解析模块,用于对数据保护法律法规类信息进行文本解析,确定敏感要素及对应的语义强度和数据分级策略;其中,所述数据保护法律法规类信息包括具有分类等级的文本和/或不具有分类等级的文本,所述数据分级策略包括依据为具有分类等级文本的分级策略和/或依据为不具有分类等级文本的分级策略;
政务敏感要素语义库确定模块,用于确定与所述敏感要素在语义相似度上满足设定阈值的相似词,将所述相似词与所述敏感要素进行关联,确定政务敏感要素语义库;
匹配模块,用于将政务数据与所述政务敏感要素语义库进行匹配,确定匹配得到的敏感要素在所述政务数据中的出现频率以及所述匹配得到的敏感要素对应的语义强度和数据分级策略;
政务数据的分级分类结果确定模块,用于根据所述匹配得到的敏感要素的所述出现频率以及对应的语义强度和数据分级策略,确定所述政务数据的分级分类结果;所述政务数据的分级分类结果用于对所述政务数据执行对应的数据保护策略。
11. 一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求 1~9中任意一项所述的数据分类方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~9中任意一项所述的数据分类方法。
CN202310916605.4A 2023-07-25 2023-07-25 数据分类方法及装置、存储介质及电子设备 Active CN116628211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310916605.4A CN116628211B (zh) 2023-07-25 2023-07-25 数据分类方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310916605.4A CN116628211B (zh) 2023-07-25 2023-07-25 数据分类方法及装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN116628211A CN116628211A (zh) 2023-08-22
CN116628211B true CN116628211B (zh) 2023-11-07

Family

ID=87613885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310916605.4A Active CN116628211B (zh) 2023-07-25 2023-07-25 数据分类方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116628211B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292450A (zh) * 2022-07-28 2022-11-04 四川大学 一种基于信息抽取的数据分类分级领域知识库构建方法
CN115759071A (zh) * 2022-11-14 2023-03-07 深圳中科保泰科技有限公司 基于大数据的政务敏感信息识别系统和方法
CN115774769A (zh) * 2022-11-17 2023-03-10 北京中知智慧科技有限公司 敏感词的校验处理方法及装置
CN116108167A (zh) * 2022-11-11 2023-05-12 电子科技大学 一种结合知识图谱的个人敏感信息分类分级方法
CN116257877A (zh) * 2022-12-27 2023-06-13 北京航空航天大学 一种面向隐私计算的数据分类分级方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230128136A1 (en) * 2021-10-25 2023-04-27 Data Safeguard, Inc. Multi-layered, Multi-pathed Apparatus, System, and Method of Using Cognoscible Computing Engine (CCE) for Automatic Decisioning on Sensitive, Confidential and Personal Data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292450A (zh) * 2022-07-28 2022-11-04 四川大学 一种基于信息抽取的数据分类分级领域知识库构建方法
CN116108167A (zh) * 2022-11-11 2023-05-12 电子科技大学 一种结合知识图谱的个人敏感信息分类分级方法
CN115759071A (zh) * 2022-11-14 2023-03-07 深圳中科保泰科技有限公司 基于大数据的政务敏感信息识别系统和方法
CN115774769A (zh) * 2022-11-17 2023-03-10 北京中知智慧科技有限公司 敏感词的校验处理方法及装置
CN116257877A (zh) * 2022-12-27 2023-06-13 北京航空航天大学 一种面向隐私计算的数据分类分级方法

Also Published As

Publication number Publication date
CN116628211A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US10430610B2 (en) Adaptive data obfuscation
CN109918668B (zh) 基于区块链的信用信息管理方法、装置、设备及存储介质
AU2019278989B2 (en) System and method for analyzing and modeling content
US20200202431A1 (en) Using automated data validation in loan origination to evaluate credit worthiness and data reliability
US11425160B2 (en) Automated risk assessment module with real-time compliance monitoring
US11283840B2 (en) Usage-tracking of information security (InfoSec) entities for security assurance
US11681817B2 (en) System and method for implementing attribute classification for PII data
US11907299B2 (en) System and method for implementing a securities analyzer
CN110363411B (zh) 利用话术智能推荐的风险控制方法及装置
CN111783450B (zh) 语料文本中的短语提取方法、装置、存储介质及电子设备
US20190279228A1 (en) Suspicious activity report smart validation
CN110827157A (zh) 数据处理方法与装置、存储介质、电子设备
CN111598122B (zh) 数据校验方法、装置、电子设备和存储介质
CN116248412B (zh) 共享数据资源异常检测方法、系统、设备、存储器及产品
CN116628211B (zh) 数据分类方法及装置、存储介质及电子设备
CN112837149A (zh) 一种企业信贷风险的识别方法和装置
US20200111054A1 (en) Automated claims auditing
CN114168830A (zh) 舆情数据处理系统及方法、计算机存储介质、电子设备
US20230128136A1 (en) Multi-layered, Multi-pathed Apparatus, System, and Method of Using Cognoscible Computing Engine (CCE) for Automatic Decisioning on Sensitive, Confidential and Personal Data
Duan et al. Increasing the utility of performance audit reports: Using textual analytics tools to improve government reporting
CN114925757B (zh) 多源威胁情报融合方法、装置、设备和存储介质
US20230297784A1 (en) Automated decision modelling from text
US11423094B2 (en) Document risk analysis
CN113850085B (zh) 企业的等级评估方法、装置、电子设备及可读存储介质
CN118094546A (zh) 可提升检测精度的代码检测方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20230822

Assignee: Tianyiyun Technology Co.,Ltd.

Assignor: CHINA TELECOM Corp.,Ltd.

Contract record no.: X2024110000020

Denomination of invention: Data classification methods and devices, storage media and electronic devices

Granted publication date: 20231107

License type: Common License

Record date: 20240315

EE01 Entry into force of recordation of patent licensing contract