CN110188568A - 机密信息标识方法、装置、设备与计算机可读存储介质 - Google Patents

机密信息标识方法、装置、设备与计算机可读存储介质 Download PDF

Info

Publication number
CN110188568A
CN110188568A CN201910448949.0A CN201910448949A CN110188568A CN 110188568 A CN110188568 A CN 110188568A CN 201910448949 A CN201910448949 A CN 201910448949A CN 110188568 A CN110188568 A CN 110188568A
Authority
CN
China
Prior art keywords
confidential information
information
default
metadata information
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910448949.0A
Other languages
English (en)
Inventor
司东华
张志杰
周可
孙朝辉
杨东方
罗迎宣
王惠平
沈蓉
郭腾达
覃娆
敖林
张玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910448949.0A priority Critical patent/CN110188568A/zh
Publication of CN110188568A publication Critical patent/CN110188568A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及金融科技领域,并公开了一种机密信息标识方法,包括:当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的DDL脚本;对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息。确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配;若匹配,则将所述元数据信息标识为机密信息。本发明还公开了一种机密信息标识装置、设备和一种计算机可读存储介质。本发明在不读取开发发布文件的数据内容的情况下,通过扫描开发发布文件对应的数据库脚本,以提取对应的元数据信息,并对元数据信息进行机密标识,用以标识开发发布文件对应的数据的敏感程度,以实现对不同敏感程度的数据进行管理。

Description

机密信息标识方法、装置、设备与计算机可读存储介质
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及机密信息标识方法、装置、设备与计算机可读存储介质。
背景技术
近年来,随着金融科技(Fintech),尤其是互联网金融的不断发展,数据管理技术被引入银行等金融机构的日常服务中。在金融机构日常服务的过程中,会产生很多数据,有些数据是重要的,有些数据是不重要的,为区分重要性,往往需要对数据进行机密标识,那么如何对数据进行机密标识,以实现对不同的数据进行不同的存储、传输和使用等。
在现有技术中,由开发人员在元数据管理系统中,人工补充数据机密信息,如表示数据中的某字段为机密信息,简而言之,需要人工一个一个去判断数据中是否带有机密信息的字段,整个过程需要开发人员参与,且需要在所有的字段中判断,成本较高,效率低下。
较为优化的方式是通过读取数据库中所有的数据,针对不同的机密数据的特点,通过正则表达式或者其他方式进行匹配,如果匹配上则表示为机密数据,否则为非机密数据,如若当前数据符合格式:^((/(/d{3}/))|(/d{3}/-))?13[456789]/d{8}|15[89]/d{8},则将该数据标识为电话号码是机密信息的机密数据,但是此种方式需要配置能读取所有数据的超级用户,风险敞口较大,在数据权限严格管理的情况下,几乎不可能获取到此种超级用户权限,而且在这过程中,需要扫描所有的数据,而机密数据毕竟只占少数,存在浪费大量计算资源的情况。
因此,如何在不读取数据的场景下,确认数据是否是机密数据,以实现对不同的数据进行不同的存储、传输和使用是一件亟待解决的问题。
发明内容
本发明的主要目的在于提出一种机密信息标识方法、装置、设备与计算机可读存储介质,旨在实现对不同数据的管理。
为实现上述目的,本发明提供一种机密信息标识方法,所述机密信息标识方法包括如下步骤:
当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的DDL脚本;
对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息;
确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配;
若匹配,则将所述元数据信息标识为机密信息。
优选地,所述当检测到开发发布文件时,扫描所述开发发布文件的脚本,以得到所述开发发布文件对应的DDL脚本的步骤包括:
当检测到开发发布文件时,读取所述开发发布文件的发布包,并从所述发布包中提取对应的sql脚本;
从所述sql脚本中识别出对应的DDL脚本。
优选地,所述对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息的步骤包括:
从所述DDL脚本中提取sql字符串,并基于所述sql字符串,将所述DDL脚本解析成对应的抽象语法树;
从所述抽象语法树中提取对应的元数据信息。
优选地,所述元数据信息包括字段中文名称和字段英文名称,所述确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配的步骤包括:
确定所述字段中文名称与所述预设机密信息中的通用中文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配;
若不一致,则确定所述字段英文名称与所述预设机密信息中的通用英文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配。
优选地,所述确定所述字段英文名称与所述通用英文名称是否一致的步骤之后,所述方法还包括:
若不一致,则计算所述字段中文名称与所述通用中文名称的第一相似度;
确定所述第一相似度是否达到第一阈值,若是,则确定所述元数据信息与所述预设机密信息匹配;
若否,则计算所述字段英文名称与所述通用英文名称的第二相似度;
确定所述第二相似度是否达到第二阈值,若是,则确定所述元数据信息与所述预设机密信息匹配。
优选地,所述元数据信息包括字段类型,所述确定所述元数据信息与所述预设机密信息匹配的步骤包括:
确定所述字段类型与所述预设机密信息中的通用字段类型是否一致;
若一致,则确定所述元数据信息与所述预设机密信息匹配;
若不一致,则将所述元数据信息发送至人工判断通道,并在接收到所述人工判断通道基于所述元数据信息发送的确认信息时,确定所述元数据信息与所述预设机密信息匹配。
优选地,所述若匹配,则将所述元数据信息标识为机密信息的步骤之后,所述方法还包括:
将所述元数据信息写入预设机密信息定义库中,以将所述元数据信息中的字段中文名称、字段英文名称和字段类型分别加入对应的通用中文名称、通用英文名称和通用字段类型中,以得到更新后的机密信息定义库。
此外,为实现上述目的,本发明还提供一种机密信息标识装置,所述机密信息标识装置包括:
扫描模块,用于当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的DDL脚本;
解析模块,用于对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息;
确定模块,用于确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配;
标识模块,用于若匹配,则将所述元数据信息标识为机密信息。
优选地,所述扫描模块还用于:
当检测到开发发布文件时,读取所述开发发布文件的发布包,并从所述发布包中提取对应的sql脚本;
从所述sql脚本中识别出对应的DDL脚本。
优选地,所述解析模块还用于:
从所述DDL脚本中提取sql字符串,并基于所述sql字符串,将所述DDL脚本解析成对应的抽象语法树;
从所述抽象语法树中提取对应的元数据信息。
优选地,所述元数据信息包括字段中文名称和字段英文名称,所述确定模块还用于:
确定所述字段中文名称与所述预设机密信息中的通用中文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配;
若不一致,则确定所述字段英文名称与所述预设机密信息中的通用英文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配。
优选地,所述确定模块还用于:
若不一致,则计算所述字段中文名称与所述通用中文名称的第一相似度;
确定所述第一相似度是否达到第一阈值,若是,则确定所述元数据信息与所述预设机密信息匹配;
若否,则计算所述字段英文名称与所述通用英文名称的第二相似度;
确定所述第二相似度是否达到第二阈值,若是,则确定所述元数据信息与所述预设机密信息匹配。
优选地,所述确定模块还用于:
确定所述字段类型与所述预设机密信息中的通用字段类型是否一致;
若一致,则确定所述元数据信息与所述预设机密信息匹配;
若不一致,则将所述元数据信息发送至人工判断通道,并在接收到所述人工判断通道基于所述元数据信息发送的确认信息时,确定所述元数据信息与所述预设机密信息匹配。
优选地,所述装置还包括更新模块,用于:
将所述元数据信息写入预设机密信息定义库中,以将所述元数据信息中的字段中文名称、字段英文名称和字段类型分别加入对应的通用中文名称、通用英文名称和通用字段类型中,以得到更新后的机密信息定义库。
此外,为实现上述目的,本发明还提供一种机密信息标识设备,所述机密信息标识设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的机密信息标识程序,所述机密信息标识程序被所述处理器执行时实现如上所述的机密信息标识方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有机密信息标识程序,所述机密信息标识程序被处理器执行时实现如上所述的机密信息标识方法的步骤。
本发明提出的机密信息标识方法,当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的DDL脚本;对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息;确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配;若匹配,则将所述元数据信息标识为机密信息。本发明在不读取开发发布文件的数据内容的情况下,通过扫描开发发布文件对应的数据库脚本,以提取对应的元数据信息,并对元数据信息进行机密标识,用以标识开发发布文件对应的数据的敏感程度,以实现对不同敏感程度的数据进行管理,相比于现有技术人工判断方式,成本低效率高,相比于现有需要扫描所有数据的情况下,避免了计算资源的耗费。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明机密信息标识方法第一实施例的流程示意图;
图3为本发明机密信息标识方法第一实施例中抽象语法树示意图;
图4为本发明机密信息标识方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例终端可以是PC机或服务器设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及机密信息标识程序。
其中,操作系统是管理和控制机密信息标识设备与软件资源的程序,支持网络通信模块、用户接口模块、机密信息标识程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的机密信息标识设备中,所述机密信息标识设备通过处理器1001调用存储器1005中存储的机密信息标识程序,并执行下述机密信息标识方法各个实施例中的操作。
基于上述硬件结构,提出本发明机密信息标识方法实施例。
参照图2,图2为本发明机密信息标识方法第一实施例的流程示意图,所述方法包括:
步骤S10,当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的DDL脚本;
步骤S20,对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息;
步骤S30,确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配;
步骤S40,若匹配,则将所述元数据信息标识为机密信息。
本实施例中,在银行等金融机构的元数据管理过程中,在不读取开发发布文件对应的数据内容的情况下,通过扫描开发发布文件的数据库脚本,以提取对应的元数据信息,并对元数据信息进行机密标识,用以标识开发发布文件对应的数据的敏感程度,以实现对不同敏感程度的数据进行管理,提高了银行等金融机构元数据安全管理。
以下将对各个步骤进行详细说明:
步骤S10,当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的DDL脚本。
本实施例机密信息标识方法应用于理财机构或者银行系统等金融机构的机密信息标识设备中,为描述方便,机密信息标识设备以下简称标识设备,其中,标识设备用于接收开发发布文件,并对开发发布文件对应的数据进行机密标识,其中,开发发布文件指开发完成后,需要发布的文件清单。
在检测到开发发布文件时,扫描开发发布文件对应的数据库脚本,具体在对应的发布物料库中扫描开发发布文件对应的数据库脚本,从所有的脚本中,确定DDL(DataDefinition Language,数据定义语言)脚本,可以理解的,由于DDL脚本的文件后缀以及文件属性与其他脚本是不同的,因此,可根据文件后缀以及文件属性,在所有的脚本中,确定DDL脚本。
具体的,步骤S10包括:
当检测到开发发布文件时,读取所述开发发布文件的发布包,并从所述发布包中提取对应的sql脚本;
在该步骤中,当检测到开发发布文件时,从对应的发布物料库中获取开发发布文件对应的发布包,并对该发布包进行解压,得到对应的解压文件,并扫描解压文件,从中提取sql(Structured Query Language,结构化查询语言)脚本,其中,提取sql脚本主要根据解压文件的文件后缀以及文件属性来提取,例如,解压文件中以“.sql”“.hql”“.h”等为后缀的文件即为sql脚本,
从所述sql脚本中识别出对应的DDL脚本。
在该步骤中,通过识别sql脚本的上级目录名称,来确认该脚本是否为DDL脚本,在本实施例中,DDL脚本所在的文件目录名称统一取名,如DDL文件,因此,可通过识别sql脚本所在位置的上级目录名称,来确认该脚本是否为DDL脚本,最后将识别到的DDL脚本进行标记并提取。
需要说明的是,本实施例所得到的DDL脚本为增量DDL脚本,即只需对开发发布文件对应的数据库脚本进行扫描,而不需要对发布物料库中所有的数据库脚本进行扫描,换言之,只需对发布物料库中新增的数据库脚本进行扫描。
步骤S20,对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息。
在本实施例中,在得到开发发布文件对应的DDL脚本后,对DDL脚本进行解析,以提取DDL脚本对应的元数据信息,其中,元数据信息指描述数据的数据,具体指描述元数据数据库中字段含义的信息,该信息能够辅助数据使用方更好地理解数据,它包括字段中文名称、字段英文名称和字段类型等,本实施例的元数据信息指描述开发发布文件对应的数据的描述信息。
具体的,步骤S20包括:
从所述DDL脚本中提取sql字符串,并基于所述sql字符串,将所述DDL脚本解析成对应的抽象语法树;
在该步骤中,标识设备从DDL脚本中提取sql字符串,并基于sql字符串将DDL脚本解析成对应的抽象语法树,具体可将sql字符串输入sql解析器中,通过sql解析器得到DDL脚本对应的抽象语法树,其中,sql解析器在实际操作中可以手工编写,也可以使用工具(半)自动生成。
从所述抽象语法树中提取对应的元数据信息。
在该步骤中,从抽象语法树中提取对应的元数据信息,以Create语句为例,其对应的抽象语法树如图3所述,因此,可从抽象语法树中提取TableName(表名)、filedName(字段名,包括字段中文名称和字段英文名称)、filedtype(字段类型)和filedlength(字段长度)等。在本实施例中,优先提取字段名和字段类型,但不排除在必要的时候将抽象语法树中其他元数据信息应用于本实施例。
步骤S30,确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配。
在本实施例中,将元数据数据信息与预设机密信息定义库中的预设机密信息进行比较,判断元数据信息与预设机密信息定义库中的预设机密信息是否匹配,其中,在标识设备中,预设有机密信息定义库,在预设机密信息定义库中,存储有标识为机密信息的各类通用元数据信息,该预设机密信息定义库实时更新,确保尽量涵盖所有的机密信息。在确定当前元数据信息与预设机密信息是否匹配的过程中,将元数据信息与预设机密信息中的通用元数据信息进行一一比较,若相同,则确定元数据信息与预设机密信息匹配,若不相同,则确定元数据信息与预设机密信息不匹配;可以理解的,在元数据信息与预设机密信息相似度较高的情况下,也可认为元数据信息与预设机密信息匹配,具体计算元数据信息与预设机密信息相似度的算法可采用编辑距离算法,也可以采用余弦相似性算法,在采用余弦相似性算法时,需要将元件数据信息和预设机密信息对应的字符串向量化,此外,也可采用欧式距离算法,具体算法在本实施例中不做限定,凡是能计算元数据信息与预设机密信息的相似度的算法都可应用于本实施例。
步骤S40,若匹配,则将所述元数据信息标识为机密信息。
在本实施例中,在确定元数据信息与预设机密信息匹配的情况下,将元数据信息标识为机密信息,用于标识开发发布文件对应的数据的敏感程度,方便用户在管理数据时,对当前开发发布文件对应的数据做出正确的管理。
进一步地,在将元数据信息标识为机密信息的过程中,可计算元数据信息与预设机密信息的匹配程度,即相似度,根据计算所得相似度,确定元数据信息的机密等级。
具体可预设一个相似度-机密等级映射表,在计算得到元数据信息与预设机密信息的相似度之后,根据计算所得相似度,在相似度-机密等级映射表中,确定对应的机密等级,最后,将元数据信息标识为对应的机密等级的机密信息。如元数据信息与预设机密信息的相似度为百分之百,即完全相同,在相似度-机密等级映射表中对应的机密等级为一级,则将元数据信息标识为一级机密的机密信息;若元数据信息与预设机密信息的相似度为百分之八十,在相似度-机密等级映射表中对应的机密等级为二级,则将元数据信息标识为二级等。
进一步地,步骤S40之后,还包括:
将所述元数据信息写入预设机密信息定义库中,以将所述元数据信息中的字段中文名称、字段英文名称和字段类型分别加入对应的通用中文名称、通用英文名称和通用字段类型中,以得到更新后的机密信息定义库。
在该步骤中,若确定元数据信息与预设机密信息匹配,则将元数据信息标识为机密信息,并将元数据信息写入预设机密信息定义库中,以扩充预设机密信息定义库,具体的,将元数据信息中的字段中文名称、字段英文名称和字段类型等分别加入对应的通用中文名称、通用英文名称和通用字段类型中,以得到更新后的机密信息定义库,在下一次检测到新的开发发布文件时,将已更新后的机密信息定义库作为比较的参考对象。
本实施例当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的DDL脚本;对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息。确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配;若匹配,则将所述元数据信息标识为机密信息。本发明在不读取数据内容的情况下,通过扫描开发发布文件对应的数据库脚本,以提取对应的元数据信息,并对元数据信息进行机密标识,用以标识开发发布文件对应的数据的敏感程度,以实现对不同敏感程度的数据进行管理,相比于现有技术人工判断方式,成本低效率高,相比于现有需要扫描所有数据的情况下,避免了计算资源的耗费,更加符合银行等金融机构的需求,经济效益更好。
进一步地,基于本发明机密信息标识方法第一实施例,提出本发明机密信息标识方法第二实施例。
机密信息标识方法的第二实施例与机密信息标识方法的第一实施例的区别在于,参照图4,元数据信息包括字段中文名称和字段英文名称,步骤S30包括:
步骤S31,确定所述字段中文名称与所述预设机密信息中的通用中文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配;
步骤S32,若不一致,则确定所述字段英文名称与所述预设机密信息中的通用英文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配。
本实施例在确定元数据信息与预设机密信息是否匹配时,只需将元数据信息中某一元素与预设机密信息中的某一元素匹配上,即可认为元数据信息与预设机密信息匹配,减少匹配工作,降低匹配的复杂性。
以下将对各个步骤进行说明:
步骤S31,确定所述字段中文名称与所述预设机密信息中的通用中文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配。
在本实施例中,在确定元数据信息与预设机密信息是否匹配时,只需将元数据信息中的字段中文名称与预设机密信息中的通用中文名称进行比较,即可确定元数据信息与预设机密信息是否匹配,即字段中文名称与通用中文名称一致,则代表元数据信息与预设机密信息匹配;若字段中文名称与通用中文名称不一致,则代表元数据信息与预设机密信息不匹配。
可以理解的,通用中文名称有若干个,当前字段中文名称只需与通用中文名称中的某一个匹配上,即可认为字段中文名称与通用中文名称一致,如当前元数据信息中的字段中文名称为客户姓名,而通用中文名称包括客户姓名、客户名称、客户和个人客户名称等,则认定当前字段中文名称与通用中文名称一致。
步骤S32,若不一致,则确定所述字段英文名称与所述预设机密信息中的通用英文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配。
在本实施例中,若确定字段中文名称与通用中文名称不一致,则进一步判断元数据信息中的字段英文名称与预设机密信息中的通用英文名称是否一致,判断过程与上述判断字段中文名称一致,若一致,则确定元数据信息与预设机密信息匹配,如当前字段英文名称为cust name,而通用英文名称包括cust name、name和personal name等,则认定当前字段英文名称与通用英文名称一致。
需要说明的是,在本实施例中,先判断当前字段中文名称与通用中文名称是否一致,还是先判断当前字段英文名称与通用英文名称是否一致,对结果没有影响,因此,可先执行步骤S32,再执行步骤S31,即先判断当前字段英文名称与通用英文名称是否一致,在不一致的情况下,再判断当前字段中文名称与通用中文名称是否一致。
此外,为了提高机密信息标识的准确性,可选确定所述字段中文名称与所述预设机密信息中的通用中文名称是否一致;和所述字段英文名称与所述预设机密信息中的通用英文名称是否一致;
若所述字段中文名称与所述预设机密信息中的通用中文名称一致,和所述字段英文名称与所述预设机密信息中的通用英文名称一致,才确定所述元数据信息与所述预设机密信息匹配。进一步地,所述方法还包括:
若不一致,则计算所述字段中文名称与所述通用中文名称的第一相似度;
在该步骤中,若当前字段中文名称和字段英文名称都与通用中文名称和通用英文名称不一致,则降低匹配要求,基于预设算法,计算当前字段中文名称与通用中文名称的第一相似度,其中,预设算法具体可为Levenshtein Distance(编辑距离)算法,该算法是指取两个字符串由一个转成另一个所需的最少编辑操作次数(编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符),编辑距离越小,两个字符串的相似度越大。本实施例中,可以根据编辑距离算法,计算字段中文名称转换成通用中文名称所需的最少编辑操作次数,然后根据最少编辑操作次数计算字段中文名称与通用中文名称的第一相似度。
当然,具体实施时也可以采用其他算法计算字段中文名称与通用中文名称的相似度,如Cosine Similarity(余弦相似性)算法、Euclidean Distance(欧氏距离)算法等,本实施例对此不作限定。
确定所述第一相似度是否达到第一阈值,若是,则确定所述元数据信息与所述预设机密信息匹配;
在该步骤中,将计算所得的第一相似度与第一阈值进行比较,确定第一相似度是否达到第一阈值,即第一相似度大于或者等于第一阈值,若是,则确定元数据信息与预设机密信息匹配,在具体实施时,第一阈值设置为50%,即第一相似度达到50%即认定元数据信息与预设机密信息匹配。
若否,则计算所述字段英文名称与所述通用英文名称的第二相似度;
在该步骤中,若第一相似度达不到第一阈值,即第一相似度小于第一阈值,则进一步计算当前字段英文名称与通用英文名称的第二相似度,计算方式与上述计算当前字段中文名称与通用中文名称的第一相似度类似,在此不再赘述。
确定所述第二相似度是否达到第二阈值,若是,则确定所述元数据信息与所述预设机密信息匹配
在该步骤中,在计算得到第二相似度后,将第一相似度与第二阈值进行比较,确定第二相似度是否达到第二阈值,若是,则确定元数据信息与所述预设机密信息匹配。
需要说明的是,第一阈值与第二阈值不同,在具体实施时,第二阈值设置为80%,即在当前字段中文名称与通用中文名称不匹配的情况下,当前字段英文名称与通用英文名称的相似度要达到80%才确定元数据信息与预设机密信息匹配。
本实施例在确定元数据信息与预设机密信息是否匹配时,只需将元数据信息中某一元素与预设机密信息中的某一元素匹配上,即可认为元数据信息与预设机密信息匹配,减少匹配工作,降低匹配的复杂性。
进一步地,基于本发明机密信息标识方法第一、第二实施例,提出本发明机密信息标识方法第三实施例。
机密信息标识方法的第三实施例与机密信息标识方法的第一、第二实施例的区别在于,元数据信息还包括字段类型,所述方法还包括:
步骤a,确定所述字段类型与所述预设机密信息中的通用字段类型是否一致;
步骤b,若一致,则确定所述元数据信息与所述预设机密信息匹配;
步骤c,若不一致,则将所述元数据信息发送至人工判断通道,并在接收到所述人工判断通道基于所述元数据信息发送的确认信息时,确定所述元数据信息与所述预设机密信息匹配。
本实施例元数据信息还包括字段类型,在确定元数据信息与预设机密信息是否匹配的过程中,还需要确定字段类型与预设机密信息中的字段类型是否一致,提高匹配的准确性。
以下将对各个步骤进行详细说明:
步骤a,确定所述字段类型与所述预设机密信息中的通用字段类型是否一致。
在本实施例中,在确定元数据信息与预设机密信息是否匹配的过程中,进一步将元数据信息中的字段类型与预设机密信息中的通用字段类型进行比较,确定当前字段类型与通用字段类型是否一致,以客户姓名为例,其对应的当前字段类型为String,而通用字段类型包括String和Varchar等,则当前字段类型与通用字段类型一致。
需要说明的是,此步骤在具体实施时,是在确定字段名称(字段中文名称和字段英文名称)与通用字段名称(通用中文名称和通用英文名称)匹配的情况下才去确定当前字段类型与通用字段类型是否一致,即本实施例是在确定字段名称与通用字段名称匹配后,进一步确定当前字段类型与通用字段类型是否一致。
步骤b,若一致,则确定所述元数据信息与所述预设机密信息匹配。
在本实施例中,若一致,即当前元数据信息中的字段名称与预设机密信息中的通用字段名称匹配,且当前字段类型与通用字段类型一致,则确定元数据信息与所述预设机密信息匹配。
可以理解的,在银行等金融机构中,由于业务类别不同,相同客户在办理不同业务时,所产生的数据是不同的,此时的数据虽然都对应着同一个客户,但是其实际业务类型是不同的。
基于上述相似的道理,在当前元数据信息中的字段名称与通用字段名称匹配的情况下,也可能存在字段类型不一致的情况,因此,在确定了字段名称与通用字段名称匹配后,还得确定当前的字段类型与通用字段类型是否一致,若一致,则确定元数据信息与预设机密信息匹配。
步骤c,若不一致,则将所述元数据信息发送至人工判断通道,并在接收到所述人工判断通道基于所述元数据信息发送的确认信息时,确定所述元数据信息与所述预设机密信息匹配。
在本实施例中,若不一致,即当前元数据信息中的字段名称与预设机密信息中的通用字段名称匹配,而当前字段类型与通用字段类型不一致,则将元数据信息发送至人工判断通道,由对应的判断人员人工对其进行判断,若接收到人工判断通道基于当前元数据信息发送的确认信息,则确定元数据信息与预设机密信息匹配;若未接收到人工判断通道基于当前元数据信息发送的确认信息,则确定元数据信息与预设机密信息不匹配,或者接收到人工判断通道基于当前元数据信息发送的否决信息,则确定元数据信息与预设机密信息不匹配。
本实施例元数据信息还包括字段类型,在确定元数据信息与预设机密信息是否匹配的过程中,还需要确定字段类型与预设机密信息中的字段类型是否一致,提高匹配的准确性。
本发明还提供一种机密信息标识装置。本发明机密信息标识装置包括:
扫描模块,用于当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的DDL脚本;
解析模块,用于对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息;
确定模块,用于确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配;
标识模块,用于若匹配,则将所述元数据信息标识为机密信息。
进一步地,所述扫描模块还用于:
当检测到开发发布文件时,读取所述开发发布文件的发布包,并从所述发布包中提取对应的sql脚本;
从所述sql脚本中识别出对应的DDL脚本。
优选地,所述解析模块还用于:
从所述DDL脚本中提取sql字符串,并基于所述sql字符串,将所述DDL脚本解析成对应的抽象语法树;
从所述抽象语法树中提取对应的元数据信息。
进一步地,所述元数据信息包括字段中文名称和字段英文名称,所述确定模块还用于:
确定所述字段中文名称与所述预设机密信息中的通用中文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配;
若不一致,则确定所述字段英文名称与所述预设机密信息中的通用英文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配。
进一步地,所述确定模块还用于:
若不一致,则计算所述字段中文名称与所述通用中文名称的第一相似度;
确定所述第一相似度是否达到第一阈值,若是,则确定所述元数据信息与所述预设机密信息匹配;
若否,则计算所述字段英文名称与所述通用英文名称的第二相似度;
确定所述第二相似度是否达到第二阈值,若是,则确定所述元数据信息与所述预设机密信息匹配。
进一步地,所述确定模块还用于:
确定所述字段类型与所述预设机密信息中的通用字段类型是否一致;
若一致,则确定所述元数据信息与所述预设机密信息匹配;
若不一致,则将所述元数据信息发送至人工判断通道,并在接收到所述人工判断通道基于所述元数据信息发送的确认信息时,确定所述元数据信息与所述预设机密信息匹配。
进一步地,所述装置还包括更新模块,用于:
将所述元数据信息写入预设机密信息定义库中,以将所述元数据信息中的字段中文名称、字段英文名称和字段类型分别加入对应的通用中文名称、通用英文名称和通用字段类型中,以得到更新后的机密信息定义库。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有机密信息标识程序,所述机密信息标识程序被处理器执行时实现如上所述的机密信息标识方法的步骤。
其中,在所述处理器上运行的机密信息标识程序被执行时所实现的方法可参照本发明机密信息标识方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种机密信息标识方法,其特征在于,所述机密信息标识方法包括如下步骤:
当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的数据定义语言DDL脚本;
对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息;
确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配;
若匹配,则将所述元数据信息标识为机密信息。
2.如权利要求1所述的机密信息标识方法,其特征在于,所述当检测到开发发布文件时,扫描所述开发发布文件的脚本,以得到所述开发发布文件对应的DDL脚本的步骤包括:
当检测到开发发布文件时,读取所述开发发布文件的发布包,并从所述发布包中提取对应的结构化查询语言sql脚本;
从所述sql脚本中识别出对应的DDL脚本。
3.如权利要求1所述的机密信息标识方法,其特征在于,所述对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息的步骤包括:
从所述DDL脚本中提取sql字符串,并基于所述sql字符串,将所述DDL脚本解析成对应的抽象语法树;
从所述抽象语法树中提取对应的元数据信息。
4.如权利要求1所述的机密信息标识方法,其特征在于,所述元数据信息包括字段中文名称和字段英文名称,所述确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配的步骤包括:
确定所述字段中文名称与所述预设机密信息中的通用中文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配;
若不一致,则确定所述字段英文名称与所述预设机密信息中的通用英文名称是否一致,若一致,则确定所述元数据信息与所述预设机密信息匹配。
5.如权利要求4所述的机密信息标识方法,其特征在于,所述确定所述字段英文名称与所述通用英文名称是否一致的步骤之后,所述方法还包括:
若不一致,则计算所述字段中文名称与所述通用中文名称的第一相似度;
确定所述第一相似度是否达到第一阈值,若是,则确定所述元数据信息与所述预设机密信息匹配;
若否,则计算所述字段英文名称与所述通用英文名称的第二相似度;
确定所述第二相似度是否达到第二阈值,若是,则确定所述元数据信息与所述预设机密信息匹配。
6.如权利要求1所述的机密信息标识方法,其特征在于,所述元数据信息包括字段类型,所述确定所述元数据信息与所述预设机密信息匹配的步骤包括:
确定所述字段类型与所述预设机密信息中的通用字段类型是否一致;
若一致,则确定所述元数据信息与所述预设机密信息匹配;
若不一致,则将所述元数据信息发送至人工判断通道,并在接收到所述人工判断通道基于所述元数据信息发送的确认信息时,确定所述元数据信息与所述预设机密信息匹配。
7.如权利要求1-6任一项所述的机密信息标识方法,其特征在于,所述若匹配,则将所述元数据信息标识为机密信息的步骤之后,所述方法还包括:
将所述元数据信息写入预设机密信息定义库中,以将所述元数据信息中的字段中文名称、字段英文名称和字段类型分别加入对应的通用中文名称、通用英文名称和通用字段类型中,以得到更新后的机密信息定义库。
8.一种机密信息标识装置,其特征在于,所述机密信息标识装置包括:
扫描模块,用于当检测到开发发布文件时,扫描所述开发发布文件对应的脚本,以得到所述开发发布文件对应的DDL脚本;
解析模块,用于对所述DDL脚本进行解析,以提取所述DDL脚本对应的元数据信息;
确定模块,用于确定所述元数据信息与预设机密信息定义库中的预设机密信息是否匹配;
标识模块,用于若匹配,则将所述元数据信息标识为机密信息。
9.一种机密信息标识设备,其特征在于,所述机密信息标识设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的机密信息标识程序,所述机密信息标识程序被所述处理器执行时实现如权利要求1至7中任一项所述的机密信息标识方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有机密信息标识程序,所述机密信息标识程序被处理器执行时实现如权利要求1至7中任一项所述的机密信息标识方法的步骤。
CN201910448949.0A 2019-05-27 2019-05-27 机密信息标识方法、装置、设备与计算机可读存储介质 Pending CN110188568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910448949.0A CN110188568A (zh) 2019-05-27 2019-05-27 机密信息标识方法、装置、设备与计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910448949.0A CN110188568A (zh) 2019-05-27 2019-05-27 机密信息标识方法、装置、设备与计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110188568A true CN110188568A (zh) 2019-08-30

Family

ID=67718087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910448949.0A Pending CN110188568A (zh) 2019-05-27 2019-05-27 机密信息标识方法、装置、设备与计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110188568A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143829A (zh) * 2019-12-25 2020-05-12 北京天融信网络安全技术有限公司 一种任务危险程度的确定方法、装置、电子设备及存储介质
CN111563142A (zh) * 2020-07-14 2020-08-21 成都四方伟业软件股份有限公司 一种sql自动对标的匹配方法及装置
CN111767266A (zh) * 2020-05-15 2020-10-13 杭州传化智能制造科技有限公司 实体联系模型设计方法、装置、计算机设备和存储介质
CN111814164A (zh) * 2020-07-07 2020-10-23 亿度慧达教育科技(北京)有限公司 信息加密方法、解密方法、脱敏方法及其相关装置
CN113742450A (zh) * 2021-08-30 2021-12-03 中信百信银行股份有限公司 用户数据等级落标的方法、装置、电子设备和存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143829A (zh) * 2019-12-25 2020-05-12 北京天融信网络安全技术有限公司 一种任务危险程度的确定方法、装置、电子设备及存储介质
CN111143829B (zh) * 2019-12-25 2022-04-26 北京天融信网络安全技术有限公司 一种任务危险程度的确定方法、装置、电子设备及存储介质
CN111767266A (zh) * 2020-05-15 2020-10-13 杭州传化智能制造科技有限公司 实体联系模型设计方法、装置、计算机设备和存储介质
CN111814164A (zh) * 2020-07-07 2020-10-23 亿度慧达教育科技(北京)有限公司 信息加密方法、解密方法、脱敏方法及其相关装置
CN111563142A (zh) * 2020-07-14 2020-08-21 成都四方伟业软件股份有限公司 一种sql自动对标的匹配方法及装置
CN113742450A (zh) * 2021-08-30 2021-12-03 中信百信银行股份有限公司 用户数据等级落标的方法、装置、电子设备和存储介质
CN113742450B (zh) * 2021-08-30 2023-05-30 中信百信银行股份有限公司 用户数据等级落标的方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110188568A (zh) 机密信息标识方法、装置、设备与计算机可读存储介质
US20220308942A1 (en) Systems and methods for censoring text inline
US10614167B2 (en) Translation review workflow systems and methods
CN108509400B (zh) 单据模板生成方法、装置、计算机设备和存储介质
US11972201B2 (en) Facilitating auto-completion of electronic forms with hierarchical entity data models
US9754120B2 (en) Document redaction with data retention
CN109783787A (zh) 一种结构化文档的生成方法、装置及存储介质
CN111417949A (zh) 数字文档的基于内容的变换
US11514188B1 (en) System and method for serving subject access requests
CN112671734B (zh) 面向多数据源的报文处理方法及其相关设备
CN110427188A (zh) 单测断言程序的配置方法、装置、设备及存储介质
US20200364343A1 (en) Systems and methods for automated system requirement analysis
US20150095356A1 (en) Automatic keyword tracking and association
CN110532529A (zh) 一种文件类型的识别方法及装置
CN110020358A (zh) 用于生成动态页面的方法和装置
CN111897528A (zh) 一种面向企业在线教育的低代码平台
US20210256094A1 (en) Systems and methods for document management classification, capture and search
US9898467B1 (en) System for data normalization
CN108874944B (zh) 一种基于xsl语言转换的异构数据映射系统及方法
US10956659B1 (en) System for generating templates from webpages
CN108694172B (zh) 信息输出方法和装置
CN110134920A (zh) 绘文字兼容显示方法、装置、终端及计算机可读存储介质
CN112685389B (zh) 数据管理方法、数据管理装置、电子设备及存储介质
CN107122381A (zh) 文件生成方法及装置和数据分析方法及装置
CN111597453B (zh) 用户画像方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination