CN110909224A - 一种基于人工智能的敏感数据自动分类识别方法及系统 - Google Patents

一种基于人工智能的敏感数据自动分类识别方法及系统 Download PDF

Info

Publication number
CN110909224A
CN110909224A CN201911155467.2A CN201911155467A CN110909224A CN 110909224 A CN110909224 A CN 110909224A CN 201911155467 A CN201911155467 A CN 201911155467A CN 110909224 A CN110909224 A CN 110909224A
Authority
CN
China
Prior art keywords
data
sensitive data
sensitive
module
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911155467.2A
Other languages
English (en)
Other versions
CN110909224B (zh
Inventor
马新强
刘勇
杨建党
刘丽娜
钟保权
黄羿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911155467.2A priority Critical patent/CN110909224B/zh
Publication of CN110909224A publication Critical patent/CN110909224A/zh
Application granted granted Critical
Publication of CN110909224B publication Critical patent/CN110909224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于人工智能的敏感数据自动分类识别方法及系统,涉及数据安全技术领域,其中一种基于人工智能的敏感数据自动分类识别方法,包括以下步骤:S1:获取数据训练集;S2:分类建立敏感数据集;S3:对具体敏感数据进行识别;S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。本发明一种基于人工智能的敏感数据自动分类识别方法及系统将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升。

Description

一种基于人工智能的敏感数据自动分类识别方法及系统
技术领域
本发明涉及数据安全技术领域,
尤其是,本发明涉及一种基于人工智能的敏感数据自动分类识别方法及系统。
背景技术
随着大数据时代的到来,数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息与关键性敏感数据保护方面的困难。如何在实现数据高效共享的同时,保护敏感信息不被泄露,已成为数据安全智能开发的关键环节。首先就是如何识别敏感数据,敏感数据的定义是什么,有哪些依赖,应用程序是十分复杂并且完整的。知道敏感信息在哪,并且知道哪些数据参考了这些敏感数据是非常困难的。现有两种方式来识别敏感数据。第一种是通过人工指定,比如通过正则来指定敏感数据的格式;第二种方式就是自动识别。比如基于数据特征学习和自然语言处理等技术进行敏感数据识别的自动识别方案。敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容,在这一过程中明确,用于脱敏策略制定的依据。
当前国内外数据安全解决方案提供商的研究主要集中在以下两点:一是敏感数据智能准确识别技术;二是数据脱敏算法与规则的优化。目前国内外还没有能提供成熟完善的敏感数据智能准确分类和识别的解决方案。随着人工智能技术的不断发展,同样需要顺应信息化到智能化发展的需要,开展各种智能识别、数据安全智能技术的研发工作。
所以,如何设计一种基于人工智能的敏感数据自动分类识别方法或者系统,成为我们当前急需要解决的问题。
发明内容
本发明的目的在于提供一种简单实用,将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升的基于人工智能的敏感数据自动分类识别方法。
为达到上述目的,本发明采用如下技术方案得以实现的:
一种基于人工智能的敏感数据自动分类识别方法,该方法包括以下步骤:
S1:获取数据训练集;
S2:使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集;
S3:使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别;
S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
作为本发明的优选,执行步骤S1具体包括:
S11:获取相关企业及政府部分的各类数据;
S12:清洗所有数据,获得所需数据;
S13:将所需数据整理为训练数据集。
作为本发明的优选,执行步骤S2具体包括:
S21:设置分类学习模型结构为两种模型,包含决策树和支持向量机模型:
决策树模型,根据训练数据集,从根结点开始,根据基尼指数最小的特征,递归地对每个结点进行CART决策树生成算法操作,构建二叉决策树,对决策树进行剪枝,得到用于分类的最优子树;
支持向量机模型,对有N个数据的训练数据集,选取适当的核函数
Figure 100002_DEST_PATH_IMAGE002
和适当的参数C,构造并求解最优化问题:
Figure 100002_DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE006
求得最优解
Figure 100002_DEST_PATH_IMAGE008
,再构造决策函数,得到用于分类的支持向量机;
S22:界定安全标,包括:系统运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
S23:安全子目标分解,达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息系统中的数据项对应的安全子标;
S24:影响因素分析,针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息系统中的数据项,即数据项集合。同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
S25:敏感数据分类确认,对多个安全子目标的影响因素分解结果对应的系统数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
作为本发明的优选,执行步骤S3具体包括:
S31:设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
S32:读取步骤S25获得的敏感数据所属的种类,使用识别学习模型分析内部结构;
S33:向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
作为本发明的优选,执行步骤S4具体包括:
S41:将所述测试数据进行预处理,生成能够用于训练的数据;
S42:将所述测试数据输入分类学习模型,确定敏感数据及其分类;
S43:将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
S44:输出测试数据的特征识别结果。
另一方面,本发明中另外还提供一种基于人工智能的敏感数据自动分类识别系统,该系统包括:
训练数据生成模块,用于获取需要分类和识别的数据,并整理为训练数据和测试数据;
数据分类模型训练模块,通过训练数据的训练得到能够对敏感数据进行分类的分类器;
数据识别模型训练模块,通过训练数据的训练得到能够对敏感数据进行识别的识别器;
敏感数据自动分类和识别模块,用于输入测试数据至分类器和识别器中,输出识别好的敏感数据;
训练数据生成模块获取数据训练集,数据分类模型训练模块使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集,数据识别模型训练模块使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别,敏感数据自动分类和识别模块获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
作为本发明的优选,本发明一种基于人工智能的敏感数据自动分类识别系统中,训练数据生成模块包括:
数据获取模块,用于获取相关企业及政府部分的各类数据;
数据清洗模块,用于清洗所有数据,获得所需数据;
数据整理模块,用于将所需数据整理为训练数据集。
作为本发明的优选,本发明一种基于人工智能的敏感数据自动分类识别系统中,数据分类模型训练模块包括:
分类模型预设模块,用于设置分类学习模型结构,包含决策树和支持向量机模型;
安全标界定模块,用于界定安全标包括:系统运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
安全子目标分解模块,用于达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息系统中的数据项对应的安全子标;
影响因素分析模块,用于针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息系统中的数据项,即数据项集合。同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
敏感数据分类确认模块,用于对多个安全子目标的影响因素分解结果对应的系统数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
作为本发明的优选,本发明一种基于人工智能的敏感数据自动分类识别系统中,数据识别模型训练模块包括:
识别模型预设模块,用于设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
结构分析模块,用于根据敏感数据分类确认模块获得敏感数据所属的种类,使用识别学习模型分析内部结构;
敏感数据识别确认模块,用于向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
作为本发明的优选,本发明一种基于人工智能的敏感数据自动分类识别系统中,敏感数据自动分类和识别模块包括:
测试数据预处理模块,用于将所述测试数据进行预处理,生成能够用于训练的数据;
测试数据分类模块,用于将所述测试数据输入分类学习模型,确定敏感数据及其分类;
测试敏感数据识别模块,将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
测试数据结果输出模块,用于输出测试数据的特征识别结果。
本发明一种基于人工智能的敏感数据自动分类识别方法及系统有益效果在于:简单实用,将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升,且解决了现有技术存在的实际运用中需要专业人员对正则识别规则维护,敏感数据识别率差的技术问题。
附图说明
图1为本发明一种基于人工智能的敏感数据自动分类识别方法的流程示意图;
图2为本发明一种基于人工智能的敏感数据自动分类识别方法的整体网络架构示意图;
图3为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S1的具体流程示意图;
图4为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S2的具体流程示意图;
图5为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S3的具体流程示意图;
图6为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S4的具体流程示意图;
图7为本发明一种基于人工智能的敏感数据自动分类识别系统的模块连接示意图。
具体实施方式
以下是本发明的具体实施例,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的模块和步骤的相对布置和步骤不限制本发明的范围。
同时,应当明白,为了便于描述,附图中的流程并不仅仅是单独进行,而是多个步骤相互交叉进行。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论,但在适当情况下,技术、方法及系统应当被视为授权说明书的一部分。
实施例一
如图1至6所示,仅为本发明的其中一个实施例,本发明提供一种基于人工智能的敏感数据自动分类识别方法,
参阅图1和图2,本方法通过人工智能的思想,对相关企业和政府地敏感数据进行分类学习,并对其分类,分类好的数据进行识别学习,得到识别后地敏感数据,本方法包括以下步骤:
S1:获取数据训练集;
合法合规的获取相关企业及政府部分的各类数据,对这部分数据进行清洗,获得模型训练需要的数据,并将所需数据整理为训练数据集
S2:使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集;
首先设置分类学习模型结构为两种模型,包含决策树和支持向量机模型。得到分类模型后,人为的界定安全标,然后对安全子目标进行分解,再进行影响因素分析,最后对敏感数据分类确认。
S3:使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别;
设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,获得敏感数据所属的种类以及内部结构,向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
如图3所示,执行步骤S1具体包括:
S11:获取相关企业及政府部分的各类数据;在这里应当合法合规的获取相关企业及政府部分的各类数据;
S12:清洗所有数据,获得所需数据;清洗数据为获取的所有相关企业及政府部分的各类数据,取出有价值的数据信息,获得模型训练需要的数据。;
S13:将所需数据整理为训练数据集。
如图4所示,执行步骤S2具体包括:
S21:设置分类学习模型结构,为两种模型,包含决策树和支持向量机模型:
其中决策树模型,根据训练数据集,从根结点开始,根据基尼指数最小的特征,递归地对每个结点进行CART决策树生成算法操作,构建二叉决策树,对决策树进行剪枝,得到用于分类的最优子树;
另外支持向量机模型,对有N个数据的训练数据集,选取适当的核函数
Figure 100002_DEST_PATH_IMAGE010
和适当的参数C,构造并求解最优化问题:
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
求得最优解
Figure DEST_PATH_IMAGE016
,再构造决策函数,得到用于分类的支持向量机;
S22:人为的界定安全标,包括:系统运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
S23:对安全子目标进行分解,达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息系统中的数据项对应的安全子标,如个人信息安全,可以分解为:用户姓名、家庭住址、身份证号和手机号等;
S24:影响因素分析,针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息系统中的数据项,即数据项集合。同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项,在这里影响目标越多的数据项敏感性越高;
S25:敏感数据分类确认,对多个安全子目标的影响因素分解结果对应的系统数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
如图5所示,执行步骤S3具体包括:
S31:设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,依靠神经网络超强的非线性拟合能力,在训练时将样本通过高维空间中的复杂非线性变换,学习到从样本到标注的函数,之后使用这个函数为指定的样本预测每个token的标注,CRF通过引入自定义的特征函数,不仅可以表达观测之间的依赖,还可表示当前观测与前后多个状态之间的复杂依赖;
其中Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出,具体表达如下:
假设该函数集为
Figure DEST_PATH_IMAGE018
,其中
Figure DEST_PATH_IMAGE020
表示观测序列,
Figure DEST_PATH_IMAGE022
表示状态序列,CRF使用对数线性模型来计算给定观测序列下状态序列的条件概率:
Figure DEST_PATH_IMAGE024
,训练CRF模型对参数w估计,通过极大似然得到最优的w参数估计;
S32:读取步骤S25获得的敏感数据所属的种类,使用识别学习模型分析内部结构,通过学习到内部结构特征对敏感数据进行识别;
S33:向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
如图6所示,执行步骤S4具体包括:
S41:将所述测试数据进行预处理,生成能够用于训练的数据;
S42:将所述测试数据输入分类学习模型,确定敏感数据及其分类;
S43:将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
S44:输出测试数据的特征识别结果。
本发明一种基于人工智能的敏感数据自动分类识别方法简单实用,将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升。
实施例三
如图7所示,本发明还提供一种基于人工智能的敏感数据自动分类识别系统,该系统包括:
训练数据生成模块,用于获取需要分类和识别的数据,并整理为训练数据和测试数据;
数据分类模型训练模块,通过训练数据的训练得到能够对敏感数据进行分类的分类器;
数据识别模型训练模块,通过训练数据的训练得到能够对敏感数据进行识别的识别器;
敏感数据自动分类和识别模块,用于输入测试数据至分类器和识别器中,输出识别好的敏感数据;
训练数据生成模块获取数据训练集,数据分类模型训练模块使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集,数据识别模型训练模块使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别,敏感数据自动分类和识别模块获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
在本发明一种基于人工智能的敏感数据自动分类识别系统中,训练数据生成模块包括:
数据获取模块,用于获取相关企业及政府部分的各类数据;
数据清洗模块,用于清洗所有数据,获得所需数据;
数据整理模块,用于将所需数据整理为训练数据集。
在这里,数据获取模块、数据清洗模块和数据整理模块依次相连。
在本发明一种基于人工智能的敏感数据自动分类识别系统中,数据分类模型训练模块包括:
分类模型预设模块,用于设置分类学习模型结构,包含决策树和支持向量机模型;
决策树和支持向量机模型这两模型同时接受输入的训练输出,同时输出分类结果,根据一个联合决策规则,输出最终的分类结果。
安全标界定模块,用于界定安全标包括:系统运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
安全子目标分解模块,用于达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息系统中的数据项对应的安全子标;
影响因素分析模块,用于针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息系统中的数据项,即数据项集合。同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
敏感数据分类确认模块,用于对多个安全子目标的影响因素分解结果对应的系统数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
同样的,分类模型预设模块、安全标界定模块、安全子目标分解模块、影响因素分析模块和敏感数据分类确认模块依次相连。
在本发明一种基于人工智能的敏感数据自动分类识别系统中,数据识别模型训练模块包括:
识别模型预设模块,用于设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,训练CRF模型对参数w估计,通过极大似然得到最优的w参数估计,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
结构分析模块,用于根据敏感数据分类确认模块获得敏感数据所属的种类,使用识别学习模型分析内部结构;
敏感数据识别确认模块,用于向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
当然的,识别模型预设模块、结构分析模块和敏感数据识别确认模块依次相连。
在本发明一种基于人工智能的敏感数据自动分类识别系统中,敏感数据自动分类和识别模块包括:
测试数据预处理模块,用于将所述测试数据进行预处理,生成能够用于训练的数据;
测试数据分类模块,用于将所述测试数据输入分类学习模型,确定敏感数据及其分类;
测试敏感数据识别模块,将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
测试数据结果输出模块,用于输出测试数据的特征识别结果。
显而易见的,测试数据预处理模块、测试数据分类模块、测试敏感数据识别模块和测试数据结果输出模块依次相连。
本发明一种基于人工智能的敏感数据自动分类识别方法及系统简单实用,将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围,本发明所属技术领域的技术人员可以对所描述的具体实施例来做出各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的方向或者超越所附权利要求书所定义的范围。本领域的技术人员应该理解,凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。

Claims (10)

1.一种基于人工智能的敏感数据自动分类识别方法,其特征在于,包括以下步骤:
S1:获取数据训练集;
S2:使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集;
S3:使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别;
S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
2.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:
执行步骤S1具体包括:
S11:获取相关企业及政府部分的各类数据;
S12:清洗所有数据,获得所需数据;
S13:将所需数据整理为训练数据集。
3.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:
执行步骤S2具体包括:
S21:设置分类学习模型结构为两种模型,包含决策树和支持向量机模型:
决策树模型,根据训练数据集,从根结点开始,根据基尼指数最小的特征,递归地对每个结点进行CART决策树生成算法操作,构建二叉决策树,对决策树进行剪枝,得到用于分类的最优子树;
支持向量机模型,对有N个数据的训练数据集,选取适当的核函数
Figure DEST_PATH_IMAGE002
和适当的参数C,构造并求解最优化问题:
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
求得最优解
Figure DEST_PATH_IMAGE010
,再构造决策函数,得到用于分类的支持向量机;
S22:界定安全标,包括:系统运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
S23:安全子目标分解,达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息系统中的数据项对应的安全子标;
S24:影响因素分析,针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息系统中的数据项,即数据项集合;同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
S25:敏感数据分类确认,对多个安全子目标的影响因素分解结果对应的系统数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
4.根据权利要求3所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:
执行步骤S3具体包括:
S31:设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
S32:读取步骤S25获得的敏感数据所属的种类,使用识别学习模型分析内部结构;
S33:向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
5.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:
执行步骤S4具体包括:
S41:将所述测试数据进行预处理,生成能够用于训练的数据;
S42:将所述测试数据输入分类学习模型,确定敏感数据及其分类;
S43:将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
S44:输出测试数据的特征识别结果。
6.一种基于人工智能的敏感数据自动分类识别系统,其特征在于,包括:
训练数据生成模块,用于获取需要分类和识别的数据,并整理为训练数据和测试数据;
数据分类模型训练模块,通过训练数据的训练得到能够对敏感数据进行分类的分类器;
数据识别模型训练模块,通过训练数据的训练得到能够对敏感数据进行识别的识别器;
敏感数据自动分类和识别模块,用于输入测试数据至分类器和识别器中,输出识别好的敏感数据;
训练数据生成模块获取数据训练集,数据分类模型训练模块使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集,数据识别模型训练模块使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别,敏感数据自动分类和识别模块获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
7.根据权利要求6所述的一种基于人工智能的敏感数据自动分类识别系统,其特征在于:
训练数据生成模块包括:
数据获取模块,用于获取相关企业及政府部分的各类数据;
数据清洗模块,用于清洗所有数据,获得所需数据;
数据整理模块,用于将所需数据整理为训练数据集。
8.根据权利要求6所述的一种基于人工智能的敏感数据自动分类识别系统,其特征在于:
数据分类模型训练模块包括:
分类模型预设模块,用于设置分类学习模型结构,包含决策树和支持向量机模型;
安全标界定模块,用于界定安全标包括:系统运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
安全子目标分解模块,用于达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息系统中的数据项对应的安全子标;
影响因素分析模块,用于针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息系统中的数据项,即数据项集合,同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
敏感数据分类确认模块,用于对多个安全子目标的影响因素分解结果对应的系统数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
9.根据权利要求6所述的一种基于人工智能的敏感数据自动分类识别系统,其特征在于:
数据识别模型训练模块包括:
识别模型预设模块,用于设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
结构分析模块,用于根据敏感数据分类确认模块获得敏感数据所属的种类,使用识别学习模型分析内部结构;
敏感数据识别确认模块,用于向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
10.根据权利要求6所述的一种基于人工智能的敏感数据自动分类识别系统,其特征在于:
敏感数据自动分类和识别模块包括:
测试数据预处理模块,用于将所述测试数据进行预处理,生成能够用于训练的数据;
测试数据分类模块,用于将所述测试数据输入分类学习模型,确定敏感数据及其分类;
测试敏感数据识别模块,将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
测试数据结果输出模块,用于输出测试数据的特征识别结果。
CN201911155467.2A 2019-11-22 2019-11-22 一种基于人工智能的敏感数据自动分类识别方法及系统 Active CN110909224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911155467.2A CN110909224B (zh) 2019-11-22 2019-11-22 一种基于人工智能的敏感数据自动分类识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911155467.2A CN110909224B (zh) 2019-11-22 2019-11-22 一种基于人工智能的敏感数据自动分类识别方法及系统

Publications (2)

Publication Number Publication Date
CN110909224A true CN110909224A (zh) 2020-03-24
CN110909224B CN110909224B (zh) 2022-06-10

Family

ID=69818810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911155467.2A Active CN110909224B (zh) 2019-11-22 2019-11-22 一种基于人工智能的敏感数据自动分类识别方法及系统

Country Status (1)

Country Link
CN (1) CN110909224B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860767A (zh) * 2020-06-08 2020-10-30 华南师范大学 善恶分明的人工智能伦理规则实现方法、系统和机器人
CN111860580A (zh) * 2020-06-09 2020-10-30 北京百度网讯科技有限公司 识别模型获取及类别识别方法、装置及存储介质
CN112507376A (zh) * 2020-12-01 2021-03-16 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN113569293A (zh) * 2021-08-12 2021-10-29 明品云(北京)数据科技有限公司 一种相似用户的获取方法、系统、电子设备及介质
CN113743542A (zh) * 2021-11-05 2021-12-03 北京广通优云科技股份有限公司 一种基于加密流量的网络资产识别方法与系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN101359372A (zh) * 2008-09-26 2009-02-04 腾讯科技(深圳)有限公司 分类器的训练方法及装置、识别敏感图片的方法及装置
CN101470897A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 基于音视频融合策略的敏感影片检测方法
US20170032224A1 (en) * 2015-07-31 2017-02-02 Xiaomi Inc. Method, device and computer-readable medium for sensitive picture recognition
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
US20190354718A1 (en) * 2018-05-16 2019-11-21 Microsoft Technology Licensing, Llc. Identification of sensitive data using machine learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN101470897A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 基于音视频融合策略的敏感影片检测方法
CN101359372A (zh) * 2008-09-26 2009-02-04 腾讯科技(深圳)有限公司 分类器的训练方法及装置、识别敏感图片的方法及装置
US20170032224A1 (en) * 2015-07-31 2017-02-02 Xiaomi Inc. Method, device and computer-readable medium for sensitive picture recognition
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
US20190354718A1 (en) * 2018-05-16 2019-11-21 Microsoft Technology Licensing, Llc. Identification of sensitive data using machine learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
滕千礼等: ""采用运动传感器的人体运动识别深度模型"", 《西安交通大学学报》 *
滕千礼等: ""采用运动传感器的人体运动识别深度模型"", 《西安交通大学学报》, 30 August 2018 (2018-08-30), pages 60 - 66 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860767A (zh) * 2020-06-08 2020-10-30 华南师范大学 善恶分明的人工智能伦理规则实现方法、系统和机器人
CN111860767B (zh) * 2020-06-08 2023-07-25 华南师范大学 善恶分明的人工智能伦理规则实现方法、系统和机器人
CN111860580A (zh) * 2020-06-09 2020-10-30 北京百度网讯科技有限公司 识别模型获取及类别识别方法、装置及存储介质
CN111860580B (zh) * 2020-06-09 2024-02-20 北京百度网讯科技有限公司 识别模型获取及类别识别方法、装置及存储介质
CN112507376A (zh) * 2020-12-01 2021-03-16 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN112507376B (zh) * 2020-12-01 2024-01-05 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN113569293A (zh) * 2021-08-12 2021-10-29 明品云(北京)数据科技有限公司 一种相似用户的获取方法、系统、电子设备及介质
CN113569293B (zh) * 2021-08-12 2024-06-07 明品云(北京)数据科技有限公司 一种相似用户的获取方法、系统、电子设备及介质
CN113743542A (zh) * 2021-11-05 2021-12-03 北京广通优云科技股份有限公司 一种基于加密流量的网络资产识别方法与系统
CN113743542B (zh) * 2021-11-05 2022-03-01 北京广通优云科技股份有限公司 一种基于加密流量的网络资产识别方法与系统

Also Published As

Publication number Publication date
CN110909224B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN110909224B (zh) 一种基于人工智能的敏感数据自动分类识别方法及系统
CN107835496B (zh) 一种垃圾短信的识别方法、装置和服务器
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN110348214B (zh) 对恶意代码检测的方法及系统
CN107590224B (zh) 基于大数据的用户偏好分析方法与装置
CN109871954B (zh) 训练样本生成方法、异常检测方法及装置
CN106951925A (zh) 数据处理方法、装置、服务器及系统
CN108229588B (zh) 一种基于深度学习的机器学习识别方法
CN109344258A (zh) 一种智能化自适应敏感数据识别系统及方法
CN113254643B (zh) 文本分类方法、装置、电子设备和
WO2019242442A1 (zh) 基于多模型特征的恶意软件识别方法、系统及相关装置
US11216512B2 (en) Accessible machine learning backends
CN111078876A (zh) 一种基于多模型集成的短文本分类方法和系统
CN114419363A (zh) 基于无标注样本数据的目标分类模型训练方法及装置
CN110276587A (zh) 项目审批的方法、装置、计算设备及计算机可读存储介质
CN110009045A (zh) 物联网终端的识别方法和装置
CN113723426A (zh) 基于深度多流神经网络的图像分类方法及装置
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN113254649B (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
Ali et al. Fake accounts detection on social media using stack ensemble system
CN113887214A (zh) 基于人工智能的意愿推测方法、及其相关设备
CN113283222A (zh) 自动化报表生成方法、装置、计算机设备及存储介质
CN111488950A (zh) 分类模型信息输出方法及装置
CN110750712A (zh) 基于数据驱动的软件安全需求推荐方法
CN115358473A (zh) 基于深度学习的电力负荷预测方法及预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant