CN113065330A

CN113065330A - 一种从非结构化数据中提取敏感信息的方法

Info

Publication number: CN113065330A
Application number: CN202110304719.4A
Authority: CN
Inventors: 黄诚; 郭勇延; 刘嘉勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-02

Abstract

本申请涉及信息安全技术领域，提供了一种非结构化数据中提取敏感信息的方法。所述敏感信息涵盖GB/T 35273‑2017《信息安全技术个人信息安全规范》中包含的个人敏感信息类型。所述方法包括：使用解析工具对各种非结构文档文本进行解析获取其中的文本内容。对非结构化文本进行预处理，具体包括特殊信息替换、文本清洗和文本分割得到文本序列。采用基于深度学习的序列标注模型（BERT‑BiLSTM‑Attention）对文本序列中的敏感信息进行自动标注。所述方法结合了基于文本内容和基于上下文语义分析技术，可以更加全面、准确的提取敏感信息。

Description

一种从非结构化数据中提取敏感信息的方法

技术领域

本发明涉及一种从非结构化数据中提取敏感信息的方法，属于信息安全技术领域。

背景技术

随着互联网的普及和人们对互联网的依赖，大量涉及个人隐私的敏感信息在互联网上存储和传播，大规模的敏感信息泄露事件层出不穷。这些信息一旦被泄露、非法提供或滥用可能导致重大的合同或法律责任，严重损害个人形象和声誉，危及人身和财产安全。然而，包含敏感信息的数据大多是数据结构不规则或者不完整的非结构化数据，比如文本、图像、音频、视频等各种格式和类型的文件。所以，对敏感信息的保护首先要做到的是找到一种敏感信息提取方法，从而可以在大规模的非结构化数据中全面、快速、准确的提取敏感信息，然后通过相关的隐私保护策略对其加以保护。

近年来，对于敏感信息泄露的识别一直是学术界研究的热点。目前现有的敏感信息识别技术主要可以归为两类，分别是基于文本内容分析和基于上下文语义分析。基于文本内容分析是对存储和传输中的数据，通常是对非结构化数据的内容本身进行检测，比如正则匹配技术、数据指纹技术。基于上下文语义分析则是通过对待检测的数据周围相关的上下文信息进行上下文分析，常见的技术包括机器学习、自然语言处理技术。

上述两种敏感信息提取方法，基于文本内容分析技术虽然可以对敏感信息进行精确的提取，但是该技术适用的敏感信息非常有限，要求信息具有明显的特征，例如可以构建正则表达式、特定的数据指纹等。基于上下文语义分析通常基于机器学习，利用数据上下文特征提取数据中的敏感信息，该方法无需直接对敏感信息进行检测，但是收集上下文信息具有一定难度。

发明内容

有鉴于此，本发明的目的是提供一种从非结构化数据中提取敏感信息的方法。该方法融合了基于文本内容分析和基于上下文语义分析。在基于文本内容分析，对信息安全领域具有特殊规则的信息预处理为自然语言形式；在基于上下文语义分析方面，构建了一个基于深度学习的序列标注模型(BERT-BiLSTM-Attention)，其中采用动态词向量BERT对敏感信息中一词多义的特殊情况根据语境生成不同的词向量，并采用BiLSTM-Attention模型提取文本序列中的上下文特征，从而标注文本中的敏感信息。该方法能够在海量非结构化数据中准确、高效的提取敏感信息。

为了达到上述目的，本发明提供一种从非结构化数据中提取敏感信息的方法。根据国家标准GB/T 35273-2017《信息安全技术个人信息安全规范》，所述敏感信息的类型具体包括个人基本资料，个人身份信息，网络身份标识信息，个人健康生理信息，个人教育工作信息，个人财产信息，个人通信信息，联系人信息，个人上网记录，个人常用设备信息，个人位置信息。

所述方法包括：

步骤1、使用预处理解析工具从文本文档中解析并提取出非结构化文本。所述文本文档具体包括纯文本文档和富文本文档；

步骤2、对步骤1所述的非结构化文本进行预处理：对文本中的特殊信息进行替换、文本清洗和文本分割得到文本序列；

步骤3、构建基于深度学习的序列标注模型对文本序列中的敏感信息进行标注。所述序列标注模型称为BERT-BiLSTM-Attention模型。通过BERT-BiLSTM-Attention模型对步骤2所述的文本序列中的敏感信息进行标注。

可选地，所述步骤2中文本的预处理过程包括：

步骤21、特殊信息替换：所述特殊信息为信息安全领域中具有特殊格式、可以构造出正则表达式的信息(IP地址、MAC地址、API KEY/Token、密钥、邮箱地址、URL)，将这类信息使用正则匹配提取并替换为“信息类型信息属性”的自然语言形式；

步骤22、文本清洗：删除所有的非ASCII码的字符并且删除每行开头和结束位置的空白符；将大写字母转化为小写字母；对于英文文本的预处理，使用NLTK库进行词形还原；

步骤23、文本分割：文本的分句按照每行为一句的原则将文本分为若干个句子；对文本中的每个句子使用WordPiece方法分词，最终得到文档的若干文本序列。

可选地，所述步骤3中的序列标注模型(BERT-BiLSTM-Attention)提取敏感信息的过程包括：

步骤31、词嵌入层：将步骤2所述的文本序列X输入预训练模型BERT，得到文本序列对应的词向量E；

步骤32、双向LSTM层：将步骤31所述的词向量输入双向LSTM层提取文本上下文特征，产生对应的隐状态表示H；

步骤33、Attention层：将步骤32所述的隐状态输入Attention层，提取文本序列中的关键信息，生成新的隐状态表示L；

步骤34、全连接层：将步骤33所述的新的隐状态表示作为全连接层的输入，使用激活函数softmax计算每个词的类别概率分布，得到对应的标注标签。标注策略采用BIO策略，B为敏感信息的起始位置，I为敏感信息其他部分，O为非敏感信息；

步骤35、根据BIO标注原则和步骤34所述的标注标签，提取其中的敏感信息实体。

可选地，所述步骤3的序列标注模型训练方法包括：

步骤a、收集包含敏感信息的文档，按照步骤2所述的方法进行预处理，人工对其中的敏感信息按照BIO策略进行标注，得到训练集；

步骤b、采用BERT预训练模型对步骤a所述的训练集文本序列生成词向量；

步骤c、训练BiLSTM-Attention序列标注模型；

步骤d、对模型进行评估，通过参数调整改进模型；

步骤e、结束训练，输出训练好的序列标注模型。

与现有技术相比，本申请具有以下有益效果：

1、本发明提供一种从非结构化数据中提取敏感信息的方法。该方法融合了基于文本内容分析和基于上下文语义分析。所述敏感信息涉及国家标准GB/T 35273-2017《信息安全技术个人信息安全规范》中的个人敏感信息，具体类型包括个人基本资料，个人身份信息，网络身份标识信息，个人健康生理信息，个人教育工作信息，个人财产信息，个人通信信息，联系人信息，个人上网记录，个人常用设备信息，个人位置信息。

2、本发明针对常见敏感信息文本的特点，对信息安全领域中具有特殊规则的信息(IP地址、MAC地址、API KEY/Token、密钥、邮箱地址、URL)采用正则匹配提取并替换为常规自然语言形式。这种处理可以使敏感信息文本更加接近于常规自然语言，可以避免出现大量的未登录词(OOV)。

3、本发明提出了一个基于深度学习的序列标注模型(BERT-BiLSTM-Attention)。由于敏感信息中存在一词多义的现象，因此该模型采用BERT动态词向量模型作为词嵌入层，可以对同一个词根据不同的语境生成不同的词向量，更加有效的对文本进行表征；另外该模型融入了注意力机制，可以让模型关注重要的信息，而不是全部的信息，因此可以更加有效的利用文本的上下文特征。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍。

图1是本发明实施例采用的非结构化数据中敏感信息抽取流程图。

图2是本发明实施例采用的非结构化数据预处理流程图。

图3是本发明实施例采用的BERT-BiLSTM-Attention序列标注模型结构图。

图4是本发明实施例采用的BERT-BiLSTM-Attention训练流程图。

具体实施方式

下面结合实施例及附图对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供一种从非结构化数据中敏感数据提取技术的方法。

本实施例中，根据国家标准GB/T 35273-2017《信息安全技术个人信息安全规范》，所述敏感信息的类型具体包括个人基本资料，个人身份信息，网络身份标识信息，个人健康生理信息，个人教育工作信息，个人财产信息，个人通信信息，联系人信息，个人上网记录，个人常用设备信息，个人位置信息。

示例地，所述个人基本资料包括个人姓名、生日、性别、民族、国籍、家庭关系、住址、个人电话号码、电子邮箱。

示例地，所述个人身份信息包括身份证、军官证、护照、驾驶证、工作证、出入证、社保卡、居住证信息。

示例地，所述网络身份标识信息包括系统账号、IP地址、邮箱地址及与前述有关的密码、口令、口令保护答案、用户个人数字证书。

示例地，所述个人健康生理信息包括个人因生病医治等产生的相关记录，如病症、住院志、医嘱单、检验报告、手术及麻醉记录、护理记录、用药记录、药物食物过敏信息、生育信息、以往病史、诊治情况、家族病史、现病史、传染病史等，以及与个人身体健康状况产生的相关信息，及体重、身高、肺活量。

示例地，所述个人教育工作信息包括个人职业、职位、工作单位、学历、学位、教育经历、工作经历、培训记录、成绩单。

示例地，所述个人财产信息包括银行账号、鉴别信息(口令)、存款信息(包括资金数量、支付收款记录等)、房产信息、信贷记录、征信信息、交易和消费记录、流水记录等，以及虚拟货币、虚拟交易、游戏类兑换码等虚拟财产信息。

示例地，所述个人通信信息包括通信记录和内容、短信、彩信、电子邮件，以及描述个人通信的数据(通常称为元数据)。

示例地，所述联系人信息包括通讯录、好友列表、群列表、电子邮件地址列表。

示例地，所述个人上网记录包括网站浏览记录、软件使用记录、点击记录。

示例地，所述个人常用设备信息包括硬件序列号、设备MAC地址、软件列表、唯一设备识别码等在内的描述个人常用设备基本情况的信息。

示例地，所述个人位置信息包括行s踪轨迹、精准定位信息、住宿信息、经纬度。

所述方法的流程图如图1所示，包括以下步骤：

步骤1、使用预处理解析工具对各种类型的文本文档进行解析获取其中的非结构化文本。所述文本文档包括纯文本文档和富文本文档。

示例地，步骤1中的富文本文档具体包括HTML、XML、pdf、doc、pst、rtf文件，纯文本具体包括txt文件。

示例地，步骤1中从富文本文件中解析出非结构化文本的预处理解析工具，具体包括HTMLParser、PDFLib、python-docx、libpst。

步骤2、对步骤1所述的非结构化文本进行预处理：特殊信息替换、文本清洗和文本分割得到文本序列。

示例地，所述步骤2中文本的预处理过程如图2所示，具体步骤包括：步骤21、特殊信息替换：所述特殊信息为信息安全领域中具有特殊格式、可以构造出正则表达式的信息(IP地址、MAC地址、API KEY/Token、密钥、邮箱地址、URL)，这类信息和自然语言的形式具有较大差异。因此，将这类信息使用正则匹配提取并替换为“信息类型信息属性”的自然语言形式，避免出现大量的未登录词(OOV)。

示例地，对具有特殊格式的信息构造出正则表达式，并在非结构化文本中匹配出这类信息。

示例地，IP地址的正则表达式为“^((2[0-4]\d|25[0-5]|[1-9]？\d|1\d{2})\.){3}(2[0-4]\d|25[0-5]|[1-9]？\d|1\d{2})$”。

示例地，MAC地址的正则表达式为“^([0-9a-fA-F][0-9a-fA-F]:){5}([0-9a-fA-F][0-9a-fA-F])$”。

示例地，URL的正则表达式为“[a-zA-z]+://[^\s]*”。

示例地，Email地址的正则表达式为“^([a-zA-Z0-9_\-\.]+)@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|(([a-zA-Z0-9\-]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]？)$”。

示例地，API key/Token(Google)的正则表达式为“AIza[0-9A-Za-z\-_]{35}”。

示例地，私钥和数字证书(RSA Private Key)的正则表达式为“-----BEGIN RSAPRIVATE KEY-----[\r\n]+(？:\w+:.+)*[\s]*(？:[0-9a-zA-Z+\/＝]{64,76}[\r\n]+)+[0-9a-zA-Z+\/＝]+[\r\n]+-----END RSAPRIVATE KEY----”。

示例地，对正则匹配得到的特殊信息替换为“信息类型信息属性”的自然语言形式，其中信息属性根据不同的信息类型有所不同。

示例地，IP地址的信息类型是“ip”,信息属性无。

示例地，MAC地址的信息类型是“mac”,信息属性无。

示例地，API key/Token的信息类型是“api key/token”,信息属性为API key/Token的厂商。

示例地，密钥和数字证书的信息类型是“key/certificate”,信息属性为密钥和数字证书的类型。

示例地，Email地址的信息类型是“email”,信息属性为用户名，域名。

示例地，URL的信息类型是“url”,信息属性为协议，域名，访问的文件。

示例地，对于一个Email地址“hacker123@gmail.com”，可以替换字符串为“emailhacker123 gmail”。

步骤22、文本清洗：删除所有的非ASCII码的字符并且删除每行开头和结束位置的空白符；将大写字母转化为小写字母；对于英文文本的预处理，使用NLTK库对每个词进行词形还原。

示例地，对于一个包含敏感信息的句子“kane2001w@gmail.com:kane1234”经过步骤21所述的特殊信息替换，得到字符串“email kane2001w gmail:kane1234”。再经过步骤23所述的文本分割，采用WordPiece方法进行分词得到文本序列“['email','kane','##200','##1','##w','gma','##il',':','kane','##12','##34']”。

步骤3、根据敏感信息周围的文本上下文特征构建一个基于深度学习的序列标注模型。所述序列标注模型称为BERT-BiLSTM-Attention模型。通过BERT-BiLSTM-Attention模型对步骤2所述的文本序列中的敏感信息进行标注。

示例地，步骤3所述的BERT-BiLSTM-Attention序列标注模型的结构图如图3所示。该模型分为4层，分别是BERT词嵌入层、双向LSTM层、Attention层和全连接层。

示例地，将步骤2所述的文本序列X输入词嵌入层，得到文本序列对应的词向量E。

示例地，词嵌入层采用动态词向量BERT。值得注意的是，敏感信息中经常会有一次多义的现象，例如一个人名一般情况下属于个人基本信息，但是人名也经常被用在鉴别信息(口令)中，此时人名就属于个人财产信息。动态词向量可以对同一个词根据语境产生不同的词向量。BERT预训练模型是Google发布的uncased_L-12_H-768_A-12模型，词向量的维度是768。

示例地，BiLSTM层采用的LSTM神经网络可以学习长期依赖信息。LSTM通过门结构删除或者增加细胞状态中的信息。LSTM的隐藏层当前时刻的状态是由上一时刻的状态和当前时刻输入计算生成的。在双向LSTM中，将前向LSTM的编码信息和反向LSTM的编码信息合并作为最终的输出。

示例地，经过BiLSTM层提取特征后，得到编码信息H。使用注意力机制让模型关注重要的信息，而不是全部的信息。在Attention层中，注意力矩阵捕获句子中每个词和所有相邻词的相似性，并根据词的重要性进行标注，生成新的隐状态表示L。

示例地，模型的最后一层是全连接层，根据隐状态表示L，使用激活函数softmax计算得到每个词的类别分布概率。然后通过概率分布得到对应的标注标签。标注策略采用BIO策略，B为敏感信息的起始位置，I为敏感信息其他部分，O为非敏感信息。

示例地，所述步骤3的序列标注模型训练流程如图4所示，具体步骤包括：

步骤a、收集包含敏感信息的文档，按照步骤2所述的方法进行预处理，人工对其中的敏感信息按照BIO策略进行标注，得到训练集。

示例地，对于文本序列“['email','kane','##200','##1','##w','gma','##il',':','kane','##12','##34']”。在该示例中的邮箱地址对应分类标签中的网络标识信息，所以“email、kane、##200、##1、##w、gma、##il”则标注为“B-N、I-N、I-N、I-N、I-N、I-N、I-N”；句中的“：”是分隔符，没有实际意义，故标注为“O”；句中最后的部分是邮箱的密码，对应分类标签中的个人财产信息，所以“kane、##12、##34”的标签为“B-F、I-F、I-F”。

步骤b、采用BERT预训练模型对步骤a所述的训练集文本序列生成词向量。

示例地，BERT采用Google发布的uncased_L-12_H-768_A-12模型，词向量的维度是768。

步骤c、训练BiLSTM-Attention序列标注模型。

示例地，模型训练的最大迭代次数为100，为了避免过拟合并且减少模型的训练模型的迭代次数，采用EarlyStopping监测验证集的loss，patience设置为5。采用十折交叉验证测试模型的效果。

示例地，模型的序列长度为32，batch size为1024，BiLSTM隐藏节点数为64、dropout为0.5、注意力机制类型为additive、注意力层激活函数为sigmoid、注意力权重向量维数为32、优化算法为Adam、学习率为0.001、激活函数为softmax。

步骤d、对模型进行评估，通过参数调整改进模型。

示例地，模型性能评估采用的指标包括准确率P、召回率R和F1值。

步骤e、结束训练，输出训练好的序列标注模型。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应该涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种从非结构化数据中提取敏感信息的方法，其特征在于，所述方法能够从非结构化数据中提取敏感信息；所述敏感信息涵盖GB/T 35273-2017 《信息安全技术个人信息安全规范》中涉及的个人敏感信息，具体类型包括个人基本资料，个人身份信息，网络身份标识信息，个人健康生理信息，个人教育工作信息，个人财产信息，个人通信信息，联系人信息，个人上网记录，个人常用设备信息，个人位置信息；

所述方法包括：

步骤1、使用预处理解析工具从文本文档中解析并提取出非结构化文本；

步骤2、对非结构化文本进行预处理：对文本中的特殊信息进行替换、文本清洗和文本分割得到文本序列；

步骤3、采用基于深度学习的序列标注模型（BERT-BiLSTM-Attention）对文本序列中的敏感信息进行标注。

2.根据权利要求1所述的非结构化数据中敏感信息提取方法，其特征在于，所述步骤2中，数据预处理的过程为：

步骤21、特殊信息替换：所述特殊信息为信息安全领域中具有特殊格式，构造出正则表达式的信息：IP地址、MAC地址、API KEY/Token、密钥、邮箱地址、URL，将这类信息使用正则匹配提取并替换为“信息类型信息属性”的自然语言形式；

步骤22、文本清洗：删除所有的非ASCII码的字符并且删除每行开头和结束位置的空白符；将大写字母转化为小写字母；对于英文文本的预处理，使用NLTK库对每个词进行词形还原；

步骤23、文本分割：文本的分句按行将文本分为若干个句子；对文本中的每个句子使用WordPiece方法分词，最终得到文档的文本序列集X。

3.根据权利要求1所述的非结构化数据中敏感信息提取方法，其特征在于，所述步骤3中，序列标注模型（BERT-BiLSTM-Attention）提取敏感信息的过程包括：

步骤31、词嵌入层：将步骤2所述的文本序列X输入动态词向量模型BERT，得到文本序列对应的词向量E；

步骤34、全连接层：将步骤33所述的新的隐状态表示作为全连接层的输入，使用激活函数softmax计算每个词的类别概率分布，得到对应的标注标签，标注策略采用BIO策略，B为敏感信息的起始位置，I为敏感信息其他部分，O为非敏感信息；

步骤35、根据BIO标注原则和步骤34所述的标注标签，提取其中的敏感信息实体，得到敏感信息抽取模型。

4.根据权利要求1所述的基于上下文的敏感信息提取方法，其特征在于，BERT-BiLSTM-Attention模型的训练过程包括：

步骤c、训练BiLSTM-Attention序列标注模型；

步骤d、对模型进行评估，通过参数调整改进模型；

步骤e、结束训练，输出训练好的序列标注模型。