CN109960727A

CN109960727A - 针对非结构化文本的个人隐私信息自动检测方法及系统

Info

Publication number: CN109960727A
Application number: CN201910147987.2A
Authority: CN
Inventors: 柯永振; 韩亚雄; 杨帅; 郭景
Original assignee: Tianjin Polytechnic University
Current assignee: Tianjin Polytechnic University
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-07-02
Anticipated expiration: 2039-02-28
Also published as: CN109960727B

Abstract

本发明提供了一种针对非结构化文本的个人隐私信息自动检测方法及系统，属于信息处理领域。该方法首先将非结构化文本划分为含有隐私信息的文本和不含有隐私信息的文本，然后从所述含有隐私信息的文本中识别出实体类信息，最后计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重，并根据得到的两个权重判断每个实体信息是否属于实体类隐私信息。本发明能够检测出文本中实体类的隐私信息，且具有非常大的实用价值，有效地替代了传统的人工检测方法，且大大提高了检测效率，降低了人员成本，为政府数据开放提供了强有力的技术支持。

Description

针对非结构化文本的个人隐私信息自动检测方法及系统

技术领域

本发明属于信息处理领域，具体涉及一种针对非结构化文本的个人隐私信息自动检测方法及系统。

背景技术

随着在政务数据开放方面逐步地加大力度，一些问题随之产生，如开放的政务数据中包含了企业的商业秘密和公民的个人隐私信息，这些数据的泄露将带来严重后果。政府在数据开放过程中应当保护个人隐私和商业秘密数据不被泄漏。根据2015年颁布的《电信和互联网用户个人信息保护规定》中的规定，用户的个人信息是指电信业务经营者和互联网信息服务提供者在提供服务的过程中收集的能够单独或者与其他信息结合识别用户的信息，包括用户姓名、出生日期、身份证件号码、住址等身份信息以及用户使用服务的号码、账号、时间、地点等日志信息。《全国人民代表大会常务委员会关于加强网络信息保护的决定》中也规定：国家保护能够识别公民个人身份和涉及公民个人隐私的电子信息。要想保护个人隐私信息，首先就需要将隐私信息检测出来。

目前的研究人员大多将研究的重点放在文本中的敏感信息检测上，但很少涉及隐私信息的检测。虽然隐私信息检测不同于敏感信息检测，但检测隐私信息的研究可以借鉴部分敏感信息检测的方法。但目前的方法并不足以精确地判断含有隐私信息的文档中哪些内容属于隐私信息的，也不能精确地表示出隐私信息在文本中的位置。Azad Dehghan和Cathal Gallagher等人(Azad Dehghan,Cathal Gallagher.Automated anonymization ofprotected personal data in clinical reports[C].SAS Conference Proceedings:Pharmaceutical Users Software Exchange,2017)设计了一种针对临床研究文件中的个人隐私数据的保护系统，他们对于文件中的实体类隐私信息进行识别时结合了预先定义的规则与机器学习的方法，其中机器学习方法主要用来提取文本中的特征信息。最后将识别到的实体类信息按照规则进行分类处理。但是这篇论文提出的模型不具有普遍适用性，该作者为了检测临床医学研究文档中的个人隐私信息而设计了很多的检测特征，如用药历史、吸烟史等，这种人工设计的特征决定了该模型必定具有局限性，如果换一种应用场景那么该模型就需要重新设计很多的检测特征。其次，该论文中提出的检测方法是基于一款较为成熟数据匿名工具“Blur”，这款工具可以用来消除数据中的一些特定的信息如行程中的日期等，但这款工具并不是设计用来消除特定数据中的隐私信息的。这篇论文作者的检测方法依赖于这款工具，同时也受到了这款工具中的方法的限制，进而使其模型的可扩展性受到了限制。

与检测非结构化数据中的隐私信息内容类似的，有学者研究并比较了多种社交媒体中的垃圾邮件检测技术，并重点比较了几种使用机器学习和基于邮件内容的过滤方法的应用场景，他们认为机器学习和人工神经网络的方法最适用于文本分类和字符识别问题。Francesco Di Cerbo和Slim Trabelsi(Di Cerbo F,Trabelsi S.Towards Personal DataIdentification and Anonymization Using Machine Learning Techniques[C].European Conference on Advances in Databases and InformationSystems.Springer,Cham,2018:118-126.)关注于在非结构化的大数据集中识别出个人数据，并且根据其类型做后续的匿名化处理。他们设计了一种基于监督学习的机器学习系统，根据个人信息的不同类型，如姓名、职业等，分别为对应的部分标注其类型，但是该方法的不足主要在于其采用的机器学习方法在处理自然语言构成的非结构化文本数据时精度不足，对一些特定的数据需要使用其他确定性的方法来辅助检测。如在该论文中提到了一个测试示例，其中在处理邮政地址类型的信息时使用了正则表达式匹配的方法来进行辅助检测。这些确定性方法需要手工制定特征模板，如该论文作者为美国邮政地址设计的用于匹配检测的正则表达式。此类手工设计的特征模板有两个主要的缺陷，一个缺陷是主观因素较强，比如虽然美国邮政地址的结构是确定的，但在设计特征模板时，不同的人可能会设计出不同的特征模板而影响最终检测的精度；另一个缺陷是这样的模板往往受到设计者知识的限制，还是以美国邮政地址为例，可能存在一些稀少的特殊格式地址，而模板的设计者却不了解这一点，其设计的特征模板也必然难以检测出此类的地址。

政府开放的数据格式很多，但最主要有两类：一类是结构化数据，如以CSV格式存放的数据。对于这类数据，可以通过检测相关的字段进行检测处理，比如通过“身份证”字段就可以检测出涉及隐私的个人身份信息，然后将中间8位使用“*”号代替即可以实现隐私保护。另一类是非结构化的数据，如法院的判决书、政府公文等非结构化文本，这类文本通常最接近人类的语言，且行文没有固定的规则，它也是信息公开中最常见的一种数据。

由于非结构化文本无法直接归纳提取文本中的信息集合，故而对于非结构化文本中隐私信息的检测难度是最大的，而其中往往又包含大量信息，如法院的判决书中包含的原告与被告的姓名、住址等信息。因此对非结构化文本中的隐私信息进行检测的意义非常重大。

目前用于检测非结构化数据中的隐私信息的工具非常少，加之人工检测的方式主观性强，缺少客观依据，而且受限于检测人员的专业知识水平和对隐私信息的尺度把握程度不同，检测的质量通常也得不到保证。

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种针对非结构化文本的个人隐私信息自动检测方法及系统，能够有效地检测出非结构化数据中的实体类隐私信息，大大提高了检测效率，并降低了人工成本。

本发明是通过以下技术方案实现的：

一种针对非结构化文本的个人隐私信息自动检测方法，所述方法首先将非结构化文本划分为含有隐私信息的文本和不含有隐私信息的文本，然后从所述含有隐私信息的文本中识别出实体类信息，最后计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重，并根据得到的两个权重判断每个实体信息是否属于实体类隐私信息。

所述方法包括：

(1)预处理：对非结构化文本进行预处理得到预处理后的文本；

(2)文本分类：对所述预处理后的文本进行分类，将其分为含有隐私信息的文本和不含有隐私信息的文本；

(3)命名实体识别：从所述含有隐私信息的文本中识别出实体类信息；

(4)识别结果精细化：分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重，得到每个实体类信息的两个权重；根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息。

所述步骤(1)的操作包括：

读取非结构化文本并构建字符字典；

读取非结构化文本并构建类别词典，所述类别词典中包括两种类别：隐私、非隐私；

将所述非结构化文本处理成多个批次的文本，每个批次的文本的大小根据文本分类器一次能够处理的最大文字数量确定；所述多个批次的文本即为预处理后的文本。

所述步骤(2)的操作包括：

利用文本分类器对预处理后的文本进行分类，将其分为含有隐私信息的文本和不含有隐私信息的文本。

所述文本分类器采用字符级卷积神经网络。

所述步骤(3)的操作包括：

(31)使用基线模型对所述含有隐私信息的文本进行识别得到与所述含有隐私信息的文本对应的一组n-best标注序列；

(32)将所述一组n-best标注序列进行泛化操作，得到新的泛化序列；

(33)将所述新的泛化序列中的每个标注序列依次输入到Re-ranking神经网络中得到每个标注序列的输出标注序列概率，然后利用每个标注序列的所述输出标注序列概率与该标注序列对应的经过基线模型得到的概率值进行差值计算得到该标注序列的最大联合概率；

(34)对一组n-best标注序列中的各个标注序列的最大联合概率进行排序，找到最大的最大联合概率，该最大的最大联合概率所对应的标注序列即为最佳标注序列；

(35)从所述最佳标注序列中找到非O的标注，各个非O的标注对应的信息即为实体类信息。

所述步骤(31)中的基线模型采用BILSTM-CRF模型；

所述步骤(33)中的Re-ranking神经网络采用BILSTM结构。

所述步骤(4)中的分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重，得到每个实体类信息的两个权重的操作包括：

使用TF-IDF算法分别计算每个所述实体类信息在含有隐私信息的文本中的权重S_sensi和在不含有隐私信息的文本中的权重S_non-sensi，即得到每个实体类信息的两个权重。

所述步骤(4)中的所述根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息的操作包括：

通过计算S_sensi-S_non-sensi得到权重的差值，然后判断所述权重的差值是否大于设定的阈值θ，如果是，则判定该实体类信息属于实体类隐私信息，如果否，则判定该实体类信息不属于实体类隐私信息。

相应地，本发明提供了一种针对非结构化文本的个人隐私信息自动检测系统，包括：预处理单元、文本分类单元、命名实体识别单元和识别结果精细化单元；

所述预处理单元：与所述文本分类单元连接，用于读取非结构化文本、构建字符字典和类别词典、将所述非结构化文本处理成多个批次的文本并将各个批次的文本发送给所述文本分类单元；

所述文本分类单元：分别与所述预处理单元、命名实体识别单元、识别结果精细化单元连接；所述文本分类单元利用文本分类器对各个批次的文本进行分类，将其分为含有隐私信息的文本和不含有隐私信息的文本，并分别将两个文本存储下来，同时将含有隐私信息的文本发送给命名实体识别单元，将含有隐私信息的文本和不含有隐私信息的文本发送给识别结果精细化单元；

所述命名实体识别单元：分别与所述文本分类单元、识别结果精细化单元连接；所述命名实体识别单元从所述含有隐私信息的文本中识别出实体类信息，并将识别出的实体类信息存储下来并发送给识别结果精细化单元；

所述识别结果精细化单元：分别与所述文本分类单元、命名实体识别单元连接；所述识别结果精细化单元分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重，得到每个实体类信息的两个权重；根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息。

与现有技术相比，本发明的有益效果是：本发明能够检测出非结构化数据中的实体类隐私信息，且无需任何人工制定的规则，只需要预先标注好的隐私信息分类数据集即可。实验表明该模型能够检测出文本中实体类的隐私信息，且具有非常大的实用价值，有效地替代了传统的人工检测方法，且大大提高了检测效率，降低了人员成本，为政府数据开放提供了强有力的技术支持。

附图说明

图1本发明针对非结构化文本的个人隐私信息自动检测方法的步骤框图；

图2基于字符级卷积神经网络的文本分类器；

图3命名实体识别及识别结果分析；

图4基于Re-ranking策略的中文NER模型；

图5本发明标注的隐私信息数据集示例；

图6随机选取的测试样例；

图7(a)原始文本中含有隐私信息的文本；

图7(b)原始文本中不含隐私信息的部分；

图8NER模型识别出的实体类信息。

具体实施方式

下面结合附图对本发明作进一步详细描述：

为了弥补缺乏自动检测非结构化数据中隐私信息工具的现状，本发明将自然语言处理(NLP)引入对非结构化数据的隐私信息检测任务中，并设计出一种能够自动检测非结构化数据中最重要的自然人姓名、公司名称、住址等实体类型隐私信息的方法和系统。本发明首先使用训练好的分类器根据文本内容是否含有隐私信息对文本进行分类。然后识别出含有隐私信息的文本中的实体类信息，最后计算实体类信息在两类文本中的权重，根据得到的两个权重判断某个实体信息是否属于实体类隐私信息。

具体来说，本发明利用基于深度学习的文本分类模型检测一篇文本中是否含有隐私信息，并将含有隐私信息的文本区分出来；然后利用中文NER模型检测含有隐私信息的文本中的实体类信息，最后通过计算实体类信息的权重并合理调整权重差阈值来判断是否属于隐私信息。

本发明通过文本分类和中文命名实体识别的两步识别过程可以很好地识别出可能的实体类隐私信息(“实体类信息”在一篇文档中既包含属于隐私信息的“实体类信息”，也包含不属于隐私信息的“实体类信息”，其中属于隐私信息的“实体类信息”为“实体类隐私信息”。)，最后使用TF-IDF算法分析实体类信息进一步提高了实体类隐私信息的检测精度。

本发明方法主要包括三个步骤：

1)文本分类：首先检测一段文本中是否含有隐私信息，主要方法是利用基于卷积神经网络的文本分类模型(即下面的文本分类器)将待检测文本中含有隐私信息的文本与不含隐私信息的部分区分开；

2)实体识别：在含有隐私信息的文本中检测出实体类信息。主要方法是利用中文命名实体识别(NER)模型识别出含有隐私信息的文本包含的实体类信息；

3)识别结果精细化：最后通过计算实体类信息的权重并合理调整阈值来判断隐私信息与非隐私信息。

具体如下：

本发明方法的步骤框图如图1所示，包括：数据预处理、文本分类和实体识别以及识别结果精细化四个主要部分。

原始数据首先经过预处理，得到文本分类器的输入数据。文本分类器由字符级卷积神经网络构成，其主要任务是将原始文本分为包含隐私信息和不包含隐私信息的两类文本。在进行文本分类之后，使用中文NER模型识别含有隐私信息的文本中的实体类信息，最后分别计算实体类信息在两类文本中的权重，通过对比实体类信息在两类文本中的权重之差与设定的阈值大小，判断哪些词语属于隐私信息。

一、数据预处理

本发明在进行相关算法设计和验证实验中使用的数据是在网上采集的一系列非结构化数据形式的文本。这些原始文本首先需要处理成可以输入文本分类器中的形式，即数据预处理的过程。

本发明用到的预处理步骤主要有：读取原始文本并构建基于字符级别的词汇表(即构建原始文本的字符字典，采用现有的技术即可实现，简介如下：读取所有的待检测文本后，在python中将待检测文本中所有不同的字放入列表中，并将该列表输出为文本文档的形式进行保存，从而构成一个词汇表。得到包含文本中所有汉字的列表后，在python中将各个汉字与其在列表中的位置组合为键值对放入一个字典变量中。这个字典变量即为最终的字符字典)、构建类别词典(这里的“类别词典”指由训练分类模型的训练语料中的类别信息构成的词典，功能与“字典”相同，也是用于将分类模型中的数字映射到词典中的类别信息。而下述的“字典”非特别指明的话，一般指普通的由语料中的汉字构成的字典。本申请中的“类别词典”中主要包含“隐私”与“非隐私”这两个类别信息。)以及将文本处理成方便输入文本分类器中的形式(这里所述的“方便输入文本分类器中的形式”是指将一整篇文本处理成多个批次的文本形式，各个批次的文本依次输入分类器中对分类模型进行训练或者进行分类。每个批次的大小根据所采用的分类器一次能够处理的最大文字数量来确定(即前面所有批次的大小是等于最大文字数量，最后一个批次的大小是小于或者等于最大文字数量)，所以对文本分批次处理是预处理中不可缺少的环节。

建立字典是为了在输入自然语言序列时能够将输入序列中的每个汉字对应到已经保存在系统中的字典中，根据这个汉字在字典中的位置得到该汉字对应的one-hot向量，而one-hot向量是下面步骤中用到的文本分类器中代表输入文字的向量。字典是在训练文本分类模型之前就已经得到的，无论是后续的训练模型还是使用训练好的分类模型进行分类都需要使用保存的字典查找输入序列中的汉字。

预处理中最重要的步骤是建立字典，字典根据每个字的ID(预先设定了所有汉字的ID，相同的汉字的ID相同，不同的汉字的ID不同。)把汉字映射到对应的字向量(字向量是用向量表示的汉字特征。如果不同的汉字有相同的字向量，那么不同的汉字就有了相同的特征，在训练分类模型或用模型进行分类时会出现错误，所以必定是每一个汉字有一个唯一的字向量。这里的“汉字”、“汉字ID”与“字向量”三者均为一一对应的关系。)，并按照汉字在数据集(当需要处理多个输入文本时，这里的数据集可以指多个待处理的“非结构化数据形式的文本”，且每一篇文本的大小不受限制。)中出现的频率排序，频率越高排序越靠前，方便进行快速查找。例如：“驳回国家知识产权局专利复审委员会的再审申请”中，包含的汉字有驳、回、国、家、知、识、产、权、局、专、利、复、审、委、员、会、的、再、审、申、请。其中“审”字出现两次，其频率为2，而其他汉字没有重复出现，所以它们的频率均为1。那么在字典中“审”字比其他汉字的顺序靠前，这样做减少了在字典中进行查找的时间开销。

二、隐私信息分类

一篇原始文本经过预处理后，首先按照是否含有隐私信息进行分类。本发明使用字符级卷积神经网络作为文本分类器，它的主要结构如图2所示(字符级卷积神经网络是一种现有的成熟的深度学习模型，用于文本分类的分类精度已经很高，本发明方法未对字符级卷积神经网络的结构进行改进)，类似于常见卷积神经网络的结构，其由输入层，卷积层、池化层、全连接层以及softmax层(可参考“郑泽宇,顾思宇.TensorFlow实战Google深度学习框架[M].北京:电子工业出版社,2017:139-140.(Zhen Zeyu,Gu Siyu.TensorFlow,theactual Google deep learning framework[M].Beijing:Publishing House ofElectronics Industry,2017:139-140.)”)。具体如下：

输入层：输入层主要处理整个神经网络的输入，本发明中的字符级卷积神经网络的输入层由输入文本序列(输入文本序列是指待处理文本中或训练文本中的自然语言序列)中的每个汉字W_n对应的one-hot向量(此处分类模型的one-hot向量与上述的字向量是一样的，只是对神经网络中代表字的向量的两种不同称谓。one-hot向量作为名称更精确。)构成，不同的字对应不同的one-hot向量。由输入序列中所有的字符的one-hot向量共同构成卷积神经网络的输入层，即图2中的Embedding层。

卷积层：卷积层对神经网络当前层的每一部分深入分析从而提取更深程度的特征。卷积层过滤器所处理的当前层的各个维度值和输入层的步长值都由人来指定，在本发明的实验中以上两项都通过设置超参数来指定。

池化层：池化层用一个过滤器结构来进一步处理卷积层传输的特征矩阵，常用的池化计算采用的是平均值法和最大值法，以进一步减少网络中参数的数量，同时防止过拟合问题。在本发明中卷积神经网络的池化层采用最大值法。

全连接层：在经过卷积层和池化层的处理后，文本中的信息被抽象成含有信息量更高的特征，此时使用全连接层来完成分类任务。本发明使用的全连接层与普通的全连接神经网络的结构相同，且使用了Relu函数作为激活函数。

Softmax层：Softmax层主要用于分类问题，与全连接神经网络的Softmax层相同，经过Softmax层可以得到输入文本序列属于每个分类结果的概率。文本分类模型的分类结果包括两种，一种是包含隐私信息的文本，另一种是不包含隐私信息的文本。

经过以上5层处理之后，卷积神经网络完成一次前向传播过程，在更新网络参数之前，本发明采用交叉熵算法计算网络前向传播的损失，如公式(1)所示：

该公式为交叉熵算法的公式。交叉熵算法刻画了两个概率分布之间的距离，适合计算预测结果的概率分布与实际的概率分布之间的差值。在很多神经网络结构的研究中同样使用该公式，它是一种常见的计算网络损失的算法。

神经网络的训练过程包含两个主要部分，即前向传播和反向传播。前向传播是根据当前神经网络中的参数集计算当前输入得到的输出结果，然后计算神经网络得到的结果与实际值的差。在得到这个差之后，使用反向传播层层求导，并逐步更新神经网络中各层的参数，最后得到新的参数集。然后使用新的参数集再重复上述过程，直到得到最佳结果。简单说，反向传播是使用求导的方法更新神经网络中参数的过程。计算的差值可以理解为反向传播的输入，更新后的参数集可以理解为反向传播的输出。本发明中使用交叉熵计算得到损失后再进行网络的反向传播更新网络参数，更新完参数后，网络完成一次迭代训练过程。再重复这样的迭代过程直到参数集收敛。当参数集收敛时，神经网络训练完毕。使用训练好的字符级卷积神经网络作为文本分类器(又称为文本分类模型，经过多次训练后得到的神经网络即为文本分类器)，将一篇待检测文本中含有隐私信息和不含隐私信息的部分区分开，以此完成检测系统的第一步。

区分开后将得到两个分类结果文档，一个文档中包含待检测文本中的含有隐私信息的文本内容，另一个文档中包含待检测文本中的不含隐私信息的文本内容。将含有隐私信息的文本内容作为接下来的中文命名实体识别模型的输入文档，然后把两个分类文档作为一个文档集以计算识别到的实体类信息在两个文档中的权重。

三、中文命名实体识别

本阶段的处理流程如图3所示。本发明的目标是将文本中属于隐私信息的实体类信息检测出来。为了提高隐私信息的检测精度，本发明对上一阶段中产生的含有隐私信息的文本进行实体类信息提取，最后计算提取出的词语权重判断哪些实体类信息确实属于隐私信息。本发明使用中文命名实体识别(NER)的方法识别文本中的实体类信息，使用TF-IDF算法计算词语的权重。

将含有隐私信息的文本输入到基线模型中，得到的是含有隐私信息的文本的一组n-best标注序列，一组n-best序列对应一个输入文本序列。一组n-best标注序列包括多个n-best标注序列，其是将各个标注序列按照其概率值由高到低进行排序后得到的。基线模型输出的标注序列是有概率的，也就是说基线模型对于一个输入文本序列不会只产生一个输出标注序列，只是通常情况下只会取到一个概率值最高的标注序列，但这个概率值最高的标注序列不一定是最正确的标注序列，本发明为了防止概率值最高的标注序列是错误的，所以根据输出序列的概率值由大到小依次取了n个输出标注序列，n是可调节的，比如n取10，即取概率值最高的前10个标注序列。然后经过泛化处理和Re-ranking算法在这n个标注序列中选出最正确的标注序列作为输入文本序列的最佳标注序列，实质上是一个根据概率进行筛选的过程。

本发明提出了一种基于Re-ranking策略的中文命名实体识别方法(该方法具体包括两个步骤，第一个步骤是将基线模型得到的标注序列进行泛化操作；第二个步骤是将新的泛化序列输入接下来的神经网络中进一步判断每一组n-best序列中哪个序列是最正确的标注序列，即Re-ranking步骤。)，这种方法与Jie Yang等人(请参考“Yang J,Zhang Y,Dong F,et al.Neural Reranking for Named Entity Recognition.[J].recentadvances in natural language processing,2017:784-792”)提出的基于Re-ranking策略的英文命名实体识别方法有所不同。具体来说，本发明首先使用一个基线NER模型对文本进行识别，得到基线模型的识别结果，该识别结果是输入文本的n-best标注序列。标注序列是由文本中每个字或符号的标注共同构成的一个序列，这些标注指明了每个字或符号是否属于命名实体，属于何种命名实体。n-best标注序列是由基线NER模型得到的针对同一个输入序列的n个概率值最佳的标注序列，一组n-best序列中包括了多个n-best序列，一个输入文本对应的是一组n-best序列，一组n-best序列是按照基线模型计算得到的各个标注序列的概率值从高到低排序。其中n为可调参数。

本发明方法采用BILSTM-CRF模型(BILSTM-CRF模型是一种可用于多种自然语言处理领域的模型，本发明方法将其用于检测中文命名实体。但BILSTM-CRF模型与BILSTM结构不同，BILSTM-CRF模型是在BILSTM结构上加了一个CRF(条件随机场)层，CRF层计算的是BILSTM网络的各个输出之间的转移概率。在预测具有时序特征的序列时，BILSTM-CRF结构经常被用到。)作为基线模型。然后将得到的标注序列进行泛化。

以“李林骑车路过杨树林镇”为例，经过基线模型识别后产生的标注序列L_i如下：

L_i＝{B-PER I-PER O O O O B-LOC I-LOC I-LOC E-LOC}

其中，LOC表示地址类实体汉字的标注，B代表实体类信息的首字，I代表中间字符，E代表结束字，PER代表识别的实体词语为姓名类实体，O代表非实体字。以L_i代表基线模型的识别结果序列，C_i代表泛化序列，对每一个如上的识别结果序列L_i进行泛化操作，具体的泛化操作如下：

(1)L_i中的命名实体标注被统一替换为标注代表的实体类型。例如：l_i1＝B-LOC，l_i2＝I-LOC，则且C_i1＝LOC。

(2)L_i中的非命名实体标注将被该标注对应的文字替换，即C_ij＝w_j。例如：对于输入序列{李林骑车路过杨树林镇}，经过基线模型预测得到的标注序列为：

L_i＝{B-PER I-PER O O O O B-LOC I-LOC I-LOC E-LOC}

L_i经过上述规则进行泛化处理后的得到的新的泛化序列C_i为：

C_i＝{PER骑车路过LOC}

每一组n-best序列中的每一个序列都将按照上述规则进行泛化处理，得到经过泛化后的n-best序列。本发明使用由如上方式泛化得到的新序列代替原本的输入序列，将新的泛化序列输入接下来的Re-ranking神经网络中进一步判断每一组n-best序列中哪个序列是最正确的标注序列，即Re-ranking步骤。

Re-ranking阶段是本发明的模型与Jie Yang等人的模型区别最大之处。Jie Yang等人使用了CNN进一步提取泛化序列的局部特征，然后将局部特征与词向量做拼接输入LSTM结构中，其结构不能利用到当前输入的未来特征。而实际操作中的序列往往是短序列居多，所以序列当前词的未来特征对于识别结果的影响也非常大。本发明使用了BILSTM结构(这里的BILSTM结构也可以称为“BILSTM网络”)，BILSTM有双向的隐藏层，可以按照前向和后向的顺序依次读取序列，这样能够有效地利用序列中的某一具体时刻的过去与未来的特征。本发明使用BILSTM结构作为Re-ranking神经网络，这样做有两个优势，一是与现有的中文NER模型相比，无需训练过多的参数也能达到较高的中文NER精度；二是与现有的在英文NER中的应用相比，BILSTM网络有效利用了当前输入的上下文特征，而不只是利用当前输入的上文特征，同时所需训练的参数也比现有方法少。

本发明建立的基于Re-ranking策略的中文NER模型的流程如图4所示。

本发明的NER模型识别流程(即命名实体识别步骤的流程)为：

(1)给出一组经过泛化的n-best序列(该组序列中的序列是经过基线模型得到的概率值从大到小进行排序过的)中第i个序列，所有第i个序列经过Re-ranking结构中的BILSTM神经网络分析最终得出输出O(C_i)：首先通过BILSTM的查找层(BILSTM的查找层用于获取输入序列中每个汉字的字向量。)获取序列中每个汉字的Embedding(汉字的Embedding与上文文本分类器中的one-hot向量相同，也是一种汉字的特征向量，这种向量是使用大量的训练文本训练得到的，在自然语言处理领域通常被称为Embedding。但这里的Embedding与one-hot向量的不同点在于这里所述的Embedding中包含的文本特征信息比one-hot向量包含的文本特征信息多。)，然后将Embedding与基线模型中得到的其他辅助特征共同作为输入送入BILSTM的循环层中提取序列的特征，并将获得的信息分别存储在记忆单元中。最后将循环层每个t时刻前向输出状态FO和后向输出状态BO拼接作为神经网络在该时刻的最终输出O(C_it)，。

(2)得到输出O(C_it)后，通过全连接层和Softmax层计算在每个t时刻的输入对应的输出标注概率分布S(C_it)，其算法如公式(2)与公式(3)所示：

D(C_it)＝f(W_dO(C_it)+b_d) (2)

S(C_it)＝σ(W_sD(C_it)+b_S) (3)

其中D(C_it)表示隐藏层的输出O(C_it)经过全连接层计算得到的值；S(C_it)为第i个候选序列在t时刻的输入C_it的输出标注概率(可以直观表示概率分布是输出标注序列的概率分布。)；W_d和W_s分别为全连接层的权重矩阵；b_d和b_s分别为全连接层偏置项；f表示全连接层的激活函数，本发明使用Relu作为激活函数；σ表示sigmoid函数。

再使用S(C_i)与基线模型得到的对应序列的概率p(L_i)进行插值计算，得到最大联合概率如公式(4)所示：

其中α∈[0,1]是插值权重，p(L_i)表示由基线模型预测得到的n-best序列中第i个序列概率；S(C_i)表示n-best泛化序列中第i个泛化序列经过Re-ranking模型预测得到的输出标注序列概率(将泛化序列中的每个序列分别输入到Re-ranking神经网络中，得到每个序列的S(C_i)，然后根据每个序列的S(C_i)和p(L_i)求得值)。在每一组n-best序列内，将该组中的各个序列的最大联合概率进行排序，找到最大联合概率中的最大值，该最大值对应的序列即为最佳标注序列(即最正确的标注序列)。这一过程可以体现出对基线模型得到的一组n-best序列中所有标注序列按照计算所得概率进行重排序的过程。

中文NER模型给出输入文本中每个汉字或符号的标注，所以中文NER模型的直接输出结果是这一系列标注共同构成的一个标注序列。该标注序列是对输入序列中的每一个汉字进行标注，每一个标注对应一个输入序列里的汉字，即指明了输入序列中的相应汉字是否属于实体类信息，属于何种实体类信息。例如:假设输入序列中存在姓名“李明”，则该姓名中的“李”对应的输出标注为B-PER，“明”对应的输出标注为E-PER。而输入序列中的非实体类型的汉字对应的输出标注为大写英文字母O。所以只要从所述最佳标注序列中找到非O标注，其对应的输入序列片段(即输入基线模型的含有隐私信息的文本中的信息)则为相应的实体。这就是根据中文NER模型输出标注序列得到“识别出来的词”的判断过程。该过程是在NER模型中完成的。

四、实体类隐私信息的精细化处理

使用训练好的中文NER模型对含有隐私信息的文本进行实体识别，将识别出来的词再进行权重计算。本发明使用TF-IDF算法分别计算识别到的实体类信息在两类文本中的权重，其算法原理是根据某个词w在一个文档d中出现的频率与在该文档所属的文档集合D中出现的频率计算词w的区分能力。TF-IDF的计算公式可以总结为公式(5)的形式，即词频与逆文档频率的乘积形式。

TF-IDF＝TF*IDF (5)

其代表的含义可以理解为对每一个文档d和由关键词w[1]...w[k]所构成的词序列计算一个权值，即公式(5)中的TF-IDF代表得到的权值，该权值反映了词序列与文档d的匹配度。该结果可以用来评估某个词对于一个文档集合中的某一篇文档的重要性。其中TF(Term Frequency)指词w在文档d中出现的频率，即w在d中出现的次数与文档d中的总词数之比，可以用公式(6)表示。

其中count(w,d)表示w在d中出现的次数，size(d)表示在d中的总词数。IDF(Inverse Document Frequency)指词w在整个文档集合D中出现的逆向文档频率，可以用公式(7)计算。

其中docs(w,D)代表有词w出现的文档总数，n表示文档集合D中的文档总数。本发明在检测的最后阶段使用TF-IDF算法计算得到的权值来进一步明确识别到的实体类信息是否属于隐私信息。TF-IDF算法中的阈值通常是在大量的实际操作中得出的，通过设定阈值可以确定更具体的隐私信息。

通过设定阈值判断隐私信息的方法如下：

在计算得到实体类信息在包含隐私信息的文本中的权重和在不含有隐私信息的文本中的权重后，计算两个权重的差值，并用这个差值与设定的阈值比较，差值大于阈值的则识别为实体类隐私信息，小于或等于阈值的则不识别为实体类隐私信息。

经过实际实验，本实施例中将该阈值设定为0.1。这只是在作为实验数据的文本类型下的一个参考阈值，在其他类型文本的实体类隐私信息检测中，本系统的使用者可以根据需要自行调整这个阈值的大小。调整阈值大小对检测结果会有一定的影响。计算方法如公式(8)所示：

S_sensi-S_non-sensi＞θ (8)

其中S_sensi表示一个实体类信息在含有隐私信息的文本中的权重，S_non-sensi表示一个实体类信息在不含隐私信息的文本中的权重(S_sensi和S_non-sensi是由同一个词在不同的文本中计算得到的不同权重，它们均与公式(5)中等号左侧的TF-IDF对应。)，θ表示设定的阈值。当差值大于阈值时，判定为实体类隐私信息，即权重计算结果符合公式(8)的实体类信息则被识别为实体类隐私信息。

利用本发明的系统和方法进行的实验如下：

1，实验数据

本发明训练非结构化数据隐私检测系统的数据集分为两组，一组是训练文本分类阶段的分类模型所使用的数据集，称为分类训练数据集；另一类是训练中文NER模型时所使用的数据集，称为NER训练数据集。

首先介绍分类训练数据集，由于缺乏相应的标注好的隐私信息分类数据集，本发明使用的分类训练数据集是从中文裁判文书网(中国裁判文书网[EB/OL].[2018-10-23].http://wenshu.court.gov.cn/.(China Judgements online[EB/OL].[2018-10-23].http://wenshu.court.gov.cn/.))采集的数据集。主要采用的数据有三类，分别是行政案件、民事案件和赔偿案件。需要指出的是，本实验中训练的隐私检测模型使用裁判文书类数据进行训练，所以对该类型的开放数据检测效果较好，如果需要对其他类型数据进行识别，只需要改变训练分类器的数据集即可。再根据THUCNews(THUCNews是一个开放文本分类数据集的名称，用于训练文本分类模型。由于该数据集中并不包含隐私文本分类子集，所以本申请只是借鉴该数据集的标注方式自行设计隐私文本分类数据集，用于训练本方法中的文本分类模型。)数据集的标注方式进行标注，本发明使用了两类标记，分别是“隐私”和“非隐私”(本标注借鉴了THUCNews数据集的标注方式，以段落为分割点，对每个段落进行分割。)，并且全部由人工完成标记。标注好的数据如图5所示。

训练分类模型所使用的训练集、value集和测试集的样本数量如表1所示：

表1

训练NER模型的数据集来自SIGHAN Bakeoff-3MSRA语料集，该语料集由微软亚洲研究院整理并提供。该语料集包含三类实体标注，分别是PERSON类、LOCATION类和ORGNIZATION类。标注框架使用了BIOES结构。NER训练数据集所使用的各数据集的样本数量如表2所示：

表2

2、文本分类阶段结果

本发明使用了字符级的CNN作为分类模型，训练分类模型时使用的超参数如表3所示，模型训练使用的数据集是分类训练数据集，在经过10轮迭代后训练停止。

表3

本发明对分类模型在测试集上得到的结果建立了混淆矩阵对分类模块的效果进行评价，其结果如表4所示：

表4

从混淆矩阵中可以看出，共有892(表1中是897个样本，此处是892，这是因为：在对数据分批次时需要对总数据量做整除处理，在程序进行计算的过程中，由于小数点的取舍可能会导致一定的漏检率。从表1和表4的数据计算，本方法的漏检率约为0.005。漏检率的值可以通过合理调整每批次中样本的数量以及总批次量进一步减小。)个预测样本，其中TP与TN的数量要远大于FP与FN(TP代表True Positive，真正值，即模型预测结果为正值，实际也为正值；TN代表True Negative，真反值，即模型预测结果为负值，实际也为负值；FP代表False Positive，假正值，即模型预测结果为正值，实际为负值；FN代表False Negative，假反值，即模型预测结果为负值，实际为正值。)的数量。在混淆矩阵的基础上，本发明进一步计算了分类模型的精确度、召回率和F1，其结果如表5所示：

表5

可以看出，本发明的字符级中文文本分类模型的精确度已经达到了较高的分类精度，基本可以满足实际应用中对开放数据的检测精度需求。

3、命名实体识别阶段结果

首先介绍命名实体识别的结果。本实验中用于训练Re-ranking模型中的BILSTM结构所使用的参数如表6所示：

表6

模型在测试集上识别各类实体得到的F1如表7所示，在测试集上得到的总体精确度、召回率和F1值如表8所示。可以看到基于Re-ranking策略的中文NER模型对于各类实体类信息的识别率已经达到了中文NER领域的较高水平。

表7

表8

为了验证本发明提出的方法的准确性和有效性，从中国裁判文书网中随机选取的一篇裁判文书，该文书的全文如图6所示，下面将实际检验分类模型的分类效果。

经过文本分类器对于选取的裁判文书中文本的分类，得到的分类结果如图7(a)和图7(b)所示。可以看到，文本分类器将含有如“周长友”、“夏文田”等姓名信息视为隐私信息并将含有这些信息的文本分离了出来，如图7(a)所示，而文本分类器认为没有隐私信息的文本如图7(b)中的文本则不含有具体的姓名、机构名称等信息，仅含有如“山东省安丘市人民政府”、“潍坊市人民政府”以及“人民法院”等信息，这些信息则是一些普通的信息。

以原始文本中是否含有隐私信息为依据进行分类，得到了含有隐私信息的文本与不含隐私信息的部分。接下来的任务就是将文本中含有的实体类隐私信息从中识别出来，这一阶段需要用到实体识别以及识别结果精细化步骤。

在对含有隐私信息的文本使用中文NER模型进行识别后的识别结果如图8所示。将分类文本每部分的实体类信息展示在了该部分的下方，start代表该信息在这一部分的起始位置，end代表该信息在这一部分的结束位置(该实施例的程序使用python编写，在存放文本序列时，使用python中的列表存放。python中列表的下标从0开始，start后面的数字代表的是该数字加一个字符。例如start后面的数字为n，则其表示的是第n+1个字符，end后面的数字同理。)，最后是该实体类信息的类型以及实体类信息本身。

识别出的信息均为实体类信息，但明显会有一些不属于隐私信息的实体类信息也被识别出来。所以接下来通过计算每个实体词在含有隐私信息的文本中的权重对识别出的实体类信息进行再判断。表9展示了在含有隐私信息的文本中识别到的实体词在两类文本中的权重。

表9

通过表格中数据的对比可以看出，一些实体类信息如“中华人民共和国”、“潍坊市人民政府”等在两类文本中的权重相差不到0.1，小于设定的阈值。所以即便这些信息在含有隐私信息的文本中被识别到，依然能够根据阈值判断出这两个实体词语不属于隐私信息。而“周长友”、“夏文田”等词语在含有隐私信息的文本中的权重与在不含隐私信息的文本中的权重之差大于0.1，所以它们属于实体类隐私信息。通过表格中权重的对比可以明显地将隐私信息与非隐私信息区分出来。

与现有的方法相比，本发明的隐私信息检测方法的局限性相对小很多，只需在训练分类模型时提供相应领域的标注好的训练文本即可，命名实体识别模型使用的训练数据并不是针对特定领域的数据，而且接下来的实体隐私信息分析阶段相对于各领域来说也完全是通用的，所以本发明方法对所有领域的隐私信息检测都有很好的适应性。

综上所述，本发明设计并实现了一种检测非结构化文本中含有的隐私信息的模型，对于检测非结构化文本信息中的隐私信息或敏感内容具有一定的参考价值。本发明方法无需任何人工制定的规则，只需要预先标注好的隐私信息分类数据集即可。实验表明该模型能够有效地检测出文本中实体类的隐私信息，且具有非常大的实用价值，大大提高了检测效率，并降低了人工成本。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种针对非结构化文本的个人隐私信息自动检测方法，其特征在于：所述方法首先将非结构化文本划分为含有隐私信息的文本和不含有隐私信息的文本，然后从所述含有隐私信息的文本中识别出实体类信息，最后计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重，并根据得到的两个权重判断每个实体信息是否属于实体类隐私信息。

2.根据权利要求1所述的针对非结构化文本的个人隐私信息自动检测方法，其特征在于：所述方法包括：

3.根据权利要求2所述的针对非结构化文本的个人隐私信息自动检测方法，其特征在于：所述步骤(1)的操作包括：

读取非结构化文本并构建字符字典；

4.根据权利要求3所述的针对非结构化文本的个人隐私信息自动检测方法，其特征在于：所述步骤(2)的操作包括：

5.根据权利要求3所述的针对非结构化文本的个人隐私信息自动检测方法，其特征在于：所述文本分类器采用字符级卷积神经网络。

6.根据权利要求4或5所述的针对非结构化文本的个人隐私信息自动检测方法，其特征在于：所述步骤(3)的操作包括：

7.根据权利要求6所述的针对非结构化文本的个人隐私信息自动检测方法，其特征在于：所述步骤(31)中的基线模型采用BILSTM-CRF模型；

所述步骤(33)中的Re-ranking神经网络采用BILSTM结构。

8.根据权利要求6或7所述的针对非结构化文本的个人隐私信息自动检测方法，其特征在于：所述步骤(4)中的分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重，得到每个实体类信息的两个权重的操作包括：

9.根据权利要求8所述的针对非结构化文本的个人隐私信息自动检测方法，其特征在于：所述步骤(4)中的所述根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息的操作包括：

10.一种实现权利要求1-9任一项所述的针对非结构化文本的个人隐私信息自动检测方法的系统，其特征在于：所述系统包括：预处理单元、文本分类单元、命名实体识别单元和识别结果精细化单元；