发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于裁判文书的判别器的训练方法、用于裁判文书的敏感身份信息识别方法、训练装置、识别装置和电子设备,其能够更为精准地识别公开裁判文书中的敏感身份信息并进行处理。
根据本申请的一方面,提供了一种用于裁判文书的判别器的训练方法,其包括:
步骤1:对获取的裁判文书进行文本预处理和文本特征提取,以获得所述裁判文书的词嵌入向量作为训练用语料;
步骤2:将所述训练用语料划分为训练集和测试集,其中,所述训练集包括已标注样本和未标注样本,所述已标注样本包括被标注为是的正样本和被标注为否的负样本,所述测试集包括已标注样本;
步骤3:基于所述训练集中的已标注样本对判别器进行训练,所述判别器用于判断裁判文书中是否包含敏感身份信息;
步骤4:使用训练后的所述判别器对所述测试集中的已标注样本进行分类,以获得分类结果,并记录所述分类结果的P-R曲线和ROC曲线和使用所述P-R曲线和ROC曲线的曲线下表面作为分类结果的评价指标;
步骤5:使用训练后的所述判别器对从所述训练集中随机筛选出预设数量的未标注样本进行分类,并基于预设的样本选择策略从所述未标注样本中筛选出待标注样本;
步骤6:将所述待标注样本进行标注后加入所述训练集的所述已标注样本中;以及
步骤7:重复步骤4至6,直到所述评价指标满足预设要求。
在上述用于裁判文书的判别器的训练方法中,步骤1:对获取的裁判文书进行文本预处理和文本特征提取,以获得所述裁判文书的词嵌入向量作为训练用语料,包括:读取获取的所述裁判文书中的文本内容和标签;对所述文本内容进行分词并去除停用词和低频词,以获得词列表;以及,使用词嵌入模型对所述词列表进行文本特征提取,以获得所述词嵌入向量。
在上述用于裁判文书的判别器的训练方法中,步骤4:使用训练后的所述判别器对所述测试集中的已标注样本进行分类,以获得分类结果,并记录所述分类结果的P-R曲线和ROC曲线和使用所述P-R曲线和ROC曲线的曲线下表面作为分类结果的评价指标,包括:使用训练后的所述判别器对所述测试集中的每一已标注样本进行分类,以分别获得预测概率值;计算所述测试集中所述已标注样本的预测概率值的平均值,以获得平均预测概率;基于所述平均预测概率和真实标签绘制P-R曲线和ROC曲线;以及,计算所述P-R曲线和所述ROC曲线的曲线下面积作为所述分类结果的评价指标。
在上述用于裁判文书的判别器的训练方法中,在步骤5:使用训练后的所述判别器对从所述训练集中随机筛选出预设数量的未标注样本进行分类,并基于预设的样本选择策略从所述未标注样本中筛选出待标注样本中,所述预设的样本选择策略为选择所述未标注样本中分类错误的样本作为待标注样本。
根据本申请另一方面,还提供一种用于裁判文书的敏感身份信息识别方法,其包括:
获取待识别的裁判文书;
将所述待识别的裁判文书通过词嵌入模型,以获得所述裁判文书的词嵌入向量;
将所述裁判文书的词嵌入向量输入基于如上所述的用于裁判文书的判别器的训练方法所训练的判别器中以获得分类结果,所述分类结果表示所述待识别的裁判文书中是否包含敏感身份信息;
响应于所述分类结果为所述裁判文书中包含敏感身份信息,获取包含敏感身份信息的裁判文书的词文本特征向量的序列;
将所述词文本特征向量的序列通过多层双向长短期记忆网络以获得每个词的特征向量,并通过条件随机场标注每个词的标签;
基于所述标签筛选出与所述裁判文书中的敏感身份信息对应的词的特征向量。
在根据本申请的用于裁判文书的敏感身份信息识别方法中,将所述词文本特征向量的序列通过多层双向长短期记忆网络以获得每个词的特征向量,并通过条件随机场标注每个词的标签包括:在每一个所述双向长短期记忆网络中,通过所述双向长短期记忆网络的前向长短期记忆网络提取所述词文本特征向量的序列中当前词的前文特征;通过所述双向长短期记忆网络的反向长短期记忆网络提取所述词文本特征向量的序列中当前词的后文特征;以及,基于每个词的所述前文特征和所述后文特征获得所述词文本特征向量的序列的中间特征向量,所述中间特征向量为下一层所述双向长短期记忆网络的输入。
在根据本申请的用于裁判文书的敏感身份信息识别方法中,所述双向长短期记忆网络的数量为3层。
在根据本申请的用于裁判文书的敏感身份信息识别方法中,响应于所述分类结果为所述裁判文书中包含敏感身份信息,获取包含敏感身份信息的裁判文书的词文本特征向量的序列,包括:将所述待识别的裁判文书输入句子分类器,以从所述待识别的裁判文书中筛选出包含敏感身份信息的句子,其中,所述句子分类器基于被标注为包含身份信息的句子和被标注为不包含身份信息的句子作为训练语料训练获得。
在根据本申请的用于裁判文书的敏感身份信息识别方法中,所述句子分类器的训练过程,包括:在所述训练语料中添加噪声数据,所述噪声数据为与标注数据在同一批裁判文书中的句子,所述句子包含人名但不具有身份信息。
在根据本申请的用于裁判文书的敏感身份信息识别方法中,响应于所述分类结果为所述裁判文书中包含敏感身份信息,获取包含敏感身份信息的裁判文书的词文本特征向量的序列,包括:提取所述包含敏感身份信息的句子的位置嵌入向量;将所述包含敏感身份信息的句子中的每个词通过词嵌入模型,以获得词嵌入向量;以及,基于所述位置嵌入向量和所述词嵌入向量,生成所述词文本特征向量的序列。
在根据本申请的用于裁判文书的敏感身份信息识别方法中,基于所述位置嵌入向量和所述词嵌入向量,生成所述词文本特征向量的序列,包括:将所述位置嵌入向量和所述词嵌入向量进行相加,以获得所述词文本特征向量的序列。
在根据本申请的用于裁判文书的敏感身份信息识别方法中,基于所述位置嵌入向量和所述词嵌入向量,生成所述词文本特征向量的序列,包括:将所述位置嵌入向量和所述词嵌入向量进行拼接,以获得所述词文本特征向量的序列。
在根据本申请的用于裁判文书的敏感身份信息识别方法中,基于所述位置嵌入向量和所述词嵌入向量,生成所述词文本特征向量的序列,包括:将所述位置嵌入向量通过全连接层以获得第一全连接特征向量;将所述词嵌入向量通过全连接层以获得第二全连接特征向量;以及,将所述第一全连接特征向量和所述第二全连接特征向量进行相加并通过激活函数进行激活以获得所述词文本特征向量的序列。
在根据本申请的用于裁判文书的敏感身份信息识别方法中,所述方法进一步包括:对与所述裁判文书中的敏感身份信息对应的词的特征向量对应的词进行屏蔽处理。
根据本申请的又一方面,提供了一种用于裁判文书的判别器的训练装置,其包括:
训练用语料生成单元,用于执行步骤1:对获取的裁判文书进行文本预处理和文本特征提取,以获得所述裁判文书的词嵌入向量作为训练用语料;
数据集划分单元,用于执行步骤2:将所述训练用语料划分为训练集和测试集,其中,所述训练集包括已标注样本和未标注样本,所述已标注样本包括被标注为是的正样本和被标注为否的负样本,所述测试集包括已标注样本;
判别器训练单元,用于执行步骤3:基于所述训练集中的已标注样本对判别器进行训练,所述判别器用于判断裁判文书中是否包含敏感身份信息;
测试单元,用于执行步骤4:使用训练后的所述判别器对所述测试集中的已标注样本进行分类,以获得分类结果,并记录所述分类结果的P-R曲线和ROC曲线和使用所述P-R曲线和ROC曲线的曲线下表面作为分类结果的评价指标;
待标注样本筛选单元,用于执行步骤5:使用训练后的所述判别器对从所述训练集中随机筛选出预设数量的未标注样本进行分类,并基于预设的样本选择策略从所述未标注样本中筛选出待标注样本;
标注单元,用于执行步骤6:将所述待标注样本进行标注后加入所述训练集的所述已标注样本中;以及
循环单元,用于执行步骤7:重复步骤4至6,直到所述评价指标满足预设要求。
根据本申请的又一方面,提供了一种用于裁判文书的敏感身份信息识别装置,其包括:
待识别裁判文书获取单元,用于获取待识别的裁判文书;
词嵌入向量转化单元,用于将所述待识别的裁判文书通过词嵌入模型,以获得所述裁判文书的词嵌入向量;
分类结果生成单元,用于将所述裁判文书的词嵌入向量输入基于如上所述的用于裁判文书的判别器的训练方法所训练的判别器中以获得分类结果,所述分类结果表示所述待识别的裁判文书中是否包含敏感身份信息;
词序列获取单元,用于响应于所述分类结果为所述裁判文书中包含敏感身份信息,获取包含敏感身份信息的裁判文书的词文本特征向量的序列;
标注单元,用于将所述词文本特征向量的序列通过多层双向长短期记忆网络以获得每个词的特征向量,并通过条件随机场标注每个词的标签;
词特征筛选单元,用于基于所述标签筛选出与所述裁判文书中的敏感身份信息对应的词的特征向量。
根据本申请的又一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于裁判文书的判别器的训练方法,或者,用于裁判文书的敏感身份信息识别方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于裁判文书的判别器的训练方法,或者,用于裁判文书的敏感身份信息识别方法。
根据本申请实施例的用于裁判文书的判别器的训练方法、用于裁判文书的敏感身份信息识别方法、训练装置、识别装置和电子设备,其能够更为精准地识别公开裁判文书中的敏感身份信息并进行处理。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如前所述,虽然在《最高人民法院关于人民法院在互联网公布裁判文书的规定》中第八条做了如下规定:人民法院在互联网公布裁判文书时,应当对下列人员的姓名进行隐名处理:(一)婚姻家庭、继承纠纷案件中的当事人及其法定代理人;(二)刑事案件被害人及其法定代理人、附带民事诉讼原告人及其法定代理人、证人、鉴定人;(三)未成年人及其法定代理人。
但是,在对裁判文书进行检索查看时,发现大量未成年人及其法定代理人、证人、鉴定人等的姓名并未进行屏蔽处理。而以上个人隐私信息的暴露,常给当事人带来诸多困扰,例如:未成年人成长中的挑战,证人作证后受到不必要的烦扰等等。
因此,需要一种面向公开裁判文书中敏感身份信息的识别和处理方案。
现有一些用于裁判文书的敏感身份信息的技术方案,但这些技术方案的实际应用效果都不能很好地满足《最高人民法院关于人民法院在互联网公布裁判文书的规定》的要求内容。
例如,在中国专利CN109960727A揭露了一种技术方案,其包括如下步骤:(1)预处理:对非结构化文本进行预处理得到预处理后的文本;(2)文本分类:对所述预处理后的文本进行分类,将其分为含有隐私信息的文本和不含有隐私信息的文本;(3)命名实体识别:从所述含有隐私信息的文本中识别出实体类信息;(4)识别结果精细化:分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,得到每个实体类信息的两个权重;然后,根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息。
并且,该上述中国专利对裁判文书中的个人隐私信息进行检测,效果描述如下:经过文本分类器对于选取的裁判文书中文本的分类,文本分类器将含有如“周长友”、“夏文田”等姓名信息视为隐私信息并将含有这些信息的文本分离了出来,而文本分类器认为没有隐私信息的文本中的文本则不含有具体的姓名、机构名称等信息,仅含有如“山东省安丘市人民政府”、“潍坊市人民政府”以及“人民法院”等信息,这些信息则是一些普通的信息。
从上述效果描述中可以看出,该专利揭露的技术方案将裁判文书中所有人名信息识别为个人隐私信息。如果按照该方法进行处理的话,并不完全符合《最高人民法院关于人民法院在互联网公布裁判文书的规定》的要求内容,因为规定中只是将部分案由的当事人进行隐名处理,以及涉及未成年人、证人、鉴定人等身份的人名进行识别并屏蔽处理。因此该方法并不能满足在裁判文书公开中对个人隐私保护的需求。因此,尚需要研究一种方法,能够精准的识别到在裁判文书中哪些身份的人员姓名需要进行识别和处理。
基于此,本申请发明人基于法律专家对裁判文书中的具体表述的观察以及相关法律文件、相关文献的业务理论研究,构建用于敏感身份信息的知识图谱;然后,收集公开裁判文书中涉及未成年人、证人、鉴定人等敏感身份信息的文书作为训练语料;最后,基于机器学习的方式构建公开裁判文书中身份信息识别模型。
具体地,本申请的公开裁判文书中身份信息识别,分为两个阶段:第一阶段:判断待识别裁判文书是否包含敏感身份信息,以及,第二阶段:识别出具体的所述待识别裁判文书中敏感身份信息。
基于此,本申请提出了一种用于裁判文书的判别器的训练方法,所述判别器用于判断公开裁判文书中是否包含敏感身份信息,其中,所述训练方法,包括:步骤1:对获取的裁判文书进行文本预处理和文本特征提取,以获得所述裁判文书的词嵌入向量作为训练用语料;步骤2:将所述训练用语料划分为训练集和测试集,其中,所述训练集包括已标注样本和未标注样本,所述已标注样本包括被标注为是的正样本和被标注为否的负样本,所述测试集包括已标注样本;步骤3:基于所述训练集中的已标注样本对判别器进行训练,所述判别器用于判断裁判文书中是否包含敏感身份信息;步骤4:使用训练后的所述判别器对所述测试集中的已标注样本进行分类,以获得分类结果,并记录所述分类结果的P-R曲线和ROC曲线和使用所述P-R曲线和ROC曲线的曲线下表面作为分类结果的评价指标;步骤5:使用训练后的所述判别器对从所述训练集中随机筛选出预设数量的未标注样本进行分类,并基于预设的样本选择策略从所述未标注样本中筛选出待标注样本;步骤6:将所述待标注样本进行标注后加入所述训练集的所述已标注样本中;以及,步骤7:重复步骤4至6,直到所述评价指标满足预设要求。
基于此,本申请提出了一种用于裁判文书的敏感身份信息识别方法,其包括:获取待识别的裁判文书;将所述待识别的裁判文书通过词嵌入模型,以获得所述裁判文书的词嵌入向量;将所述裁判文书的词嵌入向量输入基于如上所述的用于裁判文书的判别器的训练方法所训练的判别器中以获得分类结果,所述分类结果表示所述待识别的裁判文书中是否包含敏感身份信息;响应于所述分类结果为所述裁判文书中包含敏感身份信息,获取包含敏感身份信息的裁判文书的句子文本特征向量;将所述句子文本特征向量通过多层双向长短期记忆网络以获得每个词的特征向量,并通过条件随机场标注每个词的标签,其中,所述标签表示所述包含敏感身份信息的句子中敏感身份信息的类型分类;以及,基于所述标签筛选出与所述裁判文书中的敏感身份信息对应的词的特征向量。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请功能的各种非限制性实施例。
示例性方法
图1图示了根据本申请实施例的用于裁判文书的判别器的训练方法的流程图。所述判别器用于判断公开裁判文书中是否包含敏感身份信息,所述敏感身份信息,包括:(1)婚姻家庭、继承纠纷案件中的当事人及其法定代理人;(2)刑事案件被害人及其法定代理人、附带民事诉讼原告人及其法定代理人、证人、鉴定人;(3)未成年人及其法定代理人。
如图1所示,根据本申请实施例的用于裁判文书的判别器的训练方法,包括:步骤1:对获取的裁判文书进行文本预处理和文本特征提取,以获得所述裁判文书的词嵌入向量作为训练用语料;步骤2:将所述训练用语料划分为训练集和测试集,其中,所述训练集包括已标注样本和未标注样本,所述已标注样本包括被标注为是的正样本和被标注为否的负样本,所述测试集包括已标注样本;步骤3:基于所述训练集中的已标注样本对判别器进行训练,所述判别器用于判断裁判文书中是否包含敏感身份信息;步骤4:使用训练后的所述判别器对所述测试集中的已标注样本进行分类,以获得分类结果,并记录所述分类结果的P-R曲线和ROC曲线和使用所述P-R曲线和ROC曲线的曲线下表面作为分类结果的评价指标;步骤5:使用训练后的所述判别器对从所述训练集中随机筛选出预设数量的未标注样本进行分类,并基于预设的样本选择策略从所述未标注样本中筛选出待标注样本;步骤6:将所述待标注样本进行标注后加入所述训练集的所述已标注样本中;以及,步骤7:重复步骤4至6,直到所述评价指标满足预设要求。
在步骤1中,对获取的裁判文书进行文本预处理和文本特征提取,以获得所述裁判文书的词嵌入向量作为训练用语料。应可以理解,步骤1所做的处理为特征工程的内容。本领域普通技术人员应知晓,所述裁判文书为非结构化数据,对文本数据做特征工程其目的是将文本数据转化为可用于机器学习的结构化数据表示。
具体地,在本申请的一个具体示例中,对获取的裁判文书进行文本预处理的过程,包括:首先,读取获取的所述裁判文书中的文本内容和标签;接着,对读取的文本内容进行分词处理,并去除停用词和低频词,以获得词列表(word list),这样每一篇裁判文书被表示为一组词集合。
在该具体示例中,使用词嵌入模型(例如,Word2Vec)对所述列表进行文本特征提取,以获得裁判文书的词嵌入向量。在具体实施中,首先使用所有训练语料的词列表训练得到词嵌入模型,然后,再使用训练得到的词嵌入模型将所有语料的词列表中的每个词转化成向量表示,这样就将裁判文书转化为一个个词嵌入向量。
在步骤2中,将所述训练用语料划分为训练集和测试集,其中,所述训练集包括已标注样本和未标注样本,所述已标注样本包括被标注为是的正样本和被标注为否的负样本,所述测试集包括已标注样本。也就是,将经特征工程后获得的所述训练用语料进行数据集划分,在本申请的技术方案中,采用基于正例-未标记学习方法对所述判别器进行训练,因此,在本申请的技术方案中,将所述训练用语料划分为训练集和测试集,其中,所述训练集包括已标注样本和未标注样本,所述已标注样本包括被标注为是的正样本和被标注为否的负样本,所述测试集包括已标注样本。这里,标注为是的正样本表示裁判文书中包含敏感身份信息的样本,标注为否的父样本表示裁判文书中不包含敏感身份信息的样本,未标注样本表示没有打标签的样本。
步骤3至步骤7表示基于所述训练集和所述测试集以基于正例-未标记学习方法对所述判别器进行训练的过程。
在步骤3中,基于所述训练集中的已标注样本对判别器进行训练,所述判别器用于判断裁判文书中是否包含敏感身份信息。也就是,在有标签训练集上对所述判别器以梯度反向传播进行训练。
在步骤4中,使用训练后的所述判别器对所述测试集中的已标注样本进行分类,以获得分类结果,并记录所述分类结果的P-R曲线和ROC曲线和使用所述P-R曲线和ROC曲线的曲线下表面作为分类结果的评价指标。
更具体地,在步骤4中,首先,使用训练后的所述判别器对所述测试集中的每一已标注样本进行分类,以分别获得预测概率值。例如,从所述测试集中选择T个样本进行测试,使用训练后的所述判别器对所述T个样本进行分类,以获得T组预测概率;然后,计算所述测试集中所述已标注样本的预测概率值的平均值,以获得平均预测概率,也就是,对这T组预测概率进行其平均值以获得平均预测概率。接着,基于所述平均预测概率和真实标签绘制P-R曲线和ROC曲线,并计算所述P-R曲线和所述ROC曲线的曲线下面积作为所述分类结果的评价指标。
在步骤5和步骤6中,使用训练后的所述判别器对从所述训练集中随机筛选出预设数量的未标注样本进行分类,并基于预设的样本选择策略从所述未标注样本中筛选出待标注样本,以及,将所述待标注样本进行标注后加入所述训练集的所述已标注样本中。也就是,基于正例-未标注学习方法的训练结果,使用主动学习将分类效果进一步提升上去。主动学习会主动地从所述未标注样本中筛选出待标注样本来进行训练,其关键在于样本选择策略。特别地,在本申请的技术方案中,主动学习会主动地抽取那些比较“难”的分类样本,即,每次都挑选当前分类器分类效果不佳(例如,分类错误)的那些样本进行训练,而不是从样本总体中随机抽取样本进行训练。
在步骤7中,重复步骤4至6,直到所述评价指标满足预设要求。即,重复执行主动学习的过程,直到所述评价指标满足预设要求。最终,得到了一个关键词列表,可以通过所述关键词列表中关键词进行判断文书是否为包含敏感身份信息的裁判文书。
综上,基于本申请实施例的用于裁判文书的判别器的训练方法被阐明,其基于正例-未标记学习结合主动学习对所述判别器进行训练,并使用P-R曲线和ROC曲线的曲线下表面作为分类结果的评价指标来量化监控训练效果,直到所述判别器的分类效果满足预设要求。
应可以理解,根据本申请的所述用于裁判文书的判别器的训练方法分为两个阶段:特征工程部分和判别器训练部分,如图2所示,其中,特征工程部分主要包括语料预处理和文本特征提取;判别器训练部分主要包括划分数据集、基于正例-未标记学习方法对判别器进行训练、构建评价指标、使用主动学习优化所述判别器模型的分类效果。
以下以未成年人信息判别为例,介绍所述用于裁判文书的判别器的训练方法。
首先,选取未成年人的刑事、民事一审判决书语料各100篇,用于机器学习。其中,包括正例文书语料(即,正样本)和少量干扰文书语料(即,负样本),其中,正例文书语料主要包括但不限于以下关键词:未成年、民事行为能力、儿童、在校就读、不满十八周岁、骨龄、婴儿、孩子、幼儿园等,干扰文书语料的文书中含有特定关键词,但不属于涉及未成年人信息。
根据前述收集的未成年人公开文书正例和负例语料,构建用于裁判文书的判别器模型。具体而言,将标记好的样本作为有标签数据加入到训练集中,进而二次训练和测试工作,并做标记,这个过程可以反复执行,以逐渐达到更好的预测效果。此外,通过统计预测出错的样本的出错类型以及相应案件的类型,在设计特征时添加一些规则,比如,在遗产纠纷案件中出现的子女表述并不能有助于认定为正例,又比如在一些案件中虽然出现“儿子”“女儿”等表述,但是判断是否为正例仍需要其他特征的支持。
如前所述,本申请的裁判文书中身份信息识别,分为两个阶段:第一阶段:判断待识别裁判文书是否包含敏感身份信息,以及,第二阶段:识别出具体的所述待识别裁判文书中敏感身份信息。其中步骤1至步骤7所训练的判别器模型是为了实现第一阶段的技术目的,即,通过训练完成的判别器模型判断待识别裁判文书是否包含敏感身份信息。在确定待识别裁判文书包含敏感身份信息后,进入第二个阶段,即,从所述待识别裁判文书中识别出具体的所述待识别裁判文书中敏感身份信息。
图3图示了根据本申请实施例的用于裁判文书的敏感身份信息识别方法的流程图。如图3所示,根据本申请实施例的于裁判文书的敏感身份信息识别方法,包括:S310,获取待识别的裁判文书;S320,将所述待识别的裁判文书通过词嵌入模型,以获得所述裁判文书的词嵌入向量;S330,将所述裁判文书的词嵌入向量输入基于如上所述的用于裁判文书的判别器的训练方法所训练的判别器中以获得分类结果,所述分类结果表示所述待识别的裁判文书中是否包含敏感身份信息;S340,响应于所述分类结果为所述裁判文书中包含敏感身份信息,获取包含敏感身份信息的裁判文书的词文本特征向量的序列;S350,将所述词文本特征向量的序列通过多层双向长短期记忆网络以获得每个词的特征向量,并通过条件随机场标注每个词的标签;以及,S360,基于所述标签筛选出与所述裁判文书中的敏感身份信息对应的词的特征向量。
步骤S310至步骤S330完成的就是第一阶段的工作,也就是,利用判别器模型对待识别裁判文书是否包含敏感身份信息进行分类,以获得分类结果。应注意到,在用于裁判文书的敏感身份信息识别方法中,所述判别器模型作为端-对-端模型被应用。
在步骤S340中,响应于所述分类结果为所述裁判文书中包含敏感身份信息,获取包含敏感身份信息的裁判文书的词文本特征向量的序列。也就是,响应于所述分类结果为所述裁判文书中包含敏感身份信息,获取包含敏感身份信息的裁判文书的句子所对应的词文本特征向量的序列。
在实际的应用场景中,并不是所有句子都需要进行识别,因此,可以挑选出一些不包含身份信息的句子和包含身份信息的句子训练一个句子分类器。并将所述句子分类器放置于执行步骤S350之前(即,放到识别模型之前),对要输入识别模型的句子进行判断,如果该句子包含身份信息,就将该句子所对应的词文本特征向量的序列输入识别模型进行识别;如果不包含身份信息,那么就直接不进行识别,这样能大大提升识别的速度。
在具体时间中,本申请发明人发现虽然已经有了句子分类器进行判断句子是否包含身份信息,然而还是会有一部分不包含身份信息但是包含人名信息的句子输入进模型。然而,所述句子分类器是在全部包含身份信息的语料上进行训练的,所以如果输入的句子如果没有身份信息模型依然会“尽力”去识别其中的信息,这样会导致提取出来的身份信息是多余的。这种现象也被称为训练数据与应用数据不一致。
针对这个问题,采取在训练数据中添加噪声数据的方式,所谓噪声数据就是与标注数据在同一批文书中的句子,但是这些句子虽然包含人名,但是并不具备身份信息,所以在打标签的时候全部都是"O"。这样就可以做到模型在遇到人名时可以选择性的进行预测,进而提升模型的泛化能力。也就是,在本申请的技术方案中,所述句子分类器的训练过程,包括:在所述训练语料中添加噪声数据,所述噪声数据为与标注数据在同一批裁判文书中的句子,所述句子包含人名但不具有身份信息。
进一步地,在本申请实施例中,获取包含敏感身份信息的裁判文书的词文本特征向量的序列的过程,包括:对包含敏感身份信息的句子进行分词处理,以获得词序列;然后,将所述词序列中的每个词通过词嵌入模型以获得所述词文本特征向量的序列。
因为在本申请的技术方案中,采用的是多层的双向LSTM而非单层双向LSTM,所以在训练时,可能会丢失一些位置信息,导致句子中的一些人名与其上下文对应错误,针对此问题,提出了将句子中的每一个字的位置信息进行编码参与模型一起训练。
首先,随机初始化一个位置嵌入矩阵,这个矩阵会跟着模型的训练过程一起进行参数更新。然后取到每个句子的词嵌入向量和位置嵌入向量,这里有三种方式进行整合这两个向量。第一种方法是将两个嵌入向量进行相加;第二种方法是进行拼接;第三种方法是每一个嵌入向量去走一个全连接网络,然后相加再经过激活函数进行激活,例如,tanh激活函数。经过试验第一种方法的效果是优于后两种方法的。
也就是,在本申请的技术方案中,获取包含敏感身份信息的裁判文书的词文本特征向量的序列,包括:提取所述包含敏感身份信息的句子的位置嵌入向量;将所述包含敏感身份信息的句子中的每个词通过词嵌入模型,以获得词嵌入向量;以及,基于所述位置嵌入向量和所述词嵌入向量,生成所述词文本特征向量的序列。
在本申请的一个示例中,基于所述位置嵌入向量和所述词嵌入向量,生成所述词文本特征向量的序列,包括:将所述位置嵌入向量和所述词嵌入向量进行相加,以获得所述词文本特征向量的序列。
在本申请的另一示例中,基于所述位置嵌入向量和所述词嵌入向量,生成所述词文本特征向量的序列,包括:将所述位置嵌入向量和所述词嵌入向量进行拼接,以获得所述词文本特征向量的序列。
在本申请的又一示例中,基于所述位置嵌入向量和所述词嵌入向量,生成所述词文本特征向量的序列,包括:将所述位置嵌入向量通过全连接层以获得第一全连接特征向量;将所述词嵌入向量通过全连接层以获得第二全连接特征向量;以及,将所述第一全连接特征向量和所述第二全连接特征向量进行相加并通过激活函数进行激活以获得所述词文本特征向量的序列。
在步骤S350中,将所述词文本特征向量的序列通过多层双向长短期记忆网络以获得每个词的特征向量,并通过条件随机场标注每个词的标签。也就是,将所述词文本特征向量的序列通过多层双向长短期记忆网络以获得每个词的特征向量,并通过条件随机场标注每个词的标签,其中,所述标签表示所述词文本特征向量对应的词是否为敏感身份信息。
本领域普通技术人员应知晓,LSTM是针对RNN神经网络在序列过长时出现梯度消失问题,且很难学到长期依赖的特征的缺点提出的,LSTM单元通过输入门、遗忘门和输出门来控制信息的传递。而单向的LSTM只能捕获序列的历史信息,在做身份识别时是需要考虑人名的上下文的,所以这里用到了双向的LSTM用来捕获序列的上下文信息。
具体地,在本申请实施例中,将所述词文本特征向量的序列通过多层双向长短期记忆网络以获得每个词的特征向量,并通过条件随机场标注每个词的标签的过程,包括:在每一个所述双向长短期记忆网络中,首先,通过所述双向长短期记忆网络的前向长短期记忆网络提取所述词文本特征向量的序列中当前词的前文特征;接着,通过所述双向长短期记忆网络的反向长短期记忆网络提取所述词文本特征向量的序列中当前词的后文特征;然后,基于每个词的所述前文特征和所述后文特征获得所述词文本特征向量的序列的中间特征向量,所述中间特征向量为下一层所述双向长短期记忆网络的输入。也就是,所述词文本特征向量的序列每经过一层双向LSTM后的输出又会变为下一层双向LSTM的输入。
特别地,在本申请实施例中,选择3层双向LSTM层来提取所述词文本特征向量的序列的特征向量。也就是,所述多层双向长短期记忆网络为3层双向长短期记忆网络。
LSTM只能考虑长远的上下文信息,不能考虑标签之间的依赖关系。比如在此任务中,不会出现I-WITNESS、B-WITNESS(标签的中间跑到标签开头)这种情况,因此,模型不能独立的使用h(t)来做标签决策,条件随机场(Conditional Random Field:CRF)能通过考虑标签之间的相邻关系获得全局最优标签序列,因此使用CRF来建模标签序列。
条件随机场对于给定序列x(x1,x2,x3...xn)和对应的标签序列y(y1,y2,y3...yn),定义评估分数为如下公式:
其中W是转换矩阵,Wi,j表示标签转移分数,Pi,yi表示该字符的第yi个标签的分数。
其中,Pi的定义如下公式:
Pi=Wsh(t)+bs
其中,h(t)是上一层t时刻输入数据x(t)的隐藏状态,参数Ws和bs分别为权值矩阵和参数。
对CRF的训练采用的是最大条件似然估计,对训练集合{(xi,yi)},其似然函数如下面的公式:
其中P如公式:
图4图示了根据本申请实施例的用于裁判文书的敏感身份信息识别方法中将所述裁判文书的词嵌入向量通过多层双向长短期记忆网络和条件随机场以获得所述裁判文书的标签序列的结构示意图。图4图示了LSTM+CRF模型的结构示意图,其中,模型的数据流如下:所述词文本特征向量的序列通过多层双向LSTM进行编码,之后通过CRF对每个词的特征向量进行分类预测,以获得每个词的特征向量的标签。
进一步地,在步骤S360后,也就是,基于如上所述的用于裁判文书的敏感身份信息识别方法获得获得每个词的特征向量的标签后,如果所述标记的标签中存在敏感身份信息的标签,则对与所述裁判文书中的敏感身份信息对应的词的特征向量对应的词进行屏蔽处理,以使得公开的裁判文书满足《最高人民法院关于人民法院在互联网公布裁判文书的规定》第八条的规定要求。
综上,基于本申请实施例的用于裁判文书的敏感身份信息识别方法被阐明,其基于多层双向LSTM和条件随机场构成的识别模型识别出裁判文书中具体的敏感身份信息。
示例性装置
图5图示了根据本申请实施例的用于裁判文书的判别器的训练装置的框图。
如图5所示,根据本申请实施例的所述训练装置500,包括:训练用语料生成单元510,用于执行步骤1:对获取的裁判文书进行文本预处理和文本特征提取,以获得所述裁判文书的词嵌入向量作为训练用语料;数据集划分单元520,用于执行步骤2:将所述训练用语料划分为训练集和测试集,其中,所述训练集包括已标注样本和未标注样本,所述已标注样本包括被标注为是的正样本和被标注为否的负样本,所述测试集包括已标注样本;判别器训练单元530,用于执行步骤3:基于所述训练集中的已标注样本对判别器进行训练,所述判别器用于判断裁判文书中是否包含敏感身份信息;测试单元540,用于执行步骤4:使用训练后的所述判别器对所述测试集中的已标注样本进行分类,以获得分类结果,并记录所述分类结果的P-R曲线和ROC曲线和使用所述P-R曲线和ROC曲线的曲线下表面作为分类结果的评价指标;待标注样本筛选单元550,用于执行步骤5:使用训练后的所述判别器对从所述训练集中随机筛选出预设数量的未标注样本进行分类,并基于预设的样本选择策略从所述未标注样本中筛选出待标注样本;标注单元560,用于执行步骤6:步骤6:将所述待标注样本进行标注后加入所述训练集的所述已标注样本中;以及,循环单元570,用于执行步骤7:步骤7:重复步骤4至6,直到所述评价指标满足预设要求。
在一个示例中,在上述训练装置500中,所述训练用语料生成单元510,进一步用于:读取获取的所述裁判文书中的文本内容和标签;对所述文本内容进行分词并去除停用词和低频词,以获得词列表;以及,使用词嵌入模型对所述词列表进行文本特征提取,以获得所述词嵌入向量。
在一个示例中,在上述训练装置500中,所述测试单元540,进一步用于:使用训练后的所述判别器对所述测试集中的每一已标注样本进行分类,以分别获得预测概率值;计算所述测试集中所述已标注样本的预测概率值的平均值,以获得平均预测概率;基于所述平均预测概率和真实标签绘制P-R曲线和ROC曲线;以及计算所述P-R曲线和所述ROC曲线的曲线下面积作为所述分类结果的评价指标。
在一个示例中,在上述训练装置500中,所述预设的样本选择策略为选择所述未标注样本中分类错误的样本作为待标注样本。
这里,本领域技术人员可以理解,上述训练装置500中的各个单元和模块的具体功能和操作已经在上面参考图1和图2的用于裁判文书的判别器的训练方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的训练装置500可以实现在各种终端设备中,例如大屏智能设备,或者独立于大屏智能设备的计算机等。在一个示例中,根据本申请实施例的训练装置500可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该训练装置500可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该训练装置500同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该训练装置500与该终端设备也可以是分立的设备,并且该训练装置500可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图6图示了根据本申请实施例的用于裁判文书的敏感身份信息识别装置的框图。
如图6所示,根据本申请实施例的用于裁判文书的敏感身份信息识别装置600,包括:待识别裁判文书获取单元610,用于获取待识别的裁判文书;词嵌入向量转化单元620,用于将所述待识别的裁判文书通过词嵌入模型,以获得所述裁判文书的词嵌入向量;分类结果生成单元630,用于将所述裁判文书的词嵌入向量输入基于如上所述的用于裁判文书的判别器的训练方法所训练的判别器中以获得分类结果,所述分类结果表示所述待识别的裁判文书中是否包含敏感身份信息;词序列获取单元640,用于响应于所述分类结果为所述裁判文书中包含敏感身份信息,获取包含敏感身份信息的裁判文书的词文本特征向量的序列;标注单元650,用于将所述词文本特征向量的序列通过多层双向长短期记忆网络以获得每个词的特征向量,并通过条件随机场标注每个词的标签;以及,词特征筛选单元660,用于基于所述标签筛选出与所述裁判文书中的敏感身份信息对应的词文本特征向量。
在一个示例中,在上述识别装置600中,所述标注单元650,进一步用于在每一个所述双向长短期记忆网络中,通过所述双向长短期记忆网络的前向长短期记忆网络提取所述词文本特征向量的序列中当前词的前文特征;通过所述双向长短期记忆网络的反向长短期记忆网络提取所述词文本特征向量的序列中当前词的后文特征;以及,基于每个词的所述前文特征和所述后文特征获得所述词文本特征向量的序列的中间特征向量,所述中间特征向量为下一层所述双向长短期记忆网络的输入。
在一个示例中,在上述识别装置600中,所述双向长短期记忆网络的数量为3层。
在一个示例中,在上述识别装置600中,所述词序列获取单元640,进一步用于:将所述待识别的裁判文书输入句子分类器,以从所述待识别的裁判文书中筛选出包含敏感身份信息的句子,其中,所述句子分类器基于被标注为包含身份信息的句子和被标注为不包含身份信息的句子作为训练语料训练获得。
在一个示例中,在上述识别装置600中,所述句子分类器的训练过程,包括:在所述训练语料中添加噪声数据,所述噪声数据为与标注数据在同一批裁判文书中的句子,所述句子包含人名但不具有身份信息。
在一个示例中,在上述识别装置600中,所述词序列获取单元640,进一步用于:提取所述包含敏感身份信息的句子的位置嵌入向量;将所述包含敏感身份信息的句子中的每个词通过词嵌入模型,以获得词嵌入向量;以及,基于所述位置嵌入向量和所述词嵌入向量,生成所述词文本特征向量的序列。
在一个示例中,在上述识别装置600中,所述词序列获取单元640,进一步用于:将所述位置嵌入向量和所述词嵌入向量进行相加,以获得所述词文本特征向量的序列。
在一个示例中,在上述识别装置600中,所述词序列获取单元640,进一步用于:将所述位置嵌入向量和所述词嵌入向量进行拼接,以获得所述词文本特征向量的序列。
在一个示例中,在上述识别装置600中,所述词序列获取单元640,进一步用于:将所述位置嵌入向量通过全连接层以获得第一全连接特征向量;将所述词嵌入向量通过全连接层以获得第二全连接特征向量;以及,将所述第一全连接特征向量和所述第二全连接特征向量进行相加并通过激活函数进行激活以获得所述词文本特征向量的序列。
在一个示例中,在上述识别装置600中,所述识别装置600进一步包括:屏蔽单元670,用于对与所述裁判文书中的敏感身份信息对应的词的特征向量对应的词进行屏蔽处理。
这里,本领域技术人员可以理解,上述识别装置600中的各个单元和模块的具体功能和操作已经在上面参考图3和图4的用于裁判文书的敏感身份信息识别方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的识别装置600可以实现在各种终端设备中,例如大屏智能设备,或者独立于大屏智能设备的计算机等。在一个示例中,根据本申请实施例的识别装置600可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该识别装置600可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该识别装置600同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该识别装置600与该终端设备也可以是分立的设备,并且该识别装置600可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的用于裁判文书的判别器的训练方法,或者,用于裁判文书的敏感身份信息识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如裁判文书等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括评价指标、识别结果、分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于裁判文书的判别器的训练方法,或者,用于裁判文书的敏感身份信息识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于裁判文书的判别器的训练方法,或者,用于裁判文书的敏感身份信息识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。