CN110826316B

CN110826316B - 一种应用于裁判文书中敏感信息的识别方法

Info

Publication number: CN110826316B
Application number: CN201911077763.5A
Authority: CN
Inventors: 沈波; 李天舟; 张振江; 符艳平; 王立夫; 刘宁; 张宇
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2021-08-10
Anticipated expiration: 2039-11-06
Also published as: CN110826316A

Abstract

本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法，包括：步骤1：在中国裁判文书网上获取的裁判文书，对裁判文书进行分句和分词处理；步骤2：对处理后的裁判文书进行命名实体识别抽取实体以及属性值；步骤3：对处理后的裁判文书进行语义角色标注，构建关于事件发生情况的三元组；步骤4：对抽取实体和属性值利用关系抽取，构建关系三元组；步骤5：根据事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网；步骤6：根据不宜公开的信息内容定义敏感信息，利用结构数据网标注裁判文书中所对应的敏感信息。本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法，利用机器学习对法律概念、自然语言的语义理解，对裁判文书中的敏感信息进行识别，对司法公开，保障公众的知情权和监督权具有良好的现实意义。

Description

一种应用于裁判文书中敏感信息的识别方法

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种应用于裁判文书中敏感信息的识别方法。

背景技术

人民法院为了落实审判公开的原则，保障公众的知情权和监督权，司法公开是法治社会发展的必经之路。司法公开要求将司法的过程和结果向当事人和社会公开，实现司法程序的公开透明。而对于一些社会上民众关注的敏感案件或者案件中的敏感文字，对于大众的社会情绪和行为有一定的影响，同时社会舆论也会对案件的审判产生影响。因此，敏感信息的过滤和审判文书发布的风险评估就成为智慧法院的关键研究方向。

目前在司法领域中对于信息的自动化分析无法满足实际的需求，其根本原因在于分析机制需要建立在机器学习对法律概念、自然语言的语义理解的基础之上，由于司法业务流程的繁杂以及相关数据不够完备，发展尚不完善的语义理解及NLP理论还无法取得在其他领域中的应用效果。

发明内容

本发明的实施例提供了一种应用于裁判文书中敏感信息的识别方法，以克服现有技术的缺陷。

为了实现上述目的，本发明采取了如下技术方案。

一种应用于裁判文书中敏感信息的识别方法，包括：

步骤1：在中国裁判文书网上获取的裁判文书，对所述裁判文书进行分句和分词处理；

步骤2：对处理后的裁判文书进行命名实体识别抽取实体以及属性值；

步骤3：对处理后的裁判文书进行语义角色标注，构建关于事件发生情况的三元组；

步骤4：对所述抽取实体和属性值利用关系抽取，构建关系三元组；

步骤5：根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网；

步骤6：根据不宜公开的信息内容定义敏感信息，利用所述结构数据网标注裁判文书中所对应的敏感信息。

优选地，所述步骤2中命名实体和步骤3中语义角色标注识别均采用LSTM+CRF模型。

优选地，所述步骤4中关系抽取采用BERT预训练+全连接层模型。

优选地，所述步骤2中命名实体识别的内容包括：人名、组织机构、地名、日期、时间、货币、手机号码、座机号码、数字和百分比。

优选地，所述步骤3中语义角色标注的内容包括：动作的实施者、动作的影响、受益人、条件、方向、程度、频率、地点、方式、目的、原因、时间和主题。

优选地，所述步骤2中命名实体和步骤3中语义角色标注识别均采用LSTM+CRF模型，具体包括：

对于给定的输入X＝(x₁,x₂,…,x_n)，这里的输入为文档经过分词后，每一句话中的各个词语，X表示一个句子，x表示组成这句话的每一个词语，经过LSTM层得到输出P＝(p₁,p₂,p₃…p_n)∈R^n×k，其中k为实体/语义角色标记的数目，P表示经过LSTM每个字在隐藏层的输出的连接，p₁…p_n表示每个字隐藏层输出，R表示字向量全集，P_i,j为第i个词被预测为实体/语义角色j的分数；

对于一条标记序列y＝(y₁,y₂,…,y_n)，定义模型对于句子X的标签等于对标记序列y的分数：

其中，S表示模型对句子X的标签，A为转移矩阵，A_i,j为从标记i转移到标记j的分数。对分数s(X,y)取softmax做规范化，则得到标记序列y的预测概率为：

其中，分母表示对所有可能的标记序列的分数求和，e为自然常数，p表示输入一句话X序列，预测每一个词语x_i的标签y_i的概率。

优选地，所述关系抽取采用BERT预训练+全连接层模型包括：

对于句子中的实体e₁经过BERT得到向量H_i到H_j，实体e₂经过BERT得到向量H_k到H_m，经过全连接层输出得到：

其中，W₁与W₂，b₁与b₂共享参数，W，b表示全连接层的参数权重W和偏置b，H表示组成实体的每一个字通过BERT预训练得到的字向量，i，j表示组成实体e₁的首尾字，k，m表示组成实体e₂的首尾字。

句子的起始标志经过BERT得到向量H₀经过全连接层：

H′₀＝W₀(tanh(H₀))+b₀

最后将得到的三个向量拼接取softmax做规范化，则得到e₁与e₂关系r的预测概率为：

h″＝W₃[concat(H′₀,H′₁,H′₂)]+b₃

p(r|E＝e₁,e₂)＝softmax(h″)

其中，h″表示将之前的向量拼接经过全连接层输出后的向量。

优选地，所述根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网，包括：

将构建的事件发生情况三元组和关系三元组存储到图数据库中，在所述图数据库中先根据实体创建节点，再根据事件发生情况三元组和关系三元组之间的关系创建节点之间的关系，最后将节点连接成结构数据网。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法，全面提取裁判文书中所有潜在敏感信息的内容，并找到之间的相互关系。根据《司法公开文书信息屏蔽处理细则》中的内容，识别出敏感信息。该方法不仅适用于司法领域，在其他领域中同样适用，鲁棒性强。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种应用于裁判文书中敏感信息的识别方法流程图；

图2为一种结构数据网示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法，如图1所示，包括：

步骤1：在中国裁判文书网上获取的裁判文书，对裁判文书进行分句和分词处理。

步骤2：对处理后的裁判文书进行命名实体识别抽取实体以及属性值，其中，命名实体识别的内容包括：人名、组织机构、地名、日期、时间、货币、手机号码、座机号码、数字和百分比等。

步骤3：对处理后的裁判文书进行语义角色标注，构建关于事件发生情况的三元组，其中，语义角色标注的内容包括：动作的实施者、动作的影响、受益人、条件、方向、程度、频率、地点、方式、目的、原因、时间和主题等。

命名实体识别与语义角色标注都利用LSTM+CRF对处理后的裁判文书进行识别和处理：

对于给定的输入X＝(x₁,x₂,…,x_n)(这里的输入为文档经过分词后，每一句话中的各个词语，X表示一个句子，x表示组成这句话的每一个词语，经过LSTM层得到输出P＝(p₁,p₂,p₃…p_n)∈R^n×k，其中k为实体/语义角色标记的数目，P表示经过LSTM每个字在隐藏层的输出的连接，p₁…p_n表示每个字隐藏层输出，R表示字向量全集，P_i,j为第i个词被预测为实体/语义角色j的分数。

步骤4：对抽取实体和属性值利用关系抽取，构建关系三元组。

关系抽取采用BERT预训练+全连接层模型的方法：

句子的起始标志经过BERT得到向量H₀经过全连接层：

H′₀＝W₀(tanh(H₀))+b₀

h″＝W₃[concat(H′₀,H′₁,H′₂)]+b₃

p(r|E＝e₁,e₂)＝softmax(h″)

步骤5：根据事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网，包括：将构建的事件发生情况三元组和关系三元组存储到图数据库(如Neo4j)中，在数据库中先根据实体创建节点，再根据事件发生情况三元组和关系三元组之间的关系创建节点之间的关系，最后将节点连接成结构数据网。

直接在图数据库中创建节点，

在Neo4j中$CREATE(n:Person{name:‘ZJ’,title:‘Developer’})return n；

创建一个节点，再同样的创建另一个节点，

$CREATE(n:Person{name:‘CQR’,title:‘Helper’})return n；

创建两个节点之间的关系

$match(n:Person{name:“Zhangjian”}),(m:Person{name:“Chenqiurui”})create(n)-[r:Friend]->(m)return r；

如此构建每一个节点与关系，最后会形成一张结构网络。

如图2结构数据网示意图所示。

步骤6：根据不宜公开的信息内容定义敏感信息，利用结构数据网标注裁判文书中所对应的敏感信息。

《司法公开文书信息屏蔽处理细则》不宜公开的信息内容：

当事人为自然人，应当删除身份、身份证号码、住(居)所地址、银行账号等个人信息，但一般保留当事人姓名、性别和年龄等信息；

当事人为法人或其他组织，保留其名称、住所地、法定代表人或负责任的姓名、性别和年龄，其他信息应当删除；

暴力犯罪案件的被害人及所有案件的证人只公布姓氏，其他个人信息应当删除；

委托代理人是律师的，保留律师事务所名称。委托代理人或辩护人是公民的，删除委托代理人或辩护人的住址、通讯方式、身份证号码等信息，但保留委托代理人与当事人的关系；

证人、鉴定人、刑事案件被害人及其法定代理人的姓名，以及涉及到未成年人的裁判文书，只公布其姓氏；

裁判文书中已经使用化名等代替证人、鉴定人、刑事案件被害人及其法定代理人的个人信息的，替代信息不再进行技术处理。

根据《司法公开文书信息屏蔽处理细则》中不宜公开的内容对敏感信息的定义，找到实体为当事人并且其身份为自然人的身份，身份证号码、居住地址，且标注为敏感信息，识别结果如下表所示。

表1：敏感信息识别结果

本领域技术人员应能理解上述根据《司法公开文书信息屏蔽处理细则》内容对敏感信息的定义仅为举例，其他现有的或今后可能出现的定义敏感信息的原则如可适用于本发明实施例，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

综上所述，本发明针对在中国裁判文书网中采集到的裁判文书信息，通过实体识别和语义角色标注的方法找到潜在的敏感信息。通过关系抽取算法建立各实体之间的联系，构建结构化数据网，根据《司法公开文书信息屏蔽处理细则》中的对于不宜公开的信息定义，识别敏感信息。本发明对已有数据的利用率高，可解释性强，鲁棒性高，对司法公开，保障公众的知情权和监督权具有良好的现实意义。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种应用于裁判文书中敏感信息的识别方法，其特征在于，包括：

步骤6：根据不宜公开的信息内容定义敏感信息，利用所述结构数据网标注裁判文书中所对应的敏感信息；

所述步骤2中命名实体和步骤3中语义角色标注识别均采用LSTM+CRF模型，具体包括：

对于给定的输入X＝(x₁，x₂，...，x_n)，这里的输入为文档经过分词后，每一句话中的各个词语，X表示一个句子，x表示组成这句话的每一个词语，经过LSTM层得到输出P＝(p₁，p₂，p₃…p_n)∈R^n×k，其中k为实体/语义角色标记的数目，P表示经过LSTM每个字在隐藏层的输出的连接，p₁…p_n表示每个字隐藏层输出，R表示字向量全集，P_i，j为第i个词被预测为实体/语义角色j的分数；

对于一条标记序列y＝(y₁，y₂，...，y_n)，定义模型对于句子X的标签等于对标记序列y的分数：

其中，S表示模型对句子X的标签，A为转移矩阵，A_i，j为从标记i转移到标记j的分数，对分数s(X，y)取softmax做规范化，则得到标记序列y的预测概率为：

其中，分母表示对所有可能的标记序列的分数求和，e为自然常数，p表示输入一句话X序列，预测每一个词语x_i的标签y_i的概率；

所述关系抽取采用BERT预训练+全连接层模型包括：

其中，W₁与W₂，b₁与b₂共享参数，W，b表示全连接层的参数权重W和偏置b，H表示组成实体的每一个字通过BERT预训练得到的字向量，i，j表示组成实体e₁的首尾字，k，m表示组成实体e₂的首尾字；

句子的起始标志经过BERT得到向量H₀经过全连接层：

H′₀＝W₀(tanh(H₀))+b₀

h″＝W₃[concat(H′₀，H′₁，H′₂)]+b₃

p(r|E＝e₁，e₂)＝softmax(h″)

2.根据权利要求1所述的识别方法，其特征在于，所述步骤2中命名实体识别的内容包括：人名、组织机构、地名、日期、时间、货币、手机号码、座机号码、数字和百分比。

3.根据权利要求1所述的识别方法，其特征在于，所述步骤3中语义角色标注的内容包括：动作的实施者、动作的影响、受益人、条件、方向、程度、频率、地点、方式、目的、原因、时间和主题。

4.根据权利要求1所述的识别方法，其特征在于，所述根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网，包括：