CN113569046B - 裁判文书人物关系识别方法、装置和电子设备 - Google Patents
裁判文书人物关系识别方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113569046B CN113569046B CN202110815292.4A CN202110815292A CN113569046B CN 113569046 B CN113569046 B CN 113569046B CN 202110815292 A CN202110815292 A CN 202110815292A CN 113569046 B CN113569046 B CN 113569046B
- Authority
- CN
- China
- Prior art keywords
- relationship
- sentence
- relation
- name
- sensitive identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013145 classification model Methods 0.000 claims abstract description 45
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 98
- 238000012549 training Methods 0.000 claims description 54
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种裁判文书人物关系识别方法、装置和电子设备。该裁判文书人物关系识别方法,包括:获取法律裁判文书并对所述法律裁判文书进行预处理;将所述预处理的法律裁判文书按句子进行切分,并将每个句子输入文本分类模型以确定所述每个句子是否包含敏感身份关系;使用人名识别接口从包含敏感身份关系的句子中识别出人名;以及,将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接,并输入关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系。这样,实现了预定类型的人物关系的准确识别。
Description
技术领域
本申请涉及文本处理技术领域,更为具体地说,涉及一种裁判文书人物关系识别方法、裁判文书人物关系识别装置和电子设备。
背景技术
随着最高人民法院颁布的《最高人民法院关于人民法院在互联网公布裁判文书的规定》实施以来,裁判文书在互联网公开的工作全面推开。然而,裁判文书是信息高度完整的法律文书,包含着大量的敏感信息。在《最高人民法院关于人民法院在互联网公布裁判文书的规定》中明确规定了:涉及未成年人的信息,涉及被害人、证人、侦查人员等主体的个人信息,都应当进行删除。
目前,通过实体识别的方法可以识别出裁判文书中包括的人名信息,进一步通过例如用于识别裁判文书的敏感身份信息的方法可以实现对敏感身份信息的识别。然而,仍然存在一个问题,即通过人物之间的关系描述,仍会将应当隐名处理的个人信息暴露出去。例如在某个案例中,被告人未隐名,根据《规定》被告人是不应当隐名的,而被害人虽然进行了隐名处理,但是其中描述了被告人和被害人之间是抚养、教养关系,从而还是暴露出被害人的具体信息,会对被害人造成严重影响。
因此,需要能够识别裁判文书中人物关系的方法,从而通过切断未隐名人与需隐名人之间的关系,达到更精准的屏蔽处理效果。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种裁判文书人物关系识别方法、装置和电子设备,其能够首先通过文本分类模型来确定包含敏感身份关系的句子,再从该句子中识别待识别的人物关系,从而实现了预定类型的人物关系的准确识别。
根据本申请的一方面,提供了一种裁判文书人物关系识别方法,包括:获取法律裁判文书并对所述法律裁判文书进行预处理;将所述预处理的法律裁判文书按句子进行切分,并将每个句子输入文本分类模型以确定所述每个句子是否包含敏感身份关系;使用人名识别接口从包含敏感身份关系的句子中识别出人名;以及,将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接,并输入关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系。
在上述裁判文书人物关系识别方法中,将每个句子输入文本分类模型以确定所述每个句子是否包含敏感身份关系包括:将句子的N个字中的每个字转换为K维向量;将句子的N个字对应的N个K维向量组成为N*K矩阵;将所述N*K矩阵输入文本分类模型的卷积神经网络以获得特征图;对所述特征图进行最大值池化操作以获得特征向量;以及,将所述特征向量通过分类器以获得分类结果,所述分类结果表示所述句子是否包含敏感身份关系。
在上述裁判文书人物关系识别方法中,将所述特征向量通过分类器以获得分类结果包括:将所述特征向量通过全连接层以获得全连接向量;将所述全连接向量通过Dropout层以获得去过拟合向量;以及,将所述去过拟合向量通过Softmax层以获得所述分类结果,所述Softmax层的分类标签为包含敏感身份关系的句子和不包含敏感身份关系的句子。
在上述裁判文书人物关系识别方法中,将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接包括:从所识别出的每个人名得到人名列表;以及,通过遍历人名列表以将得到的每个人名与包含敏感身份关系的每个句子组成人名-句子对。
在上述裁判文书人物关系识别方法中,所述关系分类模型是语言预训练Bert模型。
在上述裁判文书人物关系识别方法中,所述语言预训练Bert模型的训练过程包括:基于大规模法律领域语料对所述语言预训练Bert模型进行预训练;以及。使用标注好的法律裁判文书对所述语言预训练Bert模型进行训练。
在上述裁判文书人物关系识别方法中,输入关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系包括:将拼接的人名-句子对的序列文本按字切分并输入所述语言预训练Bert模型的输入层;将所述语言预训练Bert模型输出的隐藏向量与所述句子中的人名对位置向量拼接;以及,将拼接后的向量通过全连接和softmax层以获得类别分布概率向量,其中所述类别分布概率向量中的最大值对应的关系类别是所述拼接的人名-句子对的类别。
在上述裁判文书人物关系识别方法中,进一步包括:根据敏感身份关系的相关规则对所述包含敏感身份关系的句子中的关系是否是待识别的人物关系的识别结果进行后校验。
根据本申请的另一方面,提供了一种裁判文书人物关系识别装置,包括:文书获取单元,用于获取法律裁判文书并对所述法律裁判文书进行预处理;句子分类单元,用于将所述预处理的法律裁判文书按句子进行切分,并将每个句子输入文本分类模型以确定所述每个句子是否包含敏感身份关系;人名识别单元,用于使用人名识别接口从包含敏感身份关系的句子中识别出人名;以及,关系识别单元,用于将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接,并输入关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系。
在上述裁判文书人物关系识别装置中,所述句子分类单元用于:将句子的N个字中的每个字转换为K维向量;将句子的N个字对应的N个K维向量组成为N*K矩阵;将所述N*K矩阵输入文本分类模型的卷积神经网络以获得特征图;对所述特征图进行最大值池化操作以获得特征向量;以及,将所述特征向量通过分类器以获得分类结果,所述分类结果表示所述句子是否包含敏感身份关系。
在上述裁判文书人物关系识别装置中,所述句子分类单元将所述特征向量通过分类器以获得分类结果包括:将所述特征向量通过全连接层以获得全连接向量;将所述全连接向量通过Dropout层以获得去过拟合向量;以及,将所述去过拟合向量通过Softmax层以获得所述分类结果,所述Softmax层的分类标签为包含敏感身份关系的句子和不包含敏感身份关系的句子。
在上述裁判文书人物关系识别装置中,所述关系识别单元用于:从所识别出的每个人名得到人名列表;以及,通过遍历人名列表以将得到的每个人名与包含敏感身份关系的每个句子组成人名-句子对。
在上述裁判文书人物关系识别装置中,所述关系分类模型是语言预训练Bert模型。
在上述裁判文书人物关系识别装置中,所述语言预训练Bert模型的训练过程包括:基于大规模法律领域语料对所述语言预训练Bert模型进行预训练;以及。使用标注好的法律裁判文书对所述语言预训练Bert模型进行训练。
在上述裁判文书人物关系识别装置中,所述关系识别单元用于:将拼接的人名-句子对的序列文本按字切分并输入所述语言预训练Bert模型的输入层;将所述语言预训练Bert模型输出的隐藏向量与所述句子中的人名对位置向量拼接;以及,将拼接后的向量通过全连接和softmax层以获得类别分布概率向量,其中所述类别分布概率向量中的最大值对应的关系类别是所述拼接的人名-句子对的类别。
在上述裁判文书人物关系识别装置中,进一步包括:后校验单元,用于根据敏感身份关系的相关规则对所述包含敏感身份关系的句子中的关系是否是待识别的人物关系的识别结果进行后校验。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如上所述的裁判文书人物关系识别方法。
根据本申请的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的裁判文书人物关系识别方法。
本申请的实施例提供的裁判文书人物关系识别方法、装置和电子设备,能够首先通过文本分类模型来确定包含敏感身份关系的句子,再从该句子中识别待识别的人物关系,从而实现预定类型的人物关系的准确识别。
附图说明
通过阅读下文优选的具体实施方式中的详细描述,本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。
图1图示了根据本申请实施例的裁判文书人物关系识别方法的流程图;
图2图示了根据本申请实施例的裁判文书人物关系识别方法中的关系分类模型的示意图;
图3图示了根据本申请实施例的裁判文书人物关系识别方法的应用示例的示意图;
图4图示了根据本申请实施例的裁判文书人物关系识别装置的框图;
图5图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
示例性方法
图1图示了根据本申请实施例的裁判文书人物关系识别方法的流程图。
如图1所示,根据本申请实施例的裁判文书人物关系识别方法包括以下步骤。
步骤S110,获取法律裁判文书并对所述法律裁判文书进行预处理。也就是,获取待识别预定人物关系,例如如上所述的敏感的人物身份关系的法律裁判文书,并完成数据清洗工作。
步骤S120,将所述预处理的法律裁判文书按句子进行切分,并将每个句子输入文本分类模型以确定所述每个句子是否包含敏感身份关系。在本申请实施例中,通过文本分类模型,例如文本卷积神经网络(CNN)模型来判断句子中是否存在敏感身份关系。
这里,文本卷积神经网络模型是卷积神经网络(CNN)在文本分类的主要应用,文本CNN模型把原始文本作为输入,不需要人工进行特征提取。在文本CNN模型中,将句子中每个字使用K维向量来表示,这样句子可表示为一个N*K的矩阵,作为模型的输入。然后,使用卷积神经网络的不同的过滤器进行卷积操作得到特征图。之后,对特征图使用最大池化操作,把特征图向量中最大的值提取出来,组成一个一维的特征向量,然后基于特征向量进行分类。
因此,在根据本申请实施例的裁判文书人物关系识别方法中,将每个句子输入文本分类模型以确定所述每个句子是否包含敏感身份关系包括:将句子的N个字中的每个字转换为K维向量;将句子的N个字对应的N个K维向量组成为N*K矩阵;将所述N*K矩阵输入文本分类模型的卷积神经网络以获得特征图;对所述特征图进行最大值池化操作以获得特征向量;以及,将所述特征向量通过分类器以获得分类结果,所述分类结果表示所述句子是否包含敏感身份关系。
具体地,在进行分类时,首先将特征向量经过全连接层输出,并加上Dropout层防止过拟合。在多分类时,通常使用Softmax层进行多分类,Softmax函数可以将神经网络的输出映射到(0,1)区间内,可以将这个值看作一个类别分布概率向量,取概率值最大的类别作为最终预测结果。并且,文本分类模型的训练数据是来源于裁判文书中的经过人工标注的是否包含关系类别的数据,也就是,句子的标签即为两类,一类是其中包含敏感身份关系的句子,另一类是不包含敏感身份关系的句子。
因此,在根据本申请实施例的裁判文书人物关系识别方法中,将所述特征向量通过分类器以获得分类结果包括:将所述特征向量通过全连接层以获得全连接向量;将所述全连接向量通过Dropout层以获得去过拟合向量;以及,将所述去过拟合向量通过Softmax层以获得所述分类结果,所述Softmax层的分类标签为包含敏感身份关系的句子和不包含敏感身份关系的句子。
步骤S130,使用人名识别接口从包含敏感身份关系的句子中识别出人名。具体地,对于文本分类模型判断包含敏感身份关系的句子,可以通过适用于裁判文书的人名识别接口来提取出裁判文书中的人名。
步骤S140,将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接,并输入关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系。
首先,在通过适用于裁判文书的人名识别接口提取出裁判文书中的人名之后,得到人名列表。然后,遍历人名列表,将每个人名与每个包含敏感身份关系的句子两两组对并进行拼接。这样,就可以将获得的人名-句子对输入到关系分类模型中,得到模型预测的关系类型。
因此,在根据本申请实施例的裁判文书人物关系识别方法中,将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接包括:从所识别出的每个人名得到人名列表;以及,通过遍历人名列表以将得到的每个人名与包含敏感身份关系的每个句子组成人名-句子对。
在本申请实施例中,所述关系分类模型可以是语言预训练Bert模型。这里,Bert模型是谷歌研究人员于2018年提出的一种语言预训练模型,通过在33亿文本的语料上训练语言模型,分别在不同的下游任务上微调,这样的模型在不同的自然语言处理任务均取得了很好的结果。Bert模型使用转换器(Transformer)构成了双向语言模型进行预训练,在训练过程中提出了遮挡机制和下一句预测机制,然后根据不同的下游任务基于微调的方式,对下层网络的输出方式进行调整。
图2图示了根据本申请实施例的裁判文书人物关系识别方法中的关系分类模型的示意图。如图2所示,CLS是关系分类模型,比如Bert模型中用来表示整个句子语义表示的特殊符号,Tok代表法律文本按字切分的字符,Ecls和E分别代表特殊符号和字符的向量表示。Trm是指Bert模型中的Transformer编码器,T是编码器的中间输出,h是模型计算过程中的隐藏状态,PosA,PosB是句子中的人名对位置向量。这里,一个句子中可能出现多个人名,为了区别不同的人名,在本申请实施例中,使用位置向量对人名出现位置进行编码,这也同时考虑到人名之间的相对位置会包含与关系相关的一些信息。具体地,关系分类模型可以将人名在句子中的相对位置作为索引获取位置向量的信息,并将人名对的2个位置向量与句子的CLS向量拼接,通过全连接层和softmax层输出,得到类别分布概率。位置向量是额外设计的模型参数,训练初期随机初始化,训练过程中通过反向传递更新向量值直到收敛。
具体地,在所述关系分类模型中,在输入层将人名-句子对的序列文本按字切分并输入到模型中,然后取模型输出的隐藏向量,与句子中的人名对位置向量拼接后,通过全连接和softmax层进行输出,得到一个类别分布概率向量,并取输出值最大的关系类别作为模型的预测结果。
另外,在本申请实施例中,在使用所述模型对法律裁判文书进行关系类别的分类时,首先基于大规模法律领域语料对模型进行预训练,使模型更适合处理法律领域的自然语言处理问题。然后,使用标注好的法律文书进行模型的新一步训练。
因此,在根据本申请实施例的裁判文书人物关系识别方法中,所述关系分类模型是语言预训练Bert模型。
并且,在上述裁判文书人物关系识别方法中,所述语言预训练Bert模型的训练过程包括:基于大规模法律领域语料对所述语言预训练Bert模型进行预训练;以及。使用标注好的法律裁判文书对所述语言预训练Bert模型进行训练。
此外,在根据本申请实施例的裁判文书人物关系识别方法中,输入关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系包括:将拼接的人名-句子对的序列文本按字切分并输入所述语言预训练Bert模型的输入层;将所述语言预训练Bert模型输出的隐藏向量与所述句子中的人名对位置向量拼接;以及,将拼接后的向量通过全连接和softmax层以获得类别分布概率向量,其中所述类别分布概率向量中的最大值对应的关系类别是所述拼接的人名-句子对的类别。
这样,通过关系分类模型的关系类别的分类,就可以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系,比如如上所述的敏感的人物身份关系。
此外,在根据本申请实施例的裁判文书人物关系识别方法中,在完成关系类别的分类之后,还可以根据敏感身份关系的相关规则对模型提取的关系进行后校验。比如,使用模型进行关系预测的时候可能会存在一些误判,为了减少误判,还可以基于规则和正则的关系识别方法进行纠正,比如,对于“张某的母亲李某”这种表达比较固定的关系,就可以使用规则进行纠正和校验。
也就是,在根据本申请实施例的裁判文书人物关系识别方法中,进一步包括:根据敏感身份关系的相关规则对所述包含敏感身份关系的句子中的关系是否是待识别的人物关系的识别结果进行后校验。
图3图示了根据本申请实施例的裁判文书人物关系识别方法的应用示例的示意图。如图3所示,当应用于人物关系识别时,首先获取法律裁判文书,完成数据清洗工作。然后,将裁判文书按句子切分,并通过文本分类模型,即文本CNN,判断句子中是否存在敏感身份相关关系。然后,对于模型判断可能包含敏感身份关系的句子,通过适用于裁判文书的人名识别接口,提取裁判文书中的人名。然后,遍历人名列表两两与句子拼接,输入到Bert关系分类模型中,得到模型预测的关系类型。最后,根据敏感身份关系的相关规则对模型提取的关系进行后校验。
示例性装置
图4图示了根据本申请实施例的裁判文书人物关系识别装置的框图。
如图4所示,根据本申请实施例的裁判文书人物关系识别装置200包括:文书获取单元210,用于获取法律裁判文书并对所述法律裁判文书进行预处理;句子分类单元220,用于将所述预处理的法律裁判文书按句子进行切分,并将每个句子输入文本分类模型以确定所述每个句子是否包含敏感身份关系;人名识别单元230,用于使用人名识别接口从包含敏感身份关系的句子中识别出人名;以及,关系识别单元240,用于将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接,并输入关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系。
在一个示例中,在上述裁判文书人物关系识别装置200中,所述句子分类单元220用于:将句子的N个字中的每个字转换为K维向量;将句子的N个字对应的N个K维向量组成为N*K矩阵;将所述N*K矩阵输入文本分类模型的卷积神经网络以获得特征图;对所述特征图进行最大值池化操作以获得特征向量;以及,将所述特征向量通过分类器以获得分类结果,所述分类结果表示所述句子是否包含敏感身份关系。
在一个示例中,在上述裁判文书人物关系识别装置200中,所述句子分类单元220将所述特征向量通过分类器以获得分类结果包括:将所述特征向量通过全连接层以获得全连接向量;将所述全连接向量通过Dropout层以获得去过拟合向量;以及,将所述去过拟合向量通过Softmax层以获得所述分类结果,所述Softmax层的分类标签为包含敏感身份关系的句子和不包含敏感身份关系的句子。
在一个示例中,在上述裁判文书人物关系识别装置200中,所述关系识别单元240用于:从所识别出的每个人名得到人名列表;以及,通过遍历人名列表以将得到的每个人名与包含敏感身份关系的每个句子组成人名-句子对。
在一个示例中,在上述裁判文书人物关系识别装置200中,所述关系分类模型是语言预训练Bert模型。
在一个示例中,在上述裁判文书人物关系识别装置200中,所述语言预训练Bert模型的训练过程包括:基于大规模法律领域语料对所述语言预训练Bert模型进行预训练;以及。使用标注好的法律裁判文书对所述语言预训练Bert模型进行训练。
在一个示例中,在上述裁判文书人物关系识别装置200中,所述关系识别单元240用于:将拼接的人名-句子对的序列文本按字切分并输入所述语言预训练Bert模型的输入层;将所述语言预训练Bert模型输出的隐藏向量与所述句子中的人名对位置向量拼接;以及,将拼接后的向量通过全连接和softmax层以获得类别分布概率向量,其中所述类别分布概率向量中的最大值对应的关系类别是所述拼接的人名-句子对的类别。
在一个示例中,在上述裁判文书人物关系识别装置200中,进一步包括:后校验单元,用于根据敏感身份关系的相关规则对所述包含敏感身份关系的句子中的关系是否是待识别的人物关系的识别结果进行后校验。
这里,本领域技术人员可以理解,上述裁判文书人物关系识别装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图3描述的裁判文书人物关系识别方法中详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的裁判文书人物关系识别装置200可以实现在各种终端设备中,例如用于处理法律裁判文书的服务器中。在一个示例中,根据本申请实施例的裁判文书人物关系识别装置200可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该裁判文书人物关系识别装置200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该裁判文书人物关系识别装置200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该裁判文书人物关系识别装置200与该终端设备也可以是分立的设备,并且该裁判文书人物关系识别装置200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图5来描述根据本申请实施例的电子设备。
图5图示了根据本申请实施例的电子设备的框图。
如图5所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的裁判文书人物关系识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如法律裁判文书,人名列表等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,例如识别出的敏感人物关系等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图5中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的裁判文书人物关系识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的裁判文书人物关系识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (9)
1.一种裁判文书人物关系识别方法,其特征在于,包括:
获取法律裁判文书并对所述法律裁判文书进行预处理,包括:获取待识别预定人物关系,完成数据清洗;
将所述预处理的法律裁判文书按句子进行切分,并将每个句子输入文本分类模型以确定所述每个句子是否包含敏感身份关系,包括:
将句子的N个字中的每个字转换为K维向量;
将句子的N个字对应的N个K维向量组成为N*K矩阵;
将所述N*K矩阵输入文本分类模型的卷积神经网络以获得特征图;
对所述特征图进行最大值池化操作以获得特征向量;以及
将所述特征向量通过分类器以获得分类结果,所述分类结果表示所述句子是否包含敏感身份关系;
使用人名识别接口从包含敏感身份关系的句子中识别出人名;以及
将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接,并输入基于大规模法律领域语料训练过的关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系,其中,将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接包括:从所识别出的每个人名得到人名列表;以及通过遍历人名列表以将得到的每个人名与包含敏感身份关系的每个句子组成人名-句子对。
2.如权利要求1所述的裁判文书人物关系识别方法,其特征在于,将所述特征向量通过分类器以获得分类结果包括:
将所述特征向量通过全连接层以获得全连接向量;
将所述全连接向量通过Dropout层以获得去过拟合向量;以及
将所述去过拟合向量通过Softmax层以获得所述分类结果,所述Softmax层的分类标签为包含敏感身份关系的句子和不包含敏感身份关系的句子。
3.如权利要求1所述的裁判文书人物关系识别方法,其特征在于,所述关系分类模型是语言预训练Bert模型。
4.如权利要求3所述的裁判文书人物关系识别方法,其特征在于,所述语言预训练Bert模型的训练过程包括:
基于大规模法律领域语料对所述语言预训练Bert模型进行预训练;以及
使用标注好的法律裁判文书对所述语言预训练Bert模型进行训练。
5.如权利要求3所述的裁判文书人物关系识别方法,其特征在于,输入关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系包括:
将拼接的人名-句子对的序列文本按字切分并输入所述语言预训练Bert模型的输入层;
将所述语言预训练Bert模型输出的隐藏向量与所述句子中的人名对位置向量拼接;以及
将拼接后的向量通过全连接和softmax层以获得类别分布概率向量,其中所述类别分布概率向量中的最大值对应的关系类别是所述拼接的人名-句子对的类别。
6.如权利要求1所述的裁判文书人物关系识别方法,其特征在于,进一步包括:
根据敏感身份关系的相关规则对所述包含敏感身份关系的句子中的关系是否是待识别的人物关系的识别结果进行后校验。
7.一种裁判文书人物关系识别装置,其特征在于,包括:
文书获取单元,用于获取法律裁判文书并对所述法律裁判文书进行预处理;包括:获取待识别预定人物关系,完成数据清洗;句子分类单元,用于将所述预处理的法律裁判文书按句子进行切分,并将每个句子输入文本分类模型以确定所述每个句子是否包含敏感身份关系;包括:将句子的N个字中的每个字转换为K维向量;将句子的N个字对应的N个K维向量组成为N*K矩阵;将所述N*K矩阵输入文本分类模型的卷积神经网络以获得特征图;对所述特征图进行最大值池化操作以获得特征向量;以及将所述特征向量通过分类器以获得分类结果,所述分类结果表示所述句子是否包含敏感身份关系;人名识别单元,用于使用人名识别接口从包含敏感身份关系的句子中识别出人名;以及
关系识别单元,用于将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接,并输入基于大规模法律领域语料训练过的关系分类模型,以确定所述包含敏感身份关系的句子中的关系是否是待识别的人物关系,其中,将所识别出的每个人名和包含敏感身份关系的每个句子组对和拼接包括:从所识别出的每个人名得到人名列表;以及通过遍历人名列表以将得到的每个人名与包含敏感身份关系的每个句子组成人名-句子对。
8.一种电子设备,其特征在于,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如权利要求1-6中任意一项所述的裁判文书人物关系识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如权利要求1-6中任意一项所述的裁判文书人物关系识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815292.4A CN113569046B (zh) | 2021-07-19 | 2021-07-19 | 裁判文书人物关系识别方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815292.4A CN113569046B (zh) | 2021-07-19 | 2021-07-19 | 裁判文书人物关系识别方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569046A CN113569046A (zh) | 2021-10-29 |
CN113569046B true CN113569046B (zh) | 2022-10-21 |
Family
ID=78165532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110815292.4A Active CN113569046B (zh) | 2021-07-19 | 2021-07-19 | 裁判文书人物关系识别方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569046B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113988077A (zh) * | 2021-11-09 | 2022-01-28 | 新华智云科技有限公司 | 一种行政职位、职级姓名纠错方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991165A (zh) * | 2019-12-12 | 2020-04-10 | 智器云南京信息科技有限公司 | 文本中人物关系提取方法及装置、计算机设备和存储介质 |
CN112667813A (zh) * | 2020-12-30 | 2021-04-16 | 北京华宇元典信息服务有限公司 | 用于裁判文书的敏感身份信息的识别方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7386550B2 (en) * | 2005-08-12 | 2008-06-10 | Xerox Corporation | Document anonymization apparatus and method |
US11163806B2 (en) * | 2016-05-27 | 2021-11-02 | International Business Machines Corporation | Obtaining candidates for a relationship type and its label |
CN107798136B (zh) * | 2017-11-23 | 2020-12-01 | 北京百度网讯科技有限公司 | 基于深度学习的实体关系抽取方法、装置及服务器 |
CN109657243A (zh) * | 2018-12-17 | 2019-04-19 | 江苏满运软件科技有限公司 | 敏感信息识别方法、系统、设备及存储介质 |
CN110826316B (zh) * | 2019-11-06 | 2021-08-10 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110837558B (zh) * | 2019-11-07 | 2022-04-15 | 成都星云律例科技有限责任公司 | 一种裁判文书实体关系抽取方法及系统 |
CN111563374B (zh) * | 2020-03-23 | 2022-08-19 | 北京交通大学 | 一种基于司法裁判文书的人员社交关系抽取方法 |
CN111553318A (zh) * | 2020-05-14 | 2020-08-18 | 北京华宇元典信息服务有限公司 | 敏感信息提取方法、裁判文书处理方法、装置和电子设备 |
CN112270196B (zh) * | 2020-12-14 | 2022-04-29 | 完美世界(北京)软件科技发展有限公司 | 实体关系的识别方法、装置及电子设备 |
CN112784578B (zh) * | 2021-03-16 | 2022-07-19 | 北京华宇元典信息服务有限公司 | 法律要素提取方法、装置和电子设备 |
-
2021
- 2021-07-19 CN CN202110815292.4A patent/CN113569046B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991165A (zh) * | 2019-12-12 | 2020-04-10 | 智器云南京信息科技有限公司 | 文本中人物关系提取方法及装置、计算机设备和存储介质 |
CN112667813A (zh) * | 2020-12-30 | 2021-04-16 | 北京华宇元典信息服务有限公司 | 用于裁判文书的敏感身份信息的识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113569046A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784578B (zh) | 法律要素提取方法、装置和电子设备 | |
CN109101537B (zh) | 基于深度学习的多轮对话数据分类方法、装置和电子设备 | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN110414004B (zh) | 一种核心信息提取的方法和系统 | |
US20220179892A1 (en) | Methods, systems and computer program products for implementing neural network based optimization of database search functionality | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN111159409A (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
CN112287672A (zh) | 文本意图识别方法及装置、电子设备、存储介质 | |
CN112667813B (zh) | 用于裁判文书的敏感身份信息的识别方法 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN110968697A (zh) | 文本分类方法、装置、设备及可读存储介质 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN110321557A (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN113569046B (zh) | 裁判文书人物关系识别方法、装置和电子设备 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN116644183B (zh) | 文本分类方法、装置及存储介质 | |
WO2023173541A1 (zh) | 基于文本的情绪识别方法、装置、设备及存储介质 | |
CN110750983A (zh) | 语料识别方法、装置、设备及计算机可读存储介质 | |
CN115496066A (zh) | 文本分析系统、方法、电子设备及存储介质 | |
CN114120425A (zh) | 一种情绪识别方法、装置、电子设备及存储介质 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |