CN110516257A - 一种基于边界识别与组合的裁判文书证据抽取方法 - Google Patents
一种基于边界识别与组合的裁判文书证据抽取方法 Download PDFInfo
- Publication number
- CN110516257A CN110516257A CN201910816186.0A CN201910816186A CN110516257A CN 110516257 A CN110516257 A CN 110516257A CN 201910816186 A CN201910816186 A CN 201910816186A CN 110516257 A CN110516257 A CN 110516257A
- Authority
- CN
- China
- Prior art keywords
- evidence
- boundary
- judgement document
- recognition
- combined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明公开了一种一种基于边界识别与组合的裁判文书证据抽取方法。为了有效抽取裁判文书里的证据,本发明分为三步:(1)使用RNNs识别证据实体的开始边界和结束边界。(2)组合所有开始边界和结束边界形成候选证据实体。(3)使用CNN对候选证据进行分类,识别真实的证据。基于边界识别与组合的方法弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高了裁判文书中证据抽取的性能。
Description
技术领域
本发明涉及自然语言处理和机器学习领域,特别涉及到一种基于边界识别与组合的裁判文书证据抽取方法。
背景技术
证据是司法领域的一种命名实体,证据抽取是一项十分重要的工作。裁判文书中的证据是法官进行量刑的基础。根据法院审判的要求,法官量刑必须要有证据支撑。正常情况下,裁判文书中的证据列表和案件卷宗里的证据目录要一一对应。证据过多或过少都会导致法官量刑的轻判或重判。所以,通过抽取裁判文书中的证据列表和案件卷宗里的证据目录进行对比,可以对案件审判质量进行评估。通过裁判文书证据抽取,可以支撑“智慧法院”建设,能够使得司法审判、诉讼服务和司法管理高度信息化,实现全方位智能服务的人民法院建设、运行与管理。
在裁判文书的证据表达式里,证据命名实体都很长,如:“李四的身份证”、“证人张三的证言证词”、“银行取款业务回执单”、“银行转账流水记录”等,通过分析,裁判文书中的证据最长有13个字符。传统的序列标注模型在长实体的识别上性能都比较低。通过分析裁判文书中的证据,我们发现相同类型的证据在同类型的裁判文书中重复出现,如:民事案件里的身份证、户口本、身份证复印、户口本复印件、银行转账记录,刑事案件里的鉴定报告、辨认笔录、照片、证人张三的证言等,这些词经常都作为证据重复出现。
发明内容
针对现有发明材料的不足,本发明提供了一种基于边界识别与组合的裁判文书证据抽取方法,它弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高了裁判文书中证据抽取的性能。。
为实现以上目的,本发明通过以下技术方案予以实现:基于边界识别与组合的裁判文书证据抽取方法,包括如下步骤:
步骤1:基于神经网络模型识别裁判文书证据的开始边界和结束边界;
步骤2:组合所有开始边界和结束边界,形成候选证据实体;
步骤3:构建基于卷积神经网络分类器,对候选证据进行分类,识别真实证据。
步骤1中所述的神经网络模型为基于循环神经网络构建的模型。
步骤2中所述的边界组合的具体步骤如下:
步骤1)根据边界识别模型识别的标签序列结果,寻找序列里的开始边界;
步骤2)以每个开始边界的位置为准,向前组合证据边界序列的开始边界;
步骤3)开始边界和结束边界之间的字符-包含开始边界和结束边界,作为证据候选实体。
所述步骤3的主要目的是构建多核卷积神经网络分类器,以候选证据实体集为输入,通过证据分类,识别真实的证据。
本发明同现有技术相比,为了有效抽取裁判文书里的证据,本发明分为三步:(1)使用RNNs识别证据实体的开始边界和结束边界。(2)组合所有开始边界和结束边界形成候选证据实体。(3)使用CNN对候选证据进行分类,识别真实的证据。基于边界识别与组合的方法弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高了裁判文书中证据抽取的性能。证据抽取结果将有益于智慧法院建设,能够使得司法审判、诉讼服务和司法管理高度信息化,实现全方位智能服务的人民法院建设、运行与管理。
附图说明
图1为基于Bi-LSTM-CRF边界识别模型架构。
图2为基于边界识别与组合的裁判文书证据抽取模型架构。
具体实施方式
以下结合实施例对本发明进行更详细的阐述,所选的特定例子仅作为举例说明,并不对本发明的整个范围作任何限制。本发明采用固定床反应器,钢瓶气模拟烟气对催化剂进行脱硝活性测试。尾气中的NOx和SO2采用烟气分析仪进行检测。
实施例:基于边界识别与组合的裁判文书证据抽取方法。。
(1)数据预处理。
使用真实数据验证方法的有效性。实验使用贵州省智慧法院建设的裁判文书数据,包括刑事类、民事类和行政类等多种类型的649篇裁判文书,通过对649篇裁判文书进行人工标注。标注数据中共包括3914个证据实体。
整个数据集以裁判文书为单位进行随机打乱,按照6:2:2的划分比例,把数据划分为训练集、验证集、测试集。
一篇裁判文书由当事人诉讼、案情分析、判决结果等多部分构成,裁判文书的证据部分在判决书里有明确的标识:原告XXX在举证期限内提交了如下证据或原告围绕诉讼请求依法提交了证据。构造数据集时,需要对数据进行人工标注:用P标签标注整个证据段,用D标签标注证据词。
边界识别模型的数据集构造分3步:(1)首先用基于正则表达式的方法提取裁判文书中的证据段,得到标注数据集。(2)基于分句符号(【,。?!\n…】\n\r)对证据段进行切分(保留符号)。(3)提取证据词,将标注数据集的每个字符单独成一行构成文本文件的一列,每个短句空一行。第二列为标注标签,为每个字符对应的标签,两列之间使用空格分隔,属于证据词的开始边界的字符标注为B,属于证据词的结束边界的字符标注为E,其余字符标注为O。其中“O”表示非边界,“B”表示证据的开始边界,“E”表示证据的结束边界。整个证据段作为Bi-LSTM-CRF边界识别模型的输入,用以获取证据边界信息。
对证据部分进行“B-I-O”的标记,用作Bi-LSTM-CRF命名实体识别模型对比实验的输入。
(2)首先进行实体边界识别,构建Bi-LSTM-CRF边界识别模型。
本步骤的目的是基于经典Bi-LSTM-CRF模型,构建用于较精准识别证据边界信息的神经网络模型。本模型采用增加分词特征和字特征嵌入进行特征拼接后,经过双向循环神经网络和全连接网络,结合条件随机场结构后得到证据的边界信息,模型架构见附图1。本步骤的输出的是证据实体边界识别结果。此步骤的预期结果是获得较精准证据边界分类结果,并对模型进行本地持久化。
(3)在边界识别的基础上,根据边界识别的结果进行边界组合,形成候选证据集,作为多核CNN分类器的输入,见附图2(边界组合)部分。
本步骤的目的是根据步骤1边界识别的结果,进行边界组合,形成候选证据集,作为步骤3的输入。
对于训练集数据的处理:模型的输入序列单位同为“短句”,将边界识别的训练集按标点进行切分(保留切分符号)。提取每个短句中所有证据实体的右边界的下一个字符作为right,以right往前推N个字符(本次实验N取当前句子的长度)作为entity,left为当前entity的开始边界的前三个字符,从后往前遍历N个字符,找到left和entity,若entity和人工标注的证据实体相同,label为yes,否则label为no。
对于验证集和测试集数据的处理:将边界识别的验证数据和测试数据按切分符号进行切分(保留切分符号),调用已训练完成的边界识别模型分别识别验证集和测试集字符的标签,寻找识别结果的结束边界,以结束边界的位置向前组合所有的开始标签作为entity,left为当前entity的开始边界的前三个字符,right为当前entity的结束边界的后一个字符,若entity和人工标注的证据实体相同,label为yes,否则label为no。若entity部分的字符数大于N(构造训练集时规定),则该entity所在的整条数据不作为实验数据
(4)构建针对候选证据进行分类的多核卷积神经网络分类器
本步骤的目的是对边界组合产生的候选证据实体集进行筛选,识别出真正的证据。本发明通过构建多核卷积神经网络分类器完成上述工作。在此步骤中的实践中,实施边界组合方法产生的候选证据是基于多核CNN边界组合的证据分类模型的输入。模型包含两个输入:其一为不定长的句子字符序列,其二的证据字符序列。两个输入分别通过不同的词嵌入层生成两个输入序列的语义向量表示。该语义向量通过多核卷积神经网络层与最大池化层生成两个同纬度的向量。再将这两个同纬度向量对应位置相减之后接入一个全连接神经网络得到模型输出,并进行本地模型持久化,见附图2(多核CNN分类)部分。
将候选实体输入集输入CNN模型,得出实验结果。通过试验实施,证据边界识别结果如下:
表1 证据边界识别结果
标注 | Precision(%) | Recall(%) | F-measure(%) |
B | 89.20 | 87.97 | 88.58 |
E | 96.60 | 96.96 | 95.77 |
为了验证边界识别与组合模型对于证据抽取任务有很好的表现效果,本文把边界识别、组合与分类的证据抽取模型的性能和Bi-LSTM-CRF模型的性能做了对比。对比结果如表2所示。
表2 模型性能对比
模型 | Precision | Recall | F-measure |
Bi-LSTM-CRF | 82.38 | 80.23 | 81.29 |
本发明 | 88.47 | 81.74 | 85.04 |
通过表1和表2可以看出,本发明所提出的基于边界识别和组合的证据抽取模型在对裁判文书中的证据命名实体抽取能取得很好的效果,模型的F值为84.97%,比LSTM-CRF模型的F值高出3.75%。在本模型中,在Bi-LSTM综合考虑文本的上下文信息和CRF考虑了文本前后的标签信息的同时,裁判文书的证据重复出现,使得Bi-LSTM-CRF边界识别模型能准确识别证据的开始边界和结束边界,通过组合边界形成的候选实体中包含了几乎所有的证据实体,通过证据分类模型才能取得不错的效果。综上所述,本文设计的基于边界识别与组合的证据抽取模型可以取得比传统Bi-LSTM-CRF模型更好的实验效果。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下可得到其他形式的产品。但是,无论在催化剂组成、结构和配比方面作任何的变化,凡是具有和本申请相同或相似的技术方案,均属于本发明的保护范围。
Claims (4)
1.一种基于边界识别与组合的裁判文书证据抽取方法,其特征在于:包括如下步骤:
步骤1:基于神经网络模型识别裁判文书证据的开始边界和结束边界;
步骤2:组合所有开始边界和结束边界,形成候选证据实体;
步骤3:构建基于卷积神经网络分类器,对候选证据进行分类,识别真实证据。
2.根据权利要求1所述的基于边界识别与组合的裁判文书证据抽取方法,其特征在于:步骤1中所述的神经网络模型为基于循环神经网络构建的模型。
3.根据权利要求1所述的基于边界识别与组合的裁判文书证据抽取方法,其特征在于:步骤2中所述的边界组合的具体步骤如下:
步骤1)根据边界识别模型识别的标签序列结果,寻找序列里的开始边界;
步骤2)以每个开始边界的位置为准,向前组合证据边界序列的开始边界;
步骤3)开始边界和结束边界之间的字符-包含开始边界和结束边界,作为证据候选实体。
4.根据权利要求1所述的基于边界识别与组合的裁判文书证据抽取方法,其特征在于:所述步骤3的主要目的是构建多核卷积神经网络分类器,以候选证据实体集为输入,通过证据分类,识别真实的证据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910816186.0A CN110516257A (zh) | 2019-08-30 | 2019-08-30 | 一种基于边界识别与组合的裁判文书证据抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910816186.0A CN110516257A (zh) | 2019-08-30 | 2019-08-30 | 一种基于边界识别与组合的裁判文书证据抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110516257A true CN110516257A (zh) | 2019-11-29 |
Family
ID=68629641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910816186.0A Pending CN110516257A (zh) | 2019-08-30 | 2019-08-30 | 一种基于边界识别与组合的裁判文书证据抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516257A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160032A (zh) * | 2019-12-17 | 2020-05-15 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备及存储介质 |
CN111950253A (zh) * | 2020-08-28 | 2020-11-17 | 鼎富智能科技有限公司 | 用于裁判文书的证据信息提取方法及装置 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
US10970847B2 (en) * | 2019-05-16 | 2021-04-06 | Adobe Inc. | Document boundary detection using deep learning model and image processing algorithms |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN109992770A (zh) * | 2019-03-04 | 2019-07-09 | 昆明理工大学 | 一种基于组合神经网络的老挝语命名实体识别方法 |
CN110032737A (zh) * | 2019-04-10 | 2019-07-19 | 贵州大学 | 一种基于神经网络的边界组合命名实体识别方法 |
-
2019
- 2019-08-30 CN CN201910816186.0A patent/CN110516257A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN109992770A (zh) * | 2019-03-04 | 2019-07-09 | 昆明理工大学 | 一种基于组合神经网络的老挝语命名实体识别方法 |
CN110032737A (zh) * | 2019-04-10 | 2019-07-19 | 贵州大学 | 一种基于神经网络的边界组合命名实体识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10970847B2 (en) * | 2019-05-16 | 2021-04-06 | Adobe Inc. | Document boundary detection using deep learning model and image processing algorithms |
CN111160032A (zh) * | 2019-12-17 | 2020-05-15 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备及存储介质 |
CN111160032B (zh) * | 2019-12-17 | 2023-03-17 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备及存储介质 |
CN111950253A (zh) * | 2020-08-28 | 2020-11-17 | 鼎富智能科技有限公司 | 用于裁判文书的证据信息提取方法及装置 |
CN111950253B (zh) * | 2020-08-28 | 2023-12-08 | 鼎富智能科技有限公司 | 用于裁判文书的证据信息提取方法及装置 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112487812B (zh) * | 2020-10-21 | 2021-07-06 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516257A (zh) | 一种基于边界识别与组合的裁判文书证据抽取方法 | |
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN107168955B (zh) | 利用基于词上下文的字嵌入与神经网络的中文分词方法 | |
Louloudis et al. | ICDAR 2011 writer identification contest | |
Liu et al. | What's in a name? An unsupervised approach to link users across communities | |
CN108536870A (zh) | 一种融合情感特征和语义特征的文本情感分类方法 | |
Butnaru et al. | Moroco: The moldavian and romanian dialectal corpus | |
CN109948143A (zh) | 社区问答系统的答案抽取方法 | |
CN109101477A (zh) | 一种企业领域分类及企业关键词筛选方法 | |
CN103823896A (zh) | 一种学科特征值算法及基于其的项目评审专家推荐算法 | |
Firmani et al. | Towards Knowledge Discovery from the Vatican Secret Archives. In Codice Ratio-Episode 1: Machine Transcription of the Manuscripts. | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN106557558A (zh) | 一种数据分析方法及装置 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN109241527A (zh) | 一种中文商品虚假评论数据集自动生成方法 | |
CN108897754A (zh) | 基于大数据的工单类型的识别方法、系统和计算设备 | |
CN105005590A (zh) | 一种信息媒介的专题阶段性摘要的生成方法 | |
Jiang et al. | Biterm pseudo document topic model for short text | |
Tang et al. | Deeptilebars: Visualizing term distribution for neural information retrieval | |
Sadeghian et al. | Semantic edge labeling over legal citation graphs | |
Yang et al. | Identifying the central figure of a scientific paper | |
CN116304035B (zh) | 一种复杂案件中的多被告多罪名关系抽取方法及装置 | |
Herzog et al. | Transfer topic labeling with domain-specific knowledge base: An analysis of UK House of Commons speeches 1935-2014 | |
CN103793444B (zh) | 用户需求获取方法 | |
Ayana et al. | Topic-sensitive neural headline generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200923 Address after: 550025 science and Technology Department, north campus, Guizhou University, Huaxi, Guizhou, China Applicant after: Guizhou University Applicant after: Higher people's Court of Guizhou Province Applicant after: GUIZHOU CLOUD PIONEER TECH Co.,Ltd. Address before: 550025 science and Technology Department, north campus, Guizhou University, Huaxi, Guizhou, China Applicant before: Guizhou University |