CN109886270B

CN109886270B - 一种面向电子卷宗笔录文本的案件要素识别方法

Info

Publication number: CN109886270B
Application number: CN201910043617.4A
Authority: CN
Inventors: 孙媛媛; 刘海顺; 李春楠
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2022-03-01
Anticipated expiration: 2039-01-17
Also published as: CN109886270A

Abstract

本发明涉及自然语言处理技术领域，一种面向电子卷宗笔录文本的案件要素识别方法，包括以下步骤：(1)电子卷宗数据预处理，(2)结合自定义词典进行分词和词性标注，(3)识别时间、物品、重量、金额四类案件要素，(4)识别人物、地点、机构三类案件要素。本发明方法充分考虑了不同案件要素的特点，有针对性地采取不同的处理方法，对于电子卷宗笔录这种特殊的文本，能在缺少人工标注数据的情况下，准确地对重要案件要素进行识别和标注，可以使用本发明的案件要素识别结果迭代产生高质量的标注数据，从而训练更加可靠的案件要素识别模型。

Description

一种面向电子卷宗笔录文本的案件要素识别方法

技术领域

本发明涉及一种面向电子卷宗笔录文本的案件要素识别方法，属于自然语言处理技术领域。

背景技术

电子卷宗以电子文档的形式记录和保存案件办理过程中产生的所有卷宗，电子卷宗以其卷宗保密性强、统计分析方便、信息共享率高等特点，在我国司法系统中得到深入而广泛的应用。随着我国“智慧司法”信息化建设的不断推进，电子卷宗系统逐步完善，相应的电子卷宗数据也急剧增加。检察机关的办案人员需要审阅大量的电子卷宗，对电子卷宗数据的处理方式仍然是人工分析处理的方式，方法和手段极度落后，特别是在数据量激增的情况下，该方式已经无法满足现代检察工作的要求。显然，从电子卷宗数据中分析出办案人员所关注的时间、物品、重量、金额、人物、地点、机构这些案件要素，能够为笔录差异性分析、证据体系完整性分析等业务工作提供重要的支持信息，可以辅助办案人员快速阅卷和厘清案情，能进一步促进和提升基层检察院司法工作的效率与信息化应用水平。这使得面向电子卷宗笔录文本的案件要素识别成为电子卷宗智能处理和分析中一项重要的核心技术。

本发明中的案件要素不同于司法术语中的案件要素，指在电子卷宗笔录文本中出现的时间、物品、重量、金额、人物、地点、机构类的语义要素。案件要素识别可以为电子卷宗智能分析的上层应用提供支撑。对于时间、物品、重量、金额可以使用词典结合规则的方法进行识别，对于人物、地点、机构可以使用命名实体识别的方法进行识别。但目前的命名实体识别多是面向科技文档、新闻报道等规范化的文本，而电子卷宗笔录文本具有语言表达口语化、语法不规范、语句形式多样等特点，因此现有的命名实体识别方法不能直接应用于案件要素识别。现有的命名实体识别方法需要大量人工标注的数据训练模型，人工标注数据是一项极为费事费力的工作，而电子卷宗的智能分析处理尚处于起步阶段，没有相关的人工标注的标准数据集。目前，还没有针对电子卷宗笔录文本的命名实体识别方法，即没有案件要素识别方法。

发明内容

为了克服现有技术中存在的不足，本发明目的是提供一种面向电子卷宗笔录文本的案件要素识别方法。该识别方法能够准确高效地识别出电子卷宗笔录文本中重要的语义信息，并极大摆脱了缺少人工标注数据的限制，可以识别的案件要素包括时间、物品、重量、金额、人物、地点、机构等。

为了实现上述发明目的，解决已有技术中所存在的问题，本发明采取的技术方案是：一种面向电子卷宗笔录文本的案件要素识别方法，包括以下步骤：

步骤1、电子卷宗数据预处理：电子卷宗的数据格式为PDF，经预处理将其转为纯文本格式，并从中筛选出笔录文本，再对笔录文本进行数据清洗，具体包括以下子步骤:

子步骤(a)、电子卷宗数据OCR识别，使用OCR识别软件对电子卷宗数据进行识别，将其由PDF格式转为TXT纯文本格式；

子步骤(b)、筛选笔录文本，电子卷宗中包含笔录文本和其他文本，笔录文本的特征在于文本内容是若干个问答对，问句开头包括“问”，答句开头包括“答”，通过判断一个文档是否同时含有“问”、“答”两个字符串，确定该文档是否属于笔录文本，以此将笔录文本筛选出来；

子步骤(c)、对笔录文本数据进行清洗，通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符；

步骤2、结合自定义词典进行分词和词性标注：通过中文分词和词性标注工具对笔录文本数据进行分词和词性标注，得到词序列和对应的词性序列集合，具体包括以下子步骤：

子步骤(a)、自定义词典，包括物品名称词典、货币单位词典、重量单位词典，词典的格式为“词-空格符-词性”集合；

子步骤(b)、将子步骤(a)中的自定义的词典载入外部分词器，对笔录文本进行分词和词性标注，将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m；

子步骤(c)、将由子步骤(b)得到的分词和词性标注结果保存到列表里，保存格式为“词-,-词性”；

步骤3、识别时间、物品、重量、金额四类案件要素：这四类案件要素具有明显的语法结构特征，使用词典结合规则的方法对其进行识别，具体包括以下子步骤：

子步骤(a)、识别时间，时间由一个或多个时间短语组成，其时间短语的词性为nt，对步骤2中得到的分词和词性列表进行遍历，将连续且相邻的一个或多个时间短语识别为时间；

子步骤(b)、识别物品，物品由一个或多个物品名称短语组成，其物品名称短语的词性为nth，对步骤2中的词和词性列表进行遍历，将连续且相邻的一个或多个物品名称短语识别为物品；

子步骤(c)、识别重量，重量由一个或多个数字短语和重量单位短语所组成，其中数字短语的词性为m，重量单位短语的词性为nw，对步骤2中的词和词性列表进行遍历，将连续且相邻的一个或多个数字短语和重量单位短语识别为重量；

子步骤(d)、识别金额，金额由一个或多个数字短语和货币单位短语所组成，其中数字短语的词性为为m，货币单位短语的词性为nc，对步骤2中的词和词性列表进行遍历，将连续且相邻的一个或多个数字短语和货币单位短语识别为金额；

步骤4、识别人物、地点、机构三类案件要素：这三类案件要素是通用领域命名实体识别模型的主要识别对象，将模型直接用在电子卷宗数据上准确率会有明显降低，运用通用领域模型进行初步识别，然后经人工校对构造数据集，再利用数据集训练新的针对笔录文本的案件要素识别模型，对这三类案件要素进行最终识别，具体包括以下子步骤：

子步骤(a)、构造训练数据集，使用多个公开的通用领域命名实体识别模型分别识别这三类案件要素，选择识别准确率最高的模型对三类案件要素进行初步识别，人工校对识别结果，根据初步识别结果构造训练数据集；

子步骤(b)、建立基于神经网络的案件要素识别模型，采用双向长短期记忆神经网络结合条件随机场的神经网络模型BiLSTM+CRF，初始化模型的权值和阈值参数，采用梯度下降算法优化模型；

子步骤(c)、训练基于神经网络的案件要素识别模型，采用训练数据训练神经网络模型，以步骤4子步骤(a)中产生的训练数据集中的前4/5的数据作为训练数据，输入神经网络系统，构建神经网络模型；然后以步骤4子步骤(a)中产生的训练数据集中的后1/5的数据作为测试数据，输入神经网络系统，计算模型的正确率；模型的权值参数由模型自学习得到，通过人工调节确定使得模型具有最高正确率的阈值参数；

子步骤(d)、利用新的针对笔录文本的命名实体识别模型，对人物、地点、机构三类案件要素进行最终识别。

本发明有益效果是：一种面向电子卷宗笔录文本的案件要素识别方法，包括以下步骤：(1)电子卷宗数据预处理，(2)结合自定义词典进行分词和词性标注，(3)识别时间、物品、重量、金额四类案件要素，(4)识别人物、地点、机构三类案件要素。与已有技术相比，本发明方法充分考虑了不同案件要素的特点，有针对性地采取不同的处理方法，对于电子卷宗笔录这种特殊的文本，能在缺少人工标注数据的情况下，准确地对重要案件要素进行识别和标注，可以使用本发明的案件要素识别结果迭代产生高质量的标注数据，从而训练更加可靠的案件要素识别模型。

附图说明

图1是本发明方法步骤流程图。

图2是本发明基于神经网络的案件要素识别模型图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种面向电子卷宗笔录文本的案件要素识别方法，包括以下步骤：

子步骤(a)、电子卷宗数据OCR识别，使用OCR(光学字符识别)识别软件对电子卷宗数据进行识别，将其由PDF格式转为TXT纯文本格式；

子步骤(c)、对笔录文本数据进行清洗，通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符，并对标点符号进行统一的全半角替换；

子步骤(a)、自定义词典，包括物品名称词典、货币单位词典、重量单位词典，词典的格式为“词-空格符-词性”集合；其中物品词典可根据电子卷宗具体所属案件类型确定，例如对于涉毒类案件，物品名称为毒品名称，可选择地，根据《国家非法药物折算表》制作。可选择地，货币单位词典根据《世界国家货币名称一览表》制作。可选择地，货币单位词典根据《计量单位表》制作。

子步骤(b)、将子步骤(a)中的自定义的词典载入外部分词器，对笔录文本进行分词和词性标注，将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m；可选地，分词器为jieba分词、ansj分词或ltp分词；

子步骤(a)、识别时间，时间由一个或多个时间短语组成，其时间短语的词性为nt，对步骤2中得到的分词和词性列表进行遍历，将连续且相邻的一个或多个时间短语识别为时间；例如“2017年”，“6月”，“23日”是三个连续且相邻的时间短语，三个短语的词性都是nt，它们被识别为一个时间案件要素；

子步骤(b)、识别物品，物品由一个或多个物品名称短语组成，其物品名称短语的词性为nth，对步骤2中的词和词性列表进行遍历，将连续且相邻的一个或多个物品名称短语识别为物品；例如“冰毒”是一个物品短语，它的词性都是nth，与它相邻的词的词性均不是nth，所以“冰毒”这个词被识别为一个物品案件要素；

子步骤(c)、识别重量，重量由一个或多个数字短语和重量单位短语所组成，其中数字短语的词性为m，重量单位短语的词性为nw，对步骤2中的词和词性列表进行遍历，将连续且相邻的一个或多个数字短语和重量单位短语识别为重量；例如“0.5”的词性是m，“克”的词性是mw，这两个词是相邻的，与“0.5”这个词相邻的词没有词性是m的，所以“0.5”和“克”被识别为一个重量案件要素；

子步骤(d)、识别金额，金额由一个或多个数字短语和货币单位短语所组成，其中数字短语的词性为为m，货币单位短语的词性为nc，对步骤2中的词和词性列表进行遍历，将连续且相邻的一个或多个数字短语和货币单位短语识别为金额；例如“200”的词性是m，“元”的词性是mc，这两个词是相邻的，与“200”这个词相邻的词没有词性是m的，所以“200”和“元”被识别为一个金额案件要素；

子步骤(b)、建立基于神经网络的案件要素识别模型，采用双向长短期记忆神经网络结合条件随机场的神经网络模型BiLSTM+CRF，模型结构如图2所示，初始化模型的权值和阈值参数，采用梯度下降算法优化模型；

Claims

1.一种面向电子卷宗笔录文本的案件要素识别方法，其特征在于包括以下步骤：

子步骤(b)、将步骤2子步骤(a)中的自定义的词典载入外部分词器，对笔录文本进行分词和词性标注，将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m；

子步骤(c)、将步骤2子步骤（b）中得到的分词和词性标注结果保存到列表里，保存格式为“词-,-词性”；

子步骤(d)、识别金额，金额由一个或多个数字短语和货币单位短语所组成，其中数字短语的词性为m，货币单位短语的词性为nc，对步骤2中的词和词性列表进行遍历，将连续且相邻的一个或多个数字短语和货币单位短语识别为金额；

子步骤(c)、训练基于神经网络的案件要素识别模型，采用训练数据训练神经网络模型，以步骤4子步骤（a）中产生的训练数据集中的前4/5的数据作为训练数据，输入神经网络系统，构建神经网络模型；然后以步骤4子步骤（a）中产生的训练数据集中的后1/5的数据作为测试数据，输入神经网络系统，计算模型的正确率；模型的权值参数由模型自学习得到，通过人工调节确定使得模型具有最高正确率的阈值参数；