CN112329441A - 一种法律文书阅读模型及构建方法 - Google Patents

一种法律文书阅读模型及构建方法 Download PDF

Info

Publication number
CN112329441A
CN112329441A CN202011092280.5A CN202011092280A CN112329441A CN 112329441 A CN112329441 A CN 112329441A CN 202011092280 A CN202011092280 A CN 202011092280A CN 112329441 A CN112329441 A CN 112329441A
Authority
CN
China
Prior art keywords
logit
layer
sequence
probability
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011092280.5A
Other languages
English (en)
Inventor
张引
胡刚
杜锦阳
刘铨
张可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011092280.5A priority Critical patent/CN112329441A/zh
Publication of CN112329441A publication Critical patent/CN112329441A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文书阅读技术领域,具体地说,涉及一种法律文书阅读模型及构建方法,方法包括以下步骤:一、Bert层对输入的篇章和问题进行编码;二、特征融合层融合词性标注和命名实体标注向量;三、建模层对片段提取预测和是非类型判断的建模;四、输出层输出片段预测和是非概率预测。本发明能较佳地处理片段抽取、是非判断、拒答三种类型问题。

Description

一种法律文书阅读模型及构建方法
技术领域
本发明涉及文书阅读技术领域,具体地说,涉及一种法律文书阅读模型及 构建方法。
背景技术
将人工智能技术应用到法律领域,能加快和改善法律研究流程,降低法律 研究的时间成本和资金,这使得法律智能研究成为一个相当有前景的领域。Katz 在2012年的研究中指出,随着人工智能的飞速发展,从法律文件生成到案件结 果预测等传统法律任务将迎来变革。这种变革也可以从另外三个方面得以窥见。 首先,语音识别技术被用于庭审记录。其次,使用机器学习方法辅助律师进行 法律文书的审查。再有,一些机器学习方法也被应用于构建智能裁判系统[5,6]。
由此可见,人工智能应用于法学研究时,自然语言理解成为了最有希望成 功应用的技术,这是因为法学研究中包含大量文本数据。例如,在数据驱动的 法学实证分析中,需要研究者人工阅读大量的裁判文书,进行数据的归纳整理, 这是一个相当费时费力的过程。如果使用机器阅读理解技术,构建一个辅助阅 读系统,则可以减轻研究者们在归纳数据过程中的负担。
机器阅读理解任务通常被定义为给定一个篇章和与篇章相关的问题,模型 在阅读了篇章之后,给出问题的答案。在深度学习出现之后,机器阅读理解技 术获得了长足发展。前几年的一些研究者致力于解决完型填空或者单向选择类 型的问题,出现了Attentive Reader、Stanford AR、GA Reader、AOA Reader等 模型。之后,机器阅读理解的发展更趋向于解决接近现实情景的问题,如片段 抽取问题或者多任务类型的问题,出现了BiDAF、Match-LSTM、S-net等模型。 2018年,谷歌发布了一个强大的语言模型—Bert。该模型在11个自然语言处理 任务上获得了成功,也在一定程度上提升了机器阅读理解的最先进表现。随着 机器阅读理解技术的不断发展,它展示了处理长文本、多任务问题上的能力,这使得机器阅读理解技术有应用到法学实证分析中的可能。
但是,对于一个裁判文书,研究者既可能提出一些在文书中可以直接找到 答案的问题,如刑期、犯罪地点等,也可能提出需要推断才能给出答案的问题, 如是否存在团伙犯罪等。同时,部分文书可能不能给出预设问题的答案,即不 可回答类问题。传统的片段提取类的机器阅读理解模型并不能处理多种复杂类 型的问题;因此需要法律文书阅读模型来解决上述问题。
发明内容
本发明的内容是提供一种法律文书阅读模型及构建方法,其能够克服现有 技术的某种或某些缺陷。
根据本发明的一种法律文书阅读模型的构建方法,其包括以下步骤:
一、Bert层对输入的篇章和问题进行编码;
二、特征融合层融合词性标注和命名实体标注向量;
三、建模层对片段提取预测和是非类型判断的建模;
四、输出层输出片段预测和是非概率预测。
作为优选,Bert层的编码过程包括:
1.1、对输入的篇章和问题进行整理,并整理为三个序列:
(1)单词的词典映射序列:
Figure BDA0002722529530000021
其中,[CLS]和[SEP]为间隔符,问题序列为token1,...,tokenn,长度为n,篇章序列 为token1,...,tokenm,长度为m;
(2)前后句标记序列,问题序列被标记为A,篇章序列被标记为B: {EA,...,EA,EB,...,EB};
(3)单词位置序列,问题的位置序列为E0,...,En,篇章的位置序列为E0',...,Em':{E0,...,En,E0,...,Em};
1.2、将单词的词典映射序列、前后句标记序列和单词位置序列求和并进行 编码处理,得到编码结果:
{E[CLS]',E1',...,En',E[SEP]',E1',...,Em',E[SEP]'}。
作为优选,特征融合层融合词性标注和命名实体标注向量后,得到包含富 特征的语义编码向量Mt
Mt=[Et';Ct]t∈[1,n+m+3];
得到M序列,表示为M={M1,M2,...,Mt}。
作为优选,建模层对片段提取预测的建模方法为:使用一个双向LSTM网 络,在时间步t上逐时序地处理前向语义编码向量
Figure BDA0002722529530000031
和后向语义编码向量
Figure BDA0002722529530000032
得到前向和后向的上下文向量
Figure BDA0002722529530000033
Figure BDA0002722529530000034
将两者连接,得到最终的上下文向量Lt, 公式如下:
Figure BDA0002722529530000035
Figure BDA0002722529530000036
Figure BDA0002722529530000037
作为优选,建模层对是非类型判断的建模方法为:
3.1、自注意力层使用激活函数为relu的前馈网络,对特征融合层传递过来 M序列中的前后元素Mi和Mj求取注意力值,并使用注意力值得到一个新的融合
Figure BDA0002722529530000038
公式如下:
Figure BDA0002722529530000039
Figure BDA00027225295300000310
Figure BDA00027225295300000311
3.2、使用了平均池化层对新的融合进行处理,得到池化输出Pi
Figure BDA00027225295300000312
作为优选,输出层使用MLP多层感知机实现,对于片段预测的输出:
Figure BDA00027225295300000313
其中,startlogit为篇章token作为答案起始位置概率,endlogit为篇章token作为答案终止位置的概率,Wspan和bspan为输出层的权值和偏置;
对于是非预测的输出:
Figure BDA0002722529530000041
其中,Yeslogit为答案是“Yes”的概率,Nologit为答案是“No”的概率,Wyes_no和byes_no为权值和偏置。
作为优选,输出层还输出拒答概率的输出:
Nulllogit=Wnull·Pt+bnull
其中,Nulllogit为该问题无答案的概率,Wyes_no和byes_no为权值和偏置。
作为优选,步骤四后,最终的输出会被整形为两个新的概率输出,分别为:
startlogit′=[startlogit,unklogit,yeslogit,nologit];
endlogit′=[endlogit,unklogit,yeslogit,nologit];
设格式相同并且包含是非概率、拒答概率的真实输出为ystart、yend,使用交 叉熵作为损失函数计算损失lossstart、lossend,然后对两个损失求取均值即可以得 到总体损失lossall,用公式表达为:
Figure BDA0002722529530000042
Figure BDA0002722529530000043
Figure BDA0002722529530000044
其中N为样本个数。
本发明还提供了一种法律文书阅读模型,其采用上述的一种法律文书阅读 模型的构建方法。
本发明能同时处理片段抽取、是非判断、拒答三种类型问题,基本能满足 法学实证分析中的问题类型需求。
附图说明
图1为实施例1中一种法律文书阅读模型的构建方法的流程图;
图2为实施例1中一种法律文书阅读模型的示意图;
图3为实施例2中时间类型问题可视化结果示意图;
图4为实施例2中原因类型问题可视化结果示意图;
图5为实施例2中是非类型问题的可视化结果示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应 当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图1所示,本实施例提供了一种法律文书阅读模型的构建方法,其包括 以下步骤:
一、Bert层对输入的篇章和问题进行编码;该层使用谷歌提出的Bert-Chinese 实现;
二、在之前的一些研究表明,加入一些与单词相关的先验特征,可以使得 模型的性能获得一定的提升,这同样适用于法律裁判文书的场景下。加入命名 实体识别向量,有利于模型识别出犯罪人姓名、犯罪地点、犯罪团伙名称;加 入词性向量,有利于模型识别出一些实体词、量词等;因此,在得到语义编码 向量后,特征融合层融合词性标注和命名实体标注向量;
三、建模层对片段提取预测和是非类型判断的建模;
四、输出层输出片段预测和是非概率预测。
Bert层的编码过程包括:
1.1、对输入的篇章和问题进行整理,并整理为三个序列:
(1)单词的词典映射序列:
Figure BDA0002722529530000061
其中,[CLS]和[SEP]为间隔符,问题序列为token1,...,tokenn,长度为n,篇章序列 为token1,...,tokenm,长度为m;
(2)前后句标记序列,问题序列被标记为A,篇章序列被标记为B: {EA,...,EA,EB,...,EB};
(3)单词位置序列,问题的位置序列为E0,...,En,篇章的位置序列为E0',...,Em':{E0,...,En,E0,...,Em};
1.2、将单词的词典映射序列、前后句标记序列和单词位置序列求和并进行 编码处理,得到编码结果:
{E[CLS]',E1',...,En',E[SEP]',E1',...,Em',E[SEP]'}。
特征融合层融合词性标注和命名实体标注向量后,得到包含富特征的语义 编码向量Mt
Mt=[Et';Ct]t∈[1,n+m+3];
得到M序列,表示为M={M1,M2,...,Mt}。
在现实场景的阅读任务中,如果问题类型为是非判断,则我们通常会选择 略读全文,更关心文章的宏观信息,这时候我们可以通过注意力层和池化层, 得到文章中更重要的部分。如果问题类型为阐述类题目(片段提取比较类似于 这类题目),我们通常会精读全文,以期获得更为详细的上下文信息,这时候我 们选择保留完整的词向量表示,再使用双向LSTM更进一步地提取上下文信息, 然后使用一层MLP进映射。
建模层对片段提取预测的建模方法为:使用一个双向LSTM网络,在时间 步t上逐时序地处理前向语义编码向量
Figure BDA0002722529530000062
和后向语义编码向量
Figure BDA0002722529530000063
得到前向和 后向的上下文向量
Figure BDA0002722529530000064
Figure BDA0002722529530000065
将两者连接,得到最终的上下文向量Lt,公式如下:
Figure BDA0002722529530000066
Figure BDA0002722529530000067
Figure BDA0002722529530000071
建模层对是非类型判断的建模方法为:
3.1、自注意力层使用激活函数为relu的前馈网络,对特征融合层传递过来 M序列中的前后元素Mi和Mj求取注意力值,并使用注意力值得到一个新的融合
Figure BDA0002722529530000072
公式如下:
Figure BDA0002722529530000073
Figure BDA0002722529530000074
Figure BDA0002722529530000075
3.2、使用了平均池化层对新的融合进行处理,得到池化输出Pi
Figure BDA0002722529530000076
输出层使用MLP多层感知机实现,对于片段预测的输出:
Figure BDA0002722529530000077
其中,startlogit为篇章token作为答案起始位置概率,endlogit为篇章token作为答案终止位置的概率,Wspan和bspan为输出层的权值和偏置;
对于是非预测的输出:
Figure BDA0002722529530000078
其中,Yeslogit为答案是“Yes”的概率,Nologit为答案是“No”的概率,Wyes_no和byes_no为权值和偏置。
输出层还输出拒答概率的输出:
Nulllogit=Wnull·Pt+bnull
其中,Nulllogit为该问题无答案的概率,Wyes_no和byes_no为权值和偏置。
步骤四后,最终的输出会被整形为两个新的概率输出,分别为:
startlogit′=[startlogit,unklogit,yeslogit,nologit];
endlogit′=[endlogit,unklogit,yeslogit,nologit];
设格式相同并且包含是非概率、拒答概率的真实输出为ystart、yend,使用交 叉熵作为损失函数计算损失lossstart、lossend,然后对两个损失求取均值即可以得 到总体损失lossall,用公式表达为:
Figure BDA0002722529530000081
Figure BDA0002722529530000082
Figure BDA0002722529530000083
其中N为样本个数。
如图2所示,本实施例还提供了一种法律文书阅读模型LegalSelfReader, 其采用上述的一种法律文书阅读模型的构建方法。
实施例2
本实施例设置了两个benchmark:BIDAF、Bert,与本实施例所提出的模型LegalSelfReader一起实验。
实验环境
在一个装有64位Windows系统的机器上进行实验。该机器的外存空间大小 为930GB,内存空间大小为48GB,CPU类型为单核Intel i7-8700K,GPU类型 为NVIDA GeForceGTX 1080Ti,GPU大小为11GB。本实施例所有实验程序均 使用python语言编写,所使用的深度学习框架为Pytorch,版本号为1.13.0。
本实施例使用的原始数据来自于CAIL 2019法律阅读理解竞赛,该数据集 由哈工大科大讯飞联合实验室发布,是一个面向司法领域的多任务机器阅读理 解数据集,数据集名称为CJRC。数据集的篇章来自于中国裁判文书网,问题和 答案均由法学专家手工撰写,问题类型包括片段抽取、是非判断、拒绝回答等 类型,答案为对应篇章的片段。原始数据集经过简单预处理后,每个样本被确 定为一个五元组,包括篇章、问题、答案文本、答案在篇章中的起止位置、是 非型问题标记。训练集包含4万个样本,测试集包含7000个样本。
评价指标
使用Rouge和宏平均F1分数、EM(Exact Match)分数三个个评价指标对 所提出的系统进行评价。F1分数是常用的分类评价指标,它同时兼顾了分类问 题中的精确度和召回率。宏平均F1分数为F1分数的变体,在评测数据集含有 多个参考答案时,将预测答案与多个答案分别求取F1分数,在对其求均值,即 可得到宏平均F1分数,公式如下:
Figure BDA0002722529530000091
Figure BDA0002722529530000092
Rouge和Bleu分数都是机器翻译的常用指标,但是近来有研究者指出Bleu 分数在机器阅读理解中评价时,与Rouge分数有很大的偏差,可能的一个原因 是Bleu对长答案设置了惩罚项,使得Bleu更趋向于选择更短的答案,这给机器 阅读理解的评价带来了影响[7]。因此,本实施例没有选择Bleu分数作为评价指 标,只使用了Rouge-L。Rouge-L主要比较预测答案和参考答案之间的最长公共 子序列,并求出Rouge-L分数,以期通过Rouge-L分数得到两者的“相似度”, Rouge-L的公式形式为:
Figure BDA0002722529530000093
Figure BDA0002722529530000094
Figure BDA0002722529530000095
LCS(X,Y)是参考摘要X和候选摘要Y的最长公共子序列的长度,m、n是参 考答案X和候选答案Y的长度,Rlcs、Plcs分别表示召回率和准确度,Flcs即Rouge-L 分数。
EM是和金标准答案完全一致的预测答案在所有预测答案中所占的比例。
对比实验
为了验证本实施例所设计的系统的有效性,将三个模型在试验环境中所描 述的数据上进行实验。实验结果如下表所示。其中,带“*”的为哈工大讯飞实 验室在github上公布的部分在开发集上的实验结果。
对照实验结果
Figure BDA0002722529530000101
从实验结果中可以看出,与传统的BIDAF、Bert模型相比,我们的模型LegalSelfReader在三个指标都有比较大的提升。传统的BIDAF使用word2vec 预训练词向量,得到的是固定语义词向量,我们的模型使用了Bert模型获取词 向量,得到的词向量是上下文相关的,因此更获得大幅度的提升。虽然我们对 原始的Bert模型进行了一定调整,使其能够回答是非类型问题,但是原始的Bert 模型中并没有回答是非问题的能力,因此在我们的多任务机器阅读理解数据集 上表现较差。同时,在与哈工大科大讯飞提出的一些比较新颖的Transformer类 模型的比较时,我们的模型也有比较明显的表现提升。并且,我们的模型只是 一个基于原始Bert-Chinese的单隐层模型,没有对Bert模型进行大规模的重新 训练,对于片段抽取输出部分只是加了一个BiLSTM层,对于是非判断输出层 只是加了一个注意力层和一个池化层。相较于他们重新构建新的Transformer类 模型,并使用新的预料重新训练,我们的模型在如此低廉的代价下,依然获得 了比较好的结果。
以下表格展示了我们的模型与哈工大讯飞联合实验室的训练花费对比,数 据来自于他们在github上的公开结果。
训练花费对比
模型 设备 训练步数
BERT-wwm TPU v3 200K
BERT-wwm-ext TPU v3 1.4M
RoBERTa-wwm-ext TPU v3 1M
RoBERTa-wwm-ext-large TPU Pod v3-32 2M
LegalSelfReader GTX 1080Ti 60.3K
消融研究
本实施例在原始模型的基础上,分别对先验特征(词性向量和命名实体识 别向量)、注意力层、双向LSTM层进行消融,以比较模型各个组件的有效性。 最终的实验结果如下:
消融实验结果
Figure BDA0002722529530000111
从实验结果中,我们可以看出,在分别消除各个组件后,模型的性能都发 生了一定程度的下降,消除注意力机制后在三个分数上分别下降了0.07、0.074、 0.09,消除双向LSTM模型后分别下降了0.004、0.005、0.002,消除先验特征之 后分别下降了0.003、0.003、-0.001。这说明,三个组件对模型都能提升模型的 表现。其中,性能下降最为明显的是在消除注意力机制之后,这个模型带了近 乎10%的性能下降,这说明注意力机制的使用,是LegalSelfReader在该问题上 获得性能提升的一个重要方面。
关于问题多样性的分析
为了更深入地分析本实施例所提出模型所擅长处理的问题类型,我们利用 汉语中一些特定的问题关键词,设计了一个启发式的问题类别分类,类别划分 如下(由于表格大小的限制,我们只能尽可能地展示我们所选地关键词):
问题类型的关键词表
Figure BDA0002722529530000121
Figure BDA0002722529530000131
根据如上所展示的关键词,我们对测试集进行了随机筛选,每个问题类别 筛选得到100个篇章-问题-答案对,然后使用所训练的模型进行评价,得到如下 结果:
Figure BDA0002722529530000132
从实验结果中可以看出,本实施例所提出的模型在所有问题类型上都有相 当优异的表现。其中,本实施例所提出的模型更擅长处理的问题类型是时间类 型问题和是非类型问题,并且在宏平均F1分数上都获得了0.9以上的分数。大 多数情况下,时间类型问题答案格式比较固定,模型只需要学习到这种固定的 时间格式,然后进行简单匹配,基本就可以得到最终答案。而是非类型问题更 为复杂,它不是一个匹配类型的问题,需要模型对文章的整体语义进行深层理 解,然后再做出是非判断。本实施例所提出的模型能在是非类型获得较好的表 现,说明我们针对是非类型问题设置的多任务训练获得了成功,它使得模型能 够进行深层的篇章语义理解。
同时,模型在Who和Why类型问题上获得了较差的效果。我们查看了关于 Who类型问题的数据,最终发现为了保护个人隐私,数据中的人名等都进行了 匿名化处理,这可能使得我们所加入的命名实体识别向量出现偏差,从而使得 模型的效果变差。对于Why类型的问题,它通常可以组织出多个答案(正确答 案可能不止金标准答案一个),这是由于Why类型问题在文章中往往展示出多 处关联性。除了正确答案的篇章子段之外,模型可能还会去发掘其他与问题相 关的子段,并且这些子段可能会成为答案。这使得注意力值的有效范围被扩大 了,从而模型不能给出一个确切的答案,并降低了模型的表现。
注意力值的可视化研究
如图3所示,在时间类型问题的样本中,可以很明显的地看到,模型给时 间类型的片段赋予了高于上下文的注意力权值,这可以使得后续模型更能注意 到上下文中更重要的部分,而不会关注与时间无关的信息,使得模型的预测能 力大大提升。
如图4所示,在Why类型问题的样本中,可以看出答案部分虽然被赋予了 较高的注意力值,但是其上下文的注意力值也较高,整体显示出注意力值近似 于服从均匀分布。模型在使用这种分布下的注意力值,难以得出较为有效的答 案。
如图5所示,对于是非类型问题,模型必须有比较的推理能力,推理能力 其中一个很重要的一点就是,模型需要能自己找到线索。发现模型具有很好的 “找线索”能力。如图所示,为一个是非判断类型的样本,图中注意力值比较 高的部分,均是回答该问题的比较重要的线索,这说明模型具有很好的推理能 力。
结论
本实施例的一种法律文书自阅读模型---LegalSelfReader可以应用到法学实 证研究中,可以同时回答片段抽取、是非判断、拒答三种类型的问题,基本解 决了问题的多样性问题。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附 图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以, 如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不 经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的 保护范围。

Claims (9)

1.一种法律文书阅读模型的构建方法,其特征在于:包括以下步骤:
一、Bert层对输入的篇章和问题进行编码;
二、特征融合层融合词性标注和命名实体标注向量;
三、建模层对片段提取预测和是非类型判断的建模;
四、输出层输出片段预测和是非概率预测。
2.根据权利要求1所述的一种法律文书阅读模型的构建方法,其特征在于:Bert层的编码过程包括:
1.1、对输入的篇章和问题进行整理,并整理为三个序列:
(1)单词的词典映射序列:
Figure FDA0002722529520000011
其中,[CLS]和[SEP]为间隔符,问题序列为token1,...,tokenn,长度为n,篇章序列为token1,...,tokenm,长度为m;
(2)前后句标记序列,问题序列被标记为A,篇章序列被标记为B:{EA,...,EA,EB,...,EB};
(3)单词位置序列,问题的位置序列为E0,...,En,篇章的位置序列为E0',...,Em':{E0,...,En,E0,...,Em};
1.2、将单词的词典映射序列、前后句标记序列和单词位置序列求和并进行编码处理,得到编码结果:
{E[CLS]',E1',...,En',E[SEP]',E1',...,Em',E[SEP]'}。
3.根据权利要求2所述的一种法律文书阅读模型的构建方法,其特征在于:特征融合层融合词性标注和命名实体标注向量后,得到包含富特征的语义编码向量Mt
Mt=[Et';Ct]t∈[1,n+m+3];
得到M序列,表示为M={M1,M2,...,Mt}。
4.根据权利要求3所述的一种法律文书阅读模型的构建方法,其特征在于:建模层对片段提取预测的建模方法为:使用一个双向LSTM网络,在时间步t上逐时序地处理前向语义编码向量
Figure FDA0002722529520000021
和后向语义编码向量
Figure FDA0002722529520000022
得到前向和后向的上下文向量
Figure FDA0002722529520000023
Figure FDA0002722529520000024
将两者连接,得到最终的上下文向量Lt,公式如下:
Figure FDA0002722529520000025
Figure FDA0002722529520000026
Figure FDA0002722529520000027
5.根据权利要求4所述的一种法律文书阅读模型的构建方法,其特征在于:建模层对是非类型判断的建模方法为:
3.1、自注意力层使用激活函数为relu的前馈网络,对特征融合层传递过来M序列中的前后元素Mi和Mj求取注意力值,并使用注意力值得到一个新的融合
Figure FDA0002722529520000028
公式如下:
Figure FDA0002722529520000029
Figure FDA00027225295200000210
Figure FDA00027225295200000211
3.2、使用了平均池化层对新的融合进行处理,得到池化输出Pi
Figure FDA00027225295200000212
6.根据权利要求5所述的一种法律文书阅读模型的构建方法,其特征在于:输出层使用MLP多层感知机实现,对于片段预测的输出:
Figure FDA00027225295200000213
其中,startlogit为篇章token作为答案起始位置概率,endlogit为篇章token作为答案终止位置的概率,Wspan和bspan为输出层的权值和偏置;
对于是非预测的输出:
Figure FDA00027225295200000214
其中,Yeslogit为答案是“Yes”的概率,Nologit为答案是“No”的概率,Wyes_no和byes_no为权值和偏置。
7.根据权利要求6所述的一种法律文书阅读模型的构建方法,其特征在于:输出层还输出拒答概率的输出:
Nulllogit=Wnull·Pt+bnull
其中,Nulllogit为该问题无答案的概率,Wyes_no和byes_no为权值和偏置。
8.根据权利要求7所述的一种法律文书阅读模型的构建方法,其特征在于:步骤四后,最终的输出会被整形为两个新的概率输出,分别为:
startlogit′=[startlogit,unklogit,yeslogit,nologit];
endlogit′=[endlogit,unklogit,yeslogit,nologit];
设格式相同并且包含是非概率、拒答概率的真实输出为ystart、yend,使用交叉熵作为损失函数计算损失lossstart、lossend,然后对两个损失求取均值即可以得到总体损失lossall,用公式表达为:
Figure FDA0002722529520000031
Figure FDA0002722529520000032
Figure FDA0002722529520000033
其中N为样本个数。
9.一种法律文书阅读模型,其特征在于:其采用如权利要求1-8中所述的任意一种法律文书阅读模型的构建方法。
CN202011092280.5A 2020-10-13 2020-10-13 一种法律文书阅读模型及构建方法 Withdrawn CN112329441A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011092280.5A CN112329441A (zh) 2020-10-13 2020-10-13 一种法律文书阅读模型及构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011092280.5A CN112329441A (zh) 2020-10-13 2020-10-13 一种法律文书阅读模型及构建方法

Publications (1)

Publication Number Publication Date
CN112329441A true CN112329441A (zh) 2021-02-05

Family

ID=74312994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011092280.5A Withdrawn CN112329441A (zh) 2020-10-13 2020-10-13 一种法律文书阅读模型及构建方法

Country Status (1)

Country Link
CN (1) CN112329441A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076759A (zh) * 2021-04-25 2021-07-06 昆明理工大学 基于答案类别和句法指导的案情阅读理解方法
CN113220641A (zh) * 2021-05-20 2021-08-06 共道网络科技有限公司 一种法律文书的辅助阅读方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUJIE LI ET AL.: "Multi-task reading for intelligent legal services", 《FUTURE GENERATION COMPUTER SYSTEMS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076759A (zh) * 2021-04-25 2021-07-06 昆明理工大学 基于答案类别和句法指导的案情阅读理解方法
CN113220641A (zh) * 2021-05-20 2021-08-06 共道网络科技有限公司 一种法律文书的辅助阅读方法和装置
CN113220641B (zh) * 2021-05-20 2022-08-02 共道网络科技有限公司 一种法律文书的辅助阅读方法和装置

Similar Documents

Publication Publication Date Title
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN110083682A (zh) 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN112487820A (zh) 一种中文医疗命名实体识别方法
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN112685538B (zh) 一种结合外部知识的文本向量检索方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113361278A (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
CN112329441A (zh) 一种法律文书阅读模型及构建方法
CN114547230A (zh) 一种智能行政执法案例信息抽取和案由认定方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN113051904B (zh) 一种面向小规模知识图谱的链接预测方法
CN112329442A (zh) 面向异构法律数据的多任务阅读系统及方法
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
Sabharwal et al. Introduction to word embeddings
Wu et al. One improved model of named entity recognition by combining BERT and BiLSTM-CNN for domain of Chinese railway construction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210205

WW01 Invention patent application withdrawn after publication