CN112329441A - 一种法律文书阅读模型及构建方法 - Google Patents
一种法律文书阅读模型及构建方法 Download PDFInfo
- Publication number
- CN112329441A CN112329441A CN202011092280.5A CN202011092280A CN112329441A CN 112329441 A CN112329441 A CN 112329441A CN 202011092280 A CN202011092280 A CN 202011092280A CN 112329441 A CN112329441 A CN 112329441A
- Authority
- CN
- China
- Prior art keywords
- logit
- layer
- sequence
- probability
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000010276 construction Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 9
- 239000012634 fragment Substances 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 125000006850 spacer group Chemical group 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004374 forensic analysis Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文书阅读技术领域,具体地说,涉及一种法律文书阅读模型及构建方法,方法包括以下步骤:一、Bert层对输入的篇章和问题进行编码;二、特征融合层融合词性标注和命名实体标注向量;三、建模层对片段提取预测和是非类型判断的建模;四、输出层输出片段预测和是非概率预测。本发明能较佳地处理片段抽取、是非判断、拒答三种类型问题。
Description
技术领域
本发明涉及文书阅读技术领域,具体地说,涉及一种法律文书阅读模型及 构建方法。
背景技术
将人工智能技术应用到法律领域,能加快和改善法律研究流程,降低法律 研究的时间成本和资金,这使得法律智能研究成为一个相当有前景的领域。Katz 在2012年的研究中指出,随着人工智能的飞速发展,从法律文件生成到案件结 果预测等传统法律任务将迎来变革。这种变革也可以从另外三个方面得以窥见。 首先,语音识别技术被用于庭审记录。其次,使用机器学习方法辅助律师进行 法律文书的审查。再有,一些机器学习方法也被应用于构建智能裁判系统[5,6]。
由此可见,人工智能应用于法学研究时,自然语言理解成为了最有希望成 功应用的技术,这是因为法学研究中包含大量文本数据。例如,在数据驱动的 法学实证分析中,需要研究者人工阅读大量的裁判文书,进行数据的归纳整理, 这是一个相当费时费力的过程。如果使用机器阅读理解技术,构建一个辅助阅 读系统,则可以减轻研究者们在归纳数据过程中的负担。
机器阅读理解任务通常被定义为给定一个篇章和与篇章相关的问题,模型 在阅读了篇章之后,给出问题的答案。在深度学习出现之后,机器阅读理解技 术获得了长足发展。前几年的一些研究者致力于解决完型填空或者单向选择类 型的问题,出现了Attentive Reader、Stanford AR、GA Reader、AOA Reader等 模型。之后,机器阅读理解的发展更趋向于解决接近现实情景的问题,如片段 抽取问题或者多任务类型的问题,出现了BiDAF、Match-LSTM、S-net等模型。 2018年,谷歌发布了一个强大的语言模型—Bert。该模型在11个自然语言处理 任务上获得了成功,也在一定程度上提升了机器阅读理解的最先进表现。随着 机器阅读理解技术的不断发展,它展示了处理长文本、多任务问题上的能力,这使得机器阅读理解技术有应用到法学实证分析中的可能。
但是,对于一个裁判文书,研究者既可能提出一些在文书中可以直接找到 答案的问题,如刑期、犯罪地点等,也可能提出需要推断才能给出答案的问题, 如是否存在团伙犯罪等。同时,部分文书可能不能给出预设问题的答案,即不 可回答类问题。传统的片段提取类的机器阅读理解模型并不能处理多种复杂类 型的问题;因此需要法律文书阅读模型来解决上述问题。
发明内容
本发明的内容是提供一种法律文书阅读模型及构建方法,其能够克服现有 技术的某种或某些缺陷。
根据本发明的一种法律文书阅读模型的构建方法,其包括以下步骤:
一、Bert层对输入的篇章和问题进行编码;
二、特征融合层融合词性标注和命名实体标注向量;
三、建模层对片段提取预测和是非类型判断的建模;
四、输出层输出片段预测和是非概率预测。
作为优选,Bert层的编码过程包括:
1.1、对输入的篇章和问题进行整理,并整理为三个序列:
(2)前后句标记序列,问题序列被标记为A,篇章序列被标记为B: {EA,...,EA,EB,...,EB};
(3)单词位置序列,问题的位置序列为E0,...,En,篇章的位置序列为E0',...,Em':{E0,...,En,E0,...,Em};
1.2、将单词的词典映射序列、前后句标记序列和单词位置序列求和并进行 编码处理,得到编码结果:
{E[CLS]',E1',...,En',E[SEP]',E1',...,Em',E[SEP]'}。
作为优选,特征融合层融合词性标注和命名实体标注向量后,得到包含富 特征的语义编码向量Mt:
Mt=[Et';Ct]t∈[1,n+m+3];
得到M序列,表示为M={M1,M2,...,Mt}。
作为优选,建模层对片段提取预测的建模方法为:使用一个双向LSTM网 络,在时间步t上逐时序地处理前向语义编码向量和后向语义编码向量得到前向和后向的上下文向量和将两者连接,得到最终的上下文向量Lt, 公式如下:
作为优选,建模层对是非类型判断的建模方法为:
3.2、使用了平均池化层对新的融合进行处理,得到池化输出Pi:
作为优选,输出层使用MLP多层感知机实现,对于片段预测的输出:
其中,startlogit为篇章token作为答案起始位置概率,endlogit为篇章token作为答案终止位置的概率,Wspan和bspan为输出层的权值和偏置;
对于是非预测的输出:
其中,Yeslogit为答案是“Yes”的概率,Nologit为答案是“No”的概率,Wyes_no和byes_no为权值和偏置。
作为优选,输出层还输出拒答概率的输出:
Nulllogit=Wnull·Pt+bnull;
其中,Nulllogit为该问题无答案的概率,Wyes_no和byes_no为权值和偏置。
作为优选,步骤四后,最终的输出会被整形为两个新的概率输出,分别为:
startlogit′=[startlogit,unklogit,yeslogit,nologit];
endlogit′=[endlogit,unklogit,yeslogit,nologit];
设格式相同并且包含是非概率、拒答概率的真实输出为ystart、yend,使用交 叉熵作为损失函数计算损失lossstart、lossend,然后对两个损失求取均值即可以得 到总体损失lossall,用公式表达为:
其中N为样本个数。
本发明还提供了一种法律文书阅读模型,其采用上述的一种法律文书阅读 模型的构建方法。
本发明能同时处理片段抽取、是非判断、拒答三种类型问题,基本能满足 法学实证分析中的问题类型需求。
附图说明
图1为实施例1中一种法律文书阅读模型的构建方法的流程图;
图2为实施例1中一种法律文书阅读模型的示意图;
图3为实施例2中时间类型问题可视化结果示意图;
图4为实施例2中原因类型问题可视化结果示意图;
图5为实施例2中是非类型问题的可视化结果示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应 当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图1所示,本实施例提供了一种法律文书阅读模型的构建方法,其包括 以下步骤:
一、Bert层对输入的篇章和问题进行编码;该层使用谷歌提出的Bert-Chinese 实现;
二、在之前的一些研究表明,加入一些与单词相关的先验特征,可以使得 模型的性能获得一定的提升,这同样适用于法律裁判文书的场景下。加入命名 实体识别向量,有利于模型识别出犯罪人姓名、犯罪地点、犯罪团伙名称;加 入词性向量,有利于模型识别出一些实体词、量词等;因此,在得到语义编码 向量后,特征融合层融合词性标注和命名实体标注向量;
三、建模层对片段提取预测和是非类型判断的建模;
四、输出层输出片段预测和是非概率预测。
Bert层的编码过程包括:
1.1、对输入的篇章和问题进行整理,并整理为三个序列:
(2)前后句标记序列,问题序列被标记为A,篇章序列被标记为B: {EA,...,EA,EB,...,EB};
(3)单词位置序列,问题的位置序列为E0,...,En,篇章的位置序列为E0',...,Em':{E0,...,En,E0,...,Em};
1.2、将单词的词典映射序列、前后句标记序列和单词位置序列求和并进行 编码处理,得到编码结果:
{E[CLS]',E1',...,En',E[SEP]',E1',...,Em',E[SEP]'}。
特征融合层融合词性标注和命名实体标注向量后,得到包含富特征的语义 编码向量Mt:
Mt=[Et';Ct]t∈[1,n+m+3];
得到M序列,表示为M={M1,M2,...,Mt}。
在现实场景的阅读任务中,如果问题类型为是非判断,则我们通常会选择 略读全文,更关心文章的宏观信息,这时候我们可以通过注意力层和池化层, 得到文章中更重要的部分。如果问题类型为阐述类题目(片段提取比较类似于 这类题目),我们通常会精读全文,以期获得更为详细的上下文信息,这时候我 们选择保留完整的词向量表示,再使用双向LSTM更进一步地提取上下文信息, 然后使用一层MLP进映射。
建模层对是非类型判断的建模方法为:
3.2、使用了平均池化层对新的融合进行处理,得到池化输出Pi:
输出层使用MLP多层感知机实现,对于片段预测的输出:
其中,startlogit为篇章token作为答案起始位置概率,endlogit为篇章token作为答案终止位置的概率,Wspan和bspan为输出层的权值和偏置;
对于是非预测的输出:
其中,Yeslogit为答案是“Yes”的概率,Nologit为答案是“No”的概率,Wyes_no和byes_no为权值和偏置。
输出层还输出拒答概率的输出:
Nulllogit=Wnull·Pt+bnull;
其中,Nulllogit为该问题无答案的概率,Wyes_no和byes_no为权值和偏置。
步骤四后,最终的输出会被整形为两个新的概率输出,分别为:
startlogit′=[startlogit,unklogit,yeslogit,nologit];
endlogit′=[endlogit,unklogit,yeslogit,nologit];
设格式相同并且包含是非概率、拒答概率的真实输出为ystart、yend,使用交 叉熵作为损失函数计算损失lossstart、lossend,然后对两个损失求取均值即可以得 到总体损失lossall,用公式表达为:
其中N为样本个数。
如图2所示,本实施例还提供了一种法律文书阅读模型LegalSelfReader, 其采用上述的一种法律文书阅读模型的构建方法。
实施例2
本实施例设置了两个benchmark:BIDAF、Bert,与本实施例所提出的模型LegalSelfReader一起实验。
实验环境
在一个装有64位Windows系统的机器上进行实验。该机器的外存空间大小 为930GB,内存空间大小为48GB,CPU类型为单核Intel i7-8700K,GPU类型 为NVIDA GeForceGTX 1080Ti,GPU大小为11GB。本实施例所有实验程序均 使用python语言编写,所使用的深度学习框架为Pytorch,版本号为1.13.0。
本实施例使用的原始数据来自于CAIL 2019法律阅读理解竞赛,该数据集 由哈工大科大讯飞联合实验室发布,是一个面向司法领域的多任务机器阅读理 解数据集,数据集名称为CJRC。数据集的篇章来自于中国裁判文书网,问题和 答案均由法学专家手工撰写,问题类型包括片段抽取、是非判断、拒绝回答等 类型,答案为对应篇章的片段。原始数据集经过简单预处理后,每个样本被确 定为一个五元组,包括篇章、问题、答案文本、答案在篇章中的起止位置、是 非型问题标记。训练集包含4万个样本,测试集包含7000个样本。
评价指标
使用Rouge和宏平均F1分数、EM(Exact Match)分数三个个评价指标对 所提出的系统进行评价。F1分数是常用的分类评价指标,它同时兼顾了分类问 题中的精确度和召回率。宏平均F1分数为F1分数的变体,在评测数据集含有 多个参考答案时,将预测答案与多个答案分别求取F1分数,在对其求均值,即 可得到宏平均F1分数,公式如下:
Rouge和Bleu分数都是机器翻译的常用指标,但是近来有研究者指出Bleu 分数在机器阅读理解中评价时,与Rouge分数有很大的偏差,可能的一个原因 是Bleu对长答案设置了惩罚项,使得Bleu更趋向于选择更短的答案,这给机器 阅读理解的评价带来了影响[7]。因此,本实施例没有选择Bleu分数作为评价指 标,只使用了Rouge-L。Rouge-L主要比较预测答案和参考答案之间的最长公共 子序列,并求出Rouge-L分数,以期通过Rouge-L分数得到两者的“相似度”, Rouge-L的公式形式为:
LCS(X,Y)是参考摘要X和候选摘要Y的最长公共子序列的长度,m、n是参 考答案X和候选答案Y的长度,Rlcs、Plcs分别表示召回率和准确度,Flcs即Rouge-L 分数。
EM是和金标准答案完全一致的预测答案在所有预测答案中所占的比例。
对比实验
为了验证本实施例所设计的系统的有效性,将三个模型在试验环境中所描 述的数据上进行实验。实验结果如下表所示。其中,带“*”的为哈工大讯飞实 验室在github上公布的部分在开发集上的实验结果。
对照实验结果
从实验结果中可以看出,与传统的BIDAF、Bert模型相比,我们的模型LegalSelfReader在三个指标都有比较大的提升。传统的BIDAF使用word2vec 预训练词向量,得到的是固定语义词向量,我们的模型使用了Bert模型获取词 向量,得到的词向量是上下文相关的,因此更获得大幅度的提升。虽然我们对 原始的Bert模型进行了一定调整,使其能够回答是非类型问题,但是原始的Bert 模型中并没有回答是非问题的能力,因此在我们的多任务机器阅读理解数据集 上表现较差。同时,在与哈工大科大讯飞提出的一些比较新颖的Transformer类 模型的比较时,我们的模型也有比较明显的表现提升。并且,我们的模型只是 一个基于原始Bert-Chinese的单隐层模型,没有对Bert模型进行大规模的重新 训练,对于片段抽取输出部分只是加了一个BiLSTM层,对于是非判断输出层 只是加了一个注意力层和一个池化层。相较于他们重新构建新的Transformer类 模型,并使用新的预料重新训练,我们的模型在如此低廉的代价下,依然获得 了比较好的结果。
以下表格展示了我们的模型与哈工大讯飞联合实验室的训练花费对比,数 据来自于他们在github上的公开结果。
训练花费对比
模型 | 设备 | 训练步数 |
BERT-wwm | TPU v3 | 200K |
BERT-wwm-ext | TPU v3 | 1.4M |
RoBERTa-wwm-ext | TPU v3 | 1M |
RoBERTa-wwm-ext-large | TPU Pod v3-32 | 2M |
LegalSelfReader | GTX 1080Ti | 60.3K |
消融研究
本实施例在原始模型的基础上,分别对先验特征(词性向量和命名实体识 别向量)、注意力层、双向LSTM层进行消融,以比较模型各个组件的有效性。 最终的实验结果如下:
消融实验结果
从实验结果中,我们可以看出,在分别消除各个组件后,模型的性能都发 生了一定程度的下降,消除注意力机制后在三个分数上分别下降了0.07、0.074、 0.09,消除双向LSTM模型后分别下降了0.004、0.005、0.002,消除先验特征之 后分别下降了0.003、0.003、-0.001。这说明,三个组件对模型都能提升模型的 表现。其中,性能下降最为明显的是在消除注意力机制之后,这个模型带了近 乎10%的性能下降,这说明注意力机制的使用,是LegalSelfReader在该问题上 获得性能提升的一个重要方面。
关于问题多样性的分析
为了更深入地分析本实施例所提出模型所擅长处理的问题类型,我们利用 汉语中一些特定的问题关键词,设计了一个启发式的问题类别分类,类别划分 如下(由于表格大小的限制,我们只能尽可能地展示我们所选地关键词):
问题类型的关键词表
根据如上所展示的关键词,我们对测试集进行了随机筛选,每个问题类别 筛选得到100个篇章-问题-答案对,然后使用所训练的模型进行评价,得到如下 结果:
从实验结果中可以看出,本实施例所提出的模型在所有问题类型上都有相 当优异的表现。其中,本实施例所提出的模型更擅长处理的问题类型是时间类 型问题和是非类型问题,并且在宏平均F1分数上都获得了0.9以上的分数。大 多数情况下,时间类型问题答案格式比较固定,模型只需要学习到这种固定的 时间格式,然后进行简单匹配,基本就可以得到最终答案。而是非类型问题更 为复杂,它不是一个匹配类型的问题,需要模型对文章的整体语义进行深层理 解,然后再做出是非判断。本实施例所提出的模型能在是非类型获得较好的表 现,说明我们针对是非类型问题设置的多任务训练获得了成功,它使得模型能 够进行深层的篇章语义理解。
同时,模型在Who和Why类型问题上获得了较差的效果。我们查看了关于 Who类型问题的数据,最终发现为了保护个人隐私,数据中的人名等都进行了 匿名化处理,这可能使得我们所加入的命名实体识别向量出现偏差,从而使得 模型的效果变差。对于Why类型的问题,它通常可以组织出多个答案(正确答 案可能不止金标准答案一个),这是由于Why类型问题在文章中往往展示出多 处关联性。除了正确答案的篇章子段之外,模型可能还会去发掘其他与问题相 关的子段,并且这些子段可能会成为答案。这使得注意力值的有效范围被扩大 了,从而模型不能给出一个确切的答案,并降低了模型的表现。
注意力值的可视化研究
如图3所示,在时间类型问题的样本中,可以很明显的地看到,模型给时 间类型的片段赋予了高于上下文的注意力权值,这可以使得后续模型更能注意 到上下文中更重要的部分,而不会关注与时间无关的信息,使得模型的预测能 力大大提升。
如图4所示,在Why类型问题的样本中,可以看出答案部分虽然被赋予了 较高的注意力值,但是其上下文的注意力值也较高,整体显示出注意力值近似 于服从均匀分布。模型在使用这种分布下的注意力值,难以得出较为有效的答 案。
如图5所示,对于是非类型问题,模型必须有比较的推理能力,推理能力 其中一个很重要的一点就是,模型需要能自己找到线索。发现模型具有很好的 “找线索”能力。如图所示,为一个是非判断类型的样本,图中注意力值比较 高的部分,均是回答该问题的比较重要的线索,这说明模型具有很好的推理能 力。
结论
本实施例的一种法律文书自阅读模型---LegalSelfReader可以应用到法学实 证研究中,可以同时回答片段抽取、是非判断、拒答三种类型的问题,基本解 决了问题的多样性问题。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附 图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以, 如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不 经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的 保护范围。
Claims (9)
1.一种法律文书阅读模型的构建方法,其特征在于:包括以下步骤:
一、Bert层对输入的篇章和问题进行编码;
二、特征融合层融合词性标注和命名实体标注向量;
三、建模层对片段提取预测和是非类型判断的建模;
四、输出层输出片段预测和是非概率预测。
2.根据权利要求1所述的一种法律文书阅读模型的构建方法,其特征在于:Bert层的编码过程包括:
1.1、对输入的篇章和问题进行整理,并整理为三个序列:
其中,[CLS]和[SEP]为间隔符,问题序列为token1,...,tokenn,长度为n,篇章序列为token1,...,tokenm,长度为m;
(2)前后句标记序列,问题序列被标记为A,篇章序列被标记为B:{EA,...,EA,EB,...,EB};
(3)单词位置序列,问题的位置序列为E0,...,En,篇章的位置序列为E0',...,Em':{E0,...,En,E0,...,Em};
1.2、将单词的词典映射序列、前后句标记序列和单词位置序列求和并进行编码处理,得到编码结果:
{E[CLS]',E1',...,En',E[SEP]',E1',...,Em',E[SEP]'}。
3.根据权利要求2所述的一种法律文书阅读模型的构建方法,其特征在于:特征融合层融合词性标注和命名实体标注向量后,得到包含富特征的语义编码向量Mt:
Mt=[Et';Ct]t∈[1,n+m+3];
得到M序列,表示为M={M1,M2,...,Mt}。
7.根据权利要求6所述的一种法律文书阅读模型的构建方法,其特征在于:输出层还输出拒答概率的输出:
Nulllogit=Wnull·Pt+bnull;
其中,Nulllogit为该问题无答案的概率,Wyes_no和byes_no为权值和偏置。
9.一种法律文书阅读模型,其特征在于:其采用如权利要求1-8中所述的任意一种法律文书阅读模型的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011092280.5A CN112329441A (zh) | 2020-10-13 | 2020-10-13 | 一种法律文书阅读模型及构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011092280.5A CN112329441A (zh) | 2020-10-13 | 2020-10-13 | 一种法律文书阅读模型及构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329441A true CN112329441A (zh) | 2021-02-05 |
Family
ID=74312994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011092280.5A Withdrawn CN112329441A (zh) | 2020-10-13 | 2020-10-13 | 一种法律文书阅读模型及构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329441A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076759A (zh) * | 2021-04-25 | 2021-07-06 | 昆明理工大学 | 基于答案类别和句法指导的案情阅读理解方法 |
CN113220641A (zh) * | 2021-05-20 | 2021-08-06 | 共道网络科技有限公司 | 一种法律文书的辅助阅读方法和装置 |
CN114579717A (zh) * | 2022-02-07 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 一种法律问答方法及装置 |
-
2020
- 2020-10-13 CN CN202011092280.5A patent/CN112329441A/zh not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
YUJIE LI ET AL.: "Multi-task reading for intelligent legal services", 《FUTURE GENERATION COMPUTER SYSTEMS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076759A (zh) * | 2021-04-25 | 2021-07-06 | 昆明理工大学 | 基于答案类别和句法指导的案情阅读理解方法 |
CN113220641A (zh) * | 2021-05-20 | 2021-08-06 | 共道网络科技有限公司 | 一种法律文书的辅助阅读方法和装置 |
CN113220641B (zh) * | 2021-05-20 | 2022-08-02 | 共道网络科技有限公司 | 一种法律文书的辅助阅读方法和装置 |
CN114579717A (zh) * | 2022-02-07 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 一种法律问答方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN112329441A (zh) | 一种法律文书阅读模型及构建方法 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN114547230B (zh) | 一种智能行政执法案例信息抽取和案由认定方法 | |
CN113361278B (zh) | 一种基于数据增强与主动学习的小样本命名实体识别方法 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113239663B (zh) | 一种基于知网的多义词中文实体关系识别方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN114020871B (zh) | 基于特征融合的多模态社交媒体情感分析方法 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN113051904B (zh) | 一种面向小规模知识图谱的链接预测方法 | |
CN112329442A (zh) | 面向异构法律数据的多任务阅读系统及方法 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210205 |
|
WW01 | Invention patent application withdrawn after publication |