CN114297342A - 基于阅读理解和意图识别模型的法律文书生成方法及系统 - Google Patents

基于阅读理解和意图识别模型的法律文书生成方法及系统 Download PDF

Info

Publication number
CN114297342A
CN114297342A CN202111501714.7A CN202111501714A CN114297342A CN 114297342 A CN114297342 A CN 114297342A CN 202111501714 A CN202111501714 A CN 202111501714A CN 114297342 A CN114297342 A CN 114297342A
Authority
CN
China
Prior art keywords
model
reading understanding
result
legal
results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111501714.7A
Other languages
English (en)
Inventor
吴怡
安广泉
王禺雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Daniu Cognitive Technology Co ltd
Original Assignee
Chongqing Daniu Cognitive Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Daniu Cognitive Technology Co ltd filed Critical Chongqing Daniu Cognitive Technology Co ltd
Priority to CN202111501714.7A priority Critical patent/CN114297342A/zh
Publication of CN114297342A publication Critical patent/CN114297342A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提出一种基于阅读理解和意图识别模型的法律文书生成方法及系统,属于法律咨询技术领域,方法包括:获取长段文字陈述;将长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素;将所述初轮法律要素与所述法律要素库进行对比,得到咨询者想要咨询的法律场景;根据所述遗漏要素与咨询者发起多轮对话,得到多轮对话的结果;将多轮对话的结果输入到意图识别模型中,得到意图识别结果;进行推理决策,自动生成法律咨询意见书或者合同文书。系统包括:数据获取模块、要素获取模块、场景获取模块、多轮对话模块、意图识别模块、文书生成模块,本申请减少了模型收敛时间,降低了训练成本,并使得当事人获取到既准确又专业的法律咨询相关答案。

Description

基于阅读理解和意图识别模型的法律文书生成方法及系统
技术领域
本申请属于法律咨询技术领域,具体涉及一种基于阅读理解和意图识别模型的法律文书生成方法及系统。
背景技术
在现代社会人们日常生活中,经常会遇到法律相关的问题,比如:婚姻方面、财产继承方面、劳动争议方面,借贷方面等等,当事人经常采取的方法是咨询当地律师,或者上网搜索相关答案,如果当事人采用咨询律师的途径,一方面律师个人资质不同,深入研究的领域不同,故每个律师给出的答案可能是不同的,这让当事人很难去做一个正确的决定;另一方面,律师的缺口非常大,现有律师的数量很难满足法律咨询问题日益增长的数量,这使得当事人很难获取到既准确、专业又满意的答案。如果当事人采用上网搜索相关答案的途径,经常当事人经理的过程与网上给出的过程难以具体匹配,进而无法获取到准确地答案。
现有技术中,存在一些法律文书生成系统,当事人可以通过该系统进行人机对话,最后获取到法律意见咨询书或者合同文书,但是通过该系统获取到的法律意见咨询书或者合同文书不是很准确,其原因是该系统无法准确理解当事人的意思,并且对当事人的意图不是很明确,而当事人需要输入的文本较长,使用传统的机器学习方法及基础的神经网络模型,例如RNN,LSTM等,已经在性能和精度上远远不能满足要求。
针对现有技术中,当事人很难取到既准确、专业又满意的法律咨询相关答案的问题,目前未找到相关的解决方案。
发明内容
针对以上技术问题,本申请提出一种基于阅读理解和意图识别模型的法律文书生成方法及系统。
第一方面,本申请提出种基于阅读理解和意图识别模型的法律文书生成方法,包括如下步骤:
获取长段文字陈述;
将所述长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素;
将所述初轮法律要素与所述法律要素库进行对比,得到咨询者想要咨询的法律场景;
根据法律场景获取遗漏要素,根据所述遗漏要素与咨询者发起多轮对话,得到多轮对话的结果;
将多轮对话的结果输入到意图识别模型中,得到意图识别结果;
根据意图识别结果以及初轮法律要素进行推理决策,自动生成法律咨询意见书或者合同文书。
所述将所述长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素,包括如下步骤:
将所述长段文字陈述分别输入到抽取式阅读理解与选择题型阅读理解模型,分别得到抽取式阅读理解答案以及选择题型阅读理解答案;
将所述抽取式阅读理解答案以及选择题型阅读理解答案作为初轮法律要素。
所述将所述长段文字陈述输入到抽取式阅读理解模型,得到抽取式阅读理解答案,步骤如下:
将所述长段文字陈述与问题进行拼接,并且统一到固定长度,得到固定长度的拼接后结果;
使用BERT预训练模型对所述固定长度的拼接后结果进行编码,并提取出编码后的特征向量;
将所述编码后的特征向量输入抽取式阅读理解模型的分类器当中,并最终计算出各个位置的逻辑值;
根据所述逻辑值,通过softmax函数选择出抽取式阅读理解答案。
所述BERT预训练模型采用迁移学习的策略训练模型,包括两个阶段,使用两种数据集进行训练,并且两种数据集均带标注;在第一阶段,只使用第一数据集进行训练,得到第一BERT预训练模型以及第一模型权重;在第二阶段,将所述第一模型权重作为第二BERT预训练模型的初始权重;再使用第二数据集与一部分第一数据集再次进行训练,得到最终的BERT预训练模型。
所述将所述长段文字陈述输入到选择题型阅读理解模型,得到选择题型阅读理解答案,步骤如下:
将所述长段文字陈述与问题进行拼接,并且统一到固定长度,得到固定长度的拼接后结果;
使用ALBERT预训练模型对所述固定长度的拼接后结果进行编码,并提取出编码后的特征向量;
将所述编码后的特征向量输入阅读理解模型的分类器当中,并最终计算出各个位置的逻辑值;
根据所述逻辑值,通过softmax函数选择出选择题型阅读理解答案;
设置一个阈值T,判断阈值T与最大的逻辑值和次大的逻辑值的差值的大小;
若最大的逻辑值和次大的逻辑值的差值不大于阈值T,则认为得到的选择题型阅读理解答案为UNKNOW答案;
若最大的逻辑值和次大的逻辑值的差值大于阈值T,则直接输出所述选择题型阅读理解答案。
所述抽取式阅读理解模型的分类器,具体为一个维度为2×d的线性分类器,其中,d为隐层状态维度;
所述阅读理解模型的分类器设置为两个全连接层,第一个全连接层是维度为 d×d的带有tanh激活函数的线性层;第二个全连接层是维度为d×1的没有激活函数的线性层。
所述将多轮对话的结果输入到意图识别模型中,得到意图识别结果,步骤如下:
所述将多轮对话的结果分别输入到基于混合注意力机制的原型网络模型与词向量相似度对比模型,分别得到第一结果与第二结果;
将第一结果与第二结果进行加权求和,得到最终的结果,所述第一结果、第二结果与最终的结果均包含类别及其对应的概率;
将所述最终的结果进行排序,依次返回排序后的类别及其对应的概率。
所述将多轮对话的结果输入到基于混合注意力机制的原型网络模型,得到第一结果,其过程步骤如下:
将所述多轮对话的结果进行标识,分别标识为文字嵌入与位置嵌入;
将所述文字嵌入与位置嵌入进行拼接;
将拼接结果输入到CNN网络,并进行最大池化,输出的最大池化的结果即为所述多轮对话的结果的编码信息;
将所述编码信息输入所述支持集,采用改进的求解公式提取特征,得到N 个小类原型向量;
将所述多轮对话的结果的编码信息与N个小类原型向量进行相似度计算,得到N个相似度值;
将所述N个相似度值转换为每个类别以及每个类别的对应概率。
所述将多轮对话的结果输入到词向量相似度对比模型,得到第二结果,其过程步骤如下:
将场景库中实际场景数据分成S个类别;
对每个类别以类名为关键词,分别对应一个关键词向量K;
同时对每个类别中的语句进行分词、去除停用词,得到词向量,将词向量相加取平均值,得到每个类别的标志向量V;
将问题向量Q分别与关键词向量K和标志向量V进行相似度计算,得到第一相似度计算结果与第二相似度计算结果;
将所述一相似度计算结果与第二相似度计算结果进行加权求和,最后得到每个类别的对应概率;
所述每个类别以及每个类别的对应概率为第二结果。
第二方面,本申请提出一种基于阅读理解和意图识别模型的法律文书生成系统,包括:数据获取模块、要素获取模块、场景获取模块、多轮对话模块、意图识别模块、文书生成模块;
所述数据获取模块、要素获取模块、场景获取模块、多轮对话模块、意图识别模块、文书生成模块依次顺序相连接,所述要素获取模块与意图识别模块分别与所述文书生成模块相连接;
所述数据获取模块用于获取长段文字陈述;
所述要素获取模块用于将所述长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素;
所述场景获取模块用于将所述初轮法律要素与所述法律要素库进行对比,得到咨询者想要咨询的法律场景;
所述多轮对话模块用于根据法律场景获取遗漏要素,根据所述遗漏要素与咨询者发起多轮对话,得到多轮对话的结果;
所述意图识别模块用于将多轮对话的结果输入到意图识别模型中,得到意图识别结果;
所述文书生成模块用于根据意图识别结果以及初轮法律要素进行推理决策,自动生成法律咨询意见书或者合同文书。
有益技术效果:
本申请一种基于阅读理解和意图识别模型的法律文书生成方法及系统,使得当事人获取到既准确、专业又满意的法律咨询相关答案,本申请基于预训练模型的方案仅仅需要做一个迭代微调就可以满足不同NLP任务,这大大减少了模型的收敛时间,降低了训练成本,同时采用双向自注意力机制,这种机制的模型效果远远优于之前的RNN和LSTM模型方案。
附图说明
图1为本申请实施例的法律文书生成方法流程图;
图2为本申请实施例法律文书生成方法流程示意图;
图3为本申请实施例的获取初轮法律要素流程示意图;
图4为本申请实施例的抽取式阅读理解模型示意图;
图5为本申请实施例的择题型阅读理解模型示意图;
图6为本申请实施例的意图识别模型示意图;
图7为本申请实施例的原型网络模型示意图;
图8为本申请实施例的个小类抽取原型过程示意图;
图9为本申请实施例的N个小类原型向量构造过程示意图;
图10为本申请实施例的相似度对比模型示意图;
图11为本申请实施例的特征级注意力提取器流程示意图;
图12为本申请实施例的获取初轮法律要素流程图;
图13为本申请实施例的抽取式阅读理解模型流程图;
图14为本申请实施例的择题型阅读理解模型流程图;
图15为本申请实施例的意图识别模型流程图;
图16为本申请实施例的得到第一结果流程图;
图17为本申请实施例的N个小类原型向量构造过程流程图;
图18为本申请实施例的得到第二结果流程图;
图19为本申请实施例的法律文书生成系统原理框图。
具体实施方式:
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
第一方面,本申请提出种基于阅读理解和意图识别模型的法律文书生成方法,如图1、图2所示,包括如下步骤:
步骤S1:获取长段文字陈述;
步骤S2:将所述长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素;
步骤S3:将所述初轮法律要素与所述法律要素库进行对比,得到咨询者想要咨询的法律场景;
步骤S4:根据法律场景获取遗漏要素,根据所述遗漏要素与咨询者发起多轮对话,得到多轮对话的结果;
咨询者想要咨询的法律场景如民事咨询、离婚咨询、工伤咨询等,同时可能包含一些其它的事件信息。例如涉及的人物、地点、时间等。确定法律场景后,基于法律知识库及知识图谱,得到想要出具一份准确完整的法律文书还需要哪些信息,即遗漏要素,然后会基于缺失的信息与咨询人展开多轮对话。对话方式为主动提问的方式,咨询者仅需要使用语音回答或手动选择的方式回答相关问题即可,问题均以选择题和填空补充的形式,方便咨询者理解。当该场景需要的核心信息均以通过对话获取完成,对话就会结束,到此系统就已经完全理解了咨询者的咨询意图了。具体多轮对话的方法,可以采用语音回答,或回答文字或选择问题的方法进行多轮对话,均属于现有技术,本申请不再赘述。
步骤S5:将多轮对话的结果输入到意图识别模型中,得到意图识别结果;
步骤S6:根据意图识别结果以及初轮法律要素进行推理决策,自动生成法律咨询意见书或者合同文书。
推理决策就是根据前期提取到的法律要素和对话获取的关键信息结合法律知识图谱进行文书关键节点推理查询。如根据前期获取的地理位置信息获取当地的相关法案规定(不同地区的同一法律问题可能有不同的政策),并根据当地法律规定计算相关的文书数据(如交通事故中的理赔金额等)。完成整个推理过程即可输出一份准确标准的法律文书,其中推理决策有很多现有的算法,并不属于本申请的创新点,本申请不再赘述。
所述将所述长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素,如图3、图12所示,包括如下步骤:
步骤S2.1:将所述长段文字陈述分别输入到抽取式阅读理解与选择题型阅读理解模型,分别得到抽取式阅读理解答案以及选择题型阅读理解答案;
步骤S2.2:将所述抽取式阅读理解答案以及选择题型阅读理解答案作为初轮法律要素。
选择题型的阅读理解以及抽取式阅读理解的文本长度较长,使用传统的机器学习方法及基础的神经网络模型,例如RNN,LSTM等,从精度和运算时间上已经不满足需求,因此采用预训练模型完成本申请。使用预训练模型作为模型的编码器获取数据的表征并通过在预训练模型上的fine-tune训练模型,具体来说是在预训练模型后添加一个分类器并设计损失函数。最后针对实际应用,制定了模型回答“UNKNOW”的策略。
本申请将抽取式模型命名为TTM-SQ(Transfer Trained Model for SpanQuestion),在训练中使用迁移学习策略,提高模型的鲁棒性的同时加速了模型训练速度。
所述将所述长段文字陈述输入到抽取式阅读理解模型,得到抽取式阅读理解答案,如图4、图13所示,步骤如下:
步骤S2.1.11:将所述长段文字陈述与问题进行拼接,并且统一到固定长度,得到固定长度的拼接后结果;
步骤S2.1.12:使用BERT预训练模型对所述固定长度的拼接后结果进行编码,并提取出编码后的特征向量;
步骤S2.1.13:将所述编码后的特征向量输入抽取式阅读理解模型的分类器当中,并最终计算出各个位置的逻辑值;
步骤S2.1.14:根据所述逻辑值,通过softmax函数选择出抽取式阅读理解答案。
所述BERT预训练模型采用迁移学习的策略训练模型,包括两个阶段,使用两种数据集进行训练,并且两种数据集均带标注;在第一阶段,只使用第一数据集进行训练,得到第一BERT预训练模型以及第一模型权重;在第二阶段,将所述第一模型权重作为第二BERT预训练模型的初始权重;再使用第二数据集与小一部分第一数据集再次进行训练,得到最终的BERT预训练模型。
在本实施例中,使用迁移学习的策略训练模型,具体来说:训练共两个阶段,使用2种数据集进行训练。在第一阶段,只使用法研杯数据集进行训练。在第二阶段,将第一阶段训练好的预训练模型权重作为模型的初始权重。再使用标注的数据集与小部分法研杯数据集再次进行训练,得到最终的模型。该训练策略有以下优点:
(1)通过第一阶段的训练加速了模型在目标数据集上训练时的收敛速度;
(2)提高模型鲁棒性;
(3)第二阶段法研杯数据集较少,使模型更拟合甲方所需要的问题的形式,回答问题的准确率提升。
所述抽取式阅读理解模型的分类器,具体为一个维度为2×d的线性分类器,其中,d为隐层状态维度。本申请在经过编码后取出BERT输出的最后一层
Figure RE-GDA0003536111570000081
r为输入序列长度。特征
Figure RE-GDA0003536111570000082
在通过分类器后会产生向量ls∈Rr和ls∈Rr, ls和le的每个维度上的数值代表该位置作为起始和终止位置的logit值(即逻辑值),即start_logit和end_logit,模型会根据logit值对答案进行判断。在选择答案时会去除如起始位置在终止位置之后等无效答案,并按照start_logit+end_logit 作softmax,softmax公式如下:
Figure RE-GDA0003536111570000083
其中,zi为第i个节点的输出值,C即为N个相似度的值,
取其中值最大的作为预测的答案。与此同时,如果UNKNOW的softmax值为最大,则判断答案为UNKNOW。根据BERT的自注意力机制,编码后的[CLS] 位置可以代表整个输入序列的语义,进而判断输入的两个句子之间的关系。所以在计算UNKNOW的logit值时,模型使用[CLS]位置对应的start_logit与end_logit 作加和。
考虑到选择题型阅读理解的输入文本较长,如果使用BERT作为编码器,训练预测的时间成本过高,ALBERT相比BERT具有体积小、训练速度快等优势。因此,经过多方面考虑,采用预训练模型ALBERT作为TTM-MC模型的编码器。
在具体使用时,将案例原文、问题与每个答案选项进行拼接后送入ALBERT 模型进行编码,若长度与设定的输入序列长度不同,则进行截断或填充。取预训练模型的最后一层的输出作为下一步的输入。针对一个问题的若干个(n)选项,需要进行n次的编码。
所述将所述长段文字陈述输入到选择题型阅读理解模型,得到选择题型阅读理解答案,如图5、图14所示,步骤如下:
步骤S2.1.11.1:将所述长段文字陈述与问题进行拼接,并且统一到固定长度,得到固定长度的拼接后结果;
步骤S2.1.11.2:使用ALBERT预训练模型对所述固定长度的拼接后结果进行编码,并提取出编码后的特征向量;
步骤S2.1.11.3:将所述编码后的特征向量输入阅读理解模型的分类器当中,并最终计算出各个位置的逻辑值;
步骤S2.1.11.4:根据所述逻辑值,通过softmax函数选择出选择题型阅读理解答案;
Figure RE-GDA0003536111570000091
zi为第i个节点的输出值,C即为N个相似度的值,得出的值即为每个类别的概率。
步骤S2.1.11.5:设置一个阈值T,判断阈值T与最大的逻辑值和次大的逻辑值的差值的大小;
步骤S2.1.11.6:若最大的逻辑值和次大的逻辑值的差值不大于阈值T,则认为得到的选择题型阅读理解答案为UNKNOW答案;
步骤S2.1.11.7:若最大的逻辑值和次大的逻辑值的差值大于阈值T,则直接输出所述选择题型阅读理解答案。
所述使用ALBERT预训练模型对所述固定长度的拼接后结果进行编码,包括:针对一个问题的n个选项,需要进行n次编码。
在选择分类器的结构时,通过实验比较了使用相同编码器,不同分类器的模型的测试结果,并最终选择了A two-layer FCNN。MAN是一个可以进行多步推理的分类器,它作为复杂结构分类器的一个代表。模型使用的分类器由一个两层的前馈网络组成。实验结果表明,复杂分类器(MAN)与模型所使用分类器准确率差异非常小,且根据不同类型的问题,两种分类器的表现各有特点:复杂分类器在更需要推理的问题上表现更好,但在比较简单的问题中效果下降。考虑到实际业务使用中问题的分布与数据集略有差异,分类器结构对模型训练时间、预测时间的影响等多方面因素。本申请最终选择了2层前馈网络的简单分类器(A two-layer FCNN)作为TTM-MC模型最终的分类器。
所述阅读理解模型的分类器设置为两个全连接层,第一个全连接层是维度为 d×d的带有tanh激活函数的线性层;第二个全连接层是维度为d×1的没有激活函数的线性层;
在获取到编码器编码后的特征后,模型使用[CLS]位(CLS即classification 用于下游的分类任务)的m个向量V∈Rn×d进行后续的计算处理,其中m代表选项的个数,m个选项即为m个向量。获取到V后,将V通过带有tanh激活函数的线性层后可以得到向量V′∈Rm×d,其中tanh激活函数为:
Figure RE-GDA0003536111570000101
其中,xh为激活函数的输入,然后V′再经过维度为d×1的线性层后即可得出m个选项的逻辑值。
所述ALBERT预训练模型采用迁移学习的策略训练模型,包括两个阶段,第一阶段使用自然语言推断数据集进行训练,第二阶段使用RACE数据集进行训练。
与抽取式模型相同,在TTM-MC模型的训练过程中,同样使用迁移学习的策略训练模型。由于目标数据集RACE中含有大量推理型问题,第一阶段使用自然语言推断数据集进行训练,第二阶段使用RACE数据集进行训练。该训练策略有以下优点:
(1)通过第一阶段的训练加速了模型在目标数据集上训练时的收敛速度;
(2)通过自然语言推断任务的训练,模型回答问题的准确率提升。
损失函数(loss function)用来评估模型的预测值与真实值的不一致程度。损失函数越小,模型的鲁棒性越好。损失函数放在神经网络训练前向传播的末尾,经过多层网络后得到的结果会与真值计算损失,然后通过反向传播更新网络中的参数,如果长时间训练无法降低损失函数值,一般会调整学习率、激活函数或更换损失函数,但对于本申请基于的预训练模型,一般不会出现,因为本申请只是在做微调。
选用起始、终止位置与答案的交叉熵函数作为模型的损失函数。
Figure RE-GDA0003536111570000111
其中,y代表句中每个位置,值为句长。p(y)代表答案的位置,若x位置为正确的起始/终止位置则值为1,否则为0。q(y)是模型预测的x位置的logit值(即逻辑值)。
最后的损失函数为:
H=(Hs+He)/2
Hs和He分别代表起始位置与终止位置计算交叉熵所得。
本申请实施例实验过程示例:
硬件环境:Linux服务器,配置为GPU:GTX1080Ti,CPU:Intel(R)Xeon(R) CPU E5-2678。
软件环境:服务器系统为Ubuntu 16.04.5,Python版本号为3.7,CUDA版本为10.2。
抽取式阅读理解数据集
(1)法研杯数据集:该数据集是来自“中国裁判文书网”公开的法律文书,主要涉及民事和刑事的一审判决书,总共约1万份数据,并按比例划分训练、开发和测试。每份数据包括若干个问题,对于训练集,每个问题只包含一个标准回答,对于开发和测试集,每个问题包含3个标准回答。回答内容可以是案情片段,可以是YES或NO,也可以拒答即回答内容为空。
(2)甲方标注数据集(目标数据集):甲方所标注的数据集共计13603条,包含了3262条答案为YES或NO的数据以及10341条可从文中找出答案的数据。其中大多数都是关于时间、金钱等的问答对,因此在训练的时候模型对这方面的问题回答的非常准确,但是该数据集缺乏文章中没有问题对应答案的问答对。数据格式如表1所示,数据格式图如表1所示。
表1抽取式阅读理解数据格式说明表
Figure RE-GDA0003536111570000112
Figure RE-GDA0003536111570000121
抽取式阅读理解参数选择抽取式阅读理解参数选择如表2所示。
表2抽取式阅读理解训练模型参数说明表
Figure RE-GDA0003536111570000122
Figure RE-GDA0003536111570000131
选择题型阅读理解数据集
NLI数据集:自然语言推断是判断句子对语义关系的任务,它包含对句子对的关系进行判断:中立、牵连、矛盾;句子对是否相似等任务,常用数据集有SNLI、Multi-NLI等数据集。Stanford Natural Language Inference(SNLI)自然语言推理最常用版本。包含了550152条训练样本,1000条验证样本,10000条测试样本。每条样本是一个句子对,每个句子对都被标注为这三个标签之一:中立,牵连,矛盾。Multi-Genre Natural LanguageInference(MNLI)收集了433000条句子对。该语料库是SNLI的扩展,涵盖广泛,包括口语和书面语,并支持独特的跨类型概括评估。
RACE数据集:RACE数据集收集了12-18岁年龄段的初中和高中学生的英语考试,其中包含近28000个段落和人类专家提出的100000个问题。共分为 middle,high,middle即为中考英语,high为高考英语。RACE-M,RACE-H与 RACE的train,dev与high的文章数与问题数统计如表3所示。RACE的文章长度,问题长度及选项长度统计表如表4所示。RACE中各种推理类型占比统计表如表5所示。数据集格式说明如表6所示。
表3 RACE文章数与问题数统计表
Figure RE-GDA0003536111570000132
表4 RACE文章、问题及选项长度统计表
Figure RE-GDA0003536111570000133
Figure RE-GDA0003536111570000141
表5 RACE各种推理类型占比统计表
Figure RE-GDA0003536111570000142
表6选择题型阅读理解数据格式说明表
Figure RE-GDA0003536111570000143
Figure RE-GDA0003536111570000151
选择题型阅读理解参数选择
选择题型阅读理解的模型使用了大量的超参数,如编码时的最大长度,训练次数,数据的存放路径,模型的存放路径等。因此用户需要对模型的参数表进行一定程度的了解,使得模型可以在目标数据集上发挥更大的优势。选择题型的阅读理解的参数选择如表7所示,分别介绍了模型使用参数的超参数类型,功能以及相应选取的值。
表7选择题阅读理解训练模型参数说明表
Figure RE-GDA0003536111570000152
Figure RE-GDA0003536111570000161
modeling_albert.py是TTM-MC模型的结构文件,它定义了模型结构、前向传播方法、损失函数等部分。
本申请采用的是基于混合注意力机制的原型网络(Hybrid Attention-BasedPrototypical Networks),相比于普通的原型网络(Prototypical Networks)能够很好的解决样本噪声对实验结果带来的影响。
首先基于混合注意力机制的原型网络(Prototypenetwork)构建每个细分法律各个类别的标志向量,然后计算用户的语句的特征向量与标志向量的语义距离,从而实现小样本分类。
原始的原型网络计算原型的方法是在suppprtset中求实例句子的平均值作为每个关系的原型。任何原型网络求解原型的思想,但是直接求平均的方法对每个输入样本的权重默认为相同值,这样当输入样本很少时,并且样本中带有噪音的情况下会明显影响原型的求解。
样本实例级的注意力机制:在少样本学习中若是训练过程样本带有噪音会明显影响原型的求解。本申请提出了样本实例级的的注意模块,将更多的注意力放在与查询相关的实例上,减少了噪声的影响。本申请将求解原型的公式进行修改。
特征级的注意力机制:原始的原型网络使用简单的欧式距离作为距离函数。由于少样本学习中支持集中实例较少,从支持集中提取的特征存在数据稀疏的问题。因此,在特征空间中对特殊关系进行分类时,某些维度具有更强的区分能力。本申请采用了一种基于特征级的注意方法,以缓解特征稀疏性问题,并以更合适的方式测量空间距离。本申请将公式d(s1-s2)=(s1-s2)2修改为d(s1-s2)= z1(s1-s2)2,其中z1通过下图的特征级注意力提取器计算的。
所述将多轮对话的结果输入到意图识别模型中,得到意图识别结果,如图6、图15所示步骤如下:
步骤S2.1.21:所述将多轮对话的结果分别输入到基于混合注意力机制的原型网络模型与词向量相似度对比模型,分别得到第一结果与第二结果;
步骤S2.1.22:将第一结果与第二结果进行加权求和,得到最终的结果,所述第一结果、第二结果与最终的结果均包含类别及其对应的概率;
步骤S2.1.23:将所述最终的结果进行排序,依次返回排序后的类别及其对应的概率。
所述将多轮对话的结果输入到基于混合注意力机制的原型网络模型,得到第一结果,如图7、图8、图16所示,其过程步骤如下:
步骤S2.1.22.11:将所述多轮对话的结果进行标识,分别标识为文字嵌入与位置嵌入;
步骤S2.1.22.12:将所述文字嵌入与位置嵌入进行拼接;
步骤S2.1.22.13将拼接结果输入到CNN网络,并进行最大池化,输出的最大池化的结果即为所述多轮对话的结果的编码信息;
编码过程即为将用户输入进行向量化的过程。
步骤S2.1.22.14:将所述编码信息输入所述支持集,采用改进的求解公式提取特征,得到N个小类原型向量;
图8中每个小类抽取原型过程即用改进的求解公式进行提取。
步骤S2.1.22.15:将所述多轮对话的结果的编码信息与N个小类原型向量进行相似度计算,得到N个相似度值;一般采用余弦相似度函数进行计算;
步骤S2.1.22.16:将所述N个相似度值转换为每个类别以及每个类别的对应概率。
其转换方法通过一个Softmax函数完成,转换函数为
Figure RE-GDA0003536111570000171
zi为第 i个节点的输出值,C即为N个相似度的值,得出的值即为每个类别的概率。
其他主流的分类模型,其做法一般是让模型在最后一层输出一个固定维度的向量。例如一篇文章可能有金融、体育、娱乐等三个类别,那么给模型输入一篇文章,输出的结果就是类似[0.5,0.3,0.2]这样的向量,向量里的三个数分别表明文章属于金融、体育、娱乐的概率。
但是本申请的原型网络分类模型是不同的,他的本质是计算用户的输入和“原型”的距离。模型会基于提供的不同小类txt文件中的各条文本,为每个小类抽取一个“原型”向量,并且在新加入一个新的小类txt文件之后,次执行分类函数时,模型会自动将新小类的原型给抽出来,加入到原来的“原型”集合中。
图8所示,则很容易就知道,如果相加一个新的分类,那么就加一个txt文件,让模型自动使用txt文件里的文本抽一个“原型”,然后分类过程中多做一次相似度计算就好了,这就是“不用重新训练就可以添加新分类”的原理。
所述N个小类原型向量,如图9、图17所示,其构造过程如下:
步骤S100:读取N个小类的txt文件;
步骤S101:将所述N个小类的txt文件转化为N个小类的json文件;
步骤S102:使用所述N个小类的json文件进行原型抽取,得到N个小类原型向量。
仅将所需要的小类的txt文件处理为json文件(这个过程非常快,仅仅就是一个分词的过程,所需时间约一毫秒),处理后的json文件放到特定文件夹下,然后让模型读json文件的时候从特定文件夹下读取。(关于处理成json的函数,本算法已经进行了封装,简单修改后即可实现“读取特定的txt”以及“将形成的json存储到特定位置下”)
原型向量是通过改进的求解公式进行原型抽取的,距离公式d(s1-s2)= (s1-s2)2修改为d(s1-s2)=z1(s1-s2)2,所以在计算距离的时候需要先根据原型向量通过卷积计算一个向量Zi(如图11),然后计算距离。
将求解原型的公式从修改为其中定义为
Figure RE-GDA0003536111570000181
修改为
Figure RE-GDA0003536111570000182
对于关系i,其样本数量为ni,其原型的特征向量为ci,j表示第i个关系中第j个样本(1≤j≤ni),αj表示第j个样本的权重,
Figure RE-GDA0003536111570000183
表示第i个关系中第j个样本经过编码后得到的特征向量。
其中,αj定义为
Figure RE-GDA0003536111570000191
Figure RE-GDA0003536111570000192
其中,aj由Softmax函数得到(ej作为相应的参数);x为样本的特征向量, g(·)是一个线性层,是元素的乘积,σ(·)是一个激活函数,本申请选择tanh 作为σ(·),sumf·g是向量所有元素的和。
公式d(s1-s2)=(s1-s2)2修改为d(s1-s2)=z1(s1-s2)2,d表示两个样本的距离函数,s表示样本的特征向量。
如图11,特征级注意力提取器流程如下,输入为K个样本的特征向量,然后通过一个三层的卷积网络。第一层是32个channel的卷积层,第二层是64个 channel的卷积层,第三层是一个channel的卷积层,保证结果为一个独立的向量。中间的激活函数均采用常用的Relu函数,经过这样一个简单的三层网络即可得到一个基于稀疏特征的注意力向量Zi
词向量相似度对比模型效果要远远差于原型网络分类模型,但是增加这个模型,可以形成一种和原型网络分类模型互补的局面,有的时候原型网络模型没能够预测好,那么用这个词向量对比模型就可以对原型网络模型的预测结果进行补充。而由于这个模型在大多数时候预测效果都不太好,所以本申请只给他了很小的权重。
所述将多轮对话的结果输入到词向量相似度对比模型,得到第二结果,如图 10、图18所示,其过程步骤如下:
步骤S2.1.22.21:将场景库中实际场景数据分成S个类别;所述场景库中保存所有场景的集合。
步骤S2.1.22.22:对每个类别以类名为关键词,分别对应一个关键词向量K;
步骤S2.1.22.23:同时对每个类别中的语句进行分词、去除停用词,得到词向量,将词向量相加取平均值,得到每个类别的标志向量V;这里的词向量通过 word2vec词向量模型完成的向量转换。
步骤S2.1.22.24:将问题向量Q分别与关键词向量K和标志向量V进行相似度计算,得到第一相似度计算结果与第二相似度计算结果;问题同样通过word2vec词向量模型进行向量化。
步骤S2.1.22.25:将所述一相似度计算结果与第二相似度计算结果进行加权求和,最后得到每个类别的对应概率;
步骤S2.1.22.26:所述每个类别以及每个类别的对应概率为第二结果。
当场景库中的数据更新时,及时对词向量相似度对比模型w2vModel进行更新,当场景库中的数据更新较多时,及时对原型网络模型进行重新训练,可以提高原型网络模型的准确率。
其相似度计算公式如下:
Figure RE-GDA0003536111570000201
其中,A和B代表两个特征向量。如图10所示,最后进行加权求和最后得到该类别上的概率p1′,通过这样的方法,每个类别都有对应的概率p2′,…,pN′,作为w2vModel的输出。
本申请实施例实验示例:
硬件环境:Linux服务器,配置为GPU:GTX1080Ti*4,CPU:Intel(R)Xeon(R) CPUE5-2678。
软件环境:服务器系统为Ubuntu 16.04.5,Python版本号为3.6,CUDA版本为10.2。所需环境依赖如表8所示。
表8环境依赖表
Figure RE-GDA0003536111570000202
数据集分为用于原型网络训练、词向量训练的训练数据集,实际场景中应用的场景数据集,模型效果测试的测试数据集。
包含46个类别的法律咨询数据集,文件名为类别名,txt格式,且每个类别中的样本数不少于100条,均为用户咨询的语句,具有较强的口语化。具体形式如表9所示:
表9训练数据集格式
Figure RE-GDA0003536111570000211
在不同的大环境下,有着不同的场景数据集,以下提供某个大环境的数据集格式。初始总计25个类别,每个类别的样本数不少于20条,实际应用时可以对场景的类别进行增删,支持对场景内容的合并,例如“工伤赔偿”、“工伤认定”合并为“工伤”类别,同时又有能够明显区别于具体法律场景的“闲聊”数据集,具体格式如下:
表10场景数据集格式
Figure RE-GDA0003536111570000212
测试数据集用于对模型效果的测试,具体格式与场景数据集相似,且测试数据集中的类别必须要对应场景数据集中的类别,但没有样本条数的限制。
第二方面,本申请提出一种基于阅读理解和意图识别模型的法律文书生成系统,如图19所示,包括:数据获取模块、要素获取模块、场景获取模块、多轮对话模块、意图识别模块、文书生成模块;
所述数据获取模块、要素获取模块、场景获取模块、多轮对话模块、意图识别模块、文书生成模块依次顺序相连接,所述要素获取模块与意图识别模块分别与所述文书生成模块相连接;
所述数据获取模块用于获取长段文字陈述;
所述要素获取模块用于将所述长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素;
所述场景获取模块用于将所述初轮法律要素与所述法律要素库进行对比,得到咨询者想要咨询的法律场景;
所述多轮对话模块用于根据法律场景获取遗漏要素,根据所述遗漏要素与咨询者发起多轮对话,得到多轮对话的结果;
所述意图识别模块用于将多轮对话的结果输入到意图识别模型中,得到意图识别结果;
所述文书生成模块用于根据意图识别结果以及初轮法律要素进行推理决策,自动生成法律咨询意见书或者合同文书。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (10)

1.一种基于阅读理解和意图识别模型的法律文书生成方法,其特征在于,包括如下步骤:
获取长段文字陈述;
将所述长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素;
将所述初轮法律要素与所述法律要素库进行对比,得到咨询者想要咨询的法律场景;
根据法律场景获取遗漏要素,根据所述遗漏要素与咨询者发起多轮对话,得到多轮对话的结果;
将多轮对话的结果输入到意图识别模型中,得到意图识别结果;
根据意图识别结果以及初轮法律要素进行推理决策,自动生成法律咨询意见书或者合同文书。
2.如权利要求1所述的基于阅读理解和意图识别模型的法律文书生成方法,其特征在于,所述将所述长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素,包括如下步骤:
将所述长段文字陈述分别输入到抽取式阅读理解与选择题型阅读理解模型,分别得到抽取式阅读理解答案以及选择题型阅读理解答案;
将所述抽取式阅读理解答案以及选择题型阅读理解答案作为初轮法律要素。
3.如权利要求2所述的基于阅读理解和意图识别模型的法律文书生成方法,其特征在于,所述将所述长段文字陈述输入到抽取式阅读理解模型,得到抽取式阅读理解答案,步骤如下:
将所述长段文字陈述与问题进行拼接,并且统一到固定长度,得到固定长度的拼接后结果;
使用BERT预训练模型对所述固定长度的拼接后结果进行编码,并提取出编码后的特征向量;
将所述编码后的特征向量输入抽取式阅读理解模型的分类器当中,并最终计算出各个位置的逻辑值;
根据所述逻辑值,通过softmax函数选择出抽取式阅读理解答案。
4.如权利要求3所述的基于阅读理解和意图识别模型的法律文书生成方法,其特征在于,所述BERT预训练模型采用迁移学习的策略训练模型,包括两个阶段,使用两种数据集进行训练,并且两种数据集均带标注;在第一阶段,只使用第一数据集进行训练,得到第一BERT预训练模型以及第一模型权重;在第二阶段,将所述第一模型权重作为第二BERT预训练模型的初始权重;再使用第二数据集与一部分第一数据集再次进行训练,得到最终的BERT预训练模型。
5.如权利要求2所述的基于阅读理解和意图识别模型的法律文书生成方法,其特征在于,所述将所述长段文字陈述输入到选择题型阅读理解模型,得到选择题型阅读理解答案,步骤如下:
将所述长段文字陈述与问题进行拼接,并且统一到固定长度,得到固定长度的拼接后结果;
使用ALBERT预训练模型对所述固定长度的拼接后结果进行编码,并提取出编码后的特征向量;
将所述编码后的特征向量输入阅读理解模型的分类器当中,并最终计算出各个位置的逻辑值;
根据所述逻辑值,通过softmax函数选择出选择题型阅读理解答案;
设置一个阈值T,判断阈值T与最大的逻辑值和次大的逻辑值的差值的大小;
若最大的逻辑值和次大的逻辑值的差值不大于阈值T,则认为得到的选择题型阅读理解答案为UNKNOW答案;
若最大的逻辑值和次大的逻辑值的差值大于阈值T,则直接输出所述选择题型阅读理解答案。
6.如权利要求3或5所述的基于阅读理解和意图识别模型的法律文书生成方法,其特征在于,所述抽取式阅读理解模型的分类器,具体为一个维度为2×d的线性分类器,其中,d为隐层状态维度;所述阅读理解模型的分类器设置为两个全连接层,第一个全连接层是维度为d×d的带有tanh激活函数的线性层;第二个全连接层是维度为d×1的没有激活函数的线性层。
7.如权利要求1所述的基于阅读理解和意图识别模型的法律文书生成方法,其特征在于,所述将多轮对话的结果输入到意图识别模型中,得到意图识别结果,步骤如下:
所述将多轮对话的结果分别输入到基于混合注意力机制的原型网络模型与词向量相似度对比模型,分别得到第一结果与第二结果;
将第一结果与第二结果进行加权求和,得到最终的结果,所述第一结果、第二结果与最终的结果均包含类别及其对应的概率;
将所述最终的结果进行排序,依次返回排序后的类别及其对应的概率。
8.如权利要求7所述的基于阅读理解和意图识别模型的法律文书生成方法,其特征在于,所述将多轮对话的结果输入到基于混合注意力机制的原型网络模型,得到第一结果,其过程步骤如下:
将所述多轮对话的结果进行标识,分别标识为文字嵌入与位置嵌入;
将所述文字嵌入与位置嵌入进行拼接;
将拼接结果输入到CNN网络,并进行最大池化,输出的最大池化的结果即为所述多轮对话的结果的编码信息;
将所述编码信息输入所述支持集,采用改进的求解公式提取特征,得到N个小类原型向量;
将所述多轮对话的结果的编码信息与N个小类原型向量进行相似度计算,得到N个相似度值;
将所述N个相似度值转换为每个类别以及每个类别的对应概率。
9.如权利要求7所述的基于阅读理解和意图识别模型的法律文书生成方法,其特征在于,所述将多轮对话的结果输入到词向量相似度对比模型,得到第二结果,其过程步骤如下:
将场景库中实际场景数据分成S个类别;
对每个类别以类名为关键词,分别对应一个关键词向量K;
同时对每个类别中的语句进行分词、去除停用词,得到词向量,将词向量相加取平均值,得到每个类别的标志向量V;
将问题向量Q分别与关键词向量K和标志向量V进行相似度计算,得到第一相似度计算结果与第二相似度计算结果;
将所述一相似度计算结果与第二相似度计算结果进行加权求和,最后得到每个类别的对应概率;
所述每个类别以及每个类别的对应概率为第二结果。
10.一种基于阅读理解和意图识别模型的法律文书生成系统,其特征在于,包括:数据获取模块、要素获取模块、场景获取模块、多轮对话模块、意图识别模块、文书生成模块;
所述数据获取模块、要素获取模块、场景获取模块、多轮对话模块、意图识别模块、文书生成模块依次顺序相连接,所述要素获取模块与意图识别模块分别与所述文书生成模块相连接;
所述数据获取模块用于获取长段文字陈述;
所述要素获取模块用于将所述长段文字陈述输入到长文本阅读理解模型,得到初轮法律要素;
所述场景获取模块用于将所述初轮法律要素与所述法律要素库进行对比,得到咨询者想要咨询的法律场景;
所述多轮对话模块用于根据法律场景获取遗漏要素,根据所述遗漏要素与咨询者发起多轮对话,得到多轮对话的结果;
所述意图识别模块用于将多轮对话的结果输入到意图识别模型中,得到意图识别结果;
所述文书生成模块用于根据意图识别结果以及初轮法律要素进行推理决策,自动生成法律咨询意见书或者合同文书。
CN202111501714.7A 2021-12-09 2021-12-09 基于阅读理解和意图识别模型的法律文书生成方法及系统 Pending CN114297342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111501714.7A CN114297342A (zh) 2021-12-09 2021-12-09 基于阅读理解和意图识别模型的法律文书生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111501714.7A CN114297342A (zh) 2021-12-09 2021-12-09 基于阅读理解和意图识别模型的法律文书生成方法及系统

Publications (1)

Publication Number Publication Date
CN114297342A true CN114297342A (zh) 2022-04-08

Family

ID=80967934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111501714.7A Pending CN114297342A (zh) 2021-12-09 2021-12-09 基于阅读理解和意图识别模型的法律文书生成方法及系统

Country Status (1)

Country Link
CN (1) CN114297342A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080723A (zh) * 2022-08-23 2022-09-20 云南师范大学 一种阅读理解问题的自动生成方法
CN115169368A (zh) * 2022-09-07 2022-10-11 北京沃丰时代数据科技有限公司 基于多文档的机器阅读理解方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080723A (zh) * 2022-08-23 2022-09-20 云南师范大学 一种阅读理解问题的自动生成方法
CN115169368A (zh) * 2022-09-07 2022-10-11 北京沃丰时代数据科技有限公司 基于多文档的机器阅读理解方法及装置
CN115169368B (zh) * 2022-09-07 2022-11-29 北京沃丰时代数据科技有限公司 基于多文档的机器阅读理解方法及装置

Similar Documents

Publication Publication Date Title
CN111046132A (zh) 一种检索多轮对话的客服问答处理方法及其系统
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
Rahman et al. Personality detection from text using convolutional neural network
CN112417894B (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
Zhou et al. Sentiment analysis of text based on CNN and bi-directional LSTM model
Herwanto et al. Hate speech and abusive language classification using fastText
CN114297342A (zh) 基于阅读理解和意图识别模型的法律文书生成方法及系统
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN112818106A (zh) 一种生成式问答的评价方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
Arora et al. Comparative question answering system based on natural language processing and machine learning
Diao et al. Multi-granularity bidirectional attention stream machine comprehension method for emotion cause extraction
CN114328866A (zh) 应答流畅准确的强拟人化智能对话机器人
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统
Posokhov et al. Personalizing dialogue agents for Russian: retrieve and refine
Jayaraman et al. Sarcasm Detection in News Headlines using Supervised Learning
CN115409011A (zh) 一种基于动态提示学习的小样本嵌套关系抽取方法
Ling Coronavirus public sentiment analysis with BERT deep learning
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
Vasquez-Correa et al. One system to rule them all: A universal intent recognition system for customer service chatbots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination