CN112417155B - 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 - Google Patents
基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 Download PDFInfo
- Publication number
- CN112417155B CN112417155B CN202011357566.1A CN202011357566A CN112417155B CN 112417155 B CN112417155 B CN 112417155B CN 202011357566 A CN202011357566 A CN 202011357566A CN 112417155 B CN112417155 B CN 112417155B
- Authority
- CN
- China
- Prior art keywords
- model
- sentence
- text
- court trial
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000010586 diagram Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 20
- 239000010410 layer Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 239000002356 single layer Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000010076 replication Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于指针‑生成Seq2Seq模型的庭审询问生成方法、装置、介质。该方法包括:S1:构建庭审质询文本生成框架中辅助特征提取模块的训练样本;S2:通过训练得到从句子映射到分类标签的字符级卷积神经网络模型作为第一模型;S3:使用S2中训练的第一模型对训练生成框架的输出文本进行逐句分类和信息精简;S4:基于指针‑生成器网络架构,构建并训练结合文本序列和标签特征的端到端Seq2Seq文本生成模型作为第二模型;S5:基于第一模型和第二模型,对输入文本进行端到端的庭审质询性问题自动生成。本发明可基于不同案件的起诉与答辩文本乃至部分庭审对话记录,结合由专家提供的类案判案逻辑,生成可供参考的庭审法官质询性问题,从而辅助法官判案。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于“指针-生成”Seq2Seq模型并结合额外特征的庭审质询性问题生成方法。
背景技术
在司法文档和庭审对话处理任务中,传统的目标往往是以基于神经网络的分类和预测任务为主,例如案件性质分类、领域分类、法律文档分类,以及罪名预测等,同时也不乏一些Seq2Seq的生成任务,例如争议焦点的挖掘、法律文本摘要生成。其中分类任务已经发展得比较成熟,但是实用价值比较局限,主要集中在文本分类、案件归档工作之中。基于卷积神经网络的多分类任务,在上一个十年中可以说是人工智能领域的主流任务,然而随着模型精度和应用领域都趋于饱和,这种较为平常的技术无法单独开辟新的应用场景,只能在一定程度上减轻人类的重复劳动。而以Seq2Seq为蓝本的文本生成任务的优化则主要集中在其三个模块:编码器、解码器和注意力机制上,单独就此传统框架进行质的提升较为困难,所以许多新模型,如性能非常强悍的BERT、GPT-2等模型均选择采用transformer解码器架构,并使用超大规模的数据集进行预训练;而针对仅能使用Seq2Seq的细分垂直领域任务而言,若能将已经完全成熟的有监督学习的分类任务作为端到端生成框架的辅助特征,理论上将带来相对稳定可控的性能提升。
庭审提问是按照一定的诉讼流程和审判流程进行的,其中涉及到大量逻辑分支和取舍问题。如果单纯依靠端到端的文本生成技术,虽然可以获得语义通顺的问题或者对话,但是未必能够贴合真实的庭审流程和逻辑,且各个问题并没有很明确的指向。在某些细分领域已经拥有了详细的判案逻辑图或知识图,借助依赖预训练词向量的单词级别的文本分类技术,甚至是不需要依赖特定垂直领域的预训练词向量,直接构建词表的字符级别文本分类技术,可以较为准确地把生成任务的输入文本映射到逻辑图或知识图中,利用节点之间的顺序和逻辑关系提取出需要生成的问题的判案逻辑特征。在attention机制和拷贝/生成判断机制的辅助训练下,逻辑特征和原始文本结合将带来更贴合真实逻辑、指向性更明确的问题内容。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于“指针-生成”Seq2Seq模型并结合额外特征的庭审质询性问题生成方法。
本发明的发明构思是:从庭审笔录中获取语句和标签,构建庭审质询文本生成框架中辅助特征提取模块的训练样本;使用该样本进行训练,得到从句子映射到标签的字符级卷积神经网络模型即文本分类模型;使用上述模型对训练生成框架的输出文本进行逐句分类和信息精简;基于指针-生成器网络架构,构建并训练结合文本序列和标签特征的端到端Seq2Seq文本生成模型;通过输入文本,构建逻辑图树状结构并用分类结果激活和排除节点,获取生成辅助特征,最后进行端到端的庭审询问(即庭审质询中法官的询问问题)生成。
为实现上述发明目的,本发明具体采用的技术方案如下:
第一方面,本发明提供了一种基于指针-生成Seq2Seq模型的庭审询问生成方法,其包括如下步骤:
S1:从庭审笔录中获取语句和标签,构建庭审质询文本生成框架中辅助特征提取模块的训练样本;
S2:使用已经构建的训练样本进行训练,得到从句子映射到分类标签的字符级卷积神经网络模型,作为第一模型;
S3:为了辅助生成任务,使用S2中训练的第一模型对输入文本进行逐句分类和信息精简;
S4:基于指针-生成器网络架构,构建并训练结合文本序列和分类标签特征的端到端Seq2Seq文本生成模型,作为第二模型;
S5:基于训练完成的第一模型和第二模型,由第一模型生成辅助的额外特征,再由第二模型结合输入文本和额外特征进行端到端的庭审质询性问题自动生成。
在上述方案基础上,各步骤可以采用如下优选的具体方式实现。
作为优选,所述S1的具体步骤包括:
S101:从有层级标签的庭审笔录数据中获取用于自动要素标注的句子集合并表示为S={S1,S2,S3,...,SN′},其中N′为句子集合中的句子样本数目,Si′表示第i′个句子,i′∈{1,…,N′};
S102:针对字符级别的句子分类模型,构建词汇表,且将每个单词解码成使用utf-8编码作为id,句子分类模型的标签共有M类,且使用One-hot编码表示;
S105:对于文本特征提取而言,每个用来训练的语句训练样本被表示为二元组(Si′,Yi′)。
进一步的,所述S2的具体步骤包括:
S201:构建用于文本分类的字符级卷积神经网络模型,其中首先使用一层一维卷积模块提取句子中字符级别的特征,再经过一维的最大池化层,从不同长度的句子文本中获得一个定长的k维向量Li′表示句子中字符级别的特征;最后使用一层全连接层将特征向量Li′映射为M维,使用Softmax激活函数输出M类标签中每个句子类别的概率;
S202:通过最小化交叉熵损失函数,对所述字符级卷积神经网络模型进行训练,作为第一模型。
进一步的,所述S3的具体步骤包括:
S301:获取用于训练生成任务的输入文本,包括:裁判文书集合R={R1,R2,R3,...,RN}和庭审笔录集合T={T1,T2,T3,...,TN},其中N为训练集中的案件数目,Ri表示第i个案件的裁判文书,Ti表示第i个案件的庭审笔录;庭审笔录Ti为由n个句子组成的问题集合其中表示第i个案件的庭审笔录中第j个问题,i∈{1,…,N},j∈{1,…,n};
S302:把庭审笔录Ti中的句子集合S′i输入所述第一模型进行逐句分类,输出分类结果集合 表示第j个问题句子的分类;对于同一庭审的问题集合Si当中类别相同的句子,计算与逻辑要素关联度最高的句子作为对应的训练输出,其余句子不输出,使第i个案件的庭审问题集合S′i被精简为其中不确定量r为第i个案件庭审涉及到的逻辑要素总数即分类标签总数,对应逻辑要素集合为
进一步的,所述S302中,句子与逻辑要素之间的关联度使用BM25文本相似度算法计算。
进一步的,所述S4的具体步骤包括:
S401:获取端到端生成任务的训练数据集,其中:对于训练过程而言,输入文本“原告诉称”和“被告辩称”是从裁判文书集合R={R1,R2,R3,...,RN}使用正则表达式匹配抽取的对应部分;辅助特征来自逻辑要素集合 对应于法官质询性问题的输出文本对应来自这些标签的文本集合用于训练生成模型的数据共有条,其中ri表示第i个案件对应的不确定量r;
S402:把每个案件的输入文本分别与对应的逻辑要素拼接,得到组作为输入的词向量序列;利用单层双向LSTM对拼接的文本上下文信息进行记忆,再利用双向LSTM作为编码器,输入上下文处理后的信息序列,输出编码后的隐藏状态序列,实现基本的信息融合。
S403:使用单层单向LSTM作为解码器,对案件的输入文本编码后的隐藏状态序列做解码,使得神经网络在序列到序列框架下能够生成庭审质询性问题;其中:
在解码器的每一个时间步t,计算解码器隐藏单元st在输入文本上的注意力aij;并通过加权的编码器隐藏状态计算上下文向量ct,其表示了与时间步t相关的源文本信息;
结合解码器隐藏单元st和上下文向量ct,计算时间步t的生成词概率分布pvocab=softmax(Linear([st,ct])),其中Linear(·)表示线性层运算;利用“指针-生成器”机制解决OOV问题,预测标量pgen代表从词表中生成的概率,对应的复制概率为1-pgen,并结合pvocab得到最终的生成结果概率:
S404:以S402中的编码器和S403中的解码器构建端到端Seq2Seq文本生成模型,通过最小化整体损失函数对其进行训练,得到第二模型;所述整体损失函数为:
进一步的,所述S5的具体步骤包括:
S501:将诉讼请求逻辑图tl以树形结构存储;
S502:获取原始文本记为Torigin,该文本包括起诉书、答辩状、庭审当前已进行的历史对话;对原始文本Torigin中的整段文字,利用标点符号匹配规则进行分句操作,得到输入句子集合Sinput;
S503:将输入句子集合Sinput中的句子输入至S2中得到的第一模型中,获得输出结果的逻辑标签集合La;
S504:对逻辑图tl进行广度优先搜索,激活逻辑图上La对应的所有节点;标记激活节点的兄弟节点以及激活节点的子节点,将标记的节点集合Lf作为辅助后续文本生成的额外特征;
S505:将原始文本Torigin分别结合标记的节点集合Lf输入S4中得到的第二模型中,模型的解码输出即为生成的庭审质询性问题。
进一步的,所述诉讼请求逻辑图为以图表形式呈现的诉讼请求的判定逻辑,图中的节点nodei包含自身的值、节点的激活逻辑以及子节点激活状态,所述节点代表事实要素,所述激活逻辑包括“与”和“或”两种;树形结构中的节点总数为c。
第二方面,本发明提供了一种基于指针-生成Seq2Seq模型的庭审询问生成装置,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如第一方面中任一项方案所述的基于指针-生成Seq2Seq模型的庭审询问生成方法。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如第一方面中任一项方案所述的基于指针-生成Seq2Seq模型的庭审询问生成方法。
本发明与背景技术相比,具有的有益的效果是:
本发明针对具有专家知识的限定领域的案件庭审辅助任务,提出了一种基于“指针-生成”Seq2Seq模型并结合额外特征的庭审质询性问题生成方法。该方法从实际应用角度出发,主要局限性仅为依赖于限定领域的专家标注的少量庭审数据和判案流程知识图,对专家知识进行了充分的利用,也充分发挥了成熟的简单模型对于复杂任务的稳定辅助作用。基于本发明,在进行仅依赖于输入文本的端到端庭审提问生成任务时,能够兼顾判案逻辑的完善性和生成文本的指向性,更加贴近案件本身,而非单纯依赖模板生成。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种基于“指针-生成”Seq2Seq模型并结合额外特征的庭审质询性问题生成方法流程图。
图2是本发明实施例提供的模型架构以及流程图。
图3是本发明实施例提供的诉讼逻辑图(该图仅展示了整图的局部,用于展示图的形式,图中文字可忽略)。
图4是本发明实施例提供的生成样例展示与分析图表。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了解决现有技术中存在的问题,本发明实施例提供了一种基于“指针-生成”Seq2Seq模型并结合额外特征的庭审质询性问题生成方法,该方法对法律文书以及庭审对话进行切割以获取输入语句集合;使用基于CNN(卷积神经网络)的文本分类模型,利用司法数据集——庭审笔录数据集对该文本集合进行标注,得到激活逻辑序列;将专家提供的诉讼请求判项逻辑图存储于合理的、可复用的数据结构,利用逻辑序列在逻辑图上进行匹配,得到待生成问题的要素逻辑图;将文本与逻辑利用LSTM(长短期记忆网络)进行上下文信息记忆和序列信息融合,作为输入序列馈送至Seq2Seq生成模型。在文本生成模型的训练集获取上,本方法综合利用了BM25和余弦相似度等方法获取每场庭审中与各个逻辑节点最相关的数据作为训练标签,以达到最佳的训练效果。本发明可以基于不同案件的起诉与答辩文本乃至部分庭审对话记录,结合由专家提供的类案判案逻辑,生成可供参考和使用的庭审法官质询性问题,从而辅助法官判案,提升庭审智能化水平。
如图1所示,在本发明的一个较佳实施例中,基于指针-生成Seq2Seq模型的庭审询问生成方法包括如下具体步骤:
S1:从庭审笔录中获取语句和标签,构建庭审质询文本生成框架中辅助特征提取模块的训练样本;
S2:使用已经构建的训练样本进行训练,得到从句子映射到分类标签(即逻辑节点)的字符级卷积神经网络模型,作为第一模型;
S3:为了辅助生成任务,使用S2中训练的第一模型对输入文本进行逐句分类和信息精简,使庭审笔录中标签到语句的一对多银蛇被精简至一对一映射;
S4:基于指针-生成器网络架构(即指针生成网络Pointer-Generator-Network),构建并训练结合文本序列和分类标签特征的端到端Seq2Seq文本生成模型,作为第二模型;
S5:基于训练完成的第一模型和第二模型,通过输入文本进行端到端的庭审询问生成。此处,输入文本先在第一模型中进行分句和逻辑图标签映射,再利用原始输入文本结合待提问逻辑节点中的不同标签生成结果,即庭审询问问题。
本发明的上述S1~S5的实现方法,在进行仅依赖于输入文本的端到端庭审提问生成任务时,能够兼顾判案逻辑的完善性和生成文本的指向性,更加贴近案件本身,而非单纯依赖模板生成。在本实施例中,上述各步骤可以通过以下具体方式实现。
本实施例中,步骤S1的具体子步骤包括:
S101:从有层级标签的庭审笔录数据中获取用于自动要素标注的句子集合并表示为S={S1,S2,S3,...,SN′},其中N′为句子集合中的句子样本数目,Si′表示第i′个句子,i′∈{1,…,N′};
S102:针对字符级别的句子分类模型,构建词汇表,且将每个单词解码成使用utf-8编码作为id,句子分类模型的标签共有M类,且使用One-hot编码表示;
S105:对于文本特征提取而言,每个用来训练的语句训练样本被表示为二元组(Si′,Yi′),i∈{1,…,N},Yi是句子Si对应的可训练标签。
本实施例中,步骤S2的具体子步骤包括:
其中偏移常数c=k-d+1。
经过卷积模块提取后,再经过一维的最大池化层(Max Pooling),从不同长度的句子文本中获得一个定长的k维向量Li′表示句子中字符级别的特征;最后使用一层全连接层将特征向量Li′映射为M维,使用Softmax激活函数输出M类标签中每个句子类别的概率;
S202:通过最小化交叉熵损失函数,对所述字符级卷积神经网络模型进行训练,作为第一模型。
本实施例中,步骤S3的具体子步骤包括:
S301:获取用于训练生成任务的输入文本,包括:裁判文书集合R={R1,R2,R3,...,RN}和庭审笔录(提问)集合T={T1,T2,T3,...,TN},其中N为训练集中的案件数目,Ri表示第i个案件的裁判文书,Ti表示第i个案件的庭审笔录;庭审笔录Ti为由n个句子组成的问题集合其中表示第i个案件的庭审笔录中第j个问题,i∈{1,…,N},j∈{1,…,n};
S302:把庭审笔录Ti中的句子集合S′i输入所述第一模型进行逐句分类,输出分类结果集合 表示第j个问题句子的分类;对于同一庭审的问题集合Si当中类别相同的句子,计算与逻辑要素关联度最高的句子作为对应的训练输出,其余句子不输出,使第i个案件的庭审问题集合S′i被精简为其中不确定量r为第i个案件庭审涉及到的逻辑要素总数即分类标签总数,对应逻辑要素集合为参数r的实际取值需要根据被精简掉的具体句子数量而定,每一个案件均可能不同,因此将其称为不确定量,参数r为统称,具体到第i个案件的参数r可以记做ri。
在S302中,能够反映文本相似度的指标还有余弦相似度、结合IDF的余弦相似度、Jaccard系数等,而经过大量实验后,BM25相似度分数算法由于结果并非分布在0-1区间内,具有更好的区分度;且效果更贴近于基于关键词检索,而法律术语较为严谨,逻辑要素通常与实际口头表达出入不大,因此建议使用该算法基于关键词提取最相关语句,即句子与逻辑要素之间的关联度优选使用BM25文本相似度算法计算。BM25相似度分数由以下公式定义:
其中Q表示Query,qi表示Q解析之后的一个语素。对于中文而言,可以把对Query的分词作为语素分析,每个词看成语素qi;d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。
但若更倾向于选择语义关联性强的问题作为训练问题,则建议在准备好细分垂直领域的预训练词向量的基础上使用余弦相似度方法实施此步骤。
本实施例中,步骤S4的具体子步骤包括:
S401:获取端到端生成任务的训练数据集,其中包括以下数据类型:对于训练过程而言,输入文本“原告诉称”和“被告辩称”是从裁判文书集合R={R1,R2,R3,...,RN}使用正则表达式匹配抽取的对应部分;辅助特征来自逻辑要素集合对应于法官质询性问题的输出文本对应来自这些标签的文本集合最终,用于训练生成模型的数据共有条,其中ri表示第i个案件对应的不确定量r。
S402:把每个案件的输入文本分别与对应的逻辑要素拼接,得到组作为输入的词向量序列(即逻辑要素拼接过程中,对齐输出的训练问题共条)。再利用单层双向LSTM对拼接的文本(词向量序列)上下文信息进行记忆,得到处理后的信息序列,再利用双向LSTM作为编码器(encoder),输入上下文处理后的信息序列,输出编码后的隐藏状态序列,实现基本的信息融合。该编码器表达式如下,其中w1-w6是一组共享权值:
S403:使用单层单向LSTM作为解码器(decoder),对案件的输入文本编码后的隐藏状态序列做解码,使得神经网络在序列到序列框架下能够生成庭审质询性问题。其中解码器中的具体解码过程如下:
在解码器的每一个时间步t,计算解码器隐藏单元st在输入文本上的注意力aii;并通过加权的编码器隐藏状态计算上下文向量(context vector)ct,其表示了与时间步t相关的源文本信息;
结合解码器隐藏单元st和上下文向量ct,计算时间步t的生成词概率分布pvocab=sof tmax(Linear([st,ct])),其中Linear(·)表示线性层运算;利用“指针-生成器”机制解决词表之外的词(Out-of-vocabulary,OOV)可能产生的问题,预测标量pgen代表从词表中生成的概率,对应的复制概率为1-pgen,并结合pvocab得到最终的生成结果概率:
上述以S402中的编码器和S403中的解码器,实际上构成了一个端到端Seq2Seq文本生成模型。在该构建模型中,含有注意力(attention)机制,即针对原文的概率分布预测法律文书中的词汇重要性。由于encoder中的隐藏状态序列为(h1,h2,...,hT),decoder的解码状态序列为(s1,s2,...,sT),假设当前解码状态为st-1,计算每一个输入位置与当前输出位置的相关性,相关性ut使用求和方式表示如下:
ut=vTtanh(W1hi+W2st+b)
其中向量v、两个权重W1、W2以及b均为学习参数;利用softmax将该相关性映射到标准分布空间,并利用此分布对encoder的隐藏状态做加权平均获得上下文向量ct:
at=softmax(ut)
另外,在该端到端Seq2Seq文本生成模型中,为避免重复生成(如在一句庭审询问中重复出现争议焦点),利用覆盖向量ct即先前所有预测attention分布之和,影响当前步骤的attention运算,即将前述的相关性ut公式进一步完善为:
再者,在该构建模型中加入“指针-生成器”机制该模型,是为了能够合理拷贝裁判文书和庭审记录中的人名等实体名称、涉案金额、相关日期等词表外词汇(OOV)。生成概率pgen在该Seq2Seq模型中决定各个生成位置从词表生成或从源文本复制的概率(其中xt为解码器输入):
利用该概率分别对词表概率Pvocab(w)和注意力分布进行加权,获取新的(扩展)词表概率分布:
该公式即对应于前述S403中的最终生成结果概率计算公式。
S404:以S402中的编码器和S403中的解码器构建的端到端Seq2Seq文本生成模型,通过最小化整体损失函数对其进行训练,得到第二模型。其中该整体损失函数在构建时,需从目标词出发,在训练过程中时间步长t内的损失losst是目标词的损失。因此最终整个序列的整体损失函数定义为:
本发明的上述第一模型采用卷积神经网络模型,第二模型采用循环神经网络与注意力机制结合的序列生成模型。
本实施例中,步骤S5的具体子步骤包括:
S501:将法律专家以图表形式呈现的诉讼请求逻辑图tl以树形结构存储。
所谓的诉讼请求逻辑图是以图表形式呈现的诉讼请求的判定逻辑,反映了法官判断原告的诉讼请求是否成立的逻辑,该图可以由法学专家进行绘制。树形结构中的节点总数为c,图中的节点nodei包含自身的值、节点的激活逻辑以及子节点激活状态。每个节点代表事实要素,一个节点的激活状态由子节点的激活状态和该节点本身的激活方式决定;而激活逻辑包括“与”和“或”两种。当激活逻辑为“与”时,该节点的所有子节点均被激活时该节点才能被激活,当激活逻辑为“或”时,该节点的任意一个子节点被激活时该节点即可被激活。本实施例中设置的诉讼请求逻辑图参见图3所示,其中每个矩形代表一个逻辑要素,圆形代表激活逻辑为“或”,菱形代表激活逻辑为“与”。
S502:获取待自动生成庭审质询性问题的原始文本,记为Torigin,该文本包括起诉书、答辩状、庭审当前已进行的历史对话(庭审进行至某一时刻的历史对话);对原始文本Torigin中的整段文字(常出现于起诉书和答辩状),利用标点符号匹配规则进行分句操作,得到输入句子集合Sinput;
S503:将输入句子集合Sinput中的句子输入至S2中得到的第一模型中,获得输出结果的逻辑标签集合La(消除重复元素)。
S504:对逻辑图tl进行广度优先搜索,激活逻辑图上La对应的所有节点;标记激活节点的兄弟节点以及激活节点的子节点,将标记的节点集合Lf作为辅助后续文本生成的额外特征;
S505:将原始文本Torigin分别结合标记的节点集合Lf输入S4中得到的第二模型中,模型的解码输出即为生成的庭审质询性问题。
另外,在上述步骤S4中,输入前的双向LSTM信息融合步骤在部分任务场景可以省略。其原因是一般而言用于生成的输入文本较为简短精炼,编码步骤中的单层双向LSTM可以胜任信息表示的任务。但在特殊案例背景下,如输入文本较长,则建议增加一层双向LSTM的预处理步骤以更好地表示长文本上下文信息。
另外,在上述步骤S5中,当前逻辑图仅涉及民间借贷案件中的主要逻辑;同时,所述的方法中所提到的“文本”“数据集”均基于民间借贷案件。由于包含有监督学习模型,因此如需针对其他领域案件,则需要对应的数据集支持。
在另一实施例中,本发明还提供了一种基于指针-生成Seq2Seq模型的庭审询问生成装置,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如前述S1~S5所述的基于指针-生成Seq2Seq模型的庭审询问生成方法。
在另一实施例中,本发明还提供了一种计算机可读存储介质,其中存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如前述S1~S5所述的基于指针-生成Seq2Seq模型的庭审询问生成方法。
需要注意的是,存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然,还装置中还应当具有实现程序运行的必要组件,例如电源、通信总线等等。
下面将上述庭审质询性问题生成方法应用于具体的民间借贷案件问题生成实施例中,进行生成测试。具体的步骤如S1-S5所述,不再赘述,主要展示其具体的参数以及技术效果。
实施例
为了验证本发明的效果,验证方法在庭审问题生成中的效果。
按照前述S1~S5步骤的实现过程,首先获取可用于研究的真实庭审笔录及其对齐的层级标签数据,构建从语句到逻辑节点的文本分类器的训练样本。然后构造一个字符级卷积神经网络,送入庭审笔录和对应层级标签至该神经网络进行训练,得到第一模型,模型如图2部分所示。再对训练所需文本进行逐句分类,对庭审笔录中标签到语句的一对多映射精简至一对一映射,获取生成模型训练对。进而输入裁判文书中的核心内容原文拼接本案庭审的各个标签,以及这些标签对应的法官提问至第二模型,训练端到端的文本生成模型,模型如图2部分所示。最后,输入未处理的原始文本至第一模型进行分句和逻辑图标签(如图3所示)映射,再利用该原始文本结合待提问逻辑节点中的不同标签测试生成结果通顺性和差异性,如图4所示(为保护当事人隐私,人名做消隐处理)。为量化指标,选取约8万条测试集计算ROUGE和BLEU分数,并与在CNN-每日邮报数据集(注:该数据集进行过实体识别与预处理)上测试的“指针-生成器”原始网络作对比如表1所示。
表1生成效果量化评估图表
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (6)
1.一种基于指针-生成Seq2Seq模型的庭审询问生成方法,其特征在于,包括如下步骤:
S1:从庭审笔录中获取语句和标签,构建庭审质询文本生成框架中辅助特征提取模块的训练样本;
S2:使用已经构建的训练样本进行训练,得到从句子映射到分类标签的字符级卷积神经网络模型,作为第一模型;
S3:为了辅助生成任务,使用S2中训练的第一模型对输入文本进行逐句分类和信息精简;
S4:基于指针-生成器网络架构,构建并训练结合文本序列和分类标签特征的端到端Seq2Seq文本生成模型,作为第二模型;
S5:基于训练完成的第一模型和第二模型,由第一模型生成辅助的额外特征,再由第二模型结合输入文本和额外特征进行端到端的庭审质询性问题自动生成;
所述S1的具体步骤包括:
S101:从有层级标签的庭审笔录数据中获取用于自动要素标注的句子集合并表示为S={S1,S2,S3,...,SN′},其中N′为句子集合中的句子样本数目,Si′表示第i′个句子,i′∈{1,…,N′};
S102:针对字符级别的句子分类模型,构建词汇表,且将每个单词解码成使用utf-8编码作为id,句子分类模型的标签共有M类,且使用One-hot编码表示;
S105:对于文本特征提取而言,每个用来训练的语句训练样本被表示为二元组(Si′,Yi′);
所述S2的具体步骤包括:
S201:构建用于文本分类的字符级卷积神经网络模型,其中首先使用一层一维卷积模块提取句子中字符级别的特征,再经过一维的最大池化层,从不同长度的句子文本中获得一个定长的k维向量Li′表示句子中字符级别的特征;最后使用一层全连接层将特征向量Li′映射为M维,使用Softmax激活函数输出M类标签中每个句子类别的概率;
S202:通过最小化交叉熵损失函数,对所述字符级卷积神经网络模型进行训练,作为第一模型;
所述S3的具体步骤包括:
S301:获取用于训练生成任务的输入文本,包括:裁判文书集合R={R1,R2,R3,...,RN}和庭审笔录集合T={T1,T2,T3,...,TN},其中N为训练集中的案件数目,Ri表示第i个案件的裁判文书,Ti表示第i个案件的庭审笔录;庭审笔录Ti为由n个句子组成的问题集合其中表示第i个案件的庭审笔录中第j个问题,i∈{1,…,N},j∈{1,…,n};
S302:把庭审笔录Ti中的句子集合S′i输入所述第一模型进行逐句分类,输出分类结果集合 表示第j个问题句子的分类;对于同一庭审的问题集合Si当中类别相同的句子,计算与逻辑要素关联度最高的句子作为对应的训练输出,其余句子不输出,使第i个案件的庭审问题集合S′i被精简为其中不确定量r为第i个案件庭审涉及到的逻辑要素总数即分类标签总数,对应逻辑要素集合为
所述S4的具体步骤包括:
S401:获取端到端生成任务的训练数据集,其中:对于训练过程而言,输入文本“原告诉称”和“被告辩称”是从裁判文书集合R={R1,R2,R3,...,RN}使用正则表达式匹配抽取的对应部分;辅助特征来自逻辑要素集合 对应于法官质询性问题的输出文本对应来自这些标签的文本集合用于训练生成模型的数据共有条,其中ri表示第i个案件对应的不确定量r;
S402:把每个案件的输入文本分别与对应的逻辑要素拼接,得到组作为输入的词向量序列;利用单层双向LSTM对拼接的文本上下文信息进行记忆,再利用双向LSTM作为编码器,输入上下文处理后的信息序列,输出编码后的隐藏状态序列,实现基本的信息融合;
S403:使用单层单向LSTM作为解码器,对案件的输入文本编码后的隐藏状态序列做解码,使得神经网络在序列到序列框架下能够生成庭审质询性问题;其中:
在解码器的每一个时间步t,计算解码器隐藏单元st在输入文本上的注意力aij;并通过加权的编码器隐藏状态计算上下文向量ct,其表示了与时间步t相关的源文本信息;
结合解码器隐藏单元st和上下文向量ct,计算时间步t的生成词概率分布Pvocab=softmax(Linear([st,ct])),其中Linear(·)表示线性层运算;利用“指针-生成器”机制解决OOV问题,预测标量pgen代表从词表中生成的概率,对应的复制概率为1-Pgen,并结合Pvocab得到最终的生成结果概率:
S404:以S402中的编码器和S403中的解码器构建端到端Seq2Seq文本生成模型,通过最小化整体损失函数对其进行训练,得到第二模型;所述整体损失函数为:
2.如权利要求1所述的基于指针-生成Seq2Seq模型的庭审询问生成方法,其特征在于,所述S302中,句子与逻辑要素之间的关联度使用BM25文本相似度算法计算。
3.如权利要求1所述的基于指针-生成Seq2Seq模型的庭审询问生成方法,其特征在于,所述S5的具体步骤包括:
S501:将诉讼请求逻辑图tl以树形结构存储;
S502:获取原始文本记为Torigin,该文本包括起诉书、答辩状、庭审当前已进行的历史对话;对原始文本Torigin中的整段文字利用标点符号匹配规则进行分句操作,得到输入句子集合Sinput;
S503:将输入句子集合Sinput中的句子输入至S2中得到的第一模型中,获得输出结果的逻辑标签集合La;
S504:对逻辑图tl进行广度优先搜索,激活逻辑图上La对应的所有节点;标记激活节点的兄弟节点以及激活节点的子节点,将标记的节点集合Lf作为辅助后续文本生成的额外特征;
S505:将原始文本Torigin分别结合标记的节点集合Lf输入S4中得到的第二模型中,模型的解码输出即为生成的庭审质询性问题。
4.如权利要求3所述的基于指针-生成Seq2Seq模型的庭审询问生成方法,其特征在于,所述诉讼请求逻辑图为以图表形式呈现的诉讼请求的判定逻辑,图中的节点nodei包含自身的值、节点的激活逻辑以及子节点激活状态,所述节点代表事实要素,所述激活逻辑包括“与”和“或”两种;树形结构中的节点总数为c。
5.一种基于指针-生成Seq2Seq模型的庭审询问生成装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~4任一项所述的基于指针-生成Seq2Seq模型的庭审询问生成方法。
6.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~4任一项所述的基于指针-生成Seq2Seq模型的庭审询问生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357566.1A CN112417155B (zh) | 2020-11-27 | 2020-11-27 | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357566.1A CN112417155B (zh) | 2020-11-27 | 2020-11-27 | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417155A CN112417155A (zh) | 2021-02-26 |
CN112417155B true CN112417155B (zh) | 2022-06-10 |
Family
ID=74842719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011357566.1A Active CN112417155B (zh) | 2020-11-27 | 2020-11-27 | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417155B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609840B (zh) * | 2021-08-25 | 2023-06-16 | 西华大学 | 一种汉语法律判决摘要生成方法及系统 |
CN114818666B (zh) * | 2022-04-26 | 2023-03-28 | 广东外语外贸大学 | 一种汉语语法纠错的评估方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102094934B1 (ko) * | 2014-11-19 | 2020-03-31 | 한국전자통신연구원 | 자연어 질의 응답 시스템 및 방법 |
CN110298436B (zh) * | 2019-06-28 | 2023-05-09 | 乐山金蜜工业卫士服务股份有限公司 | 基于指针生成网络的数据到文本的生成模型 |
CN110889786A (zh) * | 2019-12-02 | 2020-03-17 | 北明软件有限公司 | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 |
CN111026880B (zh) * | 2019-12-08 | 2021-06-08 | 大连理工大学 | 基于联合学习的司法知识图谱构建方法 |
CN111402092B (zh) * | 2020-06-08 | 2020-09-15 | 杭州识度科技有限公司 | 一种基于多层次语义解析的法律法规检索系统 |
-
2020
- 2020-11-27 CN CN202011357566.1A patent/CN112417155B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112417155A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
TWI732271B (zh) | 人機對話方法、裝置、電子設備及電腦可讀媒體 | |
CN107122413B (zh) | 一种基于图模型的关键词提取方法及装置 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN111401077B (zh) | 语言模型的处理方法、装置和计算机设备 | |
WO2017092380A1 (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
CN106970910B (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
CN106844632B (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
Braud et al. | Multi-view and multi-task training of RST discourse parsers | |
CN111274394A (zh) | 一种实体关系的抽取方法、装置、设备及存储介质 | |
CN111767408A (zh) | 一种基于多种神经网络集成的因果事理图谱构建方法 | |
CN111967264B (zh) | 一种命名实体识别方法 | |
WO2024036840A1 (zh) | 基于主题增强的开放域对话回复方法及系统 | |
CN112417155B (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
Li et al. | A method for resume information extraction using bert-bilstm-crf | |
Engin et al. | Multimodal deep neural networks for banking document classification | |
Hua et al. | A character-level method for text classification | |
Wang et al. | A BERT-based named entity recognition in Chinese electronic medical record | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
Zhang et al. | Sentiment identification by incorporating syntax, semantics and context information | |
Nautiyal et al. | KCC QA latent semantic representation using deep learning & hierarchical semantic cluster inferential framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |