CN110442684A - 一种基于文本内容的类案推荐方法 - Google Patents

一种基于文本内容的类案推荐方法 Download PDF

Info

Publication number
CN110442684A
CN110442684A CN201910748469.6A CN201910748469A CN110442684A CN 110442684 A CN110442684 A CN 110442684A CN 201910748469 A CN201910748469 A CN 201910748469A CN 110442684 A CN110442684 A CN 110442684A
Authority
CN
China
Prior art keywords
vector
formula
model
layer
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910748469.6A
Other languages
English (en)
Other versions
CN110442684B (zh
Inventor
李玉军
韩均雷
王泽强
马宝森
张文真
邓媛洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Hisense Group Holding Co Ltd
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201910748469.6A priority Critical patent/CN110442684B/zh
Publication of CN110442684A publication Critical patent/CN110442684A/zh
Application granted granted Critical
Publication of CN110442684B publication Critical patent/CN110442684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文本内容的类案推荐方法,该方法分为预训练部分和微调部分,预训练部分采用transformer编码器作为主结构,训练了一个中文语言模型,从其他语料库中学习中文语言知识,获得了一个高质量的语言模型。微调部分三元组模型为框架,以预处理过的司法文书为训练数据,从司法领域中学习到更多的关于判决的知识,获得了一个比较好的文本向量表示。与传统基于关键字的类案推荐方法和基于单任务神经网络的类案推荐方法相比,本发明提出的基于内容的类案推荐方法效果更好,基于语义训练模型具有更好的鲁棒性,这表明本发明提出的方法是有效的、实用的。

Description

一种基于文本内容的类案推荐方法
技术领域
本发明涉及一种基于文本内容的类案推荐方法,属于司法与自然语言处理技术交叉技术领域。
背景技术
法律与人工智能的结合在一定程度上节省了人力,其中类案推荐是该领域内的一个重要课题,其目标是根据给定的犯罪事实描述,推荐若干篇与之相似的文书。其目的是为了给司法人员提供以往相似案例,以便于司法人员更加快速准确的确定该案件所犯罪名以及所依据的法条,还可以提供以往案例判决结果以供司法人员参考。近年来,国内外涌现出了很多关于人工智能与司法领域结合的成果,极大地提高了司法人员的办案效率。
随着人工智能技术以及相关检索技术的发展,利用人工智能与自然语言处理技术对司法裁判文书处理、分析、应用已经成为司法相关领域的热点。通过基于内容的类案推荐方法,可利用犯罪事实描述,针对现有的大规模裁判文书中包含的犯罪信息,进行高效准确的相关类案推荐,同时涉及到的中间结果可应用于其他方面,如预训练了一个中文语言模型,可通用于其他中文自然语言处理任务。基于类案推荐方法,可以给司法相关人员提供历史相似案件,为司法工作提供高效、有效的参考。
基于传统人工智能的类案推荐方法虽然在一定程度上实现了类案智能推荐。但是,传统人工智能方法根据犯罪事实描述利用远程标签进行模型训练,只利用了标签中含有的信息,而忽略了除了标签以外的其他信息,如犯罪情节信息。另外,由于长文本的信息处理本身就比较困难,长距离依赖问题没有被针对解决。所以,导致了模型效果一般,推荐的内容参差不齐,无法应用于实际工作。
因此,如何较好的处理长文本的长距离依赖问题,以及如何更好的更全面的提取出犯罪事实描述中所包含的信息,是现在要解决的重要问题。
发明内容
针对现有技术不足,本发明提供了一种基于文本内容的类案推荐方法,输入待匹配的案例描述,从数据库中推荐出若干与待匹配案例相似的以往案例;
本发明使用类似于LSTM的transformer编码器,提取语义信息,来提高类案推荐的效果。
术语解释:
1、双向transformer:一种类似于双向LSTM的序列编码器,能够更好的感知上下文信息,其原理是,位置i上的词语表示上下文所有的单词都相关,这意味着每个单词都是整句话或者整个文本的综合表示的结果,每个单词经过计算以后,原来的信息在新的表达中所占的比重,与其本身在整个文本当中所占的比重成正相关。
2、词映射:是指将每个单词经过一个与单词库一样大小的词向量映射表以后,将每个数字表示的单词转换为向量表示。
3、损失:是指模型预测出来的数值与标准数字经过某种函数计算出来的差异,一般的,我们希望这个差异越小越好,即预测值越接近标准值越好。
4、反向传播更新参数:是指根据损失,模型自动调整参数的过程。如预测值比标准值大,网络就会减小权重,预测值比标准值小,网络就会增大权重。
5、自适应梯度下降优化策略,自适应是指学习率会根据模型学习情况自我调整大小,始终保持在一个合适的数值,梯度下降指的是参数会沿着与梯度相反的方向更新。
6、模型参数矩阵,是指模型内的权重以矩阵的形式存储,权重又叫做模型参数,所以称之为参数矩阵。
本发明的技术方案为:
一种基于内容的类案推荐方法,包括步骤如下:
(1)将非结构化数据构造成结构化数据:
利用规则匹配的方式抽取犯罪事实描述,犯罪嫌疑人基本信息等所需信息,实现数据结构化,构造成结构化数据集;所需信息包括犯罪事实描述与嫌疑人基本信息数据,嫌疑人基本信息数据包括年龄、性别、捕前职业信息;
将结构化数据集不重叠的划分为训练数据集和测试数据集,训练数据集和测试数据集的比例为7∶3,即训练数据集占结构化数据集的70%,测试数据集占结构化数据集的30%;
(2)模型预训练:
所述模型包括依次连接的词映射层、双向transformer层、向量压缩层、损失层、反向传播更新参数层,包括:
A、所述词映射层将输入的犯罪事实描述的每个词映射成固定维度的向量,每个词都有一个单独的向量表示;这种向量可以直接被模型所计算;例如,[x1,x2,x3…xn]代表一个词,其中每个x代表一个数字,整体是一个向量;
B、将所述词映射层的输出输入所述双向transformer层,其原理是每个词的表达式都与其他词的表达式有关,即每个词的最终表示都由其他词共同决定;所述双向transformer将输入经过计算以更好的表达文本语义信息,输出的形式与输入一样;
C、将所述双向transformer层输出的特征向量输入所述向量压缩层,将所述双向transformer层输出的特征向量压缩成一维向量,该一维向量即为一个句子的语义表示;
D、将所述向量压缩层的输出输入所述损失层,该一维向量经过两层全连接神经网络转化为长度和数据标签一样形式的数据,计算输出与数据标签的误差;如数据标签是形如[0,0,0,0,1,0,0,0,0,…,0,0],其中只有一个1,代表该条数据的标签,则输入向量转化后的形式为[0.01,0.001,0.0,0.0,0.8,…,0.0,0.0],长度和标签一样,计算两个向量之间对应位置数字的误差,累计所有位置的误差;
E、所述反向传播更新参数层采用自适应梯度下降优化策略更新所述模型的参数;自适应是指模型的学习率是自我调整的,比如设定初始学习率是0.01,如果之前的学习的步长过长,那么模型就会减小学习率的值,如果之前学习的步长过短,那么模型就会增大学习率的值(一般情况下是逐步减小的),步长是在模型训练过程中每次迭代所要更新的数值大小;
(3)微调阶段:
将步骤(2)模型预训练完成得到的模型保存,丢弃所述损失层;所述反向传播更新参数层是训练过程中的产物,无需主动丢弃。
重新设计下游模型,下游模型是指除了向量压缩层及其之前的层之外的结构,也就是向量压缩层之后的结构总称为下游模型,即添加合页误差计算层,将合页误差计算层添加在所述向量压缩层之后,以向量压缩层的输出为输入,输出为与数据标签的误差,所述合页误差计算层,采用合页损失函数计算合页误差,合页误差对于能够正确分类的样本不产生误差,对于未能正确分类的样本产生较大误差;下游模型采用三元组方式调整模型,三元组代表着使用基于对比的方式训练模型,每个输入是一个三元组,包括目标案例(指要推荐的待匹配案例)、相似案例1(指要排序输出的案例,即数据库里待推荐的案例)、相似案例2;目标案例、相似案例1、相似案例2都是一段犯罪事实描述,包括:
若目标案例与相似案例1的相似度大于等于目标案例与相似案例2的相似度,则定义这种情况的标签为1;若目标案例与相似案例1的相似度小于目标案例与相似案例2的相似度,则定义这种情况的标签为0;基于这种三元组的方式,我们把计算相似的回归问题转换为了二分类问题;
采用三元组的目的有三个:第一,把任务从回归任务转换为了分类任务,实际操作性更大;第二,对于没有直接标签的任务来说,转换任务方式使得标签的获取变得容易了许多;第三,将标签定为0和1,使得模型的训练更加容易,反向传播的时候梯度不容易消失。
三元组具有合理性,假如目标案例与相似案例1更接近,那模型会试着将目标案例和相似案例1的向量表示变得调整的更加接近,也会试着将目标案例和相似案例2的向量表示调整的更加疏远;相反,假如目标案例与相似案例2更接近,那模型会试着将目标案例和相似案例2向量表示变得调整的更加接近,也会试着将目标案例和相似案例1向量表示调整的更加疏远,这样一来,在模型的不断调整中,真正相似的案例之间的距离就会被不断减小,不相似的案例之间的距离会被不断加大,最终,每个案例与其他的案例之间的距离就可以表示他们之间的相似度。至此,说明了三元组的合理性。
(4)测试阶段:
将步骤(3)微调阶段训练完成的模型保存,丢弃所述合页误差计算层,丢弃所述下游模型;所述向量压缩层的输出为最终输出向量,该向量为样本最终表示向量;
加载步骤(3)中保存的模型,对测试数据集进行采样,获得测试所用数据,将测试所用数据输入模型,依次进行分词、词向量映射、神经网络前向传播计算,输出样本最终表示向量;神经网络前向传播计算是指从词向量映射层,到双向transformer层,再到向量压缩层,最终输出为一个一维的向量。
根据本发明优选的,所述步骤(2)中,对于所述向量压缩层的基础结构是self-attention结构,如式(I)、(II)所示:
A=Attention(Q,K,V)=sigmoid(QTKVT) (I)
R=Reduce(A,aixs=-2) (II)
式(I)表示attention结构,Q、K、V是所述双向transformer层的输出,即所述向量压缩层的输入,Q,K,V三者是query,key,value的简写,分别是指请求矩阵、关键值矩阵、目标矩阵,在本发明中,三者皆为同一个矩阵;若Q、K、V三者为同一个输入的话,称之为self-attention,A代表self-attention结构的结果,为输入矩阵(输入为一个二维矩阵,每一列表示一个单词)中每个列向量(也就是单词向量)对于其他所有列向量的关注度矩阵;sigmoid是指激活函数;
公式(II)表示将获取到的关注度矩阵进行压缩,压缩方式为每一列对应位置的元素相加,其输出结果为一个一维向量,这个向量代表输入矩阵的最终压缩向量;R代表所述向量压缩层的输出,为一维向量;reduce代表将一个矩阵在第二个维度上压缩为一个一维向量;aixs代表矩阵中的轴方向。比如一个三维矩阵,有三个轴方向,aixs=-2代表从后面数第二个轴方向,也即在第二个轴方向上操作矩阵。
根据本发明优选的,所述步骤(2)中,所述双向transformer层,如公式(III)、(IV)、(V)所示:
hi=Attention(QWi Q,KWi K,VWi V) (IV)
Transformer(Q,K,V)=Concat(h1,...,hn)Wo (V)
式(III)为attention公式的变体,其作用为将输入进行编码;softmax是概率化操作,其操作方式为根据每个值的大小来表示该值的概率,把所有值都限制在0-1之间,原来的值越大,概率化后的概率就越大;dk代表矩阵中向量的长度;
式(IV)为式(III)的具体实施,hi代表执行一次式(III)所得的结果;
式(V)代表将式(IV)操作重复N遍(每次的参数矩阵都不相同)然后将得到的N个矩阵在最后一个维度上拼接在一起;Transformer(Q,K,V)为所述双向transformer层的最终输出;Concat()代表拼接操作,默认在矩阵的最后一个维度上操作;h1,...,hn代表操作了N次式(III)所得到的结果。
在本模型中,Q、K、V都是同一个输入,也叫做self-transformer,式中其他参数都是待训练矩阵。
根据本发明优选的,所述步骤(3)中,对于合页误差计算层,采用合页损失函数计算合页误差,合页损失函数的计算公式如公式(VI)所示:
式(VI)中,loss是指合页误差,N是指测试数据集样本个数,yi是指第i个样本的标签(0或者1),w是指模型参数矩阵,b是指偏置,+是指取大于零的值,小于等于零的值则置零;μ‖w‖2是指正则化,μ指超参数权重,取值范围是0-1。
进一步优选的,正则化选择L2正则化,通过减小参数的平方和,使参数矩阵中的参数都围绕在零附近,所产生的波动较小,使模型减少过拟合,其计算公式如公式(VII)所示:
式(VII)中,μ‖w‖2指正则化结果,M代表参数的数量,wi代表第i个参数,μ取值为0.01。
根据本发明优选的,所述步骤(3)中,目标案例与相似案例1的相似度、目标案例与相似案例2的相似度的采用余弦距离表示,计算公式如式(VIII)所示:
式(VIII)中,C(X1,X2)是指两个向量之间的距离,向量之间的距离就是指两个向量的相似度,m代表向量里面元素的个数,是指向量X1的第i个元素;是指X2的第i个元素。
根据本发明优选的,所述步骤(4),测试阶段,将待推荐的裁判文书与给定的裁判文书分别经过步骤(3)中微调保存的模型计算,输出待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量,计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离,即相似度,根据该距离数值大小从大到小进行推荐,评估模型性能。
根据本发明优选的,在所述步骤(4)中,预先在数据库中筛选待推荐的裁判文书,是指:根据给定文书的各项属性,包括个人信息,有无前科,是否属于暴力型犯罪,预先在数据库中筛选出小部分待推荐的文本,具体方法是:在数据库中根据属性不同将所有文书分成M个部分,每部分根据该部分所有向量计算中心点向量,然后将目标文书的向量与所有M个中心点向量做相似度计算,挑选出相似度最大的中心点向量所代表的部分,再将目标文书的向量与相似度最大的中心点向量所代表的部分的所有向量做相似度计算,排序输出。计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离,大大减少了计算量。
根据本发明所优选的,所述步骤(1)中,
对嫌疑人基本信息数据实现数据结构化,是指:
对每一个犯罪嫌疑人的年龄,进行归一化处理,所有年龄都被压缩为0-1之间的数字;
对每一个犯罪嫌疑人的性别,以布尔值进行表示;
对于捕前职业信息,按照《中华人民共和国职业分类大典》,进行分类,转换成索引表示之后进行归一化处理,所有索引都被压缩为0-1之间的数字;
对犯罪事实描述实现数据结构化,是指:将犯罪事实描述依次进行分词处理、统计词频、建立词典、索引转换;
所述分词处理,是指将连续的文本信息按照常用词分开,变成离散的列表;
所述统计词频,是指统计所有文本中不重复的词各自出现的次数,生成一个映射列表,索引是每个不重复出现的词,值是该词在所有文本中出现的次数;
所述建立词典,是指将所述统计词频中生成的映射列表去除低频词汇,将所有低频词汇转换成统一的字符表示,将高频词汇每个词汇都赋予一个唯一的索引值,重新生成一个映射列表,该映射列表的值索引是筛选过后的词,对应的值是该词唯一的索引;
所述索引转换,是指根据词典将文书中的每个词转换为索引。
本发明的有益效果为:
1、本发明采用两段式训练模型的方式,第一段预训练可以使模型全面的表达语义,第二阶段的微调模型可以使模型针对任务作出调整,更加适合特定领域的任务(如本发明的类案推荐任务),使文本更加准确的表达语义。
2、与最大池化压缩向量的方式相比,最大池化方式会把不重要的信息直接删除掉,导致丢失很多信息,本发明使用self-attention方式,认为所有信息都与任务有关,只是相关的重要程度不一样,所以我们将这些信息按照他们的重要程度重新组合信息,从语义矩阵中抽取与目标最相关的信息。
3、本发明将回归任务转变成了二分类任务,另辟蹊径,使得模型更加容易训练,经过试验,模型收敛速度比传统回归模型快1/3。
4、本发明使用三元组的方式定义任务,具有合理性,同时提高了类案推荐的效果,高于传统方法5个百分点以上。
附图说明
图1是本发明基于内容的类案推荐方法中模型预训练及微调阶段示意图;
图2是本发明使用模型的示意框图;
图3是本发明模型结构示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于内容的类案推荐方法,包括步骤如下:
(1)将非结构化数据构造成结构化数据:
利用规则匹配的方式抽取犯罪事实描述,犯罪嫌疑人基本信息等所需信息,实现数据结构化,构造成结构化数据集;所需信息包括犯罪事实描述与嫌疑人基本信息数据,嫌疑人基本信息数据包括年龄、性别、捕前职业信息;
将结构化数据集不重叠的划分为训练数据集和测试数据集,训练数据集和测试数据集的比例为7∶3,即训练数据集占结构化数据集的70%,测试数据集占结构化数据集的30%;
(2)模型预训练:
模型包括依次连接的词映射层、双向transformer层、向量压缩层、损失层、反向传播更新参数层,包括:
A、词映射层将输入的犯罪事实描述的每个词映射成固定维度的向量,每个词都有一个单独的向量表示;这种向量可以直接被模型所计算;例如,[x1,x2,x3…xn]代表一个词,其中每个x代表一个数字,整体是一个向量;
B、将词映射层的输出输入双向transformer层,其原理是每个词的表达式都与其他词的表达式有关,即每个词的最终表示都由其他词共同决定;双向transformer将输入经过计算以更好的表达文本语义信息,输出的形式与输入一样;
C、将双向transformer层输出的特征向量输入向量压缩层,将双向transformer层输出的特征向量压缩成一维向量,该一维向量即为一个句子的语义表示;
D、将向量压缩层的输出输入所述损失层,该一维向量经过两层全连接神经网络转化为长度和数据标签一样形式的数据,计算输出与数据标签的误差;如数据标签是形如[0,0,0,0,1,0,0,0,0,…,0,0],其中只有一个1,代表该条数据的标签,则输入向量转化后的形式为[0.01,0.001,0.0,0.0,0.8,…,0.0,0.0],长度和标签一样,计算两个向量之间对应位置数字的误差,累计所有位置的误差;
E、反向传播更新参数层采用自适应梯度下降优化策略更新模型的参数;自适应是指模型的学习率是自我调整的,比如设定初始学习率是0.01,如果之前的学习的步长过长,那么模型就会减小学习率的值,如果之前学习的步长过短,那么模型就会增大学习率的值(一般情况下是逐步减小的),步长是在模型训练过程中每次迭代所要更新的数值大小;
(3)微调阶段:
将步骤(2)模型预训练完成得到的模型保存,丢弃损失层;所述反向传播更新参数层是训练过程中的产物,无需主动丢弃。
重新设计下游模型,下游模型是指除了向量压缩层及其之前的层之外的结构,也就是向量压缩层之后的结构总称为下游模型,即添加合页误差计算层,将合页误差计算层添加在向量压缩层之后,模型结构如图3所示,以向量压缩层的输出为输入,输出为与数据标签的误差,合页误差计算层,采用合页损失函数计算合页误差,合页误差对于能够正确分类的样本不产生误差,对于未能正确分类的样本产生较大误差;下游模型采用三元组方式调整模型,三元组代表着使用基于对比的方式训练模型,每个输入是一个三元组,包括目标案例(指要推荐的待匹配案例)、相似案例1(指要排序输出的案例,即数据库里待推荐的案例)、相似案例2;目标案例、相似案例1、相似案例2都是一段犯罪事实描述,包括:
若目标案例与相似案例1的相似度大于等于目标案例与相似案例2的相似度,则定义这种情况的标签为1;若目标案例与相似案例1的相似度小于目标案例与相似案例2的相似度,则定义这种情况的标签为0;基于这种三元组的方式,我们把计算相似的回归问题转换为了二分类问题;
采用三元组的目的有三个:第一,把任务从回归任务转换为了分类任务,实际操作性更大;第二,对于没有直接标签的任务来说,转换任务方式使得标签的获取变得容易了许多;第三,将标签定为0和1,使得模型的训练更加容易,反向传播的时候梯度不容易消失。
三元组具有合理性,假如目标案例与相似案例1更接近,那模型会试着将目标案例和相似案例1的向量表示变得调整的更加接近,也会试着将目标案例和相似案例2的向量表示调整的更加疏远;相反,假如目标案例与相似案例2更接近,那模型会试着将目标案例和相似案例2向量表示变得调整的更加接近,也会试着将目标案例和相似案例1向量表示调整的更加疏远,这样一来,在模型的不断调整中,真正相似的案例之间的距离就会被不断减小,不相似的案例之间的距离会被不断加大,最终,每个案例与其他的案例之间的距离就可以表示他们之间的相似度。至此,我们说明了三元组的合理性。
本发明基于内容的类案推荐方法中模型预训练及微调阶段如图1所示,先初始化预训练模型的参数矩阵,然后从训练数据集中采集数据,进行训练,最后保存模型;微调阶段导入预训练阶段保存的模型,然后设计三元组任务进行继续训练,最后保存模型。
使用模型的示意图如图2所示,Y代表输入目标文书,文书经过模型编码得出一个一维向量,同时文书在数据库中进行预筛选数据,筛选方式在上文已给出,然后将数据库中筛选出来的部分文书的表示向量提取出来,与目标文书的向量进行相似度计算,计算方式上文已给出,然后将这部分文书按照相似度的大小进行排序输出;
(4)测试阶段:
将步骤(3)微调阶段训练完成的模型保存,丢弃合页误差计算层,丢弃所述下游模型;向量压缩层的输出为最终输出向量,该向量为样本最终表示向量;
加载步骤(3)中保存的模型,对测试数据集进行采样,获得测试所用数据,将测试所用数据输入模型,依次进行分词、词向量映射、神经网络前向传播计算,输出样本最终表示向量;神经网络前向传播计算是指从词向量映射层,到双向transformer层,再到向量压缩层,最终输出为一个一维的向量。
实施例2
根据实施例1所述的一种基于内容的类案推荐方法,其区别在于:
步骤(2)中,对于向量压缩层的基础结构是self-attention结构,如式(I)、(II)所示:
A=Attention(Q,K,V)=sigmoid(QTKVT) (I)
R=Reduce(A,aixs=-2) (II)
式(I)表示attention结构,Q、K、V是所述双向transformer层的输出,即所述向量压缩层的输入,Q,K,V三者是query,key,value的简写,分别是指请求矩阵、关键值矩阵、目标矩阵,在本发明中,三者皆为同一个矩阵;若Q、K、V三者为同一个输入的话,称之为self-attention,A代表self-attention结构的结果,为输入矩阵(输入为一个二维矩阵,每一列表示一个单词)中每个列向量(也就是单词向量)对于其他所有列向量的关注度矩阵;sigmoid是指激活函数;
公式(II)表示将获取到的关注度矩阵进行压缩,压缩方式为每一列对应位置的元素相加,其输出结果为一个一维向量,这个向量代表输入矩阵的最终压缩向量;R代表所述向量压缩层的输出,为一维向量;reduce代表将一个矩阵在第二个维度上压缩为一个一维向量;aixs代表矩阵中的轴方向。比如一个三维矩阵,有三个轴方向,aixs=-2代表从后面数第二个轴方向,也即在第二个轴方向上操作矩阵。
步骤(2)中,双向transformer层,如公式(III)、(IV)、(V)所示:
hi=Attention(QWi Q,KWi K,VWi V) (IV)
Transformer(Q,K,V)=Concat(h1,...,hn)Wo (V)
式(III)为attention公式的变体,其作用为将输入进行编码;softmax是概率化操作,其操作方式为根据每个值的大小来表示该值的概率,把所有值都限制在0-1之间,原来的值越大,概率化后的概率就越大;dk代表矩阵中向量的长度;
式(IV)为式(III)的具体实施,hi代表执行一次式(III)所得的结果;
式(V)代表将式(IV)操作重复N遍(每次的参数矩阵都不相同)然后将得到的N个矩阵在最后一个维度上拼接在一起;Transformer(Q,K,V)为所述双向transformer层的最终输出;Concat()代表拼接操作,默认在矩阵的最后一个维度上操作;h1,...,hn代表操作了N次式(III)所得到的结果。
在本模型中,Q、K、V都是同一个输入,也叫做self-transformer,式中其他参数都是待训练矩阵。
步骤(3)中,对于合页误差计算层,采用合页损失函数计算合页误差,合页损失函数的计算公式如公式(VI)所示:
式(VI)中,loss是指合页误差,N是指测试数据集样本个数,yi是指第i个样本的标签(0或者1),w是指模型参数矩阵,b是指偏置,+是指取大于零的值,小于等于零的值则置零;μ‖w‖2是指正则化,μ指超参数权重,μ取值为0.01。
正则化选择L2正则化,通过减小参数的平方和,使参数矩阵中的参数都围绕在零附近,所产生的波动较小,使模型减少过拟合,其计算公式如公式(VII)所示:
式(VII)中,μ‖w‖2指正则化结果,M代表参数的数量,wi代表第i个参数。
步骤(3)中,目标案例与相似案例1的相似度、目标案例与相似案例2的相似度的采用余弦距离表示,计算公式如式(VIII)所示:
式(VIII)中,C(X1,X2)是指两个向量之间的距离,向量之间的距离就是指两个向量的相似度,m代表向量里面元素的个数,是指向量X1的第i个元素;是指X的第i个元素。
步骤(4)中,测试阶段,将待推荐的裁判文书与给定的裁判文书分别经过步骤(3)中微调保存的模型计算,输出待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量,计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离,即相似度,根据该距离数值大小从大到小进行推荐,评估模型性能。
步骤(4)中,预先在数据库中筛选待推荐的裁判文书,是指:根据给定文书的各项属性,包括个人信息,有无前科,是否属于暴力型犯罪,预先在数据库中筛选出小部分待推荐的文本,具体方法是:在数据库中根据属性不同将所有文书分成M个部分,每部分根据该部分所有向量计算中心点向量,然后将目标文书的向量与所有M个中心点向量做相似度计算,挑选出相似度最大的中心点向量所代表的部分,再将目标文书的向量与相似度最大的中心点向量所代表的部分的所有向量做相似度计算,排序输出。计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离,大大减少了计算量。
步骤(1)中,对嫌疑人基本信息数据实现数据结构化,是指:
对每一个犯罪嫌疑人的年龄,进行归一化处理,所有年龄都被压缩为0-1之间的数字;
对每一个犯罪嫌疑人的性别,以布尔值进行表示;
对于捕前职业信息,按照《中华人民共和国职业分类大典》,进行分类,转换成索引表示之后进行归一化处理,所有索引都被压缩为0-1之间的数字;
对犯罪事实描述实现数据结构化,是指:将犯罪事实描述依次进行分词处理、统计词频、建立词典、索引转换;
分词处理,是指将连续的文本信息按照常用词分开,变成离散的列表;
统计词频,是指统计所有文本中不重复的词各自出现的次数,生成一个映射列表,索引是每个不重复出现的词,值是该词在所有文本中出现的次数;
建立词典,是指将所述统计词频中生成的映射列表去除低频词汇,将所有低频词汇转换成统一的字符表示,将高频词汇每个词汇都赋予一个唯一的索引值,重新生成一个映射列表,该映射列表的值索引是筛选过后的词,对应的值是该词唯一的索引;
索引转换,是指根据词典将文书中的每个词转换为索引。
本实施例用于对以往案件进行分析与利用,即利用新获得的犯罪事实描述与犯罪嫌疑人基本信息进行推荐已有相似案件,以便于司法人员在判决过程中充分参考以往案例。
本实施例做了几组对比试验:
第一组,采用传统基于字符串的距离计算方式计算相似度,即把文本通过tf-idf进行处理,计算cos距离;
第二组,采用基于Word2vector的词向量方式计算相似度,用word2vector将文本嵌入为300维的向量,进而计算相似度,采用点积的方式计算相似度,越相似的向量的点积越大;
第三组,采用间接标签训练的方式,如将罪名,刑期,法条作为标签进行训练,间接训练模型,提取中间语义表示的部分进行表示,计算方式也采用点积方式;
第四组,采用本发明的方式进行训练,训练方式如前文所述;
验证方式,采用三元组的方式进行评测,三元组都来自法学院同学进行标注,计算准确率;
数据集,数据集采用最高法院公开数据,经过清洗,去除不常见案例,最终得到数据300万+;
实验结果如下如表1所示:
表1
结果显示,本发明的模型具有极高的准确率,前文证明了三元组的方式具有合理性,所以采用三元组的方式进行验证也具有合理性,同时,数据规模300万+,说明结果不具有特殊性,具有一般性。

Claims (9)

1.一种基于内容的类案推荐方法,其特征在于,包括步骤如下:
(1)将非结构化数据构造成结构化数据:
利用规则匹配的方式抽取所需信息,实现数据结构化,构造成结构化数据集;所需信息包括犯罪事实描述与嫌疑人基本信息数据,嫌疑人基本信息数据包括年龄、性别、捕前职业信息;
将结构化数据集不重叠的划分为训练数据集和测试数据集,训练数据集和测试数据集的比例为7∶3,即训练数据集占结构化数据集的70%,测试数据集占结构化数据集的30%;
(2)模型预训练:
所述模型包括依次连接的词映射层、双向transformer层、向量压缩层、损失层、反向传播更新参数层,包括:
A、所述词映射层将输入的犯罪事实描述的每个词映射成固定维度的向量,每个词都有一个单独的向量表示;
B、将所述词映射层的输出输入所述双向transformer层,所述双向transformer将输入经过计算以更好的表达文本语义信息,输出的形式与输入一样;
C、将所述双向transformer层输出的特征向量输入所述向量压缩层,将所述双向transformer层输出的特征向量压缩成一维向量,该一维向量即为一个句子的语义表示;
D、将所述向量压缩层的输出输入所述损失层,该一维向量经过两层全连接神经网络转化为长度和数据标签一样形式的数据,计算输出与数据标签的误差;
E、所述反向传播更新参数层采用自适应梯度下降优化策略更新所述模型的参数;
(3)微调阶段:
将步骤(2)模型预训练完成得到的模型保存,丢弃所述损失层;重新设计下游模型,即添加合页误差计算层,将合页误差计算层添加在所述向量压缩层之后,以向量压缩层的输出为输入,输出为与数据标签的误差,所述合页误差计算层,采用合页损失函数计算合页误差,合页误差对于能够正确分类的样本不产生误差,对于未能正确分类的样本产生较大误差;下游模型采用三元组方式调整模型,三元组代表着使用基于对比的方式训练模型,每个输入是一个三元组,包括目标案例、相似案例1、相似案例2;目标案例、相似案例1、相似案例2都是一段犯罪事实描述,包括:
若目标案例与相似案例1的相似度大于等于目标案例与相似案例2的相似度,则定义这种情况的标签为1;若目标案例与相似案例1的相似度小于目标案例与相似案例2的相似度,则定义这种情况的标签为0;
(4)测试阶段:
将步骤(3)微调阶段训练完成的模型保存,丢弃所述合页误差计算层,所述向量压缩层的输出为最终输出向量,该向量为样本最终表示向量;
加载步骤(3)中保存的模型,对测试数据集进行采样,获得测试所用数据,将测试所用数据输入模型,依次进行分词、词向量映射、神经网络前向传播计算,输出样本最终表示向量。
2.根据权利要求1所述的一种基于内容的类案推荐方法,其特征在于,所述步骤(2)中,对于所述向量压缩层的基础结构是self-attention结构,如式(I)、(II)所示:
A=Attention(Q,K,V)=sigmoid(QTKVT) (I)
R=Reduce(A,aixs=-2) (II)
式(I)表示attention结构,Q、K、V是所述双向transformer层的输出,即所述向量压缩层的输入,Q,K,V三者是query,key,value的简写,分别是指请求矩阵、关键值矩阵、目标矩阵,若Q、K、V三者为同一个输入的话,称之为self-attention,A代表self-attention结构的结果,为输入矩阵中每个列向量对于其他所有列向量的关注度矩阵;sigmoid是指激活函数;
公式(II)表示将获取到的关注度矩阵进行压缩,压缩方式为每一列对应位置的元素相加,其输出结果为一个一维向量,这个向量代表输入矩阵的最终压缩向量;R代表所述向量压缩层的输出,为一维向量;reduce代表将一个矩阵在第二个维度上压缩为一个一维向量;aixs代表矩阵中的轴方向。
3.根据权利要求1所述的一种基于内容的类案推荐方法,其特征在于,所述步骤(2)中,所述双向transformer层,如公式(III)、(IV)、(V)所示:
hi=Attention(QWi Q,KWi K,VWi V) (IV)
Transformer(Q,K,V)=Concat(h1,...,hn)Wo (V)
式(III)为attention公式的变体,其作用为将输入进行编码;softmax是概率化操作,其操作方式为根据每个值的大小来表示该值的概率,把所有值都限制在0-1之间,原来的值越大,概率化后的概率就越大;dk代表矩阵中向量的长度;
式(IV)为式(III)的具体实施,hi代表执行一次式(III)所得的结果;
式(V)代表将式(IV)操作重复N遍,然后将得到的N个矩阵在最后一个维度上拼接在一起;Transformer(Q,K,V)为所述双向transformer层的最终输出;Concat()代表拼接操作,默认在矩阵的最后一个维度上操作;h1,...,hn代表操作了N次式(III)所得到的结果。
4.根据权利要求1所述的一种基于内容的类案推荐方法,其特征在于,所述步骤(3)中,对于合页误差计算层,采用合页损失函数计算合页误差,合页损失函数的计算公式如公式(VI)所示:
式(VI)中,loss是指合页误差,N是指测试数据集样本个数,yi是指第i个样本的标签,w是指模型参数矩阵,b是指偏置,+是指取大于零的值,小于等于零的值则置零;μ‖w‖2是指正则化,μ指超参数权重,取值范围是0-1。
5.根据权利要求4所述的一种基于内容的类案推荐方法,其特征在于,正则化选择L2正则化,通过减小参数的平方和,使参数矩阵中的参数都围绕在零附近,所产生的波动较小,使模型减少过拟合,其计算公式如公式(VII)所示:
式(VII)中,μ‖w‖2指正则化结果,M代表参数的数量,wi代表第i个参数,μ取值为0.01。
6.根据权利要求1所述的一种基于内容的类案推荐方法,其特征在于,所述步骤(3)中,目标案例与相似案例1的相似度、目标案例与相似案例2的相似度的采用余弦距离表示,计算公式如式(VIII)所示:
式(VIII)中,C(X1,X2)是指两个向量之间的距离,向量之间的距离就是指两个向量的相似度,m代表向量里面元素的个数,是指向量X1的第i个元素;是指X2的第i个元素。
7.根据权利要求1所述的一种基于内容的类案推荐方法,其特征在于,所述步骤(4),测试阶段,将待推荐的裁判文书与给定的裁判文书分别经过步骤(3)中微调保存的模型计算,输出待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量,计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离,即相似度,根据该距离数值大小从大到小进行推荐,评估模型性能。
8.根据权利要求1所述的一种基于内容的类案推荐方法,其特征在于,在所述步骤(4)中,预先在数据库中筛选待推荐的裁判文书,是指:根据给定文书的各项属性,包括个人信息,有无前科,是否属于暴力型犯罪,预先在数据库中筛选出小部分待推荐的文本,具体方法是:在数据库中根据属性不同将所有文书分成M个部分,每部分根据该部分所有向量计算中心点向量,然后将目标文书的向量与所有M个中心点向量做相似度计算,挑选出相似度最大的中心点向量所代表的部分,再将目标文书的向量与相似度最大的中心点向量所代表的部分的所有向量做相似度计算,排序输出。
9.根据权利要求1-8任一所述的一种基于内容的类案推荐方法,其特征在于,所述步骤(1)中,对嫌疑人基本信息数据实现数据结构化,是指:
对每一个犯罪嫌疑人的年龄,进行归一化处理,所有年龄都被压缩为0-1之间的数字;
对每一个犯罪嫌疑人的性别,以布尔值进行表示;
对于捕前职业信息,按照职业进行分类,转换成索引表示之后进行归一化处理,所有索引都被压缩为0-1之间的数字;
对犯罪事实描述实现数据结构化,是指:将犯罪事实描述依次进行分词处理、统计词频、建立词典、索引转换;
所述分词处理,是指将连续的文本信息按照常用词分开,变成离散的列表;
所述统计词频,是指统计所有文本中不重复的词各自出现的次数,生成一个映射列表,索引是每个不重复出现的词,值是该词在所有文本中出现的次数;
所述建立词典,是指将所述统计词频中生成的映射列表去除低频词汇,将所有低频词汇转换成统一的字符表示,将高频词汇每个词汇都赋予一个唯一的索引值,重新生成一个映射列表,该映射列表的值索引是筛选过后的词,对应的值是该词唯一的索引;
所述索引转换,是指根据词典将文书中的每个词转换为索引。
CN201910748469.6A 2019-08-14 2019-08-14 一种基于文本内容的类案推荐方法 Active CN110442684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910748469.6A CN110442684B (zh) 2019-08-14 2019-08-14 一种基于文本内容的类案推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910748469.6A CN110442684B (zh) 2019-08-14 2019-08-14 一种基于文本内容的类案推荐方法

Publications (2)

Publication Number Publication Date
CN110442684A true CN110442684A (zh) 2019-11-12
CN110442684B CN110442684B (zh) 2020-06-30

Family

ID=68435338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910748469.6A Active CN110442684B (zh) 2019-08-14 2019-08-14 一种基于文本内容的类案推荐方法

Country Status (1)

Country Link
CN (1) CN110442684B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126625A (zh) * 2019-12-20 2020-05-08 华中科技大学 一种可扩展的学习索引方法及系统
CN111191002A (zh) * 2019-12-26 2020-05-22 武汉大学 一种基于分层嵌入的神经代码搜索方法及装置
CN111209747A (zh) * 2020-01-16 2020-05-29 北京明略软件系统有限公司 一种词向量文件加载方法、装置、存储介质及电子设备
CN111221963A (zh) * 2019-11-19 2020-06-02 成都晓多科技有限公司 一种智能客服数据训练模型领域迁移方法
CN111275091A (zh) * 2020-01-16 2020-06-12 平安科技(深圳)有限公司 文本结论智能推荐方法、装置及计算机可读存储介质
CN111311381A (zh) * 2020-04-07 2020-06-19 广州翼云科技有限公司 一种商品推荐方法及系统
CN111414750A (zh) * 2020-03-18 2020-07-14 北京百度网讯科技有限公司 一种词条的同义判别方法、装置、设备和存储介质
CN111651997A (zh) * 2020-04-20 2020-09-11 北京大学 一种类案推荐方法及系统
CN111694945A (zh) * 2020-06-03 2020-09-22 北京北大软件工程股份有限公司 基于神经网络的法条关联推荐方法及装置
CN111709231A (zh) * 2020-04-30 2020-09-25 昆明理工大学 一种基于自注意变分自编码的类案推荐方法
CN111797221A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 类似案件推荐方法及装置
CN111967941A (zh) * 2020-08-20 2020-11-20 中国科学院深圳先进技术研究院 一种构建序列推荐模型的方法和序列推荐方法
CN112001180A (zh) * 2020-07-14 2020-11-27 北京百度网讯科技有限公司 多模态预训练模型获取方法、装置、电子设备及存储介质
CN112241623A (zh) * 2020-09-17 2021-01-19 华中科技大学 一种接触网施工技术文档内容自动生成装置及方法
CN112347738A (zh) * 2020-11-04 2021-02-09 平安直通咨询有限公司上海分公司 基于裁判文书的双向编码器表征量模型优化方法和装置
CN112528653A (zh) * 2020-12-02 2021-03-19 支付宝(杭州)信息技术有限公司 短文本实体识别方法和系统
CN112699218A (zh) * 2020-12-30 2021-04-23 成都数之联科技有限公司 模型建立方法及系统及段落标签获得方法及介质
CN112905793A (zh) * 2021-02-23 2021-06-04 山西同方知网数字出版技术有限公司 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN112905777A (zh) * 2021-03-19 2021-06-04 北京百度网讯科技有限公司 一种扩展问推荐方法、装置、电子设备及存储介质
CN112950414A (zh) * 2021-02-25 2021-06-11 华东师范大学 一种基于解耦法律要素的法律文本表示方法
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统
CN113761943A (zh) * 2021-09-23 2021-12-07 阿里巴巴达摩院(杭州)科技有限公司 司法对话的生成方法和模型训练方法、装置以及存储介质
CN113901781A (zh) * 2021-09-15 2022-01-07 昆明理工大学 融合分段编码与仿射机制的相似案例匹配方法
CN114065760A (zh) * 2022-01-14 2022-02-18 中南大学 基于预训练语言模型的法律文本类案检索方法及系统
CN115293291A (zh) * 2022-08-31 2022-11-04 北京百度网讯科技有限公司 排序模型的训练方法、排序方法、装置、电子设备及介质
CN116680162A (zh) * 2023-04-17 2023-09-01 中国软件评测中心(工业和信息化部软件与集成电路促进中心) 一种测试用例复用方法、装置、介质、设备及产品
CN117235243A (zh) * 2023-11-16 2023-12-15 青岛民航凯亚系统集成有限公司 民用机场大语言模型训练优化方法及综合服务平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376227A (zh) * 2018-10-29 2019-02-22 山东大学 一种基于多任务人工神经网络的刑期预测方法
CN109447140A (zh) * 2018-10-19 2019-03-08 广州四十五度科技有限公司 一种基于神经网络深度学习的图像识别并推荐认知的方法
CN109766277A (zh) * 2019-01-02 2019-05-17 北京航空航天大学 一种基于迁移学习与dnn的软件故障诊断方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447140A (zh) * 2018-10-19 2019-03-08 广州四十五度科技有限公司 一种基于神经网络深度学习的图像识别并推荐认知的方法
CN109376227A (zh) * 2018-10-29 2019-02-22 山东大学 一种基于多任务人工神经网络的刑期预测方法
CN109766277A (zh) * 2019-01-02 2019-05-17 北京航空航天大学 一种基于迁移学习与dnn的软件故障诊断方法

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221963B (zh) * 2019-11-19 2023-05-12 成都晓多科技有限公司 一种智能客服数据训练模型领域迁移方法
CN111221963A (zh) * 2019-11-19 2020-06-02 成都晓多科技有限公司 一种智能客服数据训练模型领域迁移方法
CN111126625A (zh) * 2019-12-20 2020-05-08 华中科技大学 一种可扩展的学习索引方法及系统
CN111126625B (zh) * 2019-12-20 2022-05-20 华中科技大学 一种可扩展的学习索引方法及系统
CN111191002A (zh) * 2019-12-26 2020-05-22 武汉大学 一种基于分层嵌入的神经代码搜索方法及装置
CN111275091A (zh) * 2020-01-16 2020-06-12 平安科技(深圳)有限公司 文本结论智能推荐方法、装置及计算机可读存储介质
CN111209747B (zh) * 2020-01-16 2023-02-28 北京明略软件系统有限公司 一种词向量文件加载方法、装置、存储介质及电子设备
CN111275091B (zh) * 2020-01-16 2024-05-10 平安科技(深圳)有限公司 文本结论智能推荐方法、装置及计算机可读存储介质
CN111209747A (zh) * 2020-01-16 2020-05-29 北京明略软件系统有限公司 一种词向量文件加载方法、装置、存储介质及电子设备
CN111414750A (zh) * 2020-03-18 2020-07-14 北京百度网讯科技有限公司 一种词条的同义判别方法、装置、设备和存储介质
CN111414750B (zh) * 2020-03-18 2023-08-18 北京百度网讯科技有限公司 一种词条的同义判别方法、装置、设备和存储介质
CN111311381A (zh) * 2020-04-07 2020-06-19 广州翼云科技有限公司 一种商品推荐方法及系统
CN111651997A (zh) * 2020-04-20 2020-09-11 北京大学 一种类案推荐方法及系统
CN111709231A (zh) * 2020-04-30 2020-09-25 昆明理工大学 一种基于自注意变分自编码的类案推荐方法
CN111709231B (zh) * 2020-04-30 2022-11-18 昆明理工大学 一种基于自注意变分自编码的类案推荐方法
CN111694945A (zh) * 2020-06-03 2020-09-22 北京北大软件工程股份有限公司 基于神经网络的法条关联推荐方法及装置
CN111797221B (zh) * 2020-06-16 2023-12-08 北京北大软件工程股份有限公司 类似案件推荐方法及装置
CN111797221A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 类似案件推荐方法及装置
US11928432B2 (en) 2020-07-14 2024-03-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Multi-modal pre-training model acquisition method, electronic device and storage medium
CN112001180A (zh) * 2020-07-14 2020-11-27 北京百度网讯科技有限公司 多模态预训练模型获取方法、装置、电子设备及存储介质
CN111967941B (zh) * 2020-08-20 2024-01-05 中国科学院深圳先进技术研究院 一种构建序列推荐模型的方法和序列推荐方法
CN111967941A (zh) * 2020-08-20 2020-11-20 中国科学院深圳先进技术研究院 一种构建序列推荐模型的方法和序列推荐方法
CN112241623B (zh) * 2020-09-17 2024-04-19 华中科技大学 一种接触网施工技术文档内容自动生成装置及方法
CN112241623A (zh) * 2020-09-17 2021-01-19 华中科技大学 一种接触网施工技术文档内容自动生成装置及方法
CN112347738B (zh) * 2020-11-04 2023-09-15 平安直通咨询有限公司上海分公司 基于裁判文书的双向编码器表征量模型优化方法和装置
CN112347738A (zh) * 2020-11-04 2021-02-09 平安直通咨询有限公司上海分公司 基于裁判文书的双向编码器表征量模型优化方法和装置
CN112528653B (zh) * 2020-12-02 2023-11-28 支付宝(杭州)信息技术有限公司 短文本实体识别方法和系统
CN112528653A (zh) * 2020-12-02 2021-03-19 支付宝(杭州)信息技术有限公司 短文本实体识别方法和系统
CN112699218A (zh) * 2020-12-30 2021-04-23 成都数之联科技有限公司 模型建立方法及系统及段落标签获得方法及介质
CN112905793B (zh) * 2021-02-23 2023-06-20 山西同方知网数字出版技术有限公司 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN112905793A (zh) * 2021-02-23 2021-06-04 山西同方知网数字出版技术有限公司 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN112950414A (zh) * 2021-02-25 2021-06-11 华东师范大学 一种基于解耦法律要素的法律文本表示方法
CN112905777B (zh) * 2021-03-19 2023-10-17 北京百度网讯科技有限公司 一种扩展问推荐方法、装置、电子设备及存储介质
CN112905777A (zh) * 2021-03-19 2021-06-04 北京百度网讯科技有限公司 一种扩展问推荐方法、装置、电子设备及存储介质
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统
CN113901781A (zh) * 2021-09-15 2022-01-07 昆明理工大学 融合分段编码与仿射机制的相似案例匹配方法
CN113901781B (zh) * 2021-09-15 2024-04-26 昆明理工大学 融合分段编码与仿射机制的相似案例匹配方法
CN113761943A (zh) * 2021-09-23 2021-12-07 阿里巴巴达摩院(杭州)科技有限公司 司法对话的生成方法和模型训练方法、装置以及存储介质
CN114065760A (zh) * 2022-01-14 2022-02-18 中南大学 基于预训练语言模型的法律文本类案检索方法及系统
CN115293291B (zh) * 2022-08-31 2023-09-12 北京百度网讯科技有限公司 排序模型的训练方法、排序方法、装置、电子设备及介质
CN115293291A (zh) * 2022-08-31 2022-11-04 北京百度网讯科技有限公司 排序模型的训练方法、排序方法、装置、电子设备及介质
CN116680162B (zh) * 2023-04-17 2023-11-10 中国软件评测中心(工业和信息化部软件与集成电路促进中心) 一种测试用例复用方法、装置、介质、设备及产品
CN116680162A (zh) * 2023-04-17 2023-09-01 中国软件评测中心(工业和信息化部软件与集成电路促进中心) 一种测试用例复用方法、装置、介质、设备及产品
CN117235243A (zh) * 2023-11-16 2023-12-15 青岛民航凯亚系统集成有限公司 民用机场大语言模型训练优化方法及综合服务平台

Also Published As

Publication number Publication date
CN110442684B (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN110442684A (zh) 一种基于文本内容的类案推荐方法
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN107315738B (zh) 一种文本信息的创新度评估方法
CN108595602A (zh) 基于浅层模型与深度模型结合的问句文本分类方法
CN109597891A (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN108920544A (zh) 一种基于知识图谱的个性化职位推荐方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN107562812A (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109376242A (zh) 基于循环神经网络变体和卷积神经网络的文本分类算法
CN106919920A (zh) 基于卷积特征和空间视觉词袋模型的场景识别方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
CN107665248A (zh) 基于深度学习混合模型的文本分类方法和装置
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN113204674B (zh) 基于局部-整体图推理网络的视频-段落检索方法及系统
CN110413768A (zh) 一种文章题目自动生成方法
CN111008215B (zh) 一种结合标签构建与社区关系规避的专家推荐方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Yujun

Inventor after: Han Junlei

Inventor after: Li Zeqiang

Inventor after: Ben Xianye

Inventor after: Ma Baosen

Inventor after: Zhang Wenzhen

Inventor after: Deng Yuanjie

Inventor after: Zhu Kongfan

Inventor after: Hu Weifeng

Inventor before: Li Yujun

Inventor before: Han Junlei

Inventor before: Wang Zeqiang

Inventor before: Ma Baosen

Inventor before: Zhang Wenzhen

Inventor before: Deng Yuanjie

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211112

Address after: 250199 No. 27, Shanda South Road, Licheng District, Jinan City, Shandong Province

Patentee after: Shandong University

Patentee after: Hisense Group Holding Co., Ltd

Address before: 250199 No. 27, Shanda South Road, Licheng District, Jinan City, Shandong Province

Patentee before: Shandong University

TR01 Transfer of patent right