CN113901781B - 融合分段编码与仿射机制的相似案例匹配方法 - Google Patents

融合分段编码与仿射机制的相似案例匹配方法 Download PDF

Info

Publication number
CN113901781B
CN113901781B CN202111078502.2A CN202111078502A CN113901781B CN 113901781 B CN113901781 B CN 113901781B CN 202111078502 A CN202111078502 A CN 202111078502A CN 113901781 B CN113901781 B CN 113901781B
Authority
CN
China
Prior art keywords
matrix
score
document
word
referee
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111078502.2A
Other languages
English (en)
Other versions
CN113901781A (zh
Inventor
赖华
张恒滔
线岩团
余正涛
相艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111078502.2A priority Critical patent/CN113901781B/zh
Publication of CN113901781A publication Critical patent/CN113901781A/zh
Application granted granted Critical
Publication of CN113901781B publication Critical patent/CN113901781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及融合分段编码与仿射机制的相似案例匹配方法,属于自然语言处理领域。本发明包括:预处理CAIL2019‑SCM的关于民间借贷的裁判文书文本数据集;使用分词后的三元组裁判文书作为输入;之后利用自注意力机制来对嵌入的文本矩阵进行加权表示;将对上下文感知的文本表示利用CNN进行分段编码;随后将编码后的输出经过基于仿射变换设计的打分器来获得候选文书的相似性得分;最后根据相似性得分计算匹配概率。实验结果表明,该模型在CAIL2019‑SCM数据集上有更高的准确性,比SOTA模型LFESM提升了1.89%。

Description

融合分段编码与仿射机制的相似案例匹配方法
技术领域
本发明涉及融合分段编码与仿射机制的相似案例匹配方法,属于自然语言处理领域。
背景技术
相似案例匹配作为类案检索的重要环节,从海量裁判文书中找到与审判案件最为相似的案件成为了关键,对于给定的裁判文书,我们希望能够从候选裁判文书中找到与此情节最为相近的案件。随着数字化信息的发展,越来越多的裁判文书被以电子文本的形式储存,通过人工检索的方式费时费力,借助机器实现裁判文书的自动匹配能够降低时间和人力成本,加快法院审判进程。相似案例匹配是文本匹配在司法领域的运用,文本匹配在自然语言处理(Natural Language Processing)中诸多任务上得到了很好的应用,例如在信息检索、对话与问答、搜索引擎、推荐系统中等,这些任务从某种程度上来说都可以看作是文本的匹配任务,通常以文本相似度计算、文本相关度对比等形式呈现,相似案例匹配中的核心技术也是文本匹配。因此本发明采用民间借贷裁判文书为研究重点,故相似案例匹配任务旨在判断两篇裁判文书所描述的案件是否相似,通常被看作裁判文书的文本匹配问题。
发明内容
本发明提供了融合分段编码与仿射机制的相似案例匹配方法,以用于解决裁判文书篇幅较长、格式固定、彼此之间相似度很高,而且蕴含着丰富的语义信息,现有的深度学习模型大多将长文本表示为某一特征向量来匹配,难以学习到裁判文书之间的差异性的问题。
发明技术方案:融合分段编码与仿射机制的相似案例匹配方法,所述方法的具体步骤如下:
Step1、对CAIL2019-SCM数据集中的所有裁判文书进行预处理,利用结巴分词工具对裁判文书分词,对分词后的结果去除停用词和空字符,将处理后的裁判文书中的词转化为对应索引;
Step2、通过词嵌入获得裁判文书的嵌入表示,将文本的嵌入当作分段编码层的输入,对三篇裁判文书分别利用自注意力机制获得各自的加权表示,将加权后的表示矩阵根据自身的长度(包含的词个数)和预先设置的阈值切分成5段,对每一段利用单独的CNN来进行编码,最终获得3篇裁判文书各自的特征矩阵;
Step3、将获得的特征矩阵送入仿射打分器进行交互并获得两个相似性得分,根据相似性得分来计算最终的输出概率,即对应标签的概率。
所述Step1的具体步骤为:
Step1.1、对每一篇裁判文书,利用正则表达式来提取裁判文书中的姓名、行政地名、公司名称、法人等实体信息,将这些实体加入结巴分词的用户词典中后对裁判文书进行分词,将分词后的结果进行清理,包括停用词去除、空字符去除;
Step1.2、根据分词的结果构造词典,为每一个词设置唯一的ID,通过查询的方式获得每一个词的索引值,将裁判文书转化为数值表示。
作为本发明的优选方案,所述Step2的具体步骤如下:
Step2.1、通过预训练的300维的词向量获得裁判文书的嵌入表示,具体地对于长度为q的裁判文书a={a1,a2,...,aq},利用预训练的词向量来得到每一个词ai的固定d维的向量表示,整个文档a就可以表示为一个矩阵A∈Rq×d,同样的裁判文书B∈Rn×d和裁判文书C∈Rm×d
Step2.2、在获得每一篇裁判文书的表示矩阵之后,使用自注意力机制来对文档中的每一个词进行加权表示,具体而言对于裁判文书a首先将其词嵌入矩阵A通过三次不同的线性变换转换为三个维度同样为d的矩阵Q(Query)、K(Key)和V(Value),将三个矩阵利用公式(1)进行计算得到新的矩阵表示,经过Self-Attention后文档中的每一个词的向量表示都是对文档其余所有词感知的一个向量。
其中Q,K,V∈Rq×d,d表示经过线性变换后词向量的维度,除以用于避免Q与K的内积过大,对裁判文书b、c采用同样方式获得新的表示。
Step2.3、本发明分段编码层的输入是来自于Step2.2的文本嵌入矩阵M={v1,v2,...,vl},其中vi表示第i个词的向量,A={va1,va2,...,vaq}、B={vb1,vb2,...,vbn}、C={vc1,vc2,...,vcm}即为三篇裁判文书的嵌入矩阵,首先利用公式(2)~(7)对文本矩阵进行编码:
p=len(A)/5,margin (2)
m1=Encoder1(M1),M1=M[v1:vp] (3)
m2=Encoder2(M2),M2=M[vp-margin:v2p+margin] (4)
m3=Encoder3(M3),M3=M[v2p-margin:v3p+margin] (5)
m4=Encoder4(M4),M4=M[v3p-margin:v4p+margin] (6)
m5=Encoder5(M5),M5=M[v4p-margin:vl] (7)
公式(2)~(7)的含义是,给定文本的嵌入矩阵M,将文本矩阵分成5段,首先由公式(2)计算每一段的基本长度p,再定义一个阈值margin用来控制段与段之间重合的词的个数,这样根据p和margin从原始矩阵M上截取到不同长度的五个矩阵Mi,对于每一部分分别将其通过五个编码器编码成固定的向量mi,本发明使用CNN作为编码器,与图像上的编码方式不同,对于矩阵Mi∈Rl×d,l′为矩阵Mi中包含的词的个数,使用t个宽度分别为h1、h2、h3、h4,长度与词向量维度一样为d的卷积核以步长为1对此嵌入矩阵进行卷积操作,对于某一个宽度h的卷积核而言卷积操作具体如公式(8)所示。
ci=f(ω·xi:i+h-1+b),(i=1,2,...,l′-h+1) (8)
其中xi:i+h-1表示输入矩阵第i个词到第i+h-1个词向量所组成的一个大小为h×d的窗口,ω为一个大小为h×d的权重矩阵,b是一个偏置,f是一个非线性函数,卷积核通过自上而下移动对矩阵进行卷积得到l′-h+1个特征c。在卷积之后将这些特征拼接后得到最后的特征图C=[c1,c2,...,cl′-h+1],再对特征图进行最大池化操作得到最后的特征c′,由于卷积核使用了4种不同的宽度,每种宽度有t个,最终得到的编码后的特征向量mi的维度为1×4t。将这5个固定的编码向量mi进行拼接后得到一个编码后的特征矩阵M′∈R5×4t,三篇裁判文书的特征矩阵分别为DA、DB、DC
作为本发明的优选方案,所述步骤Step3的具体步骤如下:
Step3.1、将Step2.3获得的表示矩阵DA、DB、DC,利用公式(9)、(10)来计算文本B和C相较于A的相似得分,其中Scoreab∈R5×5、Scoreac∈R5×5是两个得分矩阵,矩阵中的每一行分数代表A的第i部分对候选文书的每一部分的打分。
本发明将上式称为仿射变换的原因是,相较于传统的仿射分类器Si=Wxi+b,本发明利用了一个变换矩阵U1∈Rk×k,对查询文书A进行线性变换后来代替权重矩阵W,其中k为分段编码层的输出维度,而对于偏置b本发明也使用了一个变换矩阵U2∈Rk×5来对A进行线性变换后代替,这样在保留了分类器中一定可学习参数的同时与查询文书产生了更多的交互。
Step3.2、将Step3.1得到的得分矩阵中所有分数相加作为候选文书B和C的最后得分Scoreb、Scorec,对于打分器输出的分数矩阵Scoreab、Scoreac,将得分为负的部分(不相似的部分)通过ReLU函数将其置为0,最后将每一个维度相似得分进行相加,具体如公式(11)、(12)所示。
在计算得到总分数后,通过公式(13)来计算概率pi,pi∈(0,1)来作为预测结果输出,其中Scoreb>0、Scorec>0,当候选文档B相似得分越高pi越大,相反候选文档C得分越高pi越小。本发明使用交叉熵来作为损失函数,如公式(14)所示。
Step3.3、整个过程采用端到端的方式来完成训练,选用AdamW来作为优化器,训练批次大小设置为16,初始学习率为0.0001,学习率的调整采用固定步长减小。
本发明的有益效果是:
(1)本发明的融合分段编码与仿射机制的相似案例匹配方法,利用分段处理篇章级文本的编码方法,实现对裁判文书进行更细粒度的拆分,解决了裁判文书文本较长,篇章级的编码方式难以获取文本中丰富的语义信息问题。
(2)本发明的融合分段编码与仿射机制的相似案例匹配方法,利用一种基于仿射变换设计的打分机制,对候选文档进行交互和相似性得分计算,解决了裁判文书格式固定、彼此之间相似度很高,现有的深度学习模型难以学习到裁判文书之间的细微差异的问题。
(3)本发明的融合分段编码与仿射机制的相似案例匹配方法,在CAIL2019-SCM数据集上,比现有的最好模型在匹配的准确率上提升了1.89%。
附图说明
图1是本发明提出的融合分段编码与仿射机制的相似案例匹配方法的模型结构示意图;
图2是本发明分段数目对性能的影响示意图。
具体实施方式
实施例1:如图1-图2所示,融合分段编码与仿射机制的相似案例匹配方法,所述方法的具体步骤如下:
Step1、对CAIL2019-SCM数据集中的所有裁判文书进行预处理,利用结巴分词工具对裁判文书分词,对分词后的结果去除停用词和空字符,将处理后的裁判文书中的词转化为对应索引;
Step1.1、对每一篇裁判文书,利用正则表达式来提取裁判文书中的姓名、行政地名、公司名称、法人等实体信息,将这些实体加入结巴分词的用户词典中后对裁判文书进行分词,将分词后的结果进行清理,包括停用词去除、空字符去除,处理后的数据集统计如表1所示:
表1CAIL2019-SCM数据集统计
专业的法律从业者根据一些特定的要素对所有案件进行标注,从表1的统计结果可以看到数据的标签基本是平衡的。
Step1.2、根据分词的结果构造词典,为每一个词设置唯一的ID,通过查询的方式获得每一个词的索引值,将裁判文书转化为数值表示。
Step2、通过词嵌入获得裁判文书的嵌入表示,将文本的嵌入表示当作分段编码层的输入,对若干篇裁判文书分别利用自注意力机制获得各自的加权表示,将加权后的表示矩阵根据自身的长度和预先设置的阈值切分成若干段,对每一段利用单独的CNN来进行编码,最终获得若干篇裁判文书各自的特征矩阵;
Step2.1、通过预训练的300维的词向量获得裁判文书的嵌入表示,具体地对于长度为q的裁判文书a={a1,a2,...,aq},利用预训练的词向量来得到每一个词ai的固定d维的向量表示,整个文档a就可以表示为一个矩阵A∈Rq×d,同样的裁判文书B∈Rn×d和裁判文书C∈Rm×d
Step2.2、在获得每一篇裁判文书的表示矩阵之后,使用自注意力机制来对文档中的每一个词进行加权表示,具体而言对于裁判文书a首先将其词嵌入矩阵A通过三次不同的线性变换转换为三个维度同样为d的矩阵Q(Query)、K(Key)和V(Value),将三个矩阵利用公式(1)进行计算得到新的矩阵表示,经过Self-Attention后文档中的每一个词的向量表示都是对文档其余所有词感知的一个向量。
其中Q,K,V∈Rq×d,d表示经过线性变换后词向量的维度,除以用于避免Q与K的内积过大,对裁判文书b、c采用同样方式获得新的表示。
Step2.3、本发明分段编码层的输入是来自于Step2.2的文本嵌入矩阵M={v1,v2,...,vl},其中vi表示第i个词的向量,A={va1,va2,...,vaq}、B={vb1,vb2,...,vbn}、C={vc1,vc2,...,vcm}即为三篇裁判文书的嵌入矩阵,首先利用公式(2)~(7)对文本矩阵进行编码:
p=len(A)/5,margin (2)
m1=Encoder1(M1),M1=M[v1:vp] (3)
m2=Encoder2(M2),M2=M[vp-margin:v2p+margin] (4)
m3=Encoder3(M3),M3=M[v2p-margin:v3p+margin] (5)
m4=Encoder4(M4),M4=M[v3p-margin:v4p+margin] (6)
m5=Encoder5(M5),M5=M[v4p-margin:vl] (7)
公式(2)~(7)的含义是,给定文本的嵌入矩阵M,将文本矩阵分成5段,首先由公式(2)计算每一段的基本长度p,再定义一个阈值margin用来控制段与段之间重合的词的个数,这样根据p和margin从原始矩阵M上截取到不同长度的五个矩阵Mi,对于每一部分分别将其通过五个编码器编码成固定的向量mi,本发明使用CNN作为编码器,与图像上的编码方式不同,对于矩阵Mi∈Rl×d,l′为矩阵Mi中包含的词的个数,使用t个宽度分别为h1、h2、h3、h4,长度与词向量维度一样为d的卷积核以步长为1对此嵌入矩阵进行卷积操作,对于某一个宽度h的卷积核而言卷积操作具体如公式(8)所示。
ci=f(ω·xi:i+h-1+b),(i=1,2,...,l′-h+1) (8)
其中xi:i+h-1表示输入矩阵第i个词到第i+h-1个词向量所组成的一个大小为h×d的窗口,ω为一个大小为h×d的权重矩阵,b是一个偏置,f是一个非线性函数,卷积核通过自上而下移动对矩阵进行卷积得到l′-h+1个特征c。在卷积之后将这些特征拼接后得到最后的特征图C=[c1,c2,...,cl′-h+1],再对特征图进行最大池化操作得到最后的特征c′,由于卷积核使用了4种不同的宽度,每种宽度有t个,最终得到的编码后的特征向量mi的维度为1×4t。将这5个固定的编码向量mi进行拼接后得到一个编码后的特征矩阵M′∈R5×4t,三篇裁判文书的特征矩阵分别为DA、DB、DC。编码过程涉及的超参设置如表2所示:
表2参数设置
Step3、将获得的特征矩阵送入仿射打分器进行交互并获得两个相似性得分,根据相似性得分来计算最终的输出概率,即对应标签的概率。
Step3.1、将Step2.3获得的表示矩阵DA、DB、DC,利用公式(9)、(10)来计算文本B和C相较于A的相似得分,其中Scoreab∈R5×5、Scoreac∈R5×5是两个得分矩阵,矩阵中的每一行分数代表A的第i部分对候选文书的每一部分的打分。
本发明将上式称为仿射变换的原因是,相较于传统的仿射分类器Si=Wxi+b,本发明利用了一个变换矩阵U1∈Rk×k,对查询文书A进行线性变换后来代替权重矩阵W,其中k为分段编码层的输出维度,而对于偏置b本发明也使用了一个变换矩阵U2∈Rk×5来对A进行线性变换后代替,这样在保留了分类器中一定可学习参数的同时与查询文书产生了更多的交互。
Step3.2、将Step3.1得到的得分矩阵中所有分数相加作为候选文书B和C的最后得分Scoreb、Scorec,对于打分器输出的分数矩阵Scoreab、Scoreac,将得分为负的部分(不相似的部分)通过ReLU函数将其置为0,最后将每一个维度相似得分进行相加,具体如公式(11)、(12)所示。
在计算得到总分数后,通过公式(13)来计算概率pi,pi∈(0,1)来作为预测结果输出,其中Scoreb>0、Scorec>0,当候选文档B相似得分越高pi越大,相反候选文档C得分越高pi越小。本发明使用交叉熵来作为损失函数,如公式(14)所示。
Step3.3、整个过程采用端到端的方式来完成训练,选用AdamW来作为优化器,训练批次大小设置为16,初始学习率为0.0001,学习率的调整采用固定步长减小。
为了说明本发明的效果,本发明与七个模型进行了比较:CAIL2019-SCM数据集官方提供的三个基线模型、在短文本匹配上表现优越的ESIM模型、专门为长文本设计的一个文档级预训练模型ERNIE-DOC、以及AlphaCourt团队提出的模型、和LFESM,实验采用准确率作为评价指标,实验结果如表3所示:
表3CAIL2019-SCM数据集不同方法准确率对比
从表3中可以看出,本发明的模型在验证集上和测试集的表现是要好于三个官方提供的基准模型和ESIM的,在测试集上的准确率比最好的基准模型高了6.51%,相对于ERNIE-DOC本发明的方法在测试集上的准确率提高了7.24%,其中的原因可能在于,一是这些基于孪生网络设计的基准模型都是通过将文本序列编码成某一固定的向量,然后通过这一特征向量来实现匹配,这种方式会导致原本就很相似的民间借贷裁判文书在固定的特征向量上体现不出差异性,导致模型难以学习到文本之间细微的差异;二是以字符或词为单位的编码方式使得文本上下文语义信息丢失,而ERNIE-DOC对整篇文本编码又使得裁判文书中丰富的语义信息丢失。虽然与AlphaCourt的模型和LFESM相比在验证集上表现不佳,但是本发明的模型在测试集上的准确率是要比两者更高的,分别提升了3.38%和1.89%,这或许是因为AlphaCourt的模型和LFESM融合了能够体现案件之间差异的一些案件要素特征,导致了模型的泛化能力受到了限制,从表中的结果可以看出,它们从验证集到测试集的提升甚至低于部分基准模型。
同时,为了验证本发明提出的分段编码与仿射打分器在民间借贷相似案例匹配上的有效性,本发明设置了4组实验来说明,实验结果如表4所示:
表4各模块有效性准确率对比
第一组将输入层的自注意力机制移除后直接将嵌入的文本送入分段编码层,通过分段编码和仿射打分器完成匹配,从结果可以看出在移除自注意力机制后本发明的模型在测试集上的准确率下降了2.35%;第二组保留了自注意力机制,但是在分段编码层编码时没有进行分段编码,而是直接利用CNN对每一个词编码后通过仿射打分器打分完成匹配,可以看出性能有了明显的下降,这说明分段编码在裁判文书匹配上的有效性;第三组保留了输入层和分段编码层的模块,但是不再使用仿射打分器打分,而是将分段编码层的输出经过池化后拼接,通过多层感知机预测匹配结果,可以看到在没有使用仿射打分器情况下,测试集表现下降了4.17%;最后一组不移除任何模块,但是在分段编码时没有再单独为每一段设置编码器,而是共用一个编码器,可以看出准确率下降了5.47%,说明本发明模型在分段编码层编码部分为每一段输入设计单独的编码器,从不同的文本中提取到了不同的特征,这种多角度编码的方式在CAIL2019-SCM上是有效的。
为了探索分段编码层超参数分段数目对实验结果的影响,本发明设置了一组实验来验证,图2展示了在分段编码层,将文本分为3,4,5,6段的实验结果。
如图2所示,可以看出将文本分为5段时候取得的效果是最好的,本发明认为这是与裁判文书的结构有关的,第一段可以把它看作对应裁判文书第一部分诉讼人员的情况、第二段看作对应第二部分诉讼请求,由于第三部分事实描述的长度是最长的,所以将这一部分拆分成三段,这种拆分方式与人类在进行长文本理解时的直觉是一致的,实验结果表明这种分段参数设置是合理的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.融合分段编码与仿射机制的相似案例匹配方法,其特征在于:
所述方法的具体步骤如下:
Step1、对裁判文书进行预处理,利用结巴分词工具对裁判文书分词,对分词后的结果去除停用词和空字符,将处理后的裁判文书中的词转化为对应索引;
Step2、通过词嵌入获得裁判文书的嵌入表示,将文本的嵌入表示当作分段编码层的输入,对若干篇裁判文书分别利用自注意力机制获得各自的加权表示,将加权后的表示矩阵根据自身的长度和预先设置的阈值切分成若干段,对每一段利用单独的CNN来进行编码,最终获得若干篇裁判文书各自的特征矩阵;
Step3、将获得的特征矩阵送入仿射打分器进行交互并获得两个相似性得分,根据相似性得分来计算最终的输出概率,即对应标签的概率;
所述Step2的具体步骤如下:
Step2.1、通过预训练的300维的词向量获得裁判文书的嵌入表示,具体地对于长度为q的裁判文书a={a1,a2,...,aq},利用预训练的词向量来得到每一个词ai的固定d维的向量表示,整个文档a就表示为一个矩阵A∈Rq×d,同样的裁判文书B∈Rn×d和裁判文书C∈Rm×d
Step2.2、在获得每一篇裁判文书的表示矩阵之后,使用自注意力机制来对文档中的每一个词进行加权表示,具体而言对于裁判文书a首先将其文本嵌入矩阵M通过三次不同的线性变换转换为三个维度同样为d的矩阵Q(Query)、K(Key)和V(Value),将三个矩阵利用公式(1)进行计算得到新的矩阵表示,经过Self-Attention后文档中的每一个词的向量表示都是对文档其余所有词感知的一个向量;
其中Q,K,V∈Rq×d,d表示经过线性变换后词向量的维度,除以用于避免Q与K的内积过大,对裁判文书b、c采用同样方式获得新的表示;
Step2.3、分段编码层的输入是来自于Step2.2的文本嵌入矩阵M={v1,v2,...,vl},其中vi表示第i个词的向量,
A={va1,va2,...,vaq}、B={vb1,vb2,...,vbn}、C={vc1,vc2,...,vcm}即为三篇裁判文书的嵌入矩阵,首先利用公式(2)~(7)对文本矩阵进行编码:
p=len(A)/5,margin (2)
m1=Encoder1(M1),M1=M[v1:vp] (3)
m2=Encoder2(M2),M2=M[vp-margin:v2p+margin] (4)
m3=Encoder3(M3),M3=M[v2p-margin:v3p+margin] (5)
m4=Encoder4(M4),M4=M[v3p-margin:v4p+margin] (6)
m5=Encoder5(M5),M5=M[v4p-margin:vl] (7)
公式(2)~(7)的含义是,给定文本的嵌入矩阵M,将文本矩阵分成5段,首先由公式(2)计算每一段的基本长度p,再定义一个阈值margin用来控制段与段之间重合的词的个数,这样根据p和margin从原始嵌入矩阵M上截取到不同长度的五个矩阵Mi,对于每一部分分别将其通过五个编码器编码成固定的向量mi,使用CNN作为编码器,与图像上的编码方式不同,对于矩阵Mi∈Rl×d,l′为矩阵Mi中包含的词的个数,使用t个宽度分别为h1、h2、h3、h4,长度与词向量维度一样为d的卷积核以步长为1对此嵌入矩阵进行卷积操作,对于某一个宽度h的卷积核而言卷积操作具体如公式(8)所示;
ci=f(ω·xi:i+h-1+b),(i=1,2,...,l′-h+1) (8)
其中xi:i+h-1表示输入矩阵第i个词到第i+h-1个词向量所组成的一个大小为h×d的窗口,ω为一个大小为h×d的权重矩阵,b是一个偏置,f是一个非线性函数,卷积核通过自上而下移动对矩阵进行卷积得到l′-h+1个特征c;在卷积之后将这些特征拼接后得到最后的特征图C=[c1,c2,...,cl′-h+1],再对特征图进行最大池化操作得到最后的特征c′,由于卷积核使用了4种不同的宽度,每种宽度有t个,最终得到的编码后的特征向量mi的维度为1×4t;将这5个固定的编码向量mi进行拼接后得到一个编码后的特征矩阵M′∈R5×4t,三篇裁判文书的特征矩阵分别为DA、DB、DC
所述Step3的具体步骤如下:
Step3.1、将获得的特征矩阵DA、DB、DC,利用公式(9)、(10)来计算文本B和C相较于文本A的相似得分,其中Scoreab∈R5×5、Scoreac∈R5×5是两个得分矩阵,矩阵中的每一行分数代表A的第i部分对候选文书的每一部分的打分;
将上式称为仿射变换,利用了一个变换矩阵U1∈Rk×k,对查询文书A进行线性变换后来代替权重矩阵W,其中k为分段编码层的输出维度,而对于偏置b使用了一个变换矩阵U2∈Rk ×5来对A进行线性变换后代替,这样在保留了分类器中一定可学习参数的同时与查询文书产生了更多的交互;
Step3.2、将Step3.1得到的得分矩阵中所有分数相加作为候选文书B和C的最后得分Scoreb、Scorec,对于打分器输出的分数矩阵Scoreab、Scoreac,将得分为负的部分通过ReLU函数将其置为0,最后将每一个维度相似得分进行相加,具体如公式(11)、(12)所示;
在计算得到总分数后,通过公式(13)来计算概率pi,pi∈(0,1)来作为预测结果输出,其中Scoreb>0、Scorec>0,当候选文档B相似得分越高pi越大,相反候选文档C得分越高pi越小;整个过程采用端到端的方式来完成训练,使用交叉熵来作为损失函数。
2.根据权利要求1所述的融合分段编码与仿射机制的相似案例匹配方法,其特征在于:所述Step1的具体步骤为:
Step1.1、对每一篇裁判文书,利用正则表达式来提取裁判文书中的实体信息,将这些实体加入结巴分词的用户词典中后对裁判文书进行分词,将分词后的结果进行清理,包括停用词去除、空字符去除;
Step1.2、根据分词的结果构造词典,为每一个词设置唯一的ID,通过查询的方式获得每一个词的索引值,将裁判文书转化为数值表示。
CN202111078502.2A 2021-09-15 2021-09-15 融合分段编码与仿射机制的相似案例匹配方法 Active CN113901781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111078502.2A CN113901781B (zh) 2021-09-15 2021-09-15 融合分段编码与仿射机制的相似案例匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111078502.2A CN113901781B (zh) 2021-09-15 2021-09-15 融合分段编码与仿射机制的相似案例匹配方法

Publications (2)

Publication Number Publication Date
CN113901781A CN113901781A (zh) 2022-01-07
CN113901781B true CN113901781B (zh) 2024-04-26

Family

ID=79028304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111078502.2A Active CN113901781B (zh) 2021-09-15 2021-09-15 融合分段编码与仿射机制的相似案例匹配方法

Country Status (1)

Country Link
CN (1) CN113901781B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821605B (zh) * 2022-06-30 2022-11-25 苏州浪潮智能科技有限公司 一种文本的处理方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614479A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于距离向量的裁判文书推荐方法
CN109726287A (zh) * 2018-12-25 2019-05-07 银江股份有限公司 一种基于迁移学习和深度学习的人民调解案例分类系统及方法
CN110442684A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于文本内容的类案推荐方法
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN112508269A (zh) * 2020-12-03 2021-03-16 中国科学技术大学 法律判决预测方法及系统
WO2021051865A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 案件推荐方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614479A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于距离向量的裁判文书推荐方法
CN109726287A (zh) * 2018-12-25 2019-05-07 银江股份有限公司 一种基于迁移学习和深度学习的人民调解案例分类系统及方法
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN110442684A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于文本内容的类案推荐方法
WO2021051865A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 案件推荐方法、装置、设备及计算机可读存储介质
CN112508269A (zh) * 2020-12-03 2021-03-16 中国科学技术大学 法律判决预测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
image compression with encoder-decoder matched semantic segmentation;Trinh Man Hoang等;proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops;20201231;160-161 *
融合分段编码与仿射机制的相似案例匹配方法;赖华等;山东大学学报(理学版);20221104;40-47 *
面向司法案件的案情知识图谱自动构建;洪文兴;胡志强;翁洋;张恒;王竹;郭志新;;中文信息学报;20200115;第34卷(第01期);34-44 *

Also Published As

Publication number Publication date
CN113901781A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN111694924B (zh) 一种事件抽取方法和系统
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN106776545B (zh) 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN109977250B (zh) 融合语义信息和多级相似性的深度哈希图像检索方法
CN113806587A (zh) 一种多模态特征融合的视频描述文本生成方法
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN111241816A (zh) 一种新闻标题自动生成方法
CN107679031B (zh) 基于堆叠降噪自编码机的广告博文识别方法
CN112818676A (zh) 一种医学实体关系联合抽取方法
CN110222338B (zh) 一种机构名实体识别方法
CN116151132B (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN111914061B (zh) 文本分类主动学习的基于半径的不确定度采样方法和系统
CN110442741B (zh) 一种基于张量融合和重排序的跨模态图文互搜方法
CN110826298B (zh) 一种智能辅助定密系统中使用的语句编码方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN110704606A (zh) 一种基于图文融合的生成式摘要生成方法
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN114529903A (zh) 文本细化网络
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN113901781B (zh) 融合分段编码与仿射机制的相似案例匹配方法
CN111274494A (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN116186562B (zh) 基于编码器的长文本匹配方法
CN112905793A (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant