CN114764913A - 融入标签信息的案情要素识别方法 - Google Patents

融入标签信息的案情要素识别方法 Download PDF

Info

Publication number
CN114764913A
CN114764913A CN202210544080.1A CN202210544080A CN114764913A CN 114764913 A CN114764913 A CN 114764913A CN 202210544080 A CN202210544080 A CN 202210544080A CN 114764913 A CN114764913 A CN 114764913A
Authority
CN
China
Prior art keywords
label
attribute
representation
vector
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210544080.1A
Other languages
English (en)
Inventor
线岩团
张恒滔
赖华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210544080.1A priority Critical patent/CN114764913A/zh
Publication of CN114764913A publication Critical patent/CN114764913A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及融入标签信息的案情要素识别方法,属于自然语言处理领域。本发明包括:预处理CAIL2019‑SCM要素标注的关于民间借贷的裁判文书文本数据集;使用清洗过的裁判文书作为输入;之后利用在民事裁判文书上预训练的BERT对输入编码表示;进一步地利用CNN网络对事实描述部分特征提取;将提取后的表示分别与属性和标签表示进行融合;随后将合成的表示按照属性依次对该属性下的标签进行识别,分类器计算获得最终的标签概率分布。实验结果表明,该模型在CAIL2019‑SCM数据集的要素标注数据上能够更有效地将要素识别出来。

Description

融入标签信息的案情要素识别方法
技术领域
本发明涉及融入标签信息的案情要素识别方法,属于自然语言处理领域。
背景技术
民间借贷案情要素识别旨在通过对裁判文书的理解,将能够反映案件主要事实的要素按照属性体系提取出来,在智慧司法领域具有广泛应用。这些要素除了一些常见的案件发生时间、地点、涉事机构等基本要素外,还包括很多描述案件发生经过的关键要素。在司法领域,案件要素识别具有广泛的运用,识别出来的要素信息可以用于类案判断,辅助法院对同类案件审判,司法从业者可以通过案情要素快速掌握案件的来龙去脉,在实际场景在中还有更多与司法相关的其他业务会用到案件要素分析,如果能够将案件要素自动地从裁判文书中识别出来,这将会大大提高司法从业者的办公效率。
但现有的要素识别主要基于序列标注方法进行,并不适用于民间借贷案情,本发明将其转化为多标签文本分类任务,但数据稀缺和标签不平衡会导致分类器难以准确、完整地识别出要素。因此本发明通过不同的融合策略将标签属性、要素标签分别与裁判文书的编码表示融合,最后借助分类器分别识别每一类属性的要素。
发明内容
本发明提供了融入标签信息的案情要素识别方法,以用于解决无法通过序列标注方式识别民间借贷案件的案件要素和在面对数据稀缺、标签不平衡时难以准确识别案件要素的问题。
发明技术方案:融入标签信息的案情要素识别方法,所述方法的具体步骤如下:
Step1、对CAIL2019-SCM数据集的标注要素数据进行预处理,通过自己构建的正则表达式提取出裁判文书中的事实和理由部分,同时对标注的标签进行重名替换,并按照比例划分数据集;
Step2、通过在民事裁判文书上预训练的BERT模型生获得裁判文书和要素标签属性以及具体标签的表示,利用CNN对裁判文书事实描述进行特征提取,获得输入的编码表示,包括要素属性表示、要素标签表示、裁判文书的事实描述表示;
Step3、将获得的要素属性表示、要素标签表示分别与裁判文书的事实描述表示进行融合,最终按照要素属性得到对该属性下要素标签不同关注度的特征向量;
Step4、特征向量被送入不同属性对应的分类器,经分类器计算得到每一个属性下各标签的概率作为输出。
所述步骤Step1的具体步骤为:
Step1.1、对每一篇裁判文书,利用正则表达式来提取裁判文书的主体部分,具体而言就是裁判文书中的事实和理由部分;
Step1.2、对标签信息进行重名替换,将一些表述一致的标签进行修改,加上该标签对应的属性名字,例如借款交付形式中的“其他”修改为“其他借款形式”,使其更具有区分性。
Step1.3、CAIL2019-SCM标注要素数据按照8:1:1进行划分,分别设为训练集、验证集、测试集。
作为本发明的优选方案,利用基于BERT和CNN构造的编码模块获得要素属性表示、要素标签表示、裁判文书的事实描述表示,所述步骤Step2的具体步骤如下:
Step2.1、利用在两千多万篇民事裁判文书预训练的“民事BERT”同时对事实描述、要素类别属性、要素标签三部分文本进行编码,输入的文本经词表转化为对应的id表示,id表示经BERT编码后输出,其过程可以抽象为公式(1-3)所示。
HX=BERT(X) (1)
HA=BERT(A) (2)
HY=BERT(Y) (3)
其中
Figure BDA0003651415240000021
n表示事实描述文本序列的长度,m表示类别属性总个数,s表示标签集所包含的标签总个数,d代表词向量维度;
Step2.2、对于属性和标签的表示,本发明将每一个属性
Figure BDA0003651415240000022
标签
Figure BDA0003651415240000023
的字符向量ati、yti平均后得到该属性、标签的编码表示,ti表示第i个字符,la、ly分别表示某一属性、某一标签所含的字符个数,详细计算见公式(4-5)。
Figure BDA0003651415240000024
Figure BDA0003651415240000025
上式中
Figure BDA0003651415240000026
即为类别属性、要素标签的编码表示,
Figure BDA0003651415240000027
即为类别属性集合和标签集合的BERT编码后的最终结果。
Step2.3、本发明利用CNN构成的特征提取网络来对事实描述序列进行特征提取,对于裁判文书经由BERT编码的输出
Figure BDA0003651415240000028
通过公式(6)来对其中的文本表示向量卷积。
Ci=f(W·Xi:i+h-1+b) (6)
上式的含义是文本矩阵由n个词的向量表示x组成,一个与编码层维度一般长宽度为h的卷积核,自上而下地与卷积核窗口内的词做卷积,式子中的W为卷积核中的参数矩阵,b是一个偏置项,f为非线性函数,在本发明中我们使用ReLU函数代替,得到特征ci。在窗口大小为h的卷积作用下,得到的特征图
Figure BDA0003651415240000031
如公式(7)所示。
C=[C1,C2,...,Cn-h+1] (7)
Figure BDA0003651415240000032
在池化层对特征图进行最大池化操作,如公式(8)所示。每一种长度为h的卷积,设置m个,则该种卷积核卷积得到的最终池化后的特征图为一个m维向量。我们将多种窗口大小不同的卷积核卷积得到的向量拼接后得到最终的特征向量,事实描述表示矩阵的整个特征提取的过程可以概括为公式(9),其中特征向量
Figure BDA0003651415240000033
h=CNN_Pooling(HX) (9)
作为本发明的优选方案,所述步骤Step3的具体步骤如下:
Step3.1、基于多标签文本分类的要素识别,通常直接利用文本编码表示识别要素标签,难以将标签完整识别出来,本发明将类别属性的编码表示
Figure BDA0003651415240000034
的行向量分别与事实描述的特征表示向量
Figure BDA0003651415240000035
融合,融合过程如下:
(1)加权特征:将事实描述特征表示与类别属性表示对位相加,由于事实描述文本序列本身长度较长、信息量大,对分类器而言具有主要的特征贡献,而类别属性的长度要小得多,因此通过简单的对位相加后平均的融合方式可能并不适用,本发明通过公式(10)对两者加权。
h′=αh+βha (10)
上述公式表示两种表示在词向量维度d上以预先设置的权值α,β按比例进行相加。
(2)特征转化:将特征表示送入前馈神经网络,进一步融合,利用这种方式将稀疏的特征整合,通过网络参数学习来提升表示能力,其过程可表示为公式(11)。
Figure BDA0003651415240000036
Figure BDA0003651415240000037
Step3.2、Step3.1公式(11)中的Wl为参数矩阵,bl为偏置项,转化后的特征表示记作
Figure BDA0003651415240000038
将所有属性与事实描述融合后的特征表示连接得到矩阵
Figure BDA0003651415240000039
融合了属性信息的表示分别与对应属性下的标签集合基于注意力机制加权,整个过程如下:
(1)截取标签集:经BERT编码后的标签矩阵包含了所有标签的表示,根据属性对应的标签集长度从标签矩阵上截取出m个子集矩阵,例如属性ai,其对应的标签集
Figure BDA00036514152400000310
共包含li个标签,则li个标签向量表示构成了属性ai的标签矩阵
Figure BDA00036514152400000311
(2)计算注意力得分:融合了属性信息的表示与该属性下的标签集分别计算注意力分数,注意力得分显性地展示了文本对不同交互对象的关注程度,由于类别属性较多,为了减小模型复杂度和计算时间,本发明基于软注意力机制(Soft-Attention)通过计算融合属性的表示与各标签向量之间的点积来计算注意力分布,计算过程如公式(13-14)所示。
Figure BDA0003651415240000041
Figure BDA0003651415240000042
(3)加权标签信息:基于公式(14)得到的注意力分数对标签集加权,得到最终的整合向量,如公式(15)所示。
hoi=∑αaiYai (15)
Figure BDA0003651415240000043
表示第i个属性对应的标签集与事实描述融合后的输出,该整合向量融合了特定属性的信息并对该属性下的标签给予了不同的关注度,用做分类器的输入。
作为本发明的优选方案,所述步骤Step4的具体步骤如下:
Step4.1、本发明对每一个类别属性下的标签单独预测,为每一个整合向量ho基于全连接网络和softmax函数构建分类器,整合向量经全连接层映射为与标签集长度一致的向量,再经过sotfmax函数转化为对应的概率表示,整个过程如公式(16)所示。
Figure BDA0003651415240000044
其中
Figure BDA0003651415240000045
表示在某一属性下,整合向量ho属于标签y的概率,l表示该属性对应的标签集所含标签的个数,Ws为全连接层用于标签映射的参数矩阵
Step4.2、根据标签的概率分布和真实标签利用交叉熵来计算第i个属性的损失,计算公式为(17)。
Figure BDA0003651415240000046
Figure BDA0003651415240000047
则样本的(Xi,Yi)的损失由所有属性的损失求和平均得到,如公式(18)所示,最终通过反向传播总的样本损失来对每一个分类器进行迭代优化。
Step4.3、整个模型训练过程采用选用AdamW来作为优化器,隐藏层维度d=768,支持的最大序列长度512个字符,批次大小batch-size设置为6,初始学习率为2e-5,学习率的调整采用固定步长减小
本发明的有益效果是:
(1)本发明的融入标签信息的案情要素识别方法,基于多标签文本分类方法设计的模型,将这些特征用于识别案件要素,解决了无法利用序列标注进行提取民间借贷案情要素的问题。
(2)本发明的融入标签信息的案情要素识别方法,利用在民事裁判文书上进行预训练的BERT来对文本编码,这种领域预训练的BERT具有更好的语义敏感性,通过CNN对文本序列进行特征提取,为缓解输出特征稀疏问题,利用最大池化策略来对文本特征序列筛选有效特征值,有效提取到了民间借贷裁判文书中的特征信息。
(3)本发明的融入标签信息的案情要素识别方法,将标签所属的属性类别、以及属性对应的标签集融入到文本表示中,在标签预测层按属性进行标签预测,在数据稀缺的情况下借助标签信息有效提升了识别性能,在CAIL2019-SCM要素标注数据集上在验证集和测试集上的平均F1值分别比基线模型BERT提高了0.036和0.0469。
附图说明
图1是本发明提出的融入标签信息的案情要素识别方法的模型结构示意图。
图2是本发明提出的融入标签信息的案情要素识别方法处理后输入数据的长度分布情况。
具体实施方式
实施例1:如图1所示,融入标签信息的案情要素识别方法,所述方法的具体步骤如下:
Step1、对CAIL2019-SCM数据集的标注要素数据进行预处理,通过自己构建的正则表达式提取出裁判文书中的事实和理由部分,同时对标注的标签进行重名替换,并按照比例划分数据集;
Step1.1、对每一篇裁判文书,利用正则表达式来提取裁判文书的主体部分,具体而言就是裁判文书中的事实和理由部分;
Step1.2、对标签信息进行重名替换,将一些表述一致的标签进行修改,加上该标签对应的属性名字,例如借款交付形式中的“其他”修改为“其他借款形式”,使其更具有区分性。
Step1.3、CAIL2019-SCM标注要素数据按照8:1:1进行划分,分别设为训练集、验证集、测试集,数据集文本的长度大部分集中在550~670个字符,平均长度为613个字符,最长的有958个字符,最短521个字符,具体分布情况如图2所示。
Step2、通过在民事裁判文书上预训练的BERT模型生获得裁判文书和要素标签属性以及具体标签的表示,利用CNN对裁判文书事实描述进行特征提取,获得输入的编码表示,包括要素属性表示、要素标签表示、裁判文书的事实描述表示;
Step2.1、利用在两千多万篇民事裁判文书预训练的“民事BERT”同时对事实描述、要素类别属性、要素标签三部分文本进行编码,输入的文本经词表转化为对应的id表示,id表示经BERT编码后输出,其过程可以抽象为公式(1-3)所示。
HX=BERT(X) (1)
HA=BERT(A) (2)
HY=BERT(Y) (3)
其中
Figure BDA0003651415240000061
n表示事实描述文本序列的长度,m表示类别属性总个数,s表示标签集所包含的标签总个数,d代表词向量维度;
Step2.2、对于属性和标签的表示,本发明将每一个属性
Figure BDA0003651415240000062
标签
Figure BDA0003651415240000063
的字符向量ati、yti平均后得到该属性、标签的编码表示,ti表示第i个字符,la、ly分别表示某一属性、某一标签所含的字符个数,详细计算见公式(4-5)。
Figure BDA0003651415240000064
Figure BDA0003651415240000065
上式中
Figure BDA0003651415240000066
即为类别属性、要素标签的编码表示,
Figure BDA0003651415240000067
即为类别属性集合和标签集合的BERT编码后的最终结果。
Step2.3、本发明利用CNN构成的特征提取网络来对事实描述序列进行特征提取,对于裁判文书经由BERT编码的输出
Figure BDA0003651415240000068
通过公式(6)来对其中的文本表示向量卷积。
Ci=f(W·Xi:i+h-1+b) (6)
上式的含义是文本矩阵由n个词的向量表示x组成,一个与编码层维度一般长宽度为h的卷积核,自上而下地与卷积核窗口内的词做卷积,式子中的W为卷积核中的参数矩阵,b是一个偏置项,f为非线性函数,在本发明中我们使用ReLU函数代替,得到特征ci。在窗口大小为h的卷积作用下,得到的特征图
Figure BDA0003651415240000069
如公式(7)所示。
C=[C1,C2,...,Cn-h+1] (7)
Figure BDA00036514152400000610
在池化层对特征图进行最大池化操作,如公式(8)所示。每一种长度为h的卷积,设置m个,则该种卷积核卷积得到的最终池化后的特征图为一个m维向量。我们将多种窗口大小不同的卷积核卷积得到的向量拼接后得到最终的特征向量,事实描述表示矩阵的整个特征提取的过程可以概括为公式(9),其中特征向量
Figure BDA00036514152400000611
h=CNN_Pooling(HX) (9)
Step3、将获得的要素属性表示、要素标签表示分别与裁判文书的事实描述表示进行融合,最终按照要素属性得到对该属性下要素标签不同关注度的特征向量;
Step3.1、基于多标签文本分类的要素识别,通常直接利用文本编码表示识别要素标签,难以将标签完整识别出来,本发明将类别属性的编码表示
Figure BDA0003651415240000071
的行向量分别与事实描述的特征表示向量
Figure BDA0003651415240000072
融合,融合过程如下:
(1)加权特征:将事实描述特征表示与类别属性表示对位相加,由于事实描述文本序列本身长度较长、信息量大,对分类器而言具有主要的特征贡献,而类别属性的长度要小得多,因此通过简单的对位相加后平均的融合方式可能并不适用,本发明通过公式(10)对两者加权。
h′=αh+βha (10)
上述公式表示两种表示在词向量维度d上以预先设置的权值α,β按比例进行相加。
(2)特征转化:将特征表示送入前馈神经网络,进一步融合,利用这种方式将稀疏的特征整合,通过网络参数学习来提升表示能力,其过程可表示为公式(11)。
Figure BDA0003651415240000073
Figure BDA0003651415240000074
Step3.2、Step3.1公式(11)中的Wl为参数矩阵,bl为偏置项,转化后的特征表示记作
Figure BDA0003651415240000075
将所有属性与事实描述融合后的特征表示连接得到矩阵
Figure BDA0003651415240000076
融合了属性信息的表示分别与对应属性下的标签集合基于注意力机制加权,整个过程如下:
(1)截取标签集:经BERT编码后的标签矩阵包含了所有标签的表示,根据属性对应的标签集长度从标签矩阵上截取出m个子集矩阵,例如属性ai,其对应的标签集
Figure BDA0003651415240000077
共包含li个标签,则li个标签向量表示构成了属性ai的标签矩阵
Figure BDA0003651415240000078
(2)计算注意力得分:融合了属性信息的表示与该属性下的标签集分别计算注意力分数,注意力得分显性地展示了文本对不同交互对象的关注程度,由于类别属性较多,为了减小模型复杂度和计算时间,本发明基于软注意力机制(Soft-Attention)通过计算融合属性的表示与各标签向量之间的点积来计算注意力分布,计算过程如公式(13-14)所示。
Figure BDA0003651415240000079
Figure BDA00036514152400000710
(3)加权标签信息:基于公式(14)得到的注意力分数对标签集加权,得到最终的整合向量,如公式(15)所示。
hoi=∑αaiYai (15)
Figure BDA00036514152400000711
表示第i个属性对应的标签集与事实描述融合后的输出,该整合向量融合了特定属性的信息并对该属性下的标签给予了不同的关注度,用做分类器的输入。
Step4、特征向量被送入不同属性对应的分类器,经分类器计算得到每一个属性下各标签的概率作为输出。
Step4.1、本发明对每一个类别属性下的标签单独预测,为每一个整合向量ho基于全连接网络和softmax函数构建分类器,整合向量经全连接层映射为与标签集长度一致的向量,再经过sotfmax函数转化为对应的概率表示,整个过程如公式(16)所示。
Figure BDA0003651415240000081
其中
Figure BDA0003651415240000082
表示在某一属性下,整合向量ho属于标签y的概率,l表示该属性对应的标签集所含标签的个数,Ws为全连接层用于标签映射的参数矩阵
Step4.2、根据标签的概率分布和真实标签利用交叉熵来计算第i个属性的损失,计算公式为(17)。
Figure BDA0003651415240000083
Figure BDA0003651415240000084
则样本的(Xi,Yi)的损失由所有属性的损失求和平均得到,如公式(18)所示,最终通过反向传播总的样本损失来对每一个分类器进行迭代优化。
Step4.3、整个模型训练过程采用选用AdamW来作为优化器,隐藏层维度d=768,支持的最大序列长度512个字符,批次大小batch-size设置为6,初始学习率为2e-5,学习率的调整采用固定步长减小。
为了说明本发明的效果,本发明与9个模型在同一数据集上进行了对比,其中包括基于词嵌入的神经网络模型和基于与训练语言模型的方法,实验结果如表1所示:
表1对比实验结果
Figure BDA0003651415240000085
Figure BDA0003651415240000091
表1中可以看出,本发明提出的方法在该数据集上无论是验证集还是测试集上的平均F1值都达到了最好,证明了本发明方法在民间借贷裁判文书要素识别上的有效性,尤其是在Macro-F1值上相较于其他模型提升的更多,在验证集和测试集上分别比基线模型BERT提高了0.036和0.0469,这说明本发明的方法在针对一些少样本的要素标签上能够比其他模型表现得更好。从整体上来看,除了BERT-LSTM以外,基于预训练语言模型编码的方法其效果要普遍好于其他的基线模型,这可能是因为民间借贷裁判文书中涉及大量金额、日期等,利用CNN来捕获局部特征,能够有效学习到这些数字信息,在裁判文书的处理上,CNN的效果要好于LSTM,因此本发明提出的方法使用CNN作为裁判文书事实描述的特征提取器是合理的。
在前四个基于词嵌入的模型实验中,我们预先对裁判文书进行了分词处理,这四个模型中DPCNN的效果是最好的,但与基于字符输入的BERT-CNN或是本发明的方法相比还是有所差距,这也说明了BERT强大的语义编码能力,足以减轻分词对文本上下文语义信息的影响。
为了验证本发明利用正则表达式提取出裁判文书中事实和理由进行实验这一设置的合理性,我们还将全文内容保留作为输入,并在部分基于词嵌入的模型上做了验证,实验结果与本发明模型在剔除首部内容的数据上的性能作了比较,结果如表2所示。
表2在全文上的实验结果
Figure BDA0003651415240000092
通过表1与表2的对比可以看出,在使用相同模型的情况下,裁判文书输入是否保留涉诉人员基本情况对识别的结果影响并不大,除了FastText模型以外,其余模型的提升不足1%,这种提升可能体现在对借款人属性和还款人属性识别上的,但本发明的方法相比这一提升甚至可以忽略,因此本发明只选取事实和理由部分作为输入一方面符合预训练语言模型的输入限制,另一方面利用裁判文书中尽可能少的信息达到了较好的要素识别效果。
表3消融实验结果
Figure BDA0003651415240000101
为了验证本发明提出的方法中每一模块设置的合理性,上表表3给出了在保留和移除不同模块后的实验结果。从表3中可以看出,在测试集上分别移除三个模块得到的结果彼此的F1值差距不大,但是在移除任一模块后与完整的模型所得的结果相比存在一定差距。实验结果中第一行表示在不对事实和理由编码表示进行属性信息、标签信息融合的情况下的识别性能,相较于本发明的完整模型性能下降了0.0198,第二行在移除BERT模块后测试集均值F1减少了0.0206,第三行移除特征提取模块后则降低了0.0127,从以上结果可以看出,每一模块在本发明提出的方法中存在的合理性。三个模块中融合标签和属性信息模块对整体识别性能的提升最大,在加入信息融合模块后但没有使用BERT模块或是特征提取模块的情况下仍得到了好于大部分基线模型的结果,这其中的提升很大程度在于分类器对融入标签信息的输出给予了不同的关注度,标签信息有效指导了分类器对每一属性下的要素识别,从而验证了本发明提出的融入标签信息的有效性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.融入标签信息的案情要素识别方法,其特征在于:所述方法的具体步骤如下:
Step1、对数据集的标注要素数据进行预处理,通过构建的正则表达式提取出裁判文书中的事实和理由部分,同时对标注的标签进行重名替换,并按照比例划分数据集;
Step2、通过在民事裁判文书上预训练的BERT模型生获得裁判文书和要素标签属性以及具体标签的表示,利用CNN对裁判文书事实描述进行特征提取,获得输入的编码表示,包括要素属性表示、要素标签表示、裁判文书的事实描述表示;
Step3、将获得的要素属性表示、要素标签表示分别与裁判文书的事实描述表示进行融合,最终按照要素属性得到对该属性下要素标签不同关注度的特征向量;
Step4、特征向量被送入不同属性对应的分类器,经分类器计算得到每一个属性下各标签的概率作为输出。
2.根据权利要求1所述的融入标签信息的案情要素识别方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、对每一篇裁判文书,利用正则表达式来提取裁判文书的主体部分,具体而言就是裁判文书中的事实和理由部分;
Step1.2、对标签信息进行重名替换,将表述一致的标签进行修改,加上该标签对应的属性名字;
Step1.3、CAIL2019-SCM标注要素数据按照8:1:1进行划分,分别设为训练集、验证集、测试集。
3.根据权利要求1所述的融入标签信息的案情要素识别方法,其特征在于:利用基于BERT和CNN构造的编码模块获得要素属性表示、要素标签表示、裁判文书的事实描述表示,所述步骤Step2的具体步骤如下:
Step2.1、利用民事裁判文书预训练的“民事BERT”同时对事实描述、要素类别属性、要素标签三部分文本进行编码,输入的文本经词表转化为对应的id表示,id表示经BERT编码后输出,其过程抽象为公式(1-3)所示;
HX=BERT(X) (1)
HA=BERT(A) (2)
HY=BERT(Y) (3)
其中
Figure FDA0003651415230000011
n表示事实描述文本序列的长度,m表示类别属性总个数,s表示标签集所包含的标签总个数,d代表词向量维度;
Step2.2、对于属性和标签的表示,将每一个属性
Figure FDA0003651415230000012
标签
Figure FDA0003651415230000013
的字符向量ati、yti平均后得到该属性、标签的编码表示,ti表示第i个字符,la、ly分别表示某一属性、某一标签所含的字符个数,详细计算见公式(4-5);
Figure FDA0003651415230000021
Figure FDA0003651415230000022
上式中
Figure FDA0003651415230000023
即为类别属性、要素标签的编码表示,
Figure FDA0003651415230000024
即为类别属性集合和标签集合的BERT编码后的最终结果;
Step2.3、利用CNN构成的特征提取网络来对事实描述序列进行特征提取,对于裁判文书经由BERT编码的输出
Figure FDA0003651415230000025
通过公式(6)来对其中的文本表示向量卷积;
Ci=f(W·Xi:i+h-1+b) (6)
上式的含义是文本矩阵由n个词的向量表示x组成,一个与编码层维度长宽度为h的卷积核,自上而下地与卷积核窗口内的词做卷积,式子中的W为卷积核中的参数矩阵,b是一个偏置项,f为非线性函数,使用ReLU函数代替,得到特征ci;在窗口大小为h的卷积作用下,得到的特征图
Figure FDA0003651415230000026
如公式(7)所示;
C=[C1,C2,...,Cn-h+1] (7)
Figure FDA0003651415230000027
在池化层对特征图进行最大池化操作,如公式(8)所示;每一种长度为h的卷积,设置m个,则该种卷积核卷积得到的最终池化后的特征图为一个m维向量;将多种窗口大小不同的卷积核卷积得到的向量拼接后得到最终的特征向量,事实描述表示矩阵的整个特征提取的过程概括为公式(9),其中特征向量
Figure FDA0003651415230000028
h=CNN_Pooling(HX) (9)。
4.根据权利要求1所述的融入标签信息的案情要素识别方法,其特征在于:所述Step3的具体步骤如下:
Step3.1、基于多标签文本分类的要素识别,通常直接利用文本编码表示识别要素标签,难以将标签完整识别出来,将类别属性的编码表示
Figure FDA0003651415230000029
的行向量分别与事实描述的特征表示向量
Figure FDA00036514152300000210
融合,融合过程如下:
(1)加权特征:将事实描述特征表示与类别属性表示对位相加,通过公式(10)对两者加权;
h′=αh+βha (10)
上式表示两种表示在词向量维度d上以预先设置的权值α,β按比例进行相加;
(2)特征转化:将特征表示送入前馈神经网络,进一步融合,利用这种方式将稀疏的特征整合,通过网络参数学习来提升表示能力,其过程表示为公式(11);
Figure FDA00036514152300000211
Figure FDA0003651415230000031
Step3.2、Step3.1公式(11)中的Wl为参数矩阵,bl为偏置项,转化后的特征表示记作
Figure FDA0003651415230000032
将所有属性与事实描述融合后的特征表示连接得到矩阵
Figure FDA0003651415230000033
融合了属性信息的表示分别与对应属性下的标签集合基于注意力机制加权,整个过程如下:
(1)截取标签集:经BERT编码后的标签矩阵包含了所有标签的表示,根据属性对应的标签集长度从标签矩阵上截取出m个子集矩阵,属性ai,其对应的标签集
Figure FDA0003651415230000034
共包含li个标签,则li个标签向量表示构成了属性ai的标签矩阵
Figure FDA0003651415230000035
(2)计算注意力得分:融合了属性信息的表示与该属性下的标签集分别计算注意力分数,注意力得分显性地展示了文本对不同交互对象的关注程度,基于软注意力机制通过计算融合属性的表示与各标签向量之间的点积来计算注意力分布,计算过程如公式(13-14)所示;
Figure FDA0003651415230000036
Figure FDA0003651415230000037
(3)加权标签信息:基于公式(14)得到的注意力分数对标签集加权,得到最终的整合向量,如公式(15)所示;
hoi=∑αaiYai (15)
Figure FDA0003651415230000038
表示第i个属性对应的标签集与事实描述融合后的输出,该整合向量融合了特定属性的信息并对该属性下的标签给予了不同的关注度,用做分类器的输入。
5.根据权利要求1所述的融入标签信息的案情要素识别方法,其特征在于:所述Step4的具体步骤如下:
Step4.1、对每一个类别属性下的标签单独预测,为每一个整合向量ho基于全连接网络和softmax函数构建分类器,整合向量经全连接层映射为与标签集长度一致的向量,再经过sotfmax函数转化为对应的概率表示,整个过程如公式(16)所示;
Figure FDA0003651415230000039
其中
Figure FDA00036514152300000310
表示在某一属性下,整合向量ho属于标签y的概率,l表示该属性对应的标签集所含标签的个数,Ws为全连接层用于标签映射的参数矩阵;
Step4.2、根据标签的概率分布和真实标签利用交叉熵来计算第i个属性的损失,计算公式为(17);
Figure FDA00036514152300000311
Figure FDA0003651415230000041
则样本的(Xi,Yi)的损失由所有属性的损失求和平均得到,如公式(18)所示,最终通过反向传播总的样本损失来对每一个分类器进行迭代优化;
Step4.3、整个模型训练过程采用选用AdamW来作为优化器,隐藏层维度d=768,支持的最大序列长度512个字符,批次大小batch-size设置为6,初始学习率为2e-5,学习率的调整采用固定步长减小。
CN202210544080.1A 2022-05-19 2022-05-19 融入标签信息的案情要素识别方法 Pending CN114764913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210544080.1A CN114764913A (zh) 2022-05-19 2022-05-19 融入标签信息的案情要素识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210544080.1A CN114764913A (zh) 2022-05-19 2022-05-19 融入标签信息的案情要素识别方法

Publications (1)

Publication Number Publication Date
CN114764913A true CN114764913A (zh) 2022-07-19

Family

ID=82365235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210544080.1A Pending CN114764913A (zh) 2022-05-19 2022-05-19 融入标签信息的案情要素识别方法

Country Status (1)

Country Link
CN (1) CN114764913A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983270A (zh) * 2022-12-02 2023-04-18 重庆邮电大学 一种电商商品属性智能抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983270A (zh) * 2022-12-02 2023-04-18 重庆邮电大学 一种电商商品属性智能抽取方法
CN115983270B (zh) * 2022-12-02 2024-05-03 芽米科技(广州)有限公司 一种电商商品属性智能抽取方法

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN109697285B (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN112199536A (zh) 一种基于跨模态的快速多标签图像分类方法和系统
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN112786160A (zh) 基于图神经网络的多图片输入的多标签胃镜图片分类方法
CN111428511A (zh) 一种事件检测方法和装置
CN111274494B (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN104966093A (zh) 一种基于深度神经网络的动态纹理识别方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN114764913A (zh) 融入标签信息的案情要素识别方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN117217807B (zh) 一种基于多模态高维特征的不良资产估值方法
CN113569048A (zh) 一种基于企业经营范围自动划分所属行业的方法及系统
CN117314623A (zh) 融合外部知识的贷款欺诈预测方法、装置及存储介质
CN115422362B (zh) 一种基于人工智能的文本匹配方法
CN117114705A (zh) 一种基于持续学习的电商欺诈识别方法与系统
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN111460817A (zh) 一种刑事法律文书相关法条的推荐方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination