CN112784047A - 一种基于自注意力机制的可控可解释司法文本分类方法 - Google Patents

一种基于自注意力机制的可控可解释司法文本分类方法 Download PDF

Info

Publication number
CN112784047A
CN112784047A CN202110098164.2A CN202110098164A CN112784047A CN 112784047 A CN112784047 A CN 112784047A CN 202110098164 A CN202110098164 A CN 202110098164A CN 112784047 A CN112784047 A CN 112784047A
Authority
CN
China
Prior art keywords
keyword
text
word
attention
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110098164.2A
Other languages
English (en)
Other versions
CN112784047B (zh
Inventor
刘群
王崇宇
邓维斌
王国胤
朱坤
李云波
彭露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110098164.2A priority Critical patent/CN112784047B/zh
Publication of CN112784047A publication Critical patent/CN112784047A/zh
Application granted granted Critical
Publication of CN112784047B publication Critical patent/CN112784047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于自注意力机制的可控可解释司法文本分类方法,属于自然语言处理文本分类领域。该方法提出了Leadformer模型,在Leadformer上人为的设定每个头的作用,分为关键词头与多粒度上下文头,做到宏观上的可控可解释,在关键词头上,以自注意力机制为着力点,采用多任务学习,文本分类任务结合关键词抽取任务,使模型受人为控制地注意在可作为分类解释的词语上,做到微观上的可控可解释。本发明应用于司法领域,能够在高准确率分类的同时,给出分类的解释,并且人为控制注意力矩阵注意在与此类案由相关的关键词上,使相关人员能信任此分类结果。

Description

一种基于自注意力机制的可控可解释司法文本分类方法
技术领域
本发明属于自然语言处理文本分类领域,涉及一种基于自注意力机制的可控可解释司法文本分类方法。
背景技术
伴随着互联网科技的发展与智能化信息的建设,日常生活中会产生许多文本信息,互联网上的文本数据也呈爆炸式增长,垃圾信息混入有价值的信息中,难以辨别。司法文本类别种类繁多,并且数据量巨大,单中国裁判文书网内的裁判文书多达数千万件,并以每日数万件地快速增长,如果能按照司法文本类别对相关司法文本进行初步分类,将极大地节省用户的时间。手工处理和分类大量的文本数据既费时又具有挑战性,并且手齐心工文本分类的准确性容易受到人为因素的影响,如疲劳、专业知识等。而通过深度学习进行司法文本分类能极大地减少工作量,并且提高分类精度。
目前,推进智慧司法,运用人工智能进行司法文本分类是很有必要的。
深度模型的可解释问题是学界现在一直在讨论和研究的工作之一,在自然语言处理领域亦是,想搭建一个具有可解释性的系统是一件非常困难的事,无论人们是直接使用何种机器学习、深度学习方法分类器作为工具,一个至关重要的问题都存在:如果用户不信任模型或预测,我们就很难去使用它,如基于深度学习的医疗诊断由于不可解释性无法获知其判断依据从而无法可信使用、司法量刑风险得分因为其不可解释而发生偏差造成判断错误等。因此,将两者结合起来,研究基于深度学习的可解释的司法文本分类是非常有价值和意义的。
发明内容
有鉴于此,本发明的目的在于提供一种基于自注意力机制的可控可解释司法文本分类方法,通过改进的融合类别信息的TF-IDF算法,获取关键词,构建数据集;人为的设定Leadformer每个头的作用,分为多粒度上下文头和关键词头,做到宏观上的可控可解释;在关键词头上采用多任务学习,文本分类任务结合关键词抽取任务,使模型受人为控制地注意在可作为分类解释的词语上,做到微观上的可控可解释;对注意力矩阵与每个单词对分类结果的贡献,验证模型注意力的控制效果,最终达到可解释。
为达到上述目的,本发明提供如下技术方案:
一种基于自注意力机制的可控可解释司法文本分类方法,涉及Leadformer模型和多关键词抽取、文本分类多任务学习模型,应用于给定新闻主题文本或不同类别法律文本的条件下,利用控制Leadformer头作用与控制模型所注意关键词,达到可控可解释的文本分类。该模型在Transformer框架的基础上,人为的设定每个头的作用,分为关键词头与多粒度上下文头,从其自注意力机制为着力点,设置文本分类为主,关键词抽取为辅的多任务学习,通过融合类别的TF-IDF算法获取目标关键词标签,以此作为关键词抽取任务目标。该方法具体包括以下步骤:
S1:通过国家裁判文书网获取法律文本数据集,将数据集分词,去除停用词,设置文本最大长度为Lpadsize,超过部分截断;
S2:将数据集划分为训练集和测试集,训练集通过融合类别信息的TF-IDF算法提取额外的关键词标签;
S3:将文本输入模型前,先将文本进行Embedding操作,将文本向量化;
S4:对Transformer的编码器进行修改,形成Leadformer模型,对多头功能控制,设置关键词头与多粒度上下文头,进行训练;
S5:将步骤S3向量化后的测试文本放入已经训练好的Leadformer模型,对分类效果进行指标上的测试。
进一步,步骤S2具体包括以下步骤:
S21:将数据划分为训练集和测试集,根据不同的数据集,设置不同的最大句子长度Lpadsize
S22:计算训练集每个词融入类别信息的词频,其计算公式为:
Figure BDA0002915147590000021
S23:计算训练集每个词融入类别信息的逆词频,其计算公式为:
Figure BDA0002915147590000022
其中,η为根据类别数设定的参数,类别数不同,此类词数与此类外词数比例变化大,需要参数进行调节,类别数越少,η往往越大,分母加一是为了防止分母为0;
S24:每个词语的融入类别信息的词频与逆词频相乘得到此词语在每类中的关键程度,对此词语的TF-IDF值进行排序,得到每个类别分别的关键词排序文件;
S25:对每个类别的关键词排序文件进行筛选,剔除不适合作为解释的词语,形成可解释关键词文件;
S26:根据每个类别的可解释关键词文件,对训练集新增额外的解释关键词标签。
进一步,步骤S26具体包括:
(1)对于短文本数据集,通过训练集每段文本的类别标签,分别查询不同类别的关键词排序文件,获取此段文本最关键的词语,将这个词语在此段文字中的位置作为训练集额外的标签;
(2)对于长文本数据集,设置每个类别的关键词排序文件的前n个为此类别的关键词,通过训练集每段文本的类别标签,分别查询不同类别的关键词排序文件,分别查询每个词语是否位于此类别的关键词排序文件的前n个,对每个词语加入额外的0、1标签,是关键词标1,不是关键词标0。
进一步,步骤S4具体包括以下步骤:
S41:设定网络的最大输入长度为Lpadsize,超出部分截断,不足部分使用填充字符<pad>填充;
S42:使用3层3个头,设置每层的前两个头为多粒度上下文头,设置最后一层的第三个头作为关键词头;人为的设置每个头的作用,做到整体的可控可解释;
S43:设置多粒度上下文头,将每层的第一个头设置为粒度为1的头,即为只能每个单词只能看到自身的头,将每层的第二个头设置为粒度为2的头,即为只能每个单词能看到自身与上下一个单词的头;
S44:设计关键词头,将关键词抽取任务作用于关键词头的注意力矩阵,文本分类任务同时作用于此注意力矩阵,两任务Loss相加,形成多任务学习;通过关键词抽取任务,直接地限制注意力矩阵所注意的单词,控制关键词头的注意力在人为设置的可以作为分类解释的关键词上,做到关键词层面的可控可解释。
进一步,步骤S43具体包括:
(1)设计如下所示的MASK矩阵:
Figure BDA0002915147590000031
Figure BDA0002915147590000032
(2)使用Pytorch函数masked_fill将MASK矩阵的0替换为负无穷,每层第一个头的注意力矩阵乘以Mask1,每层的第二个头的注意力矩阵乘以Mask2,其表达式为:
Figure BDA0002915147590000041
Q=Wq*x,K=Wk*x,V=Wv*x
其中,Attention_mask(Q,K,V)表示将句子向量通过多粒度注意力进行加权,Q,K,V均为输入向量x进行线性变换后的表示,Wq,Wk,Wv是可学习的参数,KT为K的转置,QKT表示句子中每个词之间互相求注意力,softmax(·)表示将注意力矩阵在行向量上进行归一化操作,dk是调节参数,,防止矩阵乘法得到结果太大而导致softmax函数的梯度太小。
进一步,步骤S44具体包括:
(1)Q与KT相乘,在行向量维度进行softmax后,得到关键词头的注意力矩阵Attention_map(Q,K),对注意力矩阵列向量求和,每列的权重值,即为每个单词在此段文本中的重要程度Outkeyword,其公式为:
Figure BDA0002915147590000042
Figure BDA0002915147590000043
(2)对于短文本,短文本数据集是文本中最关键词语的位置position,由(1)得到的Outkeyword是长度为Lpad_size的一维向量,其值最大的位置,即为关键词位置,将预测出的一维向量与S26所得目标位置position,求交叉熵损失,通过梯度下降算法,控制模型注意到人为设定的关键词,其公式为:
Figure BDA0002915147590000044
其中,j表示一条文本中的每个词语的序号,x[j]表示Outkeyword中第j个值;
(3)对于长文本,由于长文本数据集标签为每个单词是否为关键词的0、1标签,对每个单词单独做预测,预测每个单词是否为关键词,将预测出的结果与S26所得的0、1标签求损失,其总损失Lossextract为每个词语损失Lossi的平均数,其公式为:
Figure BDA0002915147590000045
分类任务的损失使用交叉熵损失,将两任务损失相加,形成多任务学习,通过梯度下降算法,关键词抽取与分类同时进行,作用于同一个神经网络,使分类的结果更可信任。
本发明的有益效果在于:本发明通过改进的融合类别信息的TF-IDF算法,获取关键词,构建数据集;人为的设定Leadformer每个头的作用,分为多粒度上下文头和关键词头,做到宏观上的可控可解释;在关键词头上采用多任务学习,文本分类任务结合关键词抽取任务,使模型受人为控制地注意在可作为分类解释的词语上,做到微观上的可控可解释;对注意力矩阵与每个单词对分类结果的贡献,验证模型注意力的控制效果,最终达到可解释。
在司法领域使用本发明,输入原被告陈述,对其进行案由的分类,能够在高准确率分类的同时,给出分类的解释,并且人为控制注意力矩阵注意在与此类案由相关的关键词上,使相关人员能信任此分类结果。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于自注意力机制的可控可解释司法文本分类的流程示意图;
图2为本发明的模型结构示意图;
图3为可视化关键词头注意力矩阵对比示例图;
图4为本发明的分类贡献词语排序示例图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,图1为本发明提供的基于自注意力机制的可控可解释司法文本分类方法,具体包括以下阶段:
阶段1:数据预处理阶段,包括以下步骤:
S1:通过国家裁判文书网获取法律文本数据集,将数据集分词,去除停用词,设置文本最大长度为Lpadsize,超过部分截断;
S2:将数据集划分为训练集和测试集,训练集通过融合类别信息的TF-IDF算法提取额外的关键词标签。具体包括以下步骤:
S21:将数据划分为训练集和测试集,根据不同的数据集,设置不同的最大句子长度Lpadsize
S22:计算训练集每个词融入类别信息的词频,其计算公式为:
Figure BDA0002915147590000061
S23:计算训练集每个词融入类别信息的逆词频,其计算公式为:
Figure BDA0002915147590000062
其中,η为根据类别数设定的参数,类别数不同,此类词数与此类外词数比例变化大,需要参数进行调节,类别数越少,η往往越大,分母加一是为了防止分母为0;
S24:每个词语的融入类别信息的词频与逆词频相乘得到此词语在每类中的关键程度,对此词语的TF-IDF值进行排序,得到每个类别分别的关键词排序文件;
S25:对每个类别的关键词排序文件进行筛选,剔除不适合作为解释的词语,形成可解释关键词文件;
S26:根据每个类别的可解释关键词文件,对训练集新增额外的解释关键词标签。具体包括:
(1)对于短文本数据集,通过训练集每段文本的类别标签,分别查询不同类别的关键词排序文件,获取此段文本最关键的词语,将这个词语在此段文字中的位置作为训练集额外的标签;
(2)对于长文本数据集,设置每个类别的关键词排序文件的前n个为此类别的关键词,通过训练集每段文本的类别标签,分别查询不同类别的关键词排序文件,分别查询每个词语是否位于此类别的关键词排序文件的前n个,对每个词语加入额外的0、1标签,是关键词标1,不是关键词标0。
阶段2:训练阶段,包括以下步骤:
S3:将文本输入模型前,先将文本进行Embedding操作,将文本向量化;
S4:对Transformer的编码器进行修改,形成Leadformer模型,对多头功能控制,设置关键词头与多粒度上下文头,进行训练;具体包括以下步骤:
S41:设定网络的最大输入长度为Lpadsize,超出部分截断,不足部分使用填充字符<pad>填充;
S42:使用3层3个头,设置每层的前两个头为多粒度上下文头,设置最后一层的第三个头作为关键词头;人为的设置每个头的作用,做到整体的可控可解释;
S43:设置多粒度上下文头,将每层的第一个头设置为粒度为1的头,即为只能每个单词只能看到自身的头,将每层的第二个头设置为粒度为2的头,即为只能每个单词能看到自身与上下一个单词的头。具体包括:
(1)设计如下所示的MASK矩阵:
Figure BDA0002915147590000071
Figure BDA0002915147590000072
(2)使用Pytorch函数masked_fill将MASK矩阵的0替换为负无穷,每层第一个头的注意力矩阵乘以Mask1,每层的第二个头的注意力矩阵乘以Mask2,其表达式为:
Figure BDA0002915147590000073
Q=Wq*x,K=Wk*x,V=Wv*x
其中,Attention_mask(Q,K,V)表示将句子向量通过多粒度注意力进行加权,Q,K,V均为输入向量x进行线性变换后的表示,Wq,Wk,Wv是可学习的参数,KT为K的转置,QKT表示句子中每个词之间互相求注意力,soft max(·)表示将注意力矩阵在行向量上进行归一化操作,dk是调节参数,,防止矩阵乘法得到结果太大而导致softmax函数的梯度太小。
S44:设计关键词头,将关键词抽取任务作用于关键词头的注意力矩阵,文本分类任务同时作用于此注意力矩阵,两任务Loss相加,形成多任务学习;通过关键词抽取任务,直接地限制注意力矩阵所注意的单词,控制关键词头的注意力在人为设置的可以作为分类解释的关键词上,做到关键词层面的可控可解释。具体包括:
(1)Q与KT相乘,在行向量维度进行softmax后,得到关键词头的注意力矩阵Attention_map(Q,K),对注意力矩阵列向量求和,每列的权重值,即为每个单词在此段文本中的重要程度Outkeyword,其公式为:
Figure BDA0002915147590000081
Figure BDA0002915147590000082
(2)对于短文本,短文本数据集是文本中最关键词语的位置position,由(1)得到的Outkeyword是长度为Lpad_size的一维向量,其值最大的位置,即为关键词位置,将预测出的一维向量与S26所得目标位置position,求交叉熵损失,通过梯度下降算法,控制模型注意到人为设定的关键词,其公式为:
Figure BDA0002915147590000083
其中,j表示一条文本中的每个词语的序号,x[j]表示Outkeyword中第j个值;
(3)对于长文本,由于长文本数据集标签为每个单词是否为关键词的0、1标签,对每个单词单独做预测,预测每个单词是否为关键词,将预测出的结果与S26所得的0、1标签求损失,其总损失Lossextract为每个词语损失Lossi的平均数,其公式为:
Figure BDA0002915147590000084
分类任务的损失使用交叉熵损失,将两任务损失相加,形成多任务学习,通过梯度下降算法,关键词抽取与分类同时进行,作用于同一个神经网络,使分类的结果更可信任。
阶段3:测试阶段,包括以下步骤:
S5:将步骤S3向量化后的测试文本放入已经训练好的Leadformer模型,对分类效果进行指标上的测试。
阶段4:可视化阶段,包括:对注意力矩阵可视化,对词语贡献度进行排序。如图3、图4所示,图3(a)为原始Transformer注意力矩阵,注意力矩阵无任何规律,图3(b)为本发明的注意力矩阵;图4为每个词语对模型贡献的排序示意图;结合图3(b)和图4,明显会注意到英超、切尔西、曼联、曼城,因此分类结果为体育类。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于自注意力机制的可控可解释司法文本分类方法,其特征在于,该方法包括以下步骤:
S1:通过国家裁判文书网获取法律文本数据集,将数据集分词,去除停用词,设置文本最大长度为Lpadsize,超过部分截断;
S2:将数据集划分为训练集和测试集,训练集通过融合类别信息的TF-IDF算法提取额外的关键词标签;
S3:将文本输入模型前,先将文本进行Embedding操作,将文本向量化;
S4:对Transformer的编码器进行修改,形成Leadformer模型,对多头功能控制,设置关键词头与多粒度上下文头,进行训练;
S5:将步骤S3向量化后的测试文本放入已经训练好的Leadformer模型,对分类效果进行指标上的测试。
2.根据权利要求1所述的可控可解释司法文本分类方法,其特征在于,步骤S2具体包括以下步骤:
S21:将数据划分为训练集和测试集,根据不同的数据集,设置不同的最大句子长度Lpadsize
S22:计算训练集每个词融入类别信息的词频,其计算公式为:
Figure FDA0002915147580000011
S23:计算训练集每个词融入类别信息的逆词频,其计算公式为:
Figure FDA0002915147580000012
其中,η为根据类别数设定的参数;
S24:每个词语的融入类别信息的词频与逆词频相乘得到此词语在每类中的关键程度,对此词语的TF-IDF值进行排序,得到每个类别分别的关键词排序文件;
S25:对每个类别的关键词排序文件进行筛选,剔除不适合作为解释的词语,形成可解释关键词文件;
S26:根据每个类别的可解释关键词文件,对训练集新增额外的解释关键词标签。
3.根据权利要求2所述的可控可解释司法文本分类方法,其特征在于,步骤S26具体包括:
(1)对于短文本数据集,通过训练集每段文本的类别标签,分别查询不同类别的关键词排序文件,获取此段文本最关键的词语,将这个词语在此段文字中的位置作为训练集额外的标签;
(2)对于长文本数据集,设置每个类别的关键词排序文件的前n个为此类别的关键词,通过训练集每段文本的类别标签,分别查询不同类别的关键词排序文件,分别查询每个词语是否位于此类别的关键词排序文件的前n个,对每个词语加入额外的0、1标签,是关键词标1,不是关键词标0。
4.根据权利要求3所述的可控可解释司法文本分类方法,其特征在于,步骤S4具体包括以下步骤:
S41:设定网络的最大输入长度为Lpadsize,超出部分截断,不足部分使用填充字符<pad>填充;
S42:使用3层3个头,设置每层的前两个头为多粒度上下文头,设置最后一层的第三个头作为关键词头;
S43:设置多粒度上下文头,将每层的第一个头设置为粒度为1的头,将每层的第二个头设置为粒度为2的头;
S44:设计关键词头,将关键词抽取任务作用于关键词头的注意力矩阵,文本分类任务同时作用于此注意力矩阵,两任务Loss相加,形成多任务学习。
5.根据权利要求4所述的可控可解释司法文本分类方法,其特征在于,步骤S43具体包括:
(1)设计如下所示的MASK矩阵:
Figure FDA0002915147580000021
Figure FDA0002915147580000022
(2)使用Pyorch函数masked_fill将MASK矩阵的0替换为负无穷,每层第一个头的注意力矩阵乘以Mask1,每层的第二个头的注意力矩阵乘以Mask2,其表达式为:
Figure FDA0002915147580000023
Q=Wq*x,K=Wk*x,V=Wv*x
其中,Attention_mask(Q,K,V)表示将句子向量通过多粒度注意力进行加权,Q,K,y均为输入向量x进行线性变换后的表示,Wq,Wk,Wv是可学习的参数,KT为K的转置,QKT表示句子中每个词之间互相求注意力,softmax(·)表示将注意力矩阵在行向量上进行归一化操作,dk是调节参数。
6.根据权利要求5所述的可控可解释司法文本分类方法,其特征在于,步骤S44具体包括:
(1)Q与KT相乘,在行向量维度进行softmax后,得到关键词头的注意力矩阵Attention_map(Q,K),对注意力矩阵列向量求和,每列的权重值,即为每个单词在此段文本中的重要程度Outkevword,其公式为:
Figure FDA0002915147580000031
Figure FDA0002915147580000032
(2)对于短文本,短文本数据集是文本中最关键词语的位置position,由(1)得到的Outkeyword是长度为Lpad_size的一维向量,其值最大的位置,即为关键词位置,将预测出的一维向量与S26所得目标位置position,求交叉熵损失,通过梯度下降算法,控制模型注意到人为设定的关键词,其公式为:
Figure FDA0002915147580000033
其中,j表示一条文本中的每个词语的序号,x[j]表示Outkeyword中第j个值;
(3)对于长文本,由于长文本数据集标签为每个单词是否为关键词的0、1标签,对每个单词单独做预测,预测每个单词是否为关键词,将预测出的结果与S26所得的0、1标签求损失,其总损失Lossextract为每个词语损失Lossi的平均数,其公式为:
Figure FDA0002915147580000034
分类任务的损失使用交叉熵损失,将两任务损失相加,形成多任务学习,通过梯度下降算法,关键词抽取与分类同时进行,作用于同一个神经网络。
CN202110098164.2A 2021-01-25 2021-01-25 一种基于自注意力机制的可控可解释司法文本分类方法 Active CN112784047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110098164.2A CN112784047B (zh) 2021-01-25 2021-01-25 一种基于自注意力机制的可控可解释司法文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110098164.2A CN112784047B (zh) 2021-01-25 2021-01-25 一种基于自注意力机制的可控可解释司法文本分类方法

Publications (2)

Publication Number Publication Date
CN112784047A true CN112784047A (zh) 2021-05-11
CN112784047B CN112784047B (zh) 2023-02-28

Family

ID=75759007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110098164.2A Active CN112784047B (zh) 2021-01-25 2021-01-25 一种基于自注意力机制的可控可解释司法文本分类方法

Country Status (1)

Country Link
CN (1) CN112784047B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312452A (zh) * 2021-06-16 2021-08-27 哈尔滨工业大学 基于多任务学习的篇章级文本连贯性分类方法
CN113392214A (zh) * 2021-06-03 2021-09-14 齐鲁工业大学 基于k选择策略稀疏自注意力的文本分类方法及系统
CN115809665A (zh) * 2022-12-13 2023-03-17 杭州电子科技大学 一种基于双向多粒度注意力机制的无监督关键词抽取方法
CN114996446B (zh) * 2022-05-18 2023-08-25 苏州大学 一种文本分类方法、装置及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956031A (zh) * 2016-04-25 2016-09-21 深圳市永兴元科技有限公司 文本分类方法和装置
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111460142A (zh) * 2020-03-06 2020-07-28 南京邮电大学 一种基于自注意力卷积神经网络的短文本分类方法及系统
CN111554268A (zh) * 2020-07-13 2020-08-18 腾讯科技(深圳)有限公司 基于语言模型的语言识别方法、文本分类方法和装置
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法
CN111858932A (zh) * 2020-07-10 2020-10-30 暨南大学 基于Transformer的多重特征中英文情感分类方法及系统
CN111881291A (zh) * 2020-06-19 2020-11-03 山东师范大学 一种文本情感分类方法及系统
US20200387675A1 (en) * 2019-06-05 2020-12-10 Refinitiv Us Organization Llc Machine-learning natural language processing classifier
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112232087A (zh) * 2020-10-20 2021-01-15 中国民航大学 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956031A (zh) * 2016-04-25 2016-09-21 深圳市永兴元科技有限公司 文本分类方法和装置
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
US20200387675A1 (en) * 2019-06-05 2020-12-10 Refinitiv Us Organization Llc Machine-learning natural language processing classifier
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111460142A (zh) * 2020-03-06 2020-07-28 南京邮电大学 一种基于自注意力卷积神经网络的短文本分类方法及系统
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法
CN111881291A (zh) * 2020-06-19 2020-11-03 山东师范大学 一种文本情感分类方法及系统
CN111858932A (zh) * 2020-07-10 2020-10-30 暨南大学 基于Transformer的多重特征中英文情感分类方法及系统
CN111554268A (zh) * 2020-07-13 2020-08-18 腾讯科技(深圳)有限公司 基于语言模型的语言识别方法、文本分类方法和装置
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112232087A (zh) * 2020-10-20 2021-01-15 中国民航大学 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIANXIN LEI 等: "Hierarchical Recurrent and Convolutional Neural Network Based on Attention for Chinese Document Classification", 《2019 CHINESE CONTROL AND DECISION CONFERENCE》 *
刘群 等: "基于序贯三支决策的多粒度情感分类方法", 《计算机科学》 *
卢玲 等: "结合注意力机制的长文本分类方法", 《计算机应用》 *
陈欢 等: "基于TF-IDF特征词提取的不平衡文本分类", 《智能计算机与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392214A (zh) * 2021-06-03 2021-09-14 齐鲁工业大学 基于k选择策略稀疏自注意力的文本分类方法及系统
CN113392214B (zh) * 2021-06-03 2022-09-06 齐鲁工业大学 基于k选择策略稀疏自注意力的文本分类方法及系统
CN113312452A (zh) * 2021-06-16 2021-08-27 哈尔滨工业大学 基于多任务学习的篇章级文本连贯性分类方法
CN114996446B (zh) * 2022-05-18 2023-08-25 苏州大学 一种文本分类方法、装置及存储介质
CN115809665A (zh) * 2022-12-13 2023-03-17 杭州电子科技大学 一种基于双向多粒度注意力机制的无监督关键词抽取方法
CN115809665B (zh) * 2022-12-13 2023-07-11 杭州电子科技大学 一种基于双向多粒度注意力机制的无监督关键词抽取方法

Also Published As

Publication number Publication date
CN112784047B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN112784047B (zh) 一种基于自注意力机制的可控可解释司法文本分类方法
CN106779087B (zh) 一种通用机器学习数据分析平台
CN110442684A (zh) 一种基于文本内容的类案推荐方法
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN109858032A (zh) 融合Attention机制的多粒度句子交互自然语言推理模型
CN108460089A (zh) 基于Attention神经网络的多元特征融合中文文本分类方法
CN109815801A (zh) 基于深度学习的人脸识别方法及装置
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN106778882B (zh) 一种基于前馈神经网络的智能合约自动分类方法
CN110378334A (zh) 一种基于二维特征注意力机制的自然场景文本识别方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN109886072B (zh) 基于双向Ladder结构的人脸属性分类系统
CN109598387A (zh) 基于双向跨模态注意力网络模型的股价预测方法及系统
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN110321862B (zh) 一种基于紧致三元损失的行人再识别方法
CN112015902B (zh) 基于度量的元学习框架下的少次文本分类方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN110188195A (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN112732921B (zh) 一种虚假用户评论检测方法及系统
CN110852181A (zh) 基于注意力机制卷积神经网络钢琴乐谱难度识别方法
CN108920446A (zh) 一种工程文本的处理方法
CN110263174A (zh) —基于焦点关注的主题类别分析方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant