CN110413783B - 一种基于注意力机制的司法文本分类方法及系统 - Google Patents

一种基于注意力机制的司法文本分类方法及系统 Download PDF

Info

Publication number
CN110413783B
CN110413783B CN201910666514.3A CN201910666514A CN110413783B CN 110413783 B CN110413783 B CN 110413783B CN 201910666514 A CN201910666514 A CN 201910666514A CN 110413783 B CN110413783 B CN 110413783B
Authority
CN
China
Prior art keywords
attention
vector
text
question
judicial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910666514.3A
Other languages
English (en)
Other versions
CN110413783A (zh
Inventor
金佳佳
丁锴
蒋立靓
陈涛
李建元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinjiang Technology Co ltd
Original Assignee
Yinjiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinjiang Technology Co ltd filed Critical Yinjiang Technology Co ltd
Priority to CN201910666514.3A priority Critical patent/CN110413783B/zh
Publication of CN110413783A publication Critical patent/CN110413783A/zh
Application granted granted Critical
Publication of CN110413783B publication Critical patent/CN110413783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于注意力机制的司法文本分类方法及系统,本发明主要包括数据预处理操作,数据向量化处理,利用自注意力机制进行自我学习,利用协同注意力机制明确问题的意图,利用lstm训练文本分类模型。本发明采用多头自注意力机制,扩展模型关注不同位置的能力,解决多主题和中文文本深层语义表达不够全面的问题,使得中文文本所表示的语义信息更加准确和丰富;同时节约了时间成本。

Description

一种基于注意力机制的司法文本分类方法及系统
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于注意力机制的司法文本分类方法及系统。
背景技术
搜索引擎技术是近些年来互联网发展中出现的一项新技术,其应用的目的是帮助互联网用户在浩如烟海的信息中快速地找到并显示其所需信息。随着网络信息的飞速增长,搜索引擎已成为现代人上网获取信息的必备工具。法律检索是一个复杂、系统、繁琐的工程或任务,如何从千万裁判文书中找到所想的内容,需要精细的安排与设计。法律搜索引擎可以帮助用户在海量司法库中快速地找到并显示其所需信息。例如中国裁判文书网内的裁判文书多达数千万件,每日新增数万件,民事案由达400多类,如何通过语义的理解对用户的输入进行意图识别,从而准确的找到用户所需信息,提高用户查询效率,是一项值得探讨的工作。搜索引擎意图识别存在以下难点:1、用户输入不规范,输入方式多样化,使用自然语言查询,甚至非标准的自然语言;2、用户的查询词表现出多意图;3、用户查询涉及主次意图。意图识别本质上是一个分类问题,司法文本类型细分种类繁多,文本分类技术可以识别出用户想要查询的司法文本类型,再通过搜索引擎中的倒排索引等排序技术返回用户想要的结果。用户输入文本存在模糊性、多意图性和不规范性等特点。用户输入文本的这些特点使文本分类面临以下难点:1、文本模糊性,用户输入的文本主要以短文本为主,缺少词语间潜在的语义关联关系,无法确认多义词;2、文本不规范性,用户输入不规范,输入方式多样化使文本中出现不规则特征词和分词词典无法识别的未登录词;3、文本多意图性,用户输入文本涉及多意图查询,传统的文本分类理解不了用户查询意图的主次,增加了分类的难度。
随着短文本数据的大量产生,人们针对短文本的分类技术做了大量探索和实践。专利申请号CN 201710686945.7提出了一种组合类降维算法和加权欠采样SVM算法相结合的短文本分类方法,解决了文本分类中高纬度稀疏性和类别不平衡的问题,但在多分类准确度上效果不佳。专利申请号CN201510271672.0公开了一种基于卷积神经网络的短文本分类方法,通过预训练的词表示向量对短文本进行语义扩展,利用卷积神经网络提取定长的语义特征向量,使其语义特征向量化表示得到进一步增强,并最终使其分类任务的性能得以改善。但该方法在垂直领域,很难根据外部辅助数据对语料进行扩充。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于注意力机制的司法文本分类方法及系统,本发明主要包括数据预处理操作,数据向量化处理,利用自注意力机制进行自我学习,利用协同注意力机制明确问题的意图,利用lstm训练文本分类模型。本发明采用多头自注意力机制,扩展模型关注不同位置的能力,解决多主题和中文文本深层语义表达不够全面的问题,使得中文文本所表示的语义信息更加准确和丰富;同时节约了时间成本。
本发明是通过以下技术方案达到上述目的:一种基于注意力机制的司法文本分类方法,包括如下步骤:
(1)对收集得到的司法文本数据进行数据预处理,对预处理后的数据进行整理构建得到词汇表,并进行数据向量化;
(2)基于步骤(1)的结果,利用自注意力机制进行自我学习,得到自我关注向量,其中所述的自我关注向量包括问题文本的自我关注向量和答案文本的自我关注向量;
(3)利用co-attention协同注意力机制明确问题的意图,其中包括获取问题—答案视图、从不同的视角理解问题及输出问题向量;
(4)利用lstm神经网络对文本分类模型进行训练,基于训练得到的文本分类模型实现司法文本的快速分类。
作为优选,所述步骤(1)具体如下:
(1.1)收集司法文本数据:收集司法相关问答数据,其中问题作为训练数据,答案作为辅助数据,根据专家经验将司法问答数据打上类别标签,类别标签与司法案由一致;
(1.2)司法文本数据预处理:将收集的司法问答数据进行分词处理,同时去除停用词,得到词级与字符级共存的司法问题数据Eq和答案数据Ea
(1.3)司法文本构建词汇表:将司法数据Eq和Ea中的字与词整理成集合作为数据中所用的词汇表C={unk:0,eos:1,…,c:vocab_size},其中,unk为未知词,eos为结束标识,vocab_size为词汇表大小,c为司法数据Eq和Ea中的词或字;
(1.4)文本嵌入:根据输出词汇表C构造司法文本矩阵,并用向量表示。
作为优选,所述步骤(1.4)具体包括:假设一个司法问答数据预处理后,问题为
Figure GDA0003279449320000041
其中Lq为问题固定的句长度,答案为
Figure GDA0003279449320000042
其中La为答案固定的句长度,则根据输出的词汇表C构造司法文本矩阵,问题矩阵为
Figure GDA0003279449320000043
答案矩阵为
Figure GDA0003279449320000044
并利用WordEmbedding矩阵给每个字符分配一个固定长度为l的向量表示,得到问题向量
Figure GDA0003279449320000045
答案向量
Figure GDA0003279449320000046
作为优选,所述步骤(2)具体如下:
(2.1)添加词位置标识:根据步骤(1)输出的问题向量分别给每个词的位置赋予一个位置向量,通过结合位置向量
Figure GDA0003279449320000047
和问题向量,使每个词引入一定的位置信息,得到带位置信息的问题向量
Figure GDA0003279449320000048
同理得到带位置信息的答案向量
Figure GDA0003279449320000049
(2.2)创建三个c,k,v矢量:初始化三个变量Wc,Wk,Wv∈Rl×l,分别与问题向量进行点乘:
Figure GDA00032794493200000410
Figure GDA00032794493200000411
Figure GDA00032794493200000412
(2.3)计算自注意力:计算问题文本中第一个词的自我关注,第一个得分score=c1·k1,第二个得分score=c1·k2,以此类推第Lq个得分
Figure GDA0003279449320000051
Figure GDA0003279449320000052
使梯度保持稳定,其中bk为k的维度;(2.4)Key Masking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤(2.3)输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;
(2.5)输出自我关注向量:通过softmax将步骤(2.4)输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1(即第一个词的编码向量),以此类推问题文本的自我关注向量
Figure GDA0003279449320000053
同理得答案文本的自我关注向量
Figure GDA0003279449320000054
作为优选,所述步骤(2)还包括:
(2.6)采用多头自注意力机制,将步骤(2.1)输出的Qp和Ap输入到步骤(2.2)、步骤(2.3)、步骤(2.4)和步骤(2.5)中重复多次,经过测试,重复8次效果最佳,得到
Figure GDA0003279449320000055
Figure GDA0003279449320000056
初始化权重WO∈R(l×8)×l,分别乘以Q'attention和A'attention对多头自注意力向量进行压缩,输出问题文本的自我关注向量
Figure GDA0003279449320000057
和答案文本的自我关注向量
Figure GDA0003279449320000058
扩展模型关注不同位置的能力。
作为优选,所述步骤(3)具体包括:
(3.1)获取问题-答案视图:将步骤(2)输出的问题文本的自我关注向量与答案文本的自我关注向量相乘,得到问题-答案矩阵Q·A;
(3.2)从不同的视角理解问题及输出问题向量:将步骤(3.1)输出的问题-答案矩阵Q·A对行进行max-pooling或mean-pooling或alignment-based pooling操作,得到问题向量表示
Figure GDA0003279449320000061
作为优选,所述的max-pooling是基于单词对另一文本序列的最大贡献来提取特征;mean-pooling是计算其对整个句子的贡献;alignment-based pooling是另一种协同注意力机制,它将语义相似的子短语对齐在一起;因此,可以选择任意一种、任意两种的组合或者三种组合,不同的pooling操作提供了不同的问题视角。
作为优选,若选择任意两种的组合或者三种组合,最后将不同视角下的问题向量结果拼接,即可得到多视角问题向量。
作为优选,所述步骤(4)具体如下:
(4.1)学习序列依赖表示:使用标准的LSTM在Qpool和Qattention之间共享权重,得到新的问题向量表示
Figure GDA0003279449320000062
Figure GDA0003279449320000063
其中Llstm为隐含层维度;
(4.2)优化问题的自我学习能力:利用softmax分别对步骤(4.1)输出的LSTMpool和LSTMattention与步骤(1)输出的类别标签训练得到分类器损失LOSSpool和LOSSattention,分类模型最终损失函数为
Figure GDA0003279449320000064
利用平均损失加速梯度下降,即利用协同注意力得到的高质量表示来加速自我学习能力,得到预训练模型MQ·A
(4.3)用户意图识别:保留预训练模型MQ·A的自注意力层和lstm层,舍弃协同注意力层得到新的模型MQ,将用户输入的文本进行预处理操作并输入到模型MQ中预测分类,识别出用户意图,实现文本的分类。
一种基于注意力机制的司法文本分类系统,包括:数据采集模块、特征提取模块、特征微调模块、网络训练模块;所述的数据采集模块用于采集司法领域的问答数据,并对采集得到的问题与答案进行数据清洗、分词与去停用词预处理操作,形成答案数据集和问题数据集;特征提取模块,采用自注意力机制提取问题数据特征和答案数据特征;特征微调模块采用协同注意力机制根据答案特征对问题特征进行微调,更新问题特征;网络训练模块采用lstm长短记忆网络进行分类训练,获得最终的分类模型。
本发明的有益效果在于:(1)本发明采用字向量与词向量共存的方法,同时保留了字与词的特征信息,从而能够获得更全面的文本特征;(2)本发明采用自注意力机制(self-attention)和协同注意力机制(co-attention),提供了不同的视角去审视用户的输入文本,消除词级上存在的一词多义问题,用以学习高质量的向量表示,同时节约了时间成本;(3)本发明采用多头自注意力机制,扩展模型关注不同位置的能力,解决多主题和中文文本深层语义表达不够全面的问题,使得中文文本所表示的语义信息更加准确和丰富。
附图说明
图1是本发明的方法流程示意图;
图2是本发明的协同注意力结构示意图;
图3是本发明的意图识别流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:一种基于注意力机制的司法文本分类系统,包括数据采集模块、特征提取模块、特征微调模块、网络训练模块;所述的数据采集模块用于采集司法领域的问答数据,并对采集得到的问题与答案进行数据清洗、分词与去停用词预处理操作,形成答案数据集和问题数据集;特征提取模块,采用自注意力机制提取问题数据特征和答案数据特征;特征微调模块采用协同注意力机制根据答案特征对问题特征进行微调,更新问题特征;网络训练模块采用lstm长短记忆网络进行分类训练,获得最终的分类模型。
如图1所示,一种基于注意力机制的司法文本分类方法,包括如下步骤:
(1)司法文本数据预处理:
(1.1)收集司法文本数据:收集司法相关问答数据共计10万,其中问题作为训练数据,答案作为辅助数据,根据专家经验将司法问答数据打上类别标签与司法案由的类别一致,司法案由根据国家法律法规确定,如《民事案由规定》等。
(1.2)司法文本数据预处理:将收集的司法问答数据进行分词处理(保留单字),同时去停用词(数字、日期、标点符号等干扰信息)得到词级与字符级共存的司法问题数据Eq和答案数据Ea
(1.3)司法文本构建词汇表:将步骤1.2输出的司法数据Eq和Ea中的字与词整理成集合,给每个词或者字赋予一个id作为数据中所用的词汇表C={unk:0,eos:1,受伤:2,…,酒驾:vocab_size},其中unk为未知词,eos为结束标识,vocab_size=10000为词汇表大小。
(1.4)文本嵌入(数据向量化):根据步骤1.3输出的词汇表C,假设一个司法问答数据预处理后,问题为
Figure GDA0003279449320000091
其中Lq=50为问题固定的句长度,答案(answer)为
Figure GDA0003279449320000092
其中La=200为答案固定的句长度,则根据步骤1.3输出的词汇表C构造司法文本矩阵,问题矩阵为
Figure GDA0003279449320000093
答案矩阵为
Figure GDA0003279449320000094
利用WordEmbedding矩阵给每个字符分配一个固定长度为l=200的向量表示,得到问题向量
Figure GDA0003279449320000095
答案向量
Figure GDA0003279449320000096
(2)利用自注意力机制进行自我学习:
(2.1)添加词位置标识:根据步骤1.4输出的问题向量,分别给每个词的位置赋予一个位置向量,通过结合位置向量
Figure GDA0003279449320000097
和问题向量,使每个词引入一定的位置信息,得到带位置信息的问题向量
Figure GDA0003279449320000098
同理得带位置信息的答案向量
Figure GDA0003279449320000099
(2.2)创建三个c,k,v矢量:初始化三个变量Wc,Wk,Wv∈Rl×l,分别与问题向量进行点乘:
Figure GDA00032794493200000910
Figure GDA00032794493200000911
Figure GDA00032794493200000912
(2.3)计算自注意力:首先计算问题文本中第一个词的自我关注,第一个得分score=c1·k1,第二个得分score=c1·k2,以此类推第Lq个得分
Figure GDA00032794493200000913
Figure GDA00032794493200000914
(其中bk为k的维度)使梯度保持稳定;
(2.4)Key Masking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤2.3输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;
(2.5)输出自我关注向量:通过softmax将步骤2.4输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1(即第一个词的编码向量),以此类推问题文本的自我关注向量
Figure GDA0003279449320000101
同理得答案文本的自我关注向量
Figure GDA0003279449320000102
(其中答案和问题的权重Wc,Wk,Wv共享)。
(2.6)本实施例采用多头自注意力机制,根据步骤2.1输出的Qp和Ap输入到步骤2.2、步骤2.3、步骤2.4和步骤2.5中重复多次,经过测试,重复8次效果最佳,得到
Figure GDA0003279449320000103
Figure GDA0003279449320000104
初始化权重Wo∈R(l×8)×l,分别乘以Q'attention和A'attention对多头自注意力向量进行压缩,输出
Figure GDA0003279449320000106
Figure GDA0003279449320000107
扩展模型关注不同位置的能力,解决多主题和中文文本深层语义表达不够全面的问题,使得中文文本所表示的语义信息更加准确和丰富。
(3)co-attention协同注意力机制明确问题的意图;其中,协同注意力结构如图2所示:
(3.1)获取问题-答案视图:将步骤2输出的问题的多头自我关注向量与答案的自我关注向量相乘,得到问题-答案矩阵Q·A;
(3.2)从不同的视角理解问题:将步骤3.1输出的问题-答案矩阵Q·A分别对行进行max-pooling,mean-pooling和alignment-based pooling操作,分别得到问题表示
Figure GDA0003279449320000111
Figure GDA0003279449320000112
Figure GDA0003279449320000113
其中max-pooling是基于单词对另一文本序列的最大贡献来提取特征;mean-pooling是计算其对整个句子的贡献;alignment-based pooling是另一种协同注意力机制,它将语义相似的子短语对齐在一起。因此,可以选择任意一种、任意两种的组合或者三种组合,不同的pooling操作提供了不同的问题视角。
(3.3)输出问题向量:若选择前述任意一种pooling操作,直接得到对应的问题向量表示;若选择任意两种的组合或者三种组合,最后将不同视角下的问题向量结果拼接,即可得到多视角问题向量。本实施例通过max-pooling,mean-pooling和alignment-basedpooling操作获取不同视角的问题向量,经过测试将步骤3.2输出的Qmax、Qmean、Qalignment进行拼接得到多视角问题向量
Figure GDA0003279449320000114
可以学习到高质量的向量表示,同时节约了时间成本。
(4)利用lstm训练文本分类模型:
(4.1)学习序列依赖表示:使用标准的LSTM在Qpool和Q″attention之间共享权重,得到新的问题向量表示
Figure GDA0003279449320000115
Figure GDA0003279449320000121
其中Llstm=1200为隐含层维度。关键思想是LSTM编码器通过使用非线性变换作为门控函数来学习表示序列依赖性的表示。因此,在该层之前注意力作为特征的关键思想是它为LSTM编码器提供了带有信息的提示,例如长期和全局句子知识和句子对(问题和答案)之间的知识。
(4.2)优化问题的自我学习能力:利用softmax分别对步骤4.1输出的LSTMpool和LSTMattention与步骤1.1输出的类别标签训练得分类器损失LOSSpool和LOSSattention,分类模型最终损失函数为
Figure GDA0003279449320000122
利用平均损失加速梯度下降,即利用协同注意力得到的高质量表示来加速自我学习能力,得到预训练模型MQ·A
(4.3)用户意图识别:如图3所示,保留预训练模型的自注意力层和lstm层,舍弃协同注意力层得到新的模型MQ,根据步骤4.2输出的预训练模型MQ·A,加载模型的自我关注层,lstm层权重,将用户输入的文本进行预处理操作,输入到模型MQ中预测分类,识别出用户意图,实现文本的分类。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (9)

1.一种基于注意力机制的司法文本分类方法,其特征在于,包括如下步骤:
(1)对收集得到的司法文本数据进行数据预处理,对预处理后的数据进行整理构建得到词汇表,并进行数据向量化;
(2)基于步骤(1)的结果,利用自注意力机制进行自我学习,得到自我关注向量,其中所述的自我关注向量包括问题文本的自我关注向量和答案文本的自我关注向量;
(3)利用co-attention协同注意力机制明确问题的意图,其中包括获取问题—答案视图、从不同的视角理解问题及输出问题向量;具体包括:
(3.1)获取问题-答案视图:将步骤(2)输出的问题文本的自我关注向量与答案文本的自我关注向量相乘,得到问题-答案矩阵Q·A;
(3.2)从不同的视角理解问题及输出问题向量:将步骤(3.1)输出的问题-答案矩阵Q·A对行进行max-pooling或mean-pooling或alignment-based pooling操作,得到问题向量表示
Figure FDA0003279449310000011
(4)利用lstm神经网络对文本分类模型进行训练,基于训练得到的文本分类模型实现司法文本的快速分类。
2.根据权利要求1所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(1)具体如下:
(1.1)收集司法文本数据:收集司法相关问答数据,其中问题作为训练数据,答案作为辅助数据,根据专家经验将司法问答数据打上类别标签,类别标签与司法案由一致;
(1.2)司法文本数据预处理:将收集的司法问答数据进行分词处理,同时去除停用词,得到词级与字符级共存的司法问题数据Eq和答案数据Ea
(1.3)司法文本构建词汇表:将司法数据Eq和Ea中的字与词整理成集合作为数据中所用的词汇表C={unk:0,eos:1,…,c:vocab_size},其中,unk为未知词,eos为结束标识,vocab_size为词汇表大小,c为司法数据Eq和Ea中的词或字;
(1.4)文本嵌入:根据输出词汇表C构造司法文本矩阵,并用向量表示。
3.根据权利要求2所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(1.4)具体包括:假设一个司法问答数据预处理后,问题为
Figure FDA0003279449310000021
其中Lq为问题固定的句长度,答案为
Figure FDA0003279449310000022
其中La为答案固定的句长度,则根据输出的词汇表C构造司法文本矩阵,问题矩阵为
Figure FDA0003279449310000023
答案矩阵为
Figure FDA0003279449310000024
并利用WordEmbedding矩阵给每个字符分配一个固定长度为l的向量表示,得到问题向量
Figure FDA0003279449310000025
答案向量
Figure FDA0003279449310000026
4.根据权利要求1所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(2)具体如下:
(2.1)添加词位置标识:根据步骤(1)输出的问题向量分别给每个词的位置赋予一个位置向量,通过结合位置向量
Figure FDA0003279449310000027
和问题向量,使每个词引入一定的位置信息,得到带位置信息的问题向量
Figure FDA0003279449310000031
同理得到带位置信息的答案向量
Figure FDA0003279449310000032
(2.2)创建三个c,k,v矢量:初始化三个变量Wc,Wk,Wv∈Rl×l,分别与问题向量进行点乘:
Figure FDA0003279449310000033
Figure FDA0003279449310000034
Figure FDA0003279449310000035
(2.3)计算自注意力:计算问题文本中第一个词的自我关注,第一个得分score=c1·k1,第二个得分score=c1·k2,以此类推第Lq个得分
Figure FDA0003279449310000036
Figure FDA0003279449310000037
使梯度保持稳定,其中bk为k的维度;
(2.4)Key Masking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤(2.3)输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;
(2.5)输出自我关注向量:通过softmax将步骤(2.4)输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1,即第一个词的编码向量,以此类推问题文本的自我关注向量
Figure FDA0003279449310000038
同理得答案文本的自我关注向量
Figure FDA0003279449310000039
5.根据权利要求4所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(2)还包括:
(2.6)采用多头自注意力机制,将步骤(2.1)输出的Qp和Ap依次输入到步骤(2.2)、步骤(2.3)、步骤(2.4)和步骤(2.5)中并重复多次,重复次数优选为8次,得到
Figure FDA0003279449310000041
Figure FDA0003279449310000042
初始化权重WO∈R(l×8)×l,分别乘以Q'attention和A'attention对多头自注意力向量进行压缩,输出问题文本的自我关注向量
Figure FDA0003279449310000043
和答案文本的自我关注向量
Figure FDA0003279449310000044
扩展模型关注不同位置的能力。
6.根据权利要求1所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述的max-pooling是基于单词对另一文本序列的最大贡献来提取特征;mean-pooling是计算其对整个句子的贡献;alignment-based pooling是另一种协同注意力机制,它将语义相似的子短语对齐在一起;因此,可以选择任意一种、任意两种的组合或者三种组合,不同的pooling操作提供了不同的问题视角。
7.根据权利要求6所述的一种基于注意力机制的司法文本分类方法,其特征在于:若选择任意两种的组合或者三种组合,最后将不同视角下的问题向量结果拼接,即可得到多视角问题向量。
8.根据权利要求1所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(4)具体如下:
(4.1)学习序列依赖表示:使用标准的LSTM在Qpool和Qattention之间共享权重,或使用标准的LSTM在Qpool和Q″attention之间共享权重,得到新的问题向量表示
Figure FDA0003279449310000045
Figure FDA0003279449310000046
其中Llstm为隐含层维度;
(4.2)优化问题的自我学习能力:利用softmax分别对步骤(4.1)输出的LSTMpool和LSTMattention与步骤(1)输出的类别标签训练得到分类器损失LOSSpool和LOSSattention,分类模型最终损失函数为
Figure FDA0003279449310000051
利用平均损失加速梯度下降,即利用协同注意力得到的高质量表示来加速自我学习能力,得到预训练模型MQ·A
(4.3)用户意图识别:保留预训练模型MQ·A的自注意力层和lstm层,舍弃协同注意力层得到新的模型MQ,将用户输入的文本进行预处理操作并输入到模型MQ中预测分类,识别出用户意图,实现文本的分类。
9.一种应用如权利要求1所述方法的司法文本分类系统,其特征在于,包括:数据采集模块、特征提取模块、特征微调模块、网络训练模块;所述的数据采集模块用于采集司法领域的问答数据,并对采集得到的问题与答案进行数据清洗、分词与去停用词预处理操作,形成答案数据集和问题数据集;特征提取模块,采用自注意力机制提取问题数据特征和答案数据特征;特征微调模块采用协同注意力机制根据答案特征对问题特征进行微调,更新问题特征;网络训练模块采用lstm长短记忆网络进行分类训练,获得最终的分类模型。
CN201910666514.3A 2019-07-23 2019-07-23 一种基于注意力机制的司法文本分类方法及系统 Active CN110413783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910666514.3A CN110413783B (zh) 2019-07-23 2019-07-23 一种基于注意力机制的司法文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910666514.3A CN110413783B (zh) 2019-07-23 2019-07-23 一种基于注意力机制的司法文本分类方法及系统

Publications (2)

Publication Number Publication Date
CN110413783A CN110413783A (zh) 2019-11-05
CN110413783B true CN110413783B (zh) 2021-12-03

Family

ID=68362695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910666514.3A Active CN110413783B (zh) 2019-07-23 2019-07-23 一种基于注意力机制的司法文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN110413783B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956044A (zh) * 2019-12-02 2020-04-03 北明软件有限公司 一种基于注意力机制的司法场景用文案输入识别分类方法
CN111125334B (zh) * 2019-12-20 2023-09-12 神思电子技术股份有限公司 一种基于预训练的搜索问答系统
CN111507102A (zh) * 2020-03-09 2020-08-07 杭州电子科技大学 基于局部自注意力机制和分割树的多准则中文分词方法
CN111552807B (zh) * 2020-04-17 2023-05-30 银江技术股份有限公司 一种短文本多标签分类方法
CN112199472B (zh) * 2020-10-12 2021-07-20 山东山大鸥玛软件股份有限公司 一种基于迁移学习的主观题智能评卷方法、系统及设备
CN112784047B (zh) * 2021-01-25 2023-02-28 重庆邮电大学 一种基于自注意力机制的可控可解释司法文本分类方法
CN112925908A (zh) * 2021-02-19 2021-06-08 东北林业大学 一种基于Attention的图注意力网络的文本分类方法及系统
CN113239190B (zh) * 2021-04-27 2024-02-20 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备
CN113761928A (zh) * 2021-09-09 2021-12-07 深圳市大数据研究院 一种基于词频打分算法获取法律文书案件地点的方法
CN116452073A (zh) * 2023-06-19 2023-07-18 中电投工程研究检测评定中心有限公司 一种工程质量司法鉴定原因力智能诊断方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322438A (ja) * 1999-05-13 2000-11-24 Nippon Telegr & Teleph Corp <Ntt> サイバー図鑑データ分類方法及びこの方法を記録した記録媒体
CN109189894A (zh) * 2018-09-20 2019-01-11 科大讯飞股份有限公司 一种答案抽取方法及装置
CN109766427A (zh) * 2019-01-15 2019-05-17 重庆邮电大学 一种基于堆叠Bi-LSTM网络和协同注意力的虚拟学习环境智能问答方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322438A (ja) * 1999-05-13 2000-11-24 Nippon Telegr & Teleph Corp <Ntt> サイバー図鑑データ分類方法及びこの方法を記録した記録媒体
CN109189894A (zh) * 2018-09-20 2019-01-11 科大讯飞股份有限公司 一种答案抽取方法及装置
CN109766427A (zh) * 2019-01-15 2019-05-17 重庆邮电大学 一种基于堆叠Bi-LSTM网络和协同注意力的虚拟学习环境智能问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction;Yi Tay等;《arXiv》;20180603;全文 *
基于情感融合和多维自注意力机制的微博文本情感分析;韩萍;《计算机应用》;20190720;全文 *

Also Published As

Publication number Publication date
CN110413783A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413783B (zh) 一种基于注意力机制的司法文本分类方法及系统
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN109241258B (zh) 一种应用税务领域的深度学习智能问答系统
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN102262634B (zh) 一种自动问答方法及系统
CN107818164A (zh) 一种智能问答方法及其系统
CN110737763A (zh) 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN111831789B (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN108717413B (zh) 一种基于假设性半监督学习的开放领域问答方法
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN109213853A (zh) 一种基于cca算法的中文社区问答跨模态检索方法
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN106529525A (zh) 一种中日文手写字符的识别方法
CN113742471A (zh) 一种普法问答系统的向量检索式对话方法
CN114036281A (zh) 基于知识图谱的柑橘管控问答模块构建方法及问答系统
CN109740164A (zh) 基于深度语义匹配的电力缺陷等级识别方法
CN115840812A (zh) 一种根据政策文本智能匹配企业的方法及系统
CN113420548A (zh) 一种基于知识蒸馏和pu学习的实体抽取采样方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN111523328A (zh) 一种智能客服语义处理方法
CN114493783A (zh) 一种基于双重检索机制的商品匹配方法
CN107562907B (zh) 一种智能律师专家案件应答装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province

Applicant after: Yinjiang Technology Co.,Ltd.

Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province

Applicant before: ENJOYOR Co.,Ltd.

GR01 Patent grant
GR01 Patent grant