CN111143550B - 一种基于层次注意力神经网络模型的争议焦点自动识别方法 - Google Patents

一种基于层次注意力神经网络模型的争议焦点自动识别方法 Download PDF

Info

Publication number
CN111143550B
CN111143550B CN201911182247.9A CN201911182247A CN111143550B CN 111143550 B CN111143550 B CN 111143550B CN 201911182247 A CN201911182247 A CN 201911182247A CN 111143550 B CN111143550 B CN 111143550B
Authority
CN
China
Prior art keywords
word
sentence
vector
dispute focus
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911182247.9A
Other languages
English (en)
Other versions
CN111143550A (zh
Inventor
鲁伟明
贾程皓
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911182247.9A priority Critical patent/CN111143550B/zh
Publication of CN111143550A publication Critical patent/CN111143550A/zh
Application granted granted Critical
Publication of CN111143550B publication Critical patent/CN111143550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于层次注意力神经网络模型的争议焦点自动识别方法。首先,从含有法院归纳的争议焦点的文书中提取出法院对案件归纳的争议焦点语句,利用层次聚类方法构建争议焦点体系。再利用该争议焦点体系,为每篇文书打上多个不同的类别标签,构建数据集,将争议焦点识别问题转化为多标签多分类问题。之后,训练层次注意力神经网络模型,将更多的注意力聚焦到含有更多信息量的,重要的词、句子以及段落中,形成争议焦点识别器。最后,将需要识别争议焦点的文本输入到争议焦点识别器中,得到该输入文本的争议焦点。本发明方法预测准确率较高,能够准确识别、判断文书的争议焦点,并具有良好的可扩展性。

Description

一种基于层次注意力神经网络模型的争议焦点自动识别方法
技术领域
本发明涉及一种基于层次注意力神经网络模型的争议焦点自动识别方法。
背景技术
法律服务是一个传统的行业,但也是具有巨大潜能的行业。为提升法律服务的效率,改革传统的法律服务形式,利用人工智能技术辅助识别文书争议焦点,以帮助人们更快更好地判断和理解案件的争议焦点。
然而,一方面,为自动识别文书争议焦点,需要为各个领域建立争议焦点体系,但争议焦点体系的构建依赖于领域专家,构建过程费时费力,不利于大范围扩展;另一方面,在法律文书中,不同的词和句子含有不同程度的“信息量”,对判断争议焦点有不同的作用,在构建争议焦点自动识别模型时需关注不同的词和句子所起的作用。
鉴于此,我们一方面基于已有的文书来构建争议焦点体系,然后再提出基于层次注意力神经网络模型的争议焦点自动识别方法,来自动识别文书的争议焦点。
发明内容
本发明的目的在于提供一种基于层次注意力神经网络模型的争议焦点自动识别方法,从而方便人们更快更好地判断和理解案件的争议焦点。
本发明解决其技术问题采用的技术方案如下:一种基于层次注意力神经网络模型的争议焦点自动识别方法,包括以下步骤:
1)争议焦点体系的构建:从含有法院归纳的争议焦点的文书中提取出法院对案件归纳得到的争议焦点语句。使用TF-IDF算法从争议焦点语句中提取文本特征,将句子表示为向量形式,再使用层次聚类算法将所有的争议焦点语句进行聚类,得到争议焦点体系。
2)数据集构建:利用步骤1)中得到的争议焦点体系,判断该文书的争议焦点类别,并表达成一个二值向量,作为该文书的标签向量;每个文书文本拥有唯一的标签向量,将所有文书文本及其标签向量作为数据集用于训练层次自注意力神经网络模型;
3)构建层次自注意力神经网络模型:所述层次自注意力神经网络模型包括词编码层、词自注意力层、句编码层、句自注意力层、全连接层和Softmax层;将文书文本进行分词、去停用词等预处理之后,作为词编码层的输入,词编码层通过word2vec模型以及双向门控循环单元对文书文本中每个词汇进行编码,得到每个词汇的词向量。将词向量输入到词自注意力层,采用自注意力机制得到不同词向量在句子中的权重,加权求和后得到句子的编码,即句向量。将句向量输入到句编码层,利用双向门控循环单元对句向量进行编码,将编码后的句向量输入到句自注意力层,使用自注意力机制得到不同句向量在文本中的权重,加权求和得到文本的向量形式表示。最后通过全连接层和Softmax层得到该文书文本属于不同争议焦点类别的概率分布,再选取其中概率值大于0.1的争议焦点类别作为最终的预测结果。
4)识别争议焦点:利用步骤2)构建的数据集训练步骤3)所建的神经网络模型,得到文本分类器,将任一篇文书进行分词、去停用词等预处理后,作为输入传入文本分类器,文本分类器将输出识别出的该文书的争议焦点所属的类别。
进一步地,所述步骤1)具体为:
从选定领域中含有法院归纳的争议焦点的文书中提取出法院对案件归纳的争议焦点语句,然后对语句进行分词和去停用词处理。使用TF-IDF算法,即用每个词的词频和逆文档频率的乘积作为该词在该句中的权重,将句子表示为向量形式,向量的每一个分量表示一个词在该句中的TF-IDF权重;使用层次聚类算法将所有争议焦点语句进行聚类;句子之间的相似度利用向量空间的余弦相似度计算,簇与簇之间的相似度以两个簇中所有点的平均相似度计算。将簇与簇之间的相似度大于等于0.95的两个簇聚类,最终得到争议焦点的分类体系。
进一步地,所述步骤2)中将争议焦点所属类别表达成一个二值向量,即在该文书所属争议焦点类别的分量上为1,其它分量上为0,该二值向量作为该文书的标签向量;从而将文书争议焦点的自动识别问题转化成多标签多分类的文本分类问题。
进一步地,所述步骤3)具体为:
层次注意力网络模型的网络结构由五个部分组成,前四部分分别是词编码层、词自注意力层、句编码层、句自注意力层;通过该四部分可得到文书文本的向量表示,再通过一层全连接层和Softmax层得到文本属于不同焦点类别的概率分布。具体步骤如下:
3.1)将文书的文本进行切词、去停用词等预处理之后作为词编码层的输入,词编码层是利用word2vec模型和双向门控循环单元对词进行编码。在双向门控循环单元中,有两个门,分别是更新门zt和重置门rt。更新门用于控制t-1时刻的状态信息被带入到t时刻状态中的程度,更新门的值越大说明t-1时刻的状态信息带入越多。重置门用于控制忽略t-1时刻的状态信息的程度,重置门的值越小说明忽略得越多。双向门控循环单元中的传播方式可以表示为:
Figure GDA0002430806160000021
zt=σ(Wzxt+Uzht-1+bz)
Figure GDA0002430806160000022
rt=σ(Wrxt+Urht-1+br)
其中,ht代表t时刻的状态向量,xt为t时刻的输入向量,每个时刻处理一个词,因此,xt为第t个词通过word2vec预训练得到的词向量。Wz、Wh、Wr、Uz、Uh、Ur、bz、bh和br是需要训练的参数,在层次自注意力神经网络模型训练过程中得到,σ表示激活函数,⊙表示矩阵对应位置元素相乘。将每一个词自左向右编码得到的状态向量
Figure GDA0002430806160000031
和自右向左编码得到的状态向量
Figure GDA0002430806160000032
对应拼接起来,作为该词编码后的词向量。即对于句子中第t个词,具体如下:
Figure GDA0002430806160000033
Figure GDA0002430806160000034
Figure GDA0002430806160000035
3.2)将编码后的词向量输入到词自注意力层,词自注意力层用于突出一句话中对于句意表达更加重要的词。其过程如下所示:
uit=tanh(Wwhit+bw)
Figure GDA0002430806160000036
Figure GDA0002430806160000037
对于第i句话中的第t个单词,uit为隐藏层的第i句话中的第t个单词的向量,hit表示第i句话中的第t个词单词的词向量,αit为第i句话中的第t个单词在第i句话中的权重,T表示转置符号,uw为单词级别的上下文向量。上下文向量可以使一句话中的词与其他词语之间存在上下文关系,该向量在层次自注意力神经网络模型训练过程中得到;si表示第i句的句向量。
3.3)句编码层的原理与词编码层相同,利用步骤3.2)得到的句向量和双向门控循环单元对句子进行编码。公式如下:
Figure GDA0002430806160000038
Figure GDA0002430806160000039
Figure GDA00024308061600000310
表示第i句从左至右的句子编码结果,
Figure GDA00024308061600000311
表示从从右向左的句子编码结果,
Figure GDA00024308061600000312
表示双向门控循环单元从左至右对句子编码,
Figure GDA00024308061600000313
表示双向门控循环单元从右至左对句子编码,将
Figure GDA00024308061600000314
Figure GDA00024308061600000315
拼接得到Hi,作为一个句子最终的编码结果,即编码后的句向量。
3.4)将编码后的句向量输入到句自注意力层,用于提升对于文本语意而言更加重要的句子的权重,其原理与词的注意力层原理相同,公式如下:
ui=tanh(WsHi+bs)
Figure GDA00024308061600000316
Figure GDA0002430806160000041
ui为隐藏层向量,Hi表示编码后的句向量,βi为第i句话在文书文本中的权重,T表示转置符号,us为句子级的上下文向量。该上下文向量可以使得文档中的句子与其他句子之间存在上下文关系,该向量在层次自注意力神经网络模型训练过程中得到;v表示文书文本的向量表示。
3.5)得到文书文本表示向量之后,将文书文本向量输入到全连接层及Softmax层,使用Softmax算法得到文书属于不同争议焦点类别的概率分布,再选取其中概率值大于0.1的争议焦点类别作为最终的预测结果。
本发明方法与现有技术相比具有的有益效果:
1.本方法依靠聚类方法构建争议焦点体系,减少人工工作,更加系统、科学。
2.本方法的流程可以依靠机器学习自动完成,无需人工干预,减轻用户负担。
3.本方法在神经网络中引入分层结构和注意力机制,充分利用单词构成句子,句子构成文章的文本结构和不同单词、语句对于句子、文章的语义表达的重要程度不同的语言特点。
4.本方法预测准确率较高,能够准确识别、判断文书的争议焦点。
5.本方法具有良好的可扩展性,针对其它领域,只需收集其它领域的文书,构建相应的争议焦点体系,并将文书文本作为输入训练分类器,即可实现在其它领域自动识别文书的争议焦点。
附图说明
图1是本发明的总体流程图;
图2是本发明的神经网络模型结构;
图3是本发明在测试集上识别争议焦点的准确率;
图4是实施例中未标注争议焦点文书的部分截图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供一种基于层次注意力神经网络模型的争议焦点自动识别的方法。
包括以下步骤:
1)争议焦点体系的构建:从选定领域中含有法院归纳的争议焦点的文书中提取出法院对案件归纳的争议焦点语句,然后对语句进行分词和去停用词处理。使用TF-IDF算法,即用每个词的词频和逆文档频率的乘积作为该词在该句中的权重,将句子表示为向量形式,向量的每一个分量表示一个词在该句中的TF-IDF权重;使用层次聚类算法将所有争议焦点语句进行聚类;句子之间的相似度利用向量空间的余弦相似度计算,簇与簇之间的相似度以两个簇中所有点的平均相似度计算。将簇与簇之间的相似度大于等于0.95的两个簇聚类,最终得到争议焦点的分类体系。
2)数据集构建:利用步骤1)中得到的争议焦点体系,判断该文书的争议焦点类别,并表达成一个二值向量,即在该文书所属争议焦点类别的分量上为1,其它分量上为0,作为该文书的标签向量;每个文书文本拥有唯一的标签向量,从而将文书争议焦点的自动识别问题转化成多标签多分类的文本分类问题,将所有文书文本及其标签向量作为数据集用于训练层次自注意力神经网络模型;
3)构建层次自注意力神经网络模型:所述层次自注意力神经网络模型包括词编码层、词自注意力层、句编码层、句自注意力层、全连接层和Softmax层;将文书文本进行分词、去停用词等预处理之后,作为词编码层的输入,词编码层通过word2vec模型以及双向门控循环单元对文书文本中每个词汇进行编码,得到每个词汇的词向量。将词向量输入到词自注意力层,采用自注意力机制得到不同词向量在句子中的权重,加权求和后得到句子的编码,即句向量。将句向量输入到句编码层,利用双向门控循环单元对句向量进行编码,将编码后的句向量输入到句自注意力层,使用自注意力机制得到不同句向量在文本中的权重,加权求和得到文本的向量形式表示。最后通过全连接层和Softmax层得到该文书文本属于不同争议焦点类别的概率分布,再选取其中概率值大于0.1的争议焦点类别作为最终的预测结果。具体步骤如下:
3.1)将文书的文本进行切词、去停用词等预处理之后作为词编码层的输入,词编码层是利用word2vec模型和双向门控循环单元对词进行编码。在双向门控循环单元中,有两个门,分别是更新门zt和重置门rt。更新门用于控制t-1时刻的状态信息被带入到t时刻状态中的程度,更新门的值越大说明t-1时刻的状态信息带入越多。重置门用于控制忽略t-1时刻的状态信息的程度,重置门的值越小说明忽略得越多。双向门控循环单元中的传播方式可以表示为:
Figure GDA0002430806160000051
zt=σ(Wzxt+Uzht-1+bz)
Figure GDA0002430806160000052
rt=σ(Wrxt+Urht-1+br)
其中,ht代表t时刻的状态向量,xt为t时刻的输入向量,每个时刻处理一个词,因此,xt为第t个词通过word2vec预训练得到的词向量。Wz、Wh、Wr、Uz、Uh、Ur、bz、bh和br是需要训练的参数,在层次自注意力神经网络模型训练过程中得到,σ表示激活函数,⊙表示矩阵对应位置元素相乘。将每一个词自左向右编码得到的状态向量
Figure GDA0002430806160000053
和自右向左编码得到的状态向量
Figure GDA0002430806160000061
对应拼接起来,作为该词编码后的词向量。即对于句子中第t个词,具体如下:
Figure GDA0002430806160000062
Figure GDA0002430806160000063
Figure GDA0002430806160000064
3.2)将编码后的词向量输入到词自注意力层,词自注意力层用于突出一句话中对于句意表达更加重要的词。其过程如下所示:
uit=tanh(Wwhit+bw)
Figure GDA0002430806160000065
Figure GDA0002430806160000066
对于第i句话中的第t个单词,uit为隐藏层的第i句话中的第t个单词的向量,hit表示第i句话中的第t个词单词的词向量,αit为第i句话中的第t个单词在第i句话中的权重,T表示转置符号,uw为单词级别的上下文向量。上下文向量可以使一句话中的词与其他词语之间存在上下文关系,该向量在层次自注意力神经网络模型训练过程中得到;si表示第i句的句向量。
3.3)句编码层的原理与词编码层相同,利用步骤3.2)得到的句向量和双向门控循环单元对句子进行编码。公式如下:
Figure GDA0002430806160000067
Figure GDA0002430806160000068
Figure GDA0002430806160000069
表示第i句从左至右的句子编码结果,
Figure GDA00024308061600000610
表示从从右向左的句子编码结果,
Figure GDA00024308061600000611
表示双向门控循环单元从左至右对句子编码,
Figure GDA00024308061600000612
表示双向门控循环单元从右至左对句子编码,将
Figure GDA00024308061600000613
Figure GDA00024308061600000614
拼接得到Hi,作为一个句子最终的编码结果,即编码后的句向量。
3.4)将编码后的句向量输入到句自注意力层,用于提升对于文本语意而言更加重要的句子的权重,其原理与词的注意力层原理相同,公式如下:
ui=tanh(WsHi+bs)
Figure GDA00024308061600000615
Figure GDA00024308061600000616
ui为隐藏层向量,Hi表示编码后的句向量,βi为第i句话在文书文本中的权重,T表示转置符号,us为句子级的上下文向量。该上下文向量可以使得文档中的句子与其他句子之间存在上下文关系,该向量在层次自注意力神经网络模型训练过程中得到;v表示文书文本的向量表示。
3.5)得到文书文本表示向量之后,将文书文本向量输入到全连接层及Softmax层,使用Softmax算法得到文书属于不同争议焦点类别的概率分布,再选取其中概率值大于0.1的争议焦点类别作为最终的预测结果。
4)识别争议焦点:利用步骤2)构建的数据集训练步骤3)所建的神经网络模型,得到文本分类器,将任一篇文书进行分词、去停用词等预处理后,作为输入传入文本分类器,文本分类器将输出识别出的该文书的争议焦点所属的类别。
实施例
下面结合本发明的方法详细说明本实施例实施的具体步骤,如下:
在本实施例中,将本发明的方法应用于商品房买卖纠纷领域的法院判决文书,自动识别文书中的争议焦点。
1)利用正则表达式对共约33.6万份裁判文书进行处理,从中抽取出法院对于案件争议焦点的总结和表述。其中,内容中含有对争议焦点的表述的文书越有1.5万份。从这1.5万份文书中,可以得到不重复的争议焦点表述语句共6418句。首先采用TF-IDF算法对文本进行向量化。首先,对文本进行切词、去停用词等预处理,然后构建词袋空间。将所有的文档都读入到程序中,并按照上述过程为每句争议焦点切词并去除停用词。统计出所有文档的词的集合。对每一个文档,即争议焦点的语句,构建一个向量,向量的值是某个词语在本文档中出现的次数。最后用TF-IDF算法,将单词出现次数的向量转化为权值向量。
将所有的文本进行向量化表示以后,采用自底向上的层次聚类方法对争议焦点进行聚类。聚类时,使用夹角余弦值来度量两个向量之间的距离,并使用两个簇中所有样本对的距离的平均值来作为两个簇之间的距离。设置阈值0.95,最后可得到类簇19个。结果如表1所示。
表1争议焦点体系
Figure GDA0002430806160000071
Figure GDA0002430806160000081
Figure GDA0002430806160000091
Figure GDA0002430806160000101
2)通过步骤1)的处理,筛选出含有有效争议焦点的法院文书共8303篇。接下来为这些文书进行标注。在标注的时候,逐句查看该文书的争议焦点语句,并判断焦点属于哪一个类别。以某篇文书为例,从该文书中能够抽取出两句争议焦点的句子,其中第一句“一、三被告是否存在逾期交楼”属于“逾期交房”的问题,第二句“违约金应如何计算”属于“违约金如何计付”的问题。因此,该篇文书的类别标签为“是否逾期交房”和“违约金如何计付”。为了用于训练,使用一个长度为19的向量来表示文书的类别,如果该文书包含某类争议焦点,则该分量为1,否则为0。因此,这篇文书的标注结果为向量(0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)。
3)按照图2所示结构搭建层次注意力神经网络模型,使用交叉熵函数作为损失函数训练模型。在本方法中,使用Keras框架构建该网络模型,将所有标注的数据集以9:1的比例划分为训练集和验证集进行训练和验证。在对模型结果进行评估时,使用杰卡德距离作为评估标准。杰卡德距离定义为实际类别与预测类别的交集元素个数与并集元素个数之比,它可以较好地体现出两个向量之间的“重合度”,从而用来评估准确率。模型的准确率如附图3所示,其中,横轴为训练轮数,纵轴为以杰卡德距离为评估标准的准确率。
4)我们使用该模型对一篇没有法院归纳争议焦点的文书进行预测。该文书的部分内容如附图4所示。
将该部分文书输入到模型之后,模型预测给出的最有可能的三个争议焦点为:是否逾期交房,违约金如何计付,是否构成违约。结合图中划线语句,可以判断出模型给出的预测焦点结果比较正确。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (4)

1.一种基于层次注意力神经网络模型的争议焦点自动识别方法,其特征在于,包括以下步骤:
1)争议焦点体系的构建:从含有法院归纳的争议焦点的文书中提取出法院对案件归纳得到的争议焦点语句;使用TF-IDF算法从争议焦点语句中提取文本特征,将句子表示为向量形式,再使用层次聚类算法将所有的争议焦点语句进行聚类,得到争议焦点体系;
2)数据集构建:利用步骤1)中得到的争议焦点体系,判断该文书的争议焦点类别,并表达成一个二值向量,作为该文书的标签向量;每个文书文本拥有唯一的标签向量,将所有文书文本及其标签向量作为数据集用于训练层次自注意力神经网络模型;
3)构建层次自注意力神经网络模型:所述层次自注意力神经网络模型包括词编码层、词自注意力层、句编码层、句自注意力层、全连接层和Softmax层;将文书文本进行分词、去停用词预处理之后,作为词编码层的输入,词编码层通过word2vec模型以及双向门控循环单元对文书文本中每个词汇进行编码,得到每个词汇的词向量;将词向量输入到词自注意力层,采用自注意力机制得到不同词向量在句子中的权重,加权求和后得到句子的编码,即句向量;将句向量输入到句编码层,利用双向门控循环单元对句向量进行编码,将编码后的句向量输入到句自注意力层,使用自注意力机制得到不同句向量在文本中的权重,加权求和得到文本的向量形式表示;最后通过全连接层和Softmax层得到该文书文本属于不同争议焦点类别的概率分布,再选取其中概率值大于0.1的争议焦点类别作为最终的预测结果;
4)识别争议焦点:利用步骤2)构建的数据集训练步骤3)所建的神经网络模型,得到文本分类器,将任一篇文书进行分词、去停用词预处理后,作为输入传入文本分类器,文本分类器将输出识别出的该文书的争议焦点所属的类别。
2.根据权利要求1所述的一种基于层次注意力神经网络模型的争议焦点自动识别方法,其特征在于,所述步骤1)具体为:
从选定领域中含有法院归纳的争议焦点的文书中提取出法院对案件归纳的争议焦点语句,然后对语句进行分词和去停用词处理;使用TF-IDF算法,即用每个词的词频和逆文档频率的乘积作为该词在该句中的权重,将句子表示为向量形式,向量的每一个分量表示一个词在该句中的TF-IDF权重;使用层次聚类算法将所有争议焦点语句进行聚类;句子之间的相似度利用向量空间的余弦相似度计算,簇与簇之间的相似度以两个簇中所有点的平均相似度计算;将簇与簇之间的相似度大于等于0.95的两个簇聚类,最终得到争议焦点的分类体系。
3.根据权利要求1所述的一种基于层次注意力神经网络模型的争议焦点自动识别方法,其特征在于,所述步骤2)中将争议焦点所属类别表达成一个二值向量,即在该文书所属争议焦点类别的分量上为1,其它分量上为0,该二值向量作为该文书的标签向量;从而将文书争议焦点的自动识别问题转化成多标签多分类的文本分类问题。
4.根据权利要求1所述的一种基于层次注意力神经网络模型的争议焦点自动识别方法,其特征在于,所述步骤3)具体为:
层次注意力网络模型的网络结构由五个部分组成,前四部分分别是词编码层、词自注意力层、句编码层、句自注意力层;通过该四部分可得到文书文本的向量表示,再通过一层全连接层和Softmax层得到文本属于不同焦点类别的概率分布;具体步骤如下:
3.1)将文书的文本进行切词、去停用词预处理之后作为词编码层的输入,词编码层是利用word2vec模型和双向门控循环单元对词进行编码;在双向门控循环单元中,有两个门,分别是更新门zt和重置门rt;更新门用于控制t-1时刻的状态信息被带入到t时刻状态中的程度,更新门的值越大说明t-1时刻的状态信息带入越多;重置门用于控制忽略t-1时刻的状态信息的程度,重置门的值越小说明忽略得越多;双向门控循环单元中的传播方式可以表示为:
Figure FDA0003545368940000021
zt=σ(Wzxt+Uzht-1+bz)
Figure FDA0003545368940000022
rt=σ(Wrxt+Urht-1+br)
其中,ht代表t时刻的状态向量,xt为t时刻的输入向量,每个时刻处理一个词,因此,xt为第t个词通过word2vec预训练得到的词向量;Wz、Wh、Wr、Uz、Uh、Ur、bz、bh和br是需要训练的参数,在层次自注意力神经网络模型训练过程中得到,σ表示激活函数,⊙表示矩阵对应位置元素相乘;将每一个词自左向右编码得到的状态向量
Figure FDA0003545368940000023
和自右向左编码得到的状态向量
Figure FDA0003545368940000024
对应拼接起来,作为该词编码后的词向量;即对于句子中第t个词,具体如下:
Figure FDA0003545368940000025
Figure FDA0003545368940000026
Figure FDA0003545368940000027
3.2)将编码后的词向量输入到词自注意力层,词自注意力层用于突出一句话中对于句意表达更加重要的词;其过程如下所示:
uit=tanh(Wwhit+bw)
Figure FDA0003545368940000028
Figure FDA0003545368940000029
对于第i句话中的第t个单词,uit为隐藏层的第i句话中的第t个单词的向量,hit表示第i句话中的第t个词单词的词向量,αit为第i句话中的第t个单词在第i句话中的权重,T表示转置符号,uw为单词级别的上下文向量;上下文向量可以使一句话中的词与其他词语之间存在上下文关系,该向量在层次自注意力神经网络模型训练过程中得到;si表示第i句的句向量;
3.3)句编码层的原理与词编码层相同,利用步骤3.2)得到的句向量和双向门控循环单元对句子进行编码;公式如下:
Figure FDA0003545368940000031
Figure FDA0003545368940000032
Figure FDA0003545368940000033
表示第i句从左至右的句子编码结果,
Figure FDA0003545368940000034
表示从从右向左的句子编码结果,
Figure FDA0003545368940000035
表示双向门控循环单元从左至右对句子编码,
Figure FDA0003545368940000036
表示双向门控循环单元从右至左对句子编码,将
Figure FDA0003545368940000037
Figure FDA0003545368940000038
拼接得到Hi,作为一个句子最终的编码结果,即编码后的句向量;
3.4)将编码后的句向量输入到句自注意力层,用于提升对于文本语意而言更加重要的句子的权重,其原理与词的注意力层原理相同,公式如下:
ui=tanh(WsHi+bs)
Figure FDA0003545368940000039
Figure FDA00035453689400000310
ui为隐藏层向量,Hi表示编码后的句向量,βi为第i句话在文书文本中的权重,T表示转置符号,us为句子级的上下文向量;该上下文向量可以使得文档中的句子与其他句子之间存在上下文关系,该向量在层次自注意力神经网络模型训练过程中得到;v表示文书文本的向量表示;
3.5)得到文书文本表示向量之后,将文书文本向量输入到全连接层及Softmax层,使用Softmax算法得到文书属于不同争议焦点类别的概率分布,再选取其中概率值大于0.1的争议焦点类别作为最终的预测结果。
CN201911182247.9A 2019-11-27 2019-11-27 一种基于层次注意力神经网络模型的争议焦点自动识别方法 Active CN111143550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911182247.9A CN111143550B (zh) 2019-11-27 2019-11-27 一种基于层次注意力神经网络模型的争议焦点自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911182247.9A CN111143550B (zh) 2019-11-27 2019-11-27 一种基于层次注意力神经网络模型的争议焦点自动识别方法

Publications (2)

Publication Number Publication Date
CN111143550A CN111143550A (zh) 2020-05-12
CN111143550B true CN111143550B (zh) 2022-05-03

Family

ID=70517273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911182247.9A Active CN111143550B (zh) 2019-11-27 2019-11-27 一种基于层次注意力神经网络模型的争议焦点自动识别方法

Country Status (1)

Country Link
CN (1) CN111143550B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709223B (zh) * 2020-06-02 2023-08-08 上海硬通网络科技有限公司 基于bert的句子向量生成方法、装置及电子设备
CN111695874B (zh) * 2020-06-09 2023-08-11 山东交通学院 一种司法判决辅助系统以及方法、设备、可存储介质
CN111814477B (zh) * 2020-07-06 2022-06-21 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN111858834B (zh) * 2020-07-30 2023-12-01 平安国际智慧城市科技股份有限公司 基于ai的案件争议焦点确定方法、装置、设备及介质
CN111984791B (zh) * 2020-09-02 2023-04-25 南京信息工程大学 一种基于注意力机制的长文分类方法
CN112487146B (zh) * 2020-12-02 2022-05-31 重庆邮电大学 一种法律案件争议焦点获取方法、装置以及计算机设备
CN112417893A (zh) * 2020-12-16 2021-02-26 江苏徐工工程机械研究院有限公司 一种基于语义层次聚类的软件功能需求分类方法及系统
CN112560501B (zh) * 2020-12-25 2022-02-25 北京百度网讯科技有限公司 语义特征的生成方法、模型训练方法、装置、设备及介质
CN112732871B (zh) * 2021-01-12 2023-04-28 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112395419B (zh) * 2021-01-18 2021-04-23 北京金山数字娱乐科技有限公司 文本分类模型的训练方法及装置、文本分类方法及装置
CN113468323B (zh) * 2021-06-01 2023-07-18 成都数之联科技股份有限公司 争议焦点类别及相似判断方法及系统及装置及推荐方法
CN113553856B (zh) * 2021-06-16 2022-08-26 吉林大学 一种基于深度神经网络的争议焦点识别方法
CN113360660B (zh) * 2021-07-27 2024-08-16 北京有竹居网络技术有限公司 文本类别识别方法、装置、电子设备和存储介质
CN113688911A (zh) * 2021-08-26 2021-11-23 安徽咪鼠科技有限公司 一种基于softmax的文本多标签分类方法
CN113761106B (zh) * 2021-09-08 2024-06-04 北京快确信息科技有限公司 一种强化自注意力的债券交易意图识别系统
CN113627195B (zh) * 2021-10-14 2022-01-18 华东交通大学 基于层次Transformer和图神经网络的评论情感分析方法及系统
CN114139522B (zh) * 2021-11-09 2024-07-26 北京理工大学 一种基于层级注意力和标签引导学习的关键信息识别方法
CN115048521B (zh) * 2022-06-23 2024-07-23 重庆邮电大学 一种基于半监督的图神经网络的案件争议焦点识别方法及装置
CN115081436B (zh) * 2022-07-15 2022-12-30 苏州大学 一种否定焦点的识别方法及系统
CN115422920B (zh) * 2022-11-03 2023-02-28 南京信息工程大学 基于bert和gat的裁判文书争议焦点识别方法
CN116304059B (zh) * 2023-05-10 2023-09-12 南京信息工程大学 基于多特征融合skipgram模型和生成网络的诉辩焦点识别方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241621A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 法律知识的检索方法及装置
CN109359175A (zh) * 2018-09-07 2019-02-19 平安科技(深圳)有限公司 电子装置、诉讼数据处理的方法及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10949620B2 (en) * 2016-10-06 2021-03-16 University Of Massachusetts Methods for automated controversy detection of content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241621A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 法律知识的检索方法及装置
CN109359175A (zh) * 2018-09-07 2019-02-19 平安科技(深圳)有限公司 电子装置、诉讼数据处理的方法及存储介质

Also Published As

Publication number Publication date
CN111143550A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111143550B (zh) 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110222188B (zh) 一种多任务学习的公司公告处理方法及服务端
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别系统
CN109783809B (zh) 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN114926150B (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN110717843A (zh) 一种可复用的法条推荐框架
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN110297889B (zh) 一种基于特征融合的企业情感倾向分析方法
CN113204967B (zh) 简历命名实体识别方法及系统
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN112560486A (zh) 基于多层神经网络的电力实体识别方法、存储介质和设备
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN111090985B (zh) 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN115422349A (zh) 一种基于预训练生成模型的层次文本分类方法
CN114692596A (zh) 基于深度学习算法的债券信息解析方法、装置及电子设备
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN113901172A (zh) 基于关键词结构编码的涉案微博评价对象抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant