CN112347269A - 基于BERT和Att-BiLSTM的论点对识别方法 - Google Patents

基于BERT和Att-BiLSTM的论点对识别方法 Download PDF

Info

Publication number
CN112347269A
CN112347269A CN202011255816.0A CN202011255816A CN112347269A CN 112347269 A CN112347269 A CN 112347269A CN 202011255816 A CN202011255816 A CN 202011255816A CN 112347269 A CN112347269 A CN 112347269A
Authority
CN
China
Prior art keywords
vector
bert
bilstm
att
argument
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011255816.0A
Other languages
English (en)
Inventor
张璞
刘华东
陈鹏
熊安萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011255816.0A priority Critical patent/CN112347269A/zh
Publication of CN112347269A publication Critical patent/CN112347269A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理领域,具体涉及一种基于BERT和Att‑BiLSTM的论点对识别方法,包括获取法律判决书中的数据,对数据进行预处理;将预处理的数据输入到训练好的法律论点对分类模型中,识别出诉方辩方相对应的法律论点对,根据法律论点对进行司法判决;所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att‑BiLSTM分类模型;本发明在进行数据预测过程中加入了分层Attention机制,该机制为每个单词分配一个注意力权重,并为每个句子分配一个注意力权重,融合了句子级和词级特征,可以将重要特征突出,避免长序列导致的历史记忆变弱的问题,可以有效的提高识别效果。

Description

基于BERT和Att-BiLSTM的论点对识别方法
技术领域
本发明属于自然语言处理领域,具体涉及一种基于BERT和Att-BiLSTM的论点对识别方法。
背景技术
论辩挖掘是从非结构化的文本中自动提取论证结构。论辩挖掘可以应用于许多领域,例如提高人工智能的自动推理能力,或者信息的检索和提取。论辩挖掘主要集中于以下任务:(1)论辩句子检测,识别给定文档中论辩性和非论辩性的句子。(2)论点类型识别,将论辩性句子分为主张(claim)和前提(premise)。(3)论点关系检测,检测论点之间的关系,关系通常分为支持(support)和反对(attack)。
司法领域是最先关注论辩挖掘,也是论辩挖掘最成功的应用领域之一,可以使用论辩挖掘技术在结构化的法律文本集合中提取主张和支持主张的前提,来构建法律文本数据库,查找相似案件或自动司法等。
法律判决书体现了法律中论辩的过程,辩方与诉方围绕争议焦点展开论辩,相应的论辩在庭审中进行整理记录。所以围绕争议焦点展开的论辩对审批现场恢复和辅助判决方面有着关键的作用。
然而,如何从海量法律文本中提取关键信息将是一个巨大的挑战,由于语料库庞大,表达方式多样,门类繁多,手工地识别论辩文本是非常耗时耗力的。使用论辩挖掘技术来自动提取相对应的法律文本对是解决这一问题的有效方法。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于BERT和Att-BiLSTM的论点对识别方法,该方法包括:获取法律判决书中的数据,对数据进行预处理;将预处理的数据输入到训练好的法律论点对分类模型中,识别出诉方辩方相对应的法律论点对,根据法律论点对进行司法判决;所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att-BiLSTM分类模型;
法律论点对分类模型的训练过程包括:
S1:获取法律判决书中的文本数据;提取文本数据的辩方论点和诉方论点;
S2:辩方论点和诉方论点进行集合,得到数据集;将数据集划分为训练集、验证集以及测试集;
S3:将训练集中的数据输入到BERT模型,得到论点对的语义向量;
S4:将论点对的语义向量输入到Att-BiLSTM分类模型中得到预测分类结果;
S5:根据预测分类结果确定分类损失函数;使用Adam算法不断调整Att-BiLSTM分类模型和BERT模型的参数,当损失函数最小时,完成模型的训练。
优选的,对数据进行预处理的过程包括:
步骤1:将法律判决书根据段落进行划分,得到辩方论点段和诉方论点段;
步骤2:按照句子粒度将辩方论点段和诉方论点段进行划分,去除句子中的停用词,得到句子集合;
步骤3:去除句子集合中的特殊字符及标点符号。
优选的,得到论点对的语义向量的过程包括:
S31:在输入模型的数据中设置两个特殊标记[CLS]和[SEP];特殊分类嵌入[CLS]作为第一个标记,特殊标记[SEP]作为诉方论点和辩方论点分开的标志,特殊标记[SEP]作为句子结束标记;
S32:根据标记嵌入、句子嵌入以及位置嵌入构造语义符号序列E;
S33:语义符号序列E输入到预训练的BERT模型中,得到论点对语义向量;论点对语义向量的表达式为:
C,T1…TN,TSEP,T1…TM=Bert(E)
优选的,得到预测分类结果的过程包括:
S41:将BERT模型的输出分别输入到前向LSTM和后向LSTM中,得到前向隐藏状态
Figure BDA0002773069140000021
和后向隐藏状态
Figure BDA0002773069140000022
S42:将前向的隐藏状态
Figure BDA0002773069140000031
和后向的隐藏态
Figure BDA0002773069140000032
进行拼接得到的向量ht
S43:采用前向LSTM和向后LSTM的最终隐藏状态表示每个句子向量si
S44:根据句子向量si以及注意力机制计算句子注意力权重Ai;根据单词向量和注意力机制计算单词注意力权重aij
S45:根据句子注意力权重Ai和单词注意力权重aij计算第k个样本的输出向量xk
S46:将注意力机制得到的输出向量xk作为输入,通过softmax分类器来得到分类结果pk,分类结果pk最接近标注yk的论点对则为最匹配的论点对。
进一步的,输出向量为:
Figure BDA0002773069140000033
进一步的,分类结果为:
pk=softmax(Wkxk+bk)
优选的,分类损失函数为:
Figure BDA0002773069140000034
优选的,采用Adam算法调整模型中参数过程包括:
步骤1:将一阶矩向量vdW和二阶矩向量sdW初始化为0;
步骤2:根据初始化的一阶矩向量和二阶矩向量计算第t次迭代得到的一阶矩向量vdW和二阶矩向量sdW
步骤3:计算第t次迭代的一阶矩向量偏差修正
Figure BDA0002773069140000035
和二阶矩向量偏差修正
Figure BDA0002773069140000036
步骤4:根据一阶矩向量偏差修正
Figure BDA0002773069140000037
和二阶矩向量偏差修正
Figure BDA0002773069140000038
对权重W进行更新。
进一步的,第t次迭代的一阶矩向量偏差修正
Figure BDA0002773069140000039
和二阶矩向量偏差修正
Figure BDA00027730691400000310
的公式为:
Figure BDA0002773069140000041
Figure BDA0002773069140000042
进一步的,权重W的更新公式为:
Figure BDA0002773069140000043
优选的,使用Att-BiLSTM分类模型对数据论点对进行处理的过程包括:将相应的法律判决书进行预处理得到相应的诉方论点集和辩方论点集;将诉方论点集和辩方论点集中的论点组成论点对,即将每个诉方论点集与辩方论点集中所有论点一一组成论点对;以诉方论点为基准划分论点组,每个论点组中所有论点对输入到Att-BiLSTM分类模型中进行预测识别,计算出每个论点组中得分最高的论点对,将的得分最高的论点对作为最匹配的论点对,最终每个诉方论点都匹配到最相关的辩方论点,预测出相对应的论点对;使用论点对来进行司法判决。
本发明的有益效果:
1)使用BERT模型得到的语义向量,能够捕捉更多的内在信息,提高了预测的精度。
2)基于BiLSTM可以捕获前向和后向的隐藏信息,更好的结合了诉方论点和辩方论点,兼顾了上下文信息。
3)加入了分层Attention机制,该机制为每个单词分配一个注意力权重,并为每个句子分配一个注意力权重,融合了句子级和词级特征,可以将重要特征突出,避免长序列导致的历史记忆变弱的问题,可以有效的提高识别效果。
附图说明
图1为本发明方法流程图;
图2为BERT模型示意图。
图3为Att-BiLSTM分类模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案及有益效果进行清楚、完整地描述,对本发明作进一步详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于BERT和Att-BiLSTM的论点对识别方法,如图1所示,该方法包括:获取法律判决书中的数据,对数据进行预处理;将预处理的数据输入到训练好的法律论点对分类模型中,识别出诉方辩方相对应的论点对,根据法律论点对进行司法判决;所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att-BiLSTM分类模型。
对数据进行预处理的过程包括:首先将法律判决书按照段落进行划分,由于法律判决书非常结构化,所以非常容易的找到诉方论点段和辩方论点段,然后将两段按照句子粒度进行划分,去除句子中的停用词,标点符号特殊符号等等,得到诉方论点集合和辩方论点集合。
采用诉方论点与辩方论点构造论点对,分别包含如下维度:
id:论点对id
text_id:法律判决书id
sc:论点对中诉方论点
A/B/C/D/E:给出的五句候选辩方论点
answer:辩方正确论点
将诉方论点+辩方正确论点作为正样本,将随机选取的其他4个论点作为负样本。
将数据集划分为训练集、验证集以及测试集,其划分的比例为7:1:2;即70%作为训练集,10%作为验证集,20%作为测试集。
对法律论点对分类模型的训练过程包括:
S1:获取法律判决书中的文本数据;提取文本数据的辩方论点和诉方论点;
S2:辩方论点和诉方论点进行集合,得到数据集;将数据集划分为训练集、验证集以及测试集;
S3:将训练集中的数据输入到BERT模型,得到论点对的语义向量;
S4:将论点对的语义向量输入到Att-BiLSTM分类模型中得到预测分类结果;
S5:根据预测分类结果确定分类损失函数;使用Adam算法不断调整Att-BiLSTM分类模型和BERT模型的参数,最小化损失函数,完成模型的训练。
如图2所示,BERT是基于双向Transformer的语言表示模型,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。BERT的基础集成单元是Transformer,但其语义理解能力要优于Transformer等其他模型,对此起决定性作用的在于BERT的预训练过程。需要说明,目前对BERT的使用方式大多是,获取经过预训练得到的BERT基础模型(例如,可自行利用大量通用语料进行预训练,也可以直接获取已有的BERT基础模型),再根据具体应用场景,利用相应场景下的训练语料对BERT基础模型进行微调(fine-tune),得到应用于该场景的模型。
BERT的模型体系结构是基于原始Transformer的多层双向Transformer编码器。BERT模型能够提供强大的上下文相关的向量表示。得到论点对的语义向量的过程包括:
S31:在输入模型的数据中设置两个特殊标记[CLS]和[SEP];特殊分类嵌入[CLS]作为第一个标记,特殊标记[SEP]作为诉方论点和辩方论点分开的标志,特殊标记[SEP]作为句子结束标记。
添加标记后的论点对为:
[CLS]诉方论点[SEP]辩方论点[SEP]
S32:根据标记嵌入、句子嵌入以及位置嵌入构造BERT模型的输入。
构造BERT模型的输入语义符号序列的表达式为:
E=Ew+Es+EP
其中,Ew表示标记嵌入,ES表示句子嵌入,EP表示位置嵌入。
根据上述方法处理多条论点对语句,确定语义符号序列;将语义符号序列输入BERT模型中,得到论点对语义向量。
经过预训练BERT模型输出论点对语义向量如下:
C,T1…TN,TSEP,T1…TM=Bert(E)
其中,C代表特殊分类嵌入[CLS]的输出,T1…TN代表诉方论点的输出,TSEP代表特殊标记[SEP]的输出,T1…TM代表辩方论点的输出,E代表BERT模型的输入。
如图3所示,将整体语义向量输入Att-BiLSTM分类模型中,得到预测分类结果;其具体的实现方式为:Att-BiLSTM分类模型中包括双向LSTM层和Attention层,最终经过softmax层进行输出判断当前所得到的论点对是否是相互匹配的论点对。BiLSTM使用双向的LSTM来提取更高维的特征,而Attention机制则采用了类似人脑处理信息过载的方式,使用Attention机制可以提高神经网络处理信息的能力,解决了计算能力限制和算法难优化的限制。
BiLSTM采用双向的LSTM来提取更高维的特征,捕获了不同方向上的依赖关系。在双向体系结构中,BERT模型的输出输入到前向LSTM中得到前向隐藏状态
Figure BDA0002773069140000071
BERT模型的输出输入到后向LSTM中得到后向隐藏状态
Figure BDA0002773069140000072
其中1≤t≤N+M。最终将前向的隐藏状态
Figure BDA0002773069140000073
和后向的隐藏态
Figure BDA0002773069140000074
进行拼接得到的向量ht;向量ht的表达式为:
Figure BDA0002773069140000075
Attention层通过注意力机制来捕捉全局和局部的联系,本发明采用了分层注意力机制,该机制为第i个句子分配一个句子注意力权重Ai,为第i个句子的第j个单词分配一个单词注意力权重aij,融合了词级特征和句子级特征;其中:
Figure BDA0002773069140000076
Figure BDA0002773069140000081
其中,Ai表示句子注意力权重,aij表示单词注意力权重。
采用前向LSTM和向后LSTM的最终隐藏状态来表示每个句子向量si,其表达式为:
Figure BDA0002773069140000082
其中,
Figure BDA0002773069140000083
表示前向LSTM最终隐藏状态,
Figure BDA0002773069140000084
表示后向LSTM的最终隐藏状态。
句子注意力权重Ai计算公式为:
M=tanh(Ws·S)
A=softmax(WT·M)
其中,S是由句子si组成的矩阵,tanh为激活函数,softmax为归一化指数函数,Ws和W分别为权重矩阵;对权重矩阵随机初始化,并随模型训练进行更新,A是由每个句子对应的注意力权重Ai组成的矩阵。
单词注意力权重计算方式与句子注意力权重计算相似,只不过输入S改为H,其中H为向量ht组成的矩阵。
根据句子注意力权重Ai和单词注意力权重aij计算第k个样本的输出向量xk;输出向量xk的表达式为:
Figure BDA0002773069140000085
将注意力机制得到的输出向量xk作为输入,通过softmax(归一化指数函数)分类器来得到分类结果pk,pk表示样本k预测为正的概率,预测论点对是否为相对应的论点对:
pk=softmax(Wkxk+bk)
其中,softmax(.)表示对数据进行归一化处理,Wk表示输出向量xk对应的权重矩阵,xk表示注意力机制得到的输出向量,bk表示输出向量xk对应的偏置。
分类结果pk最接近标注yi的论点对则为最匹配的论点对,然后根据预测分类结果调整Att-BiLSTM分类模型和BERT模型的模型参数。
分类损失函数为:
Figure BDA0002773069140000091
其中,N表示样本总数,Lk表示第k个样本的损失,yk表示第k个样本的标注,pk表示样本k预测为正的概率。
采用Adam算法对网络模型中的权重W和偏置b进行优化,寻找最小损失函数,以下以权重W更新为例,偏置b的更新方式与权重W更新方式相同:
首先进行初始化vdW和sdW为0,其中vdW为一阶矩向量sdW为二阶矩向量,训练第t次迭代时:
vdW=β1vdW+(1-β1)dW
sdW=β2sdW+(1-β2)(dW)2
其中β1,β2为自行设置的超参数一般为0.9,dW为损失L对权重W的导数。
在使用Adam优化算法时要计算一阶矩向量偏差修正
Figure BDA0002773069140000092
和二阶矩向量偏差修正
Figure BDA0002773069140000093
Figure BDA0002773069140000094
Figure BDA0002773069140000095
最后进行更新权重W:
Figure BDA0002773069140000096
其中α为自行设置的学习率,ε为自行设置的较小的数防止分母太小导致数值不稳定,一般设置为10-8,W表示更新后的权重,Wt-1表示上一次更新的权重。
经过上述Att-BiLSTM分类模型和上述BERT模型的训练以及优化,得到完整的能够预测法律判决书中诉方和辩方相对应论点对的模型。
使用Att-BiLSTM分类模型对数据论点对进行处理的过程包括:将相应的法律判决书进行预处理得到相应的诉方论点集和辩方论点集;将诉方论点集和辩方论点集中的论点组成论点对,即将每个诉方论点集与辩方论点集中所有论点一一组成论点对;以诉方论点为基准划分论点组,每个论点组中所有论点对输入到Att-BiLSTM分类模型中进行预测识别,计算出每个论点组中得分最高的论点对,将的得分最高的论点对作为最匹配的论点对,最终每个诉方论点都匹配到最相关的辩方论点,预测出相对应的论点对;使用论点对来进行司法判决。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,包括:获取法律判决书中的数据,对数据进行预处理;将预处理的数据输入到训练好的法律论点对分类模型中,识别出诉方辩方相对应的法律论点对,根据法律论点对进行司法判决;所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att-BiLSTM分类模型;
法律论点对分类模型的训练过程包括:
S1:获取法律判决书中的文本数据;提取文本数据的辩方论点和诉方论点;
S2:辩方论点和诉方论点进行集合,得到数据集;将数据集划分为训练集、验证集以及测试集;
S3:将训练集中的数据输入到BERT模型,得到论点对的语义向量;
S4:将论点对的语义向量输入到Att-BiLSTM分类模型中得到预测分类结果;
S5:根据预测分类结果确定分类损失函数;使用Adam算法不断调整Att-BiLSTM分类模型和BERT模型的参数,当损失函数最小时,完成模型的训练。
2.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,对数据进行预处理的过程包括:
步骤1:将法律判决书根据段落进行划分,得到辩方论点段和诉方论点段;
步骤2:按照句子粒度将辩方论点段和诉方论点段进行划分,去除句子中的停用词,得到句子集合;
步骤3:去除句子集合中的特殊字符及标点符号。
3.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,得到论点对的语义向量的过程包括:
S31:在输入模型的数据中设置两个特殊标记[CLS]和[SEP];特殊分类嵌入[CLS]作为第一个标记,特殊标记[SEP]作为诉方论点和辩方论点分开的标志,特殊标记[SEP]作为句子结束标记;
S32:根据标记嵌入、句子嵌入以及位置嵌入构造语义符号序列E;
S33:将语义符号序列E输入到预训练的BERT模型中,得到论点对语义向量;论点对语义向量的表达式为:
C,T1…TN,TSEP,T1…TM=Bert(E)
其中,C代表特殊分类嵌入[CLS]的输出,T1…TN代表诉方论点的输出,TSEP代表特殊标记[SEP]的输出,T1…TM代表辩方论点的输出,E代表BERT模型的输入。
4.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,得到预测分类结果的过程包括:
S41:将BERT模型的输出分别输入到前向LSTM和后向LSTM中,得到前向隐藏状态
Figure FDA0002773069130000025
和后向隐藏状态
Figure FDA0002773069130000023
S42:将前向的隐藏状态
Figure FDA0002773069130000022
和后向的隐藏态
Figure FDA0002773069130000024
进行拼接得到的向量ht
S43:采用前向LSTM和向后LSTM的最终隐藏状态表示每个句子向量si
S44:根据句子向量si以及注意力机制计算句子注意力权重Ai;根据单词向量和注意力机制计算单词注意力权重aij
S45:根据句子注意力权重Ai和单词注意力权重aij计算第k个样本的输出向量xk
S46:将注意力机制得到的输出向量xk作为输入,通过softmax分类器来得到分类结果pk,分类结果pk最接近标注yk的论点对则为最匹配的论点对。
5.根据权利要求4所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,输出向量为:
Figure FDA0002773069130000021
其中,Ai表示句子注意力权重,aij表示单词注意力权重,ht表示数据经过隐藏层得到的向量。
6.根据权利要求4所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,分类结果为:
pk=softmax(Wkxk+bk)
其中,softmax(.)表示对数据进行归一化处理,Wk表示输出向量xk对应的权重矩阵,xk表示注意力机制得到的输出向量,bk表示输出向量xk对应的偏置。
7.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,分类损失函数为:
Figure FDA0002773069130000031
其中,N表示样本总数,Lk表示第k个样本的损失,yk表示第k个样本的标注,pk表示样本k预测为正的概率。
8.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,采用Adam算法调整模型中参数过程包括:
步骤1:将一阶矩向量vdW和二阶矩向量sdW初始化为0;
步骤2:根据初始化的一阶矩向量和二阶矩向量计算第t次迭代得到的一阶矩向量vdW和二阶矩向量sdW
步骤3:计算第t次迭代的一阶矩向量偏差修正
Figure FDA0002773069130000032
和二阶矩向量偏差修正
Figure FDA0002773069130000033
步骤4:根据一阶矩向量偏差修正
Figure FDA0002773069130000034
和二阶矩向量偏差修正
Figure FDA0002773069130000035
对权重W进行更新。
9.根据权利要求8所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,第t次迭代的一阶矩向量偏差修正
Figure FDA0002773069130000036
和二阶矩向量偏差修正
Figure FDA0002773069130000037
的公式为:
Figure FDA0002773069130000038
Figure FDA0002773069130000039
其中,vdW表示第t次迭代的一阶矩向量,β1表示设置的超参数,sdW表示第t次迭代的二阶矩向量。
10.根据权利要求8所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,权重W的更新公式为:
Figure FDA0002773069130000041
其中,W表示更新后的权重,Wt-1表示上一次更新的权重,α表示设置的学习率,ε为自行设置的较小的数。
CN202011255816.0A 2020-11-11 2020-11-11 基于BERT和Att-BiLSTM的论点对识别方法 Pending CN112347269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011255816.0A CN112347269A (zh) 2020-11-11 2020-11-11 基于BERT和Att-BiLSTM的论点对识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011255816.0A CN112347269A (zh) 2020-11-11 2020-11-11 基于BERT和Att-BiLSTM的论点对识别方法

Publications (1)

Publication Number Publication Date
CN112347269A true CN112347269A (zh) 2021-02-09

Family

ID=74363450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011255816.0A Pending CN112347269A (zh) 2020-11-11 2020-11-11 基于BERT和Att-BiLSTM的论点对识别方法

Country Status (1)

Country Link
CN (1) CN112347269A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553856A (zh) * 2021-06-16 2021-10-26 吉林大学 一种基于深度神经网络的争议焦点识别方法
CN113609840A (zh) * 2021-08-25 2021-11-05 西华大学 一种汉语法律判决摘要生成方法及系统
CN113626557A (zh) * 2021-05-17 2021-11-09 四川大学 一种基于要素标注与bert和rcnn算法的智能法条推荐辅助系统
CN116304059A (zh) * 2023-05-10 2023-06-23 南京信息工程大学 基于多特征融合skipgram模型和生成网络的诉辩焦点识别方法、设备及存储介质
CN118277538A (zh) * 2024-06-04 2024-07-02 杭州昊清科技有限公司 一种基于检索增强语言模型的法律智能问答方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110765769A (zh) * 2019-08-27 2020-02-07 电子科技大学 一种基于子句特征的实体属性依赖情感分析方法
CN110941700A (zh) * 2019-11-22 2020-03-31 福州大学 一种基于多任务联合学习的论辩挖掘系统及其工作方法
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111274794A (zh) * 2020-01-19 2020-06-12 浙江大学 一种基于传递的同义词扩展方法
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN111414749A (zh) * 2020-03-18 2020-07-14 哈尔滨理工大学 基于深度神经网络的社交文本依存句法分析系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110765769A (zh) * 2019-08-27 2020-02-07 电子科技大学 一种基于子句特征的实体属性依赖情感分析方法
CN110941700A (zh) * 2019-11-22 2020-03-31 福州大学 一种基于多任务联合学习的论辩挖掘系统及其工作方法
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111274794A (zh) * 2020-01-19 2020-06-12 浙江大学 一种基于传递的同义词扩展方法
CN111414749A (zh) * 2020-03-18 2020-07-14 哈尔滨理工大学 基于深度神经网络的社交文本依存句法分析系统
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626557A (zh) * 2021-05-17 2021-11-09 四川大学 一种基于要素标注与bert和rcnn算法的智能法条推荐辅助系统
CN113553856A (zh) * 2021-06-16 2021-10-26 吉林大学 一种基于深度神经网络的争议焦点识别方法
CN113609840A (zh) * 2021-08-25 2021-11-05 西华大学 一种汉语法律判决摘要生成方法及系统
CN113609840B (zh) * 2021-08-25 2023-06-16 西华大学 一种汉语法律判决摘要生成方法及系统
CN116304059A (zh) * 2023-05-10 2023-06-23 南京信息工程大学 基于多特征融合skipgram模型和生成网络的诉辩焦点识别方法、设备及存储介质
CN116304059B (zh) * 2023-05-10 2023-09-12 南京信息工程大学 基于多特征融合skipgram模型和生成网络的诉辩焦点识别方法、设备及存储介质
CN118277538A (zh) * 2024-06-04 2024-07-02 杭州昊清科技有限公司 一种基于检索增强语言模型的法律智能问答方法

Similar Documents

Publication Publication Date Title
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN108664589B (zh) 基于领域自适应的文本信息提取方法、装置、系统及介质
CN112347269A (zh) 基于BERT和Att-BiLSTM的论点对识别方法
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111241807B (zh) 一种基于知识引导注意力的机器阅读理解方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN110263325A (zh) 中文分词系统
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN112699682A (zh) 一种基于可组合弱认证器的命名实体识别方法和装置
CN112800190A (zh) 基于Bert模型的意图识别与槽值填充联合预测方法
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN115392252A (zh) 一种融合自注意力与层级残差记忆网络的实体识别方法
CN114428850A (zh) 一种文本检索匹配方法和系统
Yang et al. Bidirectional LSTM-CRF for biomedical named entity recognition
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题系统
CN110929006B (zh) 一种数据型问答系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210209