CN115422920A - 基于bert和gat的裁判文书争议焦点识别方法 - Google Patents
基于bert和gat的裁判文书争议焦点识别方法 Download PDFInfo
- Publication number
- CN115422920A CN115422920A CN202211365207.XA CN202211365207A CN115422920A CN 115422920 A CN115422920 A CN 115422920A CN 202211365207 A CN202211365207 A CN 202211365207A CN 115422920 A CN115422920 A CN 115422920A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- data
- matrix
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 8
- 150000001875 compounds Chemical class 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 102100021753 Cardiolipin synthase (CMP-forming) Human genes 0.000 description 2
- 101000895518 Homo sapiens Cardiolipin synthase (CMP-forming) Proteins 0.000 description 2
- 101100385368 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CSG2 gene Proteins 0.000 description 2
- 101150115304 cls-2 gene Proteins 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- SESFRYSPDFLNCH-UHFFFAOYSA-N benzyl benzoate Chemical compound C=1C=CC=CC=1C(=O)OCC1=CC=CC=C1 SESFRYSPDFLNCH-UHFFFAOYSA-N 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开基于BERT和GAT的裁判文书争议焦点识别方法,预处理待识别的裁判文书,获得具有文本语义联系的待识别标签特征P,包括:拆分文本获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2;将Data1和Data2输入到文本表征神经网络,获得文本表征;将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络,得到标签特征;对文本表征与标签特征关联的相似特征进行提取,获得基于文本语义联系的待识别标签特征P。本发明有效地处理长文本,引入图注意力神经网络对多标签进行关联性建模,识别与标签相关的信息,在每个法律文本中提取与对应标签相关的区别性信息。
Description
技术领域
本发明涉及基于BERT和GAT的裁判文书争议焦点识别方法,属于裁判文书中争议焦点的智能识别技术领域。
背景技术
随着人工智能技术的发展以及海量法律文本的公开,司法领域的人工智能研究与应用受到了广泛关注。在司法领域,案件的判决依赖专业的法律知识,而且其流程较复杂,同时,“案多人少”现象十分突出,司法从业人员工作量较大。通过裁判文书快速识别出案件争议焦点,作为制约审判效率的关键因素之一,一直没有显著的突破,导致案件审理效率难以提升。当前丰富的数据、相关算法的成熟和各类深度学习框架的涌现为法律人工智能的建设奠定了坚实的技术基础,把争议焦点的识别和检测转化为自然语言处理领域的多标签文本分类(MLTC)问题:将裁判文书视为包含案件信息的法律文本,争议焦点视为标签类别。这些争议焦点的准确识别与分类对于司法领域的实际业务具有重要的支撑作用,极大提高了工作效率,对法治建设具有重要的现实意义与必要性。
“Exploring the use of text classification in the legal domain,”Proceedings of the Second Workshop on Automated Se-mantic Analysis ofInformation in Legal Texts co-located with the 16th International Conferenceon Artificial Intelligence and Law, 2017利用法国最高法院的案例和裁决,调查了文本分类方法在法律领域的应用,然后提出了一种基于支持向量机的案件描述、时间跨度和判决特征的判决系统。然而,这些方法仅提取浅层文本特性或手动标记,很难在大的数据集上收集这些特征。
在司法领域中“Learning to predict charges for criminal cases withlegabasis,” Proceedings of the 2017 Conference on Empirical Methods inNatural Language Processing. Copenhage, pp. 2727-2736,2017中使用注意力机制,将法律条文信息融入文本建模部分,用于辅助罪名预测的多标签文本分类,然而,这项工作不能解决多重罪名预测的问题。
"Scalable extensions of the ReliefF algorithm for weighting andselecting features on the multi-label learning context." Neurocomputing161.aug.5(2015):168-182文献中简单地将单标签文本分类扩展到MLTC,而多标签文本分类任务中各标签之间可能存在语义依赖关系,单标签文本分类不涉及标签依赖问题,这种简化往往使分类性能下降。
发明内容
本发明所要解决的技术问题是克服现有技术中“一些研究尝试把多标签分类分解为多个单标签分类问题,但未能有效获取长文本的特征;或者设计极端多标签卷积神经网络模型来表示文本,这些方法都忽略了标签之间的依赖关系”的缺陷,提供基于BERT和GAT的裁判文书争议焦点识别方法。
为达到上述目的,本发明提供基于BERT和GAT的裁判文书争议焦点识别方法,包括:
预处理待识别的裁判文书,获得具有文本语义联系的待识别标签特征P,通过以下步骤实现:
预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2;
将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络,获得文本表征M;
优先地,预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2,通过以下步骤实现:
步骤1,待识别的裁判文书包括裁判文书的文本编号、案情描述、预先定义的标签类别和标签的个数;
案情描述包括诉请和答辩内容;
将列表形式的案情描述拼接成文本形式,获得文本;
基于诉辩双方,将第i个裁判文书拆分成文本一C i1和文本二C i2,文本一和文本二的标签相同;
优先地,将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络,获得文本表征M,通过以下步骤实现:
文本表征网络包括孪生网络BERT模型和双向长短时记忆网络;
步骤2,将Data1和Data2输入到孪生网络BERT模型中,生成Data1对应的文本向量T CLS 1、Data1对应的具有上下文语义信息的词向量、Data2对应的文本向量T CLS 2和Data2对应的具有上下文语义信息的词向量;
将词向量T1输入到双向长短时记忆网络中,得到涵盖文本双向语义信息的文本H1={h 11,h 21,…,h n1};
将词向量T2输入到双向长短时记忆网络中,得到涵盖文本双向语义信息的文本H2={h 12,h 22,…,h n2};
将最大池化后的文本向量T CLS 1和文本H1拼接,得到文本TH 1;
将最大池化后的文本向量T CLS 2和文本H2拼接,得到文本TH 2;
将TH 1和TH 2拼接,得到完整的句子TH;
利用自注意力机制处理完整的句子TH,获得文本表征M。
步骤3,构建标签图G=(V,E),V是标签图的节点,E是标签图的边;
将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络,
优先地,预先获取交互注意力向量,通过以下步骤实现:
式中,Q aj 是矩阵Q的第a个词对第j个标签的元素,m为矩阵Q的总行数,n为矩阵Q的总列数;
分别对Q的行与列作归一化处理,获得α aj 和β aj :
α aj 表示上下文中第a个词对第j个标签的注意力权重,β aj 表示第a个标签对上下文中第j个词的注意力权重; 利用α aj ,构建矩阵A:
利用β aj ,构建矩阵B:
计算交互注意力向量γ:
优先地,将待识别标签特征P输入预先训练获得的网络模型,网络模型输出预测的标签集合。
优先地,预先训练获得的网络模型,包括:
利用交叉熵损失函数反向传播迭代更新网络模型的参数,直到交叉熵损失函数收敛,获得最终的网络模型。
优先地,交叉熵损失函数为:
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明所达到的有益效果:
本发明提出了基于BERT和GAT的裁判文书争议焦点识别方法,将裁判文书中的庭审相关内容(包括诉请+答辩段落)作为输入的文本,将争议的焦点预先定义为一个标签体系,使用孪生BERT模型、长短时记忆网络(Bi-LSTM)和注意力机制充分提取长文本特征信息,采用图注意力神经网络(GAT)学习标签之间的关联信息,考虑到不同标签关注不同文档深层语义表示,将标签与文本上下文语义信息进行交互,获取具有文本语义联系的标签信息,预测并输出对应的若干标签。
本发明本发明有效地处理长文本,引入了图注意力神经网络对多标签进行关联性建模,建立了标签之间的依赖结构,识别文本中与标签相关的信息,得到标签特定的文档表示,在每个法律文本中提取与对应标签相关的区别性信息;本发明解决了传统的MLTC方法不能充分提取长文本信息,忽略多个标签存在内在交互、标签与文本之间存在交互的缺点。
附图说明
图1是本发明的流程图;
图2是本发明中长短时记忆网络的模型架构图;
图3是本发明网络模型中文本表征神经网络的架构图;
图4是本发明网络模型中图注意力神经网络的架构图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提供基于BERT和GAT的裁判文书争议焦点识别方法,应用阶段,包括:
预处理待识别的裁判文书,获得具有文本语义联系的待识别标签特征P,通过以下步骤实现:
预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2;
将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络,获得文本表征M;
进一步地,本实施例中预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2,通过以下步骤实现:
步骤1,待识别的裁判文书包括裁判文书的文本编号、案情描述、预先定义的标签类别和标签的个数;
案情描述包括诉请和答辩内容;
将列表形式的案情描述拼接成文本形式,获得文本;
基于诉辩双方,将第i个裁判文书拆分成文本一C i1和文本二C i2,文本一和文本二的标签相同;
进一步地,本实施例中将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络,获得文本表征M,通过以下步骤实现:
文本表征网络包括孪生网络BERT模型和双向长短时记忆网络;
步骤2,将Data1和Data2输入到孪生网络BERT模型中,生成Data1对应的文本向量T CLS 1、Data1对应的具有上下文语义信息的词向量、Data2对应的文本向量T CLS 2和Data2对应的具有上下文语义信息的词向量;
将词向量T1输入到双向长短时记忆网络中,得到涵盖文本双向语义信息的文本H1={h 11,h 21,…,h n1};
将词向量T2输入到双向长短时记忆网络中,得到涵盖文本双向语义信息的文本H2={h 12,h 22,…,h n2};
将最大池化(Pooled)后的文本向量T CLS 1和文本H1拼接,得到文本TH 1;
将最大池化后的文本向量T CLS 2和文本H2拼接,得到文本TH 2;
将TH 1和TH 2拼接,得到完整的句子TH;
利用自注意力机制(Self-Attemtion)处理完整的句子TH,获得文本表征M。
如图2所示,BERT在第一句前会加一个[CLS]标志,最后一层该位对应向量可以作为整句话的语义表示,从而用于下游的分类任务等。
[CLS1]是文本一的第一句话前的[CLS]标志,[CLS2]是文本二的第一句话前的[CLS]标志;
E CLS 1表示[CLS1]在该位置的嵌入向量表示,e n1表示文本一中第n个词的嵌入向量表示,E CLS 2表示[CLS2]在该位置的嵌入向量表示,e n2表示文本二中第n个词的嵌入向量表示
步骤3,构建标签图G=(V,E),V是标签图的节点,E是标签图的边;
将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络,
预先获取标签邻接矩阵,通过以下步骤实现:
标签图G的标签邻接矩阵A ef 计算公式如下:
其中,n ef 表示标签节点e、标签节点f在所有裁判文书中共同出现的次数,C m 表示第m个裁判文书。A ef 将矩阵X ef 的所有元素全部设置为1,D为度矩阵;
对A ef 进行归一化处理;
进一步地,本实施例中预先获取交互注意力向量,通过以下步骤实现:
式中,Q aj 是矩阵Q的第a个词对第j个标签的元素,m为矩阵Q的总行数,n为矩阵Q的总列数;Q aj 表示文本上下文中第a个词对第j个标签的相关性,α aj 表示上下文中第a个词对第j个标签的注意力权重,β aj 表示第a个词对第j个标签的注意力权重;
分别对Q的行与列作归一化处理,获得α aj 和β aj :
α aj 表示上下文中第a个词对第j个标签的注意力权重,β aj 表示第a个标签对上下文中第j个词的注意力权重; 利用α aj ,构建矩阵A:
利用β aj ,构建矩阵B:
计算交互注意力向量γ:
进一步地,本实施例中将待识别标签特征P输入预先训练获得的网络模型,网络模型输出预测的标签集合。
进一步地,本实施例中预先训练获得的网络模型,包括:
利用交叉熵损失函数反向传播迭代更新网络模型的参数,直到交叉熵损失函数收敛,获得最终的网络模型。
进一步地,本实施例中交叉熵损失函数为:
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
如图1所示,本发明提供基于BERT和GAT的裁判文书争议焦点识别方法,训练阶段,包括:
本发明提出的基于BERT和GAT的裁判文书争议焦点识别方法,主要包括数据的预处理、法律文本表示、多个标签之间的关联性建模、标签和文本交互、争议焦点识别和预测五个部分。
以2021年中国法研杯司法人工智能挑战赛(LAIC)的争议焦点的识别和提取这一任务为例,具体来说,根据提供的裁判文书中的庭审相关内容(包括诉请+答辩段落),本发明任务是依据预先定义的标签体系,预测识别并且输出对应的若干标签。本发明使用的训练集和测试集来自由浙江省高级法院提供并标注的法院裁判文书,包含大约20000篇裁判文书以及人工额外标注的争议焦点。其中所涉及到的裁判文书均为民事判决书,涉及的案由包括民间借贷、离婚、机动车交通事故责任和金融借款合同。
首先对数据集预处理,
原始数据集的每条样本数据形式为{"testid": 7167, "features_content": ["上", "诉", "人", "O", "R", "G", "不", "服", "原", "审", "判", "决", ",", "向", "本", "院", "提", "起", "上", "诉", "称", "O", "R", "G", "认", "定", "事", "实", "错", "误", … "原", "审", "被", "告", "P", "E", "R", "未", "在","法", "律", "规", "定", "的", "期", "限", "内", "向", "本", "院", "提", "交","书", "面", "答", "辩", "意", "见", "。"], "labels_index": [22, 10, 78, 32], "labels_num": 4},
其中testid是该文本的编号,feature_content是包括诉请+答辩内容的案情描述,labels_index是该案件对应的标签的id集合,labels_num则是标签的个数。
标签信息包括标签和标签的id,本实施例具体包括以下内容:
诉讼主体,0;
损失赔偿,1;
工程款数额认定,2;
本金争议/借贷合意,3;
违约损失/预期利益|复利,4;
担保责任/保证责任诉求/连带保证责任诉求,5;
赔偿项目认定,6;
损失赔偿数额认定,7;
本金争议/借贷合意/书面协议or电子协议/借款的意思表示,8;
本金争议/借贷合意/书面协议or电子协议/缺乏借款的意思表示/违法债务,9;
租金情况,10;
利息/利息约定,11;
利息,12;
本金争议,13;
医护费用认定,14;
本金争议/还清部分借款本金,15;
本金争议/借贷合意/书面协议or电子协议/本金(金额),16;
应否支付工程款,17;
利息问题,18;
交强险分项处理情况认定,19;
责任认定,20;
……
刑民交叉,135;
能否解除劳动关系,136;
各项诉请是否合理,137;
本金争议/款项给付/交付凭证,138;
诉讼主体是否适格,139;
诉讼请求是否予以支持,140;
损失问题,141;
利息/利息约定/口头约定利息,142;
面积差异认定与处理,143;
夫妻共同债务诉求,144;
本金争议/借贷合意/书面协议or电子协议/代举债,145;
虚假诉讼,146;
本金争议/借贷合意/书面协议or电子协议/当事人签章,147。
按照“预处理待识别的裁判文书,获得待识别标签特征P”的逻辑流程,预处理训练集和测试集,获得训练集的具有文本语义联系的的标签特征P和测试集的具有文本语义联系的的标签特征P;
将训练集输入网络模型,通过多层感知器分类,训练获得最终的网络模型。
预先训练获得的网络模型,包括:
利用交叉熵损失函数计算网络模型输出的预测值和训练集的真实值的误差,通过反向传播迭代更新网络模型的参数,直到交叉熵损失函数收敛,获得最终的网络模型。
交叉熵损失函数为:
法律文本属于长文本,而单个孪生网络BERT模型最大输入长度为512,会导致文本信息丢失的问题,采用孪生网络模型共享参数,可以同时接收原文本的不同部分,满足诉请、答辩文本的最大长度512,孪生网络BERT模型可以处理长度为1024的法律案件。
GAT是指图注意力神经网络,孪生网络BERT模型包括两个BERT(BidirectionalEncoder Representations from Transformer), BERT和图注意力神经网络属于现有技术,是利用大规模无标注语料训练获得文本包含丰富语义信息的Representation。
对TH做一个自注意力机制(self-attention)的操作,TH包含了诉请和答辩内容,自注意力网络能够考虑全局信息,聚焦重点信息,有利于完整地找出整个案件的侧重焦点,得到经过自注意计算后的文本表征M;
本实施例中标签向量矩阵采用Stanford官方预训练好的Glove词向量,其中包括有50维、100维和300维3种,为了使标签包含更多的语义信息,本文采用300维的Glove词向量作为GAT的输入。
构建标签图G=(V,E),其中V是标签图的节点,代表标签的节点,E是标签图的边,代表标签与标签之间的关联程度;
语义信息是指能够消除事物不确定性的有一定意义的信息;
自然语言处理(NLP)中的上下文语义信息,指一个单词与其周围单词之间的关联。
文本双向语义信息,是指表示当前词的前向和后向语义信息。
上下文语义信息:自然语言处理(NLP)中的上下文语义信息,指一个单词与其周围单词之间的关联。
领域标签节点的信息:在图卷积网络(graphconvolutionalnetwork,GCN)中,一个节点和相邻节点具有相同的权重,但是在图结构中一个节点相对于它的相邻节点的重要性存在一定差异,通过计算俩个节点之间的权重来衡量节点之间的关联性,这种关联性就是节点之间存在的信息。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (8)
1.基于BERT和GAT的裁判文书争议焦点识别方法,其特征在于,包括:
预处理待识别的裁判文书,获得具有文本语义联系的待识别标签特征P,通过以下步骤实现:
预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2;
将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络,获得文本表征M;
预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2,通过以下步骤实现:
步骤1,待识别的裁判文书包括裁判文书的文本编号、案情描述、预先定义的标签类别和标签的个数;
案情描述包括诉请和答辩内容;
将列表形式的案情描述拼接成文本形式,获得文本;
基于诉辩双方,将第i个裁判文书拆分成文本一C i1和文本二C i2,文本一和文本二的标签相同;
将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络,获得文本表征M,通过以下步骤实现:
文本表征网络包括孪生网络BERT模型和双向长短时记忆网络;
步骤2,将Data1和Data2输入到孪生网络BERT模型中,生成Data1对应的文本向量T CLS 1、Data1对应的具有上下文语义信息的词向量、Data2对应的文本向量T CLS 2和Data2对应的具有上下文语义信息的词向量;
将词向量T1输入到双向长短时记忆网络中,得到涵盖文本双向语义信息的文本H1={h 11,h 21,…,h n1};
将词向量T2输入到双向长短时记忆网络中,得到涵盖文本双向语义信息的文本H2={h 12,h 22,…,h n2};
将最大池化后的文本向量T CLS 1和文本H1拼接,得到文本TH 1;
将最大池化后的文本向量T CLS 2和文本H2拼接,得到文本TH 2;
将TH 1和TH 2拼接,得到完整的句子TH;
利用自注意力机制处理完整的句子TH,获得文本表征M。
4.根据权利要求3所述的基于BERT和GAT的裁判文书争议焦点识别方法,其特征在于,
预先获取交互注意力向量,通过以下步骤实现:
式中,Q aj 是矩阵Q的第a个词对第j个标签的元素,m为矩阵Q的总行数,n为矩阵Q的总列数;
分别对Q的行与列作归一化处理,获得α aj 和β aj :
α aj 表示上下文中第a个词对第j个标签的注意力权重,β aj 表示第a个标签对上下文中第j个词的注意力权重; 利用α aj ,构建矩阵A:
利用β aj ,构建矩阵B:
计算交互注意力向量γ:
5.根据权利要求4所述的基于BERT和GAT的裁判文书争议焦点识别方法,其特征在于,
将待识别标签特征P输入预先训练获得的网络模型,网络模型输出预测的标签集合。
6.根据权利要求5所述的基于BERT和GAT的裁判文书争议焦点识别方法,其特征在于,
预先训练获得的网络模型,包括:
利用交叉熵损失函数反向传播迭代更新网络模型的参数,直到交叉熵损失函数收敛,获得最终的网络模型。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365207.XA CN115422920B (zh) | 2022-11-03 | 2022-11-03 | 基于bert和gat的裁判文书争议焦点识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365207.XA CN115422920B (zh) | 2022-11-03 | 2022-11-03 | 基于bert和gat的裁判文书争议焦点识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115422920A true CN115422920A (zh) | 2022-12-02 |
CN115422920B CN115422920B (zh) | 2023-02-28 |
Family
ID=84207152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211365207.XA Active CN115422920B (zh) | 2022-11-03 | 2022-11-03 | 基于bert和gat的裁判文书争议焦点识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115422920B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304059A (zh) * | 2023-05-10 | 2023-06-23 | 南京信息工程大学 | 基于多特征融合skipgram模型和生成网络的诉辩焦点识别方法、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143550A (zh) * | 2019-11-27 | 2020-05-12 | 浙江大学 | 一种基于层次注意力神经网络模型的争议焦点自动识别方法 |
CN112560432A (zh) * | 2020-12-11 | 2021-03-26 | 中南大学 | 基于图注意力网络的文本情感分析方法 |
CN112925908A (zh) * | 2021-02-19 | 2021-06-08 | 东北林业大学 | 一种基于Attention的图注意力网络的文本分类方法及系统 |
US20220092267A1 (en) * | 2020-09-23 | 2022-03-24 | Jingdong Digits Technology Holding Co., Ltd. | Method and system for aspect-level sentiment classification by graph diffusion transformer |
CA3131843A1 (en) * | 2020-09-25 | 2022-03-25 | Royal Bank Of Canada | System and method for structure learning for graph neural networks |
CN114254110A (zh) * | 2021-12-16 | 2022-03-29 | 胜斗士(上海)科技技术发展有限公司 | 用于确定文本数据的标签的方法和设备 |
CN114722196A (zh) * | 2022-03-29 | 2022-07-08 | 山东省计算中心(国家超级计算济南中心) | 基于注意力机制的企业文本多标签标注方法及系统 |
CN114860930A (zh) * | 2022-04-25 | 2022-08-05 | 桂林电子科技大学 | 一种文本分类方法、装置以及存储介质 |
CN115017917A (zh) * | 2022-08-09 | 2022-09-06 | 北京肇祺信息科技有限公司 | 基于多头注意力机制的裁判文书争议焦点识别方法 |
-
2022
- 2022-11-03 CN CN202211365207.XA patent/CN115422920B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143550A (zh) * | 2019-11-27 | 2020-05-12 | 浙江大学 | 一种基于层次注意力神经网络模型的争议焦点自动识别方法 |
US20220092267A1 (en) * | 2020-09-23 | 2022-03-24 | Jingdong Digits Technology Holding Co., Ltd. | Method and system for aspect-level sentiment classification by graph diffusion transformer |
CA3131843A1 (en) * | 2020-09-25 | 2022-03-25 | Royal Bank Of Canada | System and method for structure learning for graph neural networks |
CN112560432A (zh) * | 2020-12-11 | 2021-03-26 | 中南大学 | 基于图注意力网络的文本情感分析方法 |
CN112925908A (zh) * | 2021-02-19 | 2021-06-08 | 东北林业大学 | 一种基于Attention的图注意力网络的文本分类方法及系统 |
CN114254110A (zh) * | 2021-12-16 | 2022-03-29 | 胜斗士(上海)科技技术发展有限公司 | 用于确定文本数据的标签的方法和设备 |
CN114722196A (zh) * | 2022-03-29 | 2022-07-08 | 山东省计算中心(国家超级计算济南中心) | 基于注意力机制的企业文本多标签标注方法及系统 |
CN114860930A (zh) * | 2022-04-25 | 2022-08-05 | 桂林电子科技大学 | 一种文本分类方法、装置以及存储介质 |
CN115017917A (zh) * | 2022-08-09 | 2022-09-06 | 北京肇祺信息科技有限公司 | 基于多头注意力机制的裁判文书争议焦点识别方法 |
Non-Patent Citations (2)
Title |
---|
ANKIT PAL等: "MAGNET: Multi-Label Text Classification using Attention-based Graph Neural Network", 《HTTPS://ARXIV.ORG/PDF/2003.11644.PDF》 * |
郝超等: "融合BERT和图注意力网络的多标签文本分类", 《计算机系统应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304059A (zh) * | 2023-05-10 | 2023-06-23 | 南京信息工程大学 | 基于多特征融合skipgram模型和生成网络的诉辩焦点识别方法、设备及存储介质 |
CN116304059B (zh) * | 2023-05-10 | 2023-09-12 | 南京信息工程大学 | 基于多特征融合skipgram模型和生成网络的诉辩焦点识别方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115422920B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
Braz et al. | Document classification using a Bi-LSTM to unclog Brazil's supreme court | |
CN115422920B (zh) | 基于bert和gat的裁判文书争议焦点识别方法 | |
Zarzour et al. | Sentiment analysis based on deep learning methods for explainable recommendations with reviews | |
Hao et al. | Sentiment recognition and analysis method of official document text based on BERT–SVM model | |
CN116777607B (zh) | 一种基于nlp技术的智能审计方法 | |
CN117493973A (zh) | 一种基于生成式人工智能的社交媒体负面情绪识别方法 | |
Li et al. | Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning | |
Ermatita et al. | Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks. | |
CN111563374A (zh) | 一种基于司法裁判文书的人员社交关系抽取方法 | |
CN116244441A (zh) | 一种基于多任务学习的社交网络攻击性言论检测方法 | |
CN116089644A (zh) | 一种融合多模态特征的事件检测方法 | |
Kiršienė et al. | Digital transformation of legal services and access to justice: Challenges and possibilities | |
Ajani et al. | Design a Mechanism for Opinion Mining | |
Jiang et al. | Network public comments sentiment analysis based on multilayer convolutional neural network | |
Li et al. | SCX-SD: semi-supervised method for contextual sarcasm detection | |
Zishumba | Sentiment Analysis Based on Social Media Data | |
Shah et al. | Emotional state recognition from text data using machine learning and deep learning algorithm | |
Singh et al. | An integrated non-linear deep learning method for sentiment classification of online reviews | |
Song | Aspect-Based Sentiment Analysis on Mobile Game Reviews Using Deep Learning | |
CN113298365B (zh) | 一种基于lstm的文化附加值评估方法 | |
Kothuru et al. | Automatic hate speech detection using aspect based feature extraction and Bi-LSTM model | |
Yadav et al. | Constructing Sentiment Sentence Embedding Model Using Transfer Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |