CN116304019A - 一种争议焦点体系构建与识别方法 - Google Patents

一种争议焦点体系构建与识别方法 Download PDF

Info

Publication number
CN116304019A
CN116304019A CN202310028014.3A CN202310028014A CN116304019A CN 116304019 A CN116304019 A CN 116304019A CN 202310028014 A CN202310028014 A CN 202310028014A CN 116304019 A CN116304019 A CN 116304019A
Authority
CN
China
Prior art keywords
dispute focus
focus
dispute
referee
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310028014.3A
Other languages
English (en)
Other versions
CN116304019B (zh
Inventor
魏芸菲
吴正午
胡亚谦
刘贤艳
孙晓锐
谭晓颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Judicial Big Data Research Institute Co ltd
Original Assignee
China Judicial Big Data Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Judicial Big Data Research Institute Co ltd filed Critical China Judicial Big Data Research Institute Co ltd
Priority to CN202310028014.3A priority Critical patent/CN116304019B/zh
Publication of CN116304019A publication Critical patent/CN116304019A/zh
Application granted granted Critical
Publication of CN116304019B publication Critical patent/CN116304019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种争议焦点体系构建与识别方法。本方法步骤包括:1)对裁判文书集中的每一裁判文书进行分段处理,得到裁判文书的事实认定段和裁判说理段集合D;2)从集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段,得到蕴含争议焦点的数据集D1;从数据集D1中提取争议焦点语句,得到争议焦点数据集D2;3)对数据集D2进行聚类,形成争议焦点语句聚类簇;4)结合相关法律知识对聚类结果进行归纳总结,形成多层级争议焦点知识体系;5)结合知识体系对裁判文书集中的裁判文书进行标注,得到争议焦点知识体系识别模型;6)当给定一篇裁判文书A,提取裁判文书A中的争议焦点语句并将其输入该模型,识别出裁判文书A的争议焦点。

Description

一种争议焦点体系构建与识别方法
技术领域
本发明涉及自然语言处理领域和裁判文书中有关争议焦点的研究领域,主要是涉及争议焦点知识体系构建,及在小样本情况下快速、精准地实现争议焦点识别。
背景技术
较早的争议焦点知识体系主要依赖于法律专家从大量的裁判文书中归纳总结争议焦点知识体系。虽然取得了阶段性的成果,但是它必须依靠纯人工的方式来梳理争议焦点知识体系,需要耗费大量法律专家和知识工程师的参与,具有梳理的争议焦点知识体系不全面,时间周期较长,成本较高的缺点。随着机器学习技术的发展,出现了一些基于无监督聚类加法律专家归纳总结的方法,可以辅助法律专家归纳总结争议焦点知识体系,从而减少争议焦点知识体系构建的人力和时间成本。但是单纯的无监督聚类的效果不太理想,对法律专家梳理知识体系的辅助能力有限。因此,如何提升无监督聚类的效果,更好的辅助法律专家归纳争议焦点知识体系成为争议焦点知识体系构建的重要研究方向。
在争议焦点识别方面。较早的争议焦点识别主要依赖法律专家和知识工程师人工制定识别规则,即当文本内容满足了一定的条件,则认为存在相应的争议焦点。虽然取得了阶段性的成果,但是它必须依靠人工的方式来制定争议焦点提取规则,需要大量法律专家和知识工程师的参与。随着机器学习技术的发展,出现了一些基于有监督分类和无监督聚类的案件特征提取方法。作为分类方法的两大分支,有监督分类和无监督聚类都有各自的优缺点。对于有监督分类来说,因为存在大量有类别标记的样本作为监督学习信息,训练得到的分类模型对于未标注样本的预测准确性较高。但在司法领域中,有类别标记的数据却不多,手工对无类别标记的数据进行人工标定需要耗费大量的人力与物力。对无监督聚类来说,它不需要知道数据的类别标签,然而,由于缺少先验信息的指导,其性能还有待于进一步提高。在这种情况下,基于少量标注数据和大量未标记数据的半监督学习应运而生。
因此,在本发明中,我们利用基于解语知识标注的文本聚类方法及半监督文本聚类方式,分别实现争议焦点知识体系构建和争议焦点识别,克服了传统争议焦点知识体系构建存在人工量较大问题,实现了在较少标注数据情况下争议焦点的精准识别。
发明内容
本发明是一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法,包括争议焦点文本内容提取与拆分,并利用解语知识标注实现争议焦点聚类,法律专家基于聚类结果实现各个案由下争议焦点标签体系的构建。基于构建的争议焦点知识体系,利用半监督聚类方法,构建争议焦点识别模型,实现争议焦点标签地精准识别。
基于上述所述,本发明提供了一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法,主要包含:
S1:对公开裁判文书集进行分段处理,得到裁判文书的事实认定段和裁判说理段集合;
S2:利用争议焦点识别规则,对S1中的事实认定段和裁判说理段集合进行判断,筛选出蕴含争议焦点的事实认定段和裁判说理段,并利用争议焦点拆分规则,得到裁判文书中的争议焦点语句集合,形成事实认定和裁判说理端的争议焦点库;
S3:利用解语知识标注和聚类方法,对S2中形成的争议焦点语句进行聚类,形成争议焦点语句聚类簇;
S4:法律专家和知识工程师结合相关法律知识,对S3输出的聚类结果进行归纳总结,形成多层级争议焦点知识体系;
S5:对S4中形成的争议焦点知识体系进行少量样本标注,并采用解语知识标注和半监督聚类方法,生成争议焦点标签的中心向量,构建争议焦点知识体系识别模型;
S6:当给定一篇裁判文书,采用S2中所述的争议焦点方法和S5中构建的争议焦点知识体系识别模型,实现文书中争议焦点标签地精准识别。争议焦点知识体系识别模型为一个标注文本集合;对于一裁判文书A,提取其中的争议焦点语句,若返回结果为空,则表示不含争议焦点;若返回结果不为空,则将返回结果输入所述争议焦点知识体系识别模型,计算该返回结果与所述争议焦点知识体系识别模型中每一标注文本的相似度,将相似度最大的标注文本的标签作为该裁判文书A的争议焦点。
进一步的,所述S1中,对公开的裁判文书集采用如下表所示的分段规则进行分段处理:
Figure SMS_1
Figure SMS_2
抽取文书中事实认定段和裁判说理段,由此构造出数据集:
Figure SMS_3
其中Xi表示第i篇文书对应的事实认定段和裁判说理段,其中i=1,…,N,N为样本总数。事实认定段表示在文书中法院审理查明部分,裁判说理段表示文书中本院认为段,并去除最后的裁判结果部分。
进一步的,所述S2中具体包含如下步骤:
根据法官描述争议焦点常用词,构建争议焦点识别规则,并根据此规则对数据集D进行识别,筛选出只蕴含争议焦点的数据集D1
对数据集D1,利用下表中的争议焦点拆分规则,构建蕴含争议焦点语句集合D2
Figure SMS_4
进一步的,所述S3中,具体包含如下的步骤:
对S2中的争议焦点数据集D2,利用jieba分词工具对数据集D2进行分词,并使用Ernie方法生成争议焦点内容的表示向量集合D3
利用解语知识标注对争议焦点向量集合D3进行权重调整,即对于人物类实体、时间类实体、场景事件类实体、数量词、肯定词、否定词等无用干扰实体降低权重,而对于人物类概念实体、药物类实体等重点实体提高权重,并利用BOW句向量生成模型,构建包含解语知识增强的争议焦点向量集合D4
从集合D4中选取m个争议焦点向量,根据争议焦点的数量m自动生成聚类簇数,其中聚类簇数的设置为:
Figure SMS_5
其中
Figure SMS_6
表示向下取整;
基于m个表示向量以及聚类簇数n_clusters,通过k均值聚类算法对争议焦点进行聚类,输出每个案由下争议焦点的聚类结果。
进一步的,S3中所述的解语知识标注是拥有可描述所有中文词汇的词类体系、中文知识标注工具集,以及更适用于中文挖掘任务的预训练语言模型,并能够有效地利用知识增强机器学习模型效果;
进一步的,所述S4中,首先将S3步骤中生成的聚类结果导入到标注平台中,法律专家结合相关法律知识,利用标注平台更加快捷、方便、完备地进行归纳、总结、梳理争议焦点知识体系。
进一步的,所述S5中具体包含如下步骤:
根据S4中的争议焦点知识体系,标注少量样本数据,标注的数据集记为Ak,其中k代表案由编号。
根据小样本标注数据集Ak及Ernie预训练模型生成争议焦点中心向量,具体的扩展步骤如下:
采用Ernie预训练模型生成每个标签的表示向量。基于法律专家提供的小样本标注数据集,对每个标签l,其中l=1,…,L,假设对应的争议焦点标注数据有pkl个,其对应的争议焦点内容记为
Figure SMS_7
Ak由Ck1,…,CkL组成。利用Ernie预训练模型对Ckl数据集中的样本生成表示向量,其中样本中的每个字会转换为768维的向量,最终得到一个维度为(pkl,768)的向量组合。通过对向量组合求均值,获得此标签的中心点向量表示/>
Figure SMS_8
具体计算如下:
Figure SMS_9
其中
Figure SMS_10
表示针对案由k,在第l个标签下,争议焦点内容/>
Figure SMS_11
对应的向量表示。通过计算向量/>
Figure SMS_12
到该标签下所有争议焦点向量/>
Figure SMS_13
的距离,取最大值作为此标签的阈值λkl,即:
Figure SMS_14
对未标注的争议焦点数据集记为
Figure SMS_15
其中/>
Figure SMS_16
表示案由k下,第i个未标注的争议焦点,nk表示未标注的争议焦点总数。利用粗标注和精标注对未标注数据集进行标注。首先通过Ernie预训练模型将未标注的争议焦点转化为(768,1)的向量表示,争议焦点文本数据/>
Figure SMS_17
对应的向量记为/>
Figure SMS_18
然后计算向量/>
Figure SMS_19
和该案由下所有标签的中心向量
Figure SMS_20
的余弦距离,按距离进行排序,筛选距离最小的前n个中心向量对应的标签作为第一轮标签识别,距离记作d1,…,dn,对应的标签记为l1,…,ln,此过程记作粗标注;最后基于粗标注的结果进行精标注,对于选中的n个标签,通过计算n个标签对应的阀值
Figure SMS_21
与粗标注中计算得到的距离d1,…,dn做差并除以阀值进行标签筛选,具体计算如下:
Figure SMS_22
若θj小于0,则认为当前争议焦点文本数据
Figure SMS_23
不蕴含标签lj,若θj大于或等于0,从中选取θj最大的所对应的标签作为当前争议焦点文本数据/>
Figure SMS_24
的标签;最终争议焦点数据集Fk中的文本被打上0个或者1个标签,由此每个争议焦点语句都被打上争议焦点标签。
基于上述已完成标注的数据集Fk进行校验,扩大标注数据集Ak,在大样本下重新生成各个标签的中心点向量
Figure SMS_25
及其阈值λkl,采用S5中粗标注和精标注方式,实现对新增争议焦点文本的知识体系识别。
进一步的,所述S6中,实现了给定文书,对争议焦点标签的识别,具体如下:
当给定一篇裁判文书,采用S1中文书分段技术进行分段。采用S2中拆分争议焦点的能力对选取的文本进行处理,若返回结果不为空则认为蕴含争议焦点,若返回结果为空,则表示此文书不含争议焦点标签;对于蕴含争议焦点的文书,采用S5中该案由下对应的争议焦点知识体系识别模型,实现争议焦点标签识别。
本发明还提供一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明相对于现有技术具有以下有益效果:
本发明提供了一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法,该方法采用基于解语知识标注的聚类算法,帮助法律专家快速地梳理、归纳争议焦点知识体系,并利用半监督聚类方法,构建争议焦点识别模型,克服了传统争议焦点知识体系构建存在人工量较大问题,实现了在较少标注数据情况下争议焦点的精准识别。
附图说明
图1为争议焦点体系构建与识别方法的流程图。
图2为案件争议焦点标签体系图。
具体实施方式
为进一步阐述本发明的技术解决方案,下面将结合本发明具体实施例及相应的附图对本发明的技术方案进行清晰、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,下面通过具体实施例详细说明一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法:
S1:获取裁判文书数据集,对文书进行分段处理,抽取文书中事实认定段和裁判说理段;对公开裁判文书,通过篇章级文书分段技术(见下表),从文书中抽取事实认定段和裁判说理段,将事实认定段和裁判说理段内容按照“\n”进行拼接,由此构造出数据集:
Figure SMS_26
其中Xi表示第i篇文书对应的事实认定段和的裁判说理段,其中i=1,…,1000000。
Figure SMS_27
S2:利用争议焦点识别规则,对S1步骤的事实认定段和裁判说理段集合进行判断,筛选出蕴含争议焦点的事实认定段和裁判说理段,并利用争议焦点拆分规则,得到裁判文书中的争议焦点语句集合D2
根据法官在文书中的描述习惯,我们采用规则“争议|焦点”对数据集D进行过滤,最终筛选出蕴含争议焦点的数据集约7万篇,记为D1
根据数据集D1,人工梳理争议焦点在文书中存在的情形,主要分为存在单个争议焦点和存在多个争议焦点的情形,通过设置三种场景类(其中一种是单个争议焦点,另外两个为多个争议焦点情形),构建逻辑规则(见下表),实现对文书中争议焦点的提取及其拆分,得到裁判文书中的争议焦点语句集合D2
Figure SMS_28
S3:利用解语知识标注和聚类方法,对S2步骤形成的争议焦点语句进行聚类,形成争议焦点语句聚类簇;
对S2中的争议焦点数据集D2,利用jieba分词工具对数据集D2进行分词,并使用Ernie预训练模型生成争议焦点内容的表示向量D3
利用解语知识标注对争议焦点向量集合D3进行权重调整,即对于人物类实体、时间类实体、场景事件类实体、数量词、肯定词、否定词等无用干扰实体降低权重,而对于人物类概念实体、药物类实体等重点实体提高权重,并利用BOW句向量生成模型,形成包含解语知识增强的争议焦点向量D4
从争议焦点向量D4中选取2000个不重复的争议焦点数据集,根据下述聚类簇数设置公式,确定本次的聚类簇数为200。
Figure SMS_29
其中
Figure SMS_30
表示向下取整;
基于2000个表示向量,设置聚类簇数为200,通过k均值聚类算法对争议焦点进行聚类,输出争议焦点的聚类结果,聚类结果示意内容如下表所示。
Figure SMS_31
S4:法律专家和知识工程师结合相关法律知识,对S3输出的聚类结果进行归纳总结,形成多层级争议焦点知识体系;
首先将S3步骤中2000条样本的聚类结果导入到标注平台中,法律专家结合案件对应的法律知识,利用标注平台更加快捷、方便、完备地对其进行归纳、总结、梳理,构建案件争议焦点的多层级标签体系,如图2所示。
S5:对S4步骤形成的争议焦点知识体系进行少量样本标注,并采用解语知识标注和半监督聚类方法,生成争议焦点标签的中心向量,构建争议焦点知识体系识别模型;
根据S4中的争议焦点知识体系,标注少量样本数据(标注数据示意如下表所示):
Figure SMS_32
本发明结合标注的346条数据集A1及其Ernie预训练模型进行词汇扩展,具体的扩展步骤如下:
基于标注的346条数据集A1,对每个标签设定序号l,其中l=1,…,76,选择标签“抵押合同效力争议”记作l,其对应的标注数据有5个,其对应的争议焦点内容为案涉房产的抵押是否有效、为涉案借款提供房产抵押担保的约定是否生效、主要是:原审被告N与被上诉人N的抵押合同是否生效、主要是房屋抵押登记是否有效、二原告与被告N的抵押合同是否有效。
利用Ernie预训练模型对上述5条样本生成表示向量,最终得到一个维度为(5,768)的向量组合。通过对向量组合求均值,获得此标签的中心点向量表示v0,其维度为(768,)。通过计算向量v0到该标签下5个样本向量
Figure SMS_33
的距离,取最大值作为此标签的阈值λ1l,即:
Figure SMS_34
对案件剩余75个标签重复上述计算过程,获得每个标签的中心点向量和阈值。
对未标注的争议焦点数据集F1,共8000条争议焦点内容进行标注,分为粗标注和精标注。首先通过Ernie预训练模型将8000条未标注文本转化为(768,1)的向量表示,计算每个向量和该案由下所有标签的中心向量
Figure SMS_35
的余弦距离,按距离进行排序,筛选距离最小的前5个中心向量对应的标签作为第一轮标签识别,距离记作d1,…,d5,对应的标签记为l1,…,l5,此过程记作粗标注;最后基于粗标注的结果进行精标注,对于选中的5个标签,通过计算5个标签对应的阀值/>
Figure SMS_36
与粗标注中计算得到的距离d1,…,d5做差并除以阀值进行标签筛选,具体计算如下:
Figure SMS_37
若θj小于0,则认为当前争议焦点文本数据不蕴含标签lj,若θj大于0,从中选取θj最大的所对应的标签作为当前争议焦点文本数据的标签;最终8000条争议焦点数据集中的文本被打上0个或者1个标签。通过对已完成标注的8000条争议焦点数据集进行校验,重新生成各个标签的中心点向量v0及其阈值λ1l,采取粗标注和精标注方式,实现对新增争议焦点文本的知识体系识别。
S6:当给定一篇裁判文书及其案由,采用S2中拆分争议焦点的能力和S5中该案由的争议焦点知识体系识别模型,实现文书中争议焦点标签地精准识别。
当给定一篇裁判文书及其案由名称,采用篇章级文书分段技术进行分段,若分段成功,从中选取事实认定段和裁判说理段,若分段失败,则使用全文进行后续处理。采用S2中拆分争议焦点的能力对选取的文本进行处理,若返回结果不为空则认为蕴含争议焦点,若返回结果为空,则表示此文书不含争议焦点标签;对于蕴含争议焦点的文书,采用S5中对应的争议焦点标签识别模型,实现争议焦点标签识别。
需要说明的是,以上所述仅为本发明的实施例和附图,其目的是为了更好地理解本发明的内容,并不用于限制本发明。对于本领域技术人员来说,本发明可以进行各种实施。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种争议焦点体系构建与识别方法,其步骤包括:
1)对裁判文书集中的每一裁判文书进行分段处理,得到裁判文书的事实认定段和裁判说理段集合D;
2)从所述事实认定段和裁判说理段集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段,得到蕴含争议焦点的数据集D1;从所述数据集D1中提取争议焦点语句,得到争议焦点数据集D2
3)对所述争议焦点数据集D2进行聚类,形成争议焦点语句聚类簇;
4)结合相关法律知识对聚类结果进行归纳总结,形成多层级争议焦点知识体系;
5)结合所述多层级争议焦点知识体系对裁判文书集中的裁判文书进行标注,得到争议焦点知识体系识别模型;
6)当给定一篇裁判文书A,提取该裁判文书A中的争议焦点语句并将其输入所述争议焦点知识体系识别模型,识别出该裁判文书A的争议焦点。
2.根据权利要求1所述的方法,其特征在于,构建争议焦点知识体系识别模型的方法为:
51)结合所述多层级争议焦点知识体系对裁判文书集中的一部分裁判文书进行标注,标注的数据集记为Ak
52)根据数据集Ak及Ernie预训练模型生成争议焦点中心向量:对第l个标签,获取数据集Ak中具有该第l了标签的pkl个争议焦点标注数据,对应的争议焦点内容集合记为
Figure FDA0004045434790000011
L为标签总数;利用Ernie预训练模型对Ckl数据集中的样本生成表示向量并求均值,获得第l个标签的中心点向量/>
Figure FDA0004045434790000012
计算中心向量/>
Figure FDA0004045434790000013
到第l个标签下各争议焦点向量的距离,取最大值作为第l个标签的阈值λkl
53)对未标注的争议焦点数据集
Figure FDA0004045434790000014
进行标注,分为粗标注和精标注:首先通过Ernie预训练模型将未标注文本转化为向量,争议焦点文本数据/>
Figure FDA0004045434790000015
对应的向量记为/>
Figure FDA0004045434790000016
然后计算向量/>
Figure FDA0004045434790000017
和案由k下所有标签的中心向量/>
Figure FDA0004045434790000018
的余弦距离,按距离进行排序,筛选距离最小的前n个中心向量对应的标签作为第一轮标签识别,距离记作d1,…,dn,对应的标签记为l1,…,ln,此过程记作粗标注;然后基于粗标注的结果进行精标注,对于选中的n个标签,通过计算n个标签对应的阀值/>
Figure FDA0004045434790000019
与粗标注中计算得到的距离d1,…,dn做差并除以阀值,得到/>
Figure FDA00040454347900000110
若θj均小于0,则认为当前争议焦点文本数据/>
Figure FDA00040454347900000111
不蕴含标签lj,若存在θj大于或等于0,则选取θj最大值所对应的标签作为当前争议焦点文本数据/>
Figure FDA0004045434790000021
的标签;最终争议焦点数据集Fk中的文本被打上0个或者1个标签;
54)通过对步骤53)得到的标注数据进行校验,重新生成各个标签的中心点向量及其阈值,采用53)中粗标注和精标注方式,对新增争议焦点文本进行标注,得到争议焦点知识体系识别模型。
3.根据权利要求1或2所述的方法,其特征在于,按照设定的分段规则每一裁判文书进行分段处理;其中,事实认定段的分段规则包括:“经.{0,20}(审查|审理|侦查)(查明|认定)[::,、。]”、“本院经(审查|审理|侦查).*?(认定|确认).{0,10}事实[::,、。]”、“当事人.*?证据.*?本院.*?组织.*?质证.*?(审查|审理|侦查)查明”、“(据此|根据|综合).*?本院(经)?(审查|审理|侦查)?查明并确认((以|如)下事实|事实如下)[::,、。]”、“(据此|根据|综合).*?(证据|陈述).*?审理查明.{0,10}事实(为|如下)[::,、。]”和“.{0,5}本院认定.{0,20}(证据|陈述).{0,20}确认.{0,20}事实”;裁判说理段的分段规则包括“本院认为”。
4.根据权利要求3所述的方法,其特征在于,所述事实认定段和裁判说理段集合
Figure FDA0004045434790000022
其中,Xi表示第i篇裁判文书对应的事实认定段和裁判说理段,i=1,…,N,N为裁判文书集中的裁判文书总数。
5.根据权利要求1所述的方法,其特征在于,根据法官描述争议焦点常用词,构建争议焦点识别规则;利用所述争议焦点识别规则,从所述事实认定段和裁判说理段集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段,得到蕴含争议焦点的数据集D1
6.根据权利要求1所述的方法,其特征在于,利用争议焦点拆分规则,从所述数据集D1中提取争议焦点语句,得到争议焦点数据集D2;所述争议焦点拆分规则包括:“((关于)?第[一二三四五六七八九十1-9]个?(争议焦点|焦点|争议))([是为]?[,:]?)。?”和“((本案)?(争议|关于)[\u4e00-\u9fa5]{0,5}焦点之?[1-9一二三四五六七八九十][,。:]?|(争议|关于)[\u4e00-\u9fa5]{0,5}(本案)?另[\u4e00-\u9fa5]{0,5}焦点)”。
7.根据权利要求1所述的方法,其特征在于,步骤3)中,形成争议焦点语句聚类簇的方法为:利用jieba分词工具对所述争议焦点数据集D2进行分词,并使用Ernie方法生成争议焦点内容的表示向量集合D3;然后利用解语知识标注对争议焦点向量集合D3进行权重调整并利用BOW句向量生成模型,构建包含解语知识增强的争议焦点向量集合D4;根据筛选出的m个争议焦点向量及其自动生成的聚类簇数对争议焦点向量集合D4进行聚类,输出每个案由下争议焦点的聚类结果。
8.根据权利要求1所述的方法,其特征在于,步骤6)中,首先对该裁判文书A进行分段,然后提取该裁判文书A中的争议焦点语句,若返回结果为空,则表示不含争议焦点;若返回结果不为空,则将返回结果输入所述争议焦点知识体系识别模型,计算该返回结果与所述争议焦点知识体系识别模型中每一标注文本的相似度,将相似度最大的标注文本的标签作为该裁判文书A的争议焦点。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。
CN202310028014.3A 2023-01-09 2023-01-09 一种争议焦点体系构建与识别方法 Active CN116304019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310028014.3A CN116304019B (zh) 2023-01-09 2023-01-09 一种争议焦点体系构建与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310028014.3A CN116304019B (zh) 2023-01-09 2023-01-09 一种争议焦点体系构建与识别方法

Publications (2)

Publication Number Publication Date
CN116304019A true CN116304019A (zh) 2023-06-23
CN116304019B CN116304019B (zh) 2023-09-12

Family

ID=86817549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310028014.3A Active CN116304019B (zh) 2023-01-09 2023-01-09 一种争议焦点体系构建与识别方法

Country Status (1)

Country Link
CN (1) CN116304019B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034842A1 (en) * 2018-07-24 2020-01-30 Accenture Global Solutions Limited Digital content and transaction management using an artificial intelligence (ai) based communication system
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
CN111291161A (zh) * 2020-02-20 2020-06-16 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
CN112395409A (zh) * 2020-11-30 2021-02-23 重庆工程职业技术学院 一种法律知识检索系统及方法
CN115238072A (zh) * 2022-07-15 2022-10-25 重庆邮电大学 一种基于知识增强的争议焦点归纳方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034842A1 (en) * 2018-07-24 2020-01-30 Accenture Global Solutions Limited Digital content and transaction management using an artificial intelligence (ai) based communication system
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
CN111291161A (zh) * 2020-02-20 2020-06-16 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
CN112395409A (zh) * 2020-11-30 2021-02-23 重庆工程职业技术学院 一种法律知识检索系统及方法
CN115238072A (zh) * 2022-07-15 2022-10-25 重庆邮电大学 一种基于知识增强的争议焦点归纳方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
帅奕男;: "人工智能辅助司法裁判的现实可能与必要限度", 山东大学学报(哲学社会科学版), no. 04 *

Also Published As

Publication number Publication date
CN116304019B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN110162591B (zh) 一种面向数字教育资源的实体对齐方法及系统
Han et al. A survey of transformer-based multimodal pre-trained modals
CN109034248B (zh) 一种基于深度学习的含噪声标签图像的分类方法
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
WO2024067276A1 (zh) 用于确定视频的标签的方法、装置、设备及介质
CN105138977A (zh) 一种大数据环境下的人脸识别方法
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
Kapoor et al. Hldc: Hindi legal documents corpus
CN110941958A (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN116127090A (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN115713085A (zh) 文献主题内容分析方法及装置
Tüselmann et al. Are end-to-end systems really necessary for NER on handwritten document images?
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
CN117873487B (zh) 一种基于gvg的代码函数注释生成方法
CN113609360B (zh) 一种基于场景化多源数据融合分析的方法和系统
CN111191033A (zh) 一种基于分类效用的开集分类方法
Abdollahpour et al. Image classification using ontology based improved visual words
CN112214597B (zh) 基于多粒度建模的半监督文本分类方法和系统
CN118093689A (zh) 基于rpa多模态文档解析与结构化处理系统
CN117891948A (zh) 一种基于内部知识提取与对比学习的小样本新闻分类方法
CN105069136A (zh) 一种大数据环境下的图像识别方法
CN105117735A (zh) 一种大数据环境下的图像检测方法
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN116796288A (zh) 一种面向工业文档的多模态信息提炼方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant