CN119513287A - 法律条文匹配方法、装置、设备及存储介质 - Google Patents
法律条文匹配方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN119513287A CN119513287A CN202411658933.XA CN202411658933A CN119513287A CN 119513287 A CN119513287 A CN 119513287A CN 202411658933 A CN202411658933 A CN 202411658933A CN 119513287 A CN119513287 A CN 119513287A
- Authority
- CN
- China
- Prior art keywords
- legal
- item
- matching
- data
- provision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种法律条文匹配方法、装置、设备及存储介质,包括:获取目标项目合同下各个条旨分类的若干条旨数据;基于目标项目合同,在法律文本结构树进行逐级检索,得到法条匹配范围;基于每一条旨数据与法条匹配范围的各个法律条文之间的相似度,确定每一条旨数据的多条目标匹配法条;对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果。通过利用预先构建的法律文本结构树进行逐级检索,提高法律文本的检索效率,进而对比条旨数据与法律条文之间的相似性,得到初步匹配结果,进而对初步匹配的多条目标匹配法条进行审核优化,提高法律条文匹配的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种法律条文匹配方法、装置、设备及存储介质。
背景技术
随着自然语言技术的不断发展,尤其是近几年预训练语言模型的发展,自然语言处理技术在法律领域的应用得到了长足发展。例如,用于案由分类、法规匹配等。这些主要根据待处理案件与法规中的关键词来确定与待处理案件对应的案由或法规。
然而,通过简单的关键词匹配查询而提供法律咨询,这种方法不具备灵活性而且工作量大,例如针对具体案情查询对应适用法条时,往往需要检索相关的法律法规,然而目前市场上的法规检索系统仍然是基于标题或者全文的检索方式,针对具体案情适用法条时并不能达到精确检索的效果。
发明内容
基于此,有必要针对上述技术问题,提供一种法律条文匹配方法、装置、设备及存储介质,以解决上述技术问题中存在的至少一个问题。
本发明提供一种法律条文匹配方法,包括:
获取目标项目合同下各个条旨分类的若干条旨数据;
对于任一条旨分类:
基于所述目标项目合同,在预先构建的法律文本结构树进行逐级检索,得到法条匹配范围,其中,所述法律文本结构树是对法律文本内容进行逐级拆解构建得到;
基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条;
对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果。
可选地,根据本发明提供的一种法律条文匹配方法,所述基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条,包括:
对于每一所述条旨数据:
基于所述条旨数据与所述法条匹配范围的各个法律条文,提取得到所述条旨数据的文本特征向量以及每一所述法律条文的法条特征向量;
分别计算所述文本特征向量与每一所述法条特征向量之间的相似度;
将各所述相似度进行排序,以根据相似度排序结果,在各所述法律条文中筛选得到所述条旨数据的多条目标匹配法条。
可选地,根据本发明提供的一种法律条文匹配方法,所述对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果,包括:
针对每一个条旨分类:
将所述条旨分类下的每一条条旨数据以及每一所述条旨数据的多条目标匹配法条输入至预设的大语言模型,得到所述大预言模型输出的检测结果;
根据所述检测结果,对各所述目标匹配法条进行过滤处理,得到所述法律条文匹配结果。
可选地,根据本发明提供的一种法律条文匹配方法,所述根据所述检测结果,对各所述目标匹配法条进行过滤处理,得到所述法律条文匹配结果,包括:
根据所述检测结果,在所述多条目标匹配法条中选取得到多条候选法条;
确定各所述候选法条的出现频次,以根据所述出现频次,筛选得到预设数量的候选法条作为所述法律条文匹配结果。
可选地,根据本发明提供的一种法律条文匹配方法,所述法律文本结构树是基于如下步骤构建得到:
获取法律文本内容;
按照预设的法条节点等级划分规则,对所述法律文本内容进行逐级拆解,得到各个节点的等级属性信息,其中,所述等级属性信息包括当前节点的法律文本、节点等级以及下一节点的等级属性信息;
基于各所述等级属性信息,构建得到所述法律文本结构树。
可选地,根据本发明提供的一种法律条文匹配方法,所述获取法律文本内容,包括:
获取原始法律数据;
对所述原始法律数据进行预处理,并根据预处理后的法律数据提取得到所述法律文本内容。
可选地,根据本发明提供的一种法律条文匹配方法,所述获取目标项目合同下各个条旨分类的若干条旨数据,包括:
确定所述目标项目合同的合同分类标签;
基于所述合同分类标签,确定所述目标项目合同对应的全部条旨分类;
确定每一所述条旨分类的若干条旨数据,以对每一所述条旨分类的各个条旨数据进行聚类,以根据聚类结果,筛选得到各所述条旨分类的若干条旨数据。
本发明还提供一种法律条文匹配装置,包括:
获取模块,用于获取目标项目合同下各个条旨分类的若干条旨数据;
对于任一条旨分类:
检索模块,用于基于所述目标项目合同,在预先构建的法律文本结构树进行逐级检索,得到法条匹配范围,其中,所述法律文本结构树是对法律文本内容进行逐级拆解构建得到;
确定模块,用于基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条;
优化模块,用于对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果。
本发明还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述法律条文匹配方法。
本发明还提供一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被处理器执行时实现上述法律条文匹配方法。
上述法律条文匹配方法、装置、设备及存储介质,包括:获取目标项目合同下各个条旨分类的若干条旨数据;基于所述目标项目合同,在预先构建的法律文本结构树进行逐级检索,得到法条匹配范围,其中,所述法律文本结构树是对法律文本内容进行逐级拆解构建得到;基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条;对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果。本发明通过对法律文本进行逐级拆解,形成了一个层次分明的法律文本结构树,能够提高法律文本的检索效率,使得用户能够迅速定位到所需信息,进而对比条款文本向量与法条文本向量之间的相似性,有效衡量两个文本之间的语义接近程度,得到初步匹配的多条目标匹配法条,最后对初步匹配的多条目标匹配法条进行精细化审核匹配,提高法律条文匹配的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中法律条文匹配方法的一流程示意图;
图2是本发明一实施例提供等级属性信息的结构图;
图3是本发明一实施例提供根据相似度进行初步匹配法条的流程框图;
图4是本发明一实施例提供的法条匹配的效果图;
图5是本发明一实施例中法律条文匹配装置的一结构示意图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明一个或多个实施例。在本发明一个或多个实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本发明一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
在一实施例中,具体地,如图1所示,图1是本发明一实施例中法律条文匹配方法的一流程示意图,本发明实施例提供一种法律条文匹配方法,包括如下步骤:
步骤S11,获取目标项目合同下各个条旨分类的若干条旨数据;
具体地,预先设置有合同分类表,进而基于合同分类表,确定所述目标项目合同对应的合同分类标签;根据检索到的合同分类标签,可以在预设的条旨表中找到该合同分类下的全部条旨分类,进而完成“合同分类-该分类条旨-条旨对应法条”的一系列工作。进一步地,条旨表中不含有条旨下对应的详细条款,仅通过条旨名称与法条建立关联,准确性和可解释性较低,因此本发明实施例还设置有条旨数据对照表,进而根据条旨数据对照表,完成条旨分类与合同条款的对应关系,以得到每一个条旨分类的多条条旨数据。
更进一步地,为了确保条旨数据的多样性,更全面完成条旨与法条的对应。在进行数据处理时,需要剔除条旨数据中的相似数据。此外,还需要对条旨数据进行均衡化处理,例如,对每一所述条旨分类的各个条旨数据进行聚类,以根据聚类结果,筛选得到各所述条旨分类的若干条旨数据,从而保证数据的多样性。
步骤S12,基于所述目标项目合同,在预先构建的法律文本结构树进行逐级检索,得到法条匹配范围;
需要说明的是,法律文本结构树是对法律文本内容进行逐级拆解构建得到,法律文本结构树的具体构建过程在下述实施例中具体阐述,在此不再赘述。具体地,基于目标项目合同,通过关键词检索的方式逐级检测法律文本结构树的内容,可以大幅度提高检索效率,可选地,从等级高的节点开始检索,若检索到关键词,则该节点下的所有分支都作为法条匹配的范围,得到法条匹配范围。例如,确定租赁类及知识产权类合同的法条关键词为:租赁类:租赁、合同。知识产权类:专利、软件著作、商标等。
步骤S13,基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条;
具体地,对于每一所述条旨数据均执行以下步骤:提取条旨数据的文本特征向量,以及提取各个法律条文对应的法条特征向量,可选地,使用M3E模型提取法律条文及条旨数据的向量表示,其中,M3E模型是一种集成了多种NLP任务的中文嵌入模型。进而分别计算文本特征向量与每一所述法条特征向量之间的相似度,例如,按照余弦相似度公式计算得到相似度。进一步地,过滤掉相似度低于预设相似度阈值的法律条文;此外,还可对各个相似度进行排序,根据相似度排序结果,选取相似度较高的多条法律条文作为目标匹配法条。
步骤S14,对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果。
在本实施例中,还利用预设的大语言模型对初步匹配的目标匹配法条进行二次审核优化,以确保推荐的法律条款与合同条旨标签具有高度相关性,提高法律条文匹配的准确性。
具体地,针对每一个条旨分类:基于所述条旨分类下的每一条旨数据以及每一所述条旨数据的多条目标匹配法条,生成预设数据格式的查询信息,例如,查询信息为:基于法律条文:“第五百四十三条【协议变更合同】当事人协商一致,可以变更合同”。设立合同条款:“双方可以协商变更或终止本合同”。利用大语言模型对预设数据格式的查询信息进行检测,得到检测结果。从而根据检测结果,确定条旨数据与目标匹配法条是否相匹配。为了能够分析法律概念之间的关联,增强了匹配结果的可解释性,在一实施例中,引入思维链推导方式,增加大语言模型生成的可解释性,其中,思维链推导方式(Think Chain)是一种用于提高自然语言处理模型可解释性的技术;在解决问题或进行推理时,逐步展开并解释每一个思考步骤,模型在分析法律概念之间的关联时,不仅仅给出最终的匹配结果,还会逐步展示如何通过不同的推理步骤,分析出概念之间的关系,使得用户能够理解模型是如何得出结论的。
可以理解地,大语言模型输出的检测结果包括分析部分和结论部分,沿用上述例子,分析部分为:该合同条款与《中华人民共和国民法典》第五百四十三条的法条内容相符合,它明确了合同的变更或终止需要双方协商一致的原则;检测结果中的结论部分为:是。此时,证明条旨数据与该目标匹配法条相匹配,可选地,在实施例中的大语言模型设置为Qwen2-72B模型。
进一步地,在各个目标匹配法条中,选取检测结果为匹配成功的多条候选法条。在一实施例中,直接将多条候选法条作为法律条文匹配结果。由于每一个条旨分类的多条候选法的数量可能较多,在另一实施例中,统计各所述候选法条的出现频次,以根据所述出现频次,筛选得到预设数量的候选法条作为所述法律条文匹配结果。
本发明实施例通过上述方案,包括:获取目标项目合同下各个条旨分类的若干条旨数据;基于所述目标项目合同,在预先构建的法律文本结构树进行逐级检索,得到法条匹配范围,其中,所述法律文本结构树是对法律文本内容进行逐级拆解构建得到;基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条;对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果。实现了通过对法律文本进行逐级拆解,形成了一个层次分明的法律文本结构树,能够提高法律文本的检索效率,使得用户能够迅速定位到所需信息,进而对比条款文本向量与法条文本向量之间的相似性,有效衡量两个文本之间的语义接近程度,得到初步匹配的多条目标匹配法条,最后对初步匹配的多条目标匹配法条进行精细化审核匹配,提高法律条文匹配的准确性。
在本发明的一个实施例中,法律文本结构树是基于如下步骤构建得到:
获取法律文本内容;按照预设的法条节点等级划分规则,对所述法律文本内容进行逐级拆解,得到各个节点的等级属性信息,其中,所述等级属性信息包括当前节点的法律文本、节点等级以及下一节点的等级属性信息;基于各所述等级属性信息,构建得到所述法律文本结构树。
需要说明的是,总结法律撰写规律,法律文本主要分为五个等级,分别为编、分编、章、节、条,其中,存在法律文本以数字加顿号(例如:一、)的形式作为法条标题,在本实施例中,将数字加顿号与节归为同一等级,在一实施例中,法条节点等级划分规则如下表1,其中,拆解的法律条款段落具有明确的节点等级,等级序号越小,节点等级越高。
节点等级 | 节点表述 | 示例 |
1 | 第【】编 | 第一编 |
2 | 第【】分编 | 第一分编 |
3 | 第【】章 | 第一章 |
4 | 第【】节/【】、 | 第一节/一、 |
5 | 第【】条 | 第一条 |
此外,需要说明的是,不同的业务场景所使用的法律内容范围不同,例如,针对租赁类和知识产权类合同的法条匹配,选取的律范围分别为:
(1)租赁类:《中华人民共和国民法典》合同篇及合同篇司法解释;
(2)知识产权类:《著作权法》、《专利法》、《商标法》、《商标法实施条例》、《专利实施细则》、《著作权法实施条例》、《计算机软件保护条例》、《民法典》合同篇第一编。
具体地,获取法律原始数据,可选地,法律原始数据存放在Elasticsearch库中,采用JSON封装HTML的格式,对法律原始数据进行预处理,例如,法律文本内容可能过于宽泛,不完全适用于特定的条旨法条匹配任务。例如,《民法典》继承篇虽然包含与继承相关的法律条文,但并非所有内容都与租赁类或知识产权类合同直接相关,因此,需要进行法律文本内容冗余操作。此外,Elasticsearch库下载的法律文本为HTML格式,除待匹配的法律条文外,存在冗余的HTML标签和属性,HTML标签(如<html>,<body>,<div>等)和属性(如class,id等)并非总是对法律文本的语义分析和条旨匹配至关重要,这些结构化符号可能会增加数据的复杂性。因此,在法律原始数据中提取法律文本内容。可以理解地,Elasticsearch库导出数据为JSON格式,筛选出“title”和“fulltext”字段,即法律标题及法律文本,此处法律文本为HTML格式,需要进一步进行文本内容的解析。在解析文本内容时使用etree下的Xpath方法,为保证正确解析换行,需要将HTML中的换行符<br>改为String中的“\n”,得到法律文本内容。
进一步地,按照预设的法条节点等级划分规则,对所述法律文本内容进行逐级拆解,得到各个节点的等级属性信息,其中,等级属性信息包括当前节点的法律文本、节点等级以及下一节点的等级属性信息等信息,参照图2,图2是本发明一实施例提供等级属性信息的结构图,其中,“deep”字段为当前节点的节点等级;“index”字段为当前节点的索引,由法律名及逐级节点索引组成;“desc”字段为当前节点的法条相关内容;“children”字段为当前节点的下一级节点的等级属性信息,下一级节点的等级属性信息与当前等级节点的结构相同。对各所述等级属性信息进行逐级分析,直至无分支需要继续拆分,构建得到所述法律文本结构树。
本发明实施例通过上述方案,实现了通过预设的节点等级规则,对法律文本内容进行逐级拆解,形成了一个层次分明、逻辑清晰的法律文本结构树。从而能够在法律文本结构树中进行逐渐检索,提高法律文本的检索效率,使得用户能够迅速定位到所需信息,节省了大量的查询时间。
在本发明的一个实施例中,基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条,包括:
对于每一所述条旨数据:基于所述条旨数据与所述法条匹配范围的各个法律条文,提取得到所述条旨数据的文本特征向量以及每一所述法律条文的法条特征向量;分别计算所述文本特征向量与每一所述法条特征向量之间的相似度;将各所述相似度进行排序,以根据相似度排序结果,在各所述法律条文中筛选得到所述条旨数据的多条目标匹配法条。
具体地,参照图3,图3是本发明一实施例提供根据相似度进行初步匹配法条的流程框图,对于每一所述条旨数据均执行以下步骤:基于所述条旨数据,提取得到所述条旨数据的文本特征向量;基于所述法条匹配范围的各个法律条文,提取得到每一所述法律条文的法条特征向量。进一步地,分别计算所述文本特征向量与每一所述法条特征向量之间的相似度,例如,使用余弦相似度计算得到特征向量之间的相似度,计算公式如下:
其中,scorelm表示第i条条旨数据的文本特征向量与第j条法律条文的法条特征向量之间的相似度;textVec表示合同中条旨数据的文本特征向量。lawVec表示法律条文的法条特征向量。
更进一步地,过滤掉相似度低于预设相似度阈值的法律条文,预设相似度阈值可根据实际情况设置,例如,设置为0.86;进而将各所述相似度进行排序,以根据相似度排序结果,在各所述法律条文中选取相似度较高的多条法律条文,例如,选取5条相似度较高的法律条文,从而得到条旨数据的多条目标匹配法条,可参照图4,图4是本发明一实施例提供的法条匹配的效果图。
本发明实施例通过上述方案,实现了利用模型将条旨数据文本与法律条文文本进行向量化,并对比条旨数据的文本特征向量与法律条文的法条特征向量之间的相似度,有效衡量两个文本之间的语义接近程度,为初步匹配提供了一种高效的筛选机制。
在本发明的一个实施例中,对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果,包括:
针对每一个条旨分类:将所述条旨分类下的每一条条旨数据以及每一所述条旨数据的多条目标匹配法条输入至预设的大语言模型,得到所述大预言模型输出的检测结果;根据所述检测结果,对各所述目标匹配法条进行过滤处理,得到所述法律条文匹配结果。
需要说明的是,预先设置prompts规范数据格式。prompts规定输出结果包括两部分内容:分析及结论。分析是通过思维链的方式提高判别准确性,结论是大语言模型验证的匹配结果,结论包括“是”和“否”两种形式。例如,选取Qwen2-72B模型,通过调用大语言模型判断初步匹配得到多条目标匹配法条对应的匹配效果,过滤未能正确匹配的法条,最终获得相对准确的条旨法条匹配效果。
具体地,针对每一个条旨分类:基于所述条旨分类下的每一条旨数据以及每一所述条旨数据的多条目标匹配法条,输入至预设的大语言模型,得到所述大预言模型输出的检测结果,例如,基于每一条旨数据以及每一所述条旨数据的多条目标匹配法条,生成预设数据格式的查询信息,例如,查询信息为:基于法律条文:“第五百四十三条【协议变更合同】当事人协商一致,可以变更合同”。设立合同条款:“双方可以协商变更或终止本合同”。利用大语言模型对预设数据格式的查询信息进行检测,得到检测结果。沿用上述例子,检测结果中的分析为:该合同条款与《中华人民共和国民法典》第五百四十三条的法条内容相符合,它明确了合同的变更或终止需要双方协商一致的原则。检测结果中的结论为:是;证明条旨数据与该目标匹配法条相匹配,通过模仿法律专家分析案例的方式来验证初步匹配结果,进一步分析法律概念之间的关联、法律原则的应用以及案例先例的影响,增强了匹配结果的可解释性。
进一步地,在各个目标匹配法条中,选取检测结果为匹配成功的多条候选法条。在一实施例中,直接将多条候选法条作为法律条文匹配结果。在另一实施例中,统计各所述候选法条的出现频次,以根据所述出现频次,筛选得到预设数量的候选法条作为所述法律条文匹配结果,例如,选择出现频次最高的3条候选法条作为所述法律条文匹配结果。
本发明实施例通过上述方案,首先对条款条旨与法律条文进行粗略匹配,在快速筛选出潜在相关的法条之后,采用大型语言模型对粗略匹配的法条进行精细化匹配,提高法律条文匹配的准确性,同时减少了计算资源的消耗。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种法律条文匹配装置,该法律条文匹配装置与上述实施例中法律条文匹配方法一一对应。如图5所示,图5是本发明一实施例中法律条文匹配装置的一结构示意图,该法律条文匹配装置包括:
获取模块21,用于获取目标项目合同下各个条旨分类的若干条旨数据;
检索模块22,用于基于所述目标项目合同,在预先构建的法律文本结构树进行逐级检索,得到法条匹配范围,其中,所述法律文本结构树是对法律文本内容进行逐级拆解构建得到;
确定模块23,用于基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条;
优化模块24,用于对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果。
确定模块23还用于:
对于每一所述条旨数据:
基于所述条旨数据与所述法条匹配范围的各个法律条文,提取得到所述条旨数据的文本特征向量以及每一所述法律条文的法条特征向量;
分别计算所述文本特征向量与每一所述法条特征向量之间的相似度;
将各所述相似度进行排序,以根据相似度排序结果,在各所述法律条文中筛选得到所述条旨数据的多条目标匹配法条。
优化模块24还用于:
针对每一个条旨分类:
将所述条旨分类下的每一条条旨数据以及每一所述条旨数据的多条目标匹配法条输入至预设的大语言模型,得到所述大预言模型输出的检测结果;
根据所述检测结果,对各所述目标匹配法条进行过滤处理,得到所述法律条文匹配结果。
优化模块24还用于:
根据所述检测结果,在所述多条目标匹配法条中选取得到多条候选法条;
确定各所述候选法条的出现频次,以根据所述出现频次,筛选得到预设数量的候选法条作为所述法律条文匹配结果。
法律条文匹配装置包括:
获取法律文本内容;
按照预设的法条节点等级划分规则,对所述法律文本内容进行逐级拆解,得到各个节点的等级属性信息,其中,所述等级属性信息包括当前节点的法律文本、节点等级以及下一节点的等级属性信息;
基于各所述等级属性信息,构建得到所述法律文本结构树。
法律条文匹配装置包括:
获取原始法律数据;
对所述原始法律数据进行预处理,并根据预处理后的法律数据提取得到所述法律文本内容。
获取模块21还用于:
确定所述目标项目合同的合同分类标签;
基于所述合同分类标签,确定所述目标项目合同对应的全部条旨分类;
确定每一所述条旨分类的若干条旨数据,以对每一所述条旨分类的各个条旨数据进行聚类,以根据聚类结果,筛选得到各所述条旨分类的若干条旨数据。
关于法律条文匹配装置的具体限定可以参见上文中对于法律条文匹配方法的限定,在此不再赘述。上述法律条文匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示,图6是本发明一实施例中计算机设备的一示意图。该计算机设备包括通过装置总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作装置、计算机可读指令和数据库。该内存储器为可读存储介质中的操作装置和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储法律条文匹配方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种法律条文匹配方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端设备,其内部结构图可以如图6所示。该计算机设备包括通过装置总线连接的处理器、存储器、网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质。该可读存储介质存储有计算机可读指令。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种法律条文匹配方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一实施例中,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现如上述法律条文匹配方法的步骤。
在一实施例中,提供了一种可读存储介质,可读存储介质存储有计算机可读指令,计算机可读指令被处理器执行时实现如上述法律条文匹配方法步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种法律条文匹配方法,其特征在于,包括:
获取目标项目合同下各个条旨分类的若干条旨数据;
基于所述目标项目合同,在预先构建的法律文本结构树进行逐级检索,得到法条匹配范围,其中,所述法律文本结构树是对法律文本内容进行逐级拆解构建得到;
基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条;
对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果。
2.根据权利要求1所述的法律条文匹配方法,其特征在于,所述基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条,包括:
对于每一所述条旨数据:
基于所述条旨数据与所述法条匹配范围的各个法律条文,提取得到所述条旨数据的文本特征向量以及每一所述法律条文的法条特征向量;
分别计算所述文本特征向量与每一所述法条特征向量之间的相似度;
将各所述相似度进行排序,以根据相似度排序结果,在各所述法律条文中筛选得到所述条旨数据的多条目标匹配法条。
3.根据权利要求1所述的法律条文匹配方法,其特征在于,所述对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果,包括:
针对每一个条旨分类:
将所述条旨分类下的每一条条旨数据以及每一所述条旨数据的多条目标匹配法条输入至预设的大语言模型,得到所述大预言模型输出的检测结果;
根据所述检测结果,对各所述目标匹配法条进行过滤处理,得到所述法律条文匹配结果。
4.根据权利要求3所述的法律条文匹配方法,其特征在于,所述根据所述检测结果,对各所述目标匹配法条进行过滤处理,得到所述法律条文匹配结果,包括:
根据所述检测结果,在所述多条目标匹配法条中选取得到多条候选法条;
确定各所述候选法条的出现频次,以根据所述出现频次,筛选得到预设数量的候选法条作为所述法律条文匹配结果。
5.根据权利要求1所述的法律条文匹配方法,其特征在于,所述法律文本结构树是基于如下步骤构建得到:
获取法律文本内容;
按照预设的法条节点等级划分规则,对所述法律文本内容进行逐级拆解,得到各个节点的等级属性信息,其中,所述等级属性信息包括当前节点的法律文本、节点等级以及下一节点的等级属性信息;
基于各所述等级属性信息,构建得到所述法律文本结构树。
6.根据权利要求5所述的法律条文匹配方法,其特征在于,所述获取法律文本内容,包括:
获取原始法律数据;
对所述原始法律数据进行预处理,并根据预处理后的法律数据提取得到所述法律文本内容。
7.根据权利要求1所述的法律条文匹配方法,其特征在于,所述获取目标项目合同下各个条旨分类的若干条旨数据,包括:
确定所述目标项目合同的合同分类标签;
基于所述合同分类标签,确定所述目标项目合同对应的全部条旨分类;
确定每一所述条旨分类的若干条旨数据,以对每一所述条旨分类的各个条旨数据进行聚类,以根据聚类结果,筛选得到各所述条旨分类的若干条旨数据。
8.一种法律条文匹配装置,其特征在于,包括:
获取模块,用于获取目标项目合同下各个条旨分类的若干条旨数据;
检索模块,用于基于所述目标项目合同,在预先构建的法律文本结构树进行逐级检索,得到法条匹配范围,其中,所述法律文本结构树是对法律文本内容进行逐级拆解构建得到;
确定模块,用于基于每一所述条旨数据与所述法条匹配范围的各个法律条文之间的相似度,确定每一所述条旨数据的多条目标匹配法条;
优化模块,用于对每一个条旨分类下每一条旨数据的多条目标匹配法条进行优化,得到法律条文匹配结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7任一项所述的法律条文匹配方法。
10.一种可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7任一项所述的法律条文匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411658933.XA CN119513287A (zh) | 2024-11-19 | 2024-11-19 | 法律条文匹配方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411658933.XA CN119513287A (zh) | 2024-11-19 | 2024-11-19 | 法律条文匹配方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN119513287A true CN119513287A (zh) | 2025-02-25 |
Family
ID=94653136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411658933.XA Pending CN119513287A (zh) | 2024-11-19 | 2024-11-19 | 法律条文匹配方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN119513287A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460083A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 文档标题树的构建方法、装置、电子设备及存储介质 |
CN112069307A (zh) * | 2020-08-25 | 2020-12-11 | 中国人民大学 | 一种法律法条引用信息抽取系统 |
WO2021042560A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 一种案件辅助信息的提示方法、装置、存储介质和服务器 |
CN117909499A (zh) * | 2023-12-29 | 2024-04-19 | 北京捷通华声科技股份有限公司 | 合同审查方法、装置、电子设备及存储介质 |
-
2024
- 2024-11-19 CN CN202411658933.XA patent/CN119513287A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021042560A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 一种案件辅助信息的提示方法、装置、存储介质和服务器 |
CN111460083A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 文档标题树的构建方法、装置、电子设备及存储介质 |
CN112069307A (zh) * | 2020-08-25 | 2020-12-11 | 中国人民大学 | 一种法律法条引用信息抽取系统 |
CN117909499A (zh) * | 2023-12-29 | 2024-04-19 | 北京捷通华声科技股份有限公司 | 合同审查方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197117B (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
Trstenjak et al. | KNN with TF-IDF based framework for text categorization | |
Inzalkar et al. | A survey on text mining-techniques and application | |
US20060288275A1 (en) | Method for classifying sub-trees in semi-structured documents | |
Sarkhel et al. | Visual segmentation for information extraction from heterogeneous visually rich documents | |
CN103514183A (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
US20120030206A1 (en) | Employing Topic Models for Semantic Class Mining | |
CN112632286B (zh) | 一种文本属性特征的识别、分类及结构分析方法及装置 | |
Niemann et al. | Comparison and retrieval of process models using related cluster pairs | |
Li et al. | Product functional information based automatic patent classification: method and experimental studies | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
Wang et al. | Exploring semantics of software artifacts to improve requirements traceability recovery: a hybrid approach | |
CN112685440B (zh) | 标记搜索语义角色的结构化查询信息表达方法 | |
CN118467681A (zh) | 基于标题增强和意图识别的rag检索优化方法及系统 | |
CN115935983A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
Le et al. | Developing a model semantic‐based image retrieval by combining KD‐tree structure with ontology | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN118013023B (zh) | 科技文献推荐方法、装置、电子设备及存储介质 | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
CN115757729A (zh) | 文章主题提取方法、装置、设备、存储介质及处理器 | |
CN113268566B (zh) | 问答对的质量评价方法、装置、设备及存储介质 | |
CN118569208A (zh) | 文档分块方法、装置及电子设备 | |
CN119513287A (zh) | 法律条文匹配方法、装置、设备及存储介质 | |
Mohemad et al. | Ontological-based information extraction of construction tender documents | |
Sharma et al. | Review of features and machine learning techniques for web searching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |