CN113806510A - 一种法律条文检索方法、终端设备及计算机存储介质 - Google Patents
一种法律条文检索方法、终端设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113806510A CN113806510A CN202111105472.XA CN202111105472A CN113806510A CN 113806510 A CN113806510 A CN 113806510A CN 202111105472 A CN202111105472 A CN 202111105472A CN 113806510 A CN113806510 A CN 113806510A
- Authority
- CN
- China
- Prior art keywords
- legal
- legal provision
- retrieval
- provision
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012549 training Methods 0.000 claims description 89
- 238000012163 sequencing technique Methods 0.000 abstract description 10
- 230000004044 response Effects 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000007599 discharging Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
Abstract
本申请提供了一种法律条文检索方法、终端设备以及计算机存储介质。该法律条文检索方法包括:将法律条文检索问题分词,获取若干词序列;基于若干词序列与法律条文数据库中法律条文的相关性,获取法律条文检索问题与每一法律条文的相关性评分;获取相关性评分从高到低排名的预设条数的第一法律条文;采用预设法律条文检索模型预测法律条文检索问题与每一条第一法律条文的匹配得分,并获取匹配得分高于预设得分阈值的第一法律条文,作为第二法律条文;将第二法律条文作为法律条文检索结果输出。通过上述方式,本申请的法律条文检索方法通过使用多个阶段的匹配排序,使得法律条文检索方法具有较高准确性,同时具有较快的响应时间,适合在线实时使用。
Description
技术领域
本申请涉及人工智能应用技术领域,特别是涉及一种法律条文检索方法、终端设备以及计算机存储介质。
背景技术
法律条文检索使用的技术是一种信息检索技术,用户通过输入文字进行查询,系统在数据库进行检索,检索目标为法律条文。目前的法律条文检索技术并不成熟,需要用户充分理解问题后进行关键词搜索,如果对想查询的领域不熟悉或检索关键字表达不准确等原因不能较好得到检索内容。如何通过对用户输入的自然语言进行分析,直接检索到与该问题最相关的内容,是一个重要问题。
对于目前现有的几种常见检索方式,基于词概率的传统检索模型通过词条的统计特征信息计算文本相似度来进行排序,虽不需要有标注的数据,但无法处理词语的语义相关性。由于自然语言问题与法律条文匹配任务并不仅是文本相似问题,还在于问题与法律条文的语义逻辑是否匹配,因此该方法用在本申请的法律条文检索任务上效果不佳。
而基于深度学习的无监督模型,于模型的架构、超参数等均需要反复调试,虽然无需标注数据,但检索效果也同样不是非常理想。对于有监督的深度学习模型,一方面需要大量训练数据,另一方面计算效率较低,难以满足在线模型的需求。在法律条文检索上,标注数据获取非常困难,训练数据获取成本高,因此难以直接使用有监督的深度学习方法。
发明内容
本申请提供了一种法律条文检索方法、终端设备以及计算机存储介质。
本申请提供了一种法律条文检索方法,所述法律条文检索方法包括:
将法律条文检索问题分词,获取若干词序列;
基于所述若干词序列与法律条文数据库中法律条文的相关性,获取所述法律条文检索问题与每一法律条文的相关性评分;
获取所述相关性评分从高到低排名的预设条数的第一法律条文;
采用预设法律条文检索模型预测所述法律条文检索问题与每一条第一法律条文的匹配得分,并获取所述匹配得分高于预设得分阈值的第一法律条文,作为第二法律条文;
将所述第二法律条文作为法律条文检索结果输出。
其中,所述基于所述若干词序列与法律条文数据库中法律条文的相关性,获取所述法律条文检索问题与每一法律条文的相关性评分,包括:
获取每一词序列与法律条文数据库中每一条法律条文的相关性词评分;
按照每一词序列对应的权重将所有词序列对于同一法律条文的相关性词评分进行相加,得到该法律条文的相关性评分;
其中,词序列对应的权重由该词序列在法律条文数据库中法律条文中的出现率决定。
其中,所述将所述第二法律条文作为法律条文检索结果输出,包括:
将所述第二法律条文按照所述匹配得分从高到低进行排序后,作为法律条文检索结果输出。
其中,所述预设法律条文检索模型为一种基于注意力的双向编码器表示模型。
其中,所述法律条文检索方法,还包括:
获取原始法律条文语料;
对所述原始法律条文语料中预设比例的字符进行遮蔽,将遮蔽后的原始法律条文语料和所述原始法律条文语料组成第一训练集;
利用所述第一训练集训练待训练法律条文检索模型,以对遮蔽词进行预测为训练方向进行训练,得到所述预设法律条文检索模型。
其中,所述法律条文检索方法,还包括:
获取原始法律条文句对;
将所述原始法律条文句对中的句子进行打乱,将打乱后的原始法律条文句对和所述原始法律条文句对组成第二训练集;
利用所述第二训练集训练待训练法律条文检索模型,以匹配作为前后句的句对为训练方向进行训练,得到所述预设法律条文检索模型。
其中,所述法律条文检索方法,还包括:
获取原始法律问答数据,其中,所述原始法律问答数据包括法律问题和法律答案;
将所述原始法律问答数据中对应的法律问题和法律答案进行打乱,将打乱后的原始法律问答数据和所述原始法律问答数据组成第三训练集;
利用所述第三训练集训练待训练法律条文检索模型,以匹配对应的法律问题和法律答案为训练方向进行训练,得到所述预设法律条文检索模型。
其中,所述法律条文检索方法,还包括:
获取原始法律条文检索数据,其中,所述原始法律条文检索数据包括法律条文检索问题和法律条文;
将所述原始法律条文检索数据中法律条文检索问题与不同的法律条文进行拼接,将拼接结果组成第三训练集;
利用所述第三训练集训练待训练法律条文检索模型,以所述待训练法律条文检索模型输出的预测匹配得分达到预设得分阈值为训练方向进行训练,得到所述预设法律条文检索模型。
本申请还提供了一种终端设备,所述终端设备包括:
获取模块,用于将法律条文检索问题分词,获取若干词序列;
评分模块,用于基于所述若干词序列与法律条文数据库中法律条文的相关性,获取所述法律条文检索问题与每一法律条文的相关性评分;
排序模块,用于获取所述相关性评分从高到低排名的预设条数的第一法律条文;
所述排序模块,用于采用预设法律条文检索模型预测所述法律条文检索问题与每一条第一法律条文的匹配得分,并获取所述匹配得分高于预设得分阈值的第一法律条文,作为第二法律条文;
检索模块,用于将所述第二法律条文作为法律条文检索结果输出。
本申请还提供了另一种终端设备,所述终端设备包括存储器和处理器,其中,所述存储器与所述处理器耦接;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的法律条文检索方法。
本申请还提供了一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现上述的法律条文检索方法。
本申请的有益效果是:终端设备将法律条文检索问题分词,获取若干词序列;基于若干词序列与法律条文数据库中法律条文的相关性,获取法律条文检索问题与每一法律条文的相关性评分;获取相关性评分从高到低排名的预设条数的第一法律条文;采用预设法律条文检索模型预测法律条文检索问题与每一条第一法律条文的匹配得分,并获取匹配得分高于预设得分阈值的第一法律条文,作为第二法律条文;将第二法律条文作为法律条文检索结果输出。通过上述方式,本申请的法律条文检索方法通过使用多个阶段的匹配排序,使得法律条文检索方法具有较高准确性,同时具有较快的响应时间,适合在线实时使用。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的法律条文检索方法一实施例的流程示意图;
图2是本申请提供的法律条文检索方法线上使用部分的流程示意图;
图3是本申请提供的法律条文检索方法另一实施例的流程示意图;
图4是本申请提供的法律条文检索方法线下训练部分的流程示意图;
图5是本申请提供的终端设备一实施例的结构示意图;
图6是本申请提供的终端设备另一实施例的结构示意图;
图7是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请要解决的技术问题是法律领域的基于深度学习的法律条文检索问题,用户输入自然语言的问题进行查询,系统从数据库中找出与该问题最相关的若干条法律条文返回给用户,用户可快速得到问题相关的法律依据,节省大量时间。
通过深度学习技术,可以有效提高法律条文匹配的准确性,但是在实际应用上存在两个难题:1、进行有监督训练标需要标注数据,法律领域作为专业性较强的领域,法律条文查询的标注数据需要律师从业者进行协助,数据获取成本高,因此如何在条件有限的情况得到良好的模型表现是个重要问题;2、在线的法律条文检索需要具有较快的响应时间,而较准确的深度学习模型计算时间过长,很难满足时间性能的需求,因此在保证准确性的同时,还需要兼顾响应时间,使模型具有良好的表现。
对此,本申请实施例提供了一种基于深度学习的适合法律条文的检索方法,具体请参阅图1和图2,图1是本申请提供的法律条文检索方法一实施例的流程示意图,图2是本申请提供的法律条文检索方法线上使用部分的流程示意图。
其中,本申请的法律条文检索方法应用于一种终端设备,其中,本申请的终端设备可以为服务器,也可以为由服务器和电子设备相互配合的系统。相应地,终端设备包括的各个部分,例如各个单元、子单元、模块、子模块可以全部设置于服务器中,也可以分别设置于服务器和终端设备中。
进一步地,上述服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块,例如用来提供分布式服务器的软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。在一些可能的实现方式中,本申请实施例的法律条文检索方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
具体而言,如图1所示,本申请实施例的法律条文检索方法具体包括以下步骤:
步骤S11:将法律条文检索问题分词,获取若干词序列。
请参阅图2,本申请实施例的法律条文检索方法主要分为粗排和精排两个阶段。具体地,在粗排阶段,用户通过终端设备输入一个法律条文检索问题,终端设备将该法律条文检索文件进行分词后得到词序列q1,q2,......,qt。
步骤S12:基于若干词序列与法律条文数据库中法律条文的相关性,获取法律条文检索问题与每一法律条文的相关性评分。
在本申请实施例中,终端设备分别使用上述词序列与法律条文数据库库D中的每一条法律条文d计算相关性评分。
具体地,终端设备首先获取每一词序列与法律条文数据库中每一条法律条文的相关性词评分,然后按照每一词序列对应的权重将所有词序列对于同一法律条文的相关性词评分进行相加,得到该法律条文的相关性评分。其中,词序列对应的权重由该词序列在法律条文数据库中法律条文中的出现率决定。
相关性评分的具体计算公式如下:
其中,wi表示每一个词序列qi的权重,R(qi,d)表示每一个词序列qi与法律条文d的相关性,Q表示法律条文检索问题,Score(Q,d)表示法律条文检索问题Q与法律条文d的相关性评分。
需要说明的是,判断一个词序列与一个法律条文的相关性的权重,方法有多种,较常用的是IDF(inverse document frequency)。根据IDF的定义可以看出,对于给定的法律条文数据库,包含了词序列qi的法律条文数越多,词序列qi的权重则越低。也就是说,当很多法律条文都包含了词序列qi时,词序列qi的区分度就不高,因此使用词序列qi来判断相关性时的重要度就较低。
步骤S13:获取相关性评分从高到低排名的预设条数的第一法律条文。
在本申请实施例中,终端设备对所有的Score(Q,d)进行排序,并选择相关性评分分数最高的k个结果,即k条第一法律条文。
步骤S14:采用预设法律条文检索模型预测法律条文检索问题与每一条第一法律条文的匹配得分,并获取匹配得分高于预设得分阈值的第一法律条文,作为第二法律条文。
在精排阶段,终端设备使用训练完成的BERT模型(BiDirectional EncoderRpresentation From Transformers,基于注意力的双向编码器表示模型)对上述k条第一法律条文进行重排。具体地,终端设备将法律条文检索问题与候选的k条第一法律条文分别使用[SEP]拼接,拼接后输入BERT模型。BERT模型预测匹配每一对法律条文检索问题与一条第一法律条文的匹配得分,选择匹配得分大于阈值t的法律条文,即第二法律条文。
步骤S15:将第二法律条文作为法律条文检索结果输出。
在本申请实施例中,终端设备将若干第二法律条文按照匹配得分按照从大到小的顺序进行排序后,输出。
在本申请实施例中,终端设备将法律条文检索问题分词,获取若干词序列;基于若干词序列与法律条文数据库中法律条文的相关性,获取法律条文检索问题与每一法律条文的相关性评分;获取相关性评分从高到低排名的预设条数的第一法律条文;采用预设法律条文检索模型预测法律条文检索问题与每一条第一法律条文的匹配得分,并获取匹配得分高于预设得分阈值的第一法律条文,作为第二法律条文;将第二法律条文作为法律条文检索结果输出。通过上述方式,本申请的法律条文检索方法通过使用多个阶段的匹配排序,使得法律条文检索方法具有较高准确性,同时具有较快的响应时间,适合在线实时使用;线上查询系统结构具有粗排与精排两轮排序,可以高效准确完成基于自然语言的法律条文的查询。
上述实施例介绍了本申请提供的法律条文检索方法的线上使用部分:
线上使用部分是模型使用的系统流程,主要分有粗排和精排两个阶段。
粗排阶段:使用基于词条权重和文档长度惩罚的检索方法(BM25),根据相关度排序后得到若干条最相关的法律条文进入精排阶段,大大减少精排模型计算量,提高了系统的效率。
精排阶段:使用第一部分训练后的基于注意力的双向编码器(BERT)模型,将用户问题与候选法律条文用特殊符号拼接后送入模型进行相关性预测,根据得分进行排序,得到最终排序结果,返回给用户。
下面继续介绍本申请提供的法律条文检索方法的线下训练部分,具体请参阅图3和图4,图3是本申请提供的法律条文检索方法另一实施例的流程示意图,图4是本申请提供的法律条文检索方法线下训练部分的流程示意图。
具体而言,如图3所示,本申请实施例的法律条文检索方法具体包括以下步骤:
步骤S21:获取原始法律条文语料。
在本申请实施例中,终端设备使用大量的法律条文语料进行领域预训练。
步骤S22:对原始法律条文语料中预设比例的字符进行遮蔽,将遮蔽后的原始法律条文语料和原始法律条文语料组成第一训练集。
在本申请实施例中,终端设备对原始法律条文语料中15%的字符进行随机遮蔽,然后,将遮蔽后的原始法律条文语料和原始法律条文语料组成第一训练集。
步骤S23:利用第一训练集训练待训练法律条文检索模型,以对遮蔽词进行预测为训练方向进行训练,得到预设法律条文检索模型。
在本申请实施例中,终端设备利用第一训练集训练待训练法律条文检索模型,使得待训练法律条文检索模型对原始法律条文语料中的遮蔽词进行预测,不断迭代直至对遮蔽词的预测率达到预设阈值,得到预设法律条文检索模型,即上述实施例的BERT模型。
请参阅图4,本申请提供的法律条文检索方法的线下训练阶段主要分为三步,选择基于注意力的双向编码器(BERT)的中文预训练模型作为基础模型,通过三轮训练方法解决了法律条文查询的训练数据不足的问题。
在其他实施例中,终端设备也可以采用前后句的句对关系预测进行领域预训练。
具体地,终端设备同样使用大量的法律条文语料进行领域预训练。终端设备法律条文语料中的原始法律条文句对中的句子进行打乱,将打乱后的原始法律条文句对和原始法律条文句对组成第二训练集。
终端设备利用第二训练集训练待训练法律条文检索模型,将不同的原始法律条文句对通过[SEP]拼接后输入待训练法律条文检索模型;使得待训练法律条文检索模型能够判断不同句对中的法律条文句对是否为逻辑上的前后句,不断迭代直至对前后句句对的匹配率达到预设阈值,得到预设法律条文检索模型,即上述实施例的BERT模型。
在其他实施例中,终端设备也可以采用法律问答数据进行问答训练。
具体地,终端设备获取大量的法律问答数据,由于法律问答的问题与法律条文查询的问题基本类似,同时法律问答的答案与法律条文具有一定的相似性,使用较易获取的法律问答数据进行训练能够达到较好的训练效果。
终端设备将原始法律问答数据中对应的法律问题和法律答案进行打乱,将打乱后的原始法律问答数据和所述原始法律问答数据组成第三训练集。终端设备利用第三训练集训练待训练法律条文检索模型,将不同的法律问题和法律答案使用[SEP]拼接后输入待训练法律条文检索模型。待训练法律条文检索模型中连接一层全连接神经网络,可以输出法律问题和法律答案的匹配得分,不断迭代直至对法律问题和法律答案的匹配得分达到预设阈值,得到预设法律条文检索模型,即上述实施例的BERT模型。
在其他实施例中,终端设备也可以采用法律检索数据进行法律条文检索训练。
具体地,终端设备获取少量标注的法律条文检索数据进行训练,将所述原始法律条文检索数据中法律条文检索问题与不同的法律条文进行[SEP]拼接,将拼接结果组成第三训练集。
终端设备利用第三训练集训练待训练法律条文检索模型,不断迭代直至对法律条文检索问题与法律条文的匹配得分达到预设阈值,得到预设法律条文检索模型,即上述实施例的BERT模型。
上述实施例介绍了本申请提供的法律条文检索方法的线下训练部分:
线下训练阶段是对基于注意力的双向编码器(BERT)的训练。
第一步,在预训练模型的基础上,在大规模法律领域数据上进行领域预训练,包括对字符随机掩码后进行预测以及前后句的句对关系预测,使模型更适合法律领域使用。
第二步,在大规模再使用法律问答语料进行精调,将法律问答语料的问题与答案使用特殊符号拼接后送入基于注意力的双向编码器(BERT),连接一层全连接层,预测其是否为问答关系。利用法律问答任务的答案与法律条文有一定程度的相似,提高模型效果。
第三步,进行少量样本的迁移学习。使用极少量标注的问题-法律条文形式的数据取代第二步的问答数据进行训练,最终得到适合问题-法律条文匹配的模型。
在本申请实施例中,对于有监督的深度学习模型,查询-法律条文形式的训练数据获取困难的问题,终端设备进行了三个阶段的模型训练:先使用了较易获取的法律问答数据进行训练,再使用极少量法律条文检索训练数据进行训练,很好地弥补了训练数据不足的问题,提升检索模型效果。
综上,本申请提出了一种基于深度学习的适合法律条文的检索方法,该方法具有以下特点:1、使用了法律语料对深度学习预训练模型进行领域预训练,使模型更适合法律领域使用;2、采用法律问答任务的语料进对模型进行精调,再通过迁移学习在少量样本上进行训练得到法律条文匹配模型,解决了数据获取困难的问题;3、使用粗排与精排的两阶段排序机制进行法律条文的查询,兼顾准确性与时间性能。
综合来讲,本申请设计了一种基于深度学习的法律条文检索方法。对于模型的训练部分,首先通过领域预训练来使模型更适合法律领域,再使用法律问答语料进行精调,最后进行少量样本的迁移学习,充分考虑法律领域数据特征。线上预测部分的使用采用两轮法律条文排序的方法,在保证效果的同时节省了计算时间。
相较于基于词概率的传统检索模型,由于自然语言问题与法律条文匹配任务并不只是文本相似问题,所以只通过词条的统计特征信息计算文本相似度具有局限性,本申请的法律条文检索方法有效衡量了问题与法律条文的语义逻辑匹配程度。
相较于常见的有监督的深度学习的方法,本申请的法律条文检索方法仅需极少的有标注数据。在法律条文检索上,标注数据获取非常困难,训练数据获取成本高,而常见的有监督的深度学习的方法都需要大量的标注数据,而本申请的法律条文检索方法只需少量法律条文检索的训练数据就可以达到很好的准确性。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
为实现上述实施例的法律条文检索方法,本申请还提出了一种终端设备,具体请参阅图5,图5是本申请提供的终端设备一实施例的结构示意图。
如图5所示,本申请提供的终端设备300包括获取模块31、评分模块32、排序模块33以及检索模块34。
其中,获取模块31,用于将法律条文检索问题分词,获取若干词序列。
评分模块32,用于基于所述若干词序列与法律条文数据库中法律条文的相关性,获取所述法律条文检索问题与每一法律条文的相关性评分。
排序模块33,用于获取所述相关性评分从高到低排名的预设条数的第一法律条文。
排序模块33,用于采用预设法律条文检索模型预测所述法律条文检索问题与每一条第一法律条文的匹配得分,并获取所述匹配得分高于预设得分阈值的第一法律条文,作为第二法律条文。
检索模块34,用于将所述第二法律条文作为法律条文检索结果输出。
为实现上述实施例的法律条文检索方法,本申请还提出了另一种终端设备,具体请参阅图6,图6是本申请提供的终端设备另一实施例的结构示意图。
本申请实施例的终端设备400包括存储器41和处理器42,其中,存储器41和处理器42耦接。
存储器41用于存储程序数据,处理器42用于执行程序数据以实现上述实施例所述的法律条文检索方法。
在本实施例中,处理器42还可以称为CPU(Central Processing Unit,中央处理单元)。处理器42可能是一种集成电路芯片,具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(DSP,Digital Signal Process)、专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、现场可编程门阵列(FPGA,Field Programmable GateArray)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器42也可以是任何常规的处理器等。
本申请还提供一种计算机存储介质,如图7所示,计算机存储介质500用于存储程序数据51,程序数据51在被处理器执行时,用以实现如上述实施例所述的法律条文检索方法。
本申请还提供一种计算机程序产品,其中,上述计算机程序产品包括计算机程序,上述计算机程序可操作来使计算机执行如本申请实施例所述的法律条文检索方法。该计算机程序产品可以为一个软件安装包。
本申请上述实施例所述的法律条文检索方法,在实现时以软件功能单元的形式存在并作为独立的产品销售或使用时,可以存储在装置中,例如一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (11)
1.一种法律条文检索方法,其特征在于,所述法律条文检索方法包括:
将法律条文检索问题分词,获取若干词序列;
基于所述若干词序列与法律条文数据库中法律条文的相关性,获取所述法律条文检索问题与每一法律条文的相关性评分;
获取所述相关性评分从高到低排名的预设条数的第一法律条文;
采用预设法律条文检索模型预测所述法律条文检索问题与每一条第一法律条文的匹配得分,并获取所述匹配得分高于预设得分阈值的第一法律条文,作为第二法律条文;
将所述第二法律条文作为法律条文检索结果输出。
2.根据权利要求1所述的法律条文检索方法,其特征在于,
所述基于所述若干词序列与法律条文数据库中法律条文的相关性,获取所述法律条文检索问题与每一法律条文的相关性评分,包括:
获取每一词序列与法律条文数据库中每一条法律条文的相关性词评分;
按照每一词序列对应的权重将所有词序列对于同一法律条文的相关性词评分进行相加,得到该法律条文的相关性评分;
其中,词序列对应的权重由该词序列在法律条文数据库中法律条文中的出现率决定。
3.根据权利要求1所述的法律条文检索方法,其特征在于,
所述将所述第二法律条文作为法律条文检索结果输出,包括:
将所述第二法律条文按照所述匹配得分从高到低进行排序后,作为法律条文检索结果输出。
4.根据权利要求1所述的法律条文检索方法,其特征在于,
所述预设法律条文检索模型为一种基于注意力的双向编码器表示模型。
5.根据权利要求1所述的法律条文检索方法,其特征在于,
所述法律条文检索方法,还包括:
获取原始法律条文语料;
对所述原始法律条文语料中预设比例的字符进行遮蔽,将遮蔽后的原始法律条文语料和所述原始法律条文语料组成第一训练集;
利用所述第一训练集训练待训练法律条文检索模型,以对遮蔽词进行预测为训练方向进行训练,得到所述预设法律条文检索模型。
6.根据权利要求1所述的法律条文检索方法,其特征在于,
所述法律条文检索方法,还包括:
获取原始法律条文句对;
将所述原始法律条文句对中的句子进行打乱,将打乱后的原始法律条文句对和所述原始法律条文句对组成第二训练集;
利用所述第二训练集训练待训练法律条文检索模型,以匹配作为前后句的句对为训练方向进行训练,得到所述预设法律条文检索模型。
7.根据权利要求1所述的法律条文检索方法,其特征在于,
所述法律条文检索方法,还包括:
获取原始法律问答数据,其中,所述原始法律问答数据包括法律问题和法律答案;
将所述原始法律问答数据中对应的法律问题和法律答案进行打乱,将打乱后的原始法律问答数据和所述原始法律问答数据组成第三训练集;
利用所述第三训练集训练待训练法律条文检索模型,以匹配对应的法律问题和法律答案为训练方向进行训练,得到所述预设法律条文检索模型。
8.根据权利要求1所述的法律条文检索方法,其特征在于,
所述法律条文检索方法,还包括:
获取原始法律条文检索数据,其中,所述原始法律条文检索数据包括法律条文检索问题和法律条文;
将所述原始法律条文检索数据中法律条文检索问题与不同的法律条文进行拼接,将拼接结果组成第三训练集;
利用所述第三训练集训练待训练法律条文检索模型,以所述待训练法律条文检索模型输出的预测匹配得分达到预设得分阈值为训练方向进行训练,得到所述预设法律条文检索模型。
9.一种终端设备,其特征在于,所述终端设备包括:
获取模块,用于将法律条文检索问题分词,获取若干词序列;
评分模块,用于基于所述若干词序列与法律条文数据库中法律条文的相关性,获取所述法律条文检索问题与每一法律条文的相关性评分;
排序模块,用于获取所述相关性评分从高到低排名的预设条数的第一法律条文;
所述排序模块,用于采用预设法律条文检索模型预测所述法律条文检索问题与每一条第一法律条文的匹配得分,并获取所述匹配得分高于预设得分阈值的第一法律条文,作为第二法律条文;
检索模块,用于将所述第二法律条文作为法律条文检索结果输出。
10.一种终端设备,其特征在于,所述终端设备包括存储器和处理器,其中,所述存储器与所述处理器耦接;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现权利要求1-8任一项所述的法律条文检索方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现权利要求1-8任一项所述的法律条文检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111105472.XA CN113806510B (zh) | 2021-09-22 | 一种法律条文检索方法、终端设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111105472.XA CN113806510B (zh) | 2021-09-22 | 一种法律条文检索方法、终端设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806510A true CN113806510A (zh) | 2021-12-17 |
CN113806510B CN113806510B (zh) | 2024-06-28 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357691A (zh) * | 2022-10-21 | 2022-11-18 | 成都数之联科技股份有限公司 | 一种语义检索方法及系统、设备和计算机可读存储介质 |
CN117493588A (zh) * | 2023-12-28 | 2024-02-02 | 苏州元脑智能科技有限公司 | 检索结果的确定方法及装置、存储介质、电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN108733757A (zh) * | 2018-04-11 | 2018-11-02 | 达而观信息科技(上海)有限公司 | 文本搜索方法及系统 |
KR20190015797A (ko) * | 2017-08-07 | 2019-02-15 | 강준철 | 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법 |
CN110534087A (zh) * | 2019-09-04 | 2019-12-03 | 清华大学深圳研究生院 | 一种文本韵律层级结构预测方法、装置、设备及存储介质 |
CN112463944A (zh) * | 2020-12-22 | 2021-03-09 | 安徽商信政通信息技术股份有限公司 | 一种基于多模型融合的检索式智能问答方法及装置 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190015797A (ko) * | 2017-08-07 | 2019-02-15 | 강준철 | 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법 |
CN108733757A (zh) * | 2018-04-11 | 2018-11-02 | 达而观信息科技(上海)有限公司 | 文本搜索方法及系统 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN110534087A (zh) * | 2019-09-04 | 2019-12-03 | 清华大学深圳研究生院 | 一种文本韵律层级结构预测方法、装置、设备及存储介质 |
CN112463944A (zh) * | 2020-12-22 | 2021-03-09 | 安徽商信政通信息技术股份有限公司 | 一种基于多模型融合的检索式智能问答方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357691A (zh) * | 2022-10-21 | 2022-11-18 | 成都数之联科技股份有限公司 | 一种语义检索方法及系统、设备和计算机可读存储介质 |
CN115357691B (zh) * | 2022-10-21 | 2023-04-07 | 成都数之联科技股份有限公司 | 一种语义检索方法及系统、设备和计算机可读存储介质 |
CN117493588A (zh) * | 2023-12-28 | 2024-02-02 | 苏州元脑智能科技有限公司 | 检索结果的确定方法及装置、存储介质、电子装置 |
CN117493588B (zh) * | 2023-12-28 | 2024-03-22 | 苏州元脑智能科技有限公司 | 检索结果的确定方法及装置、存储介质、电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US8543565B2 (en) | System and method using a discriminative learning approach for question answering | |
US20210216576A1 (en) | Systems and methods for providing answers to a query | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
US9390161B2 (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
US20080168056A1 (en) | On-line iterative multistage search engine with text categorization and supervised learning | |
CN115495555A (zh) | 一种基于深度学习的文献检索方法和系统 | |
Sangodiah et al. | Question Classification Using Statistical Approach: A Complete Review. | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
US20170185672A1 (en) | Rank aggregation based on a markov model | |
CN110990533A (zh) | 确定查询文本所对应标准文本的方法及装置 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113836938A (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
Sharma et al. | BioAMA: towards an end to end biomedical question answering system | |
CN111737420A (zh) | 一种基于争议焦点的类案检索方法及系统及装置及介质 | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN112800314B (zh) | 搜索引擎询问自动补全的方法、系统、存储介质及设备 | |
CN113806510A (zh) | 一种法律条文检索方法、终端设备及计算机存储介质 | |
CN113806510B (zh) | 一种法律条文检索方法、终端设备及计算机存储介质 | |
Sahmoudi et al. | Towards a linguistic patterns for arabic keyphrases extraction | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN113505196A (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |