CN114461760A - 案件事实与法条匹配的方法及装置 - Google Patents
案件事实与法条匹配的方法及装置 Download PDFInfo
- Publication number
- CN114461760A CN114461760A CN202210123792.6A CN202210123792A CN114461760A CN 114461760 A CN114461760 A CN 114461760A CN 202210123792 A CN202210123792 A CN 202210123792A CN 114461760 A CN114461760 A CN 114461760A
- Authority
- CN
- China
- Prior art keywords
- case
- matching
- description text
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013507 mapping Methods 0.000 claims abstract description 63
- 238000012216 screening Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 168
- 230000011218 segmentation Effects 0.000 claims description 117
- 238000004364 calculation method Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 20
- 230000006798 recombination Effects 0.000 claims description 12
- 238000005215 recombination Methods 0.000 claims description 12
- 230000001105 regulatory effect Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 6
- 235000012020 french fries Nutrition 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 13
- 239000012634 fragment Substances 0.000 description 10
- 235000019580 granularity Nutrition 0.000 description 10
- 230000008520 organization Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种案件事实与法条匹配的方法及装置。其中,所述方法包括:对案件事实描述文本进行分词,生成第一词组集合;在所述第一词组集合中,筛选出具有预设属性的第二词组集合;建立所述第二词组集合在法规文本数据库中的映射,得到与所述第二词组集合具有映射关系的若干法律条文;通过预训练的Bert‑wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度。这样,能够结合文本语义进行编码,使得进行案件描述文本匹配时能够在结合上下文语义进行不同颗粒度法规的匹配,从而增加了目标法规的匹配准确度。
Description
技术领域
本申请涉及文本推荐技术领域,尤其涉及一种案件事实与法条匹配的方法及装置。
背景技术
随着自然语言技术的不断发展,尤其是近几年预训练语言模型的发展,自然语言处理技术在法律领域的应用得到了长足发展。例如,用于案由分类、法规匹配等。这些主要根据待处理案件与法规中的关键词来确定与待处理案件对应的案由或法规。
在实现现有技术的过程中,发明人发现:
根据案件描述文本与法规中的单个关键词进行相应法规的匹配,不利于确定案件描述文本中各相关关键词之间的语义联系,使得当前待处理案件可能匹配到其他类别的法规,增加了案件描述文本与相应法规匹配失误的可能性。
因此,需要提供一种能够根据案件描述文本准确匹配到相应法规的案件事实与法条匹配的方法及装置。
发明内容
本申请实施例提供一种案件事实与法条匹配的方法及装置,用以解决案件描述文本与法规匹配准确率低的技术问题。
具体的,一种案件事实与法条匹配的方法,包括以下步骤:
对案件事实描述文本进行分词,生成第一词组集合;
在所述第一词组集合中,筛选出具有预设属性的第二词组集合;
建立所述第二词组集合在法规文本数据库中的映射,得到与所述第二词组集合具有映射关系的若干法律条文;
通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度。
进一步的,所述对案件事实描述文本进行分词,生成第一词组集合,具体包括:
通过Unigram分词模型对案件事实描述文本进行分词,生成由若干一元词组组成的一元词组集合。
进一步的,所述方法还包括:
通过Unigram分词模型对标准法规文本进行分词,生成由若干一元词组组成的一元词组法规文本数据库;
通过Bigram分词模型对标准法规文本进行分词,生成由若干二元词组组成的二元词组法规文本数据库;
通过Trigram分词模型对标准法规文本进行分词,生成由若干三元词组组成的三元词组法规文本数据库;
对所述一元词组法规文本数据库、所述二元词组法规文本数据库、所述三元词组法规文本数据库进行合并处理,生成法规文本数据库。
进一步的,所述通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体包括:
根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;
根据所述案件事实描述文本通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;
使用预设的向量相似度计算规则,计算所述第一编码向量与所述第二编码向量夹角的余弦值;
根据所述余弦值的计算结果,确定所述案件事实描述文本与所述若干法律条文的匹配度。
进一步的,所述通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体包括:
根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;
根据所述案件事实描述文本通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;
根据所述第一编码向量与所述第二编码向量并使用向量重组规则,得到重组后的第三向量;
根据所述第三向量并通过预训练的神经网络全连接算法,确定所述案件事实描述文本与所述若干法律条文的匹配度。
进一步的,所述预训练的Bert-wwm编码匹配模型的训练过程包括:
使用若干标准法规文本和若干训练用案件事实描述文本进行所述Bert-wwm编码匹配模型的负反馈优化。
本申请实施例还提供一种案件事实与法条匹配的装置。
具体的,一种案件事实与法条匹配的装置,包括:
分词模块,用于对案件事实描述文本进行分词,生成第一词组集合;
筛选模块,用于在所述第一词组集合中,筛选出具有预设属性的第二词组集合;
映射模块,用于建立所述第二词组集合在法规文本数据库中的映射,得到与所述第二词组集合具有映射关系的若干法律条文;
匹配度计算模块,用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度。
进一步的,所述分词模块用于对案件事实描述文本进行分词,生成第一词组集合,具体用于:
通过Unigram分词模型对案件事实描述文本进行分词,生成由若干一元词组组成的一元词组集合。
进一步的,所述匹配度计算模块用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体用于:
根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;
根据所述案件事实描述文本并通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;
使用预设的向量相似度计算规则,计算所述第一编码向量与所述第二编码向量夹角的余弦值;
根据所述余弦值的计算结果,确定所述案件事实描述文本与所述若干法律条文的匹配度。
进一步的,所述匹配度计算模块用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体用于:
根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;
根据所述案件事实描述文本通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;
根据所述第一编码向量与所述第二编码向量并使用向量重组规则,得到重组后的第三向量;
根据所述第三向量并通过预训练的神经网络全连接算法,确定所述案件事实描述文本与所述若干法律条文的匹配度。
通过申请实施例提供的技术方案,至少具有如下有益效果:
通过多元分词模型进行法规的分词,得到了具有不同颗粒度的词组;并且还能结合文本语义进行编码,使得进行案件描述文本匹配时能够在结合上下文语义进行不同颗粒度法规的匹配,从而增加了目标法规的匹配准确度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种案件事实与法条匹配的方法的流程图。
图2为本申请实施例提供的一种案件事实与法条匹配的装置的结构示意图。
100 案件事实与法条匹配的装置
11 分词模块
12 筛选模块
13 映射模块
14 匹配度计算模块
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种案件事实与法条匹配的方法,主要用于法律领域中案件事实描述文本与法规文本的匹配。即,根据案件描述信息匹配到与当前案件具有一定关联度的法规条款,从而便于相关人员进行后续的工作。请参照图1,为本申请实施例提供的一种案件事实与法条匹配的方法,包括以下步骤:
S100:对案件事实描述文本进行分词,生成第一词组集合;
S200:在所述第一词组集合中,筛选出具有预设属性的第二词组集合;
S300:建立所述第二词组集合在法规文本数据库中的映射,得到与所述第二词组集合具有映射关系的若干法律条文;
S400:通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度。
S100:对案件事实描述文本进行分词,生成第一词组集合。
这里的案件事实描述文本主要指用于法律案件描述中的重要事实描述文本。在实际应用中,可以理解为法律文书,例如可以表现为收案审批单、谈话笔录、授权委托书、起诉书、上诉书、反诉状、诉讼保全、证据保全、法院裁定书、判决书、调解书、结案报告中至少一种法律文书。对案件事实描述文本进行分词,也即对获取的案件描述文本进行分词处理。案件事实描述文本经分词,对应得到由若干案件事实描述文本中的词组构成的词组集合。即,生成第一词组集合。这里的第一词组集合对应为由若干案件事实描述文本词组组成的集合。
在本申请提供的一种具体实施方式中,通过Ngram分词模型进行案件事实描述文本的分词。Ngram分词模型可将文本里面的内容按照词语进行大小为N的滑动窗口操作,从而形成长度为N的词语片段序列。并且分词过程中,第N个词的出现与前面N-1个词相关。即,能够充分结合上文语义进行分词,得到具有预设长度的若干词组片段。实际应用中,经分词得到的词语片段的长度取决于N的预设值,可以根据实际情况进行设定。例如,可以通过Unigram分词模型(即N=1)对案件事实描述文本进行分词,对应得到由若干一元词组组成的第一词组集合(即一元词组集合);或,可以通过Bigram分词模型(即N=2)对案件事实描述文本进行分词,对应得到由若干二元词组组成的第一词组集合(即二元词组集合);或,可以通过Trigram分词模型(即N=3)对案件事实描述文本进行分词,对应得到由若干三元词组组成的第一词组集合(即三元词组集合)。这里N的具体取值,显然不构成对本申请保护范围的限制。
进一步的,在本申请提供的一种优选实施方式中,所述对案件事实描述文本进行分词,生成第一词组集合,具体包括:通过Unigram分词模型对案件事实描述文本进行分词,生成由若干一元词组组成的一元词组集合。
这里优选Unigram分词模型进行案件事实描述文本的分词,即Ngram分词模型中的N=1。此时,经分词得到的每一词组片段由1个词构成。例如,案件事实描述文本中“不满十八周岁的人”这一描述,经Unigram分词模型分词,得到由“不满”、“十八”、“周岁”、“的”、“人”等一元词组构成的一元词组集合。一元词组集合相较于原始的案件事实描述文本,更为为细节化,颗粒度更小,从而能够有效增加后续对应法规匹配的准确性。
S200:在所述第一词组集合中,筛选出具有预设属性的第二词组集合。
这里的预设属性可以理解为预设的筛选规则。可以理解的是,案件事实描述文本经分词处理能够得到由若干分词片段组成的第一词组集合。但是,案件事实描述文本中的标点符号或停用词等内容也会作为相关元素存在于第一词组集合中。这里将案件事实描述文本中的标点符号或停用词等内容视为第一词组集合中的无关元素。这些无关元素并不会增加案件描述文本与法规条款匹配的准确性,反而还会增加案件描述文本与法规条款匹配过程中的计算量。因此,本申请对这些无关元素进行了删除处理,以便在不影响案件描述文本与法规条款匹配准确度的前提下,减小匹配过程中的计算量,从而提升了案件描述文本与法规条款匹配效率。例如,当通过Unigram分词模型(即N=1)对案件事实描述文本进行分词得到由若干一元词组组成的第一词组集合(即一元词组集合)时,对应得到的第二词组集合为经筛选后的一元词组集合。或者,当通过Bigram分词模型(即N=2)对案件事实描述文本进行分词得到由若干二元词组组成的第一词组集合(即二元词组集合)时,对应得到的第二词组集合为经筛选后的二元词组集合。再或者,可以通过Trigram分词模型(即N=3)对案件事实描述文本进行分词得到由若干三元词组组成的第一词组集合(即三元词组集合)时,对应得到的第二词组集合为经筛选后的三元词组集合。这里N的具体取值,显然不构成对本申请保护范围的限制。
在本申请提供的一种具体实施方式中,在筛选具有预设属性的第二词组集合过程中,还可以对第一词组集合中的相关词组进行规范化处理。例如,重点识别第一词组集合中的车牌、身份证号码、金额、机构名称等实体信息。即,对第一词组集合中的词组进行语料识别,并删除停用词,其它词组保持不变。
S300:建立所述第二词组集合在法规文本数据库中的映射,得到与所述第二词组集合具有映射关系的若干法律条文。
这里的法规文本数据库为经预处理得到的、记录有相关法规条文的数据库。可以理解的是,第二词组集合与第一词组集合相比,已经删除了标点符号或停用词等无关元素,减少了集合中的元素数量,从而有效增加第二词组集合与法规文本数据库的匹配效率。第二词组集合与法规文本数据库的匹配,即根据第二次组集合中的每一元素,在法规数据库中建立映射,从而得到与案件描述具有映射关系的若干法律条文。也可以理解为,得到与案件描述具有一定关联度的候选法规。
值得注意的是,这里的法规文本数据库同样经Ngram分词模型对若干法规条款进行分词处理后得到。这里将分词前的法规条款视为标准法规文本。标准法规文本为经相关组织制定的、由连贯语言组成的标准文本;每一标准文本由若干词语片段组成。这样,在第二词组集合与法规文本数据库映射过程中,能够保证第二词组集合中的元素与法规文本数据库中元素在表现形式与所处语义上的映射。可以理解的是,两个词语片段表现形式不同,其语义可能相同;或表现形式相同,但语义不同。因此,将标准法规文本进行分词处理,可以有效避免映射过程中两元素词义相同、表述形式不同,或者表述形式相同、词义不同的现象,从而增加了第二词组集合与法规文本数据库映射的准确性。
在实际应用中,法规文本数据库可以体现为倒排索引表的形式,记录有每一词语片段以及词语片段在法规文本数据库中的位置。
可以理解的是,Ngram分词模型中的N的具体数值,可以根据实际情况进行预设。N的值越大,得到的词语片段越长;N的值越小,得到的词语片段越小。并且,第N个词语片段的出现与前面N-1个词语片段相关。则每一词语片段越长,其上下文语义更为准确。对应的,每一词语片段越短,其上下文语义的具有更多的可能性。本申请通过具有不同预设N值的Ngram分词模型分别对标准法规文本进行分词。这样,能够具有不同颗粒度的词语片段,从而能够在更多维度上进行第二词组集合的匹配,从而得到映射较为准确的标准文本。
进一步的,在本申请提供的一种优选实施方式中,案件事实与法条匹配的方法还包括:通过Unigram分词模型对标准法规文本进行分词,生成由若干一元词组组成的一元词组法规文本数据库;通过Bigram分词模型对标准法规文本进行分词,生成由若干二元词组组成的二元词组法规文本数据库;通过Trigram分词模型对标准法规文本进行分词,生成由若干三元词组组成的三元词组法规文本数据库;对所述一元词组法规文本数据库、所述二元词组法规文本数据库、所述三元词组法规文本数据库进行合并处理,生成法规文本数据库。
这里的Unigram分词模型中的N=1。即,经分词得到的每一词组片段由1个词构成。每一词组片段可视为一元词组。这里的Bigram分词模型中的N=2。即,经分词得到的每一词组片段由两个词构成。每一词组片段可视为二元词组。这里的Trigram分词模型中的N=3。即,经分词得到的每一词组片段由3个词构成。每一词组片段可视为三元词组。
经试验,将Ngram分词模型中的N分别预设为1、2、3,能够在兼顾第二词组集合与法规文本数据库映射准确度的同时,兼顾第二词组集合与法规文本数据库映射速度,从而增加了二词组集合与法规文本数据库的映射效率。若N较小,则将降低第二词组集合与法规文本数据库映射准确度;反之,则将降低第二词组集合与法规文本数据库的映射速度,从而无法兼顾映射准确度以及映射速度。
第二词组集合与法规文本数据库的映射,即第二词组集合分别与由若干一元词组组成的一元词组法规文本数据库、由若干二元词组组成的二元词组法规文本数据库、由若干三元词组组成的三元词组法规文本数据库分别映射之后,得到带有在每一法规文本数据库中所占权重的标准文本。这样,有效综合了第二词组集合与具有不同颗粒度元素的数据库匹配结果。
在本申请提供的一种具体实施方式中,获取用户输入的案件描述文本分词之后,即可对其进行分词操作。分词完成,即可对得到的若干词语片段进行分词的后处理,即按照预设规则对分词后的第一词组集合进行规范化处理。基于规范化处理后的分词结果即可生成第二词组集合。之后,即可进行第二词组集合与法规文本数据库(倒排索引数据库)的匹配,并得到与案件描述文本具有映射关系的若干候选法规。
这里的预设规则即预设属性。筛选出具有预设属性的第二词组集合,即将第一词组集合中停用词、标点符号等无关元素排除。因此,预设属性可以理解为非停用词、非标点符号等非无关元素。此外,在实际应用中,还可以在预设属性中添加实体信息这一属性,以便将第一次组集合中的相关实体识别出来。例如,识别车牌、身份证号码、金额、机构名称等实体信息。这样,能够便于确定案件描述文本对应的法规类别。即,确定案件描述文本对应哪一领域的法规。
S400:通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度。
可以理解的是,第二词组集合与法规文本数据库映射,能够得到分别在法规文本数据库中第一、第二、第三法规文本数据库占有一定权重的候选法规。但是,由于第二词组集合中每一元素较短,在进行数据库映射过程中,其语义不确定性会在较大程度上影响映射结果的准确度。因此,无法将映射得到的相关候选法规作为最终匹配直接输出,还需充分结合每一候选法规文本以及案件描述文本的上下文语义进行匹配度的确定,以便得到可信度较高的标准文本。
这里的Bert-wwm编码匹配模型,可以理解为设有匹配度计算规则的编码模型。Bert-wwm编码模型在原有Bert模型的基础,增加了whole word mask功能。经训练,Bert-wwm编码模型相较于原有Bert模型,能够识别出具有较长长度(即颗粒度大)的词语片段。即,处理同样长度的文本,Bert-wwm编码模型识别较快,且准确度较高。因此,通过Bert-wwm编码匹配模型进行案件描述文本与候选法规匹配度的计算,能够充分结合案件描述文本语义以及候选法规语义,从而便于确定匹配度更高的目标法规。
进一步的,在本申请提供的一种优选实施方式中,所述通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体包括:根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;根据所述案件事实描述文本通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;使用预设的向量相似度计算规则,计算所述第一编码向量与所述第二编码向量夹角的余弦值;根据所述余弦值的计算结果,确定所述案件事实描述文本与所述若干法律条文的匹配度。
可以理解的是,在Bert编码模型中输入某一文本,则对应会得到该文本对应的向量。同样的,在预训练的Bert-wwm编码匹配模型中输入案件事实描述文本即可得到该案件事实描述文本对应的向量。在预训练的Bert-wwm编码匹配模型中输入候选法规即可得到候选法规对应的向量。这里将候选法规对应的向量称为第一编码向量;将案件事实描述文本对应的向量称为第二编码向量。因此,确定案件事实描述文本与若干法律条文(候选法规)的匹配度,即转换为计算第一编码向量与第二编码向量的相似度。值得注意的是,这里的向量相似度计算规则已预设在Bert-wwm编码匹配模型。
可以理解的是,进行向量相似度的计算,可以通过计算向量夹角的余弦值实现。并且,两向量之间的夹角区间为0°-360°,则对应的余弦值区间为[-1,1]。当两向量夹角的余弦值越接近于1或-1,则越相似。因此,通过计算第一编码向量与第二编码向量夹角的余弦值,即可确定所述案件事实描述文本与所述若干法律条文的匹配度。
进一步的,在本申请提供的另一种优选实施方式中,所述通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体包括:根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;根据所述案件事实描述文本通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;根据所述第一编码向量与所述第二编码向量并使用向量重组规则,得到重组后的第三向量;根据所述第三向量并通过预训练的神经网络全连接算法,确定所述案件事实描述文本与所述若干法律条文的匹配度。
可以理解的是,在Bert编码模型中输入某一文本,则对应会得到该文本对应的向量。同样的,在预训练的Bert-wwm编码匹配模型中输入案件事实描述文本即可得到该案件事实描述文本对应的向量。在预训练的Bert-wwm编码匹配模型中输入候选法规即可得到候选法规对应的向量。这里将候选法规对应的向量称为第一编码向量;将案件事实描述文本对应的向量称为第二编码向量。
根据第一编码向量与第二编码向量并使用向量重组规则得到重组后的第三向量,这一过程可以理解为扩充第三向量中的元素数量。这里的向量重组规则可以理解为预设的向量计算方法。在本申请提供的一种具体实施方式中,向量重组规则为将第一编码向量与第二编码向量按位相减去绝对值;或,将第一编码向量与第二编码向量按位相乘。这里的按位可以理解为第一编码向量与第二编码向量中位于同一位置的元素按照预设的计算方法进行计算。当第一编码向量与第二编码向量计算完毕,即可将第一编码向量、第二编码向量以及经计算得到的计算向量重组为新的向量。因此,第三向量除第一编码向量、第二编码向量之外,还包括经按位相乘或按位相减得到的计算向量。这样,能够有效将每一候选法规的语义与案件描述文本的语义进行结合,并根据两者单独的语义以及关联语义进行二者匹配度的计算。
具体的,根据第三向量并通过预训练的神经网络全连接算法,确定案件事实描述文本与若干法律条文的匹配度。值得注意的是,这里的预训练的神经网络全连接算法已预设在Bert-wwm编码匹配模型。这里神经网络全连接算法主要是用到神经网络的全连接层以及2-way softmax分类器,以得到案件事实描述文本与若干法律条文的相似概率,从而得到两者的匹配度。
进一步的,在本申请提供的一种优选实施方式中,所述预训练的Bert-wwm编码匹配模型的训练过程包括:使用若干标准法规文本和若干训练用案件事实描述文本进行所述Bert-wwm编码匹配模型的负反馈优化。
这里的Bert-wwm编码匹配模型,可以理解为设有匹配度计算规则的编码模型。这里的匹配度计算规则主要为预设的神经网络全连接算法。其中,所述神经网络全连接算法主要是用到神经网络的全连接层以及2-way softmax分类器。进行Bert-wwm编码匹配模型的训练,主要是进行Bert-wwm编码能力以及预设的神经网络全连接算法的训练。这里的若干标准法规文本为未经分词的标准法规,可以根据实际应用场景灵活选取。这里的实际应用场景可由训练用案件事实描述文本得到。这里的负反馈优化即根据训练过程中Bert-wwm编码匹配模型的输出值优化模型中相关参数。
在本申请提供的一种具体实施方式中,进行Bert-wwm编码匹配模型的训练,还用到了法律知识图谱,以使得训练得到的Bert-wwm编码匹配模型更加适用于法律领域,从而增加了案件描述文本与法规文本之间匹配的准确性。
请参照图2,为本申请实施例提供的一种案件事实与法条匹配的装置100,主要用于法律领域中案件描述文本与法规文本的匹配。即,根据案件描述信息匹配到与当前案件具有一定关联度的法规条款,从而便于相关人员进行后续的工作。具体的,一种案件事实与法条匹配的装置100,包括:
分词模块11,用于对案件事实描述文本进行分词,生成第一词组集合;
筛选模块12,用于在所述第一词组集合中,筛选出具有预设属性的第二词组集合;
映射模块13,用于建立所述第二词组集合在法规文本数据库中的映射,得到与所述第二词组集合具有映射关系的若干法律条文;
匹配度计算模块14,用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度。
分词模块11,用于对案件事实描述文本进行分词,生成第一词组集合。这里的案件事实描述文本主要指用于法律案件描述中的重要事实描述文本。在实际应用中,可以理解为法律文书,例如可以表现为收案审批单、谈话笔录、授权委托书、起诉书、上诉书、反诉状、诉讼保全、证据保全、法院裁定书、判决书、调解书、结案报告中至少一种法律文书。对案件事实描述文本进行分词,也即对获取的案件描述文本进行分词处理。案件事实描述文本经分词,对应得到由若干案件事实描述文本中的词组构成的词组集合。即,生成第一词组集合。这里的第一词组集合对应为由若干案件事实描述文本词组组成的集合。
在本申请提供的一种具体实施方式中,通过Ngram分词模型进行案件事实描述文本的分词。Ngram分词模型可将文本里面的内容按照词语进行大小为N的滑动窗口操作,从而形成长度为N的词语片段序列。并且分词过程中,第N个词的出现与前面N-1个词相关。即,能够充分结合上文语义进行分词,得到具有预设长度的若干词组片段。实际应用中,经分词得到的词语片段的长度取决于N的预设值,可以根据实际情况进行设定。例如,可以通过Unigram分词模型(即N=1)对案件事实描述文本进行分词,对应得到由若干一元词组组成的第一词组集合(即一元词组集合);或,可以通过Bigram分词模型(即N=2)对案件事实描述文本进行分词,对应得到由若干二元词组组成的第一词组集合(即二元词组集合);或,可以通过Trigram分词模型(即N=3)对案件事实描述文本进行分词,对应得到由若干三元词组组成的第一词组集合(即三元词组集合)。这里N的具体取值,显然不构成对本申请保护范围的限制。
进一步的,在本申请提供的一种优选实施方式中,所述分词模块11用于对案件事实描述文本进行分词,生成第一词组集合,具体用于:通过Unigram分词模型对案件事实描述文本进行分词,生成由若干一元词组组成的一元词组集合。
这里优选Unigram分词模型进行案件事实描述文本的分词,即Ngram分词模型中的N=1。此时,经分词得到的每一词组片段由1个词构成。例如,案件事实描述文本中“不满十八周岁的人”这一描述,经Unigram分词模型分词,得到由“不满”、“十八”、“周岁”、“的”、“人”等一元词组构成的一元词组集合。一元词组集合相较于原始的案件事实描述文本,更为为细节化,颗粒度更小,从而能够有效增加后续对应法规匹配的准确性。
筛选模块12,用于在所述第一词组集合中,筛选出具有预设属性的第二词组集合。这里的预设属性可以理解为预设的筛选规则。可以理解的是,案件事实描述文本经分词处理能够得到由若干分词片段组成的第一词组集合。但是,案件事实描述文本中的标点符号或停用词等内容也会作为相关元素存在于第一词组集合中。这里将案件事实描述文本中的标点符号或停用词等内容视为第一词组集合中的无关元素。这些无关元素并不会增加案件描述文本与法规条款匹配的准确性,反而还会增加案件描述文本与法规条款匹配过程中的计算量。因此,本申请对这些无关元素进行了删除处理,以便在不影响案件描述文本与法规条款匹配准确度的前提下,减小匹配过程中的计算量,从而提升了案件描述文本与法规条款匹配效率。例如,当通过Unigram分词模型(即N=1)对案件事实描述文本进行分词得到由若干一元词组组成的第一词组集合(即一元词组集合)时,对应得到的第二词组集合为经筛选后的一元词组集合。或者,当通过Bigram分词模型(即N=2)对案件事实描述文本进行分词得到由若干二元词组组成的第一词组集合(即二元词组集合)时,对应得到的第二词组集合为经筛选后的二元词组集合。再或者,可以通过Trigram分词模型(即N=3)对案件事实描述文本进行分词得到由若干三元词组组成的第一词组集合(即三元词组集合)时,对应得到的第二词组集合为经筛选后的三元词组集合。这里N的具体取值,显然不构成对本申请保护范围的限制。
在本申请提供的一种具体实施方式中,筛选模块12在筛选具有预设属性的第二词组集合过程中,还可以对第一词组集合中的相关词组进行规范化处理。例如,重点识别第一词组集合中的车牌、身份证号码、金额、机构名称等实体信息。即,对第一词组集合中的词组进行语料识别,并删除停用词,其它词组保持不变。
映射模块13用于建立所述第二词组集合在法规文本数据库中的映射,得到与所述第二词组集合具有映射关系的若干法律条文。这里的法规文本数据库为经预处理得到的、记录有相关法规条文的数据库。可以理解的是,第二词组集合与第一词组集合相比,已经删除了标点符号或停用词等无关元素,减少了集合中的元素数量,从而有效增加第二词组集合与法规文本数据库的匹配效率。第二词组集合与法规文本数据库的匹配,即根据第二次组集合中的每一元素,在法规数据库中建立映射,从而得到与案件描述具有映射关系的若干法律条文。也可以理解为,得到与案件描述具有一定关联度的候选法规。
值得注意的是,这里的法规文本数据库同样经Ngram分词模型对若干法规条款进行分词处理后得到。这里将分词前的法规条款视为标准法规文本。标准法规文本为经相关组织制定的、由连贯语言组成的标准文本;每一标准文本由若干词语片段组成。这样,在第二词组集合与法规文本数据库映射过程中,能够保证第二词组集合中的元素与法规文本数据库中元素在表现形式与所处语义上的映射。可以理解的是,两个词语片段表现形式不同,其语义可能相同;或表现形式相同,但语义不同。因此,将标准法规文本进行分词处理,可以有效避免映射过程中两元素词义相同、表述形式不同,或者表述形式相同、词义不同的现象,从而增加了第二词组集合与法规文本数据库映射的准确性。
在实际应用中,法规文本数据库可以体现为倒排索引表的形式,记录有每一词语片段以及词语片段在法规文本数据库中的位置。
可以理解的是,Ngram分词模型中的N的具体数值,可以根据实际情况进行预设。N的值越大,得到的词语片段越长;N的值越小,得到的词语片段越小。并且,第N个词语片段的出现与前面N-1个词语片段相关。则每一词语片段越长,其上下文语义更为准确。对应的,每一词语片段越短,其上下文语义的具有更多的可能性。本申请通过具有不同预设N值的Ngram分词模型分别对标准法规文本进行分词。这样,能够具有不同颗粒度的词语片段,从而能够在更多维度上进行第二词组集合的匹配,从而得到映射较为准确的标准文本。
进一步的,在本申请提供的一种优选实施方式中,分词模块11还用于:通过Unigram分词模型对标准法规文本进行分词,生成由若干一元词组组成的一元词组法规文本数据库;通过Bigram分词模型对标准法规文本进行分词,生成由若干二元词组组成的二元词组法规文本数据库;通过Trigram分词模型对标准法规文本进行分词,生成由若干三元词组组成的三元词组法规文本数据库;对所述一元词组法规文本数据库、所述二元词组法规文本数据库、所述三元词组法规文本数据库进行合并处理,生成法规文本数据库。
这里的Unigram分词模型中的N=1。即,经分词得到的每一词组片段由1个词构成。每一词组片段可视为一元词组。这里的Bigram分词模型中的N=2。即,经分词得到的每一词组片段由两个词构成。每一词组片段可视为二元词组。这里的Trigram分词模型中的N=3。即,经分词得到的每一词组片段由3个词构成。每一词组片段可视为三元词组。
经试验,将Ngram分词模型中的N分别预设为1、2、3,能够在兼顾第二词组集合与法规文本数据库映射准确度的同时,兼顾第二词组集合与法规文本数据库映射速度,从而增加了二词组集合与法规文本数据库的映射效率。若N较小,则将降低第二词组集合与法规文本数据库映射准确度;反之,则将降低第二词组集合与法规文本数据库的映射速度,从而无法兼顾映射准确度以及映射速度。
第二词组集合与法规文本数据库的映射,即第二词组集合分别与由若干一元词组组成的一元词组法规文本数据库、由若干二元词组组成的二元词组法规文本数据库、由若干三元词组组成的三元词组法规文本数据库分别映射之后,得到带有在每一法规文本数据库中所占权重的标准文本。这样,有效综合了第二词组集合与具有不同颗粒度元素的数据库匹配结果。
在本申请提供的一种具体实施方式中,获取用户输入的案件描述文本分词之后,即可对其进行分词操作。分词完成,即可对得到的若干词语片段进行分词的后处理,即按照预设规则对分词后的第一词组集合进行规范化处理。基于规范化处理后的分词结果即可生成第二词组集合。之后,即可进行第二词组集合与法规文本数据库(倒排索引数据库)的匹配,并得到与案件描述文本具有映射关系的若干候选法规。
这里的预设规则即预设属性。筛选出具有预设属性的第二词组集合,即将第一词组集合中停用词、标点符号等无关元素排除。因此,预设属性可以理解为非停用词、非标点符号等非无关元素。此外,在实际应用中,还可以在预设属性中添加实体信息这一属性,以便将第一次组集合中的相关实体识别出来。例如,识别车牌、身份证号码、金额、机构名称等实体信息。这样,能够便于确定案件描述文本对应的法规类别。即,确定案件描述文本对应哪一领域的法规。
匹配度计算模块14,用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度。可以理解的是,第二词组集合与法规文本数据库映射,能够得到分别在法规文本数据库中第一、第二、第三法规文本数据库占有一定权重的候选法规。但是,由于第二词组集合中每一元素较短,在进行数据库映射过程中,其语义不确定性会在较大程度上影响映射结果的准确度。因此,无法将映射得到的相关候选法规作为最终匹配直接输出,还需充分结合每一候选法规文本以及案件描述文本的上下文语义进行匹配度的确定,以便得到可信度较高的标准文本。
这里的Bert-wwm编码匹配模型,可以理解为设有匹配度计算规则的编码模型。Bert-wwm编码模型在原有Bert模型的基础,增加了whole word mask功能。经训练,Bert-wwm编码模型相较于原有Bert模型,能够识别出具有较长长度(即颗粒度大)的词语片段。即,处理同样长度的文本,Bert-wwm编码模型识别较快,且准确度较高。因此,通过Bert-wwm编码匹配模型进行案件描述文本与候选法规匹配度的计算,能够充分结合案件描述文本语义以及候选法规语义,从而便于确定匹配度更高的目标法规。
进一步的,在本申请提供的一种优选实施方式中,所述匹配度计算模块14用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体用于:根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;根据所述案件事实描述文本通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;使用预设的向量相似度计算规则,计算所述第一编码向量与所述第二编码向量夹角的余弦值;根据所述余弦值的计算结果,确定所述案件事实描述文本与所述若干法律条文的匹配度。
可以理解的是,在Bert编码模型中输入某一文本,则对应会得到该文本对应的向量。同样的,在预训练的Bert-wwm编码匹配模型中输入案件事实描述文本即可得到该案件事实描述文本对应的向量。在预训练的Bert-wwm编码匹配模型中输入候选法规即可得到候选法规对应的向量。这里将候选法规对应的向量称为第一编码向量;将案件事实描述文本对应的向量称为第二编码向量。因此,确定案件事实描述文本与若干法律条文(候选法规)的匹配度,即转换为计算第一编码向量与第二编码向量的相似度。值得注意的是,这里的向量相似度计算规则已预设在Bert-wwm编码匹配模型。
可以理解的是,进行向量相似度的计算,可以通过计算向量夹角的余弦值实现。并且,两向量之间的夹角区间为0°-360°,则对应的余弦值区间为[-1,1]。当两向量夹角的余弦值越接近于1或-1,则越相似。因此,通过计算第一编码向量与第二编码向量夹角的余弦值,即可确定所述案件事实描述文本与所述若干法律条文的匹配度。
进一步的,在本申请提供的另一种优选实施方式中,所述匹配度计算模块14用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体用于:根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;根据所述案件事实描述文本通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;根据所述第一编码向量与所述第二编码向量并使用向量重组规则,得到重组后的第三向量;根据所述第三向量并通过预训练的神经网络全连接算法,确定所述案件事实描述文本与所述若干法律条文的匹配度。
可以理解的是,在Bert编码模型中输入某一文本,则对应会得到该文本对应的向量。同样的,在预训练的Bert-wwm编码匹配模型中输入案件事实描述文本即可得到该案件事实描述文本对应的向量。在预训练的Bert-wwm编码匹配模型中输入候选法规即可得到候选法规对应的向量。这里将候选法规对应的向量称为第一编码向量;将案件事实描述文本对应的向量称为第二编码向量。
根据第一编码向量与第二编码向量并使用向量重组规则得到重组后的第三向量,这一过程可以理解为扩充第三向量中的元素数量。这里的向量重组规则可以理解为预设的向量计算方法。在本申请提供的一种具体实施方式中,向量重组规则为将第一编码向量与第二编码向量按位相减去绝对值;或,将第一编码向量与第二编码向量按位相乘。这里的按位可以理解为第一编码向量与第二编码向量中位于同一位置的元素按照预设的计算方法进行计算。当第一编码向量与第二编码向量计算完毕,即可将第一编码向量、第二编码向量以及经计算得到的计算向量重组为新的向量。因此,第三向量除第一编码向量、第二编码向量之外,还包括经按位相乘或按位相减得到的计算向量。这样,能够有效将每一候选法规的语义与案件描述文本的语义进行结合,并根据两者单独的语义以及关联语义进行二者匹配度的计算。
具体的,根据第三向量并通过预训练的神经网络全连接算法,确定案件事实描述文本与若干法律条文的匹配度。值得注意的是,这里的预训练的神经网络全连接算法以预设在Bert-wwm编码匹配模型。这里的神经网络全连接算法主要是用到神经网络的全连接层以及2-way softmax分类器,以得到案件事实描述文本与若干法律条文的相似概率,从而得到两者的匹配度。
进一步的,在本申请提供的一种优选实施方式中,所述预训练的Bert-wwm编码匹配模型的训练过程包括:使用若干标准法规文本和若干训练用案件事实描述文本进行所述Bert-wwm编码匹配模型的负反馈优化。
这里的Bert-wwm编码匹配模型,可以理解为设有匹配度计算规则的编码模型。这里的匹配度计算规则主要为预设的神经网络全连接算法。其中,所述神经网络全连接算法主要是用到神经网络的全连接层以及2-way softmax分类器。进行Bert-wwm编码匹配模型的训练,主要是进行Bert-wwm编码能力以及预设的神经网络全连接算法的训练。这里的若干标准法规文本为未经分词的标准法规,可以根据实际应用场景灵活选取。这里的实际应用场景可由训练用案件事实描述文本得到。这里的负反馈优化即根据训练过程中Bert-wwm编码匹配模型的输出值优化模型中相关参数。
在本申请提供的一种具体实施方式中,进行Bert-wwm编码匹配模型的训练,还用到了法律知识图谱,以使得训练得到的Bert-wwm编码匹配模型更加适用于法律领域,从而增加了案件描述文本与法规文本之间匹配的准确性。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种案件事实与法条匹配的方法,其特征在于,包括以下步骤:
对案件事实描述文本进行分词,生成第一词组集合;
在所述第一词组集合中,筛选出具有预设属性的第二词组集合;
建立所述第二词组集合在法规文本数据库中的映射,得到与所述第二词组集合具有映射关系的若干法律条文;
通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度。
2.如权利要求1所述的案件事实与法条匹配的方法,其特征在于,所述对案件事实描述文本进行分词,生成第一词组集合,具体包括:
通过Unigram分词模型对案件事实描述文本进行分词,生成由若干一元词组组成的一元词组集合。
3.如权利要求2所述的案件事实与法条匹配的方法,其特征在于,所述方法还包括:
通过Unigram分词模型对标准法规文本进行分词,生成由若干一元词组组成的一元词组法规文本数据库;
通过Bigram分词模型对标准法规文本进行分词,生成由若干二元词组组成的二元词组法规文本数据库;
通过Trigram分词模型对标准法规文本进行分词,生成由若干三元词组组成的三元词组法规文本数据库;
对所述一元词组法规文本数据库、所述二元词组法规文本数据库、所述三元词组法规文本数据库进行合并处理,生成法规文本数据库。
4.如权利要求3所述的案件事实与法条匹配的方法,其特征在于,所述通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体包括:
根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;
根据所述案件事实描述文本并通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;
使用预设的向量相似度计算规则,计算所述第一编码向量与所述第二编码向量夹角的余弦值;
根据所述余弦值的计算结果,确定所述案件事实描述文本与所述若干法律条文的匹配度。
5.如权利要求3所述的案件事实与法条匹配的方法,其特征在于,所述通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体包括:
根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;
根据所述案件事实描述文本通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;
根据所述第一编码向量与所述第二编码向量并使用向量重组规则,得到重组后的第三向量;
根据所述第三向量并通过预训练的神经网络全连接算法,确定所述案件事实描述文本与所述若干法律条文的匹配度。
6.如权利要求5所述的案件事实与法条匹配的方法,其特征在于,所述预训练的Bert-wwm编码匹配模型的训练过程包括:
使用若干标准法规文本和若干训练用案件事实描述文本进行所述Bert-wwm编码匹配模型的负反馈优化。
7.一种案件事实与法条匹配的装置,其特征在于,包括:
分词模块,用于对案件事实描述文本进行分词,生成第一词组集合;
筛选模块,用于在所述第一词组集合中,筛选出具有预设属性的第二词组集合;
映射模块,用于建立所述第二词组集合在法规文本数据库中的映射,得到与所述第二词组集合具有映射关系的若干法律条文;
匹配度计算模块,用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度。
8.如权利要求7所述的案件事实与法条匹配的装置,其特征在于,所述分词模块用于对案件事实描述文本进行分词,生成第一词组集合,具体用于:
通过Unigram分词模型对案件事实描述文本进行分词,生成由若干一元词组组成的一元词组集合。
9.如权利要求7所述的案件事实与法条匹配的装置,其特征在于,所述匹配度计算模块用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体用于:
根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;
根据所述案件事实描述文本并通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;
使用预设的向量相似度计算规则,计算所述第一编码向量与所述第二编码向量夹角的余弦值;
根据所述余弦值的计算结果,确定所述案件事实描述文本与所述若干法律条文的匹配度。
10.如权利要求7所述的案件事实与法条匹配的装置,其特征在于,所述匹配度计算模块用于通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本与所述若干法律条文的匹配度,具体用于:
根据所述若干法律条文并通过预训练的Bert-wwm编码匹配模型,确定所述若干法律条文具有的若干第一编码向量;
根据所述案件事实描述文本通过预训练的Bert-wwm编码匹配模型,确定所述案件事实描述文本具有的第二编码向量;
根据所述第一编码向量与所述第二编码向量并使用向量重组规则,得到重组后的第三向量;
根据所述第三向量并通过预训练的神经网络全连接算法,确定所述案件事实描述文本与所述若干法律条文的匹配度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210123792.6A CN114461760A (zh) | 2022-02-10 | 2022-02-10 | 案件事实与法条匹配的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210123792.6A CN114461760A (zh) | 2022-02-10 | 2022-02-10 | 案件事实与法条匹配的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114461760A true CN114461760A (zh) | 2022-05-10 |
Family
ID=81412585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210123792.6A Pending CN114461760A (zh) | 2022-02-10 | 2022-02-10 | 案件事实与法条匹配的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114461760A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115481251A (zh) * | 2022-09-26 | 2022-12-16 | 浪潮卓数大数据产业发展有限公司 | 基于聚类算法的案例匹配方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN110765760A (zh) * | 2019-09-03 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种法律案件分配方法、装置、存储介质和服务器 |
CN112148868A (zh) * | 2020-09-27 | 2020-12-29 | 南京大学 | 一种基于法条共现的法条推荐方法 |
US20210109958A1 (en) * | 2019-10-14 | 2021-04-15 | Stacks LLC | Conceptual, contextual, and semantic-based research system and method |
CN112699243A (zh) * | 2021-01-15 | 2021-04-23 | 上海交通大学 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
CN113204567A (zh) * | 2021-05-31 | 2021-08-03 | 山东政法学院司法鉴定中心 | 大数据司法案件分析处理系统 |
CN113361232A (zh) * | 2021-05-14 | 2021-09-07 | 武汉大学 | 跨界服务目标融合冲突检测方法及装置 |
-
2022
- 2022-02-10 CN CN202210123792.6A patent/CN114461760A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN110765760A (zh) * | 2019-09-03 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种法律案件分配方法、装置、存储介质和服务器 |
US20210109958A1 (en) * | 2019-10-14 | 2021-04-15 | Stacks LLC | Conceptual, contextual, and semantic-based research system and method |
CN112148868A (zh) * | 2020-09-27 | 2020-12-29 | 南京大学 | 一种基于法条共现的法条推荐方法 |
CN112699243A (zh) * | 2021-01-15 | 2021-04-23 | 上海交通大学 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
CN113361232A (zh) * | 2021-05-14 | 2021-09-07 | 武汉大学 | 跨界服务目标融合冲突检测方法及装置 |
CN113204567A (zh) * | 2021-05-31 | 2021-08-03 | 山东政法学院司法鉴定中心 | 大数据司法案件分析处理系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115481251A (zh) * | 2022-09-26 | 2022-12-16 | 浪潮卓数大数据产业发展有限公司 | 基于聚类算法的案例匹配方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN109992775B (zh) | 一种基于高级语义的文本摘要生成方法 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
CN109145287B (zh) | 印尼语单词检错纠错方法及系统 | |
CN112926345B (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN116992005B (zh) | 基于大模型及本地知识库的智能对话方法、系统及设备 | |
CN112270187A (zh) | 一种基于bert-lstm的谣言检测模型 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN107992468A (zh) | 一种基于lstm的混合语料命名实体识别方法 | |
CN114461760A (zh) | 案件事实与法条匹配的方法及装置 | |
CN111737475B (zh) | 一种无监督的网络舆情垃圾长文本识别方法 | |
CN116342167B (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN117094291A (zh) | 基于智能写作的自动新闻生成系统 | |
JPH06282587A (ja) | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 | |
CN113836941B (zh) | 一种合同导航方法及装置 | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
CN115730058A (zh) | 一种基于知识融合的推理问答方法 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和系统 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
CN111611379A (zh) | 一种文本信息分类方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220510 |
|
RJ01 | Rejection of invention patent application after publication |