CN117370539A - 一种基于知识库和大模型的法律条文信息推荐系统 - Google Patents

一种基于知识库和大模型的法律条文信息推荐系统 Download PDF

Info

Publication number
CN117370539A
CN117370539A CN202311405259.XA CN202311405259A CN117370539A CN 117370539 A CN117370539 A CN 117370539A CN 202311405259 A CN202311405259 A CN 202311405259A CN 117370539 A CN117370539 A CN 117370539A
Authority
CN
China
Prior art keywords
legal
provision information
legal provision
information
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311405259.XA
Other languages
English (en)
Inventor
闫洲
王佐成
周锐
郭子重
詹飞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Space Research Institute
Original Assignee
Data Space Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Data Space Research Institute filed Critical Data Space Research Institute
Priority to CN202311405259.XA priority Critical patent/CN117370539A/zh
Publication of CN117370539A publication Critical patent/CN117370539A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于知识库和大模型的法律条文信息推荐系统,包括数据录入模块,用于对已有的裁判文书数据和法律条文信息数据进行清洗加工;索引库构建模块,对每一个法律条文信息内容,让大模型生成法律条文信息内容相对应的法律关键词;知识库构建模块,包括法律条文信息知识库的构建和案例知识库的构建;意图识别模块,用于对用户输入的问题通过大模型做语义分析;多路召回模块,通过得到的用户问题的法律关键词召回索引库里的法律条文信息;条文推荐模块,将法律条文信息中部分失效的法律替换成最新的法律。本发明通过引入大模型处理后的索引检索机制和知识库召回机制有效的提升法条推荐的准确度和覆盖度。

Description

一种基于知识库和大模型的法律条文信息推荐系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于知识库和大模型的法律条文信息推荐系统。
背景技术
随着互联网和大数据的迅猛发展,司法领域的信息化建设取得了重要进展。各级法院及矛盾调解机构纷纷推进网上办案平台的建设,实现立案网络化、裁判文书公开化和审判流程可视化等措施。然而,现有的法律条文信息查询推荐系统存在一些问题:首先,大部分系统基于创建的法律条文信息数据库进行查询,缺乏语义层的信息,无法根据输入的案件信息进行智能精准推荐。其次,针对某个法律问题,当事人情况的不同或犯罪情节及过程的差异会影响查询结果。此外,一个案件可能涉及多种法律问题,因此仅查询单个问题不是最好的方式。
在人工智能领域,结合法律的研究成为一个热门的研究方向。尤其随着生成式大语言模型的兴起,对人工智能和法律领域产生了重大影响。其中一种常见的应用是分析用户的咨询内容并给出法律意见和法律条文信息依据,它不仅能够辅助律师或者调解员进行信息处理,还可以为广大群众提供普法服务,具有明显的应用价值。然而,上述的技术仍存在很多不足的地方:
第一、大语言模型本质上是一种概率生成模型,由于模型训练依赖的数据集存在误导信息或者训练过程中的参数以及训练方式的问题,导致模型在分析用户的咨询问题时,会生成不存在的法律条例或者生成的法律条例内容纯在捏造的信息,因此就会导致利用大语言模型对用户的咨询内容分析并直接生成对应的法律条文信息,存在模型的幻觉问题;
第二、通过对用户的咨询信息做分析,结合公开的裁判文书判决信息做语义的相似度关联,然后根据裁判文书里的判决法律条文信息作为推荐可以在一定程度上解决模型的幻觉问题,但是由于文书里的法律法律条文信息相比于现行的法律法规有很大的滞后性,因此推荐的法律条文信息可能是过时或者不适用的;
第三、构建法律法规的知识图谱,然后通过文本分类模型输出罪名分类,使用罪名作为分类标签,解决了罪名与法律条文信息不是一对一对应关系的问题。但是知识图谱的构建过程复杂,维护成本高,而且文本分类模型相比于大模型来说推理能力弱,因此准确度上严重依赖用户的输入内容。
因此,如何提供一种基于知识库和大模型的法律条文信息推荐系统是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种基于知识库和大模型的法律条文信息推荐系统,本发明通过引入大模型处理后的索引检索机制和知识库召回机制有效的提升法条推荐的准确度和覆盖度,同时有效的提升了司法领域的法条推荐效果。
根据本发明实施例的一种基于知识库和大模型的法律条文信息推荐系统,包括
数据录入模块,用于对已有的裁判文书数据和法律条文信息数据进行清洗加工,形成两个结构化的数据集,并对结构化数据集进行切分存储;
索引库构建模块,对每一个法律条文信息内容,让大模型生成法律条文信息内容相对应的法律关键词,为法律关键词和法律条文信息内容建立索引关系;
知识库构建模块,包括法律条文信息知识库的构建和案例知识库的构建;
意图识别模块,用于对用户输入的问题通过大模型做语义分析,识别出用户问题中的法律关键词,同时对于用户输入的问题做摘要,得到用户问题的摘要信息;
多路召回模块,通过得到的用户问题的法律关键词召回索引库里的法律条文信息,通过用户问题的摘要信息和已有的案例知识库做相似度匹配,选择TopN个最相近的案例对应的法律条文信息;
条文推荐模块,将法律条文信息中部分失效的法律替换成最新的法律,对无法替换的失效法律进行过滤,对于替换后的法律信息如有重复进行合并去重,对于去重后的法律条文信息让大模型再次识别验证和用户法律问题的相关性,去除低相关性的法律条文信息后输出法律条文信息。
在上述方案的基础上,所述两个结构化的数据集包括法律法规的条文数据集和裁判文书数据集。
在上述方案的基础上,所述知识库构建模块具体包括:
法律条文信息知识库的构建,将数据录入模块产生的法律法规的条文数据集通过向量化存储到向量数据库中;
案例知识库的构建,将数据录入模块产生的裁判文书数据集通过大模型提示词工程对案例的原由做摘要,再通过对已有的文书数据处理将摘要后的裁判文书数据集和对应的法律法规的条文数据集保存到向量数据库中。
在上述方案的基础上,所述TopN个最相近的案例对应的法律条文信息具体包括按相似度排序从高到低取前10个最相近的案例对应的法律条文信息。
在上述方案的基础上,所述多路召回模块得到的法律条文信息在召回时均带有权重信息,所述权重信息用于条文推荐模块的排序使用。
在上述方案的基础上,所述数据录入模块具体包括:
S11、收集公开网站上的法律条文信息数据,对每个法律条文信息数据进行处理:
S12、按照法律条文信息标识、法律条文信息名称、法律条文信息编号和法律条文信息内容存储在数据表TableA中,其中,法律条文信息标识为记录的唯一标识;
S13、收集裁判文书网上的裁判文书数据,对每个裁判文书数据进行处理:
S14、按照文书标识、文书编号、文书名称和文书内容的方式存储在数据表TableB中,其中,文书标识为记录的唯一标识。
在上述方案的基础上,所述索引库构建模块具体包括:
S21、依次遍历TableA的数据,为法律条文信息内容利用大模型生成对应的法律关键词列表:
S(k,L);
其中,k表示法律关键词,L表示法律标识列表;
S22、遍历法律关键词列表,法律关键词和法律条文信息内容建立关键词索引信息。
在上述方案的基础上,所述知识库构建模块具体还包括:
S31、法律条文信息知识库的构建:
依次遍历TableA的数据,将法律条文信息名称和法律条文信息内容按照BGE模型向量化的方式做嵌入,将向量化后结果连同原始字段信息一起存入到向量数据库中;
S32、案例知识库的构建:
依次遍历TableB的数据,用大模型对裁判文书内容进行抽取,抽取出案由部分和参考法律条文信息两部分;
利用大模型做提示工程对案例的原由做摘要;
对参考法律条文信息部分通过大模型解析出对应的法律条文信息名称、法律条文信息编号、法律条文信息和法律条文信息内容;
将摘要内容按照BGE模型向量化的方式做嵌入,将向量化后的摘要和法律条文信息连同原始的案例标识一起存入到向量数据库中。
在上述方案的基础上,所述条文推荐模块具体包括:
S41、用户向系统输入案例信息的文本;
S42、系统先对案例信息的文本做意图分析,通过大模型的提示词工程对案例信息的文本做语义分析,生成案例信息的文本的摘要信息A以及案例信息的文本中可能涉及到的关键词列表,关键词列表包括案例信息的文本中出现的关键词以及通过大模型泛化出的联想关键词:
K:[K1,K2,K3,K4,K5,…,Ki];
其中,K表示关键词列表,K1和K2表示案例中出现的关键词,K3,K4,K5…Ki表示大模型泛化出的关键词;
系统进一步的并行对法律条文信息检索,先以关键词检索法律条文信息数据:
S43、用关键词列表K,分别到索引库中查找关键词对应的法律条文信息,Ki对应的法律条文信息列表:
Si{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
其中,si,j是Ki关键词对应的第j个法律条文信息标识,wi,j为对应未归一化的权重,所有的关键词查找到一个总的法律条文信息列表:
P{S1,S2,…,Si};
对法律条文信息列表P里的法律条文信息按照法律条文信息标识进行合并排序,同样法律条文信息标识的权重先累加,然后按照权重从高到低排序,得到一个新的法律条文信息列表:
P'{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对法律条文信息列表P'按照权重重新归一化:
其中,m表示关键词的数量,nk表示第k个关键词对应的法律条文信息标识的数量;
归一化后的法律条文信息列表表示为:
P”{(s1,1,w′1,1),(s1,2,w′1,2),…,(si,j,w′i,j)};
整个归一化过程:
S44、同时以摘要信息语义相似度匹配法律条文信息:
案例信息的文本的摘要信息A,先对A进行BGE模型向量化,得到嵌入后的向量A',将A'和知识库里的案例法律条文信息按照相似度做匹配查找,设置相似度的阈值p,如果相似度大于p,则加入候选法律条文信息列表,按照相似度排序取Topi法律条文信息列表,第i个案例对应的法律条文信息列表:
Si{s1,s2,…,si}。
对摘要信息语义相似度匹配法律条文信息的案例和法律条文信息列表做合并排序,同样法律条文信息标识的权重先累加,按照权重从高到低排序,得到一个新的列表:
P”'{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对列表P”'按照权重重新归一化;
S45、同时以大模型提示词的方式产生法律条文信息;
S46、对于上述步骤S43-S45产生的结果分别做法律条文信息替换,和知识库里的实时法律条文信息做标记替换,把需要替换的法律标识替换成最新的法律标识,无法匹配到的则做无效标记;
S47、对于S46做无效标记的法律条文信息过滤,保留现行有效的法律条文信息;
S48、对于S47中三组法律条文信息按照法律条文信息标识合并,同样标识的权重累加;
S49、对于S48的结果再安装权重大小从高到低排序,得到新的去重后的法律条文信息排序列表;
S410、利用大模型的知识推理能力,将用户的输入和S49产生的新的法律条文信息推荐列表每一项内容做推理,判断其与用户输入的案例的相关度,保留法律相关度高的法律条文信息;
S411、输出推荐的法律条文信息给用户。
在上述方案的基础上,所述S45具体包括:
S451、用S41中用户向系统输入案例信息的文本,让大模型根据自身的知识理解进行法律推理,得到对应的法条名称、法条编号和法条内容,并通过提示词工程让大模型在输出法律条文信息列表时按照关联度从高到低的顺序排列,得到排序后的法条信息列表:
S={s1,s2,…,si};
其中,si表示一个三元组{法条名称,法条编号,法条内容};
S452、以法条内容去知识库中倒查法条编号,忽略大模型生成的编号信息,si调整成一个二元组{法条名称,法条内容}:
先依次遍历法条信息列表S,把si的法条名称进行BGE模型向量化,得到名称列表K;
对名称列表K取Top1作为该si对应的规范化后的法条名称,规范化后的法条信息列表:
S'={s1′,s2',…,si′};
其中,si′是一个二元组{规范化后的法条名称,法条内容};
依次对S'遍历,分把si的法条内容进行BGE模型向量化,得到内容列表Q;
对法条内容列表Q取Top1作为该si对应的规范化后的法条内容,并从知识库中将该法条内容对应的法条标识取出,规范化后的法条信息列表:
S”={s1″,s2'′,…,si″};
其中,si″是一个三元组{规范化后的法条名称,规范化后的法条标识,规范化后法条内容};
法条内容列表是排序的,进一步按照线性分配权重的方式为列表里的每个元素进行赋予新的权重,权重值的计算公式:
(列表长度-当前元素的索引)/列表长度;
新的带有权重的列表为:
P'{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对上述规范化后的法条信息列表P'做合并排序,同样法条标识的权重先累加,然后按照权重从高到低排序,得到一个新的列表P”:
P”{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对列表P”按照权重重新归一化。
本发明的有益效果是:
本发明可以纠正大模型在推荐法律条文信息时存在的幻觉问题,提高法条推荐的有效性,通过引入大模型处理后的索引检索机制和知识库召回机制有效的提升法条推荐的准确度和覆盖度,同时有效的提升了司法领域的法条推荐效果,对于索引库的建立利用了大模型生成关键词的方式,用于关键词检索召回,对于最终的推荐结果采用大模型再次验证的方式,可以有效的避免索引检索出现的问题。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种基于知识库和大模型的法律条文信息推荐系统的结构框图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种基于知识库和大模型的法律条文信息推荐系统,包括
数据录入模块,用于对已有的裁判文书数据和法律条文信息数据进行清洗加工,形成两个结构化的数据集,并对结构化数据集进行切分存储;
本实施方式中,两个结构化的数据集包括法律法规的条文数据集和裁判文书数据集,法律法规的条文数据集形式如:法规名称|法条编号|条内容|是否有效,裁判文书数据集形式如:案例原由|案例时间|案例的法规依据法条编号|文书结果。
索引库构建模块,对每一个法律条文信息内容,让大模型生成法律条文信息内容相对应的法律关键词,对每一个法条内容,让大模型生成如“子女赡养”、“财产纠纷”等关键词,为法律关键词和法律条文信息内容建立索引关系;
知识库构建模块,包括法律条文信息知识库的构建和案例知识库的构建;
本实施方式中,大模型又称大规模语言模型,简称LLM,是指具有大量参数的深度学习或机器学习模型,这类模型通常具有较深的网络结构和较多的神经元,能够学习到自然语言的语法和语义,拥有丰富的知识和推理能力。
本实施方式中,知识库构建模块具体包括:
法律条文信息知识库的构建,将数据录入模块产生的法律法规的条文数据集通过向量化存储到向量数据库中,以便信息的检索;
案例知识库的构建,将数据录入模块产生的裁判文书数据集通过大模型提示词工程对案例的原由做摘要,摘要的内容类似“这是一个{XXX}法律问题,发生在{社会主体}和{社会主体}之间,主要涉及{问题焦点}”,再通过对已有的文书数据处理将摘要后的裁判文书数据集和对应的法律法规的条文数据集保存到向量数据库中。
意图识别模块,用于对用户输入的问题通过大模型做语义分析,识别出用户问题中的法律关键词,同时对于用户输入的问题做摘要,得到用户问题的摘要信息;
多路召回模块,大模型本身可以利用自身的知识对用户的问题做解答,可以通过提示词工程生成用户的问题可能涉及到的法律条文及内容。但是大模型直接生成的内容存在捏造的可能性,因此需要将生成的法条内容和已有的法律法规知识库的信息做相似度匹配,获取最有可能的实际法条,通过得到的用户问题的法律关键词召回索引库里的法律条文信息,通过用户问题的摘要信息和已有的案例知识库做相似度匹配,选择TopN个最相近的案例对应的法律条文信息;
本实施方式中,TopN个最相近的案例对应的法律条文信息具体包括按相似度排序从高到低取前10个最相近的案例对应的法律条文信息,多路召回模块得到的法律条文信息在召回时均带有权重信息,权重信息用于条文推荐模块的排序使用。
条文推荐模块,召回后的法律条文是一个带有权重信息的列表,列表里的法律有部分可能已经失效,所以需要替换成最新的法律,将法律条文信息中部分失效的法律替换成最新的法律,对无法替换的失效法律进行过滤,对于替换后的法律信息如有重复进行合并去重,对于去重后的法律条文信息让大模型再次识别验证和用户法律问题的相关性,去除低相关性的法律条文信息后输出法律条文信息。
本发明解决现有技术的方法存在的法律法规检索准确度低的技术问题。本发明通过数据录入模块、索引库构建模块、知识库构建模块、多路召回模块、意图识别模块、条文推荐模块,最终输出高精准度的法条信息。
本实施方式中,数据录入模块具体包括:
S11、收集公开网站上的法律条文信息数据,对每个法律条文信息数据进行处理:
S12、按照法律条文信息标识、法律条文信息名称、法律条文信息编号和法律条文信息内容存储在数据表TableA中,其中,法律条文信息标识为记录的唯一标识;
S13、收集裁判文书网上的裁判文书数据,对每个裁判文书数据进行处理:
S14、按照文书标识、文书编号、文书名称和文书内容的方式存储在数据表TableB中,其中,文书标识为记录的唯一标识。
本实施方式中,索引库构建模块具体包括:
S21、依次遍历TableA的数据,为法律条文信息内容利用大模型生成对应的法律关键词列表:
S(k,L);
其中,k表示法律关键词,L表示法律标识列表;
S22、遍历法律关键词列表,法律关键词和法律条文信息内容建立关键词索引信息。
本实施方式中,知识库构建模块具体还包括:
S31、法律条文信息知识库的构建:
依次遍历TableA的数据,将法律条文信息名称和法律条文信息内容按照BGE模型向量化的方式做嵌入,将向量化后结果连同原始字段信息一起存入到向量数据库中;
S32、案例知识库的构建:
依次遍历TableB的数据,用大模型对裁判文书内容进行抽取,抽取出案由部分和参考法律条文信息两部分;
利用大模型做提示工程对案例的原由做摘要,摘要的内容类似“这是一个{矛盾分类}法律问题,发生在{社会主体}和{社会主体}之间,主要涉及{问题焦点}”。这样可以更好的统一形式,提升摘要匹配的效果;
对参考法律条文信息部分通过大模型解析出对应的法律条文信息名称、法律条文信息编号、法律条文信息和法律条文信息内容;
将摘要内容按照BGE模型向量化的方式做嵌入,将向量化后的摘要和法律条文信息连同原始的案例标识一起存入到向量数据库中。
本实施方式中,条文推荐模块具体包括:
S41、用户向系统输入案例信息的文本;
S42、系统先对案例信息的文本做意图分析,通过大模型的提示词工程对案例信息的文本做语义分析,生成案例信息的文本的摘要信息A以及案例信息的文本中可能涉及到的关键词列表,关键词列表包括案例信息的文本中出现的关键词以及通过大模型泛化出的联想关键词:
K:[K1,K2,K3,K4,K5,…,Ki];
其中,K表示关键词列表,K1和K2表示案例中出现的关键词,K3,K4,K5…Ki表示大模型泛化出的关键词;
系统进一步的并行对法律条文信息检索,先以关键词检索法律条文信息数据:
S43、用关键词列表K,分别到索引库中查找关键词对应的法律条文信息,Ki对应的法律条文信息列表:
Si{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
其中,si,j是Ki关键词对应的第j个法律条文信息标识,wi,j为对应未归一化的权重,所有的关键词查找到一个总的法律条文信息列表:
P{S1,S2,…,Si};
对法律条文信息列表P里的法律条文信息按照法律条文信息标识进行合并排序,同样法律条文信息标识的权重先累加,然后按照权重从高到低排序,得到一个新的法律条文信息列表:
P'{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对法律条文信息列表P'按照权重重新归一化:
其中,m表示关键词的数量,nk表示第k个关键词对应的法律条文信息标识的数量;
归一化后的法律条文信息列表表示为:
P”{(s1,1,w′1,1),(s1,2,w′1,2),…,(si,j,w′i,j)};
整个归一化过程:
S44、同时以摘要信息语义相似度匹配法律条文信息:
案例信息的文本的摘要信息A,先对A进行BGE模型向量化,得到嵌入后的向量A',将A'和知识库里的案例法律条文信息按照相似度做匹配查找,设置相似度的阈值p,如果相似度大于p,则加入候选法律条文信息列表,按照相似度排序取Topi法律条文信息列表,第i个案例对应的法律条文信息列表:
Si{s1,s2,…,si}。
对摘要信息语义相似度匹配法律条文信息的案例和法律条文信息列表做合并排序,同样法律条文信息标识的权重先累加,按照权重从高到低排序,得到一个新的列表:
P”'{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对列表P”'按照权重重新归一化,归一化处理过程与上述相同;
S45、同时以大模型提示词的方式产生法律条文信息;
S46、对于上述步骤S43-S45产生的结果分别做法律条文信息替换,和知识库里的实时法律条文信息做标记替换,把需要替换的法律标识替换成最新的法律标识,无法匹配到的则做无效标记;
S47、对于S46做无效标记的法律条文信息过滤,保留现行有效的法律条文信息;
S48、对于S47中三组法律条文信息按照法律条文信息标识合并,同样标识的权重累加;
S49、对于S48的结果再安装权重大小从高到低排序,得到新的去重后的法律条文信息排序列表;
S410、利用大模型的知识推理能力,将用户的输入和S49产生的新的法律条文信息推荐列表每一项内容做推理,判断其与用户输入的案例的相关度,保留法律相关度高的法律条文信息;
S411、输出推荐的法律条文信息给用户。
本实施方式中,S45具体包括:
S451、用S41中用户向系统输入案例信息的文本,让大模型根据自身的知识理解进行法律推理,得到对应的法条名称、法条编号和法条内容,并通过提示词工程让大模型在输出法律条文信息列表时按照关联度从高到低的顺序排列,得到排序后的法条信息列表:
S={s1,s2,…,si};
其中,si表示一个三元组{法条名称,法条编号,法条内容};
S452、以法条内容去知识库中倒查法条编号,忽略大模型生成的编号信息,si调整成一个二元组{法条名称,法条内容}:
先依次遍历法条信息列表S,把si的法条名称进行BGE模型向量化,得到名称列表K;
对名称列表K取Top1作为该si对应的规范化后的法条名称,规范化后的法条信息列表:
S'={s1′,s2',…,si′};
其中,si′是一个二元组{规范化后的法条名称,法条内容};
依次对S'遍历,分把si的法条内容进行BGE模型向量化,得到内容列表Q;
对法条内容列表Q取Top1作为该si对应的规范化后的法条内容,并从知识库中将该法条内容对应的法条标识取出,规范化后的法条信息列表:
S”={s1″,s2'′,…,si″};
其中,si″是一个三元组{规范化后的法条名称,规范化后的法条标识,规范化后法条内容};
法条内容列表是排序的,进一步按照线性分配权重的方式为列表里的每个元素进行赋予新的权重,权重值的计算公式:
(列表长度-当前元素的索引)/列表长度;
新的带有权重的列表为:
P'{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对上述规范化后的法条信息列表P'做合并排序,同样法条标识的权重先累加,然后按照权重从高到低排序,得到一个新的列表P”:
P”{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对列表P”按照权重重新归一化,归一化处理过程与上述相同。
实施例1:
2022年8月下旬,某街道人民调解委员会(以下简称调委会)受某街道派出所的委托,调解一起双方因口角而引发的车辆损坏纠纷。调解员遂与办案警察取得联系,详细了解案件原委。据了解,2022年8月某日17时20分许,在某路口,网约车司机王某甲与其乘客王某乙因路线问题发生口角,双方愈吵愈烈。王某乙在下车后脚踢王某甲车辆车身以此发泄不满,造成王某甲车辆的右后方车门一定程度受损。王某甲随即报警。经鉴定,王某甲的车辆需进场维修。警方建议双方通过调解了结此案。但王某乙认为王某甲提出的车辆受损赔偿金额过高,其难以接受,双方僵持不下。在此情形下,派出所委托调委会对这起纠纷进行调处。
受理此案后,调解员从警方处详细了解了整个案情的经过,然后与车主王某甲进行沟通,对其提出的赔偿金额依据进行详细了解。在沟通过程中,针对王某甲提出的精神损害赔偿等不合理诉求,调解员向其指出,根据《中华人民共和国民法典》第一千一百八十三条:“侵害自然人人身权益造成严重精神损害的,被侵权人有权请求精神损害赔偿。因故意或者重大过失侵害自然人具有人身意义的特定物造成严重精神损害的,被侵权人有权请求精神损害赔偿。”调解员指出,车辆损害显然不符合精神损害的赔偿条件。对于财产损失的计算,根据《中华人民共和国民法典》第一千一百八十四条:“侵害他人财产的,财产损失按照损失发生时的市场价格或者其他合理方式计算。”调解员建议王某甲根据相关规定,提出合理诉求。王某甲提出,自己本可以追究对方的违法责任,如今给予了王某乙改过自新的机会,使其免受警方处罚,王某乙理应支付更多的赔偿作为回报。听到此处,调解员当即向王某甲严正指出其错误的认识和态度,刑事或行政法律责任由国家机关认定,个人无权干涉,当事人不能以此要挟索取巨额赔偿。赔偿诉求的提出需于法有据,调解员建议其端正态度。调解员告知其破坏他人车辆应当承担的法律责任,根据《中华人民共和国治安管理处罚法》第四十九条:“盗窃、诈骗、哄抢、抢夺、敲诈勒索或者故意损毁公私财物的,处五日以上十日以下拘留,可以并处五百元以下罚款;情节较重的,处十日以上十五日以下拘留,可以并处一千元以下罚款。”破坏他人车辆属于故意损毁公私财物,依法可能被予以拘留处罚。如果王某乙现阶段愿意积极配合调解,与王某甲协商赔偿,有机会依法免于处罚,根据《中华人民共和国治安管理处罚法》第九条规定:“对于因民间纠纷引起的打架斗殴或者损毁他人财物等违反治安管理行为,情节较轻的,公安机关可以调解处理。经公安机关调解,当事人达成协议的,不予处罚。”本案案情符合法律规定的可以不予处罚的条件,如果其愿意与王某甲达成调解协议,公安机关可能免予治安管理处罚。相关法条:《中华人民共和国民法典》第一千一百八十三条、《中华人民共和国民法典》第一千一百八十四条、《中华人民共和国治安管理处罚法》第四十九条、《中华人民共和国治安管理处罚法》第九条。
实施详情:
单独向量查找:
只使用知识库向量查找模式的操作如下:
首先对案例简介做摘要处理,得到文本:“这是一起涉及车辆损坏的纠纷案件,发生在个人和个人之间,主要涉及赔偿金额的纠纷。”;
通过摘要文本,将其向量化,并在知识库中相似查找相关法律条文得到相关法条如下:
《中华人民共和国治安管理处罚法》第九条;
《中华人民共和国民法典》第一千二百零八条;
《中华人民共和国民法典》第一千一百八十二条;
《中华人民共和国道路交通安全法》第七十四条;
法律列表与案例相关发条匹配数量是1(《中华人民共和国治安管理处罚法》第九条),其准确率为0.25,覆盖率为0.25。
使用关键词匹配检索:
利用大模型获取案例的关键词列表。人民调解、调解委员、双方争执、口角升级、车辆车身损坏、损害财产、报警处理、车辆维修、赔偿金额争议、调解委员会介入、派出所调解、纠纷解决、调解结果;
利用这些关键词在索引库中进行关键词匹配操作;
通过阈值对法律法规进行筛选,得到相关法律有:
《中华人民共和国民法典》第一千一百八十二条;
《中华人民共和国民法典》第一千一百八十四条;
《中华人民共和国治安管理处罚法》第四十九条;
《中华人民共和国保险法》第九十五条;
法律列表与案例相关发条匹配数量是2(《中华人民共和国民法典》第一千一百八十四条、《中华人民共和国治安管理处罚法》第四十九条),其准确率为0.5,覆盖率也为0.5;
大模型直接推荐法条:
加载prompt信息,大模型输出推荐法律;
用法规知识库进行纠正,得到如下法律列表:
《中华人民共和国民法典》第一千一百八十三条;
《中华人民共和国民法典》第一千一百八十四条;
《中华人民共和国道路交通安全法》第七十七条;
《中华人民共和国道路交通安全法》第五十二条;
法律列表与案例相关发条匹配数量是2(《中华人民共和国民法典》第一千一百八十四条、《中华人民共和国民法典》第一千一百八十三条),其准确率为0.5,覆盖率也为0.5。
多路召回:
将三种查询方式的法规列表组合,去重得到法律列表为:《中华人民共和国治安管理处罚法》第九条、《中华人民共和国治安管理处罚法》第四十九条、《中华人民共和国道路交通安全法》第五十二条、《中华人民共和国道路交通安全法》第七十七条、《中华人民共和国民法典》第一千二百零八条、《中华人民共和国民法典》第一千一百八十二条、《中华人民共和国民法典》第一千一百八十三条、《中华人民共和国民法典》第一千一百八十四条、《中华人民共和国道路交通安全法》第七十四条、《中华人民共和国保险法》第九十五条;
将10条备选法律、验证prompt、案例简介发送给大模型,让其选择与案件最相关的法律法规;
大模型输出法规有:
《中华人民共和国治安管理处罚法》第九条;
《中华人民共和国治安管理处罚法》第四十九条;
《中华人民共和国民法典》第一千一百八十二条;
《中华人民共和国民法典》第一千一百八十三条;
《中华人民共和国民法典》第一千一百八十四条;
法律列表与案例相关发条匹配数量是4,其准确率为0.8,覆盖率为1。与其他三种单独的方案对比,准确率从0.5上升到0.8,覆盖率从0.5上升到1,明显比其他三种方案单独处理的准确度和覆盖率都有所提高。
由上述实施例可以看出,本发明可以纠正大模型在推荐法律条文信息时存在的幻觉问题,提高法条推荐的有效性,通过引入大模型处理后的索引检索机制和知识库召回机制有效的提升法条推荐的准确度和覆盖度,同时有效的提升了司法领域的法条推荐效果,对于索引库的建立利用了大模型生成关键词的方式,用于关键词检索召回,对于最终的推荐结果采用大模型再次验证的方式,可以有效的避免索引检索出现的问题。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,包括数据录入模块,用于对已有的裁判文书数据和法律条文信息数据进行清洗加工,形成两个结构化的数据集,并对结构化数据集进行切分存储;
索引库构建模块,对每一个法律条文信息内容,让大模型生成法律条文信息内容相对应的法律关键词,为法律关键词和法律条文信息内容建立索引关系;
知识库构建模块,包括法律条文信息知识库的构建和案例知识库的构建;
意图识别模块,用于对用户输入的问题通过大模型做语义分析,识别出用户问题中的法律关键词,同时对于用户输入的问题做摘要,得到用户问题的摘要信息;
多路召回模块,通过得到的用户问题的法律关键词召回索引库里的法律条文信息,通过用户问题的摘要信息和已有的案例知识库做相似度匹配,选择TopN个最相近的案例对应的法律条文信息;
条文推荐模块,将法律条文信息中部分失效的法律替换成最新的法律,对无法替换的失效法律进行过滤,对于替换后的法律信息如有重复进行合并去重,对于去重后的法律条文信息让大模型再次识别验证和用户法律问题的相关性,去除低相关性的法律条文信息后输出法律条文信息。
2.根据权利要求1所述的一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,所述两个结构化的数据集包括法律法规的条文数据集和裁判文书数据集。
3.根据权利要求2所述的一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,所述知识库构建模块具体包括:
法律条文信息知识库的构建,将数据录入模块产生的法律法规的条文数据集通过向量化存储到向量数据库中;
案例知识库的构建,将数据录入模块产生的裁判文书数据集通过大模型提示词工程对案例的原由做摘要,再通过对已有的文书数据处理将摘要后的裁判文书数据集和对应的法律法规的条文数据集保存到向量数据库中。
4.根据权利要求1所述的一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,所述TopN个最相近的案例对应的法律条文信息具体包括按相似度排序从高到低取前10个最相近的案例对应的法律条文信息。
5.根据权利要求1所述的一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,所述多路召回模块得到的法律条文信息在召回时均带有权重信息,所述权重信息用于条文推荐模块的排序使用。
6.根据权利要求3所述的一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,所述数据录入模块具体包括:
S11、收集公开网站上的法律条文信息数据,对每个法律条文信息数据进行处理:
S12、按照法律条文信息标识、法律条文信息名称、法律条文信息编号和法律条文信息内容存储在数据表TableA中,其中,法律条文信息标识为记录的唯一标识;
S13、收集裁判文书网上的裁判文书数据,对每个裁判文书数据进行处理:
S14、按照文书标识、文书编号、文书名称和文书内容的方式存储在数据表TableB中,其中,文书标识为记录的唯一标识。
7.根据权利要求6所述的一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,所述索引库构建模块具体包括:
S21、依次遍历TableA的数据,为法律条文信息内容利用大模型生成对应的法律关键词列表:
S(k,L);
其中,k表示法律关键词,L表示法律标识列表;
S22、遍历法律关键词列表,法律关键词和法律条文信息内容建立关键词索引信息。
8.根据权利要求7所述的一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,所述知识库构建模块具体还包括:
S31、法律条文信息知识库的构建:
依次遍历TableA的数据,将法律条文信息名称和法律条文信息内容按照BGE模型向量化的方式做嵌入,将向量化后结果连同原始字段信息一起存入到向量数据库中;
S32、案例知识库的构建:
依次遍历TableB的数据,用大模型对裁判文书内容进行抽取,抽取出案由部分和参考法律条文信息两部分;
利用大模型做提示工程对案例的原由做摘要;
对参考法律条文信息部分通过大模型解析出对应的法律条文信息名称、法律条文信息编号、法律条文信息和法律条文信息内容;
将摘要内容按照BGE模型向量化的方式做嵌入,将向量化后的摘要和法律条文信息连同原始的案例标识一起存入到向量数据库中。
9.根据权利要求8所述的一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,所述条文推荐模块具体包括:
S41、用户向系统输入案例信息的文本;
S42、系统先对案例信息的文本做意图分析,通过大模型的提示词工程对案例信息的文本做语义分析,生成案例信息的文本的摘要信息A以及案例信息的文本中可能涉及到的关键词列表,关键词列表包括案例信息的文本中出现的关键词以及通过大模型泛化出的联想关键词:
K:[K1,K2,K3,K4,K5,…,Ki];
其中,K表示关键词列表,K1和K2表示案例中出现的关键词,K3,K4,K5…Ki表示大模型泛化出的关键词;
系统进一步的并行对法律条文信息检索,先以关键词检索法律条文信息数据:
S43、用关键词列表K,分别到索引库中查找关键词对应的法律条文信息,Ki对应的法律条文信息列表:
Si{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
其中,si,j是Ki关键词对应的第j个法律条文信息标识,wi,j为对应未归一化的权重,所有的关键词查找到一个总的法律条文信息列表:
P{S1,S2,…,Si};
对法律条文信息列表P里的法律条文信息按照法律条文信息标识进行合并排序,同样法律条文信息标识的权重先累加,然后按照权重从高到低排序,得到一个新的法律条文信息列表:
P'{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对法律条文信息列表P'按照权重重新归一化:
其中,m表示关键词的数量,nk表示第k个关键词对应的法律条文信息标识的数量;
归一化后的法律条文信息列表表示为:
P”{(s1,1,w′1,1),(s1,2,w′1,2),…,(si,j,w′i,j)};
整个归一化过程:
S44、同时以摘要信息语义相似度匹配法律条文信息:
案例信息的文本的摘要信息A,先对A进行BGE模型向量化,得到嵌入后的向量A',将A'和知识库里的案例法律条文信息按照相似度做匹配查找,设置相似度的阈值p,如果相似度大于p,则加入候选法律条文信息列表,按照相似度排序取Topi法律条文信息列表,第i个案例对应的法律条文信息列表:
Si{s1,s2,…,si}。
对摘要信息语义相似度匹配法律条文信息的案例和法律条文信息列表做合并排序,同样法律条文信息标识的权重先累加,按照权重从高到低排序,得到一个新的列表:
P”'{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对列表P”'按照权重重新归一化;
S45、同时以大模型提示词的方式产生法律条文信息;
S46、对于上述步骤S43-S45产生的结果分别做法律条文信息替换,和知识库里的实时法律条文信息做标记替换,把需要替换的法律标识替换成最新的法律标识,无法匹配到的则做无效标记;
S47、对于S46做无效标记的法律条文信息过滤,保留现行有效的法律条文信息;
S48、对于S47中三组法律条文信息按照法律条文信息标识合并,同样标识的权重累加;
S49、对于S48的结果再安装权重大小从高到低排序,得到新的去重后的法律条文信息排序列表;
S410、利用大模型的知识推理能力,将用户的输入和S49产生的新的法律条文信息推荐列表每一项内容做推理,判断其与用户输入的案例的相关度,保留法律相关度高的法律条文信息;
S411、输出推荐的法律条文信息给用户。
10.根据权利要求9所述的一种基于知识库和大模型的法律条文信息推荐系统,其特征在于,所述S45具体包括:
S451、用S41中用户向系统输入案例信息的文本,让大模型根据自身的知识理解进行法律推理,得到对应的法条名称、法条编号和法条内容,并通过提示词工程让大模型在输出法律条文信息列表时按照关联度从高到低的顺序排列,得到排序后的法条信息列表:
S={s1,s2,…,si};
其中,si表示一个三元组{法条名称,法条编号,法条内容};
S452、以法条内容去知识库中倒查法条编号,忽略大模型生成的编号信息,si调整成一个二元组{法条名称,法条内容}:
先依次遍历法条信息列表S,把si的法条名称进行BGE模型向量化,得到名称列表K;
对名称列表K取Top1作为该si对应的规范化后的法条名称,规范化后的法条信息列表:
S'={s1′,s2',…,si′};
其中,si′是一个二元组{规范化后的法条名称,法条内容};
依次对S'遍历,分把si的法条内容进行BGE模型向量化,得到内容列表Q;
对法条内容列表Q取Top1作为该si对应的规范化后的法条内容,并从知识库中将该法条内容对应的法条标识取出,规范化后的法条信息列表:
S”={s1″,s2'′,…,si″};
其中,si″是一个三元组{规范化后的法条名称,规范化后的法条标识,规范化后法条内容};
法条内容列表是排序的,进一步按照线性分配权重的方式为列表里的每个元素进行赋予新的权重,权重值的计算公式:
(列表长度-当前元素的索引)/列表长度;
新的带有权重的列表为:
P'{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对上述规范化后的法条信息列表P'做合并排序,同样法条标识的权重先累加,然后按照权重从高到低排序,得到一个新的列表P”:
P”{(s1,1,w1,1),(s1,2,w1,2),…,(si,j,wi,j)};
对列表P”按照权重重新归一化。
CN202311405259.XA 2023-10-27 2023-10-27 一种基于知识库和大模型的法律条文信息推荐系统 Pending CN117370539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311405259.XA CN117370539A (zh) 2023-10-27 2023-10-27 一种基于知识库和大模型的法律条文信息推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311405259.XA CN117370539A (zh) 2023-10-27 2023-10-27 一种基于知识库和大模型的法律条文信息推荐系统

Publications (1)

Publication Number Publication Date
CN117370539A true CN117370539A (zh) 2024-01-09

Family

ID=89390713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311405259.XA Pending CN117370539A (zh) 2023-10-27 2023-10-27 一种基于知识库和大模型的法律条文信息推荐系统

Country Status (1)

Country Link
CN (1) CN117370539A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743390A (zh) * 2024-02-20 2024-03-22 证通股份有限公司 针对金融信息的查询方法和系统、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743390A (zh) * 2024-02-20 2024-03-22 证通股份有限公司 针对金融信息的查询方法和系统、存储介质
CN117743390B (zh) * 2024-02-20 2024-05-28 证通股份有限公司 针对金融信息的查询方法和系统、存储介质

Similar Documents

Publication Publication Date Title
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
CN106960063A (zh) 一种针对招商引资领域的互联网情报抓取和推荐系统
CN108009299A (zh) 法律审判业务处理方法和装置
CN101118554A (zh) 智能交互式问答系统及其处理方法
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN104699737A (zh) 用于管理搜索的方法和系统
JP2009521770A (ja) 顧客駆動型クエリからの照合を強化するための方法およびシステム
CN117370539A (zh) 一种基于知识库和大模型的法律条文信息推荐系统
CN107247743A (zh) 一种司法类案检索方法及系统
CN107016042B (zh) 一种基于用户位置日志的地址信息校验系统
CN108595525A (zh) 一种律师信息处理方法和系统
US20160170993A1 (en) System and method for ranking news feeds
CN107122438A (zh) 一种司法案件检索方法及系统
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN109492097B (zh) 一种企业新闻数据风险分类方法
CN108681548A (zh) 一种律师信息处理方法和系统
CN110472011A (zh) 一种诉讼成本预测方法、装置及终端设备
CN115545671A (zh) 一种法律法规结构化处理的方法、系统
CN101203847A (zh) 用于管理列表的系统和方法
CN116843162A (zh) 一种矛盾调解方案推荐与评分系统及方法
CN108614860A (zh) 一种律师信息处理方法和系统
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
Babu et al. Geographical address classification without using geolocation coordinates
CN116956930A (zh) 一种融合规则和学习模型的短文本信息提取方法及系统
CN117390299A (zh) 基于图证据的可解释性虚假新闻检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination