CN117743590A - 一种基于大语言模型的法律辅助方法及系统 - Google Patents

一种基于大语言模型的法律辅助方法及系统 Download PDF

Info

Publication number
CN117743590A
CN117743590A CN202311622396.9A CN202311622396A CN117743590A CN 117743590 A CN117743590 A CN 117743590A CN 202311622396 A CN202311622396 A CN 202311622396A CN 117743590 A CN117743590 A CN 117743590A
Authority
CN
China
Prior art keywords
legal
language model
knowledge graph
large language
law
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311622396.9A
Other languages
English (en)
Other versions
CN117743590B (zh
Inventor
王洛飞
路圣汉
储智睿
高志平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hanbo Technology Co ltd
Original Assignee
Beijing Hanbo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hanbo Technology Co ltd filed Critical Beijing Hanbo Technology Co ltd
Priority to CN202311622396.9A priority Critical patent/CN117743590B/zh
Publication of CN117743590A publication Critical patent/CN117743590A/zh
Application granted granted Critical
Publication of CN117743590B publication Critical patent/CN117743590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及法律技术领域,提供一种基于大语言模型的法律辅助方法及系统,该方法通过基于用户输入问题,构建法律大语言模型提示词,以确保预训练大语言模型更好的理解用户输入问题;根据获取的法律语料,构建法律知识图谱,可以使预训练大语言模型更好地理解法律实体之间的关系和法律概念;根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,利用预训练大语言模型强大的知识获取能力与上下文分析能力,可以快速且准确地得到用户输入问题的专业性答案。

Description

一种基于大语言模型的法律辅助方法及系统
技术领域
本发明涉及法律技术领域,尤其涉及一种基于大语言模型的法律辅助方法及系统。
背景技术
目前,从大量法律文书中难以高效快速地查找信息、挖掘信息间联系,导致文本信息没有得到有效利用。即使已存在法律数据库、检索系统、合同生成系统和在线平台,但是受限于手动操作、依赖用户的查询技能、有限的自动化能力以及对非结构化法律文本的限制,以及高人工成本和效率低下,浪费了宝贵的时间和资源。法律专业人员通常需要投入大量时间来进行繁琐的手动操作,如复杂的查询、文献管理或合同编辑,这个过程十分低效和繁琐,严重影响其工作效率,还可能导致信息的不完整性和错误。
因此对于司法领域如何从海量的法律文书中快速、准确的挖掘文书关系结构信息十分迫切。
发明内容
本发明提供一种基于大语言模型的法律辅助方法及系统,用以解决现有技术中难以从大量法律文书中高效快速地查找信息、挖掘信息间联系的缺陷,本发明根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,利用预训练大语言模型强大的知识获取能力与上下文分析能力,可以快速且准确地得到用户输入问题的专业性答案。
本发明提供一种基于大语言模型的法律辅助方法,包括:基于用户输入问题,构建法律大语言模型提示词;根据获取的法律语料,构建法律知识图谱;根据所述法律大语言模型提示词,基于预训练大语言模型查询所述法律知识图谱,得到所述用户输入问题的答案。
根据本发明提供的一种基于大语言模型的法律辅助方法,所述基于用户输入问题,构建法律大语言模型提示词,包括:基于所述用户输入问题,确定问题背景信息、用户问题、提示信息;根据所述问题背景信息、所述用户问题和所述提示信息,得到符合法律专业术语的法律大语言模型提示词。
根据本发明提供的一种基于大语言模型的法律辅助方法,所述法律语料包括法律法规数据集、法律案件数据集、法律合同数据集和通用语料;所述根据获取的法律语料,构建法律知识图谱,包括:采用自然语言处理技术,对所述法律语料中的实体和关系进行抽取;使用图数据库或三元组数据库存储所述实体和所述关系,得到所述法律知识图谱。
根据本发明提供的一种基于大语言模型的法律辅助方法,还包括:基于预设图谱进化算法迭代所述法律知识图谱;所述预设图谱进化算法为验证、完善、定期更新、维护和隐私保护中的一种或多种的组合的算法。
根据本发明提供的一种基于大语言模型的法律辅助方法,所述根据所述法律大语言模型提示词,基于预训练大语言模型查询所述法律知识图谱,得到所述用户输入问题的答案,包括:将所述法律语料作为微调数据集对所述预训练大语言模型进行微调;将所述法律大语言模型提示词输入所述预训练大语言模型;利用所述知识图谱进行所述用户输入问题的关系推理和查询,得到所述预训练大语言模型输出的所述用户输入问题的答案。
根据本发明提供的一种基于大语言模型的法律辅助方法,所述微调数据集还包括用户对于所述答案的满意度反馈。
根据本发明提供的一种基于大语言模型的法律辅助方法,还包括:基于预设模型进化算法迭代所述预训练大语言模型;所述预设模型进化算法为定期更新、安全性、隐私审查和合规性审查中的一种或多种的组合的算法。
根据本发明提供的一种基于大语言模型的法律辅助方法,所述构建法律知识图谱之前,还包括:对所述法律语料进行标注,得到标注后的法律语料;对所述标注后的法律语料进行清洗和预处理,得到可用法律语料,以根据所述可用法律语构建所述法律知识图谱。
根据本发明提供的一种基于大语言模型的法律辅助方法,所述预训练大语言模型为ChatGLM-6B模型。
本发明还提供一种基于大语言模型的法律辅助系统,包括:提示词模块,用于基于用户输入问题,构建法律大语言模型提示词;知识图谱模块,用于根据获取的法律语料,构建法律知识图谱;查询模块,用于根据所述法律大语言模型提示词,基于预训练大语言模型查询所述法律知识图谱,得到所述用户输入问题的答案。
本发明提供的一种基于大语言模型的法律辅助方法及系统,该方法通过基于用户输入问题,构建法律大语言模型提示词,以确保预训练大语言模型更好的理解用户输入问题;根据获取的法律语料,构建法律知识图谱,可以使预训练大语言模型更好地理解法律实体之间的关系和法律概念;根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,利用预训练大语言模型强大的知识获取能力与上下文分析能力,可以快速且准确地得到用户输入问题的专业性答案。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于大语言模型的法律辅助方法的流程示意图;
图2是本发明提供的一种基于大语言模型的法律辅助方法的原理示意图;
图3是本发明提供的一种基于大语言模型的法律辅助方法的具体流程示意图;
图4是本发明提供的一种基于大语言模型的法律辅助系统的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着科技的迅速发展和信息化程度的提高,法律领域也面临着前所未有的挑战和机遇。司法领域是典型的知识密集型行业,信息爆炸的大数据时代,在司法工作中涌现出了法律法规、指导案例、法律文书等,对于公众、当事人、司法机关具有实质意义的海量司法资料。法律专业人员需要处理庞大的法律文本、案例法、法规和合同,以满足客户的需求、支持法庭诉讼、进行法律研究和提供法律建议。然而,法律信息的数量和复杂性使得法律工作变得繁琐和耗时,同时也容易出现遗漏或错误。当前,法律专业人员需要耗费大量时间来搜索和分析法律文献,生成合同和法律文件,提供法律建议以及解决法律问题。这些任务通常需要深入理解法律文本、识别关键信息、进行法律研究和理解特定领域的法律规则。此外,法律信息的不断更新和变化使得法律专业人员需要不断跟踪最新发展。
现有技术中已存在许多法律数据库和检索系统。这些系统允许用户搜索和访问法律文本、案例法和法规。然而,它们通常需要用户手动输入查询,且搜索结果可能受限于查询的准确性和复杂性。已存在一些法律研究软件,用于管理和引用法律文献,以便研究人员进行学术研究。然而,这些软件主要用于引用管理,而不是自动化法律分析或文件生成。已经有一些合同生成系统,用于自动生成标准合同文本。这些系统通常基于模板,用户可以根据需要进行定制。但这些系统通常缺乏对非结构化法律文本的深入理解和自动化合同生成的能力。已存在一些在线平台允许用户获取法律咨询或法律问题的解答。这些平台通常涵盖一般性法律问题,但在复杂法律问题的处理上存在限制,因为它们通常基于固定的法律规则和模板回答。
因此,现有技术在法律领域的应用通常受限于手动操作、依赖用户的查询技能、有限的自动化能力以及对非结构化法律文本的限制,以及高人工成本和效率低下,浪费了宝贵的时间和资源。法律专业人员通常需要投入大量时间来进行繁琐的手动操作,如复杂的查询、文献管理或合同编辑,这不仅降低了工作效率,还可能导致信息的不完整性和错误。
为了解决现有技术所存在的技术问题,本发明提供了一种基于大语言模型的法律辅助方法及系统,该方法通过基于用户输入问题,构建法律大语言模型提示词,以确保预训练大语言模型更好的理解用户输入问题;根据获取的法律语料,构建法律知识图谱,可以使预训练大语言模型更好地理解法律实体之间的关系和法律概念;根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,利用预训练大语言模型强大的知识获取能力与上下文分析能力,可以快速且准确地得到用户输入问题的专业性答案。
下面结合图1-图5描述本发明的一种基于大语言模型的法律辅助方法及系统。
请参考图1,图1为本发明提供的一种基于大语言模型的法律辅助方法的流程示意图。
请参考图2,图2为本发明提供的一种基于大语言模型的法律辅助方法的原理示意图。
请参考图3,图3为本发明提供的一种基于大语言模型的法律辅助方法的具体流程示意图。
本发明提供一种基于大语言模型的法律辅助方法,包括:
101:基于用户输入问题,构建法律大语言模型提示词;
作为一种优选的实施例,基于用户输入问题,构建法律大语言模型提示词,包括:基于用户输入问题,确定问题背景信息、用户问题、提示信息;根据问题背景信息、用户问题和提示信息,得到符合法律专业术语的法律大语言模型提示词。
具体的,通过构建法律大语言模型提示词(Prompt),选择要在法律文本中标识的关键词汇,通常包括法律术语、法规、案例名称、合同条款等。在法律文本中标注或突出显示所选的提示词,按照标准和规则进行文本标注,可以指导预训练大语言模型在法律领域中更好地回答用户提出的法律问题。
在法律大语言模型提示词中使用法律领域的专业术语,以确保预训练大语言模型理解任务的上下文。这有助于使生成的内容更符合法律领域的专业性。
法律大语言模型提示词提供足够的上下文信息,以帮助预训练大语言模型理解问题的背景。这可以包括相关案例、法规引用、具体情境等。
在法律大语言模型提示词中明确用户的问题或任务描述。问题描述应清晰明了,以便预训练大语言模型理解用户的意图。
法律大语言模型提示词使用格式化或特殊标记来突出关键信息,以指导预训练大语言模型生成相应的答案。例如,您可以使用类似于“请解释...”或“根据法规...”的提示来引导预训练大语言模型的回应。
例如:用户输入问题:张三17岁,盗窃300元该如何判罚,之前不存在盗窃行为,没有违法记录。
法律大语言模型提示词:张三17岁,盗窃3000元该如何判罚,之前不存在盗窃行为,没有违法记录,作为未成年人,其心智和判断能力可能还在发展中,这起案件需要综合考虑教育和庇护的因素,而不仅仅是传统的刑事制裁,张三可能受到同伴影响,建议法庭在判罚时考虑社会和家庭背景。
102:根据获取的法律语料,构建法律知识图谱;
作为一种优选的实施例,构建法律知识图谱之前,还包括:对法律语料进行标注,得到标注后的法律语料;对标注后的法律语料进行清洗和预处理,得到可用法律语料,以根据可用法律语构建法律知识图谱。
具体的,收集法律语料。
然后使用标注系统对法律语料进行标注,包括将文本中的实体、关系等标记出来。对标注后的数据进行清洗和预处理(文本清洗、分词、标注和注释等),确保标注的准确性和一致性。进行标注质量控制,包括验证标注员的工作、解决标注中的争议或错误,并保证标注数据的可用性和质量。
作为一种优选的实施例,法律语料包括法律法规数据集、法律案件数据集、法律合同数据集和通用语料;根据获取的法律语料,构建法律知识图谱,包括:采用自然语言处理技术,对法律语料中的实体和关系进行抽取;使用图数据库或三元组数据库存储实体和关系,得到法律知识图谱。
作为一种优选的实施例,还包括:基于预设图谱进化算法迭代法律知识图谱;预设图谱进化算法为验证、完善、定期更新、维护和隐私保护中的一种或多种的组合的算法。
具体的,通过构建和扩展法律知识图谱,让法律概念和实体以图形形式表示的方法,可以使用法律知识图谱来链接相关法律信息,支持问题回答和关联分析。
使用自然语言处理技术,实体识别和关系抽取,从文本中抽取法律实体(如法规、案例、法院、律师等)以及它们之间的关系(如引用、修改、适用等)。
定义法律知识图谱的结构和模型。使用图数据库或三元组数据库来存储实体和关系。为每个法律实体定义属性和特征,以便更详细地描述它们。
需要说明的是,法律知识图谱着力于以符号形式描述法律领域中的概念及其相互关系,其基本组成单元是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。其试图从数据本身出发,将非结构化的数据转变为结构化的数据,并将各种数据连通在一起形成一个包含海量结构化数据的图模型。这种结构化的图模型数据为法治领域检索与问答系统的发展提供了一种新的发展方向,由于其能够充分利用知识图谱中的结构化数据特点充分挖掘数据之间的联系,为用户提供非常简便、精确的答案,无疑可以为法律领域的信息检索提供行之有效的方式。
对知识图谱进行验证和完善。检查实体和关系的准确性,处理不一致性和错误,确保知识图谱的质量。
随着时间的推移,法律领域的知识会不断更新和演化。定期更新和维护知识图谱,以反映最新的法律变化和发展。
在构建知识图谱时,需要考虑数据的隐私和安全性。特别是在涉及敏感信息的情况下,需要采取适当的安全措施来保护数据。
103:根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,得到用户输入问题的答案。
作为一种优选的实施例,根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,得到用户输入问题的答案,包括:将法律语料作为微调数据集对预训练大语言模型进行微调;将法律大语言模型提示词输入预训练大语言模型;利用知识图谱进行用户输入问题的关系推理和查询,得到预训练大语言模型输出的用户输入问题的答案。
具体的,本发明利用法律知识图谱进行关系推理和查询。这有助于回答复杂的法律问题,分析案例法和法规之间的关系,以及提供智能的法律建议。以法律法规数据集、法律案件数据集、法律合同数据集和通用语料对大语言模型进行训练。在训练期间,大语言模型将学习法律领域的语言和任务相关的模式。调整大语言模型的超参数,包括学习率、批次大小、迭代次数等,以优化大语言模型的性能。使用验证集对大语言模型进行评估,检查大语言模型的性能和泛化能力。根据验证结果进行微调和改进。
例如:大模型语义理解与分析用户输入问题后输出:
(1)盗窃罪的刑罚。
(2)未成年人的刑事责任。
(3)教育和庇护的因素。
综上所述,针对张三的盗窃行为,法庭可能会考虑他的年龄、无前科记录以及社会和家庭背景等因素,从轻处罚,并采取教育和庇护的措施,以促使他改正错误并重新融入社会。请注意,具体的判罚结果还需要根据法庭的判断和具体情况来决定。
大语言模型为开源大语言模型,大语言模型(Large Language Model,LLM)也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言或者说自然语言。大语言模型在大量的文本数据上进行训练,可以执行广泛的任务,包括进行对话、问答、文本分类、文本总结、翻译、情感分析等等。大语言模型的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。大语言模型通常基于深度学习架构,如转化器,这有助于它们执行各种自然语言处理任务。
大规模语言模型也可以为任意开源的ChatGLM-6B、ChatGPT系列、StableVicuna、PaLM、Galactica或者LLaMA系列的模型,根据具体情况确定即可。开源大语言模型中代码开源,数据集开源以及具有授权许可。
作为一种优选的实施例,微调数据集还包括用户对于答案的满意度反馈。
具体的,本发明对用户提供的反馈进行系统分析,识别重复性问题、误解或不足之处。这有助于识别大语言模型改进的方向。主动收集法律领域专业人士和用户的反馈,了解他们对大语言模型性能的看法,包括大语言模型的准确性、可解释性和实用性。根据用户反馈,收集相关数据并进行标注。这些数据可用于改进大语言模型的训练和微调。
此外,智能决策AutoEL与AutoRL相结合,确保智能体持续获得反馈,不断提升决策水平,本发明在此不作特别的限定。
作为一种优选的实施例,还包括:基于预设模型进化算法迭代预训练大语言模型;预设模型进化算法为定期更新、安全性、隐私审查和合规性审查中的一种或多种的组合的算法。
具体的,本发明持续跟踪法规和法律的变化。及时更新大语言模型,以反映最新的法律法规和相关法律事件。与法律专业人士合作,确保模型的法律知识和解释正确和最新。定期进行安全性和隐私审查,确保模型的应用符合数据隐私法规和安全标准,定期进行合规性审查,确保应用程序符合法律伦理原则和相关合规性要求。
作为一种优选的实施例,预训练大语言模型为ChatGLM-6B模型。
具体的,预训练大语言模型可以为ChatGLM-6B模型。ChatGLM-6B是清华大学知识工程和数据挖掘小组(Knowledge Engineering Group(KEG)&Data Mining at TsinghuaUniversity)发布的一个开源的对话机器人。ChatGLM-6B是一个开源的、支持中英双语对话的大语言模型,基于General Language Model(GLM)架构,其是基于Transformer模型进行的改造,采用了自编码和自回归的双向思想,将问题转化为完形填空求解,其参数量级是62亿参数量,本地部署仅需要6GB显存。ChatGLM-6B模型采用了既自编码又自回归的结构,类似完形填空的思想解决问题。自编码指随机的删除连续的tokens,自回归指可以访问预测的token,故该模型可以很好的理解上下文。该模型具有如下特点:充分的中英双语预训练、优化的模型架构和大小、较低的部署门槛、更长的序列长度和人类意图对齐训练。通过1T双语的语料作为训练数据集,优化了中文的问答和对话,目前该模型已经可以生成符合人类偏好的回答。
为了提高模型在特定任务上的性能和适应性,采用了P-tuning-v2的微调方法对ChatGLM-6B模型进行微调,以改变ChatGLM-6B模型的参数。本发明可训练0.1%参数,达到与微调所有参数相当的性能,训练在NVIDIA A100 GPU上执行。超参数设置中,本发明设置为批大小为4,初始学习率设置为0.02,前缀序列长度设置为64,梯度累积步长设置为4,总训练步长设置为3000。微调过程大约需要5小时完成。
本发明具有如下有益效果:
文档检索和信息检索:法律领域涉及大量的法规、案例法、合同和法律文献等文档。本发明可以帮助用户快速检索和获取相关的法律信息,以支持法律研究和案件准备。
合同生成和文件草拟:本发明可以根据用户提供的信息和要求,自动生成法律文件、合同和法律文件的草稿,这提高了合同制作和文件起草的效率。
法规遵守和合规性检查:本发明可以帮助企业和个人检查其活动是否符合适用的法规和法律要求,以减少合规风险。
法律咨询支持:在提供法律咨询的过程中,本发明可以帮助律师快速访问和检索相关法律信息,以支持客户的需求。
法律问题回答:用户可以提出法律问题,本发明会利用大语言模型的知识来回答这些问题。这有助于法律专业人员在短时间内获取法律建议和指导。
下面对本发明提供的基于大语言模型的法律辅助系统进行描述,下文描述的基于大语言模型的法律辅助系统与上文描述的基于大语言模型的法律辅助方法可相互对应参照。
请参考图4,图4为本发明提供的一种基于大语言模型的法律辅助系统的结构示意图。
本发明还提供一种基于大语言模型的法律辅助系统,包括:提示词模块1,用于基于用户输入问题,构建法律大语言模型提示词;知识图谱模块2,用于根据获取的法律语料,构建法律知识图谱;查询模块3,用于根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,得到用户输入问题的答案。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行基于大语言模型的法律辅助方法,该方法包括:基于用户输入问题,构建法律大语言模型提示词;根据获取的法律语料,构建法律知识图谱;根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,得到用户输入问题的答案。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于大语言模型的法律辅助方法,该方法包括:基于用户输入问题,构建法律大语言模型提示词;根据获取的法律语料,构建法律知识图谱;根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,得到用户输入问题的答案。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于大语言模型的法律辅助方法,该方法包括:基于用户输入问题,构建法律大语言模型提示词;根据获取的法律语料,构建法律知识图谱;根据法律大语言模型提示词,基于预训练大语言模型查询法律知识图谱,得到用户输入问题的答案。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于大语言模型的法律辅助方法,其特征在于,包括:
基于用户输入问题,构建法律大语言模型提示词;
根据获取的法律语料,构建法律知识图谱;
根据所述法律大语言模型提示词,基于预训练大语言模型查询所述法律知识图谱,得到所述用户输入问题的答案。
2.根据权利要求1所述的基于大语言模型的法律辅助方法,其特征在于,所述基于用户输入问题,构建法律大语言模型提示词,包括:
基于所述用户输入问题,确定问题背景信息、用户问题、提示信息;
根据所述问题背景信息、所述用户问题和所述提示信息,得到符合法律专业术语的法律大语言模型提示词。
3.根据权利要求1所述的基于大语言模型的法律辅助方法,其特征在于,所述法律语料包括法律法规数据集、法律案件数据集、法律合同数据集和通用语料;
所述根据获取的法律语料,构建法律知识图谱,包括:
采用自然语言处理技术,对所述法律语料中的实体和关系进行抽取;
使用图数据库或三元组数据库存储所述实体和所述关系,得到所述法律知识图谱。
4.根据权利要求1所述的基于大语言模型的法律辅助方法,其特征在于,还包括:
基于预设图谱进化算法迭代所述法律知识图谱;所述预设图谱进化算法为验证、完善、定期更新、维护和隐私保护中的一种或多种的组合的算法。
5.根据权利要求1所述的基于大语言模型的法律辅助方法,其特征在于,所述根据所述法律大语言模型提示词,基于预训练大语言模型查询所述法律知识图谱,得到所述用户输入问题的答案,包括:
将所述法律语料作为微调数据集对所述预训练大语言模型进行微调;
将所述法律大语言模型提示词输入所述预训练大语言模型;
利用所述知识图谱进行所述用户输入问题的关系推理和查询,得到所述预训练大语言模型输出的所述用户输入问题的答案。
6.根据权利要求5所述的基于大语言模型的法律辅助方法,其特征在于,所述微调数据集还包括用户对于所述答案的满意度反馈。
7.根据权利要求1所述的基于大语言模型的法律辅助方法,其特征在于,还包括:
基于预设模型进化算法迭代所述预训练大语言模型;所述预设模型进化算法为定期更新、安全性、隐私审查和合规性审查中的一种或多种的组合的算法。
8.根据权利要求1所述的基于大语言模型的法律辅助方法,其特征在于,所述构建法律知识图谱之前,还包括:
对所述法律语料进行标注,得到标注后的法律语料;
对所述标注后的法律语料进行清洗和预处理,得到可用法律语料,以根据所述可用法律语构建所述法律知识图谱。
9.根据权利要求1至8任一项所述的基于大语言模型的法律辅助方法,其特征在于,所述预训练大语言模型为ChatGLM-6B模型。
10.一种基于大语言模型的法律辅助系统,其特征在于,包括:
提示词模块,用于基于用户输入问题,构建法律大语言模型提示词;
知识图谱模块,用于根据获取的法律语料,构建法律知识图谱;
查询模块,用于根据所述法律大语言模型提示词,基于预训练大语言模型查询所述法律知识图谱,得到所述用户输入问题的答案。
CN202311622396.9A 2023-11-30 2023-11-30 一种基于大语言模型的法律辅助方法及系统 Active CN117743590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311622396.9A CN117743590B (zh) 2023-11-30 2023-11-30 一种基于大语言模型的法律辅助方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311622396.9A CN117743590B (zh) 2023-11-30 2023-11-30 一种基于大语言模型的法律辅助方法及系统

Publications (2)

Publication Number Publication Date
CN117743590A true CN117743590A (zh) 2024-03-22
CN117743590B CN117743590B (zh) 2024-07-26

Family

ID=90260053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311622396.9A Active CN117743590B (zh) 2023-11-30 2023-11-30 一种基于大语言模型的法律辅助方法及系统

Country Status (1)

Country Link
CN (1) CN117743590B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118170892A (zh) * 2024-05-13 2024-06-11 山东第一医科大学附属省立医院(山东省立医院) 体检报告影像学检查辅助解读方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928986A (zh) * 2019-10-18 2020-03-27 平安科技(深圳)有限公司 法律证据的排序和推荐方法、装置、设备及存储介质
CN111291161A (zh) * 2020-02-20 2020-06-16 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
WO2021212683A1 (zh) * 2020-04-24 2021-10-28 平安国际智慧城市科技股份有限公司 基于法律知识图谱的查询方法、装置、电子设备及介质
CN116303980A (zh) * 2023-05-19 2023-06-23 无码科技(杭州)有限公司 一种大语言模型知识增强方法、系统、电子设备及介质
CN116795962A (zh) * 2023-05-15 2023-09-22 杭州海康威视数字技术股份有限公司 法律咨询的自动应答方法、装置、存储介质和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928986A (zh) * 2019-10-18 2020-03-27 平安科技(深圳)有限公司 法律证据的排序和推荐方法、装置、设备及存储介质
CN111291161A (zh) * 2020-02-20 2020-06-16 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
WO2021212683A1 (zh) * 2020-04-24 2021-10-28 平安国际智慧城市科技股份有限公司 基于法律知识图谱的查询方法、装置、电子设备及介质
CN116795962A (zh) * 2023-05-15 2023-09-22 杭州海康威视数字技术股份有限公司 法律咨询的自动应答方法、装置、存储介质和电子设备
CN116303980A (zh) * 2023-05-19 2023-06-23 无码科技(杭州)有限公司 一种大语言模型知识增强方法、系统、电子设备及介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DIVYANSHI YADAV ET AL.: ""Unleashing the Power of Large Language Model, Textual Embeddings, and Knowledge Graphs for Advanced Information Retrieval"", 《2023 INTERNATIONAL CONFERENCE ON ELECTRICAL, COMPUTER AND ENERGY TECHNOLOGIES》, 17 November 2023 (2023-11-17) *
JINQI LAI ET AL.: ""Large Language Models in Law: A Survey"", 《PREPRINT SUBMITTED TO ELSEVIER》, 26 November 2023 (2023-11-26), pages 1 - 19 *
MINZE CHEN ET AL.: ""Enhancing Emergency Decision-making with Knowledge Graphs and Large Language Models"", 《PREPRINT SUBMITTED TO ELSEVIER》, 15 November 2023 (2023-11-15), pages 1 - 26 *
NAN HU ET AL.: ""An empirical study of pre-trained language models in simple knowledge graph question answering"", 《WORLD WIDE WEB》, vol. 26, 17 May 2023 (2023-05-17), pages 2855 - 2886 *
张鹤译等: ""大语言模型融合知识图谱的问答系统研究"", 《计算机科学与探索》, vol. 17, no. 10, 20 September 2023 (2023-09-20), pages 2380 *
杨波等: ""面向医疗问答系统的大语言模型命名实体识别方法"", 《计算机科学与探索》, vol. 17, no. 10, 13 October 2023 (2023-10-13), pages 2 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118170892A (zh) * 2024-05-13 2024-06-11 山东第一医科大学附属省立医院(山东省立医院) 体检报告影像学检查辅助解读方法及装置
CN118170892B (zh) * 2024-05-13 2024-08-09 山东第一医科大学附属省立医院(山东省立医院) 体检报告影像学检查辅助解读方法及装置

Also Published As

Publication number Publication date
CN117743590B (zh) 2024-07-26

Similar Documents

Publication Publication Date Title
Kumar et al. Text mining: concepts, process and applications
CN117743590B (zh) 一种基于大语言模型的法律辅助方法及系统
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN117743315B (zh) 一种为多模态大模型系统提供高质量数据的方法
Rafail et al. Natural language processing
CN115757819A (zh) 裁判文书中引用法条信息获取方法及装置
He et al. Sentiment classification technology based on Markov logic networks
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN117149988A (zh) 基于教育数字化的数据管理处理方法及系统
CN117271558A (zh) 语言查询模型构建方法、查询语言获取方法及相关装置
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
Gammack et al. Semantic knowledge management system for design documentation with heterogeneous data using machine learning
CN111881695A (zh) 一种审计知识的检索方法及装置
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
Martın-Chozas et al. Thesaurus enhanced extraction of Hohfeld’s relations from Spanish Labour law
CN111949781A (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN111753540A (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
Chaudhari et al. Comprehensive Survey of Abstractive Text Summarization Techniques
Bergner et al. Supporting business process improvement with natural language processing: A model-based approach
Saquete et al. Combining automatic acquisition of knowledge with machine learning approaches for multilingual temporal recognition and normalization
Meisenbacher et al. Creating Data from Unstructured Text with Context Rule Assisted Machine Learning (CRAML)
Xu et al. Research on intelligent campus and visual teaching system based on Internet of things
Ojokoh et al. A graph model with integrated pattern and query-based technique for extracting answer to questions in community question answering system
CN117993876B (zh) 一种简历评估系统、方法、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant