CN117725235A - 一种基于人工智能算法的法律知识增强检索系统及方法 - Google Patents

一种基于人工智能算法的法律知识增强检索系统及方法 Download PDF

Info

Publication number
CN117725235A
CN117725235A CN202311799732.7A CN202311799732A CN117725235A CN 117725235 A CN117725235 A CN 117725235A CN 202311799732 A CN202311799732 A CN 202311799732A CN 117725235 A CN117725235 A CN 117725235A
Authority
CN
China
Prior art keywords
data
target
triplet
key information
triplet data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311799732.7A
Other languages
English (en)
Other versions
CN117725235B (zh
Inventor
孙莉莉
叶文鹏
胡智慧
李微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Baizhi Forever Technology Co ltd
Original Assignee
Wuhan Baizhi Forever Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Baizhi Forever Technology Co ltd filed Critical Wuhan Baizhi Forever Technology Co ltd
Priority to CN202311799732.7A priority Critical patent/CN117725235B/zh
Publication of CN117725235A publication Critical patent/CN117725235A/zh
Application granted granted Critical
Publication of CN117725235B publication Critical patent/CN117725235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于人工智能算法的法律知识增强检索系统及方法,其中方法先获取用户输入的主观多模态数据和客观多模态数据,然后分别分析得到第一关键信息和第二关键信息,之后通过第二关键信息验证第一关键信息,得到事件信息集,并基于预设法律知识图谱进行检索,得到检索结果。相比于现有技术,本发明利用客观多模态数据得到的第二关键信息去验证利用主观多模态数据得到的第一关键信息,以消除用户主观错误带来的错误影响,从而得到最准确的事件信息集,这样便可以利用预设法律知识图谱进行准确的检索,解决了现有技术中过于依赖用户的输入而无法保证准确性的问题,具备很好的实用性。

Description

一种基于人工智能算法的法律知识增强检索系统及方法
技术领域
本发明涉及法律智能检索技术领域,尤其涉及一种基于人工智能算法的法律知识增强检索系统及方法。
背景技术
随着技术的发展,法律知识的智能化应用需求也越来越多。例如,在日常生活中,人们需要了解特定的法律规定、权利和义务,以有效地处理各种法律问题。此外,企业和组织也需要借助智能化的法律系统来处理合规性问题、法律风险评估等。
法律知识的检索是其中一种应用,它可以根据用户输入的描述内容进行分析,并给出相应的法律建议。例如,用户可以通过输入问题的关键词、描述案情或提供相关资料来获取所需的法律知识。通过自然语言处理和机器学习技术的应用,智能法律系统能够理解用户的意图并提供准确的法律分析和建议。这种智能化的应用使得法律知识的获取更加方便和高效。
然而,当用户本身的表达能力有限,或者输入错误的信息时,现有的法律知识检索方法就不会检索出准确的内容,为客户带来困扰。
发明内容
因此,本发明提供一种基于人工智能算法的法律知识增强检索系统及方法,用以解决现有技术中法律知识检索过于依赖用户的输入而无法保证准确性的问题。
本发明提供了一种基于人工智能算法的法律知识增强检索系统,包括:
用户输入模块,用于获取用户输入的主观多模态数据和客观多模态数据;
信息提取模块,用于根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息;
信息验证模块,用于通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集;
增强检索模块,用于根据事件信息集,基于预设法律知识图谱进行检索,得到检索结果。
本发明还提供一种基于人工智能算法的法律知识增强检索方法,包括:
获取用户输入的主观多模态数据和客观多模态数据;
根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息;
通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集;
根据事件信息集,基于预设法律知识图谱进行检索,得到检索结果。
优选的,主观多模态数据包括主观文本数据和主观语音数据,客观多模态数据包括客观语音数据、客观图片数据和客观视频数据;所述根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息,包括:
将主观语音数据转换为第一文本数据,分析文本数据第一文本数据和主观文本数据,得到第一关键信息;
分析客观语音数据、客观图片数据和客观视频数据,得到第二关键信息;
其中,第一关键信息包括多个第一三元组数据,第二关键信息包括多个第二三元组数据,第一三元组数据和第二三元组数据均为主体-关系-客体的三元组结构,主体和客体均为实体,每个实体对应有一个属性集。
优选的,所述通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集,包括:
获取目标第一三元组数据和目标第二三元组数据,其中目标第一三元组数据为当前待分析的一个第一三元组数据,目标第二三元组数据为当前待分析的一个第二三元组数据;
比较目标第一三元组数据和目标第二三元组数据中实体的相似性,得到实体相似度值;
比较实体相似度值和第一预设阈值,若实体相似度值低于第一预设阈值,则将目标第一三元组数据和目标第二三元组数据均作为事件信息集中的数据;若实体相似度值高于第一预设阈值,则比较目标第一三元组数据和目标第二三元组数据中关系的相似性,得到关系相似度值;
比较关系相似度值和第二预设阈值,若关系相似度值低于第二预设阈值,则将目标第一三元组数据和目标第二三元组数据均作为事件信息集中的数据;若关系相似度值高于第二预设阈值,则比较目标第一三元组数据和目标第二三元组数据整体的相似性,得到整体相似度值;
比较整体相似度值和第三预设阈值,若关系相似度值低于第三预设阈值,则将目标第二三元组数据作为事件信息集中的数据。
优选的,所述比较目标第一三元组数据和目标第二三元组数据中实体的相似性,得到实体相似度值,包括:
通过下式得到实体相似度值:
其中,Sentity表示目标第一三元组数据和目标第二三元组数据的实体相似度值,VA1为表征目标第一三元组数据的主体A1的属性特征向量,VA2为表征目标第二三元组数据的主体A2的属性特征向量,VB1为表征目标第一三元组数据的客体B1的属性特征向量,VB2为表征目标第二三元组数据的客体B2的属性特征向量,C1和C2分别为不同的缩放系数。
优选的,属性特征向量为由1和0组成的一维特征向量,属性特征向量中每个元素位置分别代表实体的一个属性,属性特征向量中的元素1表示该属性特征向量对应的实体具备该元素1所在的元素位置对应的属性,属性特征向量中的元素0表示该属性特征向量对应的实体不具备该元素0所在的元素位置对应的属性。
优选的,所述比较目标第一三元组数据和目标第二三元组数据中关系的相似性,得到关系相似度值,包括:
比较目标第一三元组数据和目标第二三元组数据中用于描述关系的字符串,若完全相同,则直接得到关系相似度值,此时关系相似度值为其能取的最大值;
若不相同,则基于预设自然语言处理模型再次比较目标第一三元组数据和目标第二三元组数据中用于描述关系的字符串,得到语义相似度值,作为关系相似度值。
优选的,所述比较目标第一三元组数据和目标第二三元组数据整体的相似性,得到整体相似度值,包括:
通过下式得到整体相似度值:
Soverall=K1×Sattrbute(A1,A2)+K2×Sattribute(B1,B2)
其中,Soverall表示目标第一三元组数据和目标第二三元组数据的整体相似度值,Sattribute(A1,A2)表示目标第一三元组数据的主体A1和目标第二三元组数据的主体A2的属性相似度,Sattribut(B1,B2)表示目标第一三元组数据的客体B1和目标第二三元组数据的客体B2的属性相似度,K1和K2分别为不同的调整系数,Si(A1,A2)表示目标第一三元组数据的主体A1和目标第二三元组数据的主体A2之间第i个共有的属性的相似度,目标第一三元组数据的主体A1和目标第二三元组数据的主体A2之间共有n个共有的属性,ωi为Si(A1,A2)对应的权重,Sj(B1,B2)表示目标第一三元组数据的客体B1和目标第二三元组数据的客体B2之间第j个共有的属性的相似度,目标第一三元组数据的客体B1和目标第二三元组数据的客体B2之间共有m个共有的属性,ωj为Sj(B1,B2)对应的权重。
本发明的有益效果是:
本发明提供一种基于人工智能算法的法律知识增强检索系统及方法,所述方法先获取用户输入的主观多模态数据和客观多模态数据,然后根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息,之后通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集,最后根据事件信息集,基于预设法律知识图谱进行检索,得到检索结果。相比于现有技术,本发明在获取用户输入的步骤中,便将获取的数据分为用于主观描述的主观多模态数据和反映客观存在的客观多模态数据,然后利用客观多模态数据得到的第二关键信息去验证利用主观多模态数据得到的第一关键信息,以消除用户主观错误带来的错误影响,从而得到最准确的事件信息集,这样便可以利用预设法律知识图谱进行准确的检索,解决了现有技术中过于依赖用户的输入而无法保证准确性的问题,具备很好的实用性。
附图说明
图1为本发明提供的基于人工智能算法的法律知识增强检索系统一实施例的系统架构图;
图2为本发明提供的基于人工智能算法的法律知识增强检索方法一实施例的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1所示,本发明的一个具体实施例,公开了一种基于人工智能算法的法律知识增强检索系统,包括:
用户输入模块110,用于获取用户输入的主观多模态数据和客观多模态数据;
信息提取模块120,用于根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息;
信息验证模块130,用于通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集;
增强检索模块140,用于根据事件信息集,基于预设法律知识图谱进行检索,得到检索结果。
需要说明的是,上述内容中,主观多模态数据是指用户主观输入的多种类型的数据,例如用于输入的描述案情的文本数据或语音数据,其具有较强的用户主观的色彩。客观多模态数据是指用户输入的客观存在的多种类型的数据,例如照片、视频等多媒体数据,也例如合同扫描图、消费记录等实际存在的数据。
此外,上述内容中的法律知识图谱是一种利用图谱(Graph)技术构建的法律领域的知识表示模型。图谱由一系列实体(Entity)和它们之间的关系(Relationship)构成,用于描述法律领域的实体(如法律法规、法院判决、法律条款、案例等)以及它们之间的关系(如适用、修改、引用等)。通过建立法律知识图谱,可以帮助人们更方便地理解和获取法律信息,提供基于知识图谱的检索、推理、问答等功能,支持法律领域的研究和应用。法律知识图谱的构建涉及多个技术领域,包括自然语言处理、知识表示、图数据库等。
上述第一关键信息、第二关键信息和事件信息集中,均包括了用于知识表示的数据,这些用于知识表示的数据同样也存在于法律知识图谱中,通过这些用于知识表示的数据,便可以通过法律知识图谱进行类案检索等操作。根据具体应用场景的不同,通过对法律知识图谱得到的检索结果进行进一步加工,便可以得到用户期待的结果,例如具体的法律条款展示、金额预估、问题应对策略等内容。可以理解的是,上述概念均为本领域技术人员能够理解的现有技术,因此本文不再做过多说明。
相比于现有技术,本发明在获取用户输入的步骤中,便将获取的数据分为用于主观描述的主观多模态数据和反映客观存在的客观多模态数据,然后利用客观多模态数据得到的第二关键信息去验证利用主观多模态数据得到的第一关键信息,以消除用户主观错误带来的错误影响,从而得到最准确的事件信息集,这样便可以利用预设法律知识图谱进行准确的检索,解决了现有技术中过于依赖用户的输入而无法保证准确性的问题,具备很好的实用性。
结合图2所示,为了更好地说明上述基于人工智能算法的法律知识增强检索系统,本发明还提供一种基于人工智能算法的法律知识增强检索方法的实施例,包括:
S201、获取用户输入的主观多模态数据和客观多模态数据;
S202、根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息;
S203、通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集;
S204、根据事件信息集,基于预设法律知识图谱进行检索,得到检索结果。
上述方法以及执行上述方法的系统,可以用于多种场景下,例如律师可以通过该方法进行案件辅助分析,普通民众可以通过该方法完成期待的法律咨询或法律知识获取。
上述步骤S201中,从用户处获取的数据无论是主观还是客观,均为多模态数据,使得本实施例中允许用户通过各种形式输入数据,以方便不同条件的用户,同时多模态数据也使得数据之间可以通过多种不同的形式进行相互验证,以保证准确性。例如,对于一些年纪较大的用户,这些用户本输入技能不够熟练,其输入的文本数据会存在较多的错误,因此需要通过获取这些用户的语音输入,以确保准确性。再例如,可以通过用户输入的合同中的内容(即客观多模态数据的一种)和其语音输入的数据(即主观多模态数据中的一种)进行对比,以验证主观多模态数据的准确性,保证检索结果的准确性。比如当本方法应用于交通管理系统中时,便可以通过获取行车录像的方式来验证事故双方说辞的准确性,辅助交警执法。
具体地,在一个优选的实施例中,主观多模态数据包括主观文本数据和主观语音数据,客观多模态数据包括客观语音数据、客观图片数据和客观视频数据;上述步骤S202、根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息,具体包括:
将主观语音数据转换为第一文本数据,分析第一文本数据和主观文本数据,得到第一关键信息;
分析客观语音数据、客观图片数据和客观视频数据,得到第二关键信息;
其中,第一关键信息包括多个第一三元组数据,第二关键信息包括多个第二三元组数据,第一三元组数据和第二三元组数据均为主体-关系-客体的三元组结构,主体和客体均为实体,每个实体对应有一个属性集。
上述过程中得到第一关键信息和第二关键信息,可以采用如图像识别、自然语言处理、语音识别等任意现有的人工智能模型实现,其均为现有技术,因此本文中不做过多说明。此外,上述过程中将语音数据也转换为文本数据,然后结合主观文本数据一同处理,以降低模型的复杂度,提高处理效率。
三元组是一种应用于知识图谱的高效的知识表示方式,因此本实施例中第一关键信息和第二关键信息均采用三元组的方式表示。本实施例中的三元组采用实体-关系-实体的通用结构,其中实体(Entity)代表具体的事物或概念,可以是人、物、地点、组织等。在法律知识图谱中的实体可以包括法律法规、法院判决、法律条款、案例等。关系(Relationship)描述实体之间的联系或关联,如违法行为描述、关系表示、比较结果表示等。在法律知识图谱中,关系还表示实体之间的法律关系,可能包括适用、修改、引用、产生等。在本实施例的三元组结构中,关系之前的实体为主体,关系之后的实体为客体。下面是一些符合本实施例中的三元组的例子:
“张三-偷窃-李四”;
“赃物-位于-某地点”;
“张三-符合-偷窃罪”;
“张三-同伙-王二”;
其中,张三和李四均拥有姓名、年龄、性别等属性。
通过这些三元组便可以描述知识图谱中的某些知识,同时,本实施例中,用于描述一个事件的全部三元组数据的集合,便可以作为该事件对应的事件信息集。
进一步的,在一个优选的实施例中,上述步骤S203,通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集,具体包括:
获取目标第一三元组数据和目标第二三元组数据,其中目标第一三元组数据为当前待分析的一个第一三元组数据,目标第二三元组数据为当前待分析的一个第二三元组数据;
比较目标第一三元组数据和目标第二三元组数据中实体的相似性,得到实体相似度值;
比较实体相似度值和第一预设阈值,若实体相似度值低于第一预设阈值,则将目标第一三元组数据和目标第二三元组数据均作为事件信息集中的数据;若实体相似度值高于第一预设阈值,则比较目标第一三元组数据和目标第二三元组数据中关系的相似性,得到关系相似度值;
比较关系相似度值和第二预设阈值,若关系相似度值低于第二预设阈值,则将目标第一三元组数据和目标第二三元组数据均作为事件信息集中的数据;若关系相似度值高于第二预设阈值,则比较目标第一三元组数据和目标第二三元组数据整体的相似性,得到整体相似度值;
比较整体相似度值和第三预设阈值,若关系相似度值低于第三预设阈值,则将目标第二三元组数据作为事件信息集中的数据。
上述过程即通过第二关键信息验证第一关键信息的过程,其先通过实体相似度值来衡量两个三元组数据中的实体的相似度,若实体不相似(即得到的实体相似度值低于第一预设阈值),那么则可以认为两个三元组表达的内容为不同的意义,例如“张三-偷窃-李四”和“赃物-价值-五万”,此时二者均可以保留为事件信息集中的数据。
若实体相似,那么此时可以进一步通过衡量关系相似度值的方式来比较两个三元组数据中的关系的相似度,同样地,若关系差异较大(即两个三元组中的关系的相似度值低于第二预设阈值),那么则同样可以认为两个三元组表达的内容为不同的意义,例如“张三-偷窃-李四”和“张三-不认识-李四”,此时二者也均可以保留为事件信息集中的数据。
最后,若两个三元组中,实体和关系相似度均较高,那么则可以进一步判断两个三元组整体的相似度,从而排除错误的三元体。例如,通过主观多模态数据中的语音数据,得到“小张-追尾-小王”这个第一三元组数据,而通过客观多模态中的视频数据,得到了“小王-追尾-小张”这个第二三元组数据,二者的实体相似度和关系相似度均很高,但是整体相似度较差(整体相似度值低于第三预设值),那么此时说明用户输入的主观多模态数据和客观多模态数据不符,此时则应该以客观多模态数据为基准,排除主观多模态数据造成的错误,仅将目标第二三元组数据作为事件信息集中的数据。
进一步的,在一个优选的实施例中,所述比较目标第一三元组数据和目标第二三元组数据中实体的相似性,得到实体相似度值,包括:
通过下式得到实体相似度值:
其中,Sentity表示目标第一三元组数据和目标第二三元组数据的实体相似度值,VA1为表征目标第一三元组数据的主体A1的属性特征向量,VA2为表征目标第二三元组数据的主体A2的属性特征向量,VB1为表征目标第一三元组数据的客体B1的属性特征向量,VB2为表征目标第二三元组数据的客体B2的属性特征向量,C1和C2分别为不同的缩放系数。
上述过程通过属性特征向量的方式,将实体的属性通过向量的形式表现出来,再利用余弦相似度的方式,表示两个三元组数据中,两个主体之间、两个客体之间的相似度,最终的将实体的相似程度用实体相似度值量化出来。
进一步的,在一个优选的实施例中,属性特征向量为由1和0组成的一维特征向量,属性特征向量中每个元素位置分别代表实体的一个属性,属性特征向量中的元素1表示该属性特征向量对应的实体具备该元素1所在的元素位置对应的属性,属性特征向量中的元素0表示该属性特征向量对应的实体不具备该元素0所在的元素位置对应的属性。
例如,假设属性特征向量中有五个元素,分别代表姓名、年龄、性别、车牌号和车身颜色。对于人员这种类型的实体,如张三、李四,大多具备前三个元素对应的属性,那么人员这种实体对应的属性特征向量大多为:
[1,1,1,0,0];
对于车辆这种类型的实体,其大多不会具备前三个元素对应的属性,那么车辆这种实体对应的属性特征向量大多为:
[0,0,0,1,1];
可以理解的是,实际中可能受用户输入的数据完整度的影响,某些类型的实体可能缺少几种属性(例如人员可能缺少性别这一属性),但是在实际中,属性种类较多(向量较长)的情况下,从属性特征向量来看,相同的种类实体的属性特征向量,仍具备一定的相似度。显然,基于上述编码方式,不同类型的实体的属性向量差距明显。且该编码方式无须具体比较属性的具体值,仅需统计属性存在与否即可,能很好的完成初步的实体的相似度判断,且无需复杂的模型运算,提高了计算速率。
在一些实施例中,也可采用多维向量来表征实体之间的相似度。具体来说,可利用word2vec模型来确定实体之间的相似度。word2vec是google推出的一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。其中,word2vec提出了CBOW和Skip-gram两种模型,CBOW适合于数据集较小的情况,而Skip-Gram在大型语料中表现更好。实际使用时,可根据具体使用场景和预计效果来选择相应的模型结构。
进一步的,在一个优选的实施例中,上述步骤:比较目标第一三元组数据和目标第二三元组数据中关系的相似性,得到关系相似度值,具体包括:
比较目标第一三元组数据和目标第二三元组数据中用于描述关系的字符串,若完全相同,则直接得到关系相似度值,此时关系相似度值为其能取的最大值;
若不相同,则基于预设自然语言处理模型再次比较目标第一三元组数据和目标第二三元组数据中用于描述关系的字符串,得到语义相似度值,作为关系相似度值。
因关系通常使用字符串直接描述,因此上述过程中,先直接比较两个关系的字符串是否相同,若相同,则代表两个三元组数据中的关系为相同的意义。那么此时则无须调用复杂的模型进行计算,直接为关系相似度值赋予最大值即可。若字符串不相同,那么此时则需要调用预设自然语言处理模型去分析两个关系的字符串的语义是否相近,进而得到关系相似度值。可以理解的是,因通过预设自然语言处理模型分析语义相似度为本领域技术人员能够获取并理解的现有技术,所以此处本文不做过多说明。
进一步的,在一个优选的实施例中,所述比较目标第一三元组数据和目标第二三元组数据整体的相似性,得到整体相似度值,包括:
通过下式得到整体相似度值:
Soverall=K1×Sattribute(A1,A2)+K2×Sattribute(B1,B2)
其中,Soverall表示目标第一三元组数据和目标第二三元组数据的整体相似度值,Sattribute(A1,A2)表示目标第一三元组数据的主体A1和目标第二三元组数据的主体A2的属性相似度,Sattribute(B1,B2)表示目标第一三元组数据的客体B1和目标第二三元组数据的客体B2的属性相似度,K1和K2分别为不同的调整系数,Si(A1,A2)表示目标第一三元组数据的主体A1和目标第二三元组数据的主体A2之间第i个共有的属性的相似度,目标第一三元组数据的主体A1和目标第二三元组数据的主体A2之间共有n个共有的属性,ωi为Si(A1,A2)对应的权重,Sj(B1,B2)表示目标第一三元组数据的客体B1和目标第二三元组数据的客体B2之间第j个共有的属性的相似度,目标第一三元组数据的客体B1和目标第二三元组数据的客体B2之间共有m个共有的属性,ωj为Sj(B1,B2)对应的权重。
与之前的实体相似度值不同,上述求整体相似度值的过程实质上为主体之间具体属性值的比较以及客体之间具体属性值的比较,用于判断两个三元组数据中,两个主体和两个客体是否相同,从而对目标第一三元组数据进行最终的验证。因在之前已经计算过实体相似度值,已经能够确认目标第一三元组数据和目标第二三元组数据中的两个主体和两个客体均属于同一类实体,那么本实施例便通过属性相似度进一步判断两个主体和两个客体是否代表同一个实体,从而排查第一三元组数据的错误,最终构建准确无误的事件信息集。
本实施例中,计算属性相似度是通过分别计算每个属性的相似度,然后加权求和得到,其中具体的属性相似度计算方法可以根据属性的类型和特性选择。例如:
对于离散型属性(如性别),可以使用精确匹配,若相同则相似度为1,否则为0。
对于连续型属性(如身高体重),可以使用归一化后的欧氏距离或者差值的比例作为相似度,距离越小或比例越接近1,相似度越高。
对于文本型属性(如姓名),可以使用文本相似度算法,例如编辑距离、余弦相似度等来计算相似度。
权重可以根据属性的重要性进行设定,根据具体问题的需求来给予不同属性不同的权重值。
以上方法能够根据实体属性的重要性灵活调整权重,更好地体现属性的贡献度。可以适用于不同类型的属性,对离散型、连续型、文本型的属性进行统一的相似度计算。支持对不同属性进行自定义的相似度计算方法,根据属性的特点进行灵活选择。并且值得注意的是,本实施例中仅在最后需要判断整体相似度值的情况下,才会调用上述多种计算相似度的具体方法,其频率不会太高,保证了本方法整体上的运行效率。
在一些实施例中,根据事件信息集进行检索并得到检索结果的方式可以是RAG(Retrieval-Augmented Generation)。RAG本质上将信息检索机制与文本生成模型相结合。信息检索组件有助于从数据库中拉取相关的上下文信息,并且文本生成模型使用这个添加的上下文来产生更准确和“知识丰富”的响应。以下是它的工作方式:
第一步,建立向量数据库,根据嵌入的内部数据集中创建向量,将这些数据存储在向量数据库中;
第二步,获取用户的查询语义,该查询语义是一个需要回答或完成的自然语言问题或者陈述;
第三步,在接收到用户查询后,检索组件扫描向量数据库以识别与查询语义相似的信息块,利用这些相似的信息块片段为LLM(Large Language Model,大语言模型)提供补充的上下文,使其能够生成综合了上下文语义的更准确的响应;
第四步,串联查询:将检索到的文档与原始查询串联成一个提供生成响应所需的补充上下文的提示;
第五步,输出:将包含串联查询和检索文档的提示馈送到LLM模型中,得到最终输出结果。
进一步的,基于预设法律知识图谱进行检索,得到检索结果的具体实现方法可以是Graph RAG(Graph Retrieval-Augmented Generation,基于知识图谱的检索增强技术),通过构建图模型的知识表达,将实体和关系之间的联系用图的形式进行展示,然后利用大语言模型LLM(Large Language Model)进行检索增强。Graph RAG将知识图谱等价于一个超大规模的词汇表,而实体和关系则对应于单词。通过这种方式,Graph RAG在检索时能够将实体和关系作为单元进行联合建模,从而更准确地理解查询意图,并提供更精准的检索结果。
为了进一步说明本申请方法的优势,下面与现有法律知识检索方法进行对比。现有的法律知识检索一般是基于神经网络模型对用户输入的语句进行全文匹配,而本申请独创性地在获取用户输入数据后主动消除用户主观错误带来的影响,得到更为准确的输入信息,从而使返回的检索结果更加精准。此外,现有的检索方式通常是针对文本数据的匹配和链接,这种方式搜索量大、效率低,本申请通过引入知识图谱,让检索分析和处理是基于实体的、对象的数据,通过数据之间的关联性将知识点串成一个网,进一步提高了检索的准确性和检索效率。
本发明提供一种基于人工智能算法的法律知识增强检索系统及方法,其中方法先获取用户输入的主观多模态数据和客观多模态数据,然后根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息,之后通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集,最后根据事件信息集,基于预设法律知识图谱进行检索,得到检索结果。
相比于现有技术,本发明在获取用户输入的步骤中,便将获取的数据分为用于主观描述的主观多模态数据和反映客观存在的客观多模态数据,然后利用客观多模态数据得到的第二关键信息去验证利用主观多模态数据得到的第一关键信息,以消除用户主观错误带来的错误影响,从而得到最准确的事件信息集,这样便可以利用预设法律知识图谱进行准确的检索,解决了现有技术中过于依赖用户的输入而无法保证准确性的问题,具备很好的实用性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于人工智能算法的法律知识增强检索系统,其特征在于,包括:
用户输入模块,用于获取用户输入的主观多模态数据和客观多模态数据;
信息提取模块,用于根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息;
信息验证模块,用于通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集;
增强检索模块,用于根据事件信息集,基于预设法律知识图谱进行检索,得到检索结果。
2.一种基于人工智能算法的法律知识增强检索方法,其特征在于,包括:
获取用户输入的主观多模态数据和客观多模态数据;
根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息;
通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集;
根据事件信息集,基于预设法律知识图谱进行检索,得到检索结果。
3.根据权利要求2所述的基于人工智能算法的法律知识增强检索方法,其特征在于,主观多模态数据包括主观文本数据和主观语音数据,客观多模态数据包括客观语音数据、客观图片数据和客观视频数据;所述根据主观多模态数据得到第一关键信息,根据客观多模态数据得到第二关键信息,包括:
将主观语音数据转换为第一文本数据,分析第一文本数据和主观文本数据,得到第一关键信息;
分析客观语音数据、客观图片数据和客观视频数据,得到第二关键信息;
其中,第一关键信息包括多个第一三元组数据,第二关键信息包括多个第二三元组数据,第一三元组数据和第二三元组数据均为主体-关系-客体的三元组结构,主体和客体均为实体,每个实体对应有一个属性集。
4.根据权利要求2所述的基于人工智能算法的法律知识增强检索方法,其特征在于,所述通过第二关键信息验证第一关键信息,并结合验证后的第一关键信息和第二关键信息,得到事件信息集,包括:
获取目标第一三元组数据和目标第二三元组数据,其中目标第一三元组数据为当前待分析的一个第一三元组数据,目标第二三元组数据为当前待分析的一个第二三元组数据;
比较目标第一三元组数据和目标第二三元组数据中实体的相似性,得到实体相似度值;
比较实体相似度值和第一预设阈值,若实体相似度值低于第一预设阈值,则将目标第一三元组数据和目标第二三元组数据均作为事件信息集中的数据;若实体相似度值高于第一预设阈值,则比较目标第一三元组数据和目标第二三元组数据中关系的相似性,得到关系相似度值;
比较关系相似度值和第二预设阈值,若关系相似度值低于第二预设阈值,则将目标第一三元组数据和目标第二三元组数据均作为事件信息集中的数据;若关系相似度值高于第二预设阈值,则比较目标第一三元组数据和目标第二三元组数据整体的相似性,得到整体相似度值;
比较整体相似度值和第三预设阈值,若关系相似度值低于第三预设阈值,则将目标第二三元组数据作为事件信息集中的数据。
5.根据权利要求4所述的基于人工智能算法的法律知识增强检索方法,其特征在于,所述比较目标第一三元组数据和目标第二三元组数据中实体的相似性,得到实体相似度值,包括:
通过下式得到实体相似度值:
其中,Sentity表示目标第一三元组数据和目标第二三元组数据的实体相似度值,VA1为表征目标第一三元组数据的主体A1的属性特征向量,VA2为表征目标第二三元组数据的主体A2的属性特征向量,VB1为表征目标第一三元组数据的客体B1的属性特征向量,VB2为表征目标第二三元组数据的客体B2的属性特征向量,C1和C2分别为不同的缩放系数。
6.根据权利要求5所述的基于人工智能算法的法律知识增强检索方法,其特征在于,属性特征向量为由1和0组成的一维特征向量,属性特征向量中每个元素位置分别代表实体的一个属性,属性特征向量中的元素1表示该属性特征向量对应的实体具备该元素1所在的元素位置对应的属性,属性特征向量中的元素0表示该属性特征向量对应的实体不具备该元素0所在的元素位置对应的属性。
7.根据权利要求5所述的基于人工智能算法的法律知识增强检索方法,其特征在于,所述比较目标第一三元组数据和目标第二三元组数据中关系的相似性,得到关系相似度值,包括:
比较目标第一三元组数据和目标第二三元组数据中用于描述关系的字符串,若完全相同,则直接得到关系相似度值,此时关系相似度值为其能取的最大值;
若不相同,则基于预设自然语言处理模型再次比较目标第一三元组数据和目标第二三元组数据中用于描述关系的字符串,得到语义相似度值,作为关系相似度值。
8.根据权利要求7所述的基于人工智能算法的法律知识增强检索方法,其特征在于,所述比较目标第一三元组数据和目标第二三元组数据整体的相似性,得到整体相似度值,包括:
通过下式得到整体相似度值:
Soverall=K1×Sattribute(A1,A2)+K2×Sattribute(B1,B2)
其中,Soverall表示目标第一三元组数据和目标第二三元组数据的整体相似度值,Sattribute(A1,A2)表示目标第一三元组数据的主体A1和目标第二三元组数据的主体A2的属性相似度,Sattribute(B1,B2)表示目标第一三元组数据的客体B1和目标第二三元组数据的客体B2的属性相似度,K1和K2分别为不同的调整系数,Si(A1,A2)表示目标第一三元组数据的主体A1和目标第二三元组数据的主体A2之间第i个共有的属性的相似度,目标第一三元组数据的主体A1和目标第二三元组数据的主体A2之间共有n个共有的属性,ωi为Si(A1,A2)对应的权重,Sj(B1,B2)表示目标第一三元组数据的客体B1和目标第二三元组数据的客体B2之间第j个共有的属性的相似度,目标第一三元组数据的客体B1和目标第二三元组数据的客体B2之间共有m个共有的属性,ωj为Sj(B1,B2)对应的权重。
CN202311799732.7A 2023-12-25 2023-12-25 一种基于人工智能算法的法律知识增强检索系统及方法 Active CN117725235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311799732.7A CN117725235B (zh) 2023-12-25 2023-12-25 一种基于人工智能算法的法律知识增强检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311799732.7A CN117725235B (zh) 2023-12-25 2023-12-25 一种基于人工智能算法的法律知识增强检索系统及方法

Publications (2)

Publication Number Publication Date
CN117725235A true CN117725235A (zh) 2024-03-19
CN117725235B CN117725235B (zh) 2024-04-30

Family

ID=90205222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311799732.7A Active CN117725235B (zh) 2023-12-25 2023-12-25 一种基于人工智能算法的法律知识增强检索系统及方法

Country Status (1)

Country Link
CN (1) CN117725235B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291161A (zh) * 2020-02-20 2020-06-16 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
CN112148702A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种文件检索的方法及设备
CN216118729U (zh) * 2021-08-25 2022-03-22 西华大学 基于人工智能和大数据技术的法律咨询检索服务终端
US11669556B1 (en) * 2021-12-27 2023-06-06 Quantiphi Inc Method and system for document retrieval and exploration augmented by knowledge graphs
CN117033721A (zh) * 2023-06-25 2023-11-10 长春市把手科技有限公司 一种基于法律知识图谱的法律咨询报告生成系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291161A (zh) * 2020-02-20 2020-06-16 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
CN112148702A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种文件检索的方法及设备
CN216118729U (zh) * 2021-08-25 2022-03-22 西华大学 基于人工智能和大数据技术的法律咨询检索服务终端
US11669556B1 (en) * 2021-12-27 2023-06-06 Quantiphi Inc Method and system for document retrieval and exploration augmented by knowledge graphs
CN117033721A (zh) * 2023-06-25 2023-11-10 长春市把手科技有限公司 一种基于法律知识图谱的法律咨询报告生成系统及方法

Also Published As

Publication number Publication date
CN117725235B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN110781298B (zh) 药品分类方法、装置、计算机设备及存储介质
CN110597878B (zh) 一种多模态数据的跨模态检索方法、装置、设备及介质
CN106874441B (zh) 智能问答方法和装置
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN112328762A (zh) 基于文本生成模型的问答语料生成方法和装置
CN109543516A (zh) 签约意向判断方法、装置、计算机设备和存储介质
CN112925877B (zh) 一种基于深度度量学习的一人多案关联识别方法及系统
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
CN117235238B (zh) 问答方法、装置、存储介质及计算机设备
CN115544279B (zh) 一种基于协同注意力的多模态情感分类方法及其应用
CN117271716A (zh) 一种基于生成式语言模型的法律法规问答系统及构建方法
WO2024001104A1 (zh) 一种图文数据互检方法、装置、设备及可读存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN118051635A (zh) 基于大语言模型的对话式图像检索方法和装置
CN110377618B (zh) 裁决结果分析方法、装置、计算机设备和存储介质
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN117932009A (zh) 基于ChatGLM模型的保险客服对话生成方法、装置、设备及介质
CN117725235B (zh) 一种基于人工智能算法的法律知识增强检索系统及方法
CN111640438A (zh) 音频数据处理方法、装置、存储介质及电子设备
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN116450797A (zh) 基于多模态对话的情感分类方法、装置、设备及介质
KR101233296B1 (ko) 가중치 합을 이용한 거리 함수 생성 방법 및 시스템
CN112101559A (zh) 一种基于机器学习的案件罪名推断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant