CN118260378A - 基于大语言模型与语义融合的制度检索推荐方法及系统 - Google Patents
基于大语言模型与语义融合的制度检索推荐方法及系统 Download PDFInfo
- Publication number
- CN118260378A CN118260378A CN202410209398.3A CN202410209398A CN118260378A CN 118260378 A CN118260378 A CN 118260378A CN 202410209398 A CN202410209398 A CN 202410209398A CN 118260378 A CN118260378 A CN 118260378A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- file
- attachment
- keyword
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 38
- 230000014509 gene expression Effects 0.000 claims description 33
- 238000010276 construction Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002464 muscle smooth vascular Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000001418 vibrating-sample magnetometry Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于大语言模型与语义融合的制度检索推荐方法及系统,属于自然语言处理技术领域,面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层;对制度文件进行统一格式转换,对制度文本文件进行文本分割,获得各条款和附件的文本文件;对各条款和附件文本进行关键词提取;构建制度文件知识图谱数据层,采用Neo4j图数据库规范化存储制度文件数据;基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用。本发明提取各条款和附件内容及各条款和附件关键词提取,应用图数据库规范化存储制度数据,实现制度检索与推荐应用,能够实现在确保数据安全、节约计算资源的前提下提供高效精准的制度检索与推荐结果。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于大语言模型与语义融合的制度检索推荐方法及系统。
背景技术
制度文件检索是企业安全管理制度体系中的重要组成部分,其通过系统化的方法和工具,实现对相关制度文件的高效检索和管理,以确保企业在安全管理方面能够快速准确地获取必要信息,从而有效应对潜在的安全风险和问题。然而,目前的制度检索和管理存在制度文件数量多、制度内容繁多、制度文件多以PDF、Word等文本型格式发放和存储,文件或者条款间的关联关系缺少智能化分析手段等问题。现有文本检索方法存在受限于文本长度、不能够充分理解语义、计算资源消耗大、存在数据泄露风险等问题。所以急需一种高效、精准、安全,能够充分表征文件、条款、附件间语义链接关系的智能化制度文件检索与推荐方法。
早期的文本检索方法主要基于手工设计的规则和关键词匹配,此类方法受限于规则的复杂性和灵活性,对于语义理解和复杂查询的处理能力有限。向量空间模型(VectorSpace Model,VSM)引入向量空间模型的思想,文档和查询被表示为向量,这种基于统计的方法在计算相似性方面有一定优势,但仍然受限于词汇歧义和语义理解。概率模型如BM25等能够更好地建模文档和查询之间的关系但受限于予以理解和文档长度。随着机器学习技术的发展,支持向量机(SVM)和朴素贝叶斯等分类、回归等算法逐渐引入文本分类和信息检索,此类方法依赖于特征工程以及缺乏语义理解。近年来,深度学习技术在文本检索领域取得了显著的进展,卷积神经网络(CNN)和循环神经网络(RNN)等被用于学习更丰富的文本表示,预训练模型如BERT、GPT等也在文本检索任务中取得了巨大成功,但是深度学习模型的黑盒性使得解释和理解模型决策变得困难,并且受限于大量训练数据和计算资源的依赖,GPT等大语言模型的使用也带来数据隐私泄露等安全问题。因此,如何在确保数据安全、尽可能降低计算资源的消耗、不受限于文本长度以及充分表征文件、条款、附件间语义链接关系的前提下为用户提供高效精准的制度文件检索与推荐结果成为目前亟待解决的问题。
发明内容
本发明的目的在于提供一种基于大语言模型与语义融合的制度检索推荐方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种基于大语言模型与语义融合的制度检索推荐方法,包括:
面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层;
对制度文件进行统一格式转换,基于正则表达式对制度文本文件进行文本分割,获得各条款和附件的文本文件;
基于大语言模型与传统语义融合的关键词提取方法对各条款和附件文本进行关键词提取;
基于模式层和关键词提取结果构建制度文件知识图谱数据层,采用Neo4j图数据库规范化存储制度文件数据;
基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用。
进一步的,面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层,具体包括:
基于后续通过检索词匹配条款或附件中的关键词进而定位条款或附件,再通过条款或附件定位制度文件的检索需求,定义实体“文件”、“条款”和“附件”为节点,定义述谓关系“条款”、“附件”为边,表达文件、条款、附件间的结构关系,并以关键词属性作为“条款”实体节点属性,以附件名称属性、关键词属性作为“附件”实体节点属性,其中,关键词属性值应为按照相关程度由高至低排序的15个词语,词语之间以逗号分隔;
构建制度文件知识图谱模式层相关三元组结构,包括<文件,条款_,条款>、<文件,附件_,附件>、<条款,附件_,附件>、<条款,关键词属性_,关键词属性值>、<条款,关键词属性_,关键词属性值>、<附件,附件名称属性_,附件名称属性值>;
构建关系模式解构图G,关系模式表达式如下:
G={<Wi,Rt,Tj>、<Wi,Rf,Fm>、<Tj,Rf,Fm>、<Tj,Rk,Kn>、<Fm,Rk,Kn>、<Fm,Ra,Ab>}
其中,Wi、Ti、Fi分别表示文件、条款和附件实体,Ri表示述谓关系-条款,Rf表示述谓关系-附件,Rk表示关键词属性,Kn表示关键词属性值,Ra表示附件名称属性,Ab表示附件名称属性值。
进一步的,对制度文件进行统一格式转换,基于正则表达式对制度文本文件进行文本分割,获得各条款和附件的文本文件,具体包括:
对于给定的一个制度Word文件,将其另存为纯文本文件;对生成的文本文件的编码进行检测和转换,以ANSI编码保存;
读取上述生成的制度文本文件,用Python原始字符串格式编写正则表达式,匹配并捕获文本中的章节和条款,并将匹配结果存储在matches列表:
matches={第(z1)章,第(t1)条,m1},...,{第(zn)章,第(tn)条,mn};
其中,zi表示第i个匹配的章信息,ti表示第i个匹配的条款编号信息,mi表示第i个匹配的条款内容信息;
遍历匹配结果matches列表,处理制度文件内每个条款的内容,通过判断章和条的标记来排除章节标题内容,保留条款内容,并将条款内容添加至列表CK中:CK=[m1,m2,...,mn];其中,mi表示第i个匹配保留的条款内容;
对于最后一个提取的条款,考虑是否后续有附件的情况;若无附件,则最后一个条款内容保留方式与其他条款相同;若有附件,则通过查找“附件:”字段,将其之前的内容保留至列表CK中,将其之后的内容添加至列表AC中;遍历列表CK,为每个条款创建一个新的文本文件,以ANSI编码保存至指定输出文件夹中;若有附件,遍历列表AC,为附件内容创建一个新的文本文件,以ANSI编码保存至指定附件文件夹路径中;
若有附件,读取上述生成的附件文本文件内容,编写正则表达式r'附件(\d+)'匹配附件内容中的附件编号,根据匹配结果将附件内容分割为多个附件,并将各附件内容存储为单独的文本文件。
进一步的,基于大语言模型与传统语义融合的关键词提取方法对各条款和附件文本进行关键词提取,具体包括:
采用jieba分词工具对条款文本文件内容进行分词和词性标注后,去除停用词,只保留名词、动词、名形词、名动词和专有名词,获得候选词语列表CW;
计算CW中词语间的语义相似度、用居间度密度算法计算得到居间度密度集合G;
计算CW中各词语的词频-逆向文档频率(TF-IDF);
构建部门检索常用词表BW;
对G和各词语的统计特征值进行加权求和,侧重考虑部门检索常用词,得到词语wi的关键度计算函数;
按照所计算得到的各条款内各词语关键度值由高至低取10个词语作为各条款的关键词,获得各条款的基于传统语义的关键词列表Tyi;
利用基于差分隐私技术的生成式预训练Transformer模型PrivateGPT读取、学习制度文件的各条款内容,并输出各条款的关键词,获得基于大语言模型的关键词列表Tdi;
将关键词列表Tyi和Tdi进行合并,获得最终各条款的关键词列表Ti。
进一步的,基于模式层和关键词提取结果构建制度文件知识图谱数据层,采用Neo4j图数据库规范化存储制度文件数据,具体包括:
根据所构建的制度文件知识图谱模式层,在提取制度文件各条款、附件内容,提取各条款、附件关键词基础上,对各制度文件提取实例,构建制度文件知识图谱数据层;
利用python的py2neo工具包链接Neo4j图数据库,基于设定好的实体、关系、属性名称命名规范和图数据库存储规范将三元组结构和相关实例信息导入Neo4j图数据库中,构建制度文件知识图谱。
进一步的,基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用,具体包括:
构建基于制度文件专业知识的检索同义词表和同类词表,对各部门常用检索词进行同义词和同类词扩展;
输入检索词组Qw={Qw1,Qw2,...,Qwn},加载同义词表和同类词表,查找检索词组Qw内所有词语的同义词和同类词并将其合并为新的检索词组;
构建Neo4j图数据库查询语句"MATCH(n)WHERE n.`关键词`IS NOT NULL AND ANY(keyword IN{QK}WHERE n.`语义关键词`CONTAINS keyword)RETURN n",获得与检索词相关的制度条款检索结果;
对于检索结果中的每个节点,获取检索词及其同义词、同类词在节点“关键词”属性中的位置,并通过以下公式对各条检索结果的检索词位置表征值Tpl进行计算;
根据计算的各条检索结果的检索词位置表征值Tpl由低至高对检索结果进行排序,获得排序后的节点信息,完成制度文件检索与推荐任务;
对用户检索行为进行统计,更新部门检索常用词表BW。
第二方面,本发明提供一种基于大语言模型与语义融合的制度检索推荐系统,包括:
第一构建模块,用于面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层;
分割模块,用于对制度文件进行统一格式转换,基于正则表达式对制度文本文件进行文本分割,获得各条款和附件的文本文件;
提取模块,用于基于大语言模型与传统语义融合的关键词提取方法对各条款和附件文本进行关键词提取;
第二构建模块,用于基于模式层和关键词提取结果构建制度文件知识图谱数据层,采用Neo4j图数据库规范化存储制度文件数据;
推荐模块,用于基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如第一方面所述的基于大语言模型与语义融合的制度检索推荐方法。
第四方面,本发明提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如第一方面所述的基于大语言模型与语义融合的制度检索推荐方法。
第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如第一方面所述的基于大语言模型与语义融合的制度检索推荐方法的指令。
本发明有益效果:构建文件、条款、附件间关系模式,提取各条款和附件内容,对各条款和附件进行关键词提取,应用图数据库规范化存储制度数据,实现制度检索与推荐应用,能够实现在确保数据安全、节约计算资源的前提下提供高效精准的制度检索与推荐结果。
本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的制度检索与推荐方法的流程示意图。
图2为本发明实施例所述的基于大语言模型与传统语义融合的关键词提取方法的流程示意图。
图3为本发明实施例所述的制度文件知识图谱的属性图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本实施例1中,首先提供一种基于大语言模型与语义融合的制度检索推荐系统,包括:第一构建模块,用于面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层;分割模块,用于对制度文件进行统一格式转换,基于正则表达式对制度文本文件进行文本分割,获得各条款和附件的文本文件;提取模块,用于基于大语言模型与传统语义融合的关键词提取方法对各条款和附件文本进行关键词提取;第二构建模块,用于基于模式层和关键词提取结果构建制度文件知识图谱数据层,采用Neo4j图数据库规范化存储制度文件数据;推荐模块,用于基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用。
本实施例中,利用上述的系统,实现了基于大语言模型与语义融合的制度检索推荐方法,包括:步骤1:面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层;步骤2:对制度文件进行统一格式转换,基于正则表达式对制度文本文件进行文本分割,获得各条款和附件的文本文件;步骤3:基于大语言模型与传统语义融合的关键词提取方法对各条款和附件文本进行关键词提取;步骤4:基于模式层和关键词提取结果构建制度文件知识图谱数据层,采用Neo4j图数据库规范化存储制度文件数据;步骤5:基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用。
所述步骤1中,面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层,具体包括:
基于后续通过检索词匹配条款或附件中的关键词进而定位条款或附件,再通过条款或附件定位制度文件的检索需求,定义实体“文件”、“条款”和“附件”为节点,定义述谓关系“条款”、“附件”为边,表达文件、条款、附件间的结构关系,并以关键词属性作为“条款”实体节点属性,以附件名称属性、关键词属性作为“附件”实体节点属性,其中,关键词属性值应为按照相关程度由高至低排序的15个词语,词语之间以逗号分隔。
构建制度文件知识图谱模式层相关三元组结构,包括<文件,条款_,条款>、<文件,附件_,附件>、<条款,附件_,附件>、<条款,关键词属性_,关键词属性值>、<条款,关键词属性_,关键词属性值>、<附件,附件名称属性_,附件名称属性值>。构建关系模式解构图G,关系模式表达式如下:
G={<Wi,Rt,Tj>、<Wi,Rf,Fm>、<Tj,Rf,Fm>、<Tj,Rk,Kn>、<Fm,Rk,Kn>、<Fm,Ra,Ab}>
其中,Wi、Ti、Fi分别表示文件、条款和附件实体,Ri表示述谓关系-条款,Rf表示述谓关系-附件,Rk表示关键词属性,Kn表示关键词属性值,Ra表示附件名称属性,Ab表示附件名称属性值。
所述步骤2中,对制度文件进行统一格式转换,基于正则表达式对制度文本文件进行文本分割,获得各条款和附件的文本文件,具体包括:
对于给定的一个制度Word文件,将其另存为纯文本文件。对生成的文本文件的编码进行检测和转换,以ANSI编码保存。
读取上述生成的制度文本文件,用Python原始字符串格式编写正则表达式r'第([\u4e00-\u9fa5]+)章|第([\u4e00-\u9fa5]+)条(.*a)(a=第[\u4e00-\u9fa5]+章|第[\u4e00-\u9fa5]+条|$)',匹配并捕获文本中的章节和条款,并将匹配结果存储在matches列表:
matches={第(z1)章,第(t1)条,m1},...,{第(zn)章,第(tn)条,mn}
其中,zi表示第i个匹配的章信息,ti表示第i个匹配的条款编号信息,mi表示第i个匹配的条款内容信息。
遍历匹配结果matches列表,处理制度文件内每个条款的内容,通过判断章和条的标记来排除章节标题内容,保留条款内容,并将条款内容添加至列表CK中:CK=[m1,m2,...,mn],其中,mi表示第i个匹配保留的条款内容。
对于最后一个提取的条款,考虑是否后续有附件的情况。若无附件,则最后一个条款内容保留方式与其他条款相同;若有附件,则通过查找“附件:”字段,将其之前的内容保留至列表CK中,将其之后的内容添加至列表AC中。
遍历列表CK,为每个条款创建一个新的文本文件,以ANSI编码保存至指定输出文件夹中。
若有附件,遍历列表AC,为附件内容创建一个新的文本文件,以ANSI编码保存至指定附件文件夹路径中。
若有附件,读取上述生成的附件文本文件内容,编写正则表达式r'附件(\d+)'匹配附件内容中的附件编号,根据匹配结果将附件内容分割为多个附件,并将各附件内容存储为单独的文本文件。
所述步骤3中,基于大语言模型与传统语义融合的关键词提取方法对各条款和附件文本进行关键词提取,具体包括:
采用jieba分词工具对条款文本文件内容进行分词和词性标注后,去除停用词,只保留名词、动词、名形词、名动词和专有名词,获得候选词语列表CW;
计算CW中词语间的语义相似度、用居间度密度算法计算得到居间度密度集合G;
计算CW中各词语的词频-逆向文档频率(TF-IDF);
构建部门检索常用词表BW;
对G和各词语的统计特征值进行加权求和,侧重考虑部门检索常用词,得到词语wi的关键度计算函数:
其中,Gi表示词语的居间度密度值;swk表示词语位置k的权重,k=1表示词语位于段首,k=2表示词语位于段尾,sw1=0.4,sw2=0.3,swik表示词语wi是否有在位置k出现过;li表示词语wi的词长;pi表示词语wi的词性值,当词语wi为名词、动词、名形词、名动词和专有名词时,pi分别取0.8,0.2,0.5,0.5,0.7;ti表示词语wi的TF-IDF值;θj为指示函数,当词语为部门常用词时,θj=1,否则
按照所计算得到的各条款内各词语关键度值由高至低取10个词语作为各条款的关键词,获得各条款的基于传统语义的关键词列表Tyi:
Tyi={Kyi1,Kyi2,...,Kyi10}
其中,Kyij表示条款i的第j个关键词。
利用基于差分隐私技术的生成式预训练Transformer模型PrivateGPT读取、学习制度文件的各条款内容,并输出各条款的关键词,获得基于大语言模型的关键词列表Tdi:
Tdi={Kdi1,Kdi2,...,Kdi5}其中,Kdij表示条款i的第j个关键词。
将关键词列表Tyi和Tdi进行合并,获得最终各条款的关键词列表Ti:
Ti={Kyi1,Kyi2,...,Kyi10,Kdi1,Kdi2,...,Kdi5}
所述步骤4中,基于模式层和关键词提取结果构建制度文件知识图谱数据层,采用Neo4i图数据库规范化存储制度文件数据,具体包括:
根据步骤1所构建的制度文件知识图谱模式层,在步骤2提取制度文件各条款、附件内容,步骤3提取各条款、附件关键词基础上,对各制度文件提取实例,构建制度文件知识图谱数据层。
利用python的py2neo工具包链接Neo4j图数据库,基于设定好的实体、关系、属性名称命名规范和图数据库存储规范将三元组结构和相关实例信息导入Neo4j图数据库中,构建制度文件知识图谱。
所述步骤5中,基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用,具体包括:
构建基于制度文件专业知识的检索同义词表和同类词表,对各部门常用检索词进行同义词和同类词扩展;
输入检索词组Qw={Qw1,Qw2,...,Qwn},加载同义词表和同类词表,查找检索词组Qw内所有词语的同义词和同类词并将其合并为新的检索词组:
QK={Qwi,Qwyi1,Qwyi2,...,Qwyip,Qwli1,Qwli2,...,Qwliq},i=1,2,...,n
其中,Qwyij表示词语Qwi的第j个同义词,Qwlik表示词语Qwi的第k个同类词,p是词语Qwi的同义词个数,q是词语Qwi的同类词个数。
构建Neo4j图数据库查询语句"MATCH(n)WHERE n.`关键词`IS NOT NULL AND ANY(keyword IN{QK}WHERE n.`语义关键词`CONTAINS keyword)RETURN n",获得与检索词相关的制度条款检索结果。
对于检索结果中的每个节点,获取检索词及其同义词、同类词在节点“关键词”属性中的位置,并通过以下公式对各条检索结果的检索词位置表征值Tpl进行计算:
其中,m是检索词为关键词的总数;p是检索词为关键词的同义词总数;q是检索词为关键词的同类词总数;P是计算词语在条款关键词组中的位置的函数,若词语不存在于关键词组中,计算所得结果超过15取15,若词语不存在于关键词组中,则取默认值15;BW_numi是部门检索常用词表中关键词的个数,表征部门检索常用词对总位置的影响;CL_numi是用户点选该条检索结果进行查看的次数,表征用户检索行为对检索结果排序的影响;δj、λk是对应于P(Qwyij)、P(Qwlik)的指示函数,当检索词为同义词组或同类词组中的词时为1,否则为0。
根据上述计算的各条检索结果的检索词位置表征值Tpl由低至高对检索结果进行排序,获得排序后的节点信息,完成制度文件检索与推荐任务;
对用户检索行为进行统计,更新部门检索常用词表BW。
实施例2
本实施例2中,提供一种基于大语言模型与传统语义融合的制度精准检索与推荐方法,主要包括制度文件知识图谱模式层构建、基于正则表达式的制度文本分割方法构建、基于大语言模型与传统语义的关键词提取、制度文件知识图谱数据层构建、基于检索词位置特征和用户特征的精细化检索与推荐方法构建。
制度文件知识图谱模式层构建部分面向制度文件检索与推荐应用需求,定义实体、关系、属性及相关三元组结构,构建制度文件知识图谱关系模式,作为后续制度文本处理和知识图谱数据层构建的依据。
基于正则表达式的制度文本分割方法构建部分首先将制度文件的Word版本转换为纯文本文件格式,再对文本文件编码进行检测和转换,保证文本编码统一。本实施例还设计了一种基于正则表达式的文本分割方法,对制度文件内的各条款内容和各附件内容进行提取和存储。
基于大语言模型与传统语义融合的关键词提取部分是在对各条款、附件文本文件内容进行分词、词性标注、停用词去除、词性筛选等预处理基础上,根据词语的语义特征值和统计特征值计算所有保留词语的关键度,进一步根据关键度获取各条款、附件的基于语义的关键词列表;利用基于差分隐私技术的生成式预训练Transformer模型PrivateGPT读取、学习各条款、附件内容并输出关键词,获取基于大语言模型的关键词列表,应用大语言模型的全过程确保绝对数据安全;将基于传统语义提取的关键词列表和基于大语言模型提取的关键词列表进行融合获得最终的条款关键词列表。
制度文件知识图谱数据层构建部分是根据所构建的知识图谱模式层从各条款、附件文本和对应的关键词列表提取实例,并规范化存储至Neo4j图数据库。应用图数据结构存储制度文件信息能够清晰地表示文件、条款、附件间的语义链接关系。
基于检索词位置特征和用户特征的精细化检索与推荐方法构建部分是在构建检索同义词表和同类词表基以扩充检索范围基础上,基于制度文件知识图谱语义链接关系进行制度检索,并根据检索词及其同义词、同类词在节点“关键词”属性中的位置计算各条检索结果的检索词位置表征值,基于检索词位置特征和用户特征对检索结果进行排序,从而获得符合用户需求的制度检索与推荐结果。
如图1所示,基于大语言模型与传统语义融合的制度精准检索与推荐方法,包括以下流程:
步骤1:制度文件知识图谱模式层构建。本发明面向制度文件检索与推荐应用需求,定义实体、关系、属性及相关三元组结构,构建制度文件知识图谱关系模式。
所述步骤1制度文件知识图谱模式层构建。
基于后续通过检索词匹配条款或附件中的关键词进而定位条款或附件,再通过条款或附件定位制度文件的检索需求,定义实体“文件”、“条款”和“附件”为节点,定义述谓关系“条款”、“附件”为边,表达文件、条款、附件间的结构关系,并以关键词属性作为“条款”实体节点属性,以附件名称属性、关键词属性作为“附件”实体节点属性,其中,关键词属性值应为按照相关程度由高至低排序的15个词语,词语之间以逗号分隔。制度文件知识图谱属性图参照附图2所示。
构建制度文件知识图谱模式层相关三元组结构,包括<文件,条款_,条款>、<文件,附件_,附件>、<条款,附件_,附件>、<条款,关键词属性_,关键词属性值>、<条款,关键词属性_,关键词属性值>、<附件,附件名称属性_,附件名称属性值>。构建关系模式解构图G,关系模式表达式如下:
G={<Wi,Rt,Tj>、<Wi,Rf,Fm>、<Tj,Rf,Fm>、<Tj,Rk,Kn>、<Fm,Rk,Kn>、<Fm,Ra,Ab>}
其中,Wi、Ti、Fi分别表示文件、条款和附件实体,Ri表示述谓关系-条款,Rf表示述谓关系-附件,Rk表示关键词属性,Kn表示关键词属性值,Ra表示附件名称属性,Ab表示附件名称属性值。下表1所示为构建制度文件知识图谱模式层相关三元组结构。
表1
步骤2:基于正则表达式的制度文本分割方法构建。本实施例设计了一种通用的制度文件格式转换方法和基于正则表达式的条款附件文本分割方法,将制度文件转换为统一的ANSI编码文本格式,并提取和存储制度文件内的各条款附件内容,用于后续条款附件关键词提取和知识图谱节点构建。
所述步骤2基于正则表达式的制度文本分割方法构建。
给定一个制度Word文件,将其另存为具有相同名称但扩展名为“.txt”的纯文本文件。对生成的文本文件的编码进行检测和ANSI编码转换,若检测到的编码是UTF-8,则直接以UTF-8编码保存,这是因为UTF-8是一种通用的、支持多语言的编码方式,不需要转换为ANSI编码,可以直接保存;若检测到的编码不是UTF-8,则使用检测到的编码读取文件,并以ANSI编码保存。
读取上述生成的制度文本文件,用Python原始字符串格式编写正则表达式r'第([\u4e00-\u9fa5]+)章|第([\u4e00-\u9fa5]+)条(.*?)(?=第[\u4e00-\u9fa5]+章|第[\u4e00-\u9fa5]+条|$)',匹配文件内容中类似"第X章"或"第X条"的模式,其中X可以是中文字符。然后,通过循环遍历所有匹配的结果,提取出文本中特定章节或条款的内容,以及相关的章节或条款号码,并将匹配结果存储在matches列表:
matches={第(z1)章,第(t1)条,m1},...,{第(zn)章,第(tn)条,mn}
其中,zi表示第i个匹配的章信息,ti表示第i个匹配的条款编号信息,mi表示第i个匹配的条款内容信息
设置变量exclude来控制是否需要排除当前匹配的内容。如果匹配到"第X章",则将exclude设置为True,表示后续的匹配内容需要被排除。如果匹配到"第X条"且当前已经处于排除状态,则将exclude设置为False,表示后续的匹配内容可以被保留。只有在exclude为False的情况下,将匹配到的内容添加到CK列表中,注意在添加之前去除前后的空格。
CK=[m1,m2,...,mn]
其中,contenti表示第i个匹配保留的条款内容。
对于最后一个提取的条款,考虑是否后续有附件的情况。若无附件,则最后一个条款内容保留方式与其他条款相同;若有附件,则通过查找“附件:”字段,将其之前的内容保留至列表CK中,将其之后的内容添加至列表AC中。
遍历列表CK,为每个条款创建一个新的文本文件,按照条款编号命名,并以ANSI编码保存至指定输出文件夹中。
若有附件,遍历列表AC,为附件内容创建一个新的文本文件,以ANSI编码保存至指定附件文件夹路径中。
读取上述生成的附件文本文件内容,定义正则表达式r'附件(\d+)'匹配附件标识“附件X”。
遍历由正则表达式模式找到的匹配项,对于每个匹配项创建一个新的文本文件进行存储,并提取匹配项中的附件编号信息作为文本文件的命名依据,完成原附件文本文件内容中所有附件内容的提取和存储。
步骤3:基于大语言模型与传统语义融合的关键词提取。本实施例设计了一种基于大语言模型与传统语义融合的关键词提取方法对对步骤2获得的各条款和附件的文本内容进行关键词提取,用于后续制度文件检索词对照。
参照附图3所示,所述步骤2基于大语言模型与传统语义的关键词提取具体包括:
采用jieba分词工具对步骤1获得的条款文本文件内容进行分词和词性标注后,去除停用词,并且只保留名词、动词、名形词、名动词和专有名词性质的词语,获得候选词语列表CW;
计算CW中词语间的语义相似度、利用居间度密度算法计算得到居间度密度集合G;
计算CW中各词语的词频-逆向文档频率(TF-IDF);
基于制度文件检索系统用户需求导向构建部门检索常用词表BW,该词表中应当存储至少100个的部门检索常用词语。
对G和各词语的统计特征值进行加权求和,侧重考虑部门常用词,得到词语wi的关键度计算函数:
其中,Gi表示词语的居间度密度值;swk表示词语位置k的权重,k=1表示词语位于段首,k=2表示词语位于段尾,sw1=0.4,sw2=0.3,swik表示词语wi是否有在位置k出现过;li表示词语wi的词长;pi表示词语wi的词性值,当词语wi为名词、动词、名形词、名动词和专有名词时,pi分别取0.8,0.2,0.5,0.5,0.7;ti表示词语wi的TF-IDF值;θj为指示函数,当词语为部门检索常用词时,θj=1,否则
按照所计算得到的各条款内各词语关键度值由高至低取10个词语作为各条款的关键词,获得各条款的基于传统语义的关键词列表Tyi:
Tyi={Kyi1,Kyi2,...,Kyi10}
其中,Kyij表示条款i的第j个关键词。
利用基于差分隐私技术的生成式预训练Transformer模型PrivateGPT读取、学习制度文件的各条款内容,并输出各条款的5个关键词。使用该大语言模型能够获取条款内容中不直接存在但能够概括条款内容的词语,达到后续模糊检索的目的,同时确保绝对的数据安全。获得基于大语言模型的关键词列表Tdi:
Tdi={Kdi1,Kdi2,...,Kdi5}
其中,Kdij表示条款i的第j个关键词。
将关键词列表Tyi和Tdi进行合并,获得最终各条款的关键词列表Ti:
Ti={Kyi1,Kyi2,...,Kyi10,Kdi1,Kdi2,...,Kdi5}
各附件的关键词列表获取方式与各条款的关键词列表获取方式相同,故此处不再赘述。
步骤4:制度文件知识图谱数据层构建。本发明根据制度文件知识图谱模式层结构从各条款、附件文本和对应的关键词列表提取实例,并利用Neo4j图数据库存储制度文件知识图谱内容,用于制度文件数据存储和后续制度文件检索结果输出。
所述步骤4制度文件知识图谱数据层构建具体包括:
根据步骤1所构建的制度文件知识图谱模式层,在步骤2提取制度文件各条款、附件内容,步骤3提取各条款、附件关键词基础上,对各制度文件提取实例。
其中,具体的,“文件”实体的name属性为各制度的文件名称;“条款”实体的name属性为文件名称和条款编号的合并内容,“条款”实体的“关键词”属性为步骤2获取的各条款关键词列表内容;“附件”实体的name属性为文件名称和附件编号的合并内容,“附件”实体的“关键词”属性为步骤3获取的各附件关键词列表内容,“附件”的“附件名称”属性内容通过构建正则表达式的方式获取,具体的,由于附件名称会在步骤2中获得的存有总的附件内容的文本文件的开头出现,(例如“1.附件1具体名称(另起一行)2.附件2具体名称”,可以发现有一定规律,故设置正则表达式r'^\d+\.(.*?)$'在附件内容中查找匹配模式的所有附件名称。
利用python的py2neo工具包链接Neo4j图数据库,基于节点名称命名规范和图数据库存储规范将三元组结构和相关实例信息导入Neo4j图数据库中,构建制度文件知识图谱。
步骤5:基于检索词位置特征和用户特征的精细化检索与推荐方法构建。本发明在构建检索同义词表和同类词表基以扩充检索范围基础上,基于制度文件知识图谱语义链接关系进行制度检索,并根据检索词及其同义词、同类词在节点“关键词”属性中的位置计算各条检索结果的检索词位置表征值,基于检索词位置特征和用户特征对检索结果进行排序,从而获得符合用户需求的制度检索与推荐结果。
步骤5基于检索词位置特征和用户特征的精细化检索与推荐方法构建具体包括:
基于制度文件涉及的专业知识和用户检索行为构建检索同义词表和同类词表,对各部门常用检索词进行同义词和同类词扩展,具体的,同义词表由若干同义词组组成,同类词表由若干同类词组组成;
输入检索词组Qw={Qw1,Qw2,...,Qwn},加载同义词表和同类词表,查找检索词组Qw内所有词语的同义词和同类词并将其合并为新的检索词组:
QK={Qwi,Qwyi1,Qwyi2,...,Qwyip,Qwli1,Qwli2,...,Qwliq},i=1,2,...,n
其中,Qwyij表示词语Qwi的第j个同义词,Qwlik表示词语Qwi的第k个同类词,p是词语Qwi的同义词个数,q是词语Qwi的同类词个数。
例如,输入检索词组Qw={保密,措施},加载同义词表和同类词表,查找检索词组Qw内所有词语的同义词和同类词并将其合并为新的检索词组:
query_keywords={保密,机密,隐秘,保密性,机密性,措施,手段,机制,方法,策略,程序,步骤}
构建Neo4j图数据库查询语句"MATCH(n)WHERE n.`关键词`IS NOT NULL AND ANY(keyword IN{QK}WHERE n.`关键词`CONTAINS keyword)RETURNn",通过将检索词组中的词语与条款、附件实体的关键词属性中的词语进行匹配,获得与检索词相关的制度条款检索结果。
对于生成的检索结果中的每个节点,获取检索词及其同义词、同类词在条款或附件节点关键词属性中的位置,并通过以下公式对各条检索结果的检索词位置表征值Tpl进行计算:
其中,m是检索词为关键词的总数;p是检索词为关键词的同义词总数;q是检索词为关键词的同类词总数;P是计算词语在条款关键词组中的位置的函数,若词语不存在于关键词组中,计算所得结果超过15取15,若词语不存在于关键词组中,则取默认值15;BW_numi是部门检索常用词表中关键词的个数,表征部门检索常用词对总位置的影响;CL_numi是用户点选该条检索结果进行查看的次数,表征用户检索行为对检索结果排序的影响;δj、λk是对应于P(Qwyij)、P(Qwlik)的指示函数,当检索词为同义词组或同类词组中的词时为1,否则为0。
根据上述计算的各条检索结果的检索词位置表征值Tpl由低至高对检索结果进行排序,获得排序后的节点信息,完成制度条款检索任务。
例如,输入步骤5的检索词组进行检索得到所有检索结果后,对其进行排序,获得最终检索排序结果如下表2示例所示(示例中的关键词中存在于部门常用词表中的词假设有:党总支、党支部、保密、制度、责任制)
表2
对用户检索行为进行统计,更新部门检索常用词表BW。
综上,本实施例提供的基于大语言模型与传统语义融合的制度精准检索与推荐方法,首先,面向制度文件检索与推荐应用需求,定义实体、关系、属性及相关三元组结构,构建制度文件知识图谱模式层,作为后续文本处理和知识图谱数据层构建的依据;其次,将制度文件的Word版本转换为纯文本文件格式,再对文本文件编码进行检测和转换,保证文本编码统一。进一步地,设计了一种基于正则表达式的文本分割方法,对制度文件内的各条款内容和各附件内容进行提取和存储。再次,在对各条款、附件文本文件内容进行分词、词性标注、停用词去除、词性筛选等预处理基础上,根据词语的语义特征值和统计特征值计算所有保留词语的关键度,进一步根据关键度获取各条款、附件的基于语义的关键词列表;利用基于差分隐私技术的生成式预训练Transformer模型PrivateGPT读取、学习各条款、附件内容并输出关键词,获取基于大语言模型的关键词列表,应用大语言模型的全过程确保绝对数据安全;将基于传统语义提取的关键词列表和基于大语言模型提取的关键词列表进行融合获得最终的条款关键词列表。然后,根据所构建的知识图谱模式层从各条款、附件文本和对应的关键词列表提取实例,并规范化存储至Neo4j图数据库。应用图数据结构存储制度文件信息能够清晰地表示文件、条款、附件间的语义链接关系。在构建检索同义词表和同类词表基以扩充检索范围基础上,基于制度文件知识图谱语义链接关系进行制度文件检索,获得与检索词相关的精准全面的制度条款检索结果。最后,根据检索词及其同义词、同类词在节点“关键词”属性中的位置计算各条检索结果的检索词位置表征值,并进一步根据检索词位置表征值和部门特定检索需求对检索结果进行排序,从而获得符合用户需求的制度检索与推荐结果。
实施例3
本实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的基于大语言模型与语义融合的制度检索推荐方法。
实施例4
本实施例4提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如上所述的基于大语言模型与语义融合的制度检索推荐方法。
实施例5
本实施例5提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的基于大语言模型与语义融合的制度检索推荐方法的指令。
综上所述,本发明实施例提出了一种制度文件知识图谱模式层构建方法,为后续文本处理和知识图谱数据层构建提供依据;提出了一种基于正则表达式的制度文本分割方法,利用制度文件内固定关键字段作为匹配标识,保证了条款、附件内容提取的精准性。设计了一种基于大语言模型与传统语义融合的关键词提取方法,其中,大语言模型利用基于差分隐私技术的生成式预训练Transformer模型PrivateGPT读取、学习各条款、附件内容并输出关键词,能够达到后续模糊检索的目的,并且确保了绝对的数据安全;传统语义模型综合了词语的语义特征、统计特征和用户检索行为等多方面因素,为后续获得高效精准的检索结果打下基础;基于大语言模型的关键词提取结果与基于传统语义的关键词提取结果的融合确保了所提取的关键词能够精准全面地概括条款内容。提出了一种制度文件知识图谱数据层构建方法,并应用图数据结构存储制度文件信息能够清晰地表示文件、条款、附件间的语义链接关系,确保了后续能够充分挖掘检索信息。设计了一种基于检索词位置特征和用户特征的精细化检索与推荐方法,实现了符合用户需求的高效便捷精准全面的制度检索与推荐。
本发明提出的一种基于大语言模型与传统语义融合的制度精准检索与推荐方法,能够面向制度文件检索与推荐应用需求构建制度文件知识图谱模式层,为后续文本处理和知识图谱数据层构建提供依据;基于正则表达式对制度文件内的条款、附件内容进行精准提取;通过确保绝对数据安全的大语言模型提取高度概括条款、附件内容的关键词,综合语义特征、统计特征、用户检索行为等多方面因素的传统语义模型提取精准的关键词,并将基于大语言模型的关键词提取结果与基于传统语义的关键词提取结果进行融合,确保了条款、附件内容所提取关键词的准确性、全面性、安全性;基于模式层与关键词提取结果构建制度文件知识图谱数据层并应用图数据结构存储数据能够清晰地表示文件、条款、附件间的语义链接关系;构建了一种基于检索词位置特征和用户特征的精细化检索与推荐方法,能够提供满足用户需求的更加高效、便捷、精准、全面的制度检索与推荐服务。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于大语言模型与语义融合的制度检索推荐方法,其特征在于,包括:
面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层;
对制度文件进行统一格式转换,基于正则表达式对制度文本文件进行文本分割,获得各条款和附件的文本文件;
基于大语言模型与传统语义融合的关键词提取方法对各条款和附件文本进行关键词提取;
基于模式层和关键词提取结果构建制度文件知识图谱数据层,采用Neo4j图数据库规范化存储制度文件数据;
基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用。
2.根据权利要求1所述的基于大语言模型与语义融合的制度检索推荐方法,其特征在于,面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层,具体包括:
基于后续通过检索词匹配条款或附件中的关键词进而定位条款或附件,再通过条款或附件定位制度文件的检索需求,定义实体“文件”、“条款”和“附件”为节点,定义述谓关系“条款”、“附件”为边,表达文件、条款、附件间的结构关系,并以关键词属性作为“条款”实体节点属性,以附件名称属性、关键词属性作为“附件”实体节点属性,其中,关键词属性值应为按照相关程度由高至低排序的15个词语,词语之间以逗号分隔;
构建制度文件知识图谱模式层相关三元组结构,包括<文件,条款_,条款>、<文件,附件_,附件>、<条款,附件_,附件>、<条款,关键词属性_,关键词属性值>、<条款,关键词属性_,关键词属性值>、<附件,附件名称属性_,附件名称属性值>;
构建关系模式解构图G,关系模式表达式如下:
G={<Wi,Rt,Tj>、<Wi,Rf,Fm>、<Tj,Rf,Fm>、<Tj,Rk,Kn>、<Fm,Rk,Kn>、<Fm,Ra,Ab>}
其中,Wi、Ti、Fi分别表示文件、条款和附件实体,Ri表示述谓关系-条款,Rf表示述谓关系-附件,Rk表示关键词属性,Kn表示关键词属性值,Ra表示附件名称属性,Ab表示附件名称属性值。
3.根据权利要求2所述的基于大语言模型与语义融合的制度检索推荐方法,其特征在于,对制度文件进行统一格式转换,基于正则表达式对制度文本文件进行文本分割,获得各条款和附件的文本文件,具体包括:
对于给定的一个制度Word文件,将其另存为纯文本文件;对生成的文本文件的编码进行检测和转换,以ANSI编码保存;
读取上述生成的制度文本文件,用Python原始字符串格式编写正则表达式,匹配并捕获文本中的章节和条款,并将匹配结果存储在matches列表:
matches={第(z1)章,第(t1)条,m1},...,{第(zn)章,第(tn)条,mn};
其中,zi表示第i个匹配的章信息,ti表示第i个匹配的条款编号信息,mi表示第i个匹配的条款内容信息;
遍历匹配结果matches列表,处理制度文件内每个条款的内容,通过判断章和条的标记来排除章节标题内容,保留条款内容,并将条款内容添加至列表CK中:CK=[m1,m2,...,mn];其中,mi表示第i个匹配保留的条款内容;
对于最后一个提取的条款,考虑是否后续有附件的情况;若无附件,则最后一个条款内容保留方式与其他条款相同;若有附件,则通过查找“附件:”字段,将其之前的内容保留至列表CK中,将其之后的内容添加至列表AC中;遍历列表CK,为每个条款创建一个新的文本文件,以ANSI编码保存至指定输出文件夹中;若有附件,遍历列表AC,为附件内容创建一个新的文本文件,以ANSI编码保存至指定附件文件夹路径中;
若有附件,读取上述生成的附件文本文件内容,编写正则表达式r'附件(\d+)'匹配附件内容中的附件编号,根据匹配结果将附件内容分割为多个附件,并将各附件内容存储为单独的文本文件。
4.根据权利要求3所述的基于大语言模型与语义融合的制度检索推荐方法,其特征在于,基于大语言模型与传统语义融合的关键词提取方法对各条款和附件文本进行关键词提取,具体包括:
采用jieba分词工具对条款文本文件内容进行分词和词性标注后,去除停用词,只保留名词、动词、名形词、名动词和专有名词,获得候选词语列表CW;
计算CW中词语间的语义相似度、用居间度密度算法计算得到居间度密度集合G;
计算CW中各词语的词频-逆向文档频率(TF-IDF);
构建部门检索常用词表BW;
对G和各词语的统计特征值进行加权求和,侧重考虑部门检索常用词,得到词语wi的关键度计算函数;
按照所计算得到的各条款内各词语关键度值由高至低取10个词语作为各条款的关键词,获得各条款的基于传统语义的关键词列表Tyi;
利用基于差分隐私技术的生成式预训练Transformer模型PrivateGPT读取、学习制度文件的各条款内容,并输出各条款的关键词,获得基于大语言模型的关键词列表Tdi;
将关键词列表Tyi和Tdi进行合并,获得最终各条款的关键词列表Ti。
5.根据权利要求4所述的基于大语言模型与语义融合的制度检索推荐方法,其特征在于,基于模式层和关键词提取结果构建制度文件知识图谱数据层,采用Neo4j图数据库规范化存储制度文件数据,具体包括:
根据所构建的制度文件知识图谱模式层,在提取制度文件各条款、附件内容,提取各条款、附件关键词基础上,对各制度文件提取实例,构建制度文件知识图谱数据层;
利用python的py2neo工具包链接Neo4j图数据库,基于设定好的实体、关系、属性名称命名规范和图数据库存储规范将三元组结构和相关实例信息导入Neo4j图数据库中,构建制度文件知识图谱。
6.根据权利要求5所述的基于大语言模型与语义融合的制度检索推荐方法,其特征在于,基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用,具体包括:
构建基于制度文件专业知识的检索同义词表和同类词表,对各部门常用检索词进行同义词和同类词扩展;
输入检索词组Qw={Qw1,Qw2,...,Qwn},加载同义词表和同类词表,查找检索词组Qw内所有词语的同义词和同类词并将其合并为新的检索词组;
构建Neo4j图数据库查询语句"MATCH(n)WHERE n.`关键词`IS NOT NULL AND ANY(keyword IN{QK}WHERE n.`语义关键词`CONTAINS keyword)RETURN n",获得与检索词相关的制度条款检索结果;
对于检索结果中的每个节点,获取检索词及其同义词、同类词在节点“关键词”属性中的位置,并通过以下公式对各条检索结果的检索词位置表征值Tpl进行计算;
根据计算的各条检索结果的检索词位置表征值Tpl由低至高对检索结果进行排序,获得排序后的节点信息,完成制度文件检索与推荐任务;
对用户检索行为进行统计,更新部门检索常用词表BW。
7.一种基于大语言模型与语义融合的制度检索推荐系统,其特征在于,包括:
第一构建模块,用于面向制度文件检索与推荐应用需求,构建制度文件知识图谱模式层;
分割模块,用于对制度文件进行统一格式转换,基于正则表达式对制度文本文件进行文本分割,获得各条款和附件的文本文件;
提取模块,用于基于大语言模型与传统语义融合的关键词提取方法对各条款和附件文本进行关键词提取;
第二构建模块,用于基于模式层和关键词提取结果构建制度文件知识图谱数据层,采用Neo4j图数据库规范化存储制度文件数据;
推荐模块,用于基于检索词位置特征和用户特征构建精细化检索与推荐方法,实现制度检索与推荐应用。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-6任一项所述的基于大语言模型与语义融合的制度检索推荐方法。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如权利要求1-6任一项所述的基于大语言模型与语义融合的制度检索推荐方法。
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-6任一项所述的基于大语言模型与语义融合的制度检索推荐方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410209398.3A CN118260378A (zh) | 2024-02-26 | 2024-02-26 | 基于大语言模型与语义融合的制度检索推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410209398.3A CN118260378A (zh) | 2024-02-26 | 2024-02-26 | 基于大语言模型与语义融合的制度检索推荐方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118260378A true CN118260378A (zh) | 2024-06-28 |
Family
ID=91610259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410209398.3A Pending CN118260378A (zh) | 2024-02-26 | 2024-02-26 | 基于大语言模型与语义融合的制度检索推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118260378A (zh) |
-
2024
- 2024-02-26 CN CN202410209398.3A patent/CN118260378A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ebraheem et al. | DeepER--Deep Entity Resolution | |
US11194797B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format and providing schema-less query support data extraction | |
Uddin et al. | Semantic similarity measures for enhancing information retrieval in folksonomies | |
KR20170021227A (ko) | 온톨로지 매핑 방법 및 장치 | |
Rogushina et al. | Ontology-based competency analyses in new research domains | |
CA2788435A1 (en) | Method and system for conducting legal research using clustering analytics | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
US20120130999A1 (en) | Method and Apparatus for Searching Electronic Documents | |
Brochier et al. | Impact of the query set on the evaluation of expert finding systems | |
Rogushina | Use of Semantic Similarity Estimates for Unstructured Data Analysis. | |
Li et al. | Tagdeeprec: tag recommendation for software information sites using attention-based bi-lstm | |
Tang et al. | Risk minimization based ontology mapping | |
US9886488B2 (en) | Conceptual document analysis and characterization | |
Zamanirad et al. | Dynamic event type recognition and tagging for data-driven insights in law-enforcement | |
Bernhauer et al. | Open dataset discovery using context-enhanced similarity search | |
CN118260378A (zh) | 基于大语言模型与语义融合的制度检索推荐方法及系统 | |
Sheela et al. | Criminal event detection and classification in web documents using ANN classifier | |
Sukumar et al. | Knowledge Graph Generation for Unstructured Data Using Data Processing Pipeline | |
Elloumi | A new approach for textual feature selection based on N-composite isolated labels | |
Ryu et al. | Experts community memory for entity similarity functions recommendation | |
Manzoor et al. | Toward a new paradigm for author name disambiguation | |
Asfoor et al. | Unleash the Potential of Upstream Data Using Search, AI and Computer Vision | |
Rezayi et al. | A Framework for Knowledge-Derived Query Suggestions | |
Bagheri et al. | Sentiment miner: a novel unsupervised framework for aspect detection from customer reviews | |
Achichi et al. | Doing Web Data: from Dataset Recommendation to Data Linking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |