CN116991977B - 一种基于大语言模型的领域向量知识精准检索方法及装置 - Google Patents

一种基于大语言模型的领域向量知识精准检索方法及装置 Download PDF

Info

Publication number
CN116991977B
CN116991977B CN202311234754.9A CN202311234754A CN116991977B CN 116991977 B CN116991977 B CN 116991977B CN 202311234754 A CN202311234754 A CN 202311234754A CN 116991977 B CN116991977 B CN 116991977B
Authority
CN
China
Prior art keywords
file
sub
txt
vector data
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311234754.9A
Other languages
English (en)
Other versions
CN116991977A (zh
Inventor
刘斐
许朗
许文宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Bufan Intelligent Technology Co ltd
Original Assignee
Chengdu Bufan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Bufan Intelligent Technology Co ltd filed Critical Chengdu Bufan Intelligent Technology Co ltd
Priority to CN202311234754.9A priority Critical patent/CN116991977B/zh
Publication of CN116991977A publication Critical patent/CN116991977A/zh
Application granted granted Critical
Publication of CN116991977B publication Critical patent/CN116991977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大语言模型的领域向量知识精准检索方法及装置,所述方法包括:将候选格式文件转化为若干个子TXT文件,并对内容向量化,建立文件向量数据库;将每个子TXT文件的关键信息结构化,作为对应子TXT文件的元数据保存至文件向量数据库中;在接收到用户输入的检索问题时,依次进行结构化数据的第一次查询匹配以及向量化数据的第二次查询匹配,确定目标文件向量数据对应的子TXT文件作为检索输出结果。本发明构建了文件向量数据库,再通过两次查询匹配,最终实现基于大语言模型的领域向量知识精准检索,解决了目前非结构化文本数据检索准确性与检索效率不高的技术问题。

Description

一种基于大语言模型的领域向量知识精准检索方法及装置
技术领域
本发明涉及文本数据处理技术领域,尤其涉及到一种基于大语言模型的领域向量知识精准检索方法及装置。
背景技术
随着当前信息网络技术的飞速发展,各个企事业单位的信息化水平逐步提高,单位内部的各种非结构化数据知识库文件也呈指数增长。这些文件中包含了丰富的知识数据,是一笔宝贵的数据资产。这部分数据主要是由非结构化的电子文档组成,且文档中主要以自然文本和表格的形式组成。为了最大化的利用该部分数据资产,企业通常会考虑选择使用自然语言处理工具集来处理和使用数据。首先会使用自然语言向量化模型直接将所有原始非结构化文本数据向量化,提取文件中文本的表征数据;然后将向量化表征数据和原始数据建立索引关系,并存入到向量数据库中;最后当需要检索知识数据时,使用自然语言的工具将检索内容向量化,使用向量相似度搜索算法,在向量数据库中检索与之最匹配的文件内容。从以上几个步骤可以完成非结构化文本知识的基本使用。
通过以上的操作和处理数据的方法,虽然能够完成基本的非结构化文档内容的搜索,但是从实际方面仍然不能表现出很好的效果。主要原因归结为以下几点:一方面是因为待向量化非结构化文本数据没有经过数据预处理,存在着很多干扰内容,如文本目录、标题、特殊字符等,最后会导致搜索结果可能包含无意义的内容;一方面是因为向量化文本内容存在一词多义,文件主体内容不聚焦,数字类内容意义不强烈等问题,导致向量化搜索结果失准;一方面传统的自然语言工具只能提取检索问题关键词和语义,但是无法有效理解问题的意图,导致搜索结果可能无法和问题匹配;最后由于向量化搜索算法采用的是相似度算法,无法精准定位文本,只能是概率统计模糊检索。
发明内容
本发明的主要目的在于提供一种基于大语言模型的领域向量知识精准检索方法及装置,旨在解决目前非结构化文本数据检索准确性与检索效率不高的技术问题。
为实现上述目的,本发明提供一种基于大语言模型的领域向量知识精准检索方法,所述方法,包括以下步骤:
将候选格式文件转化为若干个子TXT文件,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系;
将每个子TXT文件的内容向量化,获得每个子TXT文件的文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库;其中,所述文件向量数据库包括与每个子TXT文件具有对应索引关系的文件向量数据;
将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系;
在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,在文件向量数据库中的元数据中匹配满足所述查询条件的向量数据集,获得若干个文件向量数据;
将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组;
基于所述文件向量数据库中每个文件向量数据对应的子TXT文件索引关系,确定所述文件向量数据组中每个目标文件向量数据对应的子TXT文件,作为检索输出结果。
可选的,将候选格式文件转化为若干个子TXT文件步骤,具体包括:
调用文件格式转换工具,将候选格式文件统一转化为TXT格式文件;
调用文件拆分工具,按照预设拆分规则,将每个TXT格式文件拆分为若干个子TXT文件。
可选的,所述预设拆分规则包括:按初始字数值为间隔对每个TXT格式文件进行拆分为若干个子TXT文件。
可选的,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系步骤,具体包括:
调用文本标注工具,打开每个子TXT文件;
响应于用户的标注动作,提取出每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系。
可选的,将每个子TXT文件的内容向量化,获得每个子TXT文件的文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库步骤,具体包括:
调用自然语言句法分析模型,将每个子TXT文件的内容拆分为若干个句子,获得每个子TXT文件的句子列表;
调用自然语言向量化模型,将所述句子列表向量化,获得文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库。
可选的,将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系步骤,具体包括:
调用语料标注工具,将子TXT文件加载至标注空间;
使用自然语言分词模型,辅助提取出子TXT文件中的关键信息组,响应于用户的选择动作,确定所述关键信息组中的目标关键信息;
将所述目标关键信息以结构化格式输出,获得每个子TXT文件的结构化数据,并将所述结构化数据保存至文件向量数据库中;
基于文件向量数据库中每个子TXT文件与文件向量数据的索引关系,在文件向量数据库中建立与同一子TXT文件具有关联关系的文件向量数据和结构化数据的对应关系。
可选的,在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,在文件向量数据库中的元数据中匹配满足所述查询条件的向量数据集,获得若干个文件向量数据步骤,具体包括:
在接收到用户输入的检索问题时,提取所述检索问题中的查询条件;其中,所述查询条件包括关键词和关系信息;
基于所述关键词和所述关系信息,在文件向量数据库中的结构化数据中匹配满足所述查询条件的向量数据集,获得具有若干个文件向量数据的向量数据集。
可选的,将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组步骤,具体包括:
调用自然语言向量化模型,将检索问题向量化,获得检索问题向量数据;
基于所述检索问题向量数据与满足查询条件的向量数据集中的若干个文件向量数据,采用文本相似度算法,计算每个文件向量数据与检索问题向量数据的相似度,并根据相似度阈值,确定作为输出结果的文件向量数据组。
可选的,所述方法,还包括:
获取用户在目标时间周期内根据所述检索输出结果反馈的检索准确率;其中,所述检索准确率为检索输出结果具有用户需求内容的检索次数与目标时间周期内所有检索次数的比值;
根据所述检索准确率与预设检索准确率阈值范围,调节所述预设拆分规则中的初始字数值;其中,当检索准确率高于预设检索准确率阈值范围时,减少初始字数值,当检索准确率低于预设检索准确率阈值范围时,增大初始字数值。
此外,为了实现上述目的,本发明还提供了一种基于大语言模型的领域向量知识精准检索装置,所述装置包括:
提取模块,用于将候选格式文件转化为若干个子TXT文件,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系;
建立模块,用于将每个子TXT文件的内容向量化,获得每个子TXT文件的文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库;其中,所述文件向量数据库包括与每个子TXT文件具有对应索引关系的文件向量数据;
生成模块,用于将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系;
匹配模块,用于在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,在文件向量数据库中的元数据中匹配满足所述查询条件的向量数据集,获得若干个文件向量数据;
获得模块,用于将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组;
确定模块,用于基于所述文件向量数据库中每个文件向量数据对应的子TXT文件索引关系,确定所述文件向量数据组中每个目标文件向量数据对应的子TXT文件,作为检索输出结果。
此外,为了实现上述目的,本发明还提供了一种基于大语言模型的领域向量知识精准检索设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大语言模型的领域向量知识精准检索程序,所述基于大语言模型的领域向量知识精准检索程序被所述处理器执行时实现上述的基于大语言模型的领域向量知识精准检索方法的步骤。
此外,为了实现上述目的,本发明还提供了一种存储介质,所述存储介质上存储有基于大语言模型的领域向量知识精准检索程序,所述基于大语言模型的领域向量知识精准检索程序被处理器执行时实现上述的基于大语言模型的领域向量知识精准检索方法的步骤。
本发明实施例提出的一种基于大语言模型的领域向量知识精准检索方法及装置,所述方法包括:将候选格式文件转化为若干个子TXT文件,将每个子TXT文件的内容向量化,建立文件向量数据库;将每个子TXT文件的关键信息结构化,并将结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系;在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,依次进行结构化数据的第一次查询匹配以及向量化数据的第二次查询匹配,确定所述文件向量数据组中每个目标文件向量数据对应的子TXT文件,作为检索输出结果。本发明通过将候选格式文件转化为TXT格式后分别进行关键信息提取与文件向量化,构建文件向量数据库,再通过两次查询匹配,最终实现基于大语言模型的领域向量知识精准检索,解决了目前非结构化文本数据检索准确性与检索效率不高的技术问题。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明基于大语言模型的领域向量知识精准检索方法实施例的流程示意图;
图3为本发明基于大语言模型的领域向量知识精准检索的原理示意图;
图4为本发明实施例中一种基于大语言模型的领域向量知识精准检索装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。
如图1所示,该装置可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的装置的结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大语言模型的领域向量知识精准检索程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于大语言模型的领域向量知识精准检索程序,并执行以下操作:
将候选格式文件转化为若干个子TXT文件,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系;
将每个子TXT文件的内容向量化,获得每个子TXT文件的文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库;其中,所述文件向量数据库包括与每个子TXT文件具有对应索引关系的文件向量数据;
将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系;
在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,在文件向量数据库中的元数据中匹配满足所述查询条件的向量数据集,获得若干个文件向量数据;
将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组;
基于所述文件向量数据库中每个文件向量数据对应的子TXT文件索引关系,确定所述文件向量数据组中每个目标文件向量数据对应的子TXT文件,作为检索输出结果。
本发明应用于装置的具体实施例与下述应用基于大语言模型的领域向量知识精准检索方法的各实施例基本相同,在此不作赘述。
本发明实施例提供了一种基于大语言模型的领域向量知识精准检索方法,参照图2,图2为本发明基于大语言模型的领域向量知识精准检索方法实施例的流程示意图。
本实施例中,所述基于大语言模型的领域向量知识精准检索方法包括以下步骤:
S100:将候选格式文件转化为若干个子TXT文件,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系;
S200:将每个子TXT文件的内容向量化,获得每个子TXT文件的文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库;其中,所述文件向量数据库包括与每个子TXT文件具有对应索引关系的文件向量数据;
S300:将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系;
S400:在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,在文件向量数据库中的元数据中匹配满足所述查询条件的向量数据集,获得若干个文件向量数据;
S500:将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组;
S600:基于所述文件向量数据库中每个文件向量数据对应的子TXT文件索引关系,确定所述文件向量数据组中每个目标文件向量数据对应的子TXT文件,作为检索输出结果。
在优选的实施例中,将候选格式文件转化为若干个子TXT文件步骤,具体包括:
步骤S101:调用文件格式转换工具,将候选格式文件统一转化为TXT格式文件;
步骤S102:调用文件拆分工具,按照预设拆分规则,将每个TXT格式文件拆分为若干个子TXT文件。
在优选的实施例中,所述预设拆分规则包括:按初始字数值为间隔对每个TXT格式文件进行拆分为若干个子TXT文件。
在优选的实施例中,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系步骤,具体包括:
步骤S103:调用文本标注工具,打开每个子TXT文件;
步骤S104:响应于用户的标注动作,提取出每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系。
在优选的实施例中,将每个子TXT文件的内容向量化,获得每个子TXT文件的文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库步骤,具体包括:
步骤S201:调用自然语言句法分析模型,将每个子TXT文件的内容拆分为若干个句子,获得每个子TXT文件的句子列表;
步骤S202:调用自然语言向量化模型,将所述句子列表向量化,获得文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库。
在优选的实施例中,将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系步骤,具体包括:
步骤S301:调用语料标注工具,将子TXT文件加载至标注空间;
步骤S302:使用自然语言分词模型,辅助提取出子TXT文件中的关键信息组,响应于用户的选择动作,确定所述关键信息组中的目标关键信息;
步骤S303:将所述目标关键信息以结构化格式输出,获得每个子TXT文件的结构化数据,并将所述结构化数据保存至文件向量数据库中;
步骤S304:基于文件向量数据库中每个子TXT文件与文件向量数据的索引关系,在文件向量数据库中建立与同一子TXT文件具有关联关系的文件向量数据和结构化数据的对应关系。
在优选的实施例中,在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,在文件向量数据库中的元数据中匹配满足所述查询条件的向量数据集,获得若干个文件向量数据步骤,具体包括:
步骤S401:在接收到用户输入的检索问题时,提取所述检索问题中的查询条件;其中,所述查询条件包括关键词和关系信息;
步骤S402:基于所述关键词和所述关系信息,在文件向量数据库中的结构化数据中匹配满足所述查询条件的向量数据集,获得具有若干个文件向量数据的向量数据集。
在优选的实施例中,将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组步骤,具体包括:
步骤S501:调用自然语言向量化模型,将检索问题向量化,获得检索问题向量数据;
步骤S502:基于所述检索问题向量数据与满足查询条件的向量数据集中的若干个文件向量数据,采用文本相似度算法,计算每个文件向量数据与检索问题向量数据的相似度,并根据相似度阈值,确定作为输出结果的文件向量数据组。
在优选的实施例中,所述方法,还包括:
步骤S701:获取用户在目标时间周期内根据所述检索输出结果反馈的检索准确率;其中,所述检索准确率为检索输出结果具有用户需求内容的检索次数与目标时间周期内所有检索次数的比值;
步骤S702:根据所述检索准确率与预设检索准确率阈值范围,调节所述预设拆分规则中的初始字数值;其中,当检索准确率高于预设检索准确率阈值范围时,减少初始字数值,当检索准确率低于预设检索准确率阈值范围时,增大初始字数值。
在本实施例中,提供一种基于大语言模型的领域向量知识精准检索方法,通过将候选格式文件转化为TXT格式后分别进行关键信息提取与文件向量化,构建文件向量数据库,再通过两次查询匹配,最终实现基于大语言模型的领域向量知识精准检索,解决了目前非结构化文本数据检索准确性与检索效率不高的技术问题。
为了更清楚的解释本申请,下面提供基于大语言模型的领域向量知识精准检索方法的具体实例。
如图3所示,本实施例使用大语言模型来辅助提取和标注非结构化文本数据,给向量化文本数据增加结构化元数据,并通过元素数据提升数据的检索精度。其主要的技术方案步骤如下:
(1)通过数据预处理工具,将领域非结构化文本数据进行文本格式转换,将指定格式的文件(包括不限于word、pdf、xml、excel等)转换成txt格式数据。
(2)通过文档拆分工具,使用txt格式文件进行适当的拆分,然后去除文本数据中的目录、标题、特殊字符、无效内容等,按字数或者段落保存为大小合适的文本文件。
(3)通过数据标注工具,根据文件内容将文本文件中的关键信息点提取出来,如时间、地点、数字、人物、地名等,将这些关键信息组成结构化的数据,并建立和文本文件的关联关系。
(4)通过向量化模型将文本文件内容向量化,结合上一步产生的结构化数据,一起存入向量数据库形成向量索引和向量数据的结构化元数据。
(5)通过大语言模型理解知识检索问题,提取问题关键词和关键词关系,形成基于关键词的结构化问答数据和知识检索问题向量。
(6)通过问题中提取的结构化问答数据,先使用结构化数据在向量数据库中精确检索出向量子集;再使用知识检索问题向量在向量子集中使用向量相似度检索算法检索出和问题最相关的top-k向量集,形成最终的检索结果输出。
具体而言,在通信领域用户有大批量的PDF文本文件,需要通过一个问题查询和问题最相关的内容在PDF文本文件中的哪一个段落,并输出段落内容。针对该场景的操作分成2个部分组成:
PDF文件集向量化入库
通过文件处理工具批量导入PDF文件集,并行处理文件入库,见图3步骤01;
调用文件格式转换工具将PDF文件全部转换成TXT格式文件,见图3步骤02,并暂存待用;
使用文件拆分工具,将所有TXT文件,按字数将文件拆分成若干子TXT文件,见图3步骤03;
通过文本标注工具打开子TXT文件,并标注提取出该段文字内容的关键信息,见图3步骤04,并保存关键信息和子TXT文件的关系;
通过自然语言向量化模型将子TXT文件内容向量化,见图3步骤04,具体操作子实例如下:
S1:将子TXT文件作为输入,并读取文件内容。
S2:使用开源HanLP模型的成分句法分析功能,将上述文件内容按分解成若干句子,并输出子TXT文件的句子列表。
S3:使用CoSNET架构的开源向量化模型text2vec-large-chinese,将上述的句子列表向量化,形成最终的向量数组。
S4:将向量数据和子TXT句子列表原文一并存入向量数据库中。
使用系统化的工具,从子TXT提取的关键信息结构化,并把该结构化数据作为子TXT文件向量的元数据,并把两部分数据存储到向量数据库中,见上图步骤06,具体的操作子实例如下:
S1:使用语料标注工具doccano,加载子TXT文件至标注空间。
S2:使用开源HanLP模型的分词功能,辅助提取出子TXT文本段落中的关键词。
S3:人为根据文本大意,选择和该文本最相关的一组关键词,作为主要的结构化数据源,并输出标准的JSON格式的标注数据。
S4:从JSON格式的标注数据文件中解析出关键词数据,如主题、类型、时间、地点、人物、事件、数字等,最终输出NoSQL格式的结构化数据。
S5:在向量数据库中找到已经向量化完成的该子TXT文件索引,并将S4输出的结构化数据作为元数据保存至对应索引的向量库中,形成向量数据和结构化数据的对应关系。
通过问题查询相关的PDF文件内容
用户输入知识查询问题,见图3步骤07,使用大语言模型提取问题中的关键词和关系信息,见图3步骤08;
通过问题中提取的关键词信息,见图3步骤09,在向量数据库中的扩展元数据部分精准搜索和其相关的向量库子集top-k,见图3步骤10;
判断返回的向量库子集是否存在数据,如果不存在数据则返回空,搜索结束;如果存在向量库子集,则通过将问题向量化,见图3步骤11,并使用其在向量库子集中,使用相似度搜索算法查询最相关的向量结果,见图3步骤12;
通过查询的向量结果数据的索引,找到向量数据库中对应的文本源数据,并返回查询结果,见图3步骤13,具体的操作子实例如下:
比如用户提出一个查询问题为:2008年以后有哪些电信热点技术?
S1:使用开源大语言模型chat-GML2-6B提取问题中的关键词和关系,关键词信息:电信、热点技术,关系为:时间大于2008年。
S2:根据上述的关键词和关系,可以将查询条件转换为结构化查询条件:主题包含“电信”,同时类型包含“热点技术”,且时间大于2008年。
S3:使用上述条件在向量数据库中,第一次先使用类NOSQL语法结构条件查询,主题包含“电信”,且类型包含“热点技术”,且时间大于2008年;最后查询结构返回查询子集,且子集向量数组(K,768)中每条数据包含了向量索引和对应的向量数据。
S4:使用CoSNET架构的开源向量化模型text2vec-large-chinese,将查询问题“2008年以后有哪些电信热点技术?”向量化输出,问题向量化多维数组(1,768)。
S5:使用文本相似度计算算法Cosine Similarty + topk,第二次计算问题向量化多维数组(1,768)与子集向量数组(K,768)中相似度,并返回小于设置阈值的一组查询结果集。
S6:通过上述返回的结果集中的向量索引,查询出向量对应的原文本源数据并返回。
在实际应用中,对TXT格式文件进行拆分时,是根据预设拆分规则(即按字数进行拆分),并且在拆分后进行关键信息结构化提取过程中,需要在自然语言分词模型对子TXT文件提取出分词之后,从分词结果中人为选取关键信息并结构化,而若预设拆分规则中的初始字数多时,获得的每个子TXT文件中具有更多的字数与句式,进而在进行向量相似度计算与匹配时,具有更高的准确性,但由于每个子TXT文件中具有更多的字数与句式,在人为从众多的分词结果中选取最准确的关键信息的难度将增大,导致向量数据库构建效率显著降低;反之,若预设拆分规则中的初始字数少,虽然向量数据库构建效率提升,但相似度计算匹配准确性将会降低。因此,本实施例通过监测目标时间周期内的检索准确率来调节后续候选文本进入向量数据库时的处理过程,根据检索准确率调节初始字数值,使系统在允许的检索准确率范围内尽可能降低人力成本,提升向量数据库构建效率。
由此,本实施例提出了一种基于大语言模型的领域向量知识精准检索方法,通过数据预处理过程,将原本直接向量化的文件做了格式转换、内容清理和文件拆分,将源文件变成更干净的TXT文件子集,通过在提取向量化文件中的关键信息,并将该部分数据结构化作为向量文件的元数据,增加文件搜索的条件,通过大语言模型提取理解问题关键信息,解析出问题的关键信息和关系,并先通过关键信息的确切内容精准搜索向量库,再通过问题向量空间搜索子向量库,通过2次搜索使搜索结果更加精准有效。
参照图4,图4为本发明基于大语言模型的领域向量知识精准检索装置第一实施例的结构框图。
如图4所示,本发明实施例提出的基于大语言模型的领域向量知识精准检索装置包括:
提取模块10,用于将候选格式文件转化为若干个子TXT文件,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系;
建立模块20,用于将每个子TXT文件的内容向量化,获得每个子TXT文件的文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库;其中,所述文件向量数据库包括与每个子TXT文件具有对应索引关系的文件向量数据;
生成模块30,用于将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系;
匹配模块40,用于在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,在文件向量数据库中的元数据中匹配满足所述查询条件的向量数据集,获得若干个文件向量数据;
获得模块50,用于将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组;
确定模块60,用于基于所述文件向量数据库中每个文件向量数据对应的子TXT文件索引关系,确定所述文件向量数据组中每个目标文件向量数据对应的子TXT文件,作为检索输出结果。
本发明基于大语言模型的领域向量知识精准检索装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
此外,本发明还提出一种基于大语言模型的领域向量知识精准检索设备,其特征在于,所述基于大语言模型的领域向量知识精准检索设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大语言模型的领域向量知识精准检索程序,其中:所述基于大语言模型的领域向量知识精准检索程序被所述处理器执行时实现本发明各个实施例所述的基于大语言模型的领域向量知识精准检索方法。
本申请基于大语言模型的领域向量知识精准检索设备的具体实施方式与上述基于大语言模型的领域向量知识精准检索方法各实施例基本相同,在此不再赘述。
此外,本发明还提出一种可读存储介质,所述可读存储介质包括计算机可读存储介质,其上存储有基于大语言模型的领域向量知识精准检索程序。所述可读存储介质可以是图1的终端中的存储器1005,也可以是如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘中的至少一种,所述可读存储介质包括若干指令用以使得一台具有处理器的基于大语言模型的领域向量知识精准检索设备执行本发明各个实施例所述的基于大语言模型的领域向量知识精准检索方法。
本申请可读存储介质中基于大语言模型的领域向量知识精准检索程序的具体实施方式与上述基于大语言模型的领域向量知识精准检索方法各实施例基本相同,在此不再赘述。
可以理解的是,在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于大语言模型的领域向量知识精准检索方法,其特征在于,所述方法,包括以下步骤:
将候选格式文件转化为若干个子TXT文件,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系;
将每个子TXT文件的内容向量化,获得每个子TXT文件的文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库;其中,所述文件向量数据库包括与每个子TXT文件具有对应索引关系的文件向量数据;具体包括:调用自然语言句法分析模型,将每个子TXT文件的内容拆分为若干个句子,获得每个子TXT文件的句子列表;调用自然语言向量化模型,将所述句子列表向量化,获得文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库;
将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系;
在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,在文件向量数据库中的元数据中匹配满足所述查询条件的向量数据集,获得若干个文件向量数据;具体包括:在接收到用户输入的检索问题时,提取所述检索问题中的查询条件;其中,所述查询条件包括关键词和关系信息;基于所述关键词和所述关系信息,在文件向量数据库中的结构化数据中匹配满足所述查询条件的向量数据集,获得具有若干个文件向量数据的向量数据集;
将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组;
基于所述文件向量数据库中每个文件向量数据对应的子TXT文件索引关系,确定所述文件向量数据组中每个目标文件向量数据对应的子TXT文件,作为检索输出结果。
2.如权利要求1所述的基于大语言模型的领域向量知识精准检索方法,其特征在于,将候选格式文件转化为若干个子TXT文件步骤,具体包括:
调用文件格式转换工具,将候选格式文件统一转化为TXT格式文件;
调用文件拆分工具,按照预设拆分规则,将每个TXT格式文件拆分为若干个子TXT文件。
3.如权利要求2所述的基于大语言模型的领域向量知识精准检索方法,其特征在于,所述预设拆分规则包括:按初始字数值为间隔对每个TXT格式文件进行拆分为若干个子TXT文件。
4.如权利要求1所述的基于大语言模型的领域向量知识精准检索方法,其特征在于,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系步骤,具体包括:
调用文本标注工具,打开每个子TXT文件;
响应于用户的标注动作,提取出每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系。
5.如权利要求1所述的基于大语言模型的领域向量知识精准检索方法,其特征在于,将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系步骤,具体包括:
调用语料标注工具,将子TXT文件加载至标注空间;
使用自然语言分词模型,辅助提取出子TXT文件中的关键信息组,响应于用户的选择动作,确定所述关键信息组中的目标关键信息;
将所述目标关键信息以结构化格式输出,获得每个子TXT文件的结构化数据,并将所述结构化数据保存至文件向量数据库中;
基于文件向量数据库中每个子TXT文件与文件向量数据的索引关系,在文件向量数据库中建立与同一子TXT文件具有关联关系的文件向量数据和结构化数据的对应关系。
6.如权利要求3所述的基于大语言模型的领域向量知识精准检索方法,其特征在于,将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组步骤,具体包括:
调用自然语言向量化模型,将检索问题向量化,获得检索问题向量数据;
基于所述检索问题向量数据与满足查询条件的向量数据集中的若干个文件向量数据,采用文本相似度算法,计算每个文件向量数据与检索问题向量数据的相似度,并根据相似度阈值,确定作为输出结果的文件向量数据组。
7.如权利要求6所述的基于大语言模型的领域向量知识精准检索方法,其特征在于,所述方法,还包括:
获取用户在目标时间周期内根据所述检索输出结果反馈的检索准确率;其中,所述检索准确率为检索输出结果具有用户需求内容的检索次数与目标时间周期内所有检索次数的比值;
根据所述检索准确率与预设检索准确率阈值范围,调节所述预设拆分规则中的初始字数值;其中,当检索准确率高于预设检索准确率阈值范围时,减少初始字数值,当检索准确率低于预设检索准确率阈值范围时,增大初始字数值。
8.一种基于大语言模型的领域向量知识精准检索装置,其特征在于,所述装置包括:
提取模块,用于将候选格式文件转化为若干个子TXT文件,提取每个子TXT文件中的关键信息,并建立每个子TXT文件和关键信息的对应关系;
建立模块,用于将每个子TXT文件的内容向量化,获得每个子TXT文件的文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库;其中,所述文件向量数据库包括与每个子TXT文件具有对应索引关系的文件向量数据;具体包括:调用自然语言句法分析模型,将每个子TXT文件的内容拆分为若干个句子,获得每个子TXT文件的句子列表;调用自然语言向量化模型,将所述句子列表向量化,获得文件向量数据,并基于所有子TXT文件的文件向量数据,建立文件向量数据库;
生成模块,用于将每个子TXT文件的关键信息结构化,获得每个子TXT文件的结构化数据,并将所述结构化数据作为对应子TXT文件的元数据保存至文件向量数据库中,生成文件向量数据和结构化数据的对应关系;
匹配模块,用于在接收到用户输入的检索问题时,根据所述检索问题中的查询条件,在文件向量数据库中的元数据中匹配满足所述查询条件的向量数据集,获得若干个文件向量数据;具体包括:在接收到用户输入的检索问题时,提取所述检索问题中的查询条件;其中,所述查询条件包括关键词和关系信息;基于所述关键词和所述关系信息,在文件向量数据库中的结构化数据中匹配满足所述查询条件的向量数据集,获得具有若干个文件向量数据的向量数据集;
获得模块,用于将所述检索问题向量化,获得检索问题向量数据,并基于所述检索问题向量数据与若干个文件向量数据,获得文本相似度满足匹配条件的文件向量数据组;
确定模块,用于基于所述文件向量数据库中每个文件向量数据对应的子TXT文件索引关系,确定所述文件向量数据组中每个目标文件向量数据对应的子TXT文件,作为检索输出结果。
CN202311234754.9A 2023-09-25 2023-09-25 一种基于大语言模型的领域向量知识精准检索方法及装置 Active CN116991977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311234754.9A CN116991977B (zh) 2023-09-25 2023-09-25 一种基于大语言模型的领域向量知识精准检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311234754.9A CN116991977B (zh) 2023-09-25 2023-09-25 一种基于大语言模型的领域向量知识精准检索方法及装置

Publications (2)

Publication Number Publication Date
CN116991977A CN116991977A (zh) 2023-11-03
CN116991977B true CN116991977B (zh) 2023-12-05

Family

ID=88528575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311234754.9A Active CN116991977B (zh) 2023-09-25 2023-09-25 一种基于大语言模型的领域向量知识精准检索方法及装置

Country Status (1)

Country Link
CN (1) CN116991977B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574858A (zh) * 2023-11-24 2024-02-20 深圳夸夸菁领科技有限公司 一种基于大语言模型的类案检索报告自动生成方法
CN117688220A (zh) * 2023-12-12 2024-03-12 山东浪潮科学研究院有限公司 一种基于大语言模型的多模态信息检索方法及系统
CN117971830B (zh) * 2024-01-30 2024-10-18 广州市博雅信息科技有限公司 一种基于向量数据库的双链应用方法
CN117971829B (zh) * 2024-01-30 2024-08-30 广州市博雅信息科技有限公司 一种基于点阵技术和向量数据库的双链应用方法
CN117743556B (zh) * 2024-02-07 2024-04-16 创意信息技术股份有限公司 一种基于知识库的多轮问答意图识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020453A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 基于本体技术的结构化电子病历生成方法
CN105677864A (zh) * 2016-01-08 2016-06-15 国网冀北电力有限公司 电网调度结构化数据的检索方法及装置
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质
CN111651474A (zh) * 2020-06-02 2020-09-11 东云睿连(武汉)计算技术有限公司 一种自然语言至结构化查询语言的转换方法及系统
CN113495900A (zh) * 2021-08-12 2021-10-12 国家电网有限公司大数据中心 基于自然语言的结构化查询语言语句获取方法及装置
WO2023134057A1 (zh) * 2022-01-11 2023-07-20 平安科技(深圳)有限公司 事务信息查询方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020453A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 基于本体技术的结构化电子病历生成方法
CN105677864A (zh) * 2016-01-08 2016-06-15 国网冀北电力有限公司 电网调度结构化数据的检索方法及装置
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质
CN111651474A (zh) * 2020-06-02 2020-09-11 东云睿连(武汉)计算技术有限公司 一种自然语言至结构化查询语言的转换方法及系统
CN113495900A (zh) * 2021-08-12 2021-10-12 国家电网有限公司大数据中心 基于自然语言的结构化查询语言语句获取方法及装置
WO2023134057A1 (zh) * 2022-01-11 2023-07-20 平安科技(深圳)有限公司 事务信息查询方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种面向领域文档的结构化检索模型及其在农技处方检索中的应用;刘彤;倪维健;;计算机科学(第10期);281-286 *
基于自然语言处理的疑似侵权专利智能检索研究;金健;中国优秀硕士学位论文全文数据库 信息科技辑(第01期);I138-1877 *

Also Published As

Publication number Publication date
CN116991977A (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN116991977B (zh) 一种基于大语言模型的领域向量知识精准检索方法及装置
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
US8073877B2 (en) Scalable semi-structured named entity detection
US20040162827A1 (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
CN112989055B (zh) 文本识别方法、装置、计算机设备和存储介质
CN109840255B (zh) 答复文本生成方法、装置、设备及存储介质
US8386238B2 (en) Systems and methods for evaluating a sequence of characters
Rajput et al. BNOSA: A Bayesian network and ontology based semantic annotation framework
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN110727769A (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
CN118377881A (zh) 智能问答方法、系统、装置、计算机设备和可读存储介质
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
CN118035405A (zh) 一种基于大模型的知识库问答构建方法及装置
WO2009113494A1 (ja) Wwwを情報源として記述的な回答が可能な質問応答システム
CN117688151A (zh) 基于知识库的问答方法、装置、计算机设备及存储介质
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
Sabri et al. WEIDJ: Development of a new algorithm for semi-structured web data extraction
CN110930189A (zh) 基于用户行为的个性化营销方法
KR20190072883A (ko) 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법
CN113807429B (zh) 企业的分类方法、装置、计算机设备和存储介质
KR102608736B1 (ko) 질의에 대한 문서 검색 방법 및 장치
CN118626617A (zh) 基于知识图谱的大模型多文档问答方法及装置
CN117891905A (zh) 对话响应处理方法、装置、电子设备及存储介质
CN117874170A (zh) 一种领域模型检索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant