CN117171331A - 基于大型语言模型的专业领域信息交互方法、装置及设备 - Google Patents

基于大型语言模型的专业领域信息交互方法、装置及设备 Download PDF

Info

Publication number
CN117171331A
CN117171331A CN202311439977.9A CN202311439977A CN117171331A CN 117171331 A CN117171331 A CN 117171331A CN 202311439977 A CN202311439977 A CN 202311439977A CN 117171331 A CN117171331 A CN 117171331A
Authority
CN
China
Prior art keywords
information
text
interaction
data
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311439977.9A
Other languages
English (en)
Other versions
CN117171331B (zh
Inventor
徐�明
李楠
齐剑川
郭静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202311439977.9A priority Critical patent/CN117171331B/zh
Publication of CN117171331A publication Critical patent/CN117171331A/zh
Application granted granted Critical
Publication of CN117171331B publication Critical patent/CN117171331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及人工智能及文本信息处理领域,特别涉及一种基于大型语言模型的专业领域信息交互方法、装置及设备,包括:根据用户的首次内容信息在向量数据库中检索,得到第一相似信息;根据首次内容信息和第一相似信息生成第一输入信息并输入至语言模型得到第一输出结果,若接收到用户的第二内容信息,则将第一输出结果存储至历史交互数据,并将历史交互数据中的第一部分数据输入至语言模型得到第二输出结果,根据第二输出结果和第二内容信息得到目标输入变量并输入至向量数据库,得到第二相似信息,根据第二相似信息和第二内容信息得到第二输入信息并输入至语言模型得到交互结果,并输出给用户。由此,为用户提供了更精准、更专业的回答。

Description

基于大型语言模型的专业领域信息交互方法、装置及设备
技术领域
本发明涉及人工智能及文本信息处理领域,特别涉及一种基于大型语言模型的专业领域信息交互方法、装置及设备。
背景技术
相关技术中,由于大型语言模型在处理科研领域的专业问题时的局限性,将文献内容进行嵌入处理并存储于向量数据库成为一种有效的策略。此外,为最大限度保留聊天记录信息、使当前的completion(结果)能够参考前面的聊天记录,ChatGPT(ChatGenerative Pre-trained Transformer,聊天生成型预训练变换模型)会将所有聊天记录文本内容保留在prompt(提示词)中,若聊天记录token(文本数据中的一个单元)大于4096,则对最早的聊天记录进行截断,以ChatGPT的GPT-3.5-turbo模型为例,当一次prompt的token数量达到4096时,为了保留新的聊天信息,ChatGPT会对最早的聊天记录进行截断。
然而,训练上述技术中的专业领域的模型通常需要大量的科研论文,这些论文通常以PDF(Portable Document Format,便携文件格式)格式存在,但其中往往包含大量无关的、非实质性的信息,会干扰文献数据处理和信息输出。此外,上述技术中通过截断早期信息来保留新的信息虽然能在一定程度上保存上下文信息,但过长的聊天记录无法完全保存,因此,可能对后续的对话和回答准确性产生影响,从而导致模型的精度等性能下降。
发明内容
本发明提供一种基于大型语言模型的专业领域信息交互方法、装置及设备,以解决信息截断导致模型的精度等性能下降等问题,同时基于大型语言模型对历史对话进行萃取,以保证后续的对话中能引用历史上下文信息。
本发明第一方面实施例提供一种基于大型语言模型的专业领域信息交互方法,包括以下步骤:
获取用户的首次内容信息,并基于所述首次内容信息,在预设的向量数据库中进行信息检索,得到第一相似信息;
根据所述首次内容信息和所述第一相似信息生成第一输入信息,并将所述第一输入信息输入至预设的语言模型得到第一输出结果,并判断是否获取到所述用户的第二内容信息;
若接收到所述用户的第二内容信息,则将所述第一输出结果存储至历史交互数据,并将所述历史交互数据中的第一部分数据输入至所述预设的语言模型进行信息萃取得到第二输出结果,并根据所述第二输出结果和所述第二内容信息得到目标输入变量;以及
将所述目标输入变量输入至所述预设的向量数据库,得到第二相似信息,并根据所述第二相似信息和所述第二内容信息得到第二输入信息,并将所述第二输入信息输入至所述预设的语言模型得到交互结果,并将所述交互结果输出给所述用户。
根据本发明的一个实施例,在将所述交互结果输出给所述用户之后,还包括:
将所述交互结果存储至所述历史交互数据,并判断是否获取到所述用户的新的内容信息;
若获取到所述新的内容信息,则重新将所述历史交互数据中的第二部分数据输入至所述预设的语言模型进行信息萃取得到新的第二输出结果,直至得到新的交互结果,并将所述新的交互结果输出给所述用户。
根据本发明的一个实施例,在获取所述用户的首次内容信息之前,还包括:
获取至少一个专业领域的多个文献;
提取所述至少一个专业领域的多个文献的内容,并进行向量化处理,得到所述预设的向量数据库。
根据本发明的一个实施例,所述提取所述至少一个专业领域的多个文献的内容,并进行向量化处理,得到所述预设的向量数据库,包括:
计算每个文献的总页数,并针对所述每个文献中的每一页进行解析,得到所述每个文献的文本块数据,并基于所述每个文献的文本块数据筛选得到所述每个文献的正文文本块;
整合所述每个文献的正文文本块形成所述每个文献的完整文本,将所述每个文献的完整文本进行向量化处理,得到所述预设的向量数据库。
根据本发明的一个实施例,所述针对所述每个文献中的每一页进行解析,得到所述每个文献的文本块数据,包括:
针对所述每个文献中的每一页,识别每一页的文本内容;
将所述每一页的文本内容划分为多个文本块,并根据所述多个文本块生成所述每一页的文本块数据,并根据所述每一页的文本块数据生成所述每个文献的文本块数据。
根据本发明的一个实施例,所述文本块数据包括文本块的边界数据、字体数据和杂项属性,所述基于所述每个文献的文本块数据筛选得到所述每个文献的正文文本块,包括:
从所述每一页的文本块数据中筛选出满足预设筛选条件的目标文本块;
整合所述目标文本块得到所述每个文献的正文文本块;
其中,所述预设筛选条件为:文本块的边界数据处于预设边界范围,且文本块的字体数据满足预设条件,且文本块的杂项属性为非杂项。
根据本发明的一个实施例,所述将所述每一页的文本内容划分为多个文本块,包括:
基于预设的字符长度将所述每一页的文本内容划分为所述多个文本块,其中,
在划分所述多个文本块时,若当前文本块的字符长度小于所述预设的字符长度,则将下一字符添加至所述当前文本块,直至所述当前文本块的字符长度等于所述预设的字符长度,或者不存在其他可添加字符。
根据本发明的一个实施例,所述整合所述每个文献的正文文本块形成所述每个文献的完整文本,包括:
为所述每个文献的每一页形成一个独立列表,并将每个正文文本块作为一个句子添加至对应的独立列表中;
将任一独立列表作为当前独立列表,若所述当前独立列表不为空,则搜集当前独立列表中各句子的字体数据,并基于所述各句子的字体数据确定所述当前独立列表的最常见字体数据,且将所述当前独立列表中满足所述最常见字体数据的目标句子添加至目标字符串中,并在所述目标字符串的长度大于预设长度时,将所述目标字符串添加到所述完整文本,直至所述当前独立列表的内容全部添加到所述完整文本;
将剩余列表中的任一独立列表作为新的当前独立列表,直至所有独立列表均添加完毕,得到所述每个文献的完整文本。
根据本发明实施例的基于大型语言模型的专业领域信息交互方法,根据用户的首次内容信息在预设的向量数据库中检索,得到第一相似信息;根据首次内容信息和第一相似信息生成第一输入信息,并输入至预设的语言模型得到第一输出结果,若接收到用户的第二内容信息,则将第一输出结果存储至历史交互数据,并将历史交互数据中的第一部分数据输入至预设的语言模型得到第二输出结果,根据第二输出结果和第二内容信息得到目标输入变量并输入至预设的向量数据库,得到第二相似信息,根据第二相似信息和第二内容信息得到第二输入信息并输入至预设的语言模型得到交互结果,并输出给用户。由此,解决了信息截断导致模型的精度等性能下降等问题,通过基于大型语言模型对历史对话进行萃取,以保证后续的对话中能引用历史上下文信息,从而提供更精准、更专业的回答。
本发明第二方面实施例提供一种基于大型语言模型的专业领域信息交互装置,包括:
第一用户交互模块,用于获取用户的首次内容信息,并基于所述首次内容信息,在预设的向量数据库中进行信息检索,得到第一相似信息;
第一处理模块,用于根据所述首次内容信息和所述第一相似信息生成第一输入信息,并将所述第一输入信息输入至预设的语言模型得到第一输出结果,并判断是否获取到所述用户的第二内容信息;
第二处理模块,用于若接收到所述用户的第二内容信息,则将所述第一输出结果存储至历史交互数据,并将所述历史交互数据中的第一部分数据输入至所述预设的语言模型进行信息萃取得到第二输出结果,并根据所述第二输出结果和所述第二内容信息得到目标输入变量;以及
第二用户交互模块,用于将所述目标输入变量输入至所述预设的向量数据库,得到第二相似信息,并根据所述第二相似信息和所述第二内容信息得到第二输入信息,并将所述第二输入信息输入至所述预设的语言模型得到交互结果,并将所述交互结果输出给所述用户。
根据本发明的一个实施例,在将所述交互结果输出给所述用户之后,所述第二用户交互模块,还用于:
将所述交互结果存储至所述历史交互数据,并判断是否获取到所述用户的新的内容信息;
若获取到所述新的内容信息,则重新将所述历史交互数据中的第二部分数据输入至所述预设的语言模型进行信息萃取得到新的第二输出结果,直至得到新的交互结果,并将所述新的交互结果输出给所述用户。
根据本发明的一个实施例,在获取所述用户的首次内容信息之前,所述第一用户交互模块,还用于:
获取至少一个专业领域的多个文献;
提取所述至少一个专业领域的多个文献的内容,并进行向量化处理,得到所述预设的向量数据库。
根据本发明的一个实施例,所述第一用户交互模块,还用于:
计算每个文献的总页数,并针对所述每个文献中的每一页进行解析,得到所述每个文献的文本块数据,并基于所述每个文献的文本块数据筛选得到所述每个文献的正文文本块;
整合所述每个文献的正文文本块形成所述每个文献的完整文本,将所述每个文献的完整文本进行向量化处理,得到所述预设的向量数据库。
根据本发明的一个实施例,所述第一用户交互模块,还用于:
针对所述每个文献中的每一页,识别每一页的文本内容;
将所述每一页的文本内容划分为多个文本块,并根据所述多个文本块生成所述每一页的文本块数据,并根据所述每一页的文本块数据生成所述每个文献的文本块数据。
根据本发明的一个实施例,所述文本块数据包括文本块的边界数据、字体数据和杂项属性,所述第一用户交互模块,还用于:
从所述每一页的文本块数据中筛选出满足预设筛选条件的目标文本块;
整合所述目标文本块得到所述每个文献的正文文本块;
其中,所述预设筛选条件为;文本块的边界数据处于预设边界范围,且文本块的字体数据满足预设条件,且文本块的杂项属性为非杂项。
根据本发明的一个实施例,所述第一用户交互模块,还用于:
基于预设的字符长度将所述每一页的文本内容划分为所述多个文本块,其中,
在划分所述多个文本块时,若当前文本块的字符长度小于所述预设的字符长度,则将下一字符添加至所述当前文本块,直至所述当前文本块的字符长度等于所述预设的字符长度,或者不存在其他可添加字符。
根据本发明的一个实施例,所述第一用户交互模块,还用于:
为所述每个文献的每一页形成一个独立列表,并将每个正文文本块作为一个句子添加至对应的独立列表中;
将任一独立列表作为当前独立列表,若所述当前独立列表不为空,则搜集当前独立列表中各句子的字体数据,并基于所述各句子的字体数据确定所述当前独立列表的最常见字体数据,且将所述当前独立列表中满足所述最常见字体数据的目标句子添加至目标字符串中,并在所述目标字符串的长度大于预设长度时,将所述目标字符串添加到所述完整文本,直至所述当前独立列表的内容全部添加到所述完整文本;
将剩余列表中的任一独立列表作为新的当前独立列表,直至所有独立列表均添加完毕,得到所述每个文献的完整文本。
根据本发明实施例的基于大型语言模型的专业领域信息交互装置,用于根据用户的首次内容信息在预设的向量数据库中检索,得到第一相似信息;根据首次内容信息和第一相似信息生成第一输入信息,并输入至预设的语言模型得到第一输出结果,若接收到用户的第二内容信息,则将第一输出结果存储至历史交互数据,并将历史交互数据中的第一部分数据输入至预设的语言模型得到第二输出结果,根据第二输出结果和第二内容信息得到目标输入变量并输入至预设的向量数据库,得到第二相似信息,根据第二相似信息和第二内容信息得到第二输入信息并输入至预设的语言模型得到交互结果,并输出给用户。由此,解决了信息截断导致模型的精度等性能下降等问题,通过基于大型语言模型对历史对话进行萃取,以保证后续的对话中能引用历史上下文信息,从而提供更精准、更专业的回答。
本发明第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于大型语言模型的专业领域信息交互方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例提供的一种基于大型语言模型的专业领域信息交互方法的流程图;
图2为根据本发明一个实施例的文献有效内容提取及嵌入向量数据库的流程图;
图3为根据本发明一个实施例的基于向量数据库的信息处理和交互方法示意图;
图4为根据本发明一个实施例的基于大型语言模型的专业领域信息交互方法的工作流程图;
图5为根据本发明实施例的基于大型语言模型的专业领域信息交互装置的方框示意图;
图6为根据本发明实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明所提供的基于大型语言模型的专业领域信息交互方法、装置及设备,能够实现科研论文有效信息矢量化,最大限度保留实质内容、去除低价值信息,并将结果存入向量数据库,以便与大语言模型(如GPT)进行集成使用,从而实现基于科研文献的内容生成交互结果,并且能够实现交互过程中结合专业领域知识,最大限度保留之前多次交互的信息,以最大限度为本次prompt提供上下文信息等,提升模型性能。
在介绍本发明实施例的基于大型语言模型的专业领域信息交互方法之前,先简单介绍下进行对文献进行有效剥离的原因。
具体地,将文献内容进行嵌入处理并存储进入向量数据库是人工智能、尤其是大语言模型训练和应用的重要方向。在科研领域,由于大型语言模型在处理专业问题时的局限性,将文献内容进行嵌入处理并存储于向量数据库成为一种有效的策略。然而,训练专业领域的模型通常需要大量的科研论文,这些论文通常以PDF格式存在,且中往往包含大量无关的、非实质性的信息。这部分信息会干扰文献数据处理和信息输出,因此有必要进行有效剥离,以提升文献数据的质量和输出信息的准确性。
下面参照附图描述根据本发明实施例的基于大型语言模型的专业领域信息交互方法、装置及设备,针对上述背景技术中提到的通过截断早期信息来保留新的信息,导致模型的精度等性能下降的问题,本发明提供了一种基于大型语言模型的专业领域信息交互方法,在该方法中,根据用户的首次内容信息在预设的向量数据库中检索,得到第一相似信息;根据首次内容信息和第一相似信息生成第一输入信息,并输入至预设的语言模型得到第一输出结果,若接收到用户的第二内容信息,则将第一输出结果存储至历史交互数据,并将历史交互数据中的第一部分数据输入至预设的语言模型得到第二输出结果,根据第二输出结果和第二内容信息得到目标输入变量并输入至预设的向量数据库,得到第二相似信息,根据第二相似信息和第二内容信息得到第二输入信息并输入至预设的语言模型得到交互结果,并输出给用户。由此,解决了信息截断导致模型的精度等性能下降等问题,通过基于大型语言模型对历史对话进行萃取,以保证后续的对话中能引用历史上下文信息,从而提供更精准、更专业的回答。
具体而言,图1为本发明实施例提供的一种基于大型语言模型的专业领域信息交互方法的流程图。
如图1所示,该基于大型语言模型的专业领域信息交互方法包括以下步骤:
在步骤S101中,获取用户的首次内容信息,并基于首次内容信息,在预设的向量数据库中进行信息检索,得到第一相似信息。
示例性地,在向量数据库中检索时,可以采用向量相似性比对的方式检索相似信息,首先,定义一个度量来评估向量之间的相似性,此处,设置相似性的判断阈值,可以选取欧几里得距离、余弦相似性等进行判断,然后,计算查询向量和数据库向量之间的距离,最后,使用选择的度量(例如欧式距离或者余弦相似性等),计算查询向量和数据库中每个向量之间的距离或相似性,通过计算出的相似性与阈值进行比较,以检索出对应的结果。
优选地,在向量数据库中检索相似信息的具体方式为:采用余弦相似性计算查询向量和数据库中每个向量之间的余弦相似性,计算公式为:
cosθ = (A·B)/(||A|| * ||B||)
其中,A和B分别表示两个向量数据,"·"表示点积,"|| ||"表示向量的欧氏长度。
优选地,计算得到的相似性与预设定的阈值进行比较,当两向量数据之间的余弦相似性大于等于相似性阈值/>时,则判断为查询向量与数据库中的向量满足相似性要求。
需要说明的是,在相似性判断中,阈值的设置是关乎回答答案筛选准确性的另一个重要数据指标,此处,在一个更为优选的实施方式中,相似性阈值的设置,可以参考历史样本向量数据、一时间段内客户实际使用产生的答案数据,进行综合的考量来计算确定。
进一步地,在相似性阈值判断中,第一方面,收集历史向量集作为阈值设置的依据之一,将之设置为第一参考值。在这一过程中,将收集到的数据库中的查询向量与已知的最接近和次接近答案向量进行关联,并分别计算历史向量集中查询向量与最接近答案向量之间的余弦相似性值/>、查询向量与次接近答案向量之间的余弦相似性值/>,假设数据库中查询向量样本总量为R,则/>、/>的个数分别为R个。此处,更为优选地,当次接近答案向量的余弦相似性值存在多个相同值时,任取其一作为次接近答案向量进行计算即可。
在第一参考值设置中,还应当最大限度地引入最接近向量中的有用信息,将样本历史数据集中,全部查询向量与最接近向量之间的余弦相似性值的均值设置为,同时,将全部查询向量与最接近向量之间的余弦相似性值中的最大值/>引入到第一参考值的计算中。
考虑上述两方面因素后,优选地,第一参考值设置如下:
其中,R为样本中查询向量总数,表示第i个查询向量与最接近答案向量之间的余弦相似性值,/>表示第i个查询向量与次接近答案向量之间的余弦相似性值,/>表示样本中全部查询向量与最接近向量之间的余弦相似性值的均值,/>表示样本中全部查询向量与最接近向量之间的余弦相似性值中的最大值。
此外,第二方面,更为优选地,在阈值的设置中,定期引入用户在使用过程中实际交互形成的交互数据的参考信息,形成第二参考值。假设某固定时间段内,一共有完整的用户交互j次,每个完整的用户交互中,用户通过输入共形成了k次查询向量,对应获得了k个答案向量,也就是说用户围绕一个主题问题,前后进行了k次的查询。设用户第一个查询向量与得到的第一个答案向量之间的余弦相似性值为/>,用户第一个查询向量与得到的最后一个(即第k个)答案向量之间的余弦相似性值为/>,应当尽量让最优解向最终的查询答案合理靠近,同时也要保留基础的查询逻辑关系。同时,引入单个完整用户交互中,用户输入的关联的k次询向量之间的余弦相似性值的均值/>,/>的求解可以采用多种方式,优选地,本实施例中,令:
其中,、/>、…、/>分别表示用户的第1、2查询向量之间的余弦相似性值,…,用户的第1、k查询向量之间的余弦相似性值。
那么,优选地,第二参考值设置如下:
其中,表示第l次完整用户交互中第一个查询向量与第一个答案向量之间的余弦相似性值,/>表示第l次完整用户交互中第一个查询向量与最后一个答案向量之间的余弦相似性值,j表示一时间段内完整的用户交互次数,/>表示一次完整用户交互中各查询向量之间的余弦相似性值的均值。
那么,在更为优选的实施例中,相似性阈值可以设置为:
其中,、/>为系数,且/>
当然,此处,在一个实施方式中,可以令,即阈值设置时,只考虑历史样本库中的样本。
更为优选的,在进行向量数据库的搜索时,需要考虑向量的维度问题,两个向量必须具有相同的维度才能进行比较,如果维度不同,可能需要执行某种形式的维度缩减或扩大。
进一步地,在一些实施例中,在获取用户的首次内容信息之前,还包括:获取至少一个专业领域的多个文献;提取至少一个专业领域的多个文献的内容,并进行向量化处理,得到预设的向量数据库。
示例性地,以PDF格式文献为例,需要将文献中的冗余信息或者无用信息进行剔除,并保留有效信息,且将之处理成为可为后续使用的预设的向量数据库。
进一步地,在一些实施例中,如图2所示,提取至少一个专业领域的多个文献的内容,并进行向量化处理,得到预设的向量数据库,包括:计算每个文献的总页数,并针对每个文献中的每一页进行解析,得到每个文献的文本块数据,并基于每个文献的文本块数据筛选得到每个文献的正文文本块;整合每个文献的正文文本块形成每个文献的完整文本,将每个文献的完整文本进行向量化处理,得到预设的向量数据库。
示例性地,以PDF格式文献为例,设PDF文件为P,计算PDF文件的总页数N,则其总页数可以表示为:
N(P) = ∫dx,
其中x表示P中的每一页。
进一步地,在一些实施例中,针对每个文献中的每一页进行解析,得到每个文献的文本块数据,包括:针对每个文献中的每一页,识别每一页的文本内容;将每一页的文本内容划分为多个文本块,并根据多个文本块生成每一页的文本块数据,并根据每一页的文本块数据生成每个文献的文本块数据。
具体地,针对每个文献中的每一页,识别每一页的文本内容;将每一页的文本内容划分为多个文本块,同时确定该页是否为第一页,获取页面的边界数据(包括文本块的左边界、上边界和下边界)、字体数据,并判断各文本块的杂项属性,基于边界数据、字体数据、杂项属性,对于每一页的文本块,假设定义一个函数F,这个函数接收一个文本块作为输入,返回这个文本块的信息。每一个页面i的文本块可以表示为集合B_i,对于每一个正文的文本块,有:
其中,b为页面i中的文本块,C(b)为文本块的内容,I_1(b)指示页面是否为第一页,L(b)、U(b)和D(b)依次分别为文本块的左边界、上边界和下边界,S(b)为字体数据,I_2(b)为杂项属性。
进一步地,在一些实施例中,文本块数据包括文本块的边界数据、字体数据和杂项属性,基于每个文献的文本块数据筛选得到每个文献的正文文本块,包括:从每一页的文本块数据中筛选出满足预设筛选条件的目标文本块;整合目标文本块得到每个文献的正文文本块;其中,预设筛选条件为;文本块的边界数据处于预设边界范围,且文本块的字体数据满足预设条件,且文本块的杂项属性为非杂项。
其中,边界数据包括左边界、上边界和下边界,字体数据包括字体大小等数据,杂项属性包括杂项和非杂项。
示例性地,针对文献的每一页进行解析,包括识别文本内容、是否是PDF文件的第一页、文本的左边界、上边界、下边界、字体大小和是否是杂项(杂项例如致谢、参考文献等)等。
进一步地,以PDF格式文献为例,从每一页的文本块数据中筛选出满足预设筛选条件的目标文本块,一般从三个角度来判断:第一,位置:只有位于一定位置范围内的文本块才会被考虑,即文本区域满足y坐标的判断标准——对于文献的第一页,只有y坐标大于200且小于720的区域内的文本,被认定为正文的备选;对于其他页面,则将y坐标大于70且小于720的区域内的文本认定为正文的备选。第二,字体数据:对于每一页中的文本块,搜集所有文本块的字体数据,并将该页面中出现次数最多的字体数据作为主要字体数据,例如,当文本块的字体数据中的字体大小在主要字体大小一定范围内时,作为备选文本块,一定范围例如可以是主要字体大小正负1个点单位的范围内。第三,不是杂项(即不是非正文):即文本块中不包含关键词组中的关键词,当同时满足上述三个条件时,对应的文本块作为目标文本块。
示例性地,在确定第一页时,通过遍历文件P的每一页时,检查页码来确定。在每一页中的文本块处理中,从每一页中提取出所有的单词,每个提取出的单词都包含一些额外的信息,比如字体大小、位置信息等,基于该些额外信息,来确定该单词是否包含在正文中。然后,通过配置的脚本,过滤掉一些不需要的文本,例如页眉、页脚或者其他关键词等。在“正文”范围限定时,由于一般文件的第一页包含信息种类较多,因此,对于第一页,设置只有在一定位置范围内的文本才能被认定为“正文”。对于其他页,只有在一定位置范围内,并且不包含某些关键词的文本,才能被认定为“正文”。
示例性地,文本的位置(即文本的左边界、上边界、下边界)通过文本在页面上的y坐标是否在一定的范围之内来确定的。更优选地,对于文献第一页的处理与其他页的处理区别开。对于文献的第一页,只有y坐标大于200且小于720的区域内的文本,被认定为正文的备选;对于其他页面,则将y坐标大于70且小于720的区域内的文本认定为正文的备选。此处,y的坐标限制值200、70、720可以设置为固定值。将文本处理成为文本块之后,进一步判断其是否是正文部分。此处,y坐标的单位是PDF文件中的点,一个点等于1/72英寸,该单位属于本领域公知常识,不再赘述。
在判断正文中,判断文本块是否为杂项时,即文本块的杂项属性判断,引入关键词组这一参考维度,即对于处理后的每个文本块,如果其中包含了关键词组中的至少一个,那么标记该文本块为非正文部分,标记为杂项。示例性地,关键词组包括"References"(参考)、"REFERENCES"(参考)、"Bibliography"(参考文献)、"BIBLIOGRAPHY"(参考文献)、"Acknowledgements"(致谢)、"ACKNOWLEDGEMENTS"(致谢)、"Acknowledgments"(致谢)、"ACKNOWLEDGMENTS"(致谢)、"参考文献"、"致谢"、"谢辞"、"谢"等。
由此,通过识别并剔除无实质性内容(如致谢、参考文献等信息),可以降低不相关或者无用信息对模型训练和结果应用的干扰,提高了信息的准确性和质量,有效地利用了文件的结构特性,通过对每个文本块的上下边界以及是否为杂项的判断,有效地过滤了页眉、页脚和其他无关信息,减少了数据处理的复杂度,从而提高了处理效率。
进一步地,基于上述文本块数据F,当文本块边界数据在边界范围内,且字体数据S(b)在主要字体数据的预设范围内,且杂项属性I_2(b)指示该文本块非杂项时,筛选出需要的目标文本块,整合目标文本块得到每个文献的正文文本块。
优选地,主要字体数据的判断方式为:搜集每一页中的文本块的字体数据,将出现最多的字体数据定义为该页的主要字体数据。
优选地,目标文本块筛选中,字体数据中的字体大小的预设范围可以为:主要字体大小±1,其中,1的单位为PDF文件中的点,一个点等于1/72英寸。
优选地,杂项属性的判断方式为:设置关键词组,当文本块中包含关键词组中的至少一个关键词时,标记该文本块为杂项。
进一步地,在一些实施例中,将每一页的文本内容划分为多个文本块,包括:基于预设的字符长度将每一页的文本内容划分为多个文本块,其中,在划分多个文本块时,若当前文本块的字符长度小于预设的字符长度,则将下一字符添加至当前文本块,直至当前文本块的字符长度等于预设的字符长度,或者不存在其他可添加字符。
优选地,预设的字符长度可以为500,在此不做具体限定。
举例而言,可以设置字符长度至少500个为一个文本块,如果当前文本块的字符长度小于500,则将下一个单词继续添加进来,直至当前文本块长度达到500个字符为止,或者没有更多的字符可以继续添加为止。
进一步地,在一些实施例中,整合每个文献的正文文本块形成每个文献的完整文本,包括:为每个文献的每一页形成一个独立列表,并将每个正文文本块作为一个句子添加至对应的独立列表中;将任一独立列表作为当前独立列表,若当前独立列表不为空,则搜集当前独立列表中各句子的字体数据,并基于各句子的字体数据确定当前独立列表的最常见字体数据,且将当前独立列表中满足最常见字体数据的目标句子添加至目标字符串中,并在目标字符串的长度大于预设长度时,将目标字符串添加到完整文本,直至当前独立列表的内容全部添加到完整文本;将剩余列表中的任一独立列表作为新的当前独立列表,直至所有独立列表均添加完毕,得到每个文献的完整文本。
其中,预设长度可以为本领域技术人员预先设定的阈值,可以是通过有限次实验获取的阈值,也可以是通过有限次计算机仿真得到的阈值,在此不做具体限定。
具体地,为每个文献的每一页形成一个独立列表,检测列表是否为空,如果列表为空,那么说明这个页面上没有正文文本块,则跳过这个页面,如果列表不为空,那么就开始处理列表中的每一个句子,列表中的每个句子可以采用常规的数据存储方式存放。
进一步地,确定当前独立列表的最常见字体数据。优选地,最常见字体数据的判断方式为:获取每个句子的字体数据,读取列表中全部句子的字体数据,基于读取的字体数据,选择占比最高的字体数据,作为该表中最常见字体数据。
进一步地,遍历列表中的每一个句子,检测每个句子的字体数据是否接近最常见的字体数据,如果接近,则把该目标句子的内容添加到目标字符串中,否则,跳过该句子。对于字体数据的筛选,前文中如果已经基于字体数据对文本块进行了筛选,那么此处可以删除对于字体数据的判断,或者,也可以在此处增加一次字体数据的筛选,以更准确地确认此处的文本块是否符合判断的要求。
示例性地,句子的字体数据是否接近最常见字体数据,可以通过设置阈值或范围的方式进行判断,例如,句子的字体大小在最常见字体大小±1的范围内,则认为接近最常见字体大小。此处,1的单位是PDF文件中的点,一个点等于1/72英寸,该单位属于本领域公知常识,不再赘述。当然,此处的范围,可以基于需要进行调整。
此处,需要进一步说明的是,本发明优选实施例中,对于字体数据的统计在两个阶段进行了使用,即初筛阶段:在是否是正文信息的判断过程中,将字体数据统计作为一个重要的参考指标,满足后,才能将对应的文本块视为候选,并添加到列表中;在后期筛选阶段,即本步骤中的阶段,对列表中的句子再次应用字体数据这一数据统计和判断指标,以对各个句子进行筛选。此处,初筛阶段和后期筛选阶段在字体数据范围的规定上,可以是设置不同范围数据的,也可以是将范围数据设置为相同,例如可以在两次判断时都是基于最常见字体大小/主要字体大小±1,也可以是最常见字体大小±1而主要字体大小±2等,这些可以根据具体的内容数据筛选标准进行调整。这两个阶段的字体数据判断是相互补充的,初步筛选阶段主要用于大规模地筛选出候选的正文块,而后期筛选阶段则用于在这些候选块中进一步确定和提取需要的正文信息。这样的设计可以更有效地减少非正文信息的干扰,并提高正文信息的提取准确性。
进一步地,不断把目标句子添加到目标字符串中,直至目标字符串的长度达到一定的预设长度,当目标字符串长度达到预设长度时,则将目标字符串的内容添加到完整文本中,然后清空该目标字符串,重新进行上述步骤,形成新的目标字符串。
示例性地,该目标字符串可以表示如下:
可以定义一个函数G,这个函数接收一个列表作为输入,返回一个字符串。如果定义每一页i(即每一个列表i)的句子集合为S_i,对于每一个句子,有:
其中,C(s)表示句子的内容。
进一步地,在处理完列表中的全部句子后,检查目标字符串中是否还有剩余的内容,即目标字符串是否为空;如果此时目标字符串中有剩余内容,则将剩余内容添加到完整文本中。
示例性地,本步骤中对字符串中是否有剩余内容的检查,可以是检查提前设定的变量是否非空来执行,例如,可以设置blob_text变量,该变量blob_text可以用来存储当前正在构建的文本块内容,在处理每个页面的每个文本块时,预设脚本可以将满足一定条件的筛选后文本块添加到blob_text中,然后,如果blob_text的长度达到或超过预定的值,例如500,或者所有的文本块都已处理完毕,那么将blob_text中的内容添加到完整文本中。
进一步地,在处理完毕一个列表后,继续循环处理下一列表,直至全部列表处理完毕。当全部列表处理完毕后,可以得到整个PDF文件中的最终完整文本,这个最终完整文本包含了正文文本块的内容,并且已经全部整合在一起。
由此,对正文文本块进行整合,形成完整的文本,便于后续的数据处理和分析,提高了数据处理的连贯性。
进一步地,在得到每个文献的完整文本后,将完整本数据进行向量化,并形成预设的向量数据库。向量化可以采用现有技术中的算法或工具,例如openAI中的embedding(嵌入)等方式进行处理,此处不再赘述。
示例性地,在将文本导入向量数据库时,可以通过词嵌入将每个文本转化为向量,词嵌入模型的输出是一个固定维度的向量。词嵌入方法可以采用现有的openAI中的公开算法,此处不再赘述。
在步骤S102中,根据首次内容信息和第一相似信息生成第一输入信息,并将第一输入信息输入至预设的语言模型得到第一输出结果,并判断是否获取到用户的第二内容信息。
可选的,预设的语言模型可以为GPT模型或其他大型语言模型,在此不做具体限定。
具体地,如图3所示,将首次内容信息(Prompt #1,即用户输入的内容)与向量数据库中的信息进行比对,与相似的信息共同形成第一输入信息,同时可以将此处得到的相似的信息反馈用户。此处需要进一步说明的是,如果用户仅进行一次输入,即Prompt #1,不再进行后续的输入,那么上述的相似的信息就作为针对Prompt #1的输出结果反馈给用户。
示例性的,第一输入信息,优选以字符串的形式。
示例性地,将第一输入信息输入如GPT等大型语言模型,生成并输出第一输出结果(Completion(结果) #1)。
在步骤S103中,若接收到用户的第二内容信息,则将第一输出结果存储至历史交互数据,并将历史交互数据中的第一部分数据输入至预设的语言模型进行信息萃取得到第二输出结果,并根据第二输出结果和第二内容信息得到目标输入变量。
具体地,若接收到用户的第二内容信息,则将第一输出结果存储至历史交互数据,将最新的几组聊天历史(即交互历史中的历史数据)输入预设的语言模型进行信息萃取。示例性地,信息的萃取,可以采用现有的GPT模型中的现有函数来实现。
优选地,在用户新建立一个交互时,可以生成系统提示,以定义交互边界。
进一步地,当用户继续输入其他内容(Prompt #2,即第二内容信息)时,先将之前聊天历史输入预设的语言模型进行信息萃取,并将萃取得到的第二输出结果与用户新输入的第二内容信息整合成一个包含上下文信息的目标输入变量(prompt_with_context)。
示例性地,目标输入变量的内容整合,可以通过字符串拼接的方式实现,即将新萃取的第二输出结果和第二内容信息拼接为一个新的字符串Prompt,作为目标输入变量。
由此,在存储聊天记录时会对之前的信息进行一次萃取浓缩,存储简化的信息,避免因为超过token的上限导致之前信息被截断。
在步骤S104中,将目标输入变量输入至预设的向量数据库,得到第二相似信息,并根据第二相似信息和第二内容信息得到第二输入信息,并将第二输入信息输入至预设的语言模型得到交互结果,并将交互结果输出给用户。
具体地,将该包含上下文信息的目标输入变量导入预设的向量数据库并检索得到第二相似信息,形成第二输入信息,此处第二输入信息同样是由用户的第二内容信息和向量数据库返回的第二相似信息得到的。
进一步地,将第二输入信息输入预设的语言模型,利用预设的语言模型生成并输出交互结果(Completion #2),并将交互结果输出给用户。
进一步地,在一些实施例中,在将交互结果输出给用户之后,还包括:将交互结果存储至历史交互数据,并判断是否获取到用户的新的内容信息;若获取到新的内容信息,则重新将历史交互数据中的第二部分数据输入至预设的语言模型进行信息萃取得到新的第二输出结果,直至得到新的交互结果,并将新的交互结果输出给用户。
具体地,将交互结果存储至历史交互数据,当用户再次输入信息时,则重新将历史交互数据中的第二部分数据输入至预设的语言模型进行信息萃取得到新的第二输出结果,直至得到新的交互结果,并不断对聊天历史进行更新,确保回答内容更加准确。
由此,针对特定的技术领域(文献可以为某个领域的期刊、报告、专利等知识),该技术方案使大型语言模型能够形成更为专业化的领域知识,大幅减小大型语言模型在专业领域形成的“幻觉”,可以为该领域的从业者提供更精准、更专业的回答。
为了便于本领域技术人员更清晰直观地了解本发明实施例的基于大型语言模型的专业领域信息交互方法,下面结合具体实施例进行详细说明。
如图4所示,该基于大型语言模型的专业领域信息交互方法的工作流程包括以下步骤:
S401,提取文献内容并向量化。
S402,检索第一相似信息,并结合首次内容信息,形成第一输入信息。
S403,将第一输入信息输入语言模型,得到第一输出结果,并存入历史交互数据。
S404,对历史交互数据进行萃取,得到第二输出结果。
S405,基于第二输出结果和用户输入的第二内容信息,得到目标输入变量。
S406,基于目标输入变量检索第二相似信息。
S407,结合第二相似信息和第二内容信息,利用语言模型检索,得到交互结果,并存入历史交互数据。
S408,更新历史交互数据,并执行S404。
S409,判断用户是否继续输入,如果是,则执行S404,否则,执行S410。
S410,将交互结果输出给用户。
进一步地,简单介绍下本发明实施例的基于大型语言模型的专业领域信息交互方法涉及的基于大型语言模型的专业领域信息交互系统。
具体地,该基于大型语言模型的专业领域信息交互系统包括:向量数据库模块,存储专业领域信息;文献处理模块,将专业信息进行处理;大型语言模型模块,基于用户输入信息及历史信息、向量数据库模块中的信息,生成输出结果;信息处理模块,根据用户输入信息及向量数据库中的检索结果,形成输入信息;用户交互模块,接收用户输入内容,并将大型语言模型模块产生的输出结果发送用户。
进一步地,向量数据库模块,用于存储向量化处理后的文献内容,以及保存有输出回答的历史交互数据;
文献处理模块,用于将专业领域文件进行处理,提取文献内容并进行向量化;
大型语言模型模块,用于基于第一输入信息得到第一输出结果,并将第一输出结果存入向量数据库模块;以及对历史交互数据进行信息萃取,获取第二输出结果;以及基于第二输入信息得到输出回答,并将输出回答存入向量数据库模块;
信息处理模块,用于将用户输入的首次内容信息与向量数据库中信息进行比对,得到第一相似信息,并基于首次内容信息与第一相似信息形成第一输入信息;以及,基于用户输入的第二内容信息与第二输出结果,形成输入变量,并基于输入变量在向量数据库中检索得到第二相似信息,基于第二相似信息及第二内容信息,得到第二输入信息;
用户交互模块,用于接收用户输入内容,并将输出回答和/或第一输出结果发送用户。
由此,通过该基于大型语言模型的专业领域信息交互系统,有效减少了科研文献的信息噪声,提高了文献处理效率,并基于大型语言模型对历史对话进行萃取,以保证后续的对话中能引用历史上下文信息,通过控制token数量,避免了有效信息截断的问题,从而提供更精准、更专业的回答。
根据本发明实施例的基于大型语言模型的专业领域信息交互方法,根据用户的首次内容信息在预设的向量数据库中检索,得到第一相似信息;根据首次内容信息和第一相似信息生成第一输入信息,并输入至预设的语言模型得到第一输出结果,若接收到用户的第二内容信息,则将第一输出结果存储至历史交互数据,并将历史交互数据中的第一部分数据输入至预设的语言模型得到第二输出结果,根据第二输出结果和第二内容信息得到目标输入变量并输入至预设的向量数据库,得到第二相似信息,根据第二相似信息和第二内容信息得到第二输入信息并输入至预设的语言模型得到交互结果,并输出给用户。由此,解决了信息截断导致模型的精度等性能下降等问题,通过基于大型语言模型对历史对话进行萃取,以保证后续的对话中能引用历史上下文信息,从而提供更精准、更专业的回答。
其次参照附图描述根据本发明实施例提出的基于大型语言模型的专业领域信息交互装置。
图5是本发明实施例的基于大型语言模型的专业领域信息交互装置的方框示意图。
如图5所示,该基于大型语言模型的专业领域信息交互装置10包括:第一用户交互模块100、第一处理模块200、第二处理模块300和第二用户交互模块400。
其中,第一用户交互模块100,用于获取用户的首次内容信息,并基于首次内容信息,在预设的向量数据库中进行信息检索,得到第一相似信息;
第一处理模块200,用于根据首次内容信息和第一相似信息生成第一输入信息,并将第一输入信息输入至预设的语言模型得到第一输出结果,并判断是否获取到用户的第二内容信息;
第二处理模块300,用于若接收到用户的第二内容信息,则将第一输出结果存储至历史交互数据,并将历史交互数据中的第一部分数据输入至预设的语言模型进行信息萃取得到第二输出结果,并根据第二输出结果和第二内容信息得到目标输入变量;以及
第二用户交互模块400,用于将目标输入变量输入至预设的向量数据库,得到第二相似信息,并根据第二相似信息和第二内容信息得到第二输入信息,并将第二输入信息输入至预设的语言模型得到交互结果,并将交互结果输出给用户。
进一步地,在一些实施例中,在将交互结果输出给用户之后,第二用户交互模块400,还用于:将交互结果存储至历史交互数据,并判断是否获取到用户的新的内容信息;若获取到新的内容信息,则重新将历史交互数据中的第二部分数据输入至预设的语言模型进行信息萃取得到新的第二输出结果,直至得到新的交互结果,并将新的交互结果输出给用户。
进一步地,在一些实施例中,在获取用户的首次内容信息之前,第一用户交互模块100,还用于:获取至少一个专业领域的多个文献;提取至少一个专业领域的多个文献的内容,并进行向量化处理,得到预设的向量数据库。
进一步地,在一些实施例中,第一用户交互模块100,还用于:计算每个文献的总页数,并针对每个文献中的每一页进行解析,得到每个文献的文本块数据,并基于每个文献的文本块数据筛选得到每个文献的正文文本块;整合每个文献的正文文本块形成每个文献的完整文本,将每个文献的完整文本进行向量化处理,得到预设的向量数据库。
进一步地,在一些实施例中,第一用户交互模块100,还用于:针对每个文献中的每一页,识别每一页的文本内容;将每一页的文本内容划分为多个文本块,并根据多个文本块生成每一页的文本块数据,并根据每一页的文本块数据生成每个文献的文本块数据。
进一步地,在一些实施例中,文本块数据包括文本块的边界数据、字体数据和杂项属性,第一用户交互模块100,还用于:从每一页的文本块数据中筛选出满足预设筛选条件的目标文本块;整合目标文本块得到每个文献的正文文本块;其中,预设筛选条件为;文本块的边界数据处于预设边界范围,且文本块的字体数据满足预设条件,且文本块的杂项属性为非杂项。
进一步地,在一些实施例中,第一用户交互模块100,还用于:基于预设的字符长度将每一页的文本内容划分为多个文本块,其中,在划分多个文本块时,若当前文本块的字符长度小于预设的字符长度,则将下一字符添加至当前文本块,直至当前文本块的字符长度等于预设的字符长度,或者不存在其他可添加字符。
进一步地,在一些实施例中,第一用户交互模块100,还用于:为每个文献的每一页形成一个独立列表,并将每个正文文本块作为一个句子添加至对应的独立列表中;将任一独立列表作为当前独立列表,若当前独立列表不为空,则搜集当前独立列表中各句子的字体数据,并基于各句子的字体数据确定当前独立列表的最常见字体数据,且将当前独立列表中满足最常见字体数据的目标句子添加至目标字符串中,并在目标字符串的长度大于预设长度时,将目标字符串添加到完整文本,直至当前独立列表的内容全部添加到完整文本;将剩余列表中的任一独立列表作为新的当前独立列表,直至所有独立列表均添加完毕,得到每个文献的完整文本。
根据本发明实施例的基于大型语言模型的专业领域信息交互装置,用于根据用户的首次内容信息在预设的向量数据库中检索,得到第一相似信息;根据首次内容信息和第一相似信息生成第一输入信息,并输入至预设的语言模型得到第一输出结果,若接收到用户的第二内容信息,则将第一输出结果存储至历史交互数据,并将历史交互数据中的第一部分数据输入至预设的语言模型得到第二输出结果,根据第二输出结果和第二内容信息得到目标输入变量并输入至预设的向量数据库,得到第二相似信息,根据第二相似信息和第二内容信息得到第二输入信息并输入至预设的语言模型得到交互结果,并输出给用户。由此,解决了信息截断导致模型的精度等性能下降等问题,通过基于大型语言模型对历史对话进行萃取,以保证后续的对话中能引用历史上下文信息,从而提供更精准、更专业的回答。
图6为本发明实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序。
处理器602执行程序时实现上述实施例中提供的基于大型语言模型的专业领域信息交互方法。
进一步地,电子设备还包括:
通信接口603,用于存储器601和处理器602之间的通信。
存储器601,用于存放可在处理器602上运行的计算机程序。
存储器601可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器601、处理器602和通信接口603独立实现,则通信接口603、存储器601和处理器602可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器601、处理器602及通信接口603,集成在一块芯片上实现,则存储器601、处理器602及通信接口603可以通过内部接口完成相互间的通信。
处理器602可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于大型语言模型的专业领域信息交互方法,其特征在于,包括以下步骤:
获取用户的首次内容信息,并基于所述首次内容信息,在预设的向量数据库中进行信息检索,得到第一相似信息;
根据所述首次内容信息和所述第一相似信息生成第一输入信息,并将所述第一输入信息输入至预设的语言模型得到第一输出结果,并判断是否获取到所述用户的第二内容信息;
若接收到所述用户的第二内容信息,则将所述第一输出结果存储至历史交互数据,并将所述历史交互数据中的第一部分数据输入至所述预设的语言模型进行信息萃取得到第二输出结果,并根据所述第二输出结果和所述第二内容信息得到目标输入变量;以及
将所述目标输入变量输入至所述预设的向量数据库,得到第二相似信息,并根据所述第二相似信息和所述第二内容信息得到第二输入信息,并将所述第二输入信息输入至所述预设的语言模型得到交互结果,并将所述交互结果输出给所述用户。
2.根据权利要求1所述的基于大型语言模型的专业领域信息交互方法,其特征在于,在将所述交互结果输出给所述用户之后,还包括:
将所述交互结果存储至所述历史交互数据,并判断是否获取到所述用户的新的内容信息;
若获取到所述新的内容信息,则重新将所述历史交互数据中的第二部分数据输入至所述预设的语言模型进行信息萃取得到新的第二输出结果,直至得到新的交互结果,并将所述新的交互结果输出给所述用户。
3.根据权利要求1所述的基于大型语言模型的专业领域信息交互方法,其特征在于,在获取所述用户的首次内容信息之前,还包括:
获取至少一个专业领域的多个文献;
提取所述至少一个专业领域的多个文献的内容,并进行向量化处理,得到所述预设的向量数据库。
4.根据权利要求3所述的基于大型语言模型的专业领域信息交互方法,其特征在于,所述提取所述至少一个专业领域的多个文献的内容,并进行向量化处理,得到所述预设的向量数据库,包括:
计算每个文献的总页数,并针对所述每个文献中的每一页进行解析,得到所述每个文献的文本块数据,并基于所述每个文献的文本块数据筛选得到所述每个文献的正文文本块;
整合所述每个文献的正文文本块形成所述每个文献的完整文本,将所述每个文献的完整文本进行向量化处理,得到所述预设的向量数据库。
5.根据权利要求4所述的基于大型语言模型的专业领域信息交互方法,其特征在于,所述针对所述每个文献中的每一页进行解析,得到所述每个文献的文本块数据,包括:
针对所述每个文献中的每一页,识别每一页的文本内容;
将所述每一页的文本内容划分为多个文本块,并根据所述多个文本块生成所述每一页的文本块数据,并根据所述每一页的文本块数据生成所述每个文献的文本块数据。
6.根据权利要求5所述的基于大型语言模型的专业领域信息交互方法,其特征在于,所述文本块数据包括文本块的边界数据、字体数据和杂项属性,所述基于所述每个文献的文本块数据筛选得到所述每个文献的正文文本块,包括:
从所述每一页的文本块数据中筛选出满足预设筛选条件的目标文本块;
整合所述目标文本块得到所述每个文献的正文文本块;
其中,所述预设筛选条件为:文本块的边界数据处于预设边界范围,且文本块的字体数据满足预设条件,且文本块的杂项属性为非杂项。
7.根据权利要求5所述的基于大型语言模型的专业领域信息交互方法,其特征在于,所述将所述每一页的文本内容划分为多个文本块,包括:
基于预设的字符长度将所述每一页的文本内容划分为所述多个文本块,其中,
在划分所述多个文本块时,若当前文本块的字符长度小于所述预设的字符长度,则将下一字符添加至所述当前文本块,直至所述当前文本块的字符长度等于所述预设的字符长度,或者不存在其他可添加字符。
8.根据权利要求5所述的基于大型语言模型的专业领域信息交互方法,其特征在于,所述整合所述每个文献的正文文本块形成所述每个文献的完整文本,包括:
为所述每个文献的每一页形成一个独立列表,并将每个正文文本块作为一个句子添加至对应的独立列表中;
将任一独立列表作为当前独立列表,若所述当前独立列表不为空,则搜集当前独立列表中各句子的字体数据,并基于所述各句子的字体数据确定所述当前独立列表的最常见字体数据,且将所述当前独立列表中满足所述最常见字体数据的目标句子添加至目标字符串中,并在所述目标字符串的长度大于预设长度时,将所述目标字符串添加到所述完整文本,直至所述当前独立列表的内容全部添加到所述完整文本;
将剩余列表中的任一独立列表作为新的当前独立列表,直至所有独立列表均添加完毕,得到所述每个文献的完整文本。
9.一种基于大型语言模型的专业领域信息交互装置,其特征在于,包括:
第一用户交互模块,用于获取用户的首次内容信息,并基于所述首次内容信息,在预设的向量数据库中进行信息检索,得到第一相似信息;
第一处理模块,用于根据所述首次内容信息和所述第一相似信息生成第一输入信息,并将所述第一输入信息输入至预设的语言模型得到第一输出结果,并判断是否获取到所述用户的第二内容信息;
第二处理模块,用于若接收到所述用户的第二内容信息,则将所述第一输出结果存储至历史交互数据,并将所述历史交互数据中的第一部分数据输入至所述预设的语言模型进行信息萃取得到第二输出结果,并根据所述第二输出结果和所述第二内容信息得到目标输入变量;以及
第二用户交互模块,用于将所述目标输入变量输入至所述预设的向量数据库,得到第二相似信息,并根据所述第二相似信息和所述第二内容信息得到第二输入信息,并将所述第二输入信息输入至所述预设的语言模型得到交互结果,并将所述交互结果输出给所述用户。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-8任一项所述的基于大型语言模型的专业领域信息交互方法。
CN202311439977.9A 2023-11-01 2023-11-01 基于大型语言模型的专业领域信息交互方法、装置及设备 Active CN117171331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311439977.9A CN117171331B (zh) 2023-11-01 2023-11-01 基于大型语言模型的专业领域信息交互方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311439977.9A CN117171331B (zh) 2023-11-01 2023-11-01 基于大型语言模型的专业领域信息交互方法、装置及设备

Publications (2)

Publication Number Publication Date
CN117171331A true CN117171331A (zh) 2023-12-05
CN117171331B CN117171331B (zh) 2024-02-06

Family

ID=88947108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311439977.9A Active CN117171331B (zh) 2023-11-01 2023-11-01 基于大型语言模型的专业领域信息交互方法、装置及设备

Country Status (1)

Country Link
CN (1) CN117171331B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473071A (zh) * 2023-12-27 2024-01-30 珠海格力电器股份有限公司 数据检索方法、装置、设备及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history
CN113722512A (zh) * 2021-08-31 2021-11-30 平安银行股份有限公司 基于语言模型的文本检索方法、装置、设备及存储介质
KR102506404B1 (ko) * 2022-06-10 2023-03-07 큐에라소프트(주) 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법
CN116541493A (zh) * 2023-04-07 2023-08-04 平安科技(深圳)有限公司 基于意图识别的交互应答方法、装置、设备、存储介质
CN116881428A (zh) * 2023-09-06 2023-10-13 杭州华鲤智能科技有限公司 一种语言模型训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history
CN113722512A (zh) * 2021-08-31 2021-11-30 平安银行股份有限公司 基于语言模型的文本检索方法、装置、设备及存储介质
KR102506404B1 (ko) * 2022-06-10 2023-03-07 큐에라소프트(주) 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법
CN116541493A (zh) * 2023-04-07 2023-08-04 平安科技(深圳)有限公司 基于意图识别的交互应答方法、装置、设备、存储介质
CN116881428A (zh) * 2023-09-06 2023-10-13 杭州华鲤智能科技有限公司 一种语言模型训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
慈祯嘉措;桑杰端珠;孙茂松;色差甲;周毛先;: "融合单语语言模型的藏汉机器翻译方法研究", 中文信息学报, no. 12 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473071A (zh) * 2023-12-27 2024-01-30 珠海格力电器股份有限公司 数据检索方法、装置、设备及计算机可读介质
CN117473071B (zh) * 2023-12-27 2024-04-05 珠海格力电器股份有限公司 数据检索方法、装置、设备及计算机可读介质

Also Published As

Publication number Publication date
CN117171331B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
CN110019732B (zh) 一种智能问答方法以及相关装置
US8335787B2 (en) Topic word generation method and system
CN104199965B (zh) 一种语义信息检索方法
US20070244881A1 (en) System, method and user interface for retrieving documents
CN110909160A (zh) 正则表达式生成方法、服务器及计算机可读存储介质
CN111159359A (zh) 文档检索方法、装置及计算机可读存储介质
CN110188077B (zh) 一种电子卷宗智能分类方法、装置、电子设备和存储介质
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
CN110442702A (zh) 搜索方法、装置、可读存储介质和电子设备
CN111625621A (zh) 一种文档检索方法、装置、电子设备及存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN108287850B (zh) 文本分类模型的优化方法及装置
CN110619212A (zh) 一种基于字符串的恶意软件识别方法、系统及相关装置
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
WO2022156450A1 (zh) 知识库的查询方法、装置、计算机设备和存储介质
CN107256260A (zh) 一种智能语义识别方法、搜索方法、装置及系统
CN114385777A (zh) 文本数据处理方法、装置、计算机设备和存储介质
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2008090396A (ja) 電子文書検索方法、電子文書検索装置及びプログラム
CN117251523B (zh) 一种面向科技论文的多任务信息抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant