CN116932730A - 基于多叉树和大规模语言模型的文档问答方法及相关设备 - Google Patents
基于多叉树和大规模语言模型的文档问答方法及相关设备 Download PDFInfo
- Publication number
- CN116932730A CN116932730A CN202311181804.1A CN202311181804A CN116932730A CN 116932730 A CN116932730 A CN 116932730A CN 202311181804 A CN202311181804 A CN 202311181804A CN 116932730 A CN116932730 A CN 116932730A
- Authority
- CN
- China
- Prior art keywords
- text
- question
- vector
- language model
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 131
- 238000012545 processing Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007373 indentation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Abstract
本申请提供一种基于多叉树和大规模语言模型的文档问答方法及相关设备,所述方法包括接收用户输入的问题文本,并将所述问题文本通过处理转化为问题向量。分别计算所述问题向量与预先构建的数据库中的各类别中心对应的类别向量之间的第一相似度,根据各第一相似度确定至少一个候选类别中心。分别计算所述问题向量与每个候选类别中心包括的各文本段落对应的文本向量之间的第二相似度,根据各第二相似度确定目标文本段落。将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。本申请提供的问答方法提升了问答检索的效率和准确率,提升用户的体验感。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及一种基于多叉树和大规模语言模型的文档问答方法及相关设备。
背景技术
随着互联网的快速发展和大量信息的产生,人们需要从海量文档中快速获取准确的信息,以便更好地应对工作和生活中的各种需求。文档问答技术的出现填补了这一需求,文档问答的目标是通过深入理解问题和文档之间的语义关系,从文档中提取出与问题相关的信息,并生成准确的答案。不仅要理解问题的含义和背景,还要理解文档中的内容和上下文信息。
目前,文档问答技术存在一些缺陷,在长文档中所有的文本切分后,都作为一个单独的文本块进行处理,忽视了多级标题之间以及标题与正文之间的层级结构,导致标题与正文强关联性没有充分利用,不利于定位和检索与问题相关的答案。
发明内容
有鉴于此,本申请的目的在于提出一种基于多叉树和大规模语言模型的文档问答方法及相关设备,以解决上述部分或全部问题。
基于上述目的,本申请的第一方面提供了一种基于多叉树和大规模语言模型的文档问答方法,包括:
接收用户输入的问题文本,并将所述问题文本通过处理转化为问题向量;
分别计算所述问题向量与预先构建的数据库中的各类别中心对应的类别向量之间的第一相似度,根据各第一相似度确定至少一个候选类别中心;
分别计算所述问题向量与每个候选类别中心包括的各文本段落对应的文本向量之间的第二相似度,根据各第二相似度确定目标文本段落;
将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
可选的,构建所述数据库,包括:
获取目标文档;
基于所述目标文档的层级结构构建多叉树;
基于所述多叉树以及所述目标文档确定各类别中心;
将所述目标文档与各类别中心建立映射关系,以完成所述数据库的构建。
可选的,所述基于所述目标文档的层级结构构建多叉树,包括:
对所述目标文档进行划分,以得到多个文本段落;
根据每个文本段落在所述目标文档中的位置信息,确定每个文本段落对应的等级和标识;
根据各文本段落对应的等级和标识构建所述多叉树,其中,每个文本段落对应所述多叉树中的一个节点。
可选的,所述基于所述多叉树以及所述目标文档确定各类别中心,包括:
将每个文本段落通过处理转化为对应的初始向量;
确定所述多叉树中每个叶子节点到根节点对应的路径;
根据所述路径中包含的所有节点对应的初始向量,得到所述叶子节点对应的文本段落的文本向量;
采用聚类算法对全部叶子节点对应的文本向量进行聚类,确定各类别中心。
可选的,所述根据所述路径中包含的所有节点对应的初始向量,得到所述叶子节点对应的文本段落的文本向量,包括:
根据各节点对应的初始向量以及预设权重系数,计算得到所述叶子节点对应的文本段落的文本向量。
可选的,所述将所述目标文档与各类别中心建立映射关系,以完成所述数据库的构建,包括:
将每个文本向量与各类别中心建立映射关系,以完成所述数据库的构建。
可选的,所述将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本,包括:
将所述问题文本、所述目标文本段落以及预设约束条件输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
本申请的第二方面提供了一种基于多叉树和大规模语言模型的文档问答装置,包括:
接收模块,被配置为接收用户输入的问题文本,并将所述问题文本通过处理转化为问题向量;
第一确定模块,被配置为分别计算所述问题向量与预先构建的数据库中的各类别中心对应的类别向量之间的第一相似度,根据各第一相似度确定至少一个候选类别中心;
第二确定模块,被配置为分别计算所述问题向量与每个候选类别中心包括的各文本段落对应的文本向量之间的第二相似度,根据各第二相似度确定目标文本段落;
输出模块,被配置为将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
本申请还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的方法。
本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的方法。
从上面所述可以看出,本申请提供的基于多叉树和大规模语言模型的文档问答方法及相关设备,所述方法包括接收用户输入的问题文本,并将所述问题文本通过处理转化为问题向量,以便后续采用相似度算法计算问题文本与数据库中文本段落之间的相似度。分别计算所述问题向量与预先构建的数据库中的各类别中心对应的类别向量之间的第一相似度,根据各第一相似度确定至少一个候选类别中心,通过从数据库中选取与问题向量相似度较高的候选类别中心,有效减小搜索范围,提高搜索效率。分别计算所述问题向量与每个候选类别中心包括的各文本段落对应的文本向量之间的第二相似度,根据各第二相似度确定目标文本段落。确定了候选类别中心后,再从候选类别中心包含的文本段落中选取与问题向量相似度最高的文本向量对应的文本段落作为目标文本段落,通过两次相似度的计算,能够快速确定与问题向量最接近的文本段落,提高文档问答的效率和准确率。将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本,大模型能够处理跨领域和复杂的问题,根据输入的问题文本和目标文本段落进行推理,进而给出更加准确的答案文本。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的基于多叉树和大规模语言模型的文档问答方法的流程示意图;
图2为本申请实施例的多叉树的结构示意图;
图3为本申请实施例的基于多叉树和大规模语言模型的文档问答装置的结构示意图;
图4为本申请实施例的电子设备硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术所述,随着互联网的快速发展和大量信息的产生,人们需要从海量文档中快速获取准确的信息,以便更好地应对工作和生活中的各种需求。文档问答技术的出现填补了这一需求,文档问答的目标是通过深入理解问题和文档之间的语义关系,从文档中提取出与问题相关的信息,并生成准确的答案。
目前,文档问答技术存在一些缺陷。文档的正文中通常存在多级标题,文档被切分后,导致正文与部分标题距离过远,不能通过标题对问题相关的文本段落进行准确定位,导致对该标题下的正文的检索效果降低,检索结果不符合用户实际需求。有鉴于此,本申请提出了一种基于多叉树和大规模语言模型的文档问答方法,根据不同等级标题下的正文,将文档创建为具有树形结构的多叉树,以更合理的进行相似度检索,以确定与问题最相关的文本段落,解决了长文档切分带来的问题。同时,采用大规模语言模型((Large-scaleLanguage Model))对问题文本和文本段落进行分析和处理,从而生成通顺且准确的答案文本。
以下结合附图来详细说明本申请的实施例。
本申请提供了一种基于多叉树和大规模语言模型的文档问答方法,参考图1,包括以下步骤:
步骤102、接收用户输入的问题文本,并将所述问题文本通过处理转化为问题向量。
具体的,用户可以通过客户端根据提示信息输入问题文本,或者,用户通过客户端根据提示信息输入语音,客户端将语音转化为问题文本。确定了问题文本后,需要将问题文本转化为问题向量,以便后续根据向量计算相似度。示例性的,本步骤采用text2vec工具将问题文本转化为问题向量,text2vec工具可以将文本数据转换为数值向量表示,以便更方便地进行机器学习和深度学习任务。
步骤104、分别计算所述问题向量与预先构建的数据库中的各类别中心对应的类别向量之间的第一相似度,根据各第一相似度确定至少一个候选类别中心。
具体的,预先构建的数据库中包含多个类别中心,类别中心是通过对文档中全部文本段落对应的文本向量进行聚类得到的,即将文档中的全部文本段落根据语义进行分类后得到多个类别中心,每个类别中心代表一个类别。其中,类别中心对应的类别向量为将该类别中心包括的所有文本段落的文本向量求平均后得到的。分别计算问题向量与各个类别中心对应的类别向量之间的第一相似度,将多个第一相似度进行排序后,取排名靠前的N个第一相似度对应的类别中心作为候选类别中心。其中,N为大于等于1的正整数,N的取值可以根据实际情况进行调整,此处不做具体限制。根据问题向量首先在数据库中搜索相似度较高的类别中心,能够减少搜索范围和搜索时间,提高搜索效率,有效排除与问题文本相关度较低的文本段落。
进一步的,可以通过式(1)计算第一相似度:
(1)
其中,表示第一相似度,/>表示问题向量中的第i个元素,问题向量为,n表示向量的维度,/>表示类别向量中第i个元素,类别向量为/>。
步骤106、分别计算所述问题向量与每个候选类别中心包括的各文本段落对应的文本向量之间的第二相似度,根据各第二相似度确定目标文本段落。
具体的,确定了候选类别中心后,将问题向量与每个候选类别中心中包含的文本向量进行相似度的计算,得到多个第二相似度,将多个第二相似度中数值最大的第二相似度对应的文本向量作为目标文本向量,将目标文本向量对应的文本段落作为目标文本段落,该目标文本段落是与问题文本相似度最高的文本段落。
进一步的,可以通过式(2)计算第二相似度:
(2)
其中,d表示第二相似度,表示问题向量中的第i个元素,问题向量为,/>表示文本向量中第i个元素,文本向量为。
步骤108、将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
具体的,将问题文本和目标文本段落输入大规模语言模型中,通过大规模语言模型对问题文本和目标文本段落进行分析和处理,考虑目标文本段落中的上下文信息、问题文本中的关键词等,从而生成准确且完整的答案文本。
基于上述步骤102至步骤108,本实施例提供的基于多叉树和大规模语言模型的文档问答方法包括:接收用户输入的问题文本,并将所述问题文本通过处理转化为问题向量,以便后续采用相似度算法计算问题文本与数据库中文本段落之间的相似度。分别计算所述问题向量与预先构建的数据库中的各类别中心对应的类别向量之间的第一相似度,根据各第一相似度确定至少一个候选类别中心,通过从数据库中选取与问题向量相似度较高的候选类别中心,有效减小搜索范围,提高搜索效率。分别计算所述问题向量与每个候选类别中心包括的各文本段落对应的文本向量之间的第二相似度,根据各第二相似度确定目标文本段落,确定了候选类别中心后,再从候选类别中心包含的文本段落中选取与问题向量相似度最高的文本向量对应的文本段落作为目标文本段落,通过两次相似度的计算,能够快速确定与问题向量最接近的文本段落,提高文档问答的效率和准确率。将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本,大模型能够处理跨领域和复杂的问题,根据输入的问题文本和目标文本段落进行推理,进而给出更加准确的答案文本。
在一些实施例中,构建所述数据库,包括以下步骤:
步骤202、获取目标文档。所述目标文档是能够为用户问题提供答案的文档,示例性的,如果用户的问题为法律领域问题,则目标文档可以为法律领域的相关文书。根据所述目标文档的所在路径,获取所述目标文档。判断所述目标文档的格式,如果目标文档的格式为图像格式,如PDF或JPG等,需要对其进行解码,以转换为numpy格式,再通过OCR(OpticalCharacter Recognition,光学字符识别)技术对图片中的文本进行识别,得到目标文档中的文字信息。其中,PDF文件通常由文本和图片两部分组成,对于文本部分,直接读取即可,对于图片部分,采用OCR技术识别其中的内容,并将识别后的内容放置在同一页文档的文本之后,以确保图片中的内容被正确的插入到文档中的相应位置,以使整个文档的内容连贯完整。如果目标文档的格式为文本格式,如TXT等,则可以直接读取。
获取到文本格式的目标文档后,对目标文档进行清洗操作,以去除不需要的字符或格式。清洗操作可以分为两个主要步骤:正则表达式匹配和字符替换。在清洗文档的过程中,使用正则表达式来匹配和提取需要清洗的文本部分。可以根据实际需求,编写适当的正则表达式来匹配不需要的字符、标点符号、特殊符号等。通过使用正则表达式匹配,可以准确地定位和识别需要清洗的文本。在匹配到需要清洗的文本后,可以使用字符替换操作将其替换为指定的字符或字符串。例如,可以将多个连续的空格替换为单个空格,将多个连续的换行符替换为单个换行符,或者将破折号替换为空字符或者逗号,将问号、省略号、感叹号替换为句号等。对目标文档清洗完成后,可以进行后续操作。
步骤204、基于所述目标文档的层级信息构建多叉树,也即根据目标文档的层级信息将目标文档转化为具有多叉树结构的文档树。具体包括:
步骤2042、对所述目标文档进行划分,以得到多个文本段落。
具体的,对于具有多级标题的目标文档,将每个标题划分为一个文本段落。对于正文内容,可以先根据目标文档中已存在的缩进格式进行段落的初步划分,如果划分后的段落字数仍超过预先设置的长文本字数阈值,则对段落进行二次划分,以确保得到的文本段落的字数均不超过预设的长文本字数阈值,以避免文本长度不同对检索效果造成影响。示例性的,长文本字数阈值可以为2000。
步骤2044、根据每个文本段落在所述目标文档中的位置信息,确定每个文本段落对应的等级和标识。
具体的,位置信息包括文本段落的格式和排版特征,通过分析格式和排版特征,将目标文档中的内容按照不同的层级进行划分。段落等级的划分可以根据标题的形式、字体样式、段落缩进、编号等各种标记来划分,例如一级标题、二级标题、正文等。基于文本段落的不同等级,为每个文本段落分配一个唯一标识,例如ID。
步骤2046、根据各文本段落对应的等级和标识构建所述多叉树,其中,每个文本段落对应所述多叉树中的一个节点。
具体的,在构建多叉树时,每个文本段落对应多叉树中的一个节点,每个节点具有唯一的标识ID,根据文本段落的等级关系可以确定每个节点的父节点。图2给出了多叉树的结构示意图。如图2所示,目标文档的文件名作为多叉树中的根节点,则目标文档中的一级标题对应的节点的父节点为根节点,二级标题对应的节点的父节点为一级标题对应的节点,如果二级标题下为正文,则正文段落对应的叶子节点的父节点为二级标题对应的节点,叶子节点没有子节点。依次类推,可以确定每个节点的父节点。根据节点之间的父子关系构建所述多叉树,将每个节点与其父节点进行连接。每个节点的ID作为多叉树中的唯一标识符,便于后续的查询、索引或遍历等操作。
进一步的,在多叉树中,节点的ID可以按照从小到大顺序依次排列。示例性的,节点1的标识和其父节点标识可以表示为,其中,/>表示节点1的标识为/>,其父节点的标识为0,代表节点1没有父节点,节点1为根节点;节点2的标识和其父节点标识可以表示为,其中,/>为节点2的标识,/>为节点2的父节点的标识,可知,节点1为节点2的父节点;节点3的标识和其父节点标识可以表示为,节点3的标识为/>,节点3的父节点的标识为节点1和节点2的标识中的最大值,以确保节点的标识的数值是从根节点开始逐渐递增的。
步骤206、基于所述多叉树以及所述目标文档确定各类别中心。具体包括:
步骤2062、将每个文本段落通过处理转化为对应的初始向量。
示例性的,本步骤中采用text2vec工具将文本段落转化为初始向量,text2vec工具可以将文本数据转换为数值向量表示,以便更方便地进行机器学习和深度学习任务,以便后续进行向量之间的相似度计算。
步骤2064、确定所述多叉树中每个叶子节点到根节点对应的路径。
具体的,叶子节点到根节点的路径为从根节点至叶子节点的唯一路径,包括了从根节点至叶子节点包括的所有节点,这些节点之间的连接关系形成了所述路径。遍历多叉树中的每个节点,判断该节点是否为叶子节点,如果为叶子节点,通过迭代的方式向上遍历该叶子节点的祖先节点,在每一步迭代中,将当前祖先节点的ID添加到路径列表的开头,直至当前祖先节点为根节点时,迭代结束,返回路径列表作为迭代结果。示例性的,正文text之前包含三级标题,分别为一级标题title1、二级标题title2和三级标题title3,根节点为Title。那么叶子节点到根节点对应的路径为[Title->title1->title2->title3->text]。
步骤2066、根据所述路径中包含的所有节点对应的初始向量,得到所述叶子节点对应的文本段落的文本向量。
具体的,文本向量的作用是将路径中包含的所有节点的信息与叶子节点对应的文本段落信息进行融合,以便实现文档中标题与正文之间的强关联性。基于路径中所有节点的初始向量,通过计算得到叶子节点对应的文本段落的文本向量。
进一步的,所述根据所述路径中包含的所有节点对应的初始向量,得到所述叶子节点对应的文本段落的文本向量,包括:
根据各节点对应的初始向量以及预设权重系数,计算得到所述叶子节点对应的文本段落的文本向量。通过式(3)计算得到所述文本向量:
(3)
其中,表示文本向量,/>表示所述路径中第i个节点对应的初始向量,/>表示与初始向量对应的预设权重系数,且/>,m为路径中的节点总数。/>可以根据实际需求进行调节,通过调节每个节点对应的/>以平衡标题与正文在文本向量中的重要性,以达到更好的语义融合效果。示例性的,如果标题中包含的关键词语义明确,可适当增加标题对应的权重系数,以进一步提升问题检索的准确率。
步骤2068、采用聚类算法对全部叶子节点对应的文本向量进行聚类,确定各类别中心。
具体的,由上述步骤确定了每个叶子节点对应的文本向量后,采用聚类算法对全部文本向量进行聚类,以生成各个类别中心。示例性的,聚类算法可以为K-means聚类算法。以每个类别中心为簇心的区域中包括多个语义相似的文本向量,基于类别中心可以快速确定与问题向量相关的类别,排除与问题向量不相关的类别,有效提升了问题检索的速率。聚类后,分别生成每个类别中心对应的类别向量,类别向量为每个簇心对应的区域中所有文本向量求平均值得到的。
步骤208、将所述目标文档与各类别中心建立映射关系,以完成所述数据库的构建。进一步包括:将每个文本向量与各类别中心建立映射关系,以完成所述数据库的构建。
具体的,确定了各类别中心后,将每个文本向量与其语义最相近的类别中心建立映射关系,实现通过该类别中心可以查找到与其语义相近的所有文本向量,以完成数据库的构建,同时,基于各类别中心和各文本向量构建倒排列表存储在数据库中,以备后续的检索和查询。
在一些实施例中,所述将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本,包括:
将所述问题文本、所述目标文本段落以及预设约束条件输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
具体的,除了将问题文本和目标文本段落输入至大规模语言模型中,还可以同时将约束条件输入至大规模语言模型中。约束条件可以是对大规模语言模型的输出内容进行约束的条件,例如,约束条件为“根据检索内容输出答案文本,答案文本中不能包括杜撰内容”。通过约束条件,可以为大规模语言模型提供更加明确的指令,以使大规模语言模型输出的答案文本更符合用户的实际需求。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种基于多叉树和大规模语言模型的文档问答装置。
参考图3,所述基于多叉树和大规模语言模型的文档问答装置,包括:
接收模块302,被配置为接收用户输入的问题文本,并将所述问题文本通过处理转化为问题向量;
第一确定模块304,被配置为分别计算所述问题向量与预先构建的数据库中的各类别中心对应的类别向量之间的第一相似度,根据各第一相似度确定至少一个候选类别中心;
第二确定模块306,被配置为分别计算所述问题向量与每个候选类别中心包括的各文本段落对应的文本向量之间的第二相似度,根据各第二相似度确定目标文本段落;
输出模块308,被配置为将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
在一些实施例中,还包括构建模块,所述构建模块,被配置为获取目标文档;基于所述目标文档的层级信息构建多叉树;基于所述多叉树以及所述目标文档确定各类别中心;将所述目标文档与各类别中心建立映射关系,以完成所述数据库的构建。
在一些实施例中,所述构建模块,还被配置为对所述目标文档进行划分,以得到多个文本段落;根据每个文本段落在所述目标文档中的位置信息,确定每个文本段落对应的等级和标识;根据各文本段落对应的等级和标识构建所述多叉树,其中,每个文本段落对应所述多叉树中的一个节点。
在一些实施例中,所述构建模块,还被配置为将每个文本段落通过处理转化为对应的初始向量;确定所述多叉树中每个叶子节点到根节点对应的路径;
根据所述路径中包含的所有节点对应的初始向量,得到所述叶子节点对应的文本段落的文本向量;采用聚类算法对全部叶子节点对应的文本向量进行聚类,确定各类别中心。
在一些实施例中,所述构建模块,还被配置为根据各节点对应的初始向量以及预设权重系数,计算得到所述叶子节点对应的文本段落的文本向量。
在一些实施例中,所述构建模块,还被配置为将每个文本向量与各类别中心建立映射关系,以完成所述数据库的构建。
在一些实施例中,所述输出模块308,还被配置为将所述问题文本、所述目标文本段落以及预设约束条件输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于多叉树和大规模语言模型的文档问答方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于多叉树和大规模语言模型的文档问答方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于多叉树和大规模语言模型的文档问答方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于多叉树和大规模语言模型的文档问答方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于多叉树和大规模语言模型的文档问答方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于多叉树和大规模语言模型的文档问答方法,其特征在于,包括:
接收用户输入的问题文本,并将所述问题文本通过处理转化为问题向量;
分别计算所述问题向量与预先构建的数据库中的各类别中心对应的类别向量之间的第一相似度,根据各第一相似度确定至少一个候选类别中心;
分别计算所述问题向量与每个候选类别中心包括的各文本段落对应的文本向量之间的第二相似度,根据各第二相似度确定目标文本段落;
将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
2.根据权利要求1所述的方法,其特征在于,构建所述数据库,包括:
获取目标文档;
基于所述目标文档的层级结构构建多叉树;
基于所述多叉树以及所述目标文档确定各类别中心;
将所述目标文档与各类别中心建立映射关系,以完成所述数据库的构建。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标文档的层级结构构建多叉树,包括:
对所述目标文档进行划分,以得到多个文本段落;
根据每个文本段落在所述目标文档中的位置信息,确定每个文本段落对应的等级和标识;
根据各文本段落对应的等级和标识构建所述多叉树,其中,每个文本段落对应所述多叉树中的一个节点。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多叉树以及所述目标文档确定各类别中心,包括:
将每个文本段落通过处理转化为对应的初始向量;
确定所述多叉树中每个叶子节点到根节点对应的路径;
根据所述路径中包含的所有节点对应的初始向量,得到所述叶子节点对应的文本段落的文本向量;
采用聚类算法对全部叶子节点对应的文本向量进行聚类,确定各类别中心。
5.根据权利要求4所述的方法,其特征在于,所述根据所述路径中包含的所有节点对应的初始向量,得到所述叶子节点对应的文本段落的文本向量,包括:
根据各节点对应的初始向量以及预设权重系数,计算得到所述叶子节点对应的文本段落的文本向量。
6.根据权利要求4所述的方法,其特征在于,所述将所述目标文档与各类别中心建立映射关系,以完成所述数据库的构建,包括:
将每个文本向量与各类别中心建立映射关系,以完成所述数据库的构建。
7.根据权利要求1所述的方法,其特征在于,所述将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本,包括:
将所述问题文本、所述目标文本段落以及预设约束条件输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
8.一种基于多叉树和大规模语言模型的文档问答装置,其特征在于,包括:
接收模块,被配置为接收用户输入的问题文本,并将所述问题文本通过处理转化为问题向量;
第一确定模块,被配置为分别计算所述问题向量与预先构建的数据库中的各类别中心对应的类别向量之间的第一相似度,根据各第一相似度确定至少一个候选类别中心;
第二确定模块,被配置为分别计算所述问题向量与每个候选类别中心包括的各文本段落对应的文本向量之间的第二相似度,根据各第二相似度确定目标文本段落;
输出模块,被配置为将所述问题文本和所述目标文本段落输入至经过预训练的大规模语言模型中,经由所述大规模语言模型输出所述问题文本对应的答案文本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181804.1A CN116932730B (zh) | 2023-09-14 | 2023-09-14 | 基于多叉树和大规模语言模型的文档问答方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181804.1A CN116932730B (zh) | 2023-09-14 | 2023-09-14 | 基于多叉树和大规模语言模型的文档问答方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116932730A true CN116932730A (zh) | 2023-10-24 |
CN116932730B CN116932730B (zh) | 2023-12-01 |
Family
ID=88382901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311181804.1A Active CN116932730B (zh) | 2023-09-14 | 2023-09-14 | 基于多叉树和大规模语言模型的文档问答方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932730B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725189A (zh) * | 2024-02-18 | 2024-03-19 | 国家超级计算天津中心 | 专业领域的生成式问答方法及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN111581354A (zh) * | 2020-05-12 | 2020-08-25 | 金蝶软件(中国)有限公司 | 一种faq问句相似度计算方法及其系统 |
CN112347229A (zh) * | 2020-11-12 | 2021-02-09 | 润联软件系统(深圳)有限公司 | 一种答案抽取方法、装置、计算机设备及存储介质 |
CN113742471A (zh) * | 2021-09-15 | 2021-12-03 | 重庆大学 | 一种普法问答系统的向量检索式对话方法 |
CN114117000A (zh) * | 2021-11-11 | 2022-03-01 | 海信视像科技股份有限公司 | 应答方法、装置、设备及存储介质 |
CN114781007A (zh) * | 2022-06-21 | 2022-07-22 | 杭州天谷信息科技有限公司 | 基于树的文档批量签名及验签方法、系统 |
CN115587175A (zh) * | 2022-12-08 | 2023-01-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 人机对话及预训练语言模型训练方法、系统及电子设备 |
CN116127066A (zh) * | 2022-12-19 | 2023-05-16 | 中国平安人寿保险股份有限公司 | 文本聚类方法、文本聚类装置、电子设备及存储介质 |
CN116226350A (zh) * | 2023-03-03 | 2023-06-06 | 北京优特捷信息技术有限公司 | 一种文档查询方法、装置、设备和存储介质 |
-
2023
- 2023-09-14 CN CN202311181804.1A patent/CN116932730B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN111581354A (zh) * | 2020-05-12 | 2020-08-25 | 金蝶软件(中国)有限公司 | 一种faq问句相似度计算方法及其系统 |
CN112347229A (zh) * | 2020-11-12 | 2021-02-09 | 润联软件系统(深圳)有限公司 | 一种答案抽取方法、装置、计算机设备及存储介质 |
CN113742471A (zh) * | 2021-09-15 | 2021-12-03 | 重庆大学 | 一种普法问答系统的向量检索式对话方法 |
CN114117000A (zh) * | 2021-11-11 | 2022-03-01 | 海信视像科技股份有限公司 | 应答方法、装置、设备及存储介质 |
CN114781007A (zh) * | 2022-06-21 | 2022-07-22 | 杭州天谷信息科技有限公司 | 基于树的文档批量签名及验签方法、系统 |
CN115587175A (zh) * | 2022-12-08 | 2023-01-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 人机对话及预训练语言模型训练方法、系统及电子设备 |
CN116127066A (zh) * | 2022-12-19 | 2023-05-16 | 中国平安人寿保险股份有限公司 | 文本聚类方法、文本聚类装置、电子设备及存储介质 |
CN116226350A (zh) * | 2023-03-03 | 2023-06-06 | 北京优特捷信息技术有限公司 | 一种文档查询方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
陈建树: "基于预训练语言模型的可控文本生成研究与应用", 《中国优秀硕士论文辑全文数据库 信息科技辑》, pages 1 - 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725189A (zh) * | 2024-02-18 | 2024-03-19 | 国家超级计算天津中心 | 专业领域的生成式问答方法及电子设备 |
CN117725189B (zh) * | 2024-02-18 | 2024-04-16 | 国家超级计算天津中心 | 专业领域的生成式问答方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116932730B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544474B2 (en) | Generation of text from structured data | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
US20180218241A1 (en) | Webpage classification method and apparatus, calculation device and machine readable storage medium | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
WO2017162134A1 (zh) | 用于文本处理的电子设备和方法 | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
CN111813930B (zh) | 相似文档检索方法及装置 | |
WO2020232898A1 (zh) | 文本分类方法、装置、电子设备及计算机非易失性可读存储介质 | |
CN111797245B (zh) | 基于知识图谱模型的信息匹配方法及相关装置 | |
CN116932730B (zh) | 基于多叉树和大规模语言模型的文档问答方法及相关设备 | |
CN110737774A (zh) | 图书知识图谱的构建、图书推荐方法、装置、设备及介质 | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
US20210004438A1 (en) | Identifying entity attribute relations | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN111400584A (zh) | 联想词的推荐方法、装置、计算机设备和存储介质 | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
WO2020006488A1 (en) | Corpus generating method and apparatus, and human-machine interaction processing method and apparatus | |
CN113342968A (zh) | 文本摘要提取方法及装置 | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN112559691B (zh) | 语义相似度的确定方法及确定装置、电子设备 | |
JP5355483B2 (ja) | 略語完全語復元装置とその方法と、プログラム | |
CN110727842B (zh) | 基于辅助性知识的Web服务开发者按需推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |