CN117688140A - 文档查询方法、装置、计算机设备和存储介质 - Google Patents

文档查询方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117688140A
CN117688140A CN202410156654.7A CN202410156654A CN117688140A CN 117688140 A CN117688140 A CN 117688140A CN 202410156654 A CN202410156654 A CN 202410156654A CN 117688140 A CN117688140 A CN 117688140A
Authority
CN
China
Prior art keywords
vector
document
paragraph
query
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410156654.7A
Other languages
English (en)
Other versions
CN117688140B (zh
Inventor
金山
张虎
杨金波
董宁
廖庆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuyun Technology Co ltd
Original Assignee
Shenzhen Zhuyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuyun Technology Co ltd filed Critical Shenzhen Zhuyun Technology Co ltd
Priority to CN202410156654.7A priority Critical patent/CN117688140B/zh
Publication of CN117688140A publication Critical patent/CN117688140A/zh
Application granted granted Critical
Publication of CN117688140B publication Critical patent/CN117688140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文档查询方法、装置、计算机设备和存储介质。所述方法包括:获取查询语句,并将所述查询语句转换为查询向量将所述查询向量与预先生成的段落向量进行匹配得到候选段落;基于所述候选段落确定目标候选文档,并获取所述目标候选文档中各段落的段落向量;通过自注意力机制计算所述目标候选文档中各段落的段落向量相对于所述查询向量的候选段落向量;基于所述候选段落向量以及所述查询向量确定目标文档。采用本方法能够提高查询效率。

Description

文档查询方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文档查询方法、装置、计算机设备和存储介质。
背景技术
长文档检索是信息检索领域的一项基本任务,其特点是:目标候选文档文本平均长度较长,不同段落间往往包含多个主题,而用户检索意图可能只与文档中的少数几个段落具有强相关性。在给定用户查询情况下,长文档检索模型需要在大量候选长文档中准确检索到与用户查询最相关的目标文档。
传统技术中,文档管理系统为分层管理,按照主题,主题细分及文档主题和关键词、标签等方式进行管理和查询,用户查询到所需文档的路径长,操作多,而且查询到之后通常需要阅读文本大部分内容后才能获取所需知识,效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高查询效率的文档查询方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供一种文档查询方法,所述方法包括:
获取查询语句,并将所述查询语句转换为查询向量;
将所述查询向量与预先生成的段落向量进行匹配得到候选段落;
基于所述候选段落确定目标候选文档,并获取所述目标候选文档中各段落的段落向量;
通过自注意力机制计算所述目标候选文档中各段落的段落向量相对于所述查询向量的候选段落向量;
基于所述候选段落向量以及所述查询向量确定目标文档。
在其中一个实施例中,所述基于所述候选段落向量以及所述查询向量确定目标文档,包括:
基于双塔匹配模型分别计算每一候选段落向量和所述查询向量的相似度;
基于所述目标候选文档中各段落对应的候选段落向量和所述查询向量的相似度,计算所述目标候选文档与所述查询向量的相似度;
基于所述目标候选文档与所述查询向量的相似度,确定目标文档。
在其中一个实施例中,所述基于所述候选段落向量以及所述查询向量确定目标文档,包括:
确定所述查询语句对应的用户标识以及所述目标候选文档对应的文档标识;
获取基于用户点击行为生成的异构图;
基于所述异构图生成与所述用户标识对应的用户嵌入向量,以及与所述文档标识对应的文档嵌入向量;
将所述用户嵌入向量和所述查询向量融合得到查询融合向量;
将所述文档嵌入向量和所述候选段落向量融合得到段落融合向量;
基于所述查询融合向量和所述段落融合向量确定目标文档。
在其中一个实施例中,所述获取基于用户点击行为生成的异构图,包括:
获取用户历史点击事件,所述点击事件包括用户标识、文档标识以及用户标识和文档标识的点击关系;
将所述用户标识和文档标识作为异构图节点,将点击关系作为异构图的边生成异构图。
在其中一个实施例中,所述将所述查询语句转换为查询向量之前,还包括:
基于文档关键词和/或标签以及所述查询语句对文档进行筛选得到初始候选文档;
所述将所述查询向量与预先生成的段落向量进行匹配得到候选段落,包括:
获取与所述初始候选文档对应的预先生成的段落向量;
将所述查询向量与所述初始候选文档对应的预先生成的段落向量,进行匹配得到候选段落。
在其中一个实施例中,所述基于文档关键词和/或标签以及所述查询语句对文档进行筛选得到初始候选文档之前,还包括:
获取各用户的阅读行为信息,基于所述阅读行为信息确定文档热度信息;
基于所述文档热度信息和/或文档的主题生成文档标签。
在其中一个实施例中,所述将所述查询向量与预先生成的段落向量进行匹配得到候选段落之前,还包括:
将文档按照段落进行划分得到多个段落,对多个段落进行句子提取得到句子;
基于语义模型得到各所述句子的句子向量;
将所述段落中的句子对应的所述句子向量进行拼接得到段落向量。
第二方面,本申请还提供一种文档查询装置,所述装置包括:
查询向量生成模块,用于获取查询语句,并将所述查询语句转换为查询向量;
第一匹配模块,用于将所述查询向量与预先生成的段落向量进行匹配得到候选段落;
段落向量获取模块,用于基于所述候选段落确定目标候选文档,并获取所述目标候选文档中各段落的段落向量;
候选段落向量生成模块,用于通过自注意力机制计算所述目标候选文档中各段落的段落向量相对于所述查询向量的候选段落向量;
目标文档确定模块,用于基于所述候选段落向量以及所述查询向量确定目标文档。
第三方面,本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的任意一个实施例中的方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
上述文档查询方法、装置、计算机设备、存储介质和计算机程序产品,将查询语句转换为查询向量,并与预先生成的段落向量进行匹配得到候选段落,基于候选段落确定目标候选文档,进而得到目标候选文档中各个段落的段落向量,然后通过自注意力机制计算所述目标候选文档中各段落的段落向量相对于所述查询向量的候选段落向量,这样基于候选段落向量以及所述查询向量确定目标文档,不需要人工一节一节的查询,整个过程自动化处理,提高了查询效率。
附图说明
图1为一个实施例中文档查询方法的应用环境图;
图2为一个实施例中文档查询方法的流程示意图;
图3为图2所示的实施例中的步骤S210的流程图;
图4为一个实施例中的异构图的示意图;
图5为一个实施例中的双塔匹配模型的结构示意图;
图6为一个实施例中文档查询装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的文档查询方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
终端102接收查询语句,并将查询语句发送至服务器104,服务器获取到查询语句,并将查询语句转换为查询向量;将查询向量与预先生成的段落向量进行匹配得到候选段落;基于候选段落确定目标候选文档,并获取目标候选文档中各段落的段落向量;通过自注意力机制计算目标候选文档中各段落的段落向量相对于查询向量的候选段落向量;基于候选段落向量以及查询向量确定目标文档。这样不需要人工一节一节的查询,整个过程自动化处理,提高了查询效率。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在其他的实施例中,本申请的文档查询方法可以单独应用于终端或者服务器。
在一个实施例中,如图2所示,提供了一种文档查询方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:获取查询语句,并将查询语句转换为查询向量。
查询语句是用于对所要查询文档的描述语句,其可以是几个词或者是一段话。查询向量是对查询语句进行语义提取后所得到的。可选地通过语言模型对查询语句进行处理得到查询向量。
其中该语言模型可以是Bert模型(Bidirectional Encoder Representationsfrom Transformers,即双向Transformer的Encoder),其中该语言模型是使用双向的Transformer搭建深度预训练模型,在预训练过程中使用Masked LM捕获词语级别的表示,在预训练过程中使用Next Sentence Prediction捕获句子级别的表示。
其中在语言模型使用之前,先通过现有文档对语言模型进行训练,从而使得该语言模型在现有文档对应的领域中具有字符级别的语义理解能力,其中训练的过程可以包括将各现有文档拆分为段落,然后随机遮蔽文档段落的字符,训练语言模型完成被遮蔽的字符的预测能力以实现对语言模型的训练。
在使用过程中,将查询语句作为语言模型的输入,语言模型的输出则为对应的查询向量。
S204:将查询向量与预先生成的段落向量进行匹配得到候选段落。
预先生成的段落向量是基于现有文档通过训练完成的语言模型得到的。在其中一个实施例中,将查询向量与预先生成的段落向量进行匹配得到候选段落之前,还包括:将文档按照段落进行划分得到多个段落,对多个段落进行句子提取得到句子;基于语义模型得到各句子的句子向量;将段落中的句子对应的句子向量进行拼接得到段落向量。
其中服务器将现有文档按照段落进行划分得到多个段落,例如以回车键进行划分,后续对段落按照句子进行划分,例如以句号进行划分得到多个句子,分别将句子作为训完成的语言模型的输入,这样语言模型的输出则为句子向量,再将句子向量进行拼接得到段落向量。其中后续为了方便定位,还提取文档的标题以及文档中各段落的段落编号,从而服务器按照数据结构:文档标题-段落编号-段落向量的方式存储段落向量。
为了方便理解,假设一篇介绍bert的文档的文档标题是《什么是Bert》,第一段落对应的ID是1,第二段落ID是2,以此类推。这里存入章节标题,则存储段落向量时按照《什么是Bert》-1-段落向量的方式存储,这里的文档标题和段落ID均是为了段落的定位。在其他到实施例中还可以引入章节ID,这样服务器按照数据结构:文档标题-章节编号-段落编号-段落向量的方式存储段落向量,在此不对段落向量的存储方式做特殊限制,仅是为了方便段落向量的定位。
可选地,上述段落向量预先均存储在数据库中。
其中候选段落是将查询向量和各段落向量进行匹配后得到的,例如计算查询向量和各段落向量的相似度,选取相似度大于一定值的段落向量对应的段落作为候选段落,或者是选取相似度较大的前预设数量段落向量对应的段落作为候选段落,例如选择top100的段落向量对应的段落作为候选段落。
在其中一个可选的实施例中,为了提高处理速度,服务器并行将查询向量与各预先生成的段落向量进行匹配。例如服务器可以使用k8s做服务分发部署,使用多容器实例调用多GPU卡进行推理加速。可选地,多GPU卡可以预先加载一部分预先生成的段落向量至内存中,当存在需要匹配的查询向量时,先与内存中的预先生成的段落向量进行匹配,并且运算中只负责这一部分向量的运算,每部分运算完成后再汇总结果,这样并行化的处理,提高了处理的速度。
S206:基于候选段落确定目标候选文档,并获取目标候选文档中各段落的段落向量。
其中在确定段落向量后,由于预先是按照一定的数据结构存储的段落向量,因此基于数据结构可以确定文档标题,从而确定了目标候选文档,且在若是多个段落向量指向一个文档,则进行去重处理。也就是说服务器先基于候选段落确定对应的候选文档,然后对候选文档进行去重处理得到目标候选文档。
服务器获取到各目标候选文档之后,从数据库获取到所确定的目标候选文档对应的各段落的段落向量,具体地服务器按照文档标题-段落编号-段落向量的方式遍历数据库以获取到对应的段落向量。
S208:通过自注意力机制计算目标候选文档中各段落的段落向量相对于查询向量的候选段落向量。
具体地,候选段落向量是段落向量在给定的查询向量下的语义表达,具体地将自注意力机制中的K和V定义为目标候选文档中各段落的段落向量对应的句子,Q则是查询向量,经过自注意力机制的处理得到候选段落向量。
S210:基于候选段落向量以及查询向量确定目标文档。
服务器通过计算候选段落向量以及查询向量的相似度以确定目标文档。可选地,服务器通过双塔匹配模型来计算候选段落向量以及查询向量的相似度。然后服务器确定各候选文档中各候选段落向量与查询向量的相似度,基于候选文档中各候选段落向量与查询向量的相似度得到候选文档与查询向量的相似度,最后基于候选文档与查询向量的相似度确定目标文档。
上述实施例中,将查询语句转换为查询向量,并与预先生成的段落向量进行匹配得到候选段落,基于候选段落确定目标候选文档,进而得到目标候选文档中各个段落的段落向量,然后通过自注意力机制计算目标候选文档中各段落的段落向量相对于查询向量的候选段落向量,这样基于候选段落向量以及查询向量确定目标文档,不需要人工一节一节的查询,整个过程自动化处理,提高了查询效率。
在其中一个可选的实施例中,结合图3所示,图3为图2所示的实施例中的步骤S210的流程图,在该实施例中,该步骤S210,即基于候选段落向量以及查询向量确定目标文档,包括:
S302:基于双塔匹配模型分别计算每一候选段落向量和查询向量的相似度。
具体地,服务器将候选段落向量和查询向量分别作为双塔匹配模型的输入,从而经过双塔匹配模型处理得到每一候选段落向量和查询向量的相似度。
其中需要说明的一点是自注意力机制和双塔匹配模型在训练时是端到端的,即训练时输入为目标候选文档中各段落的段落向量以及查询向量,输出为查询向量与候选段落向量的相似度。训练的样本包括查询向量以及各段落的段落向量,以及预先标注的查询语句和各段落的相似度。
S304:基于目标候选文档中各段落对应的候选段落向量和查询向量的相似度,计算目标候选文档与查询向量的相似度。
其中每篇目标候选文档包括多个段落,服务器分别计算每个段落对应的候选段落向量和查询向量的相似度,基于一篇目标候选文档中的各段落对应的候选段落向量和查询向量的相似度来确定目标候选文档与查询向量的相似度。可选地,为了减少计算量,服务器将一篇目标候选文档中的各段落对应的候选段落向量和查询向量的相似度进行排序,仅选取其中部分进行目标候选文档与查询向量的相似度的计算,例如选取top3的相似度计算得到目标候选文档与查询向量的相似度。
S306:基于目标候选文档与查询向量的相似度,确定目标文档。
服务器根据目标候选文档与查询向量的相似度对目标候选文档进行排序,然后选取其中部分作为目标文档,例如服务器选取top10作为目标文档。
上述实施例中通过计算候选段落向量与查询向量的相似度,得到目标候选文档与查询向量的相似度,进而得到目标文档,充分考虑了目标候选文档全文,语义匹配度高。
在其中一个实施例中,基于候选段落向量以及查询向量确定目标文档,包括:确定查询语句对应的用户标识以及目标候选文档对应的文档标识;获取基于用户点击行为生成的异构图;基于异构图生成与用户标识对应的用户嵌入向量,以及与文档标识对应的文档嵌入向量;将用户嵌入向量和查询向量融合得到查询融合向量;将文档嵌入向量和候选段落向量融合得到段落融合向量;基于查询融合向量和段落融合向量确定目标文档。
在其中一个实施例中,获取基于用户点击行为生成的异构图,包括:获取用户历史点击事件,点击事件包括用户标识、文档标识以及用户标识和文档标识的点击关系;将用户标识和文档标识作为异构图节点,将点击关系作为异构图的边生成异构图。
异构图是基于用户历史点击事件生成的,其中异构图中的节点包括用户标识和文档标识,由于节点是不同的属性,所以这个图是异构的,异构图中的边则是点击关系。结合图4所示,其中存在用户甲、用户乙、用户丙和用户丁,文档包括文档一和文档二,其中用户甲、用户乙、用户丙点击过文档一,用户乙、用户丙和用户丁点击过文档二,则对应生成如图4中的异构图,一篇文档是否会被用户点击的问题则转换为文档标识节点和用户标识节点是否存在边的问题。
结合图5所示,图5为一个实施例中的双塔匹配模型的结构示意图,在该实施例中,双塔匹配模型的输入基于上述的异构图被优化,具体地,基于异构图生成与用户标识对应的用户嵌入向量,以及与文档标识对应的文档嵌入向量;将用户嵌入向量和查询向量融合得到查询融合向量;将文档嵌入向量和候选段落向量融合得到段落融合向量;该查询融合向量和段落融合向量作为双塔匹配模型的输入。
其中嵌入向量可以是基于图神经网络技术,根据异构图中的节点和边得到的,通过metapath元路径的方式对异构图中的节点和边进行处理得到嵌入向量,其中在给定metapath的基础上对每个节点做嵌入化表达,每个节点在不同的metapath下的嵌入表达都可能不一样,后续通过HAN (Heterogeneous Graph Attention Network)算法将不同表达嵌入向量融合为一个向量。
在得到各个节点的嵌入向量后,服务器将用户嵌入向量和查询向量融合得到查询融合向量;将文档嵌入向量和候选段落向量融合得到段落融合向量,例如可以将用户嵌入向量和查询向量拼接在一起得到查询融合向量,将文档嵌入向量和候选段落向量拼接在一起得到段落融合向量。
服务器通过计算查询融合向量和段落融合向量的相似度得到每一候选段落向量和查询向量的相似度,后续再基于目标候选文档中各段落对应的候选段落向量和查询向量的相似度,计算目标候选文档与查询向量的相似度,最后基于目标候选文档与查询向量的相似度确定目标文档。
上述实施例中,融合了用户点击行为,从而使得最后得到的目标文档更加准确。
在其中一个实施例中,将查询语句转换为查询向量之前,还包括:基于文档关键词和/或标签以及查询语句对文档进行筛选得到初始候选文档;将查询向量与预先生成的段落向量进行匹配得到候选段落,包括:获取与初始候选文档对应的预先生成的段落向量;将查询向量与初始候选文档对应的预先生成的段落向量,进行匹配得到候选段落。
具体地,文档的关键词可以是基于TF-IDF算法计算得到的,主要思想是如果某个词或短语在一篇文档中出现的频率TF高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF=TF*IDF,其中TF(Term Frequency),表示词条在文章Documen中出现的频率;IDF(Inverse Document Frequency),其主要思想就是,如果包含某个词Word的文档越少,则这个词的区分度就越大,也就是IDF越大。对于如何获取一篇文档的关键词,服务器可以计算这篇文档出现的所有名词的TF-IDF,TF-IDF越大,则说明这个名词对这篇文档的区分度就越高,取TF-IDF值较大的几个词作为这篇文档的关键词。
文档的标签可以是基于文档的主题得到的,在其中一个可选的实施例中,基于文档关键词和/或标签以及查询语句对文档进行筛选得到初始候选文档之前,还包括:获取各用户的阅读行为信息,基于阅读行为信息确定文档热度信息;基于文档热度信息和/或文档的主题生成文档标签。
本实施例中基于各用户的阅读行为信息优化文档标签,例如基于阅读行为信息确定文档热度信息,基于文档热度得到文档的标签。
服务器在将查询向量与预先生成的段落向量进行匹配之前,先基于关键词和/或标签对文档进行筛选。例如服务器获取查询语句中的关键词,将该关键词与文档的关键词和/或标签进行语义匹配以筛选得到初始候选文档,后续服务器仅需要将查询向量与初始候选文档中各段落的段落向量进行匹配即可。
在其中一个可选的实施例中,服务器可以并行将查询语句的关键词与文档的关键词和/或标签进行语义匹配,例如服务器可以使用k8s做服务分发部署,使用多容器实例调用多GPU卡进行推理加速。可选地,多GPU卡可以预先加载一部分文档的关键词和/或标签至内存中,当存在需要匹配的查询语句的关键词时,先与内存中的预先生成的关键词和/或标签进行匹配,并且运算中只负责这一部分关键词和/或标签匹配的运算,每部分运算完成后再汇总结果,这样并行化的处理,提高了处理的速度。
此外,在匹配确定了初始候选文档后,服务器仅将初始候选文档对应的段落向量加载至对应的各服务器的内存中,各服务器进行并行计算,从而提高了处理的速度。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文档查询方法的文档查询装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文档查询装置实施例中的具体限定可以参见上文中对于文档查询方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种文档查询装置,包括:查询向量生成模块601、第一匹配模块602、段落向量获取模块603、候选段落向量生成模块604和目标文档确定模块605,其中:
查询向量生成模块601,用于获取查询语句,并将查询语句转换为查询向量;
第一匹配模块602,用于将查询向量与预先生成的段落向量进行匹配得到候选段落;
段落向量获取模块603,用于基于候选段落确定目标候选文档,并获取目标候选文档中各段落的段落向量;
候选段落向量生成模块604,用于通过自注意力机制计算目标候选文档中各段落的段落向量相对于查询向量的候选段落向量;
目标文档确定模块605,用于基于候选段落向量以及查询向量确定目标文档。
在其中一个实施例中,该目标文档确定模块605可以包括:
第一相似度计算单元,用于基于双塔匹配模型分别计算每一候选段落向量和查询向量的相似度;
第二相似度计算单元,用于基于目标候选文档中各段落对应的候选段落向量和查询向量的相似度,计算目标候选文档与查询向量的相似度;
第一目标文档确定单元,用于基于目标候选文档与查询向量的相似度,确定目标文档。
在其中一个实施例中,该目标文档确定模块605可以包括:
标识确定单元,用于确定查询语句对应的用户标识以及目标候选文档对应的文档标识;
异构图获取单元,用于获取基于用户点击行为生成的异构图;
嵌入向量生成单元,用于基于异构图生成与用户标识对应的用户嵌入向量,以及与文档标识对应的文档嵌入向量;
查询融合向量生成单元,用于将用户嵌入向量和查询向量融合得到查询融合向量;
段落融合向量生成单元,用于将文档嵌入向量和候选段落向量融合得到段落融合向量;
第二目标文档确定单元,用于基于查询融合向量和段落融合向量确定目标文档。
在其中一个实施例中,该装置还包括异构图生成模块,该异构图生成模块用于获取用户历史点击事件,点击事件包括用户标识、文档标识以及用户标识和文档标识的点击关系;将用户标识和文档标识作为异构图节点,将点击关系作为异构图的边生成异构图。
在其中一个实施例中,该装置还包括:预筛选模块,用于基于文档关键词和/或标签以及查询语句对文档进行筛选得到初始候选文档;上述第一匹配模块602还用于获取与初始候选文档对应的预先生成的段落向量;将查询向量与初始候选文档对应的预先生成的段落向量,进行匹配得到候选段落。
在其中一个实施例中,该装置还包括文档标签生成模块,用于获取各用户的阅读行为信息,基于阅读行为信息确定文档热度信息;基于文档热度信息和/或文档的主题生成文档标签。
在其中一个实施例中,该装置还包括段落向量生成模块,用于将文档按照段落进行划分得到多个段落,对多个段落进行句子提取得到句子;基于语义模型得到各句子的句子向量;将段落中的句子对应的句子向量进行拼接得到段落向量。
上述文档查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预先生成的各文档的段落向量和/或各文档的关键词和/或标签。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文档查询方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取查询语句,并将查询语句转换为查询向量;将查询向量与预先生成的段落向量进行匹配得到候选段落;基于候选段落确定目标候选文档,并获取目标候选文档中各段落的段落向量;通过自注意力机制计算目标候选文档中各段落的段落向量相对于查询向量的候选段落向量;基于候选段落向量以及查询向量确定目标文档。
在一个实施例中,处理器执行计算机程序时所实现的基于候选段落向量以及查询向量确定目标文档,包括:基于双塔匹配模型分别计算每一候选段落向量和查询向量的相似度;基于目标候选文档中各段落对应的候选段落向量和查询向量的相似度,计算目标候选文档与查询向量的相似度;基于目标候选文档与查询向量的相似度,确定目标文档。
在一个实施例中,处理器执行计算机程序时所实现的基于候选段落向量以及查询向量确定目标文档,包括:确定查询语句对应的用户标识以及目标候选文档对应的文档标识;获取基于用户点击行为生成的异构图;基于异构图生成与用户标识对应的用户嵌入向量,以及与文档标识对应的文档嵌入向量;将用户嵌入向量和查询向量融合得到查询融合向量;将文档嵌入向量和候选段落向量融合得到段落融合向量;基于查询融合向量和段落融合向量确定目标文档。
在一个实施例中,处理器执行计算机程序时所实现的获取基于用户点击行为生成的异构图,包括:获取用户历史点击事件,点击事件包括用户标识、文档标识以及用户标识和文档标识的点击关系;将用户标识和文档标识作为异构图节点,将点击关系作为异构图的边生成异构图。
在一个实施例中,处理器执行计算机程序时所实现的将查询语句转换为查询向量之前,还包括:基于文档关键词和/或标签以及查询语句对文档进行筛选得到初始候选文档;处理器执行计算机程序时所实现的将查询向量与预先生成的段落向量进行匹配得到候选段落,包括:获取与初始候选文档对应的预先生成的段落向量;将查询向量与初始候选文档对应的预先生成的段落向量,进行匹配得到候选段落。
在一个实施例中,处理器执行计算机程序时所实现的基于文档关键词和/或标签以及查询语句对文档进行筛选得到初始候选文档之前,还包括:获取各用户的阅读行为信息,基于阅读行为信息确定文档热度信息;基于文档热度信息和/或文档的主题生成文档标签。
在一个实施例中,处理器执行计算机程序时所实现的将查询向量与预先生成的段落向量进行匹配得到候选段落之前,还包括:将文档按照段落进行划分得到多个段落,对多个段落进行句子提取得到句子;基于语义模型得到各句子的句子向量;将段落中的句子对应的句子向量进行拼接得到段落向量。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取查询语句,并将查询语句转换为查询向量;将查询向量与预先生成的段落向量进行匹配得到候选段落;基于候选段落确定目标候选文档,并获取目标候选文档中各段落的段落向量;通过自注意力机制计算目标候选文档中各段落的段落向量相对于查询向量的候选段落向量;基于候选段落向量以及查询向量确定目标文档。
在一个实施例中,计算机程序被处理器执行时所实现的基于候选段落向量以及查询向量确定目标文档,包括:基于双塔匹配模型分别计算每一候选段落向量和查询向量的相似度;基于目标候选文档中各段落对应的候选段落向量和查询向量的相似度,计算目标候选文档与查询向量的相似度;基于目标候选文档与查询向量的相似度,确定目标文档。
在一个实施例中,计算机程序被处理器执行时所实现的基于候选段落向量以及查询向量确定目标文档,包括:确定查询语句对应的用户标识以及目标候选文档对应的文档标识;获取基于用户点击行为生成的异构图;基于异构图生成与用户标识对应的用户嵌入向量,以及与文档标识对应的文档嵌入向量;将用户嵌入向量和查询向量融合得到查询融合向量;将文档嵌入向量和候选段落向量融合得到段落融合向量;基于查询融合向量和段落融合向量确定目标文档。
在一个实施例中,计算机程序被处理器执行时所实现的获取基于用户点击行为生成的异构图,包括:获取用户历史点击事件,点击事件包括用户标识、文档标识以及用户标识和文档标识的点击关系;将用户标识和文档标识作为异构图节点,将点击关系作为异构图的边生成异构图。
在一个实施例中,计算机程序被处理器执行时所实现的将查询语句转换为查询向量之前,还包括:基于文档关键词和/或标签以及查询语句对文档进行筛选得到初始候选文档;计算机程序被处理器执行时所实现的将查询向量与预先生成的段落向量进行匹配得到候选段落,包括:获取与初始候选文档对应的预先生成的段落向量;将查询向量与初始候选文档对应的预先生成的段落向量,进行匹配得到候选段落。
在一个实施例中,计算机程序被处理器执行时所实现的基于文档关键词和/或标签以及查询语句对文档进行筛选得到初始候选文档之前,还包括:获取各用户的阅读行为信息,基于阅读行为信息确定文档热度信息;基于文档热度信息和/或文档的主题生成文档标签。
在一个实施例中,计算机程序被处理器执行时所实现的将查询向量与预先生成的段落向量进行匹配得到候选段落之前,还包括:将文档按照段落进行划分得到多个段落,对多个段落进行句子提取得到句子;基于语义模型得到各句子的句子向量;将段落中的句子对应的句子向量进行拼接得到段落向量。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取查询语句,并将查询语句转换为查询向量;将查询向量与预先生成的段落向量进行匹配得到候选段落;基于候选段落确定目标候选文档,并获取目标候选文档中各段落的段落向量;通过自注意力机制计算目标候选文档中各段落的段落向量相对于查询向量的候选段落向量;基于候选段落向量以及查询向量确定目标文档。
在一个实施例中,计算机程序被处理器执行时所实现的基于候选段落向量以及查询向量确定目标文档,包括:基于双塔匹配模型分别计算每一候选段落向量和查询向量的相似度;基于目标候选文档中各段落对应的候选段落向量和查询向量的相似度,计算目标候选文档与查询向量的相似度;基于目标候选文档与查询向量的相似度,确定目标文档。
在一个实施例中,计算机程序被处理器执行时所实现的基于候选段落向量以及查询向量确定目标文档,包括:确定查询语句对应的用户标识以及目标候选文档对应的文档标识;获取基于用户点击行为生成的异构图;基于异构图生成与用户标识对应的用户嵌入向量,以及与文档标识对应的文档嵌入向量;将用户嵌入向量和查询向量融合得到查询融合向量;将文档嵌入向量和候选段落向量融合得到段落融合向量;基于查询融合向量和段落融合向量确定目标文档。
在一个实施例中,计算机程序被处理器执行时所实现的获取基于用户点击行为生成的异构图,包括:获取用户历史点击事件,点击事件包括用户标识、文档标识以及用户标识和文档标识的点击关系;将用户标识和文档标识作为异构图节点,将点击关系作为异构图的边生成异构图。
在一个实施例中,计算机程序被处理器执行时所实现的将查询语句转换为查询向量之前,还包括:基于文档关键词和/或标签以及查询语句对文档进行筛选得到初始候选文档;计算机程序被处理器执行时所实现的将查询向量与预先生成的段落向量进行匹配得到候选段落,包括:获取与初始候选文档对应的预先生成的段落向量;将查询向量与初始候选文档对应的预先生成的段落向量,进行匹配得到候选段落。
在一个实施例中,计算机程序被处理器执行时所实现的基于文档关键词和/或标签以及查询语句对文档进行筛选得到初始候选文档之前,还包括:获取各用户的阅读行为信息,基于阅读行为信息确定文档热度信息;基于文档热度信息和/或文档的主题生成文档标签。
在一个实施例中,计算机程序被处理器执行时所实现的将查询向量与预先生成的段落向量进行匹配得到候选段落之前,还包括:将文档按照段落进行划分得到多个段落,对多个段落进行句子提取得到句子;基于语义模型得到各句子的句子向量;将段落中的句子对应的句子向量进行拼接得到段落向量。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种文档查询方法,其特征在于,所述方法包括:
获取查询语句,并将所述查询语句转换为查询向量;
将所述查询向量与预先生成的段落向量进行匹配得到候选段落;
基于所述候选段落确定目标候选文档,并获取所述目标候选文档中各段落的段落向量;
通过自注意力机制计算所述目标候选文档中各段落的段落向量相对于所述查询向量的候选段落向量;
基于所述候选段落向量以及所述查询向量确定目标文档。
2.根据权利要求1所述的方法,其特征在于,所述基于所述候选段落向量以及所述查询向量确定目标文档,包括:
基于双塔匹配模型分别计算每一候选段落向量和所述查询向量的相似度;
基于所述目标候选文档中各段落对应的候选段落向量和所述查询向量的相似度,计算所述目标候选文档与所述查询向量的相似度;
基于所述目标候选文档与所述查询向量的相似度,确定目标文档。
3.根据权利要求1所述的方法,其特征在于,所述基于所述候选段落向量以及所述查询向量确定目标文档,包括:
确定所述查询语句对应的用户标识以及所述目标候选文档对应的文档标识;
获取基于用户点击行为生成的异构图;
基于所述异构图生成与所述用户标识对应的用户嵌入向量,以及与所述文档标识对应的文档嵌入向量;
将所述用户嵌入向量和所述查询向量融合得到查询融合向量;
将所述文档嵌入向量和所述候选段落向量融合得到段落融合向量;
基于所述查询融合向量和所述段落融合向量确定目标文档。
4.根据权利要求3所述的方法,其特征在于,所述获取基于用户点击行为生成的异构图,包括:
获取用户历史点击事件,所述点击事件包括用户标识、文档标识以及用户标识和文档标识的点击关系;
将所述用户标识和文档标识作为异构图节点,将点击关系作为异构图的边生成异构图。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述将所述查询语句转换为查询向量之前,还包括:
基于文档关键词和/或标签以及所述查询语句对文档进行筛选得到初始候选文档;
所述将所述查询向量与预先生成的段落向量进行匹配得到候选段落,包括:
获取与所述初始候选文档对应的预先生成的段落向量;
将所述查询向量与所述初始候选文档对应的预先生成的段落向量,进行匹配得到候选段落。
6.根据权利要求5所述的方法,其特征在于,所述基于文档关键词和/或标签以及所述查询语句对文档进行筛选得到初始候选文档之前,还包括:
获取各用户的阅读行为信息,基于所述阅读行为信息确定文档热度信息;
基于所述文档热度信息和/或文档的主题生成文档标签。
7.根据权利要求1所述的方法,其特征在于,所述将所述查询向量与预先生成的段落向量进行匹配得到候选段落之前,还包括:
将文档按照段落进行划分得到多个段落,对多个段落进行句子提取得到句子;
基于语义模型得到各所述句子的句子向量;
将所述段落中的句子对应的所述句子向量进行拼接得到段落向量。
8.一种文档查询装置,其特征在于,所述装置包括:
查询向量生成模块,用于获取查询语句,并将所述查询语句转换为查询向量;
第一匹配模块,用于将所述查询向量与预先生成的段落向量进行匹配得到候选段落;
段落向量获取模块,用于基于所述候选段落确定目标候选文档,并获取所述目标候选文档中各段落的段落向量;
候选段落向量生成模块,用于通过自注意力机制计算所述目标候选文档中各段落的段落向量相对于所述查询向量的候选段落向量;
目标文档确定模块,用于基于所述候选段落向量以及所述查询向量确定目标文档。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202410156654.7A 2024-02-04 2024-02-04 文档查询方法、装置、计算机设备和存储介质 Active CN117688140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410156654.7A CN117688140B (zh) 2024-02-04 2024-02-04 文档查询方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410156654.7A CN117688140B (zh) 2024-02-04 2024-02-04 文档查询方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN117688140A true CN117688140A (zh) 2024-03-12
CN117688140B CN117688140B (zh) 2024-04-30

Family

ID=90130522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410156654.7A Active CN117688140B (zh) 2024-02-04 2024-02-04 文档查询方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117688140B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413985A (zh) * 2018-04-27 2019-11-05 北京海马轻帆娱乐科技有限公司 一种相关文本片段搜索方法及装置
US20200349183A1 (en) * 2019-05-03 2020-11-05 Servicenow, Inc. Clustering and dynamic re-clustering of similar textual documents
CN114722821A (zh) * 2022-03-21 2022-07-08 深圳壹账通智能科技有限公司 一种文本匹配方法、装置、存储介质及电子设备
CN116415156A (zh) * 2023-04-03 2023-07-11 浪潮卓数大数据产业发展有限公司 一种文档相似度计算方法、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413985A (zh) * 2018-04-27 2019-11-05 北京海马轻帆娱乐科技有限公司 一种相关文本片段搜索方法及装置
US20200349183A1 (en) * 2019-05-03 2020-11-05 Servicenow, Inc. Clustering and dynamic re-clustering of similar textual documents
CN114722821A (zh) * 2022-03-21 2022-07-08 深圳壹账通智能科技有限公司 一种文本匹配方法、装置、存储介质及电子设备
CN116415156A (zh) * 2023-04-03 2023-07-11 浪潮卓数大数据产业发展有限公司 一种文档相似度计算方法、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛云鹏;: "潜语义分析模型与基于word2vec的段落向量生成方式的认识与比较", 通讯世界, no. 09, 25 September 2018 (2018-09-25), pages 228 - 229 *

Also Published As

Publication number Publication date
CN117688140B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Ramnandan et al. Assigning semantic labels to data sources
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US9147154B2 (en) Classifying resources using a deep network
US8457950B1 (en) System and method for coreference resolution
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
US9009029B1 (en) Semantic hashing in entity resolution
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
Tayal et al. Fast retrieval approach of sentimental analysis with implementation of bloom filter on Hadoop
Iskandarli Applying clustering and topic modeling to automatic analysis of citizens’ comments in E-Government
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
Köksal et al. Improving automated Turkish text classification with learning‐based algorithms
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
Endalie et al. Hybrid feature selection for Amharic news document classification
CN117688140B (zh) 文档查询方法、装置、计算机设备和存储介质
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
Jung et al. DAC: Descendant-aware clustering algorithm for network-based topic emergence prediction
CN115048536A (zh) 知识图谱生成方法、装置、计算机设备和存储介质
CN114969253A (zh) 市场主体与政策的匹配方法、装置、计算设备及介质
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
CN111538898A (zh) 基于组合特征提取的Web服务包推荐方法及系统
Sisodia et al. Agglomerative similarity measure based automated clustering of scholarly articles
CN116702024B (zh) 流水数据类型识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant