CN117725164A - 一种数据生成方法、装置、计算机设备及存储介质 - Google Patents

一种数据生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117725164A
CN117725164A CN202310913576.6A CN202310913576A CN117725164A CN 117725164 A CN117725164 A CN 117725164A CN 202310913576 A CN202310913576 A CN 202310913576A CN 117725164 A CN117725164 A CN 117725164A
Authority
CN
China
Prior art keywords
data
sample
queried
user
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310913576.6A
Other languages
English (en)
Inventor
王树森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaohongshu Technology Co ltd
Original Assignee
Xiaohongshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaohongshu Technology Co ltd filed Critical Xiaohongshu Technology Co ltd
Priority to CN202310913576.6A priority Critical patent/CN117725164A/zh
Publication of CN117725164A publication Critical patent/CN117725164A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种数据生成方法、装置、计算机设备及存储介质,该方法包括:获取样本数据集,样本数据集包括多个样本数据,每个样本数据为三元组数据,三元组数据包括样本用户数据、样本待查询词和样本待查询词对应的样本查询文档,其中,样本用户数据包括用户标识以及用户的历史行为数据;从样本数据集的各个样本数据中提取样本特征,并将样本特征输入改进的深度学习模型进行训练,得到数据生成模型;获取待查询数据以及待查询数据对应的用户的历史行为数据,并将待查询数据以及待查询数据对应的用户的历史行为数据输入数据生成模型,生成与待查询数据对应的查询结果数据。通过这种方式可以生成满足用户个性化需求的数据。

Description

一种数据生成方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据生成方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展,关于数据查询的技术也越来越多,主要有两种方式:一种是用户可以通过一些搜索引擎或对话系统等现有的查询系统查询数据,用户可以通过在搜索引擎输入待查询词,搜索引擎可以输出该待查询词的查询结果,例如待查询词可以为问题,查询结果可以为答案;另一种是通过模型生成待查询词的查询结果。然而,通过搜索引擎这方式查询到的结果在数据和数量方面均存在局限性,目前通过模型生成的查询结果较为广泛,不能满足用户的个性化需求。因此如何更好地查询数据成为研究的重点。
发明内容
本申请实施例提供了一种数据生成方法、装置、计算机设备及存储介质,可以训练得到满足用户个性化需求的数据生成模型,以生成满足用户个性化需求的数据。
第一方面,本申请实施例提供了一种数据生成方法,包括:
获取样本数据集,所述样本数据集包括多个样本数据,每个样本数据为三元组数据,所述三元组数据包括样本用户数据、样本待查询词和所述样本待查询词对应的样本查询文档,其中,所述样本用户数据包括用户标识以及用户的历史行为数据,所述用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;
从所述样本数据集的各个样本数据中提取样本特征,并将所述样本特征输入改进的深度学习模型进行训练,得到数据生成模型;
获取待查询数据以及所述待查询数据对应的用户的历史行为数据,并将所述待查询数据以及所述待查询数据对应的用户的历史行为数据输入所述数据生成模型,生成与所述待查询数据对应的查询结果数据。
第二方面,本申请实施例提供了一种数据生成装置,包括:
获取单元,用于获取样本数据集,所述样本数据集包括多个样本数据,每个样本数据为三元组数据,所述三元组数据包括样本用户数据、样本待查询词和所述样本待查询词对应的样本查询文档,其中,所述样本用户数据包括用户标识以及用户的历史行为数据,所述用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;
训练单元,用于从所述样本数据集的各个样本数据中提取样本特征,并将所述样本特征输入改进的深度学习模型进行训练,得到数据生成模型;
生成单元,用于获取待查询数据以及所述待查询数据对应的用户的历史行为数据,并将所述待查询数据以及所述待查询数据对应的用户的历史行为数据输入所述数据生成模型,生成与所述待查询数据对应的查询结果数据。
第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述处理器用于执行上述第一方面所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序指令,该程序指令被执行时实现上述第一方面所述的方法。
本申请实施例可以。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据生成方法的流程示意图;
图2是本申请实施例提供的另一种数据生成方法的流程示意图;
图3是本申请实施例提供的一种数据生成模型的结构示意图;
图4是本申请实施例提供的一种数据生成装置的结构示意图;
图5是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前关于数据查询的方法主要是通过问答系统、搜索引擎等查询,其中,问答系统主要是通过用户输入问题,系统输出答案,以回答用户的问题。搜索引擎主要是通过在搜索引擎中输入待查询词,搜索引擎既可以找到相关的网页,也可以用模型生成查询数据,然而该模型生成的查询数据是针对问题(或待查询词)本身,没有考虑用户的兴趣等个性化需求。
因此,本申请针对这种情况提出了一种数据生成方法,可应用于对话系统、搜索引擎、问答系统等场景,通过获取样本数据集,该样本数据集包括多个样本数据,每个样本数据为三元组数据,该三元组数据包括样本用户数据、样本待查询词和该样本待查询词对应的样本查询文档,其中,该样本用户数据包括用户标识以及用户的历史行为数据,该用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;从该样本数据集的各个样本数据中提取样本特征,并将该样本特征输入改进的深度学习模型进行训练,得到数据生成模型;获取待查询数据,并将该待查询数据输入该数据生成模型,生成与该待查询数据对应的查询结果数据。通过这种方式生成的查询结果数据可以满足用户对查询数据的个性化需求。
本申请实施例中提供的数据生成方法可以应用于一种数据生成装置,该数据生成装置可设置于计算机设备中,在某些实施例中,该计算机设备可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。
下面结合附图对本申请实施例提供的数据生成方法进行示意性说明。
具体请参见图1,图1是本申请实施例提供的一种数据生成方法的流程示意图,本申请实施例的数据生成方法可以由数据生成装置执行,其中,该数据生成装置可设置于计算机设备中。
S101:获取样本数据集,该样本数据集包括多个样本数据,每个样本数据为三元组数据,该三元组数据包括样本用户数据、样本待查询词和该样本待查询词对应的样本查询文档。
本申请实施例中,计算机设备可以获取样本数据集,该样本数据集包括多个样本数据,每个样本数据为三元组数据,该三元组数据包括样本用户数据、样本待查询词和该样本待查询词对应的样本查询文档,其中,该样本用户数据包括用户标识以及用户的历史行为数据,该用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息。
其中,该用户标识可以包括但不限于文字、数字、字母等任意一种或多种字符,该用户的历史点击文档信息可以包括但不限于用户在一段时间范围内的历史点击文档的次数、时间信息等,该用户的历史搜索待查询词信息可以包括但不限于用户在一段时间范围内的历史搜索待查询词信息。在某些实施例中,该样本待查询词和该样本待查询词对应的样本查询文档可以包括但不限于文字、字母、数字等任意一种或多种文本数据。
由于用户搜索待查询词,搜索引擎返回多篇文档,用户点击进入文档,之后可能发生点赞、收藏等交互行为。如果发生这种交互行为,则说明文档与待查询词相关,且符合用户兴趣点。因此,通过这种包括样本用户数据、样本待查询词和该样本待查询词对应的样本查询文档的三元组数据,有助于训练生成满足用户个性化的数据生成模型。
S102:从该样本数据集的各个样本数据中提取样本特征,并将该样本特征输入改进的深度学习模型进行训练,得到数据生成模型。
本申请实施例中,计算机设备可以从该样本数据集的各个样本数据中提取样本特征,并将该样本特征输入改进的深度学习模型进行训练,得到数据生成模型。在某些实施例中,该改进的深度学习模型包括编码器和解码器,该编码器包括一个嵌入层和2个自注意力层,该编码器用于对样本用户特征中的用户标识特征和用户的历史行为数据特征进行编码,得到样本用户特征向量;该解码器用于对该编码器得到的样本用户特征向量以及样本数据中三元组数据中的待查询词进行解码,生成与该待查询词对应的查询结果数据。
在一个实施例中,计算机设备在从该样本数据集的各个样本数据中提取样本特征时,可以从该样本数据集的各个样本数据的三元组数据的样本用户中提取样本用户特征,并从该各个样本数据的三元组数据的样本待查询词中提取样本待查询词特征,以及从该各个样本数据的三元组数据的样本查询文档中提取样本查询文档特征,其中,该样本用户特征包括用户标识特征和用户的历史行为数据特征;根据该样本用户特征、该样本待查询词特征以及该样本查询文档特征确定该样本特征。
S103:获取待查询数据以及该待查询数据对应的用户的历史行为数据,并将该待查询数据以及该待查询数据对应的用户的历史行为数据输入该数据生成模型,生成与该待查询数据对应的查询结果数据。
本申请实施例中,计算机设备可以获取待查询数据以及该待查询数据对应的用户的历史行为数据,并将该待查询数据以及该待查询数据对应的用户的历史行为数据输入该数据生成模型,生成与该待查询数据对应的查询结果数据。
在一个实施例中,计算机设备在获取待查询数据以及该待查询数据对应的用户的历史行为数据时,可以获取该待查询数据的用户标识,并根据该待查询数据的用户标识确定与该用户标识对应的用户的历史行为数据。
在一个实施例中,计算机设备在将该待查询数据以及该待查询数据对应的用户的历史行为数据输入该数据生成模型,生成与该待查询数据对应的查询结果数据时,可以将该待查询数据的用户标识和与该用户标识对应的用户的历史行为数据输入该数据生成模型的编码器,得到该待查询数据的用户特征向量;将该待查询数据和该待查询数据的用户特征向量输入该数据生成模型的解码器,生成与该待查询数据对应的查询结果数据。
本申请实施例可以获取样本数据集,该样本数据集包括多个样本数据,每个样本数据为三元组数据,该三元组数据包括样本用户数据、样本待查询词和该样本待查询词对应的样本查询文档,其中,该样本用户数据包括用户标识以及用户的历史行为数据,该用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;从该样本数据集的各个样本数据中提取样本特征,并将该样本特征输入改进的深度学习模型进行训练,得到数据生成模型;获取待查询数据,并将该待查询数据输入该数据生成模型,生成与该待查询数据对应的查询结果数据。通过这种方式可以训练得到满足个性化需求的数据生成模型,提高模型可靠性,进一步通过数据生成模型生成满足用户个性化需求的查询结果数据。
具体请参见图2,图2是本申请实施例提供的另一种数据生成方法的流程示意图,本申请实施例的数据生成方法可以由数据生成装置执行,其中,该数据生成装置设置于计算机设备中,其中,该计算机设备的具体解释如前所述。具体地,本申请实施例的方法包括如下步骤。
S201:获取样本数据集,该样本数据集包括多个样本数据,每个样本数据为三元组数据,该三元组数据包括样本用户数据、样本待查询词和该样本待查询词对应的样本查询文档。
S202:从该样本数据集的各个样本数据的三元组数据中提取样本用户特征、样本待查询词特征以及样本查询文档特征。
本申请实施例中,计算机设备可以从该样本数据集的各个样本数据的三元组数据的样本用户中提取样本用户特征,并从该各个样本数据的三元组数据的样本待查询词中提取样本待查询词特征,以及从该各个样本数据的三元组数据的样本查询文档中提取样本查询文档特征,其中,该样本用户特征包括用户标识特征和用户的历史行为数据特征。
S203:根据该样本用户特征、该样本待查询词特征以及该样本查询文档特征确定该样本特征,并将该样本特征输入改进的深度学习模型进行训练,得到数据生成模型。
本申请实施例中,计算机设备可以根据该样本用户特征、该样本待查询词特征以及该样本查询文档特征确定该样本特征,并将该样本特征输入改进的深度学习模型进行训练,得到数据生成模型。
在一个实施例中,计算机设备在根据该样本用户特征、该样本待查询词特征以及该样本查询文档特征确定该样本特征时,可以直接确定该样本用户特征、该样本待查询词特征以及该样本查询文档特征为该样本特征。
在一种可选地实施方式中,计算机设备在根据该样本用户特征、该样本待查询词特征以及该样本查询文档特征确定该样本特征时,可以将该样本用户特征、该样本待查询词特征以及该样本查询文档特征进行融合处理,确定融合处理后的特征为该样本特征。在某些实施例中,该融合处理过程可以是对该样本用户特征、该样本待查询词特征以及该样本查询文档特征进行向量融合。
在一个实施例中,该改进的深度学习模型包括编码器和解码器;计算机设备在将该样本特征输入改进的深度学习模型进行训练,得到数据生成模型时,可以将该样本用户特征中的用户标识特征和该用户的历史行为数据特征输入该改进的深度学习模型的编码器,得到样本用户特征向量;将该样本待查询词和该样本用户特征向量输入该改进的深度学习模型的解码器,得到该样本待查询词的查询结果;利用该样本待查询词的查询结果以及该样本待查询词对应的样本查询文档对该改进的深度学习模型进行训练,得到该数据生成模型。
在一个实施例中,该编码器包括嵌入层和自注意力层,计算机设备在将该样本用户特征中的用户标识特征和该用户的历史行为数据特征输入该改进的深度学习模型的编码器,得到样本用户特征向量时,可以将该样本用户特征中的用户标识特征输入该改进的深度学习模型的编码器的嵌入层,得到用户标识特征向量;将该样本用户特征中用户的历史行为数据特征输入该编码器的自注意力层,得到历史行为数据特征向量;确定该用户标识特征向量和该历史行为数据特征向量为该样本用户特征向量。
在一个实施例中,该用户的历史行为数据特征包括用户的历史点击文档特征和用户的历史搜索待查询词特征,该编码器的自注意力层包括第一自注意力层和第二自注意力层;计算机设备在将该样本用户特征中用户的历史行为数据特征输入该编码器的自注意力层,得到历史行为数据特征向量时,可以将该用户的历史点击文档特征输入该编码器的第一自注意力层,得到历史点击文档特征向量;将该用户的历史搜索待查询词特征输入该编码器的第二自注意力层,得到历史搜索待查询词特征向量;确定该历史点击文档特征向量和该历史搜索待查询词特征向量为该历史行为数据特征向量。
具体可以图3为例进行说明,图3是本申请实施例提供的一种数据生成模型的结构示意图,如图3所示,该模型可以包括编码器和解码器,其中,编码器由3个神经网络组成,其中包括一个嵌入层和2个自注意力层(即第一自注意力层和第二自注意力层)。其中,该嵌入层的输入是用户标识特征,输出是一个用户标识特征向量,该用户标识特征向量用于表示用户的兴趣。第一自注意力层的输入是m个文档向量(即历史点击文档特征),输出也是m个向量(即历史点击文档特征向量)。输入的每个文档向量对应用户最近点击或交互过的文档,向量是用模型(如BERT模型)从文档文本中提取的向量表征。第二自注意力层的输入是n个用户最近搜索的待查询词向量(即历史搜索待查询词特征),输出也是n个向量(即历史搜索待查询词特征向量)。输入的每个待查询词向量对应用户最近搜索过的待查询词,向量是用BERT模型从待查询词文本中提取的向量表征。编码器的三个神经网络输出的向量作为key和value,输入解码器网络。解码器网络将待查询词的每个字作为输入,生成与该待查询词对应的查询结果数据(如答案)的每个字。
在一个实施例中,计算机设备在利用该样本待查询词的查询结果以及该样本待查询词对应的样本查询文档对该改进的深度学习模型进行训练,得到该数据生成模型时,可以将该样本待查询词的查询结果与该样本待查询词对应的样本查询文档进行对比,并根据对比结果确定损失函数值;在该损失函数值大于函数阈值的情况下,根据该损失函数值调整该改进的深度学习模型的模型参数;将该样本特征输入调整模型参数后的深度学习模型进行重新训练,当重新训练得到的损失函数值小于该函数阈值时,确定得到该数据生成模型。
S204:获取待查询数据以及该待查询数据对应的用户的历史行为数据,并将该待查询数据以及该待查询数据对应的用户的历史行为数据输入该数据生成模型,生成与该待查询数据对应的查询结果数据。
本申请实施例通过使用用户感兴趣的历史查询数据和待查询词作为输入,生成针对待查询词的查询结果数据,这个查询结果数据既与待查询词相关,也符合用户兴趣,有助于提高根据查询结果数据训练得到的数据生成模型的可靠性,以使得该数据生成模型生成的查询结果数据满足用户个性化需求。
请参见图4,图4是本申请实施例提供的一种数据生成装置的结构示意图。具体的,所述装置设置于计算机设备中,所述装置包括:获取单元401、训练单元402以及生成单元403;
获取单元401,用于获取样本数据集,所述样本数据集包括多个样本数据,每个样本数据为三元组数据,所述三元组数据包括样本用户数据、样本待查询词和所述样本待查询词对应的样本查询文档,其中,所述样本用户数据包括用户标识以及用户的历史行为数据,所述用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;
训练单元402,用于从所述样本数据集的各个样本数据中提取样本特征,并将所述样本特征输入改进的深度学习模型进行训练,得到数据生成模型;
生成单元403,用于获取待查询数据以及所述待查询数据对应的用户的历史行为数据,并将所述待查询数据以及所述待查询数据对应的用户的历史行为数据输入所述数据生成模型,生成与所述待查询数据对应的查询结果数据。
进一步地,所述训练单元402从所述样本数据集的各个样本数据中提取样本特征时,具体用于:
从所述样本数据集的各个样本数据的三元组数据的样本用户中提取样本用户特征,并从所述各个样本数据的三元组数据的样本待查询词中提取样本待查询词特征,以及从所述各个样本数据的三元组数据的样本查询文档中提取样本查询文档特征,其中,所述样本用户特征向量包括用户标识特征和用户的历史行为数据特征;
根据所述样本用户特征、所述样本待查询词特征以及所述样本查询文档特征确定所述样本特征。
进一步地,所述改进的深度学习模型包括编码器和解码器;所述训练单元402将所述样本特征输入改进的深度学习模型进行训练,得到数据生成模型时,具体用于:
将所述样本用户特征中的用户标识特征和所述用户的历史行为数据特征输入所述改进的深度学习模型的编码器,得到样本用户特征向量;
将所述样本待查询词和所述样本用户特征向量输入所述改进的深度学习模型的解码器,得到所述样本待查询词的查询结果;
利用所述样本待查询词的查询结果以及所述样本待查询词对应的样本查询文档对所述改进的深度学习模型进行训练,得到所述数据生成模型。
进一步地,所述编码器包括嵌入层和自注意力层;所述训练单元402将所述样本用户特征中的用户标识特征和所述用户的历史行为数据特征输入所述改进的深度学习模型的编码器,得到样本用户特征向量时,具体用于:
将所述样本用户特征中的用户标识特征输入所述改进的深度学习模型的编码器的嵌入层,得到用户标识特征向量;
将所述样本用户特征中用户的历史行为数据特征输入所述编码器的自注意力层,得到历史行为数据特征向量;
确定所述用户标识特征向量和所述历史行为数据特征向量为所述样本用户特征向量。
进一步地,所述用户的历史行为数据特征包括用户的历史点击文档特征和用户的历史搜索待查询词特征,所述编码器的自注意力层包括第一自注意力层和第二自注意力层;所述训练单元402将所述样本用户特征中用户的历史行为数据特征输入所述编码器的自注意力层,得到历史行为数据特征向量时,具体用于:
将所述用户的历史点击文档特征输入所述编码器的第一自注意力层,得到历史点击文档特征向量;
将所述用户的历史搜索待查询词特征输入所述编码器的第二自注意力层,得到历史搜索待查询词特征向量;
确定所述历史点击文档特征向量和所述历史搜索待查询词特征向量为所述历史行为数据特征向量。
进一步地,所述训练单元402利用所述样本待查询词的查询结果以及所述样本待查询词对应的样本查询文档对所述改进的深度学习模型进行训练,得到所述数据生成模型时,具体用于:
将所述样本待查询词的查询结果与所述样本待查询词对应的样本查询文档进行对比,并根据对比结果确定损失函数值;
在所述损失函数值大于函数阈值的情况下,根据所述损失函数值调整所述改进的深度学习模型的模型参数;
将所述样本特征输入调整模型参数后的深度学习模型进行重新训练,当重新训练得到的损失函数值小于所述函数阈值时,确定得到所述数据生成模型。
进一步地,所述生成单元403获取待查询数据以及所述待查询数据对应的用户的历史行为数据时,具体用于:
获取所述待查询数据的用户标识,并根据所述待查询数据的用户标识确定与所述用户标识对应的用户的历史行为数据;
所述生成单元403将所述待查询数据以及所述待查询数据对应的用户的历史行为数据输入所述数据生成模型,生成与所述待查询数据对应的查询结果数据时,具体用于:
将所述待查询数据的用户标识和与所述用户标识对应的用户的历史行为数据输入所述数据生成模型的编码器,得到所述待查询数据的用户特征向量;
将所述待查询数据和所述待查询数据的用户特征向量输入所述数据生成模型的解码器,生成与所述待查询数据对应的查询结果数据。
本申请实施例可以获取样本数据集,该样本数据集包括多个样本数据,每个样本数据为三元组数据,该三元组数据包括样本用户数据、样本待查询词和该样本待查询词对应的样本查询文档,其中,该样本用户数据包括用户标识以及用户的历史行为数据,该用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;从该样本数据集的各个样本数据中提取样本特征,并将该样本特征输入改进的深度学习模型进行训练,得到数据生成模型;获取待查询数据,并将该待查询数据输入该数据生成模型,生成与该待查询数据对应的查询结果数据。通过这种方式可以训练得到满足个性化需求的数据生成模型,提高模型可靠性,进一步通过数据生成模型生成满足用户个性化需求的查询结果数据。
请参见图5,图5是本申请实施例提供的一种计算机设备的结构示意图。具体的,所述计算机设备包括:存储器501、处理器502。
在一种实施例中,所述计算机设备还包括数据接口503,所述数据接口503,用于传递计算机设备和其他设备之间的数据信息。
所述存储器501可以包括易失性存储器(volatile memory);存储器501也可以包括非易失性存储器(non-volatile memory);存储器501还可以包括上述种类的存储器的组合。所述处理器502可以是中央处理器(central processing unit,CPU)。所述处理器502还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA)或其任意组合。
所述存储器501用于存储程序,所述处理器502可以调用存储器501中存储的程序,用于执行如下步骤:
获取样本数据集,所述样本数据集包括多个样本数据,每个样本数据为三元组数据,所述三元组数据包括样本用户数据、样本待查询词和所述样本待查询词对应的样本查询文档,其中,所述样本用户数据包括用户标识以及用户的历史行为数据,所述用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;
从所述样本数据集的各个样本数据中提取样本特征,并将所述样本特征输入改进的深度学习模型进行训练,得到数据生成模型;
获取待查询数据以及所述待查询数据对应的用户的历史行为数据,并将所述待查询数据以及所述待查询数据对应的用户的历史行为数据输入所述数据生成模型,生成与所述待查询数据对应的查询结果数据。
进一步地,所述处理器502从所述样本数据集的各个样本数据中提取样本特征时,具体用于:
从所述样本数据集的各个样本数据的三元组数据的样本用户中提取样本用户特征,并从所述各个样本数据的三元组数据的样本待查询词中提取样本待查询词特征,以及从所述各个样本数据的三元组数据的样本查询文档中提取样本查询文档特征,其中,所述样本用户特征向量包括用户标识特征和用户的历史行为数据特征;
根据所述样本用户特征、所述样本待查询词特征以及所述样本查询文档特征确定所述样本特征。
进一步地,所述改进的深度学习模型包括编码器和解码器;所述处理器502将所述样本特征输入改进的深度学习模型进行训练,得到数据生成模型时,具体用于:
将所述样本用户特征中的用户标识特征和所述用户的历史行为数据特征输入所述改进的深度学习模型的编码器,得到样本用户特征向量;
将所述样本待查询词和所述样本用户特征向量输入所述改进的深度学习模型的解码器,得到所述样本待查询词的查询结果;
利用所述样本待查询词的查询结果以及所述样本待查询词对应的样本查询文档对所述改进的深度学习模型进行训练,得到所述数据生成模型。
进一步地,所述编码器包括嵌入层和自注意力层;所述处理器502将所述样本用户特征中的用户标识特征和所述用户的历史行为数据特征输入所述改进的深度学习模型的编码器,得到样本用户特征向量时,具体用于:
将所述样本用户特征中的用户标识特征输入所述改进的深度学习模型的编码器的嵌入层,得到用户标识特征向量;
将所述样本用户特征中用户的历史行为数据特征输入所述编码器的自注意力层,得到历史行为数据特征向量;
确定所述用户标识特征向量和所述历史行为数据特征向量为所述样本用户特征向量。
进一步地,所述用户的历史行为数据特征包括用户的历史点击文档特征和用户的历史搜索待查询词特征,所述编码器的自注意力层包括第一自注意力层和第二自注意力层;所述处理器502将所述样本用户特征中用户的历史行为数据特征输入所述编码器的自注意力层,得到历史行为数据特征向量时,具体用于:
将所述用户的历史点击文档特征输入所述编码器的第一自注意力层,得到历史点击文档特征向量;
将所述用户的历史搜索待查询词特征输入所述编码器的第二自注意力层,得到历史搜索待查询词特征向量;
确定所述历史点击文档特征向量和所述历史搜索待查询词特征向量为所述历史行为数据特征向量。
进一步地,所述处理器502利用所述样本待查询词的查询结果以及所述样本待查询词对应的样本查询文档对所述改进的深度学习模型进行训练,得到所述数据生成模型时,具体用于:
将所述样本待查询词的查询结果与所述样本待查询词对应的样本查询文档进行对比,并根据对比结果确定损失函数值;
在所述损失函数值大于函数阈值的情况下,根据所述损失函数值调整所述改进的深度学习模型的模型参数;
将所述样本特征输入调整模型参数后的深度学习模型进行重新训练,当重新训练得到的损失函数值小于所述函数阈值时,确定得到所述数据生成模型。
进一步地,所述处理器502获取待查询数据以及所述待查询数据对应的用户的历史行为数据时,具体用于:
获取所述待查询数据的用户标识,并根据所述待查询数据的用户标识确定与所述用户标识对应的用户的历史行为数据;
所述处理器502将所述待查询数据以及所述待查询数据对应的用户的历史行为数据输入所述数据生成模型,生成与所述待查询数据对应的查询结果数据时,具体用于:
将所述待查询数据的用户标识和与所述用户标识对应的用户的历史行为数据输入所述数据生成模型的编码器,得到所述待查询数据的用户特征向量;
将所述待查询数据和所述待查询数据的用户特征向量输入所述数据生成模型的解码器,生成与所述待查询数据对应的查询结果数据。
本申请实施例可以获取样本数据集,该样本数据集包括多个样本数据,每个样本数据为三元组数据,该三元组数据包括样本用户数据、样本待查询词和该样本待查询词对应的样本查询文档,其中,该样本用户数据包括用户标识以及用户的历史行为数据,该用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;从该样本数据集的各个样本数据中提取样本特征,并将该样本特征输入改进的深度学习模型进行训练,得到数据生成模型;获取待查询数据,并将该待查询数据输入该数据生成模型,生成与该待查询数据对应的查询结果数据。通过这种方式可以训练得到满足个性化需求的数据生成模型,提高模型可靠性,进一步通过数据生成模型生成满足用户个性化需求的查询结果数据。
本申请的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本申请图1或图2所对应实施例中描述的方法,也可实现图4所述本申请所对应实施例的装置,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述计算机设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施方式中提供的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本发明所涵盖的范围。

Claims (10)

1.一种数据生成方法,其特征在于,包括:
获取样本数据集,所述样本数据集包括多个样本数据,每个样本数据为三元组数据,所述三元组数据包括样本用户数据、样本待查询词和所述样本待查询词对应的样本查询文档,其中,所述样本用户数据包括用户标识以及用户的历史行为数据,所述用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;
从所述样本数据集的各个样本数据中提取样本特征,并将所述样本特征输入改进的深度学习模型进行训练,得到数据生成模型;
获取待查询数据以及所述待查询数据对应的用户的历史行为数据,并将所述待查询数据以及所述待查询数据对应的用户的历史行为数据输入所述数据生成模型,生成与所述待查询数据对应的查询结果数据。
2.根据权利要求1所述的方法,其特征在于,所述从所述样本数据集的各个样本数据中提取样本特征,包括:
从所述样本数据集的各个样本数据的三元组数据的样本用户中提取样本用户特征,并从所述各个样本数据的三元组数据的样本待查询词中提取样本待查询词特征,以及从所述各个样本数据的三元组数据的样本查询文档中提取样本查询文档特征,其中,所述样本用户特征向量包括用户标识特征和用户的历史行为数据特征;
根据所述样本用户特征、所述样本待查询词特征以及所述样本查询文档特征确定所述样本特征。
3.根据权利要求2所述的方法,其特征在于,所述改进的深度学习模型包括编码器和解码器;所述将所述样本特征输入改进的深度学习模型进行训练,得到数据生成模型,包括:
将所述样本用户特征中的用户标识特征和所述用户的历史行为数据特征输入所述改进的深度学习模型的编码器,得到样本用户特征向量;
将所述样本待查询词和所述样本用户特征向量输入所述改进的深度学习模型的解码器,得到所述样本待查询词的查询结果;
利用所述样本待查询词的查询结果以及所述样本待查询词对应的样本查询文档对所述改进的深度学习模型进行训练,得到所述数据生成模型。
4.根据权利要求3所述的方法,其特征在于,所述编码器包括嵌入层和自注意力层;所述将所述样本用户特征中的用户标识特征和所述用户的历史行为数据特征输入所述改进的深度学习模型的编码器,得到样本用户特征向量,包括:
将所述样本用户特征中的用户标识特征输入所述改进的深度学习模型的编码器的嵌入层,得到用户标识特征向量;
将所述样本用户特征中用户的历史行为数据特征输入所述编码器的自注意力层,得到历史行为数据特征向量;
确定所述用户标识特征向量和所述历史行为数据特征向量为所述样本用户特征向量。
5.根据权利要求4所述的方法,其特征在于,所述用户的历史行为数据特征包括用户的历史点击文档特征和用户的历史搜索待查询词特征,所述编码器的自注意力层包括第一自注意力层和第二自注意力层;所述将所述样本用户特征中用户的历史行为数据特征输入所述编码器的自注意力层,得到历史行为数据特征向量,包括:
将所述用户的历史点击文档特征输入所述编码器的第一自注意力层,得到历史点击文档特征向量;
将所述用户的历史搜索待查询词特征输入所述编码器的第二自注意力层,得到历史搜索待查询词特征向量;
确定所述历史点击文档特征向量和所述历史搜索待查询词特征向量为所述历史行为数据特征向量。
6.根据权利要求3所述的方法,其特征在于,所述利用所述样本待查询词的查询结果以及所述样本待查询词对应的样本查询文档对所述改进的深度学习模型进行训练,得到所述数据生成模型,包括:
将所述样本待查询词的查询结果与所述样本待查询词对应的样本查询文档进行对比,并根据对比结果确定损失函数值;
在所述损失函数值大于函数阈值的情况下,根据所述损失函数值调整所述改进的深度学习模型的模型参数;
将所述样本特征输入调整模型参数后的深度学习模型进行重新训练,当重新训练得到的损失函数值小于所述函数阈值时,确定得到所述数据生成模型。
7.根据权利要求1所述的方法,其特征在于,所述获取待查询数据以及所述待查询数据对应的用户的历史行为数据,包括:
获取所述待查询数据的用户标识,并根据所述待查询数据的用户标识确定与所述用户标识对应的用户的历史行为数据;
所述将所述待查询数据以及所述待查询数据对应的用户的历史行为数据输入所述数据生成模型,生成与所述待查询数据对应的查询结果数据,包括:
将所述待查询数据的用户标识和与所述用户标识对应的用户的历史行为数据输入所述数据生成模型的编码器,得到所述待查询数据的用户特征向量;
将所述待查询数据和所述待查询数据的用户特征向量输入所述数据生成模型的解码器,生成与所述待查询数据对应的查询结果数据。
8.一种数据生成装置,其特征在于,包括:
获取单元,用于获取样本数据集,所述样本数据集包括多个样本数据,每个样本数据为三元组数据,所述三元组数据包括样本用户数据、样本待查询词和所述样本待查询词对应的样本查询文档,其中,所述样本用户数据包括用户标识以及用户的历史行为数据,所述用户的历史行为数据包括用户的历史点击文档信息和用户的历史搜索待查询词信息;
训练单元,用于从所述样本数据集的各个样本数据中提取样本特征,并将所述样本特征输入改进的深度学习模型进行训练,得到数据生成模型;
生成单元,用于获取待查询数据以及所述待查询数据对应的用户的历史行为数据,并将所述待查询数据以及所述待查询数据对应的用户的历史行为数据输入所述数据生成模型,生成与所述待查询数据对应的查询结果数据。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,该程序指令被执行时实现如权利要求1-7任一项所述的方法。
CN202310913576.6A 2023-07-24 2023-07-24 一种数据生成方法、装置、计算机设备及存储介质 Pending CN117725164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310913576.6A CN117725164A (zh) 2023-07-24 2023-07-24 一种数据生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310913576.6A CN117725164A (zh) 2023-07-24 2023-07-24 一种数据生成方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN117725164A true CN117725164A (zh) 2024-03-19

Family

ID=90200353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310913576.6A Pending CN117725164A (zh) 2023-07-24 2023-07-24 一种数据生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117725164A (zh)

Similar Documents

Publication Publication Date Title
CN111368538B (zh) 语音交互方法、系统、终端及计算机可读存储介质
CN113128494A (zh) 识别图像中文本的方法、装置和系统
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN109670033A (zh) 内容的检索方法、装置、设备及存储介质
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113342927B (zh) 敏感词识别方法、装置、设备及存储介质
CN115186675A (zh) 语言模型训练及自然语言任务处理方法、装置及相关设备
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN110929517B (zh) 地理位置定位方法、系统、计算机设备和存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN117725164A (zh) 一种数据生成方法、装置、计算机设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN112149424A (zh) 语义匹配方法、装置、计算机设备和存储介质
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质
CN110765108A (zh) 一种基于群智数据融合的假消息早期检测方法
CN115186667B (zh) 基于人工智能的命名实体识别方法及装置
CN113676505B (zh) 信息推送方法、装置、计算机设备和存储介质
CN113254635B (zh) 数据处理方法、装置及存储介质
CN112347738B (zh) 基于裁判文书的双向编码器表征量模型优化方法和装置
CN110149810A (zh) 限制在网络环境中操纵内容的传输
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN112765306B (zh) 智能问答方法、装置、计算机设备和存储介质
CN117725297A (zh) 一种数据推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination