CN117725273A - 样本标签生成方法、装置、计算机设备和存储介质 - Google Patents

样本标签生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117725273A
CN117725273A CN202311224046.7A CN202311224046A CN117725273A CN 117725273 A CN117725273 A CN 117725273A CN 202311224046 A CN202311224046 A CN 202311224046A CN 117725273 A CN117725273 A CN 117725273A
Authority
CN
China
Prior art keywords
content
sample
query result
query
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311224046.7A
Other languages
English (en)
Other versions
CN117725273B (zh
Inventor
李�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuhang Technology Beijing Co ltd
Original Assignee
Shuhang Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuhang Technology Beijing Co ltd filed Critical Shuhang Technology Beijing Co ltd
Priority to CN202311224046.7A priority Critical patent/CN117725273B/zh
Publication of CN117725273A publication Critical patent/CN117725273A/zh
Application granted granted Critical
Publication of CN117725273B publication Critical patent/CN117725273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种样本标签生成方法、装置、计算机设备和存储介质,通过获取查询文本样本和查询文本样本的查询结果内容;根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值;获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签;根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签;基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。可以实现自动生成样本标签,减少标签标注的人工成本,且结合后验行为信息和相关度可以提高样本标签的准确性。

Description

样本标签生成方法、装置、计算机设备和存储介质
技术领域
本申请涉及通信技术领域,具体涉及一种样本标签生成方法、装置、计算机设备和存储介质,其中,存储介质是计算机可读存储介质。
背景技术
在搜索场景中,确定内容与用户输入的查询文本(query)之间的相关性是主要任务之一,由于内容具有时效性,且随时间的流逝,不算有新事物、新产品等出现,也会相应出现新的内容,及时基于新数据对用于推荐内容的模型进行训练可以提高模型推荐内容的准确性。目前常见的方式是人工标注新数据,基于人工标注的新数据对模型进行训练或者进行微调,然而新兴事物的出现是不间断,需要人工不断地收集新数据并进行标注,人工成本高。
发明内容
本申请实施例提供一种样本标签生成方法、装置、计算机设备和存储介质,可以自动生成样本标签,减少标签标注的人工成本,且结合后验行为信息和相关度可以提高样本标签的准确性。
本申请实施例提供的一种样本标签生成方法,包括:
获取查询文本样本,和所述查询文本样本的查询结果内容;
根据预设的内容量与交互时长阈值之间的映射关系,确定所述查询结果内容的内容量对应的目标交互时长阈值;
获取所述查询结果内容的用户交互时长,并根据所述用户交互时长与所述目标交互时长阈值的大小关系确定所述查询结果内容的第一样本标签;
根据所述查询文本样本与所述查询结果内容的相关度,确定所述查询结果内容的第二样本标签;
基于所述查询结果内容的第一样本标签和第二样本标签,生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。
相应的,本申请实施例还提供的一种样本标签生成装置,包括:
获取单元,用于获取查询文本样本,和所述查询文本样本的查询结果内容;
阈值确定单元,用于根据预设的内容量与交互时长阈值之间的映射关系,确定所述查询结果内容的内容量对应的目标交互时长阈值;
第一标签确定单元,用于获取所述查询结果内容的用户交互时长,并根据所述用户交互时长与所述目标交互时长阈值的大小关系确定所述查询结果内容的第一样本标签;
第二标签确定单元,用于根据所述查询文本样本与所述查询结果内容的相关度,确定所述查询结果内容的第二样本标签;
标签生成单元,用于基于所述查询结果内容的第一样本标签和第二样本标签,生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。
在一实施例中,所述阈值确定单元,包括:
主题确定子单元,用于确定所述查询结果内容的内容主题文本;
提取子单元,用于对所述查询结果内容进行内容特征提取,得到所述查询结果内容的内容特征信息;
内容确定子单元,用于根据所述内容特征信息确定所述查询结果内容中,与所述内容主题文本相关的目标子内容;
目标阈值确定子单元,用于根据预设的内容量与交互时长阈值之间的映射关系和所述目标子内容,确定所述查询结果内容对应的目标交互时长阈值。
在一实施例中,所述样本标签生成装置还包括:
区间确定单元,用于确定内容量区间,所述内容量区间包括至少一个内容量;
交互信息获取单元,用于针对每个内容量区间,获取预设时间段内,内容量属于所述容量区间的每个历史查询结果内容的用户交互时长和用户交互量;
排序单元,用于根据所述用户交互时长对所述历史查询结果内容进行排序,得到排序后历史查询结果内容;
区间阈值确定单元,用于根据用户交互量总和,满足预设条件所对应的排序区间内历史查询结果内容的用户交互时长,确定每个内容量区间交互时长阈值;
映射关系生成单元,用于根据每个内容量区间的交互时长阈值和所述内容量区间包含的内容量,得到内容量与交互时长阈值之间的映射关系。
在一实施例中,所述标签生成单元,包括:
分数计算子单元,用于根据所述第一样本标签的标签类型,和所述第二样本标签的标签类型,计算所述查询结果内容的匹配分数;
样本标签生成子单元,用于根据所述匹配分数生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。
在一实施例中,每种标签类型对应有标签分数,所述分数计算子单元,包括:
权重确定模块,用于根据所述用户交互时长确定所述第一样本标签的第一标签权重,根据所述相关度确定所述第二样本标签的第二标签权重;
第一加权计算模块,用于根据所述第一标签权重,对所述第一样本标签的标签分数进行加权计算,得到第一加权后标签分数;
第二加权计算模块,用于根据所述第二标签权重,对所述第二样本标签的标签分数进行加权计算,得到第二加权后标签分数;
匹配分数计算模块,用于基于所述第一加权后标签分数和所述第二加权后标签分数计算所述查询结果内容的匹配分数。
在一实施例中,所述第二标签确定单元,包括:
特征提取子单元,用于通过内容推荐模型分别对所述查询文本样本和所述查询结果内容进行特征提取,得到所述查询文本训练样本的查询文本特征信息,和所述查询结果内容的内容特征信息;
相关度确定子单元,用于根据所述查询文本特征信息和所述内容特征信息之间的特征距离,得到所述查询文本样本和所述查询结果内容的相关度;
根据所述相关度确定所述查询结果内容的第二样本标签。
在一实施例中,所述样本标签生成装置还包括:
训练单元,用于通过所述训练样本对,对所述内容推荐模型进行训练,得到训练后内容推荐模型;
推荐单元,用于当接收到查询文本时,通过所述训练后内容推荐模型基于所述查询文本的推荐查询结果内容。
相应的,本申请实施例还提供的一种计算机设备,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行本申请实施例提供的任一种样本标签生成方法。
相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行本申请实施例提供的任一种样本标签生成方法。
本申请实施例通过获取查询文本样本,和查询文本样本的查询结果内容;根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值;获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签;根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签;基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。
本申请实施例根据查询结果内容的后验行为信息——用户交互时长得到查询结果内容的第一样本标签,根据查询结果内容和查询文本样本的相关度得到查询结果内容的第二样本标签,结合第一样本标签和第二样本标签生成查询结果内容的样本标签,可以实现自动生成样本标签,减少样本标签标注的人工成本,且结合后验行为信息和相关度可以提高生成的样本标签的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的样本标签生成方法的流程图;
图2是本申请实施例提供的交互时长-交互量占比曲线示意图;不同信息量分为图2(1)、图2(2)、图2(3);
图3是本申请实施例提供的播放比例-交互量占比曲线示意图;
图4是本申请实施例提供的样本标签生成装置示意图;
图5是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种样本标签生成方法、装置、计算机设备和计算机可读存储介质。该样本标签生成装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、个人计算(PC,Personal Computer)、以及车载计算机等。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从样本标签生成装置的角度进行描述,该样本标签生成装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
本申请实施例提供的一种样本标签生成方法,如图1所示,该样本标签生成方法的具体流程可以如下:
101、获取查询文本样本,和查询文本样本的查询结果内容。
查询文本样本可以包括预设时间段内的历史查询文本,也可以是从历史查询文本中随机选取查询文本作为文本样本;还可以是从历史查询文本中选取被查询次数较多的查询文本作为查询文本样本。
可选的,可以通过对历史查询文本中每个查询文本进行关键词提取,得到历史查询文本中每个关键词的出现次数,关键词出现次数越多表示有越多用户基于该关键词进行搜索,有较多的用户对关键词相关的内容感兴趣,根据关键词的出现次数可以生成大量的样本对,因此,可以依据出现次数对关键词进行排序,将出现次数较多的关键词作为目标关键词,将包含目标关键词的查询文本作为查询文本样本。
查询结果内容可以是基于用户输入的查询文本样本,向用户推荐的内容,该内容可以包括文章、图片、音频、视频或者其中至少两种组合得到的内容。
102、根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值。
其中,内容量可以表示内容中包含的信息量,比如,对于文本内容,内容可以依据文本内容包含的文本单元数量确定,对于视频内容,可以依据视频内容的视频时长确定。
其中,交互时长阈值可以用于判断用户是否对该内容感到满意的标准,可以认为交互时长阈值为深度阅读时间,表示用户对内容的交互时长超过深度阅读时间,认为用户对该内容是深度阅读,对内容符合用户的期望,因此可以根据查询结果内容的用户交互时长,在后验行为信息层面确定查询结果内容的标签。
可选的,查询结果内容的内容量还可以是根据内容中与该内容主题相关的部分内容确定,即在一实施例中,步骤“根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值”,具体可以包括:
确定查询结果内容的内容主题文本;
对查询结果内容进行内容特征提取,得到查询结果内容的内容特征信息;
根据内容特征信息确定查询结果内容中,与内容主题文本相关的目标子内容;
根据预设的内容量与交互时长阈值之间的映射关系和目标子内容,确定查询结果内容对应的目标交互时长阈值。
其中,内容主题文本可以包括查询结果内容中携带的标签、话题或者标题等内容。比如,用户可以在发表内容时,通过“#”为该内容添加话题,那么可以将话题确定为内容的内容主题文本。
比如,有两篇内容的内容主题文本均为“小RED展览”,其中一篇内容全篇与“小RED展览”相关,另一篇仅有部分与“小RED展览”相关,查询结果内容的内容量可以由于内容。
在一实施例中,可以将内容主题文本和查询结果内容输入神经网络模型(比如BERT)中,通过BERT模型分别对内容主题文本和查询结果内容进行特征提取,得到内容主题文本的内容特征信息,和内容主题文本的文本特征信息,并根据文本特征信息和内容特征信息,预测查询结果内容中与内容主题文本相关的目标子内容。
可选的,对于视频内容,可以对视频内容进行OCR识别从视频内容中提取内容文本,将内容文本和内容主题文本输入神经网络模型中,通过神经网络模型确定视频内容的内容量。
可选的,还可以通过对视频内容进行图像识别,确定视频内容中与内容主题文本相同的部分视频,根据部分视频的时长确定视频内容的内容量。
查询结构内容的内容量可以是与内容主题相关的内容量,即是目标子内容的内容量。
其中,预设的内容量与交互时长阈值之间的映射关系可以是,预先设置的不同内容量和交互时长阈值之间的对应关系,根据查询结果内容的内容量可以确定查询结果内容的目标交互时长阈值,进而可以根据目标交互时长阈值和查询结果内容的被交互时长确定查询结果内容的第一样本标签。
在一实施例中,内容量可以通过档位表示,比如,可以设置有0-3四个档位,每个档位可以对应一个文本单元数量区间,例如,1-50字对应0档,50-150个字对应1档,150-300字对应2档,300字以上对应3档。
对于文本内容,0-1档对应的交互时长阈值可以是8秒,2档对应的交互时长阈值可以是11秒,3档对应的交互时长阈值可以是18秒。
对于视频内容,交互时长阈值可以是根据预设的播放比例确定的,比如,0-1档对应的交互时长阈值可以是视频时长的60%,2档对应的交互时长阈值可以是视频时长的55%,3档对应的交互时长阈值可以是视频时长的30%。
内容量与交互时长阈值之间的映射关系可以是根据经验预先设置的,也可以是根据查询结果内容的收藏量或者点赞量等确定内容量与交互时长阈值之间的映射关系,即在一实施例中,步骤“根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值”之前,本申请实施例提供的样本标签生成方法还包括:
确定内容量区间,内容量区间包括至少一个内容量;
针对每个内容量区间,获取预设时间段内,内容量属于内容量区间的每个历史查询结果内容的用户交互时长和用户交互量;
根据用户交互时长对历史查询结果内容进行排序,得到排序后历史查询结果内容;
根据用户交互量总和,满足预设条件所对应的排序区间内历史查询结果内容的用户交互时长,确定每个内容量区间交互时长阈值;
根据每个内容量区间的交互时长阈值和内容量区间包含的内容量,得到内容量与交互时长阈值之间的映射关系。
其中,历史查询结果内容可以包括查询文本样本的查询结果内容,也可以包括在预设时间段内不同查询文本的查询结果内容。
其中,内容量区间可以包括至少一个内容量,如果内容量以文本单元的数量表示,那么可以内容量区间可以是一个文本单元的数量区间;如果内容量以档位表示,则内容量区间可以对应于至少一个档位,比如,0-1档是一个内容量区间,2档和3档可以分别对应一个内容量区间。
其中,用户交互时长可以是用户与该查询结果内容的交互时长,比如,可以是浏览时长,或者是观看时长等。
用户交互量可以是对查询结果内容执行指定交互操作的用户数量,比如,可以是收藏该查询结果内容的用户数量,即查询结果内容的收藏量。
比如,可以根据历史查询结果内容的内容量,确定查询结果内容对应的内容量区间。针对每个内容量区间,获取内容量属于该内容量区间的历史查询结果内容的用户交互时长和用户交互量,根据用户交互时长对查询结果内容进行排序,得到排序后的查询结果内容。
假设预设条件可以是涵盖内容量区间内所有的查询结果内容的用户交互量总和的50%,根据用户交互时长的从大到小,对排序后历史查询结果内容进行遍历,确定满足预设条件的排序区间,该排序区间内的历史查询结果内容的用户交互量的总和,等于或者大于容量区间内所有的查询结果内容的用户交互量总和的50%。
将排序区间内的历史查询结果内容中时间最长的用户交互时长的确定为该内容量区间的交互时长阈值,根据内容量区间包含的内容量,以及对应的交互时长阈值,可以确定每个内容量对应的交互时长阈值。
在一实施例中,可以如图2所示,对于文本内容,可以以用户交互时长为横坐标,以用户交互量占比为纵坐标,得到不同信息量(即内容量)的用户交互时长-用户交互量占比曲线,进而根据曲线确定交互时长阈值。
如图3所示,对于视频内容,可以以视频的播放比例为横坐标,以用户交互量占比为纵坐标,得到不同信息量(即内容量)的视频的播放比例-用户交互量占比曲线,进而根据曲线确定交互时长阈值。
103、获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签。
将查询结果内容的用户交互时长和目标交互时长阈值进行比较,若用户交互时长大于或等于目标交互时长阈值,则认为该查询结果内容为正样本,即该查询结果内容的第一样本标签为将表示该查询结果内容为正样本的标签,否则,认为该查询结果内容为负样本,即该查询结果内容的第一样本标签为将表示该查询结果内容为负样本的标签。
104、根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签。
其中,相关度可以表示查询文本样本与查询结果内容之间的相关程度,相关度越高表示查询结果内容越匹配,查询结果内容越可能是用户需要的内容。
比如,可以将查询文本样本和查询结果内容映射至同一特征空间中,根据查询文本与查询结果内容在特征空间中的距离,确定查询文本和内容查询结果之间的相关度。
可以设置一相关度阈值,用于根据查询结果内容的相关度与相关度阈值之间的关系确定查询结果内容的第二样本标签。
可选的,还可以通过神经网络模型预测查询文本样本与查询结果内容的相关度,比如BM25(Okapi BM25)模型,即在一实施例中,步骤“根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签”,具体可以包括:
通过内容推荐模型分别对查询文本样本和查询结果内容进行特征提取,得到查询文本训练样本的查询文本特征信息,和查询结果内容的内容特征信息;
根据查询文本特征信息和内容特征信息之间的特征距离,得到查询文本样本和查询结果内容的相关度;
根据相关度确定查询结果内容的第二样本标签。
其中,内容推荐模型为用于预测与用户输入的查询文本相关的查询结果内容,内容推荐模型的模型结果可以根据应用场景的需要进行灵活设置,在此不做限定。
通过内容推荐模型分别对查询文本样本和查询结果内容进行特征提取,得到查询文本训练样本的查询文本特征信息,和查询结果内容的内容特征信息;根据查询文本特征信息和内容特征信息之间的特征距离,得到查询文本样本和查询结果内容的相关度,其中特征距离越小,相关度越强,特征距离越大,相关度越弱。
105、基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。
查询结果内容的第一样本标签和第二样本标签可能相同,也可能不同,因此可以综合第一样本标签和第二样本标签为查询文本样本的样本标签。
比如,可以是当查询结果内容的第一样本标签和第二样本标签均为表示查询内容样本为正样本的标签时,为查询结果内容生成表示该查询结果内容为正样本的样本标签,否则,为查询结果内容生成表示该查询结果内容为负样本的样本标签。
本申请实施例结合用户的后验行为数据以及相关度,对query-doc进行正负样本标签判定,降低人工成本,可以大量的扩充数据,增加数据的规模,保证数据质量好。
可选的,还可以根据查询结果内容的第一样本标签和第二样本标签计算查询内容样本标签的匹配分数,根据匹配分数确定查询内容样本的样本标签,比如,可以设置一分数阈值,将大于匹配分数大于该阈值的查询结果内容的样本标签设置为表示查询结果内容为正样本的标签,即在一实施例中,第一样本标签和第二样本标签均包括正样本标签和负样本标签的其中一种标签类型,步骤“基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签”,具体可以包括:
根据第一样本标签的标签类型,和第二样本标签的标签类型,计算查询结果内容的匹配分数;
根据匹配分数生成查询结果内容和查询文本样本构成的训练样本对的样本标签。
其中,第一样本标签可以是表示查询结果内容为正样本的标签,即正样本标签,或者是表示查询结果内容为负样本的标签,即负样本标签;第二样本标签可以是表示查询结果内容为正样本的标签,即正样本标签,或者是表示查询结果内容为负样本的标签,即负样本标签。
可以预先设置每种标签类型对应的分数,进而可以根据查询结果内容的第一样本标签的标签类型,以及第二样本标签的标签类型,计算查询结果内容的匹配分数,比如可以设置正样本标签对应的分数为1,负样本标签对应的分数为0,假设查询结果内容A的第一样本标签为正样本标签,第二样本标签为正样本标签,则查询结果内容A的匹配分数是2(1+1=2)。
通过匹配分数确定查询结果内容的样本标签,可以根据需要灵活地调整分数阈值,控制生成的样本标签的类型,使得生成样本标签的灵活度高。
可选的,还可以通过权重控制匹配分数,令匹配分数的分布更广,以便更加准确地控制样本标签的生成,即在一实施例中,每种标签类型对应有标签分数,步骤“根据第一样本标签的标签类型,和第二样本标签的标签类型,计算查询结果内容的匹配分数”,具体可以包括:
根据用户交互时长确定第一样本标签的第一标签权重,根据相关度确定第二样本标签的第二标签权重;
根据第一标签权重,对第一样本标签的标签分数进行加权计算,得到第一加权后标签分数;
根据第二标签权重,对第二样本标签的标签分数进行加权计算,得到第二加权后标签分数;
基于第一加权后标签分数和第二加权后标签分数计算查询结果内容的匹配分数。
比如,可以根据用户交互时长确定第一样本标签的第一标签权重,用户交互时长与交互时长阈值的差值越大,第一标签权重越大;同理,相关度与相关度阈值的差值越大,第二标签权重越大。
可以设置正样本标签对应的标签分数为1,负样本标签对应的标签分数为-1,可以根据以下公式(1)计算第一加权后标签分数,根据以下公式(2)计算第二加权后标签分数,其中,S1为第一加权后标签分数,t为用户交互时长,t0为目标时长阈值,G1为第一样本标签的分数;S2为第二加权后标签分数,Sim为相关度,t0为Sim0阈值,G1为第二样本标签的分数,k1和k2为系数,用于调节标签系数的数量级。
公式(1):S1=|t-t0|×k1×G1
公式(2):S2=|Sim-Sim0|×k2×G2
将第一加权后标签分数和第二加权后标签分数相加,可以得到查询结果内容的匹配分数。
假设k1是1,k2是10;查询结果内容B的用户交互时长为15s,对应的目标时长阈值为11s;相关度为0.4,相关度阈值为0.5,因此,第一样本标签为正样本标签,第二样本标签为负样本标签,可以根据以下公式(1)计算得到第一加权后标签分数为4;根据以下公式(2)计算得到第二加权后标签分数-1;将第一加权后标签分数和第二加权后标签分数相加,得到查询结果内容的匹配分数为3。然后可以根据与分数阈值之间的大小关系,生成查询文本样本与查询结果内容构成的训练样本对的样本标签。
在得到样本标签之后,可以根据携带样本标签的样本对,对内容推荐模型进行训练,即在一实施例中,步骤“基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签”之后,本申请实施例提供的样本标签生成方法还包括:
通过训练样本对,对内容推荐模型进行训练,得到训练后内容推荐模型;
当接收到查询文本时,通过训练后内容推荐模型基于查询文本推荐查询结果内容。
比如,可以是通过携带样本标签的训练样本对(即query-doc),对内容推荐模型进行训练,直到得到训练后内容推荐模型。
当接收到查询文本时,通过训练后内容推荐模型基于查询文本推荐查询结果内容。
本申请实施例采用的自监督训练方式,可以实现天级更新,可以在访问低峰期对内容推荐模型进行训练,提高内容推荐模型的内容推荐准确性。
由上可知,本申请实施例通过获取查询文本样本,和查询文本样本的查询结果内容;根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值;获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签;根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签;基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。
本申请实施例根据查询结果内容的后验行为信息——用户交互时长得到查询结果内容的第一样本标签,根据查询结果内容和查询文本样本的相关度得到查询结果内容的第二样本标签,结合第一样本标签和第二样本标签生成查询结果内容的样本标签,可以实现自动生成样本标签,减少样本标签标注的人工成本,且结合后验行为信息和相关度可以提高生成的样本标签的准确性。
为了便于更好地实施本申请实施例提供的样本标签生成方法,在一实施例中还提供了一种样本标签生成装置。其中名词的含义与上述样本标签生成方法中相同,具体实现细节可以参考方法实施例中的说明。
该样本标签生成装置具体可以集成在计算机设备中,如图4所示,该样本标签生成装置可以包括:获取单元301、阈值确定单元302、第一标签确定单元303、第二标签确定单元304和标签生成单元305,具体如下:
(1)获取单元301:用于获取查询文本样本,和查询文本样本的查询结果内容。
(2)阈值确定单元302:用于根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值。
在一实施例中,阈值确定单元302,包括:
主题确定子单元:用于确定查询结果内容的内容主题文本;
提取子单元:用于对查询结果内容进行内容特征提取,得到查询结果内容的内容特征信息;
内容确定子单元:用于根据内容特征信息确定查询结果内容中,与内容主题文本相关的目标子内容;
目标阈值确定子单元:用于根据预设的内容量与交互时长阈值之间的映射关系和目标子内容,确定查询结果内容对应的目标交互时长阈值。
(3)第一标签确定单元303:用于获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签;
(4)第二标签确定单元304:用于根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签;
在一实施例中,第二标签确定单元304,包括:
特征提取子单元:用于通过内容推荐模型分别对查询文本样本和查询结果内容进行特征提取,得到查询文本训练样本的查询文本特征信息,和查询结果内容的内容特征信息;
相关度确定子单元:用于根据查询文本特征信息和内容特征信息之间的特征距离,得到查询文本样本和查询结果内容的相关度;
根据相关度确定查询结果内容的第二样本标签。
(5)标签生成单元305:用于基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。
在一实施例中,标签生成单元305,包括:
分数计算子单元:用于根据第一样本标签的标签类型,和第二样本标签的标签类型,计算查询结果内容的匹配分数;
样本标签生成子单元:用于根据匹配分数生成查询结果内容和查询文本样本构成的训练样本对的样本标签。
在一实施例中,每种标签类型对应有标签分数,分数计算子单元,包括:
权重确定模块:用于根据用户交互时长确定第一样本标签的第一标签权重,根据相关度确定第二样本标签的第二标签权重;
第一加权计算模块:用于根据第一标签权重,对第一样本标签的标签分数进行加权计算,得到第一加权后标签分数;
第二加权计算模块:用于根据第二标签权重,对第二样本标签的标签分数进行加权计算,得到第二加权后标签分数;
匹配分数计算模块:用于基于第一加权后标签分数和第二加权后标签分数计算查询结果内容的匹配分数。
在一实施例中,样本标签生成装置还包括:
区间确定单元:用于确定内容量区间,内容量区间包括至少一个内容量;
交互信息获取单元:用于针对每个内容量区间,获取预设时间段内,内容量属于容量区间的每个历史查询结果内容的用户交互时长和用户交互量;
排序单元:用于根据用户交互时长对历史查询结果内容进行排序,得到排序后历史查询结果内容;
区间阈值确定单元:用于根据用户交互量总和,满足预设条件所对应的排序区间内历史查询结果内容的用户交互时长,确定每个内容量区间交互时长阈值;
映射关系生成单元:用于根据每个内容量区间的交互时长阈值和内容量区间包含的内容量,得到内容量与交互时长阈值之间的映射关系。
在一实施例中,样本标签生成装置还包括:
训练单元:用于通过训练样本对,对内容推荐模型进行训练,得到训练后内容推荐模型;
推荐单元:用于当接收到查询文本时,通过训练后内容推荐模型基于查询文本的推荐查询结果内容。
由上可知,本申请实施例样本标签生成装置通过获取单元301获取查询文本样本,和查询文本样本的查询结果内容;阈值确定单元302根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值;第一标签确定单元303获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签;第二标签确定单元304根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签;标签生成单元305基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。
本申请实施例根据查询结果内容的后验行为信息——用户交互时长得到查询结果内容的第一样本标签,根据查询结果内容和查询文本样本的相关度得到查询结果内容的第二样本标签,结合第一样本标签和第二样本标签生成查询结果内容的样本标签,可以实现自动生成样本标签,减少样本标签标注的人工成本,且结合后验行为信息和相关度可以提高生成的样本标签的准确性。
本申请实施例还提供一种计算机设备,该计算机设备可以是终端,也可以是服务器,如图5所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储器1002、电源1003和输入单元1004等部件。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器1001是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器1002内的软件程序和/或模块,以及调用存储在存储器1002内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器1001可包括一个或多个处理核心;优选的,处理器1001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1001中。
存储器1002可用于存储软件程序以及模块,处理器1001通过运行存储在存储器1002的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1002还可以包括存储器控制器,以提供处理器1001对存储器1002的访问。
计算机设备还包括给各个部件供电的电源1003,优选的,电源1003可以通过电源管理系统与处理器1001逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元1004,该输入单元1004可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器1001会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器1002中,并由处理器1001来运行存储在存储器1002中的计算机程序,从而实现各种功能,如下:
获取查询文本样本,和查询文本样本的查询结果内容;
根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值;
获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签;
根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签;
基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由上可知,本申请实施例通过获取查询文本样本,和查询文本样本的查询结果内容;根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值;获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签;根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签;基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。
本申请实施例根据查询结果内容的后验行为信息——用户交互时长得到查询结果内容的第一样本标签,根据查询结果内容和查询文本样本的相关度得到查询结果内容的第二样本标签,结合第一样本标签和第二样本标签生成查询结果内容的样本标签,可以实现自动生成样本标签,减少样本标签标注的人工成本,且结合后验行为信息和相关度可以提高生成的样本标签的准确性。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序,能够被处理器进行加载,以执行本申请实施例所提供的任一种样本标签生成方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种样本标签生成方法,因此,可以实现本申请实施例所提供的任一种样本标签生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种样本标签生成方法、装置、计算机设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种样本标签生成方法,其特征在于,包括:
获取查询文本样本,和所述查询文本样本的查询结果内容;
根据预设的内容量与交互时长阈值之间的映射关系,确定所述查询结果内容的内容量对应的目标交互时长阈值;
获取所述查询结果内容的用户交互时长,并根据所述用户交互时长与所述目标交互时长阈值的大小关系确定所述查询结果内容的第一样本标签;
根据所述查询文本样本与所述查询结果内容的相关度,确定所述查询结果内容的第二样本标签;
基于所述查询结果内容的第一样本标签和第二样本标签,生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的内容量与交互时长阈值之间的映射关系,确定所述查询结果内容的内容量对应的目标交互时长阈值,包括:
确定所述查询结果内容的内容主题文本;
对所述查询结果内容进行内容特征提取,得到所述查询结果内容的内容特征信息;
根据所述内容特征信息确定所述查询结果内容中,与所述内容主题文本相关的目标子内容;
根据预设的内容量与交互时长阈值之间的映射关系和所述目标子内容,确定所述查询结果内容对应的目标交互时长阈值。
3.根据权利要求1所述的方法,其特征在于,所述根据预设的内容量与交互时长阈值之间的映射关系,确定所述查询结果内容的内容量对应的目标交互时长阈值之前,所述方法还包括:
确定内容量区间,所述内容量区间包括至少一个内容量;
针对每个内容量区间,获取预设时间段内,内容量属于所述容量区间的每个历史查询结果内容的用户交互时长和用户交互量;
根据所述用户交互时长对所述历史查询结果内容进行排序,得到排序后历史查询结果内容;
根据用户交互量总和,满足预设条件所对应的排序区间内历史查询结果内容的用户交互时长,确定每个内容量区间交互时长阈值;
根据每个内容量区间的交互时长阈值和所述内容量区间包含的内容量,得到内容量与交互时长阈值之间的映射关系。
4.根据权利要求1所述的方法,其特征在于,所述第一样本标签和第二样本标签均包括正样本标签和负样本标签的其中一种标签类型,所述生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签,包括:
根据所述第一样本标签的标签类型,和所述第二样本标签的标签类型,计算所述查询结果内容的匹配分数;
根据所述匹配分数生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。
5.根据权利要求4所述的方法,其特征在于,每种标签类型对应有标签分数,所述根据所述第一样本标签的标签类型,和所述第二样本标签的标签类型,计算所述查询结果内容的匹配分数,包括:
根据所述用户交互时长确定所述第一样本标签的第一标签权重,根据所述相关度确定所述第二样本标签的第二标签权重;
根据所述第一标签权重,对所述第一样本标签的标签分数进行加权计算,得到第一加权后标签分数;
根据所述第二标签权重,对所述第二样本标签的标签分数进行加权计算,得到第二加权后标签分数;
基于所述第一加权后标签分数和所述第二加权后标签分数计算所述查询结果内容的匹配分数。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述查询文本样本与所述查询结果内容的相关度,确定所述查询结果内容的第二样本标签,包括:
通过内容推荐模型分别对所述查询文本样本和所述查询结果内容进行特征提取,得到所述查询文本训练样本的查询文本特征信息,和所述查询结果内容的内容特征信息;
根据所述查询文本特征信息和所述内容特征信息之间的特征距离,得到所述查询文本样本和所述查询结果内容的相关度;
根据所述相关度确定所述查询结果内容的第二样本标签。
7.根据权利要求6所述的方法,其特征在于,所述基于所述查询结果内容的第一样本标签和第二样本标签,生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签之后,所述方法还包括:
通过所述训练样本对,对所述内容推荐模型进行训练,得到训练后内容推荐模型;
当接收到查询文本时,通过所述训练后内容推荐模型基于所述查询文本的推荐查询结果内容。
8.一种样本标签生成装置,其特征在于,包括:
获取单元,用于获取查询文本样本,和所述查询文本样本的查询结果内容;
阈值确定单元,用于根据预设的内容量与交互时长阈值之间的映射关系,确定所述查询结果内容的内容量对应的目标交互时长阈值;
第一标签确定单元,用于获取所述查询结果内容的用户交互时长,并根据所述用户交互时长与所述目标交互时长阈值的大小关系确定所述查询结果内容的第一样本标签;
第二标签确定单元,用于根据所述查询文本样本与所述查询结果内容的相关度,确定所述查询结果内容的第二样本标签;
标签生成单元,用于基于所述查询结果内容的第一样本标签和第二样本标签,生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。
9.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至7任一项所述的样本标签生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行权利要求1至7任一项所述的样本标签生成方法。
CN202311224046.7A 2023-09-21 2023-09-21 样本标签生成方法、装置、计算机设备和存储介质 Active CN117725273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311224046.7A CN117725273B (zh) 2023-09-21 2023-09-21 样本标签生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311224046.7A CN117725273B (zh) 2023-09-21 2023-09-21 样本标签生成方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN117725273A true CN117725273A (zh) 2024-03-19
CN117725273B CN117725273B (zh) 2024-09-24

Family

ID=90202279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311224046.7A Active CN117725273B (zh) 2023-09-21 2023-09-21 样本标签生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117725273B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN111125543A (zh) * 2019-12-17 2020-05-08 掌阅科技股份有限公司 书籍推荐排序模型的训练方法、计算设备及存储介质
CN112528150A (zh) * 2020-12-17 2021-03-19 Oppo广东移动通信有限公司 直播推荐方法、装置、电子设备及存储介质
WO2023134378A1 (zh) * 2022-01-11 2023-07-20 广州小鹏汽车科技有限公司 语音交互方法、车辆、计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
WO2019237517A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN111125543A (zh) * 2019-12-17 2020-05-08 掌阅科技股份有限公司 书籍推荐排序模型的训练方法、计算设备及存储介质
CN112528150A (zh) * 2020-12-17 2021-03-19 Oppo广东移动通信有限公司 直播推荐方法、装置、电子设备及存储介质
WO2023134378A1 (zh) * 2022-01-11 2023-07-20 广州小鹏汽车科技有限公司 语音交互方法、车辆、计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙晓璇等: "目标检测数据集半自动生成技术研究", 《计算机系统应用》, vol. 28, no. 10, 15 October 2019 (2019-10-15), pages 8 - 14 *

Also Published As

Publication number Publication date
CN117725273B (zh) 2024-09-24

Similar Documents

Publication Publication Date Title
CN112052387B (zh) 一种内容推荐方法、装置和计算机可读存储介质
CN111475729A (zh) 搜索内容推荐方法及装置
CN111563158B (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN102576438A (zh) 用于执行推荐的方法和设备
CN113254711B (zh) 一种互动图像的显示方法、装置、计算机设备和存储介质
CN110209810B (zh) 相似文本识别方法以及装置
CN112231554B (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN112084413B (zh) 一种信息推荐的方法、装置及存储介质
CN112328833B (zh) 标签处理方法、装置及计算机可读存储介质
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN113704507A (zh) 数据处理方法、计算机设备以及可读存储介质
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN112989174A (zh) 信息推荐方法及装置、介质和设备
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN116186197A (zh) 话题推荐方法、装置、电子设备及存储介质
CN111242239B (zh) 一种训练样本选取方法、装置、以及计算机存储介质
CN105574015A (zh) 搜索推荐方法和装置
CN117725273B (zh) 样本标签生成方法、装置、计算机设备和存储介质
CN116775980B (zh) 一种跨模态搜索方法及相关设备
CN113821669B (zh) 搜索方法、装置、电子设备和存储介质
CN113901324A (zh) 一种搜索对象排序方法、装置、设备及存储介质
CN111191056A (zh) 一种多媒体推荐方法及装置
CN117112640B (zh) 一种内容排序方法以及相关设备
CN116521975B (zh) 内容推荐方法、装置、计算机设备、可读存储介质和产品
CN117725303B (zh) 内容查询方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant