CN112084307B - 一种数据处理方法、装置、服务器及计算机可读存储介质 - Google Patents

一种数据处理方法、装置、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN112084307B
CN112084307B CN202010960113.1A CN202010960113A CN112084307B CN 112084307 B CN112084307 B CN 112084307B CN 202010960113 A CN202010960113 A CN 202010960113A CN 112084307 B CN112084307 B CN 112084307B
Authority
CN
China
Prior art keywords
sample
click
model
samples
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010960113.1A
Other languages
English (en)
Other versions
CN112084307A (zh
Inventor
郑胤
魏秉政
黄汉煜
黄彦
王骕
路彦雄
林乐宇
王志平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010960113.1A priority Critical patent/CN112084307B/zh
Publication of CN112084307A publication Critical patent/CN112084307A/zh
Application granted granted Critical
Publication of CN112084307B publication Critical patent/CN112084307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置、服务器及计算机可读存储介质,其中方法包括:获取训练数据集,训练数据集包括第一搜索词和第一搜索词对应的多个样本,并获取多个样本中每个样本与第一搜索词的关联度,关联度用于表示每个样本与第一搜索词在语义上的匹配程度,再根据多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,点击模型用于对输入的第二搜索词进行识别搜索处理,可以使得点击模型能够有效地学习到样本与搜索词之间关联度的差异,有利于提升利用点击模型进行内容搜索时的准确度。

Description

一种数据处理方法、装置、服务器及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置、服务器及计算机可读存储介质。
背景技术
点击模型是进行信息检索的核心模块,随着机器学习技术在信息检索领域的广泛应用,点击模型也取得了很多进展。在信息检索领域中(例如搜索,排序等场景),排序的依据通常是文档的点击分数(例如被用户点击的次数),但主要依据文档的点击分数进行排序很可能出现排序不准确的情况,例如搜索词:“馒头夹红烧肉”,有两个候选文章分别叫做“红烧肉夹馒头”和“红烧肉白馒头”,相比较而言,“红烧肉夹馒头”更符合用户的检索需求,但实际应用中可能出现搜索结果中“红烧肉白馒头”这篇文章的排序反而比“红烧肉夹馒头”这篇文章还要靠前的情况,可见,由于对点击模型训练时通常只考虑文档的点击分数,可能导致搜索结果不准确的情况。因此,如何对点击模型进行有效训练,以提升利用点击模型进行内容搜索时的准确度已成为亟待解决的问题。
发明内容
本发明实施例提供一种数据处理方法、装置、服务器及计算机可读存储介质,可以使得点击模型能够有效地学习到样本与搜索词之间关联度的差异,有利于提升利用点击模型进行内容搜索时的准确度。
第一方面,本发明实施例提供了一种数据处理方法,所述方法包括:
获取训练数据集,所述训练数据集包括第一搜索词和所述第一搜索词对应的多个样本。
获取所述多个样本中每个样本与所述第一搜索词的关联度,所述关联度用于表示所述每个样本与所述第一搜索词在语义上的匹配程度。
根据所述多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,所述点击模型用于对输入的第二搜索词进行识别搜索处理。
第二方面,本发明实施例提供了一种数据处理装置,所述装置包括:
获取模块,用于获取训练数据集,所述训练数据集包括第一搜索词和所述第一搜索词对应的多个样本。
所述获取模块,还用于获取所述多个样本中每个样本与所述第一搜索词的关联度,所述关联度用于表示所述每个样本与所述第一搜索词在语义上的匹配程度。
处理模块,用于根据所述多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,所述点击模型用于对输入的第二搜索词进行识别搜索处理。
第三方面,本发明实施例提供了一种服务器,所述服务器包括处理器、网络接口和存储装置,所述处理器、所述网络接口和所述存储装置相互连接,其中,所述网络接口受所述处理器的控制用于收发数据,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,用于执行第一方面所述的数据处理方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行,用以执行第一方面所述的数据处理方法。
第五方面,本发明实施公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的数据处理方法。
本发明实施例中,服务器可以获取训练数据集,训练数据集包括第一搜索词和第一搜索词对应的多个样本,并获取多个样本中每个样本与第一搜索词的关联度,关联度用于表示每个样本与第一搜索词在语义上的匹配程度,再根据多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,点击模型用于对输入的第二搜索词进行识别搜索处理,可以使得点击模型能够有效地学习到样本与搜索词之间关联度的差异,有利于提升利用点击模型进行内容搜索时的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理系统的架构示意图;
图2是本发明实施例提供的一种数据处理方法的流程示意图;
图3a是本发明实施例提供的一种数据搜索场景中数据处理的整体实现过程的示意图;
图3b是本发明实施例提供的一种模型训练阶段的架构示意图;
图3c是本发明实施例提供的一种模型预测阶段的架构示意图;
图3d是本发明实施例提供的一种通过搜索界面展示搜索结果的示意图;
图3e是本发明实施例提供的另一种通过搜索界面展示搜索结果的示意图;
图4是本发明实施例提供的一种数据处理装置的结构示意图;
图5是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在信息检索领域中(例如搜索,排序等场景),排序的依据除了文档的点击分数(例如被用户点击的次数)之外,还需要考虑文档的基础相关性。所谓的文档基础相关性指的是从语义匹配的角度,文档与搜索词相关性的衡量。例如搜索词:“馒头夹红烧肉”,有两个候选文章分别叫做“红烧肉夹馒头”和“红烧肉白馒头”,从语义的角度来说第一个的基础相关性更强,但实际应用中可能出现搜索结果中“红烧肉白馒头”这篇文章的排序反而比“红烧肉夹馒头”这篇文章还要靠前的情况。由于对点击模型训练时通常只考虑文档的点击分数,往往忽视了基础相关性的信息。
目前,根据点击模型所使用的训练损失函数可以将点击模型分为:基于Pointwise损失函数的点击模型,基于Pairwise损失函数的点击模型,基于Listwise损失函数的点击模型。其中,基于Pointwise损失函数的点击模型以“单个样本”作为训练的基本单元,也就是说训练目标是预测单个样本的点击率;基于Pairwise损失函数的点击模型是以“样本对”作为训练的基本单元,训练的目标是让模型给被点击的样本打分高于未被点击的样本;基于Listwise损失函数的点击模型是以一个样本的序列(包括的样本数大于2)作为训练的基本单元,训练的目标是让样本的序列排序符合预期。在工业实践中,基于Listwise损失函数的点击模型虽然理论上性能更好,但是受限于构造训练数据时的困难和训练流程复杂,目前主流的点击模型是基于Pairwise损失函数和基于Pointwise损失函数的点击模型。一般来说,由于基于Pointwise损失函数的点击模型的性能一般低于基于Pairwise损失函数的点击模型,且基于Pairwise损失函数的点击模型可以利用更多样本对的信息,因而在同样条件下基于Pairwise损失函数的点击模型性能一般优于基于Pointwise损失函数的点击模型,因此也成为更加受欢迎的点击模型。
目前对点击模型进行基础相关性强化的主要方法是对样本进行加权,让基础相关性强的样本在进行模型训练时的梯度更大,以强化基础相关性在利用点击模型进行预测时的作用。然而,现有的对基础相关性加权的方式是以单个样本为中心考虑的。这种情况对于同样是基于单个样本为中心的Pointwise模型是合理的。但是对于目前主流的基于Pairwise的点击模型来说,Pairwise的点击模型是以样本对为单位进行训练的,直接以单个样本为中心对基础相关性进行加权容易出现性能不佳的情况。因此,本发明主要关注的是如何利用文档的基础相关性对Pairwise点击模型进行有效的强化,以提升内容搜索时的准确度。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的内容搜索技术,具体通过如下实施例进行说明:
请参见图1,是本发明实施例提供的一种数据处理系统的架构示意图,该数据处理系统包括服务器10和用户终端20,其中:
服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端20可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载智能终端等,但并不局限于此。用户终端20以及服务器10可以通过有线或无线通信方式进行直接或间接地连接,本发明在此不做限制。
用户终端20,用于提供可视化的用户界面(如搜索界面)与用户进行交互,可以用于用户输入搜索词,并展示与用户输入的搜索词相关的内容,展示的内容可以是有序排列的文档。
服务器10,用于利用训练数据集中各个样本与搜索词的关联度之间的差异对点击模型进行训练,得到训练后的点击模型,使得点击模型能够有效地学习到样本与搜索词之间关联度的差异,利用点击模型可以用来提供内容搜索等服务,例如,根据用户输入的搜索词获取相关的文档,并使得与搜索词语义相关的文档的排序较为靠前,便于用户快速地查看到较为相关的内容。
以下对本发明实施例的技术方案的实现细节进行详细阐述:
请参见图2,是本发明实施例提供的一种数据处理方法的流程示意图。本发明实施例的数据处理方法包括如下步骤:
201、服务器获取训练数据集,所述训练数据集包括第一搜索词和所述第一搜索词对应的多个样本。
其中,训练数据集是指用于对点击模型进行训练的数据集合,该数据集合具体可以包括多个搜索词,以及每个搜索词对应的多个样本,还可以包括每个样本的点击情况(即是否被用户点击查看)。其中,这里的搜索词可以记为第一搜索词,第一搜索词对应的多个样本是指用户输入第一搜索词后,根据点击模型输出的搜索结果,该搜索结果包括多个样本。例如,用户搜索文档,输入第一搜索词后,对应的搜索结果包括多个文档。
202、服务器获取所述多个样本中每个样本与所述第一搜索词的关联度,所述关联度用于表示所述每个样本与所述第一搜索词在语义上的匹配程度。
具体的,服务器可以对每个样本进行分析,以获取每个样本的特征数据,以样本是文档为例,特征数据可以包括文档标题、文档关键字、文档内容等,然后将每个样本的特征数据与第一搜索词进行匹配,从而得到每个样本第一搜索词之间的关联度。关联度可以理解为从语义匹配的角度,样本与搜索词之间匹配的程度,即基础相关性。
203、服务器根据所述多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,所述点击模型用于对输入的第二搜索词进行识别搜索处理。
其中,初始模型可以是指初始化相关模型参数的点击模型。
具体的,服务器可以获取该多个样本对应的关联度之间的差异数据,并利用关联度之间的差异数据对初始模型进行训练,得到训练后的点击模型,从而使得点击模型能够有效地学习到样本与搜索词之间关联度的差异,利用点击模型可以用来提供内容搜索等服务,例如,根据用户输入的搜索词获取相关的文档。
本发明实施例中,服务器获取训练样本集,训练样本集包括第一搜索词和第一搜索词对应的多个样本,可以获取多个样本中每个样本与第一搜索词的关联度,并获取该多个样本对应的关联度之间的差异,利用关联度之间的差异对点击模型进行训练,得到训练后的点击模型,从而使得点击模型能够有效地学习到样本与搜索词之间关联度的差异,有利于提升利用点击模型进行内容搜索时的准确度。
在一些可行的实施方式中,点击模型具体可以是基于文档对Pairwise损失函数的点击模型,可以以样本对为单位对点击模型进行训练,具体实现方式可以为:服务器可以获取多个样本中每个样本的点击数据,点击数据包括点击次数和点击顺序中的一种或两种,根据点击数据从多个样本中获取样本对,可以根据点击次数找出该多个样本中被用户点击的样本,以及除了被用户点击的样本之外的未被用户点击的样本,从被用户点击的样本中选择任意一个样本(记为第一样本),从未被用户点击的样本中选择任意一个样本(记为第二样本),第一样本和第二样本组成该样本对,获取第一样本对应的关联度和第二样本对应的关联度之间的差异数据,然后根据该差异数据对初始模型进行训练,以得到训练后的点击模型,使得点击模型能够以样本对的形式有效地学习到样本与搜索词之间关联度的差异。
在一些可行的实施方式中,服务器根据该差异数据对初始模型进行训练,以得到训练后的点击模型的具体实现方式可以为:服务器根据该差异数据确定第一加权权重,利用点击模型的损失函数和第一加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型,从而可以根据差异数据的大小确定匹配的加权权重,使得样本与搜索词之间关联度的差异可以给点击模型施加相匹配的影响力。
在一些可行的实施方式中,服务器在获取多个样本中每个样本与第一搜索词的关联度之后,可以获取每个样本与第一搜索词的关联度的变化范围,变化范围可以理解为关联度的最小值和最大值构成的区间范围,根据该变化范围确定加权系数,然后根据该差异数据和该加权系数确定第一加权权重。
在一些可行的实施方式中,服务器根据该差异数据和该加权系数确定第一加权权重的具体实现方式可以为:服务器计算差异数据和加权系数的乘积,将乘积与一预设常数进行比较,以获取乘积和预设常数中的最大值,并将最大值作为第一加权权重。例如,预设常数为1,样本对包括第一样本p和第二样本q,第一加权权重可以表示为:
λ(p,q)=max(1,k(ωpq))
其中,λ(p,q)为第一加权权重,ωp为第一样本p与第一搜索词的关联度,ωq为第二样本q与第一搜索词的关联度,k为加权系数,可以看出,对于差异比较大的样本对分配的到加权权重比较大,这样可以学习到对于Pairwise更加有效的基础相关性强化的点击模型。
在一些可行的实施方式中,服务器利用点击模型的损失函数和加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型的具体实现方式可以为:服务器利用第一样本、第二样本和点击模型的损失函数确定第一样本和第二样本对应的损失值,并按照梯度下降的方式根据损失值和第一加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型。对于基于Pairwise的点击模型f(p,q;θ),其中p,q表示一对样本,f(p,q;θ)表示p比q排序高的概率,标签y=1表示真实情况下p比q排序高,y=0表示真实情况下p比q排序低。
其中,如果不利用关联度的差异数据进行加权,则点击模型的Pairwise损失函数可以表示如下:
L(p,q,y)=-y logf(p,q;θ)-(1-y)log(1-f(p,q;θ))
样本对包括第一样本p和第二样本q,θ为点击模型的模型参数
本发明在训练时利用关联度的差异数据进行加权,则点击模型的Pairwise损失函数可以改写如下:
针对每个样本对,可以利用样本对包括的第一样本和第二样本对应的损失值,并按照梯度下降的方式根据该损失值对初始模型的模型参数进行调整,以得到训练后的点击模型。
其中,按照梯度下降的方式对点击模型的模型参数θ进行调整可以表示如下:
在一些可行的实施方式中,服务器根据该差异数据确定第一加权权重之后,还可以获取第一样本的点击数据,并根据第一样本的点击数据对第一加权权重进行调整,得到第二加权权重,例如可以根据第一样本的点击数据中的点击次数确定一个缩放系数,点击次数达到预设阈值,则缩放系数大于1,例如可以为1.2,点击次数未达到预设阈值,则缩放系数小于1,例如可以为0.8,利用该缩放系数对第一加权权重进行调整得到第二加权权重,并利用点击模型的损失函数和该第二加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型,从而在模型训练时不仅可以考虑到样本的关联度之间的差异数据,还可以考虑到样本的点击数据,从而平衡关联度差异数据和点击数据对点击模型训练时产生的影响力,有助于提升点击模型用于预测时的准确度。
在一些可行的实施方式中,服务器利用第一样本、第二样本和点击模型的损失函数确定第一样本和第二样本对应的损失值的具体实现方式可以为:服务器对第一样本和第二样本进行向量化处理(例如词向量),得到第一样本的特征向量和第二样本的特征向量,并将第一样本的特征向量和第二样本的特征向量输入点击模型的损失函数,以得到第一样本和第二样本对应的损失值。
在一些可行的实施方式中,在将训练后的点击模型应用到具体的搜索业务(例如搜索文档)时,即采用点击模型进行线上使用时,具体的实现方式可以为:服务器通过客户端提供搜索界面,获取用户通过搜索界面输入的搜索词(记为第二搜索词),可以先从内容库中确定与第二搜索词相关的多个文档,然后利用点击模型对该多个文档进行排序,得到排序结果,进而根据排序结果确定搜索结果,搜索结果包括需要向用户展示的文档以及文档在搜索界面中的展示顺序,利用训练后的点击模型可以用来提供内容搜索等服务,并可以保证内容搜索结果中文档排序的准确度,使得与搜索词语义相关的文档的排序较为靠前,便于用户快速地查看到较为相关的内容。
在一些可行的实施方式中,服务器根据排序结果确定搜索结果的具体的实现方式可以为:服务器根据排序结果从多个文档中确定出至少一个目标文档,例如该多个文档中排序在前5位的文档,并将该至少一个目标文档作为搜索结果,进而按照排序结果中的文档排序通过搜索界面输出该至少一个目标文档。
在一些可行的实施方式中,如图3a所示,是本发明实施例提供的一种数据搜索场景中数据处理的整体实现过程的示意图。具体来说,以搜一搜产品为例,可以分成线上使用点击模型进行排序和线下进行点击模型训练并且将训练好的点击模型推送到线上供搜一搜点击模型使用两个部分。本发明主要是对离线的模型训练流程进行优化。可以看出,在搜一搜的离线训练流程中增加了搜索词和文档的基础相关性差异(即上述的关联度之间的差异数据)提取模块,该模块负责抽取每个文档的基础相关性,然后根据λ(p,q)=max(1,k(ωpq))对Pairwise点击模型的训练过程进行基础相关性的加权,从而使得基于Pairwise的点击模型可以有效的对基础相关性进行强化,能够提升基础相关性在预测时的重要性,提升了搜索结果的准确度。
在一些可行的实施方式中,如图3b所示,是本发明实施例提供的一种模型训练阶段的架构示意图。在模型训练阶段,获取样本对p、q,分别与搜索词相结合生成各自的表达,包括样本p的表达和样本q的表达,样本p的表达是指用于表示样本p和搜索词的特征向量,样本q的表达同理,将样本p的表达、打分和样本q的表达、打分输入点击模型F(p,q),然后将点击模型F(p,q)的输出、提取的基础相关性差异数据以及样本p、q的真实标签输入损失函数,计算损失值,利用损失值对点击模型F(p,q)的模型参数进行调整优化,从而完成模型训练。
在一些可行的实施方式中,如图3c所示,是本发明实施例提供的一种模型预测阶段的架构示意图。在模型预测阶段,获取输入的搜索词以及对应匹配的文档,根据文档和搜索词确定文档的表达,然后利用训练好的点击模型对文档的表达进行打分得到文档的打分,根据每个文档的打分对文档进行排序,并按照该排序通过搜索界面输出多个文档。
在线上使用点击模型进行排序的实验中,实验组用户的首页首次点击位置显著下降0.23%,并且在点击模型的输出中,可以让排序靠前的结果与搜索词的基础相关性更好,如图3d、图3e所示,左侧为本发明的结果,右侧为对照组的结果,从实验结果上来看,模型可以将基础相关性更好的文档排到前面。
请参见图4,是本发明实施例的一种数据处理装置的结构示意图。所述装置包括:
获取模块401,用于获取训练数据集,所述训练数据集包括第一搜索词和所述第一搜索词对应的多个样本;
所述获取模块401,还用于获取所述多个样本中每个样本与所述第一搜索词的关联度,所述关联度用于表示所述每个样本与所述第一搜索词在语义上的匹配程度;
处理模块402,用于根据所述多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,所述点击模型用于对输入的第二搜索词进行识别搜索处理。
可选的,所述处理模块402,具体用于:
获取所述多个样本中每个样本的点击数据,所述点击数据包括点击次数和点击顺序中的一种或两种;
根据所述点击数据从所述多个样本中获取样本对,所述样本对包括被用户点击的第一样本和未被用户点击的第二样本,所述第一样本为被用户点击的样本中的任意一个,所述第二样本为未被用户点击的样本中的任意一个;
获取所述第一样本对应的关联度和所述第二样本对应的关联度之间的差异数据;
根据所述差异数据对初始模型进行训练,以得到训练后的点击模型。
可选的,所述处理模块402,具体用于:
根据所述差异数据确定第一加权权重;
获取所述第一样本的点击数据,并根据所述第一样本的点击数据对所述第一加权权重进行调整,得到第二加权权重;
利用点击模型的损失函数和所述第二加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型。
可选的,所述装置还包括:
确定模块403,用于根据所述每个样本与所述第一搜索词的关联度的变化范围确定加权系数;
所述确定模块403,还用于根据所述差异数据和所述加权系数确定第一加权权重。
可选的,所述确定模块403,具体用于:
计算所述差异数据和所述加权系数的乘积;
将所述乘积与一预设常数进行比较,以获取所述乘积和所述预设常数中的最大值;
将所述最大值作为第一加权权重。
可选的,所述处理模块402,具体用于:
利用所述第一样本、所述第二样本和点击模型的损失函数确定所述第一样本和所述第二样本对应的损失值;
按照梯度下降的方式根据所述损失值和所述第二加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型。
可选的,所述处理模块402,具体用于:
对所述第一样本和所述第二样本进行向量化处理,得到所述第一样本的特征向量和所述第二样本的特征向量;
将所述第一样本的特征向量和所述第二样本的特征向量输入点击模型的损失函数,以得到所述第一样本和所述第二样本对应的损失值。
可选的,所述获取模块401,还用于获取用户通过搜索界面输入的第二搜索词;
所述确定模块403,还用于从内容库中确定与所述第二搜索词相关的多个文档;
所述处理模块402,还用于利用所述点击模型对所述多个文档进行排序,得到排序结果;
所述确定模块403,还用于根据所述排序结果确定搜索结果。
可选的,所述确定模块403,具体用于:
根据所述排序结果从所述多个文档中确定出至少一个目标文档,并将所述至少一个目标文档作为搜索结果;
按照所述排序结果中的文档排序通过所述搜索界面输出所述至少一个目标文档。
可选的,所述点击模型的损失函数包括文档对Pairwise损失函数。
需要说明的是,本发明实施例的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
请参见图5,是本发明实施例的一种服务器的结构示意图,本发明实施例的所述服务器包括供电模块等结构,并包括处理器501、存储装置502以及网络接口503。所述处理器501、存储装置502以及网络接口503之间可以交互数据。
所述存储装置502可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置502也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储装置502还可以包括上述种类的存储器的组合。
所述处理器501可以是中央处理器501(central processing unit,CPU)。在一个实施例中,所述处理器501还可以是图形处理器501(Graphics Processing Unit,GPU)。所述处理器501也可以是由CPU和GPU的组合。在一个实施例中,所述存储装置502用于存储程序指令。所述处理器501可以调用所述程序指令,执行如下操作:
获取训练数据集,所述训练数据集包括第一搜索词和所述第一搜索词对应的多个样本;
获取所述多个样本中每个样本与所述第一搜索词的关联度,所述关联度用于表示所述每个样本与所述第一搜索词在语义上的匹配程度;
根据所述多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,所述点击模型用于对输入的第二搜索词进行识别搜索处理。
可选的,所述处理器501,具体用于:
获取所述多个样本中每个样本的点击数据,所述点击数据包括点击次数和点击顺序中的一种或两种;
根据所述点击数据从所述多个样本中获取样本对,所述样本对包括被用户点击的第一样本和未被用户点击的第二样本,所述第一样本为被用户点击的样本中的任意一个,所述第二样本为未被用户点击的样本中的任意一个;
获取所述第一样本对应的关联度和所述第二样本对应的关联度之间的差异数据;
根据所述差异数据对初始模型进行训练,以得到训练后的点击模型。
可选的,所述处理器501,具体用于:
根据所述差异数据确定第一加权权重;
获取所述第一样本的点击数据,并根据所述第一样本的点击数据对所述第一加权权重进行调整,得到第二加权权重;
利用点击模型的损失函数和所述第二加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型。
可选的,所述处理器501,还用于:
根据所述每个样本与所述第一搜索词的关联度的变化范围确定加权系数;
根据所述差异数据和所述加权系数确定第一加权权重。
可选的,所述处理器501,具体用于:
计算所述差异数据和所述加权系数的乘积;
将所述乘积与一预设常数进行比较,以获取所述乘积和所述预设常数中的最大值;
将所述最大值作为第一加权权重。
可选的,所述处理器501,具体用于:
利用所述第一样本、所述第二样本和点击模型的损失函数确定所述第一样本和所述第二样本对应的损失值;
按照梯度下降的方式根据所述损失值和所述第二加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型。
可选的,所述处理器501,具体用于:
对所述第一样本和所述第二样本进行向量化处理,得到所述第一样本的特征向量和所述第二样本的特征向量;
将所述第一样本的特征向量和所述第二样本的特征向量输入点击模型的损失函数,以得到所述第一样本和所述第二样本对应的损失值。
可选的,所述处理器501,还用于:
获取用户通过搜索界面输入的第二搜索词;
从内容库中确定与所述第二搜索词相关的多个文档;
利用所述点击模型对所述多个文档进行排序,得到排序结果;
根据所述排序结果确定搜索结果。
可选的,所述处理器501,具体用于:
根据所述排序结果从所述多个文档中确定出至少一个目标文档,并将所述至少一个目标文档作为搜索结果;
按照所述排序结果中的文档排序通过所述搜索界面输出所述至少一个目标文档。
可选的,所述点击模型的损失函数包括文档对Pairwise损失函数。
具体实现中,本发明实施例中所描述的处理器501、存储装置502以及网络接口503可执行本发明实施例图2提供的一种数据处理方法的相关实施例中所描述的实现方式,也可执行本发明实施例图4提供的一种数据处理装置的相关实施例中所描述的实现方式,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序包括一条或一条以上指令,可存储于一计算机存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
以上所揭露的仅为本申请部分实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (12)

1.一种数据处理方法,其特征在于,所述方法包括:
获取训练数据集,所述训练数据集包括第一搜索词和所述第一搜索词对应的多个样本;
获取所述多个样本中每个样本与所述第一搜索词的关联度,所述关联度用于表示所述每个样本与所述第一搜索词在语义上的匹配程度;
根据所述多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,所述点击模型用于对输入的第二搜索词进行识别搜索处理;
其中,所述根据所述多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,包括:
获取所述多个样本中每个样本的点击数据,所述点击数据包括点击次数和点击顺序中的一种或两种;
根据所述点击数据从所述多个样本中获取样本对,所述样本对包括被用户点击的第一样本和未被用户点击的第二样本,所述第一样本为被用户点击的样本中的任意一个,所述第二样本为未被用户点击的样本中的任意一个;
获取所述第一样本对应的关联度和所述第二样本对应的关联度之间的差异数据;
根据所述差异数据对初始模型进行训练,以得到训练后的点击模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述差异数据对初始模型进行训练,以得到训练后的点击模型,包括:
根据所述差异数据确定第一加权权重;
获取所述第一样本的点击数据,并根据所述第一样本的点击数据对所述第一加权权重进行调整,得到第二加权权重;
利用点击模型的损失函数和所述第二加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型。
3.根据权利要求2所述的方法,其特征在于,所述获取所述多个样本中每个样本与所述第一搜索词的关联度之后,所述根据所述多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型之前,所述方法还包括:
根据所述每个样本与所述第一搜索词的关联度的变化范围确定加权系数;
其中,所述根据所述差异数据确定第一加权权重,包括:
根据所述差异数据和所述加权系数确定第一加权权重。
4.根据权利要求3所述的方法,其特征在于,所述根据所述差异数据和所述加权系数确定第一加权权重,包括:
计算所述差异数据和所述加权系数的乘积;
将所述乘积与一预设常数进行比较,以获取所述乘积和所述预设常数中的最大值;
将所述最大值作为第一加权权重。
5.根据权利要求2~4中任一项所述的方法,其特征在于,所述利用点击模型的损失函数和所述第二加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型,包括:
利用所述第一样本、所述第二样本和点击模型的损失函数确定所述第一样本和所述第二样本对应的损失值;
按照梯度下降的方式根据所述损失值和所述第二加权权重对初始模型的模型参数进行调整,以得到训练后的点击模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述第一样本、所述第二样本和点击模型的损失函数确定所述第一样本和所述第二样本对应的损失值,包括:
对所述第一样本和所述第二样本进行向量化处理,得到所述第一样本的特征向量和所述第二样本的特征向量;
将所述第一样本的特征向量和所述第二样本的特征向量输入点击模型的损失函数,以得到所述第一样本和所述第二样本对应的损失值。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户通过搜索界面输入的第二搜索词;
从内容库中确定与所述第二搜索词相关的多个文档;
利用所述点击模型对所述多个文档进行排序,得到排序结果;
根据所述排序结果确定搜索结果。
8.根据权利要求7所述的方法,其特征在于,所述根据所述排序结果确定搜索结果,包括:
根据所述排序结果从所述多个文档中确定出至少一个目标文档,并将所述至少一个目标文档作为搜索结果;
按照所述排序结果中的文档排序通过所述搜索界面输出所述至少一个目标文档。
9.根据权利要求2所述的方法,其特征在于,所述点击模型的损失函数包括文档对Pairwise损失函数。
10.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取训练数据集,所述训练数据集包括第一搜索词和所述第一搜索词对应的多个样本;
所述获取模块,还用于获取所述多个样本中每个样本与所述第一搜索词的关联度,所述关联度用于表示所述每个样本与所述第一搜索词在语义上的匹配程度;
处理模块,用于根据所述多个样本对应的关联度之间的差异数据对初始模型进行训练,以得到训练后的点击模型,所述点击模型用于对输入的第二搜索词进行识别搜索处理;
其中,所述处理模块,具体用于:
获取所述多个样本中每个样本的点击数据,所述点击数据包括点击次数和点击顺序中的一种或两种;
根据所述点击数据从所述多个样本中获取样本对,所述样本对包括被用户点击的第一样本和未被用户点击的第二样本,所述第一样本为被用户点击的样本中的任意一个,所述第二样本为未被用户点击的样本中的任意一个;
获取所述第一样本对应的关联度和所述第二样本对应的关联度之间的差异数据;
根据所述差异数据对初始模型进行训练,以得到训练后的点击模型。
11.一种服务器,其特征在于,所述服务器包括:处理器、网络接口和存储装置,所述处理器、所述网络接口和所述存储装置相互连接,其中,所述网络接口受所述处理器的控制用于收发数据,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,用于执行如权利要求1-9任一项所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行,用以执行如权利要求1-9任一项所述的数据处理方法。
CN202010960113.1A 2020-09-14 2020-09-14 一种数据处理方法、装置、服务器及计算机可读存储介质 Active CN112084307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010960113.1A CN112084307B (zh) 2020-09-14 2020-09-14 一种数据处理方法、装置、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010960113.1A CN112084307B (zh) 2020-09-14 2020-09-14 一种数据处理方法、装置、服务器及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112084307A CN112084307A (zh) 2020-12-15
CN112084307B true CN112084307B (zh) 2023-11-17

Family

ID=73736772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010960113.1A Active CN112084307B (zh) 2020-09-14 2020-09-14 一种数据处理方法、装置、服务器及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112084307B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767307A (zh) * 2020-12-28 2021-05-07 上海联影智能医疗科技有限公司 图像处理方法、装置、计算机设备和存储介质
CN113254734B (zh) * 2021-05-21 2024-01-09 北京达佳互联信息技术有限公司 点击模型确定方法、搜索方法、装置、服务器及介质
CN113326521A (zh) * 2021-06-11 2021-08-31 杭州煋辰数智科技有限公司 一种基于安全多方计算的数据源联合建模方法
CN113378539B (zh) * 2021-06-29 2023-02-14 华南理工大学 一种面向标准文档编写的模板推荐方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077306A (zh) * 2013-03-28 2014-10-01 阿里巴巴集团控股有限公司 一种搜索引擎的结果排序方法及系统
CN105512156A (zh) * 2014-10-20 2016-04-20 腾讯科技(深圳)有限公司 点击模型生成方法和装置
CN106156023A (zh) * 2015-03-23 2016-11-23 华为技术有限公司 语义匹配的方法、装置和系统
CN106339756A (zh) * 2016-08-25 2017-01-18 北京百度网讯科技有限公司 训练数据的生成方法、搜索方法以及装置
CN109299344A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN110263350A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机可读存储介质和计算机设备
CN110363346A (zh) * 2019-07-12 2019-10-22 腾讯科技(北京)有限公司 点击率预测方法、预测模型的训练方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077306A (zh) * 2013-03-28 2014-10-01 阿里巴巴集团控股有限公司 一种搜索引擎的结果排序方法及系统
CN105512156A (zh) * 2014-10-20 2016-04-20 腾讯科技(深圳)有限公司 点击模型生成方法和装置
CN106156023A (zh) * 2015-03-23 2016-11-23 华为技术有限公司 语义匹配的方法、装置和系统
CN106339756A (zh) * 2016-08-25 2017-01-18 北京百度网讯科技有限公司 训练数据的生成方法、搜索方法以及装置
CN109299344A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN110263350A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机可读存储介质和计算机设备
CN110363346A (zh) * 2019-07-12 2019-10-22 腾讯科技(北京)有限公司 点击率预测方法、预测模型的训练方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Click-through-based word embedding for large scale image retrieval;yu chen 等;《2016 IEEE second international conference on multimedia big data》;第1-4页 *
基于神经网络的搜索引擎点击模型构建;谢晓辉 等;《中文信息学报》;第31卷(第5期);第146-155页 *

Also Published As

Publication number Publication date
CN112084307A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112084307B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN106815252B (zh) 一种搜索方法和设备
KR102085217B1 (ko) 특허문서의 유사도 판단 방법, 장치 및 시스템
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN112182166B (zh) 一种文本匹配方法、装置、电子设备及存储介质
US20180218241A1 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
US20230409653A1 (en) Embedding Based Retrieval for Image Search
CN113392651B (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN110795527B (zh) 候选实体排序方法、训练方法及相关装置
CN107656920B (zh) 一种基于专利的科技人才推荐方法
CN111737426A (zh) 问答模型的训练方法、计算机设备以及可读存储介质
CN113011172B (zh) 文本处理方法、装置、计算机设备和存储介质
CN104915399A (zh) 基于新闻标题的推荐数据处理方法及系统
WO2021007159A1 (en) Identifying entity attribute relations
US20230237084A1 (en) Method and apparatus for question-answering using a database consist of query vectors
US20230385317A1 (en) Information Retrieval Method, Related System, and Storage Medium
CN107122378B (zh) 对象处理方法、装置及移动终端
CN113761887A (zh) 基于文本处理的匹配方法、装置、计算机设备和存储介质
CN113569018A (zh) 问答对挖掘方法及装置
CN110347916B (zh) 跨场景的项目推荐方法、装置、电子设备及存储介质
CN111737413A (zh) 基于概念网语义的反馈模型信息检索方法、系统及介质
CN112836027A (zh) 用于确定文本相似度的方法、问答方法及问答系统
CN116362331A (zh) 一种基于人机协同构建知识图谱的知识点填充方法
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant