CN114372205B - 特征量化模型的训练方法、装置以及设备 - Google Patents

特征量化模型的训练方法、装置以及设备 Download PDF

Info

Publication number
CN114372205B
CN114372205B CN202210279717.9A CN202210279717A CN114372205B CN 114372205 B CN114372205 B CN 114372205B CN 202210279717 A CN202210279717 A CN 202210279717A CN 114372205 B CN114372205 B CN 114372205B
Authority
CN
China
Prior art keywords
content item
sample content
features
sample
content items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210279717.9A
Other languages
English (en)
Other versions
CN114372205A (zh
Inventor
郭卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210279717.9A priority Critical patent/CN114372205B/zh
Publication of CN114372205A publication Critical patent/CN114372205A/zh
Application granted granted Critical
Publication of CN114372205B publication Critical patent/CN114372205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种特征量化模型的训练方法、装置以及设备,可应用于计算机技术中的内容搜索、人工智能以及车载等场景。通过本申请实施例提供的技术方案,将内容项特征输特征量化模型,通过特征量化模型对内容项特征进行量化,得到样本内容项的量化特征。对内容项特征进行量化之后,多个样本内容项可能对应于同一个量化特征,以量化特征作为召回时的索引能够提高召回的效率。由于量化过程中可能存在丢失内容项特征中的信息的情况,因此在训练特征量化模型时,以基于内容项特征确定的第二距离参数作为监督,从而提高特征量化模型输出的量化特征的准确性。实现在保证召回准确性的前提下,提高内容项的召回效率。

Description

特征量化模型的训练方法、装置以及设备
技术领域
本申请涉及计算机技术领域,特别涉及一种特征量化模型的训练方法、装置以及设备。
背景技术
随着计算机技术的发展,网络上提供的内容项的数量也越来越多,用户会通过观看视频、音频或者文章等类型的内容项来进行学习和放松。为了向用户推荐可能感兴趣的内容项,内容项提供平台会基于用户观看过的内容项来向用户进行推荐。
相关技术中,内容项提供平台会训练一个特征提取模型,通过该特征提取模型来提取内容项的内容项特征,基于内容项特征来召回向用户推荐的内容项。
但是,在基于该特征提取模型提取的内容项特征进行召回时,运算量较大,导致召回内容项的效率较低。
发明内容
本申请实施例提供了一种特征量化模型的训练方法、装置以及设备,训练了一个能够准确提取量化特征的特征量化模型,技术方案如下。
一方面,提供了一种特征量化模型的训练方法,所述方法包括:
将多个样本内容项的内容项特征输入特征量化模型,通过所述特征量化模型对所述多个样本内容项的内容项特征进行量化,输出所述多个样本内容项的量化特征,所述量化特征为召回内容项时的索引;
基于所述多个样本内容项的量化特征,确定所述多个样本内容项的第一距离参数,所述样本内容项的第一距离参数用于表示所述样本内容项的量化特征与其他样本内容项的量化特征与之间的距离;
基于所述多个样本内容项的内容项特征,确定所述多个样本内容项的第二距离参数,所述样本内容项的第二距离参数用于表示所述样本内容项的内容项特征与所述其他样本内容项的内容项特征之间的距离;
基于所述多个样本内容项的第一距离参数和所述多个样本内容项的第二距离参数之间的第一差异信息,对所述特征量化模型进行训练。
一方面,提供了一种特征量化模型的训练装置,所述装置包括:
量化特征获取模块,用于将多个样本内容项的内容项特征输入特征量化模型,通过所述特征量化模型对所述多个样本内容项的内容项特征进行量化,输出所述多个样本内容项的量化特征,所述量化特征为召回内容项时的索引;
第一距离参数确定模块,用于基于所述多个样本内容项的量化特征,确定所述多个样本内容项的第一距离参数,所述样本内容项的第一距离参数用于表示所述样本内容项的量化特征与其他样本内容项的量化特征与之间的距离;
第二距离参数确定模块,用于基于所述多个样本内容项的内容项特征,确定所述多个样本内容项的第二距离参数,所述样本内容项的第二距离参数用于表示所述样本内容项的内容项特征与所述其他样本内容项的内容项特征之间的距离;
训练模块,用于基于所述多个样本内容项的第一距离参数和所述多个样本内容项的第二距离参数之间的第一差异信息,对所述特征量化模型进行训练。
在一种可能的实施方式中,所述量化特征获取模块,用于通过所述特征量化模型对所述多个样本内容项的内容项特征进行至少一次全连接,得到所述多个样本内容项的初始量化特征;通过所述特征量化模型,基于所述初始量化特征中数值的符号对所述多个样本内容项的初始量化特征进行符号量化,输出所述多个样本内容项的量化特征。
在一种可能的实施方式中,所述训练模块,还用于对所述多个样本内容项的初始量化特征进行量化,得到所述多个样本内容项的目标量化特征;基于所述多个样本内容项的初始量化特征与目标量化特征之间的第二差异信息,对所述特征量化模型进行训练。
在一种可能的实施方式中,所述第一距离参数确定模块,用于对于所述多个样本内容项中的第一样本内容项,基于所述第一样本内容项的量化特征与所述多个样本内容项中的多个第二样本内容项的量化特征,确定所述第一样本内容项的量化特征与所述多个第二样本内容项的量化特征之间的第一距离;基于第一样本内容项的量化特征与所述多个第二样本内容项的量化特征之间的第一距离,确定所述第一样本内容项的第一距离参数。
在一种可能的实施方式中,所述第一距离参数确定模块,用于基于第一样本内容项的量化特征与所述多个第二样本内容项的量化特征之间的第一距离,对所述多个第二样本内容项的标识进行排序;将排序后的所述多个第二样本内容项的标识确定为所述第一样本内容项的第一距离参数。
在一种可能的实施方式中,所述第二距离参数确定模块,用于对于所述多个样本内容项中的第一样本内容项,基于所述第一样本内容项的内容项特征与所述多个样本内容项中的多个第二样本内容项的内容项特征,确定所述第一样本内容项的内容项特征与所述多个第二样本内容项的内容项特征之间的第二距离;基于所述第一样本内容项的内容项特征与所述多个第二样本内容项的内容项特征之间的第二距离,确定所述第一样本内容项的第二距离参数。
在一种可能的实施方式中,所述第二距离参数确定模块,用于基于第一样本内容项的内容项特征与所述多个第二样本内容项的内容项特征之间的第二距离,对所述多个第二样本内容项的标识进行排序;将排序后的所述多个第二样本内容项的标识确定为所述第一样本内容项的第二距离参数。
在一种可能的实施方式中,所述训练模块,用于对于所述多个样本内容项中的第一样本内容项,确定所述第一样本内容项的第一距离参数和第二距离参数之间的第一差异信息;基于所述第一样本内容项的第一距离参数和第二距离参数之间的第一差异信息,对所述特征量化模型进行训练。
在一种可能的实施方式中,所述多个样本内容项包括第一样本内容项、所述第一样本内容项的正样本内容项以及所述第一样本内容项的负样本内容项,所述训练模块,还用于基于所述第一样本内容项的量化特征、所述正样本内容项的量化特征以及所述负样本内容项的量化特征,确定第三差异信息和第四差异信息,所述第三差异信息为所述第一样本内容项的量化特征与所述正样本内容项的量化特征之间的差异信息,所述第四差异信息为所述第一样本内容项的量化特征与所述负样本内容项的量化特征之间的差异信息,所述正样本内容项与所述第一样本内容项之间的相似度符合第一相似度条件,所述负样本内容项与所述第一样本内容项之间的相似度不符合所述第一相似度条件;基于所述第三差异信息和所述第四差异信息,对所述特征量化模型进行训练。
在一种可能的实施方式中,所述训练模块,还用于对所述第一样本内容项的量化特征、所述正样本内容项的量化特征以及所述负样本内容项的量化特征进行归一化,得到所述第一样本内容项的归一化特征、所述正样本内容项的归一化特征以及所述负样本内容项的归一化特征;将所述第一样本内容项的归一化特征与所述正样本内容项的归一化特征之间的差异信息确定为所述第三差异信息;将所述第一样本内容项的归一化特征与所述负样本内容项的归一化特征之间的差异信息确定为所述第四差异信息。
在一种可能的实施方式中,所述训练模块,还用于基于所述第三差异信息与所述第四差异信息之间的差值以及距离阈值,对所述特征量化模型进行训练,所述距离阈值用于指示所述特征量化模型调整所述正样本内容项的量化特征与所述负样本内容项的量化特征之间的距离。
在一种可能的实施方式中,所述多个样本内容项包括第一样本内容项、第二样本内容项以及第三样本内容项,所述训练模块,还用于获取所述第一样本内容项的量化特征与所述第二样本内容项的量化特征之间的第五差异信息;获取所述第一样本内容项的量化特征与所述第三样本内容项的量化特征之间的第六差异信息;基于所述第五差异信息、所述第六差异信息以及所述第一样本内容项的第二距离参数,对所述特征量化模型进行训练。
在一种可能的实施方式中,所述训练模块,还用于基于所述第五差异信息、所述第六差异信息、所述第一样本内容项的第二距离参数中所述第二样本内容项对应的距离以及所述第一样本内容项的第二距离参数中所述第三样本内容项对应的距离,对所述特征量化模型进行训练。
在一种可能的实施方式中,所述方法还包括:
召回模块,用于将查询内容项的内容项特征输入所述特征量化模型,通过所述特征量化模型对所述查询内容项的内容项特征进行量化,输出所述查询内容项的量化特征;基于所述查询内容项的量化特征进行召回,得到至少一个目标内容项,所述至少一个目标内容项与所述查询内容项之间的相似度符合目标条件。
在一种可能的实施方式中,所述召回模块,用于基于所述查询内容项的量化特征进行查询,得到多个候选内容项,所述多个候选内容项的量化特征与所述查询内容项的量化特征之间的相似度符合第二相似度条件,所述多个候选内容项的量化特征是通过所述特征量化模型获取的;基于所述查询内容项的内容项特征以及所述多个候选内容项的内容项特征,从所述多个候选内容项中确定所述至少一个目标内容项。
在一种可能的实施方式中,所述召回模块,用于基于所述查询内容项的内容项特征以及所述多个候选内容项的内容项特征之间的相似度,对所述多个候选内容项进行排序;将所述多个候选内容项中顺序符合顺序条件的候选内容项确定为所述目标内容项。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现所述特征量化模型的训练方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现所述特征量化模型的训练方法。
一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述特征量化模型的训练方法。
通过本申请实施例提供的技术方案,将内容项特征输特征量化模型,通过特征量化模型对内容项特征进行量化,得到样本内容项的量化特征,其中,对内容项特征进行量化的过程也即是对内容项特征进行离散化的过程。对内容项特征进行量化之后,多个样本内容项可能对应于同一个量化特征,以量化特征作为召回时的索引能够提高召回的效率。另外,由于量化过程中可能存在丢失内容项特征中的信息的情况,因此在训练特征量化模型时,以基于内容项特征确定的第二距离参数作为监督,使得通过量化特征确定的第一距离参数尽可能与第二距离参数接近,提高特征量化模型输出的量化特征的准确性。实现在保证召回准确性的前提下,提高内容项的召回效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种特征量化模型的训练方法的实施环境的示意图;
图2是本申请实施例提供的一种特征量化模型的训练方法的流程图;
图3是本申请实施例提供的另一种特征量化模型的训练方法的流程图;
图4是本申请实施例提供的一种函数示意图;
图5是本申请实施例提供的一种权重值示意图;
图6是本申请实施例提供的又一种特征量化模型的训练方法的流程图;
图7是本申请实施例提供的再一种特征量化模型的训练方法的流程图;
图8是本申请实施例提供的一种特征量化模型的训练装置的结构示意图;
图9是本申请实施例提供的一种终端的结构示意图;
图10是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式做进一步的详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
语义特征:用于表示文本所表达语义的特征,不同的文本可以对应于相同的语义特征,例如文本“今天天气怎么样”和文本“今天天气如何”可以对应于同一个语义特征。计算机设备可以将文本中的字符映射为字符向量,根据字符之间的关系,对字符向量进行组合和运算,得到文本的语义特征。例如计算机设备可以采用编解码器的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)。
归一化:将取值范围不同的数列映射到(0,1)区间上,便于数据的处理。在一些情况下,归一化后的数值可以直接被实现为概率。
嵌入编码(Embedded Coding):嵌入编码在数学上表示一个对应关系,即通过一个函数F将X空间上的数据映射到Y空间上,其中该函数F是单射函数,映射的结果是结构保存,单射函数表示映射后的数据与映射前的数据唯一对应,结构保存表示映射前数据的大小关系后映射后数据的大小关系相同,例如映射前存在数据X1以及X2,映射后得到X1对应的Y1以及X2对应的Y2。若映射前的数据X1>X2,那么相应地,映射后的数据Y1大于Y2。对于词语来说,就是将词语映射到另外一个空间,便于后续的机器学习和处理。
图像识别:类别级别的识别,不考虑对象的特定实例,仅考虑对象的类别(如人、狗、猫、鸟等)进行的识别并给出对象所属类别。一个典型的例子是大型通用物体识别开源数据集imagenet中的识别任务,识别出某个物体是1000个类别中的哪一个。
二值量化:对于D维特征向量,向量归一化后取值范围一般为-1~1浮点数,把特征压缩到指定位数(如48位)取值为0、1的二进制码(称48bit压缩),为向量二值量化,二值编码。
二值量化索引:把D维特征向量通过某个计算过程(模型)得到有限比特位的二值向量,检索时以二值向量作为索引召回图像。
注意力权重:可以表示训练或预测过程中某个数据的重要性,重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高,重要性低的数据其对应的注意力权重的值较低。在不同的场景下,数据的重要性并不相同,模型的训练注意力权重的过程也即是确定数据重要性的过程。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
图1是本申请实施例提供的一种特征量化模型的训练方法的实施环境示意图,参见图1,该实施环境中可以包括终端110和服务器140。
终端110通过无线网络或有线网络与服务器140相连。可选地,终端110是车载终端、智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表以及智能电视等,但并不局限于此。终端110安装和运行有支持内容项搜索和显示的应用程序。
服务器140是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140为终端110上运行的应用程序提供后台服务。
可选地,终端110和服务器140的数量不受限制。
在介绍完本申请实施例的实施环境之后,下面将结合上述实施环境对本申请实施例的应用场景进行介绍,在下述说明过程中,终端也即是上述实施环境中的终端110,服务器也即是上述实施环境中的服务器140。
本申请实施例提供的技术方案能够应用在召回各类内容项的场景下,比如,应用在召回图像的场景下,或者应用在召回音频的场景下,或者应用在召回文本的场景下,或者应用在召回图文数据的场景下。
在召回图像的场景下,服务器通过训练一个特征量化模型来获取图像数据库中多个图像的量化特征,多个图像的量化特征为召回多个图像时的索引,量化特征也被称为离散特征。在后续召回图像的过程中,服务器能够基于图像的量化特征来实现快速召回,效率较高。在训练特征量化模型时,服务器提取该多个图像的图像特征。训练该特征量化模型包括多个迭代过程,在任一迭代过程中,服务器从该多个图像中获取多个样本图像,将该多个样本图像的图像特征输入特征量化模型,通过该特征量化模型对该多个样本图像的图像特征进行量化,输出该多个样本图像的量化特征。服务器基于该多个样本图像的量化特征,确定该多个样本图像的第一距离参数,任一样本图像的第一距离参数用于表示该样本图像的量化特征与其他样本图像的量化特征之间的距离,量化特征之间的距离用于表示量化特征之间的相似程度,量化特征之间的距离越小,则量化特征之间的相似程度越高;量化特征之间的距离越大,则量化特征之间的相似程度越低。服务器基于该多个样本图像的图像特征,确定该多个样本图像的第二距离参数,任一样本图像的第二距离参数用于表示该样本图像的图像特征与其他样本图像的图像特征之间的距离,图像特征之间的距离用于表示图像特征之间的相似程度,图像特征之间的距离越小,则图像特征之间的相似程度越高;图像特征之间的距离越大,则图像特征之间的相似程度越低。服务器基于第一距离参数和第二距离参数之间的第一差异信息,对该特征量化模型进行训练。其中,第二距离参数是基于图像的图像特征确定的,因此第二距离参数指示的样本内容项之间的距离较为准确。以第一距离参数和第二距离参数之间的第一差异信息来训练该特征量化模型,使得该特征量化模型输出的量化特征学习到图像特征的距离信息,从而提高了该特征量化模型输出的量化特征的准确性。需要说明的是,上述是以一次迭代过程为例进行说明的,在其他迭代过程中,过程与上述描述同理,在此不再赘述。
下面对服务器基于训练完成的该特征量化模型来进行图像召回的方法进行介绍。
服务器获取查询图像,该查询图像为终端上传的图像或者为用户执行过交互行为的图像。服务器对该查询图像进行特征提取,得到该查询图像的图像特征。服务器将该查询图像的图像特征输入该训练完毕的特征量化模型,通过该特征量化模型对该查询图像的图像特征进行量化,输出该查询图像的量化特征。服务器基于该查询图像的量化特征在图像数据库中进行召回,得到至少一个目标图像,服务器将至少一个目标图像推荐给用户。
需要说明的是,在上述说明过程中,是以服务器召回图像的场景为例进行说明的,在服务器召回音频、召回文本以及召回图文信息等场景中,与上述说明过程属于同一发明构思,内容项不再赘述。当然,本申请实施例提供的技术方案除了能够应用在上述几个场景之外,还能够应用在召回其他类型的内容项的场景中,本申请实施例对此不做限定。
在介绍完本申请实施例的实施环境和应用场景之后,下面对本申请实施例提供的技术方案进行介绍。参见图2,本申请实施例提供的技术方案可以由终端或服务器执行,也可以由终端和服务器共同执行,在本申请实施例中,以执行主体为服务器为例进行说明,方法包括下述步骤。
201、服务器将多个样本内容项的内容项特征输入特征量化模型,通过该特征量化模型对该多个样本内容项的内容项特征进行量化,输出该多个样本内容项的量化特征,该量化特征为召回内容项时的索引。
其中,样本内容项为用于训练特征量化模型的内容项,内容项为图像、音频、文本以及图文信息中的任一项,本申请实施例对此不做限定。内容项特征也被称为内容项的嵌入(Embedding)特征,用于表示内容项的特性,在一些实施例中,内容项特征的形式为向量。特征量化模型用于对输入的内容项特征进行量化,量化也被称为离散化,是将连续的内容项特征变为离散的量化特征的过程。相较于内容项特征,量化特征携带的信息更少。
202、服务器基于该多个样本内容项的量化特征,确定该多个样本内容项的第一距离参数,该样本内容项的第一距离参数用于表示该样本内容项的量化特征与其他样本内容项的量化特征与之间的距离。
其中,对于该多个样本内容项中的任一样本内容项,该样本内容项的第一距离参数用于表示该样本内容项的量化特征与该多个样本内容项中其他样本内容项的量化特征之间的距离,也就是说,多个样本内容项各自对应于一个第一距离参数。量化特征之间的距离用于表示量化特征之间的接近程度,在一些实施例中,量化特征之间的距离越小,表示量化特征之间越接近;量化特征之间的距离越大,表示量化特征之间越不接近,换句话说,第一距离参数是以样本内容项的量化特征来表示样本内容项之间的相似程度的。
203、服务器基于该多个样本内容项的内容项特征,确定该多个样本内容项的第二距离参数,该样本内容项的第二距离参数用于表示该样本内容项的内容项特征与该其他样本内容项的内容项特征之间的距离。
其中,对于该多个样本内容项中的任一样本内容项,该样本内容项的第二距离参数用于表示该样本内容项的内容项特征与该多个样本内容项中其他样本内容项的内容项特征之间的距离,也就是说,多个样本内容项各自对应于一个第二距离参数。内容项特征之间的距离用于表示内容项特征之间的接近程度,在一些实施例中,内容项特征之间的距离越小,表示内容项特征之间越接近;内容项特征之间的距离越大,表示内容项特征之间越不接近,换句话说,第二距离参数是以样本内容项的内容项特征来表示样本内容项之间的相似程度的。
204、服务器基于该多个样本内容项的第一距离参数和该多个样本内容项的第二距离参数之间的第一差异信息,对该特征量化模型进行训练。
由于第一距离参数是基于量化特征确定的,而第二距离参数是基于内容项特征确定的,相较于量化特征,内容项特征能够更加准确地反映样本内容项的特性,因此第二距离参数所指示距离的准确性要高于第一距离参数所指示距离的准确性。在训练该特征量化模型时,以第二距离参数为监督,基于第一距离参数和第二距离参数对该特征量化模型进行训练,使得该特征量化模型输出的量化特征更加贴近对应的样本内容项。
通过本申请实施例提供的技术方案,将内容项特征输特征量化模型,通过特征量化模型对内容项特征进行量化,得到样本内容项的量化特征,其中,对内容项特征进行量化的过程也即是对内容项特征进行离散化的过程。对内容项特征进行量化之后,多个样本内容项可能对应于同一个量化特征,以量化特征作为召回时的索引能够提高召回的效率。另外,由于量化过程中可能存在丢失内容项特征中的信息的情况,因此在训练特征量化模型时,以基于内容项特征确定的第二距离参数作为监督,使得通过量化特征确定的第一距离参数尽可能与第二距离参数接近,提高特征量化模型输出的量化特征的准确性。实现在保证召回准确性的前提下,提高内容项的召回效率。
需要说明的是,上述步骤201-204是对本申请实施例提供的技术方案的简单说明,下面将结合一些例子,对本申请实施例提供的技术方案进行更加详细的说明,参见图3,本申请实施例提供的技术方案可以由终端或服务器执行,也可以由终端和服务器共同执行,在本申请实施例中,以技术方案由终端和服务器共同执行为例进行说明,方法包括下述步骤。
301、服务器获取多个样本内容项的内容项特征。
其中,内容项特征也被称为浮点特征或者浮点embedding(嵌入向量)。
在一种可能的实施方式中,服务器将该多个样本内容项属于特征提取模型,通过该特征提取模型对该多个样本内容项进行特征提取,得到该多个样本内容项的内容项特征。
其中,内容项为图像、音频、文本以及图文信息中的任一项。在内容项为图像的情况下,该特征提取模型为图像特征提取模型,该内容项特征为图像特征;在内容项为音频的情况下,该特征提取模型为音频特征提取模型,该内容项特征为音频特征;在内容项为文本的情况下,该特征提取模型为文本特征提取模型,该内容项特征为文本特征。
在这种实施方式下,通过特征提取模型对多个样本内容项进行特征提取,得到该多个样本内容项的内容项特征,从而实现对该多个样本内容项的抽象表达,提高后续的运算效率。
为了对上述实施方式进行说明,下面通过四个例子对上述实施方式进行说明。
例1、服务器将该多个样本内容项输入特征提取模型,通过该特征提取模型对该多个样本内容项进行卷积和池化,得到该多个样本内容项的内容项特征。
举例来说,服务器将该多个样本内容项输入特征提取模型,通过该特征提取模型的卷积层,对该多个样本内容项进行卷积,得到该多个样本内容项的特征图。服务器通过该特征提取模型的池化层,对该多个样本内容项的特征图进行最大池化或者平均池化中的任一项,得到该多个样本内容项的内容项特征。在一些实施例中,服务器以矩阵的形式来表示样本内容项,以向量的形式来表示内容项特征,在对样本内容项进行卷积的过程中,采用卷积核在样本内容项上进行滑动的方式来实现。
在一些实施例中,该特征提取模型为基于卷积神经网络(Convolutional NeuralNetworks,CNN)的特征提取器,比如为采用大规模开源数据集imagenet(图网)上预训练的神经网络Resnet-101(残差网络101),该神经网络Resnet101的结构参见表1。该神经网络Resnet-101的池化(Pooling)层的输出结果为内容项特征,其中,101为模型的层数,该内容项特征为一个1×2048的向量。
表1
Figure 535137DEST_PATH_IMAGE001
其中,Layer name为特征提取模型ResNet-101中各个层的名称,Output size为输出的尺寸,max pool指最大值池化,stride为步长,blocks为层,一层可能包括多个卷积核,Conv为卷积层,Pool为池化层,Max pool为最大值池化。
需要说明的是,上述是以特征提取模型为ResNet-101为例进行说明的,在其他可能的实施方式中,该特征提取模型还可以为其他结构,本申请实施例对此不做限定。
另外,上述特征提取过程是基于卷积来实现的,得到的内容项特征用于表达样本内容项的深度特征,这样的内容项特征也被称为样本内容项的底层特征。在其他可能的实施方式中,该特征提取模型还能够提取样本内容项的语义特征,得到的内容项特征能够反映样本内容项的语义,下面对服务器通过该特征提取模型来提取样本内容项的语义特征的方法进行说明。
例2、服务器将该多个样本内容项输入特征提取模型,通过特征提取模型,基于注意力机制对该多个样本内容项进行编码,得到该多个样本内容项的内容项特征,其中,通过该特征提取模型获取的内容项特征也即是对应内容项的语义特征。在这种实施方式下,该特征提取模型为语义特征编码器,比如为Transformer编码器。
对于该多个样本内容项中的任一样本内容项,服务器将该样本内容项输入该特征提取模型,通过该特征提取模型,对该样本内容项的多个部分进行嵌入编码,得到多个嵌入向量,一个嵌入向量对应于该样本内容项的一个部分,嵌入向量用于表示各个部分在该样本内容项中的位置以及各个部分的内容。服务器将多个嵌入向量输入特征提取模型,通过特征提取模型的三个线性变换矩阵,对多个嵌入向量进行线性变换,得到该样本内容项的每个部分对应的查询(Query)向量、键(Key)向量以及值(Value)向量。服务器通过特征提取模型,基于该样本内容项的多个部分对应的查询向量以及键向量,获取样本内容项的多个部分的注意力权重。服务器通过特征提取模型,基于该样本内容项的各个部分的注意力权重和该样本内容项的各个部分的值向量,获取该样本内容项的注意力编码向量,注意力编码向量也即是样本内容项的内容项特征。
比如,服务器通过特征提取模型,将每个嵌入向量分别与三个线性变换矩阵相乘,得到该样本内容项的每个部分分别对应的查询向量、键向量以及值向量。对于该样本内容项的多个部分中的第一个部分,服务器通过特征提取模型,基于第一个部分的查询向量,与该样本内容项的多个其他部分的键向量,确定多个其他部分对第一个部分之间的多个注意力权重,其中,该样本内容项的多个部分与该样本内容项的类型相关,在该样本内容项为图像的情况下,该多个部分为该图像上的不同图像块;在该样本内容项为音频的情况下,该多个部分为该音频的不同段落;在该样本内容项为文本的情况下,该多个部分为该文本的不同语句。服务器通过特征提取模型,将多个其他部分对第一个部分的注意力权重,与多个其他部分的值向量进行加权求和,得到该第一个部分的注意力编码向量。上述是以服务器通过该特征提取模型,对该样本内容项的第一个部分进行编码,得到该第一个部分的注意力编码向量为例进行说明的,服务器对该样本内容项的其他部分进行编码的方式与上述对该第一个部分进行编码的方法属于同一发明构思,实现过程参见上述描述,在此不再赘述。
上述例1和例2分别以该特征提取模型提取内容项的底层特征以及语义特征为例进行说明的,在其他可能的实施方式中,服务器还能够通过该特征提取模型同时获取内容项的底层特征以及语义特征,下面通过例3进行说明。
例3、服务器将该多个样本内容项输入特征提取模型,通过特征提取模型对多个样本内容项进行卷积和池化,得到多个样本内容项的底层特征。服务器通过该特征提取模型,基于注意力机制对该多个样本内容项进行编码,得到该多个样本内容项的语义特征。服务器将该多个样本内容项的底层特征和语义特征进行融合,得到该多个样本内容项的内容项特征。
举例来说,该特征提取模型包括第一子模型和第二子模型,该第一子模型用于提取内容项的底层特征,该第二子模型用于提取内容项的语义特征。服务器将该多个样本内容项输入特征提取模型之后,通过该第一子模型来获取该多个样本内容项的底层特征,通过第二子模型来获取该多个样本内容项的语义特征。服务器将该多个样本内容项的底层特征和语义特征进行融合时,可以采用加权求和的方式,加权求和的权重由技术人员根据实际情况进行设置,比如设置为0.3、0.5或者0.8等,本申请实施例对此不做限定。服务器通过该第一子模型和该第二子模型获取内容项的底层特征和语义特征的方法分别与上述例1和例2同理,实现过程在此不再赘述。
例4、服务器将该多个样本内容项输入特征提取模型,通过该特征提取模型对该多个样本内容项进行全连接和池化,得到该多个样本内容项的内容项特征。
举例来说,服务器将该多个样本内容项输入特征提取模型,通过该特征提取模型的至少一个全连接层,对该多个样本内容项进行全连接,得到该多个样本内容项的全连接特征。服务器通过该特征提取模型的池化层,对该多个样本内容项的全连接特征进行最大池化或者平均池化中的任一项,得到该多个样本内容项的内容项特征,该内容项特征也被称为深度特征或者底层特征。在一些实施例中,服务器以矩阵的形式来表示样本内容项,以向量的形式来表示内容项特征,在对样本内容项进行全连接的过程中,采用将全连接矩阵与样本内容项的矩阵进行相乘的方式来实现。在一些实施例中,该特征提取模型为基于深度神经网络(Deep Neural Networks,DNN)的特征提取器。
需要说明的是,上述是以特征提取模型提取内容项的底层特征和语义特征为例进行说明的,随着科学技术的发展,服务器还能够采用其他结构的特征提取模型来获取内容项特征,本申请实施例对此不做限定。
在介绍完服务器通过该特征提取模型提取样本内容项的内容项特征之后,为了对上述实施方式进行更加清楚的说明,下面对该特征提取模型的训练方法进行说明。
在一种可能的实施方式中,服务器获取多个三元组,每个三元组包括一个样本内容项、该样本内容项的正样本内容项以及该样本内容项的负样本内容项,其中,该样本内容项的正样本内容项为与该样本内容项之间的相似度符合第一相似度条件,该样本内容项的负样本内容项与该样本内容项之间的相似度不符合该第一相似度条件。换句话说,该正样本内容项为与该样本内容项相似度较高的内容项,该负样本内容项为与该样本内容项相似度较低的内容项。对于该多个三元组中的任一三元组,服务器将该三元组输入该特征提取模型,也即是将该三元组中的样本内容项、该样本内容项的正样本内容项以及该样本内容项的负样本内容项输入该特征提取模型。服务器通过该特征提取模型,提取该样本内容项的内容项特征、该正样本内容项的内容项特征以及该负样本内容项的内容项特征。服务器基于该样本内容项的内容项特征与该正样本内容项的内容项特征之间的差异信息,以及该样本内容项的内容项特征与该负样本内容项的内容项特征之间的差异信息,对该特征提取模型进行训练。服务器采用该多个三元组对该特征提取模型进行多轮训练,每轮训练的训练方式与上述描述属于同一发明构思,具体过程在此不再赘述。
对该特征提取模型进行训练的目的是使得该特征提取模型输出的该样本内容项的内容项特征与该正样本内容项的内容项特征之间的差异信息尽可能的小,该样本内容项的内容项特征与该负样本内容项的内容项特征之间的差异信息尽可能的大,从而提高该特征提取模型的特征提取能力。
在一些实施例中,服务器将该三元组中的样本内容项、该样本内容项的正样本内容项以及该样本内容项的负样本内容项输入该特征提取模型。服务器通过该特征提取模型,提取该样本内容项的内容项特征、该正样本内容项的内容项特征以及该负样本内容项的内容项特征。服务器对该样本内容项的内容项特征、该正样本内容项的内容项特征以及该负样本内容项的内容项特征进行归一化,得到该样本内容项的归一化特征、该正样本内容项的归一化特征以及该负样本内容项的归一化特征。服务器基于该样本内容项的归一化特征与该正样本内容项的归一化特征之间的差异信息,以及该样本内容项的归一化特征与该负样本内容项的归一化特征之间的差异信息构建损失函数。服务器采用梯度下降法,基于该损失函数对该特征提取模型进行训练。比如,服务器能够通过下述公式(1)所示的损失函数来对该特征提取模型进行训练。在一些实施例中,服务器采用L2(二范数)正则化的方法对内容项特征进行归一化。通过对内容项特征进行归一化,能够缩小内容项特征的取值范围,提高特征提取模型的收敛速度。
Figure 311332DEST_PATH_IMAGE002
(1)
其中,
Figure 559911DEST_PATH_IMAGE003
为损失函数,
Figure 797863DEST_PATH_IMAGE004
为取最大值的函数,
Figure 408973DEST_PATH_IMAGE005
为该样本内容项的内容项 特征,
Figure 965856DEST_PATH_IMAGE006
为该样本内容项的正样本内容项的内容项特征,
Figure 311518DEST_PATH_IMAGE007
为该样本内容项的负样本内 容项的内容项特征,
Figure 979260DEST_PATH_IMAGE008
为边缘参数(margin)或者叫距离阈值,用于调整正样本内容项的 内容项特征与负样本内容项的内容项特征之间的距离。
需要说明的是,上述步骤301为可选步骤,既可以是服务器提前执行的,也可以是服务器在执行本申请实施例提供的技术方案时执行的,本申请实施例对此不做限定。
302、服务器将多个样本内容项的内容项特征输入特征量化模型,通过该特征量化模型对该多个样本内容项的内容项特征进行量化,输出该多个样本内容项的量化特征,该量化特征为召回内容项时的索引。
其中,特征量化模型用于对输入的内容项特征进行量化,量化也被称为离散化,是将连续的内容项特征变为离散的量化特征的过程。相较于内容项特征,量化特征携带的信息更少,相应地,基于量化特征的运算速度比基于内容项特征的运算速度更快,采用量化特征作为召回内容项时的索引,能够提高召回内容项的速度。在一些实施例中,量化特征二值编码。上述量化过程也被称为哈希量化或者二值量化。
在一种可能的实施方式中,服务器将多个样本内容项的内容项特征输入特征量化模型,通过该特征量化模型对该多个样本内容项的内容项特征进行至少一次全连接,得到该多个样本内容项的初始量化特征。服务器通过该特征量化模型,基于该初始量化特征中数值的符号对该多个样本内容项的初始量化特征进行符号量化,输出该多个样本内容项的量化特征。
其中,初始量化特征中数值的符号包括正和负两种,符号量化的目的是基于初始量化特征中数值的正负将该初始量化特征中的数值映射到第一数值或者第二数值,第一数值为正号对应的数值,第二数值为符号对应的数值。
在这种实施方式下,服务器通过特征对内容项特征进行全连接和符号量化,将内容项特征映射为量化特征。在映射过程中,通过全连接来调整内容项特征的维度,使得该特征提取模型能够基于初始量化特征进行进一步处理,效率较高。
以服务器对该多个样本内容项中任一样本内容项的内容项特征进行处理为例,服务器将该样本内容项的内容项特征向量输入特征量化模型,通过该特征量化模型的至少两个全连接层对该样本内容项的内容项特征向量进行处理,得到该样本内容项的初始量化特征。其中,该特征量化模型的至少两个全连接层属于第一类全连接层和第二类全连接层,第一类全连接层也被称为特征学习层,或者叫Embedding学习层,第二类全连接层也被称为量化层,或者叫量化分支。在一些实施例中,通过该特征量化模型的至少两个全连接层对该样本内容项的内容项特征向量进行处理的过程,也即是通过该至少两个全连接层的全连接矩阵与该样本内容项的内容项特征向量相乘,得到该样本内容项的初始量化特征的过程。服务器通过该特征量化模型,基于该样本内容项的初始量化特征中数值的符号对该样本内容项的初始量化特征进行符号量化,得到该样本内容项的量化特征。在一些实施中,对于该样本内容项的初始量化特征中的任一数值,在该数值的符号为正号的情况下,服务器将该数值映射为第一数值;在该数值的符号为负号的情况下,服务器将该数值映射为第二数值。通过对该样本内容项的初始量化特征中的多个数值进行符号量化,得到该样本内容项的量化特征。
以该特征量化模型包括两个全连接矩阵为例,第一个全连接矩阵属于第一类全连接层,用于对内容项特征进行进一步地特征提取,得到内容项特征的特征。第二个全连接矩阵属于第二类全连接层,用于将内容项特征的特征映射为初始量化特征。通过第一个全连接矩阵,能够对内容项特征的维度进行调整,使得该特征提取模型能够基于维度调整后的初始量化特征进行进一步地处理。比如,参见下述表2和表3,表2示出了第一个全连接层的结构,表3示出了第二个全连接层的结构。服务器通过该特征量化模型的目标关系数据,对该样本内容项的初始量化特征进行处理,得到该样本内容项的量化特征,其中,目标函数为基于初始量化特征中数值的符号将该初始量化特征映射为量化特征的函数。在一些实施例中,该目标关系数据为下述公式(2),在该初始量化特征中任一数值的符号为正号的情况下,将数值映射为1;在该初始量化特征中任一数值的符号为负号的情况下,将数值映射为-1。比如,对于初始量化特征为(-1,1,0.5,-0.03),通过该目标关系数据对初始量化特征为(-1,1,0.5,-0.03)进行处理之后,得到量化特征(-1,1,1,-1)。从上述举例可以看出,经过量化之后,初始量化特征由浮点特征变成了离散的量化特征,该量化特征只包括1和-1两个数字,这个量化过程也被称为二值化特征,在一些实施例中,该量化过程也被称为哈希量化。在一些实施例中,第一类全连接层输出的特征维度小于量化特征的维度,这是由于第一类全连接层输出的特征的每一位为float浮点数(32bit),而量化特征的每一位为-1或1的数值(占用1个bit),将第一类全连接层输出的特征的维度设置为低于量化特征的维度,能够减少第一类全连接层输出的特征占用的存储空间。比如,在表2和表3中,第一类全连接层输出的特征的尺寸为1×64,第二类全连接层输出的特征的尺寸为1×256。
表2
Layer name Output size Layer
Embedding 1×64 full connection
其中,Layer name为全连接层的名称,Embedding表示第一类全连接层,也即是Embedding学习层。
表3
Layer name Output size Layer
Quantization 1×256 full connection
其中,Quantization表示第二类全连接层,也即是量化层或者量化分支,fullconnection为全连接。
需要说明的是,上述是以该特征量化模型包括两个全连接矩阵为例进行说明,在其他可能的实施方式中,该特征量化模型还可以包括更多的全连接层,本申请实施例对此不做限定。
303、服务器基于该多个样本内容项的量化特征,确定该多个样本内容项的第一距离参数,该样本内容项的第一距离参数用于表示该样本内容项的量化特征与其他样本内容项的量化特征与之间的距离。
其中,量化特征之间的距离用于表示量化特征之间的接近程度,在一些实施例中,量化特征之间的距离越小,表示量化特征之间越接近。量化特征之间的距离越大,表示量化特征之间越不接近,换句话说,第一距离参数是以样本内容项的量化特征来表示样本内容项之间的相似程度的。
在一种可能的实施方式中,对于该多个样本内容项中的第一样本内容项,服务器基于该第一样本内容项的量化特征与该多个样本内容项中的多个第二样本内容项的量化特征,确定该第一样本内容项的量化特征与该多个第二样本内容项的量化特征之间的第一距离。服务器基于第一样本内容项的量化特征与该多个第二样本内容项的量化特征之间的第一距离,确定该第一样本内容项的第一距离参数。
其中,该多个第二样本内容项均与该第一样本内容项不同。
为了对上述实施方式进行更加清楚的说明,下面通过两个部分对上述实施方式进行说明。
部分A1、服务器基于该第一样本内容项的量化特征与该多个样本内容项中的多个第二样本内容项的量化特征,确定该第一样本内容项的量化特征与该多个第二样本内容项的量化特征之间的第一距离。
在一种可能的实施方式中,对于该多个第二样本内容项中的任一第二样本内容项,服务器比较该第一样本内容项的量化特征与该第二样本内容项的量化特征,将该第一样本内容项的量化特征中的多个数值与该第二样本内容项的量化特征中的多个数值之间的数值差异确定为该第一样本内容项的量化特征与该第二样本内容项的量化特征之间的第一距离,在这种实施方式下,该第一距离也被称为汉明距离。
其中,数值差异为量化特征中对应位置数值不同的个数。比如,以该第一样本内容项的量化特征为(1,0,0,0),该第二样本内容项的量化特征为(0,0,1,1)为例,服务器比较量化特征(1,0,0,0)与量化特征(0,0,1,1)中相同位置的数值,得到量化特征(1,0,0,0)与量化特征(0,0,1,1)中对应位置数据不同的个数。其中,量化特征(1,0,0,0)中第一个数值为1,量化特征(0,0,1,1)中第一个数值为0,数值差异+1。量化特征(1,0,0,0)中第二个数值为0,量化特征(0,0,1,1)中第二个数值也为0,数值差异不变。量化特征(1,0,0,0)中第三个数值为0,量化特征(0,0,1,1)中第三个数值为1,数值差异+1。量化特征(1,0,0,0)中第四个数值为0,量化特征(0,0,1,1)中第四个数值为1,数值差异+1。最终得到量化特征(1,0,0,0)与量化特征(0,0,1,1)之间的数值差异为3,也即是第一距离为3。
在一种可能的实施方式中,对于该多个第二样本内容项中的任一第二样本内容项,服务器确定该第一样本内容项的量化特征与该第二样本内容项的量化特征之间的相似度。服务器基于该第一样本内容项的量化特征与该第二样本内容项的量化特征之间的相似度,确定该第一样本内容项的量化特征与该第二样本内容项的量化特征之间的第一距离。
其中,在该相似度为余弦相似度或者欧式距离的情况下,服务器将该第一样本内容项的量化特征与该第二样本内容项的量化特征之间的相似度确定为该第一距离;在该相似度为余弦距离的情况下,服务器将相似度的倒数确定为该第一距离,以保证第一距离越小,两个量化特征之间越接近;第一距离越大,两个量化特征之间的越不接近。
部分A2、服务器基于第一样本内容项的量化特征与该多个第二样本内容项的量化特征之间的第一距离,确定该第一样本内容项的第一距离参数。
在一种可能的实施方式中,服务器基于第一样本内容项的量化特征与该多个第二样本内容项的量化特征之间的第一距离,对该多个第二样本内容项的标识进行排序。服务器将排序后的该多个第二样本内容项的标识确定为该第一样本内容项的第一距离参数。
举例来说,在第一距离与量化特征之间的接近程度负相关的情况下,服务器按照第一距离从小至大的顺序对该多个第二样本内容项进行排序,得到排序后的多个第二样本内容项。服务器将该排序后的多个第二样本内容项的标识填充到空白列表中,得到第一列表,该第一列表中标识的排列顺序与该排序后的多个第二样本内容项的顺序相同,该第一列表也即是该第一样本内容项的第一距离参数。比如,对于第一样本内容项以及三个第二样本内容项,为了便于区分,将第一样本内容项简称为样本内容项i,将三个第二样本内容项分别简称为样本内容项Rb1、样本内容项Rb2以及样本内容项Rb3。服务器确定样本内容项i与样本内容项Rb1、样本内容项Rb2以及样本内容项Rb3之间的第一距离。在样本内容项i与样本内容项Rb1之间的第一距离为1,样本内容项i与样本内容项Rb2之间的第一距离为2,样本内容项i与样本内容项Rb3之间的第一距离为3的情况下,服务器基于第一距离对该样本内容项Rb1、样本内容项Rb2以及样本内容项Rb3进行排序,得到排序后的样本内容项Rb3、样本内容项Rb2以及样本内容项Rb1。服务器将该排序后的三个第二样本内容项的标识填充到空白列表中,得到第一列表Rb=[Rb3,Rb2,Rb1],该第一列表[Rb3,Rb2,Rb1]中标识的排列顺序与样本内容项Rb3、样本内容项Rb2以及样本内容项Rb1相同,也就是第一列表中越靠前的标识对应的第二样本内容项的量化特征,与该第一样本内容项的量化特征越接近,该第一列表也即是该第一样本内容项的第一距离参数。
需要说明的是,上述是以服务器确定第一样本内容项的第一距离参数为例进行说明的,在确定该多个第一样本内容项中其他样本内容项的第一距离参数时,确定过程与上述描述属于同一发明构思,确定过程不再赘述。
304、服务器基于该多个样本内容项的内容项特征,确定该多个样本内容项的第二距离参数,该样本内容项的第二距离参数用于表示该样本内容项的内容项特征与该其他样本内容项的内容项特征之间的距离。
其中,内容项特征之间的距离用于表示内容项特征之间的接近程度,在一些实施例中,内容项特征之间的距离越小,表示内容项特征之间越接近。内容项特征之间的距离越大,表示内容项特征之间越不接近,换句话说,第二距离参数是以样本内容项的内容项特征来表示样本内容项之间的相似程度的。
在一种可能的实施方式中,对于该多个样本内容项中的第一样本内容项,服务器基于该第一样本内容项的内容项特征与该多个样本内容项中的多个第二样本内容项的内容项特征,确定该第一样本内容项的内容项特征与该多个第二样本内容项的内容项特征之间的第二距离。服务器基于该第一样本内容项的内容项特征与该多个第二样本内容项的内容项特征之间的第二距离,确定该第一样本内容项的第二距离参数。
为了对上述实施方式进行更加清楚的说明,下面通过两个部分对上述实施方式进行说明。
部分B1、服务器基于该第一样本内容项的内容项特征与该多个样本内容项中的多个第二样本内容项的内容项特征,确定该第一样本内容项的内容项特征与该多个第二样本内容项的内容项特征之间的第二距离。
在一种可能的实施方式中,对于该多个第二样本内容项中的任一第二样本内容项,服务器确定该第一样本内容项的内容项特征与该第二样本内容项的内容项特征之间的相似度。服务器基于该第一样本内容项的内容项特征与该第二样本内容项的内容项特征之间的相似度,确定该第一样本内容项的内容项特征与该第二样本内容项的内容项特征之间的第二距离。
其中,在该相似度为余弦相似度或者欧式距离的情况下,服务器将该第一样本内容项的内容项特征与该第二样本内容项的内容项特征之间的相似度确定为该第二距离;在该相似度为余弦距离的情况下,服务器将相似度的倒数确定为该第二距离,以保证第二距离越小,两个内容项特征之间越接近;第二距离越大,两个内容项特征之间的越不接近。
部分B2、服务器基于该第一样本内容项的内容项特征与该多个第二样本内容项的内容项特征之间的第二距离,确定该第一样本内容项的第二距离参数。
在一种可能的实施方式中,服务器基于第一样本内容项的内容项特征与该多个第二样本内容项的内容项特征之间的第二距离,对该多个第二样本内容项的标识进行排序。服务器将排序后的该多个第二样本内容项的标识确定为该第一样本内容项的第二距离参数。
举例来说,在第二距离与内容项特征之间的接近程度负相关的情况下,服务器按照第二距离从小至大的顺序对该多个第二样本内容项进行排序,得到排序后的多个第二样本内容项。服务器将该排序后的多个第二样本内容项的标识填充到空白列表中,得到第二列表,该第二列表中标识的排列顺序与该排序后的多个第二样本内容项的顺序相同,该第二列表也即是该第一样本内容项的第二距离参数。比如,对于第一样本内容项以及三个第二样本内容项,为了便于区分,将第一样本内容项简称为样本内容项i,将三个第二样本内容项分别简称为样本内容项Rk1、样本内容项Rk2以及样本内容项Rk3。服务器确定样本内容项i与样本内容项Rk1、样本内容项Rk2以及样本内容项Rk3之间的第二距离。在样本内容项i与样本内容项Rk1之间的第二距离为1,样本内容项i与样本内容项Rk2之间的第二距离为2,样本内容项i与样本内容项Rk3之间的第二距离为3的情况下,服务器基于第二距离对该样本内容项Rk1、样本内容项Rk2以及样本内容项Rk3进行排序,得到排序后的样本内容项Rk3、样本内容项Rk2以及样本内容项Rk1。服务器将该排序后的三个第二样本内容项的标识填充到空白列表中,得到第二列表Rk=[Rk3,Rk2,Rk1],该第二列表[Rk3,Rk2,Rk1]中标识的排列顺序与样本内容项Rk3、样本内容项Rk2以及样本内容项Rk1相同,也就是第二列表中越靠前的标识对应的第二样本内容项的内容项特征,与该第一样本内容项的内容项特征越接近,该第二列表也即是该第一样本内容项的第二距离参数。
需要说明的是,上述是以服务器确定第一样本内容项的第二距离参数为例进行说明的,在确定该多个第一样本内容项中其他样本内容项的第二距离参数时,确定过程与上述描述属于同一发明构思,确定过程不再赘述。
对于第一样本内容项来说,相较于量化特征,内容项特征能够更加准确地反映该第一内容项的特性,在此基础上,基于内容项特征确定的第二距离参数的准确性要高于基于量化特征确定的第一距离参数,在后续对特征量化模型进行训练的过程中,目标之一就是使得特征量化模型输出的量化特征在排序时尽可能接近采用内容项特征进行排序的结果。在后续训练过程中,以第二距离参数为监督来进行。
305、服务器基于该多个样本内容项的第一距离参数和该多个样本内容项的第二距离参数之间的第一差异信息,对该特征量化模型进行训练。
在一种可能的实施方式中,对于该多个样本内容项中的第一样本内容项,服务器确定该第一样本内容项的第一距离参数和第二距离参数之间的第一差异信息。服务器基于该第一样本内容项的第一距离参数和第二距离参数之间的第一差异信息,对该特征量化模型进行训练。
在这种实施方式下,服务器能够以第二距离参数为监督,基于第一距离参数和第二距离参数之间的第一差异信息对该特征量化模型进行训练,使得该特征量化模型学习到该第二距离参数中的信息,提高输出的量化特征的准确性。
在上述实施方式中,是以服务器基于多个样本内容项中的第一样本内容项的第一差异信息对该特征量化模型进行训练为例进行说明的,基于该第一样本内容项的第一差异信息对该特征量化模型进行训练的过程也即是一次迭代过程,服务器通过多次迭代过程来训练该特征量化模型,其他迭代过程中的训练过程与基于该次迭代过程属于同一发明构思,实现过程不再赘述。
举例来说,服务器将该第一样本内容项的第一距离参数和第二距离参数代入第一损失函数,得到该第一样本内容项的第一损失值。服务器采用梯度下降法,基于该第一损失值对该特征量化模型进行训练。
除了上述实施方式之外,本申请实施例还提供了下述多种方式对该特征量化模型进行训练,下面分别进行说明。
方式1、服务器对该多个样本内容项的初始量化特征进行量化,得到该多个样本内容项的目标量化特征。服务器基于该多个样本内容项的初始量化特征与目标量化特征之间的第二差异信息,对该特征量化模型进行训练。
其中,初始量化特征为上述步骤302中描述的初始量化特征,目标量化特征为标准化的量化特征。基于初始量化特征与目标量化特征之间的差异信息对该特征量化模型进行训练的目的是使得该特征量化模型输出的初始量化特征与对应的目标量化特征尽可能的接近,以提高该特征量化模型对内容项特征进行量化的准确性。
举例来说,服务器基于目标量化函数对该多个样本内容项的初始量化特征进行量化,得到该多个样本内容项的目标量化特征,其中,目标量化函数用于根据初始量化特征中数值的符号来对初始量化特征进行量化。服务器将该多个样本内容项的初始量化特征与多个样本内容项的目标量化特征带入第二损失函数,通过该第二损失函数对该特征量化模型进行训练。在通过该第二损失函数对该特征量化模型进行训练时,目标是使得该特征量化模型输出的初始量化特征与目标量化特征之间的L2距离变小,这种训练方式也被称为回归(regression)的训练方式。比如,该目标量化函数为sgn(越阶)函数,sign函数的形式参见下述公式(2),通过sgn函数,能够将浮点数转化为仅包括-1和1的二值数,该第二损失函数的形式参见下述公式(3),在一些实施例中,该第二损失函数也被称为符号量化损失(L-quantization)函数。
Figure 241614DEST_PATH_IMAGE009
(2)
其中,
Figure 703819DEST_PATH_IMAGE010
为初始量化特征
Figure 303821DEST_PATH_IMAGE011
中的第
Figure 775254DEST_PATH_IMAGE012
个数值,
Figure 892115DEST_PATH_IMAGE013
为目标量化特征
Figure 869429DEST_PATH_IMAGE014
的第
Figure 579896DEST_PATH_IMAGE015
个数 值。
Figure 448495DEST_PATH_IMAGE016
(3)
其中,
Figure 560807DEST_PATH_IMAGE017
为该第二损失函数,
Figure 738717DEST_PATH_IMAGE018
为初始量化特征中数值的数量,
Figure 936480DEST_PATH_IMAGE018
为 正整数。采用
Figure 608770DEST_PATH_IMAGE019
对该特征量化模型进行训练时,训练目的是使得该特征量化模 型输出的初始量化特征中数值要么非常接近于1,要么非常接近于-1,便于后续的符号量化 过程。
方式2、该多个样本内容项包括第一样本内容项、该第一样本内容项的正样本内容项以及该第一样本内容项的负样本内容项。服务器基于该第一样本内容项的量化特征、该正样本内容项的量化特征以及该负样本内容项的量化特征,确定第三差异信息和第四差异信息,该第三差异信息为该第一样本内容项的量化特征与该正样本内容项的量化特征之间的差异信息,该第四差异信息为该第一样本内容项的量化特征与该负样本内容项的量化特征之间的差异信息,该正样本内容项与该第一样本内容项之间的相似度符合第一相似度条件,该负样本内容项与该第一样本内容项之间的相似度不符合该第一相似度条件。服务器基于该第三差异信息和该第四差异信息,对该特征量化模型进行训练。
其中,该正样本内容项与该第一样本内容项之间的相似度符合第一相似度条件为,该正样本内容项与该第一内容项之间的相似度大于或等于第一相似度阈值;相应地,该负样本内容项与该第一样本内容项之间的相似度不符合第一相似度条件为,该负样本内容项与该第一内容项之间的相似度小于第一相似度阈值,其中,第一相似度阈值由技术人员根据实际情况进行设置,本申请实施例对此不做限定。该第一样本内容项的量化特征与该正样本内容项的量化特征之间的差异信息为该第一样本内容项的量化特征与该正样本内容项的量化特征之间的汉明距离。该第一样本内容项的量化特征与该负样本内容项的量化特征之间的差异信息为该第一样本内容项的量化特征与该负样本内容项的量化特征之间的汉明距离。该第一样本内容项、该第一样本内容项的正样本内容项以及该第一样本内容项的负样本内容项被称为一个三元组。
为了对上述实施方式进行更加清楚的说明,下面对服务器获取该第一样本内容项的正样本内容项和负样本内容项的方法进行说明。
在一种可能的实施方式中,服务器获取该多个样本内容项的内容项特征。对于该第一样本内容项,服务器确定该第一样本内容项的内容项特征与该多个样本内容项中其他样本内容项的内容项特征之间的相似度。服务器将内容项特征与该第一样本内容项的内容项特征之间的相似度符合第一条件的样本内容项,确定为该第一样本内容项的正样本内容项。服务器将内容项特征与该第一样本内容项的内容项特征之间的相似度符合第二条件的样本内容项,确定为该第一样本内容项的负样本内容项。其中,服务器获取多个样本内容项的内容项特征的方法参见上述步骤301的相关描述,在此不再赘述。在一些实施例中,相似度符合第一条件为相似度是其他样本内容项中最高的,相似度符合第二条件为相似度是其他样本内容项中最低的。
在一种可能的实施方式中,服务器基于多个内容项对来确定该第一样本内容项的负样本内容项,该内容相对包括样本内容项以及该样本内容项的正样本内容项。举例来说,对于该第一样本内容项,服务器从该多个内容项对中随机获取多个参考内容项,获取方式为从每个内容项对中随机抽取一个内容项。服务器确定该第一样本内容项的内容项特征与该多个参考内容项的内容项特征之间的相似度。服务器按照相似度从大至小的顺序对该多个参考内容项进行排序,将排序后的该多个参考内容项中后N个作为该第一样本内容项的负样本内容项,N为正整数。
在一些实施例中,将排序后的该多个参考内容项中后N个作为该第一样本内容项的负样本内容项之前,服务器还能够将排序后的该多个参考内容项中前K%的参考内容项删除,得到删除后的多个参考内容项,K为自然数,K是可控值,训练集中噪声越大,K越大。将删除后的该多个参考内容项中后N个作为该第一样本内容项的负样本内容项。
在对服务器获取该第一样本内容项的正样本内容项和负样本内容项的方法进行说明之后,下面通过两个部分对上述实施方式进行说明。
部分C1、服务器基于该第一样本内容项的量化特征、该正样本内容项的量化特征以及该负样本内容项的量化特征,确定第三差异信息和第四差异信息。
在一种可能的实施方式中,服务器对该第一样本内容项的量化特征、该正样本内容项的量化特征以及该负样本内容项的量化特征进行归一化,得到该第一样本内容项的归一化特征、该正样本内容项的归一化特征以及该负样本内容项的归一化特征。服务器将该第一样本内容项的归一化特征与该正样本内容项的归一化特征之间的差异信息确定为该第三差异信息。服务器将该第一样本内容项的归一化特征与该负样本内容项的归一化特征之间的差异信息确定为该第四差异信息。
在一些实施例中,该第一样本内容项的归一化特征与该正样本内容项的归一化特征之间的差异信息为该第一样本内容项的归一化特征与该正样本内容项的归一化特征之间的汉明距离。该第一样本内容项的归一化特征与该负样本内容项的归一化特征之间的差异信息为该第一样本内容项的归一化特征与该负样本内容项的归一化特征之间的汉明距离。
在这种实施方式下,通过对量化特征进行归一化,能够提高训练该特征量化模型的训练速度。
部分C2、服务器基于该第三差异信息和该第四差异信息,对该特征量化模型进行训练。
在一种可能的实施方式中,服务器基于该第三差异信息与该第四差异信息之间的差值以及距离阈值,对该特征量化模型进行训练,该距离阈值用于指示该特征量化模型调整该正样本内容项的量化特征与该负样本内容项的量化特征之间的距离。在一些实施例中,服务器基于该第三差异信息与该第四差异信息之间的差值以及距离阈值,对该特征量化模型进行训练时,也即是基于该第三差异信息与该第四差异信息之间的差值以及距离阈值构建第三损失函数,基于该第三损失函数对该特征量化模型进行训练,在一些实施例中,该第三损失函数也被称为三元组损失函数。
其中,该距离阈值由技术人员根据实际情况进行设置,比如将该距离阈值margin设置为160。
比如,服务器能够通过下述公式(4)来基于该第三差异信息与该第四差异信息之间的差值以及距离阈值,对该特征量化模型进行训练。
Figure 841168DEST_PATH_IMAGE020
(4)
其中,
Figure 957023DEST_PATH_IMAGE021
为第三损失函数,
Figure 376503DEST_PATH_IMAGE022
为取最大值的函数,
Figure 852483DEST_PATH_IMAGE023
为该第一样本内 容项的量化特征,
Figure 673809DEST_PATH_IMAGE024
为该第一样本内容项的正样本内容项的量化特征,
Figure 665292DEST_PATH_IMAGE025
为该第一样本 内容项的负样本内容项的量化特征,
Figure 368806DEST_PATH_IMAGE026
为距离阈值,用于调整正样本内容项的量化特征与 负样本内容项的量化特征之间的距离。
方式3、该多个样本内容项包括第一样本内容项、第二样本内容项以及第三样本内容项。服务器获取该第一样本内容项的量化特征与该第二样本内容项的量化特征之间的第五差异信息。服务器获取该第一样本内容项的量化特征与该第三样本内容项的量化特征之间的第六差异信息。服务器基于该第五差异信息、该第六差异信息以及该第一样本内容项的第二距离参数,对该特征量化模型进行训练。
在一种可能的实施方式中,服务器获取该第一样本内容项的量化特征与该第二样本内容项的量化特征之间的汉明距离,也即是该第五差异信息。服务器获取该第一样本内容项的量化特征与该第三样本内容项的量化特征之间的汉明距离,也即是该第六差异信息。服务器基于该第五差异信息、该第六差异信息、该第一样本内容项的第二距离参数中该第二样本内容项对应的距离以及该第一样本内容项的第二距离参数中该第三样本内容项对应的距离,对该特征量化模型进行训练。
在一些实施例中,基于该第五差异信息、该第六差异信息、该第一样本内容项的第二距离参数中该第二样本内容项对应的距离以及该第一样本内容项的第二距离参数中该第三样本内容项对应的距离,对该特征量化模型进行训练时,也即是基于该第五差异信息、该第六差异信息、该第一样本内容项的第二距离参数中该第二样本内容项对应的距离以及该第一样本内容项的第二距离参数中该第三样本内容项对应的距离构建第四损失函数,基于该第三损失函数对该特征量化模型进行训练。在一些实施例中,该第四损失函数也被称为排序损失函数。
在一些实施例中,基于该第五差异信息、该第六差异信息、该第一样本内容项的第二距离参数中该第二样本内容项对应的距离以及该第一样本内容项的第二距离参数中该第三样本内容项对应的距离,对该特征量化模型进行训练时,服务器还能够基于该第二样本内容项对应的排序权重和该第三样本内容项对应的排序权重中的至少一项来对训练过程进行约束,其中,该第二样本内容项对应的排序权重与该第二样本内容项在该第一样本内容项的第一距离参数中的位置相关联;该第三样本内容项对应的排序权重与该第三样本内容项在该第一样本内容项的第一距离参数中的位置相关联。在一些实施例中,在该第一样本内容项的第一距离参数中的距离参数越靠前,则排序权重越大。
比如,服务器能够通过下述公式(5)对该特征量化模型进行训练。
Figure 382898DEST_PATH_IMAGE027
(5)
其中,
Figure 324309DEST_PATH_IMAGE028
为该第四损失函数,
Figure 781967DEST_PATH_IMAGE029
为该第二样本内容项排序权重,
Figure 503935DEST_PATH_IMAGE030
Figure 197084DEST_PATH_IMAGE031
为该第二样本内容项在该第一样本内容项的第一距离参数中的位 置,
Figure 366903DEST_PATH_IMAGE032
为该第一样本内容项的量化特征,
Figure 854517DEST_PATH_IMAGE033
为该第二样本内容项的量化特征,
Figure 126098DEST_PATH_IMAGE034
为该第 三样本内容项的量化特征,
Figure 701567DEST_PATH_IMAGE035
为归一化函数,比如为sigmoid(S型生长曲线),
Figure 351991DEST_PATH_IMAGE036
为该 第二样本内容项在该第一样本内容项的第一距离参数中的位置,
Figure 135139DEST_PATH_IMAGE037
为该第三样本内容项 在该第一样本内容项的第一距离参数中的位置,
Figure 503804DEST_PATH_IMAGE038
为确定汉明距离的函数。
下面对上述公式(5)中
Figure 181166DEST_PATH_IMAGE039
的设置原理进行说明。
由于应用中由于更关心排在前面的序(如k=1000,而实际更关心前10,但前1000也需要关注),而对于大量10之后的序产生的损失,若都以相同的权重求和,则大量>10的序将占据更大比重,从而可能产生学习结果不符合预期(即学习的结果不一定能保证前10必须满足排序要求)。故此对于不同的序产生的损失,根据其的重要性取不同的权重。参见图5,随着序的增加,排序权重的数值不断下降。
通过上述实施方式来训练该特征量化模型,使得量化特征与内容项特征表现一致。通过设计的排序损失,使得内容项越相似的样本,量化特征上也更相似,且量化召回的排序结果与内容项特召回的结果更接近。可以使得召回排序更合理(即量化接近的、特征也越接近,故最终排序也更前)。
下面分为不同情况对上述实施方式进行分析,以便于理解该第三种训练方式。
在内容项特征的维度下,当该第一内容项的第二距离参数中该第三样本内容项在 该第一样本内容项的第二距离参数中的位置在该第二样本内容项之前时,存在
Figure 951676DEST_PATH_IMAGE040
,也即是该第二样本内容项的序比该第三样本内容项的序更大,其中,序 用于指示样本内容项在该第一样本内容项的第二距离参数中的位置,序越大,表示样本内 容项在该第一样本内容项的第二距离参数中的位置越靠后。在
Figure 905726DEST_PATH_IMAGE041
为sigmoid函数的情况 下,
Figure 496107DEST_PATH_IMAGE042
,即
Figure 475695DEST_PATH_IMAGE043
,参见图4,示出了sigmoid函 数的形式,sigmoid函数的数值分布:取值范围是0~1:当变量小于0则值小于0.5且变量越 小越接近0,大于0则值大于0.5且变量越大越接近1。
当该第一内容项的第二距离参数中该第三样本内容项在该第一样本内容项的第 二距离参数中的位置在该第二样本内容项之前时,存在第一样本内容项的量化特征与第三 样本内容项的量化特征之间比第一样本内容项的量化特征与第二样本内容项的量化特征 更接近的情况,则
Figure 835133DEST_PATH_IMAGE044
也即是,当该第一内容项的第二距离参数中该第三样本内容项在该第一样本内容 项的第二距离参数中的位置在该第二样本内容项之前,且第一样本内容项的量化特征与第 三样本内容项的量化特征之间比第一样本内容项的量化特征与第二样本内容项的量化特 征更接近的情况下,那么
Figure 225663DEST_PATH_IMAGE045
Figure 303340DEST_PATH_IMAGE046
会同时大于0。当该第一内容项的第二距离参数中该第三样本内容项在该第一样本内容项 的第二距离参数中的位置在该第二样本内容项之后,且第一样本内容项的量化特征与第二 样本内容项的量化特征之间比第一样本内容项的量化特征与第三样本内容项的量化特征 更接近的情况下,那么
Figure 522838DEST_PATH_IMAGE047
Figure 126994DEST_PATH_IMAGE048
会同时小于0。
对于该第一样本内容项的第二距离参数中的序,当序的差异越大(如对于k=100, 第1和2的序相差-1,第1和100的序相差-99,第100和1的序相差99),则经过
Figure 563792DEST_PATH_IMAGE049
后趋近于-0.5(对于第1、100的序为负,此时
Figure 925503DEST_PATH_IMAGE050
Figure 184577DEST_PATH_IMAGE051
,相 减为负;相反对于第100、1的序则趋近于0.5)。
对于量化特征之间的距离,第100序的样本内容项与第一样本内容项的汉明距离, 将远大于第1序的样本内容项与第一样本内容项的汉明距离,此时取l=1,j=100,即
Figure 643240DEST_PATH_IMAGE052
(表示远小于),则
Figure 250939DEST_PATH_IMAGE053
将更接近-0.5,故AB 中的两式左侧是同增长的,所 以在
Figure 769838DEST_PATH_IMAGE054
的学习目标是同增长的值间差异的平方越小(接近0)越好。
需要说明的是,上述是以分别采用上述三种方式对该特征量化模型进行训练为例进行说明,在其他可能的实施方式中,服务器也能够采用上述三种方式中的任两种或者全部三种对该特征量化模型进行训练,在服务器采用全部三种对该特征量化模型进行训练时,上述三种训练方式的融合损失函数的形式参见下述公式(6)。
Figure 488395DEST_PATH_IMAGE055
(6)
其中,
Figure 801565DEST_PATH_IMAGE056
为融合损失函数,
Figure 580165DEST_PATH_IMAGE057
为该第二损失函数,也即是符号量化 损失函数,
Figure 260676DEST_PATH_IMAGE058
为第三损失函数,也即是三元组损失函数,
Figure 782924DEST_PATH_IMAGE059
为该第四损失函数, 也即是排序损失函数,
Figure 216180DEST_PATH_IMAGE060
Figure 165681DEST_PATH_IMAGE061
以及
Figure 504128DEST_PATH_IMAGE062
为权重,由技术人员根据实际情况进行设置,本申 请实施例对此不做限定。
在一些实施例中,基于该融合损失函数
Figure 220280DEST_PATH_IMAGE063
对该特征量化模型进行训练时,可 以将学习率设置为0.0005,每经过10轮迭代学习率变为原来的1/10。
下面结合图6对上述步骤301-305进行说明。
参见图6,在每次迭代(epoch)训练之前,从样本数据集中抽取多个样本内容项。在 基于该多个样本内容项进行训练时,再分为多个批次(batch)进行训练。针对每个批次,获 取多个样本内容项中三元组样本,以第一样本内容项为例,三元组包括该第一样本内容项、 该第一样本内容项的正样本内容项以及该第一样本内容项的负样本内容项。服务器将批次 下剩余样本内容项作为该第一样本内容项的排序样本输入特征提取模型601,通过该特征 提取模型601提取多个样本内容项进行特征提取,得到该多个样本内容项的内容项特征 (embedding)。服务器将该多个样本内容项的内容项特征输入特征量化模型602,通过该特 征量化模型输出该多个样本内容项的量化特征(quantization)。服务器基于该多个样本内 容项的量化特征获取第一距离参数。服务器基于该多个样本内容项的内容项特征获取第二 距离参数。服务器基于第一距离参数、第二距离参数以及多个样本内容项的量化特征构建 排序损失函数
Figure 383408DEST_PATH_IMAGE064
、三元组损失函数
Figure 379177DEST_PATH_IMAGE065
以及符号量化损失函数
Figure 893335DEST_PATH_IMAGE066
。服务器基 于该排序损失函数
Figure 85282DEST_PATH_IMAGE067
、三元组损失函数
Figure 479747DEST_PATH_IMAGE068
以及符号量化损失函数
Figure 36631DEST_PATH_IMAGE069
对该 特征量化模型进行训练。
在通过上述步骤301-305对该特征量化模型训练完毕之后,服务器能够基于训练完毕的该特征量化模型执行下述步骤。
306、服务器将多个内容项的内容项特征输入该训练完毕的特征量化模型,通过该特征量化模型对该多个内容项的内容项特征进行量化,输出该多个内容项的量化特征。
其中,该多个内容项也即是内容项数据库中待查询的内容项。该多个内容项的内容项特征的获取方法与上述步骤301属于同一发明构思,量化特征的获取方法与上述步骤302属于同一发明构思,实现过程不再赘述。
以多个内容项为多个图像,内容项数据库为图像数据库为例,服务器将该多个图像输入特征提取模型,通过该特征提取模型获取该多个图像的图像特征。服务器将该多个图像的图像特征输入特征量化模型,通过该特征量化模型输出该多个图像的量化特征。
由于量化特征为离散特征或者叫二值化特征,那么不同图像可能对应于同一个量化特征,在这种情况下,服务器在存储多个图像的量化特征时,可以基于图像的量化特征进行聚类,将量化特征相同的图像划分为同一个类,同一个类的图像的量化特征也即是聚类中心。在基于查询图像进行查询时,服务器比较该查询图像的量化特征与多个类的聚类中心即可,在该查询图像的量化特征与任一聚类中心之间的相似度符合该第二相似度条件时,将该聚类中心对应的多个图像确定为候选图像即可,一次查询得到多个候选图像,效率较高。
比如,服务器把具有相同量化特征的图像的标识存储在第一检索列表中,对于量化特征q1、q2和q3,服务器建立第一检索列表[q1:[img1,img2,img5],q2:[img3],q3:[img4]],其中,imgL为图像的标识,L为正整数。服务器保存所有量化特征到第二检索列表中。服务器把多个图像的图像特征存储在第三检索列表中,以便于后续检索。对于新加入图像数据库的图像,服务器获取该图像的图像特征和量化特征,在该图像的量化特征与第二检索列表中的任一量化特征相同,将该图像加入到该量化特征对应的第一检索列表中,将该图像的图像特征加入到第三检索列表中。
307、服务器将该多个内容项的量化特征存储在内容项数据库中。
其中,该多个内容项的量化特征为召回该多个内容项时的索引。
308、服务器将查询内容项的内容项特征输入该特征量化模型,通过该特征量化模型对该查询内容项的内容项特征进行量化,输出该查询内容项的量化特征。
其中,查询内容项为召回内容项时使用的内容项。该特征量化模型也即是通过上述步骤301-305训练完毕的特征量化模型。服务器通过该特征量化模型对该查询内容项的内容项特征进行量化的过程与上述步骤302属于同一发明构思,实现过程不再赘述。
309、服务器基于该查询内容项的量化特征进行召回,得到至少一个目标内容项,该至少一个目标内容项与该查询内容项之间的相似度符合目标条件。
在一种可能的实施方式中,服务器基于该查询内容项的量化特征进行查询,得到多个候选内容项,该多个候选内容项的量化特征与该查询内容项的量化特征之间的相似度符合第二相似度条件,该多个候选内容项的量化特征是通过该特征量化模型获取的。服务器基于该查询内容项的内容项特征以及该多个候选内容项的内容项特征,从该多个候选内容项中确定该至少一个目标内容项。
下面将分为两个部分对上述实施方式进行说明。
部分D1、服务器基于该查询内容项的量化特征进行查询,得到多个候选内容项。
在一种可能的实施方式中,服务器比较该查询内容项的量化特征以及内容项数据库中的多个内容项的量化特征。服务器将该多个内容项中量化特征与该查询内容项的量化特征之间的相似度符合该第二相似度条件的内容项,确定为候选内容项。
其中,量化特征之间的相似度符合该第二相似度条件为,量化特征之间的相似度大于或等于第二相似度阈值,或者说量化特征之间的距离小于或等于目标距离阈值,其中,该第二相似度阈值和该目标距离阈值由技术人员根据实际情况进行设置,本申请实施例对此不做限定。在一些实施例中,量化特征之间的距离为汉明距离。
部分D2、服务器基于该查询内容项的内容项特征以及该多个候选内容项的内容项特征,从该多个候选内容项中确定该至少一个目标内容项。
其中,该至少一个目标内容项也即是基于该查询内容项召回的内容项。
在一种可能的实施方式中,服务器基于该查询内容项的内容项特征以及该多个候选内容项的内容项特征之间的相似度,对该多个候选内容项进行排序。服务器将该多个候选内容项中顺序符合顺序条件的候选内容项确定为该目标内容项。
举例来说,服务器按照内容项特征从大至小的顺序,对该多个候选内容项信息排序,得到排序后的多个候选内容项。服务器将该排序后的多个候选内容项中前M个候选内容项,确定为目标内容项,M为正整数。
下面结合附图7对上述步骤308和309进行说明。
参见图7,以内容项为图像为例,服务器对查询图像701进行特征提取,得到查询图像701的图像特征702和量化特征703。服务器提前对图像数据库704中的多个图像进行特征提取,得到多个图像的图像特征705和量化特征706。服务器以多个图像的量化特征706为索引,与查询图像701的量化特征进行匹配,得到匹配到的量化特征707。服务器基于查询图像701的图像特征702与量化特征707对应的多个图像的图像特征进行排序,得到至少一个目标图像708。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
通过本申请实施例提供的技术方案,将内容项特征输特征量化模型,通过特征量化模型对内容项特征进行量化,得到样本内容项的量化特征,其中,对内容项特征进行量化的过程也即是对内容项特征进行离散化的过程。对内容项特征进行量化之后,多个样本内容项可能对应于同一个量化特征,以量化特征作为召回时的索引能够提高召回的效率。另外,由于量化过程中可能存在丢失内容项特征中的信息的情况,因此在训练特征量化模型时,以基于内容项特征确定的第二距离参数作为监督,使得通过量化特征确定的第一距离参数尽可能与第二距离参数接近,提高特征量化模型输出的量化特征的准确性。实现在保证召回准确性的前提下,提高内容项的召回效率。
图8是本申请实施例提供的一种特征量化模型的训练装置的结构示意图,参见图8,装置包括:量化特征获取模块801、第一距离参数确定模块802、第二距离参数确定模块803以及训练模块804。
量化特征获取模块801,用于将多个样本内容项的内容项特征输入特征量化模型,通过该特征量化模型对该多个样本内容项的内容项特征进行量化,输出该多个样本内容项的量化特征,该量化特征为召回内容项时的索引。
第一距离参数确定模块802,用于基于该多个样本内容项的量化特征,确定该多个样本内容项的第一距离参数,该样本内容项的第一距离参数用于表示该样本内容项的量化特征与其他样本内容项的量化特征与之间的距离。
第二距离参数确定模块803,用于基于该多个样本内容项的内容项特征,确定该多个样本内容项的第二距离参数,该样本内容项的第二距离参数用于表示该样本内容项的内容项特征与该其他样本内容项的内容项特征之间的距离。
训练模块804,用于基于该多个样本内容项的第一距离参数和该多个样本内容项的第二距离参数之间的第一差异信息,对该特征量化模型进行训练。
在一种可能的实施方式中,该量化特征获取模块801,用于通过该特征量化模型对该多个样本内容项的内容项特征进行至少一次全连接,得到该多个样本内容项的初始量化特征。通过该特征量化模型,基于该初始量化特征中数值的符号对该多个样本内容项的初始量化特征进行符号量化,输出该多个样本内容项的量化特征。
在一种可能的实施方式中,该训练模块804,还用于对该多个样本内容项的初始量化特征进行量化,得到该多个样本内容项的目标量化特征。基于该多个样本内容项的初始量化特征与目标量化特征之间的第二差异信息,对该特征量化模型进行训练。
在一种可能的实施方式中,该第一距离参数确定模块802,用于对于该多个样本内容项中的第一样本内容项,基于该第一样本内容项的量化特征与该多个样本内容项中的多个第二样本内容项的量化特征,确定该第一样本内容项的量化特征与该多个第二样本内容项的量化特征之间的第一距离。基于第一样本内容项的量化特征与该多个第二样本内容项的量化特征之间的第一距离,确定该第一样本内容项的第一距离参数。
在一种可能的实施方式中,该第一距离参数确定模块802,用于基于第一样本内容项的量化特征与该多个第二样本内容项的量化特征之间的第一距离,对该多个第二样本内容项的标识进行排序。将排序后的该多个第二样本内容项的标识确定为该第一样本内容项的第一距离参数。
在一种可能的实施方式中,该第二距离参数确定模块803,用于对于该多个样本内容项中的第一样本内容项,基于该第一样本内容项的内容项特征与该多个样本内容项中的多个第二样本内容项的内容项特征,确定该第一样本内容项的内容项特征与该多个第二样本内容项的内容项特征之间的第二距离。基于该第一样本内容项的内容项特征与该多个第二样本内容项的内容项特征之间的第二距离,确定该第一样本内容项的第二距离参数。
在一种可能的实施方式中,该第二距离参数确定模块803,用于基于第一样本内容项的内容项特征与该多个第二样本内容项的内容项特征之间的第二距离,对该多个第二样本内容项的标识进行排序。将排序后的该多个第二样本内容项的标识确定为该第一样本内容项的第二距离参数。
在一种可能的实施方式中,该训练模块804,用于对于该多个样本内容项中的第一样本内容项,确定该第一样本内容项的第一距离参数和第二距离参数之间的第一差异信息。基于该第一样本内容项的第一距离参数和第二距离参数之间的第一差异信息,对该特征量化模型进行训练。
在一种可能的实施方式中,该多个样本内容项包括第一样本内容项、该第一样本内容项的正样本内容项以及该第一样本内容项的负样本内容项,该训练模块804,还用于基于该第一样本内容项的量化特征、该正样本内容项的量化特征以及该负样本内容项的量化特征,确定第三差异信息和第四差异信息,该第三差异信息为该第一样本内容项的量化特征与该正样本内容项的量化特征之间的差异信息,该第四差异信息为该第一样本内容项的量化特征与该负样本内容项的量化特征之间的差异信息,该正样本内容项与该第一样本内容项之间的相似度符合第一相似度条件,该负样本内容项与该第一样本内容项之间的相似度不符合该第一相似度条件。基于该第三差异信息和该第四差异信息,对该特征量化模型进行训练。
在一种可能的实施方式中,该训练模块804,还用于对该第一样本内容项的量化特征、该正样本内容项的量化特征以及该负样本内容项的量化特征进行归一化,得到该第一样本内容项的归一化特征、该正样本内容项的归一化特征以及该负样本内容项的归一化特征。将该第一样本内容项的归一化特征与该正样本内容项的归一化特征之间的差异信息确定为该第三差异信息。将该第一样本内容项的归一化特征与该负样本内容项的归一化特征之间的差异信息确定为该第四差异信息。
在一种可能的实施方式中,该训练模块804,还用于基于该第三差异信息与该第四差异信息之间的差值以及距离阈值,对该特征量化模型进行训练,该距离阈值用于指示该特征量化模型调整该正样本内容项的量化特征与该负样本内容项的量化特征之间的距离。
在一种可能的实施方式中,该多个样本内容项包括第一样本内容项、第二样本内容项以及第三样本内容项,该训练模块804,还用于获取该第一样本内容项的量化特征与该第二样本内容项的量化特征之间的第五差异信息。获取该第一样本内容项的量化特征与该第三样本内容项的量化特征之间的第六差异信息。基于该第五差异信息、该第六差异信息以及该第一样本内容项的第二距离参数,对该特征量化模型进行训练。
在一种可能的实施方式中,该训练模块804,还用于基于该第五差异信息、该第六差异信息、该第一样本内容项的第二距离参数中该第二样本内容项对应的距离以及该第一样本内容项的第二距离参数中该第三样本内容项对应的距离,对该特征量化模型进行训练。
在一种可能的实施方式中,该方法还包括:
召回模块,用于将查询内容项的内容项特征输入该特征量化模型,通过该特征量化模型对该查询内容项的内容项特征进行量化,输出该查询内容项的量化特征。基于该查询内容项的量化特征进行召回,得到至少一个目标内容项,该至少一个目标内容项与该查询内容项之间的相似度符合目标条件。
在一种可能的实施方式中,该召回模块,用于基于该查询内容项的量化特征进行查询,得到多个候选内容项,该多个候选内容项的量化特征与该查询内容项的量化特征之间的相似度符合第二相似度条件,该多个候选内容项的量化特征是通过该特征量化模型获取的。基于该查询内容项的内容项特征以及该多个候选内容项的内容项特征,从该多个候选内容项中确定该至少一个目标内容项。
在一种可能的实施方式中,该召回模块,用于基于该查询内容项的内容项特征以及该多个候选内容项的内容项特征之间的相似度,对该多个候选内容项进行排序。将该多个候选内容项中顺序符合顺序条件的候选内容项确定为该目标内容项。
需要说明的是:上述实施例提供的特征量化模型的训练装置在训练特征量化模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的特征量化模型的训练装置与特征量化模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本申请实施例提供的技术方案,将内容项特征输特征量化模型,通过特征量化模型对内容项特征进行量化,得到样本内容项的量化特征,其中,对内容项特征进行量化的过程也即是对内容项特征进行离散化的过程。对内容项特征进行量化之后,多个样本内容项可能对应于同一个量化特征,以量化特征作为召回时的索引能够提高召回的效率。另外,由于量化过程中可能存在丢失内容项特征中的信息的情况,因此在训练特征量化模型时,以基于内容项特征确定的第二距离参数作为监督,使得通过量化特征确定的第一距离参数尽可能与第二距离参数接近,提高特征量化模型输出的量化特征的准确性。实现在保证召回准确性的前提下,提高内容项的召回效率。
本申请实施例提供了一种计算机设备,用于执行上述方法,该计算机设备可以实现为终端或者服务器,下面先对终端的结构进行介绍:
图9是本申请实施例提供的一种终端的结构示意图。
通常,终端900包括有:一个或多个处理器901和一个或多个存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器901所执行以实现本申请中方法实施例提供的特征量化模型的训练方法。
在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907和电源908中的至少一种。
外围设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。
显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。
摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。
电源908用于为终端900中的各个组件进行供电。电源908可以是交流电、直流电、一次性电池或可充电电池。
在一些实施例中,终端900还包括有一个或多个传感器909。该一个或多个传感器909包括但不限于:加速度传感器910、陀螺仪传感器911、压力传感器912、光学传感器913以及接近传感器914。
加速度传感器910可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。
陀螺仪传感器911可以终端900的机体方向及转动角度,陀螺仪传感器911可以与加速度传感器910协同采集用户对终端900的3D动作。
压力传感器912可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器912设置在终端900的侧边框时,可以检测用户对终端900的握持信号,由处理器901根据压力传感器912采集的握持信号进行左右手识别或快捷操作。当压力传感器912设置在显示屏905的下层时,由处理器901根据用户对显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。
光学传感器913用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器913采集的环境光强度,控制显示屏905的显示亮度。
接近传感器914用于采集用户与终端900的正面之间的距离。
本领域技术人员可以理解,图9中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述计算机设备还可以实现为服务器,下面对服务器的结构进行介绍:
图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1001和一个或多个的存储器1002,其中,所述一个或多个存储器1002中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1000还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该计算机程序由处理器加载并执行以实现上述实施例中的特征量化模型的训练方法。例如,该计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述特征量化模型的训练方法。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来控制相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

1.一种特征量化模型的训练方法,其特征在于,所述方法包括:
将多个样本内容项的内容项特征输入特征量化模型,通过所述特征量化模型对所述多个样本内容项的内容项特征进行量化,输出所述多个样本内容项的量化特征,所述量化特征为召回内容项时的索引;
基于所述多个样本内容项的量化特征,确定所述多个样本内容项的第一距离参数,所述样本内容项的第一距离参数用于表示所述样本内容项的量化特征与其他样本内容项的量化特征与之间的距离;
基于所述多个样本内容项的内容项特征,确定所述多个样本内容项的第二距离参数,所述样本内容项的第二距离参数用于表示所述样本内容项的内容项特征与所述其他样本内容项的内容项特征之间的距离;
基于所述多个样本内容项的第一距离参数和所述多个样本内容项的第二距离参数之间的第一差异信息,对所述特征量化模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述通过所述特征量化模型对所述多个样本内容项的内容项特征进行量化,输出所述多个样本内容项的量化特征包括:
通过所述特征量化模型对所述多个样本内容项的内容项特征进行至少一次全连接,得到所述多个样本内容项的初始量化特征;
通过所述特征量化模型,基于所述初始量化特征中数值的符号对所述多个样本内容项的初始量化特征进行符号量化,输出所述多个样本内容项的量化特征。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述多个样本内容项的初始量化特征进行量化,得到所述多个样本内容项的目标量化特征;
基于所述多个样本内容项的初始量化特征与目标量化特征之间的第二差异信息,对所述特征量化模型进行训练。
4.根据权利要求1所述的方法,其特征在于,所述基于所述多个样本内容项的量化特征,确定所述多个样本内容项的第一距离参数包括:
对于所述多个样本内容项中的第一样本内容项,基于所述第一样本内容项的量化特征与所述多个样本内容项中的多个第二样本内容项的量化特征,确定所述第一样本内容项的量化特征与所述多个第二样本内容项的量化特征之间的第一距离;
基于所述第一样本内容项的量化特征与所述多个第二样本内容项的量化特征之间的第一距离,确定所述第一样本内容项的第一距离参数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一样本内容项的量化特征与所述多个第二样本内容项的量化特征之间的第一距离,确定所述第一样本内容项的第一距离参数包括:
基于所述第一样本内容项的量化特征与所述多个第二样本内容项的量化特征之间的第一距离,对所述多个第二样本内容项的标识进行排序;
将排序后的所述多个第二样本内容项的标识确定为所述第一样本内容项的第一距离参数。
6.根据权利要求1所述的方法,其特征在于,所述基于所述多个样本内容项的内容项特征,确定所述多个样本内容项的第二距离参数包括:
对于所述多个样本内容项中的第一样本内容项,基于所述第一样本内容项的内容项特征与所述多个样本内容项中的多个第二样本内容项的内容项特征,确定所述第一样本内容项的内容项特征与所述多个第二样本内容项的内容项特征之间的第二距离;
基于所述第一样本内容项的内容项特征与所述多个第二样本内容项的内容项特征之间的第二距离,确定所述第一样本内容项的第二距离参数。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一样本内容项的内容项特征与所述多个第二样本内容项的内容项特征之间的第二距离,确定所述第一样本内容项的第二距离参数包括:
基于所述第一样本内容项的内容项特征与所述多个第二样本内容项的内容项特征之间的第二距离,对所述多个第二样本内容项的标识进行排序;
将排序后的所述多个第二样本内容项的标识确定为所述第一样本内容项的第二距离参数。
8.根据权利要求1所述的方法,其特征在于,所述基于所述多个样本内容项的第一距离参数和所述多个样本内容项的第二距离参数之间的第一差异信息,对所述特征量化模型进行训练包括:
对于所述多个样本内容项中的第一样本内容项,确定所述第一样本内容项的第一距离参数和第二距离参数之间的第一差异信息;
基于所述第一样本内容项的第一距离参数和第二距离参数之间的第一差异信息,对所述特征量化模型进行训练。
9.根据权利要求1所述的方法,其特征在于,所述多个样本内容项包括第一样本内容项、所述第一样本内容项的正样本内容项以及所述第一样本内容项的负样本内容项,所述方法还包括:
基于所述第一样本内容项的量化特征、所述正样本内容项的量化特征以及所述负样本内容项的量化特征,确定第三差异信息和第四差异信息,所述第三差异信息为所述第一样本内容项的量化特征与所述正样本内容项的量化特征之间的差异信息,所述第四差异信息为所述第一样本内容项的量化特征与所述负样本内容项的量化特征之间的差异信息,所述正样本内容项与所述第一样本内容项之间的相似度符合第一相似度条件,所述负样本内容项与所述第一样本内容项之间的相似度不符合所述第一相似度条件;
基于所述第三差异信息和所述第四差异信息,对所述特征量化模型进行训练。
10.根据权利要求9所述的方法,其特征在于,所述基于所述第一样本内容项的量化特征、所述正样本内容项的量化特征以及所述负样本内容项的量化特征,确定第三差异信息和第四差异信息包括:
对所述第一样本内容项的量化特征、所述正样本内容项的量化特征以及所述负样本内容项的量化特征进行归一化,得到所述第一样本内容项的归一化特征、所述正样本内容项的归一化特征以及所述负样本内容项的归一化特征;
将所述第一样本内容项的归一化特征与所述正样本内容项的归一化特征之间的差异信息确定为所述第三差异信息;
将所述第一样本内容项的归一化特征与所述负样本内容项的归一化特征之间的差异信息确定为所述第四差异信息。
11.根据权利要求9所述的方法,其特征在于,所述基于所述第三差异信息和所述第四差异信息,对所述特征量化模型进行训练包括:
基于所述第三差异信息与所述第四差异信息之间的差值以及距离阈值,对所述特征量化模型进行训练,所述距离阈值用于指示所述特征量化模型调整所述正样本内容项的量化特征与所述负样本内容项的量化特征之间的距离。
12.根据权利要求1所述的方法,其特征在于,所述多个样本内容项包括第一样本内容项、第二样本内容项以及第三样本内容项,所述方法还包括:
获取所述第一样本内容项的量化特征与所述第二样本内容项的量化特征之间的第五差异信息;
获取所述第一样本内容项的量化特征与所述第三样本内容项的量化特征之间的第六差异信息;
基于所述第五差异信息、所述第六差异信息以及所述第一样本内容项的第二距离参数,对所述特征量化模型进行训练。
13.根据权利要求12所述的方法,其特征在于,所述基于所述第五差异信息、所述第六差异信息以及所述第一样本内容项的第二距离参数,对所述特征量化模型进行训练包括:
基于所述第五差异信息、所述第六差异信息、所述第一样本内容项的第二距离参数中所述第二样本内容项对应的距离以及所述第一样本内容项的第二距离参数中所述第三样本内容项对应的距离,对所述特征量化模型进行训练。
14.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将查询内容项的内容项特征输入所述特征量化模型,通过所述特征量化模型对所述查询内容项的内容项特征进行量化,输出所述查询内容项的量化特征;
基于所述查询内容项的量化特征进行召回,得到至少一个目标内容项,所述至少一个目标内容项与所述查询内容项之间的相似度符合目标条件。
15.根据权利要求14所述的方法,其特征在于,所述基于所述查询内容项的量化特征进行召回,得到至少一个目标内容项包括:
基于所述查询内容项的量化特征进行查询,得到多个候选内容项,所述多个候选内容项的量化特征与所述查询内容项的量化特征之间的相似度符合第二相似度条件,所述多个候选内容项的量化特征是通过所述特征量化模型获取的;
基于所述查询内容项的内容项特征以及所述多个候选内容项的内容项特征,从所述多个候选内容项中确定所述至少一个目标内容项。
16.根据权利要求15所述的方法,其特征在于,所述基于所述查询内容项的内容项特征以及所述多个候选内容项的内容项特征,从所述多个候选内容项中确定所述至少一个目标内容项包括:
基于所述查询内容项的内容项特征以及所述多个候选内容项的内容项特征之间的相似度,对所述多个候选内容项进行排序;
将所述多个候选内容项中顺序符合顺序条件的候选内容项确定为所述目标内容项。
17.一种特征量化模型的训练装置,其特征在于,所述装置包括:
量化特征获取模块,用于将多个样本内容项的内容项特征输入特征量化模型,通过所述特征量化模型对所述多个样本内容项的内容项特征进行量化,输出所述多个样本内容项的量化特征,所述量化特征为召回内容项时的索引;
第一距离参数确定模块,用于基于所述多个样本内容项的量化特征,确定所述多个样本内容项的第一距离参数,所述样本内容项的第一距离参数用于表示所述样本内容项的量化特征与其他样本内容项的量化特征与之间的距离;
第二距离参数确定模块,用于基于所述多个样本内容项的内容项特征,确定所述多个样本内容项的第二距离参数,所述样本内容项的第二距离参数用于表示所述样本内容项的内容项特征与所述其他样本内容项的内容项特征之间的距离;
训练模块,用于基于所述多个样本内容项的第一距离参数和所述多个样本内容项的第二距离参数之间的第一差异信息,对所述特征量化模型进行训练。
18.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求16任一项所述的特征量化模型的训练方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求16任一项所述的特征量化模型的训练方法。
20.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至权利要求16任一项所述的特征量化模型的训练方法。
CN202210279717.9A 2022-03-22 2022-03-22 特征量化模型的训练方法、装置以及设备 Active CN114372205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210279717.9A CN114372205B (zh) 2022-03-22 2022-03-22 特征量化模型的训练方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279717.9A CN114372205B (zh) 2022-03-22 2022-03-22 特征量化模型的训练方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN114372205A CN114372205A (zh) 2022-04-19
CN114372205B true CN114372205B (zh) 2022-06-10

Family

ID=81146419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279717.9A Active CN114372205B (zh) 2022-03-22 2022-03-22 特征量化模型的训练方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN114372205B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505204A (zh) * 2021-09-09 2021-10-15 腾讯科技(深圳)有限公司 召回模型训练方法、搜索召回方法、装置和计算机设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4213416B2 (ja) * 2002-07-03 2009-01-21 パイオニア株式会社 ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
CN106021364B (zh) * 2016-05-10 2017-12-12 百度在线网络技术(北京)有限公司 图片搜索相关性预测模型的建立、图片搜索方法和装置
US10853858B2 (en) * 2016-10-28 2020-12-01 Walmart Apollo, Llc Systems and methods for optimizing normalization of product attributes for a webpage of an online retailer
CN107330074B (zh) * 2017-06-30 2020-05-26 中国科学院计算技术研究所 基于深度学习和哈希编码的图像检索方法
CN108197532B (zh) * 2017-12-18 2019-08-16 深圳励飞科技有限公司 人脸识别的方法、装置及计算机装置
CN112733970B (zh) * 2021-03-31 2021-06-18 腾讯科技(深圳)有限公司 图像分类模型处理方法、图像分类方法及装置
CN113821670B (zh) * 2021-07-23 2024-04-16 腾讯科技(深圳)有限公司 图像检索方法、装置、设备及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505204A (zh) * 2021-09-09 2021-10-15 腾讯科技(深圳)有限公司 召回模型训练方法、搜索召回方法、装置和计算机设备

Also Published As

Publication number Publication date
CN114372205A (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN111339443B (zh) 用户标签确定方法、装置、计算机设备及存储介质
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111339343A (zh) 图像检索方法、装置、存储介质及设备
CN112990390B (zh) 一种图像识别模型的训练方法、图像识别的方法及装置
CN113326930A (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN113435520A (zh) 神经网络的训练方法、装置、设备及计算机可读存储介质
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
CN114238329A (zh) 向量相似度计算方法、装置、设备及存储介质
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN115879508A (zh) 一种数据处理方法及相关装置
CN111368205B (zh) 数据推荐方法、装置、计算机设备及存储介质
CN114372205B (zh) 特征量化模型的训练方法、装置以及设备
CN116956996A (zh) 数据处理方法、装置、介质及设备
CN112307243A (zh) 用于检索图像的方法和装置
CN116541556A (zh) 标签确定方法、装置、设备以及存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN113762042A (zh) 视频识别方法、装置、设备以及存储介质
CN117852624B (zh) 时序信号预测模型的训练方法、预测方法、装置及设备
CN114077885A (zh) 基于张量分解的模型压缩方法、装置和服务器
CN117852624A (zh) 时序信号预测模型的训练方法、预测方法、装置及设备
CN116756411A (zh) 内容项的推荐方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070812

Country of ref document: HK