CN113392266B - 排序模型的训练、排序方法、装置、电子设备及存储介质 - Google Patents

排序模型的训练、排序方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113392266B
CN113392266B CN202110940466.XA CN202110940466A CN113392266B CN 113392266 B CN113392266 B CN 113392266B CN 202110940466 A CN202110940466 A CN 202110940466A CN 113392266 B CN113392266 B CN 113392266B
Authority
CN
China
Prior art keywords
initial
keyword
keywords
degraded
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110940466.XA
Other languages
English (en)
Other versions
CN113392266A (zh
Inventor
张水发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110940466.XA priority Critical patent/CN113392266B/zh
Publication of CN113392266A publication Critical patent/CN113392266A/zh
Application granted granted Critical
Publication of CN113392266B publication Critical patent/CN113392266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种排序模型的训练、排序方法、装置、电子设备及存储介质,该方法包括:获取初始样本集合,初始样本包括初始关键词和初始视频;根据初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,得到退化关键词和退化视频;根据退化关键词的搜索行为,确定退化关键词的相似关键词以及退化视频的相似视频;将相似关键词替换初始样本集合中的退化关键词,并将相似视频替换初始样本集合中的退化视频,得到目标样本集合;根据目标样本集合,对排序模型进行训练,得到训练完成的排序模型。本公开不需要人工标注样本,解决了相关技术中需要人工标注样本导致训练时间长、人力成本高的问题。

Description

排序模型的训练、排序方法、装置、电子设备及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种排序模型的训练、排序方法、装置、电子设备及存储介质。
背景技术
一个好的推荐、搜索社区,生产者和消费者都是比较活跃的,因此,搜索、推荐的内容应当保持一定速度的新陈代谢,即推荐、搜索社区应该在保证相关性的基础上,尽量给出最新最热的视频。例如,搜索美女时,社区给出的搜索结果都是九十年代的美女明星,这样的结果完全不匹配用户的兴趣,社区就犹如一潭死水,毫无生气。因此,在搜索、推荐系统中,由于搜索关键词的变化以及随着时间的推移,同样的视频,消费特征会越来越弱,以至于最终消失。
相关技术中,可以通过补充新的标注样本来解决消费特征退化的问题,但是,新的标注样本需要人工筛选,导致排序模型的训练时间较长,训练效率较低,而且人力成本较高。
发明内容
本公开提供一种排序模型的训练、排序方法、装置、电子设备及存储介质,以至少解决相关技术中训练时间长、人力成本高的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种排序模型的训练方法,包括:
获取初始样本集合,所述初始样本集合中的初始样本包括初始关键词、初始视频以及所述初始关键词和所述初始视频之间的关联关系标注;
根据所述初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,分别作为退化关键词和退化视频;
根据所述退化关键词对应的搜索行为,确定所述退化关键词的相似关键词,并确定所述退化视频的相似视频;
将所述相似关键词替换所述初始样本集合中的退化关键词,并将所述相似视频替换所述初始样本集合中的退化视频,得到目标样本集合,所述目标样本集合中的目标样本包括目标关键词、目标视频以及所述目标关键词和目标视频之间的关联关系标注;
根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,所述训练完成的排序模型用于分别确定检索关键词和召回的多个视频之间的关联关系概率,所述关联关系概率用于作为对所述多个视频进行排序的依据。
可选的,根据所述初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,分别作为退化关键词和退化视频,包括:
根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
根据所述退化关键词对应的搜索行为,确定所述退化关键词的相似关键词,并确定所述退化视频的相似视频,包括:
根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
将所述相似关键词替换所述初始样本集合中的退化关键词,并将所述相似视频替换所述初始样本集合中的退化视频,得到目标样本集合,包括:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
可选的,根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词,包括:
获取所述初始样本集合中初始关键词在当前统计周期内的访问量,作为当前访问量,并获取所述初始关键词在第一预设时间前历史统计周期内的访问量,作为历史访问量;
若所述当前访问量小于所述历史访问量,且所述当前访问量满足预设访问量条件,则确定所述初始关键词为第一退化关键词。
可选的,根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频,包括:
获取所述初始样本集合中具有关联关系的初始关键词和初始视频在当前统计周期内的展示次数,作为当前展示次数,并获取所述具有关联关系的初始关键词和初始视频在第一预设时间前历史统计周期内的展示次数,作为历史展示次数;
若所述当前展示次数小于所述历史展示次数,且所述当前展示次数满足预设展示次数条件,则确定所述具有关联关系的初始关键词和初始视频为消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频。
可选的,根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词,包括:
根据所述第一退化关键词对应的第一搜索行为,确定同一用户的关联搜索行为,作为第一关联搜索行为;
确定所述第一退化关键词与所述第一关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第一关联搜索行为中关键词确定为所述第一相似关键词。
可选的,根据所述第一退化关键词对应的第一搜索行为,确定同一用户的关联搜索行为,作为第一关联搜索行为,包括:
根据所述第一退化关键词对应的第一搜索行为,确定与所述第一搜索行为的时间间隔不超过预设间隔的同一用户的其他搜索行为;
若所述第一搜索行为与所述其他搜索行为之间没有推荐视频的消费行为,则确定所述其他搜索行为为所述第一关联搜索行为。
可选的,根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频,包括:
根据所述第二退化关键词对应的第二搜索行为,确定同一用户的关联搜索行为,作为第二关联搜索行为;
确定所述第二退化关键词与所述第二关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第二关联搜索行为中关键词确定为所述第二相似关键词;
获取所述第二相似关键词的关联视频,并确定所述关联视频与所述退化视频的相似度,作为视频相似度;
将所述视频相似度大于视频相似度阈值且生产日期为当前时间之前第二预设时间内的关联视频确定为所述相似视频,得到具有关联关系的第二相似关键词和相似视频。
可选的,根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,包括:
获取所述目标样本集合中目标样本的消费统计特征;
根据所述目标样本的消费统计特征,对所述排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型。
可选的,所述目标样本还包括目标视频的视频质量标注;
根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,包括:
根据所述目标样本集合中目标样本中的目标关键词和目标视频的关联关系标注和视频质量标注,确定同一目标关键词关联的两个目标视频,基于两个目标视频中每个目标视频对应的关联关系标注和视频质量标注,确定所述两个目标视频组成的视频对对应的相对关联关系标签;
基于所述目标样本集合中目标样本所组成的多个视频对和标签,对基于Pairwise的排序模型进行训练,使得排序模型学习视频对中两个目标视频与同一目标关键词的相对关联关系,得到训练完成的排序模型。
根据本公开实施例的第二方面,提供一种排序模型的排序方法,包括:
获取基于检索关键词召回的多个检索视频;
将所述检索关键词和每个所述检索视频分别输入训练完成的排序模型中,得到每个检索视频与所述检索关键词的关联关系概率;其中,所述排序模型是基于初始样本集合更新得到的目标样本集合训练得到的,所述目标样本集合是将初始样本集合中消费特征退化的初始关键词替换为所述初始关键词的相似关键词,并将初始样本集合中消费特征退化的初始视频替换为所述初始视频的相似视频得到的,所述相似关键词基于所述初始关键词的搜索行为确定;
根据每个检索视频与所述检索关键词的关联关系概率,对所述多个检索视频进行排序。
可选的,将所述检索关键词和每个所述检索视频分别输入训练完成的排序模型中,得到每个检索视频与所述检索关键词的关联关系概率,包括:
将所述检索关键词和每两个检索视频分别输入训练完成的排序模型中,得到每两个检索视频相对所述检索关键词的相对关联关系概率;
根据每个检索视频与所述检索关键词的关联关系概率,对所述多个检索视频进行排序,包括:
根据每两个检索视频的相对关联关系概率,对所述多个检索视频进行排序。
可选的,所述消费特征退化的初始关键词和消费特征退化的初始视频的确定步骤包括:
根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
所述相似关键词和相似视频的确定步骤包括:
根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
所述目标样本集合的确定步骤包括:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
根据本公开实施例的第三方面,提供一种排序模型的训练装置,包括:
初始样本获取模块,被配置为执行获取初始样本集合,所述初始样本集合中的初始样本包括初始关键词、初始视频以及所述初始关键词和所述初始视频之间的关联关系标注;
退化关键词视频确定模块,被配置为执行根据所述初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,分别作为退化关键词和退化视频;
相似关键词视频确定模块,被配置为执行根据所述退化关键词对应的搜索行为,确定所述退化关键词的相似关键词,并确定所述退化视频的相似视频;
样本内容替换模块,被配置为执行将所述相似关键词替换所述初始样本集合中的退化关键词,并将所述相似视频替换所述初始样本集合中的退化视频,得到目标样本集合,所述目标样本集合中的目标样本包括目标关键词、目标视频以及所述目标关键词和目标视频之间的关联关系标注;
模型训练模块,被配置为执行根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,所述训练完成的排序模型用于分别确定检索关键词和召回的多个视频之间的关联关系概率,所述关联关系概率用于作为对所述多个视频进行排序的依据。
可选的,所述退化关键词视频确定模块包括:
退化关键词确定单元,被配置为执行根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
退化视频确定单元,被配置为执行根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
所述相似关键词视频确定模块包括:
相似关键词确定单元,被配置为执行根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
相似视频确定单元,被配置为执行根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
所述样本内容替换模块具体被配置为执行:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
可选的,所述退化关键词确定单元具体被配置为执行:
获取所述初始样本集合中初始关键词在当前统计周期内的访问量,作为当前访问量,并获取所述初始关键词在第一预设时间前历史统计周期内的访问量,作为历史访问量;
若所述当前访问量小于所述历史访问量,且所述当前访问量满足预设访问量条件,则确定所述初始关键词为第一退化关键词。
可选的,所述退化视频确定单元具体被配置为执行:
获取所述初始样本集合中具有关联关系的初始关键词和初始视频在当前统计周期内的展示次数,作为当前展示次数,并获取所述具有关联关系的初始关键词和初始视频在第一预设时间前历史统计周期内的展示次数,作为历史展示次数;
若所述当前展示次数小于所述历史展示次数,且所述当前展示次数满足预设展示次数条件,则确定所述具有关联关系的初始关键词和初始视频为消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频。
可选的,所述相似关键词确定单元包括:
关联行为确定子单元,被配置为执行根据所述第一退化关键词对应的第一搜索行为,确定同一用户的关联搜索行为,作为第一关联搜索行为;
相似关键词确定子单元,被配置为执行确定所述第一退化关键词与所述第一关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第一关联搜索行为中关键词确定为所述第一相似关键词。
可选的,所述关联行为确定子单元具体被配置为执行:
根据所述第一退化关键词对应的第一搜索行为,确定与所述第一搜索行为的时间间隔不超过预设间隔的同一用户的其他搜索行为;
若所述第一搜索行为与所述其他搜索行为之间没有推荐视频的消费行为,则确定所述其他搜索行为为所述第一关联搜索行为。
可选的,所述相似视频确定单元具体被配置为执行:
根据所述第二退化关键词对应的第二搜索行为,确定同一用户的关联搜索行为,作为第二关联搜索行为;
确定所述第二退化关键词与所述第二关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第二关联搜索行为中关键词确定为所述第二相似关键词;
获取所述第二相似关键词的关联视频,并确定所述关联视频与所述退化视频的相似度,作为视频相似度;
将所述视频相似度大于视频相似度阈值且生产日期为当前时间之前第二预设时间内的关联视频确定为所述相似视频,得到具有关联关系的第二相似关键词和相似视频。
可选的,所述模型训练模块包括:
特征获取单元,被配置为执行获取所述目标样本集合中目标样本的消费统计特征;
第一模型训练单元,被配置为执行根据所述目标样本的消费统计特征,对所述排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型。
可选的,所述目标样本还包括目标视频的视频质量标注;
所述模型训练模块包括:
视频对确定单元,被配置为执行根据所述目标样本集合中目标样本中的目标关键词和目标视频的关联关系标注和视频质量标注,确定同一目标关键词关联的两个目标视频,基于两个目标视频中每个目标视频对应的关联关系标注和视频质量标注,确定所述两个目标视频组成的视频对对应的相对关联关系标签;
第二模型训练单元,被配置为执行基于所述目标样本集合中目标样本所组成的多个视频对和标签,对基于Pairwise的排序模型进行训练,使得排序模型学习视频对中两个目标视频与同一目标关键词的相对关联关系,得到训练完成的排序模型。
根据本公开实施例的第四方面,提供一种排序模型的排序装置,包括:
获取模块,被配置为执行获取基于检索关键词召回的多个检索视频;
关联概率确定模块,被配置为执行将所述检索关键词和每个所述检索视频分别输入训练完成的排序模型中,得到每个检索视频与所述检索关键词的关联关系概率;其中,所述排序模型是基于初始样本集合更新得到的目标样本集合训练得到的,所述目标样本集合是将初始样本集合中消费特征退化的初始关键词替换为所述初始关键词的相似关键词,并将初始样本集合中消费特征退化的初始视频替换为所述初始视频的相似视频得到的,所述相似关键词基于所述初始关键词的搜索行为确定;
排序模块,被配置为执行根据每个检索视频与所述检索关键词的关联关系概率,对所述多个检索视频进行排序。
可选的,所述关联概率确定模块被配置为执行:
将所述检索关键词和每两个检索视频分别输入训练完成的排序模型中,得到每两个检索视频相对所述检索关键词的相对关联关系概率;
所述排序模块被配置为执行:
根据每两个检索视频的相对关联关系概率,对所述多个检索视频进行排序。
可选的,所述消费特征退化的初始关键词和消费特征退化的初始视频的确定步骤包括:
根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
所述相似关键词和相似视频的确定步骤包括:
根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
所述目标样本集合的确定步骤包括:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
根据本公开实施例的第五方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的排序模型的训练方法或实现如第二方面所述的排序模型的排序方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的排序模型的训练方法或如第二方面所述的排序模型的排序方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现如第一方面所述的排序模型的训练方法或实现如第二方面所述的排序模型的排序方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开实施例通过根据初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为退化关键词和退化视频,根据退化关键词对应的搜索行为,确定退化关键词的相似关键词,并确定退化视频的相似视频,将相似关键词替换初始样本集合中的退化关键词,将相似视频替换初始样本集合中的退化视频,得到目标样本集合,根据目标样本集合对排序模型进行训练,使得排序模型学习目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,由于可以自动确定退化关键词在最近一段时间的相似关键词,并可以自动确定退化视频在最近一段时间的相似视频,这样得到的目标样本集合,每一目标样本都是最新的关键词和视频,从而训练完成的排序模型可以解决消费特征退化的问题,而且不需要人工标注样本,解决了相关技术中需要人工标注样本导致训练时间长、人力成本高的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种排序模型的训练方法的流程图;
图2是根据另一示例性实施例示出的一种排序模型的训练方法的流程图;
图3是根据一示例性实施例示出的一种排序模型的排序方法的流程图;
图4是根据一示例性实施例示出的一种排序模型的训练装置的框图;
图5是根据一示例性实施例示出的一种排序模型的排序装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种排序模型的训练方法的流程图,如图1所示,该排序模型的训练方法用于服务器等电子设备中,包括以下步骤。
在步骤S11中,获取初始样本集合,所述初始样本集合中的初始样本包括初始关键词、初始视频以及所述初始关键词和所述初始视频之间的关联关系标注。
随着时间的推移,关键词和视频之间的关联关系会随着时间存在不同程度的退化,到一定程度会导致大部分关键词和视频之间的关联关系退化为0,相关技术只能依靠不断补充新的标注样本并重新训练排序模型来解决样本中消费特征退化的问题。本公开实施例可以基于之前训练排序模型时使用的初始样本集合来自动获取目标样本集合,并基于目标样本集合重新对排序模型进行训练,这样可以使得排序模型提供更准确的排序结果。
其中,所述初始样本集合为之前训练排序模型时所使用的样本集合或基于最初训练排序模型时使用的样本集合更新后的样本集合。初始样本集合中的每个初始样本均包括初始关键词初始视频、关联关系标注。所述关联关系标注可以是初始关键词与初始视频的相关性大小的标注,如关联关系标注可以为1、2、3或4,分别表示不相关、一般相关、比较相关或非常相关。
在步骤S12中,根据所述初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,分别作为退化关键词和退化视频。
获取初始样本集合中初始关键词最近一段时间即当前统计周期内的访问量信息,并获取初始样本集合中初始关键词在第一预设时间(如一个月)之前一段时间即历史统计周期内的访问量信息,比较这两个访问量信息,如果当前统计周期内的访问量信息相比历史统计周期内的访问量信息下降较多,则确定该初始关键词为消费特征退化的初始关键词,记为退化关键词。
获取初始样本集合中一个初始样本的初始关键词和初始视频在最近一段时间即当前统计周期内的展示次数信息,并获取初始样本集合中一个初始样本的初始关键词和初始视频在第一预设时间之前一段时间即历史统计周期内的展示次数信息,如果当前统计周期内的展示次数信息相比历史统计周期内的展示次数信息的展示数量下降较多,则确定该初始样本中初始关键词和初始视频为消费特征退化的初始关键词和初始视频,记为退化关键词和退化视频。
在步骤S13中,根据所述退化关键词对应的搜索行为,确定所述退化关键词的相似关键词,并确定所述退化视频的相似视频。
基于用户最近的历史数据(如最近半年或一个月的历史数据),获取所述退化关键词对应的搜索行为,并获取所述搜索行为一段时间内的搜索行为,获取该一段时间内的搜索行为中所使用的关键词,计算这些关键词与所述退化关键词的相似度,如果相似度大于或等于关键词相似度阈值,则确定相似度对应的关键词为所述退化关键词的相似关键词。获取相似关键词关联的视频,计算这些视频与退化关键词对应的退化视频的相似度,如果相似度大于或等于视频相似度阈值,则确定相似度对应的视频为退化视频的相似视频。
在步骤S14中,将所述相似关键词替换所述初始样本集合中的退化关键词,并将所述相似视频替换所述初始样本集合中的退化视频,得到目标样本集合。
其中,所述目标样本集合中的目标样本包括目标关键词、目标视频以及所述目标关键词和目标视频之间的关联关系标注。
在得到退化关键词的相似关键词和退化视频的相似视频后,将相似关键词直接替换初始样本集合中的退化关键词,即相似关键词与退化关键词关联的初始视频组成目标样本,目标样本中的关联关系标注与原有的退化关键词所在初始样本相同;并将相似视频替换初始样本集合中的退化视频,即相似视频与退化视频关联的初始关键词组成目标样本,或者相似视频与退化视频关联的退化关键词的相似关键词组成目标样本,目标样本中的关联关系标注与退化视频所在初始样本相同。
在步骤S15中,根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型。
其中,所述训练完成的排序模型用于分别确定检索关键词和召回的多个视频之间的关联关系概率,所述关联关系概率用于作为对所述多个视频进行排序的依据。
通过基于相似关键词和相似视频对初始样本集合进行更新,得到目标样本集合后,可以基于目标样本集合来对排序模型进行重新训练,在训练的过程中,使得排序模型学习目标样本中目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,训练完成的排序模型可以用于预测检索关键词和召回的多个视频之间的关联关系概率,从而为多个视频进行排序提供依据。由于基于相似关键词和相似视频的替换,使得目标样本集合中每一目标样本都是最新的关键词和视频,从而训练完成的排序模型可以解决消费特征退化的问题,能够将消费较好的视频排到前面,把好的、热门的视频展示给用户。
其中,所述排序模型可以是基于Pointwise、Pairwise或Listwise的模型。对于不同的排序模型,可以基于更新得到的目标样本集合组合用于训练模型的样本即可。
在一个示例性实施例中,根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,包括:获取所述目标样本集合中目标样本的消费统计特征;根据所述目标样本的消费统计特征,对所述排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型。
其中,所述消费统计特征可以包括目标样本中目标关键词本身的特征、目标视频本身的特征以及目标关键词与目标视频的关联关系特征。其中,目标关键词本身的特征可以包括目标关键词向量(queryembedding),目标关键词的意图(如搜人、搜视频、搜美食、搜景区、探店、攻略等);目标视频本身的特征可以包括目标视频质量、点赞量、关注量、转发量、评论量、目标视频向量(embedding)、视频时长、分辨率、视频的类别、包含的人和/或物等、视频发布的时间、对应作者的权威、视频的权威等;目标关键词与目标视频的关联关系特征可以包括目标关键词向量与目标视频向量之间的距离,目标关键词下目标视频的点击量、点赞量、关注量、转发量、评论量等,以及目标关键词下目标视频的点击量、点赞量、关注量、转发量、评论量等与目标视频所有的点击量、点赞量、关注量、转发量、评论量等的比值。
基于目标样本历史数据,对目标样本的消费特征进行统计,得到目标样本的消费统计特征,将目标样本的消费统计特征输入排序模型,并基于排序模型的输出结果和目标样本中关联关系标注,对排序模型的参数进行调整,使得排序模型学习到目标样本中目标关键词和目标视频之间的关联关系,迭代执行输入消费统计特征至排序模型并进行参数调整的操作,直至满足训练结束条件,得到训练完成的排序模型。
在一个示例性实施例中,所述目标样本还包括目标视频的视频质量标注;
根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,包括:根据所述目标样本集合中目标样本中的目标关键词和目标视频的关联关系标注和视频质量标注,确定同一目标关键词关联的两个目标视频,基于两个目标视频中每个目标视频对应的关联关系标注和视频质量标注,确定所述两个目标视频组成的视频对对应的相对关联关系标签;基于所述目标样本集合中目标样本所组成的多个视频对和标签,对基于Pairwise的排序模型进行训练,使得排序模型学习视频对中两个目标视频与同一目标关键词的相对关联关系,得到训练完成的排序模型。
其中,所述初始样本中还包括视频质量标注,所述目标样本由初始样本更新得到,但是目标样本中的视频质量标注和初始样本中的视频质量标注相同。所述视频质量标注是初始视频或目标视频的视频质量高低的标注,例如视频质量标注可以为1或2,分别表示低质量、高质量。
目标样本集合中的每一个目标样本均包括目标关键词、目标视频、关联关系标注和视频质量标注,在对基于Pairwise的排序模型进行训练前,需要将相同目标关键词的两个目标视频组成视频对,可以首先基于两个目标视频与目标关键词的关联关系标注来确定视频对对应的标签,在关联关系标注相同的基础上,根据两个目标视频的视频质量标注来确定视频对对应的标签。例如,在关联关系标注包括1、2、3、4,视频质量标注包括1、2时,如果一个目标关键词与第一个目标视频的关联关系标注为2,该目标关键词与第二个目标视频的关联关系标注为3,则第二个目标视频与目标关键词的相关性大于第一个目标视频与目标关键词的相关性,第一个目标视频与第二个目标视频可以组成视频对,视频对的标签为0;如果一个目标关键词与第一个目标视频的关联关系标注为2,该目标关键词与第二个目标视频的关联关系标注也为2,则继续判断视频质量标注,如果第一个目标视频的视频质量标注为2,第二个目标视频的视频质量为1,则第一个目标视频与第二个目标视频可以组成视频对,该视频对的标签为1;如果第一个目标视频和第二个目标视频的关联关系标注和视频质量标注均相同,则第一个目标视频和第二个目标视频无法组成用于训练的视频对。
在确定视频对对应的标签时,首先以相关性作为相对序,在相关性相同的基础上,再以质量作为相对序,基于相对序确定视频对对应的标签;对于视频之间的相对序有:相关性不同,如query-视频1的相关性为2,query-视频2的相关性为3时,有视频2>视频1;相关性相同,如query-视频1的相关性为2,query-视频2的相关性也为2时,如果视频1的质量为1,视频2的质量为2,有视频2>视频1;如果相关性和质量都一致,则该视频(pair)对不放入模型中训练。在相对序为视频2>视频1时,由目标关键词(query)对应的视频1和视频2组成的视频对对应的标签为0。此处的相关性即上述的关联关系标注,质量即上述的视频质量标注。
在基于目标样本集合中目标样本得到多个视频对和标签后,可以基于多个视频对和标签对基于Pairwise的排序模型进行训练,在训练过程中使得排序模型学习视频对中两个目标视频与同一目标关键词的相对关联关系,得到训练完成的排序模型。
在得到目标样本集合后,可以基于排序模型的类型,组成用于训练排序模型的数据,从而可以对排序模型进行训练,避免了人工标注数据,可以提高训练效率,节省人力成本。
本示例性实施例提供的排序模型的训练方法,通过根据初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为退化关键词和退化视频,根据退化关键词对应的搜索行为,确定退化关键词的相似关键词,并确定退化视频的相似视频,将相似关键词替换初始样本集合中的退化关键词,将相似视频替换初始样本集合中的退化视频,得到目标样本集合,根据目标样本集合对排序模型进行训练,使得排序模型学习目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,由于可以自动确定退化关键词在最近一段时间的相似关键词,并可以自动确定退化视频在最近一段时间的相似视频,这样得到的目标样本集合,每一目标样本都是最新的关键词和视频,从而训练完成的排序模型可以解决消费特征退化的问题,而且不需要人工标注样本,解决了相关技术中需要人工标注样本导致训练时间长、人力成本高的问题。
图2是根据一示例性实施例示出的一种排序模型的训练方法的流程图,如图2所示,该排序模型的训练方法用于服务器等电子设备中,包括以下步骤。
在步骤S21中,获取初始样本集合,所述初始样本集合中的初始样本包括初始关键词、初始视频以及所述初始关键词和所述初始视频之间的关联关系标注。
在步骤S22中,根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词。
比较初始关键词在当前统计周期内的访问量信息和第一预设时间前的历史统计周期内的访问量信息,如果当前统计周期内的访问量信息相比历史统计周期内的访问量信息中访问量下降较多,则确定该初始关键词的消费特征退化,将该初始关键词记为第一退化关键词。
在一个示例性实施例中,根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词,包括:获取所述初始样本集合中初始关键词在当前统计周期内的访问量,作为当前访问量,并获取所述初始关键词在第一预设时间前历史统计周期内的访问量,作为历史访问量;若所述当前访问量小于所述历史访问量,且所述当前访问量满足预设访问量条件,则确定所述初始关键词为第一退化关键词。
其中,统计周期例如可以为7天,第一预设时间例如可以为一个月,具体可以根据需求确定,这里不作为限定。
基于历史数据,对初始样本集合中初始关键词在当前统计周期内的访问量进行统计,得到当前访问量,并对初始关键词在第一预设时间(如一个月)前历史统计周期内的访问量进行统计,得到历史访问量,比较历史访问量与当前访问量,如果当前访问量小于历史访问量,而且当前访问量满足预设访问量条件,则确定初始关键词为第一退化关键词。其中,预设访问量条件可以为当前访问量小于历史访问量的预设访问量比例或者当前访问量小于预设访问量,所述预设访问量比例例如可以是一半,所述预设访问量例如可以是70。当前统计周期例如可以是最近七天,历史统计周期例如可以是一个月前的七天,即以七天作为统计窗口。
通过比较当前访问量与历史访问量,可以准确地确定消费特征退化的初始关键词,以便于对消费特征退化的初始关键词进行替换。
在步骤S23中,根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频。
比较初始样本集合中初始样本的初始关键词和初始视频在当前统计周期(如七天)内的展示次数和第一预设时间(如一个月)前的历史统计周期内的展示次数,如果当前统计周期内的展示次数相比历史统计周期内的展示次数下降较多,则确定所述相关联的初始关键词和初始视频为消费特征退化的关联初始关键词和初始视频,可以将该关联初始关键词和初始视频作为关联第二退化关键词和退化视频。
在一个示例性实施例中,根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频,包括:获取所述初始样本集合中具有关联关系的初始关键词和初始视频在当前统计周期内的展示次数,作为当前展示次数,并获取所述具有关联关系的初始关键词和初始视频在第一预设时间前历史统计周期内的展示次数,作为历史展示次数;若所述当前展示次数小于所述历史展示次数,且所述当前展示次数满足预设展示次数条件,则确定所述具有关联关系的初始关键词和初始视频为消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频。
其中,所述具有关联关系的初始关键词和初始视频是一条初始样本中所包括的初始关键词和初始视频。
基于历史数据,对初始样本集合中具有关联关系的初始关键词和初始视频在当前统计周期(如最近七天)内的展示次数进行统计,得到当前展示次数,并对初始样本集合中具有关联关系的初始关键词和初始视频在第一预设时间(如一个月)前历史统计周期(如一个月前七天)的展示次数进行统计,得到历史展示次数,比较当前展示次数与历史展示次数,如果当前展示次数小于历史展示次数,且当前展示次数满足预设展示次数条件,则确定所述具有关联关系的初始关键词和初始视频为消费特征退化的初始关键词和初始视频,可以将该具有关联关系的初始关键词和初始视频作为具有关联关系的第二退化关键词和退化视频。其中,预设展示次数条件可以为当前展示次数小于历史展示次数的预设次数比例或者当前展示次数小于预设展示次数,所述预设次数比例例如可以是一半,所述预设展示次数例如可以为10。
通过比较当前展示次数与历史展示次数,可以准确地确定消费特征退化的具有关联关系的初始关键词和初始视频,以便于对消费特征退化的具有关联关系的初始关键词和初始视频进行替换。
在步骤S24中,根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词。
基于用户最近的历史数据(如最近半年或一个月的历史数据),获取所述第一退化关键词对应的第一搜索行为,并获取所述第一搜索行为一段时间内的搜索行为,获取该一段时间内的搜索行为中所使用的关键词,计算这些关键词与所述第一退化关键词的相似度,如果相似度大于或等于关键词相似度阈值,则确定相似度对应的关键词为所述第一退化关键词的第一相似关键词。其中,所述关键词相似度阈值例如可以为0.8。
在一个示例性实施例中,根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词,包括:根据所述第一退化关键词对应的第一搜索行为,确定同一用户的关联搜索行为,作为第一关联搜索行为;确定所述第一退化关键词与所述第一关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第一关联搜索行为中关键词确定为所述第一相似关键词。
根据第一退化关键词对应的第一搜索行为,从同一用户的搜索行为中获取与第一搜索行为关联的搜索行为,得到第一关联搜索行为,获取第一关联搜索行为中的关键词,计算第一退化关键词与第一关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的第一关联搜索行为中关键词确定为第一相似关键词。在同一用户的关联搜索行为中很有可能会有相似的关键词,从而从同一用户的关联搜索行为中可以快速的获取到第一退化关键词的相似关键词。
在一个示例性实施例中,根据所述第一退化关键词对应的第一搜索行为,确定同一用户的关联搜索行为,作为第一关联搜索行为,包括:根据所述第一退化关键词对应的第一搜索行为,确定与所述第一搜索行为的时间间隔不超过预设间隔的同一用户的其他搜索行为;若所述第一搜索行为与所述其他搜索行为之间没有推荐视频的消费行为,则确定所述其他搜索行为为所述第一关联搜索行为。
其中,所述预设间隔可以是基于用户的使用习惯确定的,在预设间隔内用户一般是对相同的内容进行搜索,所以在预设间隔内的关联搜索行为中可能会存在相似的关键词。所述预设间隔例如可以是30分钟。
根据第一退化关键词对应的第一搜索行为,获取存在该第一搜索行为的同一用户在第一搜索行为的预设间隔内的其他搜索行为,如果第一搜索行为与其他搜索行为之间没有推荐视频的消费行为,即该同一用户没有点击或观看推荐视频,则确定其他搜索行为为第一关联搜索行为。通过确定准确的关联搜索行为,可以提高确定相似关键词的速度和准确性。
在步骤S25中,根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频。
基于用户最近的历史数据(如最近半年或一个月的历史数据),获取所述第二退化关键词对应的第二搜索行为,并获取所述第二搜索行为一段时间(如30分钟)内的搜索行为,获取该一段时间内的搜索行为中所使用的关键词,计算这些关键词与所述第二退化关键词的相似度,如果相似度大于或等于关键词相似度阈值,则确定相似度对应的关键词为所述第二退化关键词的第二相似关键词。获取第二相似关键词关联的视频,分别计算这些视频与退化视频的相似度,如果相似度大于或等于视频相似度阈值,则确定该相似度对应的视频为退化视频的相似视频,该第二相似关键词与相似视频为相关联的第二相似关键词和相似视频。
在一个示例性实施例中,根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频,包括:
根据所述第二退化关键词对应的第二搜索行为,确定同一用户的关联搜索行为,作为第二关联搜索行为;
确定所述第二退化关键词与所述第二关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第二关联搜索行为中关键词确定为所述第二相似关键词;
获取所述第二相似关键词的关联视频,并确定所述关联视频与所述退化视频的相似度,作为视频相似度;
将所述视频相似度大于视频相似度阈值且生产日期为当前时间之前第二预设时间内的关联视频确定为所述相似视频,得到具有关联关系的第二相似关键词和相似视频。
根据第二退化关键词对应的第一搜索行为,从同一用户的搜索行为中获取与第二搜索行为关联的搜索行为,得到第二关联搜索行为,即获取同一用户在第二搜索行为的预设间隔内的其他搜索行为,如果第二搜索行为与其他搜索行为之间没有推荐视频的消费行为,则确定其他搜索行为为第二关联搜索行为。获取第二关联搜索行为中的关键词,计算第二退化关键词与第二关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的第二关联搜索行为中关键词确定为第二相似关键词。获取与第二相似关键词关联的视频,得到第二相似关键词的关联视频,计算关联视频与退化视频的相似度,作为视频相似度,如果视频相似度大于视频相似度阈值且关联视频的生产日期在当前时间之前第二预设时间内,则确定该关联视频为退化视频的相似视频,该相似视频与第二相似关键词为具有关联关系的第二相似关键词和相似视频。其中,所述第二预设时间例如可以是30天,也即关联视频的生产日期为最近30天。
在同一用户的关联搜索行为中很有可能会有相似的关键词,从而从同一用户的关联搜索行为中可以快速的获取到第二退化关键词的第二相似关键词,并基于第二相似关键词关联的视频可以快速获取到退化视频的相似视频。
在步骤S26中,将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
第一相似关键词为第一退化关键词的相似关键词,第一退化关键词为消费特征退化的关键词,从而可以直接将第一相似关键词替换初始样本中的第一退化关键词,得到目标样本,目标样本中的其他内容与初始样本相同,即第一相似关键词与第一退化关键词所对应的初始视频具有关联关系,且关联关系标注和视频质量标注与第一退化关键词所在的初始样本相同;具有关联关系的第二退化关键词和退化视频是消费特征退化的关键词和视频,从而使用得到的具有关联关系的第二相似关键词和相似视频替换初始样本中的第二退化关键词和退化视频,得到目标样本,目标样本中的其他内容与初始样本的其他内容相同,即具有关联关系第二相似关键词和相似视频的关联关系标注与第二退化关键词和退化视频的关联关系标注相同,相似视频的视频质量标注与退化视频的视频质量标注相同。
在步骤S27中,根据所述目标样本集合,使得排序模型学习所述目标关键词和目标视频之间的关联关系,对排序模型进行训练,得到训练完成的排序模型。
本示例性实施例提供的排序模型的训练方法,通过首先确定消费特征退化的第一退化关键词,并基于确定的第一退化关键词获取对应的第一相似关键词,根据初始样本集合中具有关联关系的初始关键词和初始视频的展示次数信息,确定消费特征退化的第二退化关键词和退化视频,从而可以确定第一退化关键词的第一相似关键词,第二退化关键词的第二相似关键词,并基于第二相似关键词的关联视频确定退化视频的相似视频,从而可以将第一相似关键词替换初始样本集合中的第一退化关键词,将具有关联关系的第二相似关键词和相似视频替换初始样本集合中的第二退化关键词和退化视频,这样可以获取到更多最新的相似关键词和相似视频,即可以获取到更多的目标样本,从而可以为排序模型的重新训练提供充足的训练数据。
图3是根据一示例性实施例示出的一种排序模型的排序方法的流程图,如图3所示,该排序模型的排序方法用于服务器等电子设备中,包括以下步骤。
在步骤S31中,获取基于检索关键词召回的多个检索视频。
在接收到用户的检索关键词后,基于检索关键词在视频库中进行检索,召回多个视频,作为检索关键词对应的检索视频。
在步骤S32中,将所述检索关键词和每个所述检索视频分别输入训练完成的排序模型中,得到每个检索视频与所述检索关键词的关联关系概率;其中,所述排序模型是基于初始样本集合更新得到的目标样本集合训练得到的,所述目标样本集合是将初始样本集合中消费特征退化的初始关键词替换为所述初始关键词的相似关键词,并将初始样本集合中消费特征退化的初始视频替换为所述初始视频的相似视频得到的,所述相似关键词基于所述初始关键词的搜索行为确定。
统计检索关键词和每个检索视频的消费统计特征,得到多个消费统计特征,将每个消费统计特征分别输入训练完成的排序模型中,通过排序模型对消费统计特征进行处理,得到检索关键词和检索视频的关联关系概率,通过排序模型对多个消费统计特征分别进行处理后,得到检索关键词和每个检索视频的关联关系概率。其中,所述消费统计特征同上述实施例,这里不再赘述。
排序模型的训练过程为:获取初始样本集合,初始样本集合中的初始样本包括初始关键词、初始视频以及所述初始关键词和所述初始视频之间的关联关系标注;根据所述初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,分别作为退化关键词和退化视频;根据所述退化关键词对应的搜索行为,确定所述退化关键词的相似关键词,并确定所述退化视频的相似视频;将所述相似关键词替换所述初始样本集合中的退化关键词,并将所述相似视频替换所述初始样本集合中的退化视频,得到目标样本集合,所述目标样本集合中的目标样本包括目标关键词、目标视频以及所述目标关键词和目标视频之间的关联关系标注;根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型。每个步骤的具体内容参见上述实施例,这里不再赘述。
在一个示例性实施例中,所述消费特征退化的初始关键词和消费特征退化的初始视频的确定步骤包括:根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
所述相似关键词和相似视频的确定步骤包括:根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
所述目标样本集合的确定步骤包括:将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
上述各步骤的具体内容可参见上述示例性实施例中的排序模型的训练方法,这里不再赘述。
在步骤S33中,根据每个检索视频与所述检索关键词的关联关系概率,对所述多个检索视频进行排序。
可以按照关联关系概率从高到低的顺序,对多个检索视频进行排序,得到排序结果。
在一个示例性实施例中,将所述检索关键词和每个所述检索视频分别输入训练完成的排序模型中,得到每个检索视频与所述检索关键词的关联关系概率,包括:将所述检索关键词和每两个检索视频分别输入训练完成的排序模型中,得到每两个检索视频相对所述检索关键词的相对关联关系概率;
根据每个检索视频与所述检索关键词的关联关系概率,对所述多个检索视频进行排序,包括:根据每两个检索视频的相对关联关系概率,对所述多个检索视频进行排序。
在所述排序模型为基于Pairwise的排序模型时,将检索关键词和每两个检索视频分别输入排序模型,通过排序模型的处理,可以得到每两个检索视频的相对关联关系概率,从而基于每两个检索视频的相对关联关系概率,可以对多个检索视频进行排序。
通过排序模型确定每两个检索视频的相对关联关系概率,并基于相对关联关系概率可以快速的对多个检索视频进行排序。
本示例性实施例提供的排序模型的排序方法,通过将基于检索关键词召回的多个检索视频分别输入训练完成的排序模型中,得到每个检索视频与检索关键词的关联关系概率,根据每个检索视频与检索关键词的关联关系概率对多个检索视频进行排序,由于排序模型是基于初始样本集合更新得到的目标样本集合训练得到,而目标样本集合是初始样本集合中消费特征退化的初始关键词替换为初始关键词的相似关键词,将初始样本集合中消费特征退化的初始视频替换为初始视频的相似视频得到,而且相似关键词基于初始关键词在最近的搜索行为确定,从而可以相似关键词是初始关键词在最近一段时间的相似关键词,这样得到的目标样本集合,每一目标样本都是最新的关键词和视频,从而训练完成的排序模型可以解决消费特征退化的问题,而且不需要人工标注样本,解决了相关技术中需要人工标注样本导致训练时间长、人力成本高的问题,从而可以提高排序的准确性,能将消费较好的结果排到前面,把好的、热门的结果展示给用户。
图4是根据一示例性实施例示出的一种排序模型的训练装置的框图。参照图4,该装置包括初始样本获取模块41、退化关键词视频确定模块42、相似关键词视频确定模块43、样本内容替换模块44和模型训练模块45。
该初始样本获取模块41被配置为执行获取初始样本集合,所述初始样本集合中的初始样本包括初始关键词、初始视频以及所述初始关键词和所述初始视频之间的关联关系标注;
该退化关键词视频确定模块42被配置为执行根据所述初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,分别作为退化关键词和退化视频;
该相似关键词视频确定模块43被配置为执行根据所述退化关键词对应的搜索行为,确定所述退化关键词的相似关键词,并确定所述退化视频的相似视频;
该样本内容替换模块44被配置为执行将所述相似关键词替换所述初始样本集合中的退化关键词,并将所述相似视频替换所述初始样本集合中的退化视频,得到目标样本集合,所述目标样本集合中的目标样本包括目标关键词、目标视频以及所述目标关键词和目标视频之间的关联关系标注;
该模型训练模块45被配置为执行根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,所述训练完成的排序模型用于分别确定检索关键词和召回的多个视频之间的关联关系概率,所述关联关系概率用于作为对所述多个视频进行排序的依据。
可选的,所述退化关键词视频确定模块包括:
退化关键词确定单元,被配置为执行根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
退化视频确定单元,被配置为执行根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的关联初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
所述相似关键词视频确定模块包括:
相似关键词确定单元,被配置为执行根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
相似视频确定单元,被配置为执行根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
所述样本内容替换模块具体用于:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
可选的,所述退化关键词确定单元具体被配置为执行:
获取所述初始样本集合中初始关键词在当前统计周期内的访问量,作为当前访问量,并获取所述初始关键词在第一预设时间前历史统计周期内的访问量,作为历史访问量;
若所述当前访问量小于所述历史访问量,且所述当前访问量满足预设访问量条件,则确定所述初始关键词为第一退化关键词。
可选的,所述退化视频确定单元具体被配置为执行:
获取所述初始样本集合中具有关联关系的初始关键词和初始视频在当前统计周期内的展示次数,作为当前展示次数,并获取所述具有关联关系的初始关键词和初始视频在第一预设时间前历史统计周期内的展示次数,作为历史展示次数;
若所述当前展示次数小于所述历史展示次数,且所述当前展示次数满足预设展示次数条件,则确定所述具有关联关系的初始关键词和初始视频为消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频。
可选的,所述相似关键词确定单元包括:
关联行为确定子单元,被配置为执行根据所述第一退化关键词对应的第一搜索行为,确定同一用户的关联搜索行为,作为第一关联搜索行为;
相似关键词确定子单元,被配置为执行确定所述第一退化关键词与所述第一关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第一关联搜索行为中关键词确定为所述第一相似关键词。
可选的,所述关联行为确定子单元具体被配置为执行:
根据所述第一退化关键词对应的第一搜索行为,确定与所述第一搜索行为的时间间隔不超过预设间隔的同一用户的其他搜索行为;
若所述第一搜索行为与所述其他搜索行为之间没有推荐视频的消费行为,则确定所述其他搜索行为为所述第一关联搜索行为。
可选的,所述相似视频确定单元具体被配置为执行:
根据所述第二退化关键词对应的第二搜索行为,确定同一用户的关联搜索行为,作为第二关联搜索行为;
确定所述第二退化关键词与所述第二关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第二关联搜索行为中关键词确定为所述第二相似关键词;
获取所述第二相似关键词的关联视频,并确定所述关联视频与所述退化视频的相似度,作为视频相似度;
将所述视频相似度大于视频相似度阈值且生产日期为当前时间之前第二预设时间内的关联视频确定为所述相似视频,得到具有关联关系的第二相似关键词和相似视频。
可选的,所述模型训练模块包括:
特征获取单元,被配置为执行获取所述目标样本集合中目标样本的消费统计特征;
第一模型训练单元,被配置为执行根据所述目标样本的消费统计特征,对所述排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型。
可选的,所述目标样本还包括目标视频的视频质量标注;
所述模型训练模块包括:
视频对确定单元,被配置为执行根据所述目标样本集合中目标样本中的目标关键词和目标视频的关联关系标注和视频质量标注,确定同一目标关键词关联的两个目标视频,基于两个目标视频中每个目标视频对应的关联关系标注和视频质量标注,确定所述两个目标视频组成的视频对对应的相对关联关系标签;
第二模型训练单元,被配置为执行基于所述目标样本集合中目标样本所组成的多个视频对和标签,对基于Pairwise的排序模型进行训练,使得排序模型学习视频对中两个目标视频与同一目标关键词的相对关联关系,得到训练完成的排序模型。
图5是根据一示例性实施例示出的一种排序模型的排序装置的框图。参照图5,该装置包括获取模块51、关联概率确定模块52和排序模块53。
该获取模块51被配置为执行获取基于检索关键词召回的多个检索视频;
该关联概率确定模块52被配置为执行将所述检索关键词和每个所述检索视频分别输入训练完成的排序模型中,得到每个检索视频与所述检索关键词的关联关系概率;其中,所述排序模型是基于初始样本集合更新得到的目标样本集合训练得到的,所述目标样本集合是将初始样本集合中消费特征退化的初始关键词替换为所述初始关键词的相似关键词,并将初始样本集合中消费特征退化的初始视频替换为所述初始视频的相似视频得到的,所述相似关键词基于所述初始关键词的搜索行为确定;
该排序模块53被配置为执行根据每个检索视频与所述检索关键词的关联关系概率,对所述多个检索视频进行排序。
可选的,所述关联概率确定模块被配置为执行:
将所述检索关键词和每两个检索视频分别输入训练完成的排序模型中,得到每两个检索视频相对所述检索关键词的相对关联关系概率;
所述排序模块被配置为执行:
根据每两个检索视频的相对关联关系概率,对所述多个检索视频进行排序。
可选的,所述消费特征退化的初始关键词和消费特征退化的初始视频的确定步骤包括:
根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
所述相似关键词和相似视频的确定步骤包括:
根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
所述目标样本集合的确定步骤包括:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种电子设备的框图。例如,例如,电子设备600可以被提供为一服务器。参照图6,电子设备600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述排序模型的训练方法或排序模型的排序方法。
电子设备600还可以包括一个电源组件626被配置为执行电子设备600的电源管理,一个有线或无线网络接口650被配置为将电子设备600连接到网络,和一个输入输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器632,上述指令可由电子设备600的处理组件622执行以完成上述排序模型的训练方法或排序模型的排序方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现上述的排序模型的训练方法或排序模型的排序方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (26)

1.一种排序模型的训练方法,其特征在于,包括:
获取初始样本集合,所述初始样本集合中的初始样本包括初始关键词、初始视频以及所述初始关键词和所述初始视频之间的关联关系标注;
根据所述初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,分别作为退化关键词和退化视频;
获取所述退化关键词对应的搜索行为,获取所述搜索行为一段时间内的搜索行为所使用的关键词,确定所述关键词与所述退化关键词的相似度,并将相似度大于或等于关键词相似度阈值的关键词确定为所述退化关键词的相似关键词,并获取所述相似关键词关联的视频,确定所述视频与所述退化视频的相似度,将相似度大于或等于视频相似度阈值的视频确定为所述退化视频的相似视频;
将所述相似关键词替换所述初始样本集合中的退化关键词,并将所述相似视频替换所述初始样本集合中的退化视频,得到目标样本集合,所述目标样本集合中的目标样本包括目标关键词、目标视频以及所述目标关键词和目标视频之间的关联关系标注;
根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,所述训练完成的排序模型用于分别确定检索关键词和召回的多个视频之间的关联关系概率,所述关联关系概率用于作为对所述多个视频进行排序的依据。
2.根据权利要求1所述的方法,其特征在于,根据所述初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,分别作为退化关键词和退化视频,包括:
根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
获取所述退化关键词对应的搜索行为,获取所述搜索行为一段时间内的搜索行为所使用的关键词,确定所述关键词与所述退化关键词的相似度,并将相似度大于或等于关键词相似度阈值的关键词确定为所述退化关键词的相似关键词,并获取所述相似关键词关联的视频,确定所述视频与所述退化视频的相似度,将相似度大于或等于视频相似度阈值的视频确定为所述退化视频的相似视频,包括:
根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
将所述相似关键词替换所述初始样本集合中的退化关键词,并将所述相似视频替换所述初始样本集合中的退化视频,得到目标样本集合,包括:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
3.根据权利要求2所述的方法,其特征在于,根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词,包括:
获取所述初始样本集合中初始关键词在当前统计周期内的访问量,作为当前访问量,并获取所述初始关键词在第一预设时间前历史统计周期内的访问量,作为历史访问量;
若所述当前访问量小于所述历史访问量,且所述当前访问量满足预设访问量条件,则确定所述初始关键词为第一退化关键词。
4.根据权利要求2所述的方法,其特征在于,根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频,包括:
获取所述初始样本集合中具有关联关系的初始关键词和初始视频在当前统计周期内的展示次数,作为当前展示次数,并获取所述具有关联关系的初始关键词和初始视频在第一预设时间前历史统计周期内的展示次数,作为历史展示次数;
若所述当前展示次数小于所述历史展示次数,且所述当前展示次数满足预设展示次数条件,则确定所述具有关联关系的初始关键词和初始视频为消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频。
5.根据权利要求2所述的方法,其特征在于,根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词,包括:
根据所述第一退化关键词对应的第一搜索行为,确定同一用户的关联搜索行为,作为第一关联搜索行为;
确定所述第一退化关键词与所述第一关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第一关联搜索行为中关键词确定为所述第一相似关键词。
6.根据权利要求5所述的方法,其特征在于,根据所述第一退化关键词对应的第一搜索行为,确定同一用户的关联搜索行为,作为第一关联搜索行为,包括:
根据所述第一退化关键词对应的第一搜索行为,确定与所述第一搜索行为的时间间隔不超过预设间隔的同一用户的其他搜索行为;
若所述第一搜索行为与所述其他搜索行为之间没有推荐视频的消费行为,则确定所述其他搜索行为为所述第一关联搜索行为。
7.根据权利要求2所述的方法,其特征在于,根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频,包括:
根据所述第二退化关键词对应的第二搜索行为,确定同一用户的关联搜索行为,作为第二关联搜索行为;
确定所述第二退化关键词与所述第二关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第二关联搜索行为中关键词确定为所述第二相似关键词;
获取所述第二相似关键词的关联视频,并确定所述关联视频与所述退化视频的相似度,作为视频相似度;
将所述视频相似度大于视频相似度阈值且生产日期为当前时间之前第二预设时间内的关联视频确定为所述相似视频,得到具有关联关系的第二相似关键词和相似视频。
8.根据权利要求1-7任一项所述的方法,其特征在于,根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,包括:
获取所述目标样本集合中目标样本的消费统计特征;
根据所述目标样本的消费统计特征,对所述排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型。
9.根据权利要求1-7任一项所述的方法,其特征在于,所述目标样本还包括目标视频的视频质量标注;
根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,包括:
根据所述目标样本集合中目标样本中的目标关键词和目标视频的关联关系标注和视频质量标注,确定同一目标关键词关联的两个目标视频,基于两个目标视频中每个目标视频对应的关联关系标注和视频质量标注,确定所述两个目标视频组成的视频对对应的相对关联关系标签;
基于所述目标样本集合中目标样本所组成的多个视频对和标签,对基于Pairwise的排序模型进行训练,使得排序模型学习视频对中两个目标视频与同一目标关键词的相对关联关系,得到训练完成的排序模型。
10.一种排序模型的排序方法,其特征在于,包括:
获取基于检索关键词召回的多个检索视频;
将所述检索关键词和每个所述检索视频分别输入训练完成的排序模型中,得到每个检索视频与所述检索关键词的关联关系概率;其中,所述排序模型是基于初始样本集合更新得到的目标样本集合训练得到的,所述目标样本集合是将初始样本集合中消费特征退化的初始关键词替换为所述初始关键词的相似关键词,并将初始样本集合中消费特征退化的初始视频替换为所述初始视频的相似视频得到的,所述相似关键词和所述相似视频基于所述初始关键词的搜索行为确定;消费特征退化的初始关键词为退化关键词,消费特征退化的初始视频为退化视频,在基于初始关键词的搜索行为确定相似关键词和相似视频时,获取所述退化关键词对应的搜索行为,获取所述搜索行为一段时间内的搜索行为所使用的关键词,确定所述关键词与所述退化关键词的相似度,并将相似度大于或等于关键词相似度阈值的关键词确定为所述退化关键词的相似关键词,并获取所述相似关键词关联的视频,确定所述视频与所述退化视频的相似度,将相似度大于或等于视频相似度阈值的视频确定为所述退化视频的相似视频;
根据每个检索视频与所述检索关键词的关联关系概率,对所述多个检索视频进行排序。
11.根据权利要求10所述的方法,其特征在于,将所述检索关键词和每个所述检索视频分别输入训练完成的排序模型中,得到每个检索视频与所述检索关键词的关联关系概率,包括:
将所述检索关键词和每两个检索视频分别输入训练完成的排序模型中,得到每两个检索视频相对所述检索关键词的相对关联关系概率;
根据每个检索视频与所述检索关键词的关联关系概率,对所述多个检索视频进行排序,包括:
根据每两个检索视频的相对关联关系概率,对所述多个检索视频进行排序。
12.根据权利要求10所述的方法,其特征在于,所述消费特征退化的初始关键词和消费特征退化的初始视频的确定步骤包括:
根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
所述相似关键词和相似视频的确定步骤包括:
根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
所述目标样本集合的确定步骤包括:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
13.一种排序模型的训练装置,其特征在于,包括:
初始样本获取模块,被配置为执行获取初始样本集合,所述初始样本集合中的初始样本包括初始关键词、初始视频以及所述初始关键词和所述初始视频之间的关联关系标注;
退化关键词视频确定模块,被配置为执行根据所述初始样本集合中初始关键词的访问量信息以及初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,分别作为退化关键词和退化视频;
相似关键词视频确定模块,被配置为执行获取所述退化关键词对应的搜索行为,获取所述搜索行为一段时间内的搜索行为所使用的关键词,确定所述关键词与所述退化关键词的相似度,并将相似度大于或等于关键词相似度阈值的关键词确定为所述退化关键词的相似关键词,并获取所述相似关键词关联的视频,确定所述视频与所述退化视频的相似度,将相似度大于或等于视频相似度阈值的视频确定为所述退化视频的相似视频;
样本内容替换模块,被配置为执行将所述相似关键词替换所述初始样本集合中的退化关键词,并将所述相似视频替换所述初始样本集合中的退化视频,得到目标样本集合,所述目标样本集合中的目标样本包括目标关键词、目标视频以及所述目标关键词和目标视频之间的关联关系标注;
模型训练模块,被配置为执行根据所述目标样本集合,对排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型,所述训练完成的排序模型用于分别确定检索关键词和召回的多个视频之间的关联关系概率,所述关联关系概率用于作为对所述多个视频进行排序的依据。
14.根据权利要求13所述的装置,其特征在于,所述退化关键词视频确定模块包括:
退化关键词确定单元,被配置为执行根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
退化视频确定单元,被配置为执行根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
所述相似关键词视频确定模块包括:
相似关键词确定单元,被配置为执行根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
相似视频确定单元,被配置为执行根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
所述样本内容替换模块具体被配置为执行:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
15.根据权利要求14所述的装置,其特征在于,所述退化关键词确定单元具体被配置为执行:
获取所述初始样本集合中初始关键词在当前统计周期内的访问量,作为当前访问量,并获取所述初始关键词在第一预设时间前历史统计周期内的访问量,作为历史访问量;
若所述当前访问量小于所述历史访问量,且所述当前访问量满足预设访问量条件,则确定所述初始关键词为第一退化关键词。
16.根据权利要求14所述的装置,其特征在于,所述退化视频确定单元具体被配置为执行:
获取所述初始样本集合中具有关联关系的初始关键词和初始视频在当前统计周期内的展示次数,作为当前展示次数,并获取所述具有关联关系的初始关键词和初始视频在第一预设时间前历史统计周期内的展示次数,作为历史展示次数;
若所述当前展示次数小于所述历史展示次数,且所述当前展示次数满足预设展示次数条件,则确定所述具有关联关系的初始关键词和初始视频为消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频。
17.根据权利要求14所述的装置,其特征在于,所述相似关键词确定单元包括:
关联行为确定子单元,被配置为执行根据所述第一退化关键词对应的第一搜索行为,确定同一用户的关联搜索行为,作为第一关联搜索行为;
相似关键词确定子单元,被配置为执行确定所述第一退化关键词与所述第一关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第一关联搜索行为中关键词确定为所述第一相似关键词。
18.根据权利要求17所述的装置,其特征在于,所述关联行为确定子单元具体被配置为执行:
根据所述第一退化关键词对应的第一搜索行为,确定与所述第一搜索行为的时间间隔不超过预设间隔的同一用户的其他搜索行为;
若所述第一搜索行为与所述其他搜索行为之间没有推荐视频的消费行为,则确定所述其他搜索行为为所述第一关联搜索行为。
19.根据权利要求14所述的装置,其特征在于,所述相似视频确定单元具体被配置为执行:
根据所述第二退化关键词对应的第二搜索行为,确定同一用户的关联搜索行为,作为第二关联搜索行为;
确定所述第二退化关键词与所述第二关联搜索行为中关键词的相似度,作为关键词相似度,将关键词相似度大于或等于关键词相似度阈值的所述第二关联搜索行为中关键词确定为所述第二相似关键词;
获取所述第二相似关键词的关联视频,并确定所述关联视频与所述退化视频的相似度,作为视频相似度;
将所述视频相似度大于视频相似度阈值且生产日期为当前时间之前第二预设时间内的关联视频确定为所述相似视频,得到具有关联关系的第二相似关键词和相似视频。
20.根据权利要求13-19任一项所述的装置,其特征在于,所述模型训练模块包括:
特征获取单元,被配置为执行获取所述目标样本集合中目标样本的消费统计特征;
第一模型训练单元,被配置为执行根据所述目标样本的消费统计特征,对所述排序模型进行训练,使得排序模型学习所述目标关键词和目标视频之间的关联关系,得到训练完成的排序模型。
21.根据权利要求13-19任一项所述的装置,其特征在于,所述目标样本还包括目标视频的视频质量标注;
所述模型训练模块包括:
视频对确定单元,被配置为执行根据所述目标样本集合中目标样本中的目标关键词和目标视频的关联关系标注和视频质量标注,确定同一目标关键词关联的两个目标视频,基于两个目标视频中每个目标视频对应的关联关系标注和视频质量标注,确定所述两个目标视频组成的视频对对应的相对关联关系标签;
第二模型训练单元,被配置为执行基于所述目标样本集合中目标样本所组成的多个视频对和标签,对基于Pairwise的排序模型进行训练,使得排序模型学习视频对中两个目标视频与同一目标关键词的相对关联关系,得到训练完成的排序模型。
22.一种排序模型的排序装置,其特征在于,包括:
获取模块,被配置为执行获取基于检索关键词召回的多个检索视频;
关联概率确定模块,被配置为执行将所述检索关键词和每个所述检索视频分别输入训练完成的排序模型中,得到每个检索视频与所述检索关键词的关联关系概率;其中,所述排序模型是基于初始样本集合更新得到的目标样本集合训练得到的,所述目标样本集合是将初始样本集合中消费特征退化的初始关键词替换为所述初始关键词的相似关键词,并将初始样本集合中消费特征退化的初始视频替换为所述初始视频的相似视频得到的,所述相似关键词和所述相似视频基于所述初始关键词的搜索行为确定;消费特征退化的初始关键词为退化关键词,消费特征退化的初始视频为退化视频,在基于初始关键词的搜索行为确定相似关键词和相似视频时,获取所述退化关键词对应的搜索行为,获取所述搜索行为一段时间内的搜索行为所使用的关键词,确定所述关键词与所述退化关键词的相似度,并将相似度大于或等于关键词相似度阈值的关键词确定为所述退化关键词的相似关键词,并获取所述相似关键词关联的视频,确定所述视频与所述退化视频的相似度,将相似度大于或等于视频相似度阈值的视频确定为所述退化视频的相似视频;
排序模块,被配置为执行根据每个检索视频与所述检索关键词的关联关系概率,对所述多个检索视频进行排序。
23.根据权利要求22所述的装置,其特征在于,所述关联概率确定模块被配置为执行:
将所述检索关键词和每两个检索视频分别输入训练完成的排序模型中,得到每两个检索视频相对所述检索关键词的相对关联关系概率;
所述排序模块被配置为执行:
根据每两个检索视频的相对关联关系概率,对所述多个检索视频进行排序。
24.根据权利要求22所述的装置,其特征在于,所述消费特征退化的初始关键词和消费特征退化的初始视频的确定步骤包括:
根据所述初始样本集合中初始关键词的访问量信息,确定消费特征退化的初始关键词,将消费特征退化的初始关键词作为第一退化关键词;
根据所述初始样本集合中初始关键词和初始视频的展示次数信息,确定消费特征退化的初始关键词和初始视频,作为具有关联关系的第二退化关键词和退化视频;
所述相似关键词和相似视频的确定步骤包括:
根据所述第一退化关键词对应的第一搜索行为,确定所述第一退化关键词的相似关键词,作为第一相似关键词;
根据所述第二退化关键词对应的第二搜索行为,确定所述第二退化关键词对应的相似关键词,作为第二相似关键词,并从所述第二相似关键词关联的视频中确定所述退化视频的相似视频,得到具有关联关系的第二相似关键词和相似视频;
所述目标样本集合的确定步骤包括:
将所述第一相似关键词替换所述初始样本集合中的第一退化关键词,并将所述具有关联关系的第二相似关键词和相似视频替换所述初始样本集合中具有关联关系的第二退化关键词和退化视频,得到目标样本集合。
25.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的排序模型的训练方法或实现如权利要求10-12任一项所述的排序模型的排序方法。
26.一种计算机可读存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至9中任一项所述的排序模型的训练方法或如权利要求10-12任一项所述的排序模型的排序方法。
CN202110940466.XA 2021-08-17 2021-08-17 排序模型的训练、排序方法、装置、电子设备及存储介质 Active CN113392266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110940466.XA CN113392266B (zh) 2021-08-17 2021-08-17 排序模型的训练、排序方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110940466.XA CN113392266B (zh) 2021-08-17 2021-08-17 排序模型的训练、排序方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113392266A CN113392266A (zh) 2021-09-14
CN113392266B true CN113392266B (zh) 2021-12-14

Family

ID=77622690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110940466.XA Active CN113392266B (zh) 2021-08-17 2021-08-17 排序模型的训练、排序方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113392266B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304512B (zh) * 2018-01-19 2021-05-25 北京奇艺世纪科技有限公司 一种视频搜索引擎粗排序方法、装置及电子设备
CN108959644B (zh) * 2018-07-27 2020-04-14 北京字节跳动网络技术有限公司 搜索排序方法、装置、计算机设备和存储介质
CN111061954B (zh) * 2019-12-19 2022-03-15 腾讯音乐娱乐科技(深圳)有限公司 搜索结果排序方法、装置及存储介质
CN112364184B (zh) * 2020-11-12 2024-04-30 北京达佳互联信息技术有限公司 多媒体数据的排序方法、装置、服务器及存储介质
CN112989118B (zh) * 2021-02-04 2023-08-18 北京奇艺世纪科技有限公司 视频召回方法及装置

Also Published As

Publication number Publication date
CN113392266A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
WO2018157625A1 (zh) 基于强化学习的排序学习方法及服务器
CN109511015B (zh) 多媒体资源推荐方法、装置、存储介质及设备
CN114707074B (zh) 一种内容推荐方法、设备和系统
CN109684548B (zh) 一种基于用户图谱的数据推荐方法
CN111597446B (zh) 基于人工智能的内容推送方法、装置、服务器和存储介质
CN115577185B (zh) 基于混合推理和中智群决策的慕课推荐方法及装置
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN111831924A (zh) 内容推荐方法、装置、设备及可读存储介质
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN111191133B (zh) 业务搜索处理方法、装置及设备
CN110769267B (zh) 一种视频的展示方法、装置、电子设备及存储介质
CN114339417A (zh) 一种视频推荐的方法、终端设备和可读存储介质
CN112597389A (zh) 一种基于用户行为实现物品推荐的控制方法及装置
CN114222000B (zh) 信息推送方法、装置、计算机设备和存储介质
CN113392266B (zh) 排序模型的训练、排序方法、装置、电子设备及存储介质
CN111581435A (zh) 一种视频封面图像生成方法、装置、电子设备及存储介质
CN112989174A (zh) 信息推荐方法及装置、介质和设备
CN113836388A (zh) 信息推荐方法、装置、服务器及存储介质
CN110971973A (zh) 一种视频推送方法、装置及电子设备
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN110188277A (zh) 一种资源的推荐方法及装置
JP2007249600A (ja) 目的データをカテゴリに分類する方法
CN113010788B (zh) 信息推送方法及装置、电子设备、计算机可读存储介质
CN114090777A (zh) 文本数据处理方法及装置
CN114329167A (zh) 超参数学习、智能推荐、关键词和多媒体推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant