CN112100444B - 一种基于机器学习的搜索结果排序方法及系统 - Google Patents

一种基于机器学习的搜索结果排序方法及系统 Download PDF

Info

Publication number
CN112100444B
CN112100444B CN202011033035.7A CN202011033035A CN112100444B CN 112100444 B CN112100444 B CN 112100444B CN 202011033035 A CN202011033035 A CN 202011033035A CN 112100444 B CN112100444 B CN 112100444B
Authority
CN
China
Prior art keywords
user
features
movie
search
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011033035.7A
Other languages
English (en)
Other versions
CN112100444A (zh
Inventor
马荣深
吴上波
韩亚
吴廷锋
闫立鑫
陈灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202011033035.7A priority Critical patent/CN112100444B/zh
Publication of CN112100444A publication Critical patent/CN112100444A/zh
Application granted granted Critical
Publication of CN112100444B publication Critical patent/CN112100444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据排序技术领域,公开了一种基于机器学习的搜索结果排序方法及系统,用以对搜索结果进行更加精准排序,从而提高搜索系统的可信度与用户的使用体验。本发明通过对过去时间内的用户搜索日志进行数据集与特征的构建,在数据集构建时,查询条件与返回文档之间的相关度是根据用户信息与检索条件两者结合进行分组统计点击率,而后根据点击率的大小确定的。将最后得到的数据集进行迭代训练得到排序模型,通过该模型进行排序。本发明适用于搜索结果排序。

Description

一种基于机器学习的搜索结果排序方法及系统
技术领域
本发明涉及数据排序技术领域,特别涉及一种基于机器学习的搜索结果排序方法及系统。
背景技术
随着人工智能与大数据的迅猛发展,计算机能够根据用户输入的检索条件,从海量的物品中选出与当前检索条件相关的物品展示给用户。然而,所检索出的物品并不是都与当前检索条件相关,我们要做的便是对所召回的这些物品根据用户的需求进行有效的排序。因此如何正确地对召回集中的物品进行排序是搜索领域非常关注的问题。
目前的排序方案大多是根据人工制定的策略进行排序,如当用户检索刘德华的电影,人工地制定策略对所检索出的影片的各个信息字段进行加权,而这些权重需要特定的专家人员根据业务的需求进行确定。这一方案的缺点很明显,就是非常耗费人力成本与时间成本,且每当业务需求变化时,便需要重新确定这些权重。近几年来随着业务的多元化,这类方法对复杂的业务场景的适应性较差,已经不再适应新的业务场景。因此需要一种高效且准确的排序方法来提升搜索系统的准确度。
发明内容
本发明要解决的技术问题是:提供一种基于机器学习的搜索结果排序方法及系统,用以对搜索结果进行更加精准排序,从而提高搜索系统的可信度与用户的使用体验。
为解决上述问题,本发明采用的技术方案是:
一种基于机器学习的搜索结果排序方法,其特征在于,包括以下步骤:
步骤一:获得要进行排序的搜索召回集,过去一周的检索记录,以及所涉及到的影片信息数据和用户信息数据;
步骤二:对所述检索记录进行预处理,所述预处理包括确定检索条件与物品相关度;在确定相关度时将用户信息与检索条件两者结合进行分组,对于每个分组分别统计该分组下每部影片的点击率,根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部影片的相关度;
步骤三:根据所述检索记录、用户信息与影片信息生成排序特征,并排序特征附加到训练集与测试集上;
步骤四:对训练集进行编码;
步骤五:利用编码后的训练集训练模型,并使用得到的模型对测试集进行预测得到预测结果;
步骤六:利用所述预测结果对物品候选集的物品进行排序。
为了最大化的实现精准排序,具体的,检索记录包含了用户ID、检索条件、检索的视频ID列表、观看时间及点击位置;用户信息包括了用户ID和用户设备信息;影视信息包括了影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
进一步的,步骤三生成的排序特征可包括用户特征、影片特征、匹配类特征及上下文特征。
进一步的,步骤四对训练集编码的步骤包括:将训练集中所有类别特征映射到从1开始的数字编号中,所述类别特征是指在有限选项内取值的特征,在编码完成后需要将这些字段的映射关系导出到数据库中进行存储,以便在下次编码时能够保证映射关系的唯一性。
一种基于机器学习的搜索结果排序系统,包括:
数据获取模块,用于数据的获取,获取的数据包括:要进行排序的搜索召回集,过去一周的检索记录,以及所涉及到的影片信息数据和用户信息数据;
数据预处理模块,用于数据的预处理操作,包括确定检索条件与物品相关度;在确定相关度时将用户信息与检索条件两者结合进行分组,对于每个分组分别统计该分组下每部影片的点击率,根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部影片的相关度;
编码模块,用于对训练集进行编码;
特征构建模块,用于根据检索记录、用户信息与影片信息生成排序特征,将排序特征附加到训练集与测试集上;
训练模块,用于模型的训练,将训练集传入模型进行迭代训练,得到模型;
排序模块,用于对搜索引擎所召回的物品进行排序。
具体的,检索记录包含了用户ID、检索条件、检索的视频ID列表、观看时间及点击位置;用户信息包括了用户ID和用户设备信息;影视信息包括了影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
具体的,所述排序特征可包括用户特征、影片特征、匹配类特征及上下文特征。
具体的,编码模块对训练集编码的步骤包括:将训练集中所有类别特征映射到从1开始的数字编号中,所述类别特征是指在有限选项内取值的特征,在编码完成后需要将这些字段的映射关系导出到数据库中进行存储。
本发明的有益效果是:本发明结合用户特征与检索条件得到的相关度所训练出的模型更能够拟合不同类型用户的检索意图,这样做有效地提升了搜索引擎的准确率,同时也优化了用户的使用体验,使得用户能够更好地体验科技发展带来的便利。
附图说明
图1是本发明基于机器学习的搜索结果排序方法的程序流程图;
图2是本发明实施例结合用户特征与检索条件两者共同确定相关度的流程图。
具体实施方式
本发明为了能对搜索结果进行精准排序,从而提高搜索系统的可信度与用户的使用体验,通过对过去时间内的用户搜索日志进行数据集与特征的构建,在数据集构建时,查询条件与返回文档之间的相关度是根据用户信息与检索条件两者结合进行分组统计点击率,而后根据点击率的大小确定的。将最后得到的数据集进行迭代训练得到排序模型,通过该模型进行排序。
本发明与其它技术方案不同的是:本技术方案在确定查询条件与返回文档之间的相关度时不是像其它方案一样仅根据检索条件下的物品点击率确定相关度,而是检索条件与用户特征两者进行分组确定点击率。比如说检索条件为“actor:刘德华”,用户特征为用户的机器型号,那么在进行统计时就根据“actor:刘德华”与用户的机器型号两者一起分组,对每组分别计算点击率(影片点击数/检索条件出现总数),根据点击率的大小确定相关度。其它方案则是仅根据“actor:刘德华”进行分组统计而没有考虑到用户的机器型号。
本发明的具体步骤包括:
(1)从日志中获取一周的检索记录,以及从数据库中获取用户信息与影视信息;其中,检索记录通常包含了用户ID、检索条件、检索结果、点击结果、观看时间和观影时长;用户信息通常包括了用户ID和用户设备信息;影视信息通常包括了影视ID、导演、演员、所属地区、上映日期、资源方、收费信息、时长、类型、评分、集数及播放次数。
(2)通过遍历检索记录,根据所涉及到的用户信息与检索条件两者结合进行分组,对于每个分组统计各个影片的点击次数与检索条件的次数,根据这些统计值,分别计算各个影片的点击率,点击率=某检索条件下影片点击数/检索条件出现数;根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部影片的相关度。
(3)根据所述检索记录、用户信息与影片信息生成排序特征,该排序特征是指在机器学习过程中所需要学习的维度,排序特征包括但不限于:
a)用户特征:根据用户信息可直接得到用户的设备信息。
b)影片特征:根据影视信息可直接得到影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
c)匹配类特征:根据检索条件与影片的信息,可以计算出检索条件与影片之间的匹配度。
d)上下文特征:根据检索记录可以得到用户在星期几观看、哪个小时段观看。
(4)对数据集进行编码。所述编码是指对类别特征从1开始进行编号。所述类别特征是指在有限选项内取值的特征,如影片的类型、导演等。
(5)模型训练与预测,使用机器学习的方法对上述编码后的数据集进行拟合,得到模型。使用上述模型对搜索引擎检索出的影片做排序。
下面通过实施例和附图对本发明做进一步的说明。
参考图1,图1为实施例提供的基于机器学习的搜索结果排序方法的程序流程图,具体包括:
(1)数据的读取:该部分主要通过数据获取模块从日志平台获取过去一周内的用户检索日志,记录的字段为用户ID、检索条件、检索的视频ID列表、点击结果及检索时间。同时也需要从数据库中获取用户和影片的相关信息,包括了影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
(2)数据预处理:通过数据预处理模块遍历检索记录,将用户的设备信息与之关联。参考图2,图2为本发明实施例结合用户特征与检索条件两者共同确定相关度的流程图,具体包括,将用户信息(这里指的是设备信息)与检索条件两者结合进行分组,对于每个分组分别统计该分组下每部影片的点击率,所述点击率的计算公式为:点击率=在该分组下的影片点击数/该组出现次数。根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部影片的相关度。例如,根据点击率将相关度划分为5个等级(0最不相关,4为最相关);点击率小于0.1为等级0,0.1到0.2为等级1,0.2到0.4为等级2,0.4到0.5为等级3,点击率大于0.5的为等级4。
(3)特征构建:特征构建模块根据所述检索记录、用户信息与影片信息生成排序特征,将排序特征附加到训练集与测试集上,所述排序特征是指在机器学习过程中所需要学习的维度,特征包括但不限于:
a)用户特征:根据用户信息可直接得到用户的设备信息。
b)影片特征:根据影视信息可直接得到影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数、播放次数。
c)匹配类特征:根据检索条件与影片的信息,可以计算出检索条件与影片之间的匹配度。
d)上下文特征:根据检索记录可以得到用户在星期几观看、哪个小时段观看。
(4)编码:该部分主要通过编码模块对训练集中的类别特征进行了编码,将所有类别特征映射到从1开始的数字编号中,所述类别特征是指在有限选项内取值的特征,如影片的类型、导演等。这样做的原因是训练阶段所用到的训练工具(LightGBM框架)只支持非负数的类别特征。需注意的是,在编码完成后需要将这些字段的映射关系导出到数据库中进行存储,以便在下次编码时能够保证映射关系的唯一性。
(5)模型训练:该部分将前面编码好的数据传入LightGBM框架中进行训练,所述LightGBM框架是一个梯度提升框架,使用基于决策树的学习算法,能够高效的处理大规模数据。在训练模型时需先设置好模型的训练参数,设置的主要参数包括但不限于:'boosting_type':'gbdt'、'objective':'lambdarank'、'max_depth':7、'min_data_in_leaf':100、'num_leaves':70、'bagging_freq':5、'min_gain_to_split':0.2、learning_rate':0.01、'feature_fraction':0.8、'bagging_fraction':0.8。
(6)排序:该部分将运用训练好的模型对检索结果进行排序;在进行排序之前,先要根据数据中的用户ID与影片ID从数据库中获取相应数据,附加步骤(3)涉及到的特征,其次根据步骤(4)所述进行编码操作;需要注意的是。编码好后便可以使用模型进行预测了,对每部影片的预测值从大到小进行排序即可得到预测后的排序结果了。

Claims (8)

1.一种基于机器学习的搜索结果排序方法,其特征在于,包括以下步骤:
步骤一:获得要进行排序的搜索召回集,过去一周的检索记录,以及所涉及到的影片信息数据和用户信息数据;
步骤二:对所述检索记录进行预处理,所述预处理包括确定检索条件与物品相关度;在确定相关度时将用户信息与检索条件两者结合进行分组,对于每个分组分别统计该分组下每部影片的点击率,根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部影片的相关度;
步骤三:根据所述检索记录、用户信息与影片信息生成排序特征,并排序特征附加到训练集与测试集上;
步骤四:对训练集进行编码;
步骤五:利用编码后的训练集训练模型,并使用得到的模型对测试集进行预测得到预测结果;
步骤六:利用所述预测结果对物品候选集的物品进行排序。
2.如权利要求1所述的一种基于机器学习的搜索结果排序方法,其特征在于,检索记录包含了用户ID、检索条件、检索的视频ID列表、观看时间及点击位置;用户信息包括了用户ID和用户设备信息;影视信息包括了影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
3.如权利要求1所述的一种基于机器学习的搜索结果排序方法,其特征在于,步骤三生成的排序特征包括用户特征、影片特征、匹配类特征及上下文特征。
4.如权利要求1所述的一种基于机器学习的搜索结果排序方法,其特征在于,步骤四对训练集编码的步骤包括:将训练集中所有类别特征映射到从1开始的数字编号中,所述类别特征是指在有限选项内取值的特征,在编码完成后需要将这些字段的映射关系导出到数据库中进行存储。
5.一种基于机器学习的搜索结果排序系统,其特征在于,包括:
数据获取模块,用于数据的获取,获取的数据包括:要进行排序的搜索召回集,过去一周的检索记录,以及所涉及到的影片信息数据和用户信息数据;
数据预处理模块,用于数据的预处理操作,包括确定检索条件与物品相关度;在确定相关度时将用户信息与检索条件两者结合进行分组,对于每个分组分别统计该分组下每部影片的点击率,根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部影片的相关度;
编码模块,用于对训练集进行编码;
特征构建模块,用于根据检索记录、用户信息与影片信息生成排序特征,将排序特征附加到训练集与测试集上;
训练模块,用于模型的训练,将训练集传入模型进行迭代训练,得到模型;
排序模块,用于对搜索引擎所召回的物品进行排序。
6.如权利要求5所述的一种基于机器学习的搜索结果排序系统,其特征在于,检索记录包含了用户ID、检索条件、检索的视频ID列表、观看时间及点击位置;用户信息包括了用户ID和用户设备信息;影视信息包括了影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
7.如权利要求5所述的一种基于机器学习的搜索结果排序系统,其特征在于,所述排序特征包括用户特征、影片特征、匹配类特征及上下文特征。
8.如权利要求5所述的一种基于机器学习的搜索结果排序系统,其特征在于,编码模块对训练集编码的步骤包括:将训练集中所有类别特征映射到从1开始的数字编号中,所述类别特征是指在有限选项内取值的特征,在编码完成后需要将这些字段的映射关系导出到数据库中进行存储。
CN202011033035.7A 2020-09-27 2020-09-27 一种基于机器学习的搜索结果排序方法及系统 Active CN112100444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011033035.7A CN112100444B (zh) 2020-09-27 2020-09-27 一种基于机器学习的搜索结果排序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011033035.7A CN112100444B (zh) 2020-09-27 2020-09-27 一种基于机器学习的搜索结果排序方法及系统

Publications (2)

Publication Number Publication Date
CN112100444A CN112100444A (zh) 2020-12-18
CN112100444B true CN112100444B (zh) 2022-02-01

Family

ID=73782420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011033035.7A Active CN112100444B (zh) 2020-09-27 2020-09-27 一种基于机器学习的搜索结果排序方法及系统

Country Status (1)

Country Link
CN (1) CN112100444B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130008B (zh) * 2022-08-31 2022-11-25 喀斯玛(北京)科技有限公司 一种基于机器学习模型算法的搜索排序方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8938463B1 (en) * 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US10467649B2 (en) * 2010-12-02 2019-11-05 Telenav, Inc. Advertisement delivery system with destination-centric advertisement delivery mechanism and method of operation thereof
CN104077306B (zh) * 2013-03-28 2018-05-11 阿里巴巴集团控股有限公司 一种搜索引擎的结果排序方法及系统
CN104636407B (zh) * 2013-11-15 2019-07-19 腾讯科技(深圳)有限公司 参数取值训练及搜索请求处理方法和装置
CN104462611B (zh) * 2015-01-05 2018-06-08 五八同城信息技术有限公司 信息排序模型的建模方法、排序方法及建模装置、排序装置
CN107832432A (zh) * 2017-11-15 2018-03-23 北京百度网讯科技有限公司 一种搜索结果排序方法、装置、服务器和存储介质
CN108255954A (zh) * 2017-12-20 2018-07-06 广州优视网络科技有限公司 应用检索方法、装置、存储介质以及终端
CN111339355A (zh) * 2020-05-21 2020-06-26 北京搜狐新媒体信息技术有限公司 一种视频推荐方法及系统

Also Published As

Publication number Publication date
CN112100444A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
US11645301B2 (en) Cross media recommendation
CN105653700B (zh) 视频检索方法及系统
CN101281540B (zh) 用于处理信息的设备、方法和计算机程序
CN110704674B (zh) 一种视频播放完整度预测方法及装置
CN101853295B (zh) 一种图像检索方法
CN105701216A (zh) 一种信息推送方法及装置
CN109189951A (zh) 一种多媒体资源推荐方法、设备及存储介质
WO2013185107A1 (en) Systems and methods for recognizing ambiguity in metadata
CN107844525A (zh) 一种基于用户行为的资讯个性化推荐方法、系统及装置
Garcia del Molino et al. Phd-gifs: personalized highlight detection for automatic gif creation
WO2021179481A1 (zh) 数据内容个性化推送冷启动方法、装置、设备和存储介质
CN109977299B (zh) 一种融合项目热度和专家系数的推荐算法
CN111061954B (zh) 搜索结果排序方法、装置及存储介质
CN109508407A (zh) 融合时间与兴趣相似度的电视产品推荐方法
CN112464100A (zh) 信息推荐模型训练方法、信息推荐方法、装置及设备
CN112100444B (zh) 一种基于机器学习的搜索结果排序方法及系统
CN104965903A (zh) 一种资源的推荐方法和装置
CN111159559A (zh) 根据用户需求和用户行为构建推荐引擎的方法
CN110569447B (zh) 一种网络资源的推荐方法、装置及存储介质
CN104506895B (zh) 视频归类方法
CN112163163B (zh) 多算法融合的信息推荐方法、装置和设备
CN115705379A (zh) 智能推荐方法及装置、设备、存储介质
CN111813992A (zh) 一种影视推荐候选集的排序系统及方法
CN113852864A (zh) 一种面向iptv终端应用的用户定制化服务推荐方法及系统
CN110111183A (zh) 一种产品推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant