CN114385906A - 一种预测方法、推荐方法、装置、设备以及存储介质 - Google Patents
一种预测方法、推荐方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN114385906A CN114385906A CN202111277532.6A CN202111277532A CN114385906A CN 114385906 A CN114385906 A CN 114385906A CN 202111277532 A CN202111277532 A CN 202111277532A CN 114385906 A CN114385906 A CN 114385906A
- Authority
- CN
- China
- Prior art keywords
- search
- historical
- user
- behavior data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000006399 behavior Effects 0.000 claims description 365
- 238000004590 computer program Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 106
- 238000004891 communication Methods 0.000 description 14
- 238000013461 design Methods 0.000 description 13
- 230000009286 beneficial effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012423 maintenance Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种预测方法、推荐方法、装置、设备以及存储介质,涉及计算机技术领域。本公开实施例至少解决相关技术中,预测用户偏好不准确的问题。该方法包括:获取多组历史行为数据;每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与历史搜索词对应的历史搜索结果,以及用户对历史搜索结果的历史行为操作;从多组历史行为数据中确定多组离散数据,以确定多组历史行为数据中除多组离散数据之外的多组目标行为数据;每组离散数据与每组目标行为数据之间的相关性小于第一阈值;基于多组目标行为数据,预测用户在请求搜索一个搜索词之后,对一个搜索词对应的搜索结果的行为操作。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种预测方法、推荐方法、装置、设备以及存储介质。
背景技术
在视频搜索场景中,在用户对设备推送的搜索结果中的视频进行点击、播放、点赞、关注等行为操作后,设备会生成相应的后验行为数据,并根据后验行为数据,计算用户对搜索结果中每个视频的偏好程度,以预测后续用户对视频的行为操作。
但是,用户的所有行为操作中,可能存在着一些的差异行为,这些差异行为并不能准确的反映出用户的偏好,这就可能导致设备预测后续用户对视频的行为操作不够准。
发明内容
本公开提供一种预测方法、推荐方法、装置、设备以及存储介质,以至少解决相关技术中,预测用户偏好不准确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种用户行为的预测方法,包括:获取多组历史行为数据;每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与历史搜索词对应的历史搜索结果,以及用户对历史搜索结果的历史行为操作;从多组历史行为数据中确定多组离散数据,以确定多组历史行为数据中除多组离散数据之外的多组目标行为数据;每组离散数据与每组目标行为数据之间的相关性小于第一阈值;基于多组目标行为数据,预测用户在请求搜索一个搜索词之后,对一个搜索词对应的搜索结果的行为操作。
可选的,上述每组离散数据中的历史搜索词所在的搜索词类目的搜索词占比小于第二阈值,和/或,每组离散数据对应的用户满意度小于第三阈值;其中,搜索词占比为一个搜索词类目中的历史搜索词的数量与所有搜索词类目中的历史搜索词的数量的比值;用户满意度用于表征用户对每组历史行为数据中的历史搜索结果的满意类信息的反馈操作。
可选的,上述从多组历史行为数据中确定多组离散数据,包括:确定每组历史行为数据所包括的历史搜索词的搜索词特征;搜索词特征用于标识历史搜索词;根据预设的聚类模型,对确定到的搜索词特征进行分类,以确定多个搜索词类目;同一个搜索词类目中任意两个历史搜索词的搜索词特征之间的相似度大于或者等于第四阈值;确定每个搜索词类目的搜索词占比,并根据确定到的搜索词占比,从多个搜索词类目中确定搜索词占比小于第二阈值的离散搜索词类目;根据确定到的离散搜索词类目,确定多组离散数据;多组离散数据所包括的搜索词为离散搜索词类目中的搜索词。
可选的,上述从多组历史行为数据中确定多组离散数据,包括:确定每组历史行为数据对应的用户满意度,并基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据。
可选的,上述历史行为操作用于表示用户是否对历史搜索结果执行点击操作、点赞操作以及关注操作;确定每组历史行为数据对应的用户满意度,包括:根据用户对历史搜索结果的历史行为操作、预设的第一系数、第二系数以及第三系数,确定每组历史行为数据对应的用户满意度;第一系数用于反映用户执行点击操作对用户满意度的权重,第二系数用于反映用户执行点赞操作对用户满意度的权重,第三系数用于反映用户执行关注操作对用户满意度的权重。
可选的,上述每组历史行为数据对应的用户满意度满足以下公式:
scoreq,p=∑alldata∑u∈userα*click+β*like+γ*follow
其中,scoreq,p为每组历史行为数据对应的用户满意度,q用于表征每组历史行为数据中的历史搜索词,q用于表征每组历史行为数据中的历史搜索结果,alldata用于表征历史时长内不同用户的行为操作次数,u用于表征不同用户user中的第u个用户,click用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点击操作;like用于表示第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点赞操作,follow用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行关注操作,α为第一系数、β为第二系数、γ为第三系数。
可选的,上述基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据,包括:确定多组历史行为数据对应的用户满意度之和,为多组历史行为数据对应的用户总满意度;确定每组历史行为数据对应的用户满意度与用户总满意度的比值,为每组历史行为数据的用户满意度占比;确定多组历史行为数据中,用户满意度占比小于第五阈值的历史行为数据为多组离散数据。
根据本公开实施例的第二方面,提供搜索结果的推荐方法,包括:响应于用户的搜索请求,确定至少一个搜索结果;至少一个搜索结果与搜索请求中的目标搜索词对应;基于多组目标行为数据,预测用户对至少一个搜索结果的用户满意度;多组目标行为数据为多组历史行为数据中除多组离散数据之外的数据;每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与历史搜索词对应的历史搜索结果,以及用户对历史搜索结果的历史行为操作;每组离散数据与每组目标行为数据之间的相关性小于第一阈值;用户满意度用于表征用户对搜索结果的满意类信息的反馈操作;基于预测得到的用户满意度,从至少一个搜索结果中确定用于向用户推荐的目标搜索结果,并向用户推荐目标搜索结果;目标搜索结果对应的用户满意度大于或者等于第六阈值。
可选的,上述每组离散数据中的历史搜索词所在的搜索词类目的搜索词占比小于第二阈值,和/或,每组离散数据对应的用户满意度小于第三阈值;其中,搜索词占比为一个搜索词类目中的历史搜索词的数量与所有搜索词类目中的历史搜索词的数量的比值;用户满意度用于表征用户对每组历史行为数据中的历史搜索结果的满意类信息的反馈操作。
可选的,上述方法还包括:确定每组历史行为数据所包括的历史搜索词的搜索词特征;搜索词特征用于标识历史搜索词;根据预设的聚类模型,对确定到的搜索词特征进行分类,以确定多个搜索词类目;同一个搜索词类目中任意两个历史搜索词的搜索词特征之间的相似度大于或者等于第四阈值;确定每个搜索词类目的搜索词占比,并根据确定到的搜索词占比,从多个搜索词类目中确定搜索词占比小于第二阈值的离散搜索词类目;根据确定到的离散搜索词类目,确定多组离散数据;多组离散数据所包括的搜索词为离散搜索词类目中的搜索词。
可选的,上述方法还包括:确定每组历史行为数据对应的用户满意度,并基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据。
可选的,上述历史行为操作用于表示用户是否对历史搜索结果执行点击操作、点赞操作以及关注操作;确定每组历史行为数据对应的用户满意度,包括:根据用户对历史搜索结果的历史行为操作、预设的第一系数、第二系数以及第三系数,确定每组历史行为数据对应的用户满意度;第一系数用于反映用户执行点击操作对用户满意度的权重,第二系数用于反映用户执行点赞操作对用户满意度的权重,第三系数用于反映用户执行关注操作对用户满意度的权重。
可选的,上述每组历史行为数据对应的用户满意度满足以下公式:
scoreq,p=∑alldata∑u∈userα*click+β*like+γ*follow
其中,scoreq,p为每组历史行为数据对应的用户满意度,q用于表征每组历史行为数据中的历史搜索词,q用于表征每组历史行为数据中的历史搜索结果,alldata用于表征历史时长内不同用户的行为操作次数,u用于表征不同用户user中的第u个用户,click用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点击操作;like用于表示第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点赞操作,follow用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行关注操作,α为第一系数、β为第二系数、γ为第三系数。
可选的,上述基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据,包括:确定多组历史行为数据对应的用户满意度之和,为多组历史行为数据对应的用户总满意度;确定每组历史行为数据对应的用户满意度与用户总满意度的比值,为每组历史行为数据的用户满意度占比;确定多组历史行为数据中,用户满意度占比小于第五阈值的历史行为数据为多组离散数据。
根据本公开实施例的第三方面,提供一种预测装置,包括获取单元、确定单元以及预测单元;获取单元,用于获取多组历史行为数据;每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与历史搜索词对应的历史搜索结果,以及用户对历史搜索结果的历史行为操作;确定单元,用于从多组历史行为数据中确定多组离散数据,以确定多组历史行为数据中除多组离散数据之外的多组目标行为数据;每组离散数据与每组目标行为数据之间的相关性小于第一阈值;预测单元,用于基于多组目标行为数据,预测用户在请求搜索一个搜索词之后,对一个搜索词对应的搜索结果的行为操作。
可选的,上述每组离散数据中的历史搜索词所在的搜索词类目的搜索词占比小于第二阈值,和/或,每组离散数据对应的用户满意度小于第三阈值;其中,搜索词占比为一个搜索词类目中的历史搜索词的数量与所有搜索词类目中的历史搜索词的数量的比值;用户满意度用于表征用户对每组历史行为数据中的历史搜索结果的满意类信息的反馈操作。
可选的,上述确定单元,具体用于:确定每组历史行为数据所包括的历史搜索词的搜索词特征;搜索词特征用于标识历史搜索词;根据预设的聚类模型,对确定到的搜索词特征进行分类,以确定多个搜索词类目;同一个搜索词类目中任意两个历史搜索词的搜索词特征之间的相似度大于或者等于第四阈值;确定每个搜索词类目的搜索词占比,并根据确定到的搜索词占比,从多个搜索词类目中确定搜索词占比小于第二阈值的离散搜索词类目;根据确定到的离散搜索词类目,确定多组离散数据;多组离散数据所包括的搜索词为离散搜索词类目中的搜索词。
可选的,上述确定单元,具体用于:确定每组历史行为数据对应的用户满意度,并基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据。
可选的,上述历史行为操作用于表示用户是否对历史搜索结果执行点击操作、点赞操作以及关注操作;确定单元,具体用于:根据用户对历史搜索结果的历史行为操作、预设的第一系数、第二系数以及第三系数,确定每组历史行为数据对应的用户满意度;第一系数用于反映用户执行点击操作对用户满意度的权重,第二系数用于反映用户执行点赞操作对用户满意度的权重,第三系数用于反映用户执行关注操作对用户满意度的权重。
可选的,上述每组历史行为数据对应的用户满意度满足以下公式:
scoreq,p=∑alldata∑u∈userα*click+β*like+γ*follow
其中,scoreq,p为每组历史行为数据对应的用户满意度,q用于表征每组历史行为数据中的历史搜索词,q用于表征每组历史行为数据中的历史搜索结果,alldata用于表征历史时长内不同用户的行为操作次数,u用于表征不同用户user中的第u个用户,click用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点击操作;like用于表示第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点赞操作,follow用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行关注操作,α为第一系数、β为第二系数、γ为第三系数。
可选的,上述确定单元,具体用于:确定多组历史行为数据对应的用户满意度之和,为多组历史行为数据对应的用户总满意度;确定每组历史行为数据对应的用户满意度与用户总满意度的比值,为每组历史行为数据的用户满意度占比;确定多组历史行为数据中,用户满意度占比小于第五阈值的历史行为数据为多组离散数据。
根据本公开实施例的第四方面,提供一种推荐装置,包括确定单元、预测单元以及推荐单元;确定单元,用于响应于用户的搜索请求,确定至少一个搜索结果;至少一个搜索结果与搜索请求中的目标搜索词对应;预测单元,用于基于多组目标行为数据,预测用户对至少一个搜索结果的用户满意度;多组目标行为数据为多组历史行为数据中除多组离散数据之外的数据;每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与历史搜索词对应的历史搜索结果,以及用户对历史搜索结果的历史行为操作;每组离散数据与每组目标行为数据之间的相关性小于第一阈值;用户满意度用于表征用户对搜索结果的满意类信息的反馈操作;确定单元,还用于基于预测得到的用户满意度,从至少一个搜索结果中确定用于向用户推荐的目标搜索结果,目标搜索结果对应的用户满意度大于或者等于第六阈值;推荐单元,用于向用户推荐目标搜索结果。
可选的,上述每组离散数据中的历史搜索词所在的搜索词类目的搜索词占比小于第二阈值,和/或,每组离散数据对应的用户满意度小于第三阈值;其中,搜索词占比为一个搜索词类目中的历史搜索词的数量与所有搜索词类目中的历史搜索词的数量的比值;用户满意度用于表征用户对每组历史行为数据中的历史搜索结果的满意类信息的反馈操作。
可选的,上述确定单元还用于:确定每组历史行为数据所包括的历史搜索词的搜索词特征;搜索词特征用于标识历史搜索词;根据预设的聚类模型,对确定到的搜索词特征进行分类,以确定多个搜索词类目;同一个搜索词类目中任意两个历史搜索词的搜索词特征之间的相似度大于或者等于第四阈值;确定每个搜索词类目的搜索词占比,并根据确定到的搜索词占比,从多个搜索词类目中确定搜索词占比小于第二阈值的离散搜索词类目;根据确定到的离散搜索词类目,确定多组离散数据;多组离散数据所包括的搜索词为离散搜索词类目中的搜索词。
可选的,上述确定单元还用于:确定每组历史行为数据对应的用户满意度,并基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据。
可选的,上述历史行为操作用于表示用户是否对历史搜索结果执行点击操作、点赞操作以及关注操作;确定单元,具体用于:根据用户对历史搜索结果的历史行为操作、预设的第一系数、第二系数以及第三系数,确定每组历史行为数据对应的用户满意度;第一系数用于反映用户执行点击操作对用户满意度的权重,第二系数用于反映用户执行点赞操作对用户满意度的权重,第三系数用于反映用户执行关注操作对用户满意度的权重。
可选的,上述每组历史行为数据对应的用户满意度满足以下公式:
scoreq,p=∑alldata∑u∈userα*click+β*like+γ*follow
其中,scoreq,p为每组历史行为数据对应的用户满意度,q用于表征每组历史行为数据中的历史搜索词,q用于表征每组历史行为数据中的历史搜索结果,alldata用于表征历史时长内不同用户的行为操作次数,u用于表征不同用户user中的第u个用户,click用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点击操作;like用于表示第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点赞操作,follow用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行关注操作,α为第一系数、β为第二系数、γ为第三系数。
可选的,上述确定单元,具体用于:确定多组历史行为数据对应的用户满意度之和,为多组历史行为数据对应的用户总满意度;确定每组历史行为数据对应的用户满意度与用户总满意度的比值,为每组历史行为数据的用户满意度占比;确定多组历史行为数据中,用户满意度占比小于第五阈值的历史行为数据为多组离散数据。
根据本公开实施例的第五方面,提供一种服务器,包括:处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现如第一方面及其任一种可能的设计方式所提供的用户行为的预测方法,或者如第二方面及其任一种可能的设计方式所提供的搜索结果的推荐方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如第一方面及其任一种可能的设计方式所提供的用户行为的预测方法,或者如第二方面及其任一种可能的设计方式所提供的搜索结果的推荐方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在服务器上运行时,使得该服务器执行如第一方面及其任一种可能的设计方式所提供的用户行为的预测方法,或者如第二方面及其任一种可能的设计方式所提供的搜索结果的推荐方法。
本公开提供的技术方案至少带来以下有益效果:考虑到历史行为数据中包括有一些差异行为对应的数据,因此可以根据数据之间的相关性,能够去除多组历史行为数据中异常行为对应的离散的数据,这样一来,可以使得目标行为数据能够真实、全面的反映用户的偏好,进而可以确保预测后续用户对搜索结果的行为操作的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种搜索系统的结构示意图;
图2是根据一示例性实施例示出的一种用户行为的预测方法的流程示意图之一;
图3是根据一示例性实施例示出的一种用户行为的预测方法的流程示意图之二;
图4是根据一示例性实施例示出的一种用户行为的预测方法的流程示意图之三;
图5是根据一示例性实施例示出的一种用户行为的预测方法的流程示意图之四;
图6是根据一示例性实施例示出的一种搜索结构的推荐方法的流程示意图;
图7是根据一示例性实施例示出的一种预测装置的结构示意图;
图8是根据一示例性实施例示出的一种推荐装置的结构示意图;
图9是根据一示例性实施例示出的一种服务器的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
另外,在本公开实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本公开实施例的描述中,“多个”是指两个或多于两个。
本公开实施例提供的用户行为的预测方法可以适用于搜索系统。图1示出了该搜索系统的一种结构示意图。如图1所示,搜索系统10用于解决相关技术中,预测用户偏好不准确的问题。搜索系统10包括用户行为的预测装置11以及服务器12。用户行为的预测装置11与服务器12连接。上述预测装置11与服务器12之间可以采用有线方式连接,也可以采用无线方式连接,本公开实施例对此不作限定。
服务器12用于接收用户的用户设备发送的搜索请求,并根据搜索请求中的搜索词,确定与搜索词相关的搜索结果,同时还获取不同用户对搜索结果的行为操作。
需要说明的,本公开实施例所涉及搜索结果,具体可以包括视频、音频、图文等资源,本公开实施例此处不作具体限定。
预测装置11可以用于与服务器12进行数据交互,例如,预测装置11可以从服务器12中获取多组历史行为数据。
预测装置11还可以执行本公开实施例中的用户行为的预测方法,例如,从获取到的多组历史行为数据中确定多组目标行为数据,并向服务器发送多组目标行为数据。
同时,服务器12还用于根据多组目标行为数据,预测用户的偏好。
需要说明的,预测装置11和服务器12可以为相互独立的设备,也可以集成于同一设备中,本公开对此不作具体限定。
当预测装置11和服务器12集成于同一设备时,预测装置11和服务器12之间的通信方式为该设备内部模块之间的通信。这种情况下,二者之间的通信流程与“预测装置11和服务器12之间相互独立的情况下,二者之间的通信流程”相同。
在本公开提供的以下实施例中,本公开以预测装置11和服务器12相互独立设置为例进行说明。
在实际应用中,本公开实施例提供的用户行为的预测方法可以应用于预测装置,也可以应用于服务器,下面结合附图,以用户行为的预测方法应用于预测装置为例,对本公开实施例提供的用户行为的预测方法进行描述。
如图2所示,本公开实施例提供的用户行为的预测方法包括下述S201-S202。
S201、预测装置获取多组历史行为数据。
其中,每组历史行为数据包括每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与历史搜索词对应的历史搜索结果,以及用户对历史搜索结果的历史行为操作。
作为一种可能的实现方式,预测装置从服务器中获取多组历史行为数据。
需要说明的,本公开实施例中涉及的用户为多个不同的用户。用户对历史搜索结果的历史行为操作包括用户是否执行点击操作,用户是否执行点赞操作,以及用户是否执行关注操作。
示例性的,每组历史行为数据可以以如下的格式设置:[query,userid,photoid,click,like,follow,……,……]。其中,query为历史搜索词,userid为不同用户的标识,photoid为历史搜索结果的标识,click为用户是否执行点击操作,若用户执行点击操作,则click的数值为1,若用户未执行点击操作,则该click的数值为0。like为用户是否执行点赞操作,若用户执行点赞操作,则like的数值为1,若用户未执行点赞操作,则该like的数值为0。follow为用户是否执行关注操作,若用户执行关注操作,则follow的数值为1,若用户未执行关注操作,则该follow的数值为0。
S202、预测装置从多组历史行为数据中确定多组离散数据,以确定多组历史行为数据中除多组离散数据之外的多组目标行为数据。
其中,每组离散数据与每组目标行为数据之间的相关性小于第一阈值预测装置
作为一种可能的实现方式,预测装置确定任意两组历史行为数据之间的相关性,并基于确定到的相关性以及预设的第一阈值,从多住历史行为数据中确定多组离散数据。进一步的,预测装置基于确定到的多组离散数据,从多住历史行为数据中确定多组目标行为数据。
需要说明的,第一阈值可以由搜索系统的运维人员预先在预测装置中设置。
在一些实施例中,本公开实施例提供的多组离散数据还满足以下条件:每组离散数据中的历史搜索词所在的搜索词类目的搜索词占比小于第二阈值,和/或,每组离散数据对应的用户满意度小于第三阈值。
其中,搜索词占比为一个搜索词类目中的历史搜索词的数量与所有搜索词类目中的历史搜索词的数量的比值。用户满意度用于表征用户对每组历史行为数据中的历史搜索结果的满意类信息的反馈操作。
在基于搜索词占比确定多组离散数据的情况下,作为一种可能的实现方式,预测装置可以根据每组历史行为数据,确定每组历史行为数据的搜索词占比,并根据确定到搜索词占比以及预设的第二阈值,从多组历史行为数据中确定搜索词占比小于第二阈值的多组离散数据
在基于用户满意度确定多组离散数据的情况下,作为另外一种可能的实现方式,预测装置还可以根据每组历史行为数据,确定每组历史行为数据对应的用户满意度,并根据确定到的用户满意度以及第三阈值,从多组历史行为数据中确定用户满意度小于第三阈值的数据为多组离散数据。
需要说明的,第二阈值以及第三阈值可以由搜索系统的运维人员预先在预测装置中设置。
此步骤的具体实施方式,可以参照本公开实施例的后续描述,此处不再进行赘述。
上述实施例提供的技术方案至少具有以下有益效果:基于历史搜索词所在的搜索词类目的搜索词占比,和/或每组历史行为数据对应的用户满意度确定多组离散数据,能够确保确定到的离散数据更加准确。
S203、预测装置基于多组目标行为数据,预测用户在请求搜索一个搜索词之后,对一个搜索词对应的搜索结果的行为操作。
作为一种可能的实现方式,预测装置可以基于多组目标行为数据构建相应的预测模型,并基于构建得到的预测模型,预测用户在请求搜索一个搜索词之后,对一个搜索词对应的搜索结果的行为操作。
此步骤的具体实现方式,可以参照现有技术中的描述,此处不再进行赘述。
上述实施例提供的技术方案至少具有以下有益效果:考虑到历史行为数据中包括有一些差异行为对应的数据,因此可以根据数据之间的相关性,能够去除多组历史行为数据中异常行为对应的离散的数据,这样一来,可以使得目标行为数据能够真实、全面的反映用户的偏好,进而可以确保预测后续用户对搜索结果的行为操作的准确性。
在一种设计中,在采用搜索词占比确定多组离散数据的情况下,为了能够从多组历史行为数据中确定多组离散数据,如图3所示,本公开实施例提供的S202,具体包括下述S301-S305。
S301、预测装置确定每组历史行为数据所包括的历史搜索词的搜索词特征。
其中,搜索词特征用于标识历史搜索词。
作为一种可能的实现方式,预测装置将多组历史行为数据所包括的历史搜索词输入到预设的文本模型中,由文本模型对历史搜索词进行语义分析,以得到历史搜索词的搜索词特征。
示例性的,上述搜索词特征可以为嵌入特征,上述预设的文本模型可以为中文词向量模型(chinese word 2vector),也可以为词嵌入模型(word embedding)。历史搜索词的嵌入特征可以为特征向量。
S302、预测装置根据预设的聚类模型,对确定到的搜索词特征进行分类,以确定多个搜索词类目。
其中,同一个搜索词类目中任意两个历史搜索词的搜索词特征之间的相似度大于或者等于第四阈值。
作为一种可能的实现方式,预测装置将获取到的搜索词特征输入到预设的聚类模型中,使得聚类模型能够对搜索词特征进行处理,以得到多组历史行为数据对应的多个搜索词类目。
示例性的,预设的聚类模型可以为k-means模型,也可以为密度聚类模型(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)。
需要说明的,第四阈值可以由运维人员预先在预设的聚类模型中进行设置。
S303、预测装置确定多个搜索词类目的搜索词占比。
作为一种可能的实现方式,预测装置获取每个搜索词类目中的搜索词的数量,并确定每个搜索词类目中搜索词的数量与多组历史行为数据所包括的历史搜索词的数量的比值,为每个搜索词类目的搜索词占比。
需要说明的,本公开实施例中给出的上述S301-S303,也可以作为上述S202中确定每个搜索词类目的搜索词占比的具体实现方式。
S304、预测装置根据确定到的搜索词占比,从多个搜索词类目中确定搜索词占比小于第二阈值的离散搜索词类目。
作为一种可能的实现方式,对于任意一个搜索词类目,若该任意一个搜索词类目的搜索词占比小于第二阈值,则确定该搜索词类目为离散搜索词类目。
S305、预测装置根据确定到的离散搜索词类目,确定多组离散数据。
其中,多组离散数据所包括的搜索词为离散搜索词类目中的搜索词。
作为一种可能的实现方式,预测装置在确定多组离散数据之后,确定多组离散数据的每组离散数据所包括的历史搜索词为离散搜索词,并确定包括上述离散搜索词的历史行为数据为多组离散数据。
上述实施例提供的技术方案至少具有以下有益效果:能够根据每个搜索词类目中搜索词的数量,确定每个搜索词类目的搜索词占比,并基于第二阈值确定多组离散数据。可以理解的,搜索词占比小于第二阈值的多组离散数据,为多组历史行为数据中的差异化数据,并不能真实的反映用户的偏好,这样一来,可以将离散的差异化数据从多组历史行为中取出,以确保目标行为数据能够真实的反映用户的偏好。
在一种设计中,在采用用户满意度确定多组离散数据的情况下,为了能够从多组历史行为数据中确定多组离散数据,如图4所示,本公开实施例提供的S202,具体包括下述S401-S402。
S401、预测装置确定每组历史行为数据对应的用户满意度。
作为一种可能的实现方式,预测装置根据每组历史行为数据中历史行为操作的每项数据的数值,确定每组历史行为数据对应的用户满意度。
在一些实施例中,历史行为操作用于表示用户是否对历史搜索结果执行点击操作、点赞操作以及关注操作。
在这种情况下,上述S401具体包括下述S4011。
S4011、预测装置根据用户对历史搜索结果的历史行为操作、预设的第一系数、第二系数以及第三系数,确定每组历史行为数据对应的用户满意度。
其中,第一系数用于反映用户执行点击操作对用户满意度的权重,第二系数用于反映用户执行点赞操作对用户满意度的权重,第三系数用于反映用户执行关注操作对用户满意度的权重。
在上述S4011中,每组历史行为数据对应的用户满意度满足以下公式一:
scoreq,p=∑alldata∑u∈userα*click+β*like+γ*follow 公式一
其中,scoreq,p为每组历史行为数据对应的用户满意度,q用于表征每组历史行为数据中的历史搜索词,q用于表征每组历史行为数据中的历史搜索结果,alldata用于表征历史时长内不同用户的行为操作次数,u用于表征不同用户user中的第u个用户,click用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点击操作。like用于表示第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点赞操作,follow用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行关注操作,α为第一系数、β为第二系数、γ为第三系数。
上述实施例提供的技术方案至少具有以下有益效果:采用上述公式,能够针对一个历史搜索词对应的一个搜索结果,确定不同用户在请求搜索该一个历史搜索词之后,对该一个历史搜索词对应的一个搜索结果的满意度。
S402、预测装置基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据。
作为一种可能的实现方式,预测装置直接确定用户满意度小于第三阈值的历史行为数据为多组离散数据。
以下,本公开实施例还示出了一种基于用户满意度确定第三阈值的实现方式,具体的,预测装置根据用户满意度的数值大小,从大到小将多组历史行为数据进行排序,并从排序结果中确定出第N组历史行为数据对应的用户满意度为第三阈值,同时,第三阈值还可以满足大于0的要求。
其中,N为大于1的正整数。
上述实施例提供的技术方案至少具有以下有益效果:能够基于每组历史行为数据的用户满意度以及第三阈值,简单有效的直接确定多组历史行为数据中的多组离散数据。
在一种设计中,在根据用户满意度确定多组离散数据的情况下,如图5所示,本公开实施例提供的S402,具体还可以包括下述S4021-S4023。
S4021、预测装置确定多组历史行为数据对应的用户满意度之和,为多组历史行为数据对应的用户总满意度。
作为一种可能的实现方式,预测装置计算多组历史行为数据对应的用户满意度之和,并将计算到的和确定为多组历史行为数据对应的用户总满意度。
S4022、预测装置确定每组历史行为数据对应的用户满意度与用户总满意度的比值,为每组历史行为数据的用户满意度占比。
作为一种可能的实现方式,预测装置计算每组历史行为数据对应的满意度的数值与用户总满意度的比值,并将计算得到的比值确定为每组历史行为数据的满意度占比。
S4023、预测装置确定多组历史行为数据中,用户满意度占比小于第五阈值的历史行为数据为多组离散数据。
作为一种可能的实现方式,预测装置根据确定到的用户满意度以及预设的第五阈值,确定用户满意度小于第五阈值的历史行为数据为多组离散数据。
需要说明的,第五阈值可以由运维人员预先在预测装置中设置。
可以理解的,第五阈值与第三阈值正相关。
上述实施例提供的技术方案至少具有以下有益效果:能够根据每组历史行为数据的满意度占比,从多组历史行为数据中确定反映了用户的满意度差异的多组离散数据,进而可以使得确定到的目标行为数据更加真实的表征用户的满意度。
在另外一种设计中,在根据用户满意度确定多组离散数据的情况下,本公开实施例提供的S402,具体还可以包括下述S4023-S4025。
S4023、预测装置基于用户满意度的大小,从多组历史行为数据中确定多组第一历史行为数据。
其中,每组第一历史行为数据的用户满意度均大于0。
S4024、预测装置计算每组第一历史行为数据对应的用户满意度的数值与多组第一历史行为数据对应的用户满意度的数值之和的比值,为每组第一历史行为数据的满意度占比。
此步骤的具体实现方式,可以参照本公开上述S4021的具体描述,此处不再进行赘述。
S4025、预测装置确定每组第一历史行为数据的满意度占比中小于第五阈值的第一历史行为数据为多组离散数据。
上述实施例提供的技术方案至少具有以下有益效果:从多组历史行为数据中确定用户满意度大于0的多组第一历史行为数据,能够使得计算得到的每组历史行为数据的满意度占比更加准确。
同时,本公开实施例还提供了一种搜索结果推荐方法,该推荐方法可以适用于上述搜索系统。在这种情况下,上述搜索系统还包括搜索结果的推荐装置。推荐装置与服务器连接。上述推荐装置与服务器之间可以采用有线方式连接,也可以采用无线方式连接,本公开实施例对此不作限定。
服务器用于接收用户的用户设备发送的包括目标搜索词的搜索请求,并从搜索请求中获取目标搜索词。
推荐装置可以用于与服务器进行数据交互,例如,推荐装置可以从服务器12中获取目标搜索词。
推荐装置还可以执行本公开实施例中的搜索结果的预测方法,例如,根据获取到的目标搜索词,确定至少一个与目标搜索词对应的搜索结果。
同时,推荐装置还用于预测用户对至少一个搜索结果的用户满意度,并根据预测得到的用户满意度,从至少一个搜索结果中确定目标搜索结果,并向服务器反馈该目标搜索结果。
相应的,服务器还用于向用户设备推荐目标搜索结果。
需要说明的,推荐装置和服务器可以为相互独立的设备,也可以集成于同一设备中,本公开对此不作具体限定。
当推荐装置和服务器集成于同一设备时,推荐装置和服务器之间的通信方式为该设备内部模块之间的通信。这种情况下,二者之间的通信流程与“推荐装置和服务器之间相互独立的情况下,二者之间的通信流程”相同。
在本公开提供的以下实施例中,本公开以推荐装置和服务器相互独立设置为例进行说明。
在实际应用中,本公开实施例提供的搜索结果的预测方法可以应用于上述推荐装置,也可以应用于服务器,下面结合附图,以搜索结果的预测方法应用于推荐装置为例,对本公开实施例提供的搜索结果的预测方法进行描述。
如图6所示,本公开实施例提供的搜索结果的推荐方法包括下述S501-S504。
S501、推荐装置响应于用户的搜索请求,确定至少一个搜索结果。
其中,至少一个搜索结果与搜索请求中的目标搜索词对应。
作为一种可能的实现方式,推荐装置从服务器中获取用户终端发送的搜索请求,并从搜索请求中确定目标搜索词。进一步的,推荐装置根据目标搜索词,确定与目标搜索词对应的至少一个搜索结果。
此步骤中,推荐装置确定至少一个搜索结果的具体实现方式可以参照现有技术,此处不再进行赘述。
S502、推荐装置基于多组目标行为数据,预测用户对至少一个搜索结果的用户满意度。
其中,多组目标行为数据为多组历史行为数据中除多组离散数据之外的数据。每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与历史搜索词对应的历史搜索结果,以及用户对历史搜索结果的历史行为操作。每组离散数据与每组目标行为数据之间的相关性小于第一阈值。用户满意度用于表征用户对搜索结果的满意类信息的反馈操作。
作为一种可能的实现方式,推荐装置获取多组历史行为数据,并从多组历史行为数据中确定多组离散数据。进一步的,推荐装置根据确定到多组离散数据,从多组历史行为数据中确定多组目标行为数据,并基于目标行为数据构建预测模型,并基于构建得到的预测模型预测用户对至少一个搜索结果的用户满意度。
在一些实施例中,本公开实施例提供的多组离散数据还满足以下条件:每组离散数据中的历史搜索词所在的搜索词类目的搜索词占比小于第二阈值,和/或,每组离散数据对应的用户满意度小于第三阈值。
其中,搜索词占比为一个搜索词类目中的历史搜索词的数量与所有搜索词类目中的历史搜索词的数量的比值。用户满意度用于表征用户对每组历史行为数据中的历史搜索结果的满意类信息的反馈操作。
在基于搜索词占比确定多组离散数据的情况下,作为一种可能的实现方式,预测装置可以根据每组历史行为数据,确定每组历史行为数据的搜索词占比,并根据确定到搜索词占比以及预设的第二阈值,从多组历史行为数据中确定搜索词占比小于第二阈值的多组离散数据
在基于用户满意度确定多组离散数据的情况下,作为另外一种可能的实现方式,预测装置还可以根据每组历史行为数据,确定每组历史行为数据对应的用户满意度,并根据确定到的用户满意度以及第三阈值,从多组历史行为数据中确定用户满意度小于第三阈值的数据为多组离散数据。
需要说明的,第二阈值以及第三阈值可以由搜索系统的运维人员预先在预测装置中设置。
此步骤中推荐装置确定多组目标行为数据的实现方式,可以参照上述实施例中的S201-S202,此处不再进行赘述,不同之处在于执行主体不同。
S503、推荐装置基于预测得到的用户满意度,从至少一个搜索结果中确定用于向用户推荐的目标搜索结果。
其中,目标搜索结果对应的用户满意度大于或者等于第六阈值。
作为一种可能的实现方式,推荐装置从至少一个搜索结果中确定用户满意度大于或者等于第六阈值的搜索结果为用于向用户推荐的目标搜索结果
需要说明的,第六阈值可以由搜索系统的运维人员预先在预测装置中设置。
S504、推荐装置向用户推荐目标搜索结果。
作为一种可能的实现方式,推荐装置向服务器发送目标搜索结果,以使得服务器向用户设备发送目标搜索结果。
上述实施例提供的技术方案至少具有以下有益效果:考虑到历史行为数据中包括有一些差异行为对应的数据,因此可以根据数据之间的相关性,能够去除多组历史行为数据中异常行为对应的离散的数据,这样一来,可以使得目标行为数据能够真实、全面的反映用户的偏好,进而可以确保后续向用户推荐目标搜索结果的准确性。
在一种设计中,在采用搜索词占比确定多组离散数据的情况下,为了能够从多组历史行为数据中确定多组离散数据,本公开实施例提供的S502中从多组历史行为数据中确定多组离散数据,包括下述S5021-S5025。
S5021、推荐装置确定每组历史行为数据所包括的历史搜索词的搜索词特征。
其中,搜索词特征用于标识历史搜索词。
此步骤的具体实现方式,可以参照上述实施例提供的S301,此处不再进行赘述,不同之处在于执行主体不同。
S5022、推荐装置根据预设的聚类模型,对确定到的搜索词特征进行分类,以确定多个搜索词类目。
其中,同一个搜索词类目中任意两个历史搜索词的搜索词特征之间的相似度大于或者等于第四阈值。
此步骤的具体实现方式,可以参照上述实施例提供的S302,此处不再进行赘述,不同之处在于执行主体不同。
S5023、推荐装置确定每个搜索词类目的搜索词占比。
此步骤的具体实现方式,可以参照上述实施例提供的S303,此处不再进行赘述,不同之处在于执行主体不同。
S5024、推荐装置根据确定到的搜索词占比,从多个搜索词类目中确定搜索词占比小于第二阈值的离散搜索词类目。
此步骤的具体实现方式,可以参照上述实施例提供的S304,此处不再进行赘述,不同之处在于执行主体不同。
S5025、推荐装置根据确定到的离散搜索词类目,确定多组离散数据。
其中,多组离散数据所包括的搜索词为离散搜索词类目中的搜索词。
此步骤的具体实现方式,可以参照上述实施例提供的S305,此处不再进行赘述,不同之处在于执行主体不同。
在一种设计中,在采用用户满意度确定多组离散数据的情况下,为了能够从多组历史行为数据中确定多组离散数据,本公开实施例提供的S502中,从多组历史行为数据中确定多组离散数据,还包括S5026-S5027:
S5026、推荐装置确定每组历史行为数据对应的用户满意度。
此步骤的具体实现方式,可以参照上述实施例提供的S401,此处不再进行赘述,不同之处在于执行主体不同。
S5027、推荐装置基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据。
此步骤的具体实现方式,可以参照上述实施例提供的S402,此处不再进行赘述,不同之处在于执行主体不同。
在一些实施例中,历史行为操作用于表示用户是否对历史搜索结果执行点击操作、点赞操作以及关注操作。
在这种情况下,上述S5026具体包括下述S601。
S601、推荐装置根据用户对历史搜索结果的历史行为操作、预设的第一系数、第二系数以及第三系数,确定每组历史行为数据对应的用户满意度。
其中,第一系数用于反映用户执行点击操作对用户满意度的权重,第二系数用于反映用户执行点赞操作对用户满意度的权重,第三系数用于反映用户执行关注操作对用户满意度的权重。
在上述S601中,每组每组历史行为数据对应的用户满意度满足以下公式:
scoreq,p=∑alldata∑u∈userα*click+β*like+γ*follow
其中,scoreq,p为每组历史行为数据对应的用户满意度,q用于表征每组历史行为数据中的历史搜索词,q用于表征每组历史行为数据中的历史搜索结果,alldata用于表征历史时长内不同用户的行为操作次数,u用于表征不同用户user中的第u个用户,click用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点击操作。like用于表示第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点赞操作,follow用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行关注操作,α为第一系数、β为第二系数、γ为第三系数。
在一种设计中,在根据用户满意度确定多组离散数据的情况下,上述S5027,具体包括S701-S703:
S701、推荐装置确定多组历史行为数据对应的用户满意度之和,为多组历史行为数据对应的用户总满意度。
此步骤的具体实现方式,可以参照上述实施例提供的S4021,此处不再进行赘述,不同之处在于执行主体不同。
S702、推荐装置确定每组历史行为数据对应的用户满意度与用户总满意度的比值,为每组历史行为数据的用户满意度占比。
此步骤的具体实现方式,可以参照上述实施例提供的S4022,此处不再进行赘述,不同之处在于执行主体不同。
S703、推荐装置确定多组历史行为数据中,用户满意度占比小于第五阈值的历史行为数据为多组离散数据。
此步骤的具体实现方式,可以参照上述实施例提供的S4023,此处不再进行赘述,不同之处在于执行主体不同。
图7是根据一示例性实施例示出的一种预测装置的结构示意图。参照图7所示,本公开实施例提供的预测装置80,包括获取单元801、确定单元802以及预测单元。
获取单元801,用于获取多组历史行为数据。每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与历史搜索词对应的历史搜索结果,以及用户对历史搜索结果的历史行为操作。
确定单元802,用于从多组历史行为数据中确定多组离散数据,以确定多组历史行为数据中除多组离散数据之外的多组目标行为数据。每组离散数据与每组目标行为数据之间的相关性小于第一阈值。
预测单元,用于基于多组目标行为数据,预测用户在请求搜索一个搜索词之后,对一个搜索词对应的搜索结果的行为操作。
可选的,如图7所示,本公开实施例提供的预测装置80中,每组离散数据中的历史搜索词所在的搜索词类目的搜索词占比小于第二阈值,和/或,每组离散数据对应的用户满意度小于第三阈值。
其中,搜索词占比为一个搜索词类目中的历史搜索词的数量与所有搜索词类目中的历史搜索词的数量的比值。用户满意度用于表征用户对每组历史行为数据中的历史搜索结果的满意类信息的反馈操作。
可选的,如图7所示,本公开实施例提供的确定单元802,具体用于:
确定每组历史行为数据所包括的历史搜索词的搜索词特征。搜索词特征用于标识历史搜索词。
根据预设的聚类模型,对确定到的搜索词特征进行分类,以确定多个搜索词类目。同一个搜索词类目中任意两个历史搜索词的搜索词特征之间的相似度大于或者等于第四阈值。
确定每个搜索词类目的搜索词占比,并根据确定到的搜索词占比,从多个搜索词类目中确定搜索词占比小于第二阈值的离散搜索词类目。
根据确定到的离散搜索词类目,确定多组离散数据。多组离散数据所包括的搜索词为离散搜索词类目中的搜索词。
可选的,如图7所示,本公开实施例提供的确定单元802,具体用于:
确定每组历史行为数据对应的用户满意度,并基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据。
可选的,如图7所示,本公开实施例提供的历史行为操作用于表示用户是否对历史搜索结果执行点击操作、点赞操作以及关注操作。确定单元802,具体用于:
根据用户对历史搜索结果的历史行为操作、预设的第一系数、第二系数以及第三系数,确定每组历史行为数据对应的用户满意度。第一系数用于反映用户执行点击操作对用户满意度的权重,第二系数用于反映用户执行点赞操作对用户满意度的权重,第三系数用于反映用户执行关注操作对用户满意度的权重。
可选的,如图7所示,本公开实施例提供的每组历史行为数据对应的用户满意度满足以下公式:
scoreq,p=∑alldata∑u∈userα*click+β*like+γ*follow
其中,scoreq,p为每组历史行为数据对应的用户满意度,q用于表征每组历史行为数据中的历史搜索词,q用于表征每组历史行为数据中的历史搜索结果,alldata用于表征历史时长内不同用户的行为操作次数,u用于表征不同用户user中的第u个用户,click用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点击操作。like用于表示第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点赞操作,follow用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行关注操作,α为第一系数、β为第二系数、γ为第三系数。
可选的,如图7所示,本公开实施例提供的确定单元802,具体用于:
确定多组历史行为数据对应的用户满意度之和,为多组历史行为数据对应的用户总满意度。
确定每组历史行为数据对应的用户满意度与用户总满意度的比值,为每组历史行为数据的用户满意度占比。
确定多组历史行为数据中,用户满意度占比小于第五阈值的历史行为数据为多组离散数据。
图8是根据一示例性实施例示出的一种推荐装置的结构示意图。参照图8所示,本公开实施例提供的推荐装置90,包括确定单元901、预测单元902以及推荐单元903。
确定单元901,用于响应于用户的搜索请求,确定至少一个搜索结果。至少一个搜索结果与搜索请求中的目标搜索词对应。
预测单元902,用于基于多组目标行为数据,预测用户对至少一个搜索结果的用户满意度。多组目标行为数据为多组历史行为数据中除多组离散数据之外的数据。每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与历史搜索词对应的历史搜索结果,以及用户对历史搜索结果的历史行为操作。每组离散数据与每组目标行为数据之间的相关性小于第一阈值。用户满意度用于表征用户对搜索结果的满意类信息的反馈操作。
确定单元901,还用于基于预测得到的用户满意度,从至少一个搜索结果中确定用于向用户推荐的目标搜索结果,目标搜索结果对应的用户满意度大于或者等于第六阈值。
推荐单元903,用于向用户推荐目标搜索结果。
可选的,如图8所示,本公开实施例提供的每组离散数据中的历史搜索词所在的搜索词类目的搜索词占比小于第二阈值,和/或,每组离散数据对应的用户满意度小于第三阈值。
其中,搜索词占比为一个搜索词类目中的历史搜索词的数量与所有搜索词类目中的历史搜索词的数量的比值。用户满意度用于表征用户对每组历史行为数据中的历史搜索结果的满意类信息的反馈操作。
可选的,如图8所示,本公开实施例提供的确定单元901还用于:
确定每组历史行为数据所包括的历史搜索词的搜索词特征。搜索词特征用于标识历史搜索词。
根据预设的聚类模型,对确定到的搜索词特征进行分类,以确定多个搜索词类目。同一个搜索词类目中任意两个历史搜索词的搜索词特征之间的相似度大于或者等于第四阈值。
确定每个搜索词类目的搜索词占比,并根据确定到的搜索词占比,从多个搜索词类目中确定搜索词占比小于第二阈值的离散搜索词类目。
根据确定到的离散搜索词类目,确定多组离散数据。多组离散数据所包括的搜索词为离散搜索词类目中的搜索词。
可选的,如图8所示,本公开实施例提供的确定单元901还用于:
确定每组历史行为数据对应的用户满意度,并基于确定到的用户满意度以及第三阈值,从多组历史行为数据中确定多组离散数据。
可选的,如图8所示,本公开实施例提供的历史行为操作用于表示用户是否对历史搜索结果执行点击操作、点赞操作以及关注操作。确定单元901,具体用于:
根据用户对历史搜索结果的历史行为操作、预设的第一系数、第二系数以及第三系数,确定每组历史行为数据对应的用户满意度。第一系数用于反映用户执行点击操作对用户满意度的权重,第二系数用于反映用户执行点赞操作对用户满意度的权重,第三系数用于反映用户执行关注操作对用户满意度的权重。
可选的,如图8所示,本公开实施例提供的每组历史行为数据对应的用户满意度满足以下公式:
scoreq,p=∑alldata∑u∈userα*click+β*like+γ*follow
其中,scoreq,p为每组历史行为数据对应的用户满意度,q用于表征每组历史行为数据中的历史搜索词,q用于表征每组历史行为数据中的历史搜索结果,alldata用于表征历史时长内不同用户的行为操作次数,u用于表征不同用户user中的第u个用户,click用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点击操作。like用于表示第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行点赞操作,follow用于表征第u个用户在请求搜索历史搜索词q之后,是否对历史搜索结果p执行关注操作,α为第一系数、β为第二系数、γ为第三系数。
可选的,如图8所示,本公开实施例提供的确定单元901,具体用于:
确定多组历史行为数据对应的用户满意度之和,为多组历史行为数据对应的用户总满意度。
确定每组历史行为数据对应的用户满意度与用户总满意度的比值,为每组历史行为数据的用户满意度占比。
确定多组历史行为数据中,用户满意度占比小于第五阈值的历史行为数据为多组离散数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是本公开提供的一种服务器的结构示意图。如图9,该服务器100可以包括至少一个处理器1001以及用于存储处理器可执行指令的存储器1003。其中,处理器1001被配置为执行存储器1003中的指令,以实现上述实施例中的用户行为的预测方法。
另外,服务器100还可以包括通信总线1002以及至少一个通信接口1004。
处理器1001可以是一个处理器(central processing units,CPU),微处理单元,ASIC,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线1002可包括一通路,在上述组件之间传送信息。
通信接口1004,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器1003可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器1003用于存储执行本公开方案的指令,并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的指令,从而实现本公开方法中的功能。
作为一个示例,结合图7,预测装置80中的获取单元801、确定单元802以及预测单元803实现的功能与图9中的处理器1001的功能相同。
作为另外一个示例,结合图8,推荐装置90中的确定单元901、预测单元902以及推荐单元903实现的功能与图9中的处理器1001的功能相同。
在具体实现中,作为一种实施例,处理器1001可以包括一个或多个CPU,例如图9中的CPU0和CPU1。
在具体实现中,作为一种实施例,服务器100可以包括多个处理器,例如图9中的处理器1001和处理器1007。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,服务器100还可以包括输出设备1005和输入设备1006。输出设备1005和处理器1001通信,可以以多种方式来显示信息。例如,输出设备1005可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备1006和处理器1001通信,可以以多种方式接受用户的输入。例如,输入设备1006可以是鼠标、键盘、触摸屏设备或传感设备等。
本领域技术人员可以理解,图9中示出的结构并不构成对服务器100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
另外,本公开还提供一种计算机可读存储介质,当计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上述实施例所提供的用户行为的预测方法。
另外,本公开还提供一种计算机程序产品,包括计算机指令,当计算机指令在服务器上运行时,使得服务器执行如上述实施例所提供的用户行为的预测方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.一种用户行为的预测方法,其特征在于,包括:
获取多组历史行为数据;每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与所述历史搜索词对应的历史搜索结果,以及所述用户对所述历史搜索结果的历史行为操作;
从所述多组历史行为数据中确定多组离散数据,以确定所述多组历史行为数据中除所述多组离散数据之外的多组目标行为数据;每组离散数据与每组目标行为数据之间的相关性小于第一阈值;
基于所述多组目标行为数据,预测用户在请求搜索一个搜索词之后,对所述一个搜索词对应的搜索结果的行为操作。
2.根据权利要求1所述的用户行为的预测方法,其特征在于,所述每组离散数据中的历史搜索词所在的搜索词类目的搜索词占比小于第二阈值,和/或,所述每组离散数据对应的用户满意度小于第三阈值;
其中,所述搜索词占比为一个搜索词类目中的历史搜索词的数量与所有搜索词类目中的历史搜索词的数量的比值;所述用户满意度用于表征用户对每组历史行为数据中的历史搜索结果的满意类信息的反馈操作。
3.根据权利要求2所述的用户行为的预测方法,其特征在于,所述从所述多组历史行为数据中确定多组离散数据,包括:
确定所述每组历史行为数据所包括的历史搜索词的搜索词特征;所述搜索词特征用于标识所述历史搜索词;
根据预设的聚类模型,对确定到的搜索词特征进行分类,以确定多个搜索词类目;同一个搜索词类目中任意两个历史搜索词的搜索词特征之间的相似度大于或者等于第四阈值;
确定每个搜索词类目的所述搜索词占比,并根据确定到的所述搜索词占比,从所述多个搜索词类目中确定所述搜索词占比小于所述第二阈值的离散搜索词类目;
根据确定到的离散搜索词类目,确定所述多组离散数据;所述多组离散数据所包括的搜索词为所述离散搜索词类目中的搜索词。
4.根据权利要求2所述的用户行为的预测方法,其特征在于,所述从所述多组历史行为数据中确定多组离散数据,包括:
确定所述每组历史行为数据对应的所述用户满意度,并基于确定到的所述用户满意度以及所述第三阈值,从所述多组历史行为数据中确定所述多组离散数据。
5.一种搜索结果的推荐方法,其特征在于,包括:
响应于用户的搜索请求,确定至少一个搜索结果;所述至少一个搜索结果与所述搜索请求中的目标搜索词对应;
基于多组目标行为数据,预测所述用户对所述至少一个搜索结果的用户满意度;所述多组目标行为数据为多组历史行为数据中除多组离散数据之外的数据;每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与所述历史搜索词对应的历史搜索结果,以及所述用户对所述历史搜索结果的历史行为操作;每组离散数据与每组目标行为数据之间的相关性小于第一阈值;所述用户满意度用于表征所述用户对搜索结果的满意类信息的反馈操作;
基于预测得到的所述用户满意度,从所述至少一个搜索结果中确定用于向所述用户推荐的目标搜索结果,并向所述用户推荐所述目标搜索结果;所述目标搜索结果对应的所述用户满意度大于或者等于第六阈值。
6.一种预测装置,其特征在于,包括获取单元、确定单元以及预测单元;
所述获取单元,用于获取多组历史行为数据;每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与所述历史搜索词对应的历史搜索结果,以及所述用户对所述历史搜索结果的历史行为操作;
所述确定单元,用于从所述多组历史行为数据中确定多组离散数据,以确定所述多组历史行为数据中除所述多组离散数据之外的多组目标行为数据;每组离散数据与每组目标行为数据之间的相关性小于第一阈值;
所述预测单元,用于基于所述多组目标行为数据,预测用户在请求搜索一个搜索词之后,对所述一个搜索词对应的搜索结果的行为操作。
7.一种搜索结果的推荐装置,其特征在于,包括确定单元、预测单元以及推荐单元;
所述确定单元,用于响应于用户的搜索请求,确定至少一个搜索结果;所述至少一个搜索结果与所述搜索请求中的目标搜索词对应;
所述预测单元,用于基于多组目标行为数据,预测所述用户对所述至少一个搜索结果的用户满意度;所述多组目标行为数据为多组历史行为数据中除多组离散数据之外的数据;每组历史行为数据包括用户在历史时长内搜索的历史搜索词、与所述历史搜索词对应的历史搜索结果,以及所述用户对所述历史搜索结果的历史行为操作;每组离散数据与每组目标行为数据之间的相关性小于第一阈值;所述用户满意度用于表征所述用户对搜索结果的满意类信息的反馈操作;
所述确定单元,还用于基于预测得到的所述用户满意度,从所述至少一个搜索结果中确定用于向所述用户推荐的目标搜索结果,所述目标搜索结果对应的所述用户满意度大于或者等于第六阈值;
所述推荐单元,用于向所述用户推荐所述目标搜索结果。
8.一种服务器,其特征在于,包括:处理器、用于存储所述处理器可执行的指令的存储器;其中,所述处理器被配置为执行指令,以实现所述权利要求1-4中任一项所述的用户行为的预测方法,或者所述权利要求5所述的搜索结果的推荐方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如所述权利要求1-4中任一项所述的用户行为的预测方法,或者所述权利要求5所述的搜索结果的推荐方法。
10.一种计算机程序产品,包括指令,其特征在于,所述计算机程序产品包括计算机指令,当所述计算机指令在服务器上运行时,使得所述服务器执行如所述权利要求1-4中任一项所述的用户行为的预测方法,或者所述权利要求5所述的搜索结果的推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111277532.6A CN114385906B (zh) | 2021-10-29 | 一种预测方法、推荐方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111277532.6A CN114385906B (zh) | 2021-10-29 | 一种预测方法、推荐方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114385906A true CN114385906A (zh) | 2022-04-22 |
CN114385906B CN114385906B (zh) | 2024-10-25 |
Family
ID=
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6951717B1 (en) * | 1993-06-07 | 2005-10-04 | Trimeris, Inc. | Methods and compositions for inhibition of membrane fusion-associated events, including HIV transmission |
US20140280317A1 (en) * | 2013-03-15 | 2014-09-18 | University Of Florida Research Foundation, Incorporated | Efficient publish/subscribe systems |
CN105574216A (zh) * | 2016-03-07 | 2016-05-11 | 达而观信息科技(上海)有限公司 | 基于概率模型和用户行为分析的个性化推荐方法、系统 |
CN106407304A (zh) * | 2016-08-30 | 2017-02-15 | 北京大学 | 一种基于互信息的数据离散化与特征选择集成方法及装置 |
CN106960266A (zh) * | 2016-01-11 | 2017-07-18 | 阿里巴巴集团控股有限公司 | 一种预售物品的物流控制方法以及装置 |
CN110334290A (zh) * | 2019-06-28 | 2019-10-15 | 中南大学 | 一种基于MF-Octree的时空数据快速检索方法 |
CN111125523A (zh) * | 2019-12-20 | 2020-05-08 | 华为技术有限公司 | 搜索方法、装置、终端设备及存储介质 |
CN111625690A (zh) * | 2020-05-13 | 2020-09-04 | 北京达佳互联信息技术有限公司 | 一种对象推荐方法、装置、设备及介质 |
CN112115342A (zh) * | 2020-09-22 | 2020-12-22 | 深圳市欢太科技有限公司 | 搜索方法、装置、存储介质以及终端 |
CN113468587A (zh) * | 2021-09-02 | 2021-10-01 | 深圳市通易信科技开发有限公司 | 基于大数据的用户数据管理方法、系统及可读存储介质 |
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6951717B1 (en) * | 1993-06-07 | 2005-10-04 | Trimeris, Inc. | Methods and compositions for inhibition of membrane fusion-associated events, including HIV transmission |
US20140280317A1 (en) * | 2013-03-15 | 2014-09-18 | University Of Florida Research Foundation, Incorporated | Efficient publish/subscribe systems |
CN106960266A (zh) * | 2016-01-11 | 2017-07-18 | 阿里巴巴集团控股有限公司 | 一种预售物品的物流控制方法以及装置 |
CN105574216A (zh) * | 2016-03-07 | 2016-05-11 | 达而观信息科技(上海)有限公司 | 基于概率模型和用户行为分析的个性化推荐方法、系统 |
CN106407304A (zh) * | 2016-08-30 | 2017-02-15 | 北京大学 | 一种基于互信息的数据离散化与特征选择集成方法及装置 |
CN110334290A (zh) * | 2019-06-28 | 2019-10-15 | 中南大学 | 一种基于MF-Octree的时空数据快速检索方法 |
CN111125523A (zh) * | 2019-12-20 | 2020-05-08 | 华为技术有限公司 | 搜索方法、装置、终端设备及存储介质 |
CN111625690A (zh) * | 2020-05-13 | 2020-09-04 | 北京达佳互联信息技术有限公司 | 一种对象推荐方法、装置、设备及介质 |
CN112115342A (zh) * | 2020-09-22 | 2020-12-22 | 深圳市欢太科技有限公司 | 搜索方法、装置、存储介质以及终端 |
CN113468587A (zh) * | 2021-09-02 | 2021-10-01 | 深圳市通易信科技开发有限公司 | 基于大数据的用户数据管理方法、系统及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
SAHIN CEM GEYIK 等: "Fairness-Aware Ranking in Search & Recommendation Systems with Application to LinkedIn Talent Search", 《KDD \'19: PROCEEDINGS OF THE 25TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING》, 25 July 2019 (2019-07-25), pages 2221, XP058635518, DOI: 10.1145/3292500.3330691 * |
丁宣宣 等: "基于信息熵和改进K-means聚类的混合异常检测特征选择方法", 《信息工程大学学报》, vol. 20, no. 03, 15 June 2019 (2019-06-15), pages 291 - 296 * |
徐龙: "工程分析数据的远程交互可视化技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 07, 15 July 2011 (2011-07-15), pages 138 - 883 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734609B1 (en) | Customized predictive analytical model training | |
KR102012676B1 (ko) | 콘텐츠 추천 방법, 장치 및 시스템 | |
CN109074607B (zh) | 学得模型提供方法和学得模型提供装置 | |
EP3682391B1 (en) | Capturing and leveraging signals reflecting bot-to-bot delegation | |
CN109993627B (zh) | 推荐方法、推荐模型的训练方法、装置和存储介质 | |
KR20190128116A (ko) | 공통 스토리와 관련된 미디어-컨텐츠 아이템을 식별, 선택 및 제시하기 위한 방법 및 시스템 | |
CN112269917B (zh) | 一种媒体资源展示方法及装置、设备、系统、存储介质 | |
CN113157951B (zh) | 一种多媒体资源的处理方法、装置、服务器及存储介质 | |
JP7564326B2 (ja) | 検索クエリについての解釈の評価 | |
US12079572B2 (en) | Rule-based machine learning classifier creation and tracking platform for feedback text analysis | |
US20240184837A1 (en) | Recommendation method and apparatus, training method and apparatus, device, and recommendation system | |
US11783215B2 (en) | Information processing apparatus and recommendation control method | |
CN114297478A (zh) | 一种页面推荐方法、装置、设备以及存储介质 | |
CN112150184A (zh) | 点击率预估方法及其系统、计算机系统及计算机可读介质 | |
CN111046082B (zh) | 一种基于语义分析的报表数据源推荐方法与装置 | |
US20060167835A1 (en) | Optimization-based media allocation | |
CN112269918A (zh) | 信息推荐方法、装置、设备及存储介质 | |
CN112258285A (zh) | 一种内容推荐方法及装置、设备、存储介质 | |
US10832419B2 (en) | Cognitive search analytics for multi-dimensional objects | |
CN113934872A (zh) | 一种搜索结果的排序方法、装置、设备以及存储介质 | |
CN114385906B (zh) | 一种预测方法、推荐方法、装置、设备以及存储介质 | |
CN116956204A (zh) | 多任务模型的网络结构确定方法、数据预测方法及装置 | |
US11727329B2 (en) | Method and system for receiving label for digital task executed within crowd-sourced environment | |
CN114385906A (zh) | 一种预测方法、推荐方法、装置、设备以及存储介质 | |
CN113743973B (zh) | 分析市场热点趋势的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |