CN113987375A - 一种数据处理方法、装置、电子设备及存储介质 - Google Patents

一种数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113987375A
CN113987375A CN202111272988.3A CN202111272988A CN113987375A CN 113987375 A CN113987375 A CN 113987375A CN 202111272988 A CN202111272988 A CN 202111272988A CN 113987375 A CN113987375 A CN 113987375A
Authority
CN
China
Prior art keywords
search
sample set
target
search result
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111272988.3A
Other languages
English (en)
Inventor
张志伟
王希爱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111272988.3A priority Critical patent/CN113987375A/zh
Publication of CN113987375A publication Critical patent/CN113987375A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种数据处理方法、装置、电子设备及存储介质,涉及计算机技术领域,该方法包括:获取第一搜索关键字;基于该第一搜索关键字,从目标集合中确定至少两种类型的搜索结果,该目标集合为第一样本集合和第二样本集合的并集,该第一样本集合对应的历史搜索词包括该第一搜索关键字,该第二样本集合对应的历史搜索词包括该第一搜索关键字与第二搜索关键字,并且该第二样本集合与该第一样本集合之间的搜索时间差小于时间阈值。本公开中,电子设备可以方便、快捷地得到至少两种类型下的搜索结果,能够满足不同用户的搜索需求,提升用户的搜索体验。

Description

一种数据处理方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
目前,可以基于用户在搜索系统中输入的搜索词,为用户确定并返回与该搜索词相关的数据。例如,“传奇”这个搜索词,在某个应用场景下,绝大多数用户想搜索的是游戏传奇,那么在该场景下搜索“传奇”时,搜索系统无论在召回还是在排序阶段都更倾向于返回游戏传奇的内容。
显然,这种只关注主流用户搜索需求的行为,会导致其他用户的搜索需求无法得到满足,进而导致其他用户的搜索体验非常差。例如,对于那些想搜索歌曲传奇的用户,搜索体验就会非常差。
发明内容
本公开提供一种数据处理方法、装置、电子设备及存储介质,解决了现有技术中可能无法满足用户的搜索需求,进而导致用户搜索体验差的技术问题。
本公开实施例的技术方案如下:
根据本公开实施例的第一方面,提供一种数据处理方法。该方法可以包括:获取第一搜索关键字;基于该第一搜索关键字,从目标集合中确定至少两种类型的搜索结果,该目标集合为第一样本集合和第二样本集合的并集,该第一样本集合对应的历史搜索词包括该第一搜索关键字,该第二样本集合对应的历史搜索词包括该第一搜索关键字与第二搜索关键字,并且该第二样本集合与该第一样本集合之间的搜索时间差小于时间阈值,该第一搜索关键字与该第二搜索关键字包括有用于表征相同语义的关键字,该第一样本集合用于确定该第一搜索关键字对应的至少一种类型的搜索结果。
可选地,上述数据处理方法还包括:获取目标历史样本集合,该目标历史样本集合包括历史搜索词以及与该历史搜索词对应的满足预设条件的搜索结果;从该目标历史样本集合中确定该第一样本集合和该第二样本集合;将该第一样本集合和该第二样本集合合并为该目标集合。
可选地,上述预设条件包括对应的搜索结果的满意值大于第一阈值,且对应的搜索结果的被展示次数大于第二阈值,上述获取目标历史样本集合具体包括:获取预设时间段内的历史搜索词、与该历史搜索词对应的搜索结果,以及该搜索结果的用户行为数据;对该搜索结果的用户行为数据进行聚合,得到多个样本集合,每个样本集合至少包括该历史搜索词、与该历史搜索词对应的一个搜索结果,以及该一个搜索结果对应的聚合后的用户行为数据;确定每个样本集合对应的搜索结果的用户满意值;将该多个样本集合中对应的搜索结果的用户满意值大于该第一阈值,且对应的搜索结果的被展示次数大于该第二阈值的样本集合确定为该目标历史样本集合。
可选地,上述确定每个样本集合对应的搜索结果的用户满意值具体包括:将目标样本集合对应的搜索结果的用户满意率与该目标样本集合对应的搜索结果的用户满意置信度的乘积,确定为该目标样本集合对应的搜索结果的用户满意值,该目标样本集合为该多个样本集合中的一个。
可选地,上述数据处理方法还包括:根据该目标样本集合对应的搜索结果的用户满意度以及该目标样本集合对应的搜索结果的播放次数,确定该目标样本集合对应的搜索结果的用户满意率。
可选地,上述数据处理方法还包括:根据该目标样本集合对应的搜索结果对应的聚合后的每一种用户行为数据以及该每一种用户行为的权重,确定该目标样本集合对应的搜索结果的用户满意度。
可选地,上述数据处理方法还包括:根据该目标样本集合对应的搜索结果的播放次数,确定该目标样本集合对应的搜索结果的用户满意置信度。
根据本公开实施例的第二方面,提供一种数据处理装置。该装置可以包括:获取模块和确定模块;该获取模块,被配置为获取第一搜索关键字;该确定模块,被配置为基于该第一搜索关键字,从目标集合中确定至少两种类型的搜索结果,该目标集合为第一样本集合和第二样本集合的并集,该第一样本集合对应的历史搜索词包括该第一搜索关键字,该第二样本集合对应的历史搜索词包括该第一搜索关键字与第二搜索关键字,并且该第二样本集合与该第一样本集合之间的搜索时间差小于时间阈值,该第一搜索关键字与该第二搜索关键字包括有用于表征相同语义的关键字,该第一样本集合用于确定该第一搜索关键字对应的至少一种类型的搜索结果。
可选地,该数据处理装置还包括处理模块;该获取模块,还被配置为获取目标历史样本集合,该目标历史样本集合包括历史搜索词以及与该历史搜索词对应的满足预设条件的搜索结果;该确定模块,还被配置为从该目标历史样本集合中确定该第一样本集合和该第二样本集合;该处理模块,被配置为将该第一样本集合和该第二样本集合合并为该目标集合。
可选地,上述预设条件包括对应的搜索结果的满意值大于第一阈值,且对应的搜索结果的被展示次数大于第二阈值。该处理模块,具体被配置为对该搜索结果的用户行为数据进行聚合,得到多个样本集合,每个样本集合至少包括该历史搜索词、与该历史搜索词对应的一个搜索结果,以及该一个搜索结果对应的聚合后的用户行为数据;该确定模块,具体被配置为确定每个样本集合对应的搜索结果的用户满意值;该确定模块,具体还被配置为将该多个样本集合中对应的搜索结果的用户满意值大于该第一阈值,且对应的搜索结果的被展示次数大于该第二阈值的样本集合确定为该目标历史样本集合。
可选地,该确定模块,具体被配置为将目标样本集合对应的搜索结果的用户满意率与该目标样本集合对应的搜索结果的用户满意置信度的乘积,确定为该目标样本集合对应的搜索结果的用户满意值,该目标样本集合为该多个样本集合中的一个。
可选地,该确定模块,还被配置为根据该目标样本集合对应的搜索结果的用户满意度以及该目标样本集合对应的搜索结果的播放次数,确定该目标样本集合对应的搜索结果的用户满意率。
可选地,该确定模块,还被配置为根据该目标样本集合对应的搜索结果对应的聚合后的每一种用户行为数据以及该每一种用户行为的权重,确定该目标样本集合对应的搜索结果的用户满意度。
可选地,该确定模块,还被配置为根据该目标样本集合对应的搜索结果的播放次数,确定该目标样本集合对应的搜索结果的用户满意置信度。
根据本公开实施例的第三方面,提供一种电子设备,可以包括:处理器和被配置为存储处理器可执行指令的存储器;其中,处理器被配置为执行所述指令,以实现上述第一方面中任一种可选地数据处理方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当该计算机可读存储介质中的指令由电子设备执行时,使得该电子设备能够执行上述第一方面中任一种可选地数据处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,当该计算机指令在电子设备上运行时,使得该电子设备执行如第一方面中任一种可选地数据处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
基于上述任一方面,本公开中,由于目标集合为第一样本集合与第二样本集合的并集,该第一样本集合用于确定第一搜索关键字对应的至少一种类型的搜索结果,该第二样本集合用于确定该第一搜索关键字与第二搜索关键字对应的多种类型的搜索结果,即该目标集合中包括该至少一种类型的搜索结果以及该多种类型的搜索结果。如此,该电子设备在获取到该第一搜索关键字之后,可以基于该第一搜索关键字从该目标集合中确定搜索结果,包括该至少一种类型的搜索结果以及该多种类型的搜索结果,即电子设备确定至少两种类型的搜索结果。本公开实施例中,电子设备可以方便、快捷地得到至少两种类型下的搜索结果,能够满足不同用户的搜索需求,提升用户的搜索体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1示出了本公开实施例提供的一种数据处理方法的流程示意图;
图2示出了本公开实施例提供的又一种数据处理方法的流程示意图;
图3示出了本公开实施例提供的又一种数据处理方法的流程示意图;
图4示出了本公开实施例提供的又一种数据处理方法的流程示意图;
图5示出了本公开实施例提供的又一种数据处理方法的流程示意图;
图6示出了本公开实施例提供的又一种数据处理方法的流程示意图;
图7示出了本公开实施例提供的又一种数据处理方法的流程示意图;
图8示出了本公开实施例提供的一种数据处理装置的结构示意图;
图9示出了本公开实施例提供的又一种数据处理装置的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。
如背景技术中所描述,由于现有技术中在对“传奇”这个搜索词搜索时,由于绝大多数用户想搜索的是游戏传奇,因此更倾向于返回游戏传奇的内容。如此,可能会导致其他用户的搜索需求无法得到满足(例如某一用户想要搜索歌曲传奇),进而导致其他用户的搜索体验非常差。
基于此,本公开实施例提供一种数据处理方法,由于目标集合为第一样本集合与第二样本集合的并集,该第一样本集合用于确定第一搜索关键字对应的至少一种类型的搜索结果,该第二样本集合用于确定该第一搜索关键字与第二搜索关键字对应的多种类型的搜索结果,即该目标集合中包括该至少一种类型的搜索结果以及该多种类型的搜索结果。如此,该电子设备在获取到该第一搜索关键字之后,可以基于该第一搜索关键字从该目标集合中确定搜索结果,包括该至少一种类型的搜索结果以及该多种类型的搜索结果,即电子设备确定至少两种类型的搜索结果。本公开实施例中,电子设备可以方便、快捷地得到至少两种类型下的搜索结果,能够满足不同用户的搜索需求,提升用户的搜索体验。
本公开实施例提供的数据处理方法、装置、电子设备及存储介质,应用于多媒体资源搜索场景(或多媒体资源的推荐)中。当获取到第一搜索关键词时,可以依据本公开实施例提供的方法,确定至少两种类型的搜索结果。
以下结合附图对本公开实施例提供的数据处理方法进行示例性说明:
可以理解的是,执行本公开实施例提供的数据处理方法的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digitalassistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备等可以安装并使用内容社区应用的设备,也可以是服务器。本公开对该电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
如图1所示,本公开实施例提供的数据处理方法可以包括S101-S102。
S101、电子设备获取第一搜索关键字。
应理解,一个搜索关键字(例如第一搜索关键字)可以由至少一个关键字组成。示例性的,该第一搜索关键字可以为“传奇”。
S102、电子设备基于第一搜索关键字,从目标集合中确定至少两种类型的搜索结果。
其中,该目标集合为第一样本集合和第二样本集合的并集,该第一样本集合对应的历史搜索词包括该第一搜索关键字,该第二样本集合对应的历史搜索词包括该第一搜索关键字与第二搜索关键字,并且该第二样本集合与该第一样本集合之间的搜索时间差小于时间阈值,该第一搜索关键字与该第二搜索关键字包括有用于表征相同语义的关键字,该第一样本集合用于确定该第一搜索关键字对应的至少一种类型的搜索结果。
应理解,该第二样本集合用于确定该第一搜索关键字与该第二搜索关键字对应的多种类型的搜索结果,即该目标集合中包括该至少一种类型的搜索结果以及该多种类型的搜索结果。电子设备可以预先存储该目标集合,如此电子设备在获取到该第一搜索关键字之后,可以基于该第一搜索关键字,从该目标集合中确定该至少两种类型的搜索结果。
本公开实施例中,用户可以在电子设备的搜索系统(或搜索引擎)中输入自己感兴趣的搜索词(query,也可以称为查询词)。在实际应用过程中,query可以是一个字、一个词、短语、短句或其组合,该电子设备基于某一个搜索词(或历史搜索词)返回多个搜索结果。具体的,用户在该电子设备中输入该第一样本集合对应的历史搜索词(即包括该第一搜索关键字的历史搜索词)可以得到上述至少一种类型的搜索结果;用户在该电子设备中输入该第二样本集合对应的历史搜索词(即包括该第一搜索关键字与该第二搜索关键字的历史搜索词)可以得到上述多种类型的搜索结果。
可以理解的是,上述第二样本集合与上述第一样本集合之间的搜索时间差小于时间阈值可以理解为,电子设备先获取到(也可以理解为用户先得到)了第一样本集合,由于该第一样本集合中包括的至少一种类型的搜索结果可能无法满足用户需求,例如没有一种搜索结果是用户想要的,此时用户可以在一定时间内(即小于该时间阈值的时间内)输入包括该第一搜索关键字与该第二搜索关键字的历史搜索词,得到该第二样本集合,以获取到更多类型的搜索结果(即上述多种类型的搜索结果)。
示例性的,上述第一搜索关键字可以为“传奇”,上述第二搜索关键字可以为“传奇王菲”或者“legend song”。用户在电子设备中输入“传奇”,可以得到包括“游戏传奇”的至少一种类型的搜索结果。用户可能需要获取到有“歌曲传奇”的搜索结果,如此,该用户可以在该电子设备中输入“传奇”以及“传奇王菲”(或“legend song”),可以得到包括“王菲演唱的歌曲传奇”以及“李健演唱的歌曲传奇”等多种类型的搜索结果。
上述实施例提供的技术方案至少能够带来以下有益效果:由S101-S102可知,由于目标集合为第一样本集合与第二样本集合的并集,该第一样本集合用于确定第一搜索关键字对应的至少一种类型的搜索结果,该第二样本集合用于确定该第一搜索关键字与第二搜索关键字对应的多种类型的搜索结果,即该目标集合中包括该至少一种类型的搜索结果以及该多种类型的搜索结果。如此,该电子设备在获取到该第一搜索关键字之后,可以基于该第一搜索关键字从该目标集合中确定搜索结果,包括该至少一种类型的搜索结果以及该多种类型的搜索结果,即电子设备确定至少两种类型的搜索结果。本公开实施例中,电子设备可以方便、快捷地得到至少两种类型下的搜索结果,能够满足不同用户的搜索需求,提升用户的搜索体验。
结合图1,如图2所示,本公开实施例提供的数据处理方法还可以包括S103-S105。
S103、电子设备获取目标历史样本集合。
其中,该目标历史样本集合包括历史搜索词以及与该历史搜索词对应的满足预设条件的搜索结果。
应理解,该历史搜索词可以为上述包括第一搜索关键字的搜索词,该历史搜索词也可以为上述包括第一搜索关键字与第二搜索关键字的搜索词。
S104、电子设备从目标历史样本集合中确定第一样本集合和第二样本集合。
结合上述实施例的描述,应理解,该第一样本集合对应的历史搜索词包括第一搜索关键字,该第二样本集合对应的历史搜索词包括第一搜索关键字与第二搜索关键字,并且该第二样本集合与该第一样本集合之间的搜索时间差小于时间阈值。
S105、电子设备将第一样本集合和第二样本集合合并为目标集合。
上述实施例提供的技术方案至少能够带来以下有益效果:由S103-S105可知,电子设备可以获取目标历史样本集合,然后从该目标历史样本集合中确定第一样本集合和第二样本集合,并且将该第一样本集合和该第二样本集合合并为目标集合。本公开实施例中,由于该目标历史样本集合中包括历史搜索词以及该历史搜索词对应的满足预设条件的搜索结果,如此,电子设备从该目标历史样本集合中确定该第一样本集合和该第二样本集合,可以得到包括有至少两种类型的搜索结果的目标集合。能够提升目标集合的确定效率,进而提升搜索结果的确定效率。
结合图2,如图3所示,在本公开实施例的一种实现方式中,上述预设条件包括对应的搜索结果满意值大于第一阈值,且对应的搜索结果的被展示次数大于第二阈值,上述获取目标历史样本集合,具体可以包括S1031-S1034。
S1031、电子设备获取历史时间段内的历史搜索词,与历史搜索词对应的搜索结果,以及搜索结果的用户行为数据。
可以理解的是,一个搜索结果可以为一个多媒体资源,该多媒体资源为音频、视频、图片、图集中的一种或者任意组合。本公开实施例中,电子设备在基于用户输入的历史搜索词,获取(或确定)到该历史搜索词对应的搜索结果之后,还可以获取到该用户对该搜索结果的行为操作,进而电子设备可以获取到历史时间段内所有用户对该搜索结果的行为操作。同理,电子设备也可以获取到该历史搜索词对应的其他搜索结果,以及历史时间段内所有用户对其他搜索结果的行为操作。
在本公开实施例的一种实现方式中,上述行为操作包括展示操作(show)、点击操作(click)、播放操作(play)、点赞操作(like)以及关注操作(follow)等,该关注操作具体可以理解为关注多媒体资源的作者。
可选地,电子设备可以基于该搜索结果的标识确定出该搜索结果的类型。例如,电子设备可以预先为每个搜索结果(或多媒体资源)添加标签(label),一个标签可以对应多个搜索结果,一个搜索结果对应一个标识,当电子设备获取到某一搜索结果的标识时,可以基于该标识确定出该搜索结果对应的标签。进而,电子设备可以将相同标签的搜索结果分在同一类(或堆)中。
在一种实现方式中,在相同类型(即同一类)的搜索结果中,电子设备也可以选择只显示部分(例如对应的满意值最大的10%)的搜索结果。
本公开实施例中,电子设备在将上述第一样本集合和第二样本集合合并,即得到目标集合之后,可以确定该目标集合中包括的搜索结果的类型,以使得后续用户在输入该第一搜索关键字时可以得到该类型对应的搜索结果,例如该类型对应的多个视频。至此,电子设备可以确定出多个搜索结果对应的多个类型,进而为用户返回该第一搜索关键字对应的至少两种类型的搜索结果。
本公开实施例中,一个历史搜索词对应的一个搜索结果可以以一条日志的形式呈现,该日志中包括该搜索结果的用户行为数据。
例如,<query,userid,photoid,show,click,play,like,follow,...,datetime>。
具体的,userid用于标识输入历史搜索词的用户,photoid为搜索结果的标识,show(展示操作)、click、play、like以及follow的值用于表征这些行为操作是否被执行。例如,当click的值为0,play的值为1时,说明这个搜索结果(或多媒体资源)并未被用户点击,但被用户播放了(有可能是滑动到该多媒体资源之后播放的),datetime用于表征该日志发生的时间。
应理解,该show、click、play、like以及follow的值可以用于表征该搜索结果的用户行为数据。
S1032、电子设备对搜索结果的用户行为数据进行聚合,得到多个样本集合。
其中,每个样本集合至少包括该历史搜索词,与该历史搜索词对应的一个搜索结果,以及该一个搜索结果对应的聚合后的用户行为数据。
可以理解的是,一个搜索结果对应的聚合后的用户行为数据,即为将该搜索结果对应的每个用户的行为数据聚合在一起,具体为不再区分用户,从同一个搜索词(即历史搜索词)和同一个搜索结果的角度聚合用户的行为数据。
结合上述S1031中的示例,电子设备可以得到下述所示的一个样本集合(或者可以理解为日志集合),该样本集合中包括的photoid即对应该样本集合的搜索结果。
<query,photoid,sum(show),sum(click),sum(play),sum(like),sum(follow),...>。
具体的,sum(play)用于表征预设时间段内所有用于播放该搜索结果的次数。其他用户行为数据同理,此处不再赘述。
S1033、电子设备确定每个样本集合对应的搜索结果的用户满意值。
应理解,该每个样本集合对应的搜索结果不同,每个样本集合对应的搜索结果的用户满意值可以理解为针对该历史搜索词在该搜索结果下的用户满意值。该用户满意值越高可以理解为用户在输入该历史搜索词之后对该搜索结果越满意。
S1034、电子设备将多个样本集合对应的搜索结果的用户满意值大于第一阈值,且对应的搜索结果的被展示次数大于第二阈值的样本集合确定为目标历史样本集合。
可选地,该第二阈值可以为0,即目标历史样本集合中的搜索结果至少应当被展示过。
上述实施例提供的技术方案至少能够带来以下有益效果:由S1031-S1034可知,电子设备可以获取历史时间段内的历史搜索词、与该历史搜索词对应的搜索结果,以及该搜索结果的用户行为数据,并且对该搜索结果的用户行为数据进行聚合,得到多个样本集合,每个样本集合至少包括该历史搜索词、与该历史搜索词对应的一个搜索结果,以及该一个搜索结果对应的聚合后的用户行为数据;然后,电子设备将该多个样本集合对应的搜索结果的用户满意值大于第一阈值,且对应的搜索结果的被展示次数大于第二阈值的样本集合确定为目标历史样本集合。本公开实施例中,电子设备可以对搜索结果的用户行为数据进行聚合,具体为对不同用户、相同搜索词、相同搜索结果进行聚合,以得到多个聚合后的样本集合,一个聚合后的样本集合可以表征不同用户在历史搜索词中对应该搜索结果的行为操作情况,进而确定出目标历史样本集合。能够有效、合理地确定出不同用户对同一搜索结果的喜好程度,提升目标历史样本集合的确定效率。
结合图3,如图4所示,在本公开实施例的一种实现方式中,上述确定每个样本集合对应的搜索结果的用户满意值,具体可以包括S1033a。
S1033a、电子设备将目标样本集合对应的搜索结果的用户满意率与目标样本集合对应的搜索结果的用户满意置信度的乘积,确定为目标样本集合对应的搜索结果的用户满意值。
其中,该目标样本集合为上述多个样本集合中的一个。
具体的,该用户满意值可以满足下述公式:
satisfyscore=satisfy_ratio*satisfyconfidence
其中,satisfyscore表示该用户满意值,satisfy_ratio表示该用户满意率,satisfyconfidence表示该用户满意置信度。
上述实施例提供的技术方案至少能够带来以下有益效果:由S1033a可知,电子设备可以将目标样本集合对应的搜索结果的用户满意率与该目标样本集合对应的搜索结果的用户满意置信度的乘积,确定该目标样本集合对应的搜索结果的用户满意值,能够准确、有效地确定出用户满意值,进而提升目标历史样本集合的确定有效性。
结合图4,如图5所示,本公开实施例提供的数据处理方法还包括S106。
S106、电子设备根据目标样本集合对应的搜索结果的用户满意度以及目标样本集合对应的搜索结果的播放次数,确定目标集合对应的搜索结果的用户满意率。
具体的,电子设备可以确定该目标样本集合对应的搜索结果的用户满意率满足下述公式:
Figure BDA0003329285100000101
其中,satisfy_ratio表示该用户满意率,satisfy表示该目标样本集合对应的搜索结果的用户满意度,M表示归一化系数,play_cnt表示该目标样本集合对应的搜索结果的播放次数,M>1。
应理解,play_cnt与上述sum(play)的意义是相同的,此处不再赘述。
上述实施例提供的技术方案至少能够带来以下有益效果:由S106可知,电子设备可以根据该目标样本集合对应的搜索结果的用户满意度和该目标样本集合对应的搜索结果的播放次数确定出该目标样本集合对应的搜索结果的用户满意率,能够快速地确定出用户满意率,进而提升用户满意值的确定效率。
结合图5,如图6所示,本公开实施例提供的数据处理方法还可以包括S107。
S107、电子设备根据目标样本集合对应的搜索结果对应的聚合后的每一种用户行为数据以及每一种用户行为的权重,确定目标样本集合对应的搜索结果的用户满意度。
具体的,电子设备可以确定目标样本集合对应的搜索结果的用户满意度满足下述公式:
Figure BDA0003329285100000111
其中,satisfy表示该用户满意度,Ai表示第i种用户行为的权重,actioni表示第i种用户行为。
在一种情况下,上述M(即归一化系数)可以为多种用户行为的权重的和。示例性的,假设用户行为包括点击、播放以及点赞,该点击、播放以及点赞的权重分别为1、2以及3,则电子设备确定该M=6。
上述实施例提供的技术方案至少能够带来以下有益效果:由S107可知,电子设备可以根据目标样本集合对应的搜索结果对应的聚合后的每一种用户行为数据(包括第i种用户行为)以及该每一种用户行为的权重(包括第i种用户行为的权重)确定该目标样本集合对应的搜索结果的用户满意度,能够方便、快捷地确定出用户满意度,提升数据处理的效率。
结合图4,如图7所示,本发明实施例提供的数据处理方法还包括S108。
S108、电子设备根据目标样本集合对应的搜索结果的播放次数,确定目标样本集合对应的搜索结果的用户满意置信度。
具体的,电子设备可以确定该目标样本集合对应的搜索结果的用户满意置信度满足下述公式:
Figure BDA0003329285100000112
其中,satisfyconfidence表示该用户满意置信度,play_cnt表示该目标样本集合中对应的搜索结果的播放次数。
上述实施例提供的技术方案至少能够带来以下有益效果:由S108可知,电子设备可以根据该目标样本集合对应的搜索结果的播放次数(具体可以基于上述公式)确定出该目标样本集合对应的搜索结果的用户满意置信度,能够提升用户满意置信度的确定效率,进而能够快速地确定出用户满意值,提升数据处理的效率。
可以理解的,在实际实施时,本公开实施例所述的电子设备可以包含有用于实现前述对应数据处理方法的一个或多个硬件结构和/或软件模块,这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
基于这样的理解,本公开实施例还对应提供一种数据处理装置,图8示出了本公开实施例提供的数据处理装置的结构示意图。如图8所示,该数据处理装置10可以包括:获取模块101和确定模块102。
获取模块101,被配置为获取第一搜索关键字。
确定模块102,被配置为基于该第一搜索关键字,从目标集合中确定至少两种类型的搜索结果,该目标集合为第一样本集合和第二样本集合的并集,该第一样本集合对应的历史搜索词包括该第一搜索关键字,该第二样本集合对应的历史搜索词包括该第一搜索关键字与第二搜索关键字,并且该第二样本集合与该第一样本集合之间的搜索时间差小于时间阈值,该第一搜索关键字与该第二搜索关键字包括有用于表征相同语义的关键字,该第一样本集合用于确定该第一搜索关键字对应的至少一种类型的搜索结果。
可选地,该数据处理装置10还包括处理模块103。
获取模块101,还被配置为获取目标历史样本集合,该目标历史样本集合包括历史搜索词以及与该历史搜索词对应的满足预设条件的搜索结果。
确定模块102,还被配置为从该目标历史样本集合中确定该第一样本集合和该第二样本集合。
处理模块103,被配置为将该第一样本集合和该第二样本集合合并为该目标集合。
可选地,上述预设条件包括对应的搜索结果的满意值大于第一阈值,且对应的搜索结果的被展示次数大于第二阈值。
处理模块103,具体被配置为对该搜索结果的用户行为数据进行聚合,得到多个样本集合,每个样本集合至少包括该历史搜索词、与该历史搜索词对应的一个搜索结果,以及该一个搜索结果对应的聚合后的用户行为数据。
确定模块102,具体被配置为确定每个样本集合对应的搜索结果的用户满意值。
确定模块102,具体还被配置为将该多个样本集合中对应的搜索结果的用户满意值大于该第一阈值,且对应的搜索结果的被展示次数大于该第二阈值的样本集合确定为该目标历史样本集合。
可选地,确定模块102,具体被配置为将目标样本集合对应的搜索结果的用户满意率与该目标样本集合对应的搜索结果的用户满意置信度的乘积,确定为该目标样本集合对应的搜索结果的用户满意值,该目标样本集合为该多个样本集合中的一个。
可选地,确定模块102,还被配置为根据该目标样本集合对应的搜索结果的用户满意度以及该目标样本集合对应的搜索结果的播放次数,确定该目标样本集合对应的搜索结果的用户满意率。
可选地,确定模块102,还被配置为根据该目标样本集合对应的搜索结果对应的聚合后的每一种用户行为数据以及该每一种用户行为的权重,确定该目标样本集合对应的搜索结果的用户满意度。
可选地,确定模块102,还被配置为根据该目标样本集合对应的搜索结果的播放次数,确定该目标样本集合对应的搜索结果的用户满意置信度。
如上所述,本公开实施例可以根据上述方法示例对数据处理装置进行功能模块的划分。其中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,还需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。
关于上述实施例中的数据处理装置,其中各个模块执行操作的具体方式、以及具备的有益效果,均已经在前述方法实施例中进行了详细描述,此处不再赘述。
图9是本公开提供的另一种数据处理装置的结构示意图。如图9,该数据处理装置20可以包括至少一个处理器201以及用于存储处理器可执行指令的存储器203。其中,处理器201被配置为执行存储器203中的指令,以实现上述实施例中的数据处理方法。
另外,数据处理装置20还可以包括通信总线202以及至少一个通信接口204。
处理器201可以是一个处理器(central processing units,CPU),微处理单元,ASIC,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线202可包括一通路,在上述组件之间传送信息。
通信接口204,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器203用于存储执行本公开方案的指令,并由处理器201来控制执行。处理器201用于执行存储器203中存储的指令,从而实现本公开方法中的功能。
在具体实现中,作为一种实施例,处理器201可以包括一个或多个CPU,例如图9中的CPU0和CPU1。
在具体实现中,作为一种实施例,数据处理装置20可以包括多个处理器,例如图9中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,数据处理装置20还可以包括输出设备205和输入设备206。输出设备205和处理器201通信,可以以多种方式来显示信息。例如,输出设备205可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备206和处理器201通信,可以以多种方式接受用户的输入。例如,输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。
本领域技术人员可以理解,图9中示出的结构并不构成对数据处理装置20的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
另外,本公开还提供一种计算机可读存储介质,包括指令,当指令由处理器执行时,使得处理器执行如上述实施例所提供的数据处理方法。
另外,本公开还提供一种计算机程序产品,包括指令,当指令由处理器执行时,使得处理器执行如上述实施例所提供的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种数据处理方法,应用于电子设备,其特征在于,包括:
获取第一搜索关键字;
基于所述第一搜索关键字,从目标集合中确定至少两种类型的搜索结果,所述目标集合为第一样本集合和第二样本集合的并集,所述第一样本集合对应的历史搜索词包括所述第一搜索关键字,所述第二样本集合对应的历史搜索词包括所述第一搜索关键字与第二搜索关键字,并且所述第二样本集合与所述第一样本集合之间的搜索时间差小于时间阈值,所述第一搜索关键字与所述第二搜索关键字包括有用于表征相同语义的关键字,所述第一样本集合用于确定所述第一搜索关键字对应的至少一种类型的搜索结果。
2.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
获取目标历史样本集合,所述目标历史样本集合包括历史搜索词以及与所述历史搜索词对应的满足预设条件的搜索结果;
从所述目标历史样本集合中确定所述第一样本集合和所述第二样本集合;
将所述第一样本集合和所述第二样本集合合并为所述目标集合。
3.根据权利要求2所述的数据处理方法,其特征在于,所述预设条件包括对应的搜索结果的满意值大于第一阈值,且对应的搜索结果的被展示次数大于第二阈值,所述获取目标历史样本集合,包括:
获取历史时间段内的历史搜索词、与所述历史搜索词对应的搜索结果,以及所述搜索结果的用户行为数据;
对所述搜索结果的用户行为数据进行聚合,得到多个样本集合,每个样本集合至少包括所述历史搜索词、与所述历史搜索词对应的一个搜索结果,以及所述一个搜索结果对应的聚合后的用户行为数据;
确定每个样本集合对应的搜索结果的用户满意值;
将所述多个样本集合中对应的搜索结果的用户满意值大于所述第一阈值,且对应的搜索结果的被展示次数大于所述第二阈值的样本集合确定为所述目标历史样本集合。
4.根据权利要求3所述的数据处理方法,其特征在于,所述确定每个样本集合对应的搜索结果的用户满意值,包括:
将目标样本集合对应的搜索结果的用户满意率与所述目标样本集合对应的搜索结果的用户满意置信度的乘积,确定为所述目标样本集合对应的搜索结果的用户满意值,所述目标样本集合为所述多个样本集合中的一个。
5.根据权利要求4所述的数据处理方法,其特征在于,所述方法还包括:
根据所述目标样本集合对应的搜索结果的用户满意度以及所述目标样本集合对应的搜索结果的播放次数,确定所述目标样本集合对应的搜索结果的用户满意率。
6.根据权利要求5所述的数据处理方法,其特征在于,所述方法还包括:
根据所述目标样本集合对应的搜索结果对应的聚合后的每一种用户行为数据以及所述每一种用户行为的权重,确定所述目标样本集合对应的搜索结果的用户满意度。
7.一种数据处理装置,其特征在于,包括:获取模块和确定模块;
所述获取模块,被配置为获取第一搜索关键字;
所述确地模块,被配置为基于所述第一搜索关键字,从目标集合中确定至少两种类型的搜索结果,所述目标集合为第一样本集合和第二样本集合的并集,所述第一样本集合对应的历史搜索词包括所述第一搜索关键字,所述第二样本集合对应的历史搜索词包括所述第一搜索关键字与第二搜索关键字,并且所述第二样本集合与所述第一样本集合之间的搜索时间差小于时间阈值,所述第一搜索关键字与所述第二搜索关键字包括有用于表征相同语义的关键字,所述第一样本集合用于确定所述第一搜索关键字对应的至少一种类型的搜索结果。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
被配置为存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-6中任一项所述的数据处理方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备执行时,使得所述电子设备能够执行如权利要求1-6中任一项所述的数据处理方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-6中任一项所述的数据处理方法。
CN202111272988.3A 2021-10-29 2021-10-29 一种数据处理方法、装置、电子设备及存储介质 Pending CN113987375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111272988.3A CN113987375A (zh) 2021-10-29 2021-10-29 一种数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111272988.3A CN113987375A (zh) 2021-10-29 2021-10-29 一种数据处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113987375A true CN113987375A (zh) 2022-01-28

Family

ID=79744500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111272988.3A Pending CN113987375A (zh) 2021-10-29 2021-10-29 一种数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113987375A (zh)

Similar Documents

Publication Publication Date Title
CN107256267B (zh) 查询方法和装置
WO2021017721A1 (zh) 智能问答方法、装置、介质及电子设备
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
WO2019105432A1 (zh) 文本推荐方法、装置及电子设备
CN109154935B (zh) 一种用于分析用于任务完成的捕获的信息的方法、系统及可读存储设备
US9720904B2 (en) Generating training data for disambiguation
US20110218946A1 (en) Presenting content items using topical relevance and trending popularity
CN109165302A (zh) 多媒体文件推荐方法及装置
TW201337608A (zh) 實體屬性及關係的排序
TW201214173A (en) Methods and apparatus for displaying content
US20120059814A1 (en) Methods and apparatus for selecting a search engine to which to provide a search query
CN115668193A (zh) 在通信群组中的计算机资源的隐私保护复合视图
US20180285448A1 (en) Producing personalized selection of applications for presentation on web-based interface
WO2020151548A1 (zh) 关注页面的排序方法及装置
EP3387556B1 (en) Providing automated hashtag suggestions to categorize communication
US10114890B2 (en) Goal based conversational serendipity inclusion
US10534780B2 (en) Single unified ranker
US9372930B2 (en) Generating a supplemental description of an entity
WO2021098175A1 (zh) 录制语音包功能的引导方法、装置、设备和计算机存储介质
US20140188831A1 (en) Generating and displaying media content search results on a computing device
CN110140120B (zh) 上下文洞察系统
CN113987375A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN113076395B (zh) 语义模型训练、搜索显示方法、装置、设备及存储介质
CN111368036B (zh) 用于搜索信息的方法和装置
US20160150038A1 (en) Efficiently Discovering and Surfacing Content Attributes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination