CN112052395A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN112052395A
CN112052395A CN202010973496.6A CN202010973496A CN112052395A CN 112052395 A CN112052395 A CN 112052395A CN 202010973496 A CN202010973496 A CN 202010973496A CN 112052395 A CN112052395 A CN 112052395A
Authority
CN
China
Prior art keywords
account
query statement
self
feature vector
media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010973496.6A
Other languages
English (en)
Other versions
CN112052395B (zh
Inventor
严浩
宫兆汉
彭君睿
陈炜鹏
许静芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202010973496.6A priority Critical patent/CN112052395B/zh
Publication of CN112052395A publication Critical patent/CN112052395A/zh
Application granted granted Critical
Publication of CN112052395B publication Critical patent/CN112052395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种数据处理方法,包括:获取第一查询语句,并确定第一查询语句的特征向量。获取多个自媒体账号中每个自媒体账号分别对应的特征向量。确定第一查询语句的特征向量和每个自媒体账号分别对应的特征向量之后,可以根据第一查询语句的特征向量、以及所述每个自媒体账号分别对应的特征向量,确定每个自媒体账号和第一查询语句的匹配程度。并根据每个自媒体账号和第一查询语句的匹配程度,对多个自媒体账号进行排序,并输出排序靠前的第一数目个自媒体账号的信息。账号排序越靠前,说明该账号发布的内容和第一查询语句的相关程度越高。由此可见,利用本方案,可以为用户推荐发布内容与第一查询语句相关程度比较高的自媒体账号。

Description

一种数据处理方法及装置
技术领域
本申请涉及数据处理领域,特别是涉及一种数据处理方法及装置。
背景技术
随着网络技术的发展,用户可以通过网络获取信息。目前,出现了一些公众账号,公众账号可以发布一些内容例如文章或者视频等,以供用户查看。在一些场景中,“公众账号”也可以被称为“公众号”。
目前,对于某一话题,会有许多公众号发布相关的内容,如何为用户确定与用户关注的话题相关程度高的公众号,是目前尚待解决的问题。
发明内容
本申请所要解决的技术问题是如何为用户确定与用户关注的话题相关程度高的公众号,提供一种数据处理方法及装置。
第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取第一查询语句,并确定所述第一查询语句的特征向量;
获取多个自媒体账号中每个自媒体账号分别对应的特征向量;
根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度;
根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序;
输出排序靠前的第一数目个自媒体账号的信息。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号对应的特征向量,根据所述第一账号的账号描述信息和/或所述第一账号历史发布的内容确定。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,包括:
所述第一账号的特征向量和所述第一查询语句的特征向量的余弦相似度。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,通过如下方式确定:
将所述第一账号的特征向量和所述第一查询语句的特征向量输入预先训练的机器学习模型,得到所述第一账号和所述第一查询语句的匹配程度;其中:
所述机器学习模型用于根据所述第一账号的特征向量和所述第一查询语句的特征向量,得到所述第一账号和所述第一查询语句的匹配程度。
在一种实现方式中,所述机器学习模型,根据训练查询语句的特征向量、正样本账号的特征向量以及负样本账号的特征向量训练得到,其中,所述正样本账号与所述训练查询语句的匹配程度,高于所述负样本账号与所述训练查询语句的匹配程度。
在一种实现方式中,
所述正样本账号包括:
向网络用户推荐的与所述训练查询语句匹配的账号中被所述网络用户选择的账号;
所述负样本账号包括:
向所述网络用户推荐的与所述训练查询语句匹配的账号中未被所述网络用户选择的账号。
在一种实现方式中,所述正样本账号和所述负样本数据为向网络用户推荐的与所述训练查询语句匹配的账号,所述负样本账号的排序位置在所述正样本账号的排序位置之后,其中:在向所述网络用户推荐与所述训练查询语句匹配的账号时,对推荐的所述账号按照与所述训练查询语句的匹配程度由高到低进行排序。
在一种实现方式中,所述方法还包括:
获取所述多个自媒体账号中每个自媒体账号分别对应的权威程度;
所述根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个账号进行排序,包括:
根据所述每个自媒体账号和所述第一查询语句的匹配程度、以及每个自媒体账号分别对应的权威程度,对所述多个自媒体账号进行排序。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号的权威程度,根据所述第一账号历史发布的内容确定。
在一种实现方式中,所述每个自媒体账号和所述第一查询语句的匹配程度,包括第一匹配程度和第二匹配程度,其中:
所述每个自媒体账号和所述第一查询语句的第一匹配程度为:所述每个自媒体账号的特征向量和所述第一查询语句的特征向量的余弦相似度;
所述每个自媒体账号和所述第一查询语句的第二匹配程度,是将所述每个自媒体账号和所述第一查询语句输入预先训练的机器学习模型中得到的。
在一种实现方式中,所述获取第一查询语句,包括:
根据第一用户的历史查询内容和/或所述第一用户的历史浏览内容,确定所述第一查询语句。
第二方面,本申请实施例提供了一种数据处理装置,所述装置包括:
第一获取单元,用于获取第一查询语句,并确定所述第一查询语句的特征向量;
第二获取单元,用于获取多个自媒体账号中每个自媒体账号分别对应的特征向量;
确定单元,用于根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度;
排序单元,用于根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序;
输出单元,用于输出排序靠前的第一数目个自媒体账号的信息。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号对应的特征向量,根据所述第一账号的账号描述信息和/或所述第一账号历史发布的内容确定。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,包括:
所述第一账号的特征向量和所述第一查询语句的特征向量的余弦相似度。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,通过如下方式确定:
将所述第一账号的特征向量和所述第一查询语句的特征向量输入预先训练的机器学习模型,得到所述第一账号和所述第一查询语句的匹配程度;其中:
所述机器学习模型用于根据所述第一账号的特征向量和所述第一查询语句的特征向量,得到所述第一账号和所述第一查询语句的匹配程度。
在一种实现方式中,所述机器学习模型,根据训练查询语句的特征向量、正样本账号的特征向量以及负样本账号的特征向量训练得到,其中,所述正样本账号与所述训练查询语句的匹配程度,高于所述负样本账号与所述训练查询语句的匹配程度。
在一种实现方式中,
所述正样本账号包括:
向网络用户推荐的与所述训练查询语句匹配的账号中被所述网络用户选择的账号;
所述负样本账号包括:
向所述网络用户推荐的与所述训练查询语句匹配的账号中未被所述网络用户选择的账号。
在一种实现方式中,所述正样本账号和所述负样本数据为向网络用户推荐的与所述训练查询语句匹配的账号,所述负样本账号的排序位置在所述正样本账号的排序位置之后,其中:在向所述网络用户推荐与所述训练查询语句匹配的账号时,对推荐的所述账号按照与所述训练查询语句的匹配程度由高到低进行排序。
在一种实现方式中,所述装置还包括:
第三获取单元,用于获取所述多个自媒体账号中每个自媒体账号分别对应的权威程度;
所述排序单元,用于:
根据所述每个自媒体账号和所述第一查询语句的匹配程度、以及每个自媒体账号分别对应的权威程度,对所述多个自媒体账号进行排序。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号的权威程度,根据所述第一账号历史发布的内容确定。
在一种实现方式中,所述每个自媒体账号和所述第一查询语句的匹配程度,包括第一匹配程度和第二匹配程度,其中:
所述每个自媒体账号和所述第一查询语句的第一匹配程度为:所述每个自媒体账号的特征向量和所述第一查询语句的特征向量的余弦相似度;
所述每个自媒体账号和所述第一查询语句的第二匹配程度,是将所述每个自媒体账号和所述第一查询语句输入预先训练的机器学习模型中得到的。
在一种实现方式中,所述第一获取单元,用于:
根据第一用户的历史查询内容和/或所述第一用户的历史浏览内容,确定所述第一查询语句。
第三方面,本申请实施例提供了一种数据处理装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一查询语句,并确定所述第一查询语句的特征向量;
获取多个自媒体账号中每个自媒体账号分别对应的特征向量;
根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度;
根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序;
输出排序靠前的第一数目个自媒体账号的信息。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号对应的特征向量,根据所述第一账号的账号描述信息和/或所述第一账号历史发布的内容确定。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,包括:
所述第一账号的特征向量和所述第一查询语句的特征向量的余弦相似度。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,通过如下方式确定:
将所述第一账号的特征向量和所述第一查询语句的特征向量输入预先训练的机器学习模型,得到所述第一账号和所述第一查询语句的匹配程度;其中:
所述机器学习模型用于根据所述第一账号的特征向量和所述第一查询语句的特征向量,得到所述第一账号和所述第一查询语句的匹配程度。
在一种实现方式中,所述机器学习模型,根据训练查询语句的特征向量、正样本账号的特征向量以及负样本账号的特征向量训练得到,其中,所述正样本账号与所述训练查询语句的匹配程度,高于所述负样本账号与所述训练查询语句的匹配程度。
在一种实现方式中,
所述正样本账号包括:
向网络用户推荐的与所述训练查询语句匹配的账号中被所述网络用户选择的账号;
所述负样本账号包括:
向所述网络用户推荐的与所述训练查询语句匹配的账号中未被所述网络用户选择的账号。
在一种实现方式中,所述正样本账号和所述负样本数据为向网络用户推荐的与所述训练查询语句匹配的账号,所述负样本账号的排序位置在所述正样本账号的排序位置之后,其中:在向所述网络用户推荐与所述训练查询语句匹配的账号时,对推荐的所述账号按照与所述训练查询语句的匹配程度由高到低进行排序。
在一种实现方式中,所述操作还包括:
获取所述多个自媒体账号中每个自媒体账号分别对应的权威程度;
所述根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个账号进行排序,包括:
根据所述每个自媒体账号和所述第一查询语句的匹配程度、以及每个自媒体账号分别对应的权威程度,对所述多个自媒体账号进行排序。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号的权威程度,根据所述第一账号历史发布的内容确定。
在一种实现方式中,所述每个自媒体账号和所述第一查询语句的匹配程度,包括第一匹配程度和第二匹配程度,其中:
所述每个自媒体账号和所述第一查询语句的第一匹配程度为:所述每个自媒体账号的特征向量和所述第一查询语句的特征向量的余弦相似度;
所述每个自媒体账号和所述第一查询语句的第二匹配程度,是将所述每个自媒体账号和所述第一查询语句输入预先训练的机器学习模型中得到的。
在一种实现方式中,所述获取第一查询语句,包括:
根据第一用户的历史查询内容和/或所述第一用户的历史浏览内容,确定所述第一查询语句。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以上第一方面任意一项所述的方法。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供了一种数据处理方法,该方法包括:获取第一查询语句,并确定第一查询语句的特征向量。第一查询语句的特征向量,可以用于表征第一查询语句的语义。获取多个自媒体账号中每个自媒体账号分别对应的特征向量,此处提及的自媒体账号是能够发布内容的公众账号。为方便描述,将所述多个自媒体账号中的任意一个账号,称为第一账号。第一账号的特征向量,可以用于表征第一账号的发文内容。确定第一查询语句的特征向量和所述多个自媒体账号中每个自媒体账号分别对应的特征向量之后,可以根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度。其中,第一账号的特征向量和第一查询语句的特征向量的匹配程度,可以用于表征第一账号的发布的内容与第一查询语句的相关程度。确定每个自媒体账号和所述第一查询语句的匹配程度之后,可以根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序,并输出排序靠前的第一数目个自媒体账号的信息。在本申请实施例中,第一账号排序越靠前,说明第一账号发布的内容和第一查询语句的相关程度越高。由此可见,利用本申请实施例的方案,可以为用户推荐发布内容与第一查询语句相关程度比较高的自媒体账号。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的流程示意图;
图2为本申请实施例提供的一种数据处理装置的结构示意图;
图3为本申请实施例提供的客户端的结构示意图;
图4为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的发明人经过研究发现,当用户希望阅读与某一话题相关的内容时,可以基于该话题搜索对应的公众号。目前,可以预先确定查询语句和公众号之间的对应关系,其中,该对应关系中包括的查询语句,是网络用户输入的历史查询语句。网络用户输入该历史查询语句之后,搜索引擎可以为用户推荐公众号。前述对应关系中包括的公众号,为搜索引擎向用户推荐的公众号中被用户选择的公众号。举例说明,网络用户输入历史查询语句A之后,搜索引擎为网络用户推荐了公众号A、公众号B和公众号C,而网络用户选择了公众号A,例如点击了公众号A的超链接。则该对应关系中可以包括历史查询语句A和公众号A之间的对应关系。
由于前述对应关系中的查询语句,是网络用户曾经输入的历史查询语句,对于网络用户没有输入的查询语句,则无法准确的确定与用户关注的话题相关程度高的公众号。
为了能够为用户确定与用户关注的话题相关程度高的公众号,本申请实施例提供了一种数据处理方法及装置。
下面结合附图,详细说明本申请的各种非限制性实施方式。
示例性方法
参见图1,该图为本申请实施例提供的一种数据处理方法的流程示意图。
图1所示的方法,可以由具备数据处理功能的控制器或者处理器执行,也可以由包括前述控制器或者处理器的设备执行,本申请实施例不具体限定。其中,包括控制器或者处理器的设备包括但不限于终端设备以及服务器。
在本实施例中,图1所示的方法例如可以通过如下S101-S105实现。
S101:获取第一查询语句,并确定第一查询语句的特征向量。
本申请实施例的方案可以应用于公众号推荐平台。作为一种示例,该公众号推荐平台可以应用于搜索场景中。作为又一种示例,该公众号推荐平台可以应用于主动推荐场景中。
在本申请实施例中,第一查询语句可以和某一话题相关。例如,第一查询语句可以为:“美国制裁华为”,又如,第一查询语句可以为“TikTok被收购”。该第一查询语句用于确定对应的公众号。
在本申请实施例中,当前述公众号推荐平台应用于搜索场景中时,第一查询语句可以是第一用户输入的。作为一个示例,第一用户可以通过输入法输入所述第一查询语句;作为又一个示例,第一用户可以通过语音输入所述第一查询语句,本申请实施例不做具体限定。此处提及的输入法,包括但不限于中文输入法、英文输出法、韩文输入法等。
在本申请实施例中,考虑到对于第一用户而言,一方面,第一用户曾经利用搜索引擎搜索过的内容,可能是第一用户比较关注的内容。另一方面,第一用户曾经浏览的内容也可能是第一用户比较关注的内容。鉴于此,当前述公众号推荐平台应用于主动推荐场景中时,第一查询语句可以是根据第一用户的历史查询内容和/或第一用户的历史浏览内容确定的。其中,第一用户的历史查询内容可以是第一用户利用搜索引擎曾经搜索的内容。第一用户的历史浏览内容可以是第一用户曾经浏览的内容。其中,第一用户曾经浏览的内容可以是某一网页中的内容,也可以是某一网站中的内容,还可以是某一公众号曾经发布的内容。
为了能够确定出发布内容与第一查询语句匹配度比较高的公众号,在本申请实施例中,获取第一查询语句之后,可以进一步确定第一查询语句的特征向量,并进一步利用第一查询语句的特征向量确定对应的公众号。其中,第一查询语句的特征向量,可以体现第一查询语句的语义。
在本申请实施例中,第一查询语句可以包括多个分词,例如,对于第一查询语句“美国制裁华为”,而言,其可以包括“美国”、“制裁”和“华为”三个分词。第一查询语句的特征向量,可以根据所述第一查询语句包括的分词的词嵌入向量确定,例如,第一查询语句的特征向量,可以等于第一查询语句包括的多个分词的词嵌入向量之和。
关于词嵌入向量,需要说明的是,一个分词的词嵌入向量是这个分词的语义信息的向量化表示。目前,可以利用语料来训练得到分词的词嵌入向量。关于训练得到分词的词嵌入向量的具体方式,此处不做详细说明。
S102:获取多个自媒体账号中每个自媒体账号分别对应的特征向量。
此处提及的自媒体账号,可以为前文提及的公众号。在本申请实施例中,此处提及的公众号,例如可以是在某一平台注册的公众号,例如,可以是在微信平台注册的公众号。在本申请实施例中,可以从公众号平台对应的服务器中获取所述多个公众号的相关信息。此处提及的公众号的相关信息,包括但不限于公众号的标识(identifier,ID),公众号的注册时间、公众号的账号描述信息、公众号历史发布的内容等等。
在本申请实施例中,为方便描述,将所述多个账号中的任意一个账号,称为“第一账号”。第一账号的特征向量,可以用于体现第一账号发布的内容。在本申请实施例中,考虑到第一账号的账号描述信息以及第一账号历史发布的内容,都可以在一定程度上表征第一账号发布的内容。因此,在本申请实施例中,可以根据第一账号的账号描述信息和/或所述第一账号历史发布的内容,确定所述第一账号的特征向量。在一个示例中:
可以提取第一账号的账号描述信息和第一账号的历史发布内容的正文,得到第一账号的文字描述。得到第一账号的文字描述之后,可以对第一账号的文字描述进行分词,得到若干个分词。进一步地,计算各个分词的术语频率-反向文档频率(term frequency–inverse document frequency,TF-IDF)值。并从中筛选出TF-IDF值较大的第二数目例如300个分词,作为第一账号的特征分词。可以理解的是,由于第一账号的特征分词对应的TF-IDF值较大,因此,第一账号的特征分词不仅可以表征第一账号发布的内容,还可以用于区分第一账号和其它账号。确定第一账号的特征分词之后,可以利用第一账号的特征分词,训练得到第一账号的特征向量。关于利用第一账号的特征分词训练得到第一账号的特征向量的实现方式,可以采用经典的特征向量训练方式,此处不做详细说明。
S103:根据第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度。
在本申请实施例中,第一账号和第一查询语句的匹配程度,可以体现第一账号发布的内容与第一查询语句的相关程度。在本申请实施例中,第一账号和第一查询语句的匹配程度,可以根据第一账号的特征向量和第一查询语句的特征向量确定。
在一个示例中,考虑到两个向量之间的余弦相似度,可以表示两个向量之间的距离,即可以表示两个向量之间的相关程度。因此,在一些实施例中,第一账号的特征向量和第一查询语句的特征向量的匹配程度,可以是第一账号的特征向量和第一查询语句的特征向量的余弦相似度。
在又一个示例中,可以预先利用训练样本训练机器学习模型,来确定第一账号的特征向量和第一查询语句的特征向量的匹配程度。其中:该机器学习模型的输入为查询语句的特征向量和账号的特征向量,输出为该查询语句的特征向量和账号的特征向量之间的匹配程度。在本申请实施例中,可以将第一查询语句的特征向量以及第一账号的特征向量输入该机器学习模型,该机器学习模型即可得到第一账号的特征向量和第一查询语句的特征向量的匹配程度。其中,该机器学习模型可以是基于大量训练样本训练得到的,因此,机器学习模型所输出的匹配程度准确度比较高。
本申请实施例不具体限定该机器学习模型,该机器学习模型可以是卷积神经网络(Convolutional Neural Networks,CNN)模型,该机器学习模型也可以是循环神经网络(Recurrent Neural Network,RNN)模型,等等,此处不一一列举说明。
接下来对该机器学习模型的训练过程进行简单介绍。
在本申请实施例中,可以利用训练样本训练该机器学习模型,该训练样本包括多组训练样本,一组训练样本包括训练查询语句的特征向量、正样本账号的特征向量以及负样本账号的特征向量。其中,对于一组训练样本而言,该组训练样本中的正样本账号与该组训练样本中的训练查询语句的匹配程度,高于该组训练样本中的负样本账号与该组训练样本中的训练查询语句的匹配程度。所谓正样本账号与所述训练查询语句的匹配程度,指的是所述正样本账号发布的内容与所述训练查询语句的相关程度;类似的,负样本账号与所述训练查询语句的匹配程度,指的是所述负样本账号发布的内容与所述训练查询语句的相关程度。前述训练查询语句,例如可以是网络用户利用搜索引擎搜索时,输出的历史查询语句。
在一些实施例中,考虑到网络用户输入所述训练查询语句时,搜索引擎可以向网络用户推荐与所述训练查询语句匹配的自媒体账号。当搜索引擎向网络用户推荐账号时,网络用户可以从推荐的账号中选择一个或者多个,以阅读该一个或者多个账号发布的内容。而网络用户在选择账号时,一般会选择与网络用户输入的训练查询语句相关度高的账号,因此被网络用户选择的账号与该训练查询语句匹配程度,高于未被网络用户选择的账号与该训练查询语句匹配程度。鉴于此,前述正样本账号可以包括:向网络用户推荐的与所述训练查询语句匹配的账号中被所述网络用户选择的账号;前述负样本账号包括:向网络用户推荐的与所述训练查询语句匹配的账号中未被所述网络用户选择的账号。
举例说明,网络用户曾经输入训练查询语句“美国制裁华为”,搜索引擎为网络设备推荐了账号A、账号B和账号C,网络用户选择了账号A,例如点击了账号A对应的超链接,但并未选择账号B和账号C,则{“美国制裁华为”的特征向量、账号A的特征向量、账号B的特征向量}可以构成一组训练样本,其中,账号A为正样本账号,账号B为负样本账号。另外,{“美国制裁华为”的特征向量、账号A的特征向量、账号C的特征向量}可以构成一组训练样本,其中,账号A为正样本账号,账号C为负样本账号。
在又一些实施例中,考虑到网络用户输入所述训练查询语句时,搜索引擎可以向网络用户推荐与所述训练查询语句匹配的自媒体账号。而且,在为用户推荐与所述训练查询语句匹配的账号时,可以根据账号与训练查询语句的匹配程度,对推荐的账号进行排序,排序位置越靠前,说明该账号与训练查询语句的匹配程度越高,排序位置越靠后,说明该账号与训练查询语句的匹配程度越低。鉴于此,所述正样本账号和所述负样本数据可以为向网络用户推荐的与所述训练查询语句匹配的账号,并且所述负样本账号的排序位置在所述正样本账号的排序位置之后。
举例说明,网络用户曾经输入训练查询语句“美国制裁华为”,搜索引擎为网络设备推荐了10个账号,按照账号发布内容与训练查询语句之间的匹配程度由高到低进行排序,其排序位置由前到后分别为账号1至账号10。则在一个示例中,可以从前5个账号中确定正样本账号,从后5个账号中确定负样本账号。例如,则{“美国制裁华为”的特征向量、账号1的特征向量、账号6的特征向量}可以构成一组训练样本,其中,账号1为正样本账号,账号6为负样本账号。又如,{“美国制裁华为”的特征向量、账号2的特征向量、账号7的特征向量}可以构成一组训练样本,其中,账号2为正样本账号,账号7为负样本账号,等等,此处不一一列举说明。
再举例说明,网络用户曾经输入训练查询语句“美国制裁华为”,搜索引擎为网络设备推荐了账号A、账号B和账号C,且账号A排序位置最靠前,账号B排序位置最靠后,账号C的排序位置介于账号A和账号B之间。则在一个示例中,{“美国制裁华为”的特征向量、账号A的特征向量、账号B的特征向量}可以构成一组训练样本,其中,账号A为正样本账号,账号B为负样本账号。又如,{“美国制裁华为”的特征向量、账号A的特征向量、账号C的特征向量}可以构成一组训练样本,其中,账号A为正样本账号,账号C为负样本账号,等等,此处不一一列举说明。
S104:根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序。
S104在具体实现时,例如可以根据匹配程度由高到低的顺序,对所述多个账号进行排序。换言之,对于第一账号而言,第一账号与第一查询语句的匹配程度越高,第一账号的排序位置越靠前。
在一个示例中,可以利用学习排序(learning to rank,LTR)模型,对所述多个账号进行排序。具体地,可以将所述每个自媒体账号和所述第一查询语句的匹配程度,输入LTR模型,从而得到排序结果。
在一些场景中,为了能够为用户推荐优质的账号,在本申请实施例的一种实现方式中,在对所述多个账号进行排序时,还可以结合所述多个账号中每个自媒体账号的权威程度。换言之,在本申请实施例中,还可以获取所述多个账号中每个自媒体账号的权威程度。在对所述多个账号进行排序时,不仅仅根据所述每个自媒体账号和所述第一查询语句的匹配程度,还可以结合所述每个自媒体账号的权威程度,对所述多个账号进行排序。从而能够为用户推荐与第一查询语句匹配的、并且权威程度比较高的账号。
在一个示例中,可以将所述每个自媒体账号的权威程度也输入LTR模型,从而实现基于所述每个自媒体账号和所述第一查询语句的匹配程度、以及所述多个账号分别对应的权威程度,对所述多个账号进行排序的目的。在本申请实施例中,可以直接从公众号平台对应的服务器中获取每个自媒体账号的权威程度;也可以根据所述多个账号的相关信息,计算得到每个自媒体账号的权威程度;本申请实施例不做具体限定。
在本申请实施例中,第一账号的权威程度,例如可以根据第一账号历史发布的内容确定。例如可以根据第一账号历史发布的内容的页面质量以及该内容是否原创等确定。其中,内容的页面质量,可以根据该内容包括的文字数量、图片数量等因素确定,本申请实施例不做具体限定。另外,第一账号的权威程度,还可以根据第一账号历史发布的内容的类型确定,其中,内容的类型例如可以包括娱乐、科技以及军事等等。在一个示例中,可以将第一账号历史发布的内容的页面质量、是否原创以及类型等特征输入xgboost模型,以得到第一账号的权威程度。如前文,第一账号的特征向量,可以用于表征第一账号的发文内容,而第一账号的发文内容,可以影响第一账号的权威程度。因此,第一账号的权威程度,还可以结合第一账号的特征向量确定。在一个示例中,还可以将第一账号的特征向量输入xgboost模型,以得到第一账号的权威程度。
如前文,第一账号和第一查询语句的匹配程度,可以有两种确定方式。第一种方式是:将第一账号的特征向量和第一查询语句的特征向量的余弦相似度,确定为第一账号和第一查询语句的匹配程度。第二种方式是:将第一账号的特征向量和第一查询语句的特征向量输入预先训练的机器学习模型,从而得到第一账号和第一查询语句的匹配程度。为方便描述,在一个示例中,将采用上述第一种方式(余弦相似度)确定的第一账号和第一查询语句的匹配程度,称为“第一账号和第一查询语句的第一匹配程度”;将采用上述第二种方式(机器学习模型)确定的第一账号和第一查询语句的匹配程度,称为“第一账号和第一查询语句的第二匹配程度”。
在本申请实施例的一个示例中,S104在具体实现时,可以根据每个自媒体账号和第一查询语句的第一匹配程度、所述每个自媒体账号和所述第一查询语句的第二匹配程度、以及所述每个自媒体账号的权威程度,对所述多个自媒体账号进行排序。
在一个示例中,可以将所述每个自媒体账号和所述第一查询语句的第一匹配程度、所述每个自媒体账号和所述第一查询语句的第二匹配程度、以及所述每个自媒体账号的权威程度输入LTR模型,从而得到排序结果。
S105:输出排序靠前的第一数目个自媒体账号的信息。
如前文,对所述多个账号进行排序时,排序位置越靠前,说明该账号与第一查询语句的相关程度越高。因此,在对所述多个账号进行排序之后,可以输出排序靠前的第一数目个自媒体账号的信息,从而实现为用户推荐与第一查询语句相关程度较高的第一数目个自媒体账号的目的。
此处提及的账号的信息,例如可以包括账号的超链接,第一用户可以通过点击该超链接,从而实现对该账号的访问。此外,为了便于第一用户根据输出的信息确定选择哪一个账号,所输出的账号的信息,还可以包括该账号的账号描述信息以及账号最近发布的内容等。
在本申请实施例中,输出排序靠前的第一数目个自媒体账号的信息,例如可以是在用户设备的显示屏上显示所述第一数目个自媒体账号的信息。其中,第一数目可以是预先确定的,也可以是根据用户设备的显示屏的大小确定的,本申请实施例不做具体限定。
示例性设备
基于以上实施例提供的方法,本申请实施例还提供了一种装置,以下结合附图介绍该装置。
参见图2,该图为本申请实施例提供的一种数据处理装置的结构示意图。图2所示的数据处理装置200,例如可以具体包括:第一获取单元201、第二获取单元202、确定单元203、排序单元204和输出单元205。
第一获取单元201,用于获取第一查询语句,并确定所述第一查询语句的特征向量;
第二获取单元202,用于获取多个自媒体账号中每个自媒体账号分别对应的特征向量;
确定单元203,用于根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度;
排序单元204,用于根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序;
输出单元205,用于输出排序靠前的第一数目个自媒体账号的信息。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号对应的特征向量,根据所述第一账号的账号描述信息和/或所述第一账号历史发布的内容确定。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,包括:
所述第一账号的特征向量和所述第一查询语句的特征向量的余弦相似度。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,通过如下方式确定:
将所述第一账号的特征向量和所述第一查询语句的特征向量输入预先训练的机器学习模型,得到所述第一账号和所述第一查询语句的匹配程度;其中:
所述机器学习模型用于根据所述第一账号的特征向量和所述第一查询语句的特征向量,得到所述第一账号和所述第一查询语句的匹配程度。
在一种实现方式中,所述机器学习模型,根据训练查询语句的特征向量、正样本账号的特征向量以及负样本账号的特征向量训练得到,其中,所述正样本账号与所述训练查询语句的匹配程度,高于所述负样本账号与所述训练查询语句的匹配程度。
在一种实现方式中,
所述正样本账号包括:
向网络用户推荐的与所述训练查询语句匹配的账号中被所述网络用户选择的账号;
所述负样本账号包括:
向所述网络用户推荐的与所述训练查询语句匹配的账号中未被所述网络用户选择的账号。
在一种实现方式中,所述正样本账号和所述负样本数据为向网络用户推荐的与所述训练查询语句匹配的账号,所述负样本账号的排序位置在所述正样本账号的排序位置之后,其中:在向所述网络用户推荐与所述训练查询语句匹配的账号时,对推荐的所述账号按照与所述训练查询语句的匹配程度由高到低进行排序。
在一种实现方式中,所述装置还包括:
第三获取单元,用于获取所述多个自媒体账号中每个自媒体账号分别对应的权威程度;
所述排序单元204,用于:
根据所述每个自媒体账号和所述第一查询语句的匹配程度、以及每个自媒体账号分别对应的权威程度,对所述多个自媒体账号进行排序。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号的权威程度,根据所述第一账号历史发布的内容确定。
在一种实现方式中,所述每个自媒体账号和所述第一查询语句的匹配程度,包括第一匹配程度和第二匹配程度,其中:
所述每个自媒体账号和所述第一查询语句的第一匹配程度为:所述每个自媒体账号的特征向量和所述第一查询语句的特征向量的余弦相似度;
所述每个自媒体账号和所述第一查询语句的第二匹配程度,是将所述每个自媒体账号和所述第一查询语句输入预先训练的机器学习模型中得到的。
在一种实现方式中,所述第一获取单元201,用于:
根据第一用户的历史查询内容和/或所述第一用户的历史浏览内容,确定所述第一查询语句。
由于所述装置200是与以上方法实施例提供的方法对应的装置,所述装置200的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于所述装置200的各个单元的具体实现,可以参考以上方法实施例的描述部分,此处不再赘述。
本申请实施例提供的方法,可以由客户端执行也可以由服务器执行,以下对执行上述方法的客户端和服务器分别进行说明。
图3示出了一种客户端300的框图。例如,客户端300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,客户端300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口33,传感器组件314,以及通信组件316。
处理组件302通常控制客户端300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理部件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在客户端300的操作。这些数据的示例包括用于在客户端300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为客户端300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为客户端300生成、管理和分配电力相关联的组件。
多媒体组件308包括在所述客户端300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当客户端300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当客户端300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为客户端300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为客户端300的显示器和小键盘,传感器组件314还可以检测客户端300或客户端300一个组件的位置改变,用户与客户端300接触的存在或不存在,客户端300方位或加速/减速和客户端300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于客户端300和其他设备之间有线或无线方式的通信。客户端300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,客户端300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
获取第一查询语句,并确定所述第一查询语句的特征向量;
获取多个自媒体账号中每个自媒体账号分别对应的特征向量;
根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度;
根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序;
输出排序靠前的第一数目个自媒体账号的信息。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号对应的特征向量,根据所述第一账号的账号描述信息和/或所述第一账号历史发布的内容确定。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,包括:
所述第一账号的特征向量和所述第一查询语句的特征向量的余弦相似度。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,通过如下方式确定:
将所述第一账号的特征向量和所述第一查询语句的特征向量输入预先训练的机器学习模型,得到所述第一账号和所述第一查询语句的匹配程度;其中:
所述机器学习模型用于根据所述第一账号的特征向量和所述第一查询语句的特征向量,得到所述第一账号和所述第一查询语句的匹配程度。
在一种实现方式中,所述机器学习模型,根据训练查询语句的特征向量、正样本账号的特征向量以及负样本账号的特征向量训练得到,其中,所述正样本账号与所述训练查询语句的匹配程度,高于所述负样本账号与所述训练查询语句的匹配程度。
在一种实现方式中,
所述正样本账号包括:
向网络用户推荐的与所述训练查询语句匹配的账号中被所述网络用户选择的账号;
所述负样本账号包括:
向所述网络用户推荐的与所述训练查询语句匹配的账号中未被所述网络用户选择的账号。
在一种实现方式中,所述正样本账号和所述负样本数据为向网络用户推荐的与所述训练查询语句匹配的账号,所述负样本账号的排序位置在所述正样本账号的排序位置之后,其中:在向所述网络用户推荐与所述训练查询语句匹配的账号时,对推荐的所述账号按照与所述训练查询语句的匹配程度由高到低进行排序。
在一种实现方式中,所述方法还包括:
获取所述多个自媒体账号中每个自媒体账号分别对应的权威程度;
所述根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个账号进行排序,包括:
根据所述每个自媒体账号和所述第一查询语句的匹配程度、以及每个自媒体账号分别对应的权威程度,对所述多个自媒体账号进行排序。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号的权威程度,根据所述第一账号历史发布的内容确定。
在一种实现方式中,所述每个自媒体账号和所述第一查询语句的匹配程度,包括第一匹配程度和第二匹配程度,其中:
所述每个自媒体账号和所述第一查询语句的第一匹配程度为:所述每个自媒体账号的特征向量和所述第一查询语句的特征向量的余弦相似度;
所述每个自媒体账号和所述第一查询语句的第二匹配程度,是将所述每个自媒体账号和所述第一查询语句输入预先训练的机器学习模型中得到的。
在一种实现方式中,所述获取第一查询语句,包括:
根据第一用户的历史查询内容和/或所述第一用户的历史浏览内容,确定所述第一查询语句。
图4是本申请实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
更进一步地,中央处理器422可以执行下述方法:
获取第一查询语句,并确定所述第一查询语句的特征向量;
获取多个自媒体账号中每个自媒体账号分别对应的特征向量;
根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度;
根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序;
输出排序靠前的第一数目个自媒体账号的信息。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号对应的特征向量,根据所述第一账号的账号描述信息和/或所述第一账号历史发布的内容确定。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,包括:
所述第一账号的特征向量和所述第一查询语句的特征向量的余弦相似度。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,通过如下方式确定:
将所述第一账号的特征向量和所述第一查询语句的特征向量输入预先训练的机器学习模型,得到所述第一账号和所述第一查询语句的匹配程度;其中:
所述机器学习模型用于根据所述第一账号的特征向量和所述第一查询语句的特征向量,得到所述第一账号和所述第一查询语句的匹配程度。
在一种实现方式中,所述机器学习模型,根据训练查询语句的特征向量、正样本账号的特征向量以及负样本账号的特征向量训练得到,其中,所述正样本账号与所述训练查询语句的匹配程度,高于所述负样本账号与所述训练查询语句的匹配程度。
在一种实现方式中,
所述正样本账号包括:
向网络用户推荐的与所述训练查询语句匹配的账号中被所述网络用户选择的账号;
所述负样本账号包括:
向所述网络用户推荐的与所述训练查询语句匹配的账号中未被所述网络用户选择的账号。
在一种实现方式中,所述正样本账号和所述负样本数据为向网络用户推荐的与所述训练查询语句匹配的账号,所述负样本账号的排序位置在所述正样本账号的排序位置之后,其中:在向所述网络用户推荐与所述训练查询语句匹配的账号时,对推荐的所述账号按照与所述训练查询语句的匹配程度由高到低进行排序。
在一种实现方式中,所述方法还包括:
获取所述多个自媒体账号中每个自媒体账号分别对应的权威程度;
所述根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个账号进行排序,包括:
根据所述每个自媒体账号和所述第一查询语句的匹配程度、以及每个自媒体账号分别对应的权威程度,对所述多个自媒体账号进行排序。
在一种实现方式中,所述多个自媒体账号包括第一账号,所述第一账号的权威程度,根据所述第一账号历史发布的内容确定。
在一种实现方式中,所述每个自媒体账号和所述第一查询语句的匹配程度,包括第一匹配程度和第二匹配程度,其中:
所述每个自媒体账号和所述第一查询语句的第一匹配程度为:所述每个自媒体账号的特征向量和所述第一查询语句的特征向量的余弦相似度;
所述每个自媒体账号和所述第一查询语句的第二匹配程度,是将所述每个自媒体账号和所述第一查询语句输入预先训练的机器学习模型中得到的。
在一种实现方式中,所述获取第一查询语句,包括:
根据第一用户的历史查询内容和/或所述第一用户的历史浏览内容,确定所述第一查询语句。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口456,一个或一个以上键盘456,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例还提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以上方法实施例提供的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取第一查询语句,并确定所述第一查询语句的特征向量;
获取多个自媒体账号中每个自媒体账号分别对应的特征向量;
根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度;
根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序;
输出排序靠前的第一数目个自媒体账号的信息。
2.根据权利要求1所述的方法,其特征在于,所述多个自媒体账号包括第一账号,所述第一账号对应的特征向量,根据所述第一账号的账号描述信息和/或所述第一账号历史发布的内容确定。
3.根据权利要求1所述的方法,其特征在于,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,包括:
所述第一账号的特征向量和所述第一查询语句的特征向量的余弦相似度。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述多个自媒体账号包括第一账号,所述第一账号和所述第一查询语句的匹配程度,通过如下方式确定:
将所述第一账号的特征向量和所述第一查询语句的特征向量输入预先训练的机器学习模型,得到所述第一账号和所述第一查询语句的匹配程度;其中:
所述机器学习模型用于根据所述第一账号的特征向量和所述第一查询语句的特征向量,得到所述第一账号和所述第一查询语句的匹配程度。
5.根据权利要求4所述的方法,其特征在于,所述机器学习模型,根据训练查询语句的特征向量、正样本账号的特征向量以及负样本账号的特征向量训练得到,其中,所述正样本账号与所述训练查询语句的匹配程度,高于所述负样本账号与所述训练查询语句的匹配程度。
6.根据权利要求5所述的方法,其特征在于,
所述正样本账号包括:
向网络用户推荐的与所述训练查询语句匹配的账号中被所述网络用户选择的账号;
所述负样本账号包括:
向所述网络用户推荐的与所述训练查询语句匹配的账号中未被所述网络用户选择的账号。
7.根据权利要求5所述的方法,其特征在于,所述正样本账号和所述负样本数据为向网络用户推荐的与所述训练查询语句匹配的账号,所述负样本账号的排序位置在所述正样本账号的排序位置之后,其中:在向所述网络用户推荐与所述训练查询语句匹配的账号时,对推荐的所述账号按照与所述训练查询语句的匹配程度由高到低进行排序。
8.一种数据处理装置,其特征在于,所述装置包括:
第一获取单元,用于获取第一查询语句,并确定所述第一查询语句的特征向量;
第二获取单元,用于获取多个自媒体账号中每个自媒体账号分别对应的特征向量;
确定单元,用于根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度;
排序单元,用于根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序;
输出单元,用于输出排序靠前的第一数目个自媒体账号的信息。
9.一种数据处理装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一查询语句,并确定所述第一查询语句的特征向量;
获取多个自媒体账号中每个自媒体账号分别对应的特征向量;
根据所述第一查询语句的特征向量、以及所述多个自媒体账号中每个自媒体账号分别对应的特征向量,确定每个自媒体账号和所述第一查询语句的匹配程度;
根据所述每个自媒体账号和所述第一查询语句的匹配程度,对所述多个自媒体账号进行排序;
输出排序靠前的第一数目个自媒体账号的信息。
10.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行权利要求1至7任意一项所述的方法。
CN202010973496.6A 2020-09-16 2020-09-16 一种数据处理方法及装置 Active CN112052395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010973496.6A CN112052395B (zh) 2020-09-16 2020-09-16 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010973496.6A CN112052395B (zh) 2020-09-16 2020-09-16 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN112052395A true CN112052395A (zh) 2020-12-08
CN112052395B CN112052395B (zh) 2024-03-22

Family

ID=73603089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010973496.6A Active CN112052395B (zh) 2020-09-16 2020-09-16 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112052395B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722438A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于句向量模型的句向量生成方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083524A1 (en) * 2015-09-22 2017-03-23 Riffsy, Inc. Platform and dynamic interface for expression-based retrieval of expressive media content
CN110674292A (zh) * 2019-08-27 2020-01-10 腾讯科技(深圳)有限公司 一种人机交互方法、装置、设备及介质
US10664512B1 (en) * 2018-02-13 2020-05-26 Snap Inc. Query matching to media collections in a messaging system
CN111339246A (zh) * 2020-02-10 2020-06-26 腾讯云计算(北京)有限责任公司 查询语句模板的生成方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083524A1 (en) * 2015-09-22 2017-03-23 Riffsy, Inc. Platform and dynamic interface for expression-based retrieval of expressive media content
US10664512B1 (en) * 2018-02-13 2020-05-26 Snap Inc. Query matching to media collections in a messaging system
CN110674292A (zh) * 2019-08-27 2020-01-10 腾讯科技(深圳)有限公司 一种人机交互方法、装置、设备及介质
CN111339246A (zh) * 2020-02-10 2020-06-26 腾讯云计算(北京)有限责任公司 查询语句模板的生成方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岳剑文;: "搜索引擎查询推荐机制的研究", 时代教育, no. 11 *
潘宁宁;: "基于SOLR的全台网门户检索系统的设计与实现", 现代电视技术, no. 09 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722438A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于句向量模型的句向量生成方法、装置及计算机设备
WO2023029356A1 (zh) * 2021-08-31 2023-03-09 平安科技(深圳)有限公司 基于句向量模型的句向量生成方法、装置及计算机设备
CN113722438B (zh) * 2021-08-31 2023-06-23 平安科技(深圳)有限公司 基于句向量模型的句向量生成方法、装置及计算机设备

Also Published As

Publication number Publication date
CN112052395B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN107766426B (zh) 一种文本分类方法、装置及电子设备
CN107526744B (zh) 一种基于搜索的信息展示方法和装置
CN110232137B (zh) 一种数据处理方法、装置和电子设备
CN108227950B (zh) 一种输入方法和装置
CN108073606B (zh) 一种新闻推荐方法和装置、一种用于新闻推荐的装置
CN109815396B (zh) 搜索词权重确定方法及装置
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN111291069A (zh) 一种数据处理方法、装置和电子设备
CN111708943B (zh) 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN108874827B (zh) 一种搜索方法及相关装置
CN112784142A (zh) 一种信息推荐方法及装置
US11546663B2 (en) Video recommendation method and apparatus
CN109521888B (zh) 一种输入方法、装置和介质
CN110019885B (zh) 一种表情数据推荐方法及装置
CN112307281A (zh) 一种实体推荐方法及装置
CN111241844A (zh) 一种信息推荐方法及装置
CN112052395B (zh) 一种数据处理方法及装置
CN110110046B (zh) 同名实体推荐方法及装置
CN109918624B (zh) 一种网页文本相似度的计算方法和装置
CN111831132A (zh) 一种信息推荐方法、装置和电子设备
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN112463827B (zh) 查询方法、装置、电子设备及存储介质
CN112825076B (zh) 一种信息推荐方法、装置和电子设备
CN111382367B (zh) 一种搜索结果排序方法和装置
CN112214692A (zh) 基于输入法的数据处理方法、装置和机器可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant