CN108241699A - 用于推送信息的方法和装置 - Google Patents

用于推送信息的方法和装置 Download PDF

Info

Publication number
CN108241699A
CN108241699A CN201611221396.8A CN201611221396A CN108241699A CN 108241699 A CN108241699 A CN 108241699A CN 201611221396 A CN201611221396 A CN 201611221396A CN 108241699 A CN108241699 A CN 108241699A
Authority
CN
China
Prior art keywords
keyword
website
kernel
user
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611221396.8A
Other languages
English (en)
Other versions
CN108241699B (zh
Inventor
张傲
孙凯
鹿增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611221396.8A priority Critical patent/CN108241699B/zh
Publication of CN108241699A publication Critical patent/CN108241699A/zh
Application granted granted Critical
Publication of CN108241699B publication Critical patent/CN108241699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了用于推送信息的方法和装置。该方法的一具体实施方式包括:从用户网站的网站信息中挖掘所述用户网站的核心关键词;对核心关键词中的各个关键词按照相关度进行聚类;根据聚类后的关键词中的关键词之间的相关度,对聚类后的关键词中的每个关键词设置关键词权重;将已设置关键词权重的关键词推送给用户端。该实施方式可以向用户推荐能精准表达业务的带权重关键词。

Description

用于推送信息的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于推送信息的方法和装置。
背景技术
搜索引擎营销(SEM,Search Engine Marketing),是指在用户使用搜索引擎检索信息时将营销信息传递给目标用户。随着互联网的发展,各行各业的商家都开始使用搜索引擎营销来做商业推广。在使用搜索引擎营销的过程中,商家所购买的关键词是关系到营销质量的一大关键。
然而,一方面,商家自身提交的关键词往往无法准确全面地描绘自己的核心业务,从而难以触发更多的搜索流量,进而提升推广效果。另一方面,部分商家为了获取更多的展现机会,会购买一些跟自己业务不相关的热门关键词,严重影响了搜索结果准确度,还会对搜索引擎公司的形象产生负面影响。因此,有必要向商家提供能精准表达其业务的关键词。
发明内容
本申请的目的在于提出一种改进的用于推送信息的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种用于推送信息的方法,该方法包括:从用户网站的网站信息中挖掘用户网站的核心关键词;对核心关键词中的各个关键词按照相关度进行聚类;根据聚类后的关键词中的关键词之间的相关度,对聚类后的关键词中的每个关键词设置关键词权重;将已设置关键词权重的关键词推送给用户端。
在一些实施例中,上述从用户网站的网站信息中挖掘用户网站的核心关键词,包括:获取用户预先为用户网站设置的网站关键词;从网站关键词中提取核心关键词。
在一些实施例中,上述从网站关键词中提取核心关键词包括:基于网站关键词的语义相关性、计量值和用户操作行为数据中的至少一个,从网站关键词中提取核心关键词,计量值是通过用户网站由网站关键词触发的展现量、点击量、点击率以及转化率中的至少一种进行计算的。
在一些实施例中,上述基于网站关键词的语义相关性,从网站关键词中提取核心关键词,包括:使用深度学习算法生成网站关键词中每个关键词对应的词向量;对网站关键词中各个关键词对应的词向量求和,得到用户业务向量;根据网站关键词中每个关键词对应的词向量与用户业务向量的向量距离,从网站关键词提取出核心关键词。
在一些实施例中,上述从用户网站的网站信息中挖掘用户网站的核心关键词,包括:获取用户网站在搜索引擎的搜索结果中所展现的摘要内容;从摘要内容中提取核心关键词。
在一些实施例中,上述从用户网站的网站信息中挖掘用户网站的核心关键词,包括:从用户网站的落地页中挖掘核心关键词。
在一些实施例中,在从用户网站的网站信息中挖掘所述用户网站的核心关键词之后,上述方法还包括:使用核心关键词在第三方扩展词库中进行检索,并使用检索到的扩展词扩展核心关键词。
在一些实施例中,上述对核心关键词中的各个关键词按照相关度进行聚类,包括:获取核心关键词中的各个关键词的搜索引擎检索摘要的摘要词向量;根据所得到的摘要词向量对核心关键词中的各个关键词进行层次聚类。
在一些实施例中,上述根据聚类后的关键词中的关键词之间的相关度,对聚类后的关键词中的每个关键词设置关键词权重,包括:根据聚类后的关键词中不同关键词的搜索引擎检索摘要的摘要词向量之间的向量距离,设置各个关键词的权重。
在一些实施例中,上述方法还包括:从核心关键词中去除聚类操作所得到的离群点对应的关键词,得到用户网站的推荐关键词;以及根据聚类后的关键词中的关键词之间的相关度,对聚类后的关键词中的每个关键词设置关键词权重包括:根据推荐关键词中的关键词之间的相关度,对推荐关键词中的每个关键词设置关键词权重。
第二方面,本申请提供了一种用于推送信息的装置,上述装置包括:挖掘单元,用于从用户网站的网站信息中挖掘用户网站的核心关键词;聚类单元,用于对核心关键词中的各个关键词按照相关度进行聚类;设置单元,用于根据聚类后的关键词中的关键词之间的相关度,对聚类后的关键词中的每个关键词设置关键词权重;推送单元,用于将已设置关键词权重的关键词推送给用户端。
在一些实施例中,上述挖掘单元包括:网站关键词获取子单元,用于获取用户预先为用户网站设置的网站关键词;第一提取子单元,用于从网站关键词中提取核心关键词。
在一些实施例中,上述第一提取子单元用于:基于网站关键词的语义相关性、计量值和用户操作行为数据中的至少一个,从网站关键词中提取核心关键词,计量值是通过用户网站由网站关键词触发的展现量、点击量、点击率以及转化率中的至少一种进行计算的。
在一些实施例中,上述第一提取子单元进一步用于:使用深度学习算法生成网站关键词中每个关键词对应的词向量;对网站关键词中各个关键词对应的词向量求和,得到用户业务向量;根据网站关键词中每个关键词对应的词向量与用户业务向量的向量距离,从网站关键词提取出核心关键词。
在一些实施例中,上述挖掘单元包括:摘要内容获取子单元,用于获取用户网站在搜索引擎的搜索结果中所展现的摘要内容;第二提取子单元,用于从摘要内容中提取核心关键词。
在一些实施例中,上述挖掘单元包括:落地页挖掘子单元,用于从用户网站的落地页中挖掘核心关键词。
在一些实施例中,上述装置还包括:扩展单元,用于使用核心关键词在第三方扩展词库中进行检索,并使用检索到的扩展词扩展核心关键词。
在一些实施例中,上述聚类单元进一步用于:获取核心关键词中的各个关键词的搜索引擎检索摘要的摘要词向量;根据所得到的摘要词向量对核心关键词中的各个关键词进行层次聚类。
在一些实施例中,上述设置单元进一步用于:根据聚类后的关键词中不同关键词的搜索引擎检索摘要的摘要词向量之间的向量距离,设置各个关键词的权重。
在一些实施例中,上述装置还包括:去除单元,用于从核心关键词中去除聚类操作所得到的离群点对应的关键词。
本申请提供的用于推送信息的方法和装置,最终得到的带有权重的关键词,可以精准地表达商家的业务,可以供用户在购买网站关键词时进行参考。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于推送信息的方法的一个实施例的流程图;
图3是根据本申请的用于推送信息的方法的又一个实施例的流程图;
图4是根据本申请的用于推送信息的装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于推送信息的方法或装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用等。
终端设备101、102、103可以是各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103发出的信息搜索请求进行处理的后台服务器。后台服务器可以将搜索得到的消息推送给终端设备101、102、103。
需要说明的是,本申请实施例所提供的用于推送信息的方法一般由服务器105执行,相应地,用于推送信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于推送信息的方法的一个实施例的流程200。该用于推送信息的方法,包括以下步骤:
步骤201,从用户网站的网站信息中挖掘用户网站的核心关键词。
在本实施例中,针对推荐关键词的目标用户,用于推送信息的方法运行于其上的电子设备(例如图1所示的服务器)可以首先获取用户网站的网站信息。其中,用户网站的网站信息可以直接从用户的原始网站获得,也可以从用户在搜索引擎营销(SEM)账户中获取。
之后,电子设备可以对网站信息进行数据挖掘,得到用于描述该用户的业务的核心关键词。其中,核心关键词是网站产品和服务的目标客户可能用来搜索的关键词。
在本实施例的一些可选实现方式中,步骤201可以包括:获取用户预先为用户网站设置的网站关键词;从网站关键词中提取核心关键词。对于用户网站而言,用户预先为网站设置的网站关键词,是能够描述用户网站所涉及业务的重要信息,因此可以从网站关键词进行文本挖掘,得到核心关键词。
在本实施例的一些可选实现方式中,上述从网站关键词中提取核心关键词,包括:从网站关键词中提取出计量值最高的至少一个关键词,其中计量值是通过用户网站由网站关键词触发的展现量、点击量、点击率以及转化率中的至少一种进行计算的。
在本实施例的一些可选实现方式中,上述从网站关键词中提取核心关键词可以包括:基于网站关键词的语义相关性、计量值和用户操作行为数据中的至少一个,从网站关键词中提取核心关键词。其中,语义相关性是针对单个网站关键词与其他网站关键词在语义上的相关程度。计量值是通过用户网站由网站关键词触发的展现量、点击量、点击率以及转化率中的至少一种进行计算的。具体的,展现量是一个统计周期内由于网站关键词被网民搜索而使得用户网站展现在搜索结果中的展现次数。点击量是一个统计周期内在用户网站在搜索结果展现时网民点击进入用户网站的次数。点击率是一个统计周期内点击量与展现量的比率。转化率是一个统计周期内完成转化行为的次数与点击量的比率。其中,转化行为的次数通常可以通过发生交易的次数或交易金额来度量。展现量、点击量、点击率以及转化率等数据可以通过搜索日志获取到。通常,展现量、点击量、点击率以及转化率能够反映网站关键词的实际效果,利用这些指标提取关键词可以使得提取出来的关键词具有更好的网站推广效果。其中,操作行为数据可以是用户在搜索引擎营销账户中对网站关键词出价、调价、排名倾向等行为的数据。操作行为数据可以是用户主观上对网站关键词对业务的表达能力的衡量,能间接反映出网站关键词的有效程度,因此通过对用户对网站关键词的操作行为进行分析,可以从网站关键词筛选出较为有效的网站关键词以设定为核心关键词。需要说明的是,从网站关键词中提取核心关键词时,可以基于语义相关性、计量值和用户操作行为数据中的一项指标进行提取,也可以基于两项或两项以上指标进行提取。在基于两项或两项以上指标提取核心关键词时,可以首先分别计算出某个网站关键词对应于每项指标对应的单项评价值,之后使用各项指标的单项评价值与各项指标对应的权重进行加权处理而得到综合评价值,最后根据综合评价值确定是否将该网站关键词提取为核心关键词。需要说明的是,使用加权计算得到综合评价值仅为示例,实践中的计算方式不限于加权计算。
在本实施例的一些可选实现方式中,上述基于网站关键词的语义相关性,从网站关键词中提取核心关键词可以包括:使用深度学习算法生成网站关键词中每个关键词对应的词向量;对网站关键词中各个关键词对应的词向量求和,得到用户业务向量;根据网站关键词中每个关键词对应的词向量与用户业务向量的向量距离,从网站关键词提取出核心关键词。其中,在根据向量距离从网站关键词提取出核心关键词时,可以提取出向量距离满足第一预定条件的网站关键词作为核心关键词。其中,根据第一预定条件进行提取时可以是向量距离最短的预设数目个词,也可以是向量距离不超过预定距离阈值的词。词向量与用户业务向量的向量距离,可以是余弦距离,也可以是欧氏距离等其他类型的向量距离。该实现方式提供了根据网站关键词进行挖掘得到核心关键词的一种具体方案,通过这种方案,可以得到网站关键词中语义关联度较高的关键词,从而可以使得提取的关键词更能准确地描述核心业务。
在本实施例的一些可选实现方式中,步骤201可以包括:获取用户网站在搜索引擎的搜索结果中所展现的摘要内容;从摘要内容中提取核心关键词。用户网站在搜索引擎的搜索结果中所展现的摘要内容,通常称为创意。创意的展现形式一般包括标题、描述、访问网址和显示网址等,其作用是作为网站入口的重要导入枢纽,以吸引潜在客户。通常,搜索引擎营销账户的创意中包含了对其自身业务的详细描述,其蕴藏着更丰富业务信息,也存在大量的噪音数据。在从创意文本中挖掘出核心关键词时,可以通过业务规则匹配进行关键词提取。实践中,可以首先对创意文本执行去除停用词等预处理,之后利用所得到的词与已有核心关键词中关键词的词向量的向量距离进一步提取核心关键词。此外,业务规则匹配还可以包括正则表达式匹配等匹配方式,这里不再具体叙述。
在本实施例的一些可选实现方式中,步骤201可以包括:从用户网站的落地页中挖掘核心关键词词。落地页是指访问者在其他地方看到你发出的某个具有明确主题的特定营销活动并进行点击后被链接到你网站上的第一个页面。特定营销活动包括但不限于通过电子邮件、社交媒体或广告发布的优惠信息等。落地页通常能最完整地描述商家的业务,同时也存在更多的噪音数据。在从落地页挖掘核心关键词时,可以对网站中的各个网页进行文本挖掘。在进行文本挖掘时,可以结合网页结构化分析等技术,从中挖掘出能描述商家业务的高质量关键词,以对核心关键词进行扩充。
步骤202,对核心关键词中的各个关键词按照相关度进行聚类。
在本实施例中,基于步骤201所得到的核心关键词中的各个关键词,电子设备可以按照关键词的相关度对这些关键词执行聚类操作。实践中,在根据关键词的相关度进行聚类操作时,可以根据关键词的词向量为依据进行聚类,聚类操作后即可得到核心关键词的分类结果。
步骤203,根据聚类后的关键词中的关键词之间的相关度,对聚类后的关键词中的每个关键词设置关键词权重。
在本实施例中,基于步骤202进行聚类所得到的分类结果中关键词之间的相关度,电子设备可以对聚类后的关键词中的每个关键词设置关键词权重。核心关键词中通常会存在多个关键词,这些关键词虽都能一定程度上进行业务表达,但是不同关键词词对业务的表达能力仍有强弱差异,因此可以通过权重来表示关键词中的不同关键词对业务的表达能力。在设置权重时,可以根据步骤203的聚类结果中单个关键词与其它关键词的相关度进行设置。
步骤204,将已设置关键词权重的关键词推送给用户端。
在本实施例中,在基于步骤203对关键词设置关键词权重后,电子设备可以将已设置关键词权重的关键词推送给用户端。从而,即可实现向用户推荐关于用户网站的带权重关键词。
在本实施例的一些可选实现方式中,上述方法还包括:从核心关键词中去除聚类操作所得到的离群点对应的关键词,得到用户网站的推荐关键词。以及,上述步骤203进一步用于:根据推荐关键词中的关键词之间的相关度,对推荐关键词中的每个关键词设置关键词权重。其中,从核心关键词中去除聚类操作所得到的离群点对应的关键词可以在步骤202后执行,从而可以确定步骤202执行聚类操作所得到的聚类结果中离群点对应的关键词,并从核心关键词中去除这部分的关键词,得到推荐关键词。聚类结果中离群点对应的关键词是与其他关键词关联度较低的异常关键词,通常是无法精准表达业务的无效关键词,因此可以将这些关键词从核心关键词中过滤掉。
本申请的上述实施例提供的方法最终得到的带有权重的关键词,可以精准地表达商家的业务,当用户将关键词进行投放时可以触发更多的搜索流量,提高推广效果。
进一步参考图3,其示出了用于推送信息的方法的又一个实施例的流程300。该用于推送信息的方法的流程300,包括以下步骤:
步骤301,从用户网站的网站信息中挖掘用户网站的核心关键词。
在本实施例中,步骤301的具体处理可以参考图2对应实施例的步骤201,这里不再赘述。
步骤302,使用核心关键词在第三方扩展词库中进行检索,并使用检索到的扩展词扩展核心关键词。
在本实施例中,基于步骤301所得到的核心关键词,电子设备可以首先使用核心关键词在第三方扩展词库中进行检索,得到检索结果。之后,电子设备可以使用检索到的扩展词扩展核心关键词。由于商家知识面和经验的限制,通过用户网站的网站信息所挖掘的核心关键词通常不够丰富或准确,因此可以借助第三方扩展词库对核心关键词进行扩展。该第三方扩展词库可以是行业实体词库,行业实体词库中通常包含有大量能精确描述各个行业的业务的词,因此可以通过在行业实体词库中检索到的关键词对核心关键词进行扩展。该步骤可以通过行业分类校验实现核心词进行验证和扩展,提高关键词的丰富程度以及对业务表达的准确度。
步骤303,对核心关键词中的各个关键词按照相关度进行聚类。
在本实施例中,步骤303的具体处理可以参考图2对应实施例的步骤202,这里不再赘述。
步骤304,根据聚类后的关键词中的关键词之间的相关度,对聚类后的关键词中的每个关键词设置关键词权重。
在本实施例中,步骤304的具体处理可以参考图2对应实施例的步骤203,这里不再赘述。
步骤305,将已设置关键词权重的关键词推送给用户端。
在本实施例中,步骤305的具体处理可以参考图2对应实施例的步骤204,这里不再赘述。
在本实施例的一些可选实现方式中,步骤303可以包括:获取核心关键词中的各个关键词的搜索引擎检索摘要的摘要词向量;根据所得到的摘要词向量对核心关键词中的各个关键词进行层次聚类。在对核心关键词中的各个关键词按照相关度进行聚类时,可以以各个关键词的搜索引擎检索摘要的摘要词向量为依据。搜索引擎检索摘要,是使用关键词在搜索引擎中进行检索所得到的摘要内容。层次聚类是对给定的数据集进行层次的分解,直到某种条件满足为止。例如,对于N(N是大于1的整数)个对象,可以首先将每个对象归为一类,共得到N类,每类仅包含一个对象,其中类与类之间的距离就是它们所包含的对象之间的距离。之后,找到最接近的两个类并合并成一类,于是总的类数少了一个,并重新计算新的类与所有旧类之间的距离。反复执行,直到最后合并成一个包括N个对象的类为止。在该实现方式中,由于搜索引擎检索摘要能更丰富地表达出关键词在实际应用中的含义,因此将搜索引擎检索摘要的摘要词向量作为标准进行相关度聚类,能使聚类结果更能反映关键词之间的相关程度。
在本实施例的一些可选实现方式中,步骤304可以包括:根据聚类后的关键词中不同关键词的搜索引擎检索摘要的摘要词向量之间的向量距离,设置各个关键词的权重。在该实现方式中,在根据聚类后的关键词中关键词之间的相关度确定各个关键词的关键词权重时,也可以使用搜索引擎检索摘要的摘要词向量作为基准,从而使得权重的设置与搜索引擎检索摘要的相关度有关。
从图3中可以看出,与图2对应的实施例相比,本实施例中的用于推送信息的方法的流程300突出了通过第三方扩展词库对关键词进行扩展的步骤。由此,本实施例描述的方案可以引入更多的核心关键词相关数据,从而实现更全面的关键词的推荐。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种用于推送信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种服务器中。
如图4所示,本实施例所描述的用于推送信息的装置400包括:挖掘单元401、聚类单元402、设置单元403和推送单元404。其中,挖掘单元401用于从用户网站的网站信息中挖掘用户网站的核心关键词;聚类单元402用于对核心关键词中的各个关键词按照相关度进行聚类;设置单元403用于根据聚类后的关键词中的关键词之间的相关度,对聚类后的关键词中的每个关键词设置关键词权重;而推送单元404用于将已设置关键词权重的关键词推送给用户端。
在本实施例中,用于推送信息的装置400的挖掘单元401、聚类单元402、设置单元403和推送单元404的具体处理可以分别参考图2对应实施例的步骤201、步骤202、步骤203以及步骤204,这里不再赘述。
在本实施例的一些可选实现方式中,挖掘单元401包括:网站关键词获取子单元(未示出),用于获取用户预先为用户网站设置的网站关键词;第一提取子单元(未示出),用于从网站关键词中提取核心关键词。该实现方式的具体处理可以参考图2对应实施例中相应的实现方式,这里不再赘述。
在本实施例的一些可选实现方式中,上述第一提取子单元进一步用于:基于网站关键词的语义相关性、计量值和用户操作行为数据中的至少一个,从网站关键词中提取核心关键词,计量值是通过用户网站由网站关键词触发的展现量、点击量、点击率以及转化率中的至少一种进行计算的。该实现方式的具体处理可以参考图2对应实施例中相应的实现方式,这里不再赘述。
在本实施例的一些可选实现方式中,上述第一提取子单元进一步用于:使用深度学习算法生成网站关键词中每个关键词对应的词向量;对网站关键词中各个关键词对应的词向量求和,得到用户业务向量;根据网站关键词中每个关键词对应的词向量与用户业务向量的向量距离,从网站关键词提取出核心关键词。该实现方式的具体处理可以参考图2对应实施例中相应的实现方式,这里不再赘述。
在本实施例的一些可选实现方式中,挖掘单元401包括:落地页挖掘子单元,用于从用户网站的落地页中挖掘核心关键词。该实现方式的具体处理可以参考图2对应实施例中相应的实现方式,这里不再赘述。
在本实施例的一些可选实现方式中,装置400还包括:扩展单元(未示出),用于使用核心关键词在第三方扩展词库中进行检索,并使用检索到的扩展词扩展核心关键词。该实现方式的具体处理可以参考图3对应实施例中相应的步骤,这里不再赘述。
在本实施例的一些可选实现方式中,挖掘单元401包括:摘要内容获取子单元(未示出),用于获取用户网站在搜索引擎的搜索结果中所展现的摘要内容;第二提取子单元(未示出),用于从摘要内容中提取核心关键词。该实现方式的具体处理可以参考图3对应实施例中相应的实现方式,这里不再赘述。
在本实施例的一些可选实现方式中,聚类单元402进一步用于:获取核心关键词中的各个关键词的搜索引擎检索摘要的摘要词向量;根据所得到的摘要词向量对核心关键词中的各个关键词进行层次聚类。该实现方式的具体处理可以参考图3对应实施例中相应的实现方式,这里不再赘述。
在本实施例的一些可选实现方式中,设置单元403进一步用于:根据所述聚类后的关键词中不同关键词的搜索引擎检索摘要的摘要词向量之间的向量距离,设置各个关键词的权重。该实现方式的具体处理可以参考图3对应实施例中相应的实现方式,这里不再赘述。
在本实施例的一些可选实现方式中,装置400还包括:去除单元(未示出),用于从核心关键词中去除聚类操作所得到的离群点对应的关键词。该实现方式的具体处理可以参考图2对应实施例中相应的实现方式,这里不再赘述。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括挖掘单元、聚类单元、设置单元和推送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,挖掘单元还可以被描述为“从用户网站的网站信息中挖掘用户网站的核心关键词的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所描述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当该一个或者多个程序被一个设备执行时,使得该设备:从用户网站的网站信息中挖掘所述用户网站的核心关键词;对所述核心关键词中的各个关键词按照相关度进行聚类;根据所述聚类后的关键词中的关键词之间的相关度,对所述聚类后的关键词中的每个关键词设置关键词权重;将已设置关键词权重的关键词推送给用户端。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所描述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种用于推送信息的方法,其特征在于,所述方法包括:
从用户网站的网站信息中挖掘所述用户网站的核心关键词;
对所述核心关键词中的各个关键词按照相关度进行聚类;
根据所述聚类后的关键词中的关键词之间的相关度,对所述聚类后的关键词中的每个关键词设置关键词权重;
将已设置关键词权重的关键词推送给用户端。
2.根据权利要求1所述的方法,其特征在于,所述从用户网站的网站信息中挖掘所述用户网站的核心关键词,包括:
获取用户预先为所述用户网站设置的网站关键词;
从所述网站关键词中提取核心关键词。
3.根据权利要求2所述的方法,其特征在于,所述从网站关键词中提取核心关键词包括:
基于所述网站关键词的语义相关性、计量值和用户操作行为数据中的至少一个,从所述网站关键词中提取核心关键词,所述计量值是通过所述用户网站由网站关键词触发的展现量、点击量、点击率以及转化率中的至少一种进行计算的。
4.根据权利要求3所述的方法,其特征在于,所述基于所述网站关键词的语义相关性,从所述网站关键词中提取核心关键词,包括:
使用深度学习算法生成所述网站关键词中每个关键词对应的词向量;
对所述网站关键词中各个关键词对应的词向量求和,得到用户业务向量;
根据所述网站关键词中每个关键词对应的词向量与所述用户业务向量的向量距离,从所述网站关键词提取出核心关键词。
5.根据权利要求1所述的方法,其特征在于,所述从用户网站的网站信息中挖掘所述用户网站的核心关键词,包括:
获取所述用户网站在搜索引擎的搜索结果中所展现的摘要内容;
从所述摘要内容中提取核心关键词。
6.根据权利要求1所述的方法,其特征在于,所述从用户网站的网站信息中挖掘所述用户网站的核心关键词,包括:
从所述用户网站的落地页中挖掘核心关键词。
7.根据权利要求1到6中任一权利要求所述的方法,其特征在于,在所述从用户网站的网站信息中挖掘所述用户网站的核心关键词之后,所述方法还包括:
使用所述核心关键词在第三方扩展词库中进行检索,并使用检索到的扩展词扩展所述核心关键词。
8.根据权利要求1所述的方法,其特征在于,所述对所述核心关键词中的各个关键词按照相关度进行聚类,包括:
获取所述核心关键词中的各个关键词的搜索引擎检索摘要的摘要词向量;
根据所得到的摘要词向量对所述核心关键词中的各个关键词进行层次聚类。
9.根据权利要求8所述的方法,其特征在于,所述根据所述聚类后的关键词中的关键词之间的相关度,对所述聚类后的关键词中的每个关键词设置关键词权重,包括:
根据所述聚类后的关键词中不同关键词的搜索引擎检索摘要的摘要词向量之间的向量距离,设置各个关键词的权重。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述核心关键词中去除聚类操作所得到的离群点对应的关键词,得到所述用户网站的推荐关键词;以及
所述根据所述聚类后的关键词中的关键词之间的相关度,对所述聚类后的关键词中的每个关键词设置关键词权重,包括:
根据所述推荐关键词中的关键词之间的相关度,对所述推荐关键词中的每个关键词设置关键词权重。
11.一种用于推送信息的装置,其特征在于,所述装置包括:
挖掘单元,用于从用户网站的网站信息中挖掘所述用户网站的核心关键词;
聚类单元,用于对所述核心关键词中的各个关键词按照相关度进行聚类;
设置单元,用于根据所述聚类后的关键词中的关键词之间的相关度,对所述聚类后的关键词中的每个关键词设置关键词权重;
推送单元,用于将已设置关键词权重的关键词推送给用户端。
12.根据权利要求11所述的装置,其特征在于,所述挖掘单元包括:
网站关键词获取子单元,用于获取用户预先为所述用户网站设置的网站关键词;
第一提取子单元,用于从所述网站关键词中提取核心关键词。
13.根据权利要求12所述的装置,其特征在于,所述第一提取子单元用于:
基于所述网站关键词的语义相关性、计量值和用户操作行为数据中的至少一个,从所述网站关键词中提取核心关键词,所述计量值是通过所述用户网站由网站关键词触发的展现量、点击量、点击率以及转化率中的至少一种进行计算的。
14.根据权利要求13所述的装置,其特征在于,所述第一提取子单元进一步用于:
使用深度学习算法生成所述网站关键词中每个关键词对应的词向量;
对所述网站关键词中各个关键词对应的词向量求和,得到用户业务向量;
根据所述网站关键词中每个关键词对应的词向量与所述用户业务向量的向量距离,从所述网站关键词提取出核心关键词。
15.根据权利要求11所述的装置,其特征在于,所述挖掘单元包括:
摘要内容获取子单元,用于获取所述用户网站在搜索引擎的搜索结果中所展现的摘要内容;
第二提取子单元,用于从所述摘要内容中提取核心关键词。
16.根据权利要求11所述的装置,其特征在于,所述挖掘单元包括:
落地页挖掘子单元,用于从所述用户网站的落地页中挖掘核心关键词。
17.根据权利要求11到16中任一权利要求所述的装置,其特征在于,所述装置还包括:
扩展单元,用于使用所述核心关键词在第三方扩展词库中进行检索,并使用检索到的扩展词扩展所述核心关键词。
18.根据权利要求11所述的装置,其特征在于,所述聚类单元进一步用于:
获取所述核心关键词中的各个关键词的搜索引擎检索摘要的摘要词向量;
根据所得到的摘要词向量对所述核心关键词中的各个关键词进行层次聚类。
19.根据权利要求18所述的装置,其特征在于,所述设置单元进一步用于:
根据所述聚类后的关键词中不同关键词的搜索引擎检索摘要的摘要词向量之间的向量距离,设置各个关键词的权重。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
去除单元,用于从所述核心关键词中去除聚类操作所得到的离群点对应的关键词。
CN201611221396.8A 2016-12-26 2016-12-26 用于推送信息的方法和装置 Active CN108241699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611221396.8A CN108241699B (zh) 2016-12-26 2016-12-26 用于推送信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611221396.8A CN108241699B (zh) 2016-12-26 2016-12-26 用于推送信息的方法和装置

Publications (2)

Publication Number Publication Date
CN108241699A true CN108241699A (zh) 2018-07-03
CN108241699B CN108241699B (zh) 2022-03-11

Family

ID=62702251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611221396.8A Active CN108241699B (zh) 2016-12-26 2016-12-26 用于推送信息的方法和装置

Country Status (1)

Country Link
CN (1) CN108241699B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020125015A1 (zh) * 2018-12-17 2020-06-25 北京三快在线科技有限公司 场景化商家召回
CN113836289A (zh) * 2021-08-16 2021-12-24 北京邮电大学 一种实体演进规律推荐方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567409A (zh) * 2010-12-31 2012-07-11 珠海博睿科技有限公司 一种提供检索关联词的方法及装置
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
US20130212104A1 (en) * 2004-06-23 2013-08-15 Plain Sight Systems, Inc. System and method for document analysis, processing and information extraction
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
CN105069102A (zh) * 2015-08-03 2015-11-18 百度在线网络技术(北京)有限公司 信息推送方法和装置
KR20160002199A (ko) * 2014-06-30 2016-01-07 경일대학교산학협력단 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
CN105787767A (zh) * 2016-03-03 2016-07-20 上海珍岛信息技术有限公司 一种广告点击率预估模型获取方法与系统
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106156179A (zh) * 2015-04-20 2016-11-23 阿里巴巴集团控股有限公司 一种信息检索方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130212104A1 (en) * 2004-06-23 2013-08-15 Plain Sight Systems, Inc. System and method for document analysis, processing and information extraction
US20140114977A1 (en) * 2004-06-23 2014-04-24 Plain Sight Systems, Inc. System and method for document analysis, processing and information extraction
CN102567409A (zh) * 2010-12-31 2012-07-11 珠海博睿科技有限公司 一种提供检索关联词的方法及装置
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
KR20160002199A (ko) * 2014-06-30 2016-01-07 경일대학교산학협력단 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
CN106156179A (zh) * 2015-04-20 2016-11-23 阿里巴巴集团控股有限公司 一种信息检索方法及装置
CN105069102A (zh) * 2015-08-03 2015-11-18 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN105787767A (zh) * 2016-03-03 2016-07-20 上海珍岛信息技术有限公司 一种广告点击率预估模型获取方法与系统
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
I-HONG JHUO 等: "Image auto-annotation by exploiting web information", 《2014 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *
巴志超 等: "共现分析中的关键词选择与语义度量方法研究", 《情报学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020125015A1 (zh) * 2018-12-17 2020-06-25 北京三快在线科技有限公司 场景化商家召回
CN113836289A (zh) * 2021-08-16 2021-12-24 北京邮电大学 一种实体演进规律推荐方法及装置

Also Published As

Publication number Publication date
CN108241699B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN106446228B (zh) 一种web页面数据的采集分析方法及装置
CN105045901B (zh) 搜索关键词的推送方法和装置
JP6661790B2 (ja) テキストタイプを識別する方法、装置及びデバイス
KR101644817B1 (ko) 탐색 결과들을 생성하는 방법
CN109145280A (zh) 信息推送的方法和装置
CN105159930B (zh) 搜索关键词的推送方法和装置
CN105574092B (zh) 信息挖掘方法和装置
CN107657048A (zh) 用户识别方法及装置
WO2015135110A1 (en) Systems and methods for keyword suggestion
JP2019519019A5 (zh)
CN109697641A (zh) 计算商品相似度的方法和装置
CN107679119A (zh) 生成品牌衍生词的方法和装置
CN110428295A (zh) 商品推荐方法和系统
CN108153824A (zh) 目标用户群体的确定方法及装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN107526718A (zh) 用于生成文本的方法和装置
CN103365876B (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN109086318A (zh) 用户画像模板的定义方法和装置
CN107798622A (zh) 一种识别用户意图的方法和装置
CN112347147A (zh) 基于用户关联关系的信息推送方法、装置及电子设备
CN105574091B (zh) 信息推送方法及装置
CN108241699A (zh) 用于推送信息的方法和装置
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
CN107784019A (zh) 一种搜索业务中搜索词处理方法及系统
CN112214663A (zh) 获取舆情声量的方法、系统、装置、存储介质及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant