CN107562761A - 一种信息推送方法及装置 - Google Patents

一种信息推送方法及装置 Download PDF

Info

Publication number
CN107562761A
CN107562761A CN201610514027.1A CN201610514027A CN107562761A CN 107562761 A CN107562761 A CN 107562761A CN 201610514027 A CN201610514027 A CN 201610514027A CN 107562761 A CN107562761 A CN 107562761A
Authority
CN
China
Prior art keywords
user
search
semantic
search text
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610514027.1A
Other languages
English (en)
Inventor
沈珑斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610514027.1A priority Critical patent/CN107562761A/zh
Publication of CN107562761A publication Critical patent/CN107562761A/zh
Pending legal-status Critical Current

Links

Abstract

本申请公开了一种信息推送方法及装置,用以结合第二用户的搜索文本,向第一用户提供更多、更准确、更接近第二用户的搜索意图的信息。本申请提供的一种信息推送方法,包括:确定第一用户的搜索文本;从预设的语义空间中查找所述第一用户的搜索文本,其中,所述语义空间中包括基于第二用户的多个搜索文本之间的相似性建立的对应关系;基于查找结果向所述第一用户推送信息。

Description

一种信息推送方法及装置
技术领域
本申请涉及信息推送技术领域,尤其涉及一种信息推送方法及装置。
背景技术
当今电商快速发展,海量用户的搜索购买意图纷繁复杂,同类商品对应的不同用户在搜索框里输入的查询串(query,也可称为搜索文本)差别很大,同时多数第一用户缺乏对第二用户搜索意图的大数据分析。于是,关键词推荐(Keyword Recommendation,KR)是第一用户后台体验中最基础也是最重要的技术。其中,所述第一用户,例如广告主,所述第二用户例如是广告主的目标第二用户。
目前业界主流的实现方法是采用自然语言处理技术,从第一用户推广意图出发,基于广告商品的标题、类目描述、属性和已购关键词等信息,通过共现term召回推荐query,例如,商品标题出现“连衣裙”,则拉回所有包含“连衣裙”的query。term是指自然语言中的词,例如“韩版”、“连衣裙”都是term,还可以根据前后修饰关系组合成2组term,即“韩版连衣裙”。共现term指的是在商品标题和第二用户输入的query有共同存在的term,说明两者存在一定的联系。比如商品标题是“2016新款韩版连衣裙”,第二用户输入的query是“显瘦连衣裙”,两者都出现了“连衣裙”这一核心词,所以可以把“显瘦连衣裙”作为候选竞价词推荐给第一用户。
基于自然语言处理技术已被众多电商及大型网站来给第一用户进行关键词推荐,而且收到了不错的效果,但是存在不足:自然语言在表达上很复杂,要综合考虑使用情境,只依靠文本term共现的方法,无法可靠、可扩展地挖掘出文本间的语义相似、相关性。因而需要大量的人工维护的词表,适应场景的速度也较为缓慢;而文本字面信息的使用局限性在于需要存储大量地语料,并且无法对文本的语义信息进行处理。
综上所述,现有技术中常用的KR方法直接利用推广商品本身的标题、类目描述和属性等信息,通过共现term扩展成query并推荐给第一用户,没有挖掘深层语义,因此与第二用户的搜索意图不够匹配。
发明内容
本申请实施例提供了一种信息推送方法及装置,用以结合第二用户的搜索文本,向第一用户提供更多、更准确、更接近第二用户的搜索意图的信息。
本申请实施例提供的一种信息推送方法,包括:
确定第一用户的搜索文本;
从预设的语义空间中查找所述第一用户的搜索文本,其中,所述语义空间中包括基于第二用户的多个搜索文本之间的相似性建立的对应关系;
基于查找结果向所述第一用户推送信息。
通过该方法,确定第一用户的搜索文本,从预设的语义空间中查找所述第一用户的搜索文本,其中,所述语义空间中包括基于第二用户的多个搜索文本之间的相似性建立的对应关系,基于查找结果向所述第一用户推送信息,从而通过结合第二用户的搜索文本的语义,实现了向第一用户提供更多、更准确、更接近第二用户的搜索意图的信息。
第一用户的搜索文本是第一用户想要购买的流量表达,因此本申请实施例提供的技术方案的应用场景,例如:一种是在广告投放平台的后台,第一用户主动的输入的搜索文本,即第一用户想要购买什么类型的流量,在购买的时候向第一用户推荐可以购买的关键词;另一种是第一用户登陆广告投放平台,并打开正在推广的商品界面的情况下,根据第一用户已经购买的关键词来向第一用户推荐关键词。
可选地,所述基于查找结果向所述第一用户推送信息,具体包括:
确定所述语义空间中与所述第一用户的搜索文本相同的第二用户的搜索文本;
将确定出的第二用户的搜索文本所对应的搜索文本推送给所述第一用户。
可选地,所述语义空间是通过如下方式预设的:
确定第二用户的多个搜索文本的语义表达向量;
确定每两个所述语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
将第二用户的搜索文本转换为语义表达向量,进而计算语义表达向量之间的相似度,根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,可以更加便捷地确定第二用户的搜索文本之间的相似关系,从而建立KR列表,对第一用户的搜索文本进行深层的语义扩展,得到更多、更准确、更能表达第二用户的搜索意图的语义文本,并可以作为推荐结果推荐给第一用户。
可选地,所述语义空间是通过如下方式预设的:
确定第二用户的多个搜索文本的语义表达向量;
确定具有共同点击反馈的搜索文本的语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
本申请实施例根据第二用户搜索意图,确定第二用户的多个搜索文本的语义表达向量,确定具有共同点击反馈的搜索文本的语义表达向量之间的相似度,从而根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,通过挖掘第二用户搜索行为的深层共现语义,得到相似意图的query,因此,可以向第一用户提供更多、更能反映第二用户搜索行为的推荐结果。
可选地,确定第二用户的多个搜索文本的语义表达向量,具体包括:确定预设时长内第二用户的多个搜索文本的语义表达向量。
可选地,根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,具体包括:
建立相似度大于或等于预设阈值的语义表达向量所对应的搜索文本之间的对应关系。
与上述方法相对应地,本申请实施例提供的一种信息推送装置,包括:
第一单元,用于确定第一用户的搜索文本;
第二单元,用于从预设的语义空间中查找所述第一用户的搜索文本,其中,所述语义空间中包括基于第二用户的多个搜索文本之间的相似性建立的对应关系;
第三单元,用于基于查找结果向所述第一用户推送信息。
可选地,所述第三单元,具体用于:
确定所述语义空间中与所述第一用户的搜索文本相同的第二用户的搜索文本;
将确定出的第二用户的搜索文本所对应的搜索文本推送给所述第一用户。
可选地,所述第二单元还用于通过如下方式预设所述语义空间:
确定第二用户的多个搜索文本的语义表达向量;
确定每两个所述语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
可选地,所述第二单元还用于通过如下方式预设所述语义空间:
确定第二用户的多个搜索文本的语义表达向量;
确定具有共同点击反馈的搜索文本的语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
可选地,所述第二单元确定第二用户的多个搜索文本的语义表达向量具体包括:确定预设时长内第二用户的多个搜索文本的语义表达向量。
可选地,所述第二单元根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,具体包括:
建立相似度大于或等于预设阈值的语义表达向量所对应的搜索文本之间的对应关系。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种信息推送方法的总体流程示意图;
图2为本申请实施例提供的一种信息推送方法的在线部分和离线部分的流程示意图;
图3为本申请实施例提供的一种信息推送方法的离线部分的具体流程示意图;
图4为本申请实施例提供的对第二用户的搜索文本进行扩展的示意图;
图5为本申请实施例提供的一种确定相似语义的搜索文本的原理示意图;
图6为本申请实施例提供的一种信息推送装置的结构示意图。
具体实施方式
本申请实施例提供了一种信息推送方法及装置,用以结合第二用户的搜索文本,向第一用户提供更多、更准确、更接近第二用户的搜索意图的信息。
第一用户通过购买关键词的方式来获得自己想要的流量,但多数第一用户缺乏对整体流量query及第二用户分布的数据的理解和分析能力,造成竞价关键词时显得主观片面,和第二用户的搜索意图有差距,丢失大批有价值的第二用户定位。因此,在商务平台(Business Platform,BP)当中的关键词的推荐部分,为第一用户提供自助推广服务,是连接第二用户搜索意图和第一用户推广商品意图的重要手段,帮助第一用户进行信息投放效率和效果的优化。为了能够获得更多与推广意愿相关的流量,根据第一用户的推广商品和已购关键词,推荐出更多相关的能够表达推广意愿的关键词,帮助第一用户在相关流量中得到更多的曝光机会。
本申请实施例中所述的第一用户,例如是广告主,所述的第二用户,例如是广告主的客户,即普通的用户。
参见图1,本申请实施例提供的一种信息推送方法,总体包括:
S101、确定第一用户的搜索文本;
其中,所述第一用户,例如可以是想要购买流量进行广告推广的广告主。系统在收到广告主输入的搜索文本(即广告主想要推广的广告相关的关键词)时,可以根据广告主的搜索文本,向广告主推荐与广告主需要推广的广告相关的第二用户(消费者,即浏览广告的普通用户)的搜索文本。从而使得广告主可以购买与需要推广的广告相关的更多、更符合普通消费者的搜索意图的关键词。
其中,所述的搜索文本,也可以称为搜索串,即query。
S102、从预设的语义空间中查找所述第一用户的搜索文本,其中,所述语义空间中包括基于第二用户的多个搜索文本之间的相似性建立的对应关系;
例如,如下面的表一所示:
表一
当广告主想要推广连衣裙的广告时,可以输入搜索文本“连衣裙”,则若预设的语义空间中存在上述表一所示的对应关系,则可以查找到与广告主的搜索文本“连衣裙”相同的搜索文本,并将该搜索文本“连衣裙”相对应的搜索文本“韩版连衣裙”“显瘦连衣裙”“波西米亚连衣裙”“长款连衣裙”“短款连衣裙”都作为推荐结果推荐给广告主购买。
其中,所述语义空间包括第二用户的搜索文本之间的对应关系,存在对应关系的搜索文本之间存在一定的相似性,因此,当第一用户的搜索文本与语义空间中任一第二用户的搜索文本相匹配时,可以将匹配的第二用户的搜索文本所对应的相似的搜索文本均作为推荐结果,推送给第一用户。
S103、基于查找结果向所述第一用户推送信息。
例如,步骤S103,具体包括:
确定所述语义空间中与所述第一用户的搜索文本相同的第二用户的搜索文本;例如,确定了语义空间中的与第一用户的搜索文本相同的搜索文本“连衣裙”;
将确定出的第二用户的搜索文本所对应的搜索文本推送给所述第一用户;例如,参见上述表一,将搜索文本“连衣裙”相对应的搜索文本“韩版连衣裙”“显瘦连衣裙”“波西米亚连衣裙”“长款连衣裙”“短款连衣裙”推送给所述第一用户。
通过该方法,确定第一用户的搜索文本,从预设的语义空间中查找所述第一用户的搜索文本,其中,所述语义空间中包括基于第二用户的多个搜索文本之间的相似性建立的对应关系,基于查找结果向所述第一用户推送信息,从而通过结合第二用户的搜索文本的语义,实现了向第一用户提供更多、更准确、更接近第二用户的搜索意图的信息。
第一用户的搜索文本是第一用户想要购买的流量表达,因此本申请实施例提供的技术方案的应用场景,例如:一种是在信息投放平台(例如广告投放平台)的后台,第一用户主动输入的搜索文本,即第一用户想要购买什么类型的流量,在购买的时候向第一用户推荐可以购买的关键词;另一种是第一用户登陆信息投放平台(例如广告投放平台),并打开正在推广的商品界面的情况下,根据第一用户已经购买的关键词来向第一用户推荐关键词。
现有技术中的Word2vec是一类将词表示成语义表达向量的深度神经网络模型。该模型的输入是若干分完词的句子,比如“今天逛街买了连衣裙”,经过该模型,输出得到每个词的语义表达向量:
“今天”=[0.8,0.2,0.3,0,4]
“逛街”=[0.5,-0.4,0.1,-0.3]
“连衣裙”=[-0.7,0.6,0.1,0.4]
其中,等号左边即语义文本,等号右边即语义文本的语义表达向量。
可选地,所述语义空间是通过如下方式预设的:
确定第二用户的多个搜索文本的语义表达向量;
确定每两个所述语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
其中,关于每两个所述语义表达向量之间的相似度的计算,可以采用离线大数据平台计算,一般情况下,对于千万级别的第二用户,由于是高速并行化计算方式,因此半天左右的时间即可计算完成。当然,对于第二用户的搜索文本,是可以进行更新的,例如一周更新一次第二用户的搜索文本,并重新计算第二用户的多个搜索文本的语义表达向量之间的相似度。
本申请实施例中,将第二用户的搜索文本转换为语义表达向量,进而计算语义表达向量之间的相似度,根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,可以更加便捷地确定第二用户的搜索文本之间的相似关系,从而建立KR列表,对第一用户的搜索文本进行深层的语义扩展,得到更多、更准确、更能表达第二用户的搜索意图的语义文本,并可以作为推荐结果推荐给第一用户。
本申请实施例提供的技术方案,考虑到现有技术没有合理有效地利用第二用户的行为数据,比如第二用户对query的反馈往往通过第二用户对item的点击等行为来衡定,这种强烈显示第二用户意图的信息没能利用起来,使得信息推送的结果无的放矢,与第二用户意图存在着鸿沟。其中,所述的item,在电商平台指的是商品。第二用户在搜索页键入query,系统返回搜索结果,第二用户在相应的商品上发生点击行为,从而构建query与item的点击关系,item可以看作是query的点击反馈,那么,有共同点击反馈的query,可以认为是有共同意图的语义文本,即可以作为相似文本。
本申请实施例提供的技术方案,在第二用户搜索意图和第一用户推广意图之间建立联系,通过挖掘搜索行为的深层共现语义,得到相似意图的query,然后根据第一用户的推广商品和已购信息推送展示结果;并基于点击反馈将搜索行为进行扩展,得到充足的搜索query,从而大幅度减轻了第二用户行为的“稀疏性”问题,使得推荐展示的结果准确而丰富。其中,文本共现方式处理自然语言会面临一些问题,比如同义词(连衣裙、裙子)、中英文(三星、Samsung)无法匹配、歧义(笔记本、笔记本电脑),在解决上需要人工维护大量的词典和规则。同一个搜索意图表现在文本query上不同的第二用户有不同的表达方式,基于共现term无法有效解决这一问题。而在语义空间当中,字面不同的query距离可能很接近,因为两者表达的是同一搜索意图。因此基于字面term的方法是浅层的,基于语义的方法是深层的。同一搜索意图通过集体智慧(多个第二用户中共同出现)协同挖掘得到的语义称为共现语义。
因此,可选地,所述语义空间是通过如下方式预设的:
确定第二用户的多个搜索文本的语义表达向量;
确定具有共同点击反馈的搜索文本的语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
本申请实施例根据第二用户搜索意图,确定第二用户的多个搜索文本的语义表达向量,确定具有共同点击反馈的搜索文本的语义表达向量之间的相似度,从而根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,通过挖掘第二用户搜索行为的深层共现语义,得到相似意图的query,因此,可以向第一用户提供更多、更能反映第二用户搜索行为的推荐结果。
可选地,根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,具体包括:
建立相似度大于或等于预设阈值的语义表达向量所对应的搜索文本之间的对应关系。
综上,本申请实施例为了有效地利用第二用户本身的搜索query及搜索点击反馈,将第二用户搜索意图表示为短期query序列,利用深度语义模型挖掘共现语义;此外,为了解决第二用户搜索行为过少带来的“稀疏性”问题,引入了搜索query共同点击反馈来确定第二用户的多个搜索文本之间的相似度,以提高深度共现语义挖掘的精准度。
参见图2,本申请实施例提供的技术方案,可以分为在线任务和离线任务。所述的离线任务,即预先根据第二用户输入的搜索文本,建立KR列表(或称KR词典),即建立上述语义空间,其中包括针对每一KR(即第二用户的搜索文本)建立的该KR与该KR的相似KR的对应关系;所述的在线任务,即第一用户输入搜索文本,从预先建立的语义空间中确定该第一用户输入的搜索文本相似的KR并提供给第一用户。
下面主要介绍一下所述的离线任务。
参见图3,本申请实施例提供的预先设置语义空间的技术方案,具体包括:
步骤一:获取第二用户输入的搜索文本;
步骤二:确定第二用户输入的各个搜索文本的语义表达向量;
步骤三:根据第二用户输入的各个搜索文本的语义表达向量,并基于第二用户输入的query的共同点击行为的相似性,确定第二用户输入的多个搜索文本之间的相似度;
本申请实施例基于搜索文本对应的点击反馈,将第二用户的搜索行为进行扩展,得到充足的第二用户搜索query,从而大幅度减轻了第二用户行为的“稀疏性”问题,使得推荐展示的结果更为准确、丰富。
本申请实施例为了有效地利用第二用户本身的搜索query及搜索点击反馈,将第二用户搜索意图表示为短期query序列,利用深度语义模型挖掘共现语义;此外,为了解决第二用户搜索行为过少带来的“稀疏性”问题,引入了搜索query共同点击反馈来确定第二用户的多个搜索文本之间的相似度,以提高深度共现语义挖掘的精准度。
步骤四:确定KR列表,即语义空间。
其中,关于步骤一:
第二用户输入的搜索query是表达第二用户搜索意图最主要的方式,并且在短期,比如一天之内,第二用户的兴趣点是比较集中的。自然语言纷繁复杂,同一个意图在语言表达上有差别。短期内第二用户由搜索意图出发会反复尝试不同的query。基于此假设,把这一系列的搜索串表示第二用户短期内的搜索意图。因此第二用户在短期内的搜索串可以认为是第二用户同一搜索意图的不同表示。即使第二用户搜索query序列当中参杂少量不同意图的query,其在后续深度共现语义挖掘中也会被作为噪声过滤掉。在工程实现上,还可以通过同类目限制来进一步清洗数据。因此,确定第二用户的多个搜索文本的语义表达向量,具体包括:确定预设时长内(例如一天内)第二用户的多个搜索文本的语义表达向量。
例如,第二用户的搜索意图如图4所示,在短期内第二用户搜索意图比较集中,第二用户想买连衣裙,前前后后输入的搜索串可能是“韩版连衣裙”“显瘦连衣裙”“波西米亚连衣裙”等等,就把这些query组成序列,即所述的短期query序列,即图4中原始搜索串query a、b、c……构成的序列,其中,每一原始搜索串有多个相似搜索串,例如,原始搜索串query a的相似搜索串包括:相似搜索串query a1、相似搜索串query a2……相似搜索串query am,这些相似搜索串可以认为是对原始搜索串的扩展,相似搜索串与原始搜索串可以是同一用户输入的搜索串,也可以是不同用户输入的搜索串。关于确定原始搜索串的相似搜索串,可以计算原始搜索串的语义表达向量与另一搜索串(可以来自同一用户或不同用户的搜索串)的语义表达向量之间的相似度,根据相似度,确定原始搜索串的相似搜索串。
关于步骤三:
第二用户在搜索结果页会对商品发生点击行为,不同的第二用户基于不同的query可能会点击同一商品,这两个query具有一定关联程度,并且共同点击的商品越多,点击的频次越高,query之间也具有越高的相似性。这种相似性是基于第二用户点击行为得来的。
同一搜索意图的搜索query在语言表达上多种多样,但是不同的搜索串具有相似的点击反馈的表现,如图5所示,例如,query 1和query 2都对应了item3,因此基于共同点击,可以挖掘出行为相似的query,query 1和query 2即为相似的query,从而可以确定多个搜索文本之间的相似度,解决第二用户行为过少带来的“稀疏性”问题。
通过统计两两query之间共同点击的数据,可以计算出query之间的相似程度。共同点击可以是同一个item,或者是同一类相似的item。
关于如何有效地建立不同query之间的映射关系,具体如下:
在目前主流的语种中,文字都是由词构成的,在自然语言的处理中,词是可掌控的最小粒度,在主流的自然语言方法中,得到最普遍地认识和最广泛地应用。Word2Vec方法根据句子中词的相对位置关系得到词的向量表示。
与以往方法不同,本申请实施例将单个搜索串看作一个整体,获得搜索串的语义文本信息的表达。利用word2vec的词袋模型,把单个query看成一个词,第二用户短期内的query序列拼成句子,输入word2vec,得到query序列的语义表达向量。例如,query序列“韩版连衣裙”=[0.2,0.3,-0.1,0.0];query序列“显瘦连衣裙”=[0.21,0.29,-0.1,0.1]。本申请实施例中,将搜索串的直接信息(即文本本身的字面意思)映射到向量空间(即深层的语义空间,语言背后的意图的数字向量表示)。与现有技术中的需要存储大量字典、关系、模式才能推断文本之间的语义信息的方法相比,本申请实施例依靠神经网络的参数化方法,可以大大减轻了预测时的复杂度,在不降低准确度的同时,提高的模型的可移植性、应用性。
而对深层语义网络来说,将多变的关系数据转换为复杂的映射函数,将文本直接值映射到另一个样本空间,是依靠神经网络神经元之间的信息传递,重新构建出两两query之间的关系。
通过word2vec,把第二用户搜索query在深度共现语义空间得到向量表示,以此作为后续工作的基础。
在得到了搜索串的语义向量表达之后,计算两个搜索串之间的相似性方法,可以有多种多样,比如直接计算两个语义向量的相似度,作为两个搜索串的相关分,例如:
语义文本a:“韩版连衣裙”=[0.2,0.3,-0.1,0.0]
语义文本b:“显瘦连衣裙”=[0.21,0.29,-0.1,0.1]
语义文本c:“三星mp3”=[0.7,-0.9,0.6,-0.2]
语义向量间的相似性可以通过向量方向的一致性得到,余弦夹角是常用的方法(即采用cosine距离的方法)。cos<a,b>=0.965,cos<a,c>=-0.3895,因此语义文本a与语义文本b的向量具有更高的相似度,余弦夹角也是这两个语义文本(query)的相关分,用于表示两者的相似度,值越大,相似度越高,否则越低。
此外,还可以采用皮尔逊相关系数等方法计算任一两个语义文本的相似度,在此不再赘述。
在本申请实施例中所述的语义空间中,两个语义文本相似度越高,对应的两个向量的重合度也就越高。也就是说这两个query之间共现语义就越接近。其中,所述的其他空间,例如欧几里得几何空间,具有向量的线性运算、长度、方向、夹角等度量。向量间的相似度由向量夹角决定,向量间夹角越小,向量方向约一致。夹角余弦把向量相似度缩放到[-1,1]之间,同时也等价于归一化后向量点的欧式距离。
所述相关分,即相似度,是判断一次KR过程是否可靠的有效标准,例如,在这个分数超过指定的阈值的时候,或者直接取相关分最高的10个语义文本,就可以选择这次推荐有效,将此作为关键词的推荐结果。
另外,需要说明的是,以上进行搜索query扩展时,可以采用迭代更多更准确的相关query计算方法,例如SimRank;也可采用速度更快的方法,例如MinHash。
对于行为较少的第二用户,本申请实施例中,采用query共同点击进行搜索行为扩展,也可以采用聚类方法来对第二用户进行聚类,将相似行为的第二用户聚到一个簇中,然后给第二用户推荐其所属簇的第二用户的搜索query。即以搜索、点击、购买行为将第二用户聚类,相似兴趣的第二用户被聚到一起,在同一个聚类簇中第二用户的搜索query可以相互扩展。实现方案包括:提取历史每个第二用户的点击、收藏、购买商品的记录,整理成用户与商品(user-item)矩阵,矩阵中的元素是某个第二用户对某个商品的喜好程度。利用矩阵分解或者协同过滤算法(user-based CF),得到两两第二用户相似性,相似分越高说明这两个第二用户的偏好越接近,把相似第二用户的搜索query作为推荐候选,经过同类目过滤、已搜索query过滤,扩展该第二用户的搜索行为。
与上述方法相对应地,参见图6,本申请实施例提供的一种信息推送装置,包括:
第一单元11,用于确定第一用户的搜索文本;
第二单元12,用于从预设的语义空间中查找所述第一用户的搜索文本,其中,所述语义空间中包括基于第二用户的多个搜索文本之间的相似性建立的对应关系;
第三单元13,用于基于查找结果向所述第一用户推送信息。
可选地,所述第三单元,具体用于:
确定所述语义空间中与所述第一用户的搜索文本相同的第二用户的搜索文本;
将确定出的第二用户的搜索文本所对应的搜索文本推送给所述第一用户。
可选地,所述第二单元还用于通过如下方式预设所述语义空间:
确定第二用户的多个搜索文本的语义表达向量;
确定每两个所述语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
可选地,所述第二单元还用于通过如下方式预设所述语义空间:
确定第二用户的多个搜索文本的语义表达向量;
确定具有共同点击反馈的搜索文本的语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
可选地,所述第二单元确定第二用户的多个搜索文本的语义表达向量具体包括:确定预设时长内第二用户的多个搜索文本的语义表达向量。
可选地,所述第二单元根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,具体包括:
建立相似度大于或等于预设阈值的语义表达向量所对应的搜索文本之间的对应关系。
以上任一所述单元均可以由处理器等实体器件实现,所述处理器可以是中央处埋器(CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD)。
所述的信息推送装置,例如可以是用户设备、服务器等装置。
综上所述,本申请实施例引入了深度语义模型,从第二用户搜索意图出发,将第二用户搜索query文本从字面信息映射到短语的语义空间,并在新的空间中寻找相似语义文本,同时也是相似第二用户意图,最后从前端到后端打通第一用户推广意图,从而完成KR过程。在query推荐时充分有效利用了第二用户自身的搜索信息,并抽取出整体第二用户的深层共现语义;将query共同点击用于进行第二用户搜索行为的扩展,大幅度减轻了第二用户行为过少带来的“稀疏性”问题对推荐结果的影响。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种信息推送方法,其特征在于,该方法包括:
确定第一用户的搜索文本;
从预设的语义空间中查找所述第一用户的搜索文本,其中,所述语义空间中包括基于第二用户的多个搜索文本之间的相似性建立的对应关系;
基于查找结果向所述第一用户推送信息。
2.根据权利要求1所述的方法,其特征在于,所述基于查找结果向所述第一用户推送信息,具体包括:
确定所述语义空间中与所述第一用户的搜索文本相同的第二用户的搜索文本;
将确定出的第二用户的搜索文本所对应的搜索文本推送给所述第一用户。
3.根据权利要求1所述的方法,其特征在于,所述语义空间是通过如下方式预设的:
确定第二用户的多个搜索文本的语义表达向量;
确定每两个所述语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述语义空间是通过如下方式预设的:
确定第二用户的多个搜索文本的语义表达向量;
确定具有共同点击反馈的搜索文本的语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
5.根据权利要求3或4所述的方法,其特征在于,确定第二用户的多个搜索文本的语义表达向量,具体包括:确定预设时长内第二用户的多个搜索文本的语义表达向量。
6.根据权利要求3或4所述的方法,其特征在于,根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,具体包括:
建立相似度大于或等于预设阈值的语义表达向量所对应的搜索文本之间的对应关系。
7.一种信息推送装置,其特征在于,包括:
第一单元,用于确定第一用户的搜索文本;
第二单元,用于从预设的语义空间中查找所述第一用户的搜索文本,其中,所述语义空间中包括基于第二用户的多个搜索文本之间的相似性建立的对应关系;
第三单元,用于基于查找结果向所述第一用户推送信息。
8.根据权利要求7所述的装置,其特征在于,所述第三单元,具体用于:
确定所述语义空间中与所述第一用户的搜索文本相同的第二用户的搜索文本;
将确定出的第二用户的搜索文本所对应的搜索文本推送给所述第一用户。
9.根据权利要求7所述的装置,其特征在于,所述第二单元还用于通过如下方式预设所述语义空间:
确定第二用户的多个搜索文本的语义表达向量;
确定每两个所述语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
10.根据权利要求7所述的装置,其特征在于,所述第二单元还用于通过如下方式预设所述语义空间:
确定第二用户的多个搜索文本的语义表达向量;
确定具有共同点击反馈的搜索文本的语义表达向量之间的相似度;
根据所述相似度,确定所述第二用户的搜索文本之间的对应关系。
11.根据权利要求9或10所述的装置,其特征在于,所述第二单元确定第二用户的多个搜索文本的语义表达向量具体包括:确定预设时长内第二用户的多个搜索文本的语义表达向量。
12.根据权利要求9或10所述的装置,其特征在于,所述第二单元根据所述相似度,确定所述第二用户的搜索文本之间的对应关系,具体包括:
建立相似度大于或等于预设阈值的语义表达向量所对应的搜索文本之间的对应关系。
CN201610514027.1A 2016-06-30 2016-06-30 一种信息推送方法及装置 Pending CN107562761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610514027.1A CN107562761A (zh) 2016-06-30 2016-06-30 一种信息推送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610514027.1A CN107562761A (zh) 2016-06-30 2016-06-30 一种信息推送方法及装置

Publications (1)

Publication Number Publication Date
CN107562761A true CN107562761A (zh) 2018-01-09

Family

ID=60970039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610514027.1A Pending CN107562761A (zh) 2016-06-30 2016-06-30 一种信息推送方法及装置

Country Status (1)

Country Link
CN (1) CN107562761A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008396A (zh) * 2018-11-28 2019-07-12 阿里巴巴集团控股有限公司 对象信息推送方法、装置、设备及计算机可读存储介质
CN110879863A (zh) * 2018-08-31 2020-03-13 阿里巴巴集团控股有限公司 跨领域搜索方法和跨领域搜索装置
CN111401072A (zh) * 2020-02-26 2020-07-10 北京香侬慧语科技有限责任公司 一种文本预测方法和装置
CN113111216A (zh) * 2020-01-13 2021-07-13 百度在线网络技术(北京)有限公司 广告推荐方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
CN104143005A (zh) * 2014-08-04 2014-11-12 五八同城信息技术有限公司 一种相关搜索系统及方法
CN104281565A (zh) * 2014-09-30 2015-01-14 百度在线网络技术(北京)有限公司 语义词典构建方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
CN104143005A (zh) * 2014-08-04 2014-11-12 五八同城信息技术有限公司 一种相关搜索系统及方法
CN104281565A (zh) * 2014-09-30 2015-01-14 百度在线网络技术(北京)有限公司 语义词典构建方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879863A (zh) * 2018-08-31 2020-03-13 阿里巴巴集团控股有限公司 跨领域搜索方法和跨领域搜索装置
CN110879863B (zh) * 2018-08-31 2023-04-18 阿里巴巴集团控股有限公司 跨领域搜索方法和跨领域搜索装置
CN110008396A (zh) * 2018-11-28 2019-07-12 阿里巴巴集团控股有限公司 对象信息推送方法、装置、设备及计算机可读存储介质
CN110008396B (zh) * 2018-11-28 2023-11-24 创新先进技术有限公司 对象信息推送方法、装置、设备及计算机可读存储介质
CN113111216A (zh) * 2020-01-13 2021-07-13 百度在线网络技术(北京)有限公司 广告推荐方法、装置、设备和存储介质
CN113111216B (zh) * 2020-01-13 2023-11-03 百度在线网络技术(北京)有限公司 广告推荐方法、装置、设备和存储介质
CN111401072A (zh) * 2020-02-26 2020-07-10 北京香侬慧语科技有限责任公司 一种文本预测方法和装置

Similar Documents

Publication Publication Date Title
Ozyurt et al. A new topic modeling based approach for aspect extraction in aspect based sentiment analysis: SS-LDA
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
KR101778679B1 (ko) 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
CA2802909C (en) Methods and apparatus for searching of content using semantic synthesis
US9767182B1 (en) Classification of search queries
US10217058B2 (en) Predicting interesting things and concepts in content
CN109508414B (zh) 一种同义词挖掘方法及装置
CN106845645B (zh) 用于产生语义网络和用于媒体合成的方法及系统
CN103514299B (zh) 信息搜索方法和装置
US9798820B1 (en) Classification of keywords
CN106663117B (zh) 构造支持提供探索性建议的图
Alharbi et al. Evaluation of sentiment analysis via word embedding and RNN variants for Amazon online reviews
CN102200975B (zh) 一种利用语义分析的垂直搜索引擎系统
US20160189218A1 (en) Systems and methods for sponsored search ad matching
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
JP2015522190A (ja) 検索結果の生成
US20180096067A1 (en) Creation and optimization of resource contents
CN107562761A (zh) 一种信息推送方法及装置
CN109074366A (zh) 用于计算机网络路由基础架构的增益调整组件
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
Kim et al. TopicSifter: Interactive search space reduction through targeted topic modeling
Hassan et al. Sentimental analysis of Amazon reviews using naïve bayes on laptop products with MongoDB and R
Paria et al. A neural architecture mimicking humans end-to-end for natural language inference
Su et al. Hybrid recommender system based on deep learning model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1249223

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180109