CN108664508A - 信息推送方法和装置 - Google Patents

信息推送方法和装置 Download PDF

Info

Publication number
CN108664508A
CN108664508A CN201710206964.5A CN201710206964A CN108664508A CN 108664508 A CN108664508 A CN 108664508A CN 201710206964 A CN201710206964 A CN 201710206964A CN 108664508 A CN108664508 A CN 108664508A
Authority
CN
China
Prior art keywords
industry
search
vector
search type
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710206964.5A
Other languages
English (en)
Other versions
CN108664508B (zh
Inventor
陈敏
杨家骏
张子帅
秦首科
韩友
黄飞
邱学忠
袁腾飞
贾银芳
刘国庆
韩聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710206964.5A priority Critical patent/CN108664508B/zh
Publication of CN108664508A publication Critical patent/CN108664508A/zh
Application granted granted Critical
Publication of CN108664508B publication Critical patent/CN108664508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Abstract

本申请公开了信息推送方法和装置。该方法的一具体实施方式包括:获取用户当前输入的搜索式;确定与用户当前输入的搜索式对应的主题相似搜索式,主题相似搜索式满足以下条件中的至少一项:对应的行业与搜索式对应的行业的行业相似度大于行业相似度阈值、与搜索式的语义相似度大于语义相似度阈值;将用户当前输入的搜索式对应的推送信息和主题相似搜索式对应的推送信息推送给用户。实现了向用户推送多个与当前输入的搜索式对应的行业相关的行业的推送信息和多个与当前输入的搜索式语义相似的搜索式对应的推送信息。

Description

信息推送方法和装置
技术领域
本申请涉及计算机领域,具体涉及搜索领域,尤其涉及信息推送方法和装置。
背景技术
在用户的搜索过程中,可以将与行业相关的推送信息(例如行业的商业广告)推送给用户。目前,通常采用的方式为:一个搜索式预先对应一个行业,将与搜索式预先对应的行业的推送信息推送给用户。
然而,在一些搜索中,用户对一些行业的推送信息感兴趣时,搜索式中并不包含与该行业相关的关键词,仅将搜索式预先对应的行业的推送信息推送给用户,内容较为单一。
发明信息
本申请提供了信息推送方法和装置,用于解决上述背景技术部分存在的技术问题。
第一方面,本申请提供了信息推送方法,该方法包括:获取用户当前输入的搜索式;确定与用户当前输入的搜索式对应的主题相似搜索式,主题相似搜索式满足以下条件中的至少一项:对应的行业与搜索式对应的行业的行业相似度大于行业相似度阈值、与搜索式的语义相似度大于语义相似度阈值;将用户当前输入的搜索式对应的推送信息和主题相似搜索式对应的推送信息推送给用户。
第二方面,本申请提供了信息推送装置,该装置包括:获取单元,配置用于获取用户当前输入的搜索式;确定单元,配置用于确定与用户当前输入的搜索式对应的主题相似搜索式,主题相似搜索式满足以下条件中的至少一项:对应的行业与搜索式对应的行业的行业相似度大于行业相似度阈值、与搜索式的语义相似度大于语义相似度阈值;推送单元,配置用于将用户当前输入的搜索式对应的推送信息和主题相似搜索式对应的推送信息推送给用户。
本申请提供的信息推送方法和装置,通过获取用户当前输入的搜索式;确定与用户当前输入的搜索式对应的主题相似搜索式,主题相似搜索式满足以下条件中的至少一项:对应的行业与搜索式对应的行业的行业相似度大于行业相似度阈值、与搜索式的语义相似度大于语义相似度阈值;将用户当前输入的搜索式对应的推送信息和主题相似搜索式对应的推送信息推送给用户。实现了向用户推送多个与当前输入的搜索式对应的行业相关的行业的推送信息和多个与当前输入的搜索式语义相似的搜索式对应的推送信息。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用于本申请的信息推送方法或装置的示例性系统架构;
图2示出了根据本申请的信息推送方法的一个实施例的流程图;
图3示出了根据本申请的信息推送方法的另一个实施例的流程图;
图4示出了根据本申请的信息推送方法的再一个实施例的流程图;
图5示出了根据本申请的信息推送装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的信息推送方法的服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用于本申请的信息推送方法或装置的实施例的示例性系统架构。
如图1所示,系统架构可以包括服务器101、网络102、服务器103。网络102用以在服务器101和服务器103之间提供传输链路的介质。服务器103可以为提供搜索服务的服务器。服务器101可以从服务器103获取海量用户的搜索记录,搜索记录可以包括但不限于:搜索式、点击的在首页的搜索结果、搜索结果在首页的位置。
请参考图2,其示出了根据本申请的信息推送方法的一个实施例的流程。该方法可以由服务器例如图1中的服务器101执行,相应地,信息推送装置可以设置于服务器例如图1中的服务器101中。
步骤201,获取用户当前输入的搜索式。
在本实施例中,用户当前在终端输入搜索式之后,可以接收到用户使用的终端发送的包含该当前输入的搜索式的搜索请求,从而,可以获取到用户当前输入的搜索式。
步骤202,确定与用户当前输入的搜索式对应的主题相似搜索式。
在本实施例中,主题相似搜索式满足以下条件中的至少一项:对应的行业与搜索式对应的行业的行业相似度大于行业相似度阈值、与搜索式的语义相似度大于语义相似度阈值。
在本实施例中,在通过步骤201获取用户当前输入的搜索式之前,可以预先获取多个用户输入的搜索式,计算出多个搜索式之间的行业相似度和语义相似度。在通过步骤201获取用户当前输入的搜索式之后,由于预先获取到的多个用户输入的搜索式包含该当前输入的搜索式,已经预先计算出了该搜索式对应的行业与其他搜索式对应的行业的行业相似度和该搜索式与其他搜索式的语义相似度,可以根据预先计算出的该搜索式对应的行业与其他搜索式对应的行业的行业相似度和该搜索式与其他搜索式的语义相似度,查找出对应的行业与用户当前输入的搜索式对应的行业的行业相似度大于行业相似度阈值的搜索式和语义相似度大于语义相似度阈值的搜索式。
在本实施例中,可以采用以下方式确定搜索式对应的行业:可以获取搜索式在多次搜索中出现的搜索结果,确定搜索结果所属的行业。可以聚合搜索式在多次搜索中不同的搜索结果所属的行业,得到搜索式对应的多个行业。
步骤203,将用户当前输入的搜索式和主题相似搜索式对应的推送信息推送给用户。
在本实施例中,在通过步骤202确定与用户当前输入的搜索式对应的主题相似搜索式之后,可以将与用户当前输入的搜索式和主题相似搜索式对应的推送信息推送给用户。
例如,通过步骤202查找出对应的行业与用户当前输入的搜索式对应的行业的行业行业相似度大于行业相似度阈值的搜索式,即查找出与用户当前输入的搜索式对应的行业相似的搜索式,将与用户当前输入的搜索式对应的行业相似的搜索式对应的推送信息(例如商业广告)推送给用户。与用户当前输入的搜索式对应的行业相似的搜索式对应的推送信息可以为用户当前输入的搜索式对应的行业相似的行业的推送信息,因此,可以相当于向用户推送与用户当前输入的搜索式对应的行业相关的行业的推送信息。
请参考图3,其示出了根据本申请的信息推送方法的另一个实施例的流程。该方法可以由服务器例如图1中的服务器101执行,相应地,信息推送装置可以设置于服务器例如图1中的服务器101中。
步骤301,计算多个搜索式对应的行业的行业相似度。
在本实施例中,可以获取多个搜索式,例如获取海量的日均pv(page view,页面浏览量)大于阈值的搜索式。计算多个搜索式中每一个搜索式的行业向量,基于每一个搜索式的行业向量,计算多个搜索式对应的行业的行业相似度。
在本实施例中,可以通过以下步骤3011-3018首先确定每一个搜索式的行业向量:
步骤3011:可以首先确定多个用户输入的搜索式每一个用户输入的搜索式对应的行业,生成每一个用户输入的搜索式的行业向量。
可以采用以下方式确定搜索式对应的行业,生成每一个用户输入的搜索式的行业向量:可以获取搜索式在多次搜索中出现的搜索结果例如在首页出现的搜索结果,确定搜索结果所属的行业。可以聚合搜索式在多次搜索中不同的搜索结果所属的行业,初步计算出搜索式的行业向量,行业向量中的每一个分量可以为该搜索的一个搜索结果所属的行业的行业标识。
在本实施例中,还可以将每一个搜索式的核心词组成的新的搜索式,新的搜索式的组成方式可以为:如果核心词在搜索式中,则按照核心词在搜索式中的顺序排序,如果不在搜索式中,则加到后来生成的新搜索式的后面。对于在搜索式中的核心词,如果核心词之间在搜索式中是排列在一起的则可以取排列在一起的最大字符串作为一个用于拼接新的搜索式的子串。可以确定每个新搜索式对应的行业向量,如果新的搜索式对应的行业向量中的行业标识没有出现在搜索式对应的行业向量中,则可以将没有出现在初步计算出的搜索式对应的行业向量中的行业标识添加到初步计算出的搜索式的行业向量中。
在初步计算出每一个搜索式的行业向量之后,可以得到格式为<query,trade_vector>的数据文件。query表示搜索式,trade_vector表示行业向量。格式为<query,trade_vector>的数据文件包含多条数据,每一条数据包含一个搜索式,初步计算出的该搜索式的行业向量。
步骤3012:可以从搜索引擎获取多个搜索记录,聚合搜索记录中的每个搜索式和利用搜索式进行搜索时点击的标题,得到格式为<query,title,click>的数据文件。title表示利用搜索式搜索时得到的搜索结果例如首页的搜索结果的标题,click表示搜索结果的点击量即搜索结果的标题的点击量。在利用搜索式进行搜索时,可以得到多个搜索结果,相应地,可以得到多个标题,一个搜索式可以对应多个标题,即一个query可以对应多个title。格式为<query,title,click>的数据文件中,包含多条数据,
每一条数据可以包含一个搜索式、该搜索式对应的一个标题、该标题的点击量,即每一条数据可以包含一个query、该query对应的一个title、该title的点击量。
步骤3013:在首次执行步骤3012时,可以将步骤3011初步计算出的搜索式的行业向量(也可称之为初始行业向量)作为搜索式的当前行业向量,即query的当前trade_vector。相应地,步骤3011中得到的格式为<query,trade_vector>的数据文件,每一条数据中的query的trade_vector作为query的当前trade_vector。
将步骤3011中得到的格式为<query,trade_vector>的数据文件和格式为<query,title,click>的数据文件作为输入,以query为key,拼接成格式为<query,title,click,trade_vector>的数据文件。格式为<query,title,click,trade_vector>的数据文件中包含多条数据,每一条数据包含一个搜索式、该搜索式对应的一个标题、该标题的点击量、该搜索式的当前行业向量。即每一条数据包含一个query、该query对应的一个title、该title的点击量、该query当前trade_vector。
步骤3014:可以根据标题,聚合标题对应的每一个搜索式的行业向量中的行业标识,得到每一个标题的行业向量,即根据title聚合title对应的每一个query的trade_vector,得到每一个title的trade_vector,得到格式为<title,trade_vector>的数据文件。一个标题可以对应多个搜索式,即在利用多个搜索式进行搜索时,均可以具有该标题的搜索结果。针对一个标题对应的搜索式的数量过多的情况,可以在聚合时,选取标题对应的搜索式中预设数量例如100个搜索式的行业向量参与聚合。格式为<title,trade_vector>的数据文件中,每一条数据包含一个标题、该标题的行业向量,即每一条数据包含一个title、title的trade_vector。每一个title的trade_vector中可以包含该title对应的多个query的trade_vector中的行业标识。title的trade_vector中,每一个分量为一个行业标识,每一个行业标识对应一个标题行业权重。
可以采用以下方式确定标题的行业向量即title的trade_vector中每一个行业标识对应的标题行业权重:可以首先计算出title的trade_vector中的每一个行业标识的标题点击量,进行归一化,得到标题的行业向量即title的trade_vector中每一个行业标识的标题行业权重。以计算title的trade_vector中一个行业标识的标题点击量为例,说明计算行业标识的标题点击量的过程:可以首先确定title对应的包含该行业标识的所有query的trade_vector,在确定出的每一个query的trade_vector中,该行业标识对应一个标题点击量,该标题点击率可以为利用该query进行搜索时,title的点击量。将在所有包含该行业标识的多个query的trade_vector中该行业标识的title的点击量相加,得到行业标识的标题点击量。在计算出title的trade_vector中每一个行业标识的标题点击量之后,可以
步骤3015:可以聚合搜索式的搜索记录中的搜索式对应的标题、展示次数、展示位置等数据,得到<query,title,show,rank>数据文件,show表示title在首页展示的次数,rank表示title在首页中的位置,例如在首页展示的搜索结果的数量为10个,rank的取值为1-10。格式为<query,title,show,rank>的数据文件中,每一条数据包含一个搜索式、该搜索式对应的一个标题、该标题在首页展示的次数、该标题在首页中的位置。即每一条数据包含一个query、该query对应的一个title、该title在首页展示的次数、该title在首页中的位置。
步骤3016:可以根据搜索式和标题即根据query和title,将步骤3012得到的格式为<query,title,click>的数据文件和步骤3014得到的格式为<query,title,show,rank>数据文件进行拼接,得到格式为<query,title,show,rank,click>的数据文件。格式为<query,title,show,rank,click>的数据文件中包含多条数据,每一条数据包含一个搜索式、该搜索式对应的一个标题、该标题在首页展示的次数、该标题在首页中的位置、该标题的点击量,即每一条数据包含一个query、该query对应的一个title、该title在首页展示的次数、该title在首页中的位置、该title的点击量。
步骤3017:可以根据标题即根据title,将步骤3016得到的格式为<query,title,show,rank,click>的数据文件和步骤3013得到的格式为<title,trade_vector>的数据文件进行拼接,得到格式为<query,title,show,rank,click,trade_vector>的数据文件。格式为<query,title,show,rank,click,trade_vector>的数据文件中包含多条数据,每一条数据包含一个搜索式、该搜索式对应的一个标题,该标题在首页展示的次数、该标题在首页中的位置、该标题的点击量、该标题的行业向量,即每一条数据包含一个query、该query对应的一个title、该title在首页展示的次数、该title在首页中的位置、该title的点击量、该title的trade_vector。
步骤3018:可以将步骤3017得到的格式为<query,title,show,rank,click,trade_vector>的数据文件作为输入,计算每一个搜索式的行业向量中的行业标识的行业权重。一个搜索式可以对应多个标题,即query可以对应多个title,相应地,在格式为<query,title,show,rank,click,trade_vector>的数据文件中,包含多条包含同一搜索式的数据。
可以采用以下公式计算格式为<query,title,show,rank,click,trade_vector>的数据文件中多条包含同一搜索式即同一query的数据中每一条数据中的标题即title的标题权重w:
w=ln(show×(11-rank))×(1+ln(click+1))
在每一条包含同一搜索式即同一query的数据中,标题的行业向量即title的trade_vector中的每一个行业标识对应一个标题行业权重。以一个行业标识为例,说明计算行业标识的行业权重的过程:确定标题的行业向量即title的trade_vector中包括该行业标识的多条数据,分别将多条数据中的每一条数据中的title的权重与该条数据的title的trade_vector中的该行业标识的标题行业权重相乘的乘积相加,得到该行业标识的行业权重。在得到每一个行业标识的权重的之后。可以根据行业标识的行业权重的大小,对行业向量中的行业标识的数量进行截断例如,可以保留重新计算出的query的trade_vector中行业权重最大的5个行业标识,再进行归一化,得到重新计算出的搜索式的行业向量,即重新计算出的query的trade_vector。
在本实施例中,可以执行一次上述步骤3011-步骤3018,得到重新计算后的query的trade_vector,将重新计算出的query的trade_vector确定为query的trade_vector。也可以执行一次步骤3011以及迭代执行步骤3012-步骤3018直至满足预设收敛条件。迭代执行步骤3012-步骤3018的过程中,每一次执行步骤3012-步骤3018得到的重新计算出的query的trade_vector作为下一次执行步骤3012-步骤3018时步骤3012中的query的当前trade_vector参与计算。预设收敛条件包含以下之一:最后两次迭代出来的query的trade_vector包含的行业标识和排序不再变化即最后两次执行步骤3012-步骤3018得到的重新计算出的query的trade_vector包含的行业标识和排序不再变化、在最后两次迭代出来的query的trade_vector包含的行业标识和排序不再变化的同时,每个query的trade_vector中的行业标识的行业权重的差值平方和累加在预设误差范围之内。
在本实施例中,在通过步骤3011-3018分别确定出每一个搜索式的行业向量例如每一个日均大于阈值的搜索式的行业向量之后,可以计算搜索式的行业向量之间的距离,即计算query的trade_vector之间的距离,将该距离作为搜索式对应的行业之间的行业相似度。在计算过程中,行业标识之间的相似性即行业之间的相似性可以采用行业标识之间的转移概率即行业之间的转移概率进行表示。
在搜索式的行业向量即query的trade_vector中,每一个分量为一个行业标识,行业标识可以采用trade表示,一个trade对应一个行业权重。可以根据query的trade_vector中的行业标识,聚合每个query和行业标识的行业权重,计算每一个trade到query的转移概率。例如,一个trade可以在多个query的trade_vector中,则该trade到query的转移概率可以为1/query的数量。在计算出每一个trade到query的转移概率之后,可以得到包含每一个trade到query的转移概率的转移矩阵。
然后,可以将该转移矩阵分别与query的trade_vector中的多个trade的权重相乘,得到包含每一个query的trade_vector中的trade到其他的query的trade_vector中其他trade的转移概率的转移矩阵。可以根据确定出的query的trade_vector和包含每一个query的trade_vector中的trade到其他的query的trade_vector中其他trade的转移概率的转移矩阵,可以采用EMD(Earth Mover’s Distance)算法,计算query的trade_vector之间的距离。
以采用EMD算法计算两个query的trade_vector的距离为例,两个query的trade_vector分别为P和Q,P包含行业标识trade1、trade2、trade3,trade1的行业权重为0.4,trade2的行业权重为0.3,trade3的行业权重为0.3。P可以表示为P={<trade1,0.4>,<trade2,0.3>,<trade3,03>}。Q包含行业标识trade1、trade2,trade1的行业权重为0.4,trade2的行业权重为0.6,Q可以表示为Q={<trade1,0.4>,<trade2,0.6>}。
可以分别计算P到Q距离和Q到P的距离,将P到Q距离和Q到P的距离的最小值作为两个query的trade_vector之间的距离。其中,P到Q的距离定义为P中每一个trade的行业权重与该trade到Q中所有trade的最优距离的乘积之和。距离可以是指P中的trade到Q中的trade的转移概率。最优距离可以为P中的trade到Q中的所有trade的转移概率中最大的转移概率。例如,P中的trade1到Q中所有trade的最优距离为P中的trade1到Q中的trade2的转移概率。
可以对P中的各个trade的行业权重与对应的最优距离的乘积进行累加,得到P到Q的距离。基于同样的计算方式,可以得到Q到P的距离。在计算出P到Q的距离与Q到P的距离之后,可以将最小的距离作为两个query的trade_vector之间的距离,即两个query对应的行业的行业相似度。
步骤302,获取用户当前输入的搜索式。
在本实施例中,可以获取用户当前输入的搜索式。例如,用户当前在终端输入搜索式之后,可以接收到用户使用的终端发送的包含该当前输入的搜索式的搜索请求,从而,可以获取到用户当前输入的搜索式。
步骤303,确定对应的行业与用户当前输入的搜索式对应的行业相似的搜索式。
在本实施例中,在通过步骤302获取用户当前输入的搜索式之后,由于预先在步骤301中获取到的多个搜索式例如海量的日均pv大于阈值的搜索式中包含该当前输入的搜索式,在步骤301中已经预先计算了该当前输入的搜索式对应的行业与其他搜索式对应的行业的行业相似度,可以根据预先计算的该搜索式对应的行业与其他搜索式对应的行业的行业相似度,查找出对应的行业与该当前输入的搜索式对应的行业的行业相似度大于行业相似度阈值的搜索式,即查找出对应的行业与当前输入的搜索式对应的行业相似的搜索式。
步骤304,将用户当前输入的搜索式和对应的行业相似的搜索式对应的推送信息推送给用户。
在本实施例中,在通过步骤303确定出与用户当前输入的搜索式对应的行业相似的搜索式之后,可以将用户当前输入的搜索式对应的推送信息和对应的行业与用户当前输入的搜索式对应的行业相似的搜索式对应的推送信息推送给用户,即通过步骤303查找出与用户当前输入的搜索式对应的行业相似的搜索式,将与用户当前输入的搜索式对应的行业相似的搜索式对应的推送信息(例如商业广告)推送给用户。与用户当前输入的搜索式对应的行业相似的搜索式对应的推送信息可以为用户当前输入的搜索式对应的行业相似的行业的推送信息,因此,可以相当于向用户推送与用户当前输入的搜索式对应的行业相关的行业的推送信息。
请参考图4,其示出了根据本申请的信息推送方法的再一个实施例的流程。该方法可以由服务器例如图1中的服务器101执行,相应地,信息推送装置可以设置于服务器例如图1中的服务器101中。
步骤401,计算多个搜索式之间的语义相似度。
在本实施例中,可以获取多个搜索式,例如获取海量的日均pv大于阈值的搜索式,计算多个搜索式之间的语义相似度。
在本实施例中,可以首先提取出搜索式中的关键词,采用词嵌入模型例如Word2Vec模型将提取出的搜索式中的关键词进行向量表示,得到搜索式的关键词向量。搜索式的关键词向量中每一个分量为一个关键词,每一个关键词对应一个关键词的关键词权重。
在本实施例中,可以使用EMD算法计算搜索式之间的第一语义距离d1。以计算两个搜索式的语义距离为例,采用P和Q表示两个搜索式的关键词向量。P表示为P={<P1,0.4>,<P2,0.3>,<P3,0.3>},P1、P2、P3分别表示一个搜索式中的三个关键词,0.4、0.3、0.3分别表示三个关键词的关键词权重。Q表示为Q={<Q1,0.4>,<Q2,0.6>}。Q1、Q2表示另一个搜索式中的两个关键词,0.4、0.6分别表示两个关键词的关键词权重。可以分别计算两个关键词向量彼此之间的距离,即分别计算P到Q距离和Q到P的距离,然后可以将P到Q距离和Q到P的距离中的的最小值作为两个搜索式的之间的第一语义距离d1。P到Q的距离可以定义为P中所有的关键词的权重乘以该关键词到Q中所有关键词的最优距离的乘积之和。最优距离可以对关键词采用欧式距离或者余弦相似度来计算。
在本实施例中,可以采用加权平均距离法计算搜索式即query之间的第二语义距离d2。
在本实施例中,可以使用带权值的Jaccard距离方法计算搜索式之间的第三语义距离d3。以计算两个搜索式的语义距离为例,两个搜索式的关键词的交集为{t1,t2,…,tk},t1,t2,tk表示两个搜索式共同的第1、2、k个关键词。交集中的关键词在两个搜索式中权重分别为w1k,w2k。则加权后的两个搜索式的Jaccard距离为sum(w1k+w2k)/2,该Jaccard距离可以作为第三语义距离d3。
在本实施例中,可以对计算出的第一语义距离d1,第二语义距离d2,第三语义距离d3等语义距离进行拟合,将拟合结果作为搜索式之间的语义相似度。当距离采用余弦距离时,则距离取值范围为[-1,1],可以归一化到[0,1]。Jaccard距离范围可以为[0,1]。当采用欧氏距离度量时,可以采用(d-min)/(max-min)对距离作尺度变换,其中d表示计算出的欧氏距离,min表示最小的搜索式距离,可以设置为0,max表示最大的搜索式距离。
在本实施例中,可以采用回归分析对计算出的第一语义距离d1,第二语义距离d2,第三语义距离d3等语义距离进行拟合。例如,可以首先标注一部分训练数据,然后用回归方法例如线性回归对训练数据进行训练,利用训练后的模型计算搜索式之间的语义相似度。
在本实施例中,由于距离最终归一化到[0,1],也可以采取最大值、最小值、平均值、中位值等策略对第一语义距离d1,第二语义距离d2,第三语义距离d3等语义距离进行处理,得到搜索式之间的语义相似度。
步骤402,获取用户当前输入的搜索式。
在本实施例中,可以获取用户当前输入的搜索式。例如,用户当前在终端输入搜索式之后,可以接收到用户使用的终端发送的包含该当前输入的搜索式的搜索请求,从而,可以获取到用户当前输入的搜索式。
步骤403,确定与用户当前输入的搜索式语义相似的搜索式。
在本实施例中,在通过步骤402获取用户当前输入的搜索式之后,由于预先在步骤401中获取到的多个搜索式例如海量的日均pv大于阈值的搜索式中包含该当前输入的搜索式,在步骤401中已经预先计算了该当前输入的搜索式与其他搜索式之间的语义相似度,可以根据预先计算的该搜索式与其他搜索式之间的语义相似度,查找出与该当前输入的搜索式的语义相似度大于语义相似度阈值的搜索式。
步骤404,将用户当前输入的搜索式和语义相似搜索式对应的推送信息推送给用户。
在本实施例中,在通过步骤403确定与用户当前输入的搜索式语义相似的搜索式之后,可以将用户当前输入的搜索式对应的推送信息和语义相似搜索式对应的推送信息推送给用户。
请参考图5,其示出了根据本申请的信息推送装置的一个实施例的结构示意图。
如图5所示,信息推送装置包括:获取单元501,确定单元502,推送单元503。其中,获取单元501配置用于获取用户当前输入的搜索式;确定单元502配置用于确定与用户当前输入的搜索式对应的主题相似搜索式,主题相似搜索式满足以下条件中的至少一项:对应的行业与搜索式对应的行业的行业相似度大于行业相似度阈值、与搜索式的语义相似度大于语义相似度阈值;推送单元503配置用于将用户当前输入的搜索式对应的推送信息和主题相似搜索式对应的推送信息推送给用户。
本申请还提供了一种服务器,该服务器可以包括图5所描述的信息推送装置。该服务器可以配置有一个或多个处理器;存储器,用于存储一个或多个程序,一个或多个程序中可以包含用以执行上述实施例中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述实施例中描述的操作。
图6示出了适于用来实现本申请实施例的信息推送方法的服务器的结构示意图。
如图6所示,包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:输入部分606;输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
本申请中的上述各个步骤描述的过程可以被实现为计算机程序。该计算机程序可以承载在计算机可读介质上,该计算机程序包括用于执行流程图所示的方法的指令。该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
本申请还提供了一种计算机可读介质,该计算机可读介质可以是服务器中所包括的;也可以是单独存在,未装配入服务器中。该计算机可读介质承载有一个或者多个程序,当一个或者多个程序被该服务器执行时,使得该服务器:获取用户当前输入的搜索式;确定搜索式对应的主题相似搜索式,主题相似搜索式满足以下条件中的至少一项:对应的行业与搜索式对应的行业的行业相似度大于行业相似度阈值、与搜索式的语义相似度大于语义相似度阈值;将搜索式对应的推送信息和主题相似搜索式对应的推送信息推送给用户。
需要说明的是,上述计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包括或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以为多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包括的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离发明构思的情况下,由上述技术特征或其等同特征进行任意组合合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种信息推送方法,其特征在于,所述方法包括:
获取用户当前输入的搜索式;
确定与用户当前输入的搜索式对应的主题相似搜索式,其中,主题相似搜索式满足以下条件中的至少一项:对应的行业与所述搜索式对应的行业的行业相似度大于行业相似度阈值、与所述搜索式的语义相似度大于语义相似度阈值;
将用户当前输入的搜索式对应的推送信息和主题相似搜索式对应的推送信息推送给所述用户。
2.根据权利要求1所述的方法,其特征在于,在获取用户当前输入的搜索式之前,所述方法还包括:
获取多个搜索式;
分别确定每一个所述搜索式对应的搜索结果所属的行业,生成所述搜索式的初始行业向量,其中,初始行业向量中的每一个分量为一个行业标识。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述多个搜索式中每一个搜索式的初始行业向量作为每一个搜索式的当前行业向量;
对每一个搜索式的当前行业向量执行以下行业向量计算操作:
获取所述搜索式对应的多个标题,以及分别计算多个标题中每一个标题的行业向量中每一个行业标识的标题点击量,其中,标题的行业向量中包含标题对应的每一个搜索式的当前行业向量中的行业标识,标题点击量为利用行业标识对应的每一个搜索式搜索时标题的点击量之和;
基于每一个标题的行业向量中每一个行业标识的标题点击量,分别确定每一个标题的行业向量中的每一个行业标识的标题行业权重;
分别确定每一个标题的标题权重;
分别确定每一个标题的行业向量中每一个行业标识的行业权重,
基于每一个标题的行业向量中每一个行业标识的行业权重,得到重新计算后的搜索式的行业向量,其中,重新计算后的搜索式的行业向量包含多个分量,每一个分量为一个多个标题的行业向量中的行业标识,每一个行业标识对应一个行业权重,所述行业权重为行业标识对应的每一个标题的标题权重分别与所述标题的行业向量中所述行业标识的标题行业权重相乘得到的乘积之和;
判断重新计算后的搜索式的行业向量是否收敛;
若是,将重新计算后的搜索式的行业向量作为搜索式的行业向量;
若否,将重新计算后的搜索式的行业向量作为搜索式的当前行业向量,再次执行所述行业向量计算操作。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定所述多个搜索式中包含同一行业标识的搜索式的行业向量,计算所述行业标识到多个搜索式的转移概率;
将所述转移概率分别与多个搜索式中每一个搜索式的行业向量中的其他行业标识的行业权重相乘,得到所述行业标识到其他行业标识的转移概率。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对多个搜索式中每一个搜索式执行行业相似度计算操作:
分别计算所述搜索式对应的行业向量中的每一个行业标识到其他搜索式对应的行业向量中的行业标识的最大转移概率;
计算所述搜索式对应的行业向量中的每一个行业标识对应的行业权重与对应的最大转移概率的乘积之和,得到搜索式对应的行业向量与其他搜索式对应的行业向量的距离;
分别计算其他搜索式对应的行业向量中的每一个行业标识到所述搜索式对应的行业向量中的行业标识的最大转移概率;
计算其他搜索式对应的行业向量中的每一个行业标识对应的行业权重与对应的最大转移概率的乘积之和,得到其他搜索式对应的行业向量与搜索式对应的行业向量的距离;
确定搜索式对应的行业向量与其他搜索式对应的行业向量的距离和其他搜索式对应的行业向量与搜索式对应的行业向量的距离中最小的距离;
将最小的距离作为所述搜索式对应的行业与其他搜索式的对应的行业的行业相似度。
6.根据权利要求5所述的方法,其特征在于,在获取用户当前输入的搜索式之前,所述方法还包括:
获取多个搜索式;
分别提取多个搜索式中每一搜索式中的关键词,以及采用词嵌入模型计算关键词的关键词权重,得到每一个搜索式对应的关键词向量,其中,关键词向量中每一个分量为一个关键词,每一个关键词对应一个关键词权重。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对多个搜索式中每一个搜索式执行语义相似度计算操作:
计算搜索式的关键词向量中的每一个关键词的关键词权重与对应的最小关键词距离的乘积之和,得到搜索式对应的关键词向量与其他搜索式的关键词向量的距离,关键词距离为所述搜索式的关键词向量中的关键词与其他搜索式的关键词向量中的关键词在语义上的距离;
计算其他搜索式对应的关键词向量中的每一个关键词的关键词权重与对应的最小关键词距离的乘积之和,得到其他搜索式的关键词向量与搜索式对应的关键词向量的距离;
将搜索式的搜索词向量与其他搜索式的搜索词向量的距离和其他搜索式的搜索词向量与搜索式的搜索词向量的距离中较小的距离作为所述搜索式与其他搜索式的第一语义距离;
采用预设语义相似度计算方式计算所述搜索式和其他搜索式的语义距离,以及将所述语义距离作为第二语义距离;
将所述搜索式和其他搜索式对应的关键词向量中相同的关键词的关键词权重的均值作为第三语义距离;
采用预设拟合方式对第一语义距离、第二语义距离和第三语义距离进行拟合,得到所述搜索式与其他搜索式的语义相似度。
8.一种信息推送装置,其特征在于,所述装置包括:
获取单元,配置用于获取用户当前输入的搜索式;
确定单元,配置用于确定与用户当前输入的搜索式对应的主题相似搜索式,主题相似搜索式满足以下条件中的至少一项:对应的行业与所述搜索式对应的行业的行业相似度大于行业相似度阈值、与所述搜索式的语义相似度大于语义相似度阈值;
推送单元,配置用于将用户当前输入的搜索式对应的推送信息和主题相似搜索式对应的推送信息推送给所述用户。
9.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种可读计算机存储介质,其特征在于,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201710206964.5A 2017-03-31 2017-03-31 信息推送方法和装置 Active CN108664508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710206964.5A CN108664508B (zh) 2017-03-31 2017-03-31 信息推送方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710206964.5A CN108664508B (zh) 2017-03-31 2017-03-31 信息推送方法和装置

Publications (2)

Publication Number Publication Date
CN108664508A true CN108664508A (zh) 2018-10-16
CN108664508B CN108664508B (zh) 2021-12-24

Family

ID=63786988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710206964.5A Active CN108664508B (zh) 2017-03-31 2017-03-31 信息推送方法和装置

Country Status (1)

Country Link
CN (1) CN108664508B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521248A (zh) * 2011-11-14 2012-06-27 北京亿赞普网络技术有限公司 一种网络用户分类方法及其装置
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN103092877A (zh) * 2011-11-04 2013-05-08 百度在线网络技术(北京)有限公司 一种关键词推荐方法和装置
CN103186600A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网舆情的专题分析方法和装置
CN103970748A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种相关关键词推荐方法和装置
CN104216931A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 实时推荐系统及方法
CN105159937A (zh) * 2015-08-03 2015-12-16 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN105260459A (zh) * 2015-10-13 2016-01-20 百度在线网络技术(北京)有限公司 搜索方法和装置
CN105574091A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息推送方法及装置
US20160337461A1 (en) * 2013-06-07 2016-11-17 Apple Inc. Managing Notifications Across Multiple Devices
CN106254525A (zh) * 2016-09-12 2016-12-21 中国银联股份有限公司 一种信息推送方法和系统
CN106372226A (zh) * 2016-09-07 2017-02-01 知识产权出版社有限责任公司 信息检索装置及方法
CN106547887A (zh) * 2016-10-27 2017-03-29 北京百度网讯科技有限公司 基于人工智能的搜索推荐方法和装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092877A (zh) * 2011-11-04 2013-05-08 百度在线网络技术(北京)有限公司 一种关键词推荐方法和装置
CN102521248A (zh) * 2011-11-14 2012-06-27 北京亿赞普网络技术有限公司 一种网络用户分类方法及其装置
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN103186600A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网舆情的专题分析方法和装置
CN103970748A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种相关关键词推荐方法和装置
CN104216931A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 实时推荐系统及方法
US20160337461A1 (en) * 2013-06-07 2016-11-17 Apple Inc. Managing Notifications Across Multiple Devices
CN105159937A (zh) * 2015-08-03 2015-12-16 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN105260459A (zh) * 2015-10-13 2016-01-20 百度在线网络技术(北京)有限公司 搜索方法和装置
CN105574091A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息推送方法及装置
CN106372226A (zh) * 2016-09-07 2017-02-01 知识产权出版社有限责任公司 信息检索装置及方法
CN106254525A (zh) * 2016-09-12 2016-12-21 中国银联股份有限公司 一种信息推送方法和系统
CN106547887A (zh) * 2016-10-27 2017-03-29 北京百度网讯科技有限公司 基于人工智能的搜索推荐方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐震: "主题检索系统的优化技术研究", 《情报理论与实践》 *

Also Published As

Publication number Publication date
CN108664508B (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
JP5513624B2 (ja) クエリの一般属性に基づく情報の検索
CN101201843B (zh) 用于搜索的方法和计算机系统
CN110457581A (zh) 一种资讯推荐方法、装置、电子设备及存储介质
CN106649774A (zh) 基于人工智能的对象推送方法及装置
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN110377804A (zh) 培训课程数据的推送方法、装置、系统及存储介质
CN109062914B (zh) 用户推荐方法和装置,存储介质和服务器
CN104331411B (zh) 推荐项目的方法和装置
CN106407280A (zh) 查询目标匹配方法及装置
CN106874492A (zh) 搜索方法和装置
CN103562916A (zh) 混合与迭代关键词以及类别搜索技术
CN106504011A (zh) 一种业务对象的展示方法和装置
US20090077081A1 (en) Attribute-Based Item Similarity Using Collaborative Filtering Techniques
CN109657116A (zh) 一种舆情搜索方法、搜索装置、存储介质和终端设备
CN107885888A (zh) 信息处理方法及装置、终端设备以及计算机可读存储介质
CN110473073A (zh) 线性加权推荐的方法及装置
CN109785072A (zh) 用于生成信息的方法和装置
CN115129883B (zh) 实体链接方法和装置、存储介质及电子设备
CN109819002A (zh) 数据推送方法和装置、存储介质及电子装置
Lopes et al. Recommending tripleset interlinking through a social network approach
CN110516033A (zh) 一种计算用户偏好的方法和装置
CN110555747A (zh) 确定目标用户的方法和装置
CN113744002A (zh) 推送信息的方法、装置、设备和计算机可读介质
CN109471969A (zh) 一种应用搜索方法、装置及设备
CN108664508A (zh) 信息推送方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant