CN105574091B - 信息推送方法及装置 - Google Patents

信息推送方法及装置 Download PDF

Info

Publication number
CN105574091B
CN105574091B CN201510917972.1A CN201510917972A CN105574091B CN 105574091 B CN105574091 B CN 105574091B CN 201510917972 A CN201510917972 A CN 201510917972A CN 105574091 B CN105574091 B CN 105574091B
Authority
CN
China
Prior art keywords
search
described search
words
target word
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510917972.1A
Other languages
English (en)
Other versions
CN105574091A (zh
Inventor
赵钕森
刘水
张立邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510917972.1A priority Critical patent/CN105574091B/zh
Publication of CN105574091A publication Critical patent/CN105574091A/zh
Application granted granted Critical
Publication of CN105574091B publication Critical patent/CN105574091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本申请公开了信息推送方法及装置。所述方法的一具体实施方式包括:采集终端的信息搜索数据,所述信息搜索数据包括终端上设定时间内、与搜索应用相关的数据;对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合,所述搜索特征词为输入到所述搜索应用中的搜索词,所述搜索目标词为从所述搜索特征词通过所述搜索应用得到的搜索数据中提取出的关键词;通过对所述搜索特征词集合内的搜索特征词与搜索目标词集合内的搜索目标词进行匹配来确定匹配关系;根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,所述推送信息用于对所述搜索目标词进行解释说明。该实施方式提高了推送信息的准确性和实时性。

Description

信息推送方法及装置
技术领域
本申请涉及信息搜索技术领域,具体涉及信息获取技术领域,尤其涉及信息推送方法及装置。
背景技术
随着网络技术的发展,各种类型的信息都可以通过网络进行查询。通过网络使得用户获取信息更加便利。
通常情况下,用户首先在网络搜索页面输入某个搜索词,网络搜索引擎根据搜索词将相关的信息检索出来并显示在页面上。但这种搜索方式往往精度较低,需要用户进一步的检索才能得到搜索词对应的更全面的信息。对于某些随时间发生变化的信息来说,只有在用户进行查询才能了解到最新的信息,获取到的信息的实时性不高;并且用户在进行搜索时的方式或搜索词不同可能导致不同的搜索准确度。
发明内容
本申请提供了信息推送方法及装置,以解决背景技术中提到的问题。
一方面,本申请提供了一种信息推送方法,所述方法包括:采集终端的信息搜索数据,所述信息搜索数据包括终端上设定时间内、与搜索应用相关的数据;对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合,所述搜索特征词为输入到所述搜索应用中的搜索词,所述搜索目标词为从所述搜索特征词通过所述搜索应用得到的搜索数据中提取出的关键词;从所述搜索特征词集合内提取搜索特征词,通过所述搜索目标词集合内、与所述搜索特征词具有对应关系的搜索目标词构成初始目标词集合,根据所述搜索特征词和搜索目标词在所述信息搜索数据中的数量和先后顺序确定所述搜索特征词和搜索目标词之间的正向条件概率和反向条件概率,其中,所述正向条件概率为通过搜索特征词得到搜索目标词的条件概率,所述反向条件概率为通过搜索目标词得到搜索特征词的条件概率,根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的匹配关系;根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,所述推送信息用于对所述搜索目标词进行解释说明。
第二方面,本申请提供了一种信息推送装置,所述装置包括:数据采集单元,用于采集终端的信息搜索数据,所述信息搜索数据包括终端上设定时间内、与搜索应用相关的数据;信息提取单元,用于对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合,所述搜索特征词为输入到所述搜索应用中的搜索词,所述搜索目标词为从所述搜索特征词通过所述搜索应用得到的搜索数据中提取出的关键词;匹配关系获取单元,所述匹配关系获取单元包括:搜索特征词提取子单元,用于从所述搜索特征词集合内提取搜索特征词,初始目标词集合获取子单元,用于通过所述搜索目标词集合内全部与所述搜索特征词具有对应关系的搜索目标词构成初始目标词集合,条件概率计算子单元,用于根据所述搜索特征词和搜索目标词在所述信息搜索数据中的数量和先后顺序确定所述搜索特征词和搜索目标词之间的正向条件概率和反向条件概率,其中,所述正向条件概率为通过搜索特征词得到搜索目标词的条件概率,所述反向条件概率为通过搜索目标词得到搜索特征词的条件概率,匹配关系获取子单元,用于根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的匹配关系;推送单元,用于根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,所述推送信息用于对所述搜索目标词进行解释说明。
本申请提供的信息推送方法及装置,首先采集终端的信息搜索数据;然后对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合;之后通过所述搜索特征词集合内的搜索特征词与搜索目标词集合内的搜索目标词进行匹配来确定匹配关系,提高了信息搜索的准确性;最后根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,提高了推送信息的实时性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的可以应用于其中的示例性系统架构图;
图2是根据本申请的信息推送方法的一个实施例流程图;
图3是根据本申请的信息推送方法的应用场景的一个示意图;
图4是根据本申请的信息推送装置的一个实施例结构示意图;
图5是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息推送方法或信息推送装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种手机搜索应用和网络应用,例如信息搜索程序和浏览器等。
终端设备101、102、103可以是具有显示屏并且支持信息搜索程序和浏览器的各种电子设备,包括但不限于智能手机、平板电脑等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的信息搜索程序和浏览器提供支持的信息推送服务器。信息推送服务器可以对信息搜索程序和浏览器的信息搜索数据进行分析处理,并将处理结果(例如推送信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的信息推送方法一般由服务器105执行,相应地,信息推送装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2示出了信息推送方法的一个实施例流程图200,本实施例方法包括以下步骤:
步骤201,采集终端的信息搜索数据,所述信息搜索数据包括终端上设定时间内、与搜索应用相关的数据。
在本实施例中,信息推送方法运行于其上的电子设备(例如图1所示的终端设备101、102、103)可以通过有线连接方式或者无线连接方式与信息推送服务器(例如图1的服务器105)进行数据传递,实现信息推送服务器对终端设备的信息推送。
通常,用户会通过终端上的信息搜索程序进行信息搜索,例如,对某商品、地址或图书的搜索。因此,通过采集终端上搜索应用等在设定时间内的搜索内容,可以得到信息搜索数据,即信息搜索数据包含了与搜索应用中相关的数据,通常包括搜索词和对应的搜索数据。
步骤202,对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合,所述搜索特征词为输入到所述搜索应用中的搜索词,所述搜索目标词为从所述搜索特征词通过所述搜索应用得到的搜索数据中提取出的关键词。
用户通过终端上的信息搜索程序进行信息搜索的过程中,既有用户用于搜索的搜索特征词(搜索应用的搜索词),也有对应搜索特征词的搜索目标词(即从对应搜索词的搜索数据中提取出的关键词)。因此,对信息搜索数据进行信息提取,可以得到搜索特征词和对应搜索特征词的搜索目标词,然后将全部的搜索特征词组合成搜索特征词集合,将全部的搜索目标词组合成搜索目标词集合。
步骤203,通过对所述搜索特征词集合内的搜索特征词与搜索目标词集合内的搜索目标词进行匹配来确定匹配关系。
通常,通过信息搜索程序对某一搜索特征词进行搜索时,会搜索到多个可能的搜索目标词。而用户还可能基于该搜索目标词进行进一步的搜索,从而得到对应搜索特征词的二级搜索目标词,此时,该搜索目标词则在搜索应用中成为“搜索特征词”,二级搜索目标词成为“搜索目标词”,即,“搜索特征词”和“搜索目标词”是根据搜索应用的搜索关系确定的,并且,每个搜索目标词与搜索特征词之间的相关性不同;同时,用户还可能同时对多个搜索特征词进行搜索。可见,信息搜索数据里包含了多个搜索特征词和多个搜索目标词,并且搜索特征词和搜索目标词出现的先后顺序及对应关系很复杂,因此,有必要确定搜索特征词与每个搜索目标词之间的匹配关系。
在本实施例的一些可选的实现方式中,通过对所述搜索特征词集合内的搜索特征词与搜索目标词集合内的搜索目标词进行匹配来确定匹配关系可以通过以下步骤实现:
第一步,从所述搜索特征词集合内提取搜索特征词。
要确定搜索特征词与搜索目标词之间的匹配关系,首先要从搜索特征集合内提取一个搜索特征词,提取的方式可以是按随机的方式或按字符排序的方式,还可以是其他提取方式。
第二步,通过所述搜索目标词集合内、与所述搜索特征词具有对应关系的搜索目标词构成初始目标词集合。
由上述描述可知,一个搜索特征词可能对应多个搜索目标词,并且搜索特征词和搜索目标词出现的先后顺序可能不同,通过搜索特征词的类型或属性等对应关系可以初步确定与搜索特征词对应的搜索目标词,如,搜索特征词为“清肺”、“水果”,搜索到的搜索目标词出现了“梨子”、“枇杷”、“荸荠”和“苹果”,这些搜索目标词的类型和搜索特征词中的“水果”相同,并且都具有“清肺”的功能属性。将这些搜索目标词组合构成初始目标词集合。
第三步,根据所述搜索特征词和搜索目标词在所述信息搜索数据中的数量和先后顺序确定所述搜索特征词和搜索目标词之间的正向条件概率和反向条件概率,其中,所述先后顺序通过搜索特征词或搜索目标词分别作为所述搜索应用的搜索词或关键词来确定,所述正向条件概率为通过搜索特征词得到搜索目标词的条件概率,所述反向条件概率为通过搜索目标词得到搜索特征词的条件概率。
除了上述的对应关系外,还可以通过数理统计的方式来确定搜索特征词与搜索目标词之间的关系。通常,可以统计某一特征词后出现的搜索目标词和该搜索目标词的数量确定搜索特征词和搜索目标词之间的条件概率,即当某一搜索特征词出现后,搜索目标词出现的可能性有多大。由于“搜索特征词”和“搜索目标词”是根据搜索应用的搜索关系确定的,存在某一搜索特征词在某次搜索应用中为搜索词,而在搜索应用的另外搜索中可能为关键词(从搜索数据中提取得到)的情况,因此,需要确定搜索特征词和搜索目标词在信息搜索数据中的先后顺序,以便更精确地了解搜索特征词和搜索目标词之间的关系。本实施例采用正向条件概率和反向条件概率对搜索特征词和搜索目标词之间的关系进行说明。正向条件概率为通过搜索特征词得到搜索目标词的条件概率,即将终端上的搜索应用在某一时间内,搜索应用中输入的搜索词作为搜索特征词,根据搜索词搜索到的关键词作为搜索目标词,在该段时间内,还可能出现其他搜索特征词和搜索目标词,则可以将通过某一搜索特征词得到某一搜索目标词的条件概率作为正向条件概率;同理可以得到反向条件概率(搜索特征词和搜索目标词在搜索应用中与搜索词或关键词的对应关系互换)。
第四步,根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的匹配关系。
初始目标词集合通过类型和属性确定了搜索特征词和搜索目标词之间的对应关系,即初始目标词集合是从搜索特征词和搜索目标词的对应关系(如词性、属性)得到的;正向条件概率和反向条件概率通过先后顺序和数量确定了搜索特征词和搜索目标词之间的对应关系,即正向条件概率和反向条件概率是从数理统计的角度得到的。将正向条件概率、反向条件概率和初始目标词集合结合起来,能够准确地确定搜索特征词和搜索目标词之间的匹配关系。
在本实施例的一些可选的实现方式中,正向条件概率通过如下步骤确定:
第一步,统计所述信息搜索数据中,在所述搜索特征词后出现的所述搜索目标词及所述搜索目标词的数量。
本实现方式通过数理统计的方式获取特征词和目标词之间的对应关系。条件概率是指某一事件(在后事件)在另一事件(在先事件)发生条件下的概率,在本实现方式中,将特征词作为在先事件,目标词作为在后事件,统计特征词后出现的目标词及目标词的数量。
第二步,将所述搜索特征词的数量占全部所述搜索特征词的数量的比值作为第一正向比值。
第三步,将所述搜索目标词的数量占全部所述搜索目标词的数量的比值作为第二正向比值。
由于信息搜索数据有多个搜索特征词和多个搜索目标词,并且搜索特征词和搜索目标词出现的先后顺序可能发生变化。为此,本实现方式将搜索特征词在先,搜索目标词在后的方向设定为正向;反之,将由搜索目标词在先,搜索特征词在后的方向设定为反向。
为了统计每一个搜索目标词的概率,首先要得到该搜索目标词在全部搜索目标词中的比重,本实现方式采用的方法为,通过该搜索目标词的数量与全部搜索目标值的数量的比值作为对应该搜索目标词的正向比值(即第二正向比值)。
第四步,根据所述第一正向比值和第二正向比值得到每个所述搜索目标词相对于所述搜索特征词的正向条件概率,所述正向条件概率为第一正向比值和第二正向比值的乘积,与第一正向比值的比值。
上述步骤得到的正向比值可视为该搜索目标词在全部搜索目标词中的概率,然后通过条件概率公式可以得到在该搜索目标词对应的搜索特征词出现的情况下,该搜索目标词的正向条件概率,即该搜索目标词相对于搜索特征词的正向条件概率。
在本实施例的一些可选的实现方式中,反向条件概率通过如下步骤确定:
第一步,统计所述信息搜索数据中,在所述搜索目标词后出现的所述搜索特征词及所述搜索特征词的数量;
第二步,将所述搜索目标词的数量占全部所述搜索目标词的数量的比值作为第一反向比值。
第三步,将所述搜索特征词的数量占全部所述搜索特征词的数量的比值作为第二反向比值。
第四步,根据所述第一反向比值和第二反向比值得到每个所述搜索特征词相对于所述搜索目标词的反向条件概率,所述反向条件概率为第一反向比值和第二反向比值的乘积,与第一反向比值的比值。
本实现方式得到反向条件概率的过程与上一实现方式得到正向条件概率的过程类似,此处不再赘述。
在本实施例的一些可选的实现方式中,根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的匹配关系可以包括以下步骤:
第一步,通过所述搜索特征集合和搜索目标集合构建二部图。
二部图又称为二分图,是指一条连线的两个端点分别属于两个不相交的集合。二部图的有关概念属于现有技术,此处不再一一赘述。本实现方式中,将特征词组成的搜索特征集合作为第一集合,将目标词组成的搜索目标集合作为第二集合,并且第一集合和第二集合不相交。
第二步,根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的权重。
信息搜索数据中包括多个搜索特征词和多个搜索目标词,搜索特征词和搜索目标词之间的对应关系是相对的,不是绝对的,即,某些搜索特征词只与特定的一个或多个搜索目标词存在对应关系,反之,某些搜索目标词至于特定的一个或多个搜索特征词存在对应关系,还可能存在和某一搜索特征词对应的搜索目标词不在该搜索特征词对应的初始目标词集合内的情况(即该搜索目标词与其他搜索特征词对应,同时也与该搜索特征词对应,但在确定该搜索特征词对应的搜索目标词时没有关联到该搜索目标词)。因此,需要分情况考虑搜索特征词和搜索目标词之间的权重,本实现方式的方法为:若所述搜索特征词和搜索目标词之间包括正向条件概率和反向条件概率,并且所述搜索目标词在所述初始目标词集合内,则将所述搜索特征词和搜索目标词之间的权重设置为第一权重;若所述搜索特征词和搜索目标词之间包括正向条件概率或反向条件概率,并且所述搜索目标词在所述初始目标词集合内,则将所述搜索特征词和搜索目标词之间的权重设置为第二权重;若所述搜索特征词和搜索目标词之间包括正向条件概率或反向条件概率,并且所述搜索目标词不在所述初始目标词集合内,则将所述搜索特征词和搜索目标词之间的权重设置为第三权重;若所述搜索特征词和搜索目标词之间不包括正向条件概率和反向条件概率,并且所述搜索目标词不在所述初始目标词集合内,则将所述搜索特征词和搜索目标词之间的权重设置为零。
由上述描述可知,第一权重、第二权重和第三权重依次递减,第一权重、第二权重和第三权重的具体取值视实际情况而定。
第三步,根据所述权重对所述二部图进行图聚类得到频繁子图。
频繁子图是一种图结构,频繁子图中点与点之间的联系和权重较大,而与频繁子图之外的点的联系和权重较低,形象的描述为:一个紧密的子图网络。
将二部图中的元素按权重进行区分,再结合图聚类就可以得到频繁子图。图聚类的方法有多种,包括图等式法等,此处不再一一赘述。
第四步,根据频繁子图确定所述搜索特征词和搜索目标词之间的匹配关系。
得到频繁子图后,通过搜索特征词能找到最相关的搜索目标词,由于在得到频繁子图的过程中采用了正向条件概率和反向条件概率,这就使得频繁子图中的匹配关系更加准确。
步骤204,根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,所述推送信息用于对所述搜索目标词进行解释说明。
得到频繁子图后,就可以将目标词对应的推送信息实时、有效地推送给终端。推送信息是对目标词的详细说明,包含了对目标词多种属性的解释,如目标词的概念性解释和在具体领域内的具体含义。
例如,从终端上采集的信息搜索数据包括:租房、海淀区、上地、A小区、x室x厅、x室x厅、B小区、x室x厅、x室x厅、x室x厅、x室x厅。经信息提取可以得到搜索特征集合为{租房;海淀区;上地},搜索目标集合为{A小区,x室x厅、x室x厅;B小区,x室x厅、x室x厅、x室x厅、x室x厅}。考虑各个特征词和目标词之间的先后顺序和数量,再确定特征词和目标词之间的匹配关系得到频繁子图如图3所示。由图3可知,搜索特征集合中的特征词“租房”与搜索目标集合中的目标词“x室x厅”的匹配度最高,即频繁子图包括“租房”和“x室x厅”。
本申请提供的信息推送方法及装置,首先采集终端的信息搜索数据;然后对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合;之后通过所述搜索特征词集合内的搜索特征词与搜索目标词集合内的搜索目标词进行匹配来确定匹配关系,提高了信息搜索的准确性;最后根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,提高了推送信息的实时性。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种信息推送装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的信息推送装置400包括数据采集单元401、信息提取单元402、匹配关系获取单元403和推送单元404。其中,数据采集单元401用于采集终端的信息搜索数据,所述信息搜索数据包括终端上设定时间内、与搜索应用相关的数据;信息提取单元402用于对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合,所述搜索特征词为输入到所述搜索应用中的搜索词,所述搜索目标词为从所述搜索特征词通过所述搜索应用得到的搜索数据中提取出的关键词;匹配关系获取单元403用于通过对所述搜索特征词集合内的搜索特征词与搜索目标词集合内的搜索目标词进行匹配来确定匹配关系;推送单元404用于根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,所述推送信息用于对所述搜索目标词进行解释说明。
在本实施例的一些可选的实现方式中,所述匹配关系获取单元403包括:搜索特征词提取子单元(图中未示出)、初始目标词集合获取子单元(图中未示出)、条件概率计算子单元(图中未示出)、和匹配关系获取子单元(图中未示出)。其中,特征词提取子单元用于从所述搜索特征词集合内提取搜索特征词;初始目标词集合获取子单元用于通过所述搜索目标词集合内全部与所述搜索特征词具有对应关系的搜索目标词构成初始目标词集合;条件概率计算子单元用于根据所述搜索特征词和搜索目标词在所述信息搜索数据中的数量和先后顺序确定所述搜索特征词和搜索目标词之间的正向条件概率和反向条件概率,其中,所述先后顺序通过搜索特征词或搜索目标词分别作为所述搜索应用的搜索词或关键词来确定,所述正向条件概率为通过搜索特征词得到搜索目标词的条件概率,所述反向条件概率为通过搜索目标词得到搜索特征词的条件概率;匹配关系获取子单元用于根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的匹配关系。
在本实施例的一些可选的实现方式中,所述条件概率计算子单元包括正向条件概率计算模块,用于计算正向条件概率,包括:搜索目标词统计子模块(图中未示出)、第一正向比值计算子模块(图中未示出)、第二正向比值计算子模块(图中未示出)和正向条件概率计算子模块(图中未示出)。其中,搜索目标词统计子模块用于统计所述信息搜索数据中,在所述搜索特征词后出现的所述搜索目标词及所述搜索目标词的数量;第一正向比值计算子模块用于将所述搜索特征词的数量占全部所述搜索特征词的数量的比值作为第一正向比值;第二正向比值计算子模块用于将所述搜索目标词的数量占全部所述搜索目标词的数量的比值作为第二正向比值;正向条件概率计算子模块用于根据所述第一正向比值和第二正向比值得到每个所述搜索目标词相对于所述搜索特征词的正向条件概率,所述正向条件概率为第一正向比值和第二正向比值的乘积,与第一正向比值的比值。
在本实施例的一些可选的实现方式中,所述条件概率计算子单元包括反向条件概率计算模块,用于计算反向条件概率,包括:
搜索特征词统计子模块(图中未示出)、第一反向比值计算子模块(图中未示出)、第二反向比值计算子模块(图中未示出)和反向条件概率计算子模块(图中未示出)。其中,搜索特征词统计子模块用于统计所述信息搜索数据中,在所述搜索目标词后出现的所述搜索特征词及所述搜索特征词的数量;第一反向比值计算子模块用于将所述搜索目标词的数量占全部所述搜索目标词的数量的比值作为第一反向比值;第二反向比值计算子模块用于将所述搜索特征词的数量占全部所述搜索特征词的数量的比值作为第二反向比值;反向条件概率计算子模块用于根据所述第一反向比值和第二反向比值得到每个所述搜索特征词相对于所述搜索目标词的反向条件概率,所述反向条件概率为第一反向比值和第二反向比值的乘积,与第一反向比值的比值。。
在本实施例的一些可选的实现方式中,所述匹配关系获取子单元包括:二部图构建模块(图中未示出)、权重获取模块(图中未示出)、频繁子图获取模块(图中未示出)和匹配关系获取模块(图中未示出)。其中,二部图构建模块用于通过所述搜索特征集合和搜索目标集合构建二部图;权重获取模块用于根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的权重;频繁子图获取模块用于根据所述权重对所述二部图进行图聚类得到频繁子图;匹配关系获取模块用于根据频繁子图确定所述搜索特征词和搜索目标词之间的匹配关系。
在本实施例的一些可选的实现方式中,所述权重获取模块包括权重获取子模块,用于在所述搜索特征词和搜索目标词之间包括正向条件概率和反向条件概率,并且所述搜索目标词在所述初始目标词集合内时,将所述搜索特征词和搜索目标词之间的权重设置为第一权重,在所述搜索特征词和搜索目标词之间包括正向条件概率或反向条件概率,并且所述搜索目标词在所述初始目标词集合内时,将所述搜索特征词和搜索目标词之间的权重设置为第二权重,在所述搜索特征词和搜索目标词之间包括正向条件概率或反向条件概率,并且所述搜索目标词不在所述初始目标词集合内时,将所述搜索特征词和搜索目标词之间的权重设置为第三权重,在所述搜索特征词和搜索目标词之间不包括正向条件概率和反向条件概率,并且所述搜索目标词不在所述初始目标词集合内时,将所述搜索特征词和搜索目标词之间的权重设置为零。
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括数据采集单元、信息提取单元、匹配关系获取单元和推送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,推送单元还可以被描述为“向终端推送信息的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:采集终端的信息搜索数据,所述信息搜索数据包括终端上设定时间内、与搜索应用相关的数据;对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合,所述搜索特征词为输入到所述搜索应用中的搜索词,所述搜索目标词为从所述搜索特征词通过所述搜索应用得到的搜索数据中提取出的关键词;通过对所述搜索特征词集合内的搜索特征词与搜索目标词集合内的搜索目标词进行匹配来确定匹配关系;根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,所述推送信息用于对所述搜索目标词进行解释说明。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种信息推送方法,其特征在于,所述方法包括:
采集终端的信息搜索数据,所述信息搜索数据包括终端上设定时间内、与搜索应用相关的数据;
对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合,所述搜索特征词为输入到所述搜索应用中的搜索词,所述搜索目标词为从所述搜索特征词通过所述搜索应用得到的搜索数据中提取出的关键词;
从所述搜索特征词集合内提取搜索特征词,通过所述搜索目标词集合内、与所述搜索特征词具有对应关系的搜索目标词构成初始目标词集合,根据所述搜索特征词和搜索目标词在所述信息搜索数据中的数量和先后顺序确定所述搜索特征词和搜索目标词之间的正向条件概率和反向条件概率,其中,所述正向条件概率为通过搜索特征词得到搜索目标词的条件概率,所述反向条件概率为通过搜索目标词得到搜索特征词的条件概率,根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的匹配关系;
根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,所述推送信息用于对所述搜索目标词进行解释说明。
2.根据权利要求1所述的方法,其特征在于,所述正向条件概率通过如下步骤确定:
统计所述信息搜索数据中,在所述搜索特征词后出现的所述搜索目标词及所述搜索目标词的数量;
将所述搜索特征词的数量占全部所述搜索特征词的数量的比值作为第一正向比值;
将所述搜索目标词的数量占全部所述搜索目标词的数量的比值作为第二正向比值;
根据所述第一正向比值和第二正向比值得到每个所述搜索目标词相对于所述搜索特征词的正向条件概率,所述正向条件概率为第一正向比值和第二正向比值的乘积,与第一正向比值的比值。
3.根据权利要求1所述的方法,其特征在于,所述反向条件概率通过如下步骤确定:
统计所述信息搜索数据中,在所述搜索目标词后出现的所述搜索特征词及所述搜索特征词的数量;
将所述搜索目标词的数量占全部所述搜索目标词的数量的比值作为第一反向比值;
将所述搜索特征词的数量占全部所述搜索特征词的数量的比值作为第二反向比值;
根据所述第一反向比值和第二反向比值得到每个所述搜索特征词相对于所述搜索目标词的反向条件概率,所述反向条件概率为第一反向比值和第二反向比值的乘积,与第一反向比值的比值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的匹配关系包括:
通过所述搜索特征集合和搜索目标集合构建二部图;
根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的权重;
根据所述权重对所述二部图进行图聚类得到频繁子图;
根据频繁子图确定所述搜索特征词和搜索目标词之间的匹配关系。
5.根据权利要求4所述的方法,其特征在于,所述根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的权重包括:
若所述搜索特征词和搜索目标词之间包括正向条件概率和反向条件概率,并且所述搜索目标词在所述初始目标词集合内,则将所述搜索特征词和搜索目标词之间的权重设置为第一权重;
若所述搜索特征词和搜索目标词之间包括正向条件概率或反向条件概率,并且所述搜索目标词在所述初始目标词集合内,则将所述搜索特征词和搜索目标词之间的权重设置为第二权重;
若所述搜索特征词和搜索目标词之间包括正向条件概率或反向条件概率,并且所述搜索目标词不在所述初始目标词集合内,则将所述搜索特征词和搜索目标词之间的权重设置为第三权重;
若所述搜索特征词和搜索目标词之间不包括正向条件概率和反向条件概率,并且所述搜索目标词不在所述初始目标词集合内,则将所述搜索特征词和搜索目标词之间的权重设置为零。
6.一种信息推送装置,其特征在于,所述装置包括:
数据采集单元,用于采集终端的信息搜索数据,所述信息搜索数据包括终端上设定时间内、与搜索应用相关的数据;
信息提取单元,用于对所述信息搜索数据进行信息提取得到搜索特征词集合和搜索目标词集合,所述搜索特征词为输入到所述搜索应用中的搜索词,所述搜索目标词为从所述搜索特征词通过所述搜索应用得到的搜索数据中提取出的关键词;
匹配关系获取单元,所述匹配关系获取单元包括:搜索特征词提取子单元,用于从所述搜索特征词集合内提取搜索特征词,初始目标词集合获取子单元,用于通过所述搜索目标词集合内全部与所述搜索特征词具有对应关系的搜索目标词构成初始目标词集合,条件概率计算子单元,用于根据所述搜索特征词和搜索目标词在所述信息搜索数据中的数量和先后顺序确定所述搜索特征词和搜索目标词之间的正向条件概率和反向条件概率,其中,所述正向条件概率为通过搜索特征词得到搜索目标词的条件概率,所述反向条件概率为通过搜索目标词得到搜索特征词的条件概率,匹配关系获取子单元,用于根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的匹配关系;
推送单元,用于根据所述匹配关系将与所述搜索特征词对应的所述搜索目标词的推送信息推送给所述终端,所述推送信息用于对所述搜索目标词进行解释说明。
7.根据权利要求6所述的装置,其特征在于,所述条件概率计算子单元包括正向条件概率计算模块,用于计算正向条件概率,包括:
搜索目标词统计子模块,用于统计所述信息搜索数据中,在所述搜索特征词后出现的所述搜索目标词及所述搜索目标词的数量;
第一正向比值计算子模块,用于将所述搜索特征词的数量占全部所述搜索特征词的数量的比值作为第一正向比值;
第二正向比值计算子模块,用于将所述搜索目标词的数量占全部所述搜索目标词的数量的比值作为第二正向比值;
正向条件概率计算子模块,用于根据所述第一正向比值和第二正向比值得到每个所述搜索目标词相对于所述搜索特征词的正向条件概率,所述正向条件概率为第一正向比值和第二正向比值的乘积,与第一正向比值的比值。
8.根据权利要求6所述的装置,其特征在于,所述条件概率计算子单元包括反向条件概率计算模块,用于计算反向条件概率,包括:
搜索特征词统计子模块,用于统计所述信息搜索数据中,在所述搜索目标词后出现的所述搜索特征词及所述搜索特征词的数量;
第一反向比值计算子模块,用于将所述搜索目标词的数量占全部所述搜索目标词的数量的比值作为第一反向比值;
第二反向比值计算子模块,用于将所述搜索特征词的数量占全部所述搜索特征词的数量的比值作为第二反向比值;
反向条件概率计算子模块,用于根据所述第一反向比值和第二反向比值得到每个所述搜索特征词相对于所述搜索目标词的反向条件概率,所述反向条件概率为第一反向比值和第二反向比值的乘积,与第一反向比值的比值。
9.根据权利要求6所述的装置,其特征在于,所述匹配关系获取子单元包括:
二部图构建模块,用于通过所述搜索特征集合和搜索目标集合构建二部图;
权重获取模块,用于根据所述正向条件概率、反向条件概率和初始目标词集合确定所述搜索特征词和搜索目标词之间的权重;
频繁子图获取模块,用于根据所述权重对所述二部图进行图聚类得到频繁子图;
匹配关系获取模块,用于根据频繁子图确定所述搜索特征词和搜索目标词之间的匹配关系。
10.根据权利要求9所述的装置,其特征在于,所述权重获取模块包括:
权重获取子模块,用于在所述搜索特征词和搜索目标词之间包括正向条件概率和反向条件概率,并且所述搜索目标词在所述初始目标词集合内时,将所述搜索特征词和搜索目标词之间的权重设置为第一权重,在所述搜索特征词和搜索目标词之间包括正向条件概率或反向条件概率,并且所述搜索目标词在所述初始目标词集合内时,将所述搜索特征词和搜索目标词之间的权重设置为第二权重,在所述搜索特征词和搜索目标词之间包括正向条件概率或反向条件概率,并且所述搜索目标词不在所述初始目标词集合内时,将所述搜索特征词和搜索目标词之间的权重设置为第三权重,在所述搜索特征词和搜索目标词之间不包括正向条件概率和反向条件概率,并且所述搜索目标词不在所述初始目标词集合内时,将所述搜索特征词和搜索目标词之间的权重设置为零。
CN201510917972.1A 2015-12-10 2015-12-10 信息推送方法及装置 Active CN105574091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510917972.1A CN105574091B (zh) 2015-12-10 2015-12-10 信息推送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510917972.1A CN105574091B (zh) 2015-12-10 2015-12-10 信息推送方法及装置

Publications (2)

Publication Number Publication Date
CN105574091A CN105574091A (zh) 2016-05-11
CN105574091B true CN105574091B (zh) 2019-08-02

Family

ID=55884222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510917972.1A Active CN105574091B (zh) 2015-12-10 2015-12-10 信息推送方法及装置

Country Status (1)

Country Link
CN (1) CN105574091B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664508B (zh) * 2017-03-31 2021-12-24 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN109657129B (zh) * 2018-12-26 2023-04-18 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN114969339B (zh) * 2022-05-30 2023-05-12 中电金信软件有限公司 一种文本匹配方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012060526A1 (ko) * 2010-11-02 2012-05-10 한국과학기술정보연구원 질의에 따른 연관정보 제공 장치 및 방법
CN103164521A (zh) * 2013-03-11 2013-06-19 亿赞普(北京)科技有限公司 一种基于用户浏览和搜索行为的关键词计算方法及装置
CN103324631A (zh) * 2012-03-22 2013-09-25 腾讯科技(深圳)有限公司 提供数据搜索的方法及装置
CN104346354A (zh) * 2013-07-29 2015-02-11 阿里巴巴集团控股有限公司 一种提供推荐词的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012060526A1 (ko) * 2010-11-02 2012-05-10 한국과학기술정보연구원 질의에 따른 연관정보 제공 장치 및 방법
CN103324631A (zh) * 2012-03-22 2013-09-25 腾讯科技(深圳)有限公司 提供数据搜索的方法及装置
CN103164521A (zh) * 2013-03-11 2013-06-19 亿赞普(北京)科技有限公司 一种基于用户浏览和搜索行为的关键词计算方法及装置
CN104346354A (zh) * 2013-07-29 2015-02-11 阿里巴巴集团控股有限公司 一种提供推荐词的方法及装置

Also Published As

Publication number Publication date
CN105574091A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN109697629B (zh) 产品数据推送方法及装置、存储介质、计算机设备
US10360257B2 (en) System and method for image annotation
CN107105031A (zh) 信息推送方法和装置
CN105574091B (zh) 信息推送方法及装置
CN105574092B (zh) 信息挖掘方法和装置
CN107609890A (zh) 一种订单跟踪的方法和装置
CN107679119A (zh) 生成品牌衍生词的方法和装置
CN108804327A (zh) 一种自动生成测试数据的方法和装置
CN107943895A (zh) 信息推送方法和装置
CN106603690A (zh) 数据分析装置、数据分析处理系统和数据分析方法
CN106709805B (zh) 一种用户收益数据获取方法及系统
CN112529477A (zh) 信用评估变量筛选方法、装置、计算机设备及存储介质
CN111625567A (zh) 数据模型匹配方法、装置、计算机系统及可读存储介质
CN105488027A (zh) 关键词的推送方法和装置
CN108616413A (zh) 信息校准方法和装置
CN117093619A (zh) 一种规则引擎处理方法、装置、电子设备及存储介质
CN108959289B (zh) 网站类别获取方法和装置
CN115080824A (zh) 目标词的挖掘方法、装置、电子设备及存储介质
CN107798556A (zh) 用于更新状况记录的方法、设备和存储介质
CN108287834A (zh) 用于推送信息的方法、装置及计算设备
CN109542986B (zh) 网络数据的要素归一化方法、装置、设备及存储介质
CN108241699A (zh) 用于推送信息的方法和装置
CN107368597B (zh) 信息输出方法和装置
CN107544685A (zh) 信息推送方法和装置
CN112084408A (zh) 名单数据筛选方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160511

Assignee: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

Assignor: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Contract record no.: X2020990000190

Denomination of invention: Classification-based internet information pushing method and device

Granted publication date: 20190802

License type: Common License

Record date: 20200417

EE01 Entry into force of recordation of patent licensing contract