CN110737823B - 访问意图挖掘方法及装置 - Google Patents
访问意图挖掘方法及装置 Download PDFInfo
- Publication number
- CN110737823B CN110737823B CN201810719792.6A CN201810719792A CN110737823B CN 110737823 B CN110737823 B CN 110737823B CN 201810719792 A CN201810719792 A CN 201810719792A CN 110737823 B CN110737823 B CN 110737823B
- Authority
- CN
- China
- Prior art keywords
- intention
- access
- search
- page address
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明提出一种访问意图挖掘方法及装置,其中方法包括:获取用户在网站上的至少一个访问行为;其中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;根据页面地址和/或检索词,查询预设的意图库,获取页面地址对应的访问意图,和/或,检索词对应的访问意图;意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;根据页面地址对应的访问意图,和/或,检索词对应的访问意图,确定用户的访问意图,从而能够直接根据用户的检索词和/或访问的页面地址,确定用户的访问意图,降低了访问意图挖掘的人工成本,且能够准确确定用户的访问意图,准确确定网站的意图分布,提高了访问意图挖掘的效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种访问意图挖掘方法及装置。
背景技术
目前的访问意图挖掘方法主要为,网站运营人员对每个网页进行主题标注,根据用户访问过的网页的主题来确定用户的访问意图。上述方法中,需要人员对网页进行人工标注,且用户打开的部分网页并不是用户想要浏览的网页,根据网页的主题,不能确定用户的访问意图的强烈程度,从而难以准确确定用户的到访意图,进而难以确定网站的意图分布,降低了访问意图挖掘的效率。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种访问意图挖掘方法,用于解决现有技术中难以准确确定用户的访问意图的问题。
本发明的第二个目的在于提出一种访问意图挖掘装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种访问意图挖掘方法,包括:
获取用户在网站上的至少一个访问行为;所述访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;
根据所述页面地址和/或所述检索词,查询预设的意图库,获取所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图;所述意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图。
进一步的,所述的方法还包括:
获取预设历史时间段内所述用户在所述网站上的检索行为;所述检索行为包括:检索词与目标页面地址的对应关系;所述目标页面地址,为所述用户在页面上输入所述检索词后所打开的页面的地址;
针对所述检索行为,获取所述检索行为中的所有检索词,从所有检索词中提取意图词;
针对每个目标页面地址,获取与所述目标页面地址对应的至少一个检索词,从所述至少一个检索词中提取关键词;
在存在与所述关键词匹配的意图词时,将所述关键词确定为所述目标页面地址对应的访问意图,以及将所述关键词确定为所述至少一个检索词对应的访问意图,生成所述意图库。
进一步的,所述从所有检索词中提取意图词,包括:
针对所有检索词中的每个检索词,获取所述检索词的相关信息;所述信息包括以下信息中的任意一个或者多个:词频、词性、词长度;
根据所述检索词的相关信息,确定所述检索词是否为意图词。
进一步的,所述生成所述意图库之后,还包括:
针对每个检索词与访问意图的对应关系,获取采用所述检索词去搜索与所述访问意图对应的页面地址的用户数量;
对对应的用户数量小于预设数量阈值的对应关系进行删除处理;
针对每个访问意图,获取所述访问意图对应的至少一个检索词;
获取所述至少一个检索词与意图词之间的最大相似度;
在所述至少一个检索词与意图词之间的最大相似度不满足预设相似度条件时,删除所述访问意图与所述至少一个检索词的对应关系。
进一步的,所述生成所述意图库之后,还包括:
获取历史意图库;
针对所述历史意图库中的任意一个检索词与访问意图的历史对应关系,判断所述意图库中是否存在与所述历史对应关系检索词相同,和/或,访问意图相同的对应关系;
若存在与所述历史对应关系检索词相同,且访问意图不同的第一对应关系,则判断所述历史对应关系中的访问意图与所述第一对应关系中的访问意图是否存在包含与被包含关系;
若存在包含与被包含关系,则选择其中一个访问意图作为所述第一对应关系中更新后的访问意图;
若所述意图库中不存在所述第一对应关系,且不存在与所述历史对应关系检索词相同,且访问意图相同的第二对应关系,则将所述历史对应关系添加到所述意图库中。
进一步的,所述根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图,包括:
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,统计各个访问意图的数量;
将对应的数量满足预设意图数量阈值的访问意图,确定为所述用户对所述网站的访问意图。
本发明实施例的访问意图挖掘方法,通过获取用户在网站上的至少一个访问行为;访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;根据页面地址和/或检索词,查询预设的意图库,获取页面地址对应的访问意图,和/或,检索词对应的访问意图;意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;根据页面地址对应的访问意图,和/或,检索词对应的访问意图,确定用户对网站的访问意图,从而能够直接根据用户的检索词和/或访问的页面地址,确定用户的访问意图,不需要对网页提前进行人工主题标注,降低了访问意图挖掘的人工成本,且能够准确确定用户的访问意图,提高了访问意图挖掘的效率。
为达上述目的,本发明第二方面实施例提出了一种访问意图挖掘装置,包括:
获取模块,用于获取用户在网站上的至少一个访问行为;所述访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;
查询模块,用于根据所述页面地址和/或所述检索词,查询预设的意图库,获取所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图;所述意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;
确定模块,用于根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图。
进一步的,所述的装置还包括:提取模块;
所述获取模块,还用于获取预设历史时间段内所述用户在所述网站上的检索行为;所述检索行为包括:检索词与目标页面地址的对应关系;所述目标页面地址,为所述用户在页面上输入所述检索词后所打开的页面的地址;
所述提取模块,用于针对所述检索行为,获取所述检索行为中的所有检索词,从所有检索词中提取意图词;
所述提取模块,还用于针对每个目标页面地址,获取与所述目标页面地址对应的至少一个检索词,从所述至少一个检索词中提取关键词;
所述确定模块,还用于在存在与所述关键词匹配的意图词时,将所述关键词确定为所述目标页面地址对应的访问意图,以及将所述关键词确定为所述至少一个检索词对应的访问意图,生成所述意图库。
进一步的,所述提取模块具体用于,
针对所有检索词中的每个检索词,获取所述检索词的相关信息;所述信息包括以下信息中的任意一个或者多个:词频、词性、词长度;
根据所述检索词的相关信息,确定所述检索词是否为意图词。
进一步的,所述的装置还包括:删除模块;
所述获取模块,还用于针对每个检索词与访问意图的对应关系,获取采用所述检索词去搜索与所述访问意图对应的页面地址的用户数量;
所述删除模块,用于对对应的用户数量小于预设数量阈值的对应关系进行删除处理;
所述获取模块,还用于针对每个访问意图,获取所述访问意图对应的至少一个检索词;
所述获取模块,还用于获取所述至少一个检索词与意图词之间的最大相似度;
所述删除模块,还用于在所述至少一个检索词与意图词之间的最大相似度不满足预设相似度条件时,删除所述访问意图与所述至少一个检索词的对应关系。
进一步的,所述的装置还包括:判断模块和更新模块;
所述获取模块,还用于获取历史意图库;
所述判断模块,用于针对所述历史意图库中的任意一个检索词与访问意图的历史对应关系,判断所述意图库中是否存在与所述历史对应关系检索词相同,和/或,访问意图相同的对应关系;
所述判断模块,还用于在存在与所述历史对应关系检索词相同,且访问意图不同的第一对应关系时,判断所述历史对应关系中的访问意图与所述第一对应关系中的访问意图是否存在包含与被包含关系;
所述更新模块,用于在存在包含与被包含关系时,选择其中一个访问意图作为所述第一对应关系中更新后的访问意图;
所述更新模块,还用于在所述意图库中不存在所述第一对应关系,且不存在与所述历史对应关系检索词相同,且访问意图相同的第二对应关系时,将所述历史对应关系添加到所述意图库中。
进一步的,所述确定模块具体用于,
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,统计各个访问意图的数量;
将对应的数量满足预设意图数量阈值的访问意图,确定为所述用户对所述网站的访问意图。
本发明实施例的访问意图挖掘装置,通过获取用户在网站上的至少一个访问行为;访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;根据页面地址和/或检索词,查询预设的意图库,获取页面地址对应的访问意图,和/或,检索词对应的访问意图;意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;根据页面地址对应的访问意图,和/或,检索词对应的访问意图,确定用户对网站的访问意图,从而能够直接根据用户的检索词和/或访问的页面地址,确定用户的访问意图,不需要对网页提前进行人工主题标注,降低了访问意图挖掘的人工成本,且能够准确确定用户的访问意图,提高了访问意图挖掘的效率。
为达上述目的,本发明第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的访问意图挖掘方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的访问意图挖掘方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的访问意图挖掘方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种访问意图挖掘方法的流程示意图;
图2为本发明实施例提供的另一种访问意图挖掘方法的流程示意图;
图3为本发明实施例提供的一种访问意图挖掘装置的结构示意图;
图4为本发明实施例提供的另一种访问意图挖掘装置的结构示意图;
图5为本发明实施例提供的另一种访问意图挖掘装置的结构示意图;
图6为本发明实施例提供的另一种访问意图挖掘装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的访问意图挖掘方法及装置。
图1为本发明实施例提供的一种访问意图挖掘方法的流程示意图。如图1所示,该访问意图挖掘方法包括以下步骤:
S101、获取用户在网站上的至少一个访问行为;访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词。
本发明提供的访问意图挖掘方法的执行主体为访问意图挖掘装置,访问意图挖掘装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。本实施例中,访问行为可以为用户在一段时间内对网站的访问行为,例如一小时内的访问行为。其中,用户的访问行为可以包括用户此次访问的第一个页面地址,还可以包括用户此次访问的其他页面地址,由于用户访问的第一个页面地址一般为用户最想要访问的页面地址,因此该页面地址应该最能够体现用户的访问意图,因此,可以根据用户访问的第一个页面地址来确定用户的访问意图。另外,用户访问所采用的检索词也能够很好地体现用户的访问意图。
其中,网站可以为单个网站,或者行业网站。行业网站指的是与某个行业相关的一个或者多个网站。
S102、根据页面地址和/或检索词,查询预设的意图库,获取页面地址对应的访问意图,和/或,检索词对应的访问意图;意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图。
本实施例中,在网站为单个网站的情况下,意图库可以为单个网站对应的意图库,该意图库可以根据用户在该网站上的检索行为生成。在网站为行业网站的情况下,意图库可以为行业网站对应的意图库,该意图库可以根据用户在该行业网站上的检索行为生成。其中,意图库中,页面地址与访问意图的对应关系可以表示为<url,item>;检索词与访问意图的对应关系可以表示为<query,item>。其中,url表示页面地址;item表示访问意图;query表示检索词。
S103、根据页面地址对应的访问意图,和/或,检索词对应的访问意图,确定用户对网站的访问意图。
本实施例中,访问意图挖掘装置执行步骤103的过程具体可以为,根据页面地址对应的访问意图,和/或,检索词对应的访问意图,统计各个访问意图的数量;将对应的数量满足预设意图数量阈值的访问意图,确定为用户对网站的访问意图。
其中,用户在访问网站的过程中,可能打开的部分页面为跳转页面,不是用户想要访问的页面,但用户访问的大部分页面为用户想要访问的页面,因此,当访问意图的数量大于预设意图数量阈值时,可以将该访问意图确定为用户的访问意图。
另外,访问意图挖掘装置在获取到各个用户对网站的访问意图后,可以根据各个用户对网站的访问意图,确定网站上各个用户关注的热点,网站的各个热点上用户的分布等数据;进而可以将网站上的热点分布与其他垂类网站上的热点分布进行比对,确定该网站的优缺点,以便针对性的对该网站进行改进。
本发明实施例的访问意图挖掘方法,通过获取用户在网站上的至少一个访问行为;访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;根据页面地址和/或检索词,查询预设的意图库,获取页面地址对应的访问意图,和/或,检索词对应的访问意图;意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;根据页面地址对应的访问意图,和/或,检索词对应的访问意图,确定用户对网站的访问意图,从而能够直接根据用户的检索词和/或访问的页面地址,确定用户的访问意图,不需要对网页提前进行人工主题标注,降低了访问意图挖掘的人工成本,且能够准确确定用户的访问意图,提高了访问意图挖掘的效率。
图2为本发明实施例提供的另一种访问意图挖掘方法的流程示意图。在图1所示实施例的基础上,所述的方法还可以包括以下步骤:
S104、获取预设历史时间段内用户在网站上的检索行为;检索行为包括:检索词与目标页面地址的对应关系;目标页面地址,为用户在页面上输入检索词后所打开的页面的地址。
本实施例中,预设历史时间段例如可以为,当前时刻之前一周时间、两周时间等,可以根据实际需要进行设置。其中,用户在网站上的检索行为,指的是用户在百度、搜狐等搜索页面上输入检索词打开网站相关的页面地址的行为。
S105、针对检索行为,获取检索行为中的所有检索词,从所有检索词中提取意图词。
本实施例中,访问意图挖掘装置从所有检索词中提取意图词的过程具体可以为,针对所有检索词中的每个检索词,获取检索词的相关信息;相关信息中可以包括以下信息中的任意一个或者多个:词频、词性、词长度;根据检索词的相关信息,确定检索词是否为意图词。其中,词频指的是所述检索词在所有检索词中的出现次数。本实施例中,从所有检索词中提取的意图词的数量可以为多个。
S106、针对每个目标页面地址,获取与目标页面地址对应的至少一个检索词,从至少一个检索词中提取关键词。
本实施例中,关键词可以为至少一个检索词中,词频大于一定词频的检索词。其中,提取关键词后,目标页面地址与检索词、关键词的关系可以用<{word1,wrod2,…},{query1,query2,…},url>表示。
S107、在存在与关键词匹配的意图词时,将关键词确定为目标页面地址对应的访问意图,以及将关键词确定为至少一个检索词对应的访问意图,生成意图库。
另外,若不存在与关键词匹配的意图词,则删除该检索词与目标页面地址的对应关系。进一步的,在上述实施例的基础上,步骤107之后,所述的方法还可以包括:对意图库中的不合理的对应关系进行删除的操作。访问意图挖掘装置执行该操作的过程具体可以为,针对每个检索词与访问意图的对应关系,获取采用检索词去搜索与访问意图对应的页面地址的用户数量;对对应的用户数量小于预设数量阈值的对应关系进行删除处理;针对每个访问意图,获取访问意图对应的至少一个检索词;获取至少一个检索词与意图词之间的最大相似度;在至少一个检索词与意图词之间的最大相似度不满足预设相似度条件时,删除访问意图与至少一个检索词的对应关系。
本实施例中,获取采用检索词去搜索与访问意图对应的页面地址的用户数量的过程具体可以为,获取与所述访问意图对应的至少一个页面地址;获取采用检索词去搜索所述至少一个页面地址的用户数量,将该用户数量确定为采用检索词去搜索与访问意图对应的页面地址的用户数量。另外,需要说明的是,针对意图库中每个页面地址与访问意图的对应关系,可以参考上述步骤进行不合理对应关系的删除,此处不再做详细说明。
本实施例中,针对每个访问意图,访问意图挖掘装置可以获取访问意图对应的至少一个检索词;针对每个检索词,可以获取检索词对应的向量,获取步骤105中提取的各个意图词对应的向量,将检索词对应的向量与各个意图词对应的向量进行比对,确定检索词与各个意图词之间的相似度,进而确定检索词与意图词之间的最大相似度。
本实施例中,预设相似度条件例如可以为,预设数量或者预设比例的检索词的最大相似度大于预设相似度阈值。
本实施例中,将意图库中不满足一定条件的对应关系删除,从而能够删除意图库中不合理的对应关系,减少意图库中对应关系的数量,提高意图库中对应关系的准确度,进而能够进一步提高访问意图挖掘的准确度。
进一步的,在上述实施例的基础上,步骤107之后,所述的方法还可以包括:根据历史意图库对生成的意图库进行更新的过程。具体地,访问意图挖掘装置根据历史意图库对生成的意图库进行更新的过程具体可以为,获取历史意图库;针对历史意图库中的任意一个检索词与访问意图的历史对应关系,判断意图库中是否存在与历史对应关系检索词相同,和/或,访问意图相同的对应关系;若存在与历史对应关系检索词相同,且访问意图不同的第一对应关系,则判断历史对应关系中的访问意图与第一对应关系中的访问意图是否存在包含与被包含关系;若存在包含与被包含关系,则选择其中一个访问意图作为第一对应关系中更新后的访问意图;若意图库中不存在第一对应关系,且不存在与历史对应关系检索词相同,且访问意图相同的第二对应关系,则将历史对应关系添加到意图库中。
本实施例中,历史意图库可以为1周前、2周前等时间点生成的意图库。历史意图库的数量可以为一个或者多个,可以根据实际需要进行设置。本实施例中,针对每个历史意图库中的每个检索词与访问意图的历史对应关系,可以将该历史对应关系与意图库中的各个检索词与访问意图的对应关系进行比对,判断检索词是否相同,以及判断访问意图是否相同;若意图库中存在检索词相同,且访问意图不同的第一对应关系,且历史对应关系中的访问意图与第一对应关系中的访问意图是否存在包含与被包含关系,则根据历史对应关系中访问意图的词长度、词性等信息以及第一对应关系中访问意图的词长度、词性等信息来选择准确的访问意图,并将该访问意图作为第一对应关系中更新后的访问意图。另外,还可以将意图库中其他对应关系中的相同的访问意图更新为所述更新后的访问意图。
另外,若意图库中存在检索词相同,且访问意图相同的第二对应关系,则表示历史对应关系与第一对应关系相同,则不需要将历史对应关系添加到意图库中。若意图库中存在检索词不同,且访问意图相同的第三对应关系,或者存在检索词不同,且访问意图不同的第四对应关系,则直接将第三对应关系和第四对应关系添加到意图库中。另外,针对历史意图库中的任意一个页面地址与访问意图的历史对应关系,可以参考上述方法进行处理,此处不再做详细说明。
本实施例中,通过采用历史意图库对生成的意图库进行更新,能够提高意图库中对应关系的数量,且提高意图库中对应关系的准确度,进而提高访问意图挖掘的准确度。
图3为本发明实施例提供的一种访问意图挖掘装置的结构示意图。如图3所示,包括:获取模块31、查询模块32和确定模块33。
其中,获取模块31,用于获取用户在网站上的至少一个访问行为;所述访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;
查询模块32,用于根据所述页面地址和/或所述检索词,查询预设的意图库,获取所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图;所述意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;
确定模块33,用于根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图。
本发明提供的访问意图挖掘装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。本实施例中,访问行为可以为用户在一段时间内对网站的访问行为,例如一小时内的访问行为。其中,用户的访问行为可以包括用户此次访问的第一个页面地址,还可以包括用户此次访问的其他页面地址,由于用户访问的第一个页面地址一般为用户最想要访问的页面地址,因此该页面地址应该最能够体现用户的访问意图,因此,可以根据用户访问的第一个页面地址来确定用户的访问意图。另外,用户访问所采用的检索词也能够很好地体现用户的访问意图。
其中,网站可以为单个网站,或者行业网站。行业网站指的是与某个行业相关的一个或者多个网站。
本实施例中,在网站为单个网站的情况下,意图库可以为单个网站对应的意图库,该意图库可以根据用户在该网站上的检索行为生成。在网站为行业网站的情况下,意图库可以为行业网站对应的意图库,该意图库可以根据用户在该行业网站上的检索行为生成。其中,意图库中,页面地址与访问意图的对应关系可以表示为<url,item>;检索词与访问意图的对应关系可以表示为<query,item>。其中,url表示页面地址;item表示访问意图;query表示检索词。
本实施例中,确定模块33具体可以用于,根据页面地址对应的访问意图,和/或,检索词对应的访问意图,统计各个访问意图的数量;将对应的数量满足预设意图数量阈值的访问意图,确定为用户对网站的访问意图。
其中,用户在访问网站的过程中,可能打开的部分页面为跳转页面,不是用户想要访问的页面,但用户访问的大部分页面为用户想要访问的页面,因此,当访问意图的数量大于预设意图数量阈值时,可以将该访问意图确定为用户的访问意图。
另外,访问意图挖掘装置在获取到各个用户对网站的访问意图后,可以根据各个用户对网站的访问意图,确定网站上各个用户关注的热点,网站的各个热点上用户的分布等数据;进而可以将网站上的热点分布与其他垂类网站上的热点分布进行比对,确定该网站的优缺点,以便针对性的对该网站进行改进。
本发明实施例的访问意图挖掘装置,通过获取用户在网站上的至少一个访问行为;访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;根据页面地址和/或检索词,查询预设的意图库,获取页面地址对应的访问意图,和/或,检索词对应的访问意图;意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;根据页面地址对应的访问意图,和/或,检索词对应的访问意图,确定用户对网站的访问意图,从而能够直接根据用户的检索词和/或访问的页面地址,确定用户的访问意图,不需要对网页提前进行人工主题标注,降低了访问意图挖掘的人工成本,且能够准确确定用户的访问意图,提高了访问意图挖掘的效率。
结合参考图4,在图3所示实施例的基础上,所述的装置还可以包括:提取模块34。
对应的,所述获取模块31,还用于获取预设历史时间段内所述用户在所述网站上的检索行为;所述检索行为包括:检索词与目标页面地址的对应关系;所述目标页面地址,为所述用户在页面上输入所述检索词后所打开的页面的地址;
所述提取模块34,用于针对所述检索行为,获取所述检索行为中的所有检索词,从所有检索词中提取意图词;
所述提取模块34,还用于针对每个目标页面地址,获取与所述目标页面地址对应的至少一个检索词,从所述至少一个检索词中提取关键词;
所述确定模块33,还用于在存在与所述关键词匹配的意图词时,将所述关键词确定为所述目标页面地址对应的访问意图,以及将所述关键词确定为所述至少一个检索词对应的访问意图,生成所述意图库。
本实施例中,预设历史时间段例如可以为,当前时刻之前一周时间、两周时间等,可以根据实际需要进行设置。其中,用户在网站上的检索行为,指的是用户在百度、搜狐等搜索页面上输入检索词打开网站相关的页面地址的行为。
本实施例中,提取模块34具体可以用于,针对所有检索词中的每个检索词,获取检索词的相关信息;相关信息中可以包括以下信息中的任意一个或者多个:词频、词性、词长度;根据检索词的相关信息,确定检索词是否为意图词。其中,词频指的是所述检索词在所有检索词中的出现次数。本实施例中,从所有检索词中提取的意图词的数量可以为多个。
进一步的,结合参考图5,在图4所示实施例的基础上,所述的装置还可以包括:删除模块35。
所述获取模块31,还用于针对每个检索词与访问意图的对应关系,获取采用所述检索词去搜索与所述访问意图对应的页面地址的用户数量;
所述删除模块35,用于对对应的用户数量小于预设数量阈值的对应关系进行删除处理;
所述获取模块31,还用于针对每个访问意图,获取所述访问意图对应的至少一个检索词;
所述获取模块31,还用于获取所述至少一个检索词与意图词之间的最大相似度;
所述删除模块35,还用于在所述至少一个检索词与意图词之间的最大相似度不满足预设相似度条件时,删除所述访问意图与所述至少一个检索词的对应关系。
本实施例中,获取采用检索词去搜索与访问意图对应的页面地址的用户数量的过程具体可以为,获取与所述访问意图对应的至少一个页面地址;获取采用检索词去搜索所述至少一个页面地址的用户数量,将该用户数量确定为采用检索词去搜索与访问意图对应的页面地址的用户数量。另外,需要说明的是,针对意图库中每个页面地址与访问意图的对应关系,可以参考上述步骤进行不合理对应关系的删除,此处不再做详细说明。
本实施例中,针对每个访问意图,访问意图挖掘装置可以获取访问意图对应的至少一个检索词;针对每个检索词,可以获取检索词对应的向量,获取各个意图词对应的向量,将检索词对应的向量与各个意图词对应的向量进行比对,确定检索词与各个意图词之间的相似度,进而确定检索词与意图词之间的最大相似度。
本实施例中,预设相似度条件例如可以为,预设数量或者预设比例的检索词的最大相似度大于预设相似度阈值。
本实施例中,将意图库中不满足一定条件的对应关系删除,从而能够删除意图库中不合理的对应关系,减少意图库中对应关系的数量,提高意图库中对应关系的准确度,进而能够进一步提高访问意图挖掘的准确度。
进一步的,结合参考图6,在图4所示实施例的基础上,所述的装置还可以包括:判断模块36和更新模块37;
所述获取模块31,还用于获取历史意图库;
所述判断模块36,用于针对所述历史意图库中的任意一个检索词与访问意图的历史对应关系,判断所述意图库中是否存在与所述历史对应关系检索词相同,和/或,访问意图相同的对应关系;
所述判断模块36,还用于在存在与所述历史对应关系检索词相同,且访问意图不同的第一对应关系时,判断所述历史对应关系中的访问意图与所述第一对应关系中的访问意图是否存在包含与被包含关系;
所述更新模块37,用于在存在包含与被包含关系时,选择其中一个访问意图作为所述第一对应关系中更新后的访问意图;
所述更新模块37,还用于在所述意图库中不存在所述第一对应关系,且不存在与所述历史对应关系检索词相同,且访问意图相同的第二对应关系时,将所述历史对应关系添加到所述意图库中。
本实施例中,历史意图库可以为1周前、2周前等时间点生成的意图库。历史意图库的数量可以为一个或者多个,可以根据实际需要进行设置。本实施例中,针对每个历史意图库中的每个检索词与访问意图的历史对应关系,可以将该历史对应关系与意图库中的各个检索词与访问意图的对应关系进行比对,判断检索词是否相同,以及判断访问意图是否相同;若意图库中存在检索词相同,且访问意图不同的第一对应关系,且历史对应关系中的访问意图与第一对应关系中的访问意图是否存在包含与被包含关系,则根据历史对应关系中访问意图的词长度、词性等信息以及第一对应关系中访问意图的词长度、词性等信息来选择准确的访问意图,并将该访问意图作为第一对应关系中更新后的访问意图。另外,还可以将意图库中其他对应关系中的相同的访问意图更新为所述更新后的访问意图。
另外,若意图库中存在检索词相同,且访问意图相同的第二对应关系,则表示历史对应关系与第一对应关系相同,则不需要将历史对应关系添加到意图库中。若意图库中存在检索词不同,且访问意图相同的第三对应关系,或者存在检索词不同,且访问意图不同的第四对应关系,则直接将第三对应关系和第四对应关系添加到意图库中。另外,针对历史意图库中的任意一个页面地址与访问意图的历史对应关系,可以参考上述方法进行处理,此处不再做详细说明。
本实施例中,通过采用历史意图库对生成的意图库进行更新,能够提高意图库中对应关系的数量,且提高意图库中对应关系的准确度,进而提高访问意图挖掘的准确度。
图7为本发明实施例提供的一种电子设备的结构示意图。该电子设备包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的访问意图挖掘方法。
进一步地,电子设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的访问意图挖掘方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的访问意图挖掘方法。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的访问意图挖掘方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种访问意图挖掘方法,其特征在于,包括:
获取用户在网站上的至少一个访问行为;所述访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;
根据所述页面地址和/或所述检索词,查询预设的意图库,获取所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图;所述意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图;
还包括:
获取预设历史时间段内所述用户在所述网站上的检索行为;所述检索行为包括:检索词与目标页面地址的对应关系;所述目标页面地址,为所述用户在页面上输入所述检索词后所打开的页面的地址;
针对所述检索行为,获取所述检索行为中的所有检索词,从所有检索词中提取意图词;
针对每个目标页面地址,获取与所述目标页面地址对应的至少一个检索词,从所述至少一个检索词中提取关键词;
在存在与所述关键词匹配的意图词时,将所述关键词确定为所述目标页面地址对应的访问意图,以及将所述关键词确定为所述至少一个检索词对应的访问意图,生成所述意图库;
其中,所述生成所述意图库之后,还包括:
获取历史意图库;
针对所述历史意图库中的任意一个检索词与访问意图的历史对应关系,判断所述意图库中是否存在与所述历史对应关系检索词相同,和/或,访问意图相同的对应关系;
若存在与所述历史对应关系检索词相同,且访问意图不同的第一对应关系,则判断所述历史对应关系中的访问意图与所述第一对应关系中的访问意图是否存在包含与被包含关系;
若存在包含与被包含关系,则选择其中一个访问意图作为所述第一对应关系中更新后的访问意图;
若所述意图库中不存在所述第一对应关系,且不存在与所述历史对应关系检索词相同,且访问意图相同的第二对应关系,则将所述历史对应关系添加到所述意图库中。
2.根据权利要求1所述的方法,其特征在于,所述从所有检索词中提取意图词,包括:
针对所有检索词中的每个检索词,获取所述检索词的相关信息;所述相关信息包括以下信息中的任意一个或者多个:词频、词性、词长度;
根据所述检索词的相关信息,确定所述检索词是否为意图词。
3.根据权利要求1所述的方法,其特征在于,所述生成所述意图库之后,还包括:
针对每个检索词与访问意图的对应关系,获取采用所述检索词去搜索与所述访问意图对应的页面地址的用户数量;
对对应的用户数量小于预设数量阈值的对应关系进行删除处理;
针对每个访问意图,获取所述访问意图对应的至少一个检索词;
获取所述至少一个检索词与意图词之间的最大相似度;
在所述至少一个检索词与意图词之间的最大相似度不满足预设相似度条件时,删除所述访问意图与所述至少一个检索词的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图,包括:
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,统计各个访问意图的数量;
将对应的数量满足预设意图数量阈值的访问意图,确定为所述用户对所述网站的访问意图。
5.一种访问意图挖掘装置,其特征在于,包括:
获取模块,用于获取用户在网站上的至少一个访问行为;所述访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;
查询模块,用于根据所述页面地址和/或所述检索词,查询预设的意图库,获取所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图;所述意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;
确定模块,用于根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图;
还包括:提取模块;
所述获取模块,还用于获取预设历史时间段内所述用户在所述网站上的检索行为;所述检索行为包括:检索词与目标页面地址的对应关系;所述目标页面地址,为所述用户在页面上输入所述检索词后所打开的页面的地址;
所述提取模块,用于针对所述检索行为,获取所述检索行为中的所有检索词,从所有检索词中提取意图词;
所述提取模块,还用于针对每个目标页面地址,获取与所述目标页面地址对应的至少一个检索词,从所述至少一个检索词中提取关键词;
所述确定模块,还用于在存在与所述关键词匹配的意图词时,将所述关键词确定为所述目标页面地址对应的访问意图,以及将所述关键词确定为所述至少一个检索词对应的访问意图,生成所述意图库;
还包括:判断模块和更新模块;
所述获取模块,还用于获取历史意图库;
所述判断模块,用于针对所述历史意图库中的任意一个检索词与访问意图的历史对应关系,判断所述意图库中是否存在与所述历史对应关系检索词相同,和/或,访问意图相同的对应关系;
所述判断模块,还用于在存在与所述历史对应关系检索词相同,且访问意图不同的第一对应关系时,判断所述历史对应关系中的访问意图与所述第一对应关系中的访问意图是否存在包含与被包含关系;
所述更新模块,用于在存在包含与被包含关系时,选择其中一个访问意图作为所述第一对应关系中更新后的访问意图;
所述更新模块,还用于在所述意图库中不存在所述第一对应关系,且不存在与所述历史对应关系检索词相同,且访问意图相同的第二对应关系时,将所述历史对应关系添加到所述意图库中。
6.根据权利要求5所述的装置,其特征在于,所述提取模块具体用于,
针对所有检索词中的每个检索词,获取所述检索词的相关信息;所述相关信息包括以下信息中的任意一个或者多个:词频、词性、词长度;
根据所述检索词的相关信息,确定所述检索词是否为意图词。
7.根据权利要求5所述的装置,其特征在于,还包括:删除模块;
所述获取模块,还用于针对每个检索词与访问意图的对应关系,获取采用所述检索词去搜索与所述访问意图对应的页面地址的用户数量;
所述删除模块,用于对对应的用户数量小于预设数量阈值的对应关系进行删除处理;
所述获取模块,还用于针对每个访问意图,获取所述访问意图对应的至少一个检索词;
所述获取模块,还用于获取所述至少一个检索词与意图词之间的最大相似度;
所述删除模块,还用于在所述至少一个检索词与意图词之间的最大相似度不满足预设相似度条件时,删除所述访问意图与所述至少一个检索词的对应关系。
8.根据权利要求5所述的装置,其特征在于,所述确定模块具体用于,
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,统计各个访问意图的数量;
将对应的数量满足预设意图数量阈值的访问意图,确定为所述用户对所述网站的访问意图。
9.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一所述的访问意图挖掘方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的访问意图挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719792.6A CN110737823B (zh) | 2018-07-03 | 2018-07-03 | 访问意图挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719792.6A CN110737823B (zh) | 2018-07-03 | 2018-07-03 | 访问意图挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110737823A CN110737823A (zh) | 2020-01-31 |
CN110737823B true CN110737823B (zh) | 2022-06-24 |
Family
ID=69234263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810719792.6A Active CN110737823B (zh) | 2018-07-03 | 2018-07-03 | 访问意图挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110737823B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239298A (zh) * | 2013-06-06 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 文本信息推荐方法、服务器、浏览器及系统 |
CN105095187A (zh) * | 2015-08-07 | 2015-11-25 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
CN106599278A (zh) * | 2016-12-23 | 2017-04-26 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法及装置 |
CN108197242A (zh) * | 2017-12-29 | 2018-06-22 | 北京奇虎科技有限公司 | 搜索推荐词的推送方法、装置及服务器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8903792B2 (en) * | 2007-08-14 | 2014-12-02 | Yahoo! Inc. | Method and system for intent queries and results |
-
2018
- 2018-07-03 CN CN201810719792.6A patent/CN110737823B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239298A (zh) * | 2013-06-06 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 文本信息推荐方法、服务器、浏览器及系统 |
CN105095187A (zh) * | 2015-08-07 | 2015-11-25 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
CN106599278A (zh) * | 2016-12-23 | 2017-04-26 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法及装置 |
CN108197242A (zh) * | 2017-12-29 | 2018-06-22 | 北京奇虎科技有限公司 | 搜索推荐词的推送方法、装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN110737823A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101999471B1 (ko) | 정보 추천 방법 및 장치 | |
US8630972B2 (en) | Providing context for web articles | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN107247722B (zh) | 一种文件扫描方法、装置及智能终端 | |
CN106959976B (zh) | 一种搜索处理方法以及装置 | |
CN110287440B (zh) | 搜索引擎优化方法、装置、计算机设备及计算机可读存储介质 | |
CN109446525B (zh) | 文本处理方法、装置、计算机可读存储介质和计算机设备 | |
CN107885888A (zh) | 信息处理方法及装置、终端设备以及计算机可读存储介质 | |
CN107885875B (zh) | 检索词的同义变换方法、装置及服务器 | |
CN107748772B (zh) | 一种商标识别方法及装置 | |
CN110555165B (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
CN109359108B (zh) | 报表提取方法、装置、存储介质及电子设备 | |
CN117171331B (zh) | 基于大型语言模型的专业领域信息交互方法、装置及设备 | |
CN114328983A (zh) | 文档碎化方法、数据检索方法、装置及电子设备 | |
CN111488510B (zh) | 小程序相关词的确定方法、装置、处理设备及搜索系统 | |
CN109614478A (zh) | 词向量模型的构建方法、关键词匹配方法及装置 | |
CN110737823B (zh) | 访问意图挖掘方法及装置 | |
CN106844406B (zh) | 检索方法和检索装置 | |
CN105243073A (zh) | 一种书签访问方法、装置及终端 | |
CN110489032B (zh) | 用于电子书的词典查询方法及电子设备 | |
CN102129454A (zh) | 一种基于云存储的百科数据处理方法及系统 | |
CN109710626B (zh) | 数据入库管理方法、装置、电子设备,及存储介质 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
CN115917527A (zh) | 文档检索装置、文档检索系统、文档检索程序、以及文档检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |