CN107102994B - 查询维度信息的确定方法及装置 - Google Patents

查询维度信息的确定方法及装置 Download PDF

Info

Publication number
CN107102994B
CN107102994B CN201610094709.1A CN201610094709A CN107102994B CN 107102994 B CN107102994 B CN 107102994B CN 201610094709 A CN201610094709 A CN 201610094709A CN 107102994 B CN107102994 B CN 107102994B
Authority
CN
China
Prior art keywords
information
page
page information
query
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610094709.1A
Other languages
English (en)
Other versions
CN107102994A (zh
Inventor
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610094709.1A priority Critical patent/CN107102994B/zh
Publication of CN107102994A publication Critical patent/CN107102994A/zh
Application granted granted Critical
Publication of CN107102994B publication Critical patent/CN107102994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种查询维度信息的确定方法及装置。其中,该方法包括:获取与查询条件匹配的网页地址信息,其中,查询条件与查询维度对应;获取与网页地址信息对应的网页内容,其中,网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个;根据网页内容,生成页面信息集合,其中,页面信息集合至少包括在网页内容中具有并列关系的页面信息;对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息。本发明解决了由于查询的层次受主观影响,导致无法对查询维度进行深层次剖析的技术问题。

Description

查询维度信息的确定方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种查询维度信息的确定方法及装置。
背景技术
所谓查询维度,是指用于描述和概括一个查询中所包含的各种维度值的集合,其中,维度值是词或短语。
通常,在一个查询中,包括多个查询维度,每个查询维度从不同侧描述了查询的本身。例如,以“电脑”作为查询条件,它包括的查询维度可以包括:品牌、类型、价格等,其各查询维度的值分别为:品牌(苹果、联想、戴尔等)、类型(台式、笔记本等)、价格(5000元以下、5000-10000元、10000元以上)等。
查询维度为查询本身提供了各方面丰富的信息,一方面查询维度有助于全方面的反映查询的本身,另一方面用户可以很容易的根据某一维度,在该维度上对当前查询的内容进行更深度的查询。查询维度还可以作为例如AB测试等网页优化方法的重要参考。
目前,往往通过建立索引来确定查询目标的相关信息。首先对于查询本身进行检索,然后返回满足查询逻辑的查询列表,并不会对查询的维度进行剖析,查询到的结果往往并不能准确的反映实际情况,并且在查询结果中,存在大量无效数据。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种查询维度信息的确定方法及装置,以至少解决由于查询的层次受主观影响,导致无法对查询维度进行深层次剖析的技术问题。
根据本发明实施例的一个方面,提供了一种查询维度信息的确定方法,包括:获取与查询条件匹配的网页地址信息,其中,查询条件与查询维度对应;获取与网页地址信息对应的网页内容,其中,网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个;根据网页内容,生成页面信息集合,其中,页面信息集合至少包括在网页内容中具有并列关系的页面信息;对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息。
进一步地,对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息,包括:分别将页面信息集合中的页面信息代入聚类模型得到聚类集合,并确定各页面信息与聚类集合之间的最大距离参数;根据最大距离参数小于或等于预先设置的阈值的页面信息,生成与查询维度对应的查询维度信息。
进一步地,分别将页面信息集合中的页面信息代入聚类模型得到聚类集合,并确定各页面信息与聚类集合之间的最大距离参数包括:将页面信息集合中的第一页面信息和第二页面信息代入聚类模型,确定聚类集合;将页面信息集合中的第三页面信息与聚类集合进行比对,确定第三页面信息与聚类集合之间的最大距离参数。
进一步地,在分别将页面信息集合中的页面信息代入聚类模型得到聚类集合,并 确定各页面信息与聚类集合之间的最大距离参数中,采用以下方式确定页面信息间的距离 参数:其中,l1,l2为具有并列关系的页面信息,d1(l1,l2)为在两 个页面信息之间的距离参数,|l1∩l2|为在两个具有并列关系的页面信息中出现相同词语 的词语数量;
Figure BDA0000926665940000022
其中,dc(c1,c2)为页面信息集合中的页面 信息之间的最大距离参数。
进一步地,当网页内容中至少包括文本信息时,根据网页内容,生成页面信息集合,包括:以语句为单位对文本信息进行切分,得到语句集合;通过语义模型分别对语句集合中的语句进行处理,确定语句集合中具有并列关系的语句;根据语句集合中具有并列关系的语句,生成页面信息集合。
进一步地,当网页内容中至少包括标签信息时,根据网页内容,生成页面信息集合,包括:根据标签信息,确定在当前网页中各页面标签的标签层级关系;根据标签层级关系,确定在当前网页中具有并列关系的标签集合;对标签集合中的各个页面标签中的网页内容进行提取,生成页面信息集合。
进一步地,当网页内容中至少包括文档对象模型时,根据网页内容,生成页面信息集合,包括:根据文档对象模型,确定与当前网页对应的网页结构信息;根据网页结构信息,确定在当前网页中具有并列关系的页面区域;对具有并列关系的页面区域中的网页内容进行提取,生成页面信息集合。
进一步地,在获取与查询条件匹配的网页地址信息之后,方法还包括:获取预先设置的筛选条件;按照筛选条件对网页地址信息进行筛选,确定与查询条件匹配的网页地址信息。
进一步地,在对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息之后,方法还包括:统计查询维度信息在网页地址信息中的重复数量;根据重复数量对查询维度信息进行排序,生成查询维度表。
根据本发明实施例的另一方面,还提供了一种查询维度信息的确定装置,包括:第一获取模块,用于获取与查询条件匹配的网页地址信息,其中,查询条件与查询维度对应;第二获取模块,用于获取与网页地址信息对应的网页内容,其中,网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个;确定模块,用于根据网页内容,生成页面信息集合,其中,页面信息集合至少包括在网页内容中具有并列关系的页面信息;处理模块,用于对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息。
进一步地,上述装置还包括:第三获取模块,用于获取预先设置的筛选条件;筛选模块,用于按照筛选条件对网页地址信息进行筛选,确定与查询条件匹配的网页地址信息。
进一步地,上述装置还包括:统计模块,用于统计查询维度信息在网页地址信息中的重复数量;生成模块,用于根据重复数量对查询维度信息进行排序,生成查询维度表。
在本发明实施例中,采用获取与查询条件匹配的网页地址信息,其中,查询条件与查询维度对应;获取与网页地址信息对应的网页内容,其中,网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个;根据网页内容,生成页面信息集合,其中,页面信息集合至少包括在网页内容中具有并列关系的页面信息;对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息的方式,达到了对于查询维度进行深层次的维度剖析的目的,进而解决了由于查询的层次受主观影响,导致无法对查询维度进行深层次剖析的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的查询维度信息的确定方法的流程图;
图2是根据本发明实施例的一种可选的查询维度信息的确定方法的流程图;
图3是根据本发明实施例的一种可选的查询维度信息的确定方法的流程图;
图4是根据本发明实施例的一种可选的查询维度信息的确定装置的示意图;
图5是根据本发明实施例的一种可选的查询维度信息的确定装置的示意图;以及
图6是根据本发明实施例的一种可选的查询维度信息的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
文档对象模型(DOM,Document Object Model):是一种处理可扩展标识语言的标准编程接口,可以以面向对象方式描述的文档模型。DOM定义了标识和修改文档所需要的对象、对象的行为、属性以及这些对象之间的关系。可以把DOM认为是页面上数据和结构的一个树形表示。
根据本发明实施例,提供了一种查询维度信息的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的查询维度信息的确定方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S21,获取与查询条件匹配的网页地址信息,其中,查询条件与查询维度对应。
具体的,可以通过搜索引擎对查询条件进行搜索,根据搜索引擎返回的预定个数的排名靠前的查询结果。在实际应用当中,获取预先设置的一个查询条件(Query),系统将该查询条件放到搜索引擎中进行查询,得到与该查询条件(Query)相应的查询结果。获取在所有查询结果中前n个查询结果的网络地址信息(URL),将这些网络地址信息对应的网站作为与查询条件最相关的网站。其中,假定通过搜索引擎查询得到的查询结果与该查询条件相关。
步骤S23,获取与网页地址信息对应的网页内容,其中,网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个。
具体的,可以通过执行网页抓取模块或者单独的网络爬虫程序,根据上述网络地址信息对查询结果进行爬取,获得与网络地址信息对应的网页源代码。其中,在网页源码中,可以包括网页中的正文文本信息,用于描述网页显示方式的标签信息,以及文档对象模型。
步骤S25,根据网页内容,生成页面信息集合,其中,页面信息集合至少包括在当前网页中具有并列关系的页面信息。
具体的,可以利用网页源代码中的文本信息、标签信息和文档对象模型等信息,确定在当前网页中具有并列关系的页面信息,其中,页面信息可以为文字段、句子、词语等信息。
步骤S27,对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息。
具体的,采用聚类分析的方式,将页面信息集合中的各个页面信息依次代入聚类分析模型中进行聚类处理,得到至少一个聚类集合。根据聚类集合生成用于描述查询维度的查询维度信息。其中,通过聚类模型可以得到在聚类集合中页面信息之间的距离尽量小,聚类集合之间的距离尽量大的聚类结果。
通过上述步骤,利用与查询维度相应的查询条件对网页信息进行查询,并对查询结果中的各个网页中的页面信息按照预先设置的规则进行聚类分析,从而确定用于描述该查询维度的查询维度信息。从而达到了对于查询维度进行深层次的维度剖析的目的,进而解决了在现有技术中由于查询的层次受主观影响,导致无法对查询维度进行深层次剖析的技术问题。
不直接使用每条独立的并列关系项作为查询维度,原因有三。其一,独立的并列关系项可能是包含噪音的,仅仅通过前述步骤的处理,是难以区别出哪些并列关系是噪音而哪些不是的。其二,即便并列关系项独立的描述了一个查询维度,但仅凭一组并列关系项能描述的词语也是有限的,往往不能涵盖一个查询维度全部的词语内容。其三,不同的并列关系项之间还存在着重叠,这就使得简单对并列关系统计可能造成查询维度的重复。因此,需要对并列关系项进行聚类,用每一个类来独立描述一个查询维度的方法进行表示,可以有效地解决上述三点问题。
作为一种可选的实施方式,在步骤S27对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息中,可以包括:
步骤S271,分别将页面信息集合中的页面信息代入聚类模型得到聚类集合,并确定各页面信息与聚类集合之间的最大距离参数。
步骤S273,根据最大距离参数小于或等于预先设置的阈值的页面信息,生成与查询维度对应的查询维度信息。
具体的,通过步骤S271至步骤S273,对页面信息集合中的各个页面信息项进行聚类处理,通过聚类处理确定各项页面信息与聚类集合之间的最大距离参数。进一步的,将最大距离参数与预先设置的阈值进行比对,从而判断当前页面信息项所属的聚类集合。最终,利用聚类集合生成与查询维度对应的查询维度信息。其中,查询维度信息可以是从各个页面信息中,通过提取得到的用于对查询条件进行描述的字段信息。在实际应用当中,字段信息可以是通过语义分词模型对页面信息进行分词得到的字、词,也可以是页面信息中包含的文字字段,此处不对字段信息的形式做具体限定。
作为一种可选的实施方式,在步骤S271中,所述分别将页面信息集合中的页面信息代入聚类模型得到聚类集合,并确定各页面信息与聚类集合之间的最大距离参数可以包括:
步骤S2711,将所述页面信息集合中的第一页面信息和第二页面信息代入聚类模型,确定聚类集合。
步骤S2713,将所述页面信息集合中的第三页面信息与所述聚类集合进行比对,确定所述第三页面信息与所述聚类集合之间的最大距离参数。
其中,作为一种可选的实施方式,在步骤S271分别将页面信息集合中的页面信息代入聚类模型得到聚类集合,并确定各页面信息与聚类集合之间的最大距离参数中,可以采用以下方式确定页面信息间的距离参数:
Figure BDA0000926665940000061
其中,l1,l2为具有并列关系的页面信息,dl(l1,l2)为在两个页面信息之间的距离参数,|l1∩l2|为在两个具有并列关系的页面信息中出现相同词语的词语数量;
Figure BDA0000926665940000071
其中,dc(c1,c2)为页面信息集合中的页面信息之间的最大距离参数。
具体的,基于上述两个公式,我们可以根据实际情况设定一些阈值,并且,只有当最大距离参数小于设定的阈值的具有并列关系的页面信息项,才能够进行合并成为同一个聚类集合。依次对具有并列关系的所有页面信息通过上述公式进行处理,从而完成对全部并列关系的页面信息项的聚类分析处理。当然,在实际应用当中,聚类的方法并不局限于上述本实施方式中的这一种聚类方法。
作为一种可选的实施方式,在通过爬虫程序获取到与URL对应的网页内容后,通过从每一个网页的HTML源代码中抽取网页页面内包含的并列关系集合。其中,对网页页面内的网页内容进行抽取的方法,至少可以包括:根据文本信息对并列关系进行抽取的文本模式,根据标签信息对并列关系进行抽取的HTML标签模式,以及根据文档对象模型对并列关系进行抽取的重复区域模式。
作为一种可选的实施方式,在当网页内容中至少包括文本信息时,步骤S25根据网页内容,生成页面信息集合,可以包括:
步骤S251a,以语句为单位对文本信息进行切分,得到语句集合。
步骤S253a,通过语义模型分别对语句集合中的语句进行处理,确定语句集合中具有并列关系的语句。
步骤S255a,根据语句集合中具有并列关系的语句,生成页面信息集合。
具体的,通过步骤S251a至步骤S255a,利用根据文本信息对并列关系进行抽取的文本模式,确定在当前网页中具有并列关系的页面信息集合。
文本模式,即从HTML的正文内容中抽取存在并列关系的页面信息集合。首先,将当前网页中全部的正文内容提取出来,并以句子为单位对网页内容进行切分,得到当前网页中包含全部句子的句子列表。然后,可以利用语义模型对句子列表中的每个句子进行模式匹配,进而抽取符合语义模型的句子,从而形成并列关系项。
其中,如果在单个句子中存在并列关系的情况,需要依次对句子列表中的每个句子进行遍历,使用类似于“item{,item}*(and|or){other}item”的规则与句子进行匹配,从而得到如:“……我们出售的手机包括三星、苹果、华为等……”中语义存在并列的情况。如果对于在网页内容中存在多个句子并列或排比关系的情况时,需要定义类似于“{^item(:|-).+$}”的规则与网页内容进行匹配,从而得到在网页内容中的例如:“三星:一款基于Android操作系统的手机……”、“苹果:一款基于IOS操作系统的手机……”等排比句式。
作为一种可选的实施方式,在当网页内容中至少包括标签信息时,步骤S25根据网页内容,生成页面信息集合,可以包括:
步骤S251b,根据标签信息,确定在当前网页中各页面标签的标签层级关系。
步骤S253b,根据标签层级关系,确定在当前网页中具有并列关系的标签集合。
步骤S255b,对标签集合中的各个页面标签中的网页内容进行提取,生成页面信息集合。
具体的,通过步骤S251b至步骤S255b,利用根据标签信息对并列关系进行抽取的HTML标签模式,确定在当前网页中具有并列关系的页面信息集合。
HTML标签模式,是通过HTML标签确定在网页内容中具有并列关系的页面信息。可以利用<SELECT>、<UL>、<OL>、<TABLE>等HTML标签,确定网页内容中的并列关系,进一步,提取具有并列关系的HTML标签内的页面信息,从而得到与当前网页对应的页面信息集合。例如,根据HTML标签的标签规则,可以确定在<SELECT>标签内的各个<option>子标签中的页面信息具有并列关系。因此,通过抽取<SELECT>内部各个<OPTION>子标签中包含的页面信息,生成具有并列关系的页面信息集合即可。同样地,对于<UL>标签或者<OL>标签,其内部<LI>子标签中包含的页面信息具有并列关系,进而通过抽取其中的页面信息生成页面信息集合即可。
作为一种可选的实施方式,在当网页内容中至少包括文档对象模型时,步骤S25根据网页内容,生成页面信息集合,可以包括:
步骤S251c,根据文档对象模型,确定与当前网页对应的网页结构信息。
步骤S253c,根据网页结构信息,确定在当前网页中具有并列关系的页面区域。
步骤S255c,对具有并列关系的页面区域中的网页内容进行提取,生成页面信息集合。
具体的,通过步骤S251c至步骤S255c,利用根据文档对象模型对并列关系进行抽取的重复区域模式,确定在当前网页中具有并列关系的页面信息集合。
其中,在网页页面中具有相似格式的页面信息往往具有并列关系。因此,可以利用为重复区域模式,来获取重复区域中具有并列关系的页面信息。
在实际应用当中,首先,获取并依赖与当前网页对应的DOM树结构,探测在当前网页中的重复区域,从而确定在网页中的全部独立区域,以及独立区域与重复区域的从属关系。其中,在重复区域中的各个独立区域之间具有并列关系。然后,对每一个独立区域中的全部子节点进行提取,并根据子节点的名称对独立区域中各子节点进行分组,从而确定重复区域。最后,分别将在重复区域内的独立区域按子节点的名称进行整理,即可得到具有并列关系的页面信息集合。
作为一种可选的实施方式,如图2所示,在步骤S21获取与查询条件匹配的网页地址信息之后,上述方法还可以包括:
步骤S221,获取预先设置的筛选条件。
步骤S223,按照筛选条件对网页地址信息进行筛选,确定与查询条件匹配的网页地址信息。
具体的,在步骤S221至步骤S223中,可以获取预先设置的筛选条件,对通过查询得到的网页地址信息进行筛选,将不符合筛选条件的网页地址信息去除,从而达到排除网页地址信息中的干扰项的目的,以提高网页内容的有效性。
在实际应用当中,由于在通过搜索引擎搜索得到的搜索结果中,排名靠前的位置,存在一些推广链接或者与搜索引擎相关的子站连接,而这些网络地址信息其本身可能与原查询条件的相关程度并不高。因此,可以将与搜索引擎存在于同域名内网络地址信息,或者在域名黑名单中的网络地址信息从搜索结果中去除,从而实现对查询结果进行筛选。
作为一种可选的实施方式,还可以在步骤S23,获取与网页地址信息对应的网页内容之后,根据与网页地址信息对应的HTML源代码,对网页的页面类型进行识别。进而根据页面类型对通过搜索引擎得到的搜索结果进行筛选。其中,页面类型至少可以包括:首页、目录页、导航页等。
作为一种可选的实施方式,如图3所示,在步骤S27对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息之后,上述方法还可以包括:
步骤S28,统计查询维度信息在网页地址信息中的重复数量。
步骤S29,根据重复数量对查询维度信息进行排序,生成查询维度表。
具体的,通过步骤S28至步骤S29,对各个查询维度信息在各个页面信息中出现的次数进行统计,根据次数按照倒序对查询维度信息进行排序,并生成查询维度表。
在实际应用中,通过对查询维度信息进行排序,可以确定根据查询结果进行聚类得到的查询维度信息的重要性或者相关性。其中,可以对查询条件通过搜索引擎进行搜索返回的搜索结果进行分析,并对最终得到的查询维度信息相对于查询维度的重要性或相关性进行定义。即查询维度信息相对于查询维度的重要性或相关性,由该查询维度信息在不重复的网页页面中出现的次数决定。出现次数越多,则这个查询维度信息对于该查询维度就越重要,反之,则越不重要。
通过上述实施方式,查询维度信息可以为查询本身提供了丰富的描述信息,一方面查询维度信息有助于全方面的理解查询本身,另一方面用户可以很容易的聚焦于查询的某一维度进行更深度的查询,最后,查询维度还可以作为AB测试查询的重要参考。
图4是根据本发明实施例的查询维度信息的确定装置的示意图。如图4所示,该装置包括:第一获取模块21、第二获取模块23、确定模块25和处理模块27。
其中,第一获取模块21,用于获取与查询条件匹配的网页地址信息,其中,查询条件与查询维度对应;第二获取模块23,用于获取与网页地址信息对应的网页内容,其中,网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个;确定模块25,根据网页内容,生成页面信息集合,其中,页面信息集合至少包括在当前网页中具有并列关系的页面信息;处理模块27,用于对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息。
通过上述第一获取模块21、第二获取模块23、确定模块25和处理模块27,利用与查询维度相应的查询条件对网页信息进行查询,并对查询结果中的各个网页中的页面信息按照预先设置的规则进行聚类分析,从而确定用于描述该查询维度的查询维度信息。从而达到了对于查询维度进行深层次的维度剖析的目的,进而解决了在现有技术中由于查询的层次受主观影响,导致无法对查询维度进行深层次剖析的技术问题。
不直接使用每条独立的并列关系项作为查询维度,原因有三。其一,独立的并列关系项可能是包含噪音的,仅仅通过前述步骤的处理,是难以区别出哪些并列关系是噪音而哪些不是的。其二,即便并列关系项独立的描述了一个查询维度,但仅凭一组并列关系项能描述的词语也是有限了,往往不能涵盖一个查询维度全部的词语内容。其三,不同的并列关系项之间还存在着重叠,这就使得简单对并列关系统计可能造成查询维度的重复。因此,需要对并列关系项进行聚类,用每一个类来独立描述一个查询维度的方法进行表示,可以有效地解决上述三点问题。
作为一种可选的实施方式,在处理模块27中,可以执行如下步骤:
步骤1,分别将页面信息集合中的页面信息代入聚类模型得到聚类集合,并确定各页面信息与聚类集合之间的最大距离参数。
步骤2,根据最大距离参数小于或等于预先设置的阈值的页面信息,生成与查询维度对应的查询维度信息。
具体的,通过在上述处理模块27中执行的步骤1至步骤2,对页面信息集合中的各个页面信息项进行聚类处理,通过聚类处理确定各项页面信息与聚类集合之间的最大距离参数。进一步的,将最大距离参数与预先设置的阈值进行比对,从而判断当前页面信息项所属的聚类集合。最终,利用聚类集合生成与查询维度对应的查询维度信息。
作为一种可选的实施方式,在上述处理模块27中执行的步骤1,分别将页面信息集合中的页面信息代入聚类模型得到聚类集合,并确定各页面信息与聚类集合之间的最大距离参数中,可以包括:
步骤11,将所述页面信息集合中的第一页面信息和第二页面信息代入聚类模型,确定聚类集合。
步骤13,将所述页面信息集合中的第三页面信息与所述聚类集合进行比对,确定所述第三页面信息与所述聚类集合之间的最大距离参数。
其中,作为一种可选的实施方式,在上述步骤1分别将页面信息集合中的页面信息代入聚类模型得到聚类集合,并确定各页面信息与聚类集合之间的最大距离参数中,可以采用以下方式确定页面信息间的距离参数:
Figure BDA0000926665940000111
其中,l1,l2为具有并列关系的页面信息,d1(l1,l2)为在两个页面信息之间的距离参数,|l1∩l2|为在两个具有并列关系的页面信息中出现相同词语的词语数量;
Figure BDA0000926665940000112
其中,dc(c1,c2)为页面信息集合中的页面信息之间的最大距离参数。
具体的,基于上述两个公式,我们可以根据实际情况设定一些阈值,并且,只有当最大距离参数小于设定的阈值的具有并列关系的页面信息项,才能够进行合并成为同一个聚类集合。依次对具有并列关系的所有页面信息通过上述公式进行处理,从而完成对全部并列关系的页面信息项的聚类分析处理。当然,在实际应用当中,聚类的方法并不局限于上述本实施方式中的这一种聚类方法。
作为一种可选的实施方式,在上述确定模块25中,可以通过爬虫程序获取到与URL对应的网页内容后,通过从每一个网页的HTML源代码中抽取网页页面内包含的并列关系集合。其中,对网页页面内的网页内容进行抽取的方法,至少可以包括:根据文本信息对并列关系进行抽取的文本模式,根据标签信息对并列关系进行抽取的HTML标签模式,以及根据文档对象模型对并列关系进行抽取的重复区域模式。
作为一种可选的实施方式,在当网页内容中至少包括文本信息时,确定模块25可以以语句为单位对文本信息进行切分,得到语句集合;通过语义模型分别对语句集合中的语句进行处理,确定语句集合中具有并列关系的语句;根据语句集合中具有并列关系的语句,生成页面信息集合。
作为一种可选的实施方式,在当网页内容中至少包括标签信息时,确定模块25可以根据标签信息,确定在当前网页中各页面标签的标签层级关系;根据标签层级关系,确定在当前网页中具有并列关系的标签集合;对标签集合中的各个页面标签中的网页内容进行提取,生成页面信息集合。
作为一种可选的实施方式,在当网页内容中至少包括文档对象模型时,确定模块25可以根据文档对象模型,确定与当前网页对应的网页结构信息;根据网页结构信息,确定在当前网页中具有并列关系的页面区域;对具有并列关系的页面区域中的网页内容进行提取,生成页面信息集合。
作为一种可选的实施方式,如图5所示,上述装置中还可以包括:第三获取模块221和筛选模块223。
其中,第三获取模块221,用于获取预先设置的筛选条件;筛选模块223,用于按照筛选条件对网页地址信息进行筛选,确定与查询条件匹配的网页地址信息。
具体的,在上述第三获取模块221和筛选模块223中,可以获取预先设置的筛选条件,对通过查询得到的网页地址信息进行筛选,将不符合筛选条件的网页地址信息去除,从而达到排除网页地址信息中的干扰项的目的,以提高网页内容的有效性。
作为一种可选的实施方式,如图6所示,在上述装置中还可以包括:统计模块28和生成模块29。
其中,统计模块28,用于统计查询维度信息在网页地址信息中的重复数量;生成模块29,用于根据重复数量对查询维度信息进行排序,生成查询维度表。
具体的,通过上述统计模块28和生成模块29,对各个查询维度信息在各个页面信息中出现的次数进行统计,根据次数按照倒序对查询维度信息进行排序,并生成查询维度表。
所述查询维度信息的确定装置包括处理器和存储器,上述第一获取模块21、第二获取模块23、确定模块25和处理模块27等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。上述预先设置的条件和规则都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取与查询条件匹配的网页地址信息,其中,查询条件与查询维度对应;获取与网页地址信息对应的网页内容,其中,网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个;根据网页内容,生成页面信息集合,其中,页面信息集合至少包括在当前网页中具有并列关系的页面信息;对页面信息集合中的各页面信息进行聚类分析,得到与查询维度对应的查询维度信息。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种查询维度信息的确定方法,其特征在于,包括:
获取与查询条件匹配的网页地址信息,其中,所述查询条件与查询维度对应;
获取与所述网页地址信息对应的网页内容,其中,所述网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个;
根据所述网页内容,生成页面信息集合,其中,所述页面信息集合至少包括在所述网页内容中具有并列关系的页面信息;
对所述页面信息集合中的各所述页面信息进行聚类分析,得到与所述查询维度对应的查询维度信息;
其中,当所述网页内容中至少包括所述文本信息时,所述根据所述网页内容,生成页面信息集合,包括:
以语句为单位对所述文本信息进行切分,得到语句集合;
通过语义模型分别对所述语句集合中的语句进行处理,确定所述语句集合中具有并列关系的语句;
根据所述语句集合中具有并列关系的语句,生成所述页面信息集合。
2.根据权利要求1所述的方法,其特征在于,对所述页面信息集合中的各所述页面信息进行聚类分析,得到与所述查询维度对应的查询维度信息,包括:
分别将所述页面信息集合中的所述页面信息代入聚类模型得到聚类集合,并确定各所述页面信息与所述聚类集合之间的最大距离参数;
根据所述最大距离参数小于或等于预先设置的阈值的所述页面信息,生成与所述查询维度对应的所述查询维度信息。
3.根据权利要求2所述的方法,其特征在于,所述分别将所述页面信息集合中的所述页面信息代入聚类模型得到聚类集合,并确定各所述页面信息与所述聚类集合之间的最大距离参数包括:
将所述页面信息集合中的第一页面信息和第二页面信息代入聚类模型,确定聚类集合;
将所述页面信息集合中的第三页面信息与所述聚类集合进行比对,确定所述第三页面信息与所述聚类集合之间的最大距离参数。
4.根据权利要求3所述的方法,其特征在于,在所述分别将所述页面信息集合中的所述页面信息代入聚类模型得到聚类集合,并确定各所述页面信息与所述聚类集合之间的最大距离参数中,采用以下方式确定所述页面信息间的距离参数:
Figure FDA0002372560110000021
其中,l1,l2为具有并列关系的所述页面信息,dl(l1,l2)为在两个所述页面信息之间的距离参数,|l1∩l2|为在两个具有并列关系的所述页面信息中出现相同词语的词语数量;
Figure FDA0002372560110000022
其中,dc(c1,c2)为所述页面信息集合中的所述页面信息之间的所述最大距离参数。
5.根据权利要求1所述的方法,其特征在于,当所述网页内容中至少包括所述标签信息时,所述根据所述网页内容,生成页面信息集合,包括:
根据所述标签信息,确定在当前网页中各页面标签的标签层级关系;
根据所述标签层级关系,确定在所述当前网页中具有并列关系的标签集合;
对所述标签集合中的各个页面标签中的所述网页内容进行提取,生成所述页面信息集合。
6.根据权利要求1所述的方法,其特征在于,当所述网页内容中至少包括所述文档对象模型时,所述根据所述网页内容,生成页面信息集合,包括:
根据所述文档对象模型,确定与当前网页对应的网页结构信息;
根据所述网页结构信息,确定在所述当前网页中具有并列关系的页面区域;
对具有并列关系的所述页面区域中的所述网页内容进行提取,生成所述页面信息集合。
7.根据权利要求1所述的方法,其特征在于,在获取与查询条件匹配的网页地址信息之后,所述方法还包括:
获取预先设置的筛选条件;
按照所述筛选条件对所述网页地址信息进行筛选,确定与所述查询条件匹配的所述网页地址信息。
8.根据权利要求1至7之中任意一项所述的方法,其特征在于,在对所述页面信息集合中的各所述页面信息进行聚类分析,得到与所述查询维度对应的查询维度信息之后,所述方法还包括:
统计所述查询维度信息在所述网页地址信息中的重复数量;
根据所述重复数量对所述查询维度信息进行排序,生成查询维度表。
9.一种查询维度信息的确定装置,其特征在于,包括:
第一获取模块,用于获取与查询条件匹配的网页地址信息,其中,所述查询条件与查询维度对应;
第二获取模块,用于获取与所述网页地址信息对应的网页内容,其中,所述网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个;
确定模块,用于根据所述网页内容,生成页面信息集合,其中,所述页面信息集合至少包括在所述网页内容中具有并列关系的页面信息;
处理模块,用于对所述页面信息集合中的各所述页面信息进行聚类分析,得到与所述查询维度对应的查询维度信息;
其中,当所述网页内容中至少包括所述文本信息时,所述确定模块还用于:
以语句为单位对所述文本信息进行切分,得到语句集合;
通过语义模型分别对所述语句集合中的语句进行处理,确定所述语句集合中具有并列关系的语句;
根据所述语句集合中具有并列关系的语句,生成所述页面信息集合。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取预先设置的筛选条件;
筛选模块,用于按照所述筛选条件对所述网页地址信息进行筛选,确定与所述查询条件匹配的所述网页地址信息。
11.根据权利要求9或10所述的装置,其特征在于,所述装置还包括:
统计模块,用于统计所述查询维度信息在所述网页地址信息中的重复数量;
生成模块,用于根据所述重复数量对所述查询维度信息进行排序,生成查询维度表。
CN201610094709.1A 2016-02-19 2016-02-19 查询维度信息的确定方法及装置 Active CN107102994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610094709.1A CN107102994B (zh) 2016-02-19 2016-02-19 查询维度信息的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610094709.1A CN107102994B (zh) 2016-02-19 2016-02-19 查询维度信息的确定方法及装置

Publications (2)

Publication Number Publication Date
CN107102994A CN107102994A (zh) 2017-08-29
CN107102994B true CN107102994B (zh) 2020-07-31

Family

ID=59659001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610094709.1A Active CN107102994B (zh) 2016-02-19 2016-02-19 查询维度信息的确定方法及装置

Country Status (1)

Country Link
CN (1) CN107102994B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151555B (zh) * 2023-11-01 2024-02-02 青岛文达通科技股份有限公司 一种智慧城市服务系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678332A (zh) * 2012-09-05 2014-03-26 腾讯科技(深圳)有限公司 用于展示页面的系统、浏览器及其展示页面的方法
CN104035958A (zh) * 2014-04-14 2014-09-10 百度在线网络技术(北京)有限公司 搜索方法和搜索引擎

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765211B2 (en) * 2003-04-29 2010-07-27 International Business Machines Corporation System and method for space management of multidimensionally clustered tables
US9785704B2 (en) * 2012-01-04 2017-10-10 Microsoft Technology Licensing, Llc Extracting query dimensions from search results

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678332A (zh) * 2012-09-05 2014-03-26 腾讯科技(深圳)有限公司 用于展示页面的系统、浏览器及其展示页面的方法
CN104035958A (zh) * 2014-04-14 2014-09-10 百度在线网络技术(北京)有限公司 搜索方法和搜索引擎

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zhicheng Dou 等.Finding dimensions for queries.《Acm International Conference on Information & Knowledge Management ACM》.2011,第1311-1320页. *

Also Published As

Publication number Publication date
CN107102994A (zh) 2017-08-29

Similar Documents

Publication Publication Date Title
CN108959431B (zh) 标签自动生成方法、系统、计算机可读存储介质及设备
US8370278B2 (en) Ontological categorization of question concepts from document summaries
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
CN107437038B (zh) 一种网页篡改的检测方法及装置
Negi et al. A study of suggestions in opinionated texts and their automatic detection
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN113837531A (zh) 一种基于网络评论的产品质量问题发现及风险评估方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
Cardoso et al. An efficient language-independent method to extract content from news webpages
CN111160019A (zh) 一种舆情监测的方法、装置及系统
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN108446333B (zh) 一种大数据文本挖掘处理系统及其方法
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN105095203B (zh) 同义词的确定、搜索方法及服务器
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN113837824A (zh) 信息推送方法及其系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN107102994B (zh) 查询维度信息的确定方法及装置
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
Cuzzola et al. Automated classification and localization of daily deal content from the Web
CN104991920A (zh) 标签的生成方法及装置
Eldirdiery et al. Detecting and removing noisy data on web document using text density approach
CN113590792A (zh) 用户问题的处理方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant