CN106708901B - 网站内搜索词的聚类方法及装置 - Google Patents

网站内搜索词的聚类方法及装置 Download PDF

Info

Publication number
CN106708901B
CN106708901B CN201510792610.4A CN201510792610A CN106708901B CN 106708901 B CN106708901 B CN 106708901B CN 201510792610 A CN201510792610 A CN 201510792610A CN 106708901 B CN106708901 B CN 106708901B
Authority
CN
China
Prior art keywords
website
clustering
content information
clustering algorithm
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510792610.4A
Other languages
English (en)
Other versions
CN106708901A (zh
Inventor
张鹏霄
冯鸳鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510792610.4A priority Critical patent/CN106708901B/zh
Publication of CN106708901A publication Critical patent/CN106708901A/zh
Application granted granted Critical
Publication of CN106708901B publication Critical patent/CN106708901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网站内搜索词的聚类方法及装置,涉及信息技术领域,可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。所述方法包括:首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。本发明适用于对网站内搜索词的分类。

Description

网站内搜索词的聚类方法及装置
技术领域
本发明涉及信息技术领域,特别是涉及一种网站内搜索词的聚类方法及装置。
背景技术
随着互联网技术的不断发展,企业自身对信息架构、管理、发布的需求,以及用户对信息的组织、查询、可寻性的要求越来越高,于是站内搜索出现了。尤其在内容丰富的网站中,当用户有目的地寻找目标内容但又无法直接从首页或导航页中直接找到时,这时用户就会求助于站内搜索。为了让用户可以更好地进行站内搜索,通常将站内搜索词进行聚类,聚类的作用是将意义相同或相近的站内搜索词放在同一个组内。这样就可以实现站内搜索词的聚类分析,能够更好地分析用户群体,用户需求等。
目前,在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类。然而采用现有方式进行搜索词聚类时,由于在最初聚类时系统还没有进行过聚类,即不存在聚类过程的经验,从而使得调整后的初始搜索词聚类算法误差较大,进而导致前期站内搜索词聚类的结果将会与预期的聚类结果相比产生很大的差异,而前期聚类结果的不准确将会导致后续的聚类结果发生更大的差异,最终造成网站内搜索词的聚类误差较大,精度较低。
发明内容
有鉴于此,本发明提供一种网站内搜索词的聚类方法及装置,主要目的在于减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。
依据本发明一方面,提供了一种网站内搜索词的聚类方法:包括:
获取网站对应的网站内容信息;
根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法;
根据调整后的搜索词聚类算法对所述网站的站内搜索词进行分类。
依据本发明另一方面,提供一种网站内搜索词的聚类装置,包括:
获取单元,用于获取网站对应的网站内容信息;
调整单元,用于根据所述获取单元获取的网站内容信息调整所述网站对应的初始搜索词聚类算法;
分类单元,用于根据所述调整单元调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供一种网站内搜索词的聚类方法及装置,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种网站内搜索词的聚类方法的流程图;
图2示出了本发明实施例提供的另一种网站内搜索词的聚类方法的流程图;
图3示出了本发明实施例提供的一种网站内搜索词的聚类装置的结构示意图;
图4示出了本发明实施例提供的另一种网站内搜索词的聚类装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种网站内搜索词的聚类方法,如图1所示,所述方法包括:
101、获取网站对应的网站内容信息。
其中,不同网站类别对应的网站内容信息不同。例如,对于购物类网站,网站内容信息可以为产品名称、产品类型、产品配置等,本发明实施例不做限定。对于新闻类网站,网站内容信息可以为新闻标题、新闻热点、新闻概要等,本发明实施例不做限定。对于天气预报类网站,网站内容信息可以为一周天气状况信息、出行指数信息等,本发明实施例不做限定。
102、根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法。
其中,初始搜索词聚类算法为预先为该网站配置的搜索词聚类算法,用于对所述网站的站内搜索词进行分类。例如,对于购物类网站,可以根据产品名称、产品类型、产品调整所述网站对应的初始搜索词聚类算法,对于本发明实施例,根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,与目前根据以往聚类过程的经验来改进站内搜索词聚类的算法相比,由于在进行初始搜索词聚类算法的调整时,还不存在以往聚类过程的经验,从而导致调整后的搜索词聚类算法误差较大,进而导致网站内搜索词的聚类误差较大的问题相比,可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。
103、根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。
其中,不同网站对应的站内搜索词不同。例如,对于购物类网站,站内搜索词可以为价格、质量、外观、形状、同类别产品价格等,此时,站内搜索词价格和同类别产品价格可以划分为一类,站内搜索词质量、外观、形状可以划分为一类。
对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:获取A旅游网站对应的网站内容信息为景点名称、景点价格、用户评价,然后根据网站内容信息景点名称、景点价格、用户评价调整该A旅游网站对应的初始搜索词聚类算法,最后根据调整后的A旅游网站对应的搜索词聚类算法,对A旅游网站中的站内搜索词进行分类,从而可以减少该A旅游网站的站内搜索词的聚类误差,提高A旅游网站的站内搜索词的聚类精度。
本发明实施例提供的一种网站内搜索词聚类方法,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。
本发明实施例提供了另一种域名解析信息的显示方法,下面如图2所示,所述方法包括:
201、获取网站对应的网站内容信息。
其中,不同网站类别对应的网站内容信息不同。例如,对于旅游类网站,网站内容信息可以为景点名称、景点价格、用户评价等,本发明实施例不做限定。对于游戏类网站,网站内容信息可以为游戏名称、玩家数量、热门程度等,本发明实施例不做限定。对于饮食类网站,网站内容信息可以为美食地点、用户点评等,本发明实施例不做限定。
对于本发明实施例,步骤201具体可以包括:根据预置爬虫程序获取所述网站对应的网站内容信息。所述预置爬虫程序可以实时获取所述网站对应的网站内容信息,或者按照一定时间间隔获取所述网站对应的网站内容信息,例如,每天或者每小时获取一次所述网站对应的网站内容信息,本发明实施例不做限定。
202、根据预置过滤规则对所述网站内容信息进行过滤。
对于本发明实施例,所述预置过滤规则可以为去除网站内容信息中的重复信息,或者去除网站内容信息中的无用信息,本发明实施例不做限定。其中,去除网站内容信息中的无用信息可以为去除网站内容信息中的友情链接,广告信息等。通过对所述网站内容信息进行过滤,可以使得获取到的网站内容信息与该网站相关性更高,进而进一步提升站内搜索词的聚类精度。
203、根据过滤后的网站内容信息调整所述网站对应的初始搜索词聚类算法。
其中,初始搜索词聚类算法为预先为该网站配置的搜索词聚类算法,用于对所述网站的站内搜索词进行分类。例如,对于旅游类网站,可以根据景点名称、景点价格、用户评价调整所述网站对应的初始搜索词聚类算法,对于本发明实施例,通过根据过滤后的网站内容信息调整网站对应的初始搜索词聚类算法,与目前根据以往聚类过程的经验来改进站内搜索词聚类的算法相比,由于在进行初始搜索词聚类算法的调整时,还不存在以往聚类过程的经验,从而导致调整后的搜索词聚类算法误差较大,进而导致网站内搜索词的聚类误差较大的问题相比,可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。
对于本发明实施例,步骤203具体可以为:按照预置机器学习算法对所述过滤后的网站内容信息进行处理;然后根据所述处理结果对网站对应的初始搜索词聚类算法进行调整。其中,处理结果具体可以为按照预置机器学习算法对所述过滤后的网站内容信息进行学习的学习结果,所述初始搜索词聚类算法为预先配置的搜索词聚类算法。
204、根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。
其中,不同网站对应的站内搜索词不同。例如,对于旅游类网站,站内搜索词可以为景区价格、景区景色概况、景区旺季淡季、景区游客数量、景区特色景点等,此时,站内搜索词景区价格和景区旺季淡季可以划分为一类,站内搜索词景区景色概况、景区游客数量、景区特色景点可以划分为一类,从而可以方便用户查询和获取该网站的信息。
对于本发明实施例,站内搜索词具体可以通过预置监测代码获取。例如,当需要对A网站进行站内搜索词聚类时,可以预先在A网站中部署相应的监测代码,以获取A网站的站内搜索词。
对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:获取B购物网站对应的网站内容信息为产品名称、产品类型、产品配置、广告链接信息,然后将网站内容信息中的广告链接信息删除,以保证网站内容信息的精度,再根据过滤后的网站内容信息调整该B购物网站对应的搜索词聚类算法,最后根据B购物网站对应的调整后的搜索词聚类算法,对B购物网站中的站内搜索词进行分类,从而可以减少该B购物网站的站内搜索词的聚类误差,提高B购物网站的站内搜索词的聚类精度。
本发明实施例提供的另一种网站内搜索词聚类方法,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。
进一步地,作为图1所示方法的具体实现,本发明实施例提供了一种网站内搜索词的聚类装置,如图3所示,所述装置包括:获取单元31、调整单元32、分类单元33。
获取单元31,用于获取网站对应的网站内容信息。
调整单元32,用于根据所述获取单元31获取的网站内容信息调整所述网站对应的初始搜索词聚类算法。
分类单元33,用于根据所述调整单元32调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。
需要说明的是,本发明实施例提供的一种网站内搜索词的聚类装置所涉及各功能单元的其他相应描述,可以参考图1的对应描述,在此不再赘述。
本发明实施例提供的一种网站内搜索词聚类装置,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。
进一步地,作为图2所示方法的具体实现,本发明实施例提供了另一种网站内搜索词的聚类装置,如图4所示,所属装置包括:获取单元41、调整单元42、分类单元43。
获取单元41,用于获取网站对应的网站内容信息。
调整单元42,用于根据所述获取单元41获取的网站内容信息调整所述网站对应的初始搜索词聚类算法。
分类单元43,用于根据所述调整单元42调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。
所述装置还包括:过滤单元44。
所述过滤单元44,用于根据预置过滤规则对所述网站内容信息进行过滤。
所述配置单元42,具体用于根据过滤后的网站内容信息调整所述网站对应的初始搜索词聚类算法。
所述调整单元42,具体还用于按照预置机器学习算法对所述网站内容信息进行学习。
所述调整单元42,具体还用于根据所述学习结果调整网站对应的初始搜索词聚类算法。
所述获取单元41,具体用于根据预置爬虫程序获取所述网站对应的网站内容信息。
所述获取单元41,还用于根据预置监测代码获取所述网站对应的站内搜索词。
需要说明的是,本发明实施例提供的另一种网站内搜索词的聚类装置所涉及各功能单元的其他相应描述,可以参考图2的对应描述,在此不再赘述。
本发明实施例提供的一种网站内搜索词聚类装置,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。
所述网站内搜索词的聚类装置包括处理器和存储器,上述获取单元、调整单元、分类单元、过滤单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
获取网站对应的网站内容信息;
根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法;
根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种网站内搜索词的聚类方法,其特征在于,包括:
获取网站对应的网站内容信息;
根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,所述初始搜索词聚类算法为预先为所述网站配置的搜索词聚类算法;
根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。
2.根据权利要求1所述的网站内搜索词的聚类方法,其特征在于,所述根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法之前,所述方法还包括:
根据预置过滤规则对所述网站内容信息进行过滤;
所述根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法包括:
根据过滤后的网站内容信息调整所述网站对应的初始搜索词聚类算法。
3.根据权利要求1所述的网站内搜索词的聚类方法,其特征在于,所述根据所述网站内容信息调整所述网站对应的搜索词聚类算法包括:
按照预置机器学习算法对所述网站内容信息进行学习;
根据学习结果调整所述网站对应的初始搜索词聚类算法。
4.根据权利要求1所述的网站内搜索词的聚类方法,其特征在于,所述获取网站对应的网站内容信息包括:
根据预置爬虫程序获取所述网站对应的网站内容信息。
5.根据权利要求1所述的网站内搜索词的聚类方法,其特征在于,所述方法还包括:
根据预置监测代码获取所述网站对应的站内搜索词。
6.一种网站内搜索词的聚类装置,其特征在于,包括:
获取单元,用于获取网站对应的网站内容信息;
调整单元,用于根据所述获取单元获取的网站内容信息调整所述网站对应的初始搜索词聚类算法,所述初始搜索词聚类算法为预先为所述网站配置的搜索词聚类算法;
分类单元,用于根据所述调整单元调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。
7.根据权利要求6所述的网站内搜索词的聚类装置,其特征在于,所述装置还包括:过滤单元;
所述过滤单元,用于根据预置过滤规则对所述网站内容信息进行过滤;
所述调整单元,具体用于根据过滤后的网站内容信息调整所述网站对应的初始搜索词聚类算法。
8.根据权利要求6所述的网站内搜索词的聚类装置,其特征在于,
所述调整单元,具体还用于按照预置机器学习算法对所述网站内容信息进行学习;
所述调整单元,具体还用于根据学习结果调整所述网站对应的初始搜索词聚类算法。
9.根据权利要求6所述的网站内搜索词的聚类装置,其特征在于,
所述获取单元,具体用于根据预置爬虫程序获取所述网站对应的网站内容信息。
10.根据权利要求6所述的网站内搜索词的聚类装置,其特征在于,
所述获取单元,还用于根据预置监测代码获取所述网站对应的站内搜索词。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的网站内搜索词的聚类方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求5中任意一项所述的网站内搜索词的聚类方法。
CN201510792610.4A 2015-11-17 2015-11-17 网站内搜索词的聚类方法及装置 Active CN106708901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510792610.4A CN106708901B (zh) 2015-11-17 2015-11-17 网站内搜索词的聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510792610.4A CN106708901B (zh) 2015-11-17 2015-11-17 网站内搜索词的聚类方法及装置

Publications (2)

Publication Number Publication Date
CN106708901A CN106708901A (zh) 2017-05-24
CN106708901B true CN106708901B (zh) 2021-06-15

Family

ID=58932988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510792610.4A Active CN106708901B (zh) 2015-11-17 2015-11-17 网站内搜索词的聚类方法及装置

Country Status (1)

Country Link
CN (1) CN106708901B (zh)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154181A1 (en) * 2002-01-25 2003-08-14 Nec Usa, Inc. Document clustering with cluster refinement and model selection capabilities
CN101211368B (zh) * 2007-12-25 2011-08-03 北京搜狗科技发展有限公司 一种对查询词分类的方法、装置及搜索引擎系统
CN101770498A (zh) * 2009-01-05 2010-07-07 李铭 分步搜索法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN102831128B (zh) * 2011-06-15 2015-03-25 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法
CN102955807B (zh) * 2011-08-26 2018-10-30 华为软件技术有限公司 一种关联信息的检索方法及装置
CN103425677B (zh) * 2012-05-18 2016-08-24 阿里巴巴集团控股有限公司 关键词分类模型确定方法、关键词分类方法及装置
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN103279944A (zh) * 2013-04-22 2013-09-04 哈尔滨工程大学 一种基于生物地理优化的图像分割方法
CN103218675B (zh) * 2013-05-06 2016-06-01 国家电网公司 一种基于聚类和滑动窗口的短期负荷预测方法
CN103744981B (zh) * 2014-01-14 2017-02-15 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN104794222B (zh) * 2015-04-29 2017-12-12 北京交通大学 网络表格语义恢复方法

Also Published As

Publication number Publication date
CN106708901A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN107957957B (zh) 测试用例的获取方法和装置
CN106649316B (zh) 一种视频推送方法及装置
CN109561052B (zh) 网站异常流量的检测方法及装置
US20140046899A1 (en) Method and Apparatus of Implementing Navigation of Product Properties
CN106708871B (zh) 一种社交业务特征用户的识别方法和装置
CN106648839B (zh) 数据处理的方法和装置
JP2018515845A (ja) ウェブページでのクリック位置を記録及び復元する方法並びに装置
CN112199935B (zh) 数据的比对方法、装置、电子设备及计算机可读存储介质
CN114764774A (zh) 瑕疵检测方法、装置、电子设备及计算机可读存储介质
CN106682044B (zh) 数据处理的方法及装置
CN103475532A (zh) 硬件检测方法和系统
CN106610989B (zh) 搜索关键词聚类方法及装置
CN112651429B (zh) 一种音频信号时序对齐方法和装置
CN108062323B (zh) 一种日志读取方法及装置
CN108984572B (zh) 网站信息推送方法及装置
CN111931920A (zh) 基于级联神经网络的目标检测方法、装置及存储介质
CN106708901B (zh) 网站内搜索词的聚类方法及装置
CN108243037B (zh) 网站流量异常确定方法及装置
CN111291174A (zh) 基于区块链的线上阅读文章资讯排序方法及设备、介质
CN111125087A (zh) 数据的存储方法及装置
CN114968028A (zh) 基于用户行为分析动态改变菜单布局的方法、设备及介质
CN111382220A (zh) 一种poi数据划分方法和装置
CN106776652B (zh) 数据处理方法及装置
CN110347699B (zh) 确定身份证相关实体活跃度的方法及装置
CN106776529B (zh) 业务情感分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant