CN111460307B - 一种移动终端精确搜索方法和装置 - Google Patents

一种移动终端精确搜索方法和装置 Download PDF

Info

Publication number
CN111460307B
CN111460307B CN202010260798.9A CN202010260798A CN111460307B CN 111460307 B CN111460307 B CN 111460307B CN 202010260798 A CN202010260798 A CN 202010260798A CN 111460307 B CN111460307 B CN 111460307B
Authority
CN
China
Prior art keywords
information
webpage
list
threshold
meeting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010260798.9A
Other languages
English (en)
Other versions
CN111460307A (zh
Inventor
赵胜飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weinan Shuangying Future Technology Co ltd
Original Assignee
Weinan Shuangying Future Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weinan Shuangying Future Technology Co ltd filed Critical Weinan Shuangying Future Technology Co ltd
Priority to CN202010260798.9A priority Critical patent/CN111460307B/zh
Publication of CN111460307A publication Critical patent/CN111460307A/zh
Application granted granted Critical
Publication of CN111460307B publication Critical patent/CN111460307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种移动终端精确搜索方法和装置,属于智能搜索、网络搜索技术领域;其技术要点在于:所述搜索方法包括:移动终端向服务器发送搜索指令,爬取网页集合;每隔第一预置时间获取网页的第一信息,通过第一信息相关的阈值进行筛选,将符合第一阈值、第二阈值的网页集合放入结果列表,将所有不符合第一阈值的网页集合放入删除列表,将符合第一阈值且不符合第二阈值的网页集合放入待删除列表;对于待删除列表中的网页,每隔第二预置时间进行再次判断,将满足第三阈值条件的网页集合放入结果列表,不符合条件的网页集合放入删除列表。采用本申请的移动终端精确搜索方法和装置,能够保证信息的准确度。

Description

一种移动终端精确搜索方法和装置
技术领域
本发明涉及一种移动终端精确搜索方法和装置,属于智能搜索、网络搜索技术领域。
背景技术
随着互联网技术飞速发展,以及数据量级的持续增加,互联网搜索分析成为应用广泛的新兴技术。目前的搜索主要是靠搜索引擎对互联网上的信息资源进行搜集整理,以供人们查询,一般包括信息搜集、信息整理和用户查询。目前的搜索主要分为早期的非个性化搜索与近期的个性化搜索。非个性化搜索是以信息搜集和整理为主,将信息按照类别进行归类,用户查询时在类别中自行查找数据,无论是搜索的效率还是精度,都有所欠缺。
近年来,互联网搜索引擎向个性化搜索发展,在信息搜集、信息整理的基础上,加入用户个人信息作为权重项,以使得搜索结果更满足用户个人需求,更加精准。但由于互联网中同时存在大量无效信息、垃圾信息,在推送搜索结果时也会出现将这些信息作为结果推送给用户的问题。目前存在的一些信息过滤方法,也仅限于从网站管理层面进行垃圾信息识别,其时效性有限。并且对于过滤后的信息,也直接进行删除处理,导致误判断的一些有用信息被遗漏。
发明内容
针对现有技术中存在的技术问题,本发明实施例提供一种移动终端精确搜索方法和装置,以使得搜索结果更精确有效。
一种移动终端精确搜索方法,所述搜索方法包括:移动终端向服务器发送搜索指令,爬取网页集合;
每隔第一预置时间获取网页的第一信息,通过第一信息相关的阈值进行筛选,将符合第一阈值、第二阈值的网页集合放入结果列表,将所有不符合第一阈值的网页集合放入删除列表,将符合第一阈值且不符合第二阈值的网页集合放入待删除列表;
对于待删除列表中的网页,每隔第二预置时间进行再次判断,将满足第三阈值条件的网页集合放入结果列表,不符合条件的网页集合放入删除列表;
将删除列表中的网页删除,并返回结果列表内容,显示在移动终端上。
进一步,所述第一信息包括内容信息、更新信息、解析信息。
进一步,所述内容信息通过建立的随机森林模型获取,对爬取的每个网页内容、标签内容进行top-n排列,获取排列在前的词语、短句作为所述网页的关键内容。
进一步,所述更新信息包括网页更新时间和更新类型。
进一步,所述解析信息包括解析主机地址、域名信息、服务商信息。
进一步,所述通过第一信息相关的阈值进行筛选包括,将内容信息、解析信息与预设的第一阈值进行比较,将更新信息与预设的第二阈值进行比较。
进一步,所述每隔第二预置时间进行再次判断包括,每隔第二预置时间,将网页的更新信息与预设的第三阈值进行比较,若超过阈值则判断为符合条件的网页,从待删除列表迁移到结果列表中。
进一步,所述显示包括,将结果列表中的网页链接按照更新时间顺序进行排列显示,用户点击后记录在日志中,根据历史日志信息修正搜索结果。
一种移动终端精确搜索装置,所述搜索方法包括:
发送模块,用于移动终端向网络服务器发送搜索指令,爬取网页集合;
第一筛选模块,用于每隔第一预置时间获取网页的第一信息,通过第一信息相关的阈值进行筛选,将符合第一阈值、第二阈值的网页集合放入结果列表,将所有不符合第一阈值的网页集合放入删除列表,将符合第一阈值且不符合第二阈值的网页集合放入待删除列表;
第二筛选模块,用于对于待删除列表中的网页,每隔第二预置时间进行再次判断,将满足第三阈值条件的网页集合放入结果列表,不符合条件的网页集合放入删除列表;
显示模块,用于将删除列表中的网页删除,并返回结果列表内容,显示在移动终端上。
进一步,所述第一信息包括内容信息、更新信息、解析信息。
进一步,所述内容信息通过建立的随机森林模型获取,对爬取的每个网页内容、标签内容进行top-n排列,获取排列在前的词语、短句作为所述网页的关键内容。
进一步,所述更新信息包括网页更新时间、更新类型。
进一步,所述解析信息包括解析主机地址、域名信息、服务商信息。
进一步,所述通过第一信息相关的第一阈值进行筛选包括,将内容信息、解析信息与预设的第一阈值进行比较,将更新信息与预设的第二阈值进行比较。
进一步,所述每隔第二预置时间进行再次判断包括,每隔第二预置时间,将网页的更新信息与预设的第三阈值进行比较,若超过阈值则判断为符合条件的网页,从待删除列表迁移到结果列表中。
进一步,所述显示包括,将结果列表中的网页链接按照更新时间顺序进行排列显示,用户点击后记录在日志中,根据历史日志信息修正搜索结果。
本申请的优点在于:相比于现有技术,在本实施例的方法步骤中,通过多维度信息作为参数,并与预设的阈值进行比较,从而能够保证信息的准确度。还用过设置结果列表与待删除列表,通过第二预置时间内对于待删除列表中的数据进行再次判断,能够有效避免将有用信息误删除,并且充分考虑了在该时间间隔内网页有新的更新补充操作而使其成为有用信息的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明应用实施例中移动终端精确搜索方法的流程图。
图2是本发明应用实施例中移动终端精确搜索装置的示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明所提出的一种移动终端精确搜索方法和装置除用于分布式存储系统之外,还可以广泛应用于其他相同或相近领域中,并取得类似的技术效果。
在一个实施例中,移动终端精确搜索方法,如附图1所示,包括:
步骤S101,移动终端向服务器发送搜索指令,爬取网页集合;
所述搜索指令可以是用户搜索时在移动终端应用界面输入的搜索命令,也可以是用户进行网页浏览时,移动终端应用根据其浏览行为自动发送搜索指令,自动化为用户进行信息推送,以提高用户体验。服务器通过网络爬虫模块定向抓取搜索指令相关的网页资源,网页数量限于存储空间和实际搜索需求。
步骤S102,每隔第一预置时间获取网页的第一信息,通过第一信息相关的阈值进行筛选,将符合第一阈值、第二阈值的网页集合放入结果列表,将所有不符合第一阈值的网页集合放入删除列表,将符合第一阈值且不符合第二阈值的网页集合放入待删除列表;
所述多维度信息包括内容信息、更新信息、解析信息。所述内容信息通过建立的随机森林模型获取,对爬取的每个网页内容、标签内容进行top-n排列,获取排列在前的词语、短句作为所述网页的关键内容。
所述模型不限于随机森林模型,还可以是Adaboost联合分类器、支持向量机、K-means聚类等一种或多种方法的组合模型。其具体的步骤是,对于爬取的网页,抓取网页内容,包括页面内容和标签内容,作为训练集输入模型分类器中。对于建立的模型进行结果迭代训练,直至输出的结果满足误差阈值范围或者迭代次数超过一定次数,则停止训练。通过建立的模型能快速、准确地提取网页关键内容,以供后续与预设阈值比较,并与搜索指令相匹配筛选。
所述更新信息包括网页更新时间、更新类型。
网页更新时间可以依据日志信息获取,对于长时间不更新的网页,其信息有效性、实时性差,在现有技术中只将网页按内容信息进行判断和排列,会导致一些长期不更新的无效网页作为结果呈现给用户。因此,本发明将网页更新时间加入过滤和筛选因素,使得结果保持有效性,更加精确。
另外对于网页更新,也分为主贴人更新和其他更新等类型,其他更新一般为回复人更新。主贴人是发表帖子、博文的作者,其更新是对于其发表内容的更新和修改或内容延续,其更新操作的价值更大。而对于该帖子、博文的回复信息,其价值和作用相较而言较小。因此在进行信息筛选与过滤时,根据不同的更新类型,也设置不同的权重,使得推送结果更加准确。
所述解析信息包括解析主机地址、域名信息、服务商信息。
互联网上存在许多垃圾网页,包括钓鱼网页、不良网页等,在搜索结果的筛选中,需要排除这些信息,否则会影响用户体验。对于不良网站来说,其解析主机有一定的地址分布规律性,大多数的不良网站由少数的几个解析服务器进行解析。同时根据网站域名信息和服务商信息的获取,通过与预设阈值的比较,可以进行识别和过滤。
所述通过多维度信息相关的第一阈值进行筛选包括,将内容信息、解析信息与预设的第一阈值进行比较,将更新信息与预设的第二阈值进行比较。
内容信息、解析信息、更新信息作为反应网页属性的信息,将其进行标准化处理,生成统一数值格式。所述标准化处理依据预先建立的对应表规则,将不同在第一预置时间内将与预设第一、第二阈值进行比较,所述阈值为依据历史数据训练获得。
步骤S103,对于待删除列表中的网页,每隔第二预置时间进行再次判断,将满足第三阈值条件的网页集合放入结果列表,不符合条件的网页集合放入待删除列表;
所述每隔第二预置时间进行再次判断包括,每隔第二预置时间,将网页的更新信息与预设的第三阈值进行比较,若超过第三阈值则判断为符合条件的网页,从待删除列表迁移到结果列表中。
网页的更新信息包括更新时间和更新类型,在第二预置时间内进行再次比较,可将此时间间隔内有价值更新的相关网页进行重新判定,符合条件的网页从待删除列表中迁移到结果列表。例如对于主贴人只在近期有更新的网页,将通过第二预置时间内的判断,最终出现在推送结果中。
步骤S104,将删除列表中的网页删除,并返回结果列表内容,显示在移动终端上。
所述显示包括,将结果列表中的网页链接按照更新时间顺序进行排列显示,用户点击后记录在日志中,根据历史日志信息修正搜索结果。
在另一个实施例中,移动终端精确搜索装置,如附图2所示,包括:
发送模块S201,用于移动终端向服务器发送搜索指令,爬取网页集合;
所述搜索指令可以是用户搜索时在移动终端应用界面输入的搜索命令,也可以是用户进行网页浏览时,移动终端应用根据其浏览行为自动发送搜索指令,自动化为用户进行信息推送,以提高用户体验。服务器通过网络爬虫模块定向抓取搜索指令相关的网页资源,网页数量限于存储空间和实际搜索需求。
第一筛选模块S202,用于每隔第一预置时间获取网页的第一信息,通过第一信息相关的阈值进行筛选,将符合第一阈值、第二阈值的网页集合放入结果列表,将所有不符合第一阈值的网页集合放入删除列表,将符合第一阈值且不符合第二阈值的网页集合放入待删除列表;
所述多维度信息包括内容信息、更新信息、解析信息。所述内容信息通过建立的随机森林模型获取,对爬取的每个网页内容、标签内容进行top-n排列,获取排列在前的词语、短句作为所述网页的关键内容。
所述模型不限于随机森林模型,还可以是Adaboost联合分类器、支持向量机、K-means聚类等一种或多种方法的组合模型。其具体的步骤是,对于爬取的网页,抓取网页内容,包括页面内容和标签内容,作为训练集输入模型分类器中。对于建立的模型进行结果迭代训练,直至输出的结果满足误差阈值范围或者迭代次数超过阈值,则停止训练。通过建立的模型能快速、准确地提取网页关键内容,以供后续与预设阈值比较,并与搜索指令相匹配筛选。
所述更新信息包括网页更新时间、更新类型。
网页更新时间可以依据日志信息获取,对于长时间不更新的网页,其信息有效性、实时性差,在现有技术中只将网页按内容信息进行判断和排列,会导致一些长期不更新的无效网页作为结果呈现给用户。因此,本发明将网页更新时间加入过滤和筛选因素,使得结果保持有效性,更加精确。
另外对于网页更新,也分为主贴人更新和其他更新等类型,其他更新一般为回复人更新。主贴人是发表帖子、博文的作者,其更新是对于其发表内容的更新和修改或内容延续,其更新操作的价值更大。而对于该帖子、博文的回复信息,其价值和作用相较而言较小。因此在进行信息筛选与过滤时,根据不同的更新类型,也设置不同的权重,使得推送结果更加准确。
所述解析信息包括解析主机地址、域名信息、服务商信息。
互联网上存在许多垃圾网页,包括钓鱼网页、不良网页等,在搜索结果的筛选中,需要排除这些信息,否则会影响用户体验。对于不良网站来说,其解析主机有一定的地址分布规律性,大多数的不良网站由少数的几个解析服务器进行解析。同时根据网站域名信息和服务商信息的获取,通过与预设阈值的比较,可以进行识别和过滤。
所述通过多维度信息相关的第一阈值进行筛选包括,将内容信息、解析信息与预设的第一阈值进行比较,将更新信息与预设的第二阈值进行比较。
内容信息、解析信息、更新信息作为反应网页属性的信息,将其进行标准化处理,生成统一数值格式。所述标准化处理依据预先建立的对应表规则,将不同在第一预置时间内将与预设第一、第二阈值进行比较,所述阈值为依据历史数据训练获得。
第二筛选模块S203,用于对于待删除列表中的网页,每隔第二预置时间进行再次判断,将满足第三阈值条件的网页集合放入结果列表,不符合条件的网页集合放入待删除列表;
所述每隔第二预置时间进行再次判断包括,每隔第二预置时间,将网页的更新信息与预设的第三阈值进行比较,若超过第三阈值则判断为符合条件的网页,从待删除列表迁移到结果列表中。
网页的更新信息包括更新时间和更新类型,在第二预置时间内进行再次比较,可将此时间间隔内有价值更新的相关网页进行重新判定,符合条件的网页从待删除列表中迁移到结果列表。例如对于主贴人只在近期有更新的网页,将通过第二预置时间内的判断,最终出现在推送结果中。
显示模块S204,用于将删除列表中的网页删除,并返回结果列表内容,显示在移动终端上。
所述显示包括,将结果列表中的网页链接按照更新时间顺序进行排列显示,用户点击后记录在日志中,根据历史日志信息修正搜索结果。
上述实施例的各种方法中的全部或部分步骤是本领域技术人员可以理解的通过存储在计算机可读存储介质中的程序指令相关的处理器来完成。所述存储介质可以包括但不限于:缓存、闪存、只读存储器、磁盘、硬盘或光盘等。
上述所有仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员来说,本发明可以有各种更改和变化,凡在本发明的精神和原则之内,所作的任何修改、等他替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种移动终端精确搜索方法,其特征在于,所述搜索方法包括:移动终端向服务器发送搜索指令,爬取网页集合;
每隔第一预置时间获取网页的第一信息,通过第一信息相关的阈值进行筛选,将符合第一阈值、第二阈值的网页集合放入结果列表,将所有不符合第一阈值的网页集合放入删除列表,将符合第一阈值且不符合第二阈值的网页集合放入待删除列表;
对于待删除列表中的网页,每隔第二预置时间进行再次判断,将满足第三阈值条件的网页集合放入结果列表,不符合条件的网页集合放入删除列表;
将删除列表中的网页删除,并返回结果列表内容,显示在移动终端上;
所述第一信息包括内容信息、更新信息、解析信息;
所述通过第一信息相关的阈值进行筛选包括,将内容信息、解析信息与预设的第一阈值进行比较,将更新信息与预设的第二阈值进行比较;
所述每隔第二预置时间进行再次判断包括,每隔第二预置时间,将网页的更新信息与预设的第三阈值进行比较,若超过阈值则判断为符合条件的网页,从待删除列表迁移到结果列表中。
2.如权利要求1所述的搜索方法,其特征在于,所述内容信息通过建立的随机森林模型获取,对爬取的每个网页内容、标签内容进行top-n排列,获取排列在前的词语、短句作为所述网页的关键内容。
3.如权利要求1所述的搜索方法,其特征在于,所述更新信息包括网页更新时间和更新类型。
4.如权利要求1所述的搜索方法,其特征在于,所述解析信息包括解析主机地址、域名信息、服务商信息。
5.如权利要求1所述的搜索方法,其特征在于,所述显示包括,将结果列表中的网页链接按照更新时间顺序进行排列显示,用户点击后记录在日志中,根据历史日志信息修正搜索结果。
6.一种移动终端精确搜索装置,其特征在于,所述搜索装置包括:
发送模块,用于移动终端向网络服务器发送搜索指令,爬取网页集合;
第一筛选模块,用于每隔第一预置时间获取网页的第一信息,通过第一信息相关的阈值进行筛选,将符合第一阈值、第二阈值的网页集合放入结果列表,将所有不符合第一阈值的网页集合放入删除列表,将符合第一阈值且不符合第二阈值的网页集合放入待删除列表;
第二筛选模块,用于对于待删除列表中的网页,每隔第二预置时间进行再次判断,将满足第三阈值条件的网页集合放入结果列表,不符合条件的网页集合放入删除列表;
显示模块,用于将删除列表中的网页删除,并返回结果列表内容,显示在移动终端上;
所述第一信息包括内容信息、更新信息、解析信息;
所述通过第一信息相关的阈值进行筛选包括,将内容信息、解析信息与预设的第一阈值进行比较,将更新信息与预设的第二阈值进行比较;
所述每隔第二预置时间进行再次判断包括,每隔第二预置时间,将网页的更新信息与预设的第三阈值进行比较,若超过阈值则判断为符合条件的网页,从待删除列表迁移到结果列表中。
CN202010260798.9A 2020-04-03 2020-04-03 一种移动终端精确搜索方法和装置 Active CN111460307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010260798.9A CN111460307B (zh) 2020-04-03 2020-04-03 一种移动终端精确搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010260798.9A CN111460307B (zh) 2020-04-03 2020-04-03 一种移动终端精确搜索方法和装置

Publications (2)

Publication Number Publication Date
CN111460307A CN111460307A (zh) 2020-07-28
CN111460307B true CN111460307B (zh) 2020-11-06

Family

ID=71681633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010260798.9A Active CN111460307B (zh) 2020-04-03 2020-04-03 一种移动终端精确搜索方法和装置

Country Status (1)

Country Link
CN (1) CN111460307B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042709A (zh) * 2007-04-11 2007-09-26 芦树鹏 主动式搜索
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置
CN102402613A (zh) * 2011-12-20 2012-04-04 上海电机学院 网页文本信息过滤系统及方法
CN110837595A (zh) * 2019-11-05 2020-02-25 北京市燃气集团有限责任公司 一种企业信息资讯数据处理方法、系统、终端及存储介质
US10606810B2 (en) * 2017-01-09 2020-03-31 Splunk Inc. Clustered search head configurations synchronization with bloom filter

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6334131B2 (en) * 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
JP2000227918A (ja) * 1999-02-05 2000-08-15 Nec Corp 情報フィルタリング方法及びその装置並びに情報フィルタリングプログラムを記録した記録媒体
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN104133830A (zh) * 2013-05-02 2014-11-05 乐视网信息技术(北京)股份有限公司 一种数据获取方法
CN105095175B (zh) * 2014-04-18 2019-04-30 北京搜狗科技发展有限公司 获取截短的网页标题的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042709A (zh) * 2007-04-11 2007-09-26 芦树鹏 主动式搜索
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置
CN102402613A (zh) * 2011-12-20 2012-04-04 上海电机学院 网页文本信息过滤系统及方法
US10606810B2 (en) * 2017-01-09 2020-03-31 Splunk Inc. Clustered search head configurations synchronization with bloom filter
CN110837595A (zh) * 2019-11-05 2020-02-25 北京市燃气集团有限责任公司 一种企业信息资讯数据处理方法、系统、终端及存储介质

Also Published As

Publication number Publication date
CN111460307A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
JP4837040B2 (ja) ブログ文書のランク付け
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN103177075B (zh) 基于知识的实体检测和消歧
JP5721818B2 (ja) 検索におけるモデル情報群の使用
US11610246B2 (en) Product and content association
US20130138655A1 (en) Web Knowledge Extraction for Search Task Simplification
US8423885B1 (en) Updating search engine document index based on calculated age of changed portions in a document
US20150287047A1 (en) Extracting Information from Chain-Store Websites
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
CN111506795B (zh) 一种招标信息获取方法及装置
CN113297457B (zh) 一种高精准性的信息资源智能推送系统及推送方法
US20150302090A1 (en) Method and System for the Structural Analysis of Websites
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
KR101556743B1 (ko) 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법
WO2020063448A1 (zh) 一种信息拦截的方法、装置及终端
CN105204806A (zh) 移动终端网页个性化显示方法及装置
CN105159898A (zh) 一种搜索的方法和装置
US20150269268A1 (en) Search server and search method
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN111460307B (zh) 一种移动终端精确搜索方法和装置
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN107169065B (zh) 一种特定内容的去除方法和装置
JP2018206189A (ja) 情報収集装置、および、情報収集方法
AU2011204929B2 (en) Ranking blog documents
CN105159899A (zh) 一种搜索的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant