CN101849232A - 搜索引擎及其对中介信息的过滤方法 - Google Patents

搜索引擎及其对中介信息的过滤方法 Download PDF

Info

Publication number
CN101849232A
CN101849232A CN200780052784A CN200780052784A CN101849232A CN 101849232 A CN101849232 A CN 101849232A CN 200780052784 A CN200780052784 A CN 200780052784A CN 200780052784 A CN200780052784 A CN 200780052784A CN 101849232 A CN101849232 A CN 101849232A
Authority
CN
China
Prior art keywords
intermediary
information
search engine
intermediary message
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200780052784A
Other languages
English (en)
Inventor
林海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN101849232A publication Critical patent/CN101849232A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种搜索引擎及其对中介信息的过滤方法,该方法包括:从互联网抓取网页,送入网页数据库;进行链接信息提取,从网页数据库提取网页标题和网页内容,并从网页内容中进一步提取中介特征信息;对提取的中介特征信息进行分析,如果满足设定的中介信息判断条件,则判断该中介特征信息对应的信息为中介信息;在搜索结果中过滤掉中介信息。

Description

技术领域
本发明涉及计算机搜索引擎技术, 特别涉及搜索引擎及其对中介信息的过 滤方法。 背景技术
互联网提供了即时丰富的信息 (以及人与人沟通参与 /娱乐的平台) , 深层 影响着现代人的生活。 但随着网站数量和内容的急增, 互联网就像是没有目录 的巨大百科全书, 让人们无法找寻自己想要的信息。 而搜索引擎的出现, 为这 本百科全书加上了目录和索引。 只需要在搜索框中敲入关键词汇, 就能够获得 相关的信息或网址。 面对浩瀚的网络资源, 搜索引擎为所有网上冲浪的用户提 供了一个入口, 毫不夸张的说, 几乎所有的用户都可以从搜索出发到达自己想 去的网上任何一个地方。 因此它也成为除了电子邮件以外最多人使用的网上服 务。
图 1 列出了现有技术中一个典型的搜索引擎的系统架构图, 搜索引擎的各 部分都会相互交错相互依赖。 其处理流程大致如下:
网络蜘蛛从互联网上抓取网页, 抓取过程如下: (1)手工向 URL数据库中加 入一个或多个起始网页的 URL (统一资源定位符, 又称为网页地址), 这些 URL也 称为种子; (2) 网络蜘蛛程序从 URL数据库中获取一个 URL,抓取这个 URL对应的 网页内容, 然后把网页内容放入网页数据库中; (3 ) 把抓取到的网页中的满足 要求的 URL提取出, 放入 URL数据库中。 判断 URL是否满足要求的方法为模式匹 配; (4) 重复步骤 (2) 一 (3 ) , 直到网页数据库不再有新的记录加入。
系统从网页数据库中取得网页原始页面, 从网页中提取文本信息, 即把 HTML 语法标记全部去除。 然后把提取后的文本信息送入文本索引模块建立索引, 建 立索引的过程为首先计算页面内容中及超链中每一个关键词的相关度 (或重要 性) , 然后用这些相关信息建立网页索引数据库, 形成索引数据库。 文本索引 建立的过程中, 需要参考网站的链接信息, 主要是用来防止非法网站, 例如网 站自身的多重循环链接。 索引数据库建立的同时, 也从网页数据库进行链接信 息提取, 把链接信息 (包括锚文本、 链接本身等信息) 送入链接数据库, 为网 页评级提供依据。
用户通过提交查询请求给查询服务器, 服务器在索引数据库中进行相关网 页的查找, 同时网页评级把查询请求和链接信息结合起来对搜索结果进行相关 度的评价, 通过査询服务器按照相关度进行排序, 并提取关键词的内容摘要, 最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返 回给用户。
如图 1 所示的搜索引擎的系统架构中, 网络蜘蛛 (Spider) 和链接信息提 取 (Parser) 模块是最主要的部分。 其中:
所述网络蜘蛛 (Spider ) 使用多线程并发搜索技术, 主要完成文档访问代 理、 路径选择引擎和访问控制引擎。 网络蜘蛛 (Spider) 主要由 URL服务器、 爬行器、 存储器、 URL解析器四大功能部件和资源库 (网页数据库) 、 锚库、 URL 数据库三大数据资源构成, 另外还要借助标引器的一个辅助功能。 具体过程是, URL服务器从 URL数据库中获取要去抓取的 URL,爬行器根据 URL抓取 Web页并送 给存储器, 存储器压缩 Web页并存入网页数据库, 然后由标引器分析每个 Web页 的所有链接并把相关的重要信息存储在锚 (anchors ) 文件中。 URL解析器读锚 文件并解析 URL, 然后依次转成 docID。 再把锚文本变成顺排索引, 送入索引数 据库。 具体过程如图 2所示, 图 2中分析器可以看成是标引器的一部分, 或者 说标引器的一个辅助功能部分。 由于网络蜘蛛的处理流程属于公知技术, 在此 并不详述。
所述链接信息提取模块用于读取网页数据库, 解压缩文档然后进行分析。 每个文档都被转成一套单词出现频率, 称之为釆样数。 釆样数记录单词及在文 档中出现的位置, 字体的大小以及大小写信息。 搜索引擎有两种类型的采样数: ( 1 ) 标题: 此标题为 HTML或 URL的标题以及 HTML文件中的 Meta信息。 通过分析各个单词, 建立索引。 用户就可以通过此索引搜索到此条信息。
(2) 内容: 获取页面的所有内容, 通过分析各个单词, 建立索引。 用户就 可以通过此索弓 I搜索到此条信息。
由此可以看到, 通用的搜索引擎仅仅对网页中的标题和内容进行提取并建 立索引, 并不对内容中的信息进一步提取。
随着搜索引擎能够获取的网页的迅速增加, 用户输入搜索关键词后, 往往 会返回过多信息, 其中包括很多无关或无用信息, 用户必须从结果中进行筛选, 大大影响了用户的搜索效率。 因此, 为了方便使用搜索引擎, 使用户高效率地 从搜索引擎中得到有用的信息, 对搜索结果的处理就显得越来越重要。 例如, 在对于房屋出租信息的搜索结果, 很多用户都希望过滤掉中介的信息。 但目前 的搜索引擎还未能解决这个问题。 发明内容
本发明实施例的目的在于提供一种搜索引擎及其对中介信息的过滤方法, 使得在搜索结果过滤掉部分或全部中介信息。
为了实现上述目的, 本发明提供一种搜索引擎, 包括: 网络蜘蛛、 链接信 息提取模块及査询服务器;
所述链接信息提取模块用于从网页数据库提取网页标题、 网页内容及中介 特征信息, 并通过设定的中介信息判断条件判断该中介特征信息对应的信息是 否为中介信息;
所述搜索引擎从其索引数据库中过滤掉中介信息对应的索引。
本发明还提供一种搜索引擎, 包括: 网络蜘蛛、 链接信息提取模块及查询 服务器;
所述链接信息提取模块用于从网页数据库提取网页标题、 网页内容, 并对 所述网页内容进行分析, 判断包含中介倾向信息的内容为中介信息。
所述搜索引擎从其索引数据库中过滤掉中介信息对应的索引。
本发明还提供一种搜索引擎对中介信息的过滤方法, 包括: 从互联网抓取网页, 送入网页数据库;
进行链接信息提取, 从所述网页数据库提取网页标题和网页内容, 并从网 页内容中进一步提取中介特征信息;
对提取的中介特征信息进行分析, 如果满足设定的中介信息判断条件, 则 判断该中介特征信息对应的信息为中介信息;
在搜索结果中过滤掉中介信息。
本发明还提供一种搜索引擎对中介信息的过滤方法, 包括:
从互联网抓取网页, 送入网页数据库;
进行链接信息提取, 从所述网页数据库提取网页标题和网页内容, 并对提 取的网页内容进行分析, 如果该网页内容中包含中介倾向信息, 则判断该中介 倾向信息对应的信息为中介信息;
在搜索结果中过滤掉中介信息。
本发明实施例的搜索引擎及其对中介信息的过滤方法可以过滤掉搜索结果 中的部分或全部中介信息, 有效防止了中介信息对用户的干扰, 提高了搜索结 果的可用性, 为用户提供了更大的方便。 附图说明
此处所说明的附图用来提供对本发明的进一步理解, 构成本申请的一部分, 并不构成对本发明的限定。 在附图中:
图 1为现有技术中典型的搜索引擎的系统架构图;
图 2为现有技术中网络蜘蛛的处理流程示意图;
图 3为本发明实施例的过滤中介信息的流程示意图。 具体实施方式
为使本发明的目的、 技术方案和优点更加清楚, 下面结合附图对本发明的 具体实施例进行详细说明。 在此, 本发明的示意性实施例及其说明用于解释本 发明, 但并不作为对本发明的限定。 实施例 1
如果希望搜索引擎对搜索结果进行有针对性的筛选, 必须让搜索引擎 "了 解"页面的内容。 例如, 对于房屋出租等信息的搜索结果, 如果希望过滤掉中 介信息, 则需要了解中介信息的一般特征。 中介信息一般具有如下特征中的一 个或多个:
( 1 ) 同一个中介会发布很多条不同的信息。 以出租房屋为例, 中介一般会 发布很多个不同地点的租房信息。
(2) 发布的信息中包含公司信息。 例如公司地址和公司联系方式等。
( 3 ) 发布的信息中包含不合理的信息。 例如包括不正确的电话号码(包括 手机号、 固定电话号码、 小灵通号码等) , 非常低的价格等。
本发明实施例基于通用的垂直搜索, 对搜索引擎的链接信息提取部分 (链 接信息提取模块)进行修改。本实施例中的搜索引擎主要包括网络蜘蛛(Spider) 、 链接信息提取模块 (Parser) 和査询服务器。 其中, 所述网络蜘蛛 (Spider ) 和査询服务器采用通用的处理技术, 在此不作详述。 所述链接信息提取模块针 对中介信息的特征进行了改进, 除了获取网页标题和内容之外, 还对内容中的 信息进一步的提取, 以提取用于识别中介信息的中介特征信息 (如电话号码、 Email和价格等) , 同时也可对提取的内容进行进一步处理: 通过提取并分析中 介特征信息, 可以找出同一个中介发布的很多条中介信息以及包含有不合理信 息的中介信息; 通过对提取的网页内容的分析处理, 可以找出进一步的包含公 司信息或其它有中介倾向的信息。
改进后的链接信息提取模块除了可获取网页标题和内容之外, 还增加了如 下功能:
( 1 ) 提取用于判断中介信息的中介特征信息 (以电话号码和 Emai l为例进 行说明) -
I .提取用户电话号码,提取方式为模式匹配,即针对每个网页寻找 "手机"、 "移动电话"、 "电话"、 "小灵通"、 "Mobile Phone" 、 "Cell Phone "等, 一旦发现就提取这些字符串后面的第一个连续的数字。 第一个连续的数字就是 用户的电话号码。
Π . 提取用户 Email , 提取方式为模式匹配, 即针对每个网页寻找 "电子邮 箱" 、 "Emai l "等,一旦发现就提取这些字符串后面的连续的字符串, 遇到空 格停止提取。 提取到的字符串就是用户的 Email。
( 2) 提取电话号码和用户 Email后, 统计相同的电话号码或 Email的重复 次数。 统计与时间有关, 一般统计过去 n个月 (24>η>1, 例如 3个月) 的电话 号码或 eamil的重复次数。
( 3) 对于电话号码和 eamil 的重复次数各设置一个阈值, 如果超过这个阈 值, 就认为信息是中介发布。 例如对电话号码的重复次数设置阈值为 10, 当一 个电话号码重复次数大于 10时,则认为该电话号码对应的信息全部是中介信息。
(4) 对于电话号码进行分析, 根据号码前缀规则, 判断出不存在或不合法 的号码。
例如中国的网站上以 010开始的号码, 第 4个数字必须为 5、 6、 8。 否则, 则认为这个号码对应的信息全部是中介信息。
( 5 ) 对网页主体内容进行分析, 以识别中介信息。
由于中介发布的信息中有的还包含 "公司"、 "大量房源" 字样等具有中 介倾向的信息, 因此链接信息提取模块通过对提取的内容进行分析处理, 可以 进一步的识别出这些中介信息。 例如, 可对网页主体内容进行分析, 如果包含 "本公司" 、 "公司地址"、 "我公司" "大量房源"等字样, 则认为这条信息 为中介信息。
链接信息提取模块提取如上信息后, 仅对判断为非中介信息的信息建立索 引, 或者链接信息提取模块提取如上信息后, 建立索引, 但对于判定为是中介 信息的所有信息从索引数据库中删除。 建立索引采用的是通用的 "倒排索引" 技术 (由于倒排索引技术是本技术领域的公知技术, 在此不作详述) 。
这样, 索引数据库中就过滤掉了中介信息对应的索引, 用户通过提交査询 请求给查询服务器, 服务器在索引数据库中进行相关网页的查找, 返回的搜索 结果中便基本过滤掉了中介信息。
图 3 为本发明一实施例的搜索引擎对中介信息的过滤流程示意图。 如图 3 所示, 包括如下步骤:
步骤 100, 提取中介特征信息(如电话号码和 Email ), 具体包括如下信息: i. 手机号码;
ii. 固定电话号码;
iii. 小灵通号码;
iv. Email。
步骤 200,对于提取到的相同的信息进行计数。 本实施例实现的方式为在搜 索引擎的后台数据库中建立一个表, 第一个字段为电话号码或者 Email,第二个 字段为重复出现的次数。 每提取一个信息后, 先查询这个表, 如果已经存在记 录, 则把相应的重复出现次数加 1; 如果没有记录, 则插入一个记录, 把相应的 重复出现次数设置为 1。
步骤 300、 步骤 400, 如果某个手机、 固定电话、 小灵通或者 Email的重复 次数多于 10次, 则不对此手机、 电话、 小灵通或者 Email所对应的所有发布信 息建立索引, 或者把此手机、 电话、 小灵通或者 Email 所对应的所有发布信息 从搜索引擎的索引数据库中删除。
步骤 500, 判断手机、 电话或小灵通号码是否合法, 判断的规则是根据中国 各个地方的号码规则表, 例如北京的电话号码为 8位。 对于不符合规则的, 把 此手机、 电话、 小灵通所对应的所有发布信息从搜索引擎的索引数据库中删 除。
步骤 600, 判断提取的网页内容是否有中介倾向。 如果网页内容包含"本公 司" "大量房源"或者包含多个不同的地址 (例如: 现有东直门、 西直门、 中 关村多处住房) , 则不对此条信息建立索引, 或者把此条信息从搜索引擎的索 在本实施例的上述步骤 300-600 的每一步骤中, 对判断为中介信息的信息 也可以先不进行特殊处理, 而在所有条件都判断完之后再对所有判断的中介信 息从搜索引擎的索引数据库中删除; 或者在所有条件都判断完之后再将非中介 信息添加到索引数据库中, 供用户查询使用, 对判断为中介信息的信息则不建 立索引。 但本发明并不限于这些方式, 只要能将判断的中介信息从索引数据库 中过滤掉, 都应涵盖在本发明的范围之内。
另外, 图 3所示的本实施例中的如上各步骤并没有先后顺序上的限制, 并 且, 中介特征信息并不限于实施例中给出的电话号码或者 Email , 还可以为价格 等其它信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤可 以通过程序来指令相关的硬件来完成, 该程序可以存储于一计算机可读取存储 介质中, 比如 R0M/RAM、 磁碟、 光盘等。
通过以上的处理, 就可以把搜索引擎的索引数据库记录提供给查询服务器, 供用户查询使用。 此时, 由于索引数据库中已经基本不包含中介信息的索引, 因此这样处理后, 搜索结果中的中介信息可由处理之前的 90%降低为 10%以下。
如上所述, 本发明实施例的搜索引擎及其对中介信息的过滤方法可以过滤 掉搜索结果中的部分或全部中介信息, 有效防止了中介信息对用户的干扰, 提 高了搜索结果的可用性, 为用户提供了更大的方便。
以上具体实施方式仅用于说明本发明, 而非用于限定本发明。 凡在本发明 的精神和原则之内, 所做的任何修改、 等同替换、 改进等, 均应包含在本发明 的保护范围之内。

Claims (28)

  1. 权 利 要 求
    1. 一种搜索引擎对中介信息的过滤方法, 其特征在于, 该方法包括: 从互联网抓取网页, 送入网页数据库;
    进行链接信息提取, 从所述网页数据库提取网页标题和网页内容, 并从阿 页内容中进一步提取中介特征信息;
    对提取的中介特征信息进行分析, 如果满足设定的中介信息判断条件, 则 判断该中介特征信息对应的信息为中介信息;
    在搜索结果中过滤掉该中介信息。
  2. 2. 根据权利要求 1所述的方法, 其特征在于- 对所述中介特征信息的提取方式为模式匹配方式。
  3. 3. 根据权利要求 1所述的方法, 其特征在于:
    所述的中介特征信息为电话号码及 /或电子邮件信息;
    对提取的中介特征信息进行分析是指: 统计预定时间内网页中相同电话号 码及 /或电子邮件的重复次数;
    所述设定的中介信息判断条件为: 所述相同电话号码及 /或电子邮件信息的 重复次数超过各自对应的阈值。
  4. 4. 根据权利要求 1所述的方法, 其特征在于:
    所述的中介特征信息为电话号码;
    所述设定的中介信息判断条件为: 所述电话号码为错误电话号码。
  5. 5. 根据权利要求 1所述的方法, 其特征在于- 所述中介特征信息为价格信息;
    所述设定的中介信息判断条件为: 所述价格低于设定的阈值。
  6. 6. 根据权利要求 1-5中任意一项所述的方法, 其特征在于, 在搜索结果 中过滤掉中介信息是指:
    从搜索引擎的索引数据库中删除中介信息或者仅对判断为非中介信息的信 息建立索引, 以从索引数据库中过滤掉中介信息; 搜索引擎基于过滤掉中介信息的索引数据库进行检索, 获得检索结果。
  7. 7 . 根据权利要求 1-5中任意一项所述的方法, 其特征在于, 该方法还包 括- 对提取的网页内容进行分析, 如果该网页内容中包含中介倾向信息, 则判 断该中介倾向信息对应的信息为中介信息。
  8. 8. 一种搜索引擎对中介信息的过滤方法, 其特征在于:
    从互联网抓取网页, 送入网页数据库;
    进行链接信息提取, 从所述网页数据库提取网页标题和网页内容, 并对提 取的网页内容进行分析, 如果该网页内容中包含中介倾向信息, 则判断该中介 倾向信息对应的信息为中介信息;
    在搜索结果中过滤掉中介信息。
  9. 9 . 根据权利要求 8所述的方法, 其特征在于, 该方法还包括:
    从网页内容中进一步提取中介特征信息;
    对提取的中介特征信息进行分析, 如果满足设定的中介信息判断条件, 则 判断该中介特征信息对应的网页信息为中介信息。
  10. 1 0. 根据权利要求 9所述的方法, 其特征在于:
    对所述中介特征信息的提取方式为模式匹配方式。
  11. 11 . 根据权利要求 9所述的方法, 其特征在于:
    所述的中介特征信息为电话号码及 /或电子邮件信息;
    对提取的中介特征信息进行分析是指: 统计预定时间内网页中相同电话号 码及 /或电子邮件的重复次数;
    所述设定的中介信息判断条件为: 所述相同电话号码及 /或电子邮件信息的 重复次数超过各自对应的阈值。
  12. 12. 根据权利要求 9所述的方法, 其特征在于- 所述的中介特征信息为电话号码;
    所述设定的中介信息判断条件为: 所述电话号码为错误电话号码。
  13. 13. 根据权利要求 9所述的方法, 其特征在于:
    所述中介特征信息为价格信息;
    所述设定的中介信息判断条件为: 所述价格低于设定的阈值。
  14. 14. 根据权利要求 8-13中任意一项所述的方法, 其特征在于, 在搜索结果 中过滤掉中介信息是指:
    从搜索引擎的索引数据库中删除中介信息或者仅对判断为非中介信息的信 息建立索引, 以从索引数据库中过滤掉中介信息;
    搜索引擎基于过滤掉中介信息的索引数据库进行检索, 获得检索结果。
  15. 15. 一种搜索引擎, 包括网络蜘蛛和查询服务器, 其特征在于, 该搜索引 擎还包括链接信息提取模块;
    所述链接信息提取模块用于从网页数据库提取网页标题、 网页内容及中介 特征信息, 并通过设定的中介信息判断条件判断该中介特征信息对应的信息是 否为中介信息;
    所述搜索引擎从索引数据库中过滤掉中介信息对应的索引。
  16. 16. 根据权利要求 15所述的搜索引擎, 其特征在于:
    所述链接信息提取模块还用于对所述网页内容进行分析, 判断包含中介倾 向信息的内容为中介信息。
  17. 17. 根据权利要求 15所述的搜索引擎, 其特征在于:
    所述链接信息提取模块对中介特征信息的提取方式为模式匹配方式。
  18. 18. 根据权利要求 15所述的搜索引擎, 其特征在于:
    所述的中介特征信息为电话号码及 /或电子邮件信息;
    所述设定的中介信息判断条件为: 所述链接信息提取模块统计的预计时间 内相同电话号码及 /或电子邮件信息的重复次数超过各自对应的阈值。
  19. 19. 根据权利要求 15所述的搜索引擎, 其特征在于- 所述的中介特征信息为电话号码;
    所述设定的中介信息判断条件为: 所述电话号码为错误电话号码。
  20. 20. 根据权利要求 15所述的搜索引擎, 其特征在于:
    所述中介特征信息为价格信息;
    所述设定的中介信息判断条件为: 所述价格低于设定的阈值。
  21. 21. 根据权利要求 15- 20中任意一项所述的搜索引擎, 其特征在于: 所述搜索引擎从其索引数据库中过滤掉中介信息对应的索引是指: 链接信息提取模块仅对判断为非中介信息的信息建立索引; 或者
    链接信息提取模块提取信息并建立索引后, 对判断为是中介信息的信息从 索引数据库中删除。
  22. 22. —种搜索引擎, 包括网络蜘蛛和查询服务器, 其特征在于, 该搜索引 擎还包括链接信息提取模块;
    所述链接信息提取模块用于从网页数据库提取网页标题、 网页内容, 并对 所述网页内容进行分析, 判断包含中介倾向信息的内容为中介信息。
    所述搜索引擎从索引数据库中过滤掉中介信息对应的索引。
  23. 23. 根据权利引擎 22所述的搜索引擎, 其特征在于- 所述链接信息提取模块还用于从网页数据库提取中介特征信息, 并通过设 定的中介信息判断条件判断该中介特征信息对应的信息是否为中介信息。
  24. 24. 根据权利要求 22所述的搜索引擎, 其特征在于- 所述链接信息提取模块对中介特征信息的提取方式为模式匹配方式。
  25. 25. 根据权利要求 22所述的搜索引擎, 其特征在于:
    所述的中介特征信息为电话号码及 /或电子邮件信息;
    所述设定的中介信息判断条件为: 所述链接信息提取模块统计的预计时间 内相同电话号码及 /或电子邮件信息的重复次数超过各自对应的阈值。
  26. 26. 根据权利要求 22所述的搜索引擎, 其特征在于- 所述的中介特征信息为电话号码;
    所述设定的中介信息判断条件为: 所述电话号码为错误电话号码。
  27. 27. 根据权利要求 22所述的搜索引擎, 其特征在于- 所述中介特征信息为价格信息;
    所述设定的中介信息判断条件为: 所述价格低于设定的阈值。
  28. 28. 根据权利要求 22-27中任意一项所述的搜索引擎, 其特征在于: 所述搜索引擎从其索引数据库中过滤掉中介信息对应的索引是指- 链接信息提取模块仅对判断为非中介信息的信息建立索引; 或者
    链接信息提取模块提取信息并建立索引后, 对判断为是中介信息的信息从索引 数据库中删除。
CN200780052784A 2007-04-29 2007-04-29 搜索引擎及其对中介信息的过滤方法 Pending CN101849232A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2007/001474 WO2008131597A1 (fr) 2007-04-29 2007-04-29 Moteur de recherche et procédé de filtrage d'informations d'agence

Publications (1)

Publication Number Publication Date
CN101849232A true CN101849232A (zh) 2010-09-29

Family

ID=39925170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780052784A Pending CN101849232A (zh) 2007-04-29 2007-04-29 搜索引擎及其对中介信息的过滤方法

Country Status (2)

Country Link
CN (1) CN101849232A (zh)
WO (1) WO2008131597A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062328A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 获取网站自然搜索排名的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184500A1 (en) * 2005-02-11 2006-08-17 Microsoft Corporation Using content analysis to detect spam web pages

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
US7716198B2 (en) * 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184500A1 (en) * 2005-02-11 2006-08-17 Microsoft Corporation Using content analysis to detect spam web pages

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062328A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 获取网站自然搜索排名的方法和装置

Also Published As

Publication number Publication date
WO2008131597A1 (fr) 2008-11-06

Similar Documents

Publication Publication Date Title
CN102521251A (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
CN100498790C (zh) 一种搜索方法和系统
CN106302440B (zh) 一种多渠道获取可疑钓鱼网站的方法
US20150012612A1 (en) Prompt method for adding quick link in browser, device and system thereof
US20140143677A1 (en) Method, system, and computer readable medium for managing resource links
CN102930059A (zh) 一种聚焦爬虫的设计方法
JPWO2006027973A1 (ja) 情報検索提供装置および情報検索提供システム
WO2014180130A1 (en) Method and system for recommending contents
US20150341771A1 (en) Hotspot aggregation method and device
US20090240669A1 (en) Method of managing locations of information and information location management device
CN102957664A (zh) 一种识别钓鱼网站的方法及装置
CN108304422B (zh) 一种媒体搜索词推送方法和装置
CN103412940B (zh) 检测欺诈电话的方法
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN106611029B (zh) 提高网站站内搜索效率的方法和装置
Klein et al. Evaluating methods to rediscover missing web pages from the web infrastructure
CN111125485A (zh) 基于Scrapy的网站URL爬取方法
CN111444412B (zh) 网络爬虫任务的调度方法及装置
CN103605742A (zh) 识别网络资源实体目录页的方法及装置
CN101849232A (zh) 搜索引擎及其对中介信息的过滤方法
CN106611022B (zh) 提高网站站内搜索效率的方法和装置
Kim A document ranking method with query-related web context
CN1313956C (zh) 利用实名访问网页的系统和方法
CN109857851A (zh) 通话内容的处理方法、装置、计算机设备及存储介质
KR101005871B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100929