CN1728148A - 使用外部数据的搜索引擎兜售信息检测 - Google Patents

使用外部数据的搜索引擎兜售信息检测 Download PDF

Info

Publication number
CN1728148A
CN1728148A CNA2005100923794A CN200510092379A CN1728148A CN 1728148 A CN1728148 A CN 1728148A CN A2005100923794 A CNA2005100923794 A CN A2005100923794A CN 200510092379 A CN200510092379 A CN 200510092379A CN 1728148 A CN1728148 A CN 1728148A
Authority
CN
China
Prior art keywords
electronic document
trust
level
provides
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100923794A
Other languages
English (en)
Other versions
CN100461171C (zh
Inventor
B·拉马拉斯森纳姆
E·B·沃森
J·R·克拉姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1728148A publication Critical patent/CN1728148A/zh
Application granted granted Critical
Publication of CN100461171C publication Critical patent/CN100461171C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/959Network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

估计关于搜索的电子文档。外部源为用户提供数据用于估计由搜索引擎获得的电子文档。基于外部提供的数据确定电子文档的第一信任级别。第一信任级别指示电子文档是不希望的似然性。基于电子文档的属性确定电子文档的第二信任级别。第二信任级别指示关于搜索的电子文档是不满意的似然性。产生的电子文档的等级作为确定的第一信任等级和确定的第二信任等级的函数用于将电子文档分类为关于接收的搜索请求是不满意的。

Description

使用外部数据的搜索引擎兜售信息检测
技术领域
本发明的实施例涉及使用通信网络搜索相关数据实体的领域。尤其是,本发明的实施例涉及使用外部数据来阻止由电子文档建立者的故意操作以至于把搜索引擎误导为给该电子文档不该有的高级别。
发明背景
因特网具有分布在众多计算机上的大量的信息,因此为用户提供各种主题的大量信息。这一点对许多其它通信网络例如企业内部互联网和外部互联网来说也是实事。尽管在网络上有大量信息可用,找到想要的信息通常并不容易或不快。
搜索引擎被发展用来从事在网络上寻找想要信息的问题。典型地,具有所需类型信息的想法的用户输入一个或多个搜索术语到搜索引擎。该搜索引擎返回一列搜索引擎确定包括与用户指定的搜索术语相关的电子文档的网络位置(例如,统一资源定位器(URLs))。许多搜索引擎还提供相关级别。典型的相关级别是与其它电子文档相比给定网络位置的电子文档与用户指定的搜索术语相关的相对的似然性估计。例如,常规的搜索引擎可以基于特定搜索术语在电子文档中出现的次数,在电子文档中的位置(例如,术语出现在标题通常被认为比出现在电子文档的结尾更重要)来提供相关级别。此外,链接分析在排列网页和其它超链接文档中也变成强有力的技术。固定-文本分析,网页结构分析,关键术语列表的使用,以及URL文本是用于提供相关级别的其它技术。
电子文档的建立者通常通过有意的努力来把他们的电子文档提供给用户使相关级别问题复杂化。例如,一些建立者试图促使搜索引擎为他们的文档产生比被批准更高级别数字。由电子文档建立者试图从搜索引擎中获得不适当的高级别而对电子文档的故意操作通常称作搜索引擎兜售信息。搜索引擎兜售信息的目的是欺诈地诱惑用户来访问受控的电子文档。操作的一种形式包括把上百的关键术语放到电子文档中(例如,在电子文档的元标签中)或使用其它技术来干扰搜索引擎为过高估计(或甚至不正确鉴别)该电子文档的关于一个或多个搜索术语的相关性。例如,汽车的分类广告网页的建立者可以用“汽车”的重复来填充“关键术语”部分。建立者这样做目的是无论何时用户搜索术语“汽车”,搜索引擎将鉴别该网页为更相关。但更加精确地代表网页主题的“关键术语”部分可以包括术语“汽车”,“小汽车”,“分类的”,以及“待售”。
为建立搜索引擎兜售信息的一些其它技术包括与实际用户相比返回不同的电子文档给搜索引擎(例如,遮蔽技术),瞄准一个与电子文档不相关的关键术语,把关键术语放在用户看不到的区域来增加关键术语计数,在用户看不到的区域内放入链接来增加链接普及,产生低质量入门网页,欺骗地把用户从高级别电子文档重定向到不相关电子文档以把不相关电子文档提供给用户,等等。结果搜索引擎为运行查询的用户提供非真正相关的更高级别的电子文档。因此,搜索引擎不保护用户以防这样的故意排序操作。
现有的搜索引擎尝试通过单独地分析每一个兜售信息技术来阻止搜索引擎兜售信息以鉴别受控电子文档的模式。当这样的搜索引擎检测到具有鉴别模型的电子文档,于是该搜索引擎标记该电子文档为兜售信息以避免在搜索结果提供该电子文档给用户或降级该结果。例如,特殊的搜索引擎可以标记起初为了搜索引擎而不是为终端用户建立的作为搜索引擎兜售信息的电子文档。相似地,搜索引擎可以检测在电子文档中的隐藏文本和/或隐藏链接并标记这些电子文档为搜索引擎兜售信息。一些搜索引擎也可以检测具有大量无效主机名字的网络站点(例如,poker.foo.com,blackjack.foo.com,等)或具有过多的用来人工膨胀该网站的表面普及的交叉链接,并标记该站点为搜索引擎兜售信息。此外,现有搜索引擎可以检测使用遮蔽技术或链接方法的网站,网站通过该链接方法与另外的网站交换互惠链接来增加搜索引擎最佳化。
与搜索引擎兜售信息相比,电子邮件(或e-mail)兜售信息是未经请求的电子邮件消息,通常在一个时间发送给许多接收者。电子邮件兜售信息是电子的等同于垃圾邮件。在大多数情况下,电子邮件兜售信息消息的内容与接收者的兴趣无关。因此,建立电子邮件兜售信息是滥用因特网来以最小的代价分发消息给大量的人。
电子邮件兜售信息在很多方面区别于搜索引擎兜售信息。例如,程序可以自动产生电子邮件消息,以发送电子邮件兜售信息给大量的接收者。相比,搜索引擎兜售信息不包含电子邮件地址,发送者,或接收者。但是搜索引擎兜售信息仍然与电子邮件兜售信息共用某些特征。例如,搜索引擎兜售信息和电子邮件兜售信息都是不希望的,因为他们都是为了欺骗地引导用户访问特定的产品或业务而建立的。因此,时常,电子邮件兜售信息的建立者也产生搜索引擎兜售信息来增加一个或多个与产品或业务相关的电子文档的曝光。也就是,兜售信息制造者通常依靠电子邮件兜售信息和搜索引擎兜售信息来销售产品或业务。这样,通常在电子邮件兜售信息和搜索引擎兜售信息之间有很强的相关性。然而,现有技术系统和方法忽略了在电子邮件兜售信息和搜索引擎的可能的源之间的这种相关性。特别地,现有技术把电子邮件兜售信息和搜索引擎兜售信息作为需要用完全不同的解决方法的单独的问题来对待。
因此,期望找到有效鉴别和阻止搜索引擎兜售信息的解决方法。
发明内容
本发明的实施例克服在现有技术中的一个或多个缺陷,通过在其它事情当中提供外部资源的使用来检测可能的与搜索有关的不希望的电子文档,因此,提供更好的搜索引擎结果。根据本发明的一个实施例,电子邮件兜售信息检测系统鉴别电子邮件消息为可能的电子邮件兜售信息。存储区域例如数据库存储包含在该电子邮件信息中的一列链接。本发明的实施例访问该数据库并为存储在数据库中的链接提供的电子文档确定信任级别。该电子文档的信任级别指示电子文档是搜索引擎兜售信息的似然性。在另一个实施例中,本发明鉴别可能的电子邮件兜售信息起源的网络地址。于是该数据库存储该网址。通过访问该数据库,本发明的实施例可以为位于该网址的电子文档确定信任级别,因此,更好鉴别搜索引擎兜售信息。此外,电子邮件兜售信息检测系统可以鉴别一列在电子邮件兜售信息中经常出现的术语(例如,单词,词组,短语,字符串,n个字符列,二进制数据,等等)。于是该数据库存储该列术语。本发明的一个实施例因此为与搜索引擎兜售信息有关的电子文档产生信任级别,该兜售信息包括一个或多个存储的电子邮件兜售信息术语以指示电子文档是搜索引擎兜售信息的似然性。如果电子文档有成为搜索引擎兜售信息的高信任级别,于是本发明的实施例可以降级在提供给用户的搜索结果中的该电子文档。另外,本发明的实施例可以从提供的搜索结果中移除该电子文档。
根据本发明的一个或多个其它实施例,本发明允许用户提供关于电子文档愿望的信息。用户可以提供该信息以响应电子邮件兜售信息或搜索引擎兜售信息。如果用户提供的信息表征该电子文档为不希望的,本发明的实施例于是鉴别电子文档的一个或多个属性来产生电子文档的等级。如果该电子文档具有高的等级,那么它具有成为搜索引擎兜售信息的高似然性。因此,本发明的实施例可以调整在搜索结果中的电子文档的排序以提供精确的相关性等级给用户。此外,这里描述的本发明的实施例的特征是经济可行的,商业实用的,并且比现行可用技术更容易实现。
简单描述,使用本发明方面的方法估计与搜索相关的电子文档。该方法包括确定电子文档的第一信任级别。电子文档是可以被搜索引擎获取的以响应来自用户的搜索请求。第一信任级别基于由搜索引擎外部的源提供的信息,指示该电子文档是不希望的似然性。该方法也包括确定该电子文档的第二信任级别。第二信任级别基于电子文档的一个或多个属性,指示该电子文档对于搜索请求来说是不满意的似然性。该方法还包括为该电子文档产生一个等级,作为确定的第一信任级别和确定的第二信任级别的函数。该方法也包括基于电子文档产生的等级指定与搜索请求有关的电子文档为不满意的。
在本发明的另一个实施例中,使用本发明方面的方法估计与搜索相关的电子文档。该方法包括接收用户提供的与电子文档有关的信息。电子文档是可以响应来自用户的搜索请求被搜索引擎获取的。用户提供的信息表征该电子文档为不希望的。该方法也包括为该电子文档产生一个等级,作为接收的用户提供的信息的函数。该方法还包括根据电子文档的产生的等级指定与搜索请求有关的电子文档为不满意的。
在本发明的另外一个实施例中,使用本发明方面的系统估计与搜索相关的电子文档。该系统包括一个处理器,用于从用户那里接收搜索请求和用于基于接收的搜索请求来鉴别电子文档。该系统也包括一个存储区域,存储由处理器外部的源提供的数据,用于估计该电子文档是否是不希望的。处理器被配置来确定电子文档的第一信任级别。该第一信任级别基于由外部源提供的数据指示该电子文档为不希望的似然性。处理器也被配置来建立电子文档的第二信任级别。该第二信任级别基于电子文档的一个或多个属性,指示该电子文档对于搜索来说是不满意的似然性。该处理器还被配置成为电子文档产生一个等级,作为确定的第一信任级别和建立的第二信任级别的函数,并基于该电子文档产生的等级分类电子文档为相对于接收的搜索请求是不满意的。
在本发明的另一个实施例中,使用本发明方面的计算机可读媒质具有计算机可执行元件用于估计与搜索相关的电子文档。该计算机可读媒质包括接口元件,用于接收用户提供的关于电子文档的信息。电子文档响应来自用户的搜索请求是可获取的。该用户提供的信息表征该电子文档为不希望的。该机算计可读媒质也包括分析元件,用于为电子文档产生一个等级,作为接收的用户提供的信息的函数。该计算机可读媒质还包括查询元件,用于根据该电子文档产生的等级分类电子文档为相对于接收的搜索请求是不令人满意的。
在本发明的另一个实施例中,使用本发明方面的计算机可读媒质具有用于估计与搜索相关的电子文档计算机可执行元件。该计算机可读媒质包括查询元件来接收来自用户的搜索请求并基于接收的搜索请求鉴别电子文档。该计算机可读媒质也包括外部元件提供用于估计电子文档是否是希望的数据。该计算机可读媒质还包括内部元件用于确定电子文档的第一信任级别。第一信任级别基于通过外部元件提供的数据来指示电子文档是不希望的似然性。内部元件还被配置用于建立电子文档的第二信任级别。第二信任级别基于电子文档的一个或多个属性来指示电子文档对于搜索是不满意的似然性。计算机可读媒质还包括用于为电子文档产生一个等级的分析元件,作为确定的第一信任级别和建立的第二信任级别的函数。查询元件被配置用于根据该电子文档产生的等级将电子文档分类为相对于接收的搜索请求是不满意的。
具有用于执行检测关于搜索为不满意的电子文档方法的计算机可执行指令的计算机可读媒质具体表达为本发明的更多方面。
另外,本发明的实施例还包含各种其它的方法和装置。
以下,其它特征将部分地呈现并且部分地被指出。
附图说明
图1是一个显示本发明的实施例可以应用于其中的示例性网络环境的方框图。
图2是一个显示本发明的实施例可以应用于其中的另一个示例性网络环境的方框图。
图3是一个显示本发明的实施例可以应用于其中的再一个示例性网络环境的方框图。
图4是根据本发明的一个实施例显示为估计与搜索相关的电子文档的示例性流程图。
图5是根据本发明的一个实施例显示为估计与搜索相关的电子文档的处理流程的示例性流程图。
图6是根据本发明的一个实施例显示示例性计算机可读媒质的方框图。
图7是根据本发明的一个实施例显示另一个示例性计算机可读媒质的方框图。
图8是显示本发明的实施例可以执行于其中的适当的计算机系统环境的示例性实施例的方框图。
贯穿附图中,对应的参考字符指示相同的部分。
本发明的详细描述
为检测不希望的电子文档的示例性网络环境
首先参照图1,框图显示了本发明的实施例可以应用于其中的适当网络环境例子。服务器计算机102包括处理器例如搜索引擎104。该搜索引擎104还包括牵引装置106。该牵引装置106搜索分散在连接到通信网络108的一个或多个计算机上的电子文档,例如显示在图1中的远端服务器计算机110和远端服务器计算机112。通信网络108可以是一个局域网例如企业内部互连网,广域网例如因特网,或允许服务器计算机102与远端计算机例如服务器计算机110和112直接或者间接通信的网络的组合。
牵引装置106搜索连接到网络108的服务器计算机110和112并找到存储在服务器计算机110上的电子文档114和116以及存储在服务器计算机112上的电子文档118和120。存储在远端服务器计算机上的该电子文档可以包括网页(例如,超文本链接标示语言(HTML)页面和XML页面)和多媒体文件。牵引装置106接收这些电子文档和相关数据。而且,服务器计算机102可以包括被牵引装置106访问的电子文档122和124。
如图1所示,构成搜索引擎104外部的源的电子邮件兜售信息检测系统126,也连接到网络108上。电子邮件兜售信息检测系统126是一个检测传递给系统126的用户的电子邮件兜售信息的系统。特别地,一个或多个远端计算机例如服务器110和/或服务器112可以产生并发送电子邮件信息给系统126的用户。电子邮件兜售信息检测系统126然后检测到特定的电子邮件消息可以是电子邮件兜售信息并执行一个保护它的用户的行动。例如,系统126可以从用户的邮箱中查出检测到的电子邮件兜售信息或者可以警告用户特定的电子邮件消息可能是电子邮件兜售信息。另外,系统126可以在传递该消息给它的接收者之前,传递电子邮件消息给负责的用户来确认它不是电子邮件兜售信息。
电子邮件兜售信息检测系统126可以应用许多技术来检测电子邮件兜售信息。在一个技术中,系统126包括训练用于鉴别电子邮件兜售信息模型的概率统计分类器。该概率统计分类器包括计算机可执行指令来分类电子邮件消息。通常,概率统计分类器鉴别在电子邮件兜售信息中的统计重要的属性的组合(例如,统计重要的关键术语和/或上下文的信息)。未经请求的电子邮件消息通常包括一些通常共享的属性。这种通常共享的和如此统计重要的属性的例子包括描述产品或业务的不切实际提议的关键术语(例如,免费药,重量丢失程序,或信用卡的应用)。此外,这样的属性可以包括确定已发送电子邮件兜售信息的电子邮件地址。特别地,概率统计分类器可以被训练用于鉴别一个或多个电子邮件兜售信息建立者的域名(例如,基于电子邮件兜售信息的“来自:”行)。概率统计分类器可以解析电子邮件消息的“来自:”行来确定电子邮件消息的发送者是否对应于已知电子邮件兜售信息的建立者。
类似地,概率统计分类器可以被训练用于识别电子邮件兜售信息起源的网络地址。电子邮件兜售信息发布者通常任意地设置“来自:”行或电子邮件兜售信息的其他信息为任何值。但是很难隐藏电子邮件兜售信息起源的网络地址(例如,因特网协议(IP)地址)。引入的简单邮件传输协议(SMTP)连接的网络地址因此是用于训练概率统计分类器来表征电子邮件兜售信息的有价值的属性。另外,概率统计分类器可以被训练来鉴别一个或多个与电子邮件兜售信息相关的链接或URL。也就是,包括在可能为电子邮件兜售信息中的URL特别地被解析用于产生表征电子邮件兜售信息的属性。许多电子邮件消息包括嵌入的URL。这些URL的出现显示了这些电子邮件消息是电子邮件兜售信息。例如,这些URL可以引导电子邮件接收者到一个或多个提供未被恳求的产品或业务的网页。在一个实施例中,主机名字(例如,字母表的,有点的十进制的,十六进制的,或八进制编码的主机名)从这些URL中被抽取出来帮助表征电子邮件兜售信息。因此,如果组合的URL是<URL1>@<URL2>@…@<URLn>的形式,在最后一个@符号后面的URL(例如,URLn)是抽取出的主机名。
电子邮件兜售信息发布者可以在URL中包括转向器来避免关联于兜售信息发布者的主机名被概率统计分类器抽取出。该转向器也包括在URL中来改变电子邮件接收者的方向到与电子邮件兜售信息发布者交往的网站。在这样的情况下,概率统计分类器被配置来鉴别隐藏在重定向URL中的真实的主机名并用该真实主机名作为表征电子邮件兜售信息的属性。
如所讨论的,概率统计分类器在可能为电子邮件兜售信息上被训练来识别电子邮件兜售信息的一个或多个属性。电子邮件兜售信息检测系统126可以使用许多技术来识别潜在的电子邮件兜售信息以训练概率统计分类器。在一个技术中,电子邮件接收者可以指示特定的电子邮件消息是否是电子邮件兜售信息。在另一个技术中,系统126保持蜜罐来捕获电子邮件兜售信息。蜜罐代表从来不存在的或在一个给定时期终止的电子邮件报告表。但对于电子邮件兜售信息制造者来说,蜜罐通常看做为规则的电子邮件报告表。因此,发送到蜜罐的电子邮件消息可以被认为电子邮件兜售信息,给出由蜜罐代表的电子邮件报告表从来不存在或已经在某个时期被终止,因此不留给电子邮件报告表任何接收合法电子邮件的原因。
在为训练概率统计分类器鉴别潜在的电子邮件兜售信息的另一个技术中,电子邮件兜售信息检测系统126可以执行相对于进入电子邮件的询问响应。也就是,系统126可以请求进入电子邮件的发送者来解决询问以确认该电子邮件不是机器产生的。如果发送者不能解决该询问,系统126可以为概率统计分类器识别电子邮件为可能的电子邮件兜售信息以抽取出其属性。
很多训练技术可以用来训练概率统计分类器。鉴别为兜售信息的电子邮件和鉴别为非兜售信息的电子邮件被馈给计算机可执行训练指令。该计算机可执行训练指令然后识别出现在鉴别为兜售信息的电子邮件但不识别在鉴别为非兜售信息的电子邮件的属性。因此,已识别的属性被分类为在电子邮件兜售信息中为统计重要的。计算机可执行训练指令还可以确定已分类的每一个属性权重对于统计是重要的。训练指令基于很多因素为给定的属性确定权重,包括该属性在电子邮件兜售信息中出现得多么频繁。计算机可执行训练指令可以作为很多不同的结构来执行。例如,计算机可执行训练指令可以实施为 Bayesian分类器,有限依靠Bayesian分类器,Bayesian网络分类器,决策树,支持矢量机器,内容匹配分类器,最大上熵分类器,其组合等等。
此外,系统126的概率统计分类器可以由模型识别来训练以鉴别统计重要的属性的组合,该属性不被关键术语匹配技术鉴别。尤其是,由模型识别使用的用于训练概率统计分类器的统计技术可以基于训练样本来概括属性,使得概率统计分类器能够识别各种给定的属性。例如,概率统计分类器可以识别俚语的短语例如“free stereo p1@yer”与电子邮件兜售信息相关。相比,关键术语匹配技术不能有效地鉴别该俚语或其它短语变化。尽管如此,可以理解关键术语匹配可以同时与模型识别使用来训练概率统计分类器。
基于抽取于电子邮件消息的属性的分析,概率统计分类器为电子邮件消息产生等级。例如,概率统计分类器在电子邮件消息中可以分配绝对权重给个别的已鉴别的属性(例如,术语,网络地址,主机名,等)。如上所讨论的,在概率统计分类器训练过程中确定给定属的权重。概率统计分类器通过将已分配的权重应用到数学函数(例如求和该权重)中而为电子邮件消息产生等级。在一个实施例中,电子邮件消息的等级可以是百分比的形式(例如,60%)。并且电子邮件消息的等级越高,电子邮件消息是电子邮件兜售信息的似然性就越高。也就是,电子邮件消息的等级指示电子邮件消息包括可能出现在电子邮件兜售信息中的元素的似然性。在另一个实施例中,概率统计分类器基于特定属性出现在电子邮件消息中的频率以及存在于电子邮件消息中的属性的组合为电子邮件消息产生一个等级。特别地,通过它本身不能指示电子邮件兜售的属性可以作为电子邮件信息构成电子邮件兜售信息的上下文或综合信息的。例如,单独的属性“信用卡”不能认为电子邮件消息是电子兜售信息。然而,与属性“没有年费”组合在一起的属性“信用卡”可以认为电子邮件消息构成了未经请求的提供并且因而认为是电子邮件兜售信息。
概率统计分类器进而对电子邮件消息按照产生等级的功能来分类。也即,在概率统计分类器为电子邮件消息产生等级之后,它基于该等级确定电子邮件消息是否构成电子邮件兜售信息。例如,电子邮件兜售消息检测系统126可以在其中存储门限级别(例如,70%),代表电子邮件消息是不期望的预定的似然性。概率统计分类器将电子邮件的等级与门限级别相比较。在一个实施例中,如果电子邮件消息的等级大于门限级别(或大于或等于),那么概率统计分类器对电子邮件消息分类为电子邮件兜售信息。注意到,管理员可以通过改变门限级别来改变电子邮件兜售信息检测系统126的灵敏度。例如,管理员可以设置更高的门限级别使得较低的电子邮件消息被分类为电子邮件兜售信息。
如果电子消息被分类为可能的电子邮件兜售信息,那么系统126抽出与电子邮件消息有关的一定的属性,来存储在例如连接到网络108的数据库128的存储区域中。根据本发明的一个实施例,系统126鉴别一个或多个与电子邮件消息有关的网路地址(例如,IP地址)。例如,系统126可以鉴别电子邮件消息的源网络地址。这样,如果电子邮件消息源自服务器110,那么系统126将服务器110的网络地址存储在数据库128。根据本发明的另一个实施例,系统126还鉴别一个或多个包括在分类为电子邮件兜售信息中的电子邮件消息中的链接。于是系统126将鉴别出的链接的主机名字存储在数据库128中。这样,如果分类为电子邮件兜售信息的电子邮件消息包括电子文档114的URL,那么系统126将这个URL的主机名字存储在数据库128中。另外,系统126鉴别一列与电子邮件兜售信息有关的术语(例如,单词,词组,短语,字符串,n个字符列,二进制数据,等等)。系统126还将该列术语存储在数据库128中。
对于存储在数据库128中的每一个网络地址,主机名字,或术语,系统126还指定了网络地址,主机名字,或术语与电子邮件兜售信息有关的信任级别。系统126可以基于电子邮件消息的等级指定信任级别,该消息包括网络地址,主机名字,或术语。因此,如果概率统计分类器对特殊的电子邮件消息产生80%的等级,那么它为从该电子邮件消息中识别的网络地址,主机名字,和/或术语的80%指定了信任级别。这个指定的用于网络地址,主机名字,和/或术语的信任级别同样的存储在数据库128中。
当搜索引擎104的牵引装置106定位网络108来收集一个或多个位于网络108中的电子文档,并且搜索引擎104的索引生成器129分析收集到的电子文档来鉴别它们索引的特征时,搜索引擎104将对收集到的电子文档建立另一个信任级别,来指示收集到的电子文档是搜索引擎兜售信息的似然性(例如,关于搜索是不令人满意的)。特别的,牵引装置106将鉴别一个或多个收集的电子文档模型来确定这些模型是否与表征为搜索引擎兜售信息的模型一致。例如,牵引装置106可以鉴别收集的电子文档是否主要是被建立用于搜索引擎104而不是用于最终用户。牵引装置106还可以检测收集的电子文档是否包括隐藏的文本和/或隐藏的链接,这经常表征为搜索引擎兜售信息。一些其他的成为搜索引擎兜售信息的特征的模型包括很多不必要的主机名字,过度的交叉链接,链接失效分析报告等。基于收集的电子文档的鉴别的模型,搜索引擎104可以产生收集的电子文档构成搜索引擎兜售信息的信任级别。
搜索引擎104还被配置成来访问数据库128,以抽取出涉及一个或多个由牵引装置106收集的电子文档的信息。在一个实施例中,搜索引擎104获得存储在数据库128中的一列网络地址。如果搜索引擎104确定获得的网络地址与收集的电子文档的地址一致,那么它从数据库128抽取出与这个网络地址有关的信任级别。类似的,搜索引擎104可以从数据可128获得一列主机名字,并确定获得的主机名字是否与收集的电子文档的主机名字一致。如果这样,那么搜索引擎104从数据库128抽取出与获得的主机名字一致的信任级别。另外,搜索引擎104可以指定一个或多个由主机名字提供的来自电子文档的链接的电子文档作为具有这个信任级别。并且对于存储在数据库128中的术语,搜索引擎确定是否该术语出现在收集的电子文档中。如果存储的术语出现在收集的电子文档中,那么搜索引擎从数据库128中抽取出与这个存储的术语相关的信任级别。
基于由搜索引擎104确定的信任级别来指示收集的电子文档构成搜索引擎兜售信息的似然性,以及网络地址,主机名字,和/或与收集的电子文档相关的术语的信任级别,搜索引擎104计算收集的电子文档的权重等级。特别的,由搜索引擎104在网络108的爬行期间确定的信任级别代表收集的电子文档是关于搜索的不期望的似然性。并且从数据库128获得的信任级别代表收集的电子文档是与不期望的电子邮件消息(例如,电子邮件兜售信息)有关的似然性。因为在电子邮件兜售信息何搜索引擎兜售信息之间的主权连接(例如,电子邮件兜售信息的建立者很可能产生搜索引擎兜售信息),搜索引擎104可以将这两个类型的信任级别组合来产生加权的等级,以用高信任级别指示是否收集的电子文档是搜索引擎兜售信息。
作为一种特别的方法以高的把握确认电子文档构成搜索引擎兜售信息的联合似然性,各种类型的信任级别被平均加权来产生等级。例如,如果电子文档具有60%的成为搜索引擎兜售信息的信任级别,那么电子文档的网络地址具有80%的成为与电子邮件兜售信息相关的信任级别,并且出现在电子文档中的术语具有70%的成为与电子邮件兜售信息相关的信任级别,于是搜索引擎104可以将这些信任级别平均来产生电子文档的70%的等级。换句话说,电子文档的等级可以以成为搜索引擎兜售信息的信任级别和成为涉及电子邮件兜售信息的信任级别的平均来被加权。这样,在上面的例子中,电子文档的网络地址与电子邮件兜售信息有关的80%的信任级别,与出现在电子文档中的术语与电子邮件兜售信息有关的70%的信任级别加权,来产生电子文档与电子邮件兜售信息有关的75%的信任级别。搜索引擎104然后用成为搜索引擎兜售信息的60%的信任级别来平均这个加权的信任级别以产生67.5%的等级,这指示了电子文档构成搜索引擎兜售信息的加权的可能性。
换句话说,因为这两个不同的信任级别使用不同的机制来确定电子文档是否可能涉及兜售信息,电子文档构成搜索引擎的组合的似然性比任何类型的信任级别都高。例如,如果电子文档具有70%的成为搜索引擎兜售信息的信任级别,并且电子文档的网络地址具有80%的与电子邮件兜售信息的信任级别,那么电子文档构成搜索引擎兜售信息的组合的似然性可以是90%。这样,通过考虑电子文档与可能的电子邮件兜售信息相关,搜索引擎104可以精确的确定电子文档是否是搜索引擎兜售信息。
在搜索引擎104确定特殊的电子文档构成可能的搜索引擎后(例如,当电子文档的等级比门限等级高),搜索引擎104的查询处理器可以执行各种动作来阻止在搜索结果中将电子文档提供给用户。这样,基于用户提交的搜索请求,查询处理器可以鉴别确定构成搜索引擎兜售信息的电子文档作为提交的搜索请求中的“命中”。在这样的情况中,查询处理器可以在搜索结果中显示该电子文档给用户。也即,搜索引擎104的查询处理器降低搜索结果中的电子文档的等级,因为电子文档构成可能的搜索引擎兜售信息。换句话说,查询处理器可以在提供给用户的搜索结果中移除该电子文档。在本发明的一个实施例中,由查询处理器执行的该动作是可调的。也即,如果更确定电子文档是搜索引擎兜售信息,那么电子文档受到较重的惩罚。例如,具有比85%更高等级的电子文档可以从提供给用户的搜索结果中移除,而具有在65%和85%之间等级的电子文档可以在搜索结果中由50个等级来显示。另外,具有在50%和65%之间等级的电子文档可以被显示25等级,而具有在50%以下的等级的电子文档将不接收惩罚。在本发明的另一个实施例中,如果电子文档的初步等级比预定的等级要高(例如,5th等级),那么查询处理器在搜索的结果中保留电子文档的等级。也即,相对高的电子文档可以不接收惩罚,尽管它被确定为搜索引擎兜售信息。
现在参考图2,方框图说明了在其中利用本发明的实施例的合适的网络环境的另一个例子。服务器计算机202包括搜索引擎204。服务器计算机202连接到通信网络206,其中还连接到远程服务器计算机208。通信网络206可以是局域网例如企业内部互联网,广域网例如因特网,或者网络的组合,其允许服务器计算机202与例如远程服务器计算机208的远程计算机直接或间接的通信。远程服务器计算机208提供电子文档210和电子文档212,其可以是网页或多媒体文件。另外,远程服务器计算机208被配置程通过连接到网络206的计算机传输一个或多个电子邮件消息给用户214。
在用户214从服务器计算机208接收到电子邮件消息后,他或她鉴别接收到的电子邮件消息是电子邮件兜售信息或非兜售信息。用户214于是提交他的或她的接收的电子邮件消息(或通常用户提供的信息)的标识作为给电子邮件兜售信息检测系统216的接口的输入。响应于接收的这个输入,电子邮件兜售信息检测系统216建立该电子邮件消息是电子邮件兜售信息的信任级别。此外,如果系统216从多路用户接收多路输入的电子邮件消息,那么系统216可以决定不建立电子邮件消息的信任级别。另一方面,如果输入相互一致,那么系统216可以建立电子邮件消息构成电子邮件兜售信息的信任级别。在本发明的可选的实施例中,系统216可以执行规则来判断一个或多个输入。也即,确定的输入被加权更高,因为提交输入的用户是更值得信赖的。在这个可选的实施例,系统216确定报告一个特殊的电子邮件消息为电子邮件兜售信息的用户的百分比。如果多数用户同意电子邮件消息是电子邮件兜售信息,那么来自少数人的那些输入可能是不信任的。也即,如果特殊的用户报告电子邮件消息为电子邮件兜售信息,并且多数其他的用户同意这个特殊的用户,那么系统216可以确定该用户是值得信赖的。另一方面,如果多数其他的用户不同意这个特殊的用户,那么系统216可以确定该用户是不可信赖的。因此,系统216可以基于至少部分的用户提供的输入的确实性来确定电子邮件消息的信任级别。
如果电子邮件兜售信息检测系统216确定特殊的电子邮件消息构成电子邮件兜售信息,那么它分析该电子邮件消息来鉴别一个或多个电子邮件消息的属性来确定电子邮件兜售信息的模型。如果电子邮件消息包括图像,那么系统216通过检测该图像中的肤色的级别来鉴别该属性。在一个实施例中,系统216可以鉴别一个或多个与这个电子邮件兜售信息有关的术语。此外,系统216可以确定电子邮件兜售信息来源的网络地址(例如,服务器计算机208的网络地址)。并且,系统216可以鉴别与电子邮件兜售信息有关的主机名字。例如,如果电子文档210和/或电子文档212链接自电子邮件兜售信息,那么系统216可以从链接中抽取出这些电子文档的主机名字。在另一个实施例,系统216将关于电子邮件兜售信息的鉴别的属性存储在诸如连接到网络206的数据库216的存储区域。
服务器计算机202的搜索引擎204访问数据库217来获得存储的属性。基于存储的属性,搜索引擎204产生一个或多个位于特殊网络地址或由特殊的主机名字提供的的电子文档的等级。此外,搜索引擎204确定存储在数据库218中的术语是否出现在特殊的位于网络206的电子文档中来产生电子文档的等级。电子文档的等级指示电子文档是搜索引擎兜售信息的似然性。如果电子文档的等级超过了门限级别,搜索引擎204将电子文档分类为搜索引擎兜售信息。搜索引擎204的查询处理器还执行提供精确的搜索结果给用户的动作(例如,指示搜索结果的电子文档,从搜索结果中移除该电子文档,等。)。
参考图3,方框图还说明了合适的网络环境的另一个例子,其中本发明的实施例可以估计与搜索有关的电子文档。客户计算机302通过网络306连接到服务器计算机304。又,网络306可以是局域网(例如企业内部互联网),广域网(例如因特网),和网络的组合。客户计算机302包括搜索用户接口308(例如,浏览器)或其他机器可访问程序接口或协议,可以查找或显示电子文档给用户。
当客户计算机302的用户希望搜索一个或多个电子文档时,他或她提交查询字符310给搜索用户接口308。在用户提交查询字符310后,客户计算机302传送查询字符310给位于服务器计算机304的搜索引擎313的查询处理器312来请求搜索。基于提交的查询字符310,查询处理器312鉴别远程服务器计算机316提供的电子文档314为提交的查询字符310的“命中”。远程服务器计算机316同样地连接到网络306。查询处理器312于是返回该电子文档314或电子文档314的网络给客户计算机302的搜索用户接口308。用户访问返回的网络地址而获得电子文档314后,他或她鉴别电子文档314为搜索引擎兜售信息或非兜售信息。用户于是将他的或她的鉴别作为输入提交给搜索引擎313。
响应于接收该输入,搜索引擎313建立电子文档314是搜索引擎兜售信息的信任级别。此外,如果搜索引擎313从多个用户接收电子文档314的多路输入,并且如果这些输入相互抵触,那么搜索引擎313可以确定不建立电子文档314的信任级别。另一方面,如果输入相互一致,那么搜索引擎313可以建立电子文档314构成搜索引擎兜售信息的信任级别。在本发明的可选的实施例中,搜索引擎313可以执行规则来判断一个或多个输入。也即,确定的输入被加权更高,因为提交输入的用户是更值得信赖的。在这个可选的实施例中,搜索引擎313确定报告电子文档314为搜索引擎兜售信息的用户的百分比。如果多数用户同意电子文档314是搜索引擎兜售信息,那么来自少数的那些输入可以是不信任的。也即,如果特殊的用户报告电子文档314为搜索引擎兜售信息,并且多数其他的用户同意该特殊的用户,那么搜索引擎313可以确定该用户是值得信赖的。另一方面,如果多数其他的用户不同意该特殊的用户,那么搜索引擎313可以确定这个用户是不值得信赖的。此外,搜索引擎313可以至少部分的基于用户提供的输入的信赖度来确定特殊的电子文档的信任级别。
如果这个用户提供的信息鉴别电子文档314微搜索引擎兜售信息,那么搜索引擎313分析电子文档314来检测一个或多个表征搜索引擎兜售信息的属性。如果电子文档314包括图像,那么搜索引擎313通过检测图像中的肤色来检测属性。搜索引擎313将鉴别一个或多个电子文档314的模型来确定这些模型是否符合搜索引擎兜售信息的模型特征。例如,搜索引擎313可以鉴别电子文档314是否主要被建立来用于搜索引擎313而不是用于最终用户。搜索引擎313还可以检测电子文档314是否包括隐藏的文本和/或隐藏的链接,其经常表征为搜索引擎兜售信息。一些其他的表征为搜索引擎兜售信息的模型包括很多不必要的主机名字,过度交叉链接,链接失效分析报告等。
基于鉴别的模型或属性,搜索引擎313产生电子文档314的等级。电子文档314的等级指示电子文档314是搜索引擎兜售信息的似然性。如果电子文档314的等级超过了门限等级,那么搜索引擎313将电子文档314分类为搜索引擎兜售信息。查询处理器312还执行提供精确的搜索结果给用户的动作(例如,在搜索结果中指示电子文档314,从搜索结果移除电子文档314,等)。
检测不希望的电子文档的典型方法
图4根据本发明的一个实施例,说明了估计与搜索有关的电子文档的示例性方法。在402,确定电子文档的第一信任级别。该第一信任级别通过搜索引擎来获得以响应于来自用户的搜索请求。第一信任级别基于由搜索引擎外部的源提供的信息指示电子文档是不期望的似然性。外部源可以包括电子邮件兜售信息检测系统,该系统提供有关一个或多个电子文档的数据。例如,外部源可以提供主机名字,该主机名字提供一个或多个由外部源鉴别为具有不期望的预定的似然性电子文档。并且链接自这些电子文档的电子文档可以被指定为第一信任级别。外部源还可以提供网络地址,该网络地址是一个或多个具有不期望的预定的似然性的电子文档所在的位置。外部源还可以提供术语,该术语出现在一个或多个具有不期望的预定的似然性的电子文档中。电子文档的第一信任级别基于预定的似然性而确定。
在404,确定电子文档的第二信任级别。基于一个或多个电子文档的属性,第二信任级别指示电子文档是关于搜索请求不令人满意的。这些属性,表征了电子文档的不期望的模式,通过分析电子文档而被鉴别。可选择地,用户提供的关于电子文档的信息可以被接收到。在搜索结果中,用户提供的信息指定电子文档为不期望的。并且因此,一个或多个电子文档的属性可以被鉴别来检测不希望的模式。
在406,产生电子文档的等级来作为确定的第一信任级别和确定的第二信任级别的函数。在408,电子文档基于电子文档产生的等级而指定为关于搜索请求是不令人满意的。此外,响应于来自用户的搜索请求,可以为用户提供搜索结果。如果电子文档被指定为不令人满意的,那么它可以被排除在提供的搜索结果之外。可选择的,在搜索结果中,电子文档可以指示给用户。如果在搜索结果中,电子文档的等级超过预定的等级,那么电子文档的等级可以被保持。
图5说明了根据本发明的一个实施例估计有关搜索的电子文档另一个示例性方法。在502,接收用户提供的关于电子文档的信息。响应于来自用户的搜索请求,电子文档通过搜索引擎获得。该用户提供的信息表征电子文档是不希望的。例如,接收的用户提供的信息可以指定电子文档是与不希望的电子邮件一起的(例如,潜在地电子邮件兜售信息)。可选择的,接收的用户提供的信息可以指定电子文档在搜索结果中是不希望的(例如,潜在的搜索引擎兜售信息)。在504,电子文档的等级被产生来作为接收的用户提供的信息的函数。例如,由用户提供的信息表征为不希望的电子文档可以被分析来鉴别一个或多个电子文档的属性。该鉴别的属性于是被用于概率统计分类器来产生电子文档的等级。该概率统计分类器被训练以识别该鉴别的属性是否是希望的,并且可实施为
Figure A20051009237900251
Bayesian分类器,有限依靠Bayesian分类器,Bayesian网络分类器,决策树,支持矢量机器,内容匹配分类器,最大上熵分类器,其组合等等。
此外,可以确定接收到用户提供的信息的确实性。电子文档的等级可以作为确定的确实性的函数产生。在一个实施例中,可以接收关于电子文档的其它用户提供的信息。该确实性可以通过确定其它用户提供的信息是否与接收到的用户提供的信息一致来确定。在506,根据产生的电子文档的等级,电子文档被标明为关于搜索请求是不希望的。
示例性计算机可读媒盾
图6根据本发明的一个实施例是一个显示示例性计算机可读媒质600的方框图。如图所示,该计算机可读媒质600包括查询元件602,外部元件604,内部元件606,以及分析元件608。然而,可以预期计算机可读媒质600可以是任何数量的计算机可读媒质并且可以包含各种元件和与每一个元件相关的功能性的组合。查询元件602接收一个来自用户的搜索请求并基于接收的搜索请求鉴别电子文档。外部元件604提供用于估计电子文档是否是不希望的数据。内部元件606被配置来确定电子文档的第一信任级别。第一信任级别基于由外部元件604提供的数据来指示电子文档为不希望的似然性。例如,由外部元件604提供的数据鉴别一个或多个主机名。每一个主机名提供具有预定为不希望的似然性信息。内部元件606被配置用于鉴别电子文档为由提供的名字中的一个提供。内部元件606还被配置用于指定第一信任级别,该第一信任级别是基于预定的似然性,用于电子文档来响应鉴别该电子文档被一个主机名提供。
类似地,由外部元件604提供的数据可以鉴别一个或多个网络地址。外部元件604鉴别一个或多个位于该网络地址之一的电子文档为具有预定的成为不希望的似然性。内部元件606被配置用于鉴别电子文档为位于该网络地址之一。内部元件606被配置用于指定第一信任级别,该第一信任级别是基于预定的似然性,用于电子文档来响应鉴别该电子文档为位于一个网络地址。
此外,由外部元件604提供的数据可以鉴别一个或多个术语例如一个或多个电子文档其中出现至少一个术语具有预定的成为不希望的似然性。内部元件606被配置用于确定何时至少该术语之一出现在电子文档中。内部元件606也被配置用于指定对电子文档的第一信任级别以响应确定至少该术语之一出现在电子文档中。第一信任级别是基于预定的似然性。
内部元件606也建立电子文档的第二信任级别。该第二信任级别基于该电子文档的一个或多个属性来指示该电子文档是关于搜索为不令人满意的似然性。该属性表征与搜索相关的一个电子文档的不希望的模式。
分析元件608为电子文档产生一个等级作为确定的第一信任级别和建立的第二信任级别的函数。查询元件602被配置用于基于产生的电子文档的等级来分类电子文档相对于接收的搜索请求是不令人满意的。查询元件608也提供搜索结果给用户以响应接收的搜索请求。查询元件608可以降级在提供的搜索结果中分类为不令人满意的电子文档或从提供的搜索结果中拒绝该分类为不令人满意的电子文档。换句话说,当在提供的搜索结果中电子文档的排列超过了预定的等级,查询元件608可以保留在提供的搜索结果中的电子文档的排列。
图7根据本发明的一个实施例显示了另一个示例性计算机可读媒质700的方框图。如图所示,该计算机可读媒质700包括接口元件702,分析元件704,以及查询元件706。然而,可以预期计算机可读媒质700可以是任何数量的计算机可读媒质并可以包含各种元件和与每一个元件相关的功能性的组合。接口元件702接收用户提供的关于电子文档的信息。该电子文档是可获得的以响应来自用户的搜索请求。用户提供的信息表征该电子文档为不希望的。例如,接收的用户提供的信息可以指定电子文档是与不希望的电子邮件源相关。该接收的用户提供的信息也可以指定该电子文档在搜索结果中是不希望的。
分析元件704为电子文档产生一个等级作为接收用户提供的信息的函数。在一个实施例中,分析元件704分析电子文档来鉴别电子文档的一个或多个属性。分析元件704还应用鉴别的属性到概率统计的分类器,该分类器被训练来识别鉴别的属性是否是不希望的,来为电子文档产生等级。在另一个实施例中,分析元件704确定接收的用户提供的信息的确实性并为电子文档产生等级作为确定的确实性的函数。例如,接口元件702可以接收其它用户提供的关于电子文档的信息。分析元件704然后检查其它用户提供的信息是否相应于该接收的用户提供的信息来确定接收的电子文档的确实性。在分析元件704为电子文档产生该等级后,查询元件706根据产生的电子文档的等级来将电子文档分类相对于搜索请求是不令人满意的。
示例性操作环境
图8显示了以计算机130形式的通用目的计算机设备的例子。在本发明的一个实施例中,计算机例如计算机130适合用于这里显示或描述的其它形态。计算机130具有一个或多个处理器或处理单元132以及系统存储器134。在显示的实施例中,系统总线136连接各种系统元件包括系统存储器134到处理器132。总线136代表一个或多个许多类型总线结构中的任何一种,包括存储器总线或存储器控制器,外围总线,加速图形端口,以及处理单元或使用任何各种总线结构的本地总线。通过例子的方式,但并不限制,这种结构包括工业标准结构(ISA)总线,微通道结构(MCA),增强ISA(EISA)总线,视频电子标准协会(VESA)本地总线,以及外围元件互连(PCI)总线也被称为中层总线。
计算机130典型地至少具有一些形式的计算机可读媒质。计算机可读媒质,它包括易失的和非易失的,可移动的和非可移动的,可以是能被计算机130访问的任何可用的媒质。通过例子但不限制,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以任何方法和技术执行的易失的和非易失的,可移动的和非可移动的媒质,用于例如计算机可读指令,数据结构,程序模块或其它数据的信息的存储。例如,计算机存储媒质包括RAM,ROM,EEPROM,闪存或其它存储技术,CD-ROM,数字通用磁盘(DVD)或其它光学磁盘存储器,磁带盒,磁带,磁盘存储器或其它磁存储设备,或任何其它可以用来存储想要的信息并可以通过计算机130访问的媒质。通信媒质典型包括计算机可读指令,数据结构,程序模块,或在调制数据信号上的其它数据例如载波或其它传输机制并包括任何信息传递媒质。本领域的熟练技术人员熟悉调制数据信号,该信号具有一个或多个它的以编码信息于信号中的方式设置或改变的特征。有线媒质,例如有线网络或直接有线连接,以及无线媒质,例如声学,RF,红外线,以及其它无线媒质,是通信媒质的例子。以上任何组合也包括在计算机可读媒质的范围内。
系统存储器134包括可移动的和/或不可移动的,易失的和/或非易失存储器形式的计算机存储媒质。在显示的实施例中,系统存储器134包括只读存储器(ROM)138和随机访问存储器(RAM)140。基本输入/输出系统142(BIOS),包括帮助用于在计算机130内的元素之间传送信息的基本例行程序,例如在开始,典型地存储在ROM 138中。RAM 140典型包括可以立即被访问的和/或当前被处理单元132操作的数据和/或程序模块。通过例子,但不限制,图8显示了操作系统144,应用程序146,其它程序模块148,以及程序数据150。
计算机130也可以包括其它可移动/不可移动,易失的/非易失计算机存储媒质。例如,图8显示了硬盘驱动器154读出或写到不可移动,非易失磁性媒质。图8也显示了读出和写到可移动的,非易失磁盘158的磁盘驱动器156,以及读出和写到可移动的,非易失光盘162例如CD-ROM或其它光学媒质的光盘驱动器160。可以用在示例性操作环境中的其它可移动/不可移动,易失的/非易失计算机存储媒质包括,但不限于,磁带盒,闪存卡,数字通用磁盘,数字视频磁带,固态RAM,固态ROM,等等。硬盘驱动器154,磁盘驱动器156,以及光盘驱动器160典型通过非易失存储器接口例如接口166,连接到系统总线136上。
以上讨论并在图8中显示的驱动器或其它大容量存储设备以及它们相关的计算机存储媒质,提供计算机可读指令,数据结构,程序模块以及其它为计算机130的数据的存储。在图8中,例如,硬盘驱动器154显示为存储操作系统170,应用程序172,其它程序模块174,以及程序数据176。注意这些元件可以相同于或不同于操作系统144,应用程序146,其它程序模块148,以及程序数据150。操作系统170,应用程序172,其它程序模块174,以及程序数据176在这里给定不同的序号来显示,至少他们是不同的副本。
用户可以通过输入设备或用户接口选择设备例如键盘180和指示设备182(例如,鼠标,跟踪球,笔,或触摸垫)输入命令和信息到计算机130中。其它输入设备(没有示出)可以包括麦克风,操纵杆,游戏垫,卫星天线,扫描器,等等。这些和其它输入设备通过连接到系统总线136的用户输入接口184连接到处理单元132,但可以通过其它接口和总线结构连接,例如并口,游戏端口,或通用串行总线(USB)。监视器188或其它类型的显示装置也通过接口例如视频接口190,连接到系统总线136。除监视器188外,计算机通常包括其它外围输出设备(没有示出)例如打印机和扬声器,它们可以通过输出外围接口(没有示出)连接。
计算机130可以在网络环境中使用到一个或多个远端计算机的逻辑连接进行操作,例如远端计算机194。远端计算机194可以是个人计算机,服务器,路由器,网络PC,对等设备或其它普通网络节点,典型包括以上描述的与计算机130相关的许多或所有元素。在图8中描述的逻辑连接包括局域网(LAN)196和广域网(WAN)198,但也可以包括其它网络。LAN 136和/或WAN 138可以是有线网络,无线网络,其组合,等等。这种网络环境在办公室,企业计算机网络,企业内部互联网以及全球计算机网络(例如,因特网)中是平常的。
当在本地网络环境中使用,计算机130通过网络接口或适配器186连接到LAN 196。当在广域网络环境中使用,计算机130典型包括调制解调器178或其它方法来建立在WAN 198上的通信,例如因特网。调制解调器178,可以是内部的或外部的,通过用户输入接口184或其它恰当的机制连接到系统总线136上。在网络环境中,描述与计算机130相关的程序模块或其部分,可以存储在远端存储器存储设备中(没有示出)。通过例子,但不限制,图8显示远端应用程序192为驻存于存储器设备中。所示的网络连接是示例性的,可以使用在计算机之间建立通信连接的其它方法。
通常,计算机130的数据处理器通过不同次数存储于各种计算机可读计算机存储媒质的指令的方法来编程。程序和操作系统典型分布在,例如软盘或CD-ROM上。从那里,它们可以被安装或加载到计算机第二存储器。在执行中,它们至少部分地被加载到计算机基本电子存储器中。当该媒质包括用于执行关于微处理器或其它数据处理器的以下描述步骤的指令和程序,本发明这里描述的实施例包括这些和其它各种类型的计算机可读存储媒质。当根据这里描述的方法和技术编程时,本发明的一个实施例也包括计算机本身。
为了显示的目的,程序和其它可执行程序元件,例如操作系统,作为分离单元在这里显示。然而,可以承认,该程序和元件在不同的计算机存储元件中驻留于不同的次数,并由计算机的数据处理器执行。
尽管描述的关于示例性计算机系统环境,包括计算机130,本发明的一个实施例通过许多其它通用或专用计算系统环境和配置来操作。计算系统环境不是打算建议任何关于本发明实施例的使用或功能性范围的限制。此外,计算系统环境不应该解释为具有在示例性操作环境中显示的关于任何一个元件或元件的组合的任何依赖性或要求。众所周知的计算系统,环境,和/或配置的例子,它们适用于与本发明的实施例一起使用包括,但不限制于,个人计算机,服务器计算机,手持或膝上型电脑设备,多处理器系统,基于微处理器的系统,机顶盒,可编程用户电子仪器,移动电话,网络PC,小型机,大型计算机,包括任何以上系统或设备的分布式计算环境,等等。
本发明的实施例可以在计算机可执行指令的通用上下文中描述,例如程序模块,被一个或多个计算机或其它设备执行。通常,程序模块包括,但是不限制于,例行程序,程序,目标,元件,以及执行特定任务或执行特定抽象数据类型的数据结构。本发明的实施例也可以在分布式计算环境中实践,其中任务由通过通信网络连接的远端处理设备执行。在分布式计算环境中,程序模块可以位于本地或远端计算机存储媒质中,包括存储器存储设备。
在操作中,计算机130执行计算机可执行指令例如这里描述的那些来估计与搜索相关的电子文档。计算机可执行指令被配置用于确定电子文档的第一信任级别。电子文档可以通过搜索引擎来获得以响应来自用户的搜索请求。第一信任级别基于由外部搜索引擎的源提供的信息来指示电子文档为不希望的似然性。计算机可执行指令也被配置用于确定电子文档的第二信任级别。第二信任级别基于电子文档的一个或多个属性来指示电子文档是关于搜索请求的不令人满意的似然性。计算机可执行指令还被配置用于为电子文档产生一个等级,作为确定的第一信任级别和确定的第二信任级别的函数。计算机可执行指令也被配置用于基于产生的电子文当的等级来指定电子文档为关于搜索请求是不令人满意的。
计算机130也执行计算机可执行指令例如这里描述的那些来估计与搜索相关的电子文档。计算机可执行指令被配置用于接收用户提供的关于电子文档的信息。该电子文档通过搜索引擎获得以响应来自用户的搜索请求。用户提供的信息表征电子文档为不希望的。计算机可执行指令也被配置用于为电子文档产生等级,作为接收的用户提供的信息的函数。计算机可执行指令还被配置用于根据产生的电子文档的等级来指定电子文档为关于搜索请求是不令人满意的。
在这里显示和描述的方法的执行或性能的次序是不重要的,除非另外指定。也就是,可以被发明者预期,方法的元素可以以任何次序执行,除非另外指定,并且该方法可以比这里揭示的那些包括更多或更少的元素。
当介绍本发明或实施例的元素,条目“a”,“an”,“the”,以及“said”意思是有一个或多个元素。术语“comprising”,“including”,以及“having”确定为包括并且意味着可能有不同于所列元素的附加的元素。
鉴于以上,可以看到实现了本发明的许多目标并且达到了其它有益的结果。
由于在以上的结构中可以做各种改变并且不背离本发明实施例范围的方法,意图是包含在以上描述的以及在附图中显示的所有内容将解释为示例性的而不是限制的意义。

Claims (40)

1、一种估计关于搜索的电子文档的方法,该方法包括:
确定电子文档的第一信任级别,所述的电子文档可以响应于来自用户的搜索请求由搜索引擎来获得,所述的第一信任级别基于由搜索引擎外部的源提供的信息,指示电子文档是不希望的似然性;
确定电子文档的第二信任级别,所述的第二信任级别基于一个或多个电子文档的属性,指示电子文档是相对于搜索请求不令人满意的似然性;
产生用于电子文档的作为确定的第一信任级别和确定的第二信任级别的函数的等级;以及
基于产生的电子文档的等级,标明电子文档对于搜索请求是不令人满意的。
2、权利要求1的方法,其中所述的外部源包括电子邮件兜售信息检测系统。
3、权利要求1的方法,其中所述的电子文档包括一个或多个下述内容:网页和多媒体文件。
4、权利要求1的方法,其中确定第一信任级别包括:
从外部源接收一个或多个主机名字,其中由接收的主机名字提供的信息具有预定的不希望的似然性;
鉴别由一个接收的主机名字提供的电子文档;以及
响应于鉴别该电子文档为一个接收的主机名字提供的,指定用于电子文档的第一信任级别,该第一信任级别基于预定的似然性。
5、权利要求4的方法,进一步包括为链接自电子文档的一个或多个其他的电子文档指定第一信任级别。
6、权利要求1的方法,其中确定第一信任级别包括:
从外部源接收一个或多个网络地址,其中外部源鉴别一个或多个位于接收到的其中一个网络地址中的电子文档为不希望的预定的似然性;
鉴别电子文档位于一个接收的网络地址中;以及
指定电子文档的第一信任级别,响应于鉴别电子文档为位于一个接收的网络地址中,所述的第一信任级别基于预定的似然性。
7、权利要求1的方法,其中确定第一信任级别包括:
从外部源接收用户提供的信息,所述的用户提供的信息指定电子文档为不希望的;
响应于接收的用户提供的信息,鉴别一个或多个电子文档的属性,所述的属性表征电子文档的不希望的模式;以及
基于鉴别的电子文档的属性指定电子文档的第一信任级别。
8、权利要求1的方法,其中确定第一信任级别包括:
从外部源接收一个或多个术语,其中外部源确定其中出现至少一个接收的术语的一个或多个电子文档具有不希望的预定的似然性;
在电子文档中检测至少一个接收的术语出现;以及
响应于在电子文档中检测的至少一个接收的术语的出现,指定电子文档的第一信任级别,该第一信任级别基于预定的似然性。
9、权利要求1的方法,其中确定第二信任级别包括:
分析电子文档以鉴别电子文档的属性,所述的属性表征了关于搜索的电子文档的不希望的模式;以及
基于电子文档的属性确定第二信任级别。
10、权利要求1的方法,其中确定第二信任级别包括:
接收用户提供的关于电子文档的信息,所述的接收的用户提供的信息指定电子文档在搜索结果中为不希望的;
响应于接收的用户提供的信息,鉴别一个或多个电子文档的属性,所述的属性表征关于搜索的电子文档的不希望的模式;以及
基于鉴别的电子文档的属性来确定第二信任级别。
11、权利要求1的方法,进一步包括:
响应接收到的搜索请求,为用户提供搜索结果;以及
执行一个或多个下面的步骤:指示在提供的搜索结果中指定为不满意的电子文档,从提供的搜索结果中除去指定为不满意的的电子文档,并且当电子文档的等级超过了在提供的搜索结果中预定的等级时,在提供的搜索结果中保存电子文档的排序。
12、权利要求1的方法,其中一个或多个计算机可读媒质具有计算机可执行指令来执行权利要求1中提到的方法。
13、一种估计关于搜索的电子文档的方法,该方法包括:
接收用户提供的关于电子文档的信息,所述的电子文档可以响应于来自用户的搜索请求而由搜索引擎获得,所述用户提供的信息表征了电子文档为不希望的;
产生作为接收的用户提供的信息的函数的电子文档的等级;以及
根据产生的电子文档的等级,指定电子文档相对于搜索请求为不满意的。
14、权利要求13的方法,其中所述的电子文档包括一个或多个下面的内容:网页和多媒体文件。
15、权利要求13的方法,其中接收的用户提供的信息指定电子文档与不希望的电子邮件有关。
16、权利要求13的方法,其中接收的用户提供的信息指定电子文档为在搜索结果中是不希望的。
17、权利要求13的方法,其中产生电子文档的等级包括:
分析电子文档来鉴别一个或多个电子文档的属性;以及
给统计概率分类器提供鉴别的属性来产生电子文档的等级,所述的统计概率分类器被训练来识别所鉴别的属性是否是不希望的。
18、权利要求13的方法,其中统计概率分类器包括一个或多个可以从下组中选择的分类器,包括: Bayesian分类器,有限依靠Bayesian分类器,Bayesian网络分类器,决策树,支持矢量机器,内容匹配分类器,最大上熵分类器,及其组合。
19、权利要求13的方法,其中产生电子文档的等级包括:
确定接收的用户提供的信息的确实性,以及
产生电子文档的等级为确定的确实性的函数。
20、权利要求19的方法,其中确定接收的用户提供的信息的确实性包括:
接收其他用户提供的关于电子文档的信息,以及
确定其他用户提供的信息是否与接收的用户提供的信息一致。
21、权利要求13的方法,其中一个或多个计算机可读媒质具有执行权利要求13提到的方法的计算机可执行指令。
22、一种用于估计关于搜索的电子文档的系统,所述的系统包括:
处理器,用于接收来自用户的搜索请求并且基于接收的搜索请求鉴别电子文档;
存储区,存储由处理器外部的源提供的数据,用于估计电子文档是否是不希望的;
所述处理器被配置成确定电子文档的第一信任级别,基于外部源提供的数据,所述的第一信任级别指示了电子文档是不希望的似然度;
所述处理器还被配置成建立电子文档的第二信任级别,基于一个或多个电子文档的属性,所述的第二信任级别指示电子文档是相对于搜索不满意的似然度;
所述处理器还被配置成产生作为确定的第一信任级别和建立的第二信任级别的函数的电子文档的等级,基于产生的电子文档的等级,来将电子文档分类为相对于接收的搜索请求为不满意。
23、权利要求22的系统,其中所述的外部源包括电子邮件兜售信息检测系统。
24、权利要求22的系统,其中外部源提供的数据鉴别一个或多个主机名字,每一个所述的主机名字提供具有预定的不希望的似然度的信息,其中处理器被配置成鉴别电子文档为由一个主机名字提供的,并且其中该处理器还被配置成响应于鉴别电子文档为一个主机名字提供,指定电子文档的第一信任级别,所述的第一信任级别基于预定的似然度。
25、权利要求22的系统,其中由外部源提供的数据鉴别一个或多个网络地址,其中外部源鉴别一个或多个位于其中一个网络地址中的电子文档为具有预定的不希望的似然度,其中该处理器还被配置成鉴别该电子文档为位于其中一个网络地址中,并且其中响应于鉴别的电子文档,该处理器被配置成指定电子文档的第一信任级别为位于其中一个网络地址中,所述的第一信任级别基于预定的似然度。
26、权利要求22的系统,其中由外部源提供的数据鉴别一个或多个术语,其中外部源确定一个或多个在其中至少出现一个术语的电子文档为具有预定的不希望的似然性,其中处理器被配置成确定何时至少一个术语出现在电子文档中,并且其中处理器被配置成指定电子文档的第一信任级别来响应于确定至少一个术语出现在电子文档中,所述的第一信任级别基于预定的似然性。
27、权利要求22的系统,其中处理器被配置成分析电子文档以鉴别电子文档的属性,并且基于鉴别的电子文档的属性来建立第二信任级别,所述的鉴别的属性表征关于搜索的电子文档的不希望的模式。
28、权利要求22的系统,其中处理器被配置成提供搜索结果给用户来响应接收的搜索请求,并且被配置成执行一个或多个下面的内容:在提供的搜索结果中指示分类为不希望的电子文档,从提供的搜索结果中除去分类为不满意的电子文档,并且在提供的搜索结果中当电子文档的等级超过了预定的等级时,在提供的搜索结果中保存电子文档的排序。
29、一个或多个具有计算机可执行元件的计算机可读媒质,用于估计关于搜索的电子文档,所述的计算机可读媒质包括:
接口元件,用于接收关于电子文档的用户提供的信息,所述的电子文档可以响应于来自用户的搜索请求而获得,所述的用户提供的信息表征电子文档为不希望的;
分析元件,用于产生作为接收的用户提供的信息的函数的电子文档的等级;以及
查询元件,用于根据产生的电子文档的等级,将电子文档分类为相对于搜索请求为不满意的。
30、权利要求29的计算机可读媒质,其中接收的用户提供的信息指定电子文档与不希望的电子邮件的源有关。
31、权利要求29的计算机可读媒质,其中接收的用户提供的信息指定电子文档在搜索结果中是不希望的。
32、权利要求29的计算机可读媒质,其中分析元件被配置成分析电子文档以鉴别一个或多个电子文档的属性,并且其中分析元件还被配置成为概率统计分类器提供鉴别的属性来产生电子文档的等级,所述的概率统计分类器被训练来识别鉴别的属性是否是不希望的。
33、权利要求32的计算机可读媒质,其中概率统计分类器包括从下组中选择的一个或多个分类器:包括:
Figure A2005100923790006C1
Bayesian分类器,有限依靠Bayesian分类器,Bayesian网络分类器,决策树,支持矢量机器,内容匹配分类器,最大上熵分类器,及其组合。
34、权利要求29的计算机可读媒质,其中分析元件被配置成确定接收到的用户提供的信息的确实性,并且产生电子文档的等级为确定的确实性的函数。
35、权利要求34的计算机可读媒质,其中接口元件被配置成接收关于其他用户提供电子文档的信息,并且其中分析元件被配置成检查其他用户提供的信息是否与接收的用户提供的信息一致,以确定接收的电子文档的确实性。
36、一个或多个具有计算机可执行元件的计算机可读媒质,用于估计关于搜索的电子文档,所述的计算机可读媒质包括:
查询元件,用于接收来自用户的搜索请求,并且基于接收的搜索请求鉴别电子文档;
外部元件,用于提供数据来估计电子文档是否是不希望的;
内部元件,用于确定电子文档的第一信任级别,基于外部元件提供的数据,所述的第一信任级别指示电子文档是不希望的似然性,所述的内部元件还被配置成建立电子文档的第二信任级别,基于一个或多个电子文档的属性,所述的第二信任级别指示电子文档相对于搜索是不满意的;
分析元件,用于产生作为确定的第一信任级别和建立的第二信任级别的函数的电子文档的等级;以及
其中的查询元件被配置成基于产生的电子文档的等级,将电子文档分类为相对于接收的搜索请求是不满意的。
37、权利要求36的计算机可读媒质,其中由外部元件提供的数据鉴别一个或多个主机名字,每一个所述的主机名字提供具有预定为不希望的似然性的信息,其中内部元件被配置成鉴别电子文档为由其中一个主机名字提供的,并且其中内部元件还被配置成指定电子文档的第一信任级别以响应于鉴别电子文档为其中一个主机名字提供的电子文档,所述的第一信任级别基于预定的似然性。
38、权利要求36的计算机可读媒质,其中由外部元件提供的数据鉴别一个或多个网络地址,其中外部元件鉴别一个或多个位于其中一个网络地址的电子文档为具有预定的不希望的似然性,其中内部元件被配置成鉴别电子文档为位于其中一个网络地址,并且其中内部元件被配置成指定电子文档的第一信任级别以响应于鉴别电子文档为位于其中一个网络地址中,所述的第一信任级别基于预定的似然性。
39、权利要求36的计算机可读媒质,其中由外部元件提供的数据鉴别一个或多个术语,其中外部元件确定一个或多个在其中至少出现一个术语的电子文档具有预定的不希望的似然性,其中内部元件被配置成确定何时至少一个术语出现在电子文档中,并且响应于确定至少一个术语出现在电子文档中,其中内部元件被配置成指定电子文档的第一信任级别,所属的第一信任级别基于预定的似然性。
40、权利要求36的计算机可读媒质,其中查询元件被配置成为用户提供搜索结果来响应接收的搜索请求,并执行一个或多个下述内容:指示在提供的搜索结果中分类为不满意的电子文档,从提供的搜索结果中除去分类为不满意的电子文档,并且在提供的搜索结果中当电子文档的等级超过了预定的等级时,保存提供的搜索结果中的电子文档的等级。
CNB2005100923794A 2004-05-21 2005-05-23 用于估计关于搜索的电子文档的方法和系统 Expired - Fee Related CN100461171C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/850,623 2004-05-21
US10/850,623 US7349901B2 (en) 2004-05-21 2004-05-21 Search engine spam detection using external data

Publications (2)

Publication Number Publication Date
CN1728148A true CN1728148A (zh) 2006-02-01
CN100461171C CN100461171C (zh) 2009-02-11

Family

ID=34939803

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100923794A Expired - Fee Related CN100461171C (zh) 2004-05-21 2005-05-23 用于估计关于搜索的电子文档的方法和系统

Country Status (8)

Country Link
US (1) US7349901B2 (zh)
EP (1) EP1598755A3 (zh)
JP (1) JP4906273B2 (zh)
KR (1) KR101130357B1 (zh)
CN (1) CN100461171C (zh)
BR (1) BRPI0504754A (zh)
CA (1) CA2508060C (zh)
MX (1) MXPA05005428A (zh)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US20070038614A1 (en) * 2005-08-10 2007-02-15 Guha Ramanathan V Generating and presenting advertisements based on context data for programmable search engines
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US7992090B2 (en) * 2003-09-25 2011-08-02 International Business Machines Corporation Reciprocal link tracking
US7519998B2 (en) * 2004-07-28 2009-04-14 Los Alamos National Security, Llc Detection of malicious computer executables
US20110197114A1 (en) * 2004-12-08 2011-08-11 John Martin Electronic message response and remediation system and method
US7831438B2 (en) * 2004-12-30 2010-11-09 Google Inc. Local item extraction
US10402457B1 (en) * 2004-12-31 2019-09-03 Google Llc Methods and systems for correlating connections between users and links between articles
US9275052B2 (en) 2005-01-19 2016-03-01 Amazon Technologies, Inc. Providing annotations of a digital work
US7779009B2 (en) 2005-01-28 2010-08-17 Aol Inc. Web query classification
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
US9092523B2 (en) 2005-02-28 2015-07-28 Search Engine Technologies, Llc Methods of and systems for searching by incorporating user-entered information
KR101374651B1 (ko) 2005-03-18 2014-03-17 써치 엔진 테크놀로지스, 엘엘씨 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
US8244722B1 (en) * 2005-06-30 2012-08-14 Google Inc. Ranking documents
US20070011170A1 (en) * 2005-07-08 2007-01-11 Hackworth Keith A Systems and methods for granting access to data on a website
US9715542B2 (en) 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
US7925578B1 (en) * 2005-08-26 2011-04-12 Jpmorgan Chase Bank, N.A. Systems and methods for performing scoring optimization
US20070078939A1 (en) * 2005-09-26 2007-04-05 Technorati, Inc. Method and apparatus for identifying and classifying network documents as spam
US8126866B1 (en) * 2005-09-30 2012-02-28 Google Inc. Identification of possible scumware sites by a search engine
US7751592B1 (en) * 2006-01-13 2010-07-06 Google Inc. Scoring items
US7945627B1 (en) 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
US8725565B1 (en) 2006-09-29 2014-05-13 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US9672533B1 (en) 2006-09-29 2017-06-06 Amazon Technologies, Inc. Acquisition of an item based on a catalog presentation of items
US7885952B2 (en) * 2006-12-20 2011-02-08 Microsoft Corporation Cloaking detection utilizing popularity and market value
US8027975B2 (en) * 2007-01-31 2011-09-27 Reputation.Com, Inc. Identifying and changing personal information
US7975301B2 (en) * 2007-03-05 2011-07-05 Microsoft Corporation Neighborhood clustering for web spam detection
US9665529B1 (en) 2007-03-29 2017-05-30 Amazon Technologies, Inc. Relative progress and event indicators
US7756987B2 (en) * 2007-04-04 2010-07-13 Microsoft Corporation Cybersquatter patrol
US20080270549A1 (en) * 2007-04-26 2008-10-30 Microsoft Corporation Extracting link spam using random walks and spam seeds
US7853589B2 (en) * 2007-04-30 2010-12-14 Microsoft Corporation Web spam page classification using query-dependent data
US7930303B2 (en) * 2007-04-30 2011-04-19 Microsoft Corporation Calculating global importance of documents based on global hitting times
US7941391B2 (en) 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
US7788254B2 (en) * 2007-05-04 2010-08-31 Microsoft Corporation Web page analysis using multiple graphs
US8990215B1 (en) 2007-05-21 2015-03-24 Amazon Technologies, Inc. Obtaining and verifying search indices
US8667117B2 (en) * 2007-05-31 2014-03-04 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US9430577B2 (en) * 2007-05-31 2016-08-30 Microsoft Technology Licensing, Llc Search ranger system and double-funnel model for search spam analyses and browser protection
US7873635B2 (en) * 2007-05-31 2011-01-18 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US8572184B1 (en) * 2007-10-04 2013-10-29 Bitdefender IPR Management Ltd. Systems and methods for dynamically integrating heterogeneous anti-spam filters
US8010614B1 (en) 2007-11-01 2011-08-30 Bitdefender IPR Management Ltd. Systems and methods for generating signatures for electronic communication classification
US20090150497A1 (en) * 2007-12-06 2009-06-11 Mcafee Randolph Preston Electronic mail message handling and presentation methods and systems
US8219549B2 (en) * 2008-02-06 2012-07-10 Microsoft Corporation Forum mining for suspicious link spam sites detection
US8010482B2 (en) * 2008-03-03 2011-08-30 Microsoft Corporation Locally computable spam detection features and robust pagerank
US20090300012A1 (en) * 2008-05-28 2009-12-03 Barracuda Inc. Multilevel intent analysis method for email filtration
US8996622B2 (en) * 2008-09-30 2015-03-31 Yahoo! Inc. Query log mining for detecting spam hosts
US8713007B1 (en) * 2009-03-13 2014-04-29 Google Inc. Classifying documents using multiple classifiers
US9300755B2 (en) * 2009-04-20 2016-03-29 Matthew Gerke System and method for determining information reliability
US8015172B1 (en) * 2009-07-03 2011-09-06 eBridge, Inc. Method of conducting searches on the internet to obtain selected information on local entities and provide for searching the data in a way that lists local businesses at the top of the results
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8332415B1 (en) * 2011-03-16 2012-12-11 Google Inc. Determining spam in information collected by a source
US8756693B2 (en) 2011-04-05 2014-06-17 The United States Of America As Represented By The Secretary Of The Air Force Malware target recognition
US10075505B2 (en) 2011-05-30 2018-09-11 International Business Machines Corporation Transmitting data including pieces of data
US8745736B2 (en) 2011-10-10 2014-06-03 Microsoft Corporation Internet protocol address space management to mitigate and detect cloaking and other abuse
CN102375952B (zh) * 2011-10-31 2014-12-24 北龙中网(北京)科技有限责任公司 在搜索引擎结果中显示网站是否为可信验证的方法
US8868536B1 (en) 2012-01-04 2014-10-21 Google Inc. Real time map spam detection
US9477756B1 (en) * 2012-01-16 2016-10-25 Amazon Technologies, Inc. Classifying structured documents
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN103905515A (zh) * 2012-12-28 2014-07-02 北大方正集团有限公司 一种分布式互联网信息下载系统及方法
KR101508258B1 (ko) * 2013-07-09 2015-04-08 성균관대학교산학협력단 팩스 스팸 차단 장치, 방법 및 시스템
DE102013107905A1 (de) * 2013-07-24 2015-01-29 Endress + Hauser Process Solutions Ag Feldbuszugriffseinheit und Verfahren zum Betreiben derselben
US10778618B2 (en) * 2014-01-09 2020-09-15 Oath Inc. Method and system for classifying man vs. machine generated e-mail
US10229219B2 (en) * 2015-05-01 2019-03-12 Facebook, Inc. Systems and methods for demotion of content items in a feed
US11074282B2 (en) * 2015-09-21 2021-07-27 Air Watch, LLC Secure bubble content recommendation based on a calendar invite
US10229210B2 (en) * 2015-12-09 2019-03-12 Oracle International Corporation Search query task management for search system tuning
US11023553B2 (en) 2017-04-04 2021-06-01 Microsoft Technology Licensing, Llc Identifying and managing trusted sources in online and networked content for professional knowledge exchange
IL252041B (en) * 2017-04-30 2020-09-30 Verint Systems Ltd System and method for tracking computer application users
US10664332B2 (en) * 2018-05-25 2020-05-26 Microsoft Technology Licensing, Llc Application programming interfaces for identifying, using, and managing trusted sources in online and networked content
KR102117534B1 (ko) * 2018-12-28 2020-06-01 아주대학교산학협력단 온라인 데이터의 신뢰도 예측 장치 및 방법
CN111049733A (zh) * 2019-12-10 2020-04-21 公安部第三研究所 一种钓鱼邮件攻击的蔽性标识方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5911043A (en) 1996-10-01 1999-06-08 Baker & Botts, L.L.P. System and method for computer-based rating of information retrieved from a computer network
US6006218A (en) * 1997-02-28 1999-12-21 Microsoft Methods and apparatus for retrieving and/or processing retrieved information as a function of a user's estimated knowledge
US7117358B2 (en) * 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US6256623B1 (en) 1998-06-22 2001-07-03 Microsoft Corporation Network search access construct for accessing web-based search services
US6549897B1 (en) 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US6473753B1 (en) 1998-10-09 2002-10-29 Microsoft Corporation Method and system for calculating term-document importance
JP3347088B2 (ja) 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
GB2347053A (en) * 1999-02-17 2000-08-23 Argo Interactive Limited Proxy server filters unwanted email
US6678681B1 (en) 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
WO2001046870A1 (en) 1999-12-08 2001-06-28 Amazon.Com, Inc. System and method for locating and displaying web-based product offerings
US7099859B2 (en) * 2000-01-20 2006-08-29 International Business Machines Corporation System and method for integrating off-line ratings of businesses with search engines
US6701314B1 (en) 2000-01-21 2004-03-02 Science Applications International Corporation System and method for cataloguing digital information for searching and retrieval
WO2001055905A1 (en) 2000-01-28 2001-08-02 Websense, Inc. Automated categorization of internet data
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
US6529903B2 (en) 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US7136854B2 (en) 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
AU2002220172A1 (en) 2000-11-15 2002-05-27 David M. Holbrook Apparatus and method for organizing and/or presenting data
US6658423B1 (en) 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US6526440B1 (en) 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US8001118B2 (en) 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
GB2373130B (en) 2001-03-05 2004-09-22 Messagelabs Ltd Method of,and system for,processing email in particular to detect unsolicited bulk email
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US7249058B2 (en) * 2001-11-13 2007-07-24 International Business Machines Corporation Method of promoting strategic documents by bias ranking of search results
CN1350247A (zh) * 2001-12-03 2002-05-22 上海交通大学 针对邮件内容的监管系统
US7010526B2 (en) 2002-05-08 2006-03-07 International Business Machines Corporation Knowledge-based data mining system
US6993534B2 (en) 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
US8214391B2 (en) 2002-05-08 2012-07-03 International Business Machines Corporation Knowledge-based data mining system
US20030229672A1 (en) 2002-06-05 2003-12-11 Kohn Daniel Mark Enforceable spam identification and reduction system, and method thereof
US20040024823A1 (en) 2002-08-01 2004-02-05 Del Monte Michael George Email authentication system
US20040049514A1 (en) 2002-09-11 2004-03-11 Sergei Burkov System and method of searching data utilizing automatic categorization
US6983280B2 (en) * 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
CA2504118A1 (en) 2004-04-09 2005-10-09 Opinionlab, Inc. Using software incorporated into a web page to collect page-specific user feedback concerning a document embedded in the web page

Also Published As

Publication number Publication date
CA2508060A1 (en) 2005-11-21
CA2508060C (en) 2013-10-15
CN100461171C (zh) 2009-02-11
US7349901B2 (en) 2008-03-25
MXPA05005428A (es) 2005-11-24
JP2005339545A (ja) 2005-12-08
KR101130357B1 (ko) 2012-03-27
EP1598755A2 (en) 2005-11-23
KR20060049165A (ko) 2006-05-18
EP1598755A3 (en) 2006-07-12
US20060004748A1 (en) 2006-01-05
JP4906273B2 (ja) 2012-03-28
BRPI0504754A (pt) 2006-03-21

Similar Documents

Publication Publication Date Title
CN100461171C (zh) 用于估计关于搜索的电子文档的方法和系统
US9130988B2 (en) Scareware detection
Leung et al. Pmse: A personalized mobile search engine
US7751592B1 (en) Scoring items
US10210179B2 (en) Dynamic feature weighting
CN103544210B (zh) 一种识别网页类型的系统和方法
US20060184500A1 (en) Using content analysis to detect spam web pages
US8312035B2 (en) Search engine enhancement using mined implicit links
US20090319449A1 (en) Providing context for web articles
CN1462005A (zh) 分布式数据库的文档分类和展示的方法与装置
CN1601532A (zh) 根据结构相关信息排序文档的改进的系统和方法
CN1664819A (zh) 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法
CN1684072A (zh) 对多意义查询的相关术语提议
CN1573784A (zh) 用于阻止垃圾邮件的源/目的地的特征和列表
CN107786537B (zh) 一种基于互联网交叉搜索的孤页植入攻击检测方法
CN1559044A (zh) 信息解析方法以及装置
CN1592229A (zh) 基于url的电子通讯和网页过滤
CN1637741A (zh) 笔式计算系统中的标记管理
WO2008134172A1 (en) Web spam page classification using query-dependent data
CN1629844A (zh) 动态内容聚类
CN104765874A (zh) 用于检测点击作弊的方法及装置
CN107888606B (zh) 一种域名信誉度评估方法及系统
CN109791559A (zh) 促进图像作为搜索查询的使用
CN112333185B (zh) 一种基于dns解析的域名阴影检测方法和装置
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150429

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150429

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090211

Termination date: 20200523

CF01 Termination of patent right due to non-payment of annual fee