CN1682216A - 广域网搜索中搜索列表项内容的适当性确定的自动化处理 - Google Patents

广域网搜索中搜索列表项内容的适当性确定的自动化处理 Download PDF

Info

Publication number
CN1682216A
CN1682216A CNA038216094A CN03821609A CN1682216A CN 1682216 A CN1682216 A CN 1682216A CN A038216094 A CNA038216094 A CN A038216094A CN 03821609 A CN03821609 A CN 03821609A CN 1682216 A CN1682216 A CN 1682216A
Authority
CN
China
Prior art keywords
search listings
search
data
predetermined
listings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038216094A
Other languages
English (en)
Inventor
多米尼科·张
丹尼斯·吴
巴里·拉福恩
艾伦·朗
斯科特·斯内尔
张洁
皮埃尔·王
詹尼弗·吴
彼得·古德温
黄慧燕
凯里·萨布利特
斯蒂芬·坎宁安
布鲁斯·T·霍姆斯
Original Assignee
Overture Services Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Overture Services Inc filed Critical Overture Services Inc
Publication of CN1682216A publication Critical patent/CN1682216A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于提高用于评价候选数据项的数据库处理系统的效率的方法和系统,所述候选数据项代表了被提交以包括到搜索引擎数据库中的搜索列表项。自动评估候选搜索列表项的质量、风格和相关性,以评价被用户不满地接收到的风险以及潜在的暴露量。较高风险或较大量的搜索列表项被路由通过手动编辑审查,而较低风险、较小量的搜索列表项被路由为立即包括到搜索数据库中,而无需手动编辑评价。因此,人工编辑工作可以投入到对高风险或较大量的搜索列表项的手动审查中,同时提高了在作为整体的处理系统中的效率。

Description

广域网搜索中搜索列表项内容的适当性确定的自动化处理
技术领域
本发明涉及自动化文档内容分析的领域,更具体地说,涉及用于自动确定将搜索列表项包括到广域网搜索引擎数据库中的适当性的机制。
背景技术
因特网是具有真正意义上全球触及范围的广域网,将全世界的计算机互连在一起。因特网中一般被称为全球万维网的那一部分是数量惊人的相互关联的数据集合。全球万维网(有时被称为“万维网”)的内容包括已知的HTML(超文本置标语言)格式的文档,这些文档根据已知的HTTP(超文本传输协议)协议通过因特网来传输,诸如此类。
万维网内容的广度和深度对于任何希望在其中寻找特定信息的人来说都是惊人及繁重的。因此,万维网中非常重要的一个组件就是搜索引擎。使用在这里,搜索引擎是一种用于定位与一个或多个用户指定的搜索项(search term)相关的内容的交互式系统,所述一个或多个搜索项总地代表一次搜索查询。通过公知的公共网关接口(CGI),万维网可以包括交互式的内容,所谓交互式即对与万维网相连的计算机的人工用户所指定的数据做出响应。搜索引擎从用户接收到具有一个或多个搜索项的搜索查询,并且向该用户提供一列被确定为与所述搜索查询相关的一个或多个文档。
搜索引擎极大提高了用户在万维网上定位所需信息的效率。因此,搜索引擎是因特网上最常用的资源之一。一个有效的搜索引擎可以帮助用户在当前表示在万维网内的数以十亿计的文档中对非常具体的信息进行定位。搜索引擎的主要功能以及它存在的意义就在于当给定用户查询的一些搜索项时,在可以获得的数以十亿计的文档中识别出少数最相关的结果,并且在尽可能短的时间内实现上述功能。因此,搜索引擎的一项非常重要的功能就是确定文档对于搜索查询的相关性。
一般地,搜索引擎维护一个记录数据库,这些记录将搜索项和万维网上的信息资源关联起来。当前,搜索引擎主要用几种常用的方式来获得有关万维网内容的信息。最常见的一种方式一般被称为在万维网上爬行(crawling),第二种方式是通过由这些信息的提供者或者由第三方(即,既不是信息的提供者,也不是搜索引擎的提供者)来提交这些信息。搜索引擎获得有关万维网内容的信息的另一种常见方式是让人工编辑基于他们的审查来创建信息的索引。
为了理解爬行方式,我们必须首先明白,万维网的文档可以包括对万维网的其他文档的引用,这些引用通常被称为链接。只要“点击”了文档的一部分,使得被引用的文档显示出来,我们就激活了这样一个链接。在万维网上爬行一般是指一个自动的过程,即利用该过程,由一个文档引用的若干文档被获取并被分析,而由这些文档引用的文档又被获取并被分析,并且递归式地重复以上获取和分析。因而,尝试着自动遍历整个万维网,从而为万维网的全部内容编目。
由于万维网的文档经常被添加和/或修改,而且万维网非常庞大,所以还不曾有一个万维网爬行器成功地为整个万维网编目。因此,希望让自己的内容包括在搜索引擎数据库中的万维网内容提供者直接将他们的内容提交给搜索引擎的提供者。可以通过因特网获得的内容和/或服务的其他提供者与搜索引擎的运营商签订协议,以使他们的内容被定期地爬过并被更新,使得搜索结果包括当前信息。有一些搜索引擎允许因特网内容和/或服务的提供者编写并且提交在搜索查询的结果中与他们的内容和/或服务相关联的简要标题和描述,例如由位于加利福尼亚州Pasadena的OvertureService公司( http://www.overture.com)提供的搜索引擎,在美国专利6,269,361中对该搜索引擎进行了描述,通过引用将这篇专利包含在本说明书中。随着因特网的发展以及因特网上商业活动的增多,一些搜索引擎已专门用于提供与普通信息结果分开显示的商业性搜索结果,额外的好处就是有助于因特网上的商业交易。一种这类的搜索引擎就是如上所述在’361专利中描述并且由Overture Services公司提供的搜索引擎。
由于提供多余信息的搜索引擎与最少化地提供多余信息的搜索引擎相比明显处于劣势,所以搜索引擎的提供者都非常想要最大化被提供给搜索查询的结果的相关性。因此,搜索引擎的提供者在将每个列表项包括进他们的数据库之前,通常要审查各个搜索列表项的内容的期望性和适当性,以响应于搜索查询实时递送搜索结果。
由于万维网上的信息数量不计其数,所以这种审查是一项很难完成的任务。此外,由于具体搜索列表项的适当性要根据对搜索列表项自身以及该搜索列表项所引用内容的微妙人工观念而定,所以内容审查一般还没有实现自动化。搜索引擎的运营商一般只能在以下两者之间进行选择:(i)自动生成搜索结果,其中的列表项具有可疑的相关性,因此对用户的价值低一些;或者(ii)通过人工编辑,手动生成更相关的搜索列表项,但是范围大大缩小。虽然手动编辑的搜索列表项具有高得多的相关性,并且因此可以更有效地吸引客户访问搜索引擎,但是在时间和资源两方面,对搜索列表项的手动编辑是非常昂贵的,并且大大延迟了新提交的搜索列表项对搜索引擎用户的可获得性。搜索列表项被延迟的可获得性降低了搜索列表项响应于搜索查询被产生为结果的当前性。
所需要的是这样一种机制,利用该机制,可以有效地完成对一个或多个搜索列表项的审查,同时保持对给定的搜索列表项给人工用户留下的印象的精确分析,所述人工用户是看到了所述搜索列表项和/或由该搜索列表项引用的内容的人工用户。
发明内容
根据本发明,对候选的搜索列表项进行自动评价,以确定所述搜索列表项与内容策略相一致的可能性。具体地说,被确定为较低风险并且较小量的候选搜索列表项可以自动并且快速地被批准包括到搜索列表项数据库中,以响应于用户的实时查询即刻作为结果来使用。提交候选搜索列表项以包括到搜索引擎数据库中的各方将因所提交的搜索列表项的快速批准和可用性而获益。此外,各方可被自动通知所提交列表项的自动批准或拒绝,从而提供更高的满意度,并且提升对候选搜索列表项评价过程的效率和有效性的信心。
快速并且自动地批准将较低风险、较小量的候选搜索列表项包括到搜索列表项数据库中的另一项好处在于:可以将宝贵的人力资源投入到对以下候选搜索列表项更加仔细的编辑审查中,所述候选搜索列表项是那些被自动确定为不是较低风险或者不是较小量的搜索列表项。因此,对候选搜索列表项的编辑审查的质量提高了,同时提高了对所有候选搜索列表项进行编辑审查的效率。
为了评估候选搜索列表项与预定的内容策略相一致的可能性所进行的自动预处理一般包括质量、风格和相关性分析。质量分析评估内容的本质,具体地说,评估候选搜索列表项的内容令人反感的可能性和程度。某些类型的内容是非常令人反感的,以致于被搜索引擎提供者单方面禁止,并且一旦在候选搜索列表项中检测到这种被拦截的内容,就自动拒绝该列表项,并将如此拒绝以及拒绝的理由通知给提交源。可疑项是指示了应对候选搜索列表项进行更彻底审查的那些项。检测到搜索列表项中的可疑内容将导致该搜索列表项被路由到对搜索列表项的手动审查,以确定该搜索列表项是否和内容策略相一致,并且通知提交者这种手动审查正在进行中。同样,搜索列表项中的性和赌博内容并不会自动将该搜索列表项标记为拒绝,而是将该搜索列表项标记为由人工编辑进行更彻底的手动审查。然而,搜索列表项内毫无意义的垃圾文本将导致该搜索列表项被自动拒绝,并且提交者获得通知。
在对候选搜索列表项的风格的自动评价中,通常可能会有三个动作。应当注意的是,这三个动作并不是相互排斥的。第一,候选搜索列表项可被标注为拒绝并被自动发送回提交源,同时指示拒绝的理由。第二,候选搜索列表项可被标记为手动审查,并被路由到人工编辑,同时将以上情况通知给提交者。第三,可以自动修改候选搜索列表项以和预定的风格策略相一致,并且在编辑后被自动包括到所述数据库中。风格策略可以指定搜索列表项要想被包括到搜索引擎数据库中所必须满足的各种风格标准,包括字符大写规则、标点符号规则、最高级的禁用以及如示例性实施例所示的类似标准。
在候选搜索列表项的自动相关性确定过程中,通过在算法上筛选(screen)相关网页的内容来验证一组相关性标准,确定所提交的列表项和搜索项之间的相关性。相关性标准包括这样一些事情:(i)关联的URL地址是否指向现有文档,(ii)所引用的文档是否包含关联的搜索项,以及(iii)搜索列表项的搜索项、标题和描述是否与所引用的文档相关。这些相关性标准仅仅是代表性的,还可能包括被认为适于进行相关性确定的任何标准。与对风格的评价相似,自动相关性确定中通常也可能有三个动作。第一,搜索列表项可被确切地认为与搜索项相关,因而可批准进行自动处理。第二,搜索列表项可被确定为与搜索项边际相关,因而被路由到由人工编辑进行手动审查。第三,搜索列表项可被确定为与搜索项绝对不相关,并被自动拒绝。
附图说明
图1是图示一个广域网的框图,该广域网例如是因特网,其中采用了根据本发明的搜索引擎。
图2是图1中搜索引擎的更详细框图。
图3是根据本发明,被认为将包括到搜索数据库中的搜索列表项的框图。
图4是根据本发明对候选搜索列表项进行评价的逻辑流程图。
图5是图2中编辑评价器的更详细框图。
图6是根据本发明对候选搜索列表项的处置确定过程的逻辑流程图。
图7是示出了根据本发明用于评价搜索列表项的编辑评价标准的框图。
图8是图示了对候选搜索列表项包括令人反感内容的确定过程的逻辑流程图。
图9是图示了根据本发明对候选搜索列表项实施风格策略的逻辑流程图。
图10是更详细地示出了图5中的算法诊断工具的框图。
具体实施方式
根据本发明,对含有相对较小量搜索项的较低风险的搜索列表项进行的编辑审查被自动化,以允许人工编辑将注意力更加集中于含有较大量搜索项的候选搜索列表项,这些候选搜索列表项由于含有较大量的搜索项,因而有更高的风险被不期望的暴露和/或用边际相关的搜索列表项充斥着搜索结果。由此,大大减少了为评价所提交的搜索列表项所需的平均时间,并且很多较小量的、较低风险的搜索列表项几乎可以被立即批准,因而提高了搜索引擎提供者的效率和收益能力。
出于图示的目的大大简化了图1,图1图示了搜索引擎102,它被耦合到并服务于广域网104,在这个示例性的实施方式中,广域网104就是因特网。多个主机计算机系统106A-D被耦合到因特网104,并且向多个客户端计算机系统108A-C提供内容。例如,虽然只示出了四个主机计算机系统和三个客户端计算机系统,但是应当理解,(i)耦合到因特网的主机计算机系统和客户端计算机系统加起来有数以百万计的计算机系统,并且(ii)主机计算机系统可以象客户端计算机系统一样获取信息,并且客户端计算机系统可以象主机计算机系统一样容宿(host)信息。
搜索引擎102是这样一种计算机系统,它为主机计算机系统106A-D所容宿的信息编目,并且服务于客户端计算机系统108A-C对可由任何一个主机计算机106A-D容宿的信息的搜索请求。响应于这种请求,搜索引擎102产生一个结果集,该集合是由与所述搜索请求中所指定的一个或多个搜索项相匹配的任何已编目的信息组成的。由主机计算机系统106A-D所容宿的信息包括通常被称为网站这种形式的信息。可以在因特网中被公知为万维网的那一部分中,通过已知的并被广泛使用的超文本传输协议(HTTP)来获取上述信息。提供给用户的单个多媒体文档一般被称为网页,由单个人、群体或组织控制的相互关联的网页一般被称为网站。
虽然这里描述了对相关网页的搜索,但是应当理解,这里所描述的技术同样可用于搜索存储在广域网中并且可通过其他网络协议进行访问的其他形式的信息。此外,可由容宿着另一方所提交信息的任何个人或组织来行使编辑权力。例如,在私营的内部网中或者在任何网络中,包括LAN或WAN而不仅仅是在因特网中,可以实行严格的质量控制。类似地,因特网服务提供者或者网络容宿服务的提供者可以使用这里所描述的技术来实施有关所容宿内容的策略。
在图2中更详细地示出了搜索引擎102。搜索引擎102包括搜索服务器206,它接收来自任何客户端计算机系统108A-C的搜索请求,并且使用搜索数据库208来服务所述搜索请求。搜索引擎102还包括提交服务器202,用于接收来自任何主机计算机系统106A-D的搜索列表项提交。每次提交都请求将任何主机计算机106A-D所容宿的信息编目在搜索数据库208中,因此使得所述信息可用于通过搜索服务器206成为搜索结果。
为了避免向客户端计算机系统108A-C提供不想要的搜索结果,搜索引擎102包括一个编辑评价器204,它在将提交的搜索列表项包括到搜索数据库208之前,对这些搜索列表项进行评价。这项功能通过确保满足法定或协议性内容过滤和提供义务,为所有搜索引擎提供者实现了重要的商务需求。对于提供服务以及搜索结果列表项的格式进行标准化,这样还可以提高整个搜索结果提供服务的有效性,并且可以帮助搜索引擎提供者为用户生成更加相关的结果。
在这个示例性的实施方式中,搜索引擎102——提交服务器202、编辑评价器204和搜索服务器206中的每一个——都是在一台或多台计算机上执行的一个或多个计算机进程中的全部或一部分。简要地说,提交服务器202接收用以在搜索数据库208中列出信息的请求。每一个这样的请求都包括一个或多个候选搜索列表项,一般都是搜索列表项300的形式(图3)。应当理解,搜索列表项300是被提交给搜索引擎102的,因此它一开始是在搜索引擎102之外被创建的。为方便起见,提交搜索列表项300的一方有时被称为搜索列表项300的所有者。然而,应当理解,提交搜索列表项的一方不一定是所引用信息的创建者。
搜索列表项300包括账户字段302,其标识了所代表发出请求的实体。账户字段302使得搜索引擎102能够将搜索列表项请求限制到多个受信实体,和/或因服务于将搜索列表项包括到搜索数据库208中的请求而收费。在一种可替换的实施方式中,服务于这些请求是不收费的,因而省略了账户字段302。
搜索列表项300的项字段304指定了搜索列表项所涉及的具体搜索项。例如,搜索项“旅游”可能和涉及旅游信息的搜索列表项相关联。
搜索列表项300的URL 306指定了与项字段304中的项相关联的信息在因特网104中的地址。URL 306是统一资源定位符(URL),并且在这个示例性的实施方式中标识特定的网页。URL是众所公知的,这里不再描述。可以理解,URI也可以使用在URL 306中。一般而言,URL 306是标识信息(例如文档)的数据,所述信息可以通过因特网104获得,并且用户可能正在搜索该信息。可以使用其他已知类型的信息引用来取代URL。
搜索列表项300包括描述字段310,其中包括了对在URL 306的地址处找到的信息的简要描述。描述字段310被用来向用户提供对URL 306所标识的网页的简单提要,从而帮助用户确定网页与所请求的搜索之间的相关性。应当理解,描述字段310是由所有者提供的,并且最初,仅以搜索列表项300的所有者已做到的程度,与URL 306所引用的信息相关——并且精确地描述该信息。
搜索列表项300的类别字段312指定了项字段304中的搜索项所属于的类别,这是由搜索列表项300的所有者确定的。这有助于分辨同义的搜索项。例如,项“book”被用来指印刷的文字作品、马赛中下赌注、或者预订诸如旅馆或机票。类别字段312可被用来分辨“book”这一项的每种含义。在这个示例性的实施方式中,类别字段312是可选的,因此不必一定在搜索列表项300中指定。
在这个示例性的实施方式中,根据对特定搜索项的更高排位的竞价来排序搜索数据库208的搜索列表项。一般来说,在有关给定搜索项的搜索结果中,会更早地列出对该搜索项的更高竞价。最高竞价字段314和竞价类型字段316分别指定了搜索列表项300的提交者愿意为结果列表中的最高排位支付的最大数额以及竞价的类型。在这个示例性的实施方式中,竞价可以是静态的,或者在指定的最大竞价之下是自动的,但是应当理解,任何形式的竞价、竞价值或者附加其他相关性考虑的竞价都可以用来排名用户查询的结果。在这个示例性的实施方式中,在竞价类型字段中所表示的竞价的类型包括固定竞价和自动递增竞价。如果竞价是固定的,则最高竞价字段314代表一个固定竞价额。如果竞价是自动递增的,则最高竞价字段314代表一个竞价向上自动递增,但不会超出的最高竞价额。
在这个示例性的实施方式中,可以由提交搜索列表项300的实体来请求搜索列表项300的手动编辑评价。这种请求按照这里所描述的方式阻止了自动编辑评价,并且在手动评价请求标记318中表示出来。
在这个示例性的实施方式中,在市场的上下文中对搜索列表项进行组织和评价。因此,可以在搜索列表项300所针对的市场上下文中对搜索列表项300中任何部分的令人反感的质量进行评价。在市场字段320中指示了这一市场。可替换地,市场字段320可以指定搜索列表项300可适用于的一个或多个市场。在这个示例性的实施方式中,有效的市场包括美国、英国、德国、法国和日本。
提交服务器202接收到一个或多个搜索列表项,并且将它们转发到编辑评价器204,编辑评价器204确定将每个搜索列表项包括到搜索数据库208中的适当性。逻辑流程图400(图4)示出了编辑评价器204在做出这一确定时的处理。
在步骤402,编辑评价器204接收到搜索列表项300(图3)。逻辑流程图(图4)示出了对单个搜索列表项的处理。如果接收到多个搜索列表项,则根据逻辑流程图400相互独立并且与其他搜索列表项并行地处理每个搜索列表项。
图5中更详细地示出了编辑评价器204。提交者接口502从提交服务器202接收到搜索列表项,所述提交服务器202在这个示例性的实施方式中是一个web服务器。搜索列表项作为通过因特网104接收到的、遵循图3中所示的通用结构的CGI数据被单独接收,或者作为以提交服务器202可读的数据格式出现的多个搜索列表项的集合被接收,所述集合在这个示例性的实施方式中例如是一个由逗号分隔的值组成的表或者某种其他电子数据表兼容的格式。web服务器、CGI和各种电子数据表兼容数据格式都是公知的,这里不再进一步地描述。
提交者接口502接收到试图包括到搜索数据库208中的搜索列表项,并且将所述搜索列表项转发到搜索列表项接收管理器504。搜索列表项接收管理器504为每个提交的搜索列表项创建一个搜索列表项收据。搜索列表项收据是一种既代表搜索列表项又代表它由编辑评价器204进行处理的状态的数据结构。除了图3中所示的字段之外,搜索列表项收据还包括代表提交搜索列表项的实体的数据、搜索列表项收据的创建和修改日期以及对该收据的处理的评价和完成以及评价过程中的其他事件的日期、代表被确定为与搜索列表项相关联的各种类型的内容的标记、评价搜索列表项的人或系统、对相关性和质量一类事物的各种评分、当前状态和最终处置。
提交者接口502通过将代表搜索列表项的数据放置在搜索列表项接收队列中,而请求创建搜索列表项收据。这种数据由搜索列表项接收管理器504来管理。具体地说,搜索列表项接收管理器504从搜索列表项接收队列中取出所述数据,并且通过将这个数据和上述各种搜索列表项收据字段合并在一起,而形成搜索列表项收据。
当为某一具体的搜索列表项创建了收据时,所述搜索列表项——在其接收的上下文中——准备接受评价,以包括到搜索数据库208中。搜索列表项接收管理器504通过将这些搜索列表项收据放置在导入队列512中,从而提交搜索列表项收据以接受这种评价。
在考虑将搜索列表项收据包括到搜索数据库208中时,搜索列表项导入管理器514管理对所述搜索列表项收据的处理。新的候选搜索列表项收据由搜索列表项导入管理器514从导入队列512中取出。搜索列表项导入管理器514记录以下数据,这些数据代表着对每个搜索列表项收据的实质内容的各种评估。在这个示例性的实施方式中,这样就结束了步骤402(图4)。
经过搜索列表项导入管理器514(图5)处理的每个搜索列表项收据都被提交给风格和质量管理器516。在步骤404和406(图4)中,风格和质量管理器516(图5)分别评估在描述字段310以及URL 306所标识的信息的上下文中,项字段304(图3)中所指定的项的质量和相关性。步骤404(图4)和406被示出为相互独立并且同时执行。然而,应当理解,可以按照任何顺序,依次执行步骤404-406。
在步骤404,风格和质量管理器516评估搜索列表项的质量。具体地说,风格和质量管理器516针对可疑的、冒犯性的或敏感的内容来评估URL 306(图3)所标识的信息以及包含在描述字段310中的信息。应当注意到,出于说明的目的,这里明确公开了一些令人反感的项。绝无冒犯之意。
下面更详细地描述在步骤404(图4)中的质量评估。简要地说,几类令人反感的项(term)被保存在搜索数据库208(图2)中。在这个示例性的实施方式中,这些类别包括拦截项、可疑项、色情项、赌博项、垃圾文本、禁止项和索引项。
拦截项是很有可能令人反感的那些项,包括拦截项的任何搜索列表项都被风格和质量管理器516标注为拒绝,甚至在进一步的编辑评价之前就被如此标注了。这些项的例子包括“娼妓”、“乱伦”、“兽交”和“微软公司太烂了”。当然,也可以想象出一些更加令人反感的项。这些项很有可能是冒犯性的,以致于如果搜索引擎102将这些项包括在搜索结果中将会给自己的声誉抹黑。此外,法定和协议性义务可能要求搜索引擎防止向用户显示特定的令人反感的项。因此,在这个示例性的实施方式中,在搜索列表项中检测到拦截项将导致该搜索列表项当即被拒绝。
可疑项是那些潜在地令人反感的项,使得包括这些项的搜索列表项应当被标注为进一步评价。这些项的例子包括“身体解决”、“城市搜寻”、“nissan.com”、“有线黑盒子(cable black box)”、“性感女孩”以及“避孕套”。这些以及其他可疑项可能是合法的、不令人反感的搜索项,或者可能是令人反感的、应被拒绝的搜索项,这取决于可疑项给人的整体印象以及上下文。因此,风格和质量管理器516将包括可疑项的搜索列表项标注为进一步审查,而不是当即拒绝。
色情项是本质上色情和/或迎合淫乱需求的那些项。与搜索列表项相关联的好色内容不一定注定被拒绝。然而,优选的是为请求搜索的用户提供排除色情内容的选择权,这是因为有些用户可能认为色情内容是非常令人不快和厌恶的,而其他用户可能正是要寻找色情内容。准确地识别出与搜索列表项相关联的信息是不是本质上色情的,这使得这些搜索列表项可以根据用户指定的偏好被适当地过滤。
赌博项是与赌博活动相关联的项。与色情项一样,赌博项也不是立即被标注为拒绝,而是被标识为赌博项,以协助过滤操作来排除赌博项。这些项的例子包括“21点”、“扑克”、“双骰儿”和“投币”。虽然有些用户认为赌博项是令人反感的,但是更多的用户认为与赌博相关的网站只是有点烦人而已。尽管一部分用户对色情和赌博网站百分之百没有兴趣,但是这些网站的提供者总是试图将有关他们网站的信息提供给用户,也许是希望引诱一些好奇的新顾客来尝试基于web的付费服务。结果,很多正在搜索信息的用户发现他们自己遭受到大量访问色情和赌博相关网站的意外恳求。只要允许从搜索结果中滤除赌博相关的网站和色情相关的网站,就可以大大改进由搜索引擎102提供的搜索结果的值。
垃圾文本是毫无意义的文本,并且风格和质量管理器516识别搜索列表项中的垃圾文本。被产生为搜索结果的搜索列表项中的垃圾文本可以对搜索引擎102产生不良影响,因此是不允许的。因此,风格和质量管理器516将与垃圾文本相关联的搜索列表项标注为当即拒绝以及进一步审查。
德国人要求从网站中禁止某些项,而其他项则在网站中进行索引。因此,如果当前搜索列表项适用于在市场字段320(图3)中所指示的德国市场,则风格和质量管理器516(图5)识别所述主体搜索列表项中的禁止项和/或索引项。在当前搜索列表项中检测到禁止项将导致按照这里关于拦截项所描述的方式,当即拒绝该搜索列表项。另外,在当前搜索列表项中检测到索引项将导致按照这里关于可疑项所描述的方式,将当前搜索列表项标注为手动编辑审查。
在步骤404(图4),编辑评价器204的风格和质量管理器516(图5)还要检查每个搜索列表项的格式和风格。例如,URL 306(图3)必须指定有效的URL,例如现有网页在因特网104中的有效地址。此外,搜索列表项300的每个字段都具有最小和最大字段长度以及可行的数据格式。由风格和质量管理器516对每个字段进行检查。
下面更完整地来描述由风格和质量管理器516进行的风格检查。简要地说,风格检查涉及对包括最高级或联系信息的搜索列表项的拒绝,具有不需要风格的字符被自动编辑出搜索列表项。例如多个标点符号的连续出现(例如“Sale!!!”)被单次出现(例如,变为“Sale!”)取代,一些标点符号被一同删除(例如,*、!、{、}、[、]、<、>、|、\、^、=和~),并且结束一句话的感叹号被句号取代。在搜索数据库208中给出了一些例外,以供标点符号在商号中的合法使用,例如“Yahoo!”和“E*TRADE”。
在这个示例性的实施方式中还实施了一些其他风格的字符。URL在标题字段308(图3)和描述字段310中是不被允许的。在这些字段中发现的任何URL都会被替换,而替换URL的仅是该URL的域名部分。根据标题和描述所用语言的语法规则,正确地大写化标题字段308和描述字段310。优选的是,可以允许缩写词全用大写字母并识别出来,同样可以识别并允许那些被不寻常地大写但是合法的适当名词(例如“eBay”)。此外,“Internet”被编辑为以大写字母“I”开头,并且根据提交搜索列表项300所用的语言,删除双空格,并且在适当的时候将空格插入到标点符号之后。通过实施这样的风格要求,维护了搜索引擎102提供专业的高质量服务的声誉,并且改善了用户的体验,从而增加了搜索引擎102的使用,因此提升了搜索引擎102的价值。
这样,编辑评价器204的风格和质量管理器516在步骤404中针对令人反感的内容对搜索列表项进行了评估,以上令人反感的内容例如包括拦截项、可疑项、色情项、赌博项、垃圾文本以及禁止项和索引项,并且实施了格式和风格要求。
在步骤406中,相关性管理器520针对所引用信息与关联的搜索项之间的相关性来评估搜索列表项。相关性管理器520指派一个从0到100范围内的相关性分数,其中0代表着根本不相关,100代表着全相关。下面更完整地来描述相关性管理器520的相关性评分。简要地说,风格和质量管理器516验证以下事情:(i)URL 306的地址实际上指向现有文档吗(即,地址起作用吗)?(ii)项字段304中的搜索项包含在URL 306所引用的网页中吗?(iii)搜索项与URL 306所引用的网页相关吗?(iv)搜索项与字段308-310中所指定的标题和描述相关吗?(v)标题和描述与URL 306所引用的网页相关吗?(vi)在URL 306所引用的网页中存在成人和/或赌博内容吗?(vii)所引用的信息、标题和描述是使用特定语言例如英语的吗?以及(viii)在所引用的网页上存在拦截内容和/或可疑内容吗?此外,风格和质量管理器516确定所引用的文档是否以搜索引擎102的提供者确定为不可行的方式修改了客户端计算机108A-C所施行的导航界面。例如,某些文档可以指定用户界面机制的非标准行为,例如“后退”GUI按钮,以阻止用户自由地导航万维网。在这个示例性的实施方式中,风格和质量管理器516作为一种策略问题不允许这种导航界面,并且引用这些文档的任何搜索列表项都被完全拒绝。
一旦风格和质量管理器516和相关性管理器520在步骤404-406中分别确定了所引用的网页的质量和相关性,则风格和质量管理器516和相关性管理器520将这些步骤的结果提供给搜索列表项管理器514。根据逻辑流程图400(图4)的处理转移到测试步骤408,在该步骤中编辑评价器204的处置管理器518确定对于当前搜索列表项300而言,手动或自动编辑评价哪一个是适当的。
步骤408被更详细地示为逻辑流程图408(图6)。在测试步骤602中,处置管理器518确定由项字段304(图3)所标识的当前搜索项是否需要手动评价。一般而言,某些搜索项是足够模糊和/或足够流行的,以致于仍要保证手动评价。在这个示例性的实施方式中,在前一个月已至少被搜索500次的那些搜索项需要进行手动评价。在一种可替换的实施方式中,在前一个月已至少被搜索1000次的那些搜索项需要进行手动评价。当然,这个阈值只是示例性的。可以增大或减小该阈值,以影响搜索列表项中被挑选出来进行手动编辑评价的比例。被搜索少于预定次数的搜索项被识别为较小量搜索项。如果针对较小量搜索项的令人反感的搜索列表项在没有手动编辑评价的情况下被包括到搜索数据库208中,则较小量的搜索项对于搜索引擎102的提供者而言代表着受到令人不快的感知的较低风险。因此,在处理效率与对搜索列表项的仔细及准确评估之间的折衷倾向于将含有较大量搜索项的所有搜索列表项都路由到手动评价。应当理解,用于识别较小量搜索项的具体预定阈值根据搜索引擎102的提供者的商业优先级,取决于归因于对所提交的搜索列表项的有效分析以及对所提交搜索列表项的质量评估的各个值。
如果当前搜索项需要手动评价,则处理转移到步骤614,在这里步骤408确定手动评价是适当的。由此,从测试步骤408(图4)开始的处理转移到步骤410,在步骤410中,按照以下完整描述的方式,以手动过程来评价所述搜索列表项。相反,如果当前搜索列表项不需要手动评价,则处理转移到测试步骤604(图6)。
在测试步骤604中,处置管理器518确定当前搜索列表项是否如同步骤404-406中所确定的那样质量很差。在这个示例性的实施方式中很差质量的例子包括(i)处于可接受长度的预定范围之外的搜索项、标题、描述和URL;(ii)处于可接受值的预定范围之外最高竞价;(iii)包括最高级的标题或描述;(iv)包括联系信息的标题或描述;以及(v)相关性分数低于预定阈值的搜索列表项。根据用于搜索列表项批准的编辑方针,还可以考虑其他的标准。在这个示例性的实施方式中,预定的阈值相关性分数被设置为60。相关性分数低于60的搜索列表项被确定为具有很差的质量。此外,相关性分数低于第二较低预定阈值(例如,在这个示例性的实施方式中等于40)的搜索列表项被标注为无需手动编辑评价而自动拒绝。
如果当前搜索列表项被确定为具有很差的质量,则在步骤614中确定手动评价。相反,如果当前搜索列表项未被确定为具有很差的质量,则处理转移到测试步骤606。
在测试步骤606中,处置管理器518确定当前搜索列表项是否包括和/或引用了令人反感的内容。如果以下任何一个条件满足,则处置管理器5 18做出以上确定:(i)当前搜索列表项(例如搜索列表项300(图3))在步骤404中被确定为包括拦截内容、可疑内容、成人内容、赌博内容、禁止内容或者索引内容,或者(ii)与在步骤406中被爬过以进行相关性分析的当前搜索列表项相关联的信息被确定为包括拦截内容、可疑内容、成人内容、赌博内容、禁止内容或者索引内容。应当注意,在这个示例性的实施方式中,垃圾文本并不会立即使当前搜索列表项失去自动评价的资格,并且用于确定令人反感内容的其他要求集合也可以根据需要来使用。如果处置管理器518确定当前搜索列表项包括和/或引用了令人反感的内容,则处理转移到步骤614,在该步骤中选择手动评价。相反,如果处置管理器518没有确定当前搜索列表项包括和/或引用了令人反感的内容,则处理转移到测试步骤608。
在测试步骤608中,处置管理器518确定当前搜索列表项(例如存储在URL 306中)的URL先前是否曾被确定为引用了包括拦截内容、可疑内容、成人内容、赌博内容、禁止内容或者索引内容的信息。在这个示例性的实施方式中,仅在当前搜索列表项中检查禁止内容和索引内容,这适用于德国市场。如果URL 306先前曾被确定为引用了这种令人反感的内容,则处理转移到步骤614,在该步骤中选择对当前搜索列表项的手动评价。相反,如果处置管理器518没有确定URL 306先前曾被拒绝,则处理转移到测试步骤610。处置管理器518保存一列先前被拒绝的URL,以检测新近提交的搜索列表项中所重新提交的URL。
除了记录先前被拒绝的URL外,处置管理器518还保存有关每一方对先前所提交的搜索列表项的先前处置的统计结果。因此,如果某一特定的搜索列表项的提交者有相当高百分比的提交列表项被拒绝,则无论新近提交的搜索列表项的评估质量和风格如何,所述新近提交的搜索列表项都可以被路由进行手动编辑审查。先前被拒绝的搜索列表项的百分比可以基于被拒绝的总搜索列表项相比于所提交的总搜索列表项的简单比例而定。可替换地,可以对百分比进行加权,使得更近提交的搜索列表项相对于更早提交的搜索列表项而言被给予更多的考虑,从而实现对逐渐提高了所提交搜索列表项的质量的那些搜索列表项的提交者的一类原谅。这样,由特定提交者提交的搜索列表项的数量和被拒绝的那些搜索列表项的数量之间的关系起到了所述提交者的可信度的度量的作用。可信度的其他度量可以包括提交者已提交搜索列表项多长时间——假设已经很长时间了,则返回提交者更加可信——以及所提交的搜索列表项的量,这个量是按照所提交的搜索列表项的总数来测量的,或者是按照提交者所提交的所有搜索列表项的总竞价值来测量的。
如上所述,提交者具有异常差的可信度的后果就是需要进行手动编辑评价。相对高可信的提交者可以以几种方式受益。如果确定一定要进行手动编辑审查的话,则相对高可信的提交者所提交的搜索列表项可以被路由进行精简和/或加速的手动评价。这种精简的手动编辑审查可以省略手动编辑评价过程中可被认为是冗余检查和/或交叉检查的各种步骤。加速的手动编辑评价也是适当的,这是因为相对高可信的提交者由其定义可知,趋向于提交适当的并且有很少(如果还有的话)策略和/或风格违规的搜索列表项。相对高可信的提交者可以获益的另一种方式就是:如果手动审查按照这里所描述的方式被确定为适当的话,可以在对搜索列表项的手动审查之前,将任何提交的搜索列表项临时接受下来并且包括到搜索数据库208中。还可以将这些收益组合起来,使得由相对高可信的提交者提交的搜索列表项在确定要保证手动编辑评价的情况下,在接下来的精简和/或加速手动编辑评价之前,被临时接受并包括到搜索数据库208中。
在测试步骤610中,处置管理器518确定当前搜索列表项的提交者是否已请求了手动评价。在提交搜索列表项以包括到搜索数据库208中时,向提交每个搜索列表项的用户提供一个请求对搜索列表项进行手动编辑评价的机会。如果搜索列表项的接受是值得怀疑的,并且想要避免在将搜索列表项包括到搜索数据库208中的延迟,则用户可以发出这样的请求。这样一个请求被记录在搜索列表项300中的手动评价请求标记3 18中。如果请求了手动评价,则处理转移到步骤614,在该步骤中如下所述地选择对当前搜索列表项的手动评价。相反,如果对当前搜索列表项没有请求手动评价,则处理转移到测试步骤612。
在测试步骤612中,处置管理器518确定当前搜索列表项所针对的市场是否需要手动评价。如上所述,每个搜索列表项(例如搜索列表项300)都与一个市场(例如市场320)相关联。在这个示例性的实施方式中,市场是国家、网络或其他单元,这些单元具有指定了更多或其他适当性的方针的法律集合和/或文化。在某些市场中,需要所有的搜索列表项在被包括到搜索数据库208中之前,都被仔细地手动评价。例如,如果搜索引擎102服务于一个相对新的市场,则可以花一些时间和经历来为该市场充分开发出一列拦截内容和可疑内容。将用于该市场的所有搜索列表项都转向手动评价,这使得所述市场在充分开发出一列全面的拦截内容和可疑内容以实现对用于该市场的搜索列表项的自动评价之前,能够得到服务。
如果搜索列表项适用于市场字段320(图3)中所指示的多个市场,则对于该搜索列表项所适用的每个市场,相互独立地评价所述搜索列表项。这样,某个搜索列表项就有可能基于对一个市场的适用性被指定为手动编辑审查,而对另一个市场则被指定为自动编辑审查。
如果处置管理器518确定当前搜索列表项的市场需要手动评价,则处理转移到步骤614,在该步骤中处置管理器518确定当前搜索列表项将在步骤410(图4)中被手动评价。相反,如果处置管理器518(图5)确定所述市场不需要手动评价,则处理转移到步骤616(图6),在该步骤中处置管理器518确定在处理中执行到这一点的对当前搜索列表项的自动分析是否足够了。由此,一旦在步骤616中确定自动编辑评价已足够了,则当前搜索列表项被放置在线上,即被包括到搜索数据库208中,并且可以响应于搜索查询,作为产生的搜索列表项被呈现给用户。这样就可以非常快速地处理较低风险、较小量的搜索列表项,并且在非常短的时间内,同时需要非常少的人力资源来批准将这些搜索列表项包括到搜索数据库208中,就使得正在搜索的公众可以获得所述较低风险、较小量的搜索列表项。
在步骤614中的手动评价涉及阅读当前搜索列表项的不同字段并且按照预定的编辑标准来评价当前搜索列表项的人工编辑。简要地说,人工编辑阅读并评价当前搜索列表项,以找到上述令人反感的内容。具体地说,人工编辑确定搜索列表项或者由搜索列表项引用的信息是否包括拦截内容,如果搜索列表项和/或关联信息包括可疑内容,则人工编辑在已知所述可疑内容的上下文的情况下,可以确定所述可疑内容是否过分令人反感。人工编辑还可以确定搜索列表项和/或关联信息是否包括成人内容和/或赌博内容,由于适当的分类使得这些内容可以被请求搜索的用户过滤掉,所以包括这些内容并不是拒绝搜索列表项的理由。如果搜索列表项包括垃圾文本,则人工编辑确定垃圾文本在搜索列表项和关联信息的整体的上下文中是不是毫无意义的和/或混乱的。此外,如果搜索列表项定目标于内容被禁止的某一具体市场(例如德国),则人工编辑确定所述搜索列表项是否包括这种禁止内容和/或索引内容。
关于搜索列表项是被接受还是被拒绝的最终确定是基于一组编辑方针而定的,所述编辑方针部分基于具有适当性的市场观念和商业目标。这样,编辑方针取决于有关这些观念的占据主导的义务和搜索引擎102的目标。如果搜索列表项被人工编辑拒绝,则向该搜索列表项的提交者通知这一拒绝,并向所述提交者提供人工编辑拒绝的理由。提交者被提供一个机会来修改所述搜索列表项以克服拒绝的理由并且/或者更换当前搜索列表项所引用的站点的风格和/或内容,然后重新提交所述搜索列表项。
质量评估
如上参考步骤404(图4)所述,风格和质量管理器516(图5)分析当前搜索项的质量。为了完成这一工作,风格和质量管理器516使用评价标准700(图7),该标准700是数据库的集合并且可由风格和质量管理器516来访问。当然,评价标准700只是示例性的。可以根据在搜索引擎102中所要实现并实施的具体内容策略,而用其他标准来取代评价标准700。在逻辑流程图800(图8)中图示了风格和质量管理器516在评估当前搜索列表项的质量时的处理。一开始在逻辑流程图800中,当前搜索列表项在其搜索列表项收据内被标注为不被拒绝并进行自动编辑评价。
在测试步骤802中,风格和质量管理器516确定在当前搜索列表项的搜索项、标题、描述或URL中是否包括拦截项或短语。拦截项和短语被表示在拦截项数据库702(图7)中。在分析搜索项自身时,风格和质量管理器516将搜索项的原始形式和规范形式与存储在拦截项数据库702中的拦截项和短语进行比较,使用在这里,词或短语的规范形式就是它在标准使用中所表现出的词或短语。如果当前搜索列表项的搜索项是非标准的,则原始形式和规范形式将会不同。
风格和质量管理器516在确定搜索项是否代表了拦截项或短语时执行两种不同类型的分析:子串比较和记号(token)比较。根据具体的项或短语来确定哪一类型的分析是适用的,并且在评价标准700(图7)的每一个数据库中预先确定并指定所适用的一类分析。
在这两类分析中,风格和质量管理器516所进行的比较对于大小写和重音不敏感。例如,拦截项“incest”与“Incest”、“inCest”和“íncest”匹配。子串分析匹配包括拦截项作为子串的词或短语。例如,“familyincest”和“incestisbest”与拦截项“incest”相匹配。类似地,异常的标点符号也不会妨碍拦截项的匹配;“ince.est”和“i!n!c!e!s!t”与拦截项“incest”相匹配。
记号分析仅匹配由一组预定的分隔符分隔的全部词。在这个示例性的实施方式中,预定的一组分隔符包括空白间隔(空格和制表符之类的)以及以下字符:逗号、句号、分号、冒号、省略号、引号、惊叹号、at符号(“@”)、英镑符号、美元符号、百分比符号、&符号、星号、克拉号(carat)、圆括号、下划线、连字符、加号、等于号、方括号和常规中括号、垂直线(“|”)、小于号、大于号、问号、斜线(“/”)、重音号(“`”)和代字号(tilde)。有些令人反感的项可以是不令人反感的项的子串,记号分析对于这种令人反感的项来说一般是优选的。例如,“rape”可能是一个拦截项,但是“grape”和“scrape”就不应被拦截。
风格和质量管理器516根据为每一个项指定的分析类型:或者是子串分析或者是记号分析,将当前搜索列表项的搜索项、标题、描述和URL与存储在拦截项数据库702中的拦截项进行比较。如果在这些字段的任何一个字段中发现拦截项,则处理器转移到步骤804,在该步骤中风格和质量管理器516将当前搜索列表项标注为拒绝。在步骤806中,风格和质量管理器516将当前搜索列表项标注为手动编辑评价。如果在测试步骤802中,在当前搜索列表项的上述字段的任何一个当中发现的都是非拦截项,则风格和质量管理器516跳过步骤804-806,并且当前搜索列表项保持不被标注为拒绝,而被标注为自动编辑评价。
在测试步骤808中,风格和质量管理器516确定当前搜索列表项的搜索项、标题、描述和URL是否包括可疑项或短语。可疑项和短语被表示在评价标准700的可疑项数据库704中。在测试步骤808中的分析类似于前面关于测试步骤802描述的对包括拦截项的确定过程。如果当前搜索列表项的搜索项、标题、描述和URL包括可疑项或短语,则处理转移到步骤810,在该步骤中风格和质量管理器516将当前搜索列表项标注为手动编辑评价。指示当前搜索列表项是否将被拒绝的标记不会受到影响,仍然保持为在测试步骤808前设置的那样。如果当前搜索列表项的搜索项、标题、描述和URL被确定为不包括可疑项或短语,则风格和质量管理器516跳过步骤810。
在测试步骤812中,风格和质量管理器516确定当前搜索列表项的搜索项、标题、描述和URL是否包括色情项或短语。色情项和短语被表示在评价标准700的色情项数据库706中。在测试步骤812中的分析类似于前面关于测试步骤802描述的对包括拦截项的确定过程。如果当前搜索列表项的搜索项、标题、描述和URL包括色情项或短语,则处理转移到步骤814,在该步骤中风格和质量管理器516将当前搜索列表项标注为手动编辑评价。指示当前搜索列表项是否将被拒绝的标记不会受到影响,仍然保持为在测试步骤812前设置的那样。如果当前搜索列表项的搜索项、标题、描述和URL被确定为不包括色情项或短语,则风格和质量管理器516跳过步骤814。
在测试步骤816中,风格和质量管理器516确定当前搜索列表项的搜索项、标题、描述和URL是否包括赌博项或短语。赌博项和短语被表示在评价标准700的赌博项数据库708中。在测试步骤816中的分析类似于前面关于测试步骤802描述的对包括拦截项的确定过程。如果当前搜索列表项的搜索项、标题、描述和URL包括赌博项或短语,则处理转移到步骤818,在该步骤中风格和质量管理器516将当前搜索列表项标注为手动编辑评价。指示当前搜索列表项是否将被拒绝的标记不会受到影响,仍然保持为在测试步骤816前设置的那样。如果当前搜索列表项的搜索项、标题、描述和URL被确定为不包括赌博项或短语,则风格和质量管理器516跳过步骤818。
在测试步骤820中,风格和质量管理器516确定当前搜索列表项的搜索项、标题、描述和URL是否包括垃圾文本。在这个示例性的实施方式中,不检查当前搜索列表项的URL是否包括垃圾文本。然而,在可替换的实施方式中,风格和质量管理器516将当前搜索列表项的URL包括到垃圾文本的分析当中。
各种项目的垃圾文本被表示在评价标准700的垃圾文本数据库710中。由风格和质量管理器516在该数据库中发现的任何匹配都意味着搜索列表项包含垃圾文本,并且在测试步骤820中检测出肯定性条件。此外,风格和质量管理器516将当前搜索列表项的搜索项、标题和描述与评价标准700的综合词典712中的内容进行比较。综合词典712代表了来自存储在搜索数据库208(图2)中的所有搜索项、标题和描述的所有词。如果风格和质量管理器516不能在综合词典712中匹配到当前搜索列表项的搜索项、标题或描述的任何词,则风格和质量管理器516确定当前搜索列表项包括垃圾文本。
如果当前搜索列表项的搜索项、标题或描述包括赌博项或短语,则处理转移到步骤822,在该步骤中风格和质量管理器516将当前搜索列表项标注为拒绝。指示当前搜索列表项将被手动评价的标记不会受到影响,仍然保持为在测试步骤820前设置的那样。如果当前搜索列表项的搜索项、标题和描述被确定为不包括赌博项或短语,则风格和质量管理器516跳过步骤822。
如果当前搜索列表项是针对德国市场的,则还要检查禁止项和索引项。否则,质量检查结束。因此,如果风格和质量管理器516在测试步骤824中确定当前搜索列表项的市场不是德国,则根据逻辑流程图800的处理结束。相反,如果当前搜索列表项是针对德国市场的,则处理从测试步骤824转移到测试步骤826。
在测试步骤826中,风格和质量管理器516确定当前搜索列表项的搜索项、标题、描述或URL是否包括禁止项或短语。禁止项和短语被表示在评价标准700的禁止项数据库712中。在测试步骤826中的分析类似于前面关于测试步骤802描述的对包括拦截项的确定过程。如果当前搜索列表项的搜索项、标题、描述或URL包括禁止项或短语,则处理转移到步骤828,在该步骤中风格和质量管理器516将当前搜索列表项标注为拒绝。在步骤830中,风格和质量管理器516将当前搜索列表项标注为手动编辑评价。如果当前搜索列表项的搜索项、标题、描述和URL被确定为不包括禁止项或短语,则风格和质量管理器516跳过步骤828-830。
在测试步骤832中,风格和质量管理器516确定当前搜索列表项的搜索项、标题、描述或URL是否包括索引项或短语。索引项和短语被表示在评价标准700的索引项数据库714中。在测试步骤832中的分析类似于前面关于测试步骤802描述的对包括拦截项的确定过程。如果当前搜索列表项的搜索项、标题、描述或URL包括索引项或短语,则处理转移到步骤834,在该步骤中风格和质量管理器516将当前搜索列表项标注为手动编辑评价。指示当前搜索列表项是否将被拒绝的标记不会受到影响,仍然保持为在测试步骤832前设置的那样。如果当前搜索列表项的搜索项、标题、描述和URL被确定为不包括索引项或短语,则风格和质量管理器516跳过步骤834。
在步骤832-834之后,根据逻辑流程图800的处理结束。在这个示例性的实施方式中,对于每个搜索列表项都针对检测状况维护单独的标记。具体地说,每个搜索列表项收据都包括用于拦截项、拦截的URL、可疑项、可疑URL、色情项、色情URL、赌博项、赌博URL、垃圾文本项、垃圾文本URL、禁止项、禁止的URL、索引项和索引URL的标记。用于拦截项、可疑项、色情项、赌博项、垃圾文本项、禁止项和索引项的标记指示了拦截、可疑、色情、赌博、垃圾文本、禁止和索引的项或短语在搜索列表项的搜索项、标题或描述中的存在。用于拦截的URL、可疑URL、色情URL、赌博URL、垃圾文本URL、禁止URL和索引URL的标记指示了拦截、可疑、色情、赌博、垃圾文本、禁止和索引的项或短语在搜索列表项的URL中的存在。单独标记的使用有助于向搜索列表项的提交者表示拒绝所提交的搜索列表项的理由和/或有关所提交的搜索列表项的问题。此外,维护专用于搜索列表项的URL的标记可以实现对同一令人反感的网页的其他搜索列表项的快速检测和分析。
风格评估
如上所述,同样参考步骤404(图4),风格和质量管理器516评估当前搜索列表项在风格上的质量,并且对当前搜索列表项实施某些风格规则。在逻辑流程图900(图9)中图示了风格和质量管理器516在评估及实施当前搜索列表项的风格时的处理。
在测试步骤902中,风格和质量管理器516确定当前搜索列表项的标题或描述中是否包括最高级。通过在搜索列表项的标题和描述中禁止最高级,避免了搜索引擎102无意当中的认可。风格和质量管理器516通过在评价标准700的最高级数据库716中寻找匹配的条目来检测最高级。
如果风格和质量管理器516确定当前搜索列表项的标题或描述包括最高级,则处理转移到测试步骤904,在该步骤中风格和质量管理器516确定任何匹配的最高级是不是在最高级例外数据库718中所表示的可允许例外。可允许例外的一个例子是包括最高级的合法商号,例如“BestBuy”。如果任何匹配的最高级都不是可允许的例外,则处理转移到步骤906,在该步骤中风格和质量管理器516将当前搜索列表项标注为拒绝。相反,如果在当前搜索列表项的标题或描述中没有找到任何最高级,或者如果所有匹配的最高级都是可允许的例外,则风格和质量管理器516的处理跳过步骤906。
在测试步骤908中,风格和质量管理器516确定当前搜索列表项的标题或描述中是否包括诸如地址、电话号码或传真号码、或电子邮件地址一类的联系信息。通过在当前搜索列表项的标题和描述中寻找电话号码、电子邮件地址和邮政地址的公知样式,风格和质量管理器516做出以上确定。如果风格和质量管理器516确定当前搜索列表项的标题或描述中包括联系信息,则处理转移到测试步骤910,在该步骤中风格和质量管理器516确定所有检测到的联系信息是不是在联系例外数据库720中所表示的可允许例外。一种这样的可允许例外是也包括联系信息的合法商号。例如,很多合法商号都是免费拨打的电话号码——例如1-800-FLOWERS。
如果在当前搜索列表项的标题或描述中的一些联系信息不是可允许的例外,则处理转移到步骤912,在该步骤中风格和质量管理器516将当前搜索列表项标注为拒绝。相反,如果在当前搜索列表项的标题或描述中没有找到任何联系信息,或者如果所有这样的联系信息都代表着在联系例外数据库720中所表示的可允许例外,则风格和质量管理器516跳过步骤912。
在步骤914中,风格和质量管理器516将当前搜索列表项的标题和描述中冗余的标点符号替换成该冗余标点符号的单个形式。例如,在标题中的“Sale!!!”被替换成“Sale!”。类似地,在描述中的“Save$$$!”被替换成“Save$!”。在这个示例性的实施方式中,例外包括由两个相邻的连字号表示的长破折号(“--”)以及由三个相邻的英文句号或三个相邻的星号表示的省略号(“...”或“***”)以及由四个相邻的英文句号表示的跟随英文句号的省略号(“....”)。在可替换的实施方式中,三个相邻的星号不可以作为省略号来使用;只有三个相邻的英文句号才被允许。
在测试步骤916中,风格和质量管理器516确定当前搜索列表项的标题或描述是否包括不允许的标点符号。在这个示例性的实施方式中,以下标点符号是不允许的:“*”、“!”、“{”、“}”、“[”、“]”、“<”、“>”、“/”、“|”、“^”、“_”、“=”和“~”。如果当前搜索列表项的标题或描述包括不允许的标点符号,则处理转移到测试步骤918,在该步骤中风格和质量管理器516确定所述不允许的标点符号是不是在标点符号例外数据库722中所表示的例外。这些例外的例子是包括这些标点符号的合法商号,例如E*TRADE和Yahoo!。如果不允许的标点符号中有任何一个不是合法的例外,则处理转移到步骤902,在该步骤中将删除不允许的标点符号,并且用句号来代替惊叹号。如果当前搜索列表项的标题和描述不包括不允许的标点符号,或者如果这个标点符号代表着在标点符号例外数据库722中所表示的例外,则风格和质量管理器516跳过步骤920。
在步骤922中,风格和质量管理器516将当前搜索列表项的标题和描述中的任何URL都替换为所替换URL的域名部分。例如,风格和质量管理器516在步骤922中用“dog.com”来替换“http://www.dog.com/index.html”。
在步骤924中,风格和质量管理器516大写当前搜索列表项的标题中的每个词的首字母。当然,风格和质量管理器516是根据当前搜索列表项的市场的语言来实现这种大写化的。例如,在英语市场中,诸如“a”、“an”、“the”的限定词不被大写。将不大写的词被表示在大写化例外数据库724(图7)中。
在步骤926中,风格和质量管理器516将当前搜索列表项的标题或描述中所有字母都大写的任何词都改变为首字母大写,而该词的剩余字母都小写的形式。例外被表示在缩写词数据库中。由此,风格和质量管理器516留下了全部为大写字母的合法缩写词。
在步骤928中,风格和质量管理器516大写当前搜索列表项的标题和描述两者的第一个词。在步骤930中,风格和质量管理器516在当前搜索列表项的标题和描述中大写所有情形的“Internet”一词。
在步骤932中,风格和质量管理器516用单空格字符来替换在当前搜索列表项的标题和描述中由多个空格字符组成的邻接串。因此,在标题中的“Big Sale!”变为“Big Sale!”。在步骤934中,风格和质量管理器516在后面紧跟着非空格字符的每个标点符号后添加一个空格字符。在标点符号例外数据库722中所表示的例外被用来确保在单词之间对标点符号的合法使用中不插入空格字符。例如,在步骤934中,“Big Sale!ClickHere!”变为“Big Sale!Click Here!”,但是“E*TRADE”保持不变。
在步骤934之后,根据逻辑流程图900的处理结束,并且由风格和质量管理器516对当前搜索列表项的风格编辑结束。改进由搜索引擎102产生的搜索列表项的风格,提升了搜索引擎102的用户对其的整体印象。因此,用户更愿意访问由浏览到的搜索列表项所表示的信息,有时这被称为“点进”,并且搜索引擎102所提供的服务对于所提交的搜索列表项的所有者和用户的价值都大大升高了。
相关性评分
如上面参考步骤406所述,相关性管理器520让算法诊断工具524来分析当前搜索列表项与关联的网页之间的相关性。在这个示例性的实施方式中,算法诊断工具524提供了应用编程接口(API),借助该API,相关性管理器520将搜索列表项交付给算法诊断工具524以进行相关性分析,并且随后从算法诊断工具524取回这种分析的结果。当算法诊断工具524发信号通知相关性管理器520结果准备就绪被取回时,相关性管理器520取回相关性分析的结果。
向图10中更详细地示出了算法诊断工具524。HTML下载器1002下载搜索列表项所引用的网页,以进行相关性分析。HTML下载器1002可以爬过网站,即重复性地获取网页,直至预定的链接深度。如果链接深度是1,则HTML下载器1002获取由搜索列表项的URL引用的网页以及在链接深度1处由该网页引用的所有页面。如果链接深度是2,则HTML下载器1002获取由链接深度1处的网页所引用的所有网页。在这个示例性的实施方式中,预定的链接深度是0。因此,HTML下载器1002所取得的只是由搜索列表项的URL直接引用的网页。此外,链接深度可以指定只有通常由网页容宿的链接才被遍历和分析。具体地说,只分析具有相同基本域名的链接。这样,网页才不会因为缺少由他人提供的引用文档的相关性而受到惩罚。
HTML下载器1002将任何取得的网页都存储在HTML缓存1004中,以供随后的分析使用。这使得HTML下载器1002能够将网页获取操作安排在网络流量比较轻的时候,并且避免从主机计算机108A-D中的单个计算机中获取大量的网页,从而避免过度干扰该主机计算机的商业活动。
虚幻搜索器(phantom searcher)1006使用常见的文本搜索技术来确定三种关系的相关性分数。所述关系涉及当前搜索列表项的搜索项、当前搜索列表项的标题和描述字段以及当前搜索列表项的URL所引用的网页。虚幻搜索器1006使用Lucene,这是一种公知并且常见的文本搜索引擎,它是与Apache web服务器计划相关联的开放源代码Jakarta计划的一部分。这里只是简要地描述Lucene,以帮助对所描述的示例性实施方式的操作的完整理解。简要地说,Lucene为指定的搜索项和指定的引用文本提供了相关性分数。
虚幻搜索器1006提供当前搜索列表项的搜索项以及作为参考文本的、当前搜索列表项的标题和描述,并且使用Lucene索引数据库1008来执行相关性分析。由此,虚幻搜索器1006获得相关性分数,该分数代表了所述搜索项与所述搜索列表项的标题和描述之间的相关性。这度量出了搜索项与被寻找和该搜索项相关联的信息之间相关的程度。
虚幻搜索器1006提供当前搜索列表项的搜索项以及作为参考文本的、由当前搜索列表项的URL引用的网页(存储在HTML缓存1004中),并且使用Lucene索引数据库1008来执行相关性分析。由此,虚幻搜索器1006获得相关性分数,该分数代表了所述搜索项与所述搜索列表项所引用的网页之间的相关性。如上面更完整描述的那样,相关性分数低于预定阈值(例如60)的搜索列表项具有非常可疑的质量,以致于需要对该搜索列表项进行手动编辑评价。此外,如果搜索列表项的相关性分数低于第二低的预定阈值(例如40),则该搜索列表项被自动拒绝。
虚幻搜索器1006提供当前搜索列表项的标题和描述以及作为参考文本的、存储在HTML缓存1004中的由当前搜索列表项的URL引用的网页,并且使用Lucene索引数据库1008来执行相关性分析。由此,虚幻搜索器1006获得相关性分数,该分数代表了所述搜索列表项的标题和描述与所述搜索列表项所引用的网页之间的相关性。
应当理解,有多种方式可以为一个文本与另一个文本的相关性评分。然而,在这个示例性的实施方式中,使用下列TFIDF(项频率,倒数文档频率(inverse document frequency))公式来量化一个或多个项与表示为文档的文本主体之间的相关性:
Relevance Score = Σ t = term ( ( tf q ) ( idf ) norm q ) ( ( tf d ) ( idf ) norm d ) coord - - - ( 1 )
在方程(1)中,tfq代表了项t在查询中的频率的平方根。具体地说,给定的项可以在搜索查询中出现一次以上。项t在文档中的平方根由tfd来表示。根据下列方程来确定倒数文档频率idf:
在方程(2)中,文档数量是索引数据库中的文档总数,文档频率是包括项t的索引中的文档的数量。
回到方程(1),根据下列方程来确定normq
norm q = Σ t = term ( ( tf q ) ( idf ) ) 2 - - - ( 3 )
再次回到方程(1),normd代表了在和项t相同的字段中的文档中的记号的数量的平方根。最后,根据下列方程来确定coord:
coord = terms total terms query - - - ( 4 )
其中,termstotal代表了在查询以及合并的文档中项的总数,termsquery代表了在搜索查询中项的总数。
在相关性确定之前,对所要比较的文本(例如搜索查询以及与搜索列表项相关联的网页)的主体都要进行预处理,以提高相关性比较的准确性。预处理的第一步就是记号化(tokenization)。具体地说,文本的主体被划分为由空格和标点符号分隔的词。通过将文本整体转换成统一的大小写格式——例如,在这个示例性的实施方式中是小写,使文本的主体成为大小写不敏感的。从文本中删除停顿词(stop word),这些停顿词是那些常被使用但几乎不含语义的词,例如“a”、“an”、“of”、“the”等。将Lucene的Porter Stemming机制应用于文本,以去除动词时态词尾,例如“ed”和“ing”。另外,去除常见的拼写错误,并将复数词转换成单数形式。这样文本就被提取出来,使得文本的实质内容更容易比较。
虚幻搜索器1006将这三个相关性分数归一化为0和1之间的浮点值,并且在这个示例性的实施方式中使用加权平均来合并它们。当然,可以使用各种权值和数学合并方法来获取对相对相关性的评估。然而,在这个示例性的实施方式中,在计算出归一化分数的加权平均之前,这三个相关性分数被归一化为0.0和1.0之间的浮点值。在这个示例性的实施方式中所使用的具体权值是:(i)对于搜索项和所引用网页之间的相关性分数是2.0;(ii)对于搜索列表项的标题和搜索项之间的相关性分数是0.75;(iii)对于标题和描述与所引用的网页之间的相关性分数是0.5。
为了在形成加权平均之前归一化各种相关性分数,虚幻搜索器1006对每个相关性分数应用下列方程:
f ( x ) = 1 - 1 C x - - - ( 5 )
在方程(5)中,x代表相关性分数,而f(x)代表位于值0.0和1.0之间的归一化相关性分数。C是根据x的分布而选择的一个常数。在这个示例性的实施方式中,选择C使得平均相关性分数被归一化为值0.5。使用度量出的平均x(表示为xaverage),通过求解下列方程来确定C:
0.5 = 1 - 1 C x average - - - ( 6 )
词汇分析器1010提高由虚幻搜索器1006确定的相关性分数的精度。具体地说,如果某个搜索列表项被虚幻搜索器1006确定为具有特别低的相关性分数,则词汇分析器1010收集当前搜索列表项的搜索项的语义替换,并且让虚幻搜索器1006使用这个语义替换对当前搜索列表项的相关性进行评分。在这个示例性的实施方式中,语义替换包括同义词、下位关系词(hyponym)和从属关系词(meronym),并被表示在词典1012中。词典1012可以是公知并且常见的英语WorldNet词汇数据库,这里不再进一步描述。增订词典1014是词典的增订版本1014,并且表示由搜索引擎102和/或由搜索引擎102的人力提供者所确定的搜索项之间的等价关系。增订词典1014使得由算法诊断工具524返回的相关性分数的精度随着分析搜索项的经验的积累而得到精细的调节和提高。
在这个示例性的实施方式中,如果所确定的相关性低于预定的阈值,例如0.25,则词汇分析器1010分析搜索项的语义替换。在这种情况下,词汇分析器1010确定搜索项的每个同义词的相关性分数,并且将用1.0加权后的相关性分数加到先前所确定的加权平均相关性分数中。如果新的相关性分数至少等于预定的阈值,则相关性分析停止。不然,则按照同样的方式来分析额外的同义词。
如果耗尽了所有的同义词而累积相关性分数仍然低于预定的阈值,则词汇分析器1010以同样的方式将搜索项的下位关系词的加权后相关性分数加到累积相关性分数中。给定词的下位关系词就是所述词的更具体形式。一个项与该项的下位关系词之间的关系就是集合与子集的关系。例如,“汽车”是“交通工具”的下位关系词。
如果耗尽了所有的下位关系词而累积相关性分数仍然低于预定的阈值,则词汇分析器1010以同样的方式将搜索项的从属关系词的加权后相关性分数加到累积相关性分数中。给定词的从属关系词就是描述了所述给定词的一部分的词。一个项与该项的从属关系词之间的关系就是整体和部分的关系。例如,“引擎”和“轮胎”是“汽车”的从属关系词。
如果耗尽了所有的从属关系词而累积相关性分数仍然低于预定的阈值,则词汇分析器1010以同样的方式将搜索项的相关项的加权后相关性分数加到累积相关性分数中。相关项是一个非常主观的概念,一般意味着有共同的上下文。例如,对“怀孕”项感兴趣的用户还可能对“婴儿”项感兴趣,因为这两项共享一个上下文——例如,生育。
一旦已经分析了搜索项的所有相关项,那么无论最终得到的累积相关性分数与预定阈值之间的关系如何,该累积相关性分数都被认为是最终的分数。
页面分类器1016确定当前搜索列表项的URL所引用的网页包括色情内容和/或赌博内容的概率。用于色情内容和赌博内容的概率分数被相互独立地保存。页面分类器使用基于概率的、机器学习的文本分类器1018来进行这样的分析。在这个示例性的实施方式中,文本分类器1018是公知并且常见的Rainbow程序。
算法诊断工具524返回由页面分类器1016确定的概率值,并且允许相关性管理器520(图5)设置网页被视为具有色情或赌博内容的阈值。如果所引用的网页包括富含媒体的内容,例如特别难以自动分析的声音、视频和/或图像,则页面分类器1016(图10)为当前搜索列表项设置一个低可信度标记。
在这个示例性的实施方式中,算法诊断工具524被多线程化,使得对各种搜索列表项和关联网页的各类分析可以同时进行。
以上描述只是示意性的,而非限制性的。本发明仅由所附的权利要求及其全部范围的等同物来限定。

Claims (81)

1.一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括:
确定所述数据项与预定的内容策略相一致的可能性;
将所述可能性与预定的阈值进行比较;以及
一旦出现所述可能性低于所述预定阈值的状况,就将所述数据项包括到所述网络可访问数据库中,而无需对所述数据项进行人工审查。
2.如权利要求1所述的方法,其中所述数据项是搜索列表项,并且所述网络可访问数据库包括计算机化的网络搜索引擎数据库。
3.如权利要求1所述的方法,其中可通过超文本传输协议来访问所述网络可访问数据库。
4.如权利要求1所述的方法,其中可通过因特网来访问所述网络可访问数据库。
5.如权利要求1所述的方法,其中所述数据项包括文本内容。
6.如权利要求1所述的方法,其中所述数据项是计算机化文档。
7.如权利要求1所述的方法,其中所述数据项是与超文本置标语言相一致的计算机化文档。
8.如权利要求1所述的方法,还包括:
一旦出现所述可能性至少等于所述预定阈值的状况,就要求对所述数据项进行人工审查,以确定所述数据项是否与所述预定的内容策略相一致。
9.如权利要求8所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且
其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
10.如权利要求9所述的方法,其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述数据项被进一步确定为不适于包括到所述网络可访问数据库中。
11.如权利要求8所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且
其中,一旦确定所述数据项包括代表所述可疑项中的至少一项的数据,则所述可能性至少等于所述预定阈值,从而需要对所述数据项进行人工审查。
12.如权利要求8所述的方法,其中,确定操作包括确定所述数据项是否包括代表一个或多个预定的色情项的数据;并且
其中,一旦确定所述数据项包括代表所述预定色情项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
13.如权利要求8所述的方法,其中的确定操作包括确定所述数据项是否包括代表一个或多个预定的赌博项的数据;并且
其中,一旦确定所述数据项包括代表所述预定赌博项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
14.如权利要求1所述的方法,还包括:
确定所述数据项包括无意义的文本;以及
拒绝将所述数据项包括到所述网络可访问数据库中。
15.如权利要求1所述的方法,还包括:
修改所述数据项,以和所述预定的内容策略相一致;
其中,所述确定操作包括确定经过修改的所述数据项与所述预定的内容策略相一致的可能性。
16.如权利要求1所述的方法,还包括:
预测所述数据项的访问频率;
将所预测的访问频率与访问频率的预定阈值进行比较;
一旦出现所预测的频率至少等于所述预定阈值的状况,那么无论所述数据项与所述预定的内容策略相一致的可能性如何,都需要对所述数据项进行人工审查,以确定所述数据项是否与所述预定的内容策略相一致。
17.一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括:
确定所述数据项与预定的内容策略相一致的可能性;
将所述可能性与预定的阈值进行比较;以及
一旦出现所述可能性至少等于所述预定阈值的状况,就需要对所述数据项进行人工审查,以确定所述数据项是否与所述预定的内容策略相一致。
18.如权利要求17所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且
其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
19.如权利要求18所述的方法,其中,一旦确定所述数据项包括代表所述拦截项中的至少一项的数据,则所述数据项被进一步确定为不适于包括到所述网络可访问数据库中。
20.如权利要求17所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且
其中,一旦确定所述数据项包括代表所述可疑项中的至少一项的数据,则所述可能性至少等于所述预定阈值,从而需要对所述数据项进行人工审查。
21.如权利要求17所述的方法,其中的确定操作包括确定所述数据项是否包括代表一个或多个预定的色情项的数据;并且
其中,一旦确定所述数据项包括代表所述预定色情项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
22.如权利要求17所述的方法,其中的确定操作包括确定所述数据项是否包括代表一个或多个预定的赌博项的数据;并且
其中,一旦确定所述数据项包括代表所述预定赌博项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
23.一种用于评价将数据项包括到网络可访问数据库中的适当性的方法,所述方法包括:
确定所述数据项违反预定的内容策略;
修改所述数据项,以和所述预定的内容策略相一致;
确定经过修改的所述数据项适于包括到所述网络可访问数据库中。
24.一种用于根据预定的内容策略来评价将数据项包括到网络可访问数据库中的适当性的方法,所述预定的内容策略指定了一种或多种状况,在这些状况下需要对所述数据项进行人工审查,以评价将所述数据项包括到所述网络可访问数据库中的适当性,所述方法包括:
确定所述数据项代表了一个或多个对所述预定的内容策略的违反;
路由所述数据项以进行人工审查,以评价将所述数据项包括到所述网络可访问数据库中的适当性。
25.如权利要求24所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且
其中,确定操作包括对所述数据项包括代表所述可疑项中的至少一项的数据的确定,从而需要对所述数据项进行人工审查。
26.如权利要求24所述的方法,其中确定操作包括确定所述数据项是否包括代表一个或多个预定的色情项的数据;并且
其中,确定操作包括对所述数据项包括代表所述预定色情项中的至少一项的数据的确定。
27.如权利要求24所述的方法,其中确定操作包括确定所述数据项是否包括代表一个或多个预定的赌博项的数据;并且
其中,确定操作包括对所述数据项包括代表所述预定赌博项中的至少一项的数据的确定。
28.一种用于根据预定的内容策略来评价将数据项包括到网络可访问数据库中的适当性的方法,所述预定的内容策略指定了一种或多种状况,在这些状况下所述数据项被确定为不适于包括到所述网络可访问数据库中,所述方法包括:
确定所述数据项代表了一个或多个对所述预定的内容策略的违反;
拒绝将所述数据项包括到所述网络可访问数据库中。
29.如权利要求28所述的方法,其中所述预定的内容策略阻止通过一个或多个拦截项识别出的拦截内容;并且
其中,确定操作包括对所述数据项包括代表所述拦截项中的至少一项的数据的确定,并且拒绝将所述数据项包括到所述网络可访问数据库中。
30.如权利要求28所述的方法,其中所述预定的内容策略阻止无意义的内容;并且
其中,确定操作包括对所述数据项包括无意义内容的确定,并且拒绝将所述数据项包括到所述网络可访问数据库中。
31.一种用于评价将搜索列表项包括到搜索引擎数据库中的适当性的方法,所述方法包括:
确定所述搜索列表项与预定的内容策略相一致的可能性;
将所述可能性与预定的阈值进行比较;以及
一旦出现所述可能性低于所述预定阈值的状况,就将所述搜索列表项包括到所述搜索引擎数据库中,而无需对所述搜索列表项进行人工审查。
32.如权利要求31所述的方法,其中,可通过因特网来访问所述搜索引擎数据库。
33.如权利要求31所述的方法,其中,所述搜索列表项是指包括文本内容的文档。
34.如权利要求31所述的方法,其中,所述搜索列表项是指计算机化文档。
35.如权利要求31所述的方法,其中,所述搜索列表项是指与超文本置标语言相一致的计算机化文档。
36.如权利要求31所述的方法,还包括:
一旦出现所述可能性至少等于所述预定阈值的状况,就要求对所述搜索列表项进行人工审查,以确定所述搜索列表项是否与所述预定的内容策略相一致。
37.如权利要求36所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且
其中,一旦确定所述搜索列表项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
38.如权利要求37所述的方法,其中,一旦确定所述搜索列表项包括代表所述拦截项中的至少一项的数据,则所述搜索列表项被进一步确定为不适于包括到所述搜索引擎数据库中。
39.如权利要求36所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且
其中,一旦确定所述搜索列表项引用了包括代表所述拦截项中的至少一项的数据的文档,则所述可能性至少等于所述预定阈值。
40.如权利要求39所述的方法,其中,一旦确定所述搜索列表项引用了包括代表所述拦截项中的至少一项的数据的文档,则所述搜索列表项被进一步确定为不适于包括到所述搜索引擎数据库中。
41.如权利要求36所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且
其中,一旦确定所述搜索列表项包括代表所述可疑项中的至少一项的数据,则所述可能性至少等于所述预定阈值,从而需要对所述搜索列表项进行人工审查。
42.如权利要求36所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且
其中,一旦确定所述搜索列表项引用了包括代表所述可疑项中的至少一项的数据的文档,则所述可能性至少等于所述预定阈值,从而需要对所述搜索列表项进行人工审查。
43.如权利要求36所述的方法,其中,确定操作包括确定所述搜索列表项是否包括代表一个或多个预定的色情项的数据;并且
其中,一旦确定所述搜索列表项包括代表所述预定色情项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
44.如权利要求36所述的方法,其中,确定操作包括确定所述搜索列表项是否包括代表一个或多个预定的色情项的数据;并且
其中,一旦确定所述搜索列表项引用了包括代表所述预定色情项中的至少一项的数据的文档,则所述可能性至少等于所述预定阈值。
45.如权利要求36所述的方法,其中,确定操作包括确定所述搜索列表项是否包括代表一个或多个预定的赌博项的数据;并且
其中,一旦确定所述搜索列表项包括代表所述预定赌博项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
46.如权利要求36所述的方法,其中,确定操作包括确定所述搜索列表项是否包括代表一个或多个预定的赌博项的数据;并且
其中,一旦确定所述搜索列表项引用了包括代表所述预定赌博项中的至少一项的数据的文档,则所述可能性至少等于所述预定阈值。
47.如权利要求31所述的方法,还包括:
确定所述搜索列表项包括无意义的文本;以及
拒绝将所述搜索列表项包括到所述搜索引擎数据库中。
48.如权利要求31所述的方法,还包括:
修改所述搜索列表项,以和所述预定的内容策略相一致;
其中,所述确定操作包括确定经过修改的所述搜索列表项与所述预定的内容策略相一致的可能性。
49.如权利要求31所述的方法,还包括:
预测所述搜索列表项的访问频率;
将所预测的访问频率与访问频率的预定阈值进行比较;
一旦出现所预测的频率至少等于所述预定阈值的状况,那么无论所述搜索列表项与所述预定的内容策略相一致的可能性如何,都需要对所述搜索列表项进行人工审查,以确定所述搜索列表项是否与所述预定的内容策略相一致。
50.一种用于评价将搜索列表项包括到搜索引擎数据库中的适当性的方法,所述方法包括:
确定所述搜索列表项与预定的内容策略相一致的可能性;
将所述可能性与预定的阈值进行比较;以及
一旦出现所述可能性至少等于所述预定阈值的状况,就需要对所述搜索列表项进行人工审查,以确定所述搜索列表项是否与所述预定的内容策略相一致。
51.如权利要求50所述的方法,其中所述预定的内容策略阻止一个或多个拦截项;并且
其中,一旦确定所述搜索列表项包括代表所述拦截项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
52.如权利要求51所述的方法,其中,一旦确定所述搜索列表项包括代表所述拦截项中的至少一项的数据,则所述搜索列表项被进一步确定为不适于包括到所述搜索引擎数据库中。
53.如权利要求50所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且
其中,一旦确定所述搜索列表项包括代表所述可疑项中的至少一项的数据,则所述可能性至少等于所述预定阈值,从而需要对所述搜索列表项进行人工审查。
54.如权利要求50所述的方法,其中的确定操作包括确定所述搜索列表项是否包括代表一个或多个预定的色情项的数据;并且
其中,一旦确定所述搜索列表项包括代表所述预定色情项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
55.如权利要求50所述的方法,其中的确定操作包括确定所述搜索列表项是否包括代表一个或多个预定的赌博项的数据;并且
其中,一旦确定所述搜索列表项包括代表所述预定赌博项中的至少一项的数据,则所述可能性至少等于所述预定阈值。
56.一种用于评价将搜索列表项包括到搜索引擎数据库中的适当性的方法,所述方法包括:
确定所述搜索列表项违反预定的内容策略;
修改所述搜索列表项,以和所述预定的内容策略相一致;
确定经过修改的所述搜索列表项适于包括到所述搜索引擎数据库中。
57.一种用于根据预定的内容策略来评价将搜索列表项包括到搜索引擎数据库中的适当性的方法,所述预定的内容策略指定了一种或多种状况,在这些状况下需要对所述搜索列表项进行人工审查,以评价将所述搜索列表项包括到所述搜索引擎数据库中的适当性,所述方法包括:
确定所述搜索列表项代表了一个或多个对所述预定的内容策略的违反;
路由所述搜索列表项以进行人工审查,以评价将所述搜索列表项包括到所述搜索引擎数据库中的适当性。
58.如权利要求57所述的方法,其中,所述预定的内容策略要求对通过一个或多个可疑项识别出的可疑内容进行人工审查;并且
其中,确定操作包括对所述搜索列表项包括代表所述可疑项中的至少一项的数据的确定,从而需要对所述搜索列表项进行人工审查。
59.如权利要求57所述的方法,其中确定操作包括确定所述搜索列表项是否包括代表一个或多个预定的色情项的数据;并且
其中,确定操作包括对所述搜索列表项包括代表所述预定色情项中的至少一项的数据的确定。
60.如权利要求57所述的方法,其中确定操作包括确定所述搜索列表项是否包括代表一个或多个预定的赌博项的数据;并且
其中,确定操作包括对所述搜索列表项包括代表所述预定赌博项中的至少一项的数据的确定。
61.一种用于根据预定的内容策略来评价将搜索列表项包括到搜索引擎数据库中的适当性的方法,所述预定的内容策略指定了一种或多种状况,在这些状况下所述搜索列表项被确定为不适于包括到所述搜索引擎数据库中,所述方法包括:
确定所述搜索列表项代表了一个或多个对所述预定的内容策略的违反;
拒绝将所述搜索列表项包括到搜索引擎数据库中。
62.如权利要求61所述的方法,其中所述预定的内容策略阻止通过一个或多个拦截项识别出的拦截内容;并且
其中,确定操作包括对所述搜索列表项包括代表所述拦截项中的至少一项的数据的确定,并且拒绝将所述搜索列表项包括到所述搜索引擎数据库中。
63.如权利要求61所述的方法,其中所述预定的内容策略阻止无意义的内容;并且
其中,确定操作包括对所述搜索列表项包括无意义内容的确定,并且拒绝将所述搜索列表项包括到所述搜索引擎数据库中。
64.如权利要求57所述的方法,其中所述内容策略指定了预定必要程度的所述搜索列表项的相关性。
65.如权利要求64所述的方法,其中所述搜索列表项包括搜索项和标题;并且
其中,所述搜索列表项具有至少部分地通过在所述搜索项和所述标题之间一定程度的相关性而确定的相关性。
66.如权利要求64所述的方法,其中所述搜索列表项包括搜索项和描述;并且
其中,所述搜索列表项具有至少部分地通过在所述搜索项和所述描述之间一定程度的相关性而确定的相关性。
67.如权利要求64所述的方法,其中所述搜索列表项包括搜索项并且指向一个文档;并且
其中,所述搜索列表项具有至少部分地通过在所述搜索项和所述文档之间一定程度的相关性而确定的相关性。
68.如权利要求64所述的方法,其中所述搜索列表项包括标题和描述;并且
其中,所述搜索列表项具有至少部分地通过在所述标题和所述描述之间一定程度的相关性而确定的相关性。
69.如权利要求64所述的方法,其中所述搜索列表项包括标题并且指向一个文档;并且
其中,所述搜索列表项具有至少部分地通过在所述标题和所述文档之间一定程度的相关性而确定的相关性。
70.如权利要求64所述的方法,其中所述搜索列表项包括描述并且指向一个文档;并且
其中,所述搜索列表项具有至少部分地通过在所述描述和所述文档之间一定程度的相关性而确定的相关性。
71.如权利要求64所述的方法,其中所述搜索列表项包括搜索项,所述搜索项至少部分地定义了所述搜索列表项的相关性程度,所述方法还包括:
确定所述搜索列表项的所述相关性程度低于预定阈值的相关性;以及
使用所述搜索项的语义替换来调整所述搜索列表项的所述相关性程度。
72.如权利要求71所述的方法,其中,所述语义替换是所述搜索项的同义词。
73.如权利要求71所述的方法,其中,所述语义替换是所述搜索项的下位关系词。
74.如权利要求71所述的方法,其中,所述语义替换是所述搜索项的从属关系词。
75.如权利要求64所述的方法,还包括:
在确定所述搜索列表项的相关性程度之前,预处理所述搜索列表项。
76.如权利要求75所述的方法,其中预处理包括所述搜索列表项的记号化。
77.如权利要求75所述的方法,其中预处理包括使得所述搜索列表项对大小写不敏感。
78.如权利要求75所述的方法,其中预处理包括使得所述搜索列表项对动词时态不敏感。
79.如权利要求75所述的方法,其中预处理包括校正所述搜索列表项的内容的拼写。
80.如权利要求75所述的方法,其中预处理包括从所述搜索列表项中删除停顿词。
81.如权利要求54所述的方法,其中,使用项频率和倒数文档频率来确定所述搜索列表项的相关性程度。
CNA038216094A 2002-09-13 2003-09-09 广域网搜索中搜索列表项内容的适当性确定的自动化处理 Pending CN1682216A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/244,051 2002-09-13
US10/244,051 US6983280B2 (en) 2002-09-13 2002-09-13 Automated processing of appropriateness determination of content for search listings in wide area network searches
PCT/US2003/028323 WO2004025516A2 (en) 2002-09-13 2003-09-09 Automated processing of appropriateness determination of content for search listings in wide area network searches

Publications (1)

Publication Number Publication Date
CN1682216A true CN1682216A (zh) 2005-10-12

Family

ID=31991805

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038216094A Pending CN1682216A (zh) 2002-09-13 2003-09-09 广域网搜索中搜索列表项内容的适当性确定的自动化处理

Country Status (7)

Country Link
US (2) US6983280B2 (zh)
EP (1) EP1537493A2 (zh)
JP (1) JP2005539311A (zh)
KR (1) KR100741580B1 (zh)
CN (1) CN1682216A (zh)
AU (1) AU2003270485B2 (zh)
WO (1) WO2004025516A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100440224C (zh) * 2006-12-01 2008-12-03 清华大学 一种搜索引擎性能评价的自动化处理方法
US8429161B2 (en) 2007-08-29 2013-04-23 Google Inc. Search filtering
CN108463816A (zh) * 2016-12-09 2018-08-28 谷歌有限责任公司 通过使用自动变体检测来防止禁止网络内容的分发
CN109039710A (zh) * 2018-07-10 2018-12-18 中国联合网络通信集团有限公司 路由数据稽核方法、装置、服务器及存储介质

Families Citing this family (218)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030097654A1 (en) * 1998-06-05 2003-05-22 Franken Kenneth A. System and method of geographic authorization for television and radio programming distributed by multiple delivery mechanisms
US6252547B1 (en) 1998-06-05 2001-06-26 Decisionmark Corp. Method and apparatus for limiting access to signals delivered via the internet
US8010981B2 (en) 2001-02-08 2011-08-30 Decisionmark Corp. Method and system for creating television programming guide
US7913287B1 (en) 2001-06-15 2011-03-22 Decisionmark Corp. System and method for delivering data over an HDTV digital television spectrum
US8590013B2 (en) 2002-02-25 2013-11-19 C. S. Lee Crawford Method of managing and communicating data pertaining to software applications for processor-based devices comprising wireless communication circuitry
US8868543B1 (en) * 2002-11-20 2014-10-21 Google Inc. Finding web pages relevant to multimedia streams
US7778999B1 (en) * 2003-01-24 2010-08-17 Bsecure Technologies, Inc. Systems and methods for multi-layered packet filtering and remote management of network devices
US20050065928A1 (en) * 2003-05-02 2005-03-24 Kurt Mortensen Content performance assessment optimization for search listings in wide area network searches
US7403939B1 (en) 2003-05-30 2008-07-22 Aol Llc Resolving queries based on automatic determination of requestor geographic location
US20050027594A1 (en) * 2003-07-28 2005-02-03 Elliot Yasnovsky Self-service platform for selling advertising
US9928522B2 (en) 2003-08-01 2018-03-27 Oath (Americas) Inc. Audience matching network with performance factoring and revenue allocation
US9117217B2 (en) * 2003-08-01 2015-08-25 Advertising.Com Llc Audience targeting with universal profile synchronization
US9118812B2 (en) 2003-08-01 2015-08-25 Advertising.Com Llc Audience server
US7805332B2 (en) * 2003-08-01 2010-09-28 AOL, Inc. System and method for segmenting and targeting audience members
US8464290B2 (en) 2003-08-01 2013-06-11 Tacoda, Inc. Network for matching an audience with deliverable content
US8150732B2 (en) * 2003-08-01 2012-04-03 Tacoda Llc Audience targeting system with segment management
US20050125290A1 (en) * 2003-08-01 2005-06-09 Gil Beyda Audience targeting system with profile synchronization
US7937340B2 (en) * 2003-12-03 2011-05-03 Microsoft Corporation Automated satisfaction measurement for web search
US8244725B2 (en) * 2004-03-10 2012-08-14 Iron Mountain Incorporated Method and apparatus for improved relevance of search results
US7533090B2 (en) * 2004-03-30 2009-05-12 Google Inc. System and method for rating electronic documents
JP4591947B2 (ja) * 2004-05-13 2010-12-01 日本電信電話株式会社 情報フィルタリング装置及び方法
US7349901B2 (en) * 2004-05-21 2008-03-25 Microsoft Corporation Search engine spam detection using external data
US8972444B2 (en) * 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US8392453B2 (en) * 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US7562069B1 (en) 2004-07-01 2009-07-14 Aol Llc Query disambiguation
US8117339B2 (en) * 2004-10-29 2012-02-14 Go Daddy Operating Company, LLC Tracking domain name related reputation
US20080028443A1 (en) * 2004-10-29 2008-01-31 The Go Daddy Group, Inc. Domain name related reputation and secure certificates
US20060095459A1 (en) * 2004-10-29 2006-05-04 Warren Adelman Publishing domain name related reputation in whois records
US7797413B2 (en) * 2004-10-29 2010-09-14 The Go Daddy Group, Inc. Digital identity registration
US20080028100A1 (en) * 2004-10-29 2008-01-31 The Go Daddy Group, Inc. Tracking domain name related reputation
US7970858B2 (en) * 2004-10-29 2011-06-28 The Go Daddy Group, Inc. Presenting search engine results based on domain name related reputation
US20080022013A1 (en) * 2004-10-29 2008-01-24 The Go Daddy Group, Inc. Publishing domain name related reputation in whois records
US9015263B2 (en) 2004-10-29 2015-04-21 Go Daddy Operating Company, LLC Domain name searching with reputation rating
US8904040B2 (en) * 2004-10-29 2014-12-02 Go Daddy Operating Company, LLC Digital identity validation
US20060095404A1 (en) * 2004-10-29 2006-05-04 The Go Daddy Group, Inc Presenting search engine results based on domain name related reputation
US20060200487A1 (en) * 2004-10-29 2006-09-07 The Go Daddy Group, Inc. Domain name related reputation and secure certificates
US7571157B2 (en) * 2004-12-29 2009-08-04 Aol Llc Filtering search results
US7349896B2 (en) * 2004-12-29 2008-03-25 Aol Llc Query routing
US7818314B2 (en) * 2004-12-29 2010-10-19 Aol Inc. Search fusion
US7272597B2 (en) * 2004-12-29 2007-09-18 Aol Llc Domain expert search
US20060224593A1 (en) * 2005-04-01 2006-10-05 Submitnet, Inc. Search engine desktop application tool
US20060259462A1 (en) 2005-05-12 2006-11-16 Sybase, Inc. System and Methodology for Real-time Content Aggregation and Syndication
US7958010B2 (en) 2005-06-08 2011-06-07 Ian Tzeung Huang Internet search engine with critic ratings
US20060294083A1 (en) * 2005-06-28 2006-12-28 Submitnet, Inc. Search engine SMS notification system and method
US9282081B2 (en) 2005-07-28 2016-03-08 Vaporstream Incorporated Reduced traceability electronic message system and method
US7610345B2 (en) 2005-07-28 2009-10-27 Vaporstream Incorporated Reduced traceability electronic message system and method
US7548929B2 (en) * 2005-07-29 2009-06-16 Yahoo! Inc. System and method for determining semantically related terms
TWI391834B (zh) * 2005-08-03 2013-04-01 Search Engine Technologies Llc 藉分析標籤尋找相關文件之系統及方法
US7725407B2 (en) * 2005-08-11 2010-05-25 International Business Machines Corporation Method of measuring a large population of web pages for compliance to content standards that require human judgement to evaluate
US7672932B2 (en) 2005-08-24 2010-03-02 Yahoo! Inc. Speculative search result based on a not-yet-submitted search query
US20070100806A1 (en) * 2005-11-01 2007-05-03 Jorey Ramer Client libraries for mobile content
US10592930B2 (en) * 2005-09-14 2020-03-17 Millenial Media, LLC Syndication of a behavioral profile using a monetization platform
US20080215623A1 (en) * 2005-09-14 2008-09-04 Jorey Ramer Mobile communication facility usage and social network creation
US20070060109A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Managing sponsored content based on user characteristics
US20110143731A1 (en) * 2005-09-14 2011-06-16 Jorey Ramer Mobile Communication Facility Usage Pattern Geographic Based Advertising
US8832100B2 (en) 2005-09-14 2014-09-09 Millennial Media, Inc. User transaction history influenced search results
US20080214154A1 (en) * 2005-11-01 2008-09-04 Jorey Ramer Associating mobile and non mobile web content
US20080214149A1 (en) * 2005-09-14 2008-09-04 Jorey Ramer Using wireless carrier data to influence mobile search results
US20070100805A1 (en) * 2005-09-14 2007-05-03 Jorey Ramer Mobile content cross-inventory yield optimization
US8156128B2 (en) * 2005-09-14 2012-04-10 Jumptap, Inc. Contextual mobile content placement on a mobile communication facility
US20070073722A1 (en) * 2005-09-14 2007-03-29 Jorey Ramer Calculation and presentation of mobile content expected value
US20070061247A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Expected value and prioritization of mobile content
US20070100650A1 (en) * 2005-09-14 2007-05-03 Jorey Ramer Action functionality for mobile content search results
US7702318B2 (en) 2005-09-14 2010-04-20 Jumptap, Inc. Presentation of sponsored content based on mobile transaction event
US7548915B2 (en) * 2005-09-14 2009-06-16 Jorey Ramer Contextual mobile content placement on a mobile communication facility
US7603360B2 (en) * 2005-09-14 2009-10-13 Jumptap, Inc. Location influenced search results
US9201979B2 (en) 2005-09-14 2015-12-01 Millennial Media, Inc. Syndication of a behavioral profile associated with an availability condition using a monetization platform
US8311888B2 (en) 2005-09-14 2012-11-13 Jumptap, Inc. Revenue models associated with syndication of a behavioral profile using a monetization platform
US20070061242A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Implicit searching for mobile content
US10911894B2 (en) 2005-09-14 2021-02-02 Verizon Media Inc. Use of dynamic content generation parameters based on previous performance of those parameters
US20070061317A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Mobile search substring query completion
US20110313853A1 (en) 2005-09-14 2011-12-22 Jorey Ramer System for targeting advertising content to a plurality of mobile communication facilities
US9076175B2 (en) * 2005-09-14 2015-07-07 Millennial Media, Inc. Mobile comparison shopping
US8195133B2 (en) * 2005-09-14 2012-06-05 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US20110143733A1 (en) * 2005-09-14 2011-06-16 Jorey Ramer Use Of Dynamic Content Generation Parameters Based On Previous Performance Of Those Parameters
US9058406B2 (en) 2005-09-14 2015-06-16 Millennial Media, Inc. Management of multiple advertising inventories using a monetization platform
US8989718B2 (en) * 2005-09-14 2015-03-24 Millennial Media, Inc. Idle screen advertising
US7752209B2 (en) 2005-09-14 2010-07-06 Jumptap, Inc. Presenting sponsored content on a mobile communication facility
US7676394B2 (en) 2005-09-14 2010-03-09 Jumptap, Inc. Dynamic bidding and expected value
US8660891B2 (en) * 2005-11-01 2014-02-25 Millennial Media Interactive mobile advertisement banners
US9703892B2 (en) 2005-09-14 2017-07-11 Millennial Media Llc Predictive text completion for a mobile communication facility
US20070061303A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Mobile search result clustering
US8302030B2 (en) 2005-09-14 2012-10-30 Jumptap, Inc. Management of multiple advertising inventories using a monetization platform
US20070073718A1 (en) * 2005-09-14 2007-03-29 Jorey Ramer Mobile search service instant activation
US20080214152A1 (en) * 2005-09-14 2008-09-04 Jorey Ramer Methods and systems of mobile dynamic content presentation
US8209344B2 (en) 2005-09-14 2012-06-26 Jumptap, Inc. Embedding sponsored content in mobile applications
US20080215429A1 (en) * 2005-11-01 2008-09-04 Jorey Ramer Using a mobile communication facility for offline ad searching
US7860871B2 (en) 2005-09-14 2010-12-28 Jumptap, Inc. User history influenced search results
US8819659B2 (en) 2005-09-14 2014-08-26 Millennial Media, Inc. Mobile search service instant activation
US8131271B2 (en) * 2005-11-05 2012-03-06 Jumptap, Inc. Categorization of a mobile user profile based on browse behavior
US20070100652A1 (en) * 2005-11-01 2007-05-03 Jorey Ramer Mobile pay per call
US8027879B2 (en) * 2005-11-05 2011-09-27 Jumptap, Inc. Exclusivity bidding for mobile sponsored content
US7912458B2 (en) 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
US20080214151A1 (en) * 2005-09-14 2008-09-04 Jorey Ramer Methods and systems for mobile coupon placement
US7660581B2 (en) 2005-09-14 2010-02-09 Jumptap, Inc. Managing sponsored content based on usage history
US20070100653A1 (en) * 2005-11-01 2007-05-03 Jorey Ramer Mobile website analyzer
US8238888B2 (en) 2006-09-13 2012-08-07 Jumptap, Inc. Methods and systems for mobile coupon placement
US20080215557A1 (en) * 2005-11-05 2008-09-04 Jorey Ramer Methods and systems of mobile query classification
US20080214155A1 (en) * 2005-11-01 2008-09-04 Jorey Ramer Integrating subscription content into mobile search results
US20080009268A1 (en) * 2005-09-14 2008-01-10 Jorey Ramer Authorized mobile content search results
US8229914B2 (en) 2005-09-14 2012-07-24 Jumptap, Inc. Mobile content spidering and compatibility determination
US10038756B2 (en) * 2005-09-14 2018-07-31 Millenial Media LLC Managing sponsored content based on device characteristics
US8103545B2 (en) 2005-09-14 2012-01-24 Jumptap, Inc. Managing payment for sponsored content presented to mobile communication facilities
US8364521B2 (en) * 2005-09-14 2013-01-29 Jumptap, Inc. Rendering targeted advertisement on mobile communication facilities
US20090234745A1 (en) * 2005-11-05 2009-09-17 Jorey Ramer Methods and systems for mobile coupon tracking
US7577665B2 (en) 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US9471925B2 (en) * 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US20070073719A1 (en) * 2005-09-14 2007-03-29 Jorey Ramer Physical navigation of a mobile search application
US20070168354A1 (en) * 2005-11-01 2007-07-19 Jorey Ramer Combined algorithmic and editorial-reviewed mobile content search results
US20080270220A1 (en) * 2005-11-05 2008-10-30 Jorey Ramer Embedding a nonsponsored mobile content within a sponsored mobile content
US20070073717A1 (en) * 2005-09-14 2007-03-29 Jorey Ramer Mobile comparison shopping
US8666376B2 (en) * 2005-09-14 2014-03-04 Millennial Media Location based mobile shopping affinity program
US8805339B2 (en) 2005-09-14 2014-08-12 Millennial Media, Inc. Categorization of a mobile user profile based on browse and viewing behavior
US20070061245A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Location based presentation of mobile content
US20080242279A1 (en) * 2005-09-14 2008-10-02 Jorey Ramer Behavior-based mobile content placement on a mobile communication facility
US8364540B2 (en) * 2005-09-14 2013-01-29 Jumptap, Inc. Contextual targeting of content using a monetization platform
US20100312572A1 (en) * 2005-09-14 2010-12-09 Jump Tap, Inc. Presentation of Interactive Mobile Sponsor Content
US8290810B2 (en) * 2005-09-14 2012-10-16 Jumptap, Inc. Realtime surveying within mobile sponsored content
US20070100651A1 (en) * 2005-11-01 2007-05-03 Jorey Ramer Mobile payment facilitation
US8503995B2 (en) 2005-09-14 2013-08-06 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US20090234711A1 (en) * 2005-09-14 2009-09-17 Jorey Ramer Aggregation of behavioral profile data using a monetization platform
US20090234861A1 (en) * 2005-09-14 2009-09-17 Jorey Ramer Using mobile application data within a monetization platform
US20070060173A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Managing sponsored content based on transaction history
US8688671B2 (en) 2005-09-14 2014-04-01 Millennial Media Managing sponsored content based on geographic region
US20080214204A1 (en) * 2005-11-01 2008-09-04 Jorey Ramer Similarity based location mapping of mobile comm facility users
US20070061246A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Mobile campaign creation
US8812526B2 (en) 2005-09-14 2014-08-19 Millennial Media, Inc. Mobile content cross-inventory yield optimization
US20070239724A1 (en) * 2005-09-14 2007-10-11 Jorey Ramer Mobile search services related to direct identifiers
US7769764B2 (en) * 2005-09-14 2010-08-03 Jumptap, Inc. Mobile advertisement syndication
JP2009508273A (ja) * 2005-09-14 2009-02-26 オー−ヤ!,インク. ネットワーク化された情報のインデックス作成および検索についての装置および方法
US8615719B2 (en) * 2005-09-14 2013-12-24 Jumptap, Inc. Managing sponsored content for delivery to mobile communication facilities
US20090029687A1 (en) * 2005-09-14 2009-01-29 Jorey Ramer Combining mobile and transcoded content in a mobile search result
US20080214153A1 (en) * 2005-09-14 2008-09-04 Jorey Ramer Mobile User Profile Creation based on User Browse Behaviors
US20070078670A1 (en) * 2005-09-30 2007-04-05 Dave Kushal B Selecting high quality reviews for display
US8438469B1 (en) 2005-09-30 2013-05-07 Google Inc. Embedded review and rating information
US20070088681A1 (en) * 2005-10-17 2007-04-19 Veveo, Inc. Method and system for offsetting network latencies during incremental searching using local caching and predictive fetching of results from a remote server
US8175585B2 (en) 2005-11-05 2012-05-08 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8509750B2 (en) 2005-11-05 2013-08-13 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8571999B2 (en) 2005-11-14 2013-10-29 C. S. Lee Crawford Method of conducting operations for a social network application including activity list generation
US20100121705A1 (en) * 2005-11-14 2010-05-13 Jumptap, Inc. Presentation of Sponsored Content Based on Device Characteristics
US20100285818A1 (en) * 2009-05-08 2010-11-11 Crawford C S Lee Location based service for directing ads to subscribers
JP4181577B2 (ja) * 2005-12-22 2008-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列処理方法、装置、およびプログラム
US20070162761A1 (en) 2005-12-23 2007-07-12 Davis Bruce L Methods and Systems to Help Detect Identity Fraud
US7558922B2 (en) * 2005-12-28 2009-07-07 Hitachi, Ltd. Apparatus and method for quick retrieval of search data by pre-feteching actual data corresponding to search candidate into cache memory
US20070156671A1 (en) * 2005-12-30 2007-07-05 Yip Kai K K Category search for structured documents
US8131763B2 (en) * 2006-05-03 2012-03-06 Cellco Partnership Age verification and content filtering systems and methods
WO2007131526A1 (en) * 2006-05-15 2007-11-22 Joost N.V. Method of associating program content data in a digital television network
US8707459B2 (en) 2007-01-19 2014-04-22 Digimarc Corporation Determination of originality of content
US20080059211A1 (en) * 2006-08-29 2008-03-06 Attributor Corporation Content monitoring and compliance
US8738749B2 (en) * 2006-08-29 2014-05-27 Digimarc Corporation Content monitoring and host compliance evaluation
US9654447B2 (en) 2006-08-29 2017-05-16 Digimarc Corporation Customized handling of copied content based on owner-specified similarity thresholds
US8010511B2 (en) 2006-08-29 2011-08-30 Attributor Corporation Content monitoring and compliance enforcement
US20080059461A1 (en) * 2006-08-29 2008-03-06 Attributor Corporation Content search using a provided interface
US20080083009A1 (en) * 2006-09-29 2008-04-03 Microsoft Corporation Policy fault
US9179200B2 (en) 2007-03-14 2015-11-03 Digimarc Corporation Method and system for determining content treatment
US10242415B2 (en) 2006-12-20 2019-03-26 Digimarc Corporation Method and system for determining content treatment
US7711684B2 (en) * 2006-12-28 2010-05-04 Ebay Inc. Collaborative content evaluation
US8250657B1 (en) 2006-12-29 2012-08-21 Symantec Corporation Web site hygiene-based computer security
US8312536B2 (en) 2006-12-29 2012-11-13 Symantec Corporation Hygiene-based computer security
US7693833B2 (en) * 2007-02-01 2010-04-06 John Nagle System and method for improving integrity of internet search
WO2008098167A2 (en) * 2007-02-08 2008-08-14 Ims Software Services, Ltd. Robot and web-based method for affiliation verification
US8762327B2 (en) 2007-02-28 2014-06-24 Red Hat, Inc. Synchronizing disributed online collaboration content
US8683342B2 (en) * 2007-02-28 2014-03-25 Red Hat, Inc. Automatic selection of online content for sharing
US20090248623A1 (en) * 2007-05-09 2009-10-01 The Go Daddy Group, Inc. Accessing digital identity related reputation data
JP4945776B2 (ja) * 2007-06-14 2012-06-06 富士通株式会社 フィルタリング処理装置,コンテンツフィルタ作成方法,コンテンツフィルタ作成プログラムおよびコンテンツフィルタ作成プログラム記録媒体
US20090006211A1 (en) * 2007-07-01 2009-01-01 Decisionmark Corp. Network Content And Advertisement Distribution System and Method
US20090012965A1 (en) * 2007-07-01 2009-01-08 Decisionmark Corp. Network Content Objection Handling System and Method
US20090055436A1 (en) * 2007-08-20 2009-02-26 Olakunle Olaniyi Ayeni System and Method for Integrating on Demand/Pull and Push Flow of Goods-and-Services Meta-Data, Including Coupon and Advertising, with Mobile and Wireless Applications
US8019689B1 (en) 2007-09-27 2011-09-13 Symantec Corporation Deriving reputation scores for web sites that accept personally identifiable information
US20090094189A1 (en) * 2007-10-08 2009-04-09 At&T Bls Intellectual Property, Inc. Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content
US9396262B2 (en) * 2007-10-12 2016-07-19 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
US20110119261A1 (en) * 2007-10-12 2011-05-19 Lexxe Pty Ltd. Searching using semantic keys
US9875298B2 (en) 2007-10-12 2018-01-23 Lexxe Pty Ltd Automatic generation of a search query
US7860755B2 (en) * 2008-02-19 2010-12-28 The Go Daddy Group, Inc. Rating e-commerce transactions
US7653577B2 (en) * 2008-02-19 2010-01-26 The Go Daddy Group, Inc. Validating e-commerce transactions
US8499063B1 (en) 2008-03-31 2013-07-30 Symantec Corporation Uninstall and system performance based software application reputation
US9405831B2 (en) * 2008-04-16 2016-08-02 Gary Stephen Shuster Avoiding masked web page content indexing errors for search engines
US8595282B2 (en) * 2008-06-30 2013-11-26 Symantec Corporation Simplified communication of a reputation score for an entity
US8312539B1 (en) 2008-07-11 2012-11-13 Symantec Corporation User-assisted security system
US20100058390A1 (en) * 2008-08-27 2010-03-04 Motorola, Inc. Content item recommendation
US8413251B1 (en) 2008-09-30 2013-04-02 Symantec Corporation Using disposable data misuse to determine reputation
US8407599B1 (en) * 2009-01-30 2013-03-26 Sprint Communications Company L.P. Address book extension
US20100205215A1 (en) * 2009-02-11 2010-08-12 Cook Robert W Systems and methods for enforcing policies to block search engine queries for web-based proxy sites
US8904520B1 (en) 2009-03-19 2014-12-02 Symantec Corporation Communication-based reputation system
US8381289B1 (en) 2009-03-31 2013-02-19 Symantec Corporation Communication-based host reputation system
US9124431B2 (en) * 2009-05-14 2015-09-01 Microsoft Technology Licensing, Llc Evidence-based dynamic scoring to limit guesses in knowledge-based authentication
US8856879B2 (en) 2009-05-14 2014-10-07 Microsoft Corporation Social authentication for account recovery
US20110047006A1 (en) * 2009-08-21 2011-02-24 Attenberg Joshua M Systems, methods, and media for rating websites for safe advertising
CN102612691B (zh) 2009-09-18 2015-02-04 莱克西私人有限公司 给文本评分的方法和系统
US9009163B2 (en) * 2009-12-08 2015-04-14 Intellectual Ventures Fund 83 Llc Lazy evaluation of semantic indexing
US8341745B1 (en) 2010-02-22 2012-12-25 Symantec Corporation Inferring file and website reputations by belief propagation leveraging machine reputation
US9164671B2 (en) * 2010-06-11 2015-10-20 Microsoft Technology Licensing, Llc Web application navigation domains
US8793650B2 (en) 2010-06-11 2014-07-29 Microsoft Corporation Dynamic web application notifications including task bar overlays
US8429546B2 (en) 2010-06-11 2013-04-23 Microsoft Corporation Creating task sessions
US8671384B2 (en) 2010-06-11 2014-03-11 Microsoft Corporation Web application pinning including task bar pinning
US8863001B2 (en) 2010-06-11 2014-10-14 Microsoft Corporation Web application home button
US8595551B2 (en) 2010-06-11 2013-11-26 Microsoft Corporation Web application transitioning and transient web applications
US8434135B2 (en) 2010-06-11 2013-04-30 Microsoft Corporation Creating and launching a web application with credentials
US20120005187A1 (en) * 2010-07-02 2012-01-05 Philippe Chavanne Web Site Content Management Techniques
US8510836B1 (en) 2010-07-06 2013-08-13 Symantec Corporation Lineage-based reputation system
US8306964B2 (en) * 2010-07-20 2012-11-06 Microsoft Corporation Extraction of rich search information from index servers via an alternative asynchronous data path
WO2012023541A1 (ja) * 2010-08-20 2012-02-23 楽天株式会社 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体
US9626429B2 (en) * 2010-11-10 2017-04-18 Nuance Communications, Inc. Text entry with word prediction, completion, or correction supplemented by search of shared corpus
US9251185B2 (en) 2010-12-15 2016-02-02 Girish Kumar Classifying results of search queries
US20120246154A1 (en) * 2011-03-23 2012-09-27 International Business Machines Corporation Aggregating search results based on associating data instances with knowledge base entities
US9959326B2 (en) 2011-03-23 2018-05-01 International Business Machines Corporation Annotating schema elements based on associating data instances with knowledge base entities
US10311113B2 (en) 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
US10198506B2 (en) 2011-07-11 2019-02-05 Lexxe Pty Ltd. System and method of sentiment data generation
CN103294684B (zh) * 2012-02-24 2016-08-24 浙江易网科技股份有限公司 关联词汇搜索系统及方法
US8595219B1 (en) 2012-05-16 2013-11-26 Trans Union, Llc System and method for contextual and free format matching of addresses
US9124472B1 (en) 2012-07-25 2015-09-01 Symantec Corporation Providing file information to a client responsive to a file download stability prediction
US9865011B2 (en) 2015-01-07 2018-01-09 Go Daddy Operating Company, LLC Notifying registrants of domain name valuations
US10296506B2 (en) 2015-01-07 2019-05-21 Go Daddy Operating Company, LLC Notifying users of available searched domain names
US9972041B2 (en) 2015-02-18 2018-05-15 Go Daddy Operating Company, LLC Earmarking a short list of favorite domain names or searches
RU2626663C2 (ru) * 2015-06-30 2017-07-31 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для создания предложений по завершению поисковых запросов
US9516130B1 (en) * 2015-09-17 2016-12-06 Cloudflare, Inc. Canonical API parameters
US10127264B1 (en) * 2015-09-17 2018-11-13 Ab Initio Technology Llc Techniques for automated data analysis
CN109614515B (zh) * 2018-10-30 2020-09-01 北京奇艺世纪科技有限公司 视频搜索评价方法和系统

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5630121A (en) * 1993-02-02 1997-05-13 International Business Machines Corporation Archiving and retrieving multimedia objects using structured indexes
JPH0877073A (ja) * 1994-08-31 1996-03-22 Toshiba Corp 集合光ディスク装置
US6216264B1 (en) * 1995-11-17 2001-04-10 Thomson Licensing S.A. Scheduler apparatus employing a gopher agent
US6314420B1 (en) * 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
US5835722A (en) * 1996-06-27 1998-11-10 Logon Data Corporation System to control content and prohibit certain interactive attempts by a person using a personal computer
US6091415A (en) * 1997-05-02 2000-07-18 Inventec Corporation System and method for displaying multiple dialog boxes in a window display
NO983175L (no) * 1998-07-10 2000-01-11 Fast Search & Transfer Asa Soekesystem for gjenfinning av data
JP2000035964A (ja) * 1998-07-17 2000-02-02 Fujitsu Ltd 関連度算出装置および関連度算出プログラムを記録した記憶媒体並びに情報検索システム
US6424358B1 (en) * 1998-12-03 2002-07-23 Lockheed Martin Corporation Method and system for importing database information
AU4197200A (en) * 1999-04-07 2000-10-23 Federal Express Corporation System and method for dimensioning objects
US7606742B2 (en) * 1999-04-30 2009-10-20 International Business Machines Corporation Pre-processor for inbound sales order requests with link to a third party available to promise (ATP) system
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6493744B1 (en) * 1999-08-16 2002-12-10 International Business Machines Corporation Automatic rating and filtering of data files for objectionable content
AU2001234541A1 (en) * 2000-01-25 2001-08-07 Autodesk, Inc. Method and apparatus for providing access to and working with architectural drawings on the internet
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
JP2002117135A (ja) * 2000-08-02 2002-04-19 Masunaga Sogo Keikaku:Kk ウェブサイトセキュリティシステム
US7359951B2 (en) * 2000-08-08 2008-04-15 Aol Llc, A Delaware Limited Liability Company Displaying search results
US6959326B1 (en) * 2000-08-24 2005-10-25 International Business Machines Corporation Method, system, and program for gathering indexable metadata on content at a data repository
CA2323883C (en) * 2000-10-19 2016-02-16 Patrick Ryan Morin Method and device for classifying internet objects and objects stored oncomputer-readable media
GB2368414B (en) * 2000-10-27 2002-09-11 One Stop To Ltd Searching procedures
US6850934B2 (en) * 2001-03-26 2005-02-01 International Business Machines Corporation Adaptive search engine query
US6775666B1 (en) * 2001-05-29 2004-08-10 Microsoft Corporation Method and system for searching index databases
US7461006B2 (en) * 2001-08-29 2008-12-02 Victor Gogolak Method and system for the analysis and association of patient-specific and population-based genomic data with drug safety adverse event data
US7139775B2 (en) * 2001-11-01 2006-11-21 Solid Information Technology Oy Method and arrangement for providing an audit of a replica database
US7054857B2 (en) * 2002-05-08 2006-05-30 Overture Services, Inc. Use of extensible markup language in a system and method for influencing a position on a search result list generated by a computer network search engine
AU2003268374A1 (en) * 2002-08-30 2004-03-19 Findwhat Com System and method for pay for performance advertising employing multiple sets of advertisement listings
US6829599B2 (en) * 2002-10-02 2004-12-07 Xerox Corporation System and method for improving answer relevance in meta-search engines

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100440224C (zh) * 2006-12-01 2008-12-03 清华大学 一种搜索引擎性能评价的自动化处理方法
US8429161B2 (en) 2007-08-29 2013-04-23 Google Inc. Search filtering
CN101836208B (zh) * 2007-08-29 2013-06-05 谷歌公司 搜索过滤
CN108463816A (zh) * 2016-12-09 2018-08-28 谷歌有限责任公司 通过使用自动变体检测来防止禁止网络内容的分发
US11526554B2 (en) 2016-12-09 2022-12-13 Google Llc Preventing the distribution of forbidden network content using automatic variant detection
CN109039710A (zh) * 2018-07-10 2018-12-18 中国联合网络通信集团有限公司 路由数据稽核方法、装置、服务器及存储介质
CN109039710B (zh) * 2018-07-10 2021-06-01 中国联合网络通信集团有限公司 路由数据稽核方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
US20060235824A1 (en) 2006-10-19
KR100741580B1 (ko) 2007-07-20
US6983280B2 (en) 2006-01-03
AU2003270485B2 (en) 2008-09-25
US20040054661A1 (en) 2004-03-18
WO2004025516A3 (en) 2004-04-15
JP2005539311A (ja) 2005-12-22
KR20050043959A (ko) 2005-05-11
AU2003270485A1 (en) 2004-04-30
EP1537493A2 (en) 2005-06-08
WO2004025516A2 (en) 2004-03-25

Similar Documents

Publication Publication Date Title
CN1682216A (zh) 广域网搜索中搜索列表项内容的适当性确定的自动化处理
US9239835B1 (en) Providing information to modules
EP1524610B1 (en) Systems and methods for performing electronic information retrieval
US8543572B2 (en) Systems and methods for analyzing boilerplate
US8176069B2 (en) Systems and methods for improved web searching
US8060508B2 (en) Identifying and changing personal information
US8271498B2 (en) Searching documents for ranges of numeric values
US20050010559A1 (en) Methods for information search and citation search
US9613061B1 (en) Image selection for news search
US20110082853A1 (en) System and method for extracting content for submission to a search engine
CN1559044A (zh) 信息解析方法以及装置
CN1871603A (zh) 处理查询的系统和方法
CN1694101A (zh) 用于搜索术语建议的多种类型数据的加强群集
CN1846210A (zh) 利用本体存储并检索数据的方法及装置
JP2009134714A (ja) プライバシーポリシーを強化するためにコンピュータが実行する方法
Jepsen et al. Characteristics of scientific Web publications: Preliminary data gathering and analysis
Mbikiwa Search engine exclusion policies: Implications on indexing E-commerce websites.
Larner et al. The Web as Corpus and Authorship Attribution
CN1795432A (zh) 用于交互式搜索查询细化的系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090306

Address after: American California

Applicant after: Yahoo Corp.

Address before: American California

Applicant before: Overture Services Inc.

ASS Succession or assignment of patent right

Owner name: YAHOO! CO.,LTD.

Free format text: FORMER OWNER: WAFUL TOURS SERVICES

Effective date: 20090306

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication