CN101681375B - 搜索验证的系统和方法 - Google Patents

搜索验证的系统和方法 Download PDF

Info

Publication number
CN101681375B
CN101681375B CN200880016932.8A CN200880016932A CN101681375B CN 101681375 B CN101681375 B CN 101681375B CN 200880016932 A CN200880016932 A CN 200880016932A CN 101681375 B CN101681375 B CN 101681375B
Authority
CN
China
Prior art keywords
search engine
data object
index
engine
client search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200880016932.8A
Other languages
English (en)
Other versions
CN101681375A (zh
Inventor
S·D·柯克比
P·凯利特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Services Ltd
Accenture International LLC
Original Assignee
Accenture Global Services GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2007901883A external-priority patent/AU2007901883A0/en
Application filed by Accenture Global Services GmbH filed Critical Accenture Global Services GmbH
Publication of CN101681375A publication Critical patent/CN101681375A/zh
Application granted granted Critical
Publication of CN101681375B publication Critical patent/CN101681375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于验证主机搜索引擎(50)的结果的方法,该方法包括以下步骤:利用扫描引擎(25)扫描可经由web界面递送的所有数据对象;以及,执行匹配引擎(35)以生成包含所述主机搜索引擎(50)错失内容的报告集合。

Description

搜索验证的系统和方法
技术领域
本发明涉及针对基于web的系统进行搜索验证的系统和方法。
背景技术
大部分web站点包括搜索引擎设施,从而允许该站点的访问者在尝试定位感兴趣的项目时执行搜索。当web站点日益成为与客户进行交流的优选手段时,web站点的所有者对确保他们的web站点是用户友好的并且为他们的客户提供正面体验特别感兴趣。
作为对web站点进行体验的结果而遭受挫折的客户可能对拥有站点的实体产生负面观点,并且在该web站点为客户提供进行事务的机制的实例中(诸如定位和购买出售的项目),客户可能由于不能快速定位并且购买所需项目而中断对项目的购买。即使对于仅向客户提供信息的站点(诸如政府部门的web站点)来说,站点的所有者确保客户可以定位他们需要的信息仍旧是重要的,否则负面印象本身将表明对拥有和/或操作该web站点的实体不满意。
Web站点的一个问题在于,不能对引擎的有效性进行测试。迄今所作的所有搜索引擎测试都是通过浏览器而手动进行的,结果,各种组织在“事后”才意识到他们的搜索引擎的问题。
这通常是作为客户反馈的结果而发生的,在反馈中,客户曾尝试在web站点上定位信息的项目并且将他们不能定位该信息向组织进行报告。当然,依靠该方法来定位与web站点搜索引擎错失内容相关联的问题导致了客户印象中的负面看法并且没有提供发现解决方案的手段。此外,在认识到错失内容之后,该组织需要人工调查并且解决web站点搜索引擎的问题。
当前,还没有执行搜索引擎验证以确保搜索引擎提供对web站点(或链接的web站点集合)所含信息的全覆盖的自动化方式。而且,也不存在可以检测搜索引擎执行的覆盖的手段。如所指示的,当前的解决方案在以下事实之后,即,当将客户反馈递送到搜索团队时(例如,为何我不能找到文档“a”?)。依赖于搜索引擎来传递结果而没有深刻理解搜索引擎如何对所有web站点内容进行索引。这是因为搜索引擎仅可以验证已经被索引的内容,而不验证错失的内容。因而,在搜索引擎团队中工作的员工没有用于验证其搜索引擎覆盖的主动手段。
本说明书中对任何现有技术的参考都不应作为对权利要求书的优先权日期时公知常识的现有技术部分的承认或任何构成或建议。
发明内容
在一方面中,本发明提供了一种用于验证主机搜索引擎的结果的方法,所述方法包括以下步骤:扫描可经由web界面递送的所有数据对象,并且执行匹配引擎以生成包含所述主机搜索引擎错失内容的报告集合。
所述报告集合可以包括详述所述web界面中内容的确切位置的清单报告。其他报告可以在一个web站点报告中包括“具有最内(most-in)链接的页面”,以辅助搜索引擎操作员来调节他们的搜索引擎。
所述报告集合还可以包括高亮显示由web界面系统所拥有的不同web域的web URL清单。
在本发明的实施方式中,扫描可经由web界面递送的所有数据对象的步骤包括为了未来参考而开发所有对象的索引。在一个实施方式中,形成web站点中所有可用词的索引。此外,可以根据词的独特性对所有可用词的索引进行排序。例如,可以采用强度分析从而确定扫描期间定位的词的相对独特性。
在备选实施方式中,对诸如页面、图像、文本、链接、元数据和脚本之类的所有对象,连同文档和PDF、Word、Power Point和其他输出格式的性质的所有对象进行捕获以及索引。
在已经建立了独特词的web站点中扫描和获取所有可用词的实施方式中,这些可以在执行匹配引擎的时候被用作关键词。在该实施方式中,将关键词输入到搜索引擎的相关字段中以确定关键词的所有实例是否可以由搜索引擎定位。在将关键词输入到搜索引擎字段中之后,继而可以将搜索引擎定位的所得URL集合与扫描所标识的URL集合进行比较。针对关键词的、扫描所标识的URL集合与搜索引擎尝试定位相同关键词的所有实例之间的任何差异表示错失的内容。
在本发明的实施方式中,所述报告集合包括存在错失内容的URL。
在另一方面,本发明提供一种用于验证主机搜索引擎的结果的系统,所述系统包括:
主机搜索引擎,用于执行对web站点的搜索;
扫描组件,其扫描并且定位可经由到所述web站点的web界面可获得的所有数据对象;以及
匹配引擎,用于接收由所述扫描组件定位的所述数据对象,并且将该数据对象提交给所述主机搜索引擎,来确定不能被所述主机搜索引擎定位的、从所述扫描组件获取的那些数据对象,从而表示由所述主机搜索引擎错失的数据对象。
在又一方面中,本发明提供了一种用于控制计算机的操作来验证主机搜索引擎的结果的计算机指令代码,所述计算机指令代码实现以下步骤:
扫描可经由web界面递送的所有数据对象;以及
执行匹配引擎以生成包含所述主机搜索引擎错失内容的报告集合。
在另一方面中,本发明提供了一种包含在计算机可读介质上、用于验证主机搜索引擎的结果的计算机程序,所述计算机程序包括:
用于扫描可经由web界面递送的所有数据对象的计算机指令代码;
用于执行匹配引擎以生成标识所述主机搜索引擎错失内容的报告集合的计算机指令代码。
因而,根据本发明的系统和方法验证企业web站点搜索引擎的“覆盖有效性”。该系统和方法建议了web站点搜索引擎还未进行索引的地方或错失内容,从而通过促进更好的搜索结果来改进用户生产力。
本文所述技术可以通过存储的、由一个或多个合适的处理设备(诸如个人计算机或服务器计算机)执行的可执行指令实现。
附图说明
现在将参考附图描述本发明,附图示出了本发明的示例性实施方式,其中
图1是验证web站点搜索引擎的图示;
图2是在执行web站点分析时通常使用的数据库和信息类型的图示;
图3是详述web站点访问者体验调查结果的报告,该报告包括报告的web站点搜索性的等级;
图4a和图4b形成了针对web站点的搜索性度量和搜索引擎覆盖的报告;
图5是包括验证搜索引擎过程期间未被定位的URL(web站点)的详细列表的搜索引擎覆盖报告;以及
图6a和图6b形成了目标搜索引擎覆盖验证过程的结果的报告。
具体实施方式
本发明实施方式驻留在可执行计算机软件中,该软件能够安装在操作一定范围的操作系统软件(例如,Windows、Linux和Solaris)或作为ASP服务执行的内部计算机设备上。软件扫描可经由web界面对终端用户可用的所有数据对象。在完成扫描之后,软件执行分析匹配引擎,该引擎生成详述主机搜索引擎错失的、由扫描软件标识的内容的区域的报告集合。
在实施方式中,该报告集合是基于html的并且标识以下物理区域,在该物理区域中,对所有可用数据对象和企业web站点搜索结果的扫描不同。当然,出于标识错失数据并且解决企业搜索引擎的问题来包括错失数据的目的,而可以生成各种报告。例如,可以生成详述组织中内容确切位置的清单报告。详述web站点内“具有最内链接的页面”(即,具有到该页面的最向内指向的链接的页面)的另一报告辅助搜索引擎用户调节他们的搜索引擎。在这点上,使用链接的页面调节搜索引擎是惯用企业技术。标识web URL清单的另一报告可用于向主机企业搜索团队高亮显示他们所拥有的区别web域。
然后,报告的接收者可以使用结果来改进他们现有web站点搜索引擎的覆盖。例如,访问现有web站点搜索引擎未索引的页面,并且查看页面代码可以允许操作员理解页面代码是否是错失该页面中潜在数据的原因。在这点上,已知javascript和/或flash导航中的错误使得全部web站点未被索引。
报告辅助操作员解决他们web站点搜索引擎的任何问题,从而确保完整的覆盖。该过程可以通过迭代过程实现,由此操作员使用实现本发明方法的软件以验证他们现有企业搜索解决方案提议。
参考图1,在图表中表示了搜索验证过程(这里称为FindMax(查找最大)过程),该过程详述了验证方法各个方面执行的相对位置。
例如,FindMax过程组件(10)从主管客户端Web站点(20)的一个(或多个)计算机在一个(或多个)独立计算机上执行。主要FindMax过程(10)组件包括扫描引擎(25)、FindMax索引(30)、匹配引擎(35)和报告引擎(40)。
类似地,客户端Web站点(20)包括一系列web页面(45)和客户端搜索引擎(50)。
在图1中详细示出的实施方式中,在FindMax过程组件(10)和客户端Web站点(20)之间存在五个主要方法步骤(具有相应的数据通信)。在步骤(10),扫描引擎(25)扫描客户端Web站点(20)的web页面(45)。在步骤(20),对从扫描得到的定位数据对象进行索引以供匹配引擎(35)使用。在这点上,创建FindMax索引(30)并且将独特词(通过对索引进行分析确定的)传回客户端搜索引擎(50)。
在步骤(30),通过将独特词插入客户端搜索引擎(50)的搜索字段,而将那些词提交回到客户端搜索引擎(50)。客户端搜索引擎(50)定位与独特词相关的web页面,并且在步骤(40),将与独特词相关的web页面传送到匹配引擎(35)。匹配引擎(35)继而将来自于客户端搜索引擎(50)的页面与针对相同独特词的FindMax索引(30)中记录的那些页面进行比较,以确定针对相同独特词而言FindMax索引(30)中未被客户端搜索引擎(50)定位的页面的任何实例。
在步骤(5),报告引擎(40)生成FindMax索引(30)中记录的页面与从客户端搜索引擎(50)取回的页面之间的不一致性的报告,该报告表示客户端搜索引擎(50)错失数据的实例。在步骤(5),将报告传送到客户端,以供负责客户端搜索引擎操作的操作员进行随后的分析,从而使他们能够调查搜索引擎错失数据的原因并且采取必要的修正性措施。
当然,可以生成一系列报告来辅助搜索引擎操作员理解他们的搜索引擎缺陷并且辅助他们修正那些缺陷。本发明的系统和方法主要针对搜索覆盖的问题,该问题是可用于改进web站点可用性的一套度量中的一个成员。在这点上,参考图2,提供了示出系统主要组件的备选图示,其中标识了诸如消费者体验报告和站点质量报告之类的不同类型的报告。
无论如何,评估web站点可用性的基本方面是搜索引擎的覆盖。即使web站点页面的可视表示对于用户来说优于其他web站点,但如果搜索引擎没有定位该用户寻找的信息,则也将出现高的不满意度。
在实施方式中,扫描引擎具有扫描和分析通过浏览器递送到用户的每一类web对象的能力。通常,web内容包括html、flash、AJAX、java脚本和诸如具有.doc、ppt、.xls的文件扩展名的那些格式的各种格式。因此,在该实施方式中,扫描引擎需要具有鲁棒性、零活并且能够解译提供的所有不同文件类型。这可能是非常复杂的过程,因为很多搜索引擎不能扫描这些不同的数据类型。
在另一实施方式中,实现并行处理技术,从而“加速”FindMax过程扫描web内容的能力(即,相对于扫描一个web站点而言,FindMax过程可以执行多个过程,从而减少完成对web站点的扫描所需的时间量)。
在另一实施方式中,辅助扫描过程的学习技术被合并到FindMax过程中。在该配置中,特别关注对web站点内重复内容和重定向的扫描。作为示例,如果扫描过程检测到递送出web服务器的重定向或重复内容,则扫描器应该自动停止取回重定向,并且继续关注更为相关的内容。相同概念可适用于重复内容,并且在这点上,扫描器应该检测内容中的模式,并且学习不取回重复内容以作为取回过程一部分。因而,在该实施方式中,扫描引擎在扫描web资源(asset)时进行“智能实时决策”。
在一个特定实施方式中,FindMax过程对其扫描过的所有内容进行索引。对定位的词进行索引的简单方法是基于搜索字符串的出现频率。在一个实施方式中,除了考虑频率,索引过程还评估上下文的相对重要性、与其他主题的接近性以及其他重要量度。在这点上,可以使用智能知识挖掘算法来理解什么概念涉及给定的搜索字符串和可以用于自动扩展查询以包括相关概念。
在FindMax过程扫描信息库时使用高级学习技术的实施方式中,其学习关于信息分类的原理,该原理将库的结构表示为类别树的集合。该特征确保了FindMax过程捕获在组织中分类以及存储信息的独特模式,而不是依靠不能应用的假设。
然后,可以将得到的分类树用作知识查询结果中的可视化工具。它们对用户来说还可用于独立地浏览。该可视化工具帮助用户理解组织内的信息层级,该信息层级继而可以将其用于优化它们的未来搜索。
如上所述,一旦完成了扫描,FindMax过程将从其内部搜索引擎取得其所拥有的索引的输出(如上所述),并且将该输出与“主机企业搜索解决方案”的输出进行交叉匹配。将使用匹配引擎执行该过程。在一个实施方式中,设计该匹配引擎使得FindMax过程从其所拥有的索引中找到web页面内独特的“低计数”词,继而将这些独特词提交回“主机企业搜索解决方案”。然后,将从主机企业搜索解决方案取回的结果(是URL)与FindMax过程输出进行匹配。然后,在html报告中详述FindMax过程定位的而主机企业搜索引擎没有定位的URL或web页面。
参考图3,提供了评估web站点的示例报告。该报告提供针对可用性、质量、搜索性、访问性和跟踪性的独立比率。这些量度中的每一个都是定期用于确定web站点有效性(以及用户友好性)的标准量度。在图3报告中标识的测量中,搜索性方面是与搜索引擎覆盖相关的量度。
参考图4a和图4b,提供了具体涉及搜索性和搜索引擎覆盖的更详细的报告。在该报告中,提供涉及多个方面的更多细节,这些方面诸如一般搜索性度量(例如,文档属性、HTML结构、内链文本分析等),并且在通向该报告的结尾,报告一般搜索引擎覆盖和目标搜索引擎覆盖结果。
参考图5,提供了具有关于搜索引擎覆盖的更多细节的报告。在报告的该部分中,连同搜索术语的总数量、测试的URL总数量和未找到的URL的总数量一起,提供关于扫描的URL总数量的具体细节。从这些所报告数量中,导出了63.63%的总比率作为搜索引擎覆盖的测量。此外,报告包括搜索引擎未找到的URL的详细列表。在生成该特定报告的本发明的实施方式中,提供了未找到的、到URL的链接,因此使查看者能够容易地选择该链接,并且将他们的浏览器指向包含错失数据的页面。
参考图6a和图6b,提供了详述目标搜索引擎覆盖分析的结果的报告。在图6a和图6b的实例中,报告没有提供任何实际的信息。
然而,此类报告是有用的,因为其允许组织确保关键页面(具有内嵌的关键词)被他们所拥有的搜索引擎进行了索引,并且因此用户可经由搜索查询来访问。组织通常在搜索引擎的优化(在优化中,他们将“关键词”添加到他们的web页面以允许页面被搜索引擎正确地标识)上花费很多金钱。但是,如果其他错误(诸如脚本以及断开的链接等)导致包括关键词的页面没有被编索引,那么就浪费了组织的投入。目标搜索引擎覆盖标识了页面上的这些关键术语,并且确保了它们被正确地进行了索引。
综上所述,本发明的系统和方法的实施方式通过在线扫描、映射、搜索、报告和业务分析披露了web站点的强点和弱点。
这些过程包括:
1.扫描:软件标识每个对象,即每个页面、图像、文档和链接,并且创建在给定时间点处的站点的时间和日期戳记录。
2.报告:报告服务于考虑Web属性的执行方和负责维护它们的发布者。
3.业务分析:业务映射和报告提供了“最后一英里”的分析能力,补充了现有统计业务分析产品。
4.搜索:搜索使站点管理器和Web分析人员能够精确标识站点对象和特征的存在和位置。
5.映射:软件产生了站点的映射,标识了导航结构和去往和来自每个页面、图像、文档和链接的链接。
6.蓝图制定:蓝图制定便于在站点所有者和站点发布者以及开发者之间进行清楚和不模糊的交流。
当然,web站点是动态的并且连续改变。因而,需要对web站点定期执行分析,从而监视搜索引擎覆盖以及克服缺陷或所错失数据所需的任何修正动作。来自于FindMax过程的报告允许搜索引擎操作员调节他们的搜索引擎。在这点上,搜索引擎操作员可以使用报告以达到下列目的:
1)PDF-指示性质区域是空的还是无效的。
2)比较文件名与取回的结果
3)比较取回结果的整个URL
4)扫描页面标题(其中添加用户可控变量确定字符数量)
5)扫描主体内容(其中添加用户可控变量确定字符数量)
6)包括元标签-关键词
7)匹配链接标题与页面标题
8)具有最多内链接数的页面
9)重复标题等
当然,本发明不限于借助示例描述和描绘的示例性实施方式,而是还包括其任何技术等同物和组合。
相关技术领域的技术人员将理解:除了那些具体描述的之外,本发明易于变形和修改。应该理解,本发明包括落入本发明精神和范围内的所有此类变形和修改。
贯穿说明书和权利要求,它们遵循以下原则,除非上下文需要,否则词语“包括”将被理解为表示对所述整体或步骤的包括或整体或步骤的组,但是并不排除任何其他整体或步骤或整体或步骤的组。

Claims (19)

1.一种用于验证客户端搜索引擎的覆盖有效性的方法,所述方法包括以下步骤: 
通过扫描引擎扫描和获得可经由web界面从企业web站点向终端用户递送的所有数据对象,并且创建所有所述数据对象的索引; 
向客户端搜索引擎提交经索引的数据对象以便所述经索引的数据对象被插入到所述客户端搜索引擎的至少一个搜索字段中; 
接收由所述客户端搜索引擎基于所述数据对象生成的搜索结果;以及 
执行匹配引擎以基于所述搜索结果与已经被记录并被索引的所述数据对象进行的比较来生成包含所述客户端搜索引擎所错失的内容的报告集合。 
2.根据权利要求1所述的方法,其中所述数据对象包括以下中至少一项: 
a.词; 
b.页面; 
c.图像; 
d.文本; 
e.链接; 
f.元数据; 
g.脚本; 
h.文档;和 
i.文档性质。 
3.根据权利要求1所述的方法,其中根据所述数据对象的独特性对所述索引的内容进行排序。 
4.根据权利要求3所述的方法,其中通过所述数据对象的强度分析来确定所述数据对象的独特性。 
5.根据权利要求4所述的方法,其中所述数据对象是词并且所 述强度分析考虑以下中至少一项: 
a.出现频率; 
b.上下文相对重要性;和 
c.与其他主题的接近性。 
6.根据权利要求1所述的方法,其中将提交给所述客户端搜索引擎的所述数据对象限制为独特数据对象。 
7.根据前述权利要求1所述的方法,其中所述报告集合包括足以标识包含错失数据的特定企业web站点的信息。 
8.根据前述权利要求1所述的方法,其中所述匹配引擎配备有关键字,所述关键字对于确定包含重要关键字的任何内容是否被所述客户端搜索引擎错失来说尤其重要。 
9.一种用于验证客户端搜索引擎的覆盖有效性的系统,所述系统包括: 
客户端搜索引擎,用于执行对企业web站点的搜索; 
扫描组件,其扫描所述企业web站点的内容以定位可向终端用户递送的所述web站点的内容中的数据对象; 
索引部件,其对由所述扫描部件定位的所述数据对象进行索引; 
匹配引擎,其操作用于: 
接收由所述扫描组件定位的经索引的数据对象; 
向客户端搜索引擎提交所述经索引的数据对象以便所述经索引的数据对象被插入到所述客户端搜索引擎的至少一个搜索字段中, 
从所述客户端搜索引擎接收搜索结果,并且 
将由所述客户端搜索引擎生成的搜索结果与已经被记录并被索引的所述数据对象进行比较,来标识所述客户端搜索引擎所错失的在所述索引中所记录的所述企业web站点的数据对象。 
10.根据权利要求9所述的系统,其中所述匹配引擎包括生成错失的数据对象的报告的报告组件。 
11.根据权利要求10所述的系统,其中所述报告包括通往在所述 报告中被标识为包含错失数据的web页面的链接。 
12.一种用于验证客户端搜索引擎的覆盖有效性的设备,所述设备包括: 
用于扫描和获得可经由企业web站点的界面向终端用户递送的所有数据对象; 
用于索引定位数据对象的装置; 
用于向客户端搜索引擎提交经索引的数据对象以便所述经索引的数据对象被插入到所述客户端搜索引擎的至少一个搜索字段中的装置; 
用于接收由所述客户端搜索引擎生成的搜索结果的装置;以及 
用于执行匹配引擎以基于所接收的搜索结果与已经被记录并被索引的数据对象进行的比较来生成包含所述客户端搜索引擎所错失的内容的报告集合的装置。 
13.根据权利要求12所述的设备,其中所述数据对象包括以下中至少一项: 
a.词; 
b.页面; 
c.图像; 
d.文本; 
e.链接; 
f.元数据; 
g.脚本; 
h.文档;或 
i.文档性质。 
14.根据权利要求13所述的设备,其中所述索引的内容根据所述数据对象的独特性来进行排序。 
15.根据权利要求14所述的设备,其中所述数据对象的独特性通过所述数据对象的强度分析来进行确定。 
16.根据权利要求15所述的设备,其中所述数据对象是词并且 所述强度分析考虑以下中至少一项: 
a.出现频率; 
b.上下文相对重要性;和 
c.与其他主题的接近性。 
17.根据权利要求16所述的设备,其中提交给所述客户端搜索引擎的所述数据对象被限制为独特数据对象。 
18.根据前述权利要求12所述的设备,其中所述报告集合包括足以标识包含错失数据对象的特定企业web站点的信息。 
19.根据前述权利要求12所述的设备,其中所述匹配引擎配备有关键字,所述关键字对于确定包含重要关键字的任何内容是否被所述客户端搜索引擎错失来说尤其重要。 
CN200880016932.8A 2007-04-10 2008-04-10 搜索验证的系统和方法 Active CN101681375B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2007901883 2007-04-10
AU2007901883A AU2007901883A0 (en) 2007-04-10 System & method of search validation
PCT/AU2008/000501 WO2008122091A1 (en) 2007-04-10 2008-04-10 System and method of search validation

Publications (2)

Publication Number Publication Date
CN101681375A CN101681375A (zh) 2010-03-24
CN101681375B true CN101681375B (zh) 2014-12-17

Family

ID=39830417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880016932.8A Active CN101681375B (zh) 2007-04-10 2008-04-10 搜索验证的系统和方法

Country Status (8)

Country Link
US (1) US10073919B2 (zh)
EP (1) EP2156333A4 (zh)
JP (1) JP5439360B2 (zh)
KR (1) KR101584123B1 (zh)
CN (1) CN101681375B (zh)
AU (1) AU2008235263A1 (zh)
CA (1) CA2686540A1 (zh)
WO (1) WO2008122091A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818858B1 (en) * 2009-12-22 2014-08-26 Amazon Technologies, Inc. Ensuring appearance of merchant offering in network sites
US11195213B2 (en) 2010-09-01 2021-12-07 Apixio, Inc. Method of optimizing patient-related outcomes
US11694239B2 (en) 2010-09-01 2023-07-04 Apixio, Inc. Method of optimizing patient-related outcomes
US11610653B2 (en) 2010-09-01 2023-03-21 Apixio, Inc. Systems and methods for improved optical character recognition of health records
US20130253949A1 (en) * 2010-09-01 2013-09-26 Vishnuvyas Sethumadhavan Systems and methods for extraction of clinical knowledge with reimbursement potential
US20130262144A1 (en) 2010-09-01 2013-10-03 Imran N. Chaudhri Systems and Methods for Patient Retention in Network Through Referral Analytics
US11544652B2 (en) 2010-09-01 2023-01-03 Apixio, Inc. Systems and methods for enhancing workflow efficiency in a healthcare management system
US11481411B2 (en) 2010-09-01 2022-10-25 Apixio, Inc. Systems and methods for automated generation classifiers
US9280794B2 (en) * 2012-03-19 2016-03-08 David W. Victor Providing access to documents in an online document sharing community
US9355384B2 (en) 2012-03-19 2016-05-31 David W. Victor Providing access to documents requiring a non-disclosure agreement (NDA) in an online document sharing community
US9594767B2 (en) 2012-03-19 2017-03-14 David W. Victor Providing access to documents of friends in an online document sharing community based on whether the friends' documents are public or private
US9875239B2 (en) 2012-03-19 2018-01-23 David W. Victor Providing different access to documents in an online document sharing community depending on whether the document is public or private
US9779065B1 (en) * 2013-08-29 2017-10-03 Google Inc. Displaying graphical content items based on textual content items
US10430473B2 (en) 2015-03-09 2019-10-01 Microsoft Technology Licensing, Llc Deep mining of network resource references
US10698960B2 (en) * 2016-12-08 2020-06-30 MetaSense Digital Marketing Management Inc. Content validation and coding for search engine optimization

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1818908A (zh) * 2006-03-16 2006-08-16 董崇军 一种在搜索引擎中应用搜索者反馈信息的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
EP1189148A1 (en) * 2000-09-19 2002-03-20 UMA Information Technology AG Document search and analysing method and apparatus
US7308445B2 (en) * 2000-11-08 2007-12-11 Overture Services, Inc. Method for estimating coverage of web search engines
US6785688B2 (en) 2000-11-21 2004-08-31 America Online, Inc. Internet streaming media workflow architecture
US20030061028A1 (en) * 2001-09-21 2003-03-27 Knumi Inc. Tool for automatically mapping multimedia annotations to ontologies
US7225197B2 (en) * 2002-10-31 2007-05-29 Elecdecom, Inc. Data entry, cross reference database and search systems and methods thereof
US7685296B2 (en) * 2003-09-25 2010-03-23 Microsoft Corporation Systems and methods for client-based web crawling
US7444327B2 (en) * 2004-01-09 2008-10-28 Microsoft Corporation System and method for automated optimization of search result relevance
JP2006011851A (ja) * 2004-06-25 2006-01-12 Oki Electric Ind Co Ltd 文書合致度演算システム、文書合致度演算方法及び文書合致度演算プログラム
JP2006301975A (ja) * 2005-04-20 2006-11-02 Canon Inc 情報処理装置及び情報処理方法並びにプログラム
US20070265999A1 (en) * 2006-05-15 2007-11-15 Einat Amitay Search Performance and User Interaction Monitoring of Search Engines
US20080027913A1 (en) * 2006-07-25 2008-01-31 Yahoo! Inc. System and method of information retrieval engine evaluation using human judgment input
US20090292677A1 (en) * 2008-02-15 2009-11-26 Wordstream, Inc. Integrated web analytics and actionable workbench tools for search engine optimization and marketing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1818908A (zh) * 2006-03-16 2006-08-16 董崇军 一种在搜索引擎中应用搜索者反馈信息的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Anonymous.Search Engine Coverage Tool.《http://www.searchenginecoverage.co.uk》.2007,全文. *

Also Published As

Publication number Publication date
KR20100022004A (ko) 2010-02-26
EP2156333A4 (en) 2011-08-17
JP5439360B2 (ja) 2014-03-12
US20110072002A1 (en) 2011-03-24
AU2008235263A1 (en) 2008-10-16
US10073919B2 (en) 2018-09-11
WO2008122091A1 (en) 2008-10-16
KR101584123B1 (ko) 2016-01-12
CN101681375A (zh) 2010-03-24
JP2010524096A (ja) 2010-07-15
CA2686540A1 (en) 2008-10-16
EP2156333A1 (en) 2010-02-24

Similar Documents

Publication Publication Date Title
CN101681375B (zh) 搜索验证的系统和方法
US10546351B2 (en) System and method for automatic generation of reports based on electronic documents
US20220237628A1 (en) Blockchain tracking of carbon credits for materials with sequestered carbon
US8527811B2 (en) Problem record signature generation, classification and search in problem determination
Yu et al. A comprehensive approach to the recovery of design pattern instances based on sub-patterns and method signatures
US20120278694A1 (en) Analysis method, analysis apparatus and analysis program
JP2006518900A (ja) 商品権限(itemauthority)を管理する方法およびシステム
US20060085469A1 (en) System and method for rules based content mining, analysis and implementation of consequences
US20150227498A1 (en) Browser and operating system compatibility
US11080563B2 (en) System and method for enrichment of OCR-extracted data
CN102947819A (zh) 信息追踪系统和方法
JP2006277426A (ja) 成分情報の信頼性評価方法、システム及びプログラム
CN110352427A (zh) 用于收集与网络化环境中的欺诈性内容相关联的数据的系统和方法
Stróżyna et al. A framework for the quality-based selection and retrieval of open data-a use case from the maritime domain
US20070271245A1 (en) System and method for searching a database
CN116485190A (zh) 基于多文件对比分析的企业投标信息文件风险预测系统
CN117252340A (zh) 一种基于卫星数据确权的土地延包网签系统
CN112786124A (zh) 一种问题排查方法、装置、存储介质及设备
AU2012227213B2 (en) System and method of search validation
KR20170044408A (ko) 프로젝트의 추천 시스템 및 방법
KR101709952B1 (ko) 개인정보 점검 관리 서버 및 이를 이용한 개인정보 점검 관리 방법
CN112528293B (zh) 安全漏洞预警方法、装置、设备及计算机可读存储介质
Thompson et al. A process improvement approach to improve web form design and usability
KR100956419B1 (ko) 도서 정보 수집 장치 및 그 방법
CN113779065A (zh) 数据比对的验证方法、装置、终端设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: ACCENTURE INTERNATIONAL GMBH

Free format text: FORMER OWNER: ACCENTURE GLOBAL SERVICES GMBH

Effective date: 20101209

Owner name: ACCENTURE GLOBAL SERVICES GMBH

Free format text: FORMER OWNER: ACCENTURE INTERNATIONAL GMBH

Effective date: 20101209

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: SCHAFFHAUSEN, SWITZERLAND TO: LUXEMBOURG, LUXEMBOURG

Free format text: CORRECT: ADDRESS; FROM: LUXEMBOURG, LUXEMBOURG TO: DUBLIN, IRELAND

TA01 Transfer of patent application right

Effective date of registration: 20101209

Address after: Dublin, Ireland

Applicant after: ACCENTURE GLOBAL SERVICES Ltd.

Address before: Luxemburg Luxemburg

Applicant before: Accenture international LLC

Effective date of registration: 20101209

Address after: Luxemburg Luxemburg

Applicant after: Accenture international LLC

Address before: Schaffhausen

Applicant before: ACCENTURE GLOBAL SERVICES Ltd.

C14 Grant of patent or utility model
GR01 Patent grant