CN1987847A - 用于验证文档中的统一资源定位符的方法和装置 - Google Patents

用于验证文档中的统一资源定位符的方法和装置 Download PDF

Info

Publication number
CN1987847A
CN1987847A CNA2006101465849A CN200610146584A CN1987847A CN 1987847 A CN1987847 A CN 1987847A CN A2006101465849 A CNA2006101465849 A CN A2006101465849A CN 200610146584 A CN200610146584 A CN 200610146584A CN 1987847 A CN1987847 A CN 1987847A
Authority
CN
China
Prior art keywords
url
uniform resource
resource locator
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006101465849A
Other languages
English (en)
Inventor
E·L·巴斯尼斯
J·M·桑多索索
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1987847A publication Critical patent/CN1987847A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种验证文档中的URL的方法,该方法包括标识文档中的URL,其中该URL标识了包含文本的计算机资源,该文档除该URL之外还包含其他文本,并且该文档是由用户在计算设备上的编辑程序中来编辑的。实施例还包括分析所述URL的有效性,其包括:分析该文档中的其他文本与该URL的接近性,以及根据所述文档中的其他文本与该URL的接近性来比较该文档中的其它文本与由该URL所标识的资源中的文本。实施例还包括告知用户所述URL的有效性。

Description

用于验证文档中的统一资源定位符的方法和装置
技术领域
本发明涉及数据处理,或者更具体地涉及用于验证文档中的统一资源定位符的方法、装置和产品。
背景技术
1948年的EDVAC计算机系统的开发经常被引证为计算机时代的开始。从那时起,计算机系统已经发展成非常复杂的设备。如今的计算机要比例如EDVAC的早期系统复杂得多。计算机系统典型地包括硬件和软件组件的组合、应用程序、操作系统、处理器、总线、存储器、输入输出设备等等。随着半导体加工和计算机结构的发展推动计算机的性能越来越高,更加复杂的计算机软件已经发展成利用更高性能的硬件,这导致如今的计算机系统比仅几年前的计算机系统强大得多。
已经历快速提高的计算机技术领域之一是文本编辑。当前计算机技术提供了针对许多目的的文本编辑器:文字处理、编辑电子邮件消息和即时文本信息、网页开发、电子表格数据条目编辑、用于数据库管理系统的用户接口、浏览器中的文本框,以及集成开发环境中的复杂源代码编辑,这里仅列举了少许。万维网(World Wide Web,一个提供对许多计算机资源的便利访问的计算机网络)的使用也经历了快速的增长。资源在万维网上通过使用统一资源定位符或者“URL”来被定位。URL是计算机资源的网络地址的文本表示,并且URL的使用正在急剧增长。
然而,对于支持在文本文档中编辑URL仍然存在挑战。URL不形成字典文字,因此不能以传统的拼写检查器来检验。可能会在URL中出现印刷错误,而直到一些读者试图访问由该URL所标识的资源并失败后,这个错误才会被发现。这对于包括URL的印刷媒体勘误表变得越来越普遍。下面是最近的“This Old House”杂志中的例子:
-奢侈品的目录,“The Envelope,Please”,四月:“CraftsmanInspired”邮箱的网址应当是mountainsedge.ca,而不是.com。
-“A Tale of 4 Cities”,四月:在84页,在丹佛的Dora Moore 2005House Tour的联系方式应当是doramoore.dpsk12.org。
发明内容
公开了用于改进验证文档中的URL的方法、装置和计算机程序产品,其包括标识文档中的URL,其中该URL标识了包括文本的计算机资源,所述文档除所述URL之外还包括其他文本,并且该文档是由用户在计算设备的编辑程序中来编辑的。实施例还包括分析URL的有效性,这包括分析文档中其他文本与URL的接近性,和根据文档中其他文本与URL的接近性来比较文档中的其他文本与该URL所标识的资源中的文本。实施例还包括告知用户URL的有效性。
根据以下如附图中所说明的、对本发明示例性实施例的更具体描述,本发明的前述及其他目的、特征和优点将变得显而易见,其中相似的附图标记代表本发明示例性实施例中的相似部分。
附图说明
图1是说明根据本发明实施例的用于验证文档中的URL的示例性系统的网络图;
图2是包括根据本发明实施例的用于验证文档中的URL的示例性计算机的自动化计算机的框图;
图3是说明根据本发明实施例的用于验证文档中的URL的示例性方法的流程图;
图4是说明根据本发明实施例的用于验证文档中的URL的另一示例性方法的流程图。
具体实施方式
从图1开始,参考附图描述根据本发明实施例的用于验证文档中的URL的示例性方法、装置和产品。图1是说明根据本发明实施例的、用于验证文档中的URL的示例性系统的网络图。图1的系统通常用于根据本发明的实施例、通过标识文档(306)中的URL(308)、分析URL的有效性并告知用户(100)所述URL的有效性,来验证文档中的URL。所述URL标识包括文本的计算机资源(312),所述文档除该URL以外还包括其他文本,并且所述文档是由用户在计算设备上的编辑程序(304)中来编辑的。图1的系统通常用于通过分析文档中的其他文本与URL的接近性、并根据文档中其他文本与URL的接近性来比较文档中其他文本与该URL所标识的资源中的文本,来分析URL的有效性。图1的系统通过URL验证模块(110)来验证URL。
在本说明书中,“计算机资源”或者“资源”是指URL所标识的并且包括文本的信息的任何集合。实际上,“URL”(统一资源定位符)中的“R”代表“资源”。网络通信协议,例如HTTP、TCP/IP等等,通常传输资源,而不仅是文件。资源最普通的类型是文件,但是资源也包括动态产生的查询结果,例如CGI(公用网关接口)脚本的输出、JSP(Java服务器页面)的输出、其他动态服务器页面、可用于几种语言的文档等等。实质上,资源与文件有些相似,但是本质上更加一般。作为一个实践性的事务,大多数资源目前是文件或服务器侧脚本输出。服务器侧脚本输出包括来自CGI程序、Java小服务程序、现用服务器页面,Java服务器页面等的输出。
图1的系统包括几个计算设备的例子,其用于根据本发明的实施例验证URL,包括个人计算机(108)、个人数字助理(112)、膝上型计算机(126)和移动电话(110)。这些仅是例子;任何能够根据所存储的计算机程序指令来操作的设备都可以适于根据本发明的实施例来验证URL。
图1的系统包括几个提供包含文本的资源(312)的服务器。URL是解析计算机资源的网络地址的标识符。如此标识的资源可以包括来自HTTP(超文本传输协议)服务器的静态或动态HTML(超文本标记语言)页面;这种资源可以包括来自FTP(文件传输协议)服务器(132)的承载文本的文件;这种资源可以包括来自WAP(无线访问协议)服务器(134)的WML(无线标记语言)页面;等等-针对包含文本的任何计算机资源。图1系统中的服务器(130、132、134)可以是能够接受资源请求并能够通过向请求方提供资源而作出响应的任何计算机。这种服务器的一个例子是HTTP(超文本传输协议)服务器,或者“web服务器”。
图1的例子中包括连接计算机设备(108、112、126、110)与服务器(130、132、134)的网络(101),其中所述计算机设备根据本发明的实施例验证URL,所述服务器提供包含文本的资源(312)。包含文本的资源(312)是由要被验证的URL(308)所标识的资源。组成图1所说明的示例性系统的计算设备、网络、服务器和其他设备的安排是用于说明的,而不用于限制。根据本发明各种实施例的适用的数据处理系统可以包括图1中未示出的附加的服务器、路由器、其他设备以及对等结构,如本领域技术人员可以设想的那样。这种数据处理系统中的网络可以支持许多数据通信协议,包括例如:TCP(传输控制协议)、IP(互联网协议)、HTTP(超文本传输协议)、WAP(无线访问协议)、HDTP(手持设备传输协议,Handheld Device Transport Protocol),以及本领域技术人员可以设想的其他协议。本发明的各种实施例可以被实现在除图1所示之外的各种不同的硬件平台上。
根据本发明验证文档中的URL通常是利用计算机(也就是自动化计算机)来被实现的。例如在图1的系统中,所有的计算机设备、网络和服务器在某种程度上至少作为计算机来被实现。因此,为了进一步说明,图2示出了包括根据本发明实施例的、用于验证文档中的URL的示例性计算机(152)的自动化计算机的框图。图2的计算机(152)包括至少一个计算机处理器(156)或者“CPU”以及通过系统总线(160)连接到处理器(156)和计算机其他组件的随机访问存储器(168)(“RAM”)。
RAM(168)中存储了编辑程序(304),其是用于编辑包含文本的文档的计算机程序指令模块。用于根据本发明的实施例验证URL的编辑程序是能够编辑包含文本的文档的任何计算机程序,包括例如文字处理程序(例如Microsoft WordTM)、集成开发环境中的源代码编辑器、电子邮件客户端程序中的消息编辑器(例如Microsoft OutlookTM),以及网页开发工具Macromedia DreamweaverTM中的标记语言编辑器。
RAM(168)中还存储了URL验证功能单元(136),其是由计算机程序指令组成的计算机软件模块,所述计算机程序指令通常用于通过标识文档(306)中的URL(308)、分析该URL的有效性并告知用户该URL的有效性,来根据本发明的实施例而验证URL。这种URL验证功能单元可以作为编辑程序(304)中的拼写检查功能或语法检查功能的一部分、由用户通过用户接口来调用以验证URL。或者可以由用户与验证URL无关地调用这种URL验证功能单元。可选地,这种URL功能单元也可以被配置用来在后台连续操作,从而当用户通过编辑程序(304)将URL输入文档(306)中时验证该URL。
RAM中还存储了包含URL(308)和其他文本(310)的、编辑中的文档(306)。URL本身就是文本,因此术语“其他文本”用来区分URL与文档中URL周围的文本。并不要求编辑中的文档仅包括文本;该编辑中的文档除了文本还可以包括:例如二进制控制代码、专有代码或者其他数据。文本可以以任何文本表示来被实现,即ASCII、EBCDIC、Unicode等等。
RAM(168)中也存储了操作系统(154)。根据本发明实施例的用在计算机中的操作系统包括UNIXTM、LinuxTM、Microsoft XPTM、AIXTM、IBM’s i5/OSTM,以及本领域技术人员可以设想的其他操作系统。图2例子中的操作系统(154)、编辑程序(304)、URL验证功能单元(136)和文档(306)被示出为在RAM(168)中,但是这种软件的许多组件典型地也被存储在非易失性(non-volatile)存储器(166)中。
图2的计算机(152)包括通过系统总线(160)耦合到处理器(156)和计算机(152)的其他组件的非易失性计算机存储器(166)。非易失性计算机存储器(166)可以被实现为硬盘驱动器(170)、光盘驱动器(172)、电可擦可编程只读存储器空间(所谓的“EEPROM”或者“闪速”存储器)(174)、RAM驱动器(未示出)以及本领域技术人员能够设想的任何其他种类的计算机存储器。
图2的示例性计算机包括一个或多个输入/输出接口适配器(178)。计算机中的输入/输出接口适配器通过例如软件驱动器和计算机硬件实现了面向用户的输入/输出,用于控制到例如计算机显示屏幕的显示设备(180)的输出,以及来自例如键盘或鼠标的用户输入设备(181)的用户输入。
图2的示例性计算机(152)包括用于实现与其他计算机(182)的数据通信(184)的通信适配器(167)。在本发明的典型实施例中,由URL(308)标识的包含文本的资源(312)位于所述其他计算机上,例如通过网络连接到具有编辑中的文档的计算设备的服务器。与其他计算机的数据通信可以通过RS-232连接、例如USB的外部总线、例如IP网络的数据通信网络以及本领域技术人员可以设想的其他方式,来被连续地执行。通信适配器实现了数据通信的硬件级别,一个计算机通过该通信适配器直接或经由网络发送数据通信到另一个计算机。根据本发明实施例的、用于验证URL的通信适配器的例子包括:用于有线拨号通信的调制解调器、用于有线网络通信的以太网(IEEE802.3)适配器,以及用于无线网络通信的802.11b适配器。
为了进一步说明,图3是说明根据本发明实施例的、用于验证文档中的URL的示例性方法的流程图,该方法包括标识(302)文档(306)中的URL(308),其中该URL标识(309)了包含文本(314)的计算机资源(312),该文档(306)除该URL之外还包含其他文本(310),并且该文档是由用户(100)在计算设备(152)上的编辑程序(304)中来编辑的。标识(302)文档(306)中的URL(308)的一种方式包括扫描文档中与超级链接一致的标记语言元素。标识并实现超级链接的标记语言元素的例子是“锚”元素。锚元素的一种普通示例性形式是:
<a href=“http://www.ibm.com”>Press Here For IBM</a>
这个锚元素的例子包括开始标签<a>和结束标签</a>;href属性,该属性标识了如URL http://www.ibm.com所标识的网页的链接目标;和一个锚。“锚”就是在开始标签和结束标签之间的显示文本。在这个例子中,锚是文本“Press Here For IBM”。“锚元素”是从开始标签到结束标签的完整标记(markup)。因为超级链接经常用在标记文档中以调用URL,因此扫描标记文档中与超级链接一致的标记语言元素有利地提供了一种用于标识标记文档中的URL的手段。
标识(302)文档中的URL(308)的另一种方法包括扫描文档中URL的独立分量。例如考虑以下的URL:
http://www.ibm.com/cgi/calendar.cgi
这个示例性URL中的分量“http://”称为“大纲(scheme)”。所述大纲指定了URL的通信协议。URL的分量“www.ibm.com”称为“主机”。主机标识了运行web服务器的机器。主机可以是域名或IP地址。因为IP地址经常改变,因此主机经常以域名来被实现。示例性URL中的分量“cgi/calendar.cgi”称为“路径”,并且标识了所请求资源的位置,例如,HTML文件或者CGI脚本。尽管URL中独立分量的组合可能对每个URL都是不同的,然而许多分量对于许多URL而言是公用的。例如:大纲“http://”对于使用超文本传输协议的URL是公用的。因此,标识(302)文档(306)中的URL(308)可以通过扫描文档中的URL大纲、主机分量和路径来被实现。本领域技术人员也可以设想标识文档中的URL的其他方法,并且所有这些方法都是在本发明范围之内的。
图3的方法还包括分析(309)URL的有效性。在图3的例子中,分析URL的有效性(309)这一操作包括分析(316)文档中的其他文本与该URL的接近性,以及根据文档中其他文本与该URL的接近性来比较(320)文档(306)中其他文本(310)与该URL所标识的资源(312)中的文本(314)。通过按照文档、词语、句子、段、页等中的文本组织来指明文本的接近性,可以分析接近性。可以通过例如以下方式来指明关于URL的文本接近性:
●指明与URL在同一句子中的词语的接近性;
●指明与URL在同一段中的词语的接近性,其中与URL在同一段中而不是在同一句子中的词语的所指明的接近性要小于与URL在同一句子中的词语的接近性;
●指明与URL在同一页中的词语的接近性,其中与URL在同一页中而不是在同一段中的词语的所指明的接近性要小于与URL在同一段中的词语的接近性;
●指明在URL的N个词语中的词语的接近性,其中N是任意整数;
●指明在URL的N+M个词语中的词语的接近性,其中N和M是整数,并且在URL的N+M个词语中的词语的所指明的接近性要小于在URL的N个词语中的词语的所指明的接近性;
●等等
在图3的方法中,分析(316)文档中其他文本与URL的接近性,可以通过对与该URL有较近的接近性的词语给予更大的权重来被实现。对与URL有较近的接近性的词语给予更大的权重的一种方法是:对该文档中的词语计数、如上所述地指明每个词语的接近性以及然后根据每个词语的接近性对这些词语的计数加权。这样,在文档中出现五次而与URL在同一句子中出现三次的词语,相比出现七次但没有与URL在同一句子中出现的词语而言,可以被给予更大的权重。
在图3的方法中,比较(320)文档中其他文本与URL所标识的资源中的文本这一操作,也可以通过对与URL有较近的接近性的词语给予更大的权重来被实现。也就是说,出现于URL所标识的资源中的、也出现在具有该URL的文档中的词语,也可以通过根据文档中每个词语与该URL的接近性进行比较而被给予更大的权重。这可以通过以下操作来完成:对也出现在文档(306)中的、在资源(312)中的词语进行计数、对同时出现在文档(306)和资源(312)中的每个词语指明关于URL的接近性,并且然后根据每个词语与文档中URL的接近性来对所述词语的计数进行加权。这样,在资源中出现五次而与URL在同一句子中出现三次的词语,相比在资源中出现七次但没有与文档中的URL在同一句子中出现的词语而言,可以被给予更大的权重。
在图3的方法中并且如下面参考图4更详细描述的那样,通过根据词语在资源和文档中的出现的被加权计数来计算词语在资源中的出现与相同词语在文档中的出现的相关性,可以实现分析URL的有效性这一操作。术语“相关性”,如在本说明书中所使用的,是指统计相关性,也称为“相关系数”。它是两个随机变量之间的线性关系的强度的数字度量。根据本发明实施例的、用于验证URL的这种随机变量的例子包括:
●代表词语在包含URL的文档中的出现次数的计数的整数值,这个整数值根据该词语关于该URL的接近性而被加权,以及
●代表词语在URL所标识的资源中的出现次数的计数的整数值,其中该URL包含于具有其他文本的文档中,并且这个整数值根据该词语关于URL的接近性而被加权。
在一般的统计使用中,相关性或关联性是指两个变量与无关性的背离。在这个广泛意义上,存在几种相关系数,其度量了相关程度,适配于数据的特性。最著名的是Pearson积差相关系数,它是两个变量的协方差除以它们标准差的乘积。Pearson积差相关系数是所谓的参数统计,然而,当它相关的变量值以已知的参数化分布而出现时它是最有效的。Pearson相关性对于以非参数化分布的变量来说不太有用,并且本发明人不认为对词语计数的频率在于参数化分布。因此,非参数的相关方法,例如Spearman的ρ和Kendall的τ,对于根据本发明的实施例验证URL来说可能是优选的。
图3的方法还包括告知(324)用户URL的有效性(322)。有效性(322)的度量可以是相对的或绝对的。例如,通过相关性度量的有效性可以是相对的。在图3的方法中,告知用户URL的有效性可以通过这样的操作来被实现:根据词语在资源中的出现与相同词语在文档中的出现的所计算的相关性来告知用户URL的有效性。告知根据相关性的有效性是有效性相对度量的例子。
相关性可以在-1和+1之间取值,其中相关性的正值指示两个相关变量的等级(rank)一起升高,因此它们是“正相关”。负相关性是这样的相关性:一个变量的等级随另一变量的等级降低而升高。如果两个变量之间的关系正好是线性的,则产生恰好是-1或+1的相关性。接近于零的相关性意味着两个变量之间没有特定关系。指明URL有效性的相对量度的一种方式是计算在文档中的与在资源中的、根据与文档中URL的接近性而被加权的词语频率之间的相关性,并且按照相关性指明有效性:如果相关性大于0.8则高度有效;如果在0.6-0.8之间则非常有效;如果在0.4-0.6之间则稍微有效;以及如果小于0.4则无效。
有效性(322)的度量也可以是绝对的。在图3的方法中,分析URL的有效性还可以包括确定(326)该URL中的域名是否能够被解析。域名系统(“DNS”)是典型地与互联网相关联的域名服务。DNS将域名转换成网络地址。为了解析包含在URL中的域名,本发明的URL验证功能单元可访问的称为解析器的系统例程(routine),向包含URL中标识的域名的DNS域名服务器提交查询。DNS包括具有标准消息类型的请求/响应数据通信协议用于解析域名。Gethostbyname()和InetAddress.getByName()是用于解析域名的解析器API调用的两个例子,其在例如Unix或者Windows的操作系统中调用TCP/IP客户端。这种TCP/IP客户端典型地承载一个或多个预先指定的DNS服务器地址,为计算机指定主DNS服务器和可能的一个或多个备份DNS服务器。响应于对解析器函数的调用,例如Gethostbyname()和InetAddress.getByName(),TCP/IP客户端向预先指定的主DNS服务器发送包含标准格式域名的DNS请求消息,以请求相应的网络地址。DNS域名服务器将域名“解析”成IP地址,并将IP地址作为对查询的“答复”而发回给解析器。该解析器将IP地址传递给调用的URL验证功能单元。
因此,对是否可以解析URL中的域名的确定(326),是有效性绝对度量的例子,这是因为如果该域名不可以被解析,则不会检索到URL所标识的资源用于分析,而且不能进行关于有效性的确定。在图3的方法中,如果域名可以被解析,则处理继续进行以确定是否可以访问URL所标识的资源。如果域名不可以被解析,则将URL的有效性(322)报告为“无效”,并以此告知用户(100)。
图3的方法还包括根据计算机当前是否(328)可以访问URL所标识的资源,来告知(324)用户该URL的有效性。由于若干原因,可能无法访问资源,所述原因例如是网络故障、当前没有从计算设备(152)到网络的网络连接、资源所在的服务器可能暂时故障停机等等。URL所标识的资源的这种针对分析的不可用性不能表明URL的有效性。因此,在这种情况下告知(324)用户有效性意味着告知用户没有作出对有效性的确定,并且用户可以以后再次调用URL验证功能单元或者再次尝试验证URL。
告知(324)用户URL(308)的有效性(322)一般是通过经由计算设备(152)的用户接口(325)向用户显示消息来被实现的。所述用户接口可以是基于文本的,或者可以是图形用户接口(“GUI”)。例如,消息可以在命令行接口(“CLI”)的命令行上或者在GUI的对话框中被显示。同样,由于当用户键入时可以验证URL,因此,告知用户URL的有效性也可以通过当URL被键入文档中时增亮显示于计算机屏幕上的URL来被实现。URL可以以粗体或者下划线的形式被显示以指示有效性。或者URL可以以一种颜色被显示以指示有效性,而以另一种颜色被显示以指示无效性,例如分别用蓝色和红色。为了进一步说明,图4是说明根据本发明实施例的、用于验证文档中的URL的另一示例性方法的流程图。图4中的方法与图3中的方法类似。也就是说,图4的方法包括标识(302)文档(306)中的URL(308)、分析(309)URL的有效性以及告知(324)用户URL的有效性,其功能类似于上面关于图3方法所描述的那些功能。另外,图4中的方法,如图3的方法那样,分析(309)URL(308)的有效性这一操作包括:分析(316)文档中其他文本与该URL的接近性,以及根据文档中其他文本与该URL的接近性来比较(320)文档(306)中的其他文本(310)与该URL所标识的资源(312)中的文本(314)。
然而,在图4的方法中,分析(316)其他文本(310)与URL(308)的接近性这一操作包括:对词语在文档中的出现进行计数(402)、针对文档中的每个词语确定(404)与该URL的接近性(408),以及根据所述文档中的词语与该URL的接近性(408)来对词语在文档中的出现计数进行加权。另外,在图4的方法中,比较(320)文档(306)中其他文本(310)与URL所标识的资源(312)中的文本(314)这一操作包括:对也在文档中的词语在资源中的出现进行计数(414)、根据文档中所述词语与URL的接近性(408)来对该词语在资源中的出现计数(416)进行加权(418),以及根据词语在资源(312)和文档(306)中的出现的被加权计数(420,412)来计算(422)相关性(322)。在这个例子中,所述相关性指示了URL的有效性(322)。
例如,考虑以下包含URL和其他文本的文档:
Pearson’s correlation coefficient is a parametric statistic,and it maybe less useful if the underlying assumption of normality is violated.Additional information regarding parametric statistics may be found athttp://en.wikipedia.org/wiki/Parametric statistics.Non-parametric correlationmethods,such as Spearman’s ρ and Kendall’s τ may be useful whendistributions are not normal.
在这个例子中,URL是“ http://en.wikipedia.org/wiki/Parametric statistics”,并且其他文本是除URL之外的文档中的所有文本。在这个例子中,分析(316)其他文本(310)与URL(308)的接近性这一操作包括对词语在文档中的出现进行计数(402)、针对文档中的每个词语来确定(404)与URL的接近性(408),而根据文档中词语与URL的接近性(408)对词语在文档中的出现计数(406)进行加权(410)这一操作可以如表1所说明的那样被实现。这个例子没有考虑例如“a”、“be”、“it”、“at”等几乎没有或者没有语义内容的词语:
    表1
    字     计数     接近性   被加权计数
Pearson 1 30 6
    correlation     2     29,2:15     12
    coefficient     1     28     6
    parametric     3     25,6,1:11     13
    statistic     2     24,5:15     12
    normal     2     12,14:13     12
    spearman     1     5     16
    kendall     1     7     16
在这个例子中,根据将词语与URL分离的词语的数目来指定接近性。通过针对每次出现而平均化词语-分离接近性,来计算在文档中出现不止一次的词语的接近性。通过对具有1和10之间接近性的每个词语的计数加5、对具有11和20之间接近性的每个词语的计数加10以及对具有21和30之间接近性的每个词语的计数加15,来计算所述被加权计数。
通过采用以下由URL(308)所标识的资源(312)的文本(314)来扩展当前的例子:
Parametric inferential statistical methods are mathematicalprocedures for statistical hypothesis testing which assume that thedistributions of the variables being assessed belong to knownparameterized families of probability distributions.In that case we speakof a parametric model.
在这个例子中,对也在文档中的词语在资源中的出现进行计数(414),以及根据文档中词语与URL的接近性来对词语在资源中的出现计数进行加权(420),可以如表2所说明的那样来被实现,这里也不考虑几乎没有或者没有语义内容的词语:
    表2
  也在文档中的词语 资源文本中的计数  文档中与URL的接近性 资源文本中的被加权计数
    Pearson     0     30     0
    correlation     0     29,2:15     0
    coefficient     0     28     0
    parametric     3     25,6,1:11     13
    statistic     2     24,5:15     12
    normal     0     12,14:13     0
    spearman     0     5     0
    kendall     0     7     0
在这个例子中,通过使用Spearman等级相关系数、根据词语在资源(312)和文档(306)中的出现的被加权计数来计算(422)相关性,可以完成比较(320)文档(306)中其他文本(310)与URL所标识的资源(312)中的文本(314)的过程,该过程包括对也在文档中的词语在资源中的出现进行计数(414),以及根据该文档中所述词语与URL的接近性而对该词语在资源中的出现计数进行加权。Spearman等级相关系数Rs可以如下计算:
●从最高到最低对两组数据分等级;
●减去两组等级以得到差值d;
●对d值求平方;
●加上d的平方值以得到Sigma d2;以及
●计算Rs=1-(6 Sigma d2/n3-n),其中n是等级数目。
考虑到以上在说明书中所作出的解释,读者将认识到根据本发明实施例的验证文档中的URL的优点包括:
●告知用户URL绝对无效的能力,因为它不能被解析成任何网络地址-它实质上没有标识任何东西;以及
●告知用户URL相对无效的能力-它标识了资源,但是它可能标识了错误的资源。
本发明的示例性实施例大都是在用于验证文档中的URL的全功能计算机系统的情况下描述的。然而,本领域的技术人员应当认识到,本发明也可以以计算机程序产品来体现,该计算机程序产品被置于用于任何合适的数据处理系统的、承载信号的介质中。这种承载信号的介质可以是传输介质或者机器可读信息的记录介质,包括磁介质、光介质或者其他合适的介质。记录介质的例子包括硬盘驱动器或者软盘驱动器中的磁盘、用于光盘驱动器中的光盘、磁带以及本领域技术人员可以设想的其他介质。传输介质的例子包括语音通信电话网络和数字数据通信网络,例如以太网EthenetTM和利用互联网协议通信的网络和万维网。本领域的技术人员应当认识到,任何具有合适编程装置的计算机系统都能够执行如以程序产品所体现的本发明方法的步骤。本领域的技术人应当认识到,尽管本说明书中描述的一些示例性实施例面向安装于计算机硬件中并执行于其上的软件,然而实现为固件或硬件的可选实施例也在本发明的范围内。
根据以上描述应当理解,可以在不偏离本发明精神的情况下对本发明各个实施例进行修改和改变。说明书中的描述仅是说明性的,而非限制性的。本发明的范围仅被以下权利要求所限制。

Claims (12)

1.一种用于验证文档中的统一资源定位符的方法,该方法包括下列步骤:
标识文档中的统一资源定位符,所述统一资源定位符标识了包含文本的计算机资源,所述文档除所述统一资源定位符之外还包含其他文本;
分析所述统一资源定位符的有效性,这包括:分析所述文档中的其他文本与所述统一资源定位符的接近性,并且根据所述文档中的其他文本与所述统一资源定位符的所述接近性,来比较所述文档中的其它文本与由该统一资源定位符所标识的资源中的文本;以及
告知用户所述统一资源定位符的有效性。
2.根据权利要求1所述的方法,其中,
分析所述文档中的其他文本与所述统一资源定位符的接近性这一步骤,包括对与所述统一资源定位符有较近的接近性的词语给予更大的权重;以及
比较所述文档中的文本与由所述统一资源定位符所标识的资源中的文本这一步骤,包括对与所述统一资源定位符有较近的接近性的词语给予更大的权重。
3.根据权利要求1所述的方法,其中,
分析所述其他文本与所述统一资源定位符的接近性这一步骤还包括:对所述词语在所述文档中的出现进行计数,并且根据所述文档中的词语与所述统一资源定位符的接近性来对所述词语在所述文档中的出现计数进行加权;以及
比较所述文档中的其它文本与由所述统一资源定位符所标识的资源中的文本这一步骤还包括:对也在所述文档中的所述词语在所述资源中的出现进行计数、根据所述文档中的所述词语与所述统一资源定位符的接近性来对该词语在所述资源中的出现计数进行加权,以及根据所述词语在所述资源和所述文档中的出现的被加权计数来计算相关性。
4.根据权利要求1所述的方法,其中,
分析所述统一资源定位符的有效性这一步骤,还包括根据词语在所述资源和所述文档中的出现的被加权计数,来计算所述词语在所述资源中的出现与相同词语在所述文档中的出现的相关性;以及
告知用户所述统一资源定位符的有效性这一步骤,还包括根据所述相关性来告知用户所述统一资源定位符的有效性。
5.根据权利要求1所述的方法,其中,分析所述统一资源定位符的有效性这一步骤,还包括确定该统一资源定位符中的域名是否可以被解析。
6.根据权利要求1所述的方法,其中,根据所述计算机当前是否能够访问由所述统一资源定位符所标识的资源,来执行告知用户所述统一资源定位符的有效性这一步骤。
7.一种用于验证文档中的统一资源定位符的装置,所述装置包括计算机处理器和有效耦合至该计算机处理器的计算机存储器,所述计算机存储器具有内置的计算机程序指令,该计算机程序指令能够:
标识文档中的统一资源定位符,所述统一资源定位符标识了包含文本的计算机资源,所述文档除所述统一资源定位符之外还包含其他文本;
分析所述统一资源定位符的有效性,这包括:分析所述文档中的其他文本与所述统一资源定位符的接近性,以及根据所述文档中的其他文本与所述统一资源定位符的所述接近性,来比较所述文档中的其它文本与由所述统一资源定位符所标识的资源中的文本;以及
告知所述用户所述统一资源定位符的有效性。
8.根据权利要求7所述的装置,其中,
分析所述文档中的其他文本与所述统一资源定位符的接近性这一步骤,包括对与所述统一资源定位符有较近的接近性的词语给予更大的权重;以及
比较所述文档中的文本与由所述统一资源定位符所标识的资源中的文本这一步骤,包括对与所述统一资源定位符有较近的接近性的词语给予更大的权重。
9.根据权利要求7所述的装置,其中,
分析所述其他文本与所述统一资源定位符的接近性这一步骤还包括:对词语在所述文档中的出现进行计数,以及根据所述文档中的所述词语与所述统一资源定位符的接近性来对该词语在所述文档中的出现计数进行加权;以及
比较所述文档中的其它文本与由所述统一资源定位符所标识的资源中的文本这一步骤还包括:对也在所述文档中的词语在所述资源中的出现进行计数、根据所述文档中所述词语与所述统一资源定位符的接近性来对该词语在所述资源中的出现计数进行加权,以及根据所述词语在所述资源和所述文档中的出现的被加权计数来计算相关性。
10.根据权利要求7所述的装置,其中,
分析所述统一资源定位符的有效性这一步骤,还包括根据所述词语在所述资源和所述文档中的出现的被加权计数,来计算所述词语在所述资源中的出现与相同词语在所述文档中的出现的相关性;以及
告知用户所述统一资源定位符的有效性这一步骤,还包括根据所述相关性来告知用户所述统一资源定位符的有效性。
11.根据权利要求7所述的装置,其中,分析所述统一资源定位符的有效性这一步骤,还包括确定所述统一资源定位符中的域名是否可以被解析。
12.根据权利要求7所述的装置,其中,根据所述计算机当前是否能够访问由所述统一资源定位符所标识的资源,来执行告知用户所述统一资源定位符的有效性这一步骤。
CNA2006101465849A 2005-12-22 2006-11-15 用于验证文档中的统一资源定位符的方法和装置 Pending CN1987847A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/316,248 US20070150477A1 (en) 2005-12-22 2005-12-22 Validating a uniform resource locator ('URL') in a document
US11/316,248 2005-12-22

Publications (1)

Publication Number Publication Date
CN1987847A true CN1987847A (zh) 2007-06-27

Family

ID=38184646

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006101465849A Pending CN1987847A (zh) 2005-12-22 2006-11-15 用于验证文档中的统一资源定位符的方法和装置

Country Status (2)

Country Link
US (1) US20070150477A1 (zh)
CN (1) CN1987847A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102083100A (zh) * 2010-12-31 2011-06-01 百度在线网络技术(北京)有限公司 一种用于基于站点检测多个资源链接的状态的方法与设备
CN104601573A (zh) * 2015-01-15 2015-05-06 国家计算机网络与信息安全管理中心 一种Android平台URL访问结果验证方法及装置
CN107818123A (zh) * 2016-09-12 2018-03-20 联发科技股份有限公司 文本的自适应linkify方法及其处理器

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266524B2 (en) * 2008-02-25 2012-09-11 Microsoft Corporation Editing a document using a transitory editing surface
US9507651B2 (en) 2008-04-28 2016-11-29 Microsoft Technology Licensing, Llc Techniques to modify a document using a latent transfer surface
GB2530507A (en) * 2014-09-24 2016-03-30 Ibm Checking links
US11227262B2 (en) 2015-10-23 2022-01-18 International Business Machines Corporation Techniques for improving the ability of an invitee to fully participate in a meeting via a data processing system
US11061699B2 (en) * 2017-11-15 2021-07-13 Zive, Inc. Desktop enabling of web documents

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5713016A (en) * 1995-09-05 1998-01-27 Electronic Data Systems Corporation Process and system for determining relevance
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US5941944A (en) * 1997-03-03 1999-08-24 Microsoft Corporation Method for providing a substitute for a requested inaccessible object by identifying substantially similar objects using weights corresponding to object features
US6272507B1 (en) * 1997-04-09 2001-08-07 Xerox Corporation System for ranking search results from a collection of documents using spreading activation techniques
US6088707A (en) * 1997-10-06 2000-07-11 International Business Machines Corporation Computer system and method of displaying update status of linked hypertext documents
US6041324A (en) * 1997-11-17 2000-03-21 International Business Machines Corporation System and method for identifying valid portion of computer resource identifier
US6163778A (en) * 1998-02-06 2000-12-19 Sun Microsystems, Inc. Probabilistic web link viability marker and web page ratings
US6457028B1 (en) * 1998-03-18 2002-09-24 Xerox Corporation Method and apparatus for finding related collections of linked documents using co-citation analysis
US6286018B1 (en) * 1998-03-18 2001-09-04 Xerox Corporation Method and apparatus for finding a set of documents relevant to a focus set using citation analysis and spreading activation techniques
US6272531B1 (en) * 1998-03-31 2001-08-07 International Business Machines Corporation Method and system for recognizing and acting upon dynamic data on the internet
JP2000076118A (ja) * 1998-09-03 2000-03-14 Fuji Xerox Co Ltd 分散ファイル処理装置および分散ファイル処理方法
US6578078B1 (en) * 1999-04-02 2003-06-10 Microsoft Corporation Method for preserving referential integrity within web sites
US8914361B2 (en) * 1999-09-22 2014-12-16 Google Inc. Methods and systems for determining a meaning of a document to match the document to content
US6816857B1 (en) * 1999-11-01 2004-11-09 Applied Semantics, Inc. Meaning-based advertising and document relevance determination
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US7478089B2 (en) * 2003-10-29 2009-01-13 Kontera Technologies, Inc. System and method for real-time web page context analysis for the real-time insertion of textual markup objects and dynamic content
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
JP2002207632A (ja) * 2001-01-12 2002-07-26 Fujitsu Ltd 共有情報処理システムおよび記録媒体
US7219298B2 (en) * 2001-03-15 2007-05-15 International Business Machines Corporation Method, system, and program for verifying network addresses included in a file
WO2004023455A2 (en) * 2002-09-06 2004-03-18 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US20040205569A1 (en) * 2002-02-06 2004-10-14 Mccarty Jon S. Method and system to manage outdated web page links in a computing system
US7689667B2 (en) * 2002-02-21 2010-03-30 International Business Machines Corporation Protocol to fix broken links on the world wide web
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
GB0315154D0 (en) * 2003-06-28 2003-08-06 Ibm Improvements to hypertext integrity
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US20050216829A1 (en) * 2004-03-25 2005-09-29 Boris Kalinichenko Wireless content validation

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102083100A (zh) * 2010-12-31 2011-06-01 百度在线网络技术(北京)有限公司 一种用于基于站点检测多个资源链接的状态的方法与设备
CN102083100B (zh) * 2010-12-31 2014-11-26 百度在线网络技术(北京)有限公司 一种用于基于站点检测多个资源链接的状态的方法与设备
CN104601573A (zh) * 2015-01-15 2015-05-06 国家计算机网络与信息安全管理中心 一种Android平台URL访问结果验证方法及装置
CN104601573B (zh) * 2015-01-15 2018-04-06 国家计算机网络与信息安全管理中心 一种Android平台URL访问结果验证方法及装置
CN107818123A (zh) * 2016-09-12 2018-03-20 联发科技股份有限公司 文本的自适应linkify方法及其处理器

Also Published As

Publication number Publication date
US20070150477A1 (en) 2007-06-28

Similar Documents

Publication Publication Date Title
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
CN1987847A (zh) 用于验证文档中的统一资源定位符的方法和装置
US9141697B2 (en) Method, system and computer-readable storage medium for detecting trap of web-based perpetual calendar and building retrieval database using the same
US20040194009A1 (en) Automated understanding, extraction and structured reformatting of information in electronic files
KR20070054391A (ko) 피싱웹페이지 차단 장치 및 방법
US11665135B2 (en) Domain name processing systems and methods
EP3685243A1 (en) Content pattern based automatic document classification
CN105718533A (zh) 信息推送方法和装置
CN109872230B (zh) 金融数据分析系统的测试方法、装置、介质、电子设备
CN111310061A (zh) 全链路多渠道归因方法、装置、服务器及存储介质
CN116015842A (zh) 一种基于用户访问行为的网络攻击检测方法
CN113434542B (zh) 数据关系识别方法、装置、电子设备及存储介质
US20170154029A1 (en) System, method, and apparatus to normalize grammar of textual data
CN113360895A (zh) 站群检测方法、装置及电子设备
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质
CN1522403A (zh) 处理因特网表单的方法和设备
US20220309084A1 (en) Record matching in a database system
CN113836899A (zh) 一种网页识别方法、装置及电子设备和存储介质
CN113992390A (zh) 一种钓鱼网站的检测方法及装置、存储介质
CN114021064A (zh) 网站分类方法、装置、设备及存储介质
CN113672512A (zh) 代码检查规则生成方法、代码检查方法、装置、介质
CN111695327B (zh) 一种乱码修复方法、装置、电子设备及可读存储介质
CN112613567A (zh) 用户标签管理方法、系统、设备及存储介质
CN112199573A (zh) 一种非法交易主动探测方法及系统
CN115129355B (zh) 页面修复方法及其系统、计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070627