CN101000628A - 错误超链接检测设备及其方法 - Google Patents

错误超链接检测设备及其方法 Download PDF

Info

Publication number
CN101000628A
CN101000628A CNA2007100013177A CN200710001317A CN101000628A CN 101000628 A CN101000628 A CN 101000628A CN A2007100013177 A CNA2007100013177 A CN A2007100013177A CN 200710001317 A CN200710001317 A CN 200710001317A CN 101000628 A CN101000628 A CN 101000628A
Authority
CN
China
Prior art keywords
hyperlink
speech
destination
link
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007100013177A
Other languages
English (en)
Other versions
CN100462976C (zh
Inventor
大岛纪子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101000628A publication Critical patent/CN101000628A/zh
Application granted granted Critical
Publication of CN100462976C publication Critical patent/CN100462976C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

提供了一种能够以高准确性检测超链接语义不一致性的错误超链接检测设备,包括:链接源文本提取单元,用于从链接源的HTML文件中提取文本;链接目的地文本提取单元,用于从链接目的地的HTML文件中提取文本;语素分析单元,用于将提取的文本分解为词;加权单元,用于为语音的每个部分分配权重;一致性比率计算单元,用于计算链接目的地的词中包含链接源的词的比率作为从链接源至链接目的地的一致性比率,并计算链接源的词中包含链接目的地的词的比率作为从链接目的地至链接源的一致性比率;相关度计算单元,用于响应于两个一致性比率来计算指示超链接概率的相关度;以及CSV输出单元,用于以CSV形式输出一致性比率和相关度。

Description

错误超链接检测设备及其方法
技术领域
本发明涉及错误超链接检测设备及其方法,更具体地,涉及用于检测提供给HTML(超文本标记语言)文件的超链接语义不一致性的错误超链接检测设备极其方法。
背景技术
在WWW(万维网)中的以HTML形式描述的大量文档(下文中也称作HTML文件)之间提供有超链接(下文中简单地称作“链接”)。为了提供该链接,在链接源的文档中嵌入链接目的地的文件名称或锚点(anchor)名称(URL:统一资源定位符)。当链接被正确提供给时,web浏览器将响应于对链接文本的点击操作而访问该链接目的地的HTML文件,从而显示该文档。
然而,当错误地提供该链接时,将显示错误,或者将显示完全不相关的文档。前者称作“逻辑不一致性”,在嵌入了开始即不存在或开始时存在但后来消失的文件名称或锚点名称的时候,则发生这种“逻辑不一致性”。同时,后者称作“语义不一致性”,在嵌入了实际上存在但语义上错误的文件名称的时候,则发生这种“语义不一致性”。已普遍并广泛地提供了能够自动检测链接的逻辑不一致性的工具,但尚未提供能够自动检测链接的语义不一致性的工具。然而,已提出了下列思路。
日本未经审查的专利公开(Kokai)No.2004-220193(以下的专利文献1)公开了一种HTML链接检验系统,该系统能够检验实际的HTML站点是否满足HTML站点实现者所意指的具有HTML文件链接的站点配置,并且容易地查证是否正确提供了来自一个对象的链接,所述对象被特别提供用于从一个URL到另一URL的移动。该系统包括站点配置管理装置,用于关于包括多个以超文本语言所创建的HTML文件的网站,预先管理通过web中HTML文件之间的链接的关系;图像链接管理装置,用于关于由网站中使用的预定对象提供的链接,管理链接源和链接目的地的HTML文件的相关信息;链接信息提取装置,用于提取HTML中的链接信息;以及链接检验装置,用于检验图像所提供的链接是否满足所述站点配置管理装置所管理的配置(参考说明书摘要中的解决方案)。
然而,在该系统中,为了检验该链接,必须预先注册HTML站点实现者所意指的具有HTML文件链接的站点配置。
此外,日本未经审查的专利公开(Kokai)No.2004-139304(以下的专利文献2)公开了一种超文本测试设备,其应用于超文本数据库,且自动查找并纠正逻辑不一致的(对应于本发明中使用的“语义不一致性”)链接部分以及针对其的纠正候选(参考说明书摘要中的目的)。信息收集装置从超文本数据库中收集配置超文本的页面信息和链接信息,从而接着将其存储到信息存储单元中。条件确定装置根据信息存储单元将针对每个条目的多条链接信息进行归组,并从该组中提取唯一链接作为链接不一致性。候选计算装置计算纠正候选,其中该纠正候选使得由条件确定装置所提取的唯一链接的链接信息与该组的链接信息相同。纠正反映装置在条件确定装置所检测的链接不一致性部分和候选计算装置所计算的纠正候选的基础上更新超文本数据库。条件确定装置从信息存储单元中提取一个链接,在该链接中,包含于链接源描述中的词没有包含在链接目的地文档的标题、报头和突出的字符串中,并且该条件确定装置向其给出失配计分。此外,条件确定装置将存储于信息存储单元中的链接的链接源描述分割为词。对于如何将链接源描述分割为词,存在多种方法,包括:使用语素分析,当字符类型变化时对其分割,每n个字符进行分割,等等。
该设备仅在从链接源至链接目的地的一个方向上进行检查,并且仅在包含于链接源描述中的词没有包含在链接目的地描述中的时候将其判定为错误。为此,例如,当链接源描述为“People Finder portraitconfiguration”,而链接目的地描述是“People/finder configurationmode”时,不能将其判定为错误。这是因为包含于链接源描述中的词“configuration”也包含在链接目的地描述中。此外,尽管该设备可应用于具有多对多链接关系的大规模目标,但其不可应用于仅具有一对一链接关系的小规模目标,因为不可能对链接源或链接目的地上的多条信息进行归组。
此外,日本未经审查的专利公开(Kokai)No.2005-173671(以下的专利文献3)公开了一种链接诊断系统,该系统自动地检测超文本的链接的逻辑不一致性(对应于本发明中的“语义不一致性”)。链接特征提取装置提取:(A)可以由链接自身获取的链接特征信息,(B)可以在链接和链接目的地的文档数据之间的关系的基础上获取的链接特征信息,或(C)在根据预定条件对链接进行归组时可以获取的链接特征信息,作为指示类似该链接的逻辑(语义)不一致性的链接特征信息。不一致性学习装置通过统计性地计算每个链接特征信息的内容与被判定为不一致的链接的比率之间的关系来寻找判别函数。不一致性确定装置利用未确定链接的链接特征信息以及由不一致性学习装置所计算的判别函数来对确定目标的链接是否是不一致的进行确定。该设备也具有与前述超文本测试设备类似的问题。
[专利文献1]
日本未经审查的专利公开(Kokai)No.2004-220193。
[专利文献2]
日本未经审查的专利公开(Kokai)No.2004-139304。
[专利文献3]
日本未经审查的专利公开(Kokai)No.2005-173671。
发明内容
本发明的目的是提供一种能够检测超链接的语义不一致性的错误超链接检测设备及其方法。
本发明的另一目的是提供一种具有高检测准确性的错误超链接检测设备及其方法。
根据本发明的错误超链接检测设备包括第一提取装置、第二提取装置、语素分析装置、一致性比率计算装置以及相关度计算装置。第一提取装置从超链接源的HTML文件中提取文本。第二提取装置从超链接目的地的HTML文件中提取文本。语素分析装置将由第一和第二提取装置提取的文本分别分解为一个或多个词。一致性比率计算装置根据所述语素分析装置获取的词来计算超链接目的地的词中包含超链接源的词的比率作为第一一致性比率,并计算超链接源的词中包含超链接目的地的词的比率作为第二一致性比率。相关度计算装置响应于由一致性比率计算装置所计算的第一和第二一致性比率来计算指示超链接的概率的相关度。
根据该错误超链接检测设备,因为该检查不仅在从超链接源至超链接目的地的一个方向中进行,而且在从超链接目的地至超链接源的反方向中进行,所以可以以高准确性检测超链接的语义不一致性。
优选地,错误超链接检测设备进一步包括加权装置,用于为语音的每个部分分配权重,以由一致性比率计算装置计算第一和第二一致性比率。
在该情况中,提高了错误超链接的检测准确性。
根据本发明的错误超链接检测方法是一种操作上述设备的方法。根据本发明的错误超链接检测程序产品是一种用于使计算机作为上述每一个装置工作的产品。通过将上述程序产品安装到计算机中可产生上述设备。通过使用上述设备可执行上述方法。上述程序产品用于上述设备的产生以及上述方法的使用。
附图说明
下文中,将参考附图来详细描述本发明的实施方式。在整个附图中,将相同的参考数字给予相同或相应的部件,并且其描述将不再重复。
图1是示出了根据本发明实施方式的错误超链接检测设备的硬件配置的功能框图;
图2是示出了图1所示的错误超链接检测设备的操作方法(错误超链接检测程序的执行过程)的流程图;
图3是示出了图2中链接源文本提取处理细节(子程序)的流程图;
图4是示出了图2中链接目的地文本提取处理细节(子程序)的流程图;
图5是示出了图2中加权处理细节(子程序)的流程图;
图6是示出了图2中从链接源至链接目的地的一致性比率计算处理细节(子程序)的流程图;以及
图7是示出了图2中从链接目的地至链接源的一致性比率计算处理细节(子程序)的流程图。
附图标记说明
10错误超链接检测设备
12链接源文本提取单元
14链接目的地文本提取单元
16语素分析单元
18加权单元
20一致性比率计算单元
22相关度计算单元
24CSV输出单元
26HTML文件
具体实施方式
参考图1,根据本发明实施方式的错误超链接检测设备10包括链接源文本提取单元12、链接目的地文本提取单元14、语素分析单元16、加权单元18、一致性比率计算单元20、相关度计算单元22以及CSV(逗号分隔值)输出单元24。
链接源文本提取单元12从链接源的HTML文件26中提取文本。链接目的地文本提取单元14从链接目的地的HTML文件26中提取文本。语素分析单元16将由链接源文本提取单元12和链接目的地文本提取单元14所提取的文本分别分解为一个或多个词。加权单元18为语音的每个部分分配权重,以由一致性比率计算单元20计算一致性比率。一致性比率计算单元20根据语素分析单元16获取的词来计算链接目的地的词中包含链接源的词的比率作为从链接源至链接目的地的一致性比率,并计算链接源的词中包含链接目的地的词的比率作为从链接目的地至链接源的一致性比率。相关度计算单元22响应于由一致性比率计算单元20所计算的一致性比率来计算指示链接的概率的相关度。CSV输出单元24以CSV形式输出由一致性比率计算单元20计算的一致性比率和由相关度计算单元22计算的相关度。
链接源文本提取单元12、链接目的地文本提取单元14、语素分析单元16、加权单元18、一致性比率计算单元20、相关度计算单元22以及CSV输出单元24由计算机(WWW服务器等)的硬件资源(CPU(中央处理单元)、半导体存储器、硬盘、键盘、鼠标、显示器等)来实现。HTML文件26存储在与此相同的计算机的存储介质(硬盘等)中,或存储在通过互联网或内联网与上述计算机连接的其他计算机的存储介质中。
接下来,将描述错误超链接检测设备10的操作。
参考图2,链接源文本提取单元12从HTML文件26中提取文本作为链接的语义不一致性的检测目标(S1)。具体来说,参考图3,链接源文本提取单元12访问链接源的HTML文件26(S101),并搜索该HTML文件26以找出链接标签(例如,用于指定<A HREF=“file001.html”>链接的</A>)(S102)。链接目的地的文件名称(在此例中为“file001.html”)或URL在HREF属性(HREF=“”)中描述,并且链接文本(在此例中为“specify a link(指定一个链接)”)在<A HREF=“”>和</A>之间描述。Web浏览器显示链接文本,并响应于对链接文本的点击操作而访问该链接目的地的HTML文件。该链接源文本提取单元12提取在链接标签<A HREF=“”>和</A>之间找出的链接文本(S103)。
再次参考图2,链接目的地文本提取单元14从链接目的地的HTML文件26中提取文本(S2)。具体来说,参考图4,链接目的地文本提取单元14判别链接源文本提取单元12找出的链接标签是否具有NAME属性(S201)。如果该链接标签具有NAME属性,则该链接在链接目的地的HTML文件26中指定一个指定位置。在此情况中,锚点名称(关键词)(在此例中为“anchor001”)嵌入在“#”之后,例如<A HREF=“fle001.html#anchor001”>,并且相同的锚点名称嵌入在链接目的地的HTML文件26中的指定位置,例如<ANAME=“anchor001”>。同时,如果该链接在与链接源的HTML文件相同的HTML文件26(相同页面)中指定该指定位置,那么将省略“#”之前的文件名称,例如<A HREF=“#anchor001”>。
如果该链接标签不具有NAME属性(在步骤201为否),那么链接目的地文本提取单元14访问链接目的地的HTML文件26(S202),并搜索该HTML文件26以找出用于指定标题标签<TITLE>链接的</TITLE>(S203)。标题文本(在此例中为“specification of link(链接规范)”)在<TITLE>和</TITLE>之间进行描述。Web浏览器在标题条上显示该标题文本。
如果存在标题标签(在S204为是),链接目的地文本提取单元1 4提取在标题标签<TITLE>和</TITLE>之间找出的标题文本(S205)。同时,如果不存在标题标签(在S204为否),那么链接目的地文本提取单元14搜索链接目的地的HTML文件26以找出指定报头标签<HEAD>链接的方法的解释</HEAD>(S206)。报头文本(在此例中为“explanation of method of specifying link(指定链接的方法的解释)”)在<HEAD>和</HEAD>之间进行描述。该web浏览器不显示报头文本(除标题文本之外)。链接目的地文本提取单元14提取所找出的报头标签<HEAD>和</HEAD>之间的报头文本(S207)。
同时,如果链接标签具有NAME属性(在S201为是),那么链接目的地文本提取单元14判别该链接是否将HTML文件26中的指定位置指定为与链接源的指定位置相同,即是否忽略了“#”之前的文件名称(S208)。如果该链接将HTML文件26中的指定位置指定为与链接源的指定位置不同(在S208为否),那么链接目的地文本提取单元14访问链接目的地的HTML文件26(S209)。同时,如果该链接将HTML文件26中的指定位置指定为与链接源的指定位置相同(在S208为是),那么链接目的地文本提取单元14跳过步骤S209并进行到随后的步骤S210。
链接目的地文本提取单元14搜索与链接目的地的HTML文件相同或不同的HTML文件26,以找出用于指定锚点标签<A NAME=“anchor001”>链接的</A>(S210)。锚点文本(在此例中为“specification of link(链接规范)”)在<A NAME=“”>和</A>之间进行描述。链接目的地文本提取单元14提取锚点标签<A NAME=“”>和</A>之间找出的锚点文本(S211)。
同时,如果不存在锚点文本,那么可以找出在锚点标签之前和之后的预定字节(例如150字节)内的离该锚点标签最近的突出标签或报头标签,从而提取标签之间的文本。如果不存在这种标签,那么搜索可以被停止,因为错误链接的检测是不可能的。
再次参考图2,语素分析单元16将由链接源文本提取单元12提取的链接源的文本(S3)分解为一个或多个词,并将由链接目的地文本提取单元14提取的链接目的地的文本分解为一个或多个词(S4)。在日语中,语音部分被归类为10种,即动词、形容词、形容动词、名词、副词、连体词、连词、感叹词、助动词以及语气词,并且语素分析单元16在这里将动词归类为SA变动词和其他动词。
然后,加权单元28为语音的每个部分设置期望的加权因子(S5)。具体来说,参考图5,加权单元18响应于用户的选择性操作而设置检测模式(S501)。这里,准备了三种类型的检测模式,即(A)正常模式、(B)完全匹配模式以及(C)审验模式。加权单元18判别设置的检测模式(S502),并根据如下的检测模式来设置加权因子。
(A)正常模式
正常模式对下列情况是有效的,即当待检查的目标量非常大并且没有时间进行精细检查时希望仅检测严重的语义不一致性。在此模式中,仅向作为内容的格(cases of contents)的名词和动词分配点数(points)。然而,不向对内容的情形产生影响的SA变动词分配点数。为此,加权单元18按照如下设置点数,即名词的加权因子=1,除SA变动词之外的动词的加权因子=1,而语音其他部分的加权因子=0(S503)。
(B)完全匹配模式
完全匹配模式对下列情况是有效的,即希望在配置为使得链接源的文本和链接目的地的文本可以彼此完全匹配的站点来检测语义不一致性。在此模式中,设想如果该文本彼此之间并非完全匹配,则发生语义不一致性,因此向语音的所有部分分配相同的点数。为此,加权单元18按照如下设置点数,即语音的所有部分的加权因子=1(S504)。
(C)审验模式
审验模式对下列情况是有效的,即待检查的目标的配置是未知的,从而希望检测的语义不一致性包括尽可能多的可能的语义不一致性。在此模式中,向作为内容的格的名词和动词(除SA变动词之外)分配较高的点数,而向不作为内容的格但指示所述内容的形容词、副词以及SA变动词分配较低的点数。为此,加权单元18按照如下设置点数,从而使得名词的加权因子=1,除SA变动词之外的动词的加权因子=1,形容词的加权因子=0.2,副词的加权因子=0.2,SA变动词的加权因子=0.2,而语音其他部分的加权因子=0(S505)。
再次参考图2,一致性比率计算单元20计算语素分析单元16获得的链接目的地的词中包含语素分析单元16获得的链接源的词的比率作为从链接源至链接目的地的一致性比率(S6)。
具体来说,参考图6,一致性比率计算单元20通过将预定的基本点数与由加权单元18设置的加权因子相乘,来计算链接源中存在的每个词的分配点数(S601),并将这些分配点数相加(S602)。
随后,一致性比率计算单元20判别链接源中存在的每个词是否也存在于链接目的地中(S603)。如果链接源中存在的词也存在于链接目的地中(在S603为是),则其设置链接目的地存在标志=1(S604),而如果链接源中存在的词不存在于链接目的地中(在S603为否),则其设置链接目的地存在标志=0(S605)。
随后,一致性比率计算单元20通过将链接源中存在的每个词的分配点数与相应的链接目的地存在标志相乘,来计算链接源中存在的每个词的获取点数(S606),并将这些获取点数相加(S607)。
然后,通过将链接源中存在的词的总获取点数除以链接源中存在的词的总分配点数,而计算从链接源至链接目的地的一致性比率(S608)。
再次参考图2,一致性比率计算单元20以与上述相反的方向计算语素分析单元16获得的链接源的词中包含语素分析单元16获得的链接目的地的词的比率,作为从链接目的地至链接源的一致性比率(S7)。
具体来说,参考图7,一致性比率计算单元20通过将预定的基本点数与由加权单元18设置的加权因子相乘,来计算链接目的地中存在的每个词的分配点数(S701),并将这些分配点数相加(S702)。
随后,一致性比率计算单元20判别链接目的地中存在的每个词是否也存在于链接源中(S703)。如果链接目的地中存在的词也存在于链接源中(在S703为是),则其设置链接源存在标志=1(S704),而如果链接目的地中存在的词不存在于链接源中(在S703为否),则其设置链接源存在标志=0(S705)。
随后,一致性比率计算单元20通过将链接目的地中存在的每个词的分配点数与相应的链接源存在标志相乘,来计算链接目的地中存在的每个词的获取点数(S706),并将这些获取点数相加(S707)。
然后,通过将链接目的地中存在的词的总获取点数除以链接目的地中存在的词的总分配点数,而计算从链接目的地至链接源的一致性比率(S708)。
现在,在表1至表6中示出了一致性比率的计算例子,其中,从链接源中提取的文本是“PERFORM SEARCH FOR OBTAININGCORRECT RESULT(在日语中为CORRECT RESULT WOOBTAINING FOR NI SEARCH PERFORM)”,而从链接目的地中提取的文本是“SEARCH FOR OBTAINING CORRECT RESULT(在日语中为CORRECT RESULT WO OBTAINING FOR NO SEARCH)”。在此例子中,两个基本点数都设为10。
表1示出了正常模式中从链接源至链接目的地的一致性比率的计算例子。
语素逻辑分析结果 correct  result  “wo”  obtaining  for  “ni”  search 总计 一致性比率
语音部分 形容词  名词  后置语气词  动词(*)  后置语气词  后置语气词  名词 - -
基本点数 10  10  10  10  10  10  10 - -
加权因子 0  1  0  1  0  0  1 - -
分配点数 0  10  0  10  0  0  10 30 -
链接源存在标志 1  1  1  1  1  0  1 - -
获取点数 0  10  10  10  0  0  10 30 100%
(*)不包括SA变动词
表1
表2示出了正常模式中从链接目的地至链接源的一致性比率的计算例子。
语素逻辑分析结果 correct result “wo” obtaining for “no” search 总计 一致性比率
语音部分 形容词 名词 后置语气词 动词(*) 后置语气词 后置语气词 名词 - -
基本点数 10 10 10 10 10 10 10 - -
加权因子 0 1 0 1 0 0 1 - -
分配点数 0 10 0 10 0 0 10 30 -
链接源存在标志 1 1 1 1 1 0 1 - -
获取点数 0 10 10 10 0 0 10 30 100%
(*)不包括SA变动词
表2
表3示出了完全匹配模式中从链接源至链接目的地的一致性比率的计算例子。
语素逻辑分析结果   correct   result   “wo”  obtaining   for “ni”   search   Perform(”suru”)   总计   一致性比率
语音部分   形容词   名词   后置语气词   动词(*)   后置语气词   后置语气词   名词   (***)   -   -
基本点数   10   10   10   10   10   10   10   10   -   -
加权因子   1   1   1   1   1   1   1   1   -   -
分配点数   10   10   10   10   10   10   10   10   80   -
链接源存在标志   1   1   1   1   1   0   1   0   -   -
荻取点数   10   10   10   10   10   0   10   0   60   75%
(*)不包括SA变动词
(***)SA变动词
表3
表4示出了完全匹配模式中从链接目的地至链接源的一致性比率的计算例子。
语素逻辑分析结果 correct result “wo” obtaining for “no” search 总计 一致性比率
语音部分 形容词 名词 后置语气词 动词(*) 后置语气词 后置语气词 名词 - -
基本点数 10 10 10 10 10 10 10 - -
加权因子 1 1 1 1 1 1 1 - -
分配点数 0 10 10 10 10 10 10 70 -
链接源存在标志 1 1 1 1 1 0 1 - -
获取点数 10 10 10 10 10 0 10 60 86%
(*)不包括SA变动词
表4
表5示出了审验模式中从链接源至链接目的地的一致性比率的计算例子。
语素逻辑分析结果 correct  result  “wo” obtaining  for “ni” search Perform(suru) 总计 一致性比率
语音部分 形容词  名词  后置语气词 动词(*)  后置语气词 后置语气词 名词 (***)  - -
基本点数 10  10  10 10  10 10 10 10  - -
加权因子 0.2  1  0.1 1  0.1 0.1 1 0.2  - -
分配点数 2  10  1 10  1 1 10 2  37 -
链接源存在标志 1  1  1 1  1 0 1 0  - -
获取点数 2  10  1 10  1 0 10 0  47 92%
(*)不包括SA变动词
(***)SA变动词
表5
表6示出了审验模式中从链接目的地至链接源的一致性比率的计算例子。
语素逻辑分析结果 correct  result “wo”  obtaining for  “no”  search 总计 一致性比率
语音部分 形容词  名词 后置语气词  动词(*) 后置语气词  后置语气词  名词 - -
基本点数 10  10 10  10 10  10  10 - -
加权因子 0.2  1 0.1  1 0.1  0.1  1 - -
分配点数 2  10 1  10 1  1  10 35 -
链接源存在标志 1  1 1  1 1  0  1 - -
获取点数 2  10 1  10 1  0  10 34 97%
(*)不包括SA变动词
表6
再次参考图2,相关度计算单元22响应于由一致性比率计算单元20计算的两个方向上的一致性比率而计算指示链接的概率的相关度(S8)。该相关度可以是用于指示链接被正确提供的概率的索引(index),并且计算方法并不进行特别限定,但仅需要的是计算代表二者的值,例如在两个方向上计算的一致性比率的算术平均值和几何平均值。此外,通过计算上述三种检测模式中两个方向上的一致性比率来计算六个一致性比率的总计,并且可以预先定义一致性比率和相关度之间的关系,从而使得如果所有六个一致性比率都是100%,那么相关度为100%;如果仅有五个一致性比率是100%,那么相关度为90%;如果仅有四个一致性比率是100%,那么相关度为80%;如果仅有三个一致性比率是100%那么相关度为70%;如果仅有两个一致性比率是100%那么相关度为60%;如果仅有一个一致性比率是100%,那么相关度为50%;如果所有六个一致性比率都是0%那么相关度为0%;除此之外,相关度为10%。
随后,CSV输出单元24以CSV形式输出由一致性比率计算单元20计算的一致性比率以及由相关度计算单元22计算的相关度(S9)。
如上所述,根据依照本发明实施方式的错误超链接检测设备10,可以以高准确性来检测链接的语义不一致性。此外,由于为语音的每个部分分配了权重,因此进一步提升了检测准确性,因为检查不仅在从链接源至链接目的地的一个方向上执行,而且还在从链接目的地到链接源的反方向上执行。
此外,由于准备了三种检测模式,因此可以根据检测的目标的特性来适当地检测链接的语义不一致性,例如将重点放在检测准确性上,将重点放在检测所需时间上等等。
此外,由于不是提取了链接目的地的所有文本,而是仅提取了表示链接目的地中文档的特征的标题文本等等,因此可以缩减检测处理所需的时间。
尽管在上述实施方式中从链接目的地中提取了标题文本、报头文本、锚点文本、字幕文本、突出文本等等,但这些仅供示例,从而需要的是提取表示链接目的地的文档的特征的文本。
此外,尽管在上述实施方式中有三种检测模式,但模式的内容和数量并不具体限定于此。例如,通过仅将名词的加权因子设置为1,并将语音其他部分的加权因子设置为0,那么仅可针对名词进行检查。此外,本发明还可以应用于日语之外的语言。
如上所述,尽管已描述了本发明的实施方式,但前述实施方式仅为执行本发明的示例。因此,本发明并不限于以上描述的实施方式,并且因此,落入本发明的主题的范围之内的前述实施方式的所有适当修改和等同方案可以付诸实施。

Claims (11)

1.一种用于检测超链接逻辑不一致性的错误超链接检测设备,包括:
第一提取装置,用于从超链接源的HTML文件中提取文本;
第二提取装置,用于从超链接目的地的HTML文件中提取文本;
语素分析装置,用于将由所述第一和第二提取装置提取的所述文本分别分解为一个或多个词;
一致性比率计算装置,用于根据所述语素分析装置获取的词,计算所述超链接目的地的词中包含所述超链接源的词的比率作为第一一致性比率,并计算所述超链接源的词中包含所述超链接目的地的词的比率作为第二一致性比率;以及
相关度计算装置,用于响应于由所述一致性比率计算装置所计算的所述第一和第二一致性比率来计算指示所述超链接的概率的相关度。
2.根据权利要求1所述的错误超链接检测设备,进一步包括加权装置,用于为语音的每个部分分配权重,以由所述一致性比率计算装置计算所述第一和第二一致性比率。
3.根据权利要求2所述的错误超链接检测设备,其中,
所述加权装置包括加权因子设置装置,用于为语音的每个部分设置期望的加权因子;以及
所述一致性比率计算装置包括:
用于通过将预定基本点数与由所述加权因子设置装置所设置的加权因子相乘来计算所述超链接源的词的分配点数的装置;
用于通过将预定基本点数与由所述加权因子设置装置所分配的加权因子相乘来计算所述超链接目的地的词的分配点数的装置;
用于如果在所述超链接目的地中存在所述超链接源的词则将链接目的地存在标志设置为1,并且如果在所述超链接目的地中不存在所述超链接源的词则将所述链接目的地存在标志设置为0的装置;
用于如果在所述超链接源中存在所述超链接目的地的词则将链接源存在标志设置为1,并且如果在所述超链接源中不存在所述超链接目的地的词则将所述链接源存在标志设置为0的装置;
用于通过将计算出的所述超链接源的词的分配点数与所述设置的链接目的地存在标志相乘来计算所述超链接源的词的获取点数的装置;
用于通过将计算出的所述超链接目的地的词的分配点数与所述设置的链接源存在标志相乘来计算所述超链接目的地的词的获取点数的装置;
用于通过将计算出的所述超链接源的词的总获取点数除以计算出的所述超链接源的词的总分配点数来计算所述第一一致性比率的装置;以及
用于通过将计算出的所述超链接目的地的词的总获取点数除以计算出的所述超链接目的地的词的总分配点数来计算所述第二一致性比率的装置。
4.根据权利要求3所述的错误超链接检测设备,其中,所述加权因子设置装置将除SA变动词之外的名词和动词的加权因子设置为大于0的值,并将语音的其他部分的加权因子设置为0。
5.根据权利要求3所述的错误超链接检测设备,其中,所述加权因子设置装置将除SA变动词之外的名词和动词的加权因子设置为大于0的第一值,将形容词、副词以及SA变动词的加权因子设置为小于所述第一值但大于0的第二值,并将语音的其他部分的加权因子设置为0。
6.根据权利要求1所述的错误超链接检测设备,其中,所述第一提取装置包括:
用于搜索所述超链接源的HTML文件以找出链接标签的装置;以及
用于提取所述找出的链接标签之间的链接文本的装置。
7.根据权利要求1所述的错误超链接检测设备,其中,所述第二提取装置包括:
用于搜索所述超链接目的地的HTML文件以找出标题标签的装置;以及
用于提取所述找出的标题标签之间的标题文本的装置。
8.根据权利要求7所述的错误超链接检测设备,其中,所述第二提取装置进一步包括:
用于如果不存在标题标签则搜索所述超链接目的地的HTML文件以找出报头标签的装置;以及
用于提取所述找出的报头标签之间的报头文本的装置。
9.根据权利要求7所述的错误超链接检测设备,其中,所述第二提取装置进一步包括:用于在所述超链接在所述HTML文件中指定一个指定位置时提取嵌入在所述指定位置中的锚点标签之间的锚点文本的装置。
10.一种检测超链接逻辑不一致性的错误超链接检测方法,包括步骤:
从超链接源的HTML文件中提取文本;
从超链接目的地的HTML文件中提取文本;
利用语素分析将所述提取的文本分别分解为一个或多个词;
根据语素分析装置获取的词,计算所述超链接目的地的词中包含所述超链接源的词的比率作为第一一致性比率,并计算所述超链接源的词中包含所述超链接目的地的词的比率作为第二一致性比率;以及
响应于所述第一和第二一致性比率来计算指示所述超链接的概率的相关度。
11.根据权利要求10的错误超链接检测方法,进一步包括以下步骤:为语音的每个部分分配权重,以计算所述第一和第二一致性比率。
CNB2007100013177A 2006-01-13 2007-01-09 错误超链接检测设备及其方法 Expired - Fee Related CN100462976C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP006720/2006 2006-01-13
JP2006006720A JP4767694B2 (ja) 2006-01-13 2006-01-13 不正ハイパーリンク検出装置及びその方法

Publications (2)

Publication Number Publication Date
CN101000628A true CN101000628A (zh) 2007-07-18
CN100462976C CN100462976C (zh) 2009-02-18

Family

ID=38343475

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100013177A Expired - Fee Related CN100462976C (zh) 2006-01-13 2007-01-09 错误超链接检测设备及其方法

Country Status (3)

Country Link
US (1) US8359294B2 (zh)
JP (1) JP4767694B2 (zh)
CN (1) CN100462976C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599043A (zh) * 2008-06-02 2009-12-09 松下电器产业株式会社 追踪文档的关联信息的方法和系统
CN101833549A (zh) * 2009-03-11 2010-09-15 索尼公司 文本分析设备、方法和程序
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN102117280B (zh) * 2009-12-31 2013-08-07 北京金山软件有限公司 互联网中关联词条组相关度的测量方法、排序方法和装置
WO2013143362A1 (zh) * 2012-03-29 2013-10-03 腾讯科技(深圳)有限公司 一种为文本添加超级链接的方法,装置以及计算机存储介质
CN102117279B (zh) * 2009-12-31 2014-05-21 北京金山办公软件有限公司 互联网中关联词条组相关度的测量方法、排序方法和装置
CN106649327A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 网页链接的检测方法和装置
CN108255866A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 检查网站中链接的方法和装置
CN108628875A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN111914522A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 无效超链接修复方法、装置、电子设备和可读存储介质
CN113919347A (zh) * 2021-12-14 2022-01-11 山东捷瑞数字科技股份有限公司 一种文本数据的内链词提取匹配方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4329839B2 (ja) * 2007-04-20 2009-09-09 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置及びプログラム
JP4569671B2 (ja) 2008-06-20 2010-10-27 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像処理方法、およびコンピュータプログラム
JP5187064B2 (ja) * 2008-08-18 2013-04-24 富士通株式会社 Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
JP5269579B2 (ja) 2008-12-25 2013-08-21 ソニー株式会社 コンテンツ利用管理装置、コンテンツ利用管理方法、およびプログラム
US8346878B2 (en) * 2009-11-06 2013-01-01 International Business Machines Corporation Flagging resource pointers depending on user environment
WO2014207941A1 (ja) * 2013-06-28 2014-12-31 楽天株式会社 判定装置、判定方法、及びプログラム
JP6584361B2 (ja) * 2016-04-26 2019-10-02 日本放送協会 キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム
US10977333B2 (en) 2018-09-24 2021-04-13 International Business Machines Corporation Link corrections by cognitive analysis of web resources

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6601066B1 (en) * 1999-12-17 2003-07-29 General Electric Company Method and system for verifying hyperlinks
US6519557B1 (en) * 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
US7219298B2 (en) * 2001-03-15 2007-05-15 International Business Machines Corporation Method, system, and program for verifying network addresses included in a file
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US6647222B1 (en) 2002-06-07 2003-11-11 Xerox Corporation Print media supply identification for a copier or printer
JP4093012B2 (ja) * 2002-10-17 2008-05-28 日本電気株式会社 ハイパーテキスト検査装置および方法並びにプログラム
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
JP2004220193A (ja) 2003-01-10 2004-08-05 Ricoh Co Ltd Htmlリンク検査システム
JP4172388B2 (ja) 2003-12-08 2008-10-29 日本電気株式会社 リンク診断装置、リンク診断方法およびリンク診断プログラム。
JP2005346598A (ja) 2004-06-07 2005-12-15 Sangaku Renkei Kiko Kyushu:Kk ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法
CN100388280C (zh) * 2005-01-26 2008-05-14 威盛电子股份有限公司 超链接自动重导与管理系统及其方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599043A (zh) * 2008-06-02 2009-12-09 松下电器产业株式会社 追踪文档的关联信息的方法和系统
CN101833549A (zh) * 2009-03-11 2010-09-15 索尼公司 文本分析设备、方法和程序
CN101833549B (zh) * 2009-03-11 2013-10-09 索尼公司 文本分析设备、方法和程序
CN102117279B (zh) * 2009-12-31 2014-05-21 北京金山办公软件有限公司 互联网中关联词条组相关度的测量方法、排序方法和装置
CN102117280B (zh) * 2009-12-31 2013-08-07 北京金山软件有限公司 互联网中关联词条组相关度的测量方法、排序方法和装置
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
US9483447B2 (en) 2012-03-29 2016-11-01 Tencent Technology (Shenzhen) Company Limited Method, device, and computer storage media for adding hyperlink to text
CN103365831A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种为文本添加超级链接的方法和装置
WO2013143362A1 (zh) * 2012-03-29 2013-10-03 腾讯科技(深圳)有限公司 一种为文本添加超级链接的方法,装置以及计算机存储介质
CN106649327A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 网页链接的检测方法和装置
CN108255866A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 检查网站中链接的方法和装置
CN108255866B (zh) * 2016-12-29 2020-10-27 北京国双科技有限公司 检查网站中链接的方法和装置
CN108628875A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN108628875B (zh) * 2017-03-17 2022-08-30 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN111914522A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 无效超链接修复方法、装置、电子设备和可读存储介质
CN113919347A (zh) * 2021-12-14 2022-01-11 山东捷瑞数字科技股份有限公司 一种文本数据的内链词提取匹配方法及装置
CN113919347B (zh) * 2021-12-14 2022-04-05 山东捷瑞数字科技股份有限公司 一种文本数据的内链词提取匹配方法及装置

Also Published As

Publication number Publication date
US20080172220A1 (en) 2008-07-17
JP2007188356A (ja) 2007-07-26
CN100462976C (zh) 2009-02-18
JP4767694B2 (ja) 2011-09-07
US8359294B2 (en) 2013-01-22

Similar Documents

Publication Publication Date Title
CN100462976C (zh) 错误超链接检测设备及其方法
US20200050638A1 (en) Systems and methods for analyzing the validity or infringment of patent claims
US7493293B2 (en) System and method for extracting entities of interest from text using n-gram models
Galley et al. Improving word sense disambiguation in lexical chaining
Bouma et al. Alpino: Wide-coverage computational analysis of Dutch
US8090724B1 (en) Document analysis and multi-word term detector
Xu et al. Open information extraction with tree kernels
Hong Data extraction for deep web using wordnet
Luotolahti et al. Towards universal web parsebanks
CN102576358A (zh) 单词对取得装置、单词对取得方法及其程序
Eder et al. An open stylometric system based on multilevel text analysis
Zhang et al. Automated multiword expression prediction for grammar engineering
Charton et al. Automatic semantic web annotation of named entities
Siklósi Using embedding models for lexical categorization in morphologically rich languages
Zhang et al. Automated Deep Lexical Acquisition for Robust Open Texts Processing.
Iurshina et al. NILK: entity linking dataset targeting NIL-linking cases
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Chidlovskii Wrapping web information providers by transducer induction
Sarmiento-Calisaya et al. Towards the improvement of natural language requirements descriptions: the C&L tool
Mirroshandel et al. Semi-supervised dependency parsing using lexical affinities
Khalid et al. Reference terms identification of cited articles as topics from citation contexts
Stodden et al. A multi-lingual and cross-domain analysis of features for text simplification
Hosseini Semantic inference from natural language privacy policies and android code
Panasiuk et al. Verification and validation of semantic annotations
CN101310274A (zh) 知识相关性搜索引擎

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090218