CN101000628A

CN101000628A - 错误超链接检测设备及其方法

Info

Publication number: CN101000628A
Application number: CNA2007100013177A
Authority: CN
Inventors: 大岛纪子
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-01-13
Filing date: 2007-01-09
Publication date: 2007-07-18
Anticipated expiration: 2027-01-09
Also published as: US20080172220A1; JP2007188356A; CN100462976C; JP4767694B2; US8359294B2

Abstract

提供了一种能够以高准确性检测超链接语义不一致性的错误超链接检测设备，包括：链接源文本提取单元，用于从链接源的HTML文件中提取文本；链接目的地文本提取单元，用于从链接目的地的HTML文件中提取文本；语素分析单元，用于将提取的文本分解为词；加权单元，用于为语音的每个部分分配权重；一致性比率计算单元，用于计算链接目的地的词中包含链接源的词的比率作为从链接源至链接目的地的一致性比率，并计算链接源的词中包含链接目的地的词的比率作为从链接目的地至链接源的一致性比率；相关度计算单元，用于响应于两个一致性比率来计算指示超链接概率的相关度；以及CSV输出单元，用于以CSV形式输出一致性比率和相关度。

Description

错误超链接检测设备及其方法

技术领域

本发明涉及错误超链接检测设备及其方法，更具体地，涉及用于检测提供给HTML(超文本标记语言)文件的超链接语义不一致性的错误超链接检测设备极其方法。

背景技术

在WWW(万维网)中的以HTML形式描述的大量文档(下文中也称作HTML文件)之间提供有超链接(下文中简单地称作“链接”)。为了提供该链接，在链接源的文档中嵌入链接目的地的文件名称或锚点(anchor)名称(URL：统一资源定位符)。当链接被正确提供给时，web浏览器将响应于对链接文本的点击操作而访问该链接目的地的HTML文件，从而显示该文档。

然而，当错误地提供该链接时，将显示错误，或者将显示完全不相关的文档。前者称作“逻辑不一致性”，在嵌入了开始即不存在或开始时存在但后来消失的文件名称或锚点名称的时候，则发生这种“逻辑不一致性”。同时，后者称作“语义不一致性”，在嵌入了实际上存在但语义上错误的文件名称的时候，则发生这种“语义不一致性”。已普遍并广泛地提供了能够自动检测链接的逻辑不一致性的工具，但尚未提供能够自动检测链接的语义不一致性的工具。然而，已提出了下列思路。

日本未经审查的专利公开(Kokai)No.2004-220193(以下的专利文献1)公开了一种HTML链接检验系统，该系统能够检验实际的HTML站点是否满足HTML站点实现者所意指的具有HTML文件链接的站点配置，并且容易地查证是否正确提供了来自一个对象的链接，所述对象被特别提供用于从一个URL到另一URL的移动。该系统包括站点配置管理装置，用于关于包括多个以超文本语言所创建的HTML文件的网站，预先管理通过web中HTML文件之间的链接的关系；图像链接管理装置，用于关于由网站中使用的预定对象提供的链接，管理链接源和链接目的地的HTML文件的相关信息；链接信息提取装置，用于提取HTML中的链接信息；以及链接检验装置，用于检验图像所提供的链接是否满足所述站点配置管理装置所管理的配置(参考说明书摘要中的解决方案)。

然而，在该系统中，为了检验该链接，必须预先注册HTML站点实现者所意指的具有HTML文件链接的站点配置。

此外，日本未经审查的专利公开(Kokai)No.2004-139304(以下的专利文献2)公开了一种超文本测试设备，其应用于超文本数据库，且自动查找并纠正逻辑不一致的(对应于本发明中使用的“语义不一致性”)链接部分以及针对其的纠正候选(参考说明书摘要中的目的)。信息收集装置从超文本数据库中收集配置超文本的页面信息和链接信息，从而接着将其存储到信息存储单元中。条件确定装置根据信息存储单元将针对每个条目的多条链接信息进行归组，并从该组中提取唯一链接作为链接不一致性。候选计算装置计算纠正候选，其中该纠正候选使得由条件确定装置所提取的唯一链接的链接信息与该组的链接信息相同。纠正反映装置在条件确定装置所检测的链接不一致性部分和候选计算装置所计算的纠正候选的基础上更新超文本数据库。条件确定装置从信息存储单元中提取一个链接，在该链接中，包含于链接源描述中的词没有包含在链接目的地文档的标题、报头和突出的字符串中，并且该条件确定装置向其给出失配计分。此外，条件确定装置将存储于信息存储单元中的链接的链接源描述分割为词。对于如何将链接源描述分割为词，存在多种方法，包括：使用语素分析，当字符类型变化时对其分割，每n个字符进行分割，等等。

该设备仅在从链接源至链接目的地的一个方向上进行检查，并且仅在包含于链接源描述中的词没有包含在链接目的地描述中的时候将其判定为错误。为此，例如，当链接源描述为“People Finder portraitconfiguration”，而链接目的地描述是“People/finder configurationmode”时，不能将其判定为错误。这是因为包含于链接源描述中的词“configuration”也包含在链接目的地描述中。此外，尽管该设备可应用于具有多对多链接关系的大规模目标，但其不可应用于仅具有一对一链接关系的小规模目标，因为不可能对链接源或链接目的地上的多条信息进行归组。

此外，日本未经审查的专利公开(Kokai)No.2005-173671(以下的专利文献3)公开了一种链接诊断系统，该系统自动地检测超文本的链接的逻辑不一致性(对应于本发明中的“语义不一致性”)。链接特征提取装置提取：(A)可以由链接自身获取的链接特征信息，(B)可以在链接和链接目的地的文档数据之间的关系的基础上获取的链接特征信息，或(C)在根据预定条件对链接进行归组时可以获取的链接特征信息，作为指示类似该链接的逻辑(语义)不一致性的链接特征信息。不一致性学习装置通过统计性地计算每个链接特征信息的内容与被判定为不一致的链接的比率之间的关系来寻找判别函数。不一致性确定装置利用未确定链接的链接特征信息以及由不一致性学习装置所计算的判别函数来对确定目标的链接是否是不一致的进行确定。该设备也具有与前述超文本测试设备类似的问题。

[专利文献1]

日本未经审查的专利公开(Kokai)No.2004-220193。

[专利文献2]

日本未经审查的专利公开(Kokai)No.2004-139304。

[专利文献3]

日本未经审查的专利公开(Kokai)No.2005-173671。

发明内容

本发明的目的是提供一种能够检测超链接的语义不一致性的错误超链接检测设备及其方法。

本发明的另一目的是提供一种具有高检测准确性的错误超链接检测设备及其方法。

根据本发明的错误超链接检测设备包括第一提取装置、第二提取装置、语素分析装置、一致性比率计算装置以及相关度计算装置。第一提取装置从超链接源的HTML文件中提取文本。第二提取装置从超链接目的地的HTML文件中提取文本。语素分析装置将由第一和第二提取装置提取的文本分别分解为一个或多个词。一致性比率计算装置根据所述语素分析装置获取的词来计算超链接目的地的词中包含超链接源的词的比率作为第一一致性比率，并计算超链接源的词中包含超链接目的地的词的比率作为第二一致性比率。相关度计算装置响应于由一致性比率计算装置所计算的第一和第二一致性比率来计算指示超链接的概率的相关度。

根据该错误超链接检测设备，因为该检查不仅在从超链接源至超链接目的地的一个方向中进行，而且在从超链接目的地至超链接源的反方向中进行，所以可以以高准确性检测超链接的语义不一致性。

优选地，错误超链接检测设备进一步包括加权装置，用于为语音的每个部分分配权重，以由一致性比率计算装置计算第一和第二一致性比率。

在该情况中，提高了错误超链接的检测准确性。

根据本发明的错误超链接检测方法是一种操作上述设备的方法。根据本发明的错误超链接检测程序产品是一种用于使计算机作为上述每一个装置工作的产品。通过将上述程序产品安装到计算机中可产生上述设备。通过使用上述设备可执行上述方法。上述程序产品用于上述设备的产生以及上述方法的使用。

附图说明

下文中，将参考附图来详细描述本发明的实施方式。在整个附图中，将相同的参考数字给予相同或相应的部件，并且其描述将不再重复。

图1是示出了根据本发明实施方式的错误超链接检测设备的硬件配置的功能框图；

图2是示出了图1所示的错误超链接检测设备的操作方法(错误超链接检测程序的执行过程)的流程图；

图3是示出了图2中链接源文本提取处理细节(子程序)的流程图；

图4是示出了图2中链接目的地文本提取处理细节(子程序)的流程图；

图5是示出了图2中加权处理细节(子程序)的流程图；

图6是示出了图2中从链接源至链接目的地的一致性比率计算处理细节(子程序)的流程图；以及

图7是示出了图2中从链接目的地至链接源的一致性比率计算处理细节(子程序)的流程图。

附图标记说明

10错误超链接检测设备

12链接源文本提取单元

14链接目的地文本提取单元

16语素分析单元

18加权单元

20一致性比率计算单元

22相关度计算单元

24CSV输出单元

26HTML文件

具体实施方式

参考图1，根据本发明实施方式的错误超链接检测设备10包括链接源文本提取单元12、链接目的地文本提取单元14、语素分析单元16、加权单元18、一致性比率计算单元20、相关度计算单元22以及CSV(逗号分隔值)输出单元24。

链接源文本提取单元12从链接源的HTML文件26中提取文本。链接目的地文本提取单元14从链接目的地的HTML文件26中提取文本。语素分析单元16将由链接源文本提取单元12和链接目的地文本提取单元14所提取的文本分别分解为一个或多个词。加权单元18为语音的每个部分分配权重，以由一致性比率计算单元20计算一致性比率。一致性比率计算单元20根据语素分析单元16获取的词来计算链接目的地的词中包含链接源的词的比率作为从链接源至链接目的地的一致性比率，并计算链接源的词中包含链接目的地的词的比率作为从链接目的地至链接源的一致性比率。相关度计算单元22响应于由一致性比率计算单元20所计算的一致性比率来计算指示链接的概率的相关度。CSV输出单元24以CSV形式输出由一致性比率计算单元20计算的一致性比率和由相关度计算单元22计算的相关度。

链接源文本提取单元12、链接目的地文本提取单元14、语素分析单元16、加权单元18、一致性比率计算单元20、相关度计算单元22以及CSV输出单元24由计算机(WWW服务器等)的硬件资源(CPU(中央处理单元)、半导体存储器、硬盘、键盘、鼠标、显示器等)来实现。HTML文件26存储在与此相同的计算机的存储介质(硬盘等)中，或存储在通过互联网或内联网与上述计算机连接的其他计算机的存储介质中。

接下来，将描述错误超链接检测设备10的操作。

参考图2，链接源文本提取单元12从HTML文件26中提取文本作为链接的语义不一致性的检测目标(S1)。具体来说，参考图3，链接源文本提取单元12访问链接源的HTML文件26(S101)，并搜索该HTML文件26以找出链接标签(例如，用于指定<A HREF＝“file001.html”>链接的</A>)(S102)。链接目的地的文件名称(在此例中为“file001.html”)或URL在HREF属性(HREF＝“”)中描述，并且链接文本(在此例中为“specify a link(指定一个链接)”)在<A HREF＝“”>和</A>之间描述。Web浏览器显示链接文本，并响应于对链接文本的点击操作而访问该链接目的地的HTML文件。该链接源文本提取单元12提取在链接标签<A HREF＝“”>和</A>之间找出的链接文本(S103)。

再次参考图2，链接目的地文本提取单元14从链接目的地的HTML文件26中提取文本(S2)。具体来说，参考图4，链接目的地文本提取单元14判别链接源文本提取单元12找出的链接标签是否具有NAME属性(S201)。如果该链接标签具有NAME属性，则该链接在链接目的地的HTML文件26中指定一个指定位置。在此情况中，锚点名称(关键词)(在此例中为“anchor001”)嵌入在“#”之后，例如<A HREF＝“fle001.html#anchor001”>，并且相同的锚点名称嵌入在链接目的地的HTML文件26中的指定位置，例如<ANAME＝“anchor001”>。同时，如果该链接在与链接源的HTML文件相同的HTML文件26(相同页面)中指定该指定位置，那么将省略“#”之前的文件名称，例如<A HREF＝“#anchor001”>。

如果该链接标签不具有NAME属性(在步骤201为否)，那么链接目的地文本提取单元14访问链接目的地的HTML文件26(S202)，并搜索该HTML文件26以找出用于指定标题标签<TITLE>链接的</TITLE>(S203)。标题文本(在此例中为“specification of link(链接规范)”)在<TITLE>和</TITLE>之间进行描述。Web浏览器在标题条上显示该标题文本。

如果存在标题标签(在S204为是)，链接目的地文本提取单元1 4提取在标题标签<TITLE>和</TITLE>之间找出的标题文本(S205)。同时，如果不存在标题标签(在S204为否)，那么链接目的地文本提取单元14搜索链接目的地的HTML文件26以找出指定报头标签<HEAD>链接的方法的解释</HEAD>(S206)。报头文本(在此例中为“explanation of method of specifying link(指定链接的方法的解释)”)在<HEAD>和</HEAD>之间进行描述。该web浏览器不显示报头文本(除标题文本之外)。链接目的地文本提取单元14提取所找出的报头标签<HEAD>和</HEAD>之间的报头文本(S207)。

同时，如果链接标签具有NAME属性(在S201为是)，那么链接目的地文本提取单元14判别该链接是否将HTML文件26中的指定位置指定为与链接源的指定位置相同，即是否忽略了“#”之前的文件名称(S208)。如果该链接将HTML文件26中的指定位置指定为与链接源的指定位置不同(在S208为否)，那么链接目的地文本提取单元14访问链接目的地的HTML文件26(S209)。同时，如果该链接将HTML文件26中的指定位置指定为与链接源的指定位置相同(在S208为是)，那么链接目的地文本提取单元14跳过步骤S209并进行到随后的步骤S210。

链接目的地文本提取单元14搜索与链接目的地的HTML文件相同或不同的HTML文件26，以找出用于指定锚点标签<A NAME＝“anchor001”>链接的</A>(S210)。锚点文本(在此例中为“specification of link(链接规范)”)在<A NAME＝“”>和</A>之间进行描述。链接目的地文本提取单元14提取锚点标签<A NAME＝“”>和</A>之间找出的锚点文本(S211)。

同时，如果不存在锚点文本，那么可以找出在锚点标签之前和之后的预定字节(例如150字节)内的离该锚点标签最近的突出标签或报头标签，从而提取标签之间的文本。如果不存在这种标签，那么搜索可以被停止，因为错误链接的检测是不可能的。

再次参考图2，语素分析单元16将由链接源文本提取单元12提取的链接源的文本(S3)分解为一个或多个词，并将由链接目的地文本提取单元14提取的链接目的地的文本分解为一个或多个词(S4)。在日语中，语音部分被归类为10种，即动词、形容词、形容动词、名词、副词、连体词、连词、感叹词、助动词以及语气词，并且语素分析单元16在这里将动词归类为SA变动词和其他动词。

然后，加权单元28为语音的每个部分设置期望的加权因子(S5)。具体来说，参考图5，加权单元18响应于用户的选择性操作而设置检测模式(S501)。这里，准备了三种类型的检测模式，即(A)正常模式、(B)完全匹配模式以及(C)审验模式。加权单元18判别设置的检测模式(S502)，并根据如下的检测模式来设置加权因子。

(A)正常模式

正常模式对下列情况是有效的，即当待检查的目标量非常大并且没有时间进行精细检查时希望仅检测严重的语义不一致性。在此模式中，仅向作为内容的格(cases of contents)的名词和动词分配点数(points)。然而，不向对内容的情形产生影响的SA变动词分配点数。为此，加权单元18按照如下设置点数，即名词的加权因子＝1，除SA变动词之外的动词的加权因子＝1，而语音其他部分的加权因子＝0(S503)。

(B)完全匹配模式

完全匹配模式对下列情况是有效的，即希望在配置为使得链接源的文本和链接目的地的文本可以彼此完全匹配的站点来检测语义不一致性。在此模式中，设想如果该文本彼此之间并非完全匹配，则发生语义不一致性，因此向语音的所有部分分配相同的点数。为此，加权单元18按照如下设置点数，即语音的所有部分的加权因子＝1(S504)。

(C)审验模式

审验模式对下列情况是有效的，即待检查的目标的配置是未知的，从而希望检测的语义不一致性包括尽可能多的可能的语义不一致性。在此模式中，向作为内容的格的名词和动词(除SA变动词之外)分配较高的点数，而向不作为内容的格但指示所述内容的形容词、副词以及SA变动词分配较低的点数。为此，加权单元18按照如下设置点数，从而使得名词的加权因子＝1，除SA变动词之外的动词的加权因子＝1，形容词的加权因子＝0.2，副词的加权因子＝0.2，SA变动词的加权因子＝0.2，而语音其他部分的加权因子＝0(S505)。

再次参考图2，一致性比率计算单元20计算语素分析单元16获得的链接目的地的词中包含语素分析单元16获得的链接源的词的比率作为从链接源至链接目的地的一致性比率(S6)。

具体来说，参考图6，一致性比率计算单元20通过将预定的基本点数与由加权单元18设置的加权因子相乘，来计算链接源中存在的每个词的分配点数(S601)，并将这些分配点数相加(S602)。

随后，一致性比率计算单元20判别链接源中存在的每个词是否也存在于链接目的地中(S603)。如果链接源中存在的词也存在于链接目的地中(在S603为是)，则其设置链接目的地存在标志＝1(S604)，而如果链接源中存在的词不存在于链接目的地中(在S603为否)，则其设置链接目的地存在标志＝0(S605)。

随后，一致性比率计算单元20通过将链接源中存在的每个词的分配点数与相应的链接目的地存在标志相乘，来计算链接源中存在的每个词的获取点数(S606)，并将这些获取点数相加(S607)。

然后，通过将链接源中存在的词的总获取点数除以链接源中存在的词的总分配点数，而计算从链接源至链接目的地的一致性比率(S608)。

再次参考图2，一致性比率计算单元20以与上述相反的方向计算语素分析单元16获得的链接源的词中包含语素分析单元16获得的链接目的地的词的比率，作为从链接目的地至链接源的一致性比率(S7)。

具体来说，参考图7，一致性比率计算单元20通过将预定的基本点数与由加权单元18设置的加权因子相乘，来计算链接目的地中存在的每个词的分配点数(S701)，并将这些分配点数相加(S702)。

随后，一致性比率计算单元20判别链接目的地中存在的每个词是否也存在于链接源中(S703)。如果链接目的地中存在的词也存在于链接源中(在S703为是)，则其设置链接源存在标志＝1(S704)，而如果链接目的地中存在的词不存在于链接源中(在S703为否)，则其设置链接源存在标志＝0(S705)。

随后，一致性比率计算单元20通过将链接目的地中存在的每个词的分配点数与相应的链接源存在标志相乘，来计算链接目的地中存在的每个词的获取点数(S706)，并将这些获取点数相加(S707)。

然后，通过将链接目的地中存在的词的总获取点数除以链接目的地中存在的词的总分配点数，而计算从链接目的地至链接源的一致性比率(S708)。

现在，在表1至表6中示出了一致性比率的计算例子，其中，从链接源中提取的文本是“PERFORM SEARCH FOR OBTAININGCORRECT RESULT(在日语中为CORRECT RESULT WOOBTAINING FOR NI SEARCH PERFORM)”，而从链接目的地中提取的文本是“SEARCH FOR OBTAINING CORRECT RESULT(在日语中为CORRECT RESULT WO OBTAINING FOR NO SEARCH)”。在此例子中，两个基本点数都设为10。

表1示出了正常模式中从链接源至链接目的地的一致性比率的计算例子。

语素逻辑分析结果	correct	result	“wo”	obtaining	for	“ni”	search	总计	一致性比率
语素逻辑分析结果	correct	result	“wo”	obtaining	for	“ni”	search	总计	一致性比率	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	-	-
基本点数	10	10	10	10	10	10	10	-	-	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	-	-
基本点数	10	10	10	10	10	10	10	-	-	加权因子	0	1	0	1	0	0	1	-	-
分配点数	0	10	0	10	0	0	10	30	-	加权因子	0	1	0	1	0	0	1	-	-
分配点数	0	10	0	10	0	0	10	30	-	链接源存在标志	1	1	1	1	1	0	1	-	-
获取点数	0	10	10	10	0	0	10	30	100％	链接源存在标志	1	1	1	1	1	0	1	-	-

(^*)不包括SA变动词

表1

表2示出了正常模式中从链接目的地至链接源的一致性比率的计算例子。

语素逻辑分析结果	correct	result	“wo”	obtaining	for	“no”	search	总计	一致性比率
语素逻辑分析结果	correct	result	“wo”	obtaining	for	“no”	search	总计	一致性比率	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	-	-
基本点数	10	10	10	10	10	10	10	-	-	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	-	-
基本点数	10	10	10	10	10	10	10	-	-	加权因子	0	1	0	1	0	0	1	-	-
分配点数	0	10	0	10	0	0	10	30	-	加权因子	0	1	0	1	0	0	1	-	-
分配点数	0	10	0	10	0	0	10	30	-	链接源存在标志	1	1	1	1	1	0	1	-	-
获取点数	0	10	10	10	0	0	10	30	100％	链接源存在标志	1	1	1	1	1	0	1	-	-

(^*)不包括SA变动词

表2

表3示出了完全匹配模式中从链接源至链接目的地的一致性比率的计算例子。

语素逻辑分析结果	correct	result	“wo”	obtaining	for	“ni”	search	Perform(”suru”)	总计	一致性比率
语素逻辑分析结果	correct	result	“wo”	obtaining	for	“ni”	search	Perform(”suru”)	总计	一致性比率	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	(^***)	-	-
基本点数	10	10	10	10	10	10	10	10	-	-	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	(^***)	-	-
基本点数	10	10	10	10	10	10	10	10	-	-	加权因子	1	1	1	1	1	1	1	1	-	-
分配点数	10	10	10	10	10	10	10	10	80	-	加权因子	1	1	1	1	1	1	1	1	-	-
分配点数	10	10	10	10	10	10	10	10	80	-	链接源存在标志	1	1	1	1	1	0	1	0	-	-
荻取点数	10	10	10	10	10	0	10	0	60	75％	链接源存在标志	1	1	1	1	1	0	1	0	-	-

(^*)不包括SA变动词

(^***)SA变动词

表3

表4示出了完全匹配模式中从链接目的地至链接源的一致性比率的计算例子。

语素逻辑分析结果	correct	result	“wo”	obtaining	for	“no”	search	总计	一致性比率
语素逻辑分析结果	correct	result	“wo”	obtaining	for	“no”	search	总计	一致性比率	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	-	-
基本点数	10	10	10	10	10	10	10	-	-	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	-	-
基本点数	10	10	10	10	10	10	10	-	-	加权因子	1	1	1	1	1	1	1	-	-
分配点数	0	10	10	10	10	10	10	70	-	加权因子	1	1	1	1	1	1	1	-	-
分配点数	0	10	10	10	10	10	10	70	-	链接源存在标志	1	1	1	1	1	0	1	-	-
获取点数	10	10	10	10	10	0	10	60	86％	链接源存在标志	1	1	1	1	1	0	1	-	-

(^*)不包括SA变动词

表4

表5示出了审验模式中从链接源至链接目的地的一致性比率的计算例子。

语素逻辑分析结果	correct	result	“wo”	obtaining	for	“ni”	search	Perform(suru)	总计	一致性比率
语素逻辑分析结果	correct	result	“wo”	obtaining	for	“ni”	search	Perform(suru)	总计	一致性比率	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	(^***)	-	-
基本点数	10	10	10	10	10	10	10	10	-	-	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	(^***)	-	-
基本点数	10	10	10	10	10	10	10	10	-	-	加权因子	0.2	1	0.1	1	0.1	0.1	1	0.2	-	-
分配点数	2	10	1	10	1	1	10	2	37	-	加权因子	0.2	1	0.1	1	0.1	0.1	1	0.2	-	-
分配点数	2	10	1	10	1	1	10	2	37	-	链接源存在标志	1	1	1	1	1	0	1	0	-	-
获取点数	2	10	1	10	1	0	10	0	47	92％	链接源存在标志	1	1	1	1	1	0	1	0	-	-

(^*)不包括SA变动词

(^***)SA变动词

表5

表6示出了审验模式中从链接目的地至链接源的一致性比率的计算例子。

语素逻辑分析结果	correct	result	“wo”	obtaining	for	“no”	search	总计	一致性比率
语素逻辑分析结果	correct	result	“wo”	obtaining	for	“no”	search	总计	一致性比率	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	-	-
基本点数	10	10	10	10	10	10	10	-	-	语音部分	形容词	名词	后置语气词	动词(^*)	后置语气词	后置语气词	名词	-	-
基本点数	10	10	10	10	10	10	10	-	-	加权因子	0.2	1	0.1	1	0.1	0.1	1	-	-
分配点数	2	10	1	10	1	1	10	35	-	加权因子	0.2	1	0.1	1	0.1	0.1	1	-	-
分配点数	2	10	1	10	1	1	10	35	-	链接源存在标志	1	1	1	1	1	0	1	-	-
获取点数	2	10	1	10	1	0	10	34	97％	链接源存在标志	1	1	1	1	1	0	1	-	-

(^*)不包括SA变动词

表6

再次参考图2，相关度计算单元22响应于由一致性比率计算单元20计算的两个方向上的一致性比率而计算指示链接的概率的相关度(S8)。该相关度可以是用于指示链接被正确提供的概率的索引(index)，并且计算方法并不进行特别限定，但仅需要的是计算代表二者的值，例如在两个方向上计算的一致性比率的算术平均值和几何平均值。此外，通过计算上述三种检测模式中两个方向上的一致性比率来计算六个一致性比率的总计，并且可以预先定义一致性比率和相关度之间的关系，从而使得如果所有六个一致性比率都是100％，那么相关度为100％；如果仅有五个一致性比率是100％，那么相关度为90％；如果仅有四个一致性比率是100％，那么相关度为80％；如果仅有三个一致性比率是100％那么相关度为70％；如果仅有两个一致性比率是100％那么相关度为60％；如果仅有一个一致性比率是100％，那么相关度为50％；如果所有六个一致性比率都是0％那么相关度为0％；除此之外，相关度为10％。

随后，CSV输出单元24以CSV形式输出由一致性比率计算单元20计算的一致性比率以及由相关度计算单元22计算的相关度(S9)。

如上所述，根据依照本发明实施方式的错误超链接检测设备10，可以以高准确性来检测链接的语义不一致性。此外，由于为语音的每个部分分配了权重，因此进一步提升了检测准确性，因为检查不仅在从链接源至链接目的地的一个方向上执行，而且还在从链接目的地到链接源的反方向上执行。

此外，由于准备了三种检测模式，因此可以根据检测的目标的特性来适当地检测链接的语义不一致性，例如将重点放在检测准确性上，将重点放在检测所需时间上等等。

此外，由于不是提取了链接目的地的所有文本，而是仅提取了表示链接目的地中文档的特征的标题文本等等，因此可以缩减检测处理所需的时间。

尽管在上述实施方式中从链接目的地中提取了标题文本、报头文本、锚点文本、字幕文本、突出文本等等，但这些仅供示例，从而需要的是提取表示链接目的地的文档的特征的文本。

此外，尽管在上述实施方式中有三种检测模式，但模式的内容和数量并不具体限定于此。例如，通过仅将名词的加权因子设置为1，并将语音其他部分的加权因子设置为0，那么仅可针对名词进行检查。此外，本发明还可以应用于日语之外的语言。

如上所述，尽管已描述了本发明的实施方式，但前述实施方式仅为执行本发明的示例。因此，本发明并不限于以上描述的实施方式，并且因此，落入本发明的主题的范围之内的前述实施方式的所有适当修改和等同方案可以付诸实施。

Claims

1.一种用于检测超链接逻辑不一致性的错误超链接检测设备，包括：

第一提取装置，用于从超链接源的HTML文件中提取文本；

第二提取装置，用于从超链接目的地的HTML文件中提取文本；

语素分析装置，用于将由所述第一和第二提取装置提取的所述文本分别分解为一个或多个词；

一致性比率计算装置，用于根据所述语素分析装置获取的词，计算所述超链接目的地的词中包含所述超链接源的词的比率作为第一一致性比率，并计算所述超链接源的词中包含所述超链接目的地的词的比率作为第二一致性比率；以及

相关度计算装置，用于响应于由所述一致性比率计算装置所计算的所述第一和第二一致性比率来计算指示所述超链接的概率的相关度。

2.根据权利要求1所述的错误超链接检测设备，进一步包括加权装置，用于为语音的每个部分分配权重，以由所述一致性比率计算装置计算所述第一和第二一致性比率。

3.根据权利要求2所述的错误超链接检测设备，其中，

所述加权装置包括加权因子设置装置，用于为语音的每个部分设置期望的加权因子；以及

所述一致性比率计算装置包括：

用于通过将预定基本点数与由所述加权因子设置装置所设置的加权因子相乘来计算所述超链接源的词的分配点数的装置；

用于通过将预定基本点数与由所述加权因子设置装置所分配的加权因子相乘来计算所述超链接目的地的词的分配点数的装置；

用于如果在所述超链接目的地中存在所述超链接源的词则将链接目的地存在标志设置为1，并且如果在所述超链接目的地中不存在所述超链接源的词则将所述链接目的地存在标志设置为0的装置；

用于如果在所述超链接源中存在所述超链接目的地的词则将链接源存在标志设置为1，并且如果在所述超链接源中不存在所述超链接目的地的词则将所述链接源存在标志设置为0的装置；

用于通过将计算出的所述超链接源的词的分配点数与所述设置的链接目的地存在标志相乘来计算所述超链接源的词的获取点数的装置；

用于通过将计算出的所述超链接目的地的词的分配点数与所述设置的链接源存在标志相乘来计算所述超链接目的地的词的获取点数的装置；

用于通过将计算出的所述超链接源的词的总获取点数除以计算出的所述超链接源的词的总分配点数来计算所述第一一致性比率的装置；以及

用于通过将计算出的所述超链接目的地的词的总获取点数除以计算出的所述超链接目的地的词的总分配点数来计算所述第二一致性比率的装置。

4.根据权利要求3所述的错误超链接检测设备，其中，所述加权因子设置装置将除SA变动词之外的名词和动词的加权因子设置为大于0的值，并将语音的其他部分的加权因子设置为0。

5.根据权利要求3所述的错误超链接检测设备，其中，所述加权因子设置装置将除SA变动词之外的名词和动词的加权因子设置为大于0的第一值，将形容词、副词以及SA变动词的加权因子设置为小于所述第一值但大于0的第二值，并将语音的其他部分的加权因子设置为0。

6.根据权利要求1所述的错误超链接检测设备，其中，所述第一提取装置包括：

用于搜索所述超链接源的HTML文件以找出链接标签的装置；以及

用于提取所述找出的链接标签之间的链接文本的装置。

7.根据权利要求1所述的错误超链接检测设备，其中，所述第二提取装置包括：

用于搜索所述超链接目的地的HTML文件以找出标题标签的装置；以及

用于提取所述找出的标题标签之间的标题文本的装置。

8.根据权利要求7所述的错误超链接检测设备，其中，所述第二提取装置进一步包括：

用于如果不存在标题标签则搜索所述超链接目的地的HTML文件以找出报头标签的装置；以及

用于提取所述找出的报头标签之间的报头文本的装置。

9.根据权利要求7所述的错误超链接检测设备，其中，所述第二提取装置进一步包括：用于在所述超链接在所述HTML文件中指定一个指定位置时提取嵌入在所述指定位置中的锚点标签之间的锚点文本的装置。

10.一种检测超链接逻辑不一致性的错误超链接检测方法，包括步骤：

从超链接源的HTML文件中提取文本；

从超链接目的地的HTML文件中提取文本；

利用语素分析将所述提取的文本分别分解为一个或多个词；

根据语素分析装置获取的词，计算所述超链接目的地的词中包含所述超链接源的词的比率作为第一一致性比率，并计算所述超链接源的词中包含所述超链接目的地的词的比率作为第二一致性比率；以及

响应于所述第一和第二一致性比率来计算指示所述超链接的概率的相关度。

11.根据权利要求10的错误超链接检测方法，进一步包括以下步骤：为语音的每个部分分配权重，以计算所述第一和第二一致性比率。