CN104036046B - 基于属性共现模式的Deep Web查询接口模式匹配方法 - Google Patents

基于属性共现模式的Deep Web查询接口模式匹配方法 Download PDF

Info

Publication number
CN104036046B
CN104036046B CN201410311727.1A CN201410311727A CN104036046B CN 104036046 B CN104036046 B CN 104036046B CN 201410311727 A CN201410311727 A CN 201410311727A CN 104036046 B CN104036046 B CN 104036046B
Authority
CN
China
Prior art keywords
matching
properties
attribute
complex
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410311727.1A
Other languages
English (en)
Other versions
CN104036046A (zh
Inventor
冯永
陆维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201410311727.1A priority Critical patent/CN104036046B/zh
Publication of CN104036046A publication Critical patent/CN104036046A/zh
Application granted granted Critical
Publication of CN104036046B publication Critical patent/CN104036046B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于属性共现模式的Deep Web查询接口模式匹配方法,Deep Web查询接口作为获得Web数据库信息的唯一途径,集成问题的首要任务是完成查询接口间的模式匹配。本发明抓住某特定领域属性在各个Deep Web数据源的共现模式,即具有组关系的属性通常会一起出现,以及具有匹配关系的属性几乎不会一起出现的特点,设计了组关系度量和匹配关系度量。同时考虑到匹配得分阈值因依赖于领域而较难确定的特点,为保证算法的灵活性,算法并未设置该阈值。最后,本文利用一种贪心策略,识别出当前具有更高匹配得分和更丰富语义的匹配关系,并采用特定的消除匹配冲突的策略,从而找到某特定领域存在的多分支复杂匹配集。

Description

基于属性共现模式的Deep Web查询接口模式匹配方法
技术领域
本发明涉及计算机领域,Deep Web数据集成的一个模块,即查询接口模式匹配。将数据挖掘中的相关性挖掘技术很好地应用到查询接口模式匹配问题上,同时,将查询接口模式匹配问题抽象成为一种相关性挖掘现象。本发明尤其涉及一种基于属性共现模式的Deep Web查询接口模式匹配方法。
背景技术
一方面,DCM通过负相关度量间接得到的正相关度量mp=1-mn,这里mp经过化简,(下标n表示负相关,下标p表示正相关。f10表示属性Ap出现的情况下Aq不出现的次数,f01类似;f1+表示属性Ap出现的次数,f+1表示属性Aq出现的次数。)
由于两个属性被判断为正相关的,是依据两者通常会一起出现的特点。但等式的前两项并不能描述两属性具有正相关性的含义,从而错误地作为正相关支撑。只有第三项能够更加真实和准确地反映两个属性的正相关强度,即属性Ap出现的情况下,属性Aq同时出现的概率与属性Aq出现的情况下,属性Ap同时出现的概率两者的乘积越大,表示两者的正相关性越强,即Ap和Aq构成组关系的可能性会越高。
另一方面,对于DCM方法中的负相关度量这里0≤mn≤1,mn越接近于1,表示两个属性的负相关性越强。当出现两个属性同时出现的次数f11=0时,则f1+=f10+f11=f10且f+1=f01+f11=f01,导致mn恒等于1。所以凭借这样的mn根本无法辨识两个属性到底是具有真正的负相关性,还是完全无关的情况。
例如:属性Ap和Aq出现的两种情形,其中,Ap、Aq表示任意两个属性的名称。
如图1所示。在图1A中,属性Ap实际上只是一个稀有属性,Ap和Aq很有可能是无关的,但因为存在很高的使得Ap和Aq会被误以为具有匹配关系;而图1B中,Ap和Aq因为频繁地交叉出现,是真正具有组关系的两个属性。对于图1A和1B两种不同的情况,DCM的mn度量却计算出相同的负相关度量值mn=1。所以,DCM的负相关度量mn具有这样的两个缺陷:一是当f11=0时,mn无法辨识两个属性到底是具有真正的负相关性,还是完全无关的情况;二是mn对于稀有属性也有可能给予很高的匹配得分。图1是属性Ap和Aq出现的两种情形。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于属性共现模式的Deep Web查询接口模式匹配方法。
为了实现本发明的上述目的,本发明提供了一种基于属性共现模式的Deep Web查询接口模式匹配方法,其关键在于,包括如下步骤:
步骤1,从每个数据源的查询接口抽取的模式集合S,找到所述模式集合S出现模式频率大于等于阈值Tc的属性集合A;根据属性集合A中每两个属性在所述模式集合S中的一起出现的次数,通过组关系度量公式计算出组得分;组得分大于组关系阈值Tg的两个属性为一个属性组,所有这样的属性组构成一个集合Gp
步骤2,根据步骤1得到的的集合Gp,根据向下闭包性质,找到具有属性个数更多的组关系的集合G;
步骤3,发现的G中的每个潜在的属性组分别作为一个整体加入到步骤1得到的属性集合A中;
步骤4,对于集合A中的所有属性组,根据匹配关系度量计算公式,计算出每两个属性组的匹配得分,匹配得分大于零的所有的匹配,构成一个匹配集合Mp
步骤5,根据步骤4得到匹配集合Mp,根据向下闭包性质,找到具有属性组个数更多的复杂匹配关系的集合M;
步骤6,从复杂匹配关系的集合M中识别出所有真正的复杂匹配是一个不断迭代的过程,每一次迭代,从复杂匹配关系的集合M中,选取一个真正的复杂匹配Mt后,剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突,经过冲突处理的潜在复杂匹配集进入下一轮迭代过程,即选取下一个具有当前最高匹配得分的复杂匹配,迭代过程继续,直至经过冲突处理的复杂匹配关系的集合M为空;
步骤7,输出多分支复杂匹配集合。
上述技术方案的有益效果为:抓住某特定领域属性在各个数据源的共现模式,即具有组关系的属性通常会一起出现,以及具有匹配关系的属性几乎不会一起出现的特点,从整体着眼,同时匹配所有的模式。设计了组关系度量和匹配关系度量。
所述的基于属性共现模式的Deep Web查询接口模式匹配方法,优选的,所述步骤1包括:
步骤1-1,对于所有属于集合A的两个属性Ai,Aj,其中Ai≠Aj,下标i,j为正整数,得出Ai和Aj在查询接口模式集合S中的一起出现的次数f11,即Ai和Aj都出现的接口模式数目,Ai在查询接口模式集合S中出现的次数f1+、Aj在查询接口模式集合S中出现的次数f+1,以及总的接口模式数f++;根据组关系度量rg的计算公式,对于满足频繁属性阈值Tf的属性Ai和Aj,计算出它们的组得分,对于组得分大于组关系阈值Tg的两个属性Ai和Aj,则构成一个属性组Gk,判断其具有组关系,对于找到的所有的属性组,构成一个集合Gp
所述的基于属性共现模式的Deep Web查询接口模式匹配方法,优选的,所述步骤2包括:
步骤2-1,通过组得分计算,得到的只是两两组关系,但为了找到多分支复杂匹配,需要一个能够衡量n个项之间组关系或匹配关系的度量,其中,n>2,它需要满足Apriori性质,即向下闭包的特性,要求一个更大集合关于该度量的值不能高于这个集合的任意一子集关于该度量的值,满足要求的用于衡量n个项之间相关性的度量定义如下,
步骤2-2,根据度量Cmin的特点,对于寻找具有n个属性的组关系,所述item为一个属性名;对于寻找具有n个属性组的匹配关系,所述item为一个属性组,下标i、j为正整数,要发现一个具有属性数更多的组关系集合,只需要探索这个集合的所有两两属性之间是否已具备组关系,根据步骤1得到的两两组关系集合Gp,根据Apriori性质,找到具有属性个数更多的组关系的集合G。
所述的基于属性共现模式的Deep Web查询接口模式匹配方法,优选的,所述步骤3包括:
步骤3-1,将发现的G中的每个潜在的属性组分别作为一个整体加入到步骤1得到的属性集合A中,得到该领域新的属性集合A,A中的每个元素为一个属性组。
所述的基于属性共现模式的Deep Web查询接口模式匹配方法,优选的,所述步骤4包括:
步骤4-1,对于所有属于集合A的两个属性组Gi,Gj,其中Gi≠Gj,得出Gi和Gj在查询接口模式集合S中的一起出现的次数f11,在查询接口模式集合S中Gi出现但Gj不出现的次数f10,在查询接口模式集合S中Gi不出现但Gj出现的次数f01,Gi在查询接口模式集合S中出现的次数f1+、Gj在查询接口模式集合S中出现的次数f+1,其中,对这类属性组出现次数的计算方式为:如果该属性组的任意一个属性出现在某个接口模式中,则该属性组的出现次数加一,因为属性组的每个属性,都部分代表了该属性组的概念或语义;如果该属性组的所有属性都未出现在某个接口模式中,则该属性组的不出现次数加一;
步骤4-2,根据本发明匹配关系度量rm的计算公式,计算出属性组Gi和Gj的匹配得分,对于匹配得分大于零的两个属性组Gi和Gj,则构成一个匹配Mk,判断其具有匹配关系,对于找到的所有的匹配,构成一个匹配集合Mp
所述的基于属性共现模式的Deep Web查询接口模式匹配方法,优选的,所述步骤5包括:
步骤5-1,通过匹配得分计算,得到的只是两两匹配关系,即得到的所有匹配的属性组数都为2,为了找到最终的多分支复杂匹配,同样根据步骤2中的度量Cmin的特点,要发现一个具有属性组的数目更多的复杂匹配关系,只需要探索这个匹配关系中的所有两两属性组之间是否已具备匹配关系,因此,根据步骤4得到的两两匹配关系集合Mp,根据Apriori性质,找到具有属性组个数更多的复杂匹配关系的集合M。
所述的基于属性共现模式的Deep Web查询接口模式匹配方法,优选的,所述步骤6包括:
步骤6-1,对于已经发现的潜在的复杂匹配集M,需要设计一个度量对真正的复杂匹配的排序得分进行计算,具有更高排序得分的复杂匹配优先被选取,满足要求的用于衡量某个潜在复杂匹配Μk的排序得分的度量定义如下:
这里Cmax的含义就是,一个匹配Μk的排序得分的取值就是这个匹配所包含的两两属性组的匹配得分rm的最大值;
步骤6-2,从潜在复杂匹配集中识别出所有真正的复杂匹配是一个不断迭代的过程,在每一迭代过程中,具有最高排序得分Cmax值的复杂匹配被选择放入到最终复杂匹配集Mf中,如果具有最高Cmax值的复杂匹配不止一个,则需要进一步对它们之间的语义进行比较,从中选择出具有更丰富语义的那个匹配放入到最终复杂匹配集Mf,语义的比较可以先选择出具有属性个数最多的匹配作为基准Mt,其它的具有属性集是Mt子集的所有复杂匹配都不具备更丰富的语义,而暂不被考虑,如果存在具有属性集不是Mt子集的复杂匹配则被保留,一起作为基准Mt;最后从所有作为基准的复杂匹配集中任意选取一个,作为具有更丰富语义的匹配放入到最终复杂匹配集Mf
步骤6-3,每次从潜在的复杂匹配集中选取一个真正的复杂匹配Mt后,剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突;需要从这些潜在的匹配中删除掉与当前Mt冲突的部分,冲突的部分是指已经在选取的那个匹配Mt中存在的属性组;同时,在每次删除掉冲突部分之后,需要重新计算这些剩余的潜在的复杂匹配的排序得分;
步骤6-4,因为,根据度量Cmax的定义,构成一个复杂匹配的属性组一旦发生变化,该匹配所对应的排序得分也应该发生变化,经过冲突处理的潜在复杂匹配集进入下一轮迭代过程,即选取下一个具有当前最高匹配得分的复杂匹配,重复步骤6,迭代过程继续,直至经过冲突处理的潜在复杂匹配集M为空。
所述的基于属性共现模式的Deep Web查询接口模式匹配方法,优选的,所述步骤7包括:
步骤7-1,此时,输出的是得到的最终的多分支复杂匹配集合Mf,其中Mf={M1,M2,…,Mm},每个匹配Mj表示为:Gj1=Gj2=……=Gjv,每个Gjk是一个属性集合,该集合内的属性之间具有组关系,匹配Mj的任意两个属性组,Gjk和Gjr之间具有匹配关系。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明抓住某特定领域属性在各个数据源的共现模式,即具有组关系的属性通常会一起出现,以及具有匹配关系的属性几乎不会一起出现的特点,从整体着眼,同时匹配所有的模式。设计了组关系度量和匹配关系度量。同时考虑到匹配得分阈值因依赖于领域而较难确定的特点,为保证方法的灵活性,方法并未设置该阈值。
本发明利用一种贪心策略来识别出具有更高匹配得分和更丰富语义的匹配关系,从而找到某特定领域存在的多分支复杂匹配集。
实验通过将本发明的方法与采用相关性挖掘思想的DCM方法进行比较,本发明利用经过组关系度量和匹配关系度量发现的特定领域的多分支复杂匹配具有更高的准确率和召回率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是属性Ap和Aq出现的两种情形示意图;
图2是本发明基于属性共现模式的Deep Web查询接口模式匹配方法流程框图;
图3a、b、c、d是本发明基于属性共现模式的Deep Web查询接口模式匹配方法在BAMM数据集上的实验结果;
图4a、b、c、d是本发明基于属性共现模式的Deep Web查询接口模式匹配方法在TEL-8数据集上的实验结果。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
Deep Web查询接口作为获得Web数据库信息的唯一途径,有必要对查询接口进行集成。集成问题的首要任务是完成查询接口间的模式匹配。
DCM(Dual Correlation Mining)双重相关性挖掘方法是将查询接口模式匹配问题抽象成为相关性挖掘的一种应用,角度新颖。但经过观察分析,DCM方法仍有以下几点需改进:
DCM通过负相关度量间接得到的正相关度量mp=1-mn,这里mp经过化简,(下标n表示负相关,下标p表示正相关。f10表示属性Ap出现的情况下Aq不出现的次数,f01类似;f1+表示属性Ap出现的次数,f+1表示属性Aq出现的次数。)
由于两个属性被判断为正相关的,是依据两者通常会一起出现的特点。但等式的前两项并不能描述两属性具有正相关性的含义,从而错误地作为正相关支撑。只有第三项能够更加真实和准确地反映两个属性的正相关强度,即属性Ap出现的情况下,属性Aq同时出现的概率与属性Aq出现的情况下,属性Ap同时出现的概率两者的乘积越大,表示两者的正相关性越强,即Ap和Aq构成组关系的可能性会越高。组关系的发现作为匹配关系发现的前提,找到正确的组关系显得尤为重要。所以,改进组关系度量,可以提高组关系发现的准确率,从而在一定程度上改善匹配关系发现的召回率和准确率。
当我们设置匹配得分阈值Tm时,匹配得分小于Tm的所有复杂匹配会被过滤掉。通过这种方式,尽管可以过滤掉一些匹配得分很低的错误匹配,以提高匹配的准确率。但发现复杂匹配是一个不断迭代的过程,本发明考虑到某些能够构成复杂匹配的属性,因为出现次数相对较少,使得对应的复杂匹配的匹配得分比较低,导致其匹配排序得分也很低。设置Tm作为代价,在最后几轮迭代过程中,会忽略掉一些匹配得分较低的正确匹配。一方面,需要认识到重要的一点是,判断一个匹配的正确性比起寻找到一个匹配要容易很多,所以在准确率和召回率中做个权衡,不设置Tm参数,保留那些匹配得分较低的复杂匹配,在一定程度上提高召回率。另一方面,参数Tm是依赖于领域的,较难确定。为保证方法具有一定的灵活性,本发明也选择不设置匹配得分阈值Tm
基于属性共现模式的接口匹配方法,如下分析:
1相关定义
查询接口模式匹配:给定其中一个属于同一领域的输入模式集合S={S1,S2,…,Sn},下标n为正整数,其中每个S表示一个接口模式,它是从一个查询接口抽取的属性集合。模式匹配问题就是找到所有匹配的一个集合M={M1,M2,…,Mm},下标m为正整数,每个匹配M表示为:Gj1=Gj2=……=Gjv,下标v为正整数,每个Gjk是一个属性集合,并且是某个接口模式Si的子集。要求每个匹配M应该表示两个组Gjk和Gjl之间是相同语义的关系。简而言之,查询接口模式匹配就是找到在不同查询接口中属性之间的对应关系。
属性出现模式频率(Tc):某个属性出现的模式数目占所有模式数目的比例。
组关系度量(r g):在相同概念组中的属性之间具有“组关系”。特点是具有组关系的属性通常会一起出现在同一个接口模式中,以构成一个更大更完整的概念。组关系度量用于计算两个属性Ap和Aq之间的组得分,衡量两个属性之间具有组关系的可能性。公式定义如下:
频繁属性阈值(Tf):在组关系发现过程中,为了过滤掉因频繁属性问题错误推导的组关系而设立的阈值。
组关系阈值(Tg):在组关系发现过程中,为了过滤掉具有较低组得分的错误组关系设立的阈值,以找到具有较高组得分的潜在的组关系。
匹配关系度量(rm):彼此语义一致或者相似的属性之间具有“匹配关系”。特点是同义属性之间几乎不会同时出现在同一个接口模式中。匹配关系度量用于计算两个属性组Gi和Gj之间的匹配得分,衡量两个属性组之间具有匹配关系的可能性。因为每个数据源的查询接口都是经过特别设计的,我们认为,在某个特定的领域,一个使用频率相对较高的属性名在不同Web数据源查询接口中表示相同的语义。公式定义如下:
2方法框架
本发明的接口模式匹配方法框架如图2所示。以大量的查询接口模式作为输入,通过对两两属性的组得分的计算,找到潜在的属性组。这里发现的属性组可能最终并不能和其它属性组构成复杂匹配。然后,将发现的每个潜在的属性组都作为一个整体(一个新的概念属性)加入到已有的集成接口模式属性集中,对这类属性组出现次数的计算方式为:如果该属性组的任意一个属性出现在某个接口模式中,则该属性组的出现次数加一。因为属性组的每个属性都部分代表了该属性组的概念或语义。如果该属性组的所有属性都未出现在某个接口模式中,则该属性组的不出现次数加一。
对新的集成接口模式属性集进行两两属性组的匹配得分的计算。匹配得分大于零的所有匹配构成潜在的复杂匹配集。
实际上,我们通过组得分和匹配得分计算,最先发现的都是两两组关系和两两匹配关系,但为了找到多分支复杂匹配,我们需要一个能够衡量n(n>2)个项之间组关系或匹配关系的度量。它需要满足Apriori性质,即向下闭包的特性。要求一个更大集合关于该度量的值不能高于这个集合的任意一子集关于该度量的值。满足要求的用于衡量n(n>2)个项之间相关性的度量定义如下:
根据度量Cmin的特点,对于寻找具有n(n>2)个属性的组关系,所述item为一个属性名;对于寻找具有n(n>2)个属性组的匹配关系,所述item为一个属性组,下标i、j为正整数,要发现一个具有属性数更多的组关系集合,只需要探索这个集合的所有两两属性之间是否已具备组关系;类似地,要发现一个具有更多属性组的匹配关系集合,只需探索这个集合的所有两两属性组之间是否已具备匹配关系。
对于已经发现的潜在的复杂匹配集,需要设计一个度量对真正的复杂匹配的排序得分进行计算。具有更高排序得分的复杂匹配优先被选取。满足要求的用于衡量潜在复杂匹配Mk的排序得分的度量定义如下:
这里Cmax的含义就是,一个匹配Mk的排序得分的取值就是这个匹配所包含的两两属性组的匹配得分rm的最大值。
从潜在复杂匹配集中识别真正复杂匹配是一个不断迭代的过程,在每一迭代过程中,具有最高排序得分Cmax值的复杂匹配被选择放入到最终复杂匹配集,如果具有最高Cmax值的复杂匹配不止一个,则需要进一步对它们之间的语义进行比较,从中选择出具有更丰富语义的那个匹配放入到最终复杂匹配集。语义的比较可以先选择出具有属性个数最多的匹配Mt作为基准,我们认为,其它具有属性集是Mt子集的所有复杂匹配都不具备更丰富的语义,而被遗弃。如果存在具有属性集不是Mt子集的复杂匹配则被保留,一起作为基准Mt。最后从所有作为基准的复杂匹配集中任意选取一个作为具有更丰富语义的匹配放入到最终复杂匹配集。
每次从潜在的复杂匹配集中选取一个真正的复杂匹配后,剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突。需要从这些潜在的匹配中删除掉与其冲突的部分,也就是已经在选取的那个匹配中存在的属性组。同时,在每次删除掉冲突部分之后,需要重新计算这些剩余的潜在的复杂匹配的排序得分。因为,根据度量Cmax的定义,构成一个复杂匹配的属性组一旦发生变化,该匹配所对应的排序得分也应该发生变化。经过冲突处理的潜在复杂匹配集进入下一轮迭代过程,即选取下一个具有当前最高匹配得分的复杂匹配。迭代过程继续,直至经过冲突处理的潜在复杂匹配集为空。
针对一个特定领域内大量的Deep Web查询接口模式集,用本发明基于属性共现模式的查询接口模式匹配方法进行模式匹配,方法的伪代码描述如表1所示:
表1本发明模式匹配方法的伪代码描述
3.1数据集选取
本发明选用UIUC大学提供的BAMM数据集和TEL-8数据集来对本发明的接口模式匹配方法进行测试。BAMM数据集包含来自四个领域的手动抽取的查询接口模式:Automobiles、Books、Movies、MusicRecords。每个接口模式仅包含属性名,结构规范,无冗余信息,因此无需进行数据预处理操作。
TEL-8数据集是Metaquerier研究小组利用Web目录和搜索引擎手工建立的包含8个领域共计447个Deep Web站点的查询接口模式:Airfares、Automobiles、Books、CarRentals、Hotels、Jobs、Movies、MusicRecords。每个接口模式包含了从查询接口页面中抽取出来的以HTML标签形式呈现的一系列属性实体,需要对其进行数据预处理,从中抽取出属性名,并对属性名进行规范化操作,包括词干提取、规范化不规则的名词和动词,以及去除常用的停用词等。并尽可能地保留属性对应的数据类型,比如String型、DateTime型等。还需进行句法合并操作。合理的预处理可以增加属性实体的观察次数,保证同一属性名的描述一致性,从而更有利于组关系和匹配关系的发掘。观察发现,每个领域都会有几个核心的精准的属性名,在大多数查询接口中都会采用这种精准的描述,在小部分接口中会采用这些核心描述的变体。
表2对BAMM数据集和TEL-8数据集的各个领域的查询接口在属性出现模式频率Tc为10%和5%两种情况下的有效属性个数进行了统计。
表2数据集各领域的有效属性个数统计
3.2度量标准
首先,我们用Mh来表示用本发明的方法发现的最终的复杂匹配集,用Mc来表示由领域专家手动收集的正确的匹配集。为了方便比较,我们采用文献中的度量标准,目标准确率和目标召回率,两者都用于评估Mh和Mc的相似程度。给定一个匹配集合M和一个属性Ap,Cls(Ap|M)用于表示属性Ap在匹配集合M中的所有同义属性集合。比如:给定一个匹配集合M={{A1}={A2}={A3,A4}},每个属性的同义属性集合如下:Cls(A1|M)={A2,A3,A4},Cls(A2|M)={A1,A3,A4},Cls(A3|M)={A1,A2},Cls(A4|M)={A1,A2}。
对于每个属性Ap,相对于Mc,它在Mh中的同义属性集的目标准确率和召回率定义如下:
相对于正确的复杂匹配集Mc,通过本发明方法自动发现的复杂匹配集Mh的目标准确率和召回率为匹配中包含的所有属性的目标准确率和目标召回率的加权平均值。每个属性Ap对应的权值设置为其中,Cp表示属性Ap在接口模式集中出现的次数,Ck表示属性Ak在接口模式集中出现的次数。因此Mh相对于Mc的目标准确率PT和目标召回率RT定义如下:
3.3实验结果分析
文献类似,在实验中我们仅仅只考虑那些在输入模式集中,出现频率高于属性出现模式频率阈值Tc的属性。原因是本发明的方法是建立在大量的实验数据基础上,对于那些出现模式频率低于阈值Tc的属性可以视为稀有属性,其少量的出现次数使得这类属性和其它属性的共现模式可能无法观察到,从而不能真实地反应本发明方法的性能。因此,我们仅考虑本发明方法在Tc=10%和Tc=5%两种情况下的实验效果。
同时,通过实验的训练,我们选取能让实验具有较高目标准确率和召回率的合理的组关系阈值Tg=0.75和频繁属性阈值Tf=0.6。
图3的(a)(b)(c)(d)展示了本发明的方法与文献的DCM方法在BAMM数据集上的实验结果的目标准确率和目标召回率统计情况。我们使用文献中提到的最优参数设置Tp=0.85、Td=0.6、Tn=0.7对DCM方法进行实现。可以看出,本发明的方法在BAMM数据集上的性能总是优于DCM方法。
图4展示了本发明的方法和DCM方法在TEL-8数据集上的实验结果。可以看出,比起DCM方法,本发明的方法都具有更高的目标准确率和目标召回率。同时,从图(a)和(c)的比较(或者(b)与(d)的比较)可以看出,随着属性出现模式频率阈值Tc的降低(从10%到5%),方法的性能也会降低,这是符合实际的,原因是Tc降低意味着会有更多出现频率更低的属性被考虑进来,这类属性的共现模式不易被观察到,从而会降低实验的目标准确率和召回率。其中,从图(c)可以看出Hotels和Jobs领域的目标准确率比较低(小于0.3),这是因为Hotels领域的各个数据源的异构性太强,使得该领域集成接口模式属性集中的各个属性的出现频率都比较低,因此,属性之间的共现模式较难观察到。
另外,通过比较图3和图4,可以看出,在BAMM数据集上的实验结果,不管是目标准确率还是目标召回率,都明显优于TEL-8数据集上的实验结果,这是因为BAMM数据集的数据是已经处理好的、无需进行预处理的、规范化的接口模式属性集,而TEL-8数据集上的数据在进行模式匹配过程以前,其预处理过程因人而异,预处理程度的不同使得残留的噪声数据的数量不同,这在一定程度上会影响特定领域属性的共现模式的发掘,从而降低寻找到的最终的复杂匹配集的准确率和召回率。
从图3的(a)(b)观察发现,MusicRecords领域的目标准确率和召回率为零;以及图4的(a)(b)中,Automobiles和MusicRecords领域的目标准确率和召回率也为零。这是因为此时的属性出现频率阈值Tc=10%,由表2可知,此时这三个领域的有效属性个数只有8-11个,而由领域专家发现的这些属性之间存在的真正的匹配也仅有一个,并且是1:1的简单匹配,但DCM方法的负相关度量因为刚好没能正确地评估这个简单匹配的属性之间的相关性,致使发现的最终的复杂匹配都是错误的,才出现了目标准确率和召回率也为零的情况。
除了比较实验结果的目标准确率和目标召回率,我们还统计了本发明的方法和DCM方法在两个数据集的不同领域的接口模式集上的执行时间。我们的实验用Java编程语言实现,并在一台主频为2GHZ、RAM为2G的笔记本上运行。表3展示了方法的实际执行时间,可以看出,本发明的方法在所有领域的执行时间总是少于DCM方法,这一部分是因为匹配关系度量的设置问题,本发明通过设置两个属性组的匹配得分不为零的过滤条件f11=0,可以过滤掉很多潜在的错误的匹配关系,以减少方法在判断这些匹配关系正确与否的时间开销。
表3本发明的方法和DCM方法在执行时间上的比较(seconds)
本发明从整体着眼,同时匹配所有模式,抓住某特定领域的属性在各个数据源的共现模式,即具有组关系的属性通常会一起出现,以及具有匹配关系的属性几乎不会一起出现的特点,利用设计的组关系度量和匹配关系度量,并考虑到方法灵活性,在取消设置匹配得分阈值的条件下,发掘出潜在的组关系和匹配关系,并利用一种贪心策略从中识别出具有更高匹配得分和更丰富语义的匹配关系,从而找到某特定领域存在的多分支复杂匹配集。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (7)

1.一种基于属性共现模式的Deep Web查询接口模式匹配方法,其特征在于,包括如下步骤:
步骤1,从每个数据源的查询接口抽取的模式集合S,找到所述模式集合S出现模式频率大于等于阈值Tc的属性集合A;根据属性集合A中每两个属性在所述模式集合S中的一起出现的次数,通过组关系度量公式计算出组得分;组得分大于组关系阈值Tg的两个属性为一个属性组,所有这样的属性组构成一个集合Gp
步骤2,根据步骤1得到的的集合Gp,根据向下闭包性质,找到具有属性个数更多的组关系的集合G;
步骤3,发现的G中的每个潜在的属性组分别作为一个整体加入到步骤1得到的属性集合A中;
步骤4,对于集合A中的所有属性组,根据匹配关系度量计算公式,计算出每两个属性组的匹配得分,匹配得分大于零的所有的匹配,构成一个匹配集合Mp
所述步骤4包括步骤4-1,步骤4-2:
步骤4-1,对于所有属于集合A的两个属性组Gi,Gj,其中Gi≠Gj,得出Gi和Gj在查询接口模式集合S中的一起出现的次数f11,在查询接口模式集合S中Gi出现但Gj不出现的次数f10,在查询接口模式集合S中Gi不出现但Gj出现的次数f01,Gi在查询接口模式集合S中出现的次数f1+、Gj在查询接口模式集合S中出现的次数f+1,其中,对这类属性组出现次数的计算方式为:如果该属性组的任意一个属性出现在某个接口模式中,则该属性组的出现次数加一,因为属性组的每个属性,都部分代表了该属性组的概念或语义;如果该属性组的所有属性都未出现在某个接口模式中,则该属性组的不出现次数加一;
步骤4-2,根据本发明匹配关系度量rm的计算公式,计算出属性组Gi和Gj的匹配得分,对于匹配得分大于零的两个属性组Gi和Gj,则构成一个匹配Mk,判断其具有匹配关系,对于找到的所有的匹配,构成一个匹配集合Mp
步骤5,根据步骤4得到匹配集合Mp,根据向下闭包性质,找到具有属性组个数更多的复杂匹配关系的集合M;
步骤6,从复杂匹配关系的集合M中识别出所有真正的复杂匹配是一个不断迭代的过程,每一次迭代,从复杂匹配关系的集合M中,选取一个真正的复杂匹配Mt后,剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突,经过冲突处理的潜在复杂匹配集进入下一轮迭代过程,即选取下一个具有当前最高匹配得分的复杂匹配,迭代过程继续,直至经过冲突处理的复杂匹配关系的集合M为空;
步骤7,输出多分支复杂匹配集合。
2.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法,其特征在于,所述步骤1包括:
步骤1-1,对于所有属于集合A的两个属性Ai,Aj,其中Ai≠Aj,下标i,j为正整数,得出Ai和Aj在查询接口模式集合S中的一起出现的次数f11,即Ai和Aj都出现的接口模式数目,Ai在查询接口模式集合S中出现的次数f1+、Aj在查询接口模式集合S中出现的次数f+1,以及总的接口模式数f++;根据组关系度量rg的计算公式,对于满足频繁属性阈值Tf的属性Ai和Aj,计算出它们的组得分,对于组得分大于组关系阈值Tg的两个属性Ai和Aj,则构成一个属性组Gk,判断其具有组关系,对于找到的所有的属性组,构成一个集合Gp
3.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法,其特征在于,所述步骤2包括:
步骤2-1,通过组得分计算,得到的只是两两组关系,但为了找到多分支复杂匹配,需要一个能够衡量n个项之间相关性的度量,其中,n>2,它需要满足Apriori性质,即向下闭包的特性,要求一个更大集合关于该度量的值不能高于这个集合的任意一子集关于该度量的值,满足要求的用于衡量n个项之间相关性的度量定义如下,
C m i n ( { item 1 , itme 2 , ... , item n } , r ) = m i n { r ( item i , item j ) } , ∀ i ≠ j ,
步骤2-2,根据度量Cmin的特点,对于寻找具有n个属性组的匹配关系,所述item为一个属性组,下标i、j为正整数,要发现一个具有属性数更多的组关系集合,只需要探索这个集合的所有两两属性之间是否已具备组关系,根据步骤1得到的两两组关系集合Gp,根据Apriori性质,找到具有属性个数更多的组关系的集合G。
4.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法,其特征在于,所述步骤3包括:
步骤3-1,将发现的G中的每个潜在的属性组分别作为一个整体加入到步骤1得到的属性集合A中,A中的每个元素为一个属性组。
5.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法,其特征在于,所述步骤5包括:
步骤5-1,通过匹配得分计算,得到的只是两两匹配关系,即得到的所有匹配的属性组数都为2,为了找到最终的多分支复杂匹配,同样根据步骤2中的度量Cmin的特点,要发现一个具有属性组的数目更多的复杂匹配关系,只需要探索这个匹配关系中的所有两两属性组之间是否已具备匹配关系,因此,根据步骤4得到的两两匹配关系集合Mp,根据Apriori性质,找到具有属性组个数更多的复杂匹配关系的集合M。
6.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法,其特征在于,所述步骤6包括:
步骤6-1,对于已经发现的潜在的复杂匹配集M,需要设计一个度量对真正的复杂匹配的排序得分进行计算,具有更高排序得分的复杂匹配优先被选取,满足要求的用于衡量某个潜在复杂匹配Μk的排序得分的度量定义如下:
C m a x ( M k , r m ) = m a x { r m ( G k i , G k j ) } , ∀ G k i , G k j ∈ M k a n d i ≠ j ;
这里Cmax的含义就是,一个潜在复杂匹配Μk的排序得分的取值就是这个匹配所包含的两两属性组的匹配得分rm的最大值;
步骤6-2,从潜在复杂匹配集中识别出所有真正的复杂匹配是一个不断迭代的过程,在每一迭代过程中,具有最高排序得分Cmax值的复杂匹配被选择放入到最终复杂匹配集Mf中,如果具有最高Cmax值的复杂匹配不止一个,则需要进一步对它们之间的语义进行比较,从中选择出具有更丰富语义的那个匹配放入到最终复杂匹配集Mf,语义的比较先选择出具有属性个数最多的匹配作为基准复杂匹配集Mt,其它的具有属性集是Mt子集的所有复杂匹配都不具备更丰富的语义,而暂不被考虑,如果存在具有属性集不是Mt子集的复杂匹配则被保留,一起作为基准Mt;最后从所有作为基准的复杂匹配集中任意选取一个,作为具有更丰富语义的匹配放入到最终复杂匹配集Mf
步骤6-3,每次从潜在的复杂匹配集中选取一个真正的最终复杂匹配集Mf后,剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突;需要从这些潜在的匹配中删除掉与当前Mt冲突的部分,冲突的部分是指已经在选取的那个匹配Mt中存在的属性组;同时,在每次删除掉冲突部分之后,需要重新计算这些剩余的潜在的复杂匹配的排序得分;
步骤6-4,因为,根据度量Cmax的定义,构成一个复杂匹配的属性组一旦发生变化,该匹配所对应的排序得分也应该发生变化,经过冲突处理的潜在复杂匹配集进入下一轮迭代过程,即选取下一个具有当前最高匹配得分的复杂匹配,重复步骤6,迭代过程继续,直至经过冲突处理的潜在复杂匹配集M为空。
7.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法,其特征在于,所述步骤7包括:
步骤7-1,此时,输出的是得到的最终复杂匹配集合Mf,其中Mf={M1,M2,…,Mm},每个匹配Mj表示为:Gj1=Gj2=……=Gjv,每个Gjk是一个属性集合,该集合内的属性之间具有组关系,匹配Mj的任意两个属性组,Gjk和Gjr之间具有匹配关系。
CN201410311727.1A 2014-07-02 2014-07-02 基于属性共现模式的Deep Web查询接口模式匹配方法 Expired - Fee Related CN104036046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410311727.1A CN104036046B (zh) 2014-07-02 2014-07-02 基于属性共现模式的Deep Web查询接口模式匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410311727.1A CN104036046B (zh) 2014-07-02 2014-07-02 基于属性共现模式的Deep Web查询接口模式匹配方法

Publications (2)

Publication Number Publication Date
CN104036046A CN104036046A (zh) 2014-09-10
CN104036046B true CN104036046B (zh) 2017-05-03

Family

ID=51466816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410311727.1A Expired - Fee Related CN104036046B (zh) 2014-07-02 2014-07-02 基于属性共现模式的Deep Web查询接口模式匹配方法

Country Status (1)

Country Link
CN (1) CN104036046B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391584B (zh) * 2017-06-22 2020-12-11 中南大学 基于形式概念格的分面搜索方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840432B (zh) * 2010-05-11 2012-07-25 同方知网(北京)技术有限公司 一种基于Deep Web深层动态数据的数据挖掘装置及方法
CN102103636B (zh) * 2011-01-18 2013-08-07 南京信息工程大学 一种面向深层网页的增量信息获取方法

Also Published As

Publication number Publication date
CN104036046A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN103970729B (zh) 一种基于语义类的多主题提取方法
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103399901B (zh) 一种关键词抽取方法
CN103473283B (zh) 一种文本案例匹配方法
CN105302793A (zh) 一种利用计算机自动评价科技文献新颖性的方法
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN106055539B (zh) 姓名消歧的方法和装置
CN106980637A (zh) Sql审核方法和装置
CN101609450A (zh) 基于训练集的网页分类方法
CN103064969A (zh) 自动建立关键词索引表的方法
CN103885934A (zh) 一种专利文献关键短语自动提取方法
CN106294324A (zh) 一种基于自然语言句法分析树的机器学习情感分析器
CN103150381B (zh) 一种高精度汉语谓词识别方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN103853738A (zh) 一种网页信息相关地域的识别方法
CN109960756A (zh) 新闻事件信息归纳方法
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN110569273A (zh) 一种基于相关性排序的专利检索系统及方法
CN101404033A (zh) 本体层级结构的自动生成方法及系统
CN109657070B (zh) 一种终端辅助swot指标体系的构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170503

Termination date: 20180702