CN104036046A

CN104036046A - 基于属性共现模式的Deep Web查询接口模式匹配方法

Info

Publication number: CN104036046A
Application number: CN201410311727.1A
Authority: CN
Inventors: 冯永; 陆维
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2014-07-02
Filing date: 2014-07-02
Publication date: 2014-09-10
Anticipated expiration: 2034-07-02
Also published as: CN104036046B

Abstract

本发明公开了一种基于属性共现模式的Deep Web查询接口模式匹配方法，Deep Web查询接口作为获得Web数据库信息的唯一途径，集成问题的首要任务是完成查询接口间的模式匹配。本发明抓住某特定领域属性在各个Deep Web数据源的共现模式，即具有组关系的属性通常会一起出现，以及具有匹配关系的属性几乎不会一起出现的特点，设计了组关系度量和匹配关系度量。同时考虑到匹配得分阈值因依赖于领域而较难确定的特点，为保证算法的灵活性，算法并未设置该阈值。最后，本文利用一种贪心策略，识别出当前具有更高匹配得分和更丰富语义的匹配关系，并采用特定的消除匹配冲突的策略，从而找到某特定领域存在的多分支复杂匹配集。

Description

基于属性共现模式的Deep Web查询接口模式匹配方法

技术领域

本发明涉及计算机领域，Deep Web数据集成的一个模块，即查询接口模式匹配。将数据挖掘中的相关性挖掘技术很好地应用到查询接口模式匹配问题上，同时，将查询接口模式匹配问题抽象成为一种相关性挖掘现象。本发明尤其涉及一种基于属性共现模式的Deep Web查询接口模式匹配方法。

背景技术

一方面，DCM通过负相关度量间接得到的正相关度量m_p＝1-m_n，这里m_p经过化简，(下标n表示负相关，下标p表示正相关。f₁₀表示属性A_p出现的情况下A_q不出现的次数，f₀₁类似；f₁₊表示属性A_p出现的次数,f₊₁表示属性A_q出现的次数。)

\begin{matrix} m_{p} = 1 - \frac{f_{10} \cdot f_{01}}{f_{1 +} \cdot f_{+ 1}} \\ = \frac{(f_{10} + f_{11}) \cdot (f_{01} + f_{11}) - f_{10} \cdot f_{01}}{(f_{10} + f_{11}) \cdot (f_{01} + f_{11})} \\ = \frac{f_{10} \cdot f_{11}}{f_{1 +} \cdot f_{+ 1}} + \frac{f_{11} \cdot f_{01}}{f_{1 +} \cdot f_{+ 1}} + \frac{f_{11} \cdot f_{11}}{f_{1 +} \cdot f_{+ 1}} \end{matrix}

由于两个属性被判断为正相关的，是依据两者通常会一起出现的特点。但等式的前两项和并不能描述两属性具有正相关性的含义，从而错误地作为正相关支撑。只有第三项能够更加真实和准确地反映两个属性的正相关强度，即属性A_p出现的情况下，属性A_q同时出现的概率与属性A_q出现的情况下，属性A_p同时出现的概率两者的乘积越大，表示两者的正相关性越强，即A_p和A_q构成组关系的可能性会越高。

另一方面，对于DCM方法中的负相关度量这里0≤m_n≤1，m_n越接近于1，表示两个属性的负相关性越强。当出现两个属性同时出现的次数f₁₁＝0时，则f₁₊＝f₁₀+f₁₁＝f₁₀且f₊₁＝f₀₁+f₁₁＝f₀₁，导致m_n恒等于1。所以凭借这样的m_n根本无法辨识两个属性到底是具有真正的负相关性，还是完全无关的情况。

例如：属性A_p和A_q出现的两种情形，其中，A_p、A_q表示任意两个属性的名称。

如图1所示。在图1A中，属性A_p实际上只是一个稀有属性，A_p和A_q很有可能是无关的，但因为存在很高的使得A_p和A_q会被误以为具有匹配关系；而图1B中，A_p和A_q因为频繁地交叉出现，是真正具有组关系的两个属性。对于图1A和1B两种不同的情况，DCM的m_n度量却计算出相同的负相关度量值m_n＝1。所以，DCM的负相关度量m_n具有这样的两个缺陷：一是当f₁₁＝0时，m_n无法辨识两个属性到底是具有真正的负相关性，还是完全无关的情况；二是m_n对于稀有属性也有可能给予很高的匹配得分。图1是属性A_p和A_q出现的两种情形。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于属性共现模式的Deep Web查询接口模式匹配方法。

为了实现本发明的上述目的，本发明提供了一种基于属性共现模式的Deep Web查询接口模式匹配方法，其关键在于，包括如下步骤：

步骤1，从每个数据源的查询接口抽取的模式集合S，找到所述模式集合S出现模式频率大于等于阈值T_c的属性集合A；根据属性集合A中每两个属性在所述模式集合S中的一起出现的次数，通过组关系度量公式计算出组得分；组得分大于组关系阈值T_g的两个属性为一个属性组，所有这样的属性组构成一个集合G_p；

步骤2，根据步骤1得到的的集合G_p，根据向下闭包性质，找到具有属性个数更多的组关系的集合G；

步骤3，发现的G中的每个潜在的属性组分别作为一个整体加入到步骤1得到的属性集合A中；

步骤4，对于集合A中的所有属性组，根据匹配关系度量计算公式，计算出每两个属性组的匹配得分，匹配得分大于零的所有的匹配，构成一个匹配集合M_p；

步骤5，根据步骤4得到匹配集合M_p，根据向下闭包性质，找到具有属性组个数更多的复杂匹配关系的集合M；

步骤6，从复杂匹配关系的集合M中识别出所有真正的复杂匹配是一个不断迭代的过程，每一次迭代，从复杂匹配关系的集合M中，选取一个真正的复杂匹配M_t后，剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突，经过冲突处理的潜在复杂匹配集进入下一轮迭代过程，即选取下一个具有当前最高匹配得分的复杂匹配，迭代过程继续，直至经过冲突处理的复杂匹配关系的集合M为空；

步骤7，输出多分支复杂匹配集合。

上述技术方案的有益效果为：抓住某特定领域属性在各个数据源的共现模式，即具有组关系的属性通常会一起出现，以及具有匹配关系的属性几乎不会一起出现的特点，从整体着眼，同时匹配所有的模式。设计了组关系度量和匹配关系度量。

所述的基于属性共现模式的Deep Web查询接口模式匹配方法，优选的，所述步骤1包括：

步骤1-1，对于所有属于集合A的两个属性A_i，A_j，其中A_i≠A_j，下标i，j为正整数，得出A_i和A_j在查询接口模式集合S中的一起出现的次数f₁₁，即A_i和A_j都出现的接口模式数目，A_i在查询接口模式集合S中出现的次数f₁₊、A_j在查询接口模式集合S中出现的次数f₊₁，以及总的接口模式数f₊₊；根据组关系度量r_g的计算公式，对于满足频繁属性阈值T_f的属性A_i和A_j，计算出它们的组得分，对于组得分大于组关系阈值T_g的两个属性A_i和A_j，则构成一个属性组G_k，判断其具有组关系，对于找到的所有的属性组，构成一个集合G_p。

所述的基于属性共现模式的Deep Web查询接口模式匹配方法，优选的，所述步骤2包括：

步骤2-1，通过组得分计算，得到的只是两两组关系，但为了找到多分支复杂匹配，需要一个能够衡量n个项之间组关系或匹配关系的度量，其中，n>2，它需要满足Apriori性质，即向下闭包的特性，要求一个更大集合关于该度量的值不能高于这个集合的任意一子集关于该度量的值，满足要求的用于衡量n个项之间相关性的度量定义如下，

C_{\min} ({{item}_{1}, {itme}_{2}, . . ., {item}_{n}}, r) = \min {r ({item}_{i}, {item}_{j})}, &ForAll; i &NotEqual; j,

步骤2-2，根据度量C_min的特点，对于寻找具有n个属性的组关系，所述item为一个属性名；对于寻找具有n个属性组的匹配关系，所述item为一个属性组，下标i、j为正整数，要发现一个具有属性数更多的组关系集合，只需要探索这个集合的所有两两属性之间是否已具备组关系，根据步骤1得到的两两组关系集合G_p，根据Apriori性质，找到具有属性个数更多的组关系的集合G。

所述的基于属性共现模式的Deep Web查询接口模式匹配方法，优选的，所述步骤3包括：

步骤3-1，将发现的G中的每个潜在的属性组分别作为一个整体加入到步骤1得到的属性集合A中，得到该领域新的属性集合A，A中的每个元素为一个属性组。

所述的基于属性共现模式的Deep Web查询接口模式匹配方法，优选的，所述步骤4包括：

步骤4-1，对于所有属于集合A的两个属性组G_i，G_j，其中G_i≠G_j，得出G_i和G_j在查询接口模式集合S中的一起出现的次数f₁₁，在查询接口模式集合S中G_i出现但G_j不出现的次数f₁₀，在查询接口模式集合S中G_i不出现但G_j出现的次数f₀₁，G_i在查询接口模式集合S中出现的次数f₁₊、G_j在查询接口模式集合S中出现的次数f₊₁，其中，对这类属性组出现次数的计算方式为：如果该属性组的任意一个属性出现在某个接口模式中，则该属性组的出现次数加一，因为属性组的每个属性，都部分代表了该属性组的概念或语义；如果该属性组的所有属性都未出现在某个接口模式中，则该属性组的不出现次数加一；

步骤4-2，根据本发明匹配关系度量r_m的计算公式，计算出属性组G_i和G_j的匹配得分，对于匹配得分大于零的两个属性组G_i和G_j，则构成一个匹配M_k，判断其具有匹配关系，对于找到的所有的匹配，构成一个匹配集合M_p。

所述的基于属性共现模式的Deep Web查询接口模式匹配方法，优选的，所述步骤5包括：

步骤5-1，通过匹配得分计算，得到的只是两两匹配关系，即得到的所有匹配的属性组数都为2，为了找到最终的多分支复杂匹配，同样根据步骤2中的度量C_min的特点，要发现一个具有属性组的数目更多的复杂匹配关系，只需要探索这个匹配关系中的所有两两属性组之间是否已具备匹配关系，因此，根据步骤4得到的两两匹配关系集合M_p，根据Apriori性质，找到具有属性组个数更多的复杂匹配关系的集合M。

所述的基于属性共现模式的Deep Web查询接口模式匹配方法，优选的，所述步骤6包括：

步骤6-1，对于已经发现的潜在的复杂匹配集M，需要设计一个度量对真正的复杂匹配的排序得分进行计算，具有更高排序得分的复杂匹配优先被选取，满足要求的用于衡量某个潜在复杂匹配Μ_k的排序得分的度量定义如下：

C_{\max} (M_{k}, r_{m}) = \max {r_{m} (G_{ki}, G_{kj})}, &ForAll; G_{ki}, G_{kj} &Element; M_{k} and i &NotEqual; j;

这里C_max的含义就是，一个匹配Μ_k的排序得分的取值就是这个匹配所包含的两两属性组的匹配得分r_m的最大值；

步骤6-2，从潜在复杂匹配集中识别出所有真正的复杂匹配是一个不断迭代的过程，在每一迭代过程中，具有最高排序得分C_max值的复杂匹配被选择放入到最终复杂匹配集M_f中，如果具有最高C_max值的复杂匹配不止一个，则需要进一步对它们之间的语义进行比较，从中选择出具有更丰富语义的那个匹配放入到最终复杂匹配集M_f，语义的比较可以先选择出具有属性个数最多的匹配作为基准M_t，其它的具有属性集是M_t子集的所有复杂匹配都不具备更丰富的语义，而暂不被考虑，如果存在具有属性集不是M_t子集的复杂匹配则被保留，一起作为基准M_t；最后从所有作为基准的复杂匹配集中任意选取一个，作为具有更丰富语义的匹配放入到最终复杂匹配集M_f；

步骤6-3，每次从潜在的复杂匹配集中选取一个真正的复杂匹配M_t后，剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突；需要从这些潜在的匹配中删除掉与当前M_t冲突的部分，冲突的部分是指已经在选取的那个匹配M_t中存在的属性组；同时，在每次删除掉冲突部分之后，需要重新计算这些剩余的潜在的复杂匹配的排序得分；

步骤6-4，因为，根据度量C_max的定义，构成一个复杂匹配的属性组一旦发生变化，该匹配所对应的排序得分也应该发生变化，经过冲突处理的潜在复杂匹配集进入下一轮迭代过程，即选取下一个具有当前最高匹配得分的复杂匹配，重复步骤6，迭代过程继续，直至经过冲突处理的潜在复杂匹配集M为空。

所述的基于属性共现模式的Deep Web查询接口模式匹配方法，优选的，所述步骤7包括：

步骤7-1，此时，输出的是得到的最终的多分支复杂匹配集合M_f，其中M_f＝{M₁,M₂,…,M_m}，每个匹配M_j表示为：G_j1＝G_j2＝……＝G_jv，每个G_jk是一个属性集合，该集合内的属性之间具有组关系，匹配M_j的任意两个属性组，G_jk和G_jr之间具有匹配关系。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明抓住某特定领域属性在各个数据源的共现模式，即具有组关系的属性通常会一起出现，以及具有匹配关系的属性几乎不会一起出现的特点，从整体着眼，同时匹配所有的模式。设计了组关系度量和匹配关系度量。同时考虑到匹配得分阈值因依赖于领域而较难确定的特点，为保证方法的灵活性，方法并未设置该阈值。

本发明利用一种贪心策略来识别出具有更高匹配得分和更丰富语义的匹配关系，从而找到某特定领域存在的多分支复杂匹配集。

实验通过将本发明的方法与采用相关性挖掘思想的DCM方法进行比较，本发明利用经过组关系度量和匹配关系度量发现的特定领域的多分支复杂匹配具有更高的准确率和召回率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是属性A_p和A_q出现的两种情形示意图；

图2是本发明基于属性共现模式的Deep Web查询接口模式匹配方法流程框图；

图3a、b、c、d是本发明基于属性共现模式的Deep Web查询接口模式匹配方法在BAMM数据集上的实验结果；

图4a、b、c、d是本发明基于属性共现模式的Deep Web查询接口模式匹配方法在TEL-8数据集上的实验结果。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

Deep Web查询接口作为获得Web数据库信息的唯一途径，有必要对查询接口进行集成。集成问题的首要任务是完成查询接口间的模式匹配。

DCM(Dual Correlation Mining)双重相关性挖掘方法是将查询接口模式匹配问题抽象成为相关性挖掘的一种应用，角度新颖。但经过观察分析，DCM方法仍有以下几点需改进：

DCM通过负相关度量间接得到的正相关度量m_p＝1-m_n，这里m_p经过化简，(下标n表示负相关，下标p表示正相关。f₁₀表示属性A_p出现的情况下A_q不出现的次数，f₀₁类似；f₁₊表示属性A_p出现的次数,f₊₁表示属性A_q出现的次数。)

\begin{matrix} m_{p} = 1 - \frac{f_{10} \cdot f_{01}}{f_{1 +} \cdot f_{+ 1}} \\ = \frac{(f_{10} + f_{11}) \cdot (f_{01} + f_{11}) - f_{10} \cdot f_{01}}{(f_{10} + f_{11}) \cdot (f_{01} + f_{11})} \\ = \frac{f_{10} \cdot f_{11}}{f_{1 +} \cdot f_{+ 1}} + \frac{f_{11} \cdot f_{01}}{f_{1 +} \cdot f_{+ 1}} + \frac{f_{11} \cdot f_{11}}{f_{1 +} \cdot f_{+ 1}} \end{matrix}

由于两个属性被判断为正相关的，是依据两者通常会一起出现的特点。但等式的前两项和并不能描述两属性具有正相关性的含义，从而错误地作为正相关支撑。只有第三项能够更加真实和准确地反映两个属性的正相关强度，即属性A_p出现的情况下，属性A_q同时出现的概率与属性A_q出现的情况下，属性A_p同时出现的概率两者的乘积越大，表示两者的正相关性越强，即A_p和A_q构成组关系的可能性会越高。组关系的发现作为匹配关系发现的前提，找到正确的组关系显得尤为重要。所以，改进组关系度量，可以提高组关系发现的准确率，从而在一定程度上改善匹配关系发现的召回率和准确率。

当我们设置匹配得分阈值T_m时，匹配得分小于T_m的所有复杂匹配会被过滤掉。通过这种方式，尽管可以过滤掉一些匹配得分很低的错误匹配，以提高匹配的准确率。但发现复杂匹配是一个不断迭代的过程，本发明考虑到某些能够构成复杂匹配的属性，因为出现次数相对较少，使得对应的复杂匹配的匹配得分比较低，导致其匹配排序得分也很低。设置T_m作为代价，在最后几轮迭代过程中，会忽略掉一些匹配得分较低的正确匹配。一方面，需要认识到重要的一点是，判断一个匹配的正确性比起寻找到一个匹配要容易很多，所以在准确率和召回率中做个权衡，不设置T_m参数，保留那些匹配得分较低的复杂匹配，在一定程度上提高召回率。另一方面，参数T_m是依赖于领域的，较难确定。为保证方法具有一定的灵活性，本发明也选择不设置匹配得分阈值T_m。

基于属性共现模式的接口匹配方法，如下分析：

1相关定义

查询接口模式匹配：给定其中一个属于同一领域的输入模式集合S＝{S₁,S₂,…,S_n}，下标n为正整数，其中每个S表示一个接口模式，它是从一个查询接口抽取的属性集合。模式匹配问题就是找到所有匹配的一个集合M＝{M₁,M₂,…,M_m}，下标m为正整数，每个匹配M表示为：G_j1＝G_j2＝……＝G_jv，下标v为正整数，每个G_jk是一个属性集合，并且是某个接口模式S_i的子集。要求每个匹配M应该表示两个组G_jk和G_jl之间是相同语义的关系。简而言之，查询接口模式匹配就是找到在不同查询接口中属性之间的对应关系。

属性出现模式频率(T_c)：某个属性出现的模式数目占所有模式数目的比例。

组关系度量(r _g)：在相同概念组中的属性之间具有“组关系”。特点是具有组关系的属性通常会一起出现在同一个接口模式中，以构成一个更大更完整的概念。组关系度量用于计算两个属性A_p和A_q之间的组得分，衡量两个属性之间具有组关系的可能性。公式定义如下：

r_{g} (A_{p}, A_{q}) = \frac{f_{11} \cdot f_{11}}{f_{1 +} \cdot f_{+ 1}}, \frac{f_{11}}{f_{+ +}} < T_{f};

频繁属性阈值(T_f)：在组关系发现过程中，为了过滤掉因频繁属性问题错误推导的组关系而设立的阈值。

组关系阈值(T_g)：在组关系发现过程中，为了过滤掉具有较低组得分的错误组关系设立的阈值，以找到具有较高组得分的潜在的组关系。

匹配关系度量(r_m)：彼此语义一致或者相似的属性之间具有“匹配关系”。特点是同义属性之间几乎不会同时出现在同一个接口模式中。匹配关系度量用于计算两个属性组G_i和G_j之间的匹配得分，衡量两个属性组之间具有匹配关系的可能性。因为每个数据源的查询接口都是经过特别设计的，我们认为，在某个特定的领域，一个使用频率相对较高的属性名在不同Web数据源查询接口中表示相同的语义。公式定义如下：

r_{m} (G_{i}, G_{j}) = \{\begin{matrix} 0, & f_{11} &NotEqual; 0 \\ \frac{f_{10} \cdot f_{01}}{f_{1 +} + f_{+ 1}}, & otherwise \end{matrix};

2方法框架

本发明的接口模式匹配方法框架如图2所示。以大量的查询接口模式作为输入，通过对两两属性的组得分的计算，找到潜在的属性组。这里发现的属性组可能最终并不能和其它属性组构成复杂匹配。然后，将发现的每个潜在的属性组都作为一个整体(一个新的概念属性)加入到已有的集成接口模式属性集中，对这类属性组出现次数的计算方式为：如果该属性组的任意一个属性出现在某个接口模式中，则该属性组的出现次数加一。因为属性组的每个属性都部分代表了该属性组的概念或语义。如果该属性组的所有属性都未出现在某个接口模式中，则该属性组的不出现次数加一。

对新的集成接口模式属性集进行两两属性组的匹配得分的计算。匹配得分大于零的所有匹配构成潜在的复杂匹配集。

实际上，我们通过组得分和匹配得分计算，最先发现的都是两两组关系和两两匹配关系，但为了找到多分支复杂匹配，我们需要一个能够衡量n(n>2)个项之间组关系或匹配关系的度量。它需要满足Apriori性质，即向下闭包的特性。要求一个更大集合关于该度量的值不能高于这个集合的任意一子集关于该度量的值。满足要求的用于衡量n(n>2)个项之间相关性的度量定义如下：

C_{\min} ({{item}_{1}, {item}_{2}, . . ., {item}_{n}}, r) = \min {r ({item}_{i}, {item}_{j})}, &ForAll; i &NotEqual; j

根据度量C_min的特点，对于寻找具有n(n>2)个属性的组关系，所述item为一个属性名；对于寻找具有n(n>2)个属性组的匹配关系，所述item为一个属性组，下标i、j为正整数，要发现一个具有属性数更多的组关系集合，只需要探索这个集合的所有两两属性之间是否已具备组关系；类似地，要发现一个具有更多属性组的匹配关系集合，只需探索这个集合的所有两两属性组之间是否已具备匹配关系。

对于已经发现的潜在的复杂匹配集，需要设计一个度量对真正的复杂匹配的排序得分进行计算。具有更高排序得分的复杂匹配优先被选取。满足要求的用于衡量潜在复杂匹配M_k的排序得分的度量定义如下：

C_{\max} (M_{k}, r_{m}) = \max {r_{m} (G_{ki}, G_{kj})}, &ForAll; G_{ki}, G_{kj} &Element; M_{k} and i &NotEqual; j

这里C_max的含义就是，一个匹配M_k的排序得分的取值就是这个匹配所包含的两两属性组的匹配得分r_m的最大值。

从潜在复杂匹配集中识别真正复杂匹配是一个不断迭代的过程，在每一迭代过程中，具有最高排序得分C_max值的复杂匹配被选择放入到最终复杂匹配集，如果具有最高C_max值的复杂匹配不止一个，则需要进一步对它们之间的语义进行比较，从中选择出具有更丰富语义的那个匹配放入到最终复杂匹配集。语义的比较可以先选择出具有属性个数最多的匹配M_t作为基准，我们认为，其它具有属性集是M_t子集的所有复杂匹配都不具备更丰富的语义，而被遗弃。如果存在具有属性集不是M_t子集的复杂匹配则被保留，一起作为基准M_t。最后从所有作为基准的复杂匹配集中任意选取一个作为具有更丰富语义的匹配放入到最终复杂匹配集。

每次从潜在的复杂匹配集中选取一个真正的复杂匹配后，剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突。需要从这些潜在的匹配中删除掉与其冲突的部分，也就是已经在选取的那个匹配中存在的属性组。同时，在每次删除掉冲突部分之后，需要重新计算这些剩余的潜在的复杂匹配的排序得分。因为，根据度量C_max的定义，构成一个复杂匹配的属性组一旦发生变化，该匹配所对应的排序得分也应该发生变化。经过冲突处理的潜在复杂匹配集进入下一轮迭代过程，即选取下一个具有当前最高匹配得分的复杂匹配。迭代过程继续，直至经过冲突处理的潜在复杂匹配集为空。

针对一个特定领域内大量的Deep Web查询接口模式集，用本发明基于属性共现模式的查询接口模式匹配方法进行模式匹配，方法的伪代码描述如表1所示：

表1本发明模式匹配方法的伪代码描述

3.1数据集选取

本发明选用UIUC大学提供的BAMM数据集和TEL-8数据集来对本发明的接口模式匹配方法进行测试。BAMM数据集包含来自四个领域的手动抽取的查询接口模式：Automobiles、Books、Movies、MusicRecords。每个接口模式仅包含属性名，结构规范，无冗余信息，因此无需进行数据预处理操作。

TEL-8数据集是Metaquerier研究小组利用Web目录和搜索引擎手工建立的包含8个领域共计447个Deep Web站点的查询接口模式：Airfares、Automobiles、Books、CarRentals、Hotels、Jobs、Movies、MusicRecords。每个接口模式包含了从查询接口页面中抽取出来的以HTML标签形式呈现的一系列属性实体，需要对其进行数据预处理，从中抽取出属性名，并对属性名进行规范化操作，包括词干提取、规范化不规则的名词和动词，以及去除常用的停用词等。并尽可能地保留属性对应的数据类型，比如String型、DateTime型等。还需进行句法合并操作。合理的预处理可以增加属性实体的观察次数，保证同一属性名的描述一致性，从而更有利于组关系和匹配关系的发掘。观察发现，每个领域都会有几个核心的精准的属性名，在大多数查询接口中都会采用这种精准的描述，在小部分接口中会采用这些核心描述的变体。

表2对BAMM数据集和TEL-8数据集的各个领域的查询接口在属性出现模式频率T_c为10％和5％两种情况下的有效属性个数进行了统计。

表2数据集各领域的有效属性个数统计

3.2度量标准

首先，我们用M_h来表示用本发明的方法发现的最终的复杂匹配集，用M_c来表示由领域专家手动收集的正确的匹配集。为了方便比较，我们采用文献中的度量标准，目标准确率和目标召回率，两者都用于评估M_h和M_c的相似程度。给定一个匹配集合M和一个属性A_p，Cls(A_p|M)用于表示属性A_p在匹配集合M中的所有同义属性集合。比如：给定一个匹配集合M＝{{A₁}＝{A₂}＝{A₃,A₄}}，每个属性的同义属性集合如下：Cls(A₁|M)＝{A₂,A₃，A₄}，Cls(A₂|M)＝{A₁,A₃,A₄}，Cls(A₃|M)＝{A₁,A₂}，Cls(A₄|M)＝{A₁,A₂}。

对于每个属性A_p，相对于M_c，它在M_h中的同义属性集的目标准确率和召回率定义如下：

P_{A_{p}} (M_{h}, M_{c}) = \frac{| Cls (A_{p} | M_{h}) \cap Cls (A_{p} | M_{c}) |}{| Cls (A_{p} | M_{h}) |};

R_{A_{p}} (M_{h}, M_{c}) = \frac{| Cls (A_{p} | M_{h}) \cap Cls (A_{p} | M_{c}) |}{| Cls (A_{p} | M_{c}) |}

相对于正确的复杂匹配集M_c，通过本发明方法自动发现的复杂匹配集M_h的目标准确率和召回率为匹配中包含的所有属性的目标准确率和目标召回率的加权平均值。每个属性A_p对应的权值设置为其中，C_p表示属性A_p在接口模式集中出现的次数，C_k表示属性A_k在接口模式集中出现的次数。因此M_h相对于M_c的目标准确率P_T和目标召回率R_T定义如下：

P_{T} (M_{h}, M_{c}) = \underset{A_{P}}{Σ} \frac{C_{p}}{Σ_{k = 1}^{n} C_{k}} P_{A_{P}} (M_{h}, M_{c});

R_{T} (M_{h}, M_{c}) = \underset{A_{P}}{Σ} \frac{C_{p}}{Σ_{k = 1}^{n} C_{k}} R_{A_{P}} (M_{h}, M_{c}) .

3.3实验结果分析

文献类似，在实验中我们仅仅只考虑那些在输入模式集中，出现频率高于属性出现模式频率阈值T_c的属性。原因是本发明的方法是建立在大量的实验数据基础上，对于那些出现模式频率低于阈值T_c的属性可以视为稀有属性，其少量的出现次数使得这类属性和其它属性的共现模式可能无法观察到，从而不能真实地反应本发明方法的性能。因此，我们仅考虑本发明方法在T_c＝10％和T_c＝5％两种情况下的实验效果。

同时，通过实验的训练，我们选取能让实验具有较高目标准确率和召回率的合理的组关系阈值T_g＝0.75和频繁属性阈值T_f＝0.6。

图3的(a)(b)(c)(d)展示了本发明的方法与文献的DCM方法在BAMM数据集上的实验结果的目标准确率和目标召回率统计情况。我们使用文献中提到的最优参数设置T_p＝0.85、T_d＝0.6、T_n＝0.7对DCM方法进行实现。可以看出，本发明的方法在BAMM数据集上的性能总是优于DCM方法。

图4展示了本发明的方法和DCM方法在TEL-8数据集上的实验结果。可以看出，比起DCM方法，本发明的方法都具有更高的目标准确率和目标召回率。同时，从图(a)和(c)的比较(或者(b)与(d)的比较)可以看出，随着属性出现模式频率阈值T_c的降低(从10％到5％)，方法的性能也会降低，这是符合实际的，原因是T_c降低意味着会有更多出现频率更低的属性被考虑进来，这类属性的共现模式不易被观察到，从而会降低实验的目标准确率和召回率。其中，从图(c)可以看出Hotels和Jobs领域的目标准确率比较低(小于0.3)，这是因为Hotels领域的各个数据源的异构性太强，使得该领域集成接口模式属性集中的各个属性的出现频率都比较低，因此，属性之间的共现模式较难观察到。

另外，通过比较图3和图4，可以看出，在BAMM数据集上的实验结果，不管是目标准确率还是目标召回率，都明显优于TEL-8数据集上的实验结果，这是因为BAMM数据集的数据是已经处理好的、无需进行预处理的、规范化的接口模式属性集，而TEL-8数据集上的数据在进行模式匹配过程以前，其预处理过程因人而异，预处理程度的不同使得残留的噪声数据的数量不同，这在一定程度上会影响特定领域属性的共现模式的发掘，从而降低寻找到的最终的复杂匹配集的准确率和召回率。

从图3的(a)(b)观察发现，MusicRecords领域的目标准确率和召回率为零；以及图4的(a)(b)中，Automobiles和MusicRecords领域的目标准确率和召回率也为零。这是因为此时的属性出现频率阈值T_c＝10％，由表2可知，此时这三个领域的有效属性个数只有8-11个，而由领域专家发现的这些属性之间存在的真正的匹配也仅有一个，并且是1:1的简单匹配，但DCM方法的负相关度量因为刚好没能正确地评估这个简单匹配的属性之间的相关性，致使发现的最终的复杂匹配都是错误的，才出现了目标准确率和召回率也为零的情况。

除了比较实验结果的目标准确率和目标召回率，我们还统计了本发明的方法和DCM方法在两个数据集的不同领域的接口模式集上的执行时间。我们的实验用Java编程语言实现，并在一台主频为2GHZ、RAM为2G的笔记本上运行。表3展示了方法的实际执行时间，可以看出，本发明的方法在所有领域的执行时间总是少于DCM方法，这一部分是因为匹配关系度量的设置问题，本发明通过设置两个属性组的匹配得分不为零的过滤条件f₁₁＝0，可以过滤掉很多潜在的错误的匹配关系，以减少方法在判断这些匹配关系正确与否的时间开销。

表3本发明的方法和DCM方法在执行时间上的比较(seconds)

本发明从整体着眼，同时匹配所有模式，抓住某特定领域的属性在各个数据源的共现模式，即具有组关系的属性通常会一起出现，以及具有匹配关系的属性几乎不会一起出现的特点，利用设计的组关系度量和匹配关系度量，并考虑到方法灵活性，在取消设置匹配得分阈值的条件下，发掘出潜在的组关系和匹配关系，并利用一种贪心策略从中识别出具有更高匹配得分和更丰富语义的匹配关系，从而找到某特定领域存在的多分支复杂匹配集。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于属性共现模式的Deep Web查询接口模式匹配方法，其特征在于，包括如下步骤：

步骤7，输出多分支复杂匹配集合。

2.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法，其特征在于，所述步骤2包括：

C_{\min} ({{item}_{1}, {itme}_{2}, . . ., {item}_{n}}, r) = \min {r ({item}_{i}, {item}_{j})}, &ForAll; i &NotEqual; j,

4.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法，其特征在于，所述步骤3包括：

5.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法，其特征在于，所述步骤4包括：

6.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法，其特征在于，所述步骤5包括：

7.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法，其特征在于，所述步骤6包括：

C_{\max} (M_{k}, r_{m}) = \max {r_{m} (G_{ki}, G_{kj})}, &ForAll; G_{ki}, G_{kj} &Element; M_{k} and i &NotEqual; j;

8.根据权利要求1所述的基于属性共现模式的Deep Web查询接口模式匹配方法，其特征在于，所述步骤7包括：