CN104572938A

CN104572938A - 一种以查询驱动的Web实体识别方法和系统

Info

Publication number: CN104572938A
Application number: CN201410841948.XA
Authority: CN
Inventors: 姜芳艽
Original assignee: Jiangsu Normal University
Current assignee: Xinyi Shuju Technology Co., Ltd
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2015-04-29
Anticipated expiration: 2034-12-30
Also published as: CN104572938B

Abstract

一种以查询驱动的Web实体识别方法和系统，系统包括：Web用户查询模块，用于在Web数据库查询接口提交查询；Web数据库模块，用于接受用户提交的查询，并返回相应的结果；随机样本数据库，用于采集并保存从Web数据库返回的随机样本数据，将数据发送给实体识别器；实体识别器，用于计算属性的区分能力、动态权重以及实体相似度。采用的方法是：分析Web数据库中各属性之间的相关性，获取Web数据库数据的近似随机样本，计算各属性在实体识别中的区分能力，分析用户提交的查询调整各属性权重大小，计算实体之间的相似度，进行实体识别。

Description

一种以查询驱动的Web实体识别方法和系统

技术领域

本发明涉及Web实体识别技术领域，具体是一种以查询驱动的Web实体识别方法。

背景技术

实体中各属性的区分能力是计算实体之间相似程度的重要因素，如果已知数据库中的全部数据，从属性值的分布特点才有可能推测属性在区分实体方面的能力，但对于Web数据库的数据，只能通过在查询接口提交查询的方式，获取部分数据，这些部分数据能否反映整个数据的全貌，是我们要研究的问题。从数据库中选择随机样本有一些方法，Goodman的估计法是一种无偏的随机样本估计方法，但是由于其产生的方差很高，所以在实际中并不能很好地应用。其他方法的前提均为已知数据库的全部数据，而在Web数据库环境中，这一前提条件在Web数据集成环境中显然是不成立的，因此不再适用。随机漫步的方法通过提交随机查询对Web数据库进行采样，取得了较好的随机样本，但是其得到的样本是数据库级样本，提交的查询多，获取的数据量大，相对于我们方法中的获取属性级随机样本而言，其复杂度很高。获取某一属性随机样本的基本方法是通过在其他属性上提交查询收集该属性上的数据。但是由于属性间存在各种各样的相关性，因此很难保证得到的样本是随机的。由此产生的第一个问题：属性级随机样本难获取。

各属性的属性值分布特点不同，各属性的数据类型也不同，因此，各属性在区分实体方面的能力存在很大的差异。由此产生了第二个问题：属性在区分实体方面的能力难计算。

用户提交查询是不同的，在某一或某属性组上提交查询条件，将直接影响到返回结果在这些属性或属性组合上的属性值分布，且进一步影响与其具有相关性属性的值分布，从而影响到属性在区分实体方面的能力。由此产生了第三个问题：属性在区分实体方面的能力在动态变化，需要动态调整各属性在实体识别中的区分权重。

发明内容

本发明提供了一种以查询驱动的Web实体识别方法，用于Web数据库实体识别，具有查询次数少，结果准确的优点。

本发明采用的技术方案：一种以查询驱动的Web实体识别方法，包括以下步骤：

A：通过Web数据库查询接口提交查询，获取Web数据库中返回的部分数据，分析Web数据库中各属性之间的相关性，得到A_j的弱相关性属性A_i；

B：得到弱相关性属性A_i后，在该属性上向Web数据库提交探测查询，将从属性A_j上收集到的返回结果作为属性A_j的属性级随机样本；

C：分析Web数据库的近似随机样本，计算各属性在实体识别中的区分能力，即权重；

D：分析用户提交的查询，分析查询条件涉及的属性对返回结果各属性的值分布的影响，调整各属性的权重大小；

E：依据属性的权重和数据类型，选择相似度计算函数，计算实体之间的相似度，进行实体识别。

一种以查询驱动的Web实体识别系统，包括：

Web用户查询模块，用于在Web数据库查询接口提交查询；

Web数据库模块，用于接受用户提交的查询，并返回相应的结果；

随机样本数据库，用于采集并保存从Web数据库返回的随机样本数据，将数据发送给实体识别器；

实体识别器，用于计算属性的区分能力、动态权重以及实体相似度。

本发明的有益效果：能够方便地获取某一属性的属性级随机样本，准确计算该属性在区分实体方面的区分能力，并且可以动态调整各属性在实体识别中的区分权重。

附图说明

图1是本发明的以查询驱动的Web实体识别系统的结构图；

图2是本发明的以查询驱动的Web实体识别方法的流程图；

图3是本发明的属性值词频分布示意图；

图4是本发明的属性相关性的例子；

图5是本发明的基于查询的属性权重的动态调整方法的流程图。

具体实施方式

以下是本发明的一个具体实施例，现结合附图作进一步说明。

首先结合图1对本发明的系统进行说明。本发明提供一种以查询驱动的Web实体识别系统，包括：Web用户查询模块、Web数据库模块、随机样本数据库和实体识别器。

通过Web数据库查询接口提交查询，获取Web数据库中的部分数据，分析Web数据库中各属性之间的相关性，属性的相关性表示了不同属性的数据在数量和质量上的相互依赖性，可以通过在属性A_i上提交探测查询，然后用属性A_j上返回词频分布的差异性进行衡量。属性词分布的差异性越大，属性A_j越依赖于属性A_i，属性A_j和A_i之间的属性相关性越强。根据对属性之间的相关性进行排序，得到最不相关的属性A_i后，在该属性上向Web数据库提交一些探测查询，将在属性A_j上收集到的返回结果作为属性A_j的属性级随机样本，并将其存入随机样本数据库。

属性级随机样本是相对于数据库级或表级随机样本而言的，不考虑表中其他属性，只考虑单个属性上的值的分布情况，属性级随机样本是指能够正确反映单个属性上的值的总体分布情况的一部分属性值的集合。之所以通过弱相关性属性A_i来获得属性级随机样本，是因为如果属性A_i是A_j的弱相关性属性，那么在属性A_i上提交查询，得到的在属性A_j上的属性值的分布规律变化很小，近似可以看做A_j属性值的随机样本。反之，如果是强相关性，那么在属性A_i上提交查询，得到的在属性A_j上的属性值的分布变化，将随着查询条件的不同产生很大的差异，不能看做是A_j属性值的随机样本。

实体识别器包括属性的属性区分能力计算、属性的动态权重计算以及实体相似度计算三个部分。属性在实体识别中的区分能力，又叫静态权重，指当具有相同的属性值时，依据这个属性值区分两个实体是否是同一实体的能力。每个属性在实体识别中的区分能力是不同的，比如：如果两本书的“出版社”属性值都是“清华大学出版社”，很难因此确定它们是同一本书；但是如果两本书的“书名”属性值都是“追风筝的人”，那么它们是同一本书的可能性就很大，所以属性“书名”的区分能力要大于属性“出版社”的区分能力。属性区分能力采用信息检索中的信息文档频率的思想来表示，将每个实体视为一个短文本，一个属性值视为一个短语，包含一个属性值的实体越多，则此属性在实体识别中的区分能力越弱。

属性的动态权重是针对某一用户查询，根据其与提交查询条件涉及的属性或属性组的相关性，调整后得到的各属性在实体识别中的区分能力。

实体相似度则依据的动态权重及属性的数据类型，选择合适的相似度函数，计算实体之间的相似度，进行实体识别，用于比较购物或者对查询结果进行去重合并。

结合图1、图2对本发明提供的一种以查询驱动的Web实体识别方法进行说明。

一种以查询驱动的Web实体识别方法，其特征在于，该方法包括以下步骤：

给定一个Web数据库，其查询接口包含n个属性，假设需要获取其中某个属性A_j的属性级随机样本，和该属性在实体识别方面的区分能力以及动态调整该属性在实体识别中的区分权重，首先要得到A_j的弱相关性属性A_i；

其中，步骤A包括以下步骤：

A1：从查询接口选择属性A_j之外的某一属性A，在属性A上向Web数据库提交探测查询，收集和抽取在属性A_j上返回的结果保存在本地；

A2：分析每次返回结果中每个词的出现概率，计算属性A_j与属性A之间的相关性；

A3：重复步骤A1、A2，已经选择过的属性不再选择，直到除了属性A_j之外的所有属性都已经选择过为止；

A4：选择与属性A_j相关性最小的值A_i，即为A_j的弱相关性属性。

步骤A2分析每次返回结果中每个词出现的概率，计算属性A_j与属性A_i之间的相关性，该步骤进一步包括：

A21：统计属性A_j的词频分布，对于给定数据库D，假设属性A_j的属性值所包含的词为w₁,w₂,…,w_m，则A_j上的词频分布为一个矢量如图3所示，其每个分量w_i(w_i∈(w₁,w₂,…,w_m))是该词的词频，在每个属性值中任意词值出现一次的假设前提下，w_i的词频即是由查询σ_A D(A＝w_i)返回的结果数量；

其中，D是指数据库，σ是查询选择符号，A＝w_i是属性A满足的条件；公式σ_A D(A＝w_i)是指从Web数据库中选择满足属性A包含关键词w_i的结果。计算词出现的概率，该词出现的次数占所有出现的词出现次数的比例；在属性A_i上提交不同的查询时，比较在属性A_j上词出现概率的差异，差异越小，属性A_j与属性A_i之间的相关性越弱；

A22：测量矢量之间的分布差异，如果在属性A_i上提交不同的查询Q₁,Q₂,…,Qs，则得到属性A_j上不同结果集S₁,S₂,…,Ss，设S为结果集的并集，S由词w₁,w₂,…,w_k组成，则属性A_j上S与S_j之间的分布差异为：

D (S | | S_{j}) = \frac{1}{k} Σ_{l = 1}^{k} | (prob (A_{j} = w_{l} | S) - prob (A_{j} = w_{l} | S_{j}) |

其中，w_l是S_j中包含的词，prob(A_j＝w_l|S)是A_j＝w_l在S中的概率，prob(A_j＝w_l|S_j)是A_j＝w_l在S_j中的概率，S_j未包含的词w_l则被忽略，词分布的差异性可以由S_j中包含的词w_l反映出来；

A23：计算属性相关性，属性相关性是分布差异的平均值：

Correlation (A_{j}, A_{i}) = \frac{1}{s} Σ_{j = 1}^{s} D (S | | S_{j})

差异性越小，属性A_j越不依赖A_i，属性A_j越与A_i越不相关。反之，则属性A_j与A_i越相关。如图4所示的属性相关性例子，属性Title与属性Author最相关，而与属性Year最不相关。

步骤C计算各属性在实体识别中的区分能力的方法为：

各属性在实体识别中的区分能力采用信息检索中的信息文档频率的思想来表示，将每个实体视为一个短文本，一个属性值视为一个短语；包含一个属性值的实体越多，则此属性在实体识别中的区分能力越弱，计算区分能力的公式为：

w_i＝log(N/rf)

其中，N是Web数据库中所有记录的数量，rf是某个属性中不同属性值的数量，由于无法获取Web数据库的全部数据，这里的N和rf取随机样本数据库中的属性级随机样本进行计算，即N为属性级随机样本中记录的个数，rf为该属性不同属性值的个数。

步骤D调整各属性的权重大小的方法为：

用户查询在某一或某属性组上提交查询条件，将直接影响到返回结果在这些属性或属性组合上的属性值分布，例如，如果用户查询是在Price属性上提交查询条件，返回结果在该属性上的值都一样。不仅如此，查询涉及的属性会进一步影响与其具有相关性属性的值分布，相关性越大的属性，其值分布受到的影响越大，从而影响到在具体查询返回结果中，属性在区分实体方面的能力。因此针对某一用户查询，根据其与提交查询条件涉及的属性或属性组的相关性，用下列公式调整各属性在实体识别中的权重：

w_i＝w_i*Π_j(1-AC(A_j,A_i))

其中，A_j是查询涉及的属性或属性组，AC(A_j,A_i)是非查询属性A_i与每个查询属性A_j之间的相关性。非查询属性A_i与每个查询属性A_j之间的相关性越大，查询结果中属性A_i的属性值分布越偏离原有的属性值分布，属性的权重则在原来的基础上调整得越小；非查询属性A_i与每个查询属性A_j之间的相关性越小，查询结果中属性A_i的属性值分布越靠近原有的属性值分布，属性的权重则在原来的基础上调整得越大，从而动态调整各属性在实体识别中的权重。

步骤E则是依据步骤C和步骤D得出的属性权重，依据属性的数据类型，选择合适的相似度函数，计算实体之间的相似度，进行实体识别，用于比较购物或者对查询结果进行去重合并。

用以下公式计算实体之间的相似度：

S (r_{j}, r_{k}) = \underset{i}{Σ} w_{i} \cdot s (A_{i})

其中，w_i是属性A_i的在实体识别中的权重，S(r_j,r_k)是实体r_j与实体r_k之间的相似度，s(A_i)是实体r_j与实体r_k之间在属性A_i上的相似度。计算s(A_i)的相似度函数可以根据属性的类型，如字符型、数值型、范围型等，在已有的成熟的相似度函数，比如，编辑距离、Q-gram距离、单字符串距离等相似度函数中加以选择。

本方法的意义在于，我们无法看到整个Web数据库的全部数据，只能从一定的查询返回结果合理地推测数据库的分布特征；而且来自不同Web数据库的数据在形式上大相径庭；由于提交的查询涉及的属性不同，返回结果的分布特征也会有较大的变化，上述情况都给实体识别带来相当大的困难。通过此方法，可以通过获取小部分数据，对Web数据库中数据的分布特征进行准确的把握，可以及时调整由于查询涉及属性的不同给属性的实体区分能力带来的影响，从而可以更加准确地对来自不同Web数据库的查询结果进行实体识别，能够应用在集成Web数据库时，进行有效去重和比较购物。

Claims

1.一种以查询驱动的Web实体识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种以查询驱动的Web实体识别方法，其特征在于：步骤A包括以下步骤：

3.根据权利要求2所述的一种以查询驱动的Web实体识别方法，其特征在于：步骤A2进一步包括：

A21：统计属性A_j的词频分布，对于给定数据库D，假设A_j的属性值所包含的词为：w₁,w₂,…,w_m，则A_j上的词频分布为一个矢量其每个分量w_i(w_i∈(w₁,w₂,…,w_m))是该词的词频，在每个属性值中任意词值出现一次的假设前提下，w_i的词频即是由查询σ_A D(A＝w_i)返回的结果数量；

A22：测量矢量之间的分布差异，如果在属性A_i上提交不同的查询Q₁,Q₂,…,Qs，则得到属性A_j上不同结果集S₁,S₂,…,S_j,…Ss，设S为结果集的并集，S由词w₁,w₂,…,w_k组成，S_j是集合S₁,S₂,…,S_j，则属性A_j上S与S_j之间的分布差异为：

D (S | | S_{j}) = \frac{1}{k} Σ_{l = 1}^{k} | (prob (A_{j} = w_{l} | S) - prob (A_{j} = w_{l} | S_{j}) |

其中，w_l是S_j中包含的词，prob(A_j＝w_l|S)是A_j＝w_l在S中的概率，prob(A_j＝w_l|S_j)是A_j＝w_l在S_j中的概率，S_j未包含的词则被忽略，词分布的差异性可以由S_j中包含的词w_l反映出来；

A23：计算属性相关性，属性相关性是分布差异的平均值：

Correlation (A_{j}, A_{i}) = \frac{1}{s} Σ_{j = 1}^{s} D (S | | S_{j}) .

4.根据权利要求1所述的一种以查询驱动的Web实体识别方法，其特征在于：步骤C计算各属性在实体识别中的区分能力的方法为：

各属性在实体识别中的区分能力采用信息检索中的信息文档频率的思想来表示，即：将每个实体视为一个短文本，一个属性值视为一个短语；包含一个属性值的实体越多，则此属性在实体识别中的区分能力越弱，计算区分能力的公式为：

w_i＝log(N/rf)

5.根据权利要求1所述的一种以查询驱动的Web实体识别方法，其特征在于：步骤D调整各属性的权重大小的方法为：

针对用户提交查询条件涉及的属性或属性组的相关性，用下列公式调整各属性在实体识别中的权重：

w_{i} = {w_{i}}^{*} Π_{j} (1 - AC (A_{j}, A_{i}))

其中，A_j是查询涉及的属性或属性组，AC(A_j,A_i)是非查询属性A_i与每个查询属性A_j之间的相关性。

6.根据权利要求1所述的一种以查询驱动的Web实体识别方法，其特征在于：步骤E选择相似度计算函数，计算实体之间的相似度，进行实体识别的方法为：

S (r_{j}, r_{k}) = \underset{i}{Σ} w_{i} \cdot s (A_{i})

其中，w_i是属性A_i的在实体识别中的权重，S(r_j,r_k)是实体r_j与实体r_k之间的相似度，s(A_i)是实体r_j与实体r_k之间在属性A_i上的相似度。计算s(A_i)的相似度函数可以根据属性的类型在已有的成熟的相似度函数中加以选择。

7.一种以查询驱动的Web实体识别系统，其特征在于，包括：

Web用户查询模块，用于在Web数据库查询接口提交查询；