CN102637202B

CN102637202B - 一种迭代式概念属性名称自动获取方法和系统

Info

Publication number: CN102637202B
Application number: CN201210068457.7A
Authority: CN
Inventors: 曹存根; 汪平仄
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2012-03-15
Filing date: 2012-03-15
Publication date: 2015-02-11
Anticipated expiration: 2032-03-15
Also published as: CN102637202A

Abstract

本发明公开一种迭代式概念属性名称自动获取方法和系统，其特征在于，所述方法包括如下步骤：步骤1，将需要获取的概念名称，建立属性空间，所述属性空间包含以属性构成的概念名称；步骤2，从属性空间中选择的属性前缀和/或属性后缀，从网页中提取候选属性；步骤3，采用基于相似性的验证模型对候选属性进行验证，通过迭代方式扩充属性集合。

Description

一种迭代式概念属性名称自动获取方法和系统

技术领域

本发明涉及人工智能计算机领域中的大规模知识获取领域，尤其涉及一种迭代式的概念属性名称自动获取方法和系统。

背景技术

任何概念词都有一定的语义。但是概念词仅是一个特殊的术语，其直接表达语义的能力非常弱，因此我们必须借助其他类型的知识进一步表达或者刻画概念词所蕴涵的语义。概念的属性就是一种此类的知识。

一般认为，属性是一种概念内涵的载体。一个属性描述了概念的一个特征或性质；通过属性，我们可以区分不同的概念，发现它们之间的差异。因此，属性具备描述概念和鉴别概念的功能。每个概念都有一组用于鉴别和修饰的属性，这些属性在文本中表现为不同的属性名称。

属性名称是表示属性的专有名词，大多数属性名称都能起到见名知义的作用。我们可以通过获取较常用的概念-属性名称的搭配，给出概念的关键属性集合。有了这个集合，我们就具备描述概念和鉴别概念的能力。另外，属性名称获取也是属性值获取的前一步工作。

为方便理解属性的含义，下面我们给出一个例子：

对地域类的概念“中国”，它有一些属性名称：“人口总数”、“人口数量”、“国土面积”、“GDP”等等。其中“人口总数”和“人口数量”具有相同的语义，它们所表达的那个特定的语义就是“人口总数”和“人口数量”所对应的属性，而“人口总数”和“人口数量”则是那个属性的具体的载体——属性名称。通过给出的这些具体的属性名称，我们就能从属性这个角度去认识概念“中国”，同时也能在这个角度上将“中国”和其他类型的概念(比如植物类的概念“苹果”)区分开来。另外，对“中国”的“国土面积”这个属性名称而言，它有一个属性值：960万平方公里，属性值获取也是一类重要的知识获取，而获取属性值的前提工作是获取概念的属性名称。

在不致混淆的情况下，本发明的下文中，为了简化陈述，我们都直接使用属性来简称属性名称。

中文属性主要包括数量型、定性型、角色型三种类型。目前的属性获取除了耗时耗力地手工获取外，在计算机自动或半自动获取方面，依据语料数据的来源，主要包括基于结构化数据源的提取，如Web查询日志；基于半结构化的Web网页的提取，如从网页表格或表单中提取，从Wikipedia Articles中提取；以及基于多数据源的提取。基于结构化和半结构化数据源的方法因其语料结构规整简短，具有一定的规律性，针对性强，主要采用弱文法和统计的方式进行提取，具有较高的准确率，但由于数据源的规模有限，因此召回率普遍不高。基于多数据源的方法主要是将结构化与非结构数据交叉迭代起来获取，首先从结构化数据中获取准确率较高的结果作为种子属性，然后使用种子属性从非结构化文本中迭代获取更多的属性。这种方法相比单一语料来源，综合考虑了准确率和召回率，但获取方法相对更加复杂，且结果属性的好坏和属性类型过多依赖于种子。

现有技术方法的结果数量一般都在100以内，且偏重用Top N结果的准确率，而忽略了真实属性集合的庞大和多样性。实际上，每种类型的概念，其真实的属性集合一般远远超过了他们获取得到的数量，且属性类型丰富多样，其中很多属性尽管不是很常见，但在某个领域却很重要(比如，对类型“国家”来说，“货币供应量增长率”，“淡水人均拥有量”就是不常见但是分别在经济和环境领域却很重要的属性)，而他们的方法一般无法获取到这种不常见的属性，也就无法满足构建大型知识库的需求。

因此，迫切需要一种概念属性的大规模自动获取方法和系统，从而提高目前属性获取的效率和效果。

发明内容

为解决上述问题，本发明的目的是公开一种迭代式的概念属性名称自动获取方法和系统，是解决上述现有技术的无法迭代获取，召回率不高和类型覆盖不全面的问题，提出了一种从非结构化Web网页中基于前后缀迭代的属性获取方法及系统。现有技术的获取方法只能得到为数不多的属性，而对于每个概念来说，其实际的属性数量却远远超越了他们能获取到的数量，我们的方法能获取到庞大的属性数量，相比现有技术的结果，我们的结果更接近于真实的属性数量；现有技术的方法侧重于属性的获取，而对于获取结果的验证，却不甚重视，我们的方法不仅重视获取，也更重视结果的验证，因此本方法不仅具有较高的召回率，也具有很高的准确率。

非结构化数据源由于结构复杂多样，获取较其他数据源更困难，但它却具有语料开放丰富等优点。

本发明公开一种迭代式概念属性名称自动获取方法，包括如下步骤：

步骤1，将需要获取的概念名称，建立属性空间，所述属性空间包含以属性构成的概念名称；

步骤2，从属性空间中选择属性前缀和/或属性后缀，从网页中提取候选属性；

步骤3，采用基于相似性的验证模型对候选属性进行验证，通过迭代方式扩充属性前缀和/或属性后缀。

所述的迭代式概念属性名称自动获取方法，其特征在于，步骤1还包括如下步骤：

步骤21，属性空间由属性构成；每个概念有一组属性，这些属性构成了此概念的属性空间，表达属性本质的属性元为中心属性元，修饰其它属性元的属性元为修饰性属性元；中心属性元不修饰任何属性元；在一个属性中，除中心属性元以外的属性元都是修饰性属性元；

步骤22，出现在结尾的中心属性元，定义为属性后缀，出现在开头的修饰性属性元，定义为属性前缀。

所述的迭代式概念属性名称自动获取方法，步骤3之后还包括：

步骤4，从候选属性进行验证后，得到正确属性；

步骤5，对正确属性提取新的属性前缀、属性后缀，然后继续从步骤2开始执行。

所述的迭代式概念属性名称自动获取方法，步骤3中扩充属性前缀、属性后缀还包括如下步骤：

步骤31，将得到的正确属性作为种子，加入到集合Seeds中；

步骤32，从Seeds中训练新的后缀，加入到新生产的属性后缀集合SUFnew中；

步骤33，从Seeds中训练新的前缀，加入到新生产的属性前缀集合PREnew中；

步骤34，如果SUFnew为空，且PREnew为空，则获取结束；否则执行步骤35；

步骤35，使用SUFnew从网页中获取概念的候选属性，并赋值给As′，其中As′表示候选属性的集合；

步骤36，验证As′，得到的正确属性赋值给As，并将As加入到属性空间中，其中As表示经过验证后的正确属性的集合；

步骤37，从As中训练新的前缀，加入到PREnew中；

步骤38，使用PREnew从网页中获取概念的候选属性，并赋值给As′；

步骤,39，验证As′，得到的正确属性赋值给As，并将As加入到属性空间属性空间中；

步骤310，清空PREnew；

步骤311，从As中训练新的后缀，加入到SUFnew中；转步骤34。

所述的迭代式概念属性名称自动获取方法，步骤32、步骤311还包括如下步骤：

步骤41，清空SUFnew；

步骤42，从输入参数的第1个属性起，顺序地取出下一个属性；如果输入参数中的属性都取完，则转步骤46；否则，标记取到的属性为A，执行步骤43；

步骤43，得到A的结尾词，标记为属性元AE；

步骤44，如果AE已经被当做后缀使用过，则转步骤42；否则执行步骤45；

步骤45：如果AE在后缀词典中，则将AE加入到SUFnew；否则如果AE在输入参数中作为结尾词的频率大于等于阈值s，也将AE加入到SUFnew；转步骤42；

步骤46：返回SUFnew。

所述的迭代式概念属性名称自动获取方法，步骤33、步骤37还包括如下步骤：

步骤51，清空PREnew；

步骤52，从输入参数Input的第1个属性起，顺序地取出下一个属性；如果Input中的属性都取完，则转步骤56.否则，标记取到的属性为A，执行步骤53；

步骤53，得到A的开头词，标记为AE；

步骤54，如果AE已经被当做前缀使用过，则转步骤52；否则执行步骤55；

步骤55，如果AE在前缀词典中，则将AE加入到PREnew；否则如果AE在输入参数中作为开头词的频率大于等于阈值s，也将AE加入到PREnew；转步骤52；

步骤56，返回PREnew。

所述的迭代式概念属性名称自动获取方法，步骤35还包括如下步骤：

步骤61，从SUFnew的第1个属性后缀起，所述SUFnew中为属性后缀，顺序地取出下一个属性后缀；如果SUFnew中的属性后缀都取完，则转步骤64；否则，标记取到的属性后缀为SUF，执行步骤62；

步骤62，从基于后缀的获取模式库中提取模式，生成一组搜索引擎支持的模式，使用这些模式，自动地依次从搜索引擎中寻找，得到获取语料Corpus；

步骤63，从Corpus中提取候选属性，将这些候选属性加入到As′中；转步骤61；

步骤64，返回As′。

所述的迭代式概念属性名称自动获取方法，步骤38还包括如下步骤：

步骤71，从PREnew的第1个属性前缀起，其中PREnew中为属性前缀，顺序地取出下一个属性前缀；如果PREnew中的属性前缀都取完，则转步骤74.否则，标记取到的属性前缀为PRE，执行步骤72；

步骤72，从基于前缀的获取模式库中提取模式，生成一组搜索引擎支持的模式，使用这些模式，自动地依次从搜索引擎中寻找，得到获取语料Corpus；

步骤73，从Corpus中提取候选属性，将这些候选属性加入到As′中，转步骤71；

步骤74，返回As′。

所述的迭代式概念属性名称自动获取方法，步骤36、步骤39还包括如下步骤：

步骤81，对候选属性As'进行预处理，得到As″；所述As″是经过预处理以后，得到的候选属性集合；

步骤82，对As″进行验证，得到验证后的正确属性As。

所述的迭代式概念属性名称自动获取方法，步骤3中基于相似性的验证模型还包括如下步骤：

步骤91，在概念的属性空间中，如果在属性空间中两个属性元AE₁和AE₂频繁被相同的属性元所依存，那么AE₁,AE₂之间的相似度较高；反之，则相似度越低；

步骤92，在概念的属性空间中，如果在属性空间中两个属性元AE₁和AE₂频繁修饰相同的属性元，那么AE₁和AE₂之间的相似度较高；反之，则相似度越低；

步骤93，在属性元相似度基础上，以依存对相似度作为属性元依存对之间相似程度的定量表示。

所述的迭代式概念属性名称自动获取方法，步骤93还包括如下步骤：

步骤94，对于与属性A有相似关系的A'，若A中的依存对P能在A'中找到相似的依存对P'，则构造从P到P'的映射，称这个过程为属性对齐；

步骤95，判断正确属性的强弱程度，使用定量指标属性置信度；

步骤96，由A'推导出A的属性置信度D(A'→A)。

所述的迭代式概念属性名称自动获取方法，步骤96还包括如下步骤：

步骤97，生成属性置信度1:D₁(A)＝D(A_i→A)，其中i＝argmax_iSim(A_i,A)；

步骤98，生成依存对的置信度1：D₁(P)＝D(A_i→P)；

步骤99，生成属性置信度2:D₂(A)＝argmax_iD(A_i→A)；

步骤910，生成依存对的置信度2：D₂(P)＝argmax_iD(A_i→P)；

步骤911，生成属性置信度3：其中，t为划分个数；

加权系数SimPair(A_i,A)表示A_i与A相似对的个数；

Pair(A)表示A中依存对的数量；选择t最小化原则进行划分；同时，若t最小时存在多个划分，选择D₃(A)最大化进行划分。

所述的迭代式概念属性名称自动获取方法，步骤82还包括如下步骤：

步骤121，将Seeds中的所有种子属性的置信度D标记为1；

步骤122，将Seeds和候选属性As″加入到集合T；

步骤123，为T构造属性空间图G；

步骤124，从与Seeds相邻的候选属性开始，对所述图G做广度优先搜索，计算As″中所有候选属性的置信度D。

所述的迭代式概念属性名称自动获取方法，步骤123还包括如下步骤：

步骤131，初始化所述图G为空；

步骤132，从T的第1个属性起，顺序地取出下一个属性。如果T中的属性都取完，则结束步骤123；否则，标记取到的属性为A，执行步骤133；

步骤133，在T中，从A的下一个属性起，依次顺序地向下取下一个属性。如果已经取不到属性，则转步骤132；否则标记当前取到的属性为A'，执行步骤134；

步骤134，如果G中不存在节点A，则在G中为A增加一个节点，并对A做属性元分解和依存关系解析；

步骤135，如果G中不存在节点A'，则在G中为A'增加一个节点，并对A'做属性元分解和依存关系解析；

步骤136，如果A和A'相似，则构造从A到A'的无向边；转步骤132。

所述的迭代式概念属性名称自动获取方法，步骤123还包括：

步骤141：初始化G为空；

步骤142：从T的第1个属性起，顺序地取出下一个属性；如果T中的属性都取完，则结束步骤123；否则，标记取到的属性为A，执行步骤143；

步骤143：在T中，从A的下一个属性起，依次顺序地向下取下一个属性。如果已经取不到属性，则转步骤142；否则标记当前取到的属性为A'，执行步骤144；

步骤144：如果G中不存在节点A，则在G中为A增加一个节点，并对A做属性元分解和依存关系解析；

步骤145：从A的第1个依存对起，顺序地取出下一个依存对；如果A中的依存对都取完，则转步骤147；否则，标记取到的依存对为Pair，执行步骤146；

步骤146：如果G中存在Pair，则构造从Pair到A的无向边；否则，在Table1中查找Pair的2个属性元的位置概率，如果找不到，则计算并存入到Table1中；如果这两个概率都大于阈值s，则在G中为Pair增加一个节点，并置Pair的置信度为ASS，构造从Pair到A的无向边；

步骤147：如果G中不存在节点A'，则在G中为A'增加一个节点，并对A'做属性元分解和依存关系解析；

步骤148：从A'的第1个依存对起，顺序地取出下一个依存对；如果A'中的依存对都取完，则转步骤1410；否则，标记取到的依存对为P，执行步骤149；

步骤149：如果G中存在Pair，则构造从Pair到A'的无向边；否则，在Table1中查找Pair的2个属性元的位置概率，如果找不到，则计算并存入到Table1中；如果这两个概率都大于阈值s，则在G中为Pair增加一个节点，并置Pair的置信度为ASS，构造从Pair到A'的无向边；

步骤1410：如果A和A'相似，则构造从A到A'的无向边；转步骤142。

所述的迭代式概念属性名称自动获取方法，步骤3中对于候选属性进行验证还包括：

步骤151，对于出现在属性中的子序列，如果子序列是属性依存树上的二元依存关系，则子序列为属性元序列；

步骤152，属性元序列的个数为其中N为属性元属性的个数。

所述的迭代式概念属性名称自动获取方法，其特征在于，步骤152还包括：

步骤161，出现在属性中的子序列，如果子序列对应于属性的属性元依存树上的一棵子树，则子序列为前向属性元序列；子序列分解为：{S₁,S₂,...S_n,AE}，其中，S为子序列，n为正整数，{S₁,S₂,...S_n}对应于以属性元AE为父节点；

其前向属性元序列的个数其中F为前向属性元序列，N为属性元属性的个数；

步骤162，对属性的属性元子序列，如果子序列包含中心属性元，则子序列为后向属性元序列是从属性的依存树中，任意属性元到根节点的路径集合构成的序列；

其后向属性元序列的个数f_B(N)∈[N-1,2^N-1-1]，其中B为后向属性元序列，N为属性元属性的个数。

所述的迭代式概念属性名称自动获取方法，步骤162之后还包括：

步骤171，生成属性元序列置信度1：D₁(S)＝D(S_i→S)，其中i＝argmax_iSim(S_i,S)；

步骤172，生成属性元序列置信度2：D₂(S)＝argmax_iD(S_i→S)。

所述的迭代式概念属性名称自动获取方法，步骤161还包括：

前向属性元序列计算其置信度D(S)的步骤为：

步骤181：如果子序列只有两个属性元，则能够直接计算D(S)，然后转步骤1812；否则，执行步骤182；

步骤182：置D(S)为0；

假设子序列有k个属性元，其中k>2；子序列对应的依存树的根为r(S)，且依存树的根的子树分别为C₁，C₂，…C_n；其中，n为正整数；

步骤183：置i＝1；

步骤184：如果i大于n，则转步骤1812；否则执行步骤185；

步骤185：找到一个最大值t，使得属性元序列在Table2中存在相似的序列，如果存在t，则在Table2找到最相似的序列，标记为AES1，转步骤186；否则如果不存在t，则转步骤188；

步骤186：使用AES1计算的置信度，标记其为e，将该值存储在Table2中，计算将结果累加到D(S)上；

步骤187：置i＝i+t+1；转步骤184。

步骤188：调用前向属性元序列递归的计算AES(C_i)和AES(C_i，r(S))的置信度值，令其分别为p₁和p₂，将其存储在Table2中；

步骤189：计算将其结果作为序列D(AES(C_i，r(S)))的置信度，并将它存储在Table2中；

步骤1810：计算将结果累加到D(S)上；

步骤1811：置i＝i+1；转步骤184；

步骤1812：将D(S)作为S的置信度，将其存储在Table2中；返回D(S)；

在前向属性元序列的子步骤中，

和为加权系数，为折减系数；

r(C_i)表示(C_i)对应的依存树的根节点；

若AES(C_i,r(S))的置信度的值为且AES(C_i,r(S))在子序列中的依存对中占的比重为则AES(C_i,r(S))对子序列的置信度值贡献为

\frac{| c_{i} |}{k - 1} \cdot p_{1} \cdot p_{2} \cdot \frac{| c_{i} | - 1}{| c_{i} |} = \frac{| c_{i} | - 1}{k - 1} \cdot p_{1} \cdot p_{2} .

所述的迭代式概念属性名称自动获取方法，步骤162还包括：

对属性元子序列S，令属性元子序列的属性元个数为N，其中N为正整数，采用后向属性元序列计算其置信度D(S)的步骤为：

步骤191：置k＝N；

步骤192：如果k小于2，则转步骤196；否则，执行步骤193；

步骤193：为子序列找到一个长度为k的子序列S₀，保证这个子序列在Table2中存在相似的序列；如果子序列存在这样的子序列S₀，则继续在Table2找到与S₀那个最相似的序列，标记为AES1，转步骤194；否则如果找不到S₀，则转步骤195；

步骤194：使用AES1计算S₀的置信度，标记其为d₀,将其存储在Table2中；转步骤196；

步骤195：置k＝k-1；转步骤192；

步骤196：为剩下的属性元集合(S-S₀)，找到一个最大子集保证M中得每个属性元在S₀中都能找到有依存关系的属性元。那么M和(S-S₀)构成了|M|棵依存子树{S₁,S₂,…S_|M|}，调用后向属性元序列迭代的计算这些子树对应属性元序列的置信度，令其为：{d₁,d₂,…d_|M|}；

步骤197：计算将结果作为子序列的置信度，赋值给D(S)；将D(S)存储在Table2中，返回D(S)；

在后向属性元序列的子步骤中，

是加权系数，

在|M|+1个属性元序列之间语义关系较弱，在计算子序列的置信度时，将子树的置信度加权求和。

本发明公开一种迭代式概念属性名称自动获取系统，包括：

建立属性空间模块，用于将需要获取的概念名称，建立属性空间，所述属性空间包含以属性构成的概念名称；

属性前后缀模块，用于从属性空间中选择属性前缀和/或属性后缀，从网页中提取候选属性；

扩充属性模块，用于采用基于相似性的验证模型对候选属性进行验证，通过迭代方式扩充属性前缀和/或属性后缀。

所述的迭代式概念属性名称自动获取系统，建立属性空间模块还包括：

属性元模块，用于属性空间由属性构成；每个概念有一组属性，这些属性构成了此概念的属性空间，表达属性本质的属性元为中心属性元，修饰其它属性元的属性元为修饰性属性元；中心属性元不修饰任何属性元；在一个属性中，除中心属性元以外的属性元都是修饰性属性元；

属性元定义模块，用于出现在结尾的中心属性元，定义为属性后缀，出现在开头的修饰性属性元，定义为属性前缀。

所述的迭代式概念属性名称自动获取方法，还包括：

正确属性模块，用于从候选属性进行验证后，得到正确属性；

前后缀提取模块，用于对正确属性提取新的属性前缀、属性后缀，然后继续从属性前后缀模块开始执行。

所述的迭代式概念属性名称自动获取系统，扩充属性模块还包括：

建立种子模块，用于将得到的正确属性作为种子，加入到集合Seeds中；

种子中训练后缀模块，用于从Seeds中训练新的后缀，加入到新生产的属性后缀集合SUFnew中；

种子中训练前缀模块，用于从Seeds中训练新的前缀，加入到新生产的属性前缀集合PREnew中；

获取结束模块，用于如果SUFnew为空，且PREnew为空，则获取结束；

获取后缀候选属性模块，用于使用SUFnew从网页中获取概念的候选属性，并加入到As′中，其中As′表示候选属性的集合；

正确属性赋值模块，用于验证As′，得到的正确属性赋值给As，并将As加入到属性空间中，其中As表示经过验证后的正确属性的集合；

正确属性中训练前缀模块，用于从As中训练新的前缀，加入到PREnew中；

获取前缀候选属性模块，用于使用PREnew从网页中获取概念的候选属性，并加入到As′中；

清空前缀模块，用于清空PREnew；

正确属性中训练后缀模块，用于从As中训练新的后缀，加入到SUFnew中。

所述的迭代式概念属性名称自动获取系统，种子中训练后缀模块、正确属性中训练后缀模块，还包括：

训练后缀模块，用于清空SUFnew；从输入参数的第1个属性起，顺序地取出下一个属性；如果输入参数中的属性都取完，则返回SUFnew.否则，标记取到的属性为A，得到A的结尾词，标记为属性元AE；得到A的结尾词，标记为属性元AE；判断AE是否已经被当做后缀使用过；如果AE在后缀词典中，则将AE加入到SUFnew；否则如果AE在输入参数中作为结尾词的频率大于等于阈值s，也将AE加入到SUFnew；返回SUFnew。

所述的迭代式概念属性名称自动获取系统，种子中训练前缀模块、正确属性中训练前缀模块还包括：

训练前缀模块，用于清空PREnew；从输入参数的第1个属性起，顺序地取出下一个属性，如果Input中的属性都取完，则返回PREnew，否则，标记取到的属性为A，得到A的开头词，标记为AE；判断AE是否已经被当做前缀使用过；如果AE在前缀词典中，则将AE加入到PREnew；否则如果AE在输入参数中作为开头词的频率大于等于阈值s，也将AE加入到PREnew；返回PREnew。

所述的迭代式概念属性名称自动获取系统，获取后缀候选属性模块还包括：

后缀提取模块，用于从SUFnew的第1个属性起，顺序地取出下一个属性；判断SUFnew中的属性是否都取完，标记取到的属性为SUF，从基于后缀的获取模式库中提取模式，生成一组搜索引擎支持的模式，使用这些模式，自动地依次从搜索引擎中寻找，得到获取语料Corpus；从Corpus中提取候选属性，将这些候选属性加入到As′中；返回As′。

所述的迭代式概念属性名称自动获取系统，获取前缀候选属性模块还包括：

前缀提取模块，用于从PREnew的第1个属性起，顺序地取出下一个属性；判断PREnew中的属性是否都取完，标记取到的属性为PRE，从基于前缀的获取模式库中提取模式，生成一组搜索引擎支持的模式，使用这些模式，自动地依次从搜索引擎中寻找，得到获取语料Corpus；从Corpus中提取候选属性，将这些候选属性加入到As′中，返回As′。

所述的迭代式概念属性名称自动获取系统，正确属性赋值模块还包括：

预处理模块，用于对候选属性As'进行预处理，得到As″；所述As″是经过预处理以后，得到的候选属性集合；对As″进行验证，得到验证后的正确属性As。

属性元依存模块，用于在概念的属性空间中，如果在属性空间中两个属性元AE₁和AE₂频繁被相同的属性元所依存，那么AE₁,AE₂之间的相似度较高；反之，则相似度越低；

属性元修饰模块，用于在概念的属性空间中，如果在属性空间中两个属性元AE₁和AE₂频繁修饰相同的属性元，那么AE₁和AE₂之间的相似度较高；反之，则相似度越低；

依存对模块，用于在属性元相似度基础上，以依存对相似度作为属性元依存对之间相似程度的定量表示。

所述的迭代式概念属性名称自动获取系统，依存对模块还包括：

属性对齐模块，用于对于与属性A有相似关系的A'，若A中的依存对P能在A'中找到相似的依存对P'，则构造从P到P'的映射，称这个过程为属性对齐；

属性置信度模块，用于判断正确属性的强弱程度，使用定量指标属性置信度；

置信度推导模块，用于由A'推导出A的属性置信度D(A'→A)。

所述的迭代式概念属性名称自动获取系统，属性对齐模块还包括：

置信度推导模块，用于生成属性置信度1:D₁(A)＝D(A_i→A)，其中i＝argmax_iSim(A_i,A)；

生成依存对的置信度1：D₁(P)＝D(A_i→P)；

生成属性的置信度2:D₂(A)＝argmax_iD(A_i→A)；

生成依存对的置信度2：D₂(P)＝argmax_iD(A_i→P)；

生成属性置信度3：其中，t为划分个数；

加权系数SimPair(A_i,A)表示A_i与A相似对的个数；

所述的迭代式概念属性名称自动获取系统，预处理模块还包括：

构造空间图模块，用于将Seeds中的所有种子属性的置信度D标记为1；将Seeds和候选属性As″加入到集合T；为T构造属性空间图G；从与Seeds相邻的候选属性开始，对所述图G做广度优先搜索，计算As″中所有候选属性的置信度D。

所述的迭代式概念属性名称自动获取系统，构造空间图模块还包括：

空间图建立模块，用于初始化所述图G为空；从T的第1个属性起，顺序地取出下一个属性。判断T中的属性是否都取完，标记取到的属性为A，在T中，从A的下一个属性起，依次顺序地向下取下一个属性,判断是否取完，标记当前取到的属性为A'，如果G中不存在节点A，则在G中为A增加一个节点，并对A做属性元分解和依存关系解析；如果G中不存在节点A'，则在G中为A'增加一个节点，并对A'做属性元分解和依存关系解析；如果A和A'相似，则构造从A到A'的无向边。

依据置信度空间图建立模块，用于初始化G为空；从T的第1个属性起，顺序地取出下一个属性，判断T中的属性是否都取完，标记取到的属性为A，在T中，从A的下一个属性起，依次顺序地向下取下一个属性,判断是否取完，标记当前取到的属性为A'，如果G中不存在节点A，则在G中为A增加一个节点，并对A做属性元分解和依存关系解析；从A的第1个依存对起，顺序地取出下一个依存对；判断A中的依存对是否都取完，标记取到的依存对为Pair，如果G中存在Pair，则构造从Pair到A的无向边；否则，在Table1中查找Pair的2个属性元的位置概率，如果找不到，则计算并存入到Table1中；如果这两个概率都大于阈值s，则在G中为Pair增加一个节点，并置Pair的置信度为ASS，构造从Pair到A的无向边；如果G中不存在节点A'，则在G中为A'增加一个节点，并对A'做属性元分解和依存关系解析；从A'的第1个依存对起，顺序地取出下一个依存对；判断A'中的依存对是否都取完，标记取到的依存对为P，如果G中存在Pair，则构造从Pair到A'的无向边；否则，在Table1中查找Pair的2个属性元的位置概率，如果找不到，则计算并存入到Table1中；如果这两个概率都大于阈值s，则在G中为Pair增加一个节点，并置Pair的置信度为ASS，构造从Pair到A'的无向边；如果A和A'相似，则构造从A到A'的无向边。

所述的迭代式概念属性名称自动获取系统，扩展属性模块还包括：

属性元序列模块，用于对出现在属性中的子序列，如果子序列是属性依存树上的二元依存关系，则子序列为属性元序列；

序列个数模块，用于属性元序列的个数为其中N为属性元属性的个数。

所述的迭代式概念属性名称自动获取系统，序列个数模块还包括：

前向属性元序列模块，用于出现在属性中的子序列，如果子序列对应于属性的属性元依存树上的一棵子树，则子序列为前向属性元序列；子序列分解为：{S₁,S₂,...S_n,AE}，其中，S为子序列，n为正整数，{S₁,S₂,...S_n}对应于以属性元AE为父节点；其前向属性元序列的个数其中F为前向属性元序列，N为属性元属性的个数；

后向属性元序列模块，用于对属性的属性元子序列，如果子序列包含中心属性元，则子序列为后向属性元序列是从属性的依存树中，任意属性元到根节点的路径集合构成的序列；其后向属性元序列的个数f_B(N)∈[N-1,2^N-1-1]，其中B为后向属性元序列，N为属性元属性的个数。

所述的迭代式概念属性名称自动获取系统，还包括：

生成序列置信度模块，用于生成属性元序列置信度1：D₁(S)＝D(S_i→S)，其中i＝argmax_iSim(S_i,S)；生成属性元序列置信度2：D₂(S)＝argmax_iD(S_i→S)。

所述的迭代式概念属性名称自动获取系统，前向属性元序列模块还包括：

前向属性元序列置信度计算模块，用于如果子序列只有两个属性元，则能够直接计算D(S)，置D(S)为0；假设子序列有k个属性元，其中k>2；子序列对应的依存树的根为r(S)，且依存树的根的子树分别为C₁，C₂，…C_n；其中，n为正整数；置i＝1；判断i是否大于n，找到一个最大值t，使得属性元序列在Table2中存在相似的序列，判断是否存在t，则在Table2找到最相似的序列，标记为AES1，使用AES1计算的置信度，标记其为e，将该值存储在Table2中，计算将结果累加到D(S)上；置i＝i+t+1；调用前向属性元序列递归的计算AES(C_i)和AES(C_i，r(S))的置信度值，令其分别为p₁和p₂，将其存储在Table2中；计算将其结果作为序列D(AES(C_i，r(S)))的置信度，并将它存储在Table2中；计算将结果累加到D(S)上；置i＝i+1；将D(S)作为S的置信度，将其存储在Table2中；返回D(S)；

其中，

和为加权系数，为折减系数；

r(C_i)表示(C_i)对应的依存树的根节点；

\frac{| c_{i} |}{k - 1} \cdot p_{1} \cdot p_{2} \cdot \frac{| c_{i} | - 1}{| c_{i} |} = \frac{| c_{i} | - 1}{k - 1} \cdot p_{1} \cdot p_{2} .

所述的迭代式概念属性名称自动获取系统，后向属性元序列模块还包括：

后向属性元序列置信度计算模块，用于对属性元子序列S，令属性元子序列的属性元个数为N，其中N为正整数，置k＝N；判断k是否小于2，为子序列找到一个长度为k的子序列S₀，保证这个子序列在Table2中存在相似的序列；如果子序列存在这样的子序列S₀，判断继续在Table2找到与S₀那个最相似的序列，标记为AES1，否则如果找不到S₀，使用AES1计算S₀的置信度，标记其为d₀,将其存储在Table2中；置k＝k-1；为剩下的属性元集合(S-S₀)，找到一个最大子集保证M中得每个属性元在S₀中都能找到有依存关系的属性元。那么M和(S-S₀)构成了|M|棵依存子树{S₁,S₂,…S_|M|}，调用后向属性元序列迭代的计算这些子树对应属性元序列的置信度，令其为：{d₁,d₂,…d_|M|}；计算将结果作为子序列的置信度，赋值给D(S)；将D(S)存储在Table2中，返回D(S)；

其中，

是加权系数，

与现有的属性获取方法相比，本发明的有益效果是：

(1)基于非结构化的数据源，但引入了种子属性，兼顾了准确率和召回率，具有多数据源的优点，但获取方法更简单；

(2)强化了结果的验证，提出了一组基于相似性的属性验证模型，极大地提高了候选结果的准确率；

(3)提出了一种滚雪球似的属性迭代获取方法，极大地提高了召回率、精确率和属性类型覆盖率。

附图说明

图1为本发明迭代式概念属性名称自动获取方法基本流程图；

图2为本发明迭代式概念属性名称自动获取系统基本流程图；

图3A-3C为本发明具体实施方式；

图4为本发明的具体实施方式。

具体实施方式

下面给出本发明的具体实施方式，结合附图对本发明做出了详细描述。

如附图1所示，本发明公开一种迭代式概念属性名称自动获取方法，包括如下步骤：

为方便陈述，我们首先引入一些定义，并且通过例子加以解释。

定义1：对于出现在某个属性A中的子字符串AE，如果AE是具有语义的最小单元，则称AE为属性元(attribute element)。

例如，在属性“IT产业增速”中，“IT”、“产业”、“增速”均为属性元。

在一个属性中，各属性元的地位并不是平等的，有一个是处于核心地位的，也有依存在其它属性元上以修饰它们的。

定义2：对属性A，能表达其属性本质的属性元称为A的中心属性元(headattribute element)。

例如，对地域类的概念而言，它有一个属性“电子工程师平均年薪”。其中“年薪”为该属性的中心属性元。为了简化陈述，下文将不明确说明属性所隶属的概念。

对于大多数属性，依据中心属性元即能确定属性的类型。例如，在“电子工程师平均年薪”中，通过“年薪”即能判断该属性为数量型的。

有一类特殊的属性元，它们经常位于属性的结尾，作为中心属性元出现。这一类称为后缀属性元(简称属性后缀或后缀)，在我们的定义里：出现在结尾的中心属性元，我们定义为后缀。所以，后缀一定是中心属性元；但中心属性元不一定是后缀，因为这个中心属性元不一定在结尾。不过，在汉语中，重心往往靠后，所以，中心属性元常常会位于结尾；但是在英语中，这种现象却没有汉语常见，因为英语有很多of结构，它会将修饰性的词放在核心词的后面。常见的属性后缀有“增速”、“产量”、“总额”、“总值”、“面积”等。

定义3：对属性A，中心属性元以外的属性元称为A的修饰性属性元。

出现在属性开头的属性元称为前缀属性元(简称属性前缀或前缀)。常见的属性前缀有“平均”、“年均”、“国际”、“最佳”、“传统”、“本土”等，它们充当属性的修饰性属性元。修饰性属性元也并非一定是属性前缀，比如对属性：“国内生产总值”，其中“生产”修饰“总值”，“国内”修饰“生产”。“国内”和“生产”都是修饰性属性元，但此属性的前缀是“国内”。

属性前缀和后缀是属性中重要的元素。根据我们手工获取的属性进行统计，约53％的属性包含前缀，98％的属性包含后缀。因此，基于这种观察，我们提出了一种基于属性前后缀的属性获取方法。此处的获取方法为后文提到的“前后缀扩充迭代获取方法”的一部分。这个方法有两部分，一部分(a)的核心是：“基于前后缀的方法”，这部分是根据“53％”和“98％”这两个统计现象提出来的，因为大部分属性都包含前缀后缀，所以本发明可以利用前缀后缀进行获取；另一部分(b)的核心是：“迭代的方法”,在下文中给出了提出的理由。两个部分结合起来，就是本发明的“前后缀扩充迭代获取方法”。

概念C和其属性A的搭配常常满足一定的句法结构，如：A[的]C[是|为|包括]，其中方括号[]中间的内容表示可省。如对“中国”这一概念，我们常常会说：“中国的国土面积”、“中国总人口数为”、“中国的GDP”，等等。

定义4：对概念C，其所有的属性构成的集合称为C的属性空间，记为属性空间R_C。

一般而言，对某个给定的概念C，通过它的属性空间R_C中常见的属性后缀集合S＝{S₁…S_i…S_k}，其中，SUF_i表示R_C中第i个常见的后缀；R_C中共有k个常见后缀。我们就可以构造一批简单的查询模式，从Web网页中提取语料，如“C的**SUF_i”和“C的*SUF_i(是|为|包括)”。在Google(本发明的实验结果是在Google中获取的，但本方法并不限定于Google为唯一的数据来源，只要是支持类似的严格的查询模式的搜索引擎，都可以采用本发明的方法进行获取，比如：腾讯搜搜http://www.soso.com/)支持的查询模式中，一个通配符“*”匹配一个词。得到语料后，可以将通配符匹配到的序列和SUF_i一起提取出来作为候选属性。

同样，如果有一组属性前缀词集合P＝{P₁…P_i…P_k}，也可以构造近似的查询模式，如“C的P_i**(是|为|包括)”。得到语料后，可以将P_i(包括P_i)以及通配符匹配到的序列提取出来作为候选属性。

这种基于属性前后缀的获取方法提取简单，且结果具有一定的准确率。但人工给定的前后缀词典毕竟数量有限，而且对不同类型的概念，其前缀后缀的差异也较大。实验表明，对地域类型的概念“中国”、植物类型的概念“苹果”等，它们的属性空间中前后缀的分布差异很大。如果对每个概念，将前后缀词典中所有的元素均尝试一次，则不仅耗时，还会得到许多错误的结果，影响结果的准确率。因此，我们对每类概念，给出一批人工验证过的正确属性(这些属性可能是手工整理的，也可能是自动获取后经过人工校验的)作为种子集合Seeds，依据属性前后缀词典，从Seeds中提取前后缀，使用这些前后缀进行获取。同时，为了打破前后缀词典和Seeds的限制，并最终实现本发明的目的，根据本发明的一个方面，提供了一种前后缀扩充的迭代获取方法，包括下列步骤：

步骤S100：将人工得到的正确属性作为种子，加入到集合Seeds中；

步骤S200：从Seeds中训练新的后缀，加入到集合SUFnew中；

步骤S300：从Seeds中训练新的前缀，加入到集合PREnew中；

步骤S400：如果SUFnew为空且PREnew为空，则获取结束；否则执行步骤S500；

步骤S500：使用SUFnew从Web中获取概念的候选属性，并加入到As′中，其中As′表示候选属性的集合；

步骤S600：验证As′，得到的正确属性赋值给As，并将As加入到R_C中，其中As表示经过验证后的正确属性的集合；

步骤S700：从As中训练新的前缀，加入到PREnew中；

步骤S800：使用PREnew从Web中获取概念的候选属性，并赋值给As′；

步骤S900：验证As′，得到的正确属性赋值给As，并将As加入到属性空间R_C中；

步骤S1000：清空PREnew；

步骤S1100：从As中训练新的后缀，赋值给SUFnew；转步骤S400。

说明：

(1)每个步骤都是在同一概念C的属性空间R_C中执行。

(2)SUFnew表示新生产的后缀词，PREnew表示新生产的前缀词。

步骤S200和S1100均包含了重要方法：从集合中训练新的后缀。下面我们给出详细的训练方法，需要说明的是，S200和S1100的训练方法完全一样，为简化陈述，我们仅给出S200的子步骤：

步骤S201：清空SUFnew；

步骤S202：从输入参数Input的第1个元素起，顺序地取出下一个元素。如果Input中的元素都取完，则转步骤S206。否则，标记取到的元素为A，执行步骤S203；每个元素就是一个属性。在步骤S200中，Input＝Seeds；在步骤S1100中，Input＝As。

步骤S203：得到A的结尾词，标记为AE；

步骤S204：如果AE已经被当做后缀使用过，则转步骤S202；否则执行步骤S205；

步骤S205：如果AE在后缀词典Suffixes Dictionary中，则将AE加入到SUFnew；否则如果AE在Input中作为结尾词的频率大于等于阈值s，也将AE加入到SUFnew；转步骤S202；

步骤S206：返回SUFnew。

说明：

(1)Input是输入参数，以步骤S200为例，Input等于Seeds；以步骤S1100为例，Input等于As；SUFnew是将要返回的新后缀。

(2)Suffixes Dictionary是人工给定的属性后缀词典：在最近几年的本体建设中，我们总结了8470个概念，共计获得了25753个属性；从这些属性中，通过ASE算法，结合人工校对，我们总共获得了2292个属性后缀，形成了本发明实验的Suffixes Dictionary。其中常见的元素有：面积、人口数、增加值、保有量、温度、比率等等。

(3)s(根据经验值，取s＝3，一般来说，s的值大于等于2)是频繁域值，只有当AE作为结尾词的频率大于等于s时，才将它作为新后缀。

步骤S300和S700均包含了重要方法：从集合中训练新的前缀。下面我们给出详细的训练方法。需要说明的是，S300和S700的训练方法完全一样，为简化陈述，我们仅给出S300的子步骤：

步骤S301：清空PREnew；

步骤S302：从输入参数Input的第1个元素起，顺序地取出下一个元素。如果Input中的元素都取完，则转步骤S306.否则，标记取到的元素为A，执行步骤S303；

步骤S303：得到A的开头词，标记为AE；

步骤S304：如果AE已经被当做前缀使用过，则转步骤S302；否则执行步骤S305；

步骤S305：如果AE在前缀词典Prefixes Dictionary中，则将AE加入到PREnew；否则如果AE在Input中作为开头词的频率大于等于阈值s，也将AE加入到PREnew；转步骤S302；

步骤S306：返回PREnew。

说明：

(1)Input是输入参数，以步骤S300为例，Input等于Seeds；以步骤S700为例，Input等于As；PREnew是将要返回的新前缀。

(2)Prefixes Dictionary是人工给定的属性前缀词典：在最近几年的本体建设中，我们总结了8470个概念，共计获得了25753个属性；从这些属性中，通过APE算法，结合人工校对，我们总共获得了1377个属性前缀，形成了本发明实验的Prefixes Dictionary。常见的属性前缀包括：平均、年均、人均、最高、最低、实际、重要、基本、经济、世界等。

(3)s是频繁域值，只有当AE作为开头词的频率大于等于s时，才将它作为新前缀。

步骤S500包含了重要方法，使用后缀从Web中获取概念的候选属性。下面我们将给出详细的获取方法。以下是S500的子步骤：

步骤S501：从SUFnew的第1个元素起，顺序地取出下一个元素。如果SUFnew中的元素都取完，则转步骤S504；否则，标记取到的元素为SUF，执行步骤S502；

步骤S502：从基于后缀的获取模式库中提取模式，生成一组Google支持的模式，使用这些模式，自动地依次从Google中寻找，得到获取语料Corpus；所述模式库是新增的数据库；说明：在本发明中使用到的资源有：1.种子属性；2.属性前缀词典；3.属性后缀词典；4.基于前缀的获取模式(表2中给出了例子)；5.基于后缀的获取模式(表1中给出了例子)。

步骤S503：从Corpus中提取候选属性，将这些候选属性加入到As′中。转S501；

步骤S504：返回As′。

为了方便理解S500的获取过程，我们给出一个具体的例子：

给定地域类概念C＝“中国”，SUFnew＝{“总值”，“面积”…}.从SUFnew中取到第1个后缀“总值”，查询基于后缀的获取模式，生成Google查询模式。本发明给出了2个具体的基于后缀的获取模式，见表1。需要说明的是，表1中给出的只是2个示例模式，用于解释本发明，并不限定本发明。

表1：基于后缀的获取模式

在使用Google查询模式，得到Google匹配到的锚文本句子作为Corpus，比如“中国的**总值”这条模式，可能会匹配到句子：“2010年，中国的国内生产总值超过了日本”、“中国的国民生产总值已经名列世界前几名”、“2008年中国的进出口总值将达到2.55万亿美元”……对模式“中国的*总值(是|为|指|包括)”，可能会匹配到句子：“中国的经济总值是多少”、“当年中国的出口总值是2492亿美元”……。

于是，我们可以从这些Corpus中提取到候选属性“国内生产总值”、“国民生产总值”、“进出口总值”、“经济总值”、“出口总值”……将这些候选结果加入到As′中。然后转入下一个后缀“面积”，执行相同的获取操作。

步骤S800包含了重要方法，使用前缀从Web中获取概念的候选属性。下面我们将给出详细的获取方法。以下是S800的子步骤：

步骤S801：从PREnew的第1个元素起，顺序地取出下一个元素。如果PREnew中的元素都取完，则转步骤S804.否则，标记取到的元素为PRE，执行步骤S802。

步骤S802：从基于前缀的获取模式库中提取模式，生成一组Google支持的模式，使用这些模式，自动地依次从Google中寻找，得到获取语料Corpus。

步骤S803：从Corpus中提取候选属性，将这些候选属性加入到As′中。转S801。

步骤S804：返回As′。

为了方便理解S800的获取过程，我们给出一个具体的例子：

给定地域类概念C＝“中国”，PREnew＝{“最高”，“年均”…}.从PREnew中取到第1个前缀“最高”，查询基于前缀的获取模式，生成Google查询模式。本发明给出了2个具体的基于前缀的获取模式，见表2。需要说明的是，表2中给出的只是2个示例模式，用于解释本发明，并不限定本发明。

表2：基于前缀的获取模式

在使用Google查询模式，得到Google匹配到的锚文本句子作为Corpus，比如“中国的最高*(是|为|指|包括)”这条模式，可能会匹配到句子：“中国的最高学位是什么？”、“中国的最高联赛为中超联赛”……对模式“中国的最高*(达到|突破)”，可能会匹配到句子：“中国的最高气温达到从未经历的N”……

于是，我们可以从这些Corpus中提取到候选属性“最高学位”、“最高联赛”、“最高气温”……将这些候选结果加入到As'中。然后转入下一个前缀“年均”，执行相同的获取操作。

步骤S600和S900均包含了重要方法：对候选属性进行验证。下文中我们给出详细的验证方法，需要说明的是，S600和S900的验证方法完全一样，为简化陈述，我们仅给出S600的子步骤。

步骤S601：对候选属性As'进行预处理，得到As″(As″是经过预处理以后，得到的候选属性集合。在步骤S600，步骤S900中，候选属性As'会经过验证，得到正确属性As，步骤S601，步骤S602对验证做进一步地划分，分为预处理和正式验证，即：As'→As″→As)。

步骤S602：对As″进行验证，得到验证后的正确属性As。

对初始获取到的候选属性As'，有几种常见的且很容易处理的错误，如果不进行处理，将会干扰验证，因此我们可以用较小的预处理代价，得到较好的预处理效果。于是在验证步骤S601之前，先采用S601进行预处理。以下列出4个主要错误，分析产生的原因，同时给出预处理策略：

1.需要剥离。例如从源句子“中国的很多工业产品产量已经跃居在世界的第一位”，我们获得了候选属性为“很多工业产品产量”。为消除此类错误，我们将候选属性开头的程度副词“很多”剥离掉，将剥离掉的结果加入到As″中。

2.是句子片段。例如从源句子“根源是中国的传统文化轻视技术”，我们获得了候选属性“传统文化轻视技术”。由于属性均是名词短语，因此对每个候选属性，我们采用基于句法模式的概念识别方法，如果该候选属性无法通过名词短信识别，则直接丢弃。否则，将它加入到As″中。

3.包含表示并列的连词，需要进行切分。例如“中国的能源与气候”。对此类候选属性，对其进行切分，得到一对新的结果(如“能源”、“气候”)作为候选属性，加入到As″中。

4.不完整。例如从源句子“中国的进口价格指数出现了比较大的上升”，我们获得了候选属性“进口价格”。通过观察源句子，我们知道正确的属性应该是“进口价格指数”。对此类候选属性，如果发现“价格”后面还有新的后缀词“指数”，则将“进口价格”和“进口价格指数”一起作为候选属性，加入到As″中。As″是对初始候选属性进行预处理之后的候选属性集合。

在对As″的验证前，我们先引入一组假设、定义和公式，以方便解释本发明。为了提出验证思想，本发明引入了以下两条启发式规则，以下通过例子来说明：

启发式规则1(示例)：

如果已知“自行车保有量“是”中国“的属性，那么“机动车保有量”也可能是“中国”的属性。

其理由是“自行车”和“机动车”有某种程度的相似性。

启发式规则2(示例)：

如果已知两个属性“IT产业增速”、“GDP年均增速”是“中国”的属性，那么“信息产业年均增速”也可能是“中国”的属性。

其理由是“IT”和“信息”有某种程度的相似性；而通过“GDP年均增速”可以认为在“中国”的属性空间中“年均”可以搭配“增速”以修饰它。同样如果已知“钢铁行业发展状况”，“经济发展前景”是“中国”的属性，那么“钢铁行业发展前景”也可能是“中国”的属性。

基于以上的启发式规则，我们发明了一种基于相似性的属性验证模型。

在启发式规则示例中，我们知道属性元之间存在某些相似性，比如“自行车”和“机动车”以及“信息”和“IT”。

在汉语构词和构字中，包含了丰富的语义信息。比如“自行车”、“机动车”均以“车”结尾，预意着它们都是一种“车”；“铁”和“铜”均含有相同的偏旁“钅”，预意着它们都是一种“金属”。他们彼此在语义上都很接近。同样，能确定上下位关系等受限语境的词，，我们也能定义它们之间的语义相似性。但是对于绝大多数属性元，很难得到这样的语义信息。所以，如果采用这样的相似度定义方式，则很难计算大多数属性元之间的相似度。

从前面的例子可以看到，在进行属性验证时，我们更多的是考虑结构相似，即属性元依存关系之间的相似性。于是我们提出了一种基于依存关系的相似度计算方法。

我们不易直接把握“需求量”和“产值”之间的语义相似度，但是如果我们得到了以下候选属性：“煤炭需求量”、“煤炭总产值”，“钢铁需求量”、“钢铁总产值”，我们会认为“需求量”和“产值”之间的相似度较高，因为他们被相同的属性元修饰。据此，我们得到以下假设：

假设1：在一个概念的属性空间中，如果在语料中两个属性元AE₁和AE₂频繁被相同的属性元修饰(即被相同的属性元所依存)，那么AE₁,AE₂之间的相似度较高；反之，则相似度越低。

考虑到依存关系，我们定义函数D(x)，用它来表示依存在x上的属性元集合。例如：D(“需求量”)＝{“煤炭”,“钢铁”…}。

同样，我们不易把握“煤炭”和“石油”之间的语义相似度，但是如果我们得到了以下候选属性：“煤炭消费量”、“煤炭需求量”、“煤炭进口量”、“石油消费量”、“石油需求量”、“石油进口量”，我们会认为“煤炭”和“石油”之间的相似度较高，因为他们修饰着相同的属性元：“消费量”、“需求量”、“进口量”。据此，我们得到另一个假设：

假设2：在一个概念的属性空间中，如果在语料中两个属性元AE₁和AE₂频繁修饰相同的属性元(即依存在相同的属性元上)，那么AE₁和AE₂之间的相似度较高；反之，则相似度越低。

考虑到被依存关系，我们定义函数BD(x)，用它来表示x所依存的属性元集合。例如：BD(“石油”)＝{“需求量”，“进口量”，“消费量”…}。

基于以上两个假设，我们引入一般的属性元相似度计算方法：

我们先引入两个基本的相似性度量：

1.概念C上两个属性元的依存关系相似度定义为：

{Sim}_{D} ({AE}_{1}, {AE}_{2} | C) = \frac{2 \times I (D ({AE}_{1}) \cap D ({AE}_{2}))}{I (D ({AE}_{1})) + I (D ({AE}_{2}))}

其中，I(S)＝-∑_f∈SlogP(f)，P(f)为属性元f在训练语料中的概率，-log P(f)表示f的信息量。

2.概念C上两个属性元的被依存关系相似度定义为：

{Sim}_{BD} ({AE}_{1}, {AE}_{2} | C) = \frac{2 \times I (BD ({AE}_{1}) \cap BD ({AE}_{2}))}{I (BD ({AE}_{1})) + I (BD ({AE}_{2}))}

由上述定义，我们定义概念C上AE1和AE2的相似度定义为：

其中，λ[∈0,1]为加权系数，根据具体应用或试验确定。

为了简化陈述，下文定义的所有公式均是指在概念C上的。

在属性元相似度基础上，我们引入依存对相似度，作为属性元依存对之间相似程度的定量表示。

我们认为依存对的二元关系之间存在较强的语义联系。设有依存对(P,P')，我们定义它们之间的相似度：

Sim ({P, P}^{'}) = Π_{i = 1}^{n} Sim (P_{i}, P_{i}^{'})

其中，P_i为依存对P的第i个属性元。P_i'为依存对P'的第i个属性元。

例如：对依存对“(IT，产业)”和“(信息，产业)”之间的相似度，表示为Sim(IT,信息)×Sim(产业，产业)

大多数属性元之间是线性依存关系，即第n-1个属性元依存在第n个属性元上，因为在中文的语言习惯中，修饰性成分往往紧邻核心成分之前。如图3A、3B、3C所示，下面例子中的A₁，如图3A所示；而在少数包含强前缀的属性中，是树型依存关系，如A₂和A₃，分别如图3B、3C所示。

A₁＝“IT产业增速”；A₂＝“GDP年均增速”；A₃＝“信息产业年均增速”。

定义5：对有相似关系的属性A和A'，若A中的依存对P能在A'中找到相似的依存对P'，则构造从P到P'的映射，称这个过程为属性对齐。这个定义中

A'表示与属性A具有相似关系的属性；但是在其它定义中，也许有其他含义。这里A'仅是一个抽象的符号。

在属性对齐时，认为依存对的两个属性元都相似才能将其对齐。比如在上面的例子中，A₁的依存对包括：(IT，产业)、(产业，增速)。A₃的依存对包括：(信息，产业)、(产业，增速)、(年均，增速)。A₁的“IT”与A₃的“信息”相似，A₁的“产业”与A₃的“产业”相似，才能将A₁的(IT，产业)与A₃的(信息，产业)对齐。图4中给出了A₁和A₃对齐后的示意图。

在依存对相似度的基础上，我们引入马尔科夫假设，认为属性的各依存对之间彼此独立，于是我们定义属性A和A'之间的相似度为：

Sim ({A, A}^{'}) = \frac{Σ_{i = 1}^{n} Sim (P_{i} (A), P_{i} (A^{'}))}{Max_Pair ({A, A}^{'})}

其中，

(1)P_i(A)，P_i(A')表示为A和A'的第i个对齐的依存对；

(2)Max_Pair(A,A')为A，A'依存对数量的较大值。(函数Max_Pair返回属性A和属性A'中依存对数量的较大值，比如A的依存对有3对，A'有4对，则该函数返回4)

上面例子中得A₁和A₃中均包含依存对(产业，增速)；而A₁的(IT，产业)与A₃的(信息，产业)尽管不完全相同。但“IT”与“信息”具有很高的相似度，因此(IT，产业)与(信息，产业)也具有较高的相似程度。

在计算相似度时，A₁的(IT，产业)与A₃的(信息，产业)对齐；A₁的(产业，增速)与A₃的(产业，增速)对齐。(A₁与A₃对齐的示意图如附图4所示)则A₁和A₃中对于相同的依存对(产业，增速)，其相似度为1×1＝1；假设“IT”与“信息”的相似度为0.8，则(IT，产业)和(信息，产业)的相似度为0.8×1＝0.8；最终Sim(A₁,A₃)＝(0.8+1)/3＝0.6。

另外：

Sim(P_i(A)，P_i(A'))/Max_Pair(A,A')可以理解为第i个对齐的依存对为属性相似度的贡献(当Sim括号中的元素为依存对，比如P_i(A)，P_i(A')，则Sim表示依存对之间的相似度；当Sim括号中的元素为属性，比如A,A'，则Sim表示属性之间的相似度。)。

定义6：为了判断候选属性是正确属性的强弱程度，使用定量指标属性置信度D(D∈[0,1])。属性置信度D越高，候选属性就越可能是正确属性。反之亦然。

令候选属性A'的置信度D(A')＝x；A和A'的相似度为Sim(A,A')＝y；A的置信度未知。

定义7：我们记由A'推导出A的属性置信度为D(A'→A)。

假设3：D(A'→A)与A，A'之间的相似度y有关，x不变，y越大，D(A'→A)越大；D(A'→A)与A'的置信度x有关，y不变，x越大，D(A'→A)越大(这里的x、y、D的含义由前面给出。x为候选属性A'的置信度D(A')＝x；y为A和A'的相似度为Sim(A,A')＝y；D为由A'推导出A的属性置信度为D(A'→A))。

由假设3，定义关于x,y的连续可导函数f(x,y)＝D(A'→A)，

假设4：当y＝0时，f(x,0)＝0

即当A'和A完全不相似时，由A'得不出A是属性。

假设5：当y＝1时，f(x,1)＝x

即当A和A'完全一样时，由A'得出A的置信度等于A'的置信度。

假设6：属性中依存对之间彼此独立。令y＝y₁+y₂+...y_n，(n表示x,y之间有n个对齐的依存对)其中y_i为第i个对齐的依存对为整体相似性的贡献，则f(x,y₁+..y_n)＝f(x,y₁)+…f(x,y_n)

即，由A'推导出A的置信度等于它们彼此对齐的依存对为A的置信度贡献之和。

由假设3～6，我们可以得到f(x,y)＝x·y。

D(A'→A)＝f(x,y)＝x·y

我们将

y = \frac{Σ_{i = 1}^{n} Sim (P_{i} (A), P_{i} (A^{'}))}{Max_Pair ({A, A}^{'})}

代入上式，得

x·Sim(P_i(A),P_i(A'))可以理解为由A'推导出依存对P_i(A)的置信度。我们用D(A'→P_i(A))来表示。

在真实的属性空间中，和A相似的属性数量常常会大于1，令A的相似属性集合Sim(A)＝{A₁,A₂,…A_n}。

定义8：属性置信度1:D₁(A)＝D(A_i→A)，其中i＝argmax_iSim(A_i,A)，

对置信度1，我们可以直观理解为，在A的相似属性集合中，找到一个与它最相似的属性A_i,用A_i推导出的A的置信度D(A_i→A)作为A的置信度。

同样的，可以依此定义依存对P的置信度，用来描述在属性空间中，依存关系的稳定程度。

定义9：依存对的置信度1：D₁(P)＝D(A_i→P)

其中i＝argmax_iSim(A_i,P)。

定义10：属性置信度2:D₂(A)＝argmax_iD(A_i→A)

我们可以直观理解为，在A的相似属性集合中，将得到的置信度最大值作为A的置信度。依此，我们也可以定义依存对置信度。

定义11：依存对的置信度2：D₂(P)＝argmax_iD(A_i→P)

在上述例子的A₁,A₂,A₃中，只有当A₁和A₂都为正确属性时，即依存关系(IT，产业)、(产业，增速)、(年均，增速)都合理时，才有可能认为A₃也是正确属性。尽管在属性空间中A₁和A₃可能最相似，但A₃的真实置信度和A₁,A₂都相关。而不仅仅取决于其中的某一个。因此，我们考虑对A₃中的依存关系做划分。依存关系(信息，产业)、(产业，增速)由A₁决定，而依存关系(年均，增速)由A₂决定，则可以由A₁,A₂得到的A₃的置信度。于是，我们得到以下定义：

定义12：属性置信度3：其中

(1)t为划分个数；

(2)加权系数

λ = \frac{| SimPair (A_{i}, A) |}{| Pair (A) |};

(3)SimPair(A_i,A)表示A_i与A相似对的个数；

(4)Pair(A)表示A中依存对的数量；

(5)选择t最小化原则进行划分；同时，若t最小时存在多个划分，选择D₃(A)最大化进行划分。

有了之前的定义和相关解释，我们就可以对步骤S602给出具体的验证方法，以下是S602的子步骤：

步骤V1：将Seeds中的所有种子属性的置信度D标记为1。

步骤V2：将Seeds和候选属性As″加入到集合T(这里的T后面会经常提到)。T是我们经过预处理以后的所有属性(正确的Seeds，候选待验证的As″)构成的集合，用T来构建当前概念的属性空间，并在此属性空间上对候选属性进行验证)。

步骤V3：为T构造属性空间图G。

步骤V4：从与Seeds相邻的候选属性开始，对图G做广度优先搜索，计算As″中所有候选属性的置信度D。

步骤V3包含重要的方法：生成属性空间图。下面我们将给出详细的生成方法。以下是V3的子步骤：

步骤V301：初始化G为空。

步骤V302：从T的第1个元素起，顺序地取出下一个元素。如果T中的元素都取完，则结束步骤V3；否则，标记取到的元素为A，执行步骤V303。

步骤V303：在T中，从A的下一个属性起，依次顺序地向下取下一个属性。如果已经取不到属性，则转步骤V302；否则标记当前取到的属性为A'，执行步骤V304.步骤V304：如果G中不存在节点A，则在G中为A增加一个节点，并对A做属性元分解和依存关系解析。

步骤V305：如果G中不存在节点A'，则在G中为A'增加一个节点，并对A′做属性元分解和依存关系解析。

步骤V306：如果A和A'相似，则构造从A到A'的无向边。转步骤V302。

在步骤V4中，计算属性置信度D时，我们可以选用属性置信度1、属性置信度2或属性置信度3中的公式。需要说明的是，在相同的属性空间图中，应使用相同的公式，否则会造成计算结果的不统一。

如果仅仅采用上面的相似度计算方法，有大量的属性，它们的某些“属性元”或是“依存对”在种子中很难准确地找到对应的相似关系，也就无法判断这些“属性元”是否是正确属性元，这些“依存对”是否是正确的依存关系。因此，若从正确属性开始，对属性空间图做广度优先搜索计算，则无法准确计算它们的置信度。对这种情况，我们提出一种基于属性空间支持度的计算方法。

统计发现，大多数属性元在属性中出现的位置有自己特定的分布。如，前缀往往出现在属性开头，而后缀则常常出现属性结尾。有些属性元则经常出现在某些特定属性元之前，以修饰它们。反过来，我们形成如下假设：

假设7：在属性空间中，在特定位置分布比较频繁的词一般是正确的属性元，频繁出现的依存关系一般是正确的依存关系。

我们引入位置概率P_i(AE₁)来表示属性元AE1在属性的i位置出现的概率，定义P_i(AE₁)＝C_i(AE₁)/C(AE₁)，其中：

(1)C_i(AE₁)表示AE₁在属性的i位置出现的总频率。i＝0表示AE₁位于属性的开头，i＝1表示AE₁位于属性的第2个位置(自左向右第2个属性元)。

(2)C(AE₁)表示AE₁在属性空间中的总频率。

设有依存对(AE₁，AE₂)，AE₁在i位置，AE₂在j位置(这里的i和j表示属性元在属性中出现的位置，比如对属性“国土面积”，“国土”在该属性中的位置为0,“面积”的位置为1。这里给出的i,j仅仅是两个参数，目的是为了引出下面的定义。)。以AE₁固定在i位置定义(AE₁，AE₂)在位置(i，j)的条件依存概率P_i,j(AE₂/AE₁,i)＝C_i,j(AE₁,AE₂)/C_i(AE₁)，用它来表示AE1在i位置上修饰AE₂的概率。

其中，C_i,j(AE₁,AE₂)是AE₁出现在i位置，AE₂出现在j位置的总频率。如果AE₁和AE₂相邻(即线性依存)，则j＝i+1。

最后，以AE₁在i位置定义(AE₁，AE₂)在位置(i，j)的联合依存概率P_i,j(AE₁|i,AE₂)＝P_i(AE₁)×P_i,j(AE₂/AE₁,i)，

则：P_i,j(AE₁|i,AE₂)＝C_i,j(AE₁,AE₂)/C(AE₁)

同理，我们也能以AE₂固定在j位置定义联合依存概率P_i,j(AE₁,AE₂|j)＝C_i,j(AE₁,AE₂)/C(AE₂)。

则(AE₁，AE₂)在位置(i，j)的联合依存概率定义为：P_i,j(AE₁,AE₂)＝λ×P_i,j(AE₁|i,AE₂)+(1-λ)×P_i,j(AE₁,AE₂|j)，

其中，λ∈[0,1]为加权系数，根据具体应用或试验确定。

P_i(AE₁,AE₂)的值较小，如果以它来描述依存关系的正确性强度，则不利于计算实际的置信度，于是，我们引入属性空间置信度ASS(Attributes SpaceSupport)，定义：ASS＝P_i(AE₁,AE₂)/Max(P_k(x,y))，其中：

(1)Max(P_k(x,y))表示搭配概率集合中的最大值。

只有当该依存对中每个属性元的位置概率大于等于某阈值时，才计算此依存对的ASS值。

实际计算时，我们在属性空间图中增加一个节点，表示此依存对，然后令它的置信度为ASS，并构造一组边，从该节点连接到包含此依存关系的属性节点。这样，就可以计算这些属性的置信度。

另外，在计算属性元的位置概率时，很多属性元会在不同的属性中出现在相同的位置，因此会有很多重复的计算。为节省计算时间，我们构造一个属性元位置概率表索引Table1(表的key项为属性元及其位置，value项为其位置概率)，将计算过的值都存储在该表中，以供后面计算时寻找。

考虑ASS后，我们设定新的属性空间图的生产方法，步骤V3新的子步骤为：

步骤VN301：初始化G为空。

步骤VN302：从T的第1个元素起，顺序地取出下一个元素。如果T中的元素都取完，则结束步骤V3；否则，标记取到的元素为A，执行步骤VN303。

步骤VN303：在T中，从A的下一个属性起，依次顺序地向下取下一个属性。如果已经取不到属性，则转步骤VN302；否则标记当前取到的属性为A'，执行步骤VN304.步骤VN304：如果G中不存在节点A，则在G中为A增加一个节点，并对A做属性元分解和依存关系解析。

步骤VN305：从A的第1个依存对起，顺序地取出下一个对。如果A中的依存对都取完，则转步骤VN307；否则，标记取到的对为Pair，执行步骤VN306。

步骤VN306：如果G中存在Pair，则构造从Pair到A的无向边；否则，在Table1中查找Pair的2个属性元的位置概率，如果找不到，则计算并存入到Table1中。如果这两个概率都大于阈值s，则在G中为Pair增加一个节点，并置Pair的置信度为ASS，构造从Pair到A的无向边。

步骤VN307：如果G中不存在节点A'，则在G中为A'增加一个节点，并对A'做属性元分解和依存关系解析。

步骤VN308：从A'的第1个依存对起，顺序地取出下一个对。如果A'中的依存对都取完，则转步骤VN310；否则，标记取到的对为P，执行步骤VN309。

步骤VN309：如果G中存在Pair，则构造从Pair到A'的无向边；否则，在Table1中查找Pair的2个属性元的位置概率，如果找不到，则计算并存入到Table1中。如果这两个概率都大于阈值s，，则在G中为Pair增加一个节点，并置Pair的置信度为ASS，构造从Pair到A'的无向边。

步骤VN310：如果A和A'相似，则构造从A到A'的无向边。转步骤VN302。

前面定义的属性置信度以依存对为基础，它引入了马尔科夫假设，认为属性的构成满足二元的依存关系，即依存对之间彼此独立。而实际的属性构成经常会是树形方式(例子中的A₂和A₃)，或是链式(例子中的A₁)。因此，提出一种基于属性元序列(attribute elements sequence，简称AES)的验证方法。

定义13：下面给出了一个属性元序列的递归定义

对于出现在属性A中的子序列S，如果S是A的依存树上的一个2元依存关系，则S为属性元序列；

如果S中的属性元个数大于2，假如能在S中找到一个属性元AE,使得S可以划分为2部分S₁和S₂(S₁∩S₂＝{AE})，满足S₁和S₂均为属性元序列，则S为属性元序列(属性元序列的横向扩展)；

如果S中的属性元个数大于2，假如能在S中找到一个属性元AE₁，使得S可以划分为2部分S'和满足S'为属性元序列，且S'中存在属性元AE₂，(AE₁,AE₂)为属性元序列，则S为属性元序列(属性元序列的纵向扩展)。

直观地：如果把属性依存树看成是一个无向图，则属性元序列是这个图的连通子图(子图中的任意两点都要求是可达的)。

在例子A₃中：“信息产业”，“产业增速”，“年均增速”，“信息产业增速”，“产业年均增速”，“信息产业年均增速”均为属性元序列。而：“产业年均”则不是属性元序列。通过例子我们发现，属性元序列具有相对完整的语义。

可以证明一个结论：包含N个属性元的属性，其属性元序列的个数

f (N) &Element; [\frac{N (N - 1)}{2}, 2^{N - 1} - 1] .

定义14：出现在属性A中的子序列S，如果S对应于A的属性元依存树上的一棵子树，则S为前向属性元序列；如果s可以分解为：{S₁,S₂,...S_n,AE}，其中{S₁,S₂,...S_n}(S对应的树有n个孩子，其中每个孩子对应的子树为S_i)对应于以属性元AE为父节点，两两相邻的子树，则S也为前向属性元序列(forwarattribute elements sequence，简称FAES)。

在A₃中：“信息产业”、“年均增速”、“信息产业增速”、“信息产业年均增速”为前向属性元序列。

可以证明一个结论：包含N个属性元的属性，其前向属性元序列的个数

f_{F} (N) &Element; [N - 1, \frac{N (N - 1)}{2}] .

定义15：对属性A的属性元序列S，如果S包含中心属性元(一般情况下即S和A以相同的属性元结尾)，则S为后向属性元序列(backward attributeelements sequence，简称BAES)。

后向属性元序列可以看做是从A的依存树中，任意属性元到根节点的路径集合构成的序列。

在A₃中：“产业增速”、“年均增速”、“信息产业增速”、“产业年均增速”、“信息产业年均增速”为后向属性元序列。

可以证明一个结论：包含N个属性元的属性，其后向属性元序列的个数f_B(N)∈[N-1,2^N-1-1]。

定义13表明，属性元序列是表示属性元之间依存结构的线性序列。因此，它更能反映属性真实的构成方式。

属性元序列之间存在相似关系，对依存对相似度进行扩展，我们引入属性元序列相似度。

设有属性元序列S和S'，定义它们之间的相似度

其中，

(1)S_i为序列S的第i个属性元。S_i'为序列S'的第i个属性元。

(2)要求属性元序列之间的长度(属性元个数)相同，才能计算它们之间的相似度。

定义16：属性元序列置信度D描述属性元序列依存关系的稳定程度，它的值越高，则它内部的属性元依存关系越稳定。

我们扩展定义7，得到

定义17：由S′推导出的属性元序列S置信度D(S'→S)＝D(S')×Sim(S',S)。

同理，若令S的相似属性元序列空间Sim(S)＝{S₁,S₂,...,S_n}，我们扩展属性置信度1和2，也可以得到属性元序列的置信度计算公式。

定义18：属性元序列置信度1：D₁(S)＝D(S_i→S)，其中i＝argmax_iSim(S_i,S)。

定义19：属性元序列置信度2：D₂(S)＝argmax_iD(S_i→S)

对于包含N个属性元的序列S，我们提出了一种基于(分解→组合)的置信度计算方法，即将该其属性元序列分解为K个已经计算过D值的子序列{subS₁,subS₂,…subS_k}，并以这些D值为基础，组合计算新的值作为S的D值存储起来。

如果子序列之间是横向的并列关系，则认为它们之间的语义连接较弱，彼

此独立，在计算S时，将子序列的D值加权求和。比如对上面例子中的A₃,已知“信息产业增速”的D值为a,“年均增速”的D值为b,则“信息产业年均增速”的D值我们定义为：其中每一项的加权系数为该项中依存对数量占S中依存对数量的比重。

如果子序列是纵向关系，则认为它们彼此相关，将子序列的D值折减求积。比如已知“钢铁行业发展”其D值为a，“发展前景”其D值为b,则“钢铁行业发展前景”，其D值定义为：λ×a×b；其中λ为衰减系数。

但是，对于一个包含N个属性元的序列，它的子序列数量为[N(N-1)/2，2^N-1-1]，即使在最好的情况下，属性元序列个数也很多，因此在对候选属性作序列选择和分解时，面临的情况也会很多，最终将可能导致计算的过程异常复杂。鉴于这种情况，我们提出一种基于前向属性元序列和后向属性元序列的置信度计算方法。

基于前向的分解方式：优先从序列S的开头起，向后找到已经计算过D值的最长子序列，并以此为分解点。

比如对“钢铁行业发展前景”，如果其子序列subS₁＝“钢铁行业发展”，subS₂＝“发展前景”，subS₃＝“钢铁行业”，subS₄＝“行业发展前景”均已计算过D值，则它基于前向的分解方式为subS₁和subS₂。

在汉语中，重心往往靠右，我们在计算时，也可以优先去计算靠近后缀的那些属性元序列。于是，我们又引入了一种基于后向属性元序列的置信度计算方法：

基于后向的分解方式则与前向相反，优先从序列的结尾起，向前寻找已经计算过D值的最长字序列，并以此为分解点。对“钢铁行业发展前景”，基于后向的分解方式为subS₃和subS₄。

在计算前向或后向属性元序列置信度时，很多序列会在不同的属性中出现，因此会有很多重复的计算。为节省计算时间，我们构造一个属性元序列置信度索引表Table2(表的key项为属性元序列，value项为其置信度值)，将计算过的值都存储在该表中，以供后面计算时寻找。

由于属性本身也是属性元序列，因此候选属性的置信度可采用前向或是后向属性元序列的方法计算。我们认为种子属性的所有属性元序列的D值置为1，并在计算候选属性的属性元序列之前，先分解种子属性的属性元序列，并将其加入到Table2中。另外如果在Table2中找到了序列S的相似序列，则S的计算方式可以采用属性元序列置信度1或属性元序列置信度2中的方式，为简化陈述，我们下面给出的计算步骤仅给出了采用属性元序列置信度1定义的公式(即：用最相似的那个去计算S的置信度)计算。

对属性元序列S，令采用前向属性元序列计算其置信度D(S)的步骤为FS，FS详细的子步骤如下：

步骤FS1：如果S只有两个属性元，则能够直接计算D(S)，然后转步骤FS12；否则，执行步骤FS2。

步骤FS2：置D(S)为0。

假设S有k(k>2)个属性元。S对应的依存树为Tr.Tr的根为r(S)，且Tr的子树分别为C₁，C₂，…C_n。

步骤FS3：置i＝1。

步骤FS4：如果i大于n，则转步骤FS12；否则执行步骤FS5。

步骤FS5：找到一个最大值t，使得属性元序列在Table2中存在相似的序列，如果存在这样的t，则在Table2找到那个最相似的序列，标记它为AES1，转步骤FS6；否则如果找不到t，则转步骤FS8。

步骤FS6：使用AES1计算的置信度，标记其为e，将该值存储在Table2中。计算将结果累加到D(S)上。

步骤FS7：置i＝i+t+1；转步骤FS4。

步骤FS8：调用FS递归的计算AES(C_i)和AES(C_i，r(S))的D值，令其分别为p₁和p₂，将其存储在Table2中。

步骤FS9：计算将其结果作为序列D(AES(C_i，r(S)))的置信度，并将它存储在Table2中。

步骤FS10：计算将结果累加到D(S)上。

步骤FS11：置i＝i+1；转步骤FS4。

步骤FS12：将D(S)作为S的置信度，将其存储在Table2中。返回D(S)。

在FS的子步骤中，

(1)和为加权系数，为折减系数。

(2)r(C_i)表示(C_i)对应的依存树的根节点。

(3)若AES(C_i,r(S))的D值为且AES(C_i,r(S))在S的依存对中占的比重为则我们认为AES(C_i,r(S))对S的D值贡献为

\frac{| c_{i} |}{k - 1} \cdot p_{1} \cdot p_{2} \cdot \frac{| c_{i} | - 1}{| c_{i} |} = \frac{| c_{i} | - 1}{k - 1} \cdot p_{1} \cdot p_{2}

根据前面的计算，在包括N个属性元的词中，前向属性元序列个数介于N-1和之间，统计发现，属性中属性元个数主要集中在2—6个，参见表3。

表3：属性中属性元个数的分布

属性个数	2	3	4	5	6
						概率	0.337	0.436	0.192	0.034	0.001

另外，约70％的属性元之间是线性依存关系，因此不考虑重复，所存储的属性元序列个数期望约为2.2938。在实际中，不同属性可能有相同的属性元序列，因此有很多重复，实际所占空间不到属性空间节点数的2倍。

对属性元序列S，令采用后向属性元序列计算其置信度D(S)的步骤为BS，BS详细的子步骤如下：

令属性元序列S的属性元个数为N。

步骤BS1：置k＝N。

步骤BS2：如果k小于2，则转步骤BS6；否则，执行步骤BS3。

步骤BS3：为S找到一个长度为k的子序列S₀，保证这个子序列在Table2中存在相似的序列。如果S存在这样的子序列S₀，则继续在Table2找到与S₀那个最相似的序列，标记它为AES1，转步骤BS4；否则如果找不到这样的S₀，则转步骤BS5。

步骤BS4：使用AES1计算S₀的置信度，标记其为d₀,将其存储在Table2中；转步骤BS6。

步骤BS5：置k＝k-1；转步骤BS2。

步骤BS6：为剩下的属性元集合(S-S₀)，找到一个最大子集保证M中得每个属性元在S₀中都能找到有依存关系的属性元。那么M和(S-S₀)构成了|M|棵依存子树{S₁,S₂,…S_|M|}，调用步骤BS迭代的计算这些子树对应属性元序列的置信度，令其为：{d₁,d₂,…d_|M|}。

步骤BS7：计算将结果作为S的置信度，赋值给D(S)；将D(S)存储在Table2中，返回D(S)。

在BS的子步骤中，

(1)是加权系数。

(2)为减少计算复杂性，我们认为在|M|+1个属性元序列之间语义关系较弱，即这|M|+1棵依存子树彼此独立，在计算S的置信度时，将子树的置信度加权求和。

由于在包括N个属性元的候选属性中，后向属性元序列个数介于N-1和2^N-1-1之间。不考虑重复，所存储的属性元序列的个数期望为2.4072，实际所占空间约属性空间节点数的2倍。

另外，我们在T中查找相似属性元序列时，要求彼此的属性元序列长度(属性元的个数)相同，且相同位置的属性元具有相似关系。

则我们在步骤V4中计算属性置信度时，除了可以使用属性置信度1、属性置信度2或属性置信度3中的公式，也可以采用FS或BS中的方法。于是我们一共提出了5中属性置信度的计算方法。

我们选择地域类、商业主体类实体概念作为获取对象。因为这两大类相对具有较大的属性空间，以及较好的前后缀倾向，便于发现我们方法的优缺点。对地域类实体，我们选择“中国”、“英国”、“朝鲜”、“北京”和“荆州”作为实验对象，它们分别代表发展中国家、发达国家、社会主义国家、资本主义国家、大型现代化城市、普通中小型城市等，因此不仅具有代表性，也具有多样性。基于类似的考虑，我们在商业主体类中，选择了“中石油”、“摩根大通”、“碧桂园”、“比亚迪”和“沃尔玛”作为实验对象。

初始条件下，在后缀词典Suffixes Dictionary中有2292个元素，前缀词典Prefixes Dictionary中有1377个元素。对每组概念，我们给定一批人工验证过的种子属性。在这里，我们是对每组概念给定一批，而不是每个概念给定一批。因为对每个概念，如果都给出一批种子属性，则增大了人工作业的工作量，而且也没有必要，因为同类型的概念共同具有部分属性，因此也就具有相似的属性空间，也会很多共同的属性前后缀。例如对概念“中国”和“北京”都具有“国内生产总值”、“耕地面积”等相同或是相似的属性，同时也共享一批相同的前后缀，如“年均”、“一般”、“总量”、“面积”等。

对每组概念，我们依据前后缀词典，从种子属性中提取一组前后缀词以合成Google查询模式。

在表1和表2给出的获取模式中，作为简化，对每类获取模式我们只给出了一个通配符*的情况。在实际的Google查询模式中，我们会生成1至4个通配符，以匹配1至4个词。

对每个查询模式，我们提取Google反馈的前100项锚文本作为候选结果，经过预处理后，采用前面定义的5种验证模型(即基于属性置信度1、基于属性置信度2、基于属性置信度3、基于前向属性元序列FS、基于后向属性元序列BS)分别验证。

在属性元相似性训练时，对加权系数λ，根据多次试验，我们发现取经验值λ＝0.6时效果较好。直观的解释是：在汉语中，重心常常靠右，因此搭配相同的更重要的词，可能权重会略高些。

在属性对齐时，我们设定属性元相似度阈值。在实验中，根据经验值，设定属性元相似度大于0.1时，才认为它们之间有相似关系，则两个依存对，它们对应位置的属性元之间相似度都大于0.1时，才认为依存对之间相似。

属性空间图中，节点标记为属性，而边表示属性之间的相似关系。实际上，几乎所有的属性都能在属性空间里找到与他有相似关系的节点，而且对于每个独立的联通子图，都有已经标记了置信度的种子属性与之相连接(因为属性空间里总有和它前缀或后缀相同的属性)，因此实际的图中，若采用属性置信度1和2，对于所有的候选属性，都能计算其置信度。

在做ASS计算时，根据经验值，我们取另外我们发现属性元在某个特定位置上出现概率≥0.2时，它是正确属性元的概率高于95％，为提高准确率，我们只对两个属性元的位置概率均≥0.2的依存对计算ASS.

基于划分的验证模型(属性置信度3，FS，BS)中，有一些属性的依存对，在已经验证过的属性中找不到对应的相似关系，同时也无法通过属性空间支持度来计算(这些依存对出现的频率较低)，因此对这批属性，我们采用基于最大相似度的方式计算其置信度。最终对每个概念，我们得到5组验证结果。

其中，在FS和BS中，对已经在T中找到了相似关系的序列S，我们采用属性元序列置信度1中定义的公式计算。所述T并不是Table1和Table2。所述T是由种子属性和候属性A＂构成的集合。在这里给出了“步骤V2：将Seeds和候选属性As″加入到集合T.”，就是这个T。T是我们经过预处理以后的所有属性(正确的，候选待验证的)构成的集合，用T来构建当前概念的属性空间，并在此属性空间上对候选属性进行验证。

我们对未进行验证的结果做抽样统计，准确率分布在65％-80％之间。理想情况下，根据我们的验证模型计算后，越是正确属性，置信度则越高，错误的结果得到的置信度最低；如果我们对计算后的结果依据置信度做倒序排序，那么理想情况下，前80％的结果应集中了所有的正确结果。在统计中，我们认定这80％的结果作为正确结果。表4和表5是经过一轮迭代后的获取结果，其中验证后的准确率也就是前80％结果的准确率。

表4：地域类概念的获取结果

表5：商业主体类概念的获取结果

实验结果表明，我们提出的基于前后缀迭代的获取方法得到的初始结果也具有较高的准确率，经过验证后，准确率又有了较大的提升。

另外，在5组验证模型中，基于最大相似度和基于最大置信度的验证效果较为接近，我们认为原因是这两种模型考虑的基本因素是一致的；而基于划分的验证效果较佳，因为这种验证模型考虑了属性中的每个依存对。但是基于划分的验证模型无法计算所有的属性置信度，对于它不能计算的部分，必须借用其他的验证模型。

基于前向和后向属性元序列的验证模型尽管考虑了中文属性的语法结构，但由于计算高度依赖于属性元序列的切分，以及相似属性元序列的比较和对齐。而这两种运算都很难得到很高的准确率，同时，大部分属性只包含2,3个属性元，且搭配结构简单，对它们来说，这2种模型的计算效果与基于划分的效果等价。所以综合来看，这2种模型的验证效果相比基于划分的验证，并没有明显的提高。同时，基于前向和后向属性元序列的验证模型本质上也是基于划分的，因此也存在模型3的缺点。

如图2所示，本发明公开一种迭代式概念属性名称自动获取系统，包括：

建立属性空间模块10，用于将需要获取的概念名称，建立属性空间，所述属性空间包含以属性构成的概念名称；

属性前后缀模块20，用于从属性空间中选择属性前缀和/或属性后缀，从网页中提取候选属性；

扩充属性模块30，用于采用基于相似性的验证模型对候选属性进行验证，通过迭代方式扩充属性前缀和/或属性后缀。

所述的迭代式概念属性名称自动获取方法，还包括：

清空前缀模块，用于清空PREnew；

置信度推导模块，用于由A'推导出A的属性置信度D(A'→A)。

生成依存对的置信度1：D₁(P)＝D(A_i→P)；

生成属性的置信度2:D₂(A)＝argmax_iD(A_i→A)；

生成依存对的置信度2：D₂(P)＝argmax_iD(A_i→P)；

生成属性置信度3：其中，t为划分个数；

加权系数SimPair(A_i,A)表示A_i与A相似对的个数；

所述的迭代式概念属性名称自动获取系统，还包括：

其中，

和为加权系数，为折减系数；

r(C_i)表示(C_i)对应的依存树的根节点；

\frac{| c_{i} |}{k - 1} \cdot p_{1} \cdot p_{2} \cdot \frac{| c_{i} | - 1}{| c_{i} |} = \frac{| c_{i} | - 1}{k - 1} \cdot p_{1} \cdot p_{2} .

其中，

是加权系数，

该发明可广泛应用于人工智能计算机领域中的大规模知识获取领域，特别是从Web中大规模迭代式地获取概念的属性，以及属性值获取等领域。

本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下，还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明，而是由权利要求书的范围来确定的。

Claims

1.一种迭代式概念属性名称自动获取方法，其特征在于，包括如下步骤：

步骤3，采用基于相似性的验证模型对候选属性进行验证，通过迭代方式扩充属性；

其中，所述步骤1还包括如下步骤：

步骤22，出现在结尾的中心属性元，定义为属性后缀，出现在开头的修饰性属性元，定义为属性前缀；

其中，所述步骤3中基于相似性的验证模型还包括如下步骤：

步骤92，在概念的属性空间中，如果在属性空间中两个属性元AE₁和AE₂频繁修饰相同的属性元，那么AE₁和AE₂之间的相似度较高；反之，则相似度越低；步骤93，在属性元相似度基础上，以依存对相似度作为属性元依存对之间相似程度的定量表示；

其中，所述步骤93还包括如下步骤：

步骤96，由A'推导出A的属性置信度D(A'→A)。

2.如权利要求1所述的迭代式概念属性名称自动获取方法，其特征在于，步骤3中扩充属性还包括如下步骤：

步骤31，将得到的正确属性作为种子，加入到集合Seeds中；

步骤37，从As中训练新的前缀，加入到PREnew中；

步骤,39，验证As′，得到的正确属性赋值给As，并将As加入到属性空间中；

步骤310，清空PREnew；

步骤311，从As中训练新的后缀，加入到SUFnew中；转步骤34。

3.如权利要求2所述的迭代式概念属性名称自动获取方法，其特征在于，步骤32、步骤311还包括如下步骤：

步骤41，清空SUFnew；

步骤43，得到A的结尾词，标记为属性元AE；

步骤46：返回SUFnew。

4.如权利要求2所述的迭代式概念属性名称自动获取方法，其特征在于，步骤33、步骤37还包括如下步骤：

步骤51，清空PREnew；

步骤52，从输入参数Input的第1个属性起，顺序地取出下一个属性；如果Input中的属性都取完，则转步骤56；否则，标记取到的属性为A，执行步骤53；

步骤53，得到A的开头词，标记为AE；

步骤56，返回PREnew。

5.如权利要求2所述的迭代式概念属性名称自动获取方法，其特征在于，步骤35还包括如下步骤：

步骤64，返回As′。

6.如权利要求2所述的迭代式概念属性名称自动获取方法，其特征在于，步骤38还包括如下步骤：

步骤71，从PREnew的第1个属性前缀起，其中PREnew中为属性前缀，顺序地取出下一个属性前缀；如果PREnew中的属性前缀都取完，则转步骤74；否则，标记取到的属性前缀为PRE，执行步骤72；

步骤74，返回As′。

7.如权利要求2所述的迭代式概念属性名称自动获取方法，其特征在于，步骤36、步骤39还包括如下步骤：

步骤82，对As″进行验证，得到验证后的正确属性As。

8.如权利要求1所述的迭代式概念属性名称自动获取方法，其特征在于，步骤96还包括如下步骤：

步骤98，生成依存对的置信度1：D₁(P)＝D(A_i→P)；

步骤99，生成属性置信度2:D₂(A)＝argmax_iD(A_i→A)；

步骤910，生成依存对的置信度2：D₂(P)＝argmax_iD(A_i→P)；

步骤911，生成属性置信度3：其中，t为划分个数；

加权系数SimPair(A_i,A)表示A_i与A相似对的个数；

9.如权利要求7所述的迭代式概念属性名称自动获取方法，其特征在于，步骤82还包括如下步骤：

步骤121，将Seeds中的所有种子属性的置信度D标记为1；

步骤122，将Seeds和候选属性As″加入到集合T；

步骤123，为T构造属性空间图G；

10.如权利要求9所述的迭代式概念属性名称自动获取方法，其特征在于，步骤123还包括如下步骤：

步骤131，初始化所述图G为空；

步骤132，从T的第1个属性起，顺序地取出下一个属性；如果T中的属性都取完，则结束步骤123；否则，标记取到的属性为A，执行步骤133；

步骤133，在T中，从A的下一个属性起，依次顺序地向下取下一个属性；如果已经取不到属性，则转步骤132；否则标记当前取到的属性为A'，执行步骤134；

11.如权利要求9所述的迭代式概念属性名称自动获取方法，其特征在于，步骤123还包括：

步骤141：初始化G为空；

步骤143：在T中，从A的下一个属性起，依次顺序地向下取下一个属性；如果已经取不到属性，则转步骤142；否则标记当前取到的属性为A'，执行步骤144；

12.如权利要求1所述的迭代式概念属性名称自动获取方法，其特征在于，步骤3中对于候选属性进行验证还包括：

步骤152，属性元序列的个数为其中N为属性元属性的个数。

13.如权利要求12所述的迭代式概念属性名称自动获取方法，其特征在于，步骤152还包括：

14.如权利要求13所述的迭代式概念属性名称自动获取方法，其特征在于，步骤162之后还包括：

步骤172，生成属性元序列置信度2：D₂(S)＝argmax_iD(S_i→S)。

15.如权利要求14所述的迭代式概念属性名称自动获取方法，其特征在于，步骤161还包括：

前向属性元序列计算其置信度D(S)的步骤为：

步骤182：置D(S)为0；

步骤183：置i＝1；

步骤184：如果i大于n，则转步骤1812；否则执行步骤185；

步骤185：找到一个最大值t，使得属性元序列AES(C_i，C_i+1...C_i+t，r(S))在Table2中存在相似的序列，如果存在t，则在Table2找到最相似的序列，标记为AES1，转步骤186；否则如果不存在t，则转步骤188；

步骤186：使用AES1计算AES(C_i，C_i+1...C_i+t，r(S))的置信度，标记其为e，将该值存储在Table2中，计算将结果累加到D(S)上；

步骤187：置i＝i+t+1；转步骤184；

步骤1810：计算将结果累加到D(S)上；

步骤1811：置i＝i+1；转步骤184；

在前向属性元序列的子步骤中，

和为加权系数，为折减系数；

r(C_i)表示(C_i)对应的依存树的根节点；

\frac{| C_{i} |}{k - 1} \cdot p_{1} \cdot p_{2} \cdot \frac{| C_{i} | - 1}{| C_{i} |} = \frac{{| C}_{i} | - 1}{k - 1} \cdot p_{1} \cdot p_{2} .

16.如权利要求14所述的迭代式概念属性名称自动获取方法，其特征在于，步骤162还包括：

步骤191：置k＝N；

步骤192：如果k小于2，则转步骤196；否则，执行步骤193；

步骤195：置k＝k-1；转步骤192；

步骤196：为剩下的属性元集合(S-S0)，找到一个最大子集保证M中的每个属性元在S₀中都能找到有依存关系的属性元，那么M和(S-S₀)构成了|M|棵依存子树{S₁,S₂,...S_|M|}，调用后向属性元序列迭代的计算这些子树对应属性元序列的置信度，令其为：{d₁,d₂,...d_|M|}；

在后向属性元序列的子步骤中，

是加权系数，

17.一种迭代式概念属性名称自动获取系统，其特征在于，包括：

扩充属性模块，用于采用基于相似性的验证模型对候选属性进行验证，通过迭代方式扩充属性；

其中，所述建立属性空间模块还包括：

属性元定义模块，用于出现在结尾的中心属性元，定义为属性后缀，出现在开头的修饰性属性元，定义为属性前缀；

其中，所述扩充属性模块还包括：

依存对模块，用于在属性元相似度基础上，以依存对相似度作为属性元依存对之间相似程度的定量表示；

其中，所述依存对模块还包括：

置信度推导模块，用于由A'推导出A的属性置信度D(A'→A)。

18.如权利要求17所述的迭代式概念属性名称自动获取系统，其特征在于，扩充属性模块还包括：

清空前缀模块，用于清空PREnew；

19.如权利要求18所述的迭代式概念属性名称自动获取系统，其特征在于，种子中训练后缀模块、正确属性中训练后缀模块，还包括：

训练后缀模块，用于清空SUFnew；从输入参数的第1个属性起，顺序地取出下一个属性；如果输入参数中的属性都取完，则返回SUFnew；否则，标记取到的属性为A，得到A的结尾词，标记为属性元AE；得到A的结尾词，标记为属性元AE；判断AE是否已经被当做后缀使用过；如果AE在后缀词典中，则将AE加入到SUFnew；否则如果AE在输入参数中作为结尾词的频率大于等于阈值s，也将AE加入到SUFnew；返回SUFnew。

20.如权利要求18所述的迭代式概念属性名称自动获取系统，其特征在于，种子中训练前缀模块、正确属性中训练前缀模块还包括：

21.如权利要求18所述的迭代式概念属性名称自动获取系统，其特征在于，获取后缀候选属性模块还包括：

22.如权利要求18所述的迭代式概念属性名称自动获取系统，其特征在于，获取前缀候选属性模块还包括：

23.如权利要求18所述的迭代式概念属性名称自动获取系统，其特征在于，正确属性赋值模块还包括：

24.如权利要求17所述的迭代式概念属性名称自动获取系统，其特征在于，属性对齐模块还包括：

生成依存对的置信度1：D₁(P)＝D(A_i→P)；

生成属性的置信度2:D₂(A)＝argmax_iD(A_i→A)；

生成依存对的置信度2：D₂(P)＝argmax_iD(A_i→P)；

生成属性置信度3：其中，t为划分个数；

加权系数SimPair(A_i,A)表示A_i与A相似对的个数；

25.如权利要求23所述的迭代式概念属性名称自动获取系统，其特征在于，预处理模块还包括：

26.如权利要求25所述的迭代式概念属性名称自动获取系统，其特征在于，构造空间图模块还包括：

空间图建立模块，用于初始化所述图G为空；从T的第1个属性起，顺序地取出下一个属性；判断T中的属性是否都取完，标记取到的属性为A，在T中，从A的下一个属性起，依次顺序地向下取下一个属性,判断是否取完，标记当前取到的属性为A'，如果G中不存在节点A，则在G中为A增加一个节点，并对A做属性元分解和依存关系解析；如果G中不存在节点A'，则在G中为A'增加一个节点，并对A'做属性元分解和依存关系解析；如果A和A'相似，则构造从A到A'的无向边。

27.如权利要求25所述的迭代式概念属性名称自动获取系统，其特征在于，构造空间图模块还包括：

28.如权利要求17所述的迭代式概念属性名称自动获取系统，其特征在于，扩展属性模块还包括：

29.如权利要求28所述的迭代式概念属性名称自动获取系统，其特征在于，序列个数模块还包括：

30.如权利要求29所述的迭代式概念属性名称自动获取系统，其特征在于，还包括：

31.如权利要求29所述的迭代式概念属性名称自动获取系统，其特征在于，前向属性元序列模块还包括：

前向属性元序列置信度计算模块，用于如果子序列只有两个属性元，则能够直接计算D(S)，置D(S)为0；假设子序列有k个属性元，其中k>2；子序列对应的依存树的根为r(S)，且依存树的根的子树分别为C₁，C₂，…C_n；其中，n为正整数；置i＝1；判断i是否大于n，找到一个最大值t，使得属性元序列AES(C_i，C_i+1...C_i+t，r(S))在Ta^bl^e2中存在相似的序列，判断是否存在t，则在Table2找到最相似的序列，标记为AES1，使用AES1计算AES(C_i，C_i+1...C_i+t，r(S))的置信度，标记其为e，将该值存储在Table2中，计算将结果累加到D(S)上；置i＝i+t+1；调用前向属性元序列递归的计算AES(C_i)和AES(C_i，r(S))的置信度值，令其分别为p₁和p₂，将其存储在Table2中；计算将其结果作为序列D(AES(C_i，r(S)))的置信度，并将它存储在Table2中；计算将结果累加到D(S)上；置i＝i+1；将D(S)作为S的置信度，将其存储在Table2中；返回D(S)；

其中，

和为加权系数，为折减系数；

r(C_i)表示(C_i)对应的依存树的根节点；

\frac{| C_{i} |}{k - 1} \cdot p_{1} \cdot p_{2} \cdot \frac{| C_{i} | - 1}{| C_{i} |} = \frac{{| C}_{i} | - 1}{k - 1} \cdot p_{1} \cdot p_{2} .

32.如权利要求29所述的迭代式概念属性名称自动获取系统，其特征在于，后向属性元序列模块还包括：

后向属性元序列置信度计算模块，用于对属性元子序列S，令属性元子序列的属性元个数为N，其中N为正整数，置k＝N；判断k是否小于2，为子序列找到一个长度为k的子序列S₀，保证这个子序列在Table2中存在相似的序列；如果子序列存在这样的子序列S₀，判断继续在Table2找到与S₀那个最相似的序列，标记为AES1，否则如果找不到S₀，使用AES1计算S₀的置信度，标记其为d₀,将其存储在Table2中；置k＝k-1；为剩下的属性元集合(S-S₀)，找到一个最大子集保证M中的每个属性元在S₀中都能找到有依存关系的属性元，那么M和(S-S₀)构成了|M|棵依存子树{S₁,S₂,...S_|M|}，调用后向属性元序列迭代的计算这些子树对应属性元序列的置信度，令其为：{d₁,d₂,...d_|M|}；计算将结果作为子序列的置信度，赋值给D(S)；将D(S)存储在Table2中，返回D(S)；

其中，

是加权系数，