CN104063502B

CN104063502B - 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法

Info

Publication number: CN104063502B
Application number: CN201410322692.1A
Authority: CN
Inventors: 龙军; 张祖平; 王鲁达; 李会玲
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2014-07-08
Filing date: 2014-07-08
Publication date: 2017-03-22
Anticipated expiration: 2034-07-08
Also published as: CN104063502A

Abstract

本发明提出了一种基于语义模型的WSDL半结构化文档的相似性分析及分类方法，利用WordNet词典建立WSDL半结构化文档语义模型，并通过最大熵模型消除词语歧义，建立WSDL半结构化文档语料库特征向量模型，生成WSDL半结构化文档的文档特征矩阵，从而对两个不同文档进行内容的分类与评估，最终得到服务功能的相似性比较。本发明所述方法提高了文档相似性判断准确度，提升了文档分类速度以及准确度，并对向量空间有降维效果。

Description

一种基于语义模型的WSDL半结构化文档相似性分析及分类方法

技术领域

本发明涉及Web服务与信息检索领域，特别涉及一种基于语义模型的WSDL半结构化文档相似性分析及分类。

背景技术

在信息检索领域，相似性和相关性分析的文档语料库的实现需要相应的表示不同文档的算法。典型的统计特征提取的方法包括TF-IDF基于词法词频率和瓦哈希基于连续条件算法。TF-IDF是当前比较实用的一个文档分类算法，在基于向量空间模型的信息检索系统中，TF-IDF算法被广泛的应用在基于关键字的信息检索中。同样的，许多文档分类方法利用词的统计数据，比如Bag-of-Words和Minwise散列被视为统计措施文档表示的特征提取。然而，在信息检索领域，忽视词汇语义词统计方法，使得文档分析词的水平停留字符串基础上而没有通过消除歧义得到更准确的特征提取。

WSDL是一个用于精确描述Web服务的文档，WSDL文档是一个遵循WSDL XML模式的XML文档。WSDL文档将Web服务定义为服务访问点或端口的集合。在WSDL中，由于服务访问点和消息的抽象定义已从具体的服务部署或数据格式绑定中分离出来，因此可以对抽象定义进行再次使用：消息，指对交换数据的抽象描述；而端口类型，指操作的抽象集合。用于特定端口类型的具体协议和数据格式规范构成了可以再次使用的绑定。将Web访问地址与可再次使用的绑定相关联，可以定义一个端口，而端口的集合则定义为服务。一个WSDL文档通常包含7个重要的元素，即types、import、message、portType、operation、binding、service元素。这些元素嵌套在definitions元素中，definitions是WSDL文档的根元素。

目前，许多文本分类算法依赖于基于统计的文档特征向量，但是，这些算法忽略了词汇条款和净化共同的信息，导致文本分类错误。

因此急需提出这一种针对WSDL半结构化文档分析不同标签元素中同义不同词的情况。

发明内容

本发明提供了一种基于语义模型的WSDL半结构化的文档相似性分析及分类方法，其目的在于，克服现有技术中文档相似性判断忽略了同义不同词的情况，从而导致判断结果准确度不高，进而影响文档分类的精度。

一种基于语义模型的WSDL半结构化的文档相似性分析方法，包括以下步骤：

步骤1：依次找出原文档中的每个原文词对应的一个或多个词根，利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集，并以每一个同义词集作为一个语义元素；

步骤2：对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集，采用数据元结构存储至语义元素的相关信息至数据表中；

步骤3：从步骤2中得到的数据表中提取相关数据进行计算，利用最大熵模型f_i(x,c)进行计算，以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根，消除词根歧义；

其中，p(c|x)条件概率函数是表示原文词x被词根c映射到的频率，α_i是原文词x在语义元素i中的频率，K是词根c涉及到的语义元素的个数总和，Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值；x表示原文档中的原文词，c表示词根，i为语义元素编号，S_i是语义元素i中包含的词根个数，P_j是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值，原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数；

步骤4：建立WSDL半结构化文档语料库特征向量模型；

使用向量空间模型SVM对原文档进行划分得到m个标签元素，依据步骤3获得的每个原文词对应的唯一词根，确定每个原文词对应的同义词集，以同义词集的个数作为每个标签元素特征向量的行数，以标签元素中的包含的段落数作为每个标签元素特征向量的列数，建立WSDL半结构化文档语料库特征向量模型；

步骤5：生成WSDL半结构化文档文本特征矩阵；

利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中，得到各标签元素向量，即WSDL半结构化文档文本特征矩阵；

步骤6：对两个不同文档按照步骤1-步骤5所述方法得到每个文档的文本特征矩阵，计算两个文本特征矩阵之间的距离，判断两个文档的相似性。

所述步骤2中所述语义元素的数据元包括：

Synset ID，同义词集唯一标识，从WordNet词典获得；

Set of Synonym，同义词集合，同义词集中的所有词根；

Weight，同义词集在原文档中被原文词映射的次数；

Sample ID，同义词集所属原文档的原文档唯一标识，由用户自行设定；

Element ID，同义词集对应在原文档中的XML元素编号；

Semantic Member，语义成员链表，以链表形式记录每个同义词集对应原文档中的原文词和每个原文词对应的词根；

Semantic Members Frequency，语义成员频率，包括语义成员链表中所涉及的每个原文词频率，同义词集在原文档中被语义成员链表中所记录的每个原文词映射的次数。

所述步骤6中两个文本特征矩阵之间的距离为余弦距离。

一种基于WSDL半结构化的文档分类方法，采用所述的一种基于语义模型的WSDL半结构化的文档相似性分析方法，采用权重邻居KNN计算公式WSDL半结构化文档所属类别的评估值，利用文档所属类别的评估值大小对文档进行分类：

其中，函数score(d,c_i)计算得到将文档d归于分类c_i的评估值；函数Sim(d,d_j)表示文档d与已知类别文档d_j的相似度，采用向量余弦距离计算；Weight_i为分类权重设定值；函数δ(d_j,c_i)表示若文档d_j属于类别c_i，则该函数取值为1，否则，该函数取值为0；i表示第i类文档。

有益效果

本发明提出了一种基于语义模型的WSDL半结构化文档相似性分析及分类方法，它包括两个方面的改进：(1)根据WordNet词典形成词语的语义特征向量模型；(2)通过最大熵模型消除词根歧义；

与传统的统计特征提取的方法相比，本发明采用WordNet词典提取出的同义词集形成的语义元素，通过记录同义词集在原文档中对应原文词的次数，以及同义词集在原文档中对应原文词的词根的次数，通过最大熵模型的计算，消除词根歧义，使得每个原文词对应一个同义词集，得到了一个唯一的含义；接着采用向量模型，对文档中的标签元素利用语义元素进行表征，形成文本特征矩阵；最后利用矩阵之间的距离大小来判断文档的相似性；利用相似性的结果对文档进行分类。

从实证的角度，采用了广受认可的传统算法NWKNN，并对Reuter-21758和其调整后的版本进行了比较实验，实验结果定量的展示了本发明所述方法的明显优势，提高了文档相似性判断准确度，提升了文档分类速度以及准确度，并对向量空间进行了降维。

附图说明

图1为本发明所述方法的流程图；

图2为XML格式文档样例图

图3为对原文词提取同义词集的示意图；

图4为图3的实例示意图；

图5为语义成员链表示意图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

如图1所示，为本发明所述的流程图，一种基于语义模型的WSDL半结构化的文档相似性分析方法，包括以下步骤：

通过对文档语料库分析，依赖词义统计会丢失涉及同义词的交互信息，因此我们利用WordNet词典(英语词汇数据库)建立基于WSDL半结构化文档原文词。在WordNet词典中一个表格是由一个ASCII字符的字符串表示，一个词的意思由这些同一词集组成。同义是WordNet词典的基本关系，因为WordNet词典利用这些同义词集来表示词的含义。

如图2所示，DocA和DocB是两个简单的XML文档被看作两个文档样本，如图3所示，一个原文词word对应一个或多个同义词集synonym set。

如图4所示，通过WordNet词典查找出human和man的同义词homo，从而得到原文词。

所述步骤2中所述语义元素的数据元包括：

Synset ID，同义词集唯一标识，从WordNet词典获得；

Set of Synonym，同义词集合，同义词集中的所有词根；

Weight，同义词集在原文档中被原文词映射的次数；

Element ID，同义词集对应在原文档中的XML元素编号；

利用语义元素来提取文档词语语义特征，并以词语语义特征向量表示一个样本文档。在每一个语义元素中，它的原文词的词尾变化以及词根的基本形式被语义元素链表收录。根据WordNet词典，每当一个原文词涉及多个的词根，语义成员链表会扩展原文词的节点来记录词根，如图4所示语义成员链表。

最大熵模型表示语义元素i在语义成员中的多样性，并以Shannon-Wiener指数的形式表示。

根据WordNet词典的框架，每当一个原文词的被多组同义词集映射到，通过ME模型(最大熵模型)计算出哪组同义词词集最符合文档内容要求。ME模型(最大熵模型)是把来自多个异构词根按信息进行分类的框架。在我们的模型中，我们假设语义成员的多样性表示的语义元素的意义和存在的语义成员的合理性。

步骤4：建立WSDL半结构化文档语料库特征向量模型；

依据XML文档规则对原文档进行解析得到m个标签元素，依据步骤3获得的每个原文词对应的唯一词根，确定每个原文词对应的同义词集，以同义词集的个数作为每个标签元素特征向量的行数，以标签元素中的包含的段落数作为每个标签元素特征向量的列数，每个段落标号为步骤2中记录的XML编号，建立WSDL半结构化文档语料库特征向量模型；

建立标签元素特征向量是为了便于找出WSDL文档中相同标签元素之间对应的词语语义相似性，具体公式如下：

Δ_x＝[Δ_x(1)，Δ_x(2)，……，Δ_x(m)] (3)

其中Δ_x∈R^n×m,m表示文档中标签元素的数量，n表示语义元素的个数，Δ_x(i)表示WSDL文档中标签元素e_i的特征向量。

在本实例当中同样可以得到词频向量特征模型：

其中，e_i为标签元素，w_j表示语义元素在原文档所在的标签元素中出现的次数；

步骤5：生成WSDL半结构化文档文本特征矩阵；

所述步骤6中两个文本特征矩阵之间的距离为余弦距离。

一种基于语义模型的WSDL半结构化的文档分类方法，采用所述的一种基于语义模型的WSDL半结构化的文档相似性分析方法，采用权重邻居KNN计算公式WSDL半结构化文档所属类别的评估值，利用文档所属类别的评估值大小对文档进行分类：

为了评估文档分类系统，我们使用如下F1函数。这一函数结合查全率Recall和查准率Precision的F1函数如下：

运用F1函数，我们可以观察到一个文档分类系统不同类型对数据的影响。为便于比较，我们总结了F1的分数比使用宏观平均值F1分数的不同类别，于此同时，我们可以得到Macro-Recall和Macro-Precision。

通过表1比较TF-IDF向量和本发明提出的Lexical-semantic向量得出我们的相似性方法更精确、有效。

表1 TF-IDF向量和Lexical-semantic向量比较

可以看到，表1中所述本发明提出的Lexical-semantic向量，得到的分类结果明显高于现有技术中TF-IDF向量，尤其是平均准确率由原有的48.6702％提高到70.1861％。

Claims

1.一种基于语义模型的WSDL半结构化文档相似性分析方法，其特征在于，包括以下步骤：

p (c | x) = \frac{1}{Z (x)} Π_{i = 1}^{K} α_{i}^{f_{i} (x, c)}

步骤4：建立WSDL半结构化文档语料库特征向量模型；

步骤5：生成WSDL半结构化文档文本特征矩阵；

2.根据权利要求1所述的基于语义模型的WSDL半结构化文档相似性分析方法，其特征在于，所述步骤2中所述语义元素的数据元包括：

Synset ID，同义词集唯一标识，从WordNet词典获得；

Set of Synonym，同义词集合，同义词集中的所有词根；

Weight，同义词集在原文档中被原文词映射的次数；

Element ID，同义词集对应在原文档中的XML元素编号；

3.根据权利要求1或2所述的基于语义模型的WSDL半结构化文档相似性分析方法，其特征在于，所述步骤6中两个文本特征矩阵之间的距离为余弦距离。

4.一种基于语义模型的WSDL半结构化文档分类方法，其特征在于，采用权利要求1-3任一项所述的一种基于语义模型的WSDL半结构化文档相似性分析方法，采用权重邻居KNN计算公式WSDL半结构化文档所属类别的评估值，利用文档所属类别的评估值大小对文档进行分类：

s c o r e (d, c_{i}) = {Weight}_{i} (\underset{d_{f} &Element; K N N (d)}{Σ} S i m (d, d_{j}) δ (d_{j}, c_{i}))