CN103678643B

CN103678643B - 一种针对关联关系的语义区分能力度量方法

Info

Publication number: CN103678643B
Application number: CN201310713258.1A
Authority: CN
Inventors: 胡传平; 徐峥; 齐力; 梅林�; 支凤麟; 梁辰; 骆祥峰; 魏晓; 张顺香
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2017-02-08
Anticipated expiration: 2033-12-20
Also published as: CN103678643A

Abstract

本发明公开了针对关联关系的语义区分能力度量方法，该方法建立在语义区分模型的基础上，语义区分模型是文档空间密度与抽取某关键词的文档空间密度的差，并用函数来模拟语义区分模型,根据统计和图论的特征提出五种不同的策略，利用一定规模的数据验证了，建立在语义区分模型基础上语义区分能力计算方法具有高相关特性，从而证明了该方法的准确性。更重要的是，该专利将该方法应用于文档聚类分析中，表明语义区分能力在处理数据挖掘任务时更具有发展前景。同时本方案用函数来模拟语义区分模型，降低了语义区分能力计算的复杂度。

Description

一种针对关联关系的语义区分能力度量方法

技术领域

本发明涉及数据挖掘领域，具体涉及一种基于关联关系的度量语义区分能力的方法。

背景技术

关联关系挖掘发现大量数据中项集之间有趣的关联或相关联系，随着大量数据不停地收集和存储，许多业界人士对于从他们的数据库中挖掘关联关系越来越感兴趣。从大量商务事务记录中发现有趣的关联关系，可以帮助许多商务决策的制定。如分类设计、交叉购物和贱卖分析。虽然可以从数据库中挖掘大量的关联关系，但是关联关系在知识发现之前已被挖掘，且度量关联关系方法中很少将语义考虑在内，所以大多数关联关系是缺乏语义的。

度量关联关系包括客观的和主观的方法，客观的方法主要有兴趣度度量、相关性分析和挖掘压缩或关联关系的近似集。支持度和置信度是主要的兴趣度度量标准，分别反映关系的有用性和确定性。主观的方法主要依靠用户对关联关系的检验。

为了度量概念词的语义区分能力，Salton提出语义区分模型，即文档空间密度与抽取某关键词的文档空间密度的差，文档空间密度是在文档空间中任意两个文档之间相似度的平均。但是该算法对于m个文档n个关键词，语义区分能力计算的复杂度是，这样对于大量文档的收集是不现实的。与Salton不同，Cai利用信息论的知识来计算语义区分能力，提出的语义区分模型是语义区分能力是支持一类文档拒绝其它类文档的程度。

综上所述，大量的关联关系被挖掘，但是度量关联关系的主观和客观的方法中很少将语义考虑在内，所以大多数关联关系是缺乏语义的；同时，现有语义区分能力的度量计算的复杂度非常高的，需要花费大量时间来进行计算，效率低下。

发明内容

针对现有语义区分能力的度量方法所存在的大多数关联关系是缺乏语义，且度量计算的复杂度高等问题，本发明的目的在于提供一种针对关联关系的语义区分能力度量方法，以解决现有技术所存在的问题。

为了达到上述目的，本发明采用如下的技术方案：

一种针对关联关系的语义区分能力度量方法，所述度量方法建立在语义区分模型的基础上，选择五个统计与图论方面的参数，用函数来模拟语义区分模型，再利用由函数来模拟的语义区分模型进行语义区分能力度量。

在本方案的优选实例中，所述五个统计与图论方面的参数分别为：

（1）关联关系的支持度，在文档空间中为篇频；

（2）关联关系前键的支持度；

（3）关联关系后键的支持度；

（4）关联关系的出度，以关键词为节点，以关联关系为边的有向图中的链；

（5）关联关系的入度，以关键词为节点，以关联关系为边的有向图中的接。

进一步的，所述用函数来模拟语义区分模型时，根据已选参数，采用了五种策略：

（1）建立与关联关系的支持度线性相关的函数；

（2）建立与入度线性相关的函数；

（3）建立与支持度和入度线性相关的函数；

（4）建立与入度非线性相关的函数，该函数与入度成指数关系；

（5）建立与支持度和关联关系的入度的非线性相关函数；

且就五种策略分别计算该函数与语义区分模型的相关系数，通过对比确定最终的用于模拟语义区分模型的函数。

进一步的，所述度量方法应用于文档聚类算法时，使用关键字和关联关系来表示文件。

本发明提供的方案能够为信息检索中客观度量关联关系提供标准，挖掘客户感兴趣的关联关系。同时本方案用函数来模拟语义区分模型，降低了语义区分能力计算的复杂度。

附图说明

以下结合附图和具体实施方式来进一步说明本发明。

图1为本发明实施的原理流程框图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

本发明提供的针对关联关系的语义区分能力度量方法，其是建立在语义区分模型的基础上，选择五个统计与图论方面的参数，根据该参数用函数来模拟语义区分模型，再利用由函数来模拟的语义区分模型对两篇文档的语义关系进行度量。

本语义区分能力度量方法，还可应用于文档聚类算法中。

由上可知，本发明提供的语义区分能力度量方法是建立在语义区分模型的基础上，这里的语义区分模型是文档空间密度与抽取某关键词的文档空间密度的差；同时，语义区分能力是支持一类文档拒绝其它类文档的程度，故语义区分模型涉及到的文档空间密度是在文档空间中任意两个文档之间相似度的平均。

由于关联关系的语义区分复杂度比较大，对于m个文档n个关键词，语义区分能力计算的复杂度是O(mn²)，所以本方法中用函数来模拟语义区分模型。用函数来模拟语义区分模型，首先要找到度量语义区分能力的参数，所以本方法中选择了五个统计与图论方面的参数。

具体的，根据关联关系的支持度，以下五个参数可以用来度量语义区分能力：

（1）关联关系的支持度，在文档空间中为篇频；

（2）关联关系前键的支持度；

（3）关联关系后键的支持度；

本方法中对于用函数来模拟语义区分模型时，根据已选参数（即前述的五个参数），采用了五种策略：

（1）建立与关联关系的支持度线性相关的函数；

（2）建立与入度线性相关的函数；

（3）建立与支持度和入度线性相关的函数；

（5）建立与支持度和关联关系的入度的非线性相关函数，该函数是Shepard定律的拓展。

最后，将这五种策略都分别计算该函数与语义区分模型的相关系数，通过对比确定第三种策略相关系数最大，所以第三种方法最优。故在实际的度量中可采用第三种函数来进行度量计算。

再者，本方法在具体实现，其可应用于文档聚类算法，进行文档聚类分析，具体操作时使用关键字和关联关系来表示文件，使用了k-means算法进行聚类。

针对上述的针对关联关系的语义区分能力度量方法的具体方案，以下通过一具体应用实例来进一步的说明。

参见图1，其所示为本实例中实现度量语义区分能力的流程图。由于可知，整个度量过程分为4步：

步骤1：输入文件集，文件集中包含大量文本文档，用D={d₁,d₂,...,d_n}(n≥2)表示输入的文件集集合，其中d_i∈D表示文本库中任意一个文档，|D|表示文件集中的文件总数。

步骤2：用关键词和关联关系表示文本文档；

1)提取每篇文本文档的关键词，d_i={k₁,k₂,...,k_m}(m≥2)表示一个文本文档中有m个词汇组成，先计算每篇文本文档中各词汇在文档中出现的次数即词频，词频用以评估词汇对文本文档的重要程度，词频越大，表示该词汇对文本文档越重要，选择词频靠前的k个词汇作为该文本文档的关键词。

2)提取关联关系，关联关系是指大量数据集中项集之间有趣的关联或相关关系。在本步骤中，提取关联关系用支持度和置信度表示，通过提取支持度和置信度公式中所需要的值，来实现提取关联关系。

具体的，关联关系是形如的蕴含式，支持度用表示，即是在文档中同时出现A和B的概率。

置信度用表示,在文档中出现A的情况下出现B的概率。

同时满足最小支持度阀值η和最小置信度阀值γ的规则称为强规则。这里的最小支持度阀值η和最小置信度阀值γ，是根据实际需求进行设定的值。

3)用提取到的关键词和关联关系表示文本文档，即用语义区分模型表示文档，语义区分模型是文档空间密度与抽取某关键词的文档空间密度的差。

步骤3：用sdc(ar_i)=α*IDAR(ar_i)-β*Support(ar_i)函数来模拟语义区分模型，其中α∈[0,1],β∈[0,1]，α，β不能同时为零。由于关联关系的语义区分复杂度比较大，所以用函数来模拟语义区分模型，其中ar_i表示关联关系,IDAR(ar_i)表示关联关系的入度，Support(ar_i)表示关联关系的支持度，取α=0.05,β=1。

通过上述内容可知，由于建立与支持度和入度线性相关的函数所得到的效果最好，故本步骤利用与支持度和入度线性相关的函数来模拟语义区分模型。

步骤4：根据步骤3中确定的函数度量出语义区分能力的值sdc₁(ar_i)。

其中，由于取α=0.05,β=1时，sdc(ar_i)的值都是负的，所以取绝对值，且sdc(ar_i)是负相关的，所以取倒数，sdc₁(ar_i)越小，说明该关联关系的语义区分能力越强。

由上可知，本方案中关联关系的语义区分能力是建立在语义区分模型的基础上，语义区分模型是文档空间密度与抽取某关键词的文档空间密度的差，并用函数来模拟语义区分模型,根据统计和图论的特征提出五种不同的策略，利用一定规模的数据验证了，建立在语义区分模型基础上语义区分能力计算方法具有高相关特性，从而证明了该方法的准确性。更重要的是，该专利将该方法应用于文档聚类分析中，表明语义区分能力在处理数据挖掘任务时更具有发展前景。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种针对关联关系的语义区分能力度量方法，其特征在于，所述度量方法建立在语义区分模型的基础上，选择五个统计与图论方面的参数，用函数来模拟语义区分模型，再利用由函数来模拟的语义区分模型进行语义区分能力度量；

所述五个统计与图论方面的参数分别为：

(1)关联关系的支持度，在文档空间中为篇频；

(2)关联关系前键的支持度；

(3)关联关系后键的支持度；

(4)关联关系的出度，以关键词为节点，以关联关系为边的有向图中的链；

(5)关联关系的入度，以关键词为节点，以关联关系为边的有向图中的接；

所述用函数来模拟语义区分模型时，根据已选参数，采用了五种策略：

(1)建立与关联关系的支持度线性相关的函数；

(2)建立与入度线性相关的函数；

(3)建立与支持度和入度线性相关的函数；

(4)建立与入度非线性相关的函数，该函数与入度成指数关系；

(5)建立与支持度和关联关系的入度的非线性相关函数；

且就五种策略分别计算每种策略建立的函数与语义区分模型的相关系数，通过对比确定最终的用于模拟语义区分模型的函数。

2.根据权利要求1所述的一种针对关联关系的语义区分能力度量方法，其特征在于，所述度量方法应用于文档聚类算法时，使用关键字和关联关系来表示文件。