CN101655857A

CN101655857A - 基于关联规则挖掘技术挖掘建设法规领域数据的方法

Info

Publication number: CN101655857A
Application number: CN200910023991A
Authority: CN
Inventors: 苏变萍; 金维兴; 董丽丽; 侯筱婷
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2009-09-18
Filing date: 2009-09-18
Publication date: 2010-02-24
Anticipated expiration: 2029-09-18
Also published as: CN101655857B

Abstract

本发明公开了一种基于关联规则挖掘技术挖掘建设法规领域数据的方法，第一步生成建设法规文本向量空间模型，第二步生成建设法规数据向量空间模型：第三步由建设法规数据向量空间模型转置生成建设法规数据特征向量空间模型，即生成频繁特征集，第四步进行建设法规数据关联度计算并输出关联规则。该方法可对建设法规领域数据进行挖掘，为用户对数据的查询提供较高的查全率和推荐相关联的查询内容，解决了现有关联分析技术不能对离群数据的关联分析的技术难题。

Description

基于关联规则挖掘技术挖掘建设法规领域数据的方法

技术领域

本发明涉及自然语言处理领域中对文本特征进行数据挖掘的方法，属于国际专利分类(IPC)的子类G06F17/27，特别涉及基于关联规则挖掘技术挖掘建设法规领域数据的方法。

背景技术

建设法规数据是非结构化数据，面向建设法规数据的挖掘技术属于文本挖掘技术的研究范畴。所谓文本挖掘(Text Mining)是指利用数据挖掘技术从大量非结构化的、异构的文本集合中发现新颖的、潜在可用的及最终可以理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的过程。文本数据有比数值性的结构化数据更加丰富复杂的内涵，文本挖掘研究的主要任务是分析文本的内容，发现文本数据集的特征、文本之间的相互关系和相互作用。采用的挖掘技术主要有：分词、特征选择、降维、关联分析、分类、聚类、推技术及文本自动摘要，它涉及多个交叉学科，包括机器学习、统计学、模式识别、数据分析和Web信息搜索等。

Agrawal等，于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。

1、关联规则挖掘过程、分类及其相关算法

1.1关联规则挖掘的过程

关联规则挖掘过程主要包含两个阶段：第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets)，第二阶段再由这些高频项目组中产生关联规则(Association Rules)。

关联规则挖掘的第一阶段必须从原始资料集合中，找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。一项目组出现的频率称为支持度(Support)，以一个包含A与B两个项目的2-itemset为例，我们可以经由公式：

求得包含{A，B}项目组的支持度，若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时，则{A，B}称为高频项目组。一个满足最小支持度的k-itemset，则称为高频k-项目组(Frequent k-itemset)，一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1，直到无法再找到更长的高频项目组为止。

关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则，是利用前一步骤的高频k-项目组来产生规则，在最小信赖度(Minimum Confidence)的条件门槛下，若一规则所求得的信赖度满足最小信赖度，称此规则为关联规则。例如：经由高频k-项目组{A，B}所产生的规则AB，其信赖度可经由公式：

求得，若信赖度大于等于最小信赖度，则称AB为关联规则。

关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值)，数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。

1.2关联规则的分类

按照不同情况，关联规则可以进行分类如下：

1.2.1基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。

布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。例如：性别＝“女”＝＞职业＝“秘书”，是布尔型关联规则；性别＝“女”＝＞avg(收入)＝2300，涉及的收入是数值类型，所以是一个数值型关联规则。

1.2.2基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。

在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。例如：IBM台式机＝＞Sony打印机，是一个细节数据上的单层关联规则；台式机＝＞Sony打印机，是一个较高层次和细节层次之间的多层关联规则。

1.2.3基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的：

在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。例如：啤酒＝＞尿布，这条规则只涉及到用户的购买的物品；性别＝“女”＝＞职业＝“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。

1.3关联规则挖掘的相关算法

1.3.1Apriori算法：使用候选项集找频繁项集

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

该算法的基本思想是：算法根据频繁项集的概念，首先寻找1-频繁项集L₁，利用1-频繁项集L₁两两组合产生2-候选项集C₂，在C₂中寻找2-频繁项集L₂，再利用2-频繁项集L₂中有重叠部分的两频繁项集的两两组合产生3-候选项集C₃，依次下去直到某个C_k+1为空。算法引入修剪技术来减少侯选集C_k的大小，即如果C_k中某个侯选集有一个k-1子集不属于L_k，则这个项集可以被修剪掉不再考虑，由此显著地改进了生成频繁项集算法的性能。然后利用置信度给出关联规则。

Apriori算法存在的主要缺陷是在寻找频繁项集的过程中：(1)最小支持度阈值的确定比较困难可能会导致大量候选集的产生；(2)需要重复的扫描数据库k次。优点是在阈值不太低时算法是快速有效的，由此该算法在关联分析中目前仍占据着主流地位。

1.3.2基于划分的算法

Savasere等，设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块，每次单独考虑一个分块并对它生成所有的频集，然后把产生的频集合并，用来生成所有可能的频集，最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存，每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的，可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后，处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈；而另一方面，每个独立的处理器生成频集的时间也是一个瓶颈。

1.3.3FP-树频集算法

FP-growth算法的基本思想：算法采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频繁项集压缩进一棵频繁模式树(FP-tree)，同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库，每个库和一个长度为1的频集相关，然后再对这些条件库分别进行频繁项挖掘。

该算法存在的主要缺陷是：由于树的构建需要高的内存和一定的时间，当数据库规模太大或支撑度阈值太低时，算法的执行效率依然很低。主要优点是：(1)事务集压缩成比原始数据集小得多的数据结构，避免三次及其以上扫描原始数据集；(2)基于FP-tree的挖掘算法采用模式增长的方法避免产生大量候选集；(3)利用分治策略将原来基于整个事务集的挖掘任务分解成若干个基于条件事务集的较小的挖掘任务，使其搜索空间减少。FP-Growth算法目前还不能完全取代Apriori算法的地位。

1.3.4其它关联规则挖掘算法

自1994年Agrawal等提出的著名关联规则挖掘算法Apriori至今诞生了大量的相关研究成果。代表性的有：1995年Skikant和Agrawal以概化关联规则形式展开的研究，并提出了R-兴趣度量，用来删除冗余规则；Han对多层关联规则的发现进行了研究；Savasere等人提出了分割数据的Partiton算法；1996年Cheung等首先研究了增量式发掘关联规则，提出了FUP算法；Srikant和Agrawal引入了从既包含定量又包含范畴数据的大型关系表中挖掘定量关联规则的问题；1997年Kamber提出了用量化属性的静态离散化和数据立方体挖掘多维关联规则的方法；Zaki等提出了并行的关联规则发现算法；基于距离的关联规则发现算法首先由Miller等人提出；1998年Zaki研究了概念格上进行频繁项集的关联规则的挖掘方法；Bayardo等人做了最大频繁模式挖掘研究；1999年Pasquier等人提出了挖掘频繁闭合项集的方法；基于约束的关联规则发现在一些文献中有所表述。

2000年，不产生候选项集的FP-growth关联规则挖掘方法诞生，关联规则挖掘算法向水平和垂直两个方向发展。G.I.Webb等人给出了一种不需要发现频繁项集，而直接找到用户感兴趣的关联规则的经典一步走方法。2001年Schuster给出了分布的关联规则发现算法；基于用户存取交易文法的序列关联规则被发现。2002年Zaki等提出了在频繁项目集上挖掘无冗余关联规则的算法。2003年快速频繁模式增长的关联规则挖掘被研究。2004年应用改进遗传算法优化关联规则的挖掘被研究。2005年基于新关联规则挖掘的入侵探测系统被研究。2006年蛋白序列中定量关联规则的挖掘被研究。2007年在线关联规则的产生被研究。图象数据库中空间关联规则被挖掘。2008年应用遗传算法识别无需最小支持度的关联规则，来自多数据源关联规则的整合被提了出来；关联规则被应用于探测信誉卡欺诈行为和智能管理系统的研发中。

2.关联规则挖掘技术在国内外的应用

就目前而言，关联规则挖掘技术已经被广泛应用在西方金融行业企业中，它可以成功预测银行客户需求。一旦获得了这些信息，银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息，供使用本行ATM机的用户了解。如果数据库中显示，某个高信用限额的客户更换了地址，这个客户很有可能新近购买了一栋更大的住宅，因此会有可能需要更高信用限额，更高端的新信用卡，或者需要一个住房改善贷款，这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候，数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点，同时也可以显示出顾客会对什么产品感兴趣。

同时，一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘，然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售，也就是购买某种商品的顾客会看到相关的另外一种商品的广告。

但是目前在我国，“数据海量，信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能，却无法发现数据中存在的各种有用的信息，譬如对这些数据进行分析，发现其数据模式及特征，然后可能发现某个客户、消费群体或组织的金融和商业兴趣，并可观察金融市场的变化趋势。可以说，关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。

大量研究从不同的角度对关联规则做了扩展，将更多的因素集成到关联规则挖掘方法之中，以此丰富关联规则的应用领域，拓宽支持管理决策的范围。如考虑属性之间的类别层次关系，时态关系，多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面，即扩展经典关联规则能够解决问题的范围，改善经典关联规则挖掘算法效率和规则兴趣性。

从已有的研究可见，关联规则的问题已经被深入和广泛地研究，在各个研究方向上取得了一定的研究成果。总体来讲，关联规则获取的关键是频繁项集的发现，根据Apriori算法存在的问题采用如剪枝策略、抽样策略、分而治之分片策略、建立频繁模式树的快速启发式和搜索策略，采用充分利用硬件资源的分布、并行策略来改进关联规则挖掘方法。在各种改进关联规则的方法中新的问题也随之产生，如抽取样本的方法和抽样复杂性估计问题，硬件资源使用的成本问题等等。因此，在当前大规模数据库处理任务下，设计扩展性好、效率高的关联规则挖掘算法仍是目前关联规则挖掘领域所面临的一个主要问题和挑战。

现有的关联规则挖掘方法主要针对的是结构化数据，部分针对非结构化数据，但对领域文本这类非结构化数据的关联分析方法还仅限于蛋白序列，图象数据，入侵与探测等的关联分析，对建设法规数据的关联分析还鲜见。进行建设法规数据关联分析的目的是为用户对数据的查询提供较高的查全率和推荐相关联的查询内容，离群数据的关联分析对用户尤其显得重要。但是根据频繁项集的定义，离群数据的特征通常是很难成为频繁项集的，建设法规中离群数据的关联关系不可能被发现。这些不足使得现有文本挖掘技术很难满足用户对建设法规数据进行查询的实际需要。

发明内容

针对上述现有技术存在的缺陷或不足，本发明的目的在于，提供一种基于关联规则挖掘技术挖掘建设法规领域数据的方法，该方法可对建设法规领域数据进行挖掘的过程中，对每一篇建设法规文本中的候选特征词按其频率从高到低降序排列，并对累计加总的频率达到阈值来确定候选特征词，输出关联规则，设定为用户对数据的查询提供较高的查全率和推荐相关联的查询内容，解决了现有关联分析技术不能对离群数据的关联分析的技术难题。

为了实现上述任务，本发明采取如下的技术解决方案：

一种基于关联规则挖掘技术挖掘建设法规领域数据的方法，具体包含以下步骤：

步骤一，生成建设法规文本向量空间模型，该建设法规文本向量空间模型定义为：

d_i＝((t₁，w_i1)，(t₂，w_i2)，…，(t_n，w_in)) (1)

步骤二，生成建设法规数据向量空间模型，该建设法规数据的第i(i＝k+1，k+2，…，n)个特征词的向量空间模型为：

t_i＝(w_i1，w_i2，...，w_im) (2)

公式(1)和(2)中，t为特征词，k为文本向量空间分量中与同义词和近义词词典中相对应，权值被赋予1的特征词的个数；w_ij表示第i个特征词在第j(j＝1，2，…，m)个文本的向量空间模型式中出现的情况，w_ij的取值为1或0，w_ij＝1表示特征词t_i在第j个文本的特征中出现，w_ij＝0表示特征词t_i在第j个文本的特征中未出现。

步骤三，将建设法规数据向量空间模型转置得到建设法规数据特征向量空间模型，即生成了建设法规数据频繁特征项集G，G＝{t_i|i＝k+1，k+2，…，n}：

步骤四，输出建设法规数据关联规则。参见图3，输出建设法规数据关联规则流程包括如下步骤：

第(1)步，顺序提取频繁特征项集中的一对特征，计算特征间的关联度ε_ij；

第(2)步，判断ε_ij是否大于等于0.6；若ε_ij大于等于0.6，可得关联规则“

t_{i} &DoubleRightArrow; t_{j}

”。则输出关联规则到W3词表中，并转到第(4)步；

第(3)步，若ε_ij小于0.6，则进行第(4)步；

第(4)步，判断是否到频繁特征项集尾部，若是则结束，否则转到第(1)步。

对于新到来的文本，重复步骤一到步骤四，将在新的建设法规文本中存在而在特征词集中不存在的新特征词加入特征词集，并对新文本进行标引，并对已有文本在新特征形成的维度上补零。

所述的建设法规数据向量空间模型的生成包括如下步骤：

1)动态建立建设法规数据同义词、近义词、上下位词和关联词后控词表；

2)对每一篇建设法规文本中的同义词、近义词作为同一个特征词处理，并赋权值1；

3)将管理、监督、条例、规定、办法、通知规定为文本频率高的词，对每一篇建设法规文本除去文本特征词频率高的词，余下的词作为候选特征词；

4)将每一篇建设法规文本中的候选特征词按其频率从高到低降序排列，并进行累计加总；

5)取阈值T为85％-95％，当上个步骤累计加总的频率达到阈值T时，对剩下的没有进入累计加总的候选特征词进行删除，对保留下来的候选特征词赋权值，权值为其相应的频率。

6)汇总所有建设法规文本的特征词形成建设法规数据特征词集；

7)将上个步骤形成的特征词集用布尔赋值方法标引每篇文本，形成建设法规数据文本向量空间模型；

8)对建设法规数据文本向量空间模型转置得到建设法规数据特征向量空间模型，即频繁特征项集G。

本发明的基于关联规则挖掘技术挖掘建设法规领域数据的方法，所带来的技术效果如下：

(1)动态建立领域同义词、近义词等的后控词表，用做构建文本向量空间模型，引入了语义信息，还可将随后的关联词纳入其中，用做对关联文本的查询，提高了建设法规数据查询的效果。

(2)将同义词、近义词在一篇文本中作为同一个特征。一方面减少了文本向量空间的维度，另一方面考虑了特征的语义信息，且基于这样的处理使得建设法规数据投影至2-3个垂直维度成为可能。

(3)从每篇文档中抽取特征，累积频率达到85％的要求使得特征承载文档的绝大部分信息，汇总形成的建设法规数据的特征集，为离群文档的分类聚类和大规模建设法规数据的特征选择提供了可能。

上述分类聚类是：文本分类(Text Categorization)是将用自然语言表示的文本，根据其内容，自动指派到预先设定的类型集合中，使得一篇文本对应类型集合中的一(几)类的过程。分类方法只具有对数据的扩张性不具有对类别的扩张能力。文本聚类(Text Clustering)是把一组数据按照相似性归成若干类别，即“物以类聚”。它的目的是使得属于同一类别的数据之间的距离尽可能的小，而不同类别上的数据间的距离尽可能的大。聚类方法不能很好地处理大多不具有数据和类别的扩张性，极个别的方法虽有所突破，但其它方面的性能又不理想。分类聚类指同时具有分类和聚类特性，且对数据和类别同时具有扩张功能的归类过程。

(4)很好地解决了离群数据的关联分析问题；建设法规数据特征的关联规则挖掘技术近零成本生成频繁项集，生成关联规则算法的时间复杂度为

Apriori算法生成频繁项集的简单平均时间复杂度为

还要推出关联规则。在同一数据集上的实验表明产生关联规则FP-Growth算法比Apriori算法效率高一个数量级。当n很大时针对建设法规特征数据，建设法规数据特征的关联规则挖掘技术的效率远高于Apriori算法和FP-Growth算法；建设法规数据特征的关联规则挖掘技术还可简捷地完成对新数据的扩展；ε_ij＝ε_ji。这些都是现有技术不可比的。

上述近零成本是指：建设法规文档向量空间模型属于文本表示，关联规则中的频繁项集是在建设法规文档向量空间模型构建完成以后发生的，因此它的成本只包含建设法规数据的向量空间模型转置得到建设法规数据特征的向量空间模型这个过程带来的成本。

附图说明

图1为建设法规数据向量空间模型的流程图；

图2是基于关联规则挖掘技术挖掘建设法规领域数据流程图；

图3是生成建设法规数据关联规则流程图；

图4是后控词表的查询流程图。

图5是S-P降维方法将其嵌入到三维、二维流形中所形成的像图，其中(a)是三维流形，(b)是二维流形。

以下结合附图和发明人给出的实施例对本发明作进一步的详细说明。

具体实施方式

基于关联规则挖掘技术挖掘建设法规数据特征的基本流程是：第一步生成建设法规文本向量空间模型，第二步生成建设法规数据向量空间模型：第三步由建设法规数据向量空间模型转置生成建设法规数据特征向量空间模型，即生成频繁特征集，第四步进行建设法规数据关联度计算并输出关联规则。

(1)文本特征选择

文本特征选择是指根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识，是对数据的概括、精炼和抽象。是识别潜在概念结构的重要基础。文本特征的选择是从文本的候选特征中通过具体的实现技术选择一个能表征文本特征的子集，相应的实现技术有互信息、χ²统计、交叉嫡、信息增益、特征强度、文档频次特征选择和奇异值分解等方法，这些方法既简捷又效果好。

互信息有利于产生低频特征，同时有利于数据的分类。χ²统计和交叉熵强调高频文本特征，同时有利于数据的分类。但这三种方法都是先拥有了类别数据信息。信息增益反映的是特征在系统中承载的信息量，倾向于对高频特征的选择。特征强度强调具有相关性类别中的特征的出现。这五种方法都失去了语义信息，也因失去语义信息提高了特征选择的速度。文档频次特征选择方法排除了高频和低频特征，同时有利于数据的分类，适合于大规模数据集的特征选择。奇异值分解得到的是综合特征，考虑了语义信息，忽略了特征的可解释性，不适合大规模数据集。

在文本自动分类中，通常高频特征项和低频特征项对类别的区分能力较低。去除区分能力较低的高频特征项和低频特征可以提高分类正确率。但在信息检索特别是建设法规检索领域，文档频次较低的特征项往往被认为是信息含量较高的。

对文本内容的特征表示主要有布尔模型、向量空间模型、概率模型和基于知识的表示模型。因为布尔模型和向量空间模型易于理解且计算复杂度较低，所以成为文本表示的主要工具。向量空间模型是Salton于1975年提出的，该模型实现了非结构化数据结构化，随后向量空间模型被成功地应用于文本分类领域和信息检索领域，是目前文本表示的主流方法。向量空间模型进行文本表示时，需要根据训练样本集生成文本表示所需的文本表征词集。然后依据文本表征词集，对训练样本集和测试样本集中的各个文本进行索引、赋权和规范化等处理，将其转化为机器学习所需的特征向量。

(2)建设法规数据的文本特征选择

建设法规主题鲜明，行文结构自成一体，语言规范简洁。建设法规数据的高频特征有一个特点，那就是在每篇文档中总有管理(监督)、条例、规定、办法、通知等这样的词出现。低频特征所处的文档应为离群数据，但建设法规数据的任何一篇文本对于某个相应的具体问题来讲都是至关重要的，哪怕是单独的一篇文本在分类中成一类也不允许将其按离群数据处理。面向建设法规数据信息的查询应有较高的查全率，不同于一般的查准率与查全率的折中，而且有研究表明从全局的角度来看较高的查全率和较高查准率是统一的。

综合建设法规数据及其服务要求和已有的特征选择方法，确定建设法规数据特征选择的基本原则：文档特征能忠实地反映出文档的主要内容，文档特征要有利于文档的查询，采用文档频次特征选择方法的基本思想。

(3)数据关联技术

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。

参见图1，生成建设法规数据向量空间模型的流程包括如下步骤：

1)动态建立建设法规数据同义词、近义词、上下位词和关联词后控词表(参见发明人在《计算机工程与设计》，第28卷，第12期的文章：《建设法规政策知识库中后控词表检索设计》)中对后控词表的检索设计，参见注释一)；

注释一：后控词表的检索设计

1、在情报检索领域中，主要有三种检索方法：先控语言检索、自然语言检索和后控检索。先控语言检索是指通过规范化的词表对系统输入输出进行控制，从而达到特定的检索效果，词表编制、维护成本高，难以跟上学科术语发展。自然语言检索是以用户的书面和口头语言为基础，不经任何控制，易用性好，主要用于自动标引，全文检索等领域，但自然语言分散存在，影响查全率。后控检索词表是利用先控语言的原理和方法编制的自然语言(语词)的检索控制词表，它主要是对自然语言中大量存在的等同关系、等级关系和大部分的相关关系进行控制或揭示，通过这些措施达到对自然语言检索中的各种不利因素的事后控制。

后控词表的出发点是减轻用户在检索过程中的想词负担，提高检索系统的易用性，并为用户调整检索策略提供科学的辅助工具，增加查全、查准的可能性。在配备后控词表的检索系统中，用户只要输入已知的检索词，系统利用后控词表自动地把同义词、相关词纳入检索式，在用户和计算机对数据库进行检索的过程中，后控词表起到桥梁作用。它的作用涉及到检索前延(选词、确定检索途径、构造检索式)和检索后的反馈调节，即构造和调整检索策略。后控词表实现了真正意义上的规范语言和自然语言的兼容，对用户非常友好，且满足了查全和查准的要求。

2、后控词表设计

在“智能化建设法规政策知识库”系统中，通过后控词实现自然语言的智能查询，并体现自然语言之间等同、相关和等级关系。具体词表模式如下：

W0词表：中文停用词表(词，停用词)

W1A词表：建设法规主题词表(词，法规主题词)

W1B词表：建设法规案例主题词表(词，案例主题词)

W2词表：案例主题词-用代词表(关系，用代主题词)

W3词表：法规主题词-相关词表(关系，相关主题词)

W4词表：法规主题词-上下位词表(关系，上、下位主题词)

W5词表：法规主题词-关联词表(关系，关联主题词)

W0停用词主要包括自然标点符号、虚词、助词、连词及其它无检索意义的词。用来预处理用户输入的自然语言查询，去掉一些无实际意义的词汇和标点符号，提高分词效率及查询质量。

考虑到本系统查询时有两个重要的部分，建设法规和建设法规案例，前者为法规，所用词汇正式，后者为生活中的案例，所用词汇相对生活化，然而二者又存在某种联系，这不同于一般的智能查询系统。因此，系统中给出了两个主题词表，W1A为建设法规政策中常见主题词，通常由相关部门统计后给定，为正式词汇。W1B为建设法规案例中高频率出现的词，通常比较口语化，为相对正式的词汇。这两个词表相对稳定，也是查询所依据的基本词汇。

W2中的用代词可以分为同义词之间、近义词之间、泛指词与专指词之间、部分反义词之间，本系统中主要指同义词、近义词之间。该词表给出了W1B中案例主题词的同义词汇，主要解决自然语言的多样性与给定有限词汇之间的矛盾。使系统能够尽可能多的识别自然语言词汇。

W3中的相关词将W1A法规主题词和W1B案例主题词联系起来。将案例主题词中的“个性”抽取出来，形成“共性”，与相应的法规主题词关联起来。比如“房屋漏水”和“房屋裂缝”，其中案例主题词“漏水”和“裂缝”都与法规主题词“质量”相关。W3词表中的相关关系是基于经验给定的。该词表实现了自然语言到正式词汇的转换。

W4中上、下位词主要指具有属分关系的词，用来实现上、下位主题词登陆。W4体现了法规主题词之间的上、下位，其关系为树形结构。

W5中的关联关系词主要指通过关联规则输出的具有关联关系的词。主要解决系统查询共现文档的关联推荐问题。

3、后控词表之间的关系

对于用户输入的自然语言以及经过处理生成的中间词汇给出如下的定义：

定义：S0＝{自然语言}

S1＝{自然语言的主题词}

S2＝{案例主题词}，

S 2 &Subset; W 1 B;

S3＝{法规主题词}，

S 3 &Subset; W 1 A;

S4＝{法规主题词：S3中对应的上、下位词}，

S 4 &Subset; W 1 A;

S5＝{法规主题词：S3中对应的关联词}，

S 5 &Subset; W 1 A, W 1 B;

因此可知，W2的关系可表示为f：S1→S2，f为相似关系；

W3的关系可表示为g：S2→S3，g为相关关系；

W4的关系可表示为h：S3→S4，h为上、下位关系；

W5的关系可表示为u：S3→S5，u为关联关系；

自然语言是最为活跃、变化最快的一种语言，具有多样性，在W2关系上，对

&ForAll; a &Element; S 1,

未必能够找到b∈S2使得关系f(a)＝b成立。因此，当自然语言主题词在案例主题词中没有映射时，则根据词面相似度进行模糊匹配，可能得到多个匹配词汇，记为：

S2′＝{案例主题词1，案例主题词2，……，案例主题词n}；

为了提高查准率，由用户在S2′中选择一个想要查询的“案例主题词m”，可确定S2＝{案例主题词m}，之后在W3中继续进行相关查询。

W3关系基于经验和专业知识，由标引人员给定，因此，对于

&ForAll; a &Element; S 2,

总

&Exists; b &Element; S 2,

使得g(a)＝b。

W4关系基于专业知识，由标引人员给定，因此，对于

&ForAll; a &Element; S 3,

总

&Exists; b &Element; S 4,

使得h(a)＝b。

W5关系基于关联规则，由关联规则挖掘算法给定，因此，对

&ForAll; a &Element; S 3,

未必能够找到b∈S5使得关系u(a)＝b成立。

4、智能化查询的实现

首先通过使用W0对用户输入的自然语言S0进行预处理及分词，形成S1，对S1在W1A中查找，如果为法规主题词，即S3＝S1，则直接通过上、下位词表W4和W5进行登陆；否则将S1重构转换成规范化的查询词汇S2和S3，在进行上、下位查询。在使用W2进行同义词查找时，如果不匹配，则根据词面相似度进行模糊查询。

5、后控词表的智能扩充

后控词表具有一定的自我扩充能力。本系统中设计了一个查询知识储备表，对每次查询的结果进行保留(S1、S3，法规编号，案例编号等)。随着系统应用，知识积累，可以对表中的知识进行相关度分析。如果在一次查询活动中出现了新词汇，则可以扩充到W2中，作为某个案例主题词的同义词，同时可以将具有最高检索频率的同义词及其相关法规和案例作为知识储备起来。当知识库记录增多，可以用“关联规则”对查询知识储备表进行数据挖掘，分析经常一起出现的法规主题词和案例主题词，进而可以扩充W5词表中的关联关系。

3)将管理、监督、条例、规定、办法、通知规定为文本频次高的词，对每一篇建设法规文本除去上述规定的文本特征词频率高的词，余下的词作为候选特征词；

4)将每一篇建设法规文本中的候选特征词按其频率从高到低排列，并进行累计加总；

5)累计加总的频率达到阈值T为85％-95％时，对剩下的没有进入累计加总的候选特征词进行删除，对保留下来的候选特征词赋权值，权值为其相应的频率。例如，如果阈值T选择85％，文本的候选特征词频率按降序排列，将进行累计序列加总的候选特征词作为该文本的特征词，删除剩下的该文本候选特征词。阈值T应参考以往的经验或抽样实验结果进行不断的修正。

6)汇总所有建设法规文本的特征词形成建设法规数据的特征词集；

参见图2，基于关联规则挖掘技术挖掘建设法规领域数据的方法，具体包含以下步骤：

步骤一，生成建设法规文本向量空间模型：该建设法规文本的向量空间模型定义为：

d_i＝((t₁，w_i1)，(t₂，w_i2)，…，(t_n，w_in)) (1)

步骤二，生成建设法规数据向量空间模型，建设法规数据的第i(i＝k+1，k+2，…，n)个特征词的向量空间模型为：

t_i＝(w_i1，w_i2，...，w_im) (2)

公式(1)和(2)中，t为特征词，k为文本向量空间分量中与同义词和近义词词典中相对应，权值被赋予1的特征词的个数。w_ij表示第i个特征词在第j(j＝1，2，…，m)个文本的向量空间模型式(2-8)中的情况，w_ij的取值为1或0，w_ij＝1表示特征词t_i在第j个文本的特征中出现，w_ij＝0表示特征词t_i在第j个文档的特征中未出现。

步骤四，参见图3，输出建设法规数据关联规则。输出建设法规数据关联规则流程包括如下步骤：

第(2)步，判断ε_ij是否大于等于0.6；若ε_ij大于等于0.6，则输出关联规则到W3词表(后控词表中的法规主题词——相关词表，参见上述注释一)中，并转到第(4)步；

第(3)步，若ε_ij小于

则进行第(4)步；

对新到来的文本，重复步骤一至步骤四的过程，如果出现了在新文本中有而在特征词集中不存在的新特征词，将新特征词并入特征词集，然后对新文本进行标引，并对已有文本在新特征词形成的维度上补零。

实施例1：

第一步：由于各省市的建设法规数据具有很强的共性，故采用整群抽样策略抽取了陕西省自1949年以来容量为250建设法规文本数据；

第二步：对每一篇建设法规文本除去上述规定的文本特征词频率高的词，余下的词作为候选特征词；

第三步：对每篇文本统计其候选特征词并按频率排序，当累计频率达到85％时截尾；

第四步：汇总所有文本的特征形成特征词容量为362的特征词集；

第五步：用布尔赋值方法标引每篇文档，形成文本向量空间模型；

第六步：文本向量空间模型转置得到特征向量空间模型集合；

第七步：从特征向量空间模型集合中顺序抽取特征，应用程序计算两两特征关联度，取关联度大于等于0.6的相关特征，获得相关特征的关联度结果如表1。

表1相关特征及其关联度

第八步：输出关联规则，结果如表2。

表2关联规则表

第九步，结束。

实施例中基于这样的处理，使得建设法规数据投影示例：整群抽取陕西省自1949年以来建设法规数据的250个样本(维度为368)数据集，应用向量模型表示，并通过S-P降维方法将其嵌入到三维、二维流形中，形成的像集如图5(a)、(图5(b)所示。

Claims

1、基于关联规则挖掘技术挖掘建设法规领域数据的方法，具体包含以下步骤：

d_i＝((t₁，w_i1)，(t₂，w_i2)，…，(t_n，w_in)) (1)

t_i＝(w_i1，w_i2，…，w_im) (2)

公式(1)和(2)中，t为特征词，k为文本向量空间分量中与同义词和近义词词典中相对应，权值被赋予1的特征词的个数；w_ij表示第i个特征词在第j(j＝1，2，…，m)个文本的向量空间模型式中出现的情况，w_ij的取值为1或0，w_ij＝1表示特征词t_i在第j个文本的特征中出现，w_ij＝0表示特征词t_i在第j个文本的特征中未出现；

步骤三，将建设法规数据向量空间模型转置得到建设法规数据特征向量空间模型，即生成了建设法规数据频繁特征项集G，G＝{t_i|i＝k+1，k+2，…，n}；

步骤四，输出建设法规数据关联规则，输出建设法规数据关联规则流程包括如下步骤：

第(1)步，顺序提取频繁特征项集中的一对特征，计算特征间的关联度εij；

第(2)步，判断ε_ij是否大于等于0.6；若ε_ij大于等于0.6，可得关联规则

' t_{i} &DoubleRightArrow; t_{j}';

则输出关联规则到W3词表中，并转到第(4)步；

第(3)步，若ε_ij小于0.6，则进行第(4)步；

2、如权利要求1所述的方法，其特征在于，对于新到来的文本，重复步骤一到步骤四，将在新的建设法规文本中存在而在特征词集中不存在的新特征词加入特征词集，并对新文本进行标引，并对已有文本在新特征形成的维度上补零。

3、如权利要求1所述的方法，其特征在于，所述的建设法规数据向量空间模型的生成包括如下步骤：