CN103425716A

CN103425716A - 一种数据挖掘中基于命题逻辑的主特征分析方法及系统

Info

Publication number: CN103425716A
Application number: CN2012101792418A
Authority: CN
Inventors: 冯子钜; 汪灏泓
Original assignee: TCL Research America Inc
Current assignee: TCL Research America Inc
Priority date: 2012-05-24
Filing date: 2012-05-24
Publication date: 2013-12-04
Anticipated expiration: 2032-05-24
Also published as: CN103425716B

Abstract

本发明公开了一种数据挖掘中基于命题逻辑的主特征分析方法及系统，其主特征分析方法包括以下步骤：进行特征扩展：利用命题逻辑扩展描述内容数据的特征集合，形成一个内容数据扩展特征集；进行特征权重的设定：使用基于内容的数据挖掘和协同过滤方法来分析用户的使用历史以及内容数据，设定特征的重要性权重；进行主特征的选择：根据输入内容集和特征的权重从扩展的特征集中选择主特征，并输出。本发明数据挖掘中基于命题逻辑的主特征分析方法及系统通过对特征的扩展和权重的计算，选择其中的主特征输出，能够找出数据的共性并能用含义更丰富的扩展特征表达出来，从而为后续的挖掘数据处理提供有效支持。

Description

一种数据挖掘中基于命题逻辑的主特征分析方法及系统

技术领域

本发明涉及一种数据处理领域中的数据挖掘方法及系统，尤其涉及的是一种以数据挖掘软件中的特征扩展方法为基础的主特征分析方法和系统。

背景技术

数据挖掘(Data Mining)是利用软件通过分析每个数据、从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。经过十多年的发展，数据挖掘软件工具的性能获得了显著的改善，不论是自动化程度还是适用范围都发生了巨大变化，价格的门槛迅速降低，对于推进数据挖掘在企业和电子商务中的应用具有特殊的意义。但是还应该看到，现在的数据挖掘软件还存在许多的不足，调查显示多数的数据挖掘软件只使用了有限的几种技术，且集中在比较简单的数据挖掘技术种类上。

数据挖掘是从大量数据中发掘出隐含的规律和信息的一个过程，其中，如何从数据集中挖掘出最能描述这些数据包含的共性和模式的一个或者多个特征，是数据挖掘里面的一个基本而又有挑战性的难题。例如，对于一个电视节目推荐系统来说，如果能够找出某个用户所看过的电视剧当中最具代表性的特征，如由某个演员出演，或者属于某个类型等，那么就能比较准确地刻画出这个用户的偏好，从而为将来的推荐提供指引。

现有技术中有关数据挖掘的专利文献参见中国专利号200510092983.7，其公开了数据挖掘中基于混合互信息的特征选择方法，但该数据挖掘方法依赖于类别的标号，而在很多应用场合中能够得到的数据并不包含标号信息。

在现有技术的数据挖掘软件中，不同特征之间的关联往往被忽略，同时特征的选择也往往局限在原始特征空间当中，从而无法捕捉很多用户的隐藏喜好。在电视节目推荐系统中，由于一台电视往往会被家庭中的多个用户使用，不同的喜好混杂在一起往往使得用户的偏好更难被准确地捕捉。例如，某个用户可能喜欢观看由某几个特定的演员共同出演的影片，或者是喜欢某个演员出演的某类影片，如果只分析单个特征，那么这个喜好可能就会被淹没在这个用户的其它喜好或者其它用户的喜好之中，或者不能被完整地捕捉。然而如果考虑了特征之间的关联，那么这几个特征的多次共同出现就可能被认为是用户的一种明显的喜好，从而与单个特征能描述的更宽泛而模糊的喜好分离开来。同时，这种粒度更细的描述方式也能为将来的推荐提供更精确的信息。

然而，在另外一种情况中，某个用户可能会在其观看电视的时候随机地收看其感兴趣的节目，如果能够把这个用户所感兴趣的特征综合起来看成一个新的特征，那么这个特征往往就能够很好地用来描述用户使用电视时在时间上的规律，从而在该用户可能观看电视的时候为其推荐其感兴趣的节目。这在一个电视由多个用户于不同时间段使用的时候尤为重要。

在近几年现有技术发展中，针对终端用户的个性化多媒体体验方面做了很多努力，然而很少有成功的。由于特征所代表的内容数据之间内在的联系每天都在变化，所以，在挖掘他们之间的内在联系和把结果映射到用户偏好时的困难程度和复杂程度是巨大的。一般情况下，在内容的元数据中会包含如演员、导演、作品年份等信息。这些信息能够被用来把一组具有相似特征的内容数据聚集起来，从而发现内容数据中的内在联系。对于一组内容数据，怎样为这组内容数据定义一组具有代表性的特征是一个基础而重要的问题，迄今为止，对于这个问题，现有技术一直没有好的解决方案。

在数据挖掘中，这类问题通常被称为top-K频繁模式发掘，其中模式被定义为特征的集合而频繁模式则是在数据集中出现次数较多的模式。在所有的频繁模式之中要选出K个最有代表性的模式来近似拟近原来的包含所有频繁模式的集合，从而用来描述这个数据集的特性。这类问题通常属于NP(Non-Deterministic Polynomial，非确定多项式)问题，因此贪心算法经常被使用来提供一个近似解。但现有技术的处理算法都很难同时保证选出的top-K模式的重要性较高而冗余度较低，也无法解决粗粒度特征的模式选择。

因此，现有技术中还存在缺陷，而有待于改进和发展。

发明内容

本发明的目的在于提出一种数据挖掘中基于命题逻辑的主特征分析方法及系统，改进数据挖掘软件，以加强特征描述数据规律的能力，并以扩展之后的特征为基础提出一套衡量特征能描述多少数据中共性的标准，最后以这个标准提出一个能够快速找出最优或者较优的特征选择方案。

本发明的技术方案如下：

一种数据挖掘中基于命题逻辑的主特征分析方法，其包括以下步骤：

A、进行特征扩展，利用命题逻辑扩展描述内容数据的特征集合，形成一个内容数据扩展特征集；

B、进行特征权重的设定，即进行特征赋权，至少使用基于内容的数据挖掘和协同过滤方法来分析用户的使用历史以及内容数据，设定特征权重；

C、进行主特征的选择，根据输入内容集和特征的权重从扩展特征集中选择主特征；

D、进行主特征输出。

所述的数据挖掘中基于命题逻辑的主特征分析方法中，所述步骤A具体还包括：

设n为输入内容的个数，T＝{t₁，t₂，...，t_n}是内容数据集，F＝{f₁，f₂，...，f_m}为描述内容数据集的特征向量空间中包含的特征集；通过引入命题逻辑，每个特征f∈F被定义为一个命题变量，每个内容t∈T可以被定义为一个逻辑空间的解释或赋值，把t包含的每个特征赋为真，并把这些特征之外的特征赋为假；根据这个定义，t包含特征f∈F，当且仅当f在t这个解释下为真，即套用命题逻辑的术语，被称为解释t满足公式f并且表示为

命题逻辑的两个算子逻辑与和逻辑或，被用来把原始特征组合成不同的命题公式，并把这些公式作为新的特征，从而形成扩展特征的集合；

扩展得到的包含原始特征和已扩展特征的特征集用F_expand＝{f₁，f₂，...，f_m，f_m+1，...}表示，并且满足：其中如果i≤m，则f_i是一个命题变量，即f_i∈F；如果i＞m，则f_i是一个由至少两个来自F中的变量组成的公式；i、m都是用于计数的自然数。

所述步骤B中的特征赋权定义在原始特征的集合F的幂集上，用赋权函数w：2^F→R₊表示，对任意一个由原始特征组成的集合

权重w(x)越大表示x越重要。

进一步地，所述特征赋权函数结合通过不同类型方法得到的三个子赋权函数产生，其中：w_b代表利用基于内容的方法计算得到；w_c代表使用协同筛选的方法来计算；w_o代表使用不包含在前两个方法中的信息来计算权重；所述特征赋权通过函数P综合上述三个子函数的结果从而产生最终结果，即总赋权函数w可以写成：

w(x)＝P(w_b(x)，w_c(x)，w_o(x))

其中，

是由原始特征组成的集合，函数P满足以下条件：

\frac{&PartialD; P}{{&PartialD; w}_{b}} &GreaterEqual; 0,

\frac{&PartialD; P}{{&PartialD; w}_{c}} &GreaterEqual; 0,

\frac{&PartialD; P}{{&PartialD; w}_{o}} &GreaterEqual; 0 .

所述步骤C中的主特征选择的目标被定义为找到一组最优的扩展特征C＝{f_c1，f_c2，...，f_cR}，在把原始数据从空间F中投影到低维度空间C后，可以保持尽可能多的信息。在这里f_ci∈F_expand，i∈{1，2，...，R}，其中F_expand是扩展特征集，R是这个集合的大小。每个解决方案优劣与否的评判标准用一个测定原始数据和从低维度特征空间投影回到原始特征空间的重建数据之间的差异的失真函数定义信息损失程度来定义。

本发明上述数据点被定义为原始特征的集合，即与内容数据t_i∈T相对应的数据x_i被定义为：

本发明中上述投影的过程采用投影函数，投影函数基于逻辑推导来定义。其具体定义如下：

数据点x_i的投影点z_i被定义为：

这里，

表示特征集合x_i作为知识库能够归纳(entail)出命题f_c成立，其中符号

与命题逻辑的“归纳出”的符号含义相同。

重构数据

被定义为：

使用命题逻辑中模型(model)的概念可以很容易地证明

得到了原始数据和重建数据之后，并假定由丢失的信息而产生的信息损失程度是与被正确恢复的特征不相关，本发明的投影失真误差可以写成：

其中，\是集合中差集运算的符号，赋权函数w如前所述定义。

本发明还通过限定主特征的数量把上述问题映射成一个约束优化问题，即要找到最佳的集合来最小化失真度，并且C的大小不能超过阈值R_threshold，它可以公式化为：

使得R≤R_threshold。

所述的数据挖掘中基于命题逻辑的主特征分析方法，其特征在于，所述步骤C的主特征具体选择过程采用贪心算法实现，定义F_i-expand来表示该贪心算法选出的由i个原始特征“与”出来的扩展特征集合，i为自然数，并利用公式

递推出F_(i+1)-expand的值，并把这个集合的大小限定在m，m为自然数，从而把可供选择的扩展特征限定在F_1-expand∪…∪F_m-expand共m的平方个特征中。

所述的数据挖掘中基于命题逻辑的主特征分析方法中，所述步骤C中采用二元变量限制描述输入的内容的特征点。

一种实现所述方法的主特征分析系统，其中，包括：

一特征扩展模块，用于利用命题逻辑扩展描述内容数据的特征集合，形成一个内容数据扩展特征集，这里所述的扩展特征集比原始特征更广泛且信息量更大；

一特征赋权模块，用于使用基于内容的数据挖掘和协同过滤方法来分析用户的使用历史以及内容数据，设定特征的重要性权重，即特征赋权；

一主特征选择模块，用于根据输入内容集和特征的权重从扩展的特征集中选择主特征；

一主特征输出模块，用于对选择的主特征进行输出。

本发明数据挖掘中基于命题逻辑的主特征分析方法及系统证明了可以通过把要考虑的特征集限制在相应出现的特征集和与它相应的扩展特征集中，而不用去考虑原特征集F，从而达到降低处理时间并提高处理效果。本发明还证明了可以假设所有的候选主特征集C都是由对应文字变量(literal)的合取式特征组成的而不影响选出的主特征集效果，从而达到提高运算效率的目的。

本发明数据挖掘中基于命题逻辑的主特征分析方法及系统中还采用了一种贪心算法来进一步优化运算处理速度，该算法定义F_i-expand来选出的由i个原始特征“与”出来的扩展特征集合，并利用公式

递推出F_(i+1)-expand的值，并把这个集合的大小限定在m，从而把可供选择的扩展特征限定在F_1-expand∪…∪F_m-expand共m平方个特征中。

本发明所提供的一种数据挖掘中基于命题逻辑的主特征分析方法及系统，通过特征的扩展和权重计算，选择其中的主要特征输出，由此本发明方法和系统能够找出数据的共性并能用含义更丰富的扩展特征表达出来，从而为后续的数据挖掘处理提供有效支持。

附图说明

图1为本发明数据挖掘中基于命题逻辑的主特征分析方法流程示意图。

图2为本发明数据挖掘中基于命题逻辑的主特征分析系统功能框图。

具体实施方式

以下对本发明的具体实施方式加以详细说明。

本发明提供了数据挖掘中的一种基于命题逻辑的主特征分析方法及系统，提出了一个新的概念--基于命题逻辑的特征扩展，这种特征扩展考虑了内容数据中元数据的本质特点和被选特征的粒度，换句话说，这些特征可以被分为细粒度特征和粗粒度特征，通过设置逻辑“与”和逻辑“或”的组合逻辑算子，从原始特征集中确定扩展的特征集；细粒度特征趋向于提供信息量更大的信息和用户特定的信息，而粗粒度特征则提供了更一般化的信息和比较灵活的解释能力。

本发明通过使用组合逻辑算子从原始元数据领域中形成了不同粒度的一组特征，并且挑选出最具有代表性的特征，即主特征。挑选的过程是多个因素组合的过程，如：基于内容的因素，基于协同过滤的因素等，这种方法称为PFA，即主特征分析。其不同于现有技术中的其他方式，例如主成份分析，在于本发明所谓的特征可以是多个成份的逻辑组合操作，因此扩展了所针对问题的空间以及所能解决问题的复杂度，能涵括解决实际问题时的各种复杂可能性。

本发明数据挖掘中基于命题逻辑的主特征分析方法及系统的主要贡献和创新在于：在数据挖掘的处理程序中，把一个内容描述和表达问题转变为了一个优化问题，以减小选出的特征的描述误差和冗余程度作为衡量标准；提出了特征粒度的新概念和利用了组合逻辑来描述这个概念；提出了一个独特且适用于这一类型问题的解决原来的NP-hard问题的处理方法及系统。

如图1所示，是本发明PFA方法的处理流程示意图，其具体包括以下主要步骤：

S1、获取原始数据，形成原始特征集，所述原始数据存储于数据库中；

S2、特征扩展，扩大描述内容数据的主特征集使其具有比原始特征更强的表达能力，并形成内容数据的扩展特征集以便后续的处理，这里所述的扩展特征集比原始特征更广泛且信息量更大；

S3、确定特征权重，即特征赋权：这个步骤用来调查用户的使用历史以及内容数据，根据内容数据库和用户数据库的记录，在统计的基础上，使用内容挖掘和协同筛选的方法，根据特征的重要性不同确定不同的特征权重。

S4、主特征选择：根据输入的内容集和特征权重从已经扩大的扩展特征集中选择主特征；

S5、进行主特征输出。

本发明的主特征分析方法程序实现中，其主要的难点在：使用原始特征的表达能力时，由于原始特征表达能力的限制使得捕捉不同特征的联合模式难度较大；为了发现更多有用的特征和预测更有价值的信息，不同的特征点的重要性和信息量的不同需要加以考虑；粒度应该进行适当的调整，因为细粒度特征趋向于提供具有更多信息量的信息和用户相关的信息，而粗粒度特征趋向于提供更一般化和解释能力更加灵活的信息；对于异常内容的健壮性和对大部分内容的代表性必须要很好的平衡，以使选出来的主特征既包含足够有用的信息同时又有足够的普适性，以捕捉被隐藏在内容背后的重要规律；为了得到更有价值的结果，就需要捕捉到特征之间的相关性和相似性。

为了减小上述技术处理的困难程度，本发明软件实现方法用二元变量(0和1)来限制描述内容的特征点，特征是否能够描述这个内容就可以被简单化为这个内容是否包含的这个特征所代表的元素。考虑到以下事实，即描述一个内容的大多数特征，比如它是否属于某个类型，是否由某个明星出演，是否由某个公司制作等等，要么本身就是二元要么就是能够被很容易地转换为二元变量的离散变量。

在本发明的S2特征扩展步骤，在于扩展原始特征空间，该步骤基于步骤S1中获取的原始数据集，通过特征扩展形成扩展特征集，其方法为：

假设n为输入内容的个数，T＝{t₁，t₂，...，t_n}是内容数据集，F＝{f₁，f₂，...，f_m}为描述内容数据集的特征向量空间中特征集，。为了能够捕捉更好的关于内容集的粗粒度信息和更加详细的和有预见性的细粒度信息，在这些特征之上引入两个算子，即∧和∨。为了更加准确地定义这两个算子的含义，本发明引入了布尔逻辑来重新定义每个F中的特征f作为一个命题变量，每个T中的内容t被定义为一个逻辑空间的解释或赋值，把t包含的每个特征赋为真，并把这些特征之外的特征赋为假。根据这个定义，t包含特征f，f∈F，当且仅当f在t这个解释下为真，套用命题逻辑的术语，这可以被称为解释t满足公式f并且表示为

通过引入命题逻辑，算子∧和∨被很简单的定义为逻辑“与”和逻辑“或”，在F集合中，通过引入相应的包含命题变量的命题公式新特征，特征也因此得到扩展。不失一般性的，假设所有的公式都被写成析取范式形式(在布尔逻辑中，析取范式(DNF，DISJUNCTIVE NORMAL FORM)是逻辑公式的标准化(或规范化))。与普通的命令逻辑的不同在于，这里没有引入否定文字(literal)，因为本发明更关心的是用户喜欢什么样的内容和特征，而不是用户不喜欢什么。

扩展得到的包含原始特征和已扩展特征的特征集可以用F_expand＝{f₁，f₂，...，f_m，f_m+1，...}表示，其中如果i≤m，则f_i是一个命题变量，即f_i∈F；如果i＞m，则f_i是一个由至少两个来自F中的变量组成的公式。一个扩展特征的例子是f_k＝(f₁∧f₂)∨(f₁∧f₃)，其中k＞m(m≥3)，i、m和k都是用于计数的自然数。

为了能够使这个例子更加容易理解，以下举具体示例说明：用f₁表示这个内容为动作电影，f₂表示由李安执导，f₃表示电影由甄子丹领衔主演。如此则内容t包含特征f_k，当且仅当

当且仅当(和

)或者( 和

)同时成立，也就是说，要么这是一个由李安执导的动作片，要么是这个是个由甄子丹主演的动作片。

本发明还引入了一个逻辑关系“蕴含”，用符号□表示，来描述扩展特征之间的关系，即f_i□f_j表示既包含特征f_i也包含特征f_j的任意一个内容。针对上面的例子，如果一个内容包含特征f_k，即它要么是一个由李安执导的动作片，要么是一个由甄子丹主演的动作片，那么它一定是动作片，因为根据命题逻辑可以得知f_k□f₁。通过使用这种特征扩展方法，本发明就能够捕获内容集T的细粒度特征，如f₁∧f₂表示在同一个内容中同时具有特征f₁和f₂；也能捕捉到粗粒度特征，如f₃∨f₄表示在一个内容的特征f₃和f₄中至少出现其中一个特征。这些特性如果仅仅使用原始的特征集都不能很容易的被提取出来。

引入了扩展特征之后，本发明的目的可以被定义为找到一组最优的扩展特征C＝{f_c1，f_c2，...，f_cR}，在把原始数据从空间F中投影到低维度空间C后，可以保持尽可能多的信息。在这里f_ci∈F_expand，i∈{1，2，...，R}，其中F_expand是扩展特征集，R是这个集合的大小。每个解决方案优劣与否的评判标准是需要对投影方法和信息损失的程度的精确定义。信息损失程度可以用一个测定原始数据和从低维度特征空间投影回到原始特征空间的重建数据之间的差异的失真函数定义。

假设L_C(t_i)是内容t_i∈T在特征空间C□F_expand包含的特征集，即L_C(t_i)＝{f|f∈C，t□f}，那么L_F(t_i)就代表内容t_i包含的原始特征。因此输入的内容数据可以被重新定义为特征的集合x₁，x₂，...，x_n，其中x_i＝L_F(t_i)□F。

上述投影过程采用对应的投影函数，该投影函数的选择对PFA的性能有很大的影响。一般来说，合理的投影函数应该使得重构之后的数据不会包含不属于内容原有特征的特征，因为引入了错误的特征在很多情况下会对归纳数据的共有特征和找到相似内容产生不利的影响。考虑到这个需求以及本发明定义的特征是基于命题逻辑的这个事实，投影函数很自然地应该基于逻辑推导来定义。由于每个数据点都是一个特征集，而一个特征集或者说是逻辑变量集可以被看成是一个能够归纳出逻辑命题的知识库KB(Knowledge Base)，因此投影点z_i可以被定义为：

这里，

表示知识库x_i能够归纳(entail)出命题f_c成立，其中符号

与命题逻辑的“归纳出”的符号含义相同。注意在命题逻辑中知识库KB能够归纳出公式α，当且仅当任意使得KB为真的赋值都使得α为真。

使用与公式(1)相同的投影方法，重建的重构数据可以被定义为：

使用命题逻辑中模型(model)的概念可以很容易地证明注意在命题逻辑中一组公式或者说命题的一个模型是能够使每个公式都为真的一个解释。令M(α)为一个公式α的所有模型的集合，则根据“归纳”的定义可以得到

因此，对于每个f_c∈z_i，都有注意

是成立的，因为每个能够使z_i为真的解释，都必须令每个f_c∈z_i为真，而根据定义使每个f_c∈z_i都为真的解释也会使z_i为真。因此，可以得出

同样的，可以得出

并因此而得出

由于

和xi的每个元素都是一个文字(literal)或者说逻辑变量，因此，如果一个特征f(同时也是一个文字)满足

则在

的所有模型中它的值都为真，从而在xi的所有模型中它的值也为真，这也就意味着f∈x_i，因此得出

得到了原始数据和重建数据之后，本发明的投影失真误差可以写成：

为了减小定义和计算每个原始数据点和重建数据点之间的误差的复杂度，假定由丢失的信息而产生的信息损失程度是与被正确恢复的特征不相关的，即就是说，在公式(3)中，失真误差可以写成：

其中，\是集合中差集运算的符号，单变量赋权函数w：2^F→R₊用来衡量一组特征的重要性，w值越高表明损失的信息越重要。

下面是特征赋权S3和主特征选择S4的具体示例过程，用R来表示主特征的数量即降维之后的特征空间C的大小。必须要注意到的是，本发明方法及系统的目标是要找到能够代表原始内容数据的最典型的特征，即主特征；如果对于一个给定的R总能找到最优解，则R值越大，被选出来代表数据的特征就越多，通过特征空间C捕捉到的内容集T的特征将会越接近原始内容数据，因此，失真也就会越小。因此，上述问题可以被映射成一个约束优化问题，即要找到最佳的集合来最小化失真度，并且C的大小不能超过阈值R_threshold，它可以公式化为：

s.tR≤R_threshold (5)

其中，\是集合中差集运算的符号；s.t是数学中常用的符号，代表suchthat，亦即使得或者满足的意思。

为了使提取出来的主特征包含最多的信息量和代表性，衡量每个特征的重要性是绝对有必要的。假设有一种极端的情况：所有的数据库中出现内容都包含特征f，这就意味着在T中所有的内容也都包含特征f，在没有考虑到这些特征的有用程度的不同时，f很有可能会被看作是主特征，因为它描述了在T中所有内容的共同的一个规律。然而事实上，把f包含在主特征中不会提供任何对预测内容之间的相似性或者相关性而言有价值的信息。

因此，对主特征需要进行权重的选择和设置，赋权函数的选择应该是为应用场景订制的。在不同的系统中，赋权函数的选择应该是不同的。然而，还是有一些一般性的规则可以用来帮助选择具有更多信息性的赋权函数。首先，

应该成立，因为空集代表没有信息丢失；其次，如果特征集

成立，那么w(A)≤w(B)也应当成立，因为越多的信息丢失，投影函数应该产生越多的失真。

一般来说赋权函数w可以通过结合运用不同类型方法得到的三个子赋权函数产生。用w_b表示第一个子函数，其可以利用基于内容的方法计算得来。这个方法通常会检查所有的内容，基于统计数据和一些其他信息来赋权每个特征的重要性；用w_c，表示第二个子函数，其可以使用协同筛选的方法来计算。这个方法通常是基于从其他用户得到的统计数据和关联信息来赋权每个特征的重要性。用w_o表示第三个子函数，可以使用不包含在前两个方法中的其他信息来计算权重。上述处理方法为现有技术中已知，在此不再赘述。上述三个子函数的值越高应该表明特征集越重要。

代入这三个子函数，公式(3)中的失真误差可以写成：

在这里，P是一个以函数w_b，w_c和w_o的结果作为输入并综合产生的一个权值函数。它应该满足下面的条件：

\frac{&PartialD; P}{{&PartialD; w}_{b}} &GreaterEqual; 0,

\frac{&PartialD; P}{{&PartialD; w}_{c}} &GreaterEqual; 0,

\frac{&PartialD; P}{{&PartialD; w}_{o}} &GreaterEqual; 0 - - - (7)

这个式子的意思是如果一个子赋权函数认为这个特征越重要，这个特征就会被w认为重要。

基于命题逻辑推理的数据投影的独特性和赋权函数定义的通适性，使得很难找到一个高效的精确算法或者效果保证较好的近似算法，因此，目前实际技术应用中，穷举法是唯一一个实际的方法。以下用本发明的较佳实施例说明穷举法的可能，首先审查直接穷举法的时间复杂性，然后展示几种能够减少被审查特征数量的方法和技术，从而改善时间复杂度，最后，再提出一个方法用来扩展主特征的结果以使得计算结果除了细粒度特征外也包含粗粒度特征。

直接穷举法会检查每一种R个扩展特征的组合作为潜在主特征集，然后计算每个输入内容的原始内容数据和重建内容数据之间的失真误差，由此可以计算时间复杂度：

C_{N}^{R} \cdot n \cdot (1 + \overset{&OverBar;}{L_{F}})

这里，是需要被检查的扩展特征的数量，I是命题推理所消耗的时间的平均值。

表示每个内容数据的原始特征集的平均大小，用于表示计算原始内容数据和重建内容数据之间的差异所需要的时间。显然，运行时间至少是m指数次方，因此，减少候选主特征的数量这一过程是必须的。

首先，注意到在公式(5)的定义中，赋权函数的输入始终都是某个输入内容数据的原始特征集的子集，这意味着F中没有出现在内容集T的特征不会作为w()的输入出现，也因此不会影响失真误差。显而易见的，它们也将不会影响推理和投影的过程。因此，本发明只需要考虑已经出现的特征集

和与它相应的扩展特征集L_expand.，而不用去考虑原特征集F和它的扩展特征集F_expand。因此本发明不失一般性地假设L＝F。因此，特征空间m的大小是与输入内容n数量线性相关，这是因为大多数内容数据都有一个相对较小的可以认为是常量的特征数量。这通常会远远小于原来的巨大的特征空间。

然后，本发明方法证明了通过把候选主特征的表达式限定成某种形式可以减少它们的数量，同时仍然能够找到最优的解决方案。以下是本发明主特征选择的具体示例，具体地说，对于任何一个特征，只要它的表达式在析取范式中包含了多于一个的合取式(CONJUNCTIVE NORMALFORM)，它就可以被另外一个表达式只包含一个合取式的特征代替，并且对最后找出来的主特征集的代表性没有任何损害。这可以公式化成以下命题：

命题1：假设C□Fexpand是一个特征集，特征f_c∈C，在DNF(Disjunctivenormal form析取范式)中包含了至少两个文字(literal)特征，换句话说fc能写成以下形式：

f_c＝f_c1∨f_c2∨…∨f_ci

其中f_ij∈F_expand，j＝1，2，...，l，是合取式，即：

f_ij＝f_j1∧f_j2∧…∧f_jr

其中，f_jk∈F，k＝1，2，...，r。

那么一个存在某个在其析取范式中只包含一个合取式的特征f_c′∈F_expand，使得对于任意数据点x_i□F，由特征集C′＝(C∪{f_c′})\{f_c}产生的重构数据

都包含了由C产生的重构数据

中所有的信息，即

可以证明以上命题是成立的。利用上述命题1就可以假设所有的候选主特征集C都是由对应文字变量(literal)的合取式的特征组成的，这样就可以把潜在的主特征数量降低到θ(2^m)。同时命题推理的复杂度也会减小。一个显然的事实是，如果一个原始特征(也即文字变量)能够由一组文字变量的合取式归纳得出，那么它必定能被其中的某个合取公式归纳出。因此在公式(2)中，重构数据点的定义可以改写成：

根据这个定义，命题推理可以通过简单地把z_i中每个特征的成员文字集合并起来而完成，这可以在O(m*R)的时间内完成一个数据点的推导。

再则，由于可以假设所有潜在的可能被选定为主特征的都是文字变量的合取式，考虑到只有当某个特征f会被某些投影点z_i包含、从而能够被用于推理那些特征会在重构数据中出现时，它才能够被用来减少失真误差，潜在的主特征的范围就可以被进一步地限定。因此，每一个有可能成为主特征的特征都是由某个输入数据点x_i的文字特征集的某个子集中的特征之合取式构成的。候选的主特征数量就被限定到

和

的数量级，从而使得穷举搜索的时间复杂度限定在与n的多项式相关。

对于每个内容只包含很少的特征比方说小于7的系统来说，穷举搜索可以在R较小的情况下在可被接受的时间内完成。然而，对于比较大的R或者内容包含了更多特征的情况，计算时间仍然会太长。因此本发明还提出了一种贪心算法来在所有候选的特征中选择一小部分，并保证它包含了长度由1到R的可能会有用的特征。该方法的工作原理如下：

用F_i-expand表示用本方法挑选出来的由长度为i的合取式组成的一组特征。F_l-expand初始化为F。如果已知F_i-expand，则F_(i+1)-expand可以通过以下式子计算：

这里，公式(10)中的top_m表示把每个f’看成只包含自身的主特征集来计算失真误差然后挑选误差最小的前m个f’。最后，用F_1-expand∪…∪F_m-expand作为候选主特征集，它的大小最多是m²而非

或

根据实验结果，当每个内容数据包含的特征的平均数量比较大时，这种方法能够大大地减少候选主特征的数量，从而大大降低时间复杂度，然而依然能够获得相近的结果。

这个贪心算法可以看成是一个递推式的特征限定过程，定义了F_i-expand来表示这个贪心算法选出的由i个原始特征“与”出来的扩展特征集合，然后利用公式

递推出F_(i+1)-expand的值，并把这个集合的大小限定在m，从而把最后可供选择的扩展特征限定在F_1-expand∪…∪F_m-expand共m平方个特征中，因此降低了算法的时间复杂度。

根据上述的假设和偏向合取式的选择，所有被选出的主特征都是细粒度特征，其要么是文字特征，要么是原始特征的合取。为了捕捉到粗粒度特征，本发明提出一种从细粒度特征中产生粗粒度特征的方法，即指定一个主特征集C，可以产生一系列特征集C_i，i＝1，2，...，R，其中C_i定义为：

C_{i} = {V_{k = 1}^{i} f_{jk} | f_{jk} &Element; C, f_{ja} &NotEqual; f_{jb} ifa &NotEqual; b} - - - (11)

在公式(11)中，C_i代表所有由i个来自C的特征组成的集合。显然，i值越大，每个特征的粒度更粗，因为它们能被用来描述更多的内容。如果在C中的每个主特征都描述一种类型的规律，则特征

可以描述由i个不同的规律混合而成的规律。因此，就可以捕捉到粗粒度信息了。

S5，为主特征输出步骤，该步骤在于输出经过上述各个步骤的处理过程，生成具有粗粒度信息的主特征信息，并进一步输出给其他的相关程序使用，如预测用户兴趣，并推送相关节目等。

本发明还提供一种实现所述方法的主特征分析系统，如图2所示，包括：

一特征扩展模块110，用于利用命题逻辑扩展描述内容数据的特征集合，形成一个内容数据扩展特征集，这里所述的扩展特征集比原始特征更广泛且信息量更大；

一特征赋权模块120，用于使用基于内容的数据挖掘和协同过滤方法来分析用户的使用历史以及内容数据，设定特征的重要性权重，即特征赋权。

一主特征选择模块130，用于根据输入内容集和所述特征赋权模块120确定的特征权重从扩展的特征集中选择主特征；

一主特征输出模块140，用于由所述主特征选择模块130选择的主特征进行输出给其他的相关程序使用，例如预测用户兴趣，并推送相关节目等。具体各模块的实现算法和功能实例，请参照前述有关方法的描述，在此不再赘述。

值得说明的是，本系统还包括，一内容数据库160，用于存储有待进行主特征分析的内容数据，一用户数据库150，用于存储用户数据。所述特征扩展模块110、特征赋权模块120处理的数据居于所述内容数据库160与用户数据库150存储的数据。当然所述的内容数据库160与用户数据库150存储的数据可以存储在唯一数据库中，也可以为了逻辑管理的方便性，进一步拆分为几个独立数据库，在这里不作限制。

本发明PFA方法及系统是一个基于命题逻辑和组合优化的自动主特征选择方法及系统，在很多方面可以得到展开和应用，其中包括：用户浏览偏好检测、基于用户习惯的身份识别、电视和电影节目的推荐、广告和服务的推荐、家庭和移动通信服务的个性化以及社交活动的统计管理等软件实现中。本发明方法还可以应用于其它二元变量的主特征检测应用中，实现针对数据挖掘过程中效率和准确性的提升。本发明方法降低了数据集的维度，从而减少了数据挖掘处理过程的复杂度；同时能够找出数据的共性，从而为后续的挖掘数据规律算法提供更为有效的支持。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种数据挖掘中基于命题逻辑的主特征分析方法，其包括以下步骤：

A、进行特征扩展，利用命题逻辑扩展描述内容数据的主特征集合，形成一个内容数据的扩展特征集；

B、进行特征权重的设定，即进行特征赋权，使用基于内容的数据挖掘和协同过滤方法来分析用户的使用历史以及内容数据，设定特征的权重；

D、进行主特征输出。

2.根据权利要求1所述的数据挖掘中基于命题逻辑的主特征分析方法，其特征在于，所述步骤A具体还包括：

设n为输入内容的个数，T＝{t₁，t₂，...，t_n}是内容数据集，F＝{f₁，f₂，...，f_m}为描述内容数据集的特征向量空间中包含的特征集；通过引入命题逻辑，每个特征f∈F被定义为一个命题变量，每个内容t∈T被定义为一个逻辑空间的解释或赋值，把t包含的每个特征赋为真，并把这些特征之外的特征赋为假；根据这个定义，t包含特征f∈F，当且仅当f在t这个解释下为真，即被称为解释t满足公式f并且表示为通过命题逻辑的两个算子逻辑与和逻辑或，用来把原始特征组合成不同的命题公式，并把这些公式作为新的特征，形成扩展的特征集合；

3.根据权利要求1所述的数据挖掘中基于命题逻辑的主特征分析方法，其特征在于，所述步骤B中的特征赋权定义在原始特征的集合F的幂集上，用赋权函数w：2^F→R₊表示，对任意一个由原始特征组成的集合

权重w(x)越大表示x越重要。

4.根据权利要求3所述的数据挖掘中基于命题逻辑的主特征分析方法，其特征在于，所述步骤B中的特征赋权函数结合通过不同类型方法得到的三个子赋权函数产生，其中：w_b代表利用基于内容的方法计算得到；w_c代表使用协同筛选的方法来计算；w_o代表使用不包含在前两个方法中的信息来计算权重；所述特征赋权通过函数P综合上述三个子函数的结果从而产生最终结果，即总赋权函数w可以写成：

w(x)＝P(w_b(x)，w_c(x)，w_o(x))

其中，

是由原始特征组成的集合，函数P满足以下条件：

\frac{&PartialD; P}{{&PartialD; w}_{b}} &GreaterEqual; 0,

\frac{&PartialD; P}{{&PartialD; w}_{c}} &GreaterEqual; 0,

\frac{&PartialD; P}{{&PartialD; w}_{o}} &GreaterEqual; 0 .

5.根据权利要求1所述的数据挖掘中基于命题逻辑的主特征分析方法，其特征在于，所述步骤C中的主特征选择目标被定义为找到一组最优的扩展特征C＝{f_c1，f_c2，...，f_cR}，在把原始数据从空间F中投影到低维度空间C后保持尽可能多的信息；其中，f_ci∈F_expand，i∈{1，2，...，R}，其中F_expand是扩展特征集，R是这个集合的大小。

6.根据权利要求5所述的数据挖掘中基于命题逻辑的主特征分析方法，其特征在于，所述步骤C中解决方案优劣与否的评判标准用一失真函数所定义的信息损失程度来定义，所述失真函数用来测定原始数据和从低维度特征空间投影回到原始特征空间的重建数据之间的差异。

7.根据权利要求6所述的数据挖掘中基于命题逻辑的主特征分析方法，其特征在于，所述数据点被定义为原始特征的集合，即与内容数据ti∈T相对应的数据x_i被定义为：