CN104951455A

CN104951455A - 一种基于类别从属度的信息分类方法及系统

Info

Publication number: CN104951455A
Application number: CN201410117588.9A
Authority: CN
Inventors: 叶茂; 徐剑波; 汤帜; 王元龙; 金立峰
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Founder Apabi Technology Ltd
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2015-09-30
Anticipated expiration: 2034-03-26
Also published as: CN104951455B

Abstract

本发明提供一种基于类别从属度的信息分类方法及系统，首先确定所有分类以及参考分类，然后确定待分析数据对应所述参考分类中每个分类的参考值，再确定待分析数据对于每个分类的类别从属度，然后根据该类别从属度来进行信息分类，获得分类结果，该方案通过计算类别从属度进行信息分类，很好的表示出待分析数据与全部或部分分类之间的从属关系强度，从而实现对待分析数据的分类，并提供待分析数据属于各个分类的从属程度的量化指标，不仅可以得到基于全部分类的全局最优分类，还可以得到基于部分分类的局部最优分类，使用户一目了然的知道了待分析数据与各个的分类的关系，而且其与各个分类之间的关系具有可比性，为用户提供更多的分类参考信息。

Description

一种基于类别从属度的信息分类方法及系统

技术领域

本发明涉及电子数字处理领域，具体地说是一种衡量某个数据属于某个分类的程度的类别从属度信息分类方法。

背景技术

当今社会中数据信息日益庞大，为了在海量的数据中，更好的获取所需的数据，需要对数据进行分类。数据分类是根据一定的规则将某个数据划分到某个分类中。如有监督的数据分类方法，依靠小样本学习后得到的模型，对其他更大范围的未分类数据进行分类。根据一定的规则，将某一个数据最终划到一个类别中。

但是，在进行分类时，用户不仅会关注一个数据被分到了某个分类，除了这个分类信息之外，在所关注的分类中，用户可能还需要知道数据属于分类的程度，即类别从属度。目前的分类技术，例如liblinear SVM分类技术，可以提供分类信息，但不能提供类别从属度信息。例如，一本书籍介绍餐饮娱乐信息，分类体系中有餐饮、娱乐、军事、政治等分类，基于该分类体系，该书籍可能会被分到餐饮或娱乐中的一个类别。假设该书籍被分到了餐饮类，则用户最终可以获取该书籍属于餐饮类这一个信息，但是，对于用户而言，可能还需要了解，针对餐饮和娱乐这两个他所关注的分类，该书籍属于餐饮类的程度或属于娱乐类的程度这一信息。此外，针对某个分类下的数据，如果能更好的提供其属于其他分类的程度，也会为用户提供更多的参考信息，让用户获得数据时具有更好的参考信息。例如，对于被分到餐饮类的书籍，用户可能还想获知其属于历史还是属于娱乐的程度大，如果能够提供该餐饮类下的书籍，属于其他类的程度，也会为用户提供更多的参考信息。

发明内容

为此，本发明所要解决的技术问题在于现有技术中仅提供对数据的分类，不能提供数据属于分类的程度、不能为用户提供更多的参考信息，从而提出一种既可以得到基于全部分类的全局最优分类，还可以得到基于部分分类的局部最优分类，为用户了提供更多的参考信息的基于类别从属度的信息分类方法。

为解决上述技术问题，本发明的提供一种基于类别从属度的信息分类方法，包括如下步骤：

确定所有分类；

确定参考分类，其中，所述参考分类为所有分类中的一部分或全部；

确定待分析数据对应所述参考分类中每个分类的参考值；

对于每个分类，根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值，确定待分析数据对于该分类的类别从属度；

根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分类，得到分类结果。

一种基于类别从属度的信息分类系统，包括：

所有分类确定模块：确定所有分类；

参考分类确定模块：确定参考分类，其中，所述参考分类为部分分类或所有分类；

参考值计算模块：确定待分析数据对应所述参考分类中每个分类的参考值；

类别从属度计算模块：对于每个分类，根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值，确定待分析数据对于该分类的类别从属度：

分类模块：根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分类，得到分类结果。

本发明的上述技术方案相比现有技术具有以下优点，

（1）本发明所述的基于类别从属度的信息分类方法，首先确定所有分类以及参考分类，然后确定待分析数据对应所述参考分类中每个分类的参考值，再根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值确定待分析数据对于该分类的类别从属度，然后根据待分析数据对应每个分类的类别从属度来进行信息分类，获得分类结果，通过这种方法来计算类别从属度并进行信息分类，可以很好的表示出待分析数据与其关注的那些分类之间的从属关系的大小，从而实现对待分析数据的分类，该分类方法中不仅提供了待分析数据属于哪个分类，还进一步提供了待分析数据属于各个分类的从属程度的量化指标，通过数字量化的方式，表现更为直观，且相互之间的可比性更强，使用户一目了然的知道了待分析数据与各个的分类的关系，为用户提供更多的分类参考信息。

（2）本发明还提供可实现上述功能的基于类别从属度的信息分类系统，包括所有分类确定模块、参考分类确定模块、参考值计算模块、类别从属度计算模块以及分类模块，采用类别从属度对数据进行分类，提供一种基于类别从属度对信息进行分类的实现系统，将类别从属信息进行了量化，通过量化的信息进行分类，使得分类结果不再仅包含现有技术中最后将数据分到某个分类的信息，而是包含了与各个分类的相关程度的类别从属度信息，使得用户可以直观的获取待分析数据与各个分类的相关程度，为用户提供更多的分类的参考信息。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明所述的基于类别从属度的信息分类方法一个实施例的流程图；

图2是本发明所述的基于类别从属度的信息分类系统一个实施例的结构框图。

具体实施方式

实施例1：

本实施例提供一种基于类别从属度的信息分类方法，流程图如图1所示，包括如下步骤：

（1）确定所有分类，建立分类集合C＝{c₁,c₂,…,c_n}。

（2）确定参考分类，所述参考分类为分类集合中的部分分类或所有分类，从而建立分类子集C'，其中，C'C。C'，{c₁,,c₂,,…,c_i,,…c_m,},，其中c_i,∈C'为分类子集C'中的一个分类，i=1,2，…m；m为分类子集C'中的分类的个数。

（3）确定待分析数据x对应分类子集C'中每个分类c_i'的参考值，所述参考值为待分析数据x到c_i'与C\c_i'的分类超平面的距离值。本实施例中，通过训练后的liblinear SVM分类器，计算待分析数据x在分类集合C中对应于每个分类c_i'的参考值s_i'，其中每个分类c_i'对应于c_i'与C\c_i'的二分类问题，参考值s_i'为待分析数据x到c_i'与C\c_i'的分类超平面的距离，i＝1,2,…,n。该距离的计算公式为wx+b，其中w是分类超平面的法向量，b为偏差。

SVM（support vector machine）即支持向量机，是一种机器学习算法，通过训练计算分类超平面，利用分类超平面进行分类，利用核函数将低维空间数据映射到高维空间求解。SVM分类器可以解决二分类问题，使用一条直线（如果数据只有二维）或一个超平面将数据分类。通过SVM分类器分类时，首先通过样本构建一簇超平面，然后获得原数据与超平面的距离进行分类。

SVM分类器是现有技术中较为成熟的技术，liblinear SVM通过SVM技术解决多分类问题，通过上述过程，可以得到m个距离数据，也就是获得了待分析数据x对应分类子集中每个分类的参考值。

（4）对于每个分类c_i'，根据待分析数据x在该分类的参考值s_i'和待分析数据x对应该参考分类中每个分类的参考值s₁',s'₂,s'₃,…,s'_m，然后来计算待分析数据对于该分类的类别从属度，计算公式如下：

f (c_{i}^{'}) = s_{i}^{'} / Σ_{j = 1}^{m} s_{j}^{'};

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m；为待分析数据对应参考分类中每个分类的参考值之和。

（5）根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分类，此步骤中，将所述待分析数据对于参考分类中每个分类的类别从属度降序排列，将所述类别从属度及其对应的分类作为分类结果，此处的结果可以通过表格或者列表的方式呈现给用户。

上述类别从属度根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值之和的比值来计算，通过该比值可以很好的反映出待分析数据对该分类的类别从属程度，体现出其类别从属度的特征，从而客观的反应出该类别从属度信息。将所述待分析数据对于参考分类中每个分类的类别从属度降序排列，将所述类别从属度及其对应的分类作为分类结果，这样就完成了对待分析数据的分类，不仅获得了其最相关的分类，即类别从属度最高的分类，同时还获得了与其他分类的相关程度数据，这样的分类结果不仅提供给用户最终该待分析数据所属的分类，还提供了该数据与其他分类的相关程度，为用户提供更多的参考信息。

作为其他可以替换的实施方式，所述参考值为与该分类的相关程度单调性一致的值，即该值越大表示与该分类的相关程度越大，该值越小则表示与该分类的相关程度越小，现有技术中在分类计算过程或其他计算过程中产生的满足这个条件的值都可以选择为该参考值。例如，上述实施例中参考值选择待分析数据x到c_i'与C\c_i'的分类超平面的距离值，也可以选择K-NS分类算法获得的待分析数据到分类的距离值，分别采用上述两个值作为参考值时，如果以该参考值和与该分类的相关程度分别作为x、y变量在二维坐标系显示的是单调递增的曲线，也就是说这些值具备了与该分类的相关程度单调性一致的特性。

此外，还可以选择K-NS算法中产生的一些与该分类的相关程度单调性一致的中间值，或者采用通过形式变换获得的与该分类的相关程度单调性一致的中间值。如K-NS算法中产生的欧几里德距离由于该值越大表示数据样本与该分类相关度越小，单调性相反，可通过形式变换如的倒数或者A-（其中A为一个比大的常数），使得变换后的值与分类相关度单调性一致后，便可以作为本方案中的参考值使用。由于现有技术中，采用不同的分类方法时，在计算过程中都存在一些特征值和中间值，如果这些值满足上述条件，则可以选择该值作为参考值进行类别从属度的计算。。

进一步，作为其他的实施方式，在所述步骤（3）中，还需要对获得的m个距离数据进行归一化处理，将归一化处理后的值作为参考值。所述归一化处理通过函数变换来实现，使用函数f(x)＝1/(1+e^-λx)进行归一化变换，其中x为归一化变换前的值，f(x)为归一化变换后的值，本实施例中选择λ=2，此时归一化的效果较好。在其他的实施方式中，可选择λ≥1的其他值。

由于在分类计算中获取的数值如上述步骤（3）中的距离值，可能存在为负数的问题，或者存在相差很大的问题。如果存在为负数时，直接计算可能产生错误，如待分析数据对于两个分类获得的距离分别为-a和a时，如果直接计算则分母为0，无法计算。对于数值相差很大的时候，如待分析数据对于3个分类的距离值分别为99、0.01和0.02，直接计算99对应的类别从属度很大，从而导致0.01和0.02对应的类别从属度非常小且无法区分，缺乏可衡量性，很难体现出其差别，这些情况下获得的类别从属度的标识性能下降，不利于用户直观的理解该类别从属度，因此需要进行归一化处理，通过归一化处理将小于0的值、相差很大的值都变换为更具有标识性的值，保证获得的类别从属度为客观且直观的反应出类别从属的信息。

所述归一化处理通过函数变换实现，使用函数f(x)＝1/(1+e^-λx)进行归一化变换，其中x为归一化变换前的值，f(x)为归一化变换后的值，λ≥1，优选λ=2，通过函数变换的方法来进行归一化处理，可以将变换前的非正数的值转化为正数，将相差非常大的值在保证其特性的前提下，平滑差别，将所有的变换前的数值进行了整体归一，保证了后续的计算精度。

实施例2：

本实施例提供一种基于类别从属度的信息分类方法，包括如下步骤：

（1）确定所有分类，建立分类集合C＝{c₁,c₂,…,c_n}。

（2）确定参考分类，所述参考分类为分类集合中的部分分类或所有分类，从而建立分类子集c'，其中，c'c。c'，{c₁,,c₂,,…,c_i,,…c_m,},，其中ci'∈c'为分类子集C'中的一个分类，i=1,2，…m；m为分类子集C'中的分类的个数。

（3）确定待分析数据x对应分类子集C'中每个分类c_i'的参考值，所述参考值与实施例1中的参考值相同，为待分析数据x到c_i'与C\c_i'的分类超平面的距离值，其获取方式也与实施例1相同。通过liblinear SVM分类器可以得到m个距离数据，也就是获得了待分析数据x对应分类子集中每个分类的参考值。

f (c_{i}^{'}) = {αs}_{i}^{'} / (Σ_{j = 1}^{i - 1} s_{j}^{'} + {αs}_{i}^{'} + Σ_{j = i + 1}^{m} s_{j}^{'});

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m；α为分类c_i'的相对重要度系数，且α=1.01。

作为其他可以变换的实施方式，所述α取大于0的值，如0.9、1.1、1.2等值，α标识该分类c_i'的重要程度，重要程度与其他相同时，可取1，小于其他时取小于1的值，大于其他时可选择大于1的值。该分类的重要程度越高，则取值越大，反之则较小，根据该分类的重要程度进行取值。

本实施例中，所述类别从属度计算时考虑该分类的相对重要度，故引入了相对重要度系数α，将待分析数据在该分类的参考值乘以该分类的相对重要度系数作为分子，将待分析数据在其余分类的参考值之和与所述分子的值相加后作为分母，这样计算出的值作为类别从属度。其中，相对重要度系数α≥0，用来控制该分类的相对重要度，该分类越重要，则α的取值越大，经验取值为1.01。为了客观的体现每个分类的类别从属信息，避免其中一个分类的相对重要度系数过大而导致分类与实际情况出现差异，α的值对于不同的分类应保持一致，从而虽然提高了该分类的相对重要度，但是不会对最终的分类结果产生影响。该类别从属度可以更好的体现参考分类中的一个分类的重要程度，通过该相对重要度系数来控制该分类的重要度，使得每个分类的重要程度得以直观的体现，且该系数可根据需要来设置，计算简单方便。

（5）根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分类，本实施例中，首先预设一个分类阈值，将大于预设分类阈值的类别从属度及其对应的分类，作为分类结果。

通过这种分类方法可以借助类别从属度的量化信息，过滤掉与其相关度较小、价值低的分类，获取与待分析数据具有一定相关程度的分类，在提供更多分类信息的同时，减少了用户的工作量，兼顾了速度和效率。

作为其他可以替换的实施方式，所述参考值为与该分类的相关程度越大时其值也越大的值，如K-NS分类算法中的获得的分类值。

此外，作为其他的实施方式，在所述步骤（3）中，还需要对获得的m个距离数据进行归一化处理，将归一化处理后的值作为参考值。归一化的方式可以采用实施例1中提到的使用函数变换的方式来实现，也可以采用将所有的上述方法获得的m个距离值统一增加一个常数使得最小值变成正数后，再都除以最大值得到归一化处理后的值，然后将归一化后的值作为参考值进行后续计算。

由于在分类计算中获取的数值如上述步骤（3）中的距离值，可能存在为负数的问题。如果存在为负数时，直接计算可能产生错误，如待分析数据对于两个分类获得的距离分别为-a和a时，如果直接计算则分母为0，无法计算；此外，当距离值出现0时，计算出的类别从属度，也易发生错误，如当距离值为-a和0时，距离为0时对应的类别从属度也为0，而距离为-a的类别从属度为1，实际上该数据对距离为0的分类的从属程度要大于对距离为-a的分类的从属程度，此时出现了错误。采用上述归一化处理方法，

将所有的距离值统一增加一个常数使得最小值变成正数后，再都除以最大值得到归一化处理后的值，这样，就消除了上述的值为负数或0时对类别从属度计算造成的影响，且该方法计算简单方便，提高了计算的准确程度。

实施例3：

一种基于类别从属度的信息分类方法，包括如下步骤：

（1）确定所有分类，建立分类集合C＝{c₁,c₂,…,c_n}。

（2）确定参考分类，所述参考分类为分类集合中的部分分类或所有分类，从而建立分类子集c'，其中，c'c。c'，{c₁,,c₂,,…,c_i,,…c_m,},，其中c_i'∈c'为分类子集C'中的一个分类，i=1,2，…m；m为分类子集C'中的分类的个数。

（3）确定待分析数据x对应分类子集C'中每个分类c_i'的参考值，所述参考值为采用K-NS分类算法获得的待分析数据到分类的距离。

在k-NS算法中，通过计算获得了待分析数据（即数据样本）到分类的距离，信息分类方法如下：

其中，表示数据样本到分类i的距离（即待分析数据到分类的距离），S_q表示数据样本，N_i是S_q在分类i下的近邻；K(x,y)是满足Mercer条件的核函数，存在K(x,y)＝ψ^T(x)ψ(y)，其中ψ(·)是数据样本的映射，上式表明K(x,y)是两个数据样本映射的内积；ψ(N_i)是由数据样本映射形成的行矩阵；μI为Tikhonov term，其作用是确保计算的稳定性。

K-NS算法是一种用于分类的方法，参见“k-NS:A Classifier by theDistance to the Nearest Subspace”，IEEE TRANSACTIONS ON NEURALNETWORKS，VOL.22,NO.8,AUGUST2011,在该文章中，提供了一种具体的使用k-NS算法进行分类的方法，其中给出了的具体的信息分类方法。

采用K-NS算法，将作为本实施例中的参考值s_i'，通过上述方法计算出待分析数据x对应该参考分类中每个分类的参考值s₁',s'₂,s'₃,…,s'_m。

作为可以变换的实施方式，可以将上述值进行归一化处理后再作为参考值，所述归一化处理的方法可采用实施例1中的函数变换方法或实施例2中的归一化处理方法。

f (c_{i}^{'}) = {βs}_{i}^{'} / Σ_{j = 1}^{m} s_{j}^{'};

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m；为待分析数据对应参考分类中每个分类的参考值之和，β为参考分类整体的重要程度系数，本实施例中β=0.99。在其他的实施方式中可以选择β≥0的其他值，如0.8、0.95、1.01等。当参考分类与其余的分类重要程度相同时，β取1，如果大于其他分类，可取大于1的值，否则取小于1的值。参考分类整体的重要程度系数β标识出了参考分类的整体重要程度，参考分类越重要，则β的取值越大，参考分类的重要程度低时，β的取值适当取小些，从而可以针对各个选择的参考分类体现出其重要程度的差异性。

本实施例中所述类别从属度计算时考虑该分类的相对重要度，引入了相对重要度系数，将待分析数据在该分类的参考值乘以参考分类整体的重要程度系数作为分子，将待分析数据对参考分类中的每个分类的参考值之和作为分母，这样计算出的值作为类别从属度。其中，参考分类整体的重要程度系数β≥0，考虑了参考分类整体的重要程度，参考分类越重要，则β的取值越大，经验取值为0.99。该类别从属度可以更好的体现参考分类占所有分类的重要程度，通过参考分类整体的重要程度系数来控制参考分类的整体重要程度，使得参考分类的重要程度得以直观的体现。

（5）根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分类，本实施例中，首先预设一个分类阈值，将大于预设分类阈值的类别从属度及其对应的分类，作为分类结果，然后将所述类别从属度降序排列，将所述类别从属度及其对应的分类以表格的方式降序排列显示出来。

通过这种方法来计算类别从属度并进行信息分类，可以很好的表示出待分析数据与其关注的那些分类之间的从属关系的大小，从而实现对待分析数据的分类，该分类方法中不仅提供了待分析数据属于哪个分类，还进一步提供了待分析数据属于各个分类的从属程度的量化指标，通过数字量化的方式，表现更为直观，使用户一目了然的知道了待分析数据与各个的分类的关系，为用户提供更多的分类参考信息。

作为其他可以替换的实施方式，所述参考值也可以通过K-NS算法中的一些中间值获取，如通过欧几里德距离来获取，由于该值越大表示数据样本与该分类相关度越小，因此通过计算获取与该值单调性相反的值，也可以作为参考值，如的倒数或者，其中A为一个比大的常数。

在上述实施例1、实施例2和实施例3中，上述类别从属度的计算公式可以整合为一个公式，即

f (c_{i}^{'}) = \frac{s_{i}^{'}}{(a Σ_{j = 1}^{- = 1} s_{j}^{'} + b s_{i}^{'} + a Σ_{j = i + 1}^{m} s_{j}^{'})} + c

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m，a、b、c是控制参数，其中，a＞0,b＞0,c≥0。a、b、c为控制参数，其中当a=b时，控制参数a和b为参考分类整体的重要程度系数，参考分类越重要，则a和b的取值越小。当b=1时，控制参数a为相对重要度系数，用来控制该分类的相对重要度，该分类越重要，则a的取值越小。c为冗余值，用于调整从属度偏差。通过该公式中的控制参数的特殊设置，即可以得到实施例1、实施例2和实施例3中的计算公式。

作为另外一种可以变换的实施方式，该类别从属度的计算公式还可以采用如下公式：

f (c_{i}^{'}) = \frac{s_{i}^{'}}{\max (s_{j}^{'}) + \min (s_{j}^{'}) + (m - 2) δ}, δ = \frac{\max (s_{j}^{'}) + nix (s_{j}^{'})}{2}

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m。max(s'_j)为待分析数据对应各个分类的参考值的最大值，max(s'_j)为待分析数据对应各个分类的参考值的最小值。

该公式考虑了参考分类中对类别从属度有决定性作用的边界分类，避免了其他分类的变化对类别从属度的影响。此外，在该公式中，如果max(s'_j)和max(s'_j)没有发生变化时，当待分析数据对应某个分类的参考值发生变化后，其余未发送变换的参考值对应的分类的类别从属度不变，仅需要计算发生变化的某个分类的类别从属度即可，可以减少运算量。

实施例4：

本实施例中还提供一种实现上述分类方法的基于类别从属度的信息分类系统，如图2所示，包括：

所有分类确定模块：确定所有分类。

参考分类确定模块：确定参考分类，其中，所述参考分类为部分分类或所有分类。

参考值计算模块：确定待分析数据对应所述参考分类中每个分类的参考值，所述参考值为待分析数据到该分类与其余分类的分类超平面的距离值。在替换的实施方式中，所述参考值还可以采用K-NS分类算法获得的待分析数据到分类的距离或者为K-NS分类算法中的获得的中间值如欧几里德距离

所述参考值为待分析数据到该分类与其余分类的分类超平面的距离值时，所述参考值计算模块包括：

训练子模块：使用选择的类别训练语料来训练liblinear SVM分类器；

计算模块：使用训练后的分类器对待分析数据进行分类，计算待分析数据在所有分类中对应于每个分类的参考值，所述参考值为待分析数据到每个分类与其他分类的分类超平面的距离。

上述通过使用类别训练语料来训练liblinear SVM分类器，然后使用训练后的分类器进行数据分类，可直接获得待分析数据到每个分类与其他分类的分类超平面的距离，将此距离作为参考值进行类别从属度的计算，通过使用现有技术中成熟的liblinear SVM分类器来获取参考值，不仅计算方便，而且保证了数据来源的客观性，有效保证了后续计算的准确度。

类别从属度计算模块：对于每个分类，根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值，确定待分析数据对于该分类的类别从属度。所述类别从属度计算模块中，包括等比例计算子模块，设置有计算公式：

f (c_{i}^{'}) = s_{i}^{'} / Σ_{j = 1}^{m} s_{j}^{'};

分类模块：根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分类，得到分类结果。所述分类模块包括：将所述待分析数据对于参考分类中每个分类的类别从属度降序排列，将所述类别从属度及其对应的分类作为分类结果。该分类方法不仅获得了其最相关的分类，即类别从属度最高的分类，同时还获得了与其他分类的相关程度数据，这样的分类结果不仅提供给用户最终该待分析数据所属的分类，还提供了该数据与其他分类的相关程度，为用户提供更多的参考信息，

在其他可替换的实施方式中，所述类别从属度计算模块中设置的为分类单独控制计算子模块，设置有计算公式：

f (c_{i}^{'}) = {αs}_{i}^{'} / (Σ_{j = 1}^{i - 1} s_{j}^{'} + {αs}_{i}^{'} + Σ_{j = i + 1}^{m} s_{j}^{'});

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m；α为分类c_i'的相对重要度系数，且α≥1，优选α=1.01。

作为另外的实施方式，所述类别从属度计算模块中，还可以设置参考分类整体控制计算子模块，设置有计算公式：

f (c_{i}^{'}) = {βs}_{i}^{'} / Σ_{j = 1}^{m} s_{j}^{'};

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m；为待分析数据对应参考分类中每个分类的参考值之和，β为参考分类整体的重要程度系数，且β≤1，优选β=0.99。

作为其他可以替换的实施方式，所述分类模块包括预设一个分类阈值，

将大于预设分类阈值的类别从属度及其对应的分类，作为分类结果。通过这种分类方法可以借助类别从属度的量化信息，过滤掉与其相关度较小、价值低的分类，获取与待分析数据具有一定相关程度的分类，在提供更多分类信息的同时，减少了用户的工作量，兼顾了速度和效率。

作为进一步的实施方式，所述参考值计算模块还包括归一化函数处理子模块，通过函数变换实现所述归一化处理，使用函数f(x)＝1/(1+e^-λx)进行归一化变换，其中x为归一化变换前的值，f(x)为归一化变换后的值，λ≥1，优选所述λ=2。

作为进一步可替换的实施方式，所述参考值计算模块中的归一化处理子模块为：将所有的参考值统一增加一个常数使得最小值变成正数后，再都除以最大值得到归一化处理后的值。通过归一化处理将小于0的值、相差很大的值都变换为更具有标识性的值，保证获得的类别从属度为客观且直观的反应出类别从属的信息。

本实施例中提供的可实现上述功能的基于类别从属度的信息分类系统，实现了通过类别从属度的对数据进行分类，从而提供基于类别从属度对信息进行分类的实现系统，将类别从属信息进行了量化，通过量化的信息进行分类，使得分类结果不再仅包含现有技术中最后将数据分到某个分类的信息，而是包含了与各个分类的相关程度的类别从属度信息，使得用户可以直观的获取待分析数据与各个分类的相关程度，为用户提供更多的分类的参考信息。

实施例5

本实施例提供一种基于类别从属度进行信息分类的具体实例。

1.人工编写一个所属领域的分类集合C={历史，军事，政治，经济}。

2.设置参考分类为所述分类集合C。

3.计算数据x在分类集合C中对于每个分类c_i的参考值s_i，此处的参考值为数据x到c_i与C\c_i的分类超平面的距离值。计算结果见表1。

表1.x在分类集合C中对于每个分类ci的参考值

分类	参考值
		历史	0.48894
军事	0.18066
		政治	0.016318
经济	-0.13072

4.通过函数f(x)＝1/(1+e^-2x)变换参考值s_i得到s_i'，结果见表2。

表2变换后的参考值

分类	变换后参考值
		历史	0.72669
军事	0.58936
		政治	0.50816
经济	0.43501

5.计算数据类别从属度：

x对于类别历史的类别从属度为：

\frac{0.72669}{0.72669 + 0.58936 + 0.50816 + 0.43501} = 0.32165 = 32.165 %,

数据x对于类别军事的类别从属度为：

\frac{0.58936}{0.72669 + 0.58936 + 0.50816 + 0.43501} = 0.26086 = 26.086 %;

数据x对于类别军事的类别从属度为：

\frac{0.50816}{0.72669 + 0.58936 + 0.50816 + 0.43501} = 0.22492 = 22.493 %;

数据x对于类别军事的类别从属度为：

\frac{0.43501}{0.72669 + 0.58936 + 0.50816 + 0.43501} = 0.19255 = 19.255 % .

根据上述类别从属度进行分类，将所述类别从属度降序排列，所述类别从属度及其对应的分类以表格的方式表示，为用户提供分类结果。

表3.分类结果

分类	类别从属度
		历史	32.165%
军事	26.086%
		政治	22.493%
经济	19.255%

通过上述分类结果，可以看出该待分类数据，与历史类的类别从属度最大，因此应该分到历史类，此外，在军事、政治和经济三个分类中，它与军事类更相关，与经济类的相关程度最小。通过该方法获得的分类信息，包含了类别从属度，通过其分类结果可以获知最相关的分类信息外，还可以获知与其余分类的相关程度，为用户提供了更多的分类参考信息。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于类别从属度的信息分类方法，其特征在于，包括如下步骤：确定所有分类；

确定待分析数据对应所述参考分类中每个分类的参考值；

2.根据权利要求1所述的信息分类方法，其特征在于，所述根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分类，得到分类结果的过程中，包括：将所述待分析数据对于参考分类中每个分类的类别从属度降序排列，将所述类别从属度及其对应的分类作为分类结果。

3.根据权利要求1所述的信息分类方法，其特征在于，所述根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分类，得到分类结果的过程中，包括：预设一个分类阈值，将大于预设分类阈值的类别从属度及其对应的分类，作为分类结果。

4.根据权利要求1-3中任一项所述的信息分类方法，其特征在于，所述待分析数据在所述参考分类中对应每个分类的参考值为：待分析数据到该分类与其余分类的分类超平面的距离值。

5.根据权利要求3所述的信息分类方法，其特征在于，在所述确定待分析数据对应所述参考分类中每个分类的参考值的过程，包括：

使用选择的类别训练语料来训练liblinear SVM分类器；

使用训练后的分类器对待分析数据进行分类，计算待分析数据在所有分类中对应于每个分类的参考值，所述参考值为待分析数据到每个分类与其他分类的分类超平面的距离。

6.根据权利要求1-3中任一项所述的信息分类方法，其特征在于，所述待分析数据在所述参考分类中对应每个分类的参考值为：采用K-NS分类算法获得的待分析数据到分类的距离。

7.根据权利要求1-6中任一所述的信息分类方法，其特征在于，所述对于每个分类，根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值，确定待分析数据对于该分类的类别从属度的计算公式为：

f (c_{i}^{'}) = \frac{s_{i}^{'}}{(a Σ_{j = 1}^{- = 1} s_{j}^{'} + b s_{i}^{'} + a Σ_{j = i + 1}^{m} s_{j}^{'})} + c

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类ci_'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m，a、b、c是控制参数，其中，a＞0,b＞0,c≥0。

8.根据权利要求1-6中任一所述的信息分类方法，其特征在于，所述对于每个分类，根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值，确定待分析数据对于该分类的类别从属度的计算公式为：

f (c_{i}^{'}) = s_{i}^{'} / Σ_{j = 1}^{m} s_{j}^{'};

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类ci_'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m；为待分析数据对应参考分类中每个分类的参考值之和。

9.根据权利要求1-6任一所述的信息分类方法，其特征在于，所述对于每个分类，根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值，确定待分析数据对于该分类的类别从属度的计算公式为：

f (c_{i}^{'}) = {αs}_{i}^{'} / (Σ_{j = 1}^{i - 1} s_{j}^{'} + {αs}_{i}^{'} + Σ_{j = i + 1}^{m} s_{j}^{'});

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m；α为分类c_i'的相对重要度系数，且α≥0。

10.根据权利要求1-6任一所述的信息分类方法，其特征在于，所述对于每个分类，根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值，确定待分析数据对于该分类的类别从属度的计算公式为：

f (c_{i}^{'}) = {βs}_{i}^{'} / Σ_{j = 1}^{m} s_{j}^{'};

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m；为待分析数据对应参考分类中每个分类的参考值之和，β为参考分类整体的重要程度系数，且β≥0。

11.根据权利要求1-6中任一所述的信息分类方法，其特征在于，所述对于每个分类，根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值，确定待分析数据对于该分类的类别从属度的计算公式为：

f (c_{i}^{'}) = \frac{s_{i}^{'}}{\max (s_{j}^{'}) + \min (s_{j}^{'}) + (m - 2) δ}, δ = \frac{\max (s_{j}^{'}) + nix (s_{j}^{'})}{2}

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m，max(s'_j)为待分析数据对应各个分类的参考值的最大值，min(s'_j)为待分析数据对应各个分类的参考值的最小值。

12.根据权利要求1-11中任一项所述的信息分类方法，其特征在于，所述参考值为归一化处理后的值。

13.根据权利要求12所述的信息分类方法，其特征在于，所述归一化处理通过函数变换实现，使用函数f(x)＝1/(1+e^-λx)进行归一化变换，其中x为归一化变换前的值，f(x)为归一化变换后的值，λ≥1。

14.根据权利要求12任一所述的信息分类方法，其特征在于，所述归一化处理的过程为：将所有的参考值统一增加一个常数使得最小值变成正数后，再都除以最大值得到归一化处理后的值。

15.一种基于类别从属度的信息分类系统，其特征在于，包括：

所有分类确定模块：确定所有分类；

16.根据权利要求15所述的信息分类系统，其特征在于，所述分类模块包括：将所述待分析数据对于参考分类中每个分类的类别从属度降序排列，将所述类别从属度及其对应的分类作为分类结果。

17.根据权利要求15所述的信息分类系统，其特征在于，所述分类模块包括：预设一个分类阈值，将大于预设分类阈值的类别从属度及其对应的分类，作为分类结果。

18.根据权利要求15-17中任一项所述的信息分类方法，其特征在于，所述待分析数据在所述参考分类中对应每个分类的参考值为：待分析数据到该分类与其余分类的分类超平面的距离值。

19.根据权利要求18所述的信息分类方法，其特征在于，所述参考值计算模块包括：

20.根据权利要求15-17中任一项所述的信息分类方法，其特征在于，所述待分析数据在所述参考分类中对应每个分类的参考值为：采用K-NS分类算法获得的待分析数据到分类的距离。

21.根据权利要求15所述的信息分类系统，其特征在于，所述类别从属度计算模块包括计算子模块，所述计算子模块中设置有计算公式为：

f (c_{i}^{'}) = \frac{s_{i}^{'}}{(a Σ_{j = 1}^{- = 1} s_{j}^{'} + b s_{i}^{'} + a Σ_{j = i + 1}^{m} s_{j}^{'})} + c

其中，c_i'为所述参考分类中的第i个分类，f(c_i')为待分析数据对于分类c_i'的类别从属度，s_i'为待分析数据对应所述分类c_i'的参考值，m为参考分类中分类的个数，s'_j为待分析数据在参考分类中对应第j个分类的参考值，j=1，2，…，m，a、b、c是控制参数，其中，a＞0,b＞0,c≥0。

22.根据权利要求15-17任一所述的信息分类系统，其特征在于，所述类别从属度计算模块中，包括等比例计算子模块，设置有计算公式：

f (c_{i}^{'}) = s_{i}^{'} / Σ_{j = 1}^{m} s_{j}^{'};

23.根据权利要求15-17任一所述的信息分类系统，其特征在于，所述类别从属度计算模块中，包括分类单独控制计算子模块，设置有计算公式：

f (c_{i}^{'}) = {αs}_{i}^{'} / (Σ_{j = 1}^{i - 1} s_{j}^{'} + {αs}_{i}^{'} + Σ_{j = i + 1}^{m} s_{j}^{'});

24.根据权利要求15-17任一所述的信息分类系统，其特征在于，所述类别从属度计算模块中，包括参考分类整体控制计算子模块，设置有计算公式：

f (c_{i}^{'}) = {βs}_{i}^{'} / Σ_{j = 1}^{m} s_{j}^{'};

25.根据权利要求15所述的信息分类系统，其特征在于，所述类别从属度计算模块包括模糊计算子模块，所述模糊计算子模块中设置有计算公式为：

f (c_{i}^{'}) = \frac{s_{i}^{'}}{\max (s_{j}^{'}) + \min (s_{j}^{'}) + (m - 2) δ}, δ = \frac{\max (s_{j}^{'}) + nix (s_{j}^{'})}{2}

26.根据权利要求15-25中任一项所述的信息分类系统，其特征在于，所述参考值为归一化处理后的值。

27.根据权利要求26所述的信息分类系统，其特征在于，所述参考值计算模块还包括归一化函数处理子模块，通过函数变换实现所述归一化处理，使用函数f(x)＝1/(1+e^-λx)进行归一化变换，其中x为归一化变换前的值，f(x)为归一化变换后的值，λ≥1。

28.根据权利要求26所述的信息分类系统，其特征在于，所述参考值计算模块还包括归一化处理子模块，将所有的参考值统一增加一个常数使得最小值变成正数后，再都除以最大值得到归一化处理后的值。