CN108268458A

CN108268458A - 一种基于knn算法的半结构化数据分类方法及装置

Info

Publication number: CN108268458A
Application number: CN201611253977.XA
Authority: CN
Inventors: 杨婉; 李青海; 黄超; 潘宇翔; 王平; 张晓亭
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10
Anticipated expiration: 2036-12-30
Also published as: CN108268458B

Abstract

本发明公开一种基于KNN算法的半结构化数据分类方法及装置，该方法包括：步骤S1，将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量；步骤S2，得到该类别的类中心向量；步骤S3，接收测试半结构化数据后，将所述测试半结构化数据表示为所述数据向量；步骤S4，计算所述测试半结构化数据与训练集中每个类的类中心向量的距离；步骤S5，计算对应的相似度；步骤S6，将所述测试半结构化数据归类为与其相似度最大的类中；该装置包括对应的训练转换单元、类中心向量计算单元、测试转换单元、距离计算单元、相似度计算单元和分类单元。这样，引入测试半结构化数据与训练半结构化数据所在类的相似性，使得分类结果准确，且提高了分类精度。

Description

一种基于KNN算法的半结构化数据分类方法及装置

技术领域

本发明涉及数据分类技术领域，具体涉及一种基于KNN算法的半结构化数据分类方法及装置。

背景技术

半结构化数据，和结构化数据以及非结构化数据都不一样，它是结构化的数据，但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理，由于结构变化很大也不能够简单的建立一个表和他对应。

半结构化数据一般是自描述的，数据的结构和内容混在一起，没有明显的区分。HTML文档就属于半结构化数据，其中，由于网页也通常表现为HTML格式，因此网页也属于半结构化数据。

近年来，随着计算机网络技术的迅猛发展，互联网上信息量飞速增加，网页自动分类技术就成为了快速且有效地组织网络上大量信息的一个重要技术。网页分类可以帮助用户从海量的网页中迅速、准确的找出所需要的信息，具有较大的实用价值。这就使得网页分类技术突飞猛进，间接地，也使得半结构化数据的数据分类方法也随之发展。

目前来说，在对半结构化数据尤其是网页进行分类时，忽略了测试类半结构化数据与训练半结构化数据之间是否存有相似性，而直接进行分类，这就导致分类结果的不准确。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，首先提供一种基于KNN算法的半结构化数据分类方法，其包括：

步骤S1，将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量；

步骤S2，对训练半结构化数据进行特征提取操作，然后根据某一类别的所有数据向量得到该类别的类中心向量；

步骤S3，接收测试半结构化数据后，将所述测试半结构化数据表示为所述数据向量；

步骤S4，计算所述测试半结构化数据与训练集中每个类的类中心向量的距离；

步骤S5，计算所述测试半结构化数据与每类中心向量的相似度；

步骤S6，将所述测试半结构化数据归类为与其相似度最大的类中。

较佳的，所述步骤S1中，所述数据向量为n维的特征向量。

较佳的，所述步骤S2中，所述类中心向量的计算公式为：

其中，C_i为第i类的类中心向量；n为第i类中训练半结构化数据的个数；d_ik为第i类中第k个训练半结构化数据的特征向量。

较佳的，所述步骤S4中，所述距离的计算公式为:

FV＝C+NUM

其中，FV为所述测试半结构化数据与类中心向量的距离；C为向量距离，表示的是测试半结构化数据与类中心向量的内积；NUM表示测试半结构化数据和训练半结构化数据共同出现的特征项个数与两个半结构化数据中的特征项个数的最大值的比值。

较佳的，所述NUM的计算公式为:

其中，M表示测试半结构化数据与训练半结构化数据共同出现的特征项个数；n₁表示测试半结构化数据包含的特征项个数；n₂表示训练集中要计算相似度的半结构化数据所包含的特征项的个数。

其次提供一种与上述所述的基于KNN算法的半结构化数据分类方法对应的基于KNN算法的半结构化数据分类装置，其包括：

训练转换单元，其将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量；

类中心向量计算单元，其对训练半结构化数据进行特征提取操作，然后根据某一类别的所有数据向量得到该类别的类中心向量；

测试转换单元，其接收测试半结构化数据后，将所述测试半结构化数据表示为所述数据向量；

距离计算单元，其计算所述测试半结构化数据与训练集中每个类的类中心向量的距离；

相似度计算单元，其计算所述测试半结构化数据与每类中心向量的相似度；

分类单元，其将所述测试半结构化数据归类为与其相似度最大的类中。

与现有技术比较本发明的有益效果在于：考虑了测试半结构化数据与训练半结构化数据所在类的相似性，使得分类结果更加准确，提高了分类精度；对训练集进行了最大程度的裁剪，测试半结构化数据只需与较少的类中心向量作比较，就可以将其分类，从而提高了半结构化数据的训练速度和分类速度。

附图说明

为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本发明现有技术中KNN网页分类的流程图；

图2是本发明本发明基于KNN算法的半结构化数据分类方法的流程图；

图3是本发明本发明基于KNN算法的半结构化数据分类装置的结构图；

图4是本发明基于类中心向量的FV-KNN算法的流程图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

KNN算法是一种基于实例的分类方法，适用于样本容量比较大的类域的自动分类。该方法就是找出与未知样本x距离最近的K个训练样本，看这K个样本中多数属于哪一类，就把x归为那一类。具体地说就是在N个已知样本中，找出x的k个近邻。设这N个样本中，来自ω₁类的样本有N₁个，来自ω₂类的样本有N₂个，…，来自ω_c类的样本有N_c个。若k₁,k₂,...,k_c分别是k个近邻中属于ω₁,ω₂,...,ω_c类的样本数，则定义判别函数为:

g_j(x)＝k_i,i＝1,2,...,c

若则判定x∈ω_j。而对于样本容量较小的类域，采用这种算法比较容易产生误分。

图1为KNN网页分类的流程图，具体步骤如下：首先，把待分类的中文网页集进行数据预处理，即采用VSM模型把网页形式的数据转化为加权特征向量的形式，向量储存到处理后数据集中。数据集中的样本分成训练样本和测试样本后，输入FV-KNN训练模型，得到最终网页分类的最终结果。

但是该算法在计算两篇网页的相似度时，并没有考虑特征项在分类时对不同类别的作用，就通过两篇网页向量相应特征项的权重值直接计算得到结果，忽略了测试类网页与训练网页所在类是否有相似性，将求出来的结果直接运用到分类时会导致分类结果的不准确，影响分类精度。

实施例1

如图2所示，其为本发明基于KNN算法的半结构化数据分类方法的流程图；其中，所述基于KNN算法的半结构化数据分类方法，包括：

步骤S1，将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量。

该步骤中，所述数据向量为n维的特征向量。

步骤S2，对训练半结构化数据进行特征提取操作，然后根据某一类别的所有数据向量得到该类别的类中心向量。

该步骤中，所述数据向量为n维的特征向量。

该步骤中，测试半结构化数据T表示成n维向量T(W₁,W₂,...,W_n)的形式。

这样，考虑了测试半结构化数据与训练半结构化数据所在类的相似性，使得分类结果更加准确，提高了分类精度；对训练集进行了最大程度的裁剪，测试半结构化数据只需与较少的类中心向量作比较，就可以将其分类，从而提高了半结构化数据的训练速度和分类速度。

实施例2

如上述所述的基于KNN算法的半结构化数据分类方法，本实施例与其不同之处在于，步骤S1中，所述数据向量为n维的特征向量。

步骤S1中，通过向量空间模型(VSM)对半结构化数据的文本进行特征表示。在VSM中，文本空间被看作是由一组正交词条向量组成的向量空间。假设所有文本的特征总数是n，则构成一个n维的向量空间，其中每一个文本(每个文本对应一个半结构化数据)被表示为一个n维的特征向量：

D＝D(T₁,W₁；T₂,W₂；...；T_n,W_n)

其中，T_i为词条项(向量)，W_i为T_i在文本d中的权值。

对W_i的计算采用TFIDF向量表示法：

其中，Tf_i(d)为词条T_i在文本d中出现的词频，N为所有文本的数目，n_i为出现了词条T_i的文本的数目。

这样，分类快速，计算方便。

实施例3

如上述所述的基于KNN算法的半结构化数据分类方法，本实施例与其不同之处在于，步骤S2中，类中心向量的计算公式为：

其中，C_i为第i类的类中心向量；n为第i类中训练半结构化数据的个数；d_ik为第i类中第k个训练半结构化数据的特征向量(数据向量)。

这样，计算方便，进一步提高了半结构化数据的训练速度和分类速度。

实施例4

如上述所述的基于KNN算法的半结构化数据分类方法，本实施例与其不同之处在于，步骤S3中，所述数据向量为n维的特征向量。

步骤S3中，通过向量空间模型(VSM)对半结构化数据的文本进行特征表示。在VSM中，文本空间被看作是由一组正交词条向量组成的向量空间。假设所有文本的特征总数是n，则构成一个n维的向量空间，其中每一个文本(每个文本对应一个半结构化数据)被表示为一个n维的特征向量：

D＝D(T₁,W₁；T₂,W₂；...；T_n,W_n)

其中，T_i为词条项(向量)，W_i为T_i在文本d中的权值。

对W_i的计算采用TFIDF向量表示法：

其中，Tf_i(d)为词条T_i在文本d中出现的词频，N为所有文本的数目，n_i为出现了词条T_i的文本的数目。该步骤中，测试半结构化数据T表示成n维向量T(W₁,W₂,...,W_n)的形式。

这样，分类快速，计算方便。

实施例5

如上述所述的基于KNN算法的半结构化数据分类方法，本实施例与其不同之处在于，步骤S4中，所述测试半结构化数据与训练集中每个类的类中心向量的距离FV的计算公式为:

FV＝C+NUM

其中，NUM的计算公式为:

其中，M表示测试半结构化数据与训练半结构化数据共同出现的特征项个数；n₁表示测试半结构化数据包含的特征项个数；n₂表示训练集中要计算相似度的半结构化数据所包含的特征项的个数；max(n₁,n₂)表示从测试半结构化数据与训练半结构化数据各自包含的特征项个数的最大值。

实施例6

如上述所述的基于KNN算法的半结构化数据分类方法，本实施例与其不同之处在于，步骤S5中，测试测试半结构化数据与每类的类中心向量的相似度SimFV的计算公式为:

其中，d_i为测试半结构化数据的特征向量，d_j为第j类的类中心向量，n为特征向量的维数，W_ik为测试半结构化数据的特征向量d_i的第k维，W_jk为第j类的类中心向量的第k维，FV为所述测试半结构化数据与类中心向量的距离。

实施例7

如上述所述的基于KNN算法的半结构化数据分类方法，本实施例与其不同之处在于，其为与所述的基于KNN算法的半结构化数据分类方法对应的基于KNN算法的半结构化数据分类装置，如图3所示，包括：

训练转换单元1，其将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量。

该单元中，所述数据向量为n维的特征向量。

类中心向量计算单元2，其对训练半结构化数据进行特征提取操作，然后根据某一类别的所有数据向量得到该类别的类中心向量。

测试转换单元3，其接收测试半结构化数据后，将所述测试半结构化数据表示为所述数据向量；

该单元中，所述数据向量为n维的特征向量。

该单元中，测试半结构化数据T表示成n维向量T(W₁,W₂,...,W_n)的形式。

距离计算单元4，其计算所述测试半结构化数据与训练集中每个类的类中心向量的距离；

相似度计算单元5，其计算所述测试半结构化数据与每类中心向量的相似度；

分类单元6，其将所述测试半结构化数据归类为与其相似度最大的类中。

实施例8

如上述所述的基于KNN算法的半结构化数据分类装置，本实施例与其不同之处在于，训练转换单元1中，所述数据向量为n维的特征向量。

训练转换单元1中，通过向量空间模型(VSM)对半结构化数据的文本进行特征表示。在VSM中，文本空间被看作是由一组正交词条向量组成的向量空间。假设所有文本的特征总数是n，则构成一个n维的向量空间，其中每一个文本(每个文本对应一个半结构化数据)被表示为一个n维的特征向量：

D＝D(T₁,W₁；T₂,W₂；...；T_n,W_n)

其中，T_i为词条项(向量)，W_i为T_i在文本d中的权值。

对W_i的计算采用TFIDF向量表示法：

这样，分类快速，计算方便。

实施例9

如上述所述的基于KNN算法的半结构化数据分类装置，本实施例与其不同之处在于，类中心向量计算单元2中，类中心向量的计算公式为：

实施例10

如上述所述的基于KNN算法的半结构化数据分类装置，本实施例与其不同之处在于，测试转换单元3中，所述数据向量为n维的特征向量。

测试转换单元3中，通过向量空间模型(VSM)对半结构化数据的文本进行特征表示。在VSM中，文本空间被看作是由一组正交词条向量组成的向量空间。假设所有文本的特征总数是n，则构成一个n维的向量空间，其中每一个文本(每个文本对应一个半结构化数据)被表示为一个n维的特征向量：

D＝D(T₁,W₁；T₂,W₂；...；T_n,W_n)

其中，T_i为词条项(向量)，W_i为T_i在文本d中的权值。

对W_i的计算采用TFIDF向量表示法：

其中，Tf_i(d)为词条T_i在文本d中出现的词频，N为所有文本的数目，n_i为出现了词条T_i的文本的数目。该单元中，测试半结构化数据T表示成n维向量T(W₁,W₂,...,W_n)的形式。

这样，分类快速，计算方便。

实施例11

如上述所述的基于KNN算法的半结构化数据分类装置，本实施例与其不同之处在于，距离计算单元4中，所述测试半结构化数据与训练集中每个类的类中心向量的距离FV的计算公式为:

FV＝C+NUM

其中，NUM的计算公式为:

实施例12

如上述所述的基于KNN算法的半结构化数据分类装置，本实施例与其不同之处在于，相似度计算单元5中，测试测试半结构化数据与每类的类中心向量的相似度SimFV的计算公式为:

实施例13

如上述所述的基于KNN算法的半结构化数据分类方法及装置，本实施例与其不同之处在于，其为将基于KNN算法的半结构化数据分类方法应用于网页分类的具体实例，如图4所示其为基于类中心向量的FV-KNN算法，具体算法步骤如下:

Step1:将训练网页集中的所有网页都表示成计算机能够识别的网页向量。

Step2:对测试网页进行特征词分词、特征提取等操作，然后根据某一类别的所有网页向量得到该类别的类中心向量。

Step3:在测试网页到达后，先将测试网页T表示成n维向量T(W₁,W₂,...,W_n)的形式，然后计算该网页与训练网页集中每个类的类中心向量的距离FV，将网页分到距离最小的类。计算公式为:

FV＝C+NUM

其中，C为向量距离，表示的是测试网页与类中心向量的内积，类中心向量的计算公式为:

NUM表示测试网页和训练网页共同出现的特征项个数与两个网页中的特征项个数的最大值的比值。NUM的计算方法为:

其中:M表示测试网页与训练网页共同出现的特征项个数；n₁表示测试网页包含的特征项个数；n₂表示训练网页集中要计算相似度的网页所包含的特征项的个数；max(n₁,n₂)表示从测试网页与训练网页各自包含的特征项个数的最大值。

Step4:计算测试网页T与每类中心向量的相似度SimFV，计算公式为:

Step5:将测试网页T归类为与其相似度最大的类中，分类完毕。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于KNN算法的半结构化数据分类方法，其特征在于，包括：

2.如权利要求1所述的基于KNN算法的半结构化数据分类方法，其特征在于，所述步骤S1中，所述数据向量为n维的特征向量。

3.如权利要求2所述的基于KNN算法的半结构化数据分类方法，其特征在于，所述步骤S2中，所述类中心向量的计算公式为：

4.如权利要求1-3中任一所述的基于KNN算法的半结构化数据分类方法，其特征在于，所述步骤S4中，所述距离的计算公式为:

FV＝C+NUM

5.如权利要求4所述的基于KNN算法的半结构化数据分类方法，其特征在于，所述NUM的计算公式为:

6.一种与上述任一权利要求所述的基于KNN算法的半结构化数据分类方法对应的基于KNN算法的半结构化数据分类装置，其特征在于，包括：