CN108268458A - 一种基于knn算法的半结构化数据分类方法及装置 - Google Patents

一种基于knn算法的半结构化数据分类方法及装置 Download PDF

Info

Publication number
CN108268458A
CN108268458A CN201611253977.XA CN201611253977A CN108268458A CN 108268458 A CN108268458 A CN 108268458A CN 201611253977 A CN201611253977 A CN 201611253977A CN 108268458 A CN108268458 A CN 108268458A
Authority
CN
China
Prior art keywords
semi
structured data
vector
test
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611253977.XA
Other languages
English (en)
Other versions
CN108268458B (zh
Inventor
杨婉
李青海
黄超
潘宇翔
王平
张晓亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201611253977.XA priority Critical patent/CN108268458B/zh
Publication of CN108268458A publication Critical patent/CN108268458A/zh
Application granted granted Critical
Publication of CN108268458B publication Critical patent/CN108268458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于KNN算法的半结构化数据分类方法及装置,该方法包括:步骤S1,将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量;步骤S2,得到该类别的类中心向量;步骤S3,接收测试半结构化数据后,将所述测试半结构化数据表示为所述数据向量;步骤S4,计算所述测试半结构化数据与训练集中每个类的类中心向量的距离;步骤S5,计算对应的相似度;步骤S6,将所述测试半结构化数据归类为与其相似度最大的类中;该装置包括对应的训练转换单元、类中心向量计算单元、测试转换单元、距离计算单元、相似度计算单元和分类单元。这样,引入测试半结构化数据与训练半结构化数据所在类的相似性,使得分类结果准确,且提高了分类精度。

Description

一种基于KNN算法的半结构化数据分类方法及装置
技术领域
本发明涉及数据分类技术领域,具体涉及一种基于KNN算法的半结构化数据分类方法及装置。
背景技术
半结构化数据,和结构化数据以及非结构化数据都不一样,它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。
半结构化数据一般是自描述的,数据的结构和内容混在一起,没有明显的区分。HTML文档就属于半结构化数据,其中,由于网页也通常表现为HTML格式,因此网页也属于半结构化数据。
近年来,随着计算机网络技术的迅猛发展,互联网上信息量飞速增加,网页自动分类技术就成为了快速且有效地组织网络上大量信息的一个重要技术。网页分类可以帮助用户从海量的网页中迅速、准确的找出所需要的信息,具有较大的实用价值。这就使得网页分类技术突飞猛进,间接地,也使得半结构化数据的数据分类方法也随之发展。
目前来说,在对半结构化数据尤其是网页进行分类时,忽略了测试类半结构化数据与训练半结构化数据之间是否存有相似性,而直接进行分类,这就导致分类结果的不准确。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,首先提供一种基于KNN算法的半结构化数据分类方法,其包括:
步骤S1,将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量;
步骤S2,对训练半结构化数据进行特征提取操作,然后根据某一类别的所有数据向量得到该类别的类中心向量;
步骤S3,接收测试半结构化数据后,将所述测试半结构化数据表示为所述数据向量;
步骤S4,计算所述测试半结构化数据与训练集中每个类的类中心向量的距离;
步骤S5,计算所述测试半结构化数据与每类中心向量的相似度;
步骤S6,将所述测试半结构化数据归类为与其相似度最大的类中。
较佳的,所述步骤S1中,所述数据向量为n维的特征向量。
较佳的,所述步骤S2中,所述类中心向量的计算公式为:
其中,Ci为第i类的类中心向量;n为第i类中训练半结构化数据的个数;dik为第i类中第k个训练半结构化数据的特征向量。
较佳的,所述步骤S4中,所述距离的计算公式为:
FV=C+NUM
其中,FV为所述测试半结构化数据与类中心向量的距离;C为向量距离,表示的是测试半结构化数据与类中心向量的内积;NUM表示测试半结构化数据和训练半结构化数据共同出现的特征项个数与两个半结构化数据中的特征项个数的最大值的比值。
较佳的,所述NUM的计算公式为:
其中,M表示测试半结构化数据与训练半结构化数据共同出现的特征项个数;n1表示测试半结构化数据包含的特征项个数;n2表示训练集中要计算相似度的半结构化数据所包含的特征项的个数。
其次提供一种与上述所述的基于KNN算法的半结构化数据分类方法对应的基于KNN算法的半结构化数据分类装置,其包括:
训练转换单元,其将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量;
类中心向量计算单元,其对训练半结构化数据进行特征提取操作,然后根据某一类别的所有数据向量得到该类别的类中心向量;
测试转换单元,其接收测试半结构化数据后,将所述测试半结构化数据表示为所述数据向量;
距离计算单元,其计算所述测试半结构化数据与训练集中每个类的类中心向量的距离;
相似度计算单元,其计算所述测试半结构化数据与每类中心向量的相似度;
分类单元,其将所述测试半结构化数据归类为与其相似度最大的类中。
与现有技术比较本发明的有益效果在于:考虑了测试半结构化数据与训练半结构化数据所在类的相似性,使得分类结果更加准确,提高了分类精度;对训练集进行了最大程度的裁剪,测试半结构化数据只需与较少的类中心向量作比较,就可以将其分类,从而提高了半结构化数据的训练速度和分类速度。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本发明现有技术中KNN网页分类的流程图;
图2是本发明本发明基于KNN算法的半结构化数据分类方法的流程图;
图3是本发明本发明基于KNN算法的半结构化数据分类装置的结构图;
图4是本发明基于类中心向量的FV-KNN算法的流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
KNN算法是一种基于实例的分类方法,适用于样本容量比较大的类域的自动分类。该方法就是找出与未知样本x距离最近的K个训练样本,看这K个样本中多数属于哪一类,就把x归为那一类。具体地说就是在N个已知样本中,找出x的k个近邻。设这N个样本中,来自ω1类的样本有N1个,来自ω2类的样本有N2个,…,来自ωc类的样本有Nc个。若k1,k2,...,kc分别是k个近邻中属于ω12,...,ωc类的样本数,则定义判别函数为:
gj(x)=ki,i=1,2,...,c
则判定x∈ωj。而对于样本容量较小的类域,采用这种算法比较容易产生误分。
图1为KNN网页分类的流程图,具体步骤如下:首先,把待分类的中文网页集进行数据预处理,即采用VSM模型把网页形式的数据转化为加权特征向量的形式,向量储存到处理后数据集中。数据集中的样本分成训练样本和测试样本后,输入FV-KNN训练模型,得到最终网页分类的最终结果。
但是该算法在计算两篇网页的相似度时,并没有考虑特征项在分类时对不同类别的作用,就通过两篇网页向量相应特征项的权重值直接计算得到结果,忽略了测试类网页与训练网页所在类是否有相似性,将求出来的结果直接运用到分类时会导致分类结果的不准确,影响分类精度。
实施例1
如图2所示,其为本发明基于KNN算法的半结构化数据分类方法的流程图;其中,所述基于KNN算法的半结构化数据分类方法,包括:
步骤S1,将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量。
该步骤中,所述数据向量为n维的特征向量。
步骤S2,对训练半结构化数据进行特征提取操作,然后根据某一类别的所有数据向量得到该类别的类中心向量。
步骤S3,接收测试半结构化数据后,将所述测试半结构化数据表示为所述数据向量;
该步骤中,所述数据向量为n维的特征向量。
该步骤中,测试半结构化数据T表示成n维向量T(W1,W2,...,Wn)的形式。
步骤S4,计算所述测试半结构化数据与训练集中每个类的类中心向量的距离;
步骤S5,计算所述测试半结构化数据与每类中心向量的相似度;
步骤S6,将所述测试半结构化数据归类为与其相似度最大的类中。
这样,考虑了测试半结构化数据与训练半结构化数据所在类的相似性,使得分类结果更加准确,提高了分类精度;对训练集进行了最大程度的裁剪,测试半结构化数据只需与较少的类中心向量作比较,就可以将其分类,从而提高了半结构化数据的训练速度和分类速度。
实施例2
如上述所述的基于KNN算法的半结构化数据分类方法,本实施例与其不同之处在于,步骤S1中,所述数据向量为n维的特征向量。
步骤S1中,通过向量空间模型(VSM)对半结构化数据的文本进行特征表示。在VSM中,文本空间被看作是由一组正交词条向量组成的向量空间。假设所有文本的特征总数是n,则构成一个n维的向量空间,其中每一个文本(每个文本对应一个半结构化数据)被表示为一个n维的特征向量:
D=D(T1,W1;T2,W2;...;Tn,Wn)
其中,Ti为词条项(向量),Wi为Ti在文本d中的权值。
对Wi的计算采用TFIDF向量表示法:
其中,Tfi(d)为词条Ti在文本d中出现的词频,N为所有文本的数目,ni为出现了词条Ti的文本的数目。
这样,分类快速,计算方便。
实施例3
如上述所述的基于KNN算法的半结构化数据分类方法,本实施例与其不同之处在于,步骤S2中,类中心向量的计算公式为:
其中,Ci为第i类的类中心向量;n为第i类中训练半结构化数据的个数;dik为第i类中第k个训练半结构化数据的特征向量(数据向量)。
这样,计算方便,进一步提高了半结构化数据的训练速度和分类速度。
实施例4
如上述所述的基于KNN算法的半结构化数据分类方法,本实施例与其不同之处在于,步骤S3中,所述数据向量为n维的特征向量。
步骤S3中,通过向量空间模型(VSM)对半结构化数据的文本进行特征表示。在VSM中,文本空间被看作是由一组正交词条向量组成的向量空间。假设所有文本的特征总数是n,则构成一个n维的向量空间,其中每一个文本(每个文本对应一个半结构化数据)被表示为一个n维的特征向量:
D=D(T1,W1;T2,W2;...;Tn,Wn)
其中,Ti为词条项(向量),Wi为Ti在文本d中的权值。
对Wi的计算采用TFIDF向量表示法:
其中,Tfi(d)为词条Ti在文本d中出现的词频,N为所有文本的数目,ni为出现了词条Ti的文本的数目。该步骤中,测试半结构化数据T表示成n维向量T(W1,W2,...,Wn)的形式。
这样,分类快速,计算方便。
实施例5
如上述所述的基于KNN算法的半结构化数据分类方法,本实施例与其不同之处在于,步骤S4中,所述测试半结构化数据与训练集中每个类的类中心向量的距离FV的计算公式为:
FV=C+NUM
其中,FV为所述测试半结构化数据与类中心向量的距离;C为向量距离,表示的是测试半结构化数据与类中心向量的内积;NUM表示测试半结构化数据和训练半结构化数据共同出现的特征项个数与两个半结构化数据中的特征项个数的最大值的比值。
其中,NUM的计算公式为:
其中,M表示测试半结构化数据与训练半结构化数据共同出现的特征项个数;n1表示测试半结构化数据包含的特征项个数;n2表示训练集中要计算相似度的半结构化数据所包含的特征项的个数;max(n1,n2)表示从测试半结构化数据与训练半结构化数据各自包含的特征项个数的最大值。
这样,计算方便,进一步提高了半结构化数据的训练速度和分类速度。
实施例6
如上述所述的基于KNN算法的半结构化数据分类方法,本实施例与其不同之处在于,步骤S5中,测试测试半结构化数据与每类的类中心向量的相似度SimFV的计算公式为:
其中,di为测试半结构化数据的特征向量,dj为第j类的类中心向量,n为特征向量的维数,Wik为测试半结构化数据的特征向量di的第k维,Wjk为第j类的类中心向量的第k维,FV为所述测试半结构化数据与类中心向量的距离。
这样,计算方便,进一步提高了半结构化数据的训练速度和分类速度。
实施例7
如上述所述的基于KNN算法的半结构化数据分类方法,本实施例与其不同之处在于,其为与所述的基于KNN算法的半结构化数据分类方法对应的基于KNN算法的半结构化数据分类装置,如图3所示,包括:
训练转换单元1,其将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量。
该单元中,所述数据向量为n维的特征向量。
类中心向量计算单元2,其对训练半结构化数据进行特征提取操作,然后根据某一类别的所有数据向量得到该类别的类中心向量。
测试转换单元3,其接收测试半结构化数据后,将所述测试半结构化数据表示为所述数据向量;
该单元中,所述数据向量为n维的特征向量。
该单元中,测试半结构化数据T表示成n维向量T(W1,W2,...,Wn)的形式。
距离计算单元4,其计算所述测试半结构化数据与训练集中每个类的类中心向量的距离;
相似度计算单元5,其计算所述测试半结构化数据与每类中心向量的相似度;
分类单元6,其将所述测试半结构化数据归类为与其相似度最大的类中。
这样,考虑了测试半结构化数据与训练半结构化数据所在类的相似性,使得分类结果更加准确,提高了分类精度;对训练集进行了最大程度的裁剪,测试半结构化数据只需与较少的类中心向量作比较,就可以将其分类,从而提高了半结构化数据的训练速度和分类速度。
实施例8
如上述所述的基于KNN算法的半结构化数据分类装置,本实施例与其不同之处在于,训练转换单元1中,所述数据向量为n维的特征向量。
训练转换单元1中,通过向量空间模型(VSM)对半结构化数据的文本进行特征表示。在VSM中,文本空间被看作是由一组正交词条向量组成的向量空间。假设所有文本的特征总数是n,则构成一个n维的向量空间,其中每一个文本(每个文本对应一个半结构化数据)被表示为一个n维的特征向量:
D=D(T1,W1;T2,W2;...;Tn,Wn)
其中,Ti为词条项(向量),Wi为Ti在文本d中的权值。
对Wi的计算采用TFIDF向量表示法:
其中,Tfi(d)为词条Ti在文本d中出现的词频,N为所有文本的数目,ni为出现了词条Ti的文本的数目。
这样,分类快速,计算方便。
实施例9
如上述所述的基于KNN算法的半结构化数据分类装置,本实施例与其不同之处在于,类中心向量计算单元2中,类中心向量的计算公式为:
其中,Ci为第i类的类中心向量;n为第i类中训练半结构化数据的个数;dik为第i类中第k个训练半结构化数据的特征向量(数据向量)。
这样,计算方便,进一步提高了半结构化数据的训练速度和分类速度。
实施例10
如上述所述的基于KNN算法的半结构化数据分类装置,本实施例与其不同之处在于,测试转换单元3中,所述数据向量为n维的特征向量。
测试转换单元3中,通过向量空间模型(VSM)对半结构化数据的文本进行特征表示。在VSM中,文本空间被看作是由一组正交词条向量组成的向量空间。假设所有文本的特征总数是n,则构成一个n维的向量空间,其中每一个文本(每个文本对应一个半结构化数据)被表示为一个n维的特征向量:
D=D(T1,W1;T2,W2;...;Tn,Wn)
其中,Ti为词条项(向量),Wi为Ti在文本d中的权值。
对Wi的计算采用TFIDF向量表示法:
其中,Tfi(d)为词条Ti在文本d中出现的词频,N为所有文本的数目,ni为出现了词条Ti的文本的数目。该单元中,测试半结构化数据T表示成n维向量T(W1,W2,...,Wn)的形式。
这样,分类快速,计算方便。
实施例11
如上述所述的基于KNN算法的半结构化数据分类装置,本实施例与其不同之处在于,距离计算单元4中,所述测试半结构化数据与训练集中每个类的类中心向量的距离FV的计算公式为:
FV=C+NUM
其中,FV为所述测试半结构化数据与类中心向量的距离;C为向量距离,表示的是测试半结构化数据与类中心向量的内积;NUM表示测试半结构化数据和训练半结构化数据共同出现的特征项个数与两个半结构化数据中的特征项个数的最大值的比值。
其中,NUM的计算公式为:
其中,M表示测试半结构化数据与训练半结构化数据共同出现的特征项个数;n1表示测试半结构化数据包含的特征项个数;n2表示训练集中要计算相似度的半结构化数据所包含的特征项的个数;max(n1,n2)表示从测试半结构化数据与训练半结构化数据各自包含的特征项个数的最大值。
这样,计算方便,进一步提高了半结构化数据的训练速度和分类速度。
实施例12
如上述所述的基于KNN算法的半结构化数据分类装置,本实施例与其不同之处在于,相似度计算单元5中,测试测试半结构化数据与每类的类中心向量的相似度SimFV的计算公式为:
其中,di为测试半结构化数据的特征向量,dj为第j类的类中心向量,n为特征向量的维数,Wik为测试半结构化数据的特征向量di的第k维,Wjk为第j类的类中心向量的第k维,FV为所述测试半结构化数据与类中心向量的距离。
这样,计算方便,进一步提高了半结构化数据的训练速度和分类速度。
实施例13
如上述所述的基于KNN算法的半结构化数据分类方法及装置,本实施例与其不同之处在于,其为将基于KNN算法的半结构化数据分类方法应用于网页分类的具体实例,如图4所示其为基于类中心向量的FV-KNN算法,具体算法步骤如下:
Step1:将训练网页集中的所有网页都表示成计算机能够识别的网页向量。
Step2:对测试网页进行特征词分词、特征提取等操作,然后根据某一类别的所有网页向量得到该类别的类中心向量。
Step3:在测试网页到达后,先将测试网页T表示成n维向量T(W1,W2,...,Wn)的形式,然后计算该网页与训练网页集中每个类的类中心向量的距离FV,将网页分到距离最小的类。计算公式为:
FV=C+NUM
其中,C为向量距离,表示的是测试网页与类中心向量的内积,类中心向量的计算公式为:
NUM表示测试网页和训练网页共同出现的特征项个数与两个网页中的特征项个数的最大值的比值。NUM的计算方法为:
其中:M表示测试网页与训练网页共同出现的特征项个数;n1表示测试网页包含的特征项个数;n2表示训练网页集中要计算相似度的网页所包含的特征项的个数;max(n1,n2)表示从测试网页与训练网页各自包含的特征项个数的最大值。
Step4:计算测试网页T与每类中心向量的相似度SimFV,计算公式为:
Step5:将测试网页T归类为与其相似度最大的类中,分类完毕。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (6)

1.一种基于KNN算法的半结构化数据分类方法,其特征在于,包括:
步骤S1,将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量;
步骤S2,对训练半结构化数据进行特征提取操作,然后根据某一类别的所有数据向量得到该类别的类中心向量;
步骤S3,接收测试半结构化数据后,将所述测试半结构化数据表示为所述数据向量;
步骤S4,计算所述测试半结构化数据与训练集中每个类的类中心向量的距离;
步骤S5,计算所述测试半结构化数据与每类中心向量的相似度;
步骤S6,将所述测试半结构化数据归类为与其相似度最大的类中。
2.如权利要求1所述的基于KNN算法的半结构化数据分类方法,其特征在于,所述步骤S1中,所述数据向量为n维的特征向量。
3.如权利要求2所述的基于KNN算法的半结构化数据分类方法,其特征在于,所述步骤S2中,所述类中心向量的计算公式为:
其中,Ci为第i类的类中心向量;n为第i类中训练半结构化数据的个数;dik为第i类中第k个训练半结构化数据的特征向量。
4.如权利要求1-3中任一所述的基于KNN算法的半结构化数据分类方法,其特征在于,所述步骤S4中,所述距离的计算公式为:
FV=C+NUM
其中,FV为所述测试半结构化数据与类中心向量的距离;C为向量距离,表示的是测试半结构化数据与类中心向量的内积;NUM表示测试半结构化数据和训练半结构化数据共同出现的特征项个数与两个半结构化数据中的特征项个数的最大值的比值。
5.如权利要求4所述的基于KNN算法的半结构化数据分类方法,其特征在于,所述NUM的计算公式为:
其中,M表示测试半结构化数据与训练半结构化数据共同出现的特征项个数;n1表示测试半结构化数据包含的特征项个数;n2表示训练集中要计算相似度的半结构化数据所包含的特征项的个数。
6.一种与上述任一权利要求所述的基于KNN算法的半结构化数据分类方法对应的基于KNN算法的半结构化数据分类装置,其特征在于,包括:
训练转换单元,其将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量;
类中心向量计算单元,其对训练半结构化数据进行特征提取操作,然后根据某一类别的所有数据向量得到该类别的类中心向量;
测试转换单元,其接收测试半结构化数据后,将所述测试半结构化数据表示为所述数据向量;
距离计算单元,其计算所述测试半结构化数据与训练集中每个类的类中心向量的距离;
相似度计算单元,其计算所述测试半结构化数据与每类中心向量的相似度;
分类单元,其将所述测试半结构化数据归类为与其相似度最大的类中。
CN201611253977.XA 2016-12-30 2016-12-30 一种基于knn算法的半结构化数据分类方法及装置 Active CN108268458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611253977.XA CN108268458B (zh) 2016-12-30 2016-12-30 一种基于knn算法的半结构化数据分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611253977.XA CN108268458B (zh) 2016-12-30 2016-12-30 一种基于knn算法的半结构化数据分类方法及装置

Publications (2)

Publication Number Publication Date
CN108268458A true CN108268458A (zh) 2018-07-10
CN108268458B CN108268458B (zh) 2020-12-08

Family

ID=62754273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611253977.XA Active CN108268458B (zh) 2016-12-30 2016-12-30 一种基于knn算法的半结构化数据分类方法及装置

Country Status (1)

Country Link
CN (1) CN108268458B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145116A (zh) * 2018-09-03 2019-01-04 武汉斗鱼网络科技有限公司 一种文本分类方法、装置、电子设备及存储介质
WO2021151343A1 (zh) * 2020-09-09 2021-08-05 平安科技(深圳)有限公司 孪生网络的测试样本类别确定方法、装置及终端设备
CN113220943A (zh) * 2021-06-04 2021-08-06 上海天旦网络科技发展有限公司 一种半结构化流量数据中的目标信息定位方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842162A (en) * 1996-03-08 1998-11-24 Motorola, Inc. Method and recognizer for recognizing a sampled sound signal in noise
CN103092931A (zh) * 2012-12-31 2013-05-08 武汉传神信息技术有限公司 多策略结合文档自动分类方法
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN104299035A (zh) * 2014-09-29 2015-01-21 国家电网公司 基于聚类算法和神经网络的变压器故障诊断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842162A (en) * 1996-03-08 1998-11-24 Motorola, Inc. Method and recognizer for recognizing a sampled sound signal in noise
CN103092931A (zh) * 2012-12-31 2013-05-08 武汉传神信息技术有限公司 多策略结合文档自动分类方法
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN104299035A (zh) * 2014-09-29 2015-01-21 国家电网公司 基于聚类算法和神经网络的变压器故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晓艳等: "基于查询意图的中文信息类网页分类研究", 《图书情报工作》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145116A (zh) * 2018-09-03 2019-01-04 武汉斗鱼网络科技有限公司 一种文本分类方法、装置、电子设备及存储介质
WO2021151343A1 (zh) * 2020-09-09 2021-08-05 平安科技(深圳)有限公司 孪生网络的测试样本类别确定方法、装置及终端设备
CN113220943A (zh) * 2021-06-04 2021-08-06 上海天旦网络科技发展有限公司 一种半结构化流量数据中的目标信息定位方法及系统
CN113220943B (zh) * 2021-06-04 2022-09-30 上海天旦网络科技发展有限公司 一种半结构化流量数据中的目标信息定位方法及系统

Also Published As

Publication number Publication date
CN108268458B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
TWI735543B (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
CN104239485B (zh) 一种基于统计机器学习的互联网暗链检测方法
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN105205501B (zh) 一种多分类器联合的弱标注图像对象检测方法
CN106202124A (zh) 网页分类方法及装置
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN107169086B (zh) 一种文本分类方法
CN105045812A (zh) 文本主题的分类方法及系统
CN103559504A (zh) 图像目标类别识别方法及装置
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN107145560B (zh) 一种文本分类方法及装置
CN105912716A (zh) 一种短文本分类方法及装置
CN105069141A (zh) 一种股票标准新闻库的构建方法及构建系统
CN101882136B (zh) 文本情感倾向性分析方法
CN106570076A (zh) 一种计算机文本分类系统
CN108268458A (zh) 一种基于knn算法的半结构化数据分类方法及装置
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN104142960A (zh) 互联网数据分析系统
CN106649264B (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN110489753A (zh) 改进特征选择的神经结构对应学习跨领域情感分类方法
CN103310205A (zh) 一种手写体数字识别方法及装置
CN103279549A (zh) 一种目标对象的目标数据的获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A semi-structured data classification method and device based on KNN algorithm

Effective date of registration: 20211022

Granted publication date: 20201208

Pledgee: Agricultural Bank of China Limited Dongcheng Branch of Guangzhou

Pledgor: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2021440000320

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20221230

Granted publication date: 20201208

Pledgee: Agricultural Bank of China Limited Dongcheng Branch of Guangzhou

Pledgor: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2021440000320

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A semi-structured data classification method and device based on KNN algorithm

Effective date of registration: 20230131

Granted publication date: 20201208

Pledgee: Agricultural Bank of China Limited Dongcheng Branch of Guangzhou

Pledgor: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2023440020017