CN107402994A - 一种多元组层次划分的分类方法及装置 - Google Patents

一种多元组层次划分的分类方法及装置 Download PDF

Info

Publication number
CN107402994A
CN107402994A CN201710585101.3A CN201710585101A CN107402994A CN 107402994 A CN107402994 A CN 107402994A CN 201710585101 A CN201710585101 A CN 201710585101A CN 107402994 A CN107402994 A CN 107402994A
Authority
CN
China
Prior art keywords
data
tuple
sorted
feature
component system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710585101.3A
Other languages
English (en)
Other versions
CN107402994B (zh
Inventor
晋彤
李永康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunrun Da Data Service Co ltd
Original Assignee
Guangzhou Special Road Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Special Road Mdt Infotech Ltd filed Critical Guangzhou Special Road Mdt Infotech Ltd
Priority to CN201710585101.3A priority Critical patent/CN107402994B/zh
Publication of CN107402994A publication Critical patent/CN107402994A/zh
Application granted granted Critical
Publication of CN107402994B publication Critical patent/CN107402994B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多元组层次划分的分类方法,包括以下步骤:根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类。本发明还公开了一种多元组层次划分的分类装置,提高文章归类精度,缩短响应时间,合理利用硬件资源。

Description

一种多元组层次划分的分类方法及装置
技术领域
本发明涉及文本挖掘及自动分类领域,尤其涉及一种多元组层次划分的分类方法及装置。
背景技术
现有的文章分类模型是基于词频和概率把相同主题的文章按预先训练的分类器划分到不同的类别,但是申请人在对文本挖掘及自动分类领域的研究过程中发现,现有的文章分类模型是根据该模型的全局特征利用泛概率模型获取文章权重,不分领域,产生的误差较大,且不支持分布计算,运算量巨大,从而导致文章归类精度不高,响应时间长而且浪费硬件资源。
发明内容
针对上述问题,本发明的目的在于提供一种多元组层次划分的分类方法及装置,提高文章归类精度,缩短响应时间,合理利用硬件资源。
本发明提供了一种多元组层次划分的分类方法,包括以下步骤:
根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;
根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;
接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类。
优选地,
在所述根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器之后,还包括:
根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。
优选地,
在所述接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类之后,还包括:
根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。
优选地,
在所述接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类之后,还包括:
根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引;
其中,所述粒度指所述待分类数据所属分类的范围。
优选地,
所述根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引具体为:
根据划分的粒度,将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档;
根据粒度的不同,生成特征指纹进行分类索引。
优选地,
所述多元组特征库中的各个元组特征根据实体权重及概率权重模型计算进行权重比例调整。
本发明还提供了一种多元组层次划分的分类装置,包括:
语料训练模块,用于根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;
分类器模块,用于根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;
类别输出模块,用于接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类。
优选地,还包括:
关联模块,用于根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。
优选地,还包括:
自动调整模块,用于根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。
优选地,还包括:
多元结果集合模块,用于根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引;其中,
所述多元结果集合模块具体包括:
归档单元,用于根据划分的粒度,将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档;
索引单元,用于根据粒度的不同,生成特征指纹进行分类索引。
本发明提供一种多元组层次划分的分类方法及装置,通过文档主题生成模型进行语料训练生成多元组特征库,根据多元组特征库的各元组的元组特征生成对应分类器,再将接收的数据通过分类器进行分类判别输出,取消用泛概率模型获取待分类数据的权重比例,缩短模型训练时间和划分时间,支持大数据分布式计算,减少文章分类的运算量,提高文章归类精度,缩短响应时间,合理利用硬件资源。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多元组层次划分的分类方法的流程示意图。
图2是本发明实施例提供的多元组层次划分的第二种分类方法的流程示意图。
图3是本发明实施例提供的多元组层次划分的第三种分类方法的流程示意图。
图4是本发明实施例提供的多元组层次划分的第四种分类方法的流程示意图。
图5是本发明实施例提供的多元组层次划分的分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供了一种多元组层次划分的分类方法,包括以下步骤:
S10,根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例。
在本发明实施例中,所述多元组特征库中的各个元组特征根据实体权重及概率权重模型计算进行权重比例调整。
所述实体权重具体指对文档数据进行元组划分,文档实体权重根据元组特征调整权重比例,即不同特征的元组有不同的权重比例。实体即人名、地名、品牌等。
所述概率权重模型具体包括每个元组作为单独的总体进行概率模型计算,每个元组因不同的特征而选择不同的概率模型。
在本发明实施例中,具体地,所述文档主题生成模型具体为LDA文档主题生成模型,即利用LDA文档主题生成模型进行预料训练。
所述生成模型,具体指一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。
所述LDA文档主题生成模型也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从多项式分布,主题到词服从多项式分布。LDA文档主题生成模型是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
在本发明实施例中,将大批量数据通过利用LDA文档主题生成模型进行语料训练,根据权重比例计算出不同的数据特征权重来划分元组,则各个元组拥有自己的元组特征,所述元组特征拥有独属于自身的权重比例,将各个元组的元组特征整合得到多元组特征库。例如,专题元组的元组特征为:(人名:地名:品牌),所述专题元组的元组特征的权重比例为:(人名:地名:品牌=4:5:1),语料训练主要是为生成分类模型提供数据基础,减少人工标注工作量。
S20,根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器。
在本发明实施例中,例如,存在名为话题的元组,则根据所述话题元组的元组特征生成对应所述话题元组的元组特征的分类器,对未知分类的新文章进行分类,在进行分类的时候,分类器会根据不同的元组,调整权重比例。
S30,接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类。
在本发明实施例中,接收输入的待分类数据,对所述待分类数据进行实体权重计算和轻量级的概率权重模型计算得出所述待分类数据的特征,根据所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,得出所述待分类数据的类别并输出所述待分类数据所属分类,通过多元组按领域不同定位来提升领域归类精度。
综上所述,本发明提供一种多元组层次划分的分类方法及装置,通过文档主题生成模型进行语料训练生成多元组特征库,根据多元组特征库的各元组的元组特征生成对应分类器,再将接收的数据通过分类器进行分类判别输出,取消用泛概率模型获取待分类数据的权重比例,缩短模型训练时间和划分时间,支持大数据分布式计算,减少文章分类的运算量,提高文章归类精度,缩短响应时间,合理利用硬件资源。
为了便于对本发明的理解,下面将对本发明的一些优选实施例做更进一步的描述。
第一个优选实施例:
请参阅图2,优选地,在所述S20之后,还包括:
S40,根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。
在本发明优选实施例中,在所述根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器之后,即已根据元组的不同特征建立了不同分类器,则可以利用多元组的各元组特征进行跨域的非线性关联规则,不同元组之间必定存在联系,元组间联系的需要跨元组建立关联规则。例如,名为专题的元组特征与名为频道的元组特征相同,都为:(人名:地名:品牌),但所述专题的元组特征与所述频道的元组特征的权重比例不同。
第二个优选实施例:
请参阅图3,优选地,在所述S30之后,还包括:
S50,根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。
在本发明优选实施例中,分类器后期能够根据所述元组特征及所述待分类数据进行自适应学习自动调整自身分类器,通过自动重新对自身所对应元组的实体权重比例调整和重新选择概率权重模型计算分析以调整自身权重比例。
第三个优选实施例:
请参阅图4,优选地,在所述S30之后,还包括:
S60,根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引;
其中,所述粒度指所述待分类数据所属分类的范围。
优选地,
所述S60具体为:
S601,根据划分的粒度,将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档。
S602,根据粒度的不同,生成特征指纹进行分类索引。
在本发明优选实施例中,数据粒度是指数据仓库中数据的细化和综合程度。此处所述粒度是指文章所属主题范围。所述元组根据分类粒度进行不同划分,例如频道、专题、话题等。频道和专题的特征不用,频道范围大,可以有多个不同的专题,也有不能成为专题的文章。而专题则是主题一样,却有多个不同话题(奥运会、两会都是专题)。
在本发明优选实施例中,根据划分的粒度,将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档,所述分布式计算具体指首先将需要分析的数据存储到服务器集群,这份数据会分割成指定的大小,称为数据块,并且分散存储到该集群的每台服务器中,这份数据对于这个集群来说是一个完整的数据,在分析计算这份数据时候每台服务器会相应的处理指定数据块,每台服务器计算出结果然后再汇聚在一起。将相同主题归为一类的文章进行归档存储。根据粒度的不同,生成特征指纹进行分类索引,例如频道、专题、话题等。
请参阅图5,本发明还提供了一种多元组层次划分的分类装置,包括:
语料训练模块10,用于根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例。
分类器模块20,用于根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器。
类别输出模块30,用于接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类。
优选地,还包括:
关联模块40,用于根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。
优选地,还包括:
自动调整模块50,用于根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。
优选地,还包括:
多元结果集合模块60,用于根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引;其中,
所述多元结果集合模块60具体包括:
归档单元,用于根据划分的粒度,将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档。
索引单元,用于根据粒度的不同,生成特征指纹进行分类索引。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims (10)

1.一种多元组层次划分的分类方法,其特征在于,包括以下步骤:
根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;
根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;
接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类,输出所述待分类数据所属分类。
2.根据权利要求1所述的分类方法,其特征在于,在所述根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器之后,还包括:
根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。
3.根据权利要求1所述的分类方法,其特征在于,在所述接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类,输出所述待分类数据所属分类之后,还包括:
根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。
4.根据权利要求1所述的分类方法,其特征在于,在接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类,输出所述待分类数据所属分类之后,还包括:
根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引;其中,所述粒度指所述待分类数据所属分类的范围。
5.根据权利要求4所述的分类方法,其特征在于,所述根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引具体为:
根据划分的粒度,将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档;
根据粒度的不同,生成特征指纹进行分类索引。
6.根据权利要求1所述的分类方法,其特征在于,所述多元组特征库中的各个元组特征根据实体权重及概率权重模型进行权重比例调整。
7.一种多元组层次划分的分类装置,其特征在于,包括:
语料训练模块,用于根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;
分类器生成模块,用于根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;
类别输出模块,用于接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类。
8.根据权利要求7所述的分类装置,其特征在于,还包括:
关联模块,用于根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。
9.根据权利要求7所述的分类装置,其特征在于,还包括:
分类器自动调整模块,用于根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。
10.根据权利要求7所述的分类装置,其特征在于,还包括:
多元结果集合模块,用于根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引;其中,
所述多元结果集合模块具体包括:
归档单元,用于根据划分的粒度,将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档;
索引单元,用于根据粒度的不同,生成特征指纹进行分类索引。
CN201710585101.3A 2017-07-17 2017-07-17 一种多元组层次划分的分类方法及装置 Expired - Fee Related CN107402994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710585101.3A CN107402994B (zh) 2017-07-17 2017-07-17 一种多元组层次划分的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710585101.3A CN107402994B (zh) 2017-07-17 2017-07-17 一种多元组层次划分的分类方法及装置

Publications (2)

Publication Number Publication Date
CN107402994A true CN107402994A (zh) 2017-11-28
CN107402994B CN107402994B (zh) 2021-01-19

Family

ID=60402187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710585101.3A Expired - Fee Related CN107402994B (zh) 2017-07-17 2017-07-17 一种多元组层次划分的分类方法及装置

Country Status (1)

Country Link
CN (1) CN107402994B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522943A (zh) * 2018-10-30 2019-03-26 武汉泰乐奇信息科技有限公司 一种分类器的构建方法、混杂文本的分类方法及装置
TWI696124B (zh) * 2017-12-15 2020-06-11 香港商阿里巴巴集團服務有限公司 模型整合方法及裝置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200981A (zh) * 2010-03-25 2011-09-28 三星电子(中国)研发中心 面向多层文本分类的特征选择方法和装置
CN103207920A (zh) * 2013-04-28 2013-07-17 北京航空航天大学 一种元数据并行采集系统
CN104142998A (zh) * 2014-08-01 2014-11-12 中国传媒大学 一种文本分类方法
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
US20160078126A1 (en) * 2001-08-31 2016-03-17 Fti Technology Llc Computer-Implemented System And Method For Generating Document Groupings For Display
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078126A1 (en) * 2001-08-31 2016-03-17 Fti Technology Llc Computer-Implemented System And Method For Generating Document Groupings For Display
CN102200981A (zh) * 2010-03-25 2011-09-28 三星电子(中国)研发中心 面向多层文本分类的特征选择方法和装置
CN103207920A (zh) * 2013-04-28 2013-07-17 北京航空航天大学 一种元数据并行采集系统
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN104142998A (zh) * 2014-08-01 2014-11-12 中国传媒大学 一种文本分类方法
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI696124B (zh) * 2017-12-15 2020-06-11 香港商阿里巴巴集團服務有限公司 模型整合方法及裝置
CN109522943A (zh) * 2018-10-30 2019-03-26 武汉泰乐奇信息科技有限公司 一种分类器的构建方法、混杂文本的分类方法及装置

Also Published As

Publication number Publication date
CN107402994B (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
CN101604322B (zh) 一种决策级文本自动分类融合方法
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104391835B (zh) 文本中特征词选择方法及装置
CN108363810A (zh) 一种文本分类方法及装置
CN107766929B (zh) 模型分析方法及装置
CN103823890B (zh) 一种针对特定群体的微博热点话题检测方法及装置
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN106453033A (zh) 基于邮件内容的多层次邮件分类方法
CN108681970A (zh) 基于大数据的理财产品推送方法、系统及计算机存储介质
CN109739986A (zh) 一种基于深度集成学习的投诉短文本分类方法
CN110059852A (zh) 一种基于改进随机森林算法的股票收益率预测方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN106815310A (zh) 一种对海量文档集的层次聚类方法及系统
CN106294568A (zh) 一种基于bp网络的中文文本分类规则生成方法及系统
CN107430625A (zh) 通过集群对文档进行分类
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN109766911A (zh) 一种行为预测方法
Wei et al. Text classification using support vector machine with mixture of kernel
CN103473231A (zh) 分类器构建方法和系统
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN109948913A (zh) 一种基于双层的xgboost算法的多源特征电力用户综合画像系统
CN106934410A (zh) 数据的分类方法及系统
CN111026870A (zh) 一种综合文本分类和图像识别的ict系统故障分析方法
CN102200981A (zh) 面向多层文本分类的特征选择方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201230

Address after: Room 5303, No. 1023, Gaopu Road, Tianhe Software Park, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: Yunrun Da Data Service Co.,Ltd.

Address before: 510000 Dongfang Wende Plaza 602, 68 Wende North Road, Yuexiu District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU TEDAO INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210119

Termination date: 20210717

CF01 Termination of patent right due to non-payment of annual fee