CN108268461A - 一种基于混合分类器的文本分类装置 - Google Patents

一种基于混合分类器的文本分类装置 Download PDF

Info

Publication number
CN108268461A
CN108268461A CN201611254041.9A CN201611254041A CN108268461A CN 108268461 A CN108268461 A CN 108268461A CN 201611254041 A CN201611254041 A CN 201611254041A CN 108268461 A CN108268461 A CN 108268461A
Authority
CN
China
Prior art keywords
module
neural network
text
classification
sorting apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611254041.9A
Other languages
English (en)
Inventor
何伟潮
单小红
麻建
吴剑文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201611254041.9A priority Critical patent/CN108268461A/zh
Publication of CN108268461A publication Critical patent/CN108268461A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于混合分类器的文本分类装置,其包括:用于录入文本的输入模块,用于对文本进行格式化,索引等处理的预处理模块,用于对文本进行分类的BP神经网络模块,用于判断所述BP神经网络模块分类效果好坏的判断模块,用于对文本进行分类的朴素贝叶斯模块,用于输出分类结果的输出模块。本发明结合了BP神经网络与朴素贝叶斯两种分类方法,由于BP神经网络输出向量的最大分量与第二大分量取值相近时,可能会使分类结果不准确,针对这一缺点,引入朴素贝叶斯分类算法对其做出改进,结合各自的优势,本发明能有效提高分类计算效率与分类准确率,能广泛应用到文本分类当中。

Description

一种基于混合分类器的文本分类装置
技术领域
本发明涉及文本分类技术领域,具体涉及一种基于混合分类器的文本分类装置。
背景技术
近年来,互联网的快速发展宣告了“大数据”时代的来临,大数据因其独特性,必须采用分布式计算架构进行处理,它的特色在于必须依托云计算的分布式处理,分布式数据库,云存储和虚拟化技术对海量数据进行挖掘。在互联网的知识呈现形式中,绝大部分信息是以文本的形式存在,如何从海量的信息中快速、有效地提取出人们所需要的知识,成为数据挖掘及其学习领域的关注热点。其中,作为文本挖掘的一项重要内容,文本分类在搜索引擎,网页分类管理,电子邮件自动分类,信息过滤等方面都具有极高的应用价值。
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。BP神经网络在分类问题上有着非常广泛的应用,是目前应用最广泛的神经网络模型之一。BP神经网络能学习和存储大量的输入/输出模式映射关系,但无需事前解释描述这种映射关系的数学方程。而在实际应用中,若仅单纯的使用神经网络分类器难免会使分类结果不准确,尤其是当网络输出向量的最大分量与第二大分量取值相近时,所以应将算法进行改进,使其拥有更高的分类准确率和效率。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种基于混合分类器的文本分类装置,其包括,
输入模块:其用于录入需要分类的文本;
预处理模块:其用于对文本进行格式化,索引,统计,特征提取等处理;
BP神经网络模块:其用于通过BP神经网络对文本进行分类;
判断模块:其用于处理所述BP神经网络模块分类结果,并判断其效果好坏;
朴素贝叶斯模块:其用于当所述BP神经网络模块的分类效果不好时,通过朴素贝叶斯分类器对文本进行分类;
输出模块:其用于输出所述BP神经网络模块或所述朴素贝叶斯模块的分类结果。
较佳的,所述BP神经网络模块包括对文本特征的表示,其采用的是向量空间模型方法,将每一个文本表示成一个n维的特征向量:V(d)=(t11(d);t22(d);...,tnn(d)),其中,ti为词条项(向量),ωi(d)为ti在d中的权值,其值的大小采用TFIDF向量表示方法:其中tfi(d)为词条ti在文档d中出现的词频,N为所有文档的数目,ni为出现了词条ti的文档的数目。
较佳的,所述BP神经网络模块包括对BP神经网络模型结构的建造,所述BP神经网络模型表示如下:
设已知样本{(x1 (k),x2 (k),...,xn (k);y1 (k),y2 (k),...,yq (k))|k=1,...,m},要建立关系
其中x1,x2...,xn为神经元从树突部分接受的n个信息,(y1,…,yq)是对应x1,x2...,xn的因变量,可以通过以x1,x2...,xn的线性组合的非线性映射构造模型结构。
较佳的,所述BP神经网络模块包括对BP神经网络模型参数的计算,通过样本的训练得到对应的模型参数,用Yi表示期望输出(实际输出),用Oi表示网络计算输出,即令:
即(x1,x2...,xm)——→(O1,O2,...,On)
其中q表示计算网络输出的次数,wij、Vti、θi、rt是待定模型参数。
较佳的,所述判断模块计算所述神经网络模块得到的向量的最大值与次最大值之间的差值Δc,将其与设定好的阈值c进行比较,若Δc小于c,则将文本的特征向量输入到所述朴素贝叶斯模块中进行处理分类。
较佳的,所述朴素贝叶斯模块的工作流程如下:
步骤S5-1:输出特征属性和训练样本,
步骤S5-2:输出类别出现的频率及每个属性划分对每个类别的条件概率估计,
步骤S5-3:输出待分类项与类别之间的映射关系。
较佳的,所述预处理模块包括格式化单元,其用于将原始文本格式化为统一格式,便于后续的统一处理。
较佳的,所述预处理模块包括索引单元,其用于将文档分解为基本处理单元,同时降低后续处理的开销。
较佳的,所述预处理模块包括统计单元,其用于统计词频,项与分类的相关概率。
较佳的,所述预处理模块包括特征提取单元,其用于从所述文档中抽取反应其主题的各种特征。
与现有技术比较本发明的有益效果在于:本发明实现了一种新型的文本分类装置,结合了BP神经网络与朴素贝叶斯两种分类算法,由于BP神经网络输出向量的最大分量与第二大分量取值相近时,可能会使分类结果不准确,针对这一缺点,引入朴素贝叶斯分类算法对其做出改进,结合各自的优势,本发明能有效提高分类计算效率与分类准确率,这种混合分类器可以广泛应用到文本分类当中。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本发明装置的结构框图;
图2是本发明装置的工作流程图;
图3是BP神经网络文本分类模型示意图;
图4是BP神经网络模块的工作流程示意图;
图5是朴素贝叶斯分类器应用模型示意图;
图6是朴素贝叶斯模块工作流程示意图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
实施例1
如图1所示,其为本发明装置的结构框图,所述基于混合分类器的文本分类装置包括:输入模块1,预处理模块2,BP神经网络模块3,判断模块4,朴素贝叶斯模块5,输出模块6。如图2所示,其为所述基于混合分类器的文本分类装置的工作流程图,文本经过所述预处理模块2后,进入所述BP神经网络模块3,使用BP神经网络进行文本分类,将最大分量对应的类别分派为文本的类别。定义一个阈值c,如果网络输出向量中分量最大值c1与次最大值c2的差值Δc越大,表明分类准确度越高。通过所述判断模块4的处理和判断,根据Δc与c的比较结果,决定采用分类器的类别,如果Δc小于给定的阈值c,通过所述朴素贝叶斯模块5,采用朴素贝叶斯分类器,反之,不经过所述朴素贝叶斯模块5,经由所述输出模块6将分类结果输出。(点划线箭头表示,当Δc<c时,直接把数据输入到所述朴素贝叶斯模块5,通过朴素贝叶斯分类器进行分类。)
所述输入模块1,用来将需要进行分类的文本录入所述基于混合分类器的文本分类装置。
所述预处理模块2包括:格式化单元21,索引单元22,统计单元23,特征抽取单元24。所述格式化单元21,用于将原始文本格式化为统一格式,便于后续的统一处理;所述索引单元22,用于将文档分解为基本处理单元,同时降低后续处理的开销;所述统计单元23,用于统计词频,项与分类的相关概率;所述特征抽取单元24,用于从文档中抽取出反映文档主题的各种特征。
如图3所示,其为BP神经网络文本分类模型示意图,其分为:输入层,隐层和输出层。这是一个误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成。所述输入层各神经元负责接收处理后的文本数据信息,并传递给所述中间层各神经元;所述中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,所述中间层可以设计为单隐层或者多隐层的结构;最后一个所述隐层传递到所述输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由所述输出层向外界输出信息处理结果。
当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过所述传输层,按误差梯度下降的方式修正各层权值,向所述隐层,所述输入层逐层反传。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。
如图4所示,其为所述BP神经网络模块3工作流程示意图,具体步骤如下:
步骤S3-1:表示文本特征
本发明采用的是向量空间模型(VSM)方法,将每一个文本表示成一个n维的特征向量:V(d)=(t11(d);t22(d);...,tnn(d)),其中,ti为词条项(向量),ωi(d)为ti在d中的权值,其值的大小采用TFIDF向量表示方法:其中tfi(d)为词条ti在文档d中出现的词频,N为所有文档的数目,ni为出现了词条ti的文档的数目。
步骤S3-2:建造BP神经网络模型结构
BP神经网络的模型表示如下:
设已知样本{(x1 (k),x2 (k),...,xn (k);y1 (k),y2 (k),...,yq (k))k=1,...,m},要建立关系
其中x1,x2...,xn为神经元从树突部分接受的n个信息,(y1,…,yq)是对应x1,x2...,xn的因变量,在此处为类别变量,m为样本数量。
可以通过以x1,x2...,xn的线性组合的非线性映射构造模型结构。
步骤S3-3:计算BP神经网络模型参数
通过样本的训练得到对应的模型参数,用Yi表示期望输出(实际输出),用Oi表示网络计算输出,即令:
即(x1,x2...,xm)——→(O1,O2,...,On),q表示计算网络输出的次数。
网络计算输出Oi
其中wij、Vti、θi、rt是待定模型参数,wij表示所述隐层第i个节点到所述输出层第j个节点之间的权值,Vti表示所述输出层第t个节点到所述隐层第i个节点之间的权值,θi表示所述隐层第i个节点的阈值,rt表示所述输出层第t个节点的阈值,权值和阈值随机初始化取值范围均为[-1,1],取值类型均为数值型。
所述神经网络模块3最终将向量作为输出结果,此向量包含类别信息,分量最大对应的类别为文本特征向量所述的类别。
所述判断模块4,计算所述BP神经网络模块3得到向量的最大值c1与次最大值c2的差值Δc,若Δc大于给定的阈值c,则采用神经网络分类器得到的结果;反之,若所述差值小于给定的阈值c,则说明BP神经网络的分类效果不好,此时直接把文本的特征向量输入到所述朴素贝叶斯模块5的朴素贝叶斯分类器当中。
如图5所示,其为朴素贝叶斯分类器应用模型示意图,即Δc小于给定的阈值c时,将转化成特征向量的文本信息与类的先验概率数据表、类的后验概率数据表一同输入到朴素贝叶斯分类器当中。通过计算代表数据样本的特征向量属于每个类别的概率,得到文本分类的结果数据表。
所述朴素贝叶斯模块5,采用朴素贝叶斯分类器,如图6所示,其为所述朴素贝叶斯模块5工作流程示意图,具体如下:
步骤S5-1:输出特征属性和训练样本
输入所有待分类数据,输出特征属性和训练样本,所述训练样本指已知类别的文本数据,通常事先给定或者已经存在于数据库当中。
步骤S5-2:输出类别出现的频率及每个特征属性划分对每个类别的条件概率估计
输入特征属性和训练样本,通过计算每个类别在训练样本中出现的频率,及每个特征属性划分对每个类别的条件概率估计,并将结果记录下来,从而输出朴素贝叶斯分类器。
步骤S5-3:输出待分类项与类别之间的映射关系
输入分类器和待分类项。使用分类器对待分类项进行分类,输出待分类项与类别之间的映射关系。
所述输出模块6,用于将来自所述BP神经网络模块3或所述朴素贝叶斯模块5的分类结果输出。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (10)

1.一种基于混合分类器的文本分类装置,其特征在于,包括:
输入模块:其用于录入需要分类的文本;
预处理模块:其用于对文本进行格式化,索引,统计,特征提取等处理;
BP神经网络模块:其用于通过BP神经网络对文本进行分类;
判断模块:其用于处理所述BP神经网络模块分类结果,并判断其效果好坏;
朴素贝叶斯模块:其用于当所述BP神经网络模块的分类效果不好时,通过朴素贝叶斯分类器对文本进行分类;
输出模块:其用于输出所述BP神经网络模块或所述朴素贝叶斯模块的分类结果。
2.如权利要求1所述的基于混合分类器的文本分类装置,其特征在于,所述BP神经网络模块包括对文本特征的表示,其采用的是向量空间模型方法,将每一个文本表示成一个n维的特征向量:V(d)=(t11(d);t22(d);...,tnn(d)),其中,ti为词条项(向量),ωi(d)为ti在d中的权值,其值的大小采用TFIDF向量表示方法:其中tfi(d)为词条ti在文档d中出现的词频,N为所有文档的数目,ni为出现了词条ti的文档的数目。
3.如权利要求2所述的基于混合分类器的文本分类装置,其特征在于,所述BP神经网络模块包括对BP神经网络模型结构的建造,所述BP神经网络模型表示如下:
设已知样本{(x1 (k),x2 (k),...,xn (k);y1 (k),y2 (k),...,yq (k))|k=1,…,m},要建立关系
其中x1,x2…,xn为神经元从树突部分接受的n个信息,(y1,…,yq)是对应x1,x2...,xn的因变量,可以通过以x1,x2...,xn的线性组合的非线性映射构造模型结构。
4.如权利要求3所述的基于混合分类器的文本分类装置,其特征在于,所述BP神经网络模块包括对BP神经网络模型参数的计算,通过样本的训练得到对应的模型参数,用Yi表示期望输出(实际输出),用Oi表示网络计算输出,即令:
即(x1,x2...,xm)——→(O1,O2,...,On)
……
其中q表示计算网络输出的次数,wij、Vti、θi、rt是待定模型参数。
5.如权利要求4所述的基于混合分类器的文本分类装置,其特征在于,所述判断模块计算所述神经网络模块得到的向量的最大值与次最大值之间的差值Δc,将其与设定好的阈值c进行比较,若Δc小于c,则将文本的特征向量输入到所述朴素贝叶斯模块中进行处理分类。
6.如权利要求1所述的基于混合分类器的文本分类装置,其特征在于,所述朴素贝叶斯模块的工作流程如下:
步骤S5-1:输出特征属性和训练样本;
步骤S5-2:输出类别出现的频率及每个属性划分对每个类别的条件概率估计;
步骤S5-3:输出待分类项与类别之间的映射关系。
7.如权利要求1-6任一项所述的基于混合分类器的文本分类装置,其特征在于,所述预处理模块包括格式化单元,其用于将原始文本格式化为统一格式,便于后续的统一处理。
8.如权利要求7所述的基于混合分类器的文本分类装置,其特征在于,所述预处理模块包括索引单元,其用于将文档分解为基本处理单元,同时降低后续处理的开销。
9.如权利要求8所述的基于混合分类器的文本分类装置,其特征在于,所述预处理模块包括统计单元,其用于统计词频,项与分类的相关概率。
10.如权利要求9所述的基于混合分类器的文本分类装置,其特征在于,所述预处理模块包括特征提取单元,其用于从所述文档中抽取反应其主题的各种特征。
CN201611254041.9A 2016-12-30 2016-12-30 一种基于混合分类器的文本分类装置 Pending CN108268461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254041.9A CN108268461A (zh) 2016-12-30 2016-12-30 一种基于混合分类器的文本分类装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254041.9A CN108268461A (zh) 2016-12-30 2016-12-30 一种基于混合分类器的文本分类装置

Publications (1)

Publication Number Publication Date
CN108268461A true CN108268461A (zh) 2018-07-10

Family

ID=62754342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254041.9A Pending CN108268461A (zh) 2016-12-30 2016-12-30 一种基于混合分类器的文本分类装置

Country Status (1)

Country Link
CN (1) CN108268461A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750640A (zh) * 2019-09-17 2020-02-04 平安科技(深圳)有限公司 基于神经网络模型的文本数据分类方法、装置及存储介质
CN111198947A (zh) * 2020-01-06 2020-05-26 南京中新赛克科技有限责任公司 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统
CN111309909A (zh) * 2020-02-13 2020-06-19 北京工业大学 一种基于混合模型的文本情感分类方法
CN111445976A (zh) * 2020-03-24 2020-07-24 屹嘉智创(厦门)科技有限公司 一种智能合理用药系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
US9406037B1 (en) * 2011-10-20 2016-08-02 BioHeatMap, Inc. Interactive literature analysis and reporting

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9406037B1 (en) * 2011-10-20 2016-08-02 BioHeatMap, Inc. Interactive literature analysis and reporting
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈世立等: "基于神经网络与贝叶斯的混合文本分类研究", 《电脑开发与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750640A (zh) * 2019-09-17 2020-02-04 平安科技(深圳)有限公司 基于神经网络模型的文本数据分类方法、装置及存储介质
CN111198947A (zh) * 2020-01-06 2020-05-26 南京中新赛克科技有限责任公司 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统
CN111198947B (zh) * 2020-01-06 2024-02-13 南京中新赛克科技有限责任公司 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统
CN111309909A (zh) * 2020-02-13 2020-06-19 北京工业大学 一种基于混合模型的文本情感分类方法
CN111309909B (zh) * 2020-02-13 2021-07-30 北京工业大学 一种基于混合模型的文本情感分类方法
CN111445976A (zh) * 2020-03-24 2020-07-24 屹嘉智创(厦门)科技有限公司 一种智能合理用药系统及方法

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN111241837A (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN107861951A (zh) 智能客服中的会话主题识别方法
WO2022126810A1 (zh) 文本聚类方法
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及系统
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN108268461A (zh) 一种基于混合分类器的文本分类装置
Pan et al. Deep neural network-based classification model for Sentiment Analysis
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
Jayakody et al. Sentiment analysis on product reviews on twitter using Machine Learning Approaches
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
CN111813939A (zh) 一种基于表征增强与融合的文本分类方法
CN105117466A (zh) 一种互联网信息筛选系统及方法
Ritha et al. Sentiment analysis of health protocol policy using K-nearest neighbor and cosine similarity
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
Balafar et al. Active learning for constrained document clustering with uncertainty region
Gema et al. It takes two to tango: modification of siamese long short term memory network with attention mechanism in recognizing argumentative relations in persuasive essay
Luo A new text classifier based on random forests

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180710