CN112749756A - 一种基于NB-Bagging的短文本分类方法 - Google Patents
一种基于NB-Bagging的短文本分类方法 Download PDFInfo
- Publication number
- CN112749756A CN112749756A CN202110079516.XA CN202110079516A CN112749756A CN 112749756 A CN112749756 A CN 112749756A CN 202110079516 A CN202110079516 A CN 202110079516A CN 112749756 A CN112749756 A CN 112749756A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- bagging
- word
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000007477 logistic regression Methods 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于NB‑Bagging的短文本分类方法,属于文本分类与机器学习领域。针对朴素贝叶斯弱分类器的样本属性关联性差和过拟合问题,提出了一种朴素贝叶斯用Bagging思想集成的短文本分类方法。本方法首先使用结巴分词方法完成文本的分词,然后使用词向量空间模型和TF‑IDF算法来获得特征项和权重矩阵,再通过多个朴素贝叶斯分类器用Bagging方法集成得到多组分类预测标签,最后通过少数服从多数的投票方式得到最终的分类预测标签。本发明实现较高准确度的文本分类,优化了泛化能力和过拟合问题,提高了短文本分类的准确度。
Description
技术领域
本发明涉及短文本分类技术领域,具体涉及一种基于NB-Bagging的短文本分类方法。
背景技术
在面对短文本的分类问题的时候,由于短文本长度短、词项特征稀疏等特点,导致传统的长文本分类方法不再适用于短文本分类。在文本分类领域中取得较成功的长文本分类方法难以直接应用到短文本分类中,短文本分类技术(Short Text Classification)在一定程度上可以解决上述短文本应用中面临的挑战,该技术是近年来国内外众多学者的研究热点之一,也是自然语言处理(NLP)领域中一项至关重要的任务,针对短文本的分类算法已经成为目前研究者亟待解决的一个研究难题。
现如今,比较主流的机器学习方法有朴素贝叶斯(Naïve Bayes, NB)、支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression, LR)、多类逻辑回归(Softmax Regression, SR)、随机森林(Random Forest, RF)、深度神经网络(Deep NeuralNetwork, DNN)等。
传统的短文本分类方法主要是利用朴素贝叶斯单个弱分类器进行分类,其存在两个问题:1)分类过程中容易过拟合,过拟合会导致模型在预测时准确率低;2)样本属性关联性差,,忽略了数据之间的关联性;3.分类决策存在错误率。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于NB-Bagging的短文本分类方法,利用NB-Bagging算法对文本进行有监督训练测试,实现较高准确度的文本分类,优化了泛化能力和过拟合问题,提高了短文本分类的准确度。
技术方案:本发明提供了一种基于NB-Bagging的短文本分类方法,包括如下步骤:
步骤1:对文本数据集预处理,将数据分为训练集G1和测试集H1,通过结巴分词方法对所述训练集G1和测试集H1进行分词处理,得到文本数据集G2和H2,对所述文本数据集G2和H2进行 Bunch类数据化处理,得到Bunch数据类型G2'和H2';
步骤2:通过词向量空间模型处理G2'中的文本内容,建立词向量空间V1,再映射到H2'中的文本内容,得到词向量空间V2;
步骤3:通过TF-IDF权重策略处理词向量空间V1和V2,得到权重矩阵T1和T2,将T1矩阵中的权重值和其对应的标签输入用Bagging集成的朴素贝叶斯模型中训练,再输入T2矩阵中的权重值和其对应的标签进行测试,得到预测标签F;
步骤4:通过少数服从多数的投票方式处理预测标签F,得到最终短文本分类的结果。
进一步地,所述步骤1的具体方法为:
步骤1.1:定义Text为单类文本集,定义label、text、name分别为标签、单个文本和名称,并且满足Text={(label,text1, name1),(label,text2, name2),…,(label,textN,nameN)},texta为Text中第a个文本,namea为Text中第a个文本名称,其中,变量a∈[1,N];
步骤1.2:定义训练集和测试集分别为G1和H1,G1={Text1,Text2,…,TextA},H1={Text1,Text2,…,TextB};
步骤1.3:使用结巴分词方法对G1和H1处理,去掉结巴分词库里的常用词和符号,得到分词后的文本数据集G2和H2,G2={Text1,Text2,…,TextP},H2={Text1,Text2,…,TextQ}。
步骤1.4: 定义target_name,labels,filenames,contents分别为数据集类别集合、文本标签集合、文本文件名字集合和文本内容集合,满足target_name={labels,filenames,contents};
步骤1.5:对G2和H2 Bunch类数据化处理,得到Bunch数据类型G2'和H2',G2'={target_name1,target_name2,…,target_nameA},H2'={target_name1,target_name2,…,target_nameB}。
进一步地,所述步骤2的具体方法为:
步骤2.1:使用常用停用词表对G2'和H2'中的文本内容进行停用词过滤处理,得到过滤后的Bunch类数据集G2''和H2'';
步骤2.2:通过词向量空间模型建立G2''中文本内容的词向量空间V1,使用权重策略TF-IDF对V1进行处理,得到训练集的二维权重矩阵T1,T1=[v1,v2,…,vm];
步骤2.3:将V1词向量空间映射到H2''文本内容上,得到测试集词向量空间V2,使用TF-IDF权重策略处理V2,得到测试集的二维权重矩阵T2,T2=[v1,v2,…,vn]。
进一步地,所述步骤3的具体方法为:
步骤3.1:定义R1={r1,r2,…rh1,…,rn1},其中rh1={V1,G2''.labels},rh1表示单词文本向量集中第h个的权重值和标签,变量h∈(1,n);
步骤3.2:定义R2={r1,r2,…rk2,…,rj2},其中rk2={V2,H2''.labels},rk2表示单词文本向量集中第k个的权重值和标签,变量k∈(1,j);
步骤3.3:定义n_estimators=35,max_features=0.7,max_samples=0.7,其中n_estimators为模型集成的数量,max_features表示每次随机抽取特征的数量,max_samples表示每次随机抽取样本的数量;
步骤3.4:按指定参数抽取R1中的样本输入朴素贝叶斯分类器进行训练;
步骤3.5:按指定参数抽取R2的样本进行测试,得到预测标签F,满足F={forecast1,forecast2,…,forecasts…,forecastn_e},其中,forecasts={label1,label2,…,labeln_e},变量s∈(1,n_e)。
进一步地,所述步骤4的具体方法为:
步骤4.1:对预测标签F进行少数服从多数投票;
步骤4.2:预测分类多数的标签输出Forecast1;
步骤4.3:预测分类少数的标签输出Forecast2;
步骤4.4:得到最终短文本分类的结果。
有益效果:
1、本发明方法基于已有的综合文本标签集,利用NB和Bagging方法集成进行短文本有效分类。本发明利用结巴分词法对短文本数据进行分词,该算法基本python自带的字典,能够精准的切开文本;利用词向量空间模型和TF-IDF算法,对文本进行特征提取和权重矩阵的计算;利用NB-Bagging算法对文本进行有监督训练测试,实现较高准确度的文本分类,优化了泛化能力和过拟合问题,提高了准确度。
2、本发明多个朴素贝叶斯模型集成,每次放入的特征和样本都可以作为输入,可充分克服单个弱分类器过拟合和样本属性关联性差的问题,采用少数服从多数的投票方式得到最终分类,增强了模型的泛化能力。
附图说明
图1为本发明基于NB-Bagging短文本分类方法整体流程图;
图2 为本发明投票得到最终结果流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开了一种基于NB-Bagging的短文本分类方法,解决了传统的短文本分类方法利用单个弱分类器进行分类时,分类过程中容易过拟合且样本属性关联性差等问题。
现如今,比较主流的机器学习方法有朴素贝叶斯(Naïve Bayes, NB)、支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression, LR)、多类逻辑回归(Softmax Regression, SR)、随机森林(Random Forest, RF)、深度神经网络(Deep NeuralNetwork, DNN)等。
朴素贝叶斯法(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x ,利用贝叶斯定理求出后验概率最大的输出 y 。
Bagging独立的、并行的生成多个基本分类器,然后通过投票方式决定分类的类。其中当n_estimators设置为35,max_features和max_samples都设置为0.7时,文本分类的效果呈现大幅度提升。相对于其他集成算法而言,Bagging算法独立和并行运算,速度比较快,同时也能保证一定的准确度,能够较好的满足短文本分类的要求。
本发明一种基于NB-Bagging的短文本分类方法,包括如下步骤:
步骤1:对文本数据集预处理,将数据分为训练集G1和测试集H1,通过结巴分词方法对所述训练集G1和测试集H1进行分词处理,得到文本数据集G2和H2,对所述文本数据集G2和H2进行 Bunch类数据化处理,得到Bunch数据类型G2'和H2'。
步骤1.1:定义Text为单类文本集,定义label、text、name分别为标签、单个文本和名称,并且满足Text={(label,text1, name1),(label,text2, name2),…,(label,textN,nameN)},texta为Text中第a个文本,namea为Text中第a个文本名称,其中,变量a∈[1,N];
步骤1.2:定义训练集和测试集分别为G1和H1,G1={Text1,Text2,…,TextA},H1={Text1,Text2,…,TextB};
步骤1.3:使用结巴分词方法对G1和H1处理,去掉结巴分词库里的常用词和符号,得到分词后的文本数据集G2和H2,G2={Text1,Text2,…,TextP},H2={Text1,Text2,…,TextQ}。
步骤1.4: 定义target_name,labels,filenames,contents分别为数据集类别集合、文本标签集合、文本文件名字集合和文本内容集合,满足target_name={labels,filenames,contents};
步骤1.5:对G2和H2 Bunch类数据化处理,得到Bunch数据类型G2'和H2',G2'={target_name1,target_name2,…,target_nameA},H2'={target_name1,target_name2,…,target_nameB}。
步骤2:通过词向量空间模型处理G2'中的文本内容,建立词向量空间V1,再映射到H2'中的文本内容,得到词向量空间V2。
步骤2.1:使用常用停用词表对G2'和H2'中的文本内容进行停用词过滤处理,得到过滤后的Bunch类数据集G2''和H2'';
步骤2.2:通过词向量空间模型建立G2''中文本内容的词向量空间V1,使用权重策略TF-IDF对V1进行处理,得到训练集的二维权重矩阵T1,T1=[v1,v2,…,vm];
步骤2.3:将V1词向量空间映射到H2''文本内容上,得到测试集词向量空间V2,使用TF-IDF权重策略处理V2,得到测试集的二维权重矩阵T2,T2=[v1,v2,…,vn]。
步骤3:通过TF-IDF权重策略处理词向量空间V1和V2,得到权重矩阵T1和T2,将T1矩阵中的权重值和其对应的标签输入用Bagging集成的朴素贝叶斯模型中训练,再输入T2矩阵中的权重值和其对应的标签进行测试,得到预测标签F。
步骤3.1:定义R1={r1,r2,…rh1,…,rn1},其中rh1={V1,G2''.labels},rh1表示单词文本向量集中第h个的权重值和标签,变量h∈(1,n);
步骤3.2:定义R2={r1,r2,…rk2,…,rj2},其中rk2={V2,H2''.labels},rk2表示单词文本向量集中第k个的权重值和标签,变量k∈(1,j);
步骤3.3:定义n_estimators=35,max_features=0.7,max_samples=0.7,其中n_estimators为模型集成的数量,max_features表示每次随机抽取特征的数量,max_samples表示每次随机抽取样本的数量;
步骤3.4:按指定参数抽取R1中的样本输入朴素贝叶斯分类器进行训练;
步骤3.5:按指定参数抽取R2的样本进行测试,得到预测标签F,满足F={forecast1,forecast2,…,forecasts…,forecastn_e},其中,forecasts={label1,label2,…,labeln_e},变量s∈(1,n_e)。
步骤4:通过少数服从多数的投票方式处理预测标签F,得到最终短文本分类的结果。
步骤4.1:对预测标签F进行少数服从多数投票;
步骤4.2:预测分类多数的标签输出Forecast1;
步骤4.3:预测分类少数的标签输出Forecast2;
步骤4.4:得到最终短文本分类的结果。
本发明通过对270000条带文本标签的化工数据处理,利用结巴分词文本分词方法得到分词数据集, 结合Bagging方法对朴素贝叶斯进行了集成。改进的集成算法在保证文本分类速度的同时进一步提高了分类的准确度,在一共270000、8类的化工数据的分类中达到了81.9%的精确度,相比朴素贝叶斯提高了1.4%的精确度;本发明在10000的新闻类公共数据集的分类中达到了91.5%的准确率,相比朴素贝叶斯提高了10.0%的精确度。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于NB-Bagging的短文本分类方法,其特征在于,包括如下步骤:
步骤1:对文本数据集预处理,将数据分为训练集G1和测试集H1,通过结巴分词方法对所述训练集G1和测试集H1进行分词处理,得到文本数据集G2和H2,对所述文本数据集G2和H2进行 Bunch类数据化处理,得到Bunch数据类型G2'和H2';
步骤2:通过词向量空间模型处理G2'中的文本内容,建立词向量空间V1,再映射到H2'中的文本内容,得到词向量空间V2;
步骤3:通过TF-IDF权重策略处理词向量空间V1和V2,得到权重矩阵T1和T2,将T1矩阵中的权重值和其对应的标签输入用Bagging集成的朴素贝叶斯模型中训练,再输入T2矩阵中的权重值和其对应的标签进行测试,得到预测标签F;
步骤4:通过少数服从多数的投票方式处理预测标签F,得到最终短文本分类的结果。
2.根据权利要求1所述的基于NB-Bagging的短文本分类方法,其特征在于,所述步骤1的具体方法为:
步骤1.1:定义Text为单类文本集,定义label、text、name分别为标签、单个文本和名称,并且满足Text={(label,text1, name1),(label,text2, name2),…,(label,textN,nameN)},texta为Text中第a个文本,namea为Text中第a个文本名称,其中,变量a∈[1,N];
步骤1.2:定义训练集和测试集分别为G1和H1,G1={Text1,Text2,…,TextA},H1={Text1,Text2,…,TextB};
步骤1.3:使用结巴分词方法对G1和H1处理,去掉结巴分词库里的常用词和符号,得到分词后的文本数据集G2和H2,G2={Text1,Text2,…,TextP},H2={Text1,Text2,…,TextQ};
步骤1.4: 定义target_name,labels,filenames,contents分别为数据集类别集合、文本标签集合、文本文件名字集合和文本内容集合,满足target_name={labels,filenames,contents};
步骤1.5:对G2和H2 Bunch类数据化处理,得到Bunch数据类型G2'和H2',G2'={target_name1,target_name2,…,target_nameA},H2'={target_name1,target_name2,…,target_nameB}。
3.根据权利要求1所述的基于NB-Bagging的短文本分类方法,其特征在于,所述步骤2的具体方法为:
步骤2.1:使用常用停用词表对G2'和H2'中的文本内容进行停用词过滤处理,得到过滤后的Bunch类数据集G2''和H2'';
步骤2.2:通过词向量空间模型建立G2''中文本内容的词向量空间V1,使用权重策略TF-IDF对V1进行处理,得到训练集的二维权重矩阵T1,T1=[v1,v2,…,vm];
步骤2.3:将V1词向量空间映射到H2''文本内容上,得到测试集词向量空间V2,使用TF-IDF权重策略处理V2,得到测试集的二维权重矩阵T2,T2=[v1,v2,…,vn]。
4.根据权利要求1所述的基于NB-Bagging的短文本分类方法,其特征在于,所述步骤3的具体方法为:
步骤3.1:定义R1={r1,r2,…rh1,…,rn1},其中rh1={V1,G2''.labels},rh1表示单词文本向量集中第h个的权重值和标签,变量h∈(1,n);
步骤3.2:定义R2={r1,r2,…rk2,…,rj2},其中rk2={V2,H2''.labels},rk2表示单词文本向量集中第k个的权重值和标签,变量k∈(1,j);
步骤3.3:定义n_estimators=35,max_features=0.7,max_samples=0.7,其中n_estimators为模型集成的数量,max_features表示每次随机抽取特征的数量,max_samples表示每次随机抽取样本的数量;
步骤3.4:按指定参数抽取R1中的样本输入朴素贝叶斯分类器进行训练;
步骤3.5:按指定参数抽取R2的样本进行测试,得到预测标签F,满足F={forecast1,forecast2,…,forecasts…,forecastn_e},其中,forecasts={label1,label2,…,labeln_e},变量s∈(1,n_e)。
5.根据权利要求4所述的基于NB-Bagging的短文本分类方法,其特征在于,所述步骤4的具体方法为:
步骤4.1:对预测标签F进行少数服从多数投票;
步骤4.2:预测分类多数的标签输出Forecast1;
步骤4.3:预测分类少数的标签输出Forecast2;
步骤4.4:得到最终短文本分类的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110079516.XA CN112749756B (zh) | 2021-01-21 | 2021-01-21 | 一种基于NB-Bagging的短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110079516.XA CN112749756B (zh) | 2021-01-21 | 2021-01-21 | 一种基于NB-Bagging的短文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749756A true CN112749756A (zh) | 2021-05-04 |
CN112749756B CN112749756B (zh) | 2023-10-13 |
Family
ID=75652712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110079516.XA Active CN112749756B (zh) | 2021-01-21 | 2021-01-21 | 一种基于NB-Bagging的短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749756B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130110498A1 (en) * | 2011-10-28 | 2013-05-02 | Linkedln Corporation | Phrase-based data classification system |
CN107292348A (zh) * | 2017-07-10 | 2017-10-24 | 天津理工大学 | 一种Bagging_BSJ短文本分类方法 |
CN109063185A (zh) * | 2018-08-27 | 2018-12-21 | 电子科技大学 | 面向事件检测的社交网络短文本数据过滤方法 |
CN109947864A (zh) * | 2018-06-27 | 2019-06-28 | 淮阴工学院 | 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 |
CN110069627A (zh) * | 2017-11-20 | 2019-07-30 | 中国移动通信集团上海有限公司 | 短文本的分类方法、装置、电子设备和存储介质 |
-
2021
- 2021-01-21 CN CN202110079516.XA patent/CN112749756B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130110498A1 (en) * | 2011-10-28 | 2013-05-02 | Linkedln Corporation | Phrase-based data classification system |
CN107292348A (zh) * | 2017-07-10 | 2017-10-24 | 天津理工大学 | 一种Bagging_BSJ短文本分类方法 |
CN110069627A (zh) * | 2017-11-20 | 2019-07-30 | 中国移动通信集团上海有限公司 | 短文本的分类方法、装置、电子设备和存储介质 |
CN109947864A (zh) * | 2018-06-27 | 2019-06-28 | 淮阴工学院 | 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 |
CN109063185A (zh) * | 2018-08-27 | 2018-12-21 | 电子科技大学 | 面向事件检测的社交网络短文本数据过滤方法 |
Non-Patent Citations (3)
Title |
---|
GARIMA JAIN等: "a study of bayesian classifiers detecting gratuitous email spamming", COMMUNICATIONS ON APPLIED ELECTRONICS, vol. 6, no. 2, pages 26 - 30 * |
林国祥;詹先银;薛醒思;林涵;吕宏昱;林培辉;方铭波;: "基于fastText的股票咨询案例中文短文本分类技术", 宝鸡文理学院学报(自然科学版), vol. 40, no. 03, pages 48 - 52 * |
王国薇;黄浩;周刚;胡英;: "集成学习在短文本分类中的应用研究", 现代电子技术, vol. 42, no. 24, pages 140 - 145 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749756B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815369B (zh) | 一种基于Xgboost分类算法的文本分类方法 | |
CN110609897B (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN110059181B (zh) | 面向大规模分类体系的短文本标签方法、系统、装置 | |
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN109086375B (zh) | 一种基于词向量增强的短文本主题抽取方法 | |
CN103258210B (zh) | 一种基于字典学习的高清图像分类方法 | |
Du et al. | Parallel processing of improved KNN text classification algorithm based on Hadoop | |
CN105022754A (zh) | 基于社交网络的对象分类方法及装置 | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
CN111143567B (zh) | 一种基于改进神经网络的评论情感分析方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN111506728B (zh) | 基于hd-mscnn的层次结构文本自动分类方法 | |
CN110297888A (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN109582963A (zh) | 一种基于极限学习机的档案自动分类方法 | |
CN112883722B (zh) | 一种基于云数据中心分布式文本摘要方法 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
Li et al. | A review of machine learning algorithms for text classification | |
CN114881172A (zh) | 一种基于加权词向量和神经网络的软件漏洞自动分类方法 | |
Elgeldawi et al. | Hyperparameter Tuning for Machine Learning Algorithms Used for Arabic Sentiment Analysis. Informatics 2021, 8, 79 | |
CN103049454B (zh) | 一种基于多标签分类的中英文搜索结果可视化系统 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210504 Assignee: Huai'an Boyuan Intelligent Technology Co.,Ltd. Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY Contract record no.: X2023980046898 Denomination of invention: A Short Text Classification Method Based on NB Bagging Granted publication date: 20231013 License type: Common License Record date: 20231114 |