CN104361010A - 一种纠正新闻分类的自动分类方法 - Google Patents
一种纠正新闻分类的自动分类方法 Download PDFInfo
- Publication number
- CN104361010A CN104361010A CN201410536020.0A CN201410536020A CN104361010A CN 104361010 A CN104361010 A CN 104361010A CN 201410536020 A CN201410536020 A CN 201410536020A CN 104361010 A CN104361010 A CN 104361010A
- Authority
- CN
- China
- Prior art keywords
- classification
- data
- dictionary
- model
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Abstract
本发明涉及一种纠正新闻分类的自动分类方法,所述方法包括(1)设置配置项;(2)标注样本;(3)建立词典;(4)训练模型;(5)模型测试;(6)分类纠错预测。本发明是用于对新闻资讯分类的自动分类纠错。可以对完全依靠入口源标注的新闻资讯分类进行再次确认,过滤掉分类标签不一致的分类信息,使呈现给用户正确的分类。本发明模型训练和预测是相互独立的过程,便于模型训练提升准确度,之后可以直接更新所有的模型即可。本发明可以独立优化特征值,不影响当前的预测和模型。本发明新增分类方便快捷,在配置文件里追加新闻资讯分类的配置项即可。
Description
技术领域
本发明涉及一种自动分类方法,具体讲涉及一种纠正新闻分类的自动分类方法。
背景技术
新闻资讯分类是指对海量的新闻资讯数据进行归类定位。随着互联网的迅猛发展,网络资源已成为人们普遍关注的方向。新闻资讯是互联资源的一个重要呈现形式。大量的新闻资讯不断涌向用户,用户难以从海量的信息中找到自己想要关注的方向。因此,需要一个分类器对新闻资讯进行归类总结,以方便用户根据喜好阅读浏览。目前的新闻资讯的分类方法,有入口源标注法和自动分类法。
入口源标注法,是指对URL进行人工标注归类。该类方法依靠URL的分类,即某一个分类的URL的所有数据都认为是该分类的数据。
自动分类,是通过计算机系统代替人工对资源进行分类,是基于内容的,不需要人工干预的分类技术。目前应用较广泛的分类技术是机器学习方法中的支持向量机技术。支持向量机将向量映射到一个更高维的空间,再在这个空间建立一个有最大间隔的超平面。在分开数据的超平面两边建有两个互相平行的超平面。建立方向合适的分隔超平面以使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。
入口源标注法的缺点有两点:首先该方法的分类质量完全依赖于入口源的分类数据。当入口源分类错误时,无法进行单个纠正。另外,该方法需要大量的人力资源进行入口源分类标注。当原网站的分类发生变化时,需要人工再次标注。
支持向量机法的缺点是,存在一定的分错误率。一条数据只能给一个分类标签。对于同一条数据,仁者见仁,智者见智,不同的人对于同一条数据所确认的分类因此有可能是不同的。因此给出的标签可能不是大多数用户想要的。
发明内容
针对现有技术的不足,本发明提成一种纠正新闻分类的自动分类方法,采用基于本发明的资讯新闻分类的自动分类纠错,分类快速,效果显著。在决策模型一定的前提下,快速给出一条新闻资讯的最优的两个分类标签。便于过滤掉原分类标签与预测出的两个分类标签都不同的分类标签。在容许交叉分类的前提下,最大限度的过滤掉错误分类。
本发明的目的是采用下述技术方案实现的:
一种纠正新闻分类的自动分类方法,其改进之处在于,所述方法包括
(1)设置配置项;
(2)标注样本;
(3)建立词典;
(4)训练模型;
(5)模型测试;
(6)分类纠错预测。
优选的,所述步骤(1)包括设置配置文件,其包括分类个数、分类名字和分类标签编号。
优选的,所述步骤(2)包括明确分类的定位以及分类间的交叉定位,根据分类定位进行样本数据的标注。
优选的,所述步骤(3)包括根据样本数据,均匀取各分类190标注样本,通过分词和过滤,建立词典。
优选的,所述步骤(3)包括
(3.1)按分类加载各分类的样本数据;
(3.2)对加载数据进行切词;
(3.3)统计词的idf,降序排列;
(3.4)去除停用词、单字词和名字词;
(3.5)降序输出,生成词典。
优选的,所述步骤(4)包括均匀取各分类150条样本,进行模型训练。
进一步地,所述步骤(4)包括
(4.1)加载配置文件,获得分类信息;
(4.2)加载词典;
(4.3)加载各分类的标注样本数据,编号从0.txt-149.txt,共150条数据,并对样本数据进行切词;
(4.4)样本数据向量化,向量化的顺序依据词典的顺序;
(4.5)将向量化的样本数据推入训练器进行训练;
(4.6)输出训练模型,最优训练模型mdf和13个次优训练模型mdf_Second[13]。
优选的,所述步骤(5)包括取剩下的40条数据做测试。
进一步地,所述步骤(5)包括
(5.1)加载配置文件,获得分类信息;
(5.2)加载词典;
(5.3)加载决策模型,共14个模型;
(5.4)加载各分类的标注样本数据,编号从150.txt-189.txt,共40条数据,并对样本数据进行切词;
(5.5)样本数据向量化,向量化的顺序依据词典的顺序;
(5.6)将向量化的样本数据推入模型,进行预测;
(5.7)统计预测准确性;
(5.8)通过验证。
优选的,所述步骤(6)包括对已有标签的数据进行分类预测。
进一步地,所述步骤(6)包括
(6.1)加载配置文件和词典;
(6.2)加载决策模型,共14个决策模型;
(6.3)对输入的数据进行向量映射;
(6.4)将一组向量推入最优模型mdf,预测标签为iLabel1,将该组向量推入次优模型mdf_Second[iLabel1],预测标签为iLabel2;
(6.5)根据加载的配置文件,将标签iLabel1和iLabel2分别转换为对应分类名字,输出。
与现有技术比,本发明的有益效果为:
本发明是用于对新闻资讯分类的自动分类纠错。可以对完全依靠入口源标注的新闻资讯分类进行再次确认,过滤掉分类标签不一致的分类信息,使呈现给用户正确的分类。
本发明模型训练和预测是相互独立的过程,便于模型训练提升准确度,之后可以直接更新所有的模型即可。
本发明打破传统的支持向量机给出一个分类标签,这里给出两个最优标签。
本发明可以独立优化特征值,不影响当前的预测和模型。
本发明新增分类方便快捷,在配置文件里追加新闻资讯分类的配置项即可。
附图说明
图1为本发明提供的一种纠正新闻分类的自动分类方法流程图。
图2为本发明提供的一种纠正新闻分类的自动分类方法训练模型流程图。
图3为本发明提供的一种纠正新闻分类的自动分类方法预测流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明是对新闻资讯的入口源分类进行确认和纠错。建立自动分类分为六个模块。模块1:设置分类配置项;模块2:定位分类,标注定位的分类样本;模块3:均匀取各分类190标注样本,通过分词、过滤,建立词典;模块4:均匀取各分类150(190条数据中150条)条样本,进行模型训练;模块5:取剩下的40条数据做测试;模块6:对已有标签的数据进行分类预测。如图2所示,为本发明训练模型流程,如图3所示,为本发明预测流程。具体的实施步骤如下:
1、设置配置项
该模块的主要工作设置配置文件,包括分类个数和各分类名字和分类标签编号。这样做,一方面,便于后期模型训练对样本进行分类编号和在预测分类时做标签名和标签号匹配。另一方面,便于改变分类个数做实验。
2、标注样本
该模块的主要工作是明确各分类的定位,以及各分类间的交叉定位。根据分类定位进行样本数据的标注。本发明中13分类的样本数分别是190条。每个分类的样本都处理成单个的文件,并进行顺序编号,方便对数据的操作。
3、建立词典
该模块的主要工作是根据样本数据建立词典。数据格式为:词idf。具体步骤如下。
1.加载各分类的样本数据,按分类加载。
2.对所有的数据加载数据进行切词。
3.统计词的idf,降序排列。
4.去除停用词、单字词、名字词。
5.降序输出,生成词典。
4、训练模型
该模块的功能是根据词典和分类信息训练决策模型,输出决策模型。这里的训练模型包括14个模型:1个最优训练模型(13个分类,各150条样本数据)和13个次优模型(即缺一模型,每个模型分别缺少一个分类,每个模型用12个分类的样本进行训练,每个分类同样150条样本数据)。
传统的支持向量机是只有一个总的决策模型。决策模型会给出最适合的分类标签,忽略了交叉分类的存在。本发明在总决策模型的前提下,又做了次优模型训练。每个数据给出两个最优标签。具体过程如下:
1.加载配置文件,获得分类信息。
2.加载词典。
3.加载各分类的标注样本数据,编号从0.txt-149.txt,共150条数据,并对样本数据进行切词,采用建立词典过程中相同的切词方法。
4.样本数据向量化,向量化的顺序依据词典的顺序,一个词的向量值=该词在词典中权重*该词在样本中以独立词出现的次数。
5.将向量化的样本数据推入训练器进行训练。这里需要注意的是,在训练最优训练模型的时候,推入训练器的是13个分类的编号从0.txt-149.txt的样本数据。在训练次优模型的时候,推入训练器的是12个分类的编号从0.txt-149.txt的样本数据。
6.输出训练模型,最优训练模型mdf和13个次优训练模型mdf_Second[13]。
注:mdf_Second[i]为缺少分类编号为i+1的分类模型。
5、模型测试
该模块的功能是为了测试训练模型的准确性。从两方面测试,一方面测试一级预测准确性,即:最优模型预测准确;一方面测试二级预测准确性,即:最优模型或次优模型预测准确率。
1.加载配置文件,获得分类信息。
2.加载词典。
3.加载决策模型,共14个模型。
4加载各分类的标注样本数据,编号从150.txt-189.txt,共40条数据,并对样本数据进行切词,采用建立词典过程中相同的切词方法。
5.样本数据向量化,向量化的顺序依据词典的顺序,一个词的向量值=该词在词典中权重*该词在样本中以独立词出现的次数。
6.将向量化的样本数据推入模型,进行预测。先推入最优模型mdf,如果预测标签iLabel1和标注标签iLabel相同则iRightNum1+1,iRightNum2+1;否则,将向量化的样本数据推入mdf_Second[iLabel1],如果预测标签iLabel2和标注标签iLabel相同,则iRightNum+1。依次循环,直到预测完所有的编号从150.txt-189.txt的样本。
7.统计预测准确性。
一级准确性=iRightNum1/13*40;
二级准确性=iRightNum2/13*40
8.通过验证,一级预测和标注标签不同,二级预测和标注标签相同的样本为交叉分类,即分在两个分类都是正确的。
6、分类纠错预测
该模块的主要功能是对给定的数据,进行分类预测。
1.加载配置文件和词典。
2.加载决策模型,共14个决策模型。
3.对输入的数据进行向量映射。
4.将一组向量先推入最优模型mdf,预测标签为iLabel1,再将该组向量推入次优模型mdf_Second[iLabel1],预测标签为iLabel2。
根据加载的配置文件,将标签iLabel1和iLabel2分别转换为对应分类名字,输出。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (11)
1.一种纠正新闻分类的自动分类方法,其特征在于,所述方法包括
(1)设置配置项;
(2)标注样本;
(3)建立词典;
(4)训练模型;
(5)模型测试;
(6)分类纠错预测。
2.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(1)包括设置配置文件,其包括分类个数、分类名字和分类标签编号。
3.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(2)包括明确分类的定位以及分类间的交叉定位,根据分类定位进行样本数据的标注。
4.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(3)包括根据样本数据,均匀取各分类190标注样本,通过分词和过滤,建立词典。
5.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(3)包括
(3.1)按分类加载各分类的样本数据;
(3.2)对加载数据进行切词;
(3.3)统计词的idf,降序排列;
(3.4)去除停用词、单字词和名字词;
(3.5)降序输出,生成词典。
6.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(4)包括均匀取各分类150条样本,进行模型训练。
7.如权利要求6所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(4)包括
(4.1)加载配置文件,获得分类信息;
(4.2)加载词典;
(4.3)加载各分类的标注样本数据,编号从0.txt-149.txt,共150条数据,并对样本数据进行切词;
(4.4)样本数据向量化,向量化的顺序依据词典的顺序;
(4.5)将向量化的样本数据推入训练器进行训练;
(4.6)输出训练模型,最优训练模型mdf和13个次优训练模型mdf_Second[13]。
8.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(5)包括取剩下的40条数据做测试。
9.如权利要求8所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(5)包括
(5.1)加载配置文件,获得分类信息;
(5.2)加载词典;
(5.3)加载决策模型,共14个模型;
(5.4)加载各分类的标注样本数据,编号从150.txt-189.txt,共40条数据,并对样本数据进行切词;
(5.5)样本数据向量化,向量化的顺序依据词典的顺序;
(5.6)将向量化的样本数据推入模型,进行预测;
(5.7)统计预测准确性;
(5.8)通过验证。
10.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(6)包括对已有标签的数据进行分类预测。
11.如权利要求10所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(6)包括
(6.1)加载配置文件和词典;
(6.2)加载决策模型,共14个决策模型;
(6.3)对输入的数据进行向量映射;
(6.4)将一组向量推入最优模型mdf,预测标签为iLabel1,将该组向量推入次优模型mdf_Second[iLabel1],预测标签为iLabel2;
(6.5)根据加载的配置文件,将标签iLabel1和iLabel2分别转换为对应分类名字,输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410536020.0A CN104361010A (zh) | 2014-10-11 | 2014-10-11 | 一种纠正新闻分类的自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410536020.0A CN104361010A (zh) | 2014-10-11 | 2014-10-11 | 一种纠正新闻分类的自动分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104361010A true CN104361010A (zh) | 2015-02-18 |
Family
ID=52528272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410536020.0A Pending CN104361010A (zh) | 2014-10-11 | 2014-10-11 | 一种纠正新闻分类的自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104361010A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN105512104A (zh) * | 2015-12-02 | 2016-04-20 | 上海智臻智能网络科技股份有限公司 | 词典降维方法及装置、信息分类方法及装置 |
CN106339418A (zh) * | 2016-08-15 | 2017-01-18 | 乐视控股(北京)有限公司 | 一种分类纠错方法及装置 |
CN107507613A (zh) * | 2017-07-26 | 2017-12-22 | 合肥美的智能科技有限公司 | 面向场景的中文指令识别方法、装置、设备和存储介质 |
CN108170678A (zh) * | 2017-12-27 | 2018-06-15 | 广州市云润大数据服务有限公司 | 一种文本实体抽取方法与系统 |
CN108241650A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 训练分类标准的训练方法和装置 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
CN109886211A (zh) * | 2019-02-25 | 2019-06-14 | 北京达佳互联信息技术有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN111565192A (zh) * | 2020-05-08 | 2020-08-21 | 南开大学 | 基于可信度的内网安全威胁多模型协同防御方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1825936A (zh) * | 2006-02-24 | 2006-08-30 | 北大方正集团有限公司 | 一种基于语音分类识别的新闻视频检索方法 |
US20130041652A1 (en) * | 2006-10-10 | 2013-02-14 | Abbyy Infopoisk Llc | Cross-language text clustering |
US20130103696A1 (en) * | 2005-05-04 | 2013-04-25 | Google Inc. | Suggesting and Refining User Input Based on Original User Input |
CN103150367A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种中文微博的情感倾向分析方法 |
CN103186612A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 一种词汇分类的方法、系统和实现方法 |
CN103646343A (zh) * | 2013-12-18 | 2014-03-19 | 世纪禾光科技发展(北京)有限责任公司 | 一种基于文本的商品分类处理方法及其系统 |
CN103778207A (zh) * | 2014-01-15 | 2014-05-07 | 杭州电子科技大学 | 基于lda的新闻评论的话题挖掘方法 |
CN103793484A (zh) * | 2014-01-17 | 2014-05-14 | 五八同城信息技术有限公司 | 分类信息网站中的基于机器学习的欺诈行为识别系统 |
CN103838798A (zh) * | 2012-11-27 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 页面分类系统及页面分类方法 |
-
2014
- 2014-10-11 CN CN201410536020.0A patent/CN104361010A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130103696A1 (en) * | 2005-05-04 | 2013-04-25 | Google Inc. | Suggesting and Refining User Input Based on Original User Input |
CN1825936A (zh) * | 2006-02-24 | 2006-08-30 | 北大方正集团有限公司 | 一种基于语音分类识别的新闻视频检索方法 |
US20130041652A1 (en) * | 2006-10-10 | 2013-02-14 | Abbyy Infopoisk Llc | Cross-language text clustering |
CN103186612A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 一种词汇分类的方法、系统和实现方法 |
CN103838798A (zh) * | 2012-11-27 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 页面分类系统及页面分类方法 |
CN103150367A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种中文微博的情感倾向分析方法 |
CN103646343A (zh) * | 2013-12-18 | 2014-03-19 | 世纪禾光科技发展(北京)有限责任公司 | 一种基于文本的商品分类处理方法及其系统 |
CN103778207A (zh) * | 2014-01-15 | 2014-05-07 | 杭州电子科技大学 | 基于lda的新闻评论的话题挖掘方法 |
CN103793484A (zh) * | 2014-01-17 | 2014-05-14 | 五八同城信息技术有限公司 | 分类信息网站中的基于机器学习的欺诈行为识别系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN105512104A (zh) * | 2015-12-02 | 2016-04-20 | 上海智臻智能网络科技股份有限公司 | 词典降维方法及装置、信息分类方法及装置 |
CN106339418A (zh) * | 2016-08-15 | 2017-01-18 | 乐视控股(北京)有限公司 | 一种分类纠错方法及装置 |
CN108241650A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 训练分类标准的训练方法和装置 |
CN107507613A (zh) * | 2017-07-26 | 2017-12-22 | 合肥美的智能科技有限公司 | 面向场景的中文指令识别方法、装置、设备和存储介质 |
CN107507613B (zh) * | 2017-07-26 | 2021-03-16 | 合肥美的智能科技有限公司 | 面向场景的中文指令识别方法、装置、设备和存储介质 |
CN108170678A (zh) * | 2017-12-27 | 2018-06-15 | 广州市云润大数据服务有限公司 | 一种文本实体抽取方法与系统 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
CN109886211A (zh) * | 2019-02-25 | 2019-06-14 | 北京达佳互联信息技术有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN109886211B (zh) * | 2019-02-25 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN111565192A (zh) * | 2020-05-08 | 2020-08-21 | 南开大学 | 基于可信度的内网安全威胁多模型协同防御方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104361010A (zh) | 一种纠正新闻分类的自动分类方法 | |
CN102637143B (zh) | 基于改进的支持向量机的软件缺陷优先级预测方法 | |
CN106489149A (zh) | 一种基于数据挖掘和众包的数据标注方法及系统 | |
CN103903164B (zh) | 基于领域信息的半监督方面自动提取方法及其系统 | |
CN110472665A (zh) | 模型训练方法、文本分类方法及相关装置 | |
CN102163187B (zh) | 文档标记方法和装置 | |
CN104899298A (zh) | 一种基于大规模语料特征学习的微博情感分析方法 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN103106262B (zh) | 文档分类、支持向量机模型生成的方法和装置 | |
CN110377696A (zh) | 一种商品期货新闻舆情分析方法及系统 | |
CN105760524B (zh) | 一种科学新闻标题的多层次多分类方法 | |
CN105022806B (zh) | 基于翻译模板的互联网网页建构移动页面的方法与系统 | |
CN104462611A (zh) | 信息排序模型的建模方法、排序方法及建模装置、排序装置 | |
CN105740404A (zh) | 标签关联方法及装置 | |
CN110413786A (zh) | 基于网页文本分类的数据处理方法、智能终端及存储介质 | |
CN106372057A (zh) | 内容的审核方法及装置 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN107273295A (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN102567494A (zh) | 网站分类方法及装置 | |
CN106294363A (zh) | 一种论坛帖子评价方法、装置及系统 | |
TWI828928B (zh) | 高擴展性、多標籤的文本分類方法和裝置 | |
CN104573033A (zh) | 一种动态url过滤方法及装置 | |
CN113434688A (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN101178721A (zh) | 一种对论坛中有用帖子信息进行分类并整理的方法 | |
CN103268346A (zh) | 半监督分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150218 |