CN106528642A - 一种基于tf‑idf特征提取的短文本分类方法 - Google Patents
一种基于tf‑idf特征提取的短文本分类方法 Download PDFInfo
- Publication number
- CN106528642A CN106528642A CN201610894174.6A CN201610894174A CN106528642A CN 106528642 A CN106528642 A CN 106528642A CN 201610894174 A CN201610894174 A CN 201610894174A CN 106528642 A CN106528642 A CN 106528642A
- Authority
- CN
- China
- Prior art keywords
- word
- idf
- feature
- data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于TF‑IDF特征提取的短文本分类方法,该方法通过将短文本合并成长文本增强短文本的TF‑IDF特征,并降维生成特征词列表和特征词字典;同时在建立特征词列表时对特征相对不明显的类别建立补偿机制,并增强文本特征向量权重,不需要预先构建或训练其他词库或词向量词典,从而能在保证文本特征表达效果的前提下大幅提升算法性能。本发明作为一种基于TF‑IDF特征提取的短文本分类方法可广泛应用于数据处理领域。
Description
技术领域
本发明涉及数据处理领域,尤其是一种基于TF-IDF特征提取的短文本分类方法。
背景技术
随着社交媒体的兴起,移动短信、Tweet和微博等短文本层出不穷。由于参与者多以及发布频率快,短文本的规模飞速增长。此外,短文本在搜索引擎、自动问答和话题跟踪等领域发挥着重要的作用。而且,随着电子政务建设的推行和不断深化,政府部门也面临着对大量短文本的处理问题。但由于短文本内容较少,特征不明显,因此在短文本数据的处理中,如何实现对大量短文本数据进行简便、有效地分类具有重要的意义。
现有技术中与本发明最相近的一种实现方式是一种电力营销服务热点95598工单自动分类方法(CN105760493A),其方法步骤流程如图1所示,该发明公开了一种电力营销服务热点95598工单自动分类方法,在TF-IDF方法中引入了“增量”和“归一化”概念,把“增量”和“归一化”作为一个变量考虑在特征向量权重的计算过程中,在此基础上针对电力营销服务热点95598工单进行特征选择,并以服务热点为基点形成训练集,再对比多种文本挖掘和分类算法,选择分类效果最佳的算法,形成分类器模型,并对95598工单进行分类处理,能够及时挖掘出电力营销的服务热点事件,支撑电力营销的精益化管理。
现有技术中与本发明最相近的另一实现方式是一种基于词矢量的短文本分类模型生成方法与分类方法(CN105335446A),其方法步骤流程如图2所示,该发明涉及一种基于词矢量的短文本分类模型生成方法,包括:采集数据,并对所采集的数据进行领域标注,将这些已标注的数据作为训练数据;对训练数据做预处理;查询词矢量词典,将训练数据中所包含的文本数据转化为向量数据,并且将所述向量数据按照领域进行分隔;对每一个领域内的向量数据采用高斯模型进行模型训练,得到高斯模型参数的最优值,从而得到该领域所对应的高斯模型;所有训练数据的各个领域所对应的高斯模型组成分类模型。
结合上述现有技术分析可知,在短文本分类方法中,TF-IDF算法的实际应用效果不佳。短文本中文本特征较少,而且在应用TF-IDF算法提取文本特征时,同类的短文本数据集中具有相同关键词的文本会相互干扰,使得这些关键词计算出来的TF-IDF值大大降低,因此也弱化了这些词对同类的短文本特征表达效果,进而影响了后续分类的效果。而且现有的技术方案依赖于其他词库或者词向量词典等外部资源。如果查询其他词库,需要事先建立该词库;而如果查询词向量词典,则需要一个较大的语料库预先训练出一个词向量词典。如果无法获得这些外部资源,也没有足够的内部资源去预先建立词库和训练词向量词典,则这些技术解决方案无法取得一个较好的解决效果。
发明内容
为了解决上述技术问题,本发明的目的是:提供一种基于TF-IDF特征提取实现无需依赖外部语料库的短文本分类方法。
本发明所采用的技术方案是:一种基于TF-IDF特征提取的短文本分类方法,包括有以下步骤:
A、从总体数据集中抽取短文本数据作为SVM分类器的训练数据,根据分类需求对抽取出来的数据进行分类标注,然后进行分词;
B、根据上述步骤的分类标注抽取数据,并将每一类中的数据按比例随机分为两组,分别作为训练集和测试集,然后将训练集中每一类的所有短文本数据分类拼接成长文本数据,计算出长文本数据对应的TF-IDF特征矩阵;
C、建立一个空的词列表和空的特征词典,根据设定的关于TF-IDF值的阈值k,将每一类的长文本中对应的TF-IDF值大于k的词加入到词列表中,并将该词及其对应的TF-IDF值加入到特征词典中;
D、将训练集中每一条短文本数据映射到词列表中,得到文本特征向量;
E、将训练集和测试集对应的数据生成的文本特征向量,进行SVM分类器的训练,记录总体分类准确率和每一类的分类准确率;
F、调节参数并重复执行步骤C~E,直至分类准确率不再提升,其中参数包括阈值k;
G、根据最后得到的参数保存SVM分类器,用于后续总体数据集的分类。
进一步,所述步骤A中采用结巴分词方法进行分词。
进一步,所述步骤B中将每一类中的数据按2:1比例随机分为训练集和测试集。
进一步,所述步骤C中将词及其对应的TF-IDF值加入特征词典时,如果该词已存在并且该词在目前长文本中对应的TF-IDF值高于该词在特征词典中的值,则将特征词典中的值替换为该词在目前长文本中对应的TF-IDF值。
进一步,所述步骤C还包括:根据设定的关于词数的阈值n,统计每一类数据中被抽取出来加入词列表的词的个数,若某一类被提取出来的词数少于n个,则将该类的长文本对应TF-IDF特征矩阵的值进行降序排序,将前n个词里未被抽取的词抽取出来加入到词列表及特征词典中。
进一步,所述步骤D具体为:对于训练集中每一条短文本,建立一个与词列表长度相同的向量,向量中所有值的初始值都设为0;遍历该短文本包含的所有词,若某个词存在于词列表,则对应词的位置的值改为该词在特征词典中的值,最后得到文本特征向量。
进一步,所述步骤D还包括:将文本特征向量乘以参数λ。
进一步,所述步骤F中的调节参数还包括有阈值n。
进一步,所述步骤F中的调节参数还包括有λ。
本发明的有益效果是:本发明通过将短文本合并成长文本增强短文本的TF-IDF特征,并利用设定的一个关于TF-IDF值的阈值k降维生成特征词列表和特征词字典;同时在建立特征词列表时,利用设定一个关于每一类数据被抽取词数的阈值n对特征相对不明显的类别建立补偿机制,并增强文本特征向量权重,不需要预先构建或训练其他词库或词向量词典,从而能在保证文本特征表达效果的前提下大幅提升算法性能。
附图说明
图1为一种现有技术方案的步骤流程图;
图2为另一现有技术方案的步骤流程图;
图3为本发明方法的步骤流程图;
图4为参数k调优的具体步骤流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参照图3,一种基于TF-IDF特征提取的短文本分类方法,包括有以下步骤:
步骤A:数据集标注和预处理
从总体数据集中抽取短文本数据作为SVM分类器的训练数据,根据分类需求对抽取出来的数据进行分类标注,然后进行分词,将短文本数据分为多个词;
进一步作为优选的实施方式,所述步骤A中采用结巴分词方法进行分词。
步骤B:计算分类增强的TFIDF向量
根据上述步骤的分类标注抽取数据,并将每一类中的数据按比例随机分为两组,分别作为训练集和测试集,然后将训练集中每一类的所有短文本数据分类拼接成长文本数据,计算出长文本数据对应的TF-IDF特征矩阵;
训练集中每一类的数据都有两种形式,一种是多个短文本,另一种则是上述拼接而成的一条长文本数据。对每一类的长文本数据采用TF-IDF算法计算出对应的TF-IDF特征矩阵。在该矩阵中,每一行对应一个类别的长文本数据,每个值代表该行对应的某一类文本中某个词的TF-IDF特征值。
进一步作为优选的实施方式,所述步骤B中将每一类中的数据按2:1比例随机分为训练集和测试集。
步骤C:生成特征词列表和特征词典
建立一个空的词列表和空的特征词典,根据设定的关于TF-IDF值的阈值k,将每一类的长文本中对应的TF-IDF值大于k的词加入到词列表中,并将该词及其对应的TF-IDF值加入到特征词典中。
进一步作为优选的实施方式,所述步骤C中将词及其对应的TF-IDF值加入特征词典时,如果该词已存在并且该词在目前长文本中对应的TF-IDF值高于该词在特征词典中的值,则将特征词典中的值替换为该词在目前长文本中对应的TF-IDF值。
进一步作为优选的实施方式,所述步骤C还包括:根据设定的关于词数的阈值n,统计每一类数据中被抽取出来加入词列表的词的个数,若某一类被提取出来的词数少于n个,则将该类的长文本对应TF-IDF特征矩阵的值进行降序排序,将前n个词里未被抽取的词抽取出来加入到词列表及特征词典中。
步骤D:建文本特征向量
将训练集中每一条短文本数据映射到词列表中,得到文本特征向量;
对于训练集中每一条短文本,建立一个与词列表长度相同的向量,向量中所有值的初始值都设为0;遍历该短文本包含的所有词,若某个词存在于词列表,则对应词的位置的值改为该词在特征词典中的值,最后得到文本特征向量。
进一步作为优选的实施方式,所述步骤D还包括:将文本特征向量乘以参数λ,新的文本特征向量中非零值得到增强,具有更突出的特征表达效果。
步骤E:训练SVM分类器
将训练集和测试集对应的数据生成的文本特征向量,进行SVM分类器的训练,记录总体分类准确率和每一类的分类准确率;
步骤F:参数调优
调节参数并重复执行步骤C~E,直至分类准确率不再提升,其中参数包括阈值k,参照图4,具体的参数调优可采用以下步骤:
参数k调优:设K0为0,将步骤B中TF-IDF特征矩阵的最大值设为k10,再将k0和k10的差除以10,再分别乘以1、2、3、4、5、6、7、8、9,再加上K0,得到k1、k2、k3、k4、k5、k6、k7、k8、k9,对每一个k值(从k0到k10)重复执行步骤C~E,统计得到的分类准确率结果。然后设其中准确率最高的结果所对应的k值为kn, 将kn-1和kn+1分别作为新的k0和k10,并按上述方法计算新的k1、k2、k3、k4、k5、k6、k7、k8、k9,继续重复执行步骤C~E并统计分类结果。然后进行下一轮的迭代,直到最佳的分类准确率不再提升,此时得到的k值作为最优k值用于后续实验。计算得到分类准确率前后之差小于某个设定的阈值即可认为分类准确率不再提升。
进一步作为优选的实施方式,所述步骤F中的调节参数还包括有阈值n。
参数n调优的具体步骤与参数k的调优步骤类似,可采用以下步骤:分析步骤B中得到的TF-IDF特征矩阵中,每一类中大于等于上述最优阈值k值的词的个数,将最低的词数作为n的初始值,重复执行步骤C~E,统计得到的总体分类准确率结果。然后将n的值加10作为新的n值,继续迭代,直到总体分类准确率不再有明显提升。然后将n的值减10,再继续每次加1作为新的n值进行下一轮迭代,直到总体分类准确率不再有明显提升,此时得到的n值作为最优n值用于后续计算。
此外,若要提升某一类的分类效果,可对n值继续作类似调整,直到该类的分类准确率不再有明显提升。
进一步作为优选的实施方式,所述步骤F中的调节参数还包括有λ,参数λ的调优可采用以下步骤:
设λ的初始值为1,重复执行步骤C~E,统计得到的分类准确率结果。然后将λ的值乘以10作为新的λ值,继续迭代,直到分类准确率不再有明显提升。然后将λ的值除以10,再继续每次乘以3作为新的λ值进行下一轮迭代,直到分类准确率不再有明显提升。接下来将λ的值除以3,再继续每次加1作为新的λ值进行下一轮迭代,直到分类准确率不再有明显提升,此时得到的λ值作为最优λ值用于后续计算。
步骤G:保存SVM分类模型
根据最后得到的参数保存SVM分类器,即利用上述步骤F得到的最优参数值执行步骤C~E,保存得到的SVM分类器模型参数用于后续总体数据集的分类。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可以作出种种的等同变换或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种基于TF-IDF特征提取的短文本分类方法,其特征在于,包括有以下步骤:
A、从总体数据集中抽取短文本数据作为SVM分类器的训练数据,根据分类需求对抽取出来的数据进行分类标注,然后进行分词;
B、根据上述步骤的分类标注抽取数据,并将每一类中的数据按比例随机分为两组,分别作为训练集和测试集,然后将训练集中每一类的所有短文本数据分类拼接成长文本数据,计算出长文本数据对应的TF-IDF特征矩阵;
C、建立一个空的词列表和空的特征词典,根据设定的关于TF-IDF值的阈值k,将每一类的长文本中对应的TF-IDF值大于k的词加入到词列表中,并将该词及其对应的TF-IDF值加入到特征词典中;
D、将训练集中每一条短文本数据映射到词列表中,得到文本特征向量;
E、将训练集和测试集对应的数据生成的文本特征向量,进行SVM分类器的训练,记录总体分类准确率和每一类的分类准确率;
F、调节参数并重复执行步骤C~E,直至分类准确率不再提升,其中参数包括阈值k;
G、根据最后得到的参数保存SVM分类器,用于后续总体数据集的分类。
2.根据权利要求1所述的一种基于TF-IDF特征提取的短文本分类方法,其特征在于:所述步骤A中采用结巴分词方法进行分词。
3.根据权利要求1所述的一种基于TF-IDF特征提取的短文本分类方法,其特征在于:所述步骤B中将每一类中的数据按2:1比例随机分为训练集和测试集。
4.根据权利要求1所述的一种基于TF-IDF特征提取的短文本分类方法,其特征在于:所述步骤C中将词及其对应的TF-IDF值加入特征词典时,如果该词已存在并且该词在目前长文本中对应的TF-IDF值高于该词在特征词典中的值,则将特征词典中的值替换为该词在目前长文本中对应的TF-IDF值。
5.根据权利要求4所述的一种基于TF-IDF特征提取的短文本分类方法,其特征在于:所述步骤C还包括:根据设定的关于词数的阈值n,统计每一类数据中被抽取出来加入词列表的词的个数,若某一类被提取出来的词数少于n个,则将该类的长文本对应TF-IDF特征矩阵的值进行降序排序,将前n个词里未被抽取的词抽取出来加入到词列表及特征词典中。
6.根据权利要求1所述的一种基于TF-IDF特征提取的短文本分类方法,其特征在于:所述步骤D具体为:对于训练集中每一条短文本,建立一个与词列表长度相同的向量,向量中所有值的初始值都设为0;遍历该短文本包含的所有词,若某个词存在于词列表,则对应词的位置的值改为该词在特征词典中的值,最后得到文本特征向量。
7.根据权利要求1所述的一种基于TF-IDF特征提取的短文本分类方法,其特征在于:所述步骤D还包括:将文本特征向量乘以参数λ。
8.根据权利要求5所述的一种基于TF-IDF特征提取的短文本分类方法,其特征在于:所述步骤F中的调节参数还包括有阈值n。
9.根据权利要求7所述的一种基于TF-IDF特征提取的短文本分类方法,其特征在于:所述步骤F中的调节参数还包括有λ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610894174.6A CN106528642B (zh) | 2016-10-13 | 2016-10-13 | 一种基于tf-idf特征提取的短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610894174.6A CN106528642B (zh) | 2016-10-13 | 2016-10-13 | 一种基于tf-idf特征提取的短文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106528642A true CN106528642A (zh) | 2017-03-22 |
CN106528642B CN106528642B (zh) | 2018-05-25 |
Family
ID=58331663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610894174.6A Active CN106528642B (zh) | 2016-10-13 | 2016-10-13 | 一种基于tf-idf特征提取的短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528642B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247699A (zh) * | 2017-04-20 | 2017-10-13 | 中国农业大学 | 一种游戏设计要素的提取方法及装置 |
CN107844553A (zh) * | 2017-10-31 | 2018-03-27 | 山东浪潮通软信息科技有限公司 | 一种文本分类方法及装置 |
CN107862051A (zh) * | 2017-11-08 | 2018-03-30 | 郑州云海信息技术有限公司 | 一种文件分类方法、系统及一种文件分类设备 |
CN108304493A (zh) * | 2018-01-10 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 一种基于知识图谱的上位词挖掘方法及装置 |
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
CN108829679A (zh) * | 2018-06-21 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 语料标注方法及装置 |
CN109002473A (zh) * | 2018-06-13 | 2018-12-14 | 天津大学 | 一种基于词向量与词性的情感分析方法 |
CN109189883A (zh) * | 2018-08-09 | 2019-01-11 | 中国银行股份有限公司 | 一种电子文件的智能派发方法及装置 |
CN109299887A (zh) * | 2018-11-05 | 2019-02-01 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置及电子设备 |
CN109815501A (zh) * | 2019-01-29 | 2019-05-28 | 四川无声信息技术有限公司 | 一种获取群聊文本分类词库的方法及装置 |
CN110020420A (zh) * | 2018-01-10 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN110069627A (zh) * | 2017-11-20 | 2019-07-30 | 中国移动通信集团上海有限公司 | 短文本的分类方法、装置、电子设备和存储介质 |
CN110097096A (zh) * | 2019-04-16 | 2019-08-06 | 天津大学 | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 |
CN110297886A (zh) * | 2019-05-31 | 2019-10-01 | 广州大学 | 基于短文本的oj题目分类器构建方法及题目模拟方法 |
WO2019228203A1 (zh) * | 2018-05-29 | 2019-12-05 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及系统 |
CN110889412A (zh) * | 2019-11-01 | 2020-03-17 | 泰康保险集团股份有限公司 | 体检报告中的医学长文定位与分类方法及装置 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN112445910A (zh) * | 2019-09-02 | 2021-03-05 | 上海哔哩哔哩科技有限公司 | 一种信息分类方法及系统 |
CN113626586A (zh) * | 2021-08-02 | 2021-11-09 | 中车大连电力牵引研发中心有限公司 | 一种磁浮列车的故障文本分析处理方法 |
CN113821631A (zh) * | 2021-01-20 | 2021-12-21 | 广东省信息网络有限公司 | 一种基于大数据的商品匹配方法 |
CN114386393A (zh) * | 2020-10-16 | 2022-04-22 | 电科云(北京)科技有限公司 | 短文本关键词提取方法及装置 |
CN115361176A (zh) * | 2022-08-03 | 2022-11-18 | 昆明理工大学 | 一种基于FlexUDA模型的SQL注入攻击检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955856A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种基于特征扩展的中文短文本分类方法 |
WO2014048479A1 (en) * | 2012-09-27 | 2014-04-03 | Qatar Foundation | A system and method for the automatic creation or augmentation of an electronically rendered publication document |
CN105335446A (zh) * | 2014-08-13 | 2016-02-17 | 中国科学院声学研究所 | 一种基于词矢量的短文本分类模型生成方法与分类方法 |
CN105468713A (zh) * | 2015-11-19 | 2016-04-06 | 西安交通大学 | 一种多模型融合的短文本分类方法 |
CN105912716A (zh) * | 2016-04-29 | 2016-08-31 | 国家计算机网络与信息安全管理中心 | 一种短文本分类方法及装置 |
-
2016
- 2016-10-13 CN CN201610894174.6A patent/CN106528642B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014048479A1 (en) * | 2012-09-27 | 2014-04-03 | Qatar Foundation | A system and method for the automatic creation or augmentation of an electronically rendered publication document |
CN102955856A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种基于特征扩展的中文短文本分类方法 |
CN105335446A (zh) * | 2014-08-13 | 2016-02-17 | 中国科学院声学研究所 | 一种基于词矢量的短文本分类模型生成方法与分类方法 |
CN105468713A (zh) * | 2015-11-19 | 2016-04-06 | 西安交通大学 | 一种多模型融合的短文本分类方法 |
CN105912716A (zh) * | 2016-04-29 | 2016-08-31 | 国家计算机网络与信息安全管理中心 | 一种短文本分类方法及装置 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247699A (zh) * | 2017-04-20 | 2017-10-13 | 中国农业大学 | 一种游戏设计要素的提取方法及装置 |
CN107844553A (zh) * | 2017-10-31 | 2018-03-27 | 山东浪潮通软信息科技有限公司 | 一种文本分类方法及装置 |
CN107862051A (zh) * | 2017-11-08 | 2018-03-30 | 郑州云海信息技术有限公司 | 一种文件分类方法、系统及一种文件分类设备 |
CN110069627A (zh) * | 2017-11-20 | 2019-07-30 | 中国移动通信集团上海有限公司 | 短文本的分类方法、装置、电子设备和存储介质 |
CN110020420B (zh) * | 2018-01-10 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN110020420A (zh) * | 2018-01-10 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN108304493A (zh) * | 2018-01-10 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 一种基于知识图谱的上位词挖掘方法及装置 |
CN108304493B (zh) * | 2018-01-10 | 2020-06-12 | 深圳市腾讯计算机系统有限公司 | 一种基于知识图谱的上位词挖掘方法及装置 |
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
CN108520030B (zh) * | 2018-03-27 | 2022-02-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
WO2019228203A1 (zh) * | 2018-05-29 | 2019-12-05 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及系统 |
CN109002473A (zh) * | 2018-06-13 | 2018-12-14 | 天津大学 | 一种基于词向量与词性的情感分析方法 |
CN109002473B (zh) * | 2018-06-13 | 2022-02-11 | 天津大学 | 一种基于词向量与词性的情感分析方法 |
CN108829679A (zh) * | 2018-06-21 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 语料标注方法及装置 |
CN109189883A (zh) * | 2018-08-09 | 2019-01-11 | 中国银行股份有限公司 | 一种电子文件的智能派发方法及装置 |
CN109189883B (zh) * | 2018-08-09 | 2022-01-28 | 中国银行股份有限公司 | 一种电子文件的智能派发方法及装置 |
CN109299887A (zh) * | 2018-11-05 | 2019-02-01 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置及电子设备 |
CN109299887B (zh) * | 2018-11-05 | 2022-04-19 | 创新先进技术有限公司 | 一种数据处理方法、装置及电子设备 |
CN109815501A (zh) * | 2019-01-29 | 2019-05-28 | 四川无声信息技术有限公司 | 一种获取群聊文本分类词库的方法及装置 |
CN110097096B (zh) * | 2019-04-16 | 2023-04-25 | 天津大学 | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 |
CN110097096A (zh) * | 2019-04-16 | 2019-08-06 | 天津大学 | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 |
CN110297886A (zh) * | 2019-05-31 | 2019-10-01 | 广州大学 | 基于短文本的oj题目分类器构建方法及题目模拟方法 |
CN112445910A (zh) * | 2019-09-02 | 2021-03-05 | 上海哔哩哔哩科技有限公司 | 一种信息分类方法及系统 |
CN112445910B (zh) * | 2019-09-02 | 2022-12-27 | 上海哔哩哔哩科技有限公司 | 一种信息分类方法及系统 |
CN110889412A (zh) * | 2019-11-01 | 2020-03-17 | 泰康保险集团股份有限公司 | 体检报告中的医学长文定位与分类方法及装置 |
CN111177365B (zh) * | 2019-12-20 | 2022-08-02 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN114386393A (zh) * | 2020-10-16 | 2022-04-22 | 电科云(北京)科技有限公司 | 短文本关键词提取方法及装置 |
CN113821631B (zh) * | 2021-01-20 | 2022-04-22 | 广东省信息网络有限公司 | 一种基于大数据的商品匹配方法 |
CN113821631A (zh) * | 2021-01-20 | 2021-12-21 | 广东省信息网络有限公司 | 一种基于大数据的商品匹配方法 |
CN113626586A (zh) * | 2021-08-02 | 2021-11-09 | 中车大连电力牵引研发中心有限公司 | 一种磁浮列车的故障文本分析处理方法 |
CN115361176A (zh) * | 2022-08-03 | 2022-11-18 | 昆明理工大学 | 一种基于FlexUDA模型的SQL注入攻击检测方法 |
CN115361176B (zh) * | 2022-08-03 | 2024-03-01 | 昆明理工大学 | 一种基于FlexUDA模型的SQL注入攻击检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106528642B (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528642A (zh) | 一种基于tf‑idf特征提取的短文本分类方法 | |
CN109960799B (zh) | 一种面向短文本的优化分类方法 | |
CN100583101C (zh) | 基于领域知识的文本分类特征选择及权重计算方法 | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN106095737A (zh) | 文档相似度计算方法及相似文档全网检索跟踪方法 | |
CN109670041A (zh) | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN104331506A (zh) | 一种面向双语微博文本的多类情感分析方法与系统 | |
CN104391835A (zh) | 文本中特征词选择方法及装置 | |
CN102411563A (zh) | 一种识别目标词的方法、装置及系统 | |
CN101408883A (zh) | 一种网络舆情观点收集方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN103955453B (zh) | 一种从文档集中自动发现新词的方法及装置 | |
CN103559174B (zh) | 语义情感分类特征值提取方法及系统 | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN106886576A (zh) | 一种基于预分类的短文本关键词提取方法及系统 | |
CN108710611A (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN105893606A (zh) | 文本分类方法和装置 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN105224955A (zh) | 基于微博大数据获取网络服务状态的方法 | |
CN103914551A (zh) | 一种微博语义信息扩充和特征选取方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |