CN104820703A - 一种文本精细分类方法 - Google Patents

一种文本精细分类方法 Download PDF

Info

Publication number
CN104820703A
CN104820703A CN201510239027.0A CN201510239027A CN104820703A CN 104820703 A CN104820703 A CN 104820703A CN 201510239027 A CN201510239027 A CN 201510239027A CN 104820703 A CN104820703 A CN 104820703A
Authority
CN
China
Prior art keywords
text
sorter
term vector
responsive dictionary
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510239027.0A
Other languages
English (en)
Inventor
郑胜
张胜
邹复好
蒋丹
夏明�
周可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN SHUWEI TECHNOLOGY Co Ltd
Original Assignee
WUHAN SHUWEI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN SHUWEI TECHNOLOGY Co Ltd filed Critical WUHAN SHUWEI TECHNOLOGY Co Ltd
Priority to CN201510239027.0A priority Critical patent/CN104820703A/zh
Publication of CN104820703A publication Critical patent/CN104820703A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本精细分类方法,属于计算机自然语言处理或模式识别技术领域,解决现有文本分类方法针对短文档精细类别划分准确率低的问题。本发明首先根据已知训练样本,构造两级分类器,每一级分类器都包含独立的敏感词典;其次,对分类器的训练样本执行分词、去除专用停顿词、同义词网映射等操作,实现词向量的预处理;再次,根据词向量的重要性差异进行特征选择,构建分类器的敏感词典;再次,利用KNN算法计算目标文档的精细分类结果;最后,对分类结果进行评价与反馈,动态优化敏感词典,进一步提高分类准确率。实验证明,针对短文档,采用本文的文本精细分类方法,可以显著提高精细分类的准确率。

Description

一种文本精细分类方法
技术领域
本发明属于计算机自然语言处理或模式识别技术领域,具体涉及一种文本精细分类方法,可以提高短文档的精细分类准确率。
背景技术
文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。
传统的文本分类方法,通常对类别间区别较为明显的长文档进行分类,譬如网页内容分类(体育、新闻、财经和军事等)。然而在某些特定领域,如公安的接警信息自动化分类、微博情感分析等短文档分类中,类别之间的差距十分细微,对文本类别精细程度要求越高,分类的准确性就变得越低。
以朴素贝叶斯算法为例,贝叶斯算法关注的是文档属于某类别的概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计,因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时,在训练阶段的主要任务就是估计这些值。但是,在公安接警信息中,类别之间的差距十分细微,表达文档主题的关键词可能只有1至2个,这样一来其他噪声词汇对分类结果的干扰就十分明显。特别是,随着分类精细程度的提高,如将盗窃案细分为撬门入户盗窃案、溜门入户盗窃案、插门入户盗窃案等等,此时,分类的准确率将急剧下降,远远无法满足实际应用的需要。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种文本精细分类方法,以解决短文档精细类别划分准确率低的问题,显著提高精细分类的准确率。
按照本发明的一个方面,提供了一种文本精细分类方法,包括两级分类器构造步骤、词向量预处理步骤、敏感词典构建步骤、文本精细分类步骤和评价与反馈步骤,其中:
(1)两级分类器构造步骤:根据应用需求和原始文档集数据分布,将分类器划分为M个一级分类器和N个二级分类器,每个一级分类器Ci都至少包含一个以上的二级分类器Cj,每个二级分类器都从属于某个一级分类器;其中N>=M;i=1,...,M;j=1,...,N;
(2)词向量预处理步骤:对分类器的训练样本进行词向量的预处理,包括对分类器的训练样本执行中文分词、去除专用停顿词和同义词网映射;
(3)敏感词典构建步骤:通过对预处理后得到的词向量进行特征选择和人工标注相结合方式,分别为每一个分类器构建独有的敏感词典;
(4)文本精细分类步骤:利用步骤(3)得到各级分类器的敏感词典,输入测试文档,将其与两级分类器进行匹配计算,得到最终的分类结果;
(5)评价与反馈步骤:对步骤(4)得到的分类结果进行评价,并跳转到步骤(3),根据反馈的评价对分类器的敏感词典进行动态优化。
本发明的一个实施例中,所述步骤(1)构建的分类器中,一级分类器Ci和二级分类器Cj,都包含数量不等的训练样本以及自己所独有的敏感词典,一级分类器敏感词典中包含的敏感词,不会在从属于它的二级分类器敏感词典中重复出现。
本发明的一个实施例中,所述步骤(4)中对测试文档进行匹配计算得到最终的分类结果,具体为:
采用步骤(2)中的词向量预处理方法对测试文档进行词向量预处理;采用K最近邻算法,将预处理后得到的词向量T(term1,...,termn...)分别与一级分类器Ci(i=1,...,M)的敏感词典SensWordDicti(i=1,...,M)进行匹配计算,得到最相邻的一级分类器Ct;再次调用KNN算法进行二级分类,将从属于一级分类器Ct的所有二级分类器Cm~Cn,与词向量T再次进行比较,得到最终的二级分类结果Ck
本发明的一个实施例中,所述步骤(3)中构建敏感词典,具体为:
对词向量Termi采用词频-逆向文件频率算法进行特征选择,再通过人工标注对其中间结果进行微调与优化,最终得到分类器Ci的敏感词典SensWordDicti,其中Termi是数据集Di经过预处理后得到的词向量,Di是分类器Ci的样本数据集。
本发明的一个实施例中,所述步骤(2)中的中文分词处理具体为:
采用中科院分词系统ICTCLAS对文本进行分词,根据词性剔除对文本分类无用的词,包括拟声词、副词、介词和连词。
本发明的一个实施例中,所述步骤(2)中的去除专用停顿词处理具体为:
根据应用场景和原始文档集特点,去除出现频率非常高但对分类无用的领域专用停顿词。
本发明的一个实施例中,所述步骤(2)中的同义词网映射处理具体为:利用Wordnet进行同义词消岐。
按照本发明的另一方面,还提供了一种文本精细分类系统,所述系统包括两级分类器构造模块、词向量预处理模块、敏感词典构建模块、文本精细分类模块和评价与反馈模块,其中:
所述两级分类器构造模块,用于根据应用需求和原始文档集数据分布,将分类器划分为M个一级分类器和N个二级分类器,每个一级分类器Ci都至少包含一个以上的二级分类器Cj,每个二级分类器都从属于某个一级分类器;其中N>=M;i=1,...,M;j=1,...,N;
所述词向量预处理模块,用于对分类器的训练样本进行词向量的预处理,包括对分类器的训练样本执行中文分词、去除专用停顿词和同义词网映射;
所述敏感词典构建模块,用于通过对预处理后得到的词向量进行特征选择和人工标注相结合的方式,为每一个分类器构建独有的敏感词典。
所述文本精细分类模块,用于根据敏感词典构建模块得到的各级分类器的敏感词典,输入测试文档,将其与两级分类器进行匹配计算,得到最终的分类结果;
所述评价与反馈模块,用于对文本精细分类模块得到的分类结果进行评价,并跳转到敏感词典构建模块,根据反馈的评价对分类器的敏感词典进行动态优化。
本发明的一个实施例中,所述文本精细分类模块具体用于,对经过词向量预处理的测试文档,采用K最近邻算法,将预处理后得到的词向量T(term1,...,termn...)分别与一级分类器Ci(i=1,...,M)的敏感词典SensWordDicti(i=1,...,M)进行匹配计算,得到最相邻的一级分类器Ct;再次调用KNN算法进行二级分类,将从属于一级分类器Ct的所有二级分类器Cm~Cn,与词向量T再次进行比较,得到最终的二级分类结果Ck
本发明的一个实施例中,所述文敏感词典构建模块具体用于,对词向量Termi采用词频-逆向文件频率算法进行特征选择,再通过人工标注对其中间结果进行微调与优化,最终得到分类器Ci的敏感词典SensWordDicti,其中Termi是数据集Di经过预处理后得到的词向量,Di是分类器Ci的样本数据集。
本发明首先根据已知训练样本,构造两级分类器,每一级分类器都包含独立的敏感词典;其次,对分类器的训练样本执行分词、去除专用停顿词、同义词网映射等操作,实现词向量的预处理;再次,根据词向量的重要性差异进行特征选择,构建分类器的敏感词典;再次,利用KNN算法计算目标文档的精细分类结果;最后,对分类结果进行评价与反馈,动态优化敏感词典,进一步提高分类准确率。实验证明,针对短文档,采用本文的文本精细分类方法,可以显著提高精细分类的准确率。
附图说明
图1为本发明文本精细分类方法的流程示意图;
图2为本发明实施例中两级分类器的体系架构图;
图3为本发明实施例中词向量预处理的流程示意图;
图4为本发明实施例中精细分类的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明所提供的文本精细分类方法,包括两级分类器构造步骤、词向量预处理步骤、敏感词典构建步骤、文本精细分类步骤和评价与反馈步骤,具体地:
(1)两级分类器构造步骤:
如图2所示,根据应用需求和原始文档集数据分布,将分类器划分为M个一级分类器和N个二级分类器(N>=M),每个一级分类器Ci(i=1,...,M)都至少包含一个以上的二级分类器Cj(j=1,...,N),每个二级分类器都从属于某个一级分类器。
无论是一级分类器Ci,还是二级分类器Cj,都包含数量不等的训练样本以及自己所独有的敏感词典。一级分类器敏感词典中包含的敏感词,不会在从属于它的二级分类器敏感词典中重复出现。
(2)词向量预处理步骤:
在构建分类器的敏感字典之前,需要先对分类器的训练样本进行词向量的预处理,以提高敏感词提取的准确性和效率。
词向量的预处理方法,如图3所示,主要包括对分类器的训练样本执行分词、去除专用停顿词和同义词网映射。
中文分词:采用中科院分词系统ICTCLAS对文本进行分词,根据词性剔除对文本分类无用的词,例如拟声词、副词、介词和连词等。
去除专用停顿词:根据应用场景和原始文档集特点,去除出现频率非常高但对分类无用的领域专用停顿词,如“犯罪嫌疑人”、“受害人”、“价值”、“报案”等公安领域专用停顿词。
同义词网映射:利用Wordnet进行同义词消岐。如将“盗窃”、“偷窃”、“窃取”统一映射为“盗窃”,这样,在接下来的敏感词提取中可以进一步提高准确性,避免表述差异导致的文本分类误差。
(3)敏感词典构建步骤:
为每一个分类器构建独有的敏感词典,主要是通过对预处理后得到的词向量进行特征选择和人工标注相结合。
分类器Ci的样本数据集是Di,经过预处理后得到词向量Termi,采用词频-逆向文件频率(Term Grequency–Inverse Document Frequency,TF-IDF)算法进行特征选择,再通过人工标注对其中间结果进行微调与优化,最终得到分类器Ci的敏感词典SensWordDicti
(4)文本精细分类步骤:
经过步骤(3)后,得到各级分类器的敏感词典,此时,就可以输入测试文档,将其与各级分类器进行匹配计算,得到最终的分类结果。具体的匹配计算过程如下:
首先,对测试文档进行词向量预处理,过程与步骤(2)相同;其次,采用K最近邻(k-Nearest Neighbor,kNN)算法,将预处理后得到的词向量T(term1,...,termn...)分别与一级分类器Ci(i=1,...,M)的敏感词典SensWordDicti(i=1,...,M)进行匹配计算,得到最相邻的一级分类器Ct;再次调用KNN算法进行二级分类,将从属于一级分类器Ct的所有二级分类器Cm~Cn,与词向量T再次进行比较,得到最终的二级分类结果Ck
(5)评价与反馈步骤:
如图4所示,对步骤(4)得到的分类结果进行评价,评价方法既可以采用人工识别,也可以利用已知类别的训练样本进行自动评价。将评价结果反馈给系统,并跳转到步骤(3),系统将根据反馈信息对分类器的敏感词典进行动态优化,随着系统的不断运行,文本分类的准确率也会不断提升。
本发明首先根据已知训练样本,构造两级分类器,每一级分类器都包含独立的敏感词典;其次,对分类器的训练样本执行分词、去除专用停顿词、同义词网映射等操作,实现词向量的预处理;再次,根据词向量的重要性差异进行特征选择,构建分类器的敏感词典;再次,利用KNN算法计算目标文档的精细分类结果;最后,对分类结果进行评价与反馈,动态优化敏感词典,进一步提高分类准确率。实验证明,针对短文档,采用本文的文本精细分类方法,可以显著提高精细分类的准确率。
本发明要求每一个二级分类器Cj(j=1,...,N)都要从属于某个一级分类器Ci(i=1,...,M),N>=M。本发明适用于短文档的精细类别划分,不适用于长文档的文本分类。
进一步地,本发明还提供了一种文本精细分类系统,所述系统包括两级分类器构造模块、词向量预处理模块、敏感词典构建模块、文本精细分类模块和评价与反馈模块,其中:
所述两级分类器构造模块,用于根据应用需求和原始文档集数据分布,将分类器划分为M个一级分类器和N个二级分类器,每个一级分类器Ci都至少包含一个以上的二级分类器Cj,每个二级分类器都从属于某个一级分类器;其中N>=M;i=1,...,M;j=1,...,N;
所述词向量预处理模块,用于对分类器的训练样本进行词向量的预处理,包括对分类器的训练样本执行中文分词、去除专用停顿词和同义词网映射;
所述敏感词典构建模块,用于通过对预处理后得到的词向量进行特征选择和人工标注相结合的方式,为每一个分类器构建独有的敏感词典。
具体地,所述敏感词典构建模块,用于对词向量Termi采用词频-逆向文件频率算法进行特征选择,再通过人工标注对其中间结果进行微调与优化,最终得到分类器Ci的敏感词典SensWordDicti,其中Termi是数据集Di经过预处理后得到的词向量,Di是分类器Ci的样本数据集。
所述文本精细分类模块,用于根据敏感词典构建模块得到的各级分类器的敏感词典,输入测试文档,将其与两级分类器进行匹配计算,得到最终的分类结果;
具体地,所述文本精细分类模块具体用于,对经过词向量预处理的测试文档,采用K最近邻算法,将预处理后得到的词向量T(term1,...,termn...)分别与一级分类器Ci(i=1,...,M)的敏感词典SensWordDicti(i=1,...,M)进行匹配计算,得到最相邻的一级分类器Ct;再次调用KNN算法进行二级分类,将从属于一级分类器Ct的所有二级分类器Cm~Cn,与词向量T再次进行比较,得到最终的二级分类结果Ck
所述评价与反馈模块,用于对文本精细分类模块得到的分类结果进行评价,并跳转到敏感词典构建模块,根据反馈的评价对分类器的敏感词典进行动态优化。
下面结合一个公安接警信息分类的实例,来说明本发明方法,所述方法包括两级分类器构造步骤、词向量预处理步骤、敏感词典构建步骤、文本精细分类步骤和评价与反馈步骤。具体地:
(1)两级分类器构造步骤:
根据原始文档集构造两级分类器,一级分类器Ci(i=1,2),二级分类器C’j(j=1,...,5)。其中一级分类器包含盗窃与诈骗两个类别;盗窃又包含了拎包盗窃、电动车盗窃和撬门入户盗窃三个二级分类器,而诈骗包含了网络诈骗和信用卡诈骗两个二级分类器。
无论是一级分类器Ci,还是二级分类器C’j,都包含数量不等的训练样本,分别是100、105、40、45、30、50、35个。同时,每个分类器都具有独立的敏感词典。一级分类器敏感词典中包含的敏感词,不会在从属于它的二级分类器敏感词典中重复出现。例如,一级分类器盗窃的敏感词典中含有关键词“盗窃”、“被盗”等关键词,这些关键词不会在从属于它的二级分类器敏感词典中重复出现,如撬门入户盗窃中的关键词是“撬门”、“入户”等。
(2)词向量预处理步骤:
对分类器执行词向量的预处理方法,主要包括对分类器的训练样本执行分词、去除专用停顿词和同义词网映射。例如,对盗窃类的某一个训练样本执行分词后得到词向量(2003年、受害人、被、拎包、盗取、损失、金额、2000元);根据词性剔除对文本分类无用的副词、介词等,得到词向量(受害人、拎包、盗取、损失、金额);去除公安专用停顿词后,得到词向量(拎包、盗取、损失);经过同义词网映射后,将“盗取”映射为“盗窃”,得到词向量(拎包、盗窃、损失)。
(3)敏感词典构建步骤:
为每一个分类器构建独有的敏感词典,主要是通过对预处理后得到的词向量进行特征选择和人工标注相结合。例如,采用TF-IDF算法对二级分类器信用卡诈骗的词向量(诈骗、信用卡、冒用、透支、损失、万元)进行特征选择,本类别中出现频率越高的词权重越大,所有类别中出现频率越高的词权重越小,经过筛选后得到信用卡诈骗的敏感词典为(诈骗、信用卡、冒用、透支);由于关键词“诈骗”属于一级分类器诈骗的关键词,所以,通过人工标注后,我们将其移除,最终得到二级分类器信用卡诈骗的敏感词典为(信用卡、冒用、透支)。
(4)文本精细分类步骤:
经过步骤(3)后,得到各级分类器的敏感词典:盗窃(盗窃、扒窃)、诈骗(诈骗、欺诈)、拎包盗窃(拎包)、电动车盗窃(电动车)、撬门入户盗窃(撬门、入户)、网络诈骗(网上、购物)、信用卡诈骗(信用卡、冒用、透支)。
此时,输入测试文档“2004年接武汉市工商银行牡丹支行报案称:李XX恶意诈骗,用工行贷记卡透支7905元,经多方催缴仍未归还。”,对测试文档进行预处理后得到词向量(恶意、诈骗、贷记卡、透支、催缴)。
首先,采用KNN算法将测试文档的词向量与一级分类器盗窃和诈骗的敏感词典进行匹配计算,发现测试文档属于诈骗的概率大于盗窃的概率,初步判断测试文档为诈骗案。
然后,再次调用KNN算法,将测试文档与一级分类器诈骗类别下的二级分类器网络诈骗和信用卡诈骗分别进行匹配计算,发现测试文档属于信用卡诈骗的概率大于网络诈骗的概率,因此,判断该测试文档属于信用卡诈骗案。
(5)评价与反馈步骤:
对步骤(4)得到的分类结果进行评价,通过人工识别发现该测试文档确实属于信用卡诈骗类别,将评价结果反馈给系统,并跳转到步骤(3),系统将根据反馈信息对分类器的敏感词典进行动态优化,将(贷记卡、催缴)添加到信用卡诈骗的敏感词典中,随着系统的不断运行,文本分类的准确率也会不断提升。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本精细分类方法,其特征在于,包括两级分类器构造步骤、词向量预处理步骤、敏感词典构建步骤、文本精细分类步骤和评价与反馈步骤,其中:
(1)两级分类器构造步骤:根据应用需求和原始文档集数据分布,将分类器划分为M个一级分类器和N个二级分类器,每个一级分类器Ci都至少包含一个以上的二级分类器Cj,每个二级分类器都从属于某个一级分类器;其中N>=M;i=1,...,M;j=1,...,N;
(2)词向量预处理步骤:对分类器的训练样本进行词向量的预处理,包括对分类器的训练样本执行中文分词、去除专用停顿词和同义词网映射;
(3)敏感词典构建步骤:通过对预处理后得到的词向量进行特征选择和人工标注相结合方式,分别为每一个分类器构建独有的敏感词典;
(4)文本精细分类步骤:利用步骤(3)得到各级分类器的敏感词典,输入测试文档,将其与两级分类器进行匹配计算,得到最终的分类结果;
(5)评价与反馈步骤:对步骤(4)得到的分类结果进行评价,并跳转到步骤(3),根据反馈的评价对分类器的敏感词典进行动态优化。
2.如权利要求1所述的文本精细分类方法,其特征在于,所述步骤(1)构建的分类器中,一级分类器Ci和二级分类器Cj,都包含数量不等的训练样本以及自己所独有的敏感词典,一级分类器敏感词典中包含的敏感词,不会在从属于它的二级分类器敏感词典中重复出现。
3.如权利要求1或2所述的文本精细分类方法,其特征在于,所述步骤(4)中对测试文档进行匹配计算得到最终的分类结果,具体为:
采用步骤(2)中的词向量预处理方法对测试文档进行词向量预处理;采用K最近邻算法,将预处理后得到的词向量T(term1,...,termn...)分别与一级分类器Ci(i=1,...,M)的敏感词典SensWordDicti(i=1,...,M)进行匹配计算,得到最相邻的一级分类器Ct;再次调用KNN算法进行二级分类,将从属于一级分类器Ct的所有二级分类器Cm~Cn,与词向量T再次进行比较,得到最终的二级分类结果Ck
4.如权利要求1或2所述的文本精细分类方法,其特征在于,所述步骤(3)中构建敏感词典,具体为:
对词向量Termi采用词频-逆向文件频率算法进行特征选择,再通过人工标注对其中间结果进行微调与优化,最终得到分类器Ci的敏感词典SensWordDicti,其中Termi是数据集Di经过预处理后得到的词向量,Di是分类器Ci的样本数据集。
5.如权利要求1或2所述的文本精细分类方法,其特征在于,所述步骤(2)中的中文分词处理具体为:
采用中科院分词系统ICTCLAS对文本进行分词,根据词性剔除对文本分类无用的词,包括拟声词、副词、介词和连词。
6.如权利要求1或2所述的文本精细分类方法,其特征在于,所述步骤(2)中的去除专用停顿词处理具体为:
根据应用场景和原始文档集特点,去除出现频率非常高但对分类无用的领域专用停顿词。
7.如权利要求1或2所述的文本精细分类方法,其特征在于,所述步骤(2)中的同义词网映射处理具体为:利用Wordnet进行同义词消岐。
8.一种文本精细分类系统,其特征在于,所述系统包括两级分类器构造模块、词向量预处理模块、敏感词典构建模块、文本精细分类模块和评价与反馈模块,其中:
所述两级分类器构造模块,用于根据应用需求和原始文档集数据分布,将分类器划分为M个一级分类器和N个二级分类器,每个一级分类器Ci都至少包含一个以上的二级分类器Cj,每个二级分类器都从属于某个一级分类器;其中N>=M;i=1,...,M;j=1,...,N;
所述词向量预处理模块,用于对分类器的训练样本进行词向量的预处理,包括对分类器的训练样本执行中文分词、去除专用停顿词和同义词网映射;
所述敏感词典构建模块,用于通过对预处理后得到的词向量进行特征选择和人工标注相结合的方式,为每一个分类器构建敏感词典;
所述文本精细分类模块,用于根据敏感词典构建模块得到的各级分类器的敏感词典,输入测试文档,将其与两级分类器进行匹配计算,得到最终的分类结果;
所述评价与反馈模块,用于对文本精细分类模块得到的分类结果进行评价,并跳转到敏感词典构建模块,根据反馈的评价对分类器的敏感词典进行动态优化。
9.如权利要求8所述的文本精细分类方法,其特征在于,所述文本精细分类模块具体用于,对经过词向量预处理的测试文档,采用K最近邻算法,将预处理后得到的词向量T(term1,...,termn...)分别与一级分类器Ci(i=1,...,M)的敏感词典SensWordDicti(i=1,...,M)进行匹配计算,得到最相邻的一级分类器Ct;再次调用KNN算法进行二级分类,将从属于一级分类器Ct的所有二级分类器Cm~Cn,与词向量T再次进行比较,得到最终的二级分类结果Ck
10.如权利要求8或9所述的文本精细分类方法,其特征在于,所述文敏感词典构建模块具体用于,对词向量Termi采用词频-逆向文件频率算法进行特征选择,再通过人工标注对其中间结果进行微调与优化,最终得到分类器Ci的敏感词典SensWordDicti,其中Termi是数据集Di经过预处理后得到的词向量,Di是分类器Ci的样本数据集。
CN201510239027.0A 2015-05-12 2015-05-12 一种文本精细分类方法 Pending CN104820703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510239027.0A CN104820703A (zh) 2015-05-12 2015-05-12 一种文本精细分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510239027.0A CN104820703A (zh) 2015-05-12 2015-05-12 一种文本精细分类方法

Publications (1)

Publication Number Publication Date
CN104820703A true CN104820703A (zh) 2015-08-05

Family

ID=53730998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510239027.0A Pending CN104820703A (zh) 2015-05-12 2015-05-12 一种文本精细分类方法

Country Status (1)

Country Link
CN (1) CN104820703A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN107506475A (zh) * 2017-09-08 2017-12-22 国网辽宁省电力有限公司 一种基于Spark的海量电力客服文本分类方法
CN108804669A (zh) * 2018-06-08 2018-11-13 国家计算机网络与信息安全管理中心 一种基于意图理解技术的诈骗电话检出方法
CN109308317A (zh) * 2018-09-07 2019-02-05 浪潮软件股份有限公司 一种基于聚类的非结构化文本的热点词提取方法
CN109784368A (zh) * 2018-12-11 2019-05-21 同盾控股有限公司 一种应用程序分类的确定方法和装置
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法
CN110175238A (zh) * 2019-05-31 2019-08-27 杭州网易再顾科技有限公司 舆情分类方法、介质、装置和计算设备
CN110413789A (zh) * 2019-07-31 2019-11-05 广西师范大学 一种基于svm的习题自动分类方法
CN110704610A (zh) * 2019-05-15 2020-01-17 北京信息科技大学 体育新闻战报主题分类方法
CN110825850A (zh) * 2019-11-07 2020-02-21 哈尔滨工业大学(深圳) 一种自然语言主题分类方法及装置
CN111259158A (zh) * 2020-02-25 2020-06-09 北京松果电子有限公司 一种文本分类方法、装置及介质
CN112134920A (zh) * 2020-08-12 2020-12-25 新华三技术有限公司 一种文件识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法
EP2757493A2 (en) * 2013-01-22 2014-07-23 Maluuba Inc. Natural language processing method and system
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法
CN104361037A (zh) * 2014-10-29 2015-02-18 国家计算机网络与信息安全管理中心 微博分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法
EP2757493A2 (en) * 2013-01-22 2014-07-23 Maluuba Inc. Natural language processing method and system
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法
CN104361037A (zh) * 2014-10-29 2015-02-18 国家计算机网络与信息安全管理中心 微博分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
勇凤伟: "面向互联网的中文问题分类技术研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *
吴克贤: "基于分类的文本内容判别方法研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN107506475A (zh) * 2017-09-08 2017-12-22 国网辽宁省电力有限公司 一种基于Spark的海量电力客服文本分类方法
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法
CN108804669A (zh) * 2018-06-08 2018-11-13 国家计算机网络与信息安全管理中心 一种基于意图理解技术的诈骗电话检出方法
CN109308317A (zh) * 2018-09-07 2019-02-05 浪潮软件股份有限公司 一种基于聚类的非结构化文本的热点词提取方法
CN109784368A (zh) * 2018-12-11 2019-05-21 同盾控股有限公司 一种应用程序分类的确定方法和装置
CN110704610A (zh) * 2019-05-15 2020-01-17 北京信息科技大学 体育新闻战报主题分类方法
CN110175238A (zh) * 2019-05-31 2019-08-27 杭州网易再顾科技有限公司 舆情分类方法、介质、装置和计算设备
CN110413789A (zh) * 2019-07-31 2019-11-05 广西师范大学 一种基于svm的习题自动分类方法
CN110825850A (zh) * 2019-11-07 2020-02-21 哈尔滨工业大学(深圳) 一种自然语言主题分类方法及装置
CN110825850B (zh) * 2019-11-07 2022-07-08 哈尔滨工业大学(深圳) 一种自然语言主题分类方法及装置
CN111259158A (zh) * 2020-02-25 2020-06-09 北京松果电子有限公司 一种文本分类方法、装置及介质
CN111259158B (zh) * 2020-02-25 2023-06-02 北京小米松果电子有限公司 一种文本分类方法、装置及介质
CN112134920A (zh) * 2020-08-12 2020-12-25 新华三技术有限公司 一种文件识别方法及装置

Similar Documents

Publication Publication Date Title
CN104820703A (zh) 一种文本精细分类方法
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN108875049A (zh) 文本聚类方法及装置
CN103218405A (zh) 基于维数约简的集成迁移文本分类方法
CN109492219A (zh) 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN110226179A (zh) 通过神经网络整合情境信息来自动检测支付交易流中的欺诈
CN111353050A (zh) 一种电信客服垂直领域的词库构建方法及工具
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
CN109726918A (zh) 基于生成式对抗网络和半监督学习的个人信用确定方法
CN107229614A (zh) 用于分类数据的方法和装置
Pramanik et al. A study on the effect of CNN-based transfer learning on handwritten Indic and mixed numeral recognition
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
Karwa et al. Automated hybrid Deep Neural Network model for fake news identification and classification in social networks
CN106844596A (zh) 一种基于改进的svm中文文本分类方法
Mandivarapu et al. Efficient document image classification using region-based graph neural network
Thakur et al. MYTHYA: fake news detector, real time news extractor and classifier
Schulz et al. Evaluating multi-label classification of incident-related tweets
Jain et al. Review on analysis of classifiers for fake news detection
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN104573003B (zh) 基于新闻主题信息检索的金融时间序列预测方法
Wang et al. Text length considered adaptive bagging ensemble learning algorithm for text classification
Zeng et al. Using cost-sensitive ranking loss to improve distant supervised relation extraction
Jen et al. Predicting conference paper acceptance
Ba Alawi et al. Yemeni Paper Currency Recognition System Using Deep Learning Approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zheng Sheng

Inventor after: Xu Tao

Inventor after: Zhang Sheng

Inventor after: Zou Fuhao

Inventor after: Jiang Dan

Inventor after: Xia Ming

Inventor after: Zhou Ke

Inventor before: Zheng Sheng

Inventor before: Zhang Sheng

Inventor before: Zou Fuhao

Inventor before: Jiang Dan

Inventor before: Xia Ming

Inventor before: Zhou Ke

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication

Application publication date: 20150805

RJ01 Rejection of invention patent application after publication