CN106095996B - 用于文本分类的方法 - Google Patents
用于文本分类的方法 Download PDFInfo
- Publication number
- CN106095996B CN106095996B CN201610457431.XA CN201610457431A CN106095996B CN 106095996 B CN106095996 B CN 106095996B CN 201610457431 A CN201610457431 A CN 201610457431A CN 106095996 B CN106095996 B CN 106095996B
- Authority
- CN
- China
- Prior art keywords
- feature
- text
- word
- words
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用于文本分类的方法,所述方法包括:获取预先标注好类别的文本集合作为训练样本,对训练样本中的文本进行预处理,得到训练用特征词集合;提取特征词,获得特征词典;由特征词典生成训练样本中各文本的特征向量,并获取训练样本的特征向量集;利用特征向量集训练SVM分类器;对待分类的文本进行预处理,得到待分类文本的特征词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到待分类文本的类别。
Description
技术领域
本发明涉及数据分类技术领域,尤其涉及一种用于文本分类的方法。
背景技术
文本信息是一种广泛存在于各个领域的数据,使用分类模型对文本进行分类有着广阔的应用市场。文本分类时,特征提取的优劣对分类准确率有着极大的影响。如果将所有词都作为特征词会造成两方面不利影响:1.特征维度过高并且稀疏;2.很多词普遍存在于各个类别,区分性不强,如果这些词作为特征,将会降低分类效果。因此,需要对文本进行特征词的选择。考虑到各个领域的特征词并不一样,因此并无通用的特征词,常用方法是通过领域专家进行特征词挑选。采用领域专家进行挑选的方法比较耗费人力,并且提取出来的特征词依赖于领域专家的主观意愿,不同专家会得到不同的结果,这对后续的工作将产生不利的影响。
随着大数据的发展,机器学习得到了越来越多的应用。本发明提供了一种文本分类方法,其中采用了基于机器学习进行特征自动提取的方法,该方法无需领域专家参与即可快速完成对文本特征词的提取,并用提取出来的特征词构建特征向量,用于文本的分类。
发明内容
鉴于上述的分析,本发明旨在提供一种文本分类方法,用以解决现有文本分类方法,需要领域专家参与,易受到人为主观认识的影响,导致分类准确率不高的问题。
为了实现本发明的目的,提出了一种用于文本分类的方法,包括以下步骤:
步骤1.获取预先标注好类别的文本集合作为训练样本,该训练样本有n+1个类别,其中1至n为有效类、第n+1类为无效类,n≥1;
步骤2.对训练样本中的文本进行预处理,得到训练用特征词集合;对该集合中有效类的特征词进行提取,再结合无效类的全部特征词,得到特征词典;由特征词典生成训练样本中各文本的特征向量,并获取训练样本的特征向量集;
步骤3.利用特征向量集训练SVM分类器;
步骤4.获取待分类的文本,对待分类的文本进行预处理,得到待分类文本的特征词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到待分类文本类别。
其中,步骤2和步骤4中的预处理,包括分词处理,具体步骤为:使用分词工具对文本进行分词,获得文本词集;
其中,对中文文本采用中文分词器;对英文文本,使用空格分词,且英文分词完成后,使用词干提取的方式归一化时态和单复数。
预处理还可以包括停用词、同义词处理,具体为:使用预先建立的停用词表处理分词结果,剔除停用词;使用预先建立的同义词表替换同义词。
步骤2中的特征词提取进一步包括步骤:
S21.计算特征词的TF-IDF值;其中TF-IDF值为TF×IDF,TF表示指定类中具体词的词频,IDF是指反文档频率,IDF=log(D/n),式中n表示词出现的文档数,D为总文档数;
S22.将特征词按对应的TF-IDF值从高到低进行排序;
S23.提取排序后的前N个特征词,N≥1。
上述N的确定可以采用下述步骤:根据排序结果,依次用当前词的TF-IDF值减去下一个词的TF-IDF值,记为当前值的差值,选取差值最大的词为选取点,即差值最大的词为第N个词。
步骤3中根据特征词典生成待分类文本的特征向量的步骤,进一步包括:将待分类文本的特征词集与特征词典进行比较,根据以下规则对特征向量进行重新赋值,获得待分类文本的特征向量;所述规则为:若特征词典中的词出现在待分类文本的特征词集中,则获取该特征词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的词没有出现在待分类文本的特征词集中,则该特征词相应位置的特征值为0。
本发明有益效果如下:采用提取特征词、构建特征字典、训练分类器的方式,实现了特征词的自动提取和文本的自动分类;通过以TF-IDF值之间的差值作为特征词选取依据,能选取合适数量的特征词,降低特征词的维度,进而加快文本分类的速度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为文本分类方法的流程示意图;
图2为特征词提取的示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本发明的一个具体实施例,公开了一种针对快递评论的文本分类的方法,具体包括如下步骤:
随机获取网络中有关快递评论的数据作为文本集合,由多位工作人员对文本集合中的各个快递评论标注类别,分别标记为很快、快、慢、很慢、无效这5个类别。统计标记结果后,根据每条快递评论标记类别的多少,确定其最终类别。再按照训练样本:测试集=10:1的比例随机分割标注好的文本集合,得到标注好的训练样本和测试集。其中,无效类是指那些不属于任何所需的类别(即与快递评价无关的文本集合),也可以作为拒绝类。无效类不参与特征词提取的过程,仅作为分类时的类别,参与分类器的训练。
S1.获取上述标注好类别的训练样本,该训练样本有5个类别,其中1至4为有效类(很快、快、慢、很慢)、第5类为无效类。
S2.对训练样本中的文本进行预处理,预处理包括分词、停用词和同义词处理,得到训练用特征词集合,具体包括下述步骤:
S21.使用分词工具对训练样本中的每条文本进行分词,获得训练样本的文本词集。如果文本是中文,则采用中文分词器;如果是英文,则使用空格进行分词,且在英文分词完成后使用词干提取的方式归一化时态和单复数。
具体地,可以采用ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System,汉语词法分析系统)和IK Analyzer(IK分词器)等分词工具作为中文分词器。
S22.使用预先建立的停用词表对分词结果进行处理,剔除停用词,获取训练样本中各个类别的原始特征词集合。
其中,对分词结果进行的处理包括去除没有实际意义的字或者词,如“的、了、不但、而且、虽然、但是”等,以及一些生僻字和特殊符号。
S23.使用预先建立的同义词表对原始特征词集合中的同义词进行替换,使得所有同义词均用一个词来表示,得到训练用特征词集合。
S3.对训练用特征词集合中有效类的特征词进行特征选择,再结合无效类的全部特征词,得到特征词典。特征词提取得过多,会造成特征维度过高,不利于分类器的训练,因此核心问题就是提取合适数量的特征词。
特征词提取具体包括如下步骤:
S31.对训练用特征词集合中的所有词计算TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆文本率)值。
其中,TF-IDF值为TF×IDF,TF是指词频,表示指定类中具体词的词频;IDF是指反文档频率,IDF=log(D/n),式中n表示该词出现的文档数,D为总文档数。TF值越高,表明该词越能代表该类的特征;而IDF即log(D/n)越低,则说明该词普遍存在于各个文档,因此区分能力较弱。综合TF和IDF的特点,本发明使用TF×IDF作为词的区分性指标,记为TF-IDF。TF-IDF越大,排序越靠前,说明该词的类别区分性越强。
S32.将每一有效类中的词按对应的TF-IDF值从高到低进行排序,依次用当前词的TF-IDF值减去下一个词的TF-IDF值,记为当前值的差值,选取差值最大的词为选取点,选取该词前面(包括该词)的所有词为该有效类别的特征词,再结合无效类的全部特征词,得到特征词典。由于每一个有效类中,经过步骤S31已经排好序,当前词的TF-IDF值肯定大于等于下一个词的值,故差值大于等于0。差值越大则说明两个特征词之间的分类能力差别越大,即前一个词的分类能力明显大于后面的词。因此,利用差值作为特征词选取依据,能选取合适数量的特征词。
S4.由特征词典生成训练样本中文本的特征向量,并获取训练样本的特征向量集,其中特征向量的值是TF-IDF值。
S5.利用特征向量集训练SVM分类器,得到经过训练的SVM分类器。
S6.获取待分类的文本,该文本可以是来源于互联网的快递评论。
S7.对待分类的文本进行预处理,得到待分类文本的特征词集;其中,预处理包括分词、停用词和同义词处理,具体包括下述步骤
S71.使用分词工具对待分类文本进行分词,获得待分类文本的文本词集,其中分词方法同步骤S21;
S72.使用停用词表对分词后得到的文本词集进行处理,剔除停用词,所述停用词表与步骤S22中使用的相同。
S73.使用同义词表对停用词处理后的文本词集中的同义词进行替换,使得所有同义词均用一个词来表示。所述同义词表与步骤S23中使用的相同。
S8.根据特征词典生成待分类文本的特征向量。具体地:将待分类文本的特征词集与步骤S3中的特征词典进行比较,根据以下规则对S3中的特征向量进行重新赋值,获得待分类文本的特征向量。若特征词典中的词出现在待分类文本的特征词集中,则获取该词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的词没有出现在待分类文本的特征词集中,则该词相应位置的特征值为0。由此生成待分类文本的特征向量。
S9.将待分类文本的特征向量输入经过训练的SVM分类器,得到待分类文本的类别。
本实施例将测试集作为待分类的文本集合,经过步骤S7-S9,预测测试集中文本的类别。分类结果与人工选定关键词方法进行比对,比较结果如下:
实验结果表明,本发明所提出的特征提取方法在分类效果上优于人工挑选关键词的方式,并且分类速度快,实现了自动分类,无需领域专家参与,不受专家主观认识的影响。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种用于文本分类的方法,其特征在于,包括以下步骤:
步骤1.获取预先标注好类别的网络中有关快递评论的数据作为训练样本,该训练样本有n+1个类别,其中1至n为有效类、第n+1类为无效类,n≥1;
步骤2.对训练样本中的文本进行预处理,得到训练用特征词集合;对该集合中有效类的特征词进行提取,再结合无效类的全部特征词,得到特征词典;由特征词典生成训练样本中各文本的特征向量,并获取训练样本的特征向量集;
有效类的特征词提取进一步包括:
S21.计算特征词的TF-IDF值;其中TF-IDF值为TF×IDF,TF表示指定类中具体词的词频,IDF是指反文档频率,IDF=log(D/n),式中n表示词出现的文档数,D为总文档数;
S22.将特征词按对应的TF-IDF值从高到低进行排序;
S23.提取排序后的前N个特征词,N≥1;
步骤S23中N的确定步骤如下:根据排序结果,依次用当前词的TF-IDF值减去下一个词的TF-IDF值,记为当前值的差值,选取差值最大的词为选取点,即差值最大的词为第N个词;
步骤3.利用特征向量集训练SVM分类器,得到经过训练的SVM分类器;
步骤4.获取待分类的文本,对待分类的文本进行预处理,得到待分类文本的特征词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到待分类文本的类别;
上述步骤2和步骤4中的预处理,包括:分词处理,对中文文本采用中文分词器,对英文文本,使用空格分词,且英文分词完成后,使用词干提取的方式归一化时态和单复数;停用词、同义词处理,使用预先建立的停用词表处理分词结果,剔除停用词,使用预先建立的同义词表替换同义词;
上述步骤4中的所述根据特征词典生成待分类文本的特征向量,进一步包括:将待分类文本的特征词集与特征词典进行比较,根据以下规则对特征向量进行重新赋值,获得待分类文本的特征向量,所述规则为:若特征词典中的词出现在待分类文本的特征词集中,则获取该特征词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的词没有出现在待分类文本的特征词集中,则该特征词相应位置的特征值为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610457431.XA CN106095996B (zh) | 2016-06-22 | 2016-06-22 | 用于文本分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610457431.XA CN106095996B (zh) | 2016-06-22 | 2016-06-22 | 用于文本分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106095996A CN106095996A (zh) | 2016-11-09 |
CN106095996B true CN106095996B (zh) | 2020-02-21 |
Family
ID=57237782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610457431.XA Expired - Fee Related CN106095996B (zh) | 2016-06-22 | 2016-06-22 | 用于文本分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095996B (zh) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599072B (zh) * | 2016-11-21 | 2020-07-10 | 东软集团股份有限公司 | 一种文本聚类方法及装置 |
CN106778046A (zh) * | 2017-02-28 | 2017-05-31 | 思派(北京)网络科技有限公司 | 一种基于特征值进行前列腺癌复发预测的系统和方法 |
CN106934223A (zh) * | 2017-02-28 | 2017-07-07 | 思派(北京)网络科技有限公司 | 一种基于大数据的血液病智能分类系统及方法 |
CN106951917A (zh) * | 2017-02-28 | 2017-07-14 | 思派(北京)网络科技有限公司 | 一种淋巴瘤病理类型的智能分类系统和方法 |
CN107102983B (zh) * | 2017-04-20 | 2020-12-04 | 北京工业大学 | 一种基于网络知识源的中文概念的词向量表示方法 |
CN108733733B (zh) * | 2017-04-21 | 2022-03-08 | 为朔生物医学有限公司 | 基于机器学习的生物医学文本分类方法、系统和存储介质 |
CN107092679B (zh) * | 2017-04-21 | 2020-01-03 | 北京邮电大学 | 一种特征词向量获得方法、文本分类方法及装置 |
CN108959236B (zh) * | 2017-05-19 | 2021-11-09 | 百度在线网络技术(北京)有限公司 | 医学文献分类模型训练方法、医学文献分类方法及其装置 |
CN110019792A (zh) * | 2017-10-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 文本分类方法及装置和分类器模型训练方法 |
CN107862051A (zh) * | 2017-11-08 | 2018-03-30 | 郑州云海信息技术有限公司 | 一种文件分类方法、系统及一种文件分类设备 |
CN107833603B (zh) * | 2017-11-13 | 2021-03-23 | 医渡云(北京)技术有限公司 | 电子病历文档分类方法、装置、电子设备及存储介质 |
CN110020420B (zh) * | 2018-01-10 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN108427720B (zh) * | 2018-02-08 | 2020-12-29 | 中国科学院计算技术研究所 | 系统日志分类方法 |
CN108520030B (zh) * | 2018-03-27 | 2022-02-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
CN110362815A (zh) * | 2018-04-11 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 文本向量生成方法和装置 |
CN108898274A (zh) * | 2018-05-30 | 2018-11-27 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志缺陷分类方法 |
CN109101534A (zh) * | 2018-06-26 | 2018-12-28 | 珠海宏桥高科技有限公司 | 一种基于文本规则的自动文档分发方法和装置 |
CN110895703B (zh) * | 2018-09-12 | 2023-05-23 | 北京国双科技有限公司 | 法律文书案由识别方法及装置 |
CN109670014B (zh) * | 2018-11-21 | 2021-02-19 | 北京大学 | 一种基于规则匹配和机器学习的论文作者名消歧方法 |
US10997403B1 (en) | 2018-12-19 | 2021-05-04 | First American Financial Corporation | System and method for automated selection of best description from descriptions extracted from a plurality of data sources using numeric comparison and textual centrality measure |
US11048711B1 (en) | 2018-12-19 | 2021-06-29 | First American Financial Corporation | System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search |
CN109741190A (zh) * | 2018-12-27 | 2019-05-10 | 清华大学 | 一种个股公告分类的方法、系统及设备 |
CN111597329B (zh) * | 2019-02-19 | 2023-09-19 | 新方正控股发展有限责任公司 | 一种基于多语种的情感分类方法及系统 |
CN110188199A (zh) * | 2019-05-21 | 2019-08-30 | 北京鸿联九五信息产业有限公司 | 一种用于智能语音交互的文本分类方法 |
CN110264318A (zh) * | 2019-06-26 | 2019-09-20 | 拉扎斯网络科技(上海)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN112445910B (zh) * | 2019-09-02 | 2022-12-27 | 上海哔哩哔哩科技有限公司 | 一种信息分类方法及系统 |
CN110717040A (zh) * | 2019-09-18 | 2020-01-21 | 平安科技(深圳)有限公司 | 词典扩充方法及装置、电子设备、存储介质 |
CN110750731B (zh) * | 2019-09-27 | 2023-10-27 | 成都数联铭品科技有限公司 | 针对新闻舆情的去重方法及系统 |
CN113111171A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的处警警情类别确定方法和装置 |
CN113111897A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于支持向量机的接警警情类别确定方法和装置 |
CN113111164A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警文本居住地信息提取方法和装置 |
CN113111895A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于支持向量机的处警警情类别确定方法和装置 |
CN113111170A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警文本轨迹地信息提取方法和装置 |
CN113111169A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接处警文本地址信息提取方法和装置 |
CN113111166A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警警情发生地类型确定方法和装置 |
CN113111172A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接处警文本人物信息提取方法和装置 |
CN113111898A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于支持向量机的车辆类型确定方法和装置 |
CN113111165A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接警警情类别确定方法和装置 |
CN113111174A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的群体识别方法与装置、设备及介质 |
CN113111176A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型作案手段识别方法与装置、设备及介质 |
CN113111175A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型极端行为识别方法与装置、设备及介质 |
CN111597334A (zh) * | 2020-04-30 | 2020-08-28 | 陈韬文 | 电气图纸文本分类方法、系统、装置及介质 |
US11321527B1 (en) | 2021-01-21 | 2022-05-03 | International Business Machines Corporation | Effective classification of data based on curated features |
CN113590556A (zh) * | 2021-07-30 | 2021-11-02 | 中国工商银行股份有限公司 | 一种基于数据库的日志处理方法、装置及设备 |
CN113535964B (zh) * | 2021-09-15 | 2021-12-24 | 深圳前海环融联易信息科技服务有限公司 | 企业分类模型智能构建方法、装置、设备及介质 |
CN113901223B (zh) * | 2021-11-19 | 2024-01-26 | 企查查科技股份有限公司 | 企业分类模型的生成方法、装置、计算机设备、存储介质 |
CN114936376A (zh) * | 2022-06-14 | 2022-08-23 | 中国电信股份有限公司 | 文本定密方法及装置、非易失性存储介质、处理器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN104978328A (zh) * | 2014-04-03 | 2015-10-14 | 北京奇虎科技有限公司 | 一种获取层级分类器以及文本分类的方法及装置 |
CN104978354A (zh) * | 2014-04-10 | 2015-10-14 | 中电长城网际系统应用有限公司 | 文本分类方法和装置 |
-
2016
- 2016-06-22 CN CN201610457431.XA patent/CN106095996B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978328A (zh) * | 2014-04-03 | 2015-10-14 | 北京奇虎科技有限公司 | 一种获取层级分类器以及文本分类的方法及装置 |
CN104978354A (zh) * | 2014-04-10 | 2015-10-14 | 中电长城网际系统应用有限公司 | 文本分类方法和装置 |
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106095996A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095996B (zh) | 用于文本分类的方法 | |
Maynard et al. | Who cares about sarcastic tweets? investigating the impact of sarcasm on sentiment analysis | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
US20170091318A1 (en) | Apparatus and method for extracting keywords from a single document | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN108550054B (zh) | 一种内容质量评估方法、装置、设备和介质 | |
KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
CN110688836A (zh) | 基于监督学习的领域词典自动化构建方法 | |
CN108363691B (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN103902733B (zh) | 基于疑问词扩展的信息检索方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
Hellrich et al. | Exploring diachronic lexical semantics with JeSemE | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
Bandyopadhyay et al. | Analysis of fake news in social medias for four months during lockdown in COVID-19 | |
CN106815209B (zh) | 一种维吾尔文农业技术术语识别方法 | |
CN107480126B (zh) | 一种工程材料类别智能识别方法 | |
CN118113806A (zh) | 一种大模型检索增强生成的可解释事件脉络生成方法 | |
CN108021595B (zh) | 检验知识库三元组的方法及装置 | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN109871889B (zh) | 突发事件下大众心理评估方法 | |
Slingerland et al. | Analysing the impact of legal change through case classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200221 Termination date: 20210622 |
|
CF01 | Termination of patent right due to non-payment of annual fee |