CN105912716A - 一种短文本分类方法及装置 - Google Patents

一种短文本分类方法及装置 Download PDF

Info

Publication number
CN105912716A
CN105912716A CN201610285420.8A CN201610285420A CN105912716A CN 105912716 A CN105912716 A CN 105912716A CN 201610285420 A CN201610285420 A CN 201610285420A CN 105912716 A CN105912716 A CN 105912716A
Authority
CN
China
Prior art keywords
word
short text
classification
probability
generic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610285420.8A
Other languages
English (en)
Other versions
CN105912716B (zh
Inventor
佟玲玲
杜翠兰
钮艳
李鹏霄
易立
段东圣
查奇文
刘晓辉
柳毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201610285420.8A priority Critical patent/CN105912716B/zh
Publication of CN105912716A publication Critical patent/CN105912716A/zh
Application granted granted Critical
Publication of CN105912716B publication Critical patent/CN105912716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种短文本分类方法及装置。该方法包括:对待分类的短文本进行分词预处理,并获取分词得到的每个词语的扩展词;根据预先构建的词项集获取每个词语及其扩展词的权重值;根据权重值,利用多个类别SVM分类模型获取短文本所属每个类别的概率;根据预设的概率分类模型确定短文本的所属类别。本发明所提供的短分本分类方法,克服了短文本特征稀疏的问题,有效降低采用多分类模型的复杂度,更符合实际应用。

Description

一种短文本分类方法及装置
技术领域
本发明涉及计算机自然语言处理领域,尤其涉及一种短文本分类方法及装置。
背景技术
随着网络技术的迅速发送,互联网已经成为海量信息的载体,用户创建的内容已经成为互联网上一个重要数据源。尤其是微博、微信、购物等移动应用推广之后,基于微博、微信、QQ聊天及商品评论等短文本的数量正在呈爆炸式增长。各种形式的短文本已经成为我国各阶层的信息沟通渠道和情感交流手段,深刻改变了亿万中国人的沟通方式和生活习惯。
短文本数据量异常庞大,数据中包含人们对社会各种现象的各种观点和立场,话题涉及政治、经济、军事、娱乐、生活等各个领域。然而如何从短文本中挖掘出有价值的信息成为当前的一个非常关键的问题。短文本在很多方面都有广泛应用,例如帮助用户快速了解产品的优劣,选择满意的商品,再例如,追踪社会舆论趋势,发现社会热点问题,帮助政府把握社会态势等。因此,短文本分类具有很强的应用价值。
短文本分类的显著特征是受其长度的限制,所包含的词语和上下文信息不足,因此基于统计量的传统的文本表示方法和分类模型面临数据稀疏性问题。因此,准确的进行短文本的语义特征表示并实现自动分类,是一项极具挑战性而且亟待研究的技术问题。
发明内容
本发明提供了一种高效的短文本分类方法及装置,用以解决现有技术中短文本特征稀疏、噪声大导致分类不准确的技术问题。
依据本发明的一个方面,本发明提供一种短文本分类方法,包括:
对待分类的短文本进行分词预处理,并获取分词得到的每个词语的扩展词;
根据预先构建的词项集获取每个词语及其扩展词的权重值;
根据所述权重值,利用多个类别SVM分类模型获取所述短文本所属每个类别的概率;
根据预设的概率分类模型确定所述短文本的所属类别。
进一步地,根据词向量空间模型获取分词得到的每个词语的扩展词。
进一步地,预先构建所述词项集时,包括:
对标注样本集中所有的短文本进行分词预处理,并获取每个词语的扩展词;
计算每一个词语以及扩展词语的权重值,并将词语、扩展词语及权重值保存至所述词项集中。
进一步地,所述权重值为TF-IDF值。
进一步地,所述根据预设的概率分类模型确定所述短文本的所属类别,包括:
步骤1,若所述短文本所属某个类别的概率在[S1,1]之间,则将所述类别作为短文本所属类别,否则,执行步骤2;其中,S1∈[0.5,1);
步骤2,设置S2=S1-0.1;
步骤3,判断S2与0.5的大小:
若S2≥0.5,且所述短文本所属某个类别的概率在[S2,S1]之间,则将所述类别作为短文本所属类别,否则,S1=S2,并执行步骤2;
若S2<0.5,且所述短文本所属某个类别的概率在[0.4,S1]之间,则将概率值最大的类别作为短文本所属类别;否则没有所属类别。
依据本发明的一个方面,本发明提供一种短文本分类装置,包括:
预处理单元,用于对待分类的短文本进行分词预处理;
第一获取单元,用于获取分词得到的每个词语的扩展词;
构建单元,用于预先构建词项集;
第二获取单元,用于根据所述构建单元构建的词项集获取每个词语及其扩展词的权重值;
第三获取单元,用于根据所述权重值,利用多个类别SVM分类模型获取所述短文本所属每个类别的概率;
确定单元,用于根据预设的概率分类模型确定所述短文本的所属类别。
进一步地,所述第一获取单元具体用于根据词向量空间模型获取分词得到的每个词语的扩展词。
进一步地,所述构建单元具体用于:
对标注样本集中所有的短文本进行分词预处理,并获取每个词语的扩展词;
计算每一个词语以及扩展词语的权重值,并将词语、扩展词语及权重值保存至所述词项集中。
进一步地,所述确定单元具体用于:
步骤1,若所述短文本所属某个类别的概率在[S1,1]之间,则将所述类别作为短文本所属类别,否则,执行步骤2;其中,S1∈[0.5,1);
步骤2,设置S2=S1-0.1;
步骤3,判断S2与0.5的大小:
若S2≥0.5,且所述短文本所属某个类别的概率在[S2,S1]之间,则将所述类别作为短文本所属类别,否则,令S1=S2,并执行步骤2;
若S2<0.5,且所述短文本所属某个类别的概率在[0.4,S1]之间,则将概率值最大的类别作为短文本所属类别;否则判定所述短文本没有所属类别。
本发明具有以下有益效果:
本发明所提供的短分本分类方法及装置,引入词向量模型对短文本进行扩充,克服了短文本的特征稀疏的问题;同时通过多个类别的SVM模型,有效降低采用多分类模型的复杂度;以及根据概率分类模型,使得同一短文本可以属于多个类别,更符合实际应用。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中短文本分类方法的流程图;
图2为本发明实施例中采用的短文本分类模型的示意图;
图3为本发明实施例中短文本分类装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种短文本分类方法,包括如下步骤:
步骤1,对待分类的短文本进行分词预处理,并获取分词得到的每个词语的扩展词;
步骤2,根据构建的词项集获取每个词语及其扩展词的权重值;
步骤3,根据权重值,利用多个类别SVM分类模型获取所属每个类别的概率;
步骤4,根据预设的概率分类模型确定所述短文本的所属类别。
本发明所提供的短文本分类方法,对每个短文本进行分词处理后,将映射到高维空间的向量,向量的每一维代表某种潜在语义。越相似词语之间的向量距离越接近,这样可以将每个词语进行语义扩展,有效克服了短文本的特征稀疏问题。通过SVM分类模型获取短文本所属每个类别的概率,根据预设的概率分类模型确定该短文本所属的类别,有效解决了文本信息因噪声大导致分类不准确的问题。
下面结合附图1和具体实施例对本发明的技术内容做进一步地详细说明。
本发明的执行环境采用一台具有2.4G赫兹中央处理器和8G字节内存的奔腾4计算机并用JAVA语言编制了短文本分类方法,还可以采用其他的执行环境,在此不再赘述。
参见图1中的测试过程,首先对待分类的短文本进行分词预处理,并获取每个词语的扩展词。
本发明实施例中利用NLPIR的分词工具将一个短文本切割为一个个独立的词语,那么一个短文本就可以表示为[词1,词2……词n],其中n为该短文本的词语数目。预处理工作除了进行分词外,还包括去除短文本中的“|”、“||”等特殊符号,以达到去除一定的干扰的目的。本发明对训练短文本集中数据的特殊字符的干扰,进行针对性的判别,提高了分类的精度。
在该步骤中,根据训练的词向量空间模型对分词后的短文本进行扩充。本发明实施例中采用word2vec词向量空间模型,可以将短文本扩展成指定数目或满足特定相似度的向量,表示为:
对每一个词语特征扩展后,可以得到一段短文本的特征扩展。
本发明通过引入词向量模型对短文本进行扩充,可以有效克服短文本的特征稀疏的问题。
接着,根据词项集获取每个词语及其扩展词的权重值。
本发明实施例中,在构建词项集时(图1中标注文本集的过程),按照上述的预处理的方法对标注样本集中所有的短文本进行分词以及词语扩展处理,并计算每一个词语以及扩展词语的权重值。其中,权重值采用词频来表示,现在比较常用的特征权重的计算方式为TF*IDF,TF*RF。本发明实施例采用TF-IDF值,计算公式如下:
TF j i * IDF i = n j i Σ j n j i . log | D | | D i |
其中,|D|表示标注样本集中的文本总数,|Di|表示包含词语i的文本总数,表示词语在文本i中出现的次数。
根据标注文本集中的词语、词语的扩展词语、以及根据每个词语的TF-IDF值生成词项集。在进行分类时,对待分类的短文本进行分词以及词语扩展处理后,从词项集中获取每个词语对应的词语权重值。
然后,根据权重值,利用多个类别SVM分类模型获取所属每个类别的概率。
当权重值确定后,利用分类算法进行训练和预测分类模型。现在文本分类的算法很多,常见的有Naive Bayes,SVM,KNN,Logistic回归等。本发明实施例中优选采用SVM(Support Vector Model,支持向量机)分类模型,对于支持向量机属于本领域技术人员所熟知的技术,这里不再进行详细介绍。本发明实施例中,对于n个类别,只有n个SVM分类模型。本发明中的SVM分类模型不是判断属于正负类别,而是输出属于各类别的概率,最终可以得到分类结果的可信度量化数值。根据每个所属类别的量化值,在进一步判断该短文本的所属类别。通过采用多个单类别的分类模型,在一定程度上有效减少了多分类模型的运算复杂度。
最后,根据预设的概率分类模型确定短文本的所属类别。
参见图2,本发明实施例采用的概率分类模型,假设有n个类别,每个待分类文本输入n个类别的SVM分类模型,得到属于各类别的概率,利用概率分类模型,确定最终分类。本发明的实施例中采用的概率分类模型,具体包括如下步骤:
步骤1,若所属某个类别的概率在[S1,1]之间,则将所述类别作为短文本所属类别,否则,执行步骤2;其中,S1∈[0.5,1);
步骤2,设置S2=S1-0.1;
步骤3,判断S2与0.5的大小:
若S2≥0.5,且短文本所属某个类别的概率在[S2,S1]之间,则将类别作为短文本所属类别,否则,令S1=S2,并执行步骤2;
若S2<0.5,且短文本所属某个类别的概率在[0.4,S1]之间,则将概率值最大的类别作为短文本所属类别;否则判定短文本没有所属类别。
本发明实施例提供的概率分类模型,可以取出概率高的类别,极端情况下,模型判断不属于该类别,所有类别概率都小于0.5的情况下,也有可能取到正确类别;此外,最终的输出结果是文本所属类别或者类别集合,同一段文本可以属于不同类别,更符合实际应用。
参见图3,本发明实施例还提供一种短文本分类装置,用于实现上述的短文本分类方法,具体包括:
预处理单元,用于对待分类的短文本进行分词预处理;
第一获取单元,用于获取分词得到的每个词语的扩展词;
构建单元,用于预先构建词项集;
第二获取单元,用于根据构建单元构建的词项集获取每个词语及其扩展词的权重值;
第三获取单元,用于根据权重值,利用多个类别SVM分类模型获取短文本所属每个类别的概率;
确定单元,用于根据预设的概率分类模型确定短文本的所属类别。
进一步地,第一获取单元具体用于根据词向量空间模型获取分词得到的每个词语的扩展词。
进一步地,构建单元具体用于:
对标注样本集中所有的短文本进行分词预处理,并获取每个词语的扩展词;
计算每一个词语以及扩展词语的权重值,并将词语、扩展词语及权重值保存至词项集中。
进一步地,确定单元具体用于:
步骤1,若短文本所属某个类别的概率在[S1,1]之间,则将类别作为短文本所属类别,否则,执行步骤2;其中,S1∈[0.5,1);
步骤2,设置S2=S1-0.1;
步骤3,判断S2与0.5的大小:
若S2≥0.5,且所述短文本所属某个类别的概率在[S2,S1]之间,则将所述类别作为短文本所属类别,否则,令S1=S2,并执行步骤2;
若S2<0.5,且所述短文本所属某个类别的概率在[0.4,S1]之间,则将概率值最大的类别作为短文本所属类别;否则判定所述短文本没有所属类别。
综上所述,本发明所提供的短分本分类方法及装置,通过引入词向量模型对短文本进行扩充,可以有效克服了短文本的特征稀疏的问题;同时通过多个单类别的SVM分类模型,有效降低采用多分类模型的运算复杂度;同时由于该SVM分类模型获取的是所属类别概率,因此分类结果是可信度量化值,可以有效提高了分类精度;根据概率分类模型,取出概率较高的类别,使得同一短文本可以同时属于多个类别,使得该分类方法更具有实际意义。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
虽然通过实施例描述了本申请,本领域的技术人员知道,本申请有许多变形和变化而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种短文本分类方法,其特征在于,包括:
对待分类的短文本进行分词预处理,并获取分词得到的每个词语的扩展词;
根据预先构建的词项集获取每个词语及其扩展词的权重值;
根据所述权重值,利用多个类别SVM分类模型获取所述短文本所属每个类别的概率;
根据预设的概率分类模型确定所述短文本的所属类别。
2.如权利要求1所述的方法,其特征在于,根据词向量空间模型获取分词得到的每个词语的扩展词。
3.如权利要求1所述的方法,其特征在于,预先构建所述词项集时,包括:
对标注样本集中所有的短文本进行分词预处理,并获取分词得到的每个词语的扩展词;
计算每一个词语以及扩展词语的权重值,并将词语、扩展词语及权重值保存至所述词项集中。
4.如权利要求1或3所述的方法,其特征在于,所述权重值为TF-IDF值。
5.如权利要求1所述的方法,其特征在于,所述根据预设的概率分类模型确定所述短文本的所属类别,包括:
步骤1,若所述短文本所属某个类别的概率在[S1,1]之间,则将所述类别作为短文本所属类别,否则,执行步骤2;其中,S1∈[0.5,1);
步骤2,设置S2=S1-0.1;
步骤3,判断S2与0.5的大小:
若S2≥0.5,且所述短文本所属某个类别的概率在[S2,S1]之间,则将所述类别作为短文本所属类别,否则,令S1=S2,并执行步骤2;
若S2<0.5,且所述短文本所属某个类别的概率在[0.4,S1]之间,则将概率值最大的类别作为短文本所属类别;否则判定所述短文本没有所属类别。
6.一种短文本分类装置,其特征在于,包括:
预处理单元,用于对待分类的短文本进行分词预处理;
第一获取单元,用于获取分词得到的每个词语的扩展词;
构建单元,用于预先构建词项集;
第二获取单元,用于根据所述构建单元构建的词项集获取每个词语及其扩展词的权重值;
第三获取单元,用于根据所述权重值,利用多个类别SVM分类模型获取所述短文本所属每个类别的概率;
确定单元,用于根据预设的概率分类模型确定所述短文本的所属类别。
7.如权利要求6所述的装置,其特征在于,所述第一获取单元具体用于根据词向量空间模型获取分词得到的每个词语的扩展词。
8.如权利要求6所述的装置,其特征在于,所述构建单元具体用于:
对标注样本集中所有的短文本进行分词预处理,并获取每个词语的扩展词;
计算每一个词语以及扩展词语的权重值,并将词语、扩展词语及权重值保存至所述词项集中。
9.如权利要求6所述的装置,其特征在于,所述确定单元具体用于:
步骤1,若所述短文本所属某个类别的概率在[S1,1]之间,则将所述类别作为短文本所属类别,否则,执行步骤2;其中,S1∈[0.5,1);
步骤2,设置S2=S1-0.1;
步骤3,判断S2与0.5的大小:
若S2≥0.5,且所述短文本所属某个类别的概率在[S2,S1]之间,则将所述类别作为短文本所属类别,否则,令S1=S2,并执行步骤2;
若S2<0.5,且所述短文本所属某个类别的概率在[0.4,S1]之间,则将概率值最大的类别作为短文本所属类别;否则判定所述短文本没有所属类别。
CN201610285420.8A 2016-04-29 2016-04-29 一种短文本分类方法及装置 Active CN105912716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610285420.8A CN105912716B (zh) 2016-04-29 2016-04-29 一种短文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610285420.8A CN105912716B (zh) 2016-04-29 2016-04-29 一种短文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN105912716A true CN105912716A (zh) 2016-08-31
CN105912716B CN105912716B (zh) 2019-09-10

Family

ID=56752253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610285420.8A Active CN105912716B (zh) 2016-04-29 2016-04-29 一种短文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN105912716B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN106886576A (zh) * 2017-01-22 2017-06-23 广东广业开元科技有限公司 一种基于预分类的短文本关键词提取方法及系统
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置
CN107609113A (zh) * 2017-09-13 2018-01-19 北京科技大学 一种文本自动分类方法
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统
CN108197028A (zh) * 2018-01-05 2018-06-22 中国矿业大学 一种面向黑盒测试背景下的回归测试用例分类方法
CN108491406A (zh) * 2018-01-23 2018-09-04 深圳市阿西莫夫科技有限公司 信息分类方法、装置、计算机设备和存储介质
CN108509638A (zh) * 2018-04-11 2018-09-07 联想(北京)有限公司 一种问题提取方法及电子设备
CN108763348A (zh) * 2018-05-15 2018-11-06 南京邮电大学 一种扩展短文本词特征向量的分类改进方法
CN109271514A (zh) * 2018-09-14 2019-01-25 华南师范大学 短文本分类模型的生成方法、分类方法、装置及存储介质
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN109815334A (zh) * 2019-01-25 2019-05-28 武汉斗鱼鱼乐网络科技有限公司 一种弹幕文本分类方法、存储介质、设备及系统
CN110069627A (zh) * 2017-11-20 2019-07-30 中国移动通信集团上海有限公司 短文本的分类方法、装置、电子设备和存储介质
CN111078876A (zh) * 2019-12-04 2020-04-28 国家计算机网络与信息安全管理中心 一种基于多模型集成的短文本分类方法和系统
CN112990220A (zh) * 2021-04-19 2021-06-18 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN103955701A (zh) * 2014-04-15 2014-07-30 浙江工业大学 多层次结合的多视合成孔径雷达图像目标识别方法
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
US20150334522A1 (en) * 2014-05-15 2015-11-19 Xerox Corporation Method and apparatus for location prediction using short text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN103955701A (zh) * 2014-04-15 2014-07-30 浙江工业大学 多层次结合的多视合成孔径雷达图像目标识别方法
US20150334522A1 (en) * 2014-05-15 2015-11-19 Xerox Corporation Method and apparatus for location prediction using short text
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528642B (zh) * 2016-10-13 2018-05-25 广东广业开元科技有限公司 一种基于tf-idf特征提取的短文本分类方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN106886576A (zh) * 2017-01-22 2017-06-23 广东广业开元科技有限公司 一种基于预分类的短文本关键词提取方法及系统
CN106886576B (zh) * 2017-01-22 2018-04-03 广东广业开元科技有限公司 一种基于预分类的短文本关键词提取方法及系统
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置
CN107301225B (zh) * 2017-06-20 2021-01-26 挖财网络技术有限公司 短文本分类方法及装置
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN107609113A (zh) * 2017-09-13 2018-01-19 北京科技大学 一种文本自动分类方法
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统
CN107862046B (zh) * 2017-11-07 2019-03-26 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统
CN110069627A (zh) * 2017-11-20 2019-07-30 中国移动通信集团上海有限公司 短文本的分类方法、装置、电子设备和存储介质
CN108197028B (zh) * 2018-01-05 2020-12-01 中国矿业大学 一种面向黑盒测试背景下的回归测试用例分类方法
CN108197028A (zh) * 2018-01-05 2018-06-22 中国矿业大学 一种面向黑盒测试背景下的回归测试用例分类方法
CN108491406A (zh) * 2018-01-23 2018-09-04 深圳市阿西莫夫科技有限公司 信息分类方法、装置、计算机设备和存储介质
CN108509638A (zh) * 2018-04-11 2018-09-07 联想(北京)有限公司 一种问题提取方法及电子设备
CN108763348A (zh) * 2018-05-15 2018-11-06 南京邮电大学 一种扩展短文本词特征向量的分类改进方法
CN108763348B (zh) * 2018-05-15 2022-05-03 南京邮电大学 一种扩展短文本词特征向量的分类改进方法
CN109271514A (zh) * 2018-09-14 2019-01-25 华南师范大学 短文本分类模型的生成方法、分类方法、装置及存储介质
CN109271514B (zh) * 2018-09-14 2022-03-15 华南师范大学 短文本分类模型的生成方法、分类方法、装置及存储介质
CN109815334A (zh) * 2019-01-25 2019-05-28 武汉斗鱼鱼乐网络科技有限公司 一种弹幕文本分类方法、存储介质、设备及系统
CN111078876A (zh) * 2019-12-04 2020-04-28 国家计算机网络与信息安全管理中心 一种基于多模型集成的短文本分类方法和系统
CN112990220A (zh) * 2021-04-19 2021-06-18 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及系统
CN112990220B (zh) * 2021-04-19 2022-08-05 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及系统

Also Published As

Publication number Publication date
CN105912716B (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN105912716A (zh) 一种短文本分类方法及装置
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
US11481422B2 (en) Method and system for sentiment analysis of information
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN105005594B (zh) 异常微博用户识别方法
Chugh et al. Spider monkey crow optimization algorithm with deep learning for sentiment classification and information retrieval
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
Chauhan et al. Sentiment analysis on product reviews
CN109508385B (zh) 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN108197144B (zh) 一种基于BTM和Single-pass的热点话题发现方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN104361037B (zh) 微博分类方法及装置
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
CN108241867B (zh) 一种分类方法及装置
Santosh et al. Opinion mining of online product reviews from traditional LDA Topic Clusters using Feature Ontology Tree and Sentiwordnet
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN110688540B (zh) 一种作弊账户筛选方法、装置、设备及介质
CN104881446A (zh) 搜索方法及装置
Sharm et al. Sentiment analysis of Amazon smartphone reviews using machine learning & deep learning
CN110334180A (zh) 一种基于评论数据的移动应用安全性评估方法
Saikia et al. Modelling social context for fake news detection: a graph neural network based approach
Kulkarni et al. Fake news detection using machine learning
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN110837553B (zh) 搜索邮件的方法及相关产品
Handayani et al. Sentiment Analysis Of Electric Cars Using Recurrent Neural Network Method In Indonesian Tweets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant