CN102955856A - 一种基于特征扩展的中文短文本分类方法 - Google Patents

一种基于特征扩展的中文短文本分类方法 Download PDF

Info

Publication number
CN102955856A
CN102955856A CN2012104469974A CN201210446997A CN102955856A CN 102955856 A CN102955856 A CN 102955856A CN 2012104469974 A CN2012104469974 A CN 2012104469974A CN 201210446997 A CN201210446997 A CN 201210446997A CN 102955856 A CN102955856 A CN 102955856A
Authority
CN
China
Prior art keywords
short text
classification
feature
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104469974A
Other languages
English (en)
Other versions
CN102955856B (zh
Inventor
欧阳元新
罗建辉
刘文琦
熊璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rock Technology Co., Ltd.
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201210446997.4A priority Critical patent/CN102955856B/zh
Publication of CN102955856A publication Critical patent/CN102955856A/zh
Application granted granted Critical
Publication of CN102955856B publication Critical patent/CN102955856B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种基于特征扩展的中文短文本分类方法,包括:步骤(1)建立背景知识库:从带有类别标注的长文本语料库中挖掘满足一定约束条件的特征词的二元组来生成背景知识库;步骤(2)扩展训练集中的短文本:根据背景知识库中的二元组,按照一定的扩展规则对训练集中的短文本添加扩展词;步骤(3)建立分类模型:用经过扩展的短文本训练集建立SVM分类模型;步骤(4)扩展待分类的短文本:根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词;步骤(5)产生分类结果:利用分类模型和扩展后的短文本来产生分类结果。本发明利用长文本语料库来丰富短文本的特征,提高了短文本分类的准确率和召回率。

Description

一种基于特征扩展的中文短文本分类方法
技术领域
本发明涉及文本分类系统的技术领域,特别涉及一种基于特征扩展的中文短文本分类方法。
背景技术
根据统计,在电子信息数据中,大约有80%的数据是以非结构化的文本文件形式而存在着。在互联网上,不仅文本数据是最为普遍的数据存储形式,而且视频、音频及图片等数据的搜索都有与之相关联的文本数据。
文本分类为处理和组织海量文本数据的关键技术,可以比较有效地解决信息杂乱的问题,方便了用户准确地定位所需的信息和分流信息。传统的文本分类系统主要采用KNN、SVM等分类方法,能在长文本分类应用中获得很好的分类效果。
随着互联网的继续发展,短文本信息开始大量出现,例如论坛的留言、新闻标题、社交网络的状态、即时消息、微博等等,这些短文本信息是大家日常交流通讯中所必不可少的信息形式,它们的共同特点是:信息长度较短、表述内容丰富、组合比较灵活、内容长短不定、数据规模很大。
由于短文本的特征离散且长度较短,所以传统的文本分类方法直接应用到短文本语料集上时并不能取得可与长文本语料集上相比拟的分类效果。通过丰富短文本所携带的特征量,能够有效地提高短文本分类的准确率和召回率。
发明内容
本发明要解决的技术问题为:克服现有技术的不足,提供一种基于特征扩展的中文短文本分类方法,该系统通过从长文本语料库中提取信息来丰富短文本所携带的信息量,从面提高了分类的准确率和召回率。
本发明解决上述技术问题的技术方案为:一种基于特征扩展的中文短文本分类方法,该系统具体步骤如下:
步骤(1)、建立背景知识库:根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库。
步骤(2)、扩展训练集中的短文本:利用步骤(1)中生成的背景知识库作为扩展库,对于短文本中的每个原始词,从背景知识库寻找与该词相关联的所有词,然后将这些词作为扩展词对短文本进行存在性扩展。
步骤(3)、建立分类模型:从经过扩展的短文本训练中提取有用特征,获得特征空间,再将每个扩展后的短文本转换为该特征空间上的向量表示,最后用这些向量作为训练集来建立SVM分类模型。
步骤(4)、扩展待分类的短文本:根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词。
步骤(5)、产生分类结果:将步骤(4)扩展后的短文本转换成的特征空间上的向量,然后作为输入,利用步骤(3)获得的分类模型计算出分类结果并返回给用户。
所述步骤(1)中建立背景知识库,具体如下:
步骤①对长文本语料库中的长文本进行切词,每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串,从而得到长文本语料库的特征词集;
步骤②计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度,若特征词的类别趋向性不存在或全局支持度不够,则从该集合中删除,然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合;
假设D={d1,d2,…,dn}表示长文本语料库的所有文本集合,T={t1,t2,..,tk}表示k个构成文本的特征项(即特征词)的集合,C={c1,c2,…,cm}表示类别的集合。
定义1全局支持度:项集T的全局支持度记为gsup(T),指语料库中包含项集T的文档数与整个语料库的文档数的比值,其数学定义式为:
gsup ( T ) = | D T | | D | (1)式
其中D表示语料库中所有文档的集合,DT表示语料库中包含项集T的所有文档的集合。
定义2置信度:特征项t的对于类别c的置信度记为conf(t,c),是包含特征项t且属于类别c的文档数与含特征项t的所有文档数的比值,其数学定义式为:
conf ( t , c ) = | D t , c | | D t | (2)式
其中Dt表示包含特征项t的文档的集合,Dt,c表示包含特征项t且属于类别c的文档的集合。
定义3类别趋向性:对于特征项t,若存在类别,使得conf(t,c)不小于用户指定的阈值β(0.5≤β≤1),则称特征项t具有类别趋向性,且倾向类别为c,记为Trend(t)=c。
步骤③在每个子集合上应用Apriori算法挖掘具有参数α的共现关系和具有参数β的类别趋同性的特征词的二元组,并以这些二元组构成背景知识库。
定义4共现关系:若项集T的全局支持度超过一个用户指定的阈值α(0<α≤1),则称项集T内的特征项具有共现关系。
定义5类别趋同性:对于两个不同的特征项t1和t2,若存在类别c,使得Trend(t1)=Trend(t2)=c,则称二者具有类别趋同性。
所述步骤(2)中扩展训练集中的短文本,具体如下:
假设d={t1,t2,…,tk}表示一个短文本,F表示背景知识库,则对该短文本扩展步骤如下:
步骤A、对于短文本中的每个特征词,从背景知识库F中寻找与该词相关联的所有词,然后将这些词作为短文本d对应的可用扩展词集EX={t|<t,ti>∈F或<ti,t>∈F,其中i=1,..k}。
步骤B、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
所述步骤(4)中扩展待分类的短文本,具体如下:
假设d={t1,t2,…,tk}表示一个待扩展的短文本,F表示背景知识库,V表示步骤(3)获得的特征空间,则对该短文本扩展步骤如下:
步骤A、从背景知识库F中去除包含不属于特征空间V中的特征词的二元组。
步骤B、对于短文本中的每个特征词,从背景知识库寻找与该词相关联的所有词,将这些词作为短文本d对应的可用扩展词集EX={t|(<t,ti>∈F或<ti,t>∈F)且ti∈V,其中i=1,..k}。
步骤C、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
本发明与现有技术相比的优点在于:
相比于传统文本分类系统,本发明可以有效地提高短文本分类的准确率和召回率。相比于同类系统,本发明中的特征扩展性能不受短文本语料库的影响且易与传统文本分类系统相结合。
附图说明
图1为本发明的概要流程图示意图;
具体实施方式
现结合附图说明本发明的实施例。
如图1所示,本发明包括五个主要步骤:建立背景知识库、扩展训练集中的短文本、建立分类模型、扩展待分类的短文本和产生分类结果。
步骤(1)建立背景知识库:根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库,具体步骤为:
步骤①对长文本语料库中的长文本进行切词,每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串,从而得到长文本语料库的特征词集;
步骤②计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度,若特征词的类别趋向性不存在或全局支持度不够,则从该集合中删除,然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合;
假设D={d1,d2,…,dn}表示长文本语料库的所有文本集合,T={t1,t2,..,tk}表示k个构成文本的特征项(即特征词)的集合,C={c1,c2,…,cm}表示类别的集合。
定义1全局支持度:项集T的全局支持度记为gsup(T),指语料库中包含项集T的文档数与整个语料库的文档数的比值,其数学定义式为:
gsup ( T ) = | D T | | D | (1)式
其中D表示语料库中所有文档的集合,DT表示语料库中包含项集T的所有文档的集合。
定义2置信度:特征项t的对于类别c的置信度记为conf(t,c),是包含特征项t且属于类别c的文档数与含特征项t的所有文档数的比值,其数学定义式为:
conf ( t , c ) = | D t , c | | D t | (2)式
其中Dt表示包含特征项t的文档的集合,Dt,c表示包含特征项t且属于类别c的文档的集合。
定义3类别趋向性:对于特征项t,若存在类别,使得conf(t,c)不小于用户指定的阈值β(0.5≤β≤1),则称特征项t具有类别趋向性,且倾向类别为c,记为Trend(t)=c。
步骤③在每个子集合上应用Apriori算法挖掘具有参数α的共现关系和具有参数β的类别趋同性的特征词的二元组,并以这些二元组构成背景知识库。
定义4共现关系:若项集T的全局支持度超过一个用户指定的阈值α(0<α≤1),则称项集T内的特征项具有共现关系。
定义5类别趋同性:对于两个不同的特征项t1和t2,若存在类别c,使得Trend(t1)=Trend(t2)=c,则称二者具有类别趋同性。
步骤(2)扩展训练集中的短文本:利用步骤(1)中生成的背景知识库作为扩展库,对于短文本中的每个原始词,从背景知识库寻找与该词相关联的所有词,然后将这些词作为扩展词对短文本进行存在性扩展,具体步骤为:
假设d={t1,t2,…,tk}表示一个短文本,F表示背景知识库,则对该短文本扩展步骤如下:
步骤A、对于短文本中的每个特征词,从背景知识库F中寻找与该词相关联的所有词,然后将这些词作为短文本d对应的可用扩展词集EX={t|<t,ti>∈F或<ti,t>∈F,其中i=1,..k}。
步骤B、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
步骤(3)建立分类模型:从经过扩展的短文本训练集中提取有用特征,获得特征空间,再将每个训练集中扩展后的短文本转换为该特征空间上的向量表示,最后用这些向量作为训练集来建立SVM分类模型,具体步骤为:
步骤A、计算扩充后的短文本训练集中的每个特征词的信息增益值,然后选取信息增益值较大的10000个词作为特征词空间。特征词的信息增益计算式为:
IG ( t k , c i ) = &Sigma; c &Element; { c i , c &OverBar; i } &Sigma; t &Element; { t k , t &OverBar; k } P ( t , c ) log P ( t , c ) P ( t ) &CenterDot; P ( c ) (3)式
IG ( t k ) = &Sigma; c &Element; C IG ( t k , c ) (4)式
式中tk表示特征词,C表示类别集合C={c1,c2,…,cm},ci表示C中的某个类别,IC(tk,ci)表示tk在类别ci中信息增益值,IG(tk)表示tk的信息增益值,P(t,c)表示具有特征项t且属于类别c的文档的概率,P(t)表示特征t在全部训练文档中出现的概率,P(c)表示一个文档属于类别c的先验概率。
步骤B、以词频作为文档的特征权重,将每个训练集中扩展后的短文本转换为特征空间上的向量表示形式;
步骤C、将训练集对应的向量集作为输入,以SVM分类算法建立分类模型。
步骤(4)扩展待分类的短文本:根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词,具体步骤为:
假设d={t1,t2,…,tk}表示一个待扩展的短文本,F表示背景知识库,V表示步骤(3)获得的特征空间,则对该短文本扩展步骤如下:
步骤A、从背景知识库F中去除包含不属于特征空间V中的特征词的二元组。
步骤B、对于短文本中的每个特征词,从背景知识库寻找与该词相关联的所有词,将这些词作为短文本d对应的可用扩展词集EX={t|(<t,ti>∈F或<ti,t>∈F)且ti∈V,其中i=1,..k}。
步骤C、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
步骤(5)产生分类结果:将步骤(4)扩展后的短文本转换成的特征空间上的向量,然后作为输入,利用步骤(3)获得的分类模型计算出分类结果并返回给用户。
本发明中的扩展过程只与当前待扩展短文本自身内容有关,与其它短文本无关,具有较好的稳定性,且易与传统文本分类系统相结合。相比于传统文本分类系统,本发明可以有效地提高短文本分类的准确率、召回率和F1-measure值,如下表1所示,在表1中的所有类别短文本的分类的准确率、召回率和F1-measure值都有不同程度的提高。
表1 本发明的分类结果
Figure BDA00002377024700061
本发明未详细阐述的部分属于本领域公知技术。以上实施例仅用以说明本发明的技术方案而非限制在具体实施方式的范围内,对本技术领域的普通技术人员来讲,只要各种变化在权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于特征扩展的中文短文本分类方法,其特征在于:该方法具体步骤如下:
步骤(1)、建立背景知识库:根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库;
步骤(2)、扩展训练集中的短文本:利用步骤(1)中生成的背景知识库作为扩展库,对于短文本中的每个原始词,从背景知识库寻找与该词相关联的所有词,然后将这些词作为扩展词对短文本进行存在性扩展;
步骤(3)、建立分类模型:从经过扩展的短文本训练中提取有用特征,获得特征空间,再将每个扩展后的短文本转换为该特征空间上的向量表示,最后用这些向量作为训练集来建立SVM分类模型;
步骤(4)、扩展待分类的短文本:根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词;
步骤(5)、产生分类结果:将步骤(4)扩展后的短文本转换成的特征空间上的向量,然后作为输入,利用步骤(3)获得的分类模型计算出分类结果并返回给用户。
2.根据权利要求1所述的一种基于特征扩展的中文短文本分类方法,其特征在于:所述第(1)部分中,具体如下:
步骤①、对长文本语料库中的长文本进行切词,每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串,从而得到长文本语料库的特征词集;
步骤②、计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度,若特征词的类别趋向性不存在或全局支持度不够,则从该集合中删除,然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合;
假设D={d1,d2,…,dn}表示长文本语料库的所有文本集合,T={t1,t2,..,tk}表示k个构成文本的特征项(即特征词)的集合,C={c1,c2,…,cm}表示类别的集合;
定义1全局支持度:项集T的全局支持度记为gsup(T),指语料库中包含项集T的文档数与整个语料库的文档数的比值,其数学定义式为:
gsup ( T ) = | D T | | D | (1)式
其中D表示语料库中所有文档的集合,DT表示语料库中包含项集T的所有文档的集合;
定义2置信度:特征项t的对于类别c的置信度记为conf(t,c),是包含特征项t且属于类别c的文档数与含特征项t的所有文档数的比值,其数学定义式为:
conf ( t , c ) = | D t , c | | D t | (2)式
其中Dt表示包含特征项t的文档的集合,Dt,c表示包含特征项t且属于类别c的文档的集合;
定义3类别趋向性:对于特征项t,若存在类别,使得conf(t,c)不小于用户指定的阈值β(0.5≤β≤1),则称特征项t具有类别趋向性,且倾向类别为c,记为Trend(t)=c;
步骤③、在每个子集合上应用Apriori算法挖掘具有参数α的共现关系和具有参数β的类别趋同性的特征词的二元组,并以这些二元组构成背景知识库;
定义4共现关系:若项集T的全局支持度超过一个用户指定的阈值α,其中0<α≤1,则称项集T内的特征项具有共现关系;
定义5类别趋同性:对于两个不同的特征项t1和t2,若存在类别c,使得Trend(t1)=Trend(t2)=c,则称二者具有类别趋同性。
3.根据权利要求1或2所述的一种基于特征扩展的中文短文本分类方法,其特征在于:所述步骤(2)中扩展训练集中的短文本,具体如下:
假设d={t1,t2,…,tk}表示一个短文本,F表示背景知识库,则对该短文本扩展步骤如下:
步骤A、对于短文本中的每个特征词,从背景知识库F中寻找与该词相关联的所有词,然后将这些词作为短文本d对应的可用扩展词集EX={t|<t,ti>∈F或<ti,t>∈F,其中i=1,..k};
步骤B、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
4.根据权利要求3所述的一种基于特征扩展的中文短文本分类方法,其特征在于:所述步骤(4)中扩展待分类的短文本,具体如下:
假设d={t1,t2,…,tk}表示一个待扩展的短文本,F表示背景知识库,V表示步骤(3)获得的特征空间,则对该短文本扩展步骤如下:
步骤A、从背景知识库F中去除包含不属于特征空间V中的特征词的二元组;
步骤B、对于短文本中的每个特征词,从背景知识库寻找与该词相关联的所有词,将这些词作为短文本d对应的可用扩展词集EX={t|(<t,ti>∈F或<ti,t>∈F)且ti∈V,其中i=1,..k};
步骤C、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
CN201210446997.4A 2012-11-09 2012-11-09 一种基于特征扩展的中文短文本分类方法 Expired - Fee Related CN102955856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210446997.4A CN102955856B (zh) 2012-11-09 2012-11-09 一种基于特征扩展的中文短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210446997.4A CN102955856B (zh) 2012-11-09 2012-11-09 一种基于特征扩展的中文短文本分类方法

Publications (2)

Publication Number Publication Date
CN102955856A true CN102955856A (zh) 2013-03-06
CN102955856B CN102955856B (zh) 2015-07-08

Family

ID=47764662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210446997.4A Expired - Fee Related CN102955856B (zh) 2012-11-09 2012-11-09 一种基于特征扩展的中文短文本分类方法

Country Status (1)

Country Link
CN (1) CN102955856B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942574A (zh) * 2014-02-25 2014-07-23 浙江大学 3d手写识别svm分类器核参数选取方法及用途
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN104850650A (zh) * 2015-05-29 2015-08-19 清华大学 基于类标关系的短文本扩充方法
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN106326458A (zh) * 2016-06-02 2017-01-11 广西智度信息科技有限公司 一种基于文本分类的城市管理案件分类方法
CN103745000B (zh) * 2014-01-24 2017-02-01 福州大学 一种中文微博客的热点话题检测方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN107292348A (zh) * 2017-07-10 2017-10-24 天津理工大学 一种Bagging_BSJ短文本分类方法
CN107609113A (zh) * 2017-09-13 2018-01-19 北京科技大学 一种文本自动分类方法
CN108153895A (zh) * 2018-01-06 2018-06-12 国网福建省电力有限公司 一种基于开放数据的语料库构建方法和系统
CN108287850A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 文本分类模型的优化方法及装置
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
CN108647212A (zh) * 2018-05-18 2018-10-12 大连民族大学 机器学习的影评情感倾向性分析中形成特征集合的方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法
CN109214455A (zh) * 2018-09-05 2019-01-15 北京国网富达科技发展有限责任公司 油色谱数据与台账数据的相关性确定方法及系统
CN110245228A (zh) * 2019-04-29 2019-09-17 阿里巴巴集团控股有限公司 确定文本类别的方法和装置
CN110597991A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN110750638A (zh) * 2019-06-28 2020-02-04 厦门美域中央信息科技有限公司 一种基于半监督学习的多标签语料库文本分类方法
CN112883158A (zh) * 2021-02-25 2021-06-01 北京精准沟通传媒科技股份有限公司 对短文本分类的方法、装置、介质以及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189880A (zh) * 2017-12-26 2019-01-11 爱品克科技(武汉)股份有限公司 一种基于短文本的用户兴趣分类方法
CN108491406B (zh) * 2018-01-23 2021-09-24 深圳市阿西莫夫科技有限公司 信息分类方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
US20120185415A1 (en) * 2011-01-13 2012-07-19 International Business Machines Corporation System and method for domain adaption with partial observation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
US20120185415A1 (en) * 2011-01-13 2012-07-19 International Business Machines Corporation System and method for domain adaption with partial observation

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张婷慧等: "一种改进的VSM及其在文本自动分类中的应用", 《微电子学与计算机!》 *
王细薇等: "一种改进的基于共现关系的短文本特征扩展算法研究", 《河南城建学院学报》 *
王细薇等: "中文短文本分类方法研究", 《现代计算机》 *
袁满等: "一种基于频繁词集的文本分类算法", 《2012年第三届中国计算机学会服务计算学术会议论文集》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745000B (zh) * 2014-01-24 2017-02-01 福州大学 一种中文微博客的热点话题检测方法
CN103942574A (zh) * 2014-02-25 2014-07-23 浙江大学 3d手写识别svm分类器核参数选取方法及用途
CN103942574B (zh) * 2014-02-25 2017-01-11 浙江大学 3d手写识别svm分类器核参数选取方法及用途
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104765769B (zh) * 2015-03-06 2018-04-27 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN104778256B (zh) * 2015-04-20 2017-10-17 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN104834747B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN104850650B (zh) * 2015-05-29 2018-04-10 清华大学 基于类标关系的短文本扩充方法
CN104850650A (zh) * 2015-05-29 2015-08-19 清华大学 基于类标关系的短文本扩充方法
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
CN105468713B (zh) * 2015-11-19 2018-07-17 西安交通大学 一种多模型融合的短文本分类方法
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN105912716B (zh) * 2016-04-29 2019-09-10 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN106326458A (zh) * 2016-06-02 2017-01-11 广西智度信息科技有限公司 一种基于文本分类的城市管理案件分类方法
CN106202518B (zh) * 2016-07-22 2019-07-30 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN106528642B (zh) * 2016-10-13 2018-05-25 广东广业开元科技有限公司 一种基于tf-idf特征提取的短文本分类方法
CN108287850A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 文本分类模型的优化方法及装置
CN108287850B (zh) * 2017-01-10 2021-09-21 创新先进技术有限公司 文本分类模型的优化方法及装置
CN107292348A (zh) * 2017-07-10 2017-10-24 天津理工大学 一种Bagging_BSJ短文本分类方法
CN107609113A (zh) * 2017-09-13 2018-01-19 北京科技大学 一种文本自动分类方法
CN108153895A (zh) * 2018-01-06 2018-06-12 国网福建省电力有限公司 一种基于开放数据的语料库构建方法和系统
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
CN108520030B (zh) * 2018-03-27 2022-02-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
CN108647212A (zh) * 2018-05-18 2018-10-12 大连民族大学 机器学习的影评情感倾向性分析中形成特征集合的方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法
CN108733652B (zh) * 2018-05-18 2022-08-09 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法
CN109214455A (zh) * 2018-09-05 2019-01-15 北京国网富达科技发展有限责任公司 油色谱数据与台账数据的相关性确定方法及系统
CN110245228A (zh) * 2019-04-29 2019-09-17 阿里巴巴集团控股有限公司 确定文本类别的方法和装置
CN110750638A (zh) * 2019-06-28 2020-02-04 厦门美域中央信息科技有限公司 一种基于半监督学习的多标签语料库文本分类方法
CN110597991A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN110597991B (zh) * 2019-09-10 2021-08-17 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN112883158A (zh) * 2021-02-25 2021-06-01 北京精准沟通传媒科技股份有限公司 对短文本分类的方法、装置、介质以及电子设备

Also Published As

Publication number Publication date
CN102955856B (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN102955856B (zh) 一种基于特征扩展的中文短文本分类方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN101251855B (zh) 一种互联网网页清洗方法、系统及设备
CN100595760C (zh) 一种获取口语词条的方法、装置以及一种输入法系统
Shen et al. LIEGE: link entities in web lists with knowledge base
CN103617157A (zh) 基于语义的文本相似度计算方法
US20150178273A1 (en) Unsupervised Relation Detection Model Training
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN102043851A (zh) 一种基于频繁项集的多文档自动摘要方法
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN103207860A (zh) 舆情事件的实体关系抽取方法和装置
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN105488077A (zh) 生成内容标签的方法和装置
CN102081642A (zh) 搜索引擎检索结果聚类的中文标签提取方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN101916263A (zh) 基于加权编辑距离的模糊关键字查询方法及系统
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN110287309A (zh) 快速提取文本摘要的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Ouyang Yuanxin

Inventor after: Yuan Man

Inventor after: Luo Jianhui

Inventor after: Liu Wenqi

Inventor after: Xiong Zhang

Inventor before: Ouyang Yuanxin

Inventor before: Luo Jianhui

Inventor before: Liu Wenqi

Inventor before: Xiong Zhang

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: OUYANG YUANXIN LUO JIANHUI LIU WENQI XIONG ZHANG TO: OUYANG YUANXIN YUAN MAN LUO JIANHUI LIU WENQI XIONG ZHANG

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170222

Address after: 100055 Beijing City, Guang'an Road, No. 9, the country voted wealth Plaza, building 3, floor 2,

Patentee after: Beijing Rock Technology Co., Ltd.

Address before: 100191 Haidian District, Xueyuan Road, No. 37,

Patentee before: Beihang University

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150708

Termination date: 20181109