CN106095845A - 文本分类方法和装置 - Google Patents

文本分类方法和装置 Download PDF

Info

Publication number
CN106095845A
CN106095845A CN201610388041.1A CN201610388041A CN106095845A CN 106095845 A CN106095845 A CN 106095845A CN 201610388041 A CN201610388041 A CN 201610388041A CN 106095845 A CN106095845 A CN 106095845A
Authority
CN
China
Prior art keywords
text
categories
feature
disaggregated model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610388041.1A
Other languages
English (en)
Other versions
CN106095845B (zh
Inventor
梁锦全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610388041.1A priority Critical patent/CN106095845B/zh
Publication of CN106095845A publication Critical patent/CN106095845A/zh
Application granted granted Critical
Publication of CN106095845B publication Critical patent/CN106095845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本分类方法和装置,所述方法包括:获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。采用本方法对文本进行实时在线分类时能够有效缓解服务器资源消耗。

Description

文本分类方法和装置
技术领域
本发明涉及计算机网络技术领域,特别是涉及一种文本分类方法和装置。
背景技术
随着互联网技术的发展,人们可以随时在网上发布信息。例如,在购物网站对已购买商品进行点评,在看电影后发表个人观后感,人们可以参考这些信息来进行购物或观影。通常这些信息的数量较多并且是以文本的形式存在。如果对这些信息进行分类,可以方便人们快速了解相关内容。
传统的文本分类方式中,需要对文本进行分词处理,通过使用朴素贝叶斯或支持向量机等方法,在后台对大数据通过离线训练,得到分类模型。在后台对人们发布的信息进行离线分类,并且对分类结果进行存储。在前端发起文本类别的请求时,后台直接返回分类结果。由于后台离线训练和离线分类需要服务器支持,如果需要进行在线实时分类,则会消耗大量的服务器资源,给服务器造成一定负担。
发明内容
基于此,有必要针对上述技术问题,提供一种对文本进行实时在线分类时能够有效缓解服务器资源消耗的文本分类方法和装置。
一种文本分类方法,所述方法包括:
获取待分类文本,所述待分类文本中包括特征词汇;
获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;
根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;
将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。
一种文本分类装置,所述装置包括:
第一获取模,用于获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;
分类模块,用于根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;
确定模块,用于将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。
上述文本分类方法和装置,由于分类模型以及所述分类模型对应的多个文本类别的特征权重向量是预先训练好的,在通过获取待分类文本来得到待分类文本中包括的特征词汇之后,可以根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,从而能够得到投票得分最高的文本类别。继而可以将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。由于分类模型的算法是线性分类算法,算法复杂度低、运算速度快并且具有较高的分类精确率,因此能够对Web前端的文本进行实时在线分类并且能够有效缓解服务器资源消耗。
一种文本分类方法,所述方法包括:
接收终端发送的文本分类请求;
根据所述文本分类请求获取分类模型;
根据所述分类模型获取对应的文本类别特征权重;
将所述文本类别特征权重返回至所述终端,以使得所述终端根据所述文本类别特征权重对待分类文本进行分类。
一种文本分类装置,所述装置包括:
接收模块,用于接收终端发送的文本分类请求;
第二获取模块,用于根据所述文本分类请求获取分类模型;根据所述分类模型获取对应的文本类别特征权重;
发送模块,用于将所述文本类别特征权重返回至所述终端,以使得所述终端根据所述文本类别特征权重对待分类文本进行分类。
上述文本分类方法和装置,通过接收终端发送的文本分类请求,根据所述文本分类请求获取分类模型,继而根据所述分类模型获取对应的文本类别特征权重。终端接收到文本类别特征权重,从而能够根据所述文本类别特征权重对待分类文本进行分类。由于分类模型的训练过程不在终端本地进行,从而减少了终端进行样本训练的过程,进而有效提高了文本分类的效率。
附图说明
图1为一个实施例中文本分类方法的应用环境图;
图2为一个实施例中文本分类方法的流程图;
图3-1为一个实施例中文本分类前的页面示意图;
图3-2为一个实施例中文本分类后的页面示意图;
图4-1为一个实施例中当P(tj|cr)为定值的条件时函数f的形状示意图;
图4-2为一个实施例中当P(tj|cnr)为定值的条件时函数f的形状示意图;
图5为一个实施例中终端的结构示意图;
图6为又一个实施例中文本分类方法的流程图;
图7为一个实施例中文本分类装置的结构示意图;
图8为又一个实施例中文本分类装置的结构示意图;
图9为另一个实施例中文本分类装置的结构示意图;
图10为再一个实施例中文本分类装置的结构示意图;
图11为一个实施例中服务器的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中所提供的文本分类方法可以应用于如图1所示的应用环境中。终端102和服务器104通过网络连接。终端102上运行了浏览器和浏览器插件,通过浏览器访问服务器104的多个页面,通过浏览器插件在页面中获取待分类文本。终端102通过遍历待分类文本的字符或字符串,得到待分类文本中的特征词汇。终端102获取分类模型以及分类模型对应的多个文本类别的特征权重向量。其中,分类模型可以在终端利用训练文本和概率函数进行训练得到。终端102根据多个文本类别的特征权重向量计算特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别,将投票得分最高的文本类别确定为待分类文本对应的文本类别,在终端102的页面中显示分类后的文本。
在一个实施例中,如图2所示,提供了一种文本分类方法,以该方法应用于终端为例进行说明,具体包括:
步骤202,获取待分类文本,待分类文本中包括特征词汇。
文本可以是具有完整含义的一个句子或者多个句子的组合。文本可以是中文文本、英文文本或者中英文结合的文本。文本中包括停用词和特征词汇。其中,停用词(又称为非用词)是指在文本中起辅助作用的词,这些词与文本类别无关。特征词汇是指文本中除停用词外的单个字符或连续若干个字符的字符串。
停用词包括助词、副词、连词、代词、指示词、介词等。中文停用词包括“的”、“特别”、“是”和“了”等。英文停用词包括“about”(关于)、“actually”(实际上)、“again”(又)和“although”(尽管)等。由于去掉停用词并不会对文本类别的判断造成影响,因此在文本分类过程中,可以去掉停用词。
文本类别可以包括多种,例如,“建议”和“咨询”等。文本类别可以用类别集合来表示,例如,类别集合为C={c1,c2,...,ck}。文本也可以用文本集合来表示,例如,文本集合为D,di是D中的一个文本。文本分类就是将文本类别cr分配给文本di的过程,其中r∈1,2,…,k。
终端上运行了应用程序,通过应用程序可以获取待分类文本。终端上也可以运行了浏览器和浏览器插件,通过浏览器访问多个页面,通过浏览器插件在页面中获取待分类文本。待分类文本可以是中文文本、英文文本或者中英文结合的文本。
对于中文文本,终端遍历待分类文本中的每个字符或字符串,忽略掉停用词得到待分类文本中的特征词汇。对于英文文本或者中英文结合的文本,终端除了忽略掉停用词之外,还需要对去除非英文字符,把大写字母转换为小写字母,以及将词根还原来得到待分类文本中的特征词汇。
传统的文本分类算法是通过对待分类文本进行分词处理来获得特征词汇。分词是指把文本中的语句分割成一个个独立的特征词汇。分词算法通常依赖于词典,而且词典文件通常较大,难以在移动网络中应用。本实施例中,终端可以将单个中文汉字或英文字符串作为特征词汇,无需进行分词处理,适合在Web(网页)前端实时对待分类文本进行分类。
步骤204,获取分类模型以及分类模型对应的多个文本类别的特征权重向量。
终端获取分类模型。分类模型可以在终端利用训练文本和概率函数进行训练得到。概率函数中包括第一概率参数和第二概率参数。其中,第一概率参数是指特征词汇在某一个文档类型中出现的概率,第二概率参数是指特征词汇在某一类文档类型中不出现的概率。通过对概率函数进行训练得到多个文本类别得到特征权重向量。
步骤206,根据多个文本类别的特征权重向量计算特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别。
该分类模型也可以称为特征词汇投票的算法。这是一种类似于选举投票的加权和计算方法。例如,评委可以将手中票投给任意一位候选人,最后获得票数最高的候选人获胜。特征词汇相当于评委,特征词汇在待分类文本中的数量相当于评委手中的票数,候选人相当于文本类别,最后获得票数最高的文本类别即为待分类文本对应的文本类别。
终端根据分类模型对待分类文本进行分类的过程就是计算投票得分最高的文本类别的过程。终端根据文本类别的特征权重向量获取特征词汇对应的类别特征权重值,通过计算多个特征词汇对应的类别特征权重值之和来得到各个文本类别的投票得分。
步骤208,将投票得分最高的文本类别确定为待分类文本对应的文本类别。
终端获取投票得分最高的文本类别,将投票得分最高的文本类别确定为待分类文本对应的文本类别。由于特征词汇投票的算法是一种线性分类算法,因此该分类模型具有较高的分类效率,并且具有较低的算法复杂度。
通过终端上运行的应用程序来执行文本分类时,不需要消耗服务器资源,而且容易实现在线实时分类。通过终端上运行的浏览器和浏览器插件来执行文本分类时,可以通过浏览器访问页面,通过浏览器插件在页面中诸如JavaScript(一种直译式脚本语言)脚本,实现对页面中的评论等进行在线实时分类。由此对Web前端的文本进行实时在线分类时能够有效缓解服务器资源消耗。
以通过终端上运行的浏览器和浏览器插件来执行文本分类为例,如图3-1所示,为通过浏览器访问页面时,进行文本分类前的用户评价。如图3-2所示,为对当前页面中用户评价进行文本分类后结果。通过图3-2可以清楚的看出,当前页面中的用户评价被分为两个文档类别,分别是“咨询”和“建议”。通过对用户评价进行文本分类,为其他用户可以快速查看其关注的内容提供了方便。进一步的,进行文本分类后的用户反馈,其中包括用户评价等,也可以方便开发人员对互联网产品进行有效改进。
本实施例中,由于分类模型以及分类模型对应的多个文本类别的特征权重向量是预先训练好的,在通过获取待分类文本来得到待分类文本中包括的特征词汇之后,可以根据多个文本类别的特征权重向量计算特征词汇对应的文本类别的投票得分,从而能够得到投票得分最高的文本类别。继而可以将投票得分最高的文本类别确定为待分类文本对应的文本类别。由于分类模型的算法是线性分类算法,算法复杂度低、运算速度快并且具有较高的分类精确率,因此能够对Web前端的文本进行实时在线分类并且能够有效缓解服务器资源消耗。
在一个实施例中,在获取待分类文本步骤之前,还包括:获取多个训练文本,训练文本包括多个字符或字符串;根据字符或字符串生成训练文本对应的文本向量;获取概率函数,利用文本向量和概率函数进行训练,得到多个文本类别的特征权重向量;根据多个特征权重向量生成分类模型。
本实施例中,分类模型可以在终端利用训练文本和概率函数进行训练得到。在进行训练之前,需要获取训练集。训练集是指标注了文本类别的训练文本的集合。训练文本中包含预设的关键字,并且可以对选出的训练文本标注上对应的文档类别标签。每个文档类别的训练文本不需要太多,例如,可以为每个文档类别选择10个左右的训练文本。不同文档类别的训练文本数量可以相同,也可以不同。
为了对文本进行计算,采用的一种数据结构来表示文本,即文本表示。文本表示可以采用向量空间模型的稀疏表示方式。具体的,可以采用key-value的数据结构进行文本表示,其中,key表示单个中文字符或英文字符串,value表示key在该文本中出现的频率。key-value的数据结构在web前端就是JavaScript的普通Object(相关的变量和方法的软件集)对象。
以中文文本为例,假设文本为“不错的书,好评,好评”。其中,停用词为“的”。文本表示为如下的数据结构:{“不”:1,“错”:1,“书”:1,“好”:2,“评”:2}。如果“不”、“错”、“书”、“好”、“评”分别对应向量空间的1-5维,则该数据结构相当于数学向量(1,1,1,2,2,0,...,0),如果词典中包含m个特征词汇,即表示文本的向量空间有m维,此处省略了m-7个0,以此类推。该向量即为文本向量。
如上述实施例中提到的,特征词汇投票的算法是一种类似于选举投票的加权和计算方法。假设把文档类别看作是候选人,将特征词汇看作是不同的选区。每个选区的选民对候选人的支持率都不尽相同,对候选人的支持率可以通过“民调”来估计。词典中有m个特征词汇,每个特征词汇相当于一个选区。一个训练文本中的每个特征词汇出现一次都看作是该选区有一个选民来登记参加投票。每个选区的选民对候选人的支持率表示为权重wrj。这里可以将wrj称为第r类文档类别的第j个特征的权重,Wr={wr1,wr2,...,wrm}为类别r的特征权重集合(简称特征权重集合)。对候选人的支持率通过“民调”来估计,在这里的“民调”也就是对训练集的统计。一个训练文本可以看作是一次选举的区域选民统计表,可以用di={tfi1,tfi2,...,tfim}来表示。这样,文本分类的过程就可以看作是根据登记的选民情况,预测投票结果的过程,即:
c m a p = argmax c r ∈ C { Σ j = 1 m tf j W r j } - - - ( 1 )
公式(1)即为文本分类的分类模型。其中,cmap表示分类后的文本类别的标识;cr表示第r个文本类别的标识;arg max(·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;tfj表示词典j位置的特征词汇词在文本中出现的频率(未出现即是0)。当wrj函数的形式确定后,通过训练可以得到相应的参数。其中,wrj可表示wrj=f[P(tj|cr),P(tj|cnr)]
其中,f[P(tj|cr),P(tj|cnr)](简称为函数f),即为在类别cr中,特征词汇tj的投票权重。对于函数f应该有以下特性:
1、P(tj|cnr)为定值的条件下,函数f在P(tj|cr)∈[0,1)单调不减;
2、P(tj|cr)为定值的条件下,函数f在P(tj|cnr)∈[0,1)单调不增;
3、函数f在P(tj|cr)和P(tj|cnr)取值接近零的位置很敏感(变化率较大)。
根据以上特性,当P(tj|cr)为定值的条件时,函数f的形状大致如图4-1所示;当P(tj|cnr)为定值的条件时,函数f的形状大致如图4-2所示。可见函数f是概率函数,并且是概率敏感的,可以称为概率敏感函数。
经过有限次的实验,同时满足以上3个条件的函数均能达到一定的分类效果,为了分类模型不易过拟合并且具有较好的鲁棒性,f函数采用下面的公式来表示:
f[P(tj|cr),P(tj|cnr)]=log(P(tj|cr))-log(P(tj|cnr)) (2)
终端获取多个训练文本,根据训练文本中的多个字符或字符串生成训练文本对应的文本向量。通过公式(2),终端利用文本向量和概率函数进行训练,计算每个特征词汇在每个文本类别中的投票权重。根据特征词汇及其对应的每个文本类别中的投票权重来生成每个文本类别的特征权重向量。其中,文本类别的特征权重向量可以采用key-value的数据结构来表示。从而根据多个特征权重向量生成分类模型。
进一步的,由于训练文本较少,因此可能出现在待分类文本中含有未在词典中注册的特征词汇。终端在计算时可以认为该特征词汇对应的文本类别的特征权重为零。
在分类模型的训练过程中,去停用词的步骤可以省略,可以将去停用词和文本表示同时进行。与传统的文本分类方式相比,本实施例在分类模型的训练过程中,减少了分词的步骤,并且可以省略去停用词的步骤,由此有效提高了文本分类效率。在传统的文本分类方式中,例如,朴素贝叶斯方法需要大量手工分类文本进行训练,支持向量机训练耗时较长,这些均不适合在Web前端进行分类模型的训练。本实施例中的分类模型所需的训练文本较少,算法复杂度较低,能够适用于Web前端进行分类模型训练。通过在Web前端进行分类模型的训练得到分类模型,在对待分类文本进行在线实时分类时,不需要消耗大量的服务器资源,有效缓解了服务器压力。
进一步的,针对互联网中层出不穷的新词和新用法,,可以对分类模型进行更新。具体的,可以按照预设频率获取网络热词,根据网络热词选取适当数量的训练文本,以此对之前的训练文本进行更新。根据本实施例中提供的方式对更新后的训练文本进行训练,从而得到更新后的分类模型。可以利用更新后的分类模型在Web前端进行文本分类,从而使得分类模型能够适用于不断推出网络新词的Web环境。
在一个实施例中,分类模型的公式包括:
c m a p = argmax c r ∈ C { Σ j = 1 m tf j f [ P ( t j | c r ) , P ( t j | c n r ) ] } - - - ( 3 )
其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识;arg max(·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;tfj表示词典j位置的特征词汇词在文本中出现的频率(未出现即是0);P(·)表示概率函数,P(tj|cr)表示第一概率参数,即特征词汇tj在类cr的文本中出现的概率,P(tj|cnr)表示第二概率参数,即特征词汇tj不在类cr的文本中出现的概率。
词典是文本集合中特征词汇的集合。通过词典可以建立特征词汇与其对应的空间向量维度之间的索引关系。假设文本集合D有n个文本,相应的词典中包括m个特征词汇,则每个文本控一个m维的向量来表示,如:
d i → = ( tf i 1 , tf i 2 , ... , tf i m ) d i ∈ D , i = 1 , 2 , ... , n
其中,其中tfij(j=1,2,...,m)表示文本向量第j个维度对应的特征词汇在文本i中出现的频率。
本实施例中,在获取分类模型以及分类模型对应的多个文本类别的特征权重向量的步骤之前,还包括:遍历待分类文本中的字符或字符串;统计特征词汇出现的频率;生成待分类文本对应的文本向量。
如上述实施例中提到的,在对分类模型进行训练时,可以通过公式(2)计算出每个文本类别的特征权重向量。根据公式(3)计算各个文本类别的投票得分,也就是计算文本向量与文本类别的特征权重向量的点乘,并且将投票得分最高的文本类别确定为待分类文本对应的文本类别。由于该分类模型的算法是一种线性分类算法,具有较高的分类效率,并且具有较低的算法复杂度。因此采用该分类模型进行文本分类,能够有效提高分类效率。
在一个实施例中,分类模型的公式包括:
c m a p = argmax c r ∈ C { Σ j = 1 m f [ P ( t j | c r ) , P ( t j | c n r ) ] } - - - ( 4 )
其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识;arg max(·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;P(·)表示概率函数,P(tj|cr)表示第一概率参数,即特征词汇tj在类cr的文本中出现的概率,P(tj|cnr)表示第二概率参数,即特征词汇tj不在类cr的文本中出现的概率。
本实施例中,在获取待分类文本之后,可以根据公式(4)来计算根据多个文本类别的特征权重向量计算特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别。并且将投票得分最高的文本类别确定为待分类文本对应的文本类别。终端可以将文本向量与文本类别的特征权重向量的点乘计算简化为求待分类文本中特征词汇对应的文本类别特征权重值之和。由此可以在文本分类的过程中,省略上述实施例中的遍历待分类文本中的字符或字符串,统计特征词汇出现的频率,生成待分类文本对应的文本向量的步骤,也就是可以省略文本表示的步骤。由此使得文本分类的过程得到简化,从而进一步提高了文本分类的效率。
在一个实施例中,如图5所示,提供了一种终端,包括通过系统总线连接的处理器、内存储器、非易失性存储介质、网络接口、显示屏以及输入装置。终端的非易失性存储介质中存储有一种文本分类装置,用于实现对文本进行实时在线分类时能够有效缓解服务器资源消耗的一种文本分类方法。终端的处理器用于提供计算和控制能力,被配置为执行一种文本分类方法。终端的显示屏可以是液晶显示屏或者电子墨水显示屏等。终端的输入装置可以是显示屏上覆盖的触摸层,也可以是终端的外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。终端可以是台式计算机,也可以是如智能手机、平板电脑、个人数字助理、智能穿戴式电子设备等的移动终端。
在一个实施例中,如图6所示,提供了一种文本分类方法,以该方法应用于服务器为例进行说明,具体包括:
步骤602,接收终端发送的文本分类请求。
步骤604,根据文本分类请求获取分类模型。
步骤606,根据分类模型获取对应的文本类别特征权重。
步骤608,将文本类别特征权重返回至终端,以使得终端根据文本类别特征权重对待分类文本进行分类。
本实施例中,服务器上预先存储了分类模型以及分类模型对应的文本类别特征权重。终端可以通过运行的应用程序获取待分类文本,也可以通过浏览器访问多个页面,通过浏览器插件在页面中获取待分类文本。当终端需要对待分类文本进行文本分类时,可以实时向服务器发送文本分类请求。服务器接收文本分类请求,根据文本分类请求获取分类模型以及分类模型获取对应的文本类别特征权重。服务器将将文本类别特征权重返回至终端。终端根据文本类别特征权重对待分类文本进行分类。服务器中存储的分类模型可以是上述实施例中提供的公式(3)或者公式(4)。
当分类模型为公式(3)时,终端还需要遍历待分类文本中的字符或字符串,统计特征词汇出现的频率,生成待分类文本对应的文本向量。终端接收到服务器返回的文本类别特征权重时,终端通过计算计算文本向量与文本类别的特征权重向量的点乘来求得各个文本类别的投票得分,并且将投票得分最高的文本类别确定为待分类文本对应的文本类别。由于该分类模型的算法是一种线性分类算法,具有较高的分类效率,并且具有较低的算法复杂度。因此采用该分类模型进行文本分类,能够有效提高分类效率。
当分类模型为公式(4)时,终端可以省略遍历待分类文本中的字符或字符串,统计特征词汇出现的频率,生成待分类文本对应的文本向量的步骤。终端接收到服务器返回的文本类别特征权重时,可以将文本向量与文本类别的特征权重向量的点乘计算简化为求待分类文本中特征词汇对应的文本类别特征权重值之和。根据多个文本类别的特征权重向量计算特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别。并且将投票得分最高的文本类别确定为待分类文本对应的文本类别。由此使得文本分类的过程得到简化,从而进一步提高了文本分类的效率。
进一步的,服务器向终端返回的文本类别特征权重是非零的权重值,从而使得终端接收到的文本类别特征权重均为有效的权重值,并且能够有效提高文本类别特征权重的传输效率。
本实施例中,通过接收终端发送的文本分类请求,根据文本分类请求获取分类模型,继而根据分类模型获取对应的文本类别特征权重。终端接收到文本类别特征权重,从而能够根据文本类别特征权重对待分类文本进行分类。由于分类模型的训练过程不在终端本地进行,从而减少了终端进行样本训练的过程,进而有效提高了文本分类的效率。
在一个实施例中,在接收终端发送的获取文本分类请求步骤之前,还包括:获取多个训练文本,训练文本包括多个字符或字符串;根据字符或字符串生成训练文本对应的文本向量;根据训练文本对应的文本向量进行训练,得到分类模型。
本实施例中,在服务器上对分类模型训练可以采用上述实施例中提供的在终端对分类模型进行训练的方式。具体的,服务器获取多个训练文本,根据训练文本中的多个字符或字符串生成训练文本对应的文本向量。通过公式(2),服务器利用文本向量和概率函数进行训练,计算每个特征词汇在每个文本类别中的投票权重。根据特征词汇及其对应的每个文本类别中的投票权重来生成每个文本类别的特征权重向量。其中,文本类别的特征权重向量可以采用key-value的数据结构来表示。从而根据多个特征权重向量生成分类模型。分类模型可以是上述实施例中提供的公式(3)或者公式(4)。服务器对分类模型以及训练过程中的文本类别特征权重进行存储。
由于分类模型的训练过程是在服务器上进行的,终端在需要进行文本分类时,可以实时在线通过服务器来获取所需的文本类别特征权重,由此有效提高了文本分类的效率。
进一步的,针对互联网中层出不穷的新词和新用法,可以对分类模型进行更新。具体的,可以按照预设频率获取网络热词,根据网络热词选取适当数量的训练文本,以此对之前的训练文本进行更新。根据本实施例中提供的方式对更新后的训练文本进行训练,从而得到更新后的分类模型。可以利用更新后的分类模型在Web前端进行文本分类,从而使得分类模型能够适用于不断推出网络新词的Web环境。
在一个实施例中,如图7所示,提供了一种文本分类装置,包括:第一获取模702、分类模块704和确定模块706,其中:
第一获取模702,用于获取待分类文本,待分类文本中包括特征词汇;获取分类模型以及分类模型对应的多个文本类别的特征权重向量。
分类模块704,用于根据多个文本类别的特征权重向量计算特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别。
确定模块706,用于将投票得分最高的文本类别确定为待分类文本对应的文本类别。
在一个实施例中,第一获取模块702还用于获取多个训练文本,训练文本包括多个字符或字符串;如图8所示,该装置还包括:第一生成模块708和第一训练模块710,其中:
第一生成模块708,用于根据字符或字符串生成训练文本对应的文本向量。
第一获取模块702还用于获取概率函数。
第一训练模块710,用于利用文本向量和概率函数进行训练,得到多个文本类别的特征权重向量;根据多个特征权重向量生成分类模型。
在一个实施例中,分类模型的公式包括:
c m a p = argmax c r ∈ C { Σ j = 1 m tf j f [ P ( t j | c r ) , P ( t j | c n r ) ] }
其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识;arg max(·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;tfj表示词典j位置的特征词汇词在文本中出现的频率(未出现即是0);P(·)表示概率函数,P(tj|cr)表示第一概率参数,即特征词汇tj在类cr的文本中出现的概率,P(tj|cnr)表示第二概率参数,即特征词汇tj不在类cr的文本中出现的概率。
在一个实施例中,分类模型的公式包括:
c m a p = argmax c r ∈ C { Σ j = 1 m f [ P ( t j | c r ) , P ( t j | c n r ) ] }
其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识;arg max(·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;P(·)表示概率函数,P(tj|cr)表示特征词汇tj在类cr的文本中出现的概率,P(tj|cnr)表示特征词汇tj不在类cr的文本中出现的概率。
在一个实施例中,如图9所示,提供了一种文本分类装置,包括:接收模块902、第二获取模块904和发送模块906,其中:
接收模块902,用于接收终端发送的文本分类请求。
第二获取模块904,用于根据文本分类请求获取分类模型;根据分类模型获取对应的文本类别特征权重。
发送模块906,用于将文本类别特征权重返回至终端,以使得终端根据文本类别特征权重对待分类文本进行分类。
在一个实施例中,第二获取模块904还用于获取多个训练文本,训练文本包括多个字符或字符串;如图10所示,该装置还包括:第二生成模块908和第二训练模块910,其中:
第二生成模块908,用于根据字符或字符串生成训练文本对应的文本向量。
第二训练模块910,用于根据训练文本对应的文本向量进行训练,得到分类模型。
在一个实施例中,如图11所示,提供了一种服务器,包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中,该服务器的存储介质存储有操作系统、数据库和文本分类装置,该文本分类装置用于实现适用于服务器的一种文本分类方法。该服务器的处理器用于提供计算和控制能力,支撑整个服务器的运行。该服务器的内存为存储介质中的文本分类装置的运行提供环境。该服务器的网络接口用于据以与外部的终端通过网络连接通信,比如接收终端通过浏览器发送的文本分类请求,向终端返回文本类别特征权重等。服务器可以采用独立的服务器或者是集群服务器来实现。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本分类方法,所述方法包括:
获取待分类文本,所述待分类文本中包括特征词汇;
获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;
根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;
将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。
2.根据权利要求1所述的方法,其特征在于,在所述获取待分类文本步骤之前,还包括:
获取多个训练文本,所述训练文本包括多个字符或字符串;
根据所述字符或字符串生成所述训练文本对应的文本向量;
获取概率函数,利用所述文本向量和概率函数进行训练,得到多个文本类别的特征权重向量;
根据多个特征权重向量生成所述分类模型。
3.根据权利要求1或2所述的方法,其特征在于,所述分类模型的公式包括:
c m a p = argmax c r ∈ C { Σ j = 1 m f [ P ( t j | c r ) , P ( t j | c n r ) ] }
其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识;argmax(·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;P(·)表示概率函数,P(tj|cr)表示特征词汇tj在类cr的文本中出现的概率,P(tj|cnr)表示特征词汇tj不在类cr的文本中出现的概率。
4.一种文本分类方法,所述方法包括:
接收终端发送的文本分类请求;
根据所述文本分类请求获取分类模型;
根据所述分类模型获取对应的文本类别特征权重;
将所述文本类别特征权重返回至所述终端,以使得所述终端根据所述文本类别特征权重对待分类文本进行分类。
5.根据权利要求4所述的方法,其特征在于,在所述接收终端发送的获取文本分类请求步骤之前,还包括:
获取多个训练文本,所述训练文本包括多个字符或字符串;
根据所述字符或字符串生成所述训练文本对应的文本向量;
根据所述训练文本对应的文本向量进行训练,得到所述分类模型。
6.一种文本分类装置,其特征在于,所述装置包括:
第一获取模,用于获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;
分类模块,用于根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;
确定模块,用于将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。
7.根据权利要求6所述的装置,其特征在于,所述第一获取模块还用于获取多个训练文本,所述训练文本包括多个字符或字符串;
所述装置还包括:
第一生成模块,用于根据所述字符或字符串生成所述训练文本对应的文本向量;
所述第一获取模块还用于获取概率函数;
第一训练模块,用于利用所述文本向量和概率函数进行训练,得到多个文本类别的特征权重向量;根据多个特征权重向量生成所述分类模型。
8.根据权利要求6或7所述的装置,其特征在于,所述分类模型的公式包括:
c m a p = argmax c r ∈ C { Σ j = 1 m f [ P ( t j | c r ) , P ( t j | c n r ) ] }
其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识;argmax(·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;P(·)表示概率函数,P(tj|cr)表示特征词汇tj在类cr的文本中出现的概率,P(tj|cnr)表示特征词汇tj不在类cr的文本中出现的概率。
9.一种文本分类装置,其特征在于,所述装置包括:
接收模块,用于接收终端发送的文本分类请求;
第二获取模块,用于根据所述文本分类请求获取分类模型;根据所述分类模型获取对应的文本类别特征权重;
发送模块,用于将所述文本类别特征权重返回至所述终端,以使得所述终端根据所述文本类别特征权重对待分类文本进行分类。
10.根据权利要求9所述的装置,其特征在于,所述第二获取模块还用于获取多个训练文本,所述训练文本包括多个字符或字符串;
所述装置还包括:
第二生成模块,用于根据所述字符或字符串生成所述训练文本对应的文本向量;
第二训练模块,用于根据所述训练文本对应的文本向量进行训练,得到所述分类模型。
CN201610388041.1A 2016-06-02 2016-06-02 文本分类方法和装置 Active CN106095845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610388041.1A CN106095845B (zh) 2016-06-02 2016-06-02 文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610388041.1A CN106095845B (zh) 2016-06-02 2016-06-02 文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN106095845A true CN106095845A (zh) 2016-11-09
CN106095845B CN106095845B (zh) 2021-04-06

Family

ID=57447438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610388041.1A Active CN106095845B (zh) 2016-06-02 2016-06-02 文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN106095845B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789895A (zh) * 2016-11-18 2017-05-31 东软集团股份有限公司 压缩文本检测方法和装置
CN108021713A (zh) * 2017-12-28 2018-05-11 北京奇艺世纪科技有限公司 一种文档聚类的方法和装置
CN108334895A (zh) * 2017-12-29 2018-07-27 腾讯科技(深圳)有限公司 目标数据的分类方法、装置、存储介质及电子装置
CN108460080A (zh) * 2018-01-09 2018-08-28 南京邮电大学 基于特征二维信息增益加权的朴素贝叶斯文本分类方法
CN109740152A (zh) * 2018-12-25 2019-05-10 腾讯科技(深圳)有限公司 文本类目的确定方法、装置、存储介质和计算机设备
CN110019776A (zh) * 2017-09-05 2019-07-16 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN110147499A (zh) * 2019-05-21 2019-08-20 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN111400437A (zh) * 2020-02-19 2020-07-10 北京三快在线科技有限公司 互联网信息响应方法、装置、电子设备和计算机可读介质
WO2020155766A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 意图识别中的拒识方法、装置、设备及存储介质
CN111708888A (zh) * 2020-06-16 2020-09-25 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、终端和存储介质
WO2022095637A1 (zh) * 2020-11-06 2022-05-12 苏州浪潮智能科技有限公司 一种故障日志分类方法、系统、设备以及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114313A1 (en) * 2003-11-26 2005-05-26 Campbell Christopher S. System and method for retrieving documents or sub-documents based on examples
US20080162384A1 (en) * 2006-12-28 2008-07-03 Privacy Networks, Inc. Statistical Heuristic Classification
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN102236639A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 更新语言模型的系统和方法
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN103678310A (zh) * 2012-08-31 2014-03-26 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN104142998A (zh) * 2014-08-01 2014-11-12 中国传媒大学 一种文本分类方法
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN105164681A (zh) * 2013-03-15 2015-12-16 谷歌公司 用于翻译应用的对话用户接口的自动调用
CN105426839A (zh) * 2015-11-18 2016-03-23 清华大学 基于稀疏自动编码器的电力系统过电压分类方法
CN105630931A (zh) * 2015-12-22 2016-06-01 浪潮软件集团有限公司 一种文档分类的方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114313A1 (en) * 2003-11-26 2005-05-26 Campbell Christopher S. System and method for retrieving documents or sub-documents based on examples
US20080162384A1 (en) * 2006-12-28 2008-07-03 Privacy Networks, Inc. Statistical Heuristic Classification
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统
CN102236639A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 更新语言模型的系统和方法
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103678310A (zh) * 2012-08-31 2014-03-26 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN105164681A (zh) * 2013-03-15 2015-12-16 谷歌公司 用于翻译应用的对话用户接口的自动调用
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104142998A (zh) * 2014-08-01 2014-11-12 中国传媒大学 一种文本分类方法
CN105426839A (zh) * 2015-11-18 2016-03-23 清华大学 基于稀疏自动编码器的电力系统过电压分类方法
CN105630931A (zh) * 2015-12-22 2016-06-01 浪潮软件集团有限公司 一种文档分类的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨莉等: "基于特征词权重的文本分类", 《计算机与现代化》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789895A (zh) * 2016-11-18 2017-05-31 东软集团股份有限公司 压缩文本检测方法和装置
CN110019776A (zh) * 2017-09-05 2019-07-16 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN110019776B (zh) * 2017-09-05 2023-04-28 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN108021713A (zh) * 2017-12-28 2018-05-11 北京奇艺世纪科技有限公司 一种文档聚类的方法和装置
CN108334895A (zh) * 2017-12-29 2018-07-27 腾讯科技(深圳)有限公司 目标数据的分类方法、装置、存储介质及电子装置
CN108334895B (zh) * 2017-12-29 2022-04-26 腾讯科技(深圳)有限公司 目标数据的分类方法、装置、存储介质及电子装置
CN108460080B (zh) * 2018-01-09 2020-12-08 南京邮电大学 基于特征二维信息增益加权的朴素贝叶斯文本分类方法
CN108460080A (zh) * 2018-01-09 2018-08-28 南京邮电大学 基于特征二维信息增益加权的朴素贝叶斯文本分类方法
CN109740152A (zh) * 2018-12-25 2019-05-10 腾讯科技(深圳)有限公司 文本类目的确定方法、装置、存储介质和计算机设备
CN109740152B (zh) * 2018-12-25 2023-02-17 腾讯科技(深圳)有限公司 文本类目的确定方法、装置、存储介质和计算机设备
WO2020155766A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 意图识别中的拒识方法、装置、设备及存储介质
CN110147499A (zh) * 2019-05-21 2019-08-20 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN111400437A (zh) * 2020-02-19 2020-07-10 北京三快在线科技有限公司 互联网信息响应方法、装置、电子设备和计算机可读介质
CN111708888A (zh) * 2020-06-16 2020-09-25 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、终端和存储介质
CN111708888B (zh) * 2020-06-16 2023-10-24 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、终端和存储介质
WO2022095637A1 (zh) * 2020-11-06 2022-05-12 苏州浪潮智能科技有限公司 一种故障日志分类方法、系统、设备以及介质

Also Published As

Publication number Publication date
CN106095845B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN106095845A (zh) 文本分类方法和装置
Zhou et al. Learning continuous word embedding with metadata for question retrieval in community question answering
CN105589948B (zh) 一种文献引用网络可视化及文献推荐方法及系统
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
CN102831184B (zh) 根据对社会事件的文字描述来预测社会情感的方法及系统
Wang et al. Product weakness finder: an opinion-aware system through sentiment analysis
US10642975B2 (en) System and methods for automatically detecting deceptive content
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
US9881059B2 (en) Systems and methods for suggesting headlines
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN106325488B (zh) 一种输入方法、输入装置、服务器和输入系统
Gao et al. Text classification research based on improved Word2vec and CNN
CN104794108A (zh) 网页标题抽取方法及其装置
CN107885785A (zh) 文本情感分析方法和装置
CN106294330A (zh) 一种科技文本挑选方法及装置
Figueroa Male or female: What traits characterize questions prompted by each gender in community question answering?
Jha et al. Reputation systems: Evaluating reputation among all good sellers
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
CN103106211A (zh) 客户咨询文本的情感识别方法及装置
Zhang et al. DSGPT: Domain-specific generative pre-training of transformers for text generation in e-commerce title and review summarization
Angelpreethi et al. An enhanced architecture for feature based opinion mining from product reviews
CN106708932A (zh) 问答类网站的回复的摘要提取方法及装置
Feng et al. Recommended or not recommended? Review classification through opinion extraction
CN108021609A (zh) 文本情感分类方法、装置、计算机设备和存储介质
Liu et al. Automatic Text Summarization Method Based on Improved TextRank Algorithm and K-Means Clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant