CN108536800B - 文本分类方法、系统、计算机设备和存储介质 - Google Patents

文本分类方法、系统、计算机设备和存储介质 Download PDF

Info

Publication number
CN108536800B
CN108536800B CN201810290044.0A CN201810290044A CN108536800B CN 108536800 B CN108536800 B CN 108536800B CN 201810290044 A CN201810290044 A CN 201810290044A CN 108536800 B CN108536800 B CN 108536800B
Authority
CN
China
Prior art keywords
industry
text information
classified
classification
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810290044.0A
Other languages
English (en)
Other versions
CN108536800A (zh
Inventor
翁永金
李百川
冯珏曦
李锦胜
陈第
蔡锐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN201810290044.0A priority Critical patent/CN108536800B/zh
Publication of CN108536800A publication Critical patent/CN108536800A/zh
Application granted granted Critical
Publication of CN108536800B publication Critical patent/CN108536800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请涉及一种文本分类方法、系统、计算机设备和存储介质。所述方法包括:获取待分类文本信息的特征词,根据特征词和预先建立的行业特征词库,得到待分类文本信息对应的初始行业标签,根据初始行业标签和预设的分类模型,得到待分类文本信息对应初始行业标签中各行业标签的第一行业概率,根据已知行业分类的已知文本信息、待分类文本信息及其对应的初始行业标签,建立迭代模型,根据迭代模型,得到待分类文本信息对应初始行业标签中各行业标签的第二行业概率,根据第一行业概率和第二行业概率,从初始行业标签中确定出待分类文本信息对应的行业分类。采用本方法能够使行业分类的结果更加准确。

Description

文本分类方法、系统、计算机设备和存储介质
技术领域
本申请涉及文本挖掘技术领域,特别是涉及一种文本分类方法、系统、计算机设备和存储介质。
背景技术
随着互联网的发展,传统的营销行业也愈发焕发生机,营销渠道逐渐从线下转到线上,广告文案也随之呈现爆炸性的增长。广告文案实质上是属于短文本范畴的文本信息,其文本内容较少,具有特征稀疏、缺少上下文信息、信息量少等缺点,同时广告文案为了吸引用户一般呈现的内容含义均是比较表面的。若能利用文本信息对广告文案进行行业分类,不同行业企业便可有的放矢地参考同行文案创意来提升自身广告效果。
针对短文本分类,目前常见的文本分类方法有以下方法:
(1)人工经验标注方法:人工依靠经验对广告文案进行分类;
(2)基于模型的自动分类方法,一般是先对文本进行特征处理再通过相应的算法,如基于朴素贝叶斯(Bayes)、支持向量机(SVM,Support Vector Machine)、人工神经网络(ANN,artificial neural network)、k最邻近(kNN,k-Nearest Neighbor)等进行判别。
对于人工分类,虽能保证准确率但拓展性差,很难达到实用的标准。对于模型虽能自动化实现分类,但如SVM、ANN等算法一般均为黑箱,人为没办法从特征角度理解其机理,同时对于不同模型在不同业务背景下效果区别较大。从而导致文本信息进行行业分类时准确性较低和效率均较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决文本信息进行行业分类时准确性较低和效率均较低的文本分类方法、系统、计算机设备和存储介质。
一种文本分类方法,所述方法包括:
获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;
根据预设的分类模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率;
根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型,根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率;
根据所述第一行业概率以及所述第二行业概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
上述文本分类方法,包括三层分类结构框架,即通过行业特征词库的匹配,实现分类的第一层结构框架,得到初始行业标签,对于未能实现分类的文本信息,将初始行业标签,通过预先训练的分类模型,得到初始行业标签中每个行业标签的第一行业概率,根据第一行业概率进行分类,实现分类的第二层结构框架,在第二层框架未能满足准确性要求时,通过已知行业分类的已知文本信息,建立迭代模型,得到初始行业标签中每个行业标签的第二行业概率,然后根据所述第一行业概率以及所述第二行业概率进行分类,实现分类的第三层结构框架。本发明实施例,通过上述分类的三层结构框架,使行业分类的结果更加准确,分类更加快速。
一种文本分类系统,所述系统包括:
初始标签获取模块,用于获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;
第一预测模块,用于根据预设的分类模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率;
第二预测模块,用于根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型;根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率;
分类模块,用于根据所述第一行业概率以及所述第二行业概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
上述文本分类系统,包括三层分类结构框架,即初始标签获取模块通过行业特征词库的匹配,实现分类的第一层结构框架,得到初始行业标签,对于未能实现分类的文本信息,第一预测模块将初始行业标签通过预先训练的分类模型,得到初始行业标签中每个行业标签的第一行业概率,根据第一行业概率进行分类,实现分类的第二层结构框架,在第二层框架未能满足准确性要求时,第二预测模块通过已知行业分类的已知文本信息,建立迭代模型,得到初始行业标签中每个行业标签的第二行业概率,然后根据所述第一行业概率以及所述第二行业概率进行分类,分类模块实现分类的第三层结构框架。本发明实施例,通过上述分类的三层结构框架,使行业分类的结果更加准确,分类更加快速。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;
根据预设的分类模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率;
根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型,根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率;
根据所述第一行业概率以及所述第二行业概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
上述计算机设备,通过处理器执行计算机程序,实现分类的三层结构框架,使行业分类的结果更加准确,分类更加快速。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;
根据预设的分类模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率;
根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型,根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率;
根据所述第一行业概率以及所述第二行业概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
上述计算机可读存储介质,其上存储的计算机程序被处理器执行,实现分类的三层结构框架,使行业分类的结果更加准确,分类更加快速。
附图说明
图1为一个实施例中文本分类方法的应用环境图;
图2为一个实施例中文本分类方法的流程示意图;
图3为一实施例中利用初始行业标签进行文本分类方法的流程示意图;
图4为另一个实施例中分词处理的流程示意图;
图5为一实施例中利用第一行业概率进行文本信息行业分类的方法的流程示意图;
图6为另一实施例中文本分类方法的流程示意图;
图7为一具体实施例中文本分类方法的流程示意图;
图8为一个实施例中文本分类系统的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本分类方法,可以应用于如图1所示的应用环境中。在图1中,服务器102通过网络与各个终端104-1、104-2以及104-3进行通信。服务器102将采集的文本信息进行行业分类,并将文本信息所对应的广告文案投放至对应行业中,终端104-1、终端104-2、终端104-3可以表示三个浏览不同行业广告文案的终端,那么利用服务器102分类好的广告文案,将分别显示在终端104-1、终端104-2以及终端104-3,值得说明的是,这里选择三个终端只是起说明作用,对本发明实施例不做限制。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现,文本信息不限于广告文案,也可以是其他短文本数据。
在一个实施例中,如图2所示,提供了一种文本分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤201,获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签。
其中,步骤201中的特征词是出现在文本信息中的词汇,一般来说,特征词能大概的体现文本信息的内容;行业特征词库可以是一个数据库,该数据库中存储有多个行业的行业特征词,行业特征词是指某一行业常用或者出现频率高的词汇,这些词汇组成一个行业的行业特征词,可以通过多个行业特征词组成行业特征词库。
另外,文本信息的特征词可以是一个,也可以是多个,初始行业标签中可以包括一个行业标签,也可以包括多个行业标签。
值得说明的是,行业标签属于本发明实施例中进行行业识别的一种处理方式,通过识别到某一标签,就可以得到该标签对应的行业。
步骤202,根据预设的分类模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率。
其中,步骤202中的分类模型可以是根据多分类算法训练而成,用以实现对初始行业标签中行业标签的概率预测,第一行业标签可以通过向量的形式表示各个行业标签的概率。
值得说明的是,多分类算法有多种选择,例如:逻辑回归算法、贝叶斯算法等,在本实施例中,在不同的使用场景下,技术效果可能不一样,因此,不限于在本实施例中分类算法的选择。
步骤203,根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型,根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率。
其中,步骤203中,已知行业分类的已知文本信息可以是通过各种途经得到已知文本信息的行业分类,然后对其所述行业分类进行标注。迭代模型是通过两个以上的迭代公式组成的。
步骤204,根据所述第一行业概率以及所述第二行业概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
其中,步骤204中,可以通过第一行业概率以及所述第二行业概率得到初始行业标签中每个行业标签对应的概率,从而确定出待分类文本信息的行业分类。
上述文本分类方法,包括三层分类结构框架,即通过行业特征词库的匹配,实现分类的第一层结构框架,得到初始行业标签,对于未能实现分类的文本信息,将初始行业标签,通过预先训练的分类模型,得到初始行业标签中每个行业标签的第一行业概率,根据第一行业概率进行分类,实现分类的第二层结构框架,在第二层框架未能满足准确性要求时,通过已知行业分类的已知文本信息,建立迭代模型,得到初始行业标签中每个行业标签的第二行业概率,然后根据所述第一行业概率以及所述第二行业概率进行分类,实现分类的第三层结构框架。本发明实施例,通过上述分类的三层结构框架,使行业分类的结果更加准确,分类更加快速。
以下对本发明的三层结构框架进行详细说明。
框架一
在一实施例中,如图3所示,提供一种利用初始行业标签进行文本分类方法,该方法的步骤如下:
步骤301,获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签。
步骤302,判断所述初始行业标签中的行业标签是否唯一。
步骤303,若是,则将唯一的所述行业标签作为所述待分类文本信息的行业分类。
步骤304,若否,则进行第二层结构框架的进一步分类。
对于301的步骤,在一实施例中,可以通过对文本信息先进行分词处理,剔除分词处理结果中的异常词汇,得到文本信息的特征词,异常词汇可以包括:单字、停用词、地名中的一个以上。
本实施例中,特征词可以涵盖待预测文本信息的要内容,然而单字、停用词、地名均是各行业或者各场景的通用词,因此,需要将单字、停用词、地名等删除,以此得到准确的文本信息的特征词。
对于301的步骤,还可以根据预先建立的行业特征词汇库,对所述特征词与行业特征词汇库进行全匹配和/或正则匹配;得到行业特征词汇库中各行业标签与待分类文本信息的特征词的匹配频次;取匹配频次高的多个行业标签作为待分类文本信息的初始行业标签。
本实施例中,如图4所示,以“专注深耕精细化移动营销服务”的文本信息1为例,进行说明,进行分词处理后,文本信息1的特征词为“专注;深耕;精细;移动;营销;服务”,在进行全匹配时,分别取文本信息1的每个特征词,在行业特征词库中匹配,得到匹配到的行业标签,并记录每个行业标签的匹配频次,在进行正则匹配时,将文本信息1中的特征词做如下处理,例如“专注”处理为“*专注”、“专注*”和/或“*专注*”,其中“*”表示待定词/字,然后在行业特征词库中进行匹配,得到匹配到的行业标签,并记录每个行业标签的特征词,值得说明的是,在不同的场景下,可以使用全匹配或者正则匹配,也可以采用全匹配和正则匹配结合的方式,使本实施例的匹配速度、匹配准确度满足要求。根据上述得到的匹配结果,通过匹配频次,可以确定与文本信息接近的行业标签,具体是通过匹配频次的高低,在本实施例中,选择频次高的多个行业标签作为文本信息的初始行业标签。
对于本实施例中的行业特征词库,在另一实施例中,可以获取所述已知行业标签的已知文本信息;对同一行业标签对应的所有的已知文本信息进行分词处理,得到同一行业标签对应的候选特征词汇集合;将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点,得到每个词汇的TextRank值;根据词汇的TextRank值,建立行业特征词库。
在一实施例中,可以从预先设置的文本库中获取已知行业标签的已知文本信息,文本库中预先存储了多条已知文本信息,并且在后续过程中,可以持续添加文本库中已知文本信息的数目。
值得说明的是,在一实施例中,可以将初始行业标签的分类结果存入文本库中,分类结果包括文本信息的文本部分以及行业分类部分。
可选的,在TextRank模型中,设置窗口的长度为k,对如下已知文本信息{w1,w2,w3,w4,w5,...,wn}进行处理,其中wn表示已知文本信息中的特征词,该文本信息的窗口为{w1,w2,..,wk}、{w2,w3,..,wk+1}、{w3,w4,..,wk+2}、…、{wn-k,wn-(k-1),..,wn}。在一窗口中任意两个节点之间存在两个特征词共现的次数作为权重的边,所有特征词与其共现关系构成带权重的无向图,然后利用如下公式计算不同行业中每个特征词的重要性:
Figure BDA0001617234480000081
其中,WS(Vi)表示第i个特征词Vi的重要值,d表示阻尼系数,In(Vi)表示与第i个特征词Vi共现的词汇集合,Out(Vj)表示与第j个特征词Vj共现的词汇集合,wij表示第i个特征词Vi与第j个特征词Vj的共现权重。
将上述重要值作为每个特征词的TextRank值。
可选的,阻尼系数d可以取0.85。但是不限于0.85,也可以根据使用场景,选择0.8或者0.9等值。
可选的,可以通过以下方式根据词汇的TextRank值,建立行业特征词库:对于每个行业,选择TextRank值靠前的词汇,作为该行业的特征词,并以此建立行业特征词库。
在一实施例,建立行业特征词库之后,由于行业特征词库中行业标签与其对应的特征词匹配度越高,那么进行初始行业标签进行文本分类时的结果越准确,因此,还需要对行业特征词库进行更新,具体过程如下:将通过初始行业标签进行文本分类结果存入分类库中对应部分,然后对分类库中初始行业标签分类结果进行随机抽检,通过获取分类结果的实际行业分类,然后计算此次随机抽检中分类结果的准确率,设定预设准确率,在准确率小于预设准确率时,将该已知文本信息的特征词存入对应的实际行业分类的行业中,实现行业特征词库的更新。
在一实施例中,如果上述对行业特征词库的更新总是不能达到精度的要求,可以通过人为选择特征词的方式,以此更新行业特征词库。
可选的,可以通过人工标定的方式获取分类结果的实际行业分类。
可选的,预设准确率可以选择95%,可以选择其他的值作为预设准确率。
框架二
在一实施例中,如图5所示,还提供一种利用第一行业概率进行文本信息行业分类的方法,该方法具体如下:
步骤501,获取待分类文本信息的初始行业标签。
步骤502,根据初始行业标签以及预设的分类模型,得到待分类文本信息对应的初始行业标签中各所述行业标签的第一行业概率。
步骤503,判断利用所述第一行业概率进行待分类文本信息行业分类的准确率。
步骤504,若准确率达预设准确率值,则将第一行业概率进行待分类文本信息行业分类的分类结果作为待分类文本信息的行业分类。
步骤505,若准确率低于预设准确率,则利用第三层结构框架进一步分类。
在一实施例中,对于502的步骤,可以根据预设语料库训练预设维度的词向量模型,将所述待分类文本信息的特征词依次输入所述词向量模型,得到每个所述特征词对应的词向量;根据每个所述特征词对应的词向量,得到所述待分类文本信息的特征向量,然后将所述特征向量输入预设的分类模型中,得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的第一行业标签概率。
可选的,可以基于百度百科语料库训练K维(K取50-300)的词向量模型Vec(wordi)=(v1,v2,K,vK),将待分类文本信息的特征词依次输入词向量模型中,从而得到待分类文本信息作为为初始行业标签中各行业时的特征向量:
Figure BDA0001617234480000101
其中,V表示特征向量,n表示特征词的数目。
对于502的步骤,在另一实施例中,可以通过已知行业分类的已知文本信息训练得到分类模型,该分类模型可以选用逻辑回归模型。
值得说明的是,分类模型不限于逻辑回归模型,也可以选择其他的例如贝叶斯模型,均可以得到本发明实施例的结果。
对于步骤502中的分类模型,在一实施例中,可以从选择若干已知行业分类的已知文本信息作为分类模型训练的样本,如若分类模型选择逻辑回归模型,则将已知行业分类的已知文本信息的特征向量作为逻辑回归模型的输入,已知行业分类的已知文本信息的行业分类作为逻辑回归模型的输出,以此训练逻辑回归模型。
可选的,该分类模型可以是多分类模型,因此可以是由逻辑回归算法构建多分类模型。
值得说明的是,在一实施例中,可以将第一行业概率进行分类的分类结果存入文本库中,分类结果包括待分类文本信息的文本部分以及行业分类部分。
对于503的步骤,在一实施例中,可以将通过第一行业概率进行待分类文本信息的行业分类结果存入分类库中对应部分,然后对分类库中第一行业概率分类结果进行随机抽检,通过获取待分类文本信息的实际行业分类,然后计算此次随机抽检中分类结果的准确率。
对于505的步骤,在一实施例中,可以预先设定准确率阈值,在503中准确率小于该预先设定的准确率阈值时,判断准确率低于预设准确率。
框架三
在一实施例中,如图6所示,提供一种根据所述第一行业概率以及所述第二行业概率进行行业分类,实现文本信息行业分类的方法,该方法具体流程如下:
步骤601,根据预先设置的文本库中的已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型。
步骤602,根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率。
步骤603,根据所述第一行业概率以及所述第二行业概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
对于601的步骤,在一实施例中,根据所述已知文本信息和所述待分类文本信息,得到文本集合;根据所述已知文本信息的特征词和所述待分类文本信息的特征词,得到特征词汇集合;建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正映射关系和反映射关系;根据所述正映射关系和反映射关系,分别得到所述特征词汇集合中的特征词的正向行业概率公式以及所述文本集合中的文本的反向行业概率公式;根据所述正向行业概率公式和所述反向行业概率公式,建立迭代模型。
在本实施例中,已知文本信息的行业分类是已知的,而待分类文本信息的行业分类是未知的,首先需要建立索引,具体可以根据所述已知文本信息的文本信息和所述待分类文本信息的文本信息,得到文本集合A,根据所述待分类已知文本信息的特征词和所述待分类文本信息的特征词,得到特征词汇集合W,得到的映射关系如下:
Figure BDA0001617234480000111
其中,ai表示文本集合中第i个文本,wi表示特征词汇集合中第i个特征词汇。
根据上述映射关系,得到正向行业概率公式为:
Figure BDA0001617234480000112
其中,k1表示特征词汇wi能映射到的文本数目。
得到反向行业概率为:
Figure BDA0001617234480000121
其中,k2表示文本集合A中文本ai能映射到特征词汇集合W中特征词汇的数目。
可以将正向行业概率公式和反向行业概率公式作为迭代公式。
对于602的步骤,在一实施例中,可以获取各已知文本信息的初始状态向量以及所述待分类文本信息的初始状态向量;其中,所述初始状态向量是已知文本信息或者文本信息初始状态下各行业标签的概率的向量;将所述初始状态向量作为迭代模型的初始状态;设置所述迭代模型的迭代次数以及迭代误差阈值;在所述迭代误差小于所述迭代误差阈值,或迭代到所述迭代次数时,将所述迭代模型输出的结果作为第二行业概率。
具体的,已知文本信息的初始状态向量和文本信息的初始状态向量分别为:
Figure BDA0001617234480000122
然后设置迭代次数为L,迭代的迭代误差为:
Figure BDA0001617234480000123
cost为迭代误差的代价函数,
Figure BDA0001617234480000124
表示文本集合中文本ai属于各行业的真实概率值,
Figure BDA0001617234480000125
表示文本集合中文本ai属于各行业的预测概率值。设置迭代误差阈值为δ。
然后根据上述迭代模型进行迭代,在迭代误差小于所述迭代误差阈值,或迭代到所述迭代次数时,将所述迭代模型输出的结果作为第二行业概率。
在一实施例中,在步骤601之后,还可以根据所述文本集合中文本的数目以及所述文本集合中文本对应的所述行业标签的数目,进行加权处理得到每个所述行业标签的权重;根据所述行业标签的权重,更新所述初始状态向量。
具体的,为了降低因样本类别倾斜的影响,提高迭代的稳定性,首先,不同行业标签的文本按以下公式计算第i个行业标签的权重:
Figure BDA0001617234480000131
其中,M表示文本集合中文本的数目,N表示文本映射到行业标签的数目,ni表示第i个行业标签映射到文本集合中文本的数目,θi表示第i个行业标签的权重。
另外,在一实施例中,还需要对第i个行业标签的权重θi进行归一化处理,具体如下:根据所述行业标签的权重的最大值以及所述行业标签的权重的最小值,对各个所述行业标签的权重进行归一化处理。
可选的,可以采用如下公式对第i个行业标签的权重θi进行归一化处理:
Figure BDA0001617234480000132
其中,min(θ)表示行业标签的权重最小值,max(θ)表示行业标签的权重最大值,θi′表示归一化后第i个行业标签的权重θi
在一实施例中,可以根据上述归一化处理后的结果,更新已知文本信息的初始状态向量和待分类文本信息的初始状态向量分别为:
Figure BDA0001617234480000133
对于603的步骤,在一实施例中,根据预先设置的权值,对所述第一行业概率和所述第二行业概率进行加权处理,得到最终行业概率;确定所述最终行业标签概率最大的行业标签,由此确定所述待分类文本信息的行业分类。
具体的,第一行业概率P(1)=(p1,p2,K,pn),第二行业概率P(2)=(p1,p2,K,pn),设置权值为α,那么最终行业概率P(3)=αP(1)+(1-α)P(2)
以下结合一具体实施例,进行详细说明。
如图7所示,提供一具体文本分类方法,步骤如下:
步骤701,对待分类文本信息进行分词处理,剔除其中的异常词汇,得到待分类文本信息的特征词。
步骤702,将特征词在预设的行业特征词库中进行全匹配和/或正则匹配,得到待分类文本信息可能的行业标签,然后根据匹配频次,得到待分类文本信息的初始行业标签。
步骤703,判断初始行业标签中行业标签是否唯一,若行业标签唯一,则将该行业标签作为文本信息的行业分类,若行业标签不唯一,则进行进一步的判断。
步骤704,将待分类文本信息的初始行业标签中每个行业标签均作为待分类文本信息的行业分类,然后通过逻辑回归模型得到对应于每个行业标签的第一行业概率。
步骤705,判断第一行业标签进行行业分类时的结果是否准确,若是,则将第一行业概率中概率最大的行业标签作为文本信息的行业分类,若否,则需要进行进一步的分类。
步骤706,从文本库获取若干已知行业分类的已知文本信息,建立文本集合和特征词汇集合,然后根据文本集合和特征词汇集合建立迭代模型,根据迭代模型得到第二行业概率。
步骤707,根据第一行业概率和第二行业概率,得到最终行业概率,将最终行业概率中概率最大的行业标签作为待分类文本信息的行业分类。
上述实施例中,文本信息可以是一条文本信息,也可以是多条文本信息,因此,本发明实施例可以处理单个文本信息,实现单个待分类文本信息的行业分类,那么行业特征词库可以是根据历史记录预先建立好的,文本库也可以是通过历史记录建立的,本发明实施例也可以同时处理大批量数据,同一批数据中有大部分可以通过初始行业标签分类直接得到待分类文本信息的行业分类,可以通过这些数据,建立行业特征词库和文本库,也可以通过这些数据更新行业特征词库,对于另一部分无法通过初始行业标签分类的数据,可以通过第一行业标签进行分类,在训练逻辑回归模型时,可以通过初始行业标签分类的数据进行训练,在第一分类标签进行行业分类的结果不准确时,可以通过已知行业分类的已知文本信息对未知行业分类的文本信息进行传播分析,得到第二行业概率,从而的得到最终的最终行业分类。
因此,本发明实施例,可以适用于单个文本数据,在处理大批量数据时,无需额外的数据,即可以完成行业的分类。
应该理解的是,虽然图2、3、5、6、7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3、5、6、7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种文本分类系统,包括:初始标签获取模块801、第一预测模块802、第二预测模块803和分类模块804,其中:
初始标签获取模块801,用于获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签。
第一预测模块802,用于根据预设的分类模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率。
第二预测模块803,用于根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型,根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率。
分类模块804,用于根据所述第一行业概率以及所述第二行业概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
上述文本分类系统,包括三层分类结构框架,即初始标签获取模块通过行业特征词库的匹配,实现分类的第一层结构框架,得到初始行业标签,对于未能实现分类的文本信息,第一预测模块将初始行业标签通过预先训练的分类模型,得到初始行业标签中每个行业标签的第一行业概率,根据第一行业概率进行分类,实现分类的第二层结构框架,在第二层框架未能满足准确性要求时,第二预测模块通过已知行业分类的已知文本信息,建立迭代模型,得到初始行业标签中每个行业标签的第二行业概率,然后根据所述第一行业概率以及所述第二行业概率进行分类,分类模块实现分类的第三层结构框架。本发明实施例,通过上述分类的三层结构框架,使行业分类的结果更加准确,分类更加快速。
在一个实施例中,还包括行业特征词库建立模块,行业特征词库建立模块用于获取所述已知行业标签的已知文本信息;对同一行业标签对应的所有的已知文本信息进行分词处理,得到同一行业标签对应的候选特征词汇集合;将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点,得到每个词汇的TextRank值;根据词汇的TextRank值,建立行业特征词库。
在一个实施例中,所述分类模型包括:根据所述已知行业分类的已知文本信息训练得到的逻辑回归模型;第一预测模块802还用于根据所述逻辑回归模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中每个所述行业标签的第一行业概率。
在一个实施例中,第二预测模块802还用于根据所述已知文本信息和所述待分类文本信息,得到文本集合;根据所述已知文本信息的特征词和所述待分类文本信息的特征词,得到特征词汇集合;建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正映射关系和反映射关系;根据所述正映射关系和反映射关系,分别得到所述特征词汇集合中的特征词的正向行业概率公式以及所述文本集合中的文本的反向行业概率公式;根据所述正向行业概率公式和所述反向行业概率公式,建立迭代模型。
在一个实施例中,第二预测模块802还用于获取各已知文本信息的初始状态向量以及所述待分类文本信息的初始状态向量;其中,所述初始状态向量是已知文本信息或者文本信息初始状态下各行业标签的概率的向量;将所述初始状态向量作为迭代模型的初始状态;获取预先设置的所述迭代模型的迭代次数以及迭代误差阈值;在所述迭代误差小于所述迭代误差阈值,或迭代到所述迭代次数时,将所述迭代模型输出的结果作为第二行业概率。
在一个实施例中,还包括初始状态更新模块,初始状态更新模块用于根据所述文本集合中文本信息的数目以及所述文本集合中文本信息对应的所述行业标签的数目,进行加权处理得到每个所述行业标签的权重;根据所述行业标签的权重,更新所述初始状态向量。
在一个实施例中,还包括行业标签权重设置模块,行业标签权重设置模块用于根据所述行业标签的权重的最大值以及所述行业标签的权重的最小值,对各个所述行业标签的权重进行归一化处理。
在一个实施例中,还包括第一分类模块,第一分类模块用于若所述初始行业标签中行业标签唯一,则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。
在一个实施例中,还包括存储模块,存储模块用于将所述待分类文本信息及其对应的行业分类存入预先设置的文本库中,其中,所述文本库用于存储所述已知文本信息。
在一个实施例中,还包括行业特征词库更新模块,行业特征词库更新模块用于将初始行业标签的分类结果存入预先设置的分类库中;从所述分类库中获取多条文本信息对应的初始行业标签的分类结果,获取所述待分类文本信息的实际行业分类,统计所述初始行业标签的分类结果的准确率,在所述准确率小于预设准确率时,根据所述文本库中的已知行业分类的已知文本信息、文本信息机器实际行业分类,更新所述行业特征词库。
在一个实施例中,分类模块804还用于根据预先设置的权值,对所述第一行业概率和所述第二行业概率进行加权处理,得到最终行业概率;确定所述最终行业标签概率最大的行业标签,由此确定所述待分类文本信息的行业分类。
在一个实施例中,初始标签获取模块801还用于对所述待分类文本信息进行分词处理,剔除所述分词处理结果中的异常词汇,得到所述待分类文本信息的特征词;所述异常词汇包括:单字、停用词、地名中的一个以上。
在一个实施例中,初始标签获取模块801还用于根据预先建立的行业特征词汇库,对所述特征词和行业特征词汇库进行全匹配和/或正则匹配;得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次;取匹配频次最高的多个行业标签作为所述待分类文本信息的初始行业标签。
在一实施例中,还包括特征向量获取模块,用于获取每个所述行业标签中所述匹配频次最高对应的匹配特征词,根据预设语料库训练预设维度的词向量模型,将所述匹配特征词输入所述词向量模型,得到所述匹配特征词对应的词向量;获取初始行业标签中各行业标签的匹配特征词对应的词向量,取各行业标签的词向量的均值,将所述均值作为所述待分类文本信息对应于初始行业标签中各行业标签的特征向量。第一预测模块802还用于将所述特征向量输入预设的分类模型中,得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的第一行业标签概率。
关于文本分类系统的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。上述文本分类系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签。
根据所述初始行业标签以及预设的分类模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率。
根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型,根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率。
根据所述第一行业概率以及所述第二行业概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取所述已知行业标签的已知文本信息;对同一行业标签对应的所有的已知文本信息进行分词处理,得到同一行业标签对应的候选特征词汇集合;将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点,得到每个词汇的TextRank值;根据词汇的TextRank值,建立行业特征词库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述分类模型包括:根据已知行业分类的已知文本信息训练得到的逻辑回归模型;根据所述逻辑回归模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中每个所述行业标签的第一行业概率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据所述已知文本信息的文本和所述待分类文本信息的文本,得到文本集合;根据所述已知文本信息的特征词和所述待分类文本信息的特征词,得到特征词汇集合;建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正映射关系和反映射关系;根据所述正映射关系和反反映射关系,分别得到所述特征词汇集合中的特征词的正向行业概率公式以及所述文本集合中的文本的反向行业概率公式;根据所述正向行业概率公式和所述反向行业概率公式,建立迭代模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取各已知文本信息的初始状态向量以及所述待分类文本信息的初始状态向量;将所述初始状态向量作为迭代模型的初始状态;设置所述迭代模型的迭代次数以及迭代误差阈值;在迭代误差小于所述迭代误差阈值,或迭代到所述迭代次数时,将所述迭代模型输出的结果作为第二行业概率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据所述文本集合中文本的数目以及所述文本集合中文本对应的所述行业标签的数目,对每个所述行业标签进行加权处理;得到每个所述行业标签的权重,根据所述行业标签的权重,更新所述初始状态向量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据所述行业标签的权重的最大值以及所述行业标签的权重的最小值,对各个所述行业标签的权重进行归一化处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
若所述初始行业标签中行业标签唯一,则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将所述待分类文本信息及其对应的行业分类存入所述文本库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将初始行业标签的分类结果存入预先设置的分类库中;从所述分类库中获取多条文本信息对应的初始行业标签的分类结果,获取所述待分类文本信息的实际行业分类,统计所述初始行业标签的分类结果的准确率,在所述准确率小于预设准确率时,根据已知行业分类的已知文本信息、已知文本信息实际行业分类,更新所述行业特征词库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预先设置的权值,对所述第一行业概率和所述第二行业概率进行加权处理,得到最终行业概率;确定所述最终行业概率最大的行业标签,由此确定所述待分类文本信息的行业分类。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对所述待分类文本信息进行分词处理,剔除所述分词处理结果中的异常词汇,得到所述待分类文本信息的特征词;所述异常词汇包括:单字、停用词、地名中的一个以上。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预先建立的行业特征词汇库,对所述特征词进行全匹配和/或正则匹配;得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次;取匹配频次高的多个行业标签作为所述待分类文本信息的初始行业标签。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签。
根据所述初始行业标签以及预设的分类模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率。
在由所述第一行业概率得到所述待分类文本信息的行业分类不准确时,根据预先设置的文本库中的已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型,根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率。
根据所述第一行业概率以及所述第二行业概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设语料库训练预设维度的词向量模型,将所述待分类文本信息的特征词依次输入所述词向量模型,得到每个所述特征词对应的词向量;根据每个所述特征词对应的词向量,得到所述待分类文本信息的特征向量;所述根据预设的分类模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率的步骤,包括:将所述特征向量输入预设的分类模型中,得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的第一行业标签概率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取所述已知行业标签的已知文本信息;对同一行业标签对应的所有的已知文本信息进行分词处理,得到同一行业标签对应的候选特征词汇集合;将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点,得到每个词汇的TextRank值;根据词汇的TextRank值,建立行业特征词库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述分类模型包括:根据已知行业分类的已知文本信息训练得到的逻辑回归模型;根据所述逻辑回归模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中每个所述行业标签的第一行业概率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据所述已知文本信息和所述待分类文本信息,得到文本集合;根据所述已知文本信息的特征词和所述待分类文本信息的特征词,得到特征词汇集合;建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正、反映射关系;根据所述正、反映射关系,得到所述特征词汇集合中的特征词的正向行业概率公式以及所述文本集合中的文本的反向行业概率公式;根据所述正向行业概率公式和所述反向行业概率公式,建立迭代模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取各已知文本信息的初始状态向量以及所述待分类文本信息的初始状态向量;将所述初始状态向量作为迭代模型的初始状态;设置所述迭代模型的迭代次数以及迭代误差阈值;在迭代误差小于所述迭代误差阈值,或迭代到所述迭代次数时,将所述迭代模型输出的结果作为第二行业概率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据所述文本集合中文本的数目以及所述文本集合中文本对应的所述行业标签的数目,对每个所述行业标签进行加权处理;得到每个所述行业标签的权重,根据所述行业标签的权重,更新所述初始状态向量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据所述行业标签的权重的最大值以及所述行业标签的权重的最小值,对各个所述行业标签的权重进行归一化处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
若所述初始行业标签中行业标签唯一,则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述待分类文本信息及其对应的行业分类存入所述文本库,其中,所述文本库用于存储所述已知文本信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将第一行业概率的分类结果存入预先设置的分类库中;从所述分类库中获取多条文本信息对应的第一行业概率的分类结果,获取所述待分类文本信息的实际行业分类,统计所述第一行业概率的分类结果的准确率,在所述准确率小于预设准确率时,判断由所述第一行业概率得到所述待分类文本信息的行业分类不准确。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将初始行业标签的分类结果存入预先设置的分类库中;从所述分类库中获取多条文本信息对应的初始行业标签的分类结果,获取所述待分类文本信息的实际行业分类,统计所述初始行业标签的分类结果的准确率,在所述准确率小于预设准确率时,根据所述文本库中的已知行业分类的已知文本信息、已知文本信息实际行业分类,更新所述行业特征词库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预先设置的权值,对所述第一行业概率和所述第二行业概率进行加权处理,得到最终行业概率;确定所述最终行业概率最大的行业标签,由此确定所述待分类文本信息的行业分类。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对所述待分类文本信息进行分词处理,剔除所述分词处理结果中的异常词汇,得到所述待分类文本信息的特征词;所述异常词汇包括:单字、停用词、地名中的一个以上。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预先建立的行业特征词汇库,对所述特征词进行全匹配和/或正则匹配;得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次;取匹配频次高的多个行业标签作为所述待分类文本信息的初始行业标签。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;
根据所述初始行业标签以及预设的分类模型,得到所述待分类文本信息对应所述初始行业标签中各行业标签的第一行业概率;
根据预先设置已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型;根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各行业标签的第二行业概率;
根据所述第一行业概率以及所述第二行业概率进行加权处理,得到最终行业概率,根据所述最终行业概率从初始行业标签中确定出所述待分类文本信息对应的行业分类;
其中,所述根据所述最终行业概率从初始行业标签中确定出所述待分类文本信息对应的行业分类,包括:
确定所述最终行业概率中概率最大的行业标签,并将确定出的所述最终行业概率中概率最大的行业标签作为所述待分类文本信息对应的行业分类。
2.根据权利要求1所述的文本分类方法,其特征在于,还包括:
获取已知行业标签的已知文本信息;
对同一行业标签对应的已知文本信息进行分词处理,得到同一行业标签对应的候选特征词汇集合;
将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点,得到每个词汇的TextRank值;
根据词汇的TextRank值,建立行业特征词库。
3.根据权利要求2所述的文本分类方法,其特征在于,所述分类模型包括:根据已知行业分类的已知文本信息训练得到的逻辑回归模型;
所述根据所述初始行业标签以及预先设置分类模型,得到所述待分类文本信息对应所述初始行业标签中每个行业标签的第一行业概率的步骤,包括:
根据所述逻辑回归模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中每个所述行业标签的第一行业概率。
4.根据权利要求1所述的文本分类方法,其特征在于,所述根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型的步骤,包括:
根据所述已知文本信息和所述待分类文本信息得到文本集合;根据所述已知文本信息的特征词和所述待分类文本信息的特征词,得到特征词汇集合;
建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正映射关系和反映射关系;
根据所述正映射关系和所述反映射关系,分别得到所述特征词汇集合中的特征词的正向行业概率公式以及所述文本集合中的文本的反向行业概率公式;
根据所述正向行业概率公式和所述反向行业概率公式,建立迭代模型。
5.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中每个行业标签的第二行业概率的步骤,包括:
获取所述已知文本信息的初始状态向量以及所述待分类文本信息的初始状态向量;其中,所述初始状态向量是已知文本信息或者待分类文本信息初始状态下各行业标签的概率的向量;
将所述初始状态向量作为迭代模型的初始状态;获取预先设置的所述迭代模型的迭代次数以及迭代误差阈值;
在迭代误差小于所述迭代误差阈值,或迭代到所述迭代次数时,将所述迭代模型输出的结果作为第二行业概率。
6.根据权利要求4所述的文本分类方法,其特征在于,在建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正映射关系和反映射关系之后,还包括:
根据所述文本集合中文本信息的数目以及所述文本集合中文本信息对应的所述行业标签的数目,进行加权处理得到每个所述行业标签的权重;
根据所述行业标签的权重,更新初始状态向量。
7.根据权利要求6所述的文本分类方法,其特征在于,还包括:
根据所述行业标签的权重的最大值以及所述行业标签的权重的最小值,对各个所述行业标签的权重进行归一化处理。
8.根据权利要求1至7任一项所述的文本分类方法,其特征在于,还包括:
若所述初始行业标签中的行业标签唯一,则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。
9.根据权利要求8所述的文本分类方法,其特征在于,在确定出所述待分类文本信息对应的行业分类之后,还包括:
将所述待分类文本信息及其对应的行业分类存入预先设置的文本库中,其中,所述文本库用于存储所述已知文本信息。
10.根据权利要求9所述的文本分类方法,其特征在于,还包括:
将通过初始行业标签确定行业分类的待分类文本信息存入预先设置的分类库中;
从所述分类库中获取多条待分类文本信息对应所述行业分类,并获取该待分类文本信息的实际行业分类,统计通过初始行业标签进行行业分类的准确率;
在所述准确率小于预设准确率时,根据所述文本库中的已知文本信息及其已知的行业分类,更新所述行业特征词库。
11.根据权利要求1至7任一项所述的文本分类方法,其特征在于,所述根据所述特征词以及预先建立的行业特征词库,得到文本信息对应的初始行业标签的步骤,包括:
根据预先建立的行业特征词汇库,对所述特征词进行全匹配和/或正则匹配;得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次;
取匹配频次高的多个行业标签作为所述待分类文本信息的初始行业标签。
12.根据权利要求11所述的文本分类方法,其特征在于,在根据所述初始行业标签以及预先设置分类模型,得到所述待分类文本信息对应所述初始行业标签中每个所述行业标签的第一行业概率之前,还包括:
根据预设语料库训练预设维度的词向量模型,将所述待分类文本信息的特征词依次输入所述词向量模型,得到每个所述特征词对应的词向量;
根据每个所述特征词对应的词向量,得到所述待分类文本信息的特征向量;
所述根据预设的分类模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率的步骤,包括:
将所述特征向量输入预设的分类模型中,得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的第一行业标签概率。
13.一种文本分类系统,其特征在于,所述系统包括:
初始标签获取模块,用于获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;
第一预测模块,用于根据预设的分类模型以及所述初始行业标签,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第一行业概率;
第二预测模块,用于根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签,建立迭代模型,根据所述迭代模型,得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的第二行业概率;
分类模块,用于根据所述第一行业概率以及所述第二行业概率进行加权处理,得到最终行业概率,根据所述最终行业概率从初始行业标签中确定出所述待分类文本信息对应的行业分类;
其中,所述分类模块根据所述最终行业概率从初始行业标签中确定出所述待分类文本信息对应的行业分类的具体方式为:
确定所述最终行业概率中概率最大的行业标签,并将确定出的所述最终行业概率中概率最大的行业标签作为所述待分类文本信息对应的行业分类。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述文本分类方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的文本分类方法的步骤。
CN201810290044.0A 2018-04-03 2018-04-03 文本分类方法、系统、计算机设备和存储介质 Active CN108536800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810290044.0A CN108536800B (zh) 2018-04-03 2018-04-03 文本分类方法、系统、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810290044.0A CN108536800B (zh) 2018-04-03 2018-04-03 文本分类方法、系统、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108536800A CN108536800A (zh) 2018-09-14
CN108536800B true CN108536800B (zh) 2022-04-19

Family

ID=63482146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810290044.0A Active CN108536800B (zh) 2018-04-03 2018-04-03 文本分类方法、系统、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108536800B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359197B (zh) * 2018-10-31 2021-01-05 税友软件集团股份有限公司 一种税费种类认证方法、装置和计算机可读存储介质
CN111126422B (zh) * 2018-11-01 2023-10-31 百度在线网络技术(北京)有限公司 行业模型的建立及行业的确定方法、装置、设备及介质
CN109271521B (zh) * 2018-11-16 2021-03-30 北京九狐时代智能科技有限公司 一种文本分类方法及装置
CN109711430B (zh) * 2018-11-23 2021-10-01 北京三快在线科技有限公司 一种迁移知识确定方法、装置、设备及可读存储介质
CN109684272A (zh) * 2018-12-29 2019-04-26 国家电网有限公司 文档保存方法、系统及终端设备
CN111767712A (zh) * 2019-04-02 2020-10-13 北京地平线机器人技术研发有限公司 基于语言模型的业务数据筛选方法和装置、介质、设备
CN110222171A (zh) * 2019-05-08 2019-09-10 新华三大数据技术有限公司 一种分类模型应用、分类模型训练方法及装置
CN110457702B (zh) * 2019-08-12 2023-06-06 北京亚鸿世纪科技发展有限公司 基于高频词汇的物联网流量识别与数据提取系统
CN111191001A (zh) * 2019-12-23 2020-05-22 浙江大胜达包装股份有限公司 一种面向纸包装及其相关行业的企业多元标签标识方法
CN111339301B (zh) * 2020-02-28 2023-11-28 创新奇智(青岛)科技有限公司 标签确定方法、装置、电子设备及计算机可读存储介质
CN111737520B (zh) * 2020-06-22 2023-07-25 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN112052356B (zh) * 2020-08-14 2023-11-24 腾讯科技(深圳)有限公司 多媒体分类方法、装置和计算机可读存储介质
CN113254596B (zh) * 2021-06-22 2021-10-08 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及系统
CN114139031B (zh) * 2021-10-28 2024-03-19 马上消费金融股份有限公司 数据分类方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
EP2657857A1 (en) * 2012-04-27 2013-10-30 ATG Advanced Swiss Technology Group AG Method for binary classification of a query image
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN105159884B (zh) * 2015-09-23 2018-06-29 百度在线网络技术(北京)有限公司 行业词典的建立方法和装置及行业识别方法和装置
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置
US10311863B2 (en) * 2016-09-02 2019-06-04 Disney Enterprises, Inc. Classifying segments of speech based on acoustic features and context
CN107368526A (zh) * 2017-06-09 2017-11-21 北京因果树网络科技有限公司 一种数据处理方法及装置
CN107729520B (zh) * 2017-10-27 2020-12-01 北京锐安科技有限公司 文件分类方法、装置、计算机设备及计算机可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器

Also Published As

Publication number Publication date
CN108536800A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN108536800B (zh) 文本分类方法、系统、计算机设备和存储介质
CN108563722B (zh) 文本信息的行业分类方法、系统、计算机设备和存储介质
CN108520041B (zh) 文本的行业分类方法、系统、计算机设备和存储介质
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109165840B (zh) 风险预测处理方法、装置、计算机设备和介质
US11030415B2 (en) Learning document embeddings with convolutional neural network architectures
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN108874992B (zh) 舆情分析方法、系统、计算机设备和存储介质
WO2020077895A1 (zh) 签约意向判断方法、装置、计算机设备和存储介质
WO2019153551A1 (zh) 文章分类方法、装置、计算机设备及存储介质
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
US11531824B2 (en) Cross-lingual information retrieval and information extraction
JP2021532499A (ja) 機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体
WO2020224106A1 (zh) 基于神经网络的文本分类方法、系统及计算机设备
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
US11037027B2 (en) Computer architecture for and-or neural networks
CN110377733B (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
Bitto et al. Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning
CN113239697B (zh) 实体识别模型训练方法、装置、计算机设备及存储介质
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
US20230351121A1 (en) Method and system for generating conversation flows
CN114385808A (zh) 文本分类模型构建方法与文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant