CN109933667A - 文本分类模型训练方法、文本分类方法及设备 - Google Patents
文本分类模型训练方法、文本分类方法及设备 Download PDFInfo
- Publication number
- CN109933667A CN109933667A CN201910206248.6A CN201910206248A CN109933667A CN 109933667 A CN109933667 A CN 109933667A CN 201910206248 A CN201910206248 A CN 201910206248A CN 109933667 A CN109933667 A CN 109933667A
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- training
- textual
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种文本分类模型训练方法、文本分类方法及设备,该文本分类模型训练方法包括:对训练语料文本进行切分处理;对切分处理后的文本进行向量化处理;利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型;利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果;利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型。本实施例提供的方法通过两种算法训练获得最终模型,可以使用该最终模型对待分类语料文本进行自动分类,从而提高文本分类效率,同时在一定程度上降低了文本分类中单个算法的误差,提高了文本分类的准确率,节省人力物力。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种文本分类模型训练方法、文本分类方法及设备。
背景技术
随着经济的不断发展,通信技术得到了快速发展,越来越多的人开始使用通讯运营商的通信系统进行通信。
目前,用户在使用通讯运营商的通信系统时,如果遇到什么问题,通常是向通讯运营商的客服系统咨询。客服系统需要对用户的咨询、投诉等进行分类。现有一般由客服人员记录,并手动录入系统进行问题分类。
然而,现有的这种分类方法,分类效率低,容易出错,且浪费大量人力。
发明内容
本发明实施例提供一种文本分类模型训练方法、文本分类方法及设备,以克服现有分类方法分类效率低,容易出错,且浪费大量人力的问题。
第一方面,本发明实施例提供一种文本分类模型训练方法,包括:
对训练语料文本进行切分处理;
对切分处理后的文本进行向量化处理;
利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型;
利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果;
利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型。
在一种可能的设计中,上述的方法,还包括:
对所述训练语料文本进行预处理,所述预处理包括去除预设字符和/或去除空格;
将预处理后的文本作为新的训练语料文本,执行所述对训练语料文本进行切分处理的步骤。
在一种可能的设计中,所述对训练语料文本进行切分处理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述训练语料文本进行切分处理。
在一种可能的设计中,所述对切分处理后的文本进行向量化处理,包括:
基于词频-逆文档频率模型或word2vec模型,利用切分处理后的文本构建文本向量。
在一种可能的设计中,所述利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型,包括:
利用逻辑回归算法、朴素贝叶斯算法、随机森林算法和支持向量机算法中的一种或多种对向量化处理后的文本进行训练,获得所述第一文本分类模型。
在一种可能的设计中,所述利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型,包括:
利用Xgboost对所述分类结果进行训练,若训练后Xgboost的损失函数值小于预设阈值,则停止训练,获得所述第二文本分类模型。。
第二方面,本发明实施例提供一种文本分类方法,包括:
利用如上第一方面以及第一方面各种可能的设计所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类。
在一种可能的设计中,上述的方法,还包括:
对所述待分类语料文本进行切分处理;
对切分处理后的文本进行向量化处理;
将向量化处理后的文本作为新的待分类语料文本,执行所述利用如上第一方面以及第一方面各种可能的设计所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类的步骤。
第三方面,本发明实施例提供一种文本分类模型训练设备,包括:
第一文本切分模块,用于对训练语料文本进行切分处理;
第一文本向量化模块,用于对切分处理后的文本进行向量化处理;
第一文本分类训练模块,用于利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型;
文本处理模块,用于利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果;
第二文本分类训练模块,用于利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型。
在一种可能的设计中,上述的设备,还包括:
文本预处理模块,用于对所述训练语料文本进行预处理,所述预处理包括去除预设字符和/或去除空格;
所述第一文本切分模块,还用于将预处理后的文本作为新的训练语料文本,执行所述对训练语料文本进行切分处理的步骤。
在一种可能的设计中,所述第一文本切分模块对训练语料文本进行切分处理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述训练语料文本进行切分处理。
在一种可能的设计中,所述第一文本向量化模块对切分处理后的文本进行向量化处理,包括:
基于词频-逆文档频率模型或word2vec模型,利用切分处理后的文本构建文本向量。
在一种可能的设计中,所述第一文本分类训练模块利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型,包括:
利用逻辑回归算法、朴素贝叶斯算法、随机森林算法和支持向量机算法中的一种或多种对向量化处理后的文本进行训练,获得所述第一文本分类模型。
在一种可能的设计中,所述第二文本分类训练模块利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型,包括:
利用Xgboost对所述分类结果进行训练,若训练后Xgboost的损失函数值小于预设阈值,则停止训练,获得所述第二文本分类模型。
第四方面,本发明实施例提供一种文本分类设备,包括:
文本分类模块,用于利用如上第一方面以及第一方面各种可能的设计所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类。
在一种可能的设计中,上述的设备,还包括:
第二文本切分模块,用于对所述待分类语料文本进行切分处理;
第二文本向量化模块,用于对切分处理后的文本进行向量化处理;
所述文本分类模块,还用于将向量化处理后的文本作为新的待分类语料文本,执行所述利用如上第一方面以及第一方面各种可能的设计所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类的步骤。
第五方面,本发明实施例提供一种文本分类模型训练设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的文本分类模型训练方法。
第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的文本分类模型训练方法。
第七方面,本发明实施例提供一种文本分类设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第二方面以及第二方面各种可能的设计所述的文本分类方法。
第八方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第二方面以及第二方面各种可能的设计所述的文本分类方法。
本实施例提供的文本分类模型训练方法、文本分类方法及设备,该文本分类模型训练方法通过对训练语料文本进行切分处理,然后对切分处理后的文本进行向量化处理,利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型,再利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果,利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型,即通过两种算法训练获得最终模型,可以使用该最终模型对待分类语料文本进行自动分类,从而提高文本分类效率,同时在一定程度上降低了文本分类中单个算法的误差,提高了文本分类的准确率,节省人力物力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本分类模型训练方法的应用场景图;
图2为本发明实施例提供的文本分类模型训练方法的流程示意图一;
图3为本发明实施例提供的文本分类模型训练方法的流程示意图二;
图4为本发明实施例提供的文本分类模型训练设备的结构示意图一;
图5为本发明实施例提供的文本分类模型训练设备的结构示意图二;
图6为本发明实施例提供的文本分类模型训练设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着经济的不断发展,通信技术得到了快速发展,越来越多的人开始使用通讯运营商的通信系统进行通信。目前,用户在使用通讯运营商的通信系统时,如果遇到什么问题,通常是向通讯运营商的客服系统咨询。客服系统需要对用户的咨询、投诉等进行分类。现有一般由客服人员记录,并手动录入系统进行问题分类。然而,现有的这种分类方法,分类效率低,容易出错,且浪费大量人力。
因此,考虑到上述问题,本发明提供一种文本分类模型训练方法,通过对训练语料文本进行切分处理,然后对切分处理后的文本进行向量化处理,利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型,再利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果,利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型,即通过两种算法训练获得最终模型,可以使用该最终模型对待分类语料文本进行自动分类,从而提高文本分类效率,同时在一定程度上降低了文本分类中单个算法的误差,提高了文本分类的准确率,节省人力物力。
图1为本发明提供的一种文本分类模型训练方法的应用场景图。如图1所示,客服系统101可以对训练语料文本进行切分处理,可以对切分处理后的文本进行向量化处理,利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型102,再利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果,最后利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型103。
其中,客服系统可以为用户提供对话平台,与用户进行对话,具有处理业务咨询、投诉等功能。
图2为本发明实施例提供的文本分类模型训练方法的流程示意图一,本实施例的执行主体可以为图1所示实施例中的客服系统,也可以为其它设备,例如服务器、处理器等,本实施例此处不做特别限制。如图2所示,该方法可以包括:
S201、对训练语料文本进行切分处理。
其中,上述训练语料文本可以通过以下方式获取:从客服系统获取用户的咨询、投诉等问题的历史话术语料文本数据,将获取的数据作为原始数据,即作为上述训练语料文本。
可选的,所述对训练语料文本进行切分处理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述训练语料文本进行切分处理。
其中,条件随机场(Conditional Random Field,简称CRF),是一种机器学习技术分词,CRF把分词当做字的词位分类问题,通常定义字的词位信息如下:词首,常用B表示;词中,常用M表示;词尾,常用E表示;单子词,常用S表示,CRF分词的过程就是对词位标注后,将B和E之间的字,以及S单字构成分词,例如原始例句:我爱北京天安门,CRF标注后:我/S爱/S北/B京/E天/B安/M门/E,分词结果:我/爱/北京/天安门。
隐马尔可夫模型(Hidden Markov Model,简称HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。
另外,除上述基于条件随机场或隐马尔可夫的分词模型对所述训练语料文本进行切分处理外,还可以根据实际情况采用其它分词模型,例如基于词的n元语法模型,对所述训练语料文本进行切分处理,满足多种应用场景需要。
S202、对切分处理后的文本进行向量化处理。
这里,在上述对训练语料文本进行切分处理之后,还可以存储切分处理后的文本,也可以显示切分处理后的文本,方便相关人员查看、审核对应信息。
可选的,所述对切分处理后的文本进行向量化处理,包括:
基于词频-逆文档频率模型或word2vec模型,利用切分处理后的文本构建文本向量。
其中,词频-逆文档频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)模型,是广泛应用于文本挖掘的用来反映一个词对于语料库中文档的重要性的生成特征向量的方法,用t来表示一个词,d表示一个文档,D表示文档库,词频TF(t,d)就是词t在文档d中出现的次数,文档频率DF(t,D)表示有多少个文档包含词t,如果只用词频来衡量重要性,将容易导致过度强调某些出现非常频繁但只装载少量信息的词,比如:"a","the"和"of",如果一个词在文档库中出现非常频繁,它意味着它不装载关于特定文档的特殊信息,逆文档频率是一个词装载信息量的一个数字化的衡量,TF-IDF展示了一个词与特定文档的相关联程度。
word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
另外,除上述基于词频-逆文档频率模型或word2vec模型,利用切分处理后的文本构建文本向量外,还可以根据实际情况采用其它模型,例如神经网络语言模型(NeuralNetwork Language Model,简称NNLM),利用切分处理后的文本构建文本向量,适合应用。
同理,在上述对切分处理后的文本进行向量化处理之后,还可以存储向量化处理后的文本,也可以显示向量化处理后的文本,满足实际需要。
S203、利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型。
可选的,所述利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型,包括:
利用逻辑回归算法、朴素贝叶斯算法、随机森林算法和支持向量机算法中的一种或多种对向量化处理后的文本进行训练,获得所述第一文本分类模型。例如利用逻辑回归算法、朴素贝叶斯算法、随机森林算法、支持向量机算法对向量化处理后的文本进行训练,得到各自模型,记为m1,m2,m3,m4。
其中,逻辑回归(Logistic Regression,简称LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如,将购买的概率设置为因变量,将用户的特征属性,例如性别,年龄,注册时间等设置为自变量,根据特征属性预测购买的概率。
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifie,简称NBC)有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,算法也比较简单,而且与其他分类方法相比具有最小的误差率。
随机森林(Random Forest,简称RF)是指利用多棵决策树对样本进行训练并预测的一种算法。也就是说随机森林算法是一个包含多个决策树的算法,其输出的类别是由个别决策树输出的类别的众树来决定的。
支持向量机(Support Vector Machine,简称SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,即支持向量机是找到一个超平面将数据划分为一类与其他类的一种二类分类模型。
另外,除上述利用逻辑回归算法、朴素贝叶斯算法、随机森林算法和支持向量机算法中的一种或多种对向量化处理后的文本进行训练,获得所述第一文本分类模型外,还可以根据实际情况采用其它模型,例如k近邻(k-Nearest Neighbor,简称kNN)模型,对向量化处理后的文本进行训练,获得第一文本分类模型。
S204、利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果。
具体的,以第一文本分类模型m1,m2,m3,m4为例,利用m1,m2,m3,m4对向量化处理后的文本进行计算,得到分类结果。
S205、利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型。
可选的,所述利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型,包括:
利用Xgboost对所述分类结果进行训练,若训练后Xgboost的损失函数值小于预设阈值,则停止训练,获得所述第二文本分类模型。
其中,XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。XGBoost是一种提升树模型,将许多树模型集成在一起,形成一个较强的分类器,所用到的树模型是CART回归树模型。
具体的,可以根据实际情况设定一个阈值b,构建二级算法Xgboost的损失函数loss,如果loss小于阈值则退出二次训练,得到最终模型,否则继续训练,同时更新模型参数,直至损失函数小于阈值,使用最终模型对待分类语料文本进行计算,得到预测用户话术语料文本的分类结果。
本实施例提供的文本分类模型训练方法,通过对训练语料文本进行切分处理,然后对切分处理后的文本进行向量化处理,利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型,再利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果,利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型,即通过两种算法训练获得最终模型,可以使用该最终模型对待分类语料文本进行自动分类,从而提高文本分类效率,同时在一定程度上降低了文本分类中单个算法的误差,提高了文本分类的准确率,节省人力物力。
图3为本发明实施例提供的文本分类模型训练方法的流程示意图二,本实施例在图2实施例的基础上,对本实施例的具体实现过程进行了详细说明。如图3所示,该方法包括:
S301、对训练语料文本进行预处理,所述预处理包括去除预设字符和/或去除空格。
这里,上述预处理还可以根据实际需要设置,除包括去除预设字符、去除空格外,还可以包括例如归一化处理,归一化指的是一系列相关的任务,能够将所有文本放在同一水平区域上:将所有文本转化成同样的实例,将数字转换成相应的文字等等。
上述去除预设字符中的预设字符可以根据实际需要设置,满足应用需要。
S302、基于条件随机场或隐马尔可夫的分词模型对预处理后的文本进行切分处理。
具体的,可以利用条件随机场或隐马尔可夫的分词模型对预处理后的文本进行多次切分处理,提高切分结果的准确性。
S303、基于词频-逆文档频率模型或word2vec模型,利用切分处理后的文本构建文本向量。
这里,利用词频-逆文档频率模型或word2vec模型对切分处理后的文本进行向量化处理。
S304、利用逻辑回归算法、朴素贝叶斯算法、随机森林算法和支持向量机算法中的一种或多种对向量化处理后的文本进行训练,获得所述第一文本分类模型。
具体的,可以利用逻辑回归算法、朴素贝叶斯算法、随机森林算法、支持向量机算法对向量化处理后的文本进行训练,得到各自模型,记为m1,m2,m3,m4。
S305、利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果。
可以利用上述m1,m2,m3,m4对向量化处理后的文本进行计算,得到分类结果。
S306、利用Xgboost对所述分类结果进行训练,若训练后Xgboost的损失函数值小于预设阈值,则停止训练,获得所述第二文本分类模型。
具体的,可以根据实际情况设定一个阈值b,构建二级算法Xgboost的损失函数loss,如果loss小于阈值则退出二次训练,得到最终模型,否则继续训练,同时更新模型参数,直至损失函数小于阈值,使用最终模型对待分类语料文本进行计算,得到预测用户话术语料文本的分类结果。
本实施例提供的文本分类模型训练方法,通过对训练语料文本进行分词处理,然后使用词频-逆文档频率模型或word2vec模型对分词后的文本进行向量化处理;使用逻辑回归、朴素贝叶斯、随机森林、支持向量机等多种分类模型分别对对向量化处理后的文本进行训练;使用各个模型的分类结果,作为二次训练的训练数据,使用xgboost算法进行训练,得到最终模型;然后使用模型对未知文本数据进行预测,得到未知文本数据应分类的类别,一定程度上降低了文本分类中单个算法的误差,提高了文本分类的准确率。
本发明实施例还提供一种文本分类方法,包括:
利用如上所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类。
可选的,上述的方法,还包括:
对所述待分类语料文本进行切分处理;
对切分处理后的文本进行向量化处理;
将向量化处理后的文本作为新的待分类语料文本,执行所述利用如上所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类的步骤。
本实施例提供的文本分类方法,通过上述文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行自动分类,从而提高文本分类效率,同时在一定程度上降低了文本分类中单个算法的误差,提高了文本分类的准确率,节省人力物力。
图4为本发明实施例提供的文本分类模型训练设备的结构示意图一。如图4所示,该文本分类模型训练设备40包括:第一文本切分模块401、第一文本向量化模块402、第一文本分类训练模块403、文本处理模块404以及第二文本分类训练模块405。
第一文本切分模块401,用于对训练语料文本进行切分处理。
第一文本向量化模块402,用于对切分处理后的文本进行向量化处理。
第一文本分类训练模块403,用于利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型。
文本处理模块404,用于利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果。
第二文本分类训练模块405,用于利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型。
本实施例提供的设备,可用于执行上述文本分类模型训练方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图5为本发明实施例提供的文本分类模型训练设备的结构示意图二。如图5所示,本实施例在图4实施例的基础上,还包括:文本预处理模块406。
在一种可能的设计中,文本预处理模块406,用于对所述训练语料文本进行预处理,所述预处理包括去除预设字符和/或去除空格。
所述第一文本切分模块401,还用于将预处理后的文本作为新的训练语料文本,执行所述对训练语料文本进行切分处理的步骤。
在一种可能的设计中,所述第一文本切分模块401对训练语料文本进行切分处理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述训练语料文本进行切分处理。
在一种可能的设计中,所述第一文本向量化模块402对切分处理后的文本进行向量化处理,包括:
基于词频-逆文档频率模型或word2vec模型,利用切分处理后的文本构建文本向量。
在一种可能的设计中,所述第一文本分类训练模块403利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型,包括:
利用逻辑回归算法、朴素贝叶斯算法、随机森林算法和支持向量机算法中的一种或多种对向量化处理后的文本进行训练,获得所述第一文本分类模型。
在一种可能的设计中,所述第二文本分类训练模块405利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型,包括:
利用Xgboost对所述分类结果进行训练,若训练后Xgboost的损失函数值小于预设阈值,则停止训练,获得所述第二文本分类模型。
本实施例提供的设备,可用于执行上述文本分类模型训练方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
本发明实施例还提供一种文本分类设备,包括:
文本分类模块,用于利用如上所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类。
在一种可能的设计中,上述的设备,还包括:
第二文本切分模块,用于对所述待分类语料文本进行切分处理;
第二文本向量化模块,用于对切分处理后的文本进行向量化处理;
所述文本分类模块,还用于将向量化处理后的文本作为新的待分类语料文本,执行所述利用如上所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类的步骤。
本实施例提供的设备,可用于执行上述文本分类方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图6为本发明实施例提供的文本分类模型训练设备的硬件结构示意图。如图6所示,本实施例的文本分类模型训练设备60包括:处理器601以及存储器602;其中
存储器602,用于存储计算机执行指令;
处理器601,用于执行存储器存储的计算机执行指令,以实现上述实施例中文本分类模型训练方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。
当存储器602独立设置时,该文本分类模型训练设备还包括总线603,用于连接所述存储器602和处理器601。
本发明实施例提供一种文本分类设备包括:处理器以及存储器;其中
存储器,用于存储计算机执行指令;
处理器,用于执行存储器存储的计算机执行指令,以实现上述实施例中文本分类方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器既可以是独立的,也可以跟处理器集成在一起。
当存储器独立设置时,该文本分类设备还包括总线,用于连接所述存储器和处理器。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的文本分类模型训练方法。
本发明实施例还提供另一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的文本分类方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (12)
1.一种文本分类模型训练方法,其特征在于,包括:
对训练语料文本进行切分处理;
对切分处理后的文本进行向量化处理;
利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型;
利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果;
利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
对所述训练语料文本进行预处理,所述预处理包括去除预设字符和/或去除空格;
将预处理后的文本作为新的训练语料文本,执行所述对训练语料文本进行切分处理的步骤。
3.根据权利要求1所述的方法,其特征在于,所述对训练语料文本进行切分处理,包括:
基于条件随机场或隐马尔可夫的分词模型对所述训练语料文本进行切分处理。
4.根据权利要求1所述的方法,其特征在于,所述对切分处理后的文本进行向量化处理,包括:
基于词频-逆文档频率模型或word2vec模型,利用切分处理后的文本构建文本向量。
5.根据权利要求1所述的方法,其特征在于,所述利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型,包括:
利用逻辑回归算法、朴素贝叶斯算法、随机森林算法和支持向量机算法中的一种或多种对向量化处理后的文本进行训练,获得所述第一文本分类模型。
6.根据权利要求1所述的方法,其特征在于,所述利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型,包括:
利用Xgboost对所述分类结果进行训练,若训练后Xgboost的损失函数值小于预设阈值,则停止训练,获得所述第二文本分类模型。
7.一种文本分类方法,其特征在于,包括:
利用如权利要求1至6中任意一项所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类。
8.根据权利要求7所述的方法,其特征在于,还包括:
对所述待分类语料文本进行切分处理;
对切分处理后的文本进行向量化处理;
将向量化处理后的文本作为新的待分类语料文本,执行所述利用如权利要求1至6中任意一项所述的文本分类模型训练方法训练获得的第二文本分类模型,对待分类语料文本进行分类的步骤。
9.一种文本分类模型训练设备,其特征在于,包括:
第一文本切分模块,用于对训练语料文本进行切分处理;
第一文本向量化模块,用于对切分处理后的文本进行向量化处理;
第一文本分类训练模块,用于利用第一预设文本分类方法对向量化处理后的文本进行训练,获得第一文本分类模型;
文本处理模块,用于利用第一文本分类模型对向量化处理后的文本进行分类,获得分类结果;
第二文本分类训练模块,用于利用第二预设文本分类方法对所述分类结果进行训练,获得第二文本分类模型。
10.根据权利要求9所述的设备,其特征在于,还包括:
文本预处理模块,用于对所述训练语料文本进行预处理,所述预处理包括去除预设字符和/或去除空格;
所述第一文本切分模块,还用于将预处理后的文本作为新的训练语料文本,执行所述对训练语料文本进行切分处理的步骤。
11.一种文本分类模型训练设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的文本分类模型训练方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的文本分类模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910206248.6A CN109933667A (zh) | 2019-03-19 | 2019-03-19 | 文本分类模型训练方法、文本分类方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910206248.6A CN109933667A (zh) | 2019-03-19 | 2019-03-19 | 文本分类模型训练方法、文本分类方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109933667A true CN109933667A (zh) | 2019-06-25 |
Family
ID=66987634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910206248.6A Pending CN109933667A (zh) | 2019-03-19 | 2019-03-19 | 文本分类模型训练方法、文本分类方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933667A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079442A (zh) * | 2019-12-20 | 2020-04-28 | 北京百度网讯科技有限公司 | 文档的向量化表示方法、装置和计算机设备 |
CN111177084A (zh) * | 2019-12-20 | 2020-05-19 | 平安信托有限责任公司 | 一种文件分类方法、装置、计算机设备及存储介质 |
CN112181599A (zh) * | 2020-10-16 | 2021-01-05 | 中国联合网络通信集团有限公司 | 模型训练方法、装置及存储介质 |
CN112183068A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种客户投诉事件差异化处理方法及系统 |
CN112232398A (zh) * | 2020-10-10 | 2021-01-15 | 温州大学瓯江学院 | 一种半监督的多类别Boosting分类方法 |
CN113111167A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接处警文本车辆型号提取方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049436A (zh) * | 2011-10-12 | 2013-04-17 | 北京百度网讯科技有限公司 | 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统 |
CN106815369A (zh) * | 2017-01-24 | 2017-06-09 | 中山大学 | 一种基于Xgboost分类算法的文本分类方法 |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
US20180240012A1 (en) * | 2017-02-17 | 2018-08-23 | Wipro Limited | Method and system for determining classification of text |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN109460472A (zh) * | 2018-11-09 | 2019-03-12 | 北京京东金融科技控股有限公司 | 文本分类方法和装置、及电子设备 |
CN109472277A (zh) * | 2017-09-08 | 2019-03-15 | 上海对外经贸大学 | 借贷方分类的方法、装置以及存储介质 |
-
2019
- 2019-03-19 CN CN201910206248.6A patent/CN109933667A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049436A (zh) * | 2011-10-12 | 2013-04-17 | 北京百度网讯科技有限公司 | 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统 |
CN106815369A (zh) * | 2017-01-24 | 2017-06-09 | 中山大学 | 一种基于Xgboost分类算法的文本分类方法 |
US20180240012A1 (en) * | 2017-02-17 | 2018-08-23 | Wipro Limited | Method and system for determining classification of text |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN109472277A (zh) * | 2017-09-08 | 2019-03-15 | 上海对外经贸大学 | 借贷方分类的方法、装置以及存储介质 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN109460472A (zh) * | 2018-11-09 | 2019-03-12 | 北京京东金融科技控股有限公司 | 文本分类方法和装置、及电子设备 |
Non-Patent Citations (3)
Title |
---|
BING: "文本数据分析(二):文本数据预处理的方法", 《专知》 * |
MATTHEW MAYO: "A General Approach to Preprocessing Text Data", 《KDNUGGETS》 * |
李倩: "文本数据预处理的方法", 《电子说》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079442A (zh) * | 2019-12-20 | 2020-04-28 | 北京百度网讯科技有限公司 | 文档的向量化表示方法、装置和计算机设备 |
CN111177084A (zh) * | 2019-12-20 | 2020-05-19 | 平安信托有限责任公司 | 一种文件分类方法、装置、计算机设备及存储介质 |
CN111079442B (zh) * | 2019-12-20 | 2021-05-18 | 北京百度网讯科技有限公司 | 文档的向量化表示方法、装置和计算机设备 |
US11403468B2 (en) | 2019-12-20 | 2022-08-02 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating vector representation of text, and related computer device |
CN113111167A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接处警文本车辆型号提取方法和装置 |
CN112183068A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种客户投诉事件差异化处理方法及系统 |
CN112232398A (zh) * | 2020-10-10 | 2021-01-15 | 温州大学瓯江学院 | 一种半监督的多类别Boosting分类方法 |
CN112181599A (zh) * | 2020-10-16 | 2021-01-05 | 中国联合网络通信集团有限公司 | 模型训练方法、装置及存储介质 |
CN112181599B (zh) * | 2020-10-16 | 2023-05-16 | 中国联合网络通信集团有限公司 | 模型训练方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933667A (zh) | 文本分类模型训练方法、文本分类方法及设备 | |
Agarwal et al. | Fake news detection: an ensemble learning approach | |
Occhipinti et al. | A pipeline and comparative study of 12 machine learning models for text classification | |
Borg et al. | E-mail classification with machine learning and word embeddings for improved customer support | |
US11651016B2 (en) | System and method for electronic text classification | |
Bsir et al. | Bidirectional LSTM for author gender identification | |
Romanov et al. | Application of natural language processing algorithms to the task of automatic classification of Russian scientific texts | |
Ab. Rahman et al. | Mining textual terms for stock market prediction analysis using financial news | |
Bilbao-Jayo et al. | Automatic political discourse analysis with multi-scale convolutional neural networks and contextual data | |
CN107679209B (zh) | 分类表达式生成方法和装置 | |
CN113011689A (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
Roy et al. | Hateful sentiment detection in real-time tweets: An LSTM-based comparative approach | |
US20220366490A1 (en) | Automatic decisioning over unstructured data | |
Kumar et al. | Sentiment analysis on online reviews using machine learning and NLTK | |
García-Méndez et al. | Targeted aspect-based emotion analysis to detect opportunities and precaution in financial Twitter messages | |
Ardimento et al. | Predicting bug-fix time: Using standard versus topic-based text categorization techniques | |
Rahman et al. | An efficient deep learning technique for bangla fake news detection | |
Utami et al. | Multi-Label classification of Indonesian hate speech detection using one-vs-all method | |
Bangyal et al. | Using Deep Learning Models for COVID-19 Related Sentiment Analysis on Twitter Data | |
Bsir et al. | Document model with attention bidirectional recurrent network for gender identification | |
EP4198808A1 (en) | Extraction of tasks from documents using weakly supervision | |
Onan et al. | Machine learning approach for automatic categorization of service support requests on university information management system | |
Roussinov et al. | Predicting clinical events based on raw text: from bag-of-words to attention-based transformers | |
Salomatina et al. | Identification of argumentative sentences in Russian scientific and popular science texts | |
CN115017894A (zh) | 一种舆情风险识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |