CN110245227B - 文本分类的融合分类器的训练方法及设备 - Google Patents

文本分类的融合分类器的训练方法及设备 Download PDF

Info

Publication number
CN110245227B
CN110245227B CN201910337468.2A CN201910337468A CN110245227B CN 110245227 B CN110245227 B CN 110245227B CN 201910337468 A CN201910337468 A CN 201910337468A CN 110245227 B CN110245227 B CN 110245227B
Authority
CN
China
Prior art keywords
text
classifier
classification
trained
classifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910337468.2A
Other languages
English (en)
Other versions
CN110245227A (zh
Inventor
周凯敏
舒畅
李竹桥
陆晨昱
郑思璇
朱婷婷
李先云
刘尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semantic Intelligent Technology Guangzhou Co ltd
Original Assignee
Semantic Intelligent Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semantic Intelligent Technology Guangzhou Co ltd filed Critical Semantic Intelligent Technology Guangzhou Co ltd
Priority to CN201910337468.2A priority Critical patent/CN110245227B/zh
Publication of CN110245227A publication Critical patent/CN110245227A/zh
Application granted granted Critical
Publication of CN110245227B publication Critical patent/CN110245227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种文本分类的融合分类器的训练方法及设备,本发明采用大量的普通自然语言文本数据和未标注的分类文本领域数据,结合半监督学习的方式扩充标注数据,最后以深度学习的模型将多个文本分类器融合,从而使得分类能在实际应用中取得更高的准确率。

Description

文本分类的融合分类器的训练方法及设备
技术领域
本发明涉及计算机领域,尤其涉及一种文本分类的融合分类器的训练方法及设备。
背景技术
文本分类是对文本集按照一定的分类体系或标准进行自动分类标记。文本分类有着广泛的应用领域,比如新闻筛选、文档归类、意见挖掘和邮件分类等。文本分类的研究有着很长的历史,早期的方法有基于规则的方法、决策树的方法、贝叶斯分类器和支持向量机分类器等。近些年深度学习的模型被广泛使用与文本分类中,包括基于循环神经网络的文本分类模型和基于卷积神经网络的文本分类模型等。为了提高文本分类的准确率,模型融合的方法也常常被使用。模型融合思路方面有采用均值的,有使用投票机制的,有从纠正错误分类样本角度考虑的(boosting)等。
目前有众多文本分类的模型取得了较好的文本分类效果,但是在实际应用中还有欠缺。主要由于不同分类任务仍旧需要不同对应的语料进行训练,然而进行语料标注的代价是很高的。所以,通常实际应用中适应不同任务的能力差,分类的准确率也不高。
现有的文本分类方法需要大量高质量的标注数据,才能够在实际应用中取得高的准确率。然而由于人力和时间的限制,往往不能有充足的标注数据对模型参数进行调优以达到最好的效果。
现有的方案中,采用聚类的方法扩充数据量,扩充标记样本标签置信度不高所以扩充数据质量较差,致使学习后的分类效果改善不显著。
发明内容
本发明的一个目的是提供一种文本分类的融合分类器的训练方法及设备。
根据本发明的一个方面,提供了一种文本分类的融合分类器的训练方法,该方法包括:
步骤S1,获取一个大规模的文本语料库A,包括:一个已标记的文本分类训练集a1,一个已标记的文本分类验证集a2和一个未标记的文本分类数据集a3;
步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块;
步骤S3,设置一系列待训练的文本分类器,将所述已标记的文本分类训练集a1经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L1,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器,以得到各个训练后的文本分类器,其中,每个训练后的文本分类器由所述文本的数值矩阵表示L1的输入,得到对应的各个文本分类器的分类结果R1;
步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器,其中,M为正整数;
步骤S5,将所述已标记的文本分类验证集a2经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L2,将所述文本的数值矩阵表示L2输入这M个文本分类器,得到对应的各个文本分类器的分类结果R2,将所述分类结果R2输入一个融合深度神经网络,并以所述分类结果R2为标注调整该融合深度神经网络,从而完成文本分类器的融合,得到融合后的文本分类器;
步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值,
若是,步骤S7,将当前得到的融合后的文本分类器作为最终的融合分类器。
进一步的,上述方法中,步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值之后,还包括:
若否,步骤S8,将所述未标记的文本分类数据集a3输入当前融合后的文本分类器进行分类预测,以得到新的标记数据,将新的标记数据加入到已标记的文本分类训练集a1中后,重新从步骤S3依次开始执行,以重新训练各个文本分类器,得到最终的融合分类器。
进一步的,上述方法中,步骤S7,将当前得到的融合后的文本分类器作为最终的融合分类器之后,还包括:
步骤S9,获取待预测数据,将所述待预测数据经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L3;
步骤S10,将所述文本的数值矩阵表示L3输入这M个文本分类器,得到对应的各个文本分类器的分类结果R3;
步骤S11,将所述分类结果R3输入所述最终的融合分类器,以得到最终分类结果。
进一步的,上述方法中,步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块,包括:
预处理所述未标记的文本分类数据集a3得到一组词,得到一组词中每个词表示为wi,采用Word2vec将得每个词wi表示为对应到向量ei
将向量ei输入一个语言模型,以使所述语言模型预测得出词wi的下一个词和前一个词,其中,所述语言模型采用双向的循环神经网络,所述双向的循环神经网络中的正向循环神经网络以之前的词预测之后的词,所述双向的循环神经网络中的反向循环神经网络以之后的词预测之前的词wi,以所述未标记的文本分类数据集a3作为训练数据,调整所述双向的循环神经网络的参数,以得到训练后的自然语言表示模块。
进一步的,上述方法中,步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块中,自然语言表示模块主要负责将自然语言转换为便于计算机处理的数值,该模块包括预处理子模块、词向量转换子模块和语言模型转换子模块,其中,
预处理子模块,用于将文本数据中的噪声去除(噪声包括乱码、符号、网络链接等),同时将文本切分为一个个的词;
词向量转换子模块,用于应用Word2vec将切分出的词表示为固定维数的词向量;
语言模型转换子模块,用于采用通过用所述未标记的文本分类数据集a3的学习而得的循环神经网络语言模型,对所述词向量进行再次编码,使得每个词向量表示都具备上下文信息。
进一步的,上述方法中,步骤S3,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器,以得到各个训练后的文本分类器,包括:
使各个待训练的文本分类器以所述文本的数值矩阵表示L1作为输入,以标记的分类结果作为标准,采用梯度下降法调整各个待训练的文本分类器中的参数,以得到各个训练后的文本分类器。
进一步的,上述方法中,步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器,包括:
以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,以所述准确率和SD值作为标准选择分类器,其中:
准确率=分类正确的文本数量/总文本数量
SDij=(Ri-Rj)2,Ri、Rj表示第i个分类器和第j个分类器的结果。
进一步的,上述方法中,所述准确率和SD值作为标准选择分类器,包括:
以准确率排序,从训练后的文本分类器选取前N个文本分类器,再两两计算前N个文本分类器中每两个文本分类器的SD值,依次取SD值大的两个文本分类器,直至选择的模型数不大于M,其中,N为正整数,N>M。
根据本发明的另一面,还提供一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述任一项所述的方法。
根据本发明的另一面,还提供一种用于在网络设备端信息处理的设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行上述任一项所述的方法。
与现有技术相比,本发明采用大量的普通自然语言文本数据和未标注的分类文本领域数据,结合半监督学习的方式扩充标注数据,最后以深度学习的模型将多个文本分类器融合,从而使得分类能在实际应用中取得更高的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出本发明一实施例的文本分类的融合分类器的训练方法的流程图;
图2示出本发明一实施例的文本分类的融合分类器的训练方法的原理图;
图3示出本发明一实施例的文本分类的融合分类器的结构图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如图1~3所示,本发明提供一种文本分类的融合分类器的训练方法,所述方法包括:
步骤S1,获取一个大规模的文本语料库A(可以采集自互联网的任意自然语言文本),包括:一个已标记的文本分类训练集a1,一个已标记的文本分类验证集a2和一个未标记的文本分类数据集a3;
步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块;
步骤S3,设置一系列待训练的文本分类器,将所述已标记的文本分类训练集a1经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L1,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器,以得到各个训练后的文本分类器,其中,每个训练后的文本分类器由所述文本的数值矩阵表示L1的输入,得到对应的各个文本分类器的分类结果R1;
在此,如图2所示,可以有一分类模块主要负责文本的分类任务,该模块包括模型训练子模块和分类预测子模块,其中,模型训练子模块,用于以所述已标记的文本分类训练集a1不断调文本分类器中的参数,使得文本分类器预测更加准确;分类预测子模块,用于使用训练好的文本分类器对未标记的文本分类数据集a3进行类别预测;
训练各个分类器中,可以设置一系列待训练的文本分类器,文本分类器可以是任意深度神经网络文本分类模型,不同文本分类器可以采用不同模型,也可以采用相同模型不同参数设置;
步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器,其中,M为正整数;
在此,如图2所示,可以有一模型融合模块主要负责将分类效果好的文本分类器融合,从而获得一个更好的文本分类器,模型融合模块包括分类器评估子模块和分类器融合子模块,其中,分类器评估子模块,用于以文本分类验证集a2评估每个文本分类器的优劣,用特定算法挑选出最适合融合的一组文本分类器;
步骤S5,将所述已标记的文本分类验证集a2经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L2,将所述文本的数值矩阵表示L2输入这M个文本分类器,得到对应的各个文本分类器的分类结果R2,将所述分类结果R2输入一个融合深度神经网络,并以所述分类结果R2为标注调整该融合深度神经网络,从而完成文本分类器的融合,得到融合后的文本分类器;
在此,如图2所示,可以有分类器融合子模块,采用一个深度学习网络,将挑选出来的文本分类器预测的结果进行融合得到融合后到文本分类器;
步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值,
若是,步骤S7,将当前得到的融合后的文本分类器作为最终的融合分类器。
在此,本发明采用大量的普通自然语言文本数据和未标注的分类文本领域数据,结合半监督学习的方式扩充标注数据,最后以深度学习的模型将多个文本分类器融合,从而使得分类能在实际应用中取得更高的准确率。
本发明的文本分类的融合分类器的训练方法一实施例中,步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值之后,还包括:
若否,步骤S8,将所述未标记的文本分类数据集a3输入当前融合后的文本分类器进行分类预测,以得到新的标记数据,将新的标记数据加入到已标记的文本分类训练集a1中后,重新从步骤S3依次开始执行,以重新训练各个文本分类器,得到最终的融合分类器。
在此,可以从步骤S3开始重复以上步骤,直至得到的融合后的分类器准确率达到一定阈值。
如图2所示,可以有一标记数据生成模块主要负责对未标记文本进行分类预测,可以包括标记数据生成子模块和预测分类子模块,其中,标记数据生成子模块用于将未标记数据进行类别标记,而生成新的训练数据。
本发明的文本分类的融合分类器的训练方法一实施例中,步骤S7,将当前得到的融合后的文本分类器作为最终的融合分类器之后,还包括:
步骤S9,获取待预测数据,将所述待预测数据经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L3;
步骤S10,将所述文本的数值矩阵表示L3输入这M个文本分类器,得到对应的各个文本分类器的分类结果R3;
步骤S11,将所述分类结果R3输入所述最终的融合分类器,以得到最终分类结果。
在此,如图2所示,可以由一预测分类子模块,对待预测数据进行分类预测并输出结果。
本发明的文本分类的融合分类器的训练方法一实施例中,步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块,包括:
预处理所述未标记的文本分类数据集a3得到一组词,得到一组词中每个词表示为wi,采用Word2vec将得每个词wi表示为对应到向量ei
将向量ei输入一个语言模型,以使所述语言模型预测得出词wi的下一个词和前一个词,其中,所述语言模型采用双向的循环神经网络(RNN),所述双向的循环神经网络中的正向循环神经网络以之前的词预测之后的词,所述双向的循环神经网络中的反向循环神经网络以之后的词预测之前的词wi,以所述未标记的文本分类数据集a3作为训练数据,调整所述双向的循环神经网络的参数,以得到训练后的自然语言表示模块,使双向的循环神经网络能够准确预测前后的词。
所述双向的循环神经网络训练达到预设准确率后,后续可利用自然语言表示模块对文本分类数据进行编码。经过这一上下循环神经网络的编码后,每一个被编码的词li则同时基本了前后文信息,这更利于后续文本分类。同一文本分类数据的所有被编码的词li汇总得到该文本分类数据的数值矩阵表示L。
如图2所示,本发明的文本分类的融合分类器的训练方法一实施例中,步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块中,自然语言表示模块主要负责将自然语言转换为便于计算机处理的数值,该模块包括预处理子模块、词向量转换子模块和语言模型转换子模块,其中,预处理子模块,用于将文本数据中的噪声去除(噪声包括乱码、符号、网络链接等),同时将文本切分为一个个的词;
词向量转换子模块,用于应用Word2vec将切分出的词表示为固定维数的词向量;
语言模型转换子模块,用于采用通过用所述未标记的文本分类数据集a3的学习而得的循环神经网络语言模型,对所述词向量进行再次编码,使得每个词向量表示都具备上下文信息。
本发明的文本分类的融合分类器的训练方法一实施例中,步骤S3,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器,以得到各个训练后的文本分类器,包括:
使各个待训练的文本分类器以所述文本的数值矩阵表示L1作为输入,以标记的分类结果作为标准,采用梯度下降法调整各个待训练的文本分类器中的参数,以得到各个训练后的文本分类器。
本发明的文本分类的融合分类器的训练方法一实施例中,步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器,包括:
以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,以所述准确率和SD值作为标准选择分类器,其中:
准确率=分类正确的文本数量/总文本数量
SDij=(Ri-Rj)2,Ri、Rj表示第i个分类器和第j个分类器的结果;
以所述准确率和SD值作为标准选择分类器,包括:
以准确率排序,从训练后的文本分类器选取前N个文本分类器,再两两计算前N个文本分类器中每两个文本分类器的SD值,依次取SD值大的两个文本分类器,直至选择的模型数不大于M(模型重复选取算一个,至于模型数量上限M,有两个模型需要取舍时选准确率高的),其中,N、M为正整数,N>M。
在此,后续可以将这M个分类器以所述已标记的文本分类验证集a2作为输入得到的输出结果,输入一个融合深度神经网络,并以所述输出结果为标注调整该融合深度神经网络,从而完成分类器的融合,得到融合后的分类器。
根据本发明的另一面,还提供一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述任一项所述的方法。
根据本发明的另一面,还提供一种用于在网络设备端信息处理的设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行上述任一项所述的方法。
本发明的各设备和存储介质实施例的详细内容,具体可参见各方法实施例的对应部分,在此,不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (9)

1.一种文本分类的融合分类器的训练方法,其中,该方法包括:
步骤S1,获取一个大规模的文本语料库A,包括:一个已标记的文本分类训练集a1,一个已标记的文本分类验证集a2和一个未标记的文本分类数据集a3;
步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块;
步骤S3,设置一系列待训练的文本分类器,将所述已标记的文本分类训练集a1经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L1,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器,以得到各个训练后的文本分类器,其中,每个训练后的文本分类器由所述文本的数值矩阵表示L1的输入,得到对应的各个文本分类器的分类结果R1;
步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器,其中,M为正整数;
步骤S5,将所述已标记的文本分类验证集a2经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L2,将所述文本的数值矩阵表示L2输入这M个文本分类器,得到对应的各个文本分类器的分类结果R2,将所述分类结果R2输入一个融合深度神经网络,并以所述分类结果R2为标注调整该融合深度神经网络,从而完成文本分类器的融合,得到融合后的文本分类器;
步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值,
若是,步骤S7,将当前得到的融合后的文本分类器作为最终的融合分类器;
步骤S7,将当前得到的融合后的文本分类器作为最终的融合分类器之后,还包括:
步骤S9,获取待预测数据,将所述待预测数据经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L3;
步骤S10,将所述文本的数值矩阵表示L3输入这M个文本分类器,得到对应的各个文本分类器的分类结果R3;
步骤S11,将所述分类结果R3输入所述最终的融合分类器,以得到最终分类结果。
2.根据权利要求1所述的文本分类的融合分类器的训练方法,其中,步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值之后,还包括:
若否,步骤S8,将所述未标记的文本分类数据集a3输入当前融合后的文本分类器进行分类预测,以得到新的标记数据,将新的标记数据加入到已标记的文本分类训练集a1中后,重新从步骤S3依次开始执行,以重新训练各个文本分类器,得到最终的融合分类器。
3.根据权利要求1所述的文本分类的融合分类器的训练方法,其中,步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块,包括:
预处理所述未标记的文本分类数据集a3得到一组词,得到一组词中每个词表示为wi,采用Word2vec将得每个词wi表示为对应到向量ei
将向量ei输入一个语言模型,以使所述语言模型预测得出词wi的下一个词和前一个词,其中,所述语言模型采用双向的循环神经网络,所述双向的循环神经网络中的正向循环神经网络以之前的词预测之后的词,所述双向的循环神经网络中的反向循环神经网络以之后的词预测之前的词wi,以所述未标记的文本分类数据集a3作为训练数据,调整所述双向的循环神经网络的参数,以得到训练后的自然语言表示模块。
4.根据权利要求1所述的文本分类的融合分类器的训练方法,其中,步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块中,自然语言表示模块负责将自然语言转换为便于计算机处理的数值,该模块包括预处理子模块、词向量转换子模块和语言模型转换子模块,其中,
预处理子模块,用于将文本数据中的噪声去除,同时将文本切分为一个个的词;
词向量转换子模块,用于应用Word2vec将切分出的词表示为固定维数的词向量;
语言模型转换子模块,用于采用通过用所述未标记的文本分类数据集a3的学习而得的循环神经网络语言模型,对所述词向量进行再次编码,使得每个词向量表示都具备上下文信息。
5.根据权利要求1所述的文本分类的融合分类器的训练方法,其中,步骤S3,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器,以得到各个训练后的文本分类器,包括:
使各个待训练的文本分类器以所述文本的数值矩阵表示L1作为输入,以标记的分类结果作为标准,采用梯度下降法调整各个待训练的文本分类器中的参数,以得到各个训练后的文本分类器。
6.根据权利要求1所述的文本分类的融合分类器的训练方法,其中,步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器,包括:
以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,以所述准确率和SD值作为标准选择分类器,其中:
准确率=分类正确的文本数量/总文本数量
SDij=(Ri-Rj)2,Ri、Rj表示第i个分类器和第j个分类器的结果。
7.根据权利要求6所述的文本分类的融合分类器的训练方法,其中,所述准确率和SD值作为标准选择分类器,包括:
以准确率排序,从训练后的文本分类器选取前N个文本分类器,再两两计算前N个文本分类器中每两个文本分类器的SD值,依次取SD值大的两个文本分类器,直至选择的模型数不大于M,其中,N为正整数,N>M。
8.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至7中任一项所述的方法。
9.一种用于在网络设备端信息处理的设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行权利要求1至7中任一项所述的方法。
CN201910337468.2A 2019-04-25 2019-04-25 文本分类的融合分类器的训练方法及设备 Active CN110245227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910337468.2A CN110245227B (zh) 2019-04-25 2019-04-25 文本分类的融合分类器的训练方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910337468.2A CN110245227B (zh) 2019-04-25 2019-04-25 文本分类的融合分类器的训练方法及设备

Publications (2)

Publication Number Publication Date
CN110245227A CN110245227A (zh) 2019-09-17
CN110245227B true CN110245227B (zh) 2021-12-28

Family

ID=67883241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910337468.2A Active CN110245227B (zh) 2019-04-25 2019-04-25 文本分类的融合分类器的训练方法及设备

Country Status (1)

Country Link
CN (1) CN110245227B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685374B (zh) * 2019-10-17 2023-04-11 中国移动通信集团浙江有限公司 日志分类方法、装置及电子设备
CN113051393A (zh) * 2019-12-27 2021-06-29 财团法人工业技术研究院 问答学习方法、问答学习系统及其计算机程序产品
CN112069310B (zh) * 2020-06-18 2023-05-02 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及系统
CN111950482B (zh) * 2020-08-18 2023-09-15 广东工业大学 基于视频学习和文本学习的三元组获取方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN105205044A (zh) * 2015-08-26 2015-12-30 苏州大学张家港工业技术研究院 一种情感与非情感问题的分类方法及系统
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US9436759B2 (en) * 2007-12-27 2016-09-06 Nant Holdings Ip, Llc Robust information extraction from utterances
CN102141997A (zh) * 2010-02-02 2011-08-03 三星电子(中国)研发中心 智能决策支持系统及其智能决策方法
CN108595632B (zh) * 2018-04-24 2022-05-24 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN105205044A (zh) * 2015-08-26 2015-12-30 苏州大学张家港工业技术研究院 一种情感与非情感问题的分类方法及系统
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于性格的微博情感分析模型PLSTM;袁婷婷 等;《计算机应用研究》;20181212;第37卷(第2期);第342-346页 *

Also Published As

Publication number Publication date
CN110245227A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110245227B (zh) 文本分类的融合分类器的训练方法及设备
US10380236B1 (en) Machine learning system for annotating unstructured text
CN109241383B (zh) 一种基于深度学习的网页类型智能识别方法及系统
US11914963B2 (en) Systems and methods for determining and using semantic relatedness to classify segments of text
CN110309301B (zh) 企业类别的分类方法、装置及智能终端
CN111832382A (zh) 基于视觉和文本内容的光学字符识别错误校正
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN111930939A (zh) 一种文本检测的方法及装置
CN111506732A (zh) 一种文本多层次标签分类方法
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN111428513A (zh) 一种基于卷积神经网络的虚假评论分析方法
CN116416480A (zh) 一种基于多模板提示学习的视觉分类方法和装置
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN110969018A (zh) 案情描述要素提取方法、机器学习模型获得方法及装置
CN116071077A (zh) 一种违规账户的风险评估与识别方法及装置
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN113255829B (zh) 基于深度学习的零样本图像目标检测方法和装置
CN114881169A (zh) 使用随机特征损坏的自监督对比学习
CN116795789B (zh) 自动生成专利检索报告的方法及装置
CN112214597B (zh) 基于多粒度建模的半监督文本分类方法和系统
CN113076720A (zh) 长文本的分段方法及装置、存储介质、电子装置
CN111475648B (zh) 一种文本分类模型生成方法、文本分类方法及装置、设备
CN116452707B (zh) 基于表格的文本生成方法、装置及其应用
CN113010635A (zh) 一种文本纠错方法及装置
CN112395858A (zh) 融合试题数据和解答数据的多知识点标注方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant