CN112269875A - 文本分类方法、装置、电子设备及存储介质 - Google Patents
文本分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112269875A CN112269875A CN202011144860.4A CN202011144860A CN112269875A CN 112269875 A CN112269875 A CN 112269875A CN 202011144860 A CN202011144860 A CN 202011144860A CN 112269875 A CN112269875 A CN 112269875A
- Authority
- CN
- China
- Prior art keywords
- text
- text classification
- training
- classification model
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,揭露了一种文本分类方法,包括:根据第一文本分类模型及第二文本分类模型计算出训练文本集的第一文本分类概率值和第二文本分类概率值,调整第二文本分类模型的参数,得到初始文本分类模型;利用初始文本分类模型对验证文本集进行文本分类后计算文本分类的准确率;若准确率大于预设阈值,利用初始文本分类模型对待分类文本进行文本分类,得到分类结果;若准确率不大于预设阈值,利用第一文本分类模型对初始文本分类模型进行迭代训练;利用迭代训练后的第二文本分类模型对待分类文本进行文本分类,得到分类结果。此外,本发明还涉及区块链技术,所述训练文本集可存储于区块链中。本发明可以提高文本分类的分类效果。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本分类方法、装置、电子设备及计算机可读存储介质。
背景技术
随着大数据时代的到来,深度学习迎来了突飞猛进的发展,为了充分利用这些大数据达到更好的文本分类效果,目前行业内通常会采用以下两种方案:方案一、使用过参数化的神经网络模型进行文本分类,比如BERT、ERNIE等,这类神经网络模型虽然学习能力非常强,然而这类神经网络模型的参数量也相当惊人,需要占用巨大的内存资源,比如BERT-base有一亿零九百万参数,BERT-large的参数量则高达三亿三千万;方案二、通过集成的方式,将许多弱的神经网络模型集成起来实现文本分类,比如将textcnn、fasttext等神经网络模型集成,但这类神经网络模型泛化性较弱,无法复用到多个场景的文本分类。
发明内容
本发明提供一种文本分类方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高文本分类的分类效果。
为实现上述目的,本发明提供的一种文本分类方法,包括:
获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型;
根据在所述第一文本分类模型中构建的第一文本分类神经元层数,计算所述训练文本集的第一文本分类概率值,及根据在所述第二文本分类模型中构建的第二文本分类神经元层数,计算所述训练文本集的第二文本分类概率值;
计算所述第一文本分类概率值与所述第二文本分类概率值的相对熵,根据所述相对熵,调整所述第二文本分类模型的参数,直至所述第二文本分类模型趋于收敛时,得到初始第二文本分类模型;
利用所述初始第二文本分类模型对所述验证文本集进行文本分类并计算所述文本分类的结果的文本分类准确率;
若所述文本分类准确率大于预设阈值,则利用所述初始第二文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果;
若所述文本分类准确率不大于预设阈值,则利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型;
利用所述目标文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
可选地,所述第一分类模型是RoBERTa模型以及所述第二分类模型是LSTM模型。
可选地,所述根据在所述第一文本分类模型中构建的第一文本分类神经元层数,计算所述训练文本集的第一文本分类概率值,包括:
利用下述方法计算所述训练文本集的第一文本分类概率值:
其中,Z(t)表示第一文本分类概率值,表示训练文本集中第b个文本分类结果与第一文本分类神经元层数的比值,j表示训练文本集的文本分类数量,表示训练文本集中所有文本分类结果与第一文本分类神经元层数的比值。
可选地,所述计算所述第一文本分类概率值与所述第二文本分类概率值的相对熵,包括:
利用下述方法计算所述第一文本分类概率值与所述第二文本分类概率值的相对熵:
其中,DKL(Zt|Zs)表示相对熵,N表示训练文本集的样本数,xi表示训练文本集中第i个训练文本,zt(xi)表示训练文本集中第i个训练文本的第一文本分类概率值,zs(xi)表示表示训练文本集中第i个训练文本的第二文本分类概率值。
可选地,所述根据所述相对熵,调整所述第二文本分类模型的参数,包括:
获取所述第二文本分类模型的交叉熵;
计算所述交叉熵与所述相对熵的最终损失值;
根据所述最终损失值,执行所述第二文本分类模型的参数调整。
可选地,所述计算所述交叉熵与所述相对熵的最终损失值,包括:
利用下述方法计算所述交叉熵与所述相对熵的最终损失值:
Loss=lossdistill+DKL(Zt|Zs)
其中,Loss表示最终损失值,lossdistill表示交叉熵,DKL(Zt|Zs)表示相对熵。
可选地,所述利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型,包括:
步骤I、基于所述初始第二文本分类模型,计算所述训练文本集的第三文本分类概率值,计算所述第三文本分类概率值与所述第一文本概率值的第二相对熵,根据所述第二相对熵,对所述第一文本分类模型进行参数调整,直至所述第一文本分类模型趋于收敛时,得到初始第一文本分类模型;
步骤II、基于所述初始第一文本分类模型,计算所述训练文本集的第四文本分类概率值,计算所述第四文本分类概率值集及所述第三文本概率值的第三相对熵,根据所述第三相对熵,对所述初始第二文本分类模型进行参数调整,直至所述第二文本分类模型趋于收敛时,得到参数调整后的第二文本分类模型;
步骤III、重复执行步骤I和步骤II,直至参数调整后的所述初始第二文本模型输出文本分类准确率大于预设阈值时,将参数调整后的所述初始第二文本作为目标文本分类模型。
为了解决上述问题,本发明还提供一种文本分类装置,所述装置包括:
训练模块,用于获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型;
计算模块,用于获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型;
调整模块,用于获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型;
验证模块,用于利用所述初始第二文本分类模型对所述验证文本集进行文本分类并计算所述文本分类的结果的文本分类准确率;
分类模块,用于在所述文本分类准确率大于预设阈值时,则利用所述初始第二文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果;
所述训练模块,还用于在所述文本分类准确率不大于预设阈值时,则利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型;
所述分类模块,还用于利用所述目标文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行以实现上述所述的文本分类方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被处理器执行以实现上述所述的文本分类方法。
本发明实施例通过第一文本分类模型和第二文本模型分别计算训练文本集的第一文本分类概率值与第二文本分类概率值,根据第一文本分类概率值与第二文本分类概率值,调整所述第二文本分类模型的参数,以使第二文本分类模型学习第一文本分类模型的分类效果,并通过第一文本分类模型学习参数调整后的第二文本模型,以使第一文本分类模型学习参数调整后的第二文本分类模型的分类效果,基于第一文本分类模型和第二文本分类模型的不断迭代互相学习过程,确保最终得到的目标文本模型具有文本分类准确性高及模型泛化性高的优点。因此,本发明提出的一种文本分类方法、装置、电子设备以及计算机可读存储介质可以提高文本分类的分类效果。
附图说明
图1为本发明一实施例提供的文本分类方法的流程示意图;
图2为本发明第一实施例中图1提供的文本分类方法其中一个步骤的详细流程示意图;
图3为本发明第一实施例中图1提供的文本分类方法其中一个步骤的详细流程示意图;
图4为本发明第一实施例中图1提供的文本分类方法另一个步骤的详细流程示意图;
图5为本发明一实施例提供的文本分类装置的模块示意图;
图6为本发明一实施例提供的实现文本分类方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种文本分类方法,所述文本分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述文本分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示的本发明一实施例提供的文本分类方法的流程示意图。在本发明实施例中,所述文本分类方法包括:
S1、获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型。
所述训练文本集用于执行模型的训练。本发明实施例中,所述训练文本集包括不同类型的数据集,进一步地,所述训练文本集中包含标签。本发明实施例中,所述标签为类型标签,用于指明所述训练文本集中每一个文本对应的文本类型属性。例如,对于保险领域来说,其训练文本集包括:金融类型的文本、医疗类型的文本以及理赔类型的文本等,则对应的标签为金融、医疗以及理赔。
本发明一个可选实施例中,所述训练文本集可以从各种网站或者企业后台数据库中下载得到,例如,某一个保险公司的后台数据库。
所述验证文本集用于验证模型的训练效果。本发明实施例中,所述验证文本集可以从所述训练文本集中选取。
本发明实施例中,所述第一分类模型可以是RoBERTa模型。所述RoBERTa模型包含大量的参数,属于大分类识别模型,因此,通过所述RoBERTa模型进行数据分类预测虽然分类预测结果准确性较高,但需要消耗大量的内存资源。
其中,需要强调的是,虽然所述RoBERTa模型可以预测出数据的分类,但由于其预测数据领域较为广泛,缺少对某一领域数据的专一预测,于是,本发明通过所述训练文本集对所述RoBERTa模型进行文本分类训练,以使所述RoBERTa模型能够更加专一的对文本数据进行分类预测,从而可以提高文本分类的准确性。
详细地,所述利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,包括:
将所述训练文本集输入至所述第一分类模型进行训练,得到训练值;
利用所述第一分类模型中的损失函数计算所述训练值与对应标签的训练损失值,根据所述训练损失值调整所述第一分类模型的参数,直至所述训练损失值小于预设的训练损失值,得到第一文本分类模型。
一个可选实施例中,所述损失函数为:
其中,L(s)表示训练损失值,sj表示训练值与标签的差值,k表示训练文本集的数量,yi表示第i个标签,y′i表示第i个训练值。
一个可选实施例中,所述预设的训练损失值为0.1。
进一步地,本发明实施例中,所述第二分类模型可以是LSTM(Long Short-TermMemory,长短期记忆人工神经网络)模型。由于所述LSTM模型包含较少的参数,属于小分类识别模型。通过所述LSTM模型进行数据分类预测虽然分类预测的运行速度较快,但无法分类预测结果的准确率较低以及泛化性较弱。其中,本发明中所述LSTM模型包括:输入门、遗忘门以及输出门。
其中,需要强调的是,虽然所述LSTM模型可以预测出数据的分类,但由于其预测数据领域较为广泛,缺少对某一领域数据的专一预测,于是,本发明通过所述训练文本集对所述LSTM模型进行文本分类训练,以使所述LSTM模型能够更加专一的对文本数据进行分类预测,从而可以提高文本分类的准确性。
详细地,参阅图2所示,所述利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型包括:
S10、通过所述输入门计算所述训练文本集的状态值;
S11、通过所述遗忘门计算所述训练文本集的激活值;
S12、根据所述状态值和激活值计算所述训练文本集的状态更新值;
S13、利用所述输出门计算所述状态更新值的训练状态值,根据所述训练状态值和所述训练文本集的标签调整所述第二分类模型的参数,直至所述第二分类模型趋于收敛时,结束所述文本分类的训练,得到所述第二文本分类模型。
一个可选实施例中,所述训练文本集的状态值的计算方法包括:
其中,it表示所述状态值,表示所述输入门中细胞单元的偏置,wi表示所述输入门的激活因子,ht-1表示训练文本集的训练文本在所述输入门t-1时刻的峰值,xt表示在t时刻输入的训练文本集的训练文本,bi表示所述输入门中细胞单元的权重。
一个可选实施例中,所述训练文本集的激活值的计算方法包括:
其中,ft表示所述激活值,表示所述遗忘门中细胞单元的偏置,wf表示所述遗忘门的激活因子,表示训练文本集的训练文本在所述遗忘门t-1时刻的峰值,xt表示在t时刻输入的训练文本集的训练文本,bf表示所述遗忘门中细胞单元的权重。
一个可选实施例中,所述训练文本集的状态更新值的计算方法包括:
一个可选实施例中,所述训练状态值的计算方法包括:
ot=tanh(ct)
其中,ot表示所述训练状态值,tanh表示所述输出门的激活函数,ct表示所述状态更新值。
一个可选实施例中,所述根据所述训练状态值和所述训练文本集的标签调整所述第二分类模型的参数,包括:计算所述训练状态值和标签的差值,若所述差值大于预设的差值时,则调整所述第二分类模型的参数,若所述差值不大于预设的差值时,则不调整所述第二分类模型的参数,优选地,所述预设的差值为0.1。
进一步地,为保障所述训练文本集的复用性,所述训练文本集还可存储于一区块链节点中。
S2、根据在所述第一文本分类模型中构建的第一文本分类神经元层数,计算所述训练文本集的第一文本分类概率值,及根据在所述第二文本分类模型中构建的第二文本分类神经元层数,计算所述训练文本集的第二文本分类概率值。
由于所述第一文本分类模型的输出结果为对应训练文本的文本类型,无法清楚了解到所述第一文本分类模型的输出结果与对应匹配的文本类型的匹配概率值,从而不能很好的表达出所述第一文本分类模型的文本分类预测效果,因此,本发明实施例通过在所述第一文本分类模型中预设文本分类神经元层数,及利用所述第一文本分类模型中的激活函数计算所述训练文本集中训练文本的第一文本分类概率值,增强所述第一文本分类模型的文本分类预测效果,从而可以提高模型的鲁棒性。
优选地,所述文本分类神经元层数在所述第一文本分类模型中的全连接层进行构建,所述全连接层用于将训练文本的文本分类概率值传输至所述第一文本分类模型的输出层中,其中,所述文本分类神经元层数通过Python语言进行构架。进一步地,需要说明的是,在所述第一文本分类模型中构建的文本分类神经元层数基于用户需求进行选择。例如,用户需要文本分类概率值对应的分类结果更准确,则构建的文本分类神经元层数的数量就更多,比如,用户需求文本分类概率值的准确率在0.95,则构建的文本分类神经元层数可以为10层。
进一步地,利用下述方法计算所述训练文本集的第一文本分类概率值:
其中,Z(t)表示第一文本分类概率值,表示训练文本集中第b个文本分类结果与第一文本分类神经元层数的比值,j表示训练文本集的文本分类数量,表示训练文本集中所有文本分类结果与第一文本分类神经元层数的比值。
同样的,由于所述第二文本分类模型的输出结果也为对应训练文本的文本类型,无法清楚了解到所述第二文本分类模型的输出结果与对应匹配的文本类型的匹配概率值,从而不能很好的表达出所述第二文本分类模型的文本分类预测效果,因此,本发明实施例通过在所述第二文本分类模型预设文本分类神经元层数,及利用所述第二文本分类模型中的激活函数计算所述训练文本集中训练文本的第二文本分类概率值,增强所述第二文本分类模型的文本分类预测效果,从而可以提高模型的鲁棒性。
同样地,所述文本分类神经元层数在所述第二文本分类模型中的全连接层进行构建,所述全连接层用于将训练文本的文本分类概率值传输至所述第二文本分类模型的输出层中,其中,所述文本分类神经元层数通过Python语言进行构架。进一步地,需要说明的是,所在所述第二文本分类模型中构建的文本分类神经元层数也是基于用户需求进行选择。
进一步地,利用下述方法计算所述训练文本集的第二文本分类概率值:
其中,Z(S)表示第二文本分类概率值,表示训练文本集中第b个文本分类结果与第一文本分类神经元层数的比值,j表示训练文本集的文本分类数量,表示训练文本集的中所有文本分类结果与第二文本分类神经元层数的比值。
S3、计算所述第一文本分类概率值与所述第二文本分类概率值的相对熵,根据所述相对熵,调整所述第二文本分类模型的参数,直至所述第二文本分类模型趋于收敛时,得到初始第二文本分类模型。
本发明较佳实施例中,利用下述方法计算所述第一文本分类概率值与所述第二文本分类概率值的相对熵:
其中,DKL(Zt|Zs)表示相对熵,N表示训练文本集的样本数,xi表示训练文本集中第i个训练文本,zt(xi)表示训练文本集中第i个训练文本的第一文本分类概率值,zs(xi)表示表示训练文本集中第i个训练文本的第二文本分类概率值。
基于所述相对熵,可以清晰了解到所述第二分类模型的文本分类预测结果与所述第一分类模型的文本分类预测结果的文本分类差值,从而可以帮助所述第二分类模型学习所述第一分类模型的信息参数,提高所述第二分类模型的文本分类预测结果的精确性。
在本发明的至少一个实施例中,参阅图3所示,所述根据所述相对熵,调整所述第二文本分类模型的参数,包括:
S20、获取所述第二文本分类模型的交叉熵;
S21、计算所述交叉熵与所述相对熵的最终损失值;
S22、根据所述最终损失值,执行所述第二文本分类模型的参数调整。
一个优选实施例中,所述交叉熵指的是上述S1中训练状态值和标签的差值。
一个优选实施例中,利用下述方法计算所述损失函数值与所述交叉熵的最终损失值:
Loss=lossdistill+DKL(Zt|Zs)
其中,Loss表示最终损失值,lossdistill表示交叉熵,DKL(Zt|Zs)表示相对熵。
一个优选实施例中,所述根据所述最终损失值,执行所述第二文本分类模型的参数调整,包括:根据预先设置最终损失值的学习率,调整所述第二文本分类模型的参数,直至所述第二文本分类模型趋于收敛,结束所述第二文本分类模型的参数调整,得到所述初始文本分类模型。其中,所述学习率为0.9。
S4、利用所述初始第二文本分类模型对所述验证文本集进行文本分类并计算所述文本分类的结果的文本分类准确率。
较佳地,本发明实施例将所述验证文本集输入至所述初始第二文本分类模型中进行文本分类,得到所述验证文本集的分类结果。
进一步地,本发明根据所述验证文本集的分类结果,及所述验证文本集的标签,计算所述验证文本集的文本分类准确率,其中,所述验证文本集的标签指的是所述验证文本集对应真实的文本类型。
若所述文本分类准确率大于预设阈值时,则执行S5、利用所述初始第二文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
本发明较佳实施例中,若所述文本分类准确率大于预设阈值时,则表示所述初始文本分类模型已经具有足够准确的文本分类预测能力,于是,本发明利用所述初始第二文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
其中,所述待分类文本指的是需要识别出文本类型的文本数据,所述预设阈值为0.98。
若所述文本分类准确率不大于预设阈值时,则执行S6、利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型.
本发明较佳实施例中,若所述文本分类准确率不大于预设阈值时,则表示所述初始文本分类模型并没有足够准确的文本分类预测能力,于是,本发明利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,直至所述验证文本集的文本分类准确率大于预设阈值时,得到目标文本分类模型。
其中,所述融合迭代训练指的是所述第一文本分类模型与所述初始第二文本分类模型不断互相学习对应的文本模型参数。
详细地,参阅图5所示,所述利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型,包括:
S30、基于所述初始第二文本分类模型,计算所述训练文本集的第三文本分类概率值,计算所述第三文本分类概率值与所述第一文本概率值的第二相对熵,根据所述第二相对熵,对所述第一文本分类模型进行参数调整,直至所述第一文本分类模型趋于收敛时,得到初始第一文本分类模型;
S31、基于所述初始第一文本分类模型,计算所述训练文本集的第四文本分类概率值,计算所述第四文本分类概率值集及所述第三文本概率值的第三相对熵,根据所述第三相对熵,对所述初始第二文本分类模型进行参数调整,直至所述第二文本分类模型趋于收敛时,得到参数调整后的第二文本分类模型;
S32、重复执行步骤S30和步骤S31,直至参数调整后的所述初始第二文本模型输出文本分类准确率大于预设阈值时,将参数调整后的所述初始第二文本作为目标文本分类模型。
S7、利用所述目标文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
综上所述,本发明实施例通过第一文本分类模型和第二文本模型分别计算训练文本集的第一文本分类概率值与第二文本分类概率值,根据第一文本分类概率值与第二文本分类概率值,调整所述第二文本分类模型的参数,以使第二文本分类模型学习第一文本分类模型的分类效果,并通过第一文本分类模型学习参数调整后的第二文本模型,以使第一文本分类模型学习参数调整后的第二文本分类模型的分类效果,基于第一文本分类模型和第二文本分类模型的不断迭代互相学习过程,确保最终得到的目标文本模型具有文本分类准确性高及模型泛化性高的优点。因此,本发明提出的一种文本分类方法可以提高文本分类的分类效果。
如图5所示,是本发明文本分类装置的功能模块图。
本发明所述文本分类装置100可以安装于电子设备中。根据实现的功能,所述文本分类装置可以包括训练模块101、计算模块102、调整模块103、验证模块104以及分类模块105。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述训练模块101,用于获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型。
所述训练文本集用于执行模型的训练。本发明实施例中,所述训练文本集包括不同类型的数据集,进一步地,所述训练文本集中包含标签。本发明实施例中,所述标签为类型标签,用于指明所述训练文本集中每一个文本对应的文本类型属性。例如,对于保险领域来说,其训练文本集包括:金融类型的文本、医疗类型的文本以及理赔类型的文本等,则对应的标签为金融、医疗以及理赔。
本发明一个可选实施例中,所述训练文本集可以从各种网站或者企业后台数据库中下载得到,例如,某一个保险公司的后台数据库。
所述验证文本集用于验证模型的训练效果。本发明实施例中,所述验证文本集可以从所述训练文本集中选取。
本发明实施例中,所述第一分类模型可以是RoBERTa模型。所述RoBERTa模型包含大量的参数,属于大分类识别模型,因此,通过所述RoBERTa模型进行数据分类预测虽然分类预测结果准确性较高,但需要消耗大量的内存资源。
其中,需要强调的是,虽然所述RoBERTa模型可以预测出数据的分类,但由于其预测数据领域较为广泛,缺少对某一领域数据的专一预测,于是,本发明通过所述训练文本集对所述RoBERTa模型进行文本分类训练,以使所述RoBERTa模型能够更加专一的对文本数据进行分类预测,从而可以提高文本分类的准确性。
详细地,所述利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,所述训练模块101采用下述方式执行:
将所述训练文本集输入至所述第一分类模型进行训练,得到训练值;
利用所述第一分类模型中的损失函数计算所述训练值与对应标签的训练损失值,根据所述训练损失值调整所述第一分类模型的参数,直至所述训练损失值小于预设的训练损失值,得到第一文本分类模型。
一个可选实施例中,所述损失函数为:
其中,L(s)表示训练损失值,sj表示训练值与标签的差值,k表示训练文本集的数量,yi表示第i个标签,y′i表示第i个训练值。
一个可选实施例中,所述预设的训练损失值为0.1。
进一步地,本发明实施例中,所述第二分类模型可以是LSTM(Long Short-TermMemory,长短期记忆人工神经网络)模型。由于所述LSTM模型包含较少的参数,属于小分类识别模型。通过所述LSTM模型进行数据分类预测虽然分类预测的运行速度较快,但无法分类预测结果的准确率较低以及泛化性较弱。其中,本发明中所述LSTM模型包括:输入门、遗忘门以及输出门。
其中,需要强调的是,虽然所述LSTM模型可以预测出数据的分类,但由于其预测数据领域较为广泛,缺少对某一领域数据的专一预测,于是,本发明通过所述训练文本集对所述LSTM模型进行文本分类训练,以使所述LSTM模型能够更加专一的对文本数据进行分类预测,从而可以提高文本分类的准确性。
详细地,所述利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型,所述训练模块101采用下述方式执行:
步骤A、通过所述输入门计算所述训练文本集的状态值;
步骤B、通过所述遗忘门计算所述训练文本集的激活值;
步骤C、根据所述状态值和激活值计算所述训练文本集的状态更新值;
步骤D、利用所述输出门计算所述状态更新值的训练状态值,根据所述训练状态值和所述训练文本集的标签调整所述第二分类模型的参数,直至所述第二分类模型趋于收敛时,结束所述文本分类的训练,得到所述第二文本分类模型。
一个可选实施例中,所述训练文本集的状态值的计算方法包括:
其中,it表示所述状态值,表示所述输入门中细胞单元的偏置,wi表示所述输入门的激活因子,ht-1表示训练文本集的训练文本在所述输入门t-1时刻的峰值,xt表示在t时刻输入的训练文本集的训练文本,bi表示所述输入门中细胞单元的权重。
一个可选实施例中,所述训练文本集的激活值的计算方法包括:
其中,ft表示所述激活值,表示所述遗忘门中细胞单元的偏置,wf表示所述遗忘门的激活因子,表示训练文本集的训练文本在所述遗忘门t-1时刻的峰值,xt表示在t时刻输入的训练文本集的训练文本,bf表示所述遗忘门中细胞单元的权重。
一个可选实施例中,所述训练文本集的状态更新值的计算方法包括:
一个可选实施例中,所述训练状态值的计算方法包括:
ot=tan h(ct)
其中,ot表示所述训练状态值,tan h表示所述输出门的激活函数,ct表示所述状态更新值。
一个可选实施例中,所述训练模块101根据所述训练状态值和所述训练文本集的标签调整所述第二分类模型的参数,包括:计算所述训练状态值和标签的差值,若所述差值大于预设的差值时,则调整所述第二分类模型的参数,若所述差值不大于预设的差值时,则不调整所述第二分类模型的参数,优选地,所述预设的差值为0.1。
进一步地,为保障所述训练文本集的复用性,所述训练文本集还可存储于一区块链节点中。
所述计算模块102,用于根据在所述第一文本分类模型中构建的第一文本分类神经元层数,计算所述训练文本集的第一文本分类概率值,及根据在所述第二文本分类模型中构建的第二文本分类神经元层数,计算所述训练文本集的第二文本分类概率值。
由于所述第一文本分类模型的输出结果为对应训练文本的文本类型,无法清楚了解到所述第一文本分类模型的输出结果与对应匹配的文本类型的匹配概率值,从而不能很好的表达出所述第一文本分类模型的文本分类预测效果,因此,本发明实施例,所述计算模块102通过在所述第一文本分类模型中预设文本分类神经元层数,及利用所述第一文本分类模型中的激活函数计算所述训练文本集中训练文本的第一文本分类概率值,增强所述第一文本分类模型的文本分类预测效果,从而可以提高模型的鲁棒性。
优选地,所述文本分类神经元层数在所述第一文本分类模型中的全连接层进行构建,所述全连接层用于将训练文本的文本分类概率值传输至所述第一文本分类模型的输出层中,其中,所述文本分类神经元层数通过Python语言进行构架。进一步地,需要说明的是,在所述第一文本分类模型中构建的文本分类神经元层数基于用户需求进行选择。例如,用户需要文本分类概率值对应的分类结果更准确,则构建的文本分类神经元层数的数量就更多,比如,用户需求文本分类概率值的准确率在0.95,则构建的文本分类神经元层数可以为10层。
进一步地,所述计算模块102利用下述方法计算所述训练文本集的第一文本分类概率值:
其中,Z(t)表示第一文本分类概率值,表示训练文本集中第b个文本分类结果与第一文本分类神经元层数的比值,j表示训练文本集的文本分类数量,表示训练文本集中所有文本分类结果与第一文本分类神经元层数的比值。
同样的,由于所述第二文本分类模型的输出结果也为对应训练文本的文本类型,无法清楚了解到所述第二文本分类模型的输出结果与对应匹配的文本类型的匹配概率值,从而不能很好的表达出所述第二文本分类模型的文本分类预测效果,因此,本发明实施例,所述计算模块102通过在所述第二文本分类模型预设文本分类神经元层数,及利用所述第二文本分类模型中的激活函数计算所述训练文本集中训练文本的第二文本分类概率值,增强所述第二文本分类模型的文本分类预测效果,从而可以提高模型的鲁棒性。
同样地,所述文本分类神经元层数在所述第二文本分类模型中的全连接层进行构建,所述全连接层用于将训练文本的文本分类概率值传输至所述第二文本分类的输出层中,其中,所述文本分类神经元层数通过Python语言进行构架。进一步地,需要说明的是,所在所述第二文本分类模型中构建的文本分类神经元层数也是基于用户需求进行选择。
进一步地,所述计算模块102利用下述方法计算所述训练文本集的第二文本分类概率值:
其中,Z(S)表示第二文本分类概率值,表示训练文本集中第b个文本分类结果与第一文本分类神经元层数的比值,j表示训练文本集的文本分类数量,表示训练文本集的中所有文本分类结果与第二文本分类神经元层数的比值。
所述调整模块103,用于计算所述第一文本分类概率值与所述第二文本分类概率值的相对熵,根据所述相对熵,调整所述第二文本分类模型的参数,直至所述第二文本分类模型趋于收敛时,得到初始第二文本分类模型。
本发明较佳实施例中,所述调整模块103利用下述方法计算所述第一文本分类概率值与所述第二文本分类概率值的相对熵:
其中,DKL(Zt|Zs)表示相对熵,N表示训练文本集的样本数,xi表示训练文本集中第i个训练文本,zt(xi)表示训练文本集中第i个训练文本的第一文本分类概率值,zs(xi)表示表示训练文本集中第i个训练文本的第二文本分类概率值。
基于所述相对熵,可以清晰了解到所述第二分类模型的文本分类预测结果与所述第一分类模型的文本分类预测结果的文本分类差值,从而可以帮助所述第二分类模型学习所述第一分类模型的信息参数,提高所述第二分类模型的文本分类预测结果的精确性。
在本发明的至少一个实施例中,所述根据所述相对熵,调整所述第二文本分类模型的参数,所述调整模块103采用下述方式执行:
步骤a、获取所述第二文本分类模型的交叉熵;
步骤b、计算所述交叉熵与所述相对熵的最终损失值;
步骤c、根据所述最终损失值,执行所述第二文本分类模型的参数调整。
一个优选实施例中,所述交叉熵指的是上述S1中训练状态值和标签的差值。
一个优选实施例中,利用下述方法计算所述损失函数值与所述交叉熵的最终损失值:
Loss=lossdistill+DKL(Zt|Zs)
其中,Loss表示最终损失值,lossdistill表示交叉熵,DKL(Zt|Zs)表示相对熵。
一个优选实施例中,所述调整模块103根据所述最终损失值,执行所述第二文本分类模型的参数调整,包括:根据预先设置最终损失值的学习率,调整所述第二文本分类模型的参数,直至所述第二文本分类模型趋于收敛,结束所述第二文本分类模型的参数调整,得到所述初始文本分类模型。其中,所述学习率为0.9。
所述验证模块104,用于利用所述初始第二文本分类模型对所述验证文本集进行文本分类并计算所述文本分类的结果的文本分类准确率。
较佳地,本发明实施例将所述验证文本集输入至所述初始第二文本分类模型中进行文本分类,得到所述验证文本集的分类结果。
进一步地,本发明根据所述验证文本集的分类结果,及所述验证文本集的标签,所述验证模块104计算所述验证文本集的文本分类准确率,其中,所述验证文本集的标签指的是所述验证文本集对应真实的文本类型。
所述分类模块105,用于在所述文本分类准确率大于预设阈值时,利用所述初始第二文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
本发明较佳实施例中,若所述文本分类准确率大于预设阈值时,则表示所述初始文本分类模型已经具有足够准确的文本分类预测能力,于是,所述分类模块105利用所述初始第二文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
其中,所述待分类文本指的是需要识别出文本类型的文本数据,所述预设阈值为0.98。
所述训练模块101,还用于在若所述文本分类准确率不大于预设阈值时,利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型.
本发明较佳实施例中,若所述文本分类准确率不大于预设阈值时,则表示所述初始文本分类模型并没有足够准确的文本分类预测能力,于是,所述训练模块101利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,直至所述验证文本集的文本分类准确率大于预设阈值时,得到目标文本分类模型。
其中,所述融合迭代训练指的是所述第一文本分类模型与所述初始第二文本分类模型不断互相学习对应的文本模型参数。
详细地,参阅图5所示,所述训练模块101利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型,包括:
S30、基于所述初始第二文本分类模型,计算所述训练文本集的第三文本分类概率值,计算所述第三文本分类概率值与所述第一文本概率值的第二相对熵,根据所述第二相对熵,对所述第一文本分类模型进行参数调整,直至所述第一文本分类模型趋于收敛时,得到初始第一文本分类模型;
S31、基于所述初始第一文本分类模型,计算所述训练文本集的第四文本分类概率值,计算所述第四文本分类概率值集及所述第三文本概率值的第三相对熵,根据所述第三相对熵,对所述初始第二文本分类模型进行参数调整,直至参数调整后的所述初始第二文本模型输出文本分类准确率大于预设阈值时,将参数调整后的所述初始第二文本作为目标文本分类模型;
S32、重复执行步骤S30和步骤S31,直至所述初始第二文本模型输出文本分类准确率大于预设阈值时,得到目标文本分类模型。
所述分类模块105,还用于利用所述目标文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
本发明实施例通过第一文本分类模型和第二文本模型分别计算训练文本集的第一文本分类概率值与第二文本分类概率值,根据第一文本分类概率值与第二文本分类概率值,调整所述第二文本分类模型的参数,以使第二文本分类模型学习第一文本分类模型的分类效果,并通过第一文本分类模型学习参数调整后的第二文本模型,以使第一文本分类模型学习参数调整后的第二文本分类模型的分类效果,基于第一文本分类模型和第二文本分类模型的不断迭代互相学习过程,确保最终得到的目标文本模型具有文本分类准确性高及模型泛化性高的优点。因此,本发明提出的一种文本分类装置可以提高文本分类的分类效果。如图6所示,是本发明实现文本分类方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如文本分类程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如文本分类的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行文本分类等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图6仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图6示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的文本分类12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型;
根据在所述第一文本分类模型中构建的第一文本分类神经元层数,计算所述训练文本集的第一文本分类概率值,及根据在所述第二文本分类模型中构建的第二文本分类神经元层数,计算所述训练文本集的第二文本分类概率值;
计算所述第一文本分类概率值与所述第二文本分类概率值的相对熵,根据所述相对熵,调整所述第二文本分类模型的参数,直至所述第二文本分类模型趋于收敛时,得到初始第二文本分类模型;
利用所述初始第二文本分类模型对所述验证文本集进行文本分类并计算所述文本分类的结果的文本分类准确率;
若所述文本分类准确率大于预设阈值,则利用所述初始第二文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果;
若所述文本分类准确率不大于预设阈值,则利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型;
利用所述目标文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型;
根据在所述第一文本分类模型中构建的第一文本分类神经元层数,计算所述训练文本集的第一文本分类概率值,及根据在所述第二文本分类模型中构建的第二文本分类神经元层数,计算所述训练文本集的第二文本分类概率值;
计算所述第一文本分类概率值与所述第二文本分类概率值的相对熵,根据所述相对熵,调整所述第二文本分类模型的参数,直至所述第二文本分类模型趋于收敛时,得到初始第二文本分类模型;
利用所述初始第二文本分类模型对所述验证文本集进行文本分类并计算所述文本分类的结果的文本分类准确率;
若所述文本分类准确率大于预设阈值,则利用所述初始第二文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果;
若所述文本分类准确率不大于预设阈值,则利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型;
利用所述目标文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
2.如权利要求1所述的文本分类方法,其特征在于,所述第一分类模型是RoBERTa模型以及所述第二分类模型是LSTM模型。
5.如权利要求1所述的文本分类方法,其特征在于,所述根据所述相对熵,调整所述第二文本分类模型的参数,包括:
获取所述第二文本分类模型的交叉熵;
计算所述交叉熵与所述相对熵的最终损失值;
根据所述最终损失值,执行所述第二文本分类模型的参数调整。
6.如权利要求5所述的文本分类方法,其特征在于,所述计算所述交叉熵与所述相对熵的最终损失值,包括:
利用下述方法计算所述交叉熵与所述相对熵的最终损失值:
Loss=lossdistill+DKL(Zt|Zs)
其中,Loss表示最终损失值,lossdistill表示交叉熵,DKL(Zt|Zs)表示相对熵。
7.如权利要求1至6中任意一项所述的文本分类方法,其特征在于,所述利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型,包括:
步骤I、基于所述初始第二文本分类模型,计算所述训练文本集的第三文本分类概率值,计算所述第三文本分类概率值与所述第一文本概率值的第二相对熵,根据所述第二相对熵,对所述第一文本分类模型进行参数调整,直至所述第一文本分类模型趋于收敛时,得到初始第一文本分类模型;
步骤II、基于所述初始第一文本分类模型,计算所述训练文本集的第四文本分类概率值,计算所述第四文本分类概率值集及所述第三文本概率值的第三相对熵,根据所述第三相对熵,对所述初始第二文本分类模型进行参数调整,直至所述第二文本分类模型趋于收敛时,得到参数调整后的第二文本分类模型;
步骤III、重复执行步骤I和步骤II,直至参数调整后的所述初始第二文本模型输出文本分类准确率大于预设阈值时,将参数调整后的所述初始第二文本作为目标文本分类模型。
8.一种文本分类装置,其特征在于,所述装置包括:
训练模块,用于获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型;
计算模块,用于获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型;
调整模块,用于获取训练文本集及验证文本集,利用所述训练文本集对第一分类模型进行文本分类训练,得到第一文本分类模型,及利用所述训练文本集对第二分类模型进行文本分类训练,得到第二文本分类模型;
验证模块,用于利用所述初始第二文本分类模型对所述验证文本集进行文本分类并计算所述文本分类的结果的文本分类准确率;
分类模块,用于在所述文本分类准确率大于预设阈值时,则利用所述初始第二文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果;
所述训练模块,还用于在所述文本分类准确率不大于预设阈值时,则利用所述第一文本分类模型对所述初始第二文本分类模型进行迭代训练,得到目标文本分类模型;
所述分类模块,还用于利用所述目标文本分类模型对待分类文本进行文本分类,得到所述待分类文本的分类结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的文本分类方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144860.4A CN112269875B (zh) | 2020-10-23 | 2020-10-23 | 文本分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144860.4A CN112269875B (zh) | 2020-10-23 | 2020-10-23 | 文本分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112269875A true CN112269875A (zh) | 2021-01-26 |
CN112269875B CN112269875B (zh) | 2023-07-25 |
Family
ID=74342677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011144860.4A Active CN112269875B (zh) | 2020-10-23 | 2020-10-23 | 文本分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112269875B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808577A (zh) * | 2021-09-18 | 2021-12-17 | 平安银行股份有限公司 | 语音摘要的智能提取方法、装置、电子设备及存储介质 |
WO2023029512A1 (zh) * | 2021-08-30 | 2023-03-09 | 康键信息技术(深圳)有限公司 | 基于知识图谱的医疗问题解答方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347789A (zh) * | 2019-06-14 | 2019-10-18 | 平安科技(深圳)有限公司 | 文本意图智能分类方法、装置及计算机可读存储介质 |
CN110909548A (zh) * | 2019-10-10 | 2020-03-24 | 平安科技(深圳)有限公司 | 中文命名实体识别方法、装置及计算机可读存储介质 |
CN111198948A (zh) * | 2020-01-08 | 2020-05-26 | 深圳前海微众银行股份有限公司 | 文本分类校正方法、装置、设备及计算机可读存储介质 |
CN111626047A (zh) * | 2020-04-23 | 2020-09-04 | 平安科技(深圳)有限公司 | 智能化文本纠错方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-10-23 CN CN202011144860.4A patent/CN112269875B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347789A (zh) * | 2019-06-14 | 2019-10-18 | 平安科技(深圳)有限公司 | 文本意图智能分类方法、装置及计算机可读存储介质 |
CN110909548A (zh) * | 2019-10-10 | 2020-03-24 | 平安科技(深圳)有限公司 | 中文命名实体识别方法、装置及计算机可读存储介质 |
CN111198948A (zh) * | 2020-01-08 | 2020-05-26 | 深圳前海微众银行股份有限公司 | 文本分类校正方法、装置、设备及计算机可读存储介质 |
CN111626047A (zh) * | 2020-04-23 | 2020-09-04 | 平安科技(深圳)有限公司 | 智能化文本纠错方法、装置、电子设备及可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023029512A1 (zh) * | 2021-08-30 | 2023-03-09 | 康键信息技术(深圳)有限公司 | 基于知识图谱的医疗问题解答方法、装置、设备及介质 |
CN113808577A (zh) * | 2021-09-18 | 2021-12-17 | 平安银行股份有限公司 | 语音摘要的智能提取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112269875B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
CN112257774A (zh) | 基于联邦学习的目标检测方法、装置、设备及存储介质 | |
CN112732915A (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN113626606B (zh) | 信息分类方法、装置、电子设备及可读存储介质 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
CN112988963A (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN114880449B (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN114781832A (zh) | 课程推荐方法、装置、电子设备及存储介质 | |
CN114491047A (zh) | 多标签文本分类方法、装置、电子设备及存储介质 | |
CN112269875B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113268665A (zh) | 基于随机森林的信息推荐方法、装置、设备及存储介质 | |
CN112465141A (zh) | 模型压缩方法、装置、电子设备及介质 | |
CN113656690B (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN114913371A (zh) | 多任务学习模型训练方法、装置、电子设备及存储介质 | |
CN113658002A (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN113157739A (zh) | 跨模态检索方法、装置、电子设备及存储介质 | |
CN112801222A (zh) | 基于二分类模型的多分类方法、装置、电子设备及介质 | |
CN112069782A (zh) | 文档模板生成方法、装置、电子设备及存储介质 | |
CN116401602A (zh) | 事件检测方法、装置、设备及计算机可读介质 | |
CN115346095A (zh) | 视觉问答方法、装置、设备及存储介质 | |
CN114219367A (zh) | 用户评分方法、装置、设备及存储介质 | |
CN115147660A (zh) | 基于增量学习的图像分类方法、装置、设备及存储介质 | |
CN114385815A (zh) | 基于业务需求的新闻筛选方法、装置、设备及存储介质 | |
CN113515591A (zh) | 文本不良信息识别方法、装置、电子设备及存储介质 | |
CN112215336A (zh) | 基于用户行为的数据标注方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |