CN112948582A - 一种数据处理方法、装置、设备以及可读介质 - Google Patents
一种数据处理方法、装置、设备以及可读介质 Download PDFInfo
- Publication number
- CN112948582A CN112948582A CN202110210550.6A CN202110210550A CN112948582A CN 112948582 A CN112948582 A CN 112948582A CN 202110210550 A CN202110210550 A CN 202110210550A CN 112948582 A CN112948582 A CN 112948582A
- Authority
- CN
- China
- Prior art keywords
- text data
- model
- sample set
- training sample
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 369
- 238000013145 classification model Methods 0.000 claims abstract description 183
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims description 168
- 238000012545 processing Methods 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 21
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例应用于人工智能领域,公开了一种数据处理方法、装置、设备及可读介质,用于调整初始网络模型中分类模型的模型参数,包括:获取包括多个第一文本数据的第一训练样本集;将各个第一文本数据输入调整第一模型参数后的初始生成模型,得到各个第一文本数据对应的第一增强文本数据;将第一训练样本集和包括各个第一文本数据对应的第一增强文本数据的第一增强文本数据集输入初始分类模型,得到第一损失函数;当第一损失函数不满足第一训练结束条件时,根据第一损失函数调整初始分类模型的第二模型参数。采用本申请实施例,可以解决小样本模型训练的问题,提高文本分类模型的分类效果。本申请涉及区块链技术,上述数据可存储于区块链中。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种数据处理方法、装置、设备以及可读介质。
背景技术
小样本文本分类问题是自然语言处理中经常会遇到的典型问题,小样本即在训练文本分类模型过程中训练样本的数量较少。在面对该问题时,通常做法是利用文本增强的方法来对训练样本进行文本增强以增加训练样本的数量,并且将文本增强后得到的增强文本的文本类别视为与相对应的训练样本的文本类别一致,以更好的参与文本分类模型的训练。
其中,由于上述文本增强方法通常是使用回译方法、同义词替换等无条件增强方法,因此对训练样本进行文本增强后得到的增强文本很可能与相对应的训练样本的文本类别不一致,进而会在增强文本参与训练的情况下导致文本分类模型的文本分类效果无法得到提升,适用性差。
发明内容
本发明实施例提供一种数据处理方法、装置、设备以及可读介质,可以解决小样本模型训练的问题,提高文本分类模型的分类效果和适用性。
第一方面,本申请实施例提供了一种数据处理方法,应用于调整初始网络模型中分类模型的模型参数,所述初始网络模型包括初始生成模型和初始分类模型,包括:
获取第一训练样本集,所述第一训练样本集中包括多个第一文本数据,每个第一文本数据携带类别标签;
将所述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型,得到所述第一训练样本集中各个第一文本数据对应的第一增强文本数据,并确定所述第一训练样本集中各个第一文本数据对应的第一增强文本数据为第一增强文本数据集;
将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数;
当所述第一损失函数不满足第一训练结束条件时,根据所述第一损失函数调整所述初始分类模型的第二模型参数,所述第一训练结束条件为连续N次训练得到的第一损失函数中,相邻两次得到的第一损失函数的差值小于第一预设差值阈值的次数大于或等于第一预设次数阈值,其中,N为大于2的整数。
进一步地,所述将所述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型之前,所述方法还包括:
获取第二训练样本集,所述第二训练样本集中包括多个第二文本数据,每个第二文本数据携带类别标签;
将所述第二训练样本集中的各个第二文本数据输入所述初始生成模型,得到所述第二训练样本集中各个第二文本数据对应的第二增强文本数据,并确定所述第二训练样本集中各个第二文本数据对应的第二增强文本数据为第二增强文本数据集;
将所述第二训练样本集和所述第二增强文本数据集输入所述初始分类模型,得到第二损失函数;
当所述第二损失函数不满足第二训练结束条件时,根据所述第二损失函数调整所述初始生成模型的第一模型参数,得到调整所述第一模型参数后的初始生成模型,所述第二训练结束条件为连续M次训练得到的第二损失函数中,相邻两次得到的第二损失函数的差值小于第二预设差值阈值的次数大于或等于第二预设次数阈值,其中,M为大于2的整数。
进一步地,所述根据所述第一损失函数调整所述初始分类模型的第二模型参数之后,所述方法还包括:
将所述第一训练样本集和所述第一增强文本数据集,重新输入调整所述第二模型参数后的初始分类模型进行迭代训练;
当训练后的第一损失函数满足所述第一训练结束条件时,确定所述第一损失函数满足所述第一训练结束条件时的初始分类模型为目标分类模型。
进一步地,所述根据所述第一损失函数调整所述初始分类模型的第二模型参数之后,所述方法还包括:
将所述第二训练样本集和所述第二增强文本数据集,重新输入调整所述第一模型参数后的初始生成模型进行迭代训练;
当训练后的第二损失函数满足所述第二训练结束条件时,确定所述第二损失函数满足所述第二训练结束条件时的初始生成模型为目标生成模型。
进一步地,所述将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数,包括:
确定所述第一训练样本集中的每个第一文本数据的类别标签为所述第一增强文本数据集中与每个所述第一文本数据对应的第一增强文本数据的类别标签;
将所述第一训练样本集和确定标签的所述第一增强文本数据集输入所述初始分类模型,得到所述第一损失函数。
进一步地,所述将所述第二训练样本集和所述第二增强文本数据集输入所述初始分类模型,得到第二损失函数,包括:
确定所述第二训练样本集中的每个第二文本数据的类别标签为所述第二增强文本数据集中与每个所述第二文本数据对应的第二增强文本数据的类别标签;
将所述第二训练样本集和确定标签的第二增强文本数据集输入所述初始分类模型,得到所述第二损失函数。
进一步地,所述将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数,包括:
将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到所述初始分类模型预测的所述第一训练样本集中的各个第一文本数据的文本类别,和所述初始分类模型预测的所述第一增强文本数据集中各个第一文本数据对应的第一增强文本数据的文本类别;
确定所述预测的第一训练样本集中的各个第一文本数据的文本类别和各个第一文本数据携带的类别标签的第一匹配度;
确定各个第一文本数据对应的第一增强文本数据的文本类别和每个第一文本数据对应的第一增强文本数据的类别标签的第二匹配度;
根据所述第一匹配度和所述第二匹配度,确定所述第一损失函数。
第二方面,本申请实施例提供了一种数据处理装置,应用于调整初始网络模型中分类模型的模型参数,所述初始网络模型包括初始生成模型和初始分类模型,包括:
获取单元,用于获取第一训练样本集,所述第一训练样本集中包括多个第一文本数据,每个第一文本数据携带类别标签;
处理单元,用于将所述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型,得到所述第一训练样本集中各个第一文本数据对应的第一增强文本数据,并确定所述第一训练样本集中各个第一文本数据对应的第一增强文本数据为第一增强文本数据集;
所述处理单元,还用于将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数;
所述处理单元,还用于当所述第一损失函数不满足第一训练结束条件时,根据所述第一损失函数调整所述初始分类模型的第二模型参数,所述第一训练结束条件为连续N次训练得到的第一损失函数中,相邻两次得到的第一损失函数的差值小于第一预设差值阈值的次数大于或等于第一预设次数阈值,其中,N为大于2的整数。
进一步地,所述处理单元将所述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型之前,还用于:
获取第二训练样本集,所述第二训练样本集中包括多个第二文本数据,每个第二文本数据携带类别标签;
所述处理单元,还用于将所述第二训练样本集中的各个第二文本数据输入所述初始生成模型,得到所述第二训练样本集中各个第二文本数据对应的第二增强文本数据,并确定所述第二训练样本集中各个第二文本数据对应的第二增强文本数据为第二增强文本数据集;
将所述第二训练样本集和所述第二增强文本数据集输入所述初始分类模型,得到第二损失函数;
当所述第二损失函数不满足第二训练结束条件时,根据所述第二损失函数调整所述初始生成模型的第一模型参数,得到调整所述第一模型参数后的初始生成模型,所述第二训练结束条件为连续M次训练得到的第二损失函数中,相邻两次得到的第二损失函数的差值小于第二预设差值阈值的次数大于或等于第二预设次数阈值,其中,M为大于2的整数。
进一步地,所述处理单元根据所述第一损失函数调整所述初始分类模型的第二模型参数之后,还用于:
将所述第一训练样本集和所述第一增强文本数据集,重新输入调整所述第二模型参数后的初始分类模型进行迭代训练;
当训练后的第一损失函数满足所述第一训练结束条件时,确定所述第一损失函数满足所述第一训练结束条件时的初始分类模型为目标分类模型。
进一步地,所述处理单元根据所述第一损失函数调整所述初始分类模型的第二模型参数之后,还用于:
将所述第二训练样本集和所述第二增强文本数据集,重新输入调整所述第一模型参数后的初始生成模型进行迭代训练;
当训练后的第二损失函数满足所述第二训练结束条件时,确定所述第二损失函数满足所述第二训练结束条件时的初始生成模型为目标生成模型。
进一步地,所述处理单元将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数,具体用于:
确定所述第一训练样本集中的每个第一文本数据的类别标签为所述第一增强文本数据集中与每个所述第一文本数据对应的第一增强文本数据的类别标签;
将所述第一训练样本集和确定标签的所述第一增强文本数据集输入所述初始分类模型,得到所述第一损失函数。
进一步地,所述处理单元将所述第二训练样本集和所述第二增强文本数据集输入所述初始分类模型,得到第二损失函数,具体用于:
确定所述第二训练样本集中的每个第二文本数据的类别标签为所述第二增强文本数据集中与每个所述第二文本数据对应的第二增强文本数据的类别标签;
将所述第二训练样本集和确定标签的第二增强文本数据集输入所述初始分类模型,得到所述第二损失函数。
进一步地,所述处理单元将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数,具体用于:
将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到所述初始分类模型预测的所述第一训练样本集中的各个第一文本数据的文本类别,和所述初始分类模型预测的所述第一增强文本数据集中各个第一文本数据对应的第一增强文本数据的文本类别;
确定所述预测的第一训练样本集中的各个第一文本数据的文本类别和各个第一文本数据携带的类别标签的第一匹配度;
确定各个第一文本数据对应的第一增强文本数据的文本类别和每个第一文本数据对应的第一增强文本数据的类别标签的第二匹配度;
根据所述第一匹配度和所述第二匹配度,确定所述第一损失函数。
第三方面,本申请实施例提供了一种计算机设备,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器、收发器;上述处理器分别与上述存储器和上述收发器相连,其中,上述存储器存储有计算机程序代码,上述处理器和上述收发器用于调用上述程序代码,执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当所述计算机程序被计算机设备运行时,实现如第一方面的任一种可能的实现方式所公开的数据处理方法。
在本申请实施例中,通过获取的第一训练样本集,该第一训练样本集中包括多个第一文本数据和每个第一文本数据携带的类别标签,将各个第一文本数据调整第一模型参数后的初始生成模型进行文本增强处理,得到各个第一文本数据对应的第一增强文本数据的集合,即第一增强文本数据集。进而将第一训练样本集和第一增强文本数据集中的文本数据输入初始分类模型中,得到第一损失函数,当第一损失函数不满足第一训练结束条件时,根据第一损失函数调整所述初始分类模型的第二模型参数,当第一损失函数满足第一训练结束条件时,结束训练,得到目标分类模型。可见,使用生成模型对分类模型的训练样本中的文本数据进行文本增强处理,可以解决小样本模型训练的问题,进而可以提高文本分类模型的分类效果和适用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法的流程示意图;
图2是本申请实施例提供的一种初始网络模型的结构示意图;
图3是本申请实施例提供的一种数据处理方法的另一流程示意图;
图4是本申请实施例提供的一种初始网络模型训练参数变化的示意图;
图5是本申请实施例提供的一种数据处理装置的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图1-附图4对本申请实施例提供的一种数据处理方法进行示意性说明。
请参见图1,图1是本申请实施例提供的一种数据处理方法的流程示意图。该方法应用于调整初始网络模型中分类模型的模型参数,上述初始网络模型包括初始生成模型和初始分类模型,如图1所示,上述方法可以包括:
101、获取第一训练样本集,上述第一训练样本集中包括多个第一文本数据,每个第一文本数据携带类别标签。
具体的,第一训练样本集包括多个第一文本数据,第一训练样本集中的各个第一文本数据为初始分类模型训练的文本数据。
其中,第一训练样本集中各个第一文本数据所对应的领域与本方案中的分类领域相对应。示例性的,若本申请中用于对各文本进行情感类别的分类,则本方案中用于训练各训练样本为用于表征不同情感类别的文本。若本方案用于对各文本所属的业务类型进行分类,则本方案中各训练样本为属于不同业务类型的文本。
进一步的,第一训练样本集中的每个第一文本数据都携带类别标签,该类别标签表征了相对应的第一文本数据的真实文本类别。例如,上述类别标签可表征情感类别(积极、消极以及中性等),或者表征保险业务中不同的业务类型等。
在一种可能的实现方式中,上述第一训练样本集中的各个第一文本数据的获取方式在本申请中也不做限制,如基于大数据等方式从互联网获取相关领域的文本数据等等。
102、将上述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型,得到上述第一训练样本集中各个第一文本数据对应的第一增强文本数据,并确定上述第一训练样本集中各个第一文本数据对应的第一增强文本数据为第一增强文本数据集。
在一种可能的实现方式中,在对初始网络模型中的分类模型进行训练之前,需要获取或者构建初始网络模型,本申请中的初始网络模型的构成可一并参阅图2,图2是本申请实施例提供的一种初始网络模型的结构示意图。如图2所示,初始网络模型中包括初始分类模型和初始生成模型。
其中,本申请实施例中的初始分类模型可以为基于神经网络的初始文本分类模型或者具有文本分类能力的网络模型,包括但不限于基于卷积神经网络(convolutionalneural networks,CNN)、循环神经网络(recurrent neural networks,RNN)、长短期记忆模型循环神经网络(long-short term memory,LSTM)以及门控循环单元(Gated RecurrentUnit,GRU)所构建神经网络模型。
本申请实施例中的初始生成模型同样可以为基于神经网络的初始文本增强模型或者具有文本增强能力的网络模型,包括但不限于基于CNN、RNN、LSTM、GRU所构建的神经网络模型,如基于变形金刚的双向编码器表示(bidirectional encoder representationsfrom transformers,BERT)模型。对于初始分类模型和初始生成模型,具体可基于实际应用场景需求确定,在此不做限制。
具体的,将第一训练样本集中的各个第一文本数据输入至调整第一模型参数后的初始生成模型,得到第一训练样本集中各个第一文本数据对应的第一增强文本数据。其中,第一模型参数为初始生成模型的参数,第一模型参数可以包括一个模型参数,也可以包括多个模型参数,这里不限制。调整第一模型参数后的初始生成模型为经过初步优化后的初始生成模型,可以为初始分类模型的训练提供效果更好的增强文本数据。
进一步的,对于每个第一文本数据对应的第一增强文本数据,将每个第一文本数据对应的第一增强文本数据确定为第一增强文本数据集。
103、将上述第一训练样本集和上述第一增强文本数据集输入上述初始分类模型,得到第一损失函数。
在一种可能的实现方式中,先确定第一训练样本集中的每个第一文本数据的类别标签为第一增强文本数据集中与每个上述第一文本数据对应的第一增强文本数据的类别标签,从而扩大用于对初始分类模型进行训练的第一文本数据的数量,以增强对初始分类模型的训练效果。
进一步的,通过将第一训练样本集和第一增强文本数据集中的各个第一文本数据输入初始分类模型,通过初始分类模型输出的第一训练样本集中各个第一文本数据对应的预测文本类别,以及通过初始分类模型输出的第一增强文本数据集中各个第一文本数据对应的预测文本类别。
进而,可以确定预测的第一训练样本集中各个第一文本数据的文本类别和各个第一文本数据携带的类别标签的第一匹配度。具体的,第一匹配度可以是第一文本数据被预测的文本类别与携带的类别标签之间的差异。
在一个可能的实现方式中,可以根据初始分类模型输出的预测的文本类别的概率分布与预设的类别标签的概率分布之间的相对熵确定第一匹配度,也可以由其他方式确定,例如根据初始分类模型输出的预测的文本类别的概率分布与预设的类别标签的概率分布之间的交叉熵确定,本申请不做限定。
同理,可以确定出预测的第一增强文本数据集中各个第一文本数据对应的第一增强文本数据的文本类别与每个第一文本数据对应的第一增强文本数据的类别标签的第二匹配度。
进而可以将第一匹配度或者第二匹配度确定为第一损失函数。需要说明的是,损失函数是用于估量模型的预测值与真实值的不一致程度。本申请中的损失函数为计算出的预测值与真实值的差异度的值,即可以是第一匹配度,也可以是第二匹配度。
示例性的,当将某一第一文本数据输入初始分类模型后,可以得到初始分类模型输出的该第一文本数据预测文本类别,根据该预测文本类别与该第一文本数据携带的类别标签的匹配度,确定初始分类模型进行训练的训练过程中的第一损失函数。其中,该第一文本数据可以属于第一训练样本集,也可以属于第一增强文本数据集。
104、当上述第一损失函数不满足第一训练结束条件时,根据上述第一损失函数调整初始分类模型的第二模型参数。
其中,第一损失函数表征了第一训练样本集和第一增强文本数据集中的第一文本数据的真实文本类别和预测文本类别之间的差异。第一损失函数越大,第一训练样本集和第一增强文本数据集中的第一文本数据的真实文本类型和预测文本类别之间的差异越大,则说明训练过程中的初始分类模型的文本分类效果越差。基于此,通过第一损失函数确定第一初始网络模型的文本分类效果较差的情况下,可对初始分类模型的第二模型参数进行进一步调整,以在下一次训练时采用调整第二模型参数后的初始分类模型。其中,第二模型参数为初始分类模型的参数,第二模型参数可以包括一个模型参数,也可以包括多个模型参数,这里不限制。
进而,将第一训练样本集和第一增强文本样本集重新输入到调整第二模型参数后的初始分类模型中进行迭代训练,直到训练得到的第一损失函数满足第一训练条件,结束训练,将满足第一训练结束条件时的初始分类模型为目标分类模型。其中,第一训练结束的条件可以是连续N次训练得到的第一损失函数中,相邻两次得到的第一损失函数的差值小于第一预设差值阈值的次数大于或等于第一预设次数阈值,其中,N为大于2的整数。如图2所示,步骤101-步骤104的对应图2中的实线箭头部分。
在本申请实施例中,通过获取的第一训练样本集,该第一训练样本集中包括多个第一文本数据和每个第一文本数据携带的类别标签,将各个第一文本数据调整第一模型参数后的初始生成模型进行文本增强处理,得到各个第一文本数据对应的第一增强文本数据的集合,即第一增强文本数据集。进而将第一训练样本集和第一增强文本数据集中的文本数据输入初始分类模型中,得到第一损失函数,当第一损失函数不满足第一训练结束条件时,根据第一损失函数调整上述初始分类模型的第二模型参数,当第一损失函数满足第一训练结束条件时,结束训练,得到目标分类模型。可见,使用生成模型对分类模型的训练样本中的文本数据进行文本增强处理,可以解决小样本模型训练的问题,进而可以提高文本分类模型的分类效果和适用性。
请参见图3,图3是本申请实施例提供的一种数据处理方法的另一流程示意图。该方法应用于调整初始网络模型中分类模型的模型参数,上述初始网络模型包括初始生成模型和初始分类模型,如图3所示,上述方法可以包括:
301、获取第二训练样本集,上述第二训练样本集中包括多个第二文本数据,每个第二文本数据携带类别标签。
在一种可能的实现方式中,第二训练样本集中包括多个第二文本数据,第二训练样本集中的各个第二文本数据为用于进行初始生成模型训练的文本数据。
其中,第二训练样本集中各个第二文本数据所对应的领域与本方案中的分类领域相对应。示例性的,若本申请中用于对各文本进行情感类别的分类,则本方案中用于训练各训练样本为用于表征不同情感类别的文本。若本方案用于对各文本所属的业务类型进行分类,则本方案中各训练样本为属于不同业务类型的文本。
进一步的,第二训练样本集中的每个第二文本数据都携带类别标签,该类别标签表征了相对应的第二文本数据的真实文本类别。
在一种可能的实现方式中,上述第一训练样本集中的各个第一文本数据的获取方式在本申请中也不做限制,如基于大数据等方式从互联网获取相关领域的文本数据等等。
可选的,第一训练样本集和第二训练样本集可以为内容完全相同或者内容完全不同的训练样本集,或者第二训练样本集中的第二文本数据和第二训练样本集中的第二文本数据存在部分重合的文本数据,具体可基于实际应用场景需求确定,在此不做限制。
302、将上述第二训练样本集中的各个第二文本数据输入上述初始生成模型,得到上述第二训练样本集中各个第二文本数据对应的第二增强文本数据,并确定上述第二训练样本集中各个第二文本数据对应的第二增强文本数据为第二增强文本数据集。
初始生成模型本身为需要进行强化训练的网络模型,因此,初始生成模型的文本增强效果可能存在文本增强效果不稳定的情况,即基于初始生成模型得到的增强训练样本的文本类别可能与相对应的训练样本的文本类别不一致,从而影响对初始分类模型的训练效果。
其中,上述第一损失函数表征了第一训练样本集和第一增强文本样本集中的第一文本数据的真实文本类别和预测文本类别之间的差异。第一损失函数越大,第一训练样本集和第一增强文本样本集中的训练样本的真实文本类型和预测文本类别之间的差异越大,则说明训练过程中的初始分类模型的文本分类效果越差。
由于在对初始分类模型的训练过程中,将初始生成模型得到的增强训练样本的类别标签视为与相对应的训练样本一致,因此若第一损失函数越大(即初始分类模型的文本分类效果越差),可说明初始生成模型的文本增强效果较差。即由于初始生成模型的第一增强文本数据中,存在部分增强训练文本的类别标签与相对应的训练文本的类别标签存在差异。基于此,可以通过第一损失函数确定初始生成模型的文本增强效果较差的情况下,可对初始生成模型的第一模型参数进行进一步调整,以在下一次训练时采用调整第一模型参数后的初始生成模型。
对初始生成模型的训练过程与对初始分类模型的训练过程基本一致,不过在对初始分类模型进行训练之前,可以先将获取到的第二训练样本集输入初始生成模型,得到第二训练样本集中各个第二文本数据对应的第二增强文本数据。进而,将第二训练样本集中各个第二文本数据对应的第二增强文本数据集确定为第二增强文本数据集。
303、将上述第二训练样本集和上述第二增强文本数据集输入上述初始分类模型,得到第二损失函数。
具体的,将第二训练样本集合第二增强文本数据集输入初始分类模型,得到第二损失函数的过程可以参照步骤103的内容。
需要说明的是,输入初始分类模型中的文本数据不同,步骤103中输入的第一训练样本集和第一增强文本数据集,该步骤输入的第二训练样本集和第二增强文本数据集,因此得到的损失函数不同,即该步骤得到第二损失函数。
304、当上述第二损失函数不满足第二训练结束条件时,根据上述第二损失函数调整上述初始生成模型的第一模型参数,得到调整上述第一模型参数后的初始生成模型。
同理,第二损失函数不满足第二训练结束条件时,根据上述第一损失函数调整初始生成模型的第一模型参数。进而将第二训练样本集和第二增强文本样本集再次输入到调整第一模型参数后的初始分类模型中进行迭代训练,直到训练得到的第二损失函数满足第二训练条件,结束训练,将满足第二训练结束条件时的初始分类模型为目标生成模型。其中,第二训练条件可以是连续M次训练得到的第二损失函数中,相邻两次得到的第二损失函数的差值小于第二预设差值阈值的次数大于或等于第二预设次数阈值,其中,M为大于2的整数。如图2所示,步骤301-步骤304的对应图2中的虚线箭头部分。
可选的,N的值和M的值可以相同,也可以不同,即第一训练结束条件可以和第二训练结束条件相同,也可以不同,本申请不做限定。
需要说明的是,上述对包含有初始分类模型和初始生成模型的初始网络模型的训练过程中,对初始分类模型和初始生成模型的训练是交替进行。换言之,在完成的初始分类模型的训练过程中,交替进行基于第一训练样本集对初始分类模型进行训练的训练过程,以及基于第二训练样本集对初始生成网络模型进行训练的训练过程。示例性的,对初始分类网络模型进行一次训练之后再对初始生成网络模型进行一次训练。
其中,在对任一初始网络模型进行训练时,另一初始网络模型的模型参数为当前模型参数保持不变。请一并参阅图4,图4是本申请实施例提供的一种初始网络模型训练参数变化的示意图。初始分类网络模型和初始生成模型在一次模型训练过程中的模型参数变化可以如图4所示。
具体的,为初始生成模型的第一模型参数,初始生成模型调整后的第一模型参数,θ初始分类模型的第二模型参数,θ′初始分类模型调整后的第二模型参数。表示本次训练为对初始分类模型训练,初始生成模型的模型参数保持不变,则下一次在对初始生成模型训练时,表示对初始生成模型进行训练时,初始分类模型的模型参数保持不变。
需要说明的是,当第一损失函数不满足第一训练结束条件,且第二损失函数满足第二训练结束条件时,确定目标生成模型,并使用第一训练样本集和第一增强文本数据集继续对初始分类模型进行训练,直到得到目标分类模型,此时不再训练初始生成模型。反之,当第一损失函数满足第一训练结束条件,且第二训练函数不满足第二训练结束条件时,确定得到目标分类模型,不再对初始生成模型进行训练,将训练结束后的初始网络模型确定为目标网络模型。
可选的,还可以使用目标网络模型中的目标分类模型对文本数据进行分类。其中,待分类文本数据的获取方式以及相对应的应用场景在此不做限制。
其中,在基于目标网络模型中的目标分类模型对待分类文本进行文本分类时,目标分类模型的输入和输入可基于中的目标分类模型的实际模型结构和神经网络组成确定,在此不做限制。
示例性的,对待分类文本进行文本分类时,需要先确定待分类文本各词的词向量,将各词的词向量作为输入特征输入目标网络模型。进一步的,目标网络模型中的目标分类模型对输入特征进行处理后,可得到待分类文本对应于预测概率的概率分布,该概率分布表示待分类文本的预测文本类别为各文本类别的概率,进而将最高概率对应的文本类别确定为待分类文本的预测文本类别。
基于本申请中的实现方式,可在训练样本较少的情况下得到文本增强效果较好的目标生成模型,进而基于目标生成模型对训练样本进行增加,以增加训练样本数量,进而使得目标分类模型具有更好的分类效果。
在本申请实施例中,通过获取的第一训练样本集,该第一训练样本集中包括多个第一文本数据和每个第一文本数据携带的类别标签,将各个第一文本数据调整第一模型参数后的初始生成模型进行文本增强处理,得到各个第一文本数据对应的第一增强文本数据的集合,即第一增强文本数据集。进而将第一训练样本集和第一增强文本数据集中的文本数据输入初始分类模型中,得到第一损失函数,当第一损失函数不满足第一训练结束条件时,根据第一损失函数调整上述初始分类模型的第二模型参数,当第一损失函数满足第一训练结束条件时,结束训练,得到目标分类模型。可见,使用生成模型对分类模型的训练样本中的文本数据进行文本增强处理,可以解决小样本模型训练的问题,进而可以提高文本分类模型的分类效果和适用性。
请参见图5,图5是本申请实施例提供的一种数据处理装置500的结构示意图。该数据处理装置500包括:
获取单元501,用于获取第一训练样本集,上述第一训练样本集中包括多个第一文本数据,每个第一文本数据携带类别标签;
处理单元502,用于将上述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型,得到上述第一训练样本集中各个第一文本数据对应的第一增强文本数据,并确定上述第一训练样本集中各个第一文本数据对应的第一增强文本数据为第一增强文本数据集;
上述处理单元502,还用于将上述第一训练样本集和上述第一增强文本数据集输入上述初始分类模型,得到第一损失函数;
上述处理单元502,还用于当上述第一损失函数不满足第一训练结束条件时,根据上述第一损失函数调整上述初始分类模型的第二模型参数,上述第一训练结束条件为连续N次训练得到的第一损失函数中,相邻两次得到的第一损失函数的差值小于第一预设差值阈值的次数大于或等于第一预设次数阈值,其中,N为大于2的整数。
进一步地,上述处理单元502将上述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型之前,还用于:
获取第二训练样本集,上述第二训练样本集中包括多个第二文本数据,每个第二文本数据携带类别标签;
上述处理单元,还用于将上述第二训练样本集中的各个第二文本数据输入上述初始生成模型,得到上述第二训练样本集中各个第二文本数据对应的第二增强文本数据,并确定上述第二训练样本集中各个第二文本数据对应的第二增强文本数据为第二增强文本数据集;
将上述第二训练样本集和上述第二增强文本数据集输入上述初始分类模型,得到第二损失函数;
当上述第二损失函数不满足第二训练结束条件时,根据上述第二损失函数调整上述初始生成模型的第一模型参数,得到调整上述第一模型参数后的初始生成模型,上述第二训练结束条件为连续M次训练得到的第二损失函数中,相邻两次得到的第二损失函数的差值小于第二预设差值阈值的次数大于或等于第二预设次数阈值,其中,M为大于2的整数。
进一步地,上述处理单元502根据上述第一损失函数调整上述初始分类模型的第二模型参数之后,还用于:
将上述第一训练样本集和上述第一增强文本数据集,重新输入调整上述第二模型参数后的初始分类模型进行迭代训练;
当训练后的第一损失函数满足上述第一训练结束条件时,确定上述第一损失函数满足上述第一训练结束条件时的初始分类模型为目标分类模型。
进一步地,上述处理单元根据上述第一损失函数调整上述初始分类模型的第二模型参数之后,还用于:
将上述第二训练样本集和上述第二增强文本数据集,重新输入调整上述第一模型参数后的初始生成模型进行迭代训练;
当训练后的第二损失函数满足上述第二训练结束条件时,确定上述第二损失函数满足上述第二训练结束条件时的初始生成模型为目标生成模型。
进一步地,上述处理单元502将上述第一训练样本集和上述第一增强文本数据集输入上述初始分类模型,得到第一损失函数,具体用于:
确定上述第一训练样本集中的每个第一文本数据的类别标签为上述第一增强文本数据集中与每个上述第一文本数据对应的第一增强文本数据的类别标签;
将上述第一训练样本集和确定标签的上述第一增强文本数据集输入上述初始分类模型,得到上述第一损失函数。
进一步地,上述处理单元502将上述第二训练样本集和上述第二增强文本数据集输入上述初始分类模型,得到第二损失函数,具体用于:
确定上述第二训练样本集中的每个第二文本数据的类别标签为上述第二增强文本数据集中与每个上述第二文本数据对应的第二增强文本数据的类别标签;
将上述第二训练样本集和确定标签的第二增强文本数据集输入上述初始分类模型,得到上述第二损失函数。
进一步地,上述处理单元502将上述第一训练样本集和上述第一增强文本数据集输入上述初始分类模型,得到第一损失函数,具体用于:
将上述第一训练样本集和上述第一增强文本数据集输入上述初始分类模型,得到上述初始分类模型预测的上述第一训练样本集中的各个第一文本数据的文本类别,和上述初始分类模型预测的上述第一增强文本数据集中各个第一文本数据对应的第一增强文本数据的文本类别;
确定上述预测的第一训练样本集中的各个第一文本数据的文本类别和各个第一文本数据携带的类别标签的第一匹配度;
确定各个第一文本数据对应的第一增强文本数据的文本类别和每个第一文本数据对应的第一增强文本数据的类别标签的第二匹配度;
根据上述第一匹配度和上述第二匹配度,确定上述第一损失函数。
有关上述获取单元501、处理单元502详细的描述可以直接参考上述图1至图4所示的方法实施例中的相关描述直接得到,这里不加赘述。
在本申请实施例中,通过获取的第一训练样本集,该第一训练样本集中包括多个第一文本数据和每个第一文本数据携带的类别标签,将各个第一文本数据调整第一模型参数后的初始生成模型进行文本增强处理,得到各个第一文本数据对应的第一增强文本数据的集合,即第一增强文本数据集。进而将第一训练样本集和第一增强文本数据集中的文本数据输入初始分类模型中,得到第一损失函数,当第一损失函数不满足第一训练结束条件时,根据第一损失函数调整上述初始分类模型的第二模型参数,当第一损失函数满足第一训练结束条件时,结束训练,得到目标分类模型。可见,使用生成模型对分类模型的训练样本中的文本数据进行文本增强处理,可以解决小样本模型训练的问题,进而可以提高文本分类模型的分类效果和适用性。
请参见图6,图6是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备应用于调整初始网络模型中分类模型的模型参数,上述初始网络模型包括初始生成模型和初始分类模型。如图6所示,本实施例中的计算机设备600可以包括:
处理器601,收发器602,和存储器605,此外,上述计算机设备600还可以包括:用户接口604,和至少一个通信总线603。其中,通信总线603用于实现这些组件之间的连接通信。其中,用户接口604可以包括显示屏(Display)、键盘(Keyboard),存储器605可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器605可选的还可以是至少一个位于远离前述处理器601和前述收发器602的存储装置。如图6所示,作为一种计算机存储介质的存储器605中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图6所示的计算机设备600中,收发器602可提供网络通讯功能,以使服务器间可进行通信;而用户接口604主要用于为用户提供输入的接口;而处理器601可以用于调用存储器605中存储的设备控制应用程序,执行如下操作:
获取第一训练样本集,上述第一训练样本集中包括多个第一文本数据,每个第一文本数据携带类别标签;
将上述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型,得到上述第一训练样本集中各个第一文本数据对应的第一增强文本数据,并确定上述第一训练样本集中各个第一文本数据对应的第一增强文本数据为第一增强文本数据集;
将上述第一训练样本集和上述第一增强文本数据集输入上述初始分类模型,得到第一损失函数;
当上述第一损失函数不满足第一训练结束条件时,根据上述第一损失函数调整上述初始分类模型的第二模型参数,上述第一训练结束条件为连续N次训练得到的第一损失函数中,相邻两次得到的第一损失函数的差值小于第一预设差值阈值的次数大于或等于第一预设次数阈值,其中,N为大于2的整数。
在一种可能的实现方式中,上述处理器601将上述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型之前,还用于执行如下操作:
获取第二训练样本集,上述第二训练样本集中包括多个第二文本数据,每个第二文本数据携带类别标签;
将上述第二训练样本集中的各个第二文本数据输入上述初始生成模型,得到上述第二训练样本集中各个第二文本数据对应的第二增强文本数据,并确定上述第二训练样本集中各个第二文本数据对应的第二增强文本数据为第二增强文本数据集;
将上述第二训练样本集和上述第二增强文本数据集输入上述初始分类模型,得到第二损失函数;
当上述第二损失函数不满足第二训练结束条件时,根据上述第二损失函数调整上述初始生成模型的第一模型参数,得到调整上述第一模型参数后的初始生成模型,上述第二训练结束条件为连续M次训练得到的第二损失函数中,相邻两次得到的第二损失函数的差值小于第二预设差值阈值的次数大于或等于第二预设次数阈值,其中,M为大于2的整数。
在一种可能的实现方式中,上述处理器601根据上述第一损失函数调整上述初始分类模型的第二模型参数之后,还用于执行如下操作:
将上述第一训练样本集和上述第一增强文本数据集,重新输入调整上述第二模型参数后的初始分类模型进行迭代训练;
当训练后的第一损失函数满足上述第一训练结束条件时,确定上述第一损失函数满足上述第一训练结束条件时的初始分类模型为目标分类模型。
在一种可能的实现方式中,上述处理器601上述根据上述第一损失函数调整上述初始分类模型的第二模型参数之后,还用于执行如下操作:
将上述第二训练样本集和上述第二增强文本数据集,重新输入调整上述第一模型参数后的初始生成模型进行迭代训练;
当训练后的第二损失函数满足上述第二训练结束条件时,确定上述第二损失函数满足上述第二训练结束条件时的初始生成模型为目标生成模型。
在一种可能的实现方式中,上述处理器601将上述第一训练样本集和上述第一增强文本数据集输入上述初始分类模型,得到第一损失函数,具体包括:
确定上述第一训练样本集中的每个第一文本数据的类别标签为上述第一增强文本数据集中与每个上述第一文本数据对应的第一增强文本数据的类别标签;
将上述第一训练样本集和确定标签的上述第一增强文本数据集输入上述初始分类模型,得到上述第一损失函数。
在一种可能的实现方式中,上述处理器601将上述第二训练样本集和上述第二增强文本数据集输入上述初始分类模型,得到第二损失函数,具体包括:
确定上述第二训练样本集中的每个第二文本数据的类别标签为上述第二增强文本数据集中与每个上述第二文本数据对应的第二增强文本数据的类别标签;
将上述第二训练样本集和确定标签的第二增强文本数据集输入上述初始分类模型,得到上述第二损失函数。
在一种可能的实现方式中,上述处理器601将上述第一训练样本集和上述第一增强文本数据集输入上述初始分类模型,得到第一损失函数,具体包括:
将上述第一训练样本集和上述第一增强文本数据集输入上述初始分类模型,得到上述初始分类模型预测的上述第一训练样本集中的各个第一文本数据的文本类别,和上述初始分类模型预测的上述第一增强文本数据集中各个第一文本数据对应的第一增强文本数据的文本类别;
确定上述预测的第一训练样本集中的各个第一文本数据的文本类别和各个第一文本数据携带的类别标签的第一匹配度;
确定各个第一文本数据对应的第一增强文本数据的文本类别和每个第一文本数据对应的第一增强文本数据的类别标签的第二匹配度;
根据上述第一匹配度和上述第二匹配度,确定上述第一损失函数。
应当理解,在一些可行的实施方式中,上述处理器601可以是中央处理单元(central processing unit,CPU),该处理器601还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器605可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器605的一部分还可以包括非易失性随机存取存储器。
具体实现中,上述计算机设备600可通过其内置的各个功能模块执行如上述图1至图4中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,通过获取的第一训练样本集,该第一训练样本集中包括多个第一文本数据和每个第一文本数据携带的类别标签,将各个第一文本数据调整第一模型参数后的初始生成模型进行文本增强处理,得到各个第一文本数据对应的第一增强文本数据的集合,即第一增强文本数据集。进而将第一训练样本集和第一增强文本数据集中的文本数据输入初始分类模型中,得到第一损失函数,当第一损失函数不满足第一训练结束条件时,根据第一损失函数调整上述初始分类模型的第二模型参数,当第一损失函数满足第一训练结束条件时,结束训练,得到目标分类模型。可见,使用生成模型对分类模型的训练样本中的文本数据进行文本增强处理,可以解决小样本模型训练的问题,进而可以提高文本分类模型的分类效果和适用性。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的报表的生成设备所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图1或图4任一个所对应实施例中的对任一方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序指令相关的硬件来完成,上述的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random accessmemory,RAM)等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种数据处理方法,其特征在于,应用于调整初始网络模型中分类模型的模型参数,所述初始网络模型包括初始生成模型和初始分类模型,所述方法包括:
获取第一训练样本集,所述第一训练样本集中包括多个第一文本数据,每个第一文本数据携带类别标签;
将所述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型,得到所述第一训练样本集中各个第一文本数据对应的第一增强文本数据,并确定所述第一训练样本集中各个第一文本数据对应的第一增强文本数据为第一增强文本数据集;
将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数;
当所述第一损失函数不满足第一训练结束条件时,根据所述第一损失函数调整所述初始分类模型的第二模型参数,所述第一训练结束条件为连续N次训练得到的第一损失函数中,相邻两次得到的第一损失函数的差值小于第一预设差值阈值的次数大于或等于第一预设次数阈值,其中,N为大于2的整数。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型之前,所述方法还包括:
获取第二训练样本集,所述第二训练样本集中包括多个第二文本数据,每个第二文本数据携带类别标签;
将所述第二训练样本集中的各个第二文本数据输入所述初始生成模型,得到所述第二训练样本集中各个第二文本数据对应的第二增强文本数据,并确定所述第二训练样本集中各个第二文本数据对应的第二增强文本数据为第二增强文本数据集;
将所述第二训练样本集和所述第二增强文本数据集输入所述初始分类模型,得到第二损失函数;
当所述第二损失函数不满足第二训练结束条件时,根据所述第二损失函数调整所述初始生成模型的第一模型参数,得到调整所述第一模型参数后的初始生成模型,所述第二训练结束条件为连续M次训练得到的第二损失函数中,相邻两次得到的第二损失函数的差值小于第二预设差值阈值的次数大于或等于第二预设次数阈值,其中,M为大于2的整数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一损失函数调整所述初始分类模型的第二模型参数之后,所述方法还包括:
将所述第一训练样本集和所述第一增强文本数据集,重新输入调整所述第二模型参数后的初始分类模型进行迭代训练;
当训练后的第一损失函数满足所述第一训练结束条件时,确定所述第一损失函数满足所述第一训练结束条件时的初始分类模型为目标分类模型。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一损失函数调整所述初始分类模型的第二模型参数之后,所述方法还包括:
将所述第二训练样本集和所述第二增强文本数据集,重新输入调整所述第一模型参数后的初始生成模型进行迭代训练;
当训练后的第二损失函数满足所述第二训练结束条件时,确定所述第二损失函数满足所述第二训练结束条件时的初始生成模型为目标生成模型。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数,包括:
确定所述第一训练样本集中的每个第一文本数据的类别标签为所述第一增强文本数据集中与每个所述第一文本数据对应的第一增强文本数据的类别标签;
将所述第一训练样本集和确定标签的所述第一增强文本数据集输入所述初始分类模型,得到所述第一损失函数。
6.根据权利要求2所述的方法,其特征在于,所述将所述第二训练样本集和所述第二增强文本数据集输入所述初始分类模型,得到第二损失函数,包括:
确定所述第二训练样本集中的每个第二文本数据的类别标签为所述第二增强文本数据集中与每个所述第二文本数据对应的第二增强文本数据的类别标签;
将所述第二训练样本集和确定标签的第二增强文本数据集输入所述初始分类模型,得到所述第二损失函数。
7.根据权利要求5所述的方法,其特征在于,所述将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数,包括:
将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到所述初始分类模型预测的所述第一训练样本集中的各个第一文本数据的文本类别,和所述初始分类模型预测的所述第一增强文本数据集中各个第一文本数据对应的第一增强文本数据的文本类别;
确定所述预测的第一训练样本集中的各个第一文本数据的文本类别和各个第一文本数据携带的类别标签的第一匹配度;
确定各个第一文本数据对应的第一增强文本数据的文本类别和每个第一文本数据对应的第一增强文本数据的类别标签的第二匹配度;
根据所述第一匹配度和所述第二匹配度,确定所述第一损失函数。
8.一种数据处理装置,其特征在于,应用于调整初始网络模型中分类模型的模型参数,所述初始网络模型包括初始生成模型和初始分类模型,所述装置包括:
获取单元,用于获取第一训练样本集,所述第一训练样本集中包括多个第一文本数据,每个第一文本数据携带类别标签;
处理单元,用于将所述第一训练样本集中的各个第一文本数据输入调整第一模型参数后的初始生成模型,得到所述第一训练样本集中各个第一文本数据对应的第一增强文本数据,并确定所述第一训练样本集中各个第一文本数据对应的第一增强文本数据为第一增强文本数据集;
所述处理单元,还用于将所述第一训练样本集和所述第一增强文本数据集输入所述初始分类模型,得到第一损失函数;
所述处理单元,还用于当所述第一损失函数不满足第一训练结束条件时,根据所述第一损失函数调整所述初始分类模型的第二模型参数,所述第一训练结束条件为连续N次训练得到的第一损失函数中,相邻两次得到的第一损失函数的差值小于第一预设差值阈值的次数大于或等于第一预设次数阈值,其中,N为大于2的整数。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110210550.6A CN112948582B (zh) | 2021-02-25 | 2021-02-25 | 一种数据处理方法、装置、设备以及可读介质 |
PCT/CN2021/090190 WO2022178971A1 (zh) | 2021-02-25 | 2021-04-27 | 一种数据处理方法、装置、设备以及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110210550.6A CN112948582B (zh) | 2021-02-25 | 2021-02-25 | 一种数据处理方法、装置、设备以及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112948582A true CN112948582A (zh) | 2021-06-11 |
CN112948582B CN112948582B (zh) | 2024-01-19 |
Family
ID=76246078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110210550.6A Active CN112948582B (zh) | 2021-02-25 | 2021-02-25 | 一种数据处理方法、装置、设备以及可读介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112948582B (zh) |
WO (1) | WO2022178971A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116380339B (zh) * | 2023-06-07 | 2023-08-15 | 季华实验室 | 一种薄膜规真空计校准方法及相关设备 |
CN117456248A (zh) * | 2023-10-27 | 2024-01-26 | 北京航迹科技有限公司 | 图像分类方法、装置、计算机设备、存储介质和程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115267A (zh) * | 2020-09-28 | 2020-12-22 | 平安科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
US20210034812A1 (en) * | 2019-07-30 | 2021-02-04 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
CN112347261A (zh) * | 2020-12-07 | 2021-02-09 | 携程计算机技术(上海)有限公司 | 分类模型训练方法、系统、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060069678A1 (en) * | 2004-09-30 | 2006-03-30 | Wu Chou | Method and apparatus for text classification using minimum classification error to train generalized linear classifier |
US8438009B2 (en) * | 2009-10-22 | 2013-05-07 | National Research Council Of Canada | Text categorization based on co-classification learning from multilingual corpora |
CN111241280B (zh) * | 2020-01-07 | 2023-09-05 | 支付宝(杭州)信息技术有限公司 | 文本分类模型的训练方法和文本分类方法 |
CN112070138B (zh) * | 2020-08-31 | 2023-09-05 | 新华智云科技有限公司 | 多标签混合分类模型的构建方法、新闻分类方法及系统 |
CN112131366B (zh) * | 2020-09-23 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 训练文本分类模型及文本分类的方法、装置及存储介质 |
-
2021
- 2021-02-25 CN CN202110210550.6A patent/CN112948582B/zh active Active
- 2021-04-27 WO PCT/CN2021/090190 patent/WO2022178971A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210034812A1 (en) * | 2019-07-30 | 2021-02-04 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
CN112115267A (zh) * | 2020-09-28 | 2020-12-22 | 平安科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
CN112347261A (zh) * | 2020-12-07 | 2021-02-09 | 携程计算机技术(上海)有限公司 | 分类模型训练方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022178971A1 (zh) | 2022-09-01 |
CN112948582B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859960A (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
US20230025317A1 (en) | Text classification model training method, text classification method, apparatus, device, storage medium and computer program product | |
CN112612894B (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN111026858B (zh) | 基于项目推荐模型的项目信息处理方法及装置 | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
CN111898364A (zh) | 神经网络关系抽取方法、计算机设备及可读存储介质 | |
CN113158685B (zh) | 文本的语义预测方法、装置、计算机设备和存储介质 | |
CN106682387A (zh) | 用于输出信息的方法和装置 | |
WO2021169364A1 (zh) | 分析语义情感的方法、装置、设备及存储介质 | |
CN112860841A (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN112948582A (zh) | 一种数据处理方法、装置、设备以及可读介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
US20200057811A1 (en) | Hybrid Natural Language Understanding | |
CN112052329A (zh) | 文本摘要生成方法、装置、计算机设备及可读存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN111914075A (zh) | 基于深度学习的客户标签确定方法、装置、设备及介质 | |
CN118153016A (zh) | 基于人工智能的鉴权系统 | |
CN112860907B (zh) | 一种情感分类方法及设备 | |
CN108628863A (zh) | 信息获取方法和装置 | |
CN109858035A (zh) | 一种情感分类方法、装置、电子设备和可读存储介质 | |
WO2021077834A1 (zh) | 一种基于对话系统对用户问句提出反问的方法和装置 | |
CN112446205A (zh) | 语句判别方法、装置、设备及存储介质 | |
CN112307752A (zh) | 一种数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |