CN110457470A - 一种文本分类模型学习方法及装置 - Google Patents
一种文本分类模型学习方法及装置 Download PDFInfo
- Publication number
- CN110457470A CN110457470A CN201910605677.0A CN201910605677A CN110457470A CN 110457470 A CN110457470 A CN 110457470A CN 201910605677 A CN201910605677 A CN 201910605677A CN 110457470 A CN110457470 A CN 110457470A
- Authority
- CN
- China
- Prior art keywords
- text
- samples
- data
- model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013145 classification model Methods 0.000 title claims abstract description 49
- 230000007935 neutral effect Effects 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 25
- 238000005194 fractionation Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 49
- 238000010276 construction Methods 0.000 abstract description 12
- 239000013598 vector Substances 0.000 description 39
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 16
- 238000013526 transfer learning Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例适用于模型托管中的模型构建,公开了一种文本分类模型学习方法,包括:获取满足第一条件的第一基础预测模型,该第一条件为文本分类任务对应的样本数据包括的文本样本数据与第一基础预测模型的第一输入样本数据的相似度大于第一阈值;根据文本样本数据更新第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型;将文本样本数据输入第二基础预测模型,根据文本样本数据和类别样本数据的对应关系更新第二基础预测模型输出层的参数,得到文本分类模型。本发明还相应的提出了一种文本分类模型学习装置。采用本发明,减少了模型训练的数据量,节省了训练时间、计算资源及处理器资源。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本分类模型学习方法及装置。
背景技术
随着深度学习网络的广泛使用,许多自然语言处理(Natural LanguageProcessing)任务上使用深度学习模型达到了较为先进的水平,但是在实现新的NLP任务时,一般都是通过获取已经存在的NLP任务中训练得到的词向量,将这些词向量作为固定的参数输入,即在需要模型实现具体任务时,需要针对具体任务改进模型,而且是从零开始训练。举例来说,在NLP领域,目前的技术能很好地做出“识别”,如想要知道一篇影评是积极还是消极,要做的就是“情感分析”。但是随着文章的情感越来越模糊,模型就难以判断,因为没有足够可学的标签数据。如果需要得到更为精准或者更符合目标任务的模型就需要对模型重新开始训练,从而需要大量的样本数据和计算资源,耗时长,而且会浪费大量内存和处理器资源。
发明内容
本发明实施例提供了一种文本分类模型学习方法及相关装置,可以通过本方案中用于文本分类模型训练的样本数据对已有的相关模型进行微调,得到文本分类模型,从而减少了训练的数据量,节省了训练时间、计算资源及处理器资源。
本发明实施例第一方面提供了一种文本分类模型学习方法,其特征在于,该方法包括:
根据文本分类任务对应的样本数据包括的文本样本数据,获取满足第一条件的第一基础预测模型,所述第一条件为所述文本样本数据与所述第一基础预测模型的第一输入样本数据的相似度大于第一阈值,所述文本分类任务对应的样本数据还包括类别样本数据,具体的针对文本分类任务获取第一基础预测模型,所述第一基础预测模型是根据第一输入样本数据和第一输出样本数据训练得到的,所述第一输出样本数据至少包括两个第一输出样本元素;
根据所述文本样本数据更新所述第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型,所述输出层包含所述文本分类任务对应的多个输出类别;
将所述文本样本数据输入所述第二基础预测模型,根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型中所述输出层的参数,得到文本分类模型。
其中,所述根据所述文本样本数据更新所述第一基础预测模型,包括:
根据所述文本样本数据构建第二输入样本数据和第二输出样本数据,所述第二输入样本数据包括多个第二输入样本元素,所述第二输出样本数据包括多个第二输出样本元素;
将所述第二输入样本数据输入所述第一基础预测模型,根据所述第二输入样本数据和所述第二输出样本数据的对应关系更新所述第一基础预测模型。
其中,所述根据所述文本样本数据构建第二输入样本数据和第二输出样本数据,包括:
通过分词处理将所述文本样本数据中的每一句文本样本进行拆分,得到每一句文本样本拆分后的多个文本样本元素;
根据所述每一句文本样本拆分后的多个文本样本元素的总数量,从所述多个文本样本元素中确定所述每一句文本样本的中间元素;
按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述中间元素及所述中间元素之前的至少一个文本样本元素组成所述第二输入样本数据,并将所述中间元素之后的至少一个文本样本元素组成所述第二输出样本数据。
其中,所述根据所述每一句文本样本拆分后的多个文本样本元素的总数量,从所述多个文本样本元素中确定所述每一句文本样本的中间元素,包括:
获取用于拆分文本样本的预设拆分阈值,所述预设拆分阈值为大于0且小于1的实数;
将所述每一句文本样本拆分后的多个文本样本元素的总数量与所述预设拆分阈值的乘积确定为目标位置;
按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述多个文本样本元素中目标位置的文本样本元素确定为所述中间元素。
其中,所述根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型中所述输出层的参数,包括:
构建所述文本样本数据的第一样本特征集;
构建所述类别样本数据中每个样本数据的第二样本特征,生成所述类别样本数据的第二样本特征集;
将所述第一样本特征集输入所述第二基础预测模型,根据所述第一样本特征集和所述第二样本特征集的对应关系更新所述第二基础预测模型输出层的参数。
其中,所述根据所述文本样本数据构建第一样本特征集,包括:
构建所述第二输入样本数据中的至少一个第二输入样本元素中每个第二输入样本元素的第二输入样本元素特征,生成所述第二输入样本数据的第二输入样本特征集;
并构建所述第二输出样本数据中的至少一个第二输出样本元素中每个第二输出样本元素的第二输出样本元素特征,生成所述第二输出样本数据的第二输出样本特征集。
其中,所述方法之后,还包括:
获取目标文本的目标特征集,所述目标特征集包括多个目标元素特征;
将所述目标特征集输入所述文本分类模型进行学习,确定所述目标文本对应的类别数据及所述目标文本与所述多个输出类别中各个输出类别的相关值,将最大的相关值对应的输出类别确定为所述目标文本的文本类别。
本发明实施例第二方面提供了一种文本分类模型学习装置,该装置包括:
获取模块,用于根据文本分类任务对应的样本数据包括的文本样本数据,获取满足第一条件的第一基础预测模型,所述第一条件为所述文本样本数据与所述第一基础预测模型的第一输入样本数据的相似度大于第一阈值,所述文本分类任务对应的样本数据还包括类别样本数据,具体的针对文本分类任务获取第一基础预测模型,所述第一基础预测模型是根据第一输入样本数据和第一输出样本数据训练得到的,所述第一输出样本数据至少包括两个第一输出样本元素;
更新模块,用于根据所述文本样本数据更新所述第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型,所述输出层包含所述文本分类任务对应的多个输出类别;
所述更新模块,还用于将所述文本样本数据输入所述第二基础预测模型,根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型中所述输出层的参数,得到文本分类模型。
其中,在根据所述文本样本数据更新所述第一基础预测模型方面所述更新模块包括:
构建单元,用于根据所述文本样本数据构建第二输入样本数据和第二输出样本数据,所述第二输入样本数据包括多个第二输入样本元素,所述第二输出样本数据包括多个第二输出样本元素;
输入单元,用于将所述第二输入样本数据输入所述第一基础预测模型,根据所述第二输入样本数据和所述第二输出样本数据的对应关系更新所述第一基础预测模型。
其中,所述构建单元具体用于:
通过分词处理将所述文本样本数据中的每一句文本样本进行拆分,得到每一句文本样本拆分后的多个文本样本元素;
根据所述每一句文本样本拆分后的多个文本样本元素的总数量,从所述多个文本样本元素中确定所述每一句文本样本的中间元素;
按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述中间元素及所述中间元素之前的至少一个文本样本元素组成所述第二输入样本数据,并将所述中间元素之后的至少一个文本样本元素组成所述第二输出样本数据。
其中,在根据所述每一句文本样本拆分后的多个文本样本元素的总数量,从所述多个文本样本元素中确定所述每一句文本样本的中间元素方面,所述构建单元具体用于:
获取用于拆分文本样本的预设拆分阈值,所述预设拆分阈值为大于0且小于1的实数;
将所述每一句文本样本拆分后的多个文本样本元素的总数量与所述预设拆分阈值的乘积确定为目标位置;
按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述多个文本样本元素中目标位置的文本样本元素确定为所述中间元素。
其中,在根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型输出层的参数方面,所述更新模块包括:
所述构建单元,还用于构建所述文本样本数据的第一样本特征集,以及构建所述类别样本数据中每个样本数据的第二样本特征,生成所述类别样本数据的第二样本特征集;
所以输入单元,还用于将所述第一样本特征集输入所述第二基础预测模型,根据所述第一样本特征集和所述第二样本特征集的对应关系更新所述第二基础预测模型输出层的参数。
其中,在构建所述文本样本数据的第一样本特征集方面,所述构建单元具体用于:
构建所述第二输入样本数据中的至少一个第二输入样本元素中每个第二输入样本元素的第二输入样本元素特征,生成所述第二输入样本数据的第二输入样本特征集;
并构建所述第二输出样本数据中的至少一个第二输出样本元素中每个第二输出样本元素的第二输出样本元素特征,生成所述第二输出样本数据的第二输出样本特征集。
其中,该装置还包括:
所述获取模块,还用于获取目标文本的目标特征集,所述目标特征集包括多个目标元素特征;
输入模块,用于将所述目标特征集输入所述文本分类模型进行学习;
确定模块,用于确定所述目标文本与所述多个输出类别中各个输出类别的相关值,将最大的相关值对应的输出类别确定为所述目标文本的文本类别。
本发明实施例第三方面提供了一种电子设备,该电子设备包括处理器、存储器、输入输出接口;
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于页面交互,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例第一方面中所述的文本分类模型学习方法。
本发明实施例通过针对文本分类任务获取第一基础预测模型,该文本分类任务的样本数据包括文本样本数据和类别样本数据,第一基础预测模型包括第一输入样本数据和第一输出样本数据,该文本样本数据和第一输入样本数据的相似度大于第一阈值,该第一输出样本数据至少包括两个第一输出样本元素;根据文本样本数据更新第一基础预测模型,根据类别样本数据在第一基础预测模型上增加新的输出层,得到第二基础预测模型;根据文本样本数据和类别样本数据的对应关系更新第二基础预测模型输出层的参数,得到文本分类模型。即根据文本分类任务的样本数据对第一基础预测模型进行迁移学习,从而减少用于文本分类模型训练的样本数据,并节省模型训练的时间、占用内存和计算资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1是本发明实施例提供的一种传统训练和迁移训练的学习方式示意图;
图2是本发明实施例提供的一种文本分类模型学习流程示意图;
图3.1是本发明实施例提供的一种第一基础预测模型示意图;
图3.2是本发明实施例提供的一种更新后的第一基础预测模型示意图;
图3.3是本发明实施例提供的一种文本分类模型示意图;
图4是本发明实施例提供的一种第二基础预测模型的生成过程示意图;
图5是本发明实施例提供的文本分类模型学习装置示意图;
图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,对本发明实施例中提到的迁移学习、差别微调、统计语言模型、迁移学习中域和任务、Boost、word2vec及分词处理进行介绍。
1、迁移学习:Transfer learning,将一个领域的已经成熟的知识应用到其他的场景中,一层层网络中每个节点的权重从一个训练好的网络迁移到一个全新的网络里,迁移学习着重强调学习任务间的相关性,并利用该相关性完成知识之间的迁移。
该迁移学习的形式化定义如下:
条件:给定一个源域Ds和源域上的学习任务Ts、目标域DT和目标域上的学习任务TT;
目标:利用Ds和学习在目标域上的预测函数f(·);
限制条件:Ds≠DT或Ts≠TT;
2、差别微调:在已有的数据上进行部分调整从而获得新的数据,这个部分调整的过程可以称为差别微调;在本方案中,即学习模型中,差别微调指通过已有的学习模型,重新训练最后几层或训练得到新层,得到新的学习模型,重新训练最后几层或训练得到新层的过程就是差别微调过程。
3、统计语言模型,一个语言模型通常构建为字符串s的概率分布p(s),实际上反映s作为一个句子出现的概率,即组成字符串的组合,在训练语料中出现的似然,与合乎语法无关。
4、迁移学习中域(Domain):由数据特征和特征分布组成,是学习的主体,包括源域(Source Domain),为已有知识的域,目标域(Target Domain),为要进行学习的域;
任务(Task):由目标函数和学习结果组成,是学习的结果。
5、Boost:是一种迭代算法,核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来构成一个更强的最终分类器(强分类器),可以对不相似数据进行过滤,如AdaBoost技术。
6、word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
7、分词处理:通过分词技术实现对文本的分词处理,分词技术包括中文分词、英文分词等,中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。其中,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界。
具体的,参加图1,图1是本发明实施例提供的一种传统训练和迁移训练的学习方式示意图。如图1所示,对于不同的任务,在进行传统训练时,通过获取每个任务的样本数据集,根据每个任务的样本数据集进行训练,得到该任务对应的学习模型,使得每个任务对应一个样本数据集,每个样本数据集训练一个学习模型,在得到新的任务后,根据该新的任务的样本数据集重新进行训练生成该新的任务对应的学习模型,即对于不同的任务生成不同的学习模型;而对于不同的任务,迁移训练是在已经存在的学习模型的基础上进行迁移学习,只需根据目标任务的样本数据集对已经存在的学习模型进行微调,从而得到该目标任务的学习模型,用于实现该目标任务。
具体来说,传统训练和迁移训练的区别如下表1所示,表1用于显示传统训练和迁移训练的区别:
表1
传统训练 | 迁移训练 | |
数据分布 | 训练和测试数据同分布 | 训练和测试数据不需要同分布 |
数据标签 | 足够的数据标注 | 不需要足够的数据标注 |
建模 | 每个任务分布建模 | 可以重用之前的建模 |
具体如图1中所示,在传统训练中,当存在任务1时,获取任务1的样本数据集1,根据该样本数据集1进行训练,得到该任务1对应的学习模型1;在获取到任务2时,则需要获取任务2的样本数据集2,根据该样本数据集2重新进行训练,得到该任务2对应的学习模型2;在获取到任务3时,获取任务3的样本数据集3,根据该样本数据集3重新进行训练,得到任务3对应的学习模型3等等。可以认为在传统训练中对于每个任务来说,都是一个单独的训练过程。在迁移训练中,获取到目标任务后,根据目标任务的样本数据集5获取源任务、该源任务的样本数据集4及根据样本数据集4训练得到的基础语言模型,根据样本数据集5对基础语言模型进行迁移学习,得到文本分类模型。可以认为在迁移训练中对于新的任务是在源任务的学习模型基础上进行训练的,减少了训练的数据集,简化学习模型的训练过程。
具体的,参见图2,图2是本发明实施例提供的一种文本分类模型学习流程示意图。如图2所示,该文本分类模型学习过程包括如下步骤:
步骤S201,根据文本分类任务对应的样本数据包括的文本样本数据,获取满足第一条件的第一基础预测模型。
具体的,文本分类任务对应的样本数据包括文本样本数据和类别样本数据。根据该文本样本数据获取满足第一条件的第一基础预测模型,该第一条件为文本样本数据与第一基础预测模型的第一输入样本数据的相似度大于第一阈值。换句话说,针对文本分类任务获取第一基础预测模型,第一基础预测模型是根据第一输入样本数据和第一输出样本数据预先训练得到的,所获取到的第一基础预测模型采用的第一输入样本数据与文本分类任务的文本样本数据的相似度大于第一阈值。这里的第一输出样本数据至少包括两个第一输出样本元素,以便于满足文本分类任务所需的多个输出类别。
具体的,在得到文本分类任务后,获取该文本分类任务的样本数据,该样本数据包括文本样本数据和类别样本数据,通过相关模型获取方法,根据文本样本数据获取与之相关的第一基础预测模型,这样所获取到的基础预测模型与文本分类任务更加匹配。
一种可能方式中,该相关模型获取方法可以是获取各个学习模型的输入样本数据和输出样本数据,并得到文本样本数据与每个学习模型的输入样本数据的相似度,若该相似度大于第一阈值,则该输入样本数据对应的学习模型为第一基础预测模型,第一基础预测模型包括第一输入样本数据和第一输出样本数据,即此时的第一条件为文本样本数据与学习模型的输入样本数据的相似度大于第一阈值,满足该第一条件的学习模型为第一基础预测模型。
另一种可能方式中,该相关模型获取方法可以是基于模型的迁移学习方法,如Boost技术,通过该Boost技术获取该文本分类任务相关的学习模型,该学习模型与文本分类任务相关,且该学习模型的源域和文本分类任务的目标域可以共享部分模型参数,基于Boost技术过滤掉与文本样本数据不相似的第一输入样本数据,得到相似度最高的第一输入样本数据对应的学习模型作为第一基础预测模型,即此时的第一条件为文本样本数据与学习模型的输入样本数据的相似度最高,在该方式下,通过Boost技术过滤掉与文本样本数据不相似的第一输入样本数据,从过滤之后得到的多个第一输入样本数据及每个第一输入样本数据对应的学习模型,比较每个第一输入样本数据与文本样本数据的相似度的大小,获取满足第一条件的学习模型作为第一基础预测模型。
另一种可能方式中,该相关模型获取方法还可以是基于关系的迁移学习方法、基于特征的迁移学习方法或基于实例的迁移学习方法等。可以认为,文本分类任务的样本数据中的文本样本数据与得到的第一基础预测模型的第一输入样本数据相似,都是以目标文本作为模型的处理对象。
举例来说,该文本分类任务的样本数据包括文本样本数据和类别样本数据,获取到的第一基础预测模型用于根据输入的特征进行预测并输出预测特征,假定该第一基础预测模型包括三层结构,具体结构参见图3.1所示,图3.1是本发明实施例提供的一种第一基础预测模型可能的示意图,其中,第一基础预测模型的第一模型参数包括每一层的参数,该第一基础预测模型还包括学习率,其中将第l层的参数记为θl,第l层的学习率记为γl。
可选的,第l层的学习率是通过获取已有经验得到的学习率范围,根据该学习率范围随机生成,或者可以获取用户对其学习率的赋值,即获取预设学习率由于模型的反向传播训练,所以越底层的学习率越小,便于减小误差。
步骤S202,根据文本样本数据更新第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型。
具体的,根据文本样本数据更新第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型,该输出层包含多个输出类别,类别样本数据包含于该多个输出类别中,即该输出层包含文本分类任务对应的多个输出类别。具体的,根据文本样本数据对第一基础预测模型中每一层的参数进行更新,即将该第一基础预测模型中的第一模型参数更新为第二模型参数,在更新后的第一基础预测模型上增加输出层及该输出层的参数和学习率,得到第二基础预测模型,该更新后的第一基础预测模型包含第二模型参数。
首先,根据文本样本数据构建第一样本特征集,该第一样本特征集包括第二输入样本特征集和第二输出样本特征集,第二输入样本特征集包括多个第二输入样本元素特征,第二输出样本特征集包括多个第二输出样本元素特征,将第二输入样本特征集输入第一基础预测模型中,根据第二输入样本特征集和第二输出样本特征集的对应关系更新第一基础预测模型,将第一基础预测模型中的第一模型参数更新为第二模型参数,即第二模型参数包含于更新后的第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,从而得到第二基础预测模型。其中,该第二基础预测模型的具体生成过程参见图4所示各个步骤的描述。
举例来说,将文本样本数据进行拆分并进行向量转换后,得到第二输入特征集和第二输出特征集,将第二输入特征集输入第一基础预测模型,根据第二输入特征集和第二输出特征集的对应关系更新第一基础预测模型,得到如图3.2所示的更新后的第一基础预测模型。具体的,在本例中,第一基础预测模型包括第一模型参数,该第一模型参数包括{θ1,θ2},第一基础预测模型还包括学习率{γ1′,γ2′},将第二输入特征集输入第一基础预测模型中进行训练,根据第二输入特征集和第二输出特征集的对应关系对第一基础预测模型中的第一模型参数进行更新,得到第二模型参数,该第二模型参数包含于更新后的第一基础预测模型,其中,在该第二模型参数下,将第二输入特征集输入更新后的第一基础预测模型中,得到第二输出特征集的相关值最大。具体是将第一基础预测模型中的第一层的参数θ1更新为θ1′,第二层的参数θ2更新为θ2′,即该第二模型参数包括{θ1′,θ2′}。可选的,可以对每一层的学习率进行重新设定,该每一层的学习率可以是该文本分类任务的相关任务的历史经验值,或者由使用者赋值等,从而得到如图3.2所示的更新后的第一基础预测模型,其中,上述学习率的设置过程可以在进行文本分类模型学习过程前获取本方案中所需使用的各个学习率,并在对第一基础预测模型进行更新前获取该学习率,也可以在对第一基础预测模型进行更新前获取预设学习率。再在更新后的第一基础预测模型上增添输出层-第4层,并为该输出层添加参数和学习率,其中,参数可以记作θ3′,学习率可以记作γ3′,从而得到第二基础预测模型。
可选的,每一层的学习率可以是通过获取已有经验得到的学习率范围,根据该学习率范围随机生成;也可以是获取用户对其学习率的赋值,即获取预设学习率,由于模型的反向传播训练,所以越底层的学习率越小,便于减小误差,例如,各层学习率之间的关系可以满足(γl-1)′=γl′/5.2。即在对第一基础预测模型进行更新前,随机生成学习率,或者获取预设学习率。
步骤S203,更新第二基础预测模型输出层的参数,得到文本分类模型。
具体的,根据文本样本数据和类别样本数据的对应关系更新第二基础预测模型中输出层的参数,从而得到文本分类模型。具体的,构建类别样本数据中每个样本数据的第二样本特征,生成该类别样本数据的第二样本特征集,将第一样本特征集输入第二基础预测模型,根据第一样本特征集和第二样本特征集的对应关系更新第二基础预测模型输出层的参数,得到文本分类模型,其中,该输出层的参数为第二基础预测模型中所包含的多个参数中位于最高层的参数。
具体通过第二反向传播公式对第L层的参数进行微调,该第二反向传播公式如下:
其中,此时的J2(θ)为预测类别向量与第二样本特征集之间的第二误差函数,为第L层更新后的参数,为第L层更新前的参数,通过对第二基础预测模型中第L层的参数进行微调,使得第L层的θ值可以令J2(θ)函数的值最小,即预测类别向量与第二样本特征集之间的误差最小。其中,第二反向传播公式中的学习率是通过在已有经验得到的学习率范围中进行随机生成,或者可以通过用户对其学习率赋值得到。
举例来说,对于步骤S202中得到的第二基础预测模型包括三层结构,该第二层的参数为θ2′,对应的学习率为γ2′,具体参见步骤S202中的举例说明。将类别样本数据进行向量转换,得到该类别样本数据的第二样本特征集,将第一样本特征集输入第二基础预测模型中,根据第一样本特征集和第二样本特征集的对应关系,在保留第二基础预测模型中前几层的参数情况下,对输出层的参数进行微调,使得该第一样本特征集输入第二基础预测模型时,得到与第一样本特征集对应的第二样本特征集的概率最大。如果将文本分类模型的模型参数命名为第三模型参数,则如图3.3中所示的文本分类模型,该第三模型参数包括微调后的输出层的参数,记为θ3″,还包括更新后的第一基础预测模型中的第二模型参数{θ1′,θ2′},即将第二基础预测模型中输出层的参数θ3′更新为θ3″,得到第三模型参数包括{θ1′,θ2′,θ3″},该第三模型参数包含于文本分类模型。
参见图4,图4是本发明实施例提供的一种第二基础预测模型的生成过程示意图,为图2中步骤S202所示过程的具体说明,具体包括如下步骤:
步骤S401,通过分词处理将文本样本数据进行拆分,得到第二输入样本数据和第二输出样本数据。
具体的,在得到文本分类任务的文本样本数据和类别样本数据后,通过分词处理将文本样本数据中的每一句文本样本进行拆分,得到多个文本样本元素,通过预设拆分阈值在多个文本样本元素中确定中间元素,并依据中间元素在每一句文本样本中的位置将每一句文本样本分成第二输入样本数据和第二输出样本数据。其中,该预设拆分阈值可以是百分数,或者正整数。这样可以根据预设拆分阈值将每一句文本样本拆分后的多个文本样本元素划分成第二输入样本数据和第二输出样本数据。
一种可能的方式中,预设拆分阈值为正整数,这一情况下的中间元素为多个文本样本元素中位于预设拆分阈值的位置的元素。将每一句文本样本中的中间元素之前的至少一个文本样本元素组成第二输入样本数据,将每一句文本样本中的中间元素之后的至少一个文本样本元素组成第二输出样本数据。中间元素可以属于第二输入样本数据或者,还可以属于第二输出样本数据。
另一种可能的方式中,预设拆分阈值为百分数。具体的,可以在得到每一句文本样本拆分后的多个文本样本元素后,根据所述每一句文本样本拆分后的多个文本样本元素的总数量,从所述多个文本样本元素中确定所述每一句文本样本的中间元素;按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述中间元素及所述中间元素之前的至少一个文本样本元素组成所述第二输入样本数据,并将所述中间元素之后的至少一个文本样本元素组成所述第二输出样本数据。具体的,获取用于拆分文本样本的预设拆分阈值,所述预设拆分阈值为大于0且小于1的实数;将所述每一句文本样本拆分后的多个文本样本元素的总数量与所述预设拆分阈值的乘积确定为目标位置;按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述多个文本样本元素中目标位置的文本样本元素确定为所述中间元素。或者,中间元素还可以属于第二输出样本数据。
以上实现方式对中间元素属于第二输入样本数据还是属于第二输出样本数据不做限定。可选的,根据中间元素的词性将该中间元素确定为预设拆分阈值之前或预设拆分阈值之后,该词性包括形容词、名词等;或者可以直接设定该中间元素属于预设拆分阈值之前或预设拆分阈值之后。例如,当预设拆分阈值为百分数时,若分词处理后得到奇数个元素,获取到中间元素后,若该中间元素的词性为形容词,假定预先设定“若中间元素词性为形容词时,将该中间元素确定为预设拆分阈值之前”,则根据中间元素的词性将该中间元素确定为预设拆分阈值之前。
举例来说,若文本样本数据为第一文本,对该第一文本进行拆分处理,假定该第一文本中包括内容“我爱北京,喜欢去那里旅游。”,且该预设拆分阈值为50%。将该第一文本中的每一句的内容进行分词处理,则将第一句“我爱北京”拆分后得到“‘我’、‘爱’、‘北京’”,根据预设拆分阈值将“‘我’、‘爱’、‘北京’”拆分成该句的第二输入样本数据“‘我’、‘爱’”,第二输出样本数据“‘北京’”,且“我爱北京”这句的第二输入样本数据和第二输出样本数据对应;并将第二句“喜欢去那里旅游”拆分后得到“‘喜欢’、‘去’、‘那里’、‘旅游’”,根据预设拆分阈值将“‘喜欢’、‘去’、‘那里’、‘旅游’”拆分成该句的第二输入样本数据“‘喜欢’、‘去’”,第二输出样本数据“‘那里’、‘旅游’”,且“喜欢去那里旅游”这句的第二输入样本数据和第二输出样本数据对应。
步骤S402,根据文本样本数据构建第一样本特征集。
具体的,通过预设拆分阈值将每一句文本样本分成第二输入样本数据和第二输出样本数据后,该第二输入样本数据包括至少一个第二输入样本元素,第二输出样本数据包括至少一个第二输出样本元素,每一个第二输入样本元素或每一个第二输出样本元素为一个文本样本元素。通过向量转换技术将第二输入样本数据中的至少一个第二输入样本元素中每个第二输入样本元素转换成向量,得到每个第二输入样本元素的第二输入样本元素特征,生成第二输入样本数据的第二输入样本特征集;并通过向量转换技术将第二输出样本数据中的至少一个第二输出样本元素中每个第二输出样本元素转换成向量,得到每个第二输出样本元素的第二输出样本元素特征,生成第二输出样本数据的第二输出样本特征集,该第二输入样本特征集和第一输出样本特征集组成该文本样本数据的第一样本特征集。其中,该向量转换技术可以为word2vec技术。
步骤S403,根据第一样本特征集更新第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型。
具体的,将第二输入样本特征集输入第一基础预测模型,根据第二输入样本特征集和第二输出样本特征集的对应关系更新该第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,同时为该输出层增加参数和学习率,从而得到第二基础预测模型。相当于将第二输入样本特征集输入第一基础预测模型后,根据第二输入样本特征集和第二输出样本特征集的对应关系将第一基础预测模型中的第一模型参数更新为第二模型参数,该第二模型参数包含于更新后的第一基础预测模型中,并在更新后的第一基础预测模型上增加输出层及该输出层的参数和学习率,其中,该输出层包含该文本分类任务对应的多个输出类别。
可选的,该输出层的参数或学习率可以是通过获取已有经验得到的参数范围或学习率范围,根据该参数范围或学习率范围随机生成;也可以是获取用户对其参数或学习率的赋值,即获取预设参数或预设学习率。即在为更新后的第一基础预测模型增加输出层时,随机生成该输出层的参数和学习率,或者获取预设参数和预设学习率,为该输出层赋予参数和学习率。
具体来说,将第二输入样本特征集输入第一基础预测模型中进行学习,由于每一句拆分得到的第二输入样本数据的第二输入样本特征集和第二输出样本数据的第二输出样本特征集对应,根据该对应关系对第一基础预测模型进行差别微调。具体通过反向传播公式实现对第一基础预测模型的参数调整,其中第一反向传播公式为:
本方案中将神经网络的参数θ′拆分成{θ1′,θ2′,θ3′,…,θL′},该参数为神经网络中相邻两层间的权重矩阵,其中θl′表示神经网络第l层的参数,为第l层更新后的参数,为第l层更新前的参数,L比神经网络的总层数少1。用{γ1′,γ2′,…,γL′}分别表示各层的参数的学习率,J(θ)为第二输出样本特征集与第一基础预测模型的输出预测向量间的第一误差函数。
即将第二输入样本特征集输入第一基础预测模型中,通过与θ进行处理后得到输出预测向量,将该输出预测向量与第二输出样本特征集的第一误差函数记为J(θ),通过上述反向传播公式对每一层的θ值进行差别微调,从而得到使第一误差函数值最小时的各个θ值,记做θ′,并使得此时得到的输出预测向量与该第二输入样本特征集的关联度最高,即输出预测向量与第二输出样本特征集的相似度最高,从而实现对第一基础语言模型中每一层的微调,得到更新后的第一基础预测模型。
接着,在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型,该输出层包含多个输出类别,上述类别样本数据包含于多个输出类别中。具体的,在更新后的第一基础预测模型上增加输出层时,该输出层所包含的多个数据单元至少包括类别样本数据,可以认为,上述类别样本数据中的每个样本数据均作为一个数据单元,作为该输出层的一个单元。举例来说,当类别样本数据包括四种文本类别时,该输出层所包含的多个输出类别的数量为大于或等于4的整数,且该多个输出类别中的其中四个输出类别为类别样本数据中的四种文本类别,例如类别样本数据包括a、b、c和d四种文本类别时,获取包括a、b、c和d在内的至少四个输出类别作为该输出层的数据单元。
在实际应用中,为了减少模型学习的计算量,提高模型学习的效率和精确性,输出层只需包含文本分类任务中的类别样本数据中的类别样本,以简化模型的训练及学习过程,可以认为该输出层所包含的多个输出类别的数量等于类别样本数据中所包含的类别样本的数量,且多个输出类别为类别样本数据中所包含的类别样本。在上述当类别样本数据包括四种文本类别时的例子中,可以认为,该输出层所包含的多个输出类别的数量为4。
其中,反向传播公式中的第L层的学习率是通过在已有经验得到的学习率范围中进行随机生成,或者可以通过用户对其学习率赋值得到,由于模型的反向传播训练,所以越底层的学习率越小,便于减小误差,例如,各层学习率之间的关系可以满足(γl-1)′=γl′/5.2。
本发明实施例通过针对文本分类任务获取第一基础预测模型,该文本分类任务的样本数据包括文本样本数据和类别样本数据,根据文本样本数据对该第一基础预测模型进行差别微调,更新该第一基础预测模型的每一层的参数,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型,再根据文本样本数据和类别样本数据的对应关系更新第二基础预测模型输出层的参数,得到文本分类模型。从而实现在已存在的学习模型上进行迁移学习,用较少的数据量实现对新的目标任务—文本分类任务的学习模型的训练,而无需重新创建新的模型,从而减少训练的数据量,节省训练时间、占用内存和计算资源。
在本发明实施例的一种可能的实现方式中,假定有一个文本集,该文本集包括多个文本样本数据,如文本样本数据A、文本样本数据B、文本样本数据C,分别对应文本类别a、b、c,将A进行分词处理并转换成第一样本特征集,该第一样本特征集包括第二输入样本特征集和第二输出样本特征集,将第二输入样本特征集输入第一基础预测模型中进行学习,对该第一基础预测模型进行微调,更新第一基础预测模型中各层的参数,使得此时的第二输入样本特征集与输出向量序列的误差函数的值最小,同理通过文本样本数据B和C对第一基础预测模型进行微调,得到微调后的学习模型,该微调后的学习模型对于文本样本数据A、B和C均成立,再为微调后的学习模型增加输出层,得到第二基础预测模型。将预测类别向量与第二样本特征集的误差函数记为J2(θ),将A对应的第一样本特征集输入第二基础预测模型,将A对应的文本类别a转换成第二样本特征集,该第二样本特征集为此时的实际类别向量,通过该输出层输出的预测类别向量与实际类别向量的误差值对输出层的参数进行微调,使得J2(θ)的值最小,即在输入A对应的第一样本特征集的前提下,输出文本类别a的第二样本特征集的概率最大,同理通过文本B和C及各自对应的文本类别b和c,对第二基础预测模型的输出层参数进行微调,从而得到文本分类模型,该文本分类模型输出类别样本数据对应的第二样本特征集及其相关值,且该文本分类模型对于训练样本中的文本和文本类别的对应关系均成立,例如,在将文本A的第一样本特征集输入该文本分类模型中进行学习后,得到多个类别样本数据及每个类别样本数据与文本A的相关值,该多个类别样本数据中文本类别a与文本A的相关值最大。
假定的是有两种文本类别,一种为积极,一种为消极,存在三个文本A、B、C,文本A、B对应的文本类别为积极,文本C对应的文本类别为消极。将该第二基础预测模型增加第四层,该第四层包括两个神经元,分别表示积极和消极对应的类别样本特征集。假定将文本A进行分词处理并进行向量转换后,得到第一样本特征集,将该第一样本特征集以三个为单位依次作为三个神经元数据输入第二基础预测模型中,该三个神经元数据可以认为是1*3向量,输入第二基础预测模型,与第1层的参数θ1′进行计算得到第2层的各个神经元数据,可以认为是1*5向量,θ1′可以认为是3*5向量;将第2层的各个神经元数据与该层的参数θ2′进行计算,得到第3层的各个神经元数据,在此处为1*5向量,θ2′可以认为是5*5向量;再将第3层的各个神经元数据与该层的参数θ3′进行计算,得到更新后的第4层的各个神经元数据,在此处为1*2向量,θ3′可以认为是5*2向量,此时的θ3′为随机生成,得到预测类别向量,计算此时第二误差函数J2(θ)的值,根据反向传播公式对第L层的参数θ3′进行微调,直至J2(θ)的值最小,使得此时第4层输出的结果为积极的概率最大;同理根据文本B对第二基础预测模型继续训练,对θ3′进行微调,使得文本B对应的文本类别为积极的概率最大;同理根据文本C对第二基础预测模型继续训练,对θ3′进行微调,使得文本C对应的文本类别为消极的概率最大。将更新后的θ3′记做θ3″,从而确定文本分类模型。
具体的,该文本分类模型的预测阶段如下所示:
获取目标文本的目标特征集,所述目标特征集包括多个目标元素特征;将目标特征集输入文本分类模型进行学习,确定目标文本与所述多个输出类别中各个输出类别的相关值,将最大的相关值对应的输出类别确定为所述目标文本的文本类别。
举例来说,假定获取到目标文本1,将该目标文本1进行分词处理并向量转换后,得到该目标文本1的目标特征集,将该目标特征集输入文本分类模型中进行学习,得到该文本分类模型输出的多个预测类别及每个预测类别与目标文本1的相关值,获取多个预测类别中对应的相关值最大的预测类别,该预测类别为目标文本1的文本类别。假设当该多个预测类别包括“积极”和“消极”两种类别时,该文本分类模型输出1*2或者2*1的向量,该向量中每个值都对应一个预测类别与目标文本1的相关值,且该向量中的所有值之和为1,假定得到[0.8,0.2]的向量,第一个值表示预测类别为“积极”时与目标文本1的相关值,第二个值表示预测类别为“消极”时与目标文本1的相关值,则确定“积极”为该目标文本1的文本类别。
可选的,参见图5,图5是本发明实施例提供的文本分类模型学习装置示意图。如图5所示,该文本分类模型学习装置50可以用于上述图1或图4所对应实施例中的终端设备,具体的,该装置可以包括:获取模块501及更新模块502。
获取模块501,用于根据文本分类任务对应的样本数据包括的文本样本数据,获取满足第一条件的第一基础预测模型,所述第一条件为所述文本样本数据与所述第一基础预测模型的第一输入样本数据的相似度大于第一阈值,所述文本分类任务对应的样本数据还包括类别样本数据,具体来说针对文本分类任务获取第一基础预测模型,所述第一基础预测模型是根据第一输入样本数据和第一输出样本数据训练得到的,所述第一输出样本数据至少包括两个第一输出样本元素;
更新模块502,用于根据所述文本样本数据更新所述第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型,该输出层包含所述文本分类任务对应的多个输出类别;
上述更新模块502,还用于将所述文本样本数据输入所述第二基础预测模型,根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型输出层的参数,得到文本分类模型。
其中,在根据所述文本样本数据更新所述第一基础预测模型方面上述更新模块502包括:
构建单元5021,用于根据所述文本样本数据构建第二输入样本数据和第二输出样本数据,所述第二输入样本数据包括多个第二输入样本元素,所述第二输出样本数据包括多个第二输出样本元素;
输入单元5022,用于将所述第二输入样本数据输入所述第一基础预测模型,根据所述第二输入样本数据和所述第二输出样本数据的对应关系更新所述第一基础预测模型。
其中,上述构建单元5021具体用于:
通过分词处理将所述文本样本数据中的每一句文本样本进行拆分,得到每一句文本样本拆分后的多个文本样本元素;
根据所述每一句文本样本拆分后的多个文本样本元素的总数量,从所述多个文本样本元素中确定所述每一句文本样本的中间元素;
按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述中间元素及所述中间元素之前的至少一个文本样本元素组成所述第二输入样本数据,并将所述中间元素之后的至少一个文本样本元素组成所述第二输出样本数据。
其中,在根据所述每一句文本样本拆分后的多个文本样本元素的总数量,从所述多个文本样本元素中确定所述每一句文本样本的中间元素方面,上述构建单元5021具体用于:
获取用于拆分文本样本的预设拆分阈值,所述预设拆分阈值为大于0且小于1的实数;
将所述每一句文本样本拆分后的多个文本样本元素的总数量与所述预设拆分阈值的乘积确定为目标位置;
按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述多个文本样本元素中目标位置的文本样本元素确定为所述中间元素。
其中,在根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型输出层的参数方面,上述更新模块502包括:
上述构建单元5021,还用于构建所述文本样本数据的第一样本特征集,以及构建所述类别样本数据中每个样本数据的第二样本特征,生成所述类别样本数据的第二样本特征集;
上述输入单元5022,还用于将所述第一样本特征集输入所述第二基础预测模型,根据所述第一样本特征集和所述第二样本特征集的对应关系更新所述第二基础预测模型输出层的参数。
其中,在构建所述文本样本数据的第一样本特征集方面,上述构建单元5021具体用于:
构建所述第二输入样本数据中的至少一个第二输入样本元素中每个第二输入样本元素的第二输入样本元素特征,生成所述第二输入样本数据的第二输入样本特征集;
并构建所述第二输出样本数据中的至少一个第二输出样本元素中每个第二输出样本元素的第二输出样本元素特征,生成所述第二输出样本数据的第二输出样本特征集。
其中,该文本分类模型学习装置50还包括:
上述获取模块501,还用于获取目标文本的目标特征集,所述目标特征集包括多个目标元素特征;
输入模块503,用于将所述目标特征集输入所述文本分类模型进行学习,其中所述文本分类模型由文本分类样本特征训练得到,所述文本分类样本特征中至少包括第一样本特征集和第二样本特征集;
确定模块504,用于确定所述目标文本与所述多个输出类别中各个输出类别的相关值,将最大的相关值对应的输出类别确定为所述目标文本的文本类别。
具体实现中,上述装置可通过上述各个模块执行上述图2或图4所提供的实现方式中各个步骤所提供的实现方式,实现上述各实施例中所实现的功能,具体可参见上述图2或图4所示的方法实施例中各个步骤提供的相应描述,在此不再赘述。
本发明实施例提供了一种文本分类模型学习装置,上述装置通过针对文本分类任务获取第一基础预测模型,该文本分类任务的样本数据包括文本样本数据和类别样本数据,根据文本样本数据对该第一基础预测模型进行差别微调,更新该第一基础预测模型的每一层的参数,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型,再根据文本样本数据和类别样本数据的对应关系更新第二基础预测模型输出层的参数,得到文本分类模型。从而实现在已存在的学习模型上进行迁移学习,用较少的数据量实现对新的目标任务—文本分类任务的学习模型的训练,而无需重新创建新的模型,从而减少训练的数据量,节省训练时间、占用内存和计算资源。
参见图6,图6是本申请实施例提供的电子设备的结构示意图。如图6所示,本实施例中的终端设备可以包括:一个或多个处理器601、存储器602和收发器603。上述处理器601、存储器602和收发器603通过总线604连接。存储器602用于存储计算机程序,该计算机程序包括程序指令,收发器603用于连接终端设备,与上述终端设备进行数据交互;处理器601用于执行存储器602存储的程序指令,执行如下操作:
针对文本分类任务获取第一基础预测模型,所述文本分类任务的样本数据包括文本样本数据和类别样本数据,所述第一基础预测模型是根据第一输入样本数据和第一输出样本数据训练得到的,所述文本样本数据和所述第一输入样本数据的相似度大于第一阈值,所述第一输出样本数据至少包括两个第一输出样本元素;
根据所述文本样本数据更新所述第一基础预测模型,并在更新后的第一基础预测模型上增加新的输出层,得到第二基础预测模型,所述输出层包含多个输出类别,所述类别样本数据包含于所述多个输出类别中;
将所述文本样本数据输入所述第二基础预测模型,根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型输出层的参数,得到文本分类模型。
在一些可行的实施方式中,上述处理器601可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器602可以包括只读存储器和随机存取存储器,并向处理器601和收发器603提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。例如,存储器602还可以存储设备类型的信息。
具体实现中,上述电子设备可通过其内置的各个功能模块执行如上述图2或图4中各个步骤所提供的实现方式,具体可参见上述图2或图4中各个步骤所提供的实现方式,在此不再赘述。
本发明实施例通过提供一种电子设备,包括:处理器、收发器、存储器,通过处理器获取存储器中的计算机指令,执行上述图2或图4中所示方法的各个步骤,进行上述文本分类模型学习的操作。通过存储器中的计算机指令,处理器执行针对文本分类任务获取第一基础预测模型,并通过该文本分类模型的文本样本数据对该第一基础预测模型进行更新,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型,再通过文本样本数据和类别样本数据的对应关系对第二基础预测模型进行更新,得到文本分类模型学习的过程,从而实现从已有的学习模型上,根据目标任务的样本数据对已有的学习模型进行迁移学习,进而实现以较少的数据量对目标任务的学习模型的训练过程,减少了模型训练的数据量,节省了训练时间、占用内存、计算资源及处理器资源。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2或图4中各个步骤所提供的文本分类模型学习方法,具体可参见上述图2或图4中各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的文本分类模型学习装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。另,术语“至少”是用于列举部分情况,以反映实施过程,而非只包括给出的方法实施要求。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种文本分类模型学习方法,其特征在于,所述方法包括:
根据文本分类任务对应的样本数据包括的文本样本数据,获取满足第一条件的第一基础预测模型,所述第一条件为所述文本样本数据与所述第一基础预测模型的第一输入样本数据的相似度大于第一阈值,所述文本分类任务对应的样本数据还包括类别样本数据;
根据所述文本样本数据更新所述第一基础预测模型,并在更新后的第一基础预测模型上增加输出层,得到第二基础预测模型,所述输出层包含所述文本分类任务对应的多个输出类别;
将所述文本样本数据输入所述第二基础预测模型,根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型中所述输出层的参数,得到文本分类模型。
2.如权利要求1所述的方法,其特征在于,所述根据所述文本样本数据更新所述第一基础预测模型,包括:
根据所述文本样本数据构建第二输入样本数据和第二输出样本数据;
将所述第二输入样本数据输入所述第一基础预测模型,根据所述第二输入样本数据和所述第二输出样本数据的对应关系更新所述第一基础预测模型。
3.如权利要求2所述的方法,其特征在于,所述根据所述文本样本数据构建第二输入样本数据和第二输出样本数据,包括:
通过分词处理将所述文本样本数据中的每一句文本样本进行拆分,得到每一句文本样本拆分后的多个文本样本元素;
根据所述每一句文本样本拆分后的多个文本样本元素的总数量,从所述多个文本样本元素中确定所述每一句文本样本的中间元素;
按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述中间元素及所述中间元素之前的至少一个文本样本元素组成所述第二输入样本数据,并将所述中间元素之后的至少一个文本样本元素组成所述第二输出样本数据。
4.如权利要求3所述的方法,其特征在于,所述根据所述每一句文本样本拆分后的多个文本样本元素的总数量,从所述多个文本样本元素中确定所述每一句文本样本的中间元素,包括:
获取用于拆分文本样本的预设拆分阈值,所述预设拆分阈值为大于0且小于1的实数;
将所述每一句文本样本拆分后的多个文本样本元素的总数量与所述预设拆分阈值的乘积确定为目标位置;
按照所述多个文本样本元素在所述每一句文本样本中出现的先后顺序,将所述多个文本样本元素中目标位置的文本样本元素确定为所述中间元素。
5.如权利要求2所述的方法,其特征在于,所述根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型中所述输出层的参数,包括:
构建所述文本样本数据的第一样本特征集;
构建所述类别样本数据中每个样本数据的第二样本特征,生成所述类别样本数据的第二样本特征集;
将所述第一样本特征集输入所述第二基础预测模型,根据所述第一样本特征集和所述第二样本特征集的对应关系更新所述第二基础预测模型输出层的参数。
6.如权利要求1所述的方法,其特征在于,所述方法之后,还包括:
获取目标文本的目标特征集,所述目标特征集包括多个目标元素特征;
将所述目标特征集输入所述文本分类模型进行学习,确定所述目标文本与所述多个输出类别中各个输出类别的相关值,将最大的相关值对应的输出类别确定为所述目标文本的文本类别。
7.一种文本分类模型学习装置,其特征在于,所述装置包括:
获取模块,用于根据文本分类任务对应的样本数据包括的文本样本数据,获取满足第一条件的第一基础预测模型,所述第一条件为所述文本样本数据与所述第一基础预测模型的第一输入样本数据的相似度大于第一阈值,所述文本分类任务对应的样本数据还包括类别样本数据;
更新模块,用于根据所述文本样本数据更新所述第一基础预测模型,并在更新后的第一基础预测模型上增加新的输出层,得到第二基础预测模型,所述输出层包含所述文本分类任务对应的多个输出类别;
所述更新模块,还用于将所述文本样本数据输入所述第二基础预测模型,根据所述文本样本数据和所述类别样本数据的对应关系更新所述第二基础预测模型中所述输出层的参数,得到文本分类模型。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
所述获取模块,还用于获取目标文本的目标特征集,所述目标特征集包括多个目标元素特征;
输入模块,用于将所述目标特征集输入所述文本分类模型进行学习;
确定模块,用于确定所述目标文本与所述多个输出类别中各个输出类别的相关值,将最大的相关值对应的输出类别确定为所述目标文本的文本类别。
9.一种电子设备,其特征在于,包括处理器、存储器、输入输出接口;
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于页面交互,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-6任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910605677.0A CN110457470A (zh) | 2019-07-05 | 2019-07-05 | 一种文本分类模型学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910605677.0A CN110457470A (zh) | 2019-07-05 | 2019-07-05 | 一种文本分类模型学习方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110457470A true CN110457470A (zh) | 2019-11-15 |
Family
ID=68482311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910605677.0A Pending CN110457470A (zh) | 2019-07-05 | 2019-07-05 | 一种文本分类模型学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457470A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488972A (zh) * | 2020-04-09 | 2020-08-04 | 北京百度网讯科技有限公司 | 数据迁移方法、装置、电子设备和存储介质 |
CN112989032A (zh) * | 2019-12-17 | 2021-06-18 | 医渡云(北京)技术有限公司 | 实体关系分类方法、装置、介质及电子设备 |
CN114519114A (zh) * | 2020-11-20 | 2022-05-20 | 北京达佳互联信息技术有限公司 | 多媒体资源分类模型构建方法、装置、服务器及存储介质 |
WO2023207220A1 (zh) * | 2022-04-25 | 2023-11-02 | 华为技术有限公司 | 知识迁移的方法、装置、计算机设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770580A (zh) * | 2009-01-04 | 2010-07-07 | 中国科学院计算技术研究所 | 一种跨领域的文本情感分类器的训练方法和分类方法 |
CN103268346A (zh) * | 2013-05-27 | 2013-08-28 | 翁时锋 | 半监督分类方法及系统 |
CN106095791A (zh) * | 2016-01-31 | 2016-11-09 | 长源动力(山东)智能科技有限公司 | 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法 |
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
-
2019
- 2019-07-05 CN CN201910605677.0A patent/CN110457470A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770580A (zh) * | 2009-01-04 | 2010-07-07 | 中国科学院计算技术研究所 | 一种跨领域的文本情感分类器的训练方法和分类方法 |
CN103268346A (zh) * | 2013-05-27 | 2013-08-28 | 翁时锋 | 半监督分类方法及系统 |
CN106095791A (zh) * | 2016-01-31 | 2016-11-09 | 长源动力(山东)智能科技有限公司 | 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法 |
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
Non-Patent Citations (3)
Title |
---|
刘万军;李天慧;曲海成;: "基于Fisher准则和TrAdaboost的高光谱相似样本分类算法", 国土资源遥感, no. 04 * |
王刚;杨波;杨明杰;: "云计算环境下分布式语义文本自适应分类方法", 科学技术与工程, no. 07 * |
裔阳;周绍光;赵鹏飞;胡屹群;: "基于正样本和未标记样本的遥感图像分类方法", 计算机工程与应用, no. 04 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989032A (zh) * | 2019-12-17 | 2021-06-18 | 医渡云(北京)技术有限公司 | 实体关系分类方法、装置、介质及电子设备 |
CN111488972A (zh) * | 2020-04-09 | 2020-08-04 | 北京百度网讯科技有限公司 | 数据迁移方法、装置、电子设备和存储介质 |
CN111488972B (zh) * | 2020-04-09 | 2023-08-08 | 北京百度网讯科技有限公司 | 数据迁移方法、装置、电子设备和存储介质 |
CN114519114A (zh) * | 2020-11-20 | 2022-05-20 | 北京达佳互联信息技术有限公司 | 多媒体资源分类模型构建方法、装置、服务器及存储介质 |
WO2023207220A1 (zh) * | 2022-04-25 | 2023-11-02 | 华为技术有限公司 | 知识迁移的方法、装置、计算机设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457470A (zh) | 一种文本分类模型学习方法及装置 | |
CN109948149B (zh) | 一种文本分类方法及装置 | |
CN110196908A (zh) | 数据分类方法、装置、计算机装置及存储介质 | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
CN106910497A (zh) | 一种中文词语发音预测方法及装置 | |
CN108334496A (zh) | 用于特定领域的人机对话理解方法与系统及相关设备 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN109816438B (zh) | 信息推送方法及装置 | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN109598517A (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
JP7293729B2 (ja) | 学習装置、情報出力装置、及びプログラム | |
CN109447273A (zh) | 模型训练方法、广告推荐方法、相关装置、设备及介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN112767386A (zh) | 基于主题特征和评分分布的图像美学质量评价方法及系统 | |
CN117708351B (zh) | 基于深度学习的技术标辅助评审方法、系统及存储介质 | |
CN109242927B (zh) | 一种广告模板生成方法、装置及计算机设备 | |
CN114511023A (zh) | 分类模型训练方法以及分类方法 | |
CN112579739A (zh) | 基于ELMo嵌入与门控自注意力机制的阅读理解方法 | |
CN113722477B (zh) | 基于多任务学习的网民情绪识别方法、系统及电子设备 | |
CN115066689A (zh) | 细粒度的随机神经架构搜索 | |
CN109947930A (zh) | 摘要生成方法、装置、终端及计算机可读存储介质 | |
CN110569331A (zh) | 一种基于上下文的关联性预测方法、装置及存储设备 | |
CN114676684B (zh) | 一种文本纠错方法、装置、计算机设备及存储介质 | |
CN116227484B (zh) | 模型训练方法、装置、设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240621 |