CN111966831A - 一种模型训练方法、文本分类方法、装置及网络模型 - Google Patents
一种模型训练方法、文本分类方法、装置及网络模型 Download PDFInfo
- Publication number
- CN111966831A CN111966831A CN202010834836.7A CN202010834836A CN111966831A CN 111966831 A CN111966831 A CN 111966831A CN 202010834836 A CN202010834836 A CN 202010834836A CN 111966831 A CN111966831 A CN 111966831A
- Authority
- CN
- China
- Prior art keywords
- training
- network model
- neural network
- model
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003062 neural network model Methods 0.000 claims abstract description 73
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 72
- 239000013598 vector Substances 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000000873 masking effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种模型训练方法、文本分类方法、装置及网络模型,属于计算机技术领域。该方法包括获取与应用场景相关的多条文本数据,得到预训练样本;利用预训练样本和预设的第一损失函数对神经网络模型进行预训练,得到预训练后的神经网络模型;获取与应用场景相关的目标网页中已有的与目标任务相关的多条文本数据,得到样本集;对样本集中的每一条文本数据进行标签标注;利用标注后的样本集和预设的第二损失函数对预训练后的神经网络模型进行训练,得到所需的神经网络模型。先利用大量文本语料以无监督方式预训练神经网络模型,然后以与目标任务相关的多条文本数据微调整个预训练模型,使得训练出的模型的泛化能力以及预测精度都有所提高。
Description
技术领域
本申请属于计算机技术领域,具体涉及一种模型训练方法、文本分类方法、装置及网络模型。
背景技术
对于不均衡文本分类任务而言,在冷启动阶段往往因标注数据少而无法充分训练模型,以及标注数据标签数量分布不均匀形成长尾分布的难题,如新运营的门户网站想凭借算法对用户上传的内容文字自动打上内容标签,但初期可能数据积累以及标注数据都较少,且由于娱乐以及体育相关的内容群众基础关注度更高,大部分用户都更倾向于上传这部分相关内容,而对其他板块不太感兴趣,便会导致数据类型分布不均衡。
目前在工业界,对处理不均衡数据一般可以通过对标签数较少的数据进行上采样,既通过不停的复制标签数较少的样本,从而达到标签数量上的均衡,但是,这样在引入额外重复数据的同时,也引入了模型后期拟合数据时,过拟合该重复数据的风险。亦或者通过下采样,即随机的丢弃标签数量多的数据,从而达到标签数量上的均衡,但这同时也伴随着信息丢失和数据浪费。再或者在不改变数据数量的前提下,直接按照少数标签数据与多数标签数据的比值,重新赋予少数标签数据更大的权重以及减小多数标签数据的权重,让模型更加关注少数标签数据,但当多数标签数据与少数标签数据比例十分悬殊时,模型会大幅降低对多数标签数据关注的,这也会导致在多数标签数据中的困难样本更难被识别。至于文本分类的冷启动,在工业界上初期可以依靠人工手写复杂规则以及关键字匹配的方法对文本进行分类,等数据积累到一定程度时,再训练模型,但这种方法的泛化能力以及预测精度相对有限。
在这种情况下,更应关注如何在不均衡文本分类任务冷启动阶段,在对数据处理以及建模的过程中,尽可能不改变数据数量原始分布以及让模型更加关注少数标签数据的同时也不应减少对困难样本的关注,并让模型具备一定的预测能力,进而提升不均衡多类别文本分类任务冷启动阶段的精度。
发明内容
鉴于此,本申请的目的在于提供一种模型训练方法、文本分类方法、装置及网络模型,以改善现有训练方法训练出的模型的泛化能力以及预测精度相对不高的问题。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供了一种模型训练方法,包括:获取与应用场景相关的多条文本数据,得到预训练样本;利用所述预训练样本和预设的第一损失函数对神经网络模型进行预训练,得到预训练后的神经网络模型;获取与所述应用场景相关的目标网页中已有的与目标任务相关的多条文本数据,得到样本集;对所述样本集中的每一条文本数据进行标签标注;利用标注后的样本集和预设的第二损失函数对所述预训练后的神经网络模型进行训练,得到所需的神经网络模型。本申请实施例中,整个训练过程分为两个阶段,阶段一以预设的第一损失函数为损失函数,利用大量与下游应用场景相关的文本语料以无监督方式(无需任何人工标注)预训练神经网络模型,为模型引入先验知识,然后阶段二以下游文本任务数据为输入以及预设的第二损失函数为损失函数训练整个预训练后的模型,让模型将预训练学到的知识与当前任务相关的知识融合,从而提升了不均衡文本分类任务冷启动时的分类精度,使得训练出的模型的泛化能力以及预测精度都有所提高。
结合第一方面实施例的一种可能的实施方式,利用所述预训练样本和预设的第一损失函数对神经网络模型进行预训练,包括:对所述预训练样本中的每一条文本数据以句号粒度进行切分;对切分后的每句话进行分词,并利用全词遮掩遮挡该句话中的词;将切分好的词语转换为向量,并利用转换后的所有向量、被遮挡的词在句子中的位置和预设的第一损失函数对所述神经网络模型进行预训练。本申请实施例中,通过对预训练样本中的每一条文本数据以句号粒度进行切分,然后对切分后的每句话进行分词,并利用全词遮掩遮挡该句话中的词,最后将切分好的词语转换为向量,并利用转换后的所有向量、被遮挡的词在句子中的位置和预设的第一损失函数采用无监督的方式对神经网络模型进行预训练,以节约数据标注的时间,同时采用全词遮掩遮挡句话中的词使得模型可以通过上下文去学到更多的语义信息,提高了模型的泛化能力以及预测精度。
结合第一方面实施例的一种可能的实施方式,所述预设的第一损失函数为MLM损失函数。本申请实施例中,采用MLM为损失函数,使得模型可以利用上下文信息预测被遮挡(mask)掉的词,让模型学习到上下文信息,实现文本的双向预测。
结合第一方面实施例的一种可能的实施方式,利用标注后的样本集和预设的第二损失函数对所述预训练后的神经网络模型进行训练,包括:对标注后的样本集中的每一条文本数据以句号粒度进行切分;对切分后的每句话进行分词,并将切分好的词语转换为向量;利用转换后的所有向量和预设的第二损失函数对所述预训练后的神经网络模型进行训练。本申请实施例中,在利用标注后的样本集和预设的第二损失函数对预训练后的神经网络模型进行训练时,对标注后的样本集中的每一条文本数据以句号粒度进行切分,然后对切分后的每句话进行分词,并将切分好的词语转换为向量,最后利用转换后的所有向量和预设的第二损失函数对预训练后的神经网络模型进行训练,通过标注的方式来调整模型的预测精度。
结合第一方面实施例的一种可能的实施方式,所述预设的第二损失函数为:其中,C为种类数,C∈[1,2,3,……];yi ∧为第i个类的预测值,yi ∧∈[0,1];yi为指示值,指示当前yi ∧是否为当前分类对象自身预测值,yi∈{0,1};α为超参数,用于调节正负样本的权重,α∈[0,1];β为超参数,用于使困难样本产生的损失变大,而简单样本的损失变小。本申请实施例中,通过引入α和β,使模型在不改变标签数量分布的情况下,对下游任务中的困难样本更加关注,以均衡赋予困难样本与简单样本之间的权重比,提升了对于不均衡文本的分类精度。
结合第一方面实施例的一种可能的实施方式,获取与应用场景相关的多个文本数据,包括:利用网络爬虫从网页上获取与应用场景相关的多个文本数据。本申请实施例中,利用爬虫技术可以快速从网页上获取到与应用场景相关的大量文本数据。
第二方面,本申请实施例还提供了一种文本分类方法,包括:获取网页中与指定对象相关的多条评论数据;利用如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法训练得到的神经网络模型来对所述多条评论数据进行情感分类,得到分类结果。
第三方面,本申请实施例还提供了一种利用上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法训练得到的网络模型。
第四方面,本申请实施例还提供了一种模型训练装置,包括:第一获取模块、第一训练模块、第二获取模块、标注模块以及第二训练模块;第一获取模块,用于获取与应用场景相关的多条文本数据,得到预训练样本;第一训练模块,用于利用所述预训练样本和预设的第一损失函数对神经网络模型进行预训练,得到预训练后的神经网络模型;第二获取模块,用于获取与所述应用场景相关的目标网页中已有的与目标任务相关的多条文本数据,得到样本集;标注模块,用于对所述样本集中的每一条文本数据进行标签标注;第二训练模块,用于利用标注后的样本集和预设的第二损失函数对所述预训练后的神经网络模型进行训练,得到所需的神经网络模型。
第五方面,本申请实施例还提供了一种文本分类装置,包括:获取模块以及分类模块;获取模块,用于获取网页中与指定对象相关的多条评论数据;分类模块,用于利用如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法训练得到的神经网络模型来对所述多条评论数据进行情感分类,得到分类结果。
第六方面,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者,行上述第二方面实施例提供的方法。
第七方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者,行上述第二方面实施例提供的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了本申请实施例提供的一种模型训练方法的流程示意图。
图2示出了本申请实施例提供的一种Transformer模型的结构示意图。
图3示出了本申请实施例提供的一种文本分类方法的流程示意图。
图4示出了本申请实施例提供的一种模型训练装置的模块框图。
图5示出了本申请实施例提供的一种文本分类装置的模块框图。
图6示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
鉴于现目前对于不均衡文本分类任务而言,由于模型训练前期的样本分类不均衡,使得训练出的模型更加关注标签数据多的文本类型,从而导致模型的泛化能力以及预测精度相对有限。基于此,本申请实施例提供了一种模型训练方法,以改善现有训练方法训练出的模型的泛化能力以及预测精度相对不高的问题。下面将结合图2,对本申请实施例提供的模型训练方法进行说明。
步骤S101:获取与应用场景相关的多条文本数据,得到预训练样本。
鉴于前期网页或网站在冷启动(刚建立)阶段,文本数据较小且分类不均衡,因此,本申请实施例中,获取与下游应用场景相关的多条文本数据,来构成预训练样本,并以此来预训练神经网络模型,为神经网络模型引入先验知识。可选地,在获取与应用场景相关的多条文本数据时,可以是利用网络爬虫从与应用场景相关的网页上获取多个文本数据(如百度百科、新闻、问答以及论坛等数据),以尽可能的保证文本类型的均衡性。此外,为了尽可能的保证预训练样本中文本类型的均衡性,还可以对获取到的多个文本数据按照文本类型进行筛选,使得预训练样本中不同文本类型的数据差不多一致。
步骤S102:利用所述预训练样本和预设的第一损失函数对神经网络模型进行预训练,得到预训练后的神经网络模型。
在获取到与下游应用场景相关的预训练样本后,利用预训练样本和预设的第一损失函数对神经网络模型进行预训练,便可得到预训练后的神经网络模型。可选地,本申请实施例中,选用的神经网络模型为RoBERTa模型(该模型由多层如12层串联的Transformer模型组成,每层Transformer模型的结构如图2所示),该模型为BERT(Bidirectional EncoderRepresentations from Transformers)模型的改进版,通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等获得了State of The Art(达到最高水准)的效果,使得模型的泛化能力以及预测精度相比于BERT均有所提高。当然,该神经网络模型也可以是目前常用于文本分类的神经网络模型,如BERT模型、LSTM(Long Short-TermMemory)模型、RNN(Recurrent Neural Network)模型等。
其中,一种实施方式下,利用预训练样本和预设的第一损失函数对神经网络模型进行预训练的过程可以是:对预训练样本中的每一条文本数据以句号粒度进行切分,对切分后的每句话进行分词,并利用全词遮掩遮挡该句话中的词,然后将切分好的词语转换为向量,并利用转换后的所有向量、被遮挡的词在句子中的位置和预设的第一损失函数对神经网络模型进行预训练。也即对预训练样本中的每一条文本数据,以句号粒度(包括句号、感叹号、问号)为单位进行断句,将每一条文本数据拆分为至少一句完整的句子,然后利用分词工具(如jieba分词)将每句话拆分成以词组成的形式,并利用全词遮掩(whole wordmasking)按照一定比例(如15%)随机遮挡(mask)该句话中的词,最后将切分好的词利用事先训练好的词向量模型(如skip gram、cbow、glove或fast text等模型)转换为向量(为词向量以及位置向量的相加),最后将转换后的所有向量、被遮挡的词在句子中的位置输入神经网络模型(如RoBERTa模型),以预设的第一损失函数如MLM(Mask Language Model)为损失函数对模型进行预训练,使其能预测出被mask掉的词。其中,MLM函数以及具体的模型训练过程已经为本领域所熟知,在此不再介绍。
其中,每个词对应有一个词向量和位置向量,将两者进行相加,便可得到该词对应的向量。每个词对应的位置在句子中都有一个位置id,每个位置id对应一个位置向量,所有句子中在相同的位置的词都会共享一个位置向量(在训练中所有句子会进行截断或者填充(padding),使其维持在相同长度)。
其中,一种实施方式下,预设的第一损失函数为MLM(Mask Language Model)损失函数。当然该第一损失函数也可以是其他的损失函数,如训练BERT模型、LSTM(Long Short-Term Memory)模型、RNN(Recurrent Neural Network)模型等模型时常用的损失函数。
其中,在利用全词遮掩遮挡句子中的词语时,是按照一定比例随机来遮挡,且被遮挡的词仅占少数,如不超过该句话中词总数的20%。每句话被mask的词及位置不同,且不同的阶段(Epoch)被mask掉的词也不一样。相比于基于字的遮掩,显然在中文中通过上下文去预测单个字学到的语义信息远不及基于词学到的信息更有意义,具体如表1中所示,让模型通过“广东”,“省会”这样的上下文信息去预测出“广州”,显然比预测“广”能学到更多语义的信息,除此之外,masking也不再是静态的,而是随着训练阶段(Epoch)的变化而变化,这样便减少了模型过拟合的风险。
表1
步骤S103:获取与所述应用场景相关的目标网页中已有的与目标任务相关的多条文本数据,得到样本集。
获取与预训练时的应用场景相关的目标网页中已有的与目标任务相关的多条文本数据,来构成样本集。
步骤S104:对所述样本集中的每一条文本数据进行标签标注。
在得到样本集后,对样本集中的每一条文本数据进行标签标注,得到标注后的样本集。
步骤S105:利用标注后的样本集和预设的第二损失函数对所述预训练后的神经网络模型进行训练,得到所需的神经网络模型。
在得到标注后的样本集后,利用标注后的样本集和预设的第二损失函数对预训练后的神经网络模型进行训练,便可得到所需的神经网络模型。
其中,一种实施方式下,利用标注后的样本集和预设的第二损失函数对预训练后的神经网络模型进行训练的过程可以是:对标注后的样本集中的每一条文本数据以句号粒度进行切分,对切分后的每句话进行分词,并将切分好的词语转换为向量,最后利用转换后的所有向量和预设的第二损失函数对预训练后的神经网络模型进行训练。也即,对标注后的样本集中的每一条文本数据,以句号粒度(包括句号、感叹号、问号)为单位进行断句,将每一条文本数据拆分为至少一句完整的句子,然后利用分词工具(如jieba分词)将每句话拆分成以词组成的形式,最后将切分好的词利用事先训练好的词向量模型(如skip gram、cbow、glove或fast text等模型)转换为向量(为词向量以及位置向量的相加),最后利用转换后的所有向量和预设的第二损失函数对预训练后的神经网络模型进行训练。
其中,作为一种实施方式,预设的第二损失函数为:其中,C为种类数,C∈[1,2,3,……];yi ∧为第i个类的预测值,yi ∧∈[0,1];yi为指示值,指示当前yi ∧是否为当前分类对象自身预测值,yi∈{0,1};α为超参数,用于调节正负样本的权重,α∈[0,1];β为超参数(如取2),用于使困难样本产生的损失变大,而简单样本的损失变小。当然,预设的第二损失函数并不限于此,也可以是使用交叉熵函数为损失函数,如
其中,以上述的公式1为损失函数让模型利用之前学到的知识对当前任务做指导,且更关注少量标签数据的同时也兼顾关注难区分的样本。通过公式1不难发现,与传统的交叉熵函数(公式2)作比较,对于正样本而言,当为α为0.25,β为2时,如果预测结果为0.3即为困难样本,交叉熵得到的损失是-log 0.3,而focal loss(公式1)得到一个相对较大的损失为-0.25*0.72*log0.3,同理对于简单样本而言则为一个较小的损失。
本申请实施例提供的模型训练方法,整体流程而言,分为两个阶段,阶段一以预设的第一损失函数(如MLM函数)为损失函数,利用大量与下游任务相关的文本语料以无监督方式(无需任何人工标注)预训练神经网络模型(如RoBERTa模型),相当于为模型引入先验知识,然后阶段二以下游文本任务数据为输入以及预设的第二损失函数(如公式1)为损失函数微调(fine tuning)整个预训练后的模型,让模型将预训练学到的知识与当前任务相关的知识融合,最后将得到所需的模型。该种情况下,模型可以利用先验知识对下游任务的数据做语义编码(encoding),有助于模型更好的区分句子类别,并凭借第二损失函数(如公式1)可以在不改变数据标签分布的情况下,在更关注少量标签数据的同时也兼顾关注难区分的样本,从而提升下游任务表现,使得训练出的模型的泛化能力以及预测精度都有所提高。
本申请实施例还提供了一种利用上述所示的模型训练方法(如图1所示)训练得到的神经网络模型,以及还提供了一种利用该神经网络模型来进行文本分类的方法,如图3所示。下面将结合图3,对本申请实施例提供的文本分类方法进行说明。
步骤S201:获取网页中与指定对象相关的多条评论数据。
在实际应用中,当需要对与指定对象相关的文本进行分类时,获取网页中与指定对象相关的多条评论数据。
步骤S202:利用上述的模型训练方法训练得到的神经网络模型来对所述多条评论数据进行情感分类,得到分类结果。
利用如图1所示的模型训练方法训练得到的神经网络模型来对获取到的多条评论数据进行情感分类,便可得到分类结果。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例还提供了一种模型训练装置100,如图4所示。该模型训练装置100包括:第一获取模块110、第一训练模块120、第二获取模块130、标注模块140以及第二训练模块150。
第一获取模块110,用于获取与应用场景相关的多条文本数据,得到预训练样本。可选地,第一获取模块110,用于利用网络爬虫从网页上获取与应用场景相关的多个文本数据。
第一训练模块120,用于利用所述预训练样本和预设的第一损失函数对神经网络模型进行预训练,得到预训练后的神经网络模型。可选地,第一训练模块120,用于:对所述预训练样本中的每一条文本数据以句号粒度进行切分;对切分后的每句话进行分词,并利用全词遮掩遮挡该句话中的词;将切分好的词语转换为向量,并利用转换后的所有向量、被遮挡的词在句子中的位置和预设的第一损失函数对所述神经网络模型进行预训练。
第二获取模块130,用于获取与所述应用场景相关的目标网页中已有的与目标任务相关的多条文本数据,得到样本集。
标注模块140,用于对所述样本集中的每一条文本数据进行标签标注。
第二训练模块150,用于利用标注后的样本集和预设的第二损失函数对所述预训练后的神经网络模型进行训练,得到所需的神经网络模型。可选地,第二训练模块150,用于:对标注后的样本集中的每一条文本数据以句号粒度进行切分;对切分后的每句话进行分词,并将切分好的词语转换为向量;利用转换后的所有向量和预设的第二损失函数对所述预训练后的神经网络模型进行训练。
其中,可选地,所述预设的第一损失函数为MLM损失函数。
所述预设的第二损失函数为:其中,C为种类数,C∈[1,2,3,……];yi ∧为第i个类的预测值,yi ∧∈[0,1];yi为指示值,指示当前yi ∧是否为当前分类对象自身预测值,yi∈{0,1};α为超参数,用于调节正负样本的权重,α∈[0,1];β为超参数,用于使困难样本产生的损失变大,而简单样本的损失变小。
本申请实施例所提供的模型训练装置100,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本申请实施例还提供了一种文本分类装置200,如图5所示。该文本分类装置200包括:获取模块210以及分类模块220。
获取模块210,用于获取网页中与指定对象相关的多条评论数据。
分类模块220,利用上述的模型训练方法训练得到的神经网络模型来对所述多条评论数据进行情感分类,得到分类结果。
本申请实施例所提供的文本分类装置200,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
如图6所示,图6示出了本申请实施例提供的一种电子设备300的结构框图。所述电子设备300包括:收发器310、存储器320、通讯总线330以及处理器340。
所述收发器310、所述存储器320、处理器340各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线330或信号线实现电性连接。其中,收发器310用于收发数据。存储器320用于存储计算机程序,如存储有图4或图5中所示的软件功能模块,即图4所示的模型训练装置100或图5所示的文本分类装置200。其中,模型训练装置100或文本分类装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器320中或固化在所述电子设备300的操作系统(operating system,OS)中的软件功能模块。所述处理器340,用于执行存储器320中存储的可执行模块,例如模型训练装置100或文本分类装置200包括的软件功能模块或计算机程序。例如,处理器340在执行模型训练装置100包括的软件功能模块或计算机程序时,处理器340用于获取与应用场景相关的多条文本数据,得到预训练样本;以及用于利用所述预训练样本和预设的第一损失函数对神经网络模型进行预训练,得到预训练后的神经网络模型;以及用于获取与所述应用场景相关的目标网页中已有的与目标任务相关的多条文本数据,得到样本集;以及用于对所述样本集中的每一条文本数据进行标签标注;以及还用于利用标注后的样本集和预设的第二损失函数对所述预训练后的神经网络模型进行训练,得到所需的神经网络模型。又例如,处理器340在执行文本分类装置200包括的软件功能模块或计算机程序时,处理器340,用于获取网页中与指定对象相关的多条评论数据;以及利用上述的模型训练方法训练得到的神经网络模型来对所述多条评论数据进行情感分类,得到分类结果。
其中,存储器320可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器340可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器340也可以是任何常规的处理器等。
其中,上述的电子设备300,包括但不限于计算机、服务器等。
本申请实施例还提供了一种非易失性计算机可读取存储介质(以下简称存储介质),该存储介质上存储有计算机程序,该计算机程序被计算机如上述的电子设备300运行时,执行上述所示的模型训练方法或文本分类方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种模型训练方法,其特征在于,包括:
获取与应用场景相关的多条文本数据,得到预训练样本;
利用所述预训练样本和预设的第一损失函数对神经网络模型进行预训练,得到预训练后的神经网络模型;
获取与所述应用场景相关的目标网页中已有的与目标任务相关的多条文本数据,得到样本集;
对所述样本集中的每一条文本数据进行标签标注;
利用标注后的样本集和预设的第二损失函数对所述预训练后的神经网络模型进行训练,得到所需的神经网络模型。
2.根据权利要求1所述的方法,其特征在于,利用所述预训练样本和预设的第一损失函数对神经网络模型进行预训练,包括:
对所述预训练样本中的每一条文本数据以句号粒度进行切分;
对切分后的每句话进行分词,并利用全词遮掩遮挡该句话中的词;
将切分好的词语转换为向量,并利用转换后的所有向量、被遮挡的词在句子中的位置和预设的第一损失函数对所述神经网络模型进行预训练。
3.根据权利要求1或2所述的方法,其特征在于,所述预设的第一损失函数为MLM损失函数。
4.根据权利要求1所述的方法,其特征在于,利用标注后的样本集和预设的第二损失函数对所述预训练后的神经网络模型进行训练,包括:
对标注后的样本集中的每一条文本数据以句号粒度进行切分;
对切分后的每句话进行分词,并将切分好的词语转换为向量;
利用转换后的所有向量和预设的第二损失函数对所述预训练后的神经网络模型进行训练。
6.根据权利要求1所述的方法,其特征在于,获取与应用场景相关的多个文本数据,包括:
利用网络爬虫从网页上获取与应用场景相关的多个文本数据。
7.一种文本分类方法,其特征在于,包括:
获取网页中与指定对象相关的多条评论数据;
利用如权利要求1-6中任一项所述的模型训练方法训练得到的神经网络模型来对所述多条评论数据进行情感分类,得到分类结果。
8.一种利用如权利要求1-6中任一项所述的模型训练方法训练得到的网络模型。
9.一种模型训练装置,其特征在于,包括:
第一获取模块,用于获取与应用场景相关的多条文本数据,得到预训练样本;
第一训练模块,用于利用所述预训练样本和预设的第一损失函数对神经网络模型进行预训练,得到预训练后的神经网络模型;
第二获取模块,用于获取与所述应用场景相关的目标网页中已有的与目标任务相关的多条文本数据,得到样本集;
标注模块,用于对所述样本集中的每一条文本数据进行标签标注;
第二训练模块,用于利用标注后的样本集和预设的第二损失函数对所述预训练后的神经网络模型进行训练,得到所需的神经网络模型。
10.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器与所述存储器连接;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如权利要求1-6中任一项所述的方法,或者,执行如权利要求7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010834836.7A CN111966831A (zh) | 2020-08-18 | 2020-08-18 | 一种模型训练方法、文本分类方法、装置及网络模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010834836.7A CN111966831A (zh) | 2020-08-18 | 2020-08-18 | 一种模型训练方法、文本分类方法、装置及网络模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111966831A true CN111966831A (zh) | 2020-11-20 |
Family
ID=73388448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010834836.7A Pending CN111966831A (zh) | 2020-08-18 | 2020-08-18 | 一种模型训练方法、文本分类方法、装置及网络模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966831A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287089A (zh) * | 2020-11-23 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 用于自动问答系统的分类模型训练、自动问答方法及装置 |
CN112365993A (zh) * | 2020-12-03 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种针对少样本公众健康问句的分类方法及系统 |
CN112529153A (zh) * | 2020-12-03 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于卷积神经网络的bert模型的微调方法及装置 |
CN112733520A (zh) * | 2020-12-30 | 2021-04-30 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN113077051A (zh) * | 2021-04-14 | 2021-07-06 | 广东博智林机器人有限公司 | 网络模型训练方法、装置、文本分类模型及网络模型 |
CN113177119A (zh) * | 2021-05-07 | 2021-07-27 | 北京沃东天骏信息技术有限公司 | 文本分类模型训练、分类方法和系统及数据处理系统 |
CN113298087A (zh) * | 2021-04-29 | 2021-08-24 | 上海淇玥信息技术有限公司 | 图片分类模型冷启动的方法、系统、装置及介质 |
CN113313582A (zh) * | 2021-06-25 | 2021-08-27 | 上海冰鉴信息科技有限公司 | 拒客回捞模型训练方法、装置及电子设备 |
CN113569011A (zh) * | 2021-07-27 | 2021-10-29 | 马上消费金融股份有限公司 | 文本匹配模型的训练方法、装置、设备及存储介质 |
CN113591475A (zh) * | 2021-08-03 | 2021-11-02 | 美的集团(上海)有限公司 | 无监督可解释分词的方法、装置和电子设备 |
CN113806536A (zh) * | 2021-09-14 | 2021-12-17 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN113808709A (zh) * | 2021-08-31 | 2021-12-17 | 天津师范大学 | 一种基于文本分析的心理弹性预测方法及系统 |
CN114330512A (zh) * | 2021-12-13 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
WO2023155303A1 (zh) * | 2022-02-16 | 2023-08-24 | 平安科技(深圳)有限公司 | 网页数据的提取方法和装置、计算机设备、存储介质 |
US11797611B2 (en) | 2021-07-07 | 2023-10-24 | International Business Machines Corporation | Non-factoid question answering across tasks and domains |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134947A (zh) * | 2019-04-17 | 2019-08-16 | 中国科学院计算技术研究所 | 一种基于不平衡多源数据的情感分类方法及系统 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN110490242A (zh) * | 2019-08-12 | 2019-11-22 | 腾讯医疗健康(深圳)有限公司 | 图像分类网络的训练方法、眼底图像分类方法及相关设备 |
CN110674629A (zh) * | 2019-09-27 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 标点符号标注模型及其训练方法、设备、存储介质 |
CN111104512A (zh) * | 2019-11-21 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 游戏评论的处理方法及相关设备 |
CN111260055A (zh) * | 2020-01-13 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 基于三维图像识别的模型训练方法、存储介质和设备 |
CN111460164A (zh) * | 2020-05-22 | 2020-07-28 | 南京大学 | 一种基于预训练语言模型的电信工单智能判障方法 |
-
2020
- 2020-08-18 CN CN202010834836.7A patent/CN111966831A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134947A (zh) * | 2019-04-17 | 2019-08-16 | 中国科学院计算技术研究所 | 一种基于不平衡多源数据的情感分类方法及系统 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN110490242A (zh) * | 2019-08-12 | 2019-11-22 | 腾讯医疗健康(深圳)有限公司 | 图像分类网络的训练方法、眼底图像分类方法及相关设备 |
CN110674629A (zh) * | 2019-09-27 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 标点符号标注模型及其训练方法、设备、存储介质 |
CN111104512A (zh) * | 2019-11-21 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 游戏评论的处理方法及相关设备 |
CN111260055A (zh) * | 2020-01-13 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 基于三维图像识别的模型训练方法、存储介质和设备 |
CN111460164A (zh) * | 2020-05-22 | 2020-07-28 | 南京大学 | 一种基于预训练语言模型的电信工单智能判障方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287089A (zh) * | 2020-11-23 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 用于自动问答系统的分类模型训练、自动问答方法及装置 |
CN112365993A (zh) * | 2020-12-03 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种针对少样本公众健康问句的分类方法及系统 |
CN112529153A (zh) * | 2020-12-03 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于卷积神经网络的bert模型的微调方法及装置 |
CN112529153B (zh) * | 2020-12-03 | 2023-12-22 | 平安科技(深圳)有限公司 | 基于卷积神经网络的bert模型的微调方法及装置 |
CN112733520B (zh) * | 2020-12-30 | 2023-07-18 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN112733520A (zh) * | 2020-12-30 | 2021-04-30 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN113077051A (zh) * | 2021-04-14 | 2021-07-06 | 广东博智林机器人有限公司 | 网络模型训练方法、装置、文本分类模型及网络模型 |
CN113077051B (zh) * | 2021-04-14 | 2024-01-26 | 南京零洞数智科技有限公司 | 网络模型训练方法、装置、文本分类模型及网络模型 |
CN113298087A (zh) * | 2021-04-29 | 2021-08-24 | 上海淇玥信息技术有限公司 | 图片分类模型冷启动的方法、系统、装置及介质 |
CN113177119A (zh) * | 2021-05-07 | 2021-07-27 | 北京沃东天骏信息技术有限公司 | 文本分类模型训练、分类方法和系统及数据处理系统 |
CN113177119B (zh) * | 2021-05-07 | 2024-02-02 | 北京沃东天骏信息技术有限公司 | 文本分类模型训练、分类方法和系统及数据处理系统 |
CN113313582A (zh) * | 2021-06-25 | 2021-08-27 | 上海冰鉴信息科技有限公司 | 拒客回捞模型训练方法、装置及电子设备 |
US11797611B2 (en) | 2021-07-07 | 2023-10-24 | International Business Machines Corporation | Non-factoid question answering across tasks and domains |
CN113569011A (zh) * | 2021-07-27 | 2021-10-29 | 马上消费金融股份有限公司 | 文本匹配模型的训练方法、装置、设备及存储介质 |
CN113591475A (zh) * | 2021-08-03 | 2021-11-02 | 美的集团(上海)有限公司 | 无监督可解释分词的方法、装置和电子设备 |
CN113808709A (zh) * | 2021-08-31 | 2021-12-17 | 天津师范大学 | 一种基于文本分析的心理弹性预测方法及系统 |
CN113808709B (zh) * | 2021-08-31 | 2024-03-22 | 天津师范大学 | 一种基于文本分析的心理弹性预测方法及系统 |
CN113806536A (zh) * | 2021-09-14 | 2021-12-17 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN113806536B (zh) * | 2021-09-14 | 2024-04-16 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN114330512A (zh) * | 2021-12-13 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN114330512B (zh) * | 2021-12-13 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
WO2023155303A1 (zh) * | 2022-02-16 | 2023-08-24 | 平安科技(深圳)有限公司 | 网页数据的提取方法和装置、计算机设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966831A (zh) | 一种模型训练方法、文本分类方法、装置及网络模型 | |
Kádár et al. | Representation of linguistic form and function in recurrent neural networks | |
US8645298B2 (en) | Topic models | |
CN103970864B (zh) | 基于微博文本的情绪分类和情绪成分分析方法及系统 | |
CN109344406B (zh) | 词性标注方法、装置和电子设备 | |
CN111753092A (zh) | 一种数据处理方法、模型训练方法、装置及电子设备 | |
CN109388801B (zh) | 相似词集合的确定方法、装置和电子设备 | |
CN107402945B (zh) | 词库生成方法及装置、短文本检测方法及装置 | |
CN113407679A (zh) | 文本主题挖掘方法、装置、电子设备及存储介质 | |
CN112632283A (zh) | 模型生成方法、文本分类方法、装置、设备及介质 | |
Parwita et al. | Classification of mobile application reviews using word embedding and convolutional neural network | |
Endalie et al. | Bi-directional long short term memory-gated recurrent unit model for Amharic next word prediction | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN113377910A (zh) | 情感评价方法、装置、电子设备和存储介质 | |
Xing et al. | An approach to sentiment analysis of short Chinese texts based on SVMs | |
Lu et al. | An effective approach for Chinese news headline classification based on multi-representation mixed model with attention and ensemble learning | |
Gadelrab et al. | Novel semantic tagging detection algorithms based non-negative matrix factorization | |
Chen et al. | Sentiment strength prediction using auxiliary features | |
Jang et al. | Effective training data extraction method to improve influenza outbreak prediction from online news articles: deep learning model study | |
Lei et al. | Incorporating task-oriented representation in text classification | |
CN113344590A (zh) | 一种模型训练以及投诉率预估的方法及装置 | |
Chen et al. | Location extraction from Twitter messages using a bidirectional long short-term memory neural network with conditional random field model | |
Dong et al. | Named entity recognition for public interest litigation based on a deep contextualized pretraining approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |