CN112579768A - 一种情感分类模型训练方法、文本情感分类方法及装置 - Google Patents
一种情感分类模型训练方法、文本情感分类方法及装置 Download PDFInfo
- Publication number
- CN112579768A CN112579768A CN201910942195.4A CN201910942195A CN112579768A CN 112579768 A CN112579768 A CN 112579768A CN 201910942195 A CN201910942195 A CN 201910942195A CN 112579768 A CN112579768 A CN 112579768A
- Authority
- CN
- China
- Prior art keywords
- text
- emotion classification
- obtaining
- target field
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 343
- 238000013145 classification model Methods 0.000 title claims abstract description 139
- 238000012549 training Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000002372 labelling Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 55
- 230000011218 segmentation Effects 0.000 claims description 44
- 238000004891 communication Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 6
- 239000011159 matrix material Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种情感分类模型训练方法、文本情感分类方法及装置,在获得目标领域的第一文本集合和目标领域的第二文本集合之后,获得第一文本集合和第二文本集合中各个文本的情感分类结果,并获得第一文本集合和第二文本集合中各个文本的特征数据,基于各个文本的特征数据和各个文本的情感分类结果,对预设模型进行训练,得到目标领域的第一情感分类模型,其中第二文本集合中各个文本获得情感分类结果的方式与第一文本集合中各个文本获得情感分类结果的方式不同,意味着第一文本集合和第二文本集合中至少一个文本集合中的文本的情感分类结果能够自动获得,通过自动获得方式弥补人工标注情感分类结果的缺陷,从而提高模型训练效率和F1取值。
Description
技术领域
本发明涉及机器学习模型技术领域,尤其涉及一种情感分类模型训练方法、文本情感分类方法及装置。
背景技术
情感分析方法是对句子或句子中的属性词进行情感分类的方法。例如,一个句子为“服务真的是太周到了”,该句子的情感分类结果为正面、该句子中的属性词“服务”的情感分类结果也为正面,其中句子的情感分类结果称为简单情感,句子中属性词语的情感分类结果称为实体情感。
无论是对于简单情感还是对于实体情感,目前需要通过对大量的训练样本进行标注,得到标注数据,通过标注数据对机器学习模型进行训练,得到用于进行情感分类的情感分类模型。例如通过人工对训练样本进行标注,而人工标注的方式会导致模型训练效率降低,且传统深度学习模型的F1值比较低,其中F1取值是统计学中用来衡量分类模型精确度的一种指标,其可以视为是分类模型的精确率和召回率的一种加权平均,以同时兼顾分类模型的精确率和召回率。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的情感分类模型训练方法、文本情感分类方法及装置,用于提高模型训练效率以及F1取值。技术方案如下:
本发明公开一种情感分类模型训练方法,所述方法包括:
获得目标领域的第一文本集合,并获得所述第一文本集合中各个文本的情感分类结果;
获得所述目标领域的第二文本集合,并获得所述第二文本集合中各个文本的情感分类结果,所述第二文本集合中各个文本获得情感分类结果的方式与所述第一文本集合中各个文本获得情感分类结果的方式不同;
获得所述第一文本集合和所述第二文本集合中各个文本的特征数据;
基于所述各个文本的特征数据和所述各个文本的情感分类结果,对预设模型进行训练,得到所述目标领域的第一情感分类模型。
优选的,所述第一文本集合中各个文本的情感分类结果通过人工标注方式获得;
所述方法还包括:基于所述第一文本集合中的各个文本的情感分类结果,对所述目标领域的第一语言模型进行训练,得到所述目标领域的第二情感分类模型,所述目标领域的第二情感分类模型用于获得所述第二文本集合中的各个文本的情感分类结果。
优选的,所述获得所述第一文本集合和所述第二文本集合中各个文本的特征数据包括:
对所述第一文本集合和所述第二文本集合中各个文本进行分词,得到各个文本的分词序列和各个文本的分词序列对应的词性序列;
获得所述各个文本的分词序列中各个词的词向量;
获得所述各个文本的分词对应的词性序列中各个词性的词性向量;
针对所述各个文本中的任一文本,基于该文本的分词序列中各个词的词向量和该文本的分词对应的词性序列中各个词性的词性向量,得到该文本的特征数据。
优选的,所述方法还包括:
获得所述目标领域的第三文本集合;
基于所述目标领域的第三文本集合,对第二语言模型进行训练,得到所述目标领域的第一语言模型,所述目标领域的第一语言模型用于得到对所述第二文本集合中的各个文本进行情感预测的第二情感分类模型。
本发明还公开一种文本情感分类方法,利用上述情感分类模型训练方法所训练的第一情感分类模型对文本进行情感分类,所述文本情感分类方法包括:
获得所述目标领域的待分类文本的特征数据;
基于所述待分类文本的特征数据和所述目标领域的第一情感分类模型,获得所述待分类文本的情感分类结果。
本发明还公开一种情感分类模型训练装置,所述装置包括:
第一获得单元,用于获得目标领域的第一文本集合,并获得所述第一文本集合中各个文本的情感分类结果;
第二获得单元,用于获得所述目标领域的第二文本集合,并获得所述第二文本集合中各个文本的情感分类结果,所述第二文本集合中各个文本获得情感分类结果的方式与所述第一文本集合中各个文本获得情感分类结果的方式不同;
第三获得单元,用于获得所述第一文本集合和所述第二文本集合中各个文本的特征数据;
训练单元,用于基于所述各个文本的特征数据和所述各个文本的情感分类结果,对预设模型进行训练,得到所述目标领域的第一情感分类模型。
优选的,所述第一文本集合中各个文本的情感分类结果通过人工标注方式获得;
所述训练模型,还用于基于所述第一文本集合中的各个文本的情感分类结果,对所述目标领域的第一语言模型进行训练,得到所述目标领域的第二情感分类模型,所述目标领域的第二情感分类模型用于获得所述第二文本集合中的各个文本的情感分类结果。
本发明还公开一种文本情感分类装置,利用上述情感分类模型训练装置所训练的第一情感分类模型对文本进行情感分类,所述文本情感分类装置包括:
获得单元,用于获得所述目标领域的待分类文本的特征数据;
分类单元,用于基于所述待分类文本的特征数据和所述目标领域的第一情感分类模型,获得所述待分类文本的情感分类结果。
本发明还公开一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述情感分类模型训练方法和/或执行上述文本情感分类方法。
本发明还公开一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述情感分类模型训练方法和/或上述文本情感分类方法。
借由上述技术方案,在获得目标领域的第一文本集合和目标领域的第二文本集合之后,获得第一文本集合和第二文本集合中各个文本的情感分类结果,并获得第一文本集合和第二文本集合中各个文本的特征数据,基于各个文本的特征数据和各个文本的情感分类结果,对预设模型进行训练,得到目标领域的第一情感分类模型,其中第二文本集合中各个文本获得情感分类结果的方式与第一文本集合中各个文本获得情感分类结果的方式不同,意味着第一文本集合和第二文本集合中至少一个文本集合中的文本的情感分类结果能够自动获得,通过自动获得方式弥补人工标注情感分类结果的缺陷,从而提高模型训练效率和F1取值。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本公开的示例性实施例提供的一种情感分类模型训练方法的流程图;
图2示出了本公开的示例性实施例提供的一种文本情感分类方法的流程图;
图3示出了本公开的示例性实施例提供的一种情感分类模型训练装置的结构示意图;
图4示出了本公开的示例性实施例提供的一种文本情感分类装置的结构示意图;
图5示出了本公开的示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图1,其示出了本公开的示例性实施例提供的一种情感分类模型训练方法的流程图,用于通过不同方式获得不同文本集合中各个文本的情感分类结果的方式提高模型训练效率和F1取值,可以包括以下步骤:
101:获得目标领域的第一文本集合,并获得第一文本集合中各个文本的情感分类结果。
其中目标领域用于指示第一文本集合中各个文本所属领域,当一个描述相近的文本属于不同领域时其情感分类结果会有所不同,意味着不同领域的情感分类模型对应的各个模型参数会相对应的发生变化,因此在训练得到情感分类模型时需要基于同一领域(即目标领域)的各个文本,如获得目标领域的第一文本集合,例如可以从语料库中获得目标领域的第一文本集合,该第一文本集合中的各个文本所属领域为目标领域,且第一文本集合包括大量的文本,如可以包括但不限于3万的文本。
在本实施例中,获得第一文本集合中各个文本的情感分类结果的一种方式是:获得由人工标注的第一文本集合中各个文本的情感分类结果。可以理解的是:情感分类结果包括简单情感和实体情感,通过人工标注方式可以标注出各个文本对应的是简单情感还是实体情感。
102:获得目标领域的第二文本集合,并获得第二文本集合中各个文本的情感分类结果。
其中目标领域的第二文本集合中至少部分文本与第一文本集合中的至少部分文本不同,以丰富第一文本集合和第二文本集合中的文本,对于第二文本集合中文本数量本实施例不进行限定,如第二文本集合包括但不限于20万的文本。
第二文本集合中各个文本获得情感分类结果的方式与第一文本集合中各个文本获得情感分类结果的方式不同。例如第一文本集合的情感分类结果由人工标注得到,第二文本集合的情感分类结果是通过一个情感分类模型预测出,其中情感分类模型预测出的情感分类结果包括简单情感和实体情感,如果情感分类模型中输入的是各个文本,则情感分类模型输出的情感分类结果为简单情感;如果情感分类模型中输入的是各个文本和各个文本中的属性词,则情感分类模型输出的情感分类结果为实体情感。
在本实施例中,用于获得第二文本集合中的各个文本的情感分类结果的情感分类模型为与第二文本集合所属目标领域的模型,记为目标领域的第二情感分类模型,获得第二情感分类模型的一种方式是:基于第一文本集合中的各个文本的情感分类结果,对目标领域的第一语言模型进行训练,得到目标领域的第二情感分类模型(也可以记为是情感分类模型-heavy),其中第一文本集合中各个文本的情感分类结果通过人工标注方式获得。
目标领域的第一语言模型是对目标领域的多个文本阐述的客观事实进行描述抽象建模得到的模型,例如目标领域的第一语言模型可以是通过BERT、ELMo、GPT等预训练得到的模型。假如现有的语言模型中不存在目标领域的第一语言模型,本实施例提供的情感分类模型训练方法还可以训练得到目标领域的第一语言模型,其训练得到目标领域的第一语言模型的过程可以包括:
获得目标领域的第三文本集合;基于目标领域的第三文本集合,对第二语言模型进行训练,得到目标领域的第一语言模型,目标领域的第一语言模型用于得到对第二文本集合中的各个文本进行情感预测的第二情感分类模型。其中第二语言模型是一个开源语言模型,即第二语言模型是一个没有指定领域的语言模型,通过任一领域的文本对该开源语言模型的再次训练,可以得到适用于该领域的语言模型,例如通过目标领域的第三文本集合中各个文本对第二语言模型进行再次训练,可以得到适用于目标领域的第一语言模型,具体过程本实施例不再阐述。
在获得目标领域的第一语言模型之后,本实施例通过第一文本集合中的各个文本的情感分类结果对目标领域的第一语言模型进行微调,得到目标领域的第二情感分类模型。其中微调过程可以是:将第一文本集合中的各个文本作为输入,将第一文本集合中各个文本的情感分类结果作为输出对语言模型进行再次训练直到第一语言模型收敛,则将收敛的第一语言模型作为第二情感分类模型,至于在第一语言模型满足何种条件时视为第一语言模型收敛,本实施例不进行限定。
在这里需要说明的一点是:如果第二情感分类模型输出的是实体情感,则第二情感分类模型的输入为各个文本和各个文本中的属性词;如果第二情感分类模型输出的是简单情感,则第二情感分类模型的输入为各个文本。例如对于“空姐服务很好,但是餐食很差”;对于实体情感,其输入为句子和属性词,如“空姐服务很好,但是餐食很差——服务”和“空姐服务很好,但是餐食很差——餐食”;对于简单情感,其输入为句子,如“空姐服务很好,但是餐食很差”,并且第一文本集合的情感分类结果和第二文本集合的情感分类结果需要为同一类型情感,以基于不同文本的相同类型情感的情感分类结果训练出目标领域的第一情感分类模型。
103:获得第一文本集合和第二文本集合中各个文本的特征数据,以将第一文本集合和第二文本集合中的各个文本作为情感分类模型的样本数据,且这两个文本集合获得情感分类结果的方式不同,使得这两个文本集合中至少一个文本集合的情感分类结果不是由人工标注获得,从而通过不同于人工标注方式的情感分类结果的获得方式弥补人工标注方式的缺陷,也就是说本实施例通过对情感分类模型的样本数据的获得方式的改进来提高模型训练效率和F1取值。
其中任一文本的特征数据至少用于体现该文本,例如体现该文本阐述的内容,进一步的任一文本的特征数据还用于体现该文本的属性词,具体需要视第二情感分类模型输出的情感分类结果的类型,如第二情感分类模型输出的情感分类结果为简单情感,则任一文本的特征数据用于体现该文本;如果第二情感分类模型输出的情感分类结果为实体情感,则任一文本的特征数据用于体现该文本和该文本中的属性词。
在本实施例中,第一文本集合和第二文本集合中各个文本的特征数据的一种获得方式如下:
1)对第一文本集合和第二文本集合中各个文本进行分词,得到各个文本的分词序列和各个文本的分词序列对应的词性序列。
可以理解的是:分词是指对文本的词语进行拆分,以将文本中的单个词语和符号作为分词序列中的一个元素,例如对“奔驰的发动机不错,但是内饰不好看”这一文本进行分词之后,得到的分词序列为['奔驰','的','发动机','不错',',','但是','内饰','不','好看'],可见文本中的单个词语和符号为分词序列中的一个元素。而分词序列对应的词性序列用于记录分词序列中每个词语的词性,如分词序列['奔驰','的','发动机','不错',',','但是','内饰','不','好看']的词性序列为['nz','u','n','a','wp','c','n','d','a'],词性序列中各个词性的解释可参照各个分词工具中给出的说明。例如文本是通过哈工大LTP进行分词,则词性解释可参照LTP的官方文档http://ltp.readthedocs.io/zh_CN/latest/appendix.html#id3。
在本实施例中,对文本的分词还可以采用开源分词工具,如jieba等,对此本实施例不对分词方式进行限定。
2)获得各个文本的分词序列中各个词的词向量,即对分词序列中的各个词进行向量化表示,得到各个词的词向量。例如基于wordvector的词汇表,得到各个词的词向量;如果分词序列中的一个词包含在wordvector的词汇表中,则从wordvector的词汇表中获得该词的词向量;如果分词序列中的一个词不包含在wordvector的词汇表中,则使用指定的UNK词向量表示该词的词向量,所谓使用指定的UNK词向量表示该词的词向量是指生成一个维度为d的随机数向量作为词向量,即该词向量的维度为d且该词向量中各个元素都是随机数,d的取值可以根据实际应用而定,例如d的取值与wordvector的词汇表中词向量的维度相同,以使得每个词的词向量的维度相同。
3)获得各个文本的分词对应的词性序列中各个词性的词性向量。在本实施例中词性向量也可以采用随机数向量来表示,对此本实施例不再阐述,其中词性向量的维度和词向量的维度可以相同也可以不同,对此本实施例不进行限定。
4)针对各个文本中的任一文本,基于该文本的分词序列中各个词的词向量和该文本的分词对应的词性序列中各个词性的词性向量,得到该文本的特征数据。
在本实施例中,得到文本的特征数据的一种方式是:对一个文本的分词序列中的各个词来说,获得该词的词向量以及该词的词性向量,将该词的词向量和词性向量拼接成该词的向量,然后由该词所在分词序列中所有词的向量组成一个矩阵,该矩阵则视为是该文本的特征数据。
例如将词向量拼接在词性向量之前,得到一个维度为120的向量,如果分词序列中包括200个元素,即分词序列对应的文本包括的词语和符号的数量为200个,则由分词序列中的各个词的向量组成一个维度为200*120的矩阵,将该矩阵作为文本的特征数据,或者在得到该矩阵之后,基于预设模型要求的特征数据的维度对该矩阵进行扩充,得到一个维度满足预设模型要求的矩阵,例如预设模型要求的矩阵维度为600*120,则可以通过补充预设值的方式得到与预设模型要求相匹配的矩阵,如通过补充0的方式得到与预设模型要求相匹配的矩阵。
在这里还需要说明的一点是:上述特征数据除可以词向量和词性向量方式之外,还可以由词向量拼接得到,或者可以基于一个文本的分词序列中各个词的词向量以及该分词序列对应的词性序列中各个词性的词性向量,得到该文本的语义数据,其中语义数据用于表示文本中词语之间的关系以及文本中对情感分类结果有影响的属性词,通过词语之间的关系以及对情感分类结果有影响的属性词能够确定出情感分类结果。
例如通过Transformer、LSTM、GRU、RNN和循环注意力网络等,从一个文本的分词序列中各个词的词向量以及该分词序列对应的词性序列中各个词性的词性向量中提取到语义数据。
104:基于各个文本的特征数据和各个文本的情感分类结果,对预设模型进行训练,得到目标领域的情感分类模型。
其中预设模型可以是现有机器学习模型,例如是基于tensorflow、mxnet和pytorch等深度学习框架训练得到的深度神经网络模型。通过将各个文本的特征数据作为预设模型的输入,将各个文本的情感分类结果作为预设模型的输出,对预设模型进行训练,得到目标领域的第一情感分类模型。
借由上述技术方案,在获得目标领域的第一文本集合和目标领域的第二文本集合之后,获得第一文本集合和第二文本集合中各个文本的情感分类结果,并获得第一文本集合和第二文本集合中各个文本的特征数据,基于各个文本的特征数据和各个文本的情感分类结果,对预设模型进行训练,得到目标领域的第一情感分类模型,其中第二文本集合中各个文本获得情感分类结果的方式与第一文本集合中各个文本获得情感分类结果的方式不同,意味着第一文本集合和第二文本集合中至少一个文本集合中的文本的情感分类结果能够自动获得,以改变第一文本集合和第二文本集合中至少一个文本集合的标注方式来弥补人工标注情感分类结果的缺陷,从而提高模型训练效率和F1取值。
在现有技术中可以将第二情感分类模型作为目标领域的待分类文本的情感分类结果的情感分类模型,因为第二情感分类模型是第一语言模型微调后的模型,这种第二情感分类模型相对于现有基于人工标注方式得到的情感分类模型来说模型训练效率和F1取值得到提升,但是通过对第一语言模型进行微调得到的第二情感分类模型的模型参数数量很大,需要在GPU环境下进行模型训练和模型使用(即需要在GPU环境下预测待分类文本的情感分类结果),因此基于第二情感分类模型对待分类文本的情感分类结果的预测会产生很大的资源消耗。
但是本实施例中的第一情感分类模型可以是基于人工标注的情感分类结果以及基于第二情感分类模型得到的情感分类结果,对深度神经网络模型训练得到,通过这种弱监督方式训练得到的第一情感分类模型不等同于第二情感分类模型,第一情感分类模型的模型参数数量相对于第二情感分类模型的模型参数数量减少,因此在基于本实施例中的第一情感分类模型进行预测时无需在GPU环境下,降低资源消耗,并且本实施例中的第一情感分类模型不单单基于人工标注的情感分类结果,使得本实施例的第一情感分类模型能够解决现有基于人工标注的情感分类结果得到的情感分类模型存在的问题,由此本实施例的第一情感分类模型既保证了低标注数量下高F1取值的效果、又保证了线上的高运行效率。
基于此,本实施例还公开一种文本情感分类方法,其对应的流程图如图2所示,可以包括以下步骤:
201:获得目标领域的待分类文本的特征数据。所谓待分类文本是没有获得情感分类结果的文本,待分类文本的特征数据的获得方式请参阅上一实施例中的说明,对此本实施例不再阐述。
202:基于待分类文本的特征数据和目标领域的第一情感分类模型,获得待分类文本的情感分类结果。具体的将待分类文本的特征数据作为目标领域的第一情感分类模型的输入,获得目标领域的第一情感分类模型输出的待分类文本的情感分类结果。
因为第一情感分类模型的模型参数数量相对于第二情感分类模型的模型参数数量减少,且第一情感分类模型不单单基于人工标注的情感分类结果得到,所以通过本实施例的第一情感分类模型能够对待分类文本进行情感分类时既能够保证提高分类准确度、又能够保证线上的高运行效率。
与上述方法实施例相对应,本发明实施例还公开一种情感分类模型训练装置,其结构如图3所示,可以包括:第一获得单元10、第二获得单元20、第三获得单元30和训练单元40。
第一获得单元10,用于获得目标领域的第一文本集合,并获得第一文本集合中各个文本的情感分类结果。在本实施例中,获得第一文本集合中各个文本的情感分类结果的一种方式是:获得由人工标注的第一文本集合中各个文本的情感分类结果。可以理解的是:情感分类结果包括简单情感和实体情感,通过人工标注方式可以标注出各个文本对应的是简单情感还是实体情感。
第二获得单元20,用于获得目标领域的第二文本集合,并获得第二文本集合中各个文本的情感分类结果,其中目标领域的第二文本集合中至少部分文本与第一文本集合中的至少部分文本不同,以丰富第一文本集合和第二文本集合中的文本,对于第二文本集合中文本数量本实施例不进行限定。
第二文本集合中各个文本获得情感分类结果的方式与第一文本集合中各个文本获得情感分类结果的方式不同。例如第一文本集合的情感分类结果由人工标注得到,第二文本集合的情感分类结果是通过一个情感分类模型预测出,其中情感分类模型预测出的情感分类结果包括简单情感和实体情感,如果情感分类模型中输入的是各个文本,则情感分类模型输出的情感分类结果为简单情感;如果情感分类模型中输入的是各个文本和各个文本中的属性词,则情感分类模型输出的情感分类结果为实体情感。
在本实施例中,用于获得第二文本集合中的各个文本的情感分类结果的情感分类模型为与第二文本集合所属目标领域的模型,记为目标领域的第二情感分类模型,获得第二情感分类模型的一种方式是:基于第一文本集合中的各个文本的情感分类结果,对目标领域的第一语言模型进行训练,得到目标领域的第二情感分类模型(也可以记为是情感分类模型-heavy),其中第一文本集合中各个文本的情感分类结果通过人工标注方式获得,具体可以由本实施例中的训练单元40训练出第二情感分类模型。
第三获得单元30,用于获得第一文本集合和第二文本集合中各个文本的特征数据,以将第一文本集合和第二文本集合中的各个文本作为情感分类模型的样本数据,且这两个文本集合获得情感分类结果的方式不同,使得这两个文本集合中至少一个文本集合的情感分类结果不是由人工标注获得,从而通过不同于人工标注方式的情感分类结果的获得方式弥补人工标注方式的缺陷,也就是说本实施例通过对情感分类模型的样本数据的获得方式的改进来提高模型训练效率和F1取值。
其中任一文本的特征数据至少用于体现该文本,具体获得特征数据的过程可以参阅上述方法实施例中的相关说明,对此本实施例不再阐述。
训练单元40,用于基于各个文本的特征数据和各个文本的情感分类结果,对预设模型进行训练,得到目标领域的第一情感分类模型。其中预设模型可以是现有机器学习模型,例如是基于tensorflow、mxnet和pytorch等深度学习框架训练得到的深度神经网络模型。通过将各个文本的特征数据作为预设模型的输入,将各个文本的情感分类结果作为预设模型的输出,对预设模型进行训练,得到目标领域的第一情感分类模型。
借由上述技术方案,在获得目标领域的第一文本集合和目标领域的第二文本集合之后,获得第一文本集合和第二文本集合中各个文本的情感分类结果,并获得第一文本集合和第二文本集合中各个文本的特征数据,基于各个文本的特征数据和各个文本的情感分类结果,对预设模型进行训练,得到目标领域的第一情感分类模型,其中第二文本集合中各个文本获得情感分类结果的方式与第一文本集合中各个文本获得情感分类结果的方式不同,意味着第一文本集合和第二文本集合中至少一个文本集合中的文本的情感分类结果能够自动获得,以改变第一文本集合和第二文本集合中至少一个文本集合的标注方式来弥补人工标注情感分类结果的缺陷,从而提高模型训练效率和F1取值。
请参阅图4,其示出了本公开的示例性实施例提供的一种文本情感分类装置,其利用上述情感分类模型训练装置所训练的第一情感分类模型对文本进行情感分类,图4所示文本情感分类装置可以包括:获得单元50和分类单元60。
获得单元50,用于获得目标领域的待分类文本的特征数据。所谓待分类文本是没有获得情感分类结果的文本,待分类文本的特征数据的获得方式请参阅上一实施例中的说明,对此本实施例不再阐述。
分类单元60,用于基于待分类文本的特征数据和目标领域的第一情感分类模型,获得待分类文本的情感分类结果。具体的将待分类文本的特征数据作为目标领域的第一情感分类模型的输入,获得目标领域的第一情感分类模型输出的待分类文本的情感分类结果。
因为第一情感分类模型的模型参数数量相对于第二情感分类模型的模型参数数量减少,且第一情感分类模型不单单基于人工标注的情感分类结果得到,所以通过本实施例的第一情感分类模型能够对待分类文本进行情感分类时既能够提高分类准确度、又能够保证线上的高运行效率。
所述情感分类模型训练装置包括处理器和存储器,上述第一获得单元10、第二获得单元20、第三获得单元30和训练单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高模型训练效率以及F1取值。
所述文本情感分类装置包括处理器和存储器,上述获得单元50和分类单元60等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高分类准确度且保证线上的高运行效率。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述情感分类模型训练方法和/或文本情感分类方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述情感分类模型训练方法和/或文本情感分类方法。
本发明实施例提供了一种电子设备,其结构如图5所示,电子设备包括至少一个处理器501、以及与处理器连接的至少一个存储器502、总线503;其中,处理器501、存储器502通过总线503完成相互间的通信;处理器501用于调用存储器中的程序指令,以执行上述的情感分类模型训练方法和/或文本情感分类方法。本文中的电子设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获得目标领域的第一文本集合,并获得所述第一文本集合中各个文本的情感分类结果;
获得所述目标领域的第二文本集合,并获得所述第二文本集合中各个文本的情感分类结果,所述第二文本集合中各个文本获得情感分类结果的方式与所述第一文本集合中各个文本获得情感分类结果的方式不同;
获得所述第一文本集合和所述第二文本集合中各个文本的特征数据;
基于所述各个文本的特征数据和所述各个文本的情感分类结果,对预设模型进行训练,得到所述目标领域的第一情感分类模型。
优选的,所述第一文本集合中各个文本的情感分类结果通过人工标注方式获得;
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:基于所述第一文本集合中的各个文本的情感分类结果,对所述目标领域的第一语言模型进行训练,得到所述目标领域的第二情感分类模型,所述目标领域的第二情感分类模型用于获得所述第二文本集合中的各个文本的情感分类结果。
优选的,所述获得所述第一文本集合和所述第二文本集合中各个文本的特征数据包括:
对所述第一文本集合和所述第二文本集合中各个文本进行分词,得到各个文本的分词序列和各个文本的分词序列对应的词性序列;
获得所述各个文本的分词序列中各个词的词向量;
获得所述各个文本的分词对应的词性序列中各个词性的词性向量;
针对所述各个文本中的任一文本,基于该文本的分词序列中各个词的词向量和该文本的分词对应的词性序列中各个词性的词性向量,得到该文本的特征数据。
优选的,当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:
获得所述目标领域的第三文本集合;
基于所述目标领域的第三文本集合,对第二语言模型进行训练,得到所述目标领域的第一语言模型,所述目标领域的第一语言模型用于得到对所述第二文本集合中的各个文本进行情感预测的第二情感分类模型。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获得所述目标领域的待分类文本的特征数据;
基于所述待分类文本的特征数据和所述目标领域的第一情感分类模型,获得所述待分类文本的情感分类结果,所述目标领域的第一情感分类模型利用上述情感分类模型训练方法训练得到。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种情感分类模型训练方法,其特征在于,所述方法包括:
获得目标领域的第一文本集合,并获得所述第一文本集合中各个文本的情感分类结果;
获得所述目标领域的第二文本集合,并获得所述第二文本集合中各个文本的情感分类结果,所述第二文本集合中各个文本获得情感分类结果的方式与所述第一文本集合中各个文本获得情感分类结果的方式不同;
获得所述第一文本集合和所述第二文本集合中各个文本的特征数据;
基于所述各个文本的特征数据和所述各个文本的情感分类结果,对预设模型进行训练,得到所述目标领域的第一情感分类模型。
2.根据权利要求1所述的方法,其特征在于,所述第一文本集合中各个文本的情感分类结果通过人工标注方式获得;
所述方法还包括:基于所述第一文本集合中的各个文本的情感分类结果,对所述目标领域的第一语言模型进行训练,得到所述目标领域的第二情感分类模型,所述目标领域的第二情感分类模型用于获得所述第二文本集合中的各个文本的情感分类结果。
3.根据权利要求1所述的方法,其特征在于,所述获得所述第一文本集合和所述第二文本集合中各个文本的特征数据包括:
对所述第一文本集合和所述第二文本集合中各个文本进行分词,得到各个文本的分词序列和各个文本的分词序列对应的词性序列;
获得所述各个文本的分词序列中各个词的词向量;
获得所述各个文本的分词对应的词性序列中各个词性的词性向量;
针对所述各个文本中的任一文本,基于该文本的分词序列中各个词的词向量和该文本的分词对应的词性序列中各个词性的词性向量,得到该文本的特征数据。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得所述目标领域的第三文本集合;
基于所述目标领域的第三文本集合,对第二语言模型进行训练,得到所述目标领域的第一语言模型,所述目标领域的第一语言模型用于得到对所述第二文本集合中的各个文本进行情感预测的第二情感分类模型。
5.一种文本情感分类方法,其特征在于,利用如权利要求1至4中任一项所述的情感分类模型训练方法所训练的第一情感分类模型对文本进行情感分类,所述文本情感分类方法包括:
获得所述目标领域的待分类文本的特征数据;
基于所述待分类文本的特征数据和所述目标领域的第一情感分类模型,获得所述待分类文本的情感分类结果。
6.一种情感分类模型训练装置,其特征在于,所述装置包括:
第一获得单元,用于获得目标领域的第一文本集合,并获得所述第一文本集合中各个文本的情感分类结果;
第二获得单元,用于获得所述目标领域的第二文本集合,并获得所述第二文本集合中各个文本的情感分类结果,所述第二文本集合中各个文本获得情感分类结果的方式与所述第一文本集合中各个文本获得情感分类结果的方式不同;
第三获得单元,用于获得所述第一文本集合和所述第二文本集合中各个文本的特征数据;
训练单元,用于基于所述各个文本的特征数据和所述各个文本的情感分类结果,对预设模型进行训练,得到所述目标领域的第一情感分类模型。
7.根据权利要求6所述的装置,其特征在于,所述第一文本集合中各个文本的情感分类结果通过人工标注方式获得;
所述训练模型,还用于基于所述第一文本集合中的各个文本的情感分类结果,对所述目标领域的第一语言模型进行训练,得到所述目标领域的第二情感分类模型,所述目标领域的第二情感分类模型用于获得所述第二文本集合中的各个文本的情感分类结果。
8.一种文本情感分类装置,其特征在于,利用如权利要求1至4中任一项所述的情感分类模型训练装置所训练的第一情感分类模型对文本进行情感分类,所述文本情感分类装置包括:
获得单元,用于获得所述目标领域的待分类文本的特征数据;
分类单元,用于基于所述待分类文本的特征数据和所述目标领域的第一情感分类模型,获得所述待分类文本的情感分类结果。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至4任意一项所述的情感分类模型训练方法和/或执行权利要求5所述的文本情感分类方法。
10.一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至4任意一项所述的情感分类模型训练方法和/或执行权利要求5所述的文本情感分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910942195.4A CN112579768A (zh) | 2019-09-30 | 2019-09-30 | 一种情感分类模型训练方法、文本情感分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910942195.4A CN112579768A (zh) | 2019-09-30 | 2019-09-30 | 一种情感分类模型训练方法、文本情感分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112579768A true CN112579768A (zh) | 2021-03-30 |
Family
ID=75116811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910942195.4A Pending CN112579768A (zh) | 2019-09-30 | 2019-09-30 | 一种情感分类模型训练方法、文本情感分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579768A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436649A (zh) * | 2021-06-25 | 2021-09-24 | 武汉大晟极科技有限公司 | 一种语音情感标定辅助方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN107844558A (zh) * | 2017-10-31 | 2018-03-27 | 金蝶软件(中国)有限公司 | 一种分类信息的确定方法以及相关装置 |
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109684478A (zh) * | 2018-12-18 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、分类方法及装置、设备和介质 |
CN109726288A (zh) * | 2018-12-28 | 2019-05-07 | 上海点融信息科技有限责任公司 | 基于人工智能处理的文本分类方法和装置 |
CN110287477A (zh) * | 2018-03-16 | 2019-09-27 | 北京国双科技有限公司 | 实体情感分析方法及相关装置 |
-
2019
- 2019-09-30 CN CN201910942195.4A patent/CN112579768A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN107844558A (zh) * | 2017-10-31 | 2018-03-27 | 金蝶软件(中国)有限公司 | 一种分类信息的确定方法以及相关装置 |
CN110287477A (zh) * | 2018-03-16 | 2019-09-27 | 北京国双科技有限公司 | 实体情感分析方法及相关装置 |
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109684478A (zh) * | 2018-12-18 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、分类方法及装置、设备和介质 |
CN109726288A (zh) * | 2018-12-28 | 2019-05-07 | 上海点融信息科技有限责任公司 | 基于人工智能处理的文本分类方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436649A (zh) * | 2021-06-25 | 2021-09-24 | 武汉大晟极科技有限公司 | 一种语音情感标定辅助方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442718B (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN108416032B (zh) | 一种文本分类方法、装置及存储介质 | |
CN109543190A (zh) | 一种意图识别方法、装置、设备及存储介质 | |
US11875125B2 (en) | System and method for designing artificial intelligence (AI) based hierarchical multi-conversation system | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN109326279A (zh) | 一种文本转语音的方法、装置、电子设备和存储介质 | |
CN103631874A (zh) | 社交平台的ugc标签类别确定方法和装置 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN115134660A (zh) | 视频剪辑方法、装置、计算机设备及存储介质 | |
CN111897955A (zh) | 基于编解码的评语生成方法、装置、设备和存储介质 | |
Bharathi et al. | Machine Learning Based Approach for Sentiment Analysis on Multilingual Code Mixing Text. | |
CN113887206A (zh) | 一种模型训练及关键词提取方法及装置 | |
CN113887235A (zh) | 一种信息推荐的方法及装置 | |
US20230351121A1 (en) | Method and system for generating conversation flows | |
CN112579768A (zh) | 一种情感分类模型训练方法、文本情感分类方法及装置 | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
WO2023108459A1 (en) | Training and using a deep learning model for transcript topic segmentation | |
CN112100364A (zh) | 文本语义理解方法和模型训练方法、装置、设备和介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN111126066A (zh) | 基于神经网络的中文修辞手法的确定方法和装置 | |
Chen et al. | Emotion recognition in videos via fusing multimodal features | |
CN111125353B (zh) | 用于获取中文文本要义的方法和装置 | |
Song et al. | A hybrid model for community-oriented lexical simplification | |
CN117952097A (zh) | 事件抽取方法、相关设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |