CN112949313A - 信息处理模型训练方法、装置、设备及存储介质 - Google Patents

信息处理模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112949313A
CN112949313A CN201911267980.0A CN201911267980A CN112949313A CN 112949313 A CN112949313 A CN 112949313A CN 201911267980 A CN201911267980 A CN 201911267980A CN 112949313 A CN112949313 A CN 112949313A
Authority
CN
China
Prior art keywords
sample
training
information processing
processing model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911267980.0A
Other languages
English (en)
Inventor
杨希
胡小克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911267980.0A priority Critical patent/CN112949313A/zh
Publication of CN112949313A publication Critical patent/CN112949313A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种信息处理模型训练方法、装置、设备及计算机存储介质,所述方法包括:获取训练样本;确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征;基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。如此,通过使用文本的字特征和词组特征,准确判别出文本的情感属性。

Description

信息处理模型训练方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息处理模型训练方法、装置、设备及计算机存储介质。
背景技术
目前,文本中存在一词多义的现象,即同一个词用在不同的语义环境下可能会产生相反的情感属性,甚至于同样的一句话,可能语气不同都会产生相反的情感属性。因此,在文本具有词汇用法繁多,语境复杂,上下文关联极强等特点的情况下,如何准确判别出文本情感属性,已成为需要解决的问题。
发明内容
本申请实施例提供一种信息处理模型训练方法、装置、设备及计算机存储介质,能够准确判别出文本情感属性。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种信息处理模型训练方法,所述方法包括:
获取训练样本;
确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征;
对所述第一样本特征和所述第二样本特征进行处理,得到第三样本特征;
基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。
在一些实施例中,所述确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征,包括:
基于所述训练样本,分别获取由单个字组成的字样本序列和由词组组成的词组样本序列;
基于所述字样本序列,获取以字向量为维度的第一样本特征,以及基于所述词组样本序列,获取以词向量为维度的第二样本特征。
在一些实施例中,所述目标信息处理模型包括双线性卷积神经网络模型,所述基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型,包括:
利用所述目标信息处理模型中第一卷积神经网络的卷积层,基于所述第一样本特征,获取各个卷积核对应的第一局部特征;
利用所述第一卷积神经网络的全连接层,将所述第一局部特征进行拼接,获取第一特征;
利用所述目标信息处理模型中第二卷积神经网络的卷积层,基于所述第二样本特征,获取各个卷积核对应的第二局部特征;
利用所述第二卷积神经网络的全连接层,将所述第二局部特征进行拼接,获取第二特征;
利用所述目标信息处理模型中线性混合层,基于所述第一特征和所述第二特征获取混合特征;
将所述混合特征输入到所述目标信息处理模型中输出层,获取所述训练样本的预测情感属性;
基于所述预测情感属性和所述训练样本的情感属性,训练所述目标信息处理模型。
在一些实施例中,在所述训练目标信息处理模型之后,所述方法还包括:
在所述训练样本中选择至少两个第一训练样本;
基于所述至少两个第一训练样本,训练至少两个候选信息处理模型;
利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性。
在一些实施例中,在所述利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性后,所述方法还包括:
在所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量大于第一阈值时,将所述新的样本中的第一样本作为所述目标信息处理模型的训练样本;所述第一样本为所述新的样本中的部分或全部样本;
所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量小于或等于第一阈值时,对所述新的样本的情感属性进行标注,并将所述新的样本作为所述目标信息处理模型的训练样本。
在一些实施例中,所述方法还包括:
获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征;
将所述第三样本特征和所述第四样本特征输入所述目标信息处理模型,获得预测样本对应的预测情感属性。
第二方面,本申请实施例提供一种信息处理模型训练装置,所述装置包括获取模块、确定模块和训练模块,其中,
所述获取模块,用于获取训练样本;
所述确定模块,用于确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征;
所述训练模块,用于基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。
在一些实施例中,所述装置还包括预测模块,其中,
所述确定模块,还用于获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征;
所述预测模块,用于将所述第三样本特征和所述第四样本特征输入所述目标信息处理模型,获得预测样本对应的预测情感属性。
第三方面,本申请实施例提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器用于运行所述计算机程序时,执行本申请任一实施例所提供的信息处理模型训练方法的步骤。
第四方面,本申请实施例提供一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任一实施例所提供的信息处理模型训练方法的步骤。
上述实施例所提供的信息处理模型训练方法,所述方法包括:获取训练样本;确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征;基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。如此,所述信息处理模型不仅智能化程度高,不需要人工输入特征,还使用训练样本的字特征和词组特征作为信息处理模型的输入,从而提高了预测样本情感属性的准确性。同时通过带标签的训练样本训练所述信息处理模型,实现有监督学习,提高所述信息处理模型的准确性,以及无需人工干预和人工编码,自动化训练所述信息处理模型,大大提升了训练效率。
附图说明
图1为本申请一实施例中信息处理模型训练方法的处理流程示意图;
图2为本申请一实施例中信息处理模型训练装置的结构示意图;
图3为本申请另一实施例中信息处理模型训练装置的结构示意图;
图4为本申请另一实施例中离线训练方法的处理流程示意图;
图5为本申请一实施例中信息处理模型的结构示意图;
图6为本申请一实施例中训练多模型方法的处理流程示意图;
图7为本申请一实施例中新增训练样本方法的处理流程示意图;
图8为本申请一实施例中增量学习方法示意图;
图9为本申请一实施例中信息处理模型训练设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
在对本申请实施例提供一种信息处理模型训练方法进行详细描述之前,首先对本申请涉及的技术进行简要介绍。
CNN(Convolutional Neural Network,卷积神经网络)属于人工神经网络的一种,利用卷积核进行逐层特征提取。CNN与全连接网络相比,它的权重共享的网络结构显著降低了模型的复杂度,减少权值数量,精简了网络参数规模,使其更适合大规模并行数据处理任务。此外,CNN与传统特征提取算法相比,经过多层卷积层设计的CNN网络具有更强大的特征表达和抽取能力。
NLP(Natural Language Processing,自然语言处理)任务中通常采用词特征作为文本的初级特征表达,有的也采用字特征。但对于特定的中文NLP任务,字特征不能很好地表达中文汉字的意义,例如对不同长度的地名,使用字特征无法进行联系扩展并将其正确识别。当采用词特征时,任务的结果强依赖于分词结果的质量和词典的完备程度,分词的错误会直接影响最终的结果,同时不存在于词典中的词语也会被映射为一个特殊的向量,不能提供任何信息。
文本情感倾向性分析,是指对文本的态度(或称观点、情感)进行分析、处理、归纳和推理的过程,是文本分类中的一个重要分支。所述文本情感倾向性分析的分类对象是一些主观因素,从而得到一个文本是否支持某种观点的信息。
文本情感倾向性分析方法主要有两大类:基于词典的情感分析方法和基于机器学习方法的情感分析方法。基于词典的情感分析方法通常采用建立情感词典和规则的方法对文本进行段落拆解、句法分析等,计算文本对应情感值,然后通过情感值作为最终依据,确定文本情感属性;基于机器学习方法的情感分类方法将情感倾向分析问题转化为一个分类问题看待,其通常将目标文本情感分为三类,即:正性,中性和负性,利用机器学习算法,通过人工标注的训练文本来训练文本情感分类模型以实现文本情感倾向分析。具体来说:
基于词典的情感倾向分析方法首先需要构建情感分析的词典:正向词典和负向词典,即将某语言中用于表达情感的词汇分为两个类别,然后比对文本中正负情感词的个数,并对不同的情感词赋予不同的权值,从而评估文本中的情感属性。但是,随着新媒体的兴起,新兴的词汇每天都在产生,导致更多的极性词汇需要加入到情感字典中,现有情感词典方法往往不能适应现代词汇意思、词性变化的过程,这为情感字典的更新、查询和存储带来了很多问题,从而影响到文本情感分析的准确性。
基于机器学习的情感倾向分析方法是通过对文本进行特征学习,从而对文本情感属性进行分类。其中,文本特征包括概率统计特征、信息熵、主成分分析等。分类方法主要有支持向量机(Support Vector Machine,SVM)、贝叶斯分类器、决策树等。但是,基于机器学习的情感分析方法不太关注语料中是否含有一些情感词,它更加依赖于训练集中标注的类别信息以及语料库的规模和标注准确率。但是,由于文本具有词汇用法繁多、语境复杂,上下文关联极强等特点,机器学习方法由于其学习/表达能力限制往往不能很好的挖掘文本中的深度语义特征,从而影响到对文本情感属性进行有效的分类。例如:在不同语境下,分析多义情感词汇的情感属性困难,词汇信息的统计仅仅局限于底层的语义特征,如:词性、词频等,但是当需要根据上下文分析词汇的情感属性,来解决一词多义的问题时,简单的统计信息是不够的,需要更高层的语义特征信息。
基于深度学习的情感分析方法通过自学习相关文字特征,从而对文本情感属性进行分类。但是基于深度学习的情感分析算法更加依赖于语料的规模,当数据语料规模越大的时候,深度学习算法效果相对来说越好。
本发明实施例一方面,提供一种信息处理模型训练方法。图1为本申请一实施例中信息处理模型训练方法的处理流程示意图,请参见图1,所述方法包括:
步骤101,获取训练样本。
这里,所述信息处理模型训练装置获取训练样本,所述训练样本是带有情感属性标签的样本。其中,所述样本可以包括各种语言的文本,例如中文文本,在本申请实施例中不做限制。所述情感属性表征情感倾向性,可以包括喜欢、厌恶、赞成、反对、正极性、负极性、中性等类别。例如所述训练样本包括带有喜欢标签的中文新闻样本。
此外,所述信息处理模型训练装置获取训练样本后,还可以对所述训练样本进行预处理,使得训练样本规范化。例如,所述预处理包括去除训练样本中的常用停用词,非法字符,非法字符串,乱码等烦扰文本语义理解的干扰。若所述样本为中文样本,所述预处理还包括针对样本中常见变异等情况,将繁体中文转换成简体中文。如此,避免在训练时引入干扰,使样本清晰和规范化。
步骤102,确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征。
这里,所述信息处理模型训练装置对所述训练样本进行向量化处理,确定出所述训练样本对应的以字向量为维度的第一样本特征,和所述训练样本对应的以词向量为维度的第二样本特征。也就是,所述训练样本输入到所述信息处理模型训练装置,获取到包含字向量的第一样本特征和包含词向量的第二样本特征,从而将所述训练样本转换成采用字向量表达的第一样本特征和词向量表达的第二样本特征。
步骤103,基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。
这里,所述信息处理模型训练装置将所述第一样本特征和所述第二样本特征输入到目标信息处理模型,获取经过目标信息处理模型处理后的信息。根据所述处理后的信息结合所述训练样本的情感属性,调节所述目标信息处理模型的模型参数。
在上述实施例中,所述信息处理模型不仅智能化程度高,不需要人工输入特征,还使用训练样本的字特征和词组特征作为信息处理模型的输入,从而提高了预测样本情感属性的准确性。同时通过带标签的训练样本训练所述信息处理模型,实现有监督学习,提高所述信息处理模型的准确性,以及无需人工干预和人工编码,自动化训练所述信息处理模型,大大提升了训练效率。
在一些实施例中,所述步骤102,确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征,包括:
基于所述训练样本,分别获取由单个字组成的字样本序列和由词组组成的词组样本序列。
这里,所述信息处理模型训练装置将所述训练样本划分为由单个字组成的字样本序列,以及根据词性语义对训练样本进行分词,将所述训练样本划分为由词组组成的词组样本序列。其中,所述分词方法可以采用自然语言中常用的分词方法,如结巴分词等。
例如,训练样本为“我们希望根据一个人的年龄、性别、年收入等相互独立的特征,来预测一个人的政治倾向”,将所述训练样本划分为由单个字组成的字样本序列为“我,们,希,望,根,据,一,个,人,的,年,龄,性,别,年,收,入,等,相,互,独,立,的,特,征,来,预,测,一,个,人,的,政,治,倾,向”,将所述训练样本划分为由词组组成的词组样本序列为“我们,希望,根据,一个人,的,年龄,性别,年收入,等,相互,独立,的,特征,来,预测,一个人,的,政治,倾向”。
基于所述字样本序列,获取以字向量为维度的第一样本特征,以及基于所述词组样本序列,获取以词向量为维度的第二样本特征。
这里,所述信息处理模型训练装置对所述字样本序列进行向量化处理,获取到以字向量为维度的第一样本特征,以及对所述词组样本序列进行向量化处理,获取以词向量为维度的第二样本特征。
例如,所述信息处理模型训练装置统计搜集到的文本语料中词频,词的共性,词的搭配等信息,其中,所述词的共性是指当两个词在文本中距离小于某个阈值时,确认两个词是有共性的。所述词的搭配是指单词前后同时出现,如:“监督”与“学习”。采用随机初始化字向量,通过word2vec(word to vector,词向量)实现语料库中字、词分布式表达和编码。例如,单个字“我”的特征向量表示为“10111”,单个词“我们”的特征向量表示为“101110001”等等。
其中,所述信息处理模型训练装置根据所述字样本序列中字序列,查找对应的字的特征向量,从而将所述字样本序列编码成以字向量为维度的第一样本特征。
其中,所述信息处理模型训练装置根据所述词组样本序列中词组序列,查找对应的词的特征向量,从而将所述词组样本序列编码成以词向量为维度的第二样本特征。
在上述实施例中,基于所述训练样本,分别获取字样本序列和词组样本序列,并且将所述字样本序列转换成以字向量为维度的第一样本特征,以及将所述词组序列转换成以词向量为维度的第二样本特征,从而将所述训练样本处理成可以输入到所述目标信息处理模型的样本数据。
在一些实施例中,所述步骤102,目标信息处理模型包括双线性卷积神经网络模型,所述基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型,包括:
利用所述目标信息处理模型中第一卷积神经网络的卷积层,基于所述第一样本特征,获取各个卷积核对应的第一局部特征。
这里,所述信息处理模型训练装置将所述第一样本特征的字向量输入到第一卷积神经网络。所述第一卷积神经网络的卷积层,通过使用多个不同大小的卷积核对第一样本特征进行局部高层特征提取,获取到各个卷积核对应的第一局部特征,例如字向量维度为100,那么卷积核的大小为Nx100,其中N可以为任意正整数,如,N取2、3、4、5等,对应获取到N个第一局部特征。
利用所述第一卷积神经网络的全连接层,将所述第一局部特征进行拼接,获取第一特征。
这里,所述信息处理模型训练装置将多个第一局部特征输入到所述第一卷积神经网络的全连接层。在所述第一卷积神经网络的全连接层,将所述第一局部特征进行横向拼接,获取到第一特征,所述第一特征表征所述训练样本在字层面的特征向量。
利用所述目标信息处理模型中第二卷积神经网络的卷积层,基于所述第二样本特征,获取各个卷积核对应的第二局部特征。
这里,所述信息处理模型训练装置将所述第二样本特征的词向量输入到第二卷积神经网络。所述第二卷积神经网络的卷积层,通过使用多个不同大小的卷积核对第二样本特征进行局部高层特征提取,获取到各个卷积核对应的第二局部特征。
利用所述第二卷积神经网络的全连接层,将所述第二局部特征进行拼接,获取第二特征。
这里,所述信息处理模型训练装置将多个第二局部特征输入到所述第二卷积神经网络的全连接层。在所述第二卷积神经网络的全连接层,将所述第二局部特征进行横向拼接,获取到第二特征,所述第二特征表征所述训练样本在字层面的特征向量。
利用所述目标信息处理模型中线性混合层,基于所述第一特征和所述第二特征获取混合特征。
这里,在所述目标信息处理模型中线性混合层,所述信息处理模型训练装置将所述第一特征和所述第二特征进行线性混合,获取到所述训练样本的混合特征,所述混合特征表征所述训练样本在字和词层面上的混合特征向量,所述混合特征为所述训练样本的最终的特征表达。
例如:假设W代表通过第一卷积神经网络获取的第一特征,P代表通过第二卷积神经网络获取的第二特征,H代表混合特征,Hi、Wi、Pi分别为H、W、P中的分量,则Hi=Wi*Pi。
将所述混合特征输入到所述目标信息处理模型中输出层,获取所述训练样本的预测情感属性。
这里,所述信息处理模型训练装置将所述混合特征输入到所述目标信息处理模型中输出层,确定出所述训练样本属于各种情感属性的概率值。例如所述输出层的函数为归一化函数,从而所述目标信息处理模型中输出层,输出所述训练样本属于各种情感属性的概率值。然后比较各个所述概率值,将最大概率值对应的情感属性作为所述训练样本的预测情感属性。
基于所述预测情感属性和所述训练样本的情感属性,训练所述目标信息处理模型。
这里,所述信息处理模型训练装置将所述第一样本特征和所述第二样本特征输入到目标信息处理模型,获取到所述训练样本对应的预测情感属性,根据所述训练样本的所述预测情感属性和情感属性,构建损失函数,例如所述损失函数为所述训练样本的预测情感属性与真实情感属性的均方差,通过损失函数调节目标信息处理模型的权重参数,实现目标信息处理模型的训练。其中,所述损失函数是用来评估目标信息处理模型的预测情感属性与真实情感属性的不一致程度,也是目标信息处理模型优化的目标函数,当损失函数越小,说明模型的预测情感属性就越接近真实情感属性。
此外,还可以构建其它的目标函数例如能量函数,通过反向传播算法训练所述目标信息处理模型。
在上述实施例中,所述目标信息处理模型包括双线性卷积神经网络模型,将所述训练样本的第一样本特征和第二样本特征,作为所述目标信息处理模型的输入,分别经过对应的卷积神经网络进行局部高层特征提取,在全连接层分别输出第一特征和第二特征,最后将第一特征和第二特征进行线性混合,得到最终的第三特征,进行情感倾向性分析。如此,在所述目标信息处理模型结合所述训练样本在字层面上的第一特征和在词层面上的第二特征,相比简单的将字和词特征组合而言,使得最终获取的第三特征更加有效和健壮,并利用卷积神经网络强大的特征学习能力,能够更加准确的处理文本情感分析任务。此外,包含双线性卷积神经网络的信息处理模型具有自我学习的能力,通过自主学习训练样本中的语义表达特征,使得情感分析及分类能力更强,提高了预测文本情感属性的准确性。同时,通过带标签的训练样本训练所述信息处理模型,实现有监督学习,提高所述信息处理模型的准确性。
在一些实施例中,在所述步骤103,训练目标信息处理模型之后,所述方法还包括:
步骤104,在所述训练样本中选择至少两个第一训练样本。
这里,所述信息处理模型训练装置在用于训练目标信息处理模型的训练样本中,至少两次随机选取第一训练样本,所述第一训练样本为部分训练样本,例如所述第一训练样本为80%的训练样本。
步骤105,基于所述至少两个第一训练样本,训练至少两个候选信息处理模型。
这里,所述信息处理模型训练装置将步骤104选取的一个第一训练样本用于训练信息处理模型,获取到一个候选信息处理模型。因此,利用在步骤601中获取到的多个第一训练样本,进行目标信息处理模型训练,获取到多个候选信息处理模型,其中第一样本的个数与候选信息处理模型的个数相同。
步骤106,利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性。
这里,所述信息处理模型训练装置获取到新的样本,所述新的样本为无标签样本。所述信息处理模型训练装置利用所述至少两个候选信息处理模型,分别预测新的样本的预测情感属性。
例如,获取到新的样本Z,将所述Z输入到候选信息处理模型1,预测所述Z的预测情感属性为A;将所述Z输入到候选信息处理模型1,预测所述Z的预测情感属性为B。
在一些实施例中,在步骤106,所述利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性后,所述方法还包括:
步骤107a,在所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量大于第一阈值时,将所述新的样本中的第一样本作为所述目标信息处理模型的训练样本;所述第一样本为所述新的样本中的部分或全部样本。
这里,所述信息处理模型训练装置采用多个候选信息处理模型,针对所述新的样本进行预测,确定新的样本的预测情感属性。其中,若一个样本的多个候选信息处理模型的预测结果都相同,则认为该样本的预测情感属性相等。汇总新的样本中所述预测情感属性相等的样本的数量,若所述新的样本的预测情感属性相等的数量大于第一阈值,则所述新的样本为无歧义样本,其中,第一阈值包括按照比例设置的参数,例如第一阈值为新的样本数量的80%的个数,或者包括固定参数等。选取所述新的样本中的第一样本作为所述目标信息处理模型的训练样本,同时将所述候选信息处理模型预测的预测情感属性为所述第一样本的情感属性标签,其中,所述第一样本为所述新的样本中的部分或全部样本,所述第一样本的样本个数可按照预设的比例选取。
例如,新的样本包括A、B、C、D,E等5个样本,所述候选信息处理模型为模型1、模型2、模型3,模型4、模型5、其中,新的样本A利用模型1-5分别预测出预测情感属性是正极性、正极性、正极性、正极性、正极性,确定所述样本A的预测情感属性相同。新的样本B利用模型1-5分别预测出预测情感属性是中性、中性、中性、中性、中性,确定所述样本B的预测情感属性相同.新的样本C利用模型1-5分别预测出预测情感属性是正极性、负极性、正极性、正极性、正极性,确定所述样本C的预测情感属性不相同。新的样本D利用模型1-5分别预测出的预测情感属性是负极性、负极性、负极性、负极性、负极性,确定所述样本D的预测情感属性相同。新的样本E利用模型1-5分别预测出的预测情感属性是正极性、正极性、正极性、正极性、正极性,确定所述样本E的预测情感属性相同。所述新的样本中预测的情感属性相同的个数为4个,大于第一阈值,其中,所述第一阈值为新的样本的70%,即2.8个,确定所述新的样本为无歧义样本,随机选取50%的所述新的样本作为第一样本,所述目标信息处理模型的训练样本,同时将预测情感属性作为第一样本的情感属性标签。
步骤107b,所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量小于或等于第一阈值时,对所述新的样本的情感属性进行标注,并将所述新的样本作为所述目标信息处理模型的训练样本。
这里,所述信息处理模型训练装置采用多个候选信息处理模型针对所述新的样本进行预测,确定多个候选信息处理模型预测的结果。其中,若一个样本的多个候选信息处理模型的预测结果都相同,则认为该样本的预测情感属性相等。汇总新的样本中所述预测情感属性相等的样本的数量,若所述新的样本的预测情感属性相等的数量小于或等于第一阈值,则所述新的样本为歧义样本,其中,第一阈值包括按照比例设置的参数,例如第一阈值为新的样本数量的80%的个数,或者包括固定参数等。对所述新的样本的情感属性进行标注,并将标注后的新的样本作为所述目标处理模型的训练样本。其中,对所述新的样本的情感属性进行标注可以包括接收人工标注的情感属性,将所述人工标注的情感属性标注为所述新的样本的情感属性。
例如,新的样本包括A、B、C、D,E等5个样本,所述候选信息处理模型为模型1、模型2、模型3,模型4、模型5、其中,新的样本A利用模型1-5分别预测出预测情感属性是正极性、负极性、正极性、正极性、正极性,确定所述样本A的预测情感属性不相同。新的样本B利用模型1-5分别预测出预测情感属性是中性、中性、中性、中性、中性,确定所述样本B的预测情感属性相同。新的样本C利用模型1-5分别预测出预测情感属性是正极性、负极性、正极性、正极性、正极性,确定所述样本C的预测情感属性不相同。新的样本D利用模型1-5分别预测出的预测情感属性是负极性、中性、负极性、负极性、负极性,确定所述样本D的预测情感属性不相同。新的样本E利用模型1-5分别预测出的预测情感属性是正极性、正极性、负极性、正极性、正极性,确定所述样本E的预测情感属性不相同。所述新的样本中预测的情感属性相同的个数为1个,小于第一阈值,其中,所述第一阈值为新的样本的70%,即2.8个,确定所述新的样本为歧义样本,对所述新的样本进行标注,样本A标注为正极性、样本B标注为中性、样本C标注为正极性、样本D标注为负极性、样本E标注为正极性,将标注后的新的样本作为所述目标信息处理模型的训练样本。
在上述实施例中,采用已有数据进行多模型训练,基于投票思想,实现半监督的语料扩充,符合当下深度学习模型对于语料规模的需求。同时,所述信息处理模型具有自我更新的功能,在不断更新数据时,能智能地学习更新的语义特征,从而半监督的增量学习能使所述信息处理模型不断地基于少量标注数据,实现模型的迭代更新,以适应大数据环境中的不断变化,因此,即使是具有新型网络词汇的样本,所述信息处理模型也能够进行准确的预测。
在一些实施例中,在步骤106,所述利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性后,所述方法还包括:步骤108a,在所述至少两个候选信息处理模型针对所述新的样本,汇总预测的预测情感属性歧义较小的样本,将所述汇总样本中的第一样本作为所述目标信息处理模型的训练样本;所述第一样本为所述新的样本中的部分或全部样本。
这里,所述信息处理模型训练装置分别采用所述至少两个候选信息处理模型针对所述新的样本进行预测,确定各个候选信息处理模型预测新的样本的预测情感属性,其中,若一个样本的多个候选信息处理模型的预测结果都相同或者相同个数大于预设个数,则认为该样本的预测情感属性歧义较小。例如,同一个样本的5个候选信息处理模型预测的结果相同,或者5个预测结果中1个不相同,则认为该样本的预测情感属性歧义较小。汇总新的样本中所述预测情感属性歧义较小的样本,在所述汇总样本中选取第一样本作为所述目标信息处理模型的训练样本,同时将所述候选信息处理模型预测的预测情感属性为所述第一样本的情感属性标签。
例如,新的样本包括A、B、C、D,E等5个样本,所述候选信息处理模型为模型1、模型2、模型3,模型4、模型5、其中,新的样本A利用模型1-5分别预测出预测情感属性是正极性、正极性、正极性、正极性、正极性,确定所述样本A的预测情感属性相同。新的样本B利用模型1-5分别预测出预测情感属性是中性、中性、中性、中性、中性,确定所述样本B的预测情感属性相同.新的样本C利用模型1-5分别预测出预测情感属性是正极性、负极性、正极性、正极性、正极性,确定所述样本C的预测情感属性不相同。新的样本D利用模型1-5分别预测出的预测情感属性是负极性、负极性、负极性、负极性、负极性,确定所述样本D的预测情感属性相同。新的样本E利用模型1-5分别预测出的预测情感属性是正极性、正极性、正极性、正极性、正极性,确定所述样本E的预测情感属性相同。将所述样本A、B、D,E进行汇总,随机选取50%的所述汇总样本作为第一样本,所述目标信息处理模型的训练样本,同时将预测情感属性作为第一样本的情感属性标签。
步骤108b,在所述至少两个候选信息处理模型针对所述新的样本,汇总预测的预测情感属性不相等的样本,对所述汇总样本的情感属性进行标注,并将所述汇总样本作为所述目标信息处理模型的训练样本。
这里,所述信息处理模型训练装置分别采用所述至少两个候选信息处理模型针对所述新的样本进行预测,确定各个候选信息处理模型预测新的样本的预测情感属性,其中,若一个样本的多个候选信息处理模型的预测结果相同的个数小于预设个数,则认为该样本的预测情感属性不相等。汇总新的样本中所述预测情感属性不相等的样本,对所述汇总样本的情感属性进行标注,其中,对所述汇总样本的情感属性进行标注可以包括接收人工标注的情感属性,将所述人工标注的情感属性标注为所述汇总样本的情感属性。
例如,新的样本包括A、B、C、D,E等5个样本,所述候选信息处理模型为模型1、模型2、模型3,模型4、模型5、其中,新的样本A利用模型1-5分别预测出预测情感属性是正极性、负极性、正极性、正极性、正极性,确定所述样本A的预测情感属性不相同。新的样本B利用模型1-5分别预测出预测情感属性是中性、中性、中性、中性、中性,确定所述样本B的预测情感属性相同。新的样本C利用模型1-5分别预测出预测情感属性是正极性、负极性、正极性、正极性、正极性,确定所述样本C的预测情感属性不相同。新的样本D利用模型1-5分别预测出的预测情感属性是负极性、中性、负极性、负极性、负极性,确定所述样本D的预测情感属性不相同。新的样本E利用模型1-5分别预测出的预测情感属性是正极性、正极性、负极性、正极性、正极性,确定所述样本E的预测情感属性不相同。将预测情感属性不相同的样本A、C、D、E进行汇总,对所述汇总样本进行标注,即将样本A标注为正极性、样本C标注为正极性、样本D标注为负极性、样本E标注为正极性,将标注后的样本A、C、D、E作为所述目标信息处理模型的训练样本。
在一些实施例中,所述方法还包括:
步骤109,获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征。
这里,所述信息处理模型训练装置获取到预测样本后,对所述训练样本进行向量化处理,获取所述预测样本对应的以字向量为维度的第三样本特征,和所述预测样本对应的以词向量为维度的第四样本特征。
步骤110,将所述第三样本特征和所述第四样本特征输入所述目标信息处理模型,获得预测样本对应的预测情感属性。
这里,所述信息处理模型训练装置将所述第三样本特征和所述第四样本特征输入到目标信息处理模型,获取预测样本对应的预测情感属性。
在上述实施例中,所述预测样本的情感属性过程是自动化的,无需人工干预和人工编码,提升了文本情感分析的自动化程度。并且采用使用文本的字特征和词组特征,可以准确判别出文本情感属性。
在一些实施例中,在步骤109,获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征之前,所述方法还包括:
所述信息处理模型训练装置对所述预测样本进行预处理。
这里,所述信息处理模型训练装置对所述预测样本进行预处理,使得预测样本规范化。例如,所述预处理包括去除预测样本中的常用停用词,非法字符,非法字符串,乱码等烦扰文本语义理解的干扰。若所述样本为中文样本,所述预处理还包括针对样本中常见变异等情况,将繁体中文转换成简体中文。如此,避免在训练时引入干扰,使样本清晰和规范化。
在一些实施例中,所述步骤109,获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征,包括:
基于所述预测样本,分别获取由单个字组成的字序列预测样本和由词组组成的词组序列预测样本。
这里,所述信息处理模型训练装置将所述预测样本划分为由单个字组成的字序列预测样本,以及根据词性语义对预测样本进行分词,将所述预测样本划分为由词组组成的词组序列预测样本。其中,所述分词方法可以采用自然语言中常用的分词方法,如结巴分词等。
基于所述字序列预测样本,获取以字向量为维度的第三样本特征,以及基于所述词组序列预测样本,获取以词向量为维度的第四样本特征。
这里,所述信息处理模型训练装置对所述字序列预测样本进行向量化处理,获取到以字向量为维度的第三样本特征,以及对所述词组序列预测样本进行向量化处理,获取以词向量为维度的第四样本特征。
本发明实施例另一方面,还提供一种信息处理模型训练装置。图2为本申请一实施例中信息处理模型训练装置的结构示意图,请参阅图2,所述装置包括获取模块201、确定模块202和训练模块203,其中,
所述获取模块201,用于获取训练样本;
所述确定模块202,用于确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征;
所述训练模块203,用于基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。
在一些实施例中,所述确定模块202具体用于基于所述训练样本,分别获取由单个字组成的字样本序列和由词组组成的词组样本序列;
还用于基于所述字样本序列,获取以字向量为维度的第一样本特征,以及基于所述词组样本序列,获取以词向量为维度的第二样本特征。
在一些实施例中,所述目标信息处理模型包括双线性卷积神经网络模型,所述训练模块203具体用于利用所述目标信息处理模型中第一卷积神经网络的卷积层,基于所述第一样本特征,获取各个卷积核对应的第一局部特征;
还用于利用所述第一卷积神经网络的全连接层,将所述第一局部特征进行拼接,获取第一特征;
还用于利用所述目标信息处理模型中第二卷积神经网络的卷积层,基于所述第二样本特征,获取各个卷积核对应的第二局部特征;
还用于利用所述第二卷积神经网络的全连接层,将所述第二局部特征进行拼接,获取第二特征;
还用于利用所述目标信息处理模型中线性混合层,基于所述第一特征和所述第二特征获取混合特征;
还用于将所述混合特征输入到所述目标信息处理模型中输出层,获取所述训练样本的预测情感属性;
还用于基于所述预测情感属性和所述训练样本的情感属性,训练所述目标信息处理模型。
在一些实施例中,所述装置还包括选择模块,其中,
所述选择模块,用于在所述训练样本中选择至少两个第一训练样本;
所述训练模块203,还用于基于所述至少两个第一训练样本,训练至少两个候选信息处理模型。
在一些实施例中,所述装置还包括比较模块,其中,
所述比较模块,用于在所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量大于第一阈值时,将所述新的样本中的第一样本作为所述目标信息处理模型的训练样本;所述第一样本为所述新的样本中的部分或全部样本;
还用于所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量小于或等于第一阈值时,对所述新的样本的情感属性进行标注,并将所述新的样本作为所述目标信息处理模型的训练样本。
在一些实施例中,所述装置还包括预测模块204,其中,
所述确定模块202,还用于获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征。
所述预测模块204,用于将所述第三样本特征和所述第四样本特征输入所述目标信息处理模型,获得预测样本对应的预测情感属性。
为进一步理解本申请实施例所提供的信息处理模型训练方法,本申请实施例再一方面,提供另一种信息处理模型训练方法,应用于信息处理模型训练装置。图3为本申请另一实施例中信息处理模型训练装置的结构示意图,请参见图3,所述信息处理模型训练装置包括离线训练模块301、在线分类模块302和增量学习模块303,所述离线训练模块301包括文本预处理模块3011、文本分字和分词模块3012、字和词向量训练模块3013、字和词向量表示模块3014、模型训练更新模块3015、分类模块3016,在线分类模块302包括文本预处理模块3021、文本分字和分词模块3022、字和词向量表示模块3023、调用模块3024、情感分析模块3025,所述增量学习模块303包括标注数据集3031和模型增量学习模块3032。所述信息处理模型训练装置可以部署在服务器或者服务器集群端。其中,图4为本申请一实施例中离线训练方法的处理流程示意图,请参见图4,所述信息处理模型训练方法包括:
步骤401,从文本语料集合中获取训练样本。
这里,所述离线训练模块301从文本语料集合中获取训练样本,所述训练样本是带有情感属性标签的样本。
步骤402,文本预处理模块3011对所述训练样本进行预处理。
这里,所述文本预处理模块3011对所述训练样本进行预处理,使得文本规范化。例如,所述预处理包括去除训练样本中的常用停用词,非法字符,非法字符串,乱码等烦扰文本语义理解的干扰。若所述样本为中文样本,所述预处理还包括针对样本中常见变异等情况,将繁体中文转换成简体中文。如此,避免在训练时引入干扰,使样本清晰和规范化。
步骤403,基于所述训练样本,分别获取由单个字组成的字样本序列和由词组组成的词组样本序列。
这里,文本分字和分词模块3012将所述训练样本进行分字和分词,将所述训练样本划分为由单个字组成的字样本序列,以及根据词性语义对训练样本进行分词,将所述训练样本划分为由词组组成的词组样本序列。例如所述训练样本为中文文本,将所述中文文本划分为由单个字组成的字样本序列,和根据词性语义对文本进行中文分词,将文本划分成由中文词组组成的词组序列。
步骤404,字和词向量训练模块3013对所述文本语料进行字和词向量训练,获取字、词对应的特征向量。
这里,所述信息处理模型训练装置统计词频,词的共性,词的搭配等信息,其中,所述词的共性是指当两个词在文本中距离小于某个阈值时,确认两个词是有共性的。所述词的搭配是指单词前后同时出现,如:“监督”与“学习”。采用随机初始化字向量,通过词嵌入算法实现语料库中字、词分布式表达和编码。
步骤405,根据字和词向量训练模块3013的训练结果,基于所述字样本序列,获取以字向量为维度的第一样本特征,以及基于所述词组样本序列,获取以词向量为维度的第二样本特征。
这里,基于根据字和词向量训练模块3013的训练结果,所述字和词向量表示模块3014对所述字样本序列进行编码,获取到以字向量为维度的第一样本特征,以及对所述词组样本序列进行编码,获取以词向量为维度的第二样本特征,即将所述字样本序列和词组训练样本编码为可以输入到目标信息处理模型的数据。
步骤406,基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。
这里,所述目标处理模型包括双线性卷积神经网络,所述模型训练更新模块3012对目标处理模型进行在线训练,通过有监督学习方式进行训练,优化目标处理模型的参数。
在上述实施例中,所述信息处理模型训练装置包括离线训练模块301、在线分类模块302以及增量学习模块303,如此,信息处理模型的训练和文本的情感分析过程是自动化的,无需人工干预和人工编码,提升了文本情感分析的效率。并且离线训练模式和在线分类模式,使得计算量、数据吞吐量大的操作能够部署在服务器或者服务器集群端,具体分类应用部署在客户端,模型训练过程不影响在线分类,充分利用了计算资源。
此外,所述信息处理模型训练装置是基于双线性卷积神经网络构建的,基于GPU(Graphics Processing Unit,图形处理器)并行计算技术,依托于底层GPU的并行库,该信息处理模型训练装置能够实现高效的大规模的并行任务,从而装置能够高效地处理海量数据内容,更符合未来舆情分析的发展方向。
在一些实施例中,在步骤401,从文本语料集合中获取训练样本之前,所述方法还包括:所述信息处理模型训练装置搜集整理样本,还通过网络爬虫采集相关样本,生成文本语料集合,其中,所述样本是指文本语料。例如对新闻文本进行情感分析时,所述信息处理模型训练装置通过网络爬虫采集新闻舆情相关语料。其中,所述相关语料在标注后用于模型训练。
在一些实施例中,图5为本申请一实施例中信息处理模型的结构示意图,请参见图5,所述目标信息处理模型包括双线性卷积神经网络模型,所述目标信息处理模型包括第一卷积神经网络的输入层501a、第一卷积神经网络的卷积层502a、第一卷积神经网络的全连接层503a、第二卷积神经网络的输入层501b、第二卷积神经网络的卷积层502b、第一卷积神经网络的全连接层503b、线性混合层504、输出层505,所述步骤406,基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型,包括:
利用所述目标信息处理模型中第一卷积神经网络的卷积层502a,基于所述第一样本特征,获取各个卷积核对应的第一局部特征。
这里,所述模型训练更新模块3012将所述第一样本特征的字向量输入到第一卷积神经网络的输入层501a。在所述第一卷积神经网络的卷积层502a中,通过使用多个不同大小的卷积核对第一样本特征进行局部高层特征提取,获取到各个卷积核对应的第一局部特征,例如字向量维度为100,那么卷积核的大小为Nx100,其中N可以为任意正整数,如,N取2、3、4、5等,对应获取到N个第一局部特征。
利用所述第一卷积神经网络的全连接层503a,将所述第一局部特征进行拼接,获取第一特征。
这里,所述模型训练更新模块3012将多个第一局部特征输入到所述第一卷积神经网络的全连接层503a。在所述第一卷积神经网络的全连接层403a,将所述第一局部特征进行横向拼接,获取到第一特征,所述第一特征表征所述训练样本在字层面的特征向量。
利用所述目标信息处理模型中第二卷积神经网络的卷积层502b,基于所述第二样本特征,获取各个卷积核对应的第二局部特征。
这里,模型训练更新模块3012将所述第二样本特征的词向量输入到第二卷积神经网络的输入层501b中。在所述第二卷积神经网络的卷积层502b中,通过使用多个不同大小的卷积核对第二样本特征进行局部高层特征提取,获取到各个卷积核对应的第二局部特征。
利用所述第二卷积神经网络的全连接层503b,将所述第二局部特征进行拼接,获取第二特征。
这里,所述模型训练更新模块3012将多个第二局部特征输入到所述第二卷积神经网络的全连接层503b。在所述第二卷积神经网络的全连接层503b,将所述第二局部特征进行横向拼接,获取到第二特征,所述第二特征表征所述训练样本在字层面的特征向量。
利用所述目标信息处理模型中线性混合层504,基于所述第一特征和所述第二特征获取混合特征。
这里,在所述目标信息处理模型中线性混合层504,所述模型训练更新模块3012将所述第一特征和所述第二特征进行线性混合,获取到所述训练样本的混合特征,所述混合特征表征所述训练样本在字和词层面上的混合特征向量,所述混合特征为所述训练样本的最终的特征表达。
例如:假设W代表通过第一卷积神经网络获取的第一特征,P代表通过第二卷积神经网络获取的第二特征,H代表混合特征,Hi、Wi、Pi分别为H、W、P中的分量,则Hi=Wi*Pi。
将所述混合特征输入到所述目标信息处理模型中输出层505,获取所述训练样本的预测情感属性。
这里,所述模型训练更新模块3012将所述混合特征输入到所述目标信息处理模型中输出层505,确定出所述训练样本属于各种情感属性的概率值。例如所述输出层的函数为归一化函数,从而所述目标信息处理模型中输出层,输出所述训练样本属于各种情感属性的概率值。然后比较各个所述概率值,将最大概率值对应的情感属性作为所述训练样本的预测情感属性。
基于所述预测情感属性和所述训练样本的情感属性,训练所述目标信息处理模型。
这里,所述模型训练更新模块3012将所述第一样本特征和所述第二样本特征输入到目标信息处理模型,获取到所述训练样本对应的预测情感属性,根据所述训练样本的所述预测情感属性和情感属性,构建损失函数,通过损失函数调节目标信息处理模型的权重参数,实现目标信息处理模型的在线训练。
在一些实施例中,在所述步骤406,基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型后,所述方法还包括:
步骤407,所述分类模块301将所述目标信息处理模型进行封装,获取到分类模型,所述分类模型包含调用接口。
这里,所述模型训练更新模块3015输出优化好的目标信息处理模型,所述分类模块3016为输出模块,对优化后的目标信息处理模型进行多种封装,使其能够适应多种实际应用环境且方便调用,例如提供网络应用程序接口Web API(World Wide Web ApplicationProgramming Interface,网络应用程序接口),通过Web API的方式实现样本情感属性分析任务。
在一些实施例中,所述方法目标信息处理模型训练方法,还包括:
所述在线分类模块302获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征;
将所述第三样本特征和所述第四样本特征输入所述目标信息处理模型,获得预测样本对应的预测情感属性。
在一些实施例中,在所述步骤408,获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征之前,所述方法还包括:
所述文本预处理模块3021对预测样本进行预处理。
这里,所述文本预处理模块3021对所述训练样本进行预处理,使得文本规范化。例如,所述预处理包括去除训练样本中的常用停用词,非法字符,非法字符串,乱码等烦扰文本语义理解的干扰。若所述样本为中文样本,所述预处理还包括针对样本中常见变异等情况,将繁体中文转换成简体中文。如此,避免在训练时引入干扰,使样本清晰和规范化。
在一些实施例中,所述获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征,所述方法包括:
基于所述预测样本,分别获取由单个字组成的字样本序列和由词组组成的词组样本序列。
这里,所述文本分字和分词模块3022将预测样本进行分字和分词,将所述训练样本划分为由单个字组成的字样本序列,以及根据词性语义对预测样本进行分词,将所述预测样本划分为由词组组成的词组样本序列。
所述字和词向量表示模块3023基于所述字样本序列,获取以字向量为维度的第三样本特征,以及基于所述词组样本序列,获取以词向量为维度的第四样本特征。
这里,字和词向量表示模块3023对所述字样本序列进行编码,获取到以字向量为维度的第一样本特征,以及对所述词组样本序列进行编码,获取以词向量为维度的第二样本特征,即将所述字样本序列和词组训练样本编码为可以输入到目标信息处理模型的数据。
在一些实施例中,所述,将所述第三样本特征和所述第四样本特征输入所述目标信息处理模型,获得预测样本对应的预测情感属性。
所述调用模块3024调用分类模块3016已经封装好的分类模型,获取所述预测样本对应的预测情感属性。
这里,所述调用模块3024调用分类模块3016已经封装好的分类模型,进行在线情感倾向分析任务。
在上述实施例中,所述信息处理装置采用离线训练和在线分类的方式进行部署,使得计算量、数据吞吐量大的操作能够部署在服务器或者服务器集群端,所述信息处理装置提供了分类模型,使得具体分类应用可以部署在客户端,从而模型训练过程不影响在线分类,充分利用了计算资源。
在一些实施例中,所述信息处理模型训练装置根据舆情动态(用户反馈数据),以及通过半监督方式获取新的训练样本,对训练样本进行不断的迭代更新。其中,所述半监督方式获取新的训练样本包括训练多模型和新增训练样本。图6为本申请一实施例中训练多模型方法的处理流程示意图,请参见图6,所述训练多模型方法包括:
步骤601,所述增量学习模块303在所述训练样本中随机选择至少两个第一训练样本,例如第一训练样本为80%的训练样本。
步骤602,基于所述至少两个第一训练样本,训练至少两个候选信息处理模型。
这里,所述增量学习模块303将一个第一训练样本用于训练信息处理模型,获取到一个候选信息处理模型。因此,利用在步骤601中获取到的多个第一训练样本,进行目标信息处理模型训练,获取到多个候选信息处理模型,其中第一样本的个数与候选信息处理模型的个数相同。
例如,在训练样本中随机选择其中的一部分(比如80%),作为第一训练样本,将所述第一样本训练目标信息处理模型,得到一个候选信息处理模型1,重复上述过程单数次,如5次,可以获取到候选信息处理模型2、候选信息处理模型3、候选信息处理模型4、候选信息处理模型5。
图7为本申请一实施例中新增训练样本方法的处理流程示意图,请参见图7,所述新增训练样本方法包括:
步骤701,所述增量学习模块303随机选取最新的无标签语料,作为新的样本。
步骤702,所述增量学习模块303利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性。
这里,所述增量学习模块303获取到新的样本。所述增量学习模块303利用所述至少两个候选信息处理模型,分别预测新的样本的预测情感属性。例如,使用候选信息处理模型1、2、3、4、5对新的样本进行预测,并得到每一个样本的预测结果。
步骤703,所述增量学习模块303将所述预测情感属性进行汇总,如果新的样本的所有预测情感属性的结果相同或者存在歧义较小时,执行步骤704;如果所有预测情感属性的结果存在歧义较大的情况,执行步骤705。
步骤704,所述增量学习模块303随机选取新的样本中第一样本,将所述第一样本添加到训练样本中。例如,所述新的样本为新的语料,如果所有预测情感属性的结果都是相同或者歧义较小(按具体需要设定,比如5个样本的预测结果中,4个样本的预测结果相同,表示歧义较小),则所述新的语料为无歧义语料,随机抽取无歧义语料的50%的语料,作为第一训练样本,将所述第一训练样本加入训练样本。
步骤705,所述增量学习模块303对所述新的样本的情感属性进行标注,将所述新的样本添加到所述目标信息处理模型的训练样本。例如,所述新的样本为新的语料,如果所有预测情感属性的结果存在歧义较大的情况,则所述新的语料为有歧义语料,接收人工标注的情感属性,将所述人工标注的情感属性标注为所述有歧义语料的情感属性,并将这部分语料加入训练样本。
在一些实施例中,图8为本申请一实施例中增量学习方法示意图,请参见图8,所述模型增量学习模块3032基于训练数据集对信息处理模型进行迭代优化及更新,并在所述信息处理模型性能稳定后对线上模型进行适时更新,实现在线分类模型的增量学习。
在上述实施例中,半监督的增量学习使信息处理模型能够不断基于少量标注数据,实现迭代更新,并且对在线分类模型做出调整,优化的分类模型性能,使得分类模型进行文本情感分析能力更强,分析结果更加准确,即使是具有新型网络词汇的信息,它也能够进行准确进行分析,从而达到即使在大数据环境中信息不断发生变化,所述分类模型仍可以准确判断出文本的情感属性。
本发明实施例再一方面,还提供一种计算机设备。图9为本申请一实施例中信息处理模型训练设备的结构示意图,请参阅图9,所述计算机设备至少包括至少一个处理器801和至少一个存储器805。其中,所述存储器805包括用于存储能够在处理器801上运行的计算机程序,其中,所述处理器801用于运行所述计算机程序时,执行:一种信息处理模型训练方法,所述方法包括:
获取训练样本;
确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征;
基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。
在一些实施例中,所述处理器801还用于运行所述计算机程序时,执行:所述确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征,包括:
基于所述训练样本,分别获取由单个字组成的字样本序列和由词组组成的词组样本序列;
基于所述字样本序列,获取以字向量为维度的第一样本特征,以及基于所述词组样本序列,获取以词向量为维度的第二样本特征。
在一些实施例中,所述处理器801还用于运行所述计算机程序时,执行:所述目标信息处理模型包括双线性卷积神经网络模型,所述基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型,包括:
利用所述目标信息处理模型中第一卷积神经网络的卷积层,基于所述第一样本特征,获取各个卷积核对应的第一局部特征;
利用所述第一卷积神经网络的全连接层,将所述第一局部特征进行拼接,获取第一特征;
利用所述目标信息处理模型中第二卷积神经网络的卷积层,基于所述第二样本特征,获取各个卷积核对应的第二局部特征;
利用所述第二卷积神经网络的全连接层,将所述第二局部特征进行拼接,获取第二特征;
利用所述目标信息处理模型中线性混合层,基于所述第一特征和所述第二特征获取混合特征;
将所述混合特征输入到所述目标信息处理模型中输出层,获取所述训练样本的预测情感属性;
基于所述预测情感属性和所述训练样本的情感属性,训练所述目标信息处理模型。
在一些实施例中,所述处理器801还用于运行所述计算机程序时,执行:
在所述训练目标信息处理模型之后,所述方法还包括:
在所述训练样本中选择至少两个第一训练样本;
基于所述至少两个第一训练样本,训练至少两个候选信息处理模型;
利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性。
在一些实施例中,所述处理器801还用于运行所述计算机程序时,执行:
在所述利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性后,所述方法还包括:
在所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量大于第一阈值时,将所述新的样本中的第一样本作为所述目标信息处理模型的训练样本;所述第一样本为所述新的样本中的部分或全部样本;
所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量小于或等于第一阈值时,对所述新的样本的情感属性进行标注,并将所述新的样本作为所述目标信息处理模型的训练样本。
在一些实施例中,所述处理器801还用于运行所述计算机程序时,执行:所述方法还包括:
获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征;
将所述第三样本特征和所述第四样本特征输入所述目标信息处理模型,获得预测样本对应的预测情感属性。
在一些实施例中,所述设备还包括系统总线802、用户接口803、通信接口804。其中,通信总线802配置为实现这些组件之间的连接通信,用户接口803可以包括显示屏,通信接口804可以包括标准的有线接口和无线接口。
本发明实施例再一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任一实施例提供的信息处理模型训练方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、图形处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围以准。

Claims (10)

1.一种信息处理模型训练方法,其特征在于,所述方法包括:
获取训练样本;
确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征;
基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。
2.根据权利要求1所述方法,其特征在于,所述确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征,包括:
基于所述训练样本,分别获取由单个字组成的字样本序列和由词组组成的词组样本序列;
基于所述字样本序列,获取以字向量为维度的第一样本特征,以及基于所述词组样本序列,获取以词向量为维度的第二样本特征。
3.根据权利要求1所述方法,其特征在于,所述目标信息处理模型包括双线性卷积神经网络模型,所述基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型,包括:
利用所述目标信息处理模型中第一卷积神经网络的卷积层,基于所述第一样本特征,获取各个卷积核对应的第一局部特征;
利用所述第一卷积神经网络的全连接层,将所述第一局部特征进行拼接,获取第一特征;
利用所述目标信息处理模型中第二卷积神经网络的卷积层,基于所述第二样本特征,获取各个卷积核对应的第二局部特征;
利用所述第二卷积神经网络的全连接层,将所述第二局部特征进行拼接,获取第二特征;
利用所述目标信息处理模型中线性混合层,基于所述第一特征和所述第二特征获取混合特征;
将所述混合特征输入到所述目标信息处理模型中输出层,获取所述训练样本的预测情感属性;
基于所述预测情感属性和所述训练样本的情感属性,训练所述目标信息处理模型。
4.根据权利要求1所述方法,其特征在于,在所述训练目标信息处理模型之后,所述方法还包括:
在所述训练样本中选择至少两个第一训练样本;
基于所述至少两个第一训练样本,训练至少两个候选信息处理模型;
利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性。
5.根据权利要求4所述的方法,其特征在于,在所述利用所述至少两个候选信息处理模型,预测新的样本的预测情感属性后,所述方法还包括:
在所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量大于第一阈值时,将所述新的样本中的第一样本作为所述目标信息处理模型的训练样本;所述第一样本为所述新的样本中的部分或全部样本;
所述至少两个候选信息处理模型针对所述新的样本,预测的预测情感属性相等的数量小于或等于第一阈值时,对所述新的样本的情感属性进行标注,并将所述新的样本作为所述目标信息处理模型的训练样本。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征;
将所述第三样本特征和所述第四样本特征输入所述目标信息处理模型,获得预测样本对应的预测情感属性。
7.一种信息处理模型训练装置,其特征在于,所述装置包括获取模块、确定模块和训练模块,其中,
所述获取模块,用于获取训练样本;
所述确定模块,用于确定所述训练样本对应的以字向量为维度的第一样本特征和以词向量为维度的第二样本特征;
所述训练模块,用于基于所述第一样本特征和所述第二样本特征,及所述训练样本的情感属性训练目标信息处理模型。
8.根据权利要求7所述装置,其特征在于,所述装置还包括预测模块,其中,
所述确定模块,还用于获取预测样本中以字向量为维度的第三样本特征和以词向量为维度的第四样本特征;
所述预测模块,用于将所述第三样本特征和所述第四样本特征输入所述目标信息处理模型,获得预测样本对应的预测情感属性。
9.一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项所述信息处理模型训练方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机可读存储介质上存储有信息处理模型训练程序或存储有信息处理程序,所述信息处理模型训练程序被处理器执行时实现如权利要求1至6中任一所述信息处理模型训练方法的步骤。
CN201911267980.0A 2019-12-11 2019-12-11 信息处理模型训练方法、装置、设备及存储介质 Pending CN112949313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911267980.0A CN112949313A (zh) 2019-12-11 2019-12-11 信息处理模型训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911267980.0A CN112949313A (zh) 2019-12-11 2019-12-11 信息处理模型训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112949313A true CN112949313A (zh) 2021-06-11

Family

ID=76234054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911267980.0A Pending CN112949313A (zh) 2019-12-11 2019-12-11 信息处理模型训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112949313A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782960A (zh) * 2022-06-22 2022-07-22 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备及计算机可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107391575A (zh) * 2017-06-20 2017-11-24 浙江理工大学 一种基于词向量模型的隐式特征识别方法
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN108108351A (zh) * 2017-12-05 2018-06-01 华南理工大学 一种基于深度学习组合模型的文本情感分类方法
CN108733675A (zh) * 2017-04-14 2018-11-02 北大方正集团有限公司 基于大量样本数据的情感评价方法及装置
CN108763326A (zh) * 2018-05-04 2018-11-06 南京邮电大学 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN109271513A (zh) * 2018-09-07 2019-01-25 华南师范大学 一种文本分类方法、计算机可读储存介质及系统
US20190042933A1 (en) * 2017-08-02 2019-02-07 International Business Machines Corporation Predictive neural network with sentiment data
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN109614487A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于张量融合方式的情感分类的方法
CN110162799A (zh) * 2018-11-28 2019-08-23 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN110297889A (zh) * 2019-06-28 2019-10-01 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733675A (zh) * 2017-04-14 2018-11-02 北大方正集团有限公司 基于大量样本数据的情感评价方法及装置
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107391575A (zh) * 2017-06-20 2017-11-24 浙江理工大学 一种基于词向量模型的隐式特征识别方法
US20190042933A1 (en) * 2017-08-02 2019-02-07 International Business Machines Corporation Predictive neural network with sentiment data
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN108108351A (zh) * 2017-12-05 2018-06-01 华南理工大学 一种基于深度学习组合模型的文本情感分类方法
CN108763326A (zh) * 2018-05-04 2018-11-06 南京邮电大学 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN109271513A (zh) * 2018-09-07 2019-01-25 华南师范大学 一种文本分类方法、计算机可读储存介质及系统
CN109614487A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于张量融合方式的情感分类的方法
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN110162799A (zh) * 2018-11-28 2019-08-23 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN110297889A (zh) * 2019-06-28 2019-10-01 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李平;戴月明;吴定会;: "双通道卷积神经网络在文本情感分析中的应用", 计算机应用, no. 06, pages 1542 - 1546 *
杨希: "基于情感词典与规则结合的微博情感分析模型研究" *
钱伟中;邓蔚;傅;秦志光;: "基于联合训练的蛋白质互作用信息抽取方法", 计算机应用研究, no. 05, pages 1738 - 1741 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782960A (zh) * 2022-06-22 2022-07-22 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN112270379B (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN110019742B (zh) 用于处理信息的方法和装置
CN111221936B (zh) 一种信息匹配方法、装置、电子设备及存储介质
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN116547681A (zh) 用于持续演进内容的动态语言模型
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN117521638A (zh) 文本标签确定方法及装置
CN118228694A (zh) 基于人工智能实现工业行业数智化的方法和系统
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN117634459A (zh) 目标内容生成及模型训练方法、装置、系统、设备及介质
CN112949313A (zh) 信息处理模型训练方法、装置、设备及存储介质
CN116702765A (zh) 一种事件抽取方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination