CN111144507B

CN111144507B - 情感分析模型预训练方法、装置及电子设备

Info

Publication number: CN111144507B
Application number: CN201911399965.1A
Authority: CN
Inventors: 高参; 刘昊; 何伯磊; 肖欣延; �田�浩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2021-06-08
Anticipated expiration: 2039-12-30
Also published as: KR102472708B1; JP7149993B2; US11537792B2; US20210200949A1; CN111144507A; EP3846069A1; JP2021111323A; KR20210086940A

Abstract

本申请提出一种情感分析模型预训练方法、装置及电子设备，涉及人工智能技术领域。其中，该方法包括：基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对；按照预设的掩码处理规则，将每个训练语料进行掩码处理，生成掩码后的语料；利用预设的编码器及解码器，对掩码后的语料进行编码及解码处理，确定每个训练语料中包含的预测情感词及预测词对；根据预测情感词与检测情感词的差异、及预测词对与检测词对的差异，对预设的编码器及预设的解码器进行更新。由此，通过这种情感分析模型预训练方法，使得预训练模型可以对情感分析方向的数据进行更好的表示，提高了情感分析的效果。

Description

情感分析模型预训练方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提出一种情感分析模型预训练方法、装置及电子设备。

背景技术

情感分析是指研究人们对产品、服务、组织等实体的观点、态度、评价等。通常情感分析包括多个子任务，情感倾向性分析、评论观点挖掘、实体级情感分析、情绪分析等。目前，可以通过情感分析模型实现对文本的情感分析。

相关技术中，可以利用深度神经网络对大规模无监督数据进行自监督学习，生成预训练模型，进而在具体的情感分析任务中，基于该类任务的情感标注数据，对预训练模型进行迁移学习，以生成该类任务的情感分析模型。

然而，由于预训练模型更加注重下游任务使用时的通用性，因此缺少对特定方向任务建模的能力，从而导致通过对预训练模型进行迁移学习生成的情感分析模型，对文本进行情感分析的效果较差。

发明内容

本申请提出的情感分析模型预训练方法、装置及电子设备，用于解决相关技术中，由于预训练模型更加注重下游任务使用时的通用性，因此缺少对特定方向任务建模的能力，从而导致通过对预训练模型进行迁移学习生成的情感分析模型，对文本进行情感分析的效果较差的问题。

本申请一方面实施例提出的情感分析模型预训练方法，包括：基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对，每个检测词对中包含一个评论点和一个情感词；按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料；利用预设的编码器，对所述掩码后的语料进行编码处理，生成每个训练语料对应的特征向量；利用预设的解码器，对所述特征向量进行解码处理，确定每个训练语料中包含的预测情感词及预测词对；根据所述预测情感词与检测情感词的差异、及所述预测词对与所述检测词对的差异，对所述预设的编码器及预设的解码器进行更新。

本申请另一方面实施例提出的情感分析模型预训练装置，包括：第一确定模块，用于基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对，每个检测词对中包含一个评论点和一个情感词；第一生成模块，用于按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料；第二生成模块，用于利用预设的编码器，对所述掩码后的语料进行编码处理，生成每个训练语料对应的特征向量；第二确定模块，用于利用预设的解码器，对所述特征向量进行解码处理，确定每个训练语料中包含的预测情感词及预测词对；更新模块，用于根据所述预测情感词与检测情感词的差异、及所述预测词对与所述检测词对的差异，对所述预设的编码器及预设的解码器进行更新。

本申请再一方面实施例提出的电子设备，其包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的情感分析模型预训练方法。

本申请又一方面实施例提出的存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如前所述的情感分析模型预训练方法。

上述申请中的任一个实施例具有如下优点或有益效果：通过在模型预训练过程中融入了统计计算的情感知识，从而使得预训练模型可以对情感分析方向的数据进行更好的表示，提高了情感分析的效果。因为采用了基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对，并按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料，之后利用预设的编码器，对掩码后的语料进行编码处理，生成每个训练语料对应的特征向量，进而利用预设的解码器，对特征向量进行解码处理，确定每个训练语料中包含的预测情感词及预测词对，以根据预测情感词与检测情感词的差异、及预测词对与所述检测词对的差异，对预设的编码器及预设的解码器进行更新的技术手段，所以克服了预训练模型缺少对特定方向任务建模的能力，从而导致通过对预训练模型进行迁移学习生成的情感分析模型，对文本进行情感分析的效果较差的问题，进而达到了在模型预训练过程中融入了统计计算的情感知识，从而使得预训练模型可以对情感分析方向的数据进行更好的表示，提高了情感分析的效果的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种情感分析模型预训练方法的流程示意图；

图2为本申请实施例所提供的一种对训练语料进行掩码处理的示意图；

图3为本申请实施例所提供的另一种情感分析模型预训练方法的流程示意图；

图4为本申请实施例提供的一种情感分析模型预训练装置的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例针对相关技术中，由于预训练模型更加注重下游任务使用时的通用性，因此缺少对特定方向任务建模的能力，从而导致通过对预训练模型进行迁移学习生成的情感分析模型，对文本进行情感分析的效果较差的问题，提出一种情感分析模型预训练方法。

下面参考附图对本申请提供的情感分析模型预训练方法、装置、电子设备及存储介质进行详细描述。

下面结合图1，对本申请实施例提供的情感分析模型预训练方法进行详细说明。

图1为本申请实施例所提供的一种情感分析模型预训练方法的流程示意图。

如图1所示，该情感分析模型预训练方法，包括以下步骤：

步骤101，基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对，每个检测词对中包含一个评论点和一个情感词。

其中，给定的种子情感词典，包括各种情感词。需要说明的是，给定的种子情感词典可以包括表达常用情感的少量几个情感词，并可以在实际使用过程中对种子情感词典进行增补；或者，给定的种子词典也可以是根据少量几个情感词的同义词及反义词，进行扩展得到的，并可以在实际使用过程中根据新获取的情感词及新获取的情感词的同义词、反义词对种子情感词典进行增补。

其中，检测情感词，是指通过对训练语料进行情感知识检测，确定的训练语料中包括的情感词；检测词对，包括通过对训练语料进行情感知识检测，确定的训练语料中包括的情感词，以及该情感词在训练语料中对应的评论点。

举例来说，训练语料为“this product came really fast and I appreciatedit”，则对该训练语料进行情感知识检测，可以确定该训练语料中包含的检测情感词为“fast、appreciated”；由于该训练语料是对“the product”进行评论，从而可以确定与检测情感词“fast”对应的评论点为“product”，从而可以确定该训练语料包含的检测词对为“product fast”。

在本申请实施例中，可以根据训练语料中每个分词与给定的种子情感词典中各情感词的共现频率或相似度，对训练语料进行情感知识检测，以确定训练语料中包括的各情感词。即在本申请实施例一种可能的实现形式中，上述步骤101，可以包括：

若第i个训练语料中第j个分词，与给定的种子情感词典中的第一种子情感词在训练语料集中的共现频率大于第一阈值，则确定第j个分词为第i个训练语料中的检测情感词；

或者，

若第i个训练语料中第j个分词，与给定的种子情感词典中第二种子情感词的相似度大于第二阈值，则确定第j个分词为第i个训练语料中的检测情感词；

其中，i为大于0、且小于等于N的整数，j为大于0、且小于等于K的正整数，N为训练语料集中包含的训练语料数量，K为第j个训练语料中包含的分词数量。

其中，第一种子情感词及第二种子情感词，可以是给定的种子情感词典中的任意一个种子情感词。

其中，共现频率，可以用于衡量两个词语间的相关性。具体的，两个词语间的共现频率越高，则可以确定这两个词语的相关性越高；反之，则可以确定这两个词语的相关性越低。

作为一种可能的实现方式，在对训练语料集中的第i个训练语料进行情感知识检测时，可以首先对第i个训练语料进行分词处理，以确定第i个训练语料中包括的K个分词，并分别计算K个分词与给定的种子情感词典中每个种子情感词的共现频率。若确定第i个训练语料中第j个分词与给定的种子情感词典中的第一种子情感词的共现频率大于第一阈值，则可以确定第i个训练语料中的第j个分词与第一种子情感词相关性较高，从而可以将第i个训练语料中的第j个分词确定为第i个训练语料中的检测情感词。

可选的，可以采用情感倾向点互信息(Semantic Orientation Pointwise MutualInformation，简称SO-PMI)算法，确定训练语料中每个分词与给定的种子情感词典中每个种子情感词的共现频率，以确定每个训练语料中包含的检测情感词。具体的，若确定第i个训练语料中的第j个分词与给定的种子情感词典中的第一种子情感词的SO-PMI值大于第一阈值，则可以确定第j个分词与第一种子情感词的共现频率大于第一阈值，从而可以将第i个训练语料中的第j个分词确定为第i个训练语料中的检测情感词。

需要说明的是，实际使用时，可以根据实际需要预设确定共现频率的方法，以及第一阈值的具体取值，本申请实施例对此不做限定。比如，在采用SO-PMI算法确定训练语料中的检测情感词时，第一阈值可以为0。

作为一种可能的实现方式，还可以根据训练语料中每个分词与给定的种子情感词典中每个种子情感词的相似度，确定训练语料中包括的情感词。具体的，在对第i个训练语料进行情感知识检测时，可以首先对第i个训练语料进行分词处理，以确定第i个训练语料包括的各分词，之后确定第i个训练语料中各分词对应的词向量，以及给定的种子情感词典中各种子情感词对应的词向量，进而确定第i个训练语料中每个分词对应的词向量与每个种子情感词对应的词向量的相似度。若确定第i个训练语料中第j个分词对应的词向量与给定的种子情感词典中第二种子情感词对应的词向量的相似度大于第二阈值，则可以确定第j个分词与第二种子情感词的相似度大于第二阈值，即第i个分词与第二种子情感词的相似度较高，从而可以将第i个训练语料中的第j个分词，确定为第i个训练语料中的检测情感词。

需要说明的是，实际使用时，可以根据实际需要预设确定训练语料中的分词与给定的种子情感词典中种子情感词的相似度方式，以及第二阈值的具体取值，本申请实施例对此不做限定。比如，分词与情感词间的相似度可以为余弦相似度，第二阈值可以为0.8。

进一步的，可以在使用给定的种子情感词典的过程中，根据确定的训练语料中的情感词对给定的种子情感词典进行增补。即在本申请实施例一种可能的实现形式中，上述确定第j个分词为第i个训练语料中的检测情感词之后，还可以包括：

将第j分词加入给定的种子情感词典。

在本申请实施例中，可以在利用给定的种子情感词典，确定训练语料集中各训练语料中包括的检测情感词时，将确定出的各训练语料中包括的检测情感词加入给定的种子情感词典中，以对给定的种子情感词典进行更新。因此，每确定出一个训练语料中包括的一个检测情感词，即可将确定出的该检测情感词加入给定的种子情感词典，以在模型训练过程中，使给定的种子情感词典中包括的情感词越来越丰富，进而使得在后续确定训练语料中包括的情感词的可靠性更高。从而，可以在将第j个分词确定为第i个训练语料的检测情感词之后，将第j个分词加入给定的种子情感词典。

进一步的，可以在确定出训练语料中包括的检测情感词之后，根据确定的各检测情感词，确定与各检测情感词匹配的评论点，以确定训练语料中包括的检测词对。即在本申请实施例一种可能的实现形式中，上述确定第j个分词为第i个训练语料中的检测情感词之后，还可以包括：

基于第i个训练语料中各分词与第j个分词在第i个训练语料中的位置关系，与预设的词性模版或句法模版的匹配度，确定第i个训练语料中包含的检测词对。

其中，预设的词性模板，可以对检测词对中包括的评论点、情感词的词性进行约束，以及对与评论点及情感词临近分词的词性等进行约束；比如，预设的词性模板中可以规定评论点的词性为名词，情感词的词性为形容词或动词，等等。

其中，预设的句法模板，可以对检测词对中包括的评论点和情感词之间的距离、语法关系等进行约束；比如，预设的句法模板可以规定评论点对应的分词为位于情感词之前的第3个分词，等等。

需要说明的是，实际使用时，可以根据实际需要或经验确定预设的词性模板或句法模板，本申请实施例对此不做限定。

在本申请实施例中，在确定第i个训练语料中的第j个分词为第i个训练语料的检测情感词之后，可以根据第i个训练语料中各分词与第j个分词在第i个训练语料中的位置关系，确定各分词与第j个分词的位置关系，与预设的词性模板或句法模板是否匹配。

具体的，可以预设第三阈值，若确定第一分词与第j个分词的位置关系，与预设的词性模板或句法模板的匹配度大于第三阈值，则可以确定第一分词与第j个分词的位置关系与预设的词性模板或句法模板匹配，从而可以确定第一分词为与第j个分词对应的评论点，即可以确定第一分词与第j个分词组成的词对为第i个训练语料中包含的一个检测词对。

举例来说，预设的词性模板为“评论点的词性为名词、情感词的词性为形容词”，预设的句法模板为“评论点为情感词之前的第三个分词”，训练语料为“this product camereally fast and I appreciated it”，确定的检测情感词为“fast、appreciated”，从而可以确定分词“product”的词性与预设的词性模板匹配，与检测情感词“fast”的位置关系与预设的句法模板匹配，从而可以确定“product fast”为该训练语料中的一个检测词对；而由于该训练语料中不存在与检测情感词“appreciated”的位置关系与预设的词性模板及句法模板匹配的分词，从而可以确定没有与检测情感词“appreciated”对应的评论点，从而可以确定该训练语料中包含的检测词对为“product fast”。

步骤102，按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料。

在本申请实施例中，为使得在训练过程中，更加关注训练语料中的情感知识，提高训练出的情感分析模型对情感知识的表达能力，可以对按照预设的掩码处理规则，对每个训练语料中的检测情感词及检测词对进行掩码处理，以生成掩码后的语料。从而使得在将掩码后的语料输入训练模型时，可以增强模型对被掩码的检测情感词及检测词对的表示，进而提高情感分析的效果。

举例来说，训练语料为“this product came really fast and I appreciatedit”，确定的检测情感词为“fast、appreciated”，确定的检测词对为“product fast”，如图2所示，为对该训练语料进行掩码处理的示意图，其中[MASK]为进行掩码处理的分词。

进一步的，如果训练语料中进行掩码的词语过多，容易使得模型无法正确理解掩码后的语料的整体语义。从而可以仅对部分检测情感词及检测词对进行掩码处理。即在本申请实施例一种可能的实现形式中，上述步骤102，可以包括：

按照预设的比例，将每个训练语料中的检测情感词及检测词对进行掩码处理。

作为一种可能的实现方式，训练语料中可能包括多个检测情感词或多个检测词对，从而导致训练语料中检测情感词及检测词对的数量过多，若对所有检测情感词及检测词对进行掩码处理，会使得模型无法正确理解掩码后的语料的整体语义，从而影响最终的模型训练效果。因此，在本申请实施例中，可以预设进行掩码处理的分词数量与训练语料中检测情感词及检测词对中包括的分词总数量的比例，进而根据预设的比例，对训练语料中的检测情感词及检测词对中的部分分词进行掩码处理，以提高对情感知识的关注的同时，不影响对掩码后的语料整体语义的理解。

需要说明的是，在模型训练过程中，对于每条训练语料可以训练多次，从而在每次利用一条训练语料时，可以对该条训练语料中的不同检测情感词及不同检测词对进行掩码处理，以使得模型可以学习到每条训练语料中的情感知识。

步骤103，利用预设的编码器，对掩码后的语料进行编码处理，生成每个训练语料对应的特征向量。

在本申请实施例中，对训练语料进行掩码处理之后，即可利用预设的编码器对掩码后的语料进行编码处理，以生成每个训练语料对应的特征向量。

作为一种可能的实现方式，预设的编码器可以是深度双向神经网络，对文本具有较强的表示能力。因此，采用深度双向神经网络对掩码后的语料进行编码处理所生成的特征向量，不仅可以更好的表示训练语料中包含的情感知识，还要更好的表示训练语料的整体语义。

步骤104，利用预设的解码器，对特征向量进行解码处理，确定每个训练语料中包含的预测情感词及预测词对。

其中，预设的编码器与预设的解码器可以构成本申请实施例的情感分析模型，即预设的解码器与预设的解码器分别为本申请实施例的情感分析模型的一部分。

其中，预测情感词，是指利用本申请实施例的情感分析模型确定的训练语料中包含的情感词；预测词对，是指利用本申请实施例的情感分析模型确定的训练语料中包含的词对。

在本申请实施例中，确定出每个训练语料对应特征向量之后，可以利用与预设的编码器对应的预设的解码器，对每个训练语料对应的特征向量进行解码处理，以确定每个训练语料中包含的预测情感词及预测词对。

步骤105，根据预测情感词与检测情感词的差异、及预测词对与检测词对的差异，对预设的编码器及预设的解码器进行更新。

在本申请实施例中，训练语料中检测情感词与检测词对可以表示训练语料中真实存在的情感知识，从而每个训练语料中预测情感词与检测情感词的差异及预测词对与检测词对的差异，可以反映预设的编码器及预设的解码器对文本进行情感分析的准确性。从而可以根据每个训练语料中预测情感词与检测情感词的差异及预测词对与检测词对的差异，对预设的编码器及预设的解码器进行更新。

作为一种可能的实现方式，可以分别设计情感词预测对应的第一目标函数，及词对预测对应的第二目标函数，从而可以通过第一目标函数的取值衡量训练语料集中预测情感词与检测情感词的差异，通过第二目标函数的取值衡量训练语料集中预测词对与检测词对的差异。

具体的，第一目标函数的取值越小，则可以确定训练语料集中预测情感词与检测情感词的差异越小，即预设的编码器与预设的解码器对文本进行情感分析的准确性越高；反之，第一目标函数的取值越大，则可以确定训练语料集中预测情感词与检测情感词的差异越大，即预设的编码器与预设的解码器对文本进行情感分析的准确性越低。相应的，第二目标函数的取值越小，则可以确定训练语料集中预测词对与检测词对的差异越小，即预设的编码器与预设的解码器对文本进行情感分析的准确性越高；反之，第二目标函数的取值越大，则可以确定训练语料集中预测词对与检测词对的差异越大，即预设的编码器与预设的解码器对文本进行情感分析的准确性越低。从而，可以预设第一目标函数对应的第四阈值，及第二目标函数对应的第五阈值，若第一目标函数的取值大于第四阈值或第二目标函数的取值大于第五阈值，则可以确定预设的编码器与预设的解码器的性能不符合情感分析的性能需求，从而可以对预设的编码器及预设的解码器的参数进行更新，然后重新利用训练语料集与更新后的预设的解码器及预设的编码器进行训练，直至第一目标函数的取值小于或等于第四阈值，且第二目标函数的取值小于或等于第五阈值，则完成对情感分析模型的预训练过程；若第一目标函数的取值小于或等于第四阈值，且第二目标函数的取值小于或等于第五阈值，则可以确定预设的编码器与预设的解码器的性能符合情感分析的性能需求，从而可以不对预设的编码器与预设的解码器的参数进行更新，并结束对情感分析模型的预训练过程。

根据本申请实施例的技术方案，通过基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对，并按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料，之后利用预设的编码器，对掩码后的语料进行编码处理，生成每个训练语料对应的特征向量，进而利用预设的解码器，对特征向量进行解码处理，确定每个训练语料中包含的预测情感词及预测词对，以根据预测情感词与检测情感词的差异、及预测词对与所述检测词对的差异，对预设的编码器及预设的解码器进行更新。由此，通过在模型预训练过程中融入了统计计算的情感知识，从而使得预训练模型可以对情感分析方向的数据进行更好的表示，提高了情感分析的效果。

在本申请一种可能的实现形式中，统计的训练语料的情感知识中还可以包括情感词的极性信息，以进一步提高情感分析的预训练模型的情感分析效果。

下面结合图3，对本申请实施例提供的情感分析模型预训练方法进行进一步说明。

图3为本申请实施例所提供的另一种情感分析模型预训练方法的流程示意图。

如图3所示，该情感分析模型预训练方法，包括以下步骤：

步骤201，基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对，每个检测词对中包含一个评论点和一个情感词。

上述步骤201的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤202，根据每个检测情感词与给定的种子情感词典中第三种子情感词，在训练语料集中的共现频率、及第三种子情感词的情感极性，确定每个检测情感词的检测情感极性。

在本申请实施例中，确定出训练语句中包含的检测情感词之后，还可以确定每个检测情感词的检测情感极性，以使通过对训练语料集进行统计获得的情感知识更加丰富，进一步提高情感分析的预训练模型对情感知识的表示能力。

作为一种可能的实现方式，给定的种子情感词典中还可以包括各种子情感词的情感极性，从而在确定出训练语料中包含的检测情感词后，可以根据给定的种子情感词典，确定检测情感词的检测情感极性。

可选的，由于训练语料中的检测情感词可以是根据训练语料中的各分词分别与给定的种子情感词典中各种子情感词典的共现频率确定的，由上述实施例可知，即在训练语料中的分词与第一种子情感词在训练语料集中的共现频率大于第一阈值时，可以将该分词确定为训练语料中的检测情感词。因此，在本申请实施例一种可能的实现形式中，可以直接将与检测情感词的共现频率大于第一阈值的第一种子情感词的情感极性，确定为该检测情感词的检测情感极性。

可选的，还可以在确定出训练语料中包含的检测情感词后，确定出与检测情感词的共现频率大于第六阈值的第三种子情感词，进而将第三种子情感词的情感极性确定为该检测情感词的检测情感极性。

需要说明的是，实际使用时，第六阈值可以与第一阈值相同，也可以与第一阈值不同，可以根据实际需要及具体的应用场景确定第六阈值的取值，本申请实施例对此不做限定。

步骤203，按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料。

步骤204，利用预设的编码器，对掩码后的语料进行编码处理，生成每个训练语料对应的特征向量。

上述步骤203-204的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤205，利用预设的解码器，对特征向量进行解码处理，确定每个训练语料中包含的预测情感词、预测词对及每个预测情感词的预测情感极性。

在本申请实施例中，利用预设的解码器对每个训练语料对应的特征向量进行解码处理，以确定每个训练语料中包含的预测情感词及预测词对时，还可以同时确定出每个预测情感词的预测情感极性。

步骤206，根据预测情感词与检测情感词的差异、预测词对与检测词对的差异及每个预测情感词的预测情感极性与检测情感极性的差异，对预设的编码器及预设的解码器进行更新。

在本申请实施例中，训练语料中检测情感词、检测词对及每个检测情感词的检测情感极性，可以表示训练语料中真实存在的情感知识，从而每个训练语料中预测情感词与检测情感词的差异、预测词对与检测词对的差异，以及每个预测情感词的预测情感极性与检测情感词的检测情感极性的差异，可以反映预设的编码器及预设的解码器对文本进行情感分析的准确性。从而可以根据每个训练语料中预测情感词与检测情感词的差异、预测词对与检测词对的差异及每个预测情感词的预测情感极性与检测情感极性的差异，对预设的编码器及预设的解码器进行更新。

作为一种可能的实现方式，可以分别设计情感词预测对应的第一目标函数、词对预测对应的第二目标函数及情感极性预测对应的第三目标函数，从而可以通过第一目标函数的取值衡量训练语料集中预测情感词与检测情感词的差异，通过第二目标函数的取值衡量训练语料集中预测词对与检测词对的差异，通过第三目标函数的取值衡量训练语料集中每个预测情感词的预测情感极性与检测情感词的检测情感极性的差异。

具体的，第一目标函数的取值越小，则可以确定训练语料集中预测情感词与检测情感词的差异越小，即预设的编码器与预设的解码器对文本进行情感分析的准确性越高；反之，第一目标函数的取值越大，则可以确定训练语料集中预测情感词与检测情感词的差异越大，即预设的编码器与预设的解码器对文本进行情感分析的准确性越低。相应的，第二目标函数的取值越小，则可以确定训练语料集中预测词对与检测词对的差异越小，即预设的编码器与预设的解码器对文本进行情感分析的准确性越高；反之，第二目标函数的取值越大，则可以确定训练语料集中预测词对与检测词对的差异越大，即预设的编码器与预设的解码器对文本进行情感分析的准确性越低。相应的，第三目标函数的取值越小，则可以确定训练语料集中预测情感词的预测情感极性与检测情感词的检测情感极性的差异越小，即预设的编码器与预设的解码器对文本进行情感分析的准确性越高；反之，第三目标函数的取值越大，则可以确定训练语料集中预测情感词的预测情感极性与检测情感词的检测情感极性的差异越大，即预设的编码器与预设的解码器对文本进行情感分析的准确性越低。

从而，可以预设第一目标函数对应的第四阈值、第二目标函数对应的第五阈值及第三目标函数对应的第七阈值。若第一目标函数、第二目标函数及点目标函数中的任意一个的取值大于其对应的阈值，则可以确定预设的编码器与预设的解码器的性能不符合情感分析的性能需求，从而可以对预设的编码器及预设的解码器的参数进行更新，然后重新利用训练语料集与更新后的预设的解码器及预设的编码器进行训练，直至第一目标函数的取值小于或等于第四阈值、第二目标函数的取值小于或等于第五阈值且第三目标函数的取值小于或等于第七阈值，则完成对情感分析模型的预训练过程；若第一目标函数的取值小于或等于第四阈值、第二目标函数的取值小于或等于第五阈值且第三目标函数的取值小于或等于第七阈值，则可以确定预设的编码器与预设的解码器的性能符合情感分析的性能需求，从而可以不对预设的编码器与预设的解码器的参数进行更新，并结束对情感分析模型的预训练过程。

根据本申请实施例的技术方案，通过基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词、检测词对及每个检测情感词的检测情感极性，并按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料，之后利用预设的编码器，对掩码后的语料进行编码处理，生成每个训练语料对应的特征向量，进而利用预设的解码器，对特征向量进行解码处理，确定每个训练语料中包含的预测情感词、预测词对及每个预测情感词的预测情感极性，以根据预测情感词与检测情感词的差异、预测词对与所述检测词对的差异及每个预测情感词的预测情感极性与检测情感极性的差异，对预设的编码器及预设的解码器进行更新。由此，通过在模型预训练过程中融入了统计计算的情感词及其情感极性、评论点情感词对等情感知识，并通过设计情感词预测、情感极性预测及词对预测分别对应的目标函数，对模型的更新进行指导，从而不仅使得预训练模型可以对情感分析方向的数据进行更好的表示，进一步提高了情感分析的效果，而且通过多个目标函数，对预训练模型进行了优化，提高了预训练模型对复杂文本知识的学习能力。

为了实现上述实施例，本申请还提出一种情感分析模型预训练装置。

图4为本申请实施例提供的一种情感分析模型预训练装置的结构示意图。

如图4所示，该情感分析模型预训练装置30，包括：

第一确定模块31，用于基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对，每个检测词对中包含一个评论点和一个情感词；

第一生成模块32，用于按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料；

第二生成模块33，用于利用预设的编码器，对掩码后的语料进行编码处理，生成每个训练语料对应的特征向量；

第二确定模块34，用于利用预设的解码器，对特征向量进行解码处理，确定每个训练语料中包含的预测情感词及预测词对；

更新模块35，用于根据预测情感词与检测情感词的差异、及预测词对与检测词对的差异，对预设的编码器及预设的解码器进行更新。

在实际使用时，本申请实施例提供的情感分析模型预训练装置，可以被配置在任意电子设备中，以执行前述情感分析模型预训练方法。

在本申请一种可能的实现形式中，上述第一确定模块31，包括：

第一确定单元，用于若第i个训练语料中第j个分词，与给定的种子情感词典中的第一种子情感词在训练语料集中的共现频率大于第一阈值，则确定第j个分词为第i个训练语料中的检测情感词；

或者，

第二确定单元，用于若第i个训练语料中第j个分词，与给定的种子情感词典中第二种子情感词的相似度大于第二阈值，则确定第j个分词为第i个训练语料中的检测情感词；

进一步的，在本申请另一种可能的实现形式中，上述第一确定模块31，包括：

加入单元，用于将第j分词加入给定的种子情感词典。

进一步的，在本申请再一种可能的实现形式中，上述第一确定模块31，包括：

第三确定单元，用于基于第i个训练语料中各分词与第j个分词在第i个训练语料中的位置关系，与预设的词性模版或句法模版的匹配度，确定第i个训练语料中包含的检测词对。

进一步的，在本申请又一种可能的实现形式中，上述情感分析模型预训练装置30，还包括：

第三确定模块，用于根据每个检测情感词与给定的种子情感词典中第三种子情感词，在训练语料集中的共现频率、及第三种子情感词的情感极性，确定每个检测情感词的检测情感极性；

相应的，上述第二确定模块34，包括：

第四确定单元，用于利用预设的解码器，对特征向量进行解码处理，确定每个训练语料中包含的预测情感词、预测词对及每个预测情感词的预测情感极性；

相应的，上述更新模块35，包括

更新单元，用于根据预测情感词与检测情感词的差异、预测词对与检测词对的差异及每个预测情感词的预测情感极性与检测情感极性的差异，对预设的编码器及预设的解码器进行更新。

进一步的，在本申请又一种可能的实现形式中，上述第一生成模块32，包括：

掩码处理单元，按照预设的比例，将每个训练语料中的检测情感词及检测词对进行掩码处理。

需要说明的是，前述对图1、图3所示的情感分析模型预训练方法实施例的解释说明也适用于该实施例的情感分析模型预训练装置30，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的情感分析模型预训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个电子设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的情感分析模型预训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的情感分析模型预训练方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的情感分析模型预训练方法对应的程序指令/模块(例如，附图4所示的第一确定模块31、第一生成模块32、第二生成模块33、第二确定模块34及更新模块35)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的情感分析模型预训练方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据情感分析模型预训练方法的电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至情感分析模型预训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

情感分析模型预训练方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与情感分析模型预训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种情感分析模型预训练方法，其特征在于，包括：

基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对，每个检测词对中包含一个评论点和一个情感词；

按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料；

利用预设的编码器，对所述掩码后的语料进行编码处理，生成每个训练语料对应的特征向量；

利用预设的解码器，对所述特征向量进行解码处理，确定每个训练语料中包含的预测情感词及预测词对；

根据所述预测情感词与检测情感词的差异、及所述预测词对与所述检测词对的差异，对所述预设的编码器及预设的解码器进行更新。

2.如权利要求1所述的方法，其特征在于，所述基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，包括：

若第i个训练语料中第j个分词，与给定的种子情感词典中的第一种子情感词在训练语料集中的共现频率大于第一阈值，则确定第j个分词为所述第i个训练语料中的检测情感词；

或者，

若第i个训练语料中第j个分词，与给定的种子情感词典中第二种子情感词的相似度大于第二阈值，则确定第j个分词为所述第i个训练语料中的检测情感词；

其中，i为大于0、且小于等于N的整数，j为大于0、且小于等于K的正整数，N为所述训练语料集中包含的训练语料数量，K为第j个训练语料中包含的分词数量。

3.如权利要求2所述的方法，其特征在于，所述确定第j个分词为所述第i个训练语料中的检测情感词之后，还包括：

将所述第j个分词加入所述给定的种子情感词典。

4.如权利要求2所述的方法，其特征在于，所述确定第j个分词为所述第i个训练语料中的检测情感词之后，还包括：

基于所述第i个训练语料中各分词与所述第j个分词在所述第i个训练语料中的位置关系，与预设的词性模版或句法模版的匹配度，确定所述第i个训练语料中包含的检测词对。

5.如权利要求1-4任一所述的方法，其特征在于，所述确定每个训练语料包含的检测情感词之后，还包括：

根据每个检测情感词与给定的种子情感词典中第三种子情感词，在训练语料集中的共现频率、及所述第三种子情感词的情感极性，确定每个检测情感词的检测情感极性；

所述利用预设的解码器，对所述特征向量进行解码处理，包括：

利用预设的解码器，对所述特征向量进行解码处理，确定每个训练语料中包含的预测情感词、预测词对及每个预测情感词的预测情感极性；

所述对所述预设的编码器及预设的解码器进行更新，包括：

根据所述预测情感词与检测情感词的差异、所述预测词对与所述检测词对的差异及每个预测情感词的预测情感极性与检测情感极性的差异，对所述预设的编码器及预设的解码器进行更新。

6.如权利要求1-4任一所述的方法，其特征在于，所述按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，包括：

7.一种情感分析模型预训练装置，其特征在于，包括：

第一确定模块，用于基于给定的种子情感词典，对训练语料集中每个训练语料进行情感知识检测，确定每个训练语料包含的检测情感词及检测词对，每个检测词对中包含一个评论点和一个情感词；

第一生成模块，用于按照预设的掩码处理规则，将每个训练语料中的检测情感词及检测词对进行掩码处理，生成掩码后的语料；

第二生成模块，用于利用预设的编码器，对所述掩码后的语料进行编码处理，生成每个训练语料对应的特征向量；

第二确定模块，用于利用预设的解码器，对所述特征向量进行解码处理，确定每个训练语料中包含的预测情感词及预测词对；

更新模块，用于根据所述预测情感词与检测情感词的差异、及所述预测词对与所述检测词对的差异，对所述预设的编码器及预设的解码器进行更新。

8.如权利要求7所述的装置，其特征在于，所述第一确定模块，包括：

第一确定单元，用于若第i个训练语料中第j个分词，与给定的种子情感词典中的第一种子情感词在训练语料集中的共现频率大于第一阈值，则确定第j个分词为所述第i个训练语料中的检测情感词；

或者，

第二确定单元，用于若第i个训练语料中第j个分词，与给定的种子情感词典中第二种子情感词的相似度大于第二阈值，则确定第j个分词为所述第i个训练语料中的检测情感词；

9.如权利要求8所述的装置，其特征在于，所述第一确定模块，还包括：

加入单元，用于将所述第j个分词加入所述给定的种子情感词典。

10.如权利要求8所述的装置，其特征在于，所述第一确定模块，还包括：

第三确定单元，用于基于所述第i个训练语料中各分词与所述第j个分词在所述第i个训练语料中的位置关系，与预设的词性模版或句法模版的匹配度，确定所述第i个训练语料中包含的检测词对。

11.如权利要求7-10任一所述的装置，其特征在于，还包括：

第三确定模块，用于根据每个检测情感词与给定的种子情感词典中第三种子情感词，在训练语料集中的共现频率、及所述第三种子情感词的情感极性，确定每个检测情感词的检测情感极性；

所述第二确定模块，包括：

第四确定单元，用于利用预设的解码器，对所述特征向量进行解码处理，确定每个训练语料中包含的预测情感词、预测词对及每个预测情感词的预测情感极性；

所述更新模块，包括

更新单元，用于根据所述预测情感词与检测情感词的差异、所述预测词对与所述检测词对的差异及每个预测情感词的预测情感极性与检测情感极性的差异，对所述预设的编码器及预设的解码器进行更新。

12.如权利要求7-10任一所述的装置，其特征在于，所述第一生成模块，包括：

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。