CN111767399B

CN111767399B - 一种基于不均衡文本集的情感分类器构建方法、装置、设备和介质

Info

Publication number: CN111767399B
Application number: CN202010617303.3A
Authority: CN
Inventors: 冯豆豆
Original assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Current assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2022-12-06
Anticipated expiration: 2040-06-30
Also published as: CN111767399A

Abstract

本发明公开了一种基于不均衡文本集的情感分类器构建方法，该方法包括：获取第一不均衡样本集，其中，第一不均衡样本集包括多个第一样本和每个第一样本的情感概率样本值；从预置情感词典中确定出第一样本中的情感词和情感词的分值；确定第一样本中用于修饰情感词的程度副词的分值；根据第一样本中的情感词的分值和程度副词的分值计算第一样本的情感分值；根据预置情感分类器确定第一样本的情感概率值；根据第一样本的情感分值、预置情感分类器确定的第一样本的情感概率值以及第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。另外，本发明还涉及人工智能中的模型训练及区块链技术。

Description

一种基于不均衡文本集的情感分类器构建方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，具体涉及一种基于不均衡文本集的情感分类器构方法、装置、计算机设备和计算机可读存储介质。

背景技术

文本的情感类型包括正面情感、中立情感和负面情感，不同情感类型的文本数量可能不同，当文本集中某类文本的数量远远超过其他类时，该文本集称为不均衡文本集。比如在新闻文本集中，正面情感和中立情感的新闻文本大约占90％，负面情感的新闻文本大约占10％。

在不均衡文本集中，少数类文本所表达的信息量要远远少于多数类。当基于不均衡文本集构建用于判断文本情感类型的情感分类器时，情感分类器基本无法学习到少数类文本的特点，从而导致情感分类器准确率不高，容易出现错判的情况。

针对上述问题，一种相关技术的解决方案是采用过采样技术，即对少数类文本进行多次采样，直至少数类文本的数量和多数类文本的数量相同；另一种相关技术的解决方案是采用欠采样技术，即从多数类文本中采出部分文本，使得多数类文本的数量和少数类文本的数量相同。

然而，发明人研究发现，相关技术中使用过采样技术仅仅是增加了少数类文本的权重，使用欠采样技术仅仅是降低了多数类文本的权重，这两种方法并不能更多更深入的挖掘出少数类文本所包含的情感信息，并且欠采样技术还会丢弃部分多数类文本，从而造成多数类文本的情感信息丢失。

针对相关技术中无法更多的挖掘出少数类文本所包含的情感信息甚至会造成多数类文本的情感信息丢失，从而使得利用不均衡文本集构建的情感分类器的准确率依然较低的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供了一种基于不均衡文本集的情感分类器构方法、装置、计算机设备和计算机可读存储介质，能够解决相关技术中无法更多的挖掘出少数类文本所包含的情感信息甚至会造成多数类文本的情感信息丢失，从而使得利用不均衡文本集构建的情感分类器的准确率依然较低的技术问题。

本发明的一个方面提供了一种基于不均衡文本集的情感分类器构建方法，所述方法包括：获取第一不均衡样本集，其中，所述第一不均衡样本集包括多个第一样本和每个所述第一样本的情感概率样本值；从预置情感词典中确定出所述第一样本中的情感词和所述情感词的分值；确定所述第一样本中用于修饰所述情感词的程度副词的分值；根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值；根据预置情感分类器确定所述第一样本的情感概率值，其中，所述预置情感分类器根据第二不均衡样本集训练得到，所述第二不均衡样本集包括多个第二样本和每个所述第二样本的情感概率样本值；根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

可选地，所述情感词包括正面情感词和负面情感词，所述第一样本的情感分值包括正面情感分值和负面情感分值，所述根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值，包括：根据所述第一样本中的所述正面情感词的分值和用于修饰所述正面情感词的程度副词的分值计算所述第一样本的正面情感分值；和/或根据所述第一样本中的所述负面情感词的分值和用于修饰所述负面情感词的程度副词的分值计算所述第一样本的负面情感分值。

可选地，所述根据所述第一样本中的所述正面情感词的分值和用于修饰所述正面情感词的程度副词的分值计算所述第一样本的正面情感分值，包括：

其中，score_pos表示第一样本的正面情感分值，word_i表示第一样本中的正面情感词，word_pos表示预置情感词典中的正面情感词，

表示word_i的程度副词degree_i的分值，

表示word_i的分值。

可选地，所述根据所述第一样本中的所述负面情感词的分值和用于修饰所述负面情感词的程度副词的分值计算所述第一样本的负面情感分值，包括：

其中，score_neg表示第一样本的负面情感分值，word_j表示第一样本中的负面情感词，word_neg表示预置情感词典中的负面情感词，score_degreej表示word_j的程度副词degree_j的分值，

表示word_j的分值。

可选地，所述情感概率样本值包括正面情感概率样本值、中立情感概率样本值和负面情感概率样本值，所述预置情感分类器确定的情感概率值包括正面情感概率值、中立情感概率值和负面情感概率值，所述根据所述第一样本的情感分值、所述预置情感分类器输出的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器，包括：将所述第一样本的正面情感分值和负面情感分值以及所述预置情感分类器确定的所述第一样本的正面情感概率值、中立情感概率值和负面情感概率值确定为所述第一机器学习算法的输入参数；将所述第一样本的正面情感概率样本值、中立情感概率样本值和负面情感概率样本值确定为所述第一机器学习算法的输出参数；根据所述第一机器学习算法的输入参数和输出参数训练所述第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

可选地，所述方法还包括：所述根据预置情感分类器确定所述第一样本的情感概率值，包括：提取所述第一样本的特征词；对所述第一样本的特征词进行降维处理得到第一目标特征词；将所述第一目标特征词输入所述预置情感分类器，得到所述第一样本的情感概率值。

可选地，所述方法还包括：获取所述第二不均衡样本集；提取所述第二样本的特征词；对所述第二样本的特征词进行降维处理得到第二目标特征词；根据所述第二样本的第二目标特征词和所述第二样本的情感概率样本值训练第二机器学习算法，得到所述预置情感分类器。

本发明的另一个方面提供了一种基于不均衡文本集的情感分类器构建装置，所述装置包括：获取模块，用于获取第一不均衡样本集，其中，所述第一不均衡样本集包括多个第一样本和每个所述第一样本的情感概率样本值；第一确定模块，用于从预置情感词典中确定出所述第一样本中的情感词和所述情感词的分值；第二确定模块，用于确定所述第一样本中用于修饰所述情感词的程度副词的分值；计算模块，用于根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值；第三确定模块，用于根据预置情感分类器确定所述第一样本的情感概率值，其中，所述预置情感分类器根据第二不均衡样本集训练得到，所述第二不均衡样本集包括多个第二样本和每个所述第二样本的情感概率样本值；构建模块，用于根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

本发明的再一个方面提供了一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的基于不均衡文本集的情感分类器构建方法。

本发明的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现上述任一实施例所述的基于不均衡文本集的情感分类器构建方法。进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明提供的基于不均衡文本集的情感分类器构建方法，通过两条支路共同构建目标情感分类器，一条为根据预置情感词典挖掘出第一样本中的情感词，然后根据情感词和程度分词二者的分值确定第一样本的情感分值；另一条为利用预置情感分类器确定第一样本的情感概率值。进一步，将这两条支路的输出既第一样本的情感分值、预置情感分类器确定的第一样本的情感概率值作为输入参数，并将第一不均衡样本集中预先定义的第一样本的情感概率样本值作为输出参数，共同训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。本实施例从多个维度确定目标情感分类器的训练集，解决了相关技术中无法更多的挖掘出少数类文本所包含的情感信息甚至会造成多数类文本的情感信息丢失，从而使得利用不均衡文本集构建的情感分类器的准确率依然较低的技术问题。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例一提供的基于不均衡文本集的情感分类器构建方法的流程图；

图2示出了本发明实施例二提供的基于不均衡文本集的情感分类器构建方法的流程图；

图3示出了本发明实施例三提供的基于不均衡文本集的情感分类器构建装置的框图；

图4示出了本发明实施例四提供的适于实现基于不均衡文本集的情感分类器构建方法的计算机设备的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

实施例一

在实现本发明的过程中，发明人研究发现，在均衡样本集中，各类样本数量相当，且各类样本均包含了充足的信息量，所以利用均衡样本集训练得到的情感分类器能够有效的对文本情感类型进行分类。在不均衡样本集中，少数类样本所表达的信息量要远远少于多数类样本，当基于不均衡样本集构建用于判断文本情感类型的情感分类器时，情感分类器基本无法学习到少数类文本的特点，从而导致情感分类器准确率不高。也即多数情感分类器在均衡样本集上性能良好，但是在不均衡样本集上性能较差，而其本质原因便是少数类样本所含信息过于稀疏。

考虑到现有技术中仅依靠过采样技术或者欠采样技术依然无法解决利用不均衡样本集构建的情感分类器的准确率较低的问题，本发明提出一种基于不均衡文本集的情感分类器构建方法，从情感词典的角度挖掘少数类样本的情感特征。具体地，图1示出了本发明实施例一提供的基于不均衡文本集的情感分类器构建方法的流程图，如图1所示，该基于不均衡文本集的情感分类器构建方法可以包括步骤S1～步骤S6，其中：

步骤S1，获取第一不均衡样本集，其中，所述第一不均衡样本集包括多个第一样本和每个所述第一样本的情感概率样本值。

在第一不均衡文本集中，属于负面情感类型的第一样本较少，属于正面情感类型的第一样本和属于中立情感类型的第一样本较多。

步骤S2，从预置情感词典中确定出所述第一样本中的情感词和所述情感词的分值。

预置情感词典包括知网的hownet情感词典、台湾大学简体中文情感词典和 /或大连理工大学的中文情感词汇本体库等，优选地，为使得统计出的信息更加全面，可以将上述情感词典合并作为预置情感词典。其中，为进一步保证上述预置情感词典的私密性和安全性，上述预置情感词典还可以存储于一区块链的节点中。

由于一篇文章中90％的情感词都是中立的，若使用预置情感词典统计中立情感词，需要预置情感词典非常非常庞大，并且这样统计出的结果意义不大。因此本实施例中通过预置情感词典确定出的情感词包括正面情感词和负面情感词，分值则表征情感的强烈程度，正面情感词的分值表征正面情感的强烈程度，负面情感词的分值表征负面情感的强烈程度。

比如，负面情感词“恨”的强烈程度大于负面情感词“讨厌”的强烈程度，则负面情感词“恨”的分值可以大于负面情感词“讨厌”的分值。

步骤S3，确定所述第一样本中用于修饰所述情感词的程度副词的分值。

预先设置一个程度副词表，该程度副词表包括若干程度副词和每个程度副词的分值，例如，程度副词表为知网的程度级别词语表。

本实施例可以从程度副词表中确定每个情感词的程度副词和每个程度副词的分值。其中，程度副词的分值表征程度副词的强烈程度。比如，程度副词“非常”的强烈程度大于程度副词“比较”的强烈程度，则程度副词“非常”的分值可以大于程度副词“比较”的分值。

步骤S4，根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值。

其中，通过预置情感词典确定出第一样本中的情感词包括正面情感词和负面情感词，相应地，修饰情感词的程度副词包括修饰正面情感词的程度副词和修饰负面情感词的程度副词，第一样本的情感分值包括正面情感分值和负面情感分值。基于此，步骤S4可以包括步骤S41和/或步骤S42，其中：

步骤S41，根据所述第一样本中的所述正面情感词的分值和用于修饰所述正面情感词的程度副词的分值计算所述第一样本的正面情感分值；和/或

步骤S42，根据所述第一样本中的所述负面情感词的分值和用于修饰所述负面情感词的程度副词的分值计算所述第一样本的负面情感分值。

具体地，在计算第一样本的正面情感分值时，可以将第一样本中的各个正面情感词的分值和对应修饰各个正面情感词的程度副词的分值的乘积之和作为该第一样本的正面情感分值，具体参见如下公式(1)：

表示word_i的程度副词degree_i的分值，

表示word_i的分值。

在计算第一样本的负面情感分值时，可以将第一样本中的各个负面情感词的分值和对应修饰各个负面情感词的程度副词的分值的乘积之和作为该第一样本的负面情感分值，具体参见如下公式(2)：

其中，score_neg表示第一样本的负面情感分值，word_j表示第一样本中的负面情感词，word_neg表示预置情感词典中的负面情感词，

表示word_j的程度副词degree_j的分值，

表示word_j的分值。

步骤S5，根据预置情感分类器确定所述第一样本的情感概率值，其中，所述预置情感分类器根据第二不均衡样本集训练得到，所述第二不均衡样本集包括多个第二样本和每个所述第二样本的情感概率样本值。

本实施例中，预置情感分类器通过步骤A1～步骤A4得到，具体地：

步骤A1，获取所述第二不均衡样本集；

步骤A2，提取所述第二样本的特征词；

步骤A3，对所述第二样本的特征词进行降维处理得到第二目标特征词；

步骤A4，根据所述第二样本的第二目标特征词和所述第二样本的情感概率样本值训练第二机器学习算法，得到所述预置情感分类器。

在第二不均衡样本集中，正面情感类型的第二样本和中立情感类型的第二样本数量较多，所携带的信息量充足，此时训练出的预置情感分类器可以充分挖掘出正面情感和中立情感的信息。

本实施例中，可以对每个第二样本分词处理，然后利用TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆文本频率指数)算法从第二样本的分词中提取出第二样本的特征词。由于利用TF-IDF算法提取的特征词的维度较高且稀疏，若直接利用这些特征词训练第二机器学习算法会影响算法的准确度，因此，还可以进一步对第二样本的特征词进行降维处理(如PAC (Principal Component Analyslis，主成分分析)降维)，得到第二目标特征词。

需要说明的是，对于第二不均衡样本集中属于少数类别的第二样本，可以执行过采样处理。如负面情感类型的第二样本一般属于少数类别，因此可以多次对负面情感类型的第二样本执行过采样处理，即多次提取负面情感类型的第二样本的特征词，并对每次提取的特征词进行降维处理，得到第二目标特征词。

进一步，将第二样本的第二目标特征词作为第二机器学习算法的输入参数，将第二样本的情感概率样本值作为第二机器学习算法的输出参数，对第二机器学习算法进行训练，得到该预置情感分类器，其中，第二机器学习算法可以包括xgboost算法、Logistic回归算法或支持向量机(Support Vector Machine，SVM)。

本实施例中，预置情感分类器仅用了文本特征，并没有用情感词典统计的情感特征，这样做可以避免第二机器学习算法提前知道情感规则从而限制其自学习能力，进而使得训练出的预置情感分类器可以更好地挖掘文本中所含的情感信息。优选地，为进一步保证上述预置情感分类器的私密性和安全性，上述预置情感分类器还可以存储于一区块链的节点中。

在训练出预置情感分类器之后，可以利用该预置情感分类器确定第一样本的情感概率值，具体地，步骤S5可以包括步骤S51～步骤S53，其中：

步骤S51，提取所述第一样本的特征词；

步骤S52，对所述第一样本的特征词进行降维处理得到第一目标特征词；

步骤S53，将所述第一目标特征词输入所述预置情感分类器，得到所述第一样本的情感概率值。

本实施例中，也可以使用TF-IDF算法提取第一样本的特征词，还可以使用PAC算法对提取的第一样本的特征词进行降维处理，然后基于预置情感分类器能够输出样本情感概率值的功能，将第一样本的第一目标特征词输入预置情感分类器，得到该预置情感分类器输出的第一样本的情感概率值。

步骤S6，根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

考虑到情感词典可以挖掘出文本中的负面情感信息，而预置情感分类器可以很好地挖掘出文本中正面和中立的情感信息，所以以两者的输出为输入建立的目标情感分类器，可以更加全面地理解文本中的情感信息。具体做法为：将情感词典统计的正面情感分值和负面情感分值与预置情感分类器器输出的正面情感概率、中立情感概率和负面情感概率进行拼接，作为输入参数输入到第一机器学习算法中，以对第一机器学习算法进行训练，其中，第一机器学习算法可以包括xgboost算法、Logistic回归算法(简称LR算法)或支持向量机(Support Vector Machine，SVM)。优选地，为进一步保证上述目标情感分类器的私密性和安全性，上述目标情感分类器还可以存储于一区块链的节点中。

具体地，步骤S6可以包括步骤S61～步骤S62，其中：

步骤S61，将所述第一样本的正面情感分值和负面情感分值以及所述预置情感分类器确定的所述第一样本的正面情感概率值、中立情感概率值和负面情感概率值确定为所述第一机器学习算法的输入参数；

步骤S62，将所述第一样本的正面情感概率样本值、中立情感概率样本值和负面情感概率样本值确定为所述第一机器学习算法的输出参数；

步骤S63，根据所述第一机器学习算法的输入参数和输出参数训练所述第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

本发明从情感词典角度挖掘少数类的情感特征，并且为深入挖掘出文本中的情感信息，建立预置情感分类器，该预置情感分类器中仅用了文本特征，并没有用到情感词典统计的情感词，这是由于情感词典统计的情感词中已经包含了部分正面情感信息，若直接与文本特征拼接作为预置情感分类器的特征，那么预置情感分类器会以正面情感词做为重要依据，无法深入挖掘文本特征所隐含的情感信息，所以本发明使用文本特征构建预置情感分类器，使得预置情感分类器可以更好地挖掘文本中所含的情感信息。最后将情感词典统计出的情感信息和预置情感分类器挖掘出的情感信息进行合并，全面考虑正面情感信息、中立情感信息和负面情感信息，使得建立的目标情感分类器达到精准情感分类的效果。

实施例二

图2示出了本发明实施例二提供的基于不均衡文本集的情感分类器构建方法的流程图。

如图2所示，将不均衡文本集均分，得到一个第一不均衡样本集和一个第二不均衡第二样本集。对于第二不均衡第二样本集中的每个第二样本，提取特征词并对特征词进行PCA降维处理得到第二目标特征词，对于属于少数类的第二样本，进行过采样处理，然后基于这些第二样本的第二目标特征词和第二样本的正面情感概率样本值、中立情感概率样本值和负面情感概率样本值训练 xgboos，得到预置情感分类器。对于第一不均衡样本集中的每个第一样本，先将知网的hownet情感词典、台湾大学简体中文情感词典和大连理工大学的中文情感词汇本体库合并得到预置情感词典，然后利用程度词词典(既程度副词表) 和预置情感词典统计每个第一样本的情感分值。进一步，还将每个第一样本的第一目标特征词输入预先训练好的预置情感分类器中，得到预置情感分类器输出的每个第一样本的情感概率值。最后，根据第一样本的情感分值、预置情感分类器确定的第一样本的情感概率值以及第一样本的情感概率样本值训练LR 算法，得到目标情感分类器。其中，在训练目标情感分类器的过程中，对于属于少数类别的第一样本，依然执行过采样处理。

实施例三

本发明的实施例三还提供了一种基于不均衡文本集的情感分类器构建装置，该基于不均衡文本集的情感分类器构建装置与上述实施例一提供的基于不均衡文本集的情感分类器构建方法相对应，相应的技术特征和技术效果在本实施例中不再详述，相关之处可参考上述实施例一。具体地，图3示出了本发明实施例三提供的基于不均衡文本集的情感分类器构建装置的框图，如图3所示，基于不均衡文本集的情感分类器构建300可以包括获取模块301、第一确定模块 302、第二确定模块303、计算模块304、第三确定模块305和构建模块306，其中：

获取模块301，用于获取第一不均衡样本集，其中，所述第一不均衡样本集包括多个第一样本和每个所述第一样本的情感概率样本值；

第一确定模块302，用于从预置情感词典中确定出所述第一样本中的情感词和所述情感词的分值；

第二确定模块303，用于确定所述第一样本中用于修饰所述情感词的程度副词的分值；

计算模块304，用于根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值；

第三确定模块305，用于根据预置情感分类器确定所述第一样本的情感概率值，其中，所述预置情感分类器根据第二不均衡样本集训练得到，所述第二不均衡样本集包括多个第二样本和每个所述第二样本的情感概率样本值；

构建模块306，用于根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

可选地，所述情感词包括正面情感词和负面情感词，所述第一样本的情感分值包括正面情感分值和负面情感分值，所述计算模块包括：

第一计算单元，用于根据所述第一样本中的所述正面情感词的分值和用于修饰所述正面情感词的程度副词的分值计算所述第一样本的正面情感分值；和/ 或

第二计算单元，用于根据所述第一样本中的所述负面情感词的分值和用于修饰所述负面情感词的程度副词的分值计算所述第一样本的负面情感分值。

可选地，所述第一计算单元用于执行如下公式：

表示word_i的程度副词degree_i的分值，

表示word_i的分值。

可选地，所述第二计算单元用于执行如下公式：

表示word_j的程度副词degree_j的分值，

表示word_j的分值。

可选地，所述情感概率样本值包括正面情感概率样本值、中立情感概率样本值和负面情感概率样本值，所述预置情感分类器确定的情感概率值包括正面情感概率值、中立情感概率值和负面情感概率值，所述构建模块包括：

第一确定单元，用于将所述第一样本的正面情感分值和负面情感分值以及所述预置情感分类器确定的所述第一样本的正面情感概率值、中立情感概率值和负面情感概率值确定为所述第一机器学习算法的输入参数；

第二确定单元，用于将所述第一样本的正面情感概率样本值、中立情感概率样本值和负面情感概率样本值确定为所述第一机器学习算法的输出参数；

构建单元，用于根据所述第一机器学习算法的输入参数和输出参数训练所述第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

可选地，所述第三确定模块包括：

提取单元，用于提取所述第一样本的特征词；

降维单元，用于对所述第一样本的特征词进行降维处理得到第一目标特征词；

输入单元，用于将所述第一目标特征词输入所述预置情感分类器，得到所述第一样本的情感概率值。

可选地，所述装置还包括：

处理模块，用于获取所述第二不均衡样本集；

提取模块，用于提取所述第二样本的特征词；

降维模块，用于对所述第二样本的特征词进行降维处理得到第二目标特征词；

训练模块，用于根据所述第二样本的第二目标特征词和所述第二样本的情感概率样本值训练第二机器学习算法，得到所述预置情感分类器。

实施例四

图4示出了本发明实施例四提供的适于实现基于不均衡文本集的情感分类器构建方法的计算机设备的框图。本实施例中，计算机设备400可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图4所示，本实施例的计算机设备400至少包括但不限于：可通过系统总线相互通信连接的存储器401、处理器402、网络接口 403。需要指出的是，图4仅示出了具有组件401-403的计算机设备400，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器403至少包括一种类型的计算机可读存储介质，可读存储介质包括包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器 (PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器401可以是计算机设备400的内部存储单元，例如该计算机设备400的硬盘或内存。在另一些实施例中，存储器401也可以是计算机设备400的外部存储设备，例如该计算机设备400上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器401 还可以既包括计算机设备400的内部存储单元也包括其外部存储设备。在本实施例中，存储器401通常用于存储安装于计算机设备400的操作系统和各类应用软件，例如基于不均衡文本集的情感分类器构建方法的程序代码等，该基于不均衡文本集的情感分类器构建方法包括：获取第一不均衡样本集，其中，所述第一不均衡样本集包括多个第一样本和每个所述第一样本的情感概率样本值；从预置情感词典中确定出所述第一样本中的情感词和所述情感词的分值；确定所述第一样本中用于修饰所述情感词的程度副词的分值；根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值；根据预置情感分类器确定所述第一样本的情感概率值，其中，所述预置情感分类器根据第二不均衡样本集训练得到，所述第二不均衡样本集包括多个第二样本和每个所述第二样本的情感概率样本值；根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

处理器402在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器402 通常用于控制计算机设备400的总体操作。例如执行与计算机设备400进行数据交互或者通信相关的控制和处理等。本实施例中，处理器402用于运行存储器401中存储的基于不均衡文本集的情感分类器构建方法的步骤的程序代码。

在本实施例中，存储于存储器401中的基于不均衡文本集的情感分类器构建方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器402)所执行，以完成本发明。

网络接口403可包括无线网络接口或有线网络接口，该网络接口403通常用于在计算机设备400与其他计算机设备之间建立通信链接。例如，网络接口 403用于通过网络将计算机设备400与外部终端相连，在计算机设备400与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网 (Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi 等无线或有线网络。

实施例五

本实施例还提供一种计算机可读存储介质，包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于不均衡文本集的情感分类器构建方法的步骤，该基于不均衡文本集的情感分类器构建方法包括：获取第一不均衡样本集，其中，所述第一不均衡样本集包括多个第一样本和每个所述第一样本的情感概率样本值；从预置情感词典中确定出所述第一样本中的情感词和所述情感词的分值；确定所述第一样本中用于修饰所述情感词的程度副词的分值；根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值；根据预置情感分类器确定所述第一样本的情感概率值，其中，所述预置情感分类器根据第二不均衡样本集训练得到，所述第二不均衡样本集包括多个第二样本和每个所述第二样本的情感概率样本值；根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

需要说明的是，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

需要说明的是，本发明实施例序号仅仅为了描述，并不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于不均衡文本集的情感分类器构建方法，其特征在于，所述方法包括：

获取第一不均衡样本集，其中，所述第一不均衡样本集包括多个第一样本和每个所述第一样本的情感概率样本值；

从预置情感词典中确定出所述第一样本中的情感词和所述情感词的分值；

确定所述第一样本中用于修饰所述情感词的程度副词的分值；

根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值；

根据预置情感分类器确定所述第一样本的情感概率值，其中，所述预置情感分类器根据第二不均衡样本集训练得到，所述第二不均衡样本集包括多个第二样本和每个所述第二样本的情感概率样本值；

根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

2.根据权利要求1所述的方法，其特征在于，所述情感词包括正面情感词和负面情感词，所述第一样本的情感分值包括正面情感分值和负面情感分值，所述根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值，包括：

根据所述第一样本中的所述正面情感词的分值和用于修饰所述正面情感词的程度副词的分值计算所述第一样本的正面情感分值；和/或

根据所述第一样本中的所述负面情感词的分值和用于修饰所述负面情感词的程度副词的分值计算所述第一样本的负面情感分值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一样本中的所述正面情感词的分值和用于修饰所述正面情感词的程度副词的分值计算所述第一样本的正面情感分值，包括：

表示word_i的程度副词degree_i的分值，

表示word_i的分值。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一样本中的所述负面情感词的分值和用于修饰所述负面情感词的程度副词的分值计算所述第一样本的负面情感分值，包括：

表示word_j的程度副词degree_j的分值，

表示word_j的分值。

5.根据权利要求2所述的方法，其特征在于，所述情感概率样本值包括正面情感概率样本值、中立情感概率样本值和负面情感概率样本值，所述预置情感分类器确定的情感概率值包括正面情感概率值、中立情感概率值和负面情感概率值，所述根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器，包括：

将所述第一样本的正面情感分值和负面情感分值以及所述预置情感分类器确定的所述第一样本的正面情感概率值、中立情感概率值和负面情感概率值确定为所述第一机器学习算法的输入参数；

将所述第一样本的正面情感概率样本值、中立情感概率样本值和负面情感概率样本值确定为所述第一机器学习算法的输出参数；

根据所述第一机器学习算法的输入参数和输出参数训练所述第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

6.根据权利要求1所述的方法，其特征在于，所述根据预置情感分类器确定所述第一样本的情感概率值，包括：

提取所述第一样本的特征词；

对所述第一样本的特征词进行降维处理得到第一目标特征词；

将所述第一目标特征词输入所述预置情感分类器，得到所述第一样本的情感概率值。

7.根据权利要求1或6所述的方法，其特征在于，所述方法还包括：

获取所述第二不均衡样本集；

提取所述第二样本的特征词；

对所述第二样本的特征词进行降维处理得到第二目标特征词；

根据所述第二样本的第二目标特征词和所述第二样本的情感概率样本值训练第二机器学习算法，得到所述预置情感分类器。

8.一种基于不均衡文本集的情感分类器构建装置，其特征在于，所述装置包括：

获取模块，用于获取第一不均衡样本集，其中，所述第一不均衡样本集包括多个第一样本和每个所述第一样本的情感概率样本值；

第一确定模块，用于从预置情感词典中确定出所述第一样本中的情感词和所述情感词的分值；

第二确定模块，用于确定所述第一样本中用于修饰所述情感词的程度副词的分值；

计算模块，用于根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值；

第三确定模块，用于根据预置情感分类器确定所述第一样本的情感概率值，其中，所述预置情感分类器根据第二不均衡样本集训练得到，所述第二不均衡样本集包括多个第二样本和每个所述第二样本的情感概率样本值；

构建模块，用于根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法，得到用于判断文本情感类别的目标情感分类器。

9.一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。