CN113505202A

CN113505202A - 一种基于情感分析的数据增强方法和系统

Info

Publication number: CN113505202A
Application number: CN202110873129.3A
Authority: CN
Inventors: 李浩浩; 葛标
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-15

Abstract

本发明提供一种基于情感分析的数据增强方法和系统，方法包括：建立同义词表或使用公开同义词表，获取并建立需要进行数据增强的文本数据的数据集；分析所述文本数据的情感状态；对所述数据集的同义词进行情感分析和分类；在与数据集具有相同情感状态的同义词中，采用数据增强算法对所述数据集进行数据增强。该方法在使用数据增强算法之前对同义词进行情感分类，判断数据增强算法使用同义词替换时的情感状态，使用同义词替换方法时，所使用的同义词都在同一个情感分类中，所生成语句基本保持了原有句子的情感状态。并考虑使用数据增强后，增强的数据和原始句子情感状态一致。减少了在采用数据增强算法进行数据增强时，对原有句子的情感状态的影响。

Description

一种基于情感分析的数据增强方法和系统

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于情感分析的数据增强方法和系统。

背景技术

在自然语言处理任务中，常常需要大量的数据进行下游任务，并且越来越多的模型需要大量的数据进行训练，但是我们常常会遇到数据不足的情况或数据不均衡的情况。比如，当前有一个任务，目前只有几百的数据，但是模型需要更多的数据进行分析和训练。或者对于一些任务，每一个类别的数据不均衡，比较少数据的有几十，比较多的数据有几万。

对于以上一些需求和任务，我们使用数据增强的方法进行解决。数据增强是一种有效扩充数据样本规模的方法，数据规模越大、质量越好，才能增强模型的泛化能力。目前数据增强已经大量应用在图像领域，通过翻转、旋转、镜像等技巧实现。但是在自然语言处理领域，数据增强方法还比较有限，也存在很多问题。针对自然语言处理任务的数据增强的问题，当前主要有回译、简易数据增强方法、上下文增强方法、马尔可夫增强方法等这几种有效方法。数据增强方法是其中一种简单普遍的方法，被广泛用于自然语言处理领域文本数据增强中。

在自然语言处理任务中经常涉及大量文本的处理，例如语义分析，文本分类，事件抽取等。在这些任务中由于数据量不均衡或数据量较少，常常使用数据增强的方法进行处理。其中简易数据增强方法较为基础也较为常用，但使用中会有一些处理方面的问题。

在简易数据增强的方法中，主要是使用同义词或近义词替换、随机插入、随机交换、随机删除的方法进行数据增强。在使用同义词或近义词替换这个方法中，一般的方法是使用同义词表进行替换或者找到一些相似的词语进行替换，但是替换词语后，句子的原始情感和生成句子的情感可能产生变化，会影响句子整体的含义，但数据增强并未对此方面进行考虑。此时会出现一些问题，比如原始句子的情感是积极的，经过简易数据增强的方法增强后，句子的情感可能变为消极的，此类的生成的数据会对自然语言处理下游任务产生一定的影响，例如舆情分析或案件分类等任务中。

发明内容

因此，为了能够解决上述技术问题，在使用数据增强方法在自然语言处理领域进行数据增强时，其中涉及到使用同义词或近义词进行替换时，考虑替换词语的情感表达，使得原始句子经过单词替换后，句子的原始情感和替换后的情感状态一致。并考虑使用随机插入、随机交换、随机删除的方法进行数据增强后，保持数据增强后的句子和原始句子情感状态一致。解决了原始数据增强方法在生成句子时，原始句子和生成句子情感状态不一样的问题。

其具体技术方案如下：

为实现上述目的，本发明实施例提供一种基于情感分析的数据增强方法，包括步骤：

建立同义词表或使用公开同义词表；

获取并建立需要进行数据增强的文本数据的数据集；

对所述数据集中需要增强的文本数据进行情感分析和分类；

在与所述数据集具有相同情感状态的同义词表中，采用数据增强算法对所述数据集进行数据增强。

进一步的，所述需要增强的文本数据的分类方式包括：

正向情和负向情感两大类；

或者，正向情感、负向情感、中性情感三大类。

进一步的，还包括：

从所述数据集中抽取一条数据；

对所述数据进行情感判断；

从所述同义词表或所述公开同义词表中选择同义词对所述数据进行同义词替换，同时分析所述同义词的情感状态，生成新增数据；

对所述新增数据进行情感分析；

如果新增数据的情感状态没有变化，则将所述新增数据添加至所述数据集；

反之，删除所述新增数据。

进一步的，所述采用数据增强算法对所述数据集进行数据增强，包括：同义词替换操作、随机插入操作、随即交换操作和随机删除操作。

本发明实施例的第二方面提供一种基于情感分析的数据增强系统，包括：

获取模块，用于获取并建立需要进行数据增强的文本数据的数据集；

分类模块，用于对所述数据集中需要增强的文本数据进行情感分析和分类；

判断分类模块(这个是对于同义词的情感分类和判断)，用于对增强前和增强后的所述数据集的同义词进行情感分析和分类；

数据增强模块，用于在与所述数据集具有相同情感状态的同义词中，采用数据增强算法对所述数据集进行数据增强；

所述文本数据的分类方式包括：

正向情和负向情感两大类；

或者，正向情感、负向情感、中性情感三大类。

进一步的，还包括：

同义词表建立模块，用于建立同义词表或使用公开同义词表；

数据抽取模块，用于从数据集中抽取一条数据；

判断分类模块，用于判断增强前和增强后所述文本数据的情感变化，并根据不同的情感状态对所述文本数据进行分类；

替换模块，用于从所述同义词表或所述公开同义词表中选择同义词对所述数据进行同义词替换，同时分析所述同义词的情感状态，生成新增数据；

添加模块，用于将所述新增数据添加至所述数据集。

进一步的，所述数据增强模块，采用数据增强算法对所述数据集进行数据增强，包括：同义词替换操作、随机插入操作、随即交换操作和随机删除操作。

本发明实施例的第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器处理上述所述的基于情感分析的数据增强方法的步骤。

本发明的第四方面提供一种电子设备，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行上述所述用于特定领域情感分析数据的数据增强方法。

本发明实施例提供的一种基于情感分析的数据增强方法，包括：建立同义词表或使用公开同义词表；获取并建立需要进行数据增强的文本数据的数据集；对所述数据集的同义词进行情感分析和分类；用于对抽取的一条数据进行情感分析和分类；在与所述数据集具有相同情感状态的同义词中，采用数据增强算法对所述数据集进行数据增强。该方法在使用数据增强之前对同义词进行情感分类，判断数据增强算法使用同义词替换时的情感状态，使用同义词替换方法时，所使用的同义词都在同一个情感分类中，判断生成句子和使用数据增强算法前保持情感状态一致，所生成语句基本保持了原有句子的情感状态。减少了在采用数据增强算法进行数据增强时，同义词替换以及随机插入操作、随即交换操作和随机删除操作等操作对原有句子的情感状态的影响。

附图说明

图1为本发明实施例1提供的一种基于情感分析的数据增强方法的流程图；

图2为本发明实施例2提供的一种用于特定领域情感分析数据的数据增强系统的结构示意框图；

图3为本发明实施例3的电子设备的结构示意图；

图4为本发明实施例4的计算机可读存储介质的结构示意图；

图中：31-处理器；32-存储器；33-存储空间；34-程序代码；41-程序代码。

具体实施方式

为了使得本发明技术方案能够清楚、详尽的展现出来，以下结合附图对本发明进行说明，但不用来限制本发明的范围。

参见图1为本发明实施例1提供的一种基于情感分析的数据增强方法的流程图，包括步骤：

获取并建立需要进行数据增强的文本数据的数据集；

建立同义词表或使用公开同义词表；

使用同义词替换以及随机插入操作、随即交换操作和随机删除操作等进行数据增强；

对所述数据集的同义词进行情感分析和分类；

本发明提供数据增强方法的一种改进策略，适用于简易数据增强方法对文本进行数据增强时考虑同义词和整体句子的情感状态。当使用简易数据增强方法时，其中涉及使用同义词表进行替换或者找到一些相似的词语进行替换。在进行同义词替换前，使用情感分类方法对同义词进行分类，分类可以使用两种策略，一种策略是正向情感和负向情感两个大类，另一种策略是正向情感、负向情感、中性情感三个大类。使用本发明策略，在用简易数据增强方法做数据增强，其中使用同义词替换方法时，所使用的同义词都在同一个情感分类中，使同义词替换后句子的情感状态基本不变。在使用简易数据增强方法中其他方法，随机插入、随机交换、随机删除等方法时，先对原始句子进行情感分类，可以使用两种策略，同上。在使用简易数据增强方法后，对新生成句子进行情感判断。如果原始句子和生成句子情感状态不一样，则使用简易数据增强方法后生成的数据无法使用，反之，所生成语句保持了原有句子的情感状态，可以收集为新数据作为后续下游任务使用。

上述同义词的分类方式包括：

正向情和负向情感两大类；

或者，正向情感、负向情感、中性情感三大类。

为了使数据集中的数据量充足，在本发明实施例中，还包括：

从数据集中抽取一条数据；

对所述数据进行同义词替换，同时分析所述同义词的情感状态，生成新增数据；

随机插入、随机交换、随机删除等方法时，对新生成句子进行情感判断和原始句子情感保持一致；

从所述数据集中抽取一条数据；

对所述数据进行情感判断；

对所述新增数据进行情感分析；

反之，删除所述新增数据。

上述从数据集中抽取数据之前，需要先建立同义词表，抑或是使用公开的同义词表，对同义词表的词汇进行情感分类建立相关的数据集。

众所周知，当数据集比较少的时候，往往会导致模型陷入过拟合的状态，数据增强是一种比较有效的扩充数据集的方法，在NLP领域数据增强的方法相对较少，在本发明实施例中，主要采用数据增强算法对NLP数据集进行数据增强。数据增强方法在文本数据集小的情况下提升文本分类的性能。

数据增强主要有三个参数：一个句子修改的单词是多少个，修改句子中多少比例的单词，一个句子要生成多少个新句子。一般情况下，句子越长，要修改的单词就越多。在数据增强算法中，主要采用了四种操作进行数据增强：

(1)同义词替换(Synonyms Replace SR)：随机从句子中抽取n个词(抽取时不包括停用词)，然后随机找出抽取这些词的同义词，用同义词将原词替换。例如将句子"我比较喜欢猫"替换成"我有点喜好猫"。通过同义词替换后句子大概率还是会有相同的标签的。

(2)随机插入(Randomly Insert RI)：随机从句子中抽取1个词(抽取时不包括停用词)，然后随机选择一个该词的同义词，插入原来句子中的随机位置，重复这一过程n次。例如将句子"我比较喜欢猫"改为"我比较喜欢猫有点"。

(3)随机交换(Randomly Swap RS)：在句子中，随机交换两个词的位置，重复这一过程n次。例如将句子"我比较喜欢猫"改为"喜欢我猫比较"。

(4)随机删除(Randomly Delete RD)：对于句子的每一个单词，都有p(＝α)的概率会被删除。例如将句子"我比较喜欢猫"改为"我比较猫"。

本发明实施例提供的一种基于情感分析的数据增强方法，包括：获取并建立需要进行数据增强的文本数据的数据集；建立同义词表或使用公开同义词表，对所述数据集的同义词进行情感分析和分类；在与所述数据集具有相同情感状态的同义词中，采用数据增强算法对所述数据集进行数据增强。该方法在使用数据增强之前对同义词进行情感分类，判断数据增强使用同义词替换时的情感状态，使用同义词替换方法时，所使用的同义词都在同一个情感分类中，在使用随机插入、随机交换、随机删除等方法时，对新生成句子进行情感判断和原始句子情感保持一致，

所生成语句基本保持了原有句子的情感状态。减少了在采用数据增强进行数据增强时，数据增强中各种操作(同义词替换、随机插入、随机交换、随机删除等方法时)对原有句子的情感状态的影响。

下面举例对本发明基于情感分析的数据增强方法进行说明。

例1舆情分析任务模型训练时的数据增强

1、从舆情样本数据抽取一条样本A，如‘相关人员对紧急情况进行了果断处理’；

2、对样本A进行情感状态判断，例如样本A为正向；

3、从样本A中随机抽取一个单词B，如【果断】；

4、判断单词B的情感状态，例如【果断】为正向情感；

5、根据同义词表使用同义词或相近词W进行替换，例如同义词或相近词包含【武断、果决】等；

6、对同义词或相近词进行感情分类，得到每个词的情感状态，例如【武断(负向)、果决(正向)】

7、对句子词语进行替换，判断原始句子中词语【果断】为正向情感，选择同为正向情感词语【果决】进行替换，生成结果‘相关人员对紧急情况进行了果决处理’；

8、对新样本A’进行情感判断，例如样本A’为正向和原始状态相同；

9、重复2-8步，生成足够多新样本；

10、使用扩充后的样本集对舆情分析模型进行训练。

例2案件分类任务模型训练时的数据增强

1、从案件样本数据抽取一条样本A，如‘在抗击疫情的战斗中，一线工作者体现出顽强的斗志；

2、对样本A进行情感状态判断，例如样本A为正向；

3、从样本A中随机抽取一个单词B，如【顽强】；

4、判断单词B的情感状态，例如【顽强】为正向情感；

5、使用同义词或相近词W进行替换，例如同义词或相近词包含【顽固、坚强】等；

6、对同义词或相近词进行感情分类，得到每个词的情感状态，例如【顽固(负向)、顽强(正向)】；

7、对句子词语进行替换，判断原始句子中词语【顽强】为正向情感，选择同为正向情感词语【坚强】进行替换，生成结果‘在抗击疫情的战斗中，一线工作者体现出坚强的斗志’；

9、重复2-8步，生成足够多新样本；

10、使用扩充后的样本集对案件分析模型进行训练。

所述文本数据的分类方式包括：

正向情和负向情感两大类；

或者，正向情感、负向情感、中性情感三大类。

进一步的，还包括

数据抽取模块，用于从数据集中抽取一条数据；

添加模块，用于将所述新增数据添加至所述数据集。

本发明的第四方面提供一种电子设备，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行上述所述用于特定领域情感分析数据的EDA的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的检测电子设备的佩戴状态的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图3示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备传统上包括处理器31和被安排成存储计算机可执行指令(程序代码)的存储器32。存储器32可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器32具有存储用于执行图1所示的以及各实施例中的任何方法步骤的程序代码34的存储空间33。例如，用于存储程序代码的存储空间33可以包括分别用于实现上面的方法中的各种步骤的各个程序代码34。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。该计算机可读存储介质可以具有与图3的电子设备中的存储器32类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储空间存储有用于执行根据本发明的方法步骤的程序代码41，即可以有诸如处理器31读取的程序代码，当这些程序代码由电子设备运行时，导致该电子设备执行上面所描述的方法中的各个步骤。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于情感分析的数据增强方法，其特征在于，包括步骤：

建立同义词表或使用公开同义词表；

获取并建立需要进行数据增强的文本数据的数据集；

对所述数据集中需要增强的文本数据进行情感分析和分类；

在与所述数据集具有相同情感状态的同义词表中，采用数据增强算法对所述数据集进行数据增强；

所述需要增强的文本数据的分类方式包括：

正向情和负向情感两大类；

或者，正向情感、负向情感、中性情感三大类。

2.根据权利要求1所述的基于情感分析的数据增强方法，其特征在于，还包括：

从所述数据集中抽取一条数据；

对所述数据进行情感判断；

对所述新增数据进行情感分析；

反之，删除所述新增数据。

3.根据权利要求1所述的基于情感分析的数据增强方法，其特征在于，所述采用数据增强算法对所述数据集进行数据增强，包括：同义词替换操作、随机插入操作、随即交换操作和随机删除操作。

4.一种基于情感分析的数据增强系统，其特征在于，包括：

所述文本数据的分类方式包括：

正向情和负向情感两大类；

或者，正向情感、负向情感、中性情感三大类。

5.根据权利要求4所述的基于情感分析的数据增强改进系统，其特征在于，还包括

数据抽取模块，用于从数据集中抽取一条数据；

添加模块，用于将所述新增数据添加至所述数据集。

6.根据权利要求4所述的一种基于情感分析的数据增强改进系统，其特征在于，所述数据增强模块，采用数据增强算法对所述数据集进行数据增强，包括：同义词替换操作、随机插入操作、随即交换操作和随机删除操作。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器处理权利要求1-3任一所述的基于情感分析的数据增强方法的步骤。

8.一种电子设备，其特征在于，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求1-3任一所述的基于情感分析的数据增强方法。