CN109271623A

CN109271623A - 文本情感去噪方法及系统

Info

Publication number: CN109271623A
Application number: CN201810932216.XA
Authority: CN
Inventors: 徐泓洋; 郑权; 张峰; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2019-01-25

Abstract

本发明公开了一种文本情感去噪方法及系统，该文本情感去噪方法包括：步骤S1：获取待处理文本的当前领域；步骤S2：获取当前领域的属性词表，属性词表包括若干个与当前领域相关的属性词；步骤S3：利用属性词表对待处理文本进行去噪处理，以删除待处理文本中与当前领域无关的内容。本发明提供的文本情感去噪方法，利用属性词表对待处理文本进行去噪处理，针对多情感着力点的情况，能够通过限定领域话题范围实现对无关情感片段的删除，从而达到情感去噪的目的，进而有利于提高文本情感极性判断的准确度。

Description

文本情感去噪方法及系统

技术领域

本发明涉及自然语言技术领域，特别是一种文本情感去噪方法及系统。

背景技术

所谓的文本情感分类一般是指针对新闻评论或商品评论文本的褒、贬二元情感分类，以及喜怒哀乐等的多元情感分类。其过程与文本分类过程相似，一般将情感分类看作是一种特殊的文本分类问题。

在文本分类的研究中，因为文字以及由文字组成的词的数量很多，同时在不同的类别的文本中，不同的词出现的情况也各不相同，因此选择出对某个领域有很强区分度的词，将会有助于提升文本分类的准确度。通过特征选择方法从文本中筛选出有效的词，其实也可以看做是一种领域除噪，去除与领域无关的词，以提升文本分类效果。

但是具体到情感分类的问题中，由于情感的共同性，情感不存在领域区分，一段评论中可以有很多种情感，每一个情感都有一个着力点，不同的着力点的情感倾向可能完全相反，如果使用传统的特征选择方法，将挑选出所有表达情感的词，而忽略情感所针对的对象，将导致误判，所以传统的特征选择方法在这里并不适用。如以下酒店领域中的评论文本的例子：

“公司没人性出差不给买飞机票只能坐火车，虽然是卧铺，但是坐久了也很难受，一路上又累又困，到酒店好好的睡了一觉，真舒服。酒店条件挺好，好评！”

显然，上述例子中情感的着力点分别是交通领域的火车，通用领域的评论者自身感受，以及酒店领域的酒店条件这三个领域。负面情感的情感指向公司，火车；正面情感指向酒店。如果是对酒店领域的语料进行分类，上述例子中的情感倾向就是正的；如果是对交通领域的语料进行分类，上述例子中的情感倾向就是负的。因此，在酒店领域中进行分类时，因为有对火车的负面情感的干扰，分类器很可能会做出错误的判断。

发明内容

有鉴于此，本发明的目的在于提供一种文本情感去噪方法及系统，有利于提高文本情感极性判断的准确度。

为实现上述目的，本发明的技术方案提供了一种文本情感去噪方法，包括：

步骤S1：获取待处理文本的当前领域；

步骤S2：获取所述当前领域的属性词表，所述属性词表包括若干个与所述当前领域相关的属性词；

步骤S3：利用所述属性词表对所述待处理文本进行去噪处理，以删除所述待处理文本中与所述当前领域无关的内容。

优选地，所述步骤S2包括：

利用文档主题生成模型获取所述当前领域的属性词表。

优选地，所述利用文档主题生成模型获取所述当前领域的属性词表包括：

步骤S21：获取训练样本集，所述训练样本集包括若干个与所述当前领域相关的语料文本；

步骤S22：对所述训练样本集的语料文本进行处理，得到训练语料；

步骤S23：采用所述训练语料训练文档主题生成模型，得到若干个主题词；

步骤S24：根据所述若干个主题词构建所述属性词表。

优选地，所述步骤S22包括：

步骤S22a：对所述训练样本集的语料文本进行分词处理，得到文本序列；

步骤S22b：保留所述文本序列中预设词性的词，删除所述预设词性之外的词性的词，得到所述训练语料。

优选地，所述步骤S3包括：

步骤S31：对所述待处理文本进行切分处理，得到若干个文本片；

步骤S32：对每一个所述文本片进行预处理，得到每一个文本片的词序列；

步骤S33：根据所述属性词表以及词序列的长度从所述若干个文本片的词序列中选择保留的词序列；

步骤S34：将保留的词序列进行拼接。

优选地，所述步骤S31包括：

以预设的标点符号为切分依据，对所述待处理文本进行切分，从而得到所述若干个文本片。

优选地，所述步骤S32包括：

对每一个所述文本片依次进行分词处理及去停用词处理，从而得到每一个文本片的词序列。

优选地，所述步骤S33包括：对于每一个文本片的词序列，若其满足第一预设条件、第二预设条件中的至少一个条件，则对其进行保留，否则对其进行删除；

其中，所述第一预设条件为词序列的长度小于预设值，所述第二预设条件为词序列包含所述属性词表中至少一个属性词。

为实现上述目的，本发明的技术方案还提供了一种文本情感去噪系统，包括：

第一获取模块，用于获取待处理文本的当前领域；

第二获取模块，用于获取所述当前领域的属性词表，所述属性词表包括若干个与所述当前领域相关的属性词；

处理模块，用于利用所述属性词表对所述待处理文本进行去噪处理，以删除所述待处理文本中与所述当前领域无关的内容。

优选地，所述第二获取模块被配置为利用文档主题生成模型获取所述当前领域的属性词表。

优选地，所述所述第二获取模块包括：

获取单元，用于获取训练样本集，所述训练样本集包括若干个与所述当前领域相关的语料文本；

第一处理单元，用于对所述训练样本集的语料文本进行处理，得到训练语料；

训练单元，用于采用所述训练语料训练文档主题生成模型，得到若干个主题词；

构建单元，用于根据所述若干个主题词构建所述属性词表。

优选地，所述第一处理单元包括：

分词子单元，用于对所述训练样本集的语料文本进行分词处理，得到文本序列；

选择子单元，用于保留所述文本序列中预设词性的词，删除所述预设词性之外的词性的词，得到所述训练语料。

优选地，所述处理模块包括：

切分单元，用于对所述待处理文本进行切分处理，得到若干个文本片；

第二处理单元，用于对每一个所述文本片进行预处理，得到每一个文本片的词序列；

第三处理单元，用于根据所述属性词表以及词序列的长度从所述若干个文本片的词序列中选择保留的词序列；

拼接单元，用于将保留的词序列进行拼接。

优选地，所述切分单元被配置为以预设的标点符号为切分依据，对所述待处理文本进行切分，从而得到所述若干个文本片。

优选地，所述第二处理单元被配置为对每一个所述文本片依次进行分词处理及去停用词处理，从而得到每一个文本片的词序列。

优选地，所述第三处理单元被配置为对于每一个文本片的词序列，若其满足第一预设条件、第二预设条件中的至少一个条件，则对其进行保留，否则对其进行删除；

本发明提供的文本情感去噪方法，利用属性词表对待处理文本进行去噪处理，针对多情感着力点的情况，能够通过限定领域话题范围实现对无关情感片段的删除，从而达到情感去噪的目的，进而有利于提高文本情感极性判断的准确度。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例提供的一种文本情感去噪方法的流程图；

图2是本发明实施例提供的另一种文本情感去噪方法的流程图；

图3是本发明实施例提供的LDA模型提取的部分主题词的示意图；

图4是本发明实施例提供的属性词表的部分内容的示意图；

图5是本发明实施例提供的一种待处理文本的示意图；

图6是图5所示的待处理文本经过属性词匹配得到的结果示意图；

图7是图5所示的待处理文本经过拼接处理得到的结果示意图；

图8是本发明实施例提供的一种文本情感去噪系统的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分，为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

参见图1，图1是本发明实施例提供的一种文本情感去噪方法的流程图，该方法包括：

步骤S1：获取待处理文本的当前领域；

例如，该当前领域可以为酒店、交通、饮食或体育等；

本发明实施例提供的文本情感去噪方法，利用属性词表对待处理文本进行去噪处理，针对多情感着力点的情况，能够通过限定领域话题范围实现对无关情感片段的删除，从而达到情感去噪的目的，进而有利于提高文本情感极性判断的准确度。

例如，在步骤S2中，可以通过人工方式构建当前领域的属性词表；

优选地，可以利用文档主题生成模型(LDA模型)获取所述当前领域的属性词表，参见图2，图2是本发明实施例提供的另一种文本情感去噪方法的流程图，该方法包括：

步骤A：获取待处理文本的当前领域；

步骤B：利用文档主题生成模型(LDA模型)获取所述当前领域的属性词表，具体地，该步骤可以包括步骤S21-步骤S24；

例如，该训练样本集可以包括若干个以所述当前领域为主题的语料文本；

步骤S22：对所述训练样本集的语料文本进行处理，得到训练语料，具体地，该步骤可包括步骤S22a-步骤S22b；

例如，可以采用结巴分词工具对语料文本进行分词，结巴分词是一种常用的中文分词工具，分词后可以得到词的序列以及每个词的词性；

步骤S22b：保留所述文本序列中预设词性的词，删除所述预设词性之外的词性的词，得到所述训练语料；

具体地，可以根据当前领域的情感着力点确定文本序列中要保留的词性以及需要删除的词性，例如，通常可以保留文本序列中的名词和/或动词，并去掉其他成分，但不同的领域会有不同的情感着力点，如具体到酒店领域中，则有“环境”、“卫生”等属性，一般由名词表示，如果可以抽取语料中常用的属性名词，那么就可以获取酒店领域的具体情感着力点；

LDA(Latent Dirichlet Allocation)主题模型是一种基于贝叶斯的文档主题生成模型，其主要思想是由语料文档的主题和主题中使用的词来生成一篇文章需要的词，公式如下所示：

P(w│d)＝P(w│t)×P(t│d)；

其中，每个文档d看作一个单词序列<w₁,w₂,...,w_n>，w_i表示第i个单词，设d有n个单词，t为文档对应的主题；P(w│d)为文档d中出现单词w的概率，P(w│t)为单词w对应到不同主题的概率，P(t│d)为主题对应到文档d的概率；

通过采用上述处理得到的训练语料训练LDA模型，可以抽取主题词作为与当前领域相关的属性词，例如，以酒店的评论文本作为训练样本集中的语料文本，通过这些以酒店为主题的语料文本可以得到评论文本中常用的可以代表主题的词(即主题词)，此外，文本中有各种各样的词性，对于酒店领域，主要需要的是表示属性的名词，因此在分词时只需保留文本中的名词作为文本的内容，并使用LDA模型对保留的名词进行训练，从而实现主题词的提取，例如，LDA模型提取的部分主题词如图3所示；

步骤S24：根据所述若干个主题词构建所述属性词表；

具体地，可以通过对LDA模型抽取的所有主题词进行整理，从而得到属性词表，例如，对于图3所示的主题词抽取结果，进行整理删减后得到属性词表，收录有效的属性词共200个，得到属性词表的部分内容如图4所示，

步骤C：利用所述属性词表对所述待处理文本进行去噪处理，以删除所述待处理文本中与所述当前领域无关的内容，具体地，该步骤可以包括步骤S31-步骤S34；

具体地，可以以预设的标点符号为切分依据，对所述待处理文本进行切分，从而得到所述若干个文本片；

例如，可以以“，”、“。”、“；”、“！”四种主要标点符号为切分依据，将待处理文本切分成若干个文本片；

例如，评论性文本的行文特点更偏向于口语化，语言表达随意，标点符号的使用也极为简单，逗号“，”与句号“。”之间的差别不大，因此，也可以以这两个标点符号为标志对文本进行切分，再对切分后的文本片进行分词；

具体地，对每一个所述文本片依次进行分词处理及去停用词处理，从而得到每一个文本片的词序列；

其中，分词处理可以采用结巴分词工具；

其中，停用词是指没有具体意义，对分类没有多大作用的虚词，包括连词、介词、语气词、标点符号等，例如，可以利用停用词表来剔除停用词，即分词后通过匹配停用词表，将匹配到的停用词去掉，在本实施例中，可以采用通用停用词表或者对通用停用词表进行修改，从而得到所需的停用词表；

具体地，对于每一个文本片的词序列，若其满足第一预设条件、第二预设条件中的至少一个条件，则对其进行保留，否则对其进行删除；

其中，所述第一预设条件为词序列的长度(也即词序列中词的数量)小于预设值，所述第二预设条件为词序列包含所述属性词表中至少一个属性词；

例如，对于每一个文本片的词序列，首先判断其长度是否小于3，若是，则确认为全局信息，不参与属性匹配，并进行保留，以避免全局情感信息的损失，若词序列的长度大于等于3，则遍历属性词表，与该文本片的词序列进行匹配，若匹配到属性词，则认为是当前领域的话题，保留；若未匹配到任何属性词，则认为是无关序列，确认删除；

步骤S34：将保留的词序列进行拼接；

具体地，将保留的词序列按照对应的文本片在待处理文本中的顺序再次进行拼接，重新得到删除部分内容的文本的词序列；

通过上述属性匹配的方法，经过属性匹配去噪后，保留下的将是与话题相关的文本，实现文本的去燥处理，之后可再对文本进行向量化处理，能够使分类模型更好的从文本包含的领域内的情感信息的角度去判断文本的情感极性；

例如，对于待处理文本“公司没人性出差不给买飞机票只能坐火车，虽然是卧铺，但是坐久了也很难受，一路上又累又困，到酒店好好的睡了一觉，真舒服。酒店条件挺好，好评！”,对其依次进行切分处理、预处理、属性词匹配得到的结果如下所示：

[公司,没,人性,出差,不给,买,飞机票,只能,坐火车]，没有匹配中属性词，判定为无关噪声，删除；

[虽然,是,卧铺]，没有匹配中属性词，判定为无关噪声，删除；

[但是,坐,久,了,也,很难受]，没有匹配中属性词，判定为无关噪声，删除；

[一路,上,又,累,又,困]，没有匹配中属性词，判定为无关噪声，删除；

[到,酒店,好好的,睡,了,一觉]，“酒店”匹配中了，判定为相关内容，保留；

[真,舒服]，长度小于3，不参与匹配，保留；

[酒店,条件,挺好]，“酒店”、“条件”匹配中了，判定为相关内容，保留；

[好评]，长度小于3，不参与匹配，保留。

拼接处理得到的结果如下所示：

[到,酒店,好好的,睡,了,一觉,真,舒服,酒店,条件,挺好,好评]；

例如，对于图5所示的待处理文本，对其依次进行切分处理、预处理、属性词匹配得到的结果如图6所示，拼接处理得到的结果如图7所示；

本发明实施例提供的文本情感去噪方法，采用属性词匹配对待处理文本进行去噪，针对多情感着力点的情况，能够通过限定领域话题范围实现对无关情感片段的删除，实现情感去噪，同时不改变文本顺序，最大限度的保留文本上下文信息，在情感分类的研究中，能够使分类模型更好的从文本包含的领域内的情感信息的角度去判断文本的情感极性。

此外，参见图8，图8是本发明实施例提供的一种文本情感去噪系统的示意图，该系统包括：

第一获取模块1，用于获取待处理文本的当前领域；

第二获取模块2，用于获取所述当前领域的属性词表，所述属性词表包括若干个与所述当前领域相关的属性词；

处理模块3，用于利用所述属性词表对所述待处理文本进行去噪处理，以删除所述待处理文本中与所述当前领域无关的内容。

在一实施例中，所述第二获取模块被配置为利用文档主题生成模型获取所述当前领域的属性词表。

在一实施例中，所述所述第二获取模块包括：

构建单元，用于根据所述若干个主题词构建所述属性词表。

在一实施例中，所述第一处理单元包括：

在一实施例中，所述处理模块包括：

拼接单元，用于将保留的词序列进行拼接。

在一实施例中，所述切分单元被配置为以预设的标点符号为切分依据，对所述待处理文本进行切分，从而得到所述若干个文本片。

在一实施例中，所述第二处理单元被配置为对每一个所述文本片依次进行分词处理及去停用词处理，从而得到每一个文本片的词序列。

在一实施例中，所述第三处理单元被配置为对于每一个文本片的词序列，若其满足第一预设条件、第二预设条件中的至少一个条件，则对其进行保留，否则对其进行删除；

本领域的技术人员容易理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。

应当理解，上述的实施方式仅是示例性的，而非限制性的，在不偏离本发明的基本原理的情况下，本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换，都将包含于本发明的权利要求范围内。

Claims

1.一种文本情感去噪方法，其特征在于，包括：

步骤S1：获取待处理文本的当前领域；

2.根据权利要求1所述的文本情感去噪方法，其特征在于，所述步骤S2包括：

利用文档主题生成模型获取所述当前领域的属性词表。

3.根据权利要求2所述的文本情感去噪方法，其特征在于，所述利用文档主题生成模型获取所述当前领域的属性词表包括：

步骤S24：根据所述若干个主题词构建所述属性词表。

4.根据权利要求3所述的文本情感去噪方法，其特征在于，所述步骤S22包括：

5.根据权利要求1所述的文本情感去噪方法，其特征在于，所述步骤S3包括：

步骤S34：将保留的词序列进行拼接。

6.根据权利要求5所述的文本情感去噪方法，其特征在于，所述步骤S31包括：

7.根据权利要求5所述的文本情感去噪方法，其特征在于，所述步骤S32包括：

8.根据权利要求5所述的文本情感去噪方法，其特征在于，所述步骤S33包括：对于每一个文本片的词序列，若其满足第一预设条件、第二预设条件中的至少一个条件，则对其进行保留，否则对其进行删除；

9.一种文本情感去噪系统，其特征在于，包括：

第一获取模块，用于获取待处理文本的当前领域；

10.根据权利要求9所述的文本情感去噪系统，其特征在于，所述第二获取模块被配置为利用文档主题生成模型获取所述当前领域的属性词表。

11.根据权利要求10所述的文本情感去噪系统，其特征在于，所述所述第二获取模块包括：

构建单元，用于根据所述若干个主题词构建所述属性词表。

12.根据权利要求11所述的文本情感去噪系统，其特征在于，所述第一处理单元包括：

13.根据权利要求9所述的文本情感去噪系统，其特征在于，所述处理模块包括：

拼接单元，用于将保留的词序列进行拼接。

14.根据权利要求13所述的文本情感去噪系统，其特征在于，所述切分单元被配置为以预设的标点符号为切分依据，对所述待处理文本进行切分，从而得到所述若干个文本片。

15.根据权利要求13所述的文本情感去噪系统，其特征在于，所述第二处理单元被配置为对每一个所述文本片依次进行分词处理及去停用词处理，从而得到每一个文本片的词序列。

16.根据权利要求13所述的文本情感去噪系统，其特征在于，所述第三处理单元被配置为对于每一个文本片的词序列，若其满足第一预设条件、第二预设条件中的至少一个条件，则对其进行保留，否则对其进行删除；