CN103106211B

CN103106211B - 客户咨询文本的情感识别方法及装置

Info

Publication number: CN103106211B
Application number: CN201110357917.3A
Authority: CN
Inventors: 孙炼; 蔡希; 罗伟民; 陈其铭; 曹存根
Original assignee: China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Group Guangdong Co Ltd
Priority date: 2011-11-11
Filing date: 2011-11-11
Publication date: 2017-05-03
Anticipated expiration: 2031-11-11
Also published as: CN103106211A

Abstract

本发明提供一种客户咨询文本的情感识别方法及装置，属于数据业务技术领域。其中，该客户咨询文本的情感识别方法，包括：选取客户咨询文本训练集的特征组成特征集，所述客户咨询文本训练集包括已标记情感类别的已标记文本；将所述已标记文本转化成以所述特征集中的特征表示的特征向量，得到一训练数据集，对所述训练数据集进行训练生成支持向量机SVM分类器；将待分析的客户咨询文本输入所述SVM分类器，经所述SVM分类器分析得到所述待分析的客户咨询文本所表示的情感类别。本发明的技术方案能够提高情感分类的准确性。

Description

客户咨询文本的情感识别方法及装置

技术领域

本发明涉及数据业务技术领域，特别是指一种客户咨询文本的情感识别方法及装置。

背景技术

随着网络的兴起，越来越多的商家关心各自产品在各种评论网、论坛上的评论、对比分析，因为对产品的评论是其他潜在购买者选择产品的重要参考标准，如何从评论文本中抽取评论意见已经成为急需解决的一个问题，现有技术中主要通过情感分类器来对评论文本进行意见挖掘，它是一种文本分类方法，其任务是挖掘文本中评论人对评论对象所持有的意见(支持/反对/中立)，判断出评论人对产品的评价是否包含负面情感。

现有的情感分类器主要研究显式的情感，显式的情感主要分为两种表达方式：直接评论(Direct Opinions)：直接评论一种产品，例如：“这款手机很好用，音质很不错！”；和对比评论(Comparative Opinions)：对比多种产品进行评论，例如：“A型手机比B型手机的音质好很多”。

但是很多评论文本并不是直接反映出用户对产品的意见，对产品的意见是隐含在评论文本中的，例如电信运营商的用户咨询“怎么今天就扣我话费啊？”表明用户对运营商所提供的扣费业务有质疑。但是现有技术中与隐式情感相关的研究很少，这样就无法准确判断出评论文本所表示的情感类别，导致情感分类的准确率比较低。

发明内容

本发明要解决的技术问题是提供一种客户咨询文本的情感识别方法及装置，能够提高情感分类的准确率。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种客户咨询文本的情感识别方法，包括：

选取客户咨询文本训练集的特征组成特征集，所述客户咨询文本训练集包括已标记情感类别的已标记文本；

将所述已标记文本转化成以所述特征集中的特征表示的特征向量，得到一训练数据集，对所述训练数据集进行训练生成支持向量机SVM分类器；

将待分析的客户咨询文本输入所述SVM分类器，经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别。

进一步地，所述对所述训练数据集进行训练生成支持向量机SVM分类器包括：

运行libsvm文本分类器，将线性核函数和软化间隔参数设置为1，对所述训练数据集进行训练得到SVM分类器。

进一步地，所述选取客户咨询文本训练集的特征组成特征集包括：

对所述已标记文本进行频繁子串挖掘，将得到的频繁子串作为第一候选特征集；

对所述客户咨询文本训练集计算频繁子序列和频繁子串，保留极大的频繁子串特征和极大的频繁子序列作为第二候选特征集；

计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益，选取其中信息增益大于预设阈值的特征组成所述特征集。

进一步地，所述对所述客户咨询文本训练集计算频繁子序列和频繁子串，保留极大的频繁子串特征、极大的频繁子序列作为第二候选特征集包括：

对所述客户咨询文本训练集采用前向最大匹配分词算法进行分词，然后采用基于WAP树的序列挖掘算法计算频繁子序列和频繁子串，保留极大的频繁子串特征和极大的频繁子序列，作为第二候选特征集。

进一步地，所述计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益，选取其中信息增益大于预设阈值的特征组成所述特征集包括：

用下列公式计算特征f的信息增益：

其中，客户咨询文本训练集D涉及m种业务类别c₁，...，c_m，P(c_i)表示未给定特征f时类别c_i出现的概率，P(c_i |f)表示给定特征f时类别c_i出现的概率。

本发明实施例还提供了一种客户咨询文本的情感识别装置，包括：

特征选取模块，用于选取客户咨询文本训练集的特征组成特征集，所述客户咨询文本训练集包括已标记情感类别的已标记文本；

分类器生成模块，用于将所述已标记文本转化成以所述特征集中的特征表示的特征向量，得到一训练数据集，对所述训练数据集进行训练生成支持向量机SVM分类器；

处理模块，用于将待分析的客户咨询文本输入所述SVM分类器，经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别。

进一步地，所述分类器生成模块具体用于运行libsvm文本分类器，将线性核函数和软化间隔参数设置为1，对所述训练数据集进行训练得到SVM分类器。

进一步地，所述特征选取模块包括：

第一处理子模块，用于对所述已标记文本进行频繁子串挖掘，将得到的频繁子串作为第一候选特征集；

第二处理子模块，用于对所述客户咨询文本训练集计算频繁子序列和频繁子串，保留极大的频繁子串特征和极大的频繁子序列作为第二候选特征集；

计算子模块，用于计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益，选取其中信息增益大于预设阈值的特征组成所述特征集。

进一步地，所述第二处理子模块具体用于对所述客户咨询文本训练集采用前向最大匹配分词算法进行分词，然后采用基于WAP树的序列挖掘算法计算频繁子序列和频繁子串，保留极大的频繁子串特征和极大的频繁子序列，作为第二候选特征集。

进一步地，所述计算子模块具体用于用下列公式计算特征f的信息增益：

其中，客户咨询文本训练集D涉及m种业务类别c₁，...，c_m，P(c_i)表示未给定特征f时类别c_i出现的概率，P(c_i |f)表示给定特征f时类别c_i出现的概率

本发明的实施例具有以下有益效果：

上述方案中，首先选取客户咨询文本训练集的特征组成特征集，将已标记情感类别的已标记文本转化成特征向量，得到一训练数据集，对该训练数据集进行训练生成能够进行情感识别的SVM分类器，之后将待分析的客户咨询文本输入该SVM分类器就可以得到待分析的客户咨询文本所表示的情感类别。现有技术中客户咨询在隐式地表达情感时所使用的文字本身不具有情感倾向，但是将客户咨询中的多个表达式关联起来后，则能够表现出一定的情感倾向。本发明能够通过特征挖掘发掘出客户咨询所表达的隐式情感，从而提高情感分类的效率和准确性。

附图说明

图1为本发明实施例的客户咨询文本的情感识别方法的流程示意图；

图2为本发明实施例的客户咨询文本的情感识别装置的结构框图；

图3为本发明实施例的客户咨询文本的情感识别方法的另一流程示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例针对现有技术中情感分类的效率和准确率比较低的问题，提供一种客户咨询文本的情感识别方法及装置，能够提高情感分类的准确率。

图1为本发明实施例的客户咨询文本的情感识别方法的流程示意图，如图1所示，本实施例包括：

步骤101：选取客户咨询文本训练集的特征组成特征集，客户咨询文本训215括已标记情感类别的已标记文本；

步骤102：将已标记文本转化成以特征集中的特征表示的特征向量，得到一训练数据集，对训练数据集进行训练生成SVM(support vector machine，支持向量机)分类器；

步103：将待分析的客户咨询文本输入SVM分类器，经SVM分类器输出得到待分析的客户咨询文本所表示的情感类别。

本发明的客户咨询文本的情感识别方法，首先选取客户咨询文本训练集的特征组成特征集，将已标记情感类别的已标记文本转化成特征向量，得到一训练数据集，对该训练数据集进行训练生成能够进行情感识别的SVM分类器，之后将待分析的客户咨询文本输入该SVM分类器就可以得到待分析的客户咨询文本所表示的情感类别。现有技术中客户咨询在隐式地表达情感时所使用的文字本身不具有情感倾向，但是将客户咨询中的多个表达式关联起来后，则能够表现出一定的情感倾向。本发明能够通过特征挖掘发掘出客户咨询所表达的隐式情感，从而提高情感分类的效率和准确性。

图2为本发明实施例的客户咨询文本的情感识别装置的结构框图，如图2所示，本实施例包括：

特征选取模块20，用于选取客户咨询文本训练集的特征组成特征集，客户咨询文本训练集包括已标记情感类别的已标记文本；

分类器生成模块22，用于将已标记文本转化成以特征集中的特征表示的特征向量，得到一训练数据集，对训练数据集进行训练生成支持向量机SVM分类器；

处理模块24，用于将待分析的客户咨询文本输入SVM分类器，经SVM分类器输出得到待分析的客户咨询文本所表示的情感类别。

其中，分类器生成模块22具体用于运行libsvm文本分类器，将线性核函数和软化间隔参数设置为1，对训练数据集进行训练得到SVM分类器。

进一步地，特征选取模块20包括：

第一处理子模块21，用于对已标记文本进行频繁子串挖掘，将得到的频繁子串作为第一候选特征集；

第二处理子模块23，用于对客户咨询文本训练集计算频繁子序列和频繁子串，保留极大的频繁子串特征和极大的频繁子序列作为第二候选特征集；

计算子模块25，用于计算第一候选特征集和第二候选特征集中的特征的信息增益，选取其中信息增益大于预设阈值的特征组成特征集。

其中，第二处理子模块23具体用于对客户咨询文本训练集采用前向最大匹配分词算法进行分词，然后采用基于WAP树的序列挖掘算法计算频繁子序列和频繁子串，保留极大的频繁子串特征和极大的频繁子序列，作为第二候选特征集。

计算子模块25具体用于用下列公式计算特征f的信息增益：

本发明的客户咨询文本的情感识别装置，首先选取客户咨询文本训练集的特征组成特征集，将已标记情感类别的已标记文本转化成特征向量，得到一训练数据集，对该训练数据集进行训练生成能够进行情感识别的SVM分类器，之后将待分析的客户咨询文本输入该SVM分类器就可以得到待分析的客户咨询文本所表示的情感类别。现有技术中客户咨询在隐式地表达情感时所使用的文字本身不具有情感倾向，但是将客户咨询中的多个表达式关联起来后，则能够表现出一定的情感倾向。本发明能够通过特征挖掘发掘出客户咨询所表达的隐式情感，从而提高情感分类的效率和准确性。

下面结合附图3对本发明实施例的客户咨询文本的情感识别方法进行详细说明。很多情况下，企业交互平台中的客户咨询文本不是直接评价某一产品是好还是差，而是通过反映描述某一产品的使用情况来表达情感，客户所表达的情感包括正面情感和负面情感，正面情感表示对产品的肯定，而负面情感表示对产品的质疑。一般情况下，客户很少专门在一个企业交互平台去赞扬某一产品，仅当客户使用产品时遇到问题才会发送信息进行抱怨或投诉，因此，企业交互平台数据库中呈现更多的是负面信息，极少数表达正面情感，同时客户更多的是通过动词来表达情感，将负面情感的陈述包含于非负面情感文本中，比如：“我昨天充了值，查询还有七十多元，怎么今天就不能上网了？”先陈述已发生的事实，再表达自己的情感。这样现有技术中的情感分类方法很难正确挖掘出客户的情感表达，使得情感分类的效率和准确率比较低。

本发明使用频繁子串和频繁子序列作为句法特征，将已标记情感类别的已标记文本转化成以句法特征表示的向量，得到一训练数据集，对该训练数据集进行训练生成能够进行情感识别的SVM分类器，之后将待分析的客户咨询文本输入该SVM分类器就可以得到待分析的客户咨询文本所表示的情感类别。本发明通过分析句子中动词与其它词语的句法依赖关系以及动词的主动/被动时态等特征从词汇语义学的角度来分析隐式情感，从而能够改进已有情感分类器的性能，通过情感分类的效率和准确性。

如图3所示，本发明实施例的客户咨询文本的情感识别方法包括以下步骤：

步骤301：对输入的客户咨询文本训练集进行预处理；

首先对输入的客户咨询文本训练集进行预处理，去除其中没有实际意义的助词以及称呼等，如“我”、“和”、“与”、“的”等。客户咨询文本包括已标记文本和未标记文本，已标记文本中带有一个标记(‘有’或‘无’)，‘有’表示该文本含有隐式情感，‘无’表示该文本不含隐式情感(更不含有情感)；未标记文本中没有上述标记；

步骤302：对已标记文本进行频繁子串挖掘，将得到的频繁子串作为第一候选特征集；

一个字符串中连续出现的元素形成的串成为频繁子串，包括N-gram串和将语句进行分词后，频繁出现的一个或连续多个词语形成的串。例如，对文字串“为什么扣了十五元钱？”，对应的2-gram串为“为什什么么扣扣了了十十五五元元钱钱？”，对应的3-gram串为“为什么什么扣么扣了扣了十了十五十五元五元钱元钱？本步骤对已标记文本进行频繁子串挖掘，生成已标记文本的所有的1-gram，2-gram以及3-gram，并将这些作为第一候选特征集；

步骤303：对客户咨询文本训练集计算频繁子序列和频繁子串，保留极大的频繁子串特征、极大的频繁子序列作为第二候选特征集；

对语句分词后，频繁出现的在语句中保持顺序的一个或多词语构成的子序列称为频繁子序列。例如，在数据集中有三条语句：语句1＝“为什么扣了十五元钱？”，语句2＝“为何多扣了五元钱？”，语句3＝“多扣了我五元钱，为什么？”，从它们中，得到子序列1＝“扣了五元钱”为频繁子序列，因为它在三个句子均出现了；而子序列2＝“多扣我”不是频繁子序列，因为它只出现一条句子中(即句子3中)。对语句分词是为了得到意义明确的频繁子序列时，避免生成单字组成的子序列。

本步骤对未标记文本及已标记文本，采用前向最大匹配分词算法(自然语言处理NLP处理中的一个常用算法)进行分词，然后采用C.I.Ezeife等提出的基于WAP树的序列挖掘算法计算出客户咨询文本的频繁子序列和频繁子串，只保留极大的频繁子串特征、极大的频繁子序列作为第二候选特征集。所谓“只保留极大的频繁子串、极大的频繁子序列”，是指对任何两个频繁子串S1和S2，如果频繁子串S2是频繁子串S1的子串，则只保留频繁子串S1，而放弃频繁子串S2；对任何两个频繁子序列S1和S2，如果频繁子序列S2是频繁子序列S1的子序列，则只保留频繁子序列S1，而放弃频繁子序列S2；

步骤304：计算第一候选特征集和第二候选特征集中的特征的信息增益，选取其中信息增益大于预设阈值的特征组成所述特征集；

计算第一候选特征集和第二候选特征集中的特征的信息增益IG，保留IG值高于预设阈值的特征组成特征集，该预设阈值可根据具体应用设定，本实施例中，该阈值可以为0.15。本步骤所选取出的特征集，能够对含有隐式情感的客户咨询文本进行情感识别。

具体地，采用下列公式计算特征f的信息增益Gain(f)：

其中，客户咨询文本D涉及m种业务类别c₁，...，c_m，P(c_i)表示未给定特征f时类别c_i出现的概率，P(c_i|f)表示给定特征f时类别c_i出现的概率；

步骤305：将已标记文本转化成以特征集中的特征表示的特征向量，得到一训练数据集，对该训练数据集进行训练生成支持向量机SVM分类器；

将已标记文本转化为以特征集中的特征表示的特征向量，得到一训练数据集，其中特征向量上的每一维对应一个特征，当已标记文本具有该特征时，该特征对应向量的分量的值为1，否则为0。使用C.-J.Lin开发的libsvm文本分类分类器，将其中的线性核函数、软化间隔参数设置为默认值1，之后运行该libsvm文本分类分类器，根据该训练数据集训练出一个SVM分类器；

步骤306：将待分析的客户咨询文本输入该SVM分类器，得到待分析的客户咨询文本所表示的情感类别。

之后在需要对客户咨询文本进行情感识别时，将待分析的客户咨询文本输入该SVM分类器，经该SVM分类器分析就可以得到待分析的客户咨询文本所表示的情感类别。由上述步骤所训练获得的SVM分类器，对客户咨询文本进行情感识别，可以将客户咨询文本分类为“有负面情感”和“无负面情感”。

经大量的交互记录的试验结果表明，对包含负面隐式情感的客户咨询文本，采用本发明的技术方案能够使得情感识别准确率不低于93.91％；另外，对于不包含负面隐式情感的客户咨询文本，采用本发明的技术方案能够使得情感识别准确率达到91.76％，因此本发明实施例的客户咨询文本的情感识别方法可以显著提高情感识别的准确率。

此说明书中所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

在本发明各方法实施例中，所述各步骤的序号并不能用于限定各步骤的先后顺序，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，对各步骤的先后变化也在本发明的保护范围之内。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种客户咨询文本的情感识别方法，其特征在于，包括：

将待分析的客户咨询文本输入所述SVM分类器，经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别；

所述对所述训练数据集进行训练生成支持向量机SVM分类器包括：

运行libsvm文本分类器，将线性核函数和软化间隔参数设置为1，对所述训练数据集进行训练得到SVM分类器；

所述选取客户咨询文本训练集的特征组成特征集包括：

2.根据权利要求1所述的客户咨询文本的情感识别方法，其特征在于，所述对所述客户咨询文本训练集计算频繁子序列和频繁子串，保留极大的频繁子串特征、极大的频繁子序列作为第二候选特征集包括：

3.根据权利要求1所述的客户咨询文本的情感识别方法，其特征在于，所述计算所述第一候选特征集和所述第二候选特征集中的特征的信息增益，选取其中信息增益大于预设阈值的特征组成所述特征集包括：

用下列公式计算特征f的信息增益：

\begin{matrix} G a i n (f) = E n t r o p y (D) - E n t r o p y (D | f) \\ = - Σ_{i = 1}^{m} P (c_{i}) \log P (c_{i}) + p (f) Σ_{i = 1}^{m} P (c_{i} | f) \log P (c_{i} | f) + p (\overset{&OverBar;}{f}) Σ_{i = 1}^{m} P (c_{i} | \overset{&OverBar;}{f}) \log P (c_{i} | \overset{&OverBar;}{f}) \end{matrix}

其中，客户咨询文本训练集D涉及m种业务类别c₁,...,c_m，P(c_i)表示未给定特征f时类别c_i出现的概率，P(c_i|f)表示给定特征f时类别c_i出现的概率。

4.一种客户咨询文本的情感识别装置，其特征在于，包括：

处理模块，用于将待分析的客户咨询文本输入所述SVM分类器，经所述SVM分类器输出得到所述待分析的客户咨询文本所表示的情感类别；

所述分类器生成模块具体用于运行libsvm文本分类器，将线性核函数和软化间隔参数设置为1，对所述训练数据集进行训练得到SVM分类器；

所述特征选取模块包括：

5.根据权利要求4所述的客户咨询文本的情感识别装置，其特征在于，所述第二处理子模块具体用于对所述客户咨询文本训练集采用前向最大匹配分词算法进行分词，然后采用基于WAP树的序列挖掘算法计算频繁子序列和频繁子串，保留极大的频繁子串特征和极大的频繁子序列，作为第二候选特征集。

6.根据权利要求4所述的客户咨询文本的情感识别装置，其特征在于，所述计算子模块具体用于用下列公式计算特征f的信息增益：

\begin{matrix} G a i n (f) = E n t r o p y (D) - E n t r o p y (D | f) \\ = - Σ_{i = 1}^{m} P (c_{i}) \log P (c_{i}) + p (f) Σ_{i = 1}^{m} P (c_{i} | f) \log P (c_{i} | f) + p (\overset{&OverBar;}{f}) Σ_{i = 1}^{m} P (c_{i} | \overset{&OverBar;}{f}) \log P (c_{i} | \overset{&OverBar;}{f}) \end{matrix}