CN106156184A

CN106156184A - 基于情感分类和som聚类的专家评语归纳算法

Info

Publication number: CN106156184A
Application number: CN201510188748.3A
Authority: CN
Inventors: 刘烽; 刘礼兵
Original assignee: Suzhou Elite Network Technology Co Ltd
Current assignee: Suzhou Elite Network Technology Co Ltd
Priority date: 2015-04-21
Filing date: 2015-04-21
Publication date: 2016-11-23

Abstract

一种能对多个专家的不同评语进行基于人工智能的归纳总结算法，该算法采用情感分类先对专家评语的文本内容按“肯定情绪”或“否定情绪”两类进行分类，再采用SOM(自组织特征映射神经网络)对各专家评语涉及的话题进行聚类，从所有专家评语中归纳总结出“某话题肯定性意见”、“某话题否定性意见”的几类评语簇。这一算法针对将传统Delphi法用于网上在线评估这一特定应用场景，采用人工智能技术替代传统Delphi法中，采用人工对专家评语进行归纳总结，这一既耗时成本又高的过程，可提高了传统Delphi法进行线上评估的效率，也降低了人工成本。

Description

基于情感分类和 SOM 聚类的专家评语归纳算法

所属技术领域

本发明涉及一种能对多个专家的不同评语进行基于人工智能的归纳总结算法，该算法采用情感分类先对专家评语的文本内容按“肯定情绪”或“否定情绪”两类进行分类，再采用SOM(自组织特征映射神经网络)对各专家评语涉及的话题进行聚类，从所有专家评语中归纳总结出“某话题肯定性意见”、“某话题否定性意见”的几类评语簇。这一算法针对将传统Delphi法用于网上在线评估这一特定应用场景，采用人工智能技术替代传统Delphi法中，采用人工对专家评语进行归纳总结，这一既耗时成本又高的过程，可提高了传统Delphi法进行线上评估的效率，也降低了人工成本。

背景技术

Delphi法(又称专家咨询法)是对特定事件进行评估的经典科学方法，它采用背对背的通信方式征询专家小组成员的评估意见，经过几轮征询，使专家小组的评估意见趋于集中，最后得出比较合理的评估结论。Delphi法本质上是一种反馈匿名函询法，其大致流程是：在对所要评估的问题征得专家的意见之后，进行整理、归纳、统计，再匿名反馈给各专家，再次征求意见，再集中，再反馈，直至得到一致的意见。这一流程中必须有一个关键的角色：协调人，他负责对每轮各专家的意见进行归纳、总结，归并同类话题意见，排除次要话题意见，再将归纳出的主流意见以匿名反馈給各专家进行了解后，专家再度给出下一轮评估意见，由此重复多轮直到专家意见趋于统一。这个角色对人的分析归纳能力有相当要求，且协调人的工作过程耗时耗力，成本较高，在当今现代社会需要对大量的项目、事件进行快速评估的情况下，若将Delphi法流程应用到互联网平台上进行线上操作的话，协调人的角色必将成为线上流程的主要瓶颈。

另一方面，随着人工智能、自然语言分析等技术的发展，用机器运算来替代人力进行海量文本、自然语言、非关系型数据的搜索、识别、分类、聚类的算法也越来越多和先进，因此，用人工智能来替代传统Delphi法中使用人工来进行的文本归纳操作，已成为可能。

发明内容

为了解决将Delphi法用于线上评估过程中，协调人这一人工角色引起的瓶颈问题，本发明提供了一种新型的算法，该算法通过以人工智能技术为基础的机器计算，可替代传统Delphi法流程中协调人的角色，降低人力成本，提升评估效率。

本发明涉及的算法处理包括如下过程：

1、首先将收集到的各专家评语文本进行预处理，以生成评语文本的结构化表示：这部分处理主要包括对文本进行分词、向量化、降维等三个子步骤。

a)分词：本发明采用基于字符串的正向最大匹配的分词方法，将待分析的字符串与目前通用的词库资源中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。由此将评语文本分割成各个词的组合；

b)向量化：将每一个评语文本D_i中每个词t_k出现的频度tf_ik作为基础参考量，采用常用的TF-IDF法确定每一个词的权重w_ik，形成每个文档D的向量化表示D_i＝D(t_i1，w_i2；...t_ik，w_ik)，

c)降维：再根据各个词t_k的权重w_ik，去除掉不重要的词，剩余关键影响的特征词集T_im，这样一个文档可降维为D_i＝D(T_i1，w_i2；...T_im，w_im)；

2、将经过预处理后的每个文档向量D_i，采用贝叶斯分类器进行情感分类处理，处理过程将调用通用分类词库资源，进而将各评价文档分为“肯定情绪”或“否定情绪”两大类；

3、另一方面，将预处理后的每个文档向量D_i，再采用SOM(自组织特征映射神经网络)算法对各专家评语内容涉及的话题进行聚类运算，经过迭代训练收敛后，分别将各个评语文档聚合成话题内容相同或相似的几个类；

4、根据2、3两步骤获得的分类、聚类结果结合起来，通过末级分类，最终从所有专家评语中归纳总结出几类评语簇：

a)关于话题A的肯定性评语、关于话题A的否定性评语；

b)关于话题B的肯定性评语、关于话题B的否定性评语；

c)关于话题C的肯定性评语、关于话题C的否定性评语；

d)......

本发明带来的有益效果是，通过以人工智能为基础上的机器计算替代传统Delphi法流程中协调人的角色，使得采用Delphi法做线上评估的过程省去了协调人这一角色，避免了大量线上评估流程时的人工瓶颈，可大大降低成本、提升评估效率。

附图说明

下面结合附图和实施例对本发明涉及的算法做进一步说明。

图 1是本发明算法的基本流程图。

图 2是本发明算法的涉及的SOM模型结构。

图 2中，(1)是输入层，(2)是联接权值，(3)是竞争层或称输出层(含输出节点)。

具体实施方式

在图 1所示，本发明涉及算法的具体实施流程如下：

1、文本预处理：

这一步骤的目的是生成评语文本的结构化表示，主要包括对文本进行分词、向量化表示、降维等三个子步骤：

a)采用基于字符串匹配的分词方法，结合通用或专用的词库资源，将评语文本分割成各个词的组合；

b)将每一个评语文本D_i中每个词t_k出现的频度tf_ik作为基础参考量，采用常用的TF-IDF法确定每一个词的权重w_ik，形成每个文档D的向量化表示D_i＝D(t_i1，w_i2；...t_ik，w_ik)，TF-IDF的权重计算公式如下：

w_{ik} = {tf}_{ik} \times {idf}_{k} = {tf}_{ik} \times \log_{2} (\frac{N}{n_{k}})

式中tf_ik是一个词t_k在文档D_i中的词频，idf_k是词t_k在文档D_i中的倒文档频率，N为所有文档的数目，n_k为包含词t_k的文档数目。

c)再根据各个词t_i的权重w_ik，去除掉不重要(权重低的)的词，剩余关键影响的特征词集T_im，这样一个文档可降维为D_i＝D(T_i1，w_i2；...T_im，w_im)，简计为：D_i＝D(w_i1，...w_im，)。

2、分类：

将经过预处理后的每个文档向量D_i，采用贝叶斯分类器进行情感分类处理，训练过程将调用分类词库资源，进而将各评价文档分为“肯定情绪”或“否定情绪”两大类。实际处理中采用的贝叶斯分类器算法如下：

P (c_{j} | D) = \frac{P (c_{j}) Π_{i = 1}^{m} P {(T_{i} | C_{j})}^{w_{i}}}{P (D)}

式中，D为某一含m个特征词的文档，w_i为特征词T_i的权重，c_j是分类的目标类别，这样通过训练样本的学习，可得到P(c_j)和P(T_i|c_j)的估计：

\hat{P} (c_{j}) = N_{j} / N

\hat{P} (T_{i} | c_{j}) = (1 + w_{i, j}) / (m + Σ_{k = 1}^{m} T_{k, j})

式中，N_j是训练集中属于类别c_j的文档数目，N是训练集中总样本数，T_k _， _j表示训练集中特征T_i在类别c_j中出现的次数。

3、聚类：

如图 1所示，聚类过程与分类过程平行进行处理，即将所有预处理后文档向量D_i，针对各专家评语内容涉及的话题进行聚类运算，聚类算法采用SOM(自组织特征映射神经网络)算法，SOM模型的结构如图 2所示，由输入层(1)和竞争层(3)2层神经网络组成，输入层(1)的神经元个数由输入文档D的特征词的特征数决定，一个特征词对应一个输入神经元；竞争层(3)的神经元个数的选取，直接影响SOM网络的性能，数目过多则增加计算量，降低学习速度，本发明中根据同领域评语话题聚类的操作经验选取30×30共900个输出结点。设定输入向量维数为R，输出结点数为Q＝q×q，则聚类的实施步骤如下：

a)初始化：设定一个有Q个输出结点的二维网格，初始化SOM两层级间权值(2)，即将从R个输入结点到Q个输出结点的权值为(0，1)之间的随机数。时间计数置0，即t＝0。

b)把每个文本向量D_i＝D(w_i1，...w_iR)提交给系统输入层(1)，计算输入向量在时刻t到所有输出结点的距离：

d_{j} = Σ_{i = 0}^{R - 1} {(x_{i} (t) - W_{ij}^{T} (t))}^{2}

其中x_i(t)是输入向量D_i在t时刻的值。

c)选择获胜结点j*并更新它和邻近域结点的权值，邻域设为以获胜结点为中心的正方形范围。选择产生最小d_j的结点为获胜结点j*，并更新它及其邻域结点的权值以减小到输入向量x_i(t)的距离：

w_{ij}^{T} (t + 1) = w_{ij}^{T} (t) + μ (t) (x_{i} (t) - w_{ij}^{T} (t))

上式中，μ(t)是误差调整系数(0＜μ(t)＜1)，并随时间增加而单调减小，直到收敛。

d)经过上述迭代收敛后，SOM网络将各个评语文档D_i分别映射到竞争层(3)上的不同结点上去，即完成聚类的工作。聚类完成后，各文档评语相当于被聚类为：

●关于话题A的评语；

●关于话题B的评语；

●关于话题C的评语；

●......

4、结合2、3两步骤获得的分类、聚类结果，通过末级分类，最终从所有专家评语中归纳总结出几类评语簇：

●关于话题A的肯定性评语、关于话题A的否定性评语；

●关于话题B的肯定性评语、关于话题B的否定性评语；

●关于话题C的肯定性评语、关于话题C的否定性评语；

●......。

Claims

1.一种能对多个专家的不同评语进行自动归纳总结的算法，其特征是：采用情感分类先对专家评语的文本内容按“肯定情绪”或“否定情绪”两类进行分类，再采用SOM(自组织特征映射神经网络)对各专家评语涉及的话题进行聚类，从所有专家评语中归纳总结出“某话题肯定性意见”、“某话题否定性意见”的几类评语簇。

2.根据权利要求1所述的算法，其应用场景特征是：针对将传统Delphi法用于网上在线评估这一特定应用场景，采用人工智能技术替代传统Delphi法过程中协调人这一人工操作角色，从而自动对专家评语进行归纳总结。