CN106156184A - 基于情感分类和som聚类的专家评语归纳算法 - Google Patents

基于情感分类和som聚类的专家评语归纳算法 Download PDF

Info

Publication number
CN106156184A
CN106156184A CN201510188748.3A CN201510188748A CN106156184A CN 106156184 A CN106156184 A CN 106156184A CN 201510188748 A CN201510188748 A CN 201510188748A CN 106156184 A CN106156184 A CN 106156184A
Authority
CN
China
Prior art keywords
comment
expert
topic
comments
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510188748.3A
Other languages
English (en)
Inventor
刘烽
刘礼兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Elite Network Technology Co Ltd
Original Assignee
Suzhou Elite Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Elite Network Technology Co Ltd filed Critical Suzhou Elite Network Technology Co Ltd
Priority to CN201510188748.3A priority Critical patent/CN106156184A/zh
Publication of CN106156184A publication Critical patent/CN106156184A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种能对多个专家的不同评语进行基于人工智能的归纳总结算法,该算法采用情感分类先对专家评语的文本内容按“肯定情绪”或“否定情绪”两类进行分类,再采用SOM(自组织特征映射神经网络)对各专家评语涉及的话题进行聚类,从所有专家评语中归纳总结出“某话题肯定性意见”、“某话题否定性意见”的几类评语簇。这一算法针对将传统Delphi法用于网上在线评估这一特定应用场景,采用人工智能技术替代传统Delphi法中,采用人工对专家评语进行归纳总结,这一既耗时成本又高的过程,可提高了传统Delphi法进行线上评估的效率,也降低了人工成本。

Description

基于情感分类和 SOM 聚类的专家评语归纳算法
所属技术领域
本发明涉及一种能对多个专家的不同评语进行基于人工智能的归纳总结算法,该算法采用情感分类先对专家评语的文本内容按“肯定情绪”或“否定情绪”两类进行分类,再采用SOM(自组织特征映射神经网络)对各专家评语涉及的话题进行聚类,从所有专家评语中归纳总结出“某话题肯定性意见”、“某话题否定性意见”的几类评语簇。这一算法针对将传统Delphi法用于网上在线评估这一特定应用场景,采用人工智能技术替代传统Delphi法中,采用人工对专家评语进行归纳总结,这一既耗时成本又高的过程,可提高了传统Delphi法进行线上评估的效率,也降低了人工成本。
背景技术
Delphi法(又称专家咨询法)是对特定事件进行评估的经典科学方法,它采用背对背的通信方式征询专家小组成员的评估意见,经过几轮征询,使专家小组的评估意见趋于集中,最后得出比较合理的评估结论。Delphi法本质上是一种反馈匿名函询法,其大致流程是:在对所要评估的问题征得专家的意见之后,进行整理、归纳、统计,再匿名反馈给各专家,再次征求意见,再集中,再反馈,直至得到一致的意见。这一流程中必须有一个关键的角色:协调人,他负责对每轮各专家的意见进行归纳、总结,归并同类话题意见,排除次要话题意见,再将归纳出的主流意见以匿名反馈給各专家进行了解后,专家再度给出下一轮评估意见,由此重复多轮直到专家意见趋于统一。这个角色对人的分析归纳能力有相当要求,且协调人的工作过程耗时耗力,成本较高,在当今现代社会需要对大量的项目、事件进行快速评估的情况下,若将Delphi法流程应用到互联网平台上进行线上操作的话,协调人的角色必将成为线上流程的主要瓶颈。
另一方面,随着人工智能、自然语言分析等技术的发展,用机器运算来替代人力进行海量文本、自然语言、非关系型数据的搜索、识别、分类、聚类的算法也越来越多和先进,因此,用人工智能来替代传统Delphi法中使用人工来进行的文本归纳操作,已成为可能。
发明内容
为了解决将Delphi法用于线上评估过程中,协调人这一人工角色引起的瓶颈问题,本发明提供了一种新型的算法,该算法通过以人工智能技术为基础的机器计算,可替代传统Delphi法流程中协调人的角色,降低人力成本,提升评估效率。
本发明涉及的算法处理包括如下过程:
1、首先将收集到的各专家评语文本进行预处理,以生成评语文本的结构化表示:这部分处理主要包括对文本进行分词、向量化、降维等三个子步骤。
a)分词:本发明采用基于字符串的正向最大匹配的分词方法,将待分析的字符串与目前通用的词库资源中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。由此将评语文本分割成各个词的组合;
b)向量化:将每一个评语文本Di中每个词tk出现的频度tfik作为基础参考量,采用常用的TF-IDF法确定每一个词的权重wik,形成每个文档D的向量化表示Di=D(ti1,wi2;...tik,wik),
c)降维:再根据各个词tk的权重wik,去除掉不重要的词,剩余关键影响的特征词集Tim,这样一个文档可降维为Di=D(Ti1,wi2;...Tim,wim);
2、将经过预处理后的每个文档向量Di,采用贝叶斯分类器进行情感分类处理,处理过程将调用通用分类词库资源,进而将各评价文档分为“肯定情绪”或“否定情绪”两大类;
3、另一方面,将预处理后的每个文档向量Di,再采用SOM(自组织特征映射神经网络)算法 对各专家评语内容涉及的话题进行聚类运算,经过迭代训练收敛后,分别将各个评语文档聚合成话题内容相同或相似的几个类;
4、根据2、3两步骤获得的分类、聚类结果结合起来,通过末级分类,最终从所有专家评语中归纳总结出几类评语簇:
a)关于话题A的肯定性评语、关于话题A的否定性评语;
b)关于话题B的肯定性评语、关于话题B的否定性评语;
c)关于话题C的肯定性评语、关于话题C的否定性评语;
d)......
本发明带来的有益效果是,通过以人工智能为基础上的机器计算替代传统Delphi法流程中协调人的角色,使得采用Delphi法做线上评估的过程省去了协调人这一角色,避免了大量线上评估流程时的人工瓶颈,可大大降低成本、提升评估效率。
附图说明
下面结合附图和实施例对本发明涉及的算法做进一步说明。
1是本发明算法的基本流程
2是本发明算法的涉及的SOM模型结构。
2中,(1)是输入层,(2)是联接权值,(3)是竞争层或称输出层(含输出节点)。
具体实施方式
1所示,本发明涉及算法的具体实施流程如下:
1、文本预处理:
这一步骤的目的是生成评语文本的结构化表示,主要包括对文本进行分词、向量化表示、降维等三个子步骤:
a)采用基于字符串匹配的分词方法,结合通用或专用的词库资源,将评语文本分割成各个词的组合;
b)将每一个评语文本Di中每个词tk出现的频度tfik作为基础参考量,采用常用的TF-IDF法确定每一个词的权重wik,形成每个文档D的向量化表示Di=D(ti1,wi2;...tik,wik),TF-IDF的权重计算公式如下:
w ik = tf ik × idf k = tf ik × log 2 ( N n k )
式中tfik是一个词tk在文档Di中的词频,idfk是词tk在文档Di中的倒文档频率,N为所有文档的数目,nk为包含词tk的文档数目。
c)再根据各个词ti的权重wik,去除掉不重要(权重低的)的词,剩余关键影响的特征词集Tim,这样一个文档可降维为Di=D(Ti1,wi2;...Tim,wim),简计为:Di=D(wi1,...wim,)。
2、分类:
将经过预处理后的每个文档向量Di,采用贝叶斯分类器进行情感分类处理,训练过程将调用分类词库资源,进而将各评价文档分为“肯定情绪”或“否定情绪”两大类。实际处理中采用的贝叶斯分类器算法如下:
P ( c j | D ) = P ( c j ) Π i = 1 m P ( T i | C j ) w i P ( D )
式中,D为某一含m个特征词的文档,wi为特征词Ti的权重,cj是分类的目标类别,这样通过训练样本的学习,可得到P(cj)和P(Ti|cj)的估计:
P ^ ( c j ) = N j / N
P ^ ( T i | c j ) = ( 1 + w i , j ) / ( m + Σ k = 1 m T k , j )
式中,Nj是训练集中属于类别cj的文档数目,N是训练集中总样本数,Tk j表示训练集中特征Ti在类别cj中出现的次数。
3、聚类:
如图 1所示,聚类过程与分类过程平行进行处理,即将所有预处理后文档向量Di,针对各专家评语内容涉及的话题进行聚类运算,聚类算法采用SOM(自组织特征映射神经网络)算法,SOM模型的结构如图 2所示,由输入层(1)和竞争层(3)2层神经网络组成,输入层(1)的神经元个数由输入文档D的特征词的特征数决定,一个特征词对应一个输入神经元;竞争层(3)的神经元个数的选取,直接影响SOM网络的性能,数目过多则增加计算量,降低学习速度,本发明中根据同领域评语话题聚类的操作经验选取30×30共900个输出结点。设定输入向量维数为R,输出结点数为Q=q×q,则聚类的实施步骤如下:
a)初始化:设定一个有Q个输出结点的二维网格,初始化SOM两层级间权值(2),即将从R个输入结点到Q个输出结点的权值为(0,1)之间的随机数。时间计数置0,即t=0。
b)把每个文本向量Di=D(wi1,...wiR)提交给系统输入层(1),计算输入向量在时刻t到所有输出结点的距离:
d j = Σ i = 0 R - 1 ( x i ( t ) - W ij T ( t ) ) 2
其中xi(t)是输入向量Di在t时刻的值。
c)选择获胜结点j*并更新它和邻近域结点的权值,邻域设为以获胜结点为中心的正方形范围。选择产生最小dj的结点为获胜结点j*,并更新它及其邻域结点的权值以减小到输入向量xi(t)的距离:
w ij T ( t + 1 ) = w ij T ( t ) + μ ( t ) ( x i ( t ) - w ij T ( t ) )
上式中,μ(t)是误差调整系数(0<μ(t)<1),并随时间增加而单调减小,直到收敛。
d)经过上述迭代收敛后,SOM网络将各个评语文档Di分别映射到竞争层(3)上的不同结点上去,即完成聚类的工作。聚类完成后,各文档评语相当于被聚类为:
●关于话题A的评语;
●关于话题B的评语;
●关于话题C的评语;
●......
4、结合2、3两步骤获得的分类、聚类结果,通过末级分类,最终从所有专家评语中归纳总结出几类评语簇:
●关于话题A的肯定性评语、关于话题A的否定性评语;
●关于话题B的肯定性评语、关于话题B的否定性评语;
●关于话题C的肯定性评语、关于话题C的否定性评语;
●......。

Claims (2)

1.一种能对多个专家的不同评语进行自动归纳总结的算法,其特征是:采用情感分类先对专家评语的文本内容按“肯定情绪”或“否定情绪”两类进行分类,再采用SOM(自组织特征映射神经网络)对各专家评语涉及的话题进行聚类,从所有专家评语中归纳总结出“某话题肯定性意见”、“某话题否定性意见”的几类评语簇。
2.根据权利要求1所述的算法,其应用场景特征是:针对将传统Delphi法用于网上在线评估这一特定应用场景,采用人工智能技术替代传统Delphi法过程中协调人这一人工操作角色,从而自动对专家评语进行归纳总结。
CN201510188748.3A 2015-04-21 2015-04-21 基于情感分类和som聚类的专家评语归纳算法 Pending CN106156184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510188748.3A CN106156184A (zh) 2015-04-21 2015-04-21 基于情感分类和som聚类的专家评语归纳算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510188748.3A CN106156184A (zh) 2015-04-21 2015-04-21 基于情感分类和som聚类的专家评语归纳算法

Publications (1)

Publication Number Publication Date
CN106156184A true CN106156184A (zh) 2016-11-23

Family

ID=58057598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510188748.3A Pending CN106156184A (zh) 2015-04-21 2015-04-21 基于情感分类和som聚类的专家评语归纳算法

Country Status (1)

Country Link
CN (1) CN106156184A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457472A (zh) * 2019-07-16 2019-11-15 天津大学 基于som聚类算法的针对电商产品评论的情感关联分析方法
CN111241289A (zh) * 2020-01-17 2020-06-05 北京工业大学 一种基于图理论的som算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020015851A (ko) * 2000-08-23 2002-03-02 전홍건 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
CN1442804A (zh) * 2002-03-01 2003-09-17 何万贯 自动作文评语教育系统
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020015851A (ko) * 2000-08-23 2002-03-02 전홍건 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
CN1442804A (zh) * 2002-03-01 2003-09-17 何万贯 自动作文评语教育系统
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐仰彬: "基于SOM的文本聚类及其在搜索结果中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457472A (zh) * 2019-07-16 2019-11-15 天津大学 基于som聚类算法的针对电商产品评论的情感关联分析方法
CN111241289A (zh) * 2020-01-17 2020-06-05 北京工业大学 一种基于图理论的som算法
CN111241289B (zh) * 2020-01-17 2022-05-03 北京工业大学 一种基于图理论和som网络的文本聚类方法

Similar Documents

Publication Publication Date Title
Geva et al. Transformer feed-forward layers are key-value memories
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
Abirami et al. A survey on sentiment analysis methods and approach
CN107341270B (zh) 面向社交平台的用户情感影响力分析方法
CN107808278B (zh) 一种基于稀疏自编码器的Github开源项目推荐方法
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN111339249B (zh) 一种联合多角度特征的深度智能文本匹配方法和装置
US10387805B2 (en) System and method for ranking news feeds
CN107329954B (zh) 一种基于文档内容和相互关系的主题检测方法
CN110569920A (zh) 一种多任务机器学习的预测方法
CN111970400B (zh) 骚扰电话识别方法及装置
CN112884045B (zh) 基于多视角的随机删边嵌入模型的分类方法
Estevez-Velarde et al. AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text
CN105975497A (zh) 微博话题自动推荐方法及装置
CN116152554A (zh) 基于知识引导的小样本图像识别系统
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
CN115952343A (zh) 一种基于多关系图卷积网络的社交机器人检测方法
Hossain et al. Reducing the effect of imbalance in text classification using SVD and GloVe with ensemble and deep learning
CN114117029A (zh) 一种基于多层次信息增强的解决方案推荐方法及系统
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
Yang et al. CLIP-KD: An Empirical Study of Distilling CLIP Models
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
CN112231476B (zh) 一种改进的图神经网络科技文献大数据分类方法
CN108268461A (zh) 一种基于混合分类器的文本分类装置
CN106156184A (zh) 基于情感分类和som聚类的专家评语归纳算法

Legal Events

Date Code Title Description
DD01 Delivery of document by public notice

Addressee: Suzhou elite network technology Co., Ltd.

Document name: Notification of Passing Preliminary Examination of the Application for Invention

C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161123