CN105989550A - 一种在线服务评价信息确定方法及设备 - Google Patents

一种在线服务评价信息确定方法及设备 Download PDF

Info

Publication number
CN105989550A
CN105989550A CN201510098614.2A CN201510098614A CN105989550A CN 105989550 A CN105989550 A CN 105989550A CN 201510098614 A CN201510098614 A CN 201510098614A CN 105989550 A CN105989550 A CN 105989550A
Authority
CN
China
Prior art keywords
keyword
information
word
online service
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510098614.2A
Other languages
English (en)
Inventor
任望
王晶
郭庆榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510098614.2A priority Critical patent/CN105989550A/zh
Publication of CN105989550A publication Critical patent/CN105989550A/zh
Pending legal-status Critical Current

Links

Abstract

本申请公开了一种在线服务评价信息确定方法。在通过文本预处理获取待处理的在线服务的信息记录的关键词后,根据预设的关键词数据库为各关键词赋予数值,并根据各关键词的数值确定与信息记录对应的权重值,最后判断权重值是否大于预设的阈值,基于判断结果为在线服务设置正面或负面评价信息。从而实现了针对在线服务质量的自动检测以及评价,在保证公正的基础上提高了检查的效率。

Description

一种在线服务评价信息确定方法及设备
技术领域
本申请涉及通信技术领域,特别涉及一种在线服务评价信息确定方法。本申请同时还涉及一种在线服务评价信息确定设备。
背景技术
随着移动互联网时代的到来,越来越多的商家开始在网上提供服务。这些服务因其快捷性,受到了越来越多商家的喜欢。随着服务量的增加,各种售前,售后服务需求量急剧增加。通常这种服务是由电话呼叫中心承接,然而电话呼叫,因为其成本较高,应用受到一定限制。相比之下,在线客服作为一种低成本的解决方案,受到了商家的欢迎。
随着在线客服服务量的增加,在线客服聊天记录成为发现用户声音的一种重要渠道。用户的声音包含着对产品,流程以及服务本身的期许和评价。发现这些客户的声音,对于产品质量的提升,流程优化都有着重要的意义。同时,在线聊天记录也可以用来检测商家提供的服务质量本身。
在目前的现有技术中,为了实现针对在线服务的评价,通常通过人工抽检来发现用户对于产品或是服务本身的评价。但是这种方法耗时耗力,且覆盖有限。同时,不同的人进行抽检,也存在标准难以统一等缺点。
发明内容
本申请提供一种在线服务评价信息确定方法,以帮助发现客户对于产品的观点,以及商家提供服务本身的缺陷。
本申请实施例提供了一种在线服务评价信息确定方法,包括:
通过文本预处理获取待处理的在线服务的信息记录的关键词;
根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评价信息的在线服务的信息记录中的正面关键词;
判断所述权重值是否大于预设的阈值;
若判断结果为是,为所述在线服务设置正面评价信息;
若判断结果为否,为所述在线服务设置负面评价信息。
优选的,通过文本预处理获取待处理的在线服务的信息记录的关键词,具体为:
对所述信息记录进行分词处理以及句法分析处理,获取所述信息记录中的各词语;
对所述各词语进行同义词转换以及停顿词过滤处理,将处理后所得到的词语作为所述关键词。
优选的,根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值确定与所述信息记录对应的权重值,具体为:
对各所述关键词进行卡方检验,将卡方值大于预设阈值的关键词设置特征;
为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;
获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所述权重值。
优选的,在为所述在线服务的设置正面或负面评价信息之后,还包括:
根据预设的语法规则分别确定与所述在线服务对应的服务提供方以及服务接收方的情绪信息;
根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
优选的,在通过文本预处理获取待处理的在线服务的信息记录的关键词之前,还包括:
从消息数据库的记录信息中提取在线服务的关键词;
根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键词以及负面关键词;
根据所述正面关键词生成所述关键词数据库。
本申请实施例还提供了一种在线服务评价信息确定设备,包括:
获取模块,用于通过文本预处理获取待处理的在线服务的信息记录的关键词;
赋值模块,用于根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评价信息的在线服务的信息记录中的正面关键词;
判断模块,用于判断所述权重值是否大于预设的阈值;
设置模块,用于当所述判断模块判断结果为是时,为所述在线服务设置正面评价信息;以及当所述判断模块判断结果为否时,为所述在线服务设置负面评价信息。
优选的,所述获取模块,具体用于:
对所述信息记录进行分词处理以及句法分析处理,获取所述信息记录中的各词语;
对所述各词语进行同义词转换以及停顿词过滤处理,将处理后所得到的词语作为所述关键词。
优选的,所述赋值模块,具体用于:
对各所述关键词进行卡方检验,将卡方值大于预设阈值的关键词设置特征;
为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;
获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所述权重值。
本在线服务评价信息确定,还包括:
处理模块,用于根据预设的语法规则分别确定与所述在线服务对应的服务提供方以及服务接收方的情绪信息;
根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
本在线服务评价信息确定,,还包括:
生成模块,用于从消息数据库的记录信息中提取在线服务的关键词;
根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键词以及负面关键词;
根据所述正面关键词生成所述关键词数据库。
由此可见,通过应用本申请的技术方案,在通过文本预处理获取待处理的在线服务的信息记录的关键词后,根据预设的关键词数据库为各关键词赋予数值,并根据各关键词的数值确定与信息记录对应的权重值,最后判断权重值是否大于预设的阈值,基于判断结果为在线服务设置正面或负面评价信息。从而实现了针对在线服务质量的自动检测以及评价,在保证公正的基础上提高了检查的效率。
附图说明
图1为本申请提出的一种在线服务评价信息确定方法的流程示意图;
图2为本申请具体实施例所提出的一种呼叫中心在线服务进行情感分析的流程图;
图3为本申请提出的一种在线服务评价信息确定设备的结构示意图。
具体实施方式
针对现有技术中的缺陷,本申请实施例一提出了一种在线服务评价信息确定方法,包括以下步骤:
步骤101,通过文本预处理获取待处理的在线服务的信息记录的关键词;
具体的关键词获取过程可以如下:
对所述信息记录进行分词处理以及句法分析处理,获取所述信息记录中的各词语;对所述各词语进行同义词转换以及停顿词过滤处理,将处理后所得到的词语作为所述关键词;例如信息记录为“我喜欢中国”,可以对其进行分词处理,例如“我\喜欢\中国”以及“我喜\欢\中国”,然后基于句法分析处理,可以将“我喜\欢\中国”排除,然后获取“我\喜欢\中国”中的各词语“我”,“喜欢”,“中国”,而“我”的同义词有“自己”,“吾”等等,“喜欢”的同义词有“喜爱”等等,若信息记录中存在停顿词,例如“呃”,“那个”等等,则将其排除出去,处理之后剩下的词语就作为关键词。
而具体的,在步骤101之前,也即在通过文本预处理获取待处理的在线服务的信息记录的关键词之前,还包括:从消息数据库的记录信息中提取在线服务的关键词;根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键词以及负面关键词;根据所述正面关键词生成所述关键词数据库。
在实际的场景中,信息都是会被保存在消息数据库中的,而其中的一些记录的消息中是含记录信息有用户的评价的,例如好评,差评等,通过用户的评价对相应记录消息中的关键词进行划分,具体的可以划分为正面关键词和负面关键词,例如存在用户的评价为好评的信息中存在关键词“质量好”,该关键词即为正面关键词,在划分好关键词之后,基于所获取的正面关键词生成所述关键词数据库。
步骤102,根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评价信息的在线服务的信息记录中的正面关键词;
具体的确定权重值的过程如下:
首先对各所述关键词进行卡方检验,将卡方值大于预设阈值的关键词设置特征;由于关键词中有一些是没有用的,因此对需要将没有用的关键词进行剔除,为此对各所述关键词进行卡方检验,也即确定各关键词的卡方值,若卡方值小于预设阈值,则说明是无用的关键词,可以剔除,只留下大于预设阈值的关键词,并为其设置特征。
为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;例如关键词A的卡方值大于预设阈值,且关键词A也出现在在关键词数据库中,则将关键词A的特征赋予1,而若是关键词B的卡方值大于预设阈值,但关键词B没有出现在关键词数据库中,则为关键词B的特征赋予0,并基于关键词A和B的特征赋值生成对应的向量,也即1和0的向量。
获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所述权重值。整条消息中包括多个关键词,有些关键词可能是负面的,有些可能是正面的,而整条消息是否正面,则需要全面的考虑所有关键词。例如消息1中包括关键词1(对应特征赋予1),关键词2(对应特征赋予1),关键词3(对应特征赋予0),通过三个关键词的特征赋值生成的三个向量,将该三个向量进行逻辑斯蒂梯度计算处理后,会得到一个梯度值,该梯度值即为消息1的权重值。
步骤103,判断所述权重值是否大于预设的阈值;若判断结果为是,为所述在线服务设置正面评价信息;若判断结果为否,为所述在线服务设置负面评价信息。
在为所述在线服务的设置正面或负面评价信息之后,还包括:根据预设的语法规则分别确定与所述在线服务对应的服务提供方以及服务接收方的情绪信息;根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
在获取到消息是正面评价信息还是负面评价信息之后,而消息可能是服务提供方或者服务接收方发送的,假设是消息2是服务接收方提供的,其中包含了服务接收方的情绪信息,例在此情况下,还需要进一步判断情绪所针对的对象,例如服务接收方的情绪是负面的,且负面情绪针对的是物流速度慢,以此可以基于所针对的问题,全面的而细致的了解服务提供方提供服务本身的缺陷以及和服务接收方对于产品的观点,以便后续做出针对性的改进。
为了进一步阐述本申请的技术思想,现结合具体的应用场景,对本申请的技术方案进行说明。以下首先将简要概述本申请的主要流程:
1.新词发现处理流程
在该流程中,先对所有的文本进行学习,通过分布式算法,计算信息熵,互信息等统计量,并利用这些统计量来自动发现和呼叫中心在线服务领域相关的新词。
2.情感词典获取流程
在该流程中,利用用户已经进行评价的数据,获取基于呼叫中心领域在线服务的情感词典。
3.基于对话进行情感分析
利用用户已经进行评价的数据,建立分布式逻辑斯蒂类器。利用专家知识,建立启发式的分类器。
4.基于属性进行情感分析:对于上一步骤已经判断的情感分析结果,进一步分析,用户的负面情感的对象是产品,流程,还是服务本身。
基于以上流程概述,以下将详细介绍流程的实现步骤,如图2所示,为根据本申请具体实施例所提出的一种呼叫中心在线服务进行情感分析的流程图,包含以下步骤:
步骤201:对在线文本进行新词发现,得到新词词典。
具体地,该步骤首先进行数据入库处理,将所有对话聊天记录装载入分布式数据库中,以便后续分布式算法可以进行新词发现。建立基于Map Reduce的新词发现算法,通过Map Reduce来计算互信息和信息熵,发现特定领域的新词。
步骤202:基于已经评价的对话,自动获取负面情感词典。
具体地,该步骤基于已经评论的对话,自动获取负面情感词典包括种子词汇的获取,迭代获取新词。通过卡方获取种子词汇,基于曼哈顿距离进行新的情绪词发现。
步骤203:基于新词词典和情感词典,建立基于机器学习的分布式的分类器和基于规则的启发式分类器。
具体地,该步骤基于新词词典和情感词典,建立基于机器学习的分布式的分类器和基于规则的启发式分类器。其中包含,通过分布式随机梯度算法来建立分类器。通过句法分析,专业知识,正则表达式等建立基于规则的启发式分类器。
步骤204:对步骤203所发现的具有负面情绪对话,进行属性分析,从而得到负面情绪的对象。
具体地,该步骤对步骤103所发现的具有负面情绪对话,进行属性分析,从而得到负面情绪的对象具体可以包含,产品的负面评价,流程的负面评价,服务本身负面评价。利用标注数据,建立基于条件随机场的分类器和基于规则的启发式分类器。
对于以上过程中的新词发现处理流程,以下面将结合一个具体事例,进行更详细的说明。
几乎所有的中文自然语言处理都面临着一个难题,分词问题。分词是所有后续进行分析的基础。虽然当前主流的分词方法,都有着较高的准确率。但是,这些分词方法对于未登录词,也就是领域相关词汇,并不具有很好的区分效果。而这些领域相关词汇,对于后续整个分析有着至关重要的作用。这样,为了保持后续分析的正确性,需要进行新词发现。同时,因为新词是随着时间的变化而不断的变化,此模型需要反复训练。本申请采取基于bash,Python脚本进行自动化训练的方法。因为,呼叫中心在线服务领域每天都会有大量服务记录产生,为了能更快速的进行新词发现。故实施了分布式的新词发现算法。该方法包含步骤如下:
步骤a),通过Bash脚本和Python脚本实现自动化数据交互。
为了更好的进行数据分析,本申请采取在本地进行小规模训练。大规模训练采取分布式算法的方式。首先通过crontab命令设置定时任务,例如,每天早晨10点运行指定shell脚本。随后,shell脚本调用Python命令,生成sql文件。在sql文件中,指定需要进行新词发现的对话记录的开始日期和结束日期。最终,shell脚本调用阿里云提供的命令odpscmd,执行相关的sql,生成准备数据。
步骤b),对数据库中聊天记录进行分析,利用基于Map Reduce的新词发现算法,进行新词发现。
具体地,基于数据库中聊天记录所进行的新词发现具体流程如下:
(1)定义所待发现新词最大长度,此处设置N=5。即词的最大长度为5。考虑到呼叫中心中有大量的专用短语,故设置最大长度较长。
(2)对于一个短句,c1c2c3…cn。其中c1表示第一个字符,cn表示第n个字符。下面举例说明,对于如下的短句,“请提高服务质量”。c1为“请”,c2为“提”,c6为“量”。候选新词可以分为二元词,三元词,四元词,五元词。其中二元词为c1c2,c2c3,...,cn-1cn。对于上面的例句,二元词为,“请提”,“提高”,“高服”,“务质”,“质量”。三元词为c1c2c3,c2c3c4...cn-2,cn-1,cn。四元词为c1c2c3c4...cn-3cn-2cn-1cn。五元词为c1c2c3c4c5...cn-4cn-3cn-2cn-1cn
(3)对于每一个候选词,统计候选词左邻居词出现的次数,统计候选词右邻居出现的次数,统计组合词出现的次数。下面举例说明左邻居,右邻居,组合词的定义。例如,对于如下分句,“你的服务质量不好”。“服务”一词的左邻居为“的”,右邻居为“质”。对于每个词,统计其可能组成词的次数。二元词“服务”的组成词为“服”,“务”。对于三元词“服务质”为“服务”,“质”,“服”,“物质”。以上步骤,可以通过一个MapReduce过程完成。
(4)在以上MapReduce过程中,左邻居标记为“L:候选词:左邻居”,右邻居标记为“R:候选词:右邻居”。
(5)计算每个词的左邻居的信息熵,每个词的右邻居的信息熵。计算公式如下
entropy(w)∑t∈{neightbor of w}-p(t)logp(t)
在Map过程中,输入过程中的key为,L:候选词:左邻居,输出过程中output的key为L:候选词,value为左邻居。在Reduce过程中,统计每个邻居出现的概率,通过信息熵公式来计算信息熵。对于右邻居采用相同的方法来计算。
(6)计算互信息,对于一个词,词的互信息定义如下
pmi = mi n i ∈ { 1 , n - 1 } log p ( c 1 . . . c n ) p ( c 1 c i ) p ( c i + 1 c n )
词的互信息计算并行化需要进行两个mapredue过程。
(7)第一个mapreduce的计算过程如下,在map过程中,将一个词拆成多个组合词。对于每一个组合词的,key为,组合词:候选词,value为出现的次数。此mapreduce不需要reduce过程。
(8)对于上步骤中的结果,Map过程中,key为候选词,value为组合词和次数。在reduce过程中,遍历候选词所有的互信息,选择互信息最低的值为该词的互信息
(9)设置左邻居,右邻居,互信息的阈值,并且按照词频逆序排列。此步骤可以通过Odps SQL来完成。
(10)比较算法计算出来的新词和已经存在词库中的新词,将新词添加到本地数据库中。
以上为新词发现的具体处理流程介绍,下面对情感词典获取流程进行介绍。通用领域的情感词典在特定领域所表达的情感性并不一致。例如,“希望”一词通常是一个正面词,但是,“希望”在呼叫中心的在线对话聊天中是常见用户表达负面情绪的先行词。因此需要建立一个针对呼叫中心在线聊天领域的情感词典。
传统的情感词典获取方法需要一定种子词汇,本申请可以自动获取种子词汇。传统的情感词典获取方法是基于互信息,但是由于互信息的比较偏好低频词汇,为了克服这个问题,本申请采取了基于曼哈顿距离的算法进行情感词典构建。具体步骤如下:
步骤a),将有用户评价的数据根据用户的评价分为满意和不满意的对话。对这些对话分词,分词后按照如下公式进行排序。
x 2 = N ( O 11 O 22 - O 12 O 21 ) ( O 11 + O 12 ) ( O 11 + O 21 ) ( O 12 + O 12 O 22 ) ( O 21 + O 22 )
O11表示词在评价为满意中出现的次数,O22表示不满中出现的次数。O12表示,满意文本中没有出现的次数。O21表示不满意文本中没有出现的次数。其中,这些词作为种子词汇来进行进行扩充,通过这种方法可以避免人工干预。可以减少对于专家知识的依赖。传统的情感词扩充,都需要专家进行指定。这些原始的种子词汇的选择,会对最后的结果起到决定性的作用。对于大量的数据进行统计,得到了诸如“投诉,说话”之类的负面情绪词。也得到了诸如“谢谢,麻烦你了”这样的正面种子词汇。
步骤b),对于获取的种子词汇,按照如下方式,进行扩展。传统的扩展方法使用的是互信息,但是互信息在理论上,比较偏向于出现比较少的稀有词语,在呼叫中心的文本中,进行扩展,未取得好的结果。本方法采取曼哈顿距离进行扩展。具体公式如下
SO(word)=∑t∈{positive_seed}sin(word,t)-∑t∈{negative_seed}sin(word,t)
其中sim(word,t)定义为
sim(word,t)=|p1-p2|
其中p1为word的位置值,p2为t的位置值
步骤c),通过第一轮迭代获取了,准确率较高的负面词汇,如“领导”,“上级”这些词汇在投诉环境中具有比较明显的负面性。在筛选过程中,去除单个字的词汇。
步骤d),将已经发现的负面情绪词融入到种子词汇,迭代发现新的词,直到不能再发现新的词汇。
在分别通过新词发现以及情感字典获取均准备完毕之后,下面对基于已发现的新词以及情感词典对聊天记录首先进行评价信息获取处理,具体过程包括:
步骤a),对文本进行预处理。该步骤由以下若干流程完成:
(1)分词阶段,本申请采用改进的mmseg算法进行分词。原mmseg算法规则如下:规则1,总是选取包含字最多的短句,规则2,取平均词长度最多的一组短句,规则3,取方差最少的短句,规则4,取自由度最大的短句。以上规则中,规则4需要有较多的先验知识。本法发明将规则4改为情感词优先的原则。对于如下的句子,“我喜欢中国”。候选的分词结果为,“我\喜欢\中国”,“我喜\欢\中国”。喜欢是一个情感词典中的词,故“我\喜欢\中国”为正确的分词结果。
(2)依存句法分析,此模块可以为其他模块提供词和词之间的依赖关系。
(3)结构句法分析,词模块可以显示句子的结构。
(4)同义词转换和停顿词过滤功能。将同义词进行转化,将一些同义词转化为一个唯一的词。
步骤b),对文本进行分类。
在该步骤中,本申请采用了逻辑斯蒂回归进行分类。为了能够处理大量的数据,本申请采用了分布式随机梯度算法进行迭代求解。这种求解方法可以自动适应大数据环境。该步骤由以下若干流程完成:
(1)采用前文所提到的mmseg进行分词,同义词转换,停顿词过滤。
(2)对于分词后的结果,获取卡方值前400的特征。
(3)通过这些特征,将文本进行向量化。采用词袋模型,忽略词与词之间的位置。为了方便计算,本文采取了基于是否出现而进行二值化处理。如果出现则记为1,如果未出现则记为0。
(4)为了加速算法的收敛,对向量化的样本随机化处理.对每一条数据增加一个随机值,然后按照这个随机值进行排序,这样就得到了随机化处理后的数据。
(5)为了加速,开启多个Map过程,一个Reduce过程。
(6)对于每一个Map,初始化所有参数为0,θ0,θ1...θ400为0。对于向量化后的数据为{w0,w1,..wn}其中w0=1。对于每一个Map中,每条数据按照如下方式来进行更新
计算逻辑斯蒂梯度
grad ( 1 1 + e - θ T w - y ) x
梯度更新
θ=θ-αgrad
在每个Map最后,保存最后更新的参数值。
(6)在Reduce程序中,计算所有参数的平均值,并将这些参数值存至数据库。
(7)利用这个分类器,对新的文本进行分类。如果分数值大于一定的阈值则为正面文本,如果数值小于一定的阈值则为负面文本。
在针对聊天记录信息确定其为正面文本或是负面文本后,本申请基于属性的情感分类单元继续确定具体导致负面评价的属性,其中包含人员和产品的区分模块和客服负面情绪的检测。具体的步骤如下:
步骤a),人员和产品负面情绪的区分。
每一次在线服务都包含三个方面的属性,人员属性,产品属性,客服服务属性。该步骤将具体判断每个属性是否具有负面情绪。为了进行人员和产品的区分,本申请采取规则和机器学习相结合的方法,对所有的负面情绪进行分类。具体流程如下:
(1)采取规则的方法,区分负面情绪。首先利用结构句法分析器,对句子进行标注,寻找主语,情绪词,通过主要通过如下规则进行分类。
S1:S-NV
S2:S-LESS-PV
S3:S-V-NADV
S4:S-LESS-V-PADV
为便于更好阐述技术方案,此处首先对所有的规则进行解释,规则一,S-NV。S表示主语,NV表示负面动词。整体表示主语加上有负面情绪的动词,例如,“你这是睡了吗?”属于负面的客服的情绪。规则二,S-LESS-PV。S表示主语,LESS表示一些否定的前缀词,例如,“不”,“没有”。例如,“你没有及时回复。”这里,“及时回复”是一个正面的动词,但是,由于动词前有一个否定前缀,故整句话表达的是负面的情绪。规则三,S-V-NADV,S表示主语,V表示动词,NADV表示含有负面情绪的副词。例如,“你回复得慢”。在这句话中,你是主语,回复是动词,慢是副词。规则四,S-LESS-V-PADV,S表示主语,LESS表示否定前缀词,V表示动词,PADV表示正面的副词。例如,“你说话不清楚”,在这句话中,“清楚”是一个正面的副词。不清楚和在一起表示为负面的情绪。
(2)进行对象判定,在进行对象判定时,采取了属性词典加Word2vec属性词典包含了对象是否是人员还是产品的知识。对于对象,首先判定这个词是否在词典中。如果这个词是在属性词典中,那么就直接返回该知识点,直接判定词的属性。如果这个词不在词典中,按照如下公式,进行词性判定。
s(word)=∑t∈{product}sin(t,word)-∑t∈{people}sin(t,peopie)
其中,product_set为产品词的集合,people_set为人员词的集合,sim值为wordvector中的值。如果s(word)>0,那么此词为产品词,如果s(word)<0,那么此词为人员词。
(3)通过机器学习的方法,判定是人员还是产品。将人员词和产品词进行标注,人员词标记为(people),产品词标记为(product),负面人员情绪词标记为(people-negative),负面产品情绪词标记为(product-negatie)。同时,利用依存句法对例句进行分析,将情绪词和产品或人员词之间的距离作为特征值。利用Linear-CRF算法进行求解,求解过程采用L-BFGS算法。
步骤b),客服负面情绪的检测。
对于客服的负面情绪的检测。因为在线客服在对话中有时可能会使用反义疑问句。或者因为对于业务不是特别熟悉,而导致回复速度较慢。本申请采取如下流程进行检测:
(1)对于回复速度,本申请自动检测两次客服对话的回复时间,如果两次回复时间之间的间隔小于三分钟,则判定为负面情绪。
(2)提取如下规则
S1:Question+Subjective
S2:Negative
规则1,Question表示一些反义疑问词,如“怎么,难道”。Subjective表示主语。规则1表达是一种隐性的负面情绪,主要是获取用户的负面情绪词。
规则2,Negative表示负面词汇。规则2主要是获取显性负面情绪。一旦出现负面文字,就立即断定为负面的情绪。
本申请实施例还公开了一种在线服务评价信息确定设备,如图3所示,包括:
获取模块310,用于通过文本预处理获取待处理的在线服务的信息记录的关键词;
赋值模块320,用于根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评价信息的在线服务的信息记录中的正面关键词;
判断模块330,用于判断所述权重值是否大于预设的阈值;
设置模块340,用于当所述判断模块判断结果为是时,为所述在线服务设置正面评价信息;以及当所述判断模块判断结果为否时,为所述在线服务设置负面评价信息。
具体的,所述获取模块,具体用于:
对所述信息记录进行分词处理以及句法分析处理,获取所述信息记录中的各词语;
对所述各词语进行同义词转换以及停顿词过滤处理,将处理后所得到的词语作为所述关键词。
具体的,所述赋值模块,具体用于:
对各所述关键词进行卡方检验,将卡方值大于预设阈值的关键词设置特征;
为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;
获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所述权重值。
在线服务评价信息确定设备,还包括:
处理模块,用于根据预设的语法规则分别确定与所述在线服务对应的服务提供方以及服务接收方的情绪信息;
根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
在线服务评价信息确定设备,还包括:
生成模块,用于从消息数据库的记录信息中提取在线服务的关键词;
根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键词以及负面关键词;
根据所述正面关键词生成所述关键词数据库。
通过应用本申请的技术方案,在通过文本预处理获取待处理的在线服务的信息记录的关键词后,根据预设的关键词数据库为各关键词赋予数值,并根据各关键词的数值确定与信息记录对应的权重值,最后判断权重值是否大于预设的阈值,基于判断结果为在线服务设置正面或负面评价信息。从而实现了针对在线服务质量的自动检测以及评价,在保证公正的基础上提高了检查的效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种在线服务评价信息确定方法,其特征在于,包括:
通过文本预处理获取待处理的在线服务的信息记录的关键词;
根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评价信息的在线服务的信息记录中的正面关键词;
判断所述权重值是否大于预设的阈值;
若判断结果为是,为所述在线服务设置正面评价信息;
若判断结果为否,为所述在线服务设置负面评价信息。
2.如权利要求1所述的方法,其特征在于,通过文本预处理获取待处理的在线服务的信息记录的关键词,具体为:
对所述信息记录进行分词处理以及句法分析处理,获取所述信息记录中的各词语;
对所述各词语进行同义词转换以及停顿词过滤处理,将处理后所得到的词语作为所述关键词。
3.如权利要求1所述的方法,其特征在于,根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值确定与所述信息记录对应的权重值,具体为:
对各所述关键词进行卡方检验,将卡方值大于预设阈值的关键词设置特征;
为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;
获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所述权重值。
4.如权利要求1所述的方法,其特征在于,在为所述在线服务的设置正面或负面评价信息之后,还包括:
根据预设的语法规则分别确定与所述在线服务对应的服务提供方以及服务接收方的情绪信息;
根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
5.如权利要求1-4任一项所述的方法,其特征在于,在通过文本预处理获取待处理的在线服务的信息记录的关键词之前,还包括:
从消息数据库的记录信息中提取在线服务的关键词;
根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键词以及负面关键词;
根据所述正面关键词生成所述关键词数据库。
6.一种在线服务评价信息确定设备,其特征在于,包括:
获取模块,用于通过文本预处理获取待处理的在线服务的信息记录的关键词;
赋值模块,用于根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评价信息的在线服务的信息记录中的正面关键词;
判断模块,用于判断所述权重值是否大于预设的阈值;
设置模块,用于当所述判断模块判断结果为是时,为所述在线服务设置正面评价信息;以及当所述判断模块判断结果为否时,为所述在线服务设置负面评价信息。
7.如权利要求6所述的设备,其特征在于,所述获取模块,具体用于:
对所述信息记录进行分词处理以及句法分析处理,获取所述信息记录中的各词语;
对所述各词语进行同义词转换以及停顿词过滤处理,将处理后所得到的词语作为所述关键词。
8.如权利要求6所述的设备,其特征在于,所述赋值模块,具体用于:
对各所述关键词进行卡方检验,将卡方值大于预设阈值的关键词设置特征;
为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;
获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所述权重值。
9.如权利要求6所述的设备,其特征在于,还包括:
处理模块,用于根据预设的语法规则分别确定与所述在线服务对应的服务提供方以及服务接收方的情绪信息;
根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
10.如权利要求6-9任一项所述的设备,其特征在于,还包括:
生成模块,用于从消息数据库的记录信息中提取在线服务的关键词;
根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键词以及负面关键词;
根据所述正面关键词生成所述关键词数据库。
CN201510098614.2A 2015-03-05 2015-03-05 一种在线服务评价信息确定方法及设备 Pending CN105989550A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510098614.2A CN105989550A (zh) 2015-03-05 2015-03-05 一种在线服务评价信息确定方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510098614.2A CN105989550A (zh) 2015-03-05 2015-03-05 一种在线服务评价信息确定方法及设备

Publications (1)

Publication Number Publication Date
CN105989550A true CN105989550A (zh) 2016-10-05

Family

ID=57039311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510098614.2A Pending CN105989550A (zh) 2015-03-05 2015-03-05 一种在线服务评价信息确定方法及设备

Country Status (1)

Country Link
CN (1) CN105989550A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331179A (zh) * 2016-11-07 2017-01-11 郭润泽 一种云端社区中央控制系统
CN107766560A (zh) * 2017-11-03 2018-03-06 广州杰赛科技股份有限公司 客服服务流程的评价方法和系统
CN108095740A (zh) * 2017-12-20 2018-06-01 姜涵予 一种用户情绪评估方法和装置
CN108985548A (zh) * 2017-06-05 2018-12-11 埃森哲环球解决方案有限公司 实时智能和动态递送安排
CN109800418A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 文本处理方法、装置和存储介质
CN109858923A (zh) * 2018-12-24 2019-06-07 零犀(北京)科技有限公司 基于机器人的人机对话的方法及装置
CN110134856A (zh) * 2019-04-12 2019-08-16 平安国际智慧城市科技股份有限公司 应用程序评论的监控方法、装置及存储介质、计算机设备
CN111832851A (zh) * 2019-04-15 2020-10-27 北京嘀嘀无限科技发展有限公司 一种检测方法及装置
CN113506483A (zh) * 2021-06-24 2021-10-15 上海禾万企业发展有限公司 一种基于线上教育一体化培训系统
CN113762894A (zh) * 2021-09-01 2021-12-07 西安京迅递供应链科技有限公司 数据处理方法、装置、电子设备和存储介质
CN115392199A (zh) * 2022-08-22 2022-11-25 再惠(上海)网络科技有限公司 评价分析和报告生成的方法、装置、电子设备及存储介质
CN116226356A (zh) * 2023-05-08 2023-06-06 深圳市拓保软件有限公司 一种基于nlp的智能客服交互方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
US8687901B2 (en) * 2010-02-26 2014-04-01 Canon Kabushiki Kaisha Information processing system, information processing apparatus, processing method thereof, and non-transitory computer-readable storage medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8687901B2 (en) * 2010-02-26 2014-04-01 Canon Kabushiki Kaisha Information processing system, information processing apparatus, processing method thereof, and non-transitory computer-readable storage medium
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331179A (zh) * 2016-11-07 2017-01-11 郭润泽 一种云端社区中央控制系统
CN108985548A (zh) * 2017-06-05 2018-12-11 埃森哲环球解决方案有限公司 实时智能和动态递送安排
US11270246B2 (en) 2017-06-05 2022-03-08 Accenture Global Solutions Limited Real-time intelligent and dynamic delivery scheduling
CN107766560A (zh) * 2017-11-03 2018-03-06 广州杰赛科技股份有限公司 客服服务流程的评价方法和系统
CN108095740B (zh) * 2017-12-20 2021-06-22 姜涵予 一种用户情绪评估方法和装置
CN108095740A (zh) * 2017-12-20 2018-06-01 姜涵予 一种用户情绪评估方法和装置
CN109800418A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 文本处理方法、装置和存储介质
CN109800418B (zh) * 2018-12-17 2023-05-05 北京百度网讯科技有限公司 文本处理方法、装置和存储介质
CN109858923B (zh) * 2018-12-24 2020-11-13 零犀(北京)科技有限公司 基于机器人的人机对话的方法及装置
CN109858923A (zh) * 2018-12-24 2019-06-07 零犀(北京)科技有限公司 基于机器人的人机对话的方法及装置
CN110134856A (zh) * 2019-04-12 2019-08-16 平安国际智慧城市科技股份有限公司 应用程序评论的监控方法、装置及存储介质、计算机设备
CN111832851A (zh) * 2019-04-15 2020-10-27 北京嘀嘀无限科技发展有限公司 一种检测方法及装置
CN111832851B (zh) * 2019-04-15 2024-03-29 北京嘀嘀无限科技发展有限公司 一种检测方法及装置
CN113506483A (zh) * 2021-06-24 2021-10-15 上海禾万企业发展有限公司 一种基于线上教育一体化培训系统
CN113762894A (zh) * 2021-09-01 2021-12-07 西安京迅递供应链科技有限公司 数据处理方法、装置、电子设备和存储介质
CN115392199A (zh) * 2022-08-22 2022-11-25 再惠(上海)网络科技有限公司 评价分析和报告生成的方法、装置、电子设备及存储介质
CN115392199B (zh) * 2022-08-22 2023-08-04 再惠(上海)网络科技有限公司 评价分析和报告生成的方法、装置、电子设备及存储介质
CN116226356A (zh) * 2023-05-08 2023-06-06 深圳市拓保软件有限公司 一种基于nlp的智能客服交互方法及系统
CN116226356B (zh) * 2023-05-08 2023-07-04 深圳市拓保软件有限公司 一种基于nlp的智能客服交互方法及系统

Similar Documents

Publication Publication Date Title
CN105989550A (zh) 一种在线服务评价信息确定方法及设备
CN110910901B (zh) 一种情绪识别方法及装置、电子设备和可读存储介质
Chen et al. Structure-aware abstractive conversation summarization via discourse and action graphs
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
Lowe et al. The ubuntu dialogue corpus: A large dataset for research in unstructured multi-turn dialogue systems
CN111914551B (zh) 自然语言处理方法、装置、电子设备及存储介质
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
Sadjadi et al. The 2019 NIST Speaker Recognition Evaluation CTS Challenge.
CN111080109B (zh) 客服服务质量评价方法、装置及电子设备
JP5698105B2 (ja) 対話モデル構築装置、方法、及びプログラム
CN109684636B (zh) 一种基于深度学习的用户情感分析方法
CN109992781B (zh) 文本特征的处理方法、装置和存储介质
CN111985751B (zh) 人机聊天体验评估体系
CN112417127A (zh) 对话模型的训练、对话生成方法、装置、设备及介质
Blanchard et al. Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities
EP4352630A1 (en) Reducing biases of generative language models
Bhatia et al. soc2seq: Social embedding meets conversation model
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN110263344B (zh) 一种基于混合模型的文本情感分析方法、装置和设备
CN114048294B (zh) 相似人群扩展模型训练方法、相似人群扩展方法和装置
CN111078854B (zh) 问答预测模型的训练方法及装置、问答预测方法及装置
CN110633410A (zh) 信息处理方法及装置、存储介质、电子装置
Povoda et al. Emotion recognition from helpdesk messages
Ho et al. Automatic opinion leader recognition in group discussions
CN112836053A (zh) 用于工业领域的人机对话情感分析方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161005

RJ01 Rejection of invention patent application after publication