CN111967251A

CN111967251A - 客户声音智慧洞察系统

Info

Publication number: CN111967251A
Application number: CN202010735294.8A
Authority: CN
Inventors: 奚天奇; 路帅; 冯彪; 田明; 刘颖; 王朝; 徐智
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-20
Anticipated expiration: 2040-07-28
Also published as: CN111967251B

Abstract

本发明涉及一种客户声音智慧洞察系统，该系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型；客户声音数据经过文本预处理引擎进行清洗，滤除无意义的字、词后，再进行分词、ngram处理，获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量；分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型，得到客户声音数据对应的经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。本发明可以通过爬取到相关渠道的所有评论内容，对客户声音精准语义分析和情感分析，进而实现产品改进与服务提升。

Description

客户声音智慧洞察系统

技术领域

本发明属于产品监控技术领域，涉及一种客户声音智慧洞察系统。

背景技术

伴随着互联网产业和各种社会化媒体的发展，越来越多的用户选择在社会化媒体等渠道发表自己的使用感受，这也使得各企业开始通过抓取互联网上的客户声音实现触达用户、及时解决用户在网络媒体上反馈的问题，控制负面舆情的扩散等。现有市面上也有很多获取客户声音的技术，但基本上都存在一定的缺陷。

现有的同类技术大都只聚焦于某个部分，如网络信息获取等，但目前未发现一个产品可以覆盖从可以网络信息获取、语义分析到多方式展现、问题闭环的覆盖全流程的产品。

发明内容

本发明要解决的技术问题是提供一种客户声音智慧洞察系统，该系统可以对外部爬取的客户声音数据进行语义分析、情感分析，并将发现问题形成闭环，能够真正实现数据价值。

为了解决上述技术问题，本发明的客户声音智慧洞察系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型；客户声音数据经过文本预处理引擎进行清洗，滤除无意义的字、词后，再进行分词、ngram处理，获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量；分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型，得到客户声音数据对应的经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。

所述的业务标签识别模型由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及对应的业务规则引擎组成；基于分词字符变量和等长字符变量，采用线性回归算法和LightGBM的算法分别获得A模型判定业务标签和B识别确定业务标签，业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签；其中A模型判定业务标签的分值为0.1～0.4，B模型判定业务标签的分值为0.3～0.7。

所述的业务标签识别模型由训练好的NLP基础算法模型中的关键词匹配算法、random forest算法及对应的业务规则引擎组成；基于分词字符变量和等长字符变量，采用关键词匹配算法、random forest算法分别获得A模型判定业务标签和模型判定业务标签，业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签；其中A模型判定业务标签的分值为0.1～0.4，B模型判定业务标签的分值为0.3～0.7。

所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型及对应的情感规则引擎组成：基于分词字符变量和等长字符变量，由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签，情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签；其中C模型判定情感标签分值为0.5～0.8，D模型判定情感标签分值为0.2～0.5，通用情感标签分值为0.2～0.5。

所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的randomforest算法、通用NLP服务模型及对应的情感规则引擎组成：基于分词字符变量和等长字符变量，由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签，情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签；其中C模型判定情感标签分值为0.5～0.8，D模型判定情感标签分值为0.2～0.5，通用情感标签分值为0.2～0.5。

所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成；基于分词字符变量和等长字符变量，由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签，基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。

所述的业务标签识别模型、情感识别模型和实体部位识别模型的训练方法如下：

步骤一、收集设定时间段内互联网的客户声音数据进行专家人工标注，给出每一条客户声音数据对应的人工标注业务标签、情感标签和涉及的实体部位标签和问题标签；

步骤二、依次将每一条客户声音数据输入文本预处理引擎进行清洗，再进行分词、ngram处理，获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量；

步骤三、模型训练，分以下两个部分：

(1)将客户声音数据对应的分词字符变量和等长字符变量，及人工标注业务标签、情感标签同时输入迁移学习模型和NLP基础算法模型，对两个模型进行训练获得训练好的迁移学习模型和NLP基础算法模型；其中，迁移学习模型包括Bert模型，NLP基础算法模型包括线性回归模型与LightGBM模型；

(2)将客户声音数据对应的分词字符变量和等长字符变量，及人工标注实体部位标签及问题标签输入命名实体学习模型，对该模型进行训练得到训练好的命名实体学习模型；

步骤四、由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及其对应的业务规则引擎组成业务识别模型，由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型及其对应的情感规则引擎组成情感标签识别模型，由训练好的命名实体识别模型和基于正则表达式的规则引擎组成实体部位识别模型；

其中业务规则引擎设定线性回归算法和LightGBM算法获得的A模型判定业务标签和B识别确定业务标签的分值分别为0.1～0.4、0.3～0.7，采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签。

情感规则引擎设定训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型输出的C模型判定情感标签、D模型判定情感标签、通用情感标签分值分别为0.5～0.8、0.2～0.5、0.2～0.5，采用投票的方式选出总分值较高的作为经模型识别确认的情感标签。

所述的基于正则表达式的规则引擎，将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。

与现有技术相比，本发明的优点在于，可以爬取到相关渠道的所有评论内容，实现抓取客户的真实声音；对客户声音精准语义分析和情感分析，实现将客户声音拆分，通过语义分析精准匹配到产品相关属性，且可以识别客户声音反馈的相关问题；前端多方式展现，实现根据使用人群的不同满足不同程度的分析需求；针对语义分析后得到的问题，实现产品改进与服务提升。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1是本发明的整体框架图。

图2是业务标签识别模型、情感识别模型和实体部位识别模型的训练方法示意图。

图3是LightGBM中决策树的增长方式示意图。

具体实施方式

名词解释：

客户声音数据：互联网爬取的客户声音语句。

人工标注业务标签、情感标签、实体部位标签及问题标签：专家针对客户声音数据给出的业务标签、情感标签、实体部位标签及问题标签。

A模型判定业务标签：训练好的线性回归模型针对客户声音数据输出的业务标签。

B模型判定业务标签：训练好的LightGBM模型针对客户声音数据输出的业务标签。

C模型判定情感标签：训练好的迁移学习模型针对客户声音数据输出的情感标签。

D模型判定情感标签:训练好的线性回归模型针对客户声音数据输出的情感标签。

E模型判定实体部位标签及问题标签：训练好的命名实体学习模型针对客户声音数据输出的实体部位标签及问题标签。

经模型识别确认的业务标签：预先训练好的业务标签识别模型针对客户声音数据输出的业务标签。

经模型识别确认的情感标签：预先训练好的情感识别模型针对客户声音数据输出的情感标签。

经模型识别确认的实体部位标签、问题标签：预先训练好的实体部位识别模型针对客户声音数据输出的实体部位标签、问题标签。

实施例1

如图1所示，本发明的客户声音智慧洞察系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型；客户声音数据经过文本预处理引擎进行清洗，滤除无意义的字、词后，再进行分词、ngram处理，获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量；分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型，分别得到经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。

所述的业务标签识别模型由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及对应的业务规则引擎组成；基于分词字符变量和等长字符变量，采用线性回归算法和LightGBM的算法分别获得A模型判定业务标签和B模型判定业务标签，业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签；其中A模型判定业务标签的分值为0.1～0.4，B模型判定业务标签的分值为0.3～0.7；

例如，假设其中A模型判定业务标签分值为0.3，B模型判定业务标签分值为0.6；A模型判定业务标签为“起步动力性能”，B模型判定业务标签为“爬坡动力性能”，则选取其中分值为0.6的“爬坡动力性能”作为经模型识别确认的业务标签。

线性回归算法表达式如下：

Y_i＝β₀+β₁X_i1+β₂X_i2+...+β_pX_ip+ε_i，i＝1，...，n.

其中，X_i1、X_i2……为输入的客户声音数据对应的分词字符变量和等长字符变量，Y_i为A模型判定业务标签，β_i1、β_i2……β_n为权重。

LightGBM算法是基于决策树算法的，它采用最优的leaf-wise策略分裂叶子节点，LightGBM中决策树的增长方式如图3所示。

LightGBM算法将客户声音数据对应的分词字符变量和等长字符变量作为输入，输出为B模型判定业务标签。

例如假设C模型判定情感标签分值为0.7，D模型判定情感标签分值为0.4，通用情感标签分值为0.4，迁移学习模型输出的C模型判定情感标签为“负向”，D模型判定情感标签为“咨询”，通用情感标签为“咨询”，情感标签“负向”总分值为0.7，情感标签“咨询”总分值为0.8，则选择“咨询”作为经模型识别确认的情感标签。

实施例2

所述的业务标签识别模型由训练好的NLP基础算法模型中的关键词匹配算法、random forest算法及对应的业务规则引擎组成；基于分词字符变量和等长字符变量，采用关键词匹配算法、random forest算法分别获得A模型判定业务标签和B识别确定业务标签，业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签；其中A模型判定业务标签的分值为0.1～0.4，B模型判定业务标签的分值为0.3～0.7。

线性回归算法表达式如下：

Y_i＝β₀+β₁X_i1+β₂X_i2+...+β_pX_ip+ε_i，i＝1，...，n.

实施例3

如图2所示，所述的业务标签识别模型、情感识别模型和实体部位识别模型的训练方法如下：

步骤一、收集一段时间大约20000条互联网的客户声音数据进行专家人工标注，即给出每一条客户声音数据对应的人工标注业务标签、情感标签和涉及的实体部位标签及问题标签，见表1；

表1

其中人工标注业务标签涉及的归属关系有三级，共计85个标签：一级业务标签依照业务架构分为产品(面向研发部门)、营销(面向销售部门)两大类；二级业务标签依照产品体验、销售流程中的用户感知触点分为18类；三级业务标签依照用户产品体验、销售流程感知的具体方式对二级业务标签进一步细分为65小类。一级、二级、三级业务标签形成一个整体，共同满足企业内部相关业务部门的分类需要,如表2。

表2

情感标签涉及5个，分别为正向，负向，中性，咨询以及建议。

步骤二、依次将每一条客户声音数据输入文本预处理引擎进行清洗，滤除无意义的字、词，再进行分词、ngram处理，获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量；

步骤三、模型训练，分以下两个部分：

步骤四、由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及其对应的业务规则引擎组成业务识别模型，由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型及其对应的情感规则引擎组成情感标签识别模型、由训练好的命名实体识别模型和基于正则表达式的规则引擎组成实体部位识别模型；

Claims

1.一种客户声音智慧洞察系统，其特征在于包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型；客户声音数据经过文本预处理引擎进行清洗，滤除无意义的字、词后，再进行分词、ngram处理，获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量；分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型，得到客户声音数据对应的经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。

2.根据权利要求1所述的客户声音智慧洞察系统，其特征在于所述的业务标签识别模型由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及对应的业务规则引擎组成；基于分词字符变量和等长字符变量，采用线性回归算法和LightGBM的算法分别获得A模型判定业务标签和B识别确定业务标签，业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签；其中A模型判定业务标签的分值为0.1～0.4，B模型判定业务标签的分值为0.3～0.7。

3.根据权利要求1所述的客户声音智慧洞察系统，其特征在于所述的业务标签识别模型由训练好的NLP基础算法模型中的关键词匹配算法、random forest算法及对应的业务规则引擎组成；基于分词字符变量和等长字符变量，采用关键词匹配算法、random forest算法分别获得A模型判定业务标签和B模型判定业务标签，业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签；其中A模型判定业务标签的分值为0.1～0.4，B模型判定业务标签的分值为0.3～0.7。

4.根据权利要求2所述的客户声音智慧洞察系统，其特征在于所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型及对应的情感规则引擎组成：基于分词字符变量和等长字符变量，由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签，情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签；其中C模型判定情感标签分值为0.5～0.8，D模型判定情感标签分值为0.2～0.5，通用情感标签分值为0.2～0.5。

5.根据权利要求1所述的客户声音智慧洞察系统，其特征在于所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型及对应的情感规则引擎组成：基于分词字符变量和等长字符变量，由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签，情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签；其中C模型判定情感标签分值为0.5～0.8，D模型判定情感标签分值为0.2～0.5，通用情感标签分值为0.2～0.5。

6.根据权利要求4所述的客户声音智慧洞察系统，其特征在于所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成；基于分词字符变量和等长字符变量，由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签，基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。

7.根据权利要求6所述的客户声音智慧洞察系统，其特征在于所述的业务标签识别模型、情感识别模型和实体部位识别模型的训练方法如下：

步骤三、模型训练，分以下两个部分：

步骤四、由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及其对应的业务规则引擎组成业务识别模型，由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务及其对应的情感规则引擎组成情感标签识别模型，由训练好的命名实体识别模型和基于正则表达式的规则引擎组成实体部位识别模型；

其中业务规则引擎设定线性回归算法和LightGBM算法获得的A模型判定业务标签和B识别确定业务标签的分值分别为0.1～0.4、0.3～0.7，采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签；

情感规则引擎设定训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型输出的C模型判定情感标签、D模型判定情感标签、通用情感标签分值分别为0.5～0.8、0.2～0.5、0.2～0.5，采用投票的方式选出总分值较高的作为经模型识别确认的情感标签；