CN111967251A - 客户声音智慧洞察系统 - Google Patents
客户声音智慧洞察系统 Download PDFInfo
- Publication number
- CN111967251A CN111967251A CN202010735294.8A CN202010735294A CN111967251A CN 111967251 A CN111967251 A CN 111967251A CN 202010735294 A CN202010735294 A CN 202010735294A CN 111967251 A CN111967251 A CN 111967251A
- Authority
- CN
- China
- Prior art keywords
- model
- label
- emotion
- service
- judgment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 claims abstract description 148
- 230000011218 segmentation Effects 0.000 claims abstract description 49
- 230000008909 emotion recognition Effects 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 74
- 238000012417 linear regression Methods 0.000 claims description 31
- 238000013526 transfer learning Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 13
- 238000007637 random forest analysis Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 11
- 238000013508 migration Methods 0.000 claims description 7
- 230000005012 migration Effects 0.000 claims description 7
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 abstract 1
- 238000003066 decision tree Methods 0.000 description 5
- 230000009194 climbing Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种客户声音智慧洞察系统,该系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,得到客户声音数据对应的经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。本发明可以通过爬取到相关渠道的所有评论内容,对客户声音精准语义分析和情感分析,进而实现产品改进与服务提升。
Description
技术领域
本发明属于产品监控技术领域,涉及一种客户声音智慧洞察系统。
背景技术
伴随着互联网产业和各种社会化媒体的发展,越来越多的用户选择在社会化媒体等渠道发表自己的使用感受,这也使得各企业开始通过抓取互联网上的客户声音实现触达用户、及时解决用户在网络媒体上反馈的问题,控制负面舆情的扩散等。现有市面上也有很多获取客户声音的技术,但基本上都存在一定的缺陷。
现有的同类技术大都只聚焦于某个部分,如网络信息获取等,但目前未发现一个产品可以覆盖从可以网络信息获取、语义分析到多方式展现、问题闭环的覆盖全流程的产品。
发明内容
本发明要解决的技术问题是提供一种客户声音智慧洞察系统,该系统可以对外部爬取的客户声音数据进行语义分析、情感分析,并将发现问题形成闭环,能够真正实现数据价值。
为了解决上述技术问题,本发明的客户声音智慧洞察系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,得到客户声音数据对应的经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。
所述的业务标签识别模型由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用线性回归算法和LightGBM的算法分别获得A模型判定业务标签和B识别确定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
所述的业务标签识别模型由训练好的NLP基础算法模型中的关键词匹配算法、random forest算法及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用关键词匹配算法、random forest算法分别获得A模型判定业务标签和模型判定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的randomforest算法、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成;基于分词字符变量和等长字符变量,由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签,基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
所述的业务标签识别模型、情感识别模型和实体部位识别模型的训练方法如下:
步骤一、收集设定时间段内互联网的客户声音数据进行专家人工标注,给出每一条客户声音数据对应的人工标注业务标签、情感标签和涉及的实体部位标签和问题标签;
步骤二、依次将每一条客户声音数据输入文本预处理引擎进行清洗,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;
步骤三、模型训练,分以下两个部分:
(1)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注业务标签、情感标签同时输入迁移学习模型和NLP基础算法模型,对两个模型进行训练获得训练好的迁移学习模型和NLP基础算法模型;其中,迁移学习模型包括Bert模型,NLP基础算法模型包括线性回归模型与LightGBM模型;
(2)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注实体部位标签及问题标签输入命名实体学习模型,对该模型进行训练得到训练好的命名实体学习模型;
步骤四、由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及其对应的业务规则引擎组成业务识别模型,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型及其对应的情感规则引擎组成情感标签识别模型,由训练好的命名实体识别模型和基于正则表达式的规则引擎组成实体部位识别模型;
其中业务规则引擎设定线性回归算法和LightGBM算法获得的A模型判定业务标签和B识别确定业务标签的分值分别为0.1~0.4、0.3~0.7,采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签。
情感规则引擎设定训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型输出的C模型判定情感标签、D模型判定情感标签、通用情感标签分值分别为0.5~0.8、0.2~0.5、0.2~0.5,采用投票的方式选出总分值较高的作为经模型识别确认的情感标签。
所述的基于正则表达式的规则引擎,将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
与现有技术相比,本发明的优点在于,可以爬取到相关渠道的所有评论内容,实现抓取客户的真实声音;对客户声音精准语义分析和情感分析,实现将客户声音拆分,通过语义分析精准匹配到产品相关属性,且可以识别客户声音反馈的相关问题;前端多方式展现,实现根据使用人群的不同满足不同程度的分析需求;针对语义分析后得到的问题,实现产品改进与服务提升。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1是本发明的整体框架图。
图2是业务标签识别模型、情感识别模型和实体部位识别模型的训练方法示意图。
图3是LightGBM中决策树的增长方式示意图。
具体实施方式
名词解释:
客户声音数据:互联网爬取的客户声音语句。
人工标注业务标签、情感标签、实体部位标签及问题标签:专家针对客户声音数据给出的业务标签、情感标签、实体部位标签及问题标签。
A模型判定业务标签:训练好的线性回归模型针对客户声音数据输出的业务标签。
B模型判定业务标签:训练好的LightGBM模型针对客户声音数据输出的业务标签。
C模型判定情感标签:训练好的迁移学习模型针对客户声音数据输出的情感标签。
D模型判定情感标签:训练好的线性回归模型针对客户声音数据输出的情感标签。
E模型判定实体部位标签及问题标签:训练好的命名实体学习模型针对客户声音数据输出的实体部位标签及问题标签。
经模型识别确认的业务标签:预先训练好的业务标签识别模型针对客户声音数据输出的业务标签。
经模型识别确认的情感标签:预先训练好的情感识别模型针对客户声音数据输出的情感标签。
经模型识别确认的实体部位标签、问题标签:预先训练好的实体部位识别模型针对客户声音数据输出的实体部位标签、问题标签。
实施例1
如图1所示,本发明的客户声音智慧洞察系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,分别得到经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。
所述的业务标签识别模型由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用线性回归算法和LightGBM的算法分别获得A模型判定业务标签和B模型判定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7;
例如,假设其中A模型判定业务标签分值为0.3,B模型判定业务标签分值为0.6;A模型判定业务标签为“起步动力性能”,B模型判定业务标签为“爬坡动力性能”,则选取其中分值为0.6的“爬坡动力性能”作为经模型识别确认的业务标签。
线性回归算法表达式如下:
Yi=β0+β1Xi1+β2Xi2+...+βpXip+εi,i=1,...,n.
其中,Xi1、Xi2……为输入的客户声音数据对应的分词字符变量和等长字符变量,Yi为A模型判定业务标签,βi1、βi2……βn为权重。
LightGBM算法是基于决策树算法的,它采用最优的leaf-wise策略分裂叶子节点,LightGBM中决策树的增长方式如图3所示。
LightGBM算法将客户声音数据对应的分词字符变量和等长字符变量作为输入,输出为B模型判定业务标签。
所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
例如假设C模型判定情感标签分值为0.7,D模型判定情感标签分值为0.4,通用情感标签分值为0.4,迁移学习模型输出的C模型判定情感标签为“负向”,D模型判定情感标签为“咨询”,通用情感标签为“咨询”,情感标签“负向”总分值为0.7,情感标签“咨询”总分值为0.8,则选择“咨询”作为经模型识别确认的情感标签。
所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成;基于分词字符变量和等长字符变量,由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签,基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
实施例2
如图1所示,本发明的客户声音智慧洞察系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,分别得到经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。
所述的业务标签识别模型由训练好的NLP基础算法模型中的关键词匹配算法、random forest算法及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用关键词匹配算法、random forest算法分别获得A模型判定业务标签和B识别确定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
例如,假设其中A模型判定业务标签分值为0.3,B模型判定业务标签分值为0.6;A模型判定业务标签为“起步动力性能”,B模型判定业务标签为“爬坡动力性能”,则选取其中分值为0.6的“爬坡动力性能”作为经模型识别确认的业务标签。
线性回归算法表达式如下:
Yi=β0+β1Xi1+β2Xi2+...+βpXip+εi,i=1,...,n.
其中,Xi1、Xi2……为输入的客户声音数据对应的分词字符变量和等长字符变量,Yi为A模型判定业务标签,βi1、βi2……βn为权重。
LightGBM算法是基于决策树算法的,它采用最优的leaf-wise策略分裂叶子节点,LightGBM中决策树的增长方式如图3所示。
LightGBM算法将客户声音数据对应的分词字符变量和等长字符变量作为输入,输出为B模型判定业务标签。
所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的randomforest算法、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
例如假设C模型判定情感标签分值为0.7,D模型判定情感标签分值为0.4,通用情感标签分值为0.4,迁移学习模型输出的C模型判定情感标签为“负向”,D模型判定情感标签为“咨询”,通用情感标签为“咨询”,情感标签“负向”总分值为0.7,情感标签“咨询”总分值为0.8,则选择“咨询”作为经模型识别确认的情感标签。
所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成;基于分词字符变量和等长字符变量,由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签,基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
实施例3
如图2所示,所述的业务标签识别模型、情感识别模型和实体部位识别模型的训练方法如下:
步骤一、收集一段时间大约20000条互联网的客户声音数据进行专家人工标注,即给出每一条客户声音数据对应的人工标注业务标签、情感标签和涉及的实体部位标签及问题标签,见表1;
表1
其中人工标注业务标签涉及的归属关系有三级,共计85个标签:一级业务标签依照业务架构分为产品(面向研发部门)、营销(面向销售部门)两大类;二级业务标签依照产品体验、销售流程中的用户感知触点分为18类;三级业务标签依照用户产品体验、销售流程感知的具体方式对二级业务标签进一步细分为65小类。一级、二级、三级业务标签形成一个整体,共同满足企业内部相关业务部门的分类需要,如表2。
表2
情感标签涉及5个,分别为正向,负向,中性,咨询以及建议。
步骤二、依次将每一条客户声音数据输入文本预处理引擎进行清洗,滤除无意义的字、词,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;
步骤三、模型训练,分以下两个部分:
(1)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注业务标签、情感标签同时输入迁移学习模型和NLP基础算法模型,对两个模型进行训练获得训练好的迁移学习模型和NLP基础算法模型;其中,迁移学习模型包括Bert模型,NLP基础算法模型包括线性回归模型与LightGBM模型;
(2)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注实体部位标签及问题标签输入命名实体学习模型,对该模型进行训练得到训练好的命名实体学习模型;
步骤四、由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及其对应的业务规则引擎组成业务识别模型,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型及其对应的情感规则引擎组成情感标签识别模型、由训练好的命名实体识别模型和基于正则表达式的规则引擎组成实体部位识别模型;
其中业务规则引擎设定线性回归算法和LightGBM算法获得的A模型判定业务标签和B识别确定业务标签的分值分别为0.1~0.4、0.3~0.7,采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签。
情感规则引擎设定训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型输出的C模型判定情感标签、D模型判定情感标签、通用情感标签分值分别为0.5~0.8、0.2~0.5、0.2~0.5,采用投票的方式选出总分值较高的作为经模型识别确认的情感标签。
所述的基于正则表达式的规则引擎,将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
Claims (7)
1.一种客户声音智慧洞察系统,其特征在于包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,得到客户声音数据对应的经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。
2.根据权利要求1所述的客户声音智慧洞察系统,其特征在于所述的业务标签识别模型由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用线性回归算法和LightGBM的算法分别获得A模型判定业务标签和B识别确定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
3.根据权利要求1所述的客户声音智慧洞察系统,其特征在于所述的业务标签识别模型由训练好的NLP基础算法模型中的关键词匹配算法、random forest算法及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用关键词匹配算法、random forest算法分别获得A模型判定业务标签和B模型判定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
4.根据权利要求2所述的客户声音智慧洞察系统,其特征在于所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
5.根据权利要求1所述的客户声音智慧洞察系统,其特征在于所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
6.根据权利要求4所述的客户声音智慧洞察系统,其特征在于所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成;基于分词字符变量和等长字符变量,由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签,基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
7.根据权利要求6所述的客户声音智慧洞察系统,其特征在于所述的业务标签识别模型、情感识别模型和实体部位识别模型的训练方法如下:
步骤一、收集设定时间段内互联网的客户声音数据进行专家人工标注,给出每一条客户声音数据对应的人工标注业务标签、情感标签和涉及的实体部位标签和问题标签;
步骤二、依次将每一条客户声音数据输入文本预处理引擎进行清洗,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;
步骤三、模型训练,分以下两个部分:
(1)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注业务标签、情感标签同时输入迁移学习模型和NLP基础算法模型,对两个模型进行训练获得训练好的迁移学习模型和NLP基础算法模型;其中,迁移学习模型包括Bert模型,NLP基础算法模型包括线性回归模型与LightGBM模型;
(2)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注实体部位标签及问题标签输入命名实体学习模型,对该模型进行训练得到训练好的命名实体学习模型;
步骤四、由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及其对应的业务规则引擎组成业务识别模型,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务及其对应的情感规则引擎组成情感标签识别模型,由训练好的命名实体识别模型和基于正则表达式的规则引擎组成实体部位识别模型;
其中业务规则引擎设定线性回归算法和LightGBM算法获得的A模型判定业务标签和B识别确定业务标签的分值分别为0.1~0.4、0.3~0.7,采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;
情感规则引擎设定训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型输出的C模型判定情感标签、D模型判定情感标签、通用情感标签分值分别为0.5~0.8、0.2~0.5、0.2~0.5,采用投票的方式选出总分值较高的作为经模型识别确认的情感标签;
所述的基于正则表达式的规则引擎,将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010735294.8A CN111967251B (zh) | 2020-07-28 | 2020-07-28 | 客户声音智慧洞察系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010735294.8A CN111967251B (zh) | 2020-07-28 | 2020-07-28 | 客户声音智慧洞察系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967251A true CN111967251A (zh) | 2020-11-20 |
CN111967251B CN111967251B (zh) | 2024-01-12 |
Family
ID=73364032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010735294.8A Active CN111967251B (zh) | 2020-07-28 | 2020-07-28 | 客户声音智慧洞察系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967251B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114186559A (zh) * | 2021-12-09 | 2022-03-15 | 北京深维智信科技有限公司 | 一种从销售会话中确定会话主体角色标签的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3012745A1 (en) * | 2014-10-23 | 2016-04-27 | CRM S.r.l. Welike | Chorally platform for digital caring and social CRM |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
-
2020
- 2020-07-28 CN CN202010735294.8A patent/CN111967251B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3012745A1 (en) * | 2014-10-23 | 2016-04-27 | CRM S.r.l. Welike | Chorally platform for digital caring and social CRM |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
Non-Patent Citations (1)
Title |
---|
顾斌;彭涛;车伟;: "基于词典扩充的电力客服工单情感倾向性分析", 现代电子技术, no. 11 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114186559A (zh) * | 2021-12-09 | 2022-03-15 | 北京深维智信科技有限公司 | 一种从销售会话中确定会话主体角色标签的方法及系统 |
CN114186559B (zh) * | 2021-12-09 | 2022-09-13 | 北京深维智信科技有限公司 | 一种从销售会话中确定会话主体角色标签的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111967251B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Haque et al. | Sentiment analysis on large scale Amazon product reviews | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN111797898B (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
CN110633373A (zh) | 一种基于知识图谱和深度学习的汽车舆情分析方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
Sun et al. | Pre-processing online financial text for sentiment classification: A natural language processing approach | |
Yennimar et al. | Comparison of Machine Learning Classification Algorithms in Sentiment Analysis Product Review of North Padang Lawas Regency | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
Almosawi et al. | Lexicon-based approach for sentiment analysis to student feedback | |
CN113255843B (zh) | 演讲稿测评方法及设备 | |
CN113282704A (zh) | 一种对评论有用性进行判断和筛选的方法与装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111967251B (zh) | 客户声音智慧洞察系统 | |
CN113220964A (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
Jeevanandam Jotheeswaran | Sentiment analysis: A survey of current research and techniques | |
Singh et al. | An interpretation of sentiment analysis for enrichment of Business Intelligence | |
Jayasekara et al. | Opinion mining of customer reviews: feature and smiley based approach | |
Kayaalp et al. | Extracting customer opinions associated with an aspect by using a heuristic based sentence segmentation approach | |
Nanayakkara et al. | StratGenius: Natural Language Processing-Based System To Determine Effective Influencer Marketing Strategies | |
Sindhu et al. | Mapping Distinct Source and Target Domains on Amazon Product Customer Critiques with Cross Domain Sentiment Analysis | |
Gupta et al. | Sentiment Analysis and its Application in Analysing Consumer Behaviour | |
CN116304058B (zh) | 企业负面信息的识别方法、装置、电子设备及存储介质 | |
Wlodarczak et al. | Big data analytics of social media | |
Christi et al. | Sentiment Categorization through Natural Language Processing: A Survey | |
Callejas-Hernández et al. | The Winning Approach for the Recommendation Systems Shared Task@ REST_MEX 2022. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |