CN111967251A - 客户声音智慧洞察系统 - Google Patents

客户声音智慧洞察系统 Download PDF

Info

Publication number
CN111967251A
CN111967251A CN202010735294.8A CN202010735294A CN111967251A CN 111967251 A CN111967251 A CN 111967251A CN 202010735294 A CN202010735294 A CN 202010735294A CN 111967251 A CN111967251 A CN 111967251A
Authority
CN
China
Prior art keywords
model
label
emotion
service
judgment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010735294.8A
Other languages
English (en)
Other versions
CN111967251B (zh
Inventor
奚天奇
路帅
冯彪
田明
刘颖
王朝
徐智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202010735294.8A priority Critical patent/CN111967251B/zh
Publication of CN111967251A publication Critical patent/CN111967251A/zh
Application granted granted Critical
Publication of CN111967251B publication Critical patent/CN111967251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种客户声音智慧洞察系统,该系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,得到客户声音数据对应的经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。本发明可以通过爬取到相关渠道的所有评论内容,对客户声音精准语义分析和情感分析,进而实现产品改进与服务提升。

Description

客户声音智慧洞察系统
技术领域
本发明属于产品监控技术领域,涉及一种客户声音智慧洞察系统。
背景技术
伴随着互联网产业和各种社会化媒体的发展,越来越多的用户选择在社会化媒体等渠道发表自己的使用感受,这也使得各企业开始通过抓取互联网上的客户声音实现触达用户、及时解决用户在网络媒体上反馈的问题,控制负面舆情的扩散等。现有市面上也有很多获取客户声音的技术,但基本上都存在一定的缺陷。
现有的同类技术大都只聚焦于某个部分,如网络信息获取等,但目前未发现一个产品可以覆盖从可以网络信息获取、语义分析到多方式展现、问题闭环的覆盖全流程的产品。
发明内容
本发明要解决的技术问题是提供一种客户声音智慧洞察系统,该系统可以对外部爬取的客户声音数据进行语义分析、情感分析,并将发现问题形成闭环,能够真正实现数据价值。
为了解决上述技术问题,本发明的客户声音智慧洞察系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,得到客户声音数据对应的经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。
所述的业务标签识别模型由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用线性回归算法和LightGBM的算法分别获得A模型判定业务标签和B识别确定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
所述的业务标签识别模型由训练好的NLP基础算法模型中的关键词匹配算法、random forest算法及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用关键词匹配算法、random forest算法分别获得A模型判定业务标签和模型判定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的randomforest算法、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成;基于分词字符变量和等长字符变量,由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签,基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
所述的业务标签识别模型、情感识别模型和实体部位识别模型的训练方法如下:
步骤一、收集设定时间段内互联网的客户声音数据进行专家人工标注,给出每一条客户声音数据对应的人工标注业务标签、情感标签和涉及的实体部位标签和问题标签;
步骤二、依次将每一条客户声音数据输入文本预处理引擎进行清洗,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;
步骤三、模型训练,分以下两个部分:
(1)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注业务标签、情感标签同时输入迁移学习模型和NLP基础算法模型,对两个模型进行训练获得训练好的迁移学习模型和NLP基础算法模型;其中,迁移学习模型包括Bert模型,NLP基础算法模型包括线性回归模型与LightGBM模型;
(2)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注实体部位标签及问题标签输入命名实体学习模型,对该模型进行训练得到训练好的命名实体学习模型;
步骤四、由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及其对应的业务规则引擎组成业务识别模型,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型及其对应的情感规则引擎组成情感标签识别模型,由训练好的命名实体识别模型和基于正则表达式的规则引擎组成实体部位识别模型;
其中业务规则引擎设定线性回归算法和LightGBM算法获得的A模型判定业务标签和B识别确定业务标签的分值分别为0.1~0.4、0.3~0.7,采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签。
情感规则引擎设定训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型输出的C模型判定情感标签、D模型判定情感标签、通用情感标签分值分别为0.5~0.8、0.2~0.5、0.2~0.5,采用投票的方式选出总分值较高的作为经模型识别确认的情感标签。
所述的基于正则表达式的规则引擎,将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
与现有技术相比,本发明的优点在于,可以爬取到相关渠道的所有评论内容,实现抓取客户的真实声音;对客户声音精准语义分析和情感分析,实现将客户声音拆分,通过语义分析精准匹配到产品相关属性,且可以识别客户声音反馈的相关问题;前端多方式展现,实现根据使用人群的不同满足不同程度的分析需求;针对语义分析后得到的问题,实现产品改进与服务提升。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1是本发明的整体框架图。
图2是业务标签识别模型、情感识别模型和实体部位识别模型的训练方法示意图。
图3是LightGBM中决策树的增长方式示意图。
具体实施方式
名词解释:
客户声音数据:互联网爬取的客户声音语句。
人工标注业务标签、情感标签、实体部位标签及问题标签:专家针对客户声音数据给出的业务标签、情感标签、实体部位标签及问题标签。
A模型判定业务标签:训练好的线性回归模型针对客户声音数据输出的业务标签。
B模型判定业务标签:训练好的LightGBM模型针对客户声音数据输出的业务标签。
C模型判定情感标签:训练好的迁移学习模型针对客户声音数据输出的情感标签。
D模型判定情感标签:训练好的线性回归模型针对客户声音数据输出的情感标签。
E模型判定实体部位标签及问题标签:训练好的命名实体学习模型针对客户声音数据输出的实体部位标签及问题标签。
经模型识别确认的业务标签:预先训练好的业务标签识别模型针对客户声音数据输出的业务标签。
经模型识别确认的情感标签:预先训练好的情感识别模型针对客户声音数据输出的情感标签。
经模型识别确认的实体部位标签、问题标签:预先训练好的实体部位识别模型针对客户声音数据输出的实体部位标签、问题标签。
实施例1
如图1所示,本发明的客户声音智慧洞察系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,分别得到经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。
所述的业务标签识别模型由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用线性回归算法和LightGBM的算法分别获得A模型判定业务标签和B模型判定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7;
例如,假设其中A模型判定业务标签分值为0.3,B模型判定业务标签分值为0.6;A模型判定业务标签为“起步动力性能”,B模型判定业务标签为“爬坡动力性能”,则选取其中分值为0.6的“爬坡动力性能”作为经模型识别确认的业务标签。
线性回归算法表达式如下:
Yi=β01Xi12Xi2+...+βpXipi,i=1,...,n.
其中,Xi1、Xi2……为输入的客户声音数据对应的分词字符变量和等长字符变量,Yi为A模型判定业务标签,βi1、βi2……βn为权重。
LightGBM算法是基于决策树算法的,它采用最优的leaf-wise策略分裂叶子节点,LightGBM中决策树的增长方式如图3所示。
LightGBM算法将客户声音数据对应的分词字符变量和等长字符变量作为输入,输出为B模型判定业务标签。
所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
例如假设C模型判定情感标签分值为0.7,D模型判定情感标签分值为0.4,通用情感标签分值为0.4,迁移学习模型输出的C模型判定情感标签为“负向”,D模型判定情感标签为“咨询”,通用情感标签为“咨询”,情感标签“负向”总分值为0.7,情感标签“咨询”总分值为0.8,则选择“咨询”作为经模型识别确认的情感标签。
所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成;基于分词字符变量和等长字符变量,由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签,基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
实施例2
如图1所示,本发明的客户声音智慧洞察系统包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,分别得到经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。
所述的业务标签识别模型由训练好的NLP基础算法模型中的关键词匹配算法、random forest算法及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用关键词匹配算法、random forest算法分别获得A模型判定业务标签和B识别确定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
例如,假设其中A模型判定业务标签分值为0.3,B模型判定业务标签分值为0.6;A模型判定业务标签为“起步动力性能”,B模型判定业务标签为“爬坡动力性能”,则选取其中分值为0.6的“爬坡动力性能”作为经模型识别确认的业务标签。
线性回归算法表达式如下:
Yi=β01Xi12Xi2+...+βpXipi,i=1,...,n.
其中,Xi1、Xi2……为输入的客户声音数据对应的分词字符变量和等长字符变量,Yi为A模型判定业务标签,βi1、βi2……βn为权重。
LightGBM算法是基于决策树算法的,它采用最优的leaf-wise策略分裂叶子节点,LightGBM中决策树的增长方式如图3所示。
LightGBM算法将客户声音数据对应的分词字符变量和等长字符变量作为输入,输出为B模型判定业务标签。
所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的randomforest算法、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
例如假设C模型判定情感标签分值为0.7,D模型判定情感标签分值为0.4,通用情感标签分值为0.4,迁移学习模型输出的C模型判定情感标签为“负向”,D模型判定情感标签为“咨询”,通用情感标签为“咨询”,情感标签“负向”总分值为0.7,情感标签“咨询”总分值为0.8,则选择“咨询”作为经模型识别确认的情感标签。
所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成;基于分词字符变量和等长字符变量,由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签,基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
实施例3
如图2所示,所述的业务标签识别模型、情感识别模型和实体部位识别模型的训练方法如下:
步骤一、收集一段时间大约20000条互联网的客户声音数据进行专家人工标注,即给出每一条客户声音数据对应的人工标注业务标签、情感标签和涉及的实体部位标签及问题标签,见表1;
表1
Figure BDA0002604695420000101
其中人工标注业务标签涉及的归属关系有三级,共计85个标签:一级业务标签依照业务架构分为产品(面向研发部门)、营销(面向销售部门)两大类;二级业务标签依照产品体验、销售流程中的用户感知触点分为18类;三级业务标签依照用户产品体验、销售流程感知的具体方式对二级业务标签进一步细分为65小类。一级、二级、三级业务标签形成一个整体,共同满足企业内部相关业务部门的分类需要,如表2。
表2
Figure BDA0002604695420000102
Figure BDA0002604695420000111
Figure BDA0002604695420000121
情感标签涉及5个,分别为正向,负向,中性,咨询以及建议。
步骤二、依次将每一条客户声音数据输入文本预处理引擎进行清洗,滤除无意义的字、词,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;
步骤三、模型训练,分以下两个部分:
(1)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注业务标签、情感标签同时输入迁移学习模型和NLP基础算法模型,对两个模型进行训练获得训练好的迁移学习模型和NLP基础算法模型;其中,迁移学习模型包括Bert模型,NLP基础算法模型包括线性回归模型与LightGBM模型;
(2)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注实体部位标签及问题标签输入命名实体学习模型,对该模型进行训练得到训练好的命名实体学习模型;
步骤四、由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及其对应的业务规则引擎组成业务识别模型,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型及其对应的情感规则引擎组成情感标签识别模型、由训练好的命名实体识别模型和基于正则表达式的规则引擎组成实体部位识别模型;
其中业务规则引擎设定线性回归算法和LightGBM算法获得的A模型判定业务标签和B识别确定业务标签的分值分别为0.1~0.4、0.3~0.7,采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签。
情感规则引擎设定训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型输出的C模型判定情感标签、D模型判定情感标签、通用情感标签分值分别为0.5~0.8、0.2~0.5、0.2~0.5,采用投票的方式选出总分值较高的作为经模型识别确认的情感标签。
所述的基于正则表达式的规则引擎,将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。

Claims (7)

1.一种客户声音智慧洞察系统,其特征在于包括文本预处理引擎和预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型;客户声音数据经过文本预处理引擎进行清洗,滤除无意义的字、词后,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;分词字符变量和等长字符变量分别输入预先训练好的业务标签识别模型、情感识别模型和实体部位识别模型,得到客户声音数据对应的经模型识别确认的业务标签、情感标签、实体部位标签及问题标签。
2.根据权利要求1所述的客户声音智慧洞察系统,其特征在于所述的业务标签识别模型由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用线性回归算法和LightGBM的算法分别获得A模型判定业务标签和B识别确定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
3.根据权利要求1所述的客户声音智慧洞察系统,其特征在于所述的业务标签识别模型由训练好的NLP基础算法模型中的关键词匹配算法、random forest算法及对应的业务规则引擎组成;基于分词字符变量和等长字符变量,采用关键词匹配算法、random forest算法分别获得A模型判定业务标签和B模型判定业务标签,业务规则引擎根据设定的A模型判定业务标签和B模型判定业务标签的分值采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;其中A模型判定业务标签的分值为0.1~0.4,B模型判定业务标签的分值为0.3~0.7。
4.根据权利要求2所述的客户声音智慧洞察系统,其特征在于所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
5.根据权利要求1所述的客户声音智慧洞察系统,其特征在于所述的情感识别模型由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型及对应的情感规则引擎组成:基于分词字符变量和等长字符变量,由训练好的迁移学习模型、NLP基础算法模型中的random forest算法、通用NLP服务模型分别输出C模型判定情感标签、D模型判定情感标签、通用情感标签,情感规则引擎根据设定的情感标签分值对C模型判定情感标签、D模型判定情感标签和通用情感标签进行评分并选出总分值较高的作为经模型识别确认的情感标签;其中C模型判定情感标签分值为0.5~0.8,D模型判定情感标签分值为0.2~0.5,通用情感标签分值为0.2~0.5。
6.根据权利要求4所述的客户声音智慧洞察系统,其特征在于所述的部位问题识别模型由训练好的命名实体学习模型和基于正则表达式的规则引擎组成;基于分词字符变量和等长字符变量,由训练好的命名实体学习模型输出E模型判定实体部位标签及问题标签,基于正则表达式的规则引擎将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
7.根据权利要求6所述的客户声音智慧洞察系统,其特征在于所述的业务标签识别模型、情感识别模型和实体部位识别模型的训练方法如下:
步骤一、收集设定时间段内互联网的客户声音数据进行专家人工标注,给出每一条客户声音数据对应的人工标注业务标签、情感标签和涉及的实体部位标签和问题标签;
步骤二、依次将每一条客户声音数据输入文本预处理引擎进行清洗,再进行分词、ngram处理,获得与单字、单词对应的分词字符变量和与相等长度句子对应的等长字符变量;
步骤三、模型训练,分以下两个部分:
(1)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注业务标签、情感标签同时输入迁移学习模型和NLP基础算法模型,对两个模型进行训练获得训练好的迁移学习模型和NLP基础算法模型;其中,迁移学习模型包括Bert模型,NLP基础算法模型包括线性回归模型与LightGBM模型;
(2)将客户声音数据对应的分词字符变量和等长字符变量,及人工标注实体部位标签及问题标签输入命名实体学习模型,对该模型进行训练得到训练好的命名实体学习模型;
步骤四、由训练好的NLP基础算法模型中的线性回归模型、LightGBM模型及其对应的业务规则引擎组成业务识别模型,由训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务及其对应的情感规则引擎组成情感标签识别模型,由训练好的命名实体识别模型和基于正则表达式的规则引擎组成实体部位识别模型;
其中业务规则引擎设定线性回归算法和LightGBM算法获得的A模型判定业务标签和B识别确定业务标签的分值分别为0.1~0.4、0.3~0.7,采用投票的方式选取其中分值较高的作为经模型识别确认的业务标签;
情感规则引擎设定训练好的迁移学习模型、NLP基础算法模型中的线性回归模型、通用NLP服务模型输出的C模型判定情感标签、D模型判定情感标签、通用情感标签分值分别为0.5~0.8、0.2~0.5、0.2~0.5,采用投票的方式选出总分值较高的作为经模型识别确认的情感标签;
所述的基于正则表达式的规则引擎,将E模型判定实体部位标签及问题标签中无用的字、符号去除后得到经模型识别确认的实体部位标签及问题标签。
CN202010735294.8A 2020-07-28 2020-07-28 客户声音智慧洞察系统 Active CN111967251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010735294.8A CN111967251B (zh) 2020-07-28 2020-07-28 客户声音智慧洞察系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010735294.8A CN111967251B (zh) 2020-07-28 2020-07-28 客户声音智慧洞察系统

Publications (2)

Publication Number Publication Date
CN111967251A true CN111967251A (zh) 2020-11-20
CN111967251B CN111967251B (zh) 2024-01-12

Family

ID=73364032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010735294.8A Active CN111967251B (zh) 2020-07-28 2020-07-28 客户声音智慧洞察系统

Country Status (1)

Country Link
CN (1) CN111967251B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186559A (zh) * 2021-12-09 2022-03-15 北京深维智信科技有限公司 一种从销售会话中确定会话主体角色标签的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3012745A1 (en) * 2014-10-23 2016-04-27 CRM S.r.l. Welike Chorally platform for digital caring and social CRM
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3012745A1 (en) * 2014-10-23 2016-04-27 CRM S.r.l. Welike Chorally platform for digital caring and social CRM
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾斌;彭涛;车伟;: "基于词典扩充的电力客服工单情感倾向性分析", 现代电子技术, no. 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186559A (zh) * 2021-12-09 2022-03-15 北京深维智信科技有限公司 一种从销售会话中确定会话主体角色标签的方法及系统
CN114186559B (zh) * 2021-12-09 2022-09-13 北京深维智信科技有限公司 一种从销售会话中确定会话主体角色标签的方法及系统

Also Published As

Publication number Publication date
CN111967251B (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
Haque et al. Sentiment analysis on large scale Amazon product reviews
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN110633373A (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
Sun et al. Pre-processing online financial text for sentiment classification: A natural language processing approach
Yennimar et al. Comparison of Machine Learning Classification Algorithms in Sentiment Analysis Product Review of North Padang Lawas Regency
CN115329085A (zh) 一种社交机器人分类方法及系统
Almosawi et al. Lexicon-based approach for sentiment analysis to student feedback
CN113255843B (zh) 演讲稿测评方法及设备
CN113282704A (zh) 一种对评论有用性进行判断和筛选的方法与装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111967251B (zh) 客户声音智慧洞察系统
CN113220964A (zh) 一种基于网信领域短文本的观点挖掘方法
Jeevanandam Jotheeswaran Sentiment analysis: A survey of current research and techniques
Singh et al. An interpretation of sentiment analysis for enrichment of Business Intelligence
Jayasekara et al. Opinion mining of customer reviews: feature and smiley based approach
Kayaalp et al. Extracting customer opinions associated with an aspect by using a heuristic based sentence segmentation approach
Nanayakkara et al. StratGenius: Natural Language Processing-Based System To Determine Effective Influencer Marketing Strategies
Sindhu et al. Mapping Distinct Source and Target Domains on Amazon Product Customer Critiques with Cross Domain Sentiment Analysis
Gupta et al. Sentiment Analysis and its Application in Analysing Consumer Behaviour
CN116304058B (zh) 企业负面信息的识别方法、装置、电子设备及存储介质
Wlodarczak et al. Big data analytics of social media
Christi et al. Sentiment Categorization through Natural Language Processing: A Survey
Callejas-Hernández et al. The Winning Approach for the Recommendation Systems Shared Task@ REST_MEX 2022.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant