CN113360647A - 一种基于聚类的5g移动业务投诉溯源分析方法 - Google Patents
一种基于聚类的5g移动业务投诉溯源分析方法 Download PDFInfo
- Publication number
- CN113360647A CN113360647A CN202110616920.6A CN202110616920A CN113360647A CN 113360647 A CN113360647 A CN 113360647A CN 202110616920 A CN202110616920 A CN 202110616920A CN 113360647 A CN113360647 A CN 113360647A
- Authority
- CN
- China
- Prior art keywords
- matrix
- keyword
- complaint
- word
- reason
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于聚类的5G移动业务投诉溯源分析方法。该方法包括:利用Jieba分词技术对预处理后的移动业务投诉工单数据集进行分词处理,生成分词结果以及分词结果矩阵;对分词结果矩阵进行词频统计,生成第一词频表,并根据第一词频表构建同义词库;结合移动业务,根据第一词频表将分词结果按照“套餐/操作/原因”进行分类操作,构建关键词矩阵;对关键词矩阵进行聚类,生成业务投诉的问题类别矩阵以及每一类投诉问题的原因矩阵;对问题类别矩阵以及原因矩阵进行溯源分析确定投诉类别以及投诉原因。本发明能够对大量移动业务投诉数据进行分类处理,提高分析处理效率以及通用性。
Description
技术领域
本发明涉及无监督学习领域,特别是涉及一种基于聚类的5G移动业务投诉溯源分析方法。
背景技术
投诉溯源的目标是发现投诉问题产生的根源,为管理人员提供具有针对性的溯源结果,及时发现业务流程的短板,同时了解客户满意程度、新产品的合理性、新产品市场需求等,为面向用户需求的产品设计、目标导向的定制化投诉处理等问题提供决策支持依据以及数据驱动的智能化解决方法。从而降低业务实施的成本、提升用户体验、减少投诉总量、降低运营成本。投诉信息的来源多种多样,比如致电投诉、面对面投诉、留言投诉、邮件投诉等。投诉的多寡直接影响到产品销售服务质量的体验。特别是在以产品推荐和服务为主的行业,会极大地影响到下一步产品计划的实施。中国移动是通信行业用户市场最大的运营商,每天都会产生大量业务办理投诉,及时发现投诉的根源并解决是中国移动急需解决的问题。
无监督学习被广泛用于数据挖掘,从大量无标签数据中挖掘有用信息。
在自然语言处理过程中,为了能更好地处理和分析句子,往往需要把句子拆分成单个的词语。目前中文分词是基于词典、基于统计和基于机器学习这三种方法来实现的。
基于字典的方法是根据给定的词库,然后通过某种匹配手段将文本和词库里的词进行匹配,从而实现分词的效果。常见的匹配手段有最大正向匹配、最大逆向匹配和双向匹配。该方法的优点在于速度快,简单易于理解;缺点是只能解决有限程度上的歧义,当词库越大时,歧义更严重。
基于统计的方法是将全文本分割,然后构造无环图,计算出从开始到结束概率最大的路径即为分词结果。该方法的优点是可以避免歧义的出现;缺点是计算量很大,时间复杂度较高。
基于机器学习的方法将文本和人工标记过的分词进行模型训练后才能使用,常用的模型有隐马尔科夫(Hidden Markov Model,HMM)和条件随机场(conditional randomfield,CRF)。该方法的优点是准确率较高,机器可以通过学习标签后进行自动识别;缺点是需要人工进行标注和事先训练好模型,这一过程比较耗时。
为发现客户对移动套餐投诉的主要原因,在移动套餐投诉信息中,需要对每一条投诉文本信息进行分析和处理,这不仅耗时费力,效率低下,而且会因为处理人不同而导致分类标准不同,导致通用性差等问题。
发明内容
本发明的目的是提供一种基于聚类的5G移动业务投诉溯源分析方法,以解决效率低且通用性差的问题。
为实现上述目的,本发明提供了如下方案:
一种基于聚类的5G移动业务投诉溯源分析方法,包括:
获取移动业务投诉工单数据集,并利用Jieba分词技术对预处理后的移动业务投诉工单数据集进行分词处理,生成分词结果以及分词结果矩阵;
对所述分词结果矩阵进行词频统计,生成第一词频表,并根据所述第一词频表构建同义词库;所述同义词库包括“套餐”、“操作”以及“原因”三个类别的标签;
基于所述同义词库,结合移动业务,根据所述第一词频表将所述分词结果按照“套餐/操作/原因”进行分类操作,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵;
对所述基于套餐及操作的关键词矩阵进行聚类,生成业务投诉的问题类别矩阵;
针对所述问题类别矩阵中的每一类问题,对所述基于原因的关键词矩阵进行聚类,生成每一类投诉问题的原因矩阵;
对所述问题类别矩阵以及所述原因矩阵进行溯源分析确定投诉类别以及投诉原因。
可选的,所述获取移动业务投诉工单数据集,并利用Jieba分词技术对预处理后的移动业务投诉工单数据集进行分词处理,生成分词结果以及分词结果矩阵,具体包括:
选取通用停用词库;
利用BiLSTM+CRF模型构建初步移动领域词库,对于所述移动业务投诉工单数据集中每一行的处理内容和正则表达式进行正则化匹配,生成一次投诉文本过滤数据集;所述一次投诉文本过滤数据集为预处理后的移动业务投诉工单数据集;
基于所述通用停用词库,利用Jieba分词技术对所述一次投诉文本过滤数据集进行分词,生成分词结果以及分词结果矩阵。
可选的,所述利用BiLSTM+CRF模型构建初步移动领域词库,对于所述移动业务投诉工单数据集中每一行的处理内容和正则表达式进行正则化匹配,生成一次投诉文本过滤数据集,具体包括:
从所述移动业务投诉工单数据集中随机选取多条数据作为训练集,采用序列标注法对所述训练集进行标记,确定标注后的训练集;
将所述标注后的训练集作为BiLSTM+CRF模型的输入,构建输出“套餐”、“操作”以及“原因”三个类别的关键词模型;
从所述移动业务投诉工单数据集中再次随机选取多条作为测试集,并将所述测试集作为所述关键词模型的输入,输出“套餐”类关键词矩阵、“操作”类关键词矩阵以及“原因”类关键词矩阵;
根据所述“套餐”类关键词矩阵、所述“操作”类关键词矩阵以及所述“原因”类关键词矩阵构建初步移动领域词库;所述初步移动领域词库包括移动业务套餐类、移动业务操作类以及移动业务原因类;
构建正则表达式,将所述移动业务投诉工单数据集中每一行的处理内容与所述正则表达式进行正则化匹配,确定一次投诉文本过滤数据集。
可选的,所述基于所述通用停用词库,利用Jieba分词技术对所述一次投诉文本过滤数据集进行分词,生成分词结果以及分词结果矩阵,具体包括:
将所述初步移动领域词库将入到Jieba分词的词典中,生成更新后的词典;
获取通用停用词库,并利用所述通用停用词库对所述一次投诉文本过滤数据集中每一行的处理内容进行过滤,生成二次投诉文本过滤数据集;
基于Jieba分词技术,利用所述更新后的词典对所述二次投诉文本过滤数据集进行分词处理,生成分词结果以及分词结果矩阵;所述分词结果矩阵只包含套餐/操作/原因的分词。
可选的,所述对所述分词结果矩阵进行词频统计,生成第一词频表,并根据所述第一词频表构建同义词库,之后还包括:
基于更广泛数据的更新方法或基于聚类结果的更新方法对所述同义词库进行更新,生成更新后的同义词库;所述基于更广泛数据的更新方法为再次获取多条移动业务投诉工单数据进行词频统计,生成第一词频表,并将所述第一词频表以及移动业务筛选同义词加入至所述同义词库中,生成更新后的同义词库;所述基于聚类结果的更新方法为将所述投诉类别以及所述投诉原因中未在所述同义词库中的词加入至所述同义词库中,生成更新后的同义词库;
根据所述第一词频表更新所述停用词库。
可选的,所述基于所述同义词库,结合移动业务,根据所述第一词频表将所述分词结果按照“套餐/操作/原因”进行分类操作,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵,具体包括:
基于所述同义词库,结合移动业务,根据所述第一词频表将所述分词结果按照“套餐/操作/原因”进行分类操作,构成初步关键词矩阵;所述初步关键词矩阵包括“套餐”类关键词矩阵、“操作”类关键词矩阵以及“原因”类关键词矩阵;
根据所述初步移动领域词库,结合移动业务背景,选取未在所述初步关键词矩阵中的词加入到所述初步关键词矩阵中,生成更新后的关键词矩阵;
求解所述更新后的关键词矩阵以及所述分词结果矩阵的交集,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵。
可选的,所述求解所述更新后的关键词矩阵以及所述分词结果矩阵的交集,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵,具体包括:
选取多个词频对所述分词结果矩阵进行处理,生成处理后的分词结果矩阵;
利用所述更新后的同义词库替换所述处理后的分词结果矩阵,转换成统一的表达方式,生成更新后的分词结果矩阵;
将所述更新后的分词结果矩阵和所述更新后的关键词矩阵中的“套餐”类关键词矩阵以及“操作”类关键词矩阵进行交集运算,生成基于套餐及操作的关键词矩阵;
将所述更新后的分词结果矩阵和所述更新后的关键词矩阵中的“原因”类关键词矩阵进行交集运算,生成基于原因的关键词矩阵。
可选的,所述将所述更新后的分词结果矩阵和所述更新后的关键词矩阵中的“原因”类关键词矩阵进行交集运算,生成基于原因的关键词矩阵,之后还包括:
计算所述基于套餐及操作的关键词矩阵的词频,生成第二词频表;
计算所述基于原因的关键词矩阵的词频,生成第三词频表;
对于所述二次投诉文本过滤数据集,计算所述基于套餐及操作的关键词矩阵的逆文档频率矩阵以及所述基于原因的关键词矩阵的逆文档频率矩阵;
根据所述第二词频表以及所述基于套餐及操作的关键词矩阵的逆文档频率矩阵,计算所述基于套餐及操作的关键词矩阵的词频-逆文档频率值,生成基于套餐及操作的关键词权重矩阵;
根据所述第三词频表以及所述基于原因的关键词矩阵的逆文档频率矩阵计算所述基于原因的关键词矩阵的词频-逆文档频率值,生成基于原因的关键词权重矩阵。
可选的,所述对所述基于套餐及操作的关键词矩阵进行聚类,生成业务投诉的问题类别矩阵,具体包括:
采用k-means聚类方法对所述基于套餐及操作的关键词矩阵以及所述基于套餐及操作的关键词权重矩阵进行第一层次聚类分析,生成所述二次投诉文本过滤数据集内每条二次投诉文本过滤数据所属簇的基于套餐及操作的簇标签矩阵;
利用所述基于套餐及操作的簇标签矩阵计算所述基于套餐及操作的关键词矩阵中所有样本点的套餐及操作类轮廓系数矩阵以及套餐及操作类CH分数矩阵;
根据所述套餐及操作类轮廓系数矩阵以及所述套餐及操作类CH分数矩阵确定套餐及操作类的最佳聚类数目;
根据所述套餐及操作类的最佳聚类数目确定业务投诉的问题类别矩阵。
可选的,所述针对所述问题类别矩阵中的每一类问题,对所述基于原因的关键词矩阵进行聚类,生成每一类投诉问题的原因矩阵,具体包括:
针对所述问题类别矩阵中的每一类问题,采用k-means聚类方法对所述基于原因的关键词矩阵以及所述基于原因的关键词权重矩阵进行第一层次聚类分析,生成基于原因的簇标签矩阵;
利用所述基于原因的簇标签矩阵计算所述基于原因的关键词矩阵中所有样本点的原因类轮廓系数矩阵以及原因类CH分数矩阵;
根据所述原因类轮廓系数矩阵以及所述原因类CH分数矩阵确定原因类的最佳聚类数目;
根据所述原因类的最佳聚类数目确定每一类投诉问题的原因矩阵。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种基于聚类的5G移动业务投诉溯源分析方法,利用Jieba分词技术对移动业务投诉工单数据集进行分词,构建同义词库和关键词矩阵,并使用k-means聚类方法对关键词进行二次聚类分析,得到投诉类别以及投诉原因。本发明通过使用高效的Jieba分词技术和k-means聚类方法对移动业务投诉工单数据集进行分析和处理,溯源分析出投诉的主要原因,无需对每条投诉文本信息逐一分析,对大量移动业务投诉数据进行分类处理,无需人工分类,提高了分析处理效率以及通用性,在处理大规模数据方面性能比较优异。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于聚类的5G移动业务投诉溯源分析方法流程图;
图2为本发明所提供的基于聚类的5G移动业务投诉溯源分析方法应用于实际操作中的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
聚类(Clustering)是人工智能领域经典的无监督学习方法,具有广泛应用和成功经验,通过“模型+方法+产品”方式,提供解决该类应用中共性关键问题的通用解决方案、建立面向投诉信息处理的AI能力,具有一般性、可移植性等特点,克服基于“数据+方案”的统计分析方法对数据的依赖性、通用性和可推广性方面的不足。k-means聚类方法可以通过迭代把数据对象划分到不同的簇中,从而使生成的簇尽可能地独立。该聚类方法相对来说比较高效,通常终止于局部最优。其高效性对于处理大量的投诉文本信息至关重要。因此,本发明通过使用高效的Jieba分词技术和k-means聚类方法对移动业务投诉数据进行分析和处理,溯源分析出投诉的主要原因。
图1为本发明所提供的基于聚类的5G移动业务投诉溯源分析方法流程图,如图1所示,一种基于聚类的5G移动业务投诉溯源分析方法,包括:
步骤101:获取移动业务投诉工单数据集,并利用Jieba分词技术对预处理后的移动业务投诉工单数据集进行分词处理,生成分词结果以及分词结果矩阵。
所述步骤101具体包括:选取通用停用词库;利用BiLSTM+CRF模型构建初步移动领域词库,对于所述移动业务投诉工单数据集中每一行的处理内容和正则表达式进行正则化匹配,生成一次投诉文本过滤数据集;所述一次投诉文本过滤数据集为预处理后的移动业务投诉工单数据集;基于所述通用停用词库,利用Jieba分词技术对所述一次投诉文本过滤数据集进行分词,生成分词结果以及分词结果矩阵。
所述利用BiLSTM+CRF模型构建初步移动领域词库,对于所述移动业务投诉工单数据集中每一行的处理内容和正则表达式进行正则化匹配,生成一次投诉文本过滤数据集,具体包括:从所述移动业务投诉工单数据集中随机选取多条数据作为训练集,采用序列标注法对所述训练集进行标记,确定标注后的训练集;将所述标注后的训练集作为BiLSTM+CRF模型的输入,构建输出“套餐”、“操作”以及“原因”三个类别的关键词模型;从所述移动业务投诉工单数据集中再次随机选取多条作为测试集,并将所述测试集作为所述关键词模型的输入,输出“套餐”类关键词矩阵、“操作”类关键词矩阵以及“原因”类关键词矩阵;根据所述“套餐”类关键词矩阵、所述“操作”类关键词矩阵以及所述“原因”类关键词矩阵构建初步移动领域词库;所述初步移动领域词库包括移动业务套餐类、移动业务操作类以及移动业务原因类;构建正则表达式,将所述移动业务投诉工单数据集中每一行的处理内容与所述正则表达式进行正则化匹配,确定一次投诉文本过滤数据集。
所述基于所述通用停用词库,利用Jieba分词技术对所述一次投诉文本过滤数据集进行分词,生成分词结果以及分词结果矩阵,具体包括:将所述初步移动领域词库将入到Jieba分词的词典中,生成更新后的词典;获取通用停用词库,并利用所述通用停用词库对所述一次投诉文本过滤数据集中每一行的处理内容进行过滤,生成二次投诉文本过滤数据集;基于Jieba分词技术,利用所述更新后的词典对所述二次投诉文本过滤数据集进行分词处理,生成分词结果以及分词结果矩阵;所述分词结果矩阵只包含套餐/操作/原因的分词。
步骤102:对所述分词结果矩阵进行词频统计,生成第一词频表,并根据所述第一词频表构建同义词库;所述同义词库包括“套餐”、“操作”以及“原因”三个类别的标签。
所述步骤102之后还包括:基于更广泛数据的更新方法或基于聚类结果的更新方法对所述同义词库进行更新,生成更新后的同义词库;所述基于更广泛数据的更新方法为再次获取多条移动业务投诉工单数据进行词频统计,生成第一词频表,并将所述第一词频表以及移动业务筛选同义词加入至所述同义词库中,生成更新后的同义词库;所述基于聚类结果的更新方法为将所述投诉类别以及所述投诉原因中未在所述同义词库中的词加入至所述同义词库中,生成更新后的同义词库;根据所述第一词频表更新所述停用词库。
步骤103:基于所述同义词库,结合移动业务,根据所述第一词频表将所述分词结果按照“套餐/操作/原因”进行分类操作,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵。
所述步骤103具体包括:基于所述同义词库,结合移动业务,根据所述第一词频表将所述分词结果按照“套餐/操作/原因”进行分类操作,构成初步关键词矩阵;所述初步关键词矩阵包括“套餐”类关键词矩阵、“操作”类关键词矩阵以及“原因”类关键词矩阵;根据所述初步移动领域词库,结合移动业务背景,选取未在所述初步关键词矩阵中的词加入到所述初步关键词矩阵中,生成更新后的关键词矩阵;求解所述更新后的关键词矩阵以及所述分词结果矩阵的交集,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵。
所述求解所述更新后的关键词矩阵以及所述分词结果矩阵的交集,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵,具体包括:选取多个词频对所述分词结果矩阵进行处理,生成处理后的分词结果矩阵;利用所述更新后的同义词库替换所述处理后的分词结果矩阵,转换成统一的表达方式,生成更新后的分词结果矩阵;将所述更新后的分词结果矩阵和所述更新后的关键词矩阵中的“套餐”类关键词矩阵以及“操作”类关键词矩阵进行交集运算,生成基于套餐及操作的关键词矩阵;将所述更新后的分词结果矩阵和所述更新后的关键词矩阵中的“原因”类关键词矩阵进行交集运算,生成基于原因的关键词矩阵。
所述将所述更新后的分词结果矩阵和所述更新后的关键词矩阵中的“原因”类关键词矩阵进行交集运算,生成基于原因的关键词矩阵,之后还包括:计算所述基于套餐及操作的关键词矩阵的词频,生成第二词频表;计算所述基于原因的关键词矩阵的词频,生成第三词频表;对于所述二次投诉文本过滤数据集,计算所述基于套餐及操作的关键词矩阵的逆文档频率矩阵以及所述基于原因的关键词矩阵的逆文档频率矩阵;根据所述第二词频表以及所述基于套餐及操作的关键词矩阵的逆文档频率矩阵,计算所述基于套餐及操作的关键词矩阵的词频-逆文档频率值,生成基于套餐及操作的关键词权重矩阵;根据所述第三词频表以及所述基于原因的关键词矩阵的逆文档频率矩阵计算所述基于原因的关键词矩阵的词频-逆文档频率值,生成基于原因的关键词权重矩阵。
步骤104:对所述基于套餐及操作的关键词矩阵进行聚类,生成业务投诉的问题类别矩阵。
所述步骤104具体包括:采用k-means聚类方法对所述基于套餐及操作的关键词矩阵以及所述基于套餐及操作的关键词权重矩阵进行第一层次聚类分析,生成所述二次投诉文本过滤数据集内每条二次投诉文本过滤数据所属簇的基于套餐及操作的簇标签矩阵;利用所述基于套餐及操作的簇标签矩阵计算所述基于套餐及操作的关键词矩阵中所有样本点的套餐及操作类轮廓系数矩阵以及套餐及操作类CH分数矩阵;根据所述套餐及操作类轮廓系数矩阵以及所述套餐及操作类CH分数矩阵确定套餐及操作类的最佳聚类数目;根据所述套餐及操作类的最佳聚类数目确定业务投诉的问题类别矩阵。
步骤105:针对所述问题类别矩阵中的每一类问题,对所述基于原因的关键词矩阵进行聚类,生成每一类投诉问题的原因矩阵。
所述步骤105具体包括:针对所述问题类别矩阵中的每一类问题,采用k-means聚类方法对所述基于原因的关键词矩阵以及所述基于原因的关键词权重矩阵进行第一层次聚类分析,生成基于原因的簇标签矩阵;利用所述基于原因的簇标签矩阵计算所述基于原因的关键词矩阵中所有样本点的原因类轮廓系数矩阵以及原因类CH分数矩阵;根据所述原因类轮廓系数矩阵以及所述原因类CH分数矩阵确定原因类的最佳聚类数目;根据所述原因类的最佳聚类数目确定每一类投诉问题的原因矩阵。
步骤106:对所述问题类别矩阵以及所述原因矩阵进行溯源分析确定投诉类别以及投诉原因。
将本发明所提供的基于聚类的5G移动业务投诉溯源分析方法应用于实际操作中,图2为本发明所提供的基于聚类的5G移动业务投诉溯源分析方法应用于实际操作中的方法流程图,如图2所示,执行步骤可分为以下4个步骤:
(1)投诉文本预处理:针对移动业务投诉工单数据集D,首先选择一个通用停用词库R,然后利用BiLSTM+CRF模型构建初步移动领域词库P,对于移动业务投诉工单数据集D的每一行数据和正则表达式C进行正则化匹配,得到一次投诉文本过滤数据集D',接着利用R和Jieba分词技术方法对一次投诉文本过滤数据集D'进行分词,得到分词结果矩阵W。
(2)同义词库T的构建与更新以及通用停用词库R的更新:针对分词结果矩阵W进行词频统计,生成第一词频表L。根据第一词频表L和分词结果矩阵W并结合移动业务来筛选同义词,构成同义词库T,最后基于更广泛的数据和基于聚类结果对同义词库T进行更新。根据第一词频表L并结合移动业务扩充停用词,完成通用停用词库R的更新。
(3)关键词抽取及更新:根据第一词频表L,结合移动业务进行分析,将分词按照“套餐/操作/原因”进行分类操作,构成初步关键词矩阵K={x,y,z}。根据初步移动领域词库P,结合移动业务背景,选取未在初步关键词矩阵K中的词加入到初步关键词矩阵K中,完成初步关键词矩阵K的更新,得到更新后的关键词矩阵K'。通过更新后的关键词矩阵K'和分词结果矩阵W求交集,分别求出基于套餐及操作的关键词矩阵W”xy和基于原因的关键词矩阵W”z。
(4)溯源分析:对基于套餐及操作的关键词矩阵W”xy和TF_IDF权重矩阵Qxy(即:基于套餐及操作的关键词权重矩阵)进行第一次聚类,得到业务投诉的问题类别矩阵α;针对α中的每一类问题,对该基于原因的关键词矩阵W”z和TF_IDF矩阵Qz(即:基于原因的关键词权重矩阵)进行二次聚类,得到每一类投诉问题的原因矩阵β。基于移动业务背景,对α、β矩阵进行溯源分析后便定位得到具体的投诉原因。
具体步骤如下:
1:采集移动业务投诉工单数据集D进行文本预处理,得到分词结果矩阵W
为解决5G移动业务投诉问题,采集到移动业务投诉工单数据集D={(ε11,...,εN1),(ε12,...,εN2),...,(ε1M,...,εNM)}(M=7),其中D的每一个元组表示移动业务投诉工单数据集属性的具体信息。例如元组(εi)=(εi1,...,εiN)(1≤i≤M)表示投诉工单数据中的处理内容。
1.1:构建停用词库R
选择一个通用的停用词库R,该词库仅包含通用型停用词。停用词库R作为步骤1.4.2的输入。
1.2:用移动业务投诉工单数据集D通过LSTM+CRF的方式构建初步移动领域词库P
1.2.1:针对移动业务投诉工单数据集D,利用BIO标注,得到训练集D1
从采集到的移动业务投诉工单数据集D中随机选取1000条数据作为训练集,记为采用序列标注法,基于移动业务背景,划分初步移动领域词库P={x,y,z},其中x表示移动业务套餐类、y表示移动业务操作类、z表示移动业务原因类。
针对训练集D1中的处理内容εij(1≤i≤N)进行序列标注,其中“B-x”和“I-x”标签分别表示“套餐”类起始位置和中间位置、“B-y”和“I-y”标签分别表示“操作”类起始位置和中间位置、“B-z”和“I-z”标签分别表示“原因”类起始位置和中间位置、“O”表示外部标注。标记好的训练集D1作为步骤1.2.2的输入。
1.2.2:针对训练集D1,通过LSTM+CRF训练后生成关键词模型Ω
利用步骤1.2.1中得到的训练集D1,将D1作为BiLSTM+CRF方法的输入,训练生成能够识别并输出“套餐”、“操作”和“原因”三类关键词的模型Ω。模型Ω作为步骤1.2.3构建初步移动领域词库P的主要方法。
1.2.3:将移动业务投诉工单数据集D作为关键词模型Ω的输入,构建初步移动领域词库P
针对移动业务投诉工单数据集D,再次随机选出1000条数据测试集,记为将D2作为步骤1.2.2中得到模型Ω的输入,最后分别输出“套餐”类矩阵x、“操作”类矩阵y和“原因”类矩阵z,将矩阵x、y和z组合起来构建成初步移动领域词库P。P用于步骤1.4.1中Jieba词典的扩充与更新,用于步骤3.2中进行关键词库的更新。
1.3:对移动业务投诉工单数据集D进行正则化匹配,得到一次投诉文本过滤数据集D'
针对采集到的数据集D={(ε11,...,εN1),(ε12,...,εN2),...,(ε1M,...,εNM)}(M=7),构建正则表达式C,将D中每一行的处理内容εij(1≤i≤N)与C进行正则化匹配,得到过滤数据集D'={(ε11,...,εN1),...,(εij'|i=1,2,...,N),...,(ε1M,...,εNM)}。D'用于步骤1.4.2中Jieba分词的输入。
1.4:对一次投诉文本过滤数据集D'进行Jieba分词,得到分词结果矩阵W
1.4.1:更新Jieba词典J
Jieba分词词典记为J,为了得到包含套餐/操作/原因的分词,将步骤1.2.3得到的初步移动领域词库P加入到Jieba分词的词典J中,得到新的词典J'。J'用于步骤1.4.2中的Jieba分词处理。
1.4.2:对一次投诉文本过滤数据集D'进行Jieba分词,得到分词结果矩阵W
针对步骤1.3得到的一次投诉文本过滤数据集D',对每一行的处理内容εij'(1≤i≤N)使用步骤1.1得到的通用停用词库R进行过滤,然后使用Jieba分词技术进行分词处理,得到只包含套餐/操作/原因的分词,即分词结果矩阵记为W={(ε11,...,εN1),...,(εij”|i=1,2,...,N),...,(ε1M,...,εNM)}。W作为步骤2.2、3.3的输入。
2:构建和更新同义词库T并更新停用词库R
2.1:同义词库T的构建规范
其中T是同义词库,t11,t21,…,tκ1是统一的移动业务规范表达,tij(j≠1)是同义表达。例如“一百二十八元套餐”是统一的规范表达,而“幺二八”、“五g飞享一百二十八元套餐”、“一百二十八”、“一百二十八元”属于同义表达。
2.2:利用分词结果矩阵W,计算第一词频(TermFrequency,TF)表L
由步骤1.4可知,过滤投诉文本数据集D'的行数目为N,CWi j(1≤i≤N)表示第i行中第j个词在工单中出现的次数。针对分词结果矩阵W,根据以下公式计算得到第一词频表L。L用于步骤2.3和2.4进行构建同义词库T和更新同义词库T和停用词库R,用于步骤3.1,关键词矩阵K的构建。
2.3:利用词频表L构建和更新同义词库T
同义词库T中包含“套餐”、“操作”和“原因”三个类别的标签。针对步骤2.2得到的词频表L,根据L中的每个词l(i)及频率,结合移动业务背景判断是否将l(i)加入到T中,得到更新后的同义词库T'。
这里T的更新有两种方式,分别是基于更广泛数据的更新和基于聚类结果的更新。更新后的同义词库T”用于步骤3.3将分词结果矩阵W转换成统一的表达方式。
2.3.1:基于更广泛数据的更新
对更多的投诉工单文本数据进行步骤1.3的分词和步骤2.2的词频统计,生成词频表L',根据L'和移动业务筛选同义词加入到T'中,得到相对完善的同义词库Tm”。
2.3.2:基于聚类结果的更新
该方式适用于在之后迭代的过程中,从步骤4.3的投诉类别U和投诉原因U'中,将不在同义词库T'中的词加入到T'中,完成的对T'的更新,得到Tc”。
2.4:利用第一词频表L更新通用停用词库R
针对步骤2.2得到的第一词频表L,根据L中的每个词l(i)(1≤i≤λ)及频率,结合移动业务背景判断是否将l(i)加入至R,重复该操作至完成更新。
3:关键词抽取及更新
3.1:根据第一词频表L,构建关键词矩阵K
针对步骤2.2得到的第一词频表L,结合移动业务进行分析,将分词按照“套餐/操作/原因”进行分类操作,构成关键词矩阵K={x,y,z},其中x表示“套餐”类关键词矩阵,y表示“操作”类关键词矩阵,z表示“原因”类关键词矩阵。
3.2:根据初步移动领域词库P,更新关键词矩阵K
根据步骤1.2.3得到的初步移动领域词库P,基于移动业务背景,选取未在步骤3.1得到的关键词矩阵K中的关键词加入到K中,完成K的更新,得到更新后的关键词矩阵K'。K'用于步骤3.4的输入。
3.3:利用同义词库T”,统一分词结果矩阵W”
针对步骤1.4.2得到的分词结果矩阵W,选取Top-a(a=20)词频,得到分词结果矩阵W'。将W'用步骤2.3得到的同义词库T”进行替换,转换成统一的表达方式,得到分词结果矩阵W”。W”用于步骤3.4的输入。
3.4:对分词结果矩阵W”与K'求交集,分别得到对应的内容关键词矩阵
针对上一步得到的分词结果矩阵W”和关键词矩阵K',将W”和套餐、操作类关键词矩阵x、y进行交集运算,得到基于套餐及操作的关键词矩阵W”xy,将W”和原因类关键词矩阵z进行交集运算,得到基于原因的关键词矩阵W”z。W”xy和W”z作为步骤3.5、步骤4.1和步骤4.2的输入。
3.5:根据词频表和逆文档频率矩阵,计算TF_IDF权重矩阵
根据步骤2.3中的公式计算关键词矩阵W”xy的词频,得到第二词频表L'xy;同理计算关键词矩阵W”z的词频,得到第三词频表L'z。L'xy和L'z作为步骤4.3的输入。
3.5.1:根据内容关键词矩阵计算逆文档频率(Inverted Document Frequency,IDF)矩阵
由步骤1.4可知,一次投诉文本过滤数据集D'的行数目为N,NWi j表示包含第i行第j个词的投诉工单数。针对步骤3.4得到的内容关键词矩阵W”xy和W”z,根据以下公式计算,分别得到逆文档频率矩阵H'xy和H'z。
根据上面计算的到的词频表L'xy、L'z和逆文档频率矩阵H'xy、H'z,根据公式3-2计算TF_IDF值,分别得到基于套餐及操作的关键词权重矩阵Qxy={Qij=H'xy(ij)×L'xy(ij)|i=1,2,...,N}和基于原因的关键词权重矩阵Qz={Qij=H'z(ij)×L'z(ij)|i=1,2,...,N},该公式可以看出某个词越重要,那么它的TF_IDF值就越大,且这两个权重矩阵作为4.1和4.2的输入。
TF_IFD=TF×IDF (3-2)
4:溯源分析,得到投诉类别及原因
4.1:对W”xy和Qxy进行聚类,得到投诉类别α
针对步骤3.4得到的基于套餐及操作的关键词矩阵W”xy和步骤3.5得到的基于套餐及操作的关键词权重矩阵Qxy,采用k-means聚类方法对W”xy和Qxy进行第一层次聚类分析,得到每条数据所属簇的基于套餐及操作的簇标签矩阵Exy,聚类分析方法如下:
4.1.1:利用基于套餐及操作的关键词矩阵W”xy进行k-means聚类分析,得到所属标签Exy
(1)首先随机选择k个聚类中心点。
(2)重复以下步骤直到收敛:
Step1:对每条投诉工单文本数据按最近距离计算其所属的簇,其中,ε”ij表示第i条投诉文本基于套餐、操作的关键词,表示第i条投诉工单文本数据中的第z个关键词,G表示簇心,Gi表示簇核心,N为投诉工单文本数据总数,欧氏距离的计算公式如下:
Step2:更新每一个簇的中心。
收敛之后,得到每一条数据所属簇的标签矩阵Exy。Exy用于步骤4.1.2的输入,用来计算聚类评价指标。
4.1.2:利用基于套餐及操作的关键词权重矩阵Qxy和基于套餐及操作的簇标签矩阵Exy,计算评价指标
在本发明中,使用了轮廓系数(Silhouette Coefficient)和CH(Calinski_harabasz)分数来对聚类最佳数目进行评定。
(1)计算轮廓系数值,得到套餐及操作类轮廓系数矩阵S
Step1:为了衡量簇内的凝聚度,针对关键词矩阵W”xy中的每个数据样本点d(i),计算样本点d(i)与其同一个簇内的所有其他元素距离的平均值,得到a(d(i))。
Step2:为了量化簇之间的分离度,选取样本点d(i)外的一个簇b,计算d(i)与b中所有点的平均距离,遍历其他簇,找到最近的这个平均距离,得到b(d(i)),即为d(i)的邻居类。
Step3:对于数据样本点d(i)的轮廓系数S(d(i))计算公式如下:
其中,a(d(i))为数据样本d(i)与其所在簇内其他数据样本的平均距离,b(d(i))为数据样本d(i)与其他簇中数据样本的平均距离。
Step4:计算所有样本点d(i)的轮廓系数,求出平均值即为当前聚类数目的整体轮廓系数。聚类数目为k时,计算得到的轮廓系数矩阵为S={s1,s2,...,sk}。S用于步骤4.1.3的输入。
(2)计算CH分数,得到套餐及操作类CH分数矩阵CH
对于k个聚类,当前簇i(1≤i≤k)的CH分数计算公式如下:
其中,Bk为簇内散度均值,Wk为簇间散度,计算公式分别为:
其中,Tr(Bk)为簇间离差矩阵的迹,Bk为簇间色散平均值(between-clustersdispersion mean),Tr(Wk)为簇内离差矩阵的迹,Wk为簇内色散之间的比值(within-clusterdispersion),nq为聚类结果中簇q的数量,cq代表簇q中的样本点。聚类数目为k时,计算得到的CH分数矩阵为CH={ch1,ch2,...,chk}。CH作为步骤4.1.3的输入。
4.1.3:利用套餐及操作类轮廓系数矩阵S和套餐及操作类CH分数矩阵CH,确定套餐及操作类的最佳聚类数目j
针对步骤4.1.2得到的矩阵S和CH进行降序排序得到套餐及操作类轮廓系数矩阵S'和套餐及操作类CH分数矩阵CH',确定套餐及操作类的最佳聚类数目具体过程如下:
(1)令变量ak初始值为1,然后开始遍历原因类轮廓系数矩阵S'和原因类CH分数矩阵CH'。
(2)当top-ak(S',CH')为空时,则ak自加1,否则退出遍历,将ak的值赋值给j,此时的j即为由轮廓系数和CH分数值所确定的最佳聚类数目。
4.1.4:根据套餐及操作类的最佳聚类数目j,得到业务投诉的问题类别矩阵α
根据步骤4.1.3方式确定套餐及操作类的最佳聚类数目j,即可得到基于x、y描述投诉问题的m类业务投诉的问题类别矩阵α(ε1,ε2,...,εm)(m=j+6)。其中,加6是为了平衡矩阵的下标和初始的聚类数目。α用于步骤4.3的输入确定描述投诉类别。
4.2:对W”z和Qz进行聚类,得到每类投诉问题的原因矩阵β
针对步骤4.1.4中的每一类εi(1≤i≤m),根据步骤3.4得到的原因类关键词矩阵W”z和步骤3.5的权重矩阵Qz,采用k-means聚类方法进行聚类分析,利用步骤4.1.2的方式计算出原因类轮廓系数矩阵S1和原因类CH分数矩阵CH1,利用步骤4.1.3的方式确定最佳聚类数目为j1,即每一类εi(1≤i≤m)投诉类别可分为j1类原因,即得到投诉问题的原因矩阵β用于步骤4.3确定描述投诉原因。
4.3:根据词频表L'xy和L'z,确定描述投诉类别和原因
针对步骤4.1.4得到的矩阵α,针对每一类别εi(1≤i≤m),对照步骤3.5得到的第二词频表L'xy,当关键词出现的频率达到80%以上,则选取出来构成矩阵U={γ1,γ2,...,γm},其中γ(i)(1≤i≤m)表示第i类别的描述。针对步骤4.2聚类得到的原因矩阵β,同样对照步骤3.5得到的第三词频表L'z,将出现频率达到80%以上的原因类关键词选取出来构成矩阵U'={γ'1,γ'2,...,γ'j},其中γ'(i)(1≤i≤j)表示第i类原因的描述。最终,U和U'便是确定的描述投诉类别和原因关键字。
以移动6月份的投诉工单文本数据进行聚类分析。6月份的投诉数据为23730条数据。
1:投诉文本预处理
按照步骤1.1,选择一个通用的停用词库R,该词库仅仅包含一些常见且与分析内容无关的停用词,比如标点符号“,”、“!”、“:”、“;”、“?”,关联词“不但…而且”、“与其…不如”。该停用词库R里面包含746个常用的停用词,主要用于首次的Jieba分词进行过滤移动业务投诉工单数据集D,更新以后的停用词库用于后续的分词操作。
按照步骤1.2.1,获取训练集D1并进行序列标注,表1为序列标注方法示意表,具体标注方式如表1所示:
表1
按照步骤1.2.2,将训练集D1作为BiLSTM+CRF的输入,训练生成模型Ω。按照步骤1.2.3,从移动业务投诉工单数据集D中随机选取1000条数据作为模型Ω的输入,该模型Ω输出的结果便是构建的初步移动领域词库P,表2为套餐、操作和原因的初步移动领域词库P示意表。
表2
套餐 | 操作 | 原因 |
4G飞享8 | 改套餐 | 没有低速流量 |
4G飞享18 | 取消 | 使用不了 |
… | … | … |
5G智享158 | 回退 | 反悔原因 |
5G智享198 | 超时 | 隔笔返销 |
按照步骤1.3,针对数据集D,构建正则表达式C,将D中的每一行与C进行正则化匹配,对D进行过滤,得到一次投诉文本过滤数据集D'。
按照步骤1.4,先将初步移动领域词库P加入到Jieba分词字典J中,得到新词典J'。对过滤数据集D'进行Jieba分词,得到分词结果矩阵W。表3为分词结果矩阵示意表,如表3所示。
表3
2:同义词库T的构建与更新以及停用词库R的更新
按照步骤2.2,针对分词结果矩阵W,由公式2-1可以计算得到词频表L。该词频表可用于更新停用词库R和同义词库T。
按照步骤2.1同义词库T的构建规范和步骤2.3,构建同义词库T。表4为所构建的同义词库T示意表,如表4所示。
表4
同义词库T主要用于将分词结果矩阵W转换成统一的表达方式。T的更新可以按照步骤2.3.1和2.3.2完成,其中基于聚类结果的更新方式只适用于聚类后迭代更新使用。为了得到更准确的同义词库T,对更多的数据进行分词和词频统计,结合移动业务背景,选择更多的词加入到同义词库中,不断更新和完善得到同义词库T”。
按照步骤2.4,利用词频表L结合移动业务背景,对通用停用词库R进行更新,得到R'。例如迭代加入的停用词有:“返回原因”、“工号”、“流水”、“看工单”等。
3:关键词抽取及更新
按照步骤3.1,针对步骤2.3得到的词频表L,结合移动业务进行分析,将分词按照“套餐/操作/原因”进行分类操作,构成关键词矩阵K={x,y,z}。
按照步骤3.2,根据初步移动领域词库P,基于移动业务背景,选取未在K中的关键词加入到K中,完成K的更新,得到K'。表5为更新后的关键词矩阵K'示意表。
表5
按照步骤3.3,针对分词结果矩阵W,选取Top-a(a=20)词频,得到分词结果矩阵W',然后利用同义词库T”将W'里的关键词转换成统一的表达方式,得到分词结果矩阵W”。
按照步骤3.4,针对分词结果矩阵W”和关键词矩阵K',将W”和“套餐、操作”类关键词矩阵x、y进行交集运算,得到只有“套餐、操作”类的关键词矩阵W”xy。同样的方式,将W”和“原因”类关键词矩阵z进行交集运算,得到只有“原因”的关键词矩阵W”z。
按照步骤3.5,针对关键词矩阵W”xy和W”z,按照公式2-1分别计算出对应的词频表L'xy和L'z,然后按照公式3-1分别计算出对应的逆文档频率矩阵H'xy和H'z,最后根据公式3-2分别计算出对应的权重矩阵Qxy和Qz。表6为其中一个数据的TF_IDF权重矩阵Qi示意表。
表6
内容关键词矩阵W”xy和W”z用于聚类分析,其中套餐和操作类关键词矩阵W”xy和权重矩阵Qxy用于第一次聚类,得到投诉问题的类别,原因类关键词矩阵W”z和权重矩阵Qz用于二次聚类,得到每个类别下的具体原因。
4:溯源分析,得到投诉类别及原因
按照步骤4.1.1,利用内容关键词矩阵W”xy进行k-means聚类分析,得到所属标签矩阵Exy。
按照步骤4.1.2,利用权重矩阵Qxy和簇标签矩阵,计算出轮廓系数矩阵S和CH分数矩阵CH。
按照步骤4.1.3,利用轮廓系数矩阵S和CH分数矩阵CH,确定最佳聚类数目j。
按照步骤4.1.4,根据最佳聚类数目,即可得到基于x、y描述投诉问题的m类投诉矩阵α(ε1,ε2,...,εm)(m=j+6)。表7为轮廓系数值和CH分数值示意表,如表7所示。
表7
序号 | 轮廓系数值 | CH分数值 |
1 | 0.47474632204207673 | 1160.914400904587 |
2 | 0.5004496321501599 | 1166.8806325504847 |
3 | 0.5097691844603797 | 1139.3178830835614 |
4 | 0.5232564771334469 | 1121.0385491992838 |
5 | 0.539491544192078 | 1120.5801692042262 |
6 | 0.5519875603955672 | 1109.2413234272976 |
7 | 0.5556155225190759 | 1057.1364842289947 |
8 | 0.5767032133466089 | 1104.207918541593 |
通过表7,由步骤4.1.3得,最佳聚类数目为j=2,加上初始设定的值6,即最佳聚类数目是8,也就是投诉类别分为8类。
按照步骤4.2,针对每一类别εi(1≤i≤m),根据关键词矩阵W”z和权重矩阵Qz,采用k-means聚类方法进行聚类分析,计算出轮廓系数矩阵S1和CH分数矩阵CH1,针对矩阵S1、CH1,按照步骤4.1.3方式计算出最佳聚类数目j1,即得到投诉问题的原因矩阵
按照步骤4.3,根据第一次聚类得到的类别矩阵α,针对每一类别εi(1≤i≤m),对矩阵W”xy里的关键词进行频数统计,当关键词出现的频率达到80%以上,则选取出来构成矩阵U={γ1,γ2,...,γm},其中γ(i)(1≤i≤m)表示第i类别的描述,表8为第1类到第8类的名称示意表,该次聚类得到的8类名称如表8所示。
表8
例如第二类别名称的意思是:“取消5g智享158套餐”,“回退到畅享98套餐”,或者将“5g智享158套餐改为畅享98套餐”。
针对第二次聚类得到的原因矩阵β,同样对矩阵W”z进行频数统计,将出现频率达到80%以上的原因类关键词选取出来构成矩阵U'={γ'1,γ'2,...,γ'j},其中γ'(i)(1≤i≤j)表示第i类原因的描述,每一类别下的具体原因见附图2所示。
经过两次聚类后的结果如表9所示。从表9中可知,对投诉文本进行溯源聚类分析,从而得到投诉主要原因的方法是可行的,而且效果非常令人满意。
表9
与现有技术相比本发明具有的优点及积极效果如下:
(1)本发明通过使用BiLSTM+CRF模型构建初步移动领域词库P,能够高效、准确地从数据中获得包含套餐/操作/原因的词,并利用P来对关键词矩阵K进行更新,得到完善的关键词矩阵K,利用正则化匹配和同义词库构建等多种技术相互迭代完善,有效地确保提取关键词的准确性,增强了聚类结果的可说服性。
(2)本发明在确定最佳聚类数目时使用了轮廓系数和CH分数两种聚类指标来共同确定,体现了聚类方法的严谨性。
(3)本发明基于移动的业务背景,针对不同的关键词进行聚类,对套餐和操作类关键词聚类得到投诉问题的类别,针对每一类别下的原因进行二次聚类,得到每一类别下的具体原因。这样更能精确定位到客户投诉的痛点,便于及时解决问题,提高服务质量。
(4)本发明使用的是移动提供的投诉数据为基础进行实现的,在大规模的数据文本处理上,保证了一定的高效性,在大量数据的训练和测试下保证了很强的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于聚类的5G移动业务投诉溯源分析方法,其特征在于,包括:
获取移动业务投诉工单数据集,并利用Jieba分词技术对预处理后的移动业务投诉工单数据集进行分词处理,生成分词结果以及分词结果矩阵;
对所述分词结果矩阵进行词频统计,生成第一词频表,并根据所述第一词频表构建同义词库;所述同义词库包括“套餐”、“操作”以及“原因”三个类别的标签;
基于所述同义词库,结合移动业务,根据所述第一词频表将所述分词结果按照“套餐/操作/原因”进行分类操作,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵;
对所述基于套餐及操作的关键词矩阵进行聚类,生成业务投诉的问题类别矩阵;
针对所述问题类别矩阵中的每一类问题,对所述基于原因的关键词矩阵进行聚类,生成每一类投诉问题的原因矩阵;
对所述问题类别矩阵以及所述原因矩阵进行溯源分析确定投诉类别以及投诉原因。
2.根据权利要求1所述的基于聚类的5G移动业务投诉溯源分析方法,其特征在于,所述获取移动业务投诉工单数据集,并利用Jieba分词技术对预处理后的移动业务投诉工单数据集进行分词处理,生成分词结果以及分词结果矩阵,具体包括:
选取通用停用词库;
利用BiLSTM+CRF模型构建初步移动领域词库,对于所述移动业务投诉工单数据集中每一行的处理内容和正则表达式进行正则化匹配,生成一次投诉文本过滤数据集;所述一次投诉文本过滤数据集为预处理后的移动业务投诉工单数据集;
基于所述通用停用词库,利用Jieba分词技术对所述一次投诉文本过滤数据集进行分词,生成分词结果以及分词结果矩阵。
3.根据权利要求2所述的基于聚类的5G移动业务投诉溯源分析方法,其特征在于,所述利用BiLSTM+CRF模型构建初步移动领域词库,对于所述移动业务投诉工单数据集中每一行的处理内容和正则表达式进行正则化匹配,生成一次投诉文本过滤数据集,具体包括:
从所述移动业务投诉工单数据集中随机选取多条数据作为训练集,采用序列标注法对所述训练集进行标记,确定标注后的训练集;
将所述标注后的训练集作为BiLSTM+CRF模型的输入,构建输出“套餐”、“操作”以及“原因”三个类别的关键词模型;
从所述移动业务投诉工单数据集中再次随机选取多条作为测试集,并将所述测试集作为所述关键词模型的输入,输出“套餐”类关键词矩阵、“操作”类关键词矩阵以及“原因”类关键词矩阵;
根据所述“套餐”类关键词矩阵、所述“操作”类关键词矩阵以及所述“原因”类关键词矩阵构建初步移动领域词库;所述初步移动领域词库包括移动业务套餐类、移动业务操作类以及移动业务原因类;
构建正则表达式,将所述移动业务投诉工单数据集中每一行的处理内容与所述正则表达式进行正则化匹配,确定一次投诉文本过滤数据集。
4.根据权利要求3所述的基于聚类的5G移动业务投诉溯源分析方法,其特征在于,所述基于所述通用停用词库,利用Jieba分词技术对所述一次投诉文本过滤数据集进行分词,生成分词结果以及分词结果矩阵,具体包括:
将所述初步移动领域词库将入到Jieba分词的词典中,生成更新后的词典;
获取通用停用词库,并利用所述通用停用词库对所述一次投诉文本过滤数据集中每一行的处理内容进行过滤,生成二次投诉文本过滤数据集;
基于Jieba分词技术,利用所述更新后的词典对所述二次投诉文本过滤数据集进行分词处理,生成分词结果以及分词结果矩阵;所述分词结果矩阵只包含套餐/操作/原因的分词。
5.根据权利要求4所述的基于聚类的5G移动业务投诉溯源分析方法,其特征在于,所述对所述分词结果矩阵进行词频统计,生成第一词频表,并根据所述第一词频表构建同义词库,之后还包括:
基于更广泛数据的更新方法或基于聚类结果的更新方法对所述同义词库进行更新,生成更新后的同义词库;所述基于更广泛数据的更新方法为再次获取多条移动业务投诉工单数据进行词频统计,生成第一词频表,并将所述第一词频表以及移动业务筛选同义词加入至所述同义词库中,生成更新后的同义词库;所述基于聚类结果的更新方法为将所述投诉类别以及所述投诉原因中未在所述同义词库中的词加入至所述同义词库中,生成更新后的同义词库;
根据所述第一词频表更新所述停用词库。
6.根据权利要求5所述的基于聚类的5G移动业务投诉溯源分析方法,其特征在于,所述基于所述同义词库,结合移动业务,根据所述第一词频表将所述分词结果按照“套餐/操作/原因”进行分类操作,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵,具体包括:
基于所述同义词库,结合移动业务,根据所述第一词频表将所述分词结果按照“套餐/操作/原因”进行分类操作,构成初步关键词矩阵;所述初步关键词矩阵包括“套餐”类关键词矩阵、“操作”类关键词矩阵以及“原因”类关键词矩阵;
根据所述初步移动领域词库,结合移动业务背景,选取未在所述初步关键词矩阵中的词加入到所述初步关键词矩阵中,生成更新后的关键词矩阵;
求解所述更新后的关键词矩阵以及所述分词结果矩阵的交集,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵。
7.根据权利要求6所述的基于聚类的5G移动业务投诉溯源分析方法,其特征在于,所述求解所述更新后的关键词矩阵以及所述分词结果矩阵的交集,构建基于套餐及操作的关键词矩阵以及基于原因的关键词矩阵,具体包括:
选取多个词频对所述分词结果矩阵进行处理,生成处理后的分词结果矩阵;
利用所述更新后的同义词库替换所述处理后的分词结果矩阵,转换成统一的表达方式,生成更新后的分词结果矩阵;
将所述更新后的分词结果矩阵和所述更新后的关键词矩阵中的“套餐”类关键词矩阵以及“操作”类关键词矩阵进行交集运算,生成基于套餐及操作的关键词矩阵;
将所述更新后的分词结果矩阵和所述更新后的关键词矩阵中的“原因”类关键词矩阵进行交集运算,生成基于原因的关键词矩阵。
8.根据权利要求7所述的基于聚类的5G移动业务投诉溯源分析方法,其特征在于,所述将所述更新后的分词结果矩阵和所述更新后的关键词矩阵中的“原因”类关键词矩阵进行交集运算,生成基于原因的关键词矩阵,之后还包括:
计算所述基于套餐及操作的关键词矩阵的词频,生成第二词频表;
计算所述基于原因的关键词矩阵的词频,生成第三词频表;
对于所述二次投诉文本过滤数据集,计算所述基于套餐及操作的关键词矩阵的逆文档频率矩阵以及所述基于原因的关键词矩阵的逆文档频率矩阵;
根据所述第二词频表以及所述基于套餐及操作的关键词矩阵的逆文档频率矩阵,计算所述基于套餐及操作的关键词矩阵的词频-逆文档频率值,生成基于套餐及操作的关键词权重矩阵;
根据所述第三词频表以及所述基于原因的关键词矩阵的逆文档频率矩阵计算所述基于原因的关键词矩阵的词频-逆文档频率值,生成基于原因的关键词权重矩阵。
9.根据权利要求8所述的基于聚类的5G移动业务投诉溯源分析方法,其特征在于,所述对所述基于套餐及操作的关键词矩阵进行聚类,生成业务投诉的问题类别矩阵,具体包括:
采用k-means聚类方法对所述基于套餐及操作的关键词矩阵以及所述基于套餐及操作的关键词权重矩阵进行第一层次聚类分析,生成所述二次投诉文本过滤数据集内每条二次投诉文本过滤数据所属簇的基于套餐及操作的簇标签矩阵;
利用所述基于套餐及操作的簇标签矩阵计算所述基于套餐及操作的关键词矩阵中所有样本点的套餐及操作类轮廓系数矩阵以及套餐及操作类CH分数矩阵;
根据所述套餐及操作类轮廓系数矩阵以及所述套餐及操作类CH分数矩阵确定套餐及操作类的最佳聚类数目;
根据所述套餐及操作类的最佳聚类数目确定业务投诉的问题类别矩阵。
10.根据权利要求9所述的基于聚类的5G移动业务投诉溯源分析方法,其特征在于,所述针对所述问题类别矩阵中的每一类问题,对所述基于原因的关键词矩阵进行聚类,生成每一类投诉问题的原因矩阵,具体包括:
针对所述问题类别矩阵中的每一类问题,采用k-means聚类方法对所述基于原因的关键词矩阵以及所述基于原因的关键词权重矩阵进行第一层次聚类分析,生成基于原因的簇标签矩阵;
利用所述基于原因的簇标签矩阵计算所述基于原因的关键词矩阵中所有样本点的原因类轮廓系数矩阵以及原因类CH分数矩阵;
根据所述原因类轮廓系数矩阵以及所述原因类CH分数矩阵确定原因类的最佳聚类数目;
根据所述原因类的最佳聚类数目确定每一类投诉问题的原因矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616920.6A CN113360647B (zh) | 2021-06-03 | 2021-06-03 | 一种基于聚类的5g移动业务投诉溯源分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616920.6A CN113360647B (zh) | 2021-06-03 | 2021-06-03 | 一种基于聚类的5g移动业务投诉溯源分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360647A true CN113360647A (zh) | 2021-09-07 |
CN113360647B CN113360647B (zh) | 2022-08-26 |
Family
ID=77531469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110616920.6A Active CN113360647B (zh) | 2021-06-03 | 2021-06-03 | 一种基于聚类的5g移动业务投诉溯源分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360647B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082092A (zh) * | 2022-08-16 | 2022-09-20 | 珠海横琴新区天章云科技有限公司 | 基于物联网的产品溯源方法及系统 |
CN117093935A (zh) * | 2023-10-16 | 2023-11-21 | 深圳海云安网络安全技术有限公司 | 一种业务系统的分类方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050267831A1 (en) * | 2004-05-28 | 2005-12-01 | Niel Esary | System and method for organizing price modeling data using hierarchically organized portfolios |
CN106530127A (zh) * | 2016-11-09 | 2017-03-22 | 国网江苏省电力公司南京供电公司 | 基于文本挖掘技术的客户投诉预警监测分析系统 |
CN107818153A (zh) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | 数据分类方法和装置 |
CN108021582A (zh) * | 2016-11-04 | 2018-05-11 | 中国移动通信集团湖南有限公司 | 互联网舆情监控方法及装置 |
CN108470282A (zh) * | 2018-03-26 | 2018-08-31 | 国家电网公司客户服务中心 | 客户服务中心投诉工单智能分类方法 |
CN108549647A (zh) * | 2018-01-17 | 2018-09-18 | 中移在线服务有限公司 | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 |
CN110493026A (zh) * | 2018-05-15 | 2019-11-22 | 中国移动通信集团浙江有限公司 | 无线通信网络来电投诉处理方法及装置 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
CN111931511A (zh) * | 2019-04-26 | 2020-11-13 | 中国电力科学研究院有限公司 | 一种基于广域分布式架构的语义分析方法及系统 |
CN112115327A (zh) * | 2020-03-04 | 2020-12-22 | 云南大学 | 一种基于主题模型的舆情新闻事件跟踪方法 |
CN112395424A (zh) * | 2020-10-10 | 2021-02-23 | 北京仿真中心 | 一种复杂产品质量问题追溯方法及系统 |
CN112584407A (zh) * | 2020-12-04 | 2021-03-30 | 重庆玖舆博泓科技有限公司 | 一种基于时空联合的lte用户投诉定性方法及装置 |
CN112632268A (zh) * | 2020-12-29 | 2021-04-09 | 平安银行股份有限公司 | 投诉工单检测处理方法、装置、计算机设备及存储介质 |
CN112825084A (zh) * | 2019-11-21 | 2021-05-21 | 浙江工商大学 | 一种基于平行坐标优化的多维数据可视化方法 |
-
2021
- 2021-06-03 CN CN202110616920.6A patent/CN113360647B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050267831A1 (en) * | 2004-05-28 | 2005-12-01 | Niel Esary | System and method for organizing price modeling data using hierarchically organized portfolios |
CN108021582A (zh) * | 2016-11-04 | 2018-05-11 | 中国移动通信集团湖南有限公司 | 互联网舆情监控方法及装置 |
CN106530127A (zh) * | 2016-11-09 | 2017-03-22 | 国网江苏省电力公司南京供电公司 | 基于文本挖掘技术的客户投诉预警监测分析系统 |
CN107818153A (zh) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | 数据分类方法和装置 |
CN108549647A (zh) * | 2018-01-17 | 2018-09-18 | 中移在线服务有限公司 | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 |
CN108470282A (zh) * | 2018-03-26 | 2018-08-31 | 国家电网公司客户服务中心 | 客户服务中心投诉工单智能分类方法 |
CN110493026A (zh) * | 2018-05-15 | 2019-11-22 | 中国移动通信集团浙江有限公司 | 无线通信网络来电投诉处理方法及装置 |
CN111931511A (zh) * | 2019-04-26 | 2020-11-13 | 中国电力科学研究院有限公司 | 一种基于广域分布式架构的语义分析方法及系统 |
CN112825084A (zh) * | 2019-11-21 | 2021-05-21 | 浙江工商大学 | 一种基于平行坐标优化的多维数据可视化方法 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
CN112115327A (zh) * | 2020-03-04 | 2020-12-22 | 云南大学 | 一种基于主题模型的舆情新闻事件跟踪方法 |
CN112395424A (zh) * | 2020-10-10 | 2021-02-23 | 北京仿真中心 | 一种复杂产品质量问题追溯方法及系统 |
CN112584407A (zh) * | 2020-12-04 | 2021-03-30 | 重庆玖舆博泓科技有限公司 | 一种基于时空联合的lte用户投诉定性方法及装置 |
CN112632268A (zh) * | 2020-12-29 | 2021-04-09 | 平安银行股份有限公司 | 投诉工单检测处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
杨柳林 等: "基于计算语言方法的95598工单分类优化分析", 《电子制作》 * |
王雅茹: "基于云南旅游在线网站吐槽数据的文本挖掘", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
费佳慧: "基于本体的食品投诉文档溯源研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅰ辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082092A (zh) * | 2022-08-16 | 2022-09-20 | 珠海横琴新区天章云科技有限公司 | 基于物联网的产品溯源方法及系统 |
CN117093935A (zh) * | 2023-10-16 | 2023-11-21 | 深圳海云安网络安全技术有限公司 | 一种业务系统的分类方法及系统 |
CN117093935B (zh) * | 2023-10-16 | 2024-03-19 | 深圳海云安网络安全技术有限公司 | 一种业务系统的分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113360647B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
US10089581B2 (en) | Data driven classification and data quality checking system | |
CN104794169B (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN101539907A (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
Kwaik et al. | An Arabic tweets sentiment analysis dataset (ATSAD) using distant supervision and self training | |
CN108363691B (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
US10083403B2 (en) | Data driven classification and data quality checking method | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN101645083A (zh) | 一种基于概念符号的文本领域的获取系统及方法 | |
TWI743623B (zh) | 基於人工智慧的商務智慧系統及其分析方法 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN114548321A (zh) | 基于对比学习的自监督舆情评论观点对象分类方法 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN110765762B (zh) | 一种大数据背景下在线评论文本最佳主题提取系统和方法 | |
CN110110013B (zh) | 一种基于时空属性的实体竞争关系数据挖掘方法 | |
CN115934936A (zh) | 一种基于自然语言处理的智能交通文本分析方法 | |
CN111666472B (zh) | 一种学术链节点的智能识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |