CN113704451B

CN113704451B - 一种电力用户诉求筛选方法、系统、电子设备和存储介质

Info

Publication number: CN113704451B
Application number: CN202111007388.4A
Authority: CN
Inventors: 黄园芳; 郑世明; 段新辉; 吴莉琳; 徐沛东; 罗宗杰; 林荣秋; 程超鹏; 李旺军; 彭显刚; 陈宇钊; 王志强; 徐达艺; 王晓明; 魏焱; 李玲; 付振宇; 吴超成; 郝鑫
Original assignee: Guangdong Power Grid Co Ltd; Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-01-13
Anticipated expiration: 2041-08-30
Also published as: CN113704451A; WO2023029420A1

Abstract

本申请公开了一种电力用户诉求筛选方法、系统、电子设备和存储介质，其方法通过电力专业词汇、地理位置名称和工单类别构建分词语料库，并利用HMM分词模型的分词机理进行分词处理，从而降低分词复杂度，同时，提取分词中的词性特征、TF‑IDF特征、词长特征和主题模型特征，并对各个特征赋予权值得到分词的综合权重值，根据综合权重值筛选出关键词，并根据关键词及其综合权重值确定高热度工单文本，并通过潜在语义分析LSA算法确定高热度工单文本间的相似程度，从而将相似程度高的工单文本进行整合，再对整合后的相似工单集合进行筛选出热点工单，以确定用户热点诉求。从而解决了95598工单缺乏对客户需求的深度挖掘分析的技术问题。

Description

一种电力用户诉求筛选方法、系统、电子设备和存储介质

技术领域

本申请涉及电力信息管理技术领域，尤其涉及一种电力用户诉求筛选方法、系统、电子设备和存储介质。

背景技术

95598客服平台作为面向电力用户提供柜台服务方式外的一个多层次、全方位的综合业务服务系统，积累了大量用户诉求的相关信息。包括故障报修、业务咨询、投诉、客户催办、业务申请等多个类型的客户服务工单信息以及工单回访信息，可以为提升客户服务质量，完善客户体验，提高客户服务满意度提供客观的数据支持。同时，伴随着配电网精细化运营概念的提出，电力企业逐渐意识到客服工单数据对市场部决策、供电质量以及用户满意度有着重要的作用。面对客服工单数据结构繁琐、未有统一的记录规范以及数据复杂多样等特点，如何充分挖掘客服工单里非结构化数据所蕴含的信息，全面掌握客户的需求，提升客户服务满意度是亟待解决的问题。

目前，电力企业对于工单文本的挖掘仅仅在针对结构化数据进行常态化的统计分析，仅限于时间、区域等维度，精细化程度不够，对于客户反馈的电网服务质量问题也只是侧重于事后追责，无法实现事前预警以及缺乏对资源的优化配置；在供电管理方面，缺乏对客户用电反馈信息和故障报修内容的深度挖掘分析，使得营销策略的制定以及供电质量的提升缺乏一定的针对性，成了当前供电企业健康发展的瓶颈。

因此，目前亟需解决如何深层次挖掘95598工单信息，以实现精准营销、精准风控、精准规划、差异化客户服务。

发明内容

本申请提供了一种电力用户诉求筛选方法、系统、电子设备和存储介质，用于解决现有的95598工单缺乏对客户需求的深度挖掘分析的技术问题。

有鉴于此，本申请第一方面提供了一种电力用户诉求筛选方法，包括以下步骤：

S1、对工单文本进行自然语言的预处理，其中，预处理包括垃圾工单筛选、无意义文本过滤和去停用词；

S2、根据电力专业词汇、地理位置名称和工单类别构建分词语料库，构建基于所述分词语料库的HMM分词模型；

S3、通过所述HMM分词模型对预处理后的工单文本进行分词处理，得到分词结果，所述分词结果包含各个分词的词性标注信息；

S4、提取所述分词结果中的各个分词的集合特征，所述集合特征包括词性特征、TF-IDF特征、词长特征和主题模型特征，通过预设的赋值规则计算每个分词中的各个集合特征的权值；

S5、根据分词中的各个集合特征的权值进行累加确定对应分词的综合权重值，将各个所述分词按照所述综合权重值进行降序排列，筛选排列位置为预设位置之前的分词作为关键词，得到关键词集合；

S6、根据所述关键词及其对应的所述综合权重值确定各个工单文本的热度值，筛选出满足预设热度阈值的高热度工单文本；

S7、通过基于潜在语义分析LSA算法计算各个高热度工单文本之间的相似度，根据相似度的计算结果对各个高热度工单文本进行整合，得到若干个相似工单集合；

S8、将若干个所述相似工单集合中的各个高热度工单文本对应的综合权重值进行累加，根据累加结果筛选出热点工单，以确定用户热点诉求。

优选地，步骤S2之前包括：

通过输入法下载电力词典，以确定电力专业词汇；利用python爬虫获取目标网站中的地理位置名称。

优选地，本方法还包括：

对分词结果进行去停用词处理。

优选地，步骤S4具体包括：

S401、通过在所述分词结果中的各个分词的词性标注信息确定各个分词的词性特征，通过预设的词性权值计算各个分词的词性特征的权重；

S402、通过各个分词的词频和逆向文件频率确定对应的TF-IDF特征，利用最大最小法对所述TF-IDF特征进行归一化处理，归一化后的TF-IDF特征为相应的权值；

S403、根据各个分词的字符数确定对应的词长特征，利用最大最小法对所述词长特征进行归一化处理，归一化后的词长特征为相应的权值；

S404、通过LDA主题模型获取文档-主题分布和主题-词语分布，从而确定各个分词的主题模型特征，通过下式分别确定文档-主题分布和主题-词语分布的权值：

式中，T _k表示文档-主题分布的权值，

表示主题-词语分布的权值，ω_i为第i个词，c_ik表示分词语料库中第i个词在第k个主题中的次数，N表示词表的大小，α表示超参数在文档中的主题稀疏性中起作用，取值为1/k；

通过文档-主题分布的权值和主题-词语分布的权值确定各个分词的主题模型特征的权值。

优选地，本方法还包括通过同义词词汇间的词义关系对所述关键词集合中的同义词进行合并，从而得到最终的关键词。

优选地，步骤S6具体包括：

S601、假设所述关键词集合为I＝{I₁,I₂,…I_n}，其中，关键词按照所述综合权重值从1到n进行降序排名，根据各个工单文本分别包含的各个关键词的词频和相应的关键词在所述关键词集合的排名值的总和确定各个工单文本的热度值；

S602、根据各个工单文本的热度值筛选出高于所述预设热度阈值的工单文本，得到高热度工单文本。

优选地，步骤S8还包括：

根据所述热点工单确定对应的工单类别，根据预设的工单类别优先级规则在所述热点工单中确定工单类别优先级最高的热点工单，以确定用户热点诉求。

第二方面，本发明还提供了一种电力用户诉求筛选系统，包括：

预处理模块，用于对工单文本进行自然语言的预处理，其中，预处理包括垃圾工单筛选、无意义文本过滤和去停用词；

分词模型构建模块，用于根据电力专业词汇、地理位置名称和工单类别构建分词语料库，构建基于所述分词语料库的HMM分词模型；

分词处理模块，用于通过所述HMM分词模型对预处理后的工单文本进行分词处理，得到分词结果，所述分词结果包含各个分词的词性标注信息；

特征提取模块，用于提取所述分词结果中的各个分词的集合特征，所述集合特征包括词性特征、TF-IDF特征、词长特征和主题模型特征，还用于通过预设的赋值规则计算每个分词中的各个集合特征的权值；

关键词筛选模块，用于根据分词中的各个集合特征的权值进行累加确定对应分词的综合权重值，将各个所述分词按照所述综合权重值进行降序排列，筛选排列位置为预设位置之前的分词作为关键词，得到关键词集合；

热度工单筛选模块，用于根据所述关键词及其对应的所述综合权重值确定各个工单文本的热度值，筛选出满足预设热度阈值的高热度工单文本；

相似工单整合模块，用于通过基于潜在语义分析LSA算法计算各个高热度工单文本之间的相似度，根据相似度的计算结果对各个高热度工单文本进行整合，得到若干个相似工单集合；

热点诉求模块，用于将若干个所述相似工单集合中的各个高热度工单文本对应的综合权重值进行累加，根据累加结果筛选出热点工单，以确定用户热点诉求。

第三方面，本发明还提供了一种电子设备，包括输入设备和输出设备，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如上述的电力用户诉求筛选方法。

第四方面，本发明还提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如上述的电力用户诉求筛选方法。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过考虑电力专业词汇、地理位置名称和工单类别构建分词语料库，以提高HMM分词模型对地名、专业名词的识别准确度，并利用HMM分词模型的分词机理进行分词处理，从而降低分词复杂度，同时，提取分词中的词性特征、TF-IDF特征、词长特征和主题模型特征，并对各个特征赋予权值得到分词的综合权重值，根据综合权重值筛选出关键词，并根据关键词及其综合权重值确定高热度工单文本，并通过潜在语义分析LSA算法确定高热度工单文本间的相似程度，从而将相似程度高的工单文本进行整合，再对整合后的相似工单集合进行筛选出热点工单，以确定用户热点诉求。从而解决了95598工单缺乏对客户需求的深度挖掘分析的技术问题，实现了精准营销、精准风控、精准规划、差异化客户服务。

附图说明

图1为本申请实施例提供的一种电力用户诉求筛选方法的流程图；

图2为本申请实施例提供的一种电力用户诉求筛选系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

通过对现有技术研究发现，在现有技术中，在工单文本的预处理的文本分词等步骤中，一方面对于具体地名分词过于细化，无法实现某些整体词汇的识别，另一方面对于95598工单中电力专业领域的专有名词无法识别，例如：电压不稳、安全隐患、断线、低压等词汇，错误地进行了切割，这不可避免地会对后续的用电地址实体识别以及其他高级应用带来一定的影响。

为此，请参阅图1，本发明提供的一种电力用户诉求筛选方法，包括以下步骤：

S2、根据电力专业词汇、地理位置名称和工单类别构建分词语料库，构建基于分词语料库的HMM分词模型；

S3、通过HMM分词模型对预处理后的工单文本进行分词处理，得到分词结果，分词结果包含各个分词的词性标注信息；

S4、提取分词结果中的各个分词的集合特征，集合特征包括词性特征、TF-IDF特征、词长特征和主题模型特征，通过预设的赋值规则计算每个分词中的各个集合特征的权值；

S5、根据分词中的各个集合特征的权值进行累加确定对应分词的综合权重值，将各个分词按照综合权重值进行降序排列，筛选排列位置为预设位置之前的分词作为关键词，得到关键词集合；

S6、根据关键词及其对应的综合权重值确定各个工单文本的热度值，筛选出满足预设热度阈值的高热度工单文本；

S8、将若干个相似工单集合中的各个高热度工单文本对应的综合权重值进行累加，根据累加结果筛选出热点工单，以确定用户热点诉求。

需要说明的是，本发明通过考虑电力专业词汇、地理位置名称和工单类别构建分词语料库，以提高HMM分词模型对地名、专业名词的识别准确度，并利用HMM分词模型的分词机理进行分词处理，从而降低分词复杂度，同时，提取分词中的词性特征、TF-IDF特征、词长特征和主题模型特征，并对各个特征赋予权值得到分词的综合权重值，根据综合权重值筛选出关键词，并根据关键词及其综合权重值确定高热度工单文本，并通过潜在语义分析LSA算法确定高热度工单文本间的相似程度，从而将相似程度高的工单文本进行整合，再对整合后的相似工单集合进行筛选出热点工单，以确定用户热点诉求。从而解决了95598工单缺乏对客户需求的深度挖掘分析的技术问题，实现了精准营销、精准风控、精准规划、差异化客户服务。

以下为本发明提供的一种电力用户诉求筛选方法的实施例的具体描述。

本发明提供的一种电力用户诉求筛选方法，包括以下步骤：

S100、对工单文本进行自然语言的预处理，其中，预处理包括垃圾工单筛选、无意义文本过滤和去停用词；

需要说明的是，工单文本多数是高度非结构化的，存在许多无意义的噪声数据，需要对工单进行数据清洗，保留工单所阐述的主要诉求信息，通过对未数据清洗的工单文本的分析，有如下特征：

(1)一方面不同的客服记录习惯不同，另一方面客户诉求类型不同，服务方式不同等因素，导致客服工单文本没有固定的记录格式。比如：单是记录客户联系方式用语中存在“联系方式：先生/***********”“名称：***、手机号码：**********”等多种格式。

(2)工单文本内容中有大量时间和地点信息。在文本处理时，内容中的地点字段，分词工具并没有明显标识，需要添加本城市地址标识。关于时间信息，在客服工单记录表中有对应的时间字段，因此工单内容中的时间对于文本分类意义不大。

(3)工单文本内容冗余。在文本数据分析方面，查询、故障、意见等诉求工单中繁琐的事件陈述容易混淆文本的真正含义，需要进一步的清洗以及分词处理提取价值高的文本数据。

因此，根据客服工单文本特征对工单文本进行预处理，包括垃圾工单筛选、无意义文本过滤、中文分词、去停用词步骤。

垃圾工单是指无效的工单数据。在95598客服系统，由于客服人员疏忽和误操作或者数据库出错会导致有空白工单以及长度过短的工单出现，比如：“未能提供有效信息，“客户主动挂机”等，无法表达具体诉求内容。因此，在文本清洗中，通过python模块对系统中出现的空白工单和字符个数在8个以内的工单进行剔除处理。

在客服工单文本中，部分语料对表达用户主要诉求内容是无关的，应当做噪音的内容进行清洗删除。如表1所示，在原始工单文本中“手机号”，“余先生”“00000000001009617843”等是用户资料的固定形式；“【】”中的文本均为地址、工单来源渠道以及客户信息等与用户诉求无关的内容；“已解释”“来电反映”“已告知”“请处理”等与该工单用户查询停复电、供电线路烧线以及上报安全隐患等诉求内容毫无关联，无法作为文本中的关键词被模型所提取。因此，本发明采用正则表达式对无意义文本进行过滤，通过定义的特定字符的组合来检查工单文本是否含有符合条件的字符组合并将其删除，实现工单无意义文本清除的目的。

表1 部分工单清洗结果

S200、通过输入法下载电力词典，以确定电力专业词汇；利用python爬虫获取目标网站中的地理位置名称；

S300、根据电力专业词汇、地理位置名称和工单类别构建分词语料库，构建基于分词语料库的HMM分词模型；

需要说明的是，在当前中文分词中，以国家颁布的《信息处理用现代此汉语分词规范》为标准进行分词，但由于分词的规范容易受主观因素、应用场景等影响，在实际的分词效果并不好；同时，分词是有不同的粒度的，指某个词条中的一部分也可以切分为一个独立的词条。比如相对粗粒度的分词就是“廉江金山工业区”，相对细粒度的分词为“廉江/金山/工业区”。又如“湛江天和服装厂”中，“天和”是厂名，是一个专有词，“和服”也是一个词，它们共用“和”字等，而在分词中容易出现歧义切分；同时，在文本中出现新词，如词库中没有收录的词或训练语料中没出现的词。例如在工单文本中，“古市镇”“修仁村”“东厢村”等大量的地址名词以及“光伏”“表后线”“阶梯电价”电力专业词汇等。

为此，本实施例通过输入法下载电力词典，以确定电力专业词汇；利用python爬虫获取目标网站中的地理位置名称自定义分词语料库，以丰富分词语料库，提高HMM分词模型对地名、专业名词等新词的识别准确度。

本实施例采用具有汉字成词能力的HMM(Hidden Markov Model，隐马尔可夫模型)分词模型进行分词处理，HMM是一个隐藏的马尔可夫链随机生成不可观察的随机序列，再由各个状态生成一个观测随机序列的过程，其主要原理为将输入句子和分词结果当作两个序列，句子为观测序列，分词结果为状态序列，当完成状态序列的标注，就得到分词结果，标注过程中可以利用动态规划Viterbi算法降低算法复杂度。

其HMM分词模型构建过程为：

假设Q＝{q₁,q₂,…,q_N}表示列举所有的可能性后能够包含的状态集合，V＝{v₁,v₂,…,v_M}表示观测得到的所有集合。其中，N是所有状态总和，M是所有的观测总和。对于状态q来说，无法通过观测得到，而v可以通过观测得到。I＝{i₁,i₂,…,i_T}是状态序列，长度用T表示，O＝{o₁,o₂,…,o_T}是观察序列。A表示某个状态的转移概率：

A＝[a_ij]_N×N (1)

a_ij＝P(i_t+1＝q_j|i_t＝q_i),i＝1,2,…,N；j＝1,2,…,N (2)

P(i_t+1＝q_j|i_t＝q_i)表示状态序列中第t个状态为状态集合Q中的第i种状态时，第t+1个状态等于第j种状态下的概率。

B表示所观测结果的概率，用矩阵表示为:

B＝[b_j(k)]_N×M (3)

b_j(k)＝P(o_t＝v_k|i_t＝q_j),k＝1,2,…,M；j＝1,2,…,N (4)

P(o_t＝v_k|i_t＝q_j)表示在状态序列中第t个状态为状态集合Q中某种状态时，观察序列中第t个观察值为观测序列中第k个观测值的概率。

π＝(π_i)是初始状态概率向量，π_i是t＝1处于状态q_i的概率，即：

π_i＝P(i₁＝q_i),i＝1,2,…,N (5)

则HMM分词模型λ可以表示为

λ＝(A,B,π) (6)

A与π能够确定马尔可夫链的形式，B能够确定如何进行观测，与它们能够共同生成观测的结果序列。在给定公式(6)的HMM分词模型和观察序列O＝{o₁,o₂,…,o_T}后，然后利用Viterbi算法求解最大概率的状态序列，最终得到最优的状态序列，输出分词结果。

在95598客服系统，95598工单均是具有分类标记的，由于在不同类别的工单中，用户用电的诉求重复率高，例如：在故障报修类别中多数以停电、火灾等诉求；咨询查询类别中多以咨询客户信息诉求等等。考虑类别的分词处理时，避免其他类别中频率较高词语的干扰，利用HMM分词模型的对未登录词进行学习，在自定义分词语料库的前提下，根据工单类别信息对工单进行分类具体分为：故障报修、咨询查询、用电业务等，采用HMM分词模型识别工单中的未登录词，实现客服工单的中文分词处理，提高分词的精准度。

S400、通过HMM分词模型对预处理后的工单文本进行分词处理，得到分词结果，分词结果包含各个分词的词性标注信息；

需要说明的是，通过HMM分词模型分词处理得到的分词结果可以包含各个分词的词性标注信息。

同时，在分词完成后，会有大量没有任何实际意义但出现频率特别高的词，这些被称为停用词，停用词大致分为以下两类：一类是使用非常广泛的单词，比如是、在、然、但、那等等；另一类是文本中出现频率高但自身对文本无明确意义，但在完整的语句中有一定作用的词，如常见的“的”、“去”等。为此，本实施例针对客服工单文本特征结合已有的停用词合集构建工单停用词表，对分词结果进行去停用词处理。

S500、提取分词结果中的各个分词的集合特征，集合特征包括词性特征、TF-IDF特征、词长特征和主题模型特征，通过预设的赋值规则计算每个分词中的各个集合特征的权值；

需要说明的是，在现有技术中，在关键词提取方法中，仅利用简单的TF-IDF、TextRank等方法获取关键词，一是对语料库的质量要求较高；二是对一些在文本中出现频率高并具有代表性的词语不能很好表示；三是由于抑制噪声，使得算法倾向于文本中出现频率较少的词，从而导致算法精度不高等问题。

为此，本实施例中，综合考虑分词的词性特征、TF-IDF特征、词长特征和主题模型特征，通过综合多元特征来获取关键词。

具体地，步骤S500包括：

S501、通过在分词结果中的各个分词的词性标注信息确定各个分词的词性特征，通过预设的词性权值计算各个分词的词性特征的权重；

词性特征指一类词的语法特征即所具有的语法功能，该特征克服了采用传统语言学方法的弊端，其词性的获取避免了对文本进行复杂的语言学分析与标注处理。根据现代汉语词性分为实词、虚词、叹词、拟声词四个大类。在工单文本中，词大多集中在名词、动词和形容词等实词之中，其余三种对于表达用户诉求的含义无关，暂不考虑。由于在前述通过HMM分词模型得到的分词结果包含各个分词的词性标注信息，即可以通过词性标注信息确定各个分词的词性特征。

在本实施例中，预设的词性权值如表2所示。

表2 各词性的权重

S502、通过各个分词的词频和逆向文件频率确定对应的TF-IDF特征，利用最大最小法对TF-IDF特征进行归一化处理，归一化后的TF-IDF特征为相应的权值；

TF-IDF(term frequency–inverse document frequency，词频-逆向文件频率)是用于评估词对文件集或者语料库的重要程度。TF-IDF由词频TF与逆向文件频率IDF两部分组成。对于一个词来说，TF词频表示该词在文档中出现的频率。

IDF逆向文件频率是表示该词普遍重要性的度量，如果包含词t的文档越少，IDF越大，则说明该词具有很好的类别区分能力。

则该词语的TF-IDF值如下所示：

TF-IDF_i＝TF×IDF (9)

由于文档篇幅的长短不一，导致关键词的提取向长文档偏斜，因此，在计算TF-IDF特征后，利用最大最小法对其进行归一化处理以分配合理的权重。

S503、根据各个分词的字符数确定对应的词长特征，利用最大最小法对词长特征进行归一化处理，归一化后的词长特征为相应的权值；

需要说明的是，词语的语义受到词长的影响，通常词语长度越长表示的意思越具体，包含的语义信息更丰富，因此，长度较长词语的成为关键词的概率更大。同时在获取词语长度特征后，也需利用最大最小法进行归一化处理来分配权重。

S504、通过LDA主题模型获取文档-主题分布和主题-词语分布，从而确定各个分词的主题模型特征，通过下式分别确定文档-主题分布和主题-词语分布的权值：

式中，T_k表示文档-主题分布的权值，

LDA主题模型包含词、主题、文档三层结构，核心思想是将文本看成由多个潜在的主题混合而成，每个主题又是词的所组成，因此主题对于文章以及单词对于主题都服从多项分布。

具体的公式如下：

式中，P(ω_i)表示分词的主题模型特征的权值。

S600、根据分词中的各个集合特征的权值进行累加确定对应分词的综合权重值，将各个分词按照综合权重值进行降序排列，筛选排列位置为预设位置之前的分词作为关键词，得到关键词集合；

在本实施例中，预设位置可以根据实际的应用场景中设置，例如设置预设位置为前十或前二十，则在前十或前二十的分词为关键词，也即综合权重值的大小较大的前十或前二十的分词为关键词。

在获取到关键词集合后，考虑到关键词集合中同义词对结果的影响，同义词词汇间的词义关系对关键词集合中的同义词进行合并，从而得到最终的关键词。具体是利用《同义词词林扩展版》词汇间的同义关系对关键词集合中的同义词进行合并。

S700、根据关键词及其对应的综合权重值确定各个工单文本的热度值，筛选出满足预设热度阈值的高热度工单文本；

具体地，步骤S700具体包括：

S701、假设关键词集合为I＝{I₁,I₂,…I_n}，其中，关键词按照综合权重值从1到n进行降序排名，根据各个工单文本分别包含的各个关键词的词频和相应的关键词在关键词集合的排名值的总和确定各个工单文本的热度值；

其计算公式为，

式中，Q_c为工单c的热度值，I_i为工单c中包含第i个关键词在关键词集合I中的排名值，n为第i个关键词在工单c中的词频。

S702、根据各个工单文本的热度值筛选出高于预设热度阈值的工单文本，得到高热度工单文本。

在本实施例中，预设热度阈值可以根据实际情况设置。

S800、通过基于潜在语义分析LSA算法计算各个高热度工单文本之间的相似度，根据相似度的计算结果对各个高热度工单文本进行整合，得到若干个相似工单集合；

需要说明的是，基于潜在语义分析LSA(Latent Semantic Analysis)算法使用向量来表示词和文本，如使用词-文档矩阵来描述一个词语是否在一篇文档中。词-文档矩阵为稀疏矩阵，其行代表词语，其列代表文本。词-文档矩阵的元素是该词在文档中的出现次数，也可以是该词语的tf-idf值，此时矩阵中的向量即为文本中的词向量。

并通过向量间的余弦值的关系来表示词和文档之间的相似度，具体是从文本潜在的主题进行分析，将词和文档映射到潜在语义空间，利用奇异值分解SVD降维的方法去除原始向量空间中的“噪音”，提高了信息向量化的精确度，再通过计算各文本间的余弦相似度来即为各文本的相似程度。

S900、将若干个相似工单集合中的各个高热度工单文本对应的综合权重值进行累加，根据累加结果筛选出热点工单，以确定用户热点诉求。

在本实施例中，根据热点工单确定对应的工单类别，根据预设的工单类别优先级规则在热点工单中确定工单类别优先级最高的热点工单，以确定用户热点诉求。

具体地，如设置三级优先级，由高至低分为一级优先级、二级优先级和三级优先级，其中，故障报修为一级优先级，咨询查询为二级优先级，用电业务为三级优先级，则通过判断工单类别可以确定热点工单中哪些工单优先级高，则可以将优先级高的进行优先处理。

同时，还可以通过地点、时间等维度进行判断用户热点诉求，例如，该地点为重点用电区域，则可以优先处理，或处理时间已超时，则可以优先处理。

本发明还提供了一种电力用户诉求筛选系统，如图2所示，本系统包括：

预处理模块100，用于对工单文本进行自然语言的预处理，其中，预处理包括垃圾工单筛选、无意义文本过滤和去停用词；

分词模型构建模块200，用于根据电力专业词汇、地理位置名称和工单类别构建分词语料库，构建基于分词语料库的HMM分词模型；

分词处理模块300，用于通过HMM分词模型对预处理后的工单文本进行分词处理，得到分词结果，分词结果包含各个分词的词性标注信息；

特征提取模块400，用于提取分词结果中的各个分词的集合特征，集合特征包括词性特征、TF-IDF特征、词长特征和主题模型特征，还用于通过预设的赋值规则计算每个分词中的各个集合特征的权值；

关键词筛选模块500，用于根据分词中的各个集合特征的权值进行累加确定对应分词的综合权重值，将各个分词按照综合权重值进行降序排列，筛选排列位置为预设位置之前的分词作为关键词，得到关键词集合；

热度工单筛选模块600，用于根据关键词及其对应的综合权重值确定各个工单文本的热度值，筛选出满足预设热度阈值的高热度工单文本；

相似工单整合模块700，用于通过基于潜在语义分析LSA算法计算各个高热度工单文本之间的相似度，根据相似度的计算结果对各个高热度工单文本进行整合，得到若干个相似工单集合；

热点诉求模块800，用于将若干个相似工单集合中的各个高热度工单文本对应的综合权重值进行累加，根据累加结果筛选出热点工单，以确定用户热点诉求。

需要说明的是，本系统的工作过程与上述方法的流程一致，是通过考虑电力专业词汇、地理位置名称和工单类别构建分词语料库，以提高HMM分词模型对地名、专业名词的识别准确度，并利用HMM分词模型的分词机理进行分词处理，从而降低分词复杂度，同时，提取分词中的词性特征、TF-IDF特征、词长特征和主题模型特征，并对各个特征赋予权值得到分词的综合权重值，根据综合权重值筛选出关键词，并根据关键词及其综合权重值确定高热度工单文本，并通过潜在语义分析LSA算法确定高热度工单文本间的相似程度，从而将相似程度高的工单文本进行整合，再对整合后的相似工单集合进行筛选出热点工单，以确定用户热点诉求。从而解决了95598工单缺乏对客户需求的深度挖掘分析的技术问题，实现了精准营销、精准风控、精准规划、差异化客户服务。

本发明还提供了一种电子设备，包括输入设备和输出设备，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，计算机存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行如上述的电力用户诉求筛选方法。

本发明还提供了一种计算机存储介质，计算机存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行如上述的电力用户诉求筛选方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。