CN111241288A

CN111241288A - 一种大集中电力客户服务中心的突发事件感知系统以及构建方法

Info

Publication number: CN111241288A
Application number: CN202010051316.9A
Authority: CN
Inventors: 于瑞强; 邢敏敏; 郇长武; 王林; 杜星学; 梁家林; 孙汉福; 李经帅
Original assignee: YANTAI HAIYI SOFTWARE CO Ltd
Current assignee: YANTAI HAIYI SOFTWARE CO Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-05

Abstract

本发明公开了一种大集中电力客户服务中心的突发事件实时感知系统以及构建方法，包括数据采集模块，文本数据处理模块，特征向量构建模块，多文档主题分析模块，事件感知模块，以及结果推送模块。本发明基于海量的客户服务中心业务受理工作单数据，依托Apache Flink、LDA、TextRank等技术与算法，构建了突发事件实时感知方法，实现客户服务中心文本信息的自动处理和突发事件汇聚，实现突发事件的自动识别，填补本项业务需求空白。

Description

一种大集中电力客户服务中心的突发事件感知系统以及构建方法

技术领域

本发明涉及电力客户服务中心突发事件处理系统和方法，具体为一种大集中电力客户服务中心的突发事件感知系统以及构建方法。

背景技术

目前全国两大电网已经实现了电力客户服务系统的大集中建设，充分体现了服务集约化、管理高效化的建设目标，以大集中的客户服务中心为依托，将客服诉求统一集中到客户服务中心进行处理。电网客户服务中心已经构建了完善的数据管理和应用系统，其应用系统建设主要侧重于业务的管理，数据的处理采用先生成、存储到关系型数据库、离线查询、离线分析的处理方式。客服人员在提取数据之后对诉求内容进行分析，需要从大批量的来电记录中依靠经验对突发事件进行逐一排查，将结果报送管理人员。

目前，95598电力客户服务体系是以客户为中心、客服人员为主体的模式运行，客户诉求始终是服务的主要目标，然而面对近万的电话服务量，仅仅依靠客服人员对诉求内容分析并进行应答远远不能满足实时性的要求，且对集中性的突发事件不能实时发现。究其原因，第一，客服人员业务处理必然存在一定的时间间隔，且只能根据当前诉求内容进行答复，无法及时关联到客户的历史诉求，不能准确把握诉求根源；第二，当前的大集中客户服务中心坐席集中办公模式无法实现对某个区域的客户诉求进行整体感知，对突发性的集中事件不能及时发现并处理；第三，在互联网时代，数据量越来越庞大，对数据读取和数据处理的时效性有更高的要求，传统的数据先存储到数据库再查询再分析的手段已经完全无法满足今天的需求。因此迫切需要基于新技术实现大规模语义分析以辅助人工服务，并实现数据的在线采集和加工利用，满足大集中客户服务中心及时识别突发事件的业务需求。

发明内容

本发明所要解决的技术问题是，提供一种大集中电力客户服务中心的突发事件感知系统以及构建方法，能够快速、准确的感知突发事件，及时推送给相关部门进行及时处理。

本发明采用的技术方案是，一种大集中电力客户服务中心的突发事件实时感知系统，包括数据采集模块，文本数据处理模块，特征向量构建模块，多文档主题分析模块，事件感知模块，以及结果推送模块；

数据采集模块：用于将当前客户服务中心业务受理工作单记录的数据进行汇总，按照需求分地市、分区域、分时段进行整理；

文本数据处理模块：用于对客户服务中心业务受理工作单记录的文本数据进行预处理，包括空值处理、短文本筛选、文本分词、去停用词处理，便于后期分析；

特征向量构建模块：用于将上一步处理的文本数据首先进行语义信息的提炼，生成能够表达文本核心意思的特征向量；

多文档主题分析模块：用于根据特征向量将客户服务中心业务受理工作单记录的文本数据集中分析，根据各文本数据之间语义的相关性和差异性，建立无监督多文档主题分析模型，运用模型将众多文档归类为不同的主题，一个主题下包含多个相似文档；

事件感知模块：用于根据句子的重要度从突发事件主题下的多文档抽象出中心句，该中心句对突发事件进行了完整表达；

结果推送模块：将检测出的突发事件具体信息实时推送给客户服务中心管理人员，以及监控大屏，提醒相关人员进行干预和响应。

一种大集中电力客户服务中心的突发事件实时感知系统的构建方法，具体步骤如下：

(1)文本数据采集与预处理

基于Apache Flink技术将存储于平台中客户服务中心业务受理工作单记录的数据进行实时采集，并对文本数据进行预处理；

(2)构建模型生成主题

采用LDA(Latent Dirichlet Allocation潜在狄利克雷分布)技术实现主题词汇聚和主题识别，以某个区域内当前时间段内的所有客户服务中心业务受理工作单记录的文本数据为处理对象，每条客户服务中心业务受理工作单记录作为一条文本，经过Topicmodeling模型处理过之后，被自动识别为多个不同的主题群，每个主题群对应一组主题词，表达该主题群所有文档的核心意思，语义相关的文档同属于一个主题群；

(3)构建突发事件实时感知模型

采用TextRank算法构建突发事件实时感知模型，分析并准确识别各主题所反映的突发事件，该模型构建了一个图模型，将每个句子看作图中的一个节点，若两个句子之间有相似性，则对应的两个节点之间有一个无向有权边，权值为相似度，模型输入为某主题下所有文档的所有句子，经过多次迭代计算各个句子的重要度，从而将重要度最大的句子输出为一个中心句；

上述大集中电力客户服务中心的突发事件实时感知系统的构建方法，所述文本数据预处理包括以下内容，

(1)空值处理：一条客户服务中心业务受理工作单记录作为一个文本输入，若某条客户服务中心业务受理工作单记录的数据为空，则直接剔除该记录；

(2)文本分词：中文分词是中文自然语言处理的基础，对于输入的中文文本，首先进行中文分词才能使用算法自动识别语句含义，采用中文分词技术将连续的字序列按照一定的规范重新组合成词序列；

(3)去停用词：客户服务中心业务受理工作单记录的停用词包括英文字符、数字、数学字符、标点符号，以及无意义的字词，无意义的字词包括语气助词、副词、介词、连接词、以及客服常用语，为了避免停用词对语义理解的干扰，在预处理阶段删除停用词；

(4)删除太长或太短的文本：文本太短不足以表达主要内容，太长不易于提取重要信息，在预处理阶段统计文本的字数，按照四分位中0.05的下分位数和0.95的上四分位数删除过短、过长的记录。

上述大集中电力客户服务中心的突发事件实时感知系统的构建方法，构建模型生成主题的步骤包括以下两个过程：

(1)基于文本生成特征向量

基于预处理之后的单词构建字典，即一个单词对应一个数字ID，所有单词及其数字ID的组合为一个完备的字典，根据字典逐条将文本生成数值型特征向量。

(2)训练LDA模型生成主题

LDA包含单词、主题、文档三层结构，第m篇文档的所有主题概率分布

主题k中所有词的概率分布

及第m篇文档中第n个主题Z_m,n的具体求解步骤如下：

step1：随机给文档中的每个单词分配主题Z₀；

step2：统计每个主题Z下出现单词的数量以及每个文档m下出现主题Z中的单词的数量；

step3：排除当前单词的主题分配，根据其他所有单词的主题分配估计当前单词分配到各个主题的概率；

step4：当得到当前单词属于所有主题Z的概率分布后，根据这个概率分布为该单词分配一个新的主题Z₁；

step5：循环以上步骤，直到

和

收敛算法停止；

step6：输出估计参数

及主题Z_m,n。

上述大集中电力客户服务中心的突发事件实时感知系统的构建方法，突发事件实时感知模型构建步骤如下：

根据以下公式计算句子之间的相似度：

其中，S_i,S_j表示第i和第j个句子，w_q表示第q个单词，|S_i|表示预处理之后的句子中包含的单词个数，该公式计算两个句子中相同单词个数与两个句子中所有单词个数的占比为句子相似度W_ij；

根据以下公式计算各句子的重要度：

其中V_j,V_i分别表示图模型中的第j个和第i个节点，WS(V_j)表示节点V_j的重要度，WS(V_i)表示节点V_i的重要度；In(V_i)表示节点i的入度，Out(V_j)表示节点j的出度；W_ji表示句子j和句子i之间的相似度；W_jl表示句子j和句子l之间的相似度；d为阻尼系数，取值范围为0到1之间，代表从图中某一特定点指向其他任意点的概率，一般取值为0.85；该公式根据某个节点的入度节点和出度节点对应的句子之间的相似度计算该节点的重要度；

算法步骤如下：

step1:初始化各个节点的重要度WS(V_i)＝0.5；

step2:计算任意两个句子之间的相似度w_ij；

step3:根据入度和出度节点计算当前节点的重要度；

step4:完成一次所有节点的重要度计算过程，返回step2继续迭代，直到所有节点的重要度不再变化或小于阈值(阈值设置为0.0001)，算法收敛停止迭代；

step5:根据最后一次迭代的重要度对主题内所有文本的所有句子进行排序，选择重要度最大的句子作为输出结果。

本发明的优点为：

1、基于Apache Flink分布式流计算技术，实现大集中客户服务中心业务受理工作单记录数据的实时采集、实时使用、实时分析，将以往客户服务中心业务受理工作单记录数据的应用的时效性由日级、小时级提升到秒级，同时具备了自动容错、水平扩展、分布式部署等优点，可以提供足够容量、足够实时的客户服务中心业务受理工作记录单数据在线处理能力。

2、首次依托LDA、TextRank等技术构建了突发事件实时感知方法，取代以往需要依靠开会交流、数据统计和手工处理才可以完成的做法，使得客户服务中心管理人员可以第一时间感知突发事件。

3、引入人工智能方法形成一种大集中客户服务中心的突发事件实时感知系统以及构建方法，实现客户服务中心业务受理工作单记录数据的自动处理和突发事件汇聚，实现突发事件的自动识别，填补本项业务需求空白。

附图说明

图1为突发事件实时感知系统图；

图2为LDA中的单词、文档、主题的关系图；

图3为TextRank生成中心句的过程图。

具体实施方式

结合附图对本发明作进一步详细介绍。

如图1所示，一种大集中电力客户服务中心的突发事件实时感知系统，包括数据采集模块，文本数据处理模块，特征向量构建模块，多文档主题分析模块，事件感知模块，以及结果推送模块；

数据采集模块：用于将当前电力客户服务中心业务受理工作单的数据进行汇总，按照需求分地市、分区域、分时段进行整理；

文本数据处理模块：用于对电力客户服务中心业务受理工作单(文档)的文本数据进行预处理，包括空值处理、短文本筛选、文本分词、去停用词处理，便于后期分析；

多文档主题分析模块：用于根据特征向量将客户服务中心业务受理工作单的文本数据集中分析，根据各文本数据之间语义的相关性和差异性，建立无监督多文档主题分析模型，运用模型将众多文档归类为不同的主题，一个主题下包含多个相似文档；

(1)文本数据采集与预处理

基于Apache Flink技术将存储于平台中的95598电力客户服务中心业务受理工作单记录的数据进行实时采集，并对文本数据进行预处理，预处理包括以下内容：

1)空值处理：一条客户服务中心业务受理工作单记录作为一个文本输入，若某条客户服务中心业务受理工作单记录的数据为空，则直接剔除该记录；

2)文本分词：中文分词是中文自然语言处理的基础，对于输入的中文文本，首先进行中文分词才能使用算法自动识别语句含义，采用中文分词技术将连续的字序列按照一定的规范重新组合成词序列。

3)去停用词：客户服务中心业务受理工作单记录的停用词包括英文字符、数字、数学字符、标点符号，以及无意义的字词，无意义的字词包括语气助词、副词、介词、连接词、以及客服常用语，为了避免停用词对语义理解的干扰，在预处理阶段删除停用词；

4)删除太长或太短的文本：文本太短不足以表达主要内容，太长不易于提取重要信息，在预处理阶段统计文本的字数，按照四分位中0.05的下分位数和0.95的上四分位数删除过短、过长的记录。

(2)构建模型生成主题

采用LDA(Latent Dirichlet Allocation潜在狄利克雷分布)技术实现主题词汇聚和主题识别，以某个区域内当前时间段内的所有客户服务中心业务受理工作单记录为处理对象，每条客户服务中心业务受理工作单记录作为一条文本，文本数据经过Topicmodeling模型处理过之后，会被自动识别为多个不同的主题群，每个主题群对应一组主题词，该主题词表达了该主题群所有文档的核心意思。构建模型生成主题的步骤包括以下两个过程：

1)基于文本生成特征向量

基于上述去停用词、中文分词等预处理之后的单词构建字典，即一个单词对应一个数字ID，所有单词及其数字ID的组合为一个完备的字典，根据字典逐条将文本生成数值型特征向量。

2)训练LDA模型生成主题

LDA包含单词、主题、文档三层结构，三者关系如图2所示，其中M表示文档数目，K代表主题数目，V表示词汇表中共有的单词个数，N_m表示第m篇文档的单词个数，W_m,n和Z_m,n表示第m篇文档中第n个单词及其主题。

表示主题k中所有单词的概率分布，

表示第m篇文档的所有主题概率分布。

和

分别服从超参数

和

的Dirichlet先验分布，具体求解步骤如下：

step1：随机给文档中的每个单词分配主题Z₀；

step5：循环以上步骤，直到

和

收敛算法停止；

step6：输出估计参数

及主题Z_m,n。

文本数据在构建模型生成主题之后被分配到多个不同的主题群，语义相关的文档同属于一个主题群，且一个主题对用多个主题词，结果举例如表1所示：

表1

(3)构建突发事件实时感知模型

采用TextRank算法构建突发事件实时感知模型，分析并准确识别各主题所反映的突发事件，TextRank生成中心句的过程如图3所示。该模型构建了一个图模型，将每个句子看作图中的一个节点，若两个句子之间有相似性，则对应的两个节点之间有一个无向有权边，权值为相似度。输入为某主题下所有文档的所有句子，经过多次迭代计算各个句子的重要度，从而将重要度最大的句子输出为一个中心句。突发事件实时感知模型构建步骤如下：

根据以下公式计算句子之间的相似度：

其中，S_i,S_j表示第i和第j个句子，w_q表示第q个单词，|S_i|表示预处理之后的句子中包含的单词个数。该公式计算两个句子中相同单词个数与两个句子中所有单词个数的占比为句子相似度W_ij。

根据以下公式计算各句子的重要度：

其中V_j,V_i分别表示图模型中的第j个和第i个节点，WS(V_j)表示节点V_j的重要度，WS(V_i)表示节点V_i的重要度；In(V_i)表示节点i的入度，Out(V_j)表示节点j的出度；W_ji表示句子j和句子i之间的相似度(也是节点V_j和V_i的相似度)；W_jl表示句子j和句子l之间的相似度(也是节点V_j和V_l的相似度)；d为阻尼系数，取值范围为0到1之间，代表从图中某一特定点指向其他任意点的概率，一般取值为0.85。该公式根据某个节点的入度节点和出度节点对应的句子之间的相似度计算每个句子的重要度。

算法步骤如下：

step1:初始化各个节点的重要度WS(V_i)＝0.5；

step2:计算任意两个句子之间的相似度w_ij；

step3:根据入度和出度节点计算当前节点的重要度；

当然，上述说明并非对本发明的限制，本发明也并不局限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种大集中电力客户服务中心的突发事件实时感知系统，其特征在于：包括数据采集模块，文本数据处理模块，特征向量构建模块，多文档主题分析模块，事件感知模块，以及结果推送模块；

多文档主题分析模块：用于根据特征向量将客户服务中心业务受理工作记录的文本数据集中分析，根据各文本数据之间语义的相关性和差异性，建立无监督多文档主题分析模型，运用模型将众多文档归类为不同的主题，一个主题下包含多个相似文档；

结果推送模块：将检测出的突发事件具体信息实时推送给电力客户服务中心管理人员，以及监控大屏，提醒相关人员进行干预和响应。

2.一种大集中电力客户服务中心的突发事件实时感知系统的构建方法，其特征在于：具体步骤如下，

(1)文本数据采集与预处理

基于Apache Flink技术将存储于平台中的95598客户服务中心业务受理工作单记录的数据进行实时采集，并对文本数据进行预处理；

(2)构建模型生成主题

(3)构建突发事件实时感知模型

采用TextRank算法构建突发事件实时感知模型，分析并准确识别各主题所反映的突发事件，该模型构建了一个图模型，将每个句子看作图中的一个节点，若两个句子之间有相似性，则对应的两个节点之间有一个无向有权边，权值为相似度；模型输入为某主题下所有文档的所有句子，经过多次迭代计算各个句子的重要度，从而将重要度最大的句子输出为一个中心句。

3.根据权利要求2所述的大集中电力客户服务中心的突发事件实时感知系统的构建方法，其特征是：所述预处理包括以下内容，

4.根据权利要求2所述的大集中电力客户服务中心的突发事件实时感知系统的构建方法，其特征是：构建模型生成主题的步骤包括以下两个过程，

(1)基于文本生成特征向量

基于预处理之后的单词构建字典，即一个单词对应一个数字ID，所有单词及其数字ID的组合为一个完备的字典，根据字典逐条将文本生成数值型特征向量；

(2)训练LDA模型生成主题

主题k中所有词的概率分布

及第m篇文档中第n个主题Z_m,n的具体求解步骤如下：

step1：随机给文档中的每个单词分配主题Z₀；

step5：循环以上步骤，直到

和

收敛算法停止；

step6：输出估计参数

及主题Z_m,n。

5.根据权利要求2所述的大集中电力客户服务中心的突发事件实时感知系统的构建方法，其特征是：突发事件实时感知模型构建步骤如下，

根据以下公式计算句子之间的相似度：

根据以下公式计算各句子的重要度：

其中V_j,V_i分别表示图模型中的第j个和第i个节点，WS(V_j)表示节点V_j的重要度，WS(V_i)表示节点V_i的重要度；In(V_i)表示节点i的入度，Out(V_j)表示节点j的出度；W_ji表示句子j和句子i之间的相似度(也是节点V_j和V_i的相似度)；W_jl表示句子j和句子l之间的相似度；d为阻尼系数，取值范围为0到1之间，代表从图中某一特定点指向其他任意点的概率，一般取值为0.85；该公式根据某个节点的入度节点和出度节点对应的句子之间的相似度计算该节点的重要度；

算法步骤如下：

step1:初始化各个节点的重要度WS(V_i)＝0.5；

step2:计算任意两个句子之间的相似度w_ij；

step3:根据入度和出度节点计算当前节点的重要度；