CN111241288A - 一种大集中电力客户服务中心的突发事件感知系统以及构建方法 - Google Patents
一种大集中电力客户服务中心的突发事件感知系统以及构建方法 Download PDFInfo
- Publication number
- CN111241288A CN111241288A CN202010051316.9A CN202010051316A CN111241288A CN 111241288 A CN111241288 A CN 111241288A CN 202010051316 A CN202010051316 A CN 202010051316A CN 111241288 A CN111241288 A CN 111241288A
- Authority
- CN
- China
- Prior art keywords
- words
- service center
- customer service
- sentence
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 30
- 230000008447 perception Effects 0.000 claims abstract description 22
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007726 management method Methods 0.000 claims description 4
- 238000013016 damping Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000036651 mood Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
- G06Q30/016—After-sales
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大集中电力客户服务中心的突发事件实时感知系统以及构建方法,包括数据采集模块,文本数据处理模块,特征向量构建模块,多文档主题分析模块,事件感知模块,以及结果推送模块。本发明基于海量的客户服务中心业务受理工作单数据,依托Apache Flink、LDA、TextRank等技术与算法,构建了突发事件实时感知方法,实现客户服务中心文本信息的自动处理和突发事件汇聚,实现突发事件的自动识别,填补本项业务需求空白。
Description
技术领域
本发明涉及电力客户服务中心突发事件处理系统和方法,具体为一种大集中电力客户服务中心的突发事件感知系统以及构建方法。
背景技术
目前全国两大电网已经实现了电力客户服务系统的大集中建设,充分体现了服务集约化、管理高效化的建设目标,以大集中的客户服务中心为依托,将客服诉求统一集中到客户服务中心进行处理。电网客户服务中心已经构建了完善的数据管理和应用系统,其应用系统建设主要侧重于业务的管理,数据的处理采用先生成、存储到关系型数据库、离线查询、离线分析的处理方式。客服人员在提取数据之后对诉求内容进行分析,需要从大批量的来电记录中依靠经验对突发事件进行逐一排查,将结果报送管理人员。
目前,95598电力客户服务体系是以客户为中心、客服人员为主体的模式运行,客户诉求始终是服务的主要目标,然而面对近万的电话服务量,仅仅依靠客服人员对诉求内容分析并进行应答远远不能满足实时性的要求,且对集中性的突发事件不能实时发现。究其原因,第一,客服人员业务处理必然存在一定的时间间隔,且只能根据当前诉求内容进行答复,无法及时关联到客户的历史诉求,不能准确把握诉求根源;第二,当前的大集中客户服务中心坐席集中办公模式无法实现对某个区域的客户诉求进行整体感知,对突发性的集中事件不能及时发现并处理;第三,在互联网时代,数据量越来越庞大,对数据读取和数据处理的时效性有更高的要求,传统的数据先存储到数据库再查询再分析的手段已经完全无法满足今天的需求。因此迫切需要基于新技术实现大规模语义分析以辅助人工服务,并实现数据的在线采集和加工利用,满足大集中客户服务中心及时识别突发事件的业务需求。
发明内容
本发明所要解决的技术问题是,提供一种大集中电力客户服务中心的突发事件感知系统以及构建方法,能够快速、准确的感知突发事件,及时推送给相关部门进行及时处理。
本发明采用的技术方案是,一种大集中电力客户服务中心的突发事件实时感知系统,包括数据采集模块,文本数据处理模块,特征向量构建模块,多文档主题分析模块,事件感知模块,以及结果推送模块;
数据采集模块:用于将当前客户服务中心业务受理工作单记录的数据进行汇总,按照需求分地市、分区域、分时段进行整理;
文本数据处理模块:用于对客户服务中心业务受理工作单记录的文本数据进行预处理,包括空值处理、短文本筛选、文本分词、去停用词处理,便于后期分析;
特征向量构建模块:用于将上一步处理的文本数据首先进行语义信息的提炼,生成能够表达文本核心意思的特征向量;
多文档主题分析模块:用于根据特征向量将客户服务中心业务受理工作单记录的文本数据集中分析,根据各文本数据之间语义的相关性和差异性,建立无监督多文档主题分析模型,运用模型将众多文档归类为不同的主题,一个主题下包含多个相似文档;
事件感知模块:用于根据句子的重要度从突发事件主题下的多文档抽象出中心句,该中心句对突发事件进行了完整表达;
结果推送模块:将检测出的突发事件具体信息实时推送给客户服务中心管理人员,以及监控大屏,提醒相关人员进行干预和响应。
一种大集中电力客户服务中心的突发事件实时感知系统的构建方法,具体步骤如下:
(1)文本数据采集与预处理
基于Apache Flink技术将存储于平台中客户服务中心业务受理工作单记录的数据进行实时采集,并对文本数据进行预处理;
(2)构建模型生成主题
采用LDA(Latent Dirichlet Allocation潜在狄利克雷分布)技术实现主题词汇聚和主题识别,以某个区域内当前时间段内的所有客户服务中心业务受理工作单记录的文本数据为处理对象,每条客户服务中心业务受理工作单记录作为一条文本,经过Topicmodeling模型处理过之后,被自动识别为多个不同的主题群,每个主题群对应一组主题词,表达该主题群所有文档的核心意思,语义相关的文档同属于一个主题群;
(3)构建突发事件实时感知模型
采用TextRank算法构建突发事件实时感知模型,分析并准确识别各主题所反映的突发事件,该模型构建了一个图模型,将每个句子看作图中的一个节点,若两个句子之间有相似性,则对应的两个节点之间有一个无向有权边,权值为相似度,模型输入为某主题下所有文档的所有句子,经过多次迭代计算各个句子的重要度,从而将重要度最大的句子输出为一个中心句;
上述大集中电力客户服务中心的突发事件实时感知系统的构建方法,所述文本数据预处理包括以下内容,
(1)空值处理:一条客户服务中心业务受理工作单记录作为一个文本输入,若某条客户服务中心业务受理工作单记录的数据为空,则直接剔除该记录;
(2)文本分词:中文分词是中文自然语言处理的基础,对于输入的中文文本,首先进行中文分词才能使用算法自动识别语句含义,采用中文分词技术将连续的字序列按照一定的规范重新组合成词序列;
(3)去停用词:客户服务中心业务受理工作单记录的停用词包括英文字符、数字、数学字符、标点符号,以及无意义的字词,无意义的字词包括语气助词、副词、介词、连接词、以及客服常用语,为了避免停用词对语义理解的干扰,在预处理阶段删除停用词;
(4)删除太长或太短的文本:文本太短不足以表达主要内容,太长不易于提取重要信息,在预处理阶段统计文本的字数,按照四分位中0.05的下分位数和0.95的上四分位数删除过短、过长的记录。
上述大集中电力客户服务中心的突发事件实时感知系统的构建方法,构建模型生成主题的步骤包括以下两个过程:
(1)基于文本生成特征向量
基于预处理之后的单词构建字典,即一个单词对应一个数字ID,所有单词及其数字ID的组合为一个完备的字典,根据字典逐条将文本生成数值型特征向量。
(2)训练LDA模型生成主题
step1:随机给文档中的每个单词分配主题Z0;
step2:统计每个主题Z下出现单词的数量以及每个文档m下出现主题Z中的单词的数量;
step3:排除当前单词的主题分配,根据其他所有单词的主题分配估计当前单词分配到各个主题的概率;
step4:当得到当前单词属于所有主题Z的概率分布后,根据这个概率分布为该单词分配一个新的主题Z1;
上述大集中电力客户服务中心的突发事件实时感知系统的构建方法,突发事件实时感知模型构建步骤如下:
根据以下公式计算句子之间的相似度:
其中,Si,Sj表示第i和第j个句子,wq表示第q个单词,|Si|表示预处理之后的句子中包含的单词个数,该公式计算两个句子中相同单词个数与两个句子中所有单词个数的占比为句子相似度Wij;
根据以下公式计算各句子的重要度:
其中Vj,Vi分别表示图模型中的第j个和第i个节点,WS(Vj)表示节点Vj的重要度,WS(Vi)表示节点Vi的重要度;In(Vi)表示节点i的入度,Out(Vj)表示节点j的出度;Wji表示句子j和句子i之间的相似度;Wjl表示句子j和句子l之间的相似度;d为阻尼系数,取值范围为0到1之间,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85;该公式根据某个节点的入度节点和出度节点对应的句子之间的相似度计算该节点的重要度;
算法步骤如下:
step1:初始化各个节点的重要度WS(Vi)=0.5;
step2:计算任意两个句子之间的相似度wij;
step3:根据入度和出度节点计算当前节点的重要度;
step4:完成一次所有节点的重要度计算过程,返回step2继续迭代,直到所有节点的重要度不再变化或小于阈值(阈值设置为0.0001),算法收敛停止迭代;
step5:根据最后一次迭代的重要度对主题内所有文本的所有句子进行排序,选择重要度最大的句子作为输出结果。
本发明的优点为:
1、基于Apache Flink分布式流计算技术,实现大集中客户服务中心业务受理工作单记录数据的实时采集、实时使用、实时分析,将以往客户服务中心业务受理工作单记录数据的应用的时效性由日级、小时级提升到秒级,同时具备了自动容错、水平扩展、分布式部署等优点,可以提供足够容量、足够实时的客户服务中心业务受理工作记录单数据在线处理能力。
2、首次依托LDA、TextRank等技术构建了突发事件实时感知方法,取代以往需要依靠开会交流、数据统计和手工处理才可以完成的做法,使得客户服务中心管理人员可以第一时间感知突发事件。
3、引入人工智能方法形成一种大集中客户服务中心的突发事件实时感知系统以及构建方法,实现客户服务中心业务受理工作单记录数据的自动处理和突发事件汇聚,实现突发事件的自动识别,填补本项业务需求空白。
附图说明
图1为突发事件实时感知系统图;
图2为LDA中的单词、文档、主题的关系图;
图3为TextRank生成中心句的过程图。
具体实施方式
结合附图对本发明作进一步详细介绍。
如图1所示,一种大集中电力客户服务中心的突发事件实时感知系统,包括数据采集模块,文本数据处理模块,特征向量构建模块,多文档主题分析模块,事件感知模块,以及结果推送模块;
数据采集模块:用于将当前电力客户服务中心业务受理工作单的数据进行汇总,按照需求分地市、分区域、分时段进行整理;
文本数据处理模块:用于对电力客户服务中心业务受理工作单(文档)的文本数据进行预处理,包括空值处理、短文本筛选、文本分词、去停用词处理,便于后期分析;
特征向量构建模块:用于将上一步处理的文本数据首先进行语义信息的提炼,生成能够表达文本核心意思的特征向量;
多文档主题分析模块:用于根据特征向量将客户服务中心业务受理工作单的文本数据集中分析,根据各文本数据之间语义的相关性和差异性,建立无监督多文档主题分析模型,运用模型将众多文档归类为不同的主题,一个主题下包含多个相似文档;
事件感知模块:用于根据句子的重要度从突发事件主题下的多文档抽象出中心句,该中心句对突发事件进行了完整表达;
结果推送模块:将检测出的突发事件具体信息实时推送给客户服务中心管理人员,以及监控大屏,提醒相关人员进行干预和响应。
一种大集中电力客户服务中心的突发事件实时感知系统的构建方法,具体步骤如下:
(1)文本数据采集与预处理
基于Apache Flink技术将存储于平台中的95598电力客户服务中心业务受理工作单记录的数据进行实时采集,并对文本数据进行预处理,预处理包括以下内容:
1)空值处理:一条客户服务中心业务受理工作单记录作为一个文本输入,若某条客户服务中心业务受理工作单记录的数据为空,则直接剔除该记录;
2)文本分词:中文分词是中文自然语言处理的基础,对于输入的中文文本,首先进行中文分词才能使用算法自动识别语句含义,采用中文分词技术将连续的字序列按照一定的规范重新组合成词序列。
3)去停用词:客户服务中心业务受理工作单记录的停用词包括英文字符、数字、数学字符、标点符号,以及无意义的字词,无意义的字词包括语气助词、副词、介词、连接词、以及客服常用语,为了避免停用词对语义理解的干扰,在预处理阶段删除停用词;
4)删除太长或太短的文本:文本太短不足以表达主要内容,太长不易于提取重要信息,在预处理阶段统计文本的字数,按照四分位中0.05的下分位数和0.95的上四分位数删除过短、过长的记录。
(2)构建模型生成主题
采用LDA(Latent Dirichlet Allocation潜在狄利克雷分布)技术实现主题词汇聚和主题识别,以某个区域内当前时间段内的所有客户服务中心业务受理工作单记录为处理对象,每条客户服务中心业务受理工作单记录作为一条文本,文本数据经过Topicmodeling模型处理过之后,会被自动识别为多个不同的主题群,每个主题群对应一组主题词,该主题词表达了该主题群所有文档的核心意思。构建模型生成主题的步骤包括以下两个过程:
1)基于文本生成特征向量
基于上述去停用词、中文分词等预处理之后的单词构建字典,即一个单词对应一个数字ID,所有单词及其数字ID的组合为一个完备的字典,根据字典逐条将文本生成数值型特征向量。
2)训练LDA模型生成主题
LDA包含单词、主题、文档三层结构,三者关系如图2所示,其中M表示文档数目,K代表主题数目,V表示词汇表中共有的单词个数,Nm表示第m篇文档的单词个数,Wm,n和Zm,n表示第m篇文档中第n个单词及其主题。表示主题k中所有单词的概率分布,表示第m篇文档的所有主题概率分布。和分别服从超参数和的Dirichlet先验分布,具体求解步骤如下:
step1:随机给文档中的每个单词分配主题Z0;
step2:统计每个主题Z下出现单词的数量以及每个文档m下出现主题Z中的单词的数量;
step3:排除当前单词的主题分配,根据其他所有单词的主题分配估计当前单词分配到各个主题的概率;
step4:当得到当前单词属于所有主题Z的概率分布后,根据这个概率分布为该单词分配一个新的主题Z1;
文本数据在构建模型生成主题之后被分配到多个不同的主题群,语义相关的文档同属于一个主题群,且一个主题对用多个主题词,结果举例如表1所示:
表1
(3)构建突发事件实时感知模型
采用TextRank算法构建突发事件实时感知模型,分析并准确识别各主题所反映的突发事件,TextRank生成中心句的过程如图3所示。该模型构建了一个图模型,将每个句子看作图中的一个节点,若两个句子之间有相似性,则对应的两个节点之间有一个无向有权边,权值为相似度。输入为某主题下所有文档的所有句子,经过多次迭代计算各个句子的重要度,从而将重要度最大的句子输出为一个中心句。突发事件实时感知模型构建步骤如下:
根据以下公式计算句子之间的相似度:
其中,Si,Sj表示第i和第j个句子,wq表示第q个单词,|Si|表示预处理之后的句子中包含的单词个数。该公式计算两个句子中相同单词个数与两个句子中所有单词个数的占比为句子相似度Wij。
根据以下公式计算各句子的重要度:
其中Vj,Vi分别表示图模型中的第j个和第i个节点,WS(Vj)表示节点Vj的重要度,WS(Vi)表示节点Vi的重要度;In(Vi)表示节点i的入度,Out(Vj)表示节点j的出度;Wji表示句子j和句子i之间的相似度(也是节点Vj和Vi的相似度);Wjl表示句子j和句子l之间的相似度(也是节点Vj和Vl的相似度);d为阻尼系数,取值范围为0到1之间,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85。该公式根据某个节点的入度节点和出度节点对应的句子之间的相似度计算每个句子的重要度。
算法步骤如下:
step1:初始化各个节点的重要度WS(Vi)=0.5;
step2:计算任意两个句子之间的相似度wij;
step3:根据入度和出度节点计算当前节点的重要度;
step4:完成一次所有节点的重要度计算过程,返回step2继续迭代,直到所有节点的重要度不再变化或小于阈值(阈值设置为0.0001),算法收敛停止迭代;
step5:根据最后一次迭代的重要度对主题内所有文本的所有句子进行排序,选择重要度最大的句子作为输出结果。
当然,上述说明并非对本发明的限制,本发明也并不局限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (5)
1.一种大集中电力客户服务中心的突发事件实时感知系统,其特征在于:包括数据采集模块,文本数据处理模块,特征向量构建模块,多文档主题分析模块,事件感知模块,以及结果推送模块;
数据采集模块:用于将当前客户服务中心业务受理工作单记录的数据进行汇总,按照需求分地市、分区域、分时段进行整理;
文本数据处理模块:用于对客户服务中心业务受理工作单记录的文本数据进行预处理,包括空值处理、短文本筛选、文本分词、去停用词处理,便于后期分析;
特征向量构建模块:用于将上一步处理的文本数据首先进行语义信息的提炼,生成能够表达文本核心意思的特征向量;
多文档主题分析模块:用于根据特征向量将客户服务中心业务受理工作记录的文本数据集中分析,根据各文本数据之间语义的相关性和差异性,建立无监督多文档主题分析模型,运用模型将众多文档归类为不同的主题,一个主题下包含多个相似文档;
事件感知模块:用于根据句子的重要度从突发事件主题下的多文档抽象出中心句,该中心句对突发事件进行了完整表达;
结果推送模块:将检测出的突发事件具体信息实时推送给电力客户服务中心管理人员,以及监控大屏,提醒相关人员进行干预和响应。
2.一种大集中电力客户服务中心的突发事件实时感知系统的构建方法,其特征在于:具体步骤如下,
(1)文本数据采集与预处理
基于Apache Flink技术将存储于平台中的95598客户服务中心业务受理工作单记录的数据进行实时采集,并对文本数据进行预处理;
(2)构建模型生成主题
采用LDA(Latent Dirichlet Allocation潜在狄利克雷分布)技术实现主题词汇聚和主题识别,以某个区域内当前时间段内的所有客户服务中心业务受理工作单记录的文本数据为处理对象,每条客户服务中心业务受理工作单记录作为一条文本,经过Topicmodeling模型处理过之后,被自动识别为多个不同的主题群,每个主题群对应一组主题词,表达该主题群所有文档的核心意思,语义相关的文档同属于一个主题群;
(3)构建突发事件实时感知模型
采用TextRank算法构建突发事件实时感知模型,分析并准确识别各主题所反映的突发事件,该模型构建了一个图模型,将每个句子看作图中的一个节点,若两个句子之间有相似性,则对应的两个节点之间有一个无向有权边,权值为相似度;模型输入为某主题下所有文档的所有句子,经过多次迭代计算各个句子的重要度,从而将重要度最大的句子输出为一个中心句。
3.根据权利要求2所述的大集中电力客户服务中心的突发事件实时感知系统的构建方法,其特征是:所述预处理包括以下内容,
(1)空值处理:一条客户服务中心业务受理工作单记录作为一个文本输入,若某条客户服务中心业务受理工作单记录的数据为空,则直接剔除该记录;
(2)文本分词:中文分词是中文自然语言处理的基础,对于输入的中文文本,首先进行中文分词才能使用算法自动识别语句含义,采用中文分词技术将连续的字序列按照一定的规范重新组合成词序列;
(3)去停用词:客户服务中心业务受理工作单记录的停用词包括英文字符、数字、数学字符、标点符号,以及无意义的字词,无意义的字词包括语气助词、副词、介词、连接词、以及客服常用语,为了避免停用词对语义理解的干扰,在预处理阶段删除停用词;
(4)删除太长或太短的文本:文本太短不足以表达主要内容,太长不易于提取重要信息,在预处理阶段统计文本的字数,按照四分位中0.05的下分位数和0.95的上四分位数删除过短、过长的记录。
4.根据权利要求2所述的大集中电力客户服务中心的突发事件实时感知系统的构建方法,其特征是:构建模型生成主题的步骤包括以下两个过程,
(1)基于文本生成特征向量
基于预处理之后的单词构建字典,即一个单词对应一个数字ID,所有单词及其数字ID的组合为一个完备的字典,根据字典逐条将文本生成数值型特征向量;
(2)训练LDA模型生成主题
step1:随机给文档中的每个单词分配主题Z0;
step2:统计每个主题Z下出现单词的数量以及每个文档m下出现主题Z中的单词的数量;
step3:排除当前单词的主题分配,根据其他所有单词的主题分配估计当前单词分配到各个主题的概率;
step4:当得到当前单词属于所有主题Z的概率分布后,根据这个概率分布为该单词分配一个新的主题Z1;
5.根据权利要求2所述的大集中电力客户服务中心的突发事件实时感知系统的构建方法,其特征是:突发事件实时感知模型构建步骤如下,
根据以下公式计算句子之间的相似度:
其中,Si,Sj表示第i和第j个句子,wq表示第q个单词,|Si|表示预处理之后的句子中包含的单词个数,该公式计算两个句子中相同单词个数与两个句子中所有单词个数的占比为句子相似度Wij;
根据以下公式计算各句子的重要度:
其中Vj,Vi分别表示图模型中的第j个和第i个节点,WS(Vj)表示节点Vj的重要度,WS(Vi)表示节点Vi的重要度;In(Vi)表示节点i的入度,Out(Vj)表示节点j的出度;Wji表示句子j和句子i之间的相似度(也是节点Vj和Vi的相似度);Wjl表示句子j和句子l之间的相似度;d为阻尼系数,取值范围为0到1之间,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85;该公式根据某个节点的入度节点和出度节点对应的句子之间的相似度计算该节点的重要度;
算法步骤如下:
step1:初始化各个节点的重要度WS(Vi)=0.5;
step2:计算任意两个句子之间的相似度wij;
step3:根据入度和出度节点计算当前节点的重要度;
step4:完成一次所有节点的重要度计算过程,返回step2继续迭代,直到所有节点的重要度不再变化或小于阈值(阈值设置为0.0001),算法收敛停止迭代;
step5:根据最后一次迭代的重要度对主题内所有文本的所有句子进行排序,选择重要度最大的句子作为输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010051316.9A CN111241288A (zh) | 2020-01-17 | 2020-01-17 | 一种大集中电力客户服务中心的突发事件感知系统以及构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010051316.9A CN111241288A (zh) | 2020-01-17 | 2020-01-17 | 一种大集中电力客户服务中心的突发事件感知系统以及构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111241288A true CN111241288A (zh) | 2020-06-05 |
Family
ID=70871196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010051316.9A Pending CN111241288A (zh) | 2020-01-17 | 2020-01-17 | 一种大集中电力客户服务中心的突发事件感知系统以及构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241288A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487185A (zh) * | 2020-11-27 | 2021-03-12 | 国家电网有限公司客户服务中心 | 一种电力客户领域的数据分类方法 |
CN116485450A (zh) * | 2023-06-21 | 2023-07-25 | 江苏网进科技股份有限公司 | 一种需求自动识别的方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294863A (zh) * | 2016-08-23 | 2017-01-04 | 电子科技大学 | 一种针对海量文本快速理解的文摘方法 |
CN107886240A (zh) * | 2017-11-09 | 2018-04-06 | 上海海事大学 | 一种基于规则的跨境电商商品质量风险识别方法 |
CN108536757A (zh) * | 2018-03-19 | 2018-09-14 | 武汉大学 | 一种基于用户历史网络潜在有害主题引导方法 |
CN108681574A (zh) * | 2018-05-07 | 2018-10-19 | 中国科学院合肥物质科学研究院 | 一种基于文本摘要的非事实类问答答案选择方法及系统 |
CN108962395A (zh) * | 2018-09-06 | 2018-12-07 | 南京龙渊微电子科技有限公司 | 一种基于并行分数阶生理信号实时采集和分析方法 |
CN109344234A (zh) * | 2018-09-06 | 2019-02-15 | 和美(深圳)信息技术股份有限公司 | 机器阅读理解方法、装置、计算机设备和存储介质 |
CN109389418A (zh) * | 2018-08-17 | 2019-02-26 | 国家电网有限公司客户服务中心 | 基于lda模型的供电服务客户诉求识别方法 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN110263153A (zh) * | 2019-05-15 | 2019-09-20 | 北京邮电大学 | 面向多源信息的混合文本话题发现方法 |
CN110399606A (zh) * | 2018-12-06 | 2019-11-01 | 国网信息通信产业集团有限公司 | 一种无监督电力文档主题生成方法及系统 |
CN110542920A (zh) * | 2019-09-03 | 2019-12-06 | 北京云庐科技有限公司 | 地震数据处理方法及其系统 |
-
2020
- 2020-01-17 CN CN202010051316.9A patent/CN111241288A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294863A (zh) * | 2016-08-23 | 2017-01-04 | 电子科技大学 | 一种针对海量文本快速理解的文摘方法 |
CN107886240A (zh) * | 2017-11-09 | 2018-04-06 | 上海海事大学 | 一种基于规则的跨境电商商品质量风险识别方法 |
CN108536757A (zh) * | 2018-03-19 | 2018-09-14 | 武汉大学 | 一种基于用户历史网络潜在有害主题引导方法 |
CN108681574A (zh) * | 2018-05-07 | 2018-10-19 | 中国科学院合肥物质科学研究院 | 一种基于文本摘要的非事实类问答答案选择方法及系统 |
CN109389418A (zh) * | 2018-08-17 | 2019-02-26 | 国家电网有限公司客户服务中心 | 基于lda模型的供电服务客户诉求识别方法 |
CN108962395A (zh) * | 2018-09-06 | 2018-12-07 | 南京龙渊微电子科技有限公司 | 一种基于并行分数阶生理信号实时采集和分析方法 |
CN109344234A (zh) * | 2018-09-06 | 2019-02-15 | 和美(深圳)信息技术股份有限公司 | 机器阅读理解方法、装置、计算机设备和存储介质 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN110399606A (zh) * | 2018-12-06 | 2019-11-01 | 国网信息通信产业集团有限公司 | 一种无监督电力文档主题生成方法及系统 |
CN110263153A (zh) * | 2019-05-15 | 2019-09-20 | 北京邮电大学 | 面向多源信息的混合文本话题发现方法 |
CN110542920A (zh) * | 2019-09-03 | 2019-12-06 | 北京云庐科技有限公司 | 地震数据处理方法及其系统 |
Non-Patent Citations (6)
Title |
---|
丁麒;庄志画;刘东丹;: "基于文本数据挖掘技术的95598业务工单主题分析应用", no. 1, pages 1 - 5 * |
余珊珊;苏锦钿;李鹏飞;: "基于改进的TextRank的自动摘要提取方法", 计算机科学, no. 06 * |
徐驰;陈丽容;: "基于TextRank和GloVe的自动文本摘要算法", 中国新通信, no. 09 * |
莫鹏;胡珀;黄湘冀;何婷婷;: "基于超图的文本摘要与关键词协同抽取研究", 中文信息学报, no. 06 * |
陈亮;王刚;王震;: "并行LDA主题模型在电力客服工单文本挖掘中的应用", no. 12, pages 1 - 5 * |
齐翌辰;王森淼;赵亚慧;: "基于深度学习的中文抽取式摘要方法应用", 科教导刊(中旬刊), no. 05 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487185A (zh) * | 2020-11-27 | 2021-03-12 | 国家电网有限公司客户服务中心 | 一种电力客户领域的数据分类方法 |
CN112487185B (zh) * | 2020-11-27 | 2022-12-30 | 国家电网有限公司客户服务中心 | 一种电力客户领域的数据分类方法 |
CN116485450A (zh) * | 2023-06-21 | 2023-07-25 | 江苏网进科技股份有限公司 | 一种需求自动识别的方法 |
CN116485450B (zh) * | 2023-06-21 | 2023-08-29 | 江苏网进科技股份有限公司 | 一种需求自动识别的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Robust classification of crisis-related data on social networks using convolutional neural networks | |
WO2020000847A1 (zh) | 一种基于新闻大数据的恐慌指数监测分析方法及系统 | |
CN113704451B (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN110909165A (zh) | 数据处理方法、装置、介质及电子设备 | |
CN110955776A (zh) | 一种政务文本分类模型的构建方法 | |
CN112581006A (zh) | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 | |
CN111914087A (zh) | 一种舆情分析方法 | |
CN110222192A (zh) | 语料库建立方法及装置 | |
CN115048464A (zh) | 用户操作行为数据的检测方法、装置及电子设备 | |
CN111241288A (zh) | 一种大集中电力客户服务中心的突发事件感知系统以及构建方法 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
Yuan et al. | A hybrid method for multi-class sentiment analysis of micro-blogs | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN113761192A (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN113806528A (zh) | 一种基于bert模型的话题检测方法、设备及存储介质 | |
WO2023207566A1 (zh) | 语音房质量评估方法及其装置、设备、介质、产品 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN116805022A (zh) | 一种基于群体传播的特定Twitter用户挖掘方法 | |
Nazeer | Part-of-speech tagging and named entity recognition using improved hidden markov model and bloom filter | |
WO2023137918A1 (zh) | 文本数据的分析方法、模型训练方法、装置及计算机设备 | |
CN114741515A (zh) | 基于图生成的社交网络用户属性预测方法及系统 | |
Hajare et al. | A machine learning pipeline to examine political bias with congressional speeches | |
CN114417010A (zh) | 面向实时工作流的知识图谱构建方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |