CN114358014B - 基于自然语言的工单智能诊断方法、装置、设备及介质 - Google Patents

基于自然语言的工单智能诊断方法、装置、设备及介质 Download PDF

Info

Publication number
CN114358014B
CN114358014B CN202111609177.8A CN202111609177A CN114358014B CN 114358014 B CN114358014 B CN 114358014B CN 202111609177 A CN202111609177 A CN 202111609177A CN 114358014 B CN114358014 B CN 114358014B
Authority
CN
China
Prior art keywords
work order
work
historical
keywords
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111609177.8A
Other languages
English (en)
Other versions
CN114358014A (zh
Inventor
马培龙
孙坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiayuan Technology Co Ltd
Original Assignee
Jiayuan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiayuan Technology Co Ltd filed Critical Jiayuan Technology Co Ltd
Priority to CN202111609177.8A priority Critical patent/CN114358014B/zh
Publication of CN114358014A publication Critical patent/CN114358014A/zh
Application granted granted Critical
Publication of CN114358014B publication Critical patent/CN114358014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/012Providing warranty services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Molecular Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开基于自然语言的工单智能诊断方法、装置、设备及介质。该方法包括如下步骤:获取工单样本数据;对工单样本数据进行预处理;构建工单多标签分类模型,利用工单多标签分类模型预测出输入的工单的工单类型和重要程度;根据工单的工单类型和重要程度从历史工单库中筛选出与工单的关键信息的相似度最高的历史工单,并从历史工单获取对应的工单处理信息;将工单处理信息反馈至相应工作人员。本发明建立工单多标签分类模型自动识别工单的业务类型与重要程度,且利用自然语言处理技术实现对电力工单智能诊断,能够完成自动识别电力系统故障及时进行故障定位的同时精准地从历史工单库中找到最相近的历史工单,为客服人员提供借鉴。

Description

基于自然语言的工单智能诊断方法、装置、设备及介质
技术领域
本发明涉及电力运维技术领域,尤其涉及基于自然语言的工单智能诊断方法、装置、设备及介质。
背景技术
在激烈的市场竞争中,客户服务已经成为企业在市场上面临的重要问题之一,许多公司在近年迅速发展的趋势下,己意识到客户服务的重要性:让客户满意,把满足客户需求作为一切工作展开的目标和中心。结合企业各自不同的实际情况,因地制宜地建立适合本企业的客户服务中心是现阶段摆在所有企业面前的重要问题。良好的客户服务能够联系企业与客户之间的感情,维护并营造企业良好的社会形象,最终实现培养消费者对于企业和品牌忠诚度的长远目标。众所周知,电力是关系国计民生的重要基础产业,是国民经济的重要组成部分。电力企业具有规模经济特征,在一般公共服务类企业中具有显著的代表性。而客户服务工作作为电力企业的一项重要经营活动,不仅关系到电力客户的切身利益,也关系到电力企业的经营效益。电力企业的客户服务问题的解决方案对于解决全行业的客户服务问题有着广泛适用性。
目前,电力系统客服中心主要是依赖传统的人工服务方式,由电力服务工单为传导,其工单数据记录着电力客户对供电企业的诉求信息,根据工单信息描述,准确地定位用户所属类别,有利于提升客户满意度,目前对工单数据的处理方式,主要是由客服人员通过对用户诉求数据的分析,来判别用户需求信息所属的服务类型并结合工作经验来完成人员或设备的调度。这种方式缺乏有效的分析方法,严重影响信息分析和解决问题的效率,直接影响到电力系统的高效运行和发展,因此,找到一种高效的工单诊断方法来实现对工单数据进行自动、准确的处理,是电力客服系统亟待解决的主要问题。
发明内容
本发明针对传统电力客服服务数据挖掘不足、处理效率低等问题,利用自然语言处理技术实现对电力工单的智能诊断,建立工单分类模型自动识别工单的业务类型与重要程度,且充分挖掘电力工单数据的有效信息,基于工单历史库对当前问题进行智能诊断,为用户提供合适的解决方法,可以有效提升电力客服系统的故障识别性能,有助于自动识别电力系统故障,及时进行故障定位,有效弥补电力服务短板,解决电力服务痛点问题,提升地区客户的电力满意度。
为了达到上述目的,本发明的技术方案如下:
基于自然语言的工单智能诊断方法,包括如下步骤:
步骤1,获取工单样本数据;
步骤2,对工单样本数据进行预处理;
步骤3,构建工单多标签分类模型,利用工单多标签分类模型预测出输入的工单的工单类型和重要程度;
步骤4,根据工单的工单类型和重要程度从历史工单库中筛选出与工单的关键信息的相似度最高的历史工单,并从历史工单获取对应的工单处理信息;
步骤5,将所述工单处理信息反馈至相应工作人员。
优选地,所述步骤1,具体包括如下步骤:
步骤101,在时间跨度内,基于不同工区的用电量以及工单数量作为第一参考值,筛选第一工单数据;基于月份、时段和季节的用电量以及工单数量作为第二参考值,筛选第二工单数据,其中,所述时间跨度为N年,N≥3;
步骤102,将第一工单数据和第二工单数据打乱并合并,形成最终的工单样本数据。
优选地,所述预处理包括剔除噪声信息、删除重复数据和敏感词过滤。
优选地,所述步骤3,具体包括如下步骤:
步骤301,利用BERT预训练模型提取工单文本中动态词向量,生成词向量矩阵;
步骤302,通过工单多标签分类模型对词向量矩阵进行处理,提取工单的局部语义特征和全局语义特征;
步骤303,将局部语义特征和全局语义特征进行融合处理后预测出工单的工单类型和重要程度。
优选地,所述工单多标签分类模型的分类性能通过精确率、召回率和F1值三个评价指标进行衡量。
优选地,所述步骤4,具体包括如下步骤:
步骤401,利用BERT预训练模型对工单的关键信息进行特征提取生成词向量,再进行拼接生成工单的关键信息句向量;
步骤402,基于工单的工单类型和重要程度从历史工单库中筛选出与工单关键信息句向量的相似度最高的历史工单;
步骤403,获取历史工单中对应的工单处理信息。
优选地,所述工单的关键信息的获取方法,具体包括如下步骤:
步骤411,提取工单的候选关键词;
步骤412,根据影响因素对候选关键词的评分进行调整,排序后选取评分靠前的候选关键词为最终关键词,所述影响因素包括词性特征、词长度特征和主题词特征;
步骤413,通过Word2Vec词向量获取最终关键词的近似词,依照近似词的近似度进行排序,选取近似度靠前的相近词作为文本的扩展关键词,将所述扩展关键词作为工单的关键信息。
基于自然语言的工单智能诊断装置,包括:获取模块、预处理模块、构建模块、智能匹配模块和反馈模块,其中,
所述获取模块,用于获取工单样本数据;
所述预处理模块,用于对工单样本数据进行预处理;
所述构建模块,用于基于预处理后的样本构建工单多标签分类模型,通过工单多标签分类模型预测出待测工单的工单类型和重要程度;
所述智能匹配模块,用于根据工单的工单类型和重要程度从历史工单库中筛选出与工单的关键信息的相似度最高的历史工单,并从历史工单获取对应的工单处理信息;
所述反馈模块,用于将所述工单处理信息反馈至相应工作人员。
计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任一所述的基于自然语言的工单智能诊断方法。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述的基于自然语言的工单智能诊断方法。
基于上述技术方案,本发明的有益效果是:
1)本发明基于电力系统工单业务特点,以时间、工区、用电情况等特征为标准采集工单数据,创建数据量适中、场景覆盖全、特征明显的数据集,使得数据样本更加贴合实际场景,基于此特征样本,模型泛化性能更强;
2)本发明提出一种工单业务分类及重要程度的分类预测模型,通过深度挖掘工单局部语义与全局语义来充分理解工单文本信息,且对传统的池化策略进行改进,提升局部语义理解程度,同时优化RNN计算方法来避免全局语义丢失的问题,实现工单内容的准确分类;
3)本发明基于深度学习及自然语言处理技术实现工单的智能诊断,在充分理解工单语义的基础上提出新的文本相似度计算方法,能够精准地从历史工单库中找到最相近的历史工单,为客服人员提供借鉴,提高电网的稳定性可靠性,有助于提高电网对地区经济发展的促进作用。
附图说明
图1是一个实施例中基于自然语言的工单智能诊断方法流程图;
图2是一个实施例中基于自然语言的工单智能诊断方法中多标签分类模型结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,本发明提供一种基于自然语言的工单智能诊断方法,包括如下步骤:
(一)工单数据样本采集
电网系统中存储有自工单客服系统启动以来的各类工单信息及后续客服的处理情况,这些不断积累的数据蕴含了巨大的潜在价值,面对庞大且冗杂的企业级文本数据资产,如何选取能较完整地体现各类工单情况特征地样本数据集是提升本方案后续分析的关键。
通常的样本采集方法是直接将某一时间跨度内的数据全部导出,这种方法可以保证数据的训练集、测试集数量充足,无需担心因数据量不足而导致的模型训练效果欠佳的问题,但这种采集方法过于简单粗暴,客服平台每天处理的工单量巨大,时间跨度稍长就很容易造成数据冗余,导致训练时间延长。针对这一情况,本方案结合业务场景特点对数据进行粗筛,通过对时间、区域等特征的分析确定采集标准。特征分析如下:
(1)月度时间特征
从工单数据库中导出3年时间内的所有工单数据,对3年中的工单进行统计后发现,全年中7、11月是创建工单的高峰,之后均有2个月持续下降,2月是每年工单创建量的低谷,可能是因为2月与春节重合,所以工单量最少,而夏季和冬季分别由于制冷和取暖以及设备的耐受性原因,出现了高工单量的季节性现象。
(2)时段时间特征
对工单创建的时间作散点图分布和函数分段拟合趋势,发现每天上午7点工单量开始有上升趋势,并于上午10点左右达到高峰,然后下降至中午12点形成小低谷,之后便呈缓慢波动状态,下午16点和晚上20点均达到一次小波峰,20点后便大幅下降,凌晨0点到6点是全天的低谷。总体上,工单的日分布与人们工作和生活和作息规律一致。
(3)工区特征
对工区分布分析后可看出,工单集中在本地区的工业区,用电需求高;位居第二的地处市中心,属于大型商业区,人口密度较大,除去个别远郊地区和占地面积很小的区域工单量比较少,其它区差距不大。
针对上述特征分析,基于各特征所占比重进行数据采集,采集流程为:(1)首先以3年为时间跨度选取工单数据;(2)基于工区采集数据,各工区的用电情况各有特点,如工业区用电量往往较高,工单可能较多,情况也较复杂,因此数据集应尽可能多的覆盖工单量较多的区域;(3)基于月份、时段、季节采集数据,各月份因天气、节日等因素导致用电量不同,因此各月工单数据在数据集中的比重以各自工单数量为标准;(4)将上述采集到的数据打乱并合并构建最终的样本数据集。
(二)工单数据预处理
客服平台中存储的工单数据可能含有本部分噪声信息,如果不进行处理直接进行分析工作,将会影响分析质量并延长分析时间,因此需要对工单历史数据进行预处理,流程包括:
(1)剔除噪声信息
工单文本中往往会存在URL地址、特殊符号、表情、图片等内容或零宽字符(\u200b\u200c)等无意义字符,这些内容与本次分析无关,保留这类信息只会影响模型的训练效果,因此利用正则表达式活字符串匹配来删除这些内容。
(2)删除重复数据
在数据采集的过程中会存在重复值的情况,出现重复值可能是客服系统在入库阶段出现问题导致。采用合并法,通过判断工单信息是否相等,将相等的记录合并为一条记录。
(3)敏感词过滤
通过构建敏感词的词汇表,进行含有敏感词的数据进行过滤,这类内容不应该作为特征被模型所学习。
(三)工单多标签分类
电力客服系统每天需要处理大量工单,这些工单主要包括电网故障报修、业务咨询、投诉建议等内容,传统的方式是依靠人工进行手动分类,这种处理方式不仅效率低下,而且极易出错,尤其是在面对海量数据时,更显得力不从心。因此如何科学地对电力工单进行自动化分类,并采取一定策略进行优化在当前就显得极为迫切和重要。鉴于此,本发明充分利用预处理后的工单数据样本,分析各工单类型特征并进行建模,从而实现工单的自动分类,并且对工单的重要程度进行预测,客服人员可直接在预测分类及重要程度的基础上完成后续的调度服务工作,进一步提高服务质量。
(1)工单特征分析
用户利用App或电话联系客服平台后,平台会根据情况生成工单,目前客服平台只是简单地将工单分为报修工单和非报修工单,其中非报修工单多为业务咨询或投诉建议等内容,工单的主要信息包括:工单编号、用户名称、联系电话、用户编号、发生时间、咨询时间、情况描述、处理单位、承诺时间、详细地址、解决情况等内容。这种分类方式还需要客服人员根据情况手动选择,因此业务人员根据日常工作经验将工单重新分类,分别为故障报修、个人用电咨询、企业用电咨询、投诉建议,并且当工单为报修工单时再对其重要程度进行划分,包括一般、重要、紧急三类。在确定好新确定的类别后对数据进行人工标注,具体标注内容为对每条工单数据,根据其描述内容标注出工单的业务类型及其重要程度。
(2)多标签分类模型构建
在完成数据标注后开始构建工单分类模型,该模型的目的是根据工单描述信息,预测出新输入工单的业务类型及其重要程度。当遇到要预测两个结果时,通常会使用两个模型独立进行输出,本方面采取多标签分类的方式,利用单个模型同时预测出两个标签,节约模型训练时间。模型结构如图2所示,具体流程为:
1.输入层
由于计算机不能直接识别汉字,因此我们需要将文本转换成计算机能识别的形式。只有正确的表示文本,模型才能更好地工作提取到有效的特征信息。本发明使用分布式表征模型来表示工单描述类文本,输入层具体处理方法为:
首先将工单文本利用Word Embedding技术转换为词向量矩阵作为输入,由于Word2Vec忽略了特征所在的上下文依赖关系,导致最后分类准确率不高,本方案采用BERT预训练模型进行文本内容的动态编码,使得文本特征向量能保留更多的细节信息。
2.语义提取层
特征的提取对于特征工程来说是非常重要的,特征的好与坏直接影响分类模型的效果。对于工单分类来说,如何将描述信息中的关键信息提取出来是分类准确率高低的关键所在,如报修工单多记录了设备损坏等描述性文本,咨询工单内容多为业务具体情况描述,因此在特征提取层,我们需要充分挖掘出文本的深度语义信息,不能仅从字或词的角度,更多是需要挖掘出文本的全局信息。针对以上情况,本发明提出一种融合局部语义信息和全局结构信息的特征提取方法,具体介绍如下:
1)局部语义特征
首先将经过BERT层向量化所获得的动态词向量,输入到卷积层中,卷积层的作用是提取输入文本的特征,通过卷积核进行卷积以获得所需的卷积特征向量。卷积层使用窗口大小为h的卷积核Wf∈Rh×k进行卷积操作,其中k表示词向量的维度大小。通过卷积操作得到一个新的特征ci
式中,xi:i+h-1∈Rh×k表示高为h,宽为1的矩阵,xi为句子中第i个单词的k维词向量;b∈R是偏差项。符号指的是点积;f表示非线性激活函数ReLU。
对长度为n的句子进行卷积,随着窗口的滑动,作用在卷积核窗口中的单词[x1:h,x2:h+1,…,xn-h+1:n],产生一个特征映射:
c=[c1,c2,…,cn-h+1]
然后是进行池化操作,传统的池化方法一般包括Max-Pooling和Average-Pooling两种。然而,最大池化在操作时会将池化域内非最大激活值全部舍弃,从而容易导致严重的信息损失。同样地,平均池化取池化域内的所有激活值进行平均,高的正的激活值可能与低的负的激活值相互抵消,容易导致判别性信息的损失。因此,本方案使用Attention池化和Top k池化对传统池化层进行改进,有效缓解局部信息丢失的问题。具体计算方法为:
首先采用Attention机制来对CNN的池化策略进行改进。采用Attention机制进行池化的目的在于消除输入数据对于输出数据的不合理影响力,从而强调关键信息对于分类结果的作用。与平均池化方法相比,基于Attention的池化方法可以保留局部特征的强度信息。利用Attention池化对卷积操作得到的特征表示重新加权,通过计算不同特征的影响力权重来衡量特征的重要程度。注意力池化的计算公式如下所示:
Ut=tanh(UwC+bw)
pa=[pa1,pa2,…,pan]
式中,第一阶段利用非线性激活函数tanh计算得到C的隐藏单元Ut,其中C为卷积操作得到的卷积特征向量。然后使用Softmax的计算方式对第一阶段的隐藏单元Ut进行数值转换得到at,其中at表示在t时刻下的输出数据对于最终状态的注意力概率。这样做一方面可以进行归一化,将原始计算值整理成所有元素权重之和为1的概率分布;另一方面也可以通过Softmax的内在机制更加突出重要元素的权重。第三阶段对权重系数加权求和即可得到Attention池化的数值pai。最后利用全连接层得到特征向量pa
然后在此基础上再进行Top-k池化。Top-k池化即选取每一个注意力池化层输出的前k个最大值作为最终的输出特征。与最大池化方法相比,基于Top-k的池化策略可以保留更多重要的局部卷积特征信息。本方案将k值的大小设定为2,Top-k池化得到的最终局部语义特征表示用U表示,计算公式如下:
pti=top_k(pa)
U=[pt1,pt2,…,ptn]
2)全局语义特征
RNN循环神经网络由于其结构特性,多用来表示相对较长序列的文本。在循环神经网络中神经元之间不是独立存在的,当前时刻的每一个神经元都与上一时刻所有神经元的输出发生了联系,其状态更新如下式所示:
ht=σ(Wxt+Uht-1+b)
式中,σ是激活函数,xt∈RM和ht∈RN分别是神经元在时刻t的输入向量和隐藏状态向量,W是大小为N×M的输入权重矩阵,U为大小为N×N的循环输入权重矩阵,b为神经元偏置,N是每个循环神经网络层神经元数量,M是输入层的大小。
但是当输入的序列过长时RNN就会出现梯度消失和梯度爆炸等问题,导致模型的性能下降进而下游任务的性能。为了解决这一问题,本发明对RNN进行改进,每个神经元独立地处理来自当前时刻的输入和上一时刻的输出,这种方式为每个神经元独立地构造了一个单独的时空模式,有效增强了信息在神经元之间的高效流动,有效解决了梯度问题。RNN单元状态更新过程变为:
ht=σ(Wxt+U⊙ht-1+b)
其中,W是大小为N×M的输入权重矩阵,U∈RN是循环输入权重向量,⊙表示哈达马积。而对于第n个神经元,时刻t的隐藏状态计算公式为:
hn,t=σ(ωnxt+unhn,t-1+bn)
其中ωn和un分别是第n行神经元的输入权重和循环权重,每个神经元只接收来自本身的输入和它在上一时刻的隐藏状态信息。采用堆叠的RNN来实现输入句子的全局结构信息获取,并使用RNN的最后隐藏状态作为句子语义表示的最终结果,即st∈Rn
3.语义特征融合层
句子的表示是正确分类一个句子的基础,独立的局部语义表示或全局语义表示无法获取句子表达的深层语义信息。为了解决这种问题,本发明在构造好两个网络分别实现局部语义和全局结构的获取后,通过给予动态权重的方式将其融合得到句子的最终语义表示。
虽然可以通过均分权重的方式来融合特征,但工单文本的局部语义和全局语义权重并不是一成不变的,因此需要根据具体的内容为其找到一组合适的局部语义和全局结构表示权重。具体计算流程为:
首先利用BERT词向量相加并取平均的方式得到一个简单而有效的句子表示形式。其次利用多层感知机将其映射到空间,得到语义空间表示形式Qse和结构空间表示形式Qst,变换后的维数为d。再次通过内积计算两种表示的相似性。最后使用激活函数Softmax得到语义和结构表示的归一化权重。具体计算公式:
Q=(x1+x2+...+xn)/n
Qst=Wst×Q+bst
Qse=Wse×Q+bse
pst=ρ(Qst,st)
pse=ρ(Qse,se)
(ase,ast)=θ(pse,pst)
M=ase×se+ast×st
其中,xi∈Rd是文本中第i个词的向量表示,Q为工单文本句子的表示,Wst、Wse、bse和bst分别为多层感知机的映射矩阵和映射偏差,Qse和Qst是经过感知机处理的语义和结构表示,维度为n。ρ是平均内积运算符;ase和ast为自注意机制网络学习的语义和结构表示权重;M为局部语义及全局语义融合后的向量表示。
4.标签输出层
融合后的语义向量输入到Dense层,完成输出层的创建。基于构建好的模型利用训练数据进行模型训练,通过评价指标进行参数的调优,最终利用训练好的模型对工单进行业务类别和重要程度的分类预测。
(3)评价指标
工单分类模型的评价指标包括精确率P(precision)、召回率R(recall)和F1值(F1-score)。
精确率P是指分类器预测为A意图且预测正确的样本占所有预测为A意图的样本的比例,计算公式如下:
召回率R是覆盖面的度量,指分类器预测为A意图且预测正确的样本占所有真实为A意图的样本的比例,计算公式如下:
其中,TP、FP、FN含义如下表所示:
类别正确 类别错误
类别正确 TP FN
类别错误 FP TN
精确率和召回率指标有时候会出现矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F1-Score。F1值是综合了精确率P和召回率R的一个指标,计算公式如下,F1值越高说明模型的识别效果越好。
(四)工单智能诊断
在成功预测出工单类型和重要程度后,电网客服平台工作人员可根据结果做出相应的反应与安排,这种安排是否合理主要取决于客服工作人员的工作经验,有着丰富经验的工作人员能够及时准确的为客户提供解决办法,但处理经验较少的客服人员往往需要查阅相关处理手册或求助于他人来解决工单问题,而历史工单中记录了大量报修处理情况,可以为客服人员提供相似情况的处理意见,因此如何快速准确的从工单库中检索出这些数据就显得尤为重要。本发明利用自然语言处理方法对工单进行智能诊断,为工单提供准确可靠的处理意见,提升客服质量。
(1)工单关键信息提取
由于工单历史库的工单量较大,若直接使用相关的文本匹配技术将当前工单与全量的历史工单进行比较,需要巨大的计算量与计算时间,对时效性要求较高的客服平台十分不友好,且对于工单来说,每个工单中的故障描述相同之处往往较少,只是在设备等处会存在相似的状况,无需进行全文匹配。因此本发明首先将工单进行关键词提取,然后再基于提取到的关键词进行相似度匹配。
传统的关键词提取算法单纯以候选关键词出现的频率来衡量其重要性,不太全面,既没有考虑候选关键词的词性、位置关系等因素对候选关键词重要程度的影响,也没有考虑文本所隐含的主题对关键词的影响;有监督的方法需要大量标注关键词的语料库用于训练函数,且结果容易产生过拟合现象。针对以上情况,本方案融合多种关键词影响因素,提出一种工单关键词抽取及扩展方法,具体方法为:
1.候选关键词提取
利用TF-IDF算法来候选关键词的提取,TF-IDF是常用的权重值的计算方法,用以评估某一词条对于整个文件集或语料库中的某一份文档的重要程度。词频TF表示该词项在文档中出现的频率,逆向文件频率IDF反映该词项在文档数据集中的重要程度,计算公式为:
ω=TF×IDF
其中,TF值是特征项t在文本d中出现的频次mdt除以文本d中总词数Md,IDF由总文件数N除以包含特征项t的文件数nt(加0.1是为了避免分母为0的情况),再将得到的商取对数得到。ω表示特征项t在文本d中的权重值。
2.候选关键词多因素评分
对工单文本的候选关键词按照多个因素和标准进行评分和修正,从全面的角度来获得候选关键词较客观的评分,从而选取更能反应工单内容的关键词。具体评分因素包括:
1)词性特征
电力工单中的故障描述主要是记录下某设备当前存在的若干问题或出现的现象,我们更需要挖掘的是相似的设备,因此关键词应尽可能为名词。当关键词为名词时,该候选词保留的可能性更大,重要程度加1。
2)词长度特征
电力设备的名称有时会很复杂,其长度也相对较长,因此将词长度特征作为其中一个影响因素,长度越长的关键词重要程度越高。
3)主题词特征
文本主题词代表了文本中的关键信息,若主题词与候选关键词匹配,则代表候选内容充分代表文本主旨。利用LDA主题模型构建主题关键词,主题特征评分的依据是候选关键词是否出现在主题特征词里,如果出现,则权重加倍,否则权重不变。评分公式如下:
S=(s0,s1,…sn)
其中,Score是候选关键词ti当前的得分,S为文本主题特征关键词集,sn为第n个主题的特征关键词集。
最终利用以上三个影响因素计算出各候选关键词的得分,按升序排序后取Top-K个候选关键词为最终关键词。
3.关键词扩展
工单内故障描述的文本篇幅较短,往往表述不严谨,一些能够很好表述和概括文本内容的词语并未出现在文本中,普通的关键词抽取方法根本无法获得该类关键词,致使抽取的关键词并不能全面概括文本内容,因此需要对关键词进行适当扩展。具体方法为通过Word2Vec词向量来获取已抽取文本关键词相近的字词,取Top-K个相近词作为文本的扩展关键词,从而提升文本关键词的查全率。
(2)相似工单匹配
在成功提取工单关键信息后,当前工单问题描述文本的关键词与历史库的关键信息作比较,从而发现相近的工单,并返回该工单的处理意见。本发明利用BERT预训练模型对工单关键词进行特征提取生成词向量,再进行拼接从而生成每个工单的关键信息句向量,工单相似度的计算方法采用余弦相似度,公式如下:
其中,x、y分别表示当前工单和历史工单关键信息句向量,通过余弦度量判断两文本的相关程度,如果sim越大,说明两变量夹角越小,两文本的相似程度就越高,如果sim越小,说明两变量夹角越大,两文本的相似程度就越低。最终与历史工单库对比后返回相似度最高的工单处理情况。
在一个实施例中,提供一种基于自然语言的工单智能诊断装置,包括:获取模块、预处理模块、构建模块、智能匹配模块和反馈模块,其中,
所述获取模块,用于获取工单样本数据;
所述预处理模块,用于对工单样本数据进行预处理;
所述构建模块,用于基于预处理后的样本构建工单多标签分类模型,通过工单多标签分类模型预测出待测工单的工单类型和重要程度;
所述智能匹配模块,用于根据工单的工单类型和重要程度从历史工单库中筛选出与工单的关键信息的相似度最高的历史工单,并从历史工单获取对应的工单处理信息;
所述反馈模块,用于将所述工单处理信息反馈至相应工作人员。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
在一个实施例中提供计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任一所述基于自然语言的工单智能诊断方法。
在一个实施例中提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述基于自然语言的工单智能诊断方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上所述实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。

Claims (8)

1.基于自然语言的工单智能诊断方法,其特征在于,包括如下步骤:
步骤101,在时间跨度内,基于不同工区的用电量以及工单数量作为第一参考值,筛选第一工单数据;基于月份、时段和季节的用电量以及工单数量作为第二参考值,筛选第二工单数据,其中,所述时间跨度为N年,N≥3;
步骤102,将第一工单数据和第二工单数据打乱并合并,形成最终的工单样本数据;
步骤2,对工单样本数据进行预处理;
步骤3,构建工单多标签分类模型,利用工单多标签分类模型预测出输入的工单的工单类型和重要程度,所述工单类型为报修工单和非报修工单,所述重要程度为一般、重要、紧急三类;
步骤4,根据工单的工单类型和重要程度从历史工单库中筛选出与工单的关键信息的相似度最高的历史工单,并从历史工单获取对应的工单处理信息;所述工单的关键信息的获取方法,具体包括如下步骤:步骤411,利用TF-IDF算法提取工单的候选关键词;步骤412,根据影响因素对候选关键词的评分进行调整,排序后选取评分靠前的候选关键词为最终关键词,所述影响因素包括词性特征、词长度特征和主题词特征;步骤413,通过Word2Vec词向量获取最终关键词的近似词,依照近似词的近似度进行排序,选取Top-K个相近词作为文本的扩展关键词,将所述扩展关键词作为工单的关键信息;
步骤5,将所述工单处理信息反馈至相应工作人员。
2.根据权利要求1所述的基于自然语言的工单智能诊断方法,其特征在于,所述预处理包括剔除噪声信息、删除重复数据和敏感词过滤。
3.根据权利要求1所述的基于自然语言的工单智能诊断方法,其特征在于,所述步骤3,具体包括如下步骤:
步骤301,利用BERT预训练模型提取工单文本中动态词向量,生成词向量矩阵;
步骤302,通过工单多标签分类模型对词向量矩阵进行处理,提取工单的局部语义特征和全局语义特征;
步骤303,将局部语义特征和全局语义特征进行融合处理后预测出工单的工单类型和重要程度。
4.根据权利要求1或3所述的基于自然语言的工单智能诊断方法,其特征在于,所述工单多标签分类模型的分类性能通过精确率、召回率和F1值三个评价指标进行衡量。
5.根据权利要求1所述的基于自然语言的工单智能诊断方法,其特征在于,所述步骤4,具体包括如下步骤:
步骤401,利用BERT预训练模型对工单的关键信息进行特征提取生成词向量,再进行拼接生成工单的关键信息句向量;
步骤402,基于工单的工单类型和重要程度从历史工单库中筛选出与工单关键信息句向量的相似度最高的历史工单;
步骤403,获取历史工单中对应的工单处理信息。
6.基于自然语言的工单智能诊断装置,其特征在于,包括:获取模块、预处理模块、构建模块、智能匹配模块和反馈模块,其中,
所述获取模块,用于在时间跨度内,基于不同工区的用电量以及工单数量作为第一参考值,筛选第一工单数据;用于基于月份、时段和季节的用电量以及工单数量作为第二参考值,筛选第二工单数据,其中,所述时间跨度为N年,N≥3;用于将第一工单数据和第二工单数据打乱并合并,形成最终的工单样本数据;
所述预处理模块,用于对工单样本数据进行预处理;
所述构建模块,用于基于预处理后的样本构建工单多标签分类模型,通过工单多标签分类模型预测出待测工单的工单类型和重要程度,所述工单类型为报修工单和非报修工单,所述重要程度为一般、重要、紧急三类;还用于利用TF-IDF算法提取工单的候选关键词;根据影响因素对候选关键词的评分进行调整,排序后选取评分靠前的候选关键词为最终关键词,所述影响因素包括词性特征、词长度特征和主题词特征;通过Word2Vec词向量获取最终关键词的近似词,依照近似词的近似度进行排序,选取Top-K个相近词作为文本的扩展关键词,将所述扩展关键词作为工单的关键信息;
所述智能匹配模块,用于根据工单的工单类型和重要程度从历史工单库中筛选出与工单的关键信息的相似度最高的历史工单,并从历史工单获取对应的工单处理信息;
所述反馈模块,用于将所述工单处理信息反馈至相应工作人员。
7.计算机设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的基于自然语言的工单智能诊断方法。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于自然语言的工单智能诊断方法。
CN202111609177.8A 2021-12-23 2021-12-23 基于自然语言的工单智能诊断方法、装置、设备及介质 Active CN114358014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111609177.8A CN114358014B (zh) 2021-12-23 2021-12-23 基于自然语言的工单智能诊断方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111609177.8A CN114358014B (zh) 2021-12-23 2021-12-23 基于自然语言的工单智能诊断方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN114358014A CN114358014A (zh) 2022-04-15
CN114358014B true CN114358014B (zh) 2023-08-04

Family

ID=81102309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111609177.8A Active CN114358014B (zh) 2021-12-23 2021-12-23 基于自然语言的工单智能诊断方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114358014B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840583B (zh) * 2022-06-24 2022-09-20 国网浙江省电力有限公司杭州供电公司 基于块数据构建的全景指标数据分析处理方法及系统
CN115345262B (zh) * 2022-10-18 2022-12-27 南京工业大学 基于影响分数的神经网络模型关键数据挖掘方法
CN118095794B (zh) * 2024-04-23 2024-06-25 国网辽宁省电力有限公司丹东供电公司 基于正则算法的工单信息提取方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020073530A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 客服机器人会话文本分类方法及装置、电子设备、计算机可读存储介质
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885768A (zh) * 2019-02-18 2019-06-14 中国联合网络通信集团有限公司 工单处理方法、装置及系统
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111949795A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 工单自动分类方法及装置
CN113239691A (zh) * 2021-05-11 2021-08-10 中国石油大学(华东) 一种基于主题模型的相似诉求工单筛选方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020073530A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 客服机器人会话文本分类方法及装置、电子设备、计算机可读存储介质
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Also Published As

Publication number Publication date
CN114358014A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN114358014B (zh) 基于自然语言的工单智能诊断方法、装置、设备及介质
Barberá et al. Automated text classification of news articles: A practical guide
Anastasopoulos et al. Machine learning for public administration research, with application to organizational reputation
Li et al. Text-based crude oil price forecasting: A deep learning approach
Munappy et al. Data management challenges for deep learning
US20210272040A1 (en) Systems and methods for language and speech processing with artificial intelligence
Farhadloo et al. Multi-class sentiment analysis with clustering and score representation
Weng et al. Using text classification and multiple concepts to answer e-mails
US20120203584A1 (en) System and method for identifying potential customers
Figini et al. Statistical merging of rating models
Yang et al. Automatic academic paper rating based on modularized hierarchical convolutional neural network
US20220261819A1 (en) System and method for determining and managing environmental, social, and governance (esg) perception of entities and industries through use of survey and media data
Hu et al. Monthly electricity demand forecasting using empirical mode decomposition-based state space model
Curme et al. Quantifying the diversity of news around stock market moves
Sandhu et al. Enhanced Text Mining Approach for Better Ranking System of Customer Reviews
Ladi et al. Applications of machine learning and deep learning methods for climate change mitigation and adaptation
Gong et al. Climate change attention and carbon futures return prediction
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
Zhang et al. Enabling rapid large-scale seismic bridge vulnerability assessment through artificial intelligence
CN111625578B (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
Issam et al. Financial sentiment analysis of tweets based on deep learning approach
KR20210001625A (ko) 뉴스 기사의 감성 정보 레이블링에 기초한 기업 부실 정보 서비스 제공 방법 및 그 장치
Ichinose et al. Stock market prediction from news on the Web and a new evaluation approach in trading
KR20210001649A (ko) 기업 부실 예측 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant