CN111159349A - 基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备 - Google Patents
基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN111159349A CN111159349A CN201911395988.5A CN201911395988A CN111159349A CN 111159349 A CN111159349 A CN 111159349A CN 201911395988 A CN201911395988 A CN 201911395988A CN 111159349 A CN111159349 A CN 111159349A
- Authority
- CN
- China
- Prior art keywords
- automatic classification
- power demand
- word
- classification model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005516 engineering process Methods 0.000 title claims abstract description 18
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 238000003058 natural language processing Methods 0.000 title claims description 16
- 238000013145 classification model Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 25
- 238000004140 cleaning Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005406 washing Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 7
- 238000012706 support-vector machine Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
- G06Q30/016—After-sales
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及电力数据处理技术,为电力诉求工单自动分类方法、系统、存储介质及计算机设备,其方法:基于业务经验,结合业务需求,梳理符合实际需要的分类知识框架;对历史客户诉求文本数据进行样本标注,形成训练样本库;文本清洗;构建电力诉求专业词库,实现未登录词的准确分词;利用TF‑IDF算法实现词向量化,得到各个词的特征权重;采用信息增益筛选有效特征;利用SVM算法构建、优化初始的电力诉求工单自动分类模型,确定模型的最佳参数,得到最终的电力诉求工单自动分类模型;利用最终模型识别待判诉求工单,得到电力诉求工单的自动分类结果。本发明实现了诉求工单高效、精准分类,规避由于业务人员经验及水平差异导致的分类不一致的问题。
Description
技术领域
本发明涉及电力数据处理技术,具体为基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备。
背景技术
传统的投诉处理分析方式是由人工根据投诉受理时的投诉分类进行归类,并对投诉文本逐一分析,这种方法存在如下不足:
(1)投诉受理分类不准确:受理人员在受理投诉,对投诉进行分类时,若对客户的诉求内容存在理解上的偏差,将导致分类不准确,增加投诉处理判断的难度,并给数据统计带来偏差。
(2)投诉内容分析难:数据量大、文字多,需要对投诉文本的内容逐个采用人工分析的方式进行分析,处理过程繁琐,人力成本高,并对热点分析不透彻,难以发现引发投诉的根本原因。
(3)分析效率低:由于投诉工单的文本量大,工单分析时间长。
鉴于现有技术中,诉求工单分类工作由人工执行,存在分类规范不一致、分类不准确、耗费人力、效率低下等的问题,本发明研究文本内容分类算法,对客户投诉的文本内容进行智能化分析,研究引发客户投诉的根本原因及投诉客户的行为。并通过扩大提升服务面,转被动服务为主动服务,提升客户满意度及电力企业形象,进一步提升企业竞争力和持续发展能力。
发明内容
本发明提出基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备,提高了对客户诉求的分类精度与分类效率,避免了人工分类而导致的工单分类不一致的问题。
根据本发明实施例的基于自然语言处理技术的电力诉求工单自动分类方法,包括步骤:
S1、构建分类知识框架,基于业务经验,结合业务需求,梳理符合实际需要的分类知识框架;
S2、标注训练数据,基于分类知识框架,对历史客户诉求文本数据进行样本标注,形成训练样本库;
S3、文本清洗,保留有效的文本特征;
S4、梳理电力业务与客户诉求情况,构建电力诉求专业词库,结合分词算法,实现未登录词的准确分词;
S5、利用TF-IDF算法实现词向量化,得到各个词的特征权重;
S6、基于信息论采用信息增益筛选有效特征,实现有效降维;
S7、利用SVM算法构建初始的电力诉求工单自动分类模型,将转化成词向量的文本数据输入到SVM算法中,采用K折交叉验证,不断迭代初始的电力诉求工单自动分类模型,根据模型的分类准确率,调整模型的各项参数,确定模型的最佳参数,得到最终的电力诉求工单自动分类模型;
S8、利用最终的电力诉求工单自动分类模型识别待判诉求工单,得到电力诉求工单的自动分类结果。
根据本发明实施例的基于自然语言处理技术的电力诉求工单自动分类系统,包括:
分类知识框架构建单元,用于基于业务经验,结合业务需求,梳理符合实际需要的分类知识框架;
训练数据标注单元,用于基于分类知识框架,对历史客户诉求文本数据进行样本标注,形成训练样本库;
文本清洗单元,用于对文本进行清洗,保留有效的文本特征;
专业词库构建单元,用于梳理电力业务与客户诉求情况,构建电力诉求专业词库,结合分词算法,实现未登录词的准确分词;
词向量化单元,利用TF-IDF算法实现词向量化,得到各个词的特征权重;
特征筛选单元,用于基于信息论采用信息增益筛选有效特征,实现有效降维;
模型构建单元,利用SVM算法构建初始的电力诉求工单自动分类模型,将转化成词向量的文本数据输入到SVM算法中,采用K折交叉验证,不断迭代初始的电力诉求工单自动分类模型,根据模型的分类准确率,调整模型的各项参数,确定模型的最佳参数,得到最终的电力诉求工单自动分类模型;
分类单元,利用最终的电力诉求工单自动分类模型识别待判诉求工单,得到电力诉求工单的自动分类结果。
根据本发明的存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现本发明分类方法的步骤。
根据本发明的计算机设备,包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现本发明的分类方法。
与现有技术相比,本发明取得的有益效果主要在于:基于自然语言处理技术和机器学习技术,对大量的历史诉求工单数据进行分析,构建随求文本分类模型,实现诉求工单的自动分类,有效提升分类效率与精度,解放了劳动力,同时规避了由于人员业务经验及水平差异而导致的分类不一致的问题。
附图说明
图1为本发明实施例的电力诉求工单自动分类方法的流程示意图;
图2为本发明实施例的分词过程示意图;
图3为本发明实施例的文本向量化过程示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施例及附图予以说明。
请参照图1至图3,本实施例中,基于自然语言处理技术的电力诉求工单自动分类方法,包括步骤:
S1、构建分类知识框架,基于业务专家丰富的业务经验,结合业务需求,梳理符合实际需要的分类知识框架。
合理搭建分类知识框架是文本分类应用的关键,决定了分类的结果是否有助于了解投诉现状并应用于服务品质的提升,故基于业务专家丰富的业务经验,结合业务需求,梳理符合实际需要的分类知识框架。本实施例对分类知识框架的梳理如下:
责任部门:营销、运检,共2类;
专业分类:电压质量、抢修服务、供电质量、抄核收、用电变更、营业厅等23类;
诉求事件:抢修、频繁停电、催费、频繁停电、分时电价、开票、新装、移换表/表箱、表计等122类;
差错点:电压低、服务态度差_K、频繁停电、截留电费、拒绝/推诿受理_K、拒绝开具电费发票等172类。
S2、标注训练数据,基于分类知识框架,对历史客户诉求文本数据进行样本标注,形成训练样本库。
本实施例抽取近三年的历史客户诉求文本数据,利用其中的80%数据,通过业务专家进行人工标注,形成训练样本库。
S3、利用正则表达式进行文本清洗,保留有效的文本特征。
文本清洗的工作是必不可少的,可以有效减少词汇噪音,保留更有效的文本特征,获得更好的文本特性,使得分类模型达到更高的精度。具体方法如下:
S31、去除标点符号:由于标点符号在文本数据中不添加任何额外的信息,因此删除所有标点符号将有助于减少训练数据的大小,提升模型的训练性能。
S32、去除停用词、稀缺词:停用词是指词语的信息对模型的分类没有帮助甚至会带来一定误导、应该从文本数据中删除的词汇。本实施例收集投诉工单中的介词、问候语等词汇创建停用词库,根据停用词库去除投诉文本(也叫投诉工单、诉求工单)中相应的停用词,达到清洗文本的目的;稀缺词是指只存在于少数投诉文本里的词汇。低频词汇因其稀有性,对模型性能的提升极其有限,可以将稀缺词替换为其他同义词以提高词频,或者直接删除稀缺词以提升模型的迭代效率。
S33、消歧转换:对投诉文本中的一些同音错别字、近似音错别字进行消歧转换,例如:对“陪产”、“赔长”等词进行消歧处理转换,转换为“赔偿”。
S34、去除习惯用语:投诉文本中类似“客户来电反映”、“请供电公司及时处理”,是不同类别文本的通用文本,词频高但对于分类没有帮助,应当去除以便提升模型的迭代效率。
S4、文本分词,请参照图2,梳理电力业务与客户诉求情况,构建电力诉求专业词库,结合分词算法,实现未登录词的准确分词。
由于词是最小的能够独立运用的语言单位,而中文文本不像英文,中文文本的词与词之间没有任何空格之类的显示标志指示词的边界。因此,文本分词是中文自然语言处理技术的基础环节,文本分词的效果好坏,决定了后续文本分类模型的性能优劣。
中文分词需利用汉语自动分词包,如jieba、HanLP等,这些分词包都采用基于大规模训练语料的统计方法,诉求工单中有但语料库里没有的词叫未登录词,未登录词通常无法被分词包正确分出来;而电网是专业领域性很强的行业,含有大量外部语料库里不存在的未登录词,因此本发明构建专业词库,结合分词算法,借助人为经验,从投诉工单提炼并补充语料库中缺少的专业词汇,以提升未登录词的分词准确性,解决现有语料库专业词汇量存在不足的问题。本实施例构建了如“运检、抄核收、业扩报装”等600个未登录词的专业词库,以提高模型精度;这些人工构造的词典,会不断搜集并存储起来。
S5、词向量化,请参照图3,利用TF-IDF算法实现词向量化,得到各个词的特征权重。
特征权重用于衡量某个特征项在文档表示(如投诉文本、投诉工单)中的重要程度或者区分能力的强弱。特征权重计算的一般方法是利用文本的统计信息,主要是词频,给特征项赋予一定的权重。TF-IDF算法从词频和倒排文档频度(也叫逆文本频率)两个指标衡量某个特征项的权重大小。词频表示词语在投诉工单中出现的次数,倒排文档频度用来衡量词汇在所有投诉工单中出现的占比,某词汇在所有投诉工单中出现的比例越高,其倒排文档频度越低,词汇权重也越低,如“客户,公司,的”这样的词汇。本发明基于TF-IDF算法的特点,采用该算法优化权重赋值方式。
TF-IDF是Term Frequency-Inverse Document Frequency的缩写,即“词频-逆文本频率”,它由词频TF和逆文本频率IDF两部分组成。词频TF即投诉文本中各个词的出现频率;而逆文本频率IDF反应了一个词在所有投诉文本中出现的频率。词x的逆文本频率IDF的基本公式如下:
其中,N代表诉求工单的总数,而N(x)代表包含词x的诉求工单总数。在特殊的情况下,若某一个生僻词在语料库中没有,此时分母为0,IDF没有意义,所以我们需要对IDF进行一些平滑处理,没有出现的词也可以得到一个合适的IDF值,平滑处理后得到的IDF计算公式为:
可以得到词x的TF-IDF值的计算公式为:
TF-IDF(x)=TF(x)*IDF(x)
其中,TF-IDF(x)表示词x的TF-IDF值,TF(x)表示词x在当前诉求工单中的词频,IDF(x)为上述平滑处理后的IDF值。
S6、特征筛选,基于信息论采用信息增益筛选有效特征,实现有效降维,避免维数灾难影响模型效率。
词向量化后,用来表示文本的向量有上万个特征,特征数量太多可能会导致维数灾难,影响模型效率。因此需要筛选出有效特征进行保留,去除无关特征以提升模型效果。本发明采用信息增益方法对特征进行有效筛选,信息增益法依据某特征项为整个分类所能提供的信息量多少来衡量该特征项的重要程度,从而决定对该特征项的取舍。
“信息熵”(information entropy)是度量样本存量最常用的一种指标,假定当前样本集D中第k类样本所占的比例为pk(k=1,2,…,|y|),则当前样本集D的信息熵定义为:
假定特征a有V个可能取值{a1,a2,a3,...,aV},若使用特征a对当前样本集进行划分,则会尝试V个分支节点,其中第v个分支节点包含了当前样本集D中所有在特征a上取值为aV的样本,记为Dv,根据上式计算出Dv的信息熵;再考虑到不同的分支节点所包含的样本数不同,给分支节点赋予权重|Dv|/|D|,可计算出特征a对样本集D进行划分所获得的信息增益(information gain):
S7、利用SVM算法构建初始的电力诉求工单自动分类模型,将转化成词向量的文本数据,输入到SVM算法中,采用K折交叉验证,不断迭代初始的电力诉求工单自动分类模型,根据模型的分类准确率,调整模型的各项参数,如损失函数、惩罚项系数等,确定模型的最佳参数,得到最终的电力诉求工单自动分类模型。具体如下:
S71初始化电力诉求工单自动分类模型,得到初始的电力诉求工单自动分类模型;初始的电力诉求工单自动分类模型即待训练的电力诉求工单自动分类模型;
S72、获取训练集,通过训练集训练初始的电力诉求工单自动分类模型,得到已训练的电力诉求工单自动分类模型,所述训练集包括80%的训练样本数据;
S73、获取测试集,通过测试集测试已训练的电力诉求工单自动分类模型,判断已训练的电力诉求工单自动分类模型的自动分类结果的准确率是否达到预设准确值,若是,则得到最终的电力诉求工单自动分类模型,否则使用训练集继续训练直到得到最终的电力诉求工单自动分类模型,所述测试集包括20%的训练样本数据。
从上述描述可知,为了避免机器学习过程中经常出现将个别训练样本的特异性当作整个数据集的共性,表现在训练结果的准确度非常高,而实际应用中对后期数据进行预测的准确率显著低于训练结果,即过拟合现象,故而建模过程中需要对样本数据进行划分,其中训练集占总体样本的80%,剩余20%的样本数据作为测试集,依据大数定理在样本足够多的情况下不会改变训练集和测试集的数据分布,因此验证集上预测准确度能够更好的衡量整个模型的准确情况。
支持向量机(Support Vector Machine,SVM)基本想法就是基于训练集和样本空间中找到一个最好的划分超平面方式,将样本分割开来,首先要知道什么样的划分法才能称为“最”好划分。
在样本空间中,划分超平面可用ωTx+b=0表示,记为超平面(ω,b),其中,样本ω=(ω1,ω2,...ω3)为法向量,b为位移项,决定超平面与原点之间的距离。样本空间中任意点x到超平面的几何间隔可写为:
假设超平面(ω,b)能将训练样本正确分类,即对(xi,yi),若yi=+1,则有ωTxi+b≥0,若yi=-1,则有ωTxi+b≤0。令:
距离超平面最近的几个训练样本使上式等号成立,称其为支撑向量(supportvector),两个异类支持向量到超平面距离之和为:
求解合适的参数ω,b,以正确划分超平面。求得几何间隔最大的最优分离超平面,表达为数学公式即为:
s.t.yi(ωTxi+b)>=1,i=1,2,...m
为了方便计算,仅需计算最大化||ω||-1,等价于最小化||ω||2,将其转化为:
s.t.yi(ωTxi+b)>=1,i=1,2,...m
其中ωT为法向量ω的转置,b为位移项;得到以最优分离超平面划分的待训练诉求工单自动分类模型,作为初始的诉求工单自动分类模型
S8、利用最终的电力诉求工单自动分类模型识别待判诉求工单,得到电力诉求工单的自动分类结果。
在本实施例中,对超参数的设置的目的主要是为了找到SVM模型的最优参数。SVM模型的主要参数有分类决策multi_class、正则化参数penalty、是否用对偶形式优化dual、核函数kernel、样本权重class_weight等。
根据实验,将上述参数设定为:multi_class=’ovr’,penalty=L2,dual=False,kernel=linear,class_weight=balance。
在上述最优参数设置的情况下,本模型的分类效率为0.2秒一条诉求工单。分类准确率已到达业务应用标准,对应四级分类,共四个模型,并根据数据验证,可得准确率在83%-91%左右,具体如下表1:
表1
类别 | 准确率 |
责任部门 | 91.20% |
专业分类 | 87.60% |
诉求事件 | 83.40% |
诉求点 | 87.50% |
综上所述,本发明基于自然语言处理技术的电力诉求工单自动分类方法,通过专家的业务梳理构建了分类的基础知识框架,基于分类知识框架进行训练样本的标注,同时进行文本清洗、文本分词、构建专业词库、文本向量化及特征筛选等数据预处理工作,最后利用SVM算法构建了电力诉求工单自动分类模型,实现客户诉求工单的高效且精准的自动分类,同时规避由于业务人员经验及水平差异导致的分类不一致的问题。
基于与上述分类方法同一构思,本发明提出了基于自然语言处理技术的电力诉求工单自动分类系统,包括:
分类知识框架构建单元,用于基于业务经验,结合业务需求,梳理符合实际需要的分类知识框架,以实现上述步骤S1;
训练数据标注单元,用于基于分类知识框架,对历史客户诉求文本数据进行样本标注,形成训练样本库,以实现上述步骤S2;
文本清洗单元,用于对文本进行清洗,保留有效的文本特征,以实现上述步骤S3;
专业词库构建单元,用于梳理电力业务与客户诉求情况,构建电力诉求专业词库,结合分词算法,实现未登录词的准确分词,以实现上述步骤S4;
词向量化单元,利用TF-IDF算法实现词向量化,得到各个词的特征权重,以实现上述步骤S5;
特征筛选单元,用于基于信息论采用信息增益筛选有效特征,实现有效降维,以实现上述步骤S6;
模型构建单元,利用SVM算法构建初始的电力诉求工单自动分类模型,将转化成词向量的文本数据输入到SVM算法中,采用K折交叉验证,不断迭代初始的电力诉求工单自动分类模型,根据模型的分类准确率,调整模型的各项参数,确定模型的最佳参数,得到最终的电力诉求工单自动分类模型,以实现上述步骤S7;
分类单元,利用最终的电力诉求工单自动分类模型识别待判诉求工单,得到电力诉求工单的自动分类结果,以实现上述步骤S8。
本发明还提出了存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现本发明分类方法的步骤。
本发明还提出了计算机设备,包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现本发明的分类方法。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.基于自然语言处理技术的电力诉求工单自动分类方法,其特征在于,包括步骤:
S1、构建分类知识框架,基于业务经验,结合业务需求,梳理符合实际需要的分类知识框架;
S2、标注训练数据,基于分类知识框架,对历史客户诉求文本数据进行样本标注,形成训练样本库;
S3、文本清洗,保留有效的文本特征;
S4、梳理电力业务与客户诉求情况,构建电力诉求专业词库,结合分词算法,实现未登录词的准确分词;
S5、利用TF-IDF算法实现词向量化,得到各个词的特征权重;
S6、基于信息论采用信息增益筛选有效特征,实现有效降维;
S7、利用SVM算法构建初始的电力诉求工单自动分类模型,将转化成词向量的文本数据输入到SVM算法中,采用K折交叉验证,不断迭代初始的电力诉求工单自动分类模型,根据模型的分类准确率,调整模型的各项参数,确定模型的最佳参数,得到最终的电力诉求工单自动分类模型;
S8、利用最终的电力诉求工单自动分类模型识别待判诉求工单,得到电力诉求工单的自动分类结果。
2.根据权利要求1所述的基于自然语言处理技术的电力诉求工单自动分类方法,其特征在于,步骤S7构建初始的电力诉求工单自动分类模型,具体如下:
初始化电力诉求工单自动分类模型,在样本空间中,划分超平面用ωTx+b=0表示,记为超平面(ω,b),其中样本ω=(ω1,ω2,...ω3)为法向量,b为决定超平面与原点之间距离的位移项;
样本空间中任意点x到超平面的几何间隔为:
假设超平面(ω,b)能将训练样本正确分类,即对(xi,yi),若yi=+1,则有ωTxi+b≥0,若yi=-1,则有ωTxi+b≤0,令:
距离超平面最近的几个训练样本使上式等号成立,称其为支撑向量,两个异类支持向量到超平面距离之和为:
求解合适的参数ω,b,以正确划分超平面;求得几何间隔最大的最优分离超平面为:
s.t.yi(ωTxi+b)>=1,i=1,2,...m
其中ωT为法向量ω的转置,b为位移项;得到以最优分离超平面划分的待训练诉求工单自动分类模型,作为初始的诉求工单自动分类模型。
3.根据权利要求1所述的基于自然语言处理技术的电力诉求工单自动分类方法,其特征在于,步骤S7得到最终的电力诉求工单自动分类模型,包括如下步骤:
S71、初始化电力诉求工单自动分类模型,得到初始的电力诉求工单自动分类模型;
S72、获取训练集,通过训练集训练初始的电力诉求工单自动分类模型,得到已训练的电力诉求工单自动分类模型;
S73、获取测试集,通过测试集测试已训练的电力诉求工单自动分类模型,判断已训练的电力诉求工单自动分类模型的自动分类结果的准确率是否达到预设准确值,若是,则得到最终的电力诉求工单自动分类模型,否则使用训练集继续训练直到得到最终的电力诉求工单自动分类模型。
5.根据权利要求1所述的基于自然语言处理技术的电力诉求工单自动分类方法,其特征在于,所述未登录词为诉求工单中有但语料库里没有的词;步骤S4构建专业词库,结合分词算法,借助人为经验,从诉求工单提炼并补充语料库中缺少的专业词汇,以提升未登录词的分词准确性。
6.根据权利要求1所述的基于自然语言处理技术的电力诉求工单自动分类方法,其特征在于,步骤S3中文本清洗包括:去除标点符号;去除停用词、稀缺词;消歧转换;以及去除习惯用语。
7.基于自然语言处理技术的电力诉求工单自动分类系统,其特征在于,包括:
分类知识框架构建单元,用于基于业务经验,结合业务需求,梳理符合实际需要的分类知识框架;
训练数据标注单元,用于基于分类知识框架,对历史客户诉求文本数据进行样本标注,形成训练样本库;
文本清洗单元,用于对文本进行清洗,保留有效的文本特征;
专业词库构建单元,用于梳理电力业务与客户诉求情况,构建电力诉求专业词库,结合分词算法,实现未登录词的准确分词;
词向量化单元,利用TF-IDF算法实现词向量化,得到各个词的特征权重;
特征筛选单元,用于基于信息论采用信息增益筛选有效特征,实现有效降维;
模型构建单元,利用SVM算法构建初始的电力诉求工单自动分类模型,将转化成词向量的文本数据输入到SVM算法中,采用K折交叉验证,不断迭代初始的电力诉求工单自动分类模型,根据模型的分类准确率,调整模型的各项参数,确定模型的最佳参数,得到最终的电力诉求工单自动分类模型;
分类单元,利用最终的电力诉求工单自动分类模型识别待判诉求工单,得到电力诉求工单的自动分类结果。
8.根据权利要求7所述的基于自然语言处理技术的电力诉求工单自动分类系统,其特征在于,所述模型构建单元构建初始的电力诉求工单自动分类模型,具体如下:
初始化电力诉求工单自动分类模型,在样本空间中,划分超平面用ωTx+b=0表示,记为超平面(ω,b),其中样本ω=(ω1,ω2,...ω3)为法向量,b为决定超平面与原点之间距离的位移项;
样本空间中任意点x到超平面的几何间隔为:
假设超平面(ω,b)能将训练样本正确分类,即对(xi,yi),若yi=+1,则有ωTxi+b≥0,若yi=-1,则有ωTxi+b≤0,令:
距离超平面最近的几个训练样本使上式等号成立,称其为支撑向量,两个异类支持向量到超平面距离之和为:
求解合适的参数ω,b,以正确划分超平面;求得几何间隔最大的最优分离超平面为:
s.t.yi(ωTxi+b)>=1,i=1,2,...m
其中ωT为法向量ω的转置,b为位移项;得到以最优分离超平面划分的待训练诉求工单自动分类模型,作为初始的诉求工单自动分类模型。
9.存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-6中任一项所述分类方法的步骤。
10.计算机设备,包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时,实现权利要求1-6中任一项所述分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395988.5A CN111159349A (zh) | 2019-12-30 | 2019-12-30 | 基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395988.5A CN111159349A (zh) | 2019-12-30 | 2019-12-30 | 基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111159349A true CN111159349A (zh) | 2020-05-15 |
Family
ID=70559157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911395988.5A Pending CN111159349A (zh) | 2019-12-30 | 2019-12-30 | 基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159349A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460164A (zh) * | 2020-05-22 | 2020-07-28 | 南京大学 | 一种基于预训练语言模型的电信工单智能判障方法 |
CN111667306A (zh) * | 2020-05-27 | 2020-09-15 | 重庆邮电大学 | 面向定制化生产的客户需求识别方法、系统及终端 |
CN111737421A (zh) * | 2020-08-07 | 2020-10-02 | 杭州六棱镜知识产权科技有限公司 | 一种知识产权大数据情报检索系统及存储介质 |
CN112258235A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种电力营销稽核新业务发现方法及系统 |
CN112419096A (zh) * | 2020-12-04 | 2021-02-26 | 国网江苏省电力有限公司南京供电分公司 | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112699944A (zh) * | 2020-12-31 | 2021-04-23 | 中国银联股份有限公司 | 退单处理模型训练方法、处理方法、装置、设备及介质 |
CN113239691A (zh) * | 2021-05-11 | 2021-08-10 | 中国石油大学(华东) | 一种基于主题模型的相似诉求工单筛选方法和装置 |
CN113672725A (zh) * | 2021-05-11 | 2021-11-19 | 中国石油大学(华东) | 一种文本快速分类方法和装置 |
CN113836307A (zh) * | 2021-10-15 | 2021-12-24 | 国网北京市电力公司 | 一种供电服务工单热点发现方法、系统、装置及存储介质 |
CN113836898A (zh) * | 2021-09-23 | 2021-12-24 | 国网江苏省电力有限公司淮安供电分公司 | 一种电力系统自动派单方法 |
CN114281983A (zh) * | 2021-04-05 | 2022-04-05 | 北京智慧星光信息技术有限公司 | 分层结构的文本分类方法、系统、电子设备和存储介质 |
WO2023029420A1 (zh) * | 2021-08-30 | 2023-03-09 | 广东电网有限责任公司湛江供电局 | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 |
CN115809796A (zh) * | 2023-02-06 | 2023-03-17 | 佰聆数据股份有限公司 | 基于用户画像的项目智能派工方法及系统 |
CN117808251A (zh) * | 2023-12-29 | 2024-04-02 | 江苏卓易信息科技股份有限公司 | 一种基于自然语言处理的工单自动指派方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN109670167A (zh) * | 2018-10-24 | 2019-04-23 | 国网浙江省电力有限公司 | 一种基于Word2Vec的电力客服工单情感量化分析方法 |
-
2019
- 2019-12-30 CN CN201911395988.5A patent/CN111159349A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN109670167A (zh) * | 2018-10-24 | 2019-04-23 | 国网浙江省电力有限公司 | 一种基于Word2Vec的电力客服工单情感量化分析方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460164A (zh) * | 2020-05-22 | 2020-07-28 | 南京大学 | 一种基于预训练语言模型的电信工单智能判障方法 |
CN111460164B (zh) * | 2020-05-22 | 2023-11-03 | 南京大学 | 一种基于预训练语言模型的电信工单智能判障方法 |
CN111667306A (zh) * | 2020-05-27 | 2020-09-15 | 重庆邮电大学 | 面向定制化生产的客户需求识别方法、系统及终端 |
CN111737421A (zh) * | 2020-08-07 | 2020-10-02 | 杭州六棱镜知识产权科技有限公司 | 一种知识产权大数据情报检索系统及存储介质 |
CN112258235A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种电力营销稽核新业务发现方法及系统 |
CN112419096A (zh) * | 2020-12-04 | 2021-02-26 | 国网江苏省电力有限公司南京供电分公司 | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 |
CN112632965B (zh) * | 2020-12-25 | 2024-05-03 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112699944A (zh) * | 2020-12-31 | 2021-04-23 | 中国银联股份有限公司 | 退单处理模型训练方法、处理方法、装置、设备及介质 |
CN112699944B (zh) * | 2020-12-31 | 2024-04-23 | 中国银联股份有限公司 | 退单处理模型训练方法、处理方法、装置、设备及介质 |
CN114281983B (zh) * | 2021-04-05 | 2024-04-12 | 北京智慧星光信息技术有限公司 | 分层结构的文本分类方法、系统、电子设备和存储介质 |
CN114281983A (zh) * | 2021-04-05 | 2022-04-05 | 北京智慧星光信息技术有限公司 | 分层结构的文本分类方法、系统、电子设备和存储介质 |
CN113239691A (zh) * | 2021-05-11 | 2021-08-10 | 中国石油大学(华东) | 一种基于主题模型的相似诉求工单筛选方法和装置 |
CN113672725A (zh) * | 2021-05-11 | 2021-11-19 | 中国石油大学(华东) | 一种文本快速分类方法和装置 |
WO2023029420A1 (zh) * | 2021-08-30 | 2023-03-09 | 广东电网有限责任公司湛江供电局 | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 |
CN113836898A (zh) * | 2021-09-23 | 2021-12-24 | 国网江苏省电力有限公司淮安供电分公司 | 一种电力系统自动派单方法 |
CN113836307B (zh) * | 2021-10-15 | 2024-02-20 | 国网北京市电力公司 | 一种供电服务工单热点发现方法、系统、装置及存储介质 |
CN113836307A (zh) * | 2021-10-15 | 2021-12-24 | 国网北京市电力公司 | 一种供电服务工单热点发现方法、系统、装置及存储介质 |
CN115809796A (zh) * | 2023-02-06 | 2023-03-17 | 佰聆数据股份有限公司 | 基于用户画像的项目智能派工方法及系统 |
CN117808251A (zh) * | 2023-12-29 | 2024-04-02 | 江苏卓易信息科技股份有限公司 | 一种基于自然语言处理的工单自动指派方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159349A (zh) | 基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备 | |
CN110363387B (zh) | 基于大数据的画像分析方法、装置、计算机设备及存储介质 | |
CN105868178B (zh) | 一种基于短语主题建模的多文档自动摘要生成方法 | |
CN110032639A (zh) | 将语义文本数据与标签匹配的方法、装置及存储介质 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN107578270A (zh) | 一种金融标签的构建方法、装置及计算设备 | |
CN108389069A (zh) | 基于随机森林和逻辑回归的优质客户识别方法及装置 | |
CN106600039A (zh) | 一种电商商品消息推送优化方法 | |
WO2017071369A1 (zh) | 一种预测用户离网的方法和设备 | |
JPWO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN110442873A (zh) | 一种基于cbow模型的热点工单获取方法及装置 | |
CN108364191A (zh) | 基于随机森林和逻辑回归的优质客户优化识别方法及装置 | |
CN103544299B (zh) | 一种商业智能云计算系统的构建方法 | |
CN112069317A (zh) | 一种装配工时的获取方法及处理器 | |
Williams et al. | Understanding and inferring units in spreadsheets | |
CN113723747A (zh) | 分析报告生成方法、电子设备及可读存储介质 | |
CN113360647A (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN113379313A (zh) | 一种具有智能化的预防性试验作业管控系统 | |
CN110110013B (zh) | 一种基于时空属性的实体竞争关系数据挖掘方法 | |
CN111694957A (zh) | 基于图神经网络的问题单分类方法、设备及存储介质 | |
CN109255638B (zh) | 一种挖掘潜在客户的数学模型 | |
CN115828914A (zh) | 一种考虑用户属性偏好的满意度评估方法 | |
Toko et al. | Generalization for Improvement of the Reliability Score for Autocoding. | |
CN109829115A (zh) | 搜索引擎关键词优化方法 | |
CN111178038B (zh) | 一种基于潜在语义分析的文档相似度识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |