CN112667812A - 供电服务客户电量电费诉求识别方法 - Google Patents
供电服务客户电量电费诉求识别方法 Download PDFInfo
- Publication number
- CN112667812A CN112667812A CN202011614764.1A CN202011614764A CN112667812A CN 112667812 A CN112667812 A CN 112667812A CN 202011614764 A CN202011614764 A CN 202011614764A CN 112667812 A CN112667812 A CN 112667812A
- Authority
- CN
- China
- Prior art keywords
- text
- samples
- identifying
- power supply
- appeal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000005259 measurement Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 7
- 238000013139 quantization Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000007635 classification algorithm Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001939 inductive effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种供电服务客户电量电费诉求识别方法。所述基于文本相似度度量的供电服务客户电量电费诉求识别方法包括以下步骤:S1:文本预处理:将工单中的文本进行文本分词及文本量化,对文本长内容按照规则进行切分,剔除停用词;通过文本预处理形成专业词库和同义词库,用于提高对新数据进行分词的准确性和有效性;S2:余弦相似度算法:在全量样本中随机选择一万条样本作为训练样本和测试样本,在全量样本中随机选择一万条样本。本发明提供的基于文本相似度度量的供电服务客户电量电费诉求识别方法具有能够自动进行分类识别、大大降低了人工、识别效率高的优点。
Description
技术领域
本发明涉及供电服务技术领域,尤其涉及一种供电服务客户电量电费诉求识别方法。
背景技术
供电服务是电力经营机制中的一个重要环节,是电力安全的保证.是电力生产部门与客户之间的特殊纽带。
现有的供电服务客户电量电费诉求大多采用人工进行逐条进行阅读分类,工作量较大、且易出错。
因此,有必要提供一种新的基于文本相似度度量的供电服务客户电量电费诉求识别方法解决上述技术问题。
发明内容
本发明解决的技术问题是提供一种具有能够自动进行分类识别、大大降低了人工、识别效率高的基于文本相似度度量的供电服务客户电量电费诉求识别方法。
为解决上述技术问题,本发明提供的基于文本相似度度量的供电服务客户电量电费诉求识别方法包括以下步骤:
S1:文本预处理:将工单中的文本进行文本分词及文本量化,对文本长内容按照规则进行切分,剔除停用词;通过文本预处理形成专业词库和同义词库,用于提高对新数据进行分词的准确性和有效性;
S2:余弦相似度算法:在全量样本中随机选择一万条样本作为训练样本和测试样本,在全量样本中随机选择一万条样本,依据余弦相似度算法识别工单中包含的客户诉求,结合业务知识及逻辑,定义各个主题的业务意义,形成客户诉求热点体系表;
S3:自动化文本分类:根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,同时结合包含多户停电诉求主题的其他工单进行丰富词库,最终形成各个诉求主题分别对应各自词库;之后结合分类算法对全量客服工单实现自动分类,以及当新的工单数据产生之后。
优选的,所述S1中,停用词包括对文本分析无影响的语气助词、量大且无效的词汇、标点符号。
优选的,所述S3中,根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,如停电诉求主题对应的词库包括处理、导致、电话、反映、核查、来电和要求。
优选的,所述S3中结合分类算法,对新产生的工单数据进行分类,用于识别客户诉求。
优选的,所述S1中,采用调用封存的jar包,所述jar包中通过开发的java程序一方面实现分词工具的调用,在调用ICTCLAS分词工具,用于保证分词结果准确和有效性,所述jar包中加入电力行业专业词库和同义词库。
优选的,所述jar包中加入电力行业专业词库和同义词库,如专业词库中专业词三相不平衡、三相负荷、三相平衡统一定义为同义词三相问题,专业词库中专业词时间不要这么长、时间过长、时间跨度长、时间太长、时间长统一定义为同义词时间过长。
与相关技术相比较,本发明提供的基于文本相似度度量的供电服务客户电量电费诉求识别方法具有如下有益效果:
本发明提供供电服务客户电量电费诉求识别方法,通过对文件进行预处理然后再进行余弦相似度算法形成客户诉求热点体系表并最终形成自动化文本,能够快速有效的对客户电量电费诉求进行识别,且通过将专业词同一定义为一类同义词,方便了对客户电量电费诉求进行分类查阅。
具体实施方式
下面结合实施方式对本发明作进一步说明。
基于文本相似度度量的供电服务客户电量电费诉求识别方法包括以下步骤:
S1:文本预处理:将工单中的文本进行文本分词及文本量化,对文本长内容按照规则进行切分,剔除停用词;通过文本预处理形成专业词库和同义词库,用于提高对新数据进行分词的准确性和有效性;
S2:余弦相似度算法:在全量样本中随机选择一万条样本作为训练样本和测试样本,在全量样本中随机选择一万条样本,依据余弦相似度算法识别工单中包含的客户诉求,结合业务知识及逻辑,定义各个主题的业务意义,形成客户诉求热点体系表;
S3:自动化文本分类:根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,同时结合包含多户停电诉求主题的其他工单进行丰富词库,最终形成各个诉求主题分别对应各自词库;之后结合分类算法对全量客服工单实现自动分类,以及当新的工单数据产生之后。
优选的,所述S1中,停用词包括对文本分析无影响的语气助词、量大且无效的词汇、标点符号。
优选的,所述S3中,根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,如停电诉求主题对应的词库包括处理、导致、电话、反映、核查、来电和要求。
优选的,所述S3中结合分类算法,对新产生的工单数据进行分类,用于识别客户诉求。
优选的,所述S1中,采用调用封存的jar包,所述jar包中通过开发的java程序一方面实现分词工具的调用,在调用ICTCLAS分词工具,用于保证分词结果准确和有效性,所述jar包中加入电力行业专业词库和同义词库。
优选的,所述jar包中加入电力行业专业词库和同义词库,如专业词库中专业词三相不平衡、三相负荷、三相平衡统一定义为同义词三相问题,专业词库中专业词时间不要这么长、时间过长、时间跨度长、时间太长、时间长统一定义为同义词时间过长。
与相关技术相比较,本发明提供的基于文本相似度度量的供电服务客户电量电费诉求识别方法具有如下有益效果:
本发明提供供电服务客户电量电费诉求识别方法,供电服务客户电量电费诉求识别方法,通过对文件进行预处理然后再进行余弦相似度算法形成客户诉求热点体系表并最终形成自动化文本,能够快速有效的对客户电量电费诉求进行识别,且通过将专业词同一定义为一类同义词,方便了对客户电量电费诉求进行分类查阅。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.供电服务客户电量电费诉求识别方法,其特征在于,包括以下步骤:
S1:文本预处理:将工单中的文本进行文本分词及文本量化,对文本长内容按照规则进行切分,剔除停用词;通过文本预处理形成专业词库和同义词库,用于提高对新数据进行分词的准确性和有效性;
S2:余弦相似度算法:在全量样本中随机选择一万条样本作为训练样本和测试样本,在全量样本中随机选择一万条样本,依据余弦相似度算法识别工单中包含的客户诉求,结合业务知识及逻辑,定义各个主题的业务意义,形成客户诉求热点体系表;
S3:自动化文本分类:根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,同时结合包含多户停电诉求主题的其他工单进行丰富词库,最终形成各个诉求主题分别对应各自词库;之后结合分类算法对全量客服工单实现自动分类,以及当新的工单数据产生之后。
2.根据权利要求1所述的基于文本相似度度量的供电服务客户电量电费诉求识别方法,其特征在于,所述S1中,停用词包括对文本分析无影响的语气助词、量大且无效的词汇、标点符号。
3.根据权利要求1所述的基于文本相似度度量的供电服务客户电量电费诉求识别方法,其特征在于,所述S3中,根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,如停电诉求主题对应的词库包括处理、导致、电话、反映、核查、来电和要求。
4.根据权利要求1所述的基于文本相似度度量的供电服务客户电量电费诉求识别方法,其特征在于,所述S3中结合分类算法,对新产生的工单数据进行分类,用于识别客户诉求。
5.根据权利要求1所述的基于文本相似度度量的供电服务客户电量电费诉求识别方法,其特征在于,所述S1中,采用调用封存的jar包,所述jar包中通过开发的java程序一方面实现分词工具的调用,在调用ICTCLAS分词工具,用于保证分词结果准确和有效性,所述jar包中加入电力行业专业词库和同义词库。
6.根据权利要求5所述的基于文本相似度度量的供电服务客户电量电费诉求识别方法,其特征在于,所述jar包中加入电力行业专业词库和同义词库,如专业词库中专业词三相不平衡、三相负荷、三相平衡统一定义为同义词三相问题,专业词库中专业词时间不要这么长、时间过长、时间跨度长、时间太长、时间长统一定义为同义词时间过长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011614764.1A CN112667812A (zh) | 2020-12-30 | 2020-12-30 | 供电服务客户电量电费诉求识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011614764.1A CN112667812A (zh) | 2020-12-30 | 2020-12-30 | 供电服务客户电量电费诉求识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667812A true CN112667812A (zh) | 2021-04-16 |
Family
ID=75411269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011614764.1A Pending CN112667812A (zh) | 2020-12-30 | 2020-12-30 | 供电服务客户电量电费诉求识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667812A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要系统 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN109726283A (zh) * | 2018-12-03 | 2019-05-07 | 国家电网有限公司客户服务中心 | 一种基于文本相似度度量的供电服务客户诉求识别方法 |
WO2019214133A1 (zh) * | 2018-05-08 | 2019-11-14 | 华南理工大学 | 一种大规模客户投诉数据自动分类方法 |
-
2020
- 2020-12-30 CN CN202011614764.1A patent/CN112667812A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要系统 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
WO2019214133A1 (zh) * | 2018-05-08 | 2019-11-14 | 华南理工大学 | 一种大规模客户投诉数据自动分类方法 |
CN109726283A (zh) * | 2018-12-03 | 2019-05-07 | 国家电网有限公司客户服务中心 | 一种基于文本相似度度量的供电服务客户诉求识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389418A (zh) | 基于lda模型的供电服务客户诉求识别方法 | |
Bhaskar et al. | Enhanced sentiment analysis of informal textual communication in social media by considering objective words and intensifiers | |
WO2020082609A1 (zh) | 利用深度学习模型的证券研报分析方法及装置 | |
CN114925260A (zh) | 一种智能招投标信息契合方法 | |
CN112667812A (zh) | 供电服务客户电量电费诉求识别方法 | |
CN109726283A (zh) | 一种基于文本相似度度量的供电服务客户诉求识别方法 | |
CN112200465A (zh) | 基于多媒体信息智能分析的电力ai方法及系统 | |
CN116452054A (zh) | 一种电力系统物资抽检管理方法和装置 | |
CN115333232A (zh) | 变压器启停状态异常的在线监测方法及相关装置 | |
CN115660451A (zh) | 基于rpa的供应商风险预警方法、装置、设备及介质 | |
CN114627419A (zh) | 基于多应用场景的视频质检方法、装置、设备及存储介质 | |
CN110134785A (zh) | 论坛文章的管理方法、装置、存储介质及设备 | |
CN114548825B (zh) | 投诉工单失真检测方法、装置、设备及存储介质 | |
Lindawati et al. | Good Corporate Governance Moderate Environmental Performance And Disclosure Corporate Social Responsibility On Economic Performance | |
CN117312295B (zh) | 一种电网物资抽检数据治理的方法、装置、介质及设备 | |
Li et al. | Traffic characterization for integrated services | |
CN112711586A (zh) | 一种基于云服务的智能数据分析管理方法及系统 | |
CN115760381A (zh) | 风险评估辅助结果的生成方法及其系统、计算机设备 | |
Zhang et al. | Research and Application of Intelligent Order Making System for Electric Power Customer Service | |
CN117785944A (zh) | 一种数据提取方法、装置、设备以及介质 | |
Miclea | Firm-Level Total Factor Productivity Convergence in German Electricity and Gas Industry | |
CN115271686A (zh) | 政务数据智能审核方法及装置 | |
CN117076657A (zh) | 一种基于深度学习的电力中文文本挖掘方法及装置 | |
CN115762522A (zh) | 操作票成票方法、装置、计算机设备和存储介质 | |
Westbrook et al. | Terminology Standards for Materials Databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210416 |