CN109214009A - 一种服务调度重复来电的工单文本语义向量分析方法 - Google Patents

一种服务调度重复来电的工单文本语义向量分析方法 Download PDF

Info

Publication number
CN109214009A
CN109214009A CN201811425209.7A CN201811425209A CN109214009A CN 109214009 A CN109214009 A CN 109214009A CN 201811425209 A CN201811425209 A CN 201811425209A CN 109214009 A CN109214009 A CN 109214009A
Authority
CN
China
Prior art keywords
work order
order text
text
incoming call
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811425209.7A
Other languages
English (en)
Inventor
李文芳
陈云龙
梁雅洁
于相洁
王倩
刘勇超
高玉华
史敏
徐光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority to CN201811425209.7A priority Critical patent/CN109214009A/zh
Publication of CN109214009A publication Critical patent/CN109214009A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Water Supply & Treatment (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种服务调度重复来电的工单文本语义向量分析方法,其包括以下步骤:(1)对客服来电进行语音识别,获取结构化工单文本信息,形成工单文本记录;(2)将结构化工单文本记录存储到数据库,形成工单文本集合;(3)从关系型数据库提取工单文本,对工单文本信息进行清洗、转换;(4)对工单文本集合建立语义向量空间,进行工单文本向量化表示;(5)对向量化后的工单建立相似度计算模型,进行相似度计算,根据计算结构确定重复来电工单;(6)将计算确定后的工单结果进行可视展示及分析。本发明能自动化获取话务内容,高效、准确地识别重复来电工单,并进行展示和分析。

Description

一种服务调度重复来电的工单文本语义向量分析方法
技术领域
本发明涉及一种服务调度重复来电的工单文本语义向量分析方法。
背景技术
随着电力行业的迅速发展带来的用电户的持续增加以及电力信息化系统建设的不断深入,电力客户话务服务已经是提升服务质量、精益化服务的重要方式。电力客户话务服务中,话务工单以文本的方式记录了用电户反映地数量庞大、内容复杂多样的用电信息。其中,尤以重复来电、多次反复反映同一用电问题的工单蕴含了重要的、用电户急需要解决的用电信息。因此,如何在工单文本中进行客户重复来电的识别及分析,准确理解反应地热点、重点用电问题是提高服务质量的关键。
然而,目前工单文本内容主要采用话务员接通来电后将话务信息理解、记录的方式获取,其中由于话务员电力业务水平及个体的差异性的原因,造成话务工单文本内容记录信息存在不完整、不一致等问题;另外,重复来电工单的识别主要采用人工逐条识别的方式进行,由于信息量巨大,内容非结构化等原因,造成效率低下、准确度低下,无法满足对热点、重点用电问题的识别需求,难以做出快速、准确的用电信息反馈,影响用电优质服务。
发明内容
针对上述问题,本发明提出一种服务调度重复来电的工单文本语义向量分析方法,自动化获取话务内容,高效、准确地识别重复来电工单,并进行展示和分析。为实现上述目的,一种服务调度重复来电的工单文本语义向量分析方法,其特征在于,包括以下步骤:
(1)对客服来电进行语音识别,获取结构化工单文本信息,形成工单文本记录;
(2)将结构化工单文本记录存储到数据库,形成工单文本集合;
(3)从关系型数据库提取工单文本,对工单文本信息进行清洗、转换;
(4)对工单文本集合建立语义向量空间,进行工单文本向量化表示;
(5)对向量化后的工单建立相似度计算模型,进行相似度计算,根据计算结构确定重复来电工单;
(6)将计算确定后的工单结果进行可视展示及分析。
所述步骤(1)中,获取结构化工单文本信息包括:客户编号、联系电话、供电公司、用电信息,以及用电户反映的其他信息。
所述步骤(2)中,所述数据库是关系型数据库或非关系型数据库;关系型数据为Oracle关系型数据;非关系型数据库为NoSQL非关系型数据。
所述步骤(3)中,对工单文本信息进行清洗方法是对无故挂断来电、测试来电和12345异常来电的工单文本进行删除;对工单文本信息进行转换方法是按照特定字段转换规则,对工单文本信息中相应字段进行转换。
所述步骤(4)中,工单文本向量化定义为:对工单文本集合S中的任意工单文本d,指定一个固定长度l的实值向量
称为工单文本d的向量化,l为文本向量的长度,其中,d为工单集合S中的任意文本,v(d)为文本向量化函数,为l维的实值向量;并设定指定的文本向量。
所述步骤(4)中,对工单文本信息建立语义向量化空间的方法包括:
(1)对工单文本信息进行切词处理,形成工单文本词袋模型;
(2)对切词后的文本信息中每个词w,将Context(w)取值为w前n-1个词的统计个数,则(Context(w),w)构成一个训练样本,并设定指定的经验值n;
(3)建立含有隐藏层的人工神经网络模型,隐藏层规模为(n-1)*l;
(4)使用含有隐藏层的人工神经网络模型对训练数据进行训练,得到训练工单文本向量
yd=v(d)=(yd1,yd2,...ydi,...,ydl)
其中,yd是工单文本d的向量化表示,ydi是工单文本d的向量化表示的第i维;
(5)对工单文本向量进行softmax归一化
所述步骤(5)中,工单建立相似度计算模型为工单文本向量的夹角余弦表示
根据指定的经验阈值cos(yd,yd′)y,上述工单文本向量的夹角余弦的值不小于上述指定的经验阈值,则视为相同的工单文本并将其排列展示。
指定的经验值为l=35,指定的经验值为n=5;指定的经验阈值cos(yd,yd′)y=0.85。
所述步骤(6)中,可视化展示方式包括大屏可视化展示化方式、PC端可视化展示方式和智能移动端可视化展示方式。
本发明的有益效果为:
(1)通过语音识别自动获取工单文本,提高工单文本信息准确度,解决了人工录入工单文本造成的的信息丢失;
(2)利用自然语言处理技术,自动提取工单文本语义信息,能够反映用电户的用电问题及用电信息;
(3)通过工单向量化,构建重复工单计算方法,从海量工单文本中自动获取重复来电工单,计算时间短、分析效率高,为提升用电户满意度提供有效技术方法支撑。
附图说明
图1是本发明的流程结构示意框图;
具体实施方式
参考图1所示,本发明提供了一种服务调度重复来电的工单文本语义向量分析方法,其包括以下步骤:
(1)对客服来电进行语音识别,获取结构化工单文本信息,形成工单文本记录;获取结构化工单文本信息包括:客户编号、联系电话、供电公司、用电信息,以及用电户反映的其他信息。
(2)将结构化工单文本记录存储到数据库,形成工单文本集合;所述数据库是关系型数据库或非关系型数据库;关系型数据为Oracle关系型数据;非关系型数据库为NoSQL非关系型数据。
(3)从关系型数据库提取工单文本,对工单文本信息进行清洗、转换;
(4)对工单文本集合建立语义向量空间,进行工单文本向量化表示;
(5)对向量化后的工单建立相似度计算模型,进行相似度计算,根据计算结构确定重复来电工单;
(6)将计算确定后的工单结果进行可视展示及分析。
所述步骤(3)中,对工单文本信息进行清洗方法是对无故挂断来电、测试来电和12345异常来电的工单文本进行删除;对工单文本信息进行转换方法是按照特定字段转换规则,对工单文本信息中相应字段进行转换。
所述步骤(4)中,工单文本向量化定义为:对工单文本集合S中的任意工单文本d,指定一个固定长度l的实值向量
称为工单文本d的向量化,l为文本向量的长度,其中,d为工单集合S中的任意文本,v(d)为文本向量化函数,为l维的实值向量;并设定指定的文本向量。
所述步骤(4)中,对工单文本信息建立语义向量化空间的方法包括:
(1)对工单文本信息进行切词处理,形成工单文本词袋模型;
(2)对切词后的文本信息中每个词w,将Context(w)取值为w前n-1个词的统计个数,则(Context(w),w)构成一个训练样本,并设定指定的经验值n;
(3)建立含有隐藏层的人工神经网络模型,隐藏层规模为(n-1)*l;
(4)使用含有隐藏层的人工神经网络模型对训练数据进行训练,得到训练工单文本向量
yd=v(d)=(yd1,yd2,...ydi,...,ydl)
其中,yd是工单文本d的向量化表示,ydi是工单文本d的向量化表示的第i维;
(5)对工单文本向量进行softmax归一化
所述步骤(5)中,工单建立相似度计算模型为工单文本向量的夹角余弦表示
根据指定的经验阈值cos(yd,yd′)y,上述工单文本向量的夹角余弦的值不小于上述指定的经验阈值,则视为相同的工单文本(重复来电)并将其排列展示。
本发明中,指定的经验值为l=35,指定的经验值为n=5;指定的经验阈值cos(yd,yd′)y=0.85,并且利用大量的数据和结合上述计算,根据上述经验值,可以更加高效、准确地识别重复来电工单,提高工单文本信息准确度,解决了人工录入工单文本造成的的信息丢失。
在本发明中,上述切词处理指的是中文切词,又称中文分词,指的是将一个汉字序列或者一句话切分成一个一个单独的词,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。其包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法三种,其具体的分词方法和步骤为现有技术,在此不再赘述。
所述步骤(6)中,可视化展示方式包括大屏可视化展示化方式、PC端可视化展示方式和智能移动端可视化展示方式。
上述虽然结合附图对本发明的具体实施方式和有效性进行了描述和验证,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种服务调度重复来电的工单文本语义向量分析方法,其特征在于,包括以下步骤:
(1)对客服来电进行语音识别,获取结构化工单文本信息,形成工单文本记录;
(2)将结构化工单文本记录存储到数据库,形成工单文本集合;
(3)从关系型数据库提取工单文本,对工单文本信息进行清洗、转换;
(4)对工单文本集合建立语义向量空间,进行工单文本向量化表示;
(5)对向量化后的工单建立相似度计算模型,进行相似度计算,根据计算结构确定重复来电工单;
(6)将计算确定后的工单结果进行可视展示及分析。
2.如权利要求1中所述的服务调度重复来电的工单文本语义向量分析方法,其特征在于,所述步骤(1)中,获取结构化工单文本信息包括:客户编号、联系电话、供电公司、用电信息,以及用电户反映的其他信息。
3.如权利要求1中所述的服务调度重复来电的工单文本语义向量分析方法,其特征在于,所述步骤(2)中,所述数据库是关系型数据库或非关系型数据库;关系型数据为Oracle关系型数据;非关系型数据库为NoSQL非关系型数据。
4.如权利要求1中所述的服务调度重复来电的工单文本语义向量分析方法,其特征在于,所述步骤(3)中,对工单文本信息进行清洗方法是对无故挂断来电、测试来电和12345异常来电的工单文本进行删除;对工单文本信息进行转换方法是按照特定字段转换规则,对工单文本信息中相应字段进行转换。
5.如权利要求1-4中任一项所述的服务调度重复来电的工单文本语义向量分析方法,其特征在于,所述步骤(4)中,工单文本向量化定义为:对工单文本集合S中的任意工单文本d,指定一个固定长度l的实值向量
称为工单文本d的向量化,l为文本向量的长度,其中,d为工单集合S中的任意文本,v(d)为文本向量化函数,为l维的实值向量;并设定指定的文本向量。
6.如权利要求5所述的服务调度重复来电的工单文本语义向量分析方法,其特征在于,所述步骤(4)中,对工单文本信息建立语义向量化空间的方法包括:
(1)对工单文本信息进行切词处理,形成工单文本词袋模型;
(2)对切词后的文本信息中每个词w,将Context(w)取值为w前n-1个词的统计个数,则(Context(w),w)构成一个训练样本,并设定指定的经验值n;
(3)建立含有隐藏层的人工神经网络模型,隐藏层规模为(n-1)*l;
(4)使用含有隐藏层的人工神经网络模型对训练数据进行训练,得到训练工单文本向量
yd=v(d)=(yd1,yd2,...ydi,...,ydl)
其中,yd是工单文本d的向量化表示,ydi是工单文本d的向量化表示的第i维;
(5)对工单文本向量进行softmax归一化
所述步骤(5)中,工单建立相似度计算模型为工单文本向量的夹角余弦表示
根据指定的经验阈值cos(yd,yd′)y,上述工单文本向量的夹角余弦的值不小于上述指定的经验阈值,则视为相同的工单文本并将其排列展示。
7.如权利要求5所述的服务调度重复来电的工单文本语义向量分析方法,其特征在于,指定的经验值为l=35,指定的经验值为n=5;指定的经验阈值cos(yd,yd′)y=0.85。
8.如权利要求1-4中任一项所述的服务调度重复来电的工单文本语义向量分析方法,其特征在于,所述步骤(6)中,可视化展示方式包括大屏可视化展示化方式、PC端可视化展示方式和智能移动端可视化展示方式。
CN201811425209.7A 2018-11-27 2018-11-27 一种服务调度重复来电的工单文本语义向量分析方法 Pending CN109214009A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811425209.7A CN109214009A (zh) 2018-11-27 2018-11-27 一种服务调度重复来电的工单文本语义向量分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811425209.7A CN109214009A (zh) 2018-11-27 2018-11-27 一种服务调度重复来电的工单文本语义向量分析方法

Publications (1)

Publication Number Publication Date
CN109214009A true CN109214009A (zh) 2019-01-15

Family

ID=64993882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811425209.7A Pending CN109214009A (zh) 2018-11-27 2018-11-27 一种服务调度重复来电的工单文本语义向量分析方法

Country Status (1)

Country Link
CN (1) CN109214009A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889392A (zh) * 2019-03-14 2019-06-14 国网江苏省电力有限公司镇江供电分公司 信息网络终端设备报修工单快速生成方法
CN110955754A (zh) * 2019-12-01 2020-04-03 国家电网有限公司客户服务中心 一种用于重复来电分析识别的模型构建方法
CN112651221A (zh) * 2019-10-10 2021-04-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN113343711A (zh) * 2021-06-29 2021-09-03 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113689093A (zh) * 2021-08-09 2021-11-23 河南职业技术学院 基于人工智能的课堂质量评估方法及系统
CN114519343A (zh) * 2022-02-17 2022-05-20 国家电网有限公司客户服务中心 基于95598的重复来电预处理方法、装置、设备及存储介质
CN115062128A (zh) * 2022-06-26 2022-09-16 上海理想信息产业(集团)有限公司 一种服务热线工单自动填写方法和系统
CN112651221B (zh) * 2019-10-10 2024-11-05 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN106874134A (zh) * 2017-01-22 2017-06-20 国网新疆电力公司信息通信公司 工单类型的处理方法、装置及系统
CN107729919A (zh) * 2017-09-15 2018-02-23 国网山东省电力公司电力科学研究院 基于大数据技术的深化投诉穿透分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN106874134A (zh) * 2017-01-22 2017-06-20 国网新疆电力公司信息通信公司 工单类型的处理方法、装置及系统
CN107729919A (zh) * 2017-09-15 2018-02-23 国网山东省电力公司电力科学研究院 基于大数据技术的深化投诉穿透分析方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889392A (zh) * 2019-03-14 2019-06-14 国网江苏省电力有限公司镇江供电分公司 信息网络终端设备报修工单快速生成方法
CN109889392B (zh) * 2019-03-14 2022-02-22 国网江苏省电力有限公司镇江供电分公司 信息网络终端设备报修工单快速生成方法
CN112651221A (zh) * 2019-10-10 2021-04-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN112651221B (zh) * 2019-10-10 2024-11-05 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110955754A (zh) * 2019-12-01 2020-04-03 国家电网有限公司客户服务中心 一种用于重复来电分析识别的模型构建方法
CN113343711A (zh) * 2021-06-29 2021-09-03 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113343711B (zh) * 2021-06-29 2024-05-10 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113689093A (zh) * 2021-08-09 2021-11-23 河南职业技术学院 基于人工智能的课堂质量评估方法及系统
CN114519343A (zh) * 2022-02-17 2022-05-20 国家电网有限公司客户服务中心 基于95598的重复来电预处理方法、装置、设备及存储介质
CN115062128A (zh) * 2022-06-26 2022-09-16 上海理想信息产业(集团)有限公司 一种服务热线工单自动填写方法和系统

Similar Documents

Publication Publication Date Title
CN109214009A (zh) 一种服务调度重复来电的工单文本语义向量分析方法
CN108628830B (zh) 一种语义识别的方法和装置
CN107657056B (zh) 基于人工智能展示评论信息的方法和装置
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
WO2018166115A1 (zh) 客服问答数据的处理方法、电子装置及计算机可读存储介质
CN105335496A (zh) 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN109299865A (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
CN108763212A (zh) 一种地址信息提取方法及装置
CN113360699A (zh) 模型训练方法和装置、图像问答方法和装置
CN106874258A (zh) 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN106600213B (zh) 一种个人简历智能管理系统及方法
CN112671985A (zh) 基于深度学习的坐席质检方法、装置、设备及存储介质
WO2023093014A1 (zh) 一种票据识别方法、装置、设备以及存储介质
JP2023010805A (ja) ドキュメント情報抽出モデルのトレーニングおよびドキュメント情報の抽出のための方法、装置、電子機器、記憶媒体並びにコンピュータプログラム
JP2023554210A (ja) インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN107766498A (zh) 用于生成信息的方法和装置
CN113095723A (zh) 优惠券的推荐方法及装置
CN110728131A (zh) 一种分析文本属性的方法和装置
CN105654125A (zh) 一种视频相似度的计算方法
CN112182157A (zh) 在线序列标注模型的训练方法、在线标注方法及相关设备
CN116166858A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN110414000B (zh) 一种基于模板文档对比的关键词提取方法及系统
CN114996494A (zh) 图像处理方法、装置、电子设备及存储介质
CN115495464A (zh) 地图更新方法、装置、电子设备和存储介质
CN107622049A (zh) 一种供电服务专用词库生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190115

WD01 Invention patent application deemed withdrawn after publication