CN114266242A - 工单数据处理方法、装置、服务器及可读存储介质 - Google Patents

工单数据处理方法、装置、服务器及可读存储介质 Download PDF

Info

Publication number
CN114266242A
CN114266242A CN202111446961.1A CN202111446961A CN114266242A CN 114266242 A CN114266242 A CN 114266242A CN 202111446961 A CN202111446961 A CN 202111446961A CN 114266242 A CN114266242 A CN 114266242A
Authority
CN
China
Prior art keywords
work order
order data
keyword
server
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111446961.1A
Other languages
English (en)
Other versions
CN114266242B (zh
Inventor
闫慎悦
戚勇
王铮
王金钗
李铁军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111446961.1A priority Critical patent/CN114266242B/zh
Publication of CN114266242A publication Critical patent/CN114266242A/zh
Application granted granted Critical
Publication of CN114266242B publication Critical patent/CN114266242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种工单数据处理方法、装置、服务器及可读存储介质。该方法包括:服务器可以以固定周期从工单管理系统中获取在当前周期内生成的工单数据集合。服务器可以获取每一工单数据对应的关键词集合。服务器可以根据所述工单数据、所述工单数据的所述关键词集合和所述业务词库,确定所述关键词集合中每一述关键词的目标权重。服务器可以根据该关键词集合和每一关键词的权重,确定该工单向量的工单向量集合。服务器可以将这些工单向量与聚类中心集合中的聚类中心进行匹配,确定这些工单数据是否属于该聚类中心集合中的类别。本申请的方法,提高了工单数据的分类准确率,提高工单数据的处理效率。

Description

工单数据处理方法、装置、服务器及可读存储介质
技术领域
本申请涉及计算机领域,尤其涉及一种工单数据处理方法、装置、服务器及可读存储介质。
背景技术
在通信领域中,工单通常应用于设备的维修或者维护。面对这些工单,除了需要合理派发,对这些工单进行复盘也是极其重要的。
在工单复盘过程中,对工单进行分类是其中重要的一环。现有技术中,工单管理系统通常需要人工完成对工单数据的分类和统计。
显然,现在有技术存在工单数据的处理效率低的问题。
发明内容
本申请提供一种工单数据处理方法、装置、服务器及可读存储介质,用以解决现在有技术中工单数据的处理效率低的问题。
第一方面,本申请提供一种工单数据处理方法,包括:
获取工单数据集合,并根据业务词库和停用词库对所述工单数据集合中的每一工单数据进行分词,得到所述工单数据的关键词集合;
根据所述工单数据、所述工单数据的所述关键词集合和所述业务词库,确定所述关键词集合中每一述关键词的目标权重;
根据所述工单数据的所述关键词集合和所述关键词集合中每一所述关键词的目标权重,确定所述工单数据的工单向量;
使用预设聚类算法和聚类中心集合,对所述工单向量进行聚类分析,确定所述工单向量对应的工单数据的所属类别,所述聚类中心集合中包括至少一个聚类中心,每一所述聚类中心对应于一个类别。
可选地,所述对所述工单数据进行分词,得到所述工单数据的多个关键词,包括:
使用业务词库对所述工单数据进行分词,得到所述工单数据的关键词集合;
使用停用词库对所述工单数据的关键词集合进行数据清洗。
可选地,所述根据所述工单数据、所述工单数据的所述关键词和所述业务词库,确定每一所述关键词的目标权重,包括:
根据每一所述关键词在所述工单数据中的词频和逆向文件频率,确定每一所述关键词的第一权重;
根据每一所述关键词与所述业务词库中业务词的匹配程度,确定每一所述关键词的第二权重;
根据每一所述关键词在所述工单数据中的位置,确定每一所述关键词的第三权重;
根据预设系数、所述第一权重、所述第二权重和所述第三权重,确定每一所述关键词的目标权重。
可选地,所述方法,还包括:
当所述工单向量不属于所述聚类中心集合中任一类别时,计算所述工单向量所属类别的聚类中心,并将所述聚类中心添加到所述聚类中心集合中。
可选地,所述方法,还包括:
当所述工单是数据的一关键词不在业务词库中时,将所述关键词作为新的业务词添加到所述业务词库中。
可选地,所述方法,还包括:
根据业务词库中每一业务词的出现频率,确定所述业务词的活跃值;
当一业务词的活跃频率连续两次小于预设阈值时,删除所述业务词。
可选地,使用预设聚类算法和聚类中心集合,对所述工单向量进行聚类分析之前,所述方法,还包括:
获取工单样本集,所述工单样本集中包括每一所述工单数据的工单向量和类别标签;
使用预设聚类算法对所述工单向量和所述类型标签进行聚类,得到聚类中心集合,所述聚类中心集合中包括至少一个聚类中心。
第二方面,本申请提供一种工单数据处理装置,包括:
获取模块,用于获取工单数据集合,并根据业务词库和停用词库对所述工单数据集合中的每一工单数据进行分词,得到所述工单数据的关键词集合;
处理模块,用于根据所述工单数据、所述工单数据的所述关键词集合和所述业务词库,确定所述关键词集合中每一述关键词的目标权重;根据所述工单数据的所述关键词集合和所述关键词集合中每一所述关键词的目标权重,确定所述工单数据的工单向量;使用预设聚类算法和聚类中心集合,对所述工单向量进行聚类分析,确定所述工单向量对应的工单数据的所属类别,所述聚类中心集合中包括至少一个聚类中心,每一所述聚类中心对应于一个类别。
可选地,所述处理模块,具体用于:
使用业务词库对所述工单数据进行分词,得到所述工单数据的关键词集合;
使用停用词库对所述工单数据的关键词集合进行数据清洗。
可选地,所述处理模块,具体用于:
根据每一所述关键词在所述工单数据中的词频和逆向文件频率,确定每一所述关键词的第一权重;
根据每一所述关键词与所述业务词库中业务词的匹配程度,确定每一所述关键词的第二权重;
根据每一所述关键词在所述工单数据中的位置,确定每一所述关键词的第三权重;
根据预设系数、所述第一权重、所述第二权重和所述第三权重,确定每一所述关键词的目标权重。
可选地,所述处理模块,还用于:
当所述工单向量不属于所述聚类中心集合中任一类别时,计算所述工单向量所属类别的聚类中心,并将所述聚类中心添加到所述聚类中心集合中。
可选地,所述处理模块,还用于:
当所述工单是数据的一关键词不在业务词库中时,将所述关键词作为新的业务词添加到所述业务词库中。
可选地,所述处理模块,还用于:
根据业务词库中每一业务词的出现频率,确定所述业务词的活跃值;
当一业务词的活跃频率连续两次小于预设阈值时,删除所述业务词。
可选地,所述处理模块,还用于:
获取工单样本集,所述工单样本集中包括每一所述工单数据的工单向量和类别标签;
使用预设聚类算法对所述工单向量和所述类型标签进行聚类,得到聚类中心集合,所述聚类中心集合中包括至少一个聚类中心。
第三方面,本申请提供一种服务器,包括:存储器和处理器;
所述存储器用于存储计算机程序;所述处理器用于根据所述存储器存储的计算机程序执行第一方面及第一方面任一种可能的设计中的工单数据处理方法。
第四方面,本申请提供一种可读存储介质,可读存储介质中存储有计算机程序,当服务器的至少一个处理器执行该计算机程序时,服务器执行第一方面及第一方面任一种可能的设计中的工单数据处理方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品包括计算机程序,当服务器的至少一个处理器执行该计算机程序时,服务器执行第一方面及第一方面任一种可能的设计中的工单数据处理方法。
本申请提供的工单数据处理方法,通过以固定周期从工单管理系统中获取在当前周期内生成的工单数据集合;获取每一工单数据对应的关键词集合;根据所述工单数据、所述工单数据的所述关键词集合和所述业务词库,确定所述关键词集合中每一述关键词的目标权重;根据该关键词集合和每一关键词的权重,确定该工单向量的工单向量集合;将这些工单向量与聚类中心集合中的聚类中心进行匹配,确定这些工单数据是否属于该聚类中心集合中的类别的手段,实现提高聚类准确度,提高工单数据处理效率的效果。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的一种工单聚类的流程示意图;
图2为本申请一实施例提供的一种工单数据处理方法的流程图;
图3为本申请一实施例提供的一种工单数据处理方法的流程图;
图4为本申请一实施例提供的一种工单数据处理方法的流程图;
图5为本申请一实施例提供的一种工单数据处理装置的结构示意图;
图6为本申请一实施例提供的一种服务器的硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换。例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。
应当进一步理解,术语“包含”、“包括”表明存在的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。
此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
在通信领域中,工单通常应用于设备的维修或者维护。面对这些工单,除了需要合理派发,对这些工单进行复盘也是极其重要的。在工单复盘过程中,对工单进行分类是其中重要的一环。现有技术中,工单管理系统通常需要人工完成对工单数据的分类和统计。显然,现在有技术存在工单数据的处理效率低的问题。
针对上述问题,本申请提出了一种工单数据处理方法。本申请中,服务器基于开源结巴分词技术实现了对工单数据的分词处理,得到了每一工单的多个关键词。服务器还结合业务词库和停用词库对该关键词进行数据清洗,提高关键词的有效性。服务器使用改进后的词频逆向文件频率算法(term frequency–inverse document frequency,TF-IDF)对关键词进行三维赋权,得到每一工单的工单向量。服务器基于改进后的单通道聚类算法(Single-Pass)对工单向量进行聚类分析,实现工单数据的分类。服务器还可以基于该分类结果,对工单数据的热点问题进行分析,为企业实时发现热点问题,构建知识运营体系提供帮助。本申请还可以基于分类结果,统计历史聚类报表,为问题复盘、查漏补缺等操作提供基础资料。
其中,Single-Pass聚类算法是一种增量聚类算法。在聚类过程中,每一文档只需要流过算法一次,即可实现分类。该Single-Pass聚类算法可以很好的应用于对实时性要求较高的流式数据的处理。例如,话题监测与追踪、在线事件监测等社交媒体大数据。但是,Single-Pass聚类算法受数据输入顺序影响较大。若输入数据存在语义不清、干扰信息较大的情况,容易导致聚类方向错误。这导致Single-Pass聚类算法在企业独特的工单数据聚类场景中的普适性较差。并且,Single-Pass聚类算法未考虑词汇在工单中不同位置的权重问题,容易忽略关键信息。因此,虽然Single-Pass聚类算法已经适用于对实时性要求较高的文本聚类场景,但尚未达到动态展示聚类结果的要求。
为此,本申请对Single-Pass聚类算法进行了改进。本申请中,服务器在聚类操作之前增加了工单数据的清洗操作。服务器通过句法分析取出核心语句。在分词阶段,服务器引入业务词库和停用词库概念。该业务词库的使用可以在保护业务词不被切割。该停用词库的使用则去除了停用词带来的干扰信息。同时,本申请还通过改进TF-IDF算法,在词汇出现的频次和逆向文件频率的基础上,还将业务词匹配度以及词汇出现的位置增加到权重计算中。服务器通过三个维度对词汇进行赋权处理,构建三维加权模型,使权重更加贴近实际需求。
此外,本申请还结合系统本身的工单标签功能,获取工单打标数据。服务器采用机器学习算法,生成工单分类模型。该工单分配模型中可以包括聚类中心集合。该聚类中心集合中可以包括至少一个聚类中心。在对新的工单向量进行分类时,服务器首先将该工单向量与聚类中心集合中的各个聚类中心进行比较,确定该工单向量是否属于某一已有分类。当该工单数据不属于已有分类时,服务器还可以对工单数据进行聚类,确定该工单数据的新的聚类中心。
本申请在通过上述方法提高工单数据的分类的处理效率的同时,还可以通过对工单数据的分类和聚类计算及时定位出焦点问题,实现热点问题的快速发现,更贴近企业级系统生产运营。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1示出了本申请一实施例提供的一种工单聚类的流程示意图。如图所示,其中包括虚线和实线指示的两套聚类方法。其中,虚线指示的聚类方法为常规的聚类方法。其中,实线指示的聚类方法为改造后的工单聚类方法。
其中,虚线指示的常规聚类方法主要包括了三个步骤。服务器将工单数据进行分词得到词汇集。服务器通过向量计算,得到每一工单数据的工单向量。服务器可以根据该工单向量对工单数据进行聚类,得到聚类结果。其中,服务器获取的工单数据中包括至少一张工单数据。
其中,实线指示的改造后的工单聚类方法主要包括数据清洗和聚类分析两个模块。
在数据清洗模块,服务器可以使用开源工具ERNIE的新词发现能力检测工单数据中新的关键词。当服务器发现新的关键词后,服务器可以将该新的关键词作为业务词添加到业务词库中。服务器可以通过使用业务词库保护业务词不被切割。服务器还可以通过使用停用词库去除了停用词带来的干扰信息。服务器对清洗后的关键词进行权重计算,计算得到每一关键词的权重。在权重计算过程中,服务器还可以根据TF-IDF确定第一权重,根据业务词库确定第二权重,根据位置确定第三权重。进而,服务器根据第一权重、第二权重、第三权重和关键词,确定每一工单数据的工单向量。
在聚类分析模块,服务器可以将该工单向量输入分类模型中进行匹配。当匹配成功时,服务器可以根据该工单向量匹配的类别,确定该分类结果。当匹配失败时,服务还可以使用这些匹配失败工单数据进行聚类,得到聚类结果。其中,分类模型中可以包括聚类中心集合。该聚类中心集合中可以包括至少一个聚类中心。该聚类中心可以由服务器根据设置有标签的工单向量通过机器学习的到。
本申请中,以服务器为执行主体,执行如下实施例的工单数据处理方法。具体地,该执行主体可以为服务器的硬件装置,或者为服务器中实现下述实施例的软件应用,或者为安装有实现下述实施例的软件应用的计算机可读存储介质,或者为实现下述实施例的软件应用的代码。
图2示出了本申请一实施例提供的一种工单数据处理方法的流程图。在图1所示实施例的基础上,如图2所示,以服务器为执行主体,本实施例的方法可以包括如下步骤:
S101、获取工单数据集合,并根据业务词库和停用词库对工单数据集合中的每一工单数据进行分词,得到工单数据的关键词集合。
本实施例中,服务器可以以固定周期从工单管理系统中获取在当前周期内生成的工单数据集合。该工单数据集合中可以包括至少一个工单数据。该工单数据集合中的工单数据可以包括不同的内容。例如,业务内容、业务范围、硬件修复、软件完善、异常处理等。服务器获取该工单数据集合后,可以对该工单数据集合中的每一工单数据进行分词,得到每一工单数据的关键词集合。该关键词集合中可以包括至少一个关键词。在分词时,为了避免业务词被切割,服务器可以引入业务词库。
一工单数据直接分词得到的关键词集合中通常包括大量的停用词。这些停用词往往频繁出现在工单数据中,但却对工单的聚类结果毫无意义。服务器可以构建停用词库。该停用词库中除了包含停用词以外,还可以包含特定的词汇规则。例如,电话号码、工单编号、流水号等词汇属于包含特定的词汇规则的停用词。在不同的工单数据中该类包含特定的词汇规则的停用词通常是不同的。服务器可以从一工单数据的关键词集合中剔除该类数据,实现工单数据清洗。
一种示例中,服务器对对工单数据进行分词和清洗的过程可以包括如下步骤:
步骤1、使用业务词库对工单数据进行分词,得到工单数据的关键词集合。
本步骤中,服务器可以根据业务词库,对工单数据中的业务词进行提取。该业务词的提取可以避免在后续分词过程中,业务词被切割。当业务词被提取后,服务器可以使用结巴分词技术等分词算法对工单数据进行分词。分词后,每一工单数据可以得到一个关键词集合。该关键词集合中可以包括业务词和分词算法分词得到关键词。
步骤2、使用停用词库对工单数据的关键词集合进行数据清洗。
本步骤中,服务器可以判断每一关键词是否与停用词库中的停用词匹配。或者,服务器可以判断每一关键词是否符合停用词库中的特定词汇规则。当一关键词与停用词库中的停用词匹配,或者符合停用词库中的特定词汇规则时,服务器可以将该关键词从该关键词集合中删除,从而实现数据清洗,去除停用词对聚类的干扰,提升聚类效率和准确度。
S102、根据工单数据、工单数据的关键词集合和业务词库,确定关键词集合中每一述关键词的目标权重。
本实施例中,服务器可以获取每一工单数据对应的关键词集合。子啊一个工单数据中,不同的关键词的能量是不同的。例如,有一个关键词“404”同时出现在了两个工单数据中,在第一工单数据中“404”出现的平率高达46%,在第二工单数据中“404”的出现频率为7%。该关键词“404”在第一工单数据中的权重与在第二工单中的权重应具有差异,以说明该关键词的在不同工单数据中所起作用不同。服务器可以根据关键词在该工单数据中出现的频率、关键词在当前的热度、关键词是否与业务词库中的业务词匹配等信息,对一工单数据的一个关键词进行综合计算,确定一个关键词的目标权重。例如,服务器可以使用TF-IDF算法计算的到的词频权重、业务词权重和词汇在工单中位置权重信息,实现三维加权,得到目标权重。
一种示例中,服务器确定目标权重的步骤可以包括:
步骤1、根据每一关键词在工单数据中的词频和逆向文件频率,确定每一关键词的第一权重。
本步骤中,服务器可以通过TF-IDF算法获取以工单数据的关键词集合中,没有关键词的第一权重。该第一权重可以为词频权重。Ti表示当前工单关键词集合中的第i个关键词。以关键词Ti为例,该关键词的第一权重的计算过程具体可以包括:
步骤1.1、服务器计算该关键词Ti在该工单数据中的词频TF(Ti)。该词频即为该关键词在该工单数据中的出现频率。该词频TF(Ti)的公式可以为:
Figure BDA0003384169690000101
步骤1.2、服务器计算该关键词Ti的逆文档频率IDF(Ti)。服务器可以预设有一个语料库。该语料库中可以包括多个工单数据。例如,该语料库可以为步骤1中服务器获取的工单数据集合。该逆文档频率IDF(Ti)的公式可以为:
Figure BDA0003384169690000102
步骤1.3、服务器可以根据词频TF(Ti)和逆文档频率IDF(Ti),计算得到第一权重Wtf-idf(Ti)。其计算公式可以为:
Wtf-idf(Ti)=TF(Ti)×IDF(Ti)
步骤2、根据每一关键词与业务词库中业务词的匹配程度,确定每一关键词的第二权重。
本步骤中,服务器可以将关键词Ti与业务词库中的每一业务词进行匹配。计算得到该关键词Ti与每一业务词的匹配值。服务器可以确定其中最大的匹配值为第二权重Wlexicon(Ti)。
步骤3、根据每一关键词在工单数据中的位置,确定每一关键词的第三权重。
本步骤中,有些词虽然出现频率不高但却很能反映文本的特性。因此对于出现在不同位置的词其权重或对分类的贡献不应是相同的。服务器根据工单数据,确定关键词Ti在该工单数据中的位置。当该工单数据中多次出现该关键词Ti时,服务器可以获取多个位置。服务器可以根据不同的位置设置不同的权重参数。例如,在工单数据从上至下分为三个部分。当一关键词出现在该工单数据的头部时,其权重为2。当一关键词出现在该工单数据的中部时,其权重为1。当一关键词出现在该工单数据的尾部时,其权重为1.5。又如,可以将该工单数据分为标题、描述、答复三个部分。当一关键词出现在该工单数据的标题时,其权重为2。当一关键词出现在该工单数据的描述时,其权重为1。当一关键词出现在该工单数据的答复时,其权重为1.5。服务器可以确定每一部分出现的该关键词的次数。服务器可以确定出现该关键词次数最多的部分所对应的权重为第三权重Wposition(Ti)。
步骤4、根据预设系数、第一权重、第二权重和第三权重,确定每一关键词的目标权重。
本步骤中,目标权重S(Ti)的计算公式可以为:
S(Ti)=α×Wtf-idf(Ti)+β×Wlexicon(Ti)+γ×Wposition(Ti)
其中,Ti表示当前工单的关键词集合中的第i个关键词。S(Ti)表示该关键词的目标权重。Wtf-idf(Ti)表示通过TF-IDF算法计算得到的第一权重。Wlexicon(Ti)表示根据业务词库匹配计算得到的第二权重。Wposition(Ti)表示根据该词在工单中的位置计算得到的第三权重。其中,α、β、γ为常数系数,其取值根据经验确定。
S103、根据工单数据的关键词集合和关键词集合中每一关键词的目标权重,确定工单数据的工单向量。
本实施例中,服务器可以根据S102计算得到一工单数据的关键词集合中每一关键词的目标权重。服务器可以根据该关键词集合和每一关键词的权重,确定该工单向量的工单向量集合。
S104、使用预设聚类算法和聚类中心集合,对工单向量进行聚类分析,确定工单向量对应的工单数据的所属类别,聚类中心集合中包括至少一个聚类中心,每一聚类中心对应于一个类别。
本实施例中,服务器可以根据S102和S103,计算得到该工单数据集合中每一工单数据的工单向量。服务器可以将这些工单向量与聚类中心集合中的聚类中心进行匹配,确定这些工单数据是否属于该聚类中心集合中的类别。例如,服务器可以计算一工单向量与聚类中心集合中每一聚类中心的距离。当其中的最小距离小于预设阈值时,该服务器可以确定该工单向量属于该最小距离对应的聚类中心的类别。
一种示例中,完成上述匹配操作后,该工单数据集合中可能存在一个或者多个工单不属于聚类中心集合中任一类别。服务器可以对这些工单向量进行聚类计算,得到至少一个新的聚类中心。服务器可以将这些新的聚类中心添加到聚类中心集合中。每一新的聚类中心可以对应于至少一个工单数据。其中,服务器对匹配失败的工单数据进行聚类的算法可以为Single-Pass算法。
本申请提供的工单数据处理方法,服务器可以以固定周期从工单管理系统中获取在当前周期内生成的工单数据集合。服务器可以获取每一工单数据对应的关键词集合。服务器可以根据工单数据、工单数据的关键词集合和业务词库,确定关键词集合中每一述关键词的目标权重。服务器可以根据该关键词集合和每一关键词的权重,确定该工单向量的工单向量集合。服务器可以将这些工单向量与聚类中心集合中的聚类中心进行匹配,确定这些工单数据是否属于该聚类中心集合中的类别。本申请中,通过计算每一关键词的目标权重,提高聚类准确度。本申请还可以通过使用业务词库和停用词库,不仅保护业务词免于被分词切割,而且通过数据清洗提高了关键词的有效性。此外,本申请还可以通过对匹配失败的工单数据进行聚类,得到新的聚类热词,更新知识运营体系。
图3示出了本申请一实施例提供的一种工单数据处理方法的流程图。在图2实施例的基础上,本实施例还能够动态更新业务词库,如图3所示,以服务器为执行主体,本实施例的方法可以包括如下步骤:
S201、获取工单数据集合,并根据业务词库和停用词库对工单数据集合中的每一工单数据进行分词,得到工单数据的关键词集合。
其中,步骤S201与图2实施例中的步骤S101实现方式类似,本实施例此处不再赘述。
S202、当工单是数据的一关键词不在业务词库中时,将关键词作为新的业务词添加到业务词库中。
本实施例中,服务器对工单数据集合中的工单数据进行分词后,服务器可以判断每一关键词是否属于业务词。其中,服务器可以基于开源工具ERNIE实现对业务词的判断。当该关键词为业务词,且该关键词没有出现在业务词库中时,服务器可以将该关键词添加到该业务词库中。其中,业务词可以为具有行业特征的词。服务器可以在获取一个行业的业务词汇表后,通过判断该关键词是否为该业务词汇表中的词,确定该关键词是否为业务词。
一种示例中,初始业务词库中的词为人工根据具有行业特征的业务词汇表整理创建。
S203、根据业务词库中每一业务词的出现频率,确定业务词的活跃值。
本实施例中,服务器可以获取每一业务词在预设时间段内的出现频率。该出现频率的计算公式可以为:
Figure BDA0003384169690000131
其中,预设时间段可以根据实际确定。例如,该预设时间段可以为一个周期、一天、一周、一月等。
一种示例中,该活跃值可以为该出现频率与预设权重参数的乘积。该预设权重参数可以根据经验值确定。
另一种示例中,服务器还可以获取每一业务词的受关注程度值。服务器可以根据该受关注程度值和该出现频率,计算得到活跃值。例如,该活跃值可以将该受关注程度值和出现频率之和确定为活跃值。
S204、当一业务词的活跃频率连续两次小于预设阈值时,删除业务词。
本实施例中,每一业务词可以对应于一个标签。该标签可以使用0和1进行标记。在一次判断中,当服务器确定一业务词的活跃值大于等于预设阈值时,服务器可以将该业务词的标签设置为0。当服务器确定一业务词的活跃值小于预设阈值时,服务器可以获取该业务词的标签。当该标签为0时,服务器可以将该业务词的标签修改为1。当该标签为1时,服务器可以删除该业务词。
一种示例中,该预设阈值可以为京剧经验值确定的数值。
另一种示例中,该预设阈值可以为该业务词库中全部业务词的活跃值从小到大排序后,前10%的业务词对应的阈值。例如,当包括100个业务词时,预设阈值可以为从小到大排序后,第10个业务词的活跃值。
本申请提供的工单数据处理方法,服务器可以以固定周期从工单管理系统中获取在当前周期内生成的工单数据集合。服务器可以获取每一工单数据对应的关键词集合。服务器对工单数据集合中的工单数据进行分词后,服务器可以判断每一关键词是否属于业务词。当该关键词为业务词,且该关键词没有出现在业务词库中时,服务器可以将该关键词添加到该业务词库中。服务器可以根据业务词库中每一业务词的出现频率,确定业务词的活跃值。当一业务词的活跃频率连续两次小于预设阈值时,服务器可以删除该业务词。本申请中,通过添加或者删除业务词,使该业务词库保持动态变化,提高该业务词库的实时性和有效性。
图4示出了本申请一实施例提供的一种工单数据处理方法的流程图。在执行图2和图3实施例之前,如图3所示,以服务器为执行主体,本实施例的还可以确定聚类中心集合,其具体步骤包括:
S301、获取工单样本集,工单样本集中包括每一工单数据的工单向量和类别标签。
本实施例中,服务器可以从历史数据中选择一定数量的工单数据,形成工单样本集。这些被加入工单样本集的每一工单数据对应有工单向量和类别标签。
其中,这些工单数据的类别标签可以通过系统中设定的多级标签体系完成设置。服务器可以采用机器学习算法PanddlePanddle构建工单的多级分类模型。服务器可以通过该多级分类模型获取工单打标数据。该多级分类模型中,用户可以在查看到一工单数据后,根据每一级的分类,选择该工单数据对应的类别。例如,用户可以通过该多级分类模型选择通信、设备故障等类别。
S302、使用预设聚类算法对工单向量和类型标签进行聚类,得到聚类中心集合,聚类中心集合中包括至少一个聚类中心。
本实施例中,服务器可以将该工单样本集中的工单向量和类别标签输入预设聚类算法。服务器可以通过该预设聚类算法完成每一类别的聚类中心的计算。服务器可以将这些聚类中心添加到聚类中心集合中。
本申请提供的工单数据处理方法,服务器可以从历史数据中选择一定数量的工单数据,形成工单样本集。这些被加入工单样本集的每一工单数据对应有工单向量和类别标签。服务器可以使用预设聚类算法对工单向量和类型标签进行聚类,得到聚类中心集合。该聚类中心集合中包括至少一个聚类中心。本申请中,通过聚类,实现聚类中心的计算,提高了本申请在图2所示实施例中的分类效率。
在上述各是实施例的基础上,以计费账管专业某个月份的1377条工单数据作为实验数据,并使用Single-Pass算法和上述实施例所示算法分别对该1377条工单数据进行聚类,并对其聚类准确性进行分析,其分析过程可以包括如下步骤:
步骤1、由人工对1377条工单数据进行类型划分。其中,类型标签可以包括发票打印类、流量话单类、充值缴费类、账单查询类、套餐费用类、退款调账类、开机停机类、资料变更类、托收代扣类、封顶限速类等类型。该1377条工单数据可以被划分为发票打印类工单357条、流量话单类工单263条、充值缴费类工单163条、账单查询类工单127条、套餐费用类工单115条、退款调账类工单108条、开机停机类工单88条、资料变更类工单61条、托收代扣类工单50条、封顶限速类工单45条。
步骤2、计算准确率P、召回率R和F值作为评价指标。其中,准确率是指分类正确的工单占工单总数的比例,也就是查准率。其中,召回率是指系统正确识别的工单数占实验数据中该类工单数的比例,也就是查全率。F值是准确率P和召回率R的调和平均,计算公式为:
F=2*P*R/(P+R)
表1
Figure BDA0003384169690000151
现有技术应用经典的Single-Pass算法和经典TF-IDF加权对实验数据进行聚类。本申请使用经过改进的Single-Pass算法和三维加权对实验数据进行聚类。基于现有技术和上述算法,使用上述数据及评价方法,得到的分析结果可以如表1所示。如表1所示,现有技术中,所有类型的工单的平均准确率为78.1%,平均召回率为76.8%,平均F值为77.4%。而使用本申请时,所有类型的工单的平均准确率为90%,平均召回率为82.6%,平均F值为86.1%。显然,本申请所使用的工单数据处理方法的聚类效果优于现有技术。
图5示出了本申请一实施例提供的一种工单数据处理装置的结构示意图,如图5所示,本实施例的工单数据处理装置10用于实现上述任一方法实施例中对应于服务器的操作,本实施例的工单数据处理装置10包括:
获取模块11,用于获取工单数据集合,并根据业务词库和停用词库对工单数据集合中的每一工单数据进行分词,得到工单数据的关键词集合。
处理模块12,用于根据工单数据、工单数据的关键词集合和业务词库,确定关键词集合中每一述关键词的目标权重;根据工单数据的关键词集合和关键词集合中每一关键词的目标权重,确定工单数据的工单向量;使用预设聚类算法和聚类中心集合,对工单向量进行聚类分析,确定工单向量对应的工单数据的所属类别,聚类中心集合中包括至少一个聚类中心,每一聚类中心对应于一个类别。
一种示例中,处理模块12,具体用于:
使用业务词库对工单数据进行分词,得到工单数据的关键词集合;
使用停用词库对工单数据的关键词集合进行数据清洗。
一种示例中,处理模块12,具体用于:
根据每一关键词在工单数据中的词频和逆向文件频率,确定每一关键词的第一权重。
根据每一关键词与业务词库中业务词的匹配程度,确定每一关键词的第二权重。
根据每一关键词在工单数据中的位置,确定每一关键词的第三权重。
根据预设系数、第一权重、第二权重和第三权重,确定每一关键词的目标权重。
一种示例中,处理模块12,还用于:
当工单向量不属于聚类中心集合中任一类别时,计算工单向量所属类别的聚类中心,并将聚类中心添加到聚类中心集合中。
一种示例中,处理模块12,还用于:
当工单是数据的一关键词不在业务词库中时,将关键词作为新的业务词添加到业务词库中。
一种示例中,处理模块12,还用于:
根据业务词库中每一业务词的出现频率,确定业务词的活跃值;
当一业务词的活跃频率连续两次小于预设阈值时,删除业务词。
一种示例中,处理模块12,还用于:
获取工单样本集,工单样本集中包括每一工单数据的工单向量和类别标签。
使用预设聚类算法对工单向量和类型标签进行聚类,得到聚类中心集合,聚类中心集合中包括至少一个聚类中心。
本申请实施例提供的工单数据处理装置10,可执行上述方法实施例,其具体实现原理和技术效果,可参见上述方法实施例,本实施例此处不再赘述。
图6示出了本申请实施例提供的一种服务器的硬件结构示意图。如图6所示,该服务器20,用于实现上述任一方法实施例中对应于服务器的操作,本实施例的服务器20可以包括:存储器21,处理器22和通信接口24。
存储器21,用于存储计算机程序。该存储器21可能包含高速随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储(Non-Volatile Memory,NVM),例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
处理器22,用于执行存储器存储的计算机程序,以实现上述实施例中的工单数据处理方法。具体可以参见前述方法实施例中的相关描述。该处理器22可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
可选地,存储器21既可以是独立的,也可以跟处理器22集成在一起。
当存储器21是独立于处理器22之外的器件时,服务器20还可以包括总线23。该总线23用于连接存储器21和处理器22。该总线23可以是工业标准体系结构(IndustryStandard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
通信接口24,可以通过总线23与处理器21连接。处理器22可以控制通信接口24获取工单数据,以及向其他显示设备发送该处理结果。
本实施例提供的服务器可用于执行上述的工单数据处理方法,其实现方式和技术效果类似,本实施例此处不再赘述。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,计算机可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,计算机可读存储介质耦合至处理器,从而使处理器能够从该计算机可读存储介质读取信息,且可向该计算机可读存储介质写入信息。当然,计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits,ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和计算机可读存储介质也可以作为分立组件存在于通信设备中。
具体地,该计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random-Access Memory,SRAM),电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM),可编程只读存储器(Programmable read-only memory,PROM),只读存储器(Read-OnlyMemory,ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本申请还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。设备的至少一个处理器可以从计算机可读存储介质中读取该计算机程序,至少一个处理器执行该计算机程序使得设备实施上述的各种实施方式提供的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
其中,各个模块可以是物理上分开的,例如安装于一个的设备的不同位置,或者安装于不同的设备上,或者分布到多个网络单元上,或者分布到多个处理器上。各个模块也可以是集成在一起的,例如,安装于同一个设备中,或者,集成在一套代码中。各个模块可以以硬件的形式存在,或者也可以以软件的形式存在,或者也可以采用软件加硬件的形式实现。本申请可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
当各个模块以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。
应该理解的是,虽然上述实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制。尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种工单数据处理方法,其特征在于,所述方法包括:
获取工单数据集合,并根据业务词库和停用词库对所述工单数据集合中的每一工单数据进行分词,得到所述工单数据的关键词集合;
根据所述工单数据、所述工单数据的所述关键词集合和所述业务词库,确定所述关键词集合中每一述关键词的目标权重;
根据所述工单数据的所述关键词集合和所述关键词集合中每一所述关键词的目标权重,确定所述工单数据的工单向量;
使用预设聚类算法和聚类中心集合,对所述工单向量进行聚类分析,确定所述工单向量对应的工单数据的所属类别,所述聚类中心集合中包括至少一个聚类中心,每一所述聚类中心对应于一个类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述工单数据进行分词,得到所述工单数据的多个关键词,包括:
使用业务词库对所述工单数据进行分词,得到所述工单数据的关键词集合;
使用停用词库对所述工单数据的关键词集合进行数据清洗。
3.根据权利要求1所述的方法,其特征在于,所述根据所述工单数据、所述工单数据的所述关键词和所述业务词库,确定每一所述关键词的目标权重,包括:
根据每一所述关键词在所述工单数据中的词频和逆向文件频率,确定每一所述关键词的第一权重;
根据每一所述关键词与所述业务词库中业务词的匹配程度,确定每一所述关键词的第二权重;
根据每一所述关键词在所述工单数据中的位置,确定每一所述关键词的第三权重;
根据预设系数、所述第一权重、所述第二权重和所述第三权重,确定每一所述关键词的目标权重。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法,还包括:
当所述工单向量不属于所述聚类中心集合中任一类别时,计算所述工单向量所属类别的聚类中心,并将所述聚类中心添加到所述聚类中心集合中。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法,还包括:
当所述工单是数据的一关键词不在业务词库中时,将所述关键词作为新的业务词添加到所述业务词库中。
6.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法,还包括:
根据业务词库中每一业务词的出现频率,确定所述业务词的活跃值;
当一业务词的活跃频率连续两次小于预设阈值时,删除所述业务词。
7.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法,还包括:
获取工单样本集,所述工单样本集中包括每一所述工单数据的工单向量和类别标签;
使用预设聚类算法对所述工单向量和所述类型标签进行聚类,得到聚类中心集合,所述聚类中心集合中包括至少一个聚类中心。
8.一种工单数据处理装置,其特征在于,所述装置,包括:
获取模块,用于获取工单数据;
处理模块,用于并对所述工单数据进行分词,得到所述工单数据的多个关键词;根据所述工单数据、所述工单数据的所述关键词、业务词库和停用词库,确定每一所述关键词的目标权重;根据每一所述关键词的目标权重,确定所述工单数据的工单向量;使用预设聚类算法和聚类中心集合,对所述工单向量进行聚类分析,确定所述工单向量所属类别,所述聚类中心集合中包括至少一个聚类中心,每一所述聚类中心对应于一个类别。
9.一种服务器,其特征在于,所述服务器,包括:存储器,处理器;
所述存储器用于存储计算机程序;所述处理器用于根据所述存储器存储的计算机程序,实现如权利要求1-7中任意一项所述的工单数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-7任一项所述的工单数据处理方法。
CN202111446961.1A 2021-11-30 2021-11-30 工单数据处理方法、装置、服务器及可读存储介质 Active CN114266242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111446961.1A CN114266242B (zh) 2021-11-30 2021-11-30 工单数据处理方法、装置、服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111446961.1A CN114266242B (zh) 2021-11-30 2021-11-30 工单数据处理方法、装置、服务器及可读存储介质

Publications (2)

Publication Number Publication Date
CN114266242A true CN114266242A (zh) 2022-04-01
CN114266242B CN114266242B (zh) 2024-07-26

Family

ID=80826138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111446961.1A Active CN114266242B (zh) 2021-11-30 2021-11-30 工单数据处理方法、装置、服务器及可读存储介质

Country Status (1)

Country Link
CN (1) CN114266242B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523320A (zh) * 2023-07-04 2023-08-01 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于互联网大数据的知识产权风险智能分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239687A (zh) * 2021-05-08 2021-08-10 北京天空卫士网络安全技术有限公司 一种数据处理方法和装置
CN113360647A (zh) * 2021-06-03 2021-09-07 云南大学 一种基于聚类的5g移动业务投诉溯源分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239687A (zh) * 2021-05-08 2021-08-10 北京天空卫士网络安全技术有限公司 一种数据处理方法和装置
CN113360647A (zh) * 2021-06-03 2021-09-07 云南大学 一种基于聚类的5g移动业务投诉溯源分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523320A (zh) * 2023-07-04 2023-08-01 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于互联网大数据的知识产权风险智能分析方法
CN116523320B (zh) * 2023-07-04 2023-09-12 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于互联网大数据的知识产权风险智能分析方法

Also Published As

Publication number Publication date
CN114266242B (zh) 2024-07-26

Similar Documents

Publication Publication Date Title
US9864741B2 (en) Automated collective term and phrase index
US8577884B2 (en) Automated analysis and summarization of comments in survey response data
CN110263311B (zh) 一种网络页面的生成方法及设备
US11216618B2 (en) Query processing method, apparatus, server and storage medium
CN111738589B (zh) 基于内容推荐的大数据项目工作量评估方法、装置及设备
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
US11651016B2 (en) System and method for electronic text classification
CN112445775B (zh) 一种光刻机的故障分析方法、装置、设备和存储介质
WO2017091985A1 (zh) 停用词识别方法与装置
CN110909540A (zh) 短信垃圾新词识别方法、装置及电子设备
JP2024518458A (ja) テキスト内の自動トピック検出のシステム及び方法
CN115687621A (zh) 一种短文本标签标注方法及装置
WO2011044025A2 (en) Method and system for taking actions based on analysis of enterprise communication messages
CN114266242A (zh) 工单数据处理方法、装置、服务器及可读存储介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
US20220188512A1 (en) Maintenance of a data glossary
CN109583773A (zh) 一种纳税信用积分确定的方法、系统及相关装置
CN116756176A (zh) 结构化查询语言问题预测方法、装置、设备及存储介质
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN112487181A (zh) 关键词确定方法和相关设备
CN113609407B (zh) 地区一致性校验方法和装置
CN110807082A (zh) 质量抽检项目确定方法、系统、电子设备及可读存储介质
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN111144113B (zh) 一种基于机器学习的能力模型与工单匹配方法及系统
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant