CN111949795A

CN111949795A - 工单自动分类方法及装置

Info

Publication number: CN111949795A
Application number: CN202010818601.9A
Authority: CN
Inventors: 曹广溥; 盛丽晔; 王少华; 刘漱琰
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-17

Abstract

本申请实施例提供一种工单自动分类方法及装置，可用于人工智能技术领域，方法包括：根据目标工单对应的各个词向量获取该目标工单的句向量；将所述目标工单的句向量输入预设的神经网络模型，并基于该神经网络模型的输出确定所述目标工单的分类结果。本申请能够在保证工单自动分类的准确性的基础上，有效提高工单自动分类过程的效率，并能够有效降低工单自动分类过程以及神经网络模型训练过程的计算量，进而能够进一步提高工单分类的自动化程度及智能化程度。

Description

工单自动分类方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及人工智能技术领域，具体涉及工单自动分类方法及装置。

背景技术

人工客服是服务行业重要组成部分，人工客服统计工单存在数据规模大、数据不规则、分类不清晰等问题，很难通过人力去实现工单的问题梳理，因此，如何对这些工单数据进行分类，筛选出重要的工单数据，对于及时掌握企业的运营状态，提高企业的服务能力具有重要的意义。

目前，对工单进行分类的方式通常为人工分类，但该种分类方式大多落后于现实情况，因为企业无法预测将会发生什么问题，并且很多人工客服工作不到位，导致工单分类杂乱，大多数企业为了筛选出需要的工单，只能投入人力去进行筛选。这种方式，一方面是对人力资源的二次浪费，并且面对大规模的数据，无法全方位的去筛选；另一方面，筛选数据的质量也和筛选工作人员的经验息息相关，工作人员能力的高低，直接决定了筛选数据的可用性；为了解决该问题，还有的工单分类方式通过获取工单数据的分词结果对工单数据进行自动分类，但该分类方式需要对工单数据的各个词向量分别进行分类，需要耗费大量的数据计算量及时间成本，无法满足工单分类的时效性要求。

发明内容

针对现有技术中的问题，本申请提供一种工单自动分类方法及装置，能够在保证工单自动分类的准确性的基础上，有效提高工单自动分类过程的效率，并能够有效降低工单自动分类过程以及神经网络模型训练过程的计算量，进而能够进一步提高工单分类的自动化程度及智能化程度。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种工单自动分类方法，包括：

根据目标工单对应的各个词向量获取该目标工单的句向量；

将所述目标工单的句向量输入预设的神经网络模型，并基于该神经网络模型的输出确定所述目标工单的分类结果。

进一步地，所述根据目标工单对应的各个词向量获取该目标工单的句向量，包括：

获取目标工单数据；

对所述目标工单数据进行数据清洗，得到该目标工单数据对应的分词数据；

获取所述分词数据中的各个词汇各自对应的词向量；

对各个所述词向量的和进行求平均数处理，得到所述目标工单数据对应的句向量。

进一步地，所述基于该神经网络模型的输出确定所述目标工单的分类结果，包括：

在所述神经网络模型的输出的至少一个所述目标工单的初始分类结果中，判断是否包含有占比大于概率阈值的初始分类结果，若是，则将该占比大于概率阈值的初始分类结果确定为所述目标工单的分类结果。

进一步地，还包括：

若经判断获知所述神经网络模型的输出的至少一个所述目标工单的初始分类结果中，未包含有占比大于概率阈值的初始分类结果，则对所述目标工单的句向量进行聚类处理。

进一步地，在所述将所述目标工单的句向量输入预设的神经网络模型之前，还包括：

获取多个历史工单的原始数据；

对各个所述历史工单的原始数据分别进行数据清洗，得到各个所述历史工单各自对应的分词数据；

获取所述分词数据中的各个词汇各自对应的词向量；

分别对每个所述历史工单对应的词向量进行和进行求平均数处理，得到各个所述历史工单各自对应的句向量；

对各个所述句向量进行聚类处理，得到对应的聚类数据集；

基于预设的fastText文本分类算法，应用所述聚类数据集训练得到用于进行工单分类的神经网络模型。

进一步地，所述对各个所述句向量进行聚类处理，得到对应的聚类数据集，包括：

根据预设的多个工单类型确定用于数据聚类的质点数量；

基于各个所述工单类型和对应的所述质点，对各个所述历史工单各自对应的句向量进行聚类处理，得到对应的聚类数据集。

进一步地，所数据清洗包括：分词及去停用词处理。

第二方面，本申请提供一种工单自动分类装置，包括：

句向量获取模块，用于根据目标工单对应的各个词向量获取该目标工单的句向量；

工单分类模块，用于将所述目标工单的句向量输入预设的神经网络模型，并基于该神经网络模型的输出确定所述目标工单的分类结果。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的工单自动分类方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的工单自动分类方法。

由上述技术方案可知，本申请提供的一种工单自动分类方法及装置，方法包括：根据目标工单对应的各个词向量获取该目标工单的句向量；将所述目标工单的句向量输入预设的神经网络模型，并基于该神经网络模型的输出确定所述目标工单的分类结果；通过先获取工单的各个词向量对应的句向量，并将该句向量输入机器学习模型以进行工单分类，能够避免针对多个词向量分别进行处理后预测造成的预测耗时长及数据处理量大的问题，能够在保证工单自动分类的准确性的基础上，有效提高工单自动分类过程的效率，并能够有效降低工单自动分类过程以及神经网络模型训练过程的计算量，进而能够进一步提高工单分类的自动化程度及智能化程度，能够有效降低工单数据处理过程的人力成本及时间成本，有效提高具有工单分类需求的企业的用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的工单自动分类方法的流程示意图。

图2是本申请实施例中的工单自动分类方法中步骤100的流程示意图。

图3是本申请实施例中的工单自动分类方法中步骤200的第一种流程示意图。

图4是本申请实施例中的工单自动分类方法中步骤200的第二种流程示意图。

图5是本申请实施例中工单自动分类方法的步骤010至步骤060的流程示意图。

图6是本申请实施例中工单自动分类方法的步骤050的具体流程示意图。

图7是本申请实施例中的工单自动分类装置的结构示意图。

图8是本申请应用实例中的工单自动分类系统的结构示意图。

图9是本申请应用实例中的工单自动分类系统中向量转换单元的结构示意图。

图10是本申请应用实例中的工单自动分类系统中聚类单元的结构示意图。

图11是本申请应用实例中的工单自动分类系统中文本分类单元的结构示意图。

图12是本申请应用实例中的工单自动分类方法的流程示意图。

图13是本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请公开的工单自动分类方法和装置可用于人工智能技术领域，也可用于除人工智能技术领域之外的任意领域，本申请公开的工单自动分类方法和装置的应用领域不做限定。

考虑到现有的工单自动分类方式存在的需要对工单数据的各个词向量分别进行分类所带来的需要耗费大量的数据计算量及时间成本，无法满足工单分类的时效性要求等问题，本申请提供一种工单自动分类方法、工单自动分类装置、电子设备和计算机可读存储介质，克服了现有客服工单系统处理工单数据效率低、无法识别最新问题等缺陷，通过聚类模型辅助工作人员进行工单数据种类定义，再通过构建工单分类模型，辅助工作人员进行工单智能分类，同时，对于出现新问题的工单，系统可以自学习，对其进行聚类、分类训练，使系统可持续的对工单数据进行分类，提高了工单分类的覆盖范围。

基于上述内容，本申请还提供一种用于实现本申请一个或多个实施例中提供的工单自动分类方法的分类处理中心，该分类处理中心可以分别与目标企业的工单接收系统和客户终端设备之间通信连接，所述工单接收系统和客户终端设备均可以设有多个，分类处理中心与工单接收系统之间具体可以通过各自的应用服务器互相访问。

其中，所述工单接收系统可以与图像采集设备通信连接，以通过接收图像采集设备拍摄的目标工单的工单图像，并应用预设的用于进行图像识别的机器学习模型(如CTPN+CRNN等)或者OCR识别技术对工单图像数据进行图像识别，得到目标工单数据。

而后，所述工单接收系统可以将该目标工单数据发送至分类处理中心，分类处理中心接收目标工单数据，并根据该目标工单数据获取目标工单对应的各个词向量，根据目标工单对应的各个词向量获取该目标工单的句向量；将所述目标工单的句向量输入预设的神经网络模型，并基于该神经网络模型的输出确定所述目标工单的分类结果；而后，所述分类处理中心可以将目标工单的分类结果发送至客户端设备进行显示，以使用户根据客户端设备获得目标工单的分类结果。

可以理解的是，所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在另一实际应用情形中，进行工单自动分类的部分可以在如上述内容所述的分类处理中心执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于进行工单自动分类的具体处理。

在另一实际应用情形中，进行工单图像识别的部分可以在如上述内容所述的工单接收系统执行，也可以所有的操作都在所述分类处理中心和/或客户端设备中完成。具体可以根据所述分类处理中心和/或客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于进行工单图像识别及工单自动分类的具体处理。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。例如，通信单元可以将工单图像识别或者工单自动分类指令发送至分类处理中心的服务器，以便服务器根据工单图像识别或者工单自动分类指令进行工单图像识别或者工单自动分类。通信单元还可以接收服务器返回的识别结果。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

本申请提供的工单自动分类方法、工单自动分类装置、电子设备和计算机可读存储介质，能够在保证工单自动分类的准确性的基础上，有效提高工单自动分类过程的效率，并能够有效降低工单自动分类过程以及神经网络模型训练过程的计算量，进而能够进一步提高工单分类的自动化程度及智能化程度。

具体通过下述多个实施例及应用实例分别进行说明。

为了解决现有的工单分类方式需要耗费大量的数据计算量及时间成本，无法满足工单分类的时效性要求等问题，本申请提供一种工单自动分类方法的实施例，参见图1，所述工单自动分类方法具体包含有如下内容：

步骤100：根据目标工单对应的各个词向量获取该目标工单的句向量。

可以理解的是，所述目标工单是指当前处于自动分类处理过程中的工单，其中，所述工单是指工作单据。工单定义由一个和多个作业组成的简单维修或制造计划，上级部门下达任务，下级部门领受任务的依据。工单可以是独立的，也可以是大型项目的一部分，可以为工单定义子工单。

所述工单数据可以包含有表头数据和作业行数据，表头数据可以包含有：1.组织：工单所属于的公司；2.工单代码及描述：标识工单的唯一代码和对工单的描述；3.问题：是什么问题(需求)导致了此工作单的产生，例如可能是设备损坏、设备故障等等；4.设备种类：此工单所涉及到的设备所属的类别。种类公司对设备的归类，便于管理。例如对同一型号或批次发动机归类，这非常有利于企业设备的管理；5.工作种类：指此工单属于那种工作范围；6.持续时间：指工单的有效期限(下达任务需在什么时间之前完成)；7.位置：指完成此工作所在的位置；8.状态：指例如工作申请、已下达、正在进行、已完成等等。所述作业行数据可以包含有：1.作业代码：作业的作业号；2.工种：完成此作业的工种，工种是指执行维护工作的技能类型；3.任务：此作业需要执行的任务列表；4.物料表：包含在作业中的物料表，物料表涉及到完成此作业的物资需求；5.预计工时：完成工作的预计工时；6.开始日期：执行作业的开始日期；7.持续时间：作业的持续时间；8.雇佣人工：如果需要公司外部的资源来完成此作业，需要填写此内容列表；9.原因：此作业被创建的原因；10.已完成工作：已经执行的工作；11.技术故障：技术人员或供应商认为出现故障的原因；12.制造商：与作业设备关联的供应商或者制造商；10.作业备注：相关的说明。

步骤200：将所述目标工单的句向量输入预设的神经网络模型，并基于该神经网络模型的输出确定所述目标工单的分类结果。

可以理解的是，工单的类型可以根据实际应用需要进行选取，例如，可以根据工单的性质进行分类，例如可以包含有：未完成工单、待响应工单、星标工单和重要工单等，还可以根据工单的用途和场景进行分类，例如可以包含有：工程部工单、运维部工单以及客服部工单等。当然，工单的类型需要在进行神经网络模型训练之前预先确定，使得该神经网络模型用于输出对应类型的分类结果。在本申请的一个优选举例中，所述工单可以为客服工单，且客服工单可以划分为多种类型，例如：投诉工单、需求工单、退货工单及退费工单等。

从上述描述可知，本申请实施例提供的工单自动分类方法，通过先获取工单的各个词向量对应的句向量，并将该句向量输入机器学习模型以进行工单分类，能够避免针对多个词向量分别进行处理后预测造成的预测耗时长及数据处理量大的问题，能够在保证工单自动分类的准确性的基础上，有效提高工单自动分类过程的效率，并能够有效降低工单自动分类过程以及神经网络模型训练过程的计算量，进而能够进一步提高工单分类的自动化程度及智能化程度，能够有效降低工单数据处理过程的人力成本及时间成本，有效提高具有工单分类需求的企业的用户体验。

为了提供一种获取句向量的优选方式，在本申请提供的工单自动分类方法的一个实施例中，参见图2，在所述工单自动分类方法中的步骤100具体包含有如下内容：

步骤110：获取目标工单数据。

在步骤110中，用于实现所述工单自动分类方法的工单自动分类装置可以自一工单接收系统获取目标工单数据，其中，所述工单接收系统可以与图像采集设备通信连接，以通过接收图像采集设备拍摄的目标工单的工单图像，并应用预设的用于进行图像识别的机器学习模型(如CTPN+CRNN等)或者OCR识别技术对工单图像数据进行图像识别，得到目标工单数据。

步骤120：对所述目标工单数据进行数据清洗，得到该目标工单数据对应的分词数据。

在步骤120中，工单自动分类装置可以在得到该目标工单数据对应的分词数据之后，将目标工单数据存入分词数据集中。所述分词数据集，是指将工单分类后的数据，每个工单对应一条数据。

步骤130：获取所述分词数据中的各个词汇各自对应的词向量。

步骤140：对各个所述词向量的和进行求平均数处理，得到所述目标工单数据对应的句向量。

在步骤140中，所述工单句向量，是指涵盖工单数据信息的向量。所述工单句向量集合，是指由工单句向量组成的向量矩阵。

从上述描述可知，本申请实施例提供的工单自动分类方法，能够有效提高工单的句向量的获取效率及有效性，进而能够为神经网络模型分类提供准确且有效的数据基础，以进一步提高工单自动分类的准确性及效率。

为了提供一种工单分类结果确定的优选方式，在本申请提供的工单自动分类方法的一个实施例中，参见图3，在所述工单自动分类方法中的步骤200具体包含有如下内容：

步骤210：在所述神经网络模型的输出的至少一个所述目标工单的初始分类结果中，判断是否包含有占比大于概率阈值的初始分类结果，若是，则执行步骤220：将该占比大于概率阈值的初始分类结果确定为所述目标工单的分类结果。

可以理解的是，所述概率阈值可以根据实际要求进行设置，优选为0.5-09之间，例如可以设置为0.7、0.75或0.8等数值，以有效提高分类准确性。

从上述描述可知，本申请实施例提供的工单自动分类方法，能够有效提高确定工单分类结果的效率，进而能够有效提高工单分类结果输出的效率及可靠性。

为了提供一种工单分类未成功时的辅助手段，在本申请提供的工单自动分类方法的一个实施例中，参见图4，在所述工单自动分类方法中的步骤200还具体包含有在步骤210之后执行的如下内容：

若经步骤210判断获知所述神经网络模型的输出的至少一个所述目标工单的初始分类结果中，未包含有占比大于概率阈值的初始分类结果，则执行步骤230：对所述目标工单的句向量进行聚类处理。

可以理解的是，所述聚类方式可以为：由专家系统单元辅助确认质点数量，质点数量由经验决定，可通过多次分析聚类算法结果得出。所述质点，是指每种类别的中心点，与中心点距离越近，则数据该类别可能性越高；而后初始化质点向量，使用随机数生成；再计算工单句向量到每个质点向量的最小二次误差，最好通过比较误差与预期阈值的差距，如果不满足预期阈值，则返回重新进行聚类处理，如果满足预期阈值，则完成聚类处理。

从上述描述可知，本申请实施例提供的工单自动分类方法，能够在工单分类不成功时，提供一种有效且高效的辅助处理手段，通过对句向量进行聚类，能够快速且准确地获取当前工单的类型。

为了提供一种模型训练过程的优选方式，在本申请提供的工单自动分类方法的一个实施例中，参见图5，在所述工单自动分类方法中的步骤200之前(也可以在步骤100之前)还具体包含有如下内容：

步骤010：获取多个历史工单的原始数据。

在步骤010中，用于实现所述工单自动分类方法的工单自动分类装置可以自一工单数据库获取多个历史工单的原始数据。

步骤020：对各个所述历史工单的原始数据分别进行数据清洗，得到各个所述历史工单各自对应的分词数据。

在步骤020中，工单自动分类装置可以在得到各个所述历史工单的原始数据对应的分词数据之后，将分词数据存入分词数据集中。所述分词数据集，是指将工单分类后的数据，每个工单对应一条数据。

步骤030：获取所述分词数据中的各个词汇各自对应的词向量。

步骤040：分别对每个所述历史工单对应的词向量进行和进行求平均数处理，得到各个所述历史工单各自对应的句向量。

在步骤040中，将分词数据集中的工单数据转换成工单句向量集合。所述工单句向量，是指涵盖工单数据信息的向量。所述工单句向量集合，是指由工单句向量组成的向量矩阵。

步骤050：对各个所述句向量进行聚类处理，得到对应的聚类数据集。

步骤060：基于预设的fastText文本分类算法，应用所述聚类数据集训练得到用于进行工单分类的神经网络模型。

可以理解的是，fastText文本分类算法是Facebook开源的一个词向量与文本分类工具，典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句，还有使用子字(sub word)信息，并通过隐藏表征在类别间共享信息。另外采用了一个SoftMax层级(利用了类别不均衡分布的优势)来加速运算过程。fastText模型输入一个词的序列(一段文本或者一句话)，输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签。fastText在预测标签时使用了非线性激活函数，但在中间层不使用非线性激活函数。

从上述描述可知，本申请实施例提供的工单自动分类方法，能够有效提高用于进行工单分类的神经网络模型的应用准确性，进而能够有效提高工单分类的自动化程度及智能化程度。

为了提供一种聚类的优选方式，在本申请提供的工单自动分类方法的一个实施例中，参见图6，所述工单自动分类方法中的步骤050具体包含有如下内容：

步骤051：根据预设的多个工单类型确定用于数据聚类的质点数量。

步骤052：基于各个所述工单类型和对应的所述质点，对各个所述历史工单各自对应的句向量进行聚类处理，得到对应的聚类数据集。

从上述描述可知，本申请实施例提供的工单自动分类方法，能够有效提高聚类的效率及准确性，进而能够有效提高神经网络模型训练的效率及准确性，并有效降低训练神经网络模型所需的数据计算量。

为了提供一种聚类的优选方式，在本申请提供的工单自动分类方法的一个实施例中，所述工单自动分类方法中的所数据清洗包括：分词及去停用词处理。从上述描述可知，本申请实施例提供的工单自动分类方法，能够有效提高数据清洗的针对性及可靠性，进而能够有效提高神经网络模型训练的对性及可靠性。

从软件层面来说，为了解决现有的工单分类方式需要耗费大量的数据计算量及时间成本，无法满足工单分类的时效性要求等问题，本申请提供一种用于执行所述工单自动分类方法中全部或部分内容的工单自动分类装置的实施例，参见图7，所述工单自动分类装置具体包含有如下内容：

句向量获取模块10，用于根据目标工单对应的各个词向量获取该目标工单的句向量。

工单分类模块20，用于将所述目标工单的句向量输入预设的神经网络模型，并基于该神经网络模型的输出确定所述目标工单的分类结果。

本申请提供的工单自动分类装置的实施例具体可以用于执行上述实施例中的工单自动分类装置的实施例的处理流程，其功能在此不再赘述，可以参照上述装置实施例的详细描述。

从上述描述可知，本申请实施例提供的工单自动分类装置，通过先获取工单的各个词向量对应的句向量，并将该句向量输入机器学习模型以进行工单分类，能够避免针对多个词向量分别进行处理后预测造成的预测耗时长及数据处理量大的问题，能够在保证工单自动分类的准确性的基础上，有效提高工单自动分类过程的效率，并能够有效降低工单自动分类过程以及神经网络模型训练过程的计算量，进而能够进一步提高工单分类的自动化程度及智能化程度，能够有效降低工单数据处理过程的人力成本及时间成本，有效提高具有工单分类需求的企业的用户体验。

为了提供一种获取句向量的优选方式，在本申请提供的工单自动分类装置的一个实施例中，在所述工单自动分类装置中的句向量获取模块10具体用于执行如下内容：

步骤110：获取目标工单数据。

在步骤110中，用于实现所述工单自动分类装置的工单自动分类装置可以自一工单接收系统获取目标工单数据，其中，所述工单接收系统可以与图像采集设备通信连接，以通过接收图像采集设备拍摄的目标工单的工单图像，并应用预设的用于进行图像识别的机器学习模型(如CTPN+CRNN等)或者OCR识别技术对工单图像数据进行图像识别，得到目标工单数据。

从上述描述可知，本申请实施例提供的工单自动分类装置，能够有效提高工单的句向量的获取效率及有效性，进而能够为神经网络模型分类提供准确且有效的数据基础，以进一步提高工单自动分类的准确性及效率。

为了提供一种工单分类结果确定的优选方式，在本申请提供的工单自动分类装置的一个实施例中，在所述工单自动分类装置中的工单分类模块20具体用于执行如下内容：

从上述描述可知，本申请实施例提供的工单自动分类装置，能够有效提高确定工单分类结果的效率，进而能够有效提高工单分类结果输出的效率及可靠性。

为了提供一种工单分类未成功时的辅助手段，在本申请提供的工单自动分类装置的一个实施例中，在所述工单自动分类装置中的工单分类模块20还具体用于执行如下内容：

从上述描述可知，本申请实施例提供的工单自动分类装置，能够在工单分类不成功时，提供一种有效且高效的辅助处理手段，通过对句向量进行聚类，能够快速且准确地获取当前工单的类型。

为了提供一种模型训练过程的优选方式，在本申请提供的工单自动分类装置的一个实施例中，所述工单自动分类装置还具体用于执行如下内容：

步骤010：获取多个历史工单的原始数据。

在步骤010中，用于实现所述工单自动分类装置的工单自动分类装置可以自一工单数据库获取多个历史工单的原始数据。

从上述描述可知，本申请实施例提供的工单自动分类装置，能够有效提高用于进行工单分类的神经网络模型的应用准确性，进而能够有效提高工单分类的自动化程度及智能化程度。

为了提供一种聚类的优选方式，在本申请提供的工单自动分类装置的一个实施例中，所述工单自动分类装置还具体用于执行如下内容：

从上述描述可知，本申请实施例提供的工单自动分类装置，能够有效提高聚类的效率及准确性，进而能够有效提高神经网络模型训练的效率及准确性，并有效降低训练神经网络模型所需的数据计算量。

为了提供一种聚类的优选方式，在本申请提供的工单自动分类装置的一个实施例中，所数据清洗包括：分词及去停用词处理。从上述描述可知，本申请实施例提供的工单自动分类装置，能够有效提高数据清洗的针对性及可靠性，进而能够有效提高神经网络模型训练的对性及可靠性。

为了进一步说明本方案，本申请还提供一种应用工单自动分类系统实现所述工单自动分类方法的具体应用实例，涉及人工智能客服技术领域，参见图8，工单自动分类系统包括：分词单元101、向量转换单元102、聚类单元103、专家系统单元104、文本分类单元105、工单分类单元106和结果展示单元。

分词单元101，对客服工单原始数据进行清洗，并将数据存入分词数据集中。所述清洗，是指对客服工单原始数据进行分词、去停用词等处理。所述客服工单原始数据，是指客服收集的包含客户问题的工单数据。所述分词数据集，是指将工单分类后的数据，每个工单对应一条数据。

向量转换单元102，将分词数据集中的工单数据转换成工单句向量集合。所述工单句向量，是指涵盖工单数据信息的向量。所述工单句向量集合，是指由工单句向量组成的向量矩阵。

参见图9，所述向量转换单元102包含有如下内容：

词向量转换模块201，通过以下方法来计算词语的词向量：

if x＜x_max f(x)＝(x/x_max)^α

if x＞x_max f(x)＝1

其中，J为平方差，W_i、W_k表示i和k的词向量，X_ik表示词汇k出现在词汇i上线文中的次数总和，V表示词汇的数量，b_i、b_k、X_max、a都为调节参数。

句向量转换模块202，通过将单个工单中所有词向量取和平均，得到工单的句向量。

聚类单元103，通过对工单句向量集合进行聚类分析，得出聚类数据集。

参见图10，所述聚类单元103包含有如下内容：

质点数量确认模块301，由专家系统单元辅助确认质点数量，质点数量由经验决定，可通过多次分析聚类算法结果得出。所述质点，是指每种类别的中心点，与中心点距离越近，则数据该类别可能性越高。

质点初始化模块302，用于初始化质点向量，使用随机数生成。

聚类模型训练模块303，计算工单句向量到每个质点向量的最小二次误差。所述最小二次误差，是指：

聚类数据核算模块304，通过比较误差与预期阈值的差距，如果不满足预期阈值，则返回聚类模型训练模块继续训练，如果满足预期阈值，则数据结果。

专家系统单元104，用于辅助聚类单元确认质点数量。

文本分类单元105，以聚类数据集为基础，训练神经网络模型，用于文本分类。所述神经网络模型，是指fastText文本分类算法训练出的模型。

参见图11，所述文本分类单元105包含有如下内容：

文本分类训练模块401，用于训练fastText文本分类模型。输入数据为聚类数据集，输出数据为文本种类，隐含层为向量矩阵。输入数据与向量矩阵进行函数运算，可以得到文本种类对应的数字值。

文本分类核算模块402，通过比较模型输出数据与期望数据的差值，来确定是否需要继续训练。如果差值高于阈值，则返回文本分类训练模块401重新训练，修改隐含层向量矩阵的值；如果差值低于阈值，则停止训练。

工单分类单元106，使用文本分类模型，对待分类工单数据进行分类。如果分类结果明确，即种类概率高于0.7，将分类结果输出至结果展示单元；如果分类结果不明确，即种类概率低于0.7，将分类结果输出至聚类单元重新聚类。所述种类概率，是指分类结果输出的属于各个分类的概率，取概率最高的分类作为输出分类，其对应的概率即是种类概率。

结果展示单元，将分类结果在前台页面展示。

参见图12，应用上述工单自动分类系统实现的工单自动分类方法的具体流程如下：

步骤1：对客服工单原始数据进行分词处理。

步骤2：通过词向量算法将分词后的工单数据集转换成词向量，再通过平均法将词向量转换为句向量，每个句向量代表一个工单。

步骤3：通过聚类算法对工单句向量进行聚类，并在专家系统辅助下，对工单句向量进行分类定义。

步骤4：通过神经网络算法对已分类的工单句向量进行建模。

步骤5：通过工单分类模型来对新的工单进行预测，将满足条件的数据进行结果展示，将不满足条件的数据通过聚类算法重新聚类。

从上述描述可知，本申请应用实例提供的工单自动分类方法及系统，克服了现有客服工单系统处理工单数据效率低、无法识别最新问题等缺陷，通过聚类模型辅助工作人员进行工单数据种类定义，再通过构建工单分类模型，辅助工作人员进行工单智能分类，同时，对于出现新问题的工单，系统可以自学习，对其进行聚类、分类训练，使系统可持续的对工单数据进行分类，提高了工单分类的覆盖范围。

从硬件层面来说，为了解决现有的工单分类方式需要耗费大量的数据计算量及时间成本，无法满足工单分类的时效性要求等问题，本申请提供一种用于实现所述工单自动分类方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

图13为本申请实施例的电子设备9600的系统构成的示意框图。如图13所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图13是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，工单自动分类功能可以被集成到中央处理器中。其中，中央处理器可以被配置为进行如下控制：

从上述描述可知，本申请实施例提供的电子设备，通过先获取工单的各个词向量对应的句向量，并将该句向量输入机器学习模型以进行工单分类，能够避免针对多个词向量分别进行处理后预测造成的预测耗时长及数据处理量大的问题，能够在保证工单自动分类的准确性的基础上，有效提高工单自动分类过程的效率，并能够有效降低工单自动分类过程以及神经网络模型训练过程的计算量，进而能够进一步提高工单分类的自动化程度及智能化程度，能够有效降低工单数据处理过程的人力成本及时间成本，有效提高具有工单分类需求的企业的用户体验。

在另一个实施方式中，工单自动分类装置可以与中央处理器9100分开配置，例如可以将工单自动分类装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现工单自动分类功能。

如图13所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图13中所示的所有部件；此外，电子设备9600还可以包括图13中没有示出的部件，可以参考现有技术。

如图13所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的工单自动分类方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的工单自动分类方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例提供的计算机可读存储介质，通过先获取工单的各个词向量对应的句向量，并将该句向量输入机器学习模型以进行工单分类，能够避免针对多个词向量分别进行处理后预测造成的预测耗时长及数据处理量大的问题，能够在保证工单自动分类的准确性的基础上，有效提高工单自动分类过程的效率，并能够有效降低工单自动分类过程以及神经网络模型训练过程的计算量，进而能够进一步提高工单分类的自动化程度及智能化程度，能够有效降低工单数据处理过程的人力成本及时间成本，有效提高具有工单分类需求的企业的用户体验。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种工单自动分类方法，其特征在于，包括：

根据目标工单对应的各个词向量获取该目标工单的句向量；

2.根据权利要求1所述的工单自动分类方法，其特征在于，所述根据目标工单对应的各个词向量获取该目标工单的句向量，包括：

获取目标工单数据；

获取所述分词数据中的各个词汇各自对应的词向量；

3.根据权利要求1所述的工单自动分类方法，其特征在于，所述基于该神经网络模型的输出确定所述目标工单的分类结果，包括：

4.根据权利要求3所述的工单自动分类方法，其特征在于，还包括：

5.根据权利要求1所述的工单自动分类方法，其特征在于，在所述将所述目标工单的句向量输入预设的神经网络模型之前，还包括：

获取多个历史工单的原始数据；

获取所述分词数据中的各个词汇各自对应的词向量；

对各个所述句向量进行聚类处理，得到对应的聚类数据集；

6.根据权利要求5所述的工单自动分类方法，其特征在于，所述对各个所述句向量进行聚类处理，得到对应的聚类数据集，包括：

根据预设的多个工单类型确定用于数据聚类的质点数量；

7.根据权利要求2或5所述的工单自动分类方法，其特征在于，所数据清洗包括：分词及去停用词处理。

8.一种工单自动分类装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述的工单自动分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的工单自动分类方法。