CN111191529B

CN111191529B - 一种处理异常工单的方法及系统

Info

Publication number: CN111191529B
Application number: CN201911298894.6A
Authority: CN
Inventors: 李程坤; 沙源; 丁隆乾; 罗红; 阮泽凯; 章婷婷; 郑文彬
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-04-28
Anticipated expiration: 2039-12-17
Also published as: CN111191529A

Abstract

本发明的实施方式提供了一种处理异常工单的方法，其中，所述异常工单为除质检结论为合格的工单以外的其他工单。所述处理异常工单的方法包括：通过深度神经网络模型从所述异常工单中提取特征属性，其中，该特征属性具有m个维度，m>200；将所述特征属性转换成状态矩阵；将所述状态矩阵输入到异常工单决策模型中，其中，所述异常工单决策模型是以经过人工处理的异常工单的信息记录为样本数据通过深度强化学习算法训练得到的，所述异常工单决策模型的输入量为所述状态矩阵，所述异常工单决策模型的输出量为表征处理方案的权重向量；及通过所述异常工单决策模型计算出针对所述异常工单的处理方案。

Description

一种处理异常工单的方法及系统

技术领域

本发明实施例涉及计算机技术领域，特别涉及一种处理异常工单的方法及系统。

背景技术

传统的工单质检结果分析方式是人工审核不合格、无法识别的工单图片，并将同一类的问题工单汇总反馈给装维人员，并指导他们进行改进，或者反馈给质检系统开发人员，让其优化系统。然而，人工审核的需求成本高，要求必须熟悉项目和了解算法模型，并且人工审核后还需要大量的工作去汇总并反馈，因而技术人员就想到利用机器来完成工单的审核过程。

一种现有技术是利用计算机来提取工单图片中的信息，并用标签来表征图片的信息，然后设定与该标签匹配的处理方案，使标签和处理方案一一匹配，并将匹配规则存储到系统中。这样计算机能够根据所提取出来的标签来自动对应处理方案；然而，这种人为设定好的一一对应的匹配规则泛化能力很差，而且对于新的特征标签不具备学习能力。

另外，由于工单图片中的特征信息是高维的，现有的强化学习模型会对高维特征属性进行降维处理，或者对于同一属性的特征标签，人为的设定低维特征去表征其特征属性，这种方法虽然降低了计算的复杂度，但是低维的特征很难表征工单图片真实的特征属性，因而会影响处理方案的准确性。

发明内容

本发明实施方式的目的在于提供一种处理异常工单的方法，可以通过计算机自动的完成异常工单的处理过程，且提高处理方案的准确性。

为解决上述技术问题，本发明的实施方式提供了一种处理异常工单的方法，其中，所述异常工单为除质检结论为合格的工单以外的其他工单。所述处理异常工单的方法包括：通过深度神经网络模型从所述异常工单中提取特征属性，其中，该特征属性具有m个维度，m>200；将所述特征属性转换成状态矩阵；将所述状态矩阵输入到异常工单决策模型中，其中，所述异常工单决策模型是以经过人工处理的异常工单的信息记录为样本数据通过深度强化学习算法训练得到的，所述异常工单决策模型的输入量为所述状态矩阵，所述异常工单决策模型的输出量为表征处理方案的权重向量；及通过所述异常工单决策模型计算出针对所述异常工单的处理方案。

本发明实施方式相对于现有技术而言，通过深度强化学习算法来训练异常工单的决策模型，该决策模型可直接对由深度神经网络模型提取出的工单图片的高维特征属性进行处理，然后输出相应的处理方案。由于这些高维的特征属性可以更准确地表达异常工单的特征，所以本实施方式可以大大提高输出的处理方案的准确性。

另外，所述训练异常工单决策模型的步骤具体为：步骤a)：基于经过人工处理的异常工单的信息记录来建立样本池，所述样本池包括H条样本，每条样本包括工单图片、质检结果、处理方案及客户反馈数据，其中H>4000；步骤b)：通过所述深度神经网络模型从所述每条样本的工单图片中提取特征属性，并转换成状态矩阵，其中，所述特征属性具有m个维度，m>200；步骤c)：基于马尔科夫决策过程和策略逼近算法建立初始模型，所述初始模型的各个参数被设置成初始值；步骤d)：将所述每条样本的状态矩阵输入到所述初始模型中，以得到多个中间动作及相应的多个中间回报值，并累加所述多个中间回报值以得到在所述初始模型下该条样本可获得的总回报值，且在所述样本池中新增一条训练数据；步骤e)：将每条样本的总回报值进行累加，以得到在所述初始模型下所有样本能够获得的累积回报值；步骤f)：更新目前的模型中的各个参数，以得到迭代模型；步骤g)：将每条样本的所述状态矩阵输入到所述迭代模型中，以得到多个中间动作及相应的多个中间回报值，并累加所述多个中间回报值，以得到在所述迭代模型下该条样本可获得的总回报值，且在所述样本池中新增一条训练数据；步骤h：将每条样本的总回报值进行累加，以得到在所述迭代模型下所有样本能够获得的累积回报值；步骤i)：重复步骤f)至步骤h)，直到所述各个参数收敛，或所述样本池中存放W个训练数据，其中，W>80000。

与现有技术相比，上述实施方式采用深度神经网络从样本中的工单图片提取出高维的特征属性，并将高维的特征属性经权重处理后直接作为异常工单决策模型的训练，这样能够使异常工单决策模型在训练的过程中更好的学习异常工单的特征，以提高模型的准确性。

另外，所述质检结果包括：不合格、疑似不合格、无法识别及场景不支持，所述每一种质检结果在所述样本池中的数量均分。所述客户反馈数据包括：合理、需明确及不合理，每一种客户反馈数据在所述样本池中的数量均分。这样，能够使样本池中的样本涵盖各种情况，以提供给决策模型进行学习。

另外，所述特征属性X＝(X₁,X₂,X₃,…,X_m)，所述状态矩阵S＝WX，其中，W为所述各特征属性的权重向量，W＝(ω₁,ω₂,...,ω_m)。

另外，所述初始模型为

其中，θ为参数向量，θ＝(θ₁,θ₂,...,θ_m)，

为第i维的排序权重分，

另外，所述初始模型或所述迭代模型μ_θ的累计回报值

本发明的实施方式还提供了一种异常工单处理系统，其包括：特征提取器，其用于通过深度神经网络模型从所述异常工单中提取特征属性，其中，该特征属性具有m个维度，m>200；特征转换器，其用于将所述特征属性转换成状态矩阵；异常工单决策模型，其用于接受所述状态矩阵，并计算出表征所述异常工单的处理方案的权重向量，其中，所述异常工单决策模型是以经过人工处理的异常工单的信息记录为样本数据通过深度强化学习算法训练得到的。

本发明的实施方式还提供了一种异常工单处理系统，其包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述处理异常工单的方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行上述处理异常工单的方法。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式的处理异常工单的方法的流程示意图；

图2是本发明第一实施方式中的训练异常工单决策模型的步骤的示意图；

图3是根据本发明第二实施方式的异常工单处理系统的示意图；

图4是根据本发明第三实施方式的异常工单处理系统的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种处理异常工单的方法，其中，所述异常工单为除质检结论为合格的工单以外的其他工单。本实施方式的核心在于通过深度强化学习算法训练异常工单决策模型，该决策模型可直接对由深度神经网络模型提取出的工单图片的高维特征属性进行处理，然后输出相应的处理方案。由于这些高维的特征属性可以更准确地表达异常工单的特征，所以本实施方式可以大大提高输出的处理方案的准确性。下面对本实施方式的处理异常工单的方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本发明第一实施方式的处理异常工单的方法的流程示意图如图1所示，处理异常工单的方法100包括步骤101至步骤104。

步骤101：通过深度神经网络模型从异常工单中提取特征属性X，其中，该特征属性X具有m个维度，m>200，X可以表达成一个1*m的矩阵。例如，异常工单通过深度神经网络模型提取出来的特征属性有：分光器端口插头数、分光器排数、标签、通过文字识别模型对标签进行识别而得的标签文本、二维码、通过二维码识别模型对二维码进行识别而得二维码文本信息。较佳的，特征属性具有268个维度，即：m＝268。

步骤102：将特征属性X转换成状态矩阵S，其中，S＝WX，W是权重向量，其可表达成一个m*1的矩阵，W＝(ω₁,ω₂,...,ω_m)，这样状态矩阵S为m*m的矩阵。

步骤103：将状态矩阵S输入到异常工单决策模型中，其中，异常工单决策模型是以经过人工处理的异常工单的信息记录为样本数据通过深度强化学习算法训练得到的，异常工单决策模型的输入量为状态矩阵S，异常工单决策模型的输出量为表征处理方案的权重向量。

步骤104：通过所述异常工单决策模型计算出针对所述异常工单的处理方案。

与现有技术相比，本发明实施方式通过深度强化学习算法来训练异常工单的决策模型，该决策模型可直接对由深度神经网络模型提取出的工单图片的高维特征属性进行处理，然后输出相应的处理方案。由于这些高维的特征属性可以更准确地表达异常工单的特征，所以本实施方式可以大大提高输出的处理方案的准确性。

图2是本发明第一实施方式中的训练异常工单决策模型的步骤的示意图，参见图2，训练异常工单决策模型的步骤具体为：

步骤201：基于经过人工处理的异常工单的信息记录来建立样本池，样本池包括H条样本，每条样本包括工单图片、质检结果、处理方案及客户反馈数据。其中，H>4000；较佳地，H＝5000。

在一些实施例中，质检结果包括：不合格、疑似不合格、无法识别及场景不支持，每一种质检结果在所述样本池中的数量均分。在一些实施例中，客户反馈数据包括：合理、需明确及不合理，每一种客户反馈数据在所述样本池中的数量均分。这样，能够使样本池中的样本涵盖各种情况，以提供给决策模型进行学习。在一些实施例中，合理用2分表示，需明确用1分表示，不合理用0分表示。

步骤202：通过深度神经网络模型从所述每条样本的工单图片中提取特征属性X，并转换成状态矩阵S，其中，所述特征属性具有m个维度，m>200，较佳地，m＝268。

具体地，特征属性X＝(X₁,X₂,X₃,…,X_m)，其为一个1*m的矩阵；各特征属性的权重向量W＝(ω₁,ω₂,...,ω_m)，其为一个m*1的矩阵，状态矩阵S＝WX，状态矩阵S为m*m的矩阵。

步骤203：基于马尔科夫决策过程和策略逼近算法建立初始模型，所述初始模型的各个参数被设置成初始值。具体地，初始模型为

其中，θ为参数向量，θ＝(θ₁,θ₂,...,θ_m)，

为第i维的排序权重分，

因为S＝(ω₁,ω₂,...,ω_m)*(X₁,X₂,X₃,...,X_m,)，所以初始模型的参数为θ和ω。

步骤204：将所述每条样本的状态矩阵S输入到初始模型中，以得到多个中间动作a及相应的多个中间回报值r，并累加所述多个中间回报值r以得到在所述初始模型下该条样本可获得的总回报值R，且在所述样本池中新增一条训练数据。

步骤205：将每条样本的总回报值R进行累加，以得到在所述初始模型下所有样本能够获得的累积回报值J。在一些实施例中，初始模型μ_θ的累计回报值

步骤206：更新目前的模型中的各个参数，如：θ和ω，以得到迭代模型。

步骤207：将每条样本的状态矩阵S输入到迭代模型中，以得到多个中间动作a及相应的多个中间回报值r，并累加所述多个中间回报值r，以得到在所述迭代模型下该条样本可获得的总回报值R，且在所述样本池中新增一条训练数据。

步骤208：将每条样本的总回报值R进行累加，以得到在所述迭代模型下所有样本能够获得的累积回报值J。在一些实施例中，迭代模型μ_θ的累计回报值

步骤209：重复步骤206至步骤208，直到所述各个参数收敛，或所述样本池中存放W个训练数据，其中，W>80000；较佳地，W＝100000。

与现有技术相比，本发明实施方式采用深度神经网络从样本中的工单图片提取出高维的特征属性，并将高维的特征属性经权重处理后直接作为异常工单决策模型的训练，这样能够使异常工单决策模型在训练的过程中更好的学习异常工单的特征，以提高模型的准确性。另外，为了让模型能够学习到最优的策略方案，采用的是策略逼近和确定性策略梯度算法，策略逼近方法是解决连续状态问题的有效方法之一，确定性策略梯度算法则是使迭代过程中策略改进更方便更有目的性。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

图3是根据本发明第二实施方式的异常工单处理系统的示意图，参见图3，异常工单处理系统300包括：特征提取器301、特征转换器302和异常工单决策模型303。特征提取器301用于通过深度神经网络模型从所述异常工单中提取特征属性，其中，该特征属性具有m个维度，m>200。特征转换器302与所述特征提取器301连接，其用于将所述特征属性转换成状态矩阵。异常工单决策模型303与所述特征转换器302连接，其用于接受所述状态矩阵，并计算出表征所述异常工单的处理方案的权重向量，其中，所述异常工单决策模型是以经过人工处理的异常工单的信息记录为样本数据通过深度强化学习算法训练得到的。

本发明第三实施方式涉及一种异常工单处理系统，如图4所示，包括至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行上述的处理异常工单的方法。

其中，存储器402和处理器401采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器401。

处理器401负责管理总线和通常的处理，还可以提供各种功能，包括定时、外围接口、电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述处理异常工单的方法。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种处理异常工单的方法，所述异常工单为除质检结论为合格的工单以外的其他工单，其特征在于，包括：

通过深度神经网络模型从所述异常工单中提取特征属性，其中，该特征属性具有m个维度，m>200；

将所述特征属性转换成状态矩阵；

将所述状态矩阵输入到异常工单决策模型中，其中，所述异常工单决策模型是以经过人工处理的异常工单的信息记录为样本数据通过深度强化学习算法训练得到的，所述异常工单决策模型的输入量为所述状态矩阵，所述异常工单决策模型的输出量为处理方案；及

通过所述异常工单决策模型计算出针对所述异常工单的处理方案；

其中，训练所述异常工单决策模型的步骤具体为：

步骤a）：基于经过人工处理的异常工单的信息记录来建立样本池，所述样本池包括H条样本，每条样本包括工单图片、质检结果、处理方案及客户反馈数据，其中H>4000；

步骤b）：通过所述深度神经网络模型从所述每条样本的工单图片中提取特征属性，并转换成状态矩阵，其中，所述特征属性具有m个维度，m>200；

步骤c）：基于马尔科夫决策过程和策略逼近算法建立初始模型，所述初始模型的各个参数被设置成初始值；

步骤d）：将所述每条样本的状态矩阵输入到所述初始模型中，以得到多个中间动作及相应的多个中间回报值，并累加所述多个中间回报值以得到在所述初始模型下该条样本可获得的总回报值，且在所述样本池中新增一条训练数据；

步骤e）：将每条样本的总回报值进行累加，以得到在所述初始模型下所有样本能够获得的累积回报值；

步骤f）：更新目前的模型中的各个参数，以得到迭代模型；

步骤g）：将每条样本的所述状态矩阵输入到所述迭代模型中，以得到多个中间动作及相应的多个中间回报值，并累加所述多个中间回报值，以得到在所述迭代模型下该条样本可获得的总回报值，且在所述样本池中新增一条训练数据；

步骤h）：将每条样本的总回报值进行累加，以得到在所述迭代模型下所有样本能够获得的累积回报值；

步骤i）：重复步骤f）至步骤h)，直到所述各个参数收敛，或所述样本池中存放W个训练数据，其中，W>80000。

2.根据权利要求1所述的处理异常工单的方法，其特征在于，所述质检结果包括：不合格、疑似不合格、无法识别及场景不支持，每一种质检结果在所述样本池中的数量均分。

3.根据权利要求1所述的处理异常工单的方法，其特征在于，所述客户反馈数据包括：合理、需明确及不合理，每一种客户反馈数据在所述样本池中的数量均分。

4.根据权利要求1所述的处理异常工单的方法，其特征在于，所述特征属性X=(X₁,X₂,X₃,…,X_m），所述状态矩阵

，其中，W为所述各特征属性的权重向量，

。

5.根据权利要求1所述的处理异常工单的方法，其特征在于，所述初始模型为

，其中，θ为参数向量，

，

为第i维的排序权重分，

。

6.根据权利要求1所述的处理异常工单的方法，其特征在于，所述初始模型或所述迭代模型的累计回报值

；其中，J为所述累积回报值。

7.一种异常工单处理系统，所述异常工单为除质检结论为合格的工单以外的其他工单，其特征在于，包括：

特征提取器，其用于通过深度神经网络模型从所述异常工单中提取特征属性，其中，该特征属性具有m个维度，m>200；

特征转换器，其用于将所述特征属性转换成状态矩阵；

异常工单决策模型，其用于接受所述状态矩阵，并计算出表征所述异常工单的处理方案的权重向量，其中，所述异常工单决策模型是以经过人工处理的异常工单的信息记录为样本数据通过深度强化学习算法训练得到的；其中，训练所述异常工单决策模型的步骤具体为：步骤a）：基于经过人工处理的异常工单的信息记录来建立样本池，所述样本池包括H条样本，每条样本包括工单图片、质检结果、处理方案及客户反馈数据，其中H>4000；步骤b）：通过所述深度神经网络模型从所述每条样本的工单图片中提取特征属性，并转换成状态矩阵，其中，所述特征属性具有m个维度，m>200；步骤c）：基于马尔科夫决策过程和策略逼近算法建立初始模型，所述初始模型的各个参数被设置成初始值；步骤d）：将所述每条样本的状态矩阵输入到所述初始模型中，以得到多个中间动作及相应的多个中间回报值，并累加所述多个中间回报值以得到在所述初始模型下该条样本可获得的总回报值，且在所述样本池中新增一条训练数据；步骤e）：将每条样本的总回报值进行累加，以得到在所述初始模型下所有样本能够获得的累积回报值；步骤f）：更新目前的模型中的各个参数，以得到迭代模型；步骤g）：将每条样本的所述状态矩阵输入到所述迭代模型中，以得到多个中间动作及相应的多个中间回报值，并累加所述多个中间回报值，以得到在所述迭代模型下该条样本可获得的总回报值，且在所述样本池中新增一条训练数据；步骤h）：将每条样本的总回报值进行累加，以得到在所述迭代模型下所有样本能够获得的累积回报值；步骤i）：重复步骤f）至步骤h)，直到所述各个参数收敛，或所述样本池中存放W个训练数据，其中，W>80000。

8.一种异常工单处理系统，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一所述的处理异常工单的方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的处理异常工单的方法。