CN111144113A

CN111144113A - 一种基于机器学习的能力模型与工单匹配方法及系统

Info

Publication number: CN111144113A
Application number: CN201911407744.4A
Authority: CN
Inventors: 丁志龙; 甘松云; 余众泽
Original assignee: Anhui Zhihengxin Technology Co ltd
Current assignee: Anhui Zhihengxin Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12
Anticipated expiration: 2039-12-31
Also published as: CN111144113B

Abstract

本发明公开了一种基于机器学习的能力模型与工单匹配方法及系统，属于运维服务领域。针对现有技术中存在的运维工单与运维工程师的匹配准确度不高的问题，本发明提供了一种基于机器学习的能力模型与工单匹配方法及系统，系统包括特征项生成单元、隐性语义索引生成单元、模型训练单元以及能力匹配单元，通过特征项生成单元生成特征项，隐性语义索引生成单元根据特征项生成隐性语义索引数据库，通过模型训练单元建立能力模型，最后通过能力匹配单元进行运维人员的能力与工单的匹配，它可以实现针对不同需求的运维工单进行合理的运维人员分派。

Description

一种基于机器学习的能力模型与工单匹配方法及系统

技术领域

本发明涉及运维服务领域，更具体地说，涉及一种基于机器学习的能力模型与工单匹配方法及系统。

背景技术

在运维活动中，如何选择合适的运维工程师或运维专家将直接影响到运维工作的质量，正确的选择运维工程师对于保证运维服务质量、效率、成本是至关重要的。现阶段选择运维工程师一般都是采用服务台人员根据其经验选择的方式，或者借助计算机简单给运维工程师打数字标签发的方式方便筛选，计算机辅助程度比较低，仅仅针对数据库查询，没有采用比较合理的智能辅助。目前的匹配方法更是大多采用基于关键字的方法，从数据库中查询相关关键字进行工单和运维工程师的匹配，但这种方法匹配的准确程度不高，并且随着工单量的不断提升对服务台资源的管理及要求也越来越高。因此需要一种针对高频率大体量运维活动的工程师分派方法，能够采用多指标综合评估运维工程师并合理的匹配运维工单，适应不同需求的运维活动。

隐性语义索引，也可译为隐含语义索引，是近年来逐渐兴起的不同于关键词检索的搜索引擎解决方案，其检索结果的实际效果更接近于人的自然语言，在一定程度上提高检索结果的相关性，目前已被逐渐的应用到图书馆、数据库和搜索引擎的算法当中。

发明内容

1.要解决的技术问题

针对现有技术中存在的运维工单与运维工程师的匹配准确度不高的问题，本发明提供了一种基于机器学习的能力模型与工单匹配方法及系统，它可以实现针对不同需求的运维工单进行合理的运维人员分派。

2.技术方案

本发明的目的通过以下技术方案实现。

一种基于机器学习的能力模型与工单匹配方法，包括以下步骤：

S100、对工单进行分词处理得到准分词结果，根据准分词结果生成特征项，根据特征项建立特征项数据库，特征项数据库可在工单过程中不断更新并补充数据，主要用于工单数据的处理；

S200、根据特征项数据库生成特征项-需求文档矩阵，对矩阵进行奇异值分解，建立隐性语义索引数据库；

S300、对专业词典中的特征项进行技术领域属性划分，将特征项打上技术领域标签，对特征项赋予权值，生成技术能力模型，将现有工单进行准分词和相似度匹配处理，得到特征项，通过特征项计算出技术领域能力值，将能力值带入技术能力模型进行训练完善；

S400、当系统获得新工单时，对该工单进行准分词和相似度匹配处理，生成工单的特征项，将特征项与技术能力模型进行匹配。

进一步的，步骤S100中对需求文档进行分词处理得到准分词结果，根据准分词结果生成特征项包括以下步骤：

S101、遍历工单中的需求文档和技术文档，对文档进行准分词处理得到准分词结果；

S102、建立包括运维行业专业词汇的专业词典；

S103、将专业词典中的专业词汇与准分词结果进行相似度匹配，如果相似度匹配得到的相似度超过设定阈值的分词结果，则生成特征项，否则进行下一个准分词结果的匹配。

更进一步的，步骤S200根据特征项数据库生成特征项-需求文档矩阵，建立隐性语义索引数据库包括以下步骤：

S201、基于标引矩阵生成技术，结合特征项数据库中的特征项和工单中的需求文档，生成特征项-需求文档矩阵；

S202、对矩阵进行奇异值分解，并剔除不符合标准的奇异值；

S203、根据筛选后奇异值生成隐性语义索引数据库。

更进一步的，步骤S300中将特征项打上技术领域标签，对特征项赋予权值包括以下步骤：

S301、读取专业词典的专业词汇，选取专业词汇中的技术领域相关词汇，生成技术领域标签；

S302、将特征项关联技术领域标签，使特征项与技术领域标签建立映射关系；

S303、根据特征项与对应标签的实际关联性对映射关系进行权值计算。

更进一步的，步骤S400中生成工单的隐性语义特征项包括以下步骤：

S401、将该工单的需求文档与索引数据库中其他包含相同特征项或部分特征项的需求文档进行比对，以确定不同特征文档之间的语义相关性以及需求文档与特征项之间的相关性。；

S402、将该需求文档与具有高语义相关性的需求文档进行比对，从中找出特定需求文档中存在的隐性特征项；

S403、根据特征项与隐性特征项，计算技术领域需求值；

S404、将技术领域需求值与技术能力模型进行匹配。

一种基于机器学习的能力模型与工单匹配系统，包括：

特征项生成单元，用于对工单进行分词处理得到准分词结果，根据准分词结果生成特征项，根据特征项建立特征项数据库；

隐性语义索引生成单元，根据特征项数据库生成特征项-需求文档矩阵，对矩阵进行奇异值分解，生成隐性语义索引数据库；

模型训练单元，对专业词典中的特征项进行技术领域属性划分，将特征项打上技术领域标签，对特征项赋予权值，生成技术能力模型，将现有工单进行准分词和相似度匹配处理，得到特征项，通过特征项计算出技术领域能力值，将能力值带入技术能力模型进行训练完善；

能力匹配单元，当系统获得新工单时，对该工单进行准分词和相似度匹配处理，生成工单的特征项和隐性语义特征项，根据特征项和隐性语义特征项计算技术领域需求值，与模型训练单元中的技术能力模型进行匹配。

进一步的，特征项生成单元包括：

分词模块，用于遍历工单中的需求文档和技术文档，对文档进行准分词处理得到准分词结果；

词典生成模块，用于建立包括运维行业专业词汇的专业词典；

相似度匹配模块，用于将词典生成模块的专业词汇与分词模块的准分词结果进行相似度匹配，如果相似度匹配得到的相似度超过设定阈值的分词结果，则生成特征项，否则进行下一个准分词结果的匹配；

特征项数据库生成模块，用于根据特征项生成特征项数据库。

更进一步的，隐性语义索引生成单元包括：

矩阵生成模块，用于基于标引矩阵生成技术，结合特征项数据库中的特征项和工单中的需求文档，生成特征项-需求文档矩阵；

奇异值分解模块，用于对矩阵进行奇异值分解，并剔除不符合标准的奇异值；

隐性语义索引数据库生成模块，根据筛选后奇异值生成隐性语义索引数据库。

更进一步的，模型训练单元包括：

标签生成模块，用于读取专业词典的专业词汇，选取专业词汇中的技术领域相关词汇，生成技术领域标签；

标签关联模块，用于将特征项关联技术领域标签，使特征项与技术领域标签建立映射关系；

权值计算模块，用于根据特征项与对应标签的实际关联性对映射关系进行权值计算。

更进一步的，能力匹配单元包括：

相关性生成模块，用于将该工单的需求文档与索引数据库中其他包含相同特征项或部分特征项的需求文档进行比对，以确定不同特征文档之间的语义相关性以及需求文档与特征项之间的相关性；

隐性特征项生成模块，用于将该需求文档与具有高语义相关性的需求文档进行比对，从中找出特定需求文档中存在的隐性特征项；

技术领域需求值计算模块，用于根据特征项与隐性特征项，计算技术领域需求值；

模型匹配模块，用于将技术领域需求值与技术能力模型进行匹配。

3.有益效果

相比于现有技术，本发明的优点在于：

本发明首先对工单进行分词处理得到准分词结果，根据准分词结果生成特征项，根据特征项建立特征项数据库，特征项数据库可在工单过程中不断更新并补充数据，特征项数据库更新的同时，对完成该工单的运维人员能力模型进行更新，使系统不断完善，提高系统匹配的准确率；根据特征项数据库生成特征项-需求文档矩阵，对矩阵进行奇异值分解，建立隐性语义索引数据库，隐性语义索引数据库能够发现文档的语义上的关联，但是在原始向量空间中这些文档的相似度不大，使用隐性语义索引数据库将他们映射到新的低维向量子空间中，使用低维向量子空间，此时来自文档的特征项-需求文档的语义关系保留，并且特征项用法的变异被控制，解决了一意多词和语义的关联问题，使人员能力的匹配更准确。

附图说明

图1为本发明的整体流程图图；

图2为本发明的特征项生成流程图；

图3为本发明的隐性语义索引生成流程图；

图4为本发明的模型训练流程图；

图5为本发明的能力匹配流程图；

图6为本发明的系统模块图；

图7为本发明的能力匹配示意图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

实施例1

如图1所示，一种基于机器学习的能力模型与工单匹配方法，包括以下步骤：

S100、对工单进行分词处理得到准分词结果，根据准分词结果生成特征项，根据特征项建立特征项数据库，特征项数据库可在工单过程中不断更新并补充数据，主要用于工单数据的处理，特征项数据库更新的同时，对完成该工单的运维人员能力模型进行更新；

S300、对专业词典中的特征项进行技术领域属性划分，将特征项打上技术领域标签，对特征项赋予权值，生成技术能力模型，将现有工单进行准分词和相似度匹配处理，得到特征项，通过特征项计算出技术领域能力值，将能力值带入技术能力模型，系统不断载入工单，每处理一个工单立即对技术人员能力模型进行完善；

如图2所示，步骤S100中对需求文档进行分词处理得到准分词结果，根据准分词结果生成特征项包括以下步骤：

S102、建立包括专业词汇的专业词典，本实施例中的的专业词典为运维行业领域的专业词典，如域名反向解析、反向代理等；

S103、将专业词典中的专业词汇与准分词结果进行相似度匹配，这里的相似度匹配所用技术为基于语料库相似度的计算方法，如果相似度匹配得到的相似度超过设定阈值的分词结果，则生成特征项，否则进行下一个准分词结果的匹配，本实施例中的阈值设定为75％。

如图3所示，步骤S200根据特征项数据库生成特征项-需求文档矩阵，建立隐性语义索引数据库包括以下步骤：

S201、基于标引矩阵生成单元的技术，结合特征项数据库中的特征项和工单中的需求文档，生成特征项-需求文档矩阵，该矩阵的每个分量为整数值，代表某个特定的特征项出现在某个特定需求文档中的次数；

S202、对矩阵进行奇异值分解，并剔除不符合标准的奇异值，这里不符合标准的奇异值为小于其他奇异值一个数量级的奇异值；

S203、根据筛选后奇异值生成隐性语义索引数据库，隐性语义索引数据库能够发现文档的语义上的关联，但是在原始向量空间中这些文档的相似度不大，使用隐性语义索引数据库将他们映射到新的低维向量子空间中。使用低维向量子空间，此时来自文档的特征项-需求文档的语义关系保留，并且特征项用法的变异被控制，解决了一意多词和语义的关联问题。

如图4所示，步骤S300中将特征项打上技术领域标签，对特征项赋予权值包括以下步骤：

S303、根据特征项与对应标签的实际关联性对映射关系进行权值计算，一个特征项可以关联多个标签，根据该特征项与对应标签的实际关联性进行权值计算。例如特征项为“代码”，本实施例中的“代码”关联技术领域“软件”的权值为1.0，关联技术领域“网络”的权值为0.1。

如图5所示，步骤S400中生成工单的隐性语义特征项包括以下步骤：

S402、将该需求文档与具有高语义相关性的需求文档进行比对，文档之间具有高语义项相关性说明文档之间描述的内容接近，从中找出特定需求文档中存在的隐性特征项，隐性特征项为特定需求文档中虽不存在，但与其内容相关的特征项。

S403、根据特征项与隐性特征项，计算技术领域需求值；

S404、将技术领域需求值与技术能力模型进行匹配，本实施例中的匹配方法为根据技术领域需求值匹配，如技术领域中的网络需求值为5，需要技术人员能力模型的网络能力为5以上才可匹配。

如图6所示，一种基于机器学习的能力模型与工单匹配系统，包括：

进一步的，特征项生成单元包括：

词典生成模块，用于建立包括专业词汇的专业词典；

更进一步的，隐性语义索引生成单元包括：

更进一步的，模型训练单元包括：

更进一步的，能力匹配单元包括：

隐性特征项生成模块，用于将该需求文档与具有高语义相关性的需求文档进行比对，从中找出特定需求文档中存在的特征项，即找出特定需求文档中虽不存在但与其内容相关的隐性特征项；

如图7所示，本实施例通过从索引中整理出符合条件特定需求文档对应的技术文档及关联的运维工程师，基于现有的需求特征项-技术能力特征项标引矩阵，生成带有权值的工单技术能力需求，进而在运维人员池内匹配合适的运维技术人员。

以上示意性地对本发明创造及其实施方式进行了描述，该描述没有限制性，在不背离本发明的精神或者基本特征的情况下，能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一，实际的结构并不局限于此，权利要求中的任何附图标记不应限制所涉及的权利要求。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。此外，“包括”一词不排除其他元件或步骤，在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于机器学习的能力模型与工单匹配方法，其特征在于，包括以下步骤：

S100、对工单进行分词处理得到准分词结果，根据准分词结果生成特征项，根据特征项建立特征项数据库；

S200、根据特征项数据库生成特征项-需求文档矩阵，建立隐性语义索引数据库；

2.根据权利要求1所述的一种基于机器学习的能力模型与工单匹配方法，其特征在于，所述步骤S100中对需求文档进行分词处理得到准分词结果，根据准分词结果生成特征项包括以下步骤：

S102、建立包括专业词汇的专业词典；

3.根据权利要求1所述的一种基于机器学习的能力模型与工单匹配方法，其特征在于：所述步骤S200根据特征项数据库生成特征项-需求文档矩阵，建立隐性语义索引数据库包括以下步骤：

S202、对矩阵进行奇异值分解，并剔除不符合标准的奇异值；

S203、根据筛选后奇异值生成隐性语义索引数据库。

4.根据权利要求1所述的一种基于机器学习的能力模型与工单匹配方法，其特征在于，所述步骤S300中将特征项打上技术领域标签，对特征项赋予权值包括以下步骤：

5.根据权利要求1所述的一种基于机器学习的能力模型与工单匹配方法，其特征在于，所述步骤S400中生成工单的隐性语义特征项包括以下步骤：

S401、将该工单的需求文档与索引数据库中其他包含相同特征项或部分特征项的需求文档进行比对，以确定不同特征文档之间的语义相关性以及需求文档与特征项之间的相关性；

S402、将该需求文档与具有高语义相关性的需求文档进行比对，从中找出特定需求文档中存在的隐性特征项。

S403、根据特征项与隐性特征项，计算技术领域需求值；

S404、将技术领域需求值与技术能力模型进行匹配。

6.一种基于机器学习的技术人员能力模型与工单匹配系统，其特征在于，包括：

7.根据权利要求6所述的一种基于机器学习的技术人员能力模型与工单匹配系统，其特征在于，特征项生成单元包括：

词典生成模块，用于建立包括专业词汇的专业词典；

8.根据权利要求6所述的一种基于机器学习的技术人员能力模型与工单匹配系统，其特征在于，隐性语义索引生成单元包括：

9.根据权利要求6所述的一种基于机器学习的技术人员能力模型与工单匹配系统，其特征在于，模型训练单元包括：

10.根据权利要求6所述的一种基于机器学习的技术人员能力模型与工单匹配系统，其特征在于，能力匹配单元包括：