CN117251563A - 故障工单的质检方法、设备及存储介质 - Google Patents

故障工单的质检方法、设备及存储介质 Download PDF

Info

Publication number
CN117251563A
CN117251563A CN202210630838.3A CN202210630838A CN117251563A CN 117251563 A CN117251563 A CN 117251563A CN 202210630838 A CN202210630838 A CN 202210630838A CN 117251563 A CN117251563 A CN 117251563A
Authority
CN
China
Prior art keywords
model
work order
data
quality inspection
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210630838.3A
Other languages
English (en)
Inventor
姜磊
徐代刚
余桃梅
赵松
杜贤俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202210630838.3A priority Critical patent/CN117251563A/zh
Priority to PCT/CN2023/097508 priority patent/WO2023236836A1/zh
Publication of CN117251563A publication Critical patent/CN117251563A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种故障工单的质检方法、设备及存储介质,方法包括:获取待质检的工单对应的工单数据;将所述工单数据输入到预设的透视模型中进行多维度工单因素关联分析处理,得到所述工单对应的质检分类信息。通过获取待质检工单对应的工单数据,并通过透视模型进对工单数据进行多维度工单因素关联分析处理,进而可以通过多维度工单因素之间的合理性确定质检分类信息,相对于现有技术中简单的规则匹配,本申请的实施例能进行多维度的关联分析,因此,本申请的实施例能提升智能质检的准确率。

Description

故障工单的质检方法、设备及存储介质
技术领域
本申请实施例涉及但不限于通信技术领域,尤其涉及一种故障工单的质检方法、设备及存储介质。
背景技术
随着网络复杂化,应用多样性,数据爆炸,对设备(如运营商和设备商的通信设备)自动化和智能化的运维诉求与日俱增。其中,运维包括故障发生后,经过分析定界定位后派出工单执行处理,处理完毕后需要进行故障工单质检,检查本次故障是否已经清除,相应处理--包括故障处理和故障描述--是否正确。由于故障工单数量庞大,运营商对工单处理质量检查的传统做法是人工抽检,虽然随着AI的发展,自动智能质检也随之应用于质检,但是相关技术中,智能质检通常会从一个维度进行故障类别与解决手段的匹配校验,来判断工单是否质量合格,智能质检的准确率低。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种故障工单的质检方法、设备及存储介质,能提升故障工单质检的准确率。
第一方面,本申请实施例提供了一种故障工单的质检方法,所述质检方法包括:
获取待质检的工单对应的工单数据;
将所述工单数据输入到预设的透视模型中进行多维度工单因素关联分析处理,得到所述工单对应的质检分类信息。
第二方面,本申请实施例还提供了电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任意一项所述的故障工单的质检方法。
第三方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于实现如第一方面任意一项所述的故障工单的质检方法。
本申请实施例包括:通过获取待质检工单对应的工单数据,并通过透视模型进对工单数据进行多维度工单因素关联分析处理,进而可以通过多维度工单因素之间的合理性确定质检分类信息,相对于现有技术中简单的规则匹配,本申请的实施例能进行多维度的关联分析,因此,本申请的实施例能提升智能质检的准确率。
附图说明
图1是本申请实施例中故障工单的质检装置的模块总示意图;
图2是本申请实施例中故障工单的质检装置的模块细节示意图;
图3是本申请实施例中工单设置模块设置的参数;
图4是本申请实施例中故障工单的质检装置的模块细节示意图;
图5是本申请实施例中故障工单的质检方法的流程示意图;
图6是本申请实施例中透视模型处理的流程示意图;
图7是本申请实施例中工单向量子模型处理结果的示意图;
图8是本申请实施例中故障工单的质检方法处理的工单;
图9是本申请实施例中故障工单的质检方法处理的另一工单;
图10是本申请实施例的工单向量子模型的由来的示意图;
图11是本申请实施例中透视模型训练过程中精度提升的流程示意图;
图12是本申请实施例中应用故障工单的质检方法的实施例的流程示意图;
图13是本申请实施例中应用故障工单的质检方法的历史工单处理的流程示意图;
图14是本申请实施例中应用故障工单的质检方法的实施例的透视模型精度提升流程示意图;
图15是本申请实施例中电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
随着网络复杂化,应用多样性,数据爆炸,对设备(如运营商和设备商的通信设备)自动化和智能化的运维诉求与日俱增。其中,运维包括故障发生后,经过分析定界定位后派出工单执行处理,处理完毕后需要进行故障工单质检,检查本次故障是否已经清除,相应处理--包括故障处理和故障描述--是否正确。由于故障工单数量庞大,运营商对工单处理质量检查的传统做法是人工抽检,虽然随着AI的发展,自动智能质检也随之应用于质检,但是相关技术中,智能质检通常从一个维度进行故障类别与解决手段的匹配校验,来判断工单是否质量合格,但是实际应用中,工单上的信息往往由现场运维人员进行填写,为了迎合质检的要求,填写时,存在与实际情况不符的情况,因此,仅通过故障类别与解决手段进行匹配校验,会导致智能质检的准确率低。基于此,本申请实施例提出一种故障工单的质检方法、设备及存储介质,能提升故障工单质检的准确率。
参照图1所示的实施例,本申请实施例提供一种故障工单的质检装置,包括获取模块100和分类模块200,获取模块100用于获取待质检的工单对应的工单数据;分类模块200用于将工单数据输入到预设的透视模型中进行多维度工单因素关联分析处理,得到工单对应的质检分类信息。
需说明的是,多维度工单因素包括工单处理过程、处理时长单一维度的分析以及工单处理过程和处理时长关联维度的分析。
在一些实施例中,分类模块200包括向量转换模块210、时长分析模块220以及多分类处理模块230,其中,向量转换模块210和时长分析模块220的输出均多分类处理模块230的输入数据,多分类处理模块230输出质检分类信息。
需说明的是,参照图1所示的实施例,工单数据可以是工单中未预处理的数据,示例性的,参照图2所示,故障工单的质检装置还包括工单设置模块300,工单设置模块300用于按照预设的工单字段,确定从工单中提取用于多维度工单因素关联的多个参数的设置和透视模型的模型参数的设置。具体的,工单设置模块300的参数设置可参照图3所示。此时,通过调用工单设置模块300可以从工单中提取出用于分类模块200处理的工单数据(对应配置工单字段中除质检字段、质检关键字以外的数据)。在另一些实施例中,故障工单的质检装置还包括内容抽取模块400,内容抽取模块400调用工单设置模块300进行多维度工单因素的提取,并通过独热编码的方式对工单数据进行转换以使分类模型可以更加高效的处理。向量转换模块210将内容抽取模块400中得到的独热编码进行向量化处理,得到工单向量;时长分析模块220将内容抽取模块400中得到的不同故障原因类别对应的处理时长进行解析,得到时长异常概率值;多分类处理模块230对时长异常概率值、工单向量进行多维度解析,得到质检分类信息。通过在分类模块200调用内容抽取模块400对工单数据进行预处理,进而通过向量转换模块210、时长分析模块220以及多分类处理模块230对预处理后的工单数据处理,得到质检分类信息。
需说明的是,参照图1所示的实施例,工单数据可以是处理后的数据,示例性的,参照图4所示,获取模块100调用内容抽取模块400,内容抽取模块400通过工单设置模块300确定工单数据,此时,向量转换模块210从工单数据中提取所需的处理过程数据进行向量化处理,时长分析模块220从工单数据中提取时长数据进行时长概率分布处理得到时长异常改了值。
需说明的是,参照图3所示的实施例,工单设置模块300中配置工单字段包括如“工单号”、“派单时间”、“故障设备”、“故障原因类别处理措施”、“故障清除时间”、“故障消除时间”、“故障描述”以及“质检字段”、“质检关键字”,其中“质检字段”对应质检分类信息;“质检关键字”用于表征工单质检是否合格,“质检字段”以及“质检关键字”用于透视模型训练前的标签设置,以进行有监督的训练。其中工单设置模块300中的分词常用词、独热编码等用于内容抽取模块400以及向量转换模块210分别进行独热编码和向量化处理,工单设置模块300中的时长分布左右标准差用于对时长异常概率进行区间划分,时长异常概率返回值与该区间设有对应关系。工单设置模块300可以通过终端进行手动修改和调整。
本领域技术人员可以理解的是,图1、图2和图4中示出的拓扑结构并不构成对本申请实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
参照图5所示,本申请的实施例还提出一种故障工单的质检方法,质检方法包括:
步骤S100、获取待质检的工单对应的工单数据。
需说明的是,工单数据可以是工单中的原始内容,也可以是经过预处理后能被透视模型直接解析的数据,对此,本申请实施例不做限制。如,参照图4所示的实施例,工单数据为预处理后的数据,通过内容抽取模块400调用工单设置模块300提取出用于计算工单向量的处理过程数据以及时长分析模块220用于时长异常概率分布的处理时长数据。在另一些实施例中,用于工单设置模块300处理的数据为工单中抽取内容后进行独热编码得到的多个独热编码数据。
步骤S200、将工单数据输入到预设的透视模型中进行多维度工单因素关联分析处理,得到工单对应的质检分类信息。
需说明的是,多个工单因素包括处理时长、处理过程信息(如故障原因分类、设备形态、处理措施、处理描述等)。示例性的,多维度工单因素关联分析处理包括对处理时长进行单维度分析,对处理过程信息进行单维度分析,并对处理时长和处理过程的关联关系进行分析。
需说明的是,质检分类信息,用于表征质检不合格的原因,如故障清除时间错误,工单故障原因错误,故障原因分类与故障描述不匹配。通过质检分类信息可以快速明确质检不合格的原因进而在进一步抽检时能快速获取质检失败的工单进行重新模型训练,以提升透视模型的质检精度。
因此,通过获取待质检工单对应的工单数据,并通过透视模型进对工单数据进行多维度工单因素关联分析处理,进而可以通过多维度工单因素之间的合理性确定质检分类信息,相对于现有技术中简单的规则匹配,本申请的实施例能进行多维度的关联分析,因此,本申请的实施例能提升智能质检的准确率。
需说明的是,透视模型在训练时,会对每一维度进行权重学习,进而可以在进行特征提取后,基于对应的权重确定出质检分类信息。
可理解的是,透视模型包括工单向量子模型、时长子模型以及多分类子模型。因此,通过将工单向量子模型、时长子模型以及多分类子模型集成在一个透视模型中,在训练时,能根据多分类子模型反向调整工单向量子模型和时长子模型的输出,进而使得多分类子模型的输出精度更高,此时整个透视模型的质检精度更高。
可理解的是,参照图6所示,步骤S200、将工单数据输入到预设的透视模型中进行多维度工单因素关联分析处理,得到工单对应的质检分类信息,包括:
步骤S210、通过工单向量子模型对工单数据进行向量化处理,得到工单向量。
需说明的是,通过工单向量的方式处理,可以提升模型处理的效率。工单向量子模型是将历史工单作为语料库,分别对故障类别、基础信息以及故障操作数据输出对应的词向量,此时工单向量为对应的多个词向量之和。
在一些实施例中,工单向量包含了处理过程数据,如故障类别、基础信息(如发生地点、设备类型、设备硬件参数(如IP等))以及处理措施和故障描述。工单向量子模型对处理过程数据进行向量化处理,进而使得工单向量可以表征工单的处理过程。
在一些实施例中,可以对处理过程数据的多个子项分别进行独热编码(如对设备类型进行独热编码,对处理措施进行独热编码),工单向量子模型对每一独热编码进行词向量化处理后进行加和处理,得到工单向量,示例性的,参照图7所示,词向量为单板软件、崩溃,则可以得到的工单向量为软件故障。
步骤S220、通过时长子模型对工单数据进行时长分布预测,得到时长异常概率值。
需说明的是,时长子模型是通过历史工单得到不同故障原因类别的时长异常概率,通过对四个时间字段,派单时间,告警清除时间,故障消除时间,故障描述时间,进行统计分析得到的模型。
需说明的是,时长子模型是对工单数据中时间相关的数据进行分布概率预测判断,时长子模型返回值为0-1之间,0-1之间代表出问题的概率,即0表示完全没问题,1表示肯定有问题,越靠近1,如为0.85,则表示可能有问题的概率越大。在一些实施例中,时长子模型根据历史工单统计得到的左右标准差,并根据左右标准差设置分布于对应区间的概率值;如分布在一个标准差内,则返回0.33;若分布在两个标准时间差内,则返回0.66,如大于两个标准时间差,则返回0.99,表示异常概率很大。示例性的,正常情况下,告警清除时间不晚于故障消除时间,如果晚于故障消除时间,则返回1;又例如故障描述中包含时间信息,则需要和派单时间与故障消除时间对应,如早于派单时间或者晚于故障消除时间,则返回1;又例如不同故障原因类别,故障消除时间和派单时间之差要有各自的时长分布。
步骤S230、通过多分类子模型对工单向量以及时长异常概率值进行多维度特征提取,得到质检分类信息。
需说明的是,通过多分类子模型对工单向量以及时长异常概率值的处理,能将处理过程和时长处理进行关联的同时,对其每一个维度单独进行特征提取,进而提升透视模型的输出的精度。示例性的,以图8所示的实施例,故障中说此故障是尾纤故障更换尾纤后即恢复,但从派单时间到故障恢复时间不超过10分钟。而从历史工单的经验看,不同于软件重启或者来电恢复等故障处理,更换尾纤需要备料,上站,再加上更换时间,肯定会远远超过30分钟,所以,这个故障根因可能不是尾纤故障,甚至可能是故障自动恢复了,其处理未必真实。又如,示例性的,参照图9所示的实施例,停电故障来电后修复,但故障清除时间早于告警恢复时间,这个同样有问题,也许来电后,主模块没问题告警清除了,但有些辅助模块还需要等待重启后验证,所以,需要等到相关所有告警清除后才能确认系统恢复,而不能根据只要来电了主模块启动了就草率提前认定故障恢复了。因此,本申请实施例,通过加入时长异常概率值的这一维度的解析并结合工单向量中故障描述的关联分析,能够更为准确的识别出质检分类信息。
可理解的是,在步骤S210之前;质检方法还包括:根据工单数据,确定多个独热编码数据,其中,多个独热编码数据分别对应工单基础数据、故障原因类别以及故障操作数据。对应的,步骤S210、通过工单向量子模型对工单数据进行向量化处理,得到工单向量,包括:通过工单向量子模型对多个独热编码数据进行向量化处理,得到工单向量。
需说明的是,工单基础数据、故障原因类别以及故障操作数据均为工单的处理过程数据,对工单基础数据、故障原因类别以及故障操作数据分别进行独热编码后,即可得到对应的独热编码数据。通过先进行独热编码再进行向量化处理,可以提升工单向量的处理效率。在一些实施例中,以通信设备为例,工单基础数据包括网元类型,在另一些实施例中,工单基础数据包括发生地点、故障网元以及网元类型。具体的,本领域可以根据实际情况基于网元类型的基础上适当增加判断的维度。故障操作数据为对工单中处理措施和故障描述分词得到的内容。其中,故障操作数据不含时间相关的信息。
在一些实施例中,采用Word2Vec,把工单的信息分词后进行向量化。基于历史工单组成的工单语料库以及设置的分词词典进行词向量模型训练,得到一个工单向量子模型。其中,在对工单向量子模型进行训练之前,需要进行合理的分词,在本申请实施例中,分词可以采用如Jieba(结巴)分词等,另外还需设置常用词、词典和停用字,这些词可以通过外部输入进行设置(如图2所示的工单设置模块300),当训练效果不好,可能需要调整词典让分词更加合理,得到的向量表示更好。
在一另些实施例中,会采用Word2Vec中的词袋模型(CBOW)和跳字模型(Skip-Gram)进行训练,其中,词袋模型(CBOW)是拿周围上下文的词语来预测中心词的概率,跳字模型(Skip-Gram)是中心词来预测上下文词语的概率。示例性的,以跳字模型为例,参照图10所示,假设分词后所有词语为500个,即500个独热编码,然后通过隐藏层为300×500大小的矩阵,输出为500大小的列向量概率矩阵,其概率计算用Softmax,当训练得到的概率最大,所有词的上下文概率最大化并且收敛后,即得到相应的工单向量子模型,也即,所谓工单向量子模型就是要得到中间隐藏层这个模型,它是词向量模型,也可以称作词向量嵌入。
在一些实施例中,当工单数据为工单中原始内容时,则会在工单向量子模型处理之前,先提取出工单基础数据、故障原因类别以及故障操作数据并分别进行独热编码。在另一些实施例中,工单数据为预处理后的数据,则多个独热编码数据均为工单数据之一。
示例性的,由于工单差异化,因此,在载入系统前,会对工单进行归一化处理,得到工如图3所示单格式一致的工单中工单字段对应的内容(不含质检字段以及质检关键字)。
可理解的是,在步骤S220之前;质检方法还包括:从工单数据中提取故障类别、故障描述时间以及故障处理时间数据;对应的,步骤S220、通过时长子模型对工单数据进行时长概率预测,得到时长异常概率值,包括:通过时长子模型对故障类别、故障描述时间和故障处理时间数据进行时长分布预测,得到时长异常概率值。
需说明的是,当工单数据对应工单原始内容,则可以通过内容抽取方式从工单数据中抽取故障描述时间和故障处理时间数据;故障描述时间表示故障描述字段中包含的时间;故障处理时间数据包括工单派单时间、告警消除时间以及告警清除时间。
可理解的是,步骤S230、通过多分类子模型对工单向量以及时长异常概率值进行多维度特征提取,得到质检分类信息;包括:通过多分类子模型对工单向量分别进行向量特征提取以及故障类型特征提取,得到向量特征对应的第一特征数据、故障类型特征对应的第二特征数据;通过多分类子模型对时长异常概率值进行多维度时长特征提取,得到第三特征数据;通过多分类子模型对第一特征数据、第二特征数据以及第三特征数据进行权重处理,并根据权重处理的结果输出质检分类信息。
需说明的是,多分类子模型在训练时,会分别对工单向量、时长异常概率值进行权重训练,得到工单向量的权重、工单向量中故障类型对应的权重、时长概率值对应的权重,进而可以在使用时,分别在特征提取后,通过多分类子模型对第一特征数据、第二特征数据以及第三特征数据进行权重处理,确定工单对应质检分类的概率分布,进而得到质检分类信息。
在一些实施例中,时长异常概率值的特征提取包括两方面,第一方面会基于时长异常概率值判断其实否异常基本维度,如时长异常概率值为1,则输出1,表示故障处理时长有误。第二方面,会按照时长异常概率区间分布维度进行输出,如分布维度设置为(0,0.33],(0.33,0.66],(0.66,1];则当满足对应维度时,则将对应维度设置为1,其余维度设置为1.此时,第三特征数据包括基本维度异常特征以及时长分布概率特征。
需说明的是,由于工单向量处理了基础工单信息以及故障类别,且均会采用分词进行向量化处理的,因此存在向量相同但实际处理过程不同,因此还要对工单向量进行特征提取。
可理解的是,步骤S230、通过多分类子模型对工单向量以及时长异常概率值进行多维度特征提取,得到质检分类信息;还包括:通过多分类子模型对工单向量进行相似度特征提取,得到第四特征数据;对应的,通过多分类子模型对第一特征数据、第二特征数据以及第三特征数据进行权重处理,并根据权重处理的结果输出质检分类信息,包括:通过多分类子模型对第一特征数据、第二特征数据、第三特征数据以及第四特征数据进行权重处理,并根据权重处理的结果输出质检分类信息。
需说明的是,通过引入相似度作为多分类模型进行处理的一个维度,可以提升透视模型输出的之间分类信息的准确性。
示例性的,假设预设的质检分类分别为A、B、C、D、E五种,在进行相似度这一维度特征提取时,会判断当前工单向量和历史标准工单向量的相似度,当相似度大于预设的阈值时,将对应质检分类的值设置为1,其余的设置为0,此时能得到这一维度的第四特征数据。
可理解的是,透视模型通过如下步骤训练得到:根据预设的故障分类,对历史工单集进行标注,得到标注训练集;从标注训练集中提取工单数据,得到样本标注训练集;将样本标注训练集分别作为预设的机器学习模型的工单向量子模型和时长子模型的输入数据,工单向量子模型的输出和时长子模型的输出均作为机器学习模型的多分类子模型的输入数据,标注训练集的质检数据作为多分类子模型的期望输出,对机器学习模型进行训练,得到透视模型。
需说明的是,参照图3所示的工单设置参数,根据工单设置参数对历史工单进行内容的提取以及模型参数的调整。在进行训练前,会在历史的工单后配置相应的质检数据,如质检概述以及质检结果,以表示一个故障工单处理后质检给出的状态,如质检是否合格,质检不合格的原因,如“故障清除时间错误”或“故障原因分类与故障描述不匹配”等,进而使得这些质检数据可以被提取作为质检不合格的分类(即模型的期望输出)。同时,在对机器学习模型进行训练前,会通过质检数据对历史工单集进行标注以进行有监督的训练,使得期望输出为质检数据的内容之一。
需说明的是,相对于传统的依赖相似度的判断,本申请实施例的透视模型的质检分类基于多个维度进行关联分析,精度更高。而传统的相似度由于相似度本身依靠词向量的相似度来判断,尤其是中文需要分词处理才能得到词向量,如“单板软件故障”可以拆分成三个词,“单板”、“软件”、“故障”,也可以拆分成“单板”和“软件故障”两个词,那么分词出现偏差,如“硬件故障”和“硬件”、“故障”的分词不当或者词典设置不当,就容易产生偏差,认为软件故障和硬件故障相似度高,显然是不正确的。
需说明的是,如果两个工单处理的相似度(即工单向量)超过相似度阈值,但机器学习模型通过有监督学习输出的分类又不在一个类别,或者,两个工单处理明显不相似,但分类在一个类别,都可能存在机器学习的偏差,不仅需要对有监督学习进行评估和调整,还有可能是向量化的错误导致相似度出现异常。因此,本申请实施例还通过步骤S310~步骤S340,借助于相似度对机器学习模型进行精度提升训练。
可理解的是,参照图11所示,故障工单的之间方法还包括:
步骤S310、在机器学习模型训练过程中,统计训练失败时的训练失败数据子集。
需说明的是,训练失败表示分类错误。
步骤S320、计算训练失败数据子集中每一失败数据对应的相似度,得到相似度集。
需说明的是,将每一失败数据与其匹配的历史工单进行相似度计算,得到相似度。相似度用于表征失败数据与期望匹配的历史工单的相似程度。
步骤S330、根据相似度集,判断是否调整用于工单向量子模型进行向量化处理的分词词典和/或工单语料库。
需说明的是,当失败数据的相似度低于相似度阈值,则表示相似度计算错误,此时可以通过调整分词词典和/或工单语料库,提升相似度的准确率。
示例性的,从相似度集中选取相似度较低的多个失败数据,当分词词典和工单语料库至少一个发生变化后,通过失败数据对工单向量子模型进行训练并根据多分类子模型的输出判断是否继续调整分词词典、工单语料库。
步骤S340、根据相似度集,判断是否调整时长子模型的时长分布左右标准差。
需说明的是,相似度本身阈值的设置同样会影响判断的正确性,如70%相似还是90%相似,实际应用中并不能因为设置太高而导致实际处理是正确反而认为质检不合格;因此,当相似度阈值设置在一个相对合理范围时,且失败数据均满足相似度阈值时,通过调整时长模型的时长分布左右标准差提升透视模型输出的精度。
需说明的是,时长分布左右标准差是用于衡量输入的时长数据位于的区间,进而确定输出的时长异常概率值。
步骤S350、根据相似度集、时长子模型的输出,判断是否调整多分类子模型的模型参数,模型参数包括故障分类、故障分类对应的故障标签以及超参数至少之一。
在一些实施例中,在相似度正确、时长模型输出正常的情况下,可以优先调整超参数。在另一些实施例中,在相似度正确、时长模型输出正常的情况下,会优先处理故障分类、故障分类对应的故障标签。如当时长子模型输出正确,重新定义故障分类和调整故障分类标签,使得机器学习模型重新进行训练。
因此,通过步骤S310~步骤S350反复调整以及机器学习模型的算法调整,反复进行迭代,进而提升训练好的透视模型的精度。
需说明的是,在一些实施例中,可以选用步骤S320~步骤S350中任一一个或者多个步骤进行模型训练的提升。
示例性的,参照图11至图14所示对透视模型的训练和使用进行详细说明。参照图12所示,通过模型训练模块导入历史工单集,对历史工单集中每一历史工单通过内容抽取模块400提取工单内容,得到处理过程数据(基础数据、故障类别以及故障操作数据)以及时间相关的数据,并对处理过程数据中多个子数据分别进行独热编码,得到多个独热编码数据。通过工单向量子模型对多个独热编码数据进行工单向量化处理,时长子模型对时间相关的数据进行时长分布异常预测,多分类子模型对工单向量化的输出、时长分布异常预测的输出进行特征提取从而进行有监督学习,同时,对于训练失败的子数据进行相似度、时长模型输出校验,当校验不过则进行迭代更新重新进行向量化的处理、以及时长模型训练。当校验通过后,发布透视模型,将待质检的工件通过内容抽取器进行内容提取并依次进行分词和独热编码,最终通过透视模型的工单向量子模型、时长子模型以及多分类子模型进行特征提取,输出质检分类信息。具体的,参照图12所示,在加载历史工单集之前,会对历史工单进行质检数据的提取,并将质检合格的历史工单标记分类标签为合格,质检不合格的历史工单进行质检分类提取,进而对质检不合格的设置多分类标签;进而能依据该标签设置进行有监督的训练。具体的,参照图13所示,当对多分类处理模块230校验失败时,则会将训练失败的历史工单收集,并将其中相似度较低的工单汇总,重新调整分词和历史工单语料库,以进行工单向量的重处理(即对工单向量子模型重新训练),在相似度满足预设条件后(如均在相似度阈值以内),则调整工单处理时长异常概率分布(即对时长子模型重新训练调整),当时长子模型输出正常,则调整多分类类别和标签以重新进行多分类子模型的训练。最后重现调整训练数据,进行新一轮的第二代顺利,直至无监督监测正常。
可理解的是,本申请实施例还提出一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面的故障工单的质检方法。
因此,本申请实施例提出的电子设备,它对历史工单进行学习训练得到一种透视模型,对故障工单处理的本质进行多维度关联,通过工单处理内容,包括故障原因分类、工单处理时长和处理过程等因素进行综合判断,不仅得到工单处理是否正确,还能够给出工单处理异常的具体环节,以便后续工单处理和质检进行参考。
更具体而言,本申请实施例的透视模型是一个综合多个算法和方法和模型,它通过对工单处理内容进行多维度特征提取,借助工单处理时长的统计概率分布,借助不同故障种类的工单处理的向量化相似度学习,最后通过多分类机器学习的一种模型。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
下面结合图15对计算机设备的硬件结构进行详细说明。该电子设备包括:处理器510、存储器520、输入/输出接口530、通信接口540和总线550。
处理器510,可以采用通用的CPU(Central Processin Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本公开实施例所提供的技术方案;
存储器520,可以采用ROM(Read Only Memory,只读存储器)、静态存储设备、动态存储设备或者RAM(Random Access Memory,随机存取存储器)等形式实现。存储器520可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器520中,并由处理器510来调用执行本公开实施例的模型的分类预测方法;
输入/输出接口530,用于实现信息输入及输出;
通信接口540,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;和总线550,在设备的各个组件(例如处理器510、存储器520、输入/输出接口530和通信接口540)之间传输信息;
其中,处理器510、存储器520、输入/输出接口530和通信接口540通过总线550实现彼此之间在设备内部的通信连接。
可理解为,本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于实现第一方面的故障工单的质检方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种故障工单的质检方法,所述质检方法包括:
获取待质检的工单对应的工单数据;
将所述工单数据输入到预设的透视模型中进行多维度工单因素关联分析处理,得到所述工单对应的质检分类信息。
2.根据权利要求1所述的故障工单的质检方法,其特征在于,所述透视模型包括工单向量子模型、时长子模型以及多分类子模型;所述将所述工单数据输入到预设的透视模型中进行工单因素多维度关联分析处理,得到所述工单对应的质检分类信息,包括:
通过所述工单向量子模型对所述工单数据进行向量化处理,得到工单向量;
通过所述时长子模型对所述工单数据进行时长分布预测,得到时长异常概率值;
通过所述多分类子模型对所述工单向量以及所述时长异常概率值进行多维度特征提取,得到所述质检分类信息。
3.根据权利要求2所述的故障工单的质检方法,其特征在于,在得到所述工单向量之前,所述质检方法还包括:
根据所述工单数据,确定多个独热编码数据,其中,多个所述独热编码数据分别对应工单基础数据、故障原因类别以及故障操作数据;
对应的,所述通过所述工单向量子模型对所述工单数据进行向量化处理,得到工单向量,包括:
通过所述工单向量子模型对多个所述独热编码数据进行向量化处理,得到工单向量。
4.根据权利要求2所述的故障工单的质检方法,其特征在于,在得到所述时长异常概率值之前,所述质检方法还包括:
从所述工单数据中提取故障类别、故障描述时间以及故障处理时间数据;
对应的,所述通过所述时长子模型对所述工单数据进行时长概率预测,得到时长异常概率值,包括:
通过所述时长子模型对所述故障类别、所述故障描述时间和所述故障处理时间数据进行时长概率预测,得到时长异常概率值。
5.根据权利要求2所述的故障工单的质检方法,其特征在于,所述通过所述多分类子模型对所述工单向量以及所述时长异常概率值进行多维度特征提取,得到质检分类信息,包括:
通过所述多分类子模型对所述工单向量分别进行向量特征提取以及故障类型特征提取,得到所述向量特征对应的第一特征数据、所述故障类型特征对应的第二特征数据;
通过所述多分类子模型对所述时长异常概率值进行多维度时长特征提取,得到第三特征数据;
通过所述多分类子模型对第一特征数据、所述第二特征数据以及所述第三特征数据进行权重处理,并根据所述权重处理的结果输出所述质检分类信息。
6.根据权利要求5所述的故障工单的质检方法,其特征在于,所述通过所述多分类子模型对所述工单向量以及所述时长异常概率值进行多维度特征提取,得到质检分类信息,还包括:
通过所述多分类子模型对所述工单向量进行相似度特征提取,得到第四特征数据;
对应的,所述通过所述多分类子模型对第一特征数据、所述第二特征数据以及所述第三特征数据进行权重处理,并根据所述权重处理的结果输出所述质检分类信息,包括:
通过所述多分类子模型对第一特征数据、所述第二特征数据、所述第三特征数据以及所述第四特征数据进行权重处理,并根据所述权重处理的结果输出所述质检分类信息。
7.根据权利要求2所述的故障工单的质检方法,其特征在于,所述透视模型通过如下步骤训练得到:
根据预设的故障分类,对历史工单集进行标注,得到标注训练集;
从所述标注训练集中提取工单数据,得到样本标注训练集;
将所述样本标注训练集分别作为预设的机器学习模型的工单向量子模型和时长子模型的输入数据,所述工单向量子模型的输出和所述时长子模型的输出均作为所述机器学习模型的多分类子模型的输入数据,所述标注训练集的质检数据作为所述多分类子模型的期望输出,对所述机器学习模型进行训练,得到所述透视模型。
8.根据权利要求7所述的故障工单的质检方法,其特征在于,所述故障工单的质检方法还包括:
在所述机器学习模型训练过程中,统计训练失败时的训练失败数据子集;
计算所述训练失败数据子集中每一失败数据对应的相似度,得到相似度集;
根据所述相似度集,进行如下至少之一的步骤调整:
根据所述相似度集,判断是否调整用于所述工单向量子模型进行向量化处理的分词词典和/或工单语料库;
根据所述相似度集,判断是否调整所述时长子模型的时长分布左右标准差;
根据所述相似度集、所述时长子模型的输出,判断是否调整所述多分类子模型的模型参数,所述模型参数包括故障分类、所述故障分类对应的故障标签以及超参数至少之一。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的故障工单的质检方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于实现至少如权利要求1至8中任意一项所述的故障工单的质检方法。
CN202210630838.3A 2022-06-06 2022-06-06 故障工单的质检方法、设备及存储介质 Pending CN117251563A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210630838.3A CN117251563A (zh) 2022-06-06 2022-06-06 故障工单的质检方法、设备及存储介质
PCT/CN2023/097508 WO2023236836A1 (zh) 2022-06-06 2023-05-31 故障工单的质检方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210630838.3A CN117251563A (zh) 2022-06-06 2022-06-06 故障工单的质检方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117251563A true CN117251563A (zh) 2023-12-19

Family

ID=89117539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210630838.3A Pending CN117251563A (zh) 2022-06-06 2022-06-06 故障工单的质检方法、设备及存储介质

Country Status (2)

Country Link
CN (1) CN117251563A (zh)
WO (1) WO2023236836A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117973566A (zh) * 2024-04-01 2024-05-03 腾讯科技(深圳)有限公司 训练数据处理方法、装置及相关设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117811897B (zh) * 2024-02-23 2024-04-30 济南通华电子技术有限公司 一种物联网卡通信运维工单数据智能分析管理系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470022B (zh) * 2018-01-18 2021-11-23 南京邮电大学 一种基于运维管理的智能工单质检方法
JP7005428B2 (ja) * 2018-05-29 2022-01-21 株式会社東芝 地絡要因推定装置、地絡要因推定方法、およびプログラム
CN108830391A (zh) * 2018-06-20 2018-11-16 北京金风慧能技术有限公司 风力发电机组运维管理系统、方法和计算机设备
CN110413635A (zh) * 2019-06-20 2019-11-05 口碑(上海)信息技术有限公司 一种数据处理方法以及装置
CN111181786B (zh) * 2019-12-30 2022-06-10 杭州东方通信软件技术有限公司 用户反馈故障信息处理方法、设备、服务器和存储介质
CN114281932A (zh) * 2021-09-13 2022-04-05 腾讯科技(深圳)有限公司 工单质检模型的训练方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117973566A (zh) * 2024-04-01 2024-05-03 腾讯科技(深圳)有限公司 训练数据处理方法、装置及相关设备
CN117973566B (zh) * 2024-04-01 2024-05-31 腾讯科技(深圳)有限公司 训练数据处理方法、装置及相关设备

Also Published As

Publication number Publication date
WO2023236836A1 (zh) 2023-12-14

Similar Documents

Publication Publication Date Title
CN110609759B (zh) 一种故障根因分析的方法及装置
CN117251563A (zh) 故障工单的质检方法、设备及存储介质
CN113282461B (zh) 传输网的告警识别方法和装置
CN111325260B (zh) 数据处理方法及装置、电子设备、计算机可读介质
CN109409444B (zh) 一种基于先验概率的多元电网故障类型的判别方法
CN113687972B (zh) 业务系统异常数据的处理方法、装置、设备及存储介质
CN113778894B (zh) 测试用例的构建方法、装置、设备及存储介质
CN110162972B (zh) 一种基于语句联合编码深度神经网络的uaf漏洞检测方法
CN111796955A (zh) 故障根源定位方法、系统、装置及存储介质
CN116467674B (zh) 一种配电网智能故障处理融合更新系统及其方法
CN116361147A (zh) 测试用例根因定位方法及其装置、设备、介质、产品
CN112765217A (zh) 基于边缘计算和路径分析的数据处理方法及系统
CN113326177A (zh) 一种指标异常检测方法、装置、设备及存储介质
CN116089218A (zh) 基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统
CN114647558A (zh) 一种日志异常检测的方法和装置
CN111290953B (zh) 分析测试日志的方法与装置
CN117238276A (zh) 一种基于智能化语音数据识别的分析纠正系统
CN115438190B (zh) 一种配电网故障辅助决策知识抽取方法及系统
CN113891342A (zh) 基站巡检方法、装置、电子设备及存储介质
CN113824575A (zh) 故障节点识别的方法、装置、计算设备及计算机存储介质
CN116308679A (zh) 供应链异常订单处理方法、装置、设备及存储介质
CN116126807A (zh) 一种日志分析方法及相关装置
CN113517998B (zh) 预警配置数据的处理方法、装置、设备及存储介质
CN114765575B (zh) 一种网络故障原因预测方法、装置及电子设备
CN115618355A (zh) 注入攻击结果判定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication