CN114357171A - 一种应急事件处理方法、装置、存储介质及电子设备 - Google Patents
一种应急事件处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114357171A CN114357171A CN202210005995.5A CN202210005995A CN114357171A CN 114357171 A CN114357171 A CN 114357171A CN 202210005995 A CN202210005995 A CN 202210005995A CN 114357171 A CN114357171 A CN 114357171A
- Authority
- CN
- China
- Prior art keywords
- emergency
- data
- text
- classification
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 61
- 238000013145 classification model Methods 0.000 claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000012423 maintenance Methods 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000011835 investigation Methods 0.000 abstract description 9
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000010801 machine learning Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 238000009223 counseling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种应急事件处理方法、装置、存储介质及电子设备,将获取到的待处理应急文本数据进行预处理操作得到词向量矩阵形式的应急文本数据,预处理操作为将文本数据转换成矩阵形式的数据的操作,通过预先构建的分类模型对词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果,预测分类结果用于表征预测出应急事件的分类结果,基于分类结果执行对应的应急处置操作。通过上述,基于语音识别、自然语言处理和机器学习等技术,形成基于应急过程的文本分类模型,根据该模型预测实时发生应急事件的事件原因分类,通过分类结果指导应急处置,提高应急排查和应急处理的效率,使得应急分析过程更加智能化,从而满足业务要求和运维要求。
Description
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种应急事件处理方法、装置、存储介质及电子设备。
背景技术
随着金融行业的发展,金融业务对信息系统的依赖度越来越高,为保障信息系统的安全稳定运行,需要通过数据中心对信息系统的应急事件进行处理。
应急事件是指生产环境发生的影响应用、系统环境、网络通信、机器设备、机房环境等基础设施的正常有效运行的事情,可能会导致服务中断或服务质量降低。
目前,数据中心对应急事件的处理过程主要分为以下四个阶段:一是在业务报障、系统告警或者巡检发现业务异常时启动应急;二是根据当前现象、系统的各种报错、异常,由各个领域的运维人员、专家共同依靠自身的运维知识、经验去分析判断可能的事件原因,并根据原因制定恢复方案;三是恢复方案执行并验证,即执行恢复方案,由业务进行验证;四是对应急事件进行回顾总结。
现有技术中,由于通过数据中心对信息系统的应急事件进行处理主要依靠的专家知识、运维经验、人工分析,使得应急排查和应急处理所花费的时间长且效率低,从而无法满足业务要求和运维要求。
发明内容
有鉴于此,本申请公开了一种应急事件处理方法、装置、存储介质及电子设备,旨在提高应急排查和应急处理的效率,使得应急分析过程更加智能化,满足业务要求和运维要求。
为了实现上述目的,其公开的技术方案如下:
本申请第一方面公开了一种应急事件处理方法,所述方法包括:
获取待处理应急文本数据;
将所述待处理应急文本数据进行预处理操作,得到词向量矩阵形式的应急文本数据;所述预处理操作为将文本数据转换成矩阵形式的数据的操作;
通过预先构建的分类模型,对所述词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果;所述预测分类结果用于表征预测出应急事件的分类结果;
基于所述分类结果执行对应的应急处置操作。
优选的,所述获取待处理应急文本数据,包括:
获取原始语音文件数据;所述原始语音文件数据为未通过文本转换的应急事件的语音文件数据;
将所述原始语音文件数据进行文本转换,得到待处理应急文本数据。
优选的,所述将所述待处理应急文本数据进行预处理操作,得到词向量矩阵形式的应急文本数据,包括:
通过字符串正则表达式去除所述待处理应急文本数据的预设符号,得到无预设符号的应急文本数据;
通过预设文本分词工具对所述无预设符号的应急文本数据进行分词,得到分词后的应急文本数据;
去除所述分词后的应急文本数据中的预设停用词,得到应急文本词汇列表;
通过连续词袋模型对所述应急文本词汇列表进行转换,得到词向量矩阵形式的应急文本数据。
优选的,所述通过预先构建的分类模型,对所述词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果,包括:
通过随机算法对所述词向量矩阵形式的应急文本数据进行处理,得到所述词向量矩阵形式的应急文本数据的测试集;
通过预先构建的分类模型,对所述测试集进行分类,得到预测分类结果。
优选的,构建分类模型的过程,包括:
获取原始语音文件数据;所述原始语音文件数据为未经文本转换的应急事件的语音文件数据;
将所述原始语音文件数据进行文本处理,得到文本集;
提取所述文本集中的关键应急文本信息;
将所述文本集、所述关键应急文本信息和预先获取到的事件单数据进行关联,得到数据集;
通过随机算法对所述数据集进行处理,得到训练集;
通过所述训练集构建分类模型。
优选的,还包括:
对所述分类模型进行模型评估操作;所述模型评估操作用于评估所述分类模型的分类准确率。
本申请第二方面公开了一种应急事件处理装置,所述装置包括:
获取单元,用于获取待处理应急文本数据;
操作单元,用于将所述待处理应急文本数据进行预处理操作,得到词向量矩阵形式的应急文本数据;所述预处理操作为将文本数据转换成矩阵形式的数据的操作;
分类预测单元,用于通过预先构建的分类模型,对所述词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果;所述预测分类结果用于表征预测出应急事件的分类结果;
执行单元,用于基于所述分类结果执行对应的应急处置操作。
优选的,所述获取单元,包括:
第一获取模块,用于获取原始语音文件数据;所述原始语音文件数据为未通过文本转换的应急事件的语音文件数据;
第一转换模块,用于将所述原始语音文件数据进行文本转换,得到待处理应急文本数据。
本申请第三方面公开了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如第一方面任意一项所述的应急事件处理方法。
本申请第四方面公开了一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如第一方面任意一项所述的应急事件处理方法。
经由上述技术方案可知,本申请公开了一种应急事件处理方法、装置、存储介质及电子设备,获取待处理应急文本数据,将待处理应急文本数据进行预处理操作得到词向量矩阵形式的应急文本数据,预处理操作为将文本数据转换成矩阵形式的数据的操作,通过预先构建的分类模型,对词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果,预测分类结果用于表征预测出应急事件的分类结果,基于分类结果执行对应的应急处置操作。通过上述方案,基于语音识别、自然语言处理和机器学习等技术,形成基于应急过程的文本分类模型,根据该模型预测实时发生应急事件的事件原因分类,通过分类结果指导应急处置,提高应急排查和应急处理的效率,使得应急分析过程更加智能化,满足业务要求和运维要求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种应急事件处理方法的流程示意图;
图2为本申请实施例公开的连续词袋模型的示意图;
图3为本申请实施例公开的连续词袋模型的网络结构的示意图;
图4为本申请实施例公开的分类模型的示意图;
图5为本申请实施例公开的一种应急事件处理装置的结构示意图;
图6为本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,现有技术中,由于通过数据中心对信息系统的应急事件进行处理主要依靠的专家知识、运维经验、人工分析,使得应急排查和应急处理所花费的时间长且效率低,从而无法满足业务要求和运维要求。
为了解决上述问题,本申请实施例公开了一种应急事件处理方法、装置、存储介质及电子设备,基于语音识别、自然语言处理和机器学习等技术,形成基于应急过程的文本分类模型,根据该模型预测实时发生应急事件的事件原因分类,通过分类结果指导应急处置,提高应急排查和应急处理的效率,使得应急分析过程更加智能化,满足业务要求和运维要求。具体实现方式通过下述实施例进行说明。
参考图1所示,为本申请实施例公开的一种应急事件处理方法的流程示意图,该应急事件处理方法主要包括如下步骤:
S101:获取待处理应急文本数据。
在S101中,将应急事件对应的应急协作系统的原始语音文件数据进行文本转换,得到待处理应急文本数据。
应急协作系统是一个电话会议系统,每次应急都有对应的电话会议语音记录,电话会议语音记录为语音格式。
应急事件对应的语音文件数据可以是应急会议语音记录,也可以其他与应急相关的语音记录。具体应急事件对于的语音文件数据的类型本申请不做具体限定。
应急事件是指生产环境发生的影响应用、系统环境、网络通信、机器设备、机房环境等基础设施的正常有效运行的事情,可能会导致服务中断或服务质量降低。
具体获取待处理应急文本数据的过程如下:
首先,获取原始语音文件数据;原始语音文件数据为未通过文本转换的应急事件的语音文件数据。
然后,将原始语音文件数据进行文本转换,得到待处理应急文本数据。
其中,对应急事件进行分析,将原始语音文件数据转换为文本形式的待处理应急文本数据。
待处理应急文本数据包括电话会议文本记录等。
S102:将待处理应急文本数据进行预处理操作,得到词向量矩阵形式的应急文本数据;预处理操作为将文本数据转换成矩阵形式的数据的操作。
在S102中,通过将待处理应急文本数据进行预处理操作,目的是将文本数据转换为机器可以处理的矩阵形式的数据。
具体将待处理应急文本数据进行预处理操作,得到词向量矩阵形式的应急文本数据的过程如下:
首先,通过字符串正则表达式去除待处理应急文本数据的预设符号,得到无预设符号的应急文本数据。
需要说明的是,预设符号包括空格、特殊符号等。
由于大段的文本数据都是由语音识别转换而来,因此通过字符串正则表达式将文本中包含的空格、特殊符号等去除。
其次,通过预设文本分词工具对无预设符号的应急文本数据进行分词,得到分词后的应急文本数据。
通过使用一些开源的文本分词工具对文本分词,考虑到运维领域中一些常用的专用词汇,为了使文本分词更加准确,需要建立一个分词词典,在分词前将该字典载入预设文本分词工具,再通过预设文本分词工具对无预设符号的应急文本数据进行分词。
然后,去除分词后的应急文本数据中的预设停用词,得到应急文本词汇列表。
停用词是一些完全没有用或者没有意义的词,去掉他们以后对理解整个句子的语义没有影响。文本数据中,会存在大量的停用词,如虚词、代词、没有特定含义的动词、名词等。
应急文本词汇列表中包括所有文本数据中的词汇全集,该词汇全集的表达式如公式(1)所示。
W=[w1,w2,......wv] (1)
其中,W为词汇全集,w1,w2,......wv均为词汇,v的取值为大于等于1的整数。
最后,通过连续词袋模型(The Continuous Bag-Of-Words Model,CBOW)对应急文本词汇列表进行转换,得到词向量矩阵形式的应急文本数据。
应急文本数据用wi表示。
词汇全集中的词汇是不能被计算机处理的,因此需要将其转换为计算机可以识别、计算的词向量矩阵形式的应急文本数据。
借助word2vec工具,采用负采样方式对CBOW模型进行训练。
将W中的词汇和向量下标构成字典,该字典的表达式如公式(2)所示。
{w1:1,w2:2,...wv:V} (2)
其中,w1、w2和wv均为词汇,V为词向量维度。
对于wi对应的独热编码就是一个1×V维的向量si,i为向量下标,向量下标i处对应的值为1,其余下标对应的值为0。
具体连续词袋模型的示意图参考图2所示。
图2中,连续词袋模型包括输入层、投影层和输出层。
连续词袋模型通过已知当前词的上下文,来预测当前词。例如,上下文的词汇是Wt-2、Wt-1、Wt+1和Wt+2,通过数据集来训练这个浅层神经网络,最后通过输入层输入是某一个特征词的上下文相关的词对应的词向量,而输出层输出就是特定的一个词的词向量Wt。
连续词袋模型的网络结构参考图3所示。
图3中,用来预测的词汇上下文窗口为C,C对应的词汇的表达式如公式(3)所示。
[x1,x2......xc] (3)
[x1,x2......xc]为C对应的词汇,设定词向量维度为V,设定最终词向量的维度为N,输入层是对上下文C对应的词汇进行独热编码。
图3中,设置输入层权值共享矩阵为WV×N,将WV×N通过隐藏层输出,得到N×1维的向量,N×1维的向量的表达式如公式(4)所示。
h为隐藏层的输出结果,隐藏层的输出结果为N×1维的向量,WT为,C为预测的词汇上下文窗口,xi为C对应的词汇。
设定输出层权重矩阵为W′N×V,通过输出层输出的结果如公式(5)和公式(6)所示。
u=hT*W′N×V (5)
其中,u为输出层的输出结果,输出层的输出结果为1×V的向量,V的取值为大于等于1的整数,hT为h的矩阵转至。
其中,yc,j为表示上下文预测的单词对应下标为j的概率值,uj为u中第j个值,v为所有的文本分词之后总的词汇个数。
对连续词袋模型进行训练,输出层得到1×V的向量,其中概率最大的下标为根据上下文预测的单词,和实际中心词进行比较,按照交叉熵损失函数,去训练网络中的权重矩阵WV×N和W′N×V,连续词袋模型生成后,wi的词向量的表达式如公式(7)所示。
Ti=si*WV×N (7)
其中,Ti为wi的词向量表示,si为wi的独热编码。
生成分词词典,分词词典的表达式如公式(8)所示。
D={w1:T1,w2:T2,...wv:TV} (8)
其中,T1,T2和TV均为词向量表示,D为分词词典。
S103:通过预先构建的分类模型,对词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果;预测分类结果用于表征预测出应急事件的分类结果。
训练分类模型就是计算机通过训练数据进行算法拟合过程。分类模型可以分为基于传统机器学习的文本分类模型和基于深度学习的文本分类模型,目前基于深度学习模型的文本分类模型已经成为了主流,本方案使用深度学习Text-CNN模型进行文本分类。
分类模型包括输入层、卷积层、池化层和输出层,具体如图4所示。
在输入层中,利用公式(8)的分词词典D将词转换为词向量,文本转换为二维词向量矩阵AMN,其中,M为文本分词数,N为对应的词向量长度。
卷积层的输入是AMN,卷积核的宽度是和词向量的维度一致,设定卷积核大小为k×N,其中,k为卷积核的长度,一般k∈{2,3,4,5}。设定k一共有i种选择,i的取值范围为大于等于1的整数,卷积核的个数为s,s的取值范围为大于等于1的整数,则卷积层输出为i×s个一维向量,向量大小为|M-1|×1|,M的取值范围为大于1的整数。
选取每一个卷积层输出的Topk个最大值作为池化层的输出,最后形成长度为i×s×n的一维向量O。
抽取出来的一维向量在全连接层进行权重计算,通过输出层输出分类集,该分类集的计算式如公式(9)所示。
C=O×U (9)
其中,C为分类集,O为一维向量,U为全连接权重。
设定x为分类模型的输入,f(x)为分类模型的输出,实际分类为Y,定义分类模型的损失函数为L(Y,f(x)),估量分类模型的预测值f(x)与真实值Y的不一致程度,可以衡量模型预测的好坏。损失函数越小,模型的鲁棒性就越好。本方案选择交叉熵损失函数作为分类模型的损失函数。
具体通过预先构建的分类模型,对词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果的过程如下:
首先,通过随机算法对词向量矩阵形式的应急文本数据进行处理,得到词向量矩阵形式的应急文本数据的测试集。
然后,通过预先构建的分类模型,对测试集进行分类,得到预测分类结果。
其中,具体预测分类结果包括应用问题、产品问题、基础设施技术与配置、管理问题、安全问题、咨询服务、服务请求、相关第三方问题、业务问题、客户问题等。
应用问题包括程序缺陷、需求问题、数据问题、参数配置等。
产品问题包括系统硬件、网络硬件、网络软件、操作系统、数据库、中间件、应用软件、供电设备、空调等。
基础设施技术与配置包括参数配置、容量不足、变更方案不完善、监控漏报、监控误报、高可用架构失效、技术应急预案失效、信息安全缺陷、自动化工具异常等。
管理问题包括人为操作、应用未及时升级、基础设施未及时升级、变更实施违规等。
安全问题包括病毒、攻击、扫描等。
咨询服务包括业务咨询、技术咨询等。
服务请求包括数据请求、资源请求等。
相关第三方问题包括外联、券商、其他第三方系统等。
业务问题包括业务操作、业务新需求等。
客户问题包括客户操作问题、客户理解问题等。
构建分类模型的过程如A1-A6所示。
A1:获取原始语音文件数据;原始语音文件数据为未经文本转换的应急事件的语音文件数据。
A2:将原始语音文件数据进行文本处理,得到文本集。
其中,假设现在一共有M个应急事件,使用语音识别工具将应急会议语音记录转换为文本si,方便后续进行文本处理。
文本集的表达式如公式(10)所示。
S={s1,s2,......sM} 公式(10)
其中,S为文本集,s1,s2,......sM均为字符串,文本si包括各个字符串,M的取值为大于等于1的整数。
A3:提取文本集中的关键应急文本信息。
其中,此过程需要对转换的文本进行完善,对文本集中进行核对,修改语句不通顺、文本识别错误、断句错误的语句,提取在应急过程中的文本集的关键应急文本信息,关键应急文本信息的表达式如公式(11)所示。
si→di (11)
其中,si为文本,di为关键应急文本信息。
提取后形成的文本集D,其表达式如公式(12)所示。
D={d1,d2......dM} (12)
其中,d1,d2......dM均为关键应急文本信息。
A4:将文本集、关键应急文本信息和预先获取到的事件单数据进行关联,得到数据集I。
数据集I的表达式如公式(13)所示。
I={i1,i2......iM} (13)
其中,i1,i2......iM均为应急事件。
iM表示一个应急事件,它包含了单号、系统、现象、处置过程、根本原因一级分类、根本原因二级分类、电话会议记录、电话会议关键应急文本信息等属性。为了后续方便事件按照原因分类,将事件的根本原因一级分类、根本原因二级分类两个属性合并为一个属性根本原因分类,假设一共有的分类个数为N,N的取值范围为大于等1的整数,则分类集的表达式如公式(14)所示。
C={c1,c2......cN} (14)
其中,C为分类集,c1,c2......cN为文本对应的分类,每一个文本都有对应的分类,一共有N种分类,N的取值为大于等于1的整数。
通过根本原因分类、电话会议记录、电话会议关键应急文本信息等属性形成如表1的待处理结构化数据集。
表1
表1中,N的取值范围为大于1的整数,M的取值范围为大于1的整数。
需要找到一个函数φ,实现文本集D到分类集C的映射,文本集D到分类集C的映射的表达式如公式(15)所示。
C=φ(D) (15)
函数φ为一个矩阵,函数φ的表达式如公式(16)所示。
A5:通过随机算法对数据集进行处理,得到训练集。
其中,把整个数据集分为训练集和测试集,这里按照随机算法抽取一半的数据作为训练集。
A6:通过训练集构建分类模型。
对分类模型进行模型评估操作;模型评估操作用于评估分类模型的分类准确率。
其中,根据实际结果和分类模型的模型分类结果计算分类模型的分类准确率。
实际结果是每次应急结束后就会对事件的分类进行判定,这个结果是在事件工单信息中。
在分类准确率不满足要求时,即分类准确率小于预设准确率,需要进行训练分类模型优化,这里常用的训练方法有扩大训练集、调整模型参数、更换算法等。
模型开始可能准确率会低,但是样本数是不断扩大的,随着样本数的增加,模型的准确率会不断提升。
S104:基于分类结果执行对应的应急处置操作。
当准确率满足要求时,表明分类模型可用;当发生应急事件时,将应急协作系统中的文本实时转换为文本,随着信息的增加,模型可以实时根据当前会议记录预测出事件的原因分类,给应急排查指明方向,提高应急的智能化水平。
发生应急事件时,电话会议系统将语音记录实时转换为文本送入模型进行分类,语音记录是实时追加的,可以手工或者定时(每隔十分钟)触发预测。
本申请实施例中,基于语音识别、自然语言处理和机器学习等技术,形成基于应急过程的文本分类模型,根据该模型预测实时发生应急事件的事件原因分类,通过分类结果指导应急处置,提高应急排查和应急处理的效率,使得应急分析过程更加智能化,满足业务要求和运维要求。
基于上述实施例图1所示的一种应急事件处理方法,本申请实施例还对应公开了一种应急事件处理装置,具体参考图5所示,该应急事件处理装置包括获取单元501、操作单元502、分类预测单元503和执行单元504。
获取单元501,用于获取待处理应急文本数据。
操作单元502,用于将待处理应急文本数据进行预处理操作,得到词向量矩阵形式的应急文本数据;预处理操作为将文本数据转换成矩阵形式的数据的操作。
分类预测单元503,用于通过预先构建的分类模型,对词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果;预测分类结果用于表征预测出应急事件的分类结果。
执行单元504,用于基于分类结果执行对应的应急处置操作。
进一步的,获取单元501包括第一获取模块和第一转换模块。
第一获取模块,用于获取原始语音文件数据;原始语音文件数据为未通过文本转换的应急事件的语音文件数据。
第一转换模块,用于将原始语音文件数据进行文本转换,得到待处理应急文本数据。
进一步的,操作单元502包括第一去除模块、分词模块、第二去除模块和第二转换模块。
第一去除模块,用于通过字符串正则表达式去除待处理应急文本数据的预设符号,得到无预设符号的应急文本数据。
分词模块,用于通过预设文本分词工具对无预设符号的应急文本数据进行分词,得到分词后的应急文本数据。
第二去除模块,用于去除分词后的应急文本数据中的预设停用词,得到应急文本词汇列表。
第二转换模块,用于通过连续词袋模型对应急文本词汇列表进行转换,得到词向量矩阵形式的应急文本数据。
进一步的,分类预测单元503包括第一处理模块和分类模块。
第一处理模块,用于通过随机算法对词向量矩阵形式的应急文本数据进行处理,得到词向量矩阵形式的应急文本数据的测试集。
分类模块,用于通过预先构建的分类模型,对测试集进行分类,得到模型分类结果。
进一步的,构建分类模型的过程的分类预测单元503包括第二获取模块、文本处理模块、提取模块、关联模块、第二处理模块和构建模块。
第二获取模块,用于获取原始语音文件数据;原始语音文件数据为未经文本转换的应急事件的语音文件数据。
文本处理模块,用于将原始语音文件数据进行文本处理,得到文本集。
提取模块,用于提取文本集中的关键应急文本信息。
关联模块,用于将文本集、关键应急文本信息和预先获取到的事件单数据进行关联,得到数据集。
第二处理模块,用于通过随机算法对数据集进行处理,得到训练集。
构建模块,用于通过训练集构建分类模型。
进一步的,应急事件处理装置还包括操作单元。
操作单元,用于对分类模型进行模型评估操作;模型评估操作用于评估所述分类模型的分类准确率。
本申请实施例中,基于语音识别、自然语言处理和机器学习等技术,形成基于应急过程的文本分类模型,根据该模型预测实时发生应急事件的事件原因分类,通过分类结果指导应急处置,提高应急排查和应急处理的效率,使得应急分析过程更加智能化,满足业务要求和运维要求。
本申请实施例还提供了一种存储介质,存储介质包括存储的指令,其中,在指令运行时控制存储介质所在的设备执行上述应急事件处理方法。
本申请实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行一个或者一个以上指令602执行上述应急事件处理方法。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种应急事件处理方法,其特征在于,所述方法包括:
获取待处理应急文本数据;
将所述待处理应急文本数据进行预处理操作,得到词向量矩阵形式的应急文本数据;所述预处理操作为将文本数据转换成矩阵形式的数据的操作;
通过预先构建的分类模型,对所述词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果;所述预测分类结果用于表征预测出应急事件的分类结果;
基于所述分类结果执行对应的应急处置操作。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理应急文本数据,包括:
获取原始语音文件数据;所述原始语音文件数据为未通过文本转换的应急事件的语音文件数据;
将所述原始语音文件数据进行文本转换,得到待处理应急文本数据。
3.根据权利要求1所述的方法,其特征在于,所述将所述待处理应急文本数据进行预处理操作,得到词向量矩阵形式的应急文本数据,包括:
通过字符串正则表达式去除所述待处理应急文本数据的预设符号,得到无预设符号的应急文本数据;
通过预设文本分词工具对所述无预设符号的应急文本数据进行分词,得到分词后的应急文本数据;
去除所述分词后的应急文本数据中的预设停用词,得到应急文本词汇列表;
通过连续词袋模型对所述应急文本词汇列表进行转换,得到词向量矩阵形式的应急文本数据。
4.根据权利要求1所述的方法,其特征在于,所述通过预先构建的分类模型,对所述词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果,包括:
通过随机算法对所述词向量矩阵形式的应急文本数据进行处理,得到所述词向量矩阵形式的应急文本数据的测试集;
通过预先构建的分类模型,对所述测试集进行分类,得到预测分类结果。
5.根据权利要求1所述的方法,其特征在于,构建分类模型的过程,包括:
获取原始语音文件数据;所述原始语音文件数据为未经文本转换的应急事件的语音文件数据;
将所述原始语音文件数据进行文本处理,得到文本集;
提取所述文本集中的关键应急文本信息;
将所述文本集、所述关键应急文本信息和预先获取到的事件单数据进行关联,得到数据集;
通过随机算法对所述数据集进行处理,得到训练集;
通过所述训练集构建分类模型。
6.根据权利要求5所述的方法,其特征在于,还包括:
对所述分类模型进行模型评估操作;所述模型评估操作用于评估所述分类模型的分类准确率。
7.一种应急事件处理装置,其特征在于,所述装置包括:
获取单元,用于获取待处理应急文本数据;
操作单元,用于将所述待处理应急文本数据进行预处理操作,得到词向量矩阵形式的应急文本数据;所述预处理操作为将文本数据转换成矩阵形式的数据的操作;
分类预测单元,用于通过预先构建的分类模型,对所述词向量矩阵形式的应急文本数据进行分类预测,得到预测分类结果;所述预测分类结果用于表征预测出应急事件的分类结果;
执行单元,用于基于所述分类结果执行对应的应急处置操作。
8.根据权利要求7所述的装置,其特征在于,所述获取单元,包括:
第一获取模块,用于获取原始语音文件数据;所述原始语音文件数据为未通过文本转换的应急事件的语音文件数据;
第一转换模块,用于将所述原始语音文件数据进行文本转换,得到待处理应急文本数据。
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1至6任意一项所述的应急事件处理方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1至6任意一项所述的应急事件处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210005995.5A CN114357171A (zh) | 2022-01-04 | 2022-01-04 | 一种应急事件处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210005995.5A CN114357171A (zh) | 2022-01-04 | 2022-01-04 | 一种应急事件处理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114357171A true CN114357171A (zh) | 2022-04-15 |
Family
ID=81107428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210005995.5A Pending CN114357171A (zh) | 2022-01-04 | 2022-01-04 | 一种应急事件处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357171A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146704A (zh) * | 2022-05-27 | 2022-10-04 | 中睿信数字技术有限公司 | 基于分布式数据库和机器学习的事件自动分类方法和系统 |
CN116757858A (zh) * | 2023-08-23 | 2023-09-15 | 保大坊科技有限公司 | 保险信息处理方法、终端设备和存储介质 |
-
2022
- 2022-01-04 CN CN202210005995.5A patent/CN114357171A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146704A (zh) * | 2022-05-27 | 2022-10-04 | 中睿信数字技术有限公司 | 基于分布式数据库和机器学习的事件自动分类方法和系统 |
CN115146704B (zh) * | 2022-05-27 | 2023-11-07 | 中睿信数字技术有限公司 | 基于分布式数据库和机器学习的事件自动分类方法和系统 |
CN116757858A (zh) * | 2023-08-23 | 2023-09-15 | 保大坊科技有限公司 | 保险信息处理方法、终端设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113094200B (zh) | 一种应用程序的故障预测方法和装置 | |
US7912714B2 (en) | Method for segmenting communication transcripts using unsupervised and semi-supervised techniques | |
CN112115331B (zh) | 基于分布式网络爬虫与nlp的资本市场舆情监测方法 | |
CN114357171A (zh) | 一种应急事件处理方法、装置、存储介质及电子设备 | |
KR102353545B1 (ko) | 재난대응 추천방법 및 그 장치 | |
CN109472462B (zh) | 一种基于多模型堆栈融合的项目风险评级方法及装置 | |
CN116402630B (zh) | 一种基于表征学习的财务风险预测方法及系统 | |
CN115359799A (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
CN116795886A (zh) | 用于销售数据的数据分析引擎及方法 | |
CN115170027A (zh) | 数据分析方法、装置、设备及存储介质 | |
CN113868422A (zh) | 一种多标签稽查工单问题溯源识别方法及装置 | |
CN113674846A (zh) | 基于lstm网络的医院智慧服务舆情监控平台 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN117115581A (zh) | 一种基于多模态深度学习的智能误操作预警方法及系统 | |
CN115357718B (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN113657437B (zh) | 一种电网检修告警确认方法及系统 | |
CN113469237B (zh) | 用户意图识别方法、装置、电子设备及存储介质 | |
CN114610613A (zh) | 一种面向在线实时的微服务调用链异常检测方法 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和系统 | |
CN111859896B (zh) | 配方文档检测方法、装置、计算机可读介质及电子设备 | |
CN113469247B (zh) | 网络资产异常检测方法 | |
CN113706207B (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
CN113628043B (zh) | 基于数据分类的投诉有效性判断方法、装置、设备及介质 | |
CN117635345A (zh) | 一种代理退保的预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |