CN104392006B - 一种事件查询处理方法及装置 - Google Patents
一种事件查询处理方法及装置 Download PDFInfo
- Publication number
- CN104392006B CN104392006B CN201410788297.2A CN201410788297A CN104392006B CN 104392006 B CN104392006 B CN 104392006B CN 201410788297 A CN201410788297 A CN 201410788297A CN 104392006 B CN104392006 B CN 104392006B
- Authority
- CN
- China
- Prior art keywords
- classification
- reason
- feature vector
- current event
- phenomenon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
Abstract
本发明提供了一种事件查询处理方法及装置,本申请预先构建一个预设分类数据库,预设分类数据库包含有事前发生事件的问题现象、原因分析以及处置过程,当出现一个紧急的当前事件时仅需将问题现象和/或原因分析输入至预设分类数据库中,经过预设数据库计算即可得到当前事件的类别,在预设数据库中查找与当前事件类别一致的多个训练样本,多个训练样本由于与当前事件类别一致,所以训练样本中的处置过程可以为当前事件提供参考,因此输出多个训练样本中一个或多个处置过程,以便供用户查看并参考。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种事件查询处理方法及装置。
背景技术
目前国内大部分政府机关和企事业单位都有自己的应急管理案例库,但基本都停留在案例展示阶段,当同类事件重复发生无法快速有效的在应急案例库中找到相似的已发生事件以及已发生事件的处理过程,导致无法快速应对紧急事件,对生产运营造成一定影响,因此现在需要一种方法能够在出现紧急事件时,可以快速检索到类似事件的处置方式,以便为当前出现的时间提供处理依据,提高处理效率和处理质量。
发明内容
本发明提供了一种事件查询处理方法及装置,本发明能够在出现紧急事件时,可以快速检索到类似事件的处置方式,以便为当前出现的时间提供处理依据,提高处理效率和处理质量。
为了实现上述目的,本发明提供了以下技术手段:
一种事件查询处理方法,包括:
获取经过标准化处理的当前事件,当前事件包括问题现象和原因分析,或问题现象;
对所述当前事件进行特征提取获取特征向量;
将所述特征向量输入至预设分类数据库获得所述当前事件的类别,所述预设分类数据库中包括若干个训练样本及多个类别,一个类别包含多个训练样本,每个训练样本包括问题现象、原因分析及处置过程;
在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本;
输出多个训练样本中至少一个处置过程,作为当前事件的处置参考。
优选的,当所述当前事件包括问题现象时,对所述当前事件进行特征提取获取特征向量包括:对所述问题现象进行特征提取获得问题特征向量;
当所述当前事件包括问题现象和原因分析时,对所述当前事件进行特征提取获取特征向量包括:对所述问题现象和原因分析分别进行特征提取,获得问题特征向量和原因特征向量。
优选的,当所述当前事件包括问题现象时,将所述特征向量输入至预设分类数据库获得所述当前事件的类别包括:将所述问题特征向量输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别;
当所述当前事件包括问题现象和原因分析时,将所述特征向量输入至预设分类数据库获得所述当前事件的类别包括:将所述问题特征向量和原因特征向量分别输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别、及与所述原因特征向量对应的原因类别,其中,所述预设分类数据库中包括若干个训练样本,每个训练样本包括表征问题现象的特征向量及问题类别、表征原因分析的特征向量及原因类别,和表征处置过程特征向量及处置类别。
优选的,当所述当前事件包括问题现象时,在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本包括:在所述预设分类数据库中获取与问题类别一致的若干个训练样本,在若干训练样本中确定出现频率最高的原因类别,获取与出现频率最高的原因类别对应的多个训练样本;
当所述当前事件包括问题现象和原因分析时,在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本包括:在所述预设分类数据库的若干个训练样本中获取与问题类别和原因类别均一致的多个训练样本。
优选的,所述对所述问题现象进行特征提取获得问题特征向量包括:
对所述问题现象进行关键词提取获得多个问题关键词;
分别计算每个问题关键词代表所述问题现象的权重;
将每个问题关键词及对应的权重组合作为一个问题关键词集合,多个问题关键词对应多个问题关键词集合;
由所述多个问题关键词集合组成问题特征向量。
优选的,所述对所述问题现象和原因分析进行特征提取,获得问题特征向量和原因特征向量包括:
对所述问题现象进行关键词提取获得多个问题关键词;分别计算每个问题关键词代表所述问题现象的权重;将每个问题关键词及对应的权重组合作为一个问题关键词集合,多个问题关键词对应多个问题关键词集合;由所述多个问题关键词集合组成问题特征向量;
对所述原因分析进行关键词提取获得多个原因关键词;分别计算每个原因关键词代表所述原因现象的权重;将每个原因关键词及对应的权重组合作为一个原因关键词集合,多个原因关键词对应多个原因关键词集合;由所述多个原因关键词集合组成原因特征向量。
优选的,将所述问题特征向量输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别包括:
计算所述问题特征向量与预设分类数据库的若干个训练样本的表征问题现象的特征向量的距离,获得距离最近的K个训练样本;
获取所述K个训练样本的L个问题类别,L≤K;
分别计算所述问题特征向量归属于L个问题类别的概率;
将概率最大的问题类别作为所述问题特征向量的问题类别。
优选的,将所述问题特征向量和原因特征向量分别输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别、及与所述原因特征向量对应的原因类别包括:
计算所述问题特征向量与预设分类数据库的若干个训练样本的表征问题现象的特征向量的距离,获得距离最近的K个训练样本;获取K个训练样本的L个问题类别,L≤K;分别计算所述问题特征向量归属于L个问题类别的概率;将概率最大的问题类别作为所述问题特征向量的问题类别;
计算所述原因特征向量与预设分类数据库的若干个训练样本的表征原因现象的特征向量的距离,获得距离最近的K个训练样本;获取K个训练样本的M个原因类别,M≤K;分别计算所述原因特征向量归属于M个原因类别的概率;将概率最大的原因类别作为所述原因特征向量的原因类别。
优选的,所述预设分类数据库的构建方式包括:
利用朴素贝叶斯、K近邻、支持向量机、决策树或神经网络方式构建预设分类数据库。
优选的,输出多个训练样本其中一个处置过程包括:
输出与多个训练样本对应的多个处置过程中时间最短的处置过程。
一种事件查询处理装置,包括:
获取单元,用于获取经过标准化处理的当前事件,当前事件包括问题现象和原因分析,或问题现象;
特征提取单元,用于对所述当前事件进行特征提取获取特征向量;
分类单元,用于将所述特征向量输入至预设分类数据库获得所述当前事件的类别,所述预设分类数据库中包括若干个训练样本及多个类别,一个类别包含多个训练样本,每个训练样本包括问题现象、原因分析及处置过程;
输出单元,用于在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本;输出多个训练样本中至少一个处置过程,作为当前事件的处置参考。
优选的,所述分类单元包括:
获取样本单元,用于计算所述问题特征向量与预设分类数据库的若干个训练样本的表征问题现象的特征向量的距离,获得距离最近的K个训练样本;或,计算所述原因特征向量与预设分类数据库的若干个训练样本的表征原因现象的特征向量的距离,获得距离最近的K个训练样本;
计算权重单元,用于获取所述K个训练样本的L个问题类别,L≤K;或,获取K个训练样本的M个原因类别,M≤K;
计算概率单元,用于分别计算所述问题特征向量归属于L个问题类别的概率;将概率最大的问题类别作为所述问题特征向量的问题类别;分别计算所述原因特征向量归属于M个原因类别的概率;将概率最大的原因类别作为所述原因特征向量的原因类别。
本发明提供了一种事件查询处理方法及装置,本申请预先构建一个预设分类数据库,预设分类数据库包含有事前发生事件的问题现象、原因分析以及处置过程,当出现一个紧急的当前事件时仅需将问题现象和/或原因分析输入至预设分类数据库中,经过预设数据库计算即可得到当前事件的类别,在预设数据库中查找与当前事件类别一致的多个训练样本,多个训练样本由于与当前事件类别一致,所以训练样本中的处置过程可以为当前事件提供参考,因此输出多个训练样本中一个或多个处置过程,以便供用户查看并参考。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种事件查询处理方法的流程图;
图2为本发明实施例提供的又一种事件查询处理方法的流程图;
图3为本发明实施例提供的又一种事件查询处理方法的流程图;
图4为本发明实施例提供的一种事件查询处理装置的结构示意图;
图5为本发明实施例提供的又一种事件查询处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种事件查询处理方法,包括:
步骤S101:获取经过标准化处理的当前事件,当前事件包括问题现象和原因分析,或问题现象;
对生产运行的异常事件按问题现象、原因分析和处置过程进行标准化提取形成标准化的事件库,事件库中每一个事件都由问题现象、原因分析和处置过程三个短文本构成。如果目前产生一个当前事件,用户仅知道问题现象,或问题现象和原因分析,旨在从事件库中获得与当前事件类似的事件的处置过程,以便为当前事件的处置提供参考。
步骤S102:对所述当前事件进行特征提取获取特征向量;
为了方便在事件库进行查询,首先提取当前事件的特征向量,以利用特征向量表示当前事件;若当前事件中仅包括问题现象,则对问题现象进行特征提取获得问题特征向量,其目的在于使用问题特征向量表征当前事件的意图。
若所述当前事件包含问题现象和原因分析时,对问题现象和原因分析分别进行特征提取,获得问题特征向量和原因特征向量,利用问题特征向量和原因特征向量来表征当前事件的意图。
可以理解的是,当前事件中包含的内容越多,越能够精确在事件库中查找到与当前事件越类似的事件,得到结果的可信度较高,即当前事件中包括问题现象和原因分析两部分内容后,理论上比当前事件中仅包括问题现象得到的查询结果更加可信。
步骤S103:将所述特征向量输入至预设分类数据库获得所述当前事件的类别,所述预设分类数据库中包括若干个训练样本及多个类别,一个类别包含多个训练样本,每个训练样本包括问题现象、原因分析及处置过程;
在本发明实施之前,需要预先构建预设分类数据库,构建预设分类数据库的方式可利用朴素贝叶斯、K近邻、支持向量机、决策树或神经网络方式构建预设分类数据库,预设分类数据库为本发明的查找依据,旨在预设分类数据库中查找得到与当前事件最接近的事件,将最接近事件的处置过程作为当前事件的处置依据。
将表征当前事件的特征向量输入至预设分类数据库中,并将表征当前事件的特征向量与预设分类数据库内部的特征向量进行匹配,在预设分类数据库中得到与当前事件的特征向量距离最近的特征向量,并将距离最近的特征向量的类别作为当前事件的类别。
其中,所述预设分类数据库中包括若干个训练样本,每个训练样本包括表征问题现象的特征向量及问题类别、表征原因分析的特征向量及原因类别,和表征处置过程特征向量及处置类别。
当所述当前事件包括问题现象时,将所述问题特征向量输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别;将问题类别作为当前事件的类别。
当所述当前事件包括问题现象和原因分析时,将所述问题特征向量和原因特征向量分别输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别、及与所述原因特征向量对应的原因类别,将问题类别和原因类别共同作为当前事件的类别。
步骤S104:在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本;
在获得当前事件的类别后,在预设分类数据库的训练样本库中查找,获得与当前事件样本类别一致的多个训练样本,得到的多个训练样本由于与当前事件类别一致,所以可以看作为与当前事件类似的事件,所以训练样本的处置过程可为当前事件提供参考。
若当前事件为问题类别时,可以采用以下两种方式获得与所述当前事件的类别对应的多个训练样本,下面一一进行说明:
第一种:在预设分类数据库的所有训练样本的问题类别中查找,获得与当前事件的问题类别一致的多个训练样本。
由于当前事件中仅存在问题类别时,仅可以利用问题类别在预设分类数据库中进行匹配,可以理解的是,仅采用问题类别进行匹配,由于可提供查询的项目较少,所以得到的多个训练样本的匹配精度较低。
第二种:在所述预设分类数据库中获取与问题类别一致的若干个训练样本,在若干训练样本中确定出现频率最高的原因类别,获取与出现频率最高的原因类别对应的多个训练样本。
由于仅采用问题类别的匹配精度较低,所以在进行问题类别匹配后得到的若干个训练样本中根据原因类别出现频率的高低进行排序,在选择出现频率最高的原因类别,并获取与出现频率最高的原因类别对应的多个训练样本,由于该原因类别出现频率最高,所以推理此次出现相同问题类别时,也为出现频率最高的原因类别所导致的。这样能够减少训练样本的范围,提高匹配精度。
若当前事件为问题类别和原因类别时,则在预设分类数据库的所有样本中查找问题类别和原因类别均与当前事件一致的多个训练样本。利用问题类别和原因类别双重判断依据,判断当前事件应该与预设分类数据库中的训练样本一致。由于当前事件具有问题类别和原因类别双重的判断依据,按照此方法得到的训练样本的匹配精度高于仅有问题类别对应的训练样本。
步骤S105:输出多个训练样本中至少一个处置过程,作为当前事件的处置参考。
在多个训练样本中选择一个或多个处置过程,输出并显示选择的处置过程,以供用户进行参考,在一个或多个处置过程中选择一个最合适的处置过程来处理当前事件。
优选的,输出与多个训练样本对应的多个处置过程中时间最短的处置过程。为了提高处置效率,在多个处置过程中输出一个耗时最短处置过程,以便用户可以高效处理当前事件。
本发明提供了一种事件查询处理方法,本申请预先构建一个预设分类数据库,预设分类数据库包含有事前发生事件的问题现象、原因分析以及处置过程,当出现一个紧急的当前事件时仅需将问题现象和/或原因分析输入至预设分类数据库中,经过预设数据库计算即可得到当前事件的类别,在预设数据库中查找与当前事件类别一致的多个训练样本,多个训练样本由于与当前事件类别一致,所以训练样本中的处置过程可以为当前事件提供参考,因此输出多个训练样本中一个或多个处置过程,以便供用户查看并参考。
下面对图1中步骤S102对所述当前事件进行特征提取获取特征向量进行详细说明:
当前事件中仅包括问题现象时,如图2所示,对所述问题现象进行特征提取获得问题特征向量包括:
步骤S201:对所述问题现象进行关键词提取获得多个问题关键词;
利用提取关键词技术对问题现象的短文本进行特征提取,得到问题能够表征问题现象的多个问题关键词,例如:问题关键词1、问题关键词2……等。
目前关键词提取的开源软件种类很多,但这些软件并不能很好识别IT运维领域的专业词汇,因此需要对软件进行改进,将生产运维相关词条加入词库,并可以设置长匹配模式。所谓长匹配模式即如果一个长度为a的词条被一个长度为b的词条包含(a<b),且b长度词条涵盖所有a词条,则只将b词条加入候选集合中。例如“电子银行系统”这个词,最初的分词系统会分成“电子”、“银行”和“系统”这三个词,而改进的软件则可将其作为一个整体词汇,这样可以更精准的保证语义。
在关键词提取时,还需要使用软件的去禁用词的功能,即将短文本分词后将词条碎片中大量的高频无意义的词语过滤掉,保留能够代表文本特征的核心的名词、动词等。
步骤S202:分别计算每个问题关键词代表所述问题现象的权重;
问题现象的短文本经过关键词提取后,提取得到的关键词可组成关键词集,表示为d=(t1,t2,…,tn),其中ti代表一个关键词。关键词集中每个关键词与问题现象短文本的关联程度不同,因此需要对这种关联关系进行量化处理。如果一个关键词在某一文本中出现的频率越高,则该关键词越能代表文本的主题含义,对应的权重也越高。
基于上述思路,权重计算可以利用TF-IDF方法实现,其中TF代表特征项频率,在本实施例中表示关键词ti在文本d中出现的频率,IDF表示逆向文档频率,则权重Wi计算公式如下:
其中,Wi为与关键词ti对应的权重,tfi关键词ti在文档d中出现的次数,N为预先设立的总文档数,每个文档中包括多个关键词,dfi为包含关键词ti的文档数。
利用上述公式计算每个关键词的权重。
步骤S203:将每个问题关键词及对应的权重组合作为一个问题关键词集合,多个问题关键词对应多个问题关键词集合;
步骤S204:由所述多个问题关键词集合组成问题特征向量。
计算关键词权重后,当前事件的问题现象的短文本都可以表示成一个二维特征向量,d={(t1,w1),(t2,w2),…,(tn,wn)},从而实现向量化解析。
经过图2所示的步骤便可对问题现象进行向量化解析,若当前事件中包括问题现象和原因分析时,所述对所述问题现象和原因分析进行特征提取,获得问题特征向量和原因特征向量,包括:
对所述问题现象进行关键词提取获得多个问题关键词;分别计算每个问题关键词代表所述问题现象的权重;将每个问题关键词及对应的权重组合作为一个问题关键词集合,多个问题关键词对应多个问题关键词集合;由所述多个问题关键词集合组成问题特征向量;
对所述原因分析进行关键词提取获得多个原因关键词;分别计算每个原因关键词代表所述原因现象的权重;将每个原因关键词及对应的权重组合作为一个原因关键词集合,多个原因关键词对应多个原因关键词集合;由所述多个原因关键词集合组成原因特征向量。
其中,对问题现象的处理过程与图2的步骤一致,不再重复说明,对原因分析进行向量化提取的过程与图2的步骤类似,在此不再赘述。
下面详细介绍图1中步骤S103将所述问题特征向量输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别的详细过程:
若当前事件中仅包括问题特征向量时,如图3所示,包括以下步骤:
步骤S301:计算所述问题特征向量与预设分类数据库的若干个训练样本的表征问题现象的特征向量的距离,获得距离最近的K个训练样本;
计算问题特征向量与预设数据库中的表征问题现象的特征向量的距离,将距离的从小到大排序,获取距离最小的K个训练样本,K个训练样本与问题特征向量的距离最近,计算这K个最近样本的类别权重,找出权重最大的类别,即为当前事件的类别。
具体的,可以通过下述公式计算:
其中K是一个经验值,需要不断调整才能使分类结果最优,其中Sim(di,dj)表示di与dj的两个特征向量的相似度,di表示预设数据库中的特征向量,代表现有事件库中事件短文本的特征向量,dj表示当前事件的短文本特征向量,wik表示…特征向量di中特征词的权重,wjk代表特征向量dj中特征词的权重,M表示向量空间的维数。
步骤S302:获取所述K个训练样本的L个问题类别,L≤K;
K个训练样本中可能有几个样本的类别是一致,可能每一个训练样本一个类别,需要在K个训练样本对应的L个类别中,确定一个问题特征向量归属的类别。其中,L、K为非零自然数。
步骤S303:分别计算所述问题特征向量归属于L个问题类别的概率;
利用公式下述公式计算计算L个类别的概率。
P(dj,Cn)=∑di∈knnSim(di,dj)y(dj,Cn)……(3)
其中dj为当前事件的问题特征向量,Sim(di,dj)为相似度公式同公式(2),y(dj.Cn)为类别属性函数,若di属于类Cn则函数值为1,否则为0,n表示L个类别中的一个。
概率越大表示问题特征向量属于该类别的概率越大,概率越小表示问题特征向量属于该类别的概率越小。
步骤S304:将概率最大的问题类别作为所述问题特征向量的问题类别。
经过上述图3所示的步骤即可得到问题特征向量的类别。若当前事件中包括问题现象和原因分析时,将所述问题特征向量和原因特征向量分别输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别、及与所述原因特征向量对应的原因类别包括:
计算所述问题特征向量与预设分类数据库的若干个训练样本的表征问题现象的特征向量的距离,获得距离最近的K个训练样本;获取所述K个训练样本的L个问题类别,L≤K;分别计算所述问题特征向量归属于L个问题类别的概率;将概率最大的问题类别作为所述问题特征向量的问题类别;
计算所述原因特征向量与预设分类数据库的若干个训练样本的表征原因现象的特征向量的距离,获得距离最近的K个训练样本;获取所述K个训练样本的M个原因类别,M≤K;分别计算所述原因特征向量归属于M个原因类别的概率;将概率最大的原因类别作为所述原因特征向量的原因类别。其中,L、K和M为非零自然数。
其中,对问题特征向量的处理过程与图3的步骤一致,不再重复说明,对原因特征向量的处理过程与图2的步骤类似,在此不再赘述。
上述内容为图1中步骤的详细说明,下面介绍预设分类数据库的构建过程。
分类的目的是为了实现事件主体分类,其基本思想是按照预先定义的主题类别,为事件库中的每个文档确定一个类别,分类方法有朴素贝叶斯、K近邻、支持向量机、决策树、神经网络等。
每个事件包括问题现象、原因分析和处置过程三个部分,且每个事件中还包括与问题现象对应的问题类别,与原因分析对应的原因类别,以及与处置过程对应的处置类别,分类过程包括训练和分类两个过程,本实施例采用KNN算法构造预设分类数据库,将事件库中的事件分为训练样本和测试样本,针对训练样本训练预设分类数据库,确定的最优的参数K。若有新事件预设分类数据库,则预设分类数据库按照分类算法规则自动将新事件进行归类。
如图4所示,本发明提供了一种事件查询处理装置,包括:
获取单元100,用于获取经过标准化处理的当前事件,当前事件包括问题现象和原因分析,或问题现象;
特征提取单元200,用于对所述当前事件进行特征提取获取特征向量;
分类单元300,用于将所述特征向量输入至预设分类数据库获得所述当前事件的类别,所述预设分类数据库中包括若干个训练样本及多个类别,一个类别包含多个训练样本,每个训练样本包括问题现象、原因分析及处置过程;
输出单元400,用于在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本;输出多个训练样本中至少一个处置过程,作为当前事件的处置参考。
本发明提供了一种事件查询处理装置,本申请预先构建一个预设分类数据库,预设分类数据库包含有事前发生事件的问题现象、原因分析以及处置过程,当出现一个紧急的当前事件时仅需将问题现象和/或原因分析输入至预设分类数据库中,经过预设数据库计算即可得到当前事件的类别,在预设数据库中查找与当前事件类别一致的多个训练样本,多个训练样本由于与当前事件类别一致,所以训练样本中的处置过程可以为当前事件提供参考,因此输出多个训练样本中一个或多个处置过程,以便供用户查看并参考。
如图5所示,分类单元300包括:
获取样本单元301,用于计算所述问题特征向量与预设分类数据库的若干个训练样本的表征问题现象的特征向量的距离,获得距离最近的K个训练样本;或,计算所述原因特征向量与预设分类数据库的若干个训练样本的表征原因现象的特征向量的距离,获得距离最近的K个训练样本;
计算权重单元302,用于获取所述K个训练样本的L个问题类别,L≤K;或,获取K个训练样本的M个原因类别,M≤K;
计算概率单元303,用于分别计算所述问题特征向量归属于L个问题类别的概率;将概率最大的问题类别作为所述问题特征向量的问题类别;分别计算所述原因特征向量归属于M个原因类别的概率;将概率最大的原因类别作为所述原因特征向量的原因类别。
利用本发明提供的方法可以构建事件库的金字塔,金字塔的最底层为事件库,中间层为知识素材库,顶层为教学案例库。下面介绍知识素材库的构建过程:事件库中的事件分类成功后,在类别内部及类别间根据设定的筛选规则即可实现案例知识素材信息的提取,筛选规则可以根据生产运维的需要进行灵活设置,例如事件短文本中针对相近的“问题现象”短文本,对其对应的“原因分析”短文本进行分类,按次数多少进行排序,排在前面的就是最可能的故障原因,对原因相近的“处置过程”短文本,分类后按处置时间长短排序即可得到效率最高的处置方案,即效率最高的处置方案即为知识素材,多个知识素材组成知识素材库。
在实现知识素材的筛选提取的同时,还需要快速方便的实现知识素材的检索,传统的知识检索都是按照树状结构一级一级的实现查询的,这种逐级打开类目的检索方式大大降低了运维人员的效率。本文中引入了知识素材的属性标签Tag的概念,即同一个知识素材可以有多个属性标签,这些属性标签可以用相应的关键词代替,与数据库的类目相比更加离散、灵活,也缩减了类目的深度,运维人员只要检索相应的关键词就能快速定位相关知识,同时也解决了类目交叉的问题。
顶层的案例教学库为主要为成立专门的案例库关机机构,通过人为管理的方式管理案例,以便用户能够方便快捷的利用案例库。
上述方法建立的金字塔模型将数量庞大、看似杂乱无章的各类生产运行事件进行了结构化、可视化的分级分类,建立了生产运行事件库的基础信息资源库;二是利用数据挖掘技术将海量的事件数据进行了分解与提炼,将数据信息进行了原子化的拆分与标准化归置,明确定义各类事件标准动作,将其作为事件处置的“标准件”纳入案例素材库管理;三是将同业具有参考价值的生产运行事件进行案例标准化解析,对案例所涉及的事件一一进行分析与点评,形成生产运行事件案例库,作为案例教材对信息科技管理、技术人员进行培训与教学。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种事件查询处理方法,其特征在于,包括:
获取经过标准化处理的当前事件,当前事件包括问题现象和原因分析,或问题现象;
对所述当前事件进行特征提取获取特征向量;当所述当前事件包括问题现象时,对所述当前事件进行特征提取获取特征向量包括:对所述问题现象进行特征提取获得问题特征向量;其中,所述对所述问题现象进行特征提取获得问题特征向量包括:对所述问题现象进行关键词提取获得多个问题关键词;分别计算每个问题关键词代表所述问题现象的权重;将每个问题关键词及对应的权重组合作为一个问题关键词集合,多个问题关键词对应多个问题关键词集合;由所述多个问题关键词集合组成问题特征向量;
将所述特征向量输入至预设分类数据库获得所述当前事件的类别,所述预设分类数据库中包括若干个训练样本及多个类别,一个类别包含多个训练样本,每个训练样本包括问题现象、原因分析及处置过程;
在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本;
输出多个训练样本中至少一个处置过程,作为当前事件的处置参考。
2.如权利要求1所述的方法,其特征在于,
当所述当前事件包括问题现象和原因分析时,对所述当前事件进行特征提取获取特征向量包括:对所述问题现象和原因分析分别进行特征提取,获得问题特征向量和原因特征向量。
3.如权利要求2所述的方法,其特征在于,当所述当前事件包括问题现象时,将所述特征向量输入至预设分类数据库获得所述当前事件的类别包括:将所述问题特征向量输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别;
当所述当前事件包括问题现象和原因分析时,将所述特征向量输入至预设分类数据库获得所述当前事件的类别包括:将所述问题特征向量和原因特征向量分别输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别、及与所述原因特征向量对应的原因类别,其中,所述预设分类数据库中包括若干个训练样本,每个训练样本包括表征问题现象的特征向量及问题类别、表征原因分析的特征向量及原因类别,和表征处置过程特征向量及处置类别。
4.如权利要求3所述的方法,其特征在于,当所述当前事件包括问题现象时,在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本包括:在所述预设分类数据库中获取与问题类别一致的若干个训练样本,在若干训练样本中确定出现频率最高的原因类别,获取与出现频率最高的原因类别对应的多个训练样本;
当所述当前事件包括问题现象和原因分析时,在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本包括:在所述预设分类数据库的若干个训练样本中获取与问题类别和原因类别均一致的多个训练样本。
5.如权利要求2所述的方法,其特征在于,所述对所述问题现象和原因分析进行特征提取,获得问题特征向量和原因特征向量包括:
对所述问题现象进行关键词提取获得多个问题关键词;分别计算每个问题关键词代表所述问题现象的权重;将每个问题关键词及对应的权重组合作为一个问题关键词集合,多个问题关键词对应多个问题关键词集合;由所述多个问题关键词集合组成问题特征向量;
对所述原因分析进行关键词提取获得多个原因关键词;分别计算每个原因关键词代表所述原因现象的权重;将每个原因关键词及对应的权重组合作为一个原因关键词集合,多个原因关键词对应多个原因关键词集合;由所述多个原因关键词集合组成原因特征向量。
6.如权利要求3所述的方法,其特征在于,将所述问题特征向量输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别包括:
计算所述问题特征向量与预设分类数据库的若干个训练样本的表征问题现象的特征向量的距离,获得距离最近的K个训练样本;
获取所述K个训练样本的L个问题类别,L≤K;
分别计算所述问题特征向量归属于L个问题类别的概率;
将概率最大的问题类别作为所述问题特征向量的问题类别。
7.如权利要求3所述的方法,其特征在于,将所述问题特征向量和原因特征向量分别输入至所述预设分类数据库,获得与所述问题特征向量对应的问题类别、及与所述原因特征向量对应的原因类别包括:
计算所述问题特征向量与预设分类数据库的若干个训练样本的表征问题现象的特征向量的距离,获得距离最近的K个训练样本;获取K个训练样本的L个问题类别,L≤K;分别计算所述问题特征向量归属于L个问题类别的概率;将概率最大的问题类别作为所述问题特征向量的问题类别;
计算所述原因特征向量与预设分类数据库的若干个训练样本的表征原因现象的特征向量的距离,获得距离最近的K个训练样本;获取K个训练样本的M个原因类别,M≤K;分别计算所述原因特征向量归属于M个原因类别的概率;将概率最大的原因类别作为所述原因特征向量的原因类别。
8.如权利要求1、3、4或6所述的方法,其特征在于,所述预设分类数据库的构建方式包括:
利用朴素贝叶斯、K近邻、支持向量机、决策树或神经网络方式构建预设分类数据库。
9.如权利要求1所述的方法,其特征在于,输出多个训练样本其中一个处置过程包括:
输出与多个训练样本对应的多个处置过程中时间最短的处置过程。
10.一种与权利要求1对应的方法对应的事件查询处理装置,其特征在于,包括:
获取单元,用于获取经过标准化处理的当前事件,当前事件包括问题现象和原因分析,或问题现象;
特征提取单元,用于对所述当前事件进行特征提取获取特征向量;
分类单元,用于将所述特征向量输入至预设分类数据库获得所述当前事件的类别,所述预设分类数据库中包括若干个训练样本及多个类别,一个类别包含多个训练样本,每个训练样本包括问题现象、原因分析及处置过程;
输出单元,用于在所述预设分类数据库内获取与所述当前事件的类别对应的多个训练样本;输出多个训练样本中至少一个处置过程,作为当前事件的处置参考。
11.如权利要求10所述的装置,其特征在于,所述分类单元包括:
获取样本单元,用于计算所述问题特征向量与预设分类数据库的若干个训练样本的表征问题现象的特征向量的距离,获得距离最近的K个训练样本;或,计算所述原因特征向量与预设分类数据库的若干个训练样本的表征原因现象的特征向量的距离,获得距离最近的K个训练样本;
计算权重单元,用于获取所述K个训练样本的L个问题类别,L≤K;或,获取K个训练样本的M个原因类别,M≤K;
计算概率单元,用于分别计算所述问题特征向量归属于L个问题类别的概率;将概率最大的问题类别作为所述问题特征向量的问题类别;分别计算所述原因特征向量归属于M个原因类别的概率;将概率最大的原因类别作为所述原因特征向量的原因类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410788297.2A CN104392006B (zh) | 2014-12-17 | 2014-12-17 | 一种事件查询处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410788297.2A CN104392006B (zh) | 2014-12-17 | 2014-12-17 | 一种事件查询处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104392006A CN104392006A (zh) | 2015-03-04 |
CN104392006B true CN104392006B (zh) | 2019-04-02 |
Family
ID=52609910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410788297.2A Active CN104392006B (zh) | 2014-12-17 | 2014-12-17 | 一种事件查询处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104392006B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732343A (zh) * | 2015-03-17 | 2015-06-24 | 深圳市燃气集团股份有限公司 | 基于燃气管网完整性系统的紧急事件分析方法及系统 |
CN106803092B (zh) * | 2015-11-26 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 一种标准问题数据的确定方法及装置 |
CN107180022A (zh) * | 2016-03-09 | 2017-09-19 | 阿里巴巴集团控股有限公司 | 对象分类方法及装置 |
CN106066642B (zh) * | 2016-05-27 | 2019-04-19 | 大连楼兰科技股份有限公司 | 基于FP-Tree序列模式挖掘的故障码诊断车辆工项与备件检索方法 |
CN108090040B (zh) * | 2016-11-23 | 2021-08-17 | 北京国双科技有限公司 | 一种文本信息分类方法及系统 |
US10482000B2 (en) * | 2017-04-24 | 2019-11-19 | Microsoft Technology Licensing, Llc | Machine learned decision guidance for alerts originating from monitoring systems |
CN107657369A (zh) * | 2017-09-22 | 2018-02-02 | 福建四创软件有限公司 | 一种基于智能事件分类进行防汛应急响应识别的方法 |
CN108224446B (zh) * | 2017-12-31 | 2019-06-14 | 北京工业大学 | 一种垃圾焚烧过程的自动燃烧实时优化决策方法 |
CN108549786A (zh) * | 2018-06-21 | 2018-09-18 | 中车青岛四方机车车辆股份有限公司 | 一种大型结构快速焊接数值模拟方法及系统 |
CN113111058B (zh) * | 2020-01-10 | 2023-03-28 | 华为技术有限公司 | 一种数据库的处理方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976376A (zh) * | 2009-11-20 | 2011-02-16 | 北京一云科技有限公司 | 一种突发公共事件的应急管理系统和方法 |
CN102044022A (zh) * | 2010-12-24 | 2011-05-04 | 中国科学院合肥物质科学研究院 | 面向自然灾害应急救助决策系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140100913A1 (en) * | 2012-10-05 | 2014-04-10 | Mastercard International, Inc. | Business continuity and response plan management |
-
2014
- 2014-12-17 CN CN201410788297.2A patent/CN104392006B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976376A (zh) * | 2009-11-20 | 2011-02-16 | 北京一云科技有限公司 | 一种突发公共事件的应急管理系统和方法 |
CN102044022A (zh) * | 2010-12-24 | 2011-05-04 | 中国科学院合肥物质科学研究院 | 面向自然灾害应急救助决策系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104392006A (zh) | 2015-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104392006B (zh) | 一种事件查询处理方法及装置 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN108959431B (zh) | 标签自动生成方法、系统、计算机可读存储介质及设备 | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
CN104376406B (zh) | 一种基于大数据的企业创新资源管理与分析方法 | |
Inzalkar et al. | A survey on text mining-techniques and application | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
CN110222160A (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
WO2017013667A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN106227756A (zh) | 一种基于情感分类的股票指数预测方法及系统 | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
CN111353050A (zh) | 一种电信客服垂直领域的词库构建方法及工具 | |
CN106503153B (zh) | 一种计算机文本分类体系 | |
CN110866102A (zh) | 检索处理方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN108228612A (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、系统及问答方法和系统 | |
CN106775694A (zh) | 一种软件配置代码制品的层次分类方法 | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
CN105930358A (zh) | 基于关联度的案例检索方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |