CN116384393A

CN116384393A - 一种基于自然语言处理的运维数据处理系统及方法

Info

Publication number: CN116384393A
Application number: CN202310470602.2A
Authority: CN
Inventors: 王敬宇; 曹金刚; 黄成明; 吕雯鑫
Original assignee: St Max Intelligent Technology Jiangsu Co ltd
Current assignee: St Max Intelligent Technology Jiangsu Co ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-04
Anticipated expiration: 2043-04-27
Also published as: CN116384393B

Abstract

本发明涉及运维数据处理技术领域，且公开了一种基于自然语言处理的运维数据处理系统及方法，包括非结构化数据采集模块、信息预处理模块、特征提取模块、向量化生成模块、文本聚类模块、检验模块以及指标对比模块，所述文本聚类模块包括首次聚类分析单元以及二次聚类分析单元，通过对聚类结果的有效性进行分析检测，若有效性未达标，则进行二次聚类分析，防止数据误差性与偶然性导致的数据不精准，同时在二次聚类分析都未满足有效性的情况下，对两次聚类分析进行差异化比较，通过比较不同方式的聚类分析结果差异，来判断是否为数据本身可用性原因导致有效性不满足要求，同时可作为数据参考的依据。

Description

一种基于自然语言处理的运维数据处理系统及方法

技术领域

本发明涉及运维数据处理技术领域，更具体地涉及一种基于自然语言处理的运维数据处理系统及方法。

背景技术

随着我国高铁的发展，运维工作在高铁客运服务系统安全运营中起到越来越重要的作用，在客运服务系统中，会出现大量的非结构化的运维数据，特别是运维报表，这些信息都是人工填写的，由于每个人的语言习惯、知识水平不同，填入的内容往往五花八门，没有一定的规律和格式，这些往往都是自然语言的文本，因此引入自然语言技术处理此类运维数据尤为重要。

现有的客运服务系统的运维数据往往只注重结构化数据的处理，而忽视了非结构化的运维数据处理，即自然语言文本类数据，非结构化的运维数据经过处理分析，能够提取出诸多有价值的信息，极大地提高数据的利用率，现有的客运服务系统在利用非结构化运维数据对故障进行分类时，仅进行一次聚类分析，排除了数据的误差性与偶然性，同时未对聚类结果进行检验，无法为故障的诊断提供可靠的数据基础。

发明内容

为了克服现有技术的上述缺陷，本发明提供了一种基于自然语言处理的运维数据处理系统及方法，以解决上述背景技术中存在的问题。

本发明提供如下技术方案：一种基于自然语言处理的运维数据处理系统，包括：

非结构化数据采集模块：对客运服务系统中的非结构化数据进行采集；

信息预处理模块：对采集的非结构化数据进行清洗去噪，去除自然语言文本数据中的标点符号、分词以及停用词，将原始数据转变为算法所能够处理的规格形式；

特征提取模块：通过特征依赖度计算公式进行特征选择，选择出非结构化数据特征集合中最具有区分能力的特征子集对文本进行表示，通过卷积神经网络对非结构化数据中的关键特征进行提取；

向量化生成模块：通过构建向量空间模型对文本进行向量化，并通过隐式语义分析对其进行降维；

文本聚类模块：通过聚类算法对向量化的非结构化数据进行聚类，确定非结构化运维数据中的故障类别；

所述文本聚类模块包括：

首次聚类分析单元：基于卷积神经网络提取的特征，通过K-means聚类算法进行计算；

二次聚类分析单元：通过Chameleon算法对不符合聚类有效性指标的数据进行二次聚类分析；

检验模块：通过有效性指标计算公式对文本聚类模块的聚类结果进行检验，判断文本聚类模块聚类结果的有效性；

指标对比模块：将首次聚类分析单元与二次聚类分析单元的有效性指标进行对比，并通过差异指数计算公式计算聚类结果的可参考指数ζ。

优选的，所述特征依赖度计算公式为：

，其中，w_i为特征词，c_j为文本类别。

优选的，所述向量空间模型对文本进行向量化包括以下步骤：

步骤S11：将文本d中的每一个文本特征均标记为t_i，文本的特征维度标记为n，t_i所对应的权重标记为k_i；

步骤S12：通过权重计算公式计算出k_i，并通过归一化因子计算公式计算出归一化因子M；

步骤S13：将第i个文本d_i表达为一个m维向量形式，即

，定义文本矩阵形成矩阵A，并通过SVD分解公式对矩阵A进行分解；

步骤S14：通过降维公式对分解后的矩阵进行降维处理。

优选的，所述权重计算公式为：

，其中，f(t_i,d_i)为特征词在文本d中出现的频率，if(t_i)为特征词的逆文档频率，/>

，其中，n_ti为特征词在文本d中出现的次数，N_d为文本d中全部字词的总数量，/>

，其中，N为文本数据库中文本的总数，n_t为文本数据库中包含特征t的文本个数。

优选的，所述K-means算法进行聚类计算包括以下步骤：

步骤S21：将通过卷积神经网络进行特征提取后的文本特征向量集合标记为D={b₁,b₂……b_n}，将聚类的类别个数标记为k；

步骤S22：从文本特征向量集合D中任意选取k个彼此间距离尽可能远的文本特征向量作为初始聚类质心，标记为x₁,x₂,x₃……x_n，通过余弦相似度距离算法公式计算出数据集合中剩余的各个文本特征量b_i与每个初始聚类质心x_j的距离d_ij；

步骤S23：将文本特征向量b_i归并至与自身距离d_ij最小的聚类质心所属的类别c_j中，形成以x_j为中心的k个类别，通过聚类质心计算公式计算每一个类别中文本特征向量的平均值，以此确定新的聚类质心；

步骤S24：循环步骤S22至步骤S23，直至聚类质心保持不变时或达到完结条件时，输出c={c₁,c₂,c₃……c_n}，设定每一次聚类过程初始聚类质心x₁,x₂,x₃……x_n与类别个数k值不相同，取其均值。

优选的，所述Chameleon算法进行聚类计算包括以下步骤：

步骤S31：构造一个2k-最近邻图以及互k-最近邻图，将生成的子图作为初始簇；

步骤S32：利用相似度计算公式计算簇之间的相似度值，并选择最大的两个簇合并为一个新簇；

步骤S33：利用模块度计算公式计算此时的MC模块度；

步骤S34：重复步骤S32至步骤S33，直至合成为一个大簇时停止，并找出MC模块度最大的情况，此时为最终聚类结果。

优选的，所述有效性指标计算公式为：

，其中，n为样本个数，u为样本对类别的隶属矩阵，v为各个类别的聚类中心。

优选的，所述差异指数计算公式为：

。

一种基于自然语言处理的运维数据处理系统方法，包括以下步骤：

步骤S51：非结构化数据采集：对客运服务系统中的非结构化数据进行采集；

步骤S52：信息预处理：对采集的非结构化数据进行清洗去噪，去除自然语言文本数据中的标点符号、分词以及停用词，将原始数据转变为算法所能够处理的规格形式；

步骤S53：特征提取：通过特征依赖度计算公式进行特征选择，选择出非结构化数据特征集合中最具有区分能力的特征子集对文本进行表示，通过卷积神经网络对非结构化数据中的关键特征进行提取；

步骤S54：生成向量化数据：通过构建向量空间模型对文本进行向量化，并通过隐式语义分析对其进行降维；

步骤S55：首次文本聚类分析：基于卷积神经网络提取的特征，通过K-means聚类算法进行计算，确定非结构化运维数据中的故障类别；

步骤S56：有效性检验：通过有效性指标计算公式对文本聚类模块的聚类结果进行检验，判断文本聚类模块聚类结果的有效性，若有效性不符合要求，则执行步骤S57；

步骤S57：二次聚类分析：通过Chameleon算法对不符合聚类有效性指标的数据进行二次聚类分析，再次执行步骤S56，若仍不符合有效性要求，则执行步骤S58；

步骤S58：两次有效性指标对比：将首次聚类分析单元与二次聚类分析单元的有效性指标进行对比，并通过差异指数计算公式计算聚类结果的可参考指数ζ。

本发明的技术效果和优点：

本发明通过设有数据检验模块以及指标对比模块，有利于通过对聚类结果的有效性进行分析检测，若有效性未达标，则进行二次聚类分析，防止数据误差性与偶然性导致的数据不精准，同时在二次聚类分析都未满足有效性的情况下，对两次聚类分析进行差异化比较，通过比较不同方式的聚类分析结果差异，来判断是否为数据本身可用性原因导致有效性不满足要求，同时可作为数据参考的依据，但不可作为精准的数据基础。

附图说明

图1为本发明的基于自然语言处理的运维数据处理系统结构图。

图2为本发明的基于自然语言处理的运维数据处理方法流程图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整的描述，另外，在以下的实施方式中记载的各结构的形态只不过是例示，本发明所涉及的一种基于自然语言处理的运维数据处理系统及方法并不限定于在以下的实施方式中记载的各结构，在本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施方式都属于本发明保护的范围。

本发明提供了一种基于自然语言处理的运维数据处理系统，包括非结构化数据采集模块、信息预处理模块、特征提取模块、向量化生成模块、文本聚类模块、检验模块以及指标对比模块；

所述非结构化数据采集模块用于对客运服务系统中的非结构化数据进行采集，所述非结构化数据包括但不限于人工录入的自然语言的文本数据；

所述信息预处理模块用于对采集的非结构化数据进行清洗去噪，去除自然语言文本数据中的标点符号、分词以及停用词，将原始数据转变为算法所能够处理的规格形式；

所述特征提取模块用于通过特征依赖度计算公式进行特征选择，用以判断特征词对文本类别的区分能力，进而选择出非结构化数据特征集合中最具有区分能力的特征子集对文本进行表示，通过卷积神经网络对非结构化数据中的关键特征进行提取；

所述向量化生成模块用于通过构建向量空间模型对文本进行向量化，并通过隐式语义分析对其进行降维；

所述文本聚类模块用于通过聚类算法对向量化的非结构化数据进行聚类，确定非结构化运维数据中的故障类别；

所述文本聚类模块包括首次聚类分析单元以及二次聚类分析单元，所述首次聚类分析单元基于卷积神经网络提取的特征，通过K-means聚类算法进行计算，所述二次聚类分析单元通过Chameleon算法对不符合聚类有效性指标的数据进行二次聚类分析；

所述检验模块用于通过有效性指标计算公式对文本聚类模块的聚类结果进行检验，判断文本聚类模块聚类结果的有效性；

所述指标对比模块用于将首次聚类分析单元与二次聚类分析单元的有效性指标进行对比，并通过差异指数计算公式计算聚类结果的可参考指数ζ；

所述非结构化数据采集模块将采集后的非结构化数据传输至信息预处理模块，所述信息预处理模块对非结构化数据信息进行预处理，再将预处理后的数据传输至特征提取模块，所述特征提取模块对特征进行选取和提取后将数据信息传输至向量化生成模块，所述向量化生成模块将向量化数据传输至文本聚类模块，所述文本聚类模块将数据信息传输至检验模块进行检验，所述检验模块对于需要进行修正的聚类结果发送指令至文本聚类模块中的检验聚类分析单元进行二次聚类分析，并传输至对比模块进行指标差异对比。

本实施例中，需要具体说明的是，所述特征依赖度计算公式为：

，其中，w_i为特征词，c_j为文本类别，当特征词w_i与类别c_j无关时，则有P(w_i，c_j)=P(w_i)×P(c_j)，此时Y(w_i，c_j)=0，即判定该特征词与类别相互独立，不具有依赖性，特征词w_i不具备对类别c_j的区分能力，当特征词w_i大量存在于类别c_j中，则有Y(w_i，c_j)＞0，Y(w_i，c_j)越大，特征词与差别的关系越密切，即特征词w_i具备对类别c_j的区分能力。

本实施例中，需要具体说明的是，所述向量空间模型对文本进行向量化包括以下步骤：

步骤S11：将文本d中的每一个文本特征均标记为t_i，文本的特征维度标记为n，t_i所对应的权重标记为k_i，则由文本特征向量组成的向量集合为d={(t₁,k₁)，(t₂,k₂)……(t_n,k_n)}；

所述权重计算公式为：

，其中，N为文本数据库中文本的总数，n_t为文本数据库中包含特征t的文本个数；

所述归一化因子计算公式为：

；

步骤S13：将第i个文本d_i表达为一个m维向量形式，即

所述矩阵A为：

，所述SVD分解公式为：/>

，其中，U为A的左奇异矩阵，V为A的右奇异矩阵，所述U、V均为正交矩阵；

步骤S14：通过降维公式对分解后的矩阵进行降维处理；

所述降维公式为：

，其中，A_k为被降至k维的文本矩阵，U_m×k为左奇异矩阵的前k列。

本实施例中，需要具体说明的是，所述K-means算法进行聚类计算包括以下步骤：

所述聚类质心计算公式为：

；

本实施例中，需要具体说明的是，所述Chameleon算法进行聚类计算包括以下步骤：

所述相似度计算公式为：

，其中，β为用户指定的参数，/>

，其中，E(c_i,c_j)为簇c_i与c_j之间的边连接的权重之和，|E(c_i,c_j)|为簇c_i与c_j之间的连接边数，SE(c_i)与SE(c_j)分别为簇内的平均权重，/>

，其中，

为簇c_i与c_j之间的边连接的平均权重，|c_i|与|c_j|为各自簇内的对象数；

步骤S33：利用模块度计算公式计算此时的MC模块度；

所述模块度计算公式为：

，其中，k为子图个数，/>

为所有簇之间的平均耦合度；

本实施例中，需要具体说明的是，所述有效性指标计算公式为：

，其中，n为样本个数，u为样本对类别的隶属矩阵，v为各个类别的聚类中心，所述V的值越小，则紧凑度越高，聚类效果越好。

本实施例中，需要具体说明的是，所述判断文本聚类模块聚类结果的有效性包括以下步骤：

步骤S41：取有效性指标分界值θ，所述

；

步骤S42：将V的值与θ进行比较，当V＜θ时，执行步骤S43；

步骤S43：传输指令至二次聚类分析单元，进行二次聚类运算。

本实施例中，需要具体说明的是，所述差异指数计算公式为：

，当ζ＜10%时，则说明该聚类结果具备参考性，可将任意一次聚类结果作为参考依据。

一种基于自然语言处理的运维数据处理系统及方法，包括以下步骤：

本实施例中，需要具体说明的是，本实施与现有技术的区别主要在于本实施例具备数据检验模块以及指标对比模块，通过对聚类结果的有效性进行分析检测，若有效性未达标，则进行二次聚类分析，防止数据误差性与偶然性导致的数据不精准，同时在二次聚类分析都未满足有效性的情况下，对两次聚类分析进行差异化比较，通过比较不同方式的聚类分析结果差异，来判断是否为数据本身可用性原因导致有效性不满足要求，同时可作为数据参考的依据，但不可作为精准的数据基础。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。