CN118069850A

CN118069850A - 一种用于文本分类模型的数据智能分类方法

Info

Publication number: CN118069850A
Application number: CN202410465461.XA
Authority: CN
Inventors: 洪成秋; 周仪; 林森
Original assignee: Wenzhou Industrial And Information Technology Development Co ltd
Current assignee: Wenzhou Industrial And Information Technology Development Co ltd
Priority date: 2024-04-18
Filing date: 2024-04-18
Publication date: 2024-05-24

Abstract

本申请涉及文本数据分类技术领域，具体涉及一种用于文本分类模型的数据智能分类方法，该方法包括：采集日志语句、日志词语和日志词语的词性；获取任意两条日志文本之间的词性分布系数；进而获取任意两条日志文本之间的文本相似性系数；获取任意两条日志文本之间的相似性故障相关度；计算词语位置系数；进而获取语句共现系数；获取任意两条日志文本之间的部件状态关联契合度；进而获取任意两条日志文本之间的概率转换系数；获取任意两条日志文本之间的修正关联度概率；使用聚类算法对所有日志文本进行分类。本申请弥补了现有方法在识别仪器状态波动位置相似性和描述相似性方面的不足，实现了对日志文本的高效、精准分类管理。

Description

一种用于文本分类模型的数据智能分类方法

技术领域

本申请涉及文本数据分类技术领域，具体涉及一种用于文本分类模型的数据智能分类方法。

背景技术

大数据时代下，各类文本数据呈现出爆炸式的增长，其中包括大量来自工业生产、互联网服务、社交媒体等领域的数据。这些文本数据蕴含着丰富的信息价值，对企业的运维管理、故障预测、决策分析等方面具有重要作用，文本分类作为自然语言处理的关键技术，是揭示数据深层价值的主要手段之一。然而，目前大多数的文本分类方法往往受限于低效的相似度计算机制以及对文本深层次语义理解的不足，难以有效应对大规模、高维度、复杂结构的文本数据分类挑战。

例如面对工业仪器日志这类具有特定格式、描述细致的技术文本时，往往无法精准捕捉和区分其中蕴含的仪器状态变化、故障现象等关键信息。现有的文本分类模型在处理这类文本数据时存在明显短板，一方面它们往往忽视日志文本中描述问题位置及状态波动细节的相似性，导致相似日志无法有效聚类，从而错失早期故障预警和维护机会；另一方面，传统方法在处理日志文本时，未能充分利用词语间的关联性和词语在句子中的位置信息，导致分类效果的准确性受到影响。因此，亟需一种能够智能识别日志文本中问题所在位置、具体描述相似，并充分利用日志词语关联和位置信息的数据分类方法，以提高文本分类的准确性和精细度。

发明内容

为了解决上述技术问题，本申请提供一种用于文本分类模型的数据智能分类方法，以解决现有的问题。

本申请的一种用于文本分类模型的数据智能分类方法采用如下技术方案：

本申请一个实施例提供了一种用于文本分类模型的数据智能分类方法，该方法包括以下步骤：

采集各日志文本中的日志语句、日志词语和日志词语的词性，对日志词语和日志词语的词性进行编码构建各日志文本的日志词语向量集合，根据日志语句构建各日志文本的日志语句集合；

根据各日志文本中日志词语的个数获取任意两条日志文本之间的词性分布系数；根据日志词语向量集合获取任意两条日志文本之间的文本相似性系数；根据词性分布系数和文本相似性系数获取任意两条日志文本之间的相似性故障相关度；根据日志语句集合中日志词语的位置获取各日志文本中的各日志语句与其他各日志文本中的各日志语句的词语位置系数；根据词语位置系数和日志语句集合获取各日志文本中的各日志语句与其他各日志文本中的各日志语句之间的语句共现系数；根据相似性故障相关度和语句共现系数获取任意两条日志文本之间的部件状态关联契合度；根据部件状态关联契合度获取任意两条日志文本之间的概率转换系数；

根据概率转换系数获取任意两条日志文本之间的修正关联度概率；使用聚类算法，根据修正关联度概率对所有日志文本进行分类。

进一步，所述根据各日志文本中日志词语的个数获取任意两条日志文本之间的词性分布系数，包括：

计算相同词性下第a条日志文本中日志词语的个数与第b条日志文本中日志词语的个数之间的差值绝对值，计算所有词性中所有所述差值绝对值的和值，将以自然常数为底、以所述和值为指数的指数函数的计算结果作为第a条日志文本与第b条日志文本之间的词性分布系数。

进一步，所述文本相似性系数，公式为：

式中，是第/>条日志文本与第/>条日志文本之间的文本相似性系数；/>、分别是第/>条日志文本的日志词语向量集合/>、第/>条日志文本的日志词语向量集合中词性为名词的日志词语的编码组成的名词日志词语集合，/>是第/>条日志文本的名词日志词语集合/>中第/>个日志词语编码，/>是第/>条日志文本的名词日志词语集合中第/>个日志词语编码，/>、/>分别是名词日志词语集合/>、/>中编码数据的个数，是括号中两个集合的Jaccard相似度，/>是最小值函数，/>是括号中两个日志词语的编辑距离，/>为大于零的预设调参系数。

进一步，所述根据词性分布系数和文本相似性系数获取任意两条日志文本之间的相似性故障相关度，包括：

将任意两条日志文本之间的文本相似性系数与词性分布系数之间的比值作为任意两条日志文本之间的相似性故障相关度。

进一步，所述根据日志语句集合中日志词语的位置获取各日志文本中的各日志语句与其他各日志文本中的各日志语句的词语位置系数，包括：

将各日志词语在其所在日志文本中出现的所有位置序号的均值作为各日志词语的全局平均位置；

计算第a条日志文本中日志语句集合中第个日志语句中第/>个日志词语的全局平均位置与第b条日志文本中日志语句集合的第/>个日志语句中第/>个日志词语的全局平均位置之间的差值绝对值，将第/>条日志文本中第/>个日志语句和第/>条日志文本中第/>个日志语句之间所有对应的日志语句的差值绝对值的和值作为第/>条日志文本中第/>个日志语句和第/>条日志文本中第/>个日志语句之间的词语位置系数。

进一步，所述语句共现系数，公式为：

式中，是第/>条日志文本中第/>个日志语句和第/>条日志文本中第/>个日志语句的语句共现系数，/>是第/>条日志文本中第/>个日志语句和第/>条日志文本中第/>个日志语句的词语位置系数；/>是第a条日志文本中日志语句集合/>中第/>个日志语句中位置参数分别为/>、/>的两个日志词语之间的点互信息，/>是第b条日志文本中日志语句集合/>的第/>个日志语句中位置参数分别为/>、/>的两个日志词语之间的点互信息；/>是最大值函数；/>是第/>条日志文本的日志语句集合/>的第/>个日志语句中日志词语的个数，/>是第/>条日志文本的日志语句集合/>的第/>个日志语句中日志词语的个数。

进一步，所述根据相似性故障相关度和语句共现系数获取任意两条日志文本之间的部件状态关联契合度，包括：

计算第条日志文本与第/>条日志文本中所有日志语句之间的语句共现系数的和值，计算以自然常数为底、以所述和值为指数的指数函数的计算结果，计算所述计算结果和第/>条日志文本与第/>条日志文本之间的相似性故障相关度的乘积作为第/>条日志文本与第/>条日志文本之间的部件状态关联契合度。

进一步，所述根据部件状态关联契合度获取任意两条日志文本之间的概率转换系数，包括：

将任意两条日志文本之间的部件状态关联契合度减数字1后取绝对值的结果作为任意两条日志文本之间的修正关联度；

计算所有日志文本之间的修正关联度的和值，计算任意两条日志文本之间的修正关联度与所述和值的比值，将数字1与所述比值的差值作为任意两条日志文本之间的概率转换系数。

进一步，所述根据概率转换系数获取任意两条日志文本之间的修正关联度概率，包括：

计算所有任意两条日志文本之间的概率转换系数的和值，将任意两条日志文本之间的概率转换系数与所述和值的比值作为任意两条日志文本之间的修正关联度概率。

进一步，所述使用聚类算法，根据修正关联度概率对所有日志文本进行分类，包括：

将所有日志文本按照日志时间顺序依次赋予一个名称标识符；

将任意两个日志文本之间的修正关联度概率作为日志文本矩阵中对应名称标识符所在行、列位置的元素值；

将日志文本矩阵作为马尔科夫图聚类算法的输入，输出日志文本的智能分类结果。

本申请至少具有如下有益效果：

本申请利用日志文本的内容特征，通过两条不同日志文本中日志词语的词性分布和日志词语的相似性，计算两条不同日志文本之间的相似性故障相关度；再结合一个日志语句中各日志词语出现的位置及不同日志词语之间共同出现的概率，计算部件状态关联契合度；最后，计算所有日志文本之间的部件状态关联契合度，并利用部件状态关联契合度计算修正关联度概率构建日志文本矩阵，利用马尔科夫图聚类进行日志文本分类。通过这种方式，结合日志词语的词性、在日志语句中日志词语的位置以及日志词语的相似性和关联性，先确定出现问题或状态波动的位置，再确定对于波动的具体描述，并通过修正关联度概率进行智能分类，有效弥补了现有方法在识别仪器状态波动位置相似性和描述相似性方面的不足，实现了对日志文本的高效、精准分类管理。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本申请提供的一种用于文本分类模型的数据智能分类方法的流程图；

图2为修正关联度概率获取流程图。

具体实施方式

为了更进一步阐述本申请为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本申请提出的一种用于文本分类模型的数据智能分类方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本申请所提供的一种用于文本分类模型的数据智能分类方法的具体方案。

本申请一个实施例提供的一种用于文本分类模型的数据智能分类方法，具体的，提供了如下的一种用于文本分类模型的数据智能分类方法，请参阅图1，该方法包括以下步骤：

步骤S001，获取工业生产中大型仪器的日志数据，并对其进行预处理。

利用Fluentd日志收集器获取工业生产中任意一大型仪器的日志数据，获取距离当前时间最近的条日志的文本数据，得到每条日志数据的文本，日志数据的文本是指在每条日志中，除去日志记录时间和机器型号之外的其它信息。本实施例中N的取值为1000。

得到每条日志的文本数据之后，使用LTP工具包分别对每条日志的文本数据进行分句、分词、词性标注、停用词删除以及去重处理。

具体的，使用LTP工具包对所有的日志文本按句子进行划分，获取各日志文本中的各句子，将其中的句子记为日志语句；对得到的各个日志语句集合中的所有日志语句分别进行分词处理，得到各个日志语句中的词语，对各日志语句中的词语进行词性的标注，名词、动词、形容词、副词的词性编码分别为1、2、3、4；使用哈工大停词表对各日志语句中的词语进行处理，删除其中对日志语句语义没有影响的连接词、介词、冠词等停用词，并对删除处理后的日志语句中的词语进行去重处理，将处理后的日志语句中的词语记为日志词语。

对各个日志词语进行UTF-8编码，将每个日志词语的UTF-8编码和词性排列组成各日志词语向量，将各日志文本中的所有日志词语向量组成的集合作为各日志文本的日志词语向量集合，将所有日志语句组成的集合作为各日志文本的日志语句集合。

其中，Fluentd日志收集器、LTP工具包和UTF-8编码为公知技术，在此不做赘述。

以日志词语“启动”为例，假设其UTF-8编码值为，其词性为动词，对动词进行编码，编码值为“2”，则日志词语“启动”的日志词语向量为/>。

步骤S002，利用日志文本的内容特征，结合日志词语的相似性和词性分布，计算相似性故障相关度；再结合日志词语在一个日志语句中出现的位置和共同出现的概率，计算部件状态关联契合度。

候选日志词语向量集合包含日志中所有日志词语的编码和词性，由于日志的特殊性，日志的输出是具有特定格式的，例如假设日志文件输出的文本格式是“仪器的哪个部件良好/损坏”或者“仪器启动/故障”等。可以看到，这些内容的主语是固定的，且主语的位置在一个日志语句中是最靠前的。从而在不同的日志文本中，对仪器的同一部件或状态进行描述的日志语句，最前面的名词是一样的，不一样的是后面对于部件或状态的具体描述，但是在这些具体描述中，词性应该是相同的，不同的只能是内容。对于一条日志文本，不会一次性将仪器中所有的状态都描述出来，只会将出现问题或状态波动的位置通过日志提示出来，所以可以先通过计算不同日志文本的相似度，根据出现问题或状态波动的位置进行初步区分，以第/>条日志文本与第/>条日志文本为例，计算第/>条日志文本与第/>条日志文本的相似性故障相关度：

其中，是第/>条日志文本与第/>条日志文本的相似性故障相关度，/>是第/>条日志文本与第/>条日志文本的词性分布系数，用于衡量各词性的数量，/>是第/>条日志文本与第/>条日志文本的文本相似性系数，用于衡量两条日志文本中日志词语的相似度。

、/>分别是第/>条、第/>条日志文本中词性编码为/>的日志词语的个数，/>是第/>条日志文本的日志词语向量集合/>中词性为名词的日志词语编码组成的名词日志词语集合，/>是第/>条日志文本的名词日志词语集合/>中第/>个日志词语编码，/>是第/>条日志文本的日志词语向量集合/>中词性为名词的日志词语编码组成的名词日志词语集合，/>是第/>条日志文本的名词日志词语集合/>中第/>个日志词语编码，/>、/>分别是名词日志词语集合/>、/>中编码数据的个数，/>是以自然常数e为底的指数函数，/>是括号中两个集合的Jaccard相似度，/>是最小值函数，/>是括号中两个日志词语的编辑距离，/>为大于零的调参系数，避免分母为0，本实施例中取值为1。

如果仪器的第条日志文本与第/>条日志文本描述的出现问题或状态波动的位置比较相似，则二者日志的文本格式中主语部分的重合率较高，从而第/>条日志文本的名词日志词语集合/>中每个日志词语都与集合/>中的一个日志词语对应，二者的编辑距离最小且接近于0，集合/>与/>的Jaccard相似度更接近于1，即第/>条日志文本与第/>条日志文本的文本相似性系数/>更接近于1；其次，对出现问题或状态波动的具体描述可能不一样，但是进行描述的日志词语的词性应该是一致的，从而整体上各词性的数量是大致相同的，即第/>条日志文本与第/>条日志文本的词性分布系数/>是接近于1的。从而仪器的第/>条日志文本与第/>条日志文本描述的出现问题或状态波动的位置越相似，相似性故障相关度/>就越接近于1。仪器的第/>条日志文本与第/>条日志文本描述的出现问题或状态波动的位置越不一样，相似性故障相关度/>就越接近于0。

通过计算两条日志文本之间的相似性故障相关度，可以判断出现问题或状态波动的位置上的相似性，但是对于波动的具体描述，还需要进一步判断。

进一步的，以第条日志文本与第/>条日志文本为例，计算第/>条日志文本与第/>条日志文本之间的部件状态关联契合度：

其中，是第/>条日志文本与第/>条日志文本之间的部件状态关联契合度，/>是第/>条日志文本与第/>条日志文本的相似性故障相关度；/>是第/>条日志文本的日志语句集合/>中元素的个数，/>是第b条日志文本中日志语句集合/>的中元素的个数。

是第/>条日志文本中第/>个日志语句和第/>条日志文本中第/>个日志语句之间的语句共现系数，衡量第/>条日志文本中第/>个日志语句和第/>条日志文本中第/>个日志语句中日志词语共同出现的概率；/>是第a条日志文本中日志语句集合/>中第/>个日志语句中位置参数分别为/>、/>的两个日志词语之间的点互信息，/>是第b条日志文本中日志语句集合/>的第/>个日志语句中位置参数分别为/>、/>的两个日志词语之间的点互信息。其中，点互信息的计算为公知技术，在此不做赘述；/>是最大值函数，是以自然常数为底的指数函数。在计算两个日志词语的点互信息时，如果有一个日志词语不存在，以/>为例，假设在第/>个日志语句中没有第/>个日志词语/>，则直接令/>。

是第/>条日志文本中第/>个日志语句和第/>条日志文本中第/>个日志语句之间的词语位置系数，衡量第/>个日志语句和第/>个日志语句中日志词语的位置分布之间的关系；/>是第a条日志文本中日志语句集合/>中第/>个日志语句中第/>个日志词语的全局平均位置，/>是第b条日志文本中日志语句集合/>的第/>个日志语句中第/>个日志词语的全局平均位置，全局平均位置是指各日志词语在其所在日志文本中的所有日志词语中出现的位置序号的均值；/>是第/>条日志文本的日志语句集合/>的第/>个日志语句中日志词语的个数，是第/>条日志文本的日志语句集合/>的第/>个日志语句中日志词语的个数；min{}为最小值函数。

当两条日志文本之间出现问题或状态波动的位置相似，且对于波动的具体描述也相似时，以第条日志文本与第/>条日志文本为例，则这两条日志文本中的日志词语具有较高的相似性，即相似性故障相关度/>接近于1；且第/>条日志文本中的每一个日志语句都与第/>条日志文本中的一个日志语句对应，这两个日志语句中对波动的具体描述也具有较高的相似性，即日志语句中日志词语的关联性也是相似的，从而趋近于0的；这两个日志语句中对应的日志词语的全局平均位置也应该是相似的，即/>也是趋近于0的，从而部件状态关联契合度/>中的指数函数是趋近于1的。从而，如果两条日志文本之间出现问题或状态波动的位置相似，且对于波动的具体描述也相似时，这两条日志文本的部件状态关联契合度/>是趋近于1的。

如果两条日志文本之间出现问题或状态波动的位置不相似时，则这两条日志文本的相似性故障相关度趋近于0，从而部件状态关联契合度/>是趋近于0的。如果两条日志文本之间出现问题或状态波动的位置相似，但对于波动的具体描述不相似时，则这两条日志文本的相似性故障相关度/>趋近于1，但是部件状态关联契合度/>中的指数函数是远大于1的，从而部件状态关联契合度/>是远大于1的。

步骤S003，根据所有日志文本之间的部件状态关联契合度，构建日志文本矩阵，并利用马尔科夫图聚类进行日志文本分类。

遍历所有日志文本数据，计算所有日志文本之间的部件状态关联契合度，并对每一个部件状态关联契合度进行修正，获取任意两条日志文本之间的修正关联度，修正关联度的计算方法为：任意两条日志文本之间的部件状态关联契合度减数字1并取绝对值的结果为任意两条日志文本之间的修正关联度。

由于两条日志文本之间相似性更高时，部件状态关联契合度是趋近于1的；而当部件状态关联契合度更趋近于0或者更大于1时，两条日志文本都是不相似的，从而通过与1作差并取绝对值获得，/>越大两条日志文本之间的相似性越低。然后计算修正关联度概率，以第/>条日志文本为例，计算第/>条与第/>条日志文本之间的修正关联度概率：

其中，是第/>条与第/>条日志文本之间的修正关联度概率，/>是第/>条与第/>条日志文本之间的概率转换系数，用于将相似性更高的两条日志文本之间的修正关联度概率转变的更大，/>是第/>条与第/>条日志文本之间的概率转换系数，/>是第/>条与第/>条日志文本之间的修正关联度，/>是第/>条与第/>条日志文本之间的修正关联度，/>是日志文本的总数量。其中，修正关联度概率获取流程图如图2所示。

所有日志文本按照日志时间顺序依次赋予一个名称标识符，所有日志文本的名称标识符与所有日志文本之间的修正关联度概率构成的日志文本矩阵，日志文本矩阵的行和列都是日志文本的名称标识符，矩阵中的每一个值是对应两条日志文本之间的修正关联度概率。将日志文本矩阵作为输入，使用马尔科夫图聚类算法，输出日志文本的分类结果，其中每个分类代表了一组在出现问题或状态波动的位置相似，且对于波动的具体描述也相似的日志文本，实现了对日志文本的智能分类。马尔科夫图聚类算法为公知技术，具体过程不再赘述。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.一种用于文本分类模型的数据智能分类方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的一种用于文本分类模型的数据智能分类方法，其特征在于，所述根据各日志文本中日志词语的个数获取任意两条日志文本之间的词性分布系数，包括：

3.如权利要求1所述的一种用于文本分类模型的数据智能分类方法，其特征在于，所述文本相似性系数，公式为：

式中，是第/>条日志文本与第/>条日志文本之间的文本相似性系数；/>、/>分别是第/>条日志文本的日志词语向量集合/>、第/>条日志文本的日志词语向量集合/>中词性为名词的日志词语的编码组成的名词日志词语集合，/>是第/>条日志文本的名词日志词语集合/>中第/>个日志词语编码，/>是第/>条日志文本的名词日志词语集合/>中第/>个日志词语编码，/>、/>分别是名词日志词语集合/>、/>中编码数据的个数，/>是括号中两个集合的Jaccard相似度，/>是最小值函数，/>是括号中两个日志词语的编辑距离，/>为大于零的预设调参系数。

4.如权利要求1所述的一种用于文本分类模型的数据智能分类方法，其特征在于，所述根据词性分布系数和文本相似性系数获取任意两条日志文本之间的相似性故障相关度，包括：

5.如权利要求1所述的一种用于文本分类模型的数据智能分类方法，其特征在于，所述根据日志语句集合中日志词语的位置获取各日志文本中的各日志语句与其他各日志文本中的各日志语句的词语位置系数，包括：

6.如权利要求1所述的一种用于文本分类模型的数据智能分类方法，其特征在于，所述语句共现系数，公式为：

7.如权利要求1所述的一种用于文本分类模型的数据智能分类方法，其特征在于，所述根据相似性故障相关度和语句共现系数获取任意两条日志文本之间的部件状态关联契合度，包括：

8.如权利要求1所述的一种用于文本分类模型的数据智能分类方法，其特征在于，所述根据部件状态关联契合度获取任意两条日志文本之间的概率转换系数，包括：

9.如权利要求1所述的一种用于文本分类模型的数据智能分类方法，其特征在于，所述根据概率转换系数获取任意两条日志文本之间的修正关联度概率，包括：

10.如权利要求1所述的一种用于文本分类模型的数据智能分类方法，其特征在于，所述使用聚类算法，根据修正关联度概率对所有日志文本进行分类，包括：