CN117556064B

CN117556064B - 基于大数据分析的信息分类存储方法与系统

Info

Publication number: CN117556064B
Application number: CN202410038838.3A
Authority: CN
Inventors: 栗云帆
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-03-26
Anticipated expiration: 2044-01-11
Also published as: CN117556064A

Abstract

本发明提供了基于大数据分析的信息分类存储方法与系统，包括：获取经过人工分类的信息数据；信息数据包括文本和图像；提取出文本数据的语言特征；基于语言特征构建损失函数，不断优化损失函数得到文本信息分类模型；对图像进行预处理后提取出相应图像的形状特征；将形状特征输入到神经网络模型中得到图像信息分类模型；利用文本信息分类模型和图像信息分类模型完成待分类信息数据的归类存储。本发明针对不同类型的信息数据，分别提取了文本数据的语言特征和图像数据的形状特征作为样本，并利用大数据分析的方法完成了文本和图像信息的分类存储，无需人工进行干预，提高了信息分类存储的性能和效率。

Description

基于大数据分析的信息分类存储方法与系统

技术领域

本发明属于信息分类技术领域，更具体地说，是涉及一种基于大数据分析的信息分类存储方法与系统。

背景技术

随着信息技术的迅猛发展和互联网的普及，大量的信息数据被生成并存储在各种各样的数据源中。这些数据源包括但不限于数据库、日志文件、社交媒体、传感器等。这些信息数据不仅数量庞大，而且种类繁多，如何高效地对这些数据进行分类存储成为了一个重要的挑战。

传统的信息分类存储方法往往依赖于手动定义的规则和模式，这些规则和模式需要人工不断更新和维护。然而，随着数据量的不断增加，手动定义规则的效率变得越来越低，而且很难涵盖所有可能的数据类型和情况。

发明内容

为解决上述问题，本发明的目的在于提供基于大数据分析的信息分类存储方法与系统。

基于大数据分析的信息分类存储方法，包括以下步骤：

步骤1：获取经过人工分类的信息数据；所述信息数据包括文本和图像；

步骤2：提取出所述文本数据的语言特征；

步骤3：基于所述语言特征构建损失函数，不断优化所述损失函数得到文本信息分类模型；

步骤4：对所述图像进行预处理后提取出相应图像的形状特征；

步骤5：将所述形状特征输入到神经网络模型中得到图像信息分类模型；

步骤6：利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储。

优选的，所述步骤2：提取出所述文本数据的语言特征，包括：

步骤2.1：利用词袋模型将所述文本数据转换为词向量；

步骤2.2：将所述词向量输入到结构特征提取层中得到文本数据的结构特征；

步骤2.3：对所述文本数据进行分词，并基于每个词语在相应文本中出现的位置确定位置权重；

步骤2.4：计算每个词语的TF-IDF值；

步骤2.5：根据所述TF-IDF值和所述位置权重确定词语的局部特征；

步骤2.6：将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征。

优选的，所述步骤2.2：将所述词向量输入到结构特征提取层中得到文本数据的结构特征，包括：

将词向量依次输入到卷积层和池化层中得到结构特征；其中，卷积层特征提取公式为：

式中，为激活函数，/>为卷积核，/>为偏值，H为词向量，/>为使用卷积层提取的第i个特征向量。

优选的，所述步骤2.3：对所述文本数据进行分词，并基于每个词语在相应文本中出现的位置确定位置权重，包括：

采用公式：

确定词语的位置权重；其中，表示预设参数，/>表示词语i在相应文本中第一次出现的位置，/>表示文本j的总词数，/>表示词语i在相应文本中最后一次出现的位置。

优选的，所述步骤2.5：根据所述TF-IDF值和所述位置权重确定词语的局部特征，包括：

步骤2.5.1：基于高斯分布原理利用所述TF-IDF值和所述位置权重确定词语的综合权重；其中，所述综合权重确定公式为：

式中，表示文本j中第i个词语的综合权重，/>表示词语i的TF-IDF值，/>表示高斯分布的方差，/>表示高斯分布的期望；

步骤2.5.2：将词语的综合权重与相应词语的词向量相乘得到局部特征。

优选的，所述步骤2.6：将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征，包括：

采用公式：

将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征；其中，O表示语言特征，G表示结构特征，M表示局部特征。

优选的，所述步骤4：对所述图像进行预处理后提取出相应图像的形状特征，包括：

步骤4.1：对所述图像进行灰度化处理得到预处理后的图像；

步骤4.2：根据所述预处理后的图像上每个像素点的灰度值计算图像在横方向和竖方向上的梯度值；其中，梯度值计算公式为：

其中，表示图像在横方向上的梯度值，/>表示图像在竖方向上的梯度值，/>表示预处理后的图像在/>位置处的灰度值；

步骤4.3：根据图像在横方向和竖方向上的梯度值确定相应图像的形状特征。

优选的，所述步骤4.3：根据图像在横方向和竖方向上的梯度值确定相应图像的形状特征，包括：

采用公式：

确定相应图像的形状特征；其中，表示图像的形状特征，W表示图像的的宽度，H表示图像的的高度。

本发明还提供了一种基于大数据分析的信息分类存储系统，其特征在于，包括：

信息数据获取模块，用于获取经过人工分类的信息数据；所述信息数据包括文本和图像；

语言特征提取模块，用于提取出所述文本数据的语言特征；

文本分类训练模块，用于基于所述语言特征构建损失函数，不断优化所述损失函数得到文本信息分类模型；

图像特征提取模块，用于对所述图像进行预处理后提取出相应图像的形状特征；

图像分类训练模块，用于将所述形状特征输入到神经网络模型中得到图像信息分类模型；

信息归类存储模块，用于利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的基于大数据分析的信息分类存储方法中的步骤。

本发明提供的基于大数据分析的信息分类存储方法与系统的有益效果在于：与现有技术相比，本发明针对不同类型的信息数据，分别提取了文本数据的语言特征和图像数据的形状特征作为样本，并利用大数据分析的方法完成了文本和图像信息的分类存储，无需人工进行干预，提高了信息分类存储的性能和效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于大数据分析的信息分类存储方法流程图；

图2为本发明实施例提供的基于大数据分析的信息分类存储系统原理图。

实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为实现上述目的，本发明采用的技术方案是：

请参阅图1，基于大数据分析的信息分类存储方法，包括以下步骤：

步骤2：提取出所述文本数据的语言特征；

进一步的，步骤2包括：

步骤2.1：利用词袋模型将所述文本数据转换为词向量；

在本发明实施例中，可将词向量依次输入到卷积层和池化层中得到结构特征；其中，卷积层特征提取公式为：

式中，为激活函数，/>为卷积核，b为偏值，H为词向量，/>为使用卷积层提取的第i个特征向量。池化层使用的是全局最大池化(1-Max)处理。

通常情况下，最能体现文本含义或者类别的属性是关键词，并且关键词在文本的位置一般在文本的开头或者结尾，因此每个词语的位置信息是一种重要的特征，基于此本发明利用高斯分布原理计算了每个词语的综合权重，其具体过程为：

在步骤2.3中，可采用公式：

步骤2.4：计算每个词语的TF-IDF值；

进一步的，步骤2.5包括：

步骤2.6：将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征。其中，语言特征融合公式为：

上式中，O表示语言特征，G表示结构特征，M表示局部特征。

在实际应用中，本发明需要将语言特征输入到全连接层和Softmax层中输出预测的概率值，然后基于预测的概率值与真实的类别标签之间的差值构建损失函数。

进一步的，所述步骤4包括：

步骤4.1：对所述图像进行灰度化处理得到预处理后的图像；

步骤4.3：根据图像在横方向和竖方向上的梯度值确定相应图像的形状特征。其中，形状特征计算公式为：

式中，表示图像的形状特征，W表示图像的的宽度，H表示图像的的高度。较大的形状特征值代表在每个像素点处有较大的灰度梯度变化，通过这种方式，可以确定灰度图像的形状特征。

在实际应用中，本发明需要将灰度图像预先设置分类标签，然后将灰度图像相对应形状特征作为样本输入到神经网络模型中，同时将类别标签作为输出，不断训练神经网络模型即可得到图像信息分类模型。

本发明针对不同类型的信息数据，分别提取了文本数据的语言特征和图像数据的形状特征作为样本，并利用大数据分析的方法完成了文本和图像信息的分类存储，无需人工进行干预，提高了信息分类存储的性能和效率。

请参阅图2，本发明还提供了一种基于大数据分析的信息分类存储系统，其特征在于，包括：

语言特征提取模块，用于提取出所述文本数据的语言特征；

与现有技术相比，本发明提供的一种基于大数据分析的信息分类存储系统的有益效果与上述技术方案所述一种基于大数据分析的信息分类存储方法的有益效果相同，在此不做赘述。

与现有技术相比，本发明提供的一种计算机可读存储介质的有益效果与上述技术方案所述一种基于大数据分析的信息分类存储方法的有益效果相同，在此不做赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据分析的信息分类存储方法，其特征在于，包括以下步骤：

步骤2：提取出所述文本的语言特征；

步骤6：利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储；

所述步骤2：提取出所述文本的语言特征，包括：

步骤2.1：利用词袋模型将所述文本转换为词向量；

步骤2.3：对所述文本进行分词，并基于每个词语在相应文本中出现的位置确定位置权重；

步骤2.4：计算每个词语的TF-IDF值；

步骤2.6：将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征；

所述步骤2.2：将所述词向量输入到结构特征提取层中得到文本数据的结构特征，包括：

c_i＝f(ω·H+b)

式中，f为激活函数，ω为卷积核，b为偏值，H为词向量，c_i为使用卷积层提取的第i个特征向量；

所述步骤2.3：对所述文本进行分词，并基于每个词语在相应文本中出现的位置确定位置权重，包括：

采用公式：

确定词语的位置权重；其中，ξ表示预设参数，f_i表示词语i在相应文本中第一次出现的位置，n_j表示文本j的总词数，l_i表示词语i在相应文本中最后一次出现的位置；

所述步骤2.5：根据所述TF-IDF值和所述位置权重确定词语的局部特征，包括：

LTFIDF(i,j)＝TF-IDF(i,j)×Eigenvalue(i,j)

式中，LTFIDF(i,j)表示文本j中第i个词语的综合权重，TF-IDF(i,j)表示词语i的TF-IDF值，σ表示高斯分布的方差，μ表示高斯分布的期望；

步骤2.5.2：将词语的综合权重与相应词语的词向量相乘得到局部特征；

所述步骤2.6：将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征，包括：

采用公式：

2.如权利要求1所述的基于大数据分析的信息分类存储方法，其特征在于，所述步骤4：对所述图像进行预处理后提取出相应图像的形状特征，包括：

步骤4.1：对所述图像进行灰度化处理得到预处理后的图像；

f_x(x_i,y_j)＝f(x_i-1,y_j)-2f(x_i,y_j)+f(x_i+1,y_j)

f_y(x_i,y_j)＝f(x_i,y_j-1)-2f(x_i,y_j)+f(x_i,y_j+1)

其中，f_x(x_i,y_j)表示图像在横方向上的梯度值，f_y(x_i,y_j)表示图像在竖方向上的梯度值，f(x_i,y_j)表示预处理后的图像在(x_i,y_j)位置处的灰度值；

3.如权利要求2所述的基于大数据分析的信息分类存储方法，其特征在于，所述步骤4.3：根据图像在横方向和竖方向上的梯度值确定相应图像的形状特征，包括：

采用公式：

4.基于大数据分析的信息分类存储系统，其特征在于，包括：

语言特征提取模块，用于提取出所述文本的语言特征；

信息归类存储模块，用于利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储；

提取出所述文本的语言特征，包括：

利用词袋模型将所述文本转换为词向量；

将所述词向量输入到结构特征提取层中得到文本数据的结构特征；

对所述文本进行分词，并基于每个词语在相应文本中出现的位置确定位置权重；

计算每个词语的TF-IDF值；

根据所述TF-IDF值和所述位置权重确定词语的局部特征；

将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征；

将所述词向量输入到结构特征提取层中得到文本数据的结构特征，包括：

c_i＝f(ω·H+b)

对所述文本进行分词，并基于每个词语在相应文本中出现的位置确定位置权重，包括：

采用公式：

根据所述TF-IDF值和所述位置权重确定词语的局部特征，包括：

基于高斯分布原理利用所述TF-IDF值和所述位置权重确定词语的综合权重；其中，所述综合权重确定公式为：

LTFIDF(i,j)＝TF-IDF(i,j)×Eigenvalue(i,j)

将词语的综合权重与相应词语的词向量相乘得到局部特征；

将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征，包括：

采用公式：

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的基于大数据分析的信息分类存储方法中的步骤。