CN117556064B - 基于大数据分析的信息分类存储方法与系统 - Google Patents
基于大数据分析的信息分类存储方法与系统 Download PDFInfo
- Publication number
- CN117556064B CN117556064B CN202410038838.3A CN202410038838A CN117556064B CN 117556064 B CN117556064 B CN 117556064B CN 202410038838 A CN202410038838 A CN 202410038838A CN 117556064 B CN117556064 B CN 117556064B
- Authority
- CN
- China
- Prior art keywords
- text
- features
- word
- image
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000007405 data analysis Methods 0.000 title claims abstract description 25
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims 2
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了基于大数据分析的信息分类存储方法与系统,包括:获取经过人工分类的信息数据;信息数据包括文本和图像;提取出文本数据的语言特征;基于语言特征构建损失函数,不断优化损失函数得到文本信息分类模型;对图像进行预处理后提取出相应图像的形状特征;将形状特征输入到神经网络模型中得到图像信息分类模型;利用文本信息分类模型和图像信息分类模型完成待分类信息数据的归类存储。本发明针对不同类型的信息数据,分别提取了文本数据的语言特征和图像数据的形状特征作为样本,并利用大数据分析的方法完成了文本和图像信息的分类存储,无需人工进行干预,提高了信息分类存储的性能和效率。
Description
技术领域
本发明属于信息分类技术领域,更具体地说,是涉及一种基于大数据分析的信息分类存储方法与系统。
背景技术
随着信息技术的迅猛发展和互联网的普及,大量的信息数据被生成并存储在各种各样的数据源中。这些数据源包括但不限于数据库、日志文件、社交媒体、传感器等。这些信息数据不仅数量庞大,而且种类繁多,如何高效地对这些数据进行分类存储成为了一个重要的挑战。
传统的信息分类存储方法往往依赖于手动定义的规则和模式,这些规则和模式需要人工不断更新和维护。然而,随着数据量的不断增加,手动定义规则的效率变得越来越低,而且很难涵盖所有可能的数据类型和情况。
发明内容
为解决上述问题,本发明的目的在于提供基于大数据分析的信息分类存储方法与系统。
基于大数据分析的信息分类存储方法,包括以下步骤:
步骤1:获取经过人工分类的信息数据;所述信息数据包括文本和图像;
步骤2:提取出所述文本数据的语言特征;
步骤3:基于所述语言特征构建损失函数,不断优化所述损失函数得到文本信息分类模型;
步骤4:对所述图像进行预处理后提取出相应图像的形状特征;
步骤5:将所述形状特征输入到神经网络模型中得到图像信息分类模型;
步骤6:利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储。
优选的,所述步骤2:提取出所述文本数据的语言特征,包括:
步骤2.1:利用词袋模型将所述文本数据转换为词向量;
步骤2.2:将所述词向量输入到结构特征提取层中得到文本数据的结构特征;
步骤2.3:对所述文本数据进行分词,并基于每个词语在相应文本中出现的位置确定位置权重;
步骤2.4:计算每个词语的TF-IDF值;
步骤2.5:根据所述TF-IDF值和所述位置权重确定词语的局部特征;
步骤2.6:将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征。
优选的,所述步骤2.2:将所述词向量输入到结构特征提取层中得到文本数据的结构特征,包括:
将词向量依次输入到卷积层和池化层中得到结构特征;其中,卷积层特征提取公式为:
式中,为激活函数,/>为卷积核,/>为偏值,H为词向量,/>为使用卷积层提取的第i个特征向量。
优选的,所述步骤2.3:对所述文本数据进行分词,并基于每个词语在相应文本中出现的位置确定位置权重,包括:
采用公式:
确定词语的位置权重;其中,表示预设参数,/>表示词语i在相应文本中第一次出现的位置,/>表示文本j的总词数,/>表示词语i在相应文本中最后一次出现的位置。
优选的,所述步骤2.5:根据所述TF-IDF值和所述位置权重确定词语的局部特征,包括:
步骤2.5.1:基于高斯分布原理利用所述TF-IDF值和所述位置权重确定词语的综合权重;其中,所述综合权重确定公式为:
式中,表示文本j中第i个词语的综合权重,/>表示词语i的TF-IDF值,/>表示高斯分布的方差,/>表示高斯分布的期望;
步骤2.5.2:将词语的综合权重与相应词语的词向量相乘得到局部特征。
优选的,所述步骤2.6:将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征,包括:
采用公式:
将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征;其中,O表示语言特征,G表示结构特征,M表示局部特征。
优选的,所述步骤4:对所述图像进行预处理后提取出相应图像的形状特征,包括:
步骤4.1:对所述图像进行灰度化处理得到预处理后的图像;
步骤4.2:根据所述预处理后的图像上每个像素点的灰度值计算图像在横方向和竖方向上的梯度值;其中,梯度值计算公式为:
其中,表示图像在横方向上的梯度值,/>表示图像在竖方向上的梯度值,/>表示预处理后的图像在/>位置处的灰度值;
步骤4.3:根据图像在横方向和竖方向上的梯度值确定相应图像的形状特征。
优选的,所述步骤4.3:根据图像在横方向和竖方向上的梯度值确定相应图像的形状特征,包括:
采用公式:
确定相应图像的形状特征;其中,表示图像的形状特征,W表示图像的的宽度,H表示图像的的高度。
本发明还提供了一种基于大数据分析的信息分类存储系统,其特征在于,包括:
信息数据获取模块,用于获取经过人工分类的信息数据;所述信息数据包括文本和图像;
语言特征提取模块,用于提取出所述文本数据的语言特征;
文本分类训练模块,用于基于所述语言特征构建损失函数,不断优化所述损失函数得到文本信息分类模型;
图像特征提取模块,用于对所述图像进行预处理后提取出相应图像的形状特征;
图像分类训练模块,用于将所述形状特征输入到神经网络模型中得到图像信息分类模型;
信息归类存储模块,用于利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的基于大数据分析的信息分类存储方法中的步骤。
本发明提供的基于大数据分析的信息分类存储方法与系统的有益效果在于:与现有技术相比,本发明针对不同类型的信息数据,分别提取了文本数据的语言特征和图像数据的形状特征作为样本,并利用大数据分析的方法完成了文本和图像信息的分类存储,无需人工进行干预,提高了信息分类存储的性能和效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于大数据分析的信息分类存储方法流程图;
图2为本发明实施例提供的基于大数据分析的信息分类存储系统原理图。
实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为实现上述目的,本发明采用的技术方案是:
请参阅图1,基于大数据分析的信息分类存储方法,包括以下步骤:
步骤1:获取经过人工分类的信息数据;所述信息数据包括文本和图像;
步骤2:提取出所述文本数据的语言特征;
进一步的,步骤2包括:
步骤2.1:利用词袋模型将所述文本数据转换为词向量;
步骤2.2:将所述词向量输入到结构特征提取层中得到文本数据的结构特征;
在本发明实施例中,可将词向量依次输入到卷积层和池化层中得到结构特征;其中,卷积层特征提取公式为:
式中,为激活函数,/>为卷积核,b为偏值,H为词向量,/>为使用卷积层提取的第i个特征向量。池化层使用的是全局最大池化(1-Max)处理。
通常情况下,最能体现文本含义或者类别的属性是关键词,并且关键词在文本的位置一般在文本的开头或者结尾,因此每个词语的位置信息是一种重要的特征,基于此本发明利用高斯分布原理计算了每个词语的综合权重,其具体过程为:
步骤2.3:对所述文本数据进行分词,并基于每个词语在相应文本中出现的位置确定位置权重;
在步骤2.3中,可采用公式:
确定词语的位置权重;其中,表示预设参数,/>表示词语i在相应文本中第一次出现的位置,/>表示文本j的总词数,/>表示词语i在相应文本中最后一次出现的位置。
步骤2.4:计算每个词语的TF-IDF值;
步骤2.5:根据所述TF-IDF值和所述位置权重确定词语的局部特征;
进一步的,步骤2.5包括:
步骤2.5.1:基于高斯分布原理利用所述TF-IDF值和所述位置权重确定词语的综合权重;其中,所述综合权重确定公式为:
式中,表示文本j中第i个词语的综合权重,/>表示词语i的TF-IDF值,/>表示高斯分布的方差,/>表示高斯分布的期望;
步骤2.5.2:将词语的综合权重与相应词语的词向量相乘得到局部特征。
步骤2.6:将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征。其中,语言特征融合公式为:
上式中,O表示语言特征,G表示结构特征,M表示局部特征。
步骤3:基于所述语言特征构建损失函数,不断优化所述损失函数得到文本信息分类模型;
在实际应用中,本发明需要将语言特征输入到全连接层和Softmax层中输出预测的概率值,然后基于预测的概率值与真实的类别标签之间的差值构建损失函数。
步骤4:对所述图像进行预处理后提取出相应图像的形状特征;
进一步的,所述步骤4包括:
步骤4.1:对所述图像进行灰度化处理得到预处理后的图像;
步骤4.2:根据所述预处理后的图像上每个像素点的灰度值计算图像在横方向和竖方向上的梯度值;其中,梯度值计算公式为:
其中,表示图像在横方向上的梯度值,/>表示图像在竖方向上的梯度值,/>表示预处理后的图像在/>位置处的灰度值;
步骤4.3:根据图像在横方向和竖方向上的梯度值确定相应图像的形状特征。其中,形状特征计算公式为:
式中,表示图像的形状特征,W表示图像的的宽度,H表示图像的的高度。较大的形状特征值代表在每个像素点处有较大的灰度梯度变化,通过这种方式,可以确定灰度图像的形状特征。
步骤5:将所述形状特征输入到神经网络模型中得到图像信息分类模型;
在实际应用中,本发明需要将灰度图像预先设置分类标签,然后将灰度图像相对应形状特征作为样本输入到神经网络模型中,同时将类别标签作为输出,不断训练神经网络模型即可得到图像信息分类模型。
步骤6:利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储。
本发明针对不同类型的信息数据,分别提取了文本数据的语言特征和图像数据的形状特征作为样本,并利用大数据分析的方法完成了文本和图像信息的分类存储,无需人工进行干预,提高了信息分类存储的性能和效率。
请参阅图2,本发明还提供了一种基于大数据分析的信息分类存储系统,其特征在于,包括:
信息数据获取模块,用于获取经过人工分类的信息数据;所述信息数据包括文本和图像;
语言特征提取模块,用于提取出所述文本数据的语言特征;
文本分类训练模块,用于基于所述语言特征构建损失函数,不断优化所述损失函数得到文本信息分类模型;
图像特征提取模块,用于对所述图像进行预处理后提取出相应图像的形状特征;
图像分类训练模块,用于将所述形状特征输入到神经网络模型中得到图像信息分类模型;
信息归类存储模块,用于利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储。
与现有技术相比,本发明提供的一种基于大数据分析的信息分类存储系统的有益效果与上述技术方案所述一种基于大数据分析的信息分类存储方法的有益效果相同,在此不做赘述。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的基于大数据分析的信息分类存储方法中的步骤。
与现有技术相比,本发明提供的一种计算机可读存储介质的有益效果与上述技术方案所述一种基于大数据分析的信息分类存储方法的有益效果相同,在此不做赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.基于大数据分析的信息分类存储方法,其特征在于,包括以下步骤:
步骤1:获取经过人工分类的信息数据;所述信息数据包括文本和图像;
步骤2:提取出所述文本的语言特征;
步骤3:基于所述语言特征构建损失函数,不断优化所述损失函数得到文本信息分类模型;
步骤4:对所述图像进行预处理后提取出相应图像的形状特征;
步骤5:将所述形状特征输入到神经网络模型中得到图像信息分类模型;
步骤6:利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储;
所述步骤2:提取出所述文本的语言特征,包括:
步骤2.1:利用词袋模型将所述文本转换为词向量;
步骤2.2:将所述词向量输入到结构特征提取层中得到文本数据的结构特征;
步骤2.3:对所述文本进行分词,并基于每个词语在相应文本中出现的位置确定位置权重;
步骤2.4:计算每个词语的TF-IDF值;
步骤2.5:根据所述TF-IDF值和所述位置权重确定词语的局部特征;
步骤2.6:将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征;
所述步骤2.2:将所述词向量输入到结构特征提取层中得到文本数据的结构特征,包括:
将词向量依次输入到卷积层和池化层中得到结构特征;其中,卷积层特征提取公式为:
ci=f(ω·H+b)
式中,f为激活函数,ω为卷积核,b为偏值,H为词向量,ci为使用卷积层提取的第i个特征向量;
所述步骤2.3:对所述文本进行分词,并基于每个词语在相应文本中出现的位置确定位置权重,包括:
采用公式:
确定词语的位置权重;其中,ξ表示预设参数,fi表示词语i在相应文本中第一次出现的位置,nj表示文本j的总词数,li表示词语i在相应文本中最后一次出现的位置;
所述步骤2.5:根据所述TF-IDF值和所述位置权重确定词语的局部特征,包括:
步骤2.5.1:基于高斯分布原理利用所述TF-IDF值和所述位置权重确定词语的综合权重;其中,所述综合权重确定公式为:
LTFIDF(i,j)=TF-IDF(i,j)×Eigenvalue(i,j)
式中,LTFIDF(i,j)表示文本j中第i个词语的综合权重,TF-IDF(i,j)表示词语i的TF-IDF值,σ表示高斯分布的方差,μ表示高斯分布的期望;
步骤2.5.2:将词语的综合权重与相应词语的词向量相乘得到局部特征;
所述步骤2.6:将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征,包括:
采用公式:
将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征;其中,O表示语言特征,G表示结构特征,M表示局部特征。
2.如权利要求1所述的基于大数据分析的信息分类存储方法,其特征在于,所述步骤4:对所述图像进行预处理后提取出相应图像的形状特征,包括:
步骤4.1:对所述图像进行灰度化处理得到预处理后的图像;
步骤4.2:根据所述预处理后的图像上每个像素点的灰度值计算图像在横方向和竖方向上的梯度值;其中,梯度值计算公式为:
fx(xi,yj)=f(xi-1,yj)-2f(xi,yj)+f(xi+1,yj)
fy(xi,yj)=f(xi,yj-1)-2f(xi,yj)+f(xi,yj+1)
其中,fx(xi,yj)表示图像在横方向上的梯度值,fy(xi,yj)表示图像在竖方向上的梯度值,f(xi,yj)表示预处理后的图像在(xi,yj)位置处的灰度值;
步骤4.3:根据图像在横方向和竖方向上的梯度值确定相应图像的形状特征。
3.如权利要求2所述的基于大数据分析的信息分类存储方法,其特征在于,所述步骤4.3:根据图像在横方向和竖方向上的梯度值确定相应图像的形状特征,包括:
采用公式:
确定相应图像的形状特征;其中,表示图像的形状特征,W表示图像的的宽度,H表示图像的的高度。
4.基于大数据分析的信息分类存储系统,其特征在于,包括:
信息数据获取模块,用于获取经过人工分类的信息数据;所述信息数据包括文本和图像;
语言特征提取模块,用于提取出所述文本的语言特征;
文本分类训练模块,用于基于所述语言特征构建损失函数,不断优化所述损失函数得到文本信息分类模型;
图像特征提取模块,用于对所述图像进行预处理后提取出相应图像的形状特征;
图像分类训练模块,用于将所述形状特征输入到神经网络模型中得到图像信息分类模型;
信息归类存储模块,用于利用所述文本信息分类模型和所述图像信息分类模型完成待分类信息数据的归类存储;
提取出所述文本的语言特征,包括:
利用词袋模型将所述文本转换为词向量;
将所述词向量输入到结构特征提取层中得到文本数据的结构特征;
对所述文本进行分词,并基于每个词语在相应文本中出现的位置确定位置权重;
计算每个词语的TF-IDF值;
根据所述TF-IDF值和所述位置权重确定词语的局部特征;
将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征;
将所述词向量输入到结构特征提取层中得到文本数据的结构特征,包括:
将词向量依次输入到卷积层和池化层中得到结构特征;其中,卷积层特征提取公式为:
ci=f(ω·H+b)
式中,f为激活函数,ω为卷积核,b为偏值,H为词向量,ci为使用卷积层提取的第i个特征向量;
对所述文本进行分词,并基于每个词语在相应文本中出现的位置确定位置权重,包括:
采用公式:
确定词语的位置权重;其中,ξ表示预设参数,fi表示词语i在相应文本中第一次出现的位置,nj表示文本j的总词数,li表示词语i在相应文本中最后一次出现的位置;
根据所述TF-IDF值和所述位置权重确定词语的局部特征,包括:
基于高斯分布原理利用所述TF-IDF值和所述位置权重确定词语的综合权重;其中,所述综合权重确定公式为:
LTFIDF(i,j)=TF-IDF(i,j)×Eigenvalue(i,j)
式中,LTFIDF(i,j)表示文本j中第i个词语的综合权重,TF-IDF(i,j)表示词语i的TF-IDF值,σ表示高斯分布的方差,μ表示高斯分布的期望;
将词语的综合权重与相应词语的词向量相乘得到局部特征;
将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征,包括:
采用公式:
将所述结构特征和所述局部特征进行融合得到相应文本数据的语言特征;其中,O表示语言特征,G表示结构特征,M表示局部特征。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的基于大数据分析的信息分类存储方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410038838.3A CN117556064B (zh) | 2024-01-11 | 2024-01-11 | 基于大数据分析的信息分类存储方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410038838.3A CN117556064B (zh) | 2024-01-11 | 2024-01-11 | 基于大数据分析的信息分类存储方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556064A CN117556064A (zh) | 2024-02-13 |
CN117556064B true CN117556064B (zh) | 2024-03-26 |
Family
ID=89823531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410038838.3A Active CN117556064B (zh) | 2024-01-11 | 2024-01-11 | 基于大数据分析的信息分类存储方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556064B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073568A (zh) * | 2016-11-10 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
CN108717411A (zh) * | 2018-05-23 | 2018-10-30 | 安徽数据堂科技有限公司 | 一种基于大数据的调查问卷设计辅助系统 |
CN114416969A (zh) * | 2021-11-30 | 2022-04-29 | 西安交通大学 | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 |
CN117312548A (zh) * | 2022-06-22 | 2023-12-29 | 北京信息科技大学 | 一种多源异构灾情数据融合理解方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7041281B2 (ja) * | 2019-07-04 | 2022-03-23 | 浙江大学 | ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 |
-
2024
- 2024-01-11 CN CN202410038838.3A patent/CN117556064B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073568A (zh) * | 2016-11-10 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
CN108717411A (zh) * | 2018-05-23 | 2018-10-30 | 安徽数据堂科技有限公司 | 一种基于大数据的调查问卷设计辅助系统 |
CN114416969A (zh) * | 2021-11-30 | 2022-04-29 | 西安交通大学 | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 |
CN117312548A (zh) * | 2022-06-22 | 2023-12-29 | 北京信息科技大学 | 一种多源异构灾情数据融合理解方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117556064A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN107169035B (zh) | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 | |
CN107122809B (zh) | 基于图像自编码的神经网络特征学习方法 | |
CN107122375A (zh) | 基于图像特征的图像主体的识别方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN111552803A (zh) | 一种基于图小波网络模型的文本分类方法 | |
CN105184298A (zh) | 一种快速局部约束低秩编码的图像分类方法 | |
CN110751038A (zh) | 一种基于图注意力机制的pdf表格结构识别方法 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
CN107908698A (zh) | 一种主题网络爬虫方法、电子设备、存储介质、系统 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN110297888A (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN116958688A (zh) | 一种基于YOLOv8网络的目标检测方法及系统 | |
Ju et al. | Research on OMR recognition based on convolutional neural network tensorflow platform | |
CN115062727A (zh) | 一种基于多阶超图卷积网络的图节点分类方法及系统 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN113032613A (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN117556064B (zh) | 基于大数据分析的信息分类存储方法与系统 | |
CN111563180A (zh) | 一种基于深度哈希方法的商标图像检索方法 | |
CN108898157B (zh) | 基于卷积神经网络的数值型数据的雷达图表示的分类方法 | |
CN105844299A (zh) | 一种基于词袋模型的图像分类方法 | |
CN115496948A (zh) | 一种基于深度学习的网络监督细粒度图像识别方法和系统 | |
CN115203589A (zh) | 基于Trans-dssm模型的向量搜索方法及系统 | |
CN114529911A (zh) | 基于改进yolo9000算法的验证码识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |