CN116189193A - 一种基于样本信息的数据存储可视化方法和装置 - Google Patents
一种基于样本信息的数据存储可视化方法和装置 Download PDFInfo
- Publication number
- CN116189193A CN116189193A CN202310452412.8A CN202310452412A CN116189193A CN 116189193 A CN116189193 A CN 116189193A CN 202310452412 A CN202310452412 A CN 202310452412A CN 116189193 A CN116189193 A CN 116189193A
- Authority
- CN
- China
- Prior art keywords
- sample
- picture
- target
- text
- semantics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013500 data storage Methods 0.000 title claims abstract description 41
- 238000007794 visualization technique Methods 0.000 title claims abstract description 15
- 238000003860 storage Methods 0.000 claims abstract description 29
- 230000000007 visual effect Effects 0.000 claims abstract description 19
- 238000012800 visualization Methods 0.000 claims abstract description 14
- 238000004140 cleaning Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 201
- 230000011218 segmentation Effects 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 230000008451 emotion Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000003628 erosive effect Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000010224 classification analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据存储技术领域,揭露了一种基于样本信息的数据存储可视化方法,包括:逐个选取数据清洗后的样本数据集中的标准样本数据作为目标标准样本数据,将目标标准样本数据拆分成目标样本文本以及目标样本图集;将目标样本文本分段成样本文本段集,提取出样本文本段集的标准文本语义;提取出目标样本图集中各个目标样本图片的初级图片语义和次级图片语义,并将初级图片语义和次级图片语义汇集成标准图片语义;将标准文本语义和标准图片语义汇集成标准样本语义,根据标准样本语义对目标标准样本数据进行存储,并生成可视化存储界面。本发明还提出一种基于样本信息的数据存储可视化装置。本发明可以提高可视化数据存储时的灵活性。
Description
技术领域
本发明涉及数据存储技术领域,尤其涉及一种基于样本信息的数据存储可视化方法和装置。
背景技术
数据存储是指以某种格式将数据记录在计算机内部或外部存储介质上,但是,为了便于数据与用户的交互,需要对存储的数据进行分类展示,进行存储数据的可视化展示。
现有的数据存储可视化技术多为基于数据格式的可视化展示,即根据每份数据的数据格式生成存储数据的类别占比扇形图或柱状图,例如,将数据分类成音频、视频、图片以及文本等进行存储,实际应用中,对于网页数据或图文数据的存储,简单的数据格式存储的直观度较低,数据格式的可视化存储无法区别网页数据的内容信息区别,可能导致进行可视化数据存储时的灵活性较低。
发明内容
本发明提供一种基于样本信息的数据存储可视化方法和装置,其主要目的在于解决进行可视化数据存储时的灵活性较低的问题。
为实现上述目的,本发明提供的一种基于样本信息的数据存储可视化方法,包括:
获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,其中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
其中,是指所述文本段距离,/>是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>是指第/>个文本词向量,/>是指所述文本段向量中的第/>个文本词向量,/>是指所述初级文本段中心向量中的第/>个文本词向量,/>是预设的基准系数,/>是预设的平衡系数;根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集;
逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
可选地,所述对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,包括:
逐个选取所述样本数据集中的样本数据作为目标样本数据,判断所述目标样本数据的数据容量大小是否大于预设的容量阈值;
若否,则返回所述逐个选取所述样本数据集中的样本数据作为目标样本数据的步骤;
若是,则将所述样本数据添加到预设的初级样本数据集中,直至所述目标样本数据为所述样本数据集中的最后一个样本数据时,得到次级样本数据集;
从所述次级样本数据集中筛除重复的样本数据,得到标准样本数据集。
可选地,所述对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,包括:
逐个选取所述样本文本段集中的样本文本段作为目标样本文本段,对所述目标样本文本段进行文本分词操作,得到目标文本词集;
从所述目标文本词集中筛除停用词,得到标准文本词集;
对所述标准文本词集进行向量化操作,得到目标文本词向量集;
对所述目标文本词向量集中的各文本词向量按照频次大小顺序排列,得到标准文本词向量序列;
按照从左到右的顺序从所述标准文本词向量序列中筛选出预设个数的文本词向量拼接成文本段向量,并将所有的文本段向量汇集成文本段向量集。
可选地,所述提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,包括:
逐个选取所述文本段类集中的文本段类作为目标文本段类,将所述目标文本段类的聚类中心作为目标类向量;
对所述目标类向量进行格式转码,得到目标类语义;
利用预设的语义关键词库对所述目标类语义进行关键词替换,得到文本语义,并将所有的文本语义汇集成文本语义集。
可选地,所述提取出所述目标样本图片对应的标准样本图片特征,包括:
对所述目标样本图片进行灰度化操作,得到灰度样本图片;
利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集;
逐个选取所述兴趣样本图集中的兴趣样本图片作为目标兴趣样本图片,从所述所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片,对所述目标色彩图片进行色彩分析,得到样本色彩特征;
分别从所述目标兴趣样本图片中提取出样本纹理特征、样本情感特征以及样本主体特征;
利用全连接层将所述样本色彩特征、所述样本纹理特征、所述样本情感特征以及所述样本主体特征融合成样本描述特征;
将所述样本描述特征和所述样本主体特征拼接成样本描述主体特征,并将所有的样本描述主体特征汇集成标准样本图片特征。
可选地,所述利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集,包括:
从所述灰度样本图片中提取出初级样本边缘,根据所述初级样本边缘对所述灰度样本图片进行图片分割,得到分割样本图集;
逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片,利用如下的灰度变化率算法计算出所述目标分割样本图片对应的灰度变化率:
其中,是指所述灰度变化率,/>是所述目标分割样本图片中像素点的总个数,/>是所述目标分割样本图片的外接矩阵的像素长度,/>是所述目标分割样本图片的外接矩阵的像素宽度,/>是指所述目标分割样本图片的外接矩阵中的横向第/>个像素,/>是指所述目标分割样本图片的外接矩阵中的纵向第/>个像素,/>是指所述目标分割样本图片预设的灰度采样框的边长,/>是灰度符号,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值;
判断所述灰度变化率是否大于预设的变化率阈值;
若否,则返回所述逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片的步骤;
若是,则将所述目标分割样本图片作为兴趣样本图片添加至预设的兴趣样本图集中。
可选地,所述从所述标准样本图片特征中提取出初级图片语义,包括:
逐个选取所述标准样本图片特征中的样本描述主体特征作为目标样本描述主体特征,将所述目标样本描述主体特征中的样本描述特征作为目标描述特征,将所述目标样本描述主体特征中的样本主体特征作为目标主体特征;
利用预先训练的分类器模型识别出所述目标描述特征对应的目标描述语义,利用预先训练的卷积神经网络识别出所述目标主体特征对应的目标主体语义;
将所述目标描述语义和所述目标主体语义拼接成目标初级语义,并将所有的目标初级语义汇集成初级图片语义。
可选地,所述依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,包括:
对所述目标样本图片进行倾斜矫正,得到矫正样本图片,并依次对所述矫正样本图片进行图片灰度化和高斯滤波操作,得到滤波样本图片;
对所述滤波样本图片进行图片侵蚀,得到图片边缘集,从所述图片边缘集中提取出版面边缘;
根据所述版面边缘生成版面掩膜,利用所述版面掩膜对所述滤波样本图片进行图片分割操作,得到版面文本图片。
可选地,所述依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,包括:
对所述样本文本图片进行字符切割,得到样本字符图集;
逐一选取所述样本字符图集中的样本字符图片作为目标样本字符图片,提取出所述目标样本字符图片对应的目标字符特征;
对所述目标字符特征进行归一化操作,得到目标字符特征编码;
利用所述目标字符特征编码在预设的字符特征编码库中查询出对应的目标字符,并将所有的目标字符拼接成目标图片文本;
对所述目标图片文本进行语义识别,得到次级图片语义。
为了解决上述问题,本发明还提供一种基于样本信息的数据存储可视化装置,所述装置包括:
数据拆分模块,用于获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
文本语义提取模块,用于将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,其中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
其中,是指所述文本段距离,/>是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>是指第/>个文本词向量,/>是指所述文本段向量中的第/>个文本词向量,/>是指所述初级文本段中心向量中的第/>个文本词向量,/>是预设的基准系数,/>是预设的平衡系数;根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集;
初级图片语义提取模块,用于逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
次级图片语义提取模块,用于依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
可视化存储模块,用于将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
本发明实施例通过对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,可以筛除样本数据集中的重复样本数据和不符合文本规范的样本数据,降低数据冗长,提高存储效率,通过逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集,可以方便对样本数据的分类分析,提高样本信息分析的准确度,通过将所述目标样本文本分段成样本文本段集,对所述样本文本段集对应的文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,可以根据所述目标样本文本的每一段的语义生成整个目标样本文本的文本语义,从而保留更多的文本语义特征,提高文本语义信息的准确性,通过逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义,可以详细提取出所述目标样本中的每个图片的情感特征、颜色特征、纹理特征以及主体特征,进而得到描述性更加准确的图片语义。
通过依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,可以从样本图片中的字符中提取出图片的语义,从而进一步提高图片语义识别的精确度,通过根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面,可以提高样本数据样本信息的准确度,精简样本信息的类别,提高存储可视化的直观度和灵活性。因此本发明提出的基于样本信息的数据存储可视化方法和装置,可以解决进行可视化数据存储时的灵活性较低的问题。
附图说明
图1为本发明一实施例提供的基于样本信息的数据存储可视化方法的流程示意图;
图2为本发明一实施例提供的生成文本段向量集的流程示意图;
图3为本发明一实施例提供的提取标准样本图片特征的流程示意图;
图4为本发明一实施例提供的基于样本信息的数据存储可视化装置的功能模块图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于样本信息的数据存储可视化方法。所述基于样本信息的数据存储可视化方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于样本信息的数据存储可视化方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于样本信息的数据存储可视化方法的流程示意图。在本实施例中,所述基于样本信息的数据存储可视化方法包括:
S1、获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集。
本发明实施例中,所述样本数据集是指需要进行可视化存储的样本数据组成的数据集,且各样本数据是网页图文或期刊、新闻等包含由图片和文本的数据。
本发明实施中,所述对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,包括:
逐个选取所述样本数据集中的样本数据作为目标样本数据,判断所述目标样本数据的数据容量大小是否大于预设的容量阈值;
若否,则返回所述逐个选取所述样本数据集中的样本数据作为目标样本数据的步骤;
若是,则将所述样本数据添加到预设的初级样本数据集中,直至所述目标样本数据为所述样本数据集中的最后一个样本数据时,得到次级样本数据集;
从所述次级样本数据集中筛除重复的样本数据,得到标准样本数据集。
具体地,所述容量阈值可以是20或25字节,通过设置容量阈值,可以确保所述标准样本数据集中的样本数据为具有价值的样本,通过从所述次级样本数据集中筛除重复的样本数据,得到标准样本数据集,可以减少标准样本数据集的数据冗余,并提高后续的存储效率。
详细地,所述将所述目标标准样本数据拆分成目标样本文本以及目标样本图集,包括:利用遍历的方式逐个选取所述目标样本数据中的图片作为样本图片,并将所有的样本图片汇集成目标样本图集;利用遍历的方式逐个选取所述目标样本数据中的文本字符作为目标文本字符,并将所有的目标文本字符拼接成目标样本文本。
详细地,可以利用python的zipfile对所述目标样本数据进行解压,随后利用fitz库或pymupdf模块对遍历选取所述目标样本数据中的图片和文本字符。
本发明实施例中,通过对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,可以筛除样本数据集中的重复样本数据和不符合文本规范的样本数据,降低数据冗长,提高存储效率,通过逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集,可以方便对样本数据的分类分析,提高样本信息分析的准确度。
S2、将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义。
本发明实施例中,所述样本文本段集中包含多个样本文本段,且每个样本文本段为所述目标样本文本中的一个段落,可以通过检索所述目标样本文本中的分段符,并根据所述分段符将所述目标样本文本分段成样本文本段集。
本发明实施例中,参照图2所示,所述对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,包括:
S21、逐个选取所述样本文本段集中的样本文本段作为目标样本文本段,对所述目标样本文本段进行文本分词操作,得到目标文本词集;
S22、从所述目标文本词集中筛除停用词,得到标准文本词集;
S23、对所述标准文本词集进行向量化操作,得到目标文本词向量集;
S24、对所述目标文本词向量集中的各文本词向量按照频次大小顺序排列,得到标准文本词向量序列;
S25、按照从左到右的顺序从所述标准文本词向量序列中筛选出预设个数的文本词向量拼接成文本段向量,并将所有的文本段向量汇集成文本段向量集。
具体地,所述停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词。
详细地,可以利用双向最大匹配算法或jieba分词工具对所述目标样本文本段进行文本分词操作,得到目标文本词集;可以利用独热编码或Word2vec模型对所述标准文本词集进行向量化操作,得到目标文本词向量集。
本发明实施例中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:
将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;
利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
其中,是指所述文本段距离,/>是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>是指第/>个文本词向量,/>是指所述文本段向量中的第/>个文本词向量,/>是指所述初级文本段中心向量中的第/>个文本词向量,/>是预设的基准系数,/>是预设的平衡系数;
根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;
逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;
根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集。
本发明实施例中,通过利用所述文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离,可以根据所述文本段向量中每个文本词向量之间的特征距离确定出整体的距离,从而提高文本段距离计算的准确性。
具体地,所述根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组是指将所述文本段向量集中的各文本段向量分配到文本段距离最小的初级文本段中心向量所对应的文本段向量组中,得到次级文本段向量组。
详细地,所述次级文本段中心向量是指距离所述次级文本段向量组中各文本段向量的文本段距离一致的文本段向量,所述文本段中心距离是指初级文本段中心向量与对应的次级文本段中心向量之间的文本段距离。
具体地,所述根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类是指在所述标准文本段中心距离大于或等于预设的距离阈值时,将各次级文本段中心向量替换对应的初级文本段中心向量,并返回所述利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离的步骤,直至所述标准文本段中心距离小于所述距离阈值时,将此时的各次级文本段向量组作为文本段类,将各次级文本段向量组对应的次级文本段中心向量作为各文本段类的聚类中心。
本发明实施例中,所述提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,包括:
逐个选取所述文本段类集中的文本段类作为目标文本段类,将所述目标文本段类的聚类中心作为目标类向量;
对所述目标类向量进行格式转码,得到目标类语义;
利用预设的语义关键词库对所述目标类语义进行关键词替换,得到文本语义,并将所有的文本语义汇集成文本语义集。
具体地,所述利用预设的语义关键词库对所述目标类语义进行关键词替换,得到文本语义是指计算出所述目标类语义与所述语义关键词库中各关键词语义的相似度,选取相似度最大的关键词语义作为文本语义。
详细地,所述根据所述文本语义集生成标准文本语义是指将所述文本语义集中的各个文本语义汇集成标准文本语义。
本发明实施例中,通过将所述目标样本文本分段成样本文本段集,对所述样本文本段集对应的文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,可以根据所述目标样本文本的每一段的语义生成整个目标样本文本的文本语义,从而保留更多的文本语义特征,提高文本语义信息的准确性。
S3、逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义。
本发明实施例中,通过提取出所述目标样本图片对应的标准样本图片特征,可以方便根据图片特征识别图片语义,从而提高所述目标样本的语义的准确性。
本发明实施例中,参照图3所示,所述提取出所述目标样本图片对应的标准样本图片特征,包括:
S31、对所述目标样本图片进行灰度化操作,得到灰度样本图片;
S32、利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集;
S33、逐个选取所述兴趣样本图集中的兴趣样本图片作为目标兴趣样本图片,从所述所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片,对所述目标色彩图片进行色彩分析,得到样本色彩特征;
S34、分别从所述目标兴趣样本图片中提取出样本纹理特征、样本情感特征以及样本主体特征;
S35、利用全连接层将所述样本色彩特征、所述样本纹理特征、所述样本情感特征以及所述样本主体特征融合成样本描述特征;
S36、将所述样本描述特征和所述样本主体特征拼接成样本描述主体特征,并将所有的样本描述主体特征汇集成标准样本图片特征。
具体地,可以利用OpenCV的cv2.cvtColor函数对所述目标样本图片进行灰度化操作,得到灰度样本图片,所述从所述所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片是指生成所述目标兴趣样本图片对应的掩膜,并利用所述掩膜对所述目标样本图片进行掩膜运算,得到目标色彩图片。
详细地,所述对所述目标样本图片进行色彩分析,得到样本色彩特征是指生成所述目标样本图片的色彩直方图,并将所述色彩直方图作为所述样本色彩特征。
详细地,可以利用侵蚀算法从所述目标兴趣样本图片中提取出样本纹理特征,可以利用训练后的多分类支持向量机模型(support vector machines, 简称SVM)从所述目标兴趣样本图片中提取出样本情感特征,可以利用训练后的VGG-16网络从所述目标兴趣样本图片中提取出样本主体特征。
具体地,所述利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集,包括:
从所述灰度样本图片中提取出初级样本边缘,根据所述初级样本边缘对所述灰度样本图片进行图片分割,得到分割样本图集;
逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片,利用如下的灰度变化率算法计算出所述目标分割样本图片对应的灰度变化率:
其中,是指所述灰度变化率,/>是所述目标分割样本图片中像素点的总个数,/>是所述目标分割样本图片的外接矩阵的像素长度,/>是所述目标分割样本图片的外接矩阵的像素宽度,/>是指所述目标分割样本图片的外接矩阵中的横向第/>个像素,/>是指所述目标分割样本图片的外接矩阵中的纵向第/>个像素,/>是指所述目标分割样本图片预设的灰度采样框的边长,/>是灰度符号,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值;
判断所述灰度变化率是否大于预设的变化率阈值;
若否,则返回所述逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片的步骤;
若是,则将所述目标分割样本图片作为兴趣样本图片添加至预设的兴趣样本图集中。
具体地,可以利用canny算子从所述灰度样本图片中提取出初级样本边缘,通过利用所述灰度变化率算法计算出所述目标分割样本图片对应的灰度变化率,可以明确样本图片中灰度变化的复杂程度,从而区分样本图片的前景与背景,进而确定感兴趣区域,其中,所述变化率阈值是人为按照经验设置的参数。
本发明实施例中,所述从所述标准样本图片特征中提取出初级图片语义,包括:
逐个选取所述标准样本图片特征中的样本描述主体特征作为目标样本描述主体特征,将所述目标样本描述主体特征中的样本描述特征作为目标描述特征,将所述目标样本描述主体特征中的样本主体特征作为目标主体特征;
利用预先训练的分类器模型识别出所述目标描述特征对应的目标描述语义,利用预先训练的卷积神经网络识别出所述目标主体特征对应的目标主体语义;
将所述目标描述语义和所述目标主体语义拼接成目标初级语义,并将所有的目标初级语义汇集成初级图片语义。
具体地,所述分类器模型是指支持向量机(support vector machines, 简称SVM),所述卷积神经网络可以是VGG-16网络。
本发明实施例中,通过逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义,可以详细提取出所述目标样本中的每个图片的情感特征、颜色特征、纹理特征以及主体特征,进而得到描述性更加准确的图片语义。
S4、依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义。
本发明实施例中,所述依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,包括:
对所述目标样本图片进行倾斜矫正,得到矫正样本图片,并依次对所述矫正样本图片进行图片灰度化和高斯滤波操作,得到滤波样本图片;
对所述滤波样本图片进行图片侵蚀,得到图片边缘集,从所述图片边缘集中提取出版面边缘;
根据所述版面边缘生成版面掩膜,利用所述版面掩膜对所述滤波样本图片进行图片分割操作,得到版面文本图片。
详细地,可以利用hough变换对对所述目标样本图片进行倾斜矫正,得到矫正样本图片,可以利用sobel算子对所述滤波样本图片进行图片侵蚀,得到图片边缘集,并利用训练后的分类器模型从所述图片边缘集中提取出版面边缘。
详细地,所述依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,包括:
对所述样本文本图片进行字符切割,得到样本字符图集;
逐一选取所述样本字符图集中的样本字符图片作为目标样本字符图片,提取出所述目标样本字符图片对应的目标字符特征;
对所述目标字符特征进行归一化操作,得到目标字符特征编码;
利用所述目标字符特征编码在预设的字符特征编码库中查询出对应的目标字符,并将所有的目标字符拼接成目标图片文本;
对所述目标图片文本进行语义识别,得到次级图片语义。
详细地,可以利用垂直投影算法对所述样本文本图片进行字符切割,得到样本字符图集,可以利用训练后的多层卷积池化层提取出所述目标样本字符图片对应的目标字符特征。
详细地,所述对所述目标图片文本进行语义识别,得到次级图片语义的方法与上述步骤S2中的所述提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集的方法一致,这里不再赘述。
本发明实施例中,通过依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,可以从样本图片中的字符中提取出图片的语义,从而进一步提高图片语义识别的精确度。
S5、将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
本发明实施例中,所述根据所述标准样本语义对所述目标标准样本数据进行存储是指将所述标准样本语义作为所述目标标准样本数据的样本信息进行数据存储。
详细地,所述根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面是指根据所述存储样本数据库中每个样本数据的标准样本语义中各种类语义的类别与频次,生成带有链接的所述存储样本数据库的样本信息扇形图、直方图等可视化界面。
本发明实施例中,通过根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面,可以提高样本数据样本信息的准确度,精简样本信息的类别,提高存储可视化的直观度和灵活性。
本发明实施例通过对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,可以筛除样本数据集中的重复样本数据和不符合文本规范的样本数据,降低数据冗长,提高存储效率,通过逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集,可以方便对样本数据的分类分析,提高样本信息分析的准确度,通过将所述目标样本文本分段成样本文本段集,对所述样本文本段集对应的文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,可以根据所述目标样本文本的每一段的语义生成整个目标样本文本的文本语义,从而保留更多的文本语义特征,提高文本语义信息的准确性,通过逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义,可以详细提取出所述目标样本中的每个图片的情感特征、颜色特征、纹理特征以及主体特征,进而得到描述性更加准确的图片语义。
通过依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,可以从样本图片中的字符中提取出图片的语义,从而进一步提高图片语义识别的精确度,通过根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面,可以提高样本数据样本信息的准确度,精简样本信息的类别,提高存储可视化的直观度和灵活性。因此本发明提出的基于样本信息的数据存储可视化方法,可以解决进行可视化数据存储时的灵活性较低的问题。
如图4所示,是本发明一实施例提供的基于样本信息的数据存储可视化装置的功能模块图。
本发明所述基于样本信息的数据存储可视化装置100可以安装于电子设备中。根据实现的功能,所述基于样本信息的数据存储可视化装置100可以包括数据拆分模块101、文本语义提取模块102、初级图片语义提取模块103、次级图片语义提取模块104及可视化存储模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据拆分模块101,用于获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
所述文本语义提取模块102,用于将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,其中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
其中,是指所述文本段距离,/>是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>是指第/>个文本词向量,/>是指所述文本段向量中的第/>个文本词向量,/>是指所述初级文本段中心向量中的第/>个文本词向量,/>是预设的基准系数,/>是预设的平衡系数;根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集;
所述初级图片语义提取模块103,用于逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
所述次级图片语义提取模块104,用于依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
所述可视化存储模块105,用于将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
详细地,本发明实施例中所述基于样本信息的数据存储可视化装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于样本信息的数据存储可视化方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统实施例中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于样本信息的数据存储可视化方法,其特征在于,所述方法包括:
获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义;
逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
2.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,包括:
逐个选取所述样本数据集中的样本数据作为目标样本数据,判断所述目标样本数据的数据容量大小是否大于预设的容量阈值;
若否,则返回所述逐个选取所述样本数据集中的样本数据作为目标样本数据的步骤;
若是,则将所述样本数据添加到预设的初级样本数据集中,直至所述目标样本数据为所述样本数据集中的最后一个样本数据时,得到次级样本数据集;
从所述次级样本数据集中筛除重复的样本数据,得到标准样本数据集。
3.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:
将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;
利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
其中,是指所述文本段距离,/>是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>是指第/>个文本词向量,/>是指所述文本段向量中的第/>个文本词向量,/>是指所述初级文本段中心向量中的第/>个文本词向量,/>是预设的基准系数,/>是预设的平衡系数;
根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;
逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;
根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集。
4.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,包括:
逐个选取所述文本段类集中的文本段类作为目标文本段类,将所述目标文本段类的聚类中心作为目标类向量;
对所述目标类向量进行格式转码,得到目标类语义;
利用预设的语义关键词库对所述目标类语义进行关键词替换,得到文本语义,并将所有的文本语义汇集成文本语义集。
5.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述提取出所述目标样本图片对应的标准样本图片特征,包括:
对所述目标样本图片进行灰度化操作,得到灰度样本图片;
利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集;
逐个选取所述兴趣样本图集中的兴趣样本图片作为目标兴趣样本图片,从所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片,对所述目标色彩图片进行色彩分析,得到样本色彩特征;
分别从所述目标兴趣样本图片中提取出样本纹理特征、样本情感特征以及样本主体特征;
利用全连接层将所述样本色彩特征、所述样本纹理特征、所述样本情感特征以及所述样本主体特征融合成样本描述特征;
将所述样本描述特征和所述样本主体特征拼接成样本描述主体特征,并将所有的样本描述主体特征汇集成标准样本图片特征。
6.如权利要求5所述的基于样本信息的数据存储可视化方法,其特征在于,所述利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集,包括:
从所述灰度样本图片中提取出初级样本边缘,根据所述初级样本边缘对所述灰度样本图片进行图片分割,得到分割样本图集;
逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片,利用如下的灰度变化率算法计算出所述目标分割样本图片对应的灰度变化率:
其中,是指所述灰度变化率,/>是所述目标分割样本图片中像素点的总个数,/>是所述目标分割样本图片的外接矩阵的像素长度,/>是所述目标分割样本图片的外接矩阵的像素宽度,/>是指所述目标分割样本图片的外接矩阵中的横向第/>个像素,/>是指所述目标分割样本图片的外接矩阵中的纵向第/>个像素,/>是指所述目标分割样本图片预设的灰度采样框的边长,/>是灰度符号,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值,/>是指所述目标分割样本图片的外接矩阵中坐标点为/>的像素的灰度值;
判断所述灰度变化率是否大于预设的变化率阈值;
若否,则返回所述逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片的步骤;
若是,则将所述目标分割样本图片作为兴趣样本图片添加至预设的兴趣样本图集中。
7.如权利要求5所述的基于样本信息的数据存储可视化方法,其特征在于,所述从所述标准样本图片特征中提取出初级图片语义,包括:
逐个选取所述标准样本图片特征中的样本描述主体特征作为目标样本描述主体特征,将所述目标样本描述主体特征中的样本描述特征作为目标描述特征,将所述目标样本描述主体特征中的样本主体特征作为目标主体特征;
利用预先训练的分类器模型识别出所述目标描述特征对应的目标描述语义,利用预先训练的卷积神经网络识别出所述目标主体特征对应的目标主体语义;
将所述目标描述语义和所述目标主体语义拼接成目标初级语义,并将所有的目标初级语义汇集成初级图片语义。
8.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,包括:
对所述目标样本图片进行倾斜矫正,得到矫正样本图片,并依次对所述矫正样本图片进行图片灰度化和高斯滤波操作,得到滤波样本图片;
对所述滤波样本图片进行图片侵蚀,得到图片边缘集,从所述图片边缘集中提取出版面边缘;
根据所述版面边缘生成版面掩膜,利用所述版面掩膜对所述滤波样本图片进行图片分割操作,得到版面文本图片。
9.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,包括:
对所述样本文本图片进行字符切割,得到样本字符图集;
逐一选取所述样本字符图集中的样本字符图片作为目标样本字符图片,提取出所述目标样本字符图片对应的目标字符特征;
对所述目标字符特征进行归一化操作,得到目标字符特征编码;
利用所述目标字符特征编码在预设的字符特征编码库中查询出对应的目标字符,并将所有的目标字符拼接成目标图片文本;
对所述目标图片文本进行语义识别,得到次级图片语义。
10.一种基于样本信息的数据存储可视化装置,其特征在于,所述装置包括:
数据拆分模块,用于获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
文本语义提取模块,用于将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义;
初级图片语义提取模块,用于逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
次级图片语义提取模块,用于依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
可视化存储模块,用于将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310452412.8A CN116189193B (zh) | 2023-04-25 | 2023-04-25 | 一种基于样本信息的数据存储可视化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310452412.8A CN116189193B (zh) | 2023-04-25 | 2023-04-25 | 一种基于样本信息的数据存储可视化方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116189193A true CN116189193A (zh) | 2023-05-30 |
CN116189193B CN116189193B (zh) | 2023-11-10 |
Family
ID=86434792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310452412.8A Active CN116189193B (zh) | 2023-04-25 | 2023-04-25 | 一种基于样本信息的数据存储可视化方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116189193B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090110288A1 (en) * | 2007-10-29 | 2009-04-30 | Kabushiki Kaisha Toshiba | Document processing apparatus and document processing method |
CN105005578A (zh) * | 2015-05-21 | 2015-10-28 | 中国电子科技集团公司第十研究所 | 多媒体目标信息可视化分析系统 |
WO2016072772A1 (ko) * | 2014-11-06 | 2016-05-12 | 아주대학교산학협력단 | 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템 |
WO2020003174A2 (en) * | 2018-06-29 | 2020-01-02 | 3M Innovative Properties Company | Semantic graph textual coding |
CN111026804A (zh) * | 2019-12-04 | 2020-04-17 | 深圳瑞力网科技有限公司 | 一种基于语义的大数据分析智能服务系统 |
CN112597312A (zh) * | 2020-12-28 | 2021-04-02 | 深圳壹账通智能科技有限公司 | 文本分类方法、装置、电子设备及可读存储介质 |
CN112667800A (zh) * | 2020-12-21 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 关键词生成方法、装置、电子设备及计算机存储介质 |
CN112749813A (zh) * | 2020-10-29 | 2021-05-04 | 广东电网有限责任公司 | 一种数据处理系统、方法、电子设备及存储介质 |
US20210192141A1 (en) * | 2019-12-20 | 2021-06-24 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating vector representation of text, and related computer device |
WO2021208696A1 (zh) * | 2020-11-19 | 2021-10-21 | 平安科技(深圳)有限公司 | 用户意图分析方法、装置、电子设备及计算机存储介质 |
CN113705560A (zh) * | 2021-09-01 | 2021-11-26 | 平安医疗健康管理股份有限公司 | 基于图像识别的数据提取方法、装置、设备及存储介质 |
CN114328807A (zh) * | 2021-08-24 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备及存储介质 |
CN115438166A (zh) * | 2022-09-29 | 2022-12-06 | 招商局金融科技有限公司 | 基于关键词和语义的搜索方法、装置、设备及存储介质 |
WO2023024614A1 (zh) * | 2021-08-27 | 2023-03-02 | 北京百度网讯科技有限公司 | 文档分类的方法、装置、电子设备和存储介质 |
WO2023045605A1 (zh) * | 2021-09-22 | 2023-03-30 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
-
2023
- 2023-04-25 CN CN202310452412.8A patent/CN116189193B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090110288A1 (en) * | 2007-10-29 | 2009-04-30 | Kabushiki Kaisha Toshiba | Document processing apparatus and document processing method |
WO2016072772A1 (ko) * | 2014-11-06 | 2016-05-12 | 아주대학교산학협력단 | 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템 |
CN105005578A (zh) * | 2015-05-21 | 2015-10-28 | 中国电子科技集团公司第十研究所 | 多媒体目标信息可视化分析系统 |
WO2020003174A2 (en) * | 2018-06-29 | 2020-01-02 | 3M Innovative Properties Company | Semantic graph textual coding |
CN111026804A (zh) * | 2019-12-04 | 2020-04-17 | 深圳瑞力网科技有限公司 | 一种基于语义的大数据分析智能服务系统 |
US20210192141A1 (en) * | 2019-12-20 | 2021-06-24 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating vector representation of text, and related computer device |
CN112749813A (zh) * | 2020-10-29 | 2021-05-04 | 广东电网有限责任公司 | 一种数据处理系统、方法、电子设备及存储介质 |
WO2021208696A1 (zh) * | 2020-11-19 | 2021-10-21 | 平安科技(深圳)有限公司 | 用户意图分析方法、装置、电子设备及计算机存储介质 |
CN112667800A (zh) * | 2020-12-21 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 关键词生成方法、装置、电子设备及计算机存储介质 |
CN112597312A (zh) * | 2020-12-28 | 2021-04-02 | 深圳壹账通智能科技有限公司 | 文本分类方法、装置、电子设备及可读存储介质 |
CN114328807A (zh) * | 2021-08-24 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备及存储介质 |
WO2023024614A1 (zh) * | 2021-08-27 | 2023-03-02 | 北京百度网讯科技有限公司 | 文档分类的方法、装置、电子设备和存储介质 |
CN113705560A (zh) * | 2021-09-01 | 2021-11-26 | 平安医疗健康管理股份有限公司 | 基于图像识别的数据提取方法、装置、设备及存储介质 |
WO2023045605A1 (zh) * | 2021-09-22 | 2023-03-30 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN115438166A (zh) * | 2022-09-29 | 2022-12-06 | 招商局金融科技有限公司 | 基于关键词和语义的搜索方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
SHUAI MA;YANWEI PANG;JING PAN;LING SHAO;: "Preserving details in semantics-aware context for scene parsing", SCIENCE CHINA(INFORMATION SCIENCES), no. 02 * |
李雄;丁治明;苏醒;郭黎敏;: "基于词项聚类的文本语义标签抽取研究", 计算机科学, no. 2 * |
高科;: "图像内容理解与检索技术", 数字图书馆论坛, no. 08 * |
Also Published As
Publication number | Publication date |
---|---|
CN116189193B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
CN111476284A (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN109325148A (zh) | 生成信息的方法和装置 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN111651636A (zh) | 视频相似片段搜索方法及装置 | |
CN111950610B (zh) | 基于精确尺度匹配的弱小人体目标检测方法 | |
CN110502664A (zh) | 视频标签索引库创建方法、视频标签生成方法及装置 | |
CN108229481B (zh) | 屏幕内容分析方法、装置、计算设备及存储介质 | |
CN108734159B (zh) | 一种图像中敏感信息的检测方法及系统 | |
CN112258254B (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
CN106557777A (zh) | 一种基于SimHash改进的Kmeans聚类方法 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
CN111324760B (zh) | 一种图像检索方法及装置 | |
CN112052687A (zh) | 基于深度可分离卷积的语义特征处理方法、装置及介质 | |
CN111882034A (zh) | 神经网络处理及人脸识别方法、装置、设备和存储介质 | |
CN113962199B (zh) | 文本识别方法、装置、设备、存储介质及程序产品 | |
CN115203408A (zh) | 一种多模态试验数据智能标注方法 | |
CN113283432A (zh) | 图像识别、文字排序方法及设备 | |
CN112966687B (zh) | 图像分割模型训练方法、装置及通信设备 | |
CN104966109A (zh) | 医疗化验单图像分类方法及装置 | |
CN116704490B (zh) | 车牌识别方法、装置和计算机设备 | |
CN113704474A (zh) | 银行网点设备操作指引生成方法、装置、设备及存储介质 | |
CN116189193B (zh) | 一种基于样本信息的数据存储可视化方法和装置 | |
CN111488400A (zh) | 数据分类方法、装置和计算机可读存储介质 | |
CN115984588A (zh) | 图像背景相似度分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |