CN116189193A - 一种基于样本信息的数据存储可视化方法和装置 - Google Patents

一种基于样本信息的数据存储可视化方法和装置 Download PDF

Info

Publication number
CN116189193A
CN116189193A CN202310452412.8A CN202310452412A CN116189193A CN 116189193 A CN116189193 A CN 116189193A CN 202310452412 A CN202310452412 A CN 202310452412A CN 116189193 A CN116189193 A CN 116189193A
Authority
CN
China
Prior art keywords
sample
picture
target
text
semantics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310452412.8A
Other languages
English (en)
Other versions
CN116189193B (zh
Inventor
李康
接佳乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Radium Lake Technology Co ltd
Original Assignee
Hangzhou Radium Lake Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Radium Lake Technology Co ltd filed Critical Hangzhou Radium Lake Technology Co ltd
Priority to CN202310452412.8A priority Critical patent/CN116189193B/zh
Publication of CN116189193A publication Critical patent/CN116189193A/zh
Application granted granted Critical
Publication of CN116189193B publication Critical patent/CN116189193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据存储技术领域,揭露了一种基于样本信息的数据存储可视化方法,包括:逐个选取数据清洗后的样本数据集中的标准样本数据作为目标标准样本数据,将目标标准样本数据拆分成目标样本文本以及目标样本图集;将目标样本文本分段成样本文本段集,提取出样本文本段集的标准文本语义;提取出目标样本图集中各个目标样本图片的初级图片语义和次级图片语义,并将初级图片语义和次级图片语义汇集成标准图片语义;将标准文本语义和标准图片语义汇集成标准样本语义,根据标准样本语义对目标标准样本数据进行存储,并生成可视化存储界面。本发明还提出一种基于样本信息的数据存储可视化装置。本发明可以提高可视化数据存储时的灵活性。

Description

一种基于样本信息的数据存储可视化方法和装置
技术领域
本发明涉及数据存储技术领域,尤其涉及一种基于样本信息的数据存储可视化方法和装置。
背景技术
数据存储是指以某种格式将数据记录在计算机内部或外部存储介质上,但是,为了便于数据与用户的交互,需要对存储的数据进行分类展示,进行存储数据的可视化展示。
现有的数据存储可视化技术多为基于数据格式的可视化展示,即根据每份数据的数据格式生成存储数据的类别占比扇形图或柱状图,例如,将数据分类成音频、视频、图片以及文本等进行存储,实际应用中,对于网页数据或图文数据的存储,简单的数据格式存储的直观度较低,数据格式的可视化存储无法区别网页数据的内容信息区别,可能导致进行可视化数据存储时的灵活性较低。
发明内容
本发明提供一种基于样本信息的数据存储可视化方法和装置,其主要目的在于解决进行可视化数据存储时的灵活性较低的问题。
为实现上述目的,本发明提供的一种基于样本信息的数据存储可视化方法,包括:
获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,其中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
Figure SMS_1
其中,
Figure SMS_3
是指所述文本段距离,/>
Figure SMS_5
是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>
Figure SMS_6
是指第/>
Figure SMS_8
个文本词向量,/>
Figure SMS_9
是指所述文本段向量中的第/>
Figure SMS_10
个文本词向量,/>
Figure SMS_11
是指所述初级文本段中心向量中的第/>
Figure SMS_2
个文本词向量,/>
Figure SMS_4
是预设的基准系数,/>
Figure SMS_7
是预设的平衡系数;根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集;
逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
可选地,所述对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,包括:
逐个选取所述样本数据集中的样本数据作为目标样本数据,判断所述目标样本数据的数据容量大小是否大于预设的容量阈值;
若否,则返回所述逐个选取所述样本数据集中的样本数据作为目标样本数据的步骤;
若是,则将所述样本数据添加到预设的初级样本数据集中,直至所述目标样本数据为所述样本数据集中的最后一个样本数据时,得到次级样本数据集;
从所述次级样本数据集中筛除重复的样本数据,得到标准样本数据集。
可选地,所述对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,包括:
逐个选取所述样本文本段集中的样本文本段作为目标样本文本段,对所述目标样本文本段进行文本分词操作,得到目标文本词集;
从所述目标文本词集中筛除停用词,得到标准文本词集;
对所述标准文本词集进行向量化操作,得到目标文本词向量集;
对所述目标文本词向量集中的各文本词向量按照频次大小顺序排列,得到标准文本词向量序列;
按照从左到右的顺序从所述标准文本词向量序列中筛选出预设个数的文本词向量拼接成文本段向量,并将所有的文本段向量汇集成文本段向量集。
可选地,所述提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,包括:
逐个选取所述文本段类集中的文本段类作为目标文本段类,将所述目标文本段类的聚类中心作为目标类向量;
对所述目标类向量进行格式转码,得到目标类语义;
利用预设的语义关键词库对所述目标类语义进行关键词替换,得到文本语义,并将所有的文本语义汇集成文本语义集。
可选地,所述提取出所述目标样本图片对应的标准样本图片特征,包括:
对所述目标样本图片进行灰度化操作,得到灰度样本图片;
利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集;
逐个选取所述兴趣样本图集中的兴趣样本图片作为目标兴趣样本图片,从所述所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片,对所述目标色彩图片进行色彩分析,得到样本色彩特征;
分别从所述目标兴趣样本图片中提取出样本纹理特征、样本情感特征以及样本主体特征;
利用全连接层将所述样本色彩特征、所述样本纹理特征、所述样本情感特征以及所述样本主体特征融合成样本描述特征;
将所述样本描述特征和所述样本主体特征拼接成样本描述主体特征,并将所有的样本描述主体特征汇集成标准样本图片特征。
可选地,所述利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集,包括:
从所述灰度样本图片中提取出初级样本边缘,根据所述初级样本边缘对所述灰度样本图片进行图片分割,得到分割样本图集;
逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片,利用如下的灰度变化率算法计算出所述目标分割样本图片对应的灰度变化率:
Figure SMS_12
其中,
Figure SMS_23
是指所述灰度变化率,/>
Figure SMS_25
是所述目标分割样本图片中像素点的总个数,/>
Figure SMS_27
是所述目标分割样本图片的外接矩阵的像素长度,/>
Figure SMS_28
是所述目标分割样本图片的外接矩阵的像素宽度,/>
Figure SMS_30
是指所述目标分割样本图片的外接矩阵中的横向第/>
Figure SMS_31
个像素,/>
Figure SMS_32
是指所述目标分割样本图片的外接矩阵中的纵向第/>
Figure SMS_13
个像素,/>
Figure SMS_15
是指所述目标分割样本图片预设的灰度采样框的边长,/>
Figure SMS_17
是灰度符号,/>
Figure SMS_19
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_22
的像素的灰度值,/>
Figure SMS_24
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_26
的像素的灰度值,/>
Figure SMS_29
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_14
的像素的灰度值,/>
Figure SMS_16
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_18
的像素的灰度值,/>
Figure SMS_20
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_21
的像素的灰度值;
判断所述灰度变化率是否大于预设的变化率阈值;
若否,则返回所述逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片的步骤;
若是,则将所述目标分割样本图片作为兴趣样本图片添加至预设的兴趣样本图集中。
可选地,所述从所述标准样本图片特征中提取出初级图片语义,包括:
逐个选取所述标准样本图片特征中的样本描述主体特征作为目标样本描述主体特征,将所述目标样本描述主体特征中的样本描述特征作为目标描述特征,将所述目标样本描述主体特征中的样本主体特征作为目标主体特征;
利用预先训练的分类器模型识别出所述目标描述特征对应的目标描述语义,利用预先训练的卷积神经网络识别出所述目标主体特征对应的目标主体语义;
将所述目标描述语义和所述目标主体语义拼接成目标初级语义,并将所有的目标初级语义汇集成初级图片语义。
可选地,所述依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,包括:
对所述目标样本图片进行倾斜矫正,得到矫正样本图片,并依次对所述矫正样本图片进行图片灰度化和高斯滤波操作,得到滤波样本图片;
对所述滤波样本图片进行图片侵蚀,得到图片边缘集,从所述图片边缘集中提取出版面边缘;
根据所述版面边缘生成版面掩膜,利用所述版面掩膜对所述滤波样本图片进行图片分割操作,得到版面文本图片。
可选地,所述依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,包括:
对所述样本文本图片进行字符切割,得到样本字符图集;
逐一选取所述样本字符图集中的样本字符图片作为目标样本字符图片,提取出所述目标样本字符图片对应的目标字符特征;
对所述目标字符特征进行归一化操作,得到目标字符特征编码;
利用所述目标字符特征编码在预设的字符特征编码库中查询出对应的目标字符,并将所有的目标字符拼接成目标图片文本;
对所述目标图片文本进行语义识别,得到次级图片语义。
为了解决上述问题,本发明还提供一种基于样本信息的数据存储可视化装置,所述装置包括:
数据拆分模块,用于获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
文本语义提取模块,用于将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,其中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
Figure SMS_33
;/>
其中,
Figure SMS_35
是指所述文本段距离,/>
Figure SMS_36
是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>
Figure SMS_38
是指第/>
Figure SMS_40
个文本词向量,/>
Figure SMS_41
是指所述文本段向量中的第/>
Figure SMS_42
个文本词向量,/>
Figure SMS_43
是指所述初级文本段中心向量中的第/>
Figure SMS_34
个文本词向量,/>
Figure SMS_37
是预设的基准系数,/>
Figure SMS_39
是预设的平衡系数;根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集;
初级图片语义提取模块,用于逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
次级图片语义提取模块,用于依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
可视化存储模块,用于将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
本发明实施例通过对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,可以筛除样本数据集中的重复样本数据和不符合文本规范的样本数据,降低数据冗长,提高存储效率,通过逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集,可以方便对样本数据的分类分析,提高样本信息分析的准确度,通过将所述目标样本文本分段成样本文本段集,对所述样本文本段集对应的文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,可以根据所述目标样本文本的每一段的语义生成整个目标样本文本的文本语义,从而保留更多的文本语义特征,提高文本语义信息的准确性,通过逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义,可以详细提取出所述目标样本中的每个图片的情感特征、颜色特征、纹理特征以及主体特征,进而得到描述性更加准确的图片语义。
通过依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,可以从样本图片中的字符中提取出图片的语义,从而进一步提高图片语义识别的精确度,通过根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面,可以提高样本数据样本信息的准确度,精简样本信息的类别,提高存储可视化的直观度和灵活性。因此本发明提出的基于样本信息的数据存储可视化方法和装置,可以解决进行可视化数据存储时的灵活性较低的问题。
附图说明
图1为本发明一实施例提供的基于样本信息的数据存储可视化方法的流程示意图;
图2为本发明一实施例提供的生成文本段向量集的流程示意图;
图3为本发明一实施例提供的提取标准样本图片特征的流程示意图;
图4为本发明一实施例提供的基于样本信息的数据存储可视化装置的功能模块图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于样本信息的数据存储可视化方法。所述基于样本信息的数据存储可视化方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于样本信息的数据存储可视化方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于样本信息的数据存储可视化方法的流程示意图。在本实施例中,所述基于样本信息的数据存储可视化方法包括:
S1、获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集。
本发明实施例中,所述样本数据集是指需要进行可视化存储的样本数据组成的数据集,且各样本数据是网页图文或期刊、新闻等包含由图片和文本的数据。
本发明实施中,所述对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,包括:
逐个选取所述样本数据集中的样本数据作为目标样本数据,判断所述目标样本数据的数据容量大小是否大于预设的容量阈值;
若否,则返回所述逐个选取所述样本数据集中的样本数据作为目标样本数据的步骤;
若是,则将所述样本数据添加到预设的初级样本数据集中,直至所述目标样本数据为所述样本数据集中的最后一个样本数据时,得到次级样本数据集;
从所述次级样本数据集中筛除重复的样本数据,得到标准样本数据集。
具体地,所述容量阈值可以是20或25字节,通过设置容量阈值,可以确保所述标准样本数据集中的样本数据为具有价值的样本,通过从所述次级样本数据集中筛除重复的样本数据,得到标准样本数据集,可以减少标准样本数据集的数据冗余,并提高后续的存储效率。
详细地,所述将所述目标标准样本数据拆分成目标样本文本以及目标样本图集,包括:利用遍历的方式逐个选取所述目标样本数据中的图片作为样本图片,并将所有的样本图片汇集成目标样本图集;利用遍历的方式逐个选取所述目标样本数据中的文本字符作为目标文本字符,并将所有的目标文本字符拼接成目标样本文本。
详细地,可以利用python的zipfile对所述目标样本数据进行解压,随后利用fitz库或pymupdf模块对遍历选取所述目标样本数据中的图片和文本字符。
本发明实施例中,通过对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,可以筛除样本数据集中的重复样本数据和不符合文本规范的样本数据,降低数据冗长,提高存储效率,通过逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集,可以方便对样本数据的分类分析,提高样本信息分析的准确度。
S2、将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义。
本发明实施例中,所述样本文本段集中包含多个样本文本段,且每个样本文本段为所述目标样本文本中的一个段落,可以通过检索所述目标样本文本中的分段符,并根据所述分段符将所述目标样本文本分段成样本文本段集。
本发明实施例中,参照图2所示,所述对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,包括:
S21、逐个选取所述样本文本段集中的样本文本段作为目标样本文本段,对所述目标样本文本段进行文本分词操作,得到目标文本词集;
S22、从所述目标文本词集中筛除停用词,得到标准文本词集;
S23、对所述标准文本词集进行向量化操作,得到目标文本词向量集;
S24、对所述目标文本词向量集中的各文本词向量按照频次大小顺序排列,得到标准文本词向量序列;
S25、按照从左到右的顺序从所述标准文本词向量序列中筛选出预设个数的文本词向量拼接成文本段向量,并将所有的文本段向量汇集成文本段向量集。
具体地,所述停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词。
详细地,可以利用双向最大匹配算法或jieba分词工具对所述目标样本文本段进行文本分词操作,得到目标文本词集;可以利用独热编码或Word2vec模型对所述标准文本词集进行向量化操作,得到目标文本词向量集。
本发明实施例中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:
将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;
利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
Figure SMS_44
其中,
Figure SMS_46
是指所述文本段距离,/>
Figure SMS_48
是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>
Figure SMS_49
是指第/>
Figure SMS_51
个文本词向量,/>
Figure SMS_52
是指所述文本段向量中的第/>
Figure SMS_53
个文本词向量,/>
Figure SMS_54
是指所述初级文本段中心向量中的第/>
Figure SMS_45
个文本词向量,/>
Figure SMS_47
是预设的基准系数,/>
Figure SMS_50
是预设的平衡系数;
根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;
逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;
根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集。
本发明实施例中,通过利用所述文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离,可以根据所述文本段向量中每个文本词向量之间的特征距离确定出整体的距离,从而提高文本段距离计算的准确性。
具体地,所述根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组是指将所述文本段向量集中的各文本段向量分配到文本段距离最小的初级文本段中心向量所对应的文本段向量组中,得到次级文本段向量组。
详细地,所述次级文本段中心向量是指距离所述次级文本段向量组中各文本段向量的文本段距离一致的文本段向量,所述文本段中心距离是指初级文本段中心向量与对应的次级文本段中心向量之间的文本段距离。
具体地,所述根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类是指在所述标准文本段中心距离大于或等于预设的距离阈值时,将各次级文本段中心向量替换对应的初级文本段中心向量,并返回所述利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离的步骤,直至所述标准文本段中心距离小于所述距离阈值时,将此时的各次级文本段向量组作为文本段类,将各次级文本段向量组对应的次级文本段中心向量作为各文本段类的聚类中心。
本发明实施例中,所述提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,包括:
逐个选取所述文本段类集中的文本段类作为目标文本段类,将所述目标文本段类的聚类中心作为目标类向量;
对所述目标类向量进行格式转码,得到目标类语义;
利用预设的语义关键词库对所述目标类语义进行关键词替换,得到文本语义,并将所有的文本语义汇集成文本语义集。
具体地,所述利用预设的语义关键词库对所述目标类语义进行关键词替换,得到文本语义是指计算出所述目标类语义与所述语义关键词库中各关键词语义的相似度,选取相似度最大的关键词语义作为文本语义。
详细地,所述根据所述文本语义集生成标准文本语义是指将所述文本语义集中的各个文本语义汇集成标准文本语义。
本发明实施例中,通过将所述目标样本文本分段成样本文本段集,对所述样本文本段集对应的文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,可以根据所述目标样本文本的每一段的语义生成整个目标样本文本的文本语义,从而保留更多的文本语义特征,提高文本语义信息的准确性。
S3、逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义。
本发明实施例中,通过提取出所述目标样本图片对应的标准样本图片特征,可以方便根据图片特征识别图片语义,从而提高所述目标样本的语义的准确性。
本发明实施例中,参照图3所示,所述提取出所述目标样本图片对应的标准样本图片特征,包括:
S31、对所述目标样本图片进行灰度化操作,得到灰度样本图片;
S32、利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集;
S33、逐个选取所述兴趣样本图集中的兴趣样本图片作为目标兴趣样本图片,从所述所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片,对所述目标色彩图片进行色彩分析,得到样本色彩特征;
S34、分别从所述目标兴趣样本图片中提取出样本纹理特征、样本情感特征以及样本主体特征;
S35、利用全连接层将所述样本色彩特征、所述样本纹理特征、所述样本情感特征以及所述样本主体特征融合成样本描述特征;
S36、将所述样本描述特征和所述样本主体特征拼接成样本描述主体特征,并将所有的样本描述主体特征汇集成标准样本图片特征。
具体地,可以利用OpenCV的cv2.cvtColor函数对所述目标样本图片进行灰度化操作,得到灰度样本图片,所述从所述所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片是指生成所述目标兴趣样本图片对应的掩膜,并利用所述掩膜对所述目标样本图片进行掩膜运算,得到目标色彩图片。
详细地,所述对所述目标样本图片进行色彩分析,得到样本色彩特征是指生成所述目标样本图片的色彩直方图,并将所述色彩直方图作为所述样本色彩特征。
详细地,可以利用侵蚀算法从所述目标兴趣样本图片中提取出样本纹理特征,可以利用训练后的多分类支持向量机模型(support vector machines, 简称SVM)从所述目标兴趣样本图片中提取出样本情感特征,可以利用训练后的VGG-16网络从所述目标兴趣样本图片中提取出样本主体特征。
具体地,所述利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集,包括:
从所述灰度样本图片中提取出初级样本边缘,根据所述初级样本边缘对所述灰度样本图片进行图片分割,得到分割样本图集;
逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片,利用如下的灰度变化率算法计算出所述目标分割样本图片对应的灰度变化率:
Figure SMS_55
其中,
Figure SMS_67
是指所述灰度变化率,/>
Figure SMS_68
是所述目标分割样本图片中像素点的总个数,/>
Figure SMS_71
是所述目标分割样本图片的外接矩阵的像素长度,/>
Figure SMS_72
是所述目标分割样本图片的外接矩阵的像素宽度,/>
Figure SMS_73
是指所述目标分割样本图片的外接矩阵中的横向第/>
Figure SMS_74
个像素,/>
Figure SMS_75
是指所述目标分割样本图片的外接矩阵中的纵向第/>
Figure SMS_56
个像素,/>
Figure SMS_59
是指所述目标分割样本图片预设的灰度采样框的边长,/>
Figure SMS_60
是灰度符号,/>
Figure SMS_62
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_65
的像素的灰度值,/>
Figure SMS_66
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_69
的像素的灰度值,/>
Figure SMS_70
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_57
的像素的灰度值,/>
Figure SMS_58
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_61
的像素的灰度值,/>
Figure SMS_63
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure SMS_64
的像素的灰度值;
判断所述灰度变化率是否大于预设的变化率阈值;
若否,则返回所述逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片的步骤;
若是,则将所述目标分割样本图片作为兴趣样本图片添加至预设的兴趣样本图集中。
具体地,可以利用canny算子从所述灰度样本图片中提取出初级样本边缘,通过利用所述灰度变化率算法计算出所述目标分割样本图片对应的灰度变化率,可以明确样本图片中灰度变化的复杂程度,从而区分样本图片的前景与背景,进而确定感兴趣区域,其中,所述变化率阈值是人为按照经验设置的参数。
本发明实施例中,所述从所述标准样本图片特征中提取出初级图片语义,包括:
逐个选取所述标准样本图片特征中的样本描述主体特征作为目标样本描述主体特征,将所述目标样本描述主体特征中的样本描述特征作为目标描述特征,将所述目标样本描述主体特征中的样本主体特征作为目标主体特征;
利用预先训练的分类器模型识别出所述目标描述特征对应的目标描述语义,利用预先训练的卷积神经网络识别出所述目标主体特征对应的目标主体语义;
将所述目标描述语义和所述目标主体语义拼接成目标初级语义,并将所有的目标初级语义汇集成初级图片语义。
具体地,所述分类器模型是指支持向量机(support vector machines, 简称SVM),所述卷积神经网络可以是VGG-16网络。
本发明实施例中,通过逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义,可以详细提取出所述目标样本中的每个图片的情感特征、颜色特征、纹理特征以及主体特征,进而得到描述性更加准确的图片语义。
S4、依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义。
本发明实施例中,所述依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,包括:
对所述目标样本图片进行倾斜矫正,得到矫正样本图片,并依次对所述矫正样本图片进行图片灰度化和高斯滤波操作,得到滤波样本图片;
对所述滤波样本图片进行图片侵蚀,得到图片边缘集,从所述图片边缘集中提取出版面边缘;
根据所述版面边缘生成版面掩膜,利用所述版面掩膜对所述滤波样本图片进行图片分割操作,得到版面文本图片。
详细地,可以利用hough变换对对所述目标样本图片进行倾斜矫正,得到矫正样本图片,可以利用sobel算子对所述滤波样本图片进行图片侵蚀,得到图片边缘集,并利用训练后的分类器模型从所述图片边缘集中提取出版面边缘。
详细地,所述依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,包括:
对所述样本文本图片进行字符切割,得到样本字符图集;
逐一选取所述样本字符图集中的样本字符图片作为目标样本字符图片,提取出所述目标样本字符图片对应的目标字符特征;
对所述目标字符特征进行归一化操作,得到目标字符特征编码;
利用所述目标字符特征编码在预设的字符特征编码库中查询出对应的目标字符,并将所有的目标字符拼接成目标图片文本;
对所述目标图片文本进行语义识别,得到次级图片语义。
详细地,可以利用垂直投影算法对所述样本文本图片进行字符切割,得到样本字符图集,可以利用训练后的多层卷积池化层提取出所述目标样本字符图片对应的目标字符特征。
详细地,所述对所述目标图片文本进行语义识别,得到次级图片语义的方法与上述步骤S2中的所述提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集的方法一致,这里不再赘述。
本发明实施例中,通过依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,可以从样本图片中的字符中提取出图片的语义,从而进一步提高图片语义识别的精确度。
S5、将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
本发明实施例中,所述根据所述标准样本语义对所述目标标准样本数据进行存储是指将所述标准样本语义作为所述目标标准样本数据的样本信息进行数据存储。
详细地,所述根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面是指根据所述存储样本数据库中每个样本数据的标准样本语义中各种类语义的类别与频次,生成带有链接的所述存储样本数据库的样本信息扇形图、直方图等可视化界面。
本发明实施例中,通过根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面,可以提高样本数据样本信息的准确度,精简样本信息的类别,提高存储可视化的直观度和灵活性。
本发明实施例通过对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,可以筛除样本数据集中的重复样本数据和不符合文本规范的样本数据,降低数据冗长,提高存储效率,通过逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集,可以方便对样本数据的分类分析,提高样本信息分析的准确度,通过将所述目标样本文本分段成样本文本段集,对所述样本文本段集对应的文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,可以根据所述目标样本文本的每一段的语义生成整个目标样本文本的文本语义,从而保留更多的文本语义特征,提高文本语义信息的准确性,通过逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义,可以详细提取出所述目标样本中的每个图片的情感特征、颜色特征、纹理特征以及主体特征,进而得到描述性更加准确的图片语义。
通过依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,可以从样本图片中的字符中提取出图片的语义,从而进一步提高图片语义识别的精确度,通过根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面,可以提高样本数据样本信息的准确度,精简样本信息的类别,提高存储可视化的直观度和灵活性。因此本发明提出的基于样本信息的数据存储可视化方法,可以解决进行可视化数据存储时的灵活性较低的问题。
如图4所示,是本发明一实施例提供的基于样本信息的数据存储可视化装置的功能模块图。
本发明所述基于样本信息的数据存储可视化装置100可以安装于电子设备中。根据实现的功能,所述基于样本信息的数据存储可视化装置100可以包括数据拆分模块101、文本语义提取模块102、初级图片语义提取模块103、次级图片语义提取模块104及可视化存储模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据拆分模块101,用于获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
所述文本语义提取模块102,用于将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,其中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
Figure SMS_76
其中,
Figure SMS_78
是指所述文本段距离,/>
Figure SMS_79
是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>
Figure SMS_81
是指第/>
Figure SMS_83
个文本词向量,/>
Figure SMS_84
是指所述文本段向量中的第/>
Figure SMS_85
个文本词向量,/>
Figure SMS_86
是指所述初级文本段中心向量中的第/>
Figure SMS_77
个文本词向量,/>
Figure SMS_80
是预设的基准系数,/>
Figure SMS_82
是预设的平衡系数;根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集;
所述初级图片语义提取模块103,用于逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
所述次级图片语义提取模块104,用于依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
所述可视化存储模块105,用于将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
详细地,本发明实施例中所述基于样本信息的数据存储可视化装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于样本信息的数据存储可视化方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统实施例中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于样本信息的数据存储可视化方法,其特征在于,所述方法包括:
获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义;
逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
2.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,包括:
逐个选取所述样本数据集中的样本数据作为目标样本数据,判断所述目标样本数据的数据容量大小是否大于预设的容量阈值;
若否,则返回所述逐个选取所述样本数据集中的样本数据作为目标样本数据的步骤;
若是,则将所述样本数据添加到预设的初级样本数据集中,直至所述目标样本数据为所述样本数据集中的最后一个样本数据时,得到次级样本数据集;
从所述次级样本数据集中筛除重复的样本数据,得到标准样本数据集。
3.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:
将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;
利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:
Figure QLYQS_1
其中,
Figure QLYQS_3
是指所述文本段距离,/>
Figure QLYQS_5
是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,/>
Figure QLYQS_6
是指第/>
Figure QLYQS_8
个文本词向量,/>
Figure QLYQS_9
是指所述文本段向量中的第/>
Figure QLYQS_10
个文本词向量,/>
Figure QLYQS_11
是指所述初级文本段中心向量中的第/>
Figure QLYQS_2
个文本词向量,/>
Figure QLYQS_4
是预设的基准系数,/>
Figure QLYQS_7
是预设的平衡系数;
根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;
逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;
根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集。
4.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,包括:
逐个选取所述文本段类集中的文本段类作为目标文本段类,将所述目标文本段类的聚类中心作为目标类向量;
对所述目标类向量进行格式转码,得到目标类语义;
利用预设的语义关键词库对所述目标类语义进行关键词替换,得到文本语义,并将所有的文本语义汇集成文本语义集。
5.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述提取出所述目标样本图片对应的标准样本图片特征,包括:
对所述目标样本图片进行灰度化操作,得到灰度样本图片;
利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集;
逐个选取所述兴趣样本图集中的兴趣样本图片作为目标兴趣样本图片,从所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片,对所述目标色彩图片进行色彩分析,得到样本色彩特征;
分别从所述目标兴趣样本图片中提取出样本纹理特征、样本情感特征以及样本主体特征;
利用全连接层将所述样本色彩特征、所述样本纹理特征、所述样本情感特征以及所述样本主体特征融合成样本描述特征;
将所述样本描述特征和所述样本主体特征拼接成样本描述主体特征,并将所有的样本描述主体特征汇集成标准样本图片特征。
6.如权利要求5所述的基于样本信息的数据存储可视化方法,其特征在于,所述利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集,包括:
从所述灰度样本图片中提取出初级样本边缘,根据所述初级样本边缘对所述灰度样本图片进行图片分割,得到分割样本图集;
逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片,利用如下的灰度变化率算法计算出所述目标分割样本图片对应的灰度变化率:
Figure QLYQS_12
其中,
Figure QLYQS_23
是指所述灰度变化率,/>
Figure QLYQS_25
是所述目标分割样本图片中像素点的总个数,/>
Figure QLYQS_28
是所述目标分割样本图片的外接矩阵的像素长度,/>
Figure QLYQS_29
是所述目标分割样本图片的外接矩阵的像素宽度,/>
Figure QLYQS_30
是指所述目标分割样本图片的外接矩阵中的横向第/>
Figure QLYQS_31
个像素,/>
Figure QLYQS_32
是指所述目标分割样本图片的外接矩阵中的纵向第/>
Figure QLYQS_14
个像素,/>
Figure QLYQS_16
是指所述目标分割样本图片预设的灰度采样框的边长,/>
Figure QLYQS_17
是灰度符号,/>
Figure QLYQS_20
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure QLYQS_22
的像素的灰度值,/>
Figure QLYQS_24
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure QLYQS_26
的像素的灰度值,/>
Figure QLYQS_27
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure QLYQS_13
的像素的灰度值,/>
Figure QLYQS_15
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure QLYQS_18
的像素的灰度值,/>
Figure QLYQS_19
是指所述目标分割样本图片的外接矩阵中坐标点为/>
Figure QLYQS_21
的像素的灰度值;
判断所述灰度变化率是否大于预设的变化率阈值;
若否,则返回所述逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片的步骤;
若是,则将所述目标分割样本图片作为兴趣样本图片添加至预设的兴趣样本图集中。
7.如权利要求5所述的基于样本信息的数据存储可视化方法,其特征在于,所述从所述标准样本图片特征中提取出初级图片语义,包括:
逐个选取所述标准样本图片特征中的样本描述主体特征作为目标样本描述主体特征,将所述目标样本描述主体特征中的样本描述特征作为目标描述特征,将所述目标样本描述主体特征中的样本主体特征作为目标主体特征;
利用预先训练的分类器模型识别出所述目标描述特征对应的目标描述语义,利用预先训练的卷积神经网络识别出所述目标主体特征对应的目标主体语义;
将所述目标描述语义和所述目标主体语义拼接成目标初级语义,并将所有的目标初级语义汇集成初级图片语义。
8.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,包括:
对所述目标样本图片进行倾斜矫正,得到矫正样本图片,并依次对所述矫正样本图片进行图片灰度化和高斯滤波操作,得到滤波样本图片;
对所述滤波样本图片进行图片侵蚀,得到图片边缘集,从所述图片边缘集中提取出版面边缘;
根据所述版面边缘生成版面掩膜,利用所述版面掩膜对所述滤波样本图片进行图片分割操作,得到版面文本图片。
9.如权利要求1所述的基于样本信息的数据存储可视化方法,其特征在于,所述依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,包括:
对所述样本文本图片进行字符切割,得到样本字符图集;
逐一选取所述样本字符图集中的样本字符图片作为目标样本字符图片,提取出所述目标样本字符图片对应的目标字符特征;
对所述目标字符特征进行归一化操作,得到目标字符特征编码;
利用所述目标字符特征编码在预设的字符特征编码库中查询出对应的目标字符,并将所有的目标字符拼接成目标图片文本;
对所述目标图片文本进行语义识别,得到次级图片语义。
10.一种基于样本信息的数据存储可视化装置,其特征在于,所述装置包括:
数据拆分模块,用于获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;
文本语义提取模块,用于将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义;
初级图片语义提取模块,用于逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;
次级图片语义提取模块,用于依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;
可视化存储模块,用于将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。
CN202310452412.8A 2023-04-25 2023-04-25 一种基于样本信息的数据存储可视化方法和装置 Active CN116189193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310452412.8A CN116189193B (zh) 2023-04-25 2023-04-25 一种基于样本信息的数据存储可视化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310452412.8A CN116189193B (zh) 2023-04-25 2023-04-25 一种基于样本信息的数据存储可视化方法和装置

Publications (2)

Publication Number Publication Date
CN116189193A true CN116189193A (zh) 2023-05-30
CN116189193B CN116189193B (zh) 2023-11-10

Family

ID=86434792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310452412.8A Active CN116189193B (zh) 2023-04-25 2023-04-25 一种基于样本信息的数据存储可视化方法和装置

Country Status (1)

Country Link
CN (1) CN116189193B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110288A1 (en) * 2007-10-29 2009-04-30 Kabushiki Kaisha Toshiba Document processing apparatus and document processing method
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
WO2016072772A1 (ko) * 2014-11-06 2016-05-12 아주대학교산학협력단 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
WO2020003174A2 (en) * 2018-06-29 2020-01-02 3M Innovative Properties Company Semantic graph textual coding
CN111026804A (zh) * 2019-12-04 2020-04-17 深圳瑞力网科技有限公司 一种基于语义的大数据分析智能服务系统
CN112597312A (zh) * 2020-12-28 2021-04-02 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质
CN112667800A (zh) * 2020-12-21 2021-04-16 深圳壹账通智能科技有限公司 关键词生成方法、装置、电子设备及计算机存储介质
CN112749813A (zh) * 2020-10-29 2021-05-04 广东电网有限责任公司 一种数据处理系统、方法、电子设备及存储介质
US20210192141A1 (en) * 2019-12-20 2021-06-24 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating vector representation of text, and related computer device
WO2021208696A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 用户意图分析方法、装置、电子设备及计算机存储介质
CN113705560A (zh) * 2021-09-01 2021-11-26 平安医疗健康管理股份有限公司 基于图像识别的数据提取方法、装置、设备及存储介质
CN114328807A (zh) * 2021-08-24 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN115438166A (zh) * 2022-09-29 2022-12-06 招商局金融科技有限公司 基于关键词和语义的搜索方法、装置、设备及存储介质
WO2023024614A1 (zh) * 2021-08-27 2023-03-02 北京百度网讯科技有限公司 文档分类的方法、装置、电子设备和存储介质
WO2023045605A1 (zh) * 2021-09-22 2023-03-30 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110288A1 (en) * 2007-10-29 2009-04-30 Kabushiki Kaisha Toshiba Document processing apparatus and document processing method
WO2016072772A1 (ko) * 2014-11-06 2016-05-12 아주대학교산학협력단 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
WO2020003174A2 (en) * 2018-06-29 2020-01-02 3M Innovative Properties Company Semantic graph textual coding
CN111026804A (zh) * 2019-12-04 2020-04-17 深圳瑞力网科技有限公司 一种基于语义的大数据分析智能服务系统
US20210192141A1 (en) * 2019-12-20 2021-06-24 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating vector representation of text, and related computer device
CN112749813A (zh) * 2020-10-29 2021-05-04 广东电网有限责任公司 一种数据处理系统、方法、电子设备及存储介质
WO2021208696A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 用户意图分析方法、装置、电子设备及计算机存储介质
CN112667800A (zh) * 2020-12-21 2021-04-16 深圳壹账通智能科技有限公司 关键词生成方法、装置、电子设备及计算机存储介质
CN112597312A (zh) * 2020-12-28 2021-04-02 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质
CN114328807A (zh) * 2021-08-24 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
WO2023024614A1 (zh) * 2021-08-27 2023-03-02 北京百度网讯科技有限公司 文档分类的方法、装置、电子设备和存储介质
CN113705560A (zh) * 2021-09-01 2021-11-26 平安医疗健康管理股份有限公司 基于图像识别的数据提取方法、装置、设备及存储介质
WO2023045605A1 (zh) * 2021-09-22 2023-03-30 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN115438166A (zh) * 2022-09-29 2022-12-06 招商局金融科技有限公司 基于关键词和语义的搜索方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHUAI MA;YANWEI PANG;JING PAN;LING SHAO;: "Preserving details in semantics-aware context for scene parsing", SCIENCE CHINA(INFORMATION SCIENCES), no. 02 *
李雄;丁治明;苏醒;郭黎敏;: "基于词项聚类的文本语义标签抽取研究", 计算机科学, no. 2 *
高科;: "图像内容理解与检索技术", 数字图书馆论坛, no. 08 *

Also Published As

Publication number Publication date
CN116189193B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN111476284A (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN109325148A (zh) 生成信息的方法和装置
CN111680678B (zh) 目标区域识别方法、装置、设备及可读存储介质
CN111651636A (zh) 视频相似片段搜索方法及装置
CN111950610B (zh) 基于精确尺度匹配的弱小人体目标检测方法
CN110502664A (zh) 视频标签索引库创建方法、视频标签生成方法及装置
CN108229481B (zh) 屏幕内容分析方法、装置、计算设备及存储介质
CN108734159B (zh) 一种图像中敏感信息的检测方法及系统
CN112258254B (zh) 基于大数据架构的互联网广告风险监测方法及系统
CN106557777A (zh) 一种基于SimHash改进的Kmeans聚类方法
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN111324760B (zh) 一种图像检索方法及装置
CN112052687A (zh) 基于深度可分离卷积的语义特征处理方法、装置及介质
CN111882034A (zh) 神经网络处理及人脸识别方法、装置、设备和存储介质
CN113962199B (zh) 文本识别方法、装置、设备、存储介质及程序产品
CN115203408A (zh) 一种多模态试验数据智能标注方法
CN113283432A (zh) 图像识别、文字排序方法及设备
CN112966687B (zh) 图像分割模型训练方法、装置及通信设备
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN116704490B (zh) 车牌识别方法、装置和计算机设备
CN113704474A (zh) 银行网点设备操作指引生成方法、装置、设备及存储介质
CN116189193B (zh) 一种基于样本信息的数据存储可视化方法和装置
CN111488400A (zh) 数据分类方法、装置和计算机可读存储介质
CN115984588A (zh) 图像背景相似度分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant