CN113496222A - 基于无标签图表数据的模式识别方法、装置和计算机设备 - Google Patents

基于无标签图表数据的模式识别方法、装置和计算机设备 Download PDF

Info

Publication number
CN113496222A
CN113496222A CN202111058834.4A CN202111058834A CN113496222A CN 113496222 A CN113496222 A CN 113496222A CN 202111058834 A CN202111058834 A CN 202111058834A CN 113496222 A CN113496222 A CN 113496222A
Authority
CN
China
Prior art keywords
chart
low
dimensional representation
recognized
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111058834.4A
Other languages
English (en)
Other versions
CN113496222B (zh
Inventor
黄文琦
李鹏
梁凌宇
戴珍
林全郴
吴洋
侯佳萱
陈佳捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202111058834.4A priority Critical patent/CN113496222B/zh
Publication of CN113496222A publication Critical patent/CN113496222A/zh
Application granted granted Critical
Publication of CN113496222B publication Critical patent/CN113496222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于无标签图表数据的模式识别方法、装置、计算机设备和存储介质。通过在接收到模式识别指令时,利用待识别退保和目标变分自编码器获取待识别图表的第一低维表征,再获取用户基于待识别图表输入的待识别模式,基于待识别模式和第一低维表征获取待识别模式对应的第二低维表征,并根据第一低维表征和第二低维表征的相似度,对待识别图表进行模式识别。相较于传统的基于监督学习的方式进行模式识别,本方案利用变分自编码器以及待识别图表和待识别模式分别对应的低维表征,对待识别图表进行模式识别,提高了对图表数据的模式识别效率。

Description

基于无标签图表数据的模式识别方法、装置和计算机设备
技术领域
本申请涉及数据挖掘技术领域,特别是涉及一种基于无标签图表数据的模式识别方法、装置、计算机设备和存储介质。
背景技术
图表是一种计算机生成的视觉形式,通常用形状、位置、颜色、大小和布局等视觉编码的组合来表示数据,例如散点图、折线图和柱状图等。一个设计良好的图表可以通过人类的感知和理解来促进有效的信息交流,并且可以帮助从数据中提取感兴趣的数据模式。模式是指数据中存在的有趣的事实,往往可以从数据的值的差异,变化趋势和相关性等方面表现。例如,在一个销售数据集中,某种商品连续五年蝉联销售量第一名就是一种模式。目前商业智能、在线学习、科学报告、媒体传播等诸多领域对从图表中挖掘和标注模式的需求也急剧增加,所采用的模式识别方式通常是基于监督学习的方式进行。然而,基于监督学习的模式识别对训练样本的要求较高,导致识别速度较慢。
因此,目前从图表数据中识别模式的方式存在识别效率低的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高识别效率的基于无标签图表数据的模式识别方法、装置、计算机设备和存储介质。
一种基于无标签图表数据的模式识别方法,所述方法包括:
接收到模式识别指令,获取待识别图表;
根据所述待识别图表以及目标变分自编码器,获取所述待识别图表对应的第一低维表征;所述目标变分自编码器基于多个样本图表训练得到;
获取用户根据所述待识别图表输入的待识别模式,并基于所述待识别模式以及所述第一低维表征获取所述待识别模式对应的第二低维表征;
根据所述第一低维表征与所述第二低维表征的相似度,对所述待识别图表进行模式识别。
在其中一个实施例中,所述获取待识别图表,包括:
获取包含预设编码类型的待处理图表;
对所述待处理图表进行数据清洗,以将所述待处理图表的预设编码类型变更为目标编码类型,得到对应的待识别像素图,作为所述待识别图表。
在其中一个实施例中,所述方法还包括:
获取包括多个样本图表的样本图表数据集;
从所述样本图表数据集中获取第一样本图表;
将所述第一样本图表输入待训练变分自编码器,获取所述待训练变分自编码器基于所述第一样本图表输出的重构样本图表;
获取所述重构样本图表与所述第一样本图表的差异值,若所述差异值大于预设差异阈值,根据所述差异值调整所述待训练变分自编码器的训练参数,从所述样本图表数据集中获取未输入的样本图表作为新的第一样本图表,返回所述将所述第一样本图表输入待训练变分自编码器的步骤;
若所述差异值小于或等于预设差异阈值,将最后一次输出所述重构样本图表的待训练变分自编码器作为所述目标变分自编码器。
在其中一个实施例中,所述根据所述待识别图表以及目标变分自编码器,获取所述待识别图表对应的第一低维表征,包括:
将所述待识别图表输入目标变分自编码器,获取所述目标变分自编码器的解码器输出的所述待识别图表对应的第一低维表征;所述解码器用于对所述待识别图表进行降维处理。
在其中一个实施例中,所述获取用户根据所述待识别图表输入的待识别模式,包括:
获取多个待识别像素图;
获取所述用户基于所述多个待识别像素图的选择指令,确定被选择的待识别像素图为候选像素图;所述候选像素图表征所述待识别像素图中存在待识别模式;
针对每个所述候选像素图,获取所述用户基于该候选像素图输入的模式信息,作为该候选像素图对应的待识别模式。
在其中一个实施例中,所述基于所述待识别模式以及所述第一低维表征获取所述待识别模式对应的第二低维表征,包括:
根据所述待识别模式,调整所述第一低维表征,以调整所述第一低维表征对应的待识别像素图中包含的模式信息;
若调整后的待识别像素图中的模式信息仅包含所述待识别模式,确定调整后的第一低维表征为所述第二低维表征。
在其中一个实施例中,所述根据所述第一低维表征与所述第二低维表征的相似度,对所述待识别图表进行模式识别,包括:
获取所述第一低维表征与所述第二低维表征的Wasserstein距离,若所述Wasserstein距离小于预设距离阈值,确定所述第一低维表征对应的待识别图表的模式为所述第二低维表征对应的待识别模式。
一种基于无标签图表数据的模式识别装置,所述装置包括:
第一获取模块,用于接收到模式识别指令,获取待识别图表;
第二获取模块,用于根据所述待识别图表以及目标变分自编码器,获取所述待识别图表对应的第一低维表征;所述目标变分自编码器基于多个样本图表训练得到;
第三获取模块,用于获取用户根据所述待识别图表输入的待识别模式,并基于所述待识别模式以及所述第一低维表征获取所述待识别模式对应的第二低维表征;
识别模块,用于根据所述第一低维表征与所述第二低维表征的相似度,对所述待识别图表进行模式识别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述基于无标签图表数据的模式识别方法、装置、计算机设备和存储介质,通过在接收到模式识别指令时,利用待识别退保和目标变分自编码器获取待识别图表的第一低维表征,再获取用户基于待识别图表输入的待识别模式,基于待识别模式和第一低维表征获取待识别模式对应的第二低维表征,并根据第一低维表征和第二低维表征的相似度,对待识别图表进行模式识别。相较于传统的基于监督学习的方式进行模式识别,本方案利用变分自编码器以及待识别图表和待识别模式分别对应的低维表征,对待识别图表进行模式识别,提高了对图表数据的模式识别效率。
附图说明
图1为一个实施例中基于无标签图表数据的模式识别方法的应用环境图;
图2为一个实施例中基于无标签图表数据的模式识别方法的流程示意图;
图3(a)-图3(d)为一个实施例中第二低维表征获取步骤的界面示意图;
图4为另一个实施例中基于无标签图表数据的模式识别方法的流程示意图;
图5为一个实施例中基于无标签图表数据的模式识别装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于无标签图表数据的模式识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104可以采集待识别图表数据,并且可以向终端102发送模式识别指令,终端102可以获取服务器发送的模式识别指令,并从服务器104中获取待识别图表,从而可以基于待识别图表进行模式识别。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于无标签图表数据的模式识别方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S202,接收到模式识别指令,获取待识别图表。
其中,模式识别指令可以是针对待识别图表数据的指令,该指令可以指示终端102对待识别图表中的模式进行识别挖掘和标注,模式是指数据中存在的有趣的事实,往往可以从数据的值的差异,变化趋势和相关性等方面表现。例如,在一个销售数据集中,某种商品连续五年蝉联销售量第一名就是一种模式。模式识别指令可以通过服务器104触发,也可以通过用户手动触发,终端102可以接收到服务器104或用户触发的模式识别指令后,获取需要进行模式识别的待识别图表。终端102获取的待识别图表可以包括多种类型的数据,每种类型的图表数据可以包括多个待识别图表。例如,终端102可以从不同应用领域中采集图像数据集,例如电网仿真图表数据和交通状态图表数据,或是利用数据采集工具来获取网络上公开的图像数据集,例如散点图数据。同时终端102需保证采集的图表数据集应包含属于同种可视化形式的图表数据。
其中,上述待识别图表可以是一种无标签图表数据,上述待识别图表可以是经过数据清洗后得到的数据,例如,在一个实施例中,获取待识别图表,包括:获取包含预设编码类型的待处理图表;对待处理图表进行数据清洗,以将待处理图表的预设编码类型变更为目标编码类型,得到对应的待识别像素图,作为待识别图表。本实施例中,图表可以包含多种编码类型,终端102可以在接收到模式识别指令后,可以获取多个待处理图表,每个待处理图表中可以包括预设编码类型,且这些预设编码类型可以不同,则终端102可以对待处理图表进行数据清洗,从而终端102可以将待处理图表的预设编码类型变更为统一的目标编码类型,得到对应的待识别像素图作为待识别图表。其中,终端102对上述待处理图表进行数据清洗是根据预定义的规则和程序批处理的半自动化方法实现,目的是保证图表数据集中的待处理图表大小相同、维度对应、可视化映射一致。例如,以电网仿真图表数据为例,在电网仿真过程中,会产生大量的故障模拟任务,每个模拟任务计算在故障发生后,电网各个节点的物理量变化,例如电压、频率等;这些大规模的仿真数据往往通过数据可视化,以折线图、像素图等形式进行呈现并用于分析;终端102可以将生成的像素图数据统一收集到数据仓库中,进行后续的清洗;由于电网仿真像素图的编码方式不统一,这一步需要对像素图进行统一的编码处理;其中包括数值范围和颜色映射范围的统一、像素图中节点数量、编号和排序的统一、编码的时间范围的统一;最终形成具有一致可视化编码的像素图数据集,从而终端102可以将其中的待识别像素图作为待识别图表。
步骤S204,根据待识别图表以及目标变分自编码器,获取待识别图表对应的第一低维表征;目标变分自编码器基于多个样本图表训练得到。
其中,待识别图表可以是终端102通过对采集的图表数据进行数据清洗后得到的图表。终端102可以利用待识别图表以及目标变分自编码器,获取待识别图表对应的第一低维表征。例如,终端102可以将待识别图表输入到目标变分自编码器中,并获取目标变分自编码器输出的待识别图表对应的第一低维表征。其中,第一低维表征可以是待识别图表经过变分自编码器降维后得到的一种向量,低维表征也可以被称为因子表征、因子分布等;目标变分自编码器可以是利用多个样本图表对待训练变分自编码器进行训练后得到的一种无监督的深度因子模型。变分自编码器(Variational auto-encoder,VAE)是一类重要的生成模型,用于生成图像,而在本实施例中,终端102可以利用变分自编码器获取待识别图表的降维后得到的低维表征。
步骤S206,获取用户根据待识别图表输入的待识别模式,并基于待识别模式以及第一低维表征获取待识别模式对应的第二低维表征。
其中,待识别模式可以是用户基于待识别图表输入的感兴趣的模式,终端102可以根据待识别模式以及待识别图表的第一低维表征获取待识别模式对应的第二低维表征。例如,终端102可以基于待识别模式,对包含该模式的待识别图表的第一低维表征进行调整,从而使得待识别图表也会发生变化,进而终端102在待识别图表中仅包含待识别模式时得到待识别模式对应的第二低维表征。
步骤S208,根据第一低维表征与第二低维表征的相似度,对待识别图表进行模式识别。
其中,终端102可以获取待识别图表对应的第一低维表征,以及获取待识别模式对应的第二低维表征,并且终端102可以获取第一低维表征和第二低维表征的相似度,从而终端102可以基于该相似度对待识别图表进行模式识别。例如,待识别图表可以包含多个,则第一低维表征也可以有多个,终端102可以获取每个第一低维表征与第二低维表征的相似度,得到多个相似度,从而终端102可以通过比较每个相似度的大小确定第二低维表征对应的待识别模式对应的待识别图表,从而将待识别模式标注至待识别图表中,完成对无标签图表数据的模式识别和标注。
上述基于无标签图表数据的模式识别方法中,通过在接收到模式识别指令时,利用待识别退保和目标变分自编码器获取待识别图表的第一低维表征,再获取用户基于待识别图表输入的待识别模式,基于待识别模式和第一低维表征获取待识别模式对应的第二低维表征,并根据第一低维表征和第二低维表征的相似度,对待识别图表进行模式识别。相较于传统的基于监督学习的方式进行模式识别,本方案利用变分自编码器以及待识别图表和待识别模式分别对应的低维表征,对待识别图表进行模式识别,提高了对图表数据的模式识别效率。
在一个实施例中,还包括:获取包括多个样本图表的样本图表数据集;从样本图表数据集中获取第一样本图表;将第一样本图表输入待训练变分自编码器,获取待训练变分自编码器基于第一样本图表输出的重构样本图表;获取重构样本图表与第一样本图表的差异值,若差异值大于预设差异阈值,根据差异值调整待训练变分自编码器的训练参数,从样本图表数据集中获取未输入的样本图表作为新的第一样本图表,返回将第一样本图表输入待训练变分自编码器的步骤;若差异值小于或等于预设差异阈值,将最后一次输出重构样本图表的待训练变分自编码器作为目标变分自编码器。
本实施例中,终端102可以对待训练变分自编码器进行训练,得到目标变分自编码器。终端102可以通过多个样本图表对待训练变分自编码器进行训练。例如,终端102可以获取包含多个样本图表的样本图表数据集。其中样本图表数据集中的多个样本图表可以是同一个领域的图表。终端102可以从样本图表数据集中获取一个样本图表作为第一样本图表,并将该第一样本图表输入待训练变分自编码器。其中,变分自编码器中包含有编码器和解码器。终端102可以利用待训练变分自编码器中的解码器对第一样本图表进行解码降维,得到第一样本图表的低维表征,终端102还可以利用待训练变分自编码器中的编码器将第一样本图表的低维表征进行重构,得到相应的像素图作为重构样本图表,从而完成对第一样本图表的解码和重构。
终端102还可以获取上述的重构样本图表和第一样本图表的差异值,若终端102检测到该差异值大于预设差异阈值,则终端102可以根据该差异值调整待训练变分自编码器的相关参数,例如解码器的解码参数和编码器的编码参数等,从而终端102可以利用调整参数后的待训练变分自编码器进行下一次的训练,终端102可以从样本图表数据集中获取未输入待训练变分自编码器的样本图表作为新的第一样本图表,并将新的第一样本图表输入上述调整后的待训练变分自编码器中,进行下一次的输出训练,直到终端102检测到最新输出的上述差异值小于或等于预设差异阈值,则终端102确定训练完成,并将最后一次输出重构样本图表的待训练变分自编码器作为目标变分自编码器,即最后一次输出重构样本图表的待训练变分自编码器的训练参数已经达到预设的相似度要求。终端102可以利用训练完成的目标变分自编码器获取待识别图表的第一低维表征,其中第一低维表征可以是目标变分自编码器利用解码器对待识别图表降维后得到的低维表征。
通过本实施例,终端102可以基于多个样本图表数据对待训练变分自编码器进行训练,从而得到用于进行模式识别的目标变分自编码器,提高了对图表数据的模式识别效率。
在一个实施例中,根据待识别图表以及目标变分自编码器,获取待识别图表对应的第一低维表征,包括:将待识别图表输入目标变分自编码器,获取目标变分自编码器的解码器输出的待识别图表对应的第一低维表征;解码器用于对待识别图表进行降维处理。
本实施例中,终端102可以利用目标变分自编码器获取待识别图表的第一低维表征。其中,目标变分自编码器由一个解码器和编码器构成,用于学习图表的因子表征。终端102可以将待识别图表输入目标变分自编码器中,从而终端102可以获取目标变分自编码器的解码器输出的待识别图表对应的第一低维表征。其中,目标变分自编码器中的解码器可以是用于对待识别图表进行降维处理的解码器。目标变分自编码器解码得到的第一低维表征可以是一种向量数据。例如,待识别图表可以是一种待识别像素图,待识别像素图可以包括多个,形成相应的像素图数据集,终端102可以将上述经过数据清洗得到的待识别像素图数据集作为输入导入变分自动编码器;变分自动编码器首先通过解码器计算得到输入数据的低维表征,接着通过编码器将低维表征重构为像素图,通过优化输入图像和重构图像的损失,变分自动编码器最终将学习到最接近数据分布的像素图低维表征,从而得到上述第一低维表征。
通过本实施例,终端102可以利用目标变分自编码器对待识别图表进行降维处理得到第一低维表征,从而终端102可以利用第一低维表征对待识别图表进行模式识别和标注,提高了对图表数据的模式识别效率。
在一个实施例中,获取用户根据待识别图表输入的待识别模式,包括:获取多个待识别像素图;获取用户基于多个待识别像素图的选择指令,确定被选择的待识别像素图为候选像素图;候选像素图表征待识别像素图中存在待识别模式;针对每个候选像素图,获取用户基于该候选像素图输入的模式信息,作为该候选像素图对应的待识别模式。
本实施例中,终端102可以获取用户输入的感兴趣的待识别模式,例如用户可以通过终端102的可视化界面输入。其中,待识别图表可以是像素图数据形式,终端102可以获取多个待识别像素图并展示到可视化界面中,用户可以对待识别像素图进行选择,终端102可以获取用户对一个或多个待识别像素图的选择指令,将被选择的待识别像素图确定为候选像素图,即候选像素图中包含了用户感兴趣的模式。对于每个候选像素图,终端102可以获取用户基于该候选像素图输入的模式信息,作为该候选像素图对应的待识别模式。
另外,终端102在确定候选像素图后,还可以获取候选像素图中包含的待识别模式对应的第二低维表征。例如,在一个实施例中,基于待识别模式以及第一低维表征获取待识别模式对应的第二低维表征,包括:根据待识别模式,调整第一低维表征,以调整第一低维表征对应的待识别像素图中包含的模式信息;若调整后的待识别像素图中的模式信息仅包含待识别模式,确定调整后的第一低维表征为第二低维表征。
本实施例中,候选像素图可以是用户选择的包含其感兴趣的待识别模式的待识别像素图,则每个候选像素图可以有对应的第一低维表征。终端102可以根据待识别模式,调整候选像素图的第一低维表征,例如通过对第一低维表征进行数学运算等方式进行,而第一低维表征变换时,其对应的待识别像素图包含的模式信息也会相应变化,当终端102检测到调整后的待识别像素图中包含的模式信息仅为待识别模式时,终端102可以确定调整后的第一低维表征作为待识别像素图对应的第二低维表征。
例如,如图3所示,图3为一个实施例中第二低维表征获取步骤的界面示意图。终端102可以构建可交互的可视化界面,并由其引导,在一部分图表数据中,用户通过交互分析的方式发现感兴趣的模式,并解析这些模式的因子表征。具体地,终端102可以首先将得到的待识别像素图数据和像素图的第一低维表征作为输入导入图3所示的可视化界面,并将图表数据如图3(a)中的界面聚类和投影展示,相似的图表的位置会更相近;其次,用户从聚类投影图中选择感兴趣的图表进行展示,并从中选择具有感兴趣的模式的图表,例如用户首先通过上述聚类投影图选择一部分感兴趣的像素图进行展示;并通过如图3(b)中的所示的聚类展示图,找到可能存在模式的像素图,作为候选展示在图3(d)中的界面中。终端102还可以通过如图3(c)中界面的因子交互操作,对找到的候选像素图的因子分布进行调整,调整过程中,像素图也会实时发生变化,直到终端102检测到生成的像素图中仅包含用户感兴趣的待识别模式时,此时该像素图的因子分布即为对应模式的因子分布;最后,终端102可以记录找到的模式及其因子分布,从而得到待识别模式对应的第二低维表征。需要说明的是,上述第二低维表征的获取过程还可以通过用户手动实现,例如,待识别模式有一种时,第二低维表征的获取可以通过终端102实现,待识别模式有多种时,可以通过用户实现获取第二低维表征。当通过用户获取时,用户选取得到候选像素图后,用户通过因子交互操作,对找到的候选像素图的因子分布进行调整,直到生成的像素图中仅包含用户感兴趣的模式,此时该像素图的因子分布即为对应模式的因子分布;最后,用户记录找到模式及其因子分布,从而得到第二低维表征。
通过上述实施例,终端102可以基于候选像素图的第一低维表征得到待识别模式的第二低维表征,从而可以基于第一低维表征和第二低维表征对待识别图表进行模式识别,提高了对图表数据的模式识别效率。
在一个实施例中,根据第一低维表征与第二低维表征的相似度,对待识别图表进行模式识别,包括:获取第一低维表征与第二低维表征的Wasserstein距离,若Wasserstein距离小于预设距离阈值,确定第一低维表征对应的待识别图表的模式为第二低维表征对应的待识别模式。
本实施例中,终端102获取到第一低维表征和第二低维表征后,可以基于第一低维表征和第二低维表征的相似度对待识别图表进行模式识别。其中,第一低维表征和第二低维表征的相似度可以基于Wasserstein距离确定。其中,Wasserstein距离是度量两个概率分布之间的距离,是在最优路径规划下的最小消耗,Wesserstein距离又叫Earth-Mover(推土机)距离。终端102可以获取第一低维表征与第二低维表征的Wasserstein距离,若终端102检测到Wasserstein距离大于或等于预设距离阈值,则终端102确定该第二低维表征对应的待识别模式不是第一低维表征对应的待识别图表的模式。若终端102检测到Wasserstein距离小于预设距离阈值,则终端102确定该第二低维表征对应的待识别模式是第一低维表征对应的待识别图表对应的模式。其中,上述待识别图表和待识别模式可以包含多个,则终端102可以获取每个待识别图表的第一低维表征与每个第二低维表征的Wasserstein距离,从而终端102可以按照Wasserstein距离的大小将待识别图表分类到对应的待识别模式。
例如,终端102可以将得到的模式图表及其因子表达进行记录,并将其与的像素图因子表达进行相似性计算,具体使用2阶Wasserstein距离衡量相似性;终端102可以根据像素图数据集中每个待识别图表的相似性结果,将其归类到与之具有最大相似性值的模式。终端102对待识别图表进行模式识别后,还可以对其进行标注,每个待识别图表中可以标注多个模式。例如,终端102可以通过半监督的标注方法,用户需要在可视化界面中对一小部分的待识别图表的模式进行标注,并使用上述深度因子模型,即目标变分自编码器,学习有标签数据的分布并使用KNN分类器对无标签数据进行分类;终端102也可以使用无监督的标注方法,用户需要在上述可视化界面中得出待识别模式的因子表征,从而终端102使用上述相似性计算来计算每个待识别图表的原始因子表征和模式的因子表征之间的距离,来实现分类。其中,KNN(K-NearestNeighbor)为k最邻近分类算法,如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
通过本实施例,终端102可以基于Wasserstein距离确定第一低维表征和第二低维表征的相似度,从而对待识别图表进行模式识别,提高了对图表数据的模式识别效率。
在一个实施例中,如图4所示,图4为另一个实施例中基于无标签图表数据的模式识别方法的流程示意图。包括以下流程:终端102可以首先采集图表数据,并进行数据清洗,得到待识别图表;其次终端102可以构建变分自编码器,并通过训练得到目标变分自编码器,终端102基于目标变分自编码器得到待识别图表的因子表征,即第一低维表征,通过可视化界面得到待识别模式的因子表征,即第二低维表征,并计算第一低维表征和第二低维表征的相似性,从而对待识别图表进行模式识别和标注。
其中,需要说明的是,上述部分过程也可以通过服务器104执行,例如,服务器104可以采集大规模的图表数据、服务器104可以对采集的图表数据进行数据清洗,服务器104可以构造无监督的深度因子模型,即目标变分自编码器,服务器104还可以基于目标变分子编码器得到待识别图表的第一低维表征。
通过上述实施例,终端102利用变分自编码器以及待识别图表和待识别模式分别对应的低维表征,对待识别图表进行模式识别,提高了对图表数据的模式识别效率。
应该理解的是,虽然图2及图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2及图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于无标签图表数据的模式识别装置,包括:第一获取模块500、第二获取模块502、第三获取模块504和识别模块506,其中:
第一获取模块500,用于接收到模式识别指令,获取待识别图表。
第二获取模块502,用于根据待识别图表以及目标变分自编码器,获取待识别图表对应的第一低维表征;目标变分自编码器基于多个样本图表训练得到。
第三获取模块504,用于获取用户根据待识别图表输入的待识别模式,并基于待识别模式以及第一低维表征获取待识别模式对应的第二低维表征。
识别模块506,用于根据第一低维表征与第二低维表征的相似度,对待识别图表进行模式识别。
在一个实施例中,上述第一获取模块500,具体用于获取包含预设编码类型的待处理图表;对待处理图表进行数据清洗,以将待处理图表的预设编码类型变更为目标编码类型,得到对应的待识别像素图,作为待识别图表。
在一个实施例中,上述装置还包括:训练模块,用于获取包括多个样本图表的样本图表数据集;从样本图表数据集中获取第一样本图表;将第一样本图表输入待训练变分自编码器,获取待训练变分自编码器基于第一样本图表输出的重构样本图表;获取重构样本图表与第一样本图表的差异值,若差异值大于预设差异阈值,根据差异值调整待训练变分自编码器的训练参数,从样本图表数据集中获取未输入的样本图表作为新的第一样本图表,返回将第一样本图表输入待训练变分自编码器的步骤;若差异值小于或等于预设差异阈值,将最后一次输出重构样本图表的待训练变分自编码器作为目标变分自编码器。
在一个实施例中,上述第二获取模块502,具体用于将待识别图表输入目标变分自编码器,获取目标变分自编码器的解码器输出的待识别图表对应的第一低维表征;解码器用于对待识别图表进行降维处理。
在一个实施例中,上述第三获取模块504,具体用于获取多个待识别像素图;获取用户基于多个待识别像素图的选择指令,确定被选择的待识别像素图为候选像素图;候选像素图表征待识别像素图中存在待识别模式;针对每个候选像素图,获取用户基于该候选像素图输入的模式信息,作为该候选像素图对应的待识别模式。
在一个实施例中,上述第三获取模块504,具体用于根据待识别模式,调整第一低维表征,以调整第一低维表征对应的待识别像素图中包含的模式信息;若调整后的待识别像素图中的模式信息仅包含待识别模式,确定调整后的第一低维表征为第二低维表征。
在一个实施例中,上述识别模块506,具体用于获取第一低维表征与第二低维表征的Wasserstein距离,若Wasserstein距离小于预设距离阈值,确定第一低维表征对应的待识别图表的模式为第二低维表征对应的待识别模式。
关于基于无标签图表数据的模式识别装置的具体限定可以参见上文中对于基于无标签图表数据的模式识别方法的限定,在此不再赘述。上述基于无标签图表数据的模式识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于无标签图表数据的模式识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的基于无标签图表数据的模式识别方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的基于无标签图表数据的模式识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于无标签图表数据的模式识别方法,其特征在于,所述方法包括:
接收到模式识别指令,获取待识别图表;
根据所述待识别图表以及目标变分自编码器,获取所述待识别图表对应的第一低维表征;所述目标变分自编码器基于多个样本图表训练得到;
获取用户根据所述待识别图表输入的待识别模式,并基于所述待识别模式以及所述第一低维表征获取所述待识别模式对应的第二低维表征;
根据所述第一低维表征与所述第二低维表征的相似度,对所述待识别图表进行模式识别。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别图表,包括:
获取包含预设编码类型的待处理图表;
对所述待处理图表进行数据清洗,以将所述待处理图表的预设编码类型变更为目标编码类型,得到对应的待识别像素图,作为所述待识别图表。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取包括多个样本图表的样本图表数据集;
从所述样本图表数据集中获取第一样本图表;
将所述第一样本图表输入待训练变分自编码器,获取所述待训练变分自编码器基于所述第一样本图表输出的重构样本图表;
获取所述重构样本图表与所述第一样本图表的差异值,若所述差异值大于预设差异阈值,根据所述差异值调整所述待训练变分自编码器的训练参数,从所述样本图表数据集中获取未输入的样本图表作为新的第一样本图表,返回所述将所述第一样本图表输入待训练变分自编码器的步骤;
若所述差异值小于或等于预设差异阈值,将最后一次输出所述重构样本图表的待训练变分自编码器作为所述目标变分自编码器。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待识别图表以及目标变分自编码器,获取所述待识别图表对应的第一低维表征,包括:
将所述待识别图表输入目标变分自编码器,获取所述目标变分自编码器的解码器输出的所述待识别图表对应的第一低维表征;所述解码器用于对所述待识别图表进行降维处理。
5.根据权利要求2所述的方法,其特征在于,所述获取用户根据所述待识别图表输入的待识别模式,包括:
获取多个待识别像素图;
获取所述用户基于所述多个待识别像素图的选择指令,确定被选择的待识别像素图为候选像素图;所述候选像素图表征所述待识别像素图中存在待识别模式;
针对每个所述候选像素图,获取所述用户基于该候选像素图输入的模式信息,作为该候选像素图对应的待识别模式。
6.根据权利要求2所述的方法,其特征在于,所述基于所述待识别模式以及所述第一低维表征获取所述待识别模式对应的第二低维表征,包括:
根据所述待识别模式,调整所述第一低维表征,以调整所述第一低维表征对应的待识别像素图中包含的模式信息;
若调整后的待识别像素图中的模式信息仅包含所述待识别模式,确定调整后的第一低维表征为所述第二低维表征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一低维表征与所述第二低维表征的相似度,对所述待识别图表进行模式识别,包括:
获取所述第一低维表征与所述第二低维表征的Wasserstein距离,若所述Wasserstein距离小于预设距离阈值,确定所述第一低维表征对应的待识别图表的模式为所述第二低维表征对应的待识别模式。
8.一种基于无标签图表数据的模式识别装置,其特征在于,所述装置包括:
第一获取模块,用于接收到模式识别指令,获取待识别图表;
第二获取模块,用于根据所述待识别图表以及目标变分自编码器,获取所述待识别图表对应的第一低维表征;所述目标变分自编码器基于多个样本图表训练得到;
第三获取模块,用于获取用户根据所述待识别图表输入的待识别模式,并基于所述待识别模式以及所述第一低维表征获取所述待识别模式对应的第二低维表征;
识别模块,用于根据所述第一低维表征与所述第二低维表征的相似度,对所述待识别图表进行模式识别。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111058834.4A 2021-09-09 2021-09-09 基于无标签图表数据的模式识别方法、装置和计算机设备 Active CN113496222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111058834.4A CN113496222B (zh) 2021-09-09 2021-09-09 基于无标签图表数据的模式识别方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111058834.4A CN113496222B (zh) 2021-09-09 2021-09-09 基于无标签图表数据的模式识别方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN113496222A true CN113496222A (zh) 2021-10-12
CN113496222B CN113496222B (zh) 2021-12-07

Family

ID=77996956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111058834.4A Active CN113496222B (zh) 2021-09-09 2021-09-09 基于无标签图表数据的模式识别方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN113496222B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702196A (zh) * 2009-11-16 2010-05-05 浙江林学院 基于木材显微图像的针叶材树种自动识别方法
CN102289681A (zh) * 2011-08-05 2011-12-21 上海邮政科学研究院 一种信封图像匹配方法
KR101585029B1 (ko) * 2015-05-13 2016-01-13 (주)코드원시스템 문서 인식 분류 시스템
CN107168939A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种数据到图表的转换方法和装置
CN109558873A (zh) * 2018-12-03 2019-04-02 哈尔滨工业大学 一种基于变样本栈式自编码网络的模式识别方法
CN110298249A (zh) * 2019-05-29 2019-10-01 平安科技(深圳)有限公司 人脸识别方法、装置、终端及存储介质
CN110519276A (zh) * 2019-08-29 2019-11-29 中国科学院信息工程研究所 一种检测内网横向移动攻击的方法
WO2019236832A1 (en) * 2018-06-08 2019-12-12 Schlumberger Technology Corporation Methods for characterizing and evaluating well integrity using unsupervised machine learning of acoustic data
CN110929772A (zh) * 2019-11-15 2020-03-27 北京奇艺世纪科技有限公司 模型训练方法、样本生成方法、装置、电子设备及存储介质
CN111161740A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 意图识别模型训练方法、意图识别方法以及相关装置
US10726300B2 (en) * 2018-05-01 2020-07-28 Scribe Fusion, LLC System and method for generating and processing training data
CN112257600A (zh) * 2020-10-22 2021-01-22 苏州天可智能科技有限公司 一种人脸识别方法及系统
CN112308104A (zh) * 2019-08-02 2021-02-02 杭州海康威视数字技术股份有限公司 异常识别方法、装置及计算机存储介质
US20210065006A1 (en) * 2019-08-26 2021-03-04 Hexagon Technology Center Gmbh Construction sequencing optimization
US20210110527A1 (en) * 2019-08-30 2021-04-15 Sas Institute Inc. Techniques for extracting contextually structured data from document images
CN112673381A (zh) * 2020-11-17 2021-04-16 华为技术有限公司 一种对抗样本的识别方法及相关装置
CN112784918A (zh) * 2021-02-01 2021-05-11 中国科学院自动化研究所 基于无监督图表示学习的节点识别方法、系统、装置
CN112786005A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 信息合成方法、装置、电子设备和计算机可读存储介质
CN113094424A (zh) * 2021-04-09 2021-07-09 北京元年科技股份有限公司 通过构建多级指标体系进行图表模式识别的方法和系统
CN113191891A (zh) * 2021-05-27 2021-07-30 中国工商银行股份有限公司 数据处理方法、装置及系统

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702196A (zh) * 2009-11-16 2010-05-05 浙江林学院 基于木材显微图像的针叶材树种自动识别方法
CN102289681A (zh) * 2011-08-05 2011-12-21 上海邮政科学研究院 一种信封图像匹配方法
KR101585029B1 (ko) * 2015-05-13 2016-01-13 (주)코드원시스템 문서 인식 분류 시스템
CN107168939A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种数据到图表的转换方法和装置
US10726300B2 (en) * 2018-05-01 2020-07-28 Scribe Fusion, LLC System and method for generating and processing training data
WO2019236832A1 (en) * 2018-06-08 2019-12-12 Schlumberger Technology Corporation Methods for characterizing and evaluating well integrity using unsupervised machine learning of acoustic data
CN109558873A (zh) * 2018-12-03 2019-04-02 哈尔滨工业大学 一种基于变样本栈式自编码网络的模式识别方法
CN110298249A (zh) * 2019-05-29 2019-10-01 平安科技(深圳)有限公司 人脸识别方法、装置、终端及存储介质
CN112308104A (zh) * 2019-08-02 2021-02-02 杭州海康威视数字技术股份有限公司 异常识别方法、装置及计算机存储介质
US20210065006A1 (en) * 2019-08-26 2021-03-04 Hexagon Technology Center Gmbh Construction sequencing optimization
CN110519276A (zh) * 2019-08-29 2019-11-29 中国科学院信息工程研究所 一种检测内网横向移动攻击的方法
US20210110527A1 (en) * 2019-08-30 2021-04-15 Sas Institute Inc. Techniques for extracting contextually structured data from document images
CN110929772A (zh) * 2019-11-15 2020-03-27 北京奇艺世纪科技有限公司 模型训练方法、样本生成方法、装置、电子设备及存储介质
CN111161740A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 意图识别模型训练方法、意图识别方法以及相关装置
CN112257600A (zh) * 2020-10-22 2021-01-22 苏州天可智能科技有限公司 一种人脸识别方法及系统
CN112673381A (zh) * 2020-11-17 2021-04-16 华为技术有限公司 一种对抗样本的识别方法及相关装置
CN112786005A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 信息合成方法、装置、电子设备和计算机可读存储介质
CN112784918A (zh) * 2021-02-01 2021-05-11 中国科学院自动化研究所 基于无监督图表示学习的节点识别方法、系统、装置
CN113094424A (zh) * 2021-04-09 2021-07-09 北京元年科技股份有限公司 通过构建多级指标体系进行图表模式识别的方法和系统
CN113191891A (zh) * 2021-05-27 2021-07-30 中国工商银行股份有限公司 数据处理方法、装置及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALEKS REINHARDT 等: "Predicting the phase diagram of titanium dioxide with random search and pattern recognition", 《PCCP》 *
KURT PICHLER 等: "Detecting cracks in reciprocating compressor valves using pattern recognition in the pV diagram", 《PATTERN ANAL APPLIC》 *
王路 等: "基于变分自编码器的问题识别方法", 《郑州大学学报(理学版)》 *
翟正利 等: "变分自编码器模型综述", 《计算机工程与应用》 *
高凯 等: "基于散点集分形特征的局部放电模式识别研究", 《电力设备状态检修和在线监测论文集》 *
高鹏成 等: "基于变分自编码器的雷达辐射源个体识别", 《应用科技》 *

Also Published As

Publication number Publication date
CN113496222B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
US20210279642A1 (en) Mixed-initiative machine learning systems and methods for determining segmentations
dos Santos et al. A relevance feedback method based on genetic programming for classification of remote sensing images
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
McFee et al. Contextual object localization with multiple kernel nearest neighbor
Liao et al. Visualization-based active learning for video annotation
Ruiz et al. Multi-instance dynamic ordinal random fields for weakly supervised facial behavior analysis
CN112668608B (zh) 一种图像识别方法、装置、电子设备及存储介质
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
Zeng et al. Pyramid hybrid pooling quantization for efficient fine-grained image retrieval
CN116503031B (zh) 基于简历解析的人员相似性计算方法、装置、设备及介质
CN113496222B (zh) 基于无标签图表数据的模式识别方法、装置和计算机设备
Zhu et al. Better initialization for regression-based face alignment
CN113516182B (zh) 视觉问答模型训练、视觉问答方法和装置
Yue et al. Vambc: A variational approach for mobility behavior clustering
CN115393376A (zh) 医学图像处理方法、装置、计算机设备和存储介质
CN114528973A (zh) 业务处理模型的生成方法、业务处理方法和装置
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
CN111582404A (zh) 内容分类方法、装置及可读存储介质
Kegel Feature-based time series analytics
CN113467881B (zh) 图表样式自动化调整方法、装置、计算机设备和存储介质
CN117421386B (zh) 基于gis的空间数据处理方法及系统
Ye A Study on Multi-Granularity Representation Learning of Time Series Data
Nussipova et al. Optimizing loss functions for improved energy demand prediction in smart power grids.
CN116467466A (zh) 基于知识图谱的编码推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant