CN116363678A - 一种数学公式图像的识别方法、系统和计算机设备 - Google Patents

一种数学公式图像的识别方法、系统和计算机设备 Download PDF

Info

Publication number
CN116363678A
CN116363678A CN202310626260.9A CN202310626260A CN116363678A CN 116363678 A CN116363678 A CN 116363678A CN 202310626260 A CN202310626260 A CN 202310626260A CN 116363678 A CN116363678 A CN 116363678A
Authority
CN
China
Prior art keywords
mathematical formula
representing
model
formula image
federal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310626260.9A
Other languages
English (en)
Other versions
CN116363678B (zh
Inventor
夏志勇
蔡曜民
郑尹婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202310626260.9A priority Critical patent/CN116363678B/zh
Publication of CN116363678A publication Critical patent/CN116363678A/zh
Application granted granted Critical
Publication of CN116363678B publication Critical patent/CN116363678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数学公式图像的识别方法、系统和计算机设备,该方法包括下述步骤:获取联邦服务器的全局模型;对数学公式图像进行数据增强;对数学公式图像提取得到特征图,根据注意力机制计算的特征加权权重对特征图计算得到数学公式图像整体特征;将数学公式图像整体特征输入到解码器LSTM训练得到本地模型权重;根据马尔可夫决策过程生成训练样本;根据梯度下降法更新强化网络模型;根据凝聚聚类算法选取下一轮训练的联邦客户端设备数量;将本地模型权重聚合得到新的全局模型,迭代训练后输出数学公式图像识别模型;将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。本发明能提高数学公式图像识别的效率和精确率。

Description

一种数学公式图像的识别方法、系统和计算机设备
技术领域
本发明涉及图像识别技术领域,具体涉及一种数学公式图像的识别方法、系统和计算机设备。
背景技术
图像识别是人工智能运用的重要领域。利用机器学习技术,能对各种模式的图像进行处理、分析、学习,最终生成对不同模式的图像进行准确分类的图像识别模型。数学公式识别是OCR(光学符号识别)的重要应用场景,在科学研究中,数学公式往往是最核心的一部分。但在实际运用,出于隐私保护需求,档案的数学公式图像数据往往存储在各个设备中,并存在数据质量不好与数量不全的问题。
现有的数学公式图像识别技术普遍存在以下不足:
1)没有考虑数学公式图像的隐私安全性,将数学公式图像集中在一起,可能会导致隐私数学公式图像的泄露;
2)没有考虑到在不同的联邦客户端设备的数学公式图像数据存在非独立同分布问题,以及由于数据不集中出现数据不全面和缺失的问题,这些都可能导致数学公式图像识别的精确度与训练效率下降;
因此,如何在满足图像数据隐私保护的前提下,根据图像数据的特征和分布特点,选取合适的联邦客户端设备数量和具体训练设备,提高数学公式图像识别的精确度,是当下研究需要迫切解决的问题。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种数学公式图像的识别方法,本发明针对数学公式图像数据非独立同分布和数据质与量参差不齐的情况,能在相同计算开销和通信开销的情况下提高数学公式图像识别的效率和精确率。
本发明的第二目的在于提供一种数学公式图像的识别系统;
本发明的第三目的在于提供一种计算机设备。
为了达到上述目的,本发明采用以下技术方案:
一种数学公式图像的识别方法,包括下述步骤:
获取联邦服务器的全局模型;
获取数学公式图像,对数学公式图像进行数据增强;
采用编码器CNN对数学公式图像进行特征提取,得到特征图
Figure SMS_1
,在特征图/>
Figure SMS_2
的每个位置/>
Figure SMS_3
上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器;
基于注意力机制计算特征加权权重,具体表示为:
Figure SMS_4
其中,
Figure SMS_5
表示特征图/>
Figure SMS_6
对应的权重矩阵,/>
Figure SMS_7
表示向量参数,/>
Figure SMS_8
表示隐藏状态,
Figure SMS_9
表示隐藏状态/>
Figure SMS_10
对应的权重矩阵,tanh表示tanh函数;
通过线性变换
Figure SMS_11
得到数学公式图像位置特征,根据权重矩阵/>
Figure SMS_12
对图像特征在不同位置和通道之间进行加权或减权;
基于权重矩阵
Figure SMS_13
对当前时间t的隐藏状态/>
Figure SMS_14
进行线性组合,得到当前时间t的数学公式图像上下文特征;
根据特征加权权重对特征图计算得到数学公式图像整体特征;
将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
从动作空间中选择t+1轮的动作
Figure SMS_15
,获取本地模型权重,根据马尔可夫决策过程生成训练样本;
获取训练样本,根据梯度下降法更新强化网络模型;
基于t+1轮的动作
Figure SMS_16
和本地模型权重,根据凝聚聚类算法选择/>
Figure SMS_17
个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量;
根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型;
将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
作为优选的技术方案,所述对数学公式图像进行数据增强,具体步骤包括:
预设数学公式图像的最大高度H和最大宽度W,遍历所有数学公式图像,对于尺寸大于W×H的数学公式图像,进行等比例缩小到尺寸为W×H的数学公式图像,对于尺寸小于W×H的数学公式图像,进行双线性插值扩充尺寸为W×H的数学公式图像;
在数学公式图像中的某个位置
Figure SMS_18
处进行插值,找到距离所选位置最近的四个像素点的坐标/>
Figure SMS_19
、/>
Figure SMS_20
、/>
Figure SMS_21
和/>
Figure SMS_22
根据四个像素点的像素值和所选位置
Figure SMS_23
相对位置的距离,进行加权平均计算插值结果,具体表示为:
Figure SMS_24
Figure SMS_25
Figure SMS_26
Figure SMS_27
Figure SMS_28
其中,
Figure SMS_29
、/>
Figure SMS_31
、/>
Figure SMS_32
和/>
Figure SMS_33
分别表示数学公式图像在坐标
Figure SMS_34
、/>
Figure SMS_35
、/>
Figure SMS_36
和/>
Figure SMS_30
处的像素值,w 1表示距离x 1的水平方向权重,w 2表示距离x 2的水平方向权重,h 1表示距离y 1的垂直方向权重,h 2表示距离y 2的垂直方向权重,v表示插值结果。
作为优选的技术方案,根据特征加权权重对特征图计算得到数学公式图像整体特征,具体表示为:
Figure SMS_37
对于每个通道c,遍历特征图
Figure SMS_38
中的每个位置/>
Figure SMS_39
,并将特征加权权重/>
Figure SMS_40
与对应位置的特征图相乘,将所有乘积项求和得到特征的加权组合/>
Figure SMS_41
,通过对特征图进行加权组合得到代表整个特征图在通道c上的加权特征向量。
作为优选的技术方案,根据马尔可夫决策过程生成训练样本,具体步骤包括:
对本地模型权重进行主成分分析得到本地转换模型权重,将所有的本地转换模型权重加入到一个集合中,构建得到全局模型权重状态,具体表示为:
Figure SMS_42
其中,
Figure SMS_43
表示本地转换模型权重,I表示联邦客户端设备的数量,/>
Figure SMS_44
表示t轮次的全局模型权重状态;
根据奖赏方程计算本轮奖赏,具体表示为:
Figure SMS_45
其中,
Figure SMS_46
表示本轮奖赏,XI表示常数,/>
Figure SMS_47
、/>
Figure SMS_48
分别为t、t-1轮的理论精确度,/>
Figure SMS_49
、/>
Figure SMS_50
分别为t、t-1轮的测试精确度;
强化网络模型采用双强化网络模型,包括DQN网络和目标网络;
根据动作选择公式计算t+1轮的动作
Figure SMS_51
,作为t+1轮选取的联邦客户端设备数量,动作选择公式表示为:
Figure SMS_52
其中,
Figure SMS_53
表示DQN网络的模型参数,A表示动作空间,是联邦客户端设备选择数量的集合空间,动作/>
Figure SMS_54
是动作空间A中的任意一个值,/>
Figure SMS_55
表示DQN网络的输出值,/>
Figure SMS_56
表示t轮次的全局模型权重状态;
构建的训练样本表示为
Figure SMS_57
,其中,/>
Figure SMS_58
表示t-1轮的全局模型权重状态,/>
Figure SMS_59
表示t轮的动作。
作为优选的技术方案,根据梯度下降法更新强化网络模型,具体包括下述步骤:
DQN网络模型的损失函数为:
Figure SMS_60
Figure SMS_61
其中,
Figure SMS_62
表示t轮的时间差分目标,/>
Figure SMS_63
表示折扣率,/>
Figure SMS_64
表示目标网络的模型参数;
计算DQN网络的模型参数
Figure SMS_65
的梯度,具体表示为:
Figure SMS_66
通过梯度下降更新DQN网络,对DQN网络进行训练;
梯度下降中网络模型参数更新表示为:
Figure SMS_67
其中,
Figure SMS_68
表示t+1轮的网络模型参数,/>
Figure SMS_69
表示学习率。
作为优选的技术方案,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,具体步骤包括:
将联邦客户端设备分组,计算不同组间本地模型权重的负余弦相似度;
将不同组间的联邦客户端设备本地模型权重的负余弦相似度的最小两个组合并为一个组,重复直至得到
Figure SMS_70
个组;
在每个组中挑选一个到组质心距离最小的联邦客户端设备作为本轮被选中的联邦客户端设备,组质心即与组中所有联邦客户端设备的本地模型权重的负余弦相似度的总和最小的点。
作为优选的技术方案,负余弦相似度的计算公式表示为:
Figure SMS_71
其中,
Figure SMS_72
表示第t轮第i个联邦客户端设备本地模型权重,/>
Figure SMS_73
表示第t轮第k个联邦客户端设备本地模型权重。
作为优选的技术方案,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,具体表示为:
Figure SMS_74
其中,
Figure SMS_75
表示新的全局模型,/>
Figure SMS_76
表示第i个联邦客户端设备的数据集大小,
Figure SMS_77
表示联邦客户端设备的数据集大小,/>
Figure SMS_78
表示本地模型权重。
为了达到上述第二目的,本发明采用以下技术方案:
一种数学公式图像的识别系统,包括联邦服务器和多个联邦客户端设备;
所述联邦客户端设备获取联邦服务器的全局模型,获取数学公式图像,对数学公式图像进行数据增强,采用编码器CNN对数学公式图像进行特征提取,得到特征图
Figure SMS_79
,在特征图/>
Figure SMS_80
的每个位置/>
Figure SMS_81
上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器,基于注意力机制计算特征加权权重,具体表示为:
Figure SMS_82
其中,
Figure SMS_83
表示特征图/>
Figure SMS_84
对应的权重矩阵,/>
Figure SMS_85
表示向量参数,/>
Figure SMS_86
表示隐藏状态,
Figure SMS_87
表示隐藏状态/>
Figure SMS_88
对应的权重矩阵,tanh表示tanh函数;
通过线性变换
Figure SMS_89
得到数学公式图像位置特征,根据权重矩阵/>
Figure SMS_90
对图像特征在不同位置和通道之间进行加权或减权;
基于权重矩阵
Figure SMS_91
对当前时间t的隐藏状态/>
Figure SMS_92
进行线性组合,得到当前时间t的数学公式图像上下文特征;
所述联邦客户端设备根据特征加权权重对特征图计算得到数学公式图像整体特征;
所述联邦客户端设备将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
所述联邦服务器从动作空间中选择t+1轮的动作
Figure SMS_93
,获取本地模型权重,根据马尔可夫决策过程生成训练样本,获取训练样本,根据梯度下降法更新强化网络模型,基于t+1轮的动作/>
Figure SMS_94
和本地模型权重,根据凝聚聚类算法选择/>
Figure SMS_95
个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型,将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述所述数学公式图像的识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
因每轮联邦客户端设备数量过多会增加通信开销和计算开销,而数量过少会因图像特征提取不够降低图像识别的训练效率,本发明基于联邦学习实现联邦客户端设备数量的自适应调整,并且为了进一步提升数学公式图像识别方法的灵活性和模型的精确度,本发明根据本地图像特征权重间的相似性,使用了层次聚类中的凝聚聚类算法,根据强化学习模型的自适应的联邦客户端设备数量,在设定设备数量范围内为联邦客户端设备分成对应联邦客户端设备数量的组,在每组选取一个代表设备参与训练,本发明创新性地实现了对隐私安全性要求较高的数学公式图像的精准识别,将联邦强化学习和凝聚聚类结合在一起,实现了联邦客户端设备的自适应选择,能在数学公式图像数据非独立同分布和数据质与量参差不齐的情况下,提高数学公式图像识别的效率和精确率;
与现有的数学公式图像识别方法相比,本发明运用了联邦学习方法,使得数学公式图像存储在本地并参与到训练中,保证了数学公式图像的隐私安全性,具有更好的动态适应性、更低的训练开销。
附图说明
图1为本发明数学公式图像识别方法的流程示意图;
图2为本发明数学公式图像识别系统的架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种数学公式图像的识别方法,包括下述步骤:
S1:联邦客户端设备从联邦服务器下载全局模型;
在本实施例中,假设本轮为第t轮,被选中的联邦客户端设备i从联邦服务器下载全局模型
Figure SMS_96
S2:对数学公式图像数据进行数据增强;
在本实施例中,预设所有数学公式图像数据的最大高度H和最大宽度W,遍历所有数学公式图像,对于尺寸大于W×H的数学公式图像,将其进行等比例缩小到尺寸为W×H的数学公式图像,对于尺寸小于W×H的输入图像数据,进行双线性插值扩充尺寸为W×H的数学公式图像数据;
假设在数学公式图像中的某个位置
Figure SMS_98
处进行插值,首先,找到距离该位置最近的四个像素点的坐标/>
Figure SMS_100
、/>
Figure SMS_103
、/>
Figure SMS_105
和/>
Figure SMS_106
。其中,/>
Figure SMS_107
和/>
Figure SMS_108
是离/>
Figure SMS_97
最近的两个像素的x坐标,/>
Figure SMS_99
和/>
Figure SMS_101
是离/>
Figure SMS_102
最近的两个像素的/>
Figure SMS_104
坐标。
然后,根据这四个像素点的像素值和
Figure SMS_109
与其相对位置的距离,进行加权平均计算,具体步骤如下:
计算水平方向上的权重:
计算距离
Figure SMS_110
的水平方向权重:/>
Figure SMS_111
计算距离
Figure SMS_112
的水平方向权重:/>
Figure SMS_113
计算垂直方向上的权重:
计算距离
Figure SMS_114
的垂直方向权重:/>
Figure SMS_115
计算距离
Figure SMS_116
的垂直方向权重:/>
Figure SMS_117
根据权重和四个像素点的像素值进行加权平均计算插值结果:
Figure SMS_118
其中,
Figure SMS_119
、/>
Figure SMS_121
、/>
Figure SMS_122
和/>
Figure SMS_123
分别表示数学公式图像在坐标
Figure SMS_124
、/>
Figure SMS_125
、/>
Figure SMS_126
和/>
Figure SMS_120
处的像素值,v表示插值结果。
S3:采用编码器CNN对数学公式图像进行特征提取,得到特征图;
在本实施例中,用编码器CNN对数学公式图像进行特征提取得到特征图
Figure SMS_127
,其中,i、j表示特征图的位置信息,c是通道数,通过卷积层和池化层的处理,CNN可以提取数学公式图像的不同特征,并将其表示为特征图;
具体地,特征图
Figure SMS_128
的每个位置/>
Figure SMS_129
表示了在输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示了特征图中的特征维度,每个通道对应于不同的特征提取器或滤波器,通过增加通道数,CNN可以学习更多不同类型的特征,从而提高对数学公式图像的表达能力。
S4:基于注意力机制计算特征加权权重;
进一步地,通过以下表达式计算特征加权权重
Figure SMS_130
Figure SMS_131
其中,
Figure SMS_132
是特征图/>
Figure SMS_133
对应的权重矩阵,通过这个线性变换/>
Figure SMS_134
得到数学公式图像位置特征,模型可以根据权重矩阵/>
Figure SMS_135
的设定,对图像特征在不同位置和通道之间进行加权或减权,从而影响模型对不同位置特征的关注程度。
W S 是隐藏状态
Figure SMS_136
对应的权重矩阵,用于对当前时间步长t的隐藏状态/>
Figure SMS_137
进行线性组合,从而得到当前时间t的数学公式图像上下文特征,这个数学公式图像上下文特征用于调整模型对数学公式图像中不同上下文的关注程度,从而实现对图像内容的动态感知和提取;/>
Figure SMS_138
是一个向量参数,起到了调整两部分特征的相对重要性的作用,通过调整/>
Figure SMS_139
向量的数值,模型可以在不同的位置和时间步长上更加关注数学公式图像的位置特征或上下文特征。
将数学公式图像的内容特征与随时间变化的上下文特征进行相加,然后通过tanh函数进行非线性变换。这样可以将这两部分特征结合起来,并产生特征加权权重
Figure SMS_140
,用于确定模型在数学公式图像中要关注的位置。
S5:根据特征加权权重对特征图计算得到数学公式图像整体特征;
进一步地,通过下述表达式计算整体特征的加权表示:
Figure SMS_141
具体地,对于每个通道c,遍历特征图
Figure SMS_142
中的每个位置/>
Figure SMS_143
,并将特征加权权重/>
Figure SMS_144
在该位置的值与对应位置的特征值相乘,然后将所有乘积项进行求和,得到特征的加权组合/>
Figure SMS_145
,这个加权组合表示特征图在不同位置的加权重要性,其中权重由特征加权权重决定,通过对特征图进行加权组合,综合考虑特征图的全局信息,得到一个代表整个特征图在通道c上的加权特征向量/>
Figure SMS_146
S6:将整体特征输入到解码器LSTM中进行训练得到本地模型权重
Figure SMS_147
进一步地,通过将整体特征向量序列输入 LSTM 模型,模型可以学习特征之间的关系和上下文信息,LSTM 内部有记忆单元,可以记住历史信息,并根据当前的输入进行更新和预测,经过训练后的LSTM 模型可以学习到输入特征的权重分布,以及如何根据整体特征序列生成对应的输出结果。
S7:联邦客户端设备i将训练完成的本地模型权重
Figure SMS_148
上传到联邦服务器;
S8:联邦服务器利用本地模型权重,根据马尔可夫决策过程生成训练样本;
在步骤S8中,联邦服务器构建训练样本,包括以下步骤:
S81:构建新的状态空间:对本地模型权重
Figure SMS_149
进行主成分分析PCA得到本地转换模型权重/>
Figure SMS_150
,利用所有的本地转换模型权重/>
Figure SMS_151
加入到一个集合中,构建全局模型权重状态
Figure SMS_152
S82:计算奖赏:根据奖赏方程:
Figure SMS_153
计算本轮奖赏
Figure SMS_154
Figure SMS_155
其中,XI是个常数,可取64,
Figure SMS_156
,/>
Figure SMS_157
分别为t、t-1轮的理论精确度,/>
Figure SMS_158
Figure SMS_159
分别为t、t-1轮的测试精确度;
S83:从动作空间A中选择动作
Figure SMS_160
:本实施例的强化网络模型选择双强化网络模型(DDQN):DQN网络和目标网络避免自举,假设本轮为第t轮,联邦服务器根据动作选择公式计算t+1轮的动作/>
Figure SMS_161
,作为t+1轮选取的联邦客户端设备数量,动作选择公式表示为:
Figure SMS_162
其中,
Figure SMS_163
表示DQN网络的模型参数,A是动作空间,是联邦客户端设备选择数量的集合空间,例如A={5,6,7...,15},动作/>
Figure SMS_164
是动作空间A中的任意一个值,/>
Figure SMS_165
表示DQN网络的输出值,/>
Figure SMS_166
表示t轮次的全局模型权重状态;
S84:构建训练样本:
Figure SMS_167
为训练样本放入初始化为10的经验池中,当经验池已满,新样本会随机替代旧样本;/>
Figure SMS_168
是t-1轮的全局模型权重状态,训练样本基于全局模型权重状态构建,全局图像特征状态基于本地转换模型权重构建,本地转换模型权重基于本地模型权重计算得到;
S9:根据梯度下降法,利用训练样本更新强化网络模型;
在步骤S9中,包括以下步骤:
S91:从经验池中挑选一定数量的训练样本进行训练,具体可为5个;
DQN网络模型的损失函数为:
Figure SMS_169
Figure SMS_170
其中,
Figure SMS_171
是t轮的时间差分目标,/>
Figure SMS_172
是奖赏值,/>
Figure SMS_173
是折扣率,可取0.99,/>
Figure SMS_174
是DQN网络的模型参数,/>
Figure SMS_175
是目标网络的模型参数;
S92:对损失函数求关于
Figure SMS_176
的梯度/>
Figure SMS_177
Figure SMS_178
通过梯度下降:
Figure SMS_179
更新DQN网络,对DQN网络进行训练,其中,/>
Figure SMS_180
是t+1轮的模型参数,/>
Figure SMS_181
表示学习率。
S10:利用动作
Figure SMS_182
和本地模型权重,根据凝聚聚类算法选择/>
Figure SMS_183
个联邦客户端设备以备下轮训练;
进一步地,根据本地模型权重
Figure SMS_184
的差异,通过分层聚类中的凝聚聚类,将I个设备凝聚到/>
Figure SMS_185
个组中。
具体地,首先将I个联邦客户端设备单独作为一个组;计算不同组间本地模型权重
Figure SMS_186
的负余弦相似度,两个联邦客户端设备的本地模型权重的负余弦相似度可通过以下表达式计算:
Figure SMS_187
其中,
Figure SMS_188
表示第t轮第i个联邦客户端设备本地模型权重,/>
Figure SMS_189
表示第t轮第k个联邦客户端设备本地模型权重;
将不同组间设备本地模型权重
Figure SMS_190
的负余弦相似度的最小两个组合并为一个组,重复直至得到/>
Figure SMS_191
个组,组数/>
Figure SMS_192
基于强化网络模型计算得到,考虑了不同组间设备的图像数据的非独立同分布性,给出了适应于本地模型权重/>
Figure SMS_193
的联邦客户端设备数量。
最后,在每个组中挑选一个到组质心距离最小的设备作为本轮被选中的设备,组质心即与组中所有设备的本地模型权重
Figure SMS_194
的负余弦相似度的总和最小的点,这样挑选的设备的具有良好的代表性,可以进一步克服样本特征非独立分布和数量不足的现象,选择更好的图像训练样本,使得全局模型在数量适合、质量优秀的联邦客户端设备上训练图像识别模型,最终提高了基于联邦强化学习和凝聚聚类的图像识别模型方法的训练效率和精确度。
S11:根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型;
进一步地,假设本轮为第
Figure SMS_195
轮,联邦服务器等待被选中的设备上传本地模型权重,联邦服务器接收到所有的本地模型权重之后用联邦平均算法通过以下公式进行模型聚合得到新的全局模型/>
Figure SMS_196
Figure SMS_197
其中,
Figure SMS_198
表示第i个联邦客户端设备的数据集大小,/>
Figure SMS_199
表示联邦客户端设备的数据集大小,/>
Figure SMS_200
是第t轮的动作值,即选取的联邦客户端设备数量,/>
Figure SMS_201
是本地模型权重。
S12:联邦服务器判断全局模型是否达到预设的结束训练条件,如目标训练轮次或者目标精确度,如果未达到则返回联邦客户端设备步骤S1继续训练,如果达到则获得数学公式图像识别模型。
进一步,在步骤S12中,假设本轮为第t轮,联邦服务器能够通过判断是否达到预设的训练轮次T,或者是判断是否达到全局模型的目标精度
Figure SMS_202
,如果没有达到要求,则返回联邦客户端设备步骤S1继续训练;如果达到要求则加入获得数学公式图像识别模型。
S13:待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
在本实施例中,待测图像可以是手写或者印刷数学字符图像,最终的图像识别结果为标准数学公式。
实施例2
本实施例除以下技术内容外,其余技术内容与实施例1相同;
如图2所示,本实施例提供一种数学公式图像的识别系统,包括联邦服务器和多个联邦客户端设备;
在本实施例中,联邦客户端设备获取联邦服务器的全局模型,获取数学公式图像,对数学公式图像进行数据增强,采用编码器CNN对数学公式图像进行特征提取,得到特征图
Figure SMS_203
,在特征图/>
Figure SMS_204
的每个位置/>
Figure SMS_205
上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器,基于注意力机制计算特征加权权重,具体表示为:
Figure SMS_206
其中,
Figure SMS_207
表示特征图/>
Figure SMS_208
对应的权重矩阵,/>
Figure SMS_209
表示向量参数,/>
Figure SMS_210
表示隐藏状态,
Figure SMS_211
表示隐藏状态/>
Figure SMS_212
对应的权重矩阵,tanh表示tanh函数;
通过线性变换
Figure SMS_213
得到数学公式图像位置特征,根据权重矩阵/>
Figure SMS_214
对图像特征在不同位置和通道之间进行加权或减权;/>
基于权重矩阵
Figure SMS_215
对当前时间t的隐藏状态/>
Figure SMS_216
进行线性组合,得到当前时间t的数学公式图像上下文特征;
在本实施例中,联邦客户端设备根据特征加权权重对特征图计算得到数学公式图像整体特征;
在本实施例中,联邦客户端设备将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
在本实施例中,联邦服务器从动作空间中选择t+1轮的动作
Figure SMS_217
,获取本地模型权重,根据马尔可夫决策过程生成训练样本,获取训练样本,根据梯度下降法更新强化网络模型,基于t+1轮的动作/>
Figure SMS_218
和本地模型权重,根据凝聚聚类算法选择/>
Figure SMS_219
个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型,将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
其中,联邦客户端设备是数学公式图像数据的持有方,具有一定的数据和计算能力,每轮被选中的设备从联邦服务器下载全局模型,在本地图像数据集上进行训练,训练完成之后发送回联邦服务器,联邦服务器是联邦学习的中心协作方,维护全局模型、负责挑选设备训练、聚合全局模型,最终获得图像识别模型。联邦服务器可以是独立服务器,也可以是云服务器,以及多个服务器组成的计算集群。
实施例3
本实施例一种计算机设备,该计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的计算机设备,该计算机设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1数学公式图像的识别方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种数学公式图像的识别方法,其特征在于,包括下述步骤:
获取联邦服务器的全局模型;
获取数学公式图像,对数学公式图像进行数据增强;
采用编码器CNN对数学公式图像进行特征提取,得到特征图
Figure QLYQS_1
,在特征图/>
Figure QLYQS_2
的每个位置/>
Figure QLYQS_3
上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器;
基于注意力机制计算特征加权权重,具体表示为:
Figure QLYQS_4
其中,
Figure QLYQS_5
表示特征图/>
Figure QLYQS_6
对应的权重矩阵,/>
Figure QLYQS_7
表示向量参数,/>
Figure QLYQS_8
表示隐藏状态,/>
Figure QLYQS_9
表示隐藏状态/>
Figure QLYQS_10
对应的权重矩阵,tanh表示tanh函数;
通过线性变换
Figure QLYQS_11
得到数学公式图像位置特征,根据权重矩阵/>
Figure QLYQS_12
对图像特征在不同位置和通道之间进行加权或减权;
基于权重矩阵
Figure QLYQS_13
对当前时间t的隐藏状态/>
Figure QLYQS_14
进行线性组合,得到当前时间t的数学公式图像上下文特征;
根据特征加权权重对特征图计算得到数学公式图像整体特征;
将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
从动作空间中选择t+1轮的动作
Figure QLYQS_15
,获取本地模型权重,根据马尔可夫决策过程生成训练样本;
获取训练样本,根据梯度下降法更新强化网络模型;
基于t+1轮的动作
Figure QLYQS_16
和本地模型权重,根据凝聚聚类算法选择/>
Figure QLYQS_17
个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量;
根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型;
将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
2.根据权利要求1所述的数学公式图像的识别方法,其特征在于,所述对数学公式图像进行数据增强,具体步骤包括:
预设数学公式图像的最大高度H和最大宽度W,遍历所有数学公式图像,对于尺寸大于W×H的数学公式图像,进行等比例缩小到尺寸为W×H的数学公式图像,对于尺寸小于W×H的数学公式图像,进行双线性插值扩充尺寸为W×H的数学公式图像;
在数学公式图像中的某个位置
Figure QLYQS_18
处进行插值,找到距离所选位置最近的四个像素点的坐标/>
Figure QLYQS_19
、/>
Figure QLYQS_20
、/>
Figure QLYQS_21
和/>
Figure QLYQS_22
根据四个像素点的像素值和所选位置
Figure QLYQS_23
相对位置的距离,进行加权平均计算插值结果,具体表示为:
Figure QLYQS_24
Figure QLYQS_25
Figure QLYQS_26
Figure QLYQS_27
Figure QLYQS_28
其中,
Figure QLYQS_30
、/>
Figure QLYQS_31
、/>
Figure QLYQS_32
和/>
Figure QLYQS_33
分别表示数学公式图像在坐标
Figure QLYQS_34
、/>
Figure QLYQS_35
、/>
Figure QLYQS_36
和/>
Figure QLYQS_29
处的像素值,w 1表示距离x 1的水平方向权重,w 2表示距离x 2的水平方向权重,h 1表示距离y 1的垂直方向权重,h 2表示距离y 2的垂直方向权重,v表示插值结果。
3.根据权利要求1所述的数学公式图像的识别方法,其特征在于,根据特征加权权重对特征图计算得到数学公式图像整体特征,具体表示为:
Figure QLYQS_37
对于每个通道c,遍历特征图
Figure QLYQS_38
中的每个位置/>
Figure QLYQS_39
,并将特征加权权重/>
Figure QLYQS_40
与对应位置的特征图相乘,将所有乘积项求和得到特征的加权组合/>
Figure QLYQS_41
,通过对特征图进行加权组合得到代表整个特征图在通道c上的加权特征向量。
4.根据权利要求1所述的数学公式图像的识别方法,其特征在于,根据马尔可夫决策过程生成训练样本,具体步骤包括:
对本地模型权重进行主成分分析得到本地转换模型权重,将所有的本地转换模型权重加入到一个集合中,构建得到全局模型权重状态,具体表示为:
Figure QLYQS_42
其中,
Figure QLYQS_43
表示本地转换模型权重,I表示联邦客户端设备的数量,/>
Figure QLYQS_44
表示t轮次的全局模型权重状态;
根据奖赏方程计算本轮奖赏,具体表示为:
Figure QLYQS_45
其中,
Figure QLYQS_46
表示本轮奖赏,XI表示常数,/>
Figure QLYQS_47
、/>
Figure QLYQS_48
分别为t、t-1轮的理论精确度,
Figure QLYQS_49
、/>
Figure QLYQS_50
分别为t、t-1轮的测试精确度;
强化网络模型采用双强化网络模型,包括DQN网络和目标网络;
根据动作选择公式计算t+1轮的动作
Figure QLYQS_51
,作为t+1轮选取的联邦客户端设备数量,动作选择公式表示为:
Figure QLYQS_52
其中,
Figure QLYQS_53
表示DQN网络的模型参数,A表示动作空间,是联邦客户端设备选择数量的集合空间,动作/>
Figure QLYQS_54
是动作空间A中的任意一个值,/>
Figure QLYQS_55
表示DQN网络的输出值,/>
Figure QLYQS_56
表示t轮次的全局模型权重状态;
构建的训练样本表示为
Figure QLYQS_57
,其中,/>
Figure QLYQS_58
表示t-1轮的全局模型权重状态,/>
Figure QLYQS_59
表示t轮的动作。
5.根据权利要求4所述的数学公式图像的识别方法,其特征在于,根据梯度下降法更新强化网络模型,具体包括下述步骤:
DQN网络模型的损失函数为:
Figure QLYQS_60
Figure QLYQS_61
其中,
Figure QLYQS_62
表示t轮的时间差分目标,/>
Figure QLYQS_63
表示折扣率,/>
Figure QLYQS_64
表示目标网络的模型参数;
计算DQN网络的模型参数
Figure QLYQS_65
的梯度,具体表示为:
Figure QLYQS_66
通过梯度下降更新DQN网络,对DQN网络进行训练;
梯度下降中网络模型参数更新表示为:
Figure QLYQS_67
其中,
Figure QLYQS_68
表示t+1轮的网络模型参数,/>
Figure QLYQS_69
表示学习率。
6.根据权利要求1所述的数学公式图像的识别方法,其特征在于,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,具体步骤包括:
将联邦客户端设备分组,计算不同组间本地模型权重的负余弦相似度;
将不同组间的联邦客户端设备本地模型权重的负余弦相似度的最小两个组合并为一个组,重复直至得到
Figure QLYQS_70
个组;
在每个组中挑选一个到组质心距离最小的联邦客户端设备作为本轮被选中的联邦客户端设备,组质心即与组中所有联邦客户端设备的本地模型权重的负余弦相似度的总和最小的点。
7.根据权利要求6所述的数学公式图像的识别方法,其特征在于,负余弦相似度的计算公式表示为:
Figure QLYQS_71
其中,
Figure QLYQS_72
表示第t轮第i个联邦客户端设备本地模型权重,/>
Figure QLYQS_73
表示第t轮第k个联邦客户端设备本地模型权重。
8.根据权利要求1所述的数学公式图像的识别方法,其特征在于,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,具体表示为:
Figure QLYQS_74
其中,
Figure QLYQS_75
表示新的全局模型,/>
Figure QLYQS_76
表示第i个联邦客户端设备的数据集大小,/>
Figure QLYQS_77
表示联邦客户端设备的数据集大小,/>
Figure QLYQS_78
表示本地模型权重。
9.一种数学公式图像的识别系统,其特征在于,包括联邦服务器和多个联邦客户端设备;
所述联邦客户端设备获取联邦服务器的全局模型,获取数学公式图像,对数学公式图像进行数据增强,采用编码器CNN对数学公式图像进行特征提取,得到特征图
Figure QLYQS_79
,在特征图/>
Figure QLYQS_80
的每个位置/>
Figure QLYQS_81
上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器,基于注意力机制计算特征加权权重,具体表示为:
Figure QLYQS_82
其中,
Figure QLYQS_83
表示特征图/>
Figure QLYQS_84
对应的权重矩阵,/>
Figure QLYQS_85
表示向量参数,/>
Figure QLYQS_86
表示隐藏状态,/>
Figure QLYQS_87
表示隐藏状态/>
Figure QLYQS_88
对应的权重矩阵,tanh表示tanh函数;
通过线性变换
Figure QLYQS_89
得到数学公式图像位置特征,根据权重矩阵/>
Figure QLYQS_90
对图像特征在不同位置和通道之间进行加权或减权;
基于权重矩阵
Figure QLYQS_91
对当前时间t的隐藏状态/>
Figure QLYQS_92
进行线性组合,得到当前时间t的数学公式图像上下文特征;
所述联邦客户端设备根据特征加权权重对特征图计算得到数学公式图像整体特征;
所述联邦客户端设备将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
所述联邦服务器从动作空间中选择t+1轮的动作
Figure QLYQS_93
,获取本地模型权重,根据马尔可夫决策过程生成训练样本,获取训练样本,根据梯度下降法更新强化网络模型,基于t+1轮的动作/>
Figure QLYQS_94
和本地模型权重,根据凝聚聚类算法选择/>
Figure QLYQS_95
个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型,将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
10.一种计算机设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-8任一项所述数学公式图像的识别方法。
CN202310626260.9A 2023-05-31 2023-05-31 一种数学公式图像的识别方法、系统和计算机设备 Active CN116363678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310626260.9A CN116363678B (zh) 2023-05-31 2023-05-31 一种数学公式图像的识别方法、系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310626260.9A CN116363678B (zh) 2023-05-31 2023-05-31 一种数学公式图像的识别方法、系统和计算机设备

Publications (2)

Publication Number Publication Date
CN116363678A true CN116363678A (zh) 2023-06-30
CN116363678B CN116363678B (zh) 2023-08-11

Family

ID=86941898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310626260.9A Active CN116363678B (zh) 2023-05-31 2023-05-31 一种数学公式图像的识别方法、系统和计算机设备

Country Status (1)

Country Link
CN (1) CN116363678B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133436A1 (en) * 2006-06-07 2008-06-05 Ugo Di Profio Information processing apparatus, information processing method and computer program
JP2010160707A (ja) * 2009-01-09 2010-07-22 Noriomi Sato 画像認識方法およびその装置
CN108764006A (zh) * 2018-02-05 2018-11-06 北京航空航天大学 一种基于深度强化学习的sar图像目标检测方法
CN111160343A (zh) * 2019-12-31 2020-05-15 华南理工大学 一种基于Self-Attention的离线数学公式符号识别方法
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN113569867A (zh) * 2021-01-21 2021-10-29 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备及存储介质
CN113571203A (zh) * 2021-07-19 2021-10-29 复旦大学附属华山医院 多中心基于联邦学习的脑肿瘤预后生存期预测方法及系统
CN114882512A (zh) * 2022-05-27 2022-08-09 圣码智能科技(深圳)有限公司 手写数学公式识别方法、系统、设备和存储介质
CN115081532A (zh) * 2022-07-01 2022-09-20 西安电子科技大学 基于记忆重放和差分隐私的联邦持续学习训练方法
CN115620316A (zh) * 2022-09-23 2023-01-17 深圳大学 基于无线联邦学习的图像识别方法、装置、设备及介质
CN116110059A (zh) * 2023-01-06 2023-05-12 武汉天喻信息产业股份有限公司 一种基于深度学习的离线手写数学公式识别的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133436A1 (en) * 2006-06-07 2008-06-05 Ugo Di Profio Information processing apparatus, information processing method and computer program
JP2010160707A (ja) * 2009-01-09 2010-07-22 Noriomi Sato 画像認識方法およびその装置
CN108764006A (zh) * 2018-02-05 2018-11-06 北京航空航天大学 一种基于深度强化学习的sar图像目标检测方法
CN111160343A (zh) * 2019-12-31 2020-05-15 华南理工大学 一种基于Self-Attention的离线数学公式符号识别方法
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN113569867A (zh) * 2021-01-21 2021-10-29 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备及存储介质
CN113571203A (zh) * 2021-07-19 2021-10-29 复旦大学附属华山医院 多中心基于联邦学习的脑肿瘤预后生存期预测方法及系统
CN114882512A (zh) * 2022-05-27 2022-08-09 圣码智能科技(深圳)有限公司 手写数学公式识别方法、系统、设备和存储介质
CN115081532A (zh) * 2022-07-01 2022-09-20 西安电子科技大学 基于记忆重放和差分隐私的联邦持续学习训练方法
CN115620316A (zh) * 2022-09-23 2023-01-17 深圳大学 基于无线联邦学习的图像识别方法、装置、设备及介质
CN116110059A (zh) * 2023-01-06 2023-05-12 武汉天喻信息产业股份有限公司 一种基于深度学习的离线手写数学公式识别的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘婷婷;程涛;金冈增;王熙堃: "基于支持向量机的数学公式识别", 华东师范大学学报(自然科学版), no. 3, pages 78 - 85 *

Also Published As

Publication number Publication date
CN116363678B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN109522942B (zh) 一种图像分类方法、装置、终端设备和存储介质
CN108460338B (zh) 人体姿态估计方法和装置、电子设备、存储介质、程序
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN106228185B (zh) 一种基于神经网络的通用图像分类识别系统及方法
CN113449594B (zh) 一种多层网络组合的遥感影像地类语义分割与面积计算方法
CN112348117B (zh) 场景识别方法、装置、计算机设备和存储介质
CN110347940A (zh) 用于优化兴趣点标签的方法和装置
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
CN108898269A (zh) 基于度量的电力图像环境影响评估方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN113988147B (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN114419468A (zh) 一种结合注意力机制和空间特征融合算法的水田分割方法
CN110942473A (zh) 一种基于特征点网格化匹配的运动目标跟踪检测方法
CN112084842A (zh) 一种基于深度语义模型的水文遥感图像目标识别方法
CN107358625B (zh) 基于SPP Net和感兴趣区域检测的SAR图像变化检测方法
CN112465821A (zh) 一种基于边界关键点感知的多尺度害虫图像检测方法
CN116363678B (zh) 一种数学公式图像的识别方法、系统和计算机设备
CN116958809A (zh) 一种特征库迁移的遥感小样本目标检测方法
CN116758419A (zh) 针对遥感图像的多尺度目标检测方法、装置和设备
CN116665039A (zh) 基于两阶段因果干预的小样本目标识别方法
CN114723998A (zh) 基于大边界贝叶斯原型学习的小样本图像分类方法及装置
CN114202694A (zh) 基于流形混合插值和对比学习的小样本遥感场景图像分类方法
CN113971737A (zh) 用于机器人的物体识别方法、电子设备、介质和程序产品
CN113822293A (zh) 用于图数据的模型处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant