CN116363678B - 一种数学公式图像的识别方法、系统和计算机设备 - Google Patents

一种数学公式图像的识别方法、系统和计算机设备 Download PDF

Info

Publication number
CN116363678B
CN116363678B CN202310626260.9A CN202310626260A CN116363678B CN 116363678 B CN116363678 B CN 116363678B CN 202310626260 A CN202310626260 A CN 202310626260A CN 116363678 B CN116363678 B CN 116363678B
Authority
CN
China
Prior art keywords
mathematical formula
representing
model
federal
formula image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310626260.9A
Other languages
English (en)
Other versions
CN116363678A (zh
Inventor
夏志勇
蔡曜民
郑尹婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202310626260.9A priority Critical patent/CN116363678B/zh
Publication of CN116363678A publication Critical patent/CN116363678A/zh
Application granted granted Critical
Publication of CN116363678B publication Critical patent/CN116363678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种数学公式图像的识别方法、系统和计算机设备,该方法包括下述步骤:获取联邦服务器的全局模型;对数学公式图像进行数据增强;对数学公式图像提取得到特征图,根据注意力机制计算的特征加权权重对特征图计算得到数学公式图像整体特征;将数学公式图像整体特征输入到解码器LSTM训练得到本地模型权重;根据马尔可夫决策过程生成训练样本;根据梯度下降法更新强化网络模型;根据凝聚聚类算法选取下一轮训练的联邦客户端设备数量;将本地模型权重聚合得到新的全局模型,迭代训练后输出数学公式图像识别模型;将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。本发明能提高数学公式图像识别的效率和精确率。

Description

一种数学公式图像的识别方法、系统和计算机设备
技术领域
本发明涉及图像识别技术领域,具体涉及一种数学公式图像的识别方法、系统和计算机设备。
背景技术
图像识别是人工智能运用的重要领域。利用机器学习技术,能对各种模式的图像进行处理、分析、学习,最终生成对不同模式的图像进行准确分类的图像识别模型。数学公式识别是OCR(光学符号识别)的重要应用场景,在科学研究中,数学公式往往是最核心的一部分。但在实际运用,出于隐私保护需求,档案的数学公式图像数据往往存储在各个设备中,并存在数据质量不好与数量不全的问题。
现有的数学公式图像识别技术普遍存在以下不足:
1)没有考虑数学公式图像的隐私安全性,将数学公式图像集中在一起,可能会导致隐私数学公式图像的泄露;
2)没有考虑到在不同的联邦客户端设备的数学公式图像数据存在非独立同分布问题,以及由于数据不集中出现数据不全面和缺失的问题,这些都可能导致数学公式图像识别的精确度与训练效率下降;
因此,如何在满足图像数据隐私保护的前提下,根据图像数据的特征和分布特点,选取合适的联邦客户端设备数量和具体训练设备,提高数学公式图像识别的精确度,是当下研究需要迫切解决的问题。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种数学公式图像的识别方法,本发明针对数学公式图像数据非独立同分布和数据质与量参差不齐的情况,能在相同计算开销和通信开销的情况下提高数学公式图像识别的效率和精确率。
本发明的第二目的在于提供一种数学公式图像的识别系统;
本发明的第三目的在于提供一种计算机设备。
为了达到上述目的,本发明采用以下技术方案:
一种数学公式图像的识别方法,包括下述步骤:
获取联邦服务器的全局模型;
获取数学公式图像,对数学公式图像进行数据增强;
采用编码器CNN对数学公式图像进行特征提取,得到特征图,在特征图/>的每个位置/>上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器;
基于注意力机制计算特征加权权重,具体表示为:
其中,表示特征图/>对应的权重矩阵,/>表示向量参数,s m 表示隐藏状态,表示隐藏状态s m 对应的权重矩阵,tanh表示tanh函数;
通过线性变换得到数学公式图像位置特征,根据权重矩阵/>对图像特征在不同位置和通道之间进行加权或减权;
基于权重矩阵对当前时间m的隐藏状态s m 进行线性组合,得到当前时间m的数学公式图像上下文特征;
根据特征加权权重对特征图计算得到数学公式图像整体特征;
将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
从动作空间中选择t+1轮的动作,获取本地模型权重,根据马尔可夫决策过程生成训练样本;
获取训练样本,根据梯度下降法更新强化网络模型;
基于t+1轮的动作和本地模型权重,根据凝聚聚类算法选择/>个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量;
根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型;
将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
作为优选的技术方案,所述对数学公式图像进行数据增强,具体步骤包括:
预设数学公式图像的最大高度H和最大宽度W,遍历所有数学公式图像,对于尺寸大于W×H的数学公式图像,进行等比例缩小到尺寸为W×H的数学公式图像,对于尺寸小于W×H的数学公式图像,进行双线性插值扩充尺寸为W×H的数学公式图像;
在数学公式图像中的某个位置处进行插值,找到距离所选位置最近的四个像素点的坐标/>、/>、/>和/>
根据四个像素点的像素值和所选位置相对位置的距离,进行加权平均计算插值结果,具体表示为:
其中,、/>、/>和/>分别表示数学公式图像在坐标、/>、/>和/>处的像素值,w 1表示距离x 1的水平方向权重,w 2表示距离x 2的水平方向权重,h 1表示距离y 1的垂直方向权重,h 2表示距离y 2的垂直方向权重,v表示插值结果。
作为优选的技术方案,根据特征加权权重对特征图计算得到数学公式图像整体特征,具体表示为:
对于每个通道c,遍历特征图中的每个位置/>,并将特征加权权重a m,i,j 与对应位置的特征图相乘,将所有乘积项求和得到特征的加权组合u m,c ,通过对特征图进行加权组合得到代表整个特征图在通道c上的加权特征向量。
作为优选的技术方案,根据马尔可夫决策过程生成训练样本,具体步骤包括:
对本地模型权重进行主成分分析得到本地转换模型权重,将所有的本地转换模型权重加入到一个集合中,构建得到全局模型权重状态,具体表示为:
其中,表示本地转换模型权重,I表示联邦客户端设备的数量,/>表示t轮次的全局模型权重状态;
根据奖赏方程计算本轮奖赏,具体表示为:
根据奖赏方程:
计算本轮奖赏
其中,表示本轮奖赏,XI表示常数,/>、/>分别为t、t-1轮的理论精确度,/>、/>分别为t、t-1轮的测试精确度;
强化网络模型采用双强化网络模型,包括DQN网络和目标网络;
根据动作选择公式计算t+1轮的动作,作为t+1轮选取的联邦客户端设备数量,动作选择公式表示为:
其中,表示DQN网络的模型参数,A表示动作空间,是联邦客户端设备选择数量的集合空间,动作/>是动作空间A中的任意一个值,/>表示DQN网络的输出值,/>表示t轮次的全局模型权重状态;
构建的训练样本表示为,其中,/>表示t-1轮的全局模型权重状态,/>表示t轮的动作。
作为优选的技术方案,根据梯度下降法更新强化网络模型,具体包括下述步骤:
DQN网络模型的损失函数为:
其中,表示t轮的时间差分目标,/>表示折扣率,/>表示目标网络的模型参数,s t+1 表示t+1轮的全局模型权重状态;
计算DQN网络的模型参数的梯度,具体表示为:
通过梯度下降更新DQN网络,对DQN网络进行训练;
梯度下降中网络模型参数更新表示为:
其中,表示t+1轮的网络模型参数,/>表示学习率。
作为优选的技术方案,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,具体步骤包括:
将联邦客户端设备分组,计算不同组间本地模型权重的负余弦相似度;
将不同组间的联邦客户端设备本地模型权重的负余弦相似度的最小两个组合并为一个组,重复直至得到个组;
在每个组中挑选一个到组质心距离最小的联邦客户端设备作为本轮被选中的联邦客户端设备,组质心即与组中所有联邦客户端设备的本地模型权重的负余弦相似度的总和最小的点。
作为优选的技术方案,负余弦相似度的计算公式表示为:
其中,表示第t轮第i个联邦客户端设备本地模型权重,/>表示第t轮第k个联邦客户端设备本地模型权重。
作为优选的技术方案,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,具体表示为:
其中,表示新的全局模型,/>表示第i个联邦客户端设备的数据集大小,/>表示联邦客户端设备的数据集大小,/>表示本地模型权重。
为了达到上述第二目的,本发明采用以下技术方案:
一种数学公式图像的识别系统,包括联邦服务器和多个联邦客户端设备;
所述联邦客户端设备获取联邦服务器的全局模型,获取数学公式图像,对数学公式图像进行数据增强,采用编码器CNN对数学公式图像进行特征提取,得到特征图,在特征图/>的每个位置/>上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器,基于注意力机制计算特征加权权重,具体表示为:
其中,表示特征图/>对应的权重矩阵,/>表示向量参数,s m 表示隐藏状态,表示隐藏状态s m 对应的权重矩阵,tanh表示tanh函数;
通过线性变换得到数学公式图像位置特征,根据权重矩阵/>对图像特征在不同位置和通道之间进行加权或减权;
基于权重矩阵对当前时间m的隐藏状态s m 进行线性组合,得到当前时间m的数学公式图像上下文特征;
所述联邦客户端设备根据特征加权权重对特征图计算得到数学公式图像整体特征;
所述联邦客户端设备将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
所述联邦服务器从动作空间中选择t+1轮的动作,获取本地模型权重,根据马尔可夫决策过程生成训练样本,获取训练样本,根据梯度下降法更新强化网络模型,基于t+1轮的动作/>和本地模型权重,根据凝聚聚类算法选择/>个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型,将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果;
根据马尔可夫决策过程生成训练样本,具体步骤包括:
对本地模型权重进行主成分分析得到本地转换模型权重,将所有的本地转换模型权重加入到一个集合中,构建得到全局模型权重状态,具体表示为:
其中,表示本地转换模型权重,I表示联邦客户端设备的数量,/>表示t轮次的全局模型权重状态;
根据奖赏方程计算本轮奖赏,具体表示为:
根据奖赏方程:
计算本轮奖赏
其中,表示本轮奖赏,XI表示常数,/>、/>分别为t、t-1轮的理论精确度,、/>分别为t、t-1轮的测试精确度;
强化网络模型采用双强化网络模型,包括DQN网络和目标网络;
根据动作选择公式计算t+1轮的动作,作为t+1轮选取的联邦客户端设备数量,动作选择公式表示为:
其中,表示DQN网络的模型参数,A表示动作空间,是联邦客户端设备选择数量的集合空间,动作/>是动作空间A中的任意一个值,/>表示DQN网络的输出值,/>表示t轮次的全局模型权重状态;
构建的训练样本表示为,其中,/>表示t-1轮的全局模型权重状态,表示t轮的动作。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述所述数学公式图像的识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
因每轮联邦客户端设备数量过多会增加通信开销和计算开销,而数量过少会因图像特征提取不够降低图像识别的训练效率,本发明基于联邦学习实现联邦客户端设备数量的自适应调整,并且为了进一步提升数学公式图像识别方法的灵活性和模型的精确度,本发明根据本地图像特征权重间的相似性,使用了层次聚类中的凝聚聚类算法,根据强化学习模型的自适应的联邦客户端设备数量,在设定设备数量范围内为联邦客户端设备分成对应联邦客户端设备数量的组,在每组选取一个代表设备参与训练,本发明创新性地实现了对隐私安全性要求较高的数学公式图像的精准识别,将联邦强化学习和凝聚聚类结合在一起,实现了联邦客户端设备的自适应选择,能在数学公式图像数据非独立同分布和数据质与量参差不齐的情况下,提高数学公式图像识别的效率和精确率;
与现有的数学公式图像识别方法相比,本发明运用了联邦学习方法,使得数学公式图像存储在本地并参与到训练中,保证了数学公式图像的隐私安全性,具有更好的动态适应性、更低的训练开销。
附图说明
图1为本发明数学公式图像识别方法的流程示意图;
图2为本发明数学公式图像识别系统的架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种数学公式图像的识别方法,包括下述步骤:
S1:联邦客户端设备从联邦服务器下载全局模型;
在本实施例中,假设本轮为第t轮,被选中的联邦客户端设备i从联邦服务器下载全局模型
S2:对数学公式图像数据进行数据增强;
在本实施例中,预设所有数学公式图像数据的最大高度H和最大宽度W,遍历所有数学公式图像,对于尺寸大于W×H的数学公式图像,将其进行等比例缩小到尺寸为W×H的数学公式图像,对于尺寸小于W×H的输入图像数据,进行双线性插值扩充尺寸为W×H的数学公式图像数据;
假设在数学公式图像中的某个位置处进行插值,首先,找到距离该位置最近的四个像素点的坐标/>、/>、/>和/>。其中,/>和/>是离/>最近的两个像素的x坐标,/>和/>是离/>最近的两个像素的/>坐标。
然后,根据这四个像素点的像素值和与其相对位置的距离,进行加权平均计算,具体步骤如下:
计算水平方向上的权重:
计算距离的水平方向权重:/>
计算距离的水平方向权重:/>
计算垂直方向上的权重:
计算距离的垂直方向权重:/>
计算距离的垂直方向权重:/>
根据权重和四个像素点的像素值进行加权平均计算插值结果:
其中,、/>、/>和/>分别表示数学公式图像在坐标、/>、/>和/>处的像素值,v表示插值结果。
S3:采用编码器CNN对数学公式图像进行特征提取,得到特征图;
在本实施例中,用编码器CNN对数学公式图像进行特征提取得到特征图,其中,i、j表示特征图的位置信息,c是通道数,通过卷积层和池化层的处理,CNN可以提取数学公式图像的不同特征,并将其表示为特征图;
具体地,特征图的每个位置/>表示了在输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示了特征图中的特征维度,每个通道对应于不同的特征提取器或滤波器,通过增加通道数,CNN可以学习更多不同类型的特征,从而提高对数学公式图像的表达能力。
S4:基于注意力机制计算特征加权权重;
进一步地,通过以下表达式计算特征加权权重a m,i,j
其中,是特征图/>对应的权重矩阵,通过这个线性变换/>得到数学公式图像位置特征,模型可以根据权重矩阵/>的设定,对图像特征在不同位置和通道之间进行加权或减权,从而影响模型对不同位置特征的关注程度。
W S 是隐藏状态s m 对应的权重矩阵,用于对当前时间步长m的隐藏状态s m 进行线性组合,从而得到当前时间m的数学公式图像上下文特征,这个数学公式图像上下文特征用于调整模型对数学公式图像中不同上下文的关注程度,从而实现对图像内容的动态感知和提取;是一个向量参数,起到了调整两部分特征的相对重要性的作用,通过调整/>向量的数值,模型可以在不同的位置和时间步长上更加关注数学公式图像的位置特征或上下文特征。
将数学公式图像的内容特征与随时间变化的上下文特征进行相加,然后通过tanh函数进行非线性变换。这样可以将这两部分特征结合起来,并产生特征加权权重a m,i,j ,用于确定模型在数学公式图像中要关注的位置。
S5:根据特征加权权重对特征图计算得到数学公式图像整体特征;
进一步地,通过下述表达式计算整体特征的加权表示:
具体地,对于每个通道c,遍历特征图中的每个位置/>,并将特征加权权重a m,i,j 在该位置的值与对应位置的特征值相乘,然后将所有乘积项进行求和,得到特征的加权组合u m,c ,这个加权组合表示特征图在不同位置的加权重要性,其中权重由特征加权权重决定,通过对特征图进行加权组合,综合考虑特征图的全局信息,得到一个代表整个特征图在通道c上的加权特征向量/>
S6:将整体特征输入到解码器LSTM中进行训练得到本地模型权重
进一步地,通过将整体特征向量序列输入 LSTM 模型,模型可以学习特征之间的关系和上下文信息,LSTM 内部有记忆单元,可以记住历史信息,并根据当前的输入进行更新和预测,经过训练后的LSTM 模型可以学习到输入特征的权重分布,以及如何根据整体特征序列生成对应的输出结果。
S7:联邦客户端设备i将训练完成的本地模型权重上传到联邦服务器;
S8:联邦服务器利用本地模型权重,根据马尔可夫决策过程生成训练样本;
在步骤S8中,联邦服务器构建训练样本,包括以下步骤:
S81:构建新的状态空间:对本地模型权重进行主成分分析PCA得到本地转换模型权重/>,利用所有的本地转换模型权重/>加入到一个集合中,构建全局模型权重状态
S82:计算奖赏:根据奖赏方程:
计算本轮奖赏
其中,XI是个常数,可取64,,/>分别为t、t-1轮的理论精确度,/>分别为t、t-1轮的测试精确度;
S83:从动作空间A中选择动作:本实施例的强化网络模型选择双强化网络模型(DDQN):DQN网络和目标网络避免自举,假设本轮为第t轮,联邦服务器根据动作选择公式计算t+1轮的动作/>,作为t+1轮选取的联邦客户端设备数量,动作选择公式表示为:
其中,表示DQN网络的模型参数,A是动作空间,是联邦客户端设备选择数量的集合空间,例如A={5,6,7...,15},动作/>是动作空间A中的任意一个值,/>表示DQN网络的输出值,/>表示t轮次的全局模型权重状态;
S84:构建训练样本:
为训练样本放入初始化为10的经验池中,当经验池已满,新样本会随机替代旧样本;/>是t-1轮的全局模型权重状态,训练样本基于全局模型权重状态构建,全局图像特征状态基于本地转换模型权重构建,本地转换模型权重基于本地模型权重计算得到;
S9:根据梯度下降法,利用训练样本更新强化网络模型;
在步骤S9中,包括以下步骤:
S91:从经验池中挑选一定数量的训练样本进行训练,具体可为5个;
DQN网络模型的损失函数为:
其中,是t轮的时间差分目标,/>是奖赏值,/>是折扣率,可取0.99,/>是DQN网络的模型参数,/>是目标网络的模型参数;
S92:对损失函数求关于的梯度/>
通过梯度下降:更新DQN网络,对DQN网络进行训练,其中,/>是t+1轮的模型参数,/>表示学习率。
S10:利用动作和本地模型权重,根据凝聚聚类算法选择/>个联邦客户端设备以备下轮训练;
进一步地,根据本地模型权重的差异,通过分层聚类中的凝聚聚类,将I个设备凝聚到/>个组中。
具体地,首先将I个联邦客户端设备单独作为一个组;计算不同组间本地模型权重的负余弦相似度,两个联邦客户端设备的本地模型权重的负余弦相似度可通过以下表达式计算:
其中,表示第t轮第i个联邦客户端设备本地模型权重,/>表示第t轮第k个联邦客户端设备本地模型权重;
将不同组间设备本地模型权重的负余弦相似度的最小两个组合并为一个组,重复直至得到/>个组,组数/>基于强化网络模型计算得到,考虑了不同组间设备的图像数据的非独立同分布性,给出了适应于本地模型权重/>的联邦客户端设备数量。
最后,在每个组中挑选一个到组质心距离最小的设备作为本轮被选中的设备,组质心即与组中所有设备的本地模型权重的负余弦相似度的总和最小的点,这样挑选的设备的具有良好的代表性,可以进一步克服样本特征非独立分布和数量不足的现象,选择更好的图像训练样本,使得全局模型在数量适合、质量优秀的联邦客户端设备上训练图像识别模型,最终提高了基于联邦强化学习和凝聚聚类的图像识别模型方法的训练效率和精确度。
S11:根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型;
进一步地,假设本轮为第轮,联邦服务器等待被选中的设备上传本地模型权重,联邦服务器接收到所有的本地模型权重之后用联邦平均算法通过以下公式进行模型聚合得到新的全局模型/>
其中,表示第i个联邦客户端设备的数据集大小,/>表示联邦客户端设备的数据集大小,/>是第t轮的动作值,即选取的联邦客户端设备数量,/>是本地模型权重。
S12:联邦服务器判断全局模型是否达到预设的结束训练条件,如目标训练轮次或者目标精确度,如果未达到则返回联邦客户端设备步骤S1继续训练,如果达到则获得数学公式图像识别模型。
进一步,在步骤S12中,假设本轮为第t轮,联邦服务器能够通过判断是否达到预设的训练轮次T,或者是判断是否达到全局模型的目标精度,如果没有达到要求,则返回联邦客户端设备步骤S1继续训练;如果达到要求则加入获得数学公式图像识别模型。
S13:待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
在本实施例中,待测图像可以是手写或者印刷数学字符图像,最终的图像识别结果为标准数学公式。
实施例2
本实施例除以下技术内容外,其余技术内容与实施例1相同;
如图2所示,本实施例提供一种数学公式图像的识别系统,包括联邦服务器和多个联邦客户端设备;
在本实施例中,联邦客户端设备获取联邦服务器的全局模型,获取数学公式图像,对数学公式图像进行数据增强,采用编码器CNN对数学公式图像进行特征提取,得到特征图,在特征图/>的每个位置/>上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器,基于注意力机制计算特征加权权重,具体表示为:
其中,表示特征图/>对应的权重矩阵,/>表示向量参数,s m 表示隐藏状态,表示隐藏状态s m 对应的权重矩阵,tanh表示tanh函数;
通过线性变换得到数学公式图像位置特征,根据权重矩阵/>对图像特征在不同位置和通道之间进行加权或减权;
基于权重矩阵对当前时间m的隐藏状态s m 进行线性组合,得到当前时间m的数学公式图像上下文特征;
在本实施例中,联邦客户端设备根据特征加权权重对特征图计算得到数学公式图像整体特征;
在本实施例中,联邦客户端设备将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
在本实施例中,联邦服务器从动作空间中选择t+1轮的动作,获取本地模型权重,根据马尔可夫决策过程生成训练样本,获取训练样本,根据梯度下降法更新强化网络模型,基于t+1轮的动作/>和本地模型权重,根据凝聚聚类算法选择/>个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型,将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
其中,联邦客户端设备是数学公式图像数据的持有方,具有一定的数据和计算能力,每轮被选中的设备从联邦服务器下载全局模型,在本地图像数据集上进行训练,训练完成之后发送回联邦服务器,联邦服务器是联邦学习的中心协作方,维护全局模型、负责挑选设备训练、聚合全局模型,最终获得图像识别模型。联邦服务器可以是独立服务器,也可以是云服务器,以及多个服务器组成的计算集群。
实施例3
本实施例一种计算机设备,该计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的计算机设备,该计算机设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1数学公式图像的识别方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种数学公式图像的识别方法,其特征在于,包括下述步骤:
获取联邦服务器的全局模型;
获取数学公式图像,对数学公式图像进行数据增强;
采用编码器CNN对数学公式图像进行特征提取,得到特征图,在特征图/>的每个位置/>上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器;
基于注意力机制计算特征加权权重,具体表示为:
其中,表示特征图/>对应的权重矩阵,/>表示向量参数,s m 表示隐藏状态,/>表示隐藏状态s m 对应的权重矩阵,tanh表示tanh函数;
通过线性变换得到数学公式图像位置特征,根据权重矩阵/>对图像特征在不同位置和通道之间进行加权或减权;
基于权重矩阵对当前时间m的隐藏状态s m 进行线性组合,得到当前时间m的数学公式图像上下文特征;
根据特征加权权重对特征图计算得到数学公式图像整体特征;
将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
从动作空间中选择t+1轮的动作,获取本地模型权重,根据马尔可夫决策过程生成训练样本;
根据马尔可夫决策过程生成训练样本,具体步骤包括:
对本地模型权重进行主成分分析得到本地转换模型权重,将所有的本地转换模型权重加入到一个集合中,构建得到全局模型权重状态,具体表示为:
其中,表示本地转换模型权重,I表示联邦客户端设备的数量,/>表示t轮次的全局模型权重状态;
根据奖赏方程计算本轮奖赏,具体表示为:
根据奖赏方程:
计算本轮奖赏
其中,表示本轮奖赏,XI表示常数,/>、 />分别为t、t-1轮的理论精确度,/>分别为t、t-1轮的测试精确度;
强化网络模型采用双强化网络模型,包括DQN网络和目标网络;
根据动作选择公式计算t+1轮的动作,作为t+1轮选取的联邦客户端设备数量,动作选择公式表示为:
其中,表示DQN网络的模型参数,A表示动作空间,是联邦客户端设备选择数量的集合空间,动作/>是动作空间A中的任意一个值,/>表示DQN网络的输出值,/>表示t轮次的全局模型权重状态;
构建的训练样本表示为,其中,/>表示t-1轮的全局模型权重状态,/>表示t轮的动作;
获取训练样本,根据梯度下降法更新强化网络模型;
基于t+1轮的动作和本地模型权重,根据凝聚聚类算法选择/>个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量;
根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型;
将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果。
2.根据权利要求1所述的数学公式图像的识别方法,其特征在于,所述对数学公式图像进行数据增强,具体步骤包括:
预设数学公式图像的最大高度H和最大宽度W,遍历所有数学公式图像,对于尺寸大于W×H的数学公式图像,进行等比例缩小到尺寸为W×H的数学公式图像,对于尺寸小于W×H的数学公式图像,进行双线性插值扩充尺寸为W×H的数学公式图像;
在数学公式图像中的某个位置处进行插值,找到距离所选位置最近的四个像素点的坐标/>、/>、/>和/>
根据四个像素点的像素值和所选位置相对位置的距离,进行加权平均计算插值结果,具体表示为:
其中,、/>、/>和/>分别表示数学公式图像在坐标/>、/>和/>处的像素值,w 1表示距离x 1的水平方向权重,w 2表示距离x 2的水平方向权重,h 1表示距离y 1的垂直方向权重,h 2表示距离y 2的垂直方向权重,v表示插值结果。
3.根据权利要求1所述的数学公式图像的识别方法,其特征在于,根据特征加权权重对特征图计算得到数学公式图像整体特征,具体表示为:
对于每个通道c,遍历特征图中的每个位置/>,并将特征加权权重a m,i,j 与对应位置的特征图相乘,将所有乘积项求和得到特征的加权组合u m,c ,通过对特征图进行加权组合得到代表整个特征图在通道c上的加权特征向量。
4.根据权利要求1所述的数学公式图像的识别方法,其特征在于,根据梯度下降法更新强化网络模型,具体包括下述步骤:
DQN网络模型的损失函数为:
其中,表示t轮的时间差分目标,/>表示折扣率,/>表示目标网络的模型参数,s t+1 表示t+1轮的全局模型权重状态;
计算DQN网络的模型参数的梯度,具体表示为:
通过梯度下降更新DQN网络,对DQN网络进行训练;
梯度下降中网络模型参数更新表示为:
其中,表示t+1轮的网络模型参数,/>表示学习率。
5.根据权利要求1所述的数学公式图像的识别方法,其特征在于,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,具体步骤包括:
将联邦客户端设备分组,计算不同组间本地模型权重的负余弦相似度;
将不同组间的联邦客户端设备本地模型权重的负余弦相似度的最小两个组合并为一个组,重复直至得到个组;
在每个组中挑选一个到组质心距离最小的联邦客户端设备作为本轮被选中的联邦客户端设备,组质心即与组中所有联邦客户端设备的本地模型权重的负余弦相似度的总和最小的点。
6.根据权利要求5所述的数学公式图像的识别方法,其特征在于,负余弦相似度的计算公式表示为:
其中,表示第t轮第i个联邦客户端设备本地模型权重,/>表示第t轮第k个联邦客户端设备本地模型权重。
7.根据权利要求1所述的数学公式图像的识别方法,其特征在于,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,具体表示为:
其中, 表示新的全局模型,/>表示第i个联邦客户端设备的数据集大小,/>表示联邦客户端设备的数据集大小, />表示本地模型权重。
8.一种数学公式图像的识别系统,其特征在于,包括联邦服务器和多个联邦客户端设备;
所述联邦客户端设备获取联邦服务器的全局模型,获取数学公式图像,对数学公式图像进行数据增强,采用编码器CNN对数学公式图像进行特征提取,得到特征图,在特征图/>的每个位置/>上包括输入图像中的某个位置经过卷积和池化操作后提取到的特征信息,通道数c表示特征图中的特征维度,每个通道对应不同的特征提取器或滤波器,基于注意力机制计算特征加权权重,具体表示为:
其中,表示特征图/>对应的权重矩阵,/>表示向量参数,s m 表示隐藏状态,/>表示隐藏状态s m 对应的权重矩阵,tanh表示tanh函数;
通过线性变换得到数学公式图像位置特征,根据权重矩阵/>对图像特征在不同位置和通道之间进行加权或减权;
基于权重矩阵对当前时间m的隐藏状态s m 进行线性组合,得到当前时间m的数学公式图像上下文特征;
所述联邦客户端设备根据特征加权权重对特征图计算得到数学公式图像整体特征;
所述联邦客户端设备将数学公式图像整体特征输入到解码器LSTM中进行训练得到本地模型权重,并将训练后的本地模型权重上传到联邦服务器;
所述联邦服务器从动作空间中选择t+1轮的动作,获取本地模型权重,根据马尔可夫决策过程生成训练样本,获取训练样本,根据梯度下降法更新强化网络模型,基于t+1轮的动作/>和本地模型权重,根据凝聚聚类算法选择/>个联邦客户端设备作为下一轮训练选取的联邦客户端设备数量,根据联邦平均算法将本地模型权重进行聚合,得到新的全局模型,迭代训练直至达到预设的结束训练条件,输出数学公式图像识别模型,将待测图像输入至数学公式图像识别模型,得到最终的数学公式图像识别结果;
根据马尔可夫决策过程生成训练样本,具体步骤包括:
对本地模型权重进行主成分分析得到本地转换模型权重,将所有的本地转换模型权重加入到一个集合中,构建得到全局模型权重状态,具体表示为:
其中,表示本地转换模型权重,I表示联邦客户端设备的数量,/>表示t轮次的全局模型权重状态;
根据奖赏方程计算本轮奖赏,具体表示为:
根据奖赏方程:
计算本轮奖赏
其中,表示本轮奖赏,XI表示常数,/>、 />分别为t、t-1轮的理论精确度,/>分别为t、t-1轮的测试精确度;
强化网络模型采用双强化网络模型,包括DQN网络和目标网络;
根据动作选择公式计算t+1轮的动作,作为t+1轮选取的联邦客户端设备数量,动作选择公式表示为:
其中,表示DQN网络的模型参数,A表示动作空间,是联邦客户端设备选择数量的集合空间,动作/>是动作空间A中的任意一个值,/>表示DQN网络的输出值,/>表示t轮次的全局模型权重状态;
构建的训练样本表示为,其中,/>表示t-1轮的全局模型权重状态,/>表示t轮的动作。
9.一种计算机设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-7任一项所述数学公式图像的识别方法。
CN202310626260.9A 2023-05-31 2023-05-31 一种数学公式图像的识别方法、系统和计算机设备 Active CN116363678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310626260.9A CN116363678B (zh) 2023-05-31 2023-05-31 一种数学公式图像的识别方法、系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310626260.9A CN116363678B (zh) 2023-05-31 2023-05-31 一种数学公式图像的识别方法、系统和计算机设备

Publications (2)

Publication Number Publication Date
CN116363678A CN116363678A (zh) 2023-06-30
CN116363678B true CN116363678B (zh) 2023-08-11

Family

ID=86941898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310626260.9A Active CN116363678B (zh) 2023-05-31 2023-05-31 一种数学公式图像的识别方法、系统和计算机设备

Country Status (1)

Country Link
CN (1) CN116363678B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160707A (ja) * 2009-01-09 2010-07-22 Noriomi Sato 画像認識方法およびその装置
CN108764006A (zh) * 2018-02-05 2018-11-06 北京航空航天大学 一种基于深度强化学习的sar图像目标检测方法
CN111160343A (zh) * 2019-12-31 2020-05-15 华南理工大学 一种基于Self-Attention的离线数学公式符号识别方法
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN113569867A (zh) * 2021-01-21 2021-10-29 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备及存储介质
CN113571203A (zh) * 2021-07-19 2021-10-29 复旦大学附属华山医院 多中心基于联邦学习的脑肿瘤预后生存期预测方法及系统
CN114882512A (zh) * 2022-05-27 2022-08-09 圣码智能科技(深圳)有限公司 手写数学公式识别方法、系统、设备和存储介质
CN115081532A (zh) * 2022-07-01 2022-09-20 西安电子科技大学 基于记忆重放和差分隐私的联邦持续学习训练方法
CN115620316A (zh) * 2022-09-23 2023-01-17 深圳大学 基于无线联邦学习的图像识别方法、装置、设备及介质
CN116110059A (zh) * 2023-01-06 2023-05-12 武汉天喻信息产业股份有限公司 一种基于深度学习的离线手写数学公式识别的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4863778B2 (ja) * 2006-06-07 2012-01-25 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160707A (ja) * 2009-01-09 2010-07-22 Noriomi Sato 画像認識方法およびその装置
CN108764006A (zh) * 2018-02-05 2018-11-06 北京航空航天大学 一种基于深度强化学习的sar图像目标检测方法
CN111160343A (zh) * 2019-12-31 2020-05-15 华南理工大学 一种基于Self-Attention的离线数学公式符号识别方法
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN113569867A (zh) * 2021-01-21 2021-10-29 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备及存储介质
CN113571203A (zh) * 2021-07-19 2021-10-29 复旦大学附属华山医院 多中心基于联邦学习的脑肿瘤预后生存期预测方法及系统
CN114882512A (zh) * 2022-05-27 2022-08-09 圣码智能科技(深圳)有限公司 手写数学公式识别方法、系统、设备和存储介质
CN115081532A (zh) * 2022-07-01 2022-09-20 西安电子科技大学 基于记忆重放和差分隐私的联邦持续学习训练方法
CN115620316A (zh) * 2022-09-23 2023-01-17 深圳大学 基于无线联邦学习的图像识别方法、装置、设备及介质
CN116110059A (zh) * 2023-01-06 2023-05-12 武汉天喻信息产业股份有限公司 一种基于深度学习的离线手写数学公式识别的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于支持向量机的数学公式识别;刘婷婷;程涛;金冈增;王熙堃;华东师范大学学报(自然科学版)(第3期);第78-85页 *

Also Published As

Publication number Publication date
CN116363678A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111062282B (zh) 基于改进yolov3模型的变电站指针式仪表识别方法
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
Cao et al. Adversarial learning with local coordinate coding
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN113449594B (zh) 一种多层网络组合的遥感影像地类语义分割与面积计算方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN111401156B (zh) 基于Gabor卷积神经网络的图像识别方法
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
CN113988147B (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN114419468A (zh) 一种结合注意力机制和空间特征融合算法的水田分割方法
CN110942473A (zh) 一种基于特征点网格化匹配的运动目标跟踪检测方法
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN110738239A (zh) 一种基于鼠标交互序列区域行为联合建模的搜索引擎用户满意度评估方法
CN116363678B (zh) 一种数学公式图像的识别方法、系统和计算机设备
CN111339342B (zh) 一种基于角度三元中心损失的三维模型检索方法
CN116958809A (zh) 一种特征库迁移的遥感小样本目标检测方法
CN116580174A (zh) 一种虚拟场景实时构建方法
CN106447691A (zh) 基于加权多示例学习的加权极限学习机视频目标跟踪方法
CN116665039A (zh) 基于两阶段因果干预的小样本目标识别方法
CN114998604A (zh) 一种基于局部点云位置关系的点云特征提取方法
CN114202694A (zh) 基于流形混合插值和对比学习的小样本遥感场景图像分类方法
CN113971737A (zh) 用于机器人的物体识别方法、电子设备、介质和程序产品
Huo et al. Local graph regularized coding for salient object detection
CN113486977B (zh) 一种基于深度学习的无人机测绘方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant