CN117011856A

CN117011856A - 基于深度强化学习的手写笔迹骨架细化方法、系统、设备、介质

Info

Publication number: CN117011856A
Application number: CN202310992316.2A
Authority: CN
Inventors: 覃勋辉; 童佰锐; 石芳; 刘科
Original assignee: Chongqing Western Handwriting Big Data Research Institute
Current assignee: Chongqing Western Handwriting Big Data Research Institute
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-11-07

Abstract

本发明提出了一种基于深度强化学习的手写笔迹骨架细化方法，该骨架细化方法是一种端到端的算法，能够有效降低模型复杂度。该方法包括：获取手写笔迹的二值化图像，计算签名的轮廓像素点；构建马尔可夫决策过程，构建神经网络作为深度强化学习中的深度Q网络DQN，将二值化笔迹图像作为状态输入深度Q网络根据马尔可夫决策过程进行训练，通过每一步迭代，利用动作前后笔迹图像与骨架的IoU值引导智能体对迭代过程中状态进行更新，剔除二值图中多余像素，形成笔迹骨架。提高了手写笔迹特征和准确率，提取图像中的主要结构信息，在机器人视觉，信息安全等领域有着广泛的应用。

Description

基于深度强化学习的手写笔迹骨架细化方法、系统、设备、介质

技术领域

本发明涉及图像处理和智能算法技术领域，具体为一种基于深度强化学习的手写笔迹骨架细化方法。

背景技术

骨架细化生成用于图像处理和计算机视觉领域，可以将图像中的物体骨架，书写笔迹笔画等进行细化，从而提取图像中的主要结构信息，在机器人视觉，信息安全等领域有着广泛的应用。

笔迹细化是手写体识别预处理中的关键技术，细化的结果好坏直接关系到对手写输入识别率的高低，手写笔迹细化可极大地消除冗余信息，提高手写笔迹提取的特征和准确率，由于手写字符、笔迹、图形的多样性和随意性，很难形成统一的细化算法，因此该领域的研究受到越来越多的关注。

在对书写签字笔迹分析和识别之前需要对笔迹图像进行细化处理，剔除不影响字符特征的多余像素，将笔画细化为单像素宽度，因此，骨架细化是手写笔迹识别和分析前的重要一步。由于人在书写时的主观随意性，加上个人书写时使用不同类型的笔，导致书写笔迹的笔画不均匀，同时字符数量众多，中文汉字、外文和各种符号都属于字符的范畴，使得字符的结构形状复杂多变，另外，由于手写笔迹结构的复杂性，给字符笔迹的提取和识别造成了一定的难度。

现有技术的图像骨架生成细化方法有基于传统邻域搜索算法剔除多余像素；有基于生成式的方式直接从笔迹图像中提取字符骨架。传统的骨架细化方法，得到的骨架存在毛刺，部分骨架呈现网状结构，和字符结构明显不符。

基于生成式的方法使用神经网络学习到笔迹图像和笔迹骨架之间的映射，需要大量标注数据进行训练。然而，该方式在笔迹粘连、笔迹交叉等区域都不能较好地得到骨架。为了提高电子文件中电子签名提取和识别的准确性，在对手写字符前期预处理阶段对手写笔迹骨架细化是非常必要的。

公开号：CN107229914A，名称“一种基于深度Q学习策略的手写数字识别方法”，基于深度Q学习策略的手写数字识别方法，针对手写数字标准对象MNIST数据库的识别精度低的问题，利用DAE对原始信号进行抽象特征提取，Q学习算法将DAE对原始信号的编码特征作为当前状态。通过对当前状态进行分类识别得到一个奖励值，并将奖励值返回给Q学习算法以便进行迭代更新。通过最大化奖励值来完成手写数字的高精确识别。设置基于重构误差的特征提取衡量标准；将确定提取到的关键特征向量作为强化学习中Q学习算法的初始状态，手写数字识别结果作为Q学习算法的输出状态，然后进行Q算法寻优决策迭代；构造基于Q学习算法的Q-DBN，通过最大化Q函数值来获取最优策略集从而完成手写数字识别任务。该方法的应用场景是一种手写数字识别任务，数字结构较为简单，而且现阶段的识别任务较为成熟，而笔迹的骨架细化任务更加复杂；该方法以DAE抽取的特征作为强化学习中的状态，使用Q学习算法决策迭代，构建基于Q学习算法的深度信念网络Q-DBN，完成手写数字识别任务，是一个二阶段的方法，其模型较为复杂。

公开号CN110232337A，名称基于全卷积神经网络的中文字符图像笔划提取方法、系统。旨在解决自由书写的手写字符笔划提取困难的问题。对获取的中文字符图像进行区域提取；对交叠区域、非交叠区域进行骨架化操作；计算骨架化后的交叠区域任意笔划段之间的连贯度；获取中文字符图像作为输入图像；提取输入图像中字符笔划的交叠区域图；对交叠区域图、非交叠区域图进行骨架化操作，得到交叠区域骨架形态笔划段集合、非交叠区域骨架形态笔划段集合；并成完整的骨架形态笔划。该方法是一个多阶段的算法，整体流程复杂，涉及到多个功能模块，各个功能模块以级联的方式进行连接，若其中某一个模块输出较差，则后续模块无法得出正常的骨架图。该方法的复杂度很高，涉及到多个模型的训练和数据标注，导致算法模型的训练成本较高。

发明内容

为了克服现有技术存在的上述不足，本发明提供了一种基于深度强化学习的手写笔迹骨架细化方法，使用简单的模型，低成本的训练，通过剔除不影响字符笔迹拓扑结构和特征信息的像素点，使用深度强化学习算法对笔迹图像不断迭代，每次剔除图像上若干像素点，直至形成最终的笔迹骨架图像。

基于本申请一方面，提出一种基于深度强化学习的手写笔迹骨架细化方法，包括：获取手写笔迹二值化图像；为骨架细化任务构建马尔可夫决策过程，构建神经网络模型深度强化学习价值函数或/和策略函数，将笔迹二值化图像作为状态输入神经网络模型根据马尔可夫决策过程进行训练，通过每一步迭代输出产生动作，对迭代过程中状态进行更新，剔除手写笔迹二值图中多余像素，形成笔迹骨架。

进一步优选，所述神经网络模型包括两个结构相同，权重更新时刻不同的价值Q网络模型和目标Q网络模型，将马尔可夫决策的状态值作为价值Q网络模型的输入，输出是与输入同大小的热图，热图中每个位置的元素为强化学习中的Q值，表示当前位置的动作评分，对Q网络模型进行训练，迭代价值参数值，迭代结束将价值Q网络模型的价值参数值更新到目标Q网络模型。

进一步优选，所述构建神经网络模型深度强化学习价值函数或策略函数包括：使用神经网络构建近似动作价值函数Q和策略函数π；输入笔迹二值化图像到神经网络，神经网络构建Q函数对剔除像素点的每个位置评分，并选出评分最高的多个像素点作为动作控制对象，神经网络构建π函数输出剔除像素的坐标位置；根据Q函数或/和π函数的输出确定剔除像素点并对其执行剔除像素的动作。

进一步优选，所述构建马尔可夫决策过程包括，定义强化学习中的状态、动作以及奖励三要素，其中，状态为迭代过程中当前时刻的笔迹二值化图像，动作为剔除笔迹图像上若干坐标位置像素点，奖励为执行动作前后的笔迹图像与笔迹真实骨架的相似度函数，在执行动作前后，笔迹图像与真实骨架的相似度变大，则设置正向奖励，反之设置负向奖励。

进一步优选，使用基于价值的学习方法或/和基于策略的学习方法对神经网络更新学习，初始状态设置为原始笔迹二值化图像，根据当前时刻的状态计算图像轮廓，从轮廓像素中随机选择若干点作为当前时刻探索的动作；设置与笔迹图像大小相同的动作空间，该动作空间中每个位置表示执行动作的评分，选取相应的动作进行迭代获得评分；选取动作空间中预定个评分最高的位置，作为要剔除像素的位置，将笔迹二值化图中该位置的像素置为0。

进一步优选，奖励引导神经网络模型智能体朝着最大化IoU的方向执行动作，若执行动作后当前状态的IoU值比执行动作前大，则奖励设置为1+IoU差值r_IoU；若执行动作前后的IoU值相同，则奖励设置为0；若执行动作后的IoU值比执行动作前小，则奖励设置为-1-IoU差值，具体为根据公式：

r_IoU＝IoU_t-IoU_t+1

计算马尔可夫决策过程中的奖励reward；所述对Q网络模型进行训练包括，根据t+1时刻的状态S_t+1，执行动作a的奖励R_t+1、目标网络的权重参数w’，调用公式：

Q_target＝R_t+1+γ*max Q(S_t+1,；w')

计算更新的目标Q值；根据公式：

计算损失函数Loss，确定网络权重参数w，用状态、动作、权重构建的价值函数Q(s,a；w)近似状态、动作构建的价值函数Q(s,a)，其中，γ表示奖励的折扣因子，B表示一次迭代的样本数量，s表示状态，a表示动作。

根据本申请另一方面，提出一种基于深度强化学习的手写笔迹骨架细化系统，包括：采集模块，训练更新模块，骨架生成模块，采集模块，获取手写笔迹的二值化图像，计算签名的轮廓像素点；训练更新模块，为骨架细化任务构建马尔可夫决策过程，采用神经网络模型作为深度强化学习中的价值网络和决策网络，深度强化学习价值函数或策略函数，将笔迹二值化图像作为状态输入神经网络模型，根据马尔可夫决策过程进行训练，通过每一步迭代输出产生动作，对迭代过程中状态进行更新；骨架生成模块，剔除二值图中多余像素，形成笔迹骨架。

进一步优选，所述神经网络模型包括两个结构相同，权重更新时刻不同的价值Q网络模型和策略Q网络模型，将马尔可夫决策的状态值作为价值Q网络模型的输入，输出是与输入同大小的热图，热图中每个位置的元素为强化学习中的价值参数值，表示当前位置的动作评分，对网络模型进行训练，迭代价值参数值，迭代结束将价值Q网络模型的价值参数值更新到目标Q网络模型；使用神经网络构建近似动作价值函数Q和/或策略函数π；输入笔迹二值化图像到神经网络，神经网络构建Q函数对剔除像素点的每个位置评分，并选出评分最高的多个像素点作为动作控制对象，神经网络构建π函数输出剔除像素的坐标位置；根据Q函数或/和π函数的输出确定剔除像素点并对其执行剔除像素的动作。

进一步优选，使用基于价值的学习方法或/和基于策略的学习方法对神经网络更新学习，初始状态设置为原始笔迹二值化图像，根据当前时刻的状态计算图像轮廓，从图像轮廓像素中随机选择若干点作为当前时刻探索的动作；设置与笔迹图像大小相同的动作空间，该动作空间中每个位置表示执行动作的评分，选取相应的动作进行迭代获得评分；选取动作空间中预定个评分最高的位置，作为要剔除像素的位置，将笔迹二值化图像中该位置的像素置为0；所述构建马尔可夫决策过程包括，定义强化学习中的状态、动作以及奖励三要素，其中，状态为迭代过程中当前时刻的笔迹二值化图像，动作为剔除笔迹图像上若干坐标位置像素点，奖励为执行动作前后的笔迹图像与笔迹真实骨架的相似度函数，在执行动作前后，笔迹图像与真实骨架的相似度变大，则设置正向奖励，反之设置负向奖励。

根据本申请另一方面，提出一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上面所述的基于深度强化学习的手写笔迹骨架细化方法。

根据本申请另一方面，提出一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上面任一项所述的基于深度强化学习的手写笔迹骨架细化方法。

本申请使用深度Q网络对笔迹图像进行迭代，执行根据评分动作剔除多余像素，形成手写骨架。有利于克服书写笔迹的笔画不均匀，以及手写笔迹结构的复杂性带来的提取和识别造成的难度，并且能较好地解决在笔迹粘连、笔迹交叉等区域得到准确笔迹骨架的问题，得到的骨架剔除了毛刺，结构清楚，符合原书写笔迹结构，且模型结果简单，训练成本低，鲁棒性好，不需要大量标注数据进行训练，解决采用传统的手写笔迹识别中模型结果复杂，需要大量标记数据作为训练样本，且得到的骨架存在毛刺，部分骨架呈现网状结构，和字符笔迹结构明显不符的情况。

附图说明

图1本申请示例性实施例中笔迹二值化图像骨架细化流程示意图；

图2为手写笔迹图像转换为笔迹二值化图像的示例图；

图3为本示例性实施例中基于深度强化学习算法流程示意图；

图4为可以应用于本申请的各方面的硬件设备的示例。

具体实施方式

本发明所述的深度强化学习方法为当前的手写笔迹二值化图像构建一个马尔可夫决策过程，通过每一步迭代，利用动作前后笔迹图像与骨架的IoU值来引导智能体对像素进行剔除。下面结合附图和具体实施方式，对本发明作进一步说明。这里所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本申请提出一种基于深度强化学习的手写笔迹骨架细化系统，包括：采集模块，训练更新模块，骨架生成模块，采集模块，获取手写笔迹的二值化图像，计算签名的轮廓像素点；训练更新模块，为骨架细化任务构建马尔可夫决策过程，采用神经网络模型作为深度强化学习中的价值网络和决策网络，深度强化学习价值函数或策略函数，将笔迹二值化图像作为状态输入神经网络模型，根据马尔可夫决策过程进行训练，通过每一步迭代输出产生动作，对迭代过程中状态进行更新；骨架生成模块，剔除二值图中多余像素，形成笔迹骨架。

构建马尔可夫决策过程可以使用基于价值的学习方法如DQN算法、DoubleDQN算法、DuelingDQN算法对神经网络进行更新学习，或使用基于策略的学习方法如策略梯度算法对神经网络进行学习更新。如以DQN算法为例，构建神经网络作为深度强化学习中的深度Q网络，将二值化笔迹图像作为状态输入深度Q网络根据马尔可夫决策过程进行训练，通过每一步迭代，利用动作前后笔迹图像与骨架的相似度引导神经网络模型智能体对迭代过程中状态进行更新，可以通过IoU、SSIM、PSNR或LPIPS等方式计算相似度，可采用IoU作为相似度的度量准则，剔除二值图中多余像素，形成笔迹骨架。

如图1所示为本申请示例性实施例中笔迹二值化图像骨架细化流程示意图。

获取手写笔迹的二值化图像；构建马尔可夫决策过程，将二值化笔迹图像作为状态输入深度学习神经网络模型，根据马尔可夫决策过程对模型进行训练，通过每一步迭代，利用动作前后笔迹图像与骨架的IoU值引导智能体对像素剔除多余像素，形成笔迹骨架。

采集纸质手写笔迹数据，获取手写笔迹图像，对纸质笔迹图像进行分割，提取相应的笔画区域，通过语义分割模型提取笔迹，得到笔迹的掩码图像，也即二值化图像，本实施例可使用SegNet(图像分割网络)模型实现语义分割模型；也可以直接对电子笔迹数据处理，使用语义分割模型只是为了得到笔迹的掩码图，对于电子笔迹数据则可以省略笔迹提取的步骤。

因此，本发明的骨架细化是一个端到端的算法，模型结构较为简单。

构建深度强化学习模型，根据马尔可夫决策过程对模型进行训练，完成对笔迹二值化图像的骨架细化，获得手写笔迹骨架。

本实施例以手写签名为例对小图像骨架细化方法进一步详细描述，包括：确定手写笔迹图像，如采集纸质的笔迹图像数据，使用语义分割网络对手写笔迹图像进行抠图，得到笔迹的掩码图像，即笔迹的二值化图，其中，灰度值为255的像素为笔迹笔画，灰度值为0的像素为非笔迹笔画，即图像背景。

马尔可夫决策过程(Markov Decision Process,MDP)是序贯决策的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。MDP基于一组交互对象，即智能体和环境进行构建，所具有的要素包括状态、动作、策略和奖励。在MDP的模拟中，智能体会感知当前的系统状态，按策略对环境实施动作，从而改变环境的状态并得到奖励，奖励随时间的积累被称为回报。MDP被用于机器学习中强化学习问题的建模。通过使用动态规划、随机采样等方法，MDP可以求解使回报最大化的智能体策略，并在自动控制、推荐系统等主题中得到应用。

本示例性实施例基于手写笔迹的二值化图像，构建马尔可夫决策过程，定义强化学习中所需的三要素：状态、动作以及奖励，构建马尔科夫决策过程。

利用强化学习中的Q学习算法将手写笔迹的二值化图像作为当前状态。通过对当前状态进行预测输出热图，根据热图执行动作并得到一个奖励，将奖励值返回给Q学习算法以便进行迭代更新。强化学习中Q学习算法的初始状态是笔迹的初始二值化图像，输出为与二值化图像同等大小的热图，作为神经网络模型中价值网络的价值函数，根据热图剔除二值化图像中的若干像素，也即改变状态，然后进行决策迭代；构造基于Q学习的DQN算法，通过最大化Q函数值来获取最优策略从而完成手写笔迹的骨架细化任务。

基于马尔可夫决策要素，构建神经网络作为深度强化学习中的价值网络(也即近似Q函数的Q网络)，将手写笔迹的二值化图像作为状态输入Q网络，输出是与输入同大小的热图，热图中每个位置的元素表示二值化图中对应位置的响应程度，即该位置在二值化图中要被剔除像素的动作评分。

神经网络强化学习中的学习与决策者被称为智能体，与智能体交互的部分则称为环境，在当前场景中，智能体是产生决策动作的、包含Q网络模型的计算机程序模块，环境则是对动作进行响应，产生对应奖励的、独立于Q网络的计算机程序模块。

可根据每个时间步DQN模型的智能体与环境交互得到的样本构建经验池，样本包括：状态、采取的动作、反馈的奖励、采取动作之后转变的状态。从经验池中随机抽取部分样本对深度Q网络进行学习训练。

在DQN的迭代过程中，经验池不断存入智能体探索得到的样本数据，使用的探索策略是ε-greedy(ε贪心)策略，每次以ε的概率根据Q网络的输出产生动作，以1-ε的概率随机生成动作，使得智能体有探索的机会，增加经验池中样本的丰富性和多样性，其中ε是设定的超参数。

当经验池存储满之后，丢弃经验池中的最先存储的历史样本数据，以保证经验池中存有最新的样本；同时当经验池存满之后，智能体将从经验池中随机抽取批量的样本进行学习。经验池中存储的样本是状态、动作、奖励和下一状态的集合，在最初的学习阶段，经验池是空的，此阶段需要智能体进行大量的随机探索，而不进行学习；当随机探索得到的样本填充满经验池后，智能体开始进行学习，同时边学习边更新经验池，使用上述的ε-greedy策略得到新的样本数据。

学习过程中，更新价值网络的参数，如可通过DQN模型算法更新计算价值网络的参数。为了保持目标值的稳定性，从而提高训练的稳定性和收敛速度。

本示例性实施例的神经网络模型构建两个Q网络执行DQN算法，其中，一个是价值网络，一个是目标网络。两个Q网络为结构相同，权重更新时刻不同的价值Q网络模型和目标Q网络模型，将马尔可夫决策的状态值作为价值Q网络模型的输入，输出是与输入同大小的热图，热图中每个位置的元素为强化学习中的Q值，表示当前位置的动作评分，对Q网络模型进行训练，迭代价值参数值，迭代结束将价值Q网络模型的价值参数值更新到目标Q网络模型。

使用神经网络构建近似动作价值函数Q和策略函数π；输入笔迹二值化图像到神经网络，神经网络构建Q函数对剔除像素点的每个位置评分，并选出评分最高的多个像素点作为动作控制对象，神经网络构建π函数输出剔除像素的坐标位置；根据Q函数或/和π函数的输出确定剔除像素点并对其执行剔除像素的动作。

价值网络用于每次迭代的更新，而目标网络用于计算目标值，目标网络会以一定的时间间隔拷贝价值网络的参数到自身，该时间间隔是训练开始设定的超参数。

使用基于价值的学习方法或/和基于策略的学习方法对神经网络更新学习，初始状态设置为原始笔迹二值化图像，根据当前时刻的状态计算图像轮廓，从图像轮廓像素中随机选择若干点作为当前时刻探索的动作；设置与笔迹图像大小相同的动作空间，该动作空间中每个位置表示执行动作的评分，选取相应的动作进行迭代获得评分；选取动作空间中预定个评分最高的位置，作为要剔除像素的位置，将笔迹二值化图像中该位置的像素置为0；所述构建马尔可夫决策过程包括，定义强化学习中的状态、动作以及奖励三要素，其中，状态为迭代过程中当前时刻的笔迹二值化图像，动作为剔除笔迹图像上若干坐标位置像素点，奖励为执行动作前后的笔迹图像与笔迹真实骨架的相似度函数，在执行动作前后，笔迹图像与真实骨架的相似度变大，则设置正向奖励，反之设置负向奖励。

基于马尔可夫决策过程，确定使用DQN算法解决该问题。在DQN算法的迭代过程中，根据目标Q值和深度Q网络输出的Q值之间的均方误差，计算深度Q网络输出的损失。

图2所示为纸质手写笔迹经过分割后的图像示例，如个人签名“李好”图像提取的二值图，其中灰度值为255的像素为签名笔画，灰度值为0的像素为非签名笔画，即图像背景。

基于笔迹的二值化图像，构建马尔可夫决策过程，即定义强化学习中所需的三要素：状态、动作以及奖励；马尔可夫决策过程的核心是在时序上的各种状态下选择最优动作得到最大回报的决策序列，该序列包含了状态、动作和奖励等信息，所以明确了状态、动作和奖励则明确了马尔科夫决策过程。

本示例性实施例中基于二值化图像构建马尔可夫决策过程，定义深度强化学习中涉及的状态值，动作值以及奖励值。

状态：设置当前时刻的笔迹图像作为马尔可夫决策过程的状态值，即笔迹二值化图像；初始状态是读取的原始手写笔迹的二值化图像，该原始二值化图像作为状态输入DQN模型；从上述看出，笔记的二值化图像是随着时刻动态变化的，每一时刻根据动作更新二值化图，也即更新状态。

动作：如上所述智能体是产生决策动作的、包含Q网络模型的计算机程序，环境则是对动作进行响应，产生对应奖励的、独立于Q网络的计算机程序，设置智能体的动作为深度Q网络输出的热图，该热图与笔迹图像(即二值化图像)的大小相同，设图像大小为N×M，则输出的动作热图的大小也是N×M，在该N×M的二维空间中每个位置表示动作的评分，根据评分最高的若干区域坐标作为动作，即将这些坐标视为剔除笔迹二值化图上像素的位置坐标。如在动作空间中选取前预定数量(如可选100个)评分最高的位置，作为剔除多余像素的位置坐标，该预定数量是一个经验值；若选择的动作为Action＝[(x₁,y₁),(x₂,y₂),…,(x_k,y_k)]，则将手写笔迹的二值化图像中处于Action位置的像素置为0。

奖励：设置采取动作前后IoU(交并比)差值来作为深度强化学习中环境的奖励；IoU计算的是两个笔迹二值化图的相似度，这里用于度量笔迹二值化图与真实骨架的相似度，IoU的取值范围为[0,1]，越大说明越相似。IoU计算公式如下，A表示笔迹二值化图，B表示笔迹对应的真实骨架，因为动作前后笔迹二值化图会因为剔除若干像素发生变化，所以动作前后与骨架的IoU是不同的，计算两者的差值可以描述动作前后笔迹二值化图与真实骨架相似的程度。

若采取动作后状态与真实骨架的IoU值比采取动作前的IoU大，则奖励设置为1+IoU差值；若是动作前后的IoU相同，则奖励设置为0；若采取动作后的IoU值比采取动作前的IoU小，则奖励设置为-1+IoU差值。

由此，根据如下公式确定马尔可夫决策过程中的奖励，根据公式：

r_IoU＝IoU_t-IoU_t+1

计算r_IoU表示动作前后的IoU差值，描述动作前后笔迹二值化图与骨架的相似度，该动作有没有使得笔迹二值化图更接近骨架，IoU_t表示动作前的IoU，IoU_t+1表示动作后的IoU，两者之差得到r_IoU后，通过上述公式即可得到奖励。

如图3所示为本示例性实施例中基于深度强化学习算法流程示意图。

构建神经网络作为深度强化学习中的价值网络，也即深度Q网络，深度Q网络包括：价值网络和目标网络，其网络结构可使用UNet(U型图像分割网络)模型作为骨干。

将状态值作为深度Q网络的输入，输出是与输入同大小的热图，热图中每个位置的元素即强化学习中的Q值；表示当前位置的动作的评分，深度Q网络学习过程中从经验池中随机抽取部分样本，对网络模型进行训练，迭代价值参数值，迭代结束将价值Q网络的价值参数值更新到目标Q网络。

可调用DQN算法模型更新计算价值参数值。

获取二值图t时刻状态输入DQN算法模型，输出大小相同的热图作为下一时刻(t+1)时刻状态，环境单元将下一时刻状态(t+1时刻)与上一时刻(t时刻)状态进行比较，得到反馈奖励反馈回网络模型。

使用DQN算法模块对状态不断迭代。在DQN的迭代过程中，最初智能体只探索，使用随机探索的方式获得大量样本并存入经验池，当经验池存储满之后，智能体边学习边更新经验池，新样本通过ε-greedy(ε贪心)策略获得，丢弃经验池中的历史样本数据并存入新样本数据，以保证经验池中存有最新的样本；同时当经验池存满之后，智能体将从经验池中随机抽取批量的样本进行学习。

通过DQN算法模型更新计算目标网络Q值：

Q_target＝R_t+1+γ*max Q(S_t+1,；w')

其中，S_t+1表示执行动作后的状态，R_t+1表示执行动作a的奖励，w表示估计值网络的权重参数，w’表示目标值网络的权重参数；γ表示奖励的折扣因子；t表示时刻，a_t+1表示t+1时刻的动作。智能体在初始探索环境时，对当前时刻的状态计算其轮廓，从轮廓像素点中随机选择若干点作为当前时刻探索的动作，以避免经验池中出现正负样本不均衡的情况。

首先获取纸质笔迹的二值化图像，也即笔迹的掩码图像，是为了方便使用深度强化学习对笔迹二值化图像进行骨架细化任务，如果是电子签名图像，其本身是二值化图像，则不需要此步骤。强化学习算法将笔迹二值化图作为深度Q网络的输入，也即状态，深度Q网络的输出是与输入相同大小的热图，从热图上选择响应最高的若干区域坐标作为动作，执行动作并更新状态(改变笔迹二值化图)。深度强化学习是一个迭代的过程，最初的笔迹二值化图是初始状态，首先求得二值化图上的轮廓点记为集合E，将笔迹二值化图输入深度Q网络后输出对应的热图，选择热图上响应最高的，且是集合E中的若干点的坐标，将这些坐标点作为剔除二值化图上像素的位置坐标，因此动作执行后二值化图像上已经剔除了若干多余像素。接着将此时已剔除若干像素的二值化图继续求出新的轮廓集合E，并将二值化图作为深度Q网络的输入，输出对应的热图执行对应动作，以此迭代若干步骤。每次迭代过程中求二值化图的轮廓的目的是尽可能多地剔除正确的像素，而不是与笔迹无关的像素点。

在DQN算法的迭代过程，计算目标值与深度Q网络输出的损失，该损失可使用均方误差计算；同时对深度Q网络中的权重参数使用截断正态分布随机初始化，深度Q网络最后的输出层使用Sigmoid函数；

其中，B表示一次迭代中的样本数量，即批大小，i表示样本编号。

由两个Q网络执行上述DQN算法：一个是价值网络，一个是目标网络；公式中的Q(S_t+1,；w')表示目标函数，Q(S_t+1,a；w)表示价值函数，价值网络用于每次迭代的更新，而目标网络用于计算目标值。

本发明中涉及的经验池是由每个时间步DQN算法的智能体与环境交互得到的样本，该样本包含4部分：t时刻的状态S_t，采取的动作a，环境反馈的奖励R，采取动作a之后转变为状态S_t+1。如前所述，状态是笔迹的二值化图，是随着时刻动态变化的，动作是Q网络输出的热图中响应最强的区域。所构建的深度Q网络，其最后输出的热图大小等于动作空间的大小。

深度价值网络DQN(Deep Q-network)完成基于深度学习的Q-Learing算法。Q-Learing算法维护一个Q-table，使用表格存储每个状态s下采取动作a获得的奖励，即状态-价值函数Q(s,a)，这种算法存在很大的局限性，在现实中很多情况下，强化学习任务所面临的状态空间是连续的，存在无穷多个状态，这种情况就不能再使用表格的方式存储价值函数。为了解决这个问题，用包含权重参数的函数Q(s,a；w)来近似动作-价值函数Q*(s,a)，其中，w是神经网络的权重参数。神经网络的训练是一个最优化问题，采用网络输出和标签值之间的差值作为损失函数，训练的目标是让损失函数最小化，通过反向传播使用梯度下降的方法来更新神经网络的权重参数。

深度Q网络作为动作价值函数的网络模型，网络的权重参数为w，用包含网络权重参数的函数Q(s,a；w)模拟动作价值函数Q*(s,a)，其中s表示当状态，a表示当前动作，即

Q^*(s,a)＝Q(s,a；w)

Q(s,a；w)表示深度Q网络模型函数，其中w表示神经网络的权重参数，使用w表示的神经网络函数可以近似表示真实的动作值函数Q*(s,a)，解决因为复杂问题导致状态无穷多的情况下Q-learning无法使用的处境。

对于深度Q网络的训练使用优化器进行梯度更新，深度Q网络训练完成后，使用IoU(交并比)和F1-score(F1分数)对算法的细化结果进行评估。IoU能衡量两幅笔迹二值化图的相似性程度，即笔迹二值化图与真实骨架的相似性；F1分数能评估笔迹二值化图细化到骨架图与真实骨架的距离，是用于评估骨架细化好坏的两个指标。

将迭代过程中某一时刻的笔迹图像作为马尔可夫决策过程中该时刻的状态值，这里的状态即确定的笔迹二值化图像；初始状态是读取的原始笔迹二值化图像，该状态也是DQN算法模型的输入。

最初获得纸质笔迹的二值化图像，也即笔迹的掩码图像，使用深度强化学习对笔迹二值化图像进行骨架细化任务。将笔迹二值化图作为深度Q网络的输入，也即状态，输出与输入相同大小的热图，从热图上选择响应最高的若干区域坐标作为动作。深度强化学习是不断迭代的过程。如图3所示，最初的笔迹二值化图是初始状态，输入深度Q网络后输出对应的热图，选择热图上响应最高的若干点的坐标，将这些坐标点作为剔除二值化图上像素的位置坐标，因此动作执行后二值化图像上已经剔除了若干多余像素。接着将此时已剔除若干像素的二值化图继续作为深度Q网络的输入，输出对应的热图执行对应动作，以此迭代若干步骤。

定义智能体的动作。将笔迹图像上若干像素点置为0，剔除图像上多余的像素点。设置与笔迹图像的大小相同的Q网络的输出热图作为动作，如图像大小为N×M，则动作空间的大小也是N×M，在该二维动作空间中每个位置表示执行动作的评分，即动作的价值；智能体迭代过程中根据ε-greedy(ε贪心)策略选取相应的动作：以ε的概率根据Q网络的输出产生动作，以1-ε的概率随机生成动作。

在动作空间中选取前K个评分最高的位置，作为将要剔除多余像素的位置坐标，若选择的动作空间中的位置为Action＝[(x₁,y₁),(x₂,y₂),…,(x_k,y_k)]，则将笔迹二值化图中处于Action位置的像素置为0；其中的变量K为预先设定的超参数。

设置每次迭代执行动作后环境反馈的奖励，利用动作前后当前状态和真实骨架的IoU之差作为马尔可夫决策过程中环境的奖励；若采取动作后当前状态的IoU值比采取动作前的IoU大，则奖励设置为1+IoU差值；若是动作前后的IoU相同，则奖励设置为0；若采取动作后的IoU值比采取动作前的IoU小，则奖励设置为-1-IoU差值。该奖励函数的设计将引导智能体朝着最大化IoU的方向执行动作。

智能体在初始探索环境时，根据二值图当前时刻的状态计算其轮廓，即计算得到当前时刻的笔迹二值化图像的轮廓像素，从轮廓像素点中随机选择若干点作为当前时刻探索的动作，其目的是尽可能使得经验池中含有正样本，即真正需要剔除的笔迹像素点，而不是与笔迹无关的像素点。

以下以一具体实施例说明本发明的实施。

由于签名是最常用最广泛的手写笔迹之一，在本发明的具体实施实例中，以签名图像数据集为对象，使用DQN算法进行迭代，逐步剔除多余的像素直至图像上留下最终的骨架，该阶段中使用的深度Q网络是UNet网络模型。

1.对签名图像数据集中的图像进行语义分割处理，使签名图像全部转换为签名二值化图像。

2.使用二值化的图像数据计算签名的轮廓像素点，这些像素点集合作为智能体初步探索环境的动作空间范围。

3.将二值化的签名图作为状态，签名图像数据集中图像分辨率为256*128，因此状态的维度大小为256*128*1。

4.该实例中动作空间为256*128*1，该动作空间也是签名图像需要剔除像素的坐标集合A，根据ε-greedy策略选取相应的动作：在动作空间A中选取前100个评分最高的位置，作为剔除图像上像素的坐标，将图像中坐标在所选范围的像素置为0。

5.神经网络模型中智能体不断地探索环境，将探索时遇到的样本添加到经验池中，当经验池满了后开始训练深度Q网络。

进一步地，本申请示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本申请实施例的方法。

本申请示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

本申请示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

参考图4，现将描述可以作为本申请的服务器或客户端的电子设备300的结构框图，其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，电子设备300包括计算单元301，其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序，来执行各种适当的动作和处理。在RAM303中，还可存储设备300操作所需的各种程序和数据。计算单元301、ROM302以及RAM303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

电子设备300中的多个部件连接至I/O接口305，包括：输入单元306、输出单元307、存储单元308以及通信单元309。输入单元306可以是能向电子设备300输入信息的任何类型的设备，输入单元306可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元307可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元308可以包括但不限于磁盘、光盘。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理。例如，在一些实施例中，根据签名笔画的原始轨迹重绘出其肌肉运动轨迹的重构与分解，以及其对数速度曲线的分解等可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元308。在一些实施例中，计算机程序的部分或者全部可以经由ROM302和/或通信单元309而被载入和/或安装到电子设备300上。在一些实施例中，计算单元301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行签名笔迹动态获取实现方法。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本申请使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，上述的实施方式的详细描述并非旨在限制要求保护本发明的范围，而仅表示本发明的选定实施方式，所以举例数值的变更或功能模块的置换仍应隶属本发明的范畴。

Claims

1.一种基于深度强化学习的手写笔迹骨架细化方法，其特征在于，包括：获取手写笔迹二值化图像；为骨架细化任务构建马尔可夫决策过程，构建神经网络模型深度强化学习价值函数或/和策略函数，将笔迹二值化图像作为状态输入神经网络模型根据马尔可夫决策过程进行训练，通过每一步迭代输出产生动作，对迭代过程中状态进行更新，剔除手写笔迹二值图中多余像素，形成笔迹骨架。

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括两个结构相同，权重更新时刻不同的价值Q网络模型和目标Q网络模型，将马尔可夫决策的状态值作为价值Q网络模型的输入，输出是与输入同大小的热图，热图中每个位置的元素为强化学习中的Q值，表示当前位置的动作评分，对Q网络模型进行训练，迭代价值参数值，迭代结束将价值Q网络模型的价值参数值更新到目标Q网络模型，用包含网络权重参数的神经网络函数Q(s,a；w)模拟动作价值函数Q*(s,a)。

3.根据权利要求1所述的方法，其特征在于，所述构建神经网络模型深度强化学习价值函数或策略函数包括：使用神经网络构建近似动作价值函数Q和策略函数π；输入笔迹二值化图像到神经网络，神经网络构建Q函数对剔除像素点的每个位置评分，并选出评分最高的多个像素点作为动作控制对象，神经网络构建π函数输出剔除像素的坐标位置；根据Q函数或/和π函数的输出确定剔除像素点并对其执行剔除像素的动作。

4.根据权利要求1所述的方法，其特征在于，所述构建马尔可夫决策过程包括，定义强化学习中的状态、动作以及奖励三要素，其中，状态为迭代过程中当前时刻的笔迹二值化图像，动作为剔除笔迹图像上若干坐标位置像素点，奖励为执行动作前后的笔迹图像与笔迹真实骨架的相似度函数，在执行动作前后，笔迹图像与真实骨架的相似度变大，则设置正向奖励，反之设置负向奖励。

5.根据权利要求1-4其中之一所述的方法，其特征在于，使用基于价值的学习方法或/和基于策略的学习方法对神经网络更新学习，初始状态设置为原始笔迹二值化图像，根据当前时刻的状态计算图像轮廓，从轮廓像素中随机选择若干点作为当前时刻探索的动作；设置与笔迹图像大小相同的动作空间，该动作空间中每个位置表示执行动作的评分，选取相应的动作进行迭代获得评分；选取动作空间中预定个评分最高的位置，作为要剔除像素的位置，将笔迹二值化图中该位置的像素置为0。

6.根据权利要求1-4其中之一所述的方法，其特征在于，所述对Q网络模型进行训练包括，根据t+1时刻的状态S_t+1，执行动作a的奖励R_t+1、目标网络的权重参数w’，调用公式：

Q_target＝R_t+1+γ*max Q(S_t+1,；w')

计算更新的目标Q值；根据公式：计算损失函数Loss，确定网络权重参数w，用状态、动作、权重构建的价值函数Q(s,a；w)近似状态、动作构建的价值函数Q(s,a)，其中，γ表示奖励的折扣因子，B表示一次迭代的样本数量，s表示状态，a表示动作。

7.根据权利要求4所述的方法，其特征在于，计算马尔可夫决策过程中的奖励，奖励引导神经网络模型智能体朝着最大化IoU的方向执行动作，若执行动作后当前状态的IoU值比执行动作前大，则奖励设置为1+IoU差值；若执行动作前后的IoU值相同，则奖励设置为0；若执行动作后的IoU值比执行动作前小，则奖励设置为-1-IoU差值。

8.一种基于深度强化学习的手写笔迹骨架细化系统，其特征在于，包括：采集模块，训练更新模块，骨架生成模块，采集模块，获取手写笔迹的二值化图像，计算签名的轮廓像素点；训练更新模块，为骨架细化任务构建马尔可夫决策过程，采用神经网络模型作为深度强化学习中的价值网络和决策网络，深度强化学习价值函数或策略函数，将笔迹二值化图像作为状态输入神经网络模型，根据马尔可夫决策过程进行训练，通过每一步迭代输出产生动作，对迭代过程中状态进行更新；骨架生成模块，剔除二值图中多余像素，形成笔迹骨架。

9.根据权利要求8所述的系统，其特征在于，所述神经网络模型包括两个结构相同，权重更新时刻不同的价值Q网络模型和策略Q网络模型，将马尔可夫决策的状态值作为价值Q网络模型的输入，输出是与输入同大小的热图，热图中每个位置的元素为强化学习中的价值参数值，表示当前位置的动作评分，对网络模型进行训练，迭代价值参数值，迭代结束将价值Q网络模型的价值参数值更新到目标Q网络模型，用包含网络权重参数的神经网络函数Q(s,a；w)模拟动作价值函数Q*(s,a)；使用神经网络构建近似动作价值函数Q和/或策略函数π；输入笔迹二值化图像到神经网络，神经网络构建Q函数对剔除像素点的每个位置评分，并选出评分最高的多个像素点作为动作控制对象，神经网络构建π函数输出剔除像素的坐标位置；根据Q函数或/和π函数的输出确定剔除像素点并对其执行剔除像素的动作。

10.根据权利要求8所述的系统，其特征在于，使用基于价值的学习方法或/和基于策略的学习方法对神经网络更新学习，初始状态设置为原始笔迹二值化图像，根据当前时刻的状态计算图像轮廓，从图像轮廓像素中随机选择若干点作为当前时刻探索的动作；设置与笔迹图像大小相同的动作空间，该动作空间中每个位置表示执行动作的评分，选取相应的动作进行迭代获得评分；选取动作空间中预定个评分最高的位置，作为要剔除像素的位置，将笔迹二值化图像中该位置的像素置为0；所述构建马尔可夫决策过程包括，定义强化学习中的状态、动作以及奖励三要素，其中，状态为迭代过程中当前时刻的笔迹二值化图像，动作为剔除笔迹图像上若干坐标位置像素点，奖励为执行动作前后的笔迹图像与笔迹真实骨架的相似度函数，在执行动作前后，笔迹图像与真实骨架的相似度变大，则设置正向奖励，反之设置负向奖励。

11.一种电子设备，包括：处理器；以及存储程序的存储器，其特征在于，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的基于深度强化学习的手写笔迹骨架细化方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的基于深度强化学习的手写笔迹骨架细化方法。