CN108154136A

CN108154136A - 用于识别字迹的方法、装置及计算机可读介质

Info

Publication number: CN108154136A
Application number: CN201810035543.5A
Authority: CN
Inventors: 安睿; 陆王天宇
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Shanghai Zhongan Information Technology Service Co ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2018-06-12
Anticipated expiration: 2038-01-15
Also published as: CN108154136B

Abstract

本发明的实施例公开了用于识别字迹的方法、装置和计算机可读存储介质。该方法包括：利用从时间采样的历史字迹数据集获得的多个用户的历史字迹段数据和与历史字迹段数据相关的历史用户标签数据作为训练样本，训练生成包含循环神经网络和深度神经网络的判别模型，其中，将历史字迹段数据输入到循环神经网络，循环神经网络输出指示用户字迹风格的特征值，特征值被输入到深度神经网络；将历史用户标签数据输入到深度神经网络，深度神经网络用于进行用户字迹分类；对循环神经网络和深度神经网络一起进行训练。本发明使用循环神经网络有效地对字迹风格进行建模，可以实时、准确地识别字迹，同时对不同的语言有较为良好的扩展性。

Description

用于识别字迹的方法、装置及计算机可读介质

技术领域

概括地说，本公开涉及数据处理领域，更具体地说，涉及用于识别字迹的方法、装置及计算机可读存储介质。

背景技术

神经网络(Neural Network)是一种人为设计的网络结构，其本质是多层感知机(Multi-layer Perceptron)。感知机由若干神经元(Neuron)构成，每个神经元从外部或其它节点收到输入信号，并通过激活函数得到输出信号，就像大脑中神经元的信号传递。神经元按层相连，形成网络结构。与神经细胞不同，人工神经元的信号能够反向传播，这种反馈机制让感知机具备学习功能。除了学习功能，多层感知机可以表示非线性映射，因此神经网络能够帮助人们解决一些相对复杂的问题，如模式识别、自动控制、决策评估、预测等。

在现代社会中，尽管诸如指纹、虹膜和面部识别等生物识别技术已经有了长足的进步，但传统的手写签字仍然经常被用于个人身份的验证，字迹识别与认证在安全、金融、司法和电子商务等应用领域中尤为重要，诸如合同签订、消费账单签字、司法鉴定等场景。由于手写签字具有法律效应，因此对签字的验证有非常重要的意义。

一类字迹的识别方法是使用卷积神经网络(CNN)等识别算法，通过提取字迹图像的结构信息进行字迹识别。然而，现有的通过字迹图像的图像信息进行字迹识别的算法，会忽略手写过程中笔迹坐标序列的时间特性，而缺失的时间特性中实际包含有大量的书写识别特征。例如，具有近似图像结构的字迹可能在时间上的书写过程差异很大。电子签字数据是将签字序列化，例如采用数位板等抽样设备将笔迹抽样为时序信号，每一个时间点的信号包含有数字笔此时的坐标，有些更精确的设备还会包括笔的压力抽样数据、运动速度抽样数据等。现有的针对这种时间序列的字迹的验证可以使用多种基于深度学习的方法，例如对写字时手腕运动数据进行采集(诸如利用可佩带智能设备)并进行频谱差异特征学习、字迹序列的动态时间规整(DTW)差异特征学习等。

然而，这些方法往往需要相对大量的字迹数据支持，有些方法还需要伪造字迹的数据样本，同时对不同语言(例如，汉字、英文等)的兼容性较差，较难训练一个足够健壮的模型进行字迹识别。

因此，亟需一种用于识别字迹的改进的方法。

发明内容

现有的字迹识别方法主要考虑字迹图像，忽略了字迹生成过程中的大量信息，而且往往需要相对大量的字迹数据支持，同时对不同语言的兼容性较差，难以训练一个足够健壮的模型进行字迹识别。本发明针对以上问题，提出了用于识别字迹的方法、装置和计算机可读存储介质。

本公开的第一方面提供了一种用于字迹识别的方法，所述方法包括：利用从时间采样的历史字迹数据集获得的多个用户的历史字迹段数据和与所述历史字迹段数据相关的历史用户标签数据作为训练样本，训练生成包含循环神经网络和深度神经网络的判别模型，其中，将所述历史字迹段数据输入到所述循环神经网络，所述循环神经网络输出指示用户字迹风格的特征值，所述特征值被输入到所述深度神经网络；将所述历史用户标签数据输入到所述深度神经网络，所述深度神经网络用于进行用户字迹分类；对所述循环神经网络和深度神经网络一起进行训练。

本公开的第二方面提供了一种用于字迹识别的装置，所述装置包括：存储器，其用于存储指令；以及处理器，其耦合到所述存储器，所述处理器被配置为基于所述指令来执行以下操作：利用从时间采样的历史字迹数据集获得的多个用户的历史字迹段数据和与所述历史字迹段数据相关的历史用户标签数据作为训练样本，训练生成包含循环神经网络和深度神经网络的判别模型，其中，将所述历史字迹段数据输入到所述循环神经网络，所述循环神经网络输出指示用户字迹风格的特征值，所述特征值被输入到所述深度神经网络；将所述历史用户标签数据输入到所述深度神经网络，所述深度神经网络用于进行用户字迹分类；对所述循环神经网络和深度神经网络一起进行训练。

本公开的第三方面提供了一种其上存储有指令的计算机可读存储介质。所述指令在被执行时实现如上文所述的方法。

不同于现有的字迹识别与验证，本发明使用循环神经网络有效地对字迹风格进行建模，而不是利用字迹字形进行验证，可以有效地抵御刻意模仿者的伪造，对于字迹的识别和认证具有实时、准确的特点，同时对不同的语言有较为良好的扩展性。

附图说明

结合附图并参考以下详细描述，本公开的各实施例的特征、优点及其它方面将变得更加明显，在此以示例性而非限制性的方式示出了本公开的若干实施例，在附图中：

图1示出依据本发明实施例的用于字迹识别的示例性方法100的流程图；

图2示出依据本发明实施例的用于字迹识别的示例性装置200的示意图；以及

图3示出依据本发明实施例的用于字迹识别的方法的一个具体示例300。

具体实施方式

以下参考附图详细描述本公开的各个示例性实施例。虽然以下描述示例性方法、装置包括在其它组件当中硬件上执行的软件和/或固件，但应注意，这些示例仅仅是说明性的，不应看作限制。例如，考虑在硬件中独占地、在软件中独占地、或在硬件和软件的任何组合中可以实施任何或所有硬件、软件和固件组件。因此，虽然以下描述示例性方法和装置，但本领域技术人员应容易理解，提供的示例不仅仅是用于实现这些方法和装置方式。

此外，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

本文使用词语“示例性”表示“充当示例、实例或举例说明”。本文中被描述为“示例性”的任何实施例都并非必然解释为对于其它实施例而言是优选的或有优势的。

图1示出依据本发明实施例的用于字迹识别的示例性方法100的流程图。如流程图所示，方法100包括以下步骤：

步骤S101：将从时间采样的历史字迹数据集获得的多个用户的历史字迹段数据输入到循环神经网络(RNN)，所述循环神经网络输出指示用户字迹风格的特征值，所述特征值被输入到深度神经网络(DNN)。在该步骤中，采用循环神经网络对字迹风格建模，与传统前馈神经网络(FNN)不同，循环神经网络在神经元中引入定向循环，能够处理输入信号时序前后关联的问题，可以用于时间序列的语音识别、字迹识别等应用。同时，在该步骤中，循环神经网络输出被级联到深度神经网络，以有助于后续对特征值的分类。

步骤S102：将从时间采样的历史字迹数据集获得的和与所述历史字迹段数据相关的历史用户标签数据输入到所述深度神经网络，所述深度神经网络用于进行用户字迹分类。在该步骤中，深度神经网络基于从循环神经网络输出的特征值和历史用户标签数据来进行用户字迹分类，历史用户标签数据用于指示字迹的书写者。

步骤S103：利用所述历史字迹段数据和所述历史用户标签数据作为训练样本，对所述循环神经网络和所述深度神经网络一起进行训练，以生成包含所述循环神经网络和所述深度神经网络的判别模型。在该步骤中，对循环神经网络和深度神经网络一起训练，使得利用具有相同用户标签的字迹段数据可以生成相似的特征值，例如该特征值为多维向量，相似度高的特征值可以是(欧式)距离上接近的特征值，经联合训练可以生成用于字迹识别的判别模型。

可选地，所述用户字迹风格包括以下中的一项或多项：字迹生成速度、字迹书写形态、字迹书写顺序、字迹书写连笔等。

可选地，方法100还可以包括以下步骤：从所述历史字迹数据集获得历史字迹数据，对所述历史字迹数据进行预处理以获得所述历史字迹段数据。例如，历史字迹数据集可以包括由不同类型的数位设备(包括但不限于数位板、具有触控屏幕的笔记本、平板设备、手机、PDA或可以提供类似输入的其它设备等)采样获得的字迹数据，由于不同数位设备的精度、采样率和输出数据可能存在差异，因此需要进行适当的预处理。例如，预处理可以包括进行时间重采样、按照长宽比进行放缩、切割成多个段以得到字迹段数据。

可选地，所述循环神经网络可以包括以下中的一项或多项：长短期记忆(LSTM)网络、门控制循环单元(GRU)、深层循环神经网络、双向循环神经网络或其任何其它循环神经网络。LSTM和GRU作为对循环神经网络的改良，能够解决学习较长序列的长期依赖关系中出现的梯度消失问题。多层循环神经网络和双向循环神经网络等拓展方法，用于进行更复杂的处理，寻找反向序列关系等，进一步拓展了对序列数据的处理能力。

可选地，方法100还可以包括以下步骤：周期性地更新所述历史字迹数据集。例如，在一时间段内产生的由用户书写的字迹数据及其用户标签数据可以被收集、传输和存储转而被添加到历史字迹数据集，使得历史字迹数据集可以周期性地进行更新，同时经更新的历史字迹数据集可以用于训练生成判别模型，从而实现判别模型的自动更新。也就是说，在实际应用中形成数据回流，获得更多样本，并且可以利用新样本在原有的判别模型上进行Fine-tuning，使得识别率得到不断提升。

可选地，方法100还可以包括以下步骤：将时间采样的具有用户标签的第一字迹段数据输入到所生成的判别模型，以生成指示用户字迹风格的第一特征值；将时间采样的第二字迹段数据输入到所生成的判别模型，以生成指示用户字迹风格的第二特征值；基于所述第一特征值和所述第二特征值，验证所述第二字迹段数据和所述第一字迹段数据是否由相同的用户手写。在该步骤中，利用已训练的判别模型来生成特征值以验证字迹段是否为相同用户书写，即通过用户字迹风格来判断字迹的书写者是否相同，这样即使字形相似，也可以通过差异化的字迹风格来区分字迹的书写者。

可选地，方法100还可以包括以下步骤：如果所述第二特征值在所述第一特征值的阈值水平范围内，则确定所述第二字迹段数据和所述第一字迹段数据是由相同的用户书写；如果所述第二特征值不在所述第一特征值的阈值水平范围内，则确定所述第二字迹段数据和所述第一字迹段数据不是由相同的用户书写。在该步骤中，进一步地通过阈值水平来判断字迹的书写者是否相同，即，如果在可接受范围内，则认为验证成功(书写者相同)，如果在可接受范围之外，则认为验证失败(书写者不同)。根据精度的要求，可以选择不同的阈值水平，如果选择较小的阈值水平，则错误接受率降低，错误拒绝率提高，要求字迹风格(在数据采集中主要受到采集设备的精度和采样率影响)跟历史字迹数据的风格非常相似，反之，如果选择较大的阈值水平，则错误接受率提高，错误拒绝率降低，相对容易攻破，但真实用户的输入的字迹风格要求也降低。

可选地，从时间采样的书写签名中获取所述第一字迹段数据。可选地，从时间采样的由用户书写的随机生成的文本中获取所述第一字迹数据段。用户输入带有随机文本，则错误接受率和错误拒绝率都降低，更难攻破，也能更好的识别出字迹风格。

可选地，从时间采样的书写签名中获取所述第二字迹段数据。可选地，从时间采样的由用户书写的随机生成的文本中获取所述第二字迹数据段。用户输入带有随机文本，则错误接受率和错误拒绝率都降低，更难攻破，也能更好的识别出字迹风格。

图2示出依据本发明实施例的用于运载班次分类的示例性装置200的示意图。装置200可以包括：存储器201和耦合到存储器201的处理器202。存储器201用于存储指令，处理器202被配置为基于存储器201存储的指令来实现针对图1所描述的方法的步骤中的任何步骤中的一个或多个。

如图2所示，装置200还可以包括通信接口203，用于与其它设备进行信息交互。此外，装置200还可以包括总线204，存储器201、处理器202和通信接口203通过总线204来彼此进行通信。

存储器201可以包括易失性存储器，也可以包括非易失性存储器。处理器202可以是中央处理器(CPU)、微控制器、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、或是被配置为实现本发明的实施例的一个或多个集成电路。

为了更好地表达本发明的构思，下面结合一个具体的示例来进行说明。

图3示出依据本发明的实施例的用于字迹识别的方法的一个具体示例300。

在示例300中，以识别电子签名为例，该方法分为模型生成、用户信息建立和识别三个阶段。在模型生成阶段，对包括多个用户(例如300个)的历史签名数据的电子签名数据集302(其可以是已有开放的公开数据集，也可以是使用人力得到的数据集)进行预处理304(例如，利用预处理模块)。鉴于电子签名数据集302可以包括由不同类型的数位设备采样获得的数据，预处理304可以包括对签名数据进行归一化，例如时间重采样、按照长宽比进行放缩，并进行切割。例如，切割可以包括将书写的签名在时间上随机地选择位置将字迹切割成多个段，通过字迹切割可以获得大量的字迹段数据306，从而可以避免以往方法对大量的字迹数据的需求。从电子签名数据集302还可以获得用户标签数据308，用户标签数据308可以指示电子签名(字迹段数据306)的书写者。利用字迹段数据306和用户标签数据308作为训练样本生成判别模型310。在该示例中，举例说明而非限制，该判别模型310可以包括诸如LSTM/GRU网络312之类的循环神经网络和深度神经网络314，LSTM/GRU网络312用于对字迹风格建模以输出指示用户字迹风格的特征值316，该特征值316被输入到深度神经网络314，深度神经网络314用于对用户字迹进行分类。例如，该特征值316可以是高维(例如300维)向量形式的数据。例如，LSTM/GRU网络312可以是双向堆叠的，以更好地对字迹风格建模。通过对LSTM/GRU网络312和深度神经网络314一起训练来生成判别模型310，通过联合训练，信息在LSTM/GRU网络312和深度神经网络314之间反向传播，使得利用具有相同用户标签数据308的字迹段数据306可以生成相似的特征值316，例如相似度高的特征值可以是(欧式)距离上接近的特征值316。例如，电子签名数据集302可以存储在大数据设备上，在一段时间上产生的与用户相关的电子签名数据可以被收集、传输和存储到该大数据设备，转而对用户的历史签名数据进行更新，从而实现数据回流，同时经更新的电子签名数据可以用于训练判别模型310，从而实现判别模型310的自动更新，进一步提高字迹识别率。

上面描述了生成判别模型310的过程，识别过程可以利用所生成的判别模型310来验证用户签名。首先，在用户信息建立阶段，用户通过数位设备进行签名(可选地，还可以随机生成一段文字要求用户抄写一遍)，对该电子签名数据进行如上文所述的预处理以获得字迹段数据，使用已训练完成的判别模型310对该字迹段数据进行计算，得到对应于用户的用户字迹风格的特征值，该字迹风格特征值可以例如存储在诸如web服务器上的数据库中。其次，在识别阶段，通过数位设备对待验证用户的签名进行采样(可选地，还可以随机生成一段文字要求待验证用户抄写一遍)，对该电子签名数据进行如上文所述的预处理以获得字迹段数据，使用已训练完成的判别模型310对该字迹段数据进行计算，得到对应于待验证用户的用户字迹风格的特征值，将该特征值与数据库中所存储的用户字迹风格特征值进行比较，以验证电子签名是否由相同的用户书写。例如，如果待验证用户的特征值和所存储的特征值的差值在可接受的阈值水平范围内，则认为验证成功，即电子签名是由相同的用户书写，如果待验证用户的特征值和所存储的特征值的差值在可接受的阈值水平范围之外，则认为验证不通过，即电子签名不是由相同的用户书写。

与一般的字迹(例如电子签名)识别和验证产品相比，除了上文所描述的各种优势，根据本发明的实施例的用于识别字迹的方法、装置和计算机可读存储介质具有如下优势：基于写字风格，而不是书写字形进行验证，纳入随机文字，可以有效抵御刻意模仿者的伪造；不需要有刻意伪造的字迹样本进行对比，在流程上刻意杜绝仅仅针对例如签名字迹的刻意伪造；使用循环神经网络，可以有效地对字迹风格建模；除了使用数位板进行样本采集，如果对准确率没有很高的要求，甚至可以在精度不是很高的电子输入设备上进行，诸如手机或者平板设备的触控屏幕，或者取消抄写随机文字段的要求，仅在用户信息建立阶段输入随机文字，作为风格建模样本，在识别阶段使用例如签名字迹而无需输入随机文字来进行验证；对不同的书写语言有较为良好的扩展性；如果基于阈值来进行验证，则可以根据不同需求调整验证成功的阈值。

此外，替代地，上述的用于字迹识别的方法能够通过计算机程序产品，即有形的计算机可读存储介质来实现。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

此外，用于执行本公开的各个方面的计算机可读程序指令或者计算机程序产品也能够存储在云端，在需要调用时，用户能够通过移动互联网、固网或者其它网络访问存储在云端上的用于执行本公开的各个方面的计算机可读程序指令，从而实施依据本公开的各个方面所公开的技术方案。

以上所述仅为本公开的可选实施例，并不用于限制本公开的实施例，对于本领域的技术人员来说，本公开的实施例可以有各种更改和变化。凡在本公开的实施例的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的实施例的保护范围之内。

虽然已经参考若干具体实施例描述了本公开的实施例，但是应该理解，本公开的实施例并不限于所公开的具体实施例。本公开的实施例旨在涵盖在所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于识别字迹的方法，其特征在于，包括：

利用从时间采样的历史字迹数据集获得的多个用户的历史字迹段数据和与所述历史字迹段数据相关的历史用户标签数据作为训练样本，训练生成包含循环神经网络和深度神经网络的判别模型，其中，

将所述历史字迹段数据输入到所述循环神经网络，所述循环神经网络输出指示用户字迹风格的特征值，所述特征值被输入到所述深度神经网络；

将所述历史用户标签数据输入到所述深度神经网络，所述深度神经网络用于进行用户字迹分类；

对所述循环神经网络和所述深度神经网络一起进行训练。

2.根据权利要求1所述的方法，其特征在于，所述用户字迹风格包括以下中的一项或多项：字迹生成速度、字迹书写形态、字迹书写顺序、字迹书写连笔。

3.根据权利要求1所述的方法，其特征在于，还包括：从所述历史字迹数据集获得历史字迹数据，对所述历史字迹数据进行预处理以获得所述历史字迹段数据。

4.根据权利要求1所述的方法，其特征在于，所述循环神经网络包括以下中的一项或多项：长短期记忆(LSTM)网络、门循环单元(GRU)网络、深层循环神经网络、双向循环神经网络。

5.根据权利要求1所述的方法，其特征在于，周期性地更新所述历史字迹数据集。

6.根据权利要求1所述的方法，其特征在于，包括：

将时间采样的具有用户标签的第一字迹段数据输入到所生成的判别模型，以生成指示用户字迹风格的第一特征值；

将时间采样的第二字迹段数据输入到所生成的判别模型，以生成指示用户字迹风格的第二特征值；

基于所述第一特征值和所述第二特征值，验证所述第二字迹段数据和所述第一字迹段数据是否由相同的用户书写。

7.根据权利要求6所述的方法，其特征在于，还包括：

如果所述第二特征值在所述第一特征值的阈值水平范围内，则确定所述第二字迹段数据和所述第一字迹段数据是由相同的用户书写；

如果所述第二特征值不在所述第一特征值的阈值水平范围内，则确定所述第二字迹段数据和所述第一字迹段数据不是由相同的用户书写。

8.根据权利要求6所述的方法，其特征在于，还包括：从时间采样的书写签名中获取所述第一字迹段数据。

9.根据权利要求6所述的方法，其特征在于，还包括：从时间采样的由用户书写的随机生成的文本中获取所述第一字迹段数据。

10.根据权利要求6所述的方法，其特征在于，还包括：从时间采样的手写签名中获取所述第二字迹段数据。

11.根据权利要求6所述的方法，其特征在于，还包括：从时间采样的由用户抄写的随机生成的文本中获取所述第二字迹段数据。

12.一种用于识别字迹的装置，包括：

存储器，其用于存储指令；以及

处理器，其耦合到所述存储器，所述处理器被配置为基于所述指令来执行如权利要求1到11中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有指令，所述指令在被执行时用于实现如权利要求1到11中任一项所述的方法。