CN115100748A - 一种基于签名笔画序列的单字提取方法及系统 - Google Patents
一种基于签名笔画序列的单字提取方法及系统 Download PDFInfo
- Publication number
- CN115100748A CN115100748A CN202210781862.7A CN202210781862A CN115100748A CN 115100748 A CN115100748 A CN 115100748A CN 202210781862 A CN202210781862 A CN 202210781862A CN 115100748 A CN115100748 A CN 115100748A
- Authority
- CN
- China
- Prior art keywords
- stroke
- module
- signature
- strokes
- point set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
- G06V40/33—Writer recognition; Reading and verifying signatures based only on signature image, e.g. static signature recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开一种基于图像和序列的签名单字提取技术,涉及电子签名技术,减少笔画特征序列的坐标点集获得低采样率下签名的宏观特征,插值扩充笔画特征序列的坐标点集,获得高采样率下签名的微观特征,单字切割模块1使用插值模块输出的点集序列,单字切割模块2使用降采样模块输出的点集序列,单字切割模块中的笔画特征提取模块通过点集划分出笔画生成笔画特征,单字切割模块1和单字切割模块2使用嵌套命名实体识别方式根据笔画特征预测分别得到签名的笔画属性及字符数置信度,连笔切割模块根据笔画属性及字符数置信度判断是否存在连笔,对签名中的笔画连笔进行切割。获得更加鲁棒的单字提取效果,大幅提升签名识别准确率。
Description
技术领域
本发明涉及电子签名技术领域,尤其涉及一种电子签名中单字提取方法。
背景技术
在进行电子签名的校验中,会涉及到大量的签名对比,但现有的一些笔迹对比方法中,基本是以签名整体进行对比,没有将签名分割成单字为单位进行对比,导致在电子签名验证和对比中会损失很多笔画特征信息,以及获取的特征信息不准确,导致校验结果错误,准确率下降等一系列问题。对于书写中有连笔画等签名比对识别等带来极大困难。单字提取也是签名整体识别为汉字的前置必备条件,能够为持久的签名领域研究,数据建设等作出贡献。现有的一些整体识别算法,虽然有些能够较为精准的识别出汉字的内容,但是却并不能够精确地分离出字本身的全部笔画,用途非常受限。
公开号:CN113723413A,名称“一种基于贪吃蛇的手写中文文本切分方法”的中国发明专利申请。公开了一种基于贪吃蛇的手写中文文本切分方法,该方法用于图像文本的切分。根据文本行的垂直投影直方图和字符笔画宽度自适应计算字符间笔画薄弱位置,利用贪吃蛇算法在该区域内建立初始切分轨迹,并制定多重约束规则优化切分路径,实现手写文本的粗切分;根据字符宽度和宽高比阈值筛选粘连字符,从粘连字符的轮廓曲线和骨架特征入手,选取粘连切分点,并利用贪吃蛇算法进行二次切分;结合汉字的结构特征和汉字识别置信度完成过切分字符的合并,得到最终正确的文本切分结果。该方法基于图像文本切分,在该方法对粘连字符进行切分时,由于缺少了原始的书写轨迹,导致该方法在字之间笔画存在交叉时不能将笔画进行细致的切分,容易存在笔画切分不完整的情况,同时,若两个字之间重叠较为严重时,该方法不能够切分出正确的文本。最后,该方法切分的准确率较低,均为90%以下,不具备太大实用价值。
公开号:CN111160245A,名称“一种动态签名识别方法及设备”的中国发明专利申请,依序对签名文件进行解析、基于笔画属性聚类的字符分割及笔画预处理,得到动态签名中的各单字符对应的至少两个有效采样点及每个所述有效采样点的归一化坐标,对各单字符的特征向量进行字符分类,并整合所有单字符的分类结果,实现对动态签名中的各单字符的有效识别。该方法针对笔画级别进行了切分,但是若签名中存在部分一笔画问题,即单一的笔画无法单纯归类于一个字符,而是被两个或更多字符共享的情况,该方法无法解决。
由于电子签名字数少,签名字符紧凑,很多龙飞凤舞的签名单字之间有勾连,即一笔画两个字,现有的一些单字提取办法,有基于离线数据(图像)的,和基于在线数据(序列)的基本都是将签名作为一个整体进行识别,没有对单字之间相互勾连,即俗称的一笔画进行分割区分,对紧凑的连笔画签名中的单字不能精确识别,导致电子签名识别的精准度不高,不能满足司法鉴定等要求高的应用场景对电子签名原笔迹识别鉴真的要求。
发明内容
本发明针对电子签名字符数少,笔画之间勾连、交叉、重叠等情况较多,现有技术在电子签名识别方面对单字之间相互勾连情况的识别分割方面存在的笔画切分不完整、不能识别一笔画被两个或更多字符共享等情况,导致签名识别精确度低。本发明针对签字笔画交叉,以及重叠等现象进行了通用性的处理,在签名识别的单字提取中考虑字之间的笔画勾连情况(简称连笔)。
本发明提出一种基于笔画序列的签名单字提取方法,包括:降采样模块采集签名笔画特征序列,减少笔画特征序列的坐标点集,获得低采样率下签名的宏观特征,插值模块采集电子签名笔画特征序列,插值扩充笔画特征序列的坐标点集,获得高采样率下签名的微观特征,单字切割模块1与单字切割模块2的结构相同,单字切割模块1使用插值模块输出的点集序列(xup,yup),单字切割模块2使用降采样模块输出的点集序列(xreduce,yreduce),单字切割模块中的笔画特征提取模块通过点集划分出笔画生成笔画特征,单字切割模块1和单字切割模块2使用嵌套命名实体识别方式根据笔画特征预测分别得到签名的笔画属性及字符数置信度,连笔切割模块根据单字切割模块1和单字切割模块2输出的笔画属性及字符数置信度判断是否存在连笔,对签名中的笔画连笔进行切割。
进一步优选,所述获得低采样率下签名的宏观特征进一步包括,降采样模块采集电子签名笔画原始点集(x,y),获取阈值角度θ,使用滑动窗口在点集上开始滑动删除非关键点,得到减少笔画特征的坐标点集序列(xreduce,yreduce);所述获得高采样率下签名的微观特征进一步包括,设置目标笔画长度k,将签名笔画中特征序列长度大于k的笔画切割成若干个长度为k的笔画,对长度小于k的笔画用点集(0,0)补足点位使得长度为k,将一个签名的所有笔画转换为等长的笔画集合的点集。
进一步优选,所述删除非关键点进一步包括:取预定长度n的滑动窗口,从窗口起始点下标为i,向下标为i--n的签名笔画原始点集中的点滑动,当取得滑动窗口的n个笔画点后,计算n点与当前滑动窗口起始点之间并以(xi+1,yi+1)为顶点的夹角θi,若θi>θ,则在签名原始点集中删去该顶点对应的坐标点(xi+1,yi+1),并令下标大于i的签名点下标减一,重新计算起始点下标为i的窗口;若θi≤θ,则令窗口向后滑动,继续计算起始点下标为i+1的窗口,直至对笔画原始点集中的所有点完成滑动取得,降采样模块得到的点集长度的宏观特征坐标点集。
进一步优选,所述得到笔画属性及字符数置信度进一步包括,单字切割模块1获得笔画嵌入,单字切割模块2获得跨笔画特征,具备微观特征的等长签名笔画点集输入模块1,经过两个全连接层映射到高维空间获得笔画特征变量,再经过一个全连接层映射到一个固定维度的嵌入空间中,获得笔画嵌入;具有宏观特征的等长签名笔画点集输入模块2经过一个全连接层映射到高维空间,通过CNN对签名笔画点集进行卷积,以及最大池化,再经过一个全连接层映射到固定维度的嵌入空间中获得跨笔画特征,将笔画嵌入与跨笔画特征进行连接得到的笔画连接特征,利用条件随机场得到对应笔画属性以及字符数置信度,将笔画嵌入和跨笔画特征输入双向LSTM网络中在1维方向上的合并得到笔画连接特征。
进一步优选,对签名中存在笔画连笔进行切割包括,根据签名笔画的属性及对应的置信度,确定字符的开始笔画数、字符中间笔画数、字符结束笔画数,计算所有开始笔画属性的平均置信度,取平均置信度高的笔画为开始笔画确定字符数置信度,具体包括,根据公式:
α1=(|0.5-αi|+|0.5-αj|+|0.5-αm′|+|0.5-αn′|+|0.5-αo′|)计算模块1输出的开始笔画属性的平均置信度,根据公式:
α2=(|0.5-αi′|+|0.5-αj|+|0.5-αm|+|0.5-αn|+|0.5-αo|)计算模块2输出的开始笔画属性的平均置信度,其中,αi,αj,为模块1确定的开始笔画i、笔画j的置信度,αi′,αj′为降采样后对应的笔画i’、笔画j’的置信度,αm,αn,αo为模块2确定的开始笔画m、笔画n、笔画o的置信度,αm′,αn′,αo′为插值后对应的笔画m’、笔画n’、笔画o’的置信度。
本发明还提出一种基于笔画序列的签名单字提取系统,包括:降采样模块、插值模块、单字切割模块1、单字切割模块2、连笔切割模块,降采样模块采集签名笔画特征序列,减少笔画特征序列的坐标点集,获得低采样率下签名的宏观特征,插值模块采集电子签名笔画特征序列,插值扩充笔画特征序列的坐标点集,获得高采样率下签名的微观特征,单字切割模块1与单字切割模块2的结构相同,单字切割模块1使用插值模块输出的点集序列(xup,yup),单字切割模块2使用降采样模块输出的点集序列(xreduce,yreduce),单字切割模块中的笔画特征提取模块通过点集划分出笔画生成笔画特征,单字切割模块1和单字切割模块2使用嵌套命名实体识别方式根据笔画特征预测分别得到签名的笔画属性及字符数置信度,连笔切割模块根据单字切割模块1和单字切割模块2输出的笔画属性及字符数置信度判断是否存在连笔,对签名中的笔画连笔进行切割。
进一步优选,所述获得低采样率下签名的宏观特征进一步包括,降采样模块采集电子签名笔画原始点集(x,y),获取阈值角度θ,使用滑动窗口在点集上开始滑动删除非关键点,得到减少笔画特征的坐标点集序列(xreduce,yreduce);所述获得高采样率下签名的微观特征进一步包括,设置目标笔画长度k,将签名笔画中特征序列长度大于k的笔画切割成若干个长度为k的笔画,对长度小于k的笔画用点集(0,0)补足点位使得长度为k,将一个签名的所有笔画转换为等长的笔画集合的点集。
进一步优选,单字切割模块1获得笔画嵌入,单字切割模块2获得跨笔画特征,具备微观特征的等长签名笔画点集输入模块1,经过两个全连接层映射到高维空间获得笔画特征变量,再经过一个全连接层映射到一个固定维度的嵌入空间中,获得笔画嵌入;具有宏观特征的等长签名笔画点集输入模块2经过一个全连接层映射到高维空间,通过CNN对签名笔画点集进行卷积,以及最大池化,再经过一个全连接层映射到固定维度的嵌入空间中获得跨笔画特征,将笔画嵌入与跨笔画特征进行连接得到的笔画连接特征,利用条件随机场得到对应笔画属性以及字符数置信度。
进一步优选,根据签名笔画的属性及对应的置信度,确定字符的开始笔画数、字符中间笔画数、字符结束笔画数,计算所有开始笔画属性的平均置信度,取平均置信度高的笔画为开始笔画确定字符数置信度,具体包括,根据公式:
α1=(|0.5-αi|+|0.5-αj|+|0.5-αm′|+|0.5-αn′|+|0.5-αo′|)计算模块1输出的开始笔画属性的平均置信度,根据公式:
α2=(|0.5-αi′|+|0.5-αj′|+|0.5-αm|+|0.5-αn|+|0.5-αo|)计算模块2输出的开始笔画属性的平均置信度,其中,αi,αj,为模块1确定的开始笔画i、笔画j的置信度,αi′,αj′为降采样后对应的笔画i′、笔画h′的置信度,αm,αn,αo为模块2确定的开始笔画m、笔画n、笔画o的置信度,αm′,αn′,αo′为插值后对应的笔画m′、笔画n′、笔画o′的置信度。
本发明采用笔画级神经网络预测笔画的归属问题,以及是否为连笔,能够对紧凑的连笔画签名中的单字精确识别,同时使用插值技术和降采样技术利用不同的采样率,提升了模型的鲁棒性能,从而获得更加鲁棒的单字提取效果,,赋予不同的预测模块不同的预测倾向,使得各模块进行互补,同时能够解决笔画交叉,以及重叠的现象,大幅提升签名识别准确率,同时,根据笔画属性和置信度进行连笔的判断与切割,提高了判断和切割的准确性和快速性,使得该类情况也能被较好的解决,具备较大的实用价值。
附图说明
图1为本发明签名单字提取系统结构示意图;
图2为在双向LSTM网络下的单字切割模块的结构。
具体实施方式
为了便于清楚地理解本发明,使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。应当理解,实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
本发明提供一种通用高效的基于多模态算法的电子签名单字提取方法,能够对紧凑的连笔画签名中的单字精确识别。以下结合附图何具体实例对本发明的实施进行详细的描述。
如图1所示为本发明签名单字提取系统结构示意图,包括:降采样模块、插值模块、单字切割模块1、单字切割模块2、连笔切割模块。降采样模块采集电子签名笔画特征序列,通过降采样减少笔画特征序列的坐标点集,使得单字切割模块能够学习在低采样率下签名的宏观特征。对于任意一个以坐标点集(x,y)(x,y均为电子签名笔画点集的向量),存储形式为长度l的电子签名,将点集长度为l的坐标点集,通过降采样转换为点集长度为lreduce的坐标点集(xreduce,yreduce),其中lreduce≤l。降采样后获得的坐标点集使得单字切割模块能够学习到签名在低采样率下的特征,即较为宏观的特征。
降采样技术可使用多种方法,例如基于时间的降采样,基于长度的降采样等,下面对使用滑动窗口转换电子签名笔画特征序列坐标点的降采样方式举例具体描述。
采集电子签名笔画的原始点集(x,y),获取阈值角度θ,使用滑动窗口在点集上开始滑动,并在从头至尾的滑动过程中删除非关键点。如:在滑动过程中,可取预定长度n(长度n可取任意值,此处以3举例)的滑动窗口,从窗口起始点下标为1,向下标为l-n的签名笔画原始点集中的点滑动,窗口起始点下标为1时,滑动窗口取到的笔画点是(x1,y1),(x2,y2),...(xn,yn),当取到滑动窗口的n个笔画点后,计算n点之间的夹角,设该滑动窗口所在的窗口起始点i,(在上例中,i=1)则计算的n点之间的夹角为以(xi+1,yi+1)为顶点的角度θi,如n为3,即计算以(x1,y1),(x3,y3)为端点,(x2,y2)为顶点的角度θi,如夹角大于阈值角度θ,若θi>θ,则在电子签名原始点集中删去该角度顶点对应的坐标点(xi+1,yi+1),并令下标大于i的签名点下标减一,重新计算起始点下标为i的窗口;若θi≤θ,则令窗口向后滑动,即继续计算起始点下标为i+1的窗口。通常来讲,降采样模块得到的点集长度lreduce可为左右为宜。
插值模块同样采集电子签名笔画特征序列,通过插值扩充笔画特征序列的坐标点集,使得单字切割模块能够学习在高采样率下签名的微观特征。对于任意一个以坐标点集(x,y),存储形式为长度l的电子签名,将点集长度为l的坐标点集,通过插值技术,转换为点集长度为lup的坐标点集(xup,yup),其中l≤lup;降采样的目的是令下一步的单字切割模块能够学习到签名在高采样率下的特征,即较为微观的特征。插值技术可使用多种方法,例如,基干时间的重采样,三次插值法等。
将上述经过降采样和插值后的笔画坐标点集划分笔画,可以有多种划分方式,例如通过贝塞尔曲线进行划分,从抬笔状态进行划分,从书写压力进行划分等,以抬笔状态的划分方式为例,该方式主要从书写人自然的抬笔落笔状态划分,每个落笔与下一个抬笔之间,视为一个笔画。但是由于每个笔画包含的点集数量不一,点集划分笔画模块在划分过程中,可以设置目标笔画长度k,若是某个笔画过长,则可以切割成若干个长度为目标笔画长度k的笔画,对于长度小于目标笔画长度k的点集则用(0,0)补足点位使得剩余长度为k,若是某个笔画过短,则直接用(0,0)补足点位使得笔画长度为目标笔画长度k,最终,点集划分笔画模块可以将一个签名转换为等长的笔画集合。
单字切割模块1与单字切割模块2的网络结构完全相同,都是基于笔画级别的预测分割模块,单字切割模块1使用的是插值模块的输出结果点集序列(xup,yup),单字切割模块2使用的是降采样模块的输出结果点集序列(xreduce,yreduce)。
通过插值扩充笔画特征序列的坐标点集序列(xup,yup)和通过降采样减少笔画特征序列的坐标点集序列(xreduce,yreduce)分别输入单字切割模块1和单字切割模块2,通过点集划分出笔画,由笔画生成特征,将笔画特征输入单字切割模块1与单字切割模块2中的神经网络,使用嵌套命名实体识别方式进行笔画的属性预测。
可选择多种形式的神经网络,例如LSTM,BERT等,此处以双向长短期记忆人工神经网络(Bi-LSTM)为例进行说明。图2示意了在双向LSTM网络下的单字切割模块的结构。通过单字切割模块1获得笔画嵌入,单字切割模块2获得跨笔画特征。
点集划分笔画模块转换的等长签名笔画点集合输入单字切割模块1,经过两个全连接层(FC)映射到高维空间获得笔画特征变量,再经过一个全连接层,映射到一个固定维度的嵌入空间中,可根据先验经验设置固定维度,通常为64、128、256等,获得笔画嵌入。点集划分笔画模块转换的等长签名笔画点集合输入单字切割模块2,经过一个全连接层(FC)映射到高维空间,通过卷积神经网络(CNN)对签名笔画点集进行卷积,以及最大池化,再经过全连接层(MaxPooling),映射到一个固定维度的嵌入空间中,获得跨笔画特征。
将笔画嵌入和跨笔画特征输入双向LSTM网络中在1维方向上的合并,即将单字切割模块1输出的笔画嵌入与单字切割模块2输出的跨笔画特征进行连接(concate)得到的笔画连接特征,利用条件随机场(CRF层)得到对应笔画的属性以及对应的置信度。可将笔画属性分为三种:字符的开始笔画B(Begin)、字符中间笔画I(Intermediate)、字符结束笔画E(End),由于签名时候字与字间、每个字内部连笔的情况存在,每个笔画可能有多种属性,比如一个笔画可能同时是一个字的结束和下一个字的开始。
连笔切割模块先对单字切割模块1与单字切割模块2的分割结果进行选择,之后对连笔的情况进行判断,若存在连笔,则进行切割,若不存在连笔,则直接给出结果。根据签名笔画的属性及对应的置信度,得到对应签名中属性B、I、E的数量,预测得到初步签名字数,考虑到通常的签名为2字或3字,连笔切割模块结合置信度,根据模块1与模块2初步切割的单字个数等进行选择。可能有以下几种情况:
(1)若模块1与模块2对签名切割获得的单字数量相同,选择该相同数量作为签名字数;
(2)若模块1与模块2对签名切割获得的字符数量不相同,则计算所有开始笔画B属性的平均置信度,取平均置信度高的笔画确定为开始笔画,首先选择分割字数为2或3的模块的输出作为连笔切割模块进行分割是判断签名字数的依据。
(3)如模块1与模块2对签名切割获得的字符数量均为2字或3字,根据模块1与模块2的笔画属性分别计算笔画置信度,根据置信度确定选择相应单字切割模块的结果字数作为连笔切割模块进行分割的依据。以下举例具体说明,假如:模块1得到的B属性笔画为笔画i,笔画j,模块2得到的B属性笔画为笔画m,笔画n,笔画o,找到对应采样率,获取笔画i,笔画j降采样后对应的笔画i′,笔画j′,和笔画m,笔画n,笔画o插值后对应的笔画m′,笔画n′,笔画o′,设置信度符号为,则单字切割模块1中上述笔画的置信度为αi,αj,αm′αn′,αo′,单字切割模块2中上述笔画的置信度为αi′,αj′,αm,αn,αo,可以根据如下公式计算单字切割模块1的置信度α1为:
α1=(|0.5-αi|+|0.5-αj|+|0.5-αm′|+|0.5-αn′|+|0.5-αo′|)
根据公式:
α2=(|0.5-αi′|+|0.5-αj′|+|0.5-αm|+|0.5-αn|+|0.5-αo|)计算单字切割模块2的置信度,选取置信度高的单字切割模块分割的签名字数作为单字切割模块进行连笔笔画分割时的依据。
连笔切割模块根据单字分割的字数及笔画属性对连笔进行分割,对预测有连笔的初步分割单字中,确定是否同时有开始笔画B和字符结束笔画E属性,一个字为从每个B属性笔画至下一个E属性笔画,若无同时具有笔画属性B,E的笔画,不再对该字符进行分割,如分割字符的笔画属性同时为B,E,则该笔画为连笔,需要进行连笔的处理,此时考虑到应当是上一个字结束后,下一个字开始,因此应当是前半部分为E属性,后半部分为B属性,根据字符结束笔画E属性的置信度、开始笔画B属性的置信度,根据公式rtarget=(αE-0.5)/(αE+αB-1)计算对单字切割模块获得字符的分割比例。
在常见的汉字笔画,包括点、横、竖、撇、捺等笔画,没有笔画会向右向上书写,仅在不常见的汉字笔画,例如横折折折勾等笔画中,存在该类情况。同时,在连笔中,通常两字之间存在一笔向右向上的笔画作为勾连笔画的主体。故而,在签名内检测到笔画向右向上发展,并在x轴延伸出已书写的点集的范围时,记录该处点位与整体笔画的点位比例rcandidate,例如,在一个点集长度,如点位数为30的笔画中,找到符合上述描述的点的下标,如顺序为6,则该点位与整体壁画的点位比例为记录所有符合条件的rcandidate后,找与分割比例rtarget最接近的点位比例rcandidate对应的点位,该点位之前的点位组成新的笔画,赋予E属性,该点位之后的点位组成新的笔画,赋予B属性。若是未找到任何符合条件的点位,则取B、E属性置信度高的一方作为该笔画的属性,若取B属性,则上一个笔画赋E属性,若取E属性,则下一个笔画赋B属性。
在分割完所有的连笔后,所有的笔画均只有一个属性,则按照每个字为从每个B属性笔画至下一个E属性笔画,得到单字提取结果。
以上所述实施例,只是本发明实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (11)
1.一种基于笔画序列的签名单字提取方法,其特征在于,包括:降采样模块采集签名笔画特征序列,减少笔画特征序列的坐标点集,获得低采样率下签名的宏观特征,插值模块采集电子签名笔画特征序列,插值扩充笔画特征序列的坐标点集,获得高采样率下签名的微观特征,单字切割模块1与单字切割模块2的结构相同,单字切割模块1使用插值模块输出的点集序列,单字切割模块2使用降采样模块输出的点集序列,单字切割模块中的笔画特征提取模块通过点集划分出笔画生成笔画特征,单字切割模块1和单字切割模块2使用嵌套命名实体识别方式根据笔画特征预测分别得到签名的笔画属性及字符数置信度,连笔切割模块根据单字切割模块1和单字切割模块2输出的笔画属性及字符数置信度判断是否存在连笔,对签名中的笔画连笔进行切割。
2.根据权利要求1所述的方法,其特征在于,所述获得低采样率下签名的宏观特征进一步包括,降采样模块采集电子签名笔画原始点集(x,y),获取阈值角度θ,使用滑动窗口在点集上开始滑动删除非关键点,得到减少笔画特征的坐标点集序列(xreduce,yreduce);所述删除非关键点进一步包括:取预定长度n的滑动窗口,从窗口起始点下标为i,向下标为i-n的签名笔画原始点集中的点滑动,当取得滑动窗口的n个笔画点后,计算n点与当前滑动窗口起始点之间并以(xi+1,yi+1)为顶点的夹角θi,若θi>θ,则在签名原始点集中删去该顶点对应的坐标点(xi+1,yi+1),并令下标大于i的签名点下标减一,重新计算起始点下标为i的窗口;若θi≤θ,则令窗口向后滑动,继续计算起始点下标为i+1的窗口,直至对笔画原始点集中的所有点完成滑动取得,降采样模块得到的点集长度的宏观特征坐标点集。
3.根据权利要求2所述的方法,其特征在于,将上述经过降采样和插值后的笔画坐标点集划分笔画,设置目标笔画长度k,将签名笔画中特征序列长度大于k的笔画切割成若干个长度为k的笔画,对长度小于k的笔画用点集(0,0)补足点位使得长度为k,将一个签名的所有笔画转换为等长的笔画集合的点集。
4.根据权利要求1-3其中之一所述的方法,其特征在于,所述得到笔画属性及字符数置信度进一步包括,单字切割模块1获得笔画嵌入,单字切割模块2获得跨笔画特征,具备微观特征的等长签名笔画点集输入模块1,经过两个全连接层映射到高维空间获得笔画特征变量,再经过一个全连接层映射到一个固定维度的嵌入空间中,获得笔画嵌入;具有宏观特征的等长签名笔画点集输入模块2经过一个全连接层映射到高维空间,通过CNN对签名笔画点集进行卷积,以及最大池化,再经过一个全连接层映射到固定维度的嵌入空间中获得跨笔画特征,将笔画嵌入与跨笔画特征进行连接得到的笔画连接特征,利用条件随机场得到对应笔画属性以及字符数置信度。
5.根据权利要求4所述的方法,其特征在于,所述对连笔进行分割进一步包括:若分割的字符中没有同时具有笔画属性B,E的笔画,不再对该字符进行分割,如分割字符中某笔画的笔画属性同时为B和E属性,根据字符结束笔画E属性的置信度αE、开始笔画B属性的置信度αB,根据公式rtarget=(αE-0.5)/(αE+αB-1)计算对字符的分割比例,检测笔画向右向上发展并在x轴延伸出已书写的点集的范围,记录该处点位与整体笔画的点位比例rcandidate,寻找与分割比例rtarget最接近的点位比例rcandidate对应的点位之前的点位组成新的笔画,作为结束笔画赋予E属性,该点位之后的点位组成新的笔画,作为开始笔画赋予B属性。
6.根据权利要求4或5所述的方法,其特征在于,对签名中存在笔画连笔进行切割包括,根据签名笔画的属性及对应的置信度,确定字符的开始笔画数、字符中间笔画数、字符结束笔画数,计算所有开始笔画属性的平均置信度,取平均置信度高的笔画为开始笔画确定字符数置信度,具体包括,根据公式:α1=(|0.5-αi|+|0.5-αj|+|0.5-αm’|+|0.5-αn’|+|0.5-αo’|)计算模块1输出的开始笔画属性的平均置信度,根据公式:α2=(|0.5-αi’|+|0.5-αj’|+|0.5-αm|+|0.5-αn|+|0.5-αo|)计算模块2输出的开始笔画属性的平均置信度,其中,αi,αj’为模块1确定的开始笔画i、笔画j的置信度,αi’,αj’为降采样后对应的笔画i’、笔画j’的置信度,αm,αn,αo为模块2确定的开始笔画m、笔画n、笔画o的置信度,αm’,αn’,αo’为插值后对应的笔画m’、笔画n’、笔画o’的置信度。
7.一种基于笔画序列的签名单字提取系统,其特征在于,包括:降采样模块、插值模块、单字切割模块1、单字切割模块2、连笔切割模块,降采样模块采集签名笔画特征序列,减少笔画特征序列的坐标点集,获得低采样率下签名的宏观特征,插值模块采集电子签名笔画特征序列,插值扩充笔画特征序列的坐标点集,获得高采样率下签名的微观特征,单字切割模块1与单字切割模块2的结构相同,单字切割模块1使用插值模块输出的点集序列(xup,yup),单字切割模块2使用降采样模块输出的点集序列(xreduce,yreduce),单字切割模块中的笔画特征提取模块通过点集划分出笔画生成笔画特征,单字切割模块1和单字切割模块2使用嵌套命名实体识别方式根据笔画特征预测分别得到签名的笔画属性及字符数置信度,连笔切割模块根据单字切割模块1和单字切割模块2输出的笔画属性及字符数置信度判断是否存在连笔,对签名中的笔画连笔进行切割。
8.根据权利要求7所述的系统,其特征在于,所述获得低采样率下签名的宏观特征进一步包括,降采样模块采集电子签名笔画原始点集(x,y),获取阈值角度θ,使用滑动窗口在点集上开始滑动删除非关键点,得到减少笔画特征的坐标点集序列(xreduce,yreduce)。
9.根据权利要求7或9所述的系统,其特征在于,设置目标笔画长度k,将签名笔画中特征序列长度大于k的笔画切割成若干个长度为k的笔画,对长度小于k的笔画用点集(0,0)补足点位使得长度为k,将一个签名的所有笔画转换为等长的笔画集合的点集。
10.根据权利要求8所述的系统,其特征在于,单字切割模块1获得笔画嵌入,单字切割模块2获得跨笔画特征,具备微观特征的等长签名笔画点集输入模块1,经过两个全连接层映射到高维空间获得笔画特征变量,再经过一个全连接层映射到一个固定维度的嵌入空间中,获得笔画嵌入;具有宏观特征的等长签名笔画点集输入模块2经过一个全连接层映射到高维空间,通过CNN对签名笔画点集进行卷积,以及最大池化,再经过一个全连接层映射到固定维度的嵌入空间中获得跨笔画特征,将笔画嵌入与跨笔画特征进行连接得到的笔画连接特征,利用条件随机场得到对应笔画属性以及字符数置信度。
11.根据权利要求8-10其中之一所述的系统,其特征在于,根据签名笔画的属性及对应的置信度,确定字符的开始笔画数、字符中间笔画数、字符结束笔画数,计算所有开始笔画属性的平均置信度,取平均置信度高的笔画为开始笔画确定字符数置信度,具体包括,根据公式:α1=(|0.5-αi|+|0.5-αj|+|0.5-αm’|+|0.5-αn’|+|0.5-αo’|)计算模块1输出的开始笔画属性的平均置信度,根据公式:α2=(|0.5-αi’|+|0.5-αj’|+|0.5-αm|+|0.5-αn|+|0.5-αo|)计算模块2输出的开始笔画属性的平均置信度,其中,αi,αj’为模块1确定的开始笔画i、笔画j的置信度,αi’,αj’为降采样后对应的笔画i,、笔画j,的置信度,αm,αn,αo为模块2确定的开始笔画m、笔画n、笔画o的置信度,αm’,αn’,αo’为插值后对应的笔画m’、笔画n’、笔画o’的置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210781862.7A CN115100748A (zh) | 2022-07-05 | 2022-07-05 | 一种基于签名笔画序列的单字提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210781862.7A CN115100748A (zh) | 2022-07-05 | 2022-07-05 | 一种基于签名笔画序列的单字提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115100748A true CN115100748A (zh) | 2022-09-23 |
Family
ID=83297632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210781862.7A Pending CN115100748A (zh) | 2022-07-05 | 2022-07-05 | 一种基于签名笔画序列的单字提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115100748A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116343242A (zh) * | 2023-05-30 | 2023-06-27 | 山东一品文化传媒有限公司 | 基于图像数据的试题实时批阅方法及系统 |
-
2022
- 2022-07-05 CN CN202210781862.7A patent/CN115100748A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116343242A (zh) * | 2023-05-30 | 2023-06-27 | 山东一品文化传媒有限公司 | 基于图像数据的试题实时批阅方法及系统 |
CN116343242B (zh) * | 2023-05-30 | 2023-08-11 | 山东一品文化传媒有限公司 | 基于图像数据的试题实时批阅方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113450596B (zh) | 基于船舶轨迹特征点提取的时空dp方法 | |
CN109800692B (zh) | 一种基于预训练卷积神经网络的视觉slam回环检测方法 | |
CN112818951B (zh) | 一种票证识别的方法 | |
CN111639646A (zh) | 一种基于深度学习的试卷手写英文字符识别方法及系统 | |
JP5754055B2 (ja) | 物体または形状の情報表現方法 | |
CN111695527A (zh) | 一种蒙古文在线手写体识别方法 | |
CN113269089B (zh) | 基于深度学习的实时手势识别方法及系统 | |
CN110705399A (zh) | 一种数学公式自动识别的方法 | |
CN115862045B (zh) | 基于图文识别技术的病例自动识别方法、系统、设备及存储介质 | |
CN113159215A (zh) | 一种基于Faster Rcnn的小目标检测识别方法 | |
US20220319214A1 (en) | Handwritten Text Recognition Method, Apparatus and System, Handwritten Text Search Method and System, and Computer-Readable Storage Medium | |
CN113657274A (zh) | 表格生成方法、装置、电子设备、存储介质及产品 | |
CN115880704B (zh) | 一种病例的自动编目方法、系统、设备及存储介质 | |
CN115100748A (zh) | 一种基于签名笔画序列的单字提取方法及系统 | |
CN114565789B (zh) | 一种基于集合预测的文本检测方法、系统、装置及介质 | |
CN110347853B (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
CN114330247A (zh) | 一种基于图像识别的自动化保险条款解析方法 | |
CN112560856B (zh) | 车牌检测识别方法、装置、设备及存储介质 | |
WO2023206964A1 (zh) | 一种行人重识别方法、系统、设备及计算机可读存储介质 | |
JPH1166238A (ja) | 手書き文字認識方法 | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 | |
CN113723345A (zh) | 基于风格转换和联合学习网络的域自适应行人再识别方法 | |
CN112818943A (zh) | 车道线检测方法、装置、设备及存储介质 | |
JPH09319828A (ja) | オンライン文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |