CN112541328B - 一种笔迹的存储方法、装置、设备及存储介质 - Google Patents
一种笔迹的存储方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112541328B CN112541328B CN202011429420.3A CN202011429420A CN112541328B CN 112541328 B CN112541328 B CN 112541328B CN 202011429420 A CN202011429420 A CN 202011429420A CN 112541328 B CN112541328 B CN 112541328B
- Authority
- CN
- China
- Prior art keywords
- chinese character
- writing
- handwriting
- data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/16—Automatic learning of transformation rules, e.g. from examples
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
- G06V40/37—Writer recognition; Reading and verifying signatures based only on signature signals such as velocity or pressure, e.g. dynamic signature recognition
- G06V40/382—Preprocessing; Feature extraction
Abstract
本申请提供了一种笔迹的存储方法、装置、设备及存储介质,所述方法包括:按照采集的时间先后顺序,对目标用户的所有书写数据点进行排序,然后将属于同一笔画的各所述书写数据点划分为一组,得到第一数据组;对所有的第一数据组进行随机划分得到第二数据组,将各第二数据组作为汉字识别模型的输入,输出得到用于存储的所述目标用户书写的汉字符号以及该汉字符号对应的汉字编码。这样,一方面,以各第一数据组的时间顺序表征书写笔画顺序,得到可反映个人真实书写习惯的笔迹信息,不易受到临场发挥影响;另一方面,以汉字编码的形式表示目标用户的笔迹特征,在笔迹鉴定过程中,更有利于突出不同鉴定对象的笔迹差异,提高笔迹鉴定结果的准确度。
Description
技术领域
本发明涉及笔迹鉴定技术领域,具体而言,涉及一种笔迹的存储方法、装置、设备及存储介质。
背景技术
由于笔迹具有强烈的个人特点以及难以模仿的特性,因此,在进行刑事侦查或民事纠纷时,常常需要对当事人的笔迹进行鉴定,来辅助案件的调查。在进行笔迹鉴定时,容易受到鉴定人员的主观因素影响,因此,如何减少人为判断的影响,提高对笔迹鉴定的准确度,成为当前笔迹鉴定技术领域所迫切需要解决的技术问题。
目前的方法,以对待鉴定对象的离线笔迹的静态图像分析为主,其中,所述离线笔迹是指该待鉴定对象的笔迹书写结果的静态图像,常用的方法包括:获取待鉴定笔迹的静态图像,利用计算机等电子设备对该静态图像中的底层数据点进行分析比对,生成该待鉴定对象对应的笔迹数据信息,通过比对不同目标对象对应的笔迹数据信息,来确定与该待鉴定对象笔迹相符的目标对象。然而,对于书写风格接近的人来说,书写的笔画顺序、运笔方式等书写过程信息也具有明显差异,因此,现有方法中利用离线笔迹的静态图像并未考虑到书写动作、笔画构成和间架结构等复杂特征,进而,不能准确地反映出待鉴定对象的笔迹特征,生成的笔迹数据信息比较片面,容易受到个人书写中不稳定因素的影响,导致笔迹鉴定的准确度较低。
发明内容
有鉴于此,本发明的目的在于提供一种笔迹的存储方法、装置、设备及存储介质,以减少个人书写中不稳定因素的影响,提高对个人笔迹的鉴定准确度。
第一方面,本发明实施例提供了一种笔迹的存储方法,所述方法包括:
按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序,得到该目标用户的书写数据序列;
对所述书写数据序列进行笔画划分,将属于同一笔画的各所述书写数据点划分为一组,得到第一数据组;
获取第一阈值数量的第二数据组,其中,每一所述第二数据组是通过对所有的各所述第一数据组进行随机划分产生的;
将各所述第二数据组作为汉字识别模型的输入,对所述汉字识别模型的输出结果进行存储,以将所述输出结果作为所述目标用户的笔迹存储结果,其中,所述输出结果包括:所述目标用户书写的汉字符号以及该汉字符号对应的汉字编码。
可选的,在所述按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序之前,所述方法还包括:
在所述目标用户的书写过程中,按照预先设置的采样频率,采集所述目标用户的所述书写数据点;
其中,每一所述书写数据点至少包括:时戳、笔尖与书写平面的相对高度、笔身相对于所述书写平面的中心的正北坐标、所述笔身相对于所述书写平面的中心的正西坐标、所述笔身与所述书写平面的水平方向夹角、所述笔身与所述书写平面的正北方向夹角、所述笔身的自转角度以及所述笔尖对所述书写平面的笔压。
可选的,所述对所述书写数据序列进行笔画划分,包括:
针对所述书写数据序列中相邻的每两个所述书写数据点,判断两个相邻的所述书写数据点中包含的所述笔压是否都不为零;
若两个相邻的所述书写数据点中包含的所述笔压都不为零,则确定两个相邻的所述书写数据点属于同一笔画;
若两个相邻的所述书写数据点中包含的所述笔压至少有一个为零,则确定两个相邻的所述书写数据点不属于同一笔画。
可选的,所述将各所述第二数据组作为汉字识别模型的输入,对所述汉字识别模型的输出结果进行存储,包括:
针对每一所述第二数据组,对该第二数据组进行字符预测,获取该第二数据组对应的字符预测结果,其中,所述字符预测结果包括:该第二数据组对应的汉字预测值以及预测正确概率值;
利用预先设置的识别准确度阈值,判断各所述预测正确概率值中是否存在目标预测概率值,其中,所述目标预测概率值是大于所述识别准确度阈值的所述预测正确概率值;
若存在所述目标预测概率值,则将目标数据组作为编码器的输入,得到所述目标数据组对应的编码结果,其中,所述目标数据组是所述目标预测概率值对应的第二数据组;
输出并存储所述编码结果和所述目标数据组对应的所述汉字预测值。
可选的,所述判断各所述预测正确概率值中是否存在目标预测概率值,还包括:
若各所述预测正确概率值中不存在所述目标预测概率值,则按照预先设置的抽取约束条件,从各所述第二数据组中抽取第二阈值数量的所述第二数据组,得到第三数据组,其中,所述第二阈值数量小于所述第一阈值数量;
对各所述第三数据组进行随机处理,以将随机处理的结果作为所述第二数据组的替换结果,其中,所述随机处理至少包括:随机交换以及随机翻转;
将所述替换结果作为所述汉字识别模型的输入,返回到字符预测的步骤。
可选的,所述将目标数据组作为编码器的输入,得到所述目标数据组对应的编码结果,包括:
识别输入的所述目标数据组对应的所述汉字预测值;
利用识别出的所述汉字预测值以及输入的所述目标数据组,从所述目标数据组中,识别出所述目标用户对所述汉字预测值的书写方向特征以及书写长度特征;
根据识别出的所述书写方向特征以及所述书写长度特征,对所述目标数据组进行编码,得到所述编码结果。
可选的,所述方法,还包括:
获取笔迹鉴定对象对应的所述输出结果;
利用所述输出结果中包含的所述笔迹鉴定对象书写的汉字符号,从预先建立的汉字相似性知识库中,获取目标汉字与其余各汉字对应的相似权重值,以生成相似权重列表,其中,所述目标汉字是与所述笔迹鉴定对象书写的汉字符号相同的汉字;
针对预先存储的每一历史笔迹存储结果,利用该历史笔迹存储结果中包含的各历史汉字符号,从所述相似权重列表中查询与该历史汉字符号相同的汉字对应的目标相似权重值;
对各所述历史汉字符号对应的历史汉字编码以及该历史汉字符号对应的所述目标相似权重值进行加权求和,以将加权求和结果作为该历史笔迹存储结果对应的笔迹鉴定分值;
按照所述笔迹鉴定分值由高到低的顺序,输出所述笔迹鉴定对象对应的笔迹鉴定结果。
可选的,所述汉字相似性知识库的建立方法,包括:
对汉字部首归部规范中包含的每一部首进行编码,得到各部首对应的部首编码向量;
针对字典中包含的每一汉字,利用该汉字包含的各部首对应的所述部首编码向量,计算各所述部首编码向量对应的向量均值,将计算结果作为该汉字对应的汉字编码向量;
针对每一所述汉字编码向量,计算该汉字编码向量与其余各所述汉字编码向量的向量距离;
对计算得到的各所述向量距离进行归一化处理,将归一化处理的结果作为该汉字编码向量与其余各所述汉字编码向量的相似权重值进行保存。
第二方面,本发明实施例还提供了一种笔迹的存储装置,所述装置包括:
采集模块,用于按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序,得到该目标用户的书写数据序列;
笔画分割模块,用于对所述书写数据序列进行笔画划分,将属于同一笔画的各所述书写数据点划分为一组,得到第一数据组;
随机划分模块,用于获取第一阈值数量的第二数据组,其中,每一所述第二数据组是通过对所有的各所述第一数据组进行随机划分产生的;
汉字识别模块,用于将各所述第二数据组作为汉字识别模型的输入,对所述汉字识别模型的输出结果进行存储,以将所述输出结果作为所述目标用户的笔迹存储结果,其中,所述输出结果包括:所述目标用户书写的汉字符号以及该汉字符号对应的汉字编码。
可选的,所述采集模块,还用于:
在所述目标用户的书写过程中,按照预先设置的采样频率,采集所述目标用户的所述书写数据点;
其中,每一所述书写数据点至少包括:时戳、笔尖与书写平面的相对高度、笔身相对于所述书写平面的中心的正北坐标、所述笔身相对于所述书写平面的中心的正西坐标、所述笔身与所述书写平面的水平方向夹角、所述笔身与所述书写平面的正北方向夹角、所述笔身的自转角度以及所述笔尖对所述书写平面的笔压。
可选的,所述笔画分割模块,还包括:
笔画判断单元,用于针对所述书写数据序列中相邻的每两个所述书写数据点,判断两个相邻的所述书写数据点中包含的所述笔压是否都不为零;
第一确定单元,用于若两个相邻的所述书写数据点中包含的所述笔压都不为零,则确定两个相邻的所述书写数据点属于同一笔画;
第二确定单元,用于若两个相邻的所述书写数据点中包含的所述笔压至少有一个为零,则确定两个相邻的所述书写数据点不属于同一笔画。
可选的,所述汉字识别模块,还包括:
字符预测单元,用于针对每一所述第二数据组,对该第二数据组进行字符预测,获取该第二数据组对应的字符预测结果,其中,所述字符预测结果包括:该第二数据组对应的汉字预测值以及预测正确概率值;
字符判断单元,用于利用预先设置的识别准确度阈值,判断各所述预测正确概率值中是否存在目标预测概率值,其中,所述目标预测概率值是大于所述识别准确度阈值的所述预测正确概率值;
编码输入单元,用于若存在所述目标预测概率值,则将目标数据组作为编码器的输入,得到所述目标数据组对应的编码结果,其中,所述目标数据组是所述目标预测概率值对应的第二数据组;
编码输出单元,用于输出并存储所述编码结果和所述目标数据组对应的所述汉字预测值。
可选的,所述字符判断单元,还包括:
抽取子单元,用于若各所述预测正确概率值中不存在所述目标预测概率值,则按照预先设置的抽取约束条件,从各所述第二数据组中抽取第二阈值数量的所述第二数据组,得到第三数据组,其中,所述第二阈值数量小于所述第一阈值数量;
处理子单元,用于对各所述第三数据组进行随机处理,以将随机处理的结果作为所述第二数据组的替换结果,其中,所述随机处理至少包括:随机交换以及随机翻转;
传输子单元,用于将所述替换结果作为所述汉字识别模型的输入,返回到字符预测的步骤。
可选的,所述编码输入单元,还用于:
识别输入的所述目标数据组对应的所述汉字预测值;
利用识别出的所述汉字预测值以及输入的所述目标数据组,从所述目标数据组中,识别出所述目标用户对所述汉字预测值的书写方向特征以及书写长度特征;
根据识别出的所述书写方向特征以及所述书写长度特征,对所述目标数据组进行编码,得到所述编码结果。
可选的,所述装置,还包括:笔迹鉴定模块,所述笔迹鉴定模块用于:
获取笔迹鉴定对象对应的所述输出结果;
利用所述输出结果中包含的所述笔迹鉴定对象书写的汉字符号,从预先建立的汉字相似性知识库中,获取目标汉字与其余各汉字对应的相似权重值,以生成相似权重列表,其中,所述目标汉字是与所述笔迹鉴定对象书写的汉字符号相同的汉字;
针对预先存储的每一历史笔迹存储结果,利用该历史笔迹存储结果中包含的各历史汉字符号,从所述相似权重列表中查询与该历史汉字符号相同的汉字对应的目标相似权重值;
对各所述历史汉字符号对应的历史汉字编码以及该历史汉字符号对应的所述目标相似权重值进行加权求和,以将加权求和结果作为该历史笔迹存储结果对应的笔迹鉴定分值;
按照所述笔迹鉴定分值由高到低的顺序,输出所述笔迹鉴定对象对应的笔迹鉴定结果。
可选的,所述笔迹鉴定模块,还包括:汉字相似性知识库存储单元,所述汉字相似性知识库存储单元用于:
对汉字部首归部规范中包含的每一部首进行编码,得到各部首对应的部首编码向量;
针对字典中包含的每一汉字,利用该汉字包含的各部首对应的所述部首编码向量,计算各所述部首编码向量对应的向量均值,将计算结果作为该汉字对应的汉字编码向量;
针对每一所述汉字编码向量,计算该汉字编码向量与其余各所述汉字编码向量的向量距离;
对计算得到的各所述向量距离进行归一化处理,将归一化处理的结果作为该汉字编码向量与其余各所述汉字编码向量的相似权重值进行保存。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的笔迹的存储方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的笔迹的存储方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
考虑到在笔迹书写过程中,离线笔迹的静态图像可能受到待鉴定对象所书写汉字的形状、大小等个人书写发挥的不稳定性因素的影响,因此,本申请先按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序,得到该目标用户的书写数据序列,然后,对所述书写数据序列进行笔画划分,将属于同一笔画的书写数据点分为一个第一数据组,这样,每一个第一数据组都可以代表目标用户所书写的一个笔画,而根据各书写数据点对应的采集时间,则可以获知每个第一数据组对应的采集时间,进而得到目标用户书写时的笔画顺序,由于个人书写时的笔画顺序属于个人书写习惯,不易受到临场发挥的影响,因此,相较于现有技术,本申请在所述第一数据组的基础上得到的笔迹存储结果,可以减少个人书写中不稳定因素的影响,进而提高后续步骤中对个人笔迹的鉴定准确度。
进一步的,本申请利用汉字识别模型,将目标用户的书写数据点转化成所述目标用户书写的汉字符号以及该汉字符号对应的汉字编码,进行存储。这样,相较于现有技术单纯通过离线笔迹的静态图像中的底层数据点来表示个人笔迹,本申请以汉字编码的形式表示目标用户的笔迹特征,更有利于突出不同目标用户之间的笔迹差异,进而在笔迹鉴定过程中,提高对个人笔迹的鉴定准确度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种笔迹的存储方法的流程示意图;
图2示出了本申请实施例所提供的一种去除最小时戳噪声数据的方法的流程示意图;
图3示出了本申请实施例所提供的一种笔画划分的方法的流程示意图;
图4示出了本申请实施例所提供的一种汉字的识别方法的流程示意图;
图5示出了本申请实施例所提供的一种汉字的分割方法的流程示意图;
图6示出了本申请实施例所提供的一种笔迹鉴定方法的流程示意图;
图7示出了本申请实施例所提供的一种汉字相似性知识库的建立方法的流程示意图;
图8示出了本申请实施例所提供的一种笔迹的存储装置的结构示意图;
图9为本申请实施例提供的一种计算机设备900的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种笔迹的存储方法、装置、设备及存储介质,下面通过实施例进行描述。
实施例一
图1示出了本申请实施例所提供的一种笔迹的存储方法的流程示意图,该方法包括步骤S101-S104;具体的:
S101,按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序,得到该目标用户的书写数据序列。
本申请实施例中,作为一可选实施例,在所述按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序之前,所述方法还包括:
在所述目标用户的书写过程中,按照预先设置的采样频率,采集所述目标用户的所述书写数据点;
其中,每一所述书写数据点至少包括:时戳、笔尖与书写平面的相对高度、笔身相对于所述书写平面的中心的正北坐标、所述笔身相对于所述书写平面的中心的正西坐标、所述笔身与所述书写平面的水平方向夹角、所述笔身与所述书写平面的正北方向夹角、所述笔身的自转角度以及所述笔尖对所述书写平面的笔压。
具体的,所述目标用户包括但不限于:在进行笔迹鉴定时,需要被比对的目标对象,例如:在进行用于刑事侦查的笔迹鉴定时,所述目标用户可以是当前侦查案件中的各个嫌疑人,作为一可选实施例,在按照预先设置的采样频率进行采样时,所述采样频率可以不低于目标用户最快书写速度的两倍,且不高于150Hz,以保证对目标用户笔迹采样的完整度。
具体的,对于采样的每一所述书写数据点,其中,所述时戳用于表示采样时间和目标用户的书写顺序;所述正西坐标以及所述正北坐标用于表示目标用户在书写平面上的书写轨迹;所述水平方向夹角、所述正北方向夹角以及所述自转角度用于表示目标用户书写时的运笔方式;所述笔压用于表示目标用户书写时的强弱变化;所述相对高度为零时,用于表示目标用户处于书写状态,所述相对高度不为零时,用于表示笔尖与书写平面未接触,目标用户处于停笔状态。这样,从书写顺序、书写轨迹、运笔方式、书写强弱变化以及书写状态等方面,采集目标用户的书写数据,可以更有利于分析当前目标用户的笔迹数据特征。
S102,对所述书写数据序列进行笔画划分,将属于同一笔画的各所述书写数据点划分为一组,得到第一数据组。
具体的,由于所述书写数据序列中各书写数据点是按照采集的时间先后顺序进行排列的,因此,作为一可选实施例,可以从所述书写数据序列中,先筛选出用于表示目标用户处于停笔状态的书写数据点,然后,将筛选出的各书写数据点作为所述书写数据序列的笔画分割点,以得到按照书写笔画进行划分的第一数据组。
示例性的说明,以书写数据序列:a、b、c、d、e、f为例,其中,书写数据点a中笔尖与书写平面的相对高度为0cm,书写数据点b中笔尖与书写平面的相对高度为0cm,书写数据点c中笔尖与书写平面的相对高度为4cm,书写数据点d中笔尖与书写平面的相对高度为0cm,书写数据点e中笔尖与书写平面的相对高度为0cm,书写数据点f中笔尖与书写平面的相对高度为5cm;由于目标用户在进行书写时,笔尖与书写平面处于接触状态,目标用户停笔时,笔尖与书写平面处于不接触状态,出现相对高度,因此,可以确定书写数据点c和f是表示目标用户处于停笔状态的书写数据点,进而,可以得到书写数据点a、b和c属于同一笔画,书写数据点d、e和f属于同一笔画,将书写数据序列按照笔画分割为两个第一数据组。
S103,获取第一阈值数量的第二数据组,其中,每一所述第二数据组是通过对所有的各所述第一数据组进行随机划分产生的。
具体的,在步骤S103中,已经按照是否属于同一笔画,完成对书写数据序列中的各书写数据点的分组,得到各所述第一数据组,其中,每一所述第一数据组都可以用于表示目标用户书写的一个笔画,在此基础上,可以将各第一数据组按照时戳的先后顺序进行排序,得到按照笔画书写顺序排列的第一数据组序列,对该第一数据组序列进行一次随机划分,可以得到一种用于表示当前随机划分方式的第二数据组,由于汉字是由笔画构成的,因此,每一个第二数据组可以象征一种可能的汉字符号,在笔画分割的基础上,实现对所述书写数据序列的汉字分割。
示例性的说明,以第一数据组序列:S0,S1,S2,S3,S4,S5,S6为例,对该第一数据组序列进行第一次随机划分,例如:第一数据组S0、S1为一组,第一数据组S2、S3、S4为一组,第一数据组S5、S6为一组,则可以得到一个第二数据组:S0 S1,S2 S3 S4,S5 S6;若预先设置的第一阈值数量为m,则可以按照上述的随机划分方法,对该第一数据组序列进行m次随机划分,进而得到m个相对应的第二数据组。
本申请实施例中,作为一可选实施例,为了增强每一第一数据组中包含的各书写数据点之间的关联程度,还可以按照以下公式对各书写数据点进行矢量化处理:
其中,xi是第i个书写数据点的所述正西坐标;
xi'是第i个书写数据点的所述正西坐标矢量化处理的结果;
yi是第i个书写数据点的所述正北坐标;
yi'是第i个书写数据点的所述正北坐标矢量化处理的结果;
ε是极小常数,可以取值:1×10-7;
θa是第i个书写数据点的所述水平方向夹角;
θa'是第i个书写数据点的所述水平方向夹角矢量化处理的结果;
θb是第i个书写数据点的所述正北方向夹角;
θb'是第i个书写数据点的所述正北方向夹角矢量化处理的结果;
θc是第i个书写数据点的所述自转角度;
θc'是第i个书写数据点的所述自转角度矢量化处理的结果;
j用于计数,N是采集的书写数据点的总个数。
S104,将各所述第二数据组作为汉字识别模型的输入,对所述汉字识别模型的输出结果进行存储,以将所述输出结果作为所述目标用户的笔迹存储结果,其中,所述输出结果包括:所述目标用户书写的汉字符号以及该汉字符号对应的汉字编码。
具体的,所述汉字识别模型用于识别输入数据所属的汉字符号,以及对识别后的输入数据进行编码,得到该输入数据对应的汉字编码,其中,所述汉字识别模型在识别输入数据所属的汉字符号时,还可以对识别结果的准确度进行预测,得到预测正确的概率值。
需要说明的是,对于不同的目标用户书写的同一个汉字,由于输入数据的不同,因此,得到的汉字编码也各不相同,基于输入数据中包含的目标用户的各书写数据点,由于书写数据点中包含了书写顺序、书写轨迹、运笔方式、书写强弱变化以及书写状态等个人书写特征,因此,利用不同目标用户的同一个汉字符号对应的各汉字编码,可以高效的比较不同目标用户的笔迹特征,进而提高后续步骤中笔迹鉴定的准确度以及笔迹鉴定的效率。
在一个可行的实施方案中,图2示出了本申请实施例所提供的一种去除最小时戳噪声数据的方法的流程示意图,如图2所示,在执行步骤S102之前,该方法还包括S201-S204;具体的:
S201,计算所述书写数据序列对应的最小的轴对齐包围盒,得到第一包围盒。
具体的,以所述书写数据点中包含的所述正西坐标作为书写平面的横轴坐标,以所述正北坐标作为书写平面的纵轴坐标,可以在书写平面所在的水平面建立一个平面坐标系,在该平面坐标系中,利用轴对齐包围盒算法,可以计算出当前书写数据序列对应的最小的轴对齐包围盒,其中,所述轴对齐包围盒的长和宽分别与该平面坐标系的横轴、纵轴相平行,所述第一包围盒即为符合所述轴对齐包围盒条件,并且能够包含当前书写数据序列中各书写数据点的面积最小的矩形。
示例性的说明,以书写数据序列:P0,P1......Pn为例,其中,书写数据点P0中的所述正西坐标为x0、所述正北坐标为y0......书写数据点Pn中的所述正西坐标为xn、所述正北坐标为yn;在书写平面上建立平面坐标系,则书写数据点P0可以表示为坐标点0:(x0,y0)......书写数据点Pn可以表示为坐标点n:(xn,yn),利用轴对齐包围盒算法,可以得到包含坐标点0至坐标点n,并且矩形的长和宽与横纵坐标轴平行的各个轴对齐包围盒,然后,提取矩形面积最小的轴对齐包围盒作为所述第一包围盒,记为H1。
S202,从所述书写数据序列中去除第一书写数据点,得到第一书写数据序列,其中,所述第一书写数据点是所述书写数据序列中所述时戳最小的所述书写数据点。
示例性的说明,仍以上述示例中的书写数据序列:P0,P1......Pn为例,由于书写数据序列是按照采集时间的先后顺序进行排序的,因此,书写数据点P0即为所述第一书写数据点,去除所述第一书写数据点之后,得到第一书写数据序列为:P1......Pn。
S203,计算所述第一书写数据序列对应的最小的轴对齐包围盒,得到第二包围盒。
示例性的说明,以上述示例中的第一书写数据序列:P1......Pn为例,利用轴对齐包围盒算法,可以得到包含坐标点1至坐标点n,并且矩形的长和宽与横纵坐标轴平行的各个轴对齐包围盒,然后,提取矩形面积最小的轴对齐包围盒作为所述第二包围盒,记为H2。
S204,若所述第二包围盒与所述第一包围盒的面积之比小于预设的第一噪声阈值,则从所述书写数据序列中去除当前的第一书写数据点并返回到步骤S202,否则结束去除最小时戳噪声数据的流程。
示例性的说明,仍以上述示例说明为例,计算第二包围盒H2与第一包围盒H1的面积之比,若计算得到的面积之比为0.7,预先设置的第一噪声阈值为0.9,由于计算出的面积之比0.7小于第一噪声阈值0.9,因此,从书写数据序列中去除书写数据点P0,返回到步骤S202,此时,在步骤S202中,书写数据序列更新为:P1......Pn,第一书写数据点更新为:P1,继续进行判断;而若计算得到的面积之比为0.7,预先设置的第一噪声阈值为0.6,由于计算出的面积之比0.7大于第一噪声阈值0.6,则结束去除最小时戳噪声数据的流程。
本申请实施例中,作为一可选实施例,在去除最小时戳噪声数据之后,还可以进一步去除最大时戳噪声数据,具体的去燥步骤与步骤S201-步骤S204相同,仅是将第一书写数据点更换为第二书写数据点,其中,所述第二书写数据点是所述书写数据序列中所述时戳最大的所述书写数据点,在此不再赘述。
需要说明的是,除上述按照最小时戳和最大时戳的顺序分别进行去燥的方法之外,还可以利用预先设置的相似阈值,对时戳相邻的两个书写数据点进行判断,若相邻的两个书写数据点中包含的每一种特征值之间的相对差值都小于所述相似阈值,则去除两个书写数据点中时戳较大的书写数据点,依次去除书写数据序列中的噪声数据,对于噪声数据的去除方法,本申请并不进行限定。这样,通过去除书写数据序列中的噪声数据,可以进一步减小目标用户在书写时的书写发挥的不稳定因素,从而,提高后续步骤对笔迹鉴定时的准确度。
在一个可行的实施方案中,图3示出了本申请实施例所提供的一种笔画划分的方法的流程示意图,如图3所示,在执行步骤S102时,该方法还包括S301-S303;具体的:
S301,针对所述书写数据序列中相邻的每两个所述书写数据点,判断两个相邻的所述书写数据点中包含的所述笔压是否都不为零。
具体的,当目标用户处于书写状态时,笔尖与书写平面处于接触状态,此时,所述笔压不为零;当目标用户处于停笔状态时,笔尖与书写平面处于不接触状态,此时,所述笔压为零;因此,通过判断时戳相邻的两个书写数据点是否具有连续的笔压值,可以确定出属于同一笔画的书写数据点,将所述书写数据序列按照笔画分割成各个第一数据组,每一个第一数据组都可以表示目标用户书写的一个笔画。
需要说明的是,由于所述书写数据序列是各书写数据点按照采集的时间先后顺序进行排序后得到的有序序列,因此,在所述书写数据序列中相邻的两个书写数据点也就是时戳相邻的两个书写数据点。
S302,若两个相邻的所述书写数据点中包含的所述笔压都不为零,则确定两个相邻的所述书写数据点属于同一笔画。
示例性的说明,书写数据序列:a、b、c、d、e、f,其中,若书写数据点a中笔压为10Pa,书写数据点b中笔压为21Pa,书写数据点c中笔压为9Pa,书写数据点d中笔压为0Pa,书写数据点e中笔压为15Pa,书写数据点f中笔压为8Pa;则以相邻的两个书写数据点a和b为例,由于书写数据点a和b的笔压都不为0,因此,可以确定书写数据点a和b属于同一笔画。
S303,若两个相邻的所述书写数据点中包含的所述笔压至少有一个为零,则确定两个相邻的所述书写数据点不属于同一笔画。
示例性的说明,以上述示例中相邻的两个书写数据点c和d为例,由于书写数据点c的笔压不为0,书写数据点d的笔压为0,因此,可以确定书写数据点c和d不属于同一笔画,进而,将书写数据序列:a、b、c、d、e、f按照笔画分割成两个第一数据组,其中,书写数据点a、b、c为第一个第一数据组;书写数据点e、f为第二个第一数据组。
需要说明的是,在目标用户处于书写状态时,所述笔压不为0,笔尖与书写平面的相对高度为0;在目标用户处于停笔状态时,所述笔压为0,笔尖与书写平面的相对高度不为0;因此,利用所述笔压或所述相对高度都可以实现对所述书写数据序列的笔画分割,对此本申请并不进行限定。
在一个可行的实施方案中,图4示出了本申请实施例所提供的一种汉字的识别方法的流程示意图,如图4所示,在执行步骤S104时,该方法还包括S401-S404;具体的:
S401,针对每一所述第二数据组,对该第二数据组进行字符预测,获取该第二数据组对应的字符预测结果,其中,所述字符预测结果包括:该第二数据组对应的汉字预测值以及预测正确概率值。
具体的,以n个第一数据组按照时戳先后顺序排序后的序列:S1,S2,......Sn为例,若第一阈值数量为m,则对于该序列进行m次随机划分得到m个第二数据组:R1,R2,......Rm,其中,Ri是第i个第二数据组,i的取值范围为[1,m],若第二数据组Ri中包含k个笔画分割集合r,其中,k的个数取决于第i次随机划分时,对于第一数据组序列的划分个数,笔画分割集合r用于表示划分出的一个第一数据组集合,例如,第i次随机划分时,第一数据组S1,S2,S3被随机分为一个第一数据组集合,此时,第二数据组Ri中的第一个笔画分割集合r1为:S1,S2,S3。在此基础上,可以利用以下公式对输入的各第二数据组进行字符预测:
其中,G(Ri)是第二数据组Ri对应的汉字预测值以及预测正确概率值;
rj是第二数据组Ri中的第j个笔画分割集合,j用于计数,其中,j的取值范围为:[1,k];
M为字符识别网络,用于输出rj对应的汉字识别值以及识别准确度;
C是容忍系数,取值范围为(0,∞),默认值可以是ln2,其中,C的取值越大,则表示能够接受的最低识别准确度的值越小。
S402,利用预先设置的识别准确度阈值,判断各所述预测正确概率值中是否存在目标预测概率值,其中,所述目标预测概率值是大于所述识别准确度阈值的所述预测正确概率值。
具体的,可以将所述字符识别网络对于汉字识别的平均识别准确度作为所述识别准确度阈值,对于上述的m个第二数据组:R1,R2,......Rm,分别获取各第二数据组对应的汉字预测值以及预测正确概率值:G(R1),G(R2)......G(Rm),判断其中是否存在所述目标预测概率值。
S403,若存在所述目标预测概率值,则将目标数据组作为编码器的输入,得到所述目标数据组对应的编码结果,其中,所述目标数据组是所述目标预测概率值对应的第二数据组。
示例性的说明,以上述步骤说明为例,若预先设置的识别准确度阈值为0.7,各第二数据组对应的汉字预测值以及预测正确概率值:G(R1),G(R2)......G(Rm)中存在G(Ri)大于0.7,则可以将第二数据组Ri作为编码器的输入,得到第二数据组Ri对应的汉字编码。
本申请实施例中,作为一可选实施例,所述将目标数据组作为编码器的输入,得到所述目标数据组对应的编码结果,包括:
识别输入的所述目标数据组对应的所述汉字预测值;
利用识别出的所述汉字预测值以及输入的所述目标数据组,从所述目标数据组中,识别出所述目标用户对所述汉字预测值的书写方向特征以及书写长度特征;
根据识别出的所述书写方向特征以及所述书写长度特征,对所述目标数据组进行编码,得到所述编码结果。
具体的,所述编码器可以包括:汉字识别网络和书写风格识别网络,在对所述编码器进行训练时,可以按照以下公式进行训练:
对于所述汉字识别网络:
其中,L是交叉熵损失函数,Wi是样本书写数据组;
θ1和θ2是所述汉字识别网络的两个参数;
利用Adam学习算法,对所述汉字识别网络进行训练,通过调整θ1和θ2,当调整后得到的交叉熵损失函数L的损失值达到最小时,确定所述汉字识别网络完成训练,获取训练好的所述汉字识别网络中的作为样本书写数据组Wi对应的汉字预测值,将获取到的输入所述书写风格识别网络;
对于所述书写风格识别网络:
其中,Lj是多任务损失函数,当样本书写数据组Wi中的书写数据点的特征为书写方向特征时,则Lj是余弦损失函数,当样本书写数据组Wi中的书写数据点的特征为书写长度特征时,则Lj是均方误差损失函数;
λj是与Lj相对应的权重值,通常取值为1;
θ3和θ4是所述书写风格识别网络的两个参数;
利用RMSprop学习算法,对所述书写风格识别网络进行训练,在输入的汉字预测值固定不变的条件下,通过调整θ3和θ4,当所述书写风格识别网络整体损失达到最小时,完成训练,输出作为样本数据组Wi的编码结果。
具体的,作为一可选实施例,所述书写方向特征可以包括:时戳、笔尖与书写平面的相对高度、所述笔身与所述书写平面的水平方向夹角、所述笔身与所述书写平面的正北方向夹角以及所述笔身的自转角度;
所述书写长度特征可以包括:笔身相对于所述书写平面的中心的正北坐标、所述笔身相对于所述书写平面的中心的正西坐标以及所述笔尖对所述书写平面的笔压。
S404,输出并存储所述编码结果和所述目标数据组对应的所述汉字预测值。
示例性的说明,仍以上述示例为例,若G(Ri)中对应的汉字预测值为“吴”,将第二数据组Ri作为编码器的输入,得到第二数据组Ri对应的汉字编码为017586,则输出并存储目标用户书写“吴”字时的汉字编码为:017586。
具体的,作为一可选实施例,在此基础上,可以为每一个目标用户设置一个身份识别码,将该身份识别码作为历史笔迹信息查询的第一索引值;针对每一所述历史笔迹存储结果,可以将该历史笔迹存储结果中包含的汉字预测值作为历史笔迹信息查询的第二索引值。这样,在查询历史笔迹信息时,可以利用所述第一索引值,来查找目标用户对应的历史笔迹存储结果;利用所述第二索引值,在上述查询的基础上,进一步查询目标用户所书写过的目标汉字,以在笔迹鉴定时,提高历史笔迹信息的查询效率。
在一个可行的实施方案中,图5示出了本申请实施例所提供的一种汉字的分割方法的流程示意图,如图5所示,在执行步骤S402时,该方法还包括S501-S504;具体的:
S501,若各所述预测正确概率值中不存在所述目标预测概率值,则按照预先设置的抽取约束条件,从各所述第二数据组中抽取第二阈值数量的所述第二数据组,得到第三数据组,其中,所述第二阈值数量小于所述第一阈值数量。
具体的,所述抽取约束条件可以是:所述预测正确概率值的大小与抽取成功的概率成正相关,例如,所述预测正确概率值越高的第二数据组被抽取选中的概率越大,以步骤S401中的说明部分为例,对于m个第二数据组:R1,R2,......Rm,可以按照所述抽取约束条件,从m个第二数据组中随机抽取K个第二数据组,得到K个第三数据组,其中,K即为所述第二阈值数量,K小于m。
具体的,以第二数据组Ri为例,可以按照以下公式来计算第二数据组Ri被抽取选中的概率:
其中,P(Ri)是第二数据组Ri被抽取选中的概率;
G(Ri)是第二数据组Ri对应的所述字符预测结果;
G(Rj)是第二数据组Rj对应的所述字符预测结果;
j用于计数,其中,j的取值范围为:[1,m]。
示例性的说明,以上述步骤402的说明部分为例,若预先设置的识别准确度阈值为0.7,各第二数据组对应的汉字预测值以及预测正确概率值:G(R1),G(R2)......G(Rm)中不存在G(Ri)大于0.7,则可以按照上述公式计算出的各第二数据组对应的被抽取选中的概率,从m个第二数据组中随机抽取选出K个第二数据组,将被选中的K个第二数据组,作为K个第三数据组,其中,K小于m。
S502,对各所述第三数据组进行随机处理,以将随机处理的结果作为所述第二数据组的替换结果,其中,所述随机处理至少包括:随机交换以及随机翻转。
具体的,作为一种可行的实施方式,可以按照以下步骤对各所述第三数据组进行随机处理:
步骤1、针对每一个第三数据组Ti,其中,i的取值范围为:[1,K],将第三数据组Ti中的各笔画分割集合r的分割方式使用一组二进制字符串进行表示;
示例性的说明,仍以步骤S401中的第一数据组序列:S1,S2,......Sn为例,对于每一个第三数据组Ti,都可以用一个n-1位的二进制字符串进行表示,其中,二进制字符串的第i位用于表示第一数据组Si与第一数据组Si+1是否属于同一笔画分割集合r。
步骤2、从K个第三数据组中随机提取两个第三数据组,对于随机提取的两个第三数据组对应的二进制字符串,从中随机确定一个字符位,对两个二进制字符串进行随机交换;
步骤3,从随机交换后得到的两个二进制字符串中,任意提取一个二进制字符串,并根据提取的该二进制字符串,调整笔画分割集合r中第一数据组的划分结果,得到更新后的第三数据组;
步骤4、重复执行m-K次步骤3,得到m-K个更新后的第三数据组,利用m-K个更新后的第三数据组以及步骤S501中抽取出的K个第三数据组对m个第二数据组进行替换。
作为一可选实施例,在完成步骤4的基础上,还可以针对每一个替换后的第二数据组,按照预设的翻转概率值,来确定是否需要对该替换后的第二数据组对应的二进制字符串进行翻转。
示例性的说明,若预设的翻转概率值为1×10-4,则对于每一个替换后的第二数据组而言,都存在万分之一的概率需要对该替换后的第二数据组对应的二进制字符串进行翻转,以根据翻转后的二进制字符串,再次调整该替换后的第二数据组中笔画分割集合r中第一数据组的划分结果。
S503,将所述替换结果作为所述汉字识别模型的输入,返回到字符预测的步骤。
示例性的说明,以上述步骤S502中的说明部分为例,在对原始的m个第二数据组进行替换后,将替换后的m-K个更新后的第三数据组以及步骤S501中抽取出的K个第三数据组作为所述替换结果,重新输入所述汉字识别模型,返回到字符预测的步骤S401。
实施例二
图6示出了本申请实施例所提供的一种笔迹鉴定方法的流程示意图,如图6所示,该方法还包括S601-S605;具体的:
S601,获取笔迹鉴定对象对应的所述输出结果。
具体的操作与步骤S101-S104相同,仅是将所述笔迹鉴定对象作为目标用户进行替换,在此不再赘述。
S602,利用所述输出结果中包含的所述笔迹鉴定对象书写的汉字符号,从预先建立的汉字相似性知识库中,获取目标汉字与其余各汉字对应的相似权重值,以生成相似权重列表,其中,所述目标汉字是与所述笔迹鉴定对象书写的汉字符号相同的汉字。
示例性的说明,若所述笔迹鉴定对象书写的汉字符号为汉字“吴”,则以汉字“吴”作为目标汉字,获取到的所述相似权重列表如下表1所示:
汉字符号 | 与汉字吴的相似权重值 |
口 | 0.4 |
昊 | 0.9 |
天 | 0.5 |
红 | 0.1 |
... | ... |
表1
S603,针对预先存储的每一历史笔迹存储结果,利用该历史笔迹存储结果中包含的各历史汉字符号,从所述相似权重列表中查询与该历史汉字符号相同的汉字对应的目标相似权重值。
具体的,所述历史笔迹存储结果包括历史存储过的目标用户的笔迹存储结果。
示例性的说明,以目标用户A的历史笔迹存储结果:口,007796;天,106789;红,216508为例,可以从表1中查询得到:口字与吴字的相似权重值为0.4、天字与吴字的相似权重值为0.5、红字与吴字的相似权重值为0.1。
S604,对各所述历史汉字符号对应的历史汉字编码以及该历史汉字符号对应的所述目标相似权重值进行加权求和,以将加权求和结果作为该历史笔迹存储结果对应的笔迹鉴定分值。
示例性的说明,仍以目标用户A的历史笔迹存储结果为例,可以得到目标用户A的历史笔迹存储结果为:
007796×0.4+106789×0.5+216508×0.1=78163.7;
得到目标用户A的历史笔迹存储结果对应的笔迹鉴定分值为78163.7。
S605,按照所述笔迹鉴定分值由高到低的顺序,输出所述笔迹鉴定对象对应的笔迹鉴定结果。
具体的,作为一可选实施例,在所述笔迹鉴定对象只书写了一个汉字时,可以按照所述笔迹鉴定分值由高到低的顺序以及预先设置的名次阈值,输出排名在所述名次阈值之前的各目标用户,得到所述笔迹鉴定结果。
作为另一可选实施例,在所述笔迹鉴定对象书写了多个汉字时,可以从每一个汉字对应的目标用户历史笔迹存储结果排序中,选择出现频次高于预先设置的频次阈值数量的目标用户进行输出,得到所述笔迹鉴定结果。
在一个可行的实施方案中,图7示出了本申请实施例所提供的一种汉字相似性知识库的建立方法的流程示意图,如图7所示,在执行步骤S602之前,该方法还包括S701-S704;具体的:
S701,对汉字部首归部规范中包含的每一部首进行编码,得到各部首对应的部首编码向量。
具体的,可以将每一种不同的部首先编码表示为不同的独热编码向量,然后,将各独热编码向量输入word2vec编码模型,得到word2vec编码模型的输出结果,将该输出结果作为所述部首编码向量,其中,word2vec编码模型用于将离散的独热编码转换为低维稠密的分布式编码。
示例性的说明,例如,对于部首“横折钩”可以先编码表示成独热编码向量(1,0,0...0),对于部首“竖折钩”可以编码表示成独热编码向量(0,1,0...0),其中,各部首编码向量中的向量维度个数与汉字部首归部规范中包含的部首个数相同。
S702,针对字典中包含的每一汉字,利用该汉字包含的各部首对应的所述部首编码向量,计算各所述部首编码向量对应的向量均值,将计算结果作为该汉字对应的汉字编码向量。
S703,针对每一所述汉字编码向量,计算该汉字编码向量与其余各所述汉字编码向量的向量距离。
需要说明的是,向量均值以及向量与向量之间的向量距离的计算方法较为成熟且种类繁多,在此,对于向量均值的具体计算方法,以及向量距离的计算方法,本申请并不进行具体限定。
S704,对计算得到的各所述向量距离进行归一化处理,将归一化处理的结果作为该汉字编码向量与其余各所述汉字编码向量的相似权重值进行保存。
具体的,作为一种可选实施例,可以按照以下公式,进行和值归一化处理:
其中,ui是汉字u与字典中除汉字u之外的其余汉字中的第i个汉字的相似权重值;
di是汉字u与字典中除汉字u之外的其余汉字中的第i个汉字的汉字编码向量之间的向量距离;
dj是汉字u与字典中除汉字u之外的其余汉字中的第j个汉字的汉字编码向量之间的向量距离;
j用于计数,字典中的汉字总个数为n。
作为另一种可选实施例,可以按照以下公式,进行幂值归一化处理:
其中,ui是汉字u与字典中除汉字u之外的其余汉字中的第i个汉字的相似权重值;
di是汉字u与字典中除汉字u之外的其余汉字中的第i个汉字的汉字编码向量之间的向量距离;
dj是汉字u与字典中除汉字u之外的其余汉字中的第j个汉字的汉字编码向量之间的向量距离;
j用于计数,字典中的汉字总个数为n,e是指数函数。
实施例三
图8示出了本申请实施例所提供的一种笔迹的存储装置的结构示意图,所述存储装置包括:
采集模块801,用于按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序,得到该目标用户的书写数据序列;
笔画分割模块802,用于对所述书写数据序列进行笔画划分,将属于同一笔画的各所述书写数据点划分为一组,得到第一数据组;
随机划分模块803,用于获取第一阈值数量的第二数据组,其中,每一所述第二数据组是通过对所有的各所述第一数据组进行随机划分产生的;
汉字识别模块804,用于将各所述第二数据组作为汉字识别模型的输入,对所述汉字识别模型的输出结果进行存储,以将所述输出结果作为所述目标用户的笔迹存储结果,其中,所述输出结果包括:所述目标用户书写的汉字符号以及该汉字符号对应的汉字编码。
可选的,所述采集模块801,还用于:
在所述目标用户的书写过程中,按照预先设置的采样频率,采集所述目标用户的所述书写数据点;
其中,每一所述书写数据点至少包括:时戳、笔尖与书写平面的相对高度、笔身相对于所述书写平面的中心的正北坐标、所述笔身相对于所述书写平面的中心的正西坐标、所述笔身与所述书写平面的水平方向夹角、所述笔身与所述书写平面的正北方向夹角、所述笔身的自转角度以及所述笔尖对所述书写平面的笔压。
可选的,所述笔画分割模块802,还包括:
笔画判断单元(图中未示出),用于针对所述书写数据序列中相邻的每两个所述书写数据点,判断两个相邻的所述书写数据点中包含的所述笔压是否都不为零;
第一确定单元(图中未示出),用于若两个相邻的所述书写数据点中包含的所述笔压都不为零,则确定两个相邻的所述书写数据点属于同一笔画;
第二确定单元(图中未示出),用于若两个相邻的所述书写数据点中包含的所述笔压至少有一个为零,则确定两个相邻的所述书写数据点不属于同一笔画。
可选的,所述汉字识别模块804,还包括:
字符预测单元(图中未示出),用于针对每一所述第二数据组,对该第二数据组进行字符预测,获取该第二数据组对应的字符预测结果,其中,所述字符预测结果包括:该第二数据组对应的汉字预测值以及预测正确概率值;
字符判断单元(图中未示出),用于利用预先设置的识别准确度阈值,判断各所述预测正确概率值中是否存在目标预测概率值,其中,所述目标预测概率值是大于所述识别准确度阈值的所述预测正确概率值;
编码输入单元(图中未示出),用于若存在所述目标预测概率值,则将目标数据组作为编码器的输入,得到所述目标数据组对应的编码结果,其中,所述目标数据组是所述目标预测概率值对应的第二数据组;
编码输出单元(图中未示出),用于输出并存储所述编码结果和所述目标数据组对应的所述汉字预测值。
可选的,所述字符判断单元,还包括:
抽取子单元(图中未示出),用于若各所述预测正确概率值中不存在所述目标预测概率值,则按照预先设置的抽取约束条件,从各所述第二数据组中抽取第二阈值数量的所述第二数据组,得到第三数据组,其中,所述第二阈值数量小于所述第一阈值数量;
处理子单元(图中未示出),用于对各所述第三数据组进行随机处理,以将随机处理的结果作为所述第二数据组的替换结果,其中,所述随机处理至少包括:随机交换以及随机翻转;
传输子单元(图中未示出),用于将所述替换结果作为所述汉字识别模型的输入,返回到字符预测的步骤。
可选的,所述编码输入单元,还用于:
识别输入的所述目标数据组对应的所述汉字预测值;
利用识别出的所述汉字预测值以及输入的所述目标数据组,从所述目标数据组中,识别出所述目标用户对所述汉字预测值的书写方向特征以及书写长度特征;
根据识别出的所述书写方向特征以及所述书写长度特征,对所述目标数据组进行编码,得到所述编码结果。
可选的,所述装置,还包括:笔迹鉴定模块(图中未示出),所述笔迹鉴定模块用于:
获取笔迹鉴定对象对应的所述输出结果;
利用所述输出结果中包含的所述笔迹鉴定对象书写的汉字符号,从预先建立的汉字相似性知识库中,获取目标汉字与其余各汉字对应的相似权重值,以生成相似权重列表,其中,所述目标汉字是与所述笔迹鉴定对象书写的汉字符号相同的汉字;
针对预先存储的每一历史笔迹存储结果,利用该历史笔迹存储结果中包含的各历史汉字符号,从所述相似权重列表中查询与该历史汉字符号相同的汉字对应的目标相似权重值;
对各所述历史汉字符号对应的历史汉字编码以及该历史汉字符号对应的所述目标相似权重值进行加权求和,以将加权求和结果作为该历史笔迹存储结果对应的笔迹鉴定分值;
按照所述笔迹鉴定分值由高到低的顺序,输出所述笔迹鉴定对象对应的笔迹鉴定结果。
可选的,所述笔迹鉴定模块,还包括:汉字相似性知识库存储单元(图中未示出),所述汉字相似性知识库存储单元用于:
对汉字部首归部规范中包含的每一部首进行编码,得到各部首对应的部首编码向量;
针对字典中包含的每一汉字,利用该汉字包含的各部首对应的所述部首编码向量,计算各所述部首编码向量对应的向量均值,将计算结果作为该汉字对应的汉字编码向量;
针对每一所述汉字编码向量,计算该汉字编码向量与其余各所述汉字编码向量的向量距离;
对计算得到的各所述向量距离进行归一化处理,将归一化处理的结果作为该汉字编码向量与其余各所述汉字编码向量的相似权重值进行保存。
实施例四
如图9所示,本申请实施例提供了一种计算机设备900,用于执行本申请中的笔迹的存储方法,该设备包括存储器901、处理器902及存储在该存储器901上并可在该处理器902上运行的计算机程序,其中,上述处理器902执行上述计算机程序时实现上述的笔迹的存储方法的步骤。
具体地,上述存储器901和处理器902可以为通用的存储器和处理器,这里不做具体限定,当处理器902运行存储器901存储的计算机程序时,能够执行上述的笔迹的存储方法。
对应于本申请中的笔迹的存储方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述的笔迹的存储方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述的笔迹的存储方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种笔迹的存储方法,其特征在于,所述方法包括:
按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序,得到该目标用户的书写数据序列;
对所述书写数据序列进行笔画划分,将属于同一笔画的各所述书写数据点划分为一组,得到第一数据组;
获取第一阈值数量的第二数据组,其中,每一所述第二数据组是通过对所有的各所述第一数据组进行随机划分产生的;
将各所述第二数据组作为汉字识别模型的输入,对所述汉字识别模型的输出结果进行存储,以将所述输出结果作为所述目标用户的笔迹存储结果,其中,所述输出结果包括:所述目标用户书写的汉字符号以及该汉字符号对应的汉字编码;
其中,在所述按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序之前,所述方法还包括:
在所述目标用户的书写过程中,按照预先设置的采样频率,采集所述目标用户的所述书写数据点;
其中,每一所述书写数据点至少包括:时戳、笔尖与书写平面的相对高度、笔身相对于所述书写平面的中心的正北坐标、所述笔身相对于所述书写平面的中心的正西坐标、所述笔身与所述书写平面的水平方向夹角、所述笔身与所述书写平面的正北方向夹角、所述笔身的自转角度以及所述笔尖对所述书写平面的笔压;
其中,所述对所述书写数据序列进行笔画划分,包括:
针对所述书写数据序列中相邻的每两个所述书写数据点,判断两个相邻的所述书写数据点中包含的所述笔压是否都不为零;
若两个相邻的所述书写数据点中包含的所述笔压都不为零,则确定两个相邻的所述书写数据点属于同一笔画;
若两个相邻的所述书写数据点中包含的所述笔压至少有一个为零,则确定两个相邻的所述书写数据点不属于同一笔画。
2.根据权利要求1所述的方法,其特征在于,所述将各所述第二数据组作为汉字识别模型的输入,对所述汉字识别模型的输出结果进行存储,包括:
针对每一所述第二数据组,对该第二数据组进行字符预测,获取该第二数据组对应的字符预测结果,其中,所述字符预测结果包括:该第二数据组对应的汉字预测值以及预测正确概率值;
利用预先设置的识别准确度阈值,判断各所述预测正确概率值中是否存在目标预测概率值,其中,所述目标预测概率值是大于所述识别准确度阈值的所述预测正确概率值;
若存在所述目标预测概率值,则将目标数据组作为编码器的输入,得到所述目标数据组对应的编码结果,其中,所述目标数据组是所述目标预测概率值对应的第二数据组;
输出并存储所述编码结果和所述目标数据组对应的所述汉字预测值。
3.根据权利要求2所述的方法,其特征在于,所述判断各所述预测正确概率值中是否存在目标预测概率值,还包括:
若各所述预测正确概率值中不存在所述目标预测概率值,则按照预先设置的抽取约束条件,从各所述第二数据组中抽取第二阈值数量的所述第二数据组,得到第三数据组,其中,所述第二阈值数量小于所述第一阈值数量;
对各所述第三数据组进行随机处理,以将随机处理的结果作为所述第二数据组的替换结果,其中,所述随机处理至少包括:随机交换以及随机翻转;
将所述替换结果作为所述汉字识别模型的输入,返回到字符预测的步骤。
4.根据权利要求2所述的方法,其特征在于,所述将目标数据组作为编码器的输入,得到所述目标数据组对应的编码结果,包括:
识别输入的所述目标数据组对应的所述汉字预测值;
利用识别出的所述汉字预测值以及输入的所述目标数据组,从所述目标数据组中,识别出所述目标用户对所述汉字预测值的书写方向特征以及书写长度特征;
根据识别出的所述书写方向特征以及所述书写长度特征,对所述目标数据组进行编码,得到所述编码结果。
5.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获取笔迹鉴定对象对应的所述输出结果;
利用所述输出结果中包含的所述笔迹鉴定对象书写的汉字符号,从预先建立的汉字相似性知识库中,获取目标汉字与其余各汉字对应的相似权重值,以生成相似权重列表,其中,所述目标汉字是与所述笔迹鉴定对象书写的汉字符号相同的汉字;
针对预先存储的每一历史笔迹存储结果,利用该历史笔迹存储结果中包含的各历史汉字符号,从所述相似权重列表中查询与该历史汉字符号相同的汉字对应的目标相似权重值;
对各所述历史汉字符号对应的历史汉字编码以及该历史汉字符号对应的所述目标相似权重值进行加权求和,以将加权求和结果作为该历史笔迹存储结果对应的笔迹鉴定分值;
按照所述笔迹鉴定分值由高到低的顺序,输出所述笔迹鉴定对象对应的笔迹鉴定结果。
6.根据权利要求5所述的方法,其特征在于,所述汉字相似性知识库的建立方法,包括:
对汉字部首归部规范中包含的每一部首进行编码,得到各部首对应的部首编码向量;
针对字典中包含的每一汉字,利用该汉字包含的各部首对应的所述部首编码向量,计算各所述部首编码向量对应的向量均值,将计算结果作为该汉字对应的汉字编码向量;
针对每一所述汉字编码向量,计算该汉字编码向量与其余各所述汉字编码向量的向量距离;
对计算得到的各所述向量距离进行归一化处理,将归一化处理的结果作为该汉字编码向量与其余各所述汉字编码向量的相似权重值进行保存。
7.一种笔迹的存储装置,其特征在于,所述装置包括:
采集模块,用于按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序,得到该目标用户的书写数据序列;
笔画分割模块,用于对所述书写数据序列进行笔画划分,将属于同一笔画的各所述书写数据点划分为一组,得到第一数据组;
随机划分模块,用于获取第一阈值数量的第二数据组,其中,每一所述第二数据组是通过对所有的各所述第一数据组进行随机划分产生的;
汉字识别模块,用于将各所述第二数据组作为汉字识别模型的输入,对所述汉字识别模型的输出结果进行存储,以将所述输出结果作为所述目标用户的笔迹存储结果,其中,所述输出结果包括:所述目标用户书写的汉字符号以及该汉字符号对应的汉字编码;
其中,在所述按照采集的时间先后顺序,对采集到的目标用户的所有书写数据点进行排序之前,所述采集模块,还用于:
在所述目标用户的书写过程中,按照预先设置的采样频率,采集所述目标用户的所述书写数据点;
其中,每一所述书写数据点至少包括:时戳、笔尖与书写平面的相对高度、笔身相对于所述书写平面的中心的正北坐标、所述笔身相对于所述书写平面的中心的正西坐标、所述笔身与所述书写平面的水平方向夹角、所述笔身与所述书写平面的正北方向夹角、所述笔身的自转角度以及所述笔尖对所述书写平面的笔压;
其中,在所述对所述书写数据序列进行笔画划分时,所述笔画分割模块,用于:
针对所述书写数据序列中相邻的每两个所述书写数据点,判断两个相邻的所述书写数据点中包含的所述笔压是否都不为零;
若两个相邻的所述书写数据点中包含的所述笔压都不为零,则确定两个相邻的所述书写数据点属于同一笔画;
若两个相邻的所述书写数据点中包含的所述笔压至少有一个为零,则确定两个相邻的所述书写数据点不属于同一笔画。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的笔迹的存储方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011429420.3A CN112541328B (zh) | 2020-12-07 | 2020-12-07 | 一种笔迹的存储方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011429420.3A CN112541328B (zh) | 2020-12-07 | 2020-12-07 | 一种笔迹的存储方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541328A CN112541328A (zh) | 2021-03-23 |
CN112541328B true CN112541328B (zh) | 2022-04-01 |
Family
ID=75019702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011429420.3A Active CN112541328B (zh) | 2020-12-07 | 2020-12-07 | 一种笔迹的存储方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541328B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115061621A (zh) * | 2022-05-25 | 2022-09-16 | 山东蓝贝思特教装集团股份有限公司 | 一种双稳态液晶书写装置书写笔迹显示控制方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369382A (zh) * | 2007-08-17 | 2009-02-18 | 英业达股份有限公司 | 汉字书写验证系统及方法 |
CN101430756A (zh) * | 2008-10-27 | 2009-05-13 | 浙江大学 | 一种和书写文字内容无关的汉字笔迹可视化鉴定方法 |
CN102073870A (zh) * | 2011-01-10 | 2011-05-25 | 杭州电子科技大学 | 一种触摸屏汉字笔迹识别方法 |
CN102073884A (zh) * | 2010-12-31 | 2011-05-25 | 北京捷通华声语音技术有限公司 | 一种手写识别方法、系统及手写识别终端 |
CN106814929A (zh) * | 2017-02-20 | 2017-06-09 | 南京领先教育科技有限公司 | 一种基于柔性液晶屏的书写用电子屏及书写笔迹处理方法 |
CN108089747A (zh) * | 2017-12-13 | 2018-05-29 | 四川大学 | 一种笔压信息获得方法、装置、电子设备及存储介质 |
CN108171144A (zh) * | 2017-12-26 | 2018-06-15 | 四川大学 | 信息处理方法、装置、电子设备及存储介质 |
CN111310548A (zh) * | 2019-12-04 | 2020-06-19 | 武汉汉德瑞庭科技有限公司 | 一种在线手写笔迹中笔画类型的识别方法 |
CN111523455A (zh) * | 2020-04-22 | 2020-08-11 | 北京易文汉学科技有限公司 | 汉字书写的评价方法 |
-
2020
- 2020-12-07 CN CN202011429420.3A patent/CN112541328B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369382A (zh) * | 2007-08-17 | 2009-02-18 | 英业达股份有限公司 | 汉字书写验证系统及方法 |
CN101430756A (zh) * | 2008-10-27 | 2009-05-13 | 浙江大学 | 一种和书写文字内容无关的汉字笔迹可视化鉴定方法 |
CN102073884A (zh) * | 2010-12-31 | 2011-05-25 | 北京捷通华声语音技术有限公司 | 一种手写识别方法、系统及手写识别终端 |
CN102073870A (zh) * | 2011-01-10 | 2011-05-25 | 杭州电子科技大学 | 一种触摸屏汉字笔迹识别方法 |
CN106814929A (zh) * | 2017-02-20 | 2017-06-09 | 南京领先教育科技有限公司 | 一种基于柔性液晶屏的书写用电子屏及书写笔迹处理方法 |
CN108089747A (zh) * | 2017-12-13 | 2018-05-29 | 四川大学 | 一种笔压信息获得方法、装置、电子设备及存储介质 |
CN108171144A (zh) * | 2017-12-26 | 2018-06-15 | 四川大学 | 信息处理方法、装置、电子设备及存储介质 |
CN111310548A (zh) * | 2019-12-04 | 2020-06-19 | 武汉汉德瑞庭科技有限公司 | 一种在线手写笔迹中笔画类型的识别方法 |
CN111523455A (zh) * | 2020-04-22 | 2020-08-11 | 北京易文汉学科技有限公司 | 汉字书写的评价方法 |
Non-Patent Citations (2)
Title |
---|
"A New Automated Method for Evaluating Mental Workload Using Handwriting Features";Zhiming Wu 等;《IEICE Transactions on Information and Systems》;20170930;2147-2155 * |
A computerized multidimensional measurement of mental workload via handwriting analysis;GIl Luria 等;《Behavior Research Methods》;20111013;575-586 * |
Also Published As
Publication number | Publication date |
---|---|
CN112541328A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
Senior | A combination fingerprint classifier | |
CN101128838B (zh) | 辨认图 | |
CA2152211C (en) | System and method for automated interpretation of input expressions using novel a posteriori probability measures and optimally trained information processing networks | |
CN105808709B (zh) | 人脸识别快速检索方法及装置 | |
CN105893968B (zh) | 基于深度学习的文本无关的端到端的笔迹识别方法 | |
CN101128837A (zh) | 基于分割的辨认方法 | |
US6917708B2 (en) | Handwriting recognition by word separation into silhouette bar codes and other feature extraction | |
US20080130996A1 (en) | Method For Character Recognition | |
Al-Dmour et al. | Segmenting Arabic handwritten documents into text lines and words | |
CN112541328B (zh) | 一种笔迹的存储方法、装置、设备及存储介质 | |
CN111506726A (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
JP4958236B2 (ja) | 手書きパターンを認識するための方法及び装置 | |
CN114220179A (zh) | 一种基于faiss的在线手写签名笔迹检索方法和系统 | |
CN112651323B (zh) | 一种基于文本行检测的中文手写体识别方法及系统 | |
CN112801113A (zh) | 基于多尺度可靠聚类的数据去噪方法 | |
Vuori | Clustering writing styles with a self-organizing map | |
CN116403252A (zh) | 基于双向动态分组的多目标特征选择的人脸识别分类方法 | |
Madhavaraj et al. | Improved recognition of aged Kannada documents by effective segmentation of merged characters | |
CN110348323B (zh) | 一种基于神经网络优化的穿戴式设备手势识别方法 | |
Lay et al. | On-line Chinese character recognition with effective candidate radical and candidate character selections | |
Teulings et al. | An on-line handwriting-recognition system based on unreliable modules | |
CN113936246A (zh) | 基于联合局部特征判别性学习的无监督目标行人重识别方法 | |
JP2000105798A (ja) | 手書き文字認識装置及び記録媒体 | |
CN113420983A (zh) | 一种书写评价方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |