CN113468972A - 用于复杂场景手写识别的手写轨迹切分方法及计算机产品 - Google Patents
用于复杂场景手写识别的手写轨迹切分方法及计算机产品 Download PDFInfo
- Publication number
- CN113468972A CN113468972A CN202110632525.7A CN202110632525A CN113468972A CN 113468972 A CN113468972 A CN 113468972A CN 202110632525 A CN202110632525 A CN 202110632525A CN 113468972 A CN113468972 A CN 113468972A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- bezier curve
- handwriting
- dimensional
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000005070 sampling Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 10
- 238000010606 normalization Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种用于复杂场景手写识别的手写轨迹切分方法和计算机产品,手写轨迹切分方法包括如下步骤:获取手写轨迹数据;通过三维贝塞尔曲线对所述手写轨迹数据进行拟合,得到一组贝塞尔曲线,以及每条贝塞尔曲线对应的特征变量;将所述一组贝塞尔曲线的特征变量输入切分网络模型,输出得到每条贝塞尔曲线是否为切分点的概率,以实现手写轨迹切分;本发明采用三维贝塞尔曲线以及通过三维贝塞尔曲线提取的若干特征,使得本发明的技术方案能够兼容多种复杂手写场景,并且取得了较高的处理效率和切分效果。
Description
技术领域
本发明涉及手写识别技术领域,特别是涉及用于复杂场景手写识别的手写轨迹切分方法及计算机产品。
背景技术
手写输入是人与设备的一种重要的交互方式。手写输入包括传统的电子手写方式,还包括三维空间中的手势输入、凌空输入(draw-in-air)等输入方式。相应的,为了辨识手写输入,手写识别技术也在各种类型的电子设备上被广泛地应用起来。
任何手写识别系统都需要首先识别手写轨迹或者手势(下文中,手写轨迹将泛指在电子屏幕上的手写轨迹,以及没有电子屏幕情况下的手势轨迹),而每个手写轨迹均可以看成一系列包含时间戳的空间点,或者是以空间点坐标为基本单位的时间系列。因此,我们可以定义如下概念,以用于清楚地描述本发明的内容:
手写笔画:一个以空间点坐标为基本单元的时间序列。
手写轨迹:一个以手写笔画为基本单元的时间序列。
手写轨迹切分:对用户连续输入的手写轨迹(时间序列)在合适位置进行分割,分割后的各个轨迹片段(一组有序手写笔画)语义上应当对应某个字符(手汉字、英文字母、数字或其他符号)。
特征工程:为建立机器学习模型而广泛选取的候选特征变量,通过对候选特征变量进一步评估与试验最终确定对机器学习任务有显著作用的特征变量集合,这一过程就被称作特征工程。
过切分:属于一个字符意义的手写笔画被切分到不同的组,比如:“大”被切分为“一”,“人”。
欠切分:属于某个字符意义的手写笔画中,被误混入属于其他字符的笔画,比如“大二”,被切分为“大一”,“一”两个组,其中,“大一”是欠切分情况。
目前的识别技术方案中“切分+搜索识别”的方案发展较早,也较为普遍,并且实现方式更为灵活,流程相对可控,具有较高的可解释性。对手写输入的切分操作是指将手写轨迹(时间序列)在合适位置进行分割,分割后的各个笔画段分别对应不同的待识别字符(汉字、英文或符号)。因此,切分操作的准确程度将直接影响整个识别任务的最终精度。
现有的切分方法强调对笔画段的“过切分”,也就是将手写笔画序列切分后的笔画段对应一个潜在的待识别字符或部分字符,而这样往往会给后续的识别任务带来额外的搜索空间而导致识别效率低下。
为了提高切分准确率,已有方案提出了采用机器学习算法构建切分网络模型,但其准确率取决于前期的特征工程,并且模型输入需要计算大量的特征变量,并且特征变量仅在某些特定场景(例如固定方向的书写)敏感;如果手写输入场景变化,还需要重新进行特征工程。而且难以适用于复杂的手写输入场景(比如:任意方向书写或连续手势,非连续获取的手写或手势,以及手写或手势内容空间存在重叠等)。
综上所述,现有的手写轨迹切分方法存在效率、准确性和兼容性难以兼顾的问题。
发明内容
基于此,有必要针对上述存在的问题,提供一种用于复杂场景手写识别的手写轨迹切分方法,同时,本发明还提供了基于上述切分方法的计算机设备和计算机可读存储介质。
根据本发明的一个方面,本发明实施例提供了一种复杂场景手写识别的手写轨迹切分方法,包括如下步骤:获取手写轨迹数据;通过三维贝塞尔曲线对所述手写轨迹数据进行拟合,得到一组贝塞尔曲线,以及每条贝塞尔曲线对应的特征变量;将所述一组贝塞尔曲线的特征变量输入切分网络模型,输出得到每条贝塞尔曲线是否为切分点的概率,以实现手写轨迹切分;训练所述切分网络模型所使用的原始样本包括若干个字符,每个字符包括:若干笔画和对应的笔画切分标签,每个笔画进行贝塞尔曲线拟合得到的贝塞尔曲线和特征变量,以及贝塞尔曲线切分标签;通过对所述切分网络模型的训练,得到笔画切分标签与贝塞尔曲线切分标签的映射关系。
在一个实施例中,所述手写轨迹数据为三维空间轨迹数据,或者二维平面轨迹数据与第三维物理量的结合,或者二维平面轨迹数据与人工构造的第三维数据的结合。
在一个实施例中,所述特征变量包括:控制点坐标、控制点坐标之差、控制点之间的距离、控制点连线之间的夹角大小和时间维拟合系数中一个或多个的组合。
在一个实施例中,还包括在拟合之前进行手写轨迹划分的步骤:以手写轨迹采样点的转向角度序列的极值点或小于设定阈值的对应点作为划分点,将手写轨迹划分为多个手写轨迹点集,以对每个手写轨迹点集分别进行拟合。
在一个实施例中,所述通过三维贝塞尔曲线对所述手写轨迹数据进行拟合包括:计算三维贝塞尔曲线的拟合系数;根据所述拟合系数求解三维贝塞尔曲线的控制点坐标。
在一个实施例中,所述切分网络模型的输入矩阵大小为n*a,n是拟合出的贝塞尔曲线数目,a是特征变量数目;输出矩阵大小为n*2,行表示贝塞尔曲线,列表示是否为切分点,每个元素表示所在贝塞尔曲线是否为切分点的概率。
在一个实施例中,所述切分网络模型包括多层双向循环神经网络与两层全连接网络。
在一个实施例中,所述切分网络模型的损失函数为:
其中yi’为模型输出,yi为笔画切分标签,n为贝塞尔曲线数目,i表示序号。
根据本发明的另一个方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
根据本发明的又一个方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,处理器执行所述计算机程序时实现上述方法的步骤。
本发明提出采用三维贝塞尔曲线拟合手写轨迹,提取贝塞尔曲线的相关特征作为特征变量,通过训练好的切分网络模型来预测轨迹切分点,最终实现对手写轨迹的切分。由于采用了三维贝塞尔曲线,可以对输入数据进行更加连续的表达,对于不同的采样率和分辨率表现出更强的鲁棒性;本发明的技术方案避免了繁琐的特征工程,能够适用于诸如:多行/多列书写、任意方向斜写、文本重叠、多字叠写、跳跃书写、非均匀大小等多种复杂书写场景。另外,三维贝塞尔曲线不仅可以应用于三维场景,还能够用于二维场景,使得本发明的兼容性更强。再者,本发明所提取的特征变量,其数据规模远远小于已有技术的特征变量规模,因此本发明的训练效率和识别效率均高于现有技术;最后,通过试验证明,本发明能够达到极佳的切分效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1为根据本发明实施例的一种用于复杂场景手写识别的手写轨迹切分方法流程示意图;
图2为贝塞尔曲线拟合任意轨迹示意图;
图3为根据本发明实施例的根据转向角进行笔画划分的示意图;
图4为根据本发明实施例的手写轨迹转向角定义示意图;
图5为根据本发明实施例的笔画内贝塞尔曲线段划分流程示意图;
图6为根据本发明实施例的三维贝塞尔曲线拟合计算流程示意图;
图7为根据本发明实施例的特征变量定义示意图;
图8为根据本发明实施例的切分网络模型结构示意图;
图9为根据本发明实施例的切分网络模型输出结果示意图;
图10为根据本发明实施例的笔画切分标签与贝塞尔曲线切分标签的映射示意图;
图11为根据本发明实施例的切分网络模型的测试曲线;
图12为根据本发明实施例的一个切分示例;
图13为根据本发明实施例的另一个切分示例;以及
图14为一种计算机设备结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细地说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的基本构思是:首先利用三维贝塞尔曲线对手写轨迹数据进行拟合得到一组贝塞尔曲线,然后将拟合得到的结果输入到切分网络模型中,最后通过切分网络模型的输出来判断每条贝塞尔曲线是否为切分点。
本发明采用三维贝塞尔曲线拟合的方式来提取手写轨迹数据,不仅避免了繁琐的“特征工程”,而且提取出的特征变量的规模也较少,能够适用于多行/多列书写、任意方向斜写、文本重叠、多字叠写、跳跃书写、非均匀大小等各种复杂书写场景;另外,三维贝塞尔曲线可以向下兼容二维平面的手写情况,使得本发明方法具备更强的兼容性。总的来说,本发明能够在保证识别准确性的基础上提高识别的效率,并且其适用范围更广。下面对本发明进行详细的说明。
方法实施例
在一个实施例中,如图1所示的一种用于复杂场景手写识别的手写轨迹切分方法,包括如下步骤:
步骤S1,获取手写轨迹数据。
步骤S2,通过三维贝塞尔曲线对所述手写轨迹数据进行拟合,得到一组贝塞尔曲线,以及每条贝塞尔曲线对应的特征变量。
步骤S3,将所述每条贝塞尔曲线的特征变量均输入切分网络模型,输出得到每条贝塞尔曲线是否为切分点的概率,以实现手写轨迹切分。
其中,训练切分网络模型所使用的原始样本包括若干个字符,每个字符包括:若干笔画和对应的笔画切分标签,每个笔画进行贝塞尔曲线拟合得到的贝塞尔曲线和特征变量,以及贝塞尔曲线切分标签;通过对切分网络模型的训练,得到笔画切分标签与贝塞尔曲线切分标签的映射关系。
在一个实施例中,步骤S1获取手写轨迹数据包括对原始手写轨迹数据进行预处理的过程,预处理过程包括两个步骤:
步骤S101,合法化采样点数据。原始手写轨迹数据由一系列的采样点数据组成,预处理过程主要用于去除无效的采样点。在一个实施场景中,无效的采样点可以是重复的采样点,也可以是有数据缺失的采样点。也就是说,某些采样点由于某些原因而导致其无法在后续处理中使用,因此需要进行去除。去除的手段包括滤波算法等用于数据处理的方法。本发明对无效的采样点的选取标准,以及无效的采样点的去除方法不做限制,本领域技术人员可以根据具体情况适用不同的方式。
步骤S102,进行归一化处理。由于不同的书写习惯,不同的人在同一电子设备上书写的大小很可能不同,而且即使是同一个人,在同一个电子设备上书写的大小也可能不同。因此,需要将传感器采集的数据进行归一化处理。上述传感器,是指用于采集手指或者书写工具在书写面板上按压信息的传感器,也指在凌空输入的情况下,获取书写轨迹的传感器。
具体地,可以将书写轨迹分为两种情况:1)常规三维轨迹数据,其采样点信息包括(x,y,z,t),其中x,y,z为常规欧几里得坐标值,t为采样时间戳信息(或是时间间隔);2)“二维+”轨迹数据,即采样点信息包括(x,y,z,t)其中x,y为二维平面上的欧几里得坐标值,z可以是传感器捕获的其他变量信息,如:压感信息,或垂直平面的加速度信息等。对常规三维轨迹按照(1)式进行归一化操作。
L=maX(xmax,ymax,zmax) (1)
对“二维+”的轨迹数据按(2)式进行归一化操作。
L=maX(xmax,ymax) (2)
根据(2)式可知,对于二维书写场景,也可以通过归一化形成三维数据。在其他实施例中,也可以采用其他种类的归一化公式来执行归一化操作。
上面介绍了关于步骤S1的数据预处理过程,在进行输出预处理之后,需要执行步骤S2,步骤S2用于将手写轨迹数据转化为一系列的贝塞尔曲线,并且得出所有贝塞尔曲线的相关参数。一条手写轨迹可以表示为多条连续的贝塞尔曲线,因此,基于贝塞尔曲线可以对手写轨迹数据进行更加连续的表达。在贝塞尔曲线表达中,每一条曲线可以被表示为起始点、终止点和两个控制点的多项式。
举例来说,如图2所示的手写轨迹可以用三条贝塞尔曲线的序列来描述,即曲线1、曲线2和曲线3,曲线1可以由四个控制点a,b,c,d表示,曲线2可以由四个控制点d,e,f,g表示,曲线3可以由四个控制点g,h,i,j表示。下面详细介绍拟合、求解贝塞尔曲线的过程。
步骤S2包括步骤S201-步骤S204,如图3、图4和图5所示。图3为根据转向角进行笔画划分的示意图;图4为手写轨迹转向角定义示意图;图5为笔画划分流程示意图。
在步骤S201中,进行拟合贝塞尔曲线点集的划分。考虑到手写输入在空间中的任意性,对单个输入笔画的贝塞尔曲线拟合,需要提前划定连续采样点集合,对每个集合进行拟合操作与特征提取的操作,本发明将该过程称为进行拟合贝塞尔曲线点集的划分。在一个实施场景中,可以以手写轨迹采样点的转向角度作为依据,来对手写轨迹进行划分,划分出的每个曲线段拟合一条贝塞尔曲线。在其他实施例中,本领域技术人员也可以采用手写轨迹采样点的其他属性作为划分的依据,而不仅限于上述的转向角度。
图3所对应的划分流程如图5所示,对于手写轨迹,取连续的多个采样点,得到多个采样点对应的转向角度序列(θ1,θ2,…θN-1),然后找出其中小于阈值的点,或者是极值点,将这些点对应的采样点确定为划分点。
如图3所示,(a)表示手写笔画,共14个采样点,(b)表示14个采样点对应的转向角度序列。转向角度定义如图4所示,取连续的3个采样点i-1,i,i+1,并以中间点i为中心构成的向量夹角表示为θ,即转向角度。结合手写输入的特点可知,转向角度较大,对应的手写轨迹较为平直,转向角度较小,则对应的手写轨迹上可能转折,可通过设定阈值以及判断转向角极小值点进行判断。在图3中,设定一个阈值为50度,在N=2处阈值小于50度,在N=5和N=8处,分别为转向角的极小值点,而其他采样点对应的转向角度均大于50度,因此将N=2,N=5和N=8定为该笔画的划分点。由此可以将手写轨迹(a)拟合为4条贝塞尔曲线段,分别为采样点0-2,采样点2-5,采样点5-8和采样点8-13。
步骤S201执行结束后,开始执行步骤S202,进行贝塞尔曲线拟合计算。贝塞尔曲线拟合计算的目的是计算贝塞尔曲线的拟合系数矩阵。下面对计算的原理进行说明:
一般3阶贝塞尔曲线上任一点可以写为控制点与伯恩斯坦多项式的加权和,如式(3):
其中Pi为控制点,B为对应阶数为n的伯恩斯坦多项式(4):
在本发明中,将三维手写轨迹数据进行归一化操作后,将贝塞尔曲线表达式中的变量直接作为点元素重新写作关于中间变量σ与拟合系数(α、β、γ、δ)的多项式(5)。实际拟合时,对于每给定一个点(xi,yi,zi,ti)则存在一个中间系数σi与之对应,从而根据式(5)计算出贝塞尔曲线拟合点p(σ)。
x(σ)=α0+α1σ+α2σ2+α3σ3
y(σ)=β0+β1σ+β2σ2+β3σ3
Z(σ)=γ0+γ1σ+γ2σ2+γ3σ3
t(σ)=δ0+δ1σ+δ2σ2+δ3σ3 (5)
拟合点p(σ)与样本点p的距离误差可以表示为式(6):
对于给定的手写轨迹而言,如果包含N+1个采样点,则式(5)式可以写为如下矩阵形式:
并令
则有式(9):
P=VM (9)
进而,在假定中间变量已知时,即可获得拟合系数矩阵M,表示为式(10):
M=(VTV)-1(VTP) (10)
此外,对于每一个点而言,其几何约束由式(11)表示:
x(σi)′(x(σi)-xi)+y(σi)′(y(σi)-yi)+z(σi)′(z(σi)-zi)=0 (11)
P可以看作关于中间变量σi的三次方程,可以通过牛顿迭代来更新σi的值。于是,即可再次更新矩阵V中的元素进而更新M的数值进行迭代。最终根据极小化SSE式(6)来求解拟合系数矩阵M。
步骤S202的计算步骤如图6所示:首先将点集P(点集P表示贝塞尔曲线控制点集合)和中间变量初值σ(σ表示σ0,σ1,σ2,…σN)带入式(8)计算拟合系数矩阵M,进而根据式(5)计算拟合点集P’,然后根据式(6)计算样本点与拟合点的距离误差SSE,并且判断SSE是否收敛,若收敛则表明得到的拟合系数矩阵M为合适的输出结果,若不收敛:根据式(9)更新中间变量σ;迭代地更新中间变量σ,直至对应的SSE收敛,得到对应的拟合系数矩阵M记为输出结果。
由于步骤S201中划分了多条贝塞尔曲线,因此对于每条贝塞尔曲线,都应计算出相应的拟合系数矩阵M。
步骤S202执行结束后,开始执行步骤S203,用于反算贝塞尔曲线控制点,即在拟合计算完成后,根据求解的拟合系数反解每条贝塞尔曲线的控制点(P0,P1,P2,P3)坐标。
以x坐标计算为例,依照贝塞尔曲线的定义式(4),三阶贝塞尔曲线方程x方向可以写作式(12):
x(σ)=x0+(-3x0+3x1)σ+(3x0-6x1+3x2)σ2+(-x0+3x1-3x2+x3)σ3 (12)
为了与多项式表达式(5)的系数相对应,则有方程组式(13):
α0=x0
α1=-3x0+3x1
α2=3x0-6x1+3x2
α3=-x0+3x1-3x2+x3
(13)
直接求解(13)即可得到贝塞尔曲线四个控制点的x坐标值(x0,x1,x2,x3)。类似地,(y0,y1,y2,y3)与(z0,z1,z2,z3)也可以按照相同方法求出,此处不再赘述;进一步地,还可以求出步骤S201中划分出的每条贝塞尔曲线的控制点坐标。
步骤S203执行结束后,开始执行步骤S204,用于提取特征变量。对于每条贝塞尔曲线,可以采用其四个控制点作为特征变量,也可以采用贝塞尔曲线的其他属性作为特征变量,在一个实施例中,可以按照图7所示出的属性来定义特征变量,特征变量定义如表1所示。
表1
序号 | 变量 | 描述 |
1 | dx | 控制点P0与P3的x坐标值之差 |
2 | dy | 控制点P0与P3的y坐标值之差 |
3 | dz | 控制点P0与P3的z坐标值之差 |
4 | X0 | 控制点P0的x坐标值 |
5 | Y0 | 控制点P0的y坐标值 |
6 | Z0 | 控制点P0的z坐标值 |
7 | X3 | 控制点P3的x坐标值 |
8 | Y3 | 控制点P3的y坐标值 |
9 | Z3 | 控制点P3的z坐标值 |
10 | d1 | 控制点P0与P1的距离 |
11 | d2 | 控制点P2与P3的距离 |
12 | cosA1 | P0P1连线与P0P3连线的夹角余弦值 |
13 | cosA2 | P2P3连线与P0P3连线的夹角余弦值 |
14 | δ1 | 时间维拟合系数 |
15 | δ2 | 时间维拟合系数 |
16 | δ3 | 时间维拟合系数 |
特征变量1-13表示贝塞尔曲线与其控制点的位置关系,特征变量14-16表示时间维拟合系数,为式(5)中所定义,在M矩阵求解后可直接获取对应数值,见式(8)、式(10)。对于每条贝塞尔曲线来说,每个特征变量对应一个特征值,每条贝塞尔曲线可以表示为一个16维的向量。
在其他实施例中,可以采用不同于以上实施例的若干个特征变量,本发明对此不做限制。优选地,以上实施例中采用的这16个特征变量对于切分网络模型的训练和识别来说,其效率和准确性远远高于其他特征变量的组合。
综上,步骤S2包括步骤S201、步骤S202、步骤S203和步骤S204,经过这些步骤,最终将输入的手写轨迹表示为一系列连续的贝塞尔曲线,每条贝塞尔曲线均可以表示为若干维的向量。
步骤S2执行结束后,开始执行步骤S3,将所述一组贝塞尔曲线输入切分网络模型,输出得到每条贝塞尔曲线是否为切分点的概率,以实现手写轨迹切分。下面结合图8-图10对步骤S3进行说明,图8为根据本发明实施例的切分网络模型结构示意图;图9为切分网络模型输出结果示意图;图10为笔画切分标签与贝塞尔曲线切分标签的映射示意图。
步骤S3的核心在于切分网络模型,切分网络模型能够将输入的一组贝塞尔曲线进行处理,得到每条贝塞尔曲线是否为切分点的概率。为了清楚地描述切分网络模型,首先介绍切分网络模型的构造。图8示意性示出了根据本发明实施例的一种切分网络模型。可以理解的是,图8中所示出的模型结构仅仅是本发明方案的一种实现方式,本领域技术人员根据本发明的教导也可以构造出其他类型的模型结构。
如图8所示,切分网络模型为深度神经网络模型,采用循环神经网络(RecursiveNeural Network,RNN)与全连接网络(Fully Connection networks,FCs)进行构建,输出二分类结果并做softmax变换。也就是说,切分网络模型的输入层为多层双向RNN,中间层为两层全连接网络FC-1和FC-2,输出层为分类网络softmax。在其他应用场景中,构建切分网络模型时,其RNN网络层次不局限于一般RNN内核、门控循环单元(Gated Recurrent Unit,GRU)或长短期记忆单元(Long-Short Term Memory,LSTM)的方式,本领域技术人员可以具体需要进行取舍。
切分网络模型的输入数据为贝塞尔曲线的特征变量。比如:一组输入的手写轨迹数据包含m个笔画,每个笔画包含(x,y,z),其数据矩阵大小为m*3,经过贝塞尔拟合并提取特征后得到n段贝塞尔曲线,每段曲线包含16个特征变量,则网络的输入数据矩阵大小变为n*16,经过如图8所示网络计算后输出数据大小为n*2,经过softmax变换后,网络输出值(某行)代表对应的贝塞尔曲线是切分点(第一列)与不是切分点(第二列)的概率。
如图9示出了一个输出结果的例子,在这个例子中,n=6,即手写笔画经过拟合后共得到6段贝塞尔曲线。6*2的矩阵表示为6*2的单元格,对于每个单元格,白色填充表示较低的概率值,灰色填充表示中等的概率值,条纹填充表示较高的概率值。从图9中可以看出,第3条和第6条贝塞尔曲线是切分点的概率最高。在图9所示的例子中,概率值有高、中、低之分,在其他实施例中,本领域技术人员也可以将概率值以归约方式设计为0和1两种情况,以简化处理过程。
以上介绍了切分网络模型的结构,下面介绍切分网络模型的训练过程。在一个实际应用场景中,切分网络模型的训练可以采用随机梯度下降算法,并且控制学习率不高于0.001。切分网络模型的损失函数定义如式(12):
其中yi’(i=1,..,n)为模型输出,yi(i=1,…,n)为贝塞尔曲线切分标签,n为贝塞尔曲线段数量,贝塞尔曲线切分标签通过对笔画切分标签进行映射得到。
图10展示了一个笔画切分标签与贝塞尔曲线切分标签之间映射的例子。其中,原始样本包含2个字符(字符1和字符2),对应5个手写笔画,其中第一个字符有2个手写笔画,第二个字符有3个手写笔画。在经过贝塞尔曲线拟合后,5个手写笔画拟合为7段贝塞尔曲线,其中第1笔画被转换为第1、2条贝塞尔曲线,第2笔画被转换为第3条贝塞尔曲线,第3笔画被转换为4条贝塞尔曲线,第4笔画被转换为第5、6条贝塞尔曲线,第5笔画被转换为第7条贝塞尔曲线。笔画切分标签为“01001”,1表示切分点,0表示非切分点,“01001”即表示第2笔画和第5笔画为切分点。笔画切分标签“01001”映射为贝塞尔曲线切分标签“0010001”,“0010001”表示第3条贝塞尔曲线和第7条贝塞尔曲线为切分点。
在切分网络模型的训练过程中,是将笔画切分标签映射为贝塞尔曲线切分标签;相应地,在切分预测过程中,则是将贝塞尔曲线切分标签反向映射为笔画切分标签,从而实现对手写轨迹进行切分预测。
通过上述的训练过程,得到一个训练好的切分网络模型,即可对输入的贝塞尔曲线特征序列(每个贝塞尔曲线的特征变量)进行预测,得出每条贝塞尔曲线是否为切分点的概率(概率既可以采用具体概率值的形式,也可以是0和1形式),从而实现对手写轨迹的切分。进而根据切分的结果,可以对切分出的每个部分进行识别,最终实现手写识别。
上述步骤S1-S3介绍了对于三维书写场景的识别过程。另外,根据步骤S102描述可知,对于二维书写场景,可以在二维轨迹(x,y)的基础上,增加一维变量,例如增加采样点压力的轨迹数据,将采样点压力作为第三维变量z,在归一化处理后,依然形成三维轨迹(x,y,z),从而可以直接采用上述实施例的三维书写场景的识别过程。再者,对于没有其他数据的纯二维书写场景,可以通过人工构造的方式来形成第三维数据z,因此,对于纯二维书写场景依然可以采用上述三维书写场景的识别过程。
总的来说,本发明的方法能够兼容三维、二维等多种书写场景,而且利用三维贝塞尔曲线拟合的方式提取手写轨迹特征变量来进行切分预测,避免针对特定的场景进行繁琐的“特征工程”,并且所提取的特征变量规模较小。采用切分网络模型对变换后的数据与标签进建模,训练后的切分网络模型可以实现在不同书写或手势场景下对轨迹内各个笔画的高精度切分预测,从而可以为后续识别任务大幅减少搜索路径数目,提高识别应用的效率。
以图8的网络模型为例,在切分精度达到99.86%的前提下,最终笔画切分的正样本召回达到99.21%,F1-score达到0.9926。切分网络模型在测试集上ROC曲线如图11所示。图12展示了一段手写轨迹的切分结果,可以看出,在倾斜输入的情况下本发明能够得到正确的切分效果。图13展示了另一段手写轨迹的切分结果,表明在换行输入且存在生僻字的情况下本发明也能够得到正确的切分效果。
计算机设备实施例
在一个实施例中,本发明提供了一种计算机设备,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力,可以选择CPU、单片机、DSP或者FPGA等各种品种。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。当计算机程序被执行时,可以完成上述方法实施例中所描述的步骤S1-步骤S3,下面的计算机可读存储介质实施例中会对计算机程序进行进一步说明。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种多传感数据融合方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
计算机可读存储介质实施例
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中所描述的步骤S1-步骤S3。
本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种用于复杂场景手写识别的手写轨迹切分方法,其特征在于,包括如下步骤:
获取手写轨迹数据;
通过三维贝塞尔曲线对所述手写轨迹数据进行拟合,得到一组贝塞尔曲线,以及每条贝塞尔曲线对应的特征变量;
将所述一组贝塞尔曲线的特征变量输入切分网络模型,输出得到每条贝塞尔曲线是否为切分点的概率,以实现手写轨迹切分;
训练所述切分网络模型所使用的原始样本包括若干个字符,每个字符包括:若干笔画和对应的笔画切分标签,每个笔画进行贝塞尔曲线拟合得到的贝塞尔曲线和特征变量,以及贝塞尔曲线切分标签;通过对所述切分网络模型的训练,得到笔画切分标签与贝塞尔曲线切分标签的映射关系。
2.根据权利要求1所述的方法,其特征在于,
所述手写轨迹数据为三维空间轨迹数据,
或者二维平面轨迹数据与第三维物理量的结合,
或者二维平面轨迹数据与人工构造的第三维数据的结合。
3.根据权利要求2所述的方法,其特征在于,
所述特征变量包括:控制点坐标、控制点坐标之差、控制点之间的距离、控制点连线之间的夹角大小和时间维拟合系数中一个或多个的组合。
4.根据权利要求1所述的方法,其特征在于,
还包括在拟合之前进行手写轨迹划分的步骤:
以手写轨迹采样点的转向角度序列的极值点或小于设定阈值的对应点作为划分点,将手写轨迹划分为多个手写轨迹点集,以对每个手写轨迹点集分别进行拟合。
5.根据权利要求1所述的方法,其特征在于,
所述通过三维贝塞尔曲线对所述手写轨迹数据进行拟合包括:计算三维贝塞尔曲线的拟合系数;根据所述拟合系数求解三维贝塞尔曲线的控制点坐标。
6.根据权利要求1所述的方法,其特征在于,
所述切分网络模型的输入矩阵大小为n*a,n是拟合出的贝塞尔曲线数目,a是特征变量数目;输出矩阵大小为n*2,行表示贝塞尔曲线,列表示是否为切分点,每个元素表示所在贝塞尔曲线是否为切分点的概率。
7.根据权利要求6所述的方法,其特征在于,
所述切分网络模型包括多层双向循环神经网络与两层全连接网络。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110632525.7A CN113468972B (zh) | 2021-06-07 | 2021-06-07 | 用于复杂场景手写识别的手写轨迹切分方法及计算机产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110632525.7A CN113468972B (zh) | 2021-06-07 | 2021-06-07 | 用于复杂场景手写识别的手写轨迹切分方法及计算机产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468972A true CN113468972A (zh) | 2021-10-01 |
CN113468972B CN113468972B (zh) | 2024-02-27 |
Family
ID=77868682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110632525.7A Active CN113468972B (zh) | 2021-06-07 | 2021-06-07 | 用于复杂场景手写识别的手写轨迹切分方法及计算机产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468972B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597458A (zh) * | 2023-07-14 | 2023-08-15 | 厦门达宸信教育科技有限公司 | 一种手写字母识别方法、系统和应用 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008108177A (ja) * | 2006-10-27 | 2008-05-08 | Nobuhiko Ido | 始点・終点・折れ点・制御点などの点をストロークの特徴点として表示を行なう手書き文字入力システム |
CN101916451A (zh) * | 2010-07-30 | 2010-12-15 | 浙江大学 | 书法特定风格渲染的方法 |
CN103440101A (zh) * | 2013-08-16 | 2013-12-11 | 深圳市经纬科技有限公司 | 一种手写原笔迹数据的处理方法、系统及手机 |
WO2015161823A1 (zh) * | 2014-04-25 | 2015-10-29 | 夏普株式会社 | 手写识别方法和设备 |
CN105046730A (zh) * | 2015-07-09 | 2015-11-11 | 北京盛世宣合信息科技有限公司 | 应用于毛笔的书写笔迹呈现方法和装置 |
CN105225260A (zh) * | 2015-09-25 | 2016-01-06 | 中国电子科技集团公司第三十二研究所 | 一种手写原笔迹实现方法 |
CN111931710A (zh) * | 2020-09-17 | 2020-11-13 | 开立生物医疗科技(武汉)有限公司 | 一种联机手写文字识别方法、装置、电子设备及存储介质 |
-
2021
- 2021-06-07 CN CN202110632525.7A patent/CN113468972B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008108177A (ja) * | 2006-10-27 | 2008-05-08 | Nobuhiko Ido | 始点・終点・折れ点・制御点などの点をストロークの特徴点として表示を行なう手書き文字入力システム |
CN101916451A (zh) * | 2010-07-30 | 2010-12-15 | 浙江大学 | 书法特定风格渲染的方法 |
CN103440101A (zh) * | 2013-08-16 | 2013-12-11 | 深圳市经纬科技有限公司 | 一种手写原笔迹数据的处理方法、系统及手机 |
WO2015161823A1 (zh) * | 2014-04-25 | 2015-10-29 | 夏普株式会社 | 手写识别方法和设备 |
CN105046730A (zh) * | 2015-07-09 | 2015-11-11 | 北京盛世宣合信息科技有限公司 | 应用于毛笔的书写笔迹呈现方法和装置 |
CN105225260A (zh) * | 2015-09-25 | 2016-01-06 | 中国电子科技集团公司第三十二研究所 | 一种手写原笔迹实现方法 |
CN111931710A (zh) * | 2020-09-17 | 2020-11-13 | 开立生物医疗科技(武汉)有限公司 | 一种联机手写文字识别方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597458A (zh) * | 2023-07-14 | 2023-08-15 | 厦门达宸信教育科技有限公司 | 一种手写字母识别方法、系统和应用 |
CN116597458B (zh) * | 2023-07-14 | 2023-09-08 | 厦门达宸信教育科技有限公司 | 一种手写字母识别方法、系统和应用 |
Also Published As
Publication number | Publication date |
---|---|
CN113468972B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241904B (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
CN108710866B (zh) | 汉字模型训练方法、汉字识别方法、装置、设备及介质 | |
CN111695527B (zh) | 一种蒙古文在线手写体识别方法 | |
CN106980856B (zh) | 公式识别方法及系统和符号推理计算方法及系统 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
JP6877446B2 (ja) | 多重オブジェクト構造を認識するためのシステムおよび方法 | |
CN111160288A (zh) | 手势关键点检测方法、装置、计算机设备和存储介质 | |
Naseer et al. | Meta features-based scale invariant OCR decision making using LSTM-RNN | |
CN113705297A (zh) | 检测模型的训练方法、装置、计算机设备和存储介质 | |
CN114730241A (zh) | 触摸式用户界面输入中的手势笔画识别 | |
CN113239818A (zh) | 基于分割和图卷积神经网络的表格图像跨模态信息提取方法 | |
US11393231B2 (en) | System and method for text line extraction | |
CN113468972B (zh) | 用于复杂场景手写识别的手写轨迹切分方法及计算机产品 | |
CN111738167A (zh) | 一种无约束手写文本图像的识别方法 | |
CN109871743B (zh) | 文本数据的定位方法及装置、存储介质、终端 | |
CN113255767A (zh) | 票据分类方法、装置、设备及存储介质 | |
CN115827877B (zh) | 一种提案辅助并案的方法、装置、计算机设备和存储介质 | |
JP2006318232A (ja) | 解析用メッシュ修正装置 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 | |
CN113902924A (zh) | 图像识别方法、装置、电子设备及可读存储介质 | |
CN111459395A (zh) | 手势识别方法、系统、存储介质、人机交互设备 | |
CN113128496A (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
CN116959000A (zh) | 笔迹识别方法、装置、计算机设备及存储介质 | |
CN110807452A (zh) | 预测模型构建方法、装置、系统及银行卡卡号识别方法 | |
TWI747450B (zh) | 字元辨識方法、電子裝置與電腦程式產品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |