CN114730241B - 触摸式用户界面输入中的手势笔画识别 - Google Patents
触摸式用户界面输入中的手势笔画识别 Download PDFInfo
- Publication number
- CN114730241B CN114730241B CN202080079688.0A CN202080079688A CN114730241B CN 114730241 B CN114730241 B CN 114730241B CN 202080079688 A CN202080079688 A CN 202080079688A CN 114730241 B CN114730241 B CN 114730241B
- Authority
- CN
- China
- Prior art keywords
- stroke
- sub
- strokes
- gesture
- ink
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/171—Editing, e.g. inserting or deleting by use of digital ink
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
- G06V30/1423—Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/182—Extraction of features or characteristics of the image by coding the contour of the pattern
- G06V30/1834—Extraction of features or characteristics of the image by coding the contour of the pattern using statistical shape modelling, e.g. point distribution model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/30—Character recognition based on the type of data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
Abstract
一种用于识别经由触摸式用户界面施加到电子文档上的用户输入中的手势笔画的方法,所述方法包括:接收基于所述用户输入生成的数据,所述数据表示笔画并且包括在矩形坐标空间中的多个墨点和分别与所述多个墨点相关联的多个时间戳;将所述多个墨点分割成多个片段,所述多个片段各自对应于所述笔画的相应子笔画并且包括所述多个墨点的相应子集;分别基于所述多个片段生成多个特征向量;以及将所述多个特征向量作为表示所述笔画的输入序列施加到已训练的笔画分类器以生成概率的向量,所述概率包括所述笔画是非手势笔画的概率和所述笔画是一组手势笔画中的给定手势笔画的概率。
Description
技术领域
本发明涉及触摸式用户界面中的手势识别领域。
背景技术
在经由触摸式用户界面进行电子文档创建或编辑的情景中,需要在手势笔画(即与对内容实现限定的动作相关联的笔画)与非手势笔画(诸如,用户正在添加的实际内容(例如文本、公式、形状等))之间做出区分。
现有的手势识别技术是基于规则的。更具体来说,现有的手势识别技术依靠手动限定用于识别限定的一组手势的一组启发法。虽然这些技术的表现通常可接受,但其对于更复杂/非典型的手势笔画来说则通常表现不佳。另外,由于每一次都需要针对新手势笔画开发新启发法,因此更新这些技术以添加新手势笔画是困难的。
发明内容
本发明解决一些已认识到的现有技术的不足。具体来说,本发明提出一种识别经由触摸式用户界面施加到电子文档上的用户输入中的手势笔画的方法,所述方法包括:
接收基于所述用户输入生成的数据,所述数据表示笔画并且包括在矩形坐标空间中的多个墨点和分别与所述多个墨点相关联的多个时间戳;
将所述多个墨点分割成多个片段,所述多个片段各自对应于所述笔画的相应子笔画并且包括所述多个墨点的相应子集;
分别基于所述多个片段生成多个特征向量;以及
将所述多个特征向量作为表示所述笔画的输入序列施加到已训练的笔画分类器以生成概率的向量,所述概率包括所述笔画是非手势笔画的概率和所述笔画是一组手势笔画中的给定手势笔画的概率。
所述笔画分类器可被实施为神经网络。使用神经网络意味着可通过基于包括新手势笔画的数据简单地对所述笔画分类器进行再训练来容易地添加所述新手势笔画。
根据实施方案,所述电子文档可包括手写内容和/或排版内容。
所述子笔画分割允许沿循将获得的所述笔画的路径的顺序表示。因此每一片段对应于所述笔画的局部描述。与仅将笔画表示为一系列点相比,子笔画分割使得能维持路径信息(即,每一片段内的点之间的关系),这会使得计算时间缩短。
在一个实施方案中,所述笔画分类器被实施为递归双向长短期记忆(BLSTM)。使用递归BLSTM神经网络意味着所述网络包括存储器块,所述存储器块使得所述网络能够学习长期相关性并且随时间推移而记住信息。此类网络使得笔画分类器能处置一系列向量(整个笔画)并且解释连续子笔画之间的时间相关性(即,记住笔画的路径的细节)。
在一个实施方案中,所述方法还包括基于所述多个时间戳生成多个校正的时间戳。
校正所述多个时间戳有利于移除与装置捕捉相关的伪影并且改善手势笔画识别。实际上,由于装置捕捉问题,通常某些时间戳并不对应于其相应的墨点被绘制的确切时刻。例如,在某些装置中,分配给墨点的时间戳对应于将含有所述墨点的事件日志发送到处理器单元的时间,而不是对应于捕捉墨点的精确时刻。因此,在接收到的数据中不同的连续墨点可能具有相同的时间戳值。校正所述多个时间戳确保时间戳更好地反映用户绘制相应墨点的确切时刻。借此达成改善的手势识别。
在一个实施方案中,基于所述多个时间戳生成所述多个校正的时间戳包括:
确定逼近所述多个墨点的原始时间戳曲线的函数;以及
将所述多个时间戳中的一个时间戳修改为根据所述确定的函数获得的值。
在一个实施方案中,所述方法还包括对所述多个墨点进行重新取样以生成第二多个墨点和相关联的第二多个时间戳,
对所述多个墨点进行重新取样有利于确保不同的装置具有均一的性能。实际上,由于装置通常使用不同的取样技术,因此在装置之间接收到的数据可能会在取样特性方面有所不同。
在一个实施方案中,所述第二多个时间戳的特征在于连续时间戳之间的固定持续时间。
在一个实施方案中,所述重新取样包括内插所述多个墨点和所述相关联的多个时间戳以生成所述第二多个墨点和所述相关联的第二多个时间戳。
在一个实施方案中,所述分割所述多个墨点包括将所述多个墨点分割成使得所述多个片段具有相等的持续时间。另一选择为或另外,所述多个片段可具有相等数目的墨点。示出识别准确性的改善是由于使用这些分割技术中的一者或多者。
在一个实施方案中,分别基于所述多个片段生成所述多个特征向量包括针对所述多个片段中与相应子笔画对应的每一片段:
生成表示所述相应子笔画的形状的几何特征;以及
生成表示所述子笔画与邻近所述子笔画的内容之间的空间关系的邻域特征。
邻近所述子笔画的内容可被限定为与相对于所述子笔画居中的窗口相交的内容。
根据此实施方案,与子笔画相关联的特征向量描述所述子笔画的形状和绘制有所述子笔画的内容。这两种类型的信息是互补的并且允许非常准确地识别出笔画是手势笔画还是非手势笔画。
在一个实施方案中,生成几何特征包括生成所述子笔画的统计子笔画几何特征和/或全局子笔画几何特征。所述统计子笔画几何特征是从对个别墨点几何特征执行的统计分析导出的特征。所述全局子笔画几何特征是表示总体子笔画路径的特征(例如长度、曲率等)。
在一个实施方案中,生成统计子笔画几何特征包括针对一组几何特征中的每一几何特征:
确定与所述相应子笔画对应的所述片段的墨点的相应值;以及
基于所述确定的相应值计算一个或多个统计量度。
在一个实施方案中,生成所述子笔画的所述全局子笔画几何特征包括计算以下各项中的一者或多者:子笔画长度、所述子笔画内的单数墨点的计数、和所述子笔画长度与所述子笔画的第一个墨点与最后一个墨点之间的距离之间的比率。
在一个实施方案中,生成所述邻域特征包括生成以下各项中的一者或多者:
文本邻域特征,所述文本邻域特征表示所述子笔画与邻近所述子笔画的文本内容之间的空间关系;
数学邻域特征,所述数学邻域特征表示所述子笔画与邻近所述子笔画的数学内容之间的空间关系;以及
非文本邻域特征,所述非文本邻域特征表示所述子笔画与邻近所述子笔画的非文本内容之间的空间关系。
另一方面,本发明提供一种计算装置,所述计算装置包括:
处理器;以及
存储器,所述存储器存储指令,所述指令在由所述处理器执行时将所述处理器配置成执行根据上述方法实施方案中的任一者的方法。
在一个实施方案中,上述方法实施方案中的任一者可被实施为计算机程序的指令。因此,本公开提供一种包括指令的计算机程序,所述指令在由处理器执行时使得所述处理器执行根据上述方法实施方案中任一者的方法。
所述计算机程序可使用任何编程语言并且可呈如下形式:源代码、对象代码、或介于源代码与对象代码之间的代码(诸如部分编译的代码)或任何其它所需的形式。
所述计算机程序可记录在计算机可读介质上。因此,本公开还涉及一种上面记录有上述计算机程序的计算机可读介质。所述计算机可读介质可以是能够存储所述计算机程序的任何实体或装置。
附图说明
依据下文对本发明的某些实施方案的描述将明白本发明的其它特征和优点,以下描述是参考附图仅以图解说明方式而非限制方式给出,在附图中:
图1图解说明根据本发明的实施方案的识别经由触摸式用户界面施加到电子文档上的用户输入中的手势笔画的示例过程;
图2图解说明根据本发明的实施方案的示例手势笔画;
图3图解说明根据本发明的实施方案的原始时间戳曲线和逼近函数;
图4图解说明根据本发明的实施方案的被分离成子笔画片段的示例下划线手势笔画;
图5A到图5D图解说明根据本发明的实施方案的示例统计子笔画几何特征;
图6图解说明根据本发明的实施方案的示例手势笔画;
图7图解说明根据本发明的实施方案的用于生成子笔画的文本邻域特征的示例方式;
图8图解说明根据本发明的实施方案的示例笔画分类器;
图9A到图9D图解说明根据本发明的实施方案的用于生成训练数据的示例方式;
图10图解说明根据本发明的实施方案的示例手写便签和对应的排版版本;并且
图11图解说明可用于实施本发明的实施方案的示例计算机装置。
具体实施方式
本文中公开用于识别经由触摸式用户界面施加到电子文档上的用户输入中的手势笔画的系统和方法。
图1图解说明根据本发明的实施方案的用于识别经由触摸式用户界面施加到电子文档上的用户输入中的手势笔画的示例过程100。
根据实施方案,手势笔画是具有特定的特性或属性且旨在对内容实现对应动作的笔画。在一个实施方案中,限定并使用六个手势笔画。这些手势笔画对应于以下动作:划掉(具有之字形状或乱涂形状的擦除手势)、删除(通过线条笔画执行的擦除手势;所述线条笔画可以是水平的、垂直的或倾斜的)、分离(将单个词语分离成两个词语或将单条线分离成两条线或将单个段落分离成两个段落的手势)、结合(将两个词语结合成单个词语或将两条线结合成单条线或将两个段落结合成单个段落的手势)、圈住(圈住内容的手势)和下划线。出于图解说明目的,图2图解说明根据示例实施方案的分离手势笔画和结合手势笔画。本领域技术人员基于本文中的教义应理解,实施方案并不仅限于具有六个手势笔画并且可限定并使用更多或更少的手势笔画。
相比之下,添加笔画(非手势笔画)是并非限定手势笔画中的一者的任何笔画。非手势笔画可对应于由用户添加的内容。
根据实施方案,在经由触摸式用户界面施加到电子文档上的用户输入中识别手势笔画。非限制性地,可通过指尖或触笔将用户输入施加到例如触摸式用户界面上。电子文档可包括手写内容和/或排版内容。触摸式用户界面可以是任何类型(例如电阻性、电容性等)并且可以是计算机、移动装置、平板机、游戏机等的界面。
如图1中所示,示例过程100包括步骤102、104、106和108。然而,如下文进一步描述,在其它实施方案中,过程100可包括额外的中间步骤或在步骤102、104、106和108之后的步骤。
在一个实施方案中,过程100开始于步骤102,所述步骤102包括接收基于经由触摸式用户界面施加到电子文档上的用户输入生成的数据。
接收到的数据表示用户所施加的笔画并且包括多个墨点和分别与所述多个墨点相关联的多个时间戳。所述多个墨点局部地位于矩形坐标空间(基于触摸式用户界面的屏幕而限定)中,其中每一墨点与矩形坐标空间中的(X,Y)坐标相关联。
在一个实施方案中,接收到的数据对应于由触摸式用户界面和相关联电路系统响应于对用户施加的笔画的捕捉而生成的数据。不同的触摸式用户界面可以不同的方式捕捉笔画,包括使用不同的输入取样技术、不同的数据表示技术等。在一个实施方案中,在从触摸式用户界面接收到的数据是与本发明所使用的墨点格式不同的格式的情况下,对接收到的数据进行转换以从接收到的数据诸如生成多个墨点和相应的多个时间戳。
在一个实施方案中,过程100还可包括校正接收到的数据中所含有的所述多个时间戳以生成多个校正的时间戳。然后,所述多个校正的时间戳与所述多个墨点相关联并且在过程100的其余部分中使用所述多个校正的时间戳而非原始时间戳。
在一个实施方案中,校正所述多个时间戳有利于移除与装置捕捉相关的伪影并且改善手势笔画识别。实际上,由于装置捕捉问题,通常某些时间戳并不对应于其相应的墨点被绘制的确切时刻。例如,在某些装置中,分配给墨点的时间戳对应于将含有所述墨点的事件日志发送到处理器单元的时间,而不是对应于捕捉墨点的精确时刻。因此,在接收到的数据中不同的连续墨点可能具有相同的时间戳值。校正所述多个时间戳确保时间戳更好地反映用户绘制相应墨点的确切时刻。借此达成改善的手势识别。
在一个实施方案中,校正所述多个时间戳是通过使用逼近所述多个墨点的原始时间戳曲线的函数来进行。所述逼近函数可以是线性函数,但实施方案并不仅限于此。
图3图解说明根据示例的逼近原始时间戳曲线304的线性函数302。原始时间戳曲线304为多个墨点(编号1至163,由X轴给出)中的每一者提供对应的时间戳(在0与600之间,由Y轴给出)。如图所示,原始时间戳曲线304是阶梯函数,所述阶梯函数反映多个连续墨点具有相同的时间戳值。如先前所论述,此可能是由于装置捕捉问题所致。
线性函数302是原始时间戳曲线304的线性逼近。在一个实施方案中,线性函数302是原始时间戳曲线304的最佳拟合函数。例如,线性函数302是通过对原始时间戳曲线304进行最小平方拟合而获得。
校正与墨点相关联的时间戳包括将与所述墨点相关联的由原始时间戳曲线304提供的时间戳修改为通过将所述墨点投影到线性函数302上而获得的对应值。
在一个实施方案中,过程100还可包括对所述多个墨点进行重新取样以生成第二多个墨点和相关联的第二多个时间戳。可基于原始时间戳或校正的时间戳来执行所述重新取样。然后,将所述第二多个墨点和所述第二多个时间戳用于过程100的其余部分。
对所述多个墨点进行重新取样有利于确保不同的装置具有均一的性能。实际上,由于装置通常使用不同的取样技术,因此在装置之间,在步骤102中接收到的数据可在取样特性方面有所不同。
可使用不同的重新取样技术:时间、空间、或时间和空间两者。在一个实施方案中,使用根据时间频率的重新取样以使得所述第二多个时间戳的特征在于连续时间戳之间的固定持续时间。
在一个实施方案中,所述重新取样包括内插所述多个墨点和所述相关联的多个时间戳以生成所述第二多个墨点和所述相关联的第二多个时间戳。
返回图1,在步骤104中,过程100包括将所述多个墨点分割成多个片段,所述多个片段各自对应于由接收到的数据表示的笔画的相应子笔画。每一子笔画包括表示所述笔画的所述多个墨点的相应子集。
子笔画分割的背后实质上是获得沿循笔画的路径的顺序表示。因此每一片段对应于所述笔画的局部描述。与仅将笔画表示为一系列点相比,子笔画分割使得能维持路径信息(即,每一片段内的点之间的关系),这会使得计算时间缩短。
可根据实施方案使用不同的子笔画分割技术。在一个实施方案中,使用基于时间信息的子笔画分割,以使得所述多个片段具有相等的持续时间。在一个实施方案中,对所有的笔画使用相同的片段持续时间。此外,所述片段持续时间可与装置无关。
在一个实施方案中,在根据时间频率对所述多个墨点进行重新取样的情况下,随后基于时间信息对所述多个墨点的分割(即,分割成相等的持续时间片段)对应于将所述笔画分离成具有相等数目的墨点的多个片段(持续时间相同但可能长度不同)。图4图解说明对应于下划线手势笔画的示例笔画402。根据时间频率对与笔画402对应的数据进行重新取样,从而产生具有在连续时间戳之间的固定持续时间的墨点404。然后,将重新取样的墨点404分离成由墨点406限定的相等片段持续时间的子笔画。因此,将笔画402分离成具有相等数目的墨点的片段,如图4中所示。
返回图1,在步骤106中,过程100包括分别基于所述多个片段生成多个特征向量。
在一个实施方案中,步骤106包括针对所述多个片段中与笔画的相应子笔画对应的每一片段:生成表示相应子笔画的形状的几何特征;并且生成表示子笔画与邻近所述子笔画的内容之间的空间关系的邻域特征。
在一个实施方案中,邻近子笔画的内容是与相对于所述子笔画居中的窗口相交的内容。可以各种方式来配置窗口大小。在一个实施方案中,窗口大小被设定成与电子文档中的字符和/或符号的平均高度成比例。在另一实施方案中,如果电子文档不含有字符或符号,则窗口大小被设定成与触摸式用户界面的大小(其可对应于装置的屏幕大小)成比例。
在一个实施方案中,生成与片段或子笔画相关联的几何特征包括生成统计子笔画几何特征和/或全局子笔画几何特征。
在一个实施方案中,统计子笔画几何特征是从对个别墨点几何特征执行的统计分析导出的特征。
在一个实施方案中,限定一组个别所关注几何特征,所述个别几何特征将依据片段的墨点来计算。所述一组个别几何特征可描述例如片段中的(当前)墨点与先前墨点、片段中的下一个墨点、笔画中的第一个墨点和/或笔画的重心(通过对笔画的墨点的X和Y坐标求平均值而获得)之间的几何关系。
在一个实施方案中,所述一组个别几何特征可包括:片段中的当前墨点与先前墨点之间的绝对距离“ds”(图5A中示出);距离“ds”分别在X轴和Y轴上的投影“dx”和“dy”(图5A中示出);当前墨点处的曲率的量度,所述量度在图5B中所图解说明的一个实施方案中由值cosθ、sinθ和θ表示,其中θ是在将先前墨点连接到当前墨点的线与将当前墨点连接到下一个墨点的线之间形成的角度;笔画中的当前墨点与第一个墨点之间的距离分别在X轴和Y轴的投影“dx_s”和“dy_s”(图5C中示出);以及笔画的当前墨点与重心之间的距离分别在X轴和Y轴上的投影“dx_g”和“dy_g”(图5D中示出)。
在一个实施方案中,对于所述一组个别几何特征中的每一特征来说,基于片段的所有墨点来确定所述特征(在适当情况下)以确定片段的墨点的相应值。然后,针对每一特征基于与所述特征对应的所确定的相应值来计算一个或多个统计量度。在一个实施方案中,针对每一特征基于与所述特征对应的所确定的相应值来获得最小值、最大值和中位值。
在一个实施方案中,基于所述一组个别几何特征的所有特征计算的所述一个或多个统计量度对应于子笔画的统计子笔画几何特征。
所述全局子笔画几何特征是表示总体子笔画路径的特征(例如长度、曲率等)。在一个实施方案中,生成子笔画的全局子笔画几何特征包括计算以下各项中的一者或多者:子笔画长度、子笔画内的单数墨点的计数(诸如,拐点和/或交叉点(所述交叉点是笔画自身相交的点))、和子笔画长度与第一个墨点与最后一个墨点之间的距离之间的比率。
在一个实施方案中,与片段或子笔画相关联的几何特征包括基于子笔画确定的统计子笔画几何特征和全局子笔画几何特征。
如上文所述,与片段或子笔画相关联的邻域特征表示子笔画与邻近所述子笔画的内容之间的空间关系。此信息用于消除不同的手势笔画之间的模糊性。例如,如图6中所示,删除手势笔画和下划线手势笔画可具有类似的形状并且因此具有类似的几何特征。然而,当考量笔画相对于所述笔画的邻近内容的位置时(即,笔画是否位于字符或词语的基线下方),两个手势笔画之间的区分变得更容易。
在一个实施方案中,生成所述邻域特征包括生成以下各项中的一者或多者:
文本邻域特征,所述文本邻域特征表示子笔画与邻近所述子笔画的文本内容之间的空间关系;
数学邻域特征,所述数学邻域特征表示子笔画与邻近所述子笔画的数学内容之间的空间关系;以及
非文本邻域特征,所述非文本邻域特征表示子笔画与邻近所述子笔画的非文本内容之间的空间关系。
如上文所述,在一个实施方案中,邻近子笔画的内容是与相对于所述子笔画居中的窗口相交的内容。可以各种方式来配置窗口大小。在一个实施方案中,窗口大小被设定成与电子文档中的字符和/或符号的平均高度成比例。在另一实施方案中,如果电子文档不含有字符或符号,则窗口大小被设定成与触摸式用户界面的大小(其可对应于装置的屏幕大小)成比例。
在一个实施方案中,三种类型的邻域特征(文本、数学和非文本性)彼此独立。每一种类型可具有其自己的固定数目的特征。
图7图解说明根据本发明的实施方案的用于生成子笔画的文本邻域特征的示例方式。如图7中所示,所述方式包括选择位于子笔画的中心处的邻域窗口;并且然后围绕子笔画中心将所述邻域窗口划分成四个区。可通过邻域窗口的相交对角线来确定四个区。
接下来,辨识位于所述子笔画(至少部分地含有在选定窗口内)的左侧、右侧、顶部和底部处的四个最接近字符和/或四个最接近词语。例如,可使用US 9,875,254 B2中描述的文本识别符来辨识所述最接近字符和/或词语。在图7的示例中,选定的邻域窗口仅含有字符并且因此仅辨识字符。具体来说,辨识左侧字符、顶部字符和右侧字符。
接下来,针对每一辨识的字符或词语确定一组特征。在一个实施方案中,所述一组特征包括子笔画的中心与所辨识的字符或词语的中心之间的距离(所辨识的字符或词语的中心是所辨识的字符或词语的边界框的中心);所述距离分别在X轴和Y轴上的投影;所述子笔画的中心与所辨识的字符或词语的基线之间的距离;以及子笔画的中心与所辨识的字符或词语的中线之间的距离。基线是上面存在文本线的虚线。中线是非上升字母停止处的虚线。在一个实施方案中,基线和中线是由文本识别符确定并提供到手势识别符。
在一个实施方案中,如果在给定区中未辨识出字符或词语(例如,在图7的示例中没有底部字符或词语),则将默认值用于与所述区对应的文本邻域特征。
本领域技术人员基于本文中的教义应理解,邻域窗口并不仅限于图7中所示的正方形窗口并且可以是矩形的。此外,在其它实施方案中邻域窗口可被划分成多于四个区或少于四个区。如此,可辨识多于或少于四个最接近字符和/或多于或少于四个最接近词语。
还可根据上述方式生成子笔画的数学邻域特征和非文本邻域特征,其中辨识数学内容或非文本内容而不是文本内容。
在一个实施方案中,针对数学邻域特征,辨识最接近子笔画的数学符号(例如,在子笔画的左侧、右侧、顶部和底部处的四个最接近的数学符号)。例如,可使用WO 2017/008896 A1中描述的数学符号识别符来辨识最接近的数学符号。依据所辨识的符号确定的特征可包括子笔画的中心与符号的中心之间的距离在X轴和Y轴上的投影。如上文所述,当一个区不包括数学符号时,将对应的特征设定为默认值。
在一个实施方案中,针对非文本邻域特征,辨识最接近子笔画的形状和基元(形状的部分)(例如,在子笔画的左侧、右侧、顶部和底部处的四个最接近的形状和基元)。例如,可使用WO 2017/067652 A1或WO 2017/067653 A1中描述的形状识别符来辨识最接近的形状和基元。依据所辨识的形状或基元确定的特征可包括子笔画的中心与形状或基元的中心之间的距离。如上文所述,当一个区不包括形状或基元时,将对应的特征设定为默认值。
在一个实施方案中,与片段或子笔画相关联的特征向量包括上述几何特征和邻域特征两者。因此,特征向量描述子笔画的形状和绘制有所述子笔画的内容。这两种类型的信息是互补的并且允许非常准确地识别出笔画是手势笔画还是非手势笔画。
在步骤106结束时,由多个连续特征向量(每一向量对应于笔画的相应子笔画)表示整个笔画。
返回图1,在步骤108中,过程100包括:将所述多个特征向量作为表示笔画的输入序列施加到已训练的笔画分类器以生成概率的向量,所述概率包括所述笔画是非手势笔画的概率和所述笔画是一组手势笔画中的给定手势笔画的概率。如上文所述,所述一组手势笔画包括预限定的手势笔画,诸如划掉、删除、分离、结合、圈住和下划线。在一个实施方案中,步骤108可包括针对所述一组手势笔画中的所有手势笔画确定笔画是手势笔画的相应概率(例如,笔画是划掉手势笔画的概率、笔画是删除手势笔画等的概率)。
图8图解说明根据本发明的实施方案的示例笔画分类器800。如上文所述,所述笔画分类器在用于推测之前已被训练。下文还描述可用于训练笔画分类器的示例方式。
如图8中所示,示例笔画分类器800包括递归双向长短期记忆(BLSTM)神经网络802。神经网络802包括后向层804和前向层806。可在以下文件中找到可用于后向层804和前向层806的函数的详细描述:“Graves,A.,&Schmidhuber,J.(2005),Framewise phonemeclassification with bidirectional LSTM and other neural networkarchitectures,Neural networks,18(5-6),602-610”;“S.Hochreiter andJ.Schmidhuber,Long Short-Term Memory,NC,9(8):1735–1780,1997”和“F.Gers,N.Schraudolph,and J.Schmidhuber,Learning precise timing with LSTM recurrentnetworks,Journal of Machine Learning Research,3:115–143,2002”。后向层804和前向层806的实施方式在本领域技术人员的技术和知识内并且本文中将不再描述。
使用递归BLSTM神经网络意味着所述网络包括存储器块,所述存储器块使得所述网络能够学习长期相关性并且随时间推移记住信息。在手势识别的情景中,此网络使得笔画分类器能处置一系列向量(整个笔画)并且解释连续子笔画之间的时间相关性(即,记住笔画的路径的细节)。
另外,示例笔画分类器800包括输出层808,所述输出层808被配置成基于后向层804和前向层806的输出生成一组概率810-1、810-2、…、810-k。在一个实施方案中,可使用交叉熵目标函数和softmax激活函数来实施输出层808,上述函数是K个分类任务中的1个分类任务的标准实施方式。可例如在牛津大学出版社1995年的C.Bishop Neural Networksfor Pattern Recognition中找到所述实施方式的详细描述。
在操作中,将包括表示笔画的多个特征向量t0、…、tn的序列用作神经网络802的输入序列。如图8中所示并且上文也描述,每一特征向量ti(表示子笔画)包括几何描述符(对应于上述几何特征)和邻域描述符(对应于邻域特征,所述邻域特征包括上述文本邻域特征、数学邻域特征和非文本邻域特征)。
借由网络802的双向性将输入序列前向和后向地馈送到神经网络802中。在一个实施方案中,将输入序列以所述输入序列的原始次序(即,t0然后tt然后t2等)馈送到前向层806,且反向地(即,tn然后tn-1然后tn-2等)馈送到后向层804。此使得网络802能通过考量先前信息(与先前的子笔画相关的信息)并且通过考量接下来的信息(与下一子笔画相关的信息)来处理笔画数据。
输出层808接收后向层804和前向层806的输出并生成所述一组概率810-1、810-2、…、810-k。在一个实施方案中,输出层808对来自层804和层806两者的激活水平求和以获得输出层808的节点的激活水平。然后,将输出层808的节点的激活水平归一化以合计达1。因此,所述激活水平提供一组概率810-1、810-2、…、810-k的向量。在一个实施方案中,如图8中所示,概率801-1对应于笔画是添加笔画或非手势笔画的概率。概率810-2、…、810-k各自对应于笔画是所述一组手势笔画中的相应手势笔画的相应概率。
在一个实施方案中,如果与特定手势笔画相关联的概率表示所述一组概率810-1、810-2、…、810-k当中的最大概率,则识别出所述手势是特定手势笔画(例如,下划线)。否则,如果与非手势笔画相关联的概率是最大值,则所述笔画将被视为非手势笔画或添加笔画。
在一个实施方案中,基于一组训练数据训练笔画分类器,具体来说针对笔画识别任务调适所述笔画分类器。由于笔画分类器旨在在手势笔画与非手势笔画之间做出区分,因此在一个实施方案中,训练数据包括手势笔画(例如下划线、删除等)和非手势笔画(例如文本、数学符号、非文本笔画)两者。
在一个实施方案中,训练数据是通过模拟真实的使用情形来建立。具体来说,使用专用数据搜集协议,要求用户复制便签(原始便签可能是手写的或排版的)以生成手写电子便签。图9A和图9B中分别示出示例原始便签和用户创建的其手写电子副本。然后,向用户示出原始便签的施加有额外笔画的另一版本(可将额外笔画施加到便签中的不同类型的内容)且要求用户再现此版本。例如,图9C图解说明图9A的原始便签的另一版本,所述另一版本突出了一些内容。在图9D中,用户通过对突出的内容加双下划线来再现此版本。当用户再现已修改的内容时捕捉笔画数据以在训练时使用。
使用以上方式,可生成具有各种布局(简单的、多列的、有/无分隔符、有或无标题等)并且具有各种内容类型(文本、表、图、方程式、几何形状等)的便签。另外,可使用各种语言和脚本。例如,可邀请不同国家的用户用其母语复制便签并在这些便签上书写笔画。
另外,可使用不同的触摸式装置(例如iPad、Surface等)来生成便签。此允许基于使用不同的墨迹捕捉特性(例如,不同的取样率、不同的时间戳生成方法、不同的所施加压力级等)所生成的数据来训练分类器,此举使得分类更独立于装置。
训练数据还可包括为了训练对排版文档执行的笔画分类器而生成的便签。在一个实施方案中,这些便签是通过如下方式生成:使用与墨迹元素的路径对应的相应模型来替换所产生的手写便签中的每一墨迹元素(字符、符号、形状或基元)以将所述手写便签转换成排版版本。在一个实施方案中,针对每一墨迹元素,将所述墨迹元素的对应排版模型重新缩放以纳入到原始墨迹元素的边界框中,并且然后相对于对应墨迹元素的基线和中心对所述对应排版模型进行定位。图10图解说明根据此方式生成的示例手写便签和对应排版版本。
然后,将针对手写便签捕捉的笔画数据施加到相应的排版版本上。
图11图解说明可用于实施本发明的实施方案的计算机装置1100。如图11中所示,计算机装置1100包括处理器1102、只读存储器(ROM)1104、随机存取存储器(RAM)1106、非易失性存储器1108和通信构件1110。计算机装置1100的ROM 1104可存储包括指令的计算机程序,所述指令在由处理器1102执行时使得处理器1102执行本发明的方法。所述方法可包括上文在图1中所述的步骤中的一者或多者。
额外变型
尽管上文已参考某些特定实施方案描述了本发明,但将理解本发明不受特定实施方案的细节限制。可在随附权利要求书的范围内对上述实施方案做出诸多变化、修改和开发。
Claims (15)
1.一种用于识别经由触摸式用户界面施加到电子文档上的用户输入中的手势笔画的方法,所述方法包括:
接收(100)基于所述用户输入生成的数据,所述数据表示笔画并且包括在矩形坐标空间中的多个墨点和分别与所述多个墨点相关联的多个时间戳;
将所述多个墨点分割(104)成多个片段,所述多个片段各自对应于所述笔画的相应子笔画并且包括所述多个墨点的相应子集;
分别基于所述多个片段生成(106)多个特征向量;以及
将所述多个特征向量作为表示所述笔画的输入序列应用(108)于已训练的笔画分类器以生成概率的向量,所述概率包括所述笔画是非手势笔画的概率和所述笔画是一组手势笔画中的给定手势笔画的概率。
2.如权利要求1所述的方法,所述方法包括:
基于所述多个时间戳生成多个校正的时间戳。
3.如权利要求2所述的方法,其中基于所述多个时间戳生成所述多个校正的时间戳包括:
确定逼近所述多个墨点的原始时间戳曲线(304)的函数(302);以及
将所述多个时间戳中的一个时间戳修改为根据所述确定的函数(302)获得的值。
4.如权利要求1至3中任一项所述的方法,所述方法包括:
对所述多个墨点进行重新取样以生成第二多个墨点和相关联的第二多个时间戳,所述第二多个时间戳的特征在于连续时间戳之间的固定持续时间。
5.如权利要求4所述的方法,其中所述重新取样包括内插所述多个墨点和所述相关联的多个时间戳以生成所述第二多个墨点和所述相关联的第二多个时间戳。
6.如权利要求4至5中任一项所述的方法,其中所述分割包括将所述多个墨点分割成使得所述多个片段具有相等的持续时间。
7.如权利要求6所述的方法,其中所述多个片段具有相等数目的墨点。
8.如权利要求1至7中任一项所述的方法,其中分别基于所述多个片段生成所述多个特征向量包括针对所述多个片段中与相应子笔画对应的每一片段:
生成表示所述相应子笔画的形状的几何特征;以及
生成表示所述子笔画与邻近所述子笔画的内容之间的空间关系的邻域特征,
其中邻近所述子笔画的所述内容与相对于所述子笔画居中的窗口相交。
9.如权利要求8所述的方法,其中生成所述几何特征包括生成所述子笔画的统计子笔画几何特征和/或全局子笔画几何特征。
10.如权利要求9所述的方法,其中生成所述统计子笔画几何特征包括针对一组几何特征中的每一几何特征:
确定与所述相应子笔画对应的所述片段的墨点的相应值;以及
基于所述确定的相应值计算一个或多个统计量度。
11.如权利要求9至10中任一项所述的方法,其中生成所述子笔画的所述全局子笔画几何特征包括计算以下各项中的一者或多者:子笔画长度、所述子笔画内的单数墨点的计数、和所述子笔画长度与所述子笔画的第一个墨点与最后一个墨点之间的距离之间的比率。
12.如权利要求8至11中任一项所述的方法,其中生成所述邻域特征包括生成以下各项中的一者或多者:
文本邻域特征,所述文本邻域特征表示所述子笔画与邻近所述子笔画的文本内容之间的空间关系;
数学邻域特征,所述数学邻域特征表示所述子笔画与邻近所述子笔画的数学内容之间的空间关系;以及
非文本邻域特征,所述非文本邻域特征表示所述子笔画与邻近所述子笔画的非文本内容之间的空间关系。
13.如权利要求1至12中任一项所述的方法,其中所述电子文档包括手写内容或排版内容。
14.一种计算装置,所述计算装置包括:
处理器(1102);以及
存储器(1104),所述存储器(1104)存储指令,所述指令在由所述处理器(1102)执行时将所述处理器(1102)配置成执行根据权利要求1至13中任一项所述的方法。
15.一种计算机可读介质,其记录包括指令的计算机程序,所述指令在由处理器(1102)执行时使得所述处理器(1102)执行根据权利要求1至13中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19306542.2 | 2019-11-29 | ||
EP19306542.2A EP3828685B1 (en) | 2019-11-29 | 2019-11-29 | Gesture stroke recognition in touch-based user interface input |
PCT/EP2020/083495 WO2021105279A1 (en) | 2019-11-29 | 2020-11-26 | Gesture stroke recognition in touch-based user interface input |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114730241A CN114730241A (zh) | 2022-07-08 |
CN114730241B true CN114730241B (zh) | 2023-06-30 |
Family
ID=68917846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080079688.0A Active CN114730241B (zh) | 2019-11-29 | 2020-11-26 | 触摸式用户界面输入中的手势笔画识别 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230008529A1 (zh) |
EP (2) | EP3828685B1 (zh) |
JP (1) | JP7450868B2 (zh) |
KR (1) | KR20220103102A (zh) |
CN (1) | CN114730241B (zh) |
WO (1) | WO2021105279A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780463B (zh) * | 2021-09-24 | 2023-09-05 | 北京航空航天大学 | 一种基于深度神经网络的多头归一化长尾分类方法 |
CN117519515A (zh) * | 2024-01-05 | 2024-02-06 | 深圳市方成教学设备有限公司 | 一种用于记忆黑板的文字识别方法、装置和记忆黑板 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1141941A2 (en) * | 1999-01-07 | 2001-10-10 | Microsoft Corporation | Handwritten or spoken words recognition with neural networks |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2050500A (en) * | 1998-12-11 | 2000-06-26 | Sunhawk Corporation | Method and system for recognizing musical notations using a compass-direction user interface |
US20040054701A1 (en) * | 2002-03-01 | 2004-03-18 | Garst Peter F. | Modeless gesture driven editor for handwritten mathematical expressions |
FR2880709B1 (fr) | 2005-01-11 | 2014-04-25 | Vision Objects | Procede de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants |
US7551779B2 (en) * | 2005-03-17 | 2009-06-23 | Microsoft Corporation | Word or character boundary-based scratch-out gesture recognition |
KR102005878B1 (ko) | 2013-06-09 | 2019-07-31 | 애플 인크. | 실시간 필기 인식 관리 |
US20140363082A1 (en) | 2013-06-09 | 2014-12-11 | Apple Inc. | Integrating stroke-distribution information into spatial feature extraction for automatic handwriting recognition |
US9881224B2 (en) | 2013-12-17 | 2018-01-30 | Microsoft Technology Licensing, Llc | User interface for overlapping handwritten text input |
US9904847B2 (en) | 2015-07-10 | 2018-02-27 | Myscript | System for recognizing multiple object input and method and product for same |
US10643067B2 (en) | 2015-10-19 | 2020-05-05 | Myscript | System and method of handwriting recognition in diagrams |
US10417491B2 (en) | 2015-10-19 | 2019-09-17 | Myscript | System and method for recognition of handwritten diagram connectors |
US10082951B2 (en) | 2016-01-07 | 2018-09-25 | Myscript | System and method for digital ink interactivity |
US10747949B2 (en) * | 2018-04-13 | 2020-08-18 | Microsoft Technology Licensing, Llc | Presenting an overlay canvas to ink edit typed text |
-
2019
- 2019-11-29 EP EP19306542.2A patent/EP3828685B1/en active Active
- 2019-11-29 EP EP22196396.0A patent/EP4130966A1/en active Pending
-
2020
- 2020-11-26 US US17/780,081 patent/US20230008529A1/en active Pending
- 2020-11-26 CN CN202080079688.0A patent/CN114730241B/zh active Active
- 2020-11-26 KR KR1020227015612A patent/KR20220103102A/ko active IP Right Grant
- 2020-11-26 WO PCT/EP2020/083495 patent/WO2021105279A1/en active Application Filing
- 2020-11-26 JP JP2022529075A patent/JP7450868B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1141941A2 (en) * | 1999-01-07 | 2001-10-10 | Microsoft Corporation | Handwritten or spoken words recognition with neural networks |
Also Published As
Publication number | Publication date |
---|---|
WO2021105279A1 (en) | 2021-06-03 |
KR20220103102A (ko) | 2022-07-21 |
JP7450868B2 (ja) | 2024-03-18 |
EP3828685B1 (en) | 2022-09-28 |
EP3828685A1 (en) | 2021-06-02 |
JP2023503272A (ja) | 2023-01-27 |
EP4130966A1 (en) | 2023-02-08 |
US20230008529A1 (en) | 2023-01-12 |
CN114730241A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614944B (zh) | 一种数学公式识别方法、装置、设备及可读存储介质 | |
CN102449640B (zh) | 识别手写单词 | |
CN108027876B (zh) | 用于识别多个对象输入的系统及其方法和产品 | |
CN111753767A (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
US11587275B2 (en) | Method for generating a handwriting vector | |
Biadsy et al. | Segmentation-free online arabic handwriting recognition | |
JPH06348904A (ja) | 手書き字号の認識システム及び認識方法 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN103488711A (zh) | 一种快速制作矢量字库的方法及系统 | |
CN114730241B (zh) | 触摸式用户界面输入中的手势笔画识别 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
CN103902098A (zh) | 整形装置和整形方法 | |
CN112686134A (zh) | 手写识别方法、装置、电子设备和存储介质 | |
KR20180104678A (ko) | 다중 오브젝트 구조를 인식하기 위한 시스템 및 방법 | |
Inkeaw et al. | Recognition-based character segmentation for multi-level writing style | |
CN117095414A (zh) | 一种基于点阵纸笔的手写识别系统及识别方法 | |
CN112163400A (zh) | 信息处理方法及装置 | |
EP4086744A1 (en) | Gesture stroke recognition in touch-based user interface input | |
CN111652204B (zh) | 目标文本区域选择的方法、装置、电子设备和存储介质 | |
CN110533035B (zh) | 基于文本匹配的学生作业页码识别方法 | |
KR101667910B1 (ko) | 디지털 인공 필기 데이터를 생성하는 방법, 장치 및 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 | |
JP6575116B2 (ja) | 文字認識装置、文字認識処理システム、およびプログラム | |
JP7095450B2 (ja) | 情報処理装置、文字認識方法、および文字認識プログラム | |
Balreira | Efficient acquisition and synthesis in computerized handwriting | |
JP5867227B2 (ja) | 文字認識用学習データ生成装置、文字認識装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |