CN107969155B - 利用预过滤器分类来提高手写识别 - Google Patents

利用预过滤器分类来提高手写识别 Download PDF

Info

Publication number
CN107969155B
CN107969155B CN201680028451.3A CN201680028451A CN107969155B CN 107969155 B CN107969155 B CN 107969155B CN 201680028451 A CN201680028451 A CN 201680028451A CN 107969155 B CN107969155 B CN 107969155B
Authority
CN
China
Prior art keywords
input
strokes
grapheme
recognition process
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680028451.3A
Other languages
English (en)
Other versions
CN107969155A (zh
Inventor
维克托·克尔布内
托马斯·德泽莱斯
丹尼尔·M·凯泽斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN107969155A publication Critical patent/CN107969155A/zh
Application granted granted Critical
Publication of CN107969155B publication Critical patent/CN107969155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

用于改进手写检测的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。在一个方面中,方法包括:接收指示一个或多个笔画的数据;确定一个或多个笔画的一个或多个特征;至少基于所述特征中的一个或多个来确定一个或多个笔画是否可能表示字素;从以下之中选择用于处理数据的特定识别过程:(i)多语言识别过程,其利用多个识别器处理输入笔画,多个识别器各自被训练为针对给定的一组输入笔画来输出与特定语言相关联的一个或多个字素,和(ii)单字符通用识别过程,其利用通用识别器处理输入笔画,通用识别器被训练为针对给定的一组输入笔画来输出单个字素;以及将数据提供给特定识别过程。

Description

利用预过滤器分类来提高手写识别
技术领域
本说明书涉及手写识别。
背景技术
用户经常提供手写输入,例如通过画符号、涂鸦(doodle)或涂写(scribble),来试验手写识别(HR)系统的识别能力。当用户提供手写输入时,HR系统尝试将输入的笔画解释为有效序列的字符。
发明内容
当给HR系统的手写输入包括不同类型的符号时,因为缺乏对各种杂项符号的支持,或者因为要求以快速和资源有效的方式执行HR的约束,HR系统经常展现出弱识别能力。当输入不同类型的符号时,HR系统可能输出无意义的识别结果,其对于利用手写输入作为将文本输入电子设备内的方法的用户来说,经常具有小的价值。此外,当对作为手写输入内包括的表示涂写的图案的输入笔画执行识别过程时,因为输入可能包括大量笔画,并且因为笔画的排列可能不容易与所识别的符号对应,处理可能是计算昂贵的。
因此,本说明书中描述的主题的一个创新方面能够体现在以下方法中:利用多语言识别系统来初始将不同类型的手写输入分类,并然后利用在产生识别结果中更有效的特定识别过程来处理不同类型的手写输入。例如,可以分析输入笔画的特征来确定笔画是否表示字素(grapheme),字素表示在描述语言的书写系统中使用的最小单位,或者笔画是否表示涂写,涂写是手写笔画或点的随机连接(concatenation)。然后可以基于笔画表示字素还是涂写,利用不同的识别过程来处理输入。虽然本说明书总的描述包括确定输入笔画是否表示字素的特定实施,但是在其它实施中,方法可以包括确定输入笔画是否表示其它打字特征,例如字形(glyph)、异体(allograph)、字符、符号或绘图。
手写输入分类和过滤可用于改善HR系统的总体识别性能,以改善用户体验。例如,通过利用适于不同类型的手写输入、例如不同语言的特定识别过程,可以减少生成识别结果的时间。在其它示例中,识别结果生成可以使用较少的计算资源,并且可以提供更准确的识别结果。更特别地,手写输入分类和过滤也可以用于处理通常与文本输入相比更难以识别的特殊手写输入,例如绘图和符号。
实施可以包括一个或多个以下特征。例如,计算机实施的方法可以包括:接收指示一个或多个笔画的数据;确定一个或多个笔画的一个或多个特征;至少基于特征中的一个或多个来确定一个或多个笔画是否可能表示字素;从至少以下之中选择用于处理数据的特定识别过程:(i)多语言识别过程,多语言识别过程利用多个识别器处理输入笔画,多个识别器各自被训练为针对给定的一组输入笔画来输出与特定语言相关联的一个或多个字素,和(ii)单字符通用识别过程,单字符通用识别过程利用通用识别器处理输入笔画,通用识别器被训练为针对给定的一组输入笔画来输出单个字素;以及提供数据以利用特定识别过程处理。
在其它实施中,计算机实施的方法可以包括:接收指示一个或多个笔画的数据;确定一个或多个笔画的一个或多个特征;至少基于特征中的一个或多个来确定一个或多个笔画是否可能表示字素;从至少以下之中选择用于处理数据的特定识别过程:(i)单语言识别过程,单语言识别过程利用单个识别器处理输入笔画,单个识别器被训练为针对给定的一组输入笔画来输出与特定语言相关联的一个或多个字素,和(ii)单字符通用识别过程,单字符通用识别过程利用通用识别器处理输入笔画,通用识别器被训练为针对给定的一组输入笔画来输出单个字素;以及提供数据以利用特定识别过程处理。所述方法可以进一步包括利用所选择的识别过程来处理数据的步骤,从而输出与一个或多个笔画对应的一个或多个字符的有效序列。
其它版本包括对应的系统、和计算机程序,其被配置为执行在计算机存储设备上编码的方法的动作。
一个或多个实施可以包括以下可选特征。例如,在一些实施中,确定一个或多个笔画是否可能表示字素包括确定一个或多个笔画可能表示字素,并且其中选择用于处理数据的特定识别过程包括选择多语言识别过程。
在一些实施中,确定一个或多个笔画是否可能表示字素包括确定一个或多个笔画不可能表示字素,并且其中选择用于处理数据的特定识别过程包括选择单字符通用识别过程。
在一些实施中,所述方法可以包括,其中多语言识别过程利用通用识别器进一步处理输入笔画,通用识别器被训练为针对给定的一组输入笔画,输出单个字素。
在一些实施中,确定一个或多个笔画是否可能表示字素包括生成表示一个或多个笔画表示字素的可能性的置信度得分,并且其中至少基于所生成的置信度得分来选择特定识别过程。
在一些实施中,选择用于处理数据的特定识别过程包括选择多个识别器的子集来输出指示一个或多个笔画的数据。
在一些实施中,确定一个或多个笔画是否可能表示字素包括确定一个或多个笔画是否表示涂写或乱涂(scratch)。
一种或多种实施的细节在下面的附图和描述中阐述。从描述、附图和权利要求书中,其它潜在的特征和优点将变得显而易见。
这些方面的其它实施包括对应的系统、装置和计算机程序,其被配置为执行在计算机存储设备上编码的方法的动作。
附图说明
图1是示出用于改善手写识别的示例系统的图。
图2示出了用于处理指示一个或多个笔画(stroke)的一个或多个数据的示例过程。
图3是计算设备的框图,在计算设备上可以实施在本文中描述的过程、或其部分。
在附图中,相同的附图标记表示在各处对应的部分。
具体实施方式
在本说明书中描述的主题的一个创新方面能够体现在以下的过程中:分类和过滤不同类型的手写输入和利用更有效地处理那些单独类型的输入的相应识别过程来处理所述不同类型的手写输入。
图1是示出用于改善手写识别的示例系统100的图。简要地,系统100可以接收输入102,例如输入102a和102b,并且提供输出108,例如输出108a和108b,输出108是输入102的手写识别结果。在一些情况下,系统100可以计算输入置信度得分103、转录(transcript)104和转录置信度得分106。系统100也可以包括部件诸如非文本输入分类器120、识别引擎选择器130、针对语言140a-140c的多语言识别器140、单字符通用识别器150、语言选择器160、输出选择器170。
另外,图1表示手写输入分类和过滤的示例。例如,示例用户101a-101b分别在输入设备屏幕110a和110b上提供输入102a和102b。输出108a和108b分别显示在输出设备屏幕180a和180b上,输出108a和108b是分别与输入102a和102b对应的识别结果。
非文本输入分类器120可以是HR系统内接收手写输入例如输入102的软件模块。非文本输入分类器120可以通过初始预处理输入数据并去除可能负面影响手写识别的不相关的数据例如信号噪声、无关(extraneous)笔画,来分类作为在所接收的输入102中包括的输入笔画的集合的墨水。在一些情况下,非文本输入分类器120也可以执行额外的预处理步骤,例如正规化、采样、平滑和去噪,以改善HR系统速度和准确度。
非文本输入分类器120然后可以从输入102提取特征。例如,非文本输入分类器120可以生成维度向量场以提取关于输入102的信息。例如,所提取的特征可以包括纵横比、水平半点以上的像素的百分比、垂直半点右侧的像素的百分比、笔画的数目、笔画曲率、与图像中心的平均距离、笔压力、笔速度、多个输入笔画之间的时间点、提供输入的总时间或书写方向上的改变。非文本输入分类器120然后可以利用所提取的特征来确定输入102的输入笔画是否可能表示映射到特定特征的字素。
在一些实施中,非文本输入分类器120可以是轻量级两类分类器,其将输入120分类为含有至少一个可识别的字素或不包括可识别的字素的涂写。例如,非文本输入分类器120可以是包括统计学习模块的神经网络,所述统计学习模块被训练为基于特征提取来将输入笔划分类。在其它情况下,非文本输入分类器120可以是支持向量机,其包括相关联的学习算法,所述学习算法基于一组训练示例来识别和分析输入笔画内的图案用于分类和回归分析。
在一些实施中,非文本输入分类器120可以生成输入置信度得分103,置信度得分103表示输入102的输入笔画表示字素的可能性。例如,输入置信度得分103可以基于将从输入102所提取的特征和与一组字素关联的代表特征比较。在一些情况下,可以将针对输入102的所生成的输入置信度得分103与阈值比较,以确定输入102是否可能表示字素或涂写。例如,如果针对输入102的输入置信度得分103低于阈值,则输入102可以被分类为涂写。在这样的示例中,所述阈值可以基于训练数据精确地计算,使得非文本输入分类器120将输入102意外地分类为涂写的概率最小化。所述训练数据可以包括指示输入笔画是否表示涂写的特定墨水和标签。
如在图1中的示例所示,用户101a和101b可以对应于在输入移动设备上分别提供单独的手写输入102a和102b的用户。输入移动设备可以是带有电子视觉显示器的任何类型的移动计算设备,电子视觉显示器能够检测显示区域例如智能电话、平板计算机或膝上型电脑屏幕内的手写输入的存在和位置。
输入102a和102b是被系统100不同处理的手写输入。例如,示例输入102a包括表示至少一个可识别的字素、例如“H”和“i”的特征,所述至少一个可识别的字素可能被系统100确定为包括字素,并且示例输入102a随后利用多语言识别过程处理。相反,示例输入102b不包括表示可识别的字素的特征,并随后利用单个通用识别过程处理。
一旦输入102被非文本输入分类器120分类,则输入102然后可被传送到识别引擎选择器130。识别引擎选择器130可以选择特定的识别过程来处理输入102。例如,如前所述,分类为可能表示字素的输入可以通过多语言识别过程来处理,多语言识别过程包括针对语言140a-140c的多语言识别器140,而被分类为不表示字素的涂写的输入可以通过单字符通用识别过程来处理,单字符通用识别过程包括单字符通用识别器150。
在一些实施中,非文本输入分类器120和识别引擎选择器130的操作可以由系统100的单个软件部件执行。例如,在这样的实施中,识别引擎选择器130也可以执行非文本输入分类器120的操作,并且反之亦然。
在输入102被分类为表示字素的情况下,输入102可以利用针对各种语言、例如语言140a-140c的多语言识别器140来处理。例如,识别引擎选择器130可以初始确定与在输入102中包括的语言140a-140c对应的一组潜在转录104。检测器引擎130然后可以查询与每个转录104对应的特定语言识别器140来处理输入102。在单个输入102包括与不同语言对应的多个转录104的一些情况下,例如“los cat”,检测器引擎可以查询与不同语言对应的多语言识别器140。例如,识别引擎选择器130可以为输入102的“los”部分针对语言140a查询特定语言识别器140,语言140a可能是西班牙语,以及为输入102的“cat”部分针对语言140b查询特定语言识别器140,语言140b可能是英语。
在一些实施中,识别引擎选择器130也可以生成转录置信度得分106,转录置信度得分106对应于转录104表示对输入102的高质量转录的可能性。例如,如果输入102包括不明确的节段,例如“rope-eh”,其可以以英语转录为“rope”或以西班牙语转录为“ropa”,则识别引擎选择器130可以为表示对输入102的低质量转录的每个转录生成转录置信度得分106。在一些情况下,识别引擎选择器130可以利用转录置信度得分106以执行预过滤步骤来丢弃低质量转录,以增加手写识别速度、增加识别质量、和降低所使用计算资源的量。例如,识别引擎选择器130可以将转录置信度得分106与阈值比较,并丢弃具有比阈值低的转录置信度得分106的转录104。
在输入102被分类为涂写的其它情况下,可以利用各种过程来处理输入102。例如,在一些实施中,利用单字符通用识别器150来处理输入102。单字符通用识别器150可以在包括文本、例如字母和符号的大型Unicode代码点集上进行训练。单字符通用识别器150也可以独立于输入大小来处理长输入,因为它只处理涂写输入。
在输入102被分类为涂写的其它实施中,可以丢弃输入102以保存HR系统内处理无效识别输出的计算资源。在其它实施中,可以利用特定的识别过程来处理输入102,特定的识别过程包括专用涂写识别器,利用复杂绘图和符号例如表情符号、箭头来训练专用涂写识别器。在其它实施中,除了单字符通用识别过程之外,输入102还可以通过多语言识别过程来处理。
语言选择器160可以是选择与每一个转录104相关联的特定语言140a-140c的软件模块。例如,语言选择器可以从识别引擎选择器130接收转录104,并基于转录104的属性来选择语言。例如,语言选择器160可以解析将转录属性映射到特定语言的存储库(repository),以确定与转录104相关联的语言140a-140c。
语言选择器160也可以选择与每一种语言相关联的特定语言识别器。例如,语言识别器可以是被训练以利用特定语言来处理手写输入并且生成识别输出的手写识别器。
输出选择器170可以接收利用针对语言140a-140c的多语言识别器或单字符通用识别器150生成的对于输入102的一个或多个识别输出。在一些情况下,输出选择器170可以为针对输入102的语言140a-140c中的每一种语言接收一组候选识别输出。在这样的情况下,候选识别输出可以表示对单个输入102的替代识别输出。在输入102包括不同类型的字符和符号的其它情况下,输出选择器170可以接收来自多语言识别过程和单字符通用识别过程两者的识别输出。在这样的情况下,多个识别输出可以表示针对单个输入102的节段的输出。
在一些实施中,语言选择器160和输出选择器170的操作可以由系统100的单个软件部件来执行。例如,语言选择器160可附加执行输出选择器170的操作,并且反之亦然。在其它实施中,来自多语言识别器140的结果可以被合并,使得在没有选择特定的语言的情况下只有输出可能需要被选择。
在系统100生成针对输入102的替代识别输出的情况下,输出选择器170可以利用输入置信度得分103和转录置信度得分106的组合来选择作为输入102的最佳识别的选定输出108。在系统100生成与输入102的节段对应的多个识别输出的其它情况下,输出选择器170可以选择要包括在选定输出108中的多个识别假设。例如,如果输入102包括两个节段,即与文本相关联的第一节段和与类似于涂写的绘图相关联的第二节段,则输出选择器170可以选择选定输出108,选定输出108包括从多语言识别器140生成的与文本对应的第一识别输出和从单字符通用识别器150生成的与涂写对应的第二识别输出。
如图1中的示例中所示,分别在输出设备屏幕180a和180b上显示的输出108a和108b分别对应于单独的手写输入102a和102b。例如,输出108a是基于包括可识别的英语字素“H”和“I”的输入102a,利用针对英语语言的特定语言识别器140从多语言识别过程生成的。相反,输出108b是基于被分类为涂写的输入102b,利用单字符通用识别器150从单字符通用识别过程生成的。输出108b包括字素“Z”,因为这是与输入102b中的输入笔画最接近对应的单个字素。
图2示出了用于处理指示一个或多个笔画的一个或多个数据的示例过程200。简要地,过程200可以包括:接收指示一个或多个笔画的数据(210),确定一个或多个笔画的一个或多个特征(220),确定一个或多个笔画是否可能表示字素(230),选择用于处理数据的特定识别过程(240),以及利用特定识别过程提供数据(250)。
更详细地,过程200可以包括接收指示一个或多个笔画的数据(210)。例如,非文本输入分类器120可以接收指示一个或多个笔画的输入102。如图1中的示例中所示,用户101a和101b可以分别在输入设备110a和110b上提供输入102a和102b。
过程200可以包括确定一个或多个笔画的一个或多个特征(220)。例如,非文本输入分类器120可以从输入102提取特征,例如纵横比、水平半点以上的像素的百分比、垂直半点右侧的像素的百分比、笔画的数目、笔画曲率、与图像中心的平均距离、笔压力、笔速度、或书写方向上的改变。
在一些实施中,在确定一个或多个笔划的一个或多个特征之后,非文本输入分类器120可以基于输入102的一个或多个笔划的一个或多个特征来生成输入置信度得分103。例如,输入置信度得分103可用于确定一个或多个笔画是否可能表示字素。
过程200可以包括至少基于特征中的一个或多个,确定一个或多个笔画是否可能表示字素(230)。例如,非文本输入分类器120可以将输入102分类为表示至少一个可识别的字素或不表示至少一个可识别的字素的涂写。如图1中的示例中所表示,非文本输入分类器120可以将输入102a分类为表示字素“H”和“i”,并且可以将输入102b分类为表示涂写,因为输入102b的笔画不表示可识别的字素。
过程200可以包括从至少多语言识别过程和单字符通用识别过程选择用于处理数据的特定识别过程(240)。例如,识别引擎选择器130可以基于由非文本输入分类器120对输入102的分类来针对输入102选择特定识别过程。例如,识别引擎选择器130可以针对输入102a选择多语言识别过程,并且可以针对输入102b选择单字符通用识别过程。
过程200可以包括利用特定识别过程来提供用于处理的数据(250)。例如,识别引擎选择器130可以针对输入102选择多语言识别过程或单字符通用识别过程。例如,识别引擎选择器130可以针对输入102a选择多语言识别过程并且针对用户输入102b选择单字符通用识别过程。
关于针对输入102a的多语言识别过程,多语言识别器140可用于生成与语言140a-140c对应的一个或多个字素。例如,多语言识别器140可以每个被训练成针对输入102的给定的一组输入笔画,输出与特定语言相关联的一个或多个字素。在图1中提供的示例中,输入102a可以基于与英语语言相关联的字素“H”和“I”,利用针对英语语言的特定语言识别器140来处理。
关于针对输入102b的单字符通用识别过程,单字符通用识别器150可以用于生成单个字素。例如,单字符通用识别器150可以被训练为针对输入102的给定的一组输入笔画,输出单个字素。在图1中提供的示例中,输入102b可以由单字符通用识别器150来处理,以输出与输入102b的输入笔画最接近相似的字素“Z”。
图3是可以作为客户端或服务器或多个服务器用于实施本文件中描述的系统和方法的计算设备300、350的框图。计算设备300旨在表示各种形式的数字计算机,例如膝上型电脑、台式机、工作站、个人数字助理、服务器、刀片式服务器、大型机(mainframe)和其它适当的计算机。计算设备350旨在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话和其它类似的计算设备。另外,计算设备300或350能够包括通用串行总线(USB)闪存驱动器。USB闪存驱动器可以存储操作系统和其它应用。USB闪存驱动器能够包括输入/输出部件,例如可以插入另一计算设备的USB端口中的无线发射器或USB连接器。在此示出的部件、它们的连接和关系、以及它们的功能仅仅意味着是示例性的,并且不意味着限制本文件中描述和/或要求保护的发明的实施。
计算设备300包括处理器302、存储器304、存储设备306、与存储器304和高速扩展端口310连接的高速接口308、以及与低速总线314和存储设备306连接的低速接口312。部件302、304、306、308、310和312中的每一个部件都利用各种总线互连,并且可以安装在公共主板上或适当地以其它方式安装。处理器302能够处理用于在计算设备300内执行的指令,包括存储在存储器304中或存储设备306上的指令,以将GUI的图形信息显示在外部输入/输出设备、例如与高速接口308耦接的显示器316上。在其它实施中,可以适当地使用多个处理器和/或多个总线,以及多个存储器和存储器的类型。此外,可以连接多个计算设备300,其中每一个设备提供必要操作的部分,例如,作为服务器组(bank)、一组刀片式服务器、或多处理器系统。
存储器304在计算设备300内存储信息。在一种实施中,存储器304是易失性存储器单元或多个单元。在另一种实施中,存储器304是非易失性存储器单元或多个单元。存储器304也可以是另一形式的计算机可读介质,例如磁盘或光盘。
存储设备306能够为计算设备300提供大容量存储。在一种实施中,存储设备306可以是或包含计算机可读介质,例如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储器设备、或设备的阵列,包括存储区域网络或其它配置中的设备。计算机程序产品能够有形地体现在信息载体中。计算机程序产品也可以含有在被执行时执行一种或多种方法、例如上述方法的指令。信息载体是计算机或机器可读介质,例如存储器304、存储设备306、或处理器302上的存储器。
高速控制器308管理计算设备300的带宽密集型操作,而低速控制器312管理较低带宽密集型操作。功能的这样分配仅是示例性的。在一种实施中,高速控制器308与存储器304、显示器316耦接,例如通过图形处理器或加速器,并且与可接受各种扩展卡(未示出)的高速扩展端口310耦接。在所述实施中,低速控制器312与存储设备306和低速扩展端口314耦接。可以包括各种通信端口例如USB、蓝牙、以太网、无线以太网的低速扩展端口可以与一个或多个输入/输出设备例如键盘、指向设备、扩音器/扬声器对、扫描仪、或网络设备例如转换器或路由器耦接,例如通过网络适配器耦接。计算设备300可以如在图3中所示以许多不同的形式来实施。例如,它可以被实施为标准服务器320,或者在一组这样的服务器中多次实施。它也可以实施为机架式服务器系统324的一部分。此外,它可以在个人计算机例如膝上型计算机322中实施。或者,来自计算设备300的部件可以与移动设备例如设备350中的其它部件(未示出)组合。每一个这样的设备可以包含一个或多个计算设备300、350,并且整个系统可以由彼此通信的多个计算设备300、350构成。
计算设备300可以如在图3中所示以许多不同的形式来实施。例如,它可以被实施为标准服务器320,或者在一组这样的服务器中多次实施。它也可以实施为机架式服务器系统324的一部分。此外,它可以在个人计算机例如膝上型计算机322中实施。或者,来自计算设备300的部件可以与移动设备例如设备350中的其它部件(未示出)组合。每一个这样的设备可以包含一个或多个计算设备300、350,并且整个系统可以由彼此通信的多个计算设备300、350构成。
计算设备350包括处理器352、存储器364、和输入/输出设备例如显示器354、通信接口366和收发器368,以及其它部件。设备350也可以设置有存储设备,例如微驱动器或其它设备,以提供附加的存储。部件350、352、364、354、366和368中的每一个部件利用各种总线互连,并且部件中的几个部件可以安装在公共主板上或适当地以其它方式安装。
处理器352能够执行计算设备350内的指令,包括存储在存储器364中的指令。处理器可以被实施为芯片的芯片组,其包括单独的并且多个模拟和数字处理器。另外,处理器可以利用许多架构中的任何一种来实施。例如,处理器310可以是CISC(复杂指令集计算机)处理器、RISC(精简指令集计算机)处理器、或MISC(最小指令集计算机)处理器。处理器可以提供,例如,用于设备350的其它部件的协调,例如用户界面的控制、由设备350运行的应用以及由设备350进行的无线通信。
处理器352可以通过与显示器354耦接的控制接口358和显示接口356与用户通信。显示器354可以是,例如,TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其它适当的显示技术。显示接口356可以包含用于驱动显示器354向用户呈现图形和其它信息的适当电路。控制接口358可以从用户接收命令并将其转换以提交给处理器352。另外,外部接口362可以被设置与处理器352通信,以便使得设备350能够与其它设备近区域通信。外部接口362可以提供,例如,在一些实施中用于有线通信,或者在其它实施中用于无线通信,并且也可以使用多个接口。
存储器364在计算设备350内存储信息。存储器364能够被实施为计算机可读介质或多个介质、易失性存储器单元或多个单元、或非易失性存储器单元或多个单元中的一种或多种。扩展存储器374也可以被设置并且通过扩展接口372与设备350连接,扩展接口372可以包括,例如,SIMM(单列存储器模块)卡接口。这样的扩展存储器374可以为设备350提供额外的存储空间,或者也可以存储用于设备350的应用或其它信息。具体而言,扩展存储器374可以包括执行或补充上述过程的指令,并且也可以包括安全信息。因此,例如,扩展存储器374可以被设置为用于设备350的安全模块,并且可以用允许安全使用设备350的指令来编程。另外,可以经由SIMM卡,以及附加信息,例如以不可攻击的方式在SIMM卡上放置识别信息,来提供安全的应用。
存储器可以包括,例如,如下所述的闪速存储器和/或NVRAM存储器。在一种实施中,计算机程序产品被有形地体现在信息载体中。计算机程序产品含有指令,所述指令当被执行时,执行一种或多种方法,例如上述的方法。信息载体是计算机或机器可读介质,例如存储器364、扩展存储器374或处理器352上的存储器,其可以例如经过收发器368或外部接口362接收。
设备350可以通过通信接口366无线通信,通信接口366在必要时可以包括数字信号处理电路。通信接口366可以提供在各种模式或协议下的通信,例如GSM语音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。这样的通信可以例如通过射频收发器368发生。另外,可以发生短程通信,例如利用蓝牙、Wi-Fi或其它这样的收发器(未示出)。另外,GPS(全球定位系统)接收器模块370可以向设备350提供附加的导航和位置相关的无线数据,其可以通过在设备350上运行的应用适当地使用。
设备350也可以利用音频编解码器360可听见地通信,音频编解码器360可以从用户接收口语信息并将其转换为可用的数字信息。音频编解码器360同样可以为用户产生可听见的声音,例如通过扬声器,例如在设备350的听筒中的扬声器。这样的声音可以包括来自语音电话呼叫的声音,可以包括记录的声音例如语音消息、音乐文件等,并且也可以包括由正在设备350上操作的应用生成的声音。
计算设备350可以如图3中所示以许多不同的形式实施。例如,它可以被实施为蜂窝电话380。它也可以被实施为智能电话382、个人数字助理或其它类似的移动设备的一部分。
在此描述的系统和方法的各种实施能够在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或此实施的组合中实现。这些各种实施能够包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施,所述可编程系统包括至少一个可编程处理器,其可以是专用或通用目的的,被耦接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,以及向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级程序和/或面向对象的编程语言和/或以汇编/机器语言实施。如在本文中使用,术语“机器可读介质”“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备,例如磁盘、光盘、存储器、可编程逻辑器件(PLD),包括接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,在此描述的系统和技术能够在具有显示设备的计算机上实施,例如用于向用户显示信息的CRT(阴极射线管)或LCD(液晶显示器)监视器,以及用户能够借以向计算机提供输入的键盘和指向设备,例如鼠标或轨迹球。其它种类的设备也能用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入能够以任何形式被接收,包括声音、语言或触觉输入。
在此描述的系统和技术能够在以下计算系统中实施,该计算系统:包括后端部件例如作为数据服务器;或包括中间件部件例如应用服务器;或包括前端部件例如具有图形用户界面或网页浏览器、用户能够通过它与在此描述的系统和技术的实施交互的客户端计算机;或者这样的后端、中间件或前端部件的任何组合。系统的部件能够通过任何形式或介质的数字数据通信、例如通信网络互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和因特网。
计算系统能够包括客户端和服务器。客户端和服务器一般彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系依靠在各自的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而发生。
已经描述了许多实施例。然而,应当理解,在不背离本发明的精神和范围的情况下,可以作出各种修改。另外,在附图中描绘的逻辑流程不需要所示出的特定次序或顺序次序来实现期望的结果。另外,从所描述的流程可以提供其它步骤,或者可以消除步骤,并且其它部件可以添加到所描述的系统或从所描述的系统移除。因此,其它实施例在所附权利要求书的范围内。

Claims (7)

1.一种计算机实现的方法,包括:
接收指示手写输入的数据,所述手写输入包括一个或多个特定笔画;
确定所述手写输入的所述一个或多个特定笔画的一个或多个特征;
由被训练为将笔画分类为可能表示字素或可能不表示字素的分类器至少基于所述特征中的一个或多个来确定所述一个或多个特定笔画被分类为可能表示字素或可能不表示字素;
从至少以下之中选择用于处理所述手写输入的特定识别过程:
(i)多语言识别过程,如果所述一个或多个特定笔画被分类为可能表示字素,所述多语言识别过程利用多个识别器处理输入笔画,所述多个识别器每一个与不同语言相对应并且每一个被训练为针对给定的一组输入笔画来输出与相对应语言相关联的一个或多个字素,和
(ii)非识别过程,如果所述一个或多个特定笔画被分类为可能不表示字素,所述非识别过程丢弃输入笔画;
响应于确定所述一个或多个特定笔画被分类为可能表示字素并选择所述多语言识别过程以使用所述多个识别器来处理输入笔画,针对所述不同语言中的每一个生成所述手写输入的相应候选转录;
针对所述手写输入的所述候选转录中的每一个计算相应置信度得分;
基于所述置信度得分从所述候选转录当中选择一个或多个候选转录以用于输出;以及
提供所选择的一个或多个候选转录以用于输出。
2.根据权利要求1所述的方法,其中,所述多语言识别过程利用通用识别器进一步处理输入笔画,所述通用识别器被训练为针对给定的一组输入笔画来输出单个字素。
3.根据权利要求1所述的方法,其中,确定所述一个或多个特定笔画被分类为可能表示字素或可能不表示字素包括生成表示所述一个或多个特定笔画表示字素的可能性的置信度得分;并且
其中,至少基于所生成的置信度得分来选择所述特定识别过程。
4.根据权利要求1所述的方法,其中,选择用于处理所述手写输入的所述特定识别过程包括选择所述多个识别器的子集来输出指示所述一个或多个特定笔画的数据。
5.根据权利要求1-4中的任一项所述的方法,其中,确定所述一个或多个特定笔画被分类为可能表示字素或可能不表示字素包括确定所述一个或多个特定笔画是否表示涂写或乱涂。
6.一种用于改进手写检测的系统,包括:
一个或多个计算机;以及
非暂时计算机可读介质,所述非暂时计算机可读介质与所述一个或多个计算机耦接,所述非暂时计算机可读介质具有在所述非暂时计算机可读介质上存储的指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至5中的任一项所述的方法。
7.一种用计算机程序编码的非暂时计算机存储设备,所述程序包含指令,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至5中的任一项所述的方法。
CN201680028451.3A 2015-09-09 2016-06-24 利用预过滤器分类来提高手写识别 Active CN107969155B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/849,162 US20170068868A1 (en) 2015-09-09 2015-09-09 Enhancing handwriting recognition using pre-filter classification
US14/849,162 2015-09-09
PCT/US2016/039366 WO2017044173A1 (en) 2015-09-09 2016-06-24 Enhancing handwriting recognition using pre-filter classification

Publications (2)

Publication Number Publication Date
CN107969155A CN107969155A (zh) 2018-04-27
CN107969155B true CN107969155B (zh) 2022-04-19

Family

ID=56409694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680028451.3A Active CN107969155B (zh) 2015-09-09 2016-06-24 利用预过滤器分类来提高手写识别

Country Status (6)

Country Link
US (1) US20170068868A1 (zh)
EP (1) EP3274918A1 (zh)
JP (1) JP6496841B2 (zh)
KR (1) KR102015068B1 (zh)
CN (1) CN107969155B (zh)
WO (1) WO2017044173A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643067B2 (en) * 2015-10-19 2020-05-05 Myscript System and method of handwriting recognition in diagrams
US10120457B2 (en) * 2015-10-27 2018-11-06 Lenovo (Singapore) Pte. Ltd. Displaying a logogram indication
US10635298B2 (en) * 2017-04-18 2020-04-28 Xerox Corporation Systems and methods for localizing a user interface based on a pre-defined phrase
RU2661750C1 (ru) * 2017-05-30 2018-07-19 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание символов с использованием искусственного интеллекта
RU2652461C1 (ru) * 2017-05-30 2018-04-26 Общество с ограниченной ответственностью "Аби Девелопмент" Дифференциальная классификация с использованием нескольких нейронных сетей
US20190370324A1 (en) * 2018-05-29 2019-12-05 Microsoft Technology Licensing, Llc System and method for automatic language detection for handwritten text
CN108733304A (zh) * 2018-06-15 2018-11-02 蒋渊 一种自动识别及处理手写字符方法、装置
US10997402B2 (en) * 2018-07-03 2021-05-04 Fuji Xerox Co., Ltd. Systems and methods for real-time end-to-end capturing of ink strokes from video
EP3736677A1 (en) 2019-05-10 2020-11-11 MyScript A method and corresponding device for selecting and editing handwriting input elements
CN110222584A (zh) * 2019-05-14 2019-09-10 深圳传音控股股份有限公司 手写输入的识别方法及设备
EP3754537B1 (en) 2019-06-20 2024-05-22 MyScript Processing text handwriting input in a free handwriting mode
EP3772015B1 (en) 2019-07-31 2023-11-08 MyScript Text line extraction
EP3796145B1 (en) 2019-09-19 2024-07-03 MyScript A method and correspond device for selecting graphical objects
CN112417839A (zh) * 2020-10-19 2021-02-26 上海臣星软件技术有限公司 emoji和文字混排的方法、装置、电子设备及计算机存储介质
CN113176830B (zh) * 2021-04-30 2024-07-19 北京百度网讯科技有限公司 识别模型训练、识别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1667548A (zh) * 2003-09-26 2005-09-14 余可立 英文字母汉字化书写虚拟笔画和中英文速记符号兼容方案
EP2308042B1 (en) * 2008-06-27 2011-11-02 Koninklijke Philips Electronics N.V. Method and device for generating vocabulary entries from acoustic data

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0650527B2 (ja) * 1983-12-26 1994-06-29 株式会社日立製作所 実時間手書き軌跡認識方法
US5444797A (en) * 1993-04-19 1995-08-22 Xerox Corporation Method and apparatus for automatic character script determination
US5425110A (en) * 1993-04-19 1995-06-13 Xerox Corporation Method and apparatus for automatic language determination of Asian language documents
US5384864A (en) * 1993-04-19 1995-01-24 Xerox Corporation Method and apparatus for automatic determination of text line, word and character cell spatial features
US5513304A (en) * 1993-04-19 1996-04-30 Xerox Corporation Method and apparatus for enhanced automatic determination of text line dependent parameters
JPH09120433A (ja) * 1995-10-24 1997-05-06 Toshiba Corp 文字認識方法及び文書作成装置
US6370269B1 (en) * 1997-01-21 2002-04-09 International Business Machines Corporation Optical character recognition of handwritten or cursive text in multiple languages
WO2002015170A2 (en) * 2000-08-11 2002-02-21 Ctb/Mcgraw-Hill Llc Enhanced data capture from imaged documents
GB2381637B (en) * 2001-10-31 2005-04-27 James Au-Yeung Apparatus and method for determining selection data from pre-printed forms
US20030215145A1 (en) * 2002-05-14 2003-11-20 Microsoft Corporation Classification analysis of freeform digital ink input
JP2004054397A (ja) * 2002-07-17 2004-02-19 Renesas Technology Corp 補助入力装置
US7369702B2 (en) * 2003-11-07 2008-05-06 Microsoft Corporation Template-based cursive handwriting recognition
US7929769B2 (en) * 2005-12-13 2011-04-19 Microsoft Corporation Script recognition for ink notes
US8175389B2 (en) * 2009-03-30 2012-05-08 Synaptics Incorporated Recognizing handwritten words
US8644611B2 (en) * 2009-06-03 2014-02-04 Raytheon Bbn Technologies Corp. Segmental rescoring in text recognition
US8635061B2 (en) * 2010-10-14 2014-01-21 Microsoft Corporation Language identification in multilingual text
WO2012083479A1 (en) * 2010-12-20 2012-06-28 Honeywell International Inc. Object identification
US9111374B2 (en) * 2011-11-29 2015-08-18 Brother Kogyo Kabushiki Kaisha Mobile terminal, method for controlling the same, and non-transitory storage medium storing program to be executed by mobile terminal
US20140313216A1 (en) * 2013-04-18 2014-10-23 Baldur Andrew Steingrimsson Recognition and Representation of Image Sketches
US9465985B2 (en) * 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
US20150039637A1 (en) * 2013-07-31 2015-02-05 The Nielsen Company (Us), Llc Systems Apparatus and Methods for Determining Computer Apparatus Usage Via Processed Visual Indicia
US9224038B2 (en) * 2013-12-16 2015-12-29 Google Inc. Partial overlap and delayed stroke input recognition
US9536180B2 (en) * 2013-12-30 2017-01-03 Google Inc. Text recognition based on recognition units
US9286527B2 (en) * 2014-02-20 2016-03-15 Google Inc. Segmentation of an input by cut point classification
JP6264949B2 (ja) * 2014-03-05 2018-01-24 富士ゼロックス株式会社 画像処理装置及びプログラム
CN106156766B (zh) * 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
US10114817B2 (en) * 2015-06-01 2018-10-30 Microsoft Technology Licensing, Llc Data mining multilingual and contextual cognates from user profiles
US9904847B2 (en) * 2015-07-10 2018-02-27 Myscript System for recognizing multiple object input and method and product for same
US10643067B2 (en) * 2015-10-19 2020-05-05 Myscript System and method of handwriting recognition in diagrams

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1667548A (zh) * 2003-09-26 2005-09-14 余可立 英文字母汉字化书写虚拟笔画和中英文速记符号兼容方案
EP2308042B1 (en) * 2008-06-27 2011-11-02 Koninklijke Philips Electronics N.V. Method and device for generating vocabulary entries from acoustic data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Determination of the Script and Language Content of Document Images;A. Lawrence Spitz;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;19970331;第235-244页,附图3 *

Also Published As

Publication number Publication date
CN107969155A (zh) 2018-04-27
JP2018522315A (ja) 2018-08-09
EP3274918A1 (en) 2018-01-31
JP6496841B2 (ja) 2019-04-10
KR102015068B1 (ko) 2019-08-27
WO2017044173A1 (en) 2017-03-16
US20170068868A1 (en) 2017-03-09
KR20170131630A (ko) 2017-11-29

Similar Documents

Publication Publication Date Title
CN107969155B (zh) 利用预过滤器分类来提高手写识别
US11842045B2 (en) Modality learning on mobile devices
US11514698B2 (en) Intelligent extraction of information from a document
US8768062B2 (en) Online script independent recognition of handwritten sub-word units and words
US8180160B2 (en) Method for character recognition
US20130251249A1 (en) Rotation-free recognition of handwritten characters
US20080008387A1 (en) Method and apparatus for recognition of handwritten symbols
Mohd et al. Quranic optical text recognition using deep learning models
US11113517B2 (en) Object detection and segmentation for inking applications
US8442310B2 (en) Affine distortion compensation
Kasem et al. Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey
Shivram et al. Segmentation based online word recognition: A conditional random field driven beam search strategy
CN113377904B (zh) 行业动作识别方法、装置、电子设备及存储介质
Hakro et al. A Study of Sindhi Related and Arabic Script Adapted languages Recognition
US9454706B1 (en) Arabic like online alphanumeric character recognition system and method using automatic fuzzy modeling
CN115273103A (zh) 文本识别方法、装置、电子设备及存储介质
EP3785145B1 (en) System and method for automatic language detection for handwritten text
Urala et al. Recognition of open vocabulary, online handwritten pages in Tamil script
Li Synergizing Optical Character Recognition: A Comparative Analysis and Integration of Tesseract, Keras, Paddle, and Azure OCR
Mazalov et al. Improving isolated and in-context classication of handwritten characters
Mandal et al. Exploring Discriminative HMM States for Improved Recognition of Online Handwriting
CN110889414A (zh) 光学字符识别方法及装置
Kunwar et al. A HMM based online Tamil word recognizer
蔡文杰 Studies on online multi-stroke character recognition
Zaqout Using Heuristics Based Approach for Segmentation and Recognition of Printed Arabic Characters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant