CN107912062B - 叠覆手写的系统和方法 - Google Patents

叠覆手写的系统和方法 Download PDF

Info

Publication number
CN107912062B
CN107912062B CN201680028218.5A CN201680028218A CN107912062B CN 107912062 B CN107912062 B CN 107912062B CN 201680028218 A CN201680028218 A CN 201680028218A CN 107912062 B CN107912062 B CN 107912062B
Authority
CN
China
Prior art keywords
input
strokes
character
stroke
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680028218.5A
Other languages
English (en)
Other versions
CN107912062A (zh
Inventor
若尔特·维默尔
弗雷迪·佩罗
皮埃尔-米凯尔·拉利康
吉列尔莫·阿拉迪拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maxwell AG
Original Assignee
Maxwell AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maxwell AG filed Critical Maxwell AG
Publication of CN107912062A publication Critical patent/CN107912062A/zh
Application granted granted Critical
Publication of CN107912062B publication Critical patent/CN107912062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2272Character recognition characterised by the type of writing of cursive writing using stroke segmentation with lexical matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2276Character recognition characterised by the type of writing of cursive writing using stroke segmentation with probabilistic networks, e.g. hidden Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)

Abstract

一种系统和方法,其能够识别用户的自然叠覆的手写,而字符之间无需任何明确分隔。该系统和方法能够处理单笔划字符和多笔划字符。它还可以处理草书手写。此外,所述系统和方法可以通过使用特定用户输入手势或通过基于语言特性和属性检测单词边界来确定输入单词的边界。所述系统和方法通过分割(116)、字符识别(118)和语言建模(120)的处理来分析手写输入。这些处理中的至少一部分通过使用动态编程来同时发生。

Description

叠覆手写的系统和方法
相关申请的交叉引用
本申请要求于2015年5月15日提交的欧洲申请No.15290129.4的优先权,其全部内容通过引用并入本文并构成其一部分。
技术领域
本发明总体涉及能够识别各种字符的用户输入手写的计算设备接口的领域。
背景技术
计算设备在日常生活中不断变得越来越普遍。它们表现为如下形式:台式计算机、膝上型计算机、平板PC、电子书阅读器、移动电话、智能电话、可穿戴计算机、全球定位系统(GPS)单元、企业数字助理(EDA)、个人数字助理(PDA)、游戏机等。此外,计算设备被包括到汽车、卡车、农场设备、制造设备、建筑环境控制(例如,照明、HVAC)以及家用和商用电器中。
计算设备通常由至少一个处理元件(比如,中央处理单元(CPU)、某种形式的存储器以及输出和输出设备)组成。各种计算设备及它们的后续使用需要各种输入设备。一个这样的输入设备是触敏表面(比如,触摸屏或触摸板),其中通过用户手指或工具(比如,笔或触写笔)和触敏表面之间的接触来接收用户输入。另一输入设备是感测用户在输入表面上做出的手势的输入表面。这些输入方法中的任一种通常可用于绘制或输入文本。当用户输入是文本时,计算设备必须使用在线手写识别系统或方法来解译用户的手写。
通常,在线手写识别系统或方法监测笔划的开始(比如用户何时接触触敏表面(下笔))、笔划的结束(比如用户何时停止接触触敏表面(抬笔))、以及用户在笔划的开始和结束之间用他或她的手指或笔做出的任何移动(手势或笔划)。
在线手写识别系统或方法通常由预处理阶段、分割阶段、识别阶段和解译阶段组成。通常,预处理阶段包括丢弃不相关的输入数据并且均衡化、采样化和移除相关数据中的噪声。分割阶段指定不同方式来将输入数据分解成个别字符和单词。识别通常包括表征不同输入分割的特征提取阶段和将分割与可能字符候选相关联的分类阶段。最后,解译阶段通常包括识别与字符候选相关联的字符和/或单词。实际上,在线手写识别系统或方法可以包括上述这些阶段和附加阶段。此外,在线手写识别系统或方法可能无法清楚地描述每个阶段。
在线手写识别系统或方法可以是单笔划或多笔划。单笔划识别使用针对字母表的每个字符的单笔划简写(Palm公司的涂鸦)。这些系统或方法具有较少输入错误但却要求用户记住整个字母表的新的笔划图案。多笔划识别可以识别自然手写,并且当使用具有包括不容易被简化成单笔划字符(比如,日语或中文字符)的语言的在线手写识别系统时通常是必要的。
计算设备的类型还可以确定所用的手写识别系统或方法的类型。例如,如果输入表面是足够大的(比如平板电脑),则用户可以在输入表面上或上方的任何地方处输入文本或数据,就好像用户在一张纸上书写似的。随着设备变得更小,已经开发了不同的系统和方法(比如,多框或单框)。多框系统或方法将输入表面划分为多个区域(例如三个框),其中用户逐个地在每个框中输入每个字符。因为字符分割变得最小或不必要的,这种方法是优势的。它们还允许多笔划字符,这些多笔划字符可以利用独立的字符(isolated-character)识别技术来分析。
对于更小的设备,输入表面对于多框来说可能不是足够大的,所以表面本质上是单框书写界面。在这种情况下,一次仅可以书写一个字符。尽管单框界面自身适合于单笔划识别系统,但是某些语言(比如日语或中文)却具有不容易被简化成单笔划简写的多笔划字符。此外,大部分自然手写均包含多笔划字符,而不管是何种语言。
使用多笔划系统或方法的单框界面产生包括确定字符的开始和结束以及清楚地显示输入字符的图像的其他问题。用于确定字符的开始和结束的一种方式要求用户在每个字符之间明确地停顿。然而,由于这种方式降低了用户输入数据的速度,因此它不是最优的。在单框系统或方法中,在用户能够连续不停顿地输入字符的情况下,输入字符将彼此交叠或叠覆。这被称为叠覆手写、交叠手写或“顶部书写(on-top-writing)”。
本在线叠覆手写识别系统和方法通过同时地而不是相继地执行分片并然后分割、识别和解译来提供针对用户输入手写识别的改善结果。本系统和方法执行对片段的分片或分类以增强识别准确度和速度。本系统和方法在相同层面上执行分割、识别和解译,而不是对这些步骤应用分层结构。通过使分割、识别和解译协同发生,本系统基于用户输入向用户提供了最可能的字符、单词和句子候选。
发明内容
本文以下所描述的本发明的示例提供了用于在线叠覆手写识别的方法、系统和软件,其中所述方法、系统和软件能够解译用户的自然手写风格。这些方法、系统和软件允许用户使用他或她的自然手写来将字符输入到计算设备中,而字符之间无需任何明确间隔。本手写识别系统和方法包括与输入表面形式的输入设备相连的计算设备。用户能够通过使用他或她的手指或工具(比如,触写笔或笔)向输入表面施加压力或在输入表面上做手势来提供输入。本系统和方法监测输入笔划。
所公开的系统和方法的一个方面提供了一种分片专家,用于检测片段的至少相继片段的输入笔划的相对位置;检测所述至少相继片段的输入笔划的几何图形;根据所检测到的相对位置来确定输入笔划的分割的叠覆,并且根据所检测到的几何图形确定叠覆的分割是否可能形成字符;基于所确定的可能的字符对片段进行分类;以及向识别引擎提供分类片段,以基于所述分类片段来评估字符猜想。
所公开的系统和方法的另一方面提供了至少一个非暂时性计算机可读介质,其被配置为通过以下操作来确定可能的字符:确定所述至少相继片段的第一片段的至少一个输入笔划的至少一部分与所述至少相继片段的第二片段的至少一个输入笔划的至少一部分相组合是否可能形成至少一个字符。
在所公开的系统和方法的另一方面中,每个分类片段被定义为包含由一个或多个输入片段的输入笔划形成的完整字符。
所公开的系统和方法的另一方面提供了所述至少相继片段的输入笔划的相对位置是根据所述输入笔划的空间信息和时间信息两者来检测的。
所公开的系统和方法的另一方面提供了识别引擎,其基于分类片段的笔划创建分割图,其中分割图包括与字符猜想相对应的节点;基于图案分类器向所述分割图的每个节点分配识别分数;基于所述识别分数和语言模型来生成所述输入笔划的语言学含义;以及基于对所述分割图、所述识别分数的同时分析来提供输出。
在所公开的系统和方法的另一方面,所述分割图还包括与基于分类片段的字符猜想之间的空格猜想相对应节点。
根据以下结合附图对本系统和方法的实施例的详细描述,将更全面地理解本系统和方法。
附图说明
图1示出了根据本系统的示例的计算设备的框图。
图2示出了根据本系统的示例的用于在线手写识别的系统的框图。
图3A示出了根据本系统的示例的可能的用户输入的图示说明。
图3B示出了根据本系统的示例的分割图的示意图。
图4示出了根据本系统的示例的草书用户输入的可能的用户输入的示意图。
图5示出了根据本系统的示例的草书用户输入的分割的示意图说明。
图6示出了根据本系统的示例的识别专家的示意图说明。
图7示出了根据本系统的示例的语言自动机的示意图说明。
图8示出了根据本系统的另一示例的用于在线手写识别的系统的框图。
图9A示出了根据本系统的示例的可能的用户输入的图示说明。
图9B示出了图9A的用户输入的时序的图示说明。
图10A示出了根据本系统的示例的可能的用户输入的图示说明。
图10B示出了图10A的用户输入的时序的图示说明。
具体实施方式
在以下详细描述中,以示例的方式阐述了大量的特定细节,以提供对相关教导的完全理解。然而,对于本领域技术人员来说显而易见的是,可以在没有这些细节的情况下实践本教导。在其他实例中,为了避免不必要地模糊本教导的方面,仅在相对较高的层面上描述了公知的方法、过程、组件和/或电路,而没有详细地描述。
本文所述的各种技术通常涉及在线手写识别,并且更具体地涉及用于各种计算设备上的叠覆手写识别的系统和方法。本文中所述的系统和方法可以用于通过同时发生的分割、识别和解译的处理来识别用户的自然手写输入,以提供最可能的字符、单词和句子候选。
图1示出了计算设备100的框图。该计算设备可以是台式计算机、膝上型计算机、平板PC、电子书阅读器、移动电话、智能电话、可穿戴计算机、数字手表、全球定位系统(GPS)单元、企业数字助理(EDA)、个人数字助理(PDA)或游戏机。设备100包括至少一个处理元件、某种形式的存储器以及输入和/或输出(I/O)设备。这些组件通过例如连接器、线路、总线、电缆、缓冲器、电磁链路、网络、调制解调器、换能器、IR端口、天线或本领域普通技术人员已知的其它装置的输入输出装置彼此通信。
设备100包括至少一个输入表面104。输入表面104可以采用多种技术,例如电阻技术、表面声波技术、电容技术、红外网格技术、红外丙烯酸投影技术、光学成像技术、色散信号技术技术、声脉冲识别技术或本领域普通技术人员已知的任何其他适当技术。输入表面104可以由清楚地标识其边界的永久性的或视频生成的边界来界定。
除输入表面104之外,设备100可以包括经由本地接口通信地耦接的一个或多个附加I/O设备(或外围设备)。本地接口可以具有用于实现通信的附加元件,比如控制器、缓冲器(高速缓存)、驱动器、中继器和接收机,为了简单起见,省略了这些本领域技术人员熟知的元件。此外,本地接口可以包括地址、控制和/或数据连接,以实现其他计算机组件之间的适当通信。
一个这种I/O设备可以是用于输出来自计算设备的数据(例如图像、文本和视频)的至少一个显示器102。显示器102可以使用LCD、等离子体、CRT或本领域普通技术人员已知的任意其他适当的技术。显示器102中的至少一部分可以与输入表面104位于同一位置。其他附加I/O设备可以包括输入设备,诸如键盘、鼠标、扫描仪、麦克风、触摸板、条形码读取器、激光读取器、射频设备读取器、或本领域普通技术人员已知的任意其他适当技术。此外,I/O设备还可以包括输出设备,例如打印机、条形码打印机或本领域普通技术人员已知的任意其他适当技术。最后,I/O设备还可以包括传送输入和输出两者的设备,比如调制器/解调器(调制解调器;用于访问另一设备、系统或网络)、射频(RF)或其它收发机、电话接口、桥接器、路由器或本领域普通技术人员已经的任意其他适当技术。
设备100还包括处理器106,处理器106是用于执行软件(尤其是存储器108中存储的软件)的硬件设备。处理器可以是任何定制的或商业上可用的通用处理器、中央处理单元(CPU)、基于半导体的微处理器(微芯片或芯片组形式的)、宏处理器、微控制器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件、状态机或被设计用于执行本领域普通技术人员已知的软件指令的任何组合。合适的商业上可用的微处理器的示例如下:来自Hewlett-Packard公司的PA-RISC系列微处理器、来自Intel公司的80x86或Pentium系列微处理器、来自IBM的PowerPC微处理器、来自Sun Microsystems公司的Sparc微处理器、来自摩托罗拉公司的68xxx系列微处理器、DSP微处理器或ARM微处理器。
存储器108可以包括易失性存储元件(例如,随机存取存储器(RAM,比如DRAM、SRAM、SDRAM等)和非易失性存储元件(例如,ROM、EPROM、闪存PROM、EEPROM、硬盘、磁盘或光盘、存储寄存器、CD-ROM、WORM、DVD、廉价磁盘冗余阵列(“RAID”)、另一直接存取存储设备(“DASD”)等)的任意一个或多个组合。此外,存储器108可以包含电子、磁性、光学和/或其他类型的存储介质。存储器108可以具有分布式架构,在该分布式架构中各种组件彼此远离,但仍可以由处理器106访问。存储器108与处理器106耦接,因此处理器106可以从存储器108读取信息和向存储器108写入信息。在备选方案中,存储器108可以集成到处理器106。在另一示例中,处理器106和存储器108两者均可以存在于单个ASIC或其它集成电路中。
存储器108中的软件包括可以包含一个或多个单独程序的在线手写计算机程序,这些单独程序中的每一个包括用于实现逻辑功能的可执行指令的顺序列表。操作系统110控制在线手写计算机程序的执行。操作系统110可以是专有操作系统或商业上可用的操作系统,例如
Figure GDA0002814266160000071
MAC和IPHONE
Figure GDA0002814266160000072
LINUX、ANDROID等。应当理解,在不脱离本文公开的系统和方法的精神的情况下,也可以使用其他操作系统。
存储器108可以包括与如本文所述的手写识别相关的其它应用程序112、完全不同的功能或两者。应用112包括在制造时向设备100提供的程序,并且还可以包括在制造之后下载到设备100中的程序。一些示例包括文本编辑器、电话拨号器、联系人目录、即时消息设施、电子邮件程序、文字处理程序、web浏览器、相机等。
具有支持和兼容能力的在线手写识别计算机程序可以是源程序、可执行程序(目标代码)、脚本或包括待执行的指令集的任何其它实体。在源程序的情况下,所述程序需要经由编译器、汇编器、解译器等来翻译,以便结合操作系统正确地操作,其中所述编译器、汇编器、解译器可以包括在或可以不包括在存储器中。此外,具有支持和兼容能力的在线手写识别计算机程序可以被写成(a)面向对象的编程语言,其具有多类数据和方法;或(b)过程编程语言,其具有例程、子例程、和/或功能,例如但不限于C、C++、Pascal、Basic、Fortran、Cobol、Perl、Java和Ada。
当处理器106经由输入表面104检测到用户输入的笔划时,启动系统。用户可以利用手指或一些工具(比如,笔或触写笔)来输入笔划。至少通过笔划开始位置、笔划结束位置和用户连接笔划开始位置和笔划结束位置的路径来表征笔划。因为不同的用户均可以自然地以微小变化写下相同字母,因此本系统适应于可以输入每个字母的各种方式。
图2是根据本系统的示例的用于在线手写识别的系统的示意图。一旦以至少一个输入笔划开始,所述系统预处理114该笔划。预处理114可以包括通过应用尺寸归一化和/或诸如B样条逼近的方法来对连接笔划开始位置和笔划结束位置的路径进行归一化,以平滑输入。然后,将输入笔划传送到通过动态编程协作的三个专家(分割专家116、识别专家118和语言专家120),以生成字符、单词和句子层面的输出候选124。
分割专家116定义不同方式来将输入笔划分割成单词或单个字符猜想。为形成所述字符猜想,分割专家116对原始输入的连续笔划进行分组。这样导致分割图,在该图中,每个节点与至少一个字符猜想相对应,并且字符之间的邻接约束由节点连接处理。如果对应的猜想没有共同笔划但是其笔划在原始输入中是连续的,则认为节点是相邻的。图3A示出了根据本系统的示例的单词BEAN的可能的用户输入。具体地,附图示出了叠覆书写多笔划字符的示例。图3B示出了根据本系统的示例创建的图3A的输入的可能的分割图。
叠覆手写识别系统和方法还必须确定单词结束的位置和另一单词开始的位置。本系统和方法能够采用多个实施例来检索单词边界。在一个实施例中,要求用户在每个单词之后插入特定手势。在该实施例中,特定手势被输出为空格字符。由于该实施例减少了将输入笔划分割成单词和单独字符猜想的不同方式,该实施例为分割处理带来了更多的鲁棒性。然而,该实施例强制用户添加对每个单词的结束加以指示的特定手势,而用户可能会丢落该特定手势。
备选实施例不需要分离单词的特定手指。相反,在线手写识别计算机程序在识别专家118和/或语言专家120的帮助下自动地检测单词边界,这将在下文中详细描述。例如,语言专家120使用语言学信息130来基于词汇知识和技术来检索单词边界,其中所述词汇知识和技术对给定语言中的一系列连续单词的似然性进行建模(诸如N元文法模型、句法分析、语义分析等)。
例如,在基于从英语中提取的语言学信息130的实施例中,用户可以以叠覆书写的方式输入字符序列“whattimeisit?”。该备选实施例将输出单词分割“what time is it?”,使得输入笔划具有整体含义,并基于语言学信息130来检索单词边界。该实施例的优势在于:允许用户在无需在每个单词之间插入特定手势的情况下输入单词序列。
在另一实施例中,可以将两个先前的方法组合在一起。在这种情况下,用户可以在每个单词之后插入特定手势,以获得用以检测单词边界的更多的鲁棒性。但是每当用户遗漏插入手势时,手写识别系统都能够在识别专家118和/或语言专家120的帮助下检测单词边界。
在一个示例中,分割专家不限于其中利用抬笔来使每个单个字符与其相邻字符分离的手写书写输入,如图3A和图3B所示。本系统的分割专家116还能够处理草书书写,在草书书写中,彼此叠覆书写连着的字符。图4示出了单词“be”和“an”的草书用户输入。当解译草书用户输入时,分割专家116基于特定点的检测来分割每个笔划,其中所述特定点定义用于将笔划分解成其构成部分的位置。图5示出了草书“an”被分解为其构成部分的示例。用于将笔划分解为其构成部分的特定点可以由交叉点、笔划路径的斜率的变化等限定。这些构成部分用于构建分割图。
识别专家118将字符候选的列表与分割图的每个节点的概率或识别分数相关联。这些概率或识别分数基于语言识别信息122。语言识别信息定义了指定语言下的字母表的所有不同的字符和符号。该信息是依赖于语言的,并且包括字母表的一般差异以及用以识别书写字母表的各种独特风格的能力。例如,根据个体是来自美国、法国甚至是韩国,个体书写“7”的方式可以非常不同。继续参考图3A和图3B中给出的示例,图6示出了包括两个阶段的识别专家118的实施例。识别专家118的第一阶段(特征提取126)基于动态特征和静态特征的组合。例如,可以从输入笔划的轨迹提取动态特征,并且动态特征基于诸如输入笔划的位置、方向和曲率之类的信息。可以从输入笔划的位图表示中提取静态特征,并且静态特征可以基于投影和直方图。
本实施例的识别专家118的第二阶段是对通过图案分类器(比如,神经网络128)提取到的特征进行分类。在本实施例中,神经网络可以是简单的多层感知器。神经网络还可以包括使神经网络能够拒绝与严重分割字符相对应的节点猜想的额外种类。识别专家118输出字符候选的列表以及分割图的每个节点的概率或识别分数。备选实施例可以使用另一种神经网络,比如深度神经网络、卷积神经网络或递归神经网络。更一般地,可以使用任意种类的图案分类器来解决该识别任务(例如,支持向量机、隐式马尔可夫模型)。
语言专家120针对分割图中的不同路径生成语言学含义。它根据可用的语言信息130检查由其他专家建议的候选。该语言学信息130可以包括词典、正规表达等。语言专家120旨在找到最优识别路径。在一个实施例中,语言专家120通过探索语言模型(比如,表示语言学信息130的内容的最终状态自动机(决定论FSA))来实现该目的。以图3A、图3B和图6中的示例为基础的图7示出了具有专门词汇的语言学自动机,该专门词汇仅包含单词BEAN、BY、CAR、CAT和COW。此外,图7示出了期望用户插入破折号132来限定单词边界的语言专家的实施例。
除了专门词汇约束之外,语言专家120可以使用统计信息,从而对单词或给定的单词序列在指定语言中出现或者由特定用户使用的频率进行建模。例如,单词三元语言模型可以用于评估分割图的给定路径的解译的语言学似然性。
分割专家116、识别专家118和语言专家120通过动态编程共同协作以处理输入笔划和生成字符、单词和句子层面的输出候选124。在一个实施例中,动态编程基于波束搜索(beam search)技术,该技术在分割图和语言学模型两者中搜索最佳路径。在该实例中,最佳路径是与最低成本相对应的路径。最低成本路径可以定义为以下的总和:
在分割图中的对应路径中遇到的所有字符候选的成本。可以根据分割图中属于该路径的每个节点的概率或识别分数来估计这些成本。在一个实施例中,通过应用log非线性函数来根据神经网络概率估计成本。
在语言学模型的对应路径中遇到所有单词的成本。可以根据来自语言专家120的N元语法概率来估计这些成本。在一个实施例中,语言专家120通过应用log非线性函数来根据N元语法概率估计成本。
对于本在线手写识别计算机程序的整体训练,可以使用对分类器(例如,神经网络)128的所有参数和该系统的任何元参数进行自动学习的文本层面的全局判别式训练方案,但是也可以使用其他训练系统和方法。通过本在线叠覆手写识别系统和方法,通过同时地而不是相继地或层级地执行分割、识别和解译来提供针对用户输入手写识别的最好结果。
如关于图4所讨论的,本系统的分割专家116能够处理草书书写,其中将多个连着的字符而不是单个字符彼此叠覆书写作为输入的。图8是根据本系统的另一示例的用于在线手写识别的系统的示意图。与图2的系统示例一样,该另一示例系统也预处理114最终被传送到分割专家116、识别专家118和语言专家120的笔划,其中分割专家116、识别专家118和语言专家120相互协作以生成字符、单词和句子层面上的输出候选124。分割专家116、识别专家118和语言专家120一起形成识别引擎900的至少一部分。为了将预处理的114笔划呈现给识别引擎900以对草书输入进行有效的识别处理,本示例的系统还采用预处理的114输入的叠覆分类902,叠覆分类902对输入中的草书的和非草书的字符的叠覆进行分类,并将该分类输入传送到识别引擎900。应当理解,相同的附图标记表示具有相同功能和结构特性的元素。
现在参考图9A至图10B来讨论叠覆分类专家902的操作。草书的用户输入包含连着的字符,其中所有字符或仅其一部分是连着的。当以叠覆的方式来输入手写时,通过以时间方面(time-wise)方式在输入表面的相同空间中将句子和单词的多个片段进行交叠(例如,片段在不同时间占据相同空间的至少一部分)来执行那些单词和句子的书写。每个片段可以包含一个或多个完整的字符(例如字母),这些完整的字符与前面的和/或后面的片段的字符组合成完整的单词。然而,如稍后所讨论的,每个片段还可以包含一个或多个不完整的字符(例如,第一片段可以包含字母“t”或“i”的竖(root),并且例如第二个(下一个)片段可以包含字母“t”的‘横’或者字母“i”的‘点’),这些不完整的字符与前面的和/或后面的片段的不完整的字符相组合以组成完整的字符,这为分类片段提出了独特的挑战。
这样的叠覆显然得到对输入的许多可能解译,导致影响识别引擎的处理时间和准确度的后果。然而,本系统使用这种叠覆输入的机制,以通过减少待被识别引擎测试的猜想的数量来缩短处理时间,并且通过将可用的猜想约束到可能有效的猜想来提高处理精确度。这可以如下实现。
图9A示出了由于叠覆输入片段“hel”和“lo”而形成的单词“hello”的草书用户输入。图9B以时间方面方式示出了该输入。如可以看到的,第一片段904包含草书形式(例如,书写或输入为单笔划)的彼此连着的完整字符“h”和“e”以及草书形式的但是与其它字符隔离开(例如,分离的或者不连着的)的完整字符“l”。此外,第二片段906包含草书形式的但是彼此隔离开的完整字符“l”和“o”。这仅是示例,所有的字符或没有字符可以是连着的和/或草书体形式的。在本系统的早期描述的示例中,识别引擎分割两个片段中的所有字符,以形成允许处理许多猜想而不考虑片段本身的分割图。在本示例中,叠覆分类专家902被配置为在考虑片段的情况下处理输入,以限制可以生成并且由此通过识别引擎900测试的猜想的数量,从而缩短处理时间并增强识别准确度。
叠覆分类专家或分类器902至少部分地基于当前笔划和相邻笔划的几何图形来检测输入的当前笔划是否在新片段的开始处,并相应地对笔划进行分类。例如,在图9B中,分类器902将形成第一片段中的连着的字符“he”(以虚线示出)的“笔划”检测作为片段的开始,并且分类器902将形成第二片段中的隔离的字符“l”(以虚线示出)的“笔划”检测作为另一片段的开始。从而,分类器902将输入分类成两个分类片段,并且知道输入的哪些笔划属于哪个分类片段,并且考虑到笔划的输入的时间信息,分类器可以分类:形成第一分类片段中的字符“l”的最终笔划不是形成第二随后的分类片段中的第一字符“l”的笔划的一部分。将该分类解析到识别引擎900,使得分割专家116已经知道这些特定笔划的分解点,以用于分割和识别处理。
为了检测片段的开始,分类器902使用输入笔划的空间、时间和几何信息,而不仅仅是这些信息中的一个信息,且不仅是仅抬笔或落笔信息。也就是说,如果仅使用时间信息,则由于不可能知道后一笔划和紧接着的前一个笔划是否属于同一个字符,识别引擎将不得不基于时间对笔划分割作出猜想,或者对所有笔划产生猜想,而不管片段如何。此外,如果仅使用抬笔和落笔信息来确定片段(如在单个字符叠覆输入方法的情况下),则第一片段904中的“he”和“l”之间抬笔和落笔事件将被解译为片段事件,这显然是不准确的。此外,如果仅使用空间信息来确定片段(例如,如在所描述的示例中,在从左到右的字符输入的情况下(应当理解,也可使用其他方向的输入,诸如从右到左、从上到下),当落笔位置在紧接着先前的抬笔位置的左侧时进行检测),则识别引擎将永不会结合不完整的字符,从而导致不准确的识别。
图10A示出了由于叠覆输入片段“lhe”和“-”而形成的单词“the”的草书用户输入。图10B以时间方面方式示出了该输入。如可以看到的,第一片段908包含草书形式的彼此连着的字符“l”和“h”以及草书形式的与“l”和“h”隔开的字符“e”,并且第二片段910包含完整的字符“-”。这仅是示例,所有的字符或没有字符可以是连着的和/或草书体形式的。显然,在该输入中,第二片段中的延伸笔划“-”被用作第一片段中的“t”中的“横”。然而,如果分类器902仅基于时间、空间或抬笔落笔行为将该输入的片段(例如,成片段的)进行分类,则应当将延伸笔划“-”分类为新的分类片段的开始,由此将使得识别引擎900评估出两个猜想:“lhe-”和“lhe-”,其中这些都不反映用户的输入,导致不准确的识别。然而,分类器902使用笔划的几何图形和空间(和时间)信息来将笔划分类成片段。时间信息提供输入笔划的时间顺序的知识。所使用的空间信息不仅提供了前一个片段中的最后的笔划和下一个片段的第一笔划的相对位置的知识(所述指示对叠覆输入事件加以指示),还提供了这些片段内的所有笔划的相对位置的知识。几何图形信息允许分类器902考虑叠覆的笔划是否可能属于单个字符,例如相邻或接近片段中的可能的不完整的字符一起形成这些片段中的任何一个中的完整的字符。
也就是说,在图10B的示例中,分类器902基于空间(和时间)信息来检测延伸笔划“-”相对于笔划“lhe”有一相对位置,这意味着笔划“-”交叠完整笔划“lhe”的笔划部分“l”,并且分类器902基于这些交叠的笔划的几何图形信息进行检测,这些交叠的笔划可以被组合以产生可能的单个的或完整的字符。因此,叠覆分类专家902不将延迟的笔划分类为新的片段的开始(即,在图10B中,当笔划“lh”以虚线示出时笔划“-”却未以虚线示出),但是却向识别引擎提供单个分类片段,从而使得识别引擎评价两个猜想:“the”和“lhe-”,这显然导致准确的识别结果。这样,叠覆分类引擎902实现如下规则:分类片段仅包含完整的字符,并且如由已知的几何图形信息所定义的包含不完整字符的输入数字墨水的相邻或接近的片段将被分类为单个分类片段。
用于片段化或对对片段进行分类的另一可能的标准是字符之间出现空格。然而,在没有其他标准的情况下,这可以导致不准确和耗时的识别。这是因为,根据输入表面的大小(例如,用于手写输入的设备的宽度),有可能以叠覆方式或模式来输入比单词之间具有空格的字符串的长度更长的输入字符,即,单词、句子和段落的片段彼此叠覆。在这种情况下,字符之间的空格是待被识别的输入的一部分,而不是输入片段的指示符。另一方面,分类器对新的片段的检测和分类可以用于使得识别引擎在评价可能的猜想时包括相邻分类片段的最后一个字符和第一个字符之间的空格的猜想。
尽管已经关于草书体形式的每个叠覆片段中所输入的多个字符描述了图9A至图10B的示例,但是本领域普通技术人员应当理解,几何图形和空间信息或几何图形、空间和时间(和/或抬笔落笔)信息的使用可以用于将单个或多个非草书的(例如,打印的)字符的笔划分类成片段。此外,分类器可被认为被配置为提供在检测到可能生成了新的片段的事件之前将所有笔划视为属于相同的片段的默认分类,然而,本领域普通技术人员应当理解,叠覆分类器可以使用组合的笔划信息来提供在检测到例外(比如,不完整的笔划完成)之前将叠覆的笔划视为属于不同的片段的默认分类。为了应用几何图形信息,分类器902可以指笔划形状的数据库、列表、表格或专门词汇等以及笔划形状相对于由分类器的存储器或系统所存储的可能字符的彼此之间的关系。此外,叠覆分类专家可以被配置为将相关几何图形与如下项的位置(和时间)信息进行比较以便对片段进行分类:紧接着随后的、紧接着的相继的或仅直接相邻的片段,或者一系列相继的或连续的输入片段。例如,在三个连续的输入片段的情况下,如果分类器检测到第一片段和第三片段可能包含组合后形成完整字符的不完整的字符(例如,第一片段中的“t”的竖“1”和第三片段中的“t”的横“-”),则分类器可以使用该信息来对包含所有三个输入片段的笔划的单个片段进行分类。
尽管前文已经描述了被视为是最佳实施方式的内容和/或其它示例,但是应当理解:可以在本发明中进行各种修改,并且可以以各种形式和示例来实现本文中所公开的主题,并且最佳实施方式的内容和/或其它示例可以应用于多个其它应用、组合和环境中,这里仅描述了其中的一些。本领域普通技术人员将认识到,在不脱离本主题的真实精神和范围的情况下,可以改变或修改所公开的方案。因此,主题不限于本说明书中的具体细节、展示和示例。本文旨在保护落入本文所公开的优势概念的真实范围内的任何和所有修改和变化。

Claims (8)

1.一种其中包括计算机可读程序代码的非暂时性计算机可读介质,所述计算机可读程序代码适用于被执行以实现用于针对输入笔划的多个至少部分彼此叠覆的片段提供手写识别的方法,所述方法包括:
检测至少两个相继片段的输入笔划的相对位置,其中所述至少两个相继片段的输入笔划的相对位置是根据所述输入笔划的空间信息和时间信息两者来检测的,所述时间信息提供所述输入笔划的时间顺序的知识;
检测所述至少两个相继片段的输入笔划的几何图形;
根据检测到的相对位置确定输入笔划的多个分段的叠覆,并根据检测到的几何图形确定叠覆分段是否有可能形成字符;
基于所确定的可能的字符,对所述片段进行分类;以及
向识别引擎提供分类片段,以基于所述分类片段评估字符猜想,其中在所述识别引擎中,所述方法包括:
基于所述分类片段的笔划来创建分割图,其中所述分割图包括与字符猜想相对应的节点;
基于图案分类器向所述分割图中的每个节点分配识别分数;
基于所述识别分数和语言模型来生成所述输入笔划的语言学含义;以及
基于对所述分割图、所述识别分数和所述语言模型的同时分析来提供输出。
2.根据权利要求1所述的非暂时性计算机可读介质,其中所述输入笔划是经过预处理的,其中所述预处理包括对所述输入笔划至少进行归一化和平滑。
3.根据权利要求1所述的非暂时性计算机可读介质,其中,每个分类片段被定义为包含由一个或多个输入片段的输入笔划形成的完整字符。
4.根据权利要求1所述的非暂时性计算机可读介质,其中,所述分割图还包括与基于分类片段的字符猜想之间的空格猜想相对应的节点。
5.一种用于针对叠覆输入笔划提供手写识别的方法,所述方法包括:
检测至少两个相继片段的输入笔划的相对位置,其中所述至少两个相继片段的输入笔划的相对位置是根据所述输入笔划的空间信息和时间信息两者来检测的,所述时间信息提供所述输入笔划的时间顺序的知识;
检测所述至少两个相继片段的输入笔划的几何图形;
根据检测到的相对位置确定输入笔划的多个分段的叠覆,并根据检测到的几何图形确定叠覆分段是否有可能形成字符;
基于所确定的可能的字符,对所述片段进行分类;以及
向识别引擎提供分类片段,以基于所述分类片段评估字符猜想,其中在所述识别引擎中,所述方法包括:
基于所述分类片段的笔划来创建分割图,其中所述分割图包括与字符猜想相对应的节点;
基于图案分类器向所述分割图中的每个节点分配识别分数;
基于所述识别分数和语言模型来生成所述输入笔划的语言学含义;以及
基于对所述分割图、所述识别分数和所述语言模型的同时分析来提供输出。
6.根据权利要求5所述的方法,其中所述输入笔划是经过预处理的,其中所述预处理包括对所述输入笔划至少进行归一化和平滑。
7.根据权利要求5所述的方法,其中,每个分类片段被定义为包含由一个或多个输入片段的输入笔划形成的完整字符。
8.根据权利要求5所述的方法,其中,所述分割图还包括与基于分类片段的字符猜想之间的空格猜想相对应的节点。
CN201680028218.5A 2015-05-15 2016-05-13 叠覆手写的系统和方法 Active CN107912062B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15290129 2015-05-15
EP15290129.4 2015-05-15
PCT/EP2016/000799 WO2016184559A1 (en) 2015-05-15 2016-05-13 System and method for superimposed handwriting recognition technology

Publications (2)

Publication Number Publication Date
CN107912062A CN107912062A (zh) 2018-04-13
CN107912062B true CN107912062B (zh) 2021-02-23

Family

ID=53396392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680028218.5A Active CN107912062B (zh) 2015-05-15 2016-05-13 叠覆手写的系统和方法

Country Status (5)

Country Link
EP (1) EP3295292B1 (zh)
JP (1) JP6735775B2 (zh)
KR (1) KR102310385B1 (zh)
CN (1) CN107912062B (zh)
WO (1) WO2016184559A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10719701B2 (en) * 2018-04-25 2020-07-21 Accenture Global Solutions Limited Optical character recognition of connected characters
KR20240065997A (ko) * 2022-11-07 2024-05-14 삼성전자주식회사 필기 입력을 인식하는 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366151A (zh) * 2012-03-30 2013-10-23 佳能株式会社 手写字符识别方法以及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100703698B1 (ko) * 2005-02-16 2007-04-05 삼성전자주식회사 공간 필기 인식 장치 및 방법, 그리고 상기 방법을 기록한기록 매체
US8077975B2 (en) * 2008-02-26 2011-12-13 Microsoft Corporation Handwriting symbol recognition accuracy using speech input

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366151A (zh) * 2012-03-30 2013-10-23 佳能株式会社 手写字符识别方法以及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A two-stage online handwritten Chinese character segmentation algorithm based on dynamic programming;Xue Gao等;《EIGHT INTERNATIONAL PROCEEDINGS ON DOCUMENT ANALYSIS AND RECOGNITION》;20050901;全文 *
Learning-Based Candidate Segmentation Scoring for Real-Time Recognition of Online Overlaid Chinese Handwriting;Yan-Fei Lv等;《2013 12th International Conference on Document Analysis and Recognition》;20130828;摘要、第1-VI节 *
Overlapped handwriting input on mobile phones;Yanming Zou等;《2011 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》;20110921;全文 *

Also Published As

Publication number Publication date
EP3295292A1 (en) 2018-03-21
JP6735775B2 (ja) 2020-08-05
WO2016184559A1 (en) 2016-11-24
JP2018518755A (ja) 2018-07-12
KR102310385B1 (ko) 2021-10-07
KR20180030966A (ko) 2018-03-27
CN107912062A (zh) 2018-04-13
EP3295292B1 (en) 2020-09-02

Similar Documents

Publication Publication Date Title
US9911052B2 (en) System and method for superimposed handwriting recognition technology
US10007859B2 (en) System and method for superimposed handwriting recognition technology
JP5211334B2 (ja) 手書き記号の認識方法及び装置
EP3320482B1 (en) System for recognizing multiple object input and method and product for same
CN114402331A (zh) 在自由手写模式下处理文本手写输入
CN114365075A (zh) 用于选择图形对象的方法和对应装置
US11393231B2 (en) System and method for text line extraction
EP3491580B1 (en) System and method for beautifying superimposed digital ink
CN107912062B (zh) 叠覆手写的系统和方法
US20230096728A1 (en) System and method for text line and text block extraction
WO2006090404A1 (en) System, method, and apparatus for accomodating variability in chunking the sub-word units of online handwriting
WO2024110354A1 (en) Setting font size in an unconstrained canvas

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant