CN107219935A - 一种面向连续书写汉字的、支持交互的汉字输入系统及方法 - Google Patents
一种面向连续书写汉字的、支持交互的汉字输入系统及方法 Download PDFInfo
- Publication number
- CN107219935A CN107219935A CN201710380769.4A CN201710380769A CN107219935A CN 107219935 A CN107219935 A CN 107219935A CN 201710380769 A CN201710380769 A CN 201710380769A CN 107219935 A CN107219935 A CN 107219935A
- Authority
- CN
- China
- Prior art keywords
- stroke
- word
- candidate
- module
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Character Discrimination (AREA)
Abstract
一种面向连续书写汉字的、支持交互的汉字输入系统及方法,涉及一种汉字的输入系统及方法,为了解决现有技术存在输入功能受限、交互性低下和效率不高的问题。本系统包括:用于接收用户输入的笔画轨迹的输入模块;用于采集输入模块接收用户输入的笔画轨迹或者采集交互优化模块发送的错误笔画对应替换笔画的笔画轨迹,并按照采集密度采集笔画轨迹上点的采集模块;识别出笔画及笔画顺序并对构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串的识别模块;用于显示打分信息最高的候选字、连续字构成的字串的显示模块;用于监听用户对备选错误候选字、错误笔画的确认信息及反馈动作的交互优化模块。本发明适用于汉字的纠错及输入。
Description
技术领域
本发明涉及一种汉字的输入系统及方法。
背景技术
信息输入用户在以重叠或者连写方式连续书写多个汉字时,不同于用户进行单个汉字字符书写,书写时会出现“连笔”、“误笔”、“笔顺错误”等等这些不利于输入法系统识别字符的情况。
“连笔”,通常指前笔画最末坐标与后一笔画首坐标相连,此处定义为用户书写时将本应该书写为独立的两笔或者两笔以上的笔画以相连的一笔的方式书写的情况。“误笔”指本应该书写为这一笔画的却书写为了另一种笔画。“笔顺错误”指书写汉字时未按照统一规定的汉字的笔顺规则进行书写。
由于上述情况的存在,可能导致输入法输入识别模型提供的候选字符串中的部分字符并不是用户所想要的字符。因此,我们希望输入法能够通过局部的优化算法优化轨迹或者笔画的组合,或者通过用户的交互干扰进行优化选择,以获得想要的候选字符。尤其当用户以重叠或者连写方式连续书写很多数目的汉字时,如果在提交候选字之后利用光标选择并更改多处字符,过程尤为繁琐。如果只是通过用户简单的交互干预或者输入法系统的自动优化搜索,输入法就能够提供想要的候选字符,那么将有效节省用户输入的时间,并提升用户的输入体验。
目前的一些汉字手写输入系统在与用户进行交互时,存在明显的局限。当用户在书写汉字时,系统通过汉字识别模型对输入的汉字进行打分,然后呈现打分最高的汉字或者打分较高的几个汉字供用户进行选择,期望通过这种用户交互排除错误的汉字。但是目前所有的汉字手写输入系统或者输入方法均是以孤立汉字为单位的输入,这种输入方式针对于用户的“连笔”输入经常会出现错误,所以目前的手写输入系统及方法大多数都是只适用于于单个汉字的手写输入系统或方法。目前也有少数面向连续书写汉字的输入系统及方法,但是这种针对于连续书写的方法一旦出现一个汉字的输入识别错误经常会影响到其他输入汉字的识别。现有技术的缺点主要有以下几点:
第一,在输入轨迹层面,无法对于书写笔画进行干预,无法优化输入的轨迹或者笔画的组合,以获得更准确的候选字符。
第二,在识别层面,对于以重叠书写的方式连续书写多个汉字时会出现的“连笔”、“误笔”、“笔顺错误”等不利于输入法系统识别字符的情况未提供有效的纠正错误的方式。
第三,单纯的清除错误字这一干预方式较为单一,而且如果书写的字符数目长且需要修改的错处比较多,就会使得用户的书写量显著增加,使得用户书写的总用时显著增加。
发明内容
本发明为了解决现有技术存在的以下问题:
第一,在输入轨迹层面,无法对于书写笔画进行干预,无法优化输入的轨迹或者笔画的组合,以获得更准确的候选字符。
第二,在识别层面,对于以重叠书写的方式连续书写多个汉字时会出现的“连笔”、“误笔”、“笔顺错误”等不利于输入法系统识别字符的情况未提供有效的纠正错误的方式。
第三,单纯的清除错误字这一干预方式较为单一,而且如果书写的字符数目长且需要修改的错处比较多,就会使得用户的书写量显著增加,使得用户书写的总用时显著增加。
进而提出了一种面向连续书写汉字的、支持交互的汉字输入系统及方法。
一种面向连续书写汉字的、支持交互的汉字输入系统,包括:
输入模块,用于接收用户输入的笔画轨迹;
采集模块,用于采集输入模块接收用户输入的笔画轨迹,或者采集交互优化模块发送的错误笔画对应替换笔画的笔画轨迹;并按照采集密度采集笔画轨迹上的点,同时记录点的坐标;
识别模块,根据输入笔画轨迹对应采集得到的点的集合识别出对应的笔画及笔画顺序,或者根据替换笔画的笔画轨迹对应采集得的点的集合识别出对应的笔画,并将其替换错误笔画;并对笔画及笔画顺序能够构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串(即候选的连续书写的多个汉字),以及所有候选字的笔画和笔画顺序;
显示模块,用于显示打分信息最高的候选字、连续字构成的字串;
交互优化模块,用于监听错误候选字确认的信息,并将备选错误笔画按照笔画的顺序进行显示;同时监听用户对备选错误笔画中错误笔画的确认信息,以及对错误笔画的反馈动作并对反馈动作进行处理;所述的错误笔画的反馈动作包括错误笔画的替换、删除、合并反馈动作及添加笔画的反馈动作;
所述的备选错误笔画为错误候选字所对应的笔画,或者错误候选字及前若干个候选字所对应的笔画,或者错误候选字及其后若干个候选字所对应的笔画,或者错误候选字及其前若干个候选字、后若干个候选字所对应的笔画。
优选地,所述的采集模块包括:
轨迹采集子模块,用于采集用户输入的笔画轨迹;
点采集子模块,按照采点密度对笔画轨迹进行采点同时记录点的坐标。
优选地,所述的交互优化模块包括:
错误字确定子模块,用于对错误候选字进行确认,并将备选错误笔画按照笔画的顺序进行显示;
动作监听子模块,用于监听用户对备选错误笔画中错误笔画的确认信息,以及对错误笔画的反馈动作,错误笔画的反馈动作包括错误笔画的替换、删除、合并反馈动作及添加笔画的反馈动作;
优化执行子模块,用于对用户的反馈动作进行处理:
如果用户的反馈动作为修改和添加,则接收用户替换笔画或添加笔画的笔画轨迹,并发送给采集模块;后续在采集完毕后将采集结果发送给识别模块进行识别;
如果用户的反馈动作为删除和合并,则将删除笔画或合并笔画的笔画轨迹信息发送给识别模块。
优选地,所述输入模块能够接收用户设备输入的笔画轨迹(如鼠标移动输入)和/或用户的触控输入(如触摸或手指滑动)。
一种面向连续书写汉字的、支持交互的汉字输入方法,包括:
S101:输入模块接收用户输入的笔画轨迹;
S102:采集模块采集用户输入的笔画轨迹,按照采点密度对笔画轨迹进行采点同时记录点的坐标;
S103:识别模块根据输入笔画轨迹所对应采集得的点的集合,识别出对应的笔画及笔画顺序;并对笔画及笔画顺序能够构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串(即候选的连续书写的多个汉字),以及所有候选字的笔画和笔画顺序;
S104:显示模块显示打分信息最高的候选字、连续字构成的字串;
S105:用户根据显示模块显示的候选字或连续字构成的字串进行交互;
如果用户直接确认,则默认候选字或连续字构成的字串正确;
如果用户对显示候选字中的错误候选字进行确认,则启动交互优化模块;例如如果用户认为候选字不是目标字,就对其中的错误候选字进行点击操作;
S106:错误字确定子模块对错误候选字进行确认,并将备选错误笔画按照笔画的顺序进行显示;例如错误字确定子模块接收到了针对点击操作,然后确认出错误候选字对应的存储信息中的起始位置和结束位置以及对应的存储信息;
所述的备选错误笔画为错误候选字所对应的笔画,或者错误候选字及前若干个候选字所对应的笔画,或者错误候选字及其后若干个候选字所对应的笔画,或者错误候选字及其前若干个候选字、后若干个候选字所对应的笔画;显示备选错误笔画与错误候选字位置有关,例如错误候选字为输入的第一个字,则选择显示错误候选字所对应的笔画或者错误候选字及其后若干个候选字所对应的笔画;如果错误候选字为连续输入的最后一个字,则显示错误候选字所对应的笔画或者错误候选字及其前若干个候选字所对应的笔画;如果错误候选字为连续输入的中间字,则显示错误候选字所对应的笔画或者错误候选字及其前若干个候选字、后若干个候选字所对应的笔画。显示错误候选字及其前若干个候选字和/或后若干个候选字所对应的笔画与笔画出现错误的概率可能相关,也可以根据精度及屏幕大小进行选择,例如手机等便携终端则对应显示较少的备选错误笔画,如果是针对于PC机则可以适当的选择增加显示的备选错误笔画。
错误字确定子模块显示按照笔画顺序排列的备选错误笔画中,可能某个笔画书写错误,或者多了某个笔画,或者少了某个笔画,或者应该是一笔的笔画显示为多笔笔画;动作监听子模块监听用户对备选错误笔画中错误笔画的确认信息,以及对错误笔画的反馈动作,错误笔画的反馈动作包括错误笔画的替换、删除、合并反馈动作及添加笔画的反馈动作;
如果用户的反馈动作为修改和添加,优化执行子模块接收用户替换笔画或添加笔画的笔画轨迹,并发送给采集模块,后续在采集完毕后将采集结果发送给识别模块进行识别;如果用户的反馈动作为删除和合并,则将删除笔画或合并笔画的笔画轨迹信息发送给识别模块。
优选地,步骤S103中识别模块是根据点的坐标识别出笔画轨迹的笔画及笔画顺序;然后根据现有的汉字识别模型对笔画及笔画顺序能够构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序;
优选地,步骤S106所述的如果用户的反馈动作为修改和添加,优化执行子模块接收用户替换笔画或添加笔画的笔画轨迹,并发送给采集模块之后的处理过程包括以下步骤:
S1071:采集模块采集交互优化模块发送的错误笔画对应替换笔画或者添加笔画的笔画轨迹,按照采点密度对笔画轨迹进行采点同时记录点的坐标;
S1072:识别模块识别出笔画轨迹所对应替换笔画或添加笔画;并将替换笔画替换对应的错误笔画,或者将添加笔画添加到用户锁定的添加位置,重新构成的候选字及候选字串,并重新对构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序。
优选地,步骤S106所述的如果用户的反馈动作为删除和合并,则删除笔画或合并笔画的笔画轨迹发送给识别模块之后的处理过程包括以下步骤:
S1081:识别模块将删除笔画的信息删除,或者将合并笔画合并为一笔笔画,重新构成的候选字及候选字串,并重新对构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序。
优选地,步骤S102的具体过程如下:
轨迹采集子模块采集用户输入的笔画轨迹;
点采集子模块按照采点密度对笔画轨迹进行采点同时记录点的坐标。
本发明具有以下有益效果:
第一,在输入轨迹层面,对书写笔画进行干预,对于用户多写了的一笔或几笔的情况,可以进行笔画删除;对于用户少写了的一笔或几笔的,可以执行笔画插入。从而优化了输入笔画以获得更准确的候选字符。
第二,在识别层面,对于以重叠书写的方式连续书写多个汉字时会出现的“连笔”、“误笔”、“笔顺错误”等不利于输入法系统识别字符的情况,提供有效的纠错方式。对于本应该是两个笔画的误识别为一笔的,可以拆为两笔之后进行重新的局部识别;对于本应该归属于前一或者后一字符的一个或者几个笔画,可以进行笔画分组的重新分配,之后再进行重新的局部识别。
第三,在交互优化层面,基于对笔画的组合局部的重新分配后的识别,实现对候选字符串的优化;这种局部的搜索能有效减少用户的书写量,实现更高效的纠错,最终提高用户输入效率。在有效提高某个汉字的纠错效率的同时也避免了错误笔画导致一个汉字识别错误而影响到其他汉字笔画导致的其他汉字识别错误,能够进一步提高修改效率,提高用户输入效率。针对连续书写时存在一个错误字的修改情况,相比现有的逐个汉字的纠正,本发明的系统及方法能够将输入效率提高30%以上;尤其是针对连续书写出现的多个错误字的修改情况,本发明的输入效率更高。
附图说明
图1为具体实施方式一所述系统的结构示意图;
图2为具体实施方式五监听用户对一个错误字中错误笔画的确认信息及对错误笔画的反馈动作的示意图;
图3为具体实施方式五监听用户对两个错误字中错误笔画的确认信息及对错误笔画的反馈动作的示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,
一种面向连续书写汉字的、支持交互的汉字输入系统,包括:
输入模块U20,用于接收用户输入的笔画轨迹;
采集模块U21,用于采集输入模块U20接收用户输入的笔画轨迹,或者采集交互优化模块U24发送的错误笔画对应替换笔画的笔画轨迹;并按照采集密度采集笔画轨迹上的点,同时记录点的坐标;
识别模块U22,根据输入笔画轨迹对应采集得到的点的集合识别出对应的笔画及笔画顺序,或者根据替换笔画的笔画轨迹对应采集得的点的集合识别出对应的笔画,并将其替换错误笔画;并对笔画及笔画顺序能够构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串(即候选的连续书写的多个汉字),以及所有候选字的笔画和笔画顺序;
显示模块U23,用于显示打分信息最高的候选字、连续字构成的字串;
交互优化模块U24,用于监听错误候选字确认的信息,并将备选错误笔画按照笔画的顺序进行显示;同时监听用户对备选错误笔画中错误笔画的确认信息,以及对错误笔画的反馈动作并对反馈动作进行处理;所述的错误笔画的反馈动作包括错误笔画的替换、删除、合并反馈动作及添加笔画的反馈动作;
所述的备选错误笔画为错误候选字所对应的笔画,或者错误候选字及前若干个候选字所对应的笔画,或者错误候选字及其后若干个候选字所对应的笔画,或者错误候选字及其前若干个候选字、后若干个候选字所对应的笔画。
具体实施方式二:结合图1说明本实施方式,
本实施方式所述的采集模块U21包括:
轨迹采集子模块U211,用于采集用户输入的笔画轨迹;
点采集子模块U212,按照采点密度对笔画轨迹进行采点同时记录点的坐标。
其他模块和结构与具体实施方式一相同。
具体实施方式三:结合图1说明本实施方式,
本实施方式所述的交互优化模块U24包括:
错误字确定子模块U241,用于对错误候选字进行确认,并将备选错误笔画按照笔画的顺序进行显示;
动作监听子模块U242,用于监听用户对备选错误笔画中错误笔画的确认信息,以及对错误笔画的反馈动作,错误笔画的反馈动作包括错误笔画的替换、删除、合并反馈动作及添加笔画的反馈动作;
优化执行子模块U243,用于对用户的反馈动作进行处理:
如果用户的反馈动作为修改和添加,则接收用户替换笔画或添加笔画的笔画轨迹,并发送给采集模块U21;后续在采集完毕后将采集结果发送给识别模块U22进行识别;
如果用户的反馈动作为删除和合并,则将删除笔画或合并笔画的笔画轨迹信息发送给识别模块U22。
其他模块和结构与具体实施方式一或二相同。
具体实施方式四:
本实施方式所述输入模块U20能够接收用户设备输入的笔画轨迹(如鼠标移动输入)和/或用户的触控输入(如触摸或手指滑动)。
其他模块和结构与具体实施方式一至三之一相同。
具体实施方式五:
为了能够准确和清晰地描述本发明所述的方法,首先对部分技术概念进行进一步的文法定义,定义如下:
轨迹:T
笔画:S
点:P为三元组,形如(x,y,i)。其中x表示横坐标;y表示纵坐标;x,y为常数;i为结束标识,标识该点是否为一个笔画的结束,i=-1表示为一个笔画的结束,i≠-1表示不为一个笔画的结束。
数据结构:G=({(x,y,i)},{T,S,P},P,T)
生成式Q={T→S∣TS,S→P∣SP,P→(x,y,i)}
一种面向连续书写汉字的、支持交互的汉字输入方法,包括:
S101:输入模块U20接收用户输入的笔画轨迹;
在步骤S101中,终端系统通过人机界面或输入设备接收用户书写的一串有序的笔画轨迹,并将其存储方便后续的调用。用户在书写的时候系统在接收这些轨迹的同时会把它们绘画到屏幕上。比如Windows平台下可以利用MFC直接实现笔画轨迹的绘画及收集,Android平台下可以通过画布实现同样的功能。
S102:采集模块U21采集用户输入的笔画轨迹,按照采点密度对笔画轨迹进行采点同时记录点的坐标;
在步骤S102中,笔画轨迹收集完毕,后台调用程序方法按照指定采样频率或密度采集笔画上的点坐标,采集笔画轨迹上的点是指按照一定采集密度从笔画上取点,具体采集密度不指定,设定阀值即可;所述点包括横、纵坐标值及结束标识三类信息;原则上屏幕坐标建立方式不指定,处理时按照需要做相应转换即可。
S103:识别模块U22根据输入笔画轨迹所对应采集得的点的集合,识别出对应的笔画及笔画顺序;并对笔画及笔画顺序能够构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串(即候选的连续书写的多个汉字),以及所有候选字的笔画和笔画顺序;
在步骤S103中,终端系统通过人机界面并通过事先定好的方法或者接口获取识别结果并通过显示模块显示给用户。比如Windows平台下,可以在用户界面指定位置绘制前20个可能的候选字符构成的候选字串,同时可能也需要绘制所有被认为是单一笔画的原始笔画轨迹或者按照笔画分组按组绘制指定个数的笔画轨迹。在Android平台下可以通过获取系统输入法的服务提交指定个数候选字到候选框里。对于需要绘制的所有被认为是单一笔画的原始笔画轨迹或者需要按照笔画分组绘制的指定个数的笔画轨迹,可以通过画布绘制,有利于后续监听动作的执行及动作执行位置的获取。譬如绘制的每一张图片大小都是40x40的图片,所有图片在同一行绘制,原点(0,0)为屏幕左上角,则易知对于任何在区域(40,0)到(80,40)内的操作均属于对第二张图像的操作,由此可对应获得操作对象。
S104:显示模块U23显示打分信息最高的候选字、连续字构成的字串;
S105:用户根据显示模块U23显示的候选字或连续字构成的字串进行交互;
如果用户直接确认,则默认候选字或连续字构成的字串正确;
如果用户对显示候选字中的错误候选字进行确认,则启动交互优化模块U24;例如如果用户认为候选字不是目标字,就对其中的错误候选字进行点击操作;
S105中,所述干预指用户的操作,不同平台有不同操作方式,不指定。对于PC端来说,可以是“左键单击”、“左键双击”、“右键点击”、“拖拽”的动作,可拓展;对于智能手机或者平板电脑或者其他有触摸屏的终端设备来说,可以是“按下”、“放开”、“单击”、“双击”、“长按”、“拖动”、“缩放”等操作,可以拓展。
例如,“左键单击”用来确定待优化轨迹起始位置,“左键双击”用来确定待优化轨迹结束位置。“右键点击”或“长按”用来以切分开的笔画为单位展开指定书写的字符。“拖拽”选定的目标到不同区域执行修改、删除操作,如图2所示;操作方式可以拓展。在动作完成时,调用识别模块。
S106:错误字确定子模块U241对错误候选字进行确认,并将备选错误笔画按照笔画的顺序进行显示;例如错误字确定子模块U241接收到了针对点击操作,然后确认出错误候选字对应的存储信息中的起始位置和结束位置以及对应的存储信息;
所述的备选错误笔画为错误候选字所对应的笔画,或者错误候选字及前若干个候选字所对应的笔画,或者错误候选字及其后若干个候选字所对应的笔画,或者错误候选字及其前若干个候选字、后若干个候选字所对应的笔画;显示备选错误笔画与错误候选字位置有关,例如错误候选字为输入的第一个字,则选择显示错误候选字所对应的笔画或者错误候选字及其后若干个候选字所对应的笔画;如果错误候选字为连续输入的最后一个字,则显示错误候选字所对应的笔画或者错误候选字及其前若干个候选字所对应的笔画;如果错误候选字为连续输入的中间字,则显示错误候选字所对应的笔画或者错误候选字及其前若干个候选字、后若干个候选字所对应的笔画。显示错误候选字及其前若干个候选字和/或后若干个候选字所对应的笔画与笔画出现错误的概率可能相关,也可以根据精度及屏幕大小进行选择,例如手机等便携终端则对应显示较少的备选错误笔画,如果是针对于PC机则可以适当的选择增加显示的备选错误笔画。
错误字确定子模块U241显示按照笔画顺序排列的备选错误笔画中,可能某个笔画书写错误,或者多了某个笔画,或者少了某个笔画,或者应该是一笔的笔画显示为多笔笔画;
例如对于本方法所定义的笔画分组的修改,首先通过“右键点击”或者“长按”展开指定的书写的字,获取对于片段分组信息。通过单击指定待修改笔画分组的起始位置笔画分组片段[k],通过双击指定待修改笔画分组的结束位置笔画分组片段[k+j],提交以后合并为一个片段元素,之后对前后各一个汉字字符的所有片段合并,在此范围内进行局部的重新搜索识别。
动作监听子模块U242监听用户对备选错误笔画中错误笔画的确认信息,以及对错误笔画的反馈动作,错误笔画的反馈动作包括错误笔画的替换、删除、合并反馈动作及添加笔画的反馈动作;
如果用户的反馈动作为修改和添加,优化执行子模块U243接收用户替换笔画或添加笔画的笔画轨迹,并发送给采集模块U21,后续在采集完毕后将采集结果发送给识别模块U22进行识别;如果用户的反馈动作为删除和合并,则将删除笔画或合并笔画的笔画轨迹信息发送给识别模块U22。
对于监听用户动作的过程,对于Windows平台来说较为普遍的方式是监听鼠标的点击拖拽动作。比如进入交互优化模块后,用户本次书写的所有笔画轨迹中被识别模块认为最有可能是一个汉字构成笔画的轨迹依序排开,并通过连续的下划线标记从m号到n号(m<n)被识别模块认为最有可能是一个字的笔画,用户可以拖拽某位置的笔画对象到替换修改区域,之后在替换书写区域对笔画进行重新书写,最后双击“修改”区域提交识别模块从而获取新的识别结果候选字。比如对于想写“尤”字写成了“犬”字,则需要将第三笔的“竖弯钩”修改为“捺”。如图2所示,首先需要将第三笔的“竖弯钩”笔画对象拖拽到替换修改区域放开,然后在旧笔画对照下书写新笔画,最后双击“修改”区域提交识别模块从而获取新的识别结果候选字。此修改过程,后台对于数据结构的操作包括:书写新笔画时采点并加入new_points数组中,在new_strokes数组中加入对于新书写笔画的索引,在modify数组中对应被修改的stroke元素位置更新在new_strokes数组中开始位置的索引。此外可以拖拽某位置的笔画对象到删除区域再放开以执行删除操作。
基础数据结构,设计如下:
A.points数组:点(x,y,i)的序列,当一笔画结束时加入点(x,y,-1)。
B.strokes数组:笔画数组,记录(x,y,-1)在Points数组中的索引,即每一个笔画最后一笔的索引。
C.modify数组:数组元素与strokes数组一一对应,初始值为-1。若相应的stroke元素被删除,则标记修改为-2。若要在原笔画序列中增加笔画,则对应数值应该为一个自然数start,为插入的stroke元素在new_strokes数组中开始位置的索引。
D.new_strokes数组:从索引start开始到索引值为-1结束,为增加的笔画。
E.new_points数组:新增的points数组,用来存储新增的点,当一笔画结束时加入点(x,y,-1)。
F.片段数组:笔画的分组,识别器识别模型分类的多个概率较高的可能是汉字字符构成的笔画的分组,数个分组组合拼凑得出一个汉字。
对于笔画分组(片段)的干预,则需要先单击确定该分组起始位置的笔画对象和双击结束位置的笔画对象来确定新分组的起始和结束位置。比如书写汉字字串“ABCD一人EFG”(每个大写英语符号代表一个汉字),其中本来书写的字符中应该含有“一人”两个字,结果错误识别为了“大”字,则需要对原来的笔画分组(片段)进行修改,并进行局部的片段重新识别。如图3所示,首先在第二个笔画对象“撇”上单击以确定分组起始位置,然后在第三个笔画对象“捺”上双击确认分组结束位置,之后提交更改。此更改会将代表“大”的笔画分组(Si-1,Si,Si+1)修改为代表“一人”的两个笔画分组(Si-1)和(Si,Si+1)。此修改过程,在识别模块中,要对于由[修改起始位置处“一”字的前一个字符“D”的片段构成集合]+[“一人”两个字符修改所得的新的片段构成集合]+[修改结束位置处“人”字的后一个字符“E”的片段构成集合]组成的片段进行重新的搜索来获取局部的新的候选字符。对于字符D和E两侧片段之前的搜索结果不做修改和干预。
对于Android平台来说,通过触摸屏手指的操作可以达到和鼠标相同的效果。
本发明所述的系统及方法具有以下效果:
第一,在输入轨迹层面,对书写笔画进行干预,对于用户多写了的一笔或几笔的情况,可以进行笔画删除;对于用户少写了的一笔或几笔的,可以执行笔画插入。从而优化了输入笔画以获得更准确的候选字符。
第二,在识别层面,对于以重叠书写的方式连续书写多个汉字时会出现的“连笔”、“误笔”、“笔顺错误”等不利于输入法系统识别字符的情况,提供有效的纠错方式。对于本应该是两个笔画的误识别为一笔的,可以拆为两笔之后进行重新的局部识别;对于本应该归属于前一或者后一字符的一个或者几个笔画,可以进行笔画分组的重新分配,之后再进行重新的局部识别。
第三,在算法层面,基于对笔画的组合局部的重新分配后的搜索,实现对候选字符串的优化这种局部的搜索能有效减少用户的书写量,实现更高效的纠错,最终提高用户输入效率。针对连续书写时存在一个错误字的修改情况,的系统及方法能够将提高30%以上;尤其是针对连续书写出现的多个错误字的修改情况,本发明的更高。
第四,输入模块U20能够接收用户设备输入的笔画轨迹和/或用户的触控输入,提供了一种更简单简单、更加人性化、交互性更为良好的干预方式。
具体实施方式六:
本实施方式所述步骤S103中识别模块U22是根据点的坐标识别出笔画轨迹的笔画及笔画顺序;然后根据现有的或者自建的汉字识别模型对笔画及笔画顺序能够构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序。
其他模块和结构与具体实施方式五相同。
具体实施方式七:
本实施方式步骤S106所述的如果用户的反馈动作为修改和添加,优化执行子模块U242接收用户替换笔画或添加笔画的笔画轨迹,并发送给采集模块U21之后的处理过程包括以下步骤:
S1071:采集模块U21采集交互优化模块U24发送的错误笔画对应替换笔画或者添加笔画的笔画轨迹,按照采点密度对笔画轨迹进行采点同时记录点的坐标;
S1072:识别模块U22识别出笔画轨迹所对应替换笔画或添加笔画;并将替换笔画替换对应的错误笔画,或者将添加笔画添加到用户锁定的添加位置,重新构成的候选字及候选字串,并重新对构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序。
其他模块和结构与具体实施方式五或六相同。
具体实施方式八:
本实施方式步骤S106所述的如果用户的反馈动作为删除和合并,则删除笔画或合并笔画的笔画轨迹发送给识别模块U22之后的处理过程包括以下步骤:
S1081:识别模块U22将删除笔画的信息删除,或者将合并笔画合并为一笔笔画,重新构成的候选字及候选字串,并重新对构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序。
其他模块和结构与具体实施方式五至七之一相同。
具体实施方式九:
本实施方式步骤S102的具体过程如下:
轨迹采集子模块U211采集用户输入的笔画轨迹;
点采集子模块U212按照采点密度对笔画轨迹进行采点同时记录点的坐标。
其他模块和结构与具体实施方式五至八之一相同。
Claims (9)
1.一种面向连续书写汉字的、支持交互的汉字输入系统,其特征在于,包括:
输入模块(U20),用于接收用户输入的笔画轨迹;
采集模块(U21),用于采集输入模块(U20)接收用户输入的笔画轨迹,或者采集交互优化模块(U24)发送的错误笔画对应替换笔画的笔画轨迹;并按照采集密度采集笔画轨迹上的点,同时记录点的坐标;
识别模块(U22),根据输入笔画轨迹对应采集得到的点的集合识别出对应的笔画及笔画顺序,或者根据替换笔画的笔画轨迹对应采集得的点的集合识别出对应的笔画,并将其替换错误笔画;并对笔画及笔画顺序能够构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序;
显示模块(U23),用于显示打分信息最高的候选字、连续字构成的字串;
交互优化模块(U24),用于监听错误候选字确认的信息,并将备选错误笔画按照笔画的顺序进行显示;同时监听用户对备选错误笔画中错误笔画的确认信息,以及对错误笔画的反馈动作并对反馈动作进行处理;所述的错误笔画的反馈动作包括错误笔画的替换、删除、合并反馈动作及添加笔画的反馈动作;
所述的备选错误笔画为错误候选字所对应的笔画,或者错误候选字及前若干个候选字所对应的笔画,或者错误候选字及其后若干个候选字所对应的笔画,或者错误候选字及其前若干个候选字、后若干个候选字所对应的笔画。
2.根据权利要求1所述的一种面向连续书写汉字的、支持交互的汉字输入系统,其特征在于,所述的采集模块(U21)包括:
轨迹采集子模块(U211),用于采集用户输入的笔画轨迹;
点采集子模块(U212),按照采点密度对笔画轨迹进行采点同时记录点的坐标。
3.根据权利要求1或2所述的一种面向连续书写汉字的、支持交互的汉字输入系统,其特征在于,所述的交互优化模块(U24)包括:
错误字确定子模块(U241),用于对错误候选字进行确认,并将备选错误笔画按照笔画的顺序进行显示;
动作监听子模块(U242),用于监听用户对备选错误笔画中错误笔画的确认信息,以及对错误笔画的反馈动作,错误笔画的反馈动作包括错误笔画的替换、删除、合并反馈动作及添加笔画的反馈动作;
优化执行子模块(U243),用于对用户的反馈动作进行处理:
如果用户的反馈动作为修改和添加,则接收用户替换笔画或添加笔画的笔画轨迹,并发送给采集模块(U21);后续在采集完毕后将采集结果发送给识别模块(U22)进行识别;
如果用户的反馈动作为删除和合并,则将删除笔画或合并笔画的笔画轨迹信息发送给识别模块(U22)。
4.根据权利要求3所述的一种面向连续书写汉字的、支持交互的汉字输入系统,其特征在于,所述输入模块(U20)能够接收用户设备输入的笔画轨迹和/或用户的触控输入。
5.一种面向连续书写汉字的、支持交互的汉字输入方法,其特征在于,包括:
S101:输入模块(U20)接收用户输入的笔画轨迹;
S102:采集模块(U21)采集用户输入的笔画轨迹,按照采点密度对笔画轨迹进行采点同时记录点的坐标;
S103:识别模块(U22)根据输入笔画轨迹所对应采集得的点的集合,识别出对应的笔画及笔画顺序;并对笔画及笔画顺序能够构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序;
S104:显示模块(U23)显示打分信息最高的候选字、连续字构成的字串;
S105:用户根据显示模块(U23)显示的候选字或连续字构成的字串进行交互;
如果用户直接确认,则默认候选字或连续字构成的字串正确;
如果用户对显示候选字中的错误候选字进行确认,则启动交互优化模块(U24);
S106:错误字确定子模块(U241)对错误候选字进行确认,并将备选错误笔画按照笔画的顺序进行显示;
所述的备选错误笔画为错误候选字所对应的笔画,或者错误候选字及前若干个候选字所对应的笔画,或者错误候选字及其后若干个候选字所对应的笔画,或者错误候选字及其前若干个候选字、后若干个候选字所对应的笔画;
动作监听子模块(U242)监听用户对备选错误笔画中错误笔画的确认信息,以及对错误笔画的反馈动作,错误笔画的反馈动作包括错误笔画的替换、删除、合并反馈动作及添加笔画的反馈动作;
如果用户的反馈动作为修改和添加,优化执行子模块(U243)接收用户替换笔画或添加笔画的笔画轨迹,并发送给采集模块(U21),后续在采集完毕后将采集结果发送给识别模块(U22)进行识别;如果用户的反馈动作为删除和合并,则将删除笔画或合并笔画的笔画轨迹信息发送给识别模块(U22)。
6.根据权利要求5所述的一种面向连续书写汉字的、支持交互的汉字输入方法,其特征在于,步骤S103中识别模块(U22)是根据点的坐标识别出笔画轨迹的笔画及笔画顺序;然后对笔画及笔画顺序能够构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序。
7.根据权利要求6所述的一种面向连续书写汉字的、支持交互的汉字输入方法,其特征在于,步骤S106所述的如果用户的反馈动作为修改和添加,优化执行子模块(U242)接收用户替换笔画或添加笔画的笔画轨迹,并发送给采集模块(U21)之后的处理过程包括以下步骤:
S1071:采集模块(U21)采集交互优化模块(U24)发送的错误笔画对应替换笔画或者添加笔画的笔画轨迹,按照采点密度对笔画轨迹进行采点同时记录点的坐标;
S1072:识别模块(U22)识别出笔画轨迹所对应替换笔画或添加笔画;并将替换笔画替换对应的错误笔画,或者将添加笔画添加到用户锁定的添加位置,重新构成的候选字及候选字串,并重新对构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序。
8.根据权利要求6或7所述的一种面向连续书写汉字的、支持交互的汉字输入方法,其特征在于,步骤S106所述的如果用户的反馈动作为删除和合并,则删除笔画或合并笔画的笔画轨迹发送给识别模块(U22)之后的处理过程包括以下步骤:
S1081:识别模块(U22)将删除笔画的信息删除,或者将合并笔画合并为一笔笔画,重新构成的候选字及候选字串,并重新对构成的候选字及候选字串进行打分,记录打分信息最高的候选字、候选字串,以及所有候选字的笔画和笔画顺序。
9.根据权利要求8所述的一种面向连续书写汉字的、支持交互的汉字输入方法,其特征在于,步骤S102的具体过程如下:
轨迹采集子模块(U211)采集用户输入的笔画轨迹;
点采集子模块(U212)按照采点密度对笔画轨迹进行采点同时记录点的坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710380769.4A CN107219935B (zh) | 2017-05-25 | 2017-05-25 | 一种面向连续书写汉字的、支持交互的汉字输入系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710380769.4A CN107219935B (zh) | 2017-05-25 | 2017-05-25 | 一种面向连续书写汉字的、支持交互的汉字输入系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107219935A true CN107219935A (zh) | 2017-09-29 |
CN107219935B CN107219935B (zh) | 2021-03-02 |
Family
ID=59945162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710380769.4A Active CN107219935B (zh) | 2017-05-25 | 2017-05-25 | 一种面向连续书写汉字的、支持交互的汉字输入系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107219935B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108630030A (zh) * | 2018-06-27 | 2018-10-09 | 重庆工业职业技术学院 | 会计教学的演示设备以及会计教学的演示方法 |
CN110765966A (zh) * | 2019-10-30 | 2020-02-07 | 哈尔滨工业大学 | 一种面向手写文字的一阶段自动识别与翻译方法 |
CN111610946A (zh) * | 2020-05-26 | 2020-09-01 | 西安万像电子科技有限公司 | 数据处理方法、系统、装置、存储介质和处理器 |
TWI738146B (zh) * | 2019-12-10 | 2021-09-01 | 大陸商北京集創北方科技股份有限公司 | 字符識別方法及利用其之觸控模組 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1132089C (zh) * | 1996-02-20 | 2003-12-24 | 夏普公司 | 手写字符输入显示装置 |
CN102063620A (zh) * | 2010-12-31 | 2011-05-18 | 北京捷通华声语音技术有限公司 | 一种手写识别方法、系统及手写识别终端 |
CN102156577A (zh) * | 2011-03-28 | 2011-08-17 | 安徽科大讯飞信息科技股份有限公司 | 实现连续手写识别输入的方法及系统 |
CN102193707A (zh) * | 2010-03-03 | 2011-09-21 | 上海三旗通信科技有限公司 | 一种改进的手持设备上的手写多字输入法 |
CN103235697A (zh) * | 2013-04-12 | 2013-08-07 | 广东欧珀移动通信有限公司 | 一种手写输入方法及装置 |
CN103365446A (zh) * | 2012-03-28 | 2013-10-23 | 联想(北京)有限公司 | 一种手写输入方法及装置 |
CN104063176A (zh) * | 2014-06-25 | 2014-09-24 | 哈尔滨工业大学深圳研究生院 | 手写序列可编辑的连续手写输入方法与系统 |
US20150169950A1 (en) * | 2013-12-16 | 2015-06-18 | Google Inc. | Partial Overlap and Delayed Stroke Input Recognition |
-
2017
- 2017-05-25 CN CN201710380769.4A patent/CN107219935B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1132089C (zh) * | 1996-02-20 | 2003-12-24 | 夏普公司 | 手写字符输入显示装置 |
CN102193707A (zh) * | 2010-03-03 | 2011-09-21 | 上海三旗通信科技有限公司 | 一种改进的手持设备上的手写多字输入法 |
CN102063620A (zh) * | 2010-12-31 | 2011-05-18 | 北京捷通华声语音技术有限公司 | 一种手写识别方法、系统及手写识别终端 |
CN102156577A (zh) * | 2011-03-28 | 2011-08-17 | 安徽科大讯飞信息科技股份有限公司 | 实现连续手写识别输入的方法及系统 |
CN103365446A (zh) * | 2012-03-28 | 2013-10-23 | 联想(北京)有限公司 | 一种手写输入方法及装置 |
CN103235697A (zh) * | 2013-04-12 | 2013-08-07 | 广东欧珀移动通信有限公司 | 一种手写输入方法及装置 |
US20150169950A1 (en) * | 2013-12-16 | 2015-06-18 | Google Inc. | Partial Overlap and Delayed Stroke Input Recognition |
CN104063176A (zh) * | 2014-06-25 | 2014-09-24 | 哈尔滨工业大学深圳研究生院 | 手写序列可编辑的连续手写输入方法与系统 |
Non-Patent Citations (1)
Title |
---|
郑军: "一种面向字形分析的汉字输入输出处理系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108630030A (zh) * | 2018-06-27 | 2018-10-09 | 重庆工业职业技术学院 | 会计教学的演示设备以及会计教学的演示方法 |
CN110765966A (zh) * | 2019-10-30 | 2020-02-07 | 哈尔滨工业大学 | 一种面向手写文字的一阶段自动识别与翻译方法 |
CN110765966B (zh) * | 2019-10-30 | 2022-03-25 | 哈尔滨工业大学 | 一种面向手写文字的一阶段自动识别与翻译方法 |
TWI738146B (zh) * | 2019-12-10 | 2021-09-01 | 大陸商北京集創北方科技股份有限公司 | 字符識別方法及利用其之觸控模組 |
CN111610946A (zh) * | 2020-05-26 | 2020-09-01 | 西安万像电子科技有限公司 | 数据处理方法、系统、装置、存储介质和处理器 |
CN111610946B (zh) * | 2020-05-26 | 2024-03-05 | 西安万像电子科技有限公司 | 数据处理方法、系统、装置、存储介质和处理器 |
Also Published As
Publication number | Publication date |
---|---|
CN107219935B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103076892B (zh) | 一种用于提供输入字符串所对应的输入候选项的方法与设备 | |
CN107219935A (zh) | 一种面向连续书写汉字的、支持交互的汉字输入系统及方法 | |
CN102193736B (zh) | 支持多模式自动切换的输入方法和输入系统 | |
JP6126218B2 (ja) | 携帯式端末設備における摺接操作による入力補助制御のシステム及び方法 | |
US9323456B2 (en) | Multi-character continuous handwriting input method | |
US8023745B2 (en) | Systems, methods, and computer-readable media for fast neighborhood determinations in dynamic environments | |
CN109753636A (zh) | 机器处理及文本纠错方法和装置、计算设备以及存储介质 | |
CN102937864B (zh) | 一种用于在触摸终端上确定所选文本的方法与设备 | |
CN104424473A (zh) | 一种手绘草图识别和编辑的方法及装置 | |
CN104793724B (zh) | 空中书写处理方法及装置 | |
CN106325596B (zh) | 一种书写笔迹自动纠错方法及系统 | |
KR101394874B1 (ko) | 필기 기반으로 특정 기능을 실행하는 방법 및 그에 따른 디바이스 | |
CN103576886A (zh) | 一种数字双拼双笔输入法及其键盘方案 | |
CN102135838A (zh) | 分区输入手写字符串的方法和系统 | |
CN104063176A (zh) | 手写序列可编辑的连续手写输入方法与系统 | |
CN102968453A (zh) | 一种用于移动终端上的影视搜索方法 | |
CN1140282A (zh) | 信息处理方法和装置 | |
JPH0887378A (ja) | マウス動作認識によるコマンド実行方式 | |
CN103176651B (zh) | 一种手写信息快速采集方法 | |
CN107368205A (zh) | 一种手写输入方法及移动终端 | |
CN107066438A (zh) | 一种文本编辑方法及装置,电子设备 | |
CN102109960A (zh) | 基于具有触摸感应设备的汉字拼音快速输入方法和实现该方法的系统 | |
CN112035035B (zh) | 一种可擦除顶层局部区域笔画的橡皮擦实现方法及系统 | |
CN102945113A (zh) | 通过输入法对字符进行替换的方法及客户端 | |
CN105988595A (zh) | 滑行输入方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |