CN103197869B - 简繁体中文输入方法及装置 - Google Patents

简繁体中文输入方法及装置 Download PDF

Info

Publication number
CN103197869B
CN103197869B CN201210001862.7A CN201210001862A CN103197869B CN 103197869 B CN103197869 B CN 103197869B CN 201210001862 A CN201210001862 A CN 201210001862A CN 103197869 B CN103197869 B CN 103197869B
Authority
CN
China
Prior art keywords
candidate
simplified
traditional font
candidate word
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210001862.7A
Other languages
English (en)
Other versions
CN103197869A (zh
Inventor
邹明福
毕芳
郭育生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN201210001862.7A priority Critical patent/CN103197869B/zh
Publication of CN103197869A publication Critical patent/CN103197869A/zh
Application granted granted Critical
Publication of CN103197869B publication Critical patent/CN103197869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例公开了一种简繁体中文输入方法及装置。为了能够提高用户的输入效率,本发明提供的技术方案如下:获取用户的手写笔迹;根据所述手写笔迹,获取至少一个笔画几何块的特征;针对每个笔画几何块的特征,获取至少一个独立繁体候选单字和至少一个独立简体候选单字;根据所述独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,并根据所述独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分;根据繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。本发明适用于手写输入领域。

Description

简繁体中文输入方法及装置
技术领域
本发明涉及输入法领域,尤其涉及一种简繁体中文输入方法及装置。
背景技术
当前,大多采用键盘输入文字信息或者使用手写体识别技术输入文字。其中,手写体识别技术方法是通过设备将笔尖或是手指走过的轨迹按时间采样,将获取的采样点用手写识别算法识别后并将识别结果显示出来的一种输入法。由于这种输入法的易掌握性,使得其在汉字输入领域所占的比重越来越大。
当前系统默认的输入模式为简体中文时,用户输入的简体中文短句基本上能够识别正确。但是,如果用户输入的是繁体中文短句,此时识别系统能够输出正确候选的概率将会非常低。同理,系统默认的输入模式为繁体中文时,也将会出现类似的情况。因此,用户在进行简繁体混合的文本输入时,为了保障文字识别的准确性,需要在简体与繁体模式之间进行频繁的切换,导致文本的输入效率低。
发明内容
本发明的实施例提供一种简繁体中文输入方法及装置,能够提高用户的输入效率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种简繁体中文输入方法,包括:
获取用户的手写笔迹;
根据所述手写笔迹,获取至少一个笔画几何块的特征,其中,每个笔画几何块对应一个字符笔迹;
针对每个笔画几何块的特征,获取至少一个独立繁体候选单字和至少一个独立简体候选单字;
根据所述独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,并根据所述独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分;
根据繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。
一种简繁体中文输入装置,其特征在于,包括:
笔迹获取单元,用于获取用户的手写笔迹;
特征获取单元,用于根据所述笔迹获取单元获取的手写笔迹,获取至少一个笔画几何块的特征,其中,每个笔画几何块对应一个字符笔迹;
单字候选获取单元,用于针对所述特征获取单元获取的每个笔画几何块的特征,获取至少一个独立繁体候选单字和至少一个独立简体候选单字;
组合候选获取单元,用于根据所述单字候选获取单元获取的独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,并根据所述单字候选获取单元获取的独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分;
组合候选输出单元,用于根据所述组合候选获取单元获取的繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。
本发明实施例提供的一种简繁体中文输入方法及装置,通过根据获取的用户的手写笔迹,获取至少一个笔画几何块的特征,针对每个笔画几何块的特征,获取至少一个独立繁体候选单字和至少一个独立简体候选单字,根据所述独立繁体候选单字获取繁体候选字组合和对应的拼接得分,并根据所述独立简体候选单字获取简体候选字组合和对应的拼接得分,根据繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。因此,当用户在同一模式下的输入简体或繁体的中文短句时,能够提供可信度较高的识别首选,进而,在保障识别的准确率的前提下,用户无需进行简繁输入的切换操作,从而提高用户的输入效率,提高用户的使用体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种简繁体中文输入方法的流程示意图。
图2是本发明实施例提供的另一种简繁体中文输入方法的流程示意图。
图3是本发明实施例提供的一种简繁体中文输入装置的构成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了能够提高用户的输入效率,本发明实施例提供了一种简繁体中文输入方法,如图1所示,包括:
101、获取用户的手写笔迹。
在本发明实施例中,识别系统包含手写识别引擎、简体语言模型、繁体语言模型,其中所述手写识别引擎可以对输入的笔迹数据进行识别,得到简体或繁体字候选。另外,该识别系统还包含将已建立输入内容与候选内容相关联的候选关联模型。
举例而言,用户通过触屏终端的手写板或是触摸屏等装置进行简体或繁体的中文短句的输入。手写板或是触摸屏等装置对其进行笔迹的采集,并将采集结果发送给识别系统。
102、根据所述手写笔迹,获取至少一个笔画几何块的特征。
举例而言,识别系统根据接收的手写笔迹,获取至少一个笔画几何块,每个笔画几何块对应一个字符笔迹,并分别获取各个笔画几何块所对应的笔画几何块的特征。
103、针对每个笔画几何块的特征,调用预置的手写识别引擎,获取至少一个独立繁体候选单字和至少一个独立简体候选单字。
举例而言,识别系统对每一个笔画几何块的特征进行匹配识别,分别获取与各个笔画几何块的特征对应的至少一个独立繁体候选单字和至少一个独立简体候选单字。
104、根据所述至少一个独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,并根据所述至少一个独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分。
举例而言,识别系统获取由所述独立繁体候选单字构成的繁体候选字组合,并根据预先设定的计分规则和所述繁体候选字组合,获取与所述繁体候选字组合对应的拼接得分。并且,识别系统也获取由所述独立简体候选单字构成的简体候选字组合,并根据预先设定的计分规则和所述简体候选字组合,获取与所述简体候选字组合对应的拼接得分。
另外,识别系统还可以将前次的输入内容所对应的字符集类型进行保存,例如,可以设置一个字符标志位,当该字符标志位为0时,表示前次输入内容所对应的字符集类型为繁体,当该字符标志位为1时,表示前次输入内容所对应的字符集类型为简体。
识别系统可以在确定前次输入内容为繁体时,降低当前的繁体候选字组合所对应的拼接得分,以提高繁体候选字组合的识别可信度,或者,可以在确定前次输入内容为简体时,降低当前的简体候选字组合所对应的拼接得分,以提高简体候选字组合的识别可信度。
例如,可以在确定前次输入内容为繁体时,将所述繁体候选字组合所对应的拼接得分减去规定数量,该运算结果为最终的所述繁体候选字组合所对应的拼接得分,对所述简体候选字组合所对应的拼接积分不做修改。而在确定前次输入内容为简体时,将所述简体候选字组合所对应的拼接得分减去规定数量,该运算结果为最终的所述简体候选字组合所对应的拼接得分,对所述繁体候选字组合所对应的拼接积分不做修改。
或者,也可以在确定前次输入内容为繁体时,将当前的所述繁体候选字组合所对应的拼接得分乘以一个小于1的值,该运算结果为最终的当前的所述繁体候选字组合所对应的拼接得分,对当前的所述简体候选字组合所对应的拼接积分不做修改。而在确定前次输入内容为简体时,将当前的所述简体候选字组合所对应的拼接得分乘以一个小于1的值,该运算结果为最终的所述当前的简体候选字组合所对应的拼接得分,对当前的所述繁体候选字组合所对应的拼接积分不做修改。
105、根据繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。
举例而言,识别系统确定当前的繁体候选字组合中拼接得分最低的繁体候选字组合,将所述拼接得分最低的繁体候选字组合作为最优繁体候选组合。并且,识别系统确定所述简体候选字组合中拼接得分最低的简体候选字组合,将所述拼接得分最低的简体候选字组合作为最优简体候选组合。
识别系统在确定所述最优繁体候选组合的拼接得分比所述最优简体候选组合低时,将所述最优繁体候选组合作为首选候选进行输出,将所述最优简体候选组合作为次选候选进行输出。然后,可以根据拼接得分按照升序输出其余的繁体候选字组合,并在输出上述其余的繁体候选字组合后,根据拼接得分按照升序输出其余的简体候选字组合。或者,也根据拼接得分按照升序混合输出其余的繁体候选字组合和简体候选字组合。
识别系统在确定所述最优简体候选组合的拼接得分比所述最优繁体候选组合低时,将所述最优简体候选组合作为首选候选进行输出,将所述最优繁体候选组合作为次选候选进行输出。然后,可以根据拼接得分按照升序输出其余的简体候选字组合,并在输出上述其余的简体候选字组合后,根据拼接得分按照升序输出其余的繁体候选字组合。或者,也可以根据拼接得分按照升序混合输出其余的繁体候选字组合和简体候选字组合。
本实施例提供的一种简繁体中文输入方法,通过根据获取的用户的手写笔迹,获取至少一个笔画几何块的特征,针对每个笔画几何块的特征,获取至少一个独立繁体候选单字和至少一个独立简体候选单字,根据所述独立繁体候选单字获取繁体候选字组合和对应的拼接得分,并根据所述独立简体候选单字获取简体候选字组合和对应的拼接得分,根据繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。因此,当用户在同一模式下的输入简体或繁体的中文短句时,能够提供可信度较高的识别首选,进而,在保障识别的准确率的前提下,用户无需进行简繁输入的切换操作,从而提高用户的输入效率,提高用户的使用体验。
下面,对上一实施例作进一步具体详细的描述。
如图2所示,本实施例简繁体中文输入方法,包括:
201、获取用户的书写内容的书写笔迹。
举例而言,用户通过触屏终端的手写板或是触摸屏等装置进行简体或繁体的中文短句的输入。手写板或是触摸屏等装置对其进行笔迹的采集,并将采集结果发送给识别系统。
202、根据获取的手写笔迹,获取至少一个笔画几何块。
举例而言,识别系统根据采集的笔迹数据,将输入的短句分割成多个笔画几何块。例如,识别从短句的笔迹数据中提取所有笔画,并将每个笔画初始化为相应的笔画块;通过合并水平投影重叠的笔画块,将多个笔画块合并成至少一个笔画几何块,一个笔画几何块代表一个输入的字符的笔迹。
203、分别获取每个笔画几何块对应的笔画几何块的特征。
举例而言,识别系统分别提取每个笔画几何块的特征,即笔画几何块的特征。该笔画几何块的特征主要包括高宽比、笔画数、笔迹点密度等。
204、针对每个笔画几何块的特征,获取至少一个独立繁体候选单字和至少一个独立简体候选单字。
举例而言,识别系统对每个笔画几何块的特征进行识别,获取每个笔画几何块的特征所对应的独立简体候选单字和独立繁体候选单字。例如,识别系统将每个提取出的笔画几何块的特征分别与简体标准模板和繁体标准模块进行匹配,得到对应的至少一个独立繁体候选单字和至少一个独立简体候选单字。
205、根据所述独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,并根据所述独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分。
在本实施例中,候选字组合的拼接得分越低,则其识别可信度越高。
举例而言,识别系统中,繁体语言模型将独立繁体候选单字进行拼接,得到繁体候选字组合,并提供与所述繁体候选字组合对应的拼接得分,简体语言模型将独立简体候选单字进行拼接,得到简体候选字组合,并提供与所述简体候选字组合对应的拼接得分。例如,繁体语言模型和简体语言模型可以根据单字拼接后的使用概率设定拼接得分,使用概率越高则拼接得分越小。
另外,识别系统还可以保存用户在此短句输入前所选择的字符识别候选的字符集类型,并将本次从语言模型中输出的结果与保存的前次输入的字符识别候选的字符集类型建立联系。例如,若前次内容的字符集类型为简体,则将简体候选字组合的拼接得分乘以一个小于1的值,降低所述简体候选字组合的拼接得分,以提高该识别候选为简体的可信度,对繁体候选字组合的拼接得分不作任何处理。若前次内容的字符集类型为繁体,则将繁体候选字组合的拼接得分乘以一个小于1的值,如0.9,需要根据实际经验确定,降低所述繁体候选字组合的拼接得分,以提高识别候选为繁体的可信度,对简体候选字组合的拼接得分不作任何处理。
206、根据繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。
举例而言,识别系统将独立简体候选单字或独立繁体候选单字拼接成短语后,按照识别可信度由高到低,即得分由低到高的顺序依次排列,进行输出。例如,可以将简体候选字组合和繁体候选字组合中拼接得分最低的候选字组合设为首选候选,并将与该首选候选属于不同字符集的得分最低的候选字组合设为次选候选。并且,关于第三候选及其以后的候选,可以按照得分的大小先排与首选具有相同字符集类型的候选字组合,排完与首选候选具有相同字符集类型的候选字组合后,按照得分的大小排与次选候选具有相同字符集类型的候选字组合。另外,关于第三候选及其以后的候选,也可以按照得分的大小对两种字符集对应的识别候选混合排列。
具体可以为:假设所有的简体候选字组合和繁体候选字组合中拼接得分最低的为繁体候选字组合时,该得分最低的繁体候选字组合将会作为整体识别结果的首选候选进行输出,而次选候选为所有的简体候选字组合中的得分最低(可信度最高)的简体候选字组合。关于第三候选及其之后的候选,根据拼接得分按照升序输出其余的繁体候选字组合,在输出上述其余的繁体候选字组合后,根据拼接得分按照升序输出其余的简体候选字组合,或者,根据拼接得分按照升序输出其余的繁体候选字组合和简体候选字组合的混合候选。同理,如果所有的简体候选字组合和繁体候选字组合中拼接得分最低的为简体候选字组合,则首选候选为拼接得分最低的简体候选字组合。次选候选为拼接得分最低的繁体候选字组合。
例如,如果当前输入是第一次输入,将会按照由默认的规则获得的拼接得分进行候选的排序。将计算的所有的简体候选字组合和繁体候选字组合的拼接得分,并进行排序,按照该排序输出候选。这样可大大提高首选的正确率。其中,排序结果可以如下表所示。
候选词 得分
結合 9876
结合 11772
結台 11985
結含 12690
结台 13751
如果当前输入并非第一次输入,将会结合之前确认选择的字符集类型,对由默认的规则获得的拼接得分进行相应的调整。假设用户在此之前选择了“城鄉”一词,属于繁体中文字符集。因此,识别系统根据公式NewScore=0.9*Score′重新计算所有繁体候选字组合的拼接得分。其中,NewScore指新的拼接得分,Score′指与之前确认选择的字符属于同一简体或是繁体字符集的候选短句的由默认的规则获得的拼接得分。计算后,排序结果可以如下表所示。
候选词 得分
結合 8888
結台 10786
結合 11421
结合 11772
结台 13751
本实施例提供的一种简繁体中文输入方法,通过根据获取的用户的手写笔迹,获取至少一个笔画几何块的特征,针对每个笔画几何块的特征,获取至少一个独立繁体候选单字和至少一个独立简体候选单字,根据所述独立繁体候选单字获取繁体候选字组合和对应的拼接得分,并根据所述独立简体候选单字获取简体候选字组合和对应的拼接得分,根据繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。因此,当用户在同一模式下的输入简体或繁体的中文短句时,能够提供可信度较高的识别首选,进而,在保障识别的准确率的前提下,用户无需进行简繁输入的切换操作,从而提高用户的输入效率,提高用户的使用体验。
与上述方法相对应地,本发明实施例还提供了一种简繁体中文输入装置,如图3所示,包括:
笔迹获取单元301,用于获取用户的手写笔迹;
特征获取单元302,用于根据所述笔迹获取单元301获取的手写笔迹,获取至少一个笔画几何块的特征,其中,每个笔画几何块对应一个字符笔迹;
单字候选获取单元303,用于针对所述特征获取单元302获取的每个笔画几何块的特征,获取至少一个独立繁体候选单字和至少一个独立简体候选单字;
组合候选获取单元304,用于根据所述单字候选获取单元303获取的独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,以及根据所述单字候选获取单元303获取的独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分;
组合候选输出单元305,用于根据所述组合候选获取单元304获取的繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。
进一步地,所述特征获取单元302包括:
笔画块获取子单元,用于根据所述笔迹获取单元301获取的手写笔迹,获取至少一个笔画几何块;
特征获取子单元,用于获取与所述笔画块获取子单元获取的笔画几何块对应的笔画几何块的特征。
进一步地,所述组合候选获取单元304包括:
组合候选获取子单元,用于获取由所述独立繁体候选单字构成的繁体候选字组合,获取由所述独立简体候选单字构成的简体候选字组合;
得分获取子单元,用于根据预先设定的计分规则和所述繁体候选字组合,获取与所述繁体候选字组合对应的拼接得分;以及根据预先设定的计分规则和所述简体候选字组合,获取与所述简体候选字组合对应的拼接得分。
进一步地,所述组合候选获取单元304还包括:
得分调整子单元,用于在确定前次输入的字符识别候选为繁体时,降低所述繁体候选字组合所对应的拼接得分,以提高识别候选为繁体的可信度,或者,在确定前次输入的字符识别候选为简体时,降低所述简体候选字组合所对应的拼接得分,以提高识别候选为简体的可信度。
进一步地,所述组合候选输出单元305包括:
最优繁体确定子单元,用于确定所述繁体候选字组合中拼接得分最低的繁体候选字组合,将所述拼接得分最低的繁体候选字组合作为最优繁体候选组合;
最优简体确定子单元,用于确定所述简体候选字组合中拼接得分最低的简体候选字组合,将所述拼接得分最低的简体候选字组合作为最优简体候选组合;
候选输出子单元,用于在所述最优繁体候选组合的拼接得分比所述最优简体候选组合低时,将所述最优繁体候选组合作为首选候选进行输出,将所述最优简体候选组合作为次选候选进行输出,根据拼接得分按照升序输出其余的繁体候选字组合,在输出上述其余的繁体候选字组合,然后,根据拼接得分按照输出其余的简体候选字组合;或者,
在所述最优简体候选组合的拼接得分比所述最优繁体候选组合低时,将所述最优简体候选组合作为首选候选进行输出,将所述最优繁体候选组合作为次选候选进行输出,根据拼接得分按照升序输出其余的简体候选字组合,在输出上述其余的简体候选字组合,然后,根据拼接得分按照升序输出其余的繁体候选字组合。
或者,所述组合候选输出单元305包括:
最优繁体确定子单元,用于确定所述繁体候选字组合中拼接得分最低的繁体候选字组合,将所述拼接得分最低的繁体候选字组合作为最优繁体候选组合;
最优简体确定子单元,用于确定所述简体候选字组合中拼接得分最低的简体候选字组合,将所述拼接得分最低的简体候选字组合作为最优简体候选组合;
候选输出子单元,用于在所述最优繁体候选组合的拼接得分比所述最优简体候选组合低时,将所述最优繁体候选组合作为首选候选进行输出,将所述最优简体候选组合作为次选候选进行输出,根据拼接得分按照升序输出其余的繁体候选字组合和简体候选字组合;或者,
在所述最优简体候选组合的拼接得分比所述最优繁体候选组合低时,将所述最优简体候选组合作为首选候选进行输出,将所述最优繁体候选组合作为次选候选进行输出,根据拼接得分按照升序混合输出其余的繁体候选字组合和简体候选字组合。
本实施例的简繁体中文输入装置的工作方式具体参照上文所述的方法,在此不再赘述。
本实施例提供的一种简繁体中文输入装置,通过根据获取的用户的手写笔迹,获取至少一个笔画几何块的特征,针对每个笔画几何块的特征,获取至少一个独立繁体候选单字和至少一个独立简体候选单字,根据所述独立繁体候选单字获取繁体候选字组合和对应的拼接得分,并根据所述独立简体候选单字获取简体候选字组合和对应的拼接得分,根据繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合。因此,当用户在同一模式下的输入简体或繁体的中文短句时,能够提供可信度较高的识别首选,进而,在保障识别的准确率的前提下,用户无需进行简繁输入的切换操作,从而提高用户的输入效率,提高用户的使用体验。
具体实施时,根据识别核心和语言模型的不同,识别得分和拼接得分也可能越高时,其识别可信度越高。本发明中的拼接得分的高、低不应理解为对技术方案的保护范围的限定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (16)

1.一种简繁体中文输入方法,其特征在于,包括:
获取用户的手写笔迹;
根据所述手写笔迹,获取至少一个笔画几何块的特征,其中,每个笔画几何块对应一个字符笔迹;
将每个笔画几何块的特征分别与简体标准模板和繁体标准模块进行匹配,获取对应的至少一个独立繁体候选单字和至少一个独立简体候选单字;
根据所述独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,以及,根据所述独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分;
确定所述繁体候选字组合中拼接得分最低的繁体候选字组合,将所述拼接得分最低的繁体候选字组合作为最优繁体候选组合;
确定所述简体候选字组合中拼接得分最低的简体候选字组合,将所述拼接得分最低的简体候选字组合作为最优简体候选组合;
在所述最优繁体候选组合的拼接得分比所述最优简体候选组合低时,将所述最优繁体候选组合作为首选候选进行输出,将所述最优简体候选组合作为次选候选进行输出,根据拼接得分按照升序输出其余的繁体候选字组合,然后,根据拼接得分按照升序输出其余的简体候选字组合;或者,
在所述最优简体候选组合的拼接得分比所述最优繁体候选组合低时,将所述最优简体候选组合作为首选候选进行输出,将所述最优繁体候选组合作为次选候选进行输出,根据拼接得分按照升序输出其余的简体候选字组合,然后,根据拼接得分按照升序输出其余的繁体候选字组合。
2.根据权利要求1所述的方法,其特征在于,所述根据所述手写笔迹,获取至少一个笔画几何块的特征包括:
根据所述手写笔迹,获取至少一个笔画几何块;
获取与所述笔画几何块对应的笔画几何块的特征。
3.根据权利要求1所述的方法,其特征在于,所述根据所述独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,以及,根据所述独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分包括:
获取由所述独立繁体候选单字构成的繁体候选字组合,并根据预先设定的计分规则和所述繁体候选字组合,获取与所述繁体候选字组合对应的拼接得分;
获取由所述独立简体候选单字构成的简体候选字组合,并根据预先设定的计分规则和所述简体候选字组合,获取与所述简体候选字组合对应的拼接得分。
4.根据权利要求3所述的方法,其特征在于,所述根据所述独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,以及,根据所述独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分还包括:
在确定前次输入的字符识别候选为繁体时,降低所述繁体候选字组合所对应的拼接得分,以提高该候选字组合为繁体的可信度,或者,在确定前次输入的字符识别候选为简体时,降低所述简体候选字组合所对应的拼接得分,以提高所述简体候选字组合为简体的可信度。
5.一种简繁体中文输入方法,其特征在于,包括:
获取用户的手写笔迹;
根据所述手写笔迹,获取至少一个笔画几何块的特征,其中,每个笔画几何块对应一个字符笔迹;
将每个笔画几何块的特征分别与简体标准模板和繁体标准模块进行匹配,获取对应的至少一个独立繁体候选单字和至少一个独立简体候选单字;
根据所述独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,以及,根据所述独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分;
确定所述繁体候选字组合中拼接得分最低的繁体候选字组合,将所述拼接得分最低的繁体候选字组合作为最优繁体候选组合;
确定所述简体候选字组合中拼接得分最低的简体候选字组合,将所述拼接得分最低的简体候选字组合作为最优简体候选组合;
在所述最优繁体候选组合的拼接得分比所述最优简体候选组合低时,将所述最优繁体候选组合作为首选候选进行输出,将所述最优简体候选组合作为次选候选进行输出,根据拼接得分按照升序混合输出其余的繁体候选字组合和简体候选字组合;或者,
在所述最优简体候选组合的拼接得分比所述最优繁体候选组合低时,将所述最优简体候选组合作为首选候选进行输出,将所述最优繁体候选组合作为次选候选进行输出,根据拼接得分按照升序混合输出其余的繁体候选字组合和简体候选字组合。
6.根据权利要求5所述的方法,其特征在于,所述根据所述手写笔迹,获取至少一个笔画几何块的特征包括:
根据所述手写笔迹,获取至少一个笔画几何块;
获取与所述笔画几何块对应的笔画几何块的特征。
7.根据权利要求5所述的方法,其特征在于,所述根据所述独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,以及,根据所述独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分包括:
获取由所述独立繁体候选单字构成的繁体候选字组合,并根据预先设定的计分规则和所述繁体候选字组合,获取与所述繁体候选字组合对应的拼接得分;
获取由所述独立简体候选单字构成的简体候选字组合,并根据预先设定的计分规则和所述简体候选字组合,获取与所述简体候选字组合对应的拼接得分。
8.根据权利要求7所述的方法,其特征在于,所述根据所述独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,以及,根据所述独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分还包括:
在确定前次输入的字符识别候选为繁体时,降低所述繁体候选字组合所对应的拼接得分,以提高该候选字组合为繁体的可信度,或者,在确定前次输入的字符识别候选为简体时,降低所述简体候选字组合所对应的拼接得分,以提高所述简体候选字组合为简体的可信度。
9.一种简繁体中文输入装置,其特征在于,包括:
笔迹获取单元,用于获取用户的手写笔迹;
特征获取单元,用于根据所述笔迹获取单元获取的手写笔迹,获取至少一个笔画几何块的特征,其中,每个笔画几何块对应一个字符笔迹;
单字候选获取单元,用于将所述特征获取单元获取的每个笔画几何块的特征分别与简体标准模板和繁体标准模块进行匹配,获取对应的至少一个独立繁体候选单字和至少一个独立简体候选单字;
组合候选获取单元,用于根据所述单字候选获取单元获取的独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,以及根据所述单字候选获取单元获取的独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分;
组合候选输出单元,用于根据所述组合候选获取单元获取的繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合;
所述组合候选输出单元包括:
最优繁体确定子单元,用于确定所述繁体候选字组合中拼接得分最低的繁体候选字组合,将所述拼接得分最低的繁体候选字组合作为最优繁体候选组合;
最优简体确定子单元,用于确定所述简体候选字组合中拼接得分最低的简体候选字组合,将所述拼接得分最低的简体候选字组合作为最优简体候选组合;
候选输出子单元,用于在所述最优繁体候选组合的拼接得分比所述最优简体候选组合低时,将所述最优繁体候选组合作为首选候选进行输出,将所述最优简体候选组合作为次选候选进行输出,根据拼接得分按照升序输出其余的繁体候选字组合,然后,根据拼接得分按照升序输出其余的简体候选字组合;或者,
在所述最优简体候选组合的拼接得分比所述最优繁体候选组合低时,将所述最优简体候选组合作为首选候选进行输出,将所述最优繁体候选组合作为次选候选进行输出,根据拼接得分按照升序输出其余的简体候选字组合,然后,根据拼接得分按照升序输出其余的繁体候选字组合。
10.根据权利要求9所述的装置,其特征在于,所述特征获取单元包括:
笔画块获取子单元,用于根据所述笔迹获取单元获取的手写笔迹,获取至少一个笔画几何块;
特征获取子单元,用于获取与所述笔画块获取子单元获取的笔画几何块对应的笔画几何块的特征。
11.根据权利要求9所述的装置,其特征在于,所述组合候选获取单元包括:
组合候选获取子单元,用于获取由所述独立繁体候选单字构成的繁体候选字组合,获取由所述独立简体候选单字构成的简体候选字组合;
得分获取子单元,用于根据预先设定的计分规则和所述繁体候选字组合,获取与所述繁体候选字组合对应的拼接得分,以及根据预先设定的计分规则和所述简体候选字组合,获取与所述简体候选字组合对应的拼接得分。
12.根据权利要求11所述的装置,其特征在于,所述组合候选获取单元还包括:
得分调整子单元,用于在确定前次输入的字符识别候选为繁体时,降低所述繁体候选字组合所对应的拼接得分,以提高所述繁体候选字组合为繁体的可信度,或者,在确定前次输入的字符识别候选为简体时,降低所述简体候选字组合所对应的拼接得分,以提高所述简体候选字组合为简体的可信度。
13.一种简繁体中文输入装置,其特征在于,包括:
笔迹获取单元,用于获取用户的手写笔迹;
特征获取单元,用于根据所述笔迹获取单元获取的手写笔迹,获取至少一个笔画几何块的特征,其中,每个笔画几何块对应一个字符笔迹;
单字候选获取单元,用于将所述特征获取单元获取的每个笔画几何块的特征分别与简体标准模板和繁体标准模块进行匹配,获取对应的至少一个独立繁体候选单字和至少一个独立简体候选单字;
组合候选获取单元,用于根据所述单字候选获取单元获取的独立繁体候选单字,获取繁体候选字组合和与所述繁体候选字组合对应的拼接得分,以及根据所述单字候选获取单元获取的独立简体候选单字,获取简体候选字组合和与所述简体候选字组合对应的拼接得分;
组合候选输出单元,用于根据所述组合候选获取单元获取的繁体候选字组合,简体候选字组合以及对应的拼接得分,输出所述繁体候选字组合和简体候选字组合;
所述组合候选输出单元包括:
最优繁体确定子单元,用于确定所述繁体候选字组合中拼接得分最低的繁体候选字组合,将所述拼接得分最低的繁体候选字组合作为最优繁体候选组合;
最优简体确定子单元,用于确定所述简体候选字组合中拼接得分最低的简体候选字组合,将所述拼接得分最低的简体候选字组合作为最优简体候选组合;
候选输出子单元,用于在所述最优繁体候选组合的拼接得分比所述最优简体候选组合低时,将所述最优繁体候选组合作为首选候选进行输出,将所述最优简体候选组合作为次选候选进行输出,根据拼接得分按照升序混合输出其余的繁体候选字组合和简体候选字组合;或者,
在所述最优简体候选组合的拼接得分比所述最优繁体候选组合低时,将所述最优简体候选组合作为首选候选进行输出,将所述最优繁体候选组合作为次选候选进行输出,根据拼接得分按照升序混合输出其余的繁体候选字组合和简体候选字组合。
14.根据权利要求13所述的装置,其特征在于,所述特征获取单元包括:
笔画块获取子单元,用于根据所述笔迹获取单元获取的手写笔迹,获取至少一个笔画几何块;
特征获取子单元,用于获取与所述笔画块获取子单元获取的笔画几何块对应的笔画几何块的特征。
15.根据权利要求13所述的装置,其特征在于,所述组合候选获取单元包括:
组合候选获取子单元,用于获取由所述独立繁体候选单字构成的繁体候选字组合,获取由所述独立简体候选单字构成的简体候选字组合;
得分获取子单元,用于根据预先设定的计分规则和所述繁体候选字组合,获取与所述繁体候选字组合对应的拼接得分,以及根据预先设定的计分规则和所述简体候选字组合,获取与所述简体候选字组合对应的拼接得分。
16.根据权利要求15所述的装置,其特征在于,所述组合候选获取单元还包括:
得分调整子单元,用于在确定前次输入的字符识别候选为繁体时,降低所述繁体候选字组合所对应的拼接得分,以提高所述繁体候选字组合为繁体的可信度,或者,在确定前次输入的字符识别候选为简体时,降低所述简体候选字组合所对应的拼接得分,以提高所述简体候选字组合为简体的可信度。
CN201210001862.7A 2012-01-05 2012-01-05 简繁体中文输入方法及装置 Active CN103197869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210001862.7A CN103197869B (zh) 2012-01-05 2012-01-05 简繁体中文输入方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210001862.7A CN103197869B (zh) 2012-01-05 2012-01-05 简繁体中文输入方法及装置

Publications (2)

Publication Number Publication Date
CN103197869A CN103197869A (zh) 2013-07-10
CN103197869B true CN103197869B (zh) 2016-01-27

Family

ID=48720492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210001862.7A Active CN103197869B (zh) 2012-01-05 2012-01-05 简繁体中文输入方法及装置

Country Status (1)

Country Link
CN (1) CN103197869B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1180858A (zh) * 1996-10-25 1998-05-06 株式会社日立制作所 字符输入装置
CN101004738A (zh) * 2006-01-16 2007-07-25 夏普株式会社 文字输入装置、具备该文字输入装置及文字输入方法
CN101256462A (zh) * 2007-02-28 2008-09-03 北京三星通信技术研究有限公司 基于全混合联想库的手写输入方法和装置
CN102156889A (zh) * 2011-03-31 2011-08-17 汉王科技股份有限公司 一种识别手写文本行语言类别的方法及装置
CN102208039A (zh) * 2011-06-01 2011-10-05 汉王科技股份有限公司 一种多语言混合手写文本行的识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1180858A (zh) * 1996-10-25 1998-05-06 株式会社日立制作所 字符输入装置
CN101004738A (zh) * 2006-01-16 2007-07-25 夏普株式会社 文字输入装置、具备该文字输入装置及文字输入方法
CN101256462A (zh) * 2007-02-28 2008-09-03 北京三星通信技术研究有限公司 基于全混合联想库的手写输入方法和装置
CN102156889A (zh) * 2011-03-31 2011-08-17 汉王科技股份有限公司 一种识别手写文本行语言类别的方法及装置
CN102208039A (zh) * 2011-06-01 2011-10-05 汉王科技股份有限公司 一种多语言混合手写文本行的识别方法及装置

Also Published As

Publication number Publication date
CN103197869A (zh) 2013-07-10

Similar Documents

Publication Publication Date Title
WO2017075957A1 (zh) 一种识别率确定方法及装置
AU2015318386B2 (en) Intelligent scoring method and system for text objective question
CN104142915B (zh) 一种添加标点的方法和系统
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
TWI464678B (zh) 用於手寫輸入亞洲語言的方法及系統
CN102063620A (zh) 一种手写识别方法、系统及手写识别终端
CN113762269B (zh) 基于神经网络的中文字符ocr识别方法、系统及介质
CN110390324A (zh) 一种融合视觉与文本特征的简历版面分析算法
CN106528821A (zh) 一种变动列数据导入数据库的方法
CN103559181A (zh) 一种双语语义关系分类模型的建立方法和系统
CN103019397B (zh) 一种多语言混合的文本行输入方法及装置
CN102750552A (zh) 一种手写识别方法、系统及手写识别终端
CN106325596A (zh) 一种书写笔迹自动纠错方法及系统
CN111914825A (zh) 文字识别方法、装置及电子设备
CN112541332A (zh) 表单信息抽取方法、装置、电子设备及存储介质
CN102981767B (zh) 一种单个汉字手写识别方法及系统
CN104794485A (zh) 一种识别书写字的方法及装置
CN115760500A (zh) 一种优化老师批阅作业的方法、装置、设备及存储介质
CN114419636A (zh) 文本识别方法、装置、设备以及存储介质
CN102360265B (zh) 一种手写输入中确定待选字的方法及装置
CN101452368B (zh) 一种手写文字输入方法
CN112749639B (zh) 模型训练方法、装置、计算机设备和存储介质
CN102243708B (zh) 一种手写识别方法、系统及手写识别终端
CN103197869B (zh) 简繁体中文输入方法及装置
CN103778210B (zh) 一种待分析文件的文件具体类型的判断方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant