CN104850819A - 信息处理方法及电子设备 - Google Patents

信息处理方法及电子设备 Download PDF

Info

Publication number
CN104850819A
CN104850819A CN201410055274.0A CN201410055274A CN104850819A CN 104850819 A CN104850819 A CN 104850819A CN 201410055274 A CN201410055274 A CN 201410055274A CN 104850819 A CN104850819 A CN 104850819A
Authority
CN
China
Prior art keywords
character
information
character set
picture format
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410055274.0A
Other languages
English (en)
Other versions
CN104850819B (zh
Inventor
薛苏葵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201410055274.0A priority Critical patent/CN104850819B/zh
Publication of CN104850819A publication Critical patent/CN104850819A/zh
Application granted granted Critical
Publication of CN104850819B publication Critical patent/CN104850819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明公开了一种信息处理方法及电子设备,所述方法包括:获取第一信息,所述第一信息包括图片格式的字符;解析所述第一信息中的图片格式的字符,得到第二信息,所述第二信息包括多个图片格式的第一字符集合;根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序;基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息;其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。通过本发明,能够显著提供离线识别的精度。

Description

信息处理方法及电子设备
技术领域
本发明涉及文字识别处理技术,尤其涉及一种信息处理方法及电子设备。
背景技术
手写识别按照实际应用场景的不同分为两大类:在线识别和离线识别。在线识别系统可以实时追踪手写的轨迹,边写边记录,边进行识别。目前移动设备的手写输入和手写软件都是属于在线识别。而离线识别是指,将预先书写到白纸、黑板等非电子平面上的文字,通过扫描仪、相机等电子化之后,再做后续的识别。
在线手写识别具有较高的精度,有的在线识别的精度甚至达到90%以上。与在线识别系统相比,离线识别的精度相对较低,一般在50%-60%左右。在线识别的精度较高的主要原因是,利用用户手写笔画的顺序和笔迹的走向来辅助识别,从而使得识别效果较好。
相关技术中,对于提高离线识别的精度,尚无有效技术方案。
发明内容
本发明实施例提供一种信息处理方法及电子设备,能够提供离线的识别精度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种信息处理方法,应用于电子设备中,所述方法包括:
获取第一信息,所述第一信息包括图片格式的字符;
解析所述第一信息中的图片格式的字符,得到第二信息,所述第二信息包括多个图片格式的第一字符集合,所述第一字符集合包括所述第一信息中至少一个图片格式的字符,且,每个所述第一字符集合为最小语义单元;
根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序;
基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息;其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。
本发明实施例还提供一种电子设备,所述电子设备包括:
获取单元,用于获取第一信息,所述第一信息包括图片格式的字符;
解析单元,用于解析所述第一信息中的图片格式的字符,得到第二信息,所述第二信息包括多个图片格式的第一字符集合,所述第一字符集合包括所述第一信息中至少一个图片格式的字符,且,每个所述第一字符集合为最小语义单元;
第一确定单元,用于根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序;
第二确定单元,用于基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息;其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。
本发明实施例中,利用在线文字识别的方式识别图片格式的文本,即,通过确定书写特征信息的方式,将离线识别转换为在线识别,从而,能够显著提高离线识别的精度。
附图说明
图1a为本发明实施例一中信息处理方法的实现流程示意图;
图1b为本发明实施例一中图片格式文本的示意图;
图1c为本发明实施例一中第一字符集合的示意图;
图2a为本发明实施例二中信息处理方法的实现流程示意图;
图2b为本发明实施例二中图片格式文本的示意图;
图2c为本发明实施例二中第二字符集合的示意图;
图2d为本发明实施例二中第一字符集合的示意图;
图3a为本发明实施例三中信息处理方法的实现流程示意图;
图3b为本发明实施例三中图片格式文本的示意图;
图3c为本发明实施例三中第二字符集合的示意图;
图3d为本发明实施例三中第一字符集合的示意图;
图3e为本发明实施例三中待识别字符的示意图;
图3f为本发明实施例三中待识别字符的特征点的示意图一;
图3g为本发明实施例三中预设字符的特征点的示意图;
图3h为本发明实施例三中待识别字符的特征点的示意图二;
图4为本发明实施例四中确定第一字符集合的实现流程示意图一;
图5为本发明实施例五中确定第一字符集合的实现流程示意图二;
图6为本发明实施例七中电子设备的组成结构示意图一;
图7为本发明实施例八中电子设备的组成结构示意图二。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例一
实施例一记载一种信息处理方法,应用于手机、平板电脑等电子设备中;图1a为实施例一记载的信息处理方法的实现流程示意图,如图1a所示,包括以下步骤:
步骤101,获取第一信息,所述第一信息包括图片格式的字符。
步骤101的执行主体为电子设备,实际应用场景1中,当需要对图片格式的字符,如印刷(或手写)文本进行识别时,所述电子设备可以利用内置的摄像头获取图片格式的所述印刷(或手写)文本;实际应用场景2中,电子设备可以从其他设备如服务器下载图片格式的文本。
步骤102,解析所述第一信息中的图片格式的字符,得到第二信息。
其中,所述第二信息包括多个图片格式的第一字符集合,所述第一字符集合包括所述第一信息中至少一个图片格式的字符,且,每个所述第一字符集合为最小语义单元。
需要说明的是,步骤101中所获取的字符不仅限于字母,也可以为汉字、特殊符号例如标点符号、数学运算符号等;以所获取的字符为字母和汉字为例,设步骤101获取的图片格式的文本如图1b所示,相应地,步骤102解析图1b所示的图片格式的文本,得到的第二信息如图1c所示,图1c包括若干第一字符集合,每个第一字符结合为最小语义单元(与一个单词或一个汉字对应),并以实线方框标识。
步骤103,根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息。
其中,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序。
例如,字符“F”的书写特征信息为横、横、竖;当然,字符的笔画不仅限于横和竖,实际应用中,根据不同的字符的结构,可以预定义不同类型的笔画。
步骤104,基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息。
其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。
例如,当通过步骤103确定每个第一字符集合(即单词或汉字)的书写特征信息时,依次将每个第一字符集合的书写特征信息,与所述第一字符识别库中的书写特征信息进行匹配,将匹配到的字符确定为所述第一字符集合所对应的文本格式的字符;或,将所述第一字符识别库中与所述第一字符集合的书写特征信息匹配度最高的字符,确定为所述第一字符集合所对应的文本格式的字符。
本实施例中,基于待识别的图片格式的文本的书写特征信息、即图片格式文本中字符所包括的笔画及其书写顺序进行识别,从而,能够利用在线文字识别的方式识别图片格式的文本;也就是说,本实施例通过确定书写特征信息的方式,将离线识别转换为在线识别,从而,显著提高了离线识别的精度。
实施例二
实施例二记载一种信息处理方法,应用于手机、平板电脑等电子设备中;图2a为实施例二记载的信息处理方法的实现流程示意图,如图2a所示,包括以下步骤:
步骤201,获取第一信息,所述第一信息包括图片格式的字符。
步骤201的执行主体为所述电子设备,实际应用场景1中,当需要对图片格式的字符,如印刷(或手写)文本进行识别时,所述电子设备可以利用内置的摄像头获取图片格式的所述印刷(或手写)文本;实际应用场景2中,电子设备可以从其他设备如服务器下载图片格式的文本。
步骤202,基于所述图片格式的字符的所对应像素的坐标信息,确定所述图片格式的字符的框架。
其中,所述框架表征所述图片格式的字符的分布方向。
步骤203,基于所述确定的框架,确定所述第二字符集合,所述第二字符集合与所述确定的分布方向对应。
需要说明的是,步骤201中所获取的字符不仅限于字母,也可以为汉字、特殊符号例如标点符号、数学运算符号等;以所获取的字符为字符和汉字为例,对步骤202和步骤203进行说明:由于图片格式的文本中,字符的灰度值总是区别于非字符区域的灰度值;因此,根据所述图片格式文本中各像素的灰度信息,可以确定字符对应像素的坐标信息;基于所确定的字符的坐标信息,可以确定图片格式文本中字符的框架,即图片格式文本中字符的分布方向。
设步骤201获取的图片格式的文本如图2b所示,所述图片格式文本为白底黑字,由于灰度值范围0~255表示颜色为从黑到白,因此,图2b中字符对应像素的灰度值总是低于非字符区域的对应像素的灰度值;根据图2b中各像素的灰度信息,可以确定字符对应像素的坐标信息,根据所确定的坐标信息,可以确定图2b中字符的分布方向如图2c中虚线方框所示。
步骤204,基于所述第二字符集合,以及所述第二字符集合中的字符所对应像素的坐标信息,将所述第二字符集合分割,得到所述第一字符集合。
步骤204解析图2b所示的图片格式的文本,得到的第一字符集合如图2d所示,每个第一字符结合为最小语义单元(与一个单词或一个汉字对应),并以虚线方框标识。
步骤205,根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息。
其中,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序。
例如,字符“F”的书写特征信息为横、横、竖;当然,字符的笔画不仅限于横和竖,实际应用中,根据不同的字符的结构,可以预定义不同类型的笔画。
步骤205,基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息。
其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。
例如,当通过步骤205确定每个第一字符集合(即单词或汉字)的书写特征信息时,依次将每个第一字符集合的书写特征信息,与所述第一字符识别库中的书写特征信息进行匹配,将匹配到的字符确定为所述第一字符集合所对应的文本格式的字符;或,将所述第一字符识别库中与所述第一字符集合的书写特征信息匹配度最高的字符,确定为所述第一字符集合所对应的文本格式的字符。
本实施例中,通过步骤202至步骤203,确定待识别的图片格式文本的字符的分布方向;从而,基于所确定的分布方向确定图片格式文本中字符所包括的笔画及其书写顺序,能够利用在线文字识别的方式识别图片格式的文本;也就是说,本实施例通过确定书写特征信息的方式,将离线识别转换为在线识别,从而,显著提高了离线识别的精度。
实施例三
实施例三记载一种信息处理方法,应用于手机、平板电脑等电子设备中;图3a为实施例三记载的信息处理方法的实现流程示意图,如图3a所示,包括以下步骤:
步骤301,获取第一信息,所述第一信息包括图片格式的字符。
步骤301的执行主体为所述电子设备,实际应用场景1中,当需要对图片格式的字符,如印刷(或手写)文本进行识别时,所述电子设备可以利用内置的摄像头获取图片格式的所述印刷(或手写)文本;实际应用场景2中,电子设备可以从其他设备如服务器下载图片格式的文本。
步骤302,基于所述图片格式的字符的所对应像素的坐标信息,确定所述图片格式的字符的框架。
其中,所述框架表征所述图片格式的字符的分布方向。
步骤303,基于所述确定的框架,确定所述第二字符集合,所述第二字符集合与所述确定的分布方向对应。
需要说明的是,步骤301中所获取的字符不仅限于字母,也可以为汉字、特殊符号例如标点符号、数学运算符号等;以所获取的字符为字符和汉字为例,对步骤302和步骤303进行说明:由于图片格式的文本中,字符的灰度值总是区别于非字符区域的灰度值;因此,根据所述图片格式文本中各像素的灰度信息,可以确定字符对应像素的坐标信息;基于所确定的字符的坐标信息,可以确定图片格式文本中字符的框架,即图片格式文本中字符的分布方向。
设步骤301获取的图片格式的文本如图3b所示,所述图片格式文本为白底黑字,由于灰度值范围0~255表示颜色为从黑到白,因此,图3b中字符对应像素的灰度值总是低于非字符区域的对应像素的灰度值;根据图3b中各像素的灰度信息,可以确定字符对应像素的坐标信息,根据所确定的坐标信息,可以确定图3b中字符的分布方向如图3c中虚线方框所示。
步骤304,基于所述第二字符集合,以及所述第二字符集合中的字符所对应像素的坐标信息,将所述第二字符集合分割,得到所述第一字符集合。
步骤304解析图3b所示的图片格式的文本,得到的第一字符集合如图3d所示,每个第一字符结合为最小语义单元(与一个单词或一个汉字对应),并以虚线方框标识。
步骤305,基于所述第一字符集合中各字符所对应的像素的坐标信息,确定所述第一字符集合各字符所对应的特征点。
其中,所述特征点表征所述字符所包括的笔画。
步骤306,基于第一预测模型、以及所述第一字符集合中各字符的特征点信息,确定所述第一字符集合中各字符的特征点的时间顺序。
本实施例中,采用隐式马尔可夫模型(HMM,Hidden Markov Model),将所述第一字符集合中各字符的特征点信息,与预设字符的特征点信息进行匹配,根据所匹配到的预设字符的特征点信息,确定所述第一字符集合中各字符的特征点的时间顺序。
步骤307,根据所确定的时间顺序,确定所述第一字符集合中各字符所包括笔画及所述笔画的书写顺序。
其中,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序。
例如,字符“F”的书写特征信息为横、横、竖;当然,字符的笔画不仅限于横和竖,实际应用中,根据不同的字符的结构,可以预定义不同类型的笔画。
下面以确定图3e所示的字符包括的笔画及笔画的书写顺序为例,对步骤305~步骤307进行说明:
在步骤305中,确定图3e所示的字符的特征点的信息,所确定的特征点如图3f所示,包括14个特征点,每个特征点与一个或多个所述字符的像素对应;
在步骤306中,采用隐式马尔可夫模型(HMM,Hidden Markov Model),将图3e所示字符的所述第一字符集合中各字符的特征点信息即字符的轨迹,与预设的字符特征点信息进行匹配,所匹配到的预设字符的特征点信息如图3g所示,序号1~15标识各特征点的时间先后顺序依次延后,根据图3g所示的字符的特征点的信息,确定图3e所示字符的特征点的时间顺序,如图3h所示,特征点1~14的时间顺序依次延后。
在步骤307中,根据图3h所示的特征点信息,可以确定图3e所示字符所包括的笔画及笔画的书写顺序。
需要说明的是,图3e所示的字符仅仅是示意性的,其他形式的字母、汉字的处理与以上所述类似,这里不再赘述。
步骤308,基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息。
其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。
例如,当通过步骤307确定每个第一字符集合(即单词或汉字)的书写特征信息时,在步骤308中,依次将每个第一字符集合的书写特征信息,与所述第一字符识别库中的书写特征信息进行匹配,将匹配到的字符确定为所述第一字符集合所对应的文本格式的字符;或,将所述第一字符识别库中与所述第一字符集合的书写特征信息匹配度最高的字符,确定为所述第一字符集合所对应的文本格式的字符。
本实施例中,通过步骤305至步骤307,确定待识别的图片格式文本中的字符的笔画及笔画书写顺序,从而,能够利用在线文字识别的方式识别图片格式的文本;也就是说,本实施例通过确定书写特征信息的方式,将离线识别转换为在线识别,从而,显著提高了识别的精度。
实施例四
基于实施例三,对实施例三中的步骤304进行说明,对于图片格式的文本中仅包括汉字或仅包括字母时,电子设备可以根据本实施例中的步骤进行处理,可以进一步提高识别的速度;如图4所示,步骤304可以通过以下步骤实现:
步骤401,根据所述第二字符集合中的字符所对应像素的坐标信息,确定所述第二字符集合中第n个字符与第(n+1)个字符的距离。
其中,n为正整数,取值范围为1≤n≤(T-1),T为所述第二字符集合包括的字符的数值。
步骤402,根据所确定的距离,分割所述第n个字符与第(n+1)个字符。
步骤403,将所分割得到的第n个字符确定为所述第一字符集合。
根据所确定的距离,分割所述第n个字符与第(n+1)个字符,可以避免将字符不完整分割,导致后续识别精度不高的问题。
实施例五
基于实施例三,对实施例三中的步骤304进行说明,实际应用中,图片格式的文本往往包括字母和汉字,且字符和汉字是交叉出现的,如图3b所示;因此,如何正确识别汉字和单词,是本实施例要解决的主要问题,相应地,如图5所示,步骤304可以通过以下步骤实现:
步骤501,根据所述第二字符集合中的字符所对应像素的坐标信息,确定所述第二字符集合中第n个字符与第(n+1)个字符的距离。
步骤502,判断所确定的距离是否小于第一阈值,如果小于,执行步骤503;否则,执行步骤504。
步骤503,确定所述第(n+1)个字符与所述第n个字符属于同一第一字符集合。
步骤504,确定所述第(n+1)个字符与所述第n个字符属于不同第一字符集合。
其中,所述第一阈值为所述第二字符集合中字符距离的平均值,n为正整数,取值范围为1≤n≤(T-1),T为所述第二字符集合包括的字符的数值;步骤502~504为对第二字符集合的操作,当对每个第二字符集合中的字符执行完毕时,执行步骤505。
步骤505,根据所确定的第一字符集合所包括的字符、以及所述字符所对应像素的坐标,将所述第二字符集合分割,得到所述第一字符集合。
通常,从书写习惯上讲,当图片格式文本中包括单词和汉字时,汉字之间的距离、以及单词之间的距离会大于字符间距平均值,单词中字母之间的距离会小于字符距离平均值;因此,循环执行步骤502~步骤505,可以将字母与汉字分别识别开来,并且将字母正确识别为单词,进一步提高后续识别的精度。
实施例六
基于实施例一至实施例五任一实施例,所述第一信息还包括第三信息,所述第三信息与所述图片格式的字符不同;
相应地,在解析所述第一信息之前,所述方法还包括:
将所述第一信息进行以下处理的至少之一,以在所述第一信息中消除所述第三信息:
去除所述图片格式的字符的噪声;
去除所述图片格式的字符的背景。
如此,可以消除后续处理中的干扰因素,提高识别的精度和速度。
这里需要指出的是:以下电子设备实施例中的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。对于本发明电子设备实施例中未披露的技术细节,请参照本发明方法实施例的描述。
实施例七
本实施例记载一种电子设备,如图6所示,所述电子设备包括:
获取单元71,用于获取第一信息,所述第一信息包括图片格式的字符;
解析单元72,用于解析所述第一信息中的图片格式的字符,得到第二信息,所述第二信息包括多个图片格式的第一字符集合,所述第一字符集合包括所述第一信息中至少一个图片格式的字符,且,每个所述第一字符集合为最小语义单元;
第一确定单元73,用于根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序;
第二确定单元74,用于基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息;其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。
实际应用中,所述获取单元71、解析单元72、第一确定单元73和所述第二确定单元74均可由所述电子设备中的中央处理器(CPU,Central ProcessingUnit)、数字信号处理器(DSP,Digital Signal Processor)或现场可编程门阵列(FPGA,Field Programmable Gate Array)实现。
实施例八
本实施例记载一种电子设备,如图7所示,所述电子设备包括:
获取单元81,用于获取第一信息,所述第一信息包括图片格式的字符;
解析单元82,用于解析所述第一信息中的图片格式的字符,得到第二信息,所述第二信息包括多个图片格式的第一字符集合,所述第一字符集合包括所述第一信息中至少一个图片格式的字符,且,每个所述第一字符集合为最小语义单元;
第一确定单元83,用于根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序;
第二确定单元84,用于基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息;其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。
其中,所述第一确定单元83,还用于基于所述第一字符集合中各字符所对应的像素的坐标信息,确定所述第一字符集合各字符所对应的特征点,所述特征点表征所述字符所包括的笔画;
基于第一预测模型、以及所述第一字符集合中各字符的特征点信息,确定所述第一字符集合中各字符的特征点的时间顺序;
根据所确定的时间顺序,确定所述第一字符集合中各字符所包括笔画及所述笔画的书写顺序。
其中,所述解析单元82,还用于基于所述图片格式的字符的所对应像素的坐标信息,确定所述图片格式的字符的框架,所述框架表征所述图片格式的字符的分布方向;
基于所述确定的框架,确定所述第二字符集合,所述第二字符集合与所述确定的分布方向对应;
基于所述第二字符集合,以及所述第二字符集合中的字符所对应像素的坐标信息,将所述第二字符集合分割,得到所述第一字符集合。
其中,所述解析单元82,还用于根据所述第二字符集合中的字符所对应像素的坐标信息,确定所述第二字符集合中第n个字符与第(n+1)个字符的距离;
当所确定的距离小于第一阈值时,确定所述第(n+1)个字符与所述第n个字符属于同一第一字符集合;否则,
确定所述第(n+1)个字符与所述第n个字符属于不同第一字符集合;
根据所确定的第一字符集合所包括的字符、以及所述字符所对应像素的坐标,将所述第二字符集合分割,得到所述第一字符集合;其中,
所述第一阈值为所述第二字符集合中预设数量的最大字符距离的平均值,n为正整数,取值范围为1≤n≤(T-1),T为所述第二字符集合包括的字符的数值。
其中,所述解析单元82,还用于根据所述第二字符集合中的字符所对应像素的坐标信息,确定所述第二字符集合中第n个字符与第(n+1)个字符的距离;
根据所确定的距离,分割所述第n个字符与第(n+1)个字符;
将所分割得到的第n个字符确定为所述第一字符集合;其中,
n为正整数,取值范围为1≤n≤(T-1),T为所述第二字符集合包括的字符的数值。
其中,所述第一信息还包括第三信息,所述第三信息与所述图片格式的字符不同;
相应地,所述电子设备还包括:
所述解析单元82,用于在解析所述第一信息之前,将所述第一信息进行以下处理的至少之一,以在所述第一信息中消除所述第三信息:
去除所述图片格式的字符的噪声;去除所述图片格式的字符的背景。
实际应用中,所述获取单元81、解析单元82、第一确定单元83和所述第二确定单元84均可由所述电子设备中的CPU、DSP或FPGA实现。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它格式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的格式实现,也可以采用硬件加软件功能单元的格式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的格式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的格式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种信息处理方法,应用于电子设备中,其特征在于,所述方法包括:
获取第一信息,所述第一信息包括图片格式的字符;
解析所述第一信息中的图片格式的字符,得到第二信息,所述第二信息包括多个图片格式的第一字符集合,所述第一字符集合包括所述第一信息中至少一个图片格式的字符,且,每个所述第一字符集合为最小语义单元;
根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序;
基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息;其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息,包括:
基于所述第一字符集合中各字符所对应的像素的坐标信息,确定所述第一字符集合各字符所对应的特征点,所述特征点表征所述字符所包括的笔画;
基于第一预测模型、以及所述第一字符集合中各字符的特征点信息,确定所述第一字符集合中各字符的特征点的时间顺序;
根据所确定的时间顺序,确定所述第一字符集合中各字符所包括笔画及所述笔画的书写顺序。
3.根据权利要求1所述的方法,其特征在于,所述解析所述第一信息中的图片格式的字符,得到第二信息,包括:
基于所述图片格式的字符的所对应像素的坐标信息,确定所述图片格式的字符的框架,所述框架表征所述图片格式的字符的分布方向;
基于所述确定的框架,确定所述第二字符集合,所述第二字符集合与所述确定的分布方向对应;
基于所述第二字符集合,以及所述第二字符集合中的字符所对应像素的坐标信息,将所述第二字符集合分割,得到所述第一字符集合。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第二字符集合,以及所述第二字符集合中的字符所对应的像素的坐标信息,将所述第二字符集合分割,得到所述第一字符集合,包括:
根据所述第二字符集合中的字符所对应像素的坐标信息,确定所述第二字符集合中第n个字符与第(n+1)个字符的距离;
当所确定的距离小于第一阈值时,确定所述第(n+1)个字符与所述第n个字符属于同一第一字符集合;否则,确定所述第(n+1)个字符与所述第n个字符属于不同第一字符集合;
根据所确定的第一字符集合所包括的字符、以及所述字符所对应像素的坐标,将所述第二字符集合分割,得到所述第一字符集合;其中,
所述第一阈值为所述第二字符集合中预设数量的最大字符距离的平均值,n为正整数,取值范围为1≤n≤(T-1),T为所述第二字符集合包括的字符的数值。
5.根据权利要求3所述的方法,其特征在于,所述基于所述第二字符集合,以及所述第二字符集合中的字符所对应的像素的坐标信息,将所述第二字符集合分割,得到所述第一字符集合,包括:
根据所述第二字符集合中的字符所对应像素的坐标信息,确定所述第二字符集合中第n个字符与第(n+1)个字符的距离;
根据所确定的距离,分割所述第n个字符与第(n+1)个字符;
将所分割得到的第n个字符确定为所述第一字符集合;其中,
n为正整数,取值范围为1≤n≤(T-1),T为所述第二字符集合包括的字符的数值。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述第一信息还包括第三信息,所述第三信息与所述图片格式的字符不同;
相应地,所述解析所述第一信息之前,所述方法还包括:
将所述第一信息进行以下处理的至少之一,以在所述第一信息中消除所述第三信息:
去除所述图片格式的字符的噪声;
去除所述图片格式的字符的背景。
7.一种电子设备,其特征在于,所述电子设备包括:
获取单元,用于获取第一信息,所述第一信息包括图片格式的字符;
解析单元,用于解析所述第一信息中的图片格式的字符,得到第二信息,所述第二信息包括多个图片格式的第一字符集合,所述第一字符集合包括所述第一信息中至少一个图片格式的字符,且,每个所述第一字符集合为最小语义单元;
第一确定单元,用于根据所述第一字符集合所对应的像素的坐标信息,确定对应每个所述第一字符集合的书写特征信息,所述第一字符集合的书写特征信息表征所述第一字符集合中每个字符所包括笔画及所述笔画的书写顺序;
第二确定单元,用于基于所述书写特征信息,以及第一字符识别库,确定文本格式的所述第一信息;其中,所述第一字符识别库包括字符与字符的书写特征信息的对应关系。
8.根据权利要求7所述的电子设备,其特征在于,
所述第一确定单元,还用于基于所述第一字符集合中各字符所对应的像素的坐标信息,确定所述第一字符集合各字符所对应的特征点,所述特征点表征所述字符所包括的笔画;
基于第一预测模型、以及所述第一字符集合中各字符的特征点信息,确定所述第一字符集合中各字符的特征点的时间顺序;
根据所确定的时间顺序,确定所述第一字符集合中各字符所包括笔画及所述笔画的书写顺序。
9.根据权利要求7所述的电子设备,其特征在于,
所述解析单元,还用于基于所述图片格式的字符的所对应像素的坐标信息,确定所述图片格式的字符的框架,所述框架表征所述图片格式的字符的分布方向;
基于所述确定的框架,确定所述第二字符集合,所述第二字符集合与所述确定的分布方向对应;
基于所述第二字符集合,以及所述第二字符集合中的字符所对应像素的坐标信息,将所述第二字符集合分割,得到所述第一字符集合。
10.根据权利要求9所述的电子设备,其特征在于,
所述解析单元,还用于根据所述第二字符集合中的字符所对应像素的坐标信息,确定所述第二字符集合中第n个字符与第(n+1)个字符的距离;
当所确定的距离小于第一阈值时,确定所述第(n+1)个字符与所述第n个字符属于同一第一字符集合;否则,确定所述第(n+1)个字符与所述第n个字符属于不同第一字符集合;
根据所确定的第一字符集合所包括的字符、以及所述字符所对应像素的坐标,将所述第二字符集合分割,得到所述第一字符集合;其中,
所述第一阈值为所述第二字符集合中预设数量的最大字符距离的平均值,n为正整数,取值范围为1≤n≤(T-1),T为所述第二字符集合包括的字符的数值。
11.根据权利要求9所述的电子设备,其特征在于,
所述解析单元,还用于根据所述第二字符集合中的字符所对应像素的坐标信息,确定所述第二字符集合中第n个字符与第(n+1)个字符的距离;
根据所确定的距离,分割所述第n个字符与第(n+1)个字符;
将所分割得到的第n个字符确定为所述第一字符集合;其中,
n为正整数,取值范围为1≤n≤(T-1),T为所述第二字符集合包括的字符的数值。
12.根据权利要求7至11任一项所述的电子设备,其特征在于,所述第一信息还包括第三信息,所述第三信息与所述图片格式的字符不同;
相应地,所述解析单元,还用于在解析所述第一信息之前,将所述第一信息进行以下处理的至少之一,以在所述第一信息中消除所述第三信息:
去除所述图片格式的字符的噪声;
去除所述图片格式的字符的背景。
CN201410055274.0A 2014-02-18 2014-02-18 信息处理方法及电子设备 Active CN104850819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410055274.0A CN104850819B (zh) 2014-02-18 2014-02-18 信息处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410055274.0A CN104850819B (zh) 2014-02-18 2014-02-18 信息处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN104850819A true CN104850819A (zh) 2015-08-19
CN104850819B CN104850819B (zh) 2018-07-03

Family

ID=53850455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410055274.0A Active CN104850819B (zh) 2014-02-18 2014-02-18 信息处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN104850819B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171282A (zh) * 2017-12-29 2018-06-15 安徽慧视金瞳科技有限公司 一种黑板笔迹自动合成方法
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
WO2020140608A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 一种图像数据处理方法、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100271387A1 (en) * 2009-04-28 2010-10-28 Inventec Appliances (Shanghai) Co., Ltd. Method and display device for displaying characters
JP2013182512A (ja) * 2012-03-02 2013-09-12 Casio Comput Co Ltd 手書き文字処理装置およびプログラム
CN103366151A (zh) * 2012-03-30 2013-10-23 佳能株式会社 手写字符识别方法以及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100271387A1 (en) * 2009-04-28 2010-10-28 Inventec Appliances (Shanghai) Co., Ltd. Method and display device for displaying characters
CN101877209A (zh) * 2009-04-28 2010-11-03 英华达(上海)电子有限公司 字符显示方法、显示装置和计算机系统
JP2013182512A (ja) * 2012-03-02 2013-09-12 Casio Comput Co Ltd 手書き文字処理装置およびプログラム
CN103366151A (zh) * 2012-03-30 2013-10-23 佳能株式会社 手写字符识别方法以及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
候卫萍: ""基于频域分析法的离线手写签名纹理特征提取和验证"", 《中国优秀硕博士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171282A (zh) * 2017-12-29 2018-06-15 安徽慧视金瞳科技有限公司 一种黑板笔迹自动合成方法
CN108171282B (zh) * 2017-12-29 2021-08-31 安徽慧视金瞳科技有限公司 一种黑板笔迹自动合成方法
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN111368535B (zh) * 2018-12-26 2024-01-16 珠海金山数字网络科技有限公司 一种敏感词识别方法、装置及设备
WO2020140608A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 一种图像数据处理方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN104850819B (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
AU2017302250A1 (en) Optical character recognition in structured documents
WO2016065701A1 (zh) 图像文字识别方法及装置
CN110942004A (zh) 基于神经网络模型的手写识别方法、装置及电子设备
CN105488544A (zh) 一种描红临摹笔迹识别的方法及系统
CN104123550A (zh) 基于云计算的文本扫描识别方法
CN109784330B (zh) 招牌内容识别方法、装置及设备
CN107748744B (zh) 一种勾勒框知识库的建立方法及装置
KR20210037280A (ko) 손 글씨를 이용한 폰트 제작 방법
CN104850819A (zh) 信息处理方法及电子设备
CN113469148B (zh) 一种文本擦除方法及模型的训练方法、装置、存储介质
CN114937270A (zh) 古籍文字处理方法、装置及计算机可读存储介质
CN104463157A (zh) 手写字符的电子识别方法
CN109670365B (zh) 一种书法鉴定系统及方法
CN111126372B (zh) 视频中logo区域的标记方法、装置及电子设备
CN111027533B (zh) 一种点读坐标的变换方法、系统、终端设备及存储介质
CN110119459A (zh) 图像数据检索方法及图像数据检索装置
CN111832551A (zh) 文本图像处理方法、装置、电子扫描设备和存储介质
CN111325214A (zh) 喷印字符提取处理方法、装置、存储介质和电子设备
CN112542163A (zh) 智能语音交互方法、设备及存储介质
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN111291758B (zh) 用于识别印章文字的方法和装置
CN111046096B (zh) 用于生成图文结构化信息的方法和装置
CN110414496B (zh) 相似字识别方法、装置、计算机设备及存储介质
CN108021918B (zh) 文字识别方法及装置
CN112686253A (zh) 一种用于电子白板的屏幕文字提取系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant