CN104699663A

CN104699663A - 一种信息输入方法及装置

Info

Publication number: CN104699663A
Application number: CN201310654645.2A
Authority: CN
Inventors: 陈飞雄; 郭庆吉
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2015-06-10
Also published as: WO2014180387A1

Abstract

本发明公开了一种信息输入方法及装置，其中，该方法包括：通过图像获取模块获取图像；对获取的图像中的字符进行切割处理；对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；将排版后的文字按文字排版格式输出到文本输入框。采用本发明实施例，可方便的实现信息输入，省时省力，提高信息输入效率。

Description

一种信息输入方法及装置

技术领域

本发明涉及到智能输入技术领域，特别涉及到一种信息输入方法及装置。

背景技术

移动终端（如手机）具有大容量存储空间、强大的处理能力，人们可通过该移动终端打电话、发送短信、收发邮件、上网浏览等，当人们需要输入文字信息时，一般都是通过拼音输入法、五笔输入法、手写输入法等类型。当我们需要将大量纸质文档中的文字录入到移动终端时，如果通过上述几种输入法进行录入，费时又费力。

发明内容

本发明的主要目的为提供一种信息输入方法及装置，旨在解决现有技术中在移动终端录入信息的费时费力的缺陷，实现信息的快速输入。

本发明提供一种信息输入方法，该方法包括：

通过图像获取模块获取图像；

对获取的图像中的字符进行切割处理；

对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；

将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；

将排版后的文字按文字排版格式输出到文本输入框。

优选地，所述对获取的图像中的字符进行切割处理的步骤包括：

对获取的图像中的所有字符进行切割处理；或者

提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于所述操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。

对获取的图像进行二值化、倾斜校正、分段落分行及字符切割。

优选地，所述锁定用户基于所述操作界面选择的图像区域的步骤包括：

A、获取用户在所述操作界面的第一选择手势，所述第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域；及/或

B、获取用户在所述操作界面的第二选择手势，所述第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。

优选地，所述将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；的步骤之后，该方法还包括：

将排版后的文字按文字排版格式传送给终端。

本发明还提供一种信息输入装置，该装置包括:

图像获取模块，用于获取图像；

切割处理模块，用于对获取的图像中的字符进行切割处理；

OCR识别模块，用于对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；

排版模块，用于将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；

输入模块，用于将排版后的文字按文字排版格式输出到文本输入框。

优选地，所述切割处理模块包括第一子切割处理单元或者第二子切割处理单元；

所述第一子切割处理单元，用于对获取的图像中的所有字符进行切割处理；

所述第二子切割处理单元，用于提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于所述操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。

优选地，所述切割处理模块还用于对获取的图像进行二值化、倾斜校正、分段落分行及字符切割。

优选地，所述第二子切割处理单元包括：

提供单元，用于提供选择操作界面，供用户在获取的图像中选择待识别的图像区域；

锁定单元，用于获取用户在所述操作界面的第一选择手势，所述第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域；及/或用于获取用户在所述操作界面的第二选择手势，所述第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域；

处理单元，用于对锁定单元锁定的待识别的图像区域进行切割处理。

优选地，所述装置还包括与所述排版模块连接的输出模块，所述输出模块用于将排版后的文字按文字排版格式传送给终端。

采用本发明实施例，可通过图像获取模块获取图像；对获取的图像中的字符进行切割处理；对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；将排版后的文字按文字排版格式输出到文本输入框。可方便的实现信息输入，省时省力，提高信息输入效率。

附图说明

图1为本发明的信息输入方法的第一实施例流程示意图；

图2为本发明的信息输入方法的第一实施例中的待识别区域的一示意图；

图3为本发明的信息输入方法的第一实施例中的待识别区域的又一示意图；

图4为本发明的信息输入方法的第二实施例流程示意图；

图5为本发明的信息输入装置的第一实施例结构框图；

图6为本发明的信息输入装置的第二实施例结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明的信息输入方法的第一实施例流程示意图，该方法包括：

S10、通过图像获取模块获取图像。

该图像获取模块可以是摄像头，该摄像头可以是数字摄像头和模拟摄像头。当用户需要将外部的非计算机可识别信息变成计算机可识别信息时（如将纸质文档中的文字转换成计算机可识别信息），通过图像获取模块获取非计算机可识别信息的图像，如通过摄像头拍摄需要输入信息所在纸的图像。在该步骤中，还可对获取的图像进行图像清晰度判断，如，用户通过该图像获取模块获取图像时，由于手抖动或被拍摄物体抖动，导致拍摄的图像很模糊，达不到在后面步骤的文字识别要求；因此可先对获取的图像进行图像清晰度判断，当判断结果为图像的清晰度没达到预设阀值时，则提醒用户重新通过图像获取模块获取图像。在对获取的图形信息进行图像清晰度判断时，可利用图像的平均边缘强度作为检测值，当平均边缘强度小于预设边缘强度阀值时，则认为拍摄的图像模糊，当平均边缘强度大于或等于预设边缘强度阀值时，则认为拍摄的图像清楚。该平均边缘强度是指由边缘算法（如Sobel算法等）获得。

S20、对获取的图像中的字符进行切割处理。

在该步骤S20中，对获取的图像中的字符进行切割处理，具体的，可先对获取的图像进行前景色噪声过滤及背景色噪声过滤，然后对噪声过滤后的图像进行二值化、倾斜校正、分段落分行、字符切割。其中，二值化就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果；倾斜校正，是对图像中的倾斜内容进行校正（在通过图像获取模块获取图像时，当被拍摄物倾斜放置时，将使得获得的内容倾斜），可预先设置一个水平基准线，再判断该图像边缘（可通过图像边缘检测检测出图像边缘，如通过以下步骤检测图像边缘：1、滤波：边缘检测主要基于导数计算，但受噪声影响，但滤波器在降低噪声的同时也导致边缘强度的损失；2、增强：增强算法将领域中灰度有显著变化的点突出显示。一般通过计算梯度幅值完成；3、检测：但在有些图像中梯度幅值较大的并不是边缘点；4、定位：精确确定边缘的位置。）与该水平基准线的夹角值，当该夹角值大于预设的倾斜角度值时，认为该图像倾斜，则对该图像进行倾斜校正，以使得该图像边缘与水平基准线的夹角值小于或等于预设的倾斜角度值，当该夹角值小于或等于预设的倾斜角度值时，认为该图像不倾斜，不需要进行倾斜校正；分段落分行，对图像中的文档图片先进行分段落在分行即进行版面分析。

S30、对各个切割字符进行文字识别，以识别出各个切割字符对应的文字。

在该步骤S30中，对各个切割字符进行文字识别，以识别出各个切割字符对应的文字，具体的，可通过预设的字符库与算法对各个切割字符进行识别，以识别出各个切割字符对应的文字。在该步骤中，可采用微软公司提供的OCR引擎进行文字识别，它是一个公开的编程接口。

S40、将识别的各个文字按对应的切割字符在该图像的字符版面中的位置，进行文字排版。

在该步骤S40中，将识别出的各个字符进行版面恢复，即将识别出的各个文字按照对应的切割字符所在图像的字符版面中的位置进行排列，段落不变、位置不变、顺序不变。

S50、将排版后的文字按文字排版格式输出到文本输入框。

在该步骤S50中，将排版后的文字按文字排版格式输出到文本输入框，具体的，可先将排版后的文字按文字排版格式放置在剪切板上，以供虚拟键盘使用；再通过虚拟键盘将剪切板上的文字识别结果输入到鼠标焦点所在的文本输入框中。

进一步的，该步骤S20包括：

S21、对获取的图像中的所有字符进行切割处理；或者，提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于该操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。

在该步骤S21中，可对获取图像中的所有字符进行切割处理，而不需要用户选择待识别的区域，在需要对图像获取模块获取的图像进行整体识别时，可采用该种方式，方便快捷，提高识别效率。在该步骤S21中，还可为用户提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于该操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理；具体的，用户可在该选择操作界面进行触摸操作，在该步骤S21中，根据用户的触摸操作锁定待识别的图像区域，如：A、获取用户在该操作界面的第一选择手势，该第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域，及/或，B、获取用户在该操作界面的第二选择手势，该第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。

该第一选择手势为一条带有预设宽度的直线，则在该步骤S21中，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域。该预设宽度可根据实际需要设置，如可设置为5mm、7mm等，如果在步骤S10中获取的图像中的文字比较大，则可适当将预设宽度设置大一点。该第一选择手势可沿着各个方向，如，当步骤S10中获得的图像中的文字方向是水平的，则该第一选择手势可以沿着水平方向，当步骤S10中获得的图像中的文字方向是垂直的，则该第一选择手势可以沿着垂直方向，当步骤S10中获得的图像中的文字方向是斜向的，则该第一选择手势相应的沿着文字倾斜的方向。

该第二选择手势为两条连续的直线，则在该步骤S21中，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。优选地，可以将用户的第二选择手势中的两条连续的直线中的第一条直线a1作为平行四边形的对角线，第二条直线a2作为平行四边形的其中一条边，然后锁定出一个平行四边形区域作为待识别的图像区域（如图2所示）。优选地，可以将用户的第二选择手势中的两条连续的直线中的第一条直线a1作为平行四边形的边，第二条直线a2也作为平行四边行的边，然后锁定出一个平行四边形区域作为待识别的图像区域（如图3所示）。

参照图4，图4为本发明的信息输入方法的第二实施例流程示意图。

基于上述的信息输入方法的第一实施例，在步骤S40之后，该方法还包括：

S60、将排版后的文字按文字排版格式传送给终端。

该终端可以为PC机、手机、Ipad等，在该步骤中，可通过USB连接线将排版后的文字按文字排版格式传送给终端，也可以通过通信模块将排版后的文字按文字排版格式传送给终端，该通信模块可以是wifi单元、蓝牙单元等。该终端接收按文字排版格式排版后的文字，并将排版后的文字按文字排版格式输入到鼠标焦点所在的文本输入框中，具体的，该终端将接收的排版后的文字放置在剪切板上，以供虚拟键盘使用，该虚拟键盘将剪切板上的排版后的文字输入到鼠标焦点所在的文本输入框中。

参考图5，图5为本发明的信息输入装置的第一实施例结构示意图，该信息输入装置可以是手机，该信息输入装置包括：图像获取模块10，与该图像获取模块连接的切割处理模块20，与该切割处理模块20连接的OCR识别模块30，与该OCR（Optical Character Recognition，光学字符识别）识别模块30连接的排版模块40，与该排版模块连接的输入模块50，其中：

图像获取模块10，用于获取图像；

切割处理模块20，用于对获取的图像中的字符进行切割处理；

OCR识别模块30，用于对各个切割字符进行文字识别，以识别出各个切割字符对应的文字；

排版模块40，用于将识别的各个文字按对应的切割字符在该图像的字符版面中的位置，进行文字排版；

输入模块50，用于将排版后的文字按文字排版格式输出到文本输入框。

该图像获取模块10可以是摄像头，该摄像头可以是数字摄像头和模拟摄像头。当用户需要将外部的非计算机可识别信息变成计算机可识别信息时（如将纸质文档中的文字转换成计算机可识别信息），通过图像获取模块10获取非计算机可识别信息的图像，如通过摄像头拍摄需要输入信息所在纸的图像。在该步骤中，还可对获取的图像进行图像清晰度判断，如，用户通过该图像获取模块10获取图像时，由于手抖动或被拍摄物体抖动，导致拍摄的图像很模糊，达不到在后面步骤的文字识别要求；因此可先对获取的图像进行图像清晰度判断，当判断结果为图像的清晰度没达到预设阀值时，则提醒用户重新通过图像获取模块获取图像。在对获取的图形信息进行图像清晰度判断时，可利用图像的平均边缘强度作为检测值，当平均边缘强度小于预设边缘强度阀值时，则认为拍摄的图像模糊，当平均边缘强度大于或等于预设边缘强度阀值时，则认为拍摄的图像清楚。该平均边缘强度是指由边缘算法（如Sobel算法等）获得。

切割处理模块20对获取的图像中的字符进行切割处理，具体的，可先对获取的图像进行前景色噪声过滤及背景色噪声过滤，然后对噪声过滤后的图像进行二值化、倾斜校正、分段落分行、字符切割。其中，二值化就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果；倾斜校正，是对图像中的倾斜内容进行校正（在通过图像获取模块获取图像时，当被拍摄物倾斜放置时，将使得获得的内容倾斜），可预先设置一个水平基准线，再判断该图像边缘（可通过图像边缘检测检测出图像边缘，如通过以下步骤检测图像边缘：1、滤波：边缘检测主要基于导数计算，但受噪声影响，但滤波器在降低噪声的同时也导致边缘强度的损失；2、增强：增强算法将领域中灰度有显著变化的点突出显示。一般通过计算梯度幅值完成；3、检测：但在有些图像中梯度幅值较大的并不是边缘点；4、定位：精确确定边缘的位置。）与该水平基准线的夹角值，当该夹角值大于预设的倾斜角度值时，认为该图像倾斜，则对该图像进行倾斜校正，以使得该图像边缘与水平基准线的夹角值小于或等于预设的倾斜角度值，当该夹角值小于或等于预设的倾斜角度值时，认为该图像不倾斜，不需要进行倾斜校正；分段落分行，对图像中的文档图片先进行分段落在分行即进行版面分析。

该OCR识别模块30对各个切割字符进行文字识别，以识别出各个切割字符对应的文字，具体的，可通过预设的字符库与算法对各个切割字符进行识别，以识别出各个切割字符对应的文字。该OCR识别模块可采用微软公司提供的OCR引擎，它是一个公开的编程接口。

排版模块40将识别出的各个字符进行版面恢复，即将识别出的各个文字按照对应的切割字符所在图像的字符版面中的位置进行排列，段落不变、位置不变、顺序不变。

输入模块50将排版后的文字按文字排版格式输出到文本输入框，具体的，可先将排版后的文字按文字排版格式放置在剪切板上，以供虚拟键盘使用；再通过虚拟键盘将剪切板上的文字识别结果输入到鼠标焦点所在的文本输入框中。

进一步的，该切割处理模块20包括第一子切割处理单元21或者第二子切割处理单元22；

该第一子切割处理单元21，用于对获取的图像中的所有字符进行切割处理；

该第二子切割处理单元22，用于提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于该操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。

该切割处理模块20也可同时包括第一子切割处理单元21和第二子切割处理单元22。

该第一子切割处理单元21可对获取图像中的所有字符进行切割处理，而不需要用户选择待识别的区域，在需要对图像获取模块获取的图像进行整体识别时，可采用该种方式，方便快捷，提高识别效率。

该第二子切割处理单元22为用户提供选择操作界面，供用户在获取的图像中选择待识别的图像区域，锁定用户基于该操作界面选择的图像区域，并对选择的图像区域中的字符进行切割处理。用户可在该选择操作界面通过鼠标选取或通过触摸选取待识别的图像区域。

进一步的，该第二子切割处理单元22包括：

锁定单元，用于获取用户在该操作界面的第一选择手势，该第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域；及/或用于获取用户在该操作界面的第二选择手势，该第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域；

该提供单元为用户提供选择操作界面，用户在该选择操作界面进行触摸操作。

该锁定单元获取用户在该选择操作界面的触摸操作，并根据用户的触摸操作锁定待识别的图像区域，如：A、获取用户在该操作界面的第一选择手势，该第一选择手势为一条带有预设宽度的直线，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域，及/或，B、获取用户在该操作界面的第二选择手势，该第二选择手势为两条连续的直线，根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。

该第一选择手势为一条带有预设宽度的直线，则该第二子切割处理单元22，根据该第一选择手势将该带有预设宽度的直线覆盖的图像区域锁定为待识别的图像区域。该预设宽度可根据实际需要设置，如可设置为5mm、7mm等，如果图像获取模块10获取的图像中的文字比较大，则可适当将预设宽度设置大一点。该第一选择手势可沿着各个方向，如，当图像获取模块10获得的图像中的文字方向是水平的，则该第一选择手势可以沿着水平方向，当图像获取模块10获得的图像中的文字方向是垂直的，则该第一选择手势可以沿着垂直方向，当图像获取模块10获得的图像中的文字方向是斜向的，则该第一择手势相应的沿着文字倾斜的方向。

该第二选择手势为两条连续的直线，则第二子切割处理单元22根据该第二选择手势中的两条连续的直线锁定一个平行四边形区域作为待识别的图像区域。优选地，可以将用户的第二选择手势中的两条连续的直线中的第一条直线a1作为平行四边形的对角线，第二条直线a2作为平行四边形的其中一条边，然后锁定出一个平行四边形区域作为待识别的图像区域（如图2所示）。优选地，可以将用户的第二选择手势中的两条连续的直线中的第一条直线a1作为平行四边形的边，第二条直线a2也作为平行四边行的边，然后锁定出一个平行四边形区域作为待识别的图像区域（如图3所示）。

参考图6，图6为本发明的信息输入装置的第二实施例结构示意图。

基于上述的信息输入装置的第一实施例，该装置还包括与所述排版模块连接的输出模块60，用于将排版后的文字按文字排版格式传送给终端。

该终端可以为PC机、手机、Ipad等，该输出模块可以为USB接口，通过该USB接口和USB连接线将排版后的文字按文字排版格式传送给终端；该输出模块也可以为通讯模块，通过该通讯模块将排版后的文字按文字排版格式传送给终端，该通信模块可以是wifi单元、蓝牙单元等。该终端接收按文字排版格式排版后的文字，并将排版后的文字按文字排版格式输入到鼠标焦点所在的文本输入框中，具体的，该终端将接收的排版后的文字放置在剪切板上，以供虚拟键盘使用，该虚拟键盘将剪切板上的排版后的文字输入到鼠标焦点所在的文本输入框中。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

Claims

1.一种信息输入方法，其特征在于，该方法包括：

通过图像获取模块获取图像；

对获取的图像中的字符进行切割处理；

将排版后的文字按文字排版格式输出到文本输入框。

2.根据权利要求1所述的方法，其特征在于，所述对获取的图像中的字符进行切割处理的步骤包括：

对获取的图像中的所有字符进行切割处理；或者

3.根据权利要求1或2所述的方法，其特征在于，所述对获取的图像中的字符进行切割处理的步骤包括：

4.根据权利要求2所述的方法，其特征在于，所述锁定用户基于所述操作界面选择的图像区域的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述将识别的各个文字按对应的切割字符在所述图像的字符版面中的位置，进行文字排版；的步骤之后，该方法还包括：

将排版后的文字按文字排版格式传送给终端。

6.一种信息输入装置，其特征在于，该装置包括:

图像获取模块，用于获取图像；

切割处理模块，用于对获取的图像中的字符进行切割处理；

7.根据权利要求6所述的装置，其特征在于，所述切割处理模块包括第一子切割处理单元或者第二子切割处理单元；

8.根据权利要求6或7所述的装置，其特征在于，所述切割处理模块还用于对获取的图像进行二值化、倾斜校正、分段落分行及字符切割。

9.根据权利要求7所述的装置，其特征在于，所述第二子切割处理单元包括：

10.根据权利要求6所述的装置，其特征在于，所述装置还包括与所述排版模块连接的输出模块，所述输出模块用于将排版后的文字按文字排版格式传送给终端。