CN112861850A - 一种实现移动终端近距离提取文字的方法及系统 - Google Patents

一种实现移动终端近距离提取文字的方法及系统 Download PDF

Info

Publication number
CN112861850A
CN112861850A CN202110016779.6A CN202110016779A CN112861850A CN 112861850 A CN112861850 A CN 112861850A CN 202110016779 A CN202110016779 A CN 202110016779A CN 112861850 A CN112861850 A CN 112861850A
Authority
CN
China
Prior art keywords
image
screen
mobile terminal
information
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110016779.6A
Other languages
English (en)
Other versions
CN112861850B (zh
Inventor
宗毅
段志超
任柏成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sanyuanju Technology Co ltd
Original Assignee
Beijing Sanyuanju Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sanyuanju Technology Co ltd filed Critical Beijing Sanyuanju Technology Co ltd
Priority to CN202110016779.6A priority Critical patent/CN112861850B/zh
Publication of CN112861850A publication Critical patent/CN112861850A/zh
Application granted granted Critical
Publication of CN112861850B publication Critical patent/CN112861850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Telephone Function (AREA)
  • Studio Devices (AREA)

Abstract

本发明提供一种实现移动终端近距离提取文字的方法及系统,该方法的步骤包括:打开摄像头,获取含有用户欲识别文字内容的图像,并将所获取的图像显示到屏幕上;利用惯性测量单元实时获取移动终端的运动信息,根据移动终端的运动信息对屏幕所显示的图像进行几何变换,并在屏幕上实时显示几何变换后的图像;提取所显示图像中落入屏幕上待识别区的文字信息。本发明通过预先拍摄下来的图像配合当前移动终端的运动信息来模拟摄像头的实时画面,屏幕给用户展示的图像不会因为摄像头与被拍摄物的距离过近而出现失焦导致的模糊,用户只需要单手控制移动终端就可以指定需要提取的文字部分,并且可以实现连续的文字提取,有效提高了文字提取的效率和准确度。

Description

一种实现移动终端近距离提取文字的方法及系统
技术领域
本发明属于图像处理和文字提取技术领域,涉及一种实现移动终端近距离提取文字的方法及系统。
背景技术
随着智能移动设备的广泛普及,文字识别技术越来越多应用到带有图像扫描或摄像功能的智能移动设备上,使得智能移动终端也能实现文字识别。
以往的文字提取方法中,是通过摄像头将带有欲识别文字的页面在显示屏显示出来,需要用户移动屏幕上的光标,通过光标来定位待识别字符区域,再对待识别字符区域进行文字提取,但是这种必须用户一手持着智能移动终端,另一只手移动光标进行定位,操作麻烦,文字提取效率低。
所以,为了克服上述文字识别方法的缺陷,现有的文字识别方法是将整个页面中的文本区域提取出来,但是采用这种方法,用户只能得到大片页面的文字信息,无法指定所提取的文本区域,也就无法精确获取某一词汇的文字信息,而当户需要提取的某一特定文字区域,就必须先要将摄像头近距离拍摄页面,使得所需提取的文字信息在显示屏上变得足够大,这样才能提取某个词语的文字信息,但由于现有的带有摄像功能的智能移动设备的镜头变焦范围是有限的,因此这种文字提取方法必须要在智能移动设备和页面保持在较远的距离(变焦范围内)下才能获取清晰的图像,一旦摄像头和页面的距离小于摄像头的变焦范围,摄像头就会失焦,无法获得清晰的图像,影响对文字准确性。
因此,现有文字提取方法存在无法兼顾提取文字信息的高效性和准确性的问题。
发明内容
本发明的目的在于针对现有技术的不足,提供一种实现移动终端近距离提取文字的方法和系统,旨在解决现有的文字提取方法无法兼顾提取文字信息的高效性和准确性的问题。
为了实现上述目的,本发明采用了以下技术方案:
一种实现移动终端近距离提取文字的方法,步骤包括:
打开摄像头,获取含有用户欲识别文字内容的图像,并将所获取的图像显示到屏幕上;
利用惯性测量单元实时获取移动终端的运动信息,根据移动终端的运动信息对屏幕所显示的图像进行几何变换,并在屏幕上实时显示几何变换后的图像;
提取所显示图像中落入屏幕上待识别区的文字信息。
优选地,所述对屏幕所显示的图像进行几何变换是指对屏幕所显示的图像进行平移变换、缩放变换和旋转变换。
进一步的,所述运动信息包括当前移动设备的姿态信息以及当前移动设备的加速度和/或角速度。
优选地,所述提取所显示图像中落入屏幕上待识别区的文字信息,具体为:
确定所显示图像落入屏幕上待识别区的文本区域为信息提取区域;
将信息提取区域所在的图像进行透视变换调整为正面图像;
提取正面图像中信息提取区域的文字信息。
优选地,所述获取含有用户欲识别文字内容的图像,并将所获取的图像显示到屏幕上,具体为:
拍摄对焦清晰的第一图像,屏幕显示第一图像;
当惯性测量单元检测到移动终端在运动时,控制摄像头在图像采集周期内采集与第一图像相邻的第二图像,其中第一图像和第二图像具有重叠部分;
所述利用惯性测量单元实时获取移动终端的运动信息,根据移动终端的运动信息对屏幕所显示的图像进行几何变换,具体为:
利用惯性测量单元实时获取移动终端的运动信息,根据移动终端的运动信息对屏幕所显示的第一图像进行几何变换,同时结合惯性测量单元判断当前移动终端的摄像头是否移动到第一图像的边缘;
若否,屏幕实时显示几何变换后的第一图像;
若是,对第一图像和第二图像进行拼接得到第三图像,将屏幕所显示的图像切换为第三图像,继续根据当前移动终端的运动信息对第三图像进行几何变换,屏幕实时显示几何变换后的第三图像;
所述提取所显示图像中落入屏幕上待识别区的文字信息,具体为:
当屏幕显示的图像为几何变换后的第一图像时,提取第一图像中落入屏幕上待识别区的文字信息;
当屏幕显示的图像为几何变换后的第三图像时,提取第三图像中落入屏幕上待识别区的文字信息。
进一步的,所述当屏幕显示的图像为几何变换后的第一图像时,提取第一图像中落入屏幕上待识别区的文字信息,具体为:
当屏幕显示的图像为几何变换后的第一图像时,将几何变换后的第一图像中落入屏幕上待识别区的文本区域确定为信息提取区域,根据第一图像的透视变换矩阵对第一图像进行透视变换调整得到正面的第一图像,提取正面的第一图像中信息提取区域的文字信息;
所述当屏幕显示的图像为几何变换后的第三图像时,提取第三图像中落入屏幕上待识别区的文字信息,具体为:
当屏幕显示的图像为几何变换后的第三图像时,将几何变换后的第三图像中落入屏幕上待识别区的文本区域确定为信息提取区域,根据第一图像的透视变换矩阵对第三图像进行透视变换调整得到正面的第三图像,提取正面的第三图像中信息提取区域的文字信息。
优选地,所述打开摄像头,拍摄含有用户欲识别文字内容的图像,包括:
打开摄像头,采用自动对焦方法拍摄清晰的图像。
进一步的,所述采用自动对焦方法拍摄清晰的图像,具体为:
开启移动终端自带的自动对焦功能,检测当前摄像头获取的画面是否对焦成功;
若对焦成功,自动拍下清晰的图像;
若对焦不成功,重新对焦。
优选地,所述提取所显示图像中落入屏幕上待识别区的文字信息,包括:
采用基于神经网络的文字提取算法对所显示图像中落入屏幕上待识别区的文字信息进行提取。
一种实现移动终端近距离提取文字的系统,包括:
摄像头,用于拍摄获取含有用户欲识别文字的图像,并将图像发送到显示屏幕、信息储存单元,
惯性测量单元,用于获取移动终端的运动信息,并将运动信息发送到图像处理单元;
信息储存单元,用于存储摄像头所拍摄的图像;
图像处理单元,用于接收惯性测量单元发送的移动终端的运动信息,并根据运动信息对图像进行几何变换,将几何变换后的图像发送到显示屏幕和文字提取单元;
显示屏幕,用于接收摄像头所拍摄的图像、接收图像处理单元进行几何变换处理后的图像并对图像和待识别区进行显示;
文字提取单元,用于提取几何变换处理后的图像落入待识别区域的文字信息。
本发明的有益效果:
1、本发明通过将预先拍摄下来的图像配合当前移动终端的运动信息来模拟摄像头的实时画面,使屏幕给用户展示的图像不会因为摄像头与被拍摄物的距离过近而出现失焦导致的模糊,用户只需要单手控制移动终端就可以指定需要提取的文字部分,可以实现连续的文字提取,有效提高了文字提取的效率和准确度。
2、本发明对于需要提取文字的图像先进行透视变换,将拍摄下来的三维图像变换为二维图像,有利于提高文字提取的准确性。
3、本发明运用图像拼接的方式,扩大了用户提取文字的图像范围,能够给用户提高更好的使用体验。
附图说明
附图1是本发明所提供实现移动终端近距离提取文字的方法的流程图;
附图2是本发明所提供实施例一所述实现移动终端近距离提取文字的方法的流程图;
附图3是本发明所提供实施例二所述实现移动终端近距离提取文字的方法的流程图;
附图4是本发明所提供实现移动终端近距离提取文字的系统的结构示意图。
具体实施方式
下面结合本发明的附图对本发明实施中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
如图1所示,本发明提供一种实现移动终端近距离提取文字的方法,该方法包括:
步骤S100,打开摄像头,获取含有用户欲识别文字内容的图像,并将所获取的图像显示到屏幕上;
步骤S200,利用惯性测量单元实时获取移动终端的运动信息,根据移动终端的运动信息对屏幕所显示的图像进行几何变换,并在屏幕上实时显示几何变换后的图像;
步骤300,提取所显示图像中落入屏幕上待识别区的文字信息。
现有技术中,由于移动终端的摄像头与被拍摄物之间的距离受到该摄像头的焦距限制,当摄像头与被拍摄物的距离过近时,摄像头所获取的图像就会失焦,屏幕显示的画面会变得模糊,为了克服这一问题,本发明在移动终端开启文字识别时,首先在移动终端的摄像头与页面保持一定的距离时,对需要文字识别的页面进行拍照来获得图像,获取图像后实时获取移动终端的运动信息,以结合移动终端当前的运动状态对图像进行几何变换,此步骤是通过对该图像进行几何变换来模拟摄像头在运动的移动终端下所获得实时画面的变换。用拍摄下来的含有用户欲识别文字内容的图像来替换当前摄像头所获取的画面,使的用户在屏幕上看到的图像为原先拍摄下来清晰的图像,随着移动终端的运动,只会对图像进行相应几何变换,而图像本身的清晰度不会随摄像头与被拍物的距离变近而发生变化,这样用户即使将移动设备的摄像头放到与被拍物很近的位置上,屏幕显示的画面就不受摄像头的焦距影响,通过移动终端的移动可以在图像几何变换后将图像上所要提取的文字信息落入到屏幕上的待识别区,落入到屏幕上的待识别区的文字信息依然能够保持清晰,不会失焦,以满足文字提取准确性,提高精准度。由于显示屏上的图像是可以发生几何变换的,而屏幕上待识别区是不变的,所以落入待提取区域的文字也会随图像的几何变换发生改变,用户只需要通过一只手手持移动终端就可以随意控制图像的几何变换,使得图像中需要提取的文字落入屏幕上的待识别区,随着移动终端的移动可以实现文字的连续提取,以满足文字提取的高效性。
进一步的,步骤200中的对屏幕所显示的图像进行几何变换是指对屏幕所显示的图像进行平移变换、缩放变换和旋转变换。需要说明的是,这里指的旋转为三维旋转。由于用户控制移动终端的运动是在三维世界中进行的,移动终端的运动状态可以是单一的平移、单一的上下移动又或者是单一的绕轴旋转,也可以平移、上下移动和绕轴旋转多种运动状态的结合,因此对图像的几何变换也是根据移动终端的运动信息为平移变换、缩放变换和旋转变换中的一种或多种结合。
进一步的,步骤200中的运动信息包括当前移动设备的姿态信息以及当前移动设备的加速度a和/或角速度w。进一步的,步骤300中当前移动设备的姿态信息为旋转向量r。其中,基于旋转向量r(r=[rx,ry,rz]T,旋转角度为θ)求得旋转矩阵R。根据旋转矩阵R和加速度a与角速度w计算得到图像的几何变换矩阵。
结合当前移动设备的加速度a,计算得到移动终端相对地面的加速度[ax,ay,az]T,计算公式为:
Ra-g=[ax,ay,az]T (1)
其中,g为重力加速度。
根据公式(1)计算得到移动终端相对于地面的加速度,对所显示含有用户欲识别文字内容的图像进行平移和/或缩放:当ax<0时,控制图像向左移动;当ax>0时,控制图像向右移动;当ay<0时,控制放大图像,当ay>0时,控制缩小图像,当az<0时,控制图像向上移动;当az>0时,控制图像向下移动。
结合当前移动设备的角速度w,计算得到移动终端相对地面的角速度[wx,wy,wz]T,计算公式为:
Rw=[wx,wy,wz]T (2)
其中,g为重力加速度。
根据公式(2)计算得到移动终端相对地面的旋转角速度,对所显示含有用户欲识别文字内容的图像进行三维旋转:当wx<0时,控制图像俯仰角顺时针旋转;当wx>0时,控制图像俯仰角逆时针旋转;当wy<0时,控制图像偏航角顺时针旋转;当wy>0时,控制图像偏航角逆时针旋转;当wz<0,控制图像翻滚角顺时针旋转;当wz>0时,控制图像翻滚角逆时针旋转。
进一步的,步骤100包括:
步骤110,打开摄像头,采用自动对焦功能拍摄清晰的图像。进一步的,所述采用自动对焦拍摄清晰的图像具体为:打开移动终端自带的自动对焦功能,检测当前摄像头获取的画面是否对焦成功,若对焦成功,控制摄像头自动拍下清晰图像,若检测对焦不成功,重新对焦,直至拍摄得到清晰的图像。
具体的,采用移动终端自带的自动对焦功能对被拍摄物体进行对焦,采用反差对比的方法检测当前对焦是否成功。
此步骤是保证所获取含有用户欲识别文字内容的图像为清晰的图像。
需要说明的是,在一些实施例中,还可以是移动终端接收用户指令后拍摄获取图像。
一个实施例中,步骤100还包括:
获取图像的同时利用惯性测量单元获取当前移动终端的姿态数据,获取图像后,解析图像,获取图像的像素坐标;
步骤S300具体为:
S310,确定所显示图像落入屏幕上待识别区的文本区域为信息提取区域;
S320,对信息提取区域所在的图像进行透视变换调整为正面图像;
S330,提取正面图像中所述信息提取区域的文字信息。
本实施中,屏幕上设置有一固定的待识别区域,用户可以通过控制移动终端运动使图像进行几何变换(平移,旋转或缩放)直至所要提取的文本落入屏幕上的待识别区域。当所要提取的文本落入待识别区域时,将落入待识别区域的文字区域确定为信息提取区域。其中,步骤S320中的透视变换为根据在步骤S100中所获取姿态数据和图像的四对像素点坐标求得透视变换矩阵对图像进行透视变换,得到正面图像。由于摄像头所拍摄的图像是一个三维世界中所获得的图像,使图像中的画面会处于透视的状态,导致图像中的文字会产生相应的形变影响文字识别的准确性和灵敏度,透视变换处理后的图像变成正面的图像,可以更加准确地将信息提取区域的文字提取出来。需要说明的是,在一些实施例中,若通过用户对移动终端的运动控制使几何变换后的图像已经接近正面图像可以满足直接提取文字的要求,则不需要对图像进行透视变换。
上述实施例中,步骤S300还包括,
S330,采用基于神经网络的文字提取算法对所显示图像中落入屏幕上待识别区的文字信息进行提取。
需要说明的是,本发明所提供的文字提取方法中,在步骤S300提取了文字信息结束后,根据惯性测量单元所检测到的移动终端的运动信息,当检测到移动终端处于运动状态时,则重复步骤S200和步骤S300继续进行文字提取,直至移动终端停止运动或移动终端移动到达图像的边缘。采用本发明的方法,用户只需要移动手中的移动终端就可以对图像上的文字进行连续提取。本方法适用于对书本文字的点读或翻译,可以将书面上的整句文字中的单个词语进行识别,结合移动终端的语音播放功能,实现点读功能。
本发明还提供了另外一个实施例,该实施例中,步骤S100中获取含有用户欲识别文字内容的图像,并将所获取的图像显示到屏幕上,具体为:
拍摄对焦清晰的第一图像,屏幕显示第一图像;
当惯性测量单元检测到移动终端在运动时,控制摄像头在图像采集周期内采集与第一图像相邻的第二图像,其中第一图像和第二图像具有重叠部分;
此步骤还可以包括:在拍摄第一图像的同时利用惯性测量单元获取当前移动终端的姿态数据,对第一图像进行解析,获取第一图像的像素坐标;
具体的,本实施例中,步骤S100所述的图像采集周期是指在拍摄第一图像后间隔特定时间后拍摄第二图像,其中拍摄第一图像和第二图像的间隔时间为0.01s-1s。需要说明的是,第二图像可以是与第一图像的周围相邻并与第一图像四个边缘中至少一边重叠的一张或多张图像。
步骤S200具体为:
利用惯性测量单元实时获取移动终端的运动信息,根据移动终端的运动信息对屏幕所显示的第一图像进行几何变换,同时结合惯性测量单元判断当前移动终端是否移动到第一图像的边缘;
若否,屏幕实时显示几何变换后的第一图像;
若是,对第一图像和第二图像进行拼接得到第三图像,将屏幕所显示的图像切换为第三图像,继续根据当前移动终端的运动信息对第三图像进行几何变换,屏幕实时显示几何变换后的第三图像;
步骤300具体为:
当屏幕显示的图像为几何变换后的第一图像时,提取第一图像中落入屏幕上待识别区的文字信息;进一步的,具体为:当屏幕显示的图像为几何变换后的第一图像时,将几何变换后的第一图像中落入屏幕上待识别区的文本区域确定为信息提取区域,根据第一图像的透视变换矩阵对第一图像进行透视变换调整得到正面的第一图像,提取正面的第一图像中信息提取区域的文字信息;
当屏幕显示的图像为几何变换后的第三图像时,提取第三图像中落入屏幕上待识别区的文字信息;进一步的,具体为:当屏幕显示的图像为几何变换后的第三图像时,将几何变换后的第三图像中落入屏幕上待识别区的文本区域确定为信息提取区域,根据第一图像的透视变换矩阵对第三图像进行透视变换调整得到正面的第三图像,提取正面的第三图像中信息提取区域的文字信息。
本实施例中,步骤200类似于广角图像自动拼接,可以使用户提取文字的页面范围更广。进一步的,步骤200中所述对第一图像和第二图像进行拼接得到第三图像,具体为对第一图像和第二图像进行降采样提取特征点,其中特征点提取算法可以为采用SIFT,SURF,KAZE,AKAZE,ORB和BRISK中的一种,采用临近点方法进行特征点匹配,获得两幅图中特征点的对应关系,使用RANSAC方法从特征点匹配关系中算出单映矩阵,对第一图像和第二图像进行单映矩阵变换后完成拼接。
一些实施例中,若移动终端本地的文字提取算法无法满足用户需求,还可以使用云端文字提取其他算法。
一些实施例中,步骤S300中,确定所显示图像落入屏幕上待识别区的文本区域为信息提取区域后,若惯性测量单元所检测到当前移动终端的倾斜角超过一定阈值时,则判定被拍摄物不是平面书本,显示提取无效。
一些实施例中,可以对惯性测量单元的数据进行滤波后处理,以避免移动终端中自带的惯性测量单元的质量不达标带来的数据误差。
本发明还提供一种实现移动终端近距离提取文字的系统,包括:
摄像头,用于拍摄含有用户欲识别文字的图像,并将图像发送到显示屏幕、信息储存单元,
惯性测量单元,用于获取移动终端的运动信息,并将运动信息发送到图像处理单元;
信息存储单元,用于缓存摄像头所拍摄的图像;
图像处理单元,用于接收惯性测量单元发送的移动终端的运动信息,并根据运动信息对图像进行几何变换,将几何变换后的图像发送到显示屏幕和文字提取单元;
显示屏幕,用于接收摄像头所拍摄的图像、接收图像处理单元进行几何变换处理后的图像并对图像和待识别区进行显示;
文字提取单元,用于提取几何变换处理后的图像落入待识别区域的文字信息。
进一步的,在一些实施例中,惯性测量单元还用于获取移动终端当前的姿态数据,并将所获取的姿态数据发动到图像处理单元。图像处理单元还用于将对图像透视变换调整为正面的图像。
需要说明的是,本发明所提及的移动终端是指手机、平板电脑、笔记本、POS机等能够在移动中使用的计算机设备。
为方便理解下面通过具体实施例对本发明进行详细说明。
实施例1:
如图2所示,一种实现移动终端近距离提取文字的方法,具体包括:
步骤S100,具体为:
打开摄像头,打开移动终端自带的自动对焦功能,检测当前摄像头获取的画面是否对焦成功,若对焦成功,控制摄像头自动拍下清晰图像,若检测对焦不成功,重新对焦,直至拍摄得到清晰的图像,并将所获取的图像显示到屏幕上;
获取图像的同时利用惯性测量单元获取当前移动终端的姿态数据;
步骤S200,具体为:
利用惯性测量单元实时获取当前移动终端的旋转向量r以及当前移动设备的加速度a和/或角速度w,根据所获取的当前移动设备的旋转向量r以及当前移动设备的加速度a和/或角速度w对屏幕所显示的图像进行平移变换、缩放变换和旋转变换,并在屏幕上实时显示平移变换、缩放变换和旋转变换后的图像。
步骤S300,具体为:
确定所显示图像落入屏幕上待识别区的文本区域为信息提取区域;根据图像的透视变换矩阵对第三图像进行透视变换调整得到正面的图像;提取正面图像中所述信息提取区域的文字信息。
本实施例提供所一种实现移动终端近距离提取文字的方法,是基于用户只对一张图像上的文字进行提取时所采用的一种具体实施方式。
使用该方法提取文字时,用户移动手中的移动终端使摄像头靠近被拍摄对象(带文字的页面),在靠近被拍摄对象过程中,屏幕上显示的图像也会逐渐放大,用户所看到的屏幕画面接近于摄像头实时获取的画面(类似于VR虚拟现实),但是图像放大后,图像中的文字依然保持清晰,用户继续移动手中的移动终端,使需要提取的文字落入屏幕中的待识别区,就可以实现逐个词汇(或单词)的文字提取,整个过程用户只需要单手控制移动终端就可以实现。
实施例2:
如图3所示,一种实现移动终端近距离提取文字的方法,具体包括:
步骤100,具体为:
打开摄像头,打开移动终端自带的自动对焦功能,检测当前摄像头获取的画面是否对焦成功,若对焦成功,控制摄像头自动拍下清晰图像,若检测对焦不成功,重新对焦,直至拍摄得到清晰的图像;
拍摄对焦清晰的第一图像,在拍摄第一图像的同时利用惯性测量单元获取当前移动终端的姿态数据,屏幕显示第一图像;
当惯性测量单元感应到移动终端在运动时,控制摄像头在图像采集周期内采集与第一图像相邻的第二图像,其中第一图像和第二图像具有重叠部分;
步骤S200,具体为:
利用惯性测量单元实时获取当前移动设备的姿态信息以及当前移动设备的加速度a和/或角速度w,根据当前移动设备的姿态信息以及当前移动设备的加速度a和/或角速度w对屏幕所显示的第一图像进行平移变换、缩放变换和旋转变换,同时结合惯性测量单元判断当前移动终端是否移动到第一图像的边缘;
若否,屏幕显示平移变换、缩放变换和旋转变换后的第一图像;
若是,对第一图像和第二图像进行拼接得到第三图像,将当前屏幕所显示的图像切换为第三图像,继续根据当前移动终端的运动信息对第三图像进行平移变换、缩放变换和旋转变换,屏幕显示平移变换、缩放变换和旋转变换后的第三图像;
步骤300,具体为:
当屏幕显示的图像为平移变换、缩放变换和旋转变换后的第一图像时,将平移变换、缩放变换和旋转变换后的第一图像中落入屏幕上待识别区的文本区域确定为信息提取区域,根据第一图像的透视变换矩阵对第一图像进行透视变换调整得到正面的第一图像,提取正面的第一图像中信息提取区域的文字信息;
当屏幕显示的图像为平移变换、缩放变换和旋转变换后的第三图像时,将平移变换、缩放变换和旋转变换后的第三图像中落入屏幕上待识别区的文本区域确定为信息提取区域,根据根据第一图像的透视变换矩阵对第三图像进行透视变调整得到正面的第三图像,提取正面的第三图像中信息提取区域的文字信息。
本实施例提供所一种实现移动终端近距离提取文字的方法,是基于用户需要提取的文字超过一张图像所覆盖的范围时所采用的一种具体实施方式。本实施在开始扫描提取文字之前,将第一图像和与第一图像相邻的第二图像拍摄下来,将第二图缓存到储存单元中,当检测到移动终端运动到第一图像的边缘时,可以对图像进行拼接,继续进行文字提取,使文字提取范围不局限在一张图像中。
以上所述的实施例,只是本发明的较优选的具体方式之一,本领域的技术员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (10)

1.一种实现移动终端近距离提取文字的方法,其特征在于,该方法的步骤包括:打开摄像头,获取含有用户欲识别文字内容的图像,并将所获取的图像显示到屏幕上;
利用惯性测量单元实时获取移动终端的运动信息,根据移动终端的运动信息对屏幕所显示的图像进行几何变换,并在屏幕上实时显示几何变换后的图像;
提取所显示图像中落入屏幕上待识别区的文字信息。
2.根据权利要求1所述实现移动终端近距离提取文字的方法,其特征在于,所述根据移动终端的运动信息对屏幕所显示的图像进行几何变换是指根据移动终端的运动信息对屏幕所显示的图像进行平移变换、缩放变换和旋转变换。
3.根据权利要求2所述实现移动终端近距离提取文字的方法,其特征在于,所述运动信息包括当前移动设备的姿态信息以及当前移动设备的加速度a和/或角速度w。
4.根据权利要求1-3任一项所述实现移动终端近距离提取文字的方法,其特征在于,
所述提取所显示图像中落入屏幕上待识别区的文字信息,具体为:
确定所显示图像落入屏幕上待识别区的文本区域为信息提取区域;
将信息提取区域所在的图像进行透视变换调整为正面图像;
提取正面图像中信息提取区域的文字信息。
5.根据权利要求1-3任一项所述实现移动终端近距离提取文字的方法,其特征在于,所述获取含有用户欲识别文字内容的图像,并将所获取的图像显示到屏幕上,具体为:
拍摄对焦清晰的第一图像,屏幕显示第一图像;
当惯性测量单元检测到移动终端在运动时,控制摄像头在图像采集周期内采集与第一图像相邻的第二图像,其中第一图像和第二图像具有重叠部分;
所述利用惯性测量单元实时获取移动终端的运动信息,根据移动终端的运动信息对屏幕所显示的图像进行几何变换,具体为:
利用惯性测量单元实时获取移动终端的运动信息,根据移动终端的运动信息对屏幕所显示的第一图像进行几何变换,同时结合惯性测量单元判断当前移动终端的摄像头是否移动到第一图像的边缘;
若否,屏幕实时显示几何变换后的第一图像;
若是,对第一图像和第二图像进行拼接得到第三图像,将屏幕所显示的图像切换为第三图像,继续根据当前移动终端的运动信息对第三图像进行几何变换,屏幕实时显示几何变换后的第三图像;
所述提取所显示图像中落入屏幕上待识别区的文字信息,具体为:
当屏幕显示的图像为几何变换后的第一图像时,提取第一图像中落入屏幕上待识别区的文字信息;
当屏幕显示的图像为几何变换后的第三图像时,提取第三图像中落入屏幕上待识别区的文字信息。
6.根据权利要求5所述实现移动终端近距离提取文字的方法,其特征在于,所述当屏幕显示的图像为几何变换后的第一图像时,提取第一图像中落入屏幕上待识别区的文字信息,具体为:
当屏幕显示的图像为几何变换后的第一图像时,将几何变换后的第一图像中落入屏幕上待识别区的文本区域确定为信息提取区域,根据第一图像的透视变换矩阵对第一图像进行透视变换调整得到正面的第一图像,提取正面的第一图像中信息提取区域的文字信息;
所述当屏幕显示的图像为几何变换后的第三图像时,提取第三图像中落入屏幕上待识别区的文字信息,具体为:
当屏幕显示的图像为几何变换后的第三图像时,将几何变换后的第三图像中落入屏幕上待识别区的文本区域确定为信息提取区域,根据第一图像的透视变换矩阵对第三图像进行透视变换调整得到正面的第三图像,提取正面的第三图像中信息提取区域的文字信息。
7.根据权利要求1所述实现移动终端近距离提取文字的方法,其特征在于,所述打开摄像头,拍摄含有用户欲识别文字内容的图像,包括:
打开摄像头,采用自动对焦拍摄清晰的图像。
8.根据权利要求7所述实现移动终端近距离提取文字的方法,其特征在于,所述采用自动对焦方法拍摄清晰的图像,具体为:
开启移动终端自带的自动对焦功能,检测当前摄像头获取的画面是否对焦成功;
若对焦成功,自动拍下清晰的图像;
若对焦不成功,重新对焦。
9.根据权利要求1所述实现移动终端近距离提取文字的方法,其特征在于,所述提取所显示图像中落入屏幕上待识别区的文字信息,包括:
采用基于神经网络的文字提取算法对所显示图像中落入屏幕上待识别区的文字信息进行提取。
10.一种实现移动终端近距离提取文字的系统,其特征在于,包括:
摄像头,用于拍摄获取含有用户欲识别文字的图像,并将图像发送到显示屏幕、信息储存单元,
惯性测量单元,用于获取移动终端的运动信息,并将运动信息发送到图像处理单元;
信息储存单元,用于存储摄像头所拍摄的图像;
图像处理单元,用于接收惯性测量单元发送的移动终端的运动信息,并根据运动信息对图像进行几何变换,将几何变换后的图像发送到显示屏幕和文字提取单元;
显示屏幕,用于接收摄像头所拍摄的图像、接收图像处理单元进行几何变换处理后的图像并对图像和待识别区进行显示;
文字提取单元,用于提取几何变换处理后的图像落入待识别区域的文字信息。
CN202110016779.6A 2021-01-07 2021-01-07 一种实现移动终端近距离提取文字的方法及系统 Active CN112861850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110016779.6A CN112861850B (zh) 2021-01-07 2021-01-07 一种实现移动终端近距离提取文字的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110016779.6A CN112861850B (zh) 2021-01-07 2021-01-07 一种实现移动终端近距离提取文字的方法及系统

Publications (2)

Publication Number Publication Date
CN112861850A true CN112861850A (zh) 2021-05-28
CN112861850B CN112861850B (zh) 2024-02-23

Family

ID=76004570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110016779.6A Active CN112861850B (zh) 2021-01-07 2021-01-07 一种实现移动终端近距离提取文字的方法及系统

Country Status (1)

Country Link
CN (1) CN112861850B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486892A (zh) * 2021-07-02 2021-10-08 东北大学 基于智能手机图像识别的生产信息采集方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004338889A (ja) * 2003-05-16 2004-12-02 Hitachi Ltd 映像認識装置
KR20060105930A (ko) * 2005-04-01 2006-10-12 엘지전자 주식회사 카메라 폰에서의 문자 인식 장치 및 방법
CN103248822A (zh) * 2013-03-29 2013-08-14 东莞宇龙通信科技有限公司 摄像终端的对焦方法及摄像终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004338889A (ja) * 2003-05-16 2004-12-02 Hitachi Ltd 映像認識装置
KR20060105930A (ko) * 2005-04-01 2006-10-12 엘지전자 주식회사 카메라 폰에서의 문자 인식 장치 및 방법
CN103248822A (zh) * 2013-03-29 2013-08-14 东莞宇龙通信科技有限公司 摄像终端的对焦方法及摄像终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李清霞;: "交互式儿童视力保护视频智能终端设计", 软件工程, no. 04 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486892A (zh) * 2021-07-02 2021-10-08 东北大学 基于智能手机图像识别的生产信息采集方法及系统
CN113486892B (zh) * 2021-07-02 2023-11-28 东北大学 基于智能手机图像识别的生产信息采集方法及系统

Also Published As

Publication number Publication date
CN112861850B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
US20230132407A1 (en) Method and device of video virtual background image processing and computer apparatus
CN108932051B (zh) 增强现实图像处理方法、装置及存储介质
CN111479065B (zh) 相机视场角同步方法及装置、图像拍摄方法及装置
CN108090463B (zh) 对象控制方法、装置、存储介质和计算机设备
CN111277760B (zh) 一种拍摄构图方法及终端、存储介质
CN104052923A (zh) 拍摄设备、图像显示设备和图像显示设备的显示控制方法
CN109257537B (zh) 基于智能笔的拍照方法、装置、智能笔及存储介质
CN111242988B (zh) 一种广角相机与长焦相机联动双云台跟踪目标的方法
CN113875220B (zh) 拍摄防抖方法、装置、终端及存储介质
CN111741223B (zh) 一种全景图像拍摄方法、装置和系统
CN112640419B (zh) 跟随方法、可移动平台、设备和存储介质
WO2017128750A1 (zh) 一种图像采集方法和图像采集装置
CN114125268A (zh) 对焦方法及装置
CN112861850B (zh) 一种实现移动终端近距离提取文字的方法及系统
CN112995507A (zh) 提示对象位置的方法及装置
CN110650284B (zh) 图像拍摄控制方法、装置、设备及存储介质
JP6283329B2 (ja) 拡張現実対象認識装置
JP2024504159A (ja) 撮影方法、装置、電子機器及び可読記憶媒体
CN116684647B (zh) 视频实时传输场景下的设备控制方法、系统及设备
JP6483661B2 (ja) 撮像制御装置、撮像制御方法およびプログラム
CN111050081A (zh) 拍摄方法及电子设备
CN111061123A (zh) 一种旅游景观展示的旋转全景成像系统及使用方法
CN115496664A (zh) 一种模型训练方法、装置、电子设备及可读存储介质
CN112672058A (zh) 拍摄方法及装置
CN111656763B (zh) 图像采集控制方法,图像采集控制设备和可移动平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant