CN109325493A - 一种基于人形机器人的文字识别方法及人形机器人 - Google Patents
一种基于人形机器人的文字识别方法及人形机器人 Download PDFInfo
- Publication number
- CN109325493A CN109325493A CN201810967307.7A CN201810967307A CN109325493A CN 109325493 A CN109325493 A CN 109325493A CN 201810967307 A CN201810967307 A CN 201810967307A CN 109325493 A CN109325493 A CN 109325493A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- anthropomorphic robot
- character
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于人形机器人的文字识别方法及人形机器人。其中,所述方法包括:人形机器人获取文字图像,进而采用开源计算机视觉库方式,对该获取的文字图像进行图像处理,得到黑白效果的图像,进而对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。通过上述方式,能够实现人形机器人能够对文字进行识别,填补了人形机器人在文字识别领域的空白。
Description
技术领域
本发明涉及机器人技术领域,尤其涉及一种基于人形机器人的文字识别方法及人形机器人。
背景技术
人形机器人例如NAO机器人是最广泛运用在学术领域世界范围内的类人机器人,也是现今最智能的开源机器人。NAO机器人有很多优良的接口,可以适用于市面上的各种应用。
人形机器人例如NAO机器人的开发研制Aldebaran Robotics公司对高等教育项目开放了NAO机器人的技术,并且为支持在机器人及其应用领域的教学项目于2010年成立专属基金会。人形机器人例如NAO机器人是基于可视化指令块编程,用户可以运用各种复杂程度的编程程序来探索各种领域、并达到用户想要体验的各种效果。
生活的各个领域都有人形机器人例如NAO机器人的存在,比如担任机场导游。例如,2016年3月,精通日文、英文及中文的NAO机器人有了新的工作,它被安排在日本成田机场为访日游客提供服务,工作地点为该机场的三菱东京UFJ银行分店,安置在外币兑换窗口前的NAO机器人可以用三种语言告知游客实时汇率、介绍机场内的设施、提供当地的新闻、习俗和天气状况,帮助他们在机场得到便捷快速的讯息。
随着当代社会的智能化发展,人形机器人的开发研制应用显得尤为重要。在学术上,人工智能的超高运算速度有利于推动学术研究的发展;在生产上可以代替劳动力进行枯燥的重复性工作,提供即精确又高效的服务;在生活上能够帮助人们提高个人生活质量,享受高科技带来的便捷。人形机器人可应用在生活的各个方面:在家中,可以自动调节室内温度、控制电器的运行、清理卫生和准备膳食;在餐厅,能够自动配餐、整理餐具;在学校可以带领学生做早操,给学生上课演讲;在医院能够陪病人聊天进行简单的看护和喂饭。往后,人形机器人必然是以更加强势的姿态占领我们的生活。但是,现有的人形机器人在文字识别领域是空白,无法实现对文字进行识别。
发明内容
有鉴于此,本发明的目的在于提出一种基于人形机器人的文字识别方法及人形机器人,能够实现人形机器人能够对文字进行识别,填补了人形机器人在文字识别领域的空白。
根据本发明的一个方面,提供一种基于人形机器人的文字识别方法,包括:
人形机器人获取文字图像;
采用开源计算机视觉库方式,对所述获取的文字图像进行图像处理,得到黑白效果的图像;
对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
其中,所述人形机器人对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息,包括:
人形机器人采用超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
其中,所述人形机器人采用超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息,包括:
人形机器人采用超立方体网络的光学字符识别方式训练字库,并采用经训练字库后的超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
其中,在所述人形机器人对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息之后,还包括:
人形机器人通过应用程序编程接口语音输出所述识别出的文字和控制机械手臂书写所述识别出的文字。
其中,所述人形机器人通过应用程序编程接口语音输出所述识别出的文字和控制机械手臂书写所述识别出的文字,包括:
人形机器人通过应用程序编程接口语音输出所述识别出的文字和通过逆运动学确认机械手臂的关节值,根据所述确认的机械手臂的关节值,控制机械手臂书写所述识别出的文字。
根据本发明的另一个方面,提供一种人形机器人,包括:
传感系统、信息处理系统和识别系统;
所述传感系统,用于获取文字图像;
所述信息处理系统,用于采用开源计算机视觉库方式,对所述获取的文字图像进行图像处理,得到黑白效果的图像;
所述识别系统,用于对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
其中,所述识别系统,具体用于:
采用超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
其中,所述识别系统,具体用于:
采用超立方体网络的光学字符识别方式训练字库,并采用经训练字库后的超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
其中,所述人形机器人,还包括:
控制系统,用于通过应用程序编程接口语音输出所述识别出的文字和控制机械手臂书写所述识别出的文字。
其中,所述控制系统,具体用于:
通过应用程序编程接口语音输出所述识别出的文字和通过逆运动学确认机械手臂的关节值,根据所述确认的机械手臂的关节值,控制机械手臂书写所述识别出的文字。
可以发现,以上方案,人形机器人可以对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息,能够实现人形机器人能够对文字进行识别,填补了人形机器人在文字识别领域的空白。
进一步的,以上方案,人形机器人可以通过应用程序编程接口语音输出该识别出的文字和控制机械手臂书写该识别出的文字,能够实现人形机器人能够对识别出的文字进行读写。
附图说明
图1是本发明基于人形机器人的文字识别方法一实施例的流程示意图;
图2是本发明基于人形机器人的文字识别方法一实施例中人形机器人采用开源计算机视觉库方式对该获取的文字图像进行图像灰度化的图像处理后的图像的一举例示意图;
图3是本发明基于人形机器人的文字识别方法一实施例中人形机器人采用开源计算机视觉库方式对经图像灰度化处理后的图像进行图像二值化的图像处理后的图像的一举例示意图;
图4是本发明基于人形机器人的文字识别方法一实施例中人形机器人采用开源计算机视觉库方式对经图像二值化处理后的图像进行图像平滑去噪的图像处理后的图像的一举例示意图;
图5是本发明基于人形机器人的文字识别方法另一实施例的流程示意图;
图6是本发明基于人形机器人的文字识别方法另一实施例中人形机器人书写“大”字过程的一举例示意图;
图7是本发明人形机器人一实施例的结构示意图;
图8是本发明人形机器人另一实施例的结构示意图;
图9是本发明人形机器人又一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种基于人形机器人的文字识别方法,能够实现人形机器人能够对文字进行识别,填补了人形机器人在文字识别领域的空白。
请参见图1,图1是本发明基于人形机器人的文字识别方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:人形机器人获取文字图像。
S102:人形机器人采用OpenCV(开源计算机视觉库)方式,对该获取的文字图像进行图像处理,得到黑白效果的图像。
其中,该人形机器人采用开源计算机视觉库方式,对该获取的文字图像进行图像处理,得到黑白效果的图像,可以包括:
人形机器人采用开源计算机视觉库方式,对该获取的文字图像进行图像灰度化、图像二值化、图像平滑去噪等的图像处理,得到黑白效果的图像。
请参见图2,图2是本发明基于人形机器人的文字识别方法一实施例中人形机器人采用开源计算机视觉库方式对该获取的文字图像进行图像灰度化的图像处理后的图像的一举例示意图。如图2所示,图像的灰度化是将彩色图像转换成为灰色图。OpenCV图像像素遵循三原色模型,R(Red,红色)、G(Green,绿色)、B(Blue,蓝色)是色彩的三原色,当RGB三值相等时,彩色表现为灰色,R、G、B三者相等时的值叫灰度值,灰度范围为0-255。
在本实施例中,一张RGB图像中的像素颜色是由R、G、B数值的比重和大小来决定,每个量的取值范围是0到255,所以每个个像素点会拥有1600多万颜色变换的可能性,如果转换成灰度图像,每个像素点的变化范围就会骤降为0至255,所以预先将彩色图像的像素转换为灰度值图像的处理,像素可以极大的缩小它的计算量。并且灰度图像的转化仍然可以反映图像的局部色度和亮度等级的分布,并进行识别时精确度更高。
在本实施例中,OpenCV中采用cvCvtColor函数,将三个函数参数设置为CV_BGR2GRAY来完成图像的灰度化。反色的原理:求得图片的像素值S,再运行像素的减法255-S来反色,并存入路径;灰度图像一般只会有一个一个通道即gay2[a,b]=(255-gay[a,b]);而彩色图片拥有三种通道,即255-gay[a,b][0],255-gay[a,b][1],255-gay[a,b][2]。
请参见图3,图3是本发明基于人形机器人的文字识别方法一实施例中人形机器人采用开源计算机视觉库方式对经图像灰度化处理后的图像进行图像二值化的图像处理后的图像的一举例示意图。如图3所示,在对图像进行一些特征获取之前,必须先对图像进行二值化处理。图像的二值化就是将彩色图片转换为黑白效果的图片,可以将图像的像素点设置量大为减少,使得目标轮廓更为明显的呈现出来。
在本实施例中,图像二值化的原理,可以包括:
图像的二值化就是将目标图像进行黑白化处理,调用相应的函数,将像素点的灰度值调为最大255或者最小0,再利用阈值的微调灰度图像来获取仍然可以二值化的图像,这样可以保证图像的整体性与特征性的完整。为了获取到理想的二值图像,函数通常会利用封闭连通的边界来定义目标的不重叠区域。只要是发现灰度小于阈值的,被视为特征目标遗弃的像素点,将其灰度值设置为0,被函数定义背景或者特征目标所在的区域;特征目标是灰度大于或等于阈值的像素,将其灰度值为255表示。当目标灰度值越均匀,相似度越高,或者像素点值接近阈值,则通过阈值法得到的分割效果越发明显。如果目标和背景的差别表现在纹理等非灰度值特征上时,可以将其强行转换为灰度的差值,再利用阈值选取技术来分割该图像。
下面是五个常用的图像阈值设定函数,分别用来处理Webots里的获取的图像以观察效果,Webots是Cyberbotics公司出品的便携式机器人仿真平台,可运行在windows,Mac和Linux上,内建3D编辑器,可构建3D机器人模型和人形机器人模型等。假如设定的阈值量为x:
一、二进制阈值化(cv2.THRESH_BINARY):灰度值大于x的像素点的灰度值设为255,小于x的像素点设为0。
二、反二进制阈值化(cv2.THRESH_BINARY_INV):灰度值大于x的像素点的灰度值设为0,小于x的像素点设为255。
三、截断阈值化(cv2.THRESH_TRUNC):灰度值小于x的像素点不改变,其余像素点灰度值设定为x。
四、阈值化为0(cv2.THRESH_TOZERO):像素点的灰度值小于x的保持不变,其余灰度值变为0。
五、反阈值化为0(cv2.THRESH_TOZERO_INV):灰度值大于x的像素点保持,剩下像素点的灰度值变为0。
请参见图4,图4是本发明基于人形机器人的文字识别方法一实施例中人形机器人采用开源计算机视觉库方式对经图像二值化处理后的图像进行图像平滑去噪的图像处理后的图像的一举例示意图。如图4所示,最常见的图像噪声是因为在图像生成过程中因为模拟或者数字信号受到干扰而产生的,常见的噪声类型有:椒盐噪声、高斯噪声、泊松噪声、乘性噪声。椒盐噪声主要是图像切割引起的,随机改变图像一些像素值,是黑白相间的亮暗点噪声。高斯噪声产生的原因主要有:
1、摄像头在拍摄时环境不够明亮、亮度不够均匀;
2、电路各元器件自身产生的噪声和相互影响;
3、摄像头长期工作,温度过高。泊松噪声产生受到摄像头在一定时间内受到的服务请求的次数的影响。乘性噪声一般由信道不理想引起,它们与信号的关系是相乘的。
在本实施例中,去除图像噪声有四种常用的滤波器,均值滤波器:输出像素值由输出的像素点及窗口中的平均像素值所替代。高斯滤波器:将输入数组的各个像素点分别与高斯内核卷积的值作为它输出的像素值。中值滤波器:用像素点的邻域像素的中值代替输出,去除跳变点非常有效,适合去除椒盐噪声。双边滤波器:在免除使图像去噪的过程也可以模糊边缘。
在本实施例中,OpenCV里有五个封装函数,对应的是五个常用的图像平滑去噪方法,分别是:boxblur函数(方框滤波)、blur函数(均值滤波)、GaussianBlur函数(高斯滤波)、medianBlur函数(中值滤波)、bilateralFilter函数(双边滤波)。人形机器人拍摄的图像主要噪声是因光线的强弱产生的,这里针对高斯噪声进行去噪处理,可以优先选用GaussianBlur函数进行图像平滑去噪的图像处理。
S103:人形机器人对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
其中,该人形机器人对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息,可以包括:
人形机器人采用Tesseract-OCR(Tesseract-Optical Character Recognition,超立方体网络的光学字符识别)方式,对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
其中,人形机器人采用Tesseract-OCR方式,对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息,可以包括:
人形机器人采用Tesseract-OCR方式训练字库,并采用经训练字库后的Tesseract-OCR方式,对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
其中,在该人形机器人对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息之后,还可以包括:
人形机器人通过API(Application Programming Interface,应用程序编程接口)接口语音输出该识别出的文字和控制机械手臂书写该识别出的文字。
在本实施例中,光学字符识别OCR是基于模式识别的利用计算机和光学系统对图像信息进行识别的技术。将文字扫描成为图像,根据信息论所涉及的知识,“图像”是包含大量的信息和广泛的内容,模式识别即是根据大量信息中的少量信息,自动处理这些特定信息的系统,可以用计算机来代替人进行图像分类和对物体识别。在图像识别看来,系统采用从物体中移除与其他物体相同内容进行研究,并且根据这种共性,把同一个共性归为一类,其他的共性归为另一类,以此类推划分进行识别。
在本实施例中,光学字符识别OCR技术基本分为统计、逻辑判断和句法三大类识别方法,模板匹配法和几何特征抽取法是两种常用的方法:
一、模板匹配法:将输入的文字与给定的模板进行相关性匹配,通过计算他们的相似性程度来确定最后识别结果是相似度最大的那个类别。该方法的缺点是,标准文字模板的数量会随被识别类别数增加而增加,会加大占用的机器存储容量并且降低识别的正确率。优点是使用整个文字进行相似度计算,所以对含有边缘噪声的或者不完整的文字有较好识别能力,固定字型的印刷体文字适合使用该方法识别。
二、几何特征抽取法:在文字中抽取闭合环路、凹凸部分、端点、分叉点等几何特征,根据特征的位置及相互关系的逻辑组合判断得出识别结果。依赖于结构信息的识别方式使它对于手写体这样字型变化较大的文字同样适用。
基于以上模板匹配法和几何特征抽取法两个方法的优缺点,这里优先选择模板匹配法来进行文字的识别。超立方体网络Tesseract则是其中很优秀的文字识别引擎。
在本实施例中,光学字符识别OCR技术对图像的模式识别过程,可以分为四步:
一、图像预处理:为尽可能精确识别图像,需要进行去除干扰及噪声的预处理,并且当信息较弱导致无法识别时,要对图像进行强化、几何调整和校正颜色。
二、图像分割:为了从图像中找到待识别的物体,需要进行定位和分离获得不同的单个或多个待识别物体,将完整图像转为像元图像输出。
三、特征抽取:从待识别物体提取出必要的特征,计算并测量获得的参数信息,然后根据测量结果对识别物体进行分类。最后把信息图像转为信息量较少的特征信息输出,虽然这些特征信息可以表示识别物体,但并不能据此恢复成原始对象。
四、图像分类:根据上述第三步中提取到的特征值信息进行模式识别,将待识别物体分类,方便进一步来解释图像的重要信息。该过程将输入的特征信息转为具体类别名称输出。
在本实施例中,光学字符识别OCR技术对图像的模式识别过程是用来比较需要识别的图像与标准图像,以确定它们是否相似,从而确定要识别的图像属于哪个类别。接下来对两类别和多类别的情况进行分别讨论,这两种情况均使用最小距离算法,本实施例以识别以多类别的情况作为实际情况为例。
在本实施例中,标准文字的特征向量在数学中可表示成n维向量,待识别的文字用Z表示,它的特征向量表示为,判别Z的类别时,计算Z与两个模板之间的距离,值更小的那个类就是Z的类别。
在本实施例中,超立方体网络Tesseract拥有强大的功能,它可分为两个部分:图像布局分析和字符分割与识别。前者是字符识别的准备工作,为区分图像表,文本和图像的内容,采用的页面布局分析方法是基于制表位检测的分析方法。后半部分的字符分割和识别是Tesseract的总体设计目标,它拥有较为繁琐的工作内容。
在本实施例中,超立方体网络Tesseract在字符切割部分,Tesseract采用的策略分两步进行:
1、通过分割字符间的空格进行粗略划分,获取大多数字符,分割得到的字符有部分是粘连或者分割不正确的,但是可根据确定字符的区域类型与字符库中的识别字符做比较来完成第一次字符识别;
2、由识别的字符,可以把粘贴的字符进行分割,把不正确的字符进行合并,从而实现字符的精细切割(好处)。也可以将整个分割识别过程细化为四个部分:分析连通区域、找到块区域、找文本行和单词、得出文本。
在本实施例中,实现超立方体网络Tesseract功能的原理,可以包括:
调用Init()方法对引擎初始化、用setImage()方法确定图形流的信息、通过getUTF8Text()方法获得text信息、再通过使用recognizedText类中的trim()和length()等方法来判断text的正确性,最后输出结果。
在本实施例中,超立方体网络Tesseract引擎有两种使用方法,一种是像PyTesser一样通过tesseract与shell通信来完成文字识别过程;另一种是通过像Windows下的DLL这样的动态链接库实现的。具体的使用方法为:直接用Python调用函数pytesseract进行简单识别,但为了提供效率和使结果可以保存下来,封装一个函数,实现的功能为识别图片中的文字并把结果写入新建的同名txt文档中,而且可以通过调用时的参数来选择是否输出识别信息及是否自动删除txt文档。此外,在识别图像中的文字时,Tesseract对于tif格式的图像识别效果比较好,所以需要将jpg格式转存为tif格式。在这里调用选择不删除txt文件的前提下,打印识别出的文本并提供高级参数。
在本实施例中,使用超立方体网络Tesseract原有的chi_sim.traindata中文字库进行识别时,误差会比较大,会有部分复杂字识别为一个字,简单笔画的字不能判定为“字”的情况出现,所以要训练个人字库提高识别率。
在本实施例中,调用之前封装好的函数时,有三种选择方式:打印识别出的文本,然后删除txt文件;打印识别出的文本,并保留txt文件;打印识别出的文本,保存txt文件的同时提供高级参数,在这里选择使用使用第三种调用方法。在识别图像中的文字时,因为Tesseract对于tif格式的图像识别效果比较好,所以需要将jpg格式转存为tif格式。
在本实施例中,训练前的原始字库会有识别率很低,部分复杂字识别为一个字,简单笔画的字不能判定为“字”的情况出现,在训练个人字库之前,可以先通过webots世界里墙壁上的字进行识别,观察识别效果。
在本实施例中,为了直观简洁地了解如何训练字库,可以将训练过程分为具体的几步,在cmd中用命令行执行,并且在Tesseract专用的训练软件-jtessboxeditor平台上修改识别信息,以下介绍从准备工作开始的步骤:
一、训练前的准备工作:1、下载Tesseract-OCR引擎,选择3.0以上版本。2、下载chi_sim.traindata中文字库,放到Tesseract安装目录下的tessdata文件夹里面。3、下载用来训练字库的软件-jTessBoxEditor,因为它是基于java虚拟机运行的,所以还要下载并安装一个java虚拟机。
二、准备tif训练文件:首先打开jtessboxeditor,点击Tools->Merge Tiff,选择要识别的tif文件另存重名格式为[lang].[fontname].exp[num].tif,其中lang是语言fontname是字体,在这里训练自定义字库:zc(姓名缩写便于区分)字体名:normal,那么我们把图片文件重命名zc.normal.exp0.tif。
三、生成box文件:执行以下命令,可以生成包含了Tesseract的识别出的字符信息的box文件可以在jTessBoxEditor打开手动校正识别信息。
四、修改box文件:训练前的“字”的标定范围误差很大,导致识别出来的内容和实际有较大出入,我们需要手动重新标定“字”的范围,并对识别不准确的内容进行更改。
五、生成字体属性文本文档:执行命令生成无扩展名的font_properties文本文档,文档中的0代表字体的斜体、粗体等属性。
六、生成训练及字符集文件:执行以下语句生成所需的zc.normal.exp0.tr训练文件生成名为unicharset的字符集文件。
七、shape文件的生成:cmd命令行执行语句。
八、聚集字符特征文件,本次需要生成unicharset、inttemp、pffmtable三个文件。
九、生成字符正常化特征文件:执行以下命令,生成normproto文件。
十、特征文件更名:执行以下五条命令命令,把八、九步生成的特征文件进行更名。
十一、合并训练文件,在合并训练文件时需要注意以下三点:1、为了可以被tesseract找到,normal.traineddata文件最终要放到Tesseract下的tessdata目录下。2、命令行最后必须有“.”。3、只有执行结果中的1,3,4,5,13行有数值,说明命令执行成功。
十二、测试使用:最后执行把识别结果放入文本文档output中,打开output文档查看训练之后的结果。
在本实施例中,字库训练为了简洁直观只选用了一个样本,实际训练过程中会有多个样本需要训练,与单个样本不同的是要在第二步需要先把全部的tif文件生成一个新的tif文件,并把生成的tif合并到新的目录下,再按照第三步往后开始对新的tif文件进行操作。
可以发现,在本实施例中,人形机器人可以对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息,能够实现人形机器人能够对文字进行识别,填补了人形机器人在文字识别领域的空白。
进一步的,在本实施例中,人形机器人可以通过应用程序编程接口语音输出该识别出的文字和控制机械手臂书写该识别出的文字,能够实现人形机器人能够对识别出的文字进行读写。
请参见图5,图5是本发明基于人形机器人的文字识别方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S501:人形机器人获取文字图像。
S502:人形机器人采用开源计算机视觉库方式,对该获取的文字图像进行图像处理,得到黑白效果的图像。
可如上S102所述,在此不作赘述。
S503:人形机器人对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
可如上S103所述,在此不作赘述。
S504:人形机器人通过应用程序编程接口语音输出该识别出的文字和控制机械手臂书写该识别出的文字。
其中,该人形机器人通过应用程序编程接口语音输出该识别出的文字和控制机械手臂书写该识别出的文字,可以包括:
人形机器人通过应用程序编程接口语音输出该识别出的文字和通过逆运动学确认机械手臂的关节值,根据该确认的机械手臂的关节值,控制机械手臂书写该识别出的文字。
在本实施例中,该人形机器人通过应用程序编程接口语音输出该识别出的文字,可以包括:
人形机器人在进行文字书写前还需读出相应的字,因为人形机器人的API中有语音熟悉函数,这里只需要调用时注意在代码最上方加上“#-*-encoding:UTF-8-*-”,同时需要登录人形机器人的IP(Internet Protocol,网络之间互连的协议)来更改他的语言系统使之可以读中文。
在文字识别处理过后,识别信息被放到了文本文档中,语音读取并将文档里的信息传给判断函数,当识别正确时直接语音读出,失败时则语音输出“未能正确识别该文字”。
在本实施例中,该人形机器人控制机械手臂书写该识别出的文字,可以包括:
正式写字前需要让人形机器人先握住笔,其手部与其他关节值不一样,可变动范围可以设置为“0-1”,“1”代表手指张开,“0”表示握紧,具体设定的值要根据不同粗细的笔来更改。如果值过大,人形机器人的手无法握牢笔,无法正常书写,但如果值过小,人形机器人的手臂马达为了达到预设的值会使电机过热,所以要根据实验的实际情形随时调整。
文字书写部分需要根据字的笔画的位置,根据逆运动学确认机械手臂的关节值,在书写时手的位置在同一个平面,主要需要获的值:控制左或右上臂伸展的“RShoulderRoll”、控制左或右小臂伸展的“RElbowRoll”以及控制手腕旋转来完成提笔落笔的“RWristYaw”。
请参见图6,图6是本发明基于人形机器人的文字识别方法另一实施例中人形机器人书写“大”字过程的一举例示意图。如图6所示,人形机器人的书写过程可以分为:起始位置准备、握笔、落笔、书写、起笔、在书写下一笔画,完成后人形机器人抬起头来。在本实施例中,可以通过仿真平台的进行写字模拟,但是介于仿真世界里没有可以写出字迹的笔,只可以观测人形机器人机械手部的运动轨迹。
可以发现,在本实施例中,人形机器人可以对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息,能够实现人形机器人能够对文字进行识别,填补了人形机器人在文字识别领域的空白。
进一步的,在本实施例中,人形机器人可以通过应用程序编程接口语音输出该识别出的文字和控制机械手臂书写该识别出的文字,能够实现人形机器人能够对识别出的文字进行读写。
本发明还提供一种人形机器人,能够实现人形机器人能够对文字进行识别,填补了人形机器人在文字识别领域的空白。
请参见图7,图7是本发明人形机器人一实施例的结构示意图。本实施例中,该人形机器人70为上述实施例中的人形机器人,该人形机器人70包括传感系统71、信息处理系统72、识别系统73。
该传感系统71,用于获取文字图像。
该信息处理系统72,用于采用开源计算机视觉库方式,对该获取的文字图像进行图像处理,得到黑白效果的图像。
该识别系统73,用于对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
可选地,该信息处理系统72,可以具体用于:
采用开源计算机视觉库方式,对该获取的文字图像进行图像灰度化、图像二值化、图像平滑去噪等的图像处理,得到黑白效果的图像。
可选地,该识别系统73,可以具体用于:
采用超立方体网络的光学字符识别方式,对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
可选地,该识别系统73,可以具体用于:
采用超立方体网络的光学字符识别方式训练字库,并采用经训练字库后的超立方体网络的光学字符识别方式,对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
请参见图8,图8是本发明人形机器人另一实施例的结构示意图。区别于上一实施例,本实施例所述人形机器人80还包括:控制系统81。
该控制系统81,用于通过应用程序编程接口语音输出该识别出的文字和控制机械手臂书写该识别出的文字。
可选地,该控制系统81,可以具体用于:
通过应用程序编程接口语音输出该识别出的文字和通过逆运动学确认机械手臂的关节值,根据该确认的机械手臂的关节值,控制机械手臂书写该识别出的文字。
该人形机器人70/80的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
请参见图9,图9是本发明人形机器人又一实施例的结构示意图。该人形机器人的各个单元模块可以分别执行上述方法实施例中对应步骤。相关内容请参见上述方法中的详细说明,在此不再赘叙。
本实施例中,该人形机器人包括:处理器91、与处理器91耦合的存储器92、识别器93及控制器94。
该处理器91,用于获取文字图像,并采用开源计算机视觉库方式,对该获取的文字图像进行图像处理,得到黑白效果的图像。
该存储器92,用于存储操作系统、该处理器91执行的指令等。
该识别器93,用于对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
该控制器94,用于通过应用程序编程接口语音输出该识别出的文字和控制机械手臂书写该识别出的文字。
可选地,该处理器91,可以具体用于:
采用开源计算机视觉库方式,对该获取的文字图像进行图像灰度化、图像二值化、图像平滑去噪等的图像处理,得到黑白效果的图像。
可选地,该识别器93,可以具体用于:
采用超立方体网络的光学字符识别方式,对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
可选地,该识别器93,可以具体用于:
采用超立方体网络的光学字符识别方式训练字库,并采用经训练字库后的超立方体网络的光学字符识别方式,对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息。
可选地,该控制器94,可以具体用于:
通过应用程序编程接口语音输出该识别出的文字和通过逆运动学确认机械手臂的关节值,根据该确认的机械手臂的关节值,控制机械手臂书写该识别出的文字。
可以发现,以上方案,人形机器人可以对该得到的黑白效果的图像进行文字识别,识别出该图像中的文字信息,能够实现人形机器人能够对文字进行识别,填补了人形机器人在文字识别领域的空白。
进一步的,以上方案,人形机器人可以通过应用程序编程接口语音输出该识别出的文字和控制机械手臂书写该识别出的文字,能够实现人形机器人能够对识别出的文字进行读写。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于人形机器人的文字识别方法,其特征在于,包括:
人形机器人获取文字图像;
采用开源计算机视觉库方式,对所述获取的文字图像进行图像处理,得到黑白效果的图像;
对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
2.如权利要求1所述的基于人形机器人的文字识别方法,其特征在于,所述人形机器人对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息,包括:
人形机器人采用超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
3.如权利要求1或2所述的基于人形机器人的文字识别方法,其特征在于,所述人形机器人采用超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息,包括:
人形机器人采用超立方体网络的光学字符识别方式训练字库,并采用经训练字库后的超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
4.如权利要求3所述的基于人形机器人的文字识别方法,其特征在于,在所述人形机器人对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息之后,还包括:
人形机器人通过应用程序编程接口语音输出所述识别出的文字和控制机械手臂书写所述识别出的文字。
5.如权利要求4所述的基于人形机器人的文字识别方法,其特征在于,所述人形机器人通过应用程序编程接口语音输出所述识别出的文字和控制机械手臂书写所述识别出的文字,包括:
人形机器人通过应用程序编程接口语音输出所述识别出的文字和通过逆运动学确认机械手臂的关节值,根据所述确认的机械手臂的关节值,控制机械手臂书写所述识别出的文字。
6.一种人形机器人,其特征在于,包括:
传感系统、信息处理系统和识别系统;
所述传感系统,用于获取文字图像;
所述信息处理系统,用于采用开源计算机视觉库方式,对所述获取的文字图像进行图像处理,得到黑白效果的图像;
所述识别系统,用于对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
7.如权利要求6所述的人形机器人,其特征在于,所述识别系统,具体用于:
采用超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
8.如权利要求6或7所述的人形机器人,其特征在于,所述识别系统,具体用于:
采用超立方体网络的光学字符识别方式训练字库,并采用经训练字库后的超立方体网络的光学字符识别方式,对所述得到的黑白效果的图像进行文字识别,识别出所述图像中的文字信息。
9.如权利要求8所述的人形机器人,其特征在于,所述人形机器人,还包括:
控制系统,用于通过应用程序编程接口语音输出所述识别出的文字和控制机械手臂书写所述识别出的文字。
10.如权利要求9所述的人形机器人,其特征在于,所述控制系统,具体用于:
通过应用程序编程接口语音输出所述识别出的文字和通过逆运动学确认机械手臂的关节值,根据所述确认的机械手臂的关节值,控制机械手臂书写所述识别出的文字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810967307.7A CN109325493A (zh) | 2018-08-23 | 2018-08-23 | 一种基于人形机器人的文字识别方法及人形机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810967307.7A CN109325493A (zh) | 2018-08-23 | 2018-08-23 | 一种基于人形机器人的文字识别方法及人形机器人 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109325493A true CN109325493A (zh) | 2019-02-12 |
Family
ID=65263749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810967307.7A Pending CN109325493A (zh) | 2018-08-23 | 2018-08-23 | 一种基于人形机器人的文字识别方法及人形机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325493A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298287A (zh) * | 2019-06-24 | 2019-10-01 | 国网上海市电力公司 | 一种基于深度学习的电力设备自动识别方法 |
CN112712085A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨工业大学 | 一种提取多语言pdf文档中日期的方法 |
CN112801098A (zh) * | 2019-11-14 | 2021-05-14 | 临沂市拓普网络股份有限公司 | 一种基于轮廓技术的数学符号识别方法 |
WO2021184692A1 (zh) * | 2020-03-16 | 2021-09-23 | 五邑大学 | 一种文件分类协作机器人及基于其的图像文字识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2915406Y (zh) * | 2006-06-02 | 2007-06-27 | 上海市奉贤中学 | 一种能写字的机器人 |
CN105260751A (zh) * | 2015-11-02 | 2016-01-20 | 冯清亮 | 一种文字识别方法及其系统 |
CN105956588A (zh) * | 2016-04-21 | 2016-09-21 | 深圳前海勇艺达机器人有限公司 | 智能扫描及朗读文字的方法及其机器人装置 |
-
2018
- 2018-08-23 CN CN201810967307.7A patent/CN109325493A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2915406Y (zh) * | 2006-06-02 | 2007-06-27 | 上海市奉贤中学 | 一种能写字的机器人 |
CN105260751A (zh) * | 2015-11-02 | 2016-01-20 | 冯清亮 | 一种文字识别方法及其系统 |
CN105956588A (zh) * | 2016-04-21 | 2016-09-21 | 深圳前海勇艺达机器人有限公司 | 智能扫描及朗读文字的方法及其机器人装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298287A (zh) * | 2019-06-24 | 2019-10-01 | 国网上海市电力公司 | 一种基于深度学习的电力设备自动识别方法 |
CN112801098A (zh) * | 2019-11-14 | 2021-05-14 | 临沂市拓普网络股份有限公司 | 一种基于轮廓技术的数学符号识别方法 |
CN112801098B (zh) * | 2019-11-14 | 2023-01-10 | 临沂市拓普网络股份有限公司 | 一种基于轮廓技术的数学符号识别方法 |
WO2021184692A1 (zh) * | 2020-03-16 | 2021-09-23 | 五邑大学 | 一种文件分类协作机器人及基于其的图像文字识别方法 |
CN112712085A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨工业大学 | 一种提取多语言pdf文档中日期的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359538B (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
US11475246B2 (en) | System and method for generating training data for computer vision systems based on image segmentation | |
CN109325493A (zh) | 一种基于人形机器人的文字识别方法及人形机器人 | |
CN111385462A (zh) | 信号处理装置、信号处理方法及相关产品 | |
CN104866868B (zh) | 基于深度神经网络的金属币识别方法和装置 | |
WO2018111940A1 (en) | Segmenting ultrasound images | |
CN112446302B (zh) | 一种人体姿态检测方法、系统、电子设备和存储介质 | |
CN106056064A (zh) | 一种人脸识别方法及人脸识别装置 | |
CN109754444B (zh) | 图像着色方法和装置 | |
JP6929322B2 (ja) | データ拡張システム、データ拡張方法、及びプログラム | |
CN110046544A (zh) | 基于卷积神经网络的数字手势识别方法 | |
CN109325408A (zh) | 一种手势判断方法及存储介质 | |
CN110296660A (zh) | 牲畜体尺检测方法与装置 | |
JP6916849B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
CN115761905A (zh) | 一种基于骨骼关节点的潜水员动作识别方法 | |
KR20230110787A (ko) | 개인화된 3d 머리 및 얼굴 모델들을 형성하기 위한 방법들 및 시스템들 | |
CN117132711A (zh) | 一种数字人像定制方法、装置、设备及存储介质 | |
CN110147764A (zh) | 一种基于机器学习的静态手势识别方法 | |
CN206363347U (zh) | 基于角点检测与匹配的药品识别系统 | |
CN112801238B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
Lakshmi et al. | Real-Time Hand Gesture Recognition for Improved Communication with Deaf and Hard of Hearing Individuals | |
Tan et al. | Implementing Gesture Recognition in a Sign Language Learning Application | |
US11734389B2 (en) | Method for generating human-computer interactive abstract image | |
CN113763498A (zh) | 一种面向工业制造的肖像简笔画区域自适应颜色匹配方法及系统 | |
CN114005156A (zh) | 人脸替换方法、系统、终端设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190212 |
|
RJ01 | Rejection of invention patent application after publication |