CN110443231A - 一种基于人工智能的单手手指点读文字识别方法和系统 - Google Patents
一种基于人工智能的单手手指点读文字识别方法和系统 Download PDFInfo
- Publication number
- CN110443231A CN110443231A CN201910837914.6A CN201910837914A CN110443231A CN 110443231 A CN110443231 A CN 110443231A CN 201910837914 A CN201910837914 A CN 201910837914A CN 110443231 A CN110443231 A CN 110443231A
- Authority
- CN
- China
- Prior art keywords
- finger
- coordinate
- text
- image
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 6
- 230000002146 bilateral effect Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000005266 casting Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 6
- 210000005036 nerve Anatomy 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 210000001145 finger joint Anatomy 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Technology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于人工智能的单手手指点读文字识别方法,属于智能点读技术领域。所述的手指点读文字识别方法包括以下步骤:(1)通过摄像头采集图像;(2)对图像进行处理;(3)使用手指特征识别神经网络获得初步指尖点坐标;(4)手指特征识别网络经过两次输入定位出精准的指尖坐标,并截取指尖前方矩形区域;(5)文字识别库对矩形区域文字进行识别,获得文字中心坐标点;(6)对文字中心坐标点和指尖点坐标的距离进行比较,输出文字信息;(7)对文字信息进行语音朗读。本发明通过OpenCV视觉算法予以辅助,减轻硬件方面压力,具有良好的市场推广前景,通过手指神经网络精准定位指尖,实现手指精确点读。
Description
技术领域
本发明属于智能点读技术领域,具体涉及一种基于人工智能的单手手指点读文字识别方法。
背景技术
现有的儿童早教机器大多是基于绘本图像的特征来识别绘本。这种早教点读相对不够灵活,无法激起小孩的学习兴趣。对于外文读物和技术文献,很多外语基础不好但从事外贸业务或者国外学术研究人员无法直接阅读,而需要查字典或借其他的翻译工具,耗时耗力又不方便。
公告号为CN109325464A的中国专利,公开了一种基于人工智能的文字识别方法,发明了利用纯深度学习算法来实现手指点读。实现了快速的文本识别和查单词的流程,整个流程耗时不超过300ms,极大地提高了人们阅读外文的效率。
但是,该项目虽然从原理上可以实现手指点读识别文本和英文和其他语种,然而该专利在实现上需要构建并训练手指定位神经网络、文本角度神经网络、文本检测神经网络、OCR识别神经网络。因此在算法实现上存在着一定难度。对于系统硬件也有着一定的要求。并且该项目并没有在对手指指尖坐标点进行精准定位,无法在文本上实现精确点读。
山东音为爱智能科技有限公司在201810326362.8公开了一种基于人工智能的儿童绘本辅助阅读方法,其内容包括:逐页拍摄书页图像,制作书页图像模板,保存书页图像特征;通过摄像头拍摄书页图像,提取书页图像的纹理特征,与模板进行匹配,判断书页页码;根据书页页码载入当前页面上的点读资源,点读资源包括绘本中的人物形象及其对应的音频故事和问答资源;检测动态手势的关键图像帧,抛弃模糊不清晰的手势图像帧;通过摄像头拍摄视频帧图像,检测儿童手指指向的点读资源处,则播放对应人物的故事;进入语音问答环节,根据当前页的内容匹配知识库中的问题,主动与儿童会话。上述方法可提供绘本的点读和问答,提高儿童学习兴趣和效率,能够在教学条件不足的场合,辅助儿童自行进行绘本阅读。
但是,该项目虽然从理论上可以实现辅助儿童自行进行绘本阅读,但是,通过遍历图像的像素点来进行非肤色区域的排除,算法耗费时间长,并且具有一定的误判性,不能高效准确的进行手指肤色区域的判别。其次结合视频连续帧进行处理,计算相邻两帧的像素值差,根据阈值判断视频帧图像中移动物体的位置区域。在实际运用过程中。实时性不够和硬件成本过高。使其不具有良好的推广性。
发明内容
本发明通过提供一种基于人工智能的单手手指点读文字识别方法,以解决现有的人工智能点读识别的算法复杂,对硬件要求过高,手指点读不够精准的问题。
为实现上述目的,本发明的技术解决方案是:
一种基于人工智能的单手手指点读文字识别方法,包括以下步骤:
一种基于人工智能的单手手指点读文字识别方法,包括以下步骤:
(1)通过摄像头实时采集手指图文图像;
(2)对摄像头采集的单帧高清晰图像进行图像预处理;
(3)使用预先训练好的手指特征识别神经网络,在预处理的图像中对手指特征区域进行定位并获得手指指尖坐标;截取手指指尖点坐标前方的区域输出给文字识别库;
(4)文字识别库对矩形区域中的文字进行识别,并且得到文字中心坐标点;
(5)对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息;
(6)对文字信息进行语音朗读。
优选地,所述步骤(3)进一步包括在预处理的图像中对手指特征区域进行定位获得初步手指指尖点坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
优选地,所述步骤(2)中图像处理为使用OpenCV算法库对图像进行处理,包括以下步骤:
S1、对图像进行开运算;
S2、对图像进行双边滤波,保存边缘图像特征;
S3、使用图像金字塔进行向下采样。
优选地,所述手指特征识别神经网络的训练包括以下步骤:
S1、通过拍照获取大量训练数据,通过图像定位技术获取得到手指区域,人工标记手指关键点所在的坐标点,手指关键点包括指尖点、手指左右两侧点、手指关节点;
S2、人工标记手指关键点所在位置的笛卡尔坐标,并根据图像的原始长宽进行归一化存储,即在一个长宽为(w,h)的矩形图像,手指关键点坐标为(a,b),则归一化坐标为(a/w,b/h);
S3、搭建一个深度卷积神经网络,包括卷积层、池化层、全卷积层,使得网络输入为三通道RGB图像,输出为二维坐标(x,y)。
S4、利用该卷积神经网络求解点坐标回归问题,通过损失函数求解其梯度,可求得反向传播的残差;
S5、通过步骤S1大量标记的样本训练该深度卷积神经网络的权重参数,在该卷积神经网络经过一定迭代到达稳定后,可以获得多层的卷积核参数。
优选地,所述获得手指指尖点坐标的方法包括以下步骤:
S1、将步骤(2)处理后的图像输入到训练好的卷积神经网络;
S2、通过网格计算获得预测的手指特征的关键点;
S3、进行一次前向传播;
S4、输入预测好的手指特征的关键点,去归一化得到输出初步手指指尖坐标。
S5、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
优选地,所述文字识别库为采用OCR文字识别库tesseract-ocr来进行文字识别。
一种基于人工智能的单手手指点读文字识别的系统,包括摄像头、图像处理模块、手指识别模块、OCR文字识别模块、中央处理模块以及语音模块,所述摄像头与图像处理模块连接,图像处理模块与手指识别模块连接,手指识别模块、OCR文字识别模块、语音模块与中央处理模块连接;
所述摄像头用于实施摄取手指图文图像;
所述图像处理模块用于对所述图像进行处理;
所述手指识别模块对处理的图像进行识别,并定位出手指初步指尖坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标;最后截取精准的手指指尖点坐标前方的矩形区域输出给OCR文字识别模块;
所述OCR文字识别模块识别矩形区域内的文字,并且得到文字中心坐标点;
所述中央处理模块对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息,将文字信息和播放文字信息的指令传输给语音模块进行语音播报。
本发明的有益效果是:
本发明基于人工智能实现手指点读,减少了神经网络训练部分的复杂度,通过OpenCV视觉算法予以辅助,减轻了硬件方面的压力,具有良好的市场推广前景。并且通过手指神经网络精准定位指尖,实现基于单手指情况下的手指精确点读。
附图说明
图1是本发明手指点读文字识别方法的流程图。
图2是本发明手指特征识别神经网络的训练的流程图。
图3是本发明手指系统的结构示意图。
图4是本发明手指点读功能实现的流程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参见图1,一种基于人工智能的单手手指点读文字识别方法,包括以下步骤:
(1)通过摄像头实时采集手指图文图像;
(2)使用OpenCV算法库对摄像头采集的单帧高清晰图像进行尺寸压缩和图像处理,并将图像转换成Mat数据格式;
具体包括以下步骤:
S1、对图像进行开运算,作用是消除图像上细小的噪声,并平滑物体边界;
S2、对图像进行双边滤波,保存边缘图像特征;
S3、使用图像金字塔进行向下采样,作用是便于深度卷积网络的应用。
(3)使用预先训练好的手指特征识别神经网络,在图像中对手指特征区域进行定位出手指的初步指尖点,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标;最后截取精准的手指指尖点坐标前方的矩形区域输出给OCR文字识别模块;具体地,使用谷歌开源的OCR图文识别库tesseract-ocr来进行文字识别,为保证识别率,已经预先训练好了大量文字素材来进行人工修正,以提高文字识别率;
(4)OCR文字识别库对矩形区域中的文字进行识别,并且得到文字中心坐标点;
(5)对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息;
(6)对文字信息进行语音朗读。
参见图2,所述手指特征识别神经网络的训练,包括以下步骤:
S1、通过拍照获取大量训练数据,通过图像定位技术获取得到手指区域,人工标记手指指尖点所在的坐标点为关键点;
S2、人工标记手指关键点所在位置的笛卡尔坐标,并根据图像的原始长宽进行归一化存储,即在一个长宽为(w,h)的矩形图像,手指关键点坐标为(a,b),则归一化坐标为(a/w,b/h);
S3、搭建一个深度卷积神经网络,包括卷积层、池化层、全卷积层,使得网络输入为三通道RGB图像,输出为二维坐标(x,y)。
S4、利用该卷积神经网络求解点坐标回归问题,通过损失函数求解其梯度,可求得反向传播的残差;
S5、通过步骤S1大量标记的样本训练该深度卷积神经网络的权重参数,在该卷积神经网络经过一定迭代到达稳定后,可以获得多层的卷积核参数,完成训练。
具体地,手指特征识别神经网络的测试流程,具体内容包括:
S1、对图像使用OpenCV进行预处理,首先进行开运算,最后进行双边滤波操作;
S2、将处理后的图像输入到训练好的卷积神经网络;
S3、通过网格计算获得预测的手指特征的关键点;
S4、进行一次前向传播;
S5、输入预测好的手指特征的关键点,去归一化得到输出初步手指指尖点坐标。
S6、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
进一步的,OCR文字识别库样本文件的训练过程,包括以下步骤:
S1、将训练图像转换成tif格式,用于后面生成box文件;
S2、使用命令行tesseract dty.dt.exp0.tif dty.dt.exp0-l eng-psm7batch.nochop makebox将tif格式的图像转换成box文件;
S3、打开tesseract-ocr中的jTessBoxEditor工具,打开训练图像并进行位置矫正;
S4、通过命令行echo dt 0 0 0 0 0>font_properties生成默认的字体文件;
S5、通过命令行shapeclustering-F font_properties-U unicharset-Odty.unicharset dty.dt.exp0.tr生成shape文件;
S6、通过命令行mftraining-F font_properties-U unicharset-Odty.unicharset dty.dt.exp0.tr生成聚集字符特征文件;
S7、通过命令行cntraining dty.dt.exp0.tr生成字符正常化特征文件;
S8、将文件重新更名;
rename normproto dt.normproto
rename inttemp dt.inttemp
rename pffmtable dt.pffmtable
rename unicharset dt.unicharset
rename shapetable dt.shapetable
S8、通过命令行combine_tessdata normal.合并训练文件,生成自定义的字体识别库dt.traineddata。
参见图3,一种基于人工智能的单手手指点读文字识别的系统,其特征在于,包括摄像头、图像处理模块、手指识别模块、OCR文字识别模块、中央处理模块以及语音模块,所述摄像头与图像处理模块连接,图像处理模块与手指识别模块连接,手指识别模块、OCR文字识别模块、语音模块与中央处理模块连接;
所述摄像头用于实施摄取手指图文图像;
所述图像处理模块用于对所述图像进行处理;
所述手指识别模块对处理的图像进行识别,并定位出初步手指指尖点坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。最后截取第二次输出的指尖点前方预定义的一块矩形区域,并传输给OCR文字识别库。
所述OCR文字识别模块识别矩形区域内的文字,并且得到文字中心坐标点;
所述中央处理模块对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息,将文字信息和播放文字信息的指令传输给语音模块进行语音播报。
参见图4,本发明基于人工智能的单手手指点读功能实现的流程,具体内容包括:
S1、摄像头采集高清晰度图像(1920*1080分辨率);
S2、图像处理使用OpenCV算法库对图像进行处理:(1)对图像进行开运算,作用是消除图像上细小的噪声,并平滑物体边界;(2)对图像进行双边滤波,作用是保存边缘图像特征;(3)使用图像金字塔进行向下采样。作用是便于深度卷积网络的应用。
S3、将处理后的图像输入到手指关键点识别神经网络,手指识别模块首先判断有无手部特征,没有的话则发送指令给中央处理模块,中央处理模块发送手指点读的引导语音和播放指令给语音模块,然后再判断手部特征数量是否存在其他手部特征的干扰,存在其他手部特征干扰的话则发送指令给中央处理模块,中央处理模块发送手部数量干扰的引导语音播放指令给语音模块,两者判断成功后,手指关键点识别网络会输出归一化后的初步手指指尖点坐标。
S4、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。最后截取第二次输出的指尖点前方预定义的一块矩形区域,并传输给OCR文字识别库。
S5、OCR文字库成功识别后则输出识别的文字内容和坐标点给中央处理模块,若文字识别失败则发送文字识别失败指令给中央处理模块,中央处理模块发送识别文字失败的语音引导播放指令给语音模块。
S6、中央处理模块通过对文字坐标和指尖坐标距离的判断,得到手指点读的文字内容,并发送点读文字内容和播放语音指令给语音模块。
S7、语音模块调用麦克风播放点读文字内容,实现手指点读功能。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于人工智能的单手手指点读文字识别方法,其特征在于,包括以下步骤:
(1)通过摄像头实时采集手指图文图像;
(2)对摄像头采集的单帧高清晰图像进行图像预处理;
(3)使用预先训练好的手指特征识别神经网络,在预处理的图像中对手指特征区域进行定位并获得手指指尖坐标;截取手指指尖点坐标前方的区域输出给文字识别库;
(4)文字识别库对矩形区域中的文字进行识别,并且得到文字中心坐标点;
(5)对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息;
(6)对文字信息进行语音朗读。
2.根据权利要求1所述的基于人工智能的单手手指点读文字识别方法,其特征在于,所述步骤(3)进一步包括在预处理的图像中对手指特征区域进行定位获得初步手指指尖点坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
3.根据权利要求1所述的基于人工智能的单手手指点读文字识别方法,其特征在于,所述步骤(2)中图像处理采用OpenCV算法库对图像进行处理,包括以下步骤:
S1、对图像进行开运算;
S2、对图像进行双边滤波,保存边缘图像特征;
S3、使用图像金字塔进行向下采样。
4.根据权利要求3所述的基于人工智能的单手手指点读文字识别方法,其特征在于,所述手指特征识别神经网络的训练包括以下步骤:
S1、通过拍照获取大量训练数据,通过图像定位技术获取得到手指区域,人工标记手指指尖点所在的坐标点为关键点;
S2、人工标记手指关键点所在位置的笛卡尔坐标,并根据图像的原始长宽进行归一化存储,即在一个长宽为(w,h)的矩形图像,手指关键点坐标为(a,b),则归一化坐标为(a/w,b/h);
S3、搭建一个深度卷积神经网络,包括卷积层、池化层、全卷积层,使得网络输入为三通道RGB图像,输出为二维坐标(x,y);
S4、利用该卷积神经网络求解点坐标回归问题,通过损失函数求解其梯度,可求得反向传播的残差;
S5、通过步骤S1大量标记的样本训练该深度卷积神经网络的权重参数,在该卷积神经网络经过一定迭代到达稳定后,可以获得多层的卷积核参数。
5.根据权利要求4所述的基于人工智能的单手手指点读文字识别系统,其特征在于,对所述手指特征点卷积神经网络进行测试,包括以下步骤:
S1、将步骤(2)处理后的图像输入到训练好的卷积神经网络;
S2、通过网格计算获得预测的手指特征的关键点;
S3、进行一次前向传播;
S4、输入预测好的手指特征的关键点,去归一化得到输出初步手指指尖坐标。
S5、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
6.根据权利要求1所述的基于人工智能的单手手指点读文字识别系统,其特征在于,所述文字识别库为采用OCR文字识别库tesseract-ocr来进行文字识别。
7.一种基于人工智能的单手手指点读文字识别的系统,其特征在于,包括摄像头、图像处理模块、手指识别模块、文字识别模块、中央处理模块以及语音模块,所述摄像头与图像处理模块连接,图像处理模块与手指识别模块连接,手指识别模块、文字识别模块、语音模块与中央处理模块连接;
所述摄像头用于实施摄取手指图文图像;
所述图像处理模块用于对所述图像进行处理;
所述手指识别模块对处理的图像进行识别,并定位出手指初步指尖点坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标;最后截取精准的手指指尖点坐标前方的矩形区域输出给文字识别模块;
所述文字识别模块识别矩形区域内的文字,并且得到文字中心坐标点;
所述中央处理模块对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息,将文字信息和播放文字信息的指令传输给语音模块进行语音播报。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910837914.6A CN110443231A (zh) | 2019-09-05 | 2019-09-05 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910837914.6A CN110443231A (zh) | 2019-09-05 | 2019-09-05 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110443231A true CN110443231A (zh) | 2019-11-12 |
Family
ID=68439248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910837914.6A Pending CN110443231A (zh) | 2019-09-05 | 2019-09-05 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443231A (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909729A (zh) * | 2019-12-09 | 2020-03-24 | 广东小天才科技有限公司 | 点读内容识别方法、装置及终端设备 |
CN110956138A (zh) * | 2019-12-02 | 2020-04-03 | 广东小天才科技有限公司 | 一种基于家教设备的辅助学习方法及家教设备 |
CN111160308A (zh) * | 2019-12-30 | 2020-05-15 | 深圳泺息科技有限公司 | 手势动作识别方法、装置、设备及可读存储介质 |
CN111353501A (zh) * | 2020-02-25 | 2020-06-30 | 暗物智能科技(广州)有限公司 | 一种基于深度学习的书本点读方法及系统 |
CN111610901A (zh) * | 2020-05-11 | 2020-09-01 | 上海翎腾智能科技有限公司 | 一种基于ai视觉下的英语课文辅助教学方法及系统 |
CN111611986A (zh) * | 2020-05-11 | 2020-09-01 | 上海翎腾智能科技有限公司 | 一种基于手指交互的焦点文本提取和识别方法及系统 |
CN111639581A (zh) * | 2020-05-26 | 2020-09-08 | 厦门市思芯微科技有限公司 | 一种指读儿童机器人系统 |
CN111723811A (zh) * | 2020-05-20 | 2020-09-29 | 上海积跬教育科技有限公司 | 文字识别及处理的方法、装置、介质以及电子设备 |
CN111832551A (zh) * | 2020-07-15 | 2020-10-27 | 网易有道信息技术(北京)有限公司 | 文本图像处理方法、装置、电子扫描设备和存储介质 |
CN111985184A (zh) * | 2020-06-30 | 2020-11-24 | 上海翎腾智能科技有限公司 | 基于ai视觉下的书写字体临摹辅助方法、系统、装置 |
CN112001380A (zh) * | 2020-07-13 | 2020-11-27 | 上海翎腾智能科技有限公司 | 基于人工智能现实场景下的中文意义词组的识别方法和系统 |
CN112101312A (zh) * | 2020-11-16 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 手部关键点的识别方法、装置、机器人和存储介质 |
CN112686319A (zh) * | 2020-12-31 | 2021-04-20 | 南京太司德智能电气有限公司 | 一种电力信号模型训练文件的合并方法 |
CN112749646A (zh) * | 2020-12-30 | 2021-05-04 | 北京航空航天大学 | 一种基于手势识别的交互式点读系统 |
CN112784663A (zh) * | 2020-05-08 | 2021-05-11 | 珠海金山办公软件有限公司 | 一种文字识别方法及装置 |
CN113159086A (zh) * | 2020-12-31 | 2021-07-23 | 南京太司德智能电气有限公司 | 一种高效的电力信号描述模型训练方法 |
CN113378841A (zh) * | 2021-04-29 | 2021-09-10 | 杭州电子科技大学 | 一种基于级联目标检测的指向文字定位方法 |
CN113392756A (zh) * | 2021-06-11 | 2021-09-14 | 北京猿力未来科技有限公司 | 图本识别方法及装置 |
CN113535055A (zh) * | 2020-10-12 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种基于虚拟现实播放点读物的方法、设备及存储介质 |
CN113593542A (zh) * | 2020-04-30 | 2021-11-02 | 百度在线网络技术(北京)有限公司 | 查询方法、装置、终端设备及存储介质 |
CN113676654A (zh) * | 2020-05-14 | 2021-11-19 | 武汉Tcl集团工业研究院有限公司 | 一种图像截取方法、装置、设备及计算机可读存储介质 |
CN113963355A (zh) * | 2021-12-22 | 2022-01-21 | 北京亮亮视野科技有限公司 | Ocr文字识别方法、装置、电子设备及存储介质 |
WO2022206534A1 (zh) * | 2021-03-29 | 2022-10-06 | 广州视源电子科技股份有限公司 | 文本内容识别方法、装置、计算机设备和存储介质 |
WO2023283934A1 (en) * | 2021-07-16 | 2023-01-19 | Huawei Technologies Co.,Ltd. | Devices and methods for gesture-based selection |
CN118014072A (zh) * | 2024-04-10 | 2024-05-10 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718878A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于级联卷积神经网络的第一视角空中手写和空中交互方法 |
CN109325464A (zh) * | 2018-10-16 | 2019-02-12 | 上海翎腾智能科技有限公司 | 一种基于人工智能的手指点读文字识别方法及翻译方法 |
-
2019
- 2019-09-05 CN CN201910837914.6A patent/CN110443231A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718878A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于级联卷积神经网络的第一视角空中手写和空中交互方法 |
CN109325464A (zh) * | 2018-10-16 | 2019-02-12 | 上海翎腾智能科技有限公司 | 一种基于人工智能的手指点读文字识别方法及翻译方法 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956138A (zh) * | 2019-12-02 | 2020-04-03 | 广东小天才科技有限公司 | 一种基于家教设备的辅助学习方法及家教设备 |
CN110909729A (zh) * | 2019-12-09 | 2020-03-24 | 广东小天才科技有限公司 | 点读内容识别方法、装置及终端设备 |
CN111160308B (zh) * | 2019-12-30 | 2023-09-12 | 深圳新秦科技有限公司 | 手势动作识别方法、装置、设备及可读存储介质 |
CN111160308A (zh) * | 2019-12-30 | 2020-05-15 | 深圳泺息科技有限公司 | 手势动作识别方法、装置、设备及可读存储介质 |
CN111353501A (zh) * | 2020-02-25 | 2020-06-30 | 暗物智能科技(广州)有限公司 | 一种基于深度学习的书本点读方法及系统 |
CN113593542A (zh) * | 2020-04-30 | 2021-11-02 | 百度在线网络技术(北京)有限公司 | 查询方法、装置、终端设备及存储介质 |
CN112784663A (zh) * | 2020-05-08 | 2021-05-11 | 珠海金山办公软件有限公司 | 一种文字识别方法及装置 |
CN111611986A (zh) * | 2020-05-11 | 2020-09-01 | 上海翎腾智能科技有限公司 | 一种基于手指交互的焦点文本提取和识别方法及系统 |
CN111610901A (zh) * | 2020-05-11 | 2020-09-01 | 上海翎腾智能科技有限公司 | 一种基于ai视觉下的英语课文辅助教学方法及系统 |
CN111611986B (zh) * | 2020-05-11 | 2023-06-09 | 上海翎腾智能科技有限公司 | 一种基于手指交互的焦点文本提取和识别方法及系统 |
CN111610901B (zh) * | 2020-05-11 | 2021-10-12 | 上海翎腾智能科技有限公司 | 一种基于ai视觉下的英语课文辅助教学方法及系统 |
CN113676654A (zh) * | 2020-05-14 | 2021-11-19 | 武汉Tcl集团工业研究院有限公司 | 一种图像截取方法、装置、设备及计算机可读存储介质 |
CN111723811A (zh) * | 2020-05-20 | 2020-09-29 | 上海积跬教育科技有限公司 | 文字识别及处理的方法、装置、介质以及电子设备 |
CN111639581A (zh) * | 2020-05-26 | 2020-09-08 | 厦门市思芯微科技有限公司 | 一种指读儿童机器人系统 |
CN111985184A (zh) * | 2020-06-30 | 2020-11-24 | 上海翎腾智能科技有限公司 | 基于ai视觉下的书写字体临摹辅助方法、系统、装置 |
CN112001380A (zh) * | 2020-07-13 | 2020-11-27 | 上海翎腾智能科技有限公司 | 基于人工智能现实场景下的中文意义词组的识别方法和系统 |
CN112001380B (zh) * | 2020-07-13 | 2024-03-26 | 上海翎腾智能科技有限公司 | 基于人工智能现实场景下的中文意义词组的识别方法和系统 |
CN111832551A (zh) * | 2020-07-15 | 2020-10-27 | 网易有道信息技术(北京)有限公司 | 文本图像处理方法、装置、电子扫描设备和存储介质 |
CN113535055A (zh) * | 2020-10-12 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种基于虚拟现实播放点读物的方法、设备及存储介质 |
CN113535055B (zh) * | 2020-10-12 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 一种基于虚拟现实播放点读物的方法、设备及存储介质 |
CN112101312A (zh) * | 2020-11-16 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 手部关键点的识别方法、装置、机器人和存储介质 |
CN112749646A (zh) * | 2020-12-30 | 2021-05-04 | 北京航空航天大学 | 一种基于手势识别的交互式点读系统 |
CN113159086A (zh) * | 2020-12-31 | 2021-07-23 | 南京太司德智能电气有限公司 | 一种高效的电力信号描述模型训练方法 |
CN112686319A (zh) * | 2020-12-31 | 2021-04-20 | 南京太司德智能电气有限公司 | 一种电力信号模型训练文件的合并方法 |
CN113159086B (zh) * | 2020-12-31 | 2024-04-30 | 南京太司德智能电气有限公司 | 一种高效的电力信号描述模型训练方法 |
WO2022206534A1 (zh) * | 2021-03-29 | 2022-10-06 | 广州视源电子科技股份有限公司 | 文本内容识别方法、装置、计算机设备和存储介质 |
CN113378841A (zh) * | 2021-04-29 | 2021-09-10 | 杭州电子科技大学 | 一种基于级联目标检测的指向文字定位方法 |
CN113392756A (zh) * | 2021-06-11 | 2021-09-14 | 北京猿力未来科技有限公司 | 图本识别方法及装置 |
WO2023283934A1 (en) * | 2021-07-16 | 2023-01-19 | Huawei Technologies Co.,Ltd. | Devices and methods for gesture-based selection |
CN113963355A (zh) * | 2021-12-22 | 2022-01-21 | 北京亮亮视野科技有限公司 | Ocr文字识别方法、装置、电子设备及存储介质 |
CN118014072A (zh) * | 2024-04-10 | 2024-05-10 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
CN118014072B (zh) * | 2024-04-10 | 2024-08-16 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443231A (zh) | 一种基于人工智能的单手手指点读文字识别方法和系统 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN107330444A (zh) | 一种基于生成对抗网络的图像自动文本标注方法 | |
CN112101241A (zh) | 一种基于深度学习的轻量级表情识别方法 | |
Barros et al. | Real-time gesture recognition using a humanoid robot with a deep neural architecture | |
CN106778496A (zh) | 活体检测方法及装置 | |
EP3928929A1 (en) | Auxiliary photographing device for movement disorder disease analysis, control method and apparatus | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
CN113869229B (zh) | 基于先验注意力机制引导的深度学习表情识别方法 | |
CN109977922A (zh) | 一种基于生成对抗网络的行人掩模生成方法 | |
CN112069993B (zh) | 基于五官掩膜约束的密集人脸检测方法及系统和存储介质 | |
CN111666845B (zh) | 基于关键帧采样的小样本深度学习多模态手语识别方法 | |
Zhang et al. | A survey on face anti-spoofing algorithms | |
CN110110602A (zh) | 一种基于三维残差神经网络和视频序列的动态手语识别方法 | |
Zhao et al. | Real-time sign language recognition based on video stream | |
CN110008961A (zh) | 文字实时识别方法、装置、计算机设备及存储介质 | |
Shrivastava et al. | Conceptual model for proficient automated attendance system based on face recognition and gender classification using Haar-Cascade, LBPH algorithm along with LDA model | |
CN112069992A (zh) | 一种基于多监督稠密对齐的人脸检测方法、系统及存储介质 | |
CN114549557A (zh) | 一种人像分割网络训练方法、装置、设备及介质 | |
CN109886251A (zh) | 一种基于姿势引导对抗学习的端到端的行人再识别方法 | |
CN117423134A (zh) | 一种人体目标检测和解析的多任务协同网络及其训练方法 | |
CN111950480A (zh) | 一种基于人工智能的英语发音自检方法和自检系统 | |
Kumar et al. | Student | |
Zhou et al. | Training convolutional neural network for sketch recognition on large-scale dataset. | |
CN108492350A (zh) | 基于唇读技术的角色口型动画制作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191112 |