CN111985184A - 基于ai视觉下的书写字体临摹辅助方法、系统、装置 - Google Patents

基于ai视觉下的书写字体临摹辅助方法、系统、装置 Download PDF

Info

Publication number
CN111985184A
CN111985184A CN202010613227.9A CN202010613227A CN111985184A CN 111985184 A CN111985184 A CN 111985184A CN 202010613227 A CN202010613227 A CN 202010613227A CN 111985184 A CN111985184 A CN 111985184A
Authority
CN
China
Prior art keywords
image
character
font
information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010613227.9A
Other languages
English (en)
Inventor
高旻昱
范骁骏
侯瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lingteng Intelligent Technology Co ltd
Original Assignee
Shanghai Lingteng Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lingteng Intelligent Technology Co ltd filed Critical Shanghai Lingteng Intelligent Technology Co ltd
Priority to CN202010613227.9A priority Critical patent/CN111985184A/zh
Publication of CN111985184A publication Critical patent/CN111985184A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Abstract

本发明提供了一种基于AI视觉下的书写字体临摹辅助方法、系统、装置,S1:实时获取视场范围内包括手指动作信息和书写介质在内的图像;S2:构建并训练多种卷积神经网络;识别所述图像中的手指动作信息以及所述手指指向的目标图像;识别所述目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息;S3:根据所述文字内容及其字形信息,从预设文字库中搜索参考字形图像,后将所述参考字形图像与所述文字图像进行相似度对比分析;S4:输出所述文字内容和所述对比结果。本发明的临摹辅助方法不局限于书写介质,有效提高书写练习效果。

Description

基于AI视觉下的书写字体临摹辅助方法、系统、装置
技术领域
本发明涉及AI视觉感知技术领域,具体涉及基于AI视觉下的书写字体临摹辅助方法、系统、装置。
背景技术
人工智能学科自诞生之初便奠定了其模拟、延伸、扩展人类智能的宏伟目标。随着人工智能技术的发展,人工智能在感知,自然语言处理,知识表示,自动推理和规划以及机器学习等多个方向都取得了长足的发展。感知能力包括视觉感知(图像识别和视频理解和重建场景的能力)和听觉感知(即语音识别voice recognition,指的是从多个人的声音中找到特定的人的声音)。自然语言处理指的是语义识别speech recognition,即在语音识别之后还能理解人的话语的含义。由于计算机的普及,书写越来越少,文字作为古代最伟大的发明,传承文字书写艺术要从小抓起,赋予审美意识,提高审美认知,培育书写兴趣,从心底里喜欢书法,并把书法学习当成一种乐趣。现有书法学习主要为将原稿印刷成纸制品,由学习者进行“描红”临摹。
越来越多的学习者使用安装于智能终端上的临摹软件进行临摹学习。临摹,是一条让初学者较快步入艺术殿堂的重要途径,也是绘画和书法的研习过程中相当重要的手段。我们先要向前人学习,再在掌握传统和方法的基础上表达自身的思想,步入创作的自由王国。
临摹包括临写和摹写,临写是在参考原作的笔法、字法、章法、墨法以致韵味的基础上,根据临写者的理解复制原作;摹写则是将薄纸覆盖在原作上用笔描摹原作形态。摹写是临写的重要基础。
现有部分临摹软件上的学习内容能够通过服务器获得不停的内容更新,解决了传统字帖资源的局限性;但是由于触摸屏的制约,不能以标准的写字或者绘画姿势使用笔来进行临摹,只能采用手指滑动进行,这样只能是使用者认识字,其实是达不到临摹练习效果。
请参阅图1,厦门分类信息技术有限公司曾提供了过种书画临摹投影系统,其包括:智能终端40,用于安装集字软件,通过该集字软件采集所述书画模板和/或书画视频,并通过该集字软件对所述书画模板和/或书画视频进行编辑;临摹台10,用于铺设临摹载体;投影仪20,设置于所述临摹台10的上方,用于将所述书画模板和/或书画视频投影至所述临摹载体上的指定区域。
投影仪20的投影方向与所述临摹台10之间的角度在75度至90度之间;其中,投影角度优选的设置在75度至85度之间,可避免书画学习者在临摹过程中头部和手部等身体部位遮挡投影区域,可以得到清晰完整的书画视频或书画模板,使用效果更佳。
其通过预先采集书画模板和/或书画视频,得到书画模板库和/或书画视频库;使用时直接调用所述书画模板库中的书画模板和/或书画视频库中的书画视频,或者,调用重新拼接后的书画模板和/或重新剪辑后的书画视频;并将所述书画模板和/或书画视频投影至临摹台上,以在所述临摹台上展示所述书画模板和/或在所述临摹台上播放所述书画视频;从而将传统字帖临摹与数字化技术相结合,实现动态跟随临摹和集字创作临摹,既能够克服传统字帖的局限性,又能够提高临摹练习效果。
上述方案虽然能够实现临摹练习效果,但是需要增加新的书画临摹投影系统,而且投影仪20的投影方向与所述临摹台10之间的角度在75度至90度之间,这种要求的设置,用户的使用存在千差万别,容易出现使用不规范而影响临摹效果。
湘潭大学在201910018351.8公开了基于力觉学习的机器人多风格书法临摹方法,其包括有多风格标准字库模块、书法风格识别模块、笔画信息提取模块、机器人关节轨迹规划模块;本发明通过采集力信号提取不同书法风格的特征,利用卷积神经网络学习书法风格,使用图像处理算法获取笔画信息,并将对应风格的用力特征和笔画信息转换成为机器人末端轨迹;采用本发明的技术方案,通过对几个标准字的模仿学习,可以在保留原作品的风格特征的前提下,实现机器人对输入的书法图像进行临摹的目的。
上述方案虽然实现了机器人对输入的书法图像进行临摹的目的,但是该方案是基于工业机器人运动学模型实施的,需要通过力学传感器固定毛笔进行临摹设置,目的是为了通过机器人保留不同风格的书法特征。不便于普通用户进行临摹学习。
为激发学习者学习书法兴趣,对于书法学习可借助于高科技产品,因此发明一种适应学生善于模仿特性的、科学的、简易的轻便的书法学习工具显得尤为重要。为此,提出一种基于AI视觉下的书写字体临摹辅助的技术方案。
发明内容
本申请提供一种基于AI视觉下的书写字体临摹辅助方法、系统、装置,将传统练字与AI视觉技术相结合,既能够克服传统书写介质的局限性,又能够利用临摹辅助方法提高练习效果。
为了实现上述目的,本发明提供如下第一种技术方案:
一种基于AI视觉下的书写字体临摹辅助方法,所述方法包括:
S1:实时获取视场范围内包括动作信息和书写介质在内的图像;
S2:构建并训练多种卷积神经网络,识别所述图像中的动作信息以及所述动作信息指向的目标图像;并根据识别出的动作信息,识别所述目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息;
S3:根据所述文字内容及其字形信息,从预设文字库中搜索参考字形图像;后将所述参考字形图像与所述文字图像进行相似度对比分析;
S4:输出所述文字内容和所述对比结果。
进一步地,所述步骤S2进一步包括:
构建并训练手指定位神经网络;
接收视场范围内包括动作信息和书写介质在内的图像;
将接收的图像输入到所述手指定位神经网络中,输出特征图像信息;所述特征图像信息包括动作信息和所述动作信息指向的目标位置信息;
根据所述目标位置信息,获取预定尺寸的包括文字图像在内的目标图像。
进一步地,所述步骤S2进一步还包括:
构建并训练文本角度神经网络、文本检测神经网络、文字识别神经网络、字体识别神经网络;
在所述目标图像中,以动作信息为中心,截取预设尺寸的图片,输入所述文本角度神经网络,输出图片中的文本旋转角度;
旋转文本角度,直至所述文本旋转角度为0,截取预设尺寸的图片,输入所述文本检测神经网络,输出检测到的文字区域的位置信息和尺寸信息;
根据所述文字区域的位置信息和尺寸信息截取图片,输入所述文字识别神经网络,输出文字内容;
对所述文字区域截取的图片进行切割,得到单个文字图片,将单个文字图片进行大小归一化到参考字形图片一致的尺寸,输出文字图像;
将所述文字图像输入所述字体识别神经网络,输出所述文字内容对应的字形信息。
进一步地,所述步骤S3,进一步包括:
根据所述文字内容及其字形信息,从预设文字库中搜索参考字形图像;
获取所述参考字形图像中笔画的位置绝对信息和笔画之间的相对信息;
将所述文字图像矢量化处理;获取所述文字图像中笔画的位置绝对信息和笔画的之间的相对信息;
利用笔画的位置绝对信息和相对信息,对文字图像和参考字形图像进行图片像素级别的相似度计算;
利用欧几里得空间内定义的余弦距离,输出相似度对比结果。
进一步地,所述步骤S4进一步包括:
将所述文字图像临摹覆盖于所述参考字形图像上,并输出临摹显示图像;
按预定排版,显示所述临摹显示图像、对比结果以及所述文字内容中的扩展文字信息。
进一步地,将所述文字字形图片临摹覆盖于所述参考字形图片上的方法,还包括对各所述文字字形图片之间的间距、齐整度进行归一化处理,使其配合所述参考字形图片。
为了实现上述目的,本发明提供如下第二种技术方案:
基于AI视觉下的书写字体临摹辅助系统,所述系统包括获取模块、识别模块、对比模块、输出模块;
所述获取模块,用于实时获取视场范围内包括动作信息和书写介质在内的图像;
所述识别模块,用于构建并训练多种卷积神经网络,识别所述图像中的动作信息以及所述动作信息指向的目标图像;并根据识别出的动作信息,识别所述目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息;
所述对比模块,用于根据所述文字内容及其字形信息,从预设文字库中搜索参考字形图像;后将所述参考字形图像与所述文字图像进行相似度对比分析,输出对比结果;
所述输出模块,用于输出所述文字内容和所述对比结果。
为了实现上述目的,本发明提供如下第三种技术方案:
基于AI视觉下的书写字体临摹辅助装置,所述装置包括摄像头、AI识别设备、显示屏,所述AI设备设备分别与所述摄像头、所述显示屏连接;
所述摄像头用于实时拍摄视场范围内包括动作信息和书写介质在内的图像,后传输给所述AI识别设备;
所述AI识别设备实时获取视场范围内包括动作信息和书写介质在内的图像;构建并训练多种卷积神经网络,识别所述图像中的动作信息以及所述动作信息指向的目标图像;并根据识别出的动作信息,识别所述目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息;根据所述文字内容及其字形信息,从预设文字库中搜索参考字形图像;后将所述参考字形图像与所述文字图像进行相似度对比分析;后输出所述文字内容和所述对比结果;
所述显示屏用于接收并显示输出的所述文字内容和所述对比结果。
为了实现上述目的,本发明提供如下第四种技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行第一种技术方案中的基于AI视觉下的书写字体临摹辅助方法的步骤。
为了实现上述目的,本发明提供如下第五种技术方案:
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行第一种技术方案中的基于AI视觉下的书写字体临摹辅助方法的步骤。
相比现有技术,本发明具有以下有益效果:
1)本发明一实施例中的基于AI视觉下的书写字体临摹辅助方法通过AI识别设备上的摄像头实时拍摄的用户指定动作,之后根据识别出的用户指定动作结果确定对显示装置的控制操作,这样用户可使用用户指定动作与AI识别设备进行交互,增强了用户的使用体验。
2)本发明一实施例中的基于AI视觉下的书写字体临摹辅助系统包括获取模块,获取模块还连接有识别模块,识别模块还可以与对比模块、输出模块连接,获取模块接收包括实时拍摄的动作信息和书写介质在内的图像,并由识别模块进行识别,之后根据识别出的动作信息确定识别模块确定对输出模块的控制操作,这样用户可使用用户指定动作与AI识别设备进行交互,增强了用户的使用体验。
3)首先,本发明采用动作识别的开发,高效完成用户动作对文字识别的功效。第一,通过采集设备(比如摄像设备)采集高清晰图像,将图像输入预先训练的手指定位神经网络,输出获得目标位置分布信息。并且输入的高清晰图像(比如4000*3000像素的分辨率的图像。第二,先快速找到目标位置信息,再对该目标位置信息截取预设的图像区域,然后输出旋转角度得到旋转后的图像,随后根据旋转后的图像得到指定动作位置所在的文本框,最后截取文本框进行识别出文本。这种图像处理有效,且大大提升了整个识别的速度。即,从高清晰度的图像中以相对较优的低分辨率快速找到指定动作所在位置,再对高清晰度的图像中该指定动作所在位置的进行高分辨率的图像区域截出,截出的图像进行文本框检测,检测后进行文本识别,识别的效率非常高。
其次,本发明的整个过程全面利用神经网络深度学习,不仅提升识别的效率而且也使得实现识别的人工智能。再次,利用人工智能技术,本发明的一实例中快速的文字识别和字形识别的流程,整个流程耗时不超过300ms,极大地提高了临摹练字的效率:流程时间检测结果为:
步骤1、一个立于桌面的摄像装置拍摄平台,平台上有任意书写介质,用户在书写后,通过指定动作,使得AI识别设备实时识别平台上是否出现用户指定动作,并且判断目标动作的位置,该步骤耗时50ms。
步骤2、当判断结果是用户有指示意图时,以用户动作位置为中心,截取一个方框区域图像,输入角度识别神经网络,输出图像区域中文本的旋转角度,该步骤耗时40ms。
步骤3、当旋转角度不为0时,以用户指定动作位置为中心,旋转截取一个方框区域图像,识别区域图像中的目标动作的文字区域,该步骤耗时80ms。
步骤4、截取步骤3中的文本区域图像,输入预先训练完成的OCR识别神经网络,输出识别的文字内容,该步骤耗时100ms。同时将文本区域图像输入到字体识别神经网络,输出字形数据,该些步骤的检测流程的时间不超过300ms,非常快速达到识别效果,让使用者有很好的体验感。
最后,本发明首次提出了利用纯深度学习算法来实现手指点读,并且利用瀑布流的形式,使得算法能在目前硬件平台也可以实时运行。
附图说明
图1为本申请实施例的一种基于AI视觉下的书写字体临摹辅助方法流程图;
图2为本申请实施例的一种识别定位的方法流程图;
图3为本申请实施例的一种文字识别及其字形识别的方法流程图;
图4为本申请实施例的一种显示排版示意图;
图5为本申请实施例的一种基于AI视觉下的书写字体临摹辅助系统结构框图;
图6为本申请实施例的一种基于AI视觉下的书写字体临摹辅助装置结构示意图;
图7为本申请实施例的另一种基于AI视觉下的书写字体临摹辅助装置结构示意图;
图8为本实施方式提供的一种基于AI视觉下的书写字体临摹辅助装置的数据传输示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
实施方式一
参考附图1所示,本发明提供的一种基于AI视觉下的书写字体临摹辅助方法流程图,本发明提供的一种基于AI视觉下的书写字体临摹辅助方法,包括如下步骤:
S100:实时获取视场范围内包括手指动作信息和书写介质在内的图像。
S200:构建并训练多种卷积神经网络;识别图像中的手指动作信息以及手指指向的目标图像;识别目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息。
S300:根据文字内容及其字形信息,从预设文字库中搜索参考字形图像,后将参考字形图像与文字图像进行相似度对比分析。
S400:输出文字内容和对比结果。
在一种实施方式中,在步骤S100之前,还包括:用户在视场范围内的书写介质上进行书写,后对用户书写的文字进行拍摄或扫描。
本实施例中,用户所书写的文字为指定输入集合中的文字。比如,根据汉字使用频率和GB2312中文字库汉字笔画和部件的构成,选取775个汉字,覆盖50%常用汉字,并且包含在GB2312中文字库中出现的所有笔画和部件类型,作为输入集合。
本实施例中的书写介质包括但不限于纸质书写介质。传统的书法爱好者的书写介质局限于纸质书写介质,且采用纸质描红实现临摹。本实施方式中,书写介质不局限于纸质书写介质。为实现临摹操作,本实施例将书写介质扩展到任意书写介质上,只要使用本实施例识别方法的设备都可以实现操作,书法练习比较灵活。本实施方式中,相比对书写介质的不限定,书写出的文字也不局限于汉字、字母,可识别出即可。
在步骤S200中,识别图像中的动作信息以及动作信息指向的目标图像的方法如流程图2所示,包括如下步骤:
S211:构建并训练手指定位神经网络;
S212:接收视场范围内包括手指动作信息和书写介质在内的图像;
S213:将接收的图像输入到手指定位神经网络中,输出特征图像信息;特征图像信息包括手指动作信息和手指指向的目标位置信息;
S214:根据目标位置信息,获取预设尺寸的包括文字图像在内的目标图像。
利用手指定位神经网络进行识别定位的方法进一步包括,将获取的视场范围内包括动作信息和书写介质在内的图像输入到手指定位神经网络中,输入的图像即为摄像设备捕获并缩放所需尺寸的图像,输出手指位置点的正太分布图像。基于神经网络的特性,利用在训练数据集上反复优化的网络参数。
其中,训练数据集包括输入和输出,输出图像由人工标注产生,当输出图像点是一个定点,在非高斯分布点的时候,由于人工标注的不确定性(人员不同状态不同)造成训练数据的不一致,导致训练结果很难收敛。本实施例中可以采用高斯分布点,人工标注时,所产生的训练用输出数据都是高斯模糊过的。由于输出时高斯分布点,在小图像输入尺寸的情况下,可以准确的在原尺寸图像上获得精确的定位点,从而消除个体不一致造成的数据差异。超过神经网络输入尺寸(180*180)的精确度。在这个角度上说,用这样的神经网络和输入输出格式,数据训练方法,提高所需要的流畅的视觉交互的计算速度。
本实施方式中,识别手指动作信息即为利用非接触式的手势交互,实现人机交互。其中,在人机交互技术领域的研究中,非接触式机器视觉手势交互由于其便于识别,自然、直观、简单的特性,逐渐成为非接触式人机交互中的主流操作方式。一种可选的实施方式中,识别用户手指动作信息,进一步利用手指动作信息识别用户手势所指向的目标信息。
根据用户手指指向定位,确定指定动作所确定的目标图像,进而对目标图像进行文字识别,获取该目标图像所对应的文字信息。其中,对应文字图像转换成计算机可识别的文字后,还包括根据该文字从预存的信息库或者互联网中,获取该文字图像所对应的文字信息。
本质上视觉交互技术,即通过摄像系统识别手势,根据手势来判断用户意图,并根据意图识别内容。在一种实施例中,识别的是单根伸出的手指,而笔,或其他的手势会被神经网络判为无效。
在步骤S200中,识别目标图像中的文字内容及其字形信息,参考图3所示,
S221:构建并训练文本角度神经网络、文本检测神经网络、文字识别神经网络、字体识别神经网络;
S222:在目标图像中,以手指指尖为中心,截取预设尺寸的图片,输入文本角度神经网络,输出图片中的文本旋转角度;
S223:旋转文本角度,直至文本旋转角度为0,截取预设尺寸的图片,输入文本检测神经网络,输出检测到的文字区域的位置信息和尺寸信息;
S224:根据文字区域的位置信息和尺寸信息截取图片,输入文字识别神经网络,输出文字内容;
S225:对文字区域截取的图片进行切割,得到单个文字图片,将单个文字图片进行大小归一化到参考字形图片一致的尺寸,输出文字图像;
S226:将文字图像输入字体识别神经网络,输出文字内容对应的字形信息。
本实施例中,利用字体识别神经网络对文字图像进行字形数据的识别,是使用完整的识别字的图像进行,通过图像识别深度学习卷积神经网络(CNN)进行字体类型的识别。其中,先使用各种不同的字体类型数据生成大量不同的字形数据图片,使用这些图片对神经网络进行训练,训练完成的神经网络将具备认知字形图片数据属于何种字体类型。
文字检测神经网络为一种神经网络图像分割器,手指定位后切割出的输入文字检测网络的图像,输出切割出的结果。其中,本实施例中,一次性的将文字切割出来,利用的是文本图像的行间距,空格等图像特征训练图像分割神经网络(SSD),无需初级文字框再调整等逻辑。
在步骤S224中,对文字区域中检测出来的文字进行文字识别的过程中,包括利用OCR深度学习,获取原始书写图像中的文字,并对识别的文字进行解析,以便根据用户非接触式手势交互,获取用户所要矫正的书写文字。输入文字识别神经网络,输出已识别的文字内容,本实施例中,文字识别神经网络采用OCR技术识别,本实施例中采用LSTM网络。
进一步地,采用OCR技术识别的方法包括:
获取文字区域截取的图像,对文字区域截取的图像进行预处理,包括二值化图像、噪声去除、倾斜校正等;对文字区域截取的图像进行版面分析,将页面分为横排文本、竖排文本、表格、图片等不同区域,帮助字符切割,以便识别OCR;设置文字区域图像的语种,选择需要OCR语种的引擎程序;输出识别结果,输出OCR识别结果为原版原样的优质文件。
因此,对于原始书写图像的OCR识别,将文字区域图像作一个转换,使图像内的字符继续保存、有表格则表格内资料及图像内的文字,一律变成计算机文字,以便进行手势操作时,方便查询检索重复利用。
在步骤S225中,对文字区域进行切割,得到单个文字图片,将单个文字图片进行大小归一化到参考字形图片一致的尺寸,输出文字字形图片;进一步地,将目标图像切分得到单个文字图片,并将单个文字图片进行大小归一化到参考字形图片一致的尺寸,在一种实施方式中,具体包括对文本图片进行方向矫正和切割,得到单个汉字图片;将单个汉字图片放置在以宽高的较长边为边长的正方形的中心,再将图片缩放到尺寸224×224,保持原汉字的宽高比。
在步骤S360中,字体识别神经网络基于文献(Karen Simonyan andAndrewZisserman.2014.Very deep convolutional networks for large-scale imagerecognition.arXiv preprint arXiv:1409.1556(2014))中记载的VGG16网络结构,其中,采用字体识别网络,在100种字体数据上进行训练,得到预训练好的字体识别网络;采用字体识别网络conv5_3层的输出表征汉字的字体风格特征,由此提取得到用户书写汉字的字体特征。被实施方式中,利用每种字体的ttf文件生成GB2312字符集的6763个汉字图片,图片大小为224×224。其中一半的图片数据作为训练集,另一半的图片数据作为测试集,在ImageNet数据集训练好的模型上进行参数的调整。本发明采用字体识别网络conv5_3层(ReLU激活层之后)14×14×512维的输出来表征文字字体字形数据。
本实施例中,利用文本角度神经网络、文本检测神经网络、文字识别神经网络、字体识别神经网络识别文字内容及其字形信息,可以由同一硬件计算单元进行加速计算,通常可采用具有的NPU单元的芯片,无需异构的CPU或其他计算单元加速,本实施例的识别方法即使应用于通用的CPU上,也只要优化通用神经网络计算库即可。
利用文本角度神经网络、文本检测神经网络、文字识别神经网络、字体识别神经网络识别文字内容及其字形信息是完全一致运算过程,即设计神经网络结构,准备训练所需数据,训练网络到一定准确度,即可完成。因此,在实现较编写算法代码更容易获得可用的成果,并且,在数据不断积累的情况下,四个网络的识别结果会越来越准。本实施例中,根据每次的识别结果触发后续行为,从手指指向并获得最后结果的速度达到了300ms以内。
本实施例中的一系列神经网络按照特定次序和逻辑组成,每一前序神经网络的计算结果作为下一神经网络的输入(或者用于处理输入),实际非常高效的实现了手势识别文本这一交互(0.3秒,>95%的准确率)。用这些神经网络的组成逻辑解决一个特定问题(高速准确地手指指读单词或字)是实施例的核心。
在步骤S300中,进一步地,根据文字内容及其字形信息,从预设文字库中搜索参考字形图像;后将参考字形图像与文字图像进行相似度对比分析,进一步包括:
S310:根据文字内容及其字形信息,从预设文字库中搜索参考字形图像;
S320:获取参考字形图像中笔画的位置绝对信息和笔画之间的相对信息;
S330:将文字图像矢量化处理;获取文字图像中笔画的位置绝对信息和笔画的之间的相对信息;
S340:利用笔画的位置绝对信息和相对信息,对文字图像和参考字形图像进行图片像素级别的相似度计算;
S350:利用欧几里得空间内定义的余弦距离,输出相似度对比结果。
本实施例中,使用预设文字库进行搜索,预设文字库为各国常用的字体类型。针对中文,比如宋体、仿宋、行书、草书等。
步骤S330中的可扩展文字信息包括但不限于获取的目标图像中所识别文字的语言类别、文字类别、字体类别以及所识别文字字体的标准字。参考附图2所示,在一种实施方式中,文字信息包括语言、文字、字体、以及对应文字的标准字,其中,AI视觉识别出所选文字图像中所对应文字最接近的参考字形,比如附图中识别出的文字为“中国人”,进一步识别出该字体最接近于隶书,因此,显示“中国人”所对应的隶书的标准字。
在步骤S400中,参考图4所示,展示文字数据和对比结果的方法的步骤包括:
S410:将文字字形图片临摹覆盖于参考字形图片上,并输出临摹显示图片;;
S420:按预定排版,展示临摹显示图片、对比结果以及文字内容中的扩展文字信息。参考图4所示,图4为一种实施例中的展示的排版示意图。
本实施例中,预设展示框架,展示分两部分,一部分是图形对比,将文字图像与参考字形图像等大小,叠在一起做对比,将参考字形图像用其他颜色显示,比如,红色。显示对比后的相似度评分,例如相似度95%。
本实施方式中,将文字字形图片临摹覆盖于参考字形图片上的方法,还包括对各文字字形图片之间的间距、齐整度进行归一化处理,使其配合参考字形图片尺寸,从而使得,利用参考字形图片辅助临摹用户所书写的字体。
参考图4所示,进行对比临摹展示时,将文字字形图片辅助临摹其参考字形图片,包括调整文字字形之间的间距、齐整度、文字笔画相似程度在内的多项展示分析,并输出字形数据与参考字形数据之间的对比结果,展示两者之间比较分析后的相似度,参考图6所示,本实施例中,两者之间的相似度为70%。
本实施方式中,利用一显示屏实现对所选文字字形的临摹分析显示,使得所选文字图像及其所对应的文字信息、临摹显示及对比结果显示于显示屏中,以便在进行书写时,实时看出所书写文字与参考字体之间的差异,从而提高书写技巧。
实施方式二
参考图5所示,图5为本实施方式提供的一种基于AI视觉下的书写字体临摹辅助系统结构框图,该系统用于执行本申请上述实施方式一种的基于AI视觉下的书写字体临摹辅助方法实施例中的技术方案,其技术原理和技术效果相似。
进一步地,该基于AI视觉下的书写字体临摹辅助系统包括获取模块11、识别模块13、对比模块14、输出模块12。
获取模块11,用于实时获取视场范围内包括动作信息和书写介质在内的图像;
识别模块13,用于构建并训练多种卷积神经网络,识别图像中的动作信息以及动作信息指向的目标图像;并根据识别出的动作信息,识别目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息;
对比模块14,用于根据文字内容及其字形信息,从预设文字库中搜索参考字形图像;后将参考字形图像与文字图像进行相似度对比分析,输出对比结果;
输出模块12,用于输出文字内容和对比结果。
实施方式三
参考图6-8所示,图6为本实施例中一种基于AI视觉下的书写字体临摹辅助装置,图7为本实施例中另一种基于AI视觉下的书写字体临摹辅助装置,图8为本实施方式提供的一种基于AI视觉下的书写字体临摹辅助装置的数据传输示意图,该装置用于执行本申请上述实施方式一种的基于AI视觉下的书写字体临摹辅助方法实施例中的技术方案,其技术原理和技术效果相似。图6中为一种一体式设计的基于AI视觉下的书写字体临摹辅助装置,图7中的显示屏采用外设方式,显示屏可通过智能终端实现显示,比如智能手机、平板、笔记本电脑等。
进一步地,该装置包括摄像头100、AI识别设备200、显示屏300,AI设备设备200分别与摄像头100、显示屏300连接。
摄像头100用于实时拍摄视场范围内包括动作信息和书写介质在内的图像,后传输给AI识别设备。
AI识别设备200用于实时获取视场范围内包括动作信息和书写介质在内的图像;构建并训练多种卷积神经网络,识别图像中的动作信息以及动作信息指向的目标图像;并根据识别出的动作信息,识别目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息;根据文字内容及其字形信息,从预设文字库中搜索参考字形图像;后将参考字形图像与文字图像进行相似度对比分析;后输出文字内容和对比结果。
显示屏300用于接收并显示输出的文字内容和对比结果。
进一步地,用于基于AI识别设备获取用户在任意书写介质上对用户所书写或选择的目标图像;对用户所选择的目标图像进行识别,以便获取目标图像所对应文字的文字信息,进而识别目标图像中的文字内容,及其字形数据,根据文字内容以及字形数据,获取参考字形数据,并进行比较分析后,进行临摹比较展示。
在显示屏300显示信息之前,还包括AI识别设备200与显示屏300进行通信连接,以便AI识别设备200将采集的目标图像、识别的文字内容及其文字字形图片、以及文字字形图片与参考字形图片的临摹展示图片传输至显示屏中。
本实施例中的AI识别设备200中包括一处理器,该处理器被编程为用于使用人工智能识别算法识别图像中的指定动作,同时该处理器整个或部分地由专门配置的硬件来执行(例如,由一个或多个专用集成电路或ASIC(s)来执行)。
本实施方式中,摄像头100实时拍摄视场范围内的图片,实时拍摄的动作有识别模块进行识别,之后根据识别出的指定动作,确定识别模块确定对显示装置的控制操作,这样用户可使用指定动作与AI识别设备进行交互,增强了用户的使用体验。
进一步地,当显示屏为非智能终端设备时,显示屏可以为各种类型的显示器,例如,LCD、OLED、等离子、CRT,等等。AI识别设备与显示屏之间的连接关系,可以是显示装置嵌入在AI识别设备中,即AI识别设备与显示装置一体设计,也可以是AI识别设备与显示装置有线或无线传输,比如,采用有线传输时,可使用传输线(例如USB线)连接,采用无线传输时,可以采用但不限于蓝牙、WiFi、ZigBee、3g/4g/5g无线通信技术。
实施方式四
本实施方式提供的一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行实施方式一中的任一项的基于AI视觉下的书写字体临摹辅助方法的步骤。该步骤包括:
S100:实时获取视场范围内包括手指动作信息和书写介质在内的图像。
S200:构建并训练多种卷积神经网络;识别图像中的手指动作信息以及手指指向的目标图像;识别目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息。
S300:根据文字内容及其字形信息,从预设文字库中搜索参考字形图像,后将参考字形图像与文字图像进行相似度对比分析。
S400:输出文字内容和对比结果。
进一步地,本实施方式中的计算机设备中的存储器用于存储计算机指令;本实施方式中的计算机设备中的处理器用于运行存储器中存储的计算机指令实现实施方式一中基于AI视觉下的书写字体临摹辅助方法实施例中的技术方案,其技术原理和技术效果相似,此处不再叙述。
实施方式五
一种存储有计算机可读指令的存储介质,计算机可读指令存储在可读指令的存储介质中,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如实施方式一中的任一项的基于AI视觉下的书写字体临摹辅助方法的步骤。计算机可读指令用于实现本申请实施方式一中基于AI视觉下的书写字体临摹辅助方法实施例中的技术方案,其技术原理和技术效果相似,此处不再赘述。该步骤包括:
S100:实时获取视场范围内包括手指动作信息和书写介质在内的图像。
S200:构建并训练多种卷积神经网络;识别图像中的手指动作信息以及手指指向的目标图像;识别目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息。
S300:根据文字内容及其字形信息,从预设文字库中搜索参考字形图像,后将参考字形图像与文字图像进行相似度对比分析。
S400:输出所述文字内容和所述对比结果。
进一步地,本申请实施例还提供一种运行指令的芯片,芯片用于执行本申请实施方式一中基于AI视觉下的书写字体临摹辅助方法实施例中的技术方案,其技术原理和技术效果相似,此处不再赘述。
本申请实施例还提供一种程序产品,程序产品包括计算机程序,计算机程序存储在存储介质中,至少一个处理器可以从存储介质读取计算机程序,至少一个处理器执行计算机程序时可实现本申请实施方式一中基于AI视觉下的书写字体临摹辅助方法实施例中的技术方案,其技术原理和技术效果相似,此处不再赘述。
在上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本领域普通技术人员可以理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请实施例的技术方案,而非对其限制;尽管参照前述各实施例对本申请实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。

Claims (10)

1.基于AI视觉下的书写字体临摹辅助方法,其特征在于,所述方法包括:
S1:实时获取视场范围内包括手指动作信息和书写介质在内的图像;
S2:构建并训练多种卷积神经网络;识别所述图像中的手指动作信息以及所述手指指向的目标图像;识别所述目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息;
S3:根据所述文字内容及其字形信息,从预设文字库中搜索参考字形图像,后将所述参考字形图像与所述文字图像进行相似度对比分析;
S4:输出所述文字内容和所述对比结果。
2.如权利要求1所述的基于AI视觉下的书写字体临摹辅助方法,其特征在于,所述步骤S2中,识别所述图像中的动作信息以及所述动作信息指向的目标图像;进一步包括:
构建并训练手指定位神经网络;
接收视场范围内包括手指动作信息和书写介质在内的图像;
将接收的图像输入到所述手指定位神经网络中,输出特征图像信息;所述特征图像信息包括手指动作信息和所述手指指向的目标位置信息;
根据所述目标位置信息,获取预设尺寸的包括文字图像在内的目标图像。
3.如权利要求2所述的基于AI视觉下的书写字体临摹辅助方法,其特征在于,所述步骤S2中,识别所述目标图像中的文字内容及其字形信息,进一步包括:
构建并训练文本角度神经网络、文本检测神经网络、文字识别神经网络、字体识别神经网络;
在所述目标图像中,以手指指尖为中心,截取预设尺寸的图片,输入所述文本角度神经网络,输出图片中的文本旋转角度;
旋转文本角度,直至所述文本旋转角度为0,截取预设尺寸的图片,输入所述文本检测神经网络,输出检测到的文字区域的位置信息和尺寸信息;
根据所述文字区域的位置信息和尺寸信息截取图片,输入所述文字识别神经网络,输出文字内容;
对所述文字区域截取的图片进行切割,得到单个文字图片,将单个文字图片进行大小归一化到参考字形图片一致的尺寸,输出文字图像;
将所述文字图像输入所述字体识别神经网络,输出所述文字内容对应的字形信息。
4.如权利要求3所述的基于AI视觉下的书写字体临摹辅助方法,其特征在于,所述步骤S3,进一步包括:
根据所述文字内容及其字形信息,从预设文字库中搜索参考字形图像;
获取所述参考字形图像中笔画的绝对位置信息和笔画之间的相对位置信息;
将所述文字图像矢量化处理,获取所述文字图像中笔画的绝对位置信息和笔画的之间的相对位置信息;
利用笔画的绝对位置信息和相对位置信息,对文字图像和参考字形图像进行图片像素级别的相似度计算;
利用欧几里得空间内定义的余弦距离,输出相似度对比结果。
5.如权利要求4所述的基于AI视觉下的书写字体临摹辅助方法,其特征在于,所述步骤S4进一步包括:
将所述文字图像临摹覆盖于所述参考字形图像上,并输出临摹显示图像;
按预定排版,显示所述临摹显示图像、对比结果以及所述文字内容中的扩展文字信息。
6.如权利要求5所述的基于AI视觉下的书写字体临摹辅助方法,其特征在于,将所述文字字形图片临摹覆盖于所述参考字形图片上的方法,还包括对各所述文字字形图片之间的间距、齐整度进行归一化处理,使其配合所述参考字形图片尺寸。
7.基于AI视觉下的书写字体临摹辅助系统,其特征在于,所述系统包括获取模块、识别模块、对比模块、展示模块;
所述获取模块,用于实时获取视场范围内包括手指动作信息和书写介质在内的图像;
所述识别模块,用于构建并训练多种卷积神经网络;识别所述图像中的手指动作信息以及所述手指指向的目标图像;识别所述目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息;
所述对比模块,用于根据所述文字内容及其字形信息,从预设文字库中搜索参考字形图像;后将所述参考字形图像与所述文字图像进行相似度对比分析;
所述输出模块,用于输出所述文字内容和所述对比结果。
8.基于AI视觉下的书写字体临摹辅助装置,其特征在于,所述装置包括摄像头、AI识别设备、显示屏,所述AI设备设备分别与所述摄像头、所述显示屏连接;
所述摄像头用于实时拍摄视场范围内包括手指动作信息和书写介质在内的图像;
所述AI识别设备实时获取视场范围内包括手指动作信息和书写介质在内的图像;构建并训练多种卷积神经网络;识别所述图像中的手指动作信息以及所述手指指向的目标图像;识别所述目标图像中的文字内容及其字形信息,输出文字图像、文字内容及其字形信息;根据所述文字内容及其字形信息,从预设文字库中搜索参考字形图像,后将所述参考字形图像与所述文字图像进行相似度对比分析;后输出所述文字内容和所述对比结果;
所述显示屏用于接收并显示输出的所述文字内容和所述对比结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述的基于AI视觉下的书写字体临摹辅助方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项所述的基于AI视觉下的书写字体临摹辅助方法的步骤。
CN202010613227.9A 2020-06-30 2020-06-30 基于ai视觉下的书写字体临摹辅助方法、系统、装置 Pending CN111985184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010613227.9A CN111985184A (zh) 2020-06-30 2020-06-30 基于ai视觉下的书写字体临摹辅助方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010613227.9A CN111985184A (zh) 2020-06-30 2020-06-30 基于ai视觉下的书写字体临摹辅助方法、系统、装置

Publications (1)

Publication Number Publication Date
CN111985184A true CN111985184A (zh) 2020-11-24

Family

ID=73437604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010613227.9A Pending CN111985184A (zh) 2020-06-30 2020-06-30 基于ai视觉下的书写字体临摹辅助方法、系统、装置

Country Status (1)

Country Link
CN (1) CN111985184A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784845A (zh) * 2021-01-12 2021-05-11 安徽淘云科技有限公司 手写文字检测方法以及电子设备、存储装置
CN115438215A (zh) * 2022-11-08 2022-12-06 苏州浪潮智能科技有限公司 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN116776827A (zh) * 2023-08-23 2023-09-19 山东捷瑞数字科技股份有限公司 一种人工智能排版方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104485035A (zh) * 2014-11-17 2015-04-01 潘滟 书法练习系统及其方法
CN204833783U (zh) * 2015-07-24 2015-12-02 刘世斌 书法助学仪
CN109325464A (zh) * 2018-10-16 2019-02-12 上海翎腾智能科技有限公司 一种基于人工智能的手指点读文字识别方法及翻译方法
CN109657537A (zh) * 2018-11-05 2019-04-19 北京达佳互联信息技术有限公司 基于目标检测的图像识别方法、系统和电子设备
CN110070089A (zh) * 2019-04-24 2019-07-30 京东方科技集团股份有限公司 书法指导方法及装置、计算机设备及介质
CN110443231A (zh) * 2019-09-05 2019-11-12 湖南神通智能股份有限公司 一种基于人工智能的单手手指点读文字识别方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104485035A (zh) * 2014-11-17 2015-04-01 潘滟 书法练习系统及其方法
CN204833783U (zh) * 2015-07-24 2015-12-02 刘世斌 书法助学仪
CN109325464A (zh) * 2018-10-16 2019-02-12 上海翎腾智能科技有限公司 一种基于人工智能的手指点读文字识别方法及翻译方法
CN109657537A (zh) * 2018-11-05 2019-04-19 北京达佳互联信息技术有限公司 基于目标检测的图像识别方法、系统和电子设备
CN110070089A (zh) * 2019-04-24 2019-07-30 京东方科技集团股份有限公司 书法指导方法及装置、计算机设备及介质
CN110443231A (zh) * 2019-09-05 2019-11-12 湖南神通智能股份有限公司 一种基于人工智能的单手手指点读文字识别方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784845A (zh) * 2021-01-12 2021-05-11 安徽淘云科技有限公司 手写文字检测方法以及电子设备、存储装置
CN115438215A (zh) * 2022-11-08 2022-12-06 苏州浪潮智能科技有限公司 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN116776827A (zh) * 2023-08-23 2023-09-19 山东捷瑞数字科技股份有限公司 一种人工智能排版方法、装置、设备及可读存储介质
CN116776827B (zh) * 2023-08-23 2023-11-21 山东捷瑞数字科技股份有限公司 一种人工智能排版方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111881310B (zh) 一种汉字硬笔书写智能指导和评分方法及指导评分系统
Kara et al. Hierarchical parsing and recognition of hand-sketched diagrams
US20210397266A1 (en) Systems and methods for language driven gesture understanding
Zheng et al. Recent advances of deep learning for sign language recognition
CN111985184A (zh) 基于ai视觉下的书写字体临摹辅助方法、系统、装置
Wang et al. Sparse observation (so) alignment for sign language recognition
CN111626297A (zh) 文字书写质量评价方法、装置、电子设备和记录介质
CN109376612B (zh) 一种基于手势协助定位学习的方法和系统
CN110085068A (zh) 一种基于图像识别的学习辅导方法及装置
CN102930270A (zh) 基于肤色检测与背景消除的手部识别方法及系统
Jing et al. Recognizing american sign language manual signs from rgb-d videos
CN112001394A (zh) 基于ai视觉下的听写交互方法、系统、装置
Wu et al. The recognition of teacher behavior based on multimodal information fusion
CN111126280A (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
Garg et al. Optical character recognition using artificial intelligence
CN111738177B (zh) 一种基于姿态信息提取的学生课堂行为识别方法
CN107169449A (zh) 基于深度传感器的中文手语翻译方法
CN117095414A (zh) 一种基于点阵纸笔的手写识别系统及识别方法
Parthasarathy et al. Novel Video Benchmark Dataset Generation and Real-Time Recognition of Symbolic Hand Gestures in Indian Dance Applying Deep Learning Techniques
Triyono et al. Sign language translator application using opencv
CN111582281B (zh) 一种图片显示优化的方法、装置、电子设备和存储介质
Alyahya et al. Intelligent ResNet-18 based Approach for Recognizing and Assessing Arabic Children's Handwriting
Qiang et al. Research on Hard-tipped Calligraphy Classification Based on Deep Learning Method
Vahdani et al. Recognizing American sign language manual signs from Rgb-D videos
Ouali et al. A Novel Method for Arabic Text Detection with Interactive Visualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination