CN112001394A - 基于ai视觉下的听写交互方法、系统、装置 - Google Patents

基于ai视觉下的听写交互方法、系统、装置 Download PDF

Info

Publication number
CN112001394A
CN112001394A CN202010668289.XA CN202010668289A CN112001394A CN 112001394 A CN112001394 A CN 112001394A CN 202010668289 A CN202010668289 A CN 202010668289A CN 112001394 A CN112001394 A CN 112001394A
Authority
CN
China
Prior art keywords
dictation
image
recognition
information
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010668289.XA
Other languages
English (en)
Inventor
高旻昱
范骁骏
侯瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lingteng Intelligent Technology Co ltd
Original Assignee
Shanghai Lingteng Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lingteng Intelligent Technology Co ltd filed Critical Shanghai Lingteng Intelligent Technology Co ltd
Priority to CN202010668289.XA priority Critical patent/CN112001394A/zh
Publication of CN112001394A publication Critical patent/CN112001394A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于AI视觉下的听写交互方法、系统、装置,方法包括:S100:实时获取采集的目标图像;S200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别目标图像中的动作信息和文字信息;S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;S400:控制播放听写任务的听写内容;S500:控制显示听写任务中的提示内容以及听写结果。本发明通过多个卷积深度神经网络,实现手势与听写设备进行交互,提高识别的准确度,加快识别速度,增强了用户的使用体验。

Description

基于AI视觉下的听写交互方法、系统、装置
技术领域
本发明涉及人工智能识别交互领域,具体涉及基于AI视觉下的听写交互方法、系统、装置。
背景技术
语言学习中的文字听写是学习过程中的重要环节,现有的工具都需要人为手动输入所要听写的内容,或者人为口述听写内容,且听写内容需要提前备好,因此效果较低。
深度学习和大数据的发展大大提高了人工智能方法在图像识别、手势识别和文字识别的性能。通过人工智能的方法将手势识别和文字识别等技术应用到语言学习中的听写中,能够很大程度提高人们的语言学习效率。
现有技术中,一种基于人工智能的儿童绘本辅助阅读方法,包括:逐页拍摄书页图像,制作书页图像模板,保存书页图像特征;通过摄像头拍摄书页图像,提取书页图像的纹理特征,与模板进行匹配,判断书页页码;根据书页页码载入当前页面上的点读资源,点读资源包括绘本中的人物形象及其对应的音频故事和问答资源;检测动态手势的关键图像帧,抛弃模糊不清晰的手势图像帧;通过摄像头拍摄视频帧图像,检测儿童手指指向的点读资源处,则播放对应人物的故事;进入语音问答环节,根据当前页的内容匹配知识库中的问题,主动与儿童会话。上述方法可提供绘本的点读和问答,提高儿童学习兴趣和效率,能够在教学条件不足的场合,辅助儿童自行进行绘本阅读。
然而,此项目虽然从原理上可以实现辅助儿童自行进行绘本阅读,但是,“用摄像机拍摄桌面场景,追踪桌面上的手的动作,比如手指的直线滑动,画图,手指伸出的个数,点击及拍击行为,用Al算法识别手势的意图”,达到上述效果采用的技术复杂、成本高、不具有可推广性,并且用Al算法识别的手势过多后,出错率非常高。
还有一种基于卷积变分自编码器神经网络的手指静脉识别方法及系统,该系统包括图像采集模块、图像预处理模块、图像特征提取模块、图像训练模块和图像识别模块;识别方法包括获取待识别用户的手指静脉图像;对手指静脉图像信息进行图像预处理,提取手指静脉感兴趣区域(ROI)图像;通过卷积变分自编码器神经网络提取所述手指静脉感兴趣区域中的手指静脉特征编码;将特征编码输入到一个全连接网络中进行识别处理,识别所述待识别用户的身份信息。本发明能够有效地提取手指静脉特征,提高了对噪声的冗余性,明显改善手指静脉识别系统的识别精度。这种方法仅仅是用于提升识别手指的精度,并不能获知其手指的运动区域,更无法获知运动区域作为识别区域,有方案给出其识别区域如何进行信息解读。
因此,现有技术中实现手指定位识别是通过采集装置获得图像,再对图像进行分割获得特征点再做比对,整个识别的效率非常低,费时长。
发明内容
本申请提供一种基于AI视觉下的听写交互方法、系统、装置被配置为解决现有技术中的语言学习中的听写实现操作繁琐、识别速度慢、效率低的技术问题。
为解决上述问题,本发明提供的第一种的技术方案为:
本发明提供了一种基于AI视觉下的听写交互方法,所述方法包括:
S100:实时获取采集的包括可识别的动作信息和文字信息的目标图像;
S200:构建并训练多个卷积深度神经网络和循环深度神经网络或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;
S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;
S400:控制播放所述听写任务的听写内容;
S500:控制显示所述听写任务中的提示内容以及听写结果。
进一步优选地,还包括:
根据识别出的所述动作信息制作所述听写任务时,将识别出的所述文字信息存储为制作所述听写任务之一的听写内容;
根据识别出的所述动作信息执行所述听写任务时,进一步包括:
接收用户对所述听写任务的选择;
播放所选的所述听写任务的听写内容;
实时采集目标图像,后识别所述目标图像;
接收识别出的所述目标图像中的所述文字信息,将识别出的所述文字信息与所选听写任务中的听写内容进行对比分析;
显示出对比分析结果。
进一步优选地,在所述步骤S200中,进一步包括:
接收实时采集的视场范围内的所述目标图像;
根据所述卷积深度神经网络对所述目标图像进行识别,包括对所要识别的所述文字信息进行定位操作的指定动作,所述指定动作包括包括单指操作手势、双指操作手势、多指操作手势中的任意一种或多种。
进一步优选地,所述步骤S200中,进一步还包括:接收若干目标图像,利用若干目标图像训练卷积深度神经网络、循环深度神经网络、基于自注意力机制的Transformer深度神经网络的组合结构,识别所述指定动作下的位置图像,以及将所述目标图像压缩至寻找所述指定动作的预设低像素分辨率的特征图像。
进一步优选地,所述步骤S200中,构建多个卷积深度神经网络包括:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络。
进一步优选地,根据所述卷积深度神经网络,识别所述目标图像中的所述动作信息和所述文字信息的方法包括步骤:
S210:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络;
S220:利用所述定位神经网络进行所述指定动作的位置跟踪,以对所述指定动作的精确定位;
S230:获取对所述指定动作的定位,包括以所述指定动作为中心,截取预设大小的区域图像,输入所述角度识别神经网络,输出图像区域中文本的旋转角度;
S240:判断所述旋转角度是否为0,若所述旋转角度不为0时,以所述指定动作为中心,旋转所述旋转角度,截取预设大小的区域图像,否则,直接截取预设大小的区域图像,输入所述文本检测神经网络,输出检测到的文字区域的位置信息和尺寸信息;
S250:通过所述文字区域的位置信息和尺寸信息截取对应的图像,输入所述OCR识别神经网络,输出已识别的文字内容。
为解决上述问题,本发明提供的第二种的技术方案为:
本发明提供了一种基于AI视觉下的听写交互系统,采用如上述任意一项所述的基于AI视觉下的听写交互方法,所述系统包括获取模块、识别模块、处理模块、显示模块、语音模块;所述识别模块与所述获取模块、所述处理模块电性连接,所述处理模块分别与所述显示模块、所述语音模块电性连接;
所述获取模块,用于实时获取采集的包括可识别的动作信息和文字信息的目标图像;;
所述识别模块,用于用于构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;
所述处理模块,用于根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;
所述语音模块,用于控制播放所述听写任务的听写内容;
所述显示模块,用于控制显示所述听写任务中的提示内容以及听写结果。
为解决上述问题,本发明提供的第三种的技术方案为:
本发明提供了一种基于AI视觉下的听写交互装置,采用如上述任意一项所述的基于AI视觉下的听写交互方法,所述装置包括所述系统包括AI识别装置和输出装置,所述AI识别装置包括摄像设备、识别设备、处理设备,所述输出设备包括显示设备、语音设备,所述识别设备分别与所述摄像设备、所述处理设备连接,所述处理设备与所述显示设备、语音设备连接;
所述摄像设备用于实时采集包括可识别的动作信息和文字信息的目标图像,后传输给所述识别设备;
所述识别设备用于获取采集的目标图像,构建并训练多个卷积深度神经网络和循环深度神经网络或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息,后将识别结果传输给所述处理设备;
所述处理设备用于根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;
所述语音设备用于播放所述听写任务的听写内容;
所述显示设备用于显示所述听写任务中的提示内容以及听写结果。
为解决上述问题,本发明提供的第四种的技术方案为:
提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上述任一项所述的基于AI视觉下的听写交互方法的步骤。
为解决上述问题,本发明提供的第五种的技术方案为:
提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述中任一项所述的基于AI视觉下的听写交互方法的步骤。
本发明由于采用以上技术方案,使其与现有技术相比具有以下的优点:
1)本发明一实施例中的基于AI视觉下的听写交互方法通过AI识别设备上的摄像头实时拍摄的用户指定动作,之后根据识别出的动作信息确定对听写任务的控制操作,这样用户可使用用户指定动作与AI识别设备进行交互,增强了用户的使用体验。
2)本发明一实施例中的基于AI视觉下的听写交互系统包括获取模块、识别模块、处理模块、显示模块、语音模块,获取模块连接识别模块,识别模块连接处理模块,处理模块连接语音模块、显示模块,获取模块实时接收包括实时采集的动作信息和文字信息在内的图像,并由识别模块进行识别,后将识别结果传输给处理模块,处理模块根据识别出的动作信息确定对听写任务的控制操作,这样用户可使用用户指定动作与AI识别设备进行交互,增强了用户的使用体验。
3)首先,本申请采用动作识别的开发,高效完成用户动作对文字识别以及任务切换的功效。第一,通过采集设备(比如摄像设备)采集高清晰图像,将图像输入预先训练的手指定位神经网络,输出获得目标位置分布信息。并且输入的高清晰图像(比如4000*3000像素的分辨率的图像。第二,先快速找到目标位置信息,再对该目标位置信息截取预设的图像区域,然后输出旋转角度得到旋转后的图像,随后根据旋转后的图像得到指定动作位置所在的文本框,最后截取文本框进行识别出文本。这种图像处理有效,且大大提升了整个识别的速度。即,从高清晰度的图像中以相对较优的低分辨率快速找到指定动作所在位置,再对高清晰度的图像中该指定动作所在位置的进行高分辨率的图像区域截出,截出的图像进行文本框检测,检测后进行文本识别,识别的效率非常高。
其次,本发明的整个过程全面利用神经网络深度学习,不仅提升识别的效率而且也使得实现识别的人工智能。再次,利用人工智能技术,本发明的一实例中快速的文字识别和字形识别的流程,整个流程耗时不超过300ms,极大地提高了临摹练字的效率:流程时间检测结果为:
步骤1、一个立于桌面的采集装置,平台上有任意书写介质,用户在书写后,通过指定动作,使得AI识别设备实时识别平台上是否出现可识别的动作信息,并且判断目标动作的位置,该步骤耗时50ms。
步骤2、当判断结果是用户有指示意图时,以用户动作位置为中心,截取一个方框区域图像,输入角度识别神经网络,输出图像区域中文本的旋转角度,该步骤耗时40ms。
步骤3、当旋转角度不为0时,以用户指定动作位置为中心,旋转截取一个方框区域图像,识别区域图像中的目标动作的文字区域,该步骤耗时80ms。
步骤4、截取步骤3中的文本区域图像,输入预先训练完成的OCR识别神经网络,输出识别的文字内容,该步骤耗时100ms。同时将文本区域图像输入到字体识别神经网络,输出字形数据,该些步骤的检测流程的时间不超过300ms,非常快速达到识别效果,让使用者有很好的体验感。
最后,本发明首次提出了利用多个卷积深度神经网络算法来实现听写交互,并且利用瀑布流的形式,使得算法能在目前硬件平台也可以实时运行。
附图说明
图1本发明实施例的基于AI视觉下的听写交互方法流程图。
图2为本发明实施例的听写交互的示意图;
图3为本发明实施例的根据卷积深度神经网络识别动作信息及文字信息的方法流程图;
图4为本发明实施例的根据卷积深度神经网络识别动作信息及文字信息的识别示意图;
图5为本发明实施例的基于AI视觉下的听写交互系统示意框图;
图6为本发明实施例的基于AI视觉下的一体式听写交互装置示意图;
图7为本发明实施例的基于AI视觉下的拆分式听写交互装置示意图;
图8为本发明实施例的基于AI视觉下的听写交互装置示意框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
实施方式1
参考图1-2所示,本实施方式提出的一种基于AI视觉下的听写交互方法,该方法包括以下步骤。
步骤S100:实时获取采集的包括可识别的动作信息和文字信息的目标图像。
本步骤S100中,利用图像采集设备采集用户在视场范围内的目标图像,进行非接触式人机交互。采集设备可以为摄像设备或者图像传感器设备等。采集设备实时采集预检测区域的高清晰度的当前图像(预检测区域可以理解为视场范围)。在一种实施例中,利用摄像设备实时拍摄高清晰图像。
步骤S200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别目标图像中的动作信息和文字信息。
本步骤中,为了保证识别的准确率水平,在构建并训练卷积深度神经网络的基础之上,同时使用多个不同的卷积深度神经网络结构和后续串行的循环深度神经网络或者基于自注意力机制的Transformer深度神经网络的组合结构进行文字识别,并使用动态规划的公共子串匹配的算法对多个不同的组合结构的识别结果进行综合加权计算,由此将单一组合结构识别准确率提升约10个百分点,从而超过人工判断的准确率水平。
在步骤S200中,进一步包括:接收实时采集的视场范围内的目标图像;根据卷积深度神经网络对目标图像进行识别,包括对所要识别的文字信息进行定位操作的指定动作,指定动作包括包括单指操作手势、双指操作手势、多指操作手势中的任意一种或多种。
步骤S200中,进一步还包括:接收若干目标图像,利用若干目标图像训练卷积深度神经网络、循环深度神经网络、基于自注意力机制的Transformer深度神经网络的组合结构,识别指定动作下的位置图像,以及将目标图像压缩至寻找指定动作的预设低像素分辨率的特征图像。
步骤S200中,构建多个卷积深度神经网络包括:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络。当然本发明仅是举例说明,并不局限本发明。
本步骤S200中,将步骤S100中实时获取的目标图像连续输入到预先构建的卷积深度神经网络中,进一步地,将获取的目标图像连续输入预先构建的定位神经网络,输出与输入图像尺寸一致的特征图像信息,输出的图像信息包括预判定为手指的特征图像及该图像所在的位置信息。通过对若干连接帧图像进行定位神经网络的运算,分别获知对应其预判定为手指的特征图像所在位置信息,若位置信息为停止移动状态,则认定手指为点击状态,得到对应的特征图像所在位置信息。
在一种实施例中,将图像连续输入预先训练的定位神经网络,输出获得手指位置分布信息,获取的是高清晰图像(比如,4000*3000像素的分辨率的图像),根据寻找手指设定低像素分辨率值,比如300*300,本实例采用的是160*160的图像,通过此种处理方式,快速地找出手指对应的图像,确认手指的位置信息,速度与分辨率之间设置其平衡的预设低像素分辨率值可以经过多次实践获知。
基于神经网络的特性,利用在训练数据集上反复优化的网络参数。训练数据集包括输入和输出,输出图像由人工标注产生,当输出图像点是一个定点,在非高斯分布点的时候,由于人工标注的不确定性,例如,人员不同状态不同,造成训练数据的不一致,导致训练结果很难收敛。本实施例中可以采用高斯分布点,人工标注时,所产生的训练用输出数据都是高斯模糊过的。由于输出时高斯分布点,在小图像输入尺寸的情况下,可以准确的在原尺寸图像上获得精确的定位点,从而消除个体不一致造成的数据差异。超过神经网络输入尺寸(160x160)的精确度。在这个角度上说,用这样的神经网络和输入输出格式,数据训练方法,提高所需要的流畅的视觉交互的计算速度。
构建并训练定位神经网络可以包括以下实施例:定位神经网络由5层卷积神经网络和3层反卷积神经网络组成,该定位神经网络输出为一个和输入图像尺寸一致的特征图像,因此,训练时目标特征图像是以动作信息为中心的二维正态分布X~N(u,d),其中,该动作信息中的指定位置处取值最大为1,往边缘扩散逐渐减小到0,肉眼看上去是一个以该动作信息为中心的光斑。深度神经网络的损失函数是目标特征图像和推理特征图像的L1误差,优化算法采用AdamSGD,训练数据约100万张图像,迭代100万次收敛。卷积编码器的输出为反卷积解码器的输入。
定位神经网络输入的图像尺寸为160x160x3,其中,第一卷积层的这一层参数,通道数为16,卷积核为7x7,步长为2,输出特征图像为80x80x16;第二卷积层的这一层参数,通道数为16,卷积核为5x5,步长为2,输出特征图像为40x40x16;第三卷积层的这一层参数为,通道数为32,卷积核为3x3,步长为2,输出特征图像为20x20x32;第四卷积层的这一层参数,通道数为32,卷积核为3x3,步长为2,输出特征图像为10x10x32;第五卷积层的这一层参数,通道数为32,卷积核为3x3,步长为1,输出特征图像为5x5x32;第一反卷积层的这一层参数,通道数为64,卷积核为4x4,步长为2,输出特征图像为10x10x64;第二反卷积层的这一层参数,卷积核为4,步长为2,通道数为64,输出特征图像为20x20x64;第三反卷积层的这一层参数,通道数为64,卷积核为16,步长为8,输出特征图像为160x160x64;最后一层卷积层参数,通道数为1,卷积核为3,步长为1,输出的特征图像为160x160x1。
构建并训练角度识别神经网络可以包括以下实施例:该角度识别神经网络由4层卷积网络和1层全连接网络组成,网络输出是一个[-90,90]的角度值;当文本角度左旋转90度时,取值为0;当文本角度平行于图像边缘时,取值为90;当文本角度右旋转90度时,取值为180;神经网络的损失函数采用的softmax损失,优化算法采用AdamSGD;训练数据约50万张图像,迭代10万次收敛。网络输入图像为300x300x3,第一卷积层的这一层参数,通道数为8,卷积核为7x7,步长为2,输出特征图像是150x150x8;第二卷积层的这一层参数,通道数为16,卷积核为5x5,步长为2,输出特征图像是75x75x16;第三卷积层这一层参数,通道数为32,卷积核为3x3,步长为2,输出特征图像是37x37x32;第四卷积层的这一层参数,通道数为32,卷积核为3x3,步长为2,输出特征图像是18x18x32,最后全连接输出为1。
构建并训练文本检测神经网络可以包括以下实施例:该网络采用的MobileNet和修改后的SSD结合网络组成,网络的输出包括10个候选文本框位置以及相应的置信度,神经网络损失函数有两部分组成:第一部分先将文本框位置归一化后计算L1损失,第二部分计算是否是文本框类别的2分类softmax损失,优化算法采用RMS prop,迭代20万次收敛。
构建并训练OCR识别神经网络可以包括以下实施例:OCR识别神经网络有3层卷积网络和3层双向lstm网络组成,网络输出50位长度的字符和相应的置信度,神经网络损失函数采用的是softmax,优化算法采用的AdamSGD,迭代200万次收敛网络输出结果通过ctc算法优化得到识别的字符串。该网络输入图像大小为300x300x3。
该网络输入图像大小为100x32x3;第一层网络参数如下,通道数为32,核大小为11x11,步长为2,输出特征图像为50x16x3;第二层网络参数如下,通道数为32,核大小为7x7,步长为2,输出特征图像为25x8x32;第三层网络参数如下,通道数为96,核大小为5x5,步长为1x8,输出特征图像为25x1x96;lstm的参数为128;最后一层全连接参数为37,网络输出为25x37。
文字识别包括:文字识别神经网络详细结构和训练如下:该网络有3层卷积网络和3层双向lstm网络组成和一层全连接网络组成,网络输出50位长度的字符和相应的置信度。神经网络损失函数采用的是softmax,优化算法采用的AdamSGD,迭代200万次收敛。网络输出结果通过ctc算法优化得到识别的字符串。该网络输入图像大小为100x32x3;第一层网络参数如下,通道数为32,核大小为11x11,步长为2,输出特征图像为50x16x3;第二层网络参数如下,通道数为32,核大小为7x7,步长为2,输出特征图像为25x8x32;第三层网络参数如下,通道数为96,核大小为5x5,步长为1x8,输出特征图像为25x1x96;lstm的参数为128;最后一层全连接参数为37,网络输出为25x37。
参考图3-4所示,根据卷积深度神经网络,识别目标图像中的动作信息和文字信息的方法包括步骤:
步骤S210:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络;
步骤S220:利用定位神经网络进行指定动作的位置跟踪,以对指定动作的精确定位;
步骤S230:获取对指定动作的定位,包括以指定动作为中心,截取预设大小的区域图像,输入角度识别神经网络,输出图像区域中文本的旋转角度;
步骤S240:判断旋转角度是否为0,若旋转角度不为0时,以指定动作为中心,旋转旋转角度,截取预设大小的区域图像,否则,直接截取预设大小的区域图像,输入文本检测神经网络,输出检测到的文字区域的位置信息和尺寸信息;
步骤S250:通过文字区域的位置信息和尺寸信息截取对应的图像,输入OCR识别神经网络,输出已识别的文字内容。
本实施例中的一系列神经网络按照特定次序和逻辑组成,每一前序神经网络的计算结果作为下一神经网络的输入(或者用于处理输入),实际非常高效的实现了手势识别文本这一交互(0.3秒,>95%的准确率),且这些神经网络的组成逻辑解决一个特定问题,即高速准确地识别是本申请实施例的核心。
在一种实施例中,在将用手单指停留的“were”进行识别的实例。摄像设备采集的图像,原图像为4000x3000,将图像调整大小到160x160,输入步骤S220,结果输出一个手指位置分布图,尺寸为160x160,中心亮点即为手指的位置,根据此位置在原图上截取一个500*300图像区域,将图像整大小到300x300后输入步骤S230,输出旋转角度,得到旋转后的图像,将输入步骤S140,得到手指指向文本框,截取该文本框,得到图像,将整大小到100x32后输入步骤S250,输出“were”文本。
在步骤S230截取预先设定大小的图像区域,在本实例中采用500*300,这种图像区域大小和识别的文字信息等相关,可根据实现情况后设定。在步骤S240中,将截取的方框区域图像输入预先训练完成的文字检测神经网络,结果输出检测到文字的区域和置信度;筛选输出的文本区域,保留置信度最高的文本区域,当置信度大于预先设定值(比如0.3)时,系统设定手指指向的文字有效,输出检测到的文字区域起点像素的位置信息及对应的尺寸信息。
另外,可识别的动作信息可以为单指停留、单指划线、单指画圈、单指点击、双指停留、双指滑动、双指单击、多指滑动、双手指指定、双手指靠近、双手指拉远中的任意一种或多种。当然本发明以下仅是举例说明,并非用于局限本发明。本实施例中可设置为识别多种动作信息,进而根据识别的动作信息所对应的指定动作。本实施例中,根据可识别的动作信息中的指定动作,进行对目标图像中的文字信息的识别。
对目标图像中可识别的动作信息包括对文字信息进行定位操作的指定动作,指定动作包括单指操作手势、双指操作手势、多指操作手势中的任意一种或多种。本实施例中进行文字识别的动作信息的指定动作为单指操作手势,并且,单指操作中的指尖为可识别范围的中心位置处。通过动作信息进行非接触式人机交互,可以理解为利用获取可识别的动作信息,根据不同动作信息进行不同的控制,针对不同的控制操作,通过对不同的指定动作进行识别。本实施例中,在接收采集的目标信息,在获取目标图像后,先识别动作信息所对应的指定动作,再根据预先训练的深度神经网络、获取指定动作的位置信息,最后将目标图像压缩至寻找指定动作的预设低像素分辨率的特征图像。
下面通过一些具体实施例中,描述利用一些动作信息进行AI识别设备的控制过程。假设,用户进行若干动作所在的介质300为纸质介质300或具有文字载体的介质300(如,电子墨水屏、数字显示设备,等等)。
在一种实施例中,可识别的动作信息为单指停留,识别单指停留位置指向的内容,同时将识别内容输出展示。例如,用户的单个手指指向英文时识别单词,指向中文识别指向的词,或者指向试卷题目时识别所指向的题目。在一种实施例中,采集到的可识别的动作信息为单指划线,识别划线位置的内容,将识别到的内容输出展示,或者将识别到的内容进行解释或解答之后输出展示。例如,用户阅读英文时识别整句,用户阅读中文时识别整句。在一种实施例中,可识别的动作信息为单指画圈,单指画圈范围内的内容,将识别到的内容输出展示,或者将识别到的内容进行解释或解答之后在显示装置上进行显示。在一种实施例中,可识别的动作信息为单指点击,识别单指点击指向的内容,同时执行附加的功能性操作;还将功能性操作的执行过程和/或功能性操作的执行结果进行显示。单指点击是指单个手指在某一位置上下运动点击在纸面某处,可点击单次或多次。具体地,功能性操作包括对识别的内容进行存储,例如存储指备忘录,显示完整的操作过程。在一种实施例中,可识别的动作信息为双指停留,切换识别显示状态,智能识别显示状态是指控制显示内容。可以理解为,双指停留时,表明用户期望使用手势交互控制显示,此时应该控制显示执行准备操作。在一种实施例中,可识别的动作信息为双指滑动,理解为控制文档显示内容向滑动方向翻页,或者控制视频或音频播放的音量或播放进度。在一种实施例中,可识别的动作信息为双指单击,停止或恢复显示装置的屏幕刷新,或者停止或恢复视频或音频的播放,或者停止或恢复文档的自动翻页。在一种实施例中,可识别的动作信息为多指滑动,切换并启动不同的应用程序显示。例如,切换不同科目,或者不同语言的识别任务,用户在汉语听写切换至英语听写,当然,还可以在做试题时,识别试题,存储错题以便后续学习。在一种实施例中,可识别的动作信息为双手指指定,识别双手指指定对角范围内的内容,并将识别到的内容进行显示,或者将识别到的内容进行解释或解答之后进行显示。当然,关于利用一些动作信息进行识别控制过程不局限于上述描述的实施例。
步骤S300:根据识别的动作信息,执行对听写任务的控制操作,包括控制制作听写任务和控制执行听写任务。
在步骤S300中,根据识别的动作信息,执行对听写任务的控制操作的方法还包括。
第一种控制方法:根据识别出的动作信息制作听写任务时,将识别出的文字信息存储为制作听写任务之一的听写内容。可以包括以下步骤。
步骤S311:接收识别出的动作信息,该动作信息为控制制作听写任务;
步骤S312:接收识别出的文字信息,将该识别出的文字信息存储为听写任务之一;
步骤S313:显示听写任务供用户选择。
在制作听写任务时,提取并识别文字信息为生词生字,存储生词生字,并作为制作听写任务之一的听写内容。
第二种控制方法:根据识别出的动作信息执行听写任务时,进一步包括以下步骤。
步骤S321:接收用户对听写任务的选择;
步骤S322:播放所选的听写任务的听写内容;
步骤S323:实时采集目标图像,后识别目标图像;
步骤S324:接收识别出的目标图像中的文字信息,将识别出的文字信息与所选听写任务中的听写内容进行对比分析;
步骤S325:显示出对比分析结果。
在执行听写任务时,获取用户对听写任务的选择,提取并识别目标图像后,将识别的文字信息与所选的听写任务对应的听写内容进行对比分析,输出对比结果。
步骤S400:播放听写任务的听写内容。
本步骤S400中,根据用户所选的听写任务,接收存储的听写任务中的听写内容,将听写内容的文字信息转换为音频信息,并通过音频播放设备播放,进行听写操作。本步骤S400中的音频播放设备可以为扬声器。
本步骤中,根据用户接触式或者非接触式的人机交互,对听写任务的选择后,输出所选的听写任务的提示内容,以便用户根据提示内容在书写介质上书写。
步骤S500:显示听写任务中的提示内容以及听写结果。
本步骤S500中,进一步显示以下功能。显示说采集的目标图像,显示识别出的目标图像中的动作信息;显示听写任务列表;显示对听写任务的选择,显示听写任务中的提示内容;显示识别出的目标图像中的文字信息,显示采集的目标图像中的文字信息与听写任务中的听写内容的对比分析结果。
实施方式二
基于上述基于AI视觉下的听写交互方法,本实施例提供了一种具体方案,参考附图5所示,本实施方式提供了一种基于AI视觉下的听写交互系统,。
基于AI视觉下的听写交互系统包括获取模块100、识别模块200、处理模块300、语音模块400、显示模块500;识别模块200与获取模块100、处理模块300连接,处理模块30与显示模块500、语音模块400连接。
获取模块100,用于实时接收采集的包括可识别的动作信息和文字信息的目标图像。
识别模块200,用于构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息。
处理模块300,用于根据识别模块200识别的动作信息,执行控制制作听写任务或控制执行听写任务。
语音模块400,用于控制播放听写任务的听写内容。
显示模块500,用于控制显示听写任务中的提示内容以及听写结果。
实施方式三
基于上述基于AI视觉下的听写交互方法,本实施例提供了另一种具体方案,参考图6-7所示,本实施方式提供了一种基于AI视觉下的听写交互装置,该装置包括AI识别装置10和输出装置20,AI识别装置10包括摄像设备11、识别设备12、处理设备13,输出设备20包括显示设备21、语音设备22,识别设备12分别与摄像设备11、处理设备13连接,处理设备13与显示设备21、语音设备22连接。参考附图6所示,本实施例中的显示设备21和语音设备22可以采用外设。该装置可设计成一体化的听写交互装置,如图6,也可以设计成组合式的听写交互装置,如图7。
摄像设备11用于实时采集包括可识别的动作信息和文字信息的目标图像,后传输给识别设备12。
识别设备12用于获取采集的目标图像,构建并训练多个卷积深度神经网络和循环深度神经网络或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息,后将识别结果传输给所述处理设备13。
处理设备13用于根据识别的动作信息,执行控制制作听写任务或控制执行听写任务,控制语音设备22和显示设备21执行相应的操作。
语音设备22用于播放听写任务的听写内容。
显示设备21用于显示听写任务中的提示内容以及听写结果。
实施方式4
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行计算机可读指令时实现以下步骤:
S100:实时获取采集的包括可识别的动作信息和文字信息的目标图像。
S200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别目标图像中的动作信息和文字信息。
S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务。
S400:控制播放听写任务的听写内容。
S500:控制显示听写任务中的提示内容以及听写结果。
实施方式5
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
S100:实时获取采集的包括可识别的动作信息和文字信息的目标图像。
S200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别目标图像中的动作信息和文字信息。
S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务。
S400:控制播放听写任务的听写内容。
S500:控制显示听写任务中的提示内容以及听写结果。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明一些示例性实施例,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.基于AI视觉下的听写交互方法,其特征在于,所述方法包括:
S100:实时获取采集的包括可识别的动作信息和文字信息的目标图像;
S200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;
S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;
S400:控制播放所述听写任务的听写内容;
S500:控制显示所述听写任务中的提示内容以及听写结果。
2.如权利要求1所述的基于AI视觉下的听写交互方法,其特征在于,所述步骤S300中,还包括:
根据识别出的所述动作信息制作所述听写任务时,将识别出的所述文字信息存储为制作所述听写任务之一的听写内容;
根据识别出的所述动作信息执行所述听写任务时,进一步包括:
接收用户对所述听写任务的选择;
播放所选的所述听写任务的听写内容;
实时采集目标图像,后识别所述目标图像;
接收识别出的所述目标图像中的所述文字信息,将识别出的所述文字信息与所选听写任务中的听写内容进行对比分析;
显示出对比分析结果。
3.如权利要求1所述的基于AI视觉下的听写交互方法,其特征在于,在所述步骤S200中,进一步包括:
接收实时采集的视场范围内的所述目标图像;
根据所述卷积深度神经网络对所述目标图像进行识别,包括对所要识别的所述文字信息进行定位操作的指定动作,所述指定动作包括包括单指操作手势、双指操作手势、多指操作手势中的任意一种或多种。
4.如权利要求3所述的基于AI视觉下的听写交互方法,其特征在于,所述步骤S200中,进一步还包括:接收若干目标图像,利用若干目标图像训练卷积深度神经网络、循环深度神经网络、基于自注意力机制的Transformer深度神经网络的组合结构,识别所述指定动作下的位置图像,以及将所述目标图像压缩至寻找所述指定动作的预设低像素分辨率的特征图像。
5.如权利要求4所述的基于AI视觉下的听写交互方法,其特征在于,所述步骤S200中,构建多个卷积深度神经网络包括:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络。
6.如权利要求5所述的基于AI视觉下的听写交互方法,其特征在于,根据所述卷积深度神经网络,识别所述目标图像中的所述动作信息和所述文字信息的方法包括步骤:
S210:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络;
S220:利用所述定位神经网络进行所述指定动作的位置跟踪,以对所述指定动作的精确定位;
S230:获取对所述指定动作的定位,包括以所述指定动作为中心,截取预设大小的区域图像,输入所述角度识别神经网络,输出图像区域中文本的旋转角度;
S240:判断所述旋转角度是否为0,若所述旋转角度不为0时,以所述指定动作为中心,旋转所述旋转角度,截取预设大小的区域图像,否则,直接截取预设大小的区域图像,输入所述文本检测神经网络,输出检测到的文字区域的位置信息和尺寸信息;
S250:通过所述文字区域的位置信息和尺寸信息截取对应的图像,输入所述OCR识别神经网络,输出已识别的文字内容。
7.基于AI视觉下的听写交互系统,其特征在于,采用如权利要求1-6任意一项所述的基于AI视觉下的听写交互方法,所述系统包括获取模块、识别模块、处理模块、显示模块、语音模块;所述识别模块与所述获取模块、所述处理模块电性连接,所述处理模块分别与所述显示模块、所述语音模块电性连接;
所述获取模块,用于实时获取采集的包括可识别的动作信息和文字信息的目标图像;
所述识别模块,用于构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;
所述处理模块,用于根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;
所述语音模块,用于控制播放所述听写任务的听写内容;
所述显示模块,用于控制显示所述听写任务中的提示内容以及听写结果。
8.基于AI视觉下的听写交互装置,其特征在于,采用如权利要求1-6任意一项所述的基于AI视觉下的听写交互方法,所述装置包括AI识别装置和输出装置,所述AI识别装置包括摄像设备、识别设备、处理设备,所述输出设备包括显示设备、语音设备,所述识别设备分别与所述摄像设备、所述处理设备连接,所述处理设备与所述显示设备、语音设备连接;
所述摄像设备用于实时采集包括可识别的动作信息和文字信息的目标图像,后传输给所述识别设备;
所述识别设备用于获取采集的目标图像,构建并训练多个卷积深度神经网络和循环深度神经网络或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息,后将识别结果传输给所述处理设备;
所述处理设备用于根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;
所述语音设备用于播放所述听写任务的听写内容;
所述显示设备用于显示所述听写任务中的提示内容以及听写结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述的基于AI视觉下的听写交互方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项所述的基于AI视觉下的听写交互方法的步骤。
CN202010668289.XA 2020-07-13 2020-07-13 基于ai视觉下的听写交互方法、系统、装置 Pending CN112001394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010668289.XA CN112001394A (zh) 2020-07-13 2020-07-13 基于ai视觉下的听写交互方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010668289.XA CN112001394A (zh) 2020-07-13 2020-07-13 基于ai视觉下的听写交互方法、系统、装置

Publications (1)

Publication Number Publication Date
CN112001394A true CN112001394A (zh) 2020-11-27

Family

ID=73466848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010668289.XA Pending CN112001394A (zh) 2020-07-13 2020-07-13 基于ai视觉下的听写交互方法、系统、装置

Country Status (1)

Country Link
CN (1) CN112001394A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112783154A (zh) * 2020-12-24 2021-05-11 中国航空工业集团公司西安航空计算技术研究所 一种多智能任务处理方法及系统
CN112908064A (zh) * 2021-04-06 2021-06-04 江苏省南京工程高等职业学校 一种语文教学用听写装置
CN113034995A (zh) * 2021-04-26 2021-06-25 读书郎教育科技有限公司 一种学生平板生成听写内容的方法及系统
CN113378841A (zh) * 2021-04-29 2021-09-10 杭州电子科技大学 一种基于级联目标检测的指向文字定位方法
CN113505637A (zh) * 2021-05-27 2021-10-15 成都威爱新经济技术研究院有限公司 一种用于直播流的实时虚拟主播动作捕捉方法及系统
CN116740721A (zh) * 2023-08-15 2023-09-12 深圳市玩瞳科技有限公司 手指查句方法、装置、电子设备及计算机存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170116498A1 (en) * 2013-12-04 2017-04-27 J Tech Solutions, Inc. Computer device and method executed by the computer device
CN109325464A (zh) * 2018-10-16 2019-02-12 上海翎腾智能科技有限公司 一种基于人工智能的手指点读文字识别方法及翻译方法
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
US10262235B1 (en) * 2018-02-26 2019-04-16 Capital One Services, Llc Dual stage neural network pipeline systems and methods
US20190147304A1 (en) * 2017-11-14 2019-05-16 Adobe Inc. Font recognition by dynamically weighting multiple deep learning neural networks
CN109886978A (zh) * 2019-02-20 2019-06-14 贵州电网有限责任公司 一种基于深度学习的端到端告警信息识别方法
CN109887349A (zh) * 2019-04-12 2019-06-14 广东小天才科技有限公司 一种听写辅助方法及装置
KR20200002141A (ko) * 2018-06-29 2020-01-08 김종진 이미지 기반의 언어학습 콘텐츠 제공 방법 및 이의 시스템
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN110956138A (zh) * 2019-12-02 2020-04-03 广东小天才科技有限公司 一种基于家教设备的辅助学习方法及家教设备
CN111077988A (zh) * 2019-05-10 2020-04-28 广东小天才科技有限公司 一种基于用户行为的听写内容获取方法及电子设备
CN111081083A (zh) * 2019-07-11 2020-04-28 广东小天才科技有限公司 一种听写报读的方法及电子设备
CN111353501A (zh) * 2020-02-25 2020-06-30 暗物智能科技(广州)有限公司 一种基于深度学习的书本点读方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170116498A1 (en) * 2013-12-04 2017-04-27 J Tech Solutions, Inc. Computer device and method executed by the computer device
US20190147304A1 (en) * 2017-11-14 2019-05-16 Adobe Inc. Font recognition by dynamically weighting multiple deep learning neural networks
US10262235B1 (en) * 2018-02-26 2019-04-16 Capital One Services, Llc Dual stage neural network pipeline systems and methods
KR20200002141A (ko) * 2018-06-29 2020-01-08 김종진 이미지 기반의 언어학습 콘텐츠 제공 방법 및 이의 시스템
CN109325464A (zh) * 2018-10-16 2019-02-12 上海翎腾智能科技有限公司 一种基于人工智能的手指点读文字识别方法及翻译方法
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
CN109886978A (zh) * 2019-02-20 2019-06-14 贵州电网有限责任公司 一种基于深度学习的端到端告警信息识别方法
CN109887349A (zh) * 2019-04-12 2019-06-14 广东小天才科技有限公司 一种听写辅助方法及装置
CN111077988A (zh) * 2019-05-10 2020-04-28 广东小天才科技有限公司 一种基于用户行为的听写内容获取方法及电子设备
CN111081083A (zh) * 2019-07-11 2020-04-28 广东小天才科技有限公司 一种听写报读的方法及电子设备
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN110956138A (zh) * 2019-12-02 2020-04-03 广东小天才科技有限公司 一种基于家教设备的辅助学习方法及家教设备
CN111353501A (zh) * 2020-02-25 2020-06-30 暗物智能科技(广州)有限公司 一种基于深度学习的书本点读方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周圣杰: "基于深度注意力机制的手写文本识别与翻译方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 1, no. 02, pages 138 - 2351 *
樊重俊,等: "《大数据分析与应用》", vol. 1, 立信会计出版社, pages: 264 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112783154A (zh) * 2020-12-24 2021-05-11 中国航空工业集团公司西安航空计算技术研究所 一种多智能任务处理方法及系统
CN112908064A (zh) * 2021-04-06 2021-06-04 江苏省南京工程高等职业学校 一种语文教学用听写装置
CN113034995A (zh) * 2021-04-26 2021-06-25 读书郎教育科技有限公司 一种学生平板生成听写内容的方法及系统
CN113378841A (zh) * 2021-04-29 2021-09-10 杭州电子科技大学 一种基于级联目标检测的指向文字定位方法
CN113505637A (zh) * 2021-05-27 2021-10-15 成都威爱新经济技术研究院有限公司 一种用于直播流的实时虚拟主播动作捕捉方法及系统
CN116740721A (zh) * 2023-08-15 2023-09-12 深圳市玩瞳科技有限公司 手指查句方法、装置、电子设备及计算机存储介质
CN116740721B (zh) * 2023-08-15 2023-11-17 深圳市玩瞳科技有限公司 手指查句方法、装置、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN111488826B (zh) 一种文本识别方法、装置、电子设备和存储介质
CN112001394A (zh) 基于ai视觉下的听写交互方法、系统、装置
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
Bartz et al. STN-OCR: A single neural network for text detection and text recognition
US10032072B1 (en) Text recognition and localization with deep learning
Yang et al. Tracking based multi-orientation scene text detection: A unified framework with dynamic programming
CN111399638B (zh) 一种盲用电脑及适配于盲用电脑的智能手机辅助控制方法
CN109919077B (zh) 姿态识别方法、装置、介质和计算设备
CN112199015B (zh) 智能交互一体机及其书写方法、装置
WO2021237227A1 (en) Method and system for multi-language text recognition model with autonomous language classification
CN113487610A (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN114549557A (zh) 一种人像分割网络训练方法、装置、设备及介质
Lahiani et al. Hand pose estimation system based on Viola-Jones algorithm for android devices
Al-Obodi et al. A Saudi Sign Language recognition system based on convolutional neural networks
Ling et al. Development of vertical text interpreter for natural scene images
CN111460858B (zh) 图像中指尖点的确定方法、装置、存储介质及电子设备
Arooj et al. Enhancing sign language recognition using CNN and SIFT: A case study on Pakistan sign language
Tan et al. Implementing Gesture Recognition in a Sign Language Learning Application
Martinez-Seis et al. Identification of Static and Dynamic Signs of the Mexican Sign Language Alphabet for Smartphones using Deep Learning and Image Processing.
CN111291756B (zh) 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质
CN114093027A (zh) 基于卷积神经网络的动态手势识别方法、装置及可读介质
Seetha et al. Sign Language to Sentence Interpreter Using Convolutional Neural Network in Real Time
Saha et al. Real time Bangla Digit Recognition through Hand Gestures on Air Using Deep Learning and OpenCV
Ravinder et al. An approach for gesture recognition based on a lightweight convolutional neural network
Kaushik et al. A Survey of Approaches for Sign Language Recognition System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination