CN112926586A - 一种文本识别的方法、装置、可读存储介质和电子设备 - Google Patents

一种文本识别的方法、装置、可读存储介质和电子设备 Download PDF

Info

Publication number
CN112926586A
CN112926586A CN202110192230.2A CN202110192230A CN112926586A CN 112926586 A CN112926586 A CN 112926586A CN 202110192230 A CN202110192230 A CN 202110192230A CN 112926586 A CN112926586 A CN 112926586A
Authority
CN
China
Prior art keywords
information
processed
image
image information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110192230.2A
Other languages
English (en)
Inventor
宋安捷
付治涓
王宇峰
李思思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Future Technology Co ltd
Original Assignee
Beijing Dami Future Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Future Technology Co ltd filed Critical Beijing Dami Future Technology Co ltd
Priority to CN202110192230.2A priority Critical patent/CN112926586A/zh
Publication of CN112926586A publication Critical patent/CN112926586A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例公开了一种文本识别的方法、装置、可读存储介质和电子设备。本发明实施例通过智能设备获取待处理图像,其中,所述待处理图像可以为翻读台历,由于翻读台历由至少一个图片组成,因此,待处理图像中包含至少一个图片区域,每个所述图片区域中包括至少一个图像信息,图像信息包括文字信息或图形信息;确定所述待处理图像中包含的待处理图像信息,根据所述待处理图像信息,生成第一语音信息,播报所述第一语音信息。通过上述方法,采用智能设备的拍摄功能获取待处理图像后,通过语音功能与用户进行互动,在无人陪同的情况下,使用户可以自主使用翻读台历进行学习。

Description

一种文本识别的方法、装置、可读存储介质和电子设备
技术领域
本发明涉及数据处理领域,具体涉及一种文本识别的方法、装置、可读存储介质和电子设备。
背景技术
随着全民素质的提高,学生的学习也越来越受到家长的重视,学生除了在课堂上进行学习之外,在课后也需要进行学习,但是在课后的学习过程中,家长可能没有太多的时间对学生进行辅导,或者,家长对还学生的学习内容不太了解,无法正确指导学生;例如,在外语学习过程中,会采用适合各年龄阶段的教具,比如在儿童阶段,会使用翻读台历教具来进行单词的发音、拼写、以及音标的发音等,但是儿童在课后使用翻读台历教具时,家长可能并不擅长学生正在学习的语种,无法准确指导学生正确的单词拼写和发音,因此无法对学生进行辅导,翻读台历等教具也无法起到教学的作用。
综上所述,如何在无人陪同的情况下,使学生可以自主使用教具进行学习是目前需要解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种文本识别的方法、装置、可读存储介质和电子设备,使学生可以自主使用教具进行学习,提高了用户的使用体验。
第一方面,本发明实施例提供了一种文本识别的方法,该方法包括:
接收待处理图像,其中,所述待处理图像中包含至少一个图片区域,每个所述图片区域中包括至少一个图像信息;
确定所述待处理图像中包含的待处理图像信息,其中,所述待处理图像信息为所述至少一个图像信息的集合;
根据所述待处理图像信息,生成第一语音信息;
播报所述第一语音信息。
优选地,所述图像信息包括文字信息或图形信息。
优选地,确定所述待处理图像中包含的待处理图像信息,具体包括:
通过图像检测确定所述待处理图像中的至少一个图片区域,其中,每个图片区域携带对应的标识信息;
通过光学字符识别OCR确定出每个所述图片区域中的至少一个图像信息;
按照所述每个图片区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
优选地,确定所述待处理图像中包含的所述待处理图像信息,具体还包括:
通过图像检测确定所述待处理图像中的至少一个图片区域;
确定所述至少一个图片区域中带有特定图形的至少一个候选区域,其中,每个所述候选区域携带对应的标识信息;
通过光学字符识别OCR确定出每个所述候选区域中的至少一个图像信息;
按照所述每个候选区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
优选地,所述特定图形为手指图形。
优选地,所述根据所述待处理图像信息,生成第一语音信息,具体包括:
响应于在数据库的候选图像信息中查找到与所述待处理图像信息相同图像信息;
在所述数据库中获取所述待处理图像信息对应的语音,生成第一语音信息,其中,所述第一语音信息中包括所述待处理图像信息对应的语音。
优选地,所述根据所述待处理图像信息,生成第一语音信息,具体还包括:
响应于在数据库的候选图像信息中未查找到与所述待处理图像信息相同图像信息;
在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成第一语音信息,其中,所述第一语音信息中包括所述指令信息,所述指令信息用于提示用户获取正确待处理图像的方法。
优选地,所述在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成第一语音信息,具体包括:
所述在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成所述指令信息;
根据所述指令信息,生成所述第一语音信息。
优选地,该方法还包括:
接收到触发指令;
播报第二语音信息,其中,所述第二语音信息用于提示用户获取待处理图像。
优选地,该方法还包括:
接收语音反馈信息;
根据所述语音反馈信息,生成第三语音信息;
播报所述第三语音信息。
优选地,所述根据所述语音反馈信息,生成第三语音信息,具体包括:
响应于所述语音反馈信息中待处理图像信息的读音正确,生成第三语音信息,其中,所述第三语音信息用于提示用户读音正确。
优选地,所述根据所述语音反馈信息,生成第三语音信息,具体包括:
响应于所述语音反馈信息中待处理图像信息的读音错误,生成第三语音信息,其中,所述第三语音信息包括所述待处理图像信息的正确读音。
第二方面,本发明实施例提供了一种文本识别的装置,该装置包括:
接收单元,用于获取待处理图像,其中,所述待处理图像中包含至少一个图片区域,每个所述图片区域中包括至少一个图像信息;
确定单元,用于确定所述待处理图像中包含的待处理图像信息,其中,所述待处理图像信息为所述至少一个图像信息的集合;
处理单元,用于根据所述待处理图像信息,生成第一语音信息;
播报单元,用于播报所述第一语音信息。
优选地,所述图像信息包括文字信息或图形信息。
优选地,所述确定单元具体用于:通过图像检测确定所述待处理图像中的至少一个图片区域,其中,每个图片区域携带对应的标识信息;
通过光学字符识别OCR确定出每个所述图片区域中的至少一个图像信息;
按照所述每个图片区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
优选地,所述确定单元具体还用于:通过图像检测确定所述待处理图像中的至少一个图片区域;
确定所述至少一个图片区域中带有特定图形的至少一个候选区域,其中,每个所述候选区域携带对应的标识信息;
通过光学字符识别OCR确定出每个所述候选区域中的至少一个图像信息;
按照所述每个候选区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
优选地,所述特定图形为手指图形。
优选地,所述处理单元具体用于:响应于在数据库的候选图像信息中查找到与所述待处理图像信息相同图像信息;
在所述数据库中获取所述待处理图像信息对应的语音,生成第一语音信息,其中,所述第一语音信息中包括所述待处理图像信息对应的语音。
优选地,所述处理单元具体还用于:响应于在数据库的候选图像信息中未查找到与所述待处理图像信息相同图像信息;
在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成第一语音信息,其中,所述第一语音信息中包括所述指令信息,所述指令信息用于提示用户获取正确待处理图像的方法。
优选地,所述处理单元具体还用于:
所述在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成所述指令信息;
根据所述指令信息,生成所述第一语音信息。
优选地,所述接收单元还用于:接收到触发指令;
优选地,所述播报单元还用于:播报第二语音信息,其中,所述第二语音信息用于提示用户获取待处理图像。
优选地,所述接收单元还用于:接收语音反馈信息;
所述处理单元还用于:根据所述语音反馈信息,生成第三语音信息;
所述播报单元还用于:播报所述第三语音信息。
所述处理单元具体用于:响应于所述语音反馈信息中待处理图像信息的读音正确,生成第三语音信息,其中,所述第三语音信息用于提示用户读音正确。
所述处理单元具体用于:响应于所述语音反馈信息中待处理图像信息的读音错误,生成第三语音信息,其中,所述第三语音信息包括所述待处理图像信息的正确读音。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。
本发明实施例通过智能设备获取待处理图像,其中,所述待处理图像可以为翻读台历,由于翻读台历由至少一个图片组成,因此,待处理图像中包含至少一个图片区域,每个所述图片区域中包括至少一个图像信息,图像信息包括文字信息或图形信息;确定所述待处理图像中包含的待处理图像信息,根据所述待处理图像信息,生成第一语音信息,播报所述第一语音信息。通过上述方法,采用智能设备的拍摄功能获取待处理图像后,通过语音功能与用户进行互动,在无人陪同的情况下,使学生可以自主使用翻读台历进行学习。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的一种翻读台历教具示意图;
图2是本发明实施例的一种翻读台历教具示意图;
图3是本发明实施例的一种文本识别的方法流程图;
图4是本发明实施例的一种待处理图像示意图;
图5是本发明实施例的一种文本识别的方法流程图;
图6是本发明实施例的一种文本识别的方法流程图;
图7是本发明实施例的一种待处理图像示意图;
图8是本发明实施例的一种待处理图像示意图;
图9是本发明实施例的一种文本识别的方法流程图;
图10是本发明实施例的一种文本识别的方法流程图;
图11是本发明实施例的一种文本识别的方法流程图;
图12是本发明实施例的一种文本识别的方法流程图;
图13是本发明实施例的一种文本识别的方法流程图;
图14是本发明实施例的一种文本识别的装置示意图;
图15是本发明实施例的一种电子设备的示意图。
具体实施方式
以下基于实施例对本发明公开进行描述,但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
学生在课后的学习过程中,家长可能没有太多的时间对学生进行辅导,或者,家长对还学生的学习内容不太了解,无法正确指导学生;例如,在外语学习过程中,会采用适合各年龄阶段的教具,比如在儿童阶段,会使用翻读台历教具来进行单词的发音、拼写、以及音标的发音等,具体的,所述翻读台历可以为单词翻读台历、拼音翻读台历、或者成语翻读台历,当所述翻读台历为单词翻读台历时,具体如图1或图2所示,图1为四联的单词翻读台历,即台历上有四组图片,分别为第一组图片、第二组图片、第三组图片和第四组图片,其中,每组图片中包括多张图片,每组图片都可以前后翻动,与其它组的图片组成不同的单词,每个图片上可以有至少一个字节,例如,图1中第一图片为“f”,为第一组图片中的一张,可能的,在第一图片向前翻或者向后翻,对应的图片中的可能为“b”、“t”等;图1中第二图片为“a”,为第二组图片中的一张,可能的,在第二图片向前翻或者向后翻,对应的图片中的可能为“b”、“c”等;图1中第三图片为“th”,为第三组图片中的一张,可能的,在第三图片向前翻或者向后翻,对应的图片中的可能为“rt”、“ch”等;图1中第四图片为“er”,为第四组图片中的一张,可能的,在第四图片向前翻或者向后翻,对应的图片中的可能为“ar”、“st”等;最后,图1中由四张图片组成的单词为“father”;假设第一图片向后翻动后,在第一图片的位置显示的为“m”,第二图片向后翻动后,在第一图片的位置显示的为“o”,则图1中由四张图片组成的单词为“mother”;此处仅仅为示例性说明,本发明对具体组成的单词或显示的图形不做限定,在一种可能的情况下,任一张图片中的内容可能为空;图2为三联的单词翻读台历,即台历上有三组图片,与图1类似,本发明实施例在此不做赘述。当学生在课后使用上述翻读台历教具时,家长可能并不擅长学生正在学习的语种,无法准确指导学生正确的单词拼写和发音、音标的发音等,无法对学生进行辅导,翻读台历等教具也无法起到教学的作用;因此,如何在无人陪同的情况下,使学生可以自主使用教具进行学习是目前需要解决的问题。
本发明实施例中,采用了常用的家庭中常用的智能设备实现学生与智能设备之间的交互,使智能设备、翻读台历与学生进行互动,实现学生自主使用教具进行学习,具体的,采用智能设备的拍摄功能获取待处理图像后,通过语音功能与用户进行互动,在无人陪同的情况下,使学生可以自主使用翻读台历进行学习。
在一种可能的实现方式中,所述智能设备可以为平板、电脑、带摄像头的机器人、智能台灯、点读笔等设备,在使用过程中,学生把台历放在智能设备的摄像头面前,摄像头拍摄到台历上的内容,启动智能交互,引导学生使用翻读台历教具进行学习,达到较好的教学效果;本发明实施例中,除了采用翻读台历之外,也可以是其它教具、还可以是学生手写的内容,本发明实施例对其不做限定。
本发明实施例中,图3是本发明实施例的一种文本识别的方法流程图。如图3所示,具体包括如下步骤:
步骤S300、获取待处理图像,其中,所述待处理图像中包含至少一个图片区域,每个所述图片区域中包括至少一个图像信息。
具体的,所述图像信息包括文字信息或图形信息。
举例说明,智能设备通过摄像头获取到待处理图像,假设所述待处理图像为上述翻读台历的图像,翻读台历中每个图片就是所述待处理图像中的一个图片区域,假设,四联的翻读台历,在正常拍摄的情况下,摄像头获取到的待处理图像中包括四个图片区域,每个图片区域对应一张翻读台历中的图片;在每个图片区域中包括至少一个文字信息或至少一个图形信息,其中,所述文字信息可以为字母、拼音、字和词,所述图像形象可以为食物、动物、建筑物等。
在一种可能的实现方式中,智能设备通过摄像头402获取到待处理图像的示意图如图4所示,所述翻读台历在智能设备401的正下方;或者,所述翻读台历在智能设备的前方,此处仅仅为示例性说明,只要可以获取待处理图像即可,对拍摄的方式不做限定。
步骤S301、确定所述待处理图像中包含的待处理图像信息,其中,所述待处理图像信息为所述至少一个图像信息的集合。
在一种可能的实现方式中,所述待处理图像会出现两种情况,情况一、所述待处理图像中的图片区域只包含图像信息;情况二、所述待处理图像中的图片区域中除了只包含图像信息之外,还包括特定图形,例如,当学生有不会发音的字节时,可以通过手指指出该字节对应的图片区域;下面分别对在上述两种情况下如何确定所述待处理图像中包含的待处理图像信息进行详细说明。
情况一、
图5是本发明实施例的一种文本识别的方法流程图。如图5所示,具体包括如下步骤:
步骤S500、通过图像检测确定所述待处理图像中的至少一个图片区域,其中,每个图片区域携带对应的标识信息。
具体的,确定每个图片区域携带对应的标识信息,举例说明,假设待处理图像中包括四个图片区域,每个图片区域携带对应的标识信息,分别为1、2、3和4。
步骤S501、通过光学字符识别(optical character recognition,OCR)确定出每个所述图片区域中的至少一个图像信息。
假设,第一张图片区域携带的标识信息为1,通过OCR识别出第一张图片区域中的内容为“f”,第二张图片区域携带的标识信息为2,通过OCR识别出第二张图片区域中的内容为“a”,第三张图片区域携带的标识信息为3,通过OCR识别出第三张图片区域中的内容为“th”,第四张图片区域携带的标识信息为4,通过OCR识别出第四张图片区域中的内容为“er”。
步骤S502、按照所述每个图片区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
具体的,按照每个区域携带的标识信息对四个图片区域中的内容进行排序,即将步骤S501中识别出的内容“f”“a”“th”和“er”按照标识信息进行排序,生成待处理图像信息“father”。
情况二、
图6是本发明实施例的一种文本识别的方法流程图。如图6所示,具体包括如下步骤:
步骤S600、通过图像检测确定所述待处理图像中的至少一个图片区域。
具体的,所述图像检测可以为YOLO,其中,所述YOLO利用多尺度特征进行对象检测,确定待处理图像中的至少一个图片区域。
在一种可能的实现方式中,确定出多个图片区域,还可以对所述图片区域进行旋转矫正。
步骤S601、确定所述至少一个图片区域中带有特定图形的至少一个候选区域,其中,每个所述候选区域携带对应的标识信息。
举例说明,如图7所示,假设获取到的待处理图像中包括四个图片区域,其中,第三个图片区域中包括一个特定图形,例如,手指图形,还可以为点读笔图形等;将所述第三个图片区域确定后候选区域,其中,所述候选区域携带的标识信息为3;或者,如图8所示,假设获取到的待处理图像中包括四个图片区域,其中,第二个图片区域和第三个图片区域中分别包括一个特定图形手指,将所述第二个图片区域和第三个图片区域确定为候选区域,其中,所述候选区域携带的标识信息分别为2和3。
步骤S602、通过光学字符识别OCR确定出每个所述候选区域中的至少一个图像信息。
具体的,第二张图片区域携带的标识信息为2,通过OCR识别出第二张图片区域中的内容为“a”,第三张图片区域携带的标识信息为3,通过OCR识别出第三张图片区域中的内容为“th”。
步骤S603、按照所述每个候选区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
具体的,假设,只有一个候选区域,则将候选区域中的内容确定为所述待处理图像信息,例如,将第二张图片区域中的内容为“a”确定为待处理图像信息;假设,有两个候选区域,则将候选区域中的内容按照标识信息进行排序,例如,将第二张图片区域中的内容为“a”以及第三张图片区域中的内容为“th”进行排序,生成待处理图像信息“ath”。
步骤S302、根据所述待处理图像信息,生成第一语音信息。
在一种可能的实现方式中,所述根据所述待处理图像信息,生成第一语音信息,具体包括:响应于在数据库的候选图像信息中查找到与所述待处理图像信息相同图像信息;在所述数据库中获取所述待处理图像信息对应的语音,生成第一语音信息,其中,所述第一语音信息中包括所述待处理图像信息对应的语音。
具体的,智能设备中会预先存储每个翻读台历可组成的字母、单词、词组、句子以及图形解释,并且还会预先存储所述字母、单词、词组、句子以及图形解释的发音,可选的,还会存储一些正常交流所使用的句子;当确定出所述待处理图像信息之后,在数据库的候选图像信息中查找与所述待处理图像信息相同的候选图像信息,例如,待处理图像信息为“father”,在数据库中可以查找到“father”,进而将预先存储的“father”的读音确定为第一语音信息。
在另一种可能的实现方式中,所述根据所述待处理图像信息,生成第一语音信息,具体还包括:响应于在数据库的候选图像信息中未查找到与所述待处理图像信息相同图像信息;在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成第一语音信息,其中,所述第一语音信息中包括所述指令信息,所述指令信息用于提示用户获取正确待处理图像的方法。
在一种可能的实现方式中,所述在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成第一语音信息,具体包括:所述在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成所述指令信息;根据所述指令信息,生成所述第一语音信息。
具体的,智能设备中会预先存储每个翻读台历可组成的字母、单词、词组、句子以及图形解释,并且还会预先存储每组图片的顺序,例如,四联翻读台历中,第二组图片存储的字母按顺序分别是“a”、“b”、“c”、“o”、“p”和“q”;并且还会预先存储所述字母、单词、词组、句子以及图形解释的发音,可选的,还会存储一些正常交流所使用的句子,以及提示用户获取正确待处理图像的方法所需要使用的句子;当确定出所述待处理图像信息之后,在数据库的候选图像信息中未查找与所述待处理图像信息相同的候选图像信息,例如,待处理图像信息为“fother”,在数据库中没有查找到“fother”,智能设备根据智能算法预测学生可能要拼的单词为“father”,因此,会提示用户“第二张图片错误,需要向后翻动两次”,将“第二张图片错误,需要向后翻动两次”的读音确定为第一语音信息;此处,仅仅为示例性说明,具体的如何提示用户根据实际情况确定,本发明实施例对此不做限定。
步骤S303、播报所述第一语音信息。
具体的,所述智能终端向用户播报所述第一语音信息,与用户进行互动。
在一种可能的实现方式中,在步骤S300之前,该方法还包括步骤S304和步骤S305,具体如图9所示,图9是本发明实施例的一种文本识别的方法流程图,具体包括如下步骤:
步骤S304、接收到触发指令。
具体的,智能设备接收到用户发出的触发指令,例如,学生开启所述智能设备的指令。
步骤S305、播报第二语音信息,其中,所述第二语音信息用于提示用户获取待处理图像。
在一种可能的实现方式中,所述第二语音信息可以为“小朋友,现在我们一起玩拼读游戏啦!”;“我说单词,你可以在台历里帮我找到这个单词吗?”等用于提示用户获取待处理图像的句子对应的语音,此处仅仅为示例性说明。
在一种可能的实现方式中,在步骤S303之后,该方法还包括步骤S306、步骤S307和步骤S308,具体如图10所示,图10是本发明实施例的一种文本识别的方法流程图,具体包括如下步骤:
步骤S306、接收语音反馈信息。
具体的,当学生跟读智能设备发出的语音后,智能设备会接收到学生跟读的语音;例如,智能设备识别出翻读台历的待处理图像信息为“father”,生成“father”对应的语音播放给学生,学生进行跟读练习,也发出“father”的语音。
步骤S307、根据所述语音反馈信息,生成第三语音信息。
具体的,响应于所述语音反馈信息中待处理图像信息的读音正确,生成第三语音信息,其中,所述第三语音信息用于提示用户读音正确;或者,响应于所述语音反馈信息中待处理图像信息的读音错误,生成第三语音信息,其中,所述第三语音信息包括所述待处理图像信息的正确读音。
举例说明,假设,智能设备判断学生跟读练习的发音正确,则生成第三语音信息提示用户读音正确,例如,“太棒啦!发音完全正确!”
智能设备判断学生跟读练习的发音错误,则生成第三语音信息提示用户读音错误,并生成正确的发音;或者,将单词中发音错误的字母的单独发音,例如,“小朋友,father中的th读得不太准哦,请跟我再读一次,th,th,father”。
步骤S308、播报所述第三语音信息。
具体的,所述智能设备播放所述第三语音信息,与学生进行互动。
下面通过三个完整实施例对本发明进行详细说明。
具体实施例一、
图11是本发明实施例的一种文本识别的方法流程图。如图11所示,具体包括如下步骤:
步骤S1100、智能设备接收到开启指令,或者,所述智能设备的摄像头识别到翻读台历。
具体的,所述开启指令可以为学生手动触发的,识别到的翻读台历的封面、内页、图标等触发的。
步骤S1101、所述智能设备发出语音播报游戏指令。
具体的,所述语音播报游戏指令可以为“小朋友,现在我们一起玩拼读游戏啦!”或者“我说单词,你可以在台历里帮我找到这个单词吗?/c//a//b/,cab;/c//a//b/,cab;倒计时开始,5,4,3,2,1!”。
步骤S1102、所述智能设备获取待处理图像。
即,所述智能设备接收到摄像头拍摄到拼读台历的图像。
具体的,使用图像检测技术确定翻读台历中的多个图片区域,并对图片区域进行旋转校正操作。
步骤S1103、所述智能设备通过光学字符识别OCR确定出每个所述图片区域中的至少一个图像信息。
步骤S1104、所述智能设备按照所述每个图片区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
步骤S1105、响应于所述智能设备在数据库的候选图像信息中查找到与所述待处理图像信息相同图像信息。
步骤S1106、所述智能设备生成第一语音信息。
例如,所述第一语音信息为“拼对了,你真是太棒了!”以及“跟我一起来读一下这个单词吧!Cat”。
步骤S1107、所述智能设备播报所述第一语音信息。
步骤S1108、所述智能设备接收语音反馈信息。
具体的,所述语音反馈信息可以为学生的跟读语音。
步骤S1109、根据所述语音反馈信息,生成第三语音信息。
具体的,若学生的读音正确,所述第三语音信息可以为“Perfect!你读得太棒了!”。
步骤S1110、播报所述第三语音信息。
在一种可能的实现方式中,若学生的读音错误,智能设备对于发音评测分数较低的情况,提供字母级的纠音功能。对孩子录音单词中的每个字母分别进行准确度、流畅度的打分,针对其中分数最低、即孩子发音最薄弱的字母,重复播放并进行二次跟读评测,例如,“小朋友,apple中的ae读得不太准哦,请跟我再读一次,ae,ae,apple”。
在一种可能的实现方式中,也可以在图像检测技术确定出翻读台历中的多个图片区域的同时通过所述图像检测技术识别出每个所述图片区域中的至少一个图像信息。
具体实施例二、
图12是本发明实施例的一种文本识别的方法流程图。如图12所示,具体包括如下步骤:
步骤S1200、智能设备接收到开启指令,或者,所述智能设备的摄像头识别到翻读台历。
步骤S1201、所述智能设备发出语音播报游戏指令。
步骤S1202、所述智能设备获取待处理图像,其中,所述待处理图像中包括手指图形。
即,所述智能设备接收到摄像头拍摄到拼读台历的图像。
具体的,使用图像检测技术确定翻读台历中的带有手指图形的图片区域,并对图片区域进行旋转校正操作。
步骤S1203、所述智能设备通过光学字符识别OCR确定出每个所述带有手指图形的图片区域中的至少一个图像信息。
步骤S1204、所述智能设备按照所述每个带有手指图形的图片区域所携带的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
步骤S1205、所述智能设备根据所述待处理图像信息生成第一语音信息。
步骤S1206、所述智能设备播报所述第一语音信息。
在一种可能的实现方式中,步骤S1206之后的处理步骤与图11中步骤S1107之后的处理步骤类似,本发明实施例在此不做赘述。
具体实施例三、
图13是本发明实施例的一种文本识别的方法流程图。如图13所示,具体包括如下步骤:
步骤S1300、智能设备接收到开启指令,或者,所述智能设备的摄像头识别到翻读台历。
步骤S1301、所述智能设备发出语音播报游戏指令。
步骤S1302、所述智能设备获取待处理图像。
即,所述智能设备接收到摄像头拍摄到拼读台历的图像。
具体的,使用图像检测技术确定翻读台历中的多个图片区域,并对图片区域进行旋转校正操作。
步骤S1303、所述智能设备通过光学字符识别OCR确定出每个所述图片区域中的至少一个图像信息。
步骤S1304、所述智能设备按照所述每个图片区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
步骤S1305、响应于所述智能设备在数据库的候选图像信息中查找到与所述待处理图像信息相同图像信息。
步骤S1306、所述智能设备生成第一语音信息,其中,所述第一语音信息中包括所述指令信息,所述指令信息用于提示用户获取正确待处理图像的方法。
步骤S1307、所述智能设备播报所述第一语音信息。
在一种可能的实现方式中,也可以在图像检测技术确定出翻读台历中的多个图片区域的同时通过所述图像检测技术识别出每个所述图片区域中的至少一个图像信息。
图14是本发明实施例的一种文本识别的装置示意图。如图14所示,本实施例的装置包括接收单元1401、确定单元1402、处理单元1403和播报单元1404。
其中,接收单元1401,用于获取待处理图像,其中,所述待处理图像中包含至少一个图片区域,每个所述图片区域中包括至少一个图像信息;确定单元1402,用于确定所述待处理图像中包含的待处理图像信息,其中,所述待处理图像信息为所述至少一个图像信息的集合;处理单元1403,用于根据所述待处理图像信息,生成第一语音信息;播报单元1404,用于播报所述第一语音信息。
本发明实施例通过智能设备获取待处理图像,其中,所述待处理图像可以为翻读台历,由于翻读台历由至少一个图片组成,因此,待处理图像中包含至少一个图片区域,每个所述图片区域中包括至少一个图像信息,图像信息包括文字信息或图形信息;确定所述待处理图像中包含的待处理图像信息,根据所述待处理图像信息,生成第一语音信息,播报所述第一语音信息。通过上述方法,采用智能设备的拍摄功能获取待处理图像后,通过语音功能与用户进行互动,在无人陪同的情况下,使学生可以自主使用翻读台历进行学习。
图15是本发明实施例的电子设备的示意图。图15所示的电子设备为通用文本识别装置,其包括通用的计算机硬件结构,其至少包括处理器1501和存储器1502。处理器1501和存储器1502通过总线1503连接。存储器1502适于存储处理器1501可执行的指令或程序。处理器1501可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器1501通过执行存储器1502所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线1503将上述多个组件连接在一起,同时将上述组件连接到显示控制器1504和显示装置以及输入/输出(I/O)装置1505。输入/输出(I/O)装置1505可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置1505通过输入/输出(I/O)控制器1506与系统相连。
如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明实施例的各个方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。
用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。
计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种文本识别的方法,其特征在于,该方法包括:
获取待处理图像,其中,所述待处理图像中包含至少一个图片区域,每个所述图片区域中包括至少一个图像信息;
确定所述待处理图像中包含的待处理图像信息,其中,所述待处理图像信息为所述至少一个图像信息的集合;
根据所述待处理图像信息,生成第一语音信息;
播报所述第一语音信息。
2.如权利要求1所述的方法,其特征在于,所述图像信息包括文字信息或图形信息。
3.如权利要求1所述的方法,其特征在于,确定所述待处理图像中包含的待处理图像信息,具体包括:
通过图像检测确定所述待处理图像中的至少一个图片区域,其中,每个图片区域携带对应的标识信息;
通过光学字符识别OCR确定出每个所述图片区域中的至少一个图像信息;
按照所述每个图片区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
4.如权利要求1所述的方法,其特征在于,确定所述待处理图像中包含的所述待处理图像信息,具体还包括:
通过图像检测确定所述待处理图像中的至少一个图片区域;
确定所述至少一个图片区域中带有特定图形的至少一个候选区域,其中,每个所述候选区域携带对应的标识信息;
通过光学字符识别OCR确定出每个所述候选区域中的至少一个图像信息;
按照所述每个候选区域携带对应的标识信息将所述至少一个图像信息进行排序,生成所述待处理图像信息。
5.如权利要求4所述的方法,其特征在于,所述特定图形为手指图形。
6.如权利要求1所述的方法,其特征在于,所述根据所述待处理图像信息,生成第一语音信息,具体包括:
响应于在数据库的候选图像信息中查找到与所述待处理图像信息相同图像信息;
在所述数据库中获取所述待处理图像信息对应的语音,生成第一语音信息,其中,所述第一语音信息中包括所述待处理图像信息对应的语音。
7.如权利要求1所述的方法,其特征在于,所述根据所述待处理图像信息,生成第一语音信息,具体还包括:
响应于在数据库的候选图像信息中未查找到与所述待处理图像信息相同图像信息;
在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成第一语音信息,其中,所述第一语音信息中包括所述指令信息,所述指令信息用于提示用户获取正确待处理图像的方法。
8.如权利要求1所述的方法,其特征在于,所述在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成第一语音信息,具体包括:
所述在所述数据库中获取未查找到与所述待处理图像信息相同图像信息时对应的指令信息,生成所述指令信息;
根据所述指令信息,生成所述第一语音信息。
9.如权利要求1所述的方法,其特征在于,该方法还包括:
接收到触发指令;
播报第二语音信息,其中,所述第二语音信息用于提示用户获取待处理图像。
10.如权利要求1所述的方法,其特征在于,该方法还包括:
接收语音反馈信息;
根据所述语音反馈信息,生成第三语音信息;
播报所述第三语音信息。
11.如权利要求10所述的方法,其特征在于,所述根据所述语音反馈信息,生成第三语音信息,具体包括:
响应于所述语音反馈信息中待处理图像信息的读音正确,生成第三语音信息,其中,所述第三语音信息用于提示用户读音正确。
12.如权利要求10所述的方法,其特征在于,所述根据所述语音反馈信息,生成第三语音信息,具体包括:
响应于所述语音反馈信息中待处理图像信息的读音错误,生成第三语音信息,其中,所述第三语音信息包括所述待处理图像信息的正确读音。
13.一种文本识别的装置,其特征在于,该装置包括:
接收单元,用于获取待处理图像,其中,所述待处理图像中包含至少一个图片区域,每个所述图片区域中包括至少一个图像信息;
确定单元,用于确定所述待处理图像中包含的待处理图像信息,其中,所述待处理图像信息为所述至少一个图像信息的集合;
处理单元,用于根据所述待处理图像信息,生成第一语音信息;
播报单元,用于播报所述第一语音信息。
14.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-12中任一项所述的方法。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-12任一项所述的方法。
CN202110192230.2A 2021-02-19 2021-02-19 一种文本识别的方法、装置、可读存储介质和电子设备 Pending CN112926586A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110192230.2A CN112926586A (zh) 2021-02-19 2021-02-19 一种文本识别的方法、装置、可读存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110192230.2A CN112926586A (zh) 2021-02-19 2021-02-19 一种文本识别的方法、装置、可读存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN112926586A true CN112926586A (zh) 2021-06-08

Family

ID=76169922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110192230.2A Pending CN112926586A (zh) 2021-02-19 2021-02-19 一种文本识别的方法、装置、可读存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112926586A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130249783A1 (en) * 2012-03-22 2013-09-26 Daniel Sonntag Method and system for annotating image regions through gestures and natural speech interaction
CN106097794A (zh) * 2016-07-25 2016-11-09 焦点科技股份有限公司 基于增强现实的汉语拼音组合认读学习系统及认读方法
CN109637286A (zh) * 2019-01-16 2019-04-16 广东小天才科技有限公司 一种基于图像识别的口语训练方法及家教设备
US20200257922A1 (en) * 2019-02-12 2020-08-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and readable storage medium for image-based data processing
CN112287930A (zh) * 2020-11-02 2021-01-29 深圳市童书王国际文化传媒有限公司 一种智能点读文本系统及其使用方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130249783A1 (en) * 2012-03-22 2013-09-26 Daniel Sonntag Method and system for annotating image regions through gestures and natural speech interaction
CN106097794A (zh) * 2016-07-25 2016-11-09 焦点科技股份有限公司 基于增强现实的汉语拼音组合认读学习系统及认读方法
CN109637286A (zh) * 2019-01-16 2019-04-16 广东小天才科技有限公司 一种基于图像识别的口语训练方法及家教设备
US20200257922A1 (en) * 2019-02-12 2020-08-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and readable storage medium for image-based data processing
CN112287930A (zh) * 2020-11-02 2021-01-29 深圳市童书王国际文化传媒有限公司 一种智能点读文本系统及其使用方法

Similar Documents

Publication Publication Date Title
US20200175890A1 (en) Device, method, and graphical user interface for a group reading environment
Horton et al. A web for everyone: Designing accessible user experiences
US20060194181A1 (en) Method and apparatus for electronic books with enhanced educational features
US11657725B2 (en) E-reader interface system with audio and highlighting synchronization for digital books
KR102043419B1 (ko) 아동언어학습을 위한 음성인식 기반 학습 시스템 및 학습방법
US20140315163A1 (en) Device, method, and graphical user interface for a group reading environment
US20220415206A1 (en) Defining an interactive session that analyzes user input provided by a participant
JP2017219718A (ja) プログラミング学習装置及びプログラム
US20160217704A1 (en) Information processing device, control method therefor, and computer program
WO2017156138A1 (en) System and method for content enrichment and for teaching reading and enabling comprehension
KR102552857B1 (ko) 언어 교육을 위한 영상의 자막 처리 방법 및 장치
CN108564833A (zh) 智能交互对话控制方法及装置
JP2019061189A (ja) 教材オーサリングシステム
KR20170009486A (ko) 청크 기반 언어 학습용 데이터베이스 구축 방법 및 이를 수행하는 전자 기기
KR102389153B1 (ko) 음성 반응형 전자책 제공 방법 및 디바이스
CN115083222B (zh) 信息交互方法、装置、电子设备及存储介质
CN113409791A (zh) 语音识别处理方法、装置、电子设备及存储介质
US20230282130A1 (en) Reading level determination and feedback
RU2344492C2 (ru) Динамическая поддержка произношения для обучения распознаванию японской и китайской речи
KR20130058840A (ko) 외국어 학습방법
KR20080100857A (ko) 라운드방식을 이용한 단어반복학습 서비스 시스템
CN111813948A (zh) 信息处理方法、装置及电子设备
CN112926586A (zh) 一种文本识别的方法、装置、可读存储介质和电子设备
CN112926587B (zh) 一种文本识别的方法、装置、可读存储介质和电子设备
US20160307453A1 (en) System and method for auditory capacity development for language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination