CN111723653A - 基于人工智能的绘本阅读方法及装置 - Google Patents

基于人工智能的绘本阅读方法及装置 Download PDF

Info

Publication number
CN111723653A
CN111723653A CN202010397465.0A CN202010397465A CN111723653A CN 111723653 A CN111723653 A CN 111723653A CN 202010397465 A CN202010397465 A CN 202010397465A CN 111723653 A CN111723653 A CN 111723653A
Authority
CN
China
Prior art keywords
reading
picture book
picture
reading state
finger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010397465.0A
Other languages
English (en)
Other versions
CN111723653B (zh
Inventor
俞晓君
俞志晨
贾志强
陆羽皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangnian Wuxian Technology Co Ltd
Original Assignee
Beijing Guangnian Wuxian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangnian Wuxian Technology Co Ltd filed Critical Beijing Guangnian Wuxian Technology Co Ltd
Priority to CN202010397465.0A priority Critical patent/CN111723653B/zh
Publication of CN111723653A publication Critical patent/CN111723653A/zh
Application granted granted Critical
Publication of CN111723653B publication Critical patent/CN111723653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/13Type of disclosure document
    • G06V2201/131Book
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供的基于人工智能的绘本阅读方法,其包含:步骤一:在绘本阅读模式下,采集得到绘本图像,对绘本图像进行视觉识别;步骤二:对绘本图像进行翻页检测,判断绘本是否处于翻页阅读状态;步骤三:若绘本处于非翻页阅读状态,对绘本图像进行指读检测,判断绘本是否处于指读阅读状态或执手阅读状态;步骤四:在翻页阅读状态或指读阅读状态或执手阅读状态下,向用户反馈多模态阅读数据。本发明将用户阅读状态分为翻页阅读状态、指读阅读状态以及执手阅读状态,在用户进行阅读时能够分辨不同的阅读状态,针对性的提供相应的辅助阅读服务,改善了用户的阅读体验,减少了阅读的误判率,进一步提升了阅读舒适度。

Description

基于人工智能的绘本阅读方法及装置
技术领域
本发明涉及人工智能领域,具体地说,涉及一种基于人工智能的绘本阅读方法及装置。
背景技术
图书是人类用来记录一切成就的主要工具,也是人类交融感情、取得知识、传承经验的重要媒介,对人类文明的开展贡献至钜。图书是以传播文化为目的,用文字或其它信息符号记录于一定形式的材料之上的著作物。现有技术中,在视觉识别领域,对于用户的阅读状态,缺少细致的识别及分类技术,这就带来了效率低下,用户体验差等问题。
针对现有技术的现状,急需在实际的识别和阅读中,对用户的阅读状态进行区分,针对不同的用户阅读状态,提供不同的辅助阅读服务,以使用户的阅读体验更加舒适。
因此,本发明提供了一种基于人工智能的绘本阅读方法及装置。
发明内容
为解决上述问题,本发明提供了一种基于人工智能的绘本阅读方法,所述方法包含以下步骤:
步骤一:在绘本阅读模式下,采集得到绘本图像,对所述绘本图像进行视觉识别;
步骤二:对所述绘本图像进行翻页检测,判断绘本是否处于翻页阅读状态;
步骤三:若绘本处于非翻页阅读状态,对所述绘本图像进行指读检测,判断绘本是否处于指读阅读状态或执手阅读状态;
步骤四:在所述翻页阅读状态或所述指读阅读状态或所述执手阅读状态下,向用户反馈多模态阅读数据。
根据本发明的一个实施例,所述步骤二中具体包含以下步骤:
对在预设时间段内采集的所述绘本图像进行检测分析,通过对比确定临近绘本图像之间的相似度,得到相似度信息;
将所述相似度信息与第一阈值进行比较,若所述相似度信息小于所述第一阈值,则判断绘本处于翻页阅读状态。
根据本发明的一个实施例,所述步骤三中具体包含以下步骤:
若所述相似度信息大于所述第一阈值,则判断绘本处于非翻页阅读状态;
在所述非翻页阅读状态下,检测所述绘本图像中是否存在手指指向轮廓;
若存在所述手指指向轮廓,判断绘本处于所述指读阅读状态。
根据本发明的一个实施例,所述步骤三中具体包含以下步骤:在所述非翻页阅读状态下,若不存在所述手指指向轮廓但存在手部轮廓,判断绘本处于所述执手阅读状态。
根据本发明的一个实施例,所述步骤四中具体包含以下步骤:在所述指读阅读状态下,实时捕捉所述手指指向轮廓所指向的绘本位置,向用户反馈所述绘本位置对应的所述多模态阅读数据。
根据本发明的一个实施例,所述方法还包括:
获取当前用户的身份特征信息,对当前用户的用户属性进行判断,确定当前用户的类别,其中,用户的类别包含:儿童用户。
根据本发明的另一个方面,还提供了一种程序产品,其包含用于执行如上任一项所述的方法步骤的一系列指令。
根据本发明的另一个方面,还提供了一种基于人工智能的绘本阅读装置,所述装置包含:
视觉识别模块,其用于在绘本阅读模式下,采集得到绘本图像,对所述绘本图像进行视觉识别;
翻页检测模块,其用于对所述绘本图像进行翻页检测,判断绘本是否处于翻页阅读状态;
指读检测模块,其用于若绘本处于非翻页阅读状态,对所述绘本图像进行指读检测,判断绘本是否处于指读阅读状态或执手阅读状态;
反馈输出模块,其用于在所述翻页阅读状态或所述指读阅读状态或所述执手阅读状态下,向用户反馈多模态阅读数据。
根据本发明的另一个方面,还提供了一种儿童专用智能设备,用于执行如上任一项所述的方法步骤的一系列指令。
根据本发明的另一个方面,还提供了一种基于人工智能的绘本阅读系统,所述系统包含:
如上所述的儿童专用智能设备;
绘本;
云端服务器,其具备语义理解、视觉识别、认知计算以及情感计算,以决策所述儿童专用智能设备输出多模态数据。
本发明提供的基于人工智能的绘本阅读方法及装置将用户阅读状态分为翻页阅读状态、指读阅读状态以及执手阅读状态,在用户进行阅读时能够分辨不同的阅读状态,针对性的提供相应的辅助阅读服务,改善了用户的阅读体验,减少了阅读的误判率,进一步提升了阅读舒适度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1显示了根据本发明的一个实施例的基于人工智能的绘本阅读方法流程图;
图2显示了根据本发明的一个实施例的基于人工智能的绘本阅读方法中阅读模式判断流程图;
图3显示了根据本发明的一个实施例的基于人工智能的绘本阅读装置结构框图;
图4显示了根据本发明的一个实施例的儿童专用智能设备结构框图;
图5显示了根据本发明的一个实施例的用户、儿童专用智能设备以及云端的三方通信示意图;以及
图6显示了根据本发明的另一个实施例的基于人工智能的绘本阅读方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明实施例作进一步地详细说明。
为表述清晰,需要在实施例前进行如下说明:
本发明提到的儿童专用智能设备支持多模态人机交互,具备自然语言理解、视觉感知、语言语音输出、情感表情动作输出等AI能力;可配置社会属性、人格属性、人物技能等,使用户享受智能化及个性化流畅体验。在具体的实施例中,儿童专用智能设备特指智能台灯、拥有摄像头的智能桌面机器人、智能平板、带屏音箱等,具备图书内容识别交互功能,能够接收用户输入的指令,并在儿童专用智能设备上输出多模态数据等。
儿童专用智能设备获取用户的多模态数据,在云端的能力支持下,对多模态数据进行语义理解、视觉识别、认知计算、情感计算,以完成决策输出的过程。儿童专用智能设备可以包含具备安卓,ios,linux,windows平台的app。
所提到的云端为提供所述儿童专用智能设备对用户的交互需求进行语义理解(图像识别、语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端,实现与用户的交互,以决策所述儿童专用智能设备输出多模态数据。
下面结合附图对本发明的各个实施例进行详细描述。
图1显示了根据本发明的一个实施例的基于人工智能的绘本阅读方法流程图。
如图1,在步骤S101中,在绘本阅读模式下,采集得到绘本图像,对绘本图像进行视觉识别。
具体来说,通过具备图像采集能力的设备对绘本进行图像采集,可以通过儿童专用智能设备上设置的摄像头对绘本进行图像采集,也可以通过未设置在儿童专用智能设备上的摄像头对绘本进行图像采集,之后将采集到的绘本图像传输至儿童专用智能设备。
另外,本发明中除了对绘本进行阅读外,还可以对其他类型的书籍进行阅读,例如:教材课本、辅导书籍等纯文字书籍、纯图片书籍以及文字图片均有的书籍。
具体来说,不同的书籍需要采用不同点的算法识别模式,算法识别模式包含光学字符识别以及图像特征识别模式,其中光学字符识别(Optical Character Recognition,简称OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。在一个实施例中采用光学字符识别模式的待识别内容可以为教材图书。
具体来说,图像特征识别模式一般采用基于图像特征的深度学习算法进行识别,在一个实施例中,图像特征识别模式用于识别绘本类书籍。
如图1,在步骤S102中,对绘本图像进行翻页检测,判断绘本是否处于翻页阅读状态。具体来说,采用专业的翻页检测算法判断是否处于翻页阅读状态。
具体来说,步骤S102包含以下步骤:
S1021、对在预设时间段内采集的绘本图像进行检测分析,通过对比确定临近绘本图像之间的相似度,得到相似度信息。
S1022、将相似度信息与第一阈值进行比较,若相似度信息小于第一阈值,则判断绘本处于翻页阅读状态。
如图1,在步骤S103中,若绘本处于非翻页阅读状态,对绘本图像进行指读检测,判断绘本是否处于指读阅读状态或执手阅读状态。
具体来说,步骤S103包含以下步骤:
S1031、若相似度信息大于第一阈值,则判断绘本处于非翻页阅读状态。
S1032、在非翻页阅读状态下,检测绘本图像中是否存在手指指向轮廓。
S1033、若存在手指指向轮廓,判断绘本处于指读阅读状态。
S1034、在非翻页阅读状态下,若不存在手指指向轮廓但存在手部轮廓,判断绘本处于执手阅读状态。
如图1,在步骤S104中,在翻页阅读状态或指读阅读状态或执手阅读状态下,向用户反馈多模态阅读数据。
具体来说,步骤S104中,在指读阅读状态下,实时捕捉手指指向轮廓所指向的绘本位置,向用户反馈绘本位置对应的多模态阅读数据。
另外,翻页检测算法是指当进入绘本阅读状态后,是指对摄像头在1秒连续的上传图片进行检测分析,通过比对图片,发现前后两张或者多张图片的相似度低,翻页检测算法的数据表现为对应的阈值变化大,判断当前用户为动态翻书过程,此时对出现在图像中的手部不做任何处理,否则,比对前后两张照片相似度高,对应的阈值低于所设定值,或阈值为零,此时判断用户为非翻页阅读状态,同时,开启是否手指指读的位置判断逻辑。
具体来说,指读状态判断是指当翻页检测算法判断用户为非翻页阅读状态,且翻页检测算法检测到上传图像中出现手指指向内容,则判断当前用户的意图为指读,程序反馈对应的指读内容。
具体来说,在检测范围内检测到手型轮廓时,认为用户具备一定的交互意图,这种交互意图可以是用户通过手指指示出绘本中的某一区域,此时,需要确定手型轮廓指向位置的内容,或结合用户的语音或其他多模态输入数据中包含的交互意图,来向用户反馈多模态识别结果数据。例如:当用户指向绘本中的某个区域时,通过音频数据播放区域内包含的文字信息。
根据本发明的一个实施例,获取当前用户的身份特征信息,对当前用户的用户属性进行判断,确定当前用户的类别,其中,用户的类别包含:儿童用户。本发明面向的用户群主要是儿童用户,因此需要确定用户的身份属性。判断用户身份的方式有很多种,一般来说,可以通过面部识别功能或者指纹识别方式来辨别用户的身份。其他能够判断用户身份的方式也可以运用到本发明中来,本发明不对此做出限制。
图2显示了根据本发明的一个实施例的基于人工智能的绘本阅读方法中阅读模式判断流程图。
实际情况中,在绘本识别的环节,已确定绘本的类型,用户有时在翻页时,同样有手指或手掌在页面中,甚至停留时间长,从而误判为指读阅读状态,需要对指读/翻页进行判断,减少指读误判率。
由于台灯天然的具有学习的属性,搭载带有增强学习功能的台灯,会使得学习的效果事半功倍。本发明中的智能台灯方案搭载摄像头,得益于台灯补光功能,使得图像识别在此种场景下识别的效果有更好的优化,本发明使用端+云的方案,将图像预处理方案放在本地,将图像的识别放在云端,通过发挥各自的优势,可以平衡产品的成本和产品最终的体验效果。
通过智能台灯来实现阅读模式判断的实施例如下:
本实施例中的智能台灯具备语音交互功能;对于绘本的翻页过程,能够同步展示并识读当前页面内容;并且还具备实时捕捉能力,能够对画面中的手部进行实时捕捉,确定手部所指向的位置;能够用于获取与了解图书或印刷品的内容,获得服务的方式以能识别当前用户操作需要对应的内容反馈,主要用于阅读与学习场景。
在步骤S201中,采集绘本图像并上传。在实际应用中,智能台灯可以搭载摄像头,通过摄像头对绘本进行拍照,在本地进行预处理后,上传至云端进行进一步的识别与处理。本地预处理包含去重处理,可以对重复的图片进行删除。
然后,在步骤S202中,判断是否翻页。具体来说,云端会对在预设时间段内采集的绘本图像进行检测分析,通过对比确定临近绘本图像之间的相似度,得到相似度信息。将相似度信息与第一阈值进行比较,若相似度信息小于第一阈值,则判断绘本处于翻页阅读状态。
进一步地,通过监测并比对1秒或者更长时间内,连续上传绘本图像相似度,如相似度低,且阈值变化大,高过预设最低值,为翻页阅读状态。
在步骤S203中,如果步骤S202中的判断结果为是,则进入翻页阅读状态。在翻页阅读状态中,只判断是否翻页,不处理图像中是否出现手部轮廓,是否有指读图像特征指向。
在步骤S204中,如果步骤S202中的判断结果为否,则继续判断是否指读。具体来说,若相似度信息大于第一阈值,则判断绘本处于非翻页阅读状态;在非翻页阅读状态下,检测绘本图像中是否存在手指指向轮廓;若存在手指指向轮廓,判断绘本处于指读阅读状态。
在步骤S205中,如果步骤S204中的判断结果为是,则进入指读阅读状态。在指读阅读状态下,确定手指指向位置所对应的内容。即在指读阅读状态下,实时捕捉手指指向轮廓所指向的绘本位置,向用户反馈绘本位置对应的多模态阅读数据。
另外,在指读阅读状态下,发出二次确认请求,请求用户确认儿童专用智能设备确定的指向绘本位置是否为用户意愿位置。接收用户对于二次确认请求的判断结果指令,以修正指向绘本位置,降低误判率。
在步骤S206中,如果步骤S204中的判断结果为否,则继续判断是否执手。具体来说,在非翻页阅读状态下,若不存在手指指向轮廓但存在手部轮廓,判断绘本处于执手阅读状态。
进一步地,如不是指读阅读状态,且图片中有手部特征,通过翻页检测判断用户当前相对静止,则判断用户在识读绘本状态,手部为执手听音频内容状态。
在步骤S207中,如果步骤S206中的判断结果为是,则进入执手阅读状态。具体来说,在执手阅读状态下,识别绘本当前内容,通过音频、视频与图像的形式向用户反馈多模态阅读数据。
最后,在步骤S208中,向用户反馈多模态阅读结果。具体来说,在翻页阅读状态或指读阅读状态或执手阅读状态下,向用户反馈多模态阅读数据。
图3显示了根据本发明的一个实施例的基于人工智能的绘本阅读装置结构框图。
如图3所示,绘本阅读装置包含第一模块301即视觉识别模块、第二模块302即翻页检测模块、第三模块303即指读检测模块以及第四模块304即反馈输出模块。其中,第一模块301包含采集单元3011以及预处理单元3012。第二模块302包含相似度单元3021以及第一判断单元3022。第三模块303包含轮廓捕捉单元3031以及第二判断单元3032。第四模块304包含生产单元3041以及输出单元3042。
第一模块301用于在绘本阅读模式下,采集得到绘本图像,对绘本图像进行视觉识别。其中,采集单元3011用于采集得到绘本的绘本图像。预处理单元3012用于对采集得到的绘本图像进行预处理处理,得到预处理后的图像数据,其中,预处理包含去重处理等处理过程。
第二模块302用于对绘本图像进行翻页检测,判断绘本是否处于翻页阅读状态。其中,相似度单元3021用于对在预设时间段内采集的绘本图像进行检测分析,通过对比确定临近绘本图像之间的相似度,得到相似度信息。第一判断单元3022用于将相似度信息与第一阈值进行比较,若相似度信息小于第一阈值,则判断绘本处于翻页阅读状态。
第三模块303用于若绘本处于非翻页阅读状态,对绘本图像进行指读检测,判断绘本是否处于指读阅读状态或执手阅读状态。其中,轮廓捕捉单元3031用于在非翻页阅读状态下,检测绘本图像中是否存在手指指向轮廓。第二判断单元3032用于若存在手指指向轮廓,判断绘本处于指读阅读状态;在非翻页阅读状态下,若不存在手指指向轮廓但存在手部轮廓,判断绘本处于执手阅读状态。
第四模块304在翻页阅读状态或指读阅读状态或执手阅读状态下,向用户反馈多模态阅读数据。其中,生成单元3041用于在指读阅读状态下,实时捕捉手指指向轮廓所指向的绘本位置,生成绘本位置对应的多模态阅读数据。输出单元3042用于向用户输出多模态阅读数据。
图4显示了根据本发明的一个实施例的儿童专用智能设备结构框图。如图4,儿童专用智能设备400包含信号采集器件401、通信模组402、信号输出器件403以及中央处理器404。
儿童专用智能设备400包括支持视觉、感知、控制等输入输出模块的智能设备,可接入互联网,例如智能台灯、拥有摄像头的智能桌面机器人、智能平板、带屏音箱等,具备图书内容识别交互功能,能够接收用户输入的指令,并在儿童专用智能设备上输出多模态数据。
儿童专用智能设备400中可以包含专用于基于人工智能的绘本阅读交互过程的客户端,客户端可以装载在安卓系统环境下,儿童专用智能设备可以是具备4G、甚至5G通信能力的智能设备等。
信号采集器件401用于获取图像信息以及用户的指令。信号采集器件401的例子包括用于语音操作的麦克风、扫描仪、摄像头、感控设备,如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态的数据(包含图像信息以及用户的指令)。多模态的数据可以包含文本、音频、视觉以及感知数据中的一种,也可以包含多种,本发明不对此作出限制。
当信号采集器件401需要具备清晰的采集反应用户阅读过程中环境特征的能力,例如:阅读环境的明暗、阅读环境中物体的色彩特征。
通信模组402可以完成儿童专用智能设备与云端之间的通信。具体来说,可以采用联网的WiFi模块。
信号输出器件403用于输出音频或多模态数据。信号输出器件403可以是功放和喇叭、扩音器等能够输出音频数据的设备,也可以是能够播放视频及画面的显示屏幕。信号输出器件403也可以是支持其他类型数据的器件,本发明不对此作出限制。
中央处理器404用于处理进行交互过程中产生的数据。中央处理器具备运行翻页、指读、执手检测算法的能力,同时需要支持每秒至少上传10张图片到云端服务器,还需具备支持图像特征或相似度比对的能力。
中央处理器404所用的处理器可以为数据处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是终端的控制中心,利用各种接口和线路连接整个终端的各个部分。
儿童专用智能设备400中还包含存储器,存储器主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据儿童专用智能设备400的使用所创建的数据(比如音频数据、浏览记录等),也可以存储点读印刷物对应的点读数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
此外,本发明提供的用于基于人工智能的绘本阅读系统还可以配合一种程序产品,其包含用于执行完成基于人工智能的绘本阅读方法步骤的一系列指令。程序产品能够运行计算机指令,计算机指令包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
程序产品可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,程序产品不包括电载波信号和电信信号。
图5显示了根据本发明的一个实施例的用户、儿童专用智能设备以及云端的三方通信示意图。
为了实现儿童专用智能设备400支持用户501进行基于人工智能的绘本阅读,需要用户501、儿童专用智能设备400以及云端502之间建立起通信连接。这种通信连接应该是实时的、通畅的,能够保证交互不受影响的。
为了完成交互,需要具备一些条件或是前提。这些条件或是前提包含,儿童专用智能设备400中具备视觉、感知以及控制功能的硬件设施。
完成前期准备后,儿童专用智能设备开始与用户展开交互,首先,儿童专用智能设备400接收用户501输入的阅读指令。
阅读指令可以是语音数据、视觉数据、触觉数据,还可以是用户按下物理按键。儿童专用智能设备400中配置有接收阅读指令的相应设备,用来接收用户501发送的阅读指令。此时,展开通信的两方是儿童专用智能设备400与用户501,数据传递的方向是从用户501传向儿童专用智能设备400。
然后,儿童专用智能设备400对绘本进行图像采集,采集得到绘本图像,在经过去重等预处理后,上传至云端502。此时,展开数据传递的两方是儿童专用智能设备400以及云端502,数据传递方向是从儿童专用智能设备400传向云端502。
在云端502会对绘本图像进行图像识别,结合用户的状态,判断阅读类型,并进入对应的阅读模式,其中,阅读模式包含翻页阅读状态、指读阅读状态以及执手阅读状态,之后生成各模式下对应的多模态阅读数据。
接着,云端502向儿童专用智能设备400返回多模态阅读数据。云端502跟据儿童专用智能设备400的请求返回对应的多模态阅读数据。此时,展开通信的两方是云端502以及儿童专用智能设备400,数据传递的方向是从云端502传向儿童专用智能设备400。
然后,儿童专用智能设备400将多模态阅读数据返回至用户501,一般来说,儿童专用智能设备400可以通过喇叭播放语音数据,通过显示设备播放图片及视频数据。
图6显示了根据本发明的另一个实施例的基于人工智能的绘本阅读方法流程图。
如图6所示,在步骤S601中,儿童专用智能设备向云端发出请求。之后,在步骤S602中,儿童专用智能设备一直处于等待云端回复的状态。在等待的过程中,儿童专用智能设备会对返回数据所花费的时间进行计时操作。
在步骤S603中,如果长时间未得到返回的应答数据,比如,超过了预定的时间长度5S,则儿童专用智能设备会选择进行本地回复,生成本地常用应答数据。然后,在步骤S604中,输出本地常用应答,并调用语音播放设备进行语音播放。
综上,本发明提供的基于人工智能的绘本阅读方法及装置将用户阅读状态分为翻页阅读状态、指读阅读状态以及执手阅读状态,在用户进行阅读时能够分辨不同的阅读状态,针对性的提供相应的辅助阅读服务,改善了用户的阅读体验,减少了阅读的误判率,进一步提升了阅读舒适度。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种基于人工智能的绘本阅读方法,其特征在于,所述方法包含以下步骤:
步骤一:在绘本阅读模式下,采集得到绘本图像,对所述绘本图像进行视觉识别;
步骤二:对所述绘本图像进行翻页检测,判断绘本是否处于翻页阅读状态;
步骤三:若绘本处于非翻页阅读状态,对所述绘本图像进行指读检测,判断绘本是否处于指读阅读状态或执手阅读状态;
步骤四:在所述翻页阅读状态或所述指读阅读状态或所述执手阅读状态下,向用户反馈多模态阅读数据。
2.如权利要求1所述的方法,其特征在于,所述步骤二中具体包含以下步骤:
对在预设时间段内采集的所述绘本图像进行检测分析,通过对比确定临近绘本图像之间的相似度,得到相似度信息;
将所述相似度信息与第一阈值进行比较,若所述相似度信息小于所述第一阈值,则判断绘本处于翻页阅读状态。
3.如权利要求2所述的方法,其特征在于,所述步骤三中具体包含以下步骤:
若所述相似度信息大于所述第一阈值,则判断绘本处于非翻页阅读状态;
在所述非翻页阅读状态下,检测所述绘本图像中是否存在手指指向轮廓;
若存在所述手指指向轮廓,判断绘本处于所述指读阅读状态。
4.如权利要求3所述的方法,其特征在于,所述步骤三中具体包含以下步骤:在所述非翻页阅读状态下,若不存在所述手指指向轮廓但存在手部轮廓,判断绘本处于所述执手阅读状态。
5.如权利要求3所述的方法,其特征在于,所述步骤四中具体包含以下步骤:在所述指读阅读状态下,实时捕捉所述手指指向轮廓所指向的绘本位置,向用户反馈所述绘本位置对应的所述多模态阅读数据。
6.如权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
获取当前用户的身份特征信息,对当前用户的用户属性进行判断,确定当前用户的类别,其中,用户的类别包含:儿童用户。
7.一种程序产品,其包含用于执行如权利要求1-6中任一项所述的方法步骤的一系列指令。
8.一种基于人工智能的绘本阅读装置,其特征在于,所述装置包含:
视觉识别模块,其用于在绘本阅读模式下,采集得到绘本图像,对所述绘本图像进行视觉识别;
翻页检测模块,其用于对所述绘本图像进行翻页检测,判断绘本是否处于翻页阅读状态;
指读检测模块,其用于若绘本处于非翻页阅读状态,对所述绘本图像进行指读检测,判断绘本是否处于指读阅读状态或执手阅读状态;
反馈输出模块,其用于在所述翻页阅读状态或所述指读阅读状态或所述执手阅读状态下,向用户反馈多模态阅读数据。
9.一种儿童专用智能设备,其特征在于,用于执行如权利要求1-6中任一项所述的方法步骤的一系列指令。
10.一种基于人工智能的绘本阅读系统,其特征在于,所述系统包含:
如权利要求9所述的儿童专用智能设备;
绘本;
云端服务器,其具备语义理解、视觉识别、认知计算以及情感计算,以决策所述儿童专用智能设备输出多模态数据。
CN202010397465.0A 2020-05-12 2020-05-12 基于人工智能的绘本阅读方法及装置 Active CN111723653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010397465.0A CN111723653B (zh) 2020-05-12 2020-05-12 基于人工智能的绘本阅读方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010397465.0A CN111723653B (zh) 2020-05-12 2020-05-12 基于人工智能的绘本阅读方法及装置

Publications (2)

Publication Number Publication Date
CN111723653A true CN111723653A (zh) 2020-09-29
CN111723653B CN111723653B (zh) 2023-09-26

Family

ID=72564355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010397465.0A Active CN111723653B (zh) 2020-05-12 2020-05-12 基于人工智能的绘本阅读方法及装置

Country Status (1)

Country Link
CN (1) CN111723653B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672747A (zh) * 2021-08-20 2021-11-19 云知声(上海)智能科技有限公司 智能化儿童读物有声陪读系统及方法
CN113974312A (zh) * 2021-10-09 2022-01-28 福州米鱼信息科技有限公司 一种缓解长时间站立阅读而产生疲惫感的方法
CN114141229A (zh) * 2021-10-20 2022-03-04 北京觅机科技有限公司 伴读台灯的睡眠模式控制方法、伴读台灯、终端以及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016029581A1 (zh) * 2014-08-27 2016-03-03 华南理工大学 一种基于视觉手势的点读方法和装置
CN107507469A (zh) * 2017-08-27 2017-12-22 广州慈华信息科技有限公司 一种双屏幕的儿童绘本电子阅读装置的实现方法
CN108509136A (zh) * 2018-04-12 2018-09-07 山东音为爱智能科技有限公司 一种基于人工智能的儿童绘本辅助阅读方法
CN109003476A (zh) * 2018-07-18 2018-12-14 深圳市本牛科技有限责任公司 一种手指点读系统及其操作方法以及采用该系统的装置
WO2019085000A1 (zh) * 2017-10-30 2019-05-09 深圳市华阅文化传媒有限公司 电子书阅读的控制方法及装置
CN109857929A (zh) * 2018-12-29 2019-06-07 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置
CN109858391A (zh) * 2019-01-11 2019-06-07 北京光年无限科技有限公司 一种用于绘本机器人的人机交互方法及装置
CN110443224A (zh) * 2019-08-14 2019-11-12 广东小天才科技有限公司 翻页检测方法、装置、电子设备及存储介质
CN110561453A (zh) * 2019-09-16 2019-12-13 北京觅机科技有限公司 一种绘本机器人的引导式陪读方法
CN110597450A (zh) * 2019-09-16 2019-12-20 广东小天才科技有限公司 防误触识别方法、装置、点读设备及其点读识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016029581A1 (zh) * 2014-08-27 2016-03-03 华南理工大学 一种基于视觉手势的点读方法和装置
CN107507469A (zh) * 2017-08-27 2017-12-22 广州慈华信息科技有限公司 一种双屏幕的儿童绘本电子阅读装置的实现方法
WO2019085000A1 (zh) * 2017-10-30 2019-05-09 深圳市华阅文化传媒有限公司 电子书阅读的控制方法及装置
CN108509136A (zh) * 2018-04-12 2018-09-07 山东音为爱智能科技有限公司 一种基于人工智能的儿童绘本辅助阅读方法
CN109003476A (zh) * 2018-07-18 2018-12-14 深圳市本牛科技有限责任公司 一种手指点读系统及其操作方法以及采用该系统的装置
CN109857929A (zh) * 2018-12-29 2019-06-07 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置
CN109858391A (zh) * 2019-01-11 2019-06-07 北京光年无限科技有限公司 一种用于绘本机器人的人机交互方法及装置
CN110443224A (zh) * 2019-08-14 2019-11-12 广东小天才科技有限公司 翻页检测方法、装置、电子设备及存储介质
CN110561453A (zh) * 2019-09-16 2019-12-13 北京觅机科技有限公司 一种绘本机器人的引导式陪读方法
CN110597450A (zh) * 2019-09-16 2019-12-20 广东小天才科技有限公司 防误触识别方法、装置、点读设备及其点读识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672747A (zh) * 2021-08-20 2021-11-19 云知声(上海)智能科技有限公司 智能化儿童读物有声陪读系统及方法
CN113974312A (zh) * 2021-10-09 2022-01-28 福州米鱼信息科技有限公司 一种缓解长时间站立阅读而产生疲惫感的方法
CN113974312B (zh) * 2021-10-09 2023-05-05 福州米鱼信息科技有限公司 一种缓解长时间站立阅读而产生疲惫感的方法
CN114141229A (zh) * 2021-10-20 2022-03-04 北京觅机科技有限公司 伴读台灯的睡眠模式控制方法、伴读台灯、终端以及介质

Also Published As

Publication number Publication date
CN111723653B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN111723653B (zh) 基于人工智能的绘本阅读方法及装置
US9721156B2 (en) Gift card recognition using a camera
CN111586237B (zh) 一种图像显示方法及电子设备
CN104966084A (zh) 一种基于ocr和tts的低视力阅读助视系统
US11189183B2 (en) Intelligent voice interaction method, device and computer readable storage medium
US20120017144A1 (en) Content analysis apparatus and method
Singla et al. Optical character recognition based speech synthesis system using LabVIEW
CN110825164A (zh) 基于儿童专用穿戴智能设备的交互方法及系统
WO2023197648A1 (zh) 截图处理方法及装置、电子设备和计算机可读介质
CN111428569B (zh) 基于人工智能的绘本或教材的视觉识别方法及装置
CN113342435A (zh) 一种表情处理方法、装置、计算机设备及存储介质
CN111310747A (zh) 信息处理方法、信息处理装置及存储介质
CN110674825A (zh) 应用于智能语音鼠标的文字识别方法、装置、系统和存储介质
CN111062377A (zh) 一种题号检测方法、系统、存储介质及电子设备
CN114328679A (zh) 图像处理方法、装置、计算机设备以及存储介质
CN110992958B (zh) 内容记录方法、装置、电子设备及存储介质
CN112329563A (zh) 一种基于树莓派的智能阅读辅助方法及系统
WO2023051384A1 (zh) 显示方法、信息发送方法和电子设备
CN111161710A (zh) 同声传译方法、装置、电子设备及存储介质
CN115953996A (zh) 一种基于车内用户信息生成自然语言的方法及装置
CN113486171B (zh) 一种图像处理方法及装置、电子设备
CN204856534U (zh) 一种基于ocr和tts的低视力阅读助视系统
CN110929709B (zh) 基于oid点读内容转换为绘本指读内容的方法及装置
CN114220034A (zh) 图像处理方法、装置、终端及存储介质
Jadhav et al. Raspberry pi based reader for blind

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant