CN111860122A - 一种现实场景下的阅读综合行为的识别方法及系统 - Google Patents

一种现实场景下的阅读综合行为的识别方法及系统 Download PDF

Info

Publication number
CN111860122A
CN111860122A CN202010499715.1A CN202010499715A CN111860122A CN 111860122 A CN111860122 A CN 111860122A CN 202010499715 A CN202010499715 A CN 202010499715A CN 111860122 A CN111860122 A CN 111860122A
Authority
CN
China
Prior art keywords
page
language
reading
book
page turning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010499715.1A
Other languages
English (en)
Other versions
CN111860122B (zh
Inventor
范骁骏
高旻昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lingteng Intelligent Technology Co ltd
Original Assignee
Shanghai Lingteng Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lingteng Intelligent Technology Co ltd filed Critical Shanghai Lingteng Intelligent Technology Co ltd
Priority to CN202010499715.1A priority Critical patent/CN111860122B/zh
Publication of CN111860122A publication Critical patent/CN111860122A/zh
Application granted granted Critical
Publication of CN111860122B publication Critical patent/CN111860122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及阅读综合行为识别的技术领域,提供了一种现实场景下的阅读综合行为的识别方法及系统,其方法包括:S1:获取真实阅读场景下的信息载体图像;S2:对信息载体图像进行定位和边缘位置检测,对书本内部的图像内容进行检测,实现对翻页行为的识别;S3:针对页面范围内的信息进行随机采样,对候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别;S4:对行的信息进行定位,获得行数和每一行的行宽,估算出每一行的文字数量和页面内的文字总数量;S5:获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量。能够对读者的阅读行为,尤其是针对于阅读纸质书本的阅读行为进行实时的分析。

Description

一种现实场景下的阅读综合行为的识别方法及系统
技术领域
本发明涉及阅读综合行为识别的技术领域,尤其涉及一种现实场景下的阅读综合行为的识别方法及系统。
背景技术
在当前的人工智能技术领域中,人类在阅读书本时,经常会与人工智能进行交互,以利于通过书本进行学习时,能够学习理解的更快,人工智能也能够对人类的阅读行为进行分析,后续推荐一个与读者更加适应的学习计划。
此时,就涉及到需要对读者的阅读行为进行分析,在现有技术中,并没有找到一种合适的方法能够识别并分析读者的阅读行为。
市面上,能够分析读者阅读行为的应用背景,基本上都是基于电子阅读设备来提供给读者进行阅读,通过电子设备阅读的记录来分析阅读行为。然而,很多时候,我们还是需要通过传统的纸质书本进行阅读学习,如何分析纸质书本的阅读行为,就很难了。
在“CN103186665A-一种纸质图书数字化辅助阅读软件”中,公开:“提出了一种纸质图书数字化辅助阅读软件。通过该软件的使用可以减少实体书签的使用,以及实体书签丢失带来的不便;可以为图书添加更为丰富的书签、并能够对书签进行检索;可提高阅读公共书籍的效率和质量,提供了解决无法在公共书籍上注释的一种数字化方法;了解自己阅读的习惯、每本书阅读所花费的时间;实现纸质图书与电子图书同时期阅读的连续性。该辅助阅读软件的功能包括:图书识别、数字化当前阅读状态、纸质图书数字化书签、纸质图书数字化笔记、图书纸质版与电子版连续阅读、纸质图书阅读行为统计。该软件包含Android、iOS、Windows Phone版本,可运行于安装了上述操作系统的智能移动设备上。使用该软件时,设备上必须包含或连接有摄像头装置。该系统包括以下模块:图书识别模块:通过摄像头装置对图书的ISBN条形码进行扫描,获得其ISBN编号。软件中所涉及的图书主要通过该ISBN编号进行识别,无须用户输入。信息管理模块:软件相关数据的存储及检索,以及通过网络获取图书的基本信息。PDF文档阅读模块:实现简单的PDF文档显示并能保存当前阅读页码。图片编辑模块:包含可选尺寸及颜色的画笔、以及添加文字功能。数字化当前阅读状态:当用户开始或结束图书的某一次阅读时,可通过该模块对当前的阅读页码进行提取和保存。每次的提取和保存行为会被记录,当前页码在每次保存时得到更新。通过图书识别模块对图书进行自动识别,但当前阅读的页码需要用户自行输入。纸质图书数字化书签:当用户需要添加书签时,可通过该模块向系统中添加该图书的数字化书签信息。数字书签信息包含该书的ISBN编码、页码、书签标题、注释。通过图书识别模块对图书进行自动识别,但其他信息需要用户输入。纸质图书数字化笔记:当用户需要在图书上添加注释或者进行标记时,可以通过摄像头装置将需要的书中内容拍摄下来,用户直接在拍摄下来的图片上进行注释货标记。图书纸质版与电子版连续阅读:当电子版图书与纸质版图书的页码顺序相同,两者使用同一个当前阅读状态,当前阅读状态会自动得到同步。当使用不同的阅读介质后,能够继续之前的阅读,以实现连续阅读。纸质图书阅读行为统计:通过每次阅读状态提取和保存行为信息进行阅读行为统计分析,可统计的用户的阅读信息包括:每本书的阅读时间分布、总花费的时间、每次的阅读时长、平均每次阅读所花费的时间。”上述技术方案中,虽然涉及到对阅读行为的识别,但是需要在电子设备中同时保存一个对应的电子版的书籍,实质上,所有的识别动作都是基于电子版的数据来进行的。且对阅读行为进行统计时,仅仅只是统计了每本书的阅读时间分布、总花费的时间,每次的阅读时长,平均每次阅读时间。无法针对于阅读时的实时的阅读的速度进行分析,统计的只是一个大概的时间,是一个不准确的阅读时间,后续也不能够根据阅读速度推荐一个适应的学习计划。
综上所述,在现有技术中,没有一个好的方法能够对读者的阅读行为,尤其是针对于阅读纸质书本的阅读行为进行实时的分析,以利于后续根据阅读行为推荐一个更加适应的学习计划。
发明内容
针对上述问题,本发明的目的在于提供一种现实场景下的阅读综合行为的识别方法及系统,通过实现翻页行为、焦点页面的语言识别、焦点页面的文字总量估计和阅读速度几个子功能,提供一整套综合的阅读场景的识别功能。具有能够实时识别读者的阅读行为,尤其是阅读纸质书本的阅读行为的优点。
本发明的上述发明目的是通过以下技术方案得以实现的:
一种现实场景下的阅读综合行为的识别方法,包括以下步骤:
S1:通过包括摄像头在内的AI设备获取真实阅读场景下的信息载体图像,并对所述信息载体图像进行深度神经网络学习获得所述信息载体图像的载体类型,当所述载体类型为书本时,跳转到步骤S2,否则,终止阅读综合行为的识别;
S2:通过对所述AI设备获取的连续的所述信息载体图像使用页面监控的静态图像深度学习神经网络进行定位和边缘位置检测,使用可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,实现对翻页行为的识别;
S3:针对页面范围内的信息进行随机采样,作为候选焦点语言特征点图片组,对所示候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别,同时输出每一个单字或单词的宽度尺寸;
S4:通过处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽,与步骤S3中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量和页面内的文字总数量,实现焦点页面内文字总量的分析;
S5:获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量,实现阅读速度的分析。
进一步地,在步骤S2中,实现对翻页行为的识别,具体为:
S21:在连续的所述AI设备获取的所述信息载体图像中,通过所述页面监控的静态图像深度学习神经网络对所述信息载体图像进行定位和边缘位置检测,实现书本的尺寸和位置信息的实时更新,其中,所述位置信息包括左右边缘和书中缝线,所述左右边缘包括书本的真实边缘和所述AI设备视界的边缘在内的任意一种形式;
S22:默认翻页行为发生位置为书本的左边缘和右边缘,使用所述可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,当书本从左边缘改变页面内容时,翻页行为被检测为向上一页翻,当书本从右边缘改变页面内容时,翻页行为被检测为向下一页翻;
S23:在所述可以进行时间序列处理的深度学习神经网络工作完成之后,所述页面监控的静态图像深度学习神经网络持续工作,确认页面与翻页动作发生之前产生了明确的区别,确认翻页动作。
进一步地,在步骤S3中,实现对焦点页面语言的识别,具体为:
S31:对页面范围内的信息进行随机采样,随机采样后的数据作为所述候选焦点语言特征点图片组;
S32:使用图像文字切割深度学习神经网络对所述候选焦点语言特征点图片组进行逐一切割,获得候选语言文本图像组,同时输出每一个单字或单词的宽度尺寸;
S33:使用图像文本识别深度学习神经网络对所述候选语言文本图像组进行分类,获得文本的具体内容,从而获得焦点页面的目标语言候选信息;
S34:在获得多页面、多点位候选信息之后,进行综合分析以确认书本中所含有的语言的总数量,确定文本中的主题语言和其他占比大的语言种类。
进一步地,在步骤S4中,实现焦点页面内文字总量的分析,具体为:
S41:针对于焦点页面语言的识别方案进行分析,获取书本的主题语言;
S42:使用所述处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽;
S43:与焦点页面语言的识别中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量,进一步计算出页面内的文字总数量。
进一步地,在步骤S5中,实现阅读速度的分析,具体为:
S51:通过翻页行为识别到两次翻页事件,计算出两次翻页事件之间的时间间隔;
S52:通过焦点页面内文字总量的分析获得页面内的文字总量;
S53:计算出两次翻页事件之间的时间间隔内阅读文字的总数量,进一步计算出单位时间内阅读文字总量,实现阅读速度的分析。
一种现实场景下的阅读综合行为的识别系统,包括:信息载体获取模块,翻页行为识别模块,语言识别模块,文字总量分析模块,阅读速度分析模块;
所述信息载体获取模块,用于通过包括摄像头在内的AI设备获取真实阅读场景下的信息载体图像,并对所述信息载体图像进行深度神经网络学习获得所述信息载体图像的载体类型,当所述载体类型为书本时,进行后续识别操作,否则,终止阅读综合行为的识别;
所述翻页行为识别模块,用于通过对所述AI设备获取的连续的所述信息载体图像使用页面监控的静态图像深度学习神经网络进行定位和边缘位置检测,使用可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,实现对翻页行为的识别;
所述语言识别模块,用于针对页面范围内的信息进行随机采样,作为候选焦点语言特征点图片组,对所示候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别,同时输出每一个单字或单词的宽度尺寸;
所述文字总量分析模块,用于通过处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽,与输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量和页面内的文字总数量,实现焦点页面内文字总量的分析;
所述阅读速度分析模块,用于获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量,实现阅读速度的分析。
进一步地,所述翻页行为识别模块,进一步包括:
定位和边缘检测单元,用于在连续的所述AI设备获取的所述信息载体图像中,通过所述页面监控的静态图像深度学习神经网络对所述信息载体图像进行定位和边缘位置检测,实现书本的尺寸和位置信息的实时更新,其中,所述位置信息包括左右边缘和书中缝线,所述左右边缘包括书本的真实边缘和所述AI设备视界的边缘在内的任意一种形式;
翻页检测单元,用于在默认翻页行为发生位置为书本的左边缘和右边缘时,使用所述可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,当书本从左边缘改变页面内容时,翻页行为被检测为向上一页翻,当书本从右边缘改变页面内容时,翻页行为被检测为向下一页翻;
翻页确认单元,用于在所述可以进行时间序列处理的深度学习神经网络工作完成之后,所述页面监控的静态图像深度学习神经网络持续工作,确认页面与翻页动作发生之前产生了明确的区别,确认翻页动作。
进一步地,所述语言识别模块,进一步包括:
特征点图片组获取单元,用于对页面范围内的信息进行随机采样,随机采样后的数据作为所述候选焦点语言特征点图片组;
文本图像组获取单元,用于使用图像文字切割深度学习神经网络对所述候选焦点语言特征点图片组进行逐一切割,获得候选语言文本图像组,同时输出每一个单字或单词的宽度尺寸;
语言候选信息获取单元,用于使用图像文本识别深度学习神经网络对所述候选语言文本图像组进行分类,获得文本的具体内容,从而获得焦点页面的目标语言候选信息;
语言确定单元,用于在获得多页面、多点位候选信息之后,进行综合分析以确认书本中所含有的语言的总数量,确定文本中的主题语言和其他占比大的语言种类。
进一步地,所述文字总量分析模块,进一步包括:
主题语言获取单元,用于针对于焦点页面语言的识别方案进行分析,获取书本的主题语言;
行信息定位单元,用于使用所述处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽;
文字数量估算单元,用于与焦点页面语言的识别中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量,进一步计算出页面内的文字总数量;
进一步地,所述阅读速度分析模块,进一步包括:
翻页时间间隔计算单元,用于通过翻页行为识别到两次翻页事件,计算出两次翻页事件之间的时间间隔;
文字总量获取单元,用于通过焦点页面内文字总量的分析获得页面内的文字总量;
阅读速度计算单元,用于计算出两次翻页事件之间的时间间隔内阅读文字的总数量,进一步计算出单位时间内阅读文字总量,实现阅读速度的分析。
与现有技术相比,本发明的有益效果是:
通过一种现实场景下的阅读综合行为的识别方法,实现了翻页行为、焦点页面的语言识别、焦点页面的文字总量估计和阅读速度几个子功能,提供了一整套综合的阅读场景的识别功能。能够对读者的阅读行为,尤其是针对于阅读纸质书本的阅读行为进行实时的分析,以利于后续根据阅读行为推荐一个更加适应的学习计划。
附图说明
图1为本发明一种现实场景下的阅读综合行为的识别方法的具体流程图;
图2为本发明一种现实场景下的阅读综合行为的识别系统的具体结构图;
图3为本发明一种现实场景下的阅读综合行为的识别系统中的翻页行为识别模块的结构图;
图4为本发明一种现实场景下的阅读综合行为的识别系统中的语言识别模块的结构图;
图5为本发明一种现实场景下的阅读综合行为的识别系统中的文字总量分析模块的结构图;
图6为本发明一种现实场景下的阅读综合行为的识别系统中的阅读速度分析模块的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本发明的应用场景是:在当前的人工智能技术领域中,人类在阅读书本时,经常会与人工智能进行交互,以利于通过书本进行学习时,能够学习理解的更快,人工智能也能够对人类的阅读行为进行分析,后续推荐一个与读者更加适应的学习计划。此时,就涉及到需要对读者的阅读行为进行分析,在现有技术中,并没有找到一种合适的方法能够识别并分析读者的阅读行为,尤其是阅读纸质书本时的阅读行为。
基于以上应用场景,本发明的核心思路为:建立一种阅读综合行为的识别法方法,包括翻页行为、焦点页面的语言识别、焦点页面的文字总量估计和阅读速度几个子功能,提供了一整套综合的阅读场景的识别功能。能够对读者的阅读行为,尤其是针对于阅读纸质书本的阅读行为进行实时的分析,以利于后续根据阅读行为推荐一个更加适应的学习计划。
第一实施例
如图1所示,本实施例提供了一种现实场景下的阅读综合行为的识别方法,包括以下步骤:
S1:通过包括摄像头在内的AI设备获取真实阅读场景下的信息载体图像,并对所述信息载体图像进行深度神经网络学习获得所述信息载体图像的载体类型,当所述载体类型为书本时,跳转到步骤S2,否则,终止阅读综合行为的识别。
具体地,首先需要AI设备拍摄真实的阅读场景下的信息载体图像,即包含读者阅读的书本在内的图像。AI设备可以是包括摄像头在内的任何一种具备拍摄功能的设备。本发明主要针对的阅读对象为书本,因此在对读者的阅读行为进行识别之前,需要判断载体图像的类型,只有当载体类型为书本时,才会进入后续的综合行为的识别。
S2:通过对所述AI设备获取的连续的所述信息载体图像使用页面监控的静态图像深度学习神经网络进行定位和边缘位置检测,使用可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,实现对翻页行为的识别。
具体地,针对于获取到的信息载体图片,需要进行定位和边缘位置的检测,检测完成后,才能够方便对翻页行为的识别。
S3:针对页面范围内的信息进行随机采样,作为候选焦点语言特征点图片组,对所述候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别,同时输出每一个单字或单词的宽度尺寸。
具体地,需要判断阅读的书本的文字的具体的语音,正常情况下,对书本的全部进行识别是不现实的,因此,我们通过对页面范围的信息,采用随机采样的方式,对随机采样到的候选焦点语言特征点图片组进行分析,识别出焦点页面的具体语言的种类。同时为了方便后续对页面内的文字总数量进行估算,此处可以同时输出每一个单字或者单词的宽度尺寸。
S4:通过处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽,与步骤S3中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量和页面内的文字总数量,实现焦点页面内文字总量的分析。
S5:获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量,实现阅读速度的分析。
在步骤S2中,实现对翻页行为的识别,具体为:
S21:在连续的所述AI设备获取的所述信息载体图像中,通过所述页面监控的静态图像深度学习神经网络对所述信息载体图像进行定位和边缘位置检测,实现书本的尺寸和位置信息的实时更新,其中,所述位置信息包括左右边缘和书中缝线,所述左右边缘包括书本的真实边缘和所述AI设备视界的边缘在内的任意一种形式。
S22:默认翻页行为发生位置为书本的左边缘和右边缘,使用所述可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,当书本从左边缘改变页面内容时,翻页行为被检测为向上一页翻,当书本从右边缘改变页面内容时,翻页行为被检测为向下一页翻。
S23:在所述可以进行时间序列处理的深度学习神经网络工作完成之后,所述页面监控的静态图像深度学习神经网络持续工作,确认页面与翻页动作发生之前产生了明确的区别,确认翻页动作。
在极端情况下,书左右边缘可能不同时存在甚至同时不存在于摄像头拍摄视野中,由此可以进行时间序列处理的深度学习神经网络将可能发生识别上的不可靠情况,此时该网络应该输出可靠度指标,当可靠度不够高时,页面监控的静态图像深度学习神经网络将主要用于翻页行为的确认和记录。
在步骤S3中,实现对焦点页面语言的识别,具体为:
S31:对页面范围内的信息进行随机采样,随机采样后的数据作为所述候选焦点语言特征点图片组;
S32:使用图像文字切割深度学习神经网络对所述候选焦点语言特征点图片组进行逐一切割,获得候选语言文本图像组,同时输出每一个单字或单词的宽度尺寸;
S33:使用图像文本识别深度学习神经网络对所述候选语言文本图像组进行分类,获得文本的具体内容,从而获得焦点页面的目标语言候选信息;
S34:在获得多页面、多点位候选信息之后,进行综合分析以确认书本中所含有的语言的总数量,确定文本中的主题语言和其他占比大的语言种类。
进一步地,在步骤S4中,实现焦点页面内文字总量的分析,具体为:
S41:针对于焦点页面语言的识别方案进行分析,获取书本的主题语言;
S42:使用所述处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽;
S43:与焦点页面语言的识别中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量,进一步计算出页面内的文字总数量。
当存在某页面不能全部出现在摄像头视界的情况时,将暂停该页面的总量分析。并根据前后页面的一些计算提供估算值。为阅读速度功能提供数据。
在步骤S5中,实现阅读速度的分析,具体为:
S51:通过翻页行为识别到两次翻页事件,计算出两次翻页事件之间的时间间隔;
S52:通过焦点页面内文字总量的分析获得页面内的文字总量;
S53:计算出两次翻页事件之间的时间间隔内阅读文字的总数量,进一步计算出单位时间内阅读文字总量,实现阅读速度的分析。
当存在交互动作发生时(比如点按识词功能),可以获取在该交互焦点处的时间,同时通过该位置的行序数和大致行内位置,可以估算出从本页开始到该位置的文字总量,由此可以提供一个新的阅读速度计算数据点。用于提升阅读速度的估算准确率。
第二实施例
如图2所示,本实施例提供了一种现实场景下的阅读综合行为的识别系统,包括:信息载体获取模块1,翻页行为识别模块2,语言识别模块3,文字总量分析模块4,阅读速度分析模块5;
所述信息载体获取模块1,用于通过包括摄像头在内的AI设备获取真实阅读场景下的信息载体图像,并对所述信息载体图像进行深度神经网络学习获得所述信息载体图像的载体类型,当所述载体类型为书本时,进行后续识别操作,否则,终止阅读综合行为的识别;
所述翻页行为识别模块2,用于通过对所述AI设备获取的连续的所述信息载体图像使用页面监控的静态图像深度学习神经网络进行定位和边缘位置检测,使用可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,实现对翻页行为的识别;
所述语言识别模块3,用于针对页面范围内的信息进行随机采样,作为候选焦点语言特征点图片组,对所示候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别,同时输出每一个单字或单词的宽度尺寸;
所述文字总量分析模块4,用于通过处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽,与输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量和页面内的文字总数量,实现焦点页面内文字总量的分析;
所述阅读速度分析模块5,用于获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量,实现阅读速度的分析。
进一步地,如图3所示,所述翻页行为识别模块2,进一步包括:
定位和边缘检测单元21,用于在连续的所述AI设备获取的所述信息载体图像中,通过所述页面监控的静态图像深度学习神经网络对所述信息载体图像进行定位和边缘位置检测,实现书本的尺寸和位置信息的实时更新,其中,所述位置信息包括左右边缘和书中缝线,所述左右边缘包括书本的真实边缘和所述AI设备视界的边缘在内的任意一种形式;
翻页检测单元22,用于在默认翻页行为发生位置为书本的左边缘和右边缘时,使用所述可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,当书本从左边缘改变页面内容时,翻页行为被检测为向上一页翻,当书本从右边缘改变页面内容时,翻页行为被检测为向下一页翻;
翻页确认单元23,用于在所述可以进行时间序列处理的深度学习神经网络工作完成之后,所述页面监控的静态图像深度学习神经网络持续工作,确认页面与翻页动作发生之前产生了明确的区别,确认翻页动作。
进一步地,如图4所示,所述语言识别模块3,进一步包括:
特征点图片组获取单元31,用于对页面范围内的信息进行随机采样,随机采样后的数据作为所述候选焦点语言特征点图片组;
文本图像组获取单元32,用于使用图像文字切割深度学习神经网络对所述候选焦点语言特征点图片组进行逐一切割,获得候选语言文本图像组,同时输出每一个单字或单词的宽度尺寸;
语言候选信息获取单元33,用于使用图像文本识别深度学习神经网络对所述候选语言文本图像组进行分类,获得文本的具体内容,从而获得焦点页面的目标语言候选信息;
语言确定单元34,用于在获得多页面、多点位候选信息之后,进行综合分析以确认书本中所含有的语言的总数量,确定文本中的主题语言和其他占比大的语言种类。
进一步地,如图5所示,所述文字总量分析模块4,进一步包括:
主题语言获取单元41,用于针对于焦点页面语言的识别方案进行分析,获取书本的主题语言;
行信息定位单元42,用于使用所述处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽;
文字数量估算单元43,用于与焦点页面语言的识别中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量,进一步计算出页面内的文字总数量;
进一步地,如图6所示,所述阅读速度分析模块5,进一步包括:
翻页时间间隔计算单元51,用于通过翻页行为识别到两次翻页事件,计算出两次翻页事件之间的时间间隔;
文字总量获取单元52,用于通过焦点页面内文字总量的分析获得页面内的文字总量;
阅读速度计算单元53,用于计算出两次翻页事件之间的时间间隔内阅读文字的总数量,进一步计算出单位时间内阅读文字总量,实现阅读速度的分析。
一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述方法被执行。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,ReadOnly Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。如本说明书实施例所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Net work Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子系统执行时,使得所述电子系统执行实施例一所述的方法。在此不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

Claims (10)

1.一种现实场景下的阅读综合行为的识别方法,其特征在于,包括以下步骤:
S1:通过包括摄像头在内的AI设备获取真实阅读场景下的信息载体图像,并对所述信息载体图像进行深度神经网络学习获得所述信息载体图像的载体类型,当所述载体类型为书本时,跳转到步骤S2,否则,终止阅读综合行为的识别;
S2:通过对所述AI设备获取的连续的所述信息载体图像使用页面监控的静态图像深度学习神经网络进行定位和边缘位置检测,使用可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,实现对翻页行为的识别;
S3:针对页面范围内的信息进行随机采样,作为候选焦点语言特征点图片组,对所述候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别,同时输出每一个单字或单词的宽度尺寸;
S4:通过处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽,与步骤S3中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量和页面内的文字总数量,实现焦点页面内文字总量的分析;
S5:获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量,实现阅读速度的分析。
2.根据权利要求1所述的现实场景下的阅读综合行为的识别方法,其特征在于,在步骤S2中,实现对翻页行为的识别,具体为:
S21:在连续的所述AI设备获取的所述信息载体图像中,通过所述页面监控的静态图像深度学习神经网络对所述信息载体图像进行定位和边缘位置检测,实现书本的尺寸和位置信息的实时更新,其中,所述位置信息包括左右边缘和书中缝线,所述左右边缘包括书本的真实边缘和所述AI设备视界的边缘在内的任意一种形式;
S22:默认翻页行为发生位置为书本的左边缘和右边缘,使用所述可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,当书本从左边缘改变页面内容时,翻页行为被检测为向上一页翻,当书本从右边缘改变页面内容时,翻页行为被检测为向下一页翻;
S23:在所述可以进行时间序列处理的深度学习神经网络工作完成之后,所述页面监控的静态图像深度学习神经网络持续工作,确认页面与翻页动作发生之前产生了明确的区别,确认翻页动作。
3.根据权利要求1所述的现实场景下的阅读综合行为的识别方法,其特征在于,在步骤S3中,实现对焦点页面语言的识别,具体为:
S31:对页面范围内的信息进行随机采样,随机采样后的数据作为所述候选焦点语言特征点图片组;
S32:使用图像文字切割深度学习神经网络对所述候选焦点语言特征点图片组进行逐一切割,获得候选语言文本图像组,同时输出每一个单字或单词的宽度尺寸;
S33:使用图像文本识别深度学习神经网络对所述候选语言文本图像组进行分类,获得文本的具体内容,从而获得焦点页面的目标语言候选信息;
S34:在获得多页面、多点位候选信息之后,进行综合分析以确认书本中所含有的语言的总数量,确定文本中的主题语言和其他占比大的语言种类。
4.根据权利要求1所述的现实场景下的阅读综合行为的识别方法,其特征在于,在步骤S4中,实现焦点页面内文字总量的分析,具体为:
S41:针对于焦点页面语言的识别方案进行分析,获取书本的主题语言;
S42:使用所述处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽;
S43:与焦点页面语言的识别中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量,进一步计算出页面内的文字总数量。
5.根据权利要求1所述的现实场景下的阅读中和行为的识别方法,其特征在于,在步骤S5中,实现阅读速度的分析,具体为:
S51:通过翻页行为识别到两次翻页事件,计算出两次翻页事件之间的时间间隔;
S52:通过焦点页面内文字总量的分析获得页面内的文字总量;
S53:计算出两次翻页事件之间的时间间隔内阅读文字的总数量,进一步计算出单位时间内阅读文字总量,实现阅读速度的分析。
6.一种现实场景下的阅读综合行为的识别系统,其特征在于,包括:信息载体获取模块,翻页行为识别模块,语言识别模块,文字总量分析模块,阅读速度分析模块;
所述信息载体获取模块,用于通过包括摄像头在内的AI设备获取真实阅读场景下的信息载体图像,并对所述信息载体图像进行深度神经网络学习获得所述信息载体图像的载体类型,当所述载体类型为书本时,进行后续识别操作,否则,终止阅读综合行为的识别;
所述翻页行为识别模块,用于通过对所述AI设备获取的连续的所述信息载体图像使用页面监控的静态图像深度学习神经网络进行定位和边缘位置检测,使用可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,实现对翻页行为的识别;
所述语言识别模块,用于针对页面范围内的信息进行随机采样,作为候选焦点语言特征点图片组,对所示候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别,同时输出每一个单字或单词的宽度尺寸;
所述文字总量分析模块,用于通过处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽,与输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量和页面内的文字总数量,实现焦点页面内文字总量的分析;
所述阅读速度分析模块,用于获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量,实现阅读速度的分析。
7.根据权利要求6所述的现实场景下的阅读综合行为的识别系统,其特征在于,所述翻页行为识别模块,进一步包括:
定位和边缘检测单元,用于在连续的所述AI设备获取的所述信息载体图像中,通过所述页面监控的静态图像深度学习神经网络对所述信息载体图像进行定位和边缘位置检测,实现书本的尺寸和位置信息的实时更新,其中,所述位置信息包括左右边缘和书中缝线,所述左右边缘包括书本的真实边缘和所述AI设备视界的边缘在内的任意一种形式;
翻页检测单元,用于在默认翻页行为发生位置为书本的左边缘和右边缘时,使用所述可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,当书本从左边缘改变页面内容时,翻页行为被检测为向上一页翻,当书本从右边缘改变页面内容时,翻页行为被检测为向下一页翻;
翻页确认单元,用于在所述可以进行时间序列处理的深度学习神经网络工作完成之后,所述页面监控的静态图像深度学习神经网络持续工作,确认页面与翻页动作发生之前产生了明确的区别,确认翻页动作。
8.根据权利要求6所述的现实场景下的阅读综合行为的识别系统,其特征在于,所述语言识别模块,进一步包括:
特征点图片组获取单元,用于对页面范围内的信息进行随机采样,随机采样后的数据作为所述候选焦点语言特征点图片组;
文本图像组获取单元,用于使用图像文字切割深度学习神经网络对所述候选焦点语言特征点图片组进行逐一切割,获得候选语言文本图像组,同时输出每一个单字或单词的宽度尺寸;
语言候选信息获取单元,用于使用图像文本识别深度学习神经网络对所述候选语言文本图像组进行分类,获得文本的具体内容,从而获得焦点页面的目标语言候选信息;
语言确定单元,用于在获得多页面、多点位候选信息之后,进行综合分析以确认书本中所含有的语言的总数量,确定文本中的主题语言和其他占比大的语言种类。
9.根据权利要求6所述的现实场景下的阅读综合行为的识别系统,其特征在于,所述文字总量分析模块,进一步包括:
主题语言获取单元,用于针对于焦点页面语言的识别方案进行分析,获取书本的主题语言;
行信息定位单元,用于使用所述处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽;
文字数量估算单元,用于与焦点页面语言的识别中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量,进一步计算出页面内的文字总数量;
所述阅读速度分析模块,进一步包括:
翻页时间间隔计算单元,用于通过翻页行为识别到两次翻页事件,计算出两次翻页事件之间的时间间隔;
文字总量获取单元,用于通过焦点页面内文字总量的分析获得页面内的文字总量;
阅读速度计算单元,用于计算出两次翻页事件之间的时间间隔内阅读文字的总数量,进一步计算出单位时间内阅读文字总量,实现阅读速度的分析。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如权利要求1至5中任一项所述的方法被执行。
CN202010499715.1A 2020-06-04 2020-06-04 一种现实场景下的阅读综合行为的识别方法及系统 Active CN111860122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010499715.1A CN111860122B (zh) 2020-06-04 2020-06-04 一种现实场景下的阅读综合行为的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010499715.1A CN111860122B (zh) 2020-06-04 2020-06-04 一种现实场景下的阅读综合行为的识别方法及系统

Publications (2)

Publication Number Publication Date
CN111860122A true CN111860122A (zh) 2020-10-30
CN111860122B CN111860122B (zh) 2023-10-13

Family

ID=72985486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010499715.1A Active CN111860122B (zh) 2020-06-04 2020-06-04 一种现实场景下的阅读综合行为的识别方法及系统

Country Status (1)

Country Link
CN (1) CN111860122B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328885A (zh) * 2020-11-10 2021-02-05 福州米鱼信息科技有限公司 一种基于阅读终端的购书方法及系统
CN113360356A (zh) * 2021-06-01 2021-09-07 掌阅科技股份有限公司 阅读作弊行为的识别方法、计算设备及计算机存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102369724A (zh) * 2009-02-18 2012-03-07 谷歌公司 自动捕获信息,例如使用文档感知设备捕获信息
JP2014120962A (ja) * 2012-12-18 2014-06-30 Casio Comput Co Ltd 情報読取装置及びプログラム
CN105204738A (zh) * 2015-09-18 2015-12-30 北京奇虎科技有限公司 电子书阅读量确定、排名方法及终端设备和服务器
US20160026253A1 (en) * 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US20170083511A1 (en) * 2015-09-23 2017-03-23 Google Inc. Automatic Translation of Digital Graphic Novels
US10086636B1 (en) * 2014-09-23 2018-10-02 Amazon Technologies, Inc. Synchronizing hybrid print media with electronic devices
CN109977408A (zh) * 2019-03-27 2019-07-05 西安电子科技大学 基于深度学习的英语阅读分级和读物推荐系统的实现方法
CN110287925A (zh) * 2019-06-29 2019-09-27 Oppo广东移动通信有限公司 阅读翻页控制方法及相关产品
CN110443224A (zh) * 2019-08-14 2019-11-12 广东小天才科技有限公司 翻页检测方法、装置、电子设备及存储介质
CN110909196A (zh) * 2019-10-28 2020-03-24 北京光年无限科技有限公司 识别绘本阅读过程中内页封面切换的处理方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102369724A (zh) * 2009-02-18 2012-03-07 谷歌公司 自动捕获信息,例如使用文档感知设备捕获信息
JP2014120962A (ja) * 2012-12-18 2014-06-30 Casio Comput Co Ltd 情報読取装置及びプログラム
US20160026253A1 (en) * 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US10086636B1 (en) * 2014-09-23 2018-10-02 Amazon Technologies, Inc. Synchronizing hybrid print media with electronic devices
CN105204738A (zh) * 2015-09-18 2015-12-30 北京奇虎科技有限公司 电子书阅读量确定、排名方法及终端设备和服务器
US20170083511A1 (en) * 2015-09-23 2017-03-23 Google Inc. Automatic Translation of Digital Graphic Novels
CN109977408A (zh) * 2019-03-27 2019-07-05 西安电子科技大学 基于深度学习的英语阅读分级和读物推荐系统的实现方法
CN110287925A (zh) * 2019-06-29 2019-09-27 Oppo广东移动通信有限公司 阅读翻页控制方法及相关产品
CN110443224A (zh) * 2019-08-14 2019-11-12 广东小天才科技有限公司 翻页检测方法、装置、电子设备及存储介质
CN110909196A (zh) * 2019-10-28 2020-03-24 北京光年无限科技有限公司 识别绘本阅读过程中内页封面切换的处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG X等: "Smart library: identifying books on library shelves using supervised deep learning for scene text reading", 《2017 ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES (JCDL)》, pages 1 - 4 *
张伟业等: "读书机器人的版面分析及文字图像预处理算法", 《微型电脑应用》, vol. 27, no. 1, pages 58 - 61 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328885A (zh) * 2020-11-10 2021-02-05 福州米鱼信息科技有限公司 一种基于阅读终端的购书方法及系统
CN113360356A (zh) * 2021-06-01 2021-09-07 掌阅科技股份有限公司 阅读作弊行为的识别方法、计算设备及计算机存储介质
CN113360356B (zh) * 2021-06-01 2022-03-11 掌阅科技股份有限公司 阅读作弊行为的识别方法、计算设备及计算机存储介质

Also Published As

Publication number Publication date
CN111860122B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN110175609B (zh) 界面元素检测方法、装置及设备
CN111797820B (zh) 一种视频数据处理方法、装置、电子设备及存储介质
CN110460838B (zh) 一种镜头切换的检测方法、装置及计算机设备
CN111191067A (zh) 绘本识别方法、终端设备及计算机可读存储介质
CN111860121A (zh) 一种基于ai视觉下的阅读能力辅助评估方法及系统
CN111860122B (zh) 一种现实场景下的阅读综合行为的识别方法及系统
CN113221718B (zh) 公式识别方法、装置、存储介质和电子设备
CN114220057A (zh) 视频片尾识别方法、装置、电子设备及可读存储介质
CN110728193B (zh) 一种脸部图像丰富度特征的检测方法及设备
CN114546939A (zh) 会议纪要生成方法、装置、电子设备和可读存储介质
CN110795918B (zh) 确定阅读位置的方法、装置及设备
CN110909655A (zh) 一种识别视频事件的方法及设备
CN112749694B (zh) 用于识别图像方向、识别铭牌文字的方法及装置
CN110019951B (zh) 一种生成视频缩略图的方法及设备
CN111079777B (zh) 一种基于书页定位的点读方法及电子设备
CN116958951A (zh) 文本追踪模型训练方法、文本追踪方法、装置及电子设备
CN111008295A (zh) 书页检索方法、装置、电子设备和存储介质
US20220122341A1 (en) Target detection method and apparatus, electronic device, and computer storage medium
CN115438223A (zh) 视频处理方法、装置、电子设备及存储介质
US11948391B2 (en) Model training method and apparatus, electronic device and readable storage medium
CN111611986B (zh) 一种基于手指交互的焦点文本提取和识别方法及系统
CN112784106B (zh) 内容数据的处理方法、报告数据的处理方法、计算机设备、存储介质
CN111291756B (zh) 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质
CN111078067A (zh) 一种信息定位方法及电子设备
CN115294506B (zh) 一种视频高光检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant