CN110766996A - 一种点读内容定位方法、装置、电子设备及存储介质 - Google Patents
一种点读内容定位方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110766996A CN110766996A CN201910971053.0A CN201910971053A CN110766996A CN 110766996 A CN110766996 A CN 110766996A CN 201910971053 A CN201910971053 A CN 201910971053A CN 110766996 A CN110766996 A CN 110766996A
- Authority
- CN
- China
- Prior art keywords
- content
- delineation
- positioning
- intersecting
- read
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
Abstract
本申请实施例公开了一种点读内容定位方法、装置、电子设备及存储介质。所述方法包括:在书本页内容点读时,获取点读图片,通过坐标转换得到对应书本页原图的定位点;确定所述书本页原图预先设置的各个内容勾勒框,所述内容勾勒框用于勾勒并定位所述书本页原图的各段文本内容;确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框;基于所述定位点计算各个所述相交勾勒框的匹配度,根据匹配度计算结果定位当前点读操作所点读的内容。采用上述技术手段,可以避免由于坐标转换导致点读内容定位误差乃至定位失败的问题,使点读内容定位更精确。
Description
技术领域
本申请实施例涉及点读技术领域,尤其涉及一种点读内容定位方法、装置、电子设备及存储介质。
背景技术
传统的点读技术在进行内容点读时,大都是通过预先对屏幕内容设置多个内容勾勒框,之后通过点击设备屏幕,由设备判断点击坐标是否在预先设置的内容勾勒框里面,若点击坐标在相应的内容勾勒框,则点读内容定位为该内容勾勒框中的内容,以此来实现屏幕点读内容的定位。而随着AI在线点读技术的形成,实现了对书本内容的定位点读。在进行书本点读内容定位时,用户手指指向对应书本内容,通过抓拍用户手指点读图片,识别手指点读图片上点击区域的坐标,通过手指点读图片坐标转换获取手指点击处对应书本原图坐标点,以此来定位书本内容。
但是,现有的书本内容定位方式,在将手指点读图片进行坐标转换时,由于坐标转换误差,其得到的书本页原图坐标点存在一定偏差,会进一步导致点读内容定位误差乃至定位失败的问题。
发明内容
本申请实施例提供一种点读内容定位方法、装置、电子设备及存储介质,能够解决现有点读内容定位误差的问题,使点读内容定位更精确。
在第一方面,本申请实施例提供了一种点读内容定位方法,包括:
在书本页内容点读时,获取点读图片,通过坐标转换得到对应书本页原图的定位点;
确定所述书本页原图预先设置的各个内容勾勒框,所述内容勾勒框用于勾勒并定位所述书本页原图的各段文本内容;
确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框;
基于所述定位点计算各个所述相交勾勒框的匹配度,根据匹配度计算结果定位当前点读操作所点读的内容。
进一步的,所述确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框,包括:
放大所述定位点,确定与放大后的所述定位点相交的多个所述内容勾勒框,作为相交勾勒框。
进一步的,所述确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框,包括:
放大各个所述内容勾勒框的覆盖范围,确定与所述定位点相交的多个放大后的所述内容勾勒框,作为相交勾勒框。
进一步的,所述基于所述定位点计算各个所述相交勾勒框的匹配度包括:
提取所述点读图片中与所述定位点对应的点击坐标;
通过OCR识别所述点击坐标的关联位置文本内容;
将所述关联位置文本内容与各个所述相交勾勒框中的文本内容进行比对,得到对应的匹配度。
进一步的,所述关联位置文本内容包括关联位置处的字词及行文本内容;
对应的,所述将所述关联位置文本内容与各个所述相交勾勒框中的文本内容进行比对,得到对应的匹配度,包括:
将所述关联位置处的字词及行文本内容分别与各个所述相交勾勒框中的文本内容进行比对,得到对应的手指字词匹配率及行文本匹配率,对所述手指字词匹配率及所述行文本匹配率进行求和计算,得到对应各个所述相交勾勒框的匹配度。
进一步的,所述计算各个所述相交勾勒框与所述定位点的匹配度包括:
对所述相交勾勒框在X轴和Y轴上分别进行各个区域的权值分配;
确定所述定位点落入各个所述相交勾勒框的定位区域,得到各个所述相交勾勒框对应的定位区域的权值信息;
根据所述权值信息计算各个所述相交勾勒框的匹配度。
进一步的,所述权值信息包括所述定位区域的X轴权值和Y轴权值;
所述根据所述权值信息计算各个所述相交勾勒框的匹配度,包括:
对所述X轴权值和所述Y轴权值进行求和计算,得到各个所述相交勾勒框的匹配度。
进一步的,在对所述相交勾勒框在X轴和Y轴上分别进行各个区域的权值分配中,所述相交勾勒框包括原勾勒区域及外接所述原勾勒区域四边的勾勒放大区域,所述原勾勒区域在X轴和Y轴上分配的权值大于所述勾勒放大区域在X轴和Y轴上分配的权值。
进一步的,在确定所述书本页原图预先设置的各个内容勾勒框之前,还包括:
对各个所述内容勾勒框进行规则处理,得到外切为矩形的所述内容勾勒框。
进一步的,所述书本页原图的各段文本内容配置有对应的视频和/或音频内容;
对应的,在根据匹配度计算结果定位当前点读操作所点读的内容之后,还包括:
根据当前点读操作所点读的内容确定对应的视频和/或音频内容,提取所述视频和/或音频内容进行播放。
在第二方面,本申请实施例提供了一种点读内容定位装置,包括:
转换模块,用于在书本页内容点读时,获取点读图片,通过坐标转换得到对应书本页原图的定位点;
勾勒模块,用于确定所述书本页原图预先设置的各个内容勾勒框,所述内容勾勒框用于勾勒并定位所述书本页原图的各段文本内容;
调整模块,用于确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框;
匹配模块,用于基于所述定位点计算各个所述相交勾勒框的匹配度,根据匹配度计算结果定位当前点读操作所点读的内容。
具体的,所述调整模块包括:
第一放大单元,用于放大所述定位点,确定与放大后的所述定位点相交的多个所述内容勾勒框,作为相交勾勒框。
所述调整模块还包括:
第二放大单元,用于放大各个所述内容勾勒框,确定与所述定位点相交的多个放大后的所述内容勾勒框,作为相交勾勒框;
具体的,所述匹配模块包括:
提取单元,用于提取所述点读图片中与所述定位点对应的点击坐标;
识别单元,用于通过OCR识别所述点击坐标的关联位置文本内容;
比对单元,用于将所述关联位置文本内容与各个所述相交勾勒框中的文本内容进行比对,得到对应的匹配度。
具体的,所述匹配模块还包括:
分配单元,用于对所述相交勾勒框在X轴和Y轴上分别进行各个区域的权值分配;
确定单元,用于确定所述定位点落入各个所述相交勾勒框的定位区域,得到各个所述相交勾勒框对应的定位区域的权值信息;
匹配单元,用于根据所述权值信息计算各个所述相交勾勒框的匹配度。
在第三方面,本申请实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的点读内容定位方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的点读内容定位方法。
本申请实施例通过将用户点读位置转换为对应书本页原图的定位点,并对书本页原图预先设置内容勾勒框,通过确定与定位点相交的多个内容勾勒框,作为相交勾勒框,并对相交勾勒框进行匹配度计算,根据匹配度计算结果定位当前点读操作所点读的内容。采用上述技术手段,可以避免由于坐标转换导致点读内容定位误差乃至定位失败的问题,使点读内容定位更精确,进而优化用户的书本点读体验。
并且,本申请实施例使用内容勾勒框进行点读内容的定位,可以确保点读内容定位的完整性,避免定位结果得到的文本内容不完整,更进一步优化用户的使用体验。
附图说明
图1是本申请实施例一提供的一种点读内容定位方法的流程图;
图2是本申请实施例一提供的一种匹配度计算流程图;
图3是本申请实施例一中的点击坐标示意图;
图4是本申请实施例一中的内容勾勒框示意图;
图5是本申请实施例一提供的另一种匹配度计算流程图;
图6是本申请实施例一中的一种内容勾勒框规则处理示意图;
图7是本申请实施例一中的另一种内容勾勒框规则处理示意图;
图8是本申请实施例一中的内容勾勒框放大示意图;
图9是本申请实施例一中的内容勾勒框权值分配示意图;
图10是本申请实施例二提供的一种点读内容定位装置的结构示意图;
图11是本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请提供的点读内容定位方法,旨在通过以确定与定位点相交的多个内容勾勒框,作为相交勾勒框。进一步根据各个相交勾勒框进行匹配度计算,以匹配度计算结果作为点读内容的定位依据,取匹配度最高的相交勾勒框进行文本内容的提取,以提取到的文本内容作为用户所要点读的内容,以此来实现书本页内容的点读。相对于现有的点读技术,其在进行点读内容点位时,一般通过获取用户点读操作图像,识别用户在图像上的点击坐标,将点击坐标转换为书本页原图上的定位点,以这一定位点上的文本内容作为用户所要点读的内容。但由于在进行坐标转换得到定位点时,图像识别及坐标转换无法保障足够高的转换精度。因此,通过坐标转换得到的在书本页原图上的定位点,实际上与用户实际点读的位置存在一定的偏差,使得这一定位点实际上覆盖了多个文本内容。而这一偏差很容易导致较大的定位误差,进而影响点读效果。基于此,提供本申请实施例的点读内容定位方法,以解决现有点读内容定位误差的问题。
实施例一:
图1给出了本申请实施例一提供的一种点读内容定位方法的流程图,本实施例中提供的点读内容定位方法可以由点读内容定位设备执行,该点读内容定位设备可以通过软件和/或硬件的方式实现,该点读内容定位设备需具备摄像头,以实时对用户点读书本页内容的操作进行拍摄。该点读内容定位设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,该点读内容定位设备可以是具备点读功能的学习机,电脑,平板等点读设备。
下述以该点读内容定位设备为执行点读内容定位方法的主体为例,进行描述。参照图1,该点读内容定位方法具体包括:
S110、在书本页内容点读时,获取点读图片,通过坐标转换得到对应书本页原图的定位点。
示例性的,在用户进行书本内容点读学习场景中,通过点读内容定位设备进行书本内容的点读学习。点读内容定位设备配置有摄像头,摄像头用于获取用户的点读图片,通过对图片进行识别处理,以获取点读图片上对应用户所点读位置的点击坐标。摄像头可设置于书本的上方,实时获取对应书本内容的图像。当用户手指指向某一书本页的某一位置时,对应用户这一点读操作进行点读图片的获取。即获取到的点读图片中,包含了用户手指指向的位置信息,以这一位置信息作为点击坐标。
进一步的,由于点读内容定位设备会预先对书本上各书本页的文本内容进行收录,在收录文本内容时,将各个文本内容与书本页原图上对应位置点进行关联,以便于后续通过确定的位置点来找到用户所点读的内容。因此,对应点读图片上的点击坐标,需通过坐标转换将点读图片上的点击坐标转换为书本页原图上对应指向区域的定位点。在进行坐标转换时,可采用设置参考点的方式进行坐标转换。坐标转换的实施方式有很多,本申请实施例不做固定限定,这里不多赘述。
需要说明的是,此处通过坐标转换得到的定位点,为书本页原图对应手指指向的一个区域,则这一区域上的文本内容,即为用户所点读的内容。
S120、确定所述书本页原图预先设置的各个内容勾勒框,所述内容勾勒框用于勾勒并定位所述书本页原图的各段文本内容。
具体的,对应书本页原图上的文本内容,为了便于后续点读内容点位,本申请实施例预先对书本页原图上的各段文本内容进行勾勒,得到多个内容勾勒框,将内容勾勒框上对应的文本内容与内容勾勒框的位置信息一并存储。便于后续根据定位点确定内容勾勒框。可以理解的是,当上述步骤S110确定的定位点落入某一内容勾勒框时,则表示当前用户所点读的文本内容可能是该内容勾勒框中的文本内容。
S130、确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框。
具体的,由于定位点转换的偏差,使得定位点在书本页原图对应的区域无法准确的指向某一确切的文内内容。即定位点对应的区域可能落入了多个文本内容,考虑到定位点的转换偏差,无法直接根据定位点来确定用户所点读的文本内容。因此,通过确定当前与定位点覆盖范围存在交集的多个内容勾勒框,以这些内容勾勒框作为相交勾勒框,则这些勾勒框中的文本内容,都有可能作为用户所点读的文本内容。
进一步的,由于定位点转换的偏差或定位点在书本页原图上没有落入某一内容勾勒框,为了确保定位点对应的区域能够落入书本页原图上的内容勾勒框,并消除坐标转换导致的定位偏差,本申请实施例通过调整定位点或各个内容勾勒框在书本页原图的覆盖范围来使定位点与更多个内容勾勒框形成交集。可以理解的是,通过调整后对应与定位点形成交集的相交勾勒框,认为这些相交勾勒框中的文本内容,均可能是用户所点读的文本内容。通过调整定位点或各个内容勾勒框在书本页原图的覆盖范围,相对于基于原定位点覆盖范围确定的内容勾勒框,可以得到更多的相交勾勒框,后续通过对各个相交勾勒框的匹配度计算,可以避免原定位点覆盖范围没有落入某一内容勾勒框的情况,并且避免的定位点转换的偏差,尽量将可能作为用户所点读内容对应的相交勾勒框确定下来。
更具体的,在调整定位点在书本页原图的覆盖范围来使定位点与更多个内容勾勒框形成交集时,通过放大定位点的覆盖范围,确定与放大后的定位点相交的多个内容勾勒框,作为相交勾勒框。通过扩大定位点的覆盖范围,使得在书本页原图上的实际位置被这一覆盖范围包括,以此来进一步进行匹配度计算,可以避免直接通过存在坐标转换误差的定位点来定位点读内容所造成的误差,并进一步解决定位点没有落入内容勾勒框,导致无法确定点读内容的问题。
同样的,在调整各个内容勾勒框在书本页原图的覆盖范围来使定位点与更多个内容勾勒框形成交集时,可以通过放大书本页原图的各个内容勾勒框覆盖范围,确定与定位点相交的多个放大后的内容勾勒框,作为相交勾勒框。同样的,通过放大内容勾勒框覆盖范围,使得在书本页原图上的实际位置被这一覆盖范围包括,以此来进一步进行匹配度计算,可以避免直接通过存在坐标转换误差的定位点来定位点读内容所造成的误差,并进一步解决定位点没有落入内容勾勒框,导致无法确定点读内容的问题。
对于上述原定位点相交的内容勾勒框所确定的相交勾勒框,或者通过调整定位点或各个内容勾勒框在书本页原图的覆盖范围来确定的相交勾勒框,表明这些相交勾勒框具备作为用户所点读文本内容的可能性,即可进一步基于这些相交勾勒框确定作为用户所点读内容所对应的一个相交勾勒框。
S140、基于所述定位点计算各个所述相交勾勒框的匹配度,根据匹配度计算结果定位当前点读操作所点读的内容。
由于各相交勾勒框上的文本内容,均具备作为用户所点读文本内容的可能性,因此需要分别对各个相交勾勒框的这一可能性进行逐一确认,以确定哪一个相交勾勒框中的文本内容作为用户对当前书本页内容的点读操作所点读的内容。基于上述步骤S110确定的定位点,进行各个相交勾勒框的匹配度计算,对应匹配度计算结果。最终以匹配度高的相交勾勒框中的文本内容作为用户所点读的内容。
进一步的,在进行相交勾勒框的匹配度计算时,参照图2,匹配度的计算流程包括:
S1401、提取所述点读图片中与所述定位点对应的点击坐标;
S1402、通过OCR识别所述点击坐标的关联位置文本内容;
S1403、将所述关联位置文本内容与各个所述相交勾勒框中的文本内容进行比对,得到对应的匹配度。
在进行匹配度计算时,通过确定点读图片上与定位点对应的点击坐标,即定位点根据该点击坐标进行坐标转换得到。通过点击坐标确定与点击坐标相近的关联位置,进行关联文本内容的获取。进一步通过OCR识别关联文本内容,并将识别结果与各个相交勾勒框进行比对,得到两者的匹配度。根据点读习惯,通常用户会点击文本内容偏下方的区域,以进行该文本内容的点读操作。因此,本申请实施例定义关联位置为最靠近点击坐标上方的文字或行文本位置。可以理解的是,关联位置处的文字或行文本与用户所点读的内容高度相关。因此,本申请实施例通过OCR识别关联位置文本内容,与各个相交勾勒框进行比对,得到相应的匹配度。
具体的,参照图3,提供点击坐标示意图。则图中点击坐标上方的文字或行文本位置即为关联位置。关联位置文本内容包括关联位置处的字词和行文本。其中,“Festival”为点击坐标关联位置处的字词,“Tomorrow is Mid-Autumn Festival.My family are goingto get”为点击坐标关联位置处的行文本内容。则以此关联位置文本内容与相交勾勒框进行比对。
参照图4,提供内容勾勒框示意图,图4中,黑底内容勾勒框即为相交勾勒框,白底内容勾勒框则非相交勾勒框。进一步的,提取图4中各个相交勾勒框的文本内容,将关联位置处的字词“Festival”以及行文本内容“Tomorrow is Mid-Autumn Festival.My familyare going to get”分别与各个相交勾勒框中的文本内容进行比对,得到对应的手指字词匹配率及行文本匹配率。其中,通过关联位置处的字词“Festival”与各个相交勾勒框比对,计算得到手指字词匹配率。参照图4,则相交勾勒框“Tomorrow is Mid-Autumn Festival”的手指字词匹配率最高。对应的,通过关联位置处的行文本内容“Tomorrow is Mid-AutumnFestival.My family are going to get”与各个相交勾勒框比对,计算行文本匹配率。则同样的,相交勾勒框“Tomorrow is Mid-Autumn Festival”的行文本匹配率最高。最终,将各个相交勾勒框计算得到的手指字词匹配率及行文本匹配率进行求和,得到对应各个相交勾勒框的匹配度。显然,根据上述结果,则相交勾勒框“Tomorrow is Mid-AutumnFestival”的匹配度最高。最终确定用户所点读的内容为“Tomorrow is Mid-AutumnFestival”,点读内容定位设备通过提取这一内容执行点读操作,完成此次用户的书本内容点读。
进一步的,考虑到存在多个相交勾勒框的文本内容存在部分相同的情况,会导致最终计算得到的多个相交勾勒框的匹配度相同的可能。因此,本申请实施例在多个相交勾勒框匹配度相同的时候,根据各个相交勾勒框距离定位点的位置,确定与定位点距离最近的相交勾勒框,取该相交勾勒框中的文本内容进行点读操作。例如,当多个相交勾勒框的内容均包含有“Tomorrow is Mid-Autumn Festival”时,则这些相交勾勒框计算得到的匹配度可能相同。此时根据相交勾勒框的分布情况,确定最靠近定位点的相交勾勒框,对该勾勒框的内容进行提取,执行点读操作,完成此次用户的书本内容点读。
具体的,上述在进行两个文本匹配率计算时,本申请实施例采用余弦相似度算法或最长公共子序列(LCS)算法进行文本间的匹配率计算,即文本相似度计算。其中,使用余弦相似度算法进行文本相似度计算时,将这些文本中的词语映射到向量空间中,形成文本中文字和向量数据的映射关系,通过计算几个不同向量的差异的大小,来计算文本的相似度。对应两个进行比较的文本,可采用分词的方式得到两个文本中的所有的词,在分词后计算两个文本中各个词出现的词频。例如A文本包括“abcd”四个词,B文本包括“abde”四个词,则两个文本的所有词为“a、b、c、d、e”,进一步计算A文本的词频为“a-1、b-1、c-1、d-1、e-0”,B文本的词频为“a-1、b-1、c-0、d-1、e-1”,进而得到两个文本对应词频的向量A[1,1,1,1,0]和向量B[1,1,0,1,1],即可进一步通过计算两个向量的夹角余弦值来评估他们的相似度。通过余弦值来表征这两个向量的相似性,夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。而在使用最长公共子序列(LCS)算法进行文本间的匹配率计算时,则将两个文本分别以行和列组成矩阵,计算每个节点行列字符是否相同,如相同则为1,通过找出值为1的最长对角线即可得到最长公共子串。进一步根据最长公共子串即可确定相似度最高的文本。文本相似度比对的方式还有很多,本申请实施例不做固定限制。
另一方面,进行相交勾勒框的匹配度计算时,还可以参照图5,匹配度的计算流程包括:
S1404、对所述相交勾勒框在X轴和Y轴上分别进行各个区域的权值分配;
S1405、确定所述定位点落入各个所述相交勾勒框的定位区域,得到各个所述相交勾勒框对应的定位区域的权值信息;
S1406、根据所述权值信息计算各个所述相交勾勒框的匹配度。
在进行匹配度计算时,通过对各个相交勾勒框上的各个区域对应X轴和Y轴进行权值分配,并以此计算定位点落入各个相交勾勒框定位区域的权值信息。并基于权值信息来确定各个相交勾勒框的匹配度。
需要说明的是,由于内容勾勒框可能并不是规则的矩形,需要对内容勾勒框进行规则处理。以便于上述步骤S1401-S1403中进行相交勾勒框匹配度的计算,同理便于步骤S1404-S1406进行权值分配。基于此,参照图6-图7,在对各个内容勾勒框进行规则处理时,通过外切处理得到外切为矩形的内容勾勒框。通过外切矩形的方式,使得内容勾勒框的定位更为确切,避免由于内容勾勒框不规则而导致内容勾勒框定位不精确的问题。具体的,对应处理为外切矩形的内容勾勒框,在放大所述内容勾勒框时,将各个内容勾勒框对应矩形的四边进行像素放大。得到如图8所示的内容勾勒框。
后续在进行相交勾勒框的权值分配时,参照图9,以放大后的相交勾勒框为例,根据X轴和Y轴对不同区域进行权值分配。由于此前内容勾勒框进行了放大,即相交勾勒框包括原勾勒区域及外接原勾勒区域四边的勾勒放大区域。图9中,黑底部分的原勾勒区域在Y轴上的权值分配从上至下分别为“90、90、100、100”,在Y轴上的权值从左至右分别为“7、8、8、9”。各区域的权值根据点读习惯配置,由于用户点读位置通常在文本右下方,因此,相交勾勒框的右边和下方的权值设置为相对较高的值。并且,原勾勒区域在X轴和Y轴上分配的权值均大于勾勒放大区域在X轴和Y轴上分配的权值。最终,根据上述权值配置,对各个相交勾勒框均进行定位区域的权值信息计算。定位区域落入图9相交勾勒框中的哪一个小方框,则参照权值分配情况确定该小方框的权值信息,作为定位区域的权值信息。
同理,对应没有进行放大的相交勾勒框,则直接基于原勾勒区域根据X轴和Y轴对不同区域进行权值分配,权值分配可参照上述原勾勒区域权值分配方式,也可以根据实际需要采用更细化的权值分配方式。同样的,根据权值配置,最终定位区域落入原勾勒区域的哪一个小方框,则参照权值分配情况确定该小方框的权值信息,作为定位区域的权值信息。
确定权值信息后,对定位区域的X轴权值和Y轴权值进行求和计算,得到各个相交勾勒框的匹配度。可以理解的是,权值求和结果越高,则证明该定位区域对应的相交勾勒框的匹配度越高,最终确定匹配度最高的相交勾勒框,确定该相交勾勒框所对应的勾勒,提取勾勒包含的文本内容,执行点读操作,完成此次用户的书本内容点读。
进一具体的,在书本页原图的各段文本内容配置有对应的视频和/或音频内容。最终,在根据匹配度计算结果定位当前点读操作所点读的内容之后。根据书本页原图上定位到的文本内容,根据配置关系确定对应的视频和/或音频内容,提取所述视频和/或音频内容进行播放,以此即可实现对应的点读播放功能。
需要说明的是,求和计算后的权值结果,可以直接作为匹配度信息进行比较,确定匹配度最高的相交勾勒框,也可以进一步通过归一化权值信息,得到用百分比表示的匹配度信息,以便于更直观地比对各相交勾勒框的文本内容作为用户所点读内容的可能性比对。
实际使用中,用户在纸质书本上进行点读操作,通过点读学习机(点读内容定位设备)拍摄带有用户点读操作的点读图片,在点读学习机上对拍摄到的点读图片进行处理,通过坐标转换得到点读学习机上的电子书所对应书本页原图的定位点,在电子书上采用上述调整定位点或各个内容勾勒框在电子书对应页面的覆盖范围的方式,确定相交勾勒框,并进一步在电子书上确定用户所点读的内容。点读学习机存储的电子书,即为用户当前操作的纸质书本所对应的电子书。可以理解的是,当用户点读纸质书本的某一页面时,在电子书确定用户所点读内容的对应页面,即为对应点读图片的书本页原图。
上述,通过将用户点读位置转换为对应书本页原图的定位点,并对书本页原图预先设置内容勾勒框,通过确定与定位点相交的多个内容勾勒框,作为相交勾勒框,并对相交勾勒框进行匹配度计算,根据匹配度计算结果定位当前点读操作所点读的内容。采用上述技术手段,可以避免由于坐标转换导致点读内容定位误差乃至定位失败的问题,使点读内容定位更精确,进而优化用户的书本点读体验。
通过调整定位点或各个内容勾勒框在书本页原图的覆盖范围,可以进一步避免坐标转换导致点读内容定位误差以及定位点没有覆盖相关文本内容的情况。
并且,本申请实施例使用内容勾勒框进行点读内容的定位,可以确保点读内容定位的完整性,避免定位结果得到的文本内容不完整,更进一步优化用户的使用体验。
实施例二:
在上述实施例的基础上,图10为本申请实施例二提供的一种点读内容定位装置的结构示意图。参考图10,本实施例提供的点读内容定位装置具体包括:转换模块21、勾勒模块22、调整模块23及匹配模块24。
其中,转换模块21用于在书本页内容点读时,获取点读图片,通过坐标转换得到对应书本页原图的定位点;
勾勒模块22用于确定所述书本页原图预先设置的各个内容勾勒框,所述内容勾勒框用于勾勒并定位所述书本页原图的各段文本内容;
调整模块23用于确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框;
匹配模块24用于基于所述定位点计算各个所述相交勾勒框的匹配度,根据匹配度计算结果定位当前点读操作所点读的内容。
上述,通过将用户点读位置转换为对应书本页原图的定位点,并对书本页原图预先设置内容勾勒框,通过确定与定位点相交的多个内容勾勒框,作为相交勾勒框,并对相交勾勒框进行匹配度计算,根据匹配度计算结果定位当前点读操作所点读的内容。采用上述技术手段,可以避免由于坐标转换导致点读内容定位误差乃至定位失败的问题,使点读内容定位更精确,进而优化用户的书本点读体验。
并且,本申请实施例使用内容勾勒框进行点读内容的定位,可以确保点读内容定位的完整性,避免定位结果得到的文本内容不完整,更进一步优化用户的使用体验。
具体的,所述调整模块包括:
第一放大单元,用于放大所述定位点,确定与放大后的所述定位点相交的多个所述内容勾勒框,作为相交勾勒框。
所述调整模块还包括:
第二放大单元,用于放大各个所述内容勾勒框,确定与所述定位点相交的多个放大后的所述内容勾勒框,作为相交勾勒框;
具体的,所述匹配模块包括:
提取单元,用于提取所述点读图片中与所述定位点对应的点击坐标;
识别单元,用于通过OCR识别所述点击坐标的关联位置文本内容;
比对单元,用于将所述关联位置文本内容与各个所述相交勾勒框中的文本内容进行比对,得到对应的匹配度。
具体的,所述匹配模块还包括:
分配单元,用于对所述相交勾勒框在X轴和Y轴上分别进行各个区域的权值分配;
确定单元,用于确定所述定位点落入各个所述相交勾勒框的定位区域,得到各个所述相交勾勒框对应的定位区域的权值信息;
匹配单元,用于根据所述权值信息计算各个所述相交勾勒框的匹配度。
本申请实施例二提供的点读内容定位装置可以用于执行上述实施例一提供的点读内容定位方法,具备相应的功能和有益效果。
实施例三:
本申请实施例三提供了一种电子设备,参照图11,该电子设备包括:处理器31、存储器32、通信模块33、输入装置34及输出装置35。该电子设备中处理器的数量可以是一个或者多个,该电子设备中的存储器的数量可以是一个或者多个。该电子设备的处理器31、存储器32、通信模块33、输入装置34及输出装置35可以通过总线或者其他方式连接。
存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的点读内容定位方法对应的程序指令/模块(例如,点读内容定位装置中的转换模块、勾勒模块、调整模块及匹配模块)。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块33用于进行数据传输。
处理器31通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的点读内容定位方法。
输入装置34可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。
上述提供的电子设备可用于执行上述实施例一提供的点读内容定位方法,具备相应的功能和有益效果。
实施例四:
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种点读内容定位方法,该点读内容定位方法包括:在书本页内容点读时,获取点读图片,通过坐标转换得到对应书本页原图的定位点;确定所述书本页原图预先设置的各个内容勾勒框,所述内容勾勒框用于勾勒并定位所述书本页原图的各段文本内容;确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框;基于所述定位点计算各个所述相交勾勒框的匹配度,根据匹配度计算结果定位当前点读操作所点读的内容。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的点读内容定位方法,还可以执行本申请任意实施例所提供的点读内容定位方法中的相关操作。
上述实施例中提供的点读内容定位装置、存储介质及电子设备可执行本申请任意实施例所提供的点读内容定位方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的点读内容定位方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。
Claims (13)
1.一种点读内容定位方法,其特征在于,包括:
在书本页内容点读时,获取点读图片,通过坐标转换得到对应书本页原图的定位点;
确定所述书本页原图预先设置的各个内容勾勒框,所述内容勾勒框用于勾勒并定位所述书本页原图的各段文本内容;
确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框;
基于所述定位点计算各个所述相交勾勒框的匹配度,根据匹配度计算结果定位当前点读操作所点读的内容。
2.根据权利要求1所述的点读内容定位方法,其特征在于,所述确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框,包括:
放大所述定位点的覆盖范围,确定与放大后的所述定位点相交的多个所述内容勾勒框,作为相交勾勒框。
3.根据权利要求1所述的点读内容定位方法,其特征在于,所述确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框,包括:
放大各个所述内容勾勒框的覆盖范围,确定与所述定位点相交的多个放大后的所述内容勾勒框,作为相交勾勒框。
4.根据权利要求1-3任一所述的点读内容定位方法,其特征在于,所述基于所述定位点计算各个所述相交勾勒框的匹配度包括:
提取所述点读图片中与所述定位点对应的点击坐标;
通过OCR识别所述点击坐标的关联位置文本内容;
将所述关联位置文本内容与各个所述相交勾勒框中的文本内容进行比对,得到对应的匹配度。
5.根据权利要求4所述的点读内容定位方法,其特征在于,所述关联位置文本内容包括关联位置处的字词及行文本内容;
对应的,所述将所述关联位置文本内容与各个所述相交勾勒框中的文本内容进行比对,得到对应的匹配度,包括:
将所述关联位置处的字词及行文本内容分别与各个所述相交勾勒框中的文本内容进行比对,得到对应的手指字词匹配率及行文本匹配率,对所述手指字词匹配率及所述行文本匹配率进行求和计算,得到对应各个所述相交勾勒框的匹配度。
6.根据权利要求1-3任一所述的点读内容定位方法,其特征在于,所述计算各个所述相交勾勒框与所述定位点的匹配度包括:
对所述相交勾勒框在X轴和Y轴上分别进行各个区域的权值分配;
确定所述定位点落入各个所述相交勾勒框的定位区域,得到各个所述相交勾勒框对应的定位区域的权值信息;
根据所述权值信息计算各个所述相交勾勒框的匹配度。
7.根据权利要求6所述的点读内容定位方法,其特征在于,所述权值信息包括所述定位区域的X轴权值和Y轴权值;
所述根据所述权值信息计算各个所述相交勾勒框的匹配度,包括:
对所述X轴权值和所述Y轴权值进行求和计算,得到各个所述相交勾勒框的匹配度。
8.根据权利要求6所述的点读内容定位方法,其特征在于,在对所述相交勾勒框在X轴和Y轴上分别进行各个区域的权值分配中,所述相交勾勒框包括原勾勒区域及外接所述原勾勒区域四边的勾勒放大区域,所述原勾勒区域在X轴和Y轴上分配的权值大于所述勾勒放大区域在X轴和Y轴上分配的权值。
9.根据权利要求1所述的点读内容定位方法,其特征在于,在确定所述书本页原图预先设置的各个内容勾勒框之前,还包括:
对各个所述内容勾勒框进行规则处理,得到外切为矩形的所述内容勾勒框。
10.根据权利要求1所述的点读内容定位方法,其特征在于,所述书本页原图的各段文本内容配置有对应的视频和/或音频内容;
对应的,在根据匹配度计算结果定位当前点读操作所点读的内容之后,还包括:
根据当前点读操作所点读的内容确定对应的视频和/或音频内容,提取所述视频和/或音频内容进行播放。
11.一种点读内容定位装置,其特征在于,包括:
转换模块,用于在书本页内容点读时,获取点读图片,通过坐标转换得到对应书本页原图的定位点;
勾勒模块,用于确定所述书本页原图预先设置的各个内容勾勒框,所述内容勾勒框用于勾勒并定位所述书本页原图的各段文本内容;
调整模块,用于确定与所述定位点相交的多个所述内容勾勒框,作为相交勾勒框;
匹配模块,用于基于所述定位点计算各个所述相交勾勒框的匹配度,根据匹配度计算结果定位当前点读操作所点读的内容。
12.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10任一所述的点读内容定位方法。
13.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10任一所述的点读内容定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971053.0A CN110766996B (zh) | 2019-10-14 | 2019-10-14 | 一种点读内容定位方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971053.0A CN110766996B (zh) | 2019-10-14 | 2019-10-14 | 一种点读内容定位方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110766996A true CN110766996A (zh) | 2020-02-07 |
CN110766996B CN110766996B (zh) | 2021-11-19 |
Family
ID=69331827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910971053.0A Active CN110766996B (zh) | 2019-10-14 | 2019-10-14 | 一种点读内容定位方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766996B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506744A (zh) * | 2020-04-07 | 2020-08-07 | 广东小天才科技有限公司 | 一种点读的方法及终端设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799350A (zh) * | 2012-06-13 | 2012-11-28 | 优视科技有限公司 | 焦点元素的确定方法及装置 |
CN103017754A (zh) * | 2012-11-16 | 2013-04-03 | 苏州海客科技有限公司 | 基于距离优先级的智能导游系统及其播报方法 |
CN104010040A (zh) * | 2014-06-06 | 2014-08-27 | 广东小天才科技有限公司 | 智能终端的点读定位方法、智能终端和点读定位装置 |
CN106323273A (zh) * | 2016-08-26 | 2017-01-11 | 深圳微服机器人科技有限公司 | 一种机器人重定位方法及装置 |
CN106897321A (zh) * | 2015-12-21 | 2017-06-27 | 北京国双科技有限公司 | 显示地图数据的方法及装置 |
JP2017161969A (ja) * | 2016-03-07 | 2017-09-14 | 日本電気株式会社 | 文字認識装置、方法およびプログラム |
CN109447072A (zh) * | 2018-11-08 | 2019-03-08 | 北京金山安全软件有限公司 | 一种缩略图裁剪方法、装置、电子设备及可读存储介质 |
CN110012116A (zh) * | 2019-05-07 | 2019-07-12 | 深圳市成者云科技有限公司 | 一种智能伴学系统及装置 |
CN110111778A (zh) * | 2019-04-30 | 2019-08-09 | 北京大米科技有限公司 | 一种语音处理方法、装置、存储介质及电子设备 |
CN110111612A (zh) * | 2019-04-11 | 2019-08-09 | 深圳市学之友科技有限公司 | 一种拍照式点读方法、系统及点读设备 |
-
2019
- 2019-10-14 CN CN201910971053.0A patent/CN110766996B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799350A (zh) * | 2012-06-13 | 2012-11-28 | 优视科技有限公司 | 焦点元素的确定方法及装置 |
CN103017754A (zh) * | 2012-11-16 | 2013-04-03 | 苏州海客科技有限公司 | 基于距离优先级的智能导游系统及其播报方法 |
CN104010040A (zh) * | 2014-06-06 | 2014-08-27 | 广东小天才科技有限公司 | 智能终端的点读定位方法、智能终端和点读定位装置 |
CN106897321A (zh) * | 2015-12-21 | 2017-06-27 | 北京国双科技有限公司 | 显示地图数据的方法及装置 |
JP2017161969A (ja) * | 2016-03-07 | 2017-09-14 | 日本電気株式会社 | 文字認識装置、方法およびプログラム |
CN106323273A (zh) * | 2016-08-26 | 2017-01-11 | 深圳微服机器人科技有限公司 | 一种机器人重定位方法及装置 |
CN109447072A (zh) * | 2018-11-08 | 2019-03-08 | 北京金山安全软件有限公司 | 一种缩略图裁剪方法、装置、电子设备及可读存储介质 |
CN110111612A (zh) * | 2019-04-11 | 2019-08-09 | 深圳市学之友科技有限公司 | 一种拍照式点读方法、系统及点读设备 |
CN110111778A (zh) * | 2019-04-30 | 2019-08-09 | 北京大米科技有限公司 | 一种语音处理方法、装置、存储介质及电子设备 |
CN110012116A (zh) * | 2019-05-07 | 2019-07-12 | 深圳市成者云科技有限公司 | 一种智能伴学系统及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506744A (zh) * | 2020-04-07 | 2020-08-07 | 广东小天才科技有限公司 | 一种点读的方法及终端设备 |
CN111506744B (zh) * | 2020-04-07 | 2024-03-19 | 广东小天才科技有限公司 | 一种点读的方法及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110766996B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111640181A (zh) | 一种交互式视频投影方法、装置、设备及存储介质 | |
CN110276349B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
WO2020043155A1 (zh) | 图像的多尺度融合方法、装置、存储介质及终端 | |
CN109255300B (zh) | 票据信息提取方法、装置、计算机设备及存储介质 | |
CN110096929A (zh) | 基于神经网络的目标检测 | |
KR20100098641A (ko) | 불변적인 시각적 장면 및 객체 인식 | |
US11568631B2 (en) | Method, system, and non-transitory computer readable record medium for extracting and providing text color and background color in image | |
WO2021077982A1 (zh) | 标记点的识别方法、装置、设备及存储介质 | |
CN115375917B (zh) | 一种目标边缘特征提取方法、装置、终端及存储介质 | |
CN111160242A (zh) | 图像目标检测方法、系统、电子终端及存储介质 | |
CN113989616A (zh) | 一种目标检测方法、装置、设备和存储介质 | |
CN110766996B (zh) | 一种点读内容定位方法、装置、电子设备及存储介质 | |
WO2022247126A1 (zh) | 视觉定位方法、装置、设备、介质及程序 | |
CN103970901A (zh) | 一种地理信息图形数据整合方法 | |
CN110008923B (zh) | 图像处理方法和训练方法、以及装置、介质、计算设备 | |
CN111695372B (zh) | 点读方法及点读数据处理方法 | |
CN108764344B (zh) | 一种基于边缘识别卡片的方法、装置及存储设备 | |
CN112036398B (zh) | 一种文本校正方法及其系统 | |
CN115063807A (zh) | 图像处理方法、装置、可读存储介质及电子设备 | |
KR20180089589A (ko) | 가상 특징점을 이용한 이미지 정합 방법 및 그 시스템 | |
CN110765994B (zh) | 一种书本内容定位方法、装置、电子设备及存储介质 | |
CN116579960B (zh) | 一种地理空间数据融合方法 | |
US20220343538A1 (en) | Model Creation Device and Model Creation Method | |
CN113570667B (zh) | 视觉惯导补偿方法、装置及存储介质 | |
KR102384177B1 (ko) | 전방위 화상정보 기반의 자동위상 매핑 처리 방법 및 그 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |