CN106649629B - 一种关联书本与电子资源的系统 - Google Patents

一种关联书本与电子资源的系统 Download PDF

Info

Publication number
CN106649629B
CN106649629B CN201611113086.4A CN201611113086A CN106649629B CN 106649629 B CN106649629 B CN 106649629B CN 201611113086 A CN201611113086 A CN 201611113086A CN 106649629 B CN106649629 B CN 106649629B
Authority
CN
China
Prior art keywords
image
electronic resource
book
layer
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611113086.4A
Other languages
English (en)
Other versions
CN106649629A (zh
Inventor
刘乐元
陈靓影
张坤
刘三女牙
杨宗凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Ligong Digital Communications Engineering Co ltd
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201611113086.4A priority Critical patent/CN106649629B/zh
Publication of CN106649629A publication Critical patent/CN106649629A/zh
Application granted granted Critical
Publication of CN106649629B publication Critical patent/CN106649629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种书本与电子资源关联系统,包括:图像采集单元、书本页面识别单元和电子资源映射单元,其中,图像采集单元用于利用摄像头拍摄书本页面图像;书本页面识别单元用于将图像采集单元拍摄的书本页面图像与电子资源所关联的样例图像进行匹配,以识别书本页面;电子资源映射单元提供样例图像与电子资源的映射关系,并提供对电子资源对应内容的自动访问。本发明使用摄像头拍摄书本页面图像,利用计算机视觉技术将其与电子资源样例图像进行匹配,完成纸质书本与电子资源的关联和自动访问,极大地方便了用户对电子资源的使用。

Description

一种关联书本与电子资源的系统
技术领域
本发明涉及教育信息化技术领域,具体涉及一种关联书本与电子资源的系统。
背景技术
随着信息技术的发展和普及,越来越多的书本配套了电子资源(包含音频、视频、游戏、增强现实和其他应用软件等)。这些电子资源以其呈现形式多样、图文并茂、形声并举的优点来提升传统纸质书本的表现力和感染力。然而,在书本与电子资源未建立自动化关联的情况下,要访问与书本内容对应的电子资源并非不方便。以访问书本配套视频为例,用户需要首先找到与书本对应的光盘或视频文件,使用媒体播放器打开该光盘或视频文件,然后使用快进或快退来定位与书本页面内容相对应的视频位置。访问书本配套视频通常需要花费数分钟的操作时间,对于幼儿和老人来说甚至难以完成该操作。
现阶段主要有两种技术来建立书本与电子资源的关联:(1)使用文字关联;(2)使用“点读笔”技术关联。使用文字关联要求使用者具备使用键盘或语音输入文字的能力。然而大多数幼儿或老人不具备这一能力。即使能熟练输入文字,若使用者用文字描述的书本内容与数据库中标注的文字存在语义差异,也会导致关联失败。使用“点读笔”技术可以克服文字关联方法的上述的缺点,用“点读笔”点击书本即可快速访问对应内容的音频资源。然而,要使用“点读笔”,对应的书本需要事先使用特殊底纹的纸来印刷。这使得已经印刷的书本无法使用这一关联技术。此外,“点读笔”技术目前主要的产品形态为硬件,一方面成本较高,不利于普及;另一方面,也不利于扩展其应用范围。
发明内容
针对现有技术的缺陷,本发明提供一种关联书本与电子资源的系统,其目的在于,使用摄像头拍摄书本页面图像,利用计算机视觉技术将其与电子资源样例图像进行匹配,完成纸质书本与电子资源的关联和自动访问,以方便电子资源的使用。
一种书本与电子资源关联系统,包括:图像采集单元、书本页面识别单元和电子资源映射单元,其中,
图像采集单元用于利用摄像头拍摄书本页面图像;书本页面识别单元用于将图像采集单元拍摄的书本页面图像与电子资源所关联的样例图像进行匹配,以识别书本页面;电子资源映射单元提供样例图像与电子资源的映射关系,并提供对电子资源对应内容的自动访问;
所述书本页面识别单元包括:图像分割模块,用于对图像采集单元采集的图像进行分割,剔除背景部分,保留图像中的书本页面部分;图像矫正模块,用于对分割后的图像进行几何畸变和颜色失真的矫正;特征码提取模块,用于从矫正后的图像中提取图像识别特征码;特征码压缩模块,用于采用降维算法压缩特征码的长度,以降低存储空间和提高运算效率;样例图像特征码库,用于保存电子资源样例图像的压缩特征码;特征码匹配模块,用于计算采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。
进一步地,所述图像分割模块包括粗略分割子模块和精细分割子模块;
粗略分割子模块用于使用预设的目标包围框作为输入,采用分类规则来对图像进行预先分割:如果
Figure BDA0001172565810000021
则将坐标为(x,y)的像素点分类为目标,其中,HO表示由预设目标包围中的像素统计得到的未归一化的图像直方图,HB表示由预设目标包围外的像素统计得到的未归一化的图像直方图,b(x,y)表示坐标为(x,y)的像素在直方图中的bin,τs为阈值;
精细分割子模块用于在对图像进行粗略分割后,使用最小二乘法求取一个新的目标包围框,使用新的目标包围框作为输入,并采用GrabCut或DenseCut算法对粗略分割后的图像进行精细分割。
进一步地,所述预设目标包围框使用下面两种方式之一确定:
方式1)使用固定的目标包围框:将拍摄图像正中与上下边界距离为n1h、与左右边界距离为n2w的矩形区域作为目标包围框,其中w、h分别为图像的宽和高,n1、n2为参数;
方式2)通过交互界面来预设:在交互界面上显示一目标包围框,要求用户通过移送摄像头将书本页面置于包围框之中。
进一步地,所述图像矫正模块包括几何畸变矫正参数求解子模块、颜色矫参数求解正子模块和矫正子模块;
几何畸变矫正参数求解子模块用于首先通过最小二乘拟合法从图像分割模块的分割结果轮廓上拟合一个四边形,四边形的四个顶点记为
Figure BDA0001172565810000031
Figure BDA0001172565810000032
并预设几何矫正后的图像为宽为ws、高为hs的矩形,其四个顶点为
Figure BDA0001172565810000033
然后分别将四组点对
Figure BDA0001172565810000034
Figure BDA0001172565810000035
代入下式中:
Figure BDA0001172565810000036
解上述方程组得到几何畸变矫正的参数{a11,a12,a13;a21,a22,a23;a31,a32};
颜色矫正参数求解子模块用于从原图像中估计环境光照,并记为[Re,Ge,Be]T
Figure BDA0001172565810000041
其中[Rq,Gq,Bq]T和[Rs,Gs,Bs]T分别为像素点矫正前和矫正后的颜色值;
矫正子模块,用于生成一幅宽为ws、高为hs的图像Is;然后逐个扫描图像Is的像素,将其坐标(xs,ys)代入(1)式中求得其在原图像对应的像素点坐标(xq,yq),取原图像上坐标为(xq,yq)的像素点颜色值[Rq,Gq,Bq]T代入(2)式中求得颜色矫正后的颜色值[Rs,Gs,Bs]T,将颜色值[Rs,Gs,Bs]T赋值给图像Is坐标为(xs,ys)的像素。
进一步地,所述特征码提取模块采用卷积神经网络从矫正后的图像中提取图像识别特征码。
进一步地,所述卷积神经网络为一个8层的卷积神经网络,其中,第一层为输入层,输入大小为224×224像素的三通道彩色图像;第二层为卷积层,拥有64个大小为11×11×3的卷积核;第三层为卷积层,拥有256个大小为5×5×64的卷积核;第四层为卷基层,拥有256个3×3×256的卷积核;第五层为卷基层,拥有256个3×3×256的卷积核;第六层为卷基层,拥有256个3×3×256的卷积核;第七层为全连接层,拥有4096个神经元,并与第六层的输出神经元进行全连接;第八层为输出层,与第七层全连接,并输出4096维的特征向量。
进一步地,所述特征码压缩模块按下式来压缩从特征码提取模块提取的特征码Xi
Figure BDA0001172565810000042
其中,
Figure BDA0001172565810000043
为压缩后的特征码,矩阵
Figure BDA0001172565810000044
采用下面的方法离线计算得到:
首先将所有从样例图像上提取的特征码组成一个矩阵M=[X1 X2 … Xm],其中m为图像的个数;计算M的协方差矩阵
Figure BDA0001172565810000045
其中
Figure BDA0001172565810000046
为图像特征码的均值;将Σ进行奇异值分解得到M的特征向量矩阵U;取U前d个列向量组成矩阵Ud,经过转置得到
Figure BDA0001172565810000051
进一步地,所述特征码匹配模块逐一计算图像采集单元所采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果;所述相似度的计算方式为:
Figure BDA0001172565810000052
为从采集图像提取并经过压缩后的特征码,
Figure BDA0001172565810000053
为样例图像特征码库中的一个特征码,
Figure BDA0001172565810000054
Figure BDA0001172565810000055
的相似度
Figure BDA0001172565810000056
采用下式来计算:
Figure BDA0001172565810000057
其中,
Figure BDA0001172565810000058
离线计算得到并保存在样例图像特征码库中。
进一步地,所述样例图像-电子资源映射表保存样例图像到电子资源的映射关系,其中的每条记录至少包括下列信息:{样例图像ID、电子资源类别、电子资源文件路径、电子资源附加信息、电子资源启动程序名称或路径}。
进一步地,电子资源类别包含于电子书、办公文档、音频、视频、游戏、增强现实软件中的一种或多种;当电子资源类别为电子书或办公文档时,电子资源附加信息至少包含页码信息;当电子资源类别为音频或视频时,电子资源附加信息至少包含起止时间;当电子资源类别为游戏或增强现实软件时,电子资源附加信息至少包含可由游戏或增强现实软件识别的代码,供游戏或增强现实软件跳转至相应的情景或界面。
本发明的有益技术效果体现在:
本发明提供了一种关联书本与电子资源的系统,使得用户使用手机、平板电脑或智能电视机上的摄像头拍摄书本页面的图像即访问与书本页面相关的电子资源并自动跳转至相应的内容,极大地方便了用户对电子资源的使用。此外,本发明提出的书本页面识别方法具备极高的识别准确率,也使得一种关联书本与电子资源的系统具备良好的用户体验。本发明提供的一种关联书本与电子资源的系统可以方便地集成到智能手机、平板电脑或智能电视机上,容易推广。
附图说明
图1是本发明一较佳实施例结构组成示意图;
图2是本发明一较佳实施例书本页面识别单元组成示意图;
图3是本发明一较佳实施例样例图像特征码库离线建立流程图;
图4是本发明一较佳实施例书面页面识别流程图;
图5是本发明一较佳实施例图像分割模块组成示意图;
图6是本发明一较佳实施例图像矫正流程图;
图7是本发明一较佳实施例特征码提取模块卷积神经网络结构示意图;
图8是本发明一较佳实施例特征码压缩模块压缩矩阵Ud T的计算流程图;
图9是本发明一较佳实施例特征码匹配模块匹配流程图;
图10是本发明一较佳实施例电子资源映射单元组成示意图
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1示出了本发明一个较佳实施例。一种书本与电子资源关联系统,包括:图像采集单元10、书本页面识别单元11和电子资源映射单元12,其中,
图像采集单元10利用手机、平板电脑或智能电视上的摄像头拍摄书本页面图像;书本页面识别单元11利用计算机视觉技术将图像采集单元拍摄的书本页面图像与电子资源所关联的样例图像进行匹配,以识别书本页面;电子资源映射单元12提供样例图像与电子资源的映射关系,并提供对电子资源对应内容的自动访问。
如图2所示,所述书本页面识别单元11包括:图像分割模块110,利用图像分割算法对图像采集单元采集的图像进行分割,剔除背景部分,保留图像中的书本页面部分;图像矫正模块111,对分割后的图像进行几何畸变和颜色失真的矫正;特征码提取模块112,采用卷积神经网络对从矫正后的图像中提取图像识别特征码;特征码压缩模块113,采用降维算法压缩特征码的长度,以降低存储空间和提高运算效率;样例图像特征码库1,保存电子资源样例图像的压缩特征码;特征码匹配模块114,逐一计算图像采集单元所采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。在本实施例中,取相似度排序前6名的特征码所对应的样例图像作为书本页面识别结果。
如图3所示,样例图像特征码库离线建立,建立过程为:
S11:将各样例图像输入特征码提取模块112提取特征码;
S12:将提取的特征码输入特征码压缩模块113压缩其长度,得到压缩特征码;
S13:将样例图像压缩特征码存储到样例图像特征码库1。
如图4所示,书本页面识别为在线过程:
S21:将图像采集单元10采集的书本页面图像输入图像分割模块110进行分割;
S22:将分割后的图像输入图像矫正模块111进行几何畸变和颜色失真的矫正;
S23:将矫正后的图像输入特征码提取模块112提取特征码;
S24:将提取的特征码输入特征码压缩模块113压缩其长度,得到压缩特征码;
S25:将压缩特征码114输入特征码匹配模块与样例图像特征码库1中的各压缩特征码进行匹配,并取匹配相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。
如图5所示,所述图像分割模块110包括粗略分割子模块1100和精细分割子模块1101。粗略分割子模块1100使用预设的目标包围框作为输入。可以使用下面两种方法之一来预设目标包围框:1)使用固定的2目标包围框,优选地,将拍摄图像正中与上下边界距离为n1h、与左右边界距离为n2w的矩形区域作为目标包围框,其中w、h分别为图像的宽和高,n1、n2为参数。2)通过交互界面来预设,优选地,可以在交互界面上显示一目标包围框,要求用户通过移送摄像头将书本页面置于包围框之中。在本实施例中采用固定的目标包围框,并设置n1=0.15,n2=0.15。使用固定目标包围框可以省去用户交互步骤,使得用户的操作更为简便化。
在预设目标包围框之后,粗略分割子模块1100采用下面的分类规则来对图像进行预先分割:
如果
Figure BDA0001172565810000081
则将坐标为(x,y)的像素点分类为目标
其中,HO表示由预设目标包围中的像素统计得到的未归一化的图像直方图,HB表示由预设目标包围外的像素统计得到的未归一化的图像直方图,b(x,y)表示坐标为(x,y)的像素在直方图中的bin,τs为阈值。在本实施例中,从RGB图像上直接统计直方图,各个颜色通道分为16个bin,即直方图的维数为16×16×16;τs取值为0.5。在对图像进行粗略分割后,使用最小二乘法求取一个新目标包围框3。精细分割子模块使用新目标包围框3作为输入,并采用GrabCut或DenseCut算法对原图像进行精细分割,得到分割结果4。由于具备较好的分割精度和较快的运行速度,在本实施例选取了DenseCut算法来进行分割。
所述图像矫正模块111包括几何畸变矫正参数求解子模块、颜色矫正参数求解子模块和和矫正子模块。几何畸变矫正参数求解子模块首先通过最小二乘拟合法从图像分割模块的分割结果4的轮廓上拟合一个四边形,四边形的四个顶点记为
Figure BDA0001172565810000091
并预设几何矫正后的图像为宽为ws、高为hs的矩形,其四个顶点为
Figure BDA0001172565810000092
Figure BDA0001172565810000093
然后分别将四组点对
Figure BDA0001172565810000094
Figure BDA0001172565810000095
代入下式中:
Figure BDA0001172565810000096
解方程组得到几何畸变矫正的参数{a11,a12,a13;a21,a22,a23;a31,a32}。在本实施例中,ws和hs均设置为224像素。
颜色矫正参数求解子模块采用计算颜色恒常性算法从原图像中估计环境光照,并记为[Re,Ge,Be]T;颜色矫正按下式进行:
Figure BDA0001172565810000097
其中[Rq,Gq,Bq]T和[Rs,Gs,Bs]T分别为像素点矫正前和矫正后的颜色值。在本实施例中,采用灰色边缘假设来估计环境光照:
Figure BDA0001172565810000098
其中,▽Rq(x,y)、▽Gq(x,y)和▽Bq(x,y)分别为原图像R、G、B通道的梯度图像,C为归一化系数。
如图6所示,图像矫正子模块一次性完成图像的几何畸变矫正和颜色矫正,步骤为:
S31:几何畸变矫正子模块1110计算几何畸变矫正参数;颜色畸变矫正子模块1111估计环境光照;
S32:生成一幅宽为ws、高为hs的图像Is
S33:逐个扫描图像Is的像素,将其坐标(xs,ys)代入(1)式中求得其在原图像对应的像素点坐标(xq,yq),取原图像上坐标为(xq,yq)的像素点颜色值[Rq,Gq,Bq]T代入(2)式中求得颜色矫正后的颜色值[Rs,Gs,Bs]T,将颜色值[Rs,Gs,Bs]T赋值给图像Is坐标为(xs,ys)的像素。
如图7所示,所述特征码提取模块112为一个8层的卷积神经网络,其中,第一层为输入层,输入大小为224×224像素的三通道彩色图像;第二层为卷积层,拥有64个大小为11×11×3的卷积核;第三层为卷积层,拥有256个大小为5×5×64的卷积核;第四层为卷基层,拥有256个3×3×256的卷积核;第五层为卷基层,拥有256个3×3×256的卷积核;第六层为卷基层,拥有256个3×3×256的卷积核;第七层为全连接层,拥有4096个神经元,并与第六层的输出神经元进行全连接;第八层为输出层,与第七层全连接,并输出4096维的特征向量。
所述特征码压缩模块113按下式来压缩从特征码提取模块提取的特征码Xi
Figure BDA0001172565810000101
其中
Figure BDA0001172565810000102
为一个d×4096的矩阵。
Figure BDA0001172565810000103
采用下面的方法离线计算得到:首先将所有样例图像输入特征码提取模块提取特征码,并将这些特征码组成一个矩阵M=[X1X2…Xm],其中m为样例图像的个数;计算M的协方差矩阵
Figure BDA0001172565810000104
其中
Figure BDA0001172565810000105
为样例图像特征码的均值;将Σ进行奇异值分解得到M的特征向量矩阵U;取U前d个列向量组成矩阵Ud;经过转置得到
Figure BDA0001172565810000106
所有从样例图像输提取的特征码都通过(3)式进行压缩并存储在样例图像特征码库。
如图8所示,特征码压缩模块113的压缩矩阵
Figure BDA0001172565810000111
的计算过程为:
S41:将所有样例图像输入特征提取模块提取特征码,并将这些特征码组成一个矩形M;
S42:计算M的协方差矩阵Σ,然后将Σ进行奇异值分解得到M的特征向量矩阵U;
S43:取U前d个列向量组成矩阵Ud;经过转置得到压缩矩阵
Figure BDA0001172565810000112
所述特征码匹配模块114逐一计算图像采集单元所采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。设
Figure BDA0001172565810000113
为从采集图像提取并经过压缩后的特征码,
Figure BDA0001172565810000114
为样例图像特征码库中的一个特征码,
Figure BDA0001172565810000115
Figure BDA0001172565810000116
的相似度
Figure BDA0001172565810000117
采用下式来计算:
Figure BDA0001172565810000118
其中,
Figure BDA0001172565810000119
离线计算得到并保存在样例图像特征码库中。
如图9所示,特征码匹配模块114的匹配过程为:
S51:逐一计算图像采集单元所采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度;
S52:取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。
书本页面识别结果中的N张样例图像显示到智能设备交互界面,并供用户做出最终的选择;若用户不进行选择,则经过m秒后将第一张样例图像作为最终结果。在本实施例中,m设置为5。
如图10所示,所述电子资源映射单元12包含样例图像-电子资源映射表120和外部程序启动器121,其中,
样例图像-电子资源映射表120保存样例图像与电子资源的映射关系,其中的每条记录至少包括下列信息:{样例图像ID、电子资源类别、电子资源文件路径、电子资源附加信息、电子资源启动程序名称或路径}。电子资源类别包含但不限于电子书、办公文档、音频、视频、游戏、增强现实软件等。当电子资源类别为电子书或办公文档时,电子资源附加信息至少包含页码信息;当电子资源类别为音频或视频时,电子资源附加信息至少包含起止时间;当电子资源类别为游戏或增强现实软件时,电子资源附加信息至少包含可由游戏或增强现实软件识别的代码,供游戏或增强现实软件跳转至相应的情景或界面。以书本配套视频文件为例,样例图像-电子资源映射表中的一条记录实例为:{03629,v,“/sdcard/myvideo/charpt1.mp4”、(0:32:54,0:35:26),“com.nercel.videoplayer”},其中03629为书本页面样例图像ID,v表示电子资源类别为视频,“/sdcard/myvideo/charpt1.mp4”是书本页面样例图像所对应的视频文件路径,(0:32:54,0:35:26)分别为书本页面对应视频的起始时间,“com.nercel.videoplayer”为启动播放视频文件的视频播放器名称。
当书本页面识别单元11将识别结果,即样例图像ID,输入电子资源映射单元12后,输入电子资源映射单元12从样例图像-电子资源映射表120中查找出与样例图像ID相符的记录,并将该记录传送给外部程序启动器121。所述外部程序启动器121负责启动图像-电子资源映射表120中指定名称或路径的外部程序,并向外部程序传递电子资源文件路径和电子资源附加信息。之后,由外部程序打开与书本相关的电子资源,并跳转至相应的内容。这里,以在Android设备上播放书本配套视频实力对外部程序启动器121做进一步的说明。当电子资源映射单元12将样例图像-电子资源映射表120中查找到的与样例图像ID相符的一条记录{03629,v,“/sdcard/myvideo/charpt1.mp4”、(0:32:54,0:35:26),“com.nercel.videoplayer”}传入外部程序启动器121后,外部程序启动器121可通过下面的程序片段来启动视频播放器、打开视频文件、并跳转至于本页面对应的时间上:
Intent LaunchIntent=getPackageManager().getLaunchIntentForPackage("com.nercel.videoplayer");
intent.putExtra("FileName","/sdcard/myvideo/charpt1.mp4");
intent.putExtra("StartTime","0:32:54");
intent.putExtra("EndTime","0:35:26");
startActivity(LaunchIntent);
在windows和IOS设备上也可以通过类似的程序片段来实现外部程序启动器121的功能。
实例:
下面以一个具体的例子对本发明做进一步的说明:
(1)当幼儿在看动画书并对书本上某一页面的内容感兴趣,想要观看跟该页面主题相关的动画视频时,幼儿或家长就可以通过安装了本发明对应APP的智能手机或平板摄像头拍摄一张该书本页面图像。
(2)本发明对应的APP完成书本页面识别完成后,在界面上显示出识别结果中的前6张样例图像作为候选。
(3)若幼儿或家长通过点击样例图像做出最终选择,APP自动打开并跳转到与所选书本页面对应的视频内容进行播放;若幼儿或家长不点击样例图像,则在5秒后自动打开并跳转到与第一张样例图像对应的视频内容进行播放。
在整个过程中,用户只需拍摄书本页面的图像即访问与书本页面相关的电子资源并自动跳转至相应的内容,极大地方便了用户对电子资源的使用。
本实例可在包括但不限于智能手机、平板电脑、智能电视、计算机等硬件上实施。本实施例中所包含的单元或模块可以部署在同一硬件上,也可以部署在多个硬件上并通过网络通信组成一个完整的系统。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种书本与电子资源关联系统,其特征在于,包括:图像采集单元、书本页面识别单元和电子资源映射单元,其中,
图像采集单元用于利用摄像头拍摄书本页面图像;书本页面识别单元用于将图像采集单元拍摄的书本页面图像与电子资源所关联的样例图像进行匹配,以识别书本页面;电子资源映射单元提供样例图像与电子资源的映射关系,并提供对电子资源对应内容的自动访问;
所述书本页面识别单元包括:图像分割模块,用于对图像采集单元采集的图像进行分割,剔除背景部分,保留图像中的书本页面部分;图像矫正模块,用于对分割后的图像进行几何畸变和颜色失真的矫正;特征码提取模块,用于采用卷积神经网络从矫正后的图像中提取图像识别特征码;特征码压缩模块,用于采用降维算法压缩特征码的长度,以降低存储空间和提高运算效率;样例图像特征码库,用于保存电子资源样例图像的压缩特征码;特征码匹配模块,用于计算采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果;
所述图像矫正模块包括几何畸变矫正参数求解子模块、颜色矫正参数求解子模块和矫正子模块;
几何畸变矫正参数求解子模块用于首先通过最小二乘拟合法从图像分割模块的分割结果轮廓上拟合一个四边形,四边形的四个顶点记为
Figure FDA0002198261060000011
并预设几何矫正后的图像为宽为ws、高为hs的矩形,其四个顶点为
Figure FDA0002198261060000021
Figure FDA0002198261060000022
然后分别将四组点对
Figure FDA0002198261060000023
Figure FDA0002198261060000024
代入下式中:
Figure FDA0002198261060000025
解上述方程组得到几何畸变矫正的参数{a11,a12,a13;a21,a22,a23;a31,a32};
颜色矫正参数求解子模块用于从原图像中估计环境光照,并记为[Re,Ge,Be]T
Figure FDA0002198261060000026
其中[Rq,Gq,Bq]T和[Rs,Gs,Bs]T分别为像素点矫正前和矫正后的颜色值;
矫正子模块,用于生成一幅宽为ws、高为hs的图像Is;然后逐个扫描图像Is的像素,将其坐标(xs,ys)代入(1)式中求得其在原图像对应的像素点坐标(xq,yq),取原图像上坐标为(xq,yq)的像素点颜色值[Rq,Gq,Bq]T代入(2)式中求得颜色矫正后的颜色值[Rs,Gs,Bs]T,将颜色值[Rs,Gs,Bs]T赋值给图像Is坐标为(xs,ys)的像素。
2.根据权利要求1所述的书本与电子资源关联系统,其特征在于,所述图像分割模块包括粗略分割子模块和精细分割子模块;
粗略分割子模块用于使用预设的目标包围框作为输入,采用分类规则来对图像进行预先分割:如果
Figure FDA0002198261060000031
则将坐标为(x,y)的像素点分类为目标,其中,HO表示由预设目标包围中的像素统计得到的未归一化的图像直方图,HB表示由预设目标包围外的像素统计得到的未归一化的图像直方图,b(x,y)表示坐标为(x,y)的像素在直方图中的bin,τs为阈值;
精细分割子模块用于在对图像进行粗略分割后,使用最小二乘法求取一个新的目标包围框,使用新的目标包围框作为输入,并采用GrabCut或DenseCut算法对粗略分割后的图像进行精细分割。
3.根据权利要求2所述的书本与电子资源关联系统,其特征在于,所述预设目标包围框使用下面两种方式之一确定:
方式1)使用固定的目标包围框:将拍摄图像正中与上下边界距离为n1h、与左右边界距离为n2w的矩形区域作为目标包围框,其中w、h分别为图像的宽和高,n1、n2为参数;
方式2)通过交互界面来预设:在交互界面上显示一目标包围框,要求用户通过移送摄像头将书本页面置于包围框之中。
4.根据权利要求1所述的书本与电子资源关联系统,其特征在于,所述卷积神经网络为一个8层的卷积神经网络,其中,第一层为输入层,输入大小为224×224像素的三通道彩色图像;第二层为卷积层,拥有64个大小为11×11×3的卷积核;第三层为卷积层,拥有256个大小为5×5×64的卷积核;第四层为卷基层,拥有256个3×3×256的卷积核;第五层为卷基层,拥有256个3×3×256的卷积核;第六层为卷基层,拥有256个3×3×256的卷积核;第七层为全连接层,拥有4096个神经元,并与第六层的输出神经元进行全连接;第八层为输出层,与第七层全连接,并输出4096维的特征向量。
5.根据权利要求1所述的书本与电子资源关联系统,其特征在于,所述特征码压缩模块按下式来压缩从特征码提取模块提取的特征码Xi
Figure FDA0002198261060000041
其中,
Figure FDA0002198261060000042
为压缩后的特征码,矩阵
Figure FDA0002198261060000043
采用下面的方法离线计算得到:
首先将所有从样例图像上提取的特征码组成一个矩阵M=[X1 X2…Xm],其中m为样例图像的个数;计算M的协方差矩阵
Figure FDA0002198261060000044
其中
Figure FDA0002198261060000045
为图像特征码的均值;将Σ进行奇异值分解得到M的特征向量矩阵U;取U前d个列向量组成矩阵Ud,经过转置得到
Figure FDA0002198261060000046
6.根据权利要求1所述的书本与电子资源关联系统,其特征在于,所述特征码匹配模块逐一计算图像采集单元所采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果;所述相似度的计算方式为:
Figure FDA0002198261060000047
为从采集图像提取并经过压缩后的特征码,
Figure FDA0002198261060000048
为样例图像特征码库中的一个特征码,
Figure FDA0002198261060000049
Figure FDA00021982610600000410
的相似度
Figure FDA00021982610600000411
采用下式来计算:
Figure FDA00021982610600000412
其中,
Figure FDA00021982610600000413
7.根据权利要求1所述的书本与电子资源关联系统,其特征在于,所述样例图像-电子资源映射表保存样例图像到电子资源的映射关系,其中的每条记录至少包括下列信息:{样例图像ID、电子资源类别、电子资源文件路径、电子资源附加信息、电子资源启动程序名称或路径}。
8.根据权利要求7所述的书本与电子资源关联系统,其特征在于,电子资源类别包含于电子书、办公文档、音频、视频、游戏、增强现实软件中的一种或多种;
当电子资源类别为电子书或办公文档时,电子资源附加信息至少包含页码信息;
当电子资源类别为音频或视频时,电子资源附加信息至少包含起止时间;
当电子资源类别为游戏或增强现实软件时,电子资源附加信息至少包含可由游戏或增强现实软件识别的代码,供游戏或增强现实软件跳转至相应的情景或界面。
CN201611113086.4A 2016-12-02 2016-12-02 一种关联书本与电子资源的系统 Active CN106649629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611113086.4A CN106649629B (zh) 2016-12-02 2016-12-02 一种关联书本与电子资源的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611113086.4A CN106649629B (zh) 2016-12-02 2016-12-02 一种关联书本与电子资源的系统

Publications (2)

Publication Number Publication Date
CN106649629A CN106649629A (zh) 2017-05-10
CN106649629B true CN106649629B (zh) 2020-04-10

Family

ID=58818495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611113086.4A Active CN106649629B (zh) 2016-12-02 2016-12-02 一种关联书本与电子资源的系统

Country Status (1)

Country Link
CN (1) CN106649629B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200276852A1 (en) * 2017-09-07 2020-09-03 Delicious Ltd [Bs/Bs] Book arrangement and method of use thereof
CN108132993B (zh) * 2017-12-20 2019-12-06 江苏省质量和标准化研究院 一种标准图像资源加工标准化处理方法
CN108021332A (zh) * 2018-01-12 2018-05-11 非凡部落(北京)科技有限公司 一种图书互动阅读装置及方法
CN110033023B (zh) * 2019-03-11 2021-06-15 北京光年无限科技有限公司 一种基于绘本识别的图像数据处理方法及系统
CN110647844A (zh) * 2019-09-23 2020-01-03 深圳一块互动网络技术有限公司 一种儿童用物品拍摄识别方法
CN110767000A (zh) * 2019-10-28 2020-02-07 安徽信捷智能科技有限公司 一种基于图像识别的儿童课程同步装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020619A (zh) * 2012-12-05 2013-04-03 上海合合信息科技发展有限公司 一种自动切分电子化笔记本中手写条目的方法
CN104463241A (zh) * 2014-10-31 2015-03-25 北京理工大学 一种智能交通监控系统中的车辆类型识别方法
CN105956098A (zh) * 2016-05-03 2016-09-21 华中师范大学 一种纸质印刷品与电子资源的关联方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409790B (zh) * 2008-11-24 2010-12-29 浙江大学 一种高效的多投影仪拼接融合方法
CN104951439A (zh) * 2014-03-24 2015-09-30 明博教育科技有限公司 一种电子书籍及其相关电子资源的整合获取方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020619A (zh) * 2012-12-05 2013-04-03 上海合合信息科技发展有限公司 一种自动切分电子化笔记本中手写条目的方法
CN104463241A (zh) * 2014-10-31 2015-03-25 北京理工大学 一种智能交通监控系统中的车辆类型识别方法
CN105956098A (zh) * 2016-05-03 2016-09-21 华中师范大学 一种纸质印刷品与电子资源的关联方法及系统

Also Published As

Publication number Publication date
CN106649629A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106649629B (zh) 一种关联书本与电子资源的系统
JP5510167B2 (ja) ビデオ検索システムおよびそのためのコンピュータプログラム
US9538116B2 (en) Relational display of images
EP3499900A2 (en) Video processing method, apparatus and device
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN107330040B (zh) 一种学习题目搜索方法及其系统
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
CN112261477A (zh) 视频处理方法及装置、训练方法和存储介质
US20230027412A1 (en) Method and apparatus for recognizing subtitle region, device, and storage medium
US9131207B2 (en) Video recording apparatus, information processing system, information processing method, and recording medium
CN106874443A (zh) 基于视频文本信息提取的信息查询方法以及装置
JP6389296B1 (ja) 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
CN108256071B (zh) 录屏文件的生成方法、装置、终端及存储介质
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN111077992B (zh) 一种点读方法、电子设备及存储介质
US20180189602A1 (en) Method of and system for determining and selecting media representing event diversity
US20140297678A1 (en) Method for searching and sorting digital data
CN111258409B (zh) 一种用于人机交互的特征点识别方法及设备
CN111582281B (zh) 一种图片显示优化的方法、装置、电子设备和存储介质
CN111881338A (zh) 一种基于社交软件轻应用小程序的印刷品内容检索方法
CN113705209A (zh) 一种副标题的生成方法、装置、电子设备和存储介质
Uchiyama et al. On-line document registering and retrieving system for AR annotation overlay
CN110543238A (zh) 基于人工智能的桌面交互方法
CN117979123B (zh) 一种用于旅行记录的视频集锦生成方法、装置及电子设备
CN111461103B (zh) 一种点读场景去干扰的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240522

Address after: Room 402, 4th Floor, Optics Valley Technology Building, No. 770 Gaoxin Avenue, Jiufeng Street, Donghu New Technology Development Zone, Wuhan City, Hubei Province 430000 KJDSA2024005

Patentee after: WUHAN LIGONG DIGITAL COMMUNICATIONS ENGINEERING CO.,LTD.

Country or region after: China

Address before: 430079 Hubei city of Wuhan province Luo Yu Road, No. 152

Patentee before: CENTRAL CHINA NORMAL University

Country or region before: China

TR01 Transfer of patent right