CN107977390B - 绘本识别方法、装置、系统及电子设备 - Google Patents

绘本识别方法、装置、系统及电子设备 Download PDF

Info

Publication number
CN107977390B
CN107977390B CN201710138012.4A CN201710138012A CN107977390B CN 107977390 B CN107977390 B CN 107977390B CN 201710138012 A CN201710138012 A CN 201710138012A CN 107977390 B CN107977390 B CN 107977390B
Authority
CN
China
Prior art keywords
picture
book
picture book
server
cover
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710138012.4A
Other languages
English (en)
Other versions
CN107977390A (zh
Inventor
王西
顾嘉唯
吴惟心
常丰峰
徐乐
青海
朱志东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luka Beijing Intelligent Technology Co ltd
Original Assignee
Beijing Ling Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ling Technology Co ltd filed Critical Beijing Ling Technology Co ltd
Priority to CN201710138012.4A priority Critical patent/CN107977390B/zh
Priority to US15/913,570 priority patent/US20180260479A1/en
Publication of CN107977390A publication Critical patent/CN107977390A/zh
Application granted granted Critical
Publication of CN107977390B publication Critical patent/CN107977390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种绘本识别方法,应用于具有摄像头的装置,包括:按照预设采集频率,通过摄像头采集绘本照片;上传所述绘本照片至服务器;接收服务器返回的与所述绘本照片对应的第一音频链接;若所述绘本照片为绘本封面照片,还接收与所述绘本封面照片对应的绘本ID;根据所述第一音频链接,连接服务器中的第一音频流并播放音频。本发明还提供了一种绘本识别装置、系统及电子设备。本发明提出的绘本识别方法、装置、系统及电子设备,解决了现有技术中绘本识别的错误率高的问题。

Description

绘本识别方法、装置、系统及电子设备
技术领域
本发明涉及数据处理技术领域,特别是指一种绘本识别方法、装置、系统及电子设备。
背景技术
绘本,英文称Picture Book,指一类以绘画为主,并附有少量文字的书籍。绘本不仅可用于讲故事、学知识,而且可以全面帮助孩子建构精神,培养多元智能。
传统的绘本识别方法有两种:一种是点读笔通过笔尖的光电识别器,将绘本上印制的肉眼不可见的二维码信息扫描,由笔内CPU处理识别成功后,从点读笔内存中挑出对应的音频由喇叭播放。另一种点读机使用的原理是在制作发音文件过程中,给发音文件预先设置好对应书本内容的“经纬位置”,使用者将课本置于机器平板上,用专用的笔点书本上的文字、图画、数字等内容,机器就会发出相对应的声音。
除了上述的传统的绘本识别方法外,现有技术中还有一种通过图像识别来进行绘本识别的方法。但是,现有的图片识别领域,专攻绘本识别的数据非常稀少。同时,由于不同的环境、光照原因,图片之间的差异较大,需要大量的图片训练,现有技术所采用的图像识别方法,在绘本识别上有着识别错误率高的问题。
发明内容
有鉴于此,本发明的目的在于提出一种绘本识别方法、装置、系统及电子设备,解决了现有技术中绘本识别的错误率高的问题。
基于上述目的,本发明第一个方面,提供了一种绘本识别方法,应用于具有摄像头的装置,包括:
按照预设采集频率,通过摄像头采集绘本照片;
上传所述绘本照片至服务器;
接收服务器返回的与所述绘本照片对应的第一音频链接;若所述绘本照片为绘本封面照片,还接收与所述绘本封面照片对应的绘本ID;
根据所述第一音频链接,连接服务器中的第一音频流并播放音频。
可选的,所述方法还包括:
接收服务器返回的翻页提示指令;
按照预设采集频率,通过摄像头采集新的绘本照片;
上传所述新的绘本照片和所述绘本ID至服务器;
接收服务器返回的与所述新的绘本照片对应的第二音频链接;
根据所述第二音频链接,连接服务器中的第二音频流并播放音频。
可选的,所述方法还包括:接收启动信号,发出提示音或提示信息。
本发明的第二个方面,提供了另一种绘本识别方法,包括:
接收绘本照片;
识别所述绘本照片,得到识别结果和与所述识别结果相应的得分;
返回得分高于得分阈值的识别结果所对应的第一音频链接;若所述绘本照片为绘本封面照片,还返回与所述绘本封面照片对应的绘本ID;
根据所述第一音频链接,传输第一音频流。
可选的,识别所述绘本照片的步骤,包括:
将所述绘本照片与数据库中存储的绘本封面图片进行比对;
若所述绘本照片与数据库中存储的任一绘本封面图片匹配,则所述绘本照片被识别为绘本封面照片;
若所述绘本照片不与数据库中存储的任何绘本封面图片匹配,则确定所述绘本照片是否携带绘本ID;
若所述绘本照片携带绘本ID,根据所述绘本ID确定相应的绘本,并将所述绘本照片与数据库中存储的与所述绘本对应的绘本内页图片进行比对。
可选的,所述方法还包括:
若所述绘本照片与数据库中存储的与所述绘本对应的任一绘本内页图片匹配,则所述绘本照片被识别为绘本内页照片;
若所述绘本照片不与数据库中存储的与所述绘本对应的任何绘本内页图片匹配,则所述绘本照片被识别为未录入绘本的照片或新绘本的绘本封面照片。
可选的,所述绘本照片为连续采集的两张以上绘本照片;
识别所述绘本照片,得到识别结果和与所述识别结果相应的得分的步骤,包括:
识别每张绘本照片;
若每张绘本照片的识别结果相同,则将该识别结果和与所述识别结果相应的得分输出。
可选的,所述方法还包括:
持续接收绘本照片;
识别所述绘本照片,并得到识别结果;
若所述识别结果与在先的识别结果不同,则判定为绘本被翻页,并返回翻页提示指令。
可选的,所述方法还包括:
接收新的绘本照片及其绘本ID;
识别所述新的绘本照片,得到识别结果和与所述识别结果相应的得分;
返回得分高于得分阈值的识别结果所对应的第二音频链接;
根据所述第二音频链接,传输第二音频流。
本发明的第三个方面,提供了一种绘本识别装置,包括:
采集模块,用于按照预设采集频率,采集绘本照片;
上传模块,用于上传所述绘本照片至服务器;
第一接收模块,用于接收服务器返回的与所述绘本照片对应的第一音频链接;若所述绘本照片为绘本封面照片,还用于接收与所述绘本封面照片对应的绘本ID;
播放模块,用于根据所述第一音频链接,连接服务器中的第一音频流并播放音频。
可选的,所述采集模块,还用于按照预设采集频率,采集新的绘本照片;
所述上传模块,还用于上传所述新的绘本照片和所述绘本ID至服务器;
所述第一接收模块,还用于接收服务器返回的翻页提示指令;以及,用于接收服务器返回的与所述新的绘本照片对应的第二音频链接;
所述播放模块,用于根据所述第二音频链接,连接服务器中的第二音频流并播放音频。
可选的,所述装置还包括:提示模块,用于接收启动信号,发出提示音或提示信息。
本发明的第四个方面,还提供了另一种绘本识别装置,包括:
第二接收模块,用于接收绘本照片;
识别模块,用于识别所述绘本照片,得到识别结果和与所述识别结果相应的得分;
发送模块,用于返回得分高于得分阈值的识别结果所对应的第一音频链接;若所述绘本照片为绘本封面照片,还用于返回与所述绘本封面照片对应的绘本ID;
传输模块,用于根据所述第一音频链接,传输第一音频流。
可选的,所述识别模块,具体用于:
将所述绘本照片与数据库中存储的绘本封面图片进行比对;
若所述绘本照片与数据库中存储的任一绘本封面图片匹配,则所述绘本照片被识别为绘本封面照片;
若所述绘本照片不与数据库中存储的任何绘本封面图片匹配,则确定所述绘本照片是否携带绘本ID;
若所述绘本照片携带绘本ID,根据所述绘本ID确定相应的绘本,并将所述绘本照片与数据库中存储的与所述绘本对应的绘本内页图片进行比对。
可选的,所述识别模块,具体用于:
若所述绘本照片与数据库中存储的与所述绘本对应的任一绘本内页图片匹配,则所述绘本照片被识别为绘本内页照片;
若所述绘本照片不与数据库中存储的与所述绘本对应的任何绘本内页图片匹配,则所述绘本照片被识别为未录入绘本的照片或新绘本的绘本封面照片。
可选的,所述绘本照片为连续采集的两张以上绘本照片;
所述识别模块,具体用于:
识别每张绘本照片;
若每张绘本照片的识别结果相同,则将该识别结果和与所述识别结果相应的得分输出。
可选的,所述第二接收模块,还用于持续接收绘本照片;
所述识别模块,用于识别所述绘本照片,并得到识别结果;若所述识别结果与在先的识别结果不同,则判定为绘本被翻页;
所述发送模块,还用于返回翻页提示指令。
可选的,所述第二接收模块,还用于接收新的绘本照片及其绘本ID;
所述识别模块,还用于识别所述新的绘本照片,得到识别结果和与所述识别结果相应的得分;
所述发送模块,还用于返回得分高于得分阈值的识别结果所对应的第二音频链接;
所述传输模块,用于根据所述第二音频链接,传输第二音频流。
本发明的第五个方面,提供了一种绘本识别系统,包括:如前任一项所述的包括采集模块、上传模块、第一接收模块和播放模块的装置,以及,如前任一项所述的包括第二接收模块、识别模块、发送模块和传输模块的装置。
本发明的第六个方面,提供了一种电子设备,包括:
用于采集照片的摄像头;
至少一个第一处理器;以及,
与所述至少一个第一处理器通信连接的第一存储器;其中,
所述第一存储器存储有可被所述一个第一处理器执行的指令,所述指令被所述至少一个第一处理器执行,以使所述至少一个第一处理器能够执行如前述的本发明的第一个方面中的任一项方法。
本发明的第七个方面,提供了一种电子设备,包括:
至少一个第二处理器;以及,
与所述至少一个第二处理器通信连接的第二存储器;其中,
所述第二存储器存储有可被所述一个第二处理器执行的指令,所述指令被所述至少一个第二处理器执行,以使所述至少一个第二处理器能够执行如前述的本发明的第二个方面中的任一项方法。
从上面所述可以看出,本发明实施例提供的绘本识别方法、装置、系统及电子设备,通过摄像头自动采集绘本照片并上传给服务器进行识别,当绘本照片被识别为绘本封面照片时,接收对应的绘本ID,使得在后续上传绘本照片时携带所述绘本ID供服务器确定绘本照片来自于哪一个绘本,在确定绘本后,能够约束绘本的特征检索库,降低检索时间,排除大量的相似度较高的错误的绘本页,在关键特征点检索时会更快更准确。
附图说明
图1为本发明提供的绘本识别方法的第一个实施例的流程示意图;
图2为本发明提供的绘本识别方法的第二个实施例的流程示意图;
图3a为本发明提供的绘本识别方法的第三个实施例的流程示意图;
图3b为本发明提供的绘本识别方法的第三个实施例中步骤302的一种实施方式的具体流程示意图;
图4为本发明提供的绘本识别方法的第四个实施例的流程示意图;
图5为本发明提供的绘本识别装置的第一个实施例的结构示意图;
图6为本发明提供的绘本识别装置的第二个实施例的结构示意图;
图7为本发明提供的绘本识别装置的第三个实施例的结构示意图;
图8为本发明提供的电子设备的第一个实施例的结构示意图。
图9为本发明提供的电子设备的第二个实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提供了一种能够提高绘本识别正确率的绘本识别方法。如图1所示,为本发明提供的绘本识别方法的第一个实施例的流程示意图。
所述绘本识别方法,应用于具有摄像头的装置,包括:
步骤101:按照预设采集频率,通过摄像头采集绘本照片;所述预设采集频率可以是默认值也可以根据用户的需求进行自定义,可选的,可设置为200ms/次;所述摄像头可以是任何电子设备(如手机、平板电脑、相机等等)上具有的摄像头,也可以是基于本发明而专门设计的采集装置中安装的摄像头;所述绘本照片是指通过摄像头拍摄绘本而得到的照片,可以是绘本封面照片,也可以是绘本内页照片,可因为用户目前将绘本翻到不同页数而不同。
步骤102:上传所述绘本照片至服务器,供服务器对该绘本照片进行识别。
可选的,在上传所述绘本照片之前,还可先对绘本照片进行处理,例如,压缩图片、过滤动态模糊图片、图像二值化、灰度图处理、SIFT特征提取、交点特征提取等,处理方法包含但不仅限于这几种方法。上传所述绘本照片的方式可以是在WIFI环境下通过WIFI模块连接宽带网络后进行上传,当设备端为手机等智能设备时,也可以是通过移动网络上传。
步骤103:当服务器针对所述绘本照片得到满足要求的识别结果时,会将识别结果对应的第一音频链接返回,此时,接收服务器返回的与所述绘本照片对应的第一音频链接(亦即识别结果对应的第一音频链接);若所述绘本照片为绘本封面照片,则确定用户当前正在阅读与所述绘本封面照片对应的绘本,此时,还接收与所述绘本封面照片对应的绘本ID(亦即与所述绘本封面照片对应的绘本的绘本ID),所述绘本ID用于后续上传绘本照片时作为携带信息,从而作为服务器判断绘本的依据;其中,所述第一音频链接可以是指音频对应URL。
步骤104:根据所述第一音频链接,连接服务器中的第一音频流并播放音频;这里播放的音频则为与所述绘本照片相对应的绘本页所匹配的音频,该音频可以是读出了绘本页中全部文字的音频,在某些情况下,也可以是读出了绘本页中部分文字的音频,还可以额外读出绘本页中不包含的文字的音频;所述音频作为读出绘本页中全部文字的音频时,朗读方式可以是从上到下、从左往右的朗读方式。
从上述实施例可以看出,本发明实施例提供的绘本识别方法,通过摄像头自动采集绘本照片并上传给服务器进行识别,当绘本照片被识别为绘本封面照片时,接收对应的绘本ID,使得在后续上传绘本照片时携带所述绘本ID供服务器确定绘本照片来自于哪一个绘本,在确定绘本后,能够约束绘本的特征检索库,降低检索时间,排除大量的相似度较高的错误的绘本页,在关键特征点检索时会更快更准确。
在一些可选实施方式中,所述绘本识别方法,还可包括以下步骤:
接收服务器返回的翻页提示指令;所述翻页提示指令是指,当服务器根据持续接收到的绘本照片的变化,判定当前绘本已经被用户翻页,而返回的提示该绘本已被翻页的指令;判定绘本翻页的方法可以是各种各样,可选的,可以通过比对绘本照片来判定,当前后接收的绘本照片不同时,则可认为绘本被翻页;
按照预设采集频率,通过摄像头采集新的绘本照片;这里,新的绘本照片可以是指与在先上传的绘本照片不同的绘本照片,即,在翻页后而采集得到的新的绘本页的照片;
上传所述新的绘本照片和所述绘本ID至服务器;此时,上传到服务器的新的绘本照片携带有绘本ID,使得服务器可以根据绘本ID确定相应的绘本,并将所述新的绘本照片在相应绘本的绘本内页图片中进行比对,从而能够得出更准确的识别结果;
接收服务器返回的与所述新的绘本照片对应的第二音频链接;
根据所述第二音频链接,连接服务器中的第二音频流并播放音频。
通过上述实施例,在接收到翻页提示指令后,能够在上传新的绘本照片时携带绘本ID,使得服务器可以根据绘本ID确定相应的绘本,并将所述新的绘本照片在相应绘本的绘本内页图片中进行比对,约束了绘本的特征检索库,降低了检索时间,排除了大量的相似度较高的错误的绘本内页图片,从而能够得出更准确的识别结果。
除了前述的根据翻页提示指令来判断翻页外,在一些可选实施方式中,所述绘本识别方法,还可包括以下用于判断是否翻页的步骤:
持续采集绘本照片;
接收服务器返回的与每张绘本照片一一对应的识别结果;
将所述识别结果存储为识别结果队列,所述识别结果队列中保存有至少两个识别结果;
比对所述识别结果队列中的识别结果;
若所述识别结果队列中在后的识别结果与在先的识别结果不同,则判定为翻页。
通过上述实施例,可以将判断翻页的过程设置在设备端,从而能够提升反应速度。
较佳的,在一些可选实施方式中,所述识别结果队列中保存有多个连续的识别结果;
所述比对所述识别结果队列中的识别结果的步骤之后,还可具体包括以下步骤:
若所述识别结果队列中在后的识别结果与在先的识别结果不同,且连续3次的在后的识别结果是相同的,则判定为翻页,否则保留在先的识别结果;并且,可选的,删除在后的识别结果,从而能够节约设备端的存储空间。
通过上述实施例,当在后的识别结果连续的时,才确定为翻页,从而保证了判定翻页的准确性,并排除了一些不确定因素(例如,因绘本照片拍摄不清楚而产生的错误识别,或者因用户的来回翻页而导致的不确定性等等)。
除了前述的根据翻页提示指令来判断翻页外,在另一些可选实施方式中,所述绘本识别方法,还可包括以下用于判断是否翻页的步骤:
持续采集绘本照片;
接收服务器返回的与每张绘本照片一一对应的识别结果;
将所述识别结果存储为识别结果队列,所述识别结果队列中保存有多个识别结果;较佳的,所述识别结果队列中的识别结果的个数为15个;
将多个识别结果分为至少两个集合;可选的,可以是分为三个集合;
为不同集合赋予不同权重;其中,按每个集合中识别结果的接收时间先后顺序,权重的大小依次递减;可选的,在分为三个集合时,第一集合(识别结果接收时间最早的)的第一权重为0.6,第二集合的第二权重为0.3,第三集合(识别结果接收时间最晚的)的第三权重为0.1;
确定最新的识别结果(例如,识别结果队列中有15个识别结果,其中前面5个识别结果均为A,中间5个识别结果均为B,最后5个识别结果均为C,那么最新的识别结果即为C)占各自集合中的比例(例如,一个集合中识别结果的个数为5个,5个识别结果中具有的最新的识别结果有2个,那么所述比例就为2/5);假设,第一集合对应的最新的识别结果的比例为第一比例,第二集合对应的最新的识别结果的比例为第二比例,第三集合对应的最新的识别结果的比例为第三比例;可选的,识别结果是否为最新的识别结果,可以通过识别结果携带的时间戳来判断;
计算所述最新的识别结果在整个识别结果队列中的有效值;较佳的,所述有效值的计算方式为:
识别结果有效值=第一权重*第一比例+第二权重*第二比例+第三权重*第三比例;
若所述有效值大于预设有效值阈值,则判定为翻页;否则保留在先的识别结果;并且,可选的,删除在后的识别结果,从而能够节约设备端的存储空间。可选的,所述预设有效值阈值,可以是系统默认设定的,也可以根据用户或服务提供商的需求而进行自定义设定;具体的预设有效值阈值的选定,以能够满足翻页的有效判定为前提。
通过上述实施例,当最新的识别结果的有效值达到一定程度时,才确定为翻页,从而保证了判定翻页的准确性。
在一些可选实施方式中,所述绘本识别方法,还可包括以下步骤:
接收启动信号,发出提示音和/或提示信息。可选的,所述启动信号,可以是设备的开机信号;也可以是在使用手机APP实现所述绘本识别方法时,因为打开了相应的APP而产生的启动信号;所述提示音可以是任意的可以起到提示作用的声音;所述提示信息可以是显示在设备屏幕上的一段文字,例如,“您已开始使用绘本识别工具,请拍摄绘本的封面。”所述提示音和提示信息可以分开使用也可以结合使用,二者的主要目的在于提示用户首先进行绘本封面的拍摄,使得服务器能够首先识别出绘本封面并确定绘本ID,从而便于后续的绘本内页识别时约束特征数据库。
在一些可选实施方式中,所述绘本识别方法,还可包括以下步骤:
比对采集得到的绘本照片;
当相同的绘本照片的数量超过预设数量阈值时,删除超过所述预设数量阈值的绘本照片;例如,连续得到的8张绘本照片都是相同的,若所述预设数量阈值为5,则删除所述8张相同的绘本照片中的3张。可选的,所述预设数量阈值,可以是系统默认设定的,也可以根据用户或服务提供商的需求而进行自定义设定;较佳的,具体的预设数量阈值的选定,以能够满足结果连续的有效判断为前提。
本发明还提供了一种能够提高绘本识别正确率的绘本识别方法的第二个实施例。如图2所示,为本发明提供的绘本识别方法的第二个实施例的流程示意图。
所述绘本识别方法,应用于具有摄像头的装置,包括:
步骤201:接收启动信号,发出提示音或提示信息;
步骤202:按照预设采集频率,通过摄像头采集绘本照片;
步骤203:上传所述绘本照片至服务器;
步骤204:接收服务器返回的与所述绘本照片对应的第一音频链接;若所述绘本照片为绘本封面照片,还接收与所述绘本封面照片对应的绘本ID;
步骤205:根据所述第一音频链接,连接服务器中的第一音频流并播放音频;
步骤206:接收服务器返回的翻页提示指令;
步骤207:按照预设采集频率,通过摄像头采集新的绘本照片;
步骤208:上传所述新的绘本照片和所述绘本ID至服务器;
步骤209:接收服务器返回的与所述新的绘本照片对应的第二音频链接;
步骤210:根据所述第二音频链接,连接服务器中的第二音频流并播放音频。
从上述实施例可以看出,本发明提供了的绘本识别方法,通过摄像头对绘本拍照,将绘本照片上传到指定的服务器,当服务器通过图像识别技术判断是某一绘本的封面,然后将对应的音频链接及绘本ID发回,设备端将连接音频流并播放出来;在判定绘本翻页后,将绘本照片及其绘本ID上传到指定的服务器,根据绘本ID约束了绘本内页的特征检索库,降低了检索时间,排除了大量的相似度较高的错误绘本页,进而达到增加识别准确率,减少识别时间的目的。
基于上述目的,本发明实施例的第二个方面,提供了另一种能够提高绘本识别正确率的绘本识别方法。如图3a所示,为本发明提供的绘本识别方法的第三个实施例的流程示意图。
所述绘本识别方法,可选的,应用于具有图像识别功能的服务器,包括以下步骤:
步骤301:接收绘本照片。
步骤302:识别所述绘本照片,得到识别结果和与所述识别结果相应的得分;可选的,通过图片识别模型来识别绘本照片,同时,所述图片识别模型在得出识别结果时,能够得出该识别结果相应的得分,所述得分可以结合各种参数来确定,其中的参数之一可以是绘本照片与识别结果对应的绘本图片之间的相似度。
步骤303:返回得分高于得分阈值的识别结果所对应的第一音频链接(可选的,为与绘本照片对应的绘本页相应的音频的URL地址);若所述绘本照片为绘本封面照片,则确定用户当前正在阅读与所述绘本封面照片对应的绘本,此时,还返回与所述绘本封面照片对应的绘本ID(亦即与所述绘本封面照片对应的绘本的绘本ID),所述绘本ID用于后续设备端上传绘本照片时作为携带信息,从而作为判断绘本的依据。所述得分阈值,可以是系统默认设定的,也可以根据用户或服务提供商的需求而进行自定义设定或随时进行修正;较佳的,具体的得分阈值的选定,以能够使识别结果具有较高的准确性为前提。
步骤304:根据所述第一音频链接,传输第一音频流。
从上述实施例可以看出,本发明实施例提供的绘本识别方法,在接收自动采集的绘本照片后对其进行识别,当绘本照片被识别为绘本封面照片时,向设备端返回对应的绘本ID,使得设备端在后续上传绘本照片时携带所述绘本ID供服务器确定绘本照片来自于哪一个绘本,在确定绘本后,能够约束绘本的特征检索库,降低检索时间,排除大量的相似度较高的错误的绘本页,在关键特征点检索时会更快更准确。
在一些可选实施方式中,参照附图3b,识别所述绘本照片,得到识别结果和与所述识别结果相应的得分的步骤302,可通过计算机视觉技术(例如深度学习算法)对绘本照片进行识别,并且还可具体包括以下步骤:
步骤3021:对绘本照片的关键特征进行提取;
绘本照片的识别可通过深度卷积网络来做图片分类,对每一个绘本图片(包括封面和内页),可预先在本地做图片关键区域的提取,减少背景的干扰,同时对于每个绘本图片,在预先采集时,拍摄不同光照、不同角度100张图片,用来做DNN(深度神经网络)的训练,通过以上方法,达到很高的识别准确率。可选的,若每次识别绘本照片时均先识别该绘本照片是否是绘本封面照片时,这里的预处理步骤可以只针对绘本封面图片来进行,这样可以提高绘本封面照片的识别准确度,同时可以减少处理量,从而节约系统资源。
进一步的,对照片的关键特征进行提取步骤3021,采用的是深度学习算法,具体可以包括以下步骤:
步骤30211:将绘本图片(包括封面和内页)的按照RGB三个通道输入到卷积神经网络(CNN)中;
步骤30212:所述卷积神经网络做卷积处理;
步骤30213:所述卷积神经网络做池化(Pooling)处理;
步骤30214:将步骤30212和步骤30213重复多次,提取局部特征;
步骤30215:将池化得到的向量数据,通过多层全连接层,计算全局特征;
步骤30216:将全局特征,通过softmax回归算法,分类到相应的绘本图片,从而得到深度学习模型中图片识别模型的特征样本。可选的,若每次识别绘本照片时均先识别该绘本照片是否是绘本封面照片时,这里的预处理步骤可以只针对绘本封面图片来进行,这样可以提高绘本封面照片的识别准确度,同时可以减少处理量,从而节约系统资源。
步骤3022:比对深度学习模型中图片识别模型的特征样本;可选的,若所述图片识别模型仅为针对绘本封面图片的封面识别模型,该封面识别模型相比通用物体识别,比对的样本更少,相对更精准。
步骤3023:得到绘本照片与多个近似的绘本图片比对后的识别结果和得分,识别结果可按照得分升序排列。
步骤3024:若最高得分高于或等于预设得分阈值,则将相应的识别结果对应的音频链接发到设备端;若最高分数低于预设得分阈值,则不发送。
上述具体实施方式中,可仅用于对于绘本封面照片的识别,这样可以提高绘本封面照片的识别准确度,同时可以减少处理量,从而节约系统资源。
通过上述实施例中提供的深度学习算法,提高了绘本照片的识别准确度。
识别所述绘本照片的步骤302,还可具体包括以下步骤:
将所述绘本照片与数据库中存储的绘本封面图片进行比对;
若所述绘本照片与数据库中存储的任一绘本封面图片匹配,则所述绘本照片被识别为绘本封面照片;
若所述绘本照片不与数据库中存储的任何绘本封面图片匹配,则确定所述绘本照片是否携带绘本ID;这个绘本ID是在先识别得出绘本封面照片时服务器返回的绘本ID,当服务器接收到这个绘本ID且所述绘本照片不与数据库中存储的任何绘本封面图片匹配时,说明此时需要判定所述绘本照片是不是与所述绘本ID对应的绘本的绘本内页照片;
若所述绘本照片携带绘本ID,根据所述绘本ID确定相应的绘本,并将所述绘本照片与数据库中存储的与所述绘本对应的绘本内页图片(即,仅包括与绘本ID关联的绘本内页图片的数据集)进行比对;
若所述绘本照片与数据库中存储的与所述绘本对应的任一绘本内页图片匹配,则所述绘本照片被识别为绘本内页照片;
若所述绘本照片不与数据库中存储的与所述绘本对应的任何绘本内页图片匹配,则所述绘本照片被识别为未录入绘本的照片或新绘本的绘本封面照片。
通过上述实施例,设计了识别绘本照片的具体顺序,采用先确定绘本照片是否是绘本封面照片的方式,在识别的第一步将数据库约束在绘本封面图片数据库中,识别会更快更准确;若该绘本照片不是绘本封面照片,则确定是否携带绘本ID,并当确定携带有绘本ID时,利用该绘本ID进行绘本内页图片的识别,从而将数据库约束在与绘本ID对应的绘本内页图片数据库中,识别同样会更快更准确。
较佳的,在一些可选实施方式中,在利用该绘本ID进行绘本内页图片的识别时,除了直接将其与所述绘本ID对应的绘本内页图片中进行比对外,还可采用以下步骤来实现:
将所述绘本照片在包含所以绘本内页图片的数据库中进行比对;
对与绘本ID相关联的绘本内页图片增加置信度权重;
得到识别结果和与所述识别结果相应的得分;这里,与绘本ID相关联的绘本内页图片由于被增加了置信度权重,其得分会相对高一些,但若所述绘本照片并不是与绘本ID相关联的绘本内页图片,通过这种方式还是可以识别出正确的结果。
在一些可选实施方式中,所述绘本照片为连续采集的两张以上绘本照片;
识别所述绘本照片,得到识别结果和与所述识别结果相应的得分的步骤,包括:
识别每张绘本照片;
若每张绘本照片的识别结果相同,则将该识别结果和与所述识别结果相应的得分输出。在多张连续的绘本照片的识别结果相同时,说明识别结果连续,可以假定为绘本的书页处于稳定的阅读中,此时的结果相比未做处理的识别方法更加准确。
在一些可选实施方式中,所述绘本识别方法,还可包括以下步骤:
持续接收绘本照片;
识别所述绘本照片,并得到识别结果;
若所述识别结果与在先的识别结果不同,则判定为绘本被翻页,并返回翻页提示指令。可选的,通过提取绘本照片中的关键交点信息,作为绘本照片的指纹,当前后绘本照片的指纹不一致时,可认为发生了翻页。
通过上述实施例,实现了翻页的自动识别,而无需用户进行额外操作。
在一些可选实施方式中,所述绘本识别方法,还可包括以下步骤:
接收新的绘本照片及其绘本ID;
根据所述绘本ID,识别所述新的绘本照片,得到识别结果和与所述识别结果相应的得分;即,根据绘本ID确定相应的绘本,并将所述新的绘本照片在相应绘本的绘本内页图片中进行比对,从而能够得出更准确的识别结果;
返回得分高于得分阈值的识别结果所对应的第二音频链接;
根据所述第二音频链接,传输第二音频流。
通过上述实施例,完成了对于携带有绘本ID的绘本照片的识别,向设备端返回了新的音频链接,从而使得设备端能够进行新的一页绘本的相关音频的播放。
本发明还提供了一种能够提高绘本识别正确率的绘本识别方法的第四个实施例。如图4所示,为本发明提供的绘本识别方法的第四个实施例的流程示意图。
所述绘本识别方法,包括:
步骤401:接收绘本照片;
步骤402:将所述绘本照片与数据库中存储的绘本封面图片进行比对;
步骤403:若所述绘本照片与数据库中存储的任一绘本封面图片匹配,则所述绘本照片被识别为绘本封面照片,得到识别结果和与所述识别结果相应的得分;
步骤404:若所述绘本照片不与数据库中存储的任何绘本封面图片匹配,则确定所述绘本照片是否携带绘本ID;
步骤405:若所述绘本照片不携带绘本ID,将所述绘本照片与数据库中所有绘本内页图片进行比对,得到识别结果和与所述识别结果相应的得分;
步骤406:若所述绘本照片携带绘本ID,根据所述绘本ID确定相应的绘本,并将所述绘本照片与数据库中存储的与所述绘本对应的绘本内页图片进行比对;
步骤407:若所述绘本照片与数据库中存储的与所述绘本对应的任一绘本内页图片匹配,则所述绘本照片被识别为绘本内页照片,得到识别结果和与所述识别结果相应的得分;
步骤408:若所述绘本照片不与数据库中存储的与所述绘本对应的任何绘本内页图片匹配,则所述绘本照片被识别为未录入绘本的照片或新绘本的绘本封面照片;
步骤409:比对所述识别结果与在先得到的识别结果;
步骤410:若所述识别结果与在先的识别结果不同,则判定为绘本被翻页,并返回翻页提示指令,并回到步骤401;
步骤411:若所述识别结果与在先的识别结果相同,返回得分高于得分阈值的识别结果所对应的音频链接;当所述绘本照片为绘本封面照片,还需要返回与所述绘本封面照片对应的绘本ID;
步骤412:根据所述音频链接,传输音频流。
从上述实施例可以看出,本发明实施例提供了一种绘本识别方法,通过图像识别技术判断是绘本照片是否为绘本封面照片,在识别为绘本封面照片时将对应的音频链接和绘本ID发到设备端,设备端连接音频流并播放出来,并且,在绘本翻页后,设备端在后续上传绘本照片时携带所述绘本ID,约束了内页的特征检索库,降低了检索时间,排除了大量的相似度较高的错误书页,进而达到增加识别准确率,减少识别时间的目的。
基于上述目的,本发明实施例的第三个方面,提供了一种能够提高绘本识别正确率的绘本识别装置。如图5所示,为本发明提供的绘本识别装置的第一个实施例的结构示意图。
所述绘本识别装置,可选的,所述绘本识别装置为具有图像采集功能的设备,包括:
采集模块501,用于按照预设采集频率,采集绘本照片;所述预设采集频率可以是默认值也可以根据用户的需求进行自定义,可选的,可设置为200ms/次;所述采集模块501中可包括用于采集绘本照片的摄像头,所述摄像头可以是任何电子设备(如手机、平板电脑、相机等等)上具有的摄像头,也可以是基于本发明而专门设计的采集装置中安装的摄像头;所述绘本照片是指通过摄像头拍摄绘本而得到的照片,可以是绘本封面照片,也可以是绘本内页照片,可因为用户目前将绘本翻到不同页数而不同。
上传模块502,用于上传所述绘本照片至服务器;可选的,在上传所述绘本照片之前,还可先对绘本照片进行处理,例如,压缩图片、过滤动态模糊图片、图像二值化、灰度图处理、SIFT特征提取、交点特征提取等,处理方法包含但不仅限于这几种方法。上传所述绘本照片的方式可以是在WIFI环境下通过WIFI模块连接宽带网络后进行上传,当设备端为手机等智能设备时,也可以是通过移动网络上传。
当服务器针对所述绘本照片得到满足要求的识别结果时,会将识别结果对应的第一音频链接返回,此时,第一接收模块503,用于接收服务器返回的与所述绘本照片对应的第一音频链接(亦即识别结果对应的第一音频链接);若所述绘本照片为绘本封面照片,则确定用户当前正在阅读与所述绘本封面照片对应的绘本,此时,第一接收模块503还用于接收与所述绘本封面照片对应的绘本ID(亦即与所述绘本封面照片对应的绘本的绘本ID);所述绘本ID用于后续上传绘本照片时作为携带信息,从而作为服务器判断绘本的依据;其中,所述第一音频链接可以是指音频对应URL。
播放模块504,用于根据所述第一音频链接,连接服务器中的第一音频流并播放音频。这里播放的音频则为与所述绘本照片相对应的绘本页所匹配的音频,该音频可以是读出了绘本页中全部文字的音频,在某些情况下,也可以是读出了绘本页中部分文字的音频,还可以额外读出绘本页中不包含的文字的音频;所述音频作为读出绘本页中全部文字的音频时,朗读方式可以是从上到下、从左往右的朗读方式。
从上述实施例可以看出,本发明实施例提供的绘本识别装置,通过摄像头自动采集绘本照片并上传给服务器进行识别,当绘本照片被识别为绘本封面照片时,接收对应的绘本ID,使得在后续上传绘本照片时携带所述绘本ID供服务器确定绘本照片来自于哪一个绘本,在确定绘本后,能够约束绘本的特征检索库,降低检索时间,排除大量的相似度较高的错误的绘本页,在关键特征点检索时会更快更准确。
本发明还提供了一种能够提高绘本识别正确率的绘本识别装置的第二个实施例。如图6所示,为本发明提供的绘本识别装置的第二个实施例的结构示意图。
所述绘本识别装置,包括:
提示模块601,用于接收启动信号,发出提示音和/或提示信息;可选的,所述启动信号,可以是设备的开机信号;也可以是在使用手机APP实现所述绘本识别方法时,因为打开了相应的APP而产生的启动信号;所述提示音可以是任意的可以起到提示作用的声音;所述提示信息可以是显示在设备屏幕上的一段文字,例如,“您已开始使用绘本识别工具,请拍摄绘本的封面。”所述提示音和提示信息可以分开使用也可以结合使用,二者的主要目的在于提示用户首先进行绘本封面的拍摄,使得服务器能够首先识别出绘本封面并确定绘本ID,从而便于后续的绘本内页识别时约束特征数据库。
采集模块501,用于按照预设采集频率,采集绘本照片;在绘本被翻页的情况下,还用于按照预设采集频率,采集新的绘本照片。
上传模块502,用于上传所述绘本照片至服务器;在已经接收到绘本ID的情况下,还用于上传所述新的绘本照片和所述绘本ID至服务器。
第一接收模块503,用于接收服务器返回的与所述绘本照片对应的第一音频链接;若所述绘本照片为绘本封面照片,还用于接收与所述绘本封面照片对应的绘本ID;还用于接收服务器返回的翻页提示指令;以及,用于接收服务器返回的与所述新的绘本照片对应的第二音频链接。
播放模块504,用于根据所述第一音频链接,连接服务器中的第一音频流并播放音频;还用于根据所述第二音频链接,连接服务器中的第二音频流并播放音频。
从上述实施例可以看出,本发明提供了的绘本识别装置,通过摄像头对绘本拍照,将绘本照片上传到指定的服务器,当服务器通过图像识别技术判断是某一绘本的封面,然后将对应的音频链接及绘本ID发回,设备端将连接音频流并播放出来;在判定绘本翻页后,将绘本照片及其绘本ID上传到指定的服务器,根据绘本ID约束了绘本内页的特征检索库,降低了检索时间,排除了大量的相似度较高的错误绘本页,进而达到增加识别准确率,减少识别时间的目的。
在一些可选实施方式中,所述绘本识别装置,还可包括过滤模块,具体用于:
比对采集得到的绘本照片;
当相同的绘本照片的数量超过预设数量阈值时,删除超过所述预设数量阈值的绘本照片;例如,连续得到的8张绘本照片都是相同的,若所述预设数量阈值为5,则删除所述8张相同的绘本照片中的3张。可选的,所述预设数量阈值,可以是系统默认设定的,也可以根据用户或服务提供商的需求而进行自定义设定;较佳的,具体的预设数量阈值的选定,以能够满足结果连续的有效判断为前提。
基于上述目的,本发明实施例的第四个方面,提供了另一种能够提高绘本识别正确率的绘本识别装置。如图7所示,为本发明提供的绘本识别装置的第三个实施例的结构示意图。
所述绘本识别装置,可选的,所述绘本识别装置为具有图像识别功能的服务器,包括:
第二接收模块701,用于接收绘本照片;
识别模块702,用于识别所述绘本照片,得到识别结果和与所述识别结果相应的得分;可选的,通过图片识别模型来识别绘本照片,同时,所述图片识别模型在得出识别结果时,能够得出该识别结果相应的得分,所述得分可以结合各种参数来确定,其中的参数之一可以是绘本照片与识别结果对应的绘本图片之间的相似度。
发送模块703,用于返回得分高于得分阈值的识别结果所对应的第一音频链接(可选的,为与绘本照片对应的绘本页相应的音频的URL地址);若所述绘本照片为绘本封面照片,则确定用户当前正在阅读与所述绘本封面照片对应的绘本,此时,还返回与所述绘本封面照片对应的绘本ID(亦即与所述绘本封面照片对应的绘本的绘本ID),所述绘本ID用于后续设备端上传绘本照片时作为携带信息,从而作为判断绘本的依据。所述得分阈值,可以是系统默认设定的,也可以根据用户或服务提供商的需求而进行自定义设定或随时进行修正;较佳的,具体的得分阈值的选定,以能够使识别结果具有较高的准确性为前提。
传输模块704,用于根据所述第一音频链接,传输第一音频流。
从上述实施例可以看出,本发明实施例提供的绘本识别装置,在接收自动采集的绘本照片后对其进行识别,当绘本照片被识别为绘本封面照片时,向设备端返回对应的绘本ID,使得设备端在后续上传绘本照片时携带所述绘本ID供服务器确定绘本照片来自于哪一个绘本,在确定绘本后,能够约束绘本的特征检索库,降低检索时间,排除大量的相似度较高的错误的绘本页,在关键特征点检索时会更快更准确。
在一些可选实施方式中,结合附图3b,所述识别模块702,可用于通过计算机视觉技术(例如深度学习算法)对绘本照片进行识别,并且还可具体用于实现以下步骤:
步骤3021:对绘本照片的关键特征进行提取;
绘本照片的识别可通过深度卷积网络来做图片分类,对每一个绘本图片(包括封面和内页),可预先在本地做图片关键区域的提取,减少背景的干扰,同时对于每个绘本图片,在预先采集时,拍摄不同光照、不同角度100张图片,用来做DNN(深度神经网络)的训练,通过以上方法,达到很高的识别准确率。可选的,若每次识别绘本照片时均先识别该绘本照片是否是绘本封面照片时,这里的预处理步骤可以只针对绘本封面图片来进行,这样可以提高绘本封面照片的识别准确度,同时可以减少处理量,从而节约系统资源。
进一步的,对照片的关键特征进行提取步骤3021,采用的是深度学习算法,具体可以包括以下步骤:
步骤30211:将绘本图片(包括封面和内页)的按照RGB三个通道输入到卷积神经网络(CNN)中;
步骤30212:所述卷积神经网络做卷积处理;
步骤30213:所述卷积神经网络做池化(Pooling)处理;
步骤30214:将步骤30212和步骤30213重复多次,提取局部特征;
步骤30215:将池化得到的向量数据,通过多层全连接层,计算全局特征;
步骤30216:将全局特征,通过softmax回归算法,分类到相应的绘本图片,从而得到深度学习模型中图片识别模型的特征样本。可选的,若每次识别绘本照片时均先识别该绘本照片是否是绘本封面照片时,这里的预处理步骤可以只针对绘本封面图片来进行,这样可以提高绘本封面照片的识别准确度,同时可以减少处理量,从而节约系统资源。
步骤3022:比对深度学习模型中图片识别模型的特征样本;可选的,若所述图片识别模型仅为针对绘本封面图片的封面识别模型,该封面识别模型相比通用物体识别,比对的样本更少,相对更精准。
步骤3023:得到绘本照片与多个近似的绘本图片比对后的识别结果和得分,识别结果可按照得分升序排列。
步骤3024:若最高得分高于或等于预设得分阈值,则将相应的识别结果对应的音频链接发到设备端;若最高分数低于预设得分阈值,则不发送。
上述具体实施方式中,可仅用于对于绘本封面照片的识别,这样可以提高绘本封面照片的识别准确度,同时可以减少处理量,从而节约系统资源。
通过上述实施例中提供的深度学习算法,提高了绘本照片的识别准确度。
在一些可选实施方式中,所述识别模块702,还可具体用于:
将所述绘本照片与数据库中存储的绘本封面图片进行比对;
若所述绘本照片与数据库中存储的任一绘本封面图片匹配,则所述绘本照片被识别为绘本封面照片;
若所述绘本照片不与数据库中存储的任何绘本封面图片匹配,则确定所述绘本照片是否携带绘本ID;这个绘本ID是在先识别得出绘本封面照片时服务器返回的绘本ID,当服务器接收到这个绘本ID且所述绘本照片不与数据库中存储的任何绘本封面图片匹配时,说明此时需要判定所述绘本照片是不是与所述绘本ID对应的绘本的绘本内页照片;
若所述绘本照片携带绘本ID,根据所述绘本ID确定相应的绘本,并将所述绘本照片与数据库中存储的与所述绘本对应的绘本内页图片(即,仅包括与绘本ID关联的绘本内页图片的数据集)进行比对;
若所述绘本照片与数据库中存储的与所述绘本对应的任一绘本内页图片匹配,则所述绘本照片被识别为绘本内页照片;
若所述绘本照片不与数据库中存储的与所述绘本对应的任何绘本内页图片匹配,则所述绘本照片被识别为未录入绘本的照片或新绘本的绘本封面照片。
通过上述实施例,设计了识别绘本照片的具体顺序,采用先确定绘本照片是否是绘本封面照片的方式,在识别的第一步将数据库约束在绘本封面图片数据库中,识别会更快更准确;若该绘本照片不是绘本封面照片,则确定是否携带绘本ID,并当确定携带有绘本ID时,利用该绘本ID进行绘本内页图片的识别,从而将数据库约束在与绘本ID对应的绘本内页图片数据库中,识别同样会更快更准确。
较佳的,在一些可选实施方式中,所述识别模块702在利用该绘本ID进行绘本内页图片的识别时,除了直接将其与所述绘本ID对应的绘本内页图片中进行比对外,还可用于实施以下步骤:
将所述绘本照片在包含所以绘本内页图片的数据库中进行比对;
对与绘本ID相关联的绘本内页图片增加置信度权重;
得到识别结果和与所述识别结果相应的得分;这里,与绘本ID相关联的绘本内页图片由于被增加了置信度权重,其得分会相对高一些,但若所述绘本照片并不是与绘本ID相关联的绘本内页图片,通过这种方式还是可以识别出正确的结果。
在一些可选实施方式中,所述绘本照片为连续采集的两张以上绘本照片;
所述识别模块702,具体用于:
识别每张绘本照片;
若每张绘本照片的识别结果相同,则将该识别结果和与所述识别结果相应的得分输出。在多张连续的绘本照片的识别结果相同时,说明识别结果连续,可以假定为绘本的书页处于稳定的阅读中,此时的结果相比未做处理的识别方法更加准确。
在一些可选实施方式中,所述第二接收模块701,还用于持续接收绘本照片;
所述识别模块702,用于识别所述绘本照片,并得到识别结果;若所述识别结果与在先的识别结果不同,则判定为绘本被翻页;
所述发送模块703,还用于返回翻页提示指令。可选的,通过提取绘本照片中的关键交点信息,作为绘本照片的指纹,当前后绘本照片的指纹不一致时,可认为发生了翻页。
通过上述实施例,实现了翻页的自动识别,而无需用户进行额外操作。
在一些可选实施方式中,所述第二接收模块701,还用于接收新的绘本照片及其绘本ID;
所述识别模块702,还用于根据所述绘本ID,识别所述新的绘本照片,得到识别结果和与所述识别结果相应的得分;即,根据绘本ID确定相应的绘本,并将所述新的绘本照片在相应绘本的绘本内页图片中进行比对,从而能够得出更准确的识别结果;
所述发送模块703,还用于返回得分高于得分阈值的识别结果所对应的第二音频链接;
所述传输模块704,用于根据所述第二音频链接,传输第二音频流。
通过上述实施例,完成了对于携带有绘本ID的绘本照片的识别,向设备端返回了新的音频链接,从而使得设备端能够进行新的一页绘本的相关音频的播放。
基于上述目的,本发明实施例的第五个方面,提供了一种能够提高绘本识别正确率的绘本识别系统。
所述绘本识别系统,包括:如前述的本发明实施例的第三个方面提供的任一项实施例所述的装置(参照附图5和附图6),以及,如前述的本发明实施例的第四个方面提供的任一项实施例所述的装置(参照附图7)。
从上述实施例可以看出,本发明实施例提供的绘本识别系统,通过摄像头自动采集绘本照片并上传给服务器进行识别,当绘本照片被识别为绘本封面照片时,接收对应的绘本ID,使得在后续上传绘本照片时携带所述绘本ID供服务器确定绘本照片来自于哪一个绘本,在确定绘本后,能够约束绘本的特征检索库,降低检索时间,排除大量的相似度较高的错误的绘本页,在关键特征点检索时会更快更准确。
基于上述目的,本发明实施例的第六个方面,提供了一种能够提高绘本识别正确率的电子设备。如图8所示,为本发明提供的电子设备的第一个实施例的结构示意图。
如图8所示,所述电子设备包括:
用于采集照片的摄像头;
一个或多个第一处理器801以及第一存储器802,图8中以一个第一处理器801为例。
所述执行所述绘本识别方法的电子设备还可以包括:第一输入装置803和第一输出装置804。
第一处理器801、第一存储器802、第一输入装置803和第一输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
第一存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述绘本识别方法对应的程序指令/模块(例如,附图5所示的采集模块501、上传模块502、第一接收模块503和播放模块504)。第一处理器801通过运行存储在第一存储器802中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的绘本识别方法。
第一存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据数据推荐装置的使用所创建的数据等。此外,第一存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,第一存储器802可选包括相对于第一处理器801远程设置的存储器,这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
第一输入装置803可接收输入的数字或字符信息,以及产生与绘本识别装置的用户设置以及功能控制有关的键信号输入。第一输出装置804可包括显示屏等显示设备。
所述一个或者多个模块存储在所述第一存储器802中,当被所述一个或者多个第一处理器801执行时,执行上述任意方法实施例中的绘本识别方法。所述执行所述绘本识别方法的电子设备的实施例,其技术效果与前述任意方法实施例相同或者类似。
基于上述目的,本发明实施例的第七个方面,提供了另一种能够提高绘本识别正确率的电子设备。如图9所示,为本发明提供的电子设备的第二个实施例的结构示意图。
如图9所示,所述电子设备包括:
一个或多个第二处理器901以及第二存储器902,图9中以一个第二处理器901为例。
所述执行所述绘本识别方法的电子设备还可以包括:第二输入装置903和第二输出装置904。
第二处理器901、第二存储器902、第二输入装置903和第二输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
第二存储器902作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述绘本识别方法对应的程序指令/模块(例如,附图7所示的第二接收模块701、识别模块702、发送模块703和传输模块704)。第二处理器901通过运行存储在第二存储器902中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的绘本识别方法。
第二存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据数据推荐装置的使用所创建的数据等。此外,第二存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,第二存储器902可选包括相对于第二处理器901远程设置的存储器,这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
第二输入装置903可接收输入的数字或字符信息,以及产生与绘本识别装置的用户设置以及功能控制有关的键信号输入。第二输出装置904可包括显示屏等显示设备。
所述一个或者多个模块存储在所述第二存储器902中,当被所述一个或者多个第二处理器901执行时,执行上述任意方法实施例中的绘本识别方法。所述执行所述绘本识别方法的电子设备的实施例,其技术效果与前述任意方法实施例相同或者类似。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (19)

1.一种绘本识别方法,其特征在于,应用于具有摄像头的装置,包括:
按照预设采集频率,通过摄像头采集绘本照片;
上传所述绘本照片至服务器;
接收服务器返回的与所述绘本照片对应的第一音频链接;若所述绘本照片为绘本封面照片,还接收与所述绘本封面照片对应的绘本ID;在后续上传新的绘本图片至服务器时,所述绘本ID用于连同所述新的绘本图片一起上传至服务器以确定所述新的绘本图片相应的绘本进而约束绘本的特征检索库;
根据所述第一音频链接,连接服务器中的第一音频流并播放音频;
接收服务器返回的翻页提示指令;
按照预设采集频率,通过摄像头采集新的绘本照片;
上传所述新的绘本照片和所述绘本ID至服务器,以使所述服务器基于所述绘本ID将所述新的绘本照片与所述绘本对应的绘本内页图片进行比对;
接收服务器返回的与所述新的绘本照片对应的第二音频链接;
根据所述第二音频链接,连接服务器中的第二音频流并播放音频。
2.根据权利要求1所述的方法,其特征在于,还包括:
接收启动信号,发出提示音或提示信息。
3.一种绘本识别方法,其特征在于,应用于服务器,包括:
接收绘本照片;
识别所述绘本照片,得到识别结果和与所述识别结果相应的得分;若所述绘本照片携带绘本ID,根据所述绘本ID确定相应的绘本,并将所述绘本照片与数据库中存储的与所述绘本对应的绘本内页图片进行比对;
返回得分高于得分阈值的识别结果所对应的第一音频链接;若所述绘本照片为绘本封面照片,还返回与所述绘本封面照片对应的绘本ID;在后续接收到新的绘本图片时,所述绘本ID用以确定所述新的绘本图片相应的绘本进而约束绘本的特征检索库;
根据所述第一音频链接,传输第一音频流。
4.根据权利要求3所述的方法,其特征在于,识别所述绘本照片的步骤,包括:
将所述绘本照片与数据库中存储的绘本封面图片进行比对;
若所述绘本照片与数据库中存储的任一绘本封面图片匹配,则所述绘本照片被识别为绘本封面照片;
若所述绘本照片不与数据库中存储的任何绘本封面图片匹配,则确定所述绘本照片是否携带绘本ID。
5.根据权利要求4所述的方法,其特征在于,还包括:
若所述绘本照片与数据库中存储的与所述绘本对应的任一绘本内页图片匹配,则所述绘本照片被识别为绘本内页照片;
若所述绘本照片不与数据库中存储的与所述绘本对应的任何绘本内页图片匹配,则所述绘本照片被识别为未录入绘本的照片或新绘本的绘本封面照片。
6.根据权利要求3-5任一项所述的方法,其特征在于,所述绘本照片为连续采集的两张以上绘本照片;
识别所述绘本照片,得到识别结果和与所述识别结果相应的得分的步骤,包括:
识别每张绘本照片;
若每张绘本照片的识别结果相同,则将该识别结果和与所述识别结果相应的得分输出。
7.根据权利要求3所述的方法,其特征在于,还包括:
持续接收绘本照片;
识别所述绘本照片,并得到识别结果;
若所述识别结果与在先的识别结果不同,则判定为绘本被翻页,并返回翻页提示指令。
8.根据权利要求7所述的方法,其特征在于,还包括:
接收新的绘本照片及其绘本ID;
识别所述新的绘本照片,得到识别结果和与所述识别结果相应的得分;
返回得分高于得分阈值的识别结果所对应的第二音频链接;
根据所述第二音频链接,传输第二音频流。
9.一种绘本识别装置,其特征在于,包括:
采集模块,用于按照预设采集频率,采集绘本照片;
上传模块,用于上传所述绘本照片至服务器;
第一接收模块,用于接收服务器返回的与所述绘本照片对应的第一音频链接;若所述绘本照片为绘本封面照片,还用于接收与所述绘本封面照片对应的绘本ID;在后续上传新的绘本图片至服务器时,所述绘本ID用于连同所述新的绘本图片一起上传至服务器以确定所述新的绘本图片相应的绘本进而约束绘本的特征检索库;
播放模块,用于根据所述第一音频链接,连接服务器中的第一音频流并播放音频;
所述采集模块,还用于按照预设采集频率,采集新的绘本照片;
所述上传模块,还用于上传所述新的绘本照片和所述绘本ID至服务器,以使所述服务器基于所述绘本ID将所述新的绘本照片与所述绘本对应的绘本内页图片进行比对;
所述第一接收模块,还用于接收服务器返回的翻页提示指令;以及,用于接收服务器返回的与所述新的绘本照片对应的第二音频链接;
所述播放模块,还用于根据所述第二音频链接,连接服务器中的第二音频流并播放音频。
10.根据权利要求9所述的装置,其特征在于,还包括:
提示模块,用于接收启动信号,发出提示音或提示信息。
11.一种绘本识别装置,其特征在于,应用于服务器,包括:
第二接收模块,用于接收绘本照片;
识别模块,用于识别所述绘本照片,得到识别结果和与所述识别结果相应的得分;若所述绘本照片携带绘本ID,根据所述绘本ID确定相应的绘本,并将所述绘本照片与数据库中存储的与所述绘本对应的绘本内页图片进行比对;
发送模块,用于返回得分高于得分阈值的识别结果所对应的第一音频链接;若所述绘本照片为绘本封面照片,还用于返回与所述绘本封面照片对应的绘本ID;在后续接收到新的绘本图片时,所述绘本ID用以确定所述新的绘本图片相应的绘本进而约束绘本的特征检索库;
传输模块,用于根据所述第一音频链接,传输第一音频流。
12.根据权利要求11所述的装置,其特征在于,所述识别模块,具体用于:
将所述绘本照片与数据库中存储的绘本封面图片进行比对;
若所述绘本照片与数据库中存储的任一绘本封面图片匹配,则所述绘本照片被识别为绘本封面照片;
若所述绘本照片不与数据库中存储的任何绘本封面图片匹配,则确定所述绘本照片是否携带绘本ID。
13.根据权利要求12所述的装置,其特征在于,所述识别模块,具体用于:
若所述绘本照片与数据库中存储的与所述绘本对应的任一绘本内页图片匹配,则所述绘本照片被识别为绘本内页照片;
若所述绘本照片不与数据库中存储的与所述绘本对应的任何绘本内页图片匹配,则所述绘本照片被识别为未录入绘本的照片或新绘本的绘本封面照片。
14.根据权利要求11-13任一项所述的装置,其特征在于,所述绘本照片为连续采集的两张以上绘本照片;
所述识别模块,具体用于:
识别每张绘本照片;
若每张绘本照片的识别结果相同,则将该识别结果和与所述识别结果相应的得分输出。
15.根据权利要求11所述的装置,其特征在于,
所述第二接收模块,还用于持续接收绘本照片;
所述识别模块,用于识别所述绘本照片,并得到识别结果;若所述识别结果与在先的识别结果不同,则判定为绘本被翻页;
所述发送模块,还用于返回翻页提示指令。
16.根据权利要求15所述的装置,其特征在于,
所述第二接收模块,还用于接收新的绘本照片及其绘本ID;
所述识别模块,还用于识别所述新的绘本照片,得到识别结果和与所述识别结果相应的得分;
所述发送模块,还用于返回得分高于得分阈值的识别结果所对应的第二音频链接;
所述传输模块,用于根据所述第二音频链接,传输第二音频流。
17.一种绘本识别系统,其特征在于,包括:如权利要求9或10所述的装置,以及,如权利要求11-16任一项所述的装置。
18.一种电子设备,包括:
用于采集照片的摄像头;
至少一个第一处理器;以及,
与所述至少一个第一处理器通信连接的第一存储器;其中,
所述第一存储器存储有可被所述一个第一处理器执行的指令,所述指令被所述至少一个第一处理器执行,以使所述至少一个第一处理器能够执行如权利要求1或2所述的方法。
19.一种电子设备,包括:
至少一个第二处理器;以及,
与所述至少一个第二处理器通信连接的第二存储器;其中,
所述第二存储器存储有可被所述一个第二处理器执行的指令,所述指令被所述至少一个第二处理器执行,以使所述至少一个第二处理器能够执行如权利要求3-8任一项所述的方法。
CN201710138012.4A 2017-03-09 2017-03-09 绘本识别方法、装置、系统及电子设备 Active CN107977390B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710138012.4A CN107977390B (zh) 2017-03-09 2017-03-09 绘本识别方法、装置、系统及电子设备
US15/913,570 US20180260479A1 (en) 2017-03-09 2018-03-06 Method, apparatus, system and electronic device for picture book recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710138012.4A CN107977390B (zh) 2017-03-09 2017-03-09 绘本识别方法、装置、系统及电子设备

Publications (2)

Publication Number Publication Date
CN107977390A CN107977390A (zh) 2018-05-01
CN107977390B true CN107977390B (zh) 2021-10-26

Family

ID=62004263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710138012.4A Active CN107977390B (zh) 2017-03-09 2017-03-09 绘本识别方法、装置、系统及电子设备

Country Status (2)

Country Link
US (1) US20180260479A1 (zh)
CN (1) CN107977390B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977394B (zh) * 2017-07-03 2021-01-01 北京物灵智能科技有限公司 绘本识别方法及电子设备
CN108460124A (zh) * 2018-02-26 2018-08-28 北京物灵智能科技有限公司 基于图形识别的交互方法及电子设备
CN108846428A (zh) * 2018-05-31 2018-11-20 北京智能管家科技有限公司 页面识别方法、装置、设备和存储介质
CN109542309A (zh) * 2018-12-06 2019-03-29 北京物灵智能科技有限公司 一种基于电子设备的绘画方法及系统
CN111405150A (zh) * 2019-02-27 2020-07-10 深圳启萌星科技有限公司 一种基于图像分割的交互系统及方法
CN110033023B (zh) * 2019-03-11 2021-06-15 北京光年无限科技有限公司 一种基于绘本识别的图像数据处理方法及系统
CN110263187A (zh) * 2019-06-19 2019-09-20 深圳市沃特沃德股份有限公司 绘本识别方法、装置、存储介质及计算机设备
CN110430127B (zh) * 2019-09-03 2021-11-09 深圳市沃特沃德软件技术有限公司 基于绘本阅读的语音处理方法、装置及存储介质
CN110765926B (zh) * 2019-10-21 2023-05-09 杭州易现先进科技有限公司 图画书识别方法、装置、电子设备和存储介质
CN110909196B (zh) * 2019-10-28 2022-07-01 北京光年无限科技有限公司 识别绘本阅读过程中内页封面切换的处理方法和装置
CN111008295A (zh) * 2019-11-13 2020-04-14 广东小天才科技有限公司 书页检索方法、装置、电子设备和存储介质
CN111210484B (zh) * 2019-12-31 2024-04-19 上海联影智能医疗科技有限公司 医学图像生成方法、模型训练方法、装置及介质
CN111998259A (zh) * 2020-09-08 2020-11-27 安徽声讯信息技术有限公司 一种基于台灯的智能学习辅助系统
CN113449655A (zh) * 2021-06-30 2021-09-28 东莞市小精灵教育软件有限公司 封面图像的识别方法、装置、存储介质及识别设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101137011A (zh) * 2006-08-29 2008-03-05 索尼株式会社 图像处理装置、图像处理方法和计算机程序
CN102214222A (zh) * 2011-06-15 2011-10-12 中国电信股份有限公司 通过手机摄像获取景物资讯的预分类及交互系统和方法
CN104391878A (zh) * 2014-10-31 2015-03-04 小米科技有限责任公司 图书检索方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5059126A (en) * 1990-05-09 1991-10-22 Kimball Dan V Sound association and learning system
US7085693B2 (en) * 2001-06-19 2006-08-01 International Business Machines Corporation Manipulation of electronic media using off-line media
US7675641B2 (en) * 2004-10-28 2010-03-09 Lexmark International, Inc. Method and device for converting scanned text to audio data via connection lines and lookup tables
CN201540655U (zh) * 2009-05-13 2010-08-04 崔伟 发音书
US10220646B2 (en) * 2010-07-06 2019-03-05 Sparkup Ltd. Method and system for book reading enhancement
US8434685B1 (en) * 2010-09-14 2013-05-07 Amazon Technologies, Inc. Accessory devices configured to display supplemental content
US8998671B2 (en) * 2010-09-30 2015-04-07 Disney Enterprises, Inc. Interactive toy with embedded vision system
CN103761892B (zh) * 2014-01-20 2016-02-03 广东小天才科技有限公司 一种语音播放纸质书籍内容的方法及装置
US20160092854A1 (en) * 2014-09-26 2016-03-31 Kobo Inc. System and method for using book recognition to facilitate a user's acquisition of e-books
CN105447499B (zh) * 2015-10-23 2018-09-04 北京爱乐宝机器人科技有限公司 一种图书互动方法、装置和设备
CN206097909U (zh) * 2016-09-28 2017-04-12 北京邮电大学 一种用于乐谱图像识别的电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101137011A (zh) * 2006-08-29 2008-03-05 索尼株式会社 图像处理装置、图像处理方法和计算机程序
CN102214222A (zh) * 2011-06-15 2011-10-12 中国电信股份有限公司 通过手机摄像获取景物资讯的预分类及交互系统和方法
CN104391878A (zh) * 2014-10-31 2015-03-04 小米科技有限责任公司 图书检索方法和装置

Also Published As

Publication number Publication date
US20180260479A1 (en) 2018-09-13
CN107977390A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN107977390B (zh) 绘本识别方法、装置、系统及电子设备
CN107977391B (zh) 绘本识别方法、装置、系统及电子设备
CN107977394B (zh) 绘本识别方法及电子设备
US11270099B2 (en) Method and apparatus for generating facial feature
CN110674805B (zh) 昆虫识别方法及系统
KR101796401B1 (ko) 이미지 장면 판정 방법, 장치 및 서버
CN110612531A (zh) 数字图像的智能自动裁剪
CN107977392B (zh) 绘本识别方法、装置、系统及电子设备
CN107977599A (zh) 绘本识别方法及电子设备
CN111340131A (zh) 图像的标注方法、装置、可读介质和电子设备
CN107871001B (zh) 音频播放方法、装置、存储介质及电子设备
CN115357748A (zh) 头戴式装置
US20170171471A1 (en) Method and device for generating multimedia picture and an electronic device
CN110941992B (zh) 微笑表情检测方法、装置、计算机设备及存储介质
US20150086123A1 (en) Photo Grouping System, Photo Grouping Method- and Non-Transitory Computer-Readable Storage Medium
CN105743771A (zh) 一种分享照片的方法、装置及电子设备
CN113221718A (zh) 公式识别方法、装置、存储介质和电子设备
CN111077992B (zh) 一种点读方法、电子设备及存储介质
CN103605687A (zh) 一种移动终端的拍照识图系统和方法
CN110737795A (zh) 相册封面的确定方法、装置、设备及存储介质
CN112417918B (zh) 二维码识别方法、装置、存储介质及电子设备
CN115696028A (zh) 图像方向调整方法、装置、存储介质及电子设备
CN112990009A (zh) 基于端到端的车道线检测方法、装置、设备及存储介质
US11087121B2 (en) High accuracy and volume facial recognition on mobile platforms
CN110415689B (zh) 语音识别装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 100000 Room D529, No. 501, Floor 5, Building 2, Fourth District, Wangjing Dongyuan, Chaoyang District, Beijing

Patentee after: Beijing Wuling Technology Co.,Ltd.

Address before: 100102 room 3602, 36 / F, building 101, building 13, District 4, Wangjing East Garden, Chaoyang District, Beijing

Patentee before: BEIJING LING TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20230106

Address after: 100000 Room 815, Floor 8, Building 6, Yard 33, Guangshun North Street, Chaoyang District, Beijing

Patentee after: Luka (Beijing) Intelligent Technology Co.,Ltd.

Address before: 100000 Room D529, No. 501, Floor 5, Building 2, Fourth District, Wangjing Dongyuan, Chaoyang District, Beijing

Patentee before: Beijing Wuling Technology Co.,Ltd.

TR01 Transfer of patent right