CN107977391B

CN107977391B - 绘本识别方法、装置、系统及电子设备

Info

Publication number: CN107977391B
Application number: CN201710138762.1A
Authority: CN
Inventors: 王西; 顾嘉唯; 吴惟心; 常丰峰; 徐乐; 青海; 朱志东
Original assignee: Beijing Ling Technology Co ltd
Current assignee: Luka Beijing Intelligent Technology Co ltd
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2020-12-08
Anticipated expiration: 2037-03-09
Also published as: CN107977391A

Abstract

本发明公开了一种绘本识别方法，包括：按照预设采集频率，通过摄像头采集绘本照片；上传所述绘本照片至服务器；接收服务器返回的与绘本照片对应的识别结果；将所述识别结果存储为识别结果队列；将多个识别结果分为至少两个集合；为不同集合赋予不同权重；确定最新的识别结果占各自集合中的比例；根据所述权重和所述比例，计算所述最新的识别结果在整个识别结果队列中的有效值；若所述有效值大于预设有效值阈值，则判定为翻页。本发明还公开了绘本识别装置、系统及电子设备。本发明提出的绘本识别方法、装置、系统及电子设备，能够解决现有技术中绘本识别的错误率高的问题。

Description

绘本识别方法、装置、系统及电子设备

技术领域

本发明涉及数据处理技术领域，特别是指一种绘本识别方法、装置、系统及电子设备。

背景技术

绘本，英文称Picture Book，指一类以绘画为主，并附有少量文字的书籍。绘本不仅可用于讲故事、学知识，而且可以全面帮助孩子建构精神，培养多元智能。

传统的绘本识别方法有两种：一种是点读笔通过笔尖的光电识别器，将绘本上印制的肉眼不可见的二维码信息扫描，由笔内CPU处理识别成功后，从点读笔内存中挑出对应的音频由喇叭播放。另一种点读机使用的原理是在制作发音文件过程中，给发音文件预先设置好对应书本内容的“经纬位置”，使用者将课本置于机器平板上，用专用的笔点书本上的文字、图画、数字等内容，机器就会发出相对应的声音。

除了上述的传统的绘本识别方法外，现有技术中还有一种通过图像识别来进行绘本识别的方法。但是，现有的图片识别领域，专攻绘本识别的数据非常稀少。同时，由于不同的环境、光照原因，图片之间的差异较大，需要大量的图片训练，现有技术所采用的图像识别方法，在绘本识别上有着识别错误率高的问题。

发明内容

有鉴于此，本发明的目的在于提出一种绘本识别方法、装置、系统及电子设备，解决了现有技术中绘本识别的错误率高的问题。

基于上述目的本发明提供的绘本识别方法，应用于具有摄像头的装置，包括：

按照预设采集频率，通过摄像头采集绘本照片；

上传所述绘本照片至服务器；

接收服务器返回的与绘本照片对应的识别结果；

将所述识别结果存储为识别结果队列，所述识别结果队列中保存有多个识别结果；

将多个识别结果分为至少两个集合；

为不同集合赋予不同权重；其中，按每个集合中识别结果的接收时间先后顺序，权重的大小依次递减；

确定最新的识别结果占各自集合中的比例；

根据所述权重和所述比例，计算所述最新的识别结果在整个识别结果队列中的有效值；

若所述有效值大于预设有效值阈值，则判定为翻页。

可选的，若所述有效值小于或等于所述预设有效值阈值，则保留当前绘本页对应的识别结果。

可选的，所述上传所述绘本照片至服务器的步骤之后，还包括：

接收服务器返回的与所述绘本照片对应的第一音频链接；若所述绘本照片为绘本封面照片，还接收与所述绘本封面照片对应的绘本ID；

根据所述第一音频链接，连接服务器中的第一音频流并播放音频。

可选的，所述判定为翻页的步骤之后，还包括：

接收服务器返回的与所述最新的识别结果对应的第二音频链接；

根据所述第二音频链接，连接服务器中的第二音频流并播放音频。

可选的，所述绘本识别方法，还包括：

接收启动信号，发出提示音或提示信息。

可选的，所述识别结果队列中的识别结果的个数为n个，且所述识别结果队列被平均分为三个集合；所述三个集合中，接收时间在先的前n/3个识别结果为第一集合，接收时间处于中间的中间n/3个识别结果为第二集合，接收时间在后的最后n/3个识别结果为第三集合，并且，第一集合对应的第一权重为a，第二集合对应的第二权重为b，第三集合对应的第三权重为c，且a＞b＞c；

所述第一集合对应的最新的识别结果的第一比例为A，所述第二集合对应的最新的识别结果的第二比例为B，所述第三集合对应的最新的识别结果的第三比例为C；

所述有效值的计算方式为：

有效值＝a*A+b*B+c*C。

可选的，n取值为15，a取值为0.6，b取值为0.3，c取值为0.1。

本发明实施例的第二个方面，还提供了一种绘本识别装置，包括：

采集模块，用于按照预设采集频率，通过摄像头采集绘本照片；

上传模块，用于上传所述绘本照片至服务器；

第一接收模块，用于接收服务器返回的与绘本照片对应的识别结果；

翻页判定模块，用于将所述识别结果存储为识别结果队列，所述识别结果队列中保存有多个识别结果；将多个识别结果分为至少两个集合；为不同集合赋予不同权重；其中，按每个集合中识别结果的接收时间先后顺序，权重的大小依次递减；确定最新的识别结果占各自集合中的比例；根据所述权重和所述比例，计算所述最新的识别结果在整个识别结果队列中的有效值；以及，若所述有效值大于预设有效值阈值，则判定为翻页。

可选的，若所述有效值小于或等于所述预设有效值阈值，所述翻页判定模块，还用于保留当前绘本页对应的识别结果。

可选的，所述绘本识别装置，还包括播放模块；

所述第一接收模块，还用于接收服务器返回的与所述绘本照片对应的第一音频链接；以及，若所述绘本照片为绘本封面照片，还接收与所述绘本封面照片对应的绘本ID；

所述播放模块，用于根据所述第一音频链接，连接服务器中的第一音频流并播放音频。

可选的，所述第一接收模块，还用于接收服务器返回的与所述最新的识别结果对应的第二音频链接；

所述播放模块，还用于根据所述第二音频链接，连接服务器中的第二音频流并播放音频。

可选的，所述绘本识别装置，还包括：

提示模块，用于接收启动信号，发出提示音或提示信息。

所述有效值的计算方式为：

有效值＝a*A+b*B+c*C。

可选的，n取值为15，a取值为0.6，b取值为0.3，c取值为0.1。

本发明实施例的第三个方面，还提供了一种绘本识别系统，包括：如上任一项所述绘本识别装置，以及，服务器；

所述服务器，包括：

第二接收模块，用于接收绘本照片；

识别模块，用于识别所述绘本照片并得到识别结果；

发送模块，用于返回所述识别结果。

可选的，所述服务器还包括传输模块；

所述识别模块，还用于得到与所述识别结果相应的得分；

所述发送模块，还用于返回得分高于得分阈值的识别结果所对应的第一音频链接；以及，若所述绘本照片为绘本封面照片，还返回与所述绘本封面照片对应的绘本ID；

所述传输模块，用于根据所述第一音频链接，传输第一音频流。

可选的，所述识别模块，具体用于：

将所述绘本照片与数据库中存储的绘本封面图片进行比对；

若所述绘本照片与数据库中存储的任一绘本封面图片匹配，则所述绘本照片被识别为绘本封面照片；

若所述绘本照片不与数据库中存储的任何绘本封面图片匹配，则确定所述绘本照片是否携带绘本ID；

若所述绘本照片携带绘本ID，根据所述绘本ID确定相应的绘本，并将所述绘本照片与数据库中存储的与所述绘本对应的绘本内页图片进行比对。

可选的，所述识别模块，具体用于：

若所述绘本照片与数据库中存储的与所述绘本对应的任一绘本内页图片匹配，则所述绘本照片被识别为绘本内页照片；

若所述绘本照片不与数据库中存储的与所述绘本对应的任何绘本内页图片匹配，则所述绘本照片被识别为未录入绘本的照片或新绘本的绘本封面照片。

可选的，所述绘本照片为连续采集的两张以上绘本照片；

所述识别模块，具体用于：

识别每张绘本照片；

若每张绘本照片的识别结果相同，则将该识别结果和与所述识别结果相应的得分输出。

可选的，所述第二接收模块，还用于接收翻页提示指令和所述最新的识别结果；

所述发送模块，还用于返回所述最新的识别结果所对应的第二音频链接；

所述传输模块，用于根据所述第二音频链接，传输第二音频流。

本发明实施例的第四个方面，还提供了一种电子设备，包括：

用于采集照片的摄像头；

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述绘本识别方法。

从上面所述可以看出，本发明实施例提供的绘本识别方法、装置、系统及电子设备，通过摄像头自动采集绘本照片并上传给服务器进行识别，接收并存储服务器返回的识别结果，将所述识别结果分为具有不同权重的至少两个集合并确定最新的识别结果占各自集合中的比例，基于所述权重和比例计算最新的识别结果的有效值，当有效值大于预设有效值阈值时，说明最新的识别结果是稳定的，则确定绘本被翻页，从而保证了判定翻页的准确性，并排除了一些不确定因素，提高了绘本识别的准确性。

附图说明

图1为本发明提供的绘本识别方法的第一个实施例的流程示意图；

图2为本发明提供的绘本识别方法的第二个实施例的流程示意图；

图3为本发明提供的绘本识别装置的第一个实施例的结构示意图；

图4为本发明提供的绘本识别装置的第二个实施例的结构示意图；

图5为本发明提供的绘本识别系统的一个实施例的结构示意图；

图6为本发明提供的绘本识别系统的一个实施例中识别模块的识别流程实施例的流程示意图；

图7为本发明提供的电子设备的一个实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面提供了一种能够提高识别准确率的绘本识别方法。如图1所示，为本发明提供的绘本识别方法的第一个实施例的流程示意图。

所述绘本识别方法，可选的，应用于具有摄像头的装置，包括：

步骤101：按照预设采集频率，通过摄像头采集绘本照片；所述预设采集频率可以是默认值也可以根据用户的需求进行自定义，可选的，可设置为200ms/次；所述摄像头可以是任何电子设备(如手机、平板电脑、相机等等)上具有的摄像头，也可以是基于本发明而专门设计的采集装置中安装的摄像头；所述绘本照片是指通过摄像头拍摄绘本而得到的照片，可以是绘本封面照片，也可以是绘本内页照片，可因为用户目前将绘本翻到不同页数而不同。

步骤102：上传所述绘本照片至服务器；可选的，在上传所述绘本照片之前，还可先对绘本照片进行处理，例如，压缩图片、过滤动态模糊图片、图像二值化、灰度图处理、SIFT特征提取、交点特征提取等，处理方法包含但不仅限于这几种方法。上传所述绘本照片的方式可以是在WIFI环境下通过WIFI模块连接宽带网络后进行上传，当设备端为手机等智能设备时，除了通过WIFI上传外，也可以是通过移动网络上传。

步骤103：接收服务器返回的与绘本照片对应的识别结果；当服务器接收到所述绘本照片后，会对其进行图像识别并得到识别结果(例如，所述绘本照片属于哪个绘本、是否为绘本封面照片等)，之后，服务器会返回该识别结果，并被用于实现所述绘本识别方法的装置而接收到。

这里的与绘本照片对应的识别结果分为以下几种情况：

第一种，服务器将每张绘本照片的识别结果都返回给设备端，此时的识别结果与绘本照片是一一对应的；

第二种，服务器在得到每张绘本照片的识别结果时，还同时得出识别结果的相应得分，仅当识别结果的得分高于预设得分阈值时，服务器才将该识别结果返回；

第三种，服务器在得到每张绘本照片的识别结果时，还同时比对多张绘本照片的识别结果是否相同，仅当相同时，才返回相应的识别结果；

第四种，服务器在得到每张绘本照片的识别结果时，还同时得出识别结果的相应得分，并提取出得分高于预设得分阈值的识别结果，之后，还比对这些得分高于预设得分阈值的识别结果是否相同，仅当相同时，才返回相应的识别结果。

可以知道，以上任何一种方式都是可以应用到本发明中的，不同的选择会有不同的效果，例如第一种方式的反应速度最快，而第四种方式则能更好地使结果更加准确；实际上，根据不同的需求可以对上述四种方式进行不同的选择。

步骤104：将所述识别结果存储为识别结果队列，所述识别结果队列中保存有多个识别结果；可选的，所述识别结果队列中的识别结果是按接收时间顺序依次排列的；较佳的，所述识别结果队列中仅存储以当前时刻为基准，向前推移预设时间间隔的时间段内接收的识别结果，例如所述预设时间间隔为30秒，则所述识别结果队列中仅存储从当前时刻向前推移30秒这个时间段内接收到的识别结果，而再往前推移的相对较为陈旧的识别结果，则可进行删除，以节约本地资源。

步骤105：将多个识别结果分为至少两个集合；这里得到的至少两个集合中，识别结果的数量可以是不同的，也可以是相同的，具体的分隔方式可以根据实际需要进行调整。

步骤106：为不同集合赋予不同权重；其中，按每个集合中识别结果的接收时间先后顺序，权重的大小依次递减；可选的，可采用对每个识别结果产生时间戳，通过比对时间戳即可来判断两个识别结果的独立性及二者的先后顺序。

步骤107：确定最新的识别结果(即接收时间最靠后的识别结果，例如3个识别结果的接收时间分别是12:00:00、12:00:01、12:00:02，那么接收时间为12:00:02的识别结果即为最新的识别结果)占各自集合中的比例(例如，一个集合中识别结果的个数为5个，5个识别结果中具有的最新的识别结果有2个，那么所述比例就为2/5)；

步骤108：根据所述权重和所述比例，计算所述最新的识别结果在整个识别结果队列中的有效值；假设将多个识别结果分为具有第一权重的第一集合和具有第二权重的第二集合，第一集合对应的最新的识别结果的比例为第一比例，第二集合对应的最新的识别结果的比例为第二比例，则识别结果有效值＝第一权重*第一比例+第二权重*第二比例。

步骤109：若所述有效值大于预设有效值阈值，说明最新的识别结果在识别结果队列中占据了符合要求的数量，即该最新的识别结果是稳定的，则绘本被翻页，从而避免单一比对识别结果方案容易产生的对绘本翻页的误判。同时，还可向服务器发出翻页提示指令，从而提示服务器当前绘本被翻页。这里，所述预设有效值阈值可以根据实际需要进行设计，在此不做限定。

从上面所述可以看出，本发明实施例提供的绘本识别方法，通过摄像头自动采集绘本照片并上传给服务器进行识别，接收并存储服务器返回的识别结果，将所述识别结果分为具有不同权重的至少两个集合并确定最新的识别结果占各自集合中的比例，基于所述权重和比例计算最新的识别结果的有效值，当有效值大于预设有效值阈值时，说明最新的识别结果是稳定的，则确定绘本被翻页，从而保证了判定翻页的准确性，并排除了一些不确定因素(例如，因绘本照片拍摄不清楚而产生的错误识别，或者因用户的来回翻页而导致的不确定性等等)，提高了绘本识别的准确性。本发明实施例提供的绘本识别方法，将绘本识别图像的过程队列化，可以有效的提高识别准确率，并且，在GPU服务器运算能力下，可以快速的处理连续任务；在绘本阅读场景中，当识别结果稳定时，可以假定为绘本页正处于稳定的阅读中，此时的识别结果相比未做处理的识别方法更加准确。

继续参照附图1，在一些可选实施方式中，所述绘本识别方法还可包括以下步骤：

步骤110：若所述有效值小于或等于所述预设有效值阈值，说明，此时在后的识别结果是不稳定的，则保留当前绘本页对应的识别结果。

在一些可选实施方式中，所述识别结果队列中的识别结果的个数为n个，且所述识别结果队列被平均分为三个集合；所述三个集合中，接收时间在先的前n/3个识别结果为第一集合，接收时间处于中间的中间n/3个识别结果为第二集合，接收时间在后的最后n/3个识别结果为第三集合，并且，第一集合对应的第一权重为a，第二集合对应的第二权重为b，第三集合对应的第三权重为c，且a＞b＞c；

所述有效值的计算方式为：

有效值＝a*A+b*B+c*C。

通过上述实施例，采用了更加科学的识别结果有效值的计算方式，能够较好地保证识别结果的准确性。

较佳的，在一些可选实施方式中，n取值为15，a取值为0.6，b取值为0.3，c取值为0.1；采用此实施例的取值，能够更好地保证识别结果的准确性。

在一些可选实施方式中，所述上传所述绘本照片至服务器的步骤102之后，还可具体包括以下步骤：

当服务器针对所述绘本照片得到满足要求的识别结果时，会将识别结果对应的第一音频链接返回，此时，接收服务器返回的与所述绘本照片对应的第一音频链接(亦即识别结果对应的第一音频链接)；若所述绘本照片为绘本封面照片，则确定用户当前正在阅读与所述绘本封面照片对应的绘本，此时，还接收与所述绘本封面照片对应的绘本ID(亦即与所述绘本封面照片对应的绘本的绘本ID)，所述绘本ID用于后续上传绘本照片时作为携带信息，从而作为服务器判断绘本的依据；其中，所述第一音频链接可以是指音频对应的URL；

根据所述第一音频链接，连接服务器中的第一音频流并播放音频；这里播放的音频则为与所述绘本照片相对应的绘本页所匹配的音频，该音频可以是读出了绘本页中全部文字的音频，在某些情况下，也可以是读出了绘本页中部分文字的音频，还可以额外读出绘本页中不包含的文字的音频；所述音频作为读出绘本页中全部文字的音频时，朗读方式可以是从上到下、从左往右的朗读方式。

通过上述实施例，当绘本照片被识别为绘本封面照片时，接收对应的绘本ID，使得在后续上传绘本照片时携带所述绘本ID供服务器确定绘本照片来自于哪一个绘本，在确定绘本后，能够约束绘本的特征检索库，降低检索时间，排除大量的相似度较高的错误的绘本页，在关键特征点检索时会更快更准确。

在一些可选实施方式中，所述判定为翻页的步骤109之后，还可具体包括以下步骤：

当判定为翻页时，需要根据翻页后的绘本页进行相应的操作(例如，播放与翻页后的绘本页对应的新音频)，因此，在判定翻页后，需要向服务器发出翻页提示指令，较佳的，这里同时需要携带所述最新的识别结果；

根据所述第二音频链接，连接服务器中的第二音频流并播放音频，从而自动将翻页后的绘本页对应的音频播放出来，使阅读绘本的过程更为自然流畅。

除了前述的根据翻页提示指令来判断翻页外，在一些可选实施方式中，所述绘本识别方法，还可包括以下用于判断是否翻页的步骤：

持续采集绘本照片；

接收服务器返回的与每张绘本照片一一对应的识别结果；

将所述识别结果存储为识别结果队列，所述识别结果队列中保存有至少两个识别结果；

比对所述识别结果队列中的识别结果；

若所述识别结果队列中在后的识别结果与在先的识别结果不同，则判定为翻页。

通过上述实施例，可以将判断翻页的过程设置在设备端，从而能够提升反应速度。

较佳的，在一些可选实施方式中，所述识别结果队列中保存有多个连续的识别结果；

所述比对所述识别结果队列中的识别结果的步骤之后，还可具体包括以下步骤：

若所述识别结果队列中在后的识别结果与在先的识别结果不同，且连续3次的在后的识别结果是相同的，则判定为翻页，否则保留在先的识别结果；并且，可选的，删除在后的识别结果，从而能够节约设备端的存储空间。

通过上述实施例，当在后的识别结果连续的时，才确定为翻页，从而保证了判定翻页的准确性，并排除了一些不确定因素(例如，因绘本照片拍摄不清楚而产生的错误识别，或者因用户的来回翻页而导致的不确定性等等)。

在一些可选实施方式中，所述绘本识别方法，还可包括以下步骤：

接收启动信号，发出提示音和/或提示信息。可选的，所述启动信号，可以是设备的开机信号；也可以是在使用手机APP实现所述绘本识别方法时，因为打开了相应的APP而产生的启动信号；所述提示音可以是任意的可以起到提示作用的声音；所述提示信息可以是显示在设备屏幕上的一段文字，例如，“您已开始使用绘本识别工具，请拍摄绘本的封面。”所述提示音和提示信息可以分开使用也可以结合使用，二者的主要目的在于提示用户首先进行绘本封面的拍摄，使得服务器能够首先识别出绘本封面并确定绘本ID，从而便于后续的绘本内页识别时约束特征数据库。

比对采集得到的绘本照片；

当相同的绘本照片的数量超过预设数量阈值时，删除超过所述预设数量阈值的绘本照片；例如，连续得到的8张绘本照片都是相同的，若所述预设数量阈值为5，则删除所述8张相同的绘本照片中的3张。可选的，所述预设数量阈值，可以是系统默认设定的，也可以根据用户或服务提供商的需求而进行自定义设定；较佳的，具体的预设数量阈值的选定，以能够满足结果连续的有效判断为前提。

本发明还提供了一种能够提高绘本识别正确率的绘本识别方法的第二个实施例。如图2所示，为本发明提供的绘本识别方法的第二个实施例的流程示意图。

步骤201：接收启动信号，发出提示音或提示信息；

步骤202：按照预设采集频率，通过摄像头采集绘本照片；

步骤203：上传所述绘本照片至服务器；

步骤204：接收服务器返回的与所述绘本照片对应的第一音频链接；若所述绘本照片为绘本封面照片，还接收与所述绘本封面照片对应的绘本ID；

步骤205：根据所述第一音频链接，连接服务器中的第一音频流并播放音频；

步骤206：按照预设采集频率，通过摄像头持续采集绘本照片；

步骤207：上传所述绘本照片及绘本ID至服务器；

步骤208：接收服务器返回的与绘本照片对应的识别结果；

步骤209：将所述识别结果存储为识别结果队列；

步骤210：将多个识别结果分为3个集合；

步骤211：为不同集合赋予不同权重；其中，按每个集合中识别结果的接收时间先后顺序，权重的大小依次递减；

步骤212：确定最新的识别结果占各自集合中的比例；

步骤213：根据所述权重和所述比例，计算所述最新的识别结果在整个识别结果队列中的有效值；

步骤214：若所述有效值小于或等于所述预设有效值阈值，则保留当前绘本页对应的识别结果；

步骤215：若所述有效值大于预设有效值阈值，则判定为翻页，并向服务器发出翻页提示指令和所述最新的识别结果；

步骤216：接收服务器返回的与所述最新的识别结果对应的第二音频链接；

步骤217：根据所述第二音频链接，连接服务器中的第二音频流并播放音频。

从上述实施例可以看出，本发明提供了的绘本识别方法，通过摄像头对绘本拍照，将绘本照片上传到指定的服务器，当服务器通过图像识别技术判断是某一绘本的封面，然后将对应的音频链接及绘本ID发回，设备端将连接音频流并播放出来；在判定绘本翻页后，将绘本照片及其绘本ID上传到指定的服务器，根据绘本ID约束了绘本内页的特征检索库，降低了检索时间，排除了大量的相似度较高的错误绘本页，进而达到增加识别准确率，减少识别时间的目的。同时，通过摄像头自动采集绘本照片并上传给服务器进行识别，接收并存储服务器返回的识别结果，将所述识别结果分为具有不同权重的至少两个集合并确定最新的识别结果占各自集合中的比例，基于所述权重和比例计算最新的识别结果的有效值，当有效值大于预设有效值阈值时，说明最新的识别结果是稳定的，则确定绘本被翻页，从而保证了判定翻页的准确性，并排除了一些不确定因素(例如，因绘本照片拍摄不清楚而产生的错误识别，或者因用户的来回翻页而导致的不确定性等等)，提高了绘本识别的准确性。

基于上述目的，本发明实施例的第二个方面提供了一种能够提高识别准确率的绘本识别装置。如图3所示，为本发明提供的绘本识别装置的第一个实施例的结构示意图。

所述绘本识别装置，可选的，所述绘本识别装置为具有图像采集功能的设备，包括：

采集模块301，用于按照预设采集频率，采集绘本照片；所述预设采集频率可以是默认值也可以根据用户的需求进行自定义，可选的，可设置为200ms/次；所述采集模块501中可包括用于采集绘本照片的摄像头，所述摄像头可以是任何电子设备(如手机、平板电脑、相机等等)上具有的摄像头，也可以是基于本发明而专门设计的采集装置中安装的摄像头；所述绘本照片是指通过摄像头拍摄绘本而得到的照片，可以是绘本封面照片，也可以是绘本内页照片，可因为用户目前将绘本翻到不同页数而不同。

上传模块302，用于上传所述绘本照片至服务器；可选的，在上传所述绘本照片之前，还可先对绘本照片进行处理，例如，压缩图片、过滤动态模糊图片、图像二值化、灰度图处理、SIFT特征提取、交点特征提取等，处理方法包含但不仅限于这几种方法。上传所述绘本照片的方式可以是在WIFI环境下通过WIFI模块连接宽带网络后进行上传，当设备端为手机等智能设备时，除了通过WIFI上传外，也可以是通过移动网络上传。

第一接收模块303，用于接收服务器返回的与绘本照片对应的识别结果；当服务器接收到所述绘本照片后，会对其进行图像识别并得到识别结果(例如，所述绘本照片属于哪个绘本、是否为绘本封面照片等)，之后，服务器会返回该识别结果，并被用于实现所述绘本识别装置而接收到。

这里的与绘本照片对应的识别结果分为以下几种情况：

翻页判定模块304，用于：

将所述识别结果存储为识别结果队列，所述识别结果队列中保存有多个识别结果；可选的，所述识别结果队列中的识别结果是按接收时间顺序依次排列的；较佳的，所述识别结果队列中仅存储以当前时刻为基准，向前推移预设时间间隔的时间段内接收的识别结果，例如所述预设时间间隔为30秒，则所述识别结果队列中仅存储从当前时刻向前推移30秒这个时间段内接收到的识别结果，而再往前推移的相对较为陈旧的识别结果，则可进行删除，以节约本地资源；

将多个识别结果分为至少两个集合；这里得到的至少两个集合中，识别结果的数量可以是不同的，也可以是相同的，具体的分隔方式可以根据实际需要进行调整；

为不同集合赋予不同权重；其中，按每个集合中识别结果的接收时间先后顺序，权重的大小依次递减；可选的，可采用对每个识别结果产生时间戳，通过比对时间戳即可来判断两个识别结果的独立性及二者的先后顺序；

确定最新的识别结果(即接收时间最靠后的识别结果，例如3个识别结果的接收时间分别是12:00:00、12:00:01、12:00:02，那么接收时间为12:00:02的识别结果即为最新的识别结果)占各自集合中的比例(例如，一个集合中识别结果的个数为5个，5个识别结果中具有的最新的识别结果有2个，那么所述比例就为2/5)；

根据所述权重和所述比例，计算所述最新的识别结果在整个识别结果队列中的有效值；假设将多个识别结果分为具有第一权重的第一集合和具有第二权重的第二集合，第一集合对应的最新的识别结果的比例为第一比例，第二集合对应的最新的识别结果的比例为第二比例，则识别结果有效值＝第一权重*第一比例+第二权重*第二比例；

以及，若所述有效值大于预设有效值阈值，则判定为翻页，说明最新的识别结果在识别结果队列中占据了符合要求的数量，即该最新的识别结果是稳定的，则绘本被翻页，从而避免单一比对识别结果方案容易产生的对绘本翻页的误判。

从上面所述可以看出，本发明实施例提供的绘本识别装置，通过摄像头自动采集绘本照片并上传给服务器进行识别，接收并存储服务器返回的识别结果，将所述识别结果分为具有不同权重的至少两个集合并确定最新的识别结果占各自集合中的比例，基于所述权重和比例计算最新的识别结果的有效值，当有效值大于预设有效值阈值时，说明最新的识别结果是稳定的，则确定绘本被翻页，从而保证了判定翻页的准确性，并排除了一些不确定因素(例如，因绘本照片拍摄不清楚而产生的错误识别，或者因用户的来回翻页而导致的不确定性等等)，提高了绘本识别的准确性。本发明实施例提供的绘本识别装置，将绘本识别图像的过程队列化，可以有效的提高识别准确率，并且，在GPU服务器运算能力下，可以快速的处理连续任务；在绘本阅读场景中，当识别结果稳定时，可以假定为绘本页正处于稳定的阅读中，此时的识别结果相比未做处理的识别方法更加准确。

继续参照附图3，在一些可选实施方式中，所述翻页判定模块304，还用于：

若所述有效值小于或等于所述预设有效值阈值，说明，此时在后的识别结果是不稳定的，则保留当前绘本页对应的识别结果。

所述有效值的计算方式为：

有效值＝a*A+b*B+c*C。

较佳的，在一些可选实施方式中，其特征在于，n取值为15，a取值为0.6，b取值为0.3，c取值为0.1；采用此实施例的取值，能够更好地保证识别结果的准确性。

本发明还提供了一种能够提高绘本识别正确率的绘本识别装置的第二个实施例。如图4所示，为本发明提供的绘本识别装置的第二个实施例的结构示意图。

所述绘本识别装置，包括：

提示模块401，用于接收启动信号，发出提示音和/或提示信息；可选的，所述启动信号，可以是设备的开机信号；也可以是在使用手机APP实现所述绘本识别方法时，因为打开了相应的APP而产生的启动信号；所述提示音可以是任意的可以起到提示作用的声音；所述提示信息可以是显示在设备屏幕上的一段文字，例如，“您已开始使用绘本识别工具，请拍摄绘本的封面。”所述提示音和提示信息可以分开使用也可以结合使用，二者的主要目的在于提示用户首先进行绘本封面的拍摄，使得服务器能够首先识别出绘本封面并确定绘本ID，从而便于后续的绘本内页识别时约束特征数据库。

采集模块301，用于按照预设采集频率，持续采集绘本照片。

上传模块302，用于上传所述绘本照片至服务器；在已经接收到绘本ID的情况下，还用于上传所述新的绘本照片和所述绘本ID至服务器。

第一接收模块303，用于接收服务器返回的与所述绘本照片对应的第一音频链接；若所述绘本照片为绘本封面照片，还接收与所述绘本封面照片对应的绘本ID；接收服务器返回的与绘本照片对应的识别结果；以及，接收服务器返回的与所述最新的识别结果对应的第二音频链接。

翻页判定模块304，用于将所述识别结果存储为识别结果队列，所述识别结果队列中保存有多个识别结果；将多个识别结果分为至少两个集合；为不同集合赋予不同权重；确定最新的识别结果占各自集合中的比例；根据所述权重和所述比例，计算所述最新的识别结果在整个识别结果队列中的有效值；以及，若所述有效值大于预设有效值阈值，则判定为翻页；若所述有效值小于或等于所述预设有效值阈值，则保留当前绘本页对应的识别结果。

播放模块402，用于根据所述第一音频链接，连接服务器中的第一音频流并播放音频，以及，根据所述第二音频链接，连接服务器中的第二音频流并播放音频。

从上述实施例可以看出，本发明提供了的绘本识别装置，通过摄像头对绘本拍照，将绘本照片上传到指定的服务器，当服务器通过图像识别技术判断是某一绘本的封面，然后将对应的音频链接及绘本ID发回，设备端将连接音频流并播放出来；在判定绘本翻页后，将绘本照片及其绘本ID上传到指定的服务器，根据绘本ID约束了绘本内页的特征检索库，降低了检索时间，排除了大量的相似度较高的错误绘本页，进而达到增加识别准确率，减少识别时间的目的。同时，通过摄像头自动采集绘本照片并上传给服务器进行识别，接收并存储服务器返回的识别结果，将所述识别结果分为具有不同权重的至少两个集合并确定最新的识别结果占各自集合中的比例，基于所述权重和比例计算最新的识别结果的有效值，当有效值大于预设有效值阈值时，说明最新的识别结果是稳定的，则确定绘本被翻页，从而保证了判定翻页的准确性，并排除了一些不确定因素(例如，因绘本照片拍摄不清楚而产生的错误识别，或者因用户的来回翻页而导致的不确定性等等)，提高了绘本识别的准确性。

在一些可选实施方式中，所述绘本识别装置，还可包括过滤模块，具体用于：

比对采集得到的绘本照片；

基于上述目的，本发明实施例的第三个方面，提供了一种能够提高识别准确率的绘本识别系统。如图5所示，为本发明提供的绘本识别系统的一个实施例的结构示意图。

所述绘本识别系统，包括：如上任一实施例所述的绘本识别装置(参照附图3和附图4)，以及，服务器；

所述服务器，包括：

第二接收模块501，用于接收绘本照片；

识别模块502，用于识别所述绘本照片并得到识别结果；可选的，通过图片识别模型来识别绘本照片；

发送模块503，用于返回识别结果。

这里的返回的识别结果与绘本照片的对应关系，分为以下几种情况：

从上面所述可以看出，本发明实施例提供的绘本识别系统，所述绘本识别装置通过摄像头自动采集绘本照片并上传给服务器进行识别，接收并存储服务器返回的识别结果，将所述识别结果分为具有不同权重的至少两个集合并确定最新的识别结果占各自集合中的比例，基于所述权重和比例计算最新的识别结果的有效值，当有效值大于预设有效值阈值时，说明最新的识别结果是稳定的，则确定绘本被翻页，从而保证了判定翻页的准确性，并排除了一些不确定因素(例如，因绘本照片拍摄不清楚而产生的错误识别，或者因用户的来回翻页而导致的不确定性等等)，提高了绘本识别的准确性。

在一些可选实施方式中，所述服务器还包括传输模块504；

所述识别模块502，还用于得到与所述识别结果相应的得分；所述图片识别模型在得出识别结果时，能够得出该识别结果相应的得分，所述得分可以结合各种参数来确定，其中的参数之一可以是绘本照片与识别结果对应的绘本图片之间的相似度；

所述发送模块503，还用于返回得分高于得分阈值的识别结果所对应的第一音频链接(可选的，为与绘本照片对应的绘本页相应的音频的URL地址)；若所述绘本照片为绘本封面照片，则确定用户当前正在阅读与所述绘本封面照片对应的绘本，此时，还返回与所述绘本封面照片对应的绘本ID(亦即与所述绘本封面照片对应的绘本的绘本ID)，所述绘本ID用于后续设备端上传绘本照片时作为携带信息，从而作为判断绘本的依据。所述得分阈值，可以是系统默认设定的，也可以根据用户或服务提供商的需求而进行自定义设定或随时进行修正；较佳的，具体的得分阈值的选定，以能够使识别结果具有较高的准确性为前提。

所述传输模块504，用于根据所述第一音频链接，传输第一音频流。

通过上述实施例，本发明实施例提供的绘本识别系统，所述服务器在接收自动采集的绘本照片后对其进行识别，当绘本照片被识别为绘本封面照片时，向设备端返回对应的绘本ID，使得设备端在后续上传绘本照片时携带所述绘本ID供服务器确定绘本照片来自于哪一个绘本，在确定绘本后，能够约束绘本的特征检索库，降低检索时间，排除大量的相似度较高的错误的绘本页，在关键特征点检索时会更快更准确。

在一些可选实施方式中，结合附图6，所述识别模块502，可用于通过计算机视觉技术(例如深度学习算法)对绘本照片进行识别，并且还可具体用于实现以下步骤：

步骤601：对绘本照片的关键特征进行提取；

绘本照片的识别可通过深度卷积网络来做图片分类，对每一个绘本图片(包括封面和内页)，可预先在本地做图片关键区域的提取，减少背景的干扰，同时对于每个绘本图片，在预先采集时，拍摄不同光照、不同角度100张图片，用来做DNN(深度神经网络)的训练，通过以上方法，达到很高的识别准确率。可选的，若每次识别绘本照片时均先识别该绘本照片是否是绘本封面照片时，这里的预处理步骤可以只针对绘本封面图片来进行，这样可以提高绘本封面照片的识别准确度，同时可以减少处理量，从而节约系统资源。

进一步的，对照片的关键特征进行提取步骤601，采用的是深度学习算法，具体可以包括以下步骤：

步骤6011：将绘本图片(包括封面和内页)的按照RGB三个通道输入到卷积神经网络(CNN)中；

步骤6012：所述卷积神经网络做卷积处理；

步骤6013：所述卷积神经网络做池化(Pooling)处理；

步骤6014：将步骤30212和步骤30213重复多次，提取局部特征；

步骤6015：将池化得到的向量数据，通过多层全连接层，计算全局特征；

步骤6016：将全局特征，通过softmax回归算法，分类到相应的绘本图片，从而得到深度学习模型中图片识别模型的特征样本。可选的，若每次识别绘本照片时均先识别该绘本照片是否是绘本封面照片时，这里的预处理步骤可以只针对绘本封面图片来进行，这样可以提高绘本封面照片的识别准确度，同时可以减少处理量，从而节约系统资源。

步骤602：比对深度学习模型中图片识别模型的特征样本；可选的，若所述图片识别模型仅为针对绘本封面图片的封面识别模型，该封面识别模型相比通用物体识别，比对的样本更少，相对更精准。

步骤603：得到绘本照片与多个近似的绘本图片比对后的识别结果和得分，识别结果可按照得分升序排列。

步骤604：若最高得分高于或等于预设得分阈值，则将相应的识别结果对应的音频链接发到设备端；若最高分数低于预设得分阈值，则不发送。

上述具体实施方式中，可仅用于对于绘本封面照片的识别，这样可以提高绘本封面照片的识别准确度，同时可以减少处理量，从而节约系统资源。

通过上述实施例中提供的深度学习算法，提高了绘本照片的识别准确度。

在一些可选实施方式中，所述识别模块502，还可具体用于：

将所述绘本照片与数据库中存储的绘本封面图片进行比对；

若所述绘本照片不与数据库中存储的任何绘本封面图片匹配，则确定所述绘本照片是否携带绘本ID；这个绘本ID是在先识别得出绘本封面照片时服务器返回的绘本ID，当服务器接收到这个绘本ID且所述绘本照片不与数据库中存储的任何绘本封面图片匹配时，说明此时需要判定所述绘本照片是不是与所述绘本ID对应的绘本的绘本内页照片；

若所述绘本照片携带绘本ID，根据所述绘本ID确定相应的绘本，并将所述绘本照片与数据库中存储的与所述绘本对应的绘本内页图片(即，仅包括与绘本ID关联的绘本内页图片的数据集)进行比对；

通过上述实施例，设计了识别绘本照片的具体顺序，采用先确定绘本照片是否是绘本封面照片的方式，在识别的第一步将数据库约束在绘本封面图片数据库中，识别会更快更准确；若该绘本照片不是绘本封面照片，则确定是否携带绘本ID，并当确定携带有绘本ID时，利用该绘本ID进行绘本内页图片的识别，从而将数据库约束在与绘本ID对应的绘本内页图片数据库中，识别同样会更快更准确。

较佳的，在一些可选实施方式中，所述识别模块502在利用该绘本ID进行绘本内页图片的识别时，除了直接将其与所述绘本ID对应的绘本内页图片中进行比对外，还可用于实施以下步骤：

将所述绘本照片在包含所以绘本内页图片的数据库中进行比对；

对与绘本ID相关联的绘本内页图片增加置信度权重；

得到识别结果和与所述识别结果相应的得分；这里，与绘本ID相关联的绘本内页图片由于被增加了置信度权重，其得分会相对高一些，但若所述绘本照片并不是与绘本ID相关联的绘本内页图片，通过这种方式还是可以识别出正确的结果。

在一些可选实施方式中，所述绘本照片为连续采集的两张以上绘本照片；

所述识别模块502，具体用于：

识别每张绘本照片；

若每张绘本照片的识别结果相同，则将该识别结果和与所述识别结果相应的得分输出。在多张连续的绘本照片的识别结果相同时，说明识别结果连续，可以假定为绘本的书页处于稳定的阅读中，此时的结果相比未做处理的识别方法更加准确。

在一些可选实施方式中，所述第二接收模块501，还用于接收翻页提示指令和所述最新的识别结果；

所述发送模块503，还用于返回与所述最新的识别结果对应的第二音频链接；

所述传输模块504，用于根据所述第二音频链接，传输第二音频流。

通过上述实施例，根据翻页提示指令向设备端返回新的音频链接，从而使得设备端能够进行新的一页绘本的相关音频的播放。

基于上述目的，本发明实施例的第四个方面，提供了一种能够提高绘本识别正确率的电子设备。如图7所示，为本发明提供的电子设备的一个实施例的结构示意图。

如图7所示，所述电子设备包括：

用于采集照片的摄像头；

一个或多个处理器701以及存储器702，图7中以一个处理器701为例。

所述执行所述绘本识别方法的电子设备还可以包括：输入装置703和输出装置704。

处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述绘本识别方法对应的程序指令/模块(例如，附图3所示的采集模块301、上传模块302、第一接收模块303和翻页判定模块304)。处理器701通过运行存储在存储器702中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的绘本识别方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据推荐装置的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置703可接收输入的数字或字符信息，以及产生与绘本识别装置的用户设置以及功能控制有关的键信号输入。输出装置704可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器702中，当被所述一个或者多个处理器701执行时，执行上述任意方法实施例中的绘本识别方法。所述执行所述绘本识别方法的电子设备的实施例，其技术效果与前述任意方法实施例相同或者类似。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种绘本识别方法，其特征在于，应用于具有摄像头的装置，包括：

按照预设采集频率，通过摄像头采集绘本照片；

上传所述绘本照片至服务器；

接收服务器返回的与绘本照片对应的识别结果；

将多个识别结果分为至少两个集合；

确定最新的识别结果占各自集合中的比例；

根据所述最新的识别结果占各自集合中的比例和各所述集合被赋予的权重，计算所述最新的识别结果在整个识别结果队列中的有效值；所述有效值为所述最新的识别结果占各自集合中的比例与相应权重相乘的数值之和；

若所述有效值大于预设有效值阈值，则判定为翻页；

若所述有效值小于或等于所述预设有效值阈值，则保留当前绘本页对应的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述上传所述绘本照片至服务器的步骤之后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述判定为翻页的步骤之后，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

接收启动信号，发出提示音或提示信息。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述识别结果队列中的识别结果的个数为n个，且所述识别结果队列被平均分为三个集合；所述三个集合中，接收时间在先的前n/3个识别结果为第一集合，接收时间处于中间的中间n/3个识别结果为第二集合，接收时间在后的最后n/3个识别结果为第三集合，并且，第一集合对应的第一权重为a，第二集合对应的第二权重为b，第三集合对应的第三权重为c，且a＞b＞c；

所述有效值的计算方式为：

有效值=a*A+b*B+c*C。

6.根据权利要求5所述的方法，其特征在于，n取值为15，a取值为0.6，b取值为0.3，c取值为0.1。

7.一种绘本识别装置，其特征在于，包括：

上传模块，用于上传所述绘本照片至服务器；

翻页判定模块，用于将所述识别结果存储为识别结果队列，所述识别结果队列中保存有多个识别结果；将多个识别结果分为至少两个集合；为不同集合赋予不同权重；其中，按每个集合中识别结果的接收时间先后顺序，权重的大小依次递减；确定最新的识别结果占各自集合中的比例；根据所述最新的识别结果占各自集合中的比例和各所述集合被赋予的权重，计算所述最新的识别结果在整个识别结果队列中的有效值，所述有效值为所述最新的识别结果占各自集合中的比例与相应权重相乘的数值之和；以及，若所述有效值大于预设有效值阈值，则判定为翻页；若所述有效值小于或等于所述预设有效值阈值，所述翻页判定模块，还用于保留当前绘本页对应的识别结果。

8.根据权利要求7所述的装置，其特征在于，还包括播放模块；

9.根据权利要求8所述的装置，其特征在于，

所述第一接收模块，还用于接收服务器返回的与所述最新的识别结果对应的第二音频链接；

10.根据权利要求7所述的装置，其特征在于，还包括：

提示模块，用于接收启动信号，发出提示音或提示信息。

11.根据权利要求7-10任一项所述的装置，其特征在于，所述识别结果队列中的识别结果的个数为n个，且所述识别结果队列被平均分为三个集合；所述三个集合中，接收时间在先的前n/3个识别结果为第一集合，接收时间处于中间的中间n/3个识别结果为第二集合，接收时间在后的最后n/3个识别结果为第三集合，并且，第一集合对应的第一权重为a，第二集合对应的第二权重为b，第三集合对应的第三权重为c，且a＞b＞c；

所述有效值的计算方式为：

有效值=a*A+b*B+c*C。

12.根据权利要求11所述的装置，其特征在于，n取值为15，a取值为0.6，b取值为0.3，c取值为0.1。

13.一种绘本识别系统，其特征在于，包括：如权利要求7-12任一项所述的装置，以及，服务器；

所述服务器，包括：

第二接收模块，用于接收绘本照片；

识别模块，用于识别所述绘本照片并得到识别结果；

发送模块，用于返回所述识别结果。

14.根据权利要求13所述的系统，其特征在于，所述服务器还包括传输模块；

所述识别模块，还用于得到与所述识别结果相应的得分；

15.根据权利要求14所述的系统，其特征在于，所述识别模块，具体用于：

将所述绘本照片与数据库中存储的绘本封面图片进行比对；

16.根据权利要求15所述的系统，其特征在于，所述识别模块，具体用于：

17.根据权利要求14-16任一项所述的系统，其特征在于，所述绘本照片为连续采集的两张以上绘本照片；

所述识别模块，具体用于：

识别每张绘本照片；

18.根据权利要求14所述的系统，其特征在于，

所述第二接收模块，还用于接收翻页提示指令和所述最新的识别结果；

19.一种电子设备，包括：

用于采集照片的摄像头；

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法。