CN113392756A

CN113392756A - 图本识别方法及装置

Info

Publication number: CN113392756A
Application number: CN202110654850.3A
Authority: CN
Inventors: 朱猛; 朱珊珊
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14

Abstract

本发明公开了一种图本识别方法及装置，涉及图像识别技术领域，主要为解决目前图本识别过程中对于绘本和字卡的识别效果较差的问题。该方法为：获取图本信息；根据预设图本分析模型确定所述图本信息的信息种类，其中，所述信息种类包括图像信息及字符信息；所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品；根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，所述识别结果包括对应所述图像信息的第一结果以及对应所述字符信息的第二结果。本发明用于图本识别过程。

Description

图本识别方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种图本识别方法及装置。

背景技术

随着少儿教育的大力发展，智能化、自动化的少儿教育方式也在逐步普及。以自动教育机器人为例，通常这种自动教育机器人会对少儿摆放的教学物品进行识别，并基于识别结果向少儿输出对应的知识。而基于少儿的学习特点，普通的读物由于大段的文字过于枯燥，因此针对少儿的教学物品一般包括绘本和字卡，绘本为一种带有文字、图画的画册书本，而字卡则是带有颜色或图形的字符卡片。

目前，在图本识别的过程中，由于绘本和字卡这两种教学物品的大小、规格以及展示内容的形式上的巨大差异，往往需要单独为这两种教学物品设置对应的识别模式，并由用户进行选择后再进行识别。然而在实际应用中，常规的图本识别方式需要用户主动选择识别模式，这对于面向少儿群体，尤其是学龄前幼儿来说并不适宜，这就导致了用户在使用过程中往往会因模式选择错误而影响图本识别的效果，继而整体上降低了图本识别的准确性。

发明内容

鉴于上述问题，本发明提供一种图本识别方法及装置，主要目的在于解决目前图本识别过程中对于绘本和字卡的识别效果较差的问题。

为解决上述技术问题，第一方面，本发明提供了一种图本识别方法，该方法包括：

获取图本信息；

根据预设图本分析模型确定所述图本信息的信息种类，其中，所述信息种类包括图像信息及字符信息；所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品；

根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，所述识别结果包括对应所述图像信息的第一结果以及对应所述字符信息的第二结果。

可选的，所述预设图本分析模型包括书本检测模型，所述书本检测模型用于从所述图本信息中的主体区域确定所述信息种类；

所述根据预设图本分析模型确定所述图本信息的信息种类，包括：

从所述图本信息中获取所述主体区域，所述主体区域是根据所述图本信息中的所述教学物品的位置和面积确定的；

根据所述书本检测模型从所述主体区域中提取区域特征，并根据所述区域特征确定对应的信息种类。

可选的，所述图像信息包括绘本信息，所述绘本信息是基于所述绘本得到的，所述第一结果包括对应所述绘本信息的绘本识别结果，所述绘本属于少儿教学中的所述教学物品；

所述识别模型包括关键点模型，所述关键点模型用于从所述图本信息中获取预设关键点，所述预设关键点包括绘本书角；

所述根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，包括：

当所述信息种类为绘本信息时，根据所述关键点模型从所述绘本信息中获取所述绘本书角；

根据所述绘本书角确定所述绘本在所述绘本信息中的位置属性，所述位置属性包括位置坐标；

根据所述位置坐标及所述绘本书角提取绘本页面图像；

根据所述绘本页面图像在预设绘本数据库中获取对应的目标页面，并根据所述目标页面输出所述绘本识别结果。

可选的，所述位置属性还包括位置角度；

在所述根据所述位置坐标及所述绘本书角提取绘本页面图像之后，所述方法还包括：

根据所述位置角度确定所述绘本页面图像是否符合预设偏转角度；

所述根据所述绘本页面图像在预设绘本数据库中获取对应的目标页面，并输出所述目标页面，包括：

若根据所述位置角度确定所述绘本页面图像符合预设偏转角度，则根据所述绘本页面图像在预设绘本数据库中获取对应的目标页面，并输出所述目标页面；

若根据所述位置角度确定所述绘本页面图像不符合预设偏转角度，则对所述绘本页面图像执行角度矫正操作，以使矫正后的绘本页面图像符合所述预设偏转角度，并根据所述矫正后的绘本页面图像在预设绘本数据库中获取对应的目标页面，并根据所述目标页面输出所述绘本识别结果。

可选的，所述字符信息包括字卡信息，所述字卡信息是基于所述字卡得到的，所述字卡属于少儿教学中的所述教学物品，所述第二结果包括对应所述字卡信息的字卡识别结果；

所述识别模型包括文字识别模型，所述文字识别模型用于对所述图本信息中的文本区域进行识别；

当确定所述图本信息为所述字卡信息时，根据所述文字识别模型从所述字卡信息中提取所述文本区域；

根据所述文本区域及预设光学字符识别算法预设光学字符识别算法进行识别，得到字卡识别结果，并输出所述字卡识别结果。

可选的，所述识别模型还包括所述手指识别模型，所述手指识别模型用于在所述图本信息中获取用户的手指位置信息；

在所述输出识别结果之前，所述方法还包括：

根据所述手指识别模型确定所述图本信息中是否存在所述手指位置信息；

若存在，则根据所述手指位置信息确定待识别区域；

根据所述待识别区域从所述字卡识别结果或所述绘本识别结果中获取对应的目标识别结果；

所述输出识别结果，包括：

输出所述目标识别结果。

可选的，在所述根据所述手指识别模型确定所述图本信息中是否存在所述手指位置信息之后，所述方法还包括：

若确定所述图本信息中不存在所述手指位置信息，且所述图本信息为所述绘本信息，则在所述绘本信息中获取所述绘本页面图像，并将所述绘本页面图像确定为所述待识别区域；

若确定所述图本信息中不存在所述手指位置信息，且所述图本信息为所述字卡信息，则在所述字卡信息中获取文本区域，并将所述文本区域确定为所述待识别区域。

第二方面，本发明实施例还提供了一种图本识别装置，包括：

获取单元，用于获取图本信息；

确定单元，用于根据预设图本分析模型确定所述图本信息的信息种类，其中，所述信息种类包括图像信息及字符信息；所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品；

识别单元，用于根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，所述识别结果包括对应所述图像信息的第一结果以及对应所述字符信息的第二结果。

为了实现上述目的，根据本发明的第三方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述第一方面中任一项所述的图本识别方法。

为了实现上述目的，根据本发明的第四方面，提供了一种设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，执行如第一方面中任意一项所述的图本识别方法。

借由上述技术方案，本发明提供的图本识别方法及装置，对于目前图本识别过程中对于绘本和字卡的识别效果较差的问题，本发明首先获取图本信息，然后根据预设图本分析模型确定所述图本信息的信息种类，根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，从而实现对图本的自动化识别功能。在上述方案中，所述信息种类包括图像信息及字符信息；所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品；并且所述识别结果包括对应所述图像信息的第一结果以及对应所述字符信息的第二结果，这就确保了在执行上述图本识别的过程中，能够基于预设图本分析模型从获取到的图本信息确定后续需要分析的是图像还是字符，由于绘本主要是图像内容，字卡主要是字符内容，这就能够以两种教学物品的特点实现分类识别的效果，这能够确保在每次识别的过程中能够基于图本信息自动化选取对应的模型进行识别，而无需人工的介入进行识别模式的选取过程，继而避免了由于识别模式选择不当导致的识别效果较差的问题，提高了识别结果的准确性。并且，在本发明中，由于识别的过程是基于上述预设图本分析模型确定了信息种类后自动化利用对应的识别模型进行识别，也就在整个识别过程中无需人工的介入，用户仅需要提供需要识别的教学物品即可，既能简化识别过程，有可以节省人力。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种图本识别方法流程图；

图2示出了本发明实施例提供的一种图本识别方法执行时的矫正过程的示意图；

图3示出了本发明实施例提供的一种图本识别装置的组成框图；

图4示出了本发明实施例提供的一种用于图本识别的设备的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了解决目前图本识别过程中对于绘本和字卡的识别效果较差的问题，本发明实施例提供了一种图本识别方法，如图1所示，该方法包括：

101、获取图本信息。

在本实施例中，所述图本信息可以通过预设的自动教学机器人进行图像采集后得到的，也可以是通过安装有自动教学的软件的设备通过外置或内置的图像采集装置采集了用户身边的图像后得到的。在此，对于图本信息的获取方式不做限定，可以基于本实施例中不同的应用场景和用户需求进行选取。

102、根据预设图本分析模型确定所述图本信息的信息种类。

其中，所述信息种类包括图像信息及字符信息；所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品。

由于在实际应用中，不同的教学物品的大小、规格乃至展示形式都不同，譬如最常见的绘本和字卡。绘本的主要展示形式使图像，而字卡的展示形式主要是字符，也就是说需要在识别的过程中如果能有针对性的选取适合当前需要识别的教学物品的识别方式，有利于提升识别效果。这样在本实施例中，当前述步骤101中获取到图本信息后需要进行判断，以确定出当前需要识别的教学物品是哪一种，具体的，可以基于预设图本分析模型对图本信息的信息种类进行识别。

需要说明的是，在本实施例中，所述预设图本分析模型是通过大数据样本进行训练后得到的模型，可以基于图本信息进行自动化的预测，继而实现基于图本信息确定后续待识别的教学物品所属的信息种类是字卡信息、还是绘本信息。

103、根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果。

其中，所述识别结果包括对所述图像信息的第一结果以及对应所述字符信息的第二结果。

在本实施例中，由于信息种类的不同，在本步骤中可以基于信息种类选取对应的识别模型进行识别，从而确保最后得到的识别结果的准确性。基于前述步骤可知，由于教学物品包括绘本和字卡，因此在识别后输出的识别结果分别为对应图像信息的第一结果，以及对应字符信息的第二结果。该第一结果可以理解为对教学物品识别后，当教学物品的展示内容主要是图像时所确定出的识别结果；而第二结果则可以理解为对教学物品识别后，当教学物品的展示内容主要是字符时所确定出的识别结果。

需要说明的是，在本实施例中输出所述识别结果的方式可以包括展示图片、显示视频或者输出音频等一种或多种，在此不做限定，可以以实际场景和设备具备的硬件设备进行选取。例如，当本实施例所应用的场景是一种自动教学的机器人时，该机器人设置有喇叭，当执行本步骤输出识别结果的操作时，则可以基于识别操作得到的识别结果转换成对应的音频，从而以音频形式输出所述识别结果。而当本实施例所应用的场景是一种具有自动教学功能的平板设备时，则可以将识别结果以视频和音频同步播放的方式向用户输出。

基于上述方案中可知，本发明实施例中首先获取图本信息，然后根据预设图本分析模型确定所述图本信息的信息种类，最后根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，从而实现对图本的自动化识别功能。由于所述信息种类包括图像信息及字符信息；所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品；并且所述识别结果包括对应所述图像信息的第一结果以及对应所述字符信息的第二结果，这就确保了在执行上述图本识别的过程中，能够基于预设图本分析模型从获取到的图本信息确定后续需要分析的是图像还是字符，由于绘本主要是图像内容，字卡主要是字符内容，这就能够以两种教学物品的特点实现分类识别的效果，，这能够确保在每次识别的过程中能够基于图本信息自动化选取对应的模型进行识别，而无需人工的介入进行识别模式的选取过程，继而避免了由于识别模式选择不当导致的识别效果较差的问题，提高了识别结果的准确性。并且，在本发明中，由于识别的过程是基于上述预设图本分析模型确定了信息种类后自动化利用对应的识别模型进行识别，也就在整个识别过程中无需人工的介入，用户仅需要提供需要识别的教学物品即可，既能简化识别过程，有可以节省人力。

在一种可选的实施例中，由于图本信息中确定所需识别的教学物品的信息种类很可能并不需要对全部内容进行分析，很可能仅仅是其中一部分内容，因此，前述实施例中的所述预设图本分析模型具体可以为书本检测模型，该书本检测模型用于从所述图本信息中的主体区域确定所述信息种类；

基于此，前述实施例中步骤102中根据预设图本分析模型确定所述图本信息的信息种类，执行时可以具体包括：

首先，从所述图本信息中获取所述主体区域。其中，所述主体区域是根据所述图本信息中的所述教学物品的位置和面积确定的。

然后，根据所述书本检测模型从所述主体区域中提取区域特征，并根据所述区域特征确定对应的信息种类。在本步骤中，在基于主题区域中提取区域特征并基于区域特征确定对应的信息种类时，其实施过程可以利用目前常规的目标提取算法进行，该目标提取算法是一种基于目标几何和统计特征对图像分割的方法，主要是基于目标涉及的特征对每个部分进行定位并分类，并依据定位和分类进行图像的分割。即在主体区域中按照这个区域内包含的内容进行区域特征提取，并根据提取到的内容确定这个主体区域主要包含的内容是什么，并确定种类，得到对应主体区域的信息种类。

在本实施例中，所述图本信息可以为通过预设图像采集装置获取的图像，由于图像中包含的内容可能不仅涉及需要后续识别的教学物品，还可能涉及其他的内容，譬如笔、纸、用户肢体等其他内容。因此，在确定图本信息的信息类别时，首先需要从该图本信息中获取主体区域，即确定分析时的主要内容所处的区域。然后基于该主体区域和预设图本分析模型对这个区域中的内容进行分析，从而确定信息类别。

此外，在获取主体区域时，由于可能在图像中涉及多个分散的区域，在本步骤中则可以基于用户下达的指令从多个分散的区域中确定主体区域，从而提高后续分析信息类型的准确性。当然，也可以基于用户预设的获取规则，依次从多个分散的区域中提取每一个区域作为主体区域并依次利用书本检测模型来识别，并得到信息种类。在此，对于图像中涉及多个分散的区域进行主体区域的确定过程，包含但不限于上述任一项所述的方式，具体选取哪一种执行可以基于用户的实际需要进行选取。

另外，在本实施例中所述书本检测模型可以为通过样本数据并结合分类算法训练得到的模型，这样能够确保在基于主体区域中提取的区域特征分析信息类型时，可以自动化的进行分析和判断，而无需再设置判断规则或分类规则，简化了执行过程。

通过本步骤的方法，由于能够从图本信息中获取主体区域，并基于书本检测模型从主体区域中企图的区域特征来确定信息种类，从而实现了一种基于图本信息中的主体区域来分析信息类别的功能，相较于其他方式，本实施例的方法避免了将图本信息中的全部数据内容作为后续信息种类分析的问题，减少了分析时所需的数据内容，从而能够提高分析效率。

在一种可选的实施例中，由于教学物品分为绘本和字卡两种，基于不同的教学物品在进行识别的过程也存在区域。因此，针对绘本的识别，在本实施例中，所述图像信息包括绘本信息，所述绘本信息是基于所述绘本得到的，所述第一结果包括对应所述绘本信息的绘本识别结果，所述绘本属于少儿教学中的所述教学物品；所述识别模型可以为关键点模型，该关键点模型用于从所述图本信息中获取预设关键点，所述预设关键点包括绘本书角；

基于此，前述实施例中步骤103中根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，包括：

首先，当所述信息种类为绘本信息时，根据所述关键点模型从所述绘本信息中获取所述绘本书角，其中，由于绘本的内容展示方式主要是图画以及一些字符，因此，对于该图画和字符的采集和识别就是绘本识别时的重点，这样在本实施例中就需要通过关键点模型执行自动化的绘本书角的提取操作，从而便于后续基于该绘本书角确定绘本的位置。当然，在本实施例中所述关键点模型可以理解为一种能够对特定关键点进行识别的模型，即预设关键点的识别。该模型可以是通过大量的绘本页面的图像(包含绘本书角)的样本数据及识别算法进行训练得到的。当然，训练该模型的方法可以采用现有的任一种的模型训练方式进行，在此不做限定。

然后，根据所述绘本书角确定所述绘本在所述绘本信息中的位置属性，所述位置属性包括位置坐标，由于前述步骤已经获取到了绘本书角，此时也就相当于确定了绘本信息中绘本的位置情况，即位置属性。当然，为了确保后续提取绘本页面图像的准确性，其位置属性可以为位置坐标，但在实际应用中除了位置坐标之外，还可能包含其他的参数，在此不做限定，可以基于实际应用时的需要进行选取。

之后，根据所述位置坐标及所述绘本书角提取绘本页面图像。当确定了位置坐标和绘本书角后，实际上也就获知了该绘本物品所处的位置以及覆盖的区域了，因此，在本步骤中可以基于位置坐标和绘本书角确定实际的绘本的覆盖区域，即绘本页面图像、

最后，根据所述绘本页面图像在预设绘本数据库中获取对应的目标页面，并根据所述目标页面输出所述绘本识别结果。由于绘本页面图像的本质是一种图像，而为了能实现用户的学习效果，还需要基于该绘本输出相应的知识和内容，因此需要从预设绘本数据库中确定对应该绘本页面图像的页面，即目标页面，并在目标页面的基础上输出相应的知识点或其他内容作为绘本识别结果。

在具体的实施过程中，当根据绘本页面图像在预设绘本数据库中获取对应的目标页面时，由于预设绘本数据库中可能包含有多个不同的绘本，在此过程中为了提高获取目标页面的效率，还可以通过分级检索的方式来确定对应当前绘本页面的目标绘本。

在检索目标绘本时，可以基于不同的检索规则进行，其中检索规则包括但不限于下述几种：购买规则、历史阅读规则、喜好阅读规则、阅读场景规则等。其中，购买规则为在检索过程中根据购买的绘本进行优先检索、例如当基于购买规则进行检索时，可以直接利用该购买规则直接从预设绘本数据库中优先检索当前用户已购买的绘本，并在已购买的绘本中为检索到目标绘本时，再从其他未购买的绘本中进行检索，这样可以确保检索绘本过程中的效率。同理，所述历史阅读规则可以理解为优先在最近阅读过的几个绘本中检索目标绘本；喜好阅读规则可以理解为优先再阅读次数较多的几个绘本(即用户喜好的绘本)中检索目标绘本；阅读场景规则可以理解为当检索之前基于用户当前所在位置确定对应当前所在位置的几个绘本中优先检索。这样，基于上述多种不同的规则进行目标绘本的检索，可以确保在获取对应目标页面的过程中，能够基于不同的场景需要选取不同的规则来检索目标绘本，从而便于目标绘本的快速查找，从而使从目标绘本中确定对应绘本页面图像的目标页面时的整体时间消耗降低，有利于快速获取识别结果。

在上述方案中，通过关键点模型从绘本信息中获取绘本书角，能够实现一种自动化获取绘本书角的功能，避免了设置绘本书角的规则和算法的过程，可以简化本实施例所述的方法，提高获取效率。同时，基于绘本书角确定位置属性中的位置坐标，并基于位置坐标和绘本书角能够实现对绘本所覆盖的区域的提取功能的实现，即提取绘本页面图像的功能。并且，在获取绘本页面图像后基于预设绘本数据库获取对应的目标页面，并以目标页面确定需输出的识别结果，能够确保当绘本页面图像的清晰度较差的情况下避免输出识别结果准确性也随之较差的问题，确保了识别结果的准确性。

在一种可选的实施例中，由于前述实施例中得到的绘本页面图像可能并不是符合后续识别的角度的，例如，当用户反向摆放绘本。这时前述示例中基于绘本书角确定位置属性的过程中还可以确定绘本的角度，即所述位置属性还包括位置角度；

基于此，在前述步骤中根据所述位置坐标及所述绘本书角提取绘本页面图像之后，前述示例的方法还可以包括：

这样后续步骤中根据所述绘本页面图像在预设绘本数据库中获取对应的目标页面，并输出所述目标页面，在执行时可以包括：

一方面，若根据所述位置角度确定所述绘本页面图像符合预设偏转角度，则根据所述绘本页面图像在预设绘本数据库中获取对应的目标页面，并输出所述目标页面。

另一方面，若根据所述位置角度确定所述绘本页面图像不符合预设偏转角度，则对所述绘本页面图像执行角度矫正操作，以使矫正后的绘本页面图像符合所述预设偏转角度，并根据所述矫正后的绘本页面图像在预设绘本数据库中获取对应的目标页面，并根据所述目标页面输出所述绘本识别结果。在本步骤中，在矫正过程中可以如图2所示，当然，在本实施例中矫正前的图像实际上可以理解为提取绘本页面图像之前的绘本信息，而矫正后的图像则为提取了绘本页面图像后基于预设偏转角度调整后的所述矫正后的绘本页面图像。其中，在本实施例所述的绘本信息实质上是对图本信息进行信息种类判断后命名的，其本质与图本信息一致，均为一种基于像素点所展示的数据，当基于预设图本分析模型分析时，能够基于图本信息中包含内容所体现出的展示形式，确定出这个图本信息是以图像内容为主要展示形式还是以字符内容为主要展示形式，当为前者时，该图本信息就是绘本信息，当为后者时，该图本信息就是字卡信息。

基于本方面所述的方法，可以确保当绘本的摆放角度较差，不符合预设偏转角度时能够按照角度进行矫正，从而确保后续识别过程中能够以矫正后的绘本页面图像进行分析和识别，不仅能够确保识别过程中避免因角度问题导致识别效果较差的问题，还能够确保用户无论如何摆放绘本都能正确识别，无需用户按照一定规则进行摆放，有利于在用户使用本实施例所述的图本信息识别方法时操作的便捷性。

在一种可选的实施例中，当所需识别的为字卡时，则所述字符信息包括字卡信息，所述字卡信息是基于所述字卡得到的，所述字卡属于少儿教学中的所述教学物品，所述第二结果包括对应所述字卡信息的字卡识别结果，这样前述实施例中的识别模型可以为文字识别模型，所述文字识别模型用于对所述图本信息中的文本区域进行识别。

在本实施例中，所述文字识别模型可以理解为一种能够对图像中的字符进行识别的模型，该文字识别模型可以基于预设识别算法及对应的文字样本数据进行训练得到。由于该文字识别模型能够自动对字卡信息中的字符部分进行识别，这就避免了在后续识别字符时对字卡信息中全部内容进行识别的问题，减少了识别过程的数据，能够提高识别效率。另外，本实施例中预设光学字符识别算法预设光学字符识别算法，又称OCR识别算法(Optical Character Recognition，简称ORC识别算法)，该算法主要用于对文本资料进行扫描后，基于扫描后的图像进行分析处理，从实现从图像中获取文字及版面信息的效果。在本实施例中，由于在第一步已经确定了文本区域，该文本区域就是包含字符的区域，那么就可以基于OCR识别算法从中获取字符内容，冲破那个人得到字卡识别结果，并进行输出。

在上述方案中，通过所述文字识别模型从所述字卡信息中提取所述文本区域，实现了一种能够自动从字卡信息中获取文本所处的主要位置的功能，避免后续分析时需要将字卡信息中全部内容进行识别的问题，可以提高识别效率。并且，基于预设光学字符算法在文本区域进行识别，可以直接基于光学方式实现字符的识别，避免了通过对比方式确定字符时需要设置对比图像的过程，可以简化整个方案的执行过程。

在一种可选的实施例中，在某些场合下，用户并非需要将绘本或字卡中全部内容进行识别，可能仅仅需要识别部分内容，例如在绘本中包含一个英文语句时，少儿用户仅需要对其中不认识的单词进行识别。这样，前述实施例中所述识别模型还包括所述手指识别模型，所述手指识别模型用于在所述图本信息中获取用户的手指位置信息。当然，在实际应用中该手指识别模型可以为前述实施例中所述的关键点模型，也就是说关键点模型可以用来识别书角，也可以在本实施例所述的方法中作为手指识别模型进行手指的识别。在本实施例中，该关键点模型还可以进行手指的识别，这样训练该关键点模型的过程中也需要将手指相关的数据作为样本数据进行训练，从确保该关键点模型能够在图本信息中分析是否存在用户的手指位置信息。

在前述实施例的步骤103中输出识别结果之前，所述方法还包括对图本信息中用户手指的识别和判断过程，具体为：

若存在，则根据所述手指位置信息确定待识别区域；

基于此，前述实施例的步骤103中输出识别结果，具体为：输出所述目标识别结果。

在上述方案中，由于能够在确定了识别结果后再进行用户手指的识别和判断，这就确保了在后续输出过程中，当基于关键点模型识别出用户的手指位置信息时，可以直接介于该手指位置信息确定待识别区域，并基于待识别区域从字卡识别结果和目标识别结果中选取对应该区域的目标识别结果并输出，避免了将整个识别结果全部输出，从而实现了一种用户需要识别哪个部分就输出对应部分的目标识别结果的功能，即实现了一种“指读”的效果，从而实现了具有针对性的识别和输出功能，可以避免用户获取不必要的识别结果导致的内容冗余的问题，使本实施例所述的图本识别方法更具针对性。

在一种可选的实施例中，还可能存在用户需要获知整个绘本或整个字卡内容的情况，例如，用户想要获知整个字卡中全部英文语句的含义。这时在前述步骤中根据所述手指识别模型确定所述图本信息中是否存在所述手指位置信息之后，所述方法还包括：

一方面，对于绘本，若确定所述图本信息中不存在所述手指位置信息，且所述图本信息为所述绘本信息，则在所述绘本信息中获取所述绘本页面图像，并将所述绘本页面图像确定为所述待识别区域。

另一方面，对于字卡，若确定所述图本信息中不存在所述手指位置信息，且所述图本信息为所述字卡信息，则在所述字卡信息中获取文本区域，并将所述文本区域确定为所述待识别区域。

通过上述两个方面的内容可知，当确定图本信息中不存在手指位置信息时，则说明用户并不需要对指定的内容进行获取，而是需要获取绘本或字卡中的全部内容，这种情况下，则可以直接将绘本信息中的绘本页面图像或者字卡信息中的文本区域都确定为待识别区域，这样就可以在后续执行输出的过程中，将整个绘本或字卡的内容进行输出，从而实现了一种“翻读”的效果，即每当绘本或字卡翻页后，都会将整个页面的内容进行识别或输出，无需用户对输出内容进行指示，简化了操作过程。

进一步的，作为对上述图1所示方法的实现，本发明实施例还提供了一种图本识别装置，用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示，该装置包括：获取单元31、确定单元32及识别单元33，其中

获取单元31，可以用于获取图本信息；

确定单元32，可以用于根据预设图本分析模型确定所述图本信息的信息种类，其中，所述信息种类包括图像信息及字符信息；所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品；

识别单元33，可以用于根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，所述识别结果包括对应所述图像信息的第一结果以及对应所述字符信息的第二结果。

借由上述技术方案，本发明实施例提供一种图本识别方法及装置，对于目前图本识别过程中对于绘本和字卡的识别效果较差的问题，本发明首先获取图本信息，然后根据预设图本分析模型确定所述图本信息的信息种类，根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，从而实现对图本的自动化识别功能。在上述方案中，所述信息种类包括图像信息及字符信息；所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品；并且所述识别结果包括对应所述图像信息的第一结果以及对应所述字符信息的第二结果，这就确保了在执行上述图本识别的过程中，能够基于预设图本分析模型从获取到的图本信息确定后续需要分析的是图像还是字符，由于绘本主要是图像内容，字卡主要是字符内容，这就能够以两种教学物品的特点实现分类识别的效果，这使得每次识别的过程中能够基于图本信息自动化选取对应的模型进行识别，而无需人工的介入进行识别模式的选取过程，继而避免了由于识别模式选择不当导致的识别效果较差的问题，提高了识别结果的准确性。并且，在本发明中，由于识别的过程是基于上述预设图本分析模型确定了信息种类后自动化利用对应的识别模型进行识别，也就在整个识别过程中无需人工的介入，用户仅需要提供需要识别的教学物品即可，既能简化识别过程，有可以节省人力。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决目前图本识别过程中对于绘本和字卡的识别效果较差的问题。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述图本识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述图本识别方法。

本发明实施例提供了一种设备40，如图4所示，设备包括至少一个处理器401、以及与处理器连接的至少一个存储器402、总线403；其中，处理器401、存储器402通过总线403完成相互间的通信；处理器401用于调用存储器中的程序指令，以执行上述的图本识别方法。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在流程管理设备上执行时，适于执行初始化有如下方法步骤的程序：获取图本信息；根据预设图本分析模型确定所述图本信息的信息种类，其中，所述信息种类包括图像信息及字符信息；所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品；根据所述信息种类及对应的识别模型执行识别操作，并输出识别结果，所述识别结果包括对应所述图像信息的第一结果以及对应所述字符信息的第二结果。

进一步的，所述预设图本分析模型包括书本检测模型，所述书本检测模型用于从所述图本信息中的主体区域确定所述信息种类；

进一步的，所述图像信息包括绘本信息，所述绘本信息是基于所述绘本得到的，所述第一结果包括对应所述绘本信息的绘本识别结果，所述绘本属于少儿教学中的所述教学物品；

根据所述位置坐标及所述绘本书角提取绘本页面图像；

进一步的，所述位置属性还包括位置角度；

进一步的，所述字符信息包括字卡信息，所述字卡信息是基于所述字卡得到的，所述字卡属于少儿教学中的所述教学物品，所述第二结果包括对应所述字卡信息的字卡识别结果；

进一步的，所述识别模型还包括所述手指识别模型，所述手指识别模型用于在所述图本信息中获取用户的手指位置信息；

在所述输出识别结果之前，所述方法还包括：

若存在，则根据所述手指位置信息确定待识别区域；

所述输出识别结果，包括：

输出所述目标识别结果。

进一步的，在所述根据所述手指识别模型确定所述图本信息中是否存在所述手指位置信息之后，所述方法还包括：

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程流程管理设备的处理器以产生一个机器，使得通过计算机或其他可编程流程管理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图本识别方法，其特征在于，包括：

获取图本信息；

根据预设图本分析模型确定所述图本信息的信息种类，其中，所述信息种类包括图像信息及字符信息，所述图本信息是基于教学物品获取的，所述信息种类对应所述教学物品；

2.根据权利要求1所述的方法，其特征在于，所述预设图本分析模型包括书本检测模型，所述书本检测模型用于从所述图本信息中的主体区域确定所述信息种类；

3.根据权利要求1所述的方法，其特征在于，所述图像信息包括绘本信息，所述绘本信息是基于所述绘本得到的，所述第一结果包括对应所述绘本信息的绘本识别结果，所述绘本属于少儿教学中的所述教学物品；

根据所述位置坐标及所述绘本书角提取绘本页面图像；

4.根据权利要求3所述的方法，其特征在于，所述位置属性还包括位置角度；

5.根据权利要求1所述的方法，其特征在于，所述字符信息包括字卡信息，所述字卡信息是基于所述字卡得到的，所述字卡属于少儿教学中的所述教学物品，所述第二结果包括对应所述字卡信息的字卡识别结果；

根据所述文本区域及预设光学字符识别算法进行识别，得到字卡识别结果，并输出所述字卡识别结果。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述识别模型还包括所述手指识别模型，所述手指识别模型用于在所述图本信息中获取用户的手指位置信息；

在所述输出识别结果之前，所述方法还包括：

若存在，则根据所述手指位置信息确定待识别区域；

所述输出识别结果，包括：

输出所述目标识别结果。

7.根据权利要求6所述的方法，其特征在于，在所述根据所述手指识别模型确定所述图本信息中是否存在所述手指位置信息之后，所述方法还包括：

8.一种图本识别装置，其特征在于，包括：

获取单元，用于获取图本信息；

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1至权利要求7中任意一项所述的图本识别方法。

10.一种设备，其特征在于，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，执行如权利要求1至权利要求7中任意一项所述的图本识别方法。