CN111597906B

CN111597906B - 一种结合文字信息的快速绘本识别方法及系统

Info

Publication number: CN111597906B
Application number: CN202010317628.XA
Authority: CN
Inventors: 刘高成
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2023-12-19
Anticipated expiration: 2040-04-21
Also published as: CN111597906A

Abstract

本发明提供一种结合文字信息的快速绘本识别方法及系统，其中，方法包括：步骤S1：建立数据库，对已有的第一绘本图片进行编码获得第一编码信息；步骤S2：通过设备镜头拍摄绘本获取待识别的第二绘本图片，解析第二绘本图片获取第二编码信息；步骤S3：获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户。本发明的结合文字信息的快速绘本识别方法的有益效果：一、图片上的文字信息，其语义特征不会因为图片内容的像素值发生变化而改变，结合文字的语义信息能够提高绘本在复杂场景下的识别率；二、利用聚类，将数据库的图片划分若干类别，后续比对时只要匹配某一类别中的一小部分图片，从而提高绘本识别的速度。

Description

一种结合文字信息的快速绘本识别方法及系统

技术领域

本发明涉及绘本识别技术领域，特别涉及一种结合文字信息的快速绘本识别方法及系统。

背景技术

目前，绘本的识别都是在智能设备上通过摄像头获取待识别的绘本页，对绘本图片进行特征提取，并将其与库里的绘本图片的特征进行比对，最终得到识别结果。

存在问题：

一.仅仅利用图片本身的信息，在光照变化以及绘本图片相似等等场景下，容易出现识别错误

二.在特征比对的阶段，需要与库里所有图片进行比对，耗时太长，识别效率低下。

发明内容

本发明目的之一在于提供了一种结合文字信息的快速绘本识别方法，结合文字的语义信息能够提高绘本在复杂场景下的识别率；将数据库的图片划分若干类别，在绘本识别比对时只要匹配某一类别中的一小部分图片，从而提高绘本识别的速度。

本发明实施例提供的一种结合文字信息的快速绘本识别方法，包括：

步骤S1：建立数据库，对已有的第一绘本图片进行编码获得第一编码信息；

步骤S2：通过设备镜头拍摄绘本获取待识别的第二绘本图片，解析第二绘本图片获取第二编码信息；

步骤S3：基于第二编码与第一编码，获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户。

优选的，第一编码信息包括：基于文字信息的语义特征和基于图片内容的抽象特征。

优选的，对数据库中的第一绘本图片进行聚类。

优选的，步骤S2：通过设备镜头拍摄绘本获取待识别的第二绘本图片，解析第二绘本图片获取第二编码信息，具体包括：

进行文字检测和文字识别的文字信息，对所提取的文字信息进行编码得到其语义信息；

提取第二绘本图片的图片特征。

优选的，步骤S3：基于第二编码与第一编码，获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户；具体包括：

在步骤S2的基础上，寻找第二绘本图片的第二编码信息的所属类别；

得到类别之后，与类别里的第一绘本图片进行比对，选取特征距离最小的第一绘本图片作为最终的识别结果；

得到识别结果，播放相应的绘本内容反馈给用户。

本发明还提供一种结合文字信息的快速绘本识别系统，包括：

数据库获取模块，用于建立数据库，对已有的第一绘本图片进行编码获得第一编码信息；

绘本图片解析模块，用于通过设备镜头拍摄绘本获取待识别的第二绘本图片，解析第二绘本图片获取第二编码信息；第一编码信息和第二编码信息包括：文字信息的语义特征；

识别模块，用于基于第二编码与第一编码，获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户。

优选的，对数据库中的第一绘本图片进行聚类。

优选的，绘本图片解析模块执行包括如下操作：

提取第二绘本图片的图片特征。

优选的，识别模块执行包括如下操作：

在绘本图片解析模块的输出结果上，寻找第二绘本图片的第二编码信息的所属类别；

得到识别结果，播放相应的绘本内容反馈给用户。

本发明具有如下有益效果：

一、图片上的文字信息，其语义特征不会因为图片内容的像素值发生变化而改变，结合文字的语义信息能够提高绘本在复杂场景下的识别率

二、利用聚类，将数据库的图片划分若干类别，后续比对时只要匹配某一类别中的一小部分图片，从而提高绘本识别的速度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种结合文字信息的快速绘本识别方法的示意图；

图2为本发明实施例中一种绘本图片。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种结合文字信息的快速绘本识别方法，如图1所示，包括：

上述技术方案的工作原理及有益效果为：

基于第一编码和第二编码，将待识别的第二绘本图片与数据库中的绘本内容进行对应，实现绘本的识别；图片上的文字信息，其语义特征不会因为图片内容的像素值发生变化而改变，所以第一编码和第二编码包括：文字信息的语义特征，实现了结合文字的语义信息能够提高绘本在复杂场景下的识别率。

为了实现绘本的识别，在一个实施例中，第一编码信息包括：基于文字信息的语义特征和基于图片内容的抽象特征。同时，第二编码信息也包括基于文字信息的语义特征和基于图片内容的抽象特征。

在一个实施例中，对数据库中的第一绘本图片进行聚类。聚类的目的：将相似的图片划分在一起。

上述技术方案的工作原理及有益效果为：

例如：基于第一编码信息中的图像的抽象特征进行分类聚合，采用第一编码信息中的图像的抽象特征对数据库中的绘本内容进行分类，将数据库的图片划分若干类别，在绘本比对识别时只要匹配某一类别中的一小部分图片，从而提高绘本识别的速度。

为了获得第二编码信息，在一个实施例中，步骤S2：通过设备镜头拍摄绘本获取待识别的第二绘本图片，解析第二绘本图片获取第二编码信息，具体包括：

进行文字检测和文字识别的文字信息，对所提取的文字信息进行编码得到其语义信息；此处获得第二编码信息中的基于文字信息的语义特征；

提取第二绘本图片的图片特征。此处获得第二编码信息中的基于图片内容的抽象特征。

在一个实施例中，步骤S3：基于第二编码与第一编码，获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户；具体包括：

得到识别结果，播放相应的绘本内容反馈给用户。

上述技术方案的工作原理及有益效果为：

图片上的文字信息，其语义特征不会因为图片内容的像素值发生变化而改变，结合文字的语义信息能够提高绘本在复杂场景下的识别率。利用分类，将数据库的图片划分若干类别，后续比对时只要匹配某一类别中的一小部分图片，从而提高绘本识别的速度。

在一个实施例中，步骤S3：基于第二编码与第一编码，获取与第二绘本图片对应的第一绘本图片的绘本内容并播放，具体包括：

步骤S31：基于第二编码中的抽象特征，确定抽象特征在数据库内的分类，并获取数据库中对应的分类内所有的第一编码及第一编码对应的绘本内容；

步骤S32：基于第二编码中的语义特征对步骤S31中获取的第一编码进行筛选，获取至少一个第三编码及第三编码对应的绘本内容；

步骤S33：采用欧氏距离计算方法计算第二编码中的抽象特征与第三编码中的抽象特征的距离；

步骤S34：选取距离最小的第三编码对应的绘本内容并播放。

上述技术方案的工作原理及有益效果为：

首先确定待识别的第二绘本图片在数据库中的分类，然后采用语义特征对该分类中的绘本图片进行筛选，最后在通过图像的抽象特征精准比对到数据库中的绘本内容。图片上的文字信息，其语义特征不会因为图片内容的像素值发生变化而改变，结合文字的语义信息能够提高绘本在复杂场景下的识别率。利用分类，将数据库的图片划分若干类别，后续比对时只要匹配某一类别中的一小部分图片，从而提高绘本识别的速度。其中，步骤S33和步骤S34还可以实施为采用预先训练的深度学习模型计算第二编码中图像中的抽象特征与第三编码中的图像的抽象特征的相似度，取相似度最大的绘本内容播放；抽象特征包括：CNN特征。

在一个实施例中，步骤S32：基于第二编码中的语义特征对步骤S31中获取的第一编码进行筛选，获取至少一个第三编码及第三编码对应的绘本内容；具体包括：

计算第二编码中的语义特征与步骤S31中获取的第一编码中的语义特征的相似度，获取相似度大于预设值的第一编码及第一编码对应的绘本内容作为第三编码及第三编码对应的绘本内容。

上述技术方案的工作原理及有益效果为：

图片上的文字信息，其语义特征不会因为图片内容的像素值发生变化而改变，结合文字的语义信息能够提高绘本在复杂场景下的识别率。计算语义特征的相似度的模型可以采用DSSM(Deep Structured Semantic Models)、CNN-DSSM(CLSM，convolutionallatent semantic model)、LSTM-DSSM等深度学习模型中的一种。

在一个实施例中，对于图2中的绘本的识别，本申请的结合文字信息的快速绘本识别方法包括如下步骤：

第1步：建立数据库，对已有的图片进行编码。编码主要包含两部分：

a.基于图片内容的抽象特征；

b.基于文字信息的语义特征；

对数据库中的样本进行聚类，聚类的目的：将相似的图片划分在一起；

第2步：用户将绘本放在设备镜头前面，启动设备，开始进行绘本阅读。

第3步：通过设备镜头获取当前的绘本图片，然后对绘本图片进行特征提取，包含两个步骤：

a.进行文字检测和文字识别得到绘本图片上的文字信息，对所提取的文字信息进行编码得到其文字信息。

b.提取绘本图片的图片特征；

第4步：在第3步的基础上，寻找该图片的特征编码所属类别。

第5步：得到类别之后，与类里的候选图片进行比对，选取特征距离最小的图片作为最终的识别结果。

第6步：得到识别结果，播放相应的绘本内容反馈给用户。

上述技术方案的工作原理及有益效果为：

识别模块基于第一编码和第二编码，将待识别的第二绘本图片与数据库中的绘本内容进行对应，实现绘本的识别；图片上的文字信息，其语义特征不会因为图片内容的像素值发生变化而改变，所以第一编码和第二编码包括：文字信息的语义特征，实现了结合文字的语义信息能够提高绘本在复杂场景下的识别率。

为了实现绘本的识别，在一个实施例中，第一编码信息包括：基于文字信息的语义特征和基于图片内容的抽象特征。

上述技术方案的工作原理及有益效果为：

为了获得第二编码信息，在一个实施例中，绘本图片解析模块执行包括如下操作：

在一个实施例中，识别模块执行包括如下操作：

得到识别结果，播放相应的绘本内容反馈给用户。

上述技术方案的工作原理及有益效果为：

在一个实施例中，识别模块执行包括如下操作：

步骤S34：选取距离最小的第三编码对应的绘本内容并播放。

上述技术方案的工作原理及有益效果为：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种结合文字信息的快速绘本识别方法，其特征在于，包括：

步骤S2：通过设备镜头拍摄绘本获取待识别的第二绘本图片，解析所述第二绘本图片获取第二编码信息；

步骤S3：基于所述第二编码与所述第一编码，获取与所述第二绘本图片对应的所述第一绘本图片的所述绘本内容并播放所述绘本内容反馈给用户；

其中，所述第一编码信息包括：基于文字信息的语义特征和基于图片内容的抽象特征；

对所述数据库中的所述第一绘本图片进行聚类，具体为：基于第一编码信息中的图像的抽象特征进行分类聚合，采用第一编码信息中的图像的抽象特征对数据库中的绘本内容进行分类，将数据库的图片划分若干类别。

2.如权利要求1所述的结合文字信息的快速绘本识别方法，其特征在于，步骤S2：通过设备镜头拍摄绘本获取待识别的第二绘本图片，解析所述第二绘本图片获取第二编码信息，具体包括：

提取所述第二绘本图片的图片特征。

3.如权利要求2所述的结合文字信息的快速绘本识别方法，其特征在于，所述步骤S3：基于所述第二编码与所述第一编码，获取与所述第二绘本图片对应的所述第一绘本图片的所述绘本内容并播放所述绘本内容反馈给用户；具体包括：

在步骤S2的基础上，寻找所述第二绘本图片的所述第二编码信息的所属类别；

得到类别之后，与所述类别里的所述第一绘本图片进行比对，选取特征距离最小的所述第一绘本图片作为最终的识别结果；

得到识别结果，播放相应的绘本内容反馈给用户。

4.一种结合文字信息的快速绘本识别系统，其特征在于，包括：

绘本图片解析模块，用于通过设备镜头拍摄绘本获取待识别的第二绘本图片，解析所述第二绘本图片获取第二编码信息；

识别模块，用于基于所述第二编码与所述第一编码，获取与所述第二绘本图片对应的所述第一绘本图片的所述绘本内容并播放所述绘本内容反馈给用户；

5.如权利要求4所述的结合文字信息的快速绘本识别系统，其特征在于，所述绘本图片解析模块执行包括如下操作：

提取所述第二绘本图片的图片特征。

6.如权利要求5所述的结合文字信息的快速绘本识别系统，其特征在于，所述识别模块执行包括如下操作：

在绘本图片解析模块的输出结果上，寻找所述第二绘本图片的所述第二编码信息的所属类别；

得到识别结果，播放相应的绘本内容反馈给用户。