CN110033023B

CN110033023B - 一种基于绘本识别的图像数据处理方法及系统

Info

Publication number: CN110033023B
Application number: CN201910180116.0A
Authority: CN
Inventors: 陆羽皓
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2021-06-15
Anticipated expiration: 2039-03-11
Also published as: CN110033023A

Abstract

本发明提供一种基于绘本识别的图像数据处理方法，包括：获取拍照指令并采集图像；利用预设的检索匹配优化模型，对拍摄图像进行编码；根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码，计算拍摄图像与每幅待检索图像间的第一相似度并进行排序；从第一排序结果中筛选出满足预设的比例条件的待检索图像，计算相应的第二相似度并进行排序；从第二排序结果中筛选出检索结果并输出相关的多模态信息。本发明不仅保障了检索精度，还有效降低计算和检索时间，缩短用户等待时间，可识别并检索低分辨率图像，降低在线识别带宽需求，从而降低系统成本。

Description

一种基于绘本识别的图像数据处理方法及系统

技术领域

本发明涉及人工智能领域，具体地说，涉及一种基于绘本识别的图像数据处理方法及系统。

背景技术

随着人工智能的发展，越来越多的绘本阅读机器人推向市面，通过识别卡片、书籍上的内容，例如识别各种形状交通工具、类人机器人、乐器、动植物等内容后，检索出与识别内容相关的多模态输出数据，同时以语音播报、动作呈现和/或屏幕显示等形式输出相关联的多模态数据，从而提升用户的认知能力。

绘本阅读机器人将印刷品检索技术相结合，使得机器人具有了与检索印刷品图片相关信息的交互能力，加强了机器人在图片检索等领域的应用。

然而，现有的绘本阅读机器人在进行内容识别过程中，常常受到图片质量、拍摄环境条件影响，而采集到不同清晰度质量的图像数据，从而影响图像的多模态输出数据检索的正确率，使得绘本阅读机器人输出的数据常与采集的内容不匹配，大大影响了用户的体验感。

另外，对于现有的印刷品检索算法来说，要求目标图片和数据库中图片的图案具有包括旋转和位移等的几何对应关系，因此，需要对图片上对应点的几何关系进行校验。在以往的方案中，这种几何校验需要提取每张图片的局部特征点，并对两张图片的特征点进行逐一匹配，并检验匹配点之间的几何关系，这些特征点的存储占用大量内存，进一步匹配过程计算量大并占用了大量的内存空间。

因此，需要一种轻量级的针对平面印刷图案扫描件的基于绘本识别的图像数据处理方法及系统，以使绘本阅读机器人能基于各种拍摄环境来输出与扫描件相匹配的多模态数据。

发明内容

为解决上述问题，本发明提供了一种基于绘本识别的图像数据处理方法，其特征在于，包括：步骤一，获取拍照指令并采集图像；步骤二，利用预设的检索匹配优化模型，对所述拍摄图像进行编码，其中，所述优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的；步骤三，根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码，计算所述拍摄图像与所述每幅待检索图像间的第一相似度并进行排序；步骤四，从第一排序结果中筛选出满足预设的比例条件的所述待检索图像，计算所述拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序；步骤五，从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果，并输出与所述检索结果相关的多模态信息。

根据本发明的一个实施例，在计算所述第二相似度时，进一步包括：获取所述拍摄图像的池化坐标向量；根据拍摄图像的所述池化坐标向量和当前待检索图像对应的所述池化坐标向量，计算这两个所述池化坐标向量中每对同一位置坐标的欧氏距离，得到相应的权值评价向量；利用预设的非线性单调递减函数，对所述权值评价向量进行滤波处理，得到相应的特征修正向量；将所述特征修正向量与所述拍摄图像和所述当前待检索图像中的任一图像对应的第一特征向量进行点乘运算，进一步将点乘运算结果与所述拍摄图像和所述当前待检索图像中的另一图像对应的第一特征向量进行内积运算，得到相应的所述第二相似度。

根据本发明的一个实施例，所述非线性单调递减函数优选为基于预设的权重阈值的二值化函数。

根据本发明的一个实施例，在所述步骤二中，利用图像处理技术，检测所述拍摄图像，确定表示当前拍摄环境的光照条件和图像清晰度的环境状态信息；根据当前的服务器运行速度及资源剩余量，结合所述环境状态信息，选择相适应的所述卷积神经网络模型，并确定相应的所述检索匹配优化模型。

根据本发明的一个实施例，选中所述卷积神经网络模型，保留所有卷积滤波处理部分，并将最后一个卷积层以后的结构进行裁切，得到相应的所述检索匹配优化模型。

根据本发明的一个实施例，在所述步骤五中，根据所述第二排序结果确定所述第二相似度的最高值，进一步利用预设的检索结果输出阈值，确定当前是否存在有效检索结果，其中，若最高第二相似度达到或超过所述检索结果输出阈值，则存在所述有效检索结果，将具有所述最高第二相似度的图片作为当前有效检索结果。

根据本发明的一个实施例，将所述不同质量的拍摄图片作为输入，所述图像数据库中的所述待检索图像作为目标数据集，利用建立分类任务的方法、和/或基于GEM特征的将SNCA损失作为任务的方法、和/或基于GEM特征的将对比损失作为任务的方法，训练出所述卷积神经网络模型。

根据本发明的一个实施例，在计算所述第一相似度时，进一步包括：将所述拍摄图像编码结果依次进行最大池化处理和二阶范数归一化处理，得到针对所述拍摄图像的池化坐标向量及第一特征向量；将所述拍摄图片的第一特征向量与当前待检索图像对应的第一特征向量进行内积运算，得到相应的所述第一相似度。

本发明还提出了一种基于绘本识别的图像数据处理系统，包括：图像获取模块，其获取拍照指令并采集图像；图像编码模块，其利用预设的检索匹配优化模型，对所述拍摄图像进行编码，其中，所述优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的；初级排序模块，其根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码，计算所述拍摄图像与所述每幅待检索图像间的第一相似度并进行排序；优化排序模块，其从第一排序结果中筛选出满足预设的比例条件的所述待检索图像，计算所述拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序；结果输出模块，其从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果，并输出与所述检索结果相关的多模态信息。

根据本发明的一个实施例，所述优化排序模块包括：优化排序数据获取单元，其获取所述拍摄图像的池化坐标向量；权值评价向量生成单元，其根据拍摄图像的所述池化坐标向量和当前待检索图像对应的所述池化坐标向量，计算这两个所述池化坐标向量中每对同一位置坐标的欧氏距离，得到相应的权值评价向量；特征修正向量生成单元，其利用预设的非线性单调递减函数，对所述权值评价向量进行滤波处理，得到相应的特征修正向量；第二相似度计算单元，其将所述特征修正向量与所述拍摄图像和所述当前待检索图像中的任一图像对应的第一特征向量进行点乘运算，进一步将点乘运算结果与所述拍摄图像和所述当前待检索图像中的另一图像对应的第一特征向量进行内积运算，得到相应的所述第二相似度。

本发明还提出了一种绘本阅读机器人，用于执行如上述所述的方法步骤的一系列指令。

本发明还提出了一种绘本阅读装置，包括：如上述所述的绘本阅读机器人；和如上述所述的基于绘本识别的图像数据处理系统。

本发明提供的基于绘本识别的图像数据处理方法及系统，能够使得绘本阅读机器人实现基于各种拍摄环境来输出与扫描件相匹配的多模态数据的功能。本发明利用经过裁切处理的微型卷积神经网络模型，以基本保持检索精度的情况下减少内存占用空间及算力需求，快速检索出最终的匹配结果，达到降低成本的目的。另外，由于本发明采用了经过大量不同拍摄环境下的自然拍摄图片作为预训练的卷积神经网络模型的训练数据，使得本发明实施例中的在线编码过程能够对不同环境质量的图片有更好的识别能力，使得检索匹配优化模型具有较强的鲁棒性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例的基于绘本识别的图像数据处理方法的应用环境示意图。

图2为本发明实施例的基于绘本识别的图像数据处理方法的步骤图。

图3为本发明实施例的基于绘本识别的图像数据处理方法中的拍照指令获取的具体流程图。

图4为本发明实施例的基于绘本识别的图像数据处理方法中的优化模型选择的具体流程图。

图5为本发明实施例的基于绘本识别的图像数据处理方法中的步骤三的具体流程图。

图6为本发明实施例的基于绘本识别的图像数据处理方法中的步骤四的具体流程图。

图7为本发明实施例的基于绘本识别的图像数据处理方法中的有效检索结果诊断的具体流程图。

图8为本发明实施例的基于绘本识别的图像数据处理系统的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

然而，现有的绘本阅读机器人在进行内容识别过程中，常常受到图片质量、环境条件影响，而采集到不同清晰度质量的图像数据，从而影响图像的多模态输出数据检索的正确率，使得绘本阅读机器人输出的数据常与采集的内容不匹配，大大影响了用户的体验感。

另外，对于现有的印刷品检索算法来说，要求目标图片和数据库中图片的图案具有包括旋转和位移等的几何对应关系，因此，需要对图片上对应点的几何关系进行校验。在以往的方案中，这种几何校验需要提取每张图片的局部特征点(其中，局部特征点提取算法常采用，如：SIFT、SURF、ORB或神经网络等方法。)，并对两张图片的特征点进行逐一匹配，并检验匹配点之间的几何关系，这些特征点的存储占用大量内存，进一步匹配过程计算量大并占用了大量的内存空间。可参考：https://en.wikipedia.org/wiki/Convolutional_ neural_network。

因此，本发明提出了一种轻量级的针对平面印刷图案扫描件的图像数据处理方法及系统。该方法及系统是基于绘本阅读机器人多种功能中的绘本识别功能环境下实施的，利用经过卷积神经网络模型经裁切后构建而成的检索匹配优化模型对拍摄图像进行实时的在线编码处理，并实时计算与图片数据库中的待检索图像的第一相似度，以及进一步从第一相似度的排序结果中筛选出二次排序的待检索图片，并计算拍摄图片与这些图像间的第二相似度，以得到匹配度最高的检索结果。最后，利用绘本阅读机器人的输出设备演绎出与检索结果相关的多模态输出信息，从而实现绘本阅读机器人能基于各种拍摄环境来输出与扫描件相匹配的多模态数据的功能。本发明利用经过裁切处理的微型卷积神经网络模型，以在基本保障检索精度的情况下减少内存占用空间及算力需求，快速检索出最终的匹配结果，达到降低成本的目的。另外，由于本发明采用了经过大量不同拍摄环境下的自然拍摄图片作为预训练的卷积神经网络模型的训练数据，使得本发明实施例中的在线编码过程能够对不同环境质量的图片有更好的识别能力，使得检索匹配优化模型具有较强的鲁棒性。

为了更加清晰的表达，需要在实施例前进行如下说明：

本发明提到的绘本阅读机器人支持多模态人机交互，具备自然语言理解、视觉感知、语言语音输出、情感表情动作输出等AI能力；可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验。

绘本阅读机器人获取来自用户的多模态输入数据，在云端大脑的能力支持下，对多模态数据进行语义理解、视觉识别、认知计算、情感计算，以完成决策并输出与决策结果匹配的多模态输出数据的过程。

所提到的云端大脑为提供所述绘本阅读机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以决策所述绘本阅读机器人输出的多模态(输出)信息。

图1为本发明实施例的基于绘本识别的图像数据处理方法的应用环境示意图。如图1所示，在绘本阅读机器人102启动后，绘本阅读机器人102采集用户101输入的多模态输入信息，并利用机器人102自身的决策能力对该输入信息进行分析，判断当前输入信息中是否含有拍照指令，以判定当前用户101是否有绘本图片识别并演绎的需求。若含有拍照指令，则启动绘本阅读机器人102的图片采集设备(例如：摄像头、扫描仪等设备)，并采集绘本103中的目标图像，并进入图像检索流程，待阅读机器人102检索到与目标图像匹配度最高的检索结果后，利用绘本阅读机器人102的输出设备将与检索结果相关联的多模态输出信息进行相应的展示并演绎。

举例来说，当前用户101想要获取关于绘本103中的“三只小熊”的故事，向绘本阅读机器人102发送相应的含有拍照指令的多模态输入数据(如：向绘本阅读机器人102输入“收听三只小熊的故事”的语音信息)。绘本阅读机器人102接收到当前的多模态输入信息后，判定当前用户101需要进行绘本识别并演绎绘本内容，那么采集绘本103中的目标图像(其中，目标图像是指用户需要进行绘本图片演绎的图片)，并进入图像检索流程，而后，从图片数据库中检索出相对应的检索结果(图片)，并得到与检索图片相关联的多模态输出信息(此处的多模态输出信息为与检索结果图片相关联的绘本内容信息，例如：“三只小熊”故事中涉及相关的语音、文字、动作、表情等信息)，以通过绘本阅读机器人102的多种类输出设备将上述多模态输出信息展示给当前用户101。这样，通过上述方式完成了目标图像的采集、检索后，向用户101展示了相应的绘本图片演绎结果。

图2为本发明实施例的基于绘本识别的图像数据处理方法的步骤图。如图2所示，上述图像数据处理方法包括如下步骤。

首先，在步骤S210中，获取拍照指令并采集拍摄图像。图3为本发明实施例的基于绘本识别的图像数据处理方法中的拍照指令获取的具体流程图。如图3所示，步骤S301获取用户的多模态输入信息，确定多模态输入信息中的用户意图，而后，进入到步骤S302中。在本发明的一个实施例中，在与用户进行交互的绘本阅读机器人102启动后获取用户输出的多模态输入信息。需要说明的是，此处的多模态输入信息包含不同合理形式的交互信息。例如，多模态输入信息既可以是包含用户的图像信息、语音信息、动作信息、感知信息以及表情信息等多模态的信息，也可以是通过物联方式从移动客户端传来的信息。为了获取多模态输入信息，绘本阅读机器人102上也配备相应的输入输出设备。

在确定用户意图时，需要借助云端大脑的支持，将多模态输入信息传输至云端大脑，云端大脑运用语言语义理解、动作语义理解、视觉识别、情感计算以及认知计算等能力解析多模态输入信息，以确定用户是否具有绘本图片识别需求的交互意图。

步骤S302根据步骤S301根据用户意图，判断当前用户意图中是否包含绘本识别需求。进一步，在一个实施例中，若判断出当前用户意图中包含绘本识别需求，则进入到步骤S303中，生成相应的拍照指令。在另一个实施例中，若判断出当前用户意图中不包含绘本识别需求，则进入到步骤S304中，等待获取新的多模态输入信息。

需要说明的是，上述用户意图能够从不同程度上表现出用户是否具有绘本识别需求意图的一种倾向性。举例而言，用户发出的多模态输入信息是声音输入信息“我要听故事”，则基本能够确定用户是想让绘本阅读机器人102调用图像采集设备来拍照。因此，在本申请中认为，在多模态输入信息中携带有用户绘本识别需求意图，那么根据这种需求生成的拍照指令可以用于触发图像采集设备启动。在本发明实施例中，拍照指令指的是根据多模态输入信息中所携带的绘本识别需求意图而生成的指令，该指令能够表达出该多模态输入信息的用户是否具有绘本识别需求意图的倾向性。

进一步，在获得了拍照指令后，启动绘本阅读机器人102内的相关图像采集设备，对绘本103内的目标图片进行采集拍摄，得到与目标图片对应的拍摄图像。需要说明的是，本发明对绘本103的具体形式不作限定，本领域技术人员可根据实际情况进行选择。优选地，本发明实施例中的绘本103为实体绘本。

而后，进入到步骤S220中，利用预设的检索匹配优化模型，对上述步骤S210采集到的拍摄图像进行编码。其中，上述检索匹配优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的。

卷积神经网络模型是一种用于处理图片数据的函数模型，包括不同数量的卷积层和池化层等子函数模型。卷积层是卷积神经网络的中间结构，输入为目标图片(拍摄图像)的三维向量，输出为检索结果的三维向量，三个维度分别为[通道数，长，宽]。在本发明中，对于卷积神经网络模型，将其最后一个卷积层之后的结构裁切，得到裁切后的神经网络，记为F，即检索匹配优化模型。对于本发明采集到的拍摄图像或图像数据库中所有待检索图像的任一图像，经过检索匹配优化模型的编码处理后，可得到相应的编码处理结果(编码参数)。

优选地，在本发明实施例中，存储有多种类型的卷积神经网络模型，并且存储有针对每种卷积神经网络模型相对应的检索匹配优化模型，每种检索匹配优化模型需要针对相应类型的卷积神经网络模型经裁切处理得到。这些类型的卷积神经网络模型和检索匹配优化模型能够将输入的拍摄图像或图像数据库中的每幅待检索图像进行编码处理，得到表征每幅图像的特征信息的编码结果(编码参数)。

需要说明的是，绘本阅读机器人102存储有关于绘本103中包括封皮、内页在内的所有图像片段，每幅图像片段均对应于绘本103中的图片内容。在对拍摄图像检索过程中，每幅图像片段作为待检索图像，可以通过对拍摄图像的编码处理、拍摄图像与每幅待检测图像的第一相似度的计算结果、拍摄图像与每幅预设的比例条件的待检索图像的第二相似度计算结果，筛选出与拍摄图像匹配度最高的待检索图像作为最终的检索结果，并得到与当前检索结果相对应的阅读内容(多模态输出信息)。进一步，图像数据库中存储有针对每幅待检索图像的特征信息和多模态输出信息。其中，特征信息包括：针对不同种类检索匹配优化模型对应的编码参数、不同种类检索匹配优化模型对应的(下述)池化特征向量、(下述)池化坐标向量、和不同种类检索匹配优化模型对应的(下述)第一特征向量。

进一步，上述每种卷积神经网络模型的训练过程均是，将不同拍照环境质量(拍照环境质量包括：图片清晰度、拍照光照条件、拍照亮度条件和拍照角度等影响图片质量的各类因素)的拍摄图片作为训练数据的输入数据，将本发明实施例中的图像数据库中的每个待检索图像作为目标数据集(目标数据集作为训练数据的输出数据)，基于卷积神经网络训练模板，利用现有的建立分类任务的方法(方案一可参考：Krizhevsky,Alex,IlyaSutskever,and Geoffrey E.Hinton."Imagenet classification with deepconvolutional neural networks."Advances in neural information processingsystems.2012.)、和/或现有的基于GEM特征的将SNCA(Scalable Neighborhood ComponentAnalysis)损失作为任务的方法(方案二可参考Wu，Zhirong，Alexei A.Efros，and StellaX.Yu."Improving Generalization via Scalable Neighborhood Component Analysis."arXiv preprint arXiv:1808.04699(2018).)、和/或现有的基于GEM特征的将对比损失作为任务的方法(方案三可参考

Filip，Giorgos Tolias，and Ondrej Chum."Fine-tuning CNN image retrieval with no human annotation."IEEE Transactionson Pattern Analysis and Machine Intelligence(2018))，训练出相应的卷积神经网络模型。其中，在训练卷积神经网络模型时的训练数据存储于模型训练数据库中。模型训练数据库包括上述存储有目标数据集的图像数据库，以及存储有训练输入数据的拍摄图片数据库。拍摄图片数据库存储有图片数据库中针对每幅待检索图像的拍摄图片子存储区域，每个拍照图片子存储区域存储有针对当前待检索图像在不同拍照环境质量情况下所拍摄的多张拍摄图片。

其中，上述卷积神经网络训练模板选自VGG卷积模型、RESNET卷积模型mobileNet卷机模型、和shufflenet卷积模型中的一种。优选地，在本发明实施例例中，采用运算量极低的微型shufflenet V2卷积神经网络模型作为本法明实施例中的卷积神经网络训练模板。

需要说明的是，上述本发明关于卷积神经网络模型的训练的方法可选择上述三种方案中的其中一种，其中，方案三的训练效果优于方案二，方案二的训练效果优于方案一；也可以选择其中两种或三种依次实施，得到相应的卷积神经网络模型。优选地，在本发明实施例中，采用方案一、方案二、方案三依次进行训练，最终得到用于实时在线编码处理的卷积神经网络模型。

进一步，为了降低编码计算的时间和检索时间，本发明采用将训练完成卷积神经网络进行裁切处理后得到的检索匹配优化模型进行实时在线编码处理。具体地，本发明实施例中的裁切处理包括：选中当前已训练好的卷积神经网络模型，保留所有卷积滤波处理部分，并将最后一个卷积层以后的结构进行裁切，得到相应的检索匹配优化模型。需要注意的是，卷积滤波处理部分需要保留最后一层卷积层的RELU激活函数层，并且将最后一个池化层和全连接层部分裁切掉。这样，通过上述裁切处理得到的优化模型，保留了整个卷积滤波处理过程，便于后续获取MAC特征，进一步既能够满足计算精度、检索精度的需求，也能够减少计算时间，缩短用户等待时间，提升用户的体验感。

图4为本发明实施例的基于绘本识别的图像数据处理方法中的优化模型选择的具体流程图。下面结合图4对本发明实施例中的检索匹配优化模型的选择过程进行说明。具体地，首先，进入到步骤S401中，利用图像处理技术，检测步骤S210采集到的拍摄图像，确定表示当前拍摄环境的光照条件和图像清晰度的环境状态信息。优选地，本发明实施例中的环境状态信息既包括针对当前拍摄图像的光照条件的检测结果、也包括当前拍摄图像的清晰度检测结果，用以表征当前图片的质量，从而在检索匹配优化模型的选取过程中参考表征当前拍摄图像质量的环境状态因素，有利于提高图像检索的准确度。

而后，进入到步骤S402中，根据当前的服务器运行速度及资源剩余量，结合环境状态信息，选择相适应的卷积神经网络模型，并确定相应的检索匹配优化模型。由于绘本阅读机器人102通常具有多种功能，为了提高图像检索的速度，除了需要考虑上述环境状态信息，还需要获取当前云端服务器的运行速度及资源剩余量、本地处理器的运行速度及资源剩余量，选择适合当前服务器运行状态、拍照环境等因素影响下的可决定在线检索精度和速度的卷积神经网络模型，并确定当前类型的卷积神经网络模型对应的经过裁切处理后得到的检索匹配优化模型。这样，不仅保障当前图像检索过程不会为绘本阅读机器人102的运行造成过大的负担，也在满足当前服务器资源的情况下，快速、精确的完成图像检索过程，使得每单位服务器资源可以完成更多其他的与绘本阅读相关的任务。

需要说明的是，本发明通过检测拍摄图像的环境状态信息，并结合当前的服务器运行速度及资源剩余量，选择不同运算精度和运算速度的检索匹配优化模型，来适应不用图像采集设备的分辨率条件等级、不同拍摄环境(包括环境亮度、光照条件等)、不同服务器状态，以适应不同拍照环境质量的拍摄图像。例如：在检测出拍摄图像的清晰度较高和/或光照条件质量较高(光照条件质量较高是指在光照条件较暗和光照亮度过强之间的光照条件)时，可选择运算精度不高的检索匹配优化模型进行实时编码处理。在检测出拍摄图像的清晰度较低和/或光照条件质量较差(光照条件质量较差是指在光照条件较暗或光照亮度过强易造成曝光现象)时，可选择运算精度较高的检索匹配优化模型进行实时编码处理。

然后，进入到步骤S230中，根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码参数，计算拍摄图像与每幅待检索图像间的第一相似度并进行排序。

图5为本发明实施例的基于绘本识别的图像数据处理方法中的步骤三的具体流程图。如图5所示，首先需要依次按照下述步骤S501、步骤S502中所述的方法计算当前拍摄图像相对于每幅图像数据库中内的待检索图像的第一相似度，待完成所有待检索图像的第一相似度计算后，进入到步骤S503中进行排序。否则，返回到步骤S501中对下一个待检索图像进行第一相似度的计算。

具体地，在计算拍摄图像与任一当前待检索图像的第一相似度时，首先，进入到步骤S501中，将上述步骤S220得到的拍摄图像的编码参数结果依次进行最大池化处理和二阶范数归一化处理，得到针对最大池化处理结果的池化特征向量和池化坐标向量，以及将最大池化处理结果进行二阶范数归一化处理后得到的第一特征向量。

最大池化处理是池化操作的一种，输入为编码参数的三维向量，输出为池化处理结果的一维向量，该处理的维度与输入的通道数相同。具体地，取卷积层输出的编码参数三维张量的每一个通道所对应的二维矩阵的最大值，得到一个长度为通道数的一维向量，即池化特征向量，进一步，将每个最大值所在的原二维矩阵的在长、宽两个方向上的坐标构成的矩阵向量，称为MAX坐标向量，即为池化坐标向量。

二阶范数归一化处理是将池化坐标向量中每个元素除以池化坐标向量的每个元素的平方和的开方，得到相应的MAC特征向量(可参考：Gordo，Albert，et al."Deep imageretrieval:Learning global representations for image search."EuropeanConference on Computer Vision.Springer，Cham，2016)，即为第一特征向量。二阶范数归一化处理的输入、输出均为向量，且尺寸相同。

而后，在得到针对拍摄图像的第一特征向量后，进入到步骤S502中，将拍摄图像的第一特征向量与当前待检索图像对应的第一特征向量进行内积运算，得到相应的表征当前拍摄图像与当前待检索图像之间相似度关系的第一相似度。其中，相似度数据越高表明当前待检索图像与拍摄图像之间的相似度越高。

进一步，在计算拍摄图像与当前待检索图像的第一相似度时的数学表达式如下所示：

MAC＝c1^Tc2

其中，I1表示输入至检索匹配优化模型的拍摄图像的三维向量，I2表示输入至检索匹配优化模型的当前待检索图像的三维向量，F表示检索匹配优化模型的编码处理，maxpooling(F(I1))表示将拍摄图像编码结果进行最大池化处理得到针对拍摄图像的池化特征向量，maxpooling(F(I2))表示当前待检索图像对应的池化特征向量，

表示二阶范数归一化处理，c1表示拍摄图像的第一特征向量，c2表示当前待检索图像对应的第一特征向量，T表示内积运算符号，MAC表示当前拍摄图像与当前待检索图像之间的第一相似度。

进一步，在计算完成所有待检索图像的第一相似度后，进入到步骤S503中根据每幅图像计算出的第一相似度数据，对每幅待检索图像按照数据从高到低进行排序，得到相应的第一排序结果。

接着，进入到步骤S240中，从第一排序结果中筛选出满足预设的比例条件的待检索图像，计算拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序。图6为本发明实施例的基于绘本识别的图像数据处理方法中的步骤四的具体流程图。在本发明实施例中，为了加快二次相似度计算过程，首先，如图6所示，进入到步骤S601中，按照预设的比例条件，从第一排序结果中的自具有最高第一相似度的待检测图像起，选择满足上述比例条件范围内的待检索图像，作为二次相似度计算的待检索图像，而后，进入到步骤S602中。进一步，需要依次按照下述步骤S602、步骤S603、步骤S604、步骤S605中所述的流程计算当前拍摄图像相对于每幅满足二次相似度计算条件(满足比例条件)的待检索图像之间的第二相似度，待完成所有满足二次相似度计算条件(满足比例条件)的待检索图像的第二相似度计算后，进入到步骤S606中进行排序。否则，返回到步骤S602中对下一个待检索图像进行第二相似度的计算。

需要说明的是，本发明对上述比例条件不作具体限定，本领域技术人员可根据实际情况进行相应的设定。其中，本发明实施例中的比例条件优选为前十分之一。

在筛选出二次相似度计算的待检索图像后，进入到计算第二相似度流程。第二相似度称为“geoMAC相似度”，输入为两张图片的MAC特征向量和MAX坐标向量，输出为两张图片的相似度，数值在[-1，1]之间。具体地，在计算拍摄图像与任一满足比例条件的待检索图像之间的第二相似度时，首先，进入到步骤S602中，需要再次获取拍摄图像的池化坐标向量，而后，进入到步骤S603中。

进一步，步骤S603根据拍摄图像的池化坐标向量和当前待检索图像对应的池化坐标向量，计算拍摄图像的池化坐标向量相较于当前待检索图像的池化坐标向量中每对同一元素位置处的坐标对应的欧氏距离，得到相应的权值评价向量。具体地，首先，获取当前满足二次相似度计算的待检索图像对应的池化坐标向量。而后，将拍摄图像对应的池化坐标向量与当前待检索图像对应的池化坐标向量上每对同一元素位置处的坐标进行欧式距离求取处理，得到每个元素位置处的欧氏距离计算结果，从而构成针对当前待检索图像的权值评价向量。

进一步，步骤S604利用预设的非线性单调递减函数，对权值评价向量进行滤波处理，得到相应的特征修正向量。需要说明的是，本发明对上述单调递减函数的具体形式不作限定，本领域技术人员可根据实际情况进行选择。在本发明实施例中，上述非线性单调递减函数优选为基于预设的权重阈值的二值化函数。具体地，对于权值评价向量按照预设的权重阈值参数进行二值化处理，即权值评价向量中大于权重阈值参数的元素记为0；小于权重阈值参数的元素记为1。其中，本发明对上述权重阈值参数的具体数值不作限定。

进一步，进入到步骤S605中，将上述步骤S604得到的特征修正向量、与拍摄图像和当前待检索图像中的任一图像对应的第一特征向量进行点乘运算，进一步将点乘运算结果与拍摄图像和当前待检索图像中的另一图像对应的第一特征向量进行内积运算，得到相应的第二相似度。具体地，在一个实施例中，先将上述步骤S604得到的特征修正向量与拍摄图像的第一特征向量进行点乘运算，再将该点乘运算结果与当前待检索图像对应的第一特征向量进行内积运算，得到相应的第二相似度。在另一个实施例中，先将上述步骤S604得到的特征修正向量与当前待检索图像对应的第一特征向量进行点乘运算，再将该点乘运算结果与拍摄图像的第一特征向量进行内积运算，得到相应的第二相似度。

进一步，在计算拍摄图像与当前待检索图像的第二相似度时的数学表达式如下所示：

X1＝argmaX F(I1)

X2＝argmax F(I2)

geoMAC＝W⊙c1^Tc2

其中，X1表示拍摄图像的池化坐标向量；X2表示当前待检索图像的池化坐标向量；argmax表示最大池化处理中的求取二维矩阵最大值对应的坐标的处理，该坐标为二维坐标；di表示权值评价向量的元素；B表示非线性单调递减函数；wi表示特征修正向量的元素；⊙表示点乘运算符号；geoMAC表示当前拍摄图像与当前待检索图像之间的第二相似度。

进一步，在计算完成所有满足比例条件的待检索图像的第二相似度后，进入到步骤S606中，根据每幅图像计算出的第二相似度数据，对每幅满足比例条件的待检索图像按照数据从高到低进行排序，得到相应的第二排序结果。

最后，在得到第二排序结果后，进入到步骤S250中，从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果，并输出与该检索结果相关的多模态(输出)信息。其中，根据上述第二排序结果，将第二相似度的最高值对应的图片作为整个图像检索过程的检索结果，并输出与该检索结果相关联的表示绘本阅读识别需求并展示演绎绘本目标图片结果的多模态输出信息。这样，用户101便可通过绘本阅读机器人102内的输出设备，看到与目标图片相匹配的故事内容。

在另一个优选实施例中，为了保障最终图像检索结果与当前拍摄图像的相关性匹配的正确率，需要输出达到一定相似度阈值的有效的图像检索结果，否则，判定当前图像检索过程未检测到相关性较高的检索结果。图7为本发明实施例的基于绘本识别的图像数据处理方法中的有效检索结果诊断的具体流程图。如图7所示，步骤S701根据第二排序结果确定第二相似度的最高值，进一步利用预设的检索结果输出阈值，确定当前是否存在有效检索结果。其中，若最高第二相似度达到或超过检索结果输出阈值(相似度阈值)，则判定当前存在有效检索结果，进入到步骤S702中，将具有最高第二相似度的图片作为当前有效检索结果，并在步骤S703中输出与该有效检索结果相关的多模态输出信息。

进一步，若最高第二相似度未达到检索结果输出阈值(相似度阈值)，则判定当前不存在有效检索结果，进入到步骤S704中，通过绘本阅读机器人102内的输出设备输出与表征当前未检测到相关性较高的检索结果的多模态输出信息。例如：绘本阅读机器人102向用户101输出“绘本识别无效”的语音信息等。

另外，本发明还提出了一种基于绘本识别的图像数据处理系统。图8为本发明实施例的基于绘本识别的图像数据处理系统的结构示意图。如图8所示，该系统包括图像获取模块81、图像编码模块82、初级排序模块83、优化排序模块84和结果输出模块85。其中，图像获取模块81，其按照上述步骤S210执行，配置为获取拍照指令并采集图像。图像编码模块82，其按照上述步骤S220执行，配置为利用预设的检索匹配优化模型，对拍摄图像进行编码，其中，检索匹配优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的。初级排序模块83，其按照上述步骤S230执行，配置为根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码，计算拍摄图像与每幅待检索图像间的第一相似度并进行排序。优化排序模块84，其按照上述步骤S240执行，配置为从第一排序结果中筛选出满足预设的比例条件的待检索图像，计算拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序。结果输出模块，其按照上述步骤S250执行，配置为从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果，并输出与检索结果相关的多模态信息。

进一步，所述优化排序模块84包括：优化排序数据获取单元、权值评价向量生成单元、特征修正向量生成单元、以及第二相似度计算单元。其中，优化排序数据获取单元，其按照上述步骤S602执行，配置为获取拍摄图像的池化坐标向量；权值评价向量生成单元，其按照上述步骤S603执行，配置为根据拍摄图像的池化坐标向量和当前待检索图像对应的池化坐标向量，计算这两个池化坐标向量中每对同一位置坐标的欧氏距离，得到相应的权值评价向量。特征修正向量生成单元，其按照上述步骤S604执行，配置为利用预设的非线性单调递减函数，对权值评价向量进行滤波处理，得到相应的特征修正向量。第二相似度计算单元，其按照上述步骤S605执行，配置为将特征修正向量与拍摄图像和当前待检索图像中的任一图像对应的第一特征向量进行点乘运算，进一步将点乘运算结果与拍摄图像和当前待检索图像中的另一图像对应的第一特征向量进行内积运算，得到相应的第二相似度。

本发明还提供了一种绘本阅读机器人，该绘本阅读机器人用于执行上述基于绘本识别的图像数据处理方法步骤的一系列指令。具体地，该绘本阅读机器人存储有程序代码，该代码被操作系统执行时能够实现如上所述的基于绘本识别的图像数据处理方法。

进一步，本发明还提出了一种绘本阅读装置，该装置包括：上述绘本阅读机器人、以及上述所述的基于绘本识别的图像数据处理系统。基于绘本识别的图像数据处理系统作为程序代码存储于绘本阅读机器人内，以被机器人操作系统利用执行，实现上述所述的绘本识别的图像数据处理方法。

本发明提供的基于绘本识别的图像数据处理方法及系统提供了一种绘本阅读机器人，具备未知光照条件下的绘本图片在线快速、准确的检索能力，能够向用户多模态的输出绘本图片中的相关内容，缩短了用户等待时间，降低了用户阅读故事的难度，并大大提高了用户对绘本阅读的兴趣。另外，本发明采用的图像检索方法利用经裁切处理的检索匹配优化模型进行在线编码，不但保障了图片检索的精度，还能够有效的降低计算时间和检索时间，缩短用户等待时间。此外，本发明还能够根据实时采集到的拍摄图像的质量检测结果、服务器运行状态等因素选择适合当前运算环境的检索匹配优化模型的类别，能够对低分辨率拍摄图像进行识别和检索，降低在线识别带宽需求，从而降低摄像头成本，进一步使得每单位服务器可以完成更多其他与绘本阅读相关的任务。

还能够根据与绘本关联的知识图谱，生成匹配用户交互意图的多模态应答数据，能够更精确的满足用户的意图，提升了用户的使用体验。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于绘本识别的图像数据处理方法，其特征在于，包括：

步骤一，获取拍照指令并采集图像；

步骤二，利用预设的检索匹配优化模型，对拍摄图像进行编码，其中，所述优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的，所述裁切处理为选中所述卷积神经网络模型，保留所有卷积滤波处理部分，并将最后一个池化层和全连接层部分进行裁切，得到相应的所述检索匹配优化模型；

步骤三，根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码，计算所述拍摄图像与所述每幅待检索图像间的第一相似度并进行排序；

步骤四，从第一排序结果中筛选出满足预设的比例条件的所述待检索图像，计算所述拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序；

步骤五，从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果，并输出与所述检索结果相关的多模态信息，其中，在计算所述第二相似度时，进一步包括：

获取所述拍摄图像的池化坐标向量；

根据拍摄图像的所述池化坐标向量和当前待检索图像对应的所述池化坐标向量，计算这两个所述池化坐标向量中每对同一位置坐标的欧氏距离，得到相应的权值评价向量；

利用预设的非线性单调递减函数，对所述权值评价向量进行滤波处理，得到相应的特征修正向量；

将所述特征修正向量与所述拍摄图像和所述当前待检索图像中的任一图像对应的第一特征向量进行点乘运算，进一步将点乘运算结果与所述拍摄图像和所述当前待检索图像中的另一图像对应的第一特征向量进行内积运算，得到相应的所述第二相似度。

2.根据权利要求1所述的方法，其特征在于，所述非线性单调递减函数优选为基于预设的权重阈值的二值化函数。

3.根据权利要求1所述的方法，其特征在于，在所述步骤二中，

利用图像处理技术，检测所述拍摄图像，确定表示当前拍摄环境的光照条件和图像清晰度的环境状态信息；

根据当前的服务器运行速度及资源剩余量，结合所述环境状态信息，选择相适应的所述卷积神经网络模型，并确定相应的所述检索匹配优化模型。

4.根据权利要求1所述的方法，其特征在于，在所述步骤五中，

根据所述第二排序结果确定所述第二相似度的最高值，进一步利用预设的检索结果输出阈值，确定当前是否存在有效检索结果，其中，

若最高第二相似度达到或超过所述检索结果输出阈值，则存在所述有效检索结果，将具有所述最高第二相似度的图片作为当前有效检索结果。

5.根据权利要求1～4中任一项所述的方法，其特征在于，

将所述不同质量的拍摄图片作为输入，所述图像数据库中的所述待检索图像作为目标数据集，利用建立分类任务的方法、和/或基于GEM特征的将SNCA损失作为任务的方法、和/或基于GEM特征的将对比损失作为任务的方法，训练出所述卷积神经网络模型，其中，当训练方法为多种时，对已选方法进行依次实施。

6.根据权利要求1～4中任一项所述的方法，其特征在于，在计算所述第一相似度时，进一步包括：

将所述拍摄图像编码结果依次进行最大池化处理和二阶范数归一化处理，得到针对所述拍摄图像的第一特征向量；

将所述拍摄图像的第一特征向量与当前待检索图像对应的第一特征向量进行内积运算，得到相应的所述第一相似度。

7.一种基于绘本识别的图像数据处理系统，其特征在于，包括：

图像获取模块，其获取拍照指令并采集图像；

图像编码模块，其利用预设的检索匹配优化模型，对拍摄图像进行编码，其中，所述优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的，所述裁切处理为选中所述卷积神经网络模型，保留所有卷积滤波处理部分，并将最后一个池化层和全连接层部分进行裁切，得到相应的所述检索匹配优化模型；

初级排序模块，其根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码，计算所述拍摄图像与所述每幅待检索图像间的第一相似度并进行排序；

优化排序模块，其从第一排序结果中筛选出满足预设的比例条件的所述待检索图像，计算所述拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序；

结果输出模块，其从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果，并输出与所述检索结果相关的多模态信息，其中，所述优化排序模块包括：

优化排序数据获取单元，其获取所述拍摄图像的池化坐标向量；

权值评价向量生成单元，其根据拍摄图像的所述池化坐标向量和当前待检索图像对应的所述池化坐标向量，计算这两个所述池化坐标向量中每对同一位置坐标的欧氏距离，得到相应的权值评价向量；

特征修正向量生成单元，其利用预设的非线性单调递减函数，对所述权值评价向量进行滤波处理，得到相应的特征修正向量；

第二相似度计算单元，其将所述特征修正向量与所述拍摄图像和所述当前待检索图像中的任一图像对应的第一特征向量进行点乘运算，进一步将点乘运算结果与所述拍摄图像和所述当前待检索图像中的另一图像对应的第一特征向量进行内积运算，得到相应的所述第二相似度。

8.一种绘本阅读机器人，其特征在于，用于执行如权利要求1～6中任一项所述的方法步骤的一系列指令。

9.一种绘本阅读装置，其特征在于，包括：

如权利要求8所述的绘本阅读机器人；和

如权利要求7所述的基于绘本识别的图像数据处理系统。