CN113516113A

CN113516113A - 一种图像内容识别方法、装置、设备及存储介质

Info

Publication number: CN113516113A
Application number: CN202011587892.1A
Authority: CN
Inventors: 陈柱; 项小明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-10-19

Abstract

本申请实施例公开了一种图像内容识别方法、装置、设备及存储介质。其中方法包括：获取待识别图像帧，并确定待识别图像帧的状态，若确定待识别图像帧的状态为静止状态，则调用对象定位模型对待识别图像帧进行处理，并根据对象定位模型的处理结果得到区域图像，调用局部定位模型对区域图像进行处理，并根据局部定位模型的处理结果得到热点图像，根据热点区域在热点图像中的图像位置，从待识别图像帧中确定出关联图像，对待识别图像帧中的关联图像进行多媒体处理，并输出关联图像的多媒体处理结果。可提高图像内容识别效率，节省计算资源，并提高了点读设备等设备的识别正确率。

Description

一种图像内容识别方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种图像内容识别方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的不断发展，点读设备应运而生。点读设备是基于光学图像识别技术和先进的数码语音技术开发而成的新一代智能阅读和学习工具。它实现了电子产品与教育行业的融合，为人们的生活和学习提供了便捷。实践发现，受周围环境及设备性能等因素的影响，点读设备的正确识别率较低。

发明内容

本发明实施例提供了一种图像内容识别方法、装置、设备及存储介质，能够较好地提高点读设备的正确识别率。

一方面，本申请实施例提供了一种图像内容识别方法，该方法包括：

获取待识别图像帧，并确定所述待识别图像帧的状态；

若确定所述待识别图像帧的状态为静止状态，则调用对象定位模型对所述待识别图像帧进行处理，并根据对象定位模型的处理结果得到区域图像；

调用局部定位模型对所述区域图像进行处理，并根据局部定位模型的处理结果得到热点图像，所述热点图像中包括热点区域；

根据所述热点区域在热点图像中的图像位置，从所述待识别图像帧中确定出关联图像；

对所述待识别图像帧中的关联图像进行多媒体处理，并输出所述关联图像的多媒体处理结果。

另一方面，本申请提供了一种图像内容识别装置，该处理装置包括：

获取单元，用于获取待识别图像帧，并确定所述待识别图像帧的状态；

处理单元，用于若确定所述待识别图像帧的状态为静止状态，则调用对象定位模型对所述待识别图像帧进行处理，并根据对象定位模型的处理结果得到区域图像；以及用于调用局部定位模型对所述区域图像进行处理，并根据局部定位模型的处理结果得到热点图像，所述热点图像中包括热点区域；以及用于根据所述热点区域在热点图像中的图像位置，从所述待识别图像帧中确定出关联图像；以及用于对所述待识别图像帧中的关联图像进行多媒体处理，并输出所述关联图像的多媒体处理结果。

相应地，本申请提供了一种点读设备，包括处理器、存储器和通信接口，所述处理器、所述存储器和所述通信接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述的图像内容识别方法。

相应地，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，上述的图像内容识别方法被实现。

相应地，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像内容识别方法。

本申请实施例中，一方面，通过判断获取的待识别图像帧的状态来确定是否需要对待识别图像帧进行进一步识别，而非对获取的待识别图像帧进行逐一识别，提高了图像内容识别效率；另一方面，通过对象定位模型过滤待识别图像帧中的干扰部分，得到区域图像，减少后续(局部定位)模型的计算量，节省计算资源；再一方面，通过局部定位模型对待识别图像帧中的点读区域进行定位，进而提高点读设备的正确识别率，并且较好地减少了计算量，有效地节省了软硬件资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种图像内容识别的场景图；

图1b为本申请实施例提供的一种图像内容识别系统的架构图；

图2为本申请实施例提供的一种图像内容识别方法的流程图；

图3为本申请实施例提供的一种确定关联图像的方法示意图；

图4为本申请实施例提供的另一种图像内容识别方法的流程图；

图5a为本申请实施例提供的一种通过光线传感器进行补光前和补光后的手掌对比图；

图5b为本申请实施例提供的一种计算帧间差异信息的原理示意图；

图5c为本申请实施例提供的一种计算帧间差异信息的流程图；

图5d为本申请实施例提供的一种对象定位模型的处理待识别图像帧的流程示意图；

图5e为本申请实施例提供的一种对象定位模型的结构示意图；

图5f为本申请实施例提供的一种局部定位模型的结构示意图；

图5g为本申请实施例提供的一种在用户界面上显示关联图像的示意图；

图5h为本申请实施例提供的一种用户操作界面示意图；

图6为本申请实施例提供的一种图像内容识别装置的结构示意图；

图7为本申请实施例提供的一种点读设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本申请实施例涉及人工智能(Artificial Intelligence，AI)及机器学习(Machine Learning，ML)，通过将AI和ML相结合能够挖掘和分析音频信号中的特征，使得设备能够更加精确的对音频信号进行识别处理，从中确定出关于诸如回声等噪声信号的频谱特征，以便于减轻甚至消除这部分噪声信号对原音频信号的不利影响。其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向；其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例主要涉及计算机视觉技术中的图像识别技术。

ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ML是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例主要涉及对对象定位模型和局部定位模型的训练。

此外，本申请还涉及自然语言处理(Nature Language processing,NLP)。NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例主要涉及对从待识别图像帧中识别的文本信息进行自然语言处理。

请参阅图1a，图1a为本申请实施例提供的一种图像内容识别的场景图。如图1a所示，点读设备101通过采集当前图像，确定当前图像中手指的位置；获取并输出手指处(手指上方，或者手指周围)的识别结果(如通过语音输出识别的文本内容)。在一种实施方式中，点读设备101搭载有摄像头1011，光线传感器1012和显示器1013。摄像头1011用于采集图像，采集的图像会传输到搭载在点读设备101内部的图像处理器进行处理(该图像处理器还可以搭载在显示器1013内部)。光线传感器1012用于检测周围环境光线强度，以及用于在满足补光条件时进行补光辅助处理。显示器1013用于显示用户交互界面，该显示器1013可以是一个触摸显示屏，不仅能够显示用户交互界面，还可以接收用户的操作。如图1a所示，摄像头1011安装在点读设备101的杆部，实践发现，将摄像头1011安装在点读设备101的杆部既可以较完整的采集需要点读的内容，又可以确保采集图像的清晰度较高。光线传感器1012位于摄像头1011的旁边，具体可以是摄像头1011周围的任一位置，将光线传感器1012安装在摄像头1011的旁边有助于更加准确的检测摄像头在采集图像时周围环境的光线强度，便于在满足补光条件时进行补光。显示器1013位于点读设备101的底座上方，在一种实施方式中，显示器1013还搭载有声音输出装置(如扬声器)，以便于在点读过程中播放用户点读的内容。此外，点读设备101还搭载有光源1014，可以理解的是，点读设备101可以通过光源1014进行补光(增强周围环境光线强度)；在无需点读功能时，点读设备101还可以充当台灯。在点读设备的设备主体1015还可以搭载有声音输出装置，蓄电池，数据传输接口(USB接口，充电接口等)，对此本申请不作限制。

图1a所示的图像内容识别场景中，图像内容识别流程主要包括：点读设备101获取待识别图像帧(待识别图像帧可以是通过摄像头进行拍摄采集的视频帧)，并确定待识别图像帧的状态，待识别图像帧的状态是根据该待识别图像帧所在的图像帧集合确定的，待识别图像帧的状态包括静止状态和运动状态；若确定待识别图像帧的状态为静止状态(待识别图像帧所在的图像帧集合中按时间先后顺序排列的N个图像帧的帧间差异小于阈值)，则调用对象定位模型对待识别图像帧进行处理(对象定位模型用于确定待识别图像帧中目标对象所在区域)，并根据对象定位模型的处理结果得到区域图像(如手，或者点读笔等所在区域的图像)，通过对象定位模型可以去除待识别图像帧中的多余部分(目标对象所在区域以外的区域)，减少后续(局部定位)模型的计算量，节省计算资源；调用局部定位模型对区域图像进行处理，并根据局部定位模型的处理结果得到热点图像，热点图像中包括热点区域，热点区域用于指示目标对象所指向的位置；根据热点区域在热点图像中的图像位置，从待识别图像帧中确定出关联图像(如热点区域上方，或者热点区域周围的图像)；对待识别图像帧中的关联图像进行多媒体处理(如将从关联图像中识别得到的文本信息转换为语音信号)，并输出关联图像的多媒体处理结果。

图1b为本申请实施例提供的一种图像内容识别系统的架构图。如图1b所示，图像内容识别系统包括了点读设备101和服务器102；其中，点读设备101可以为点读机、智能台灯、点读笔等具有图像识别功能和语音输出功能的智能设备；点读设备101用于确定用户点读的区域，点读设备101包括图像处理器，摄像头以及红外传感器。服务器102用于识别点读设备101确定的用户点读的区域，并向点读设备101返回识别结果；服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。在其他一些实施例中，点读设备101也可以用于确定的用户点读的区域，并返回识别结果。

本申请实施例中，首先通过判断获取的待识别图像帧的状态来确定是否需要对待识别图像帧进行进一步识别，而非对获取的待识别图像帧进行逐一识别，提高了图像内容识别效率；其次通过对象定位模型过滤待识别图像帧中的干扰部分，得到区域图像，减少后续(局部定位)模型的计算量，节省计算资源；接着通过局部定位模型对待识别图像帧中的点读区域进行定位，进而提高点读设备的正确识别率。

请参阅图2，图2为本申请实施例提供的一种图像内容识别方法的流程图。该方法可以由图1a中的点读设备101来执行，本申请实施例的方法可以包括如下步骤。

S201：点读设备获取待识别图像帧，并确定待识别图像帧的状态。待识别图像帧的状态包括静止状态和非静止状态，静止状态用于指示需要对待识别图像帧进行进一步识别，非静止状态用于指示无需对待识别图像帧进行进一步识别。

在一种实施方式中，待识别图像帧的状态是根据该待识别图像帧所在的图像帧集合确定的，该图像帧集合包括按时间先后顺序排列的N个图像帧，点读设备通过帧间差异算法计算图像帧集合中各组相邻图像帧的帧间差异信息；若图像帧集合中相邻图像帧的帧间差异信息均满足静止条件，则点读设备判定待识别图像帧的状态为静止状态，并继续执行步骤S202；若图像帧集合中相邻图像帧的帧间差异信息中存在至少一个不满足静止条件，则点读设备判定待识别图像帧的状态为非静止状态，则点读设备结束本次判断，并将获取到的下一图像帧作为新的待识别图像帧。

S202：若点读设备确定待识别图像帧的状态为静止状态，则调用对象定位模型对待识别图像帧进行处理，并根据对象定位模型的处理结果得到区域图像。对象定位模型用于识别待识别图像帧中的目标对象，并根据该目标对象确定区域图像(即待识别图像帧中目标对象所在区域的图像)；其中，目标对象是用于指示点读位置的对象，目标对象可以根据实际情况进行设置，本申请对此不作限制；例如，目标对象可以是用户的手指，或者用户手持的物体(如点读笔)。

需要说明的是，目标对象可以设置为多个；当待识别图像帧中未检测到第一目标对象时，检测待识别图像帧中是否存在第二目标对象。例如，将第一目标对象设置为左手或者右手食指(通常用户采用食指单指伸出的方式指向目标)；将第二目标对象设置为左手或者右手中指，或者设置为食指和中指合(即两指合并的情况)。

可选的，待识别图像帧的状态是根据待识别图像帧中目标对象的状态来确定的。具体地，点读设备首先识别待识别图像帧中的目标对象，再确定目标对象的状态，目标对象的状态包括静止状态和非静止状态，静止状态用于指示目标对象在某个位置未移动(即正在点读)；非静止状态用于指示目标对象正在移动(即未点读)。进一步地，若目标对象的状态为静止状态，则点读设备判定待识别图像帧的状态静止状态，根据目标对象确定区域图像；同理，若目标对象的状态为非静止状态，则点读设备判定待识别图像帧的状态为非静止状态，则点读设备结束本次判断，并将获取到的下一图像帧作为新的待识别图像帧。

S203：点读设备调用局部定位模型对区域图像进行处理，并根据局部定位模型的处理结果得到热点图像。局部定位模型用于从输入的区域图像中确定所述目标对象的局部对象的图像位置(即预测区域图像中目标对象所指向的位置)，所述目标对象可以是点读过程中用户的手部对象。局部定位模型对区域图像进行处理，得到处理后的特征图像以及基于该特征图像的关键点预测坐标，该关键点预测坐标为局部定位模型根据区域图像预测的目标对象所指向的位置的坐标。点读设备根据特征图像和关键点预测坐标生成热点图像，热点图像用于确定待识别图像中目标对象所指示的需要识别的区域；热点图像的尺度与特征图图像的尺度相同，热点图像中包括热点区域，该热点区域以关键点预测坐标为中心。

在一种实施方式中，当局部定位模型未预测出关键点预测坐标时，将目标对象的预设位置确定为关键点预测坐标；例如，当对象定位模型检测到待识别图像帧存在手掌，但局部定位模型未检测到伸出的手指时，将食指位置或者五个手指中最靠上的手指位置确定为关键点预测坐标。

S204：点读设备根据热点区域在热点图像中的图像位置，从待识别图像帧中确定出关联图像。关联图像是指目标对象所指向的位置周围的图像(即关联图像中包含有用户期望点读的内容)。

在一种实施方式中，点读设备基于热点区域在热点图像中的位置，以及热点图像与待识别图中帧的尺度比例确定出热点标记，进而确定关联图像。图3为本申请实施例提供的一种确定关联图像的方法示意图。如图3所示，热点图像的长和宽均为待识别图像帧的一半，热点区域为热点图像中的白色区域，以热点图像左下角为原点，热点区域的中心坐标为(d，c)；以待识别图像帧左下角为原点，可计算得到待识别图中帧的热点标记为(2d，2c)，进一步地，关联图像可以以热点标记为中心，也可以在热点标记的周围(如上方)。可以理解的是，关联图像的大小可以是根据热点区域计算得到的，也可以是由用户或者软件开发人员设置的；此外，关联图像的形状还可以是正方形，长方形等，对此本申请不作限制。

S205：点读设备对待识别图像帧中的关联图像进行多媒体处理，并输出关联图像的多媒体处理结果。多媒体处理是指对媒体形式的转换；将文本转换为与之对应的声音媒体。点读设备获取待识别图像帧中的关联图像的图像内容识别结果，根据图像内容的类型进行对应的多媒体处理，并输出关联图像的多媒体处理结果；例如，关联图像的图像内容识别结果为文本，则点读设备将该文本转换为音频信号并输出；又如，关联图像的图像内容识别结果为一幅图片，则点读设备获取该图片的相关信息(如图片的名字，作者等)，并通过语音或显示屏输出该图片的相关信息。

在一种实施方式中，点读设备向服务器发送关联图像，并获取服务器返回的关联图像的图像内容识别结果，将关联图像的图像内容识别结果转换为对应视频信号或音频信号输出。在另一种实施方式中，点读设备对关联图像进行识别，若得到图像内容识别结果，则将关联图像的图像内容识别结果转换为对应视频信号或音频信号输出；若未得到内容识别结果，则向服务器发送关联图像，并获取服务器返回的关联图像的图像内容识别结果，将关联图像的图像内容识别结果转换为对应视频信号或音频信号输出。

本申请实施例中，点读设备获取待识别图像帧，并确定待识别图像帧的状态，若确定待识别图像帧的状态为静止状态，则调用对象定位模型对待识别图像帧进行处理，并根据对象定位模型的处理结果得到区域图像，调用局部定位模型对区域图像进行处理，并根据局部定位模型的处理结果得到热点图像，根据热点区域在热点图像中的图像位置，从待识别图像帧中确定出关联图像，对待识别图像帧中的关联图像进行多媒体处理，并输出关联图像的多媒体处理结果。可见，首先，通过判断获取的待识别图像帧的状态来确定是否需要对待识别图像帧进行进一步识别，而非对获取的待识别图像帧进行逐一识别，提高了图像内容识别效率；其次，通过对象定位模型过滤待识别图像帧中的干扰部分，得到区域图像，减少后续(局部定位)模型的计算量，节省计算资源；接着，通过局部定位模型对待识别图像帧中的点读区域进行定位，进而提高点读设备的正确识别率。

请参阅图4，图4为本申请实施例提供的另一种图像内容识别方法的流程图。该方法可以由图1a中的点读设备101来执行，本申请实施例的方法可以包括如下步骤。

S401：点读设备获取待识别图像帧。在一种实施方式中，点读设备通过摄像头实时进行图像采集，得到待识别图像帧。具体地，点读设备搭载有光线传感器，该光线传感器用于对周围环境进行检测，并输出检测数据；点读设备根据检测数据判断当前环境下是否需要补光(即判断检测数据是否满足补光条件)，若点读设备判定当前环境需要补光(即检测数据满足补光条件)，则调用光线传感器(如红外传感器)进行补光辅助处理，并获取拍摄装置拍摄得到的待识别图像帧。图5a为本申请实施例提供的一种通过光线传感器进行补光前和补光后的手掌对比图。如图5a所示，在通过光线传感器对手掌进行补光后可增强手掌(目标对象)的对比度，使得手掌更容易被识别，进而提高识别精度和识别准度。若点读设备判定当前环境无需补光(即检测数据不满足补光条件)，则直接调用拍摄装置进行图像采集得到新的待识别图像帧。

S402：点读设备获取待识别图像帧所在的图像帧集合。该图像帧集合包括按照一定时间间隔(如0.01s)连续采集的N个图像帧，N个图像帧是按照拍摄时间由先至后的顺序排列的，N为正整数。在一种实施方式中，待识别图像帧为图像帧集合中的第N个图像帧(即待识别图像帧为图像帧集合中的最后一张图像帧)。

S403、点读设备通过帧间差异算法分别计算图像帧集合中相邻图像帧的帧间差异信息。图5b为本申请实施例提供的一种计算帧间差异信息的原理示意图。如图5b所示，帧间差异N-1是根据图像帧N和图像帧N-1计算得到的，帧间差异N-3是根据图像帧N-2和图像帧N-3计算得到的，同理可知，帧间差异1是根据图像帧2和图像帧1计算得到的。

点读设备计算相邻帧之间的帧间差异的具体计算方法为：首先，计算第i+1个图像帧与第i个图像帧之间匹配像素点之间的像素差异值；然后，对匹配像素点之间的像素差异值进行二值化处理，得到第i+1个图像帧与第i个图像帧之间的帧间差异二值图；其中，匹配像素点是指在第i+1个图像帧与第i个图像帧中用于表示同一物体的像素点，二值化处理是指：将第i+1个图像帧与第i个图像帧中匹配像素点的像素差异大于阈值的像素点的值设为第一数值(有效值)，将第i+1个图像帧与第i个图像帧中匹配像素点的像素差异小于或等于阈值的像素点的值设为第二数值(无效值)，第一数值可以为1，第二数值可以为0。可选的，对帧间差异二值图进行滤波处理(过滤帧间差异二值图中的噪声)，得到滤波后的帧间差异二值图。

图5c为本申请实施例提供的一种计算帧间差异信息的流程图。如图5c所示，点读设备通过第i个图像帧和第i+1个图像帧计算匹配像素点之间的像素差异值，并对匹配像素点之间的像素差异值进行二值化处理得到第i+1个图像帧与第i个图像帧之间的帧间差异二值图；其中，帧间差异二值图中的白色部分为像素点的值为第一数值的像素点，黑色部分为像素点的值为第二数值的像素点。在得到帧间差异二值图后，可根据情况(如帧间差异二值图中干扰信息超过噪声阈值)对帧间差异二值图进行滤波处理，得到滤波后的帧间差异二值图，并将滤波后的帧间差异二值图确定为帧间差异信息。

S404：点读设备根据帧间差异信息确定待识别图像帧的状态。帧间差异信息包括帧间差异二值图。在一种实施方式中，点读设备对每个帧间差异二值图中的目标像素点进行数量统计；若数量统计得到的目标像素点的数量值小于数量阈值，则确定该帧间差异信息满足静止条件；若图像帧集合中相邻图像帧的帧间差异信息均满足静止条件，则判定待识别图像帧为静止状态；若图像帧集合中相邻图像帧的帧间差异信息中存在至少一个不满足静止条件，则判定待识别图像帧为非静止状态，点读设备将获取到的下一图像帧作为新的待识别图像帧。

在另一种实施方式中，若图像帧集合中相邻图像帧的帧间差异信息满足静止条件的比例大于比例阈值，则判定待识别图像帧为静止状态；若图像帧集合中相邻图像帧的帧间差异信息满足静止条件的比例小于或等于比例阈值，则判定待识别图像帧为非静止状态，点读设备将获取到的下一图像帧作为新的待识别图像帧。例如，图像帧集合中包括10帧图像，只有第1帧和第2帧之间的帧间差异信息不满足静止条件，则认为当前的待识别图像帧为静止状态。

S405：若点读设备确定待识别图像帧的状态为静止状态，则调用对象定位模型对待识别图像帧进行处理，并根据对象定位模型的处理结果得到区域图像；其中，对象定位模型用于从输入的待识别图像帧中确定目标对象的图像位置，该图像位置用于确定所述区域图像。图5d为本申请实施例提供的一种对象定位模型的处理待识别图像帧的流程示意图。如图5d所示，将待识别图像帧输入对象定位模型，对象定位模型对待识别图像帧进行处理，得到区域图像。

在对象定位模型对待识别图像帧进行处理过程中，对于通过状态判断确定为静止态的输入帧即为静止状态的所述待识别图像，进行尺寸调整resize到300*300的图片，作为MobileNet-SSD即对象定位模型的输入，通过对象定位模型的主干网络提取不同尺度的特征，并通过多尺度Scale的方式(不同尺度的特征)，在多个尺寸的特征图上连接检测器和分类器进行目标对象检测；最后在所有尺度检测出来的目标对象上执行最大值抑制(NMS)得到最后的目标对象的位置和是该位置为目标对象的概率值。在所有检测出的目标中，过滤掉阈值低于概率阈值(0.4)的目标，过滤掉过小的目标，最后返回概率值最大的目标作为最后筛选出的手部，并把该区域截取用于后续的指尖定位。

图5e为本申请实施例提供的一种对象定位模型的结构示意图。如图5e所示，输入的图像尺度为300x300，通道数为3；卷积0-卷积17_2的卷积层构成了主干网络层，主干网络层用于提取待识别图像帧在M(图5e中M的值为6，在具体应用中，M的值可以根据需要进行调整，对此本申请不作限制)个不同尺度下的特征子图，M为大于1的整数，M个特征子图的通道数也不相同(通道数与特征子图的尺度成反比)。卷积14_1、卷积14_2…卷积17_1、卷积17_2为特征堆叠部分，特征堆叠部分用于对特征子图进行转换，进一步降低特征子图的尺度，同时提高通道数。分类检测层用于确定M个不同尺度下的特征子图中的目标对象区域(如用户手掌所在区域)；预测层用于根据各个目标对象区域预测目标对象在待识别图像帧中的位置及概率；具体地，预测层对不同尺度下的预测结果(位置及概率)进行过滤(如保留概率值大于概率阈值的位置)，并根据过滤结果确定区域图像。

在一种实施方式中，预测层对各个尺度检测出的目标对象区域执行非极大值抑制处理(Non Maximum Suppression，NMS)，进而预测目标对象在待识别图像帧中的位置及概率。进一步地，过滤概率值小于概率阈值的位置，通过ArgMax函数将各个预测位置中概率值最大的位置确定为目标对象所在位置，该位置的概率值可以作为判断是否为目标对象所指位置的坐标的置信度。点读设备根据目标对象在待识别图像帧中的位置截取区域图像，该区域图像中包含目标对象。

S406：点读设备调用局部定位模型对区域图像进行处理，并根据局部定位模型的处理结果得到热点图像；其中，局部定位模型用于从输入的区域图像中确定所述目标对象的局部对象的图像位置(即预测区域图像中目标对象所指向的位置)。

局部定位模型提取特征采用MobileNetV2为骨干网络(Backbone)，通过X组卷积操作形成X+1个不同尺度的特征子图，由于特征子图尺度大小每一层减半，因此通道数每层增加一倍。为融合高层特征空间属性和低层特征语义属性，通过反卷积操作将第X+1个特征子图的尺度(特征尺寸)扩大到与第X个特征子图相同的尺度，并和原始第X个特征子图的特征进行融合。第X个特征子图和第X+1个特征子图先通过1*1卷积将通道数调整设定值，对第X+1个特征子图变换后的特征使用反卷积扩大到与第X个特征子图相同的尺尺度，然后通过Pixel-wise求和的方式进行特征融合，生成一个最终特征图用于后续步骤。对生成的特征图通过三次反卷积操作，将特征图的尺寸提升到原始输入的区域图像的尺度的1/2,生成最终关键点预测的热点图(Heatmap)用于定位手指指尖坐标(目标对象所指向位置的坐标，即热点区域坐标)。对于指尖(热点区域)训练数据，指尖(热点区域)标注为(x,y)点坐标，在训练阶段通过高斯核函数将(x,y)坐标转换为2D高斯区域，在(x,y)的位置值为1，然后按2D高斯核像上下左右递减值，

图5f为本申请实施例提供的一种局部定位模型的结构示意图。如图5f所示，C1-C5为特征提取层，特征提取层用于提取区域图像在P个(图5f中P的值为5，在具体应用中，P的值可以根据需要进行调整，对此本申请不作限制)尺度下的特征子图，第j个特征子图的尺度是第j+1个特征子图的尺度的两倍，P为大于1的整数，j为正整数，且j小于P；特征融合层用于对第P个特征子图和第P-1个特征子图(即C4和C5)进行特征融合得到特征图，采用反卷积层对特征图进行反卷积处理得到热点图像，该热点图像的尺度为区域图像的尺度的一半，热点图像中包括热点区域，热点区域用于指示目标对象所指向的位置(即热点图像包括的热点区域所在位置即为目标对象的局部对象的图像位置)；像素回归层用于在对局部定位模型进行模型训练时对局部定位模型进行参数优化。

其中，特征融合层对第P个特征子图和第P-1个特征子图(即C4和C5)进行特征融合得到特征图的具体实施方式为：通过1x1卷积将第P-1个特征子图的通道数调整为预设值，得到第一融合子图；同理，通过1x1卷积将第P个特征子图的通道数也调整为预设值，并对通道数调整后的第P个特征子图进行反卷积处理，得到第二融合子图，使得第二融合子图和第一融合子图对应的尺度和通道数均相同；对第一融合子图和第二融合子图进行特征融合，得到特征图。

S407：点读设备根据热点区域在热点图像中的图像位置，从待识别图像帧中确定出关联图像。步骤S407的具体实施方式可参考图2中步骤S204的实施方式，在此不再赘述。

S408：点读设备在用户界面上显示关联图像，并在关联图像上标记显示热点区域。图5g为本申请实施例提供的一种在用户界面上显示关联图像的示意图。如图5g所示，用户界面中显示有关联图像，关联图像中包括目标对象所指向的位置周围的图像(即关联图像中包含有用户期望点读的内容)。关联图像可以以热点标记为中心，也可以在热点标记的周围(如上方)。可以理解的是，关联图像的大小可以是根据热点区域计算得到的，也可以是由用户或者软件开发人员设置的；此外，关联图像的形状还可以是正方形，长方形等，对此本申请不作限制。

在一种实施方式中，热点区域在关联图像内(如以热点区域为中心，将热点区域周围的图像确定为关联图像)，在关联图像上标记显示热点区域。在另一种实施方式中，热点区域在关联图像外(如将热点区域上方目标形状的图像确定为关联图像)，则此时在关联图像周围显示热点所在位置。

S409：点读设备根据用户操作显示更新后的关联图像。在一种实施方式中，若在用户界面上检测到取消事件(如用户界面上显示有“取消”按钮，或者检测到移动操作等)，则显示待识别图像帧，并根据热点区域的位置在待识别图像帧中显示热点标记；响应于检测到的移动操作(即用户在待识别图像帧中移动热点标记)，根据用户移动的轨迹在待识别图像帧中移动显示热点标记；在用户停止移动后，若检测到在移动操作后的确认操作(如用户点击“确认”按钮，或者在用户停止移动后Q秒内未检测到其他操作)，则获取当前热点标记在待识别图像帧中的目标位置，并根据获取到的当前热点标记在待识别图像帧中的目标位置确定出新的关联图像。

在另一种实施方式中，若在用户界面上检测到取消事件响应于检测到的移动操作(即用户在关联图像中移动热点标记)，根据用户移动的轨迹在关联图像中移动显示热点标记；在用户停止移动后，若检测到在移动操作后的确认操作，则获取当前热点标记在关联图像中的目标位置，并根据获取到的当前热点标记在关联图像中的目标位置确定出用户期望点读的内容。

进一步地，训练阶段通过改造的回归函数(Focal Loss)对网络(对象定位模型和局部定位模型)进行训练，即对于输入的训练图片经过网络生成热点图，热点区域的坐标计算Focal Loss，通过训练优化达到在目标点位置(热点区域坐标)权重趋近于1，而其他位置趋近于0的效果。在预测阶段(实际运行模型阶段)，通过ArgMax函数找到热点图中权重最大的点位置则为指尖(热点区域)的位置，值则为该点有一个指尖的概率，可以作为后续判断是否返回指尖坐标的置信度。

具体地，将待识别图像帧和获取到的当前热点标记在待识别图像帧中的目标位置作为训练数据对，存储到训练数据集合中；当满足模型更新条件(如用户触发“更新”按钮，或者训练数据集合中的训练数据对的数量达到训练阈值，或者训练时间满足预设的训练时间周期条件)时，根据训练数据集合中的各个训练数据对对对象定位模型和局部定位模型进行优化训练。具体地，在训练阶段通过像素回归层对对象定位模型和局部定位模型中的网络(参数)进行优化训练，即对于输入的训练数据经过对象定位模型生成区域图像，再将区域图像经过对象定位模型生成热点图像，并进行样本均衡损失计算，通过对对象定位模型和局部定位模型中的网络(参数)进行优化训练，使得热点图像中热点区域的权重趋近与1，而其他位置的权重趋近于0。其中，样本均衡损失计算可以通过Focal Loss函数来实现，Focal Loss函数的具体计算公式为：

(1)当Y_xyc＝1时，

(2)当Y_xyc≠1时，

其中，Y_xyc是真实标签，

是通过激活函数得到的预测值，α和β为权重参数，用于平衡训练数据中的正负样本，降低训练数据集合中正负样本失衡对模型训练造成的不利影响(如导致预测结果和实际结果差距超过阈值)。

可以理解的是，通过采用训练数据集合对对象定位模型和局部定位模型进行优化训练，有助于进一步提高对象定位模型和局部定位模型的识别精度和准度，使得训练后的模型更加贴合当前用户的习惯(例如，用户1习惯将手指放在期望点读的内容的右边；户1习惯将手指放在期望点读的内容的下方)。

图5h为本申请实施例提供的一种用户操作界面示意图。如图5h所示，待识别图像帧窗口中显示有待识别图像帧，同时在待识别图像帧中标记了区域图像的位置，并显示了热点标记，用户可以通过移动区域图像标记框来修改待识别图像帧中区域图像的位置，通过移动热点标记来修改热点标记的位置，当热点标记被移动时，关联图像窗口和热点图像窗口中的内容会随着热点标记的变化而同步变化；关联图像窗口中显示有关联图像中的内容，关联图像中的内容会随着热点标记或者热点区域的变化而同步变化；热点图像窗口中显示有热力图，用户可以通过移动热点图像中的热点区域(热点图像中的白色区域)来修改热点区域的位置，当热点区域被移动时，待识别图像帧窗口中的热点标记和关联图像窗口中的内容会随着的热点区域的变化而同步变化。

S410：点读设备获取对关联图像进行图像识别的内容识别结果，并根据关联图像的识别结果的类型输出关联图像的多媒体处理结果。在一种实施方式中，点读设备向服务器发送关联图像，以使服务器对关联图像进行光学字符识别(Optical CharacterRecognition，OCR)，或者对关联图像进行图片检索等操作；获取服务器返回的关联图像的图像内容识别结果，将关联图像的图像内容识别结果转换为对应视频信号或音频信号输出；例如，通过语音信号输出关联图像中的文本内容；又如，通过显示屏显示关联图像中的题目的解答过程等。

在另一种实施方式中，点读设备集成了图像识别功能，通过图像识别功能对关联图像进行识别，若得到图像内容识别结果，则将关联图像的图像内容识别结果转换为对应视频信号或音频信号输出；若未得到内容识别结果，则向服务器发送关联图像，并获取服务器返回的关联图像的图像内容识别结果，再将关联图像的图像内容识别结果转换为对应视频信号或音频信号输出。

需要说明的是，根据关联图像的识别结果的类型输出关联图像的多媒体处理结果是指：对不同的识别结果进行不同的多媒体处理；例如：关联图像的图像内容识别结果为文本，则点读设备将该文本转换为音频信号并输出；又如，关联图像的图像内容识别结果为一幅图片，则点读设备获取该图片的相关信息(如图片的名字，作者等)，并通过语音或显示屏输出该图片的相关信息；再如，关联图像的图像内容识别结果为一道题目，则点读设备获取该题目的解答信息，并通过语音或显示屏输出该题目的解答信息。

本申请实施例在图2实施例的基础上，在周围环境光线较暗时，通过调用光线传感器进行补光辅助处理，增强待识别图像帧的对比度，进而提高点读设备的识别精度和识别准度，扩展了点读设备的使用场景。此外，还为用户提供了关联图像修正功能，用户可以通过调整热点标记在待识别图像帧中的位置来调整关联图像，改善了关联图像识别不准确导致的计算资源浪费的问题；并通过用户修正后的热点标记和待识别图像帧对，对象定位模型和局部定位模型进行优化训练，有助于进一步提高对象定位模型和局部定位模型的识别精度和准度，使得训练后的模型更加贴合当前用户的习惯。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

请参见图6，图6为本申请实施例提供的一种图像内容识别装置的结构示意图，该装置可以搭载在图1a所示的点读设备101上。图6所示的图像内容识别装置可以用于执行上述图2和图4所描述的方法实施例中的部分或全部功能。

其中，各个单元的详细描述如下：

获取单元601，用于获取待识别图像帧，并确定所述待识别图像帧的状态；

处理单元602，用于若确定所述待识别图像帧的状态为静止状态，则调用对象定位模型对所述待识别图像帧进行处理，并根据对象定位模型的处理结果得到区域图像；以及用于调用局部定位模型对所述区域图像进行处理，并根据局部定位模型的处理结果得到热点图像，所述热点图像中包括热点区域；以及用于根据所述热点区域在热点图像中的图像位置，从所述待识别图像帧中确定出关联图像；以及用于对所述待识别图像帧中的关联图像进行多媒体处理，并输出所述关联图像的多媒体处理结果。

在一个实施例中，所述处理单元602，具体用于：

通过获取单元601获取光线传感器对环境进行检测后输出的检测数据；

若检测数据满足补光条件，则调用光线传感器进行补光辅助处理，并获取拍摄装置拍摄得到的待识别图像帧；

若检测数据不满足补光条件，则获取拍摄装置拍摄得到的待识别图像帧。在一个实施例中，所述处理单元602，具体用于：

获取所述待识别图像帧所在的图像帧集合，该图像帧集合中包括按照时间先后顺序拍摄得到的N个图像帧；

通过帧间差异算法分别计算所述图像帧集合中相邻图像帧的帧间差异信息；

若根据所述图像帧集合中相邻图像帧的帧间差异信息确定所述待识别图像帧满足静止条件，则判定所述待识别图像帧为静止状态；

若图像帧集合中相邻图像帧的帧间差异信息确定所述待识别图像帧不满足静止条件，则将获取到的下一图像帧作为新的待识别图像帧。

在一个实施例中，所述处理单元602，具体用于：

计算所述图像帧集合中第i+1个图像帧与第i个图像帧之间匹配像素点之间的像素差异值，i为正整数，且i小于N；

根据所述像素差异值进行二值化处理，得到所述第i+1个图像帧与第i个图像帧之间的帧间差异二值图，所述帧间差异二值图上的像素值包括第一数值和第二数值，在所述第i+1个图像帧与第i个图像帧的匹配像素点的像素值差值大于预设阈值，则所述帧间差异二值图上相应位置处的像素值为第一数值，否则为第二数值；

其中，当对各个帧间差异二值图中值为第一数值的数量进行统计得到的数量值小于数量阈值，则确定所述待识别图像帧满足静止条件。

在一个实施例中，所述对象定位模型用于从输入的待识别图像帧中确定目标对象的图像位置，该图像位置用于确定所述区域图像，所述对象定位模型包括主干网络层、分类检测层及预测层；

所述主干网络层用于提取所述待识别图像帧在M个不同尺度下的特征子图，M为大于1的整数，M个特征子图的通道数也不相同；

所述分类检测层用于确定所述M个不同尺度下的特征子图中的目标对象区域；所述预测层用于根据各个目标对象区域预测所述目标对象在所述待识别图像帧中的位置及概率。

在一个实施例中，所述局部定位模型用于从输入的区域图像中确定所述目标对象的局部对象的图像位置，所述局部定位模型包括特征提取层，特征融合层，反卷积层和像素回归层；

所述特征提取层用于提取所述区域图像在P个不同尺度下的特征子图，第j个特征子图的尺度是第j+1个特征子图的尺度的两倍，P为大于1的整数，j为正整数，且j小于P；

所述特征融合层用于对第P个特征子图和第P-1个特征子图进行特征融合得到特征图；

所述反卷积层用于对所述特征图进行反卷积处理得到热点图像，所述热点图像的尺度为所述区域图像的尺度的一半，所述热点图像包括的热点区域所在位置即为所述目标对象的局部对象的图像位置。

在一个实施例中，所述处理单元602，具体用于：

对所述第P-1个特征子图进行通道数调整，得到第一融合子图；

对所述第P个特征子图进行通道数调整，并对通道数调整后的第P个特征子图进行反卷积处理，得到第二融合子图，所述第二融合子图和所述第一融合子图对应的尺度和通道数相同；

对所述第一融合子图和所述第二融合子图进行特征融合，得到特征图。

在一个实施例中，所述处理单元602，具体用于：

获取对所述关联图像进行图像识别的内容识别结果；

若所述关联图像的内容识别结果为文本内容，则获取所述文本内容对应的文本语音信息，并播放该获取到的文本语音信息；

若所述关联图像的识别结果为图像内容，则获取所述图像内容的关联信息，并输出所述关联信息对应的关联语音信息，并播放该获取到的关联语音信息。

在一个实施例中，所述根据所述热点区域在热点图像中的图像位置，从所述待识别图像帧中确定出关联图像之后，所述处理单元602，还用于：

在用户界面上显示所述关联图像，并在所述关联图像上标记显示所述热点区域；

若在所述用户界面上检测到取消事件，则显示所述待识别图像帧，并根据所述热点区域的位置在所述待识别图像帧中显示热点标记；

响应于检测到的移动操作，在所述待识别图像帧中移动显示所述热点标记；

若检测到在移动操作后的确认操作，则获取热点标记当前在所述待识别图像帧中的目标位置，并根据目标位置确定出新的关联图像。

在一个实施例中，所述处理单元602，还用于：

将所述待识别图像帧和所述目标位置作为训练数据对，存储到训练数据集合中；

当满足模型更新条件时，根据所述训练数据集合中的各个训练数据对对所述对象定位模型和局部定位模型进行优化训练；

其中，当所述训练数据集合中的训练数据对的数量达到预设的数量阈值、或训练时间满足预设的训练时间周期条件时，确定满足模型更新条件。

根据本申请的一个实施例，图2和图4所示的图像内容识别方法所涉及的部分步骤可由图6所示的图像内容识别装置中的各个单元来执行。例如，图2中所示的步骤S201可由图6所示的获取单元601执行，步骤S202-步骤S205可由图6所示的处理单元602执行。图4中所示的步骤S401和步骤S402可由图6所示的获取单元601执行，步骤S403-步骤S409可由图6所示的处理单元602执行，步骤S410可由由图6所示的获取单元601和处理单元602协作执行。图6所示的图像内容识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，图像内容识别装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行如图2和图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的图像内容识别装置，以及来实现本申请实施例的图像内容识别方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算装置中，并在其中运行。

基于同一发明构思，本申请实施例中提供的图像内容识别装置解决问题的原理与有益效果与本申请方法实施例中图像内容识别装置解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

请参阅图7，图7为本申请实施例提供的一种点读设备的结构示意图，所述点读设备至少包括处理器701、通信接口702和存储器703。其中，处理器701、通信接口702和存储器703可通过总线或其他方式连接。其中，处理器701(或称中央处理器(Central ProcessingUnit，CPU))是终端的计算核心以及控制核心，其可以解析终端内的各类指令以及处理终端的各类数据，例如：CPU可以用于解析用户向终端所发送的开关机指令，并控制终端进行开关机操作；再如：CPU可以在终端内部结构之间传输各类交互数据，等等。通信接口702可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)，受处理器701的控制可以用于收发数据；通信接口702还可以用于终端内部数据的传输以及交互。存储器703(Memory)是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器703既可以包括终端的内置存储器，当然也可以包括终端所支持的扩展存储器。存储器703提供存储空间，该存储空间存储了终端的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

在本申请实施例中，处理器701通过运行存储器703中的可执行程序代码，用于执行如下操作：

通过通信接口702获取待识别图像帧，并确定所述待识别图像帧的状态；

作为一种可选的实施例，处理器701获取待识别图像帧的具体实施例为：

获取光线传感器对环境进行检测后输出的检测数据；

若检测数据不满足补光条件，则获取拍摄装置拍摄得到的待识别图像帧。

作为一种可选的实施例，处理器701确定所述待识别图像帧的状态的具体实施例为：

作为一种可选的实施例，处理器701通过帧间差异算法分别计算所述图像帧集合中相邻图像帧的帧间差异信息的具体实施例为：

作为一种可选的实施例，所述对象定位模型用于从输入的待识别图像帧中确定目标对象的图像位置，该图像位置用于确定所述区域图像，所述对象定位模型包括主干网络层、分类检测层及预测层；

作为一种可选的实施例，所述局部定位模型用于从输入的区域图像中确定所述目标对象的局部对象的图像位置，所述局部定位模型包括特征提取层，特征融合层，反卷积层和像素回归层；

作为一种可选的实施例，处理器701对第P个特征子图和第P-1个特征子图进行特征融合得到特征图的具体实施例为：

作为一种可选的实施例，处理器701对所述待识别图像帧中的关联图像进行多媒体处理，并输出所述关联图像的多媒体处理结果的具体实施例为：

获取对所述关联图像进行图像识别的内容识别结果；

作为一种可选的实施例，所述根据所述热点区域在热点图像中的图像位置，从所述待识别图像帧中确定出关联图像之后，处理器701还用于：

作为一种可选的实施例，处理器701还用于：

基于同一发明构思，本申请实施例中提供的点读设备解决问题的原理与有益效果与本申请方法实施例中图像内容识别方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行上述方法实施例所述的图像内容识别方法。

本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法实施例所述的图像内容识别方法。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像内容识别的方法。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，可读存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种图像内容识别方法，其特征在于，所述方法包括：

获取待识别图像帧，并确定所述待识别图像帧的状态；

2.如权利要求1所述的方法，其特征在于，所述获取待识别图像帧，包括：

获取光线传感器对环境进行检测后输出的检测数据；

3.如权利要求1所述的方法，其特征在于，所述确定所述待识别图像帧的状态，包括：

4.如权利要求3所述的方法，其特征在于，所述通过帧间差异算法分别计算所述图像帧集合中相邻图像帧的帧间差异信息，包括：

5.如权利要求1所述的方法，其特征在于，所述对象定位模型用于从输入的待识别图像帧中确定目标对象的图像位置，该图像位置用于确定所述区域图像，所述对象定位模型包括主干网络层、分类检测层及预测层；

6.如权利要求1或5所述的方法，其特征在于，所述局部定位模型用于从输入的区域图像中确定目标对象的局部对象的图像位置，所述局部定位模型包括特征提取层，特征融合层，反卷积层和像素回归层；

7.如权利要求6所述的方法，其特征在于，所述特征融合层对第P个特征子图和第P-1个特征子图进行特征融合得到特征图，包括：

8.如权利要求1所述的方法，其特征在于，对所述待识别图像帧中的关联图像进行多媒体处理，并输出所述关联图像的多媒体处理结果，包括：

获取对所述关联图像进行图像识别的内容识别结果；

9.如权利要求1所述的方法，其特征在于，所述根据所述热点区域在热点图像中的图像位置，从所述待识别图像帧中确定出关联图像之后，所述方法还包括：

10.如权利要求9所述的方法，其特征在于，所述方法还包括：

11.一种图像内容识别装置，其特征在于，包括：

12.一种点读设备，其特征在于，包括：存储装置和处理器；

所述存储装置中存储有计算机程序；

处理器，执行计算机程序，实现如权利要求1-10任一项所述的图像内容识别方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，如权利要求1-10任一项所述图像内容识别方法被实现。