CN109919105B

CN109919105B - 一种基于智能电视画面的对象识别方法和系统

Info

Publication number: CN109919105B
Application number: CN201910181371.7A
Authority: CN
Inventors: 杨恩泽
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2022-04-05
Anticipated expiration: 2039-03-11
Also published as: CN109919105A

Abstract

本发明公开了一种基于智能电视画面的对象识别方法，包括：检测单元实时检测；将检测得到的对象的局部图像数据与对象所属图像帧的信息保存至存储单元；识别单元收到识别请求时，进行对象识别归并对象信息并反馈对象识别结果。还公开了包含检测单元、存储单元和识别单元的系统。本发明通过对即将显示的图像帧，按照预设对象类型进行实时对象检测并将检测到的每帧图像中的每个对象的局部图像数据，与对象所属帧信息一起进行分类、依序存储；存储单元中保存的最近一段时间内的对象信息，使识别单元具有更充裕的数据输入进行识别比对，从而有效克服未精确匹配的单帧识别方法的识别成功率低的问题。

Description

一种基于智能电视画面的对象识别方法和系统

技术领域

本发明涉及图像识别技术领域，具体的说，是一种基于智能电视画面的对象识别方法及系统。

背景技术

随着人工智能产业的发展，语音识别、图像识别等算法的准确率不断提升，在智能电视领域的应用越来越广泛。基于语音识别的交互技术让智能电视使用更加方便；基于图像识别的智能推荐、人物介绍等功能让智能电视更加智能。语音交互与图像识别功能的结合，为智能电视用户带来了前所未有的智能体验。对着智能电视说一句“这个人是谁”，智能电视即可以图像、文本及语音信息对识别结果进行反馈，诸如此类功能，在支持语音交互的智能电视产品中已经比较常见。但是智能电视用户在使用这类功能时，用户真正想要识别的电视画面与实际被用于识别的图像帧之间无法精确匹配，导致识别成功率不高；而且当前产品中，普遍采用截取单帧图像进行识别，识别对象角度、形状或背景发生细微变化都可能导致识别失败从而降低识别成功率。

发明内容

本发明的目的在于提供一种基于智能电视画面的对象识别方法及系统，用于解决现有技术中采用截取单帧图像进行识别，容易导致识别失败从而降低识别成功率的问题。

本发明通过下述技术方案解决上述问题：

一种基于智能电视画面的对象识别方法，包括：

步骤S100：检测单元对要显示的图像帧，按照预设对象类型进行实时检测；

步骤S200：当检测到图像帧中存在对象时，将对象的局部图像数据与对象所属图像帧的信息进行分类保存至存储单元；

步骤S300：识别单元收到包含对象类型的识别请求时，依据识别请求中的对象类型取出对象的相关局部图像数据进行对象识别，归并对象信息并反馈对象识别结果。

进一步地，所述步骤S200具体包括：

步骤S210：当检测单元检测到对象时，标记出对象轮廓区域或囊括对象完整信息的矩形区域；

步骤S220：存储单元根据预设对象类型，分别建立先进先出的总容量为M的队列，将标记区域中的局部图像数据与当前图像帧的信息存储于队列中。

进一步地，所述步骤S300具体包括：

步骤S310：用户触发识别请求后，将识别请求的类型传递给识别单元；

步骤S320：依据识别请求的类型，从存储单元对应的队列中取出第一帧所包含的所有对象相关的局部图像数据进行对象识别；其中第一帧指的是最靠近队列入口位置的队列元素所在的帧；

若第一帧所包含的所有对象全部成功识别，则结束本次识别，跳转至步骤S330；否则继续读取相邻后续帧所包含的对象数据进行识别，直到对象全部识别成功或者队列中无数据则停止识别；

步骤S330：归并成功识别的对象信息并反馈对象识别结果。

一种基于智能电视画面的对象识别系统，包括：

检测单元，用于对要显示的图像帧，按照预设对象类型，进行实时对象检测，并将检测到的每帧图像中的每个对象的相关局部图像数据，与对象所属帧信息一起进行分类、依序存储；预置支持预设对象类型且已训练好的神经网络模型，能够按照预设对象类型对图像帧进行对象检测与标记；

存储单元，用于分类、依序存储检测单元传递的对象相关局部图像数据及其所属帧信息；

识别单元，用于收到包含对象类型的识别请求时，依据请求识别的对象类型取出一帧或多帧所包含的对象相关局部图像数据进行对象识别，并反馈识别结果。

进一步地，所述存储单元的数据结构包括：

队列，该数据结构由存储单元依据预设对象类型进行创建，有几个对象类型，就创建几个队列，所述队列为先进先出队列，队列总容量为M，其中M为大于1的整数；

所述队列的队列入口处为队列元素1，所述队列元素1为入队操作后每个新队列元素存放的逻辑位置，队列元素1的数据结构由帧信息与对象相关的局部图像数据构成；

所述队列的队列出口处为队列元素M，当队列元素满时，再有新队列元素存入队列，则队列元素M就被删除；

队列入口，表明新队列元素存入队列的队列元素端；

队列出口，表明队列满又有新队列元素存入时，将被删除的队列元素端。

存储单元中保存的最近一段时间内的对象信息，使识别单元具有更充裕的数据输入进行识别比对，从而有效克服未精确匹配的单帧识别方法的识别成功率低的问题。

本发明与现有技术相比，具有以下优点及有益效果：

本发明通过对即将显示的图像帧，按照预设对象类型进行实时对象检测并将检测到的每帧图像中的每个对象的局部图像数据，与对象所属帧信息一起进行分类、依序存储；存储单元中保存的最近一段时间内的对象信息，使识别单元具有更充裕的数据输入进行识别比对，从而有效克服未精确匹配的单帧识别方法的识别成功率低的问题。

附图说明

图1为本发明的方法流程图；

图2为存储单元内部数据结构示意图；

图3为识别单元的识别流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

结合附图1所示，一种基于智能电视画面的对象识别方法，包括：

一种基于智能电视画面的对象识别方法，包括：

实时对象检测，检测单元对要显示的图像帧，按照预设对象类型进行实时检测；

对象信息存储，当检测到图像帧中存在对象时，将对象的局部图像数据与对象所属图像帧的信息进行分类保存至存储单元；

识别单元收到包含对象类型的识别请求时，依据识别请求中的对象类型取出对象的相关局部图像数据进行对象识别，归并对象信息并反馈对象识别结果。

实施例2：

在实施例1的基础上，所述实时对象检测，该步骤由检测单元完成：

对即将显示的图像帧，按照预设对象类型，进行实时对象检测，其中：

检测单元依据要支持的预设对象类型进行网络选型、参数设定等配置；配置后检测单元只检测预设对象类型范围内的对象；

即将显示的图像帧，可以从图形缓冲区、视频缓冲区或显示缓冲区中的任意缓冲区进行抽取，可结合使用场景灵活决定；

对图像帧的实时抽取，可以逐帧或间隔N帧进行抽取，可以依据支持检测单元的硬件处理器算力灵活决定；其中N为大于等于1的整数；对图像帧的抽取精度，可以完整拷贝或下采样拷贝，可以依据支持检测单元的硬件处理器算力灵活决定；

当检测单元检测到一个对象时，标记出对象轮廓区域或囊括对象完整信息的矩形区域；检测单元检测到一个对象并标记后，将标记区域中的局部图像数据与当前帧信息一起交由存储单元进行存储；当前帧信息的实现，其中一种实现方式，可将当前帧标记为FA，下一帧标记为FB，再下一帧标记为FC，依次类推，标记到字母Z后重新由A开始；当预设对象类型大于一种时，检测单元需要对检测出的对象数据进行类型标记；若预设对象类型为两种，一种实现方式为，将两种类型的对象数据分别标记为T1、T2；当检测单元从多帧中检测到对象后，一种可能的标记序列为：T1FA+对象数据、T2FA+对象数据、T1FB+对象数据、T2FB+对象数据、T2FC+对象数据......。

所述对象信息存储，由检测单元与存储单元共同完成：

存储单元依据预设对象类型，为每种类型建立一个先进先出的总容量为M的队列，用于对象相关数据，检测单元将标记后的对象相关数据传递到存储单元后，存储单元按照对象类型，依序将数据存储于对应的队列中；检测单元传递如T1FA+对象数据、T2FA+对象数据、T1FB+对象数据、T2FB+对象数据、T2Fc+对象数据......之后，存储单元分类存储结果如下：

T1队列：(入队方向)......FB+对象数据-->FA+对象数据(出队方向)；

T2队列：(入队方向)......FC+对象数据-->FA+对象数据(出队方向)；

识别请求，该步骤由系统识别出用户通过语音、手势、按键等触发的识别请求后，将识别请求的类型传递给识别单元进行对象识别。

对象识别，该步骤依据识别请求传递过来的识别类型，到存储单元中对应的队列中取第一帧所包含的所有对象相关的局部图像数据进行对象识别；

其中第一帧指的是最靠近队列入口位置的队列元素所在的帧；

若第一帧所包含的所有对象全部成功识别，则结束本次识别，并反馈识别结果；

若第一帧所包含的所有对象没有全部识别成功，则继续读取相邻后续帧所包含的对象数据进行识别，直到对象全部识别成功或者队列中无数据则停止识别。

识别结果反馈，该步骤所反馈的，是归并成功识别的对象信息之后的识别结果；

识别请求方在获得到识别结果之后，再结合内容服务平台将对象相关信息以图像、文字、声音等方式进行呈现。

实施例3：

一种基于智能电视画面的对象识别系统，包括：

检测单元，用于对要显示的图像帧，按照预设对象类型，进行实时对象检测，并将检测到的每帧图像中的每个对象的相关局部图像数据，与对象所属帧信息一起进行分类、依序存储；预置支持预设对象类型且已训练好的神经网络模型，能够按照预设对象类型对图像帧进行对象检测与标记；检测单元负责本地、实时的对象检测及对象数据传输至存储单元；该结构的实现依赖于硬件处理器，可选的，可由GPU或NPU实现,，也可由云端服务器的硬件处理器实现。

存储单元，用于分类、依序存储检测单元传递的对象相关局部图像数据及其所属帧信息；存储单元的实现依赖于硬件存储器，可选的，可由片外DDR存储器或片内存储器实现。结合图2所示，存储单元的数据结构包括：

队列入口，表明新队列元素存入队列的队列元素端；

识别单元，用于收到包含对象类型的识别请求时，依据请求识别的对象类型取出一帧或多帧所包含的对象相关局部图像数据进行对象识别，并反馈识别结果。识别单元的实现依赖于硬件处理器，可选的，可由GPU或NPU实现,，也可由云端服务器的硬件处理器实现。

识别单元的识别流程图如图3所示，

步骤1：识别图像帧中的对象，从对应队列入口位置开始取同一帧内所包含的对象相关局部图像数据进行识别；

步骤2：判断该帧中包含的全部对象是否都识别成功，若是，归并成功识别的对象信息，进入步骤5，否则，跳转步骤3；

步骤3：判断是否该帧中包含的全部对象均识别失败，若是，则进入步骤4；若该帧中的对象部分识别成功，则归并成功识别的对象信息，进入步骤4；

步骤4：判断是否有下一帧，若有，返回步骤1，取对应队列中相邻的下一帧所包含的对象相关局部图像数据进行识别，否则，进入步骤5；

步骤5：结束识别，进入步骤6；

步骤6：反馈归并后的对象识别结果。

每一帧检测到对象的图像中可能包含一个或多个对象；相邻帧所包含的对象通常是相近的。在对第一帧所有对象进行识别后，若所有对象未全部识别成功，则会继续对相邻帧中包含的对象数据进行识别，帧与帧之间包含相同的对象识别结果时则去掉相同的识别结果，仅保留原来未成功识别的对象信息。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于智能电视画面的对象识别方法，其特征在于，包括：

步骤S200：当检测到图像帧中存在对象时，将对象的局部图像数据与对象所属图像帧的信息进行分类保存至存储单元，具体包括：

步骤S220：存储单元根据预设对象类型，分别建立先进先出的总容量为M的队列，将标记区域中的局部图像数据与当前图像帧的信息存储于队列中；

步骤S300：识别单元收到包含对象类型的识别请求时，依据识别请求中的对象类型取出对象的相关局部图像数据进行对象识别，归并对象信息并反馈对象识别结果，具体包括：

步骤S330：归并成功识别的对象信息并反馈对象识别结果。

2.实现如权利要求1所述的基于智能电视画面的对象识别方法的一种基于智能电视画面的对象识别系统，其特征在于，包括：

3.根据权利要求2所述的一种基于智能电视画面的对象识别系统，其特征在于，所述存储单元的数据结构包括：

队列入口，表明新队列元素存入队列的队列元素端；