CN116682176A

CN116682176A - 智能生成婴幼儿视频标签的方法、装置、设备及存储介质

Info

Publication number: CN116682176A
Application number: CN202310649272.3A
Authority: CN
Inventors: 陈辉; 熊章; 张智; 张青军; 胡国湖
Original assignee: Wuhan Xingxun Intelligent Technology Co ltd
Current assignee: Wuhan Xingxun Intelligent Technology Co ltd
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-09-01

Abstract

本发明涉及图像处理技术领域，解决了现有技术中无法智能生成婴幼儿视频标签来描述视频信息的问题，提供了一种智能生成婴幼儿视频标签的方法、装置、设备及存储介质。该方法包括：获取婴幼儿看护场景下满足预设条件的目标视频流，将所述目标视频流分解为多帧第一目标图像；对各所述第一目标图像进行筛选处理，输出筛选后的图像作为第二目标图像；将所述第二目标图像输入预训练的图像描述模型中进行分析处理，输出第二目标图像中的标签词组；对所述标签词组进行综合分析，依据分析结果，输出婴幼儿视频标签。本发明智能化地通过婴幼儿视频标签来描述视频信息，避免了时间浪费和视频内容缺失。

Description

智能生成婴幼儿视频标签的方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种智能生成婴幼儿视频标签的方法、装置、设备及存储介质。

背景技术

随着各种智能终端的发展与普及，智能看护设备的应用也越来越广泛，逐渐成为人们生活的一部分。

在涉及到针对婴幼儿的看护领域时，为了清楚、方便的描述婴幼儿看护设备上摄像头采集的视频的相关信息，一般采用为视频添加视频标签的方法来实现。目前视频标签通常为人工确定。但是，人工确定视频标签会花费大量时间，同时，由于不同的人员为相同视频所确定的视频标签可能不同，这样就会造成当用户使用视频标签查找视频时，可能查找的视频内容不完整，例如针对同一与婴幼儿相关的目标视频，人员A确定目标视频标签为“婴幼儿翻身”，而人员B却确定目标视频为“婴幼儿翻滚”。当利用“婴幼儿翻身”进行标签查找时，就无法找到人员B确定的标签，造成视频内容缺失，影响用户对婴幼儿的看护体验。

为此，如何不依赖于人工干预，智能生成婴幼儿视频标签来描述视频信息是亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种智能生成婴幼儿视频标签的方法、装置、设备及存储介质，用以解决现有技术中无法智能生成婴幼儿视频标签来描述视频信息的问题。

本发明采用的技术方案是：

第一方面，本发明提供了一种智能生成婴幼儿视频标签的方法，所述方法包括：

S1：获取婴幼儿看护场景下满足预设条件的目标视频流，将所述目标视频流分解为多帧第一目标图像，其中，所述预设条件包括：预设的视频分辨率、帧率和时长；

S2：对各所述第一目标图像进行筛选处理，输出筛选后的图像作为第二目标图像；

S3：将所述第二目标图像输入预训练的图像描述模型中进行分析处理，输出第二目标图像中的标签词组；

S4：对所述标签词组进行综合分析，依据分析结果，输出婴幼儿视频标签。

优选地，所述S2包括：

S21：获取各所述第一目标图像；

S22：对各所述第一目标图像进行第一次清晰度筛选，输出合格图像；

S23：对所述合格图像进行二次去重筛选，输出所述第二目标图像。

优选地，所述S22包括：

S221：将各所述第一目标图像转换为对应的灰度图像；

S222：对所述灰度图像进行拉普拉斯变换，输出各所述灰度图像对应的拉普拉斯变换图像；

S223：获取各所述拉普拉斯变换图像的平均灰度值，将所述平均灰度值与预设的灰度阈值进行比较，对各所述平均灰度值进行判定；

S224：当判定所述平均灰度值大于或等于所述灰度阈值时，将所述平均灰度值对应的第一目标图像作为所述合格图像输出。

优选地，所述S23包括：

S231：按照预设的间隔帧数，对所述合格图像进行抽样处理，提取出多帧样本图像；

S232：对各所述样本图像进行计算，输出各样本图像对应的EMD值；

S233：依据各所述EMD值，获取样本图像之间的EMD相似度；

S234：将各所述EMD相似度与预设的EMD相似度阈值进行比较，当所述EMD相似度小于所述EMD相似度阈值时，输出所述EMD相似度对应的样本图像作为所述第二目标图像。

优选地，所述S3包括：

S31：获取所述婴幼儿看护场景下的训练图像集，对所述训练图像集中的标签词组进行标注，输出标注图像集；

S32：将所述标注图像集输入深度学习模型中，获取模型训练的损失函数，其中，所述损失函数表示所述深度学习模型生成的标签词组与真实标签词组之间的差异；

S33：当所述损失函数为最小值时，将训练完成的所述深度学习模型输出为图像描述模型；

S34：将所述第二目标图像输入所述图像描述模型中，输出第二目标图像中的标签词组，其中，所述第二目标图像中的标签词组包括预训练图像描述模型时标注的标签词组中的至少一个标签词。

优选地，所述S4包括：

S41：获取多帧所述第二目标图像对应的标签词组；

S42：对各所述标签词组中的关键词进行频次统计和排序，输出多个关键词组成的关键词组集合；

S43：获取关键词组集合，依据排序结果，输出所述婴幼儿视频标签。

优选地，所述S43包括：

S431：获取所述关键词组集合，依据所述排序结果，输出出现频次最大的关键词作为高频率关键词；

S432：将预设的与婴幼儿相关的特定关键词与所述高频率关键词进行组合，输出所述婴幼儿视频标签。

第二方面，本发明还提供了一种智能生成婴幼儿视频标签的装置，所述装置包括：

图像获取模块，用于获取婴幼儿看护场景下满足预设条件的目标视频流，将所述目标视频流分解为多帧第一目标图像，其中，所述预设条件包括：预设的视频分辨率、帧率和时长；

图像筛选模块，用于对各所述第一目标图像进行筛选处理，输出筛选后的图像作为第二目标图像；

图像描述模块，用于将所述第二目标图像输入预训练的图像描述模型中进行分析处理，输出第二目标图像中的标签词组；

视频标签获取模块，用于对所述标签词组进行综合分析，依据分析结果，输出婴幼儿视频标签。

第三方面，本发明实施例还提供了一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

综上所述，本发明的有益效果如下：

本发明提供的智能生成婴幼儿视频标签的方法、装置、设备及存储介质，所述方法包括：获取婴幼儿看护场景下满足预设条件的目标视频流，将所述目标视频流分解为多帧第一目标图像，其中，所述预设条件包括：预设的视频分辨率、帧率和时长；对各所述第一目标图像进行筛选处理，输出筛选后的图像作为第二目标图像；将所述第二目标图像输入预训练的图像描述模型中进行分析处理，输出第二目标图像中的标签词组；对所述标签词组进行综合分析，依据分析结果，输出婴幼儿视频标签。本发明利用图像描述模型，将计算机提取的图像视觉特征转化为高层语义信息,解决了“语义鸿沟”问题,使计算机生成与人类大脑理解相近的对图像的文字描述,再通过对所述标签词组进行综合分析，智能化地输出婴幼儿视频标签来描述视频信息，避免了人工确定视频标签造成的时间浪费和视频内容缺失。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明实施例1中智能生成婴幼儿视频标签的方法的整体工作的流程示意图；

图2为本发明实施例1中对各第一目标图像进行筛选的流程示意图；

图3为本发明实施例1中对各第一目标图像进行清晰度筛选的流程示意图；

图4为本发明实施例1中对各合格图像进行去重的流程示意图；

图5为本发明实施例1中提取各所述第二目标图像中标签词的流程示意图；

图6为本发明实施例1中确定婴幼儿视频标签的流程示意图；

图7为本发明实施例1中提取符合预设要求的标签词的流程示意图；

图8为本发明实施例2中用户查找视频标签的流程示意图；

图9为本发明实施例3中智能生成婴幼儿视频标签的装置的结构框图；

图10为本发明实施例4中电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。

实施例1

请参见图1，本发明实施例1公开了一种智能生成婴幼儿视频标签的方法，所述方法包括：

具体地，获取婴幼儿看护设备上摄像头采集的视频流中满足预设条件的目标视频流，其中，所述目标视频流满足预设条件是指视频流需要满足预先设定的分辨率，帧率和时长，再将所述目标视频流分解为多帧彩色图像，将分解得出的各帧彩色图像作为第一目标图像输出。由于视频流的特定分辨率、特定帧率和视频时长均是根据实际应用场景预先设定的，避免了视频流过于模糊或视频时长过短、过长等原因而对后续操作造成影响，使得视频流分解得出的多帧第一目标图像符合实际应用场景，提升了后续做标签词提取的准确度。

具体地，由于输入的各帧第一目标图像还是存在清晰度较低的图像，也有部分图像是连续拍摄得出的图像(即图像内容重合度较高)，因此需要对各所述第一目标图像进行筛选处理，对各所述第一目标图像进行筛选处理，能够剔除清晰度较低和重合度较高的低质量图像，将经过剩余图像作为第二目标图像提取出来，避免了对低质量图像的无效处理，进一步减少了工作流程，提升了工作效率。

在一实施例中，请参见图2，所述S2包括：

S21：获取各所述第一目标图像；

具体地，获取所述目标视频流分解得出的各帧第一目标图像，其中，所述第一目标图像为摄像头采集的彩色图像。

具体地，对各所述第一目标图像进行第一次清晰度筛选，将筛选合格的图像提取出来，使得输出图像的清晰度较高，便于后续进行图像的分析和处理。

在一实施例中，请参见图3，所述S22包括：

S221：将各所述第一目标图像转换为对应的灰度图像；

具体地，获取各所述第一目标图像，由于各所述第一目标图像是彩色的RGB图像，对于计算机来说，彩色图像的运算较为复杂，而对图像进行清晰度筛选过程中并不需要彩色图像中的所有特征，而仅仅需要灰度图像中的特征，因此将各所述第一目标图像转换为对应的灰度图像，即使得图像的R＝G＝B，从而可以简化计算量，减少工作流程，提升工作效率。

具体地，拉普拉斯变换是工程数学中常用的一种积分变换，又名拉氏变换。拉氏变换是一个线性变换，可将一个有参数实数t(t≥0)的函数转换为一个参数为复数s的函数。对所述灰度图像进行拉普拉斯变换，将各所述第一目标图像对应的灰度图像转换为拉普拉斯变换图像，得出的拉普拉斯变换图像能够更好反映灰度的变化。

具体地，获取并依据每帧所述拉普拉斯图像中每个像素点的灰度值，分别计算得出每帧所述拉普拉斯图像的平均灰度值，依据婴幼儿的实际应用场景，预设一个灰度阈值，将各帧所述拉普拉斯图像的平均灰度值分别与所述灰度阈值进行比较，来判断平均灰度值的大小。

具体地，若判断到平均灰度值大于或等于预设的灰度阈值，则将对应的拉普拉斯变换图像提取出来，此时认为对应的拉普拉斯变换图像是清晰度较高的合格图像，并将所述合格图像输出。

具体地，获取各帧所述清晰度较高的合格图像，此时合格图像中存在连续拍摄得到的图像，由于连续拍摄，婴幼儿看护场景内容的变化不大，图像内容存在重合度较高的现象，因此需要对所述合格图像进行二次去重筛选，将内容重合度较低的图像提取出来作为第二目标图像，避免图像内容重合度高造成的资源浪费。

在一实施例中，请参见图4，所述S23包括：

具体地，例如按照间隔每10帧提取一帧图像的方式，对各帧所述合格图像进行抽样处理，从各帧所述合格图像中抽取出M帧样本图像，其中M为正整数。采取抽样处理的方式，只对提取出的样本进行特征提取和识别，从而获取整个目标视频流的特征，在提取到必要的图像特征的同时也有效地简化了工作流程。

具体地，将输入的第一帧图像P1作为参照图像，针对剩余的各帧样本图像，计算其与参照图像之间的EMD值。可以使用EMD算法来计算两个直方图之间的距离，将每个样本图像的EMD值记录下来，其中，EMD算法基于两个直方图之间的移动代价来计算距离。

S233：依据各所述EMD值，获取样本图像之间的EMD相似度；

具体地，使用以下公式将EMD值转换为EMD相似度：

EMD相似度＝1/(1+EMD值)

通过上述公式将EMD值归一化到一个介于0和1之间的范围，EMD相似度数值越大表示两幅图像之间相似度越高。

具体地，预先依据实际的婴幼儿看护场景和用户实际需要，设定一个EMD相似度阈值，以通常设定的相似度阈值为0.8为例，将输入的第一帧图像P1作为参照图像，在剩下M-1帧图像中，查找与第一帧图像之间EMD相似度低于0.8的第一张图像Pk，其中，1＝＜k＝＜M，然后以Pk为参考帧，在剩下的M-k帧图像中查找与第Pk帧图像EMD相似度低于0.8的第一张图像，依此计算，最后保留下N帧图像。通过将各帧样本图像的EMD值进行相互比较，并将EMD相似度高的图像剔除，只保留EMD相似度低的N帧图像，从而保证了所述N帧图像内容相似度较低，避免计算机程序进行重复计算造成的资源浪费，将保留的EMD相似度较低的N帧图像作为第二目标图像输出。

具体地，获取N帧所述第二目标图像，由于第二目标图像中只包含基于视觉上的内容信息，因此需要利用图像描述模型，对所述第二目标图像进行分析处理，提取出第二目标图像中的标签词组，将第二目标图像中基于视觉上的内容信息转换为人类能理解的文字表述，以便于后续生成婴幼儿视频标签。

在一实施例中，请参见图5，所述S3包括：

具体地，将N帧所述第二目标图像输入image caption模型中，输出与第二目标图像对应的标签词组Words(N)(w1,w2,w3,…wn)，其中，w1,w2,w3,...wn是训练image-caption模型时人工标注的标签词组中的一部分，而在标签词组中包括标注的关键词有如“婴儿”，“吃饭”，“睡觉”，“爬”，“坐”，“笑”，“哭”等。所述image caption模型，即图像描述(字幕)技术(Image Caption Generation)，其本质就是将计算机提取的图像视觉特征转化为高层语义信息，解决了人与计算机之间的“语义鸿沟”问题,使计算机生成与人类大脑理解相近的对图像的文字描述,从而可以对图像进行分类、检索、分析等处理任务。

在一实施例中，请参见图6，所述S4包括：

S41：获取多帧所述第二目标图像对应的标签词组；

具体地，依据N帧所述第二目标图像对应的标签词组Words(N)(w1,w2,w3,…wn)，得出标签词组集合W(Words(k1),Words(k2),Words(k3),…,Words(kn))，其中，k1,k2,k3,...kn表示视频序列中的第k1帧，第k2帧，第k3帧,第kn帧，标签词组集合共包含N帧图像的输出标签词。

具体地，结合实际的婴幼儿看护应用场景，对所述标签词组中预先标注的关键词(例如：“婴儿”，“吃饭”，“睡觉”，“爬”，“笑”，“哭”等)进行出现次数的统计，并对统计的最终结果进行排序，得出关键词组集合W_new(w1_m1,w2_m2,w3_m3,...wk_k)，其中，wk_k表示标签词wk在k张图像中识别出来了，kn帧图像产生了共k个关键词。由于出现频次较高的关键词更能较好地概括和说明整个婴幼儿目标视频流的视频情况，通过对标签词组合中关键词进行频次统计和排序，筛选出出现频次较高的关键词，能够对整个目标视频流的视频情况有了更准确的判断。

具体地，依据所述关键词组集合中各关键词出现频次的排序结果，输出婴幼儿视频标签。通过智能化地输出婴幼儿视频标签来描述视频信息，避免了人工确定视频标签造成的时间浪费和视频内容缺失。

在一实施例中，请参见图7，所述S43包括：

具体地，例如，经过统计和排序后，频次最高的三个关键词分别为“坐”、“笑”和“吃饭”，将上述三个关键词提取出来作为高频率关键词，此时认为目标视频流的视频内容与所述三个高频率关键词最相关。

具体地，将上述“坐”、“笑”和“吃饭”三个关键词提取出来与预设的“婴幼儿”关键词进行组合，输出“婴幼儿坐着、笑着在吃饭”的目标标签，将所述“坐”、“笑”和“吃饭”三个关键词提取出来与“婴幼儿”进行组合，输出“婴幼儿坐着、笑着在吃饭”的婴幼儿视频标签。

实施例2

在另一实施例2中，请参见图8，当生成所述婴幼儿视频标签之后，用户需要查找视频标签时，S5包括：

S51:对所述婴幼儿视频标签进行映射，将所述婴幼儿视频标签映射至多个标签词组中,输出初始标签词组列表；

具体地，通过分析多个婴幼儿视频标签，可以构建一个标签映射表来将每个视频标签映射到多个标签词组中，通过机器学习技术进行标签映射：例如可以使用机器学习模型，如聚类、关联规则挖掘等，根据标签的语义和上下文信息，将视频标签映射到多个标签词组中，输出初始标签词组列表；通过将婴幼儿视频标签映射到多个标签词组中，可以提供更多的标签选择，帮助用户更准确地描述视频内容，从而提高搜索结果的质量和相关性。

S52:依据所述初始标签词组列表中各目标标签词组与用户查找的视频标签之间的差异，结合用户的地域习惯，对各所述目标标签词组进行排序；

具体地，根据标签相似度计算差异度：例如通过计算初始标签词组列表中各目标标签词组与用户查找的视频标签之间的相似度或距离，可以得到它们之间的差异度。常用的方法包括编辑距离、余弦相似度、Jaccard相似度等；根据用户所在地域的习惯叫法或偏好，对目标标签词组进行排序。可以建立一个地域对应的词表或规则，根据用户地域信息将目标标签词组转化为符合该地域习惯的标签词组。通过结合标签差异度和用户地域习惯，可以根据用户的需求和偏好，对目标标签词组进行个性化排序，将最相关或最适合的标签词组呈现给用户，提高搜索结果的准确性和用户体验。

S53：依据排序结果，输出排序后的目标标签词组列表。

具体地，输出排序后的目标标签词组列表，通过排序后的目标标签词组列表，用户可以更方便地选择与其视频内容相符合的标签词组，从而准确地描述视频内容，并提高搜索结果的相关性和质量，排序后的目标标签词组列表可以帮助用户更快地找到适合的标签，节省用户的时间。

实施例3

请参见图9，本发明实施例3还提供了一种智能生成婴幼儿视频标签的装置，所述装置包括：

具体地，本发明实施例3提供的智能生成婴幼儿视频标签的装置，所述装置包括：图像获取模块，用于获取婴幼儿看护场景下满足预设条件的目标视频流，将所述目标视频流分解为多帧第一目标图像，其中，所述预设条件包括：预设的视频分辨率、帧率和时长；图像筛选模块，用于对各所述第一目标图像进行筛选处理，输出筛选后的图像作为第二目标图像；图像描述模块，用于将所述第二目标图像输入预训练的图像描述模型中进行分析处理，输出第二目标图像中的标签词组；视频标签获取模块，用于对所述标签词组进行综合分析，依据分析结果，输出婴幼儿视频标签。本装置利用图像描述模型，将计算机提取的图像视觉特征转化为高层语义信息,解决了“语义鸿沟”问题,使计算机生成与人类大脑理解相近的对图像的文字描述,，再通过对所述标签词组进行综合分析，，智能化地输出婴幼儿视频标签来描述视频信息，避免了人工确定视频标签造成的时间浪费和视频内容缺失。通过智能化地输出婴幼儿视频标签来描述视频信息，避免了人工确定视频标签造成的时间浪费和视频内容缺失。

实施例4

另外，结合图1描述的本发明实施例1的智能生成婴幼儿视频标签的方法可以由电子设备来实现。图10示出了本发明实施例4提供的电子设备的硬件结构示意图。

电子设备可以包括处理器以及存储有计算机程序指令的存储器。

具体地，上述处理器可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性固态存储器。在特定实施例中，存储器包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种智能生成婴幼儿视频标签的方法。

在一个示例中，电子设备还可包括通信接口和总线。其中，如图10所示，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将所述设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

实施例5

另外，结合上述实施例1中的智能生成婴幼儿视频标签的方法，本发明实施例5还可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种智能生成婴幼儿视频标签的方法。

综上所述，本发明实施例提供了一种智能生成婴幼儿视频标签的方法、装置、设备及存储介质。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种智能生成婴幼儿视频标签的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的智能生成婴幼儿视频标签的方法，其特征在于，所述S2包括：

S21：获取各所述第一目标图像；

3.根据权利要求2所述的智能生成婴幼儿视频标签的方法，其特征在于，所述S22包括：

S221：将各所述第一目标图像转换为对应的灰度图像；

4.根据权利要求3所述的智能生成婴幼儿视频标签的方法，其特征在于，所述S23包括：

S233：依据各所述EMD值，获取样本图像之间的EMD相似度；

5.根据权利要求4所述的智能生成婴幼儿视频标签的方法，其特征在于，所述S3包括：

6.根据权利要求5所述的智能生成婴幼儿视频标签的方法，其特征在于，所述S4包括：

S41：获取多帧所述第二目标图像对应的标签词组；

7.根据权利要求6所述的智能生成婴幼儿视频标签的方法，其特征在于，所述S43包括：

8.一种智能生成婴幼儿视频标签的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。