CN110110144A

CN110110144A - 视频的处理方法和设备

Info

Publication number: CN110110144A
Application number: CN201810030576.0A
Authority: CN
Inventors: 刘礼; 贺雪峰
Original assignee: Samsung Tianjin Mobile Development Center; Samsung Electronics Co Ltd
Current assignee: Samsung Tianjin Mobile Development Center; Samsung Electronics Co Ltd
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2019-08-09

Abstract

本发明提供一种视频的处理方法和设备，所述处理方法：包括生成视频的标签的步骤和搜索视频的步骤，其中，生成视频的标签的步骤包括：根据预定的规则从视频中提取预定的感觉媒体信息；对所述感觉媒体信息进行预定处理以生成所述视频的标签，其中，搜索视频的步骤包括：接收输入的视频搜索项；将所述视频搜索项与多个视频的标签进行相似度对比，将相似度大于预定阈值的视频作为与所述视频搜索项匹配的视频。根据本发明的实施例的视频的处理方法和设备，提取视频中体现视频的主要内容的感觉媒体信息，并根据感觉媒体信息生成视频的标签，可通过该标签来快速准确到对视频进行查找和搜索。

Description

视频的处理方法和设备

技术领域

本发明涉及多媒体的技术领域。更具体地讲，涉及一种视频的处理方法和设备。

背景技术

随着网络技术、通信技术和数字信号处理技术的发展，人们常常通过包括摄像装置的终端(诸如移动通信终端、个人计算机、平板电脑、游戏机、数字多媒体播放器等)来拍摄视频，以记录具有纪念意义的时光。

随着终端使用时间的增加，终端中存储的视频将会越来越多。目前，用户可以通过视频的名称或拍摄时间来查找视频，而视频的名称一般是由终端默认生成的字符串，用户很难视频的名称或拍摄时间来有效地查找需要的视频。

发明内容

本发明的目的在于提供一种视频的处理方法和设备，以解决目前难以有效地在终端中查找视频的问题。

本发明的一方面提供一种视频的处理方法，所述处理方法包括生成视频的标签的步骤和搜索视频的步骤，其中，生成视频的标签的步骤包括：根据预定的规则从视频中提取预定的感觉媒体信息；对所述感觉媒体信息进行预定处理以生成所述视频的标签，其中，搜索视频的步骤包括：接收输入的视频搜索项；将所述视频搜索项与多个视频的标签进行相似度对比，将相似度大于预定阈值的视频作为与所述视频搜索项匹配的视频。

可选地，所述感觉媒体信息包括第一语音信息，其中，根据预定的规则从视频中提取预定的感觉媒体信息的步骤包括：在所述视频被录制的过程中或者被播放的过程中，识别所述视频中的语音信息，提取所述视频中的语音信息中符合第一预定条件的第一语音信息。

可选地，所述标签包括文本格式的标签，其中，对所述感觉媒体信息进行预定处理以生成所述视频的标签的步骤包括：将所述第一语音信息转换为文本信息，将转换的文本信息作为所述文本格式的标签。

可选地，所述第一预定条件与文本格式的标签的类别相关，其中，所述处理方法还包括：预先设置所述文本格式的标签的类别。

可选地，所述文本格式的标签的类别包括以下至少一个类别：时间、地点和人物，其中，与时间类别的标签对应的第一预定条件包括以下任意一个：与节日库中的节日名称匹配、符合预定的日期格式；与地点类别的标签对应的第一预定条件包括：与地点库中的地点名称匹配；与人物类别的标签对应的第一预定条件包括以下任意一个：与人物称呼库中的人物名称匹配、与通讯录中的联系人的姓名匹配。

可选地，提取所述视频中的语音信息中符合与时间类别的标签对应的第一预定条件的第一语音信息的步骤包括：确定离所述视频的拍摄日期最近的节日，在所述视频中的语音信息中搜索所述最近的节日的节日名称；当搜索到所述最近的节日的节日名称时，提取所述最近的节日的节日名称对应的第一语音信息；当未搜索到所述最近的节日的节日名称时，继续在所述视频中的语音信息中搜索节日库中其他节日的名称。

可选地，还包括：在所述视频的语音信息中提取包括所述文本格式的标签对应的第一语音信息的第二语音信息，存储所述第二语音信息；在所述视频的缩略图上显示所述第二语音信息的播放链接，和/或，将第二语音信息转换为文本信息，并将转换得到的文本信息并显示在所述视频的缩略图上。

可选地，所述感觉媒体信息包括第一图像信息，其中，根据预定的规则从所述视频中提取预定的感觉媒体信息的步骤包括：在所述视频中按照预定时间间隔提取图像帧作为图片集，将图片集中符合第二预定条件的图片的图片信息作为所述第一图像信息。

可选地，所述标签包括图片格式的标签，其中，对预定的感觉媒体信息进行预定处理以生成所说视频的标签的步骤包括：生成所述第一图像信息的缩略图，将生成的缩略图作为所述图像格式的标签。

可选地，所述第二预定条件为所述图像清晰，且具有规则的图形元素和/或包含的人物最多，其中，当所述图片集中符合所述第二预定条件且包括的图像信息类似的图片为多个时，将多个图片中的一个图片的图像信息作为所述第一图像信息。

可选地，根据预定的规则从视频中提取预定的感觉媒体信息的步骤还包括：获取拍摄时间与所述视频的拍摄时间的时间间隔在预定范围内的图片，将获取的图片添加到所述图片集中。

可选地，所述视频搜索项包括搜索图片，所述搜索图片为用户绘制的图片或者用户选择的图片，其中，将所述视频搜索项与多个视频的标签进行相似度对比的步骤包括：对所述搜索图片以及所述图片格式的标签进行灰度处理以及边缘检测，提取所述搜索图片以及所述图片格式的标签的形状特征和位置特征，将所述搜索图片的形状特征和位置特征，与所述图片格式的标签的形状特征和位置特征进行相似度对比，得到所述搜索图片与所述视频的图片格式的标签的相似度。

可选地，针对所述多个视频分别执行视频的标签的步骤，以生成所述多个视频的标签。

本发明的另一方面提供一种视频的处理设备，所述处理设备包括处理器，其中，处理器被配置为执行生成视频的标签的步骤和搜索视频的步骤，其中，生成视频的标签的步骤包括：根据预定的规则从视频中提取预定的感觉媒体信息；对所述感觉媒体信息进行预定处理以生成所述视频的标签，其中，搜索视频的步骤包括：接收输入的视频搜索项；将所述视频搜索项与多个视频的标签进行相似度对比，将相似度大于预定阈值的视频作为与所述视频搜索项匹配的视频。

可选地，所述第一预定条件与文本格式的标签的类别相关，其中，所述处理器还被配置为预先设置所述文本格式的标签的类别。

可选地，所述处理器还被配置为：在所述视频的语音信息中提取包括所述文本格式的标签对应的第一语音信息的第二语音信息，存储所述第二语音信息；控制在所述视频的缩略图上显示所述第二语音信息的播放链接，和/或，将第二语音信息转换为文本信息，并控制转换得到的文本信息显示在所述视频的缩略图上。

可选地，所述处理器针对所述多个视频分别执行生成视频的标签的处理，以生成所述多个视频的标签。

本发明的另一方面提供一种计算机可读存储介质，存储有当被处理器执行时使得处理器执行如上所述的视频的处理方法的计算机程序。

根据本发明的实施例的视频的处理方法和设备，提取视频中体现视频的主要内容的感觉媒体信息，并根据感觉媒体信息生成视频的标签，可通过该标签来快速准确到对视频进行查找和搜索。

将在接下来的描述中部分阐述本发明另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明的实施而得知。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1是示出根据本发明的实施例的视频的处理方法的流程图；

图2和3是示出根据本发明的实施例的视频的缩略图的示例。

具体实施方式

下面参照附图详细描述本发明的实施例。

图1是示出根据本发明的实施例的视频的处理方法的流程图。根据本发明的实施例的视频的处理方法可应用于各种电子设备，例如，移动通信终端、个人计算机、平板电脑、游戏机、数字多媒体播放器等。根据本发明的实施例的视频的处理方法包括生成视频标签的步骤以及搜索视频的步骤。生成视频的标签的步骤包括步骤S10和步骤S20，搜索视频的步骤包括步骤S30和步骤S40。针对电子设备中包括的多个视频，多次执行生成视频的标签的步骤以生成多个视频的标签。

在步骤S10，根据预定的规则从视频中提取预定的感觉媒体信息。

在步骤S20，对所述感觉媒体信息进行预定处理以生成所述视频的标签。

感觉媒体信息是指能直接作用于用户的感觉器官，即能使用户产生直接感觉的媒体信息，例如声音信息、图像信息等。

这里，预定的感觉媒体信息用于生成视频的标签，其包括指示视频的主要内容的信息。

预定的感觉媒体信息包括预定的第一语音信息和/或预定的第一图像信息。第一语音信息是指视频中的人的发音器官发出的声音的信息。第一图像信息是指视频中的图像画面的信息。

视频的标签包括文本格式的标签和/或图像格式的标签。文本格式的标签可具有多个不同的类别，该类别可预先进行设置。例如，文本格式的标签的类别可被设置为包括以下至少一个类别：时间、地点和人物。

在预定的感觉媒体信息包括预定的第一语音信息的情况下，在步骤S20，将所述第一语音信息转换为文本信息，将转换的文本信息作为文本格式的标签。

在预定的感觉媒体信息包括预定的第一图像信息的情况下，在步骤S20，生成所述第一图像信息的缩略图，将生成的缩略图作为图像格式的标签。

以下将详细描述提取预定的第一语音信息的具体过程。

可通过以下方式来提取预定的第一语音信息：在所述视频被录制的过程中或者被播放的过程中，识别所述视频中的语音信息，提取所述视频中的语音信息中符合第一预定条件的第一语音信息。

由于提取的语言信息是用于生成视频的文本格式的标签的，而文本格式的标签具有多个不同的类别，不同类别的文本格式的标签对应不同的第一语音信息，因此，用于确定第一语音信息的第一预定条件与文本格式的标签的类别相关。

具体说来，用于生成时间类别的标签的第一语音信息是指视频中表示日期、节日等指示时间的语音信息。与时间类别的标签对应的第一预定条件可包括以下任意一个：与节日库中的节日名称匹配、符合预定的日期格式。该节日库中包括各种节日的名称。例如，当视频中出现“祝您母亲节快乐”的语音时，提取“母亲节”对应的第一语音信息。预定的日期格式可包括中文中的阳历日期格式、中文中的阴历日期格式或者其他语言中的日期格式等。

在与时间类别的标签对应的第一预定条件包括与节日库中的节日名称匹配的情况下，可将节日库中的所有节日名称按照预定的顺序在视频中的语音信息中进行搜索，提取搜索到的与节日名称对应的第一语音信息。优选地，为了减少搜索步骤，可先确定离所述视频的拍摄日期最近的节日，在所述视频中的语音信息中搜索所述最近的节日的节日名称；当搜索到所述最近的节日的节日名称时，提取所述最近的节日的节日名称对应的第一语音信息；当未搜索到所述最近的节日的节日名称时，继续在所述视频中的语音信息中搜索节日库中其他节日的名称。

用于生成地点类别的标签的第一语音信息是指视频中指示地点的语音信息。与地点类别的标签对应的第一预定条件包括与地点库中的地点名称匹配。该地点库可以包括以下至少一个：各个景点的名称、各个国家的名称、各个省份的名称、各个城市的名称、各个乡镇的名称、各个村落的名称以及其他可表示地点的词语。

用于生成人物类别的标签的第一语音信息是指视频中指示人物的语音信息。与人物类别的标签对应的第一预定条件包括以下任意一个：与人物称呼库中的人物称呼匹配、与通讯录中的联系人的姓名匹配。该人物称呼库包括各种表示人物称呼的词语，例如，爸爸、妈妈、哥哥、姐姐、奶奶、外婆等。

上述节日库、地点库和人物称呼库可通过云端进行更新，视频的标签也可在节日库、地点库和人物称呼库进行更新后或者周期性地进行更新。

在生成上述的文本格式的标签之后，可在视频的语音信息中提取包括所述文本格式的标签对应的第一语音信息的第二语音信息，存储第二语音信息，在所述视频的缩略图上显示所述第二语音信息的播放链接，和/或，将第二语音信息转换为文本信息，并将转换得到的文本信息显示在所述视频的缩略图上。该第二语言信息可以是预定播放时间长度的语音信息，或者是包括预定字数的语音信息。

图2和图3是示出根据本发明的实施例的视频的缩略图的示例。

如图2所示，在视频的缩略图上显示了第二语音信息的播放连接201。

如图3所示，在视频的缩略图上显示了第二语音信息的播放连接301和由第二语音信息转换得到的文本信息302。

以下将详细描述提取预定的第一图像信息的具体过程。

可通过各种方式来从视频的所有帧的图像中提取具有代表性的图像。

为了减少计算量，可在视频中按照预定时间间隔提取图像帧作为图片集，将图片集中符合第二预定条件的图片的图片信息作为第一图像信息。

此外，由于在拍摄视频之前或之后的预定时间段内，用户可能会拍摄照片，并且拍摄照片的场景可能与拍摄视频的场景可能相同，因此，为了扩大搜索第一图像信息的范围，可获取拍摄时间与所述视频的拍摄时间的时间间隔在预定范围内的图片，将获取的图片添加到所述图片集中。

所述第二预定条件指示最能体现视频中的场景和人物。

例如，第二预定条件为图像清晰，且具有规则的图形元素和/或包含的人物最多。也就是说，第二预定条件为图像清晰，且具有规则的图形元素和包含的人物最多，或者，第二预定条件为图像清晰且具有规则的图形元素，或者第二预定条件为图像清晰，且包含的人物最多。

当所述图片集中符合所述第二预定条件且包括的图像信息类似的图片为多个时，将多个图片中的一个图片的图像信息作为所述第一图像信息。

在步骤S30，接收输入的视频搜索项。

在步骤S40，将所述视频搜索项与多个视频的标签进行相似度对比，将相似度大于预定阈值的视频作为与所述视频搜索项匹配的视频。

在视频的标签包括文本格式的标签的情况下，所述视频搜索项可包括关键字，在步骤S40，将输入的关键字与视频的文本格式的标签进行相似度对比，将相似度大于预定阈值的视频作为与输入的关键字匹配的视频。

在在视频的标签包括图像格式的标签的情况下，所述视频搜索项可包括搜索图片。该搜索图片可以是用户绘制的图片或者用户选择的图片。

在步骤S40，对搜索图片以及视频的图片格式的标签进行灰度处理以及边缘检测，提取所述搜索图片以及所述图片格式的标签的形状特征和位置特征，将所述搜索图片的形状特征和位置特征，与所述图片格式的标签的形状特征和位置特征进行相似度对比，得到所述搜索图片与所述视频的图片格式的标签的相似度，将相似度大于预定阈值的视频作为与搜索图片匹配的视频。这里，可在对标签进行灰度处理以及边缘检测后提取便签中的线条的连通区域得到标签的形状特征。

本发明的实施例还提供一种视频的处理设备。根据本发明的实施例的视频的处理设备可应用于各种电子设备，例如，移动通信终端、个人计算机、平板电脑、游戏机、数字多媒体播放器等。根据本发明的实施例的视频的处理设备包括处理器。

处理器被配置为被配置为执行生成视频的标签的步骤和搜索视频的步骤。

生成视频的标签的步骤包括：根据预定的规则从视频中提取预定的感觉媒体信息，对所述感觉媒体信息进行预定处理以生成所述视频的标签。处理器被配置为针对电子设备中的多个视频多次执行生成视频的标签的处理以生成多个视频的标签。

在预定的感觉媒体信息包括预定的第一语音信息的情况下，处理器将所述第一语音信息转换为文本信息，将转换的文本信息作为文本格式的标签。

在预定的感觉媒体信息包括预定的第一图像信息的情况下，处理器生成所述第一图像信息的缩略图，将生成的缩略图作为图像格式的标签。

以下将详细描述处理器提取预定的第一语音信息的具体过程。

在生成上述的文本格式的标签之后，可在视频的语音信息中提取包括所述文本格式的标签对应的第一语音信息的第二语音信息，存储第二语音信息，控制在所述视频的缩略图上显示所述第二语音信息的播放链接，和/或，将第二语音信息转换为文本信息，并控制转换得到的文本信息显示在所述视频的缩略图上。该第二语言信息可以是预定播放时间长度的语音信息，或者是包括预定字数的语音信息。

以下将详细描述处理器提取预定的第一图像信息的具体过程。

所述第二预定条件指示最能体现视频中的场景和人物。

处理器搜索视频的步骤包括：接收输入的视频搜索项，将所述视频搜索项与多个视频的标签进行相似度对比，将相似度大于预定阈值的视频作为与所述视频搜索项匹配的视频。

在视频的标签包括文本格式的标签的情况下，所述视频搜索项可包括关键字，处理器将输入的关键字与视频的文本格式的标签进行相似度对比，将相似度大于预定阈值的视频作为与输入的关键字匹配的视频。

处理器对搜索图片以及视频的图片格式的标签进行灰度处理以及边缘检测，提取所述搜索图片以及所述图片格式的标签的形状特征和位置特征，将所述搜索图片的形状特征和位置特征，与所述图片格式的标签的形状特征和位置特征进行相似度对比，得到所述搜索图片与所述视频的图片格式的标签的相似度，将相似度大于预定阈值的视频作为与搜索图片匹配的视频。这里，可在对标签进行灰度处理以及边缘检测后提取便签中的线条的连通区域得到标签的形状特征。

根据本发明的实施例还提供一种计算机可读存储介质。该计算机可读存储介质存储有当被处理器执行时使得处理器执行如上所述的视频的处理方法的计算机程序。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种视频的处理方法，其特征在于，包括生成视频的标签的步骤和搜索视频的步骤，

其中，生成视频的标签的步骤包括：

根据预定的规则从视频中提取预定的感觉媒体信息；

对所述感觉媒体信息进行预定处理以生成所述视频的标签，

其中，搜索视频的步骤包括：

接收输入的视频搜索项；

将所述视频搜索项与多个视频的标签进行相似度对比，将相似度大于预定阈值的视频作为与所述视频搜索项匹配的视频。

2.根据权利要求1所述的处理方法，其特征在于，所述感觉媒体信息包括第一语音信息，

其中，根据预定的规则从视频中提取预定的感觉媒体信息的步骤包括：在所述视频被录制的过程中或者被播放的过程中，识别所述视频中的语音信息，提取所述视频中的语音信息中符合第一预定条件的第一语音信息。

3.根据权利要求2所述的处理方法，其特征在于，所述标签包括文本格式的标签，

其中，对所述感觉媒体信息进行预定处理以生成所述视频的标签的步骤包括：将所述第一语音信息转换为文本信息，将转换的文本信息作为所述文本格式的标签。

4.根据权利要求3所述的处理方法，其特征在于，所述第一预定条件与文本格式的标签的类别相关，其中，所述处理方法还包括：预先设置所述文本格式的标签的类别。

5.根据权利要求4所述的处理方法，其特征在于，所述文本格式的标签的类别包括以下至少一个类别：时间、地点和人物，

其中，与时间类别的标签对应的第一预定条件包括以下任意一个：与节日库中的节日名称匹配、符合预定的日期格式；

与地点类别的标签对应的第一预定条件包括：与地点库中的地点名称匹配；

与人物类别的标签对应的第一预定条件包括以下任意一个：与人物称呼库中的人物名称匹配、与通讯录中的联系人的姓名匹配。

6.根据权利要求5所述的处理方法，其特征在于，提取所述视频中的语音信息中符合与时间类别的标签对应的第一预定条件的第一语音信息的步骤包括：

确定离所述视频的拍摄日期最近的节日，在所述视频中的语音信息中搜索所述最近的节日的节日名称；

当搜索到所述最近的节日的节日名称时，提取所述最近的节日的节日名称对应的第一语音信息；

当未搜索到所述最近的节日的节日名称时，继续在所述视频中的语音信息中搜索节日库中其他节日的名称。

7.根据权利要求3所述的处理方法，其特征在于，还包括：

在所述视频的语音信息中提取包括所述文本格式的标签对应的第一语音信息的第二语音信息，存储所述第二语音信息；

在所述视频的缩略图上显示所述第二语音信息的播放链接，和/或，将第二语音信息转换为文本信息，并将转换得到的文本信息并显示在所述视频的缩略图上。

8.根据权利要求2所述的处理方法，其特征在于，所述感觉媒体信息包括第一图像信息，

其中，根据预定的规则从所述视频中提取预定的感觉媒体信息的步骤包括：在所述视频中按照预定时间间隔提取图像帧作为图片集，将图片集中符合第二预定条件的图片的图片信息作为所述第一图像信息。

9.一种视频的处理设备，其特征在于，包括处理器，

其中，处理器被配置为执行生成视频的标签的步骤和搜索视频的步骤，

其中，生成视频的标签的步骤包括：

根据预定的规则从视频中提取预定的感觉媒体信息；

对所述感觉媒体信息进行预定处理以生成所述视频的标签，

其中，搜索视频的步骤包括：

接收输入的视频搜索项；

10.一种计算机可读存储介质，存储有当被处理器执行时使得处理器执行如权利要求1至8中任意一项所述的视频的处理方法的计算机程序。