CN111177470A - 视频的处理方法、视频的搜索方法及终端设备 - Google Patents

视频的处理方法、视频的搜索方法及终端设备 Download PDF

Info

Publication number
CN111177470A
CN111177470A CN201911424339.3A CN201911424339A CN111177470A CN 111177470 A CN111177470 A CN 111177470A CN 201911424339 A CN201911424339 A CN 201911424339A CN 111177470 A CN111177470 A CN 111177470A
Authority
CN
China
Prior art keywords
video
image frames
target video
target
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911424339.3A
Other languages
English (en)
Other versions
CN111177470B (zh
Inventor
薛凯文
赖长明
徐永泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL New Technology Co Ltd
Original Assignee
Shenzhen TCL New Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL New Technology Co Ltd filed Critical Shenzhen TCL New Technology Co Ltd
Priority to CN201911424339.3A priority Critical patent/CN111177470B/zh
Publication of CN111177470A publication Critical patent/CN111177470A/zh
Priority to PCT/CN2020/111032 priority patent/WO2021135286A1/zh
Priority to US17/758,179 priority patent/US12001479B2/en
Priority to EP20908901.0A priority patent/EP4086786A4/en
Application granted granted Critical
Publication of CN111177470B publication Critical patent/CN111177470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频的处理方法,包括:根据场景对待剪辑视频进行剪辑,并得到目标视频;获取所述目标视频的特征参数;根据所述特征参数生成所述目标视频的关键词;将所述关键词与所述目标视频关联保存。本发明还公开了一种视频的搜索方法、终端设备以及计算机可读存储介质。本发明根据场景的变换进行剪辑,可保证目标视频处于同一场景,能有效提高识别目标视频中特征参数的准确度,根据目标视频的特征参数生成相应的关键词,使目标视频与关键词之间具有关联性强、描述准确性高的有益效果。

Description

视频的处理方法、视频的搜索方法及终端设备
技术领域
本发明涉及图像处理技术领域、尤其涉及一种视频的处理方法、视频的搜索方法及终端设备。
背景技术
随着互联网的普及,观众获取电影、电视剧越来越容易,由于电影以及电视剧的时长较长,观众有时候只想看某些精彩的片段,通过搜索关键词来获取精彩片段时,往往存在关键词与片段的关联度性差、描述不准确的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明实施例的主要目的在于提供一种视频的处理方法,旨在解决现有技术中通过搜索关键词来获取精彩片段时,往往存在关键词与片段的关联性差、描述不准确的技术问题。
为解决上述问题,本发明实施例提供一种视频的处理方法,包括以下内容:
根据场景对待剪辑视频进行剪辑,并得到目标视频;
获取所述目标视频的特征参数;
根据所述特征参数生成所述目标视频的关键词;
将所述关键词与所述目标视频关联保存。
可选地,所述获取所述目标视频的特征参数的步骤包括:
提取所述目标视频的多个图像帧;
获取多个所述图像帧的子特征参数;
根据所述子特征参数获取所述目标视频的特征参数。
可选地,所述获取多个所述图像帧的子特征参数的步骤包括:
获取多个所述图像帧中的人物信息;
根据所述人物信息对应的人物的行为特征以及人体特征获取所述子特征参数。
可选地,所述根据所述特征参数生成所述目标视频的关键词的步骤包括:
获取所述行为特征对应的行为特征类别;
获取所述人体特征对应的身份信息;
将所述行为特征类别以及所述身份信息设为所述目标视频的关键词。
可选地,所述获取所述人体特征对应的身份信息的步骤还包括:
比对所述人体特征以及预设人体特征,并获取比对结果;
根据所述比对结果获取所述人体特征对应的预设人体特征;
根据所述人体特征对应的预设人体特征获取所述身份信息。
可选地,所述根据场景对待剪辑视频进行剪辑,并得到目标视频的步骤包括:
按预设帧频依次提取所述待剪辑视频的多个图像帧;
将所述图像帧转换成对应的灰度图;
根据相邻图像帧的所述灰度图确定相邻的所述图像帧是否存在场景变化;
在相邻图像帧存在场景变化时,将存在场景变化的相邻图像帧作为分割帧;
根据所述分割帧对所述待剪辑视频进行剪辑,以得到所述目标视频。
可选地,所述根据相邻图像帧的所述灰度图确定相邻的所述图像帧是否存在场景变化的步骤包括:
分别在相邻图像帧对应的灰度图中提取图像块,所述相邻的所述图像帧中提取的图像块的位置与大小相同;
获取每个图像块中在各个预设灰度范围内的像素点的数量;
获取各个预设灰度范围内相邻图像帧对应的数量的差值绝对值;
对各个所述差值绝对值求和,得到和值;
确定所述和值是否大于预设阈值,其中,在所述和值大于所述预设阈值时,确定相邻的所述图像帧存在场景变化。
此外,为解决上述问题,本发明实施例还提供一种视频的搜索方法,包括以下内容:
获取从搜索界面输入的目标关键词;
根据所述目标关键词搜索预设数据库中的目标视频,并显示所述目标关键词对应的目标视频。
本发明实施例还提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的视频的处理程序或所述视频的搜索程序,所述视频的处理程序被所述处理器执行时实现如上所述的视频的处理方法的步骤,以及所述视频的搜索程序被处理器执行时实现如上所述的视频的搜索方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有视频的处理程序或所述视频的搜索程序,所述视频的处理程序被处理器执行时实现如上所述的视频的处理方法的步骤,以及所述视频的搜索程序被处理器执行时实现如上所述的视频的搜索方法的步骤。
本发明实施例提出的一种视频的处理方法,根据场景的变换进行剪辑,可保证目标视频处于同一场景,能有效提高识别目标视频中特征参数的准确度,根据目标视频的特征参数生成相应的关键词,使目标视频与关键词之间具有关联性强、描述准确性高的有益效果。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明视频的处理方法第一实施例的流程示意图;
图3为本发明视频的处理方法第二实施例的流程示意图;
图4为本发明视频的处理方法第三实施例的流程示意图;
图5为本发明视频的处理方法第四实施例的流程示意图;
图6为本发明视频的处理方法第五实施例的流程示意图;
图7为本发明视频的处理方法第六实施例的流程示意图;
图8为本发明视频的处理方法第七实施例的流程示意图;
图9为本发明视频的处理方法第八实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:根据场景对待剪辑视频进行剪辑,并得到目标视频;获取所述目标视频的特征参数;根据所述特征参数生成所述目标视频的关键词;将所述关键词与所述目标视频关联保存。
由于现有技术中通过搜索关键词来获取精彩片段时,往往存在关键词与片段的关联性差、描述不准确的技术问题。
本发明实施例提供一种解决方案,根据场景的变换进行剪辑,可保证目标视频处于同一场景,能有效提高识别目标视频中特征参数的准确度,根据目标视频的特征参数生成相应的关键词,使目标视频与关键词之间具有关联性强、描述准确性高的有益效果。
如图1所示,图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例的执行主体可以是PC,也可以是智能手机、平板电脑、便携式计算机等可移动式或不可移动式终端设备。
如图1所示,该终端设备可以包括:处理器1001,例如CPU,通信总线1002,存储器1003。其中,通讯总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),如磁盘存储器。存储器1003可选地还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1示出的终端设备的结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1003可以包括操作系统、视频的处理程序或视频的搜索程序,而处理器1001可以用于调用存储器1003中存储的视频的处理程序,并执行以下步骤:
根据场景对待剪辑视频进行剪辑,并得到目标视频;
获取所述目标视频的特征参数;
根据所述特征参数生成所述目标视频的关键词;
将所述关键词与所述目标视频关联保存。
进一步地,处理器1001可以用于调用存储器1003中存储的视频的处理程序,并执行以下步骤:
提取所述目标视频的多个图像帧;
获取多个所述图像帧的子特征参数;
根据所述子特征参数获取所述目标视频的特征参数。
进一步地,处理器1001可以用于调用存储器1003中存储的视频的处理程序,并执行以下步骤:
获取多个所述图像帧中的人物信息;
根据所述人物信息对应的人物的行为特征以及人体特征获取所述子特征参数。
进一步地,处理器1001可以用于调用存储器1003中存储的视频的处理程序,并执行以下步骤:
获取所述行为特征对应的行为特征类别;
获取所述人体特征对应的身份信息;
将所述行为特征类别以及所述身份信息设为所述目标视频的关键词。
进一步地,处理器1001可以用于调用存储器1003中存储的视频的处理程序,并执行以下步骤:
比对所述人体特征以及预设人体特征,并获取比对结果;
根据所述比对结果获取所述人体特征对应的预设人体特征;
根据所述人体特征对应的预设人体特征获取所述身份信息。
进一步地,处理器1001可以用于调用存储器1003中存储的视频的处理程序,并执行以下步骤:
按预设帧频依次提取所述待剪辑视频的多个图像帧;
将所述图像帧转换成对应的灰度图;
根据相邻图像帧的所述灰度图确定相邻的所述图像帧是否存在场景变化;
在相邻图像帧存在场景变化时,将存在场景变化的相邻图像帧作为分割帧;
根据所述分割帧对所述待剪辑视频进行剪辑,以得到所述目标视频。
进一步地,处理器1001可以用于调用存储器1003中存储的视频的处理程序,并执行以下步骤:
分别在相邻图像帧对应的灰度图中提取图像块,所述相邻的所述图像帧中提取的图像块的位置与大小相同;
获取每个图像块中在各个预设灰度范围内的像素点的数量;
获取各个预设灰度范围内相邻图像帧对应的数量的差值绝对值;
对各个所述差值绝对值求和,得到和值;
确定所述和值是否大于预设阈值,其中,在所述和值大于所述预设阈值时,确定相邻的所述图像帧存在场景变化。
进一步地,处理器1001可以用于调用存储器1003中存储的视频的搜索程序,并执行以下步骤:
获取从搜索界面输入的目标关键词;
根据所述目标关键词搜索预设数据库中的目标视频,并显示所述目标关键词关联的目标视频。
基于上述终端的结构,提出本发明第一实施例,参照图2,图2为本发明视频的处理方法第一实施例的流程示意图,所述视频的处理方法包括以下步骤:
步骤S100,根据场景对待剪辑视频进行剪辑,并得到目标视频;
在本实施例中,执行主体为终端设备。待剪辑视频可以是电影、电视剧以及录制的视频等任意可剪辑的视频。
在获取到待剪辑视频后,按预设帧频提取待剪辑视频的多个图像帧,其中,预设帧频是指单位时间内提取的视频帧数,可根据需求设置,如50帧每分钟。可以理解的是,预设帧频越大,剪辑的精度越高。
场景可根据上述多个图像帧中相邻的图像帧的内容变化进行确定。在场景变换时,确定待剪辑视频对应的分割帧,进而得到目标视频。可以理解的是,目标视频可以是待剪辑视频中的任一场景所在的视频。目标视频的时长由待剪辑视频的场景所决定,如3分钟。
可选地,待剪辑视频可被剪辑成多个不同场景的目标视频。
可选地,剪辑待剪辑视频可通过ffmpeg、shotdetect以及pyscenedetect中的任一种。综合速度以及准确度,优先选用ffmpeg方法进行剪辑。
步骤S200,获取所述目标视频的特征参数;
根据场景的变换剪辑待剪辑视频,得到目标视频。特征参数可包括场景参数、人物信息以及声音参数中的一种或多种。由于目标视频根据场景进行剪辑,所以场景参数是相对稳定的,例如游乐场、公交车上、室内、沙滩等;人物信息可包括人物的行为特征以及身份信息;声音参数可包括语音中的关键信息、音量、音调以及噪声中的一种或多种。可通过图像识别技术识别场景参数以及人物信息,可通过语音识别技术识别声音参数。
步骤S300,根据所述特征参数生成所述目标视频的关键词;
可根据获取到的特征参数与终端设备的数据库中预存特征参数进行匹配,在匹配度高时,得到特征参数对应的关键词,进而生成目标视频的关键词。
可选地,可根据场景参数生成场景对应的关键词,如沙滩;可根据人物信息生成人物对应的行为特征的关键词以及身份信息的关键词,如晒太阳可以是行为特征的关键词,某公众人物可以是身份信息的关键词;可根据声音参数生成声音的关键词,如喧嚣。根据这些信息,可得出“某公众人物在喧嚣的沙滩晒太阳”这样的关键词。
步骤S400,将所述关键词与所述目标视频关联保存。
在生成目标视频的关键词后,将关键词与目标视频关联起来,将目标视频以及与目标视频关联的关键词保存在终端设备,也可将其保存在云端数据库。
在本实施例中,根据场景的变换进行剪辑,可保证目标视频处于同一场景,能有效提高识别目标视频中特征参数的准确度,根据目标视频的特征参数生成相应的关键词,使目标视频与关键词之间具有关联性强、描述准确性高的有益效果。
参照图3,图3为本发明视频的处理方法第二实施例的流程示意图,图3也是步骤S200的细化流程图,基于上述第一实施例,步骤S200包括:
步骤S210,提取所述目标视频的多个图像帧;
步骤S220,获取多个所述图像帧的子特征参数;
步骤S230,根据所述子特征参数获取所述目标视频的特征参数。
在本实施例中,按预定帧频从目标视频中提取多个图像帧,可减少终端设备处理视频帧的数量,进而提高获取目标视频的内容的效率。
可通过逐一识别各个图像帧的子特征参数。由于图像帧损失了声音信息,进而,子特征参数包括场景参数以及人物信息中的至少一个。
可选地,由于目标视频处于同一场景,场景参数是固定的,因此,主要根据各个图像帧获取子特征参数的人物信息。
可选地,将上述多个图像帧输入到神经网络模型,可通过三维卷积网络对多个图像帧中的人物以及场景进行特征提取,获取人物信息以及场景信息。
由于目标视频处于同一场景,可将多个图像帧中的任一图像帧的场景参数作为目标视频的特征参数的场景参数;目标视频只包含一种行为,因而,可将各个子特征参数的人物信息进行整合,得到特征参数的人物信息。例如,蹲下这个行为特征可包括目标人物站立、目标人物弯曲双腿以及目标人物蹲下这三个子行为特征构成。又例如,获取到各个图像帧中目标人物的脸部特征,可计算出各个脸部特征的平均值,如,眼间距、眼镜大小、嘴唇的厚薄等,可得到各个图像帧总的脸部特征。
根据子特征参数,特征参数可包括场景参数以及人物信息中的至少一个。
在本实施例中,通过提取目标视频中的多个图像帧,从各个图像帧中提取子特征参数,得到特征参数,综合多个图像帧的子特征参数,使特征参数能从整体反映目标视频的关键信息,对目标视频的理解具有更高的准确度的有益效果。
参照图4,图4为本发明视频的处理方法第三实施例的流程示意图,基于上述第二实施例,图4也为图3中步骤S220的细化流程图,获取多个图像帧的子特征参数包括:
步骤S221,获取多个所述图像帧中的人物信息;
步骤S222,根据所述人物信息对应的人物的行为特征以及人体特征获取所述子特征参数。
由于根据人物信息搜索短视频或精彩片段更符合用户搜索的实际,因而,在本实施例中,子特征参数包括人物信息。
人物信息可包括人物的行为特征以及人体特征,其中,行为特征可以是人类活动的任一行为,如挥手、吵架以及跑步等,可包括各个图像帧中目标人物的行为动作;人体特征可包括各个图像帧中目标人物的脸部特征、虹膜特征以及体型特征中的至少一个。
可通过神经网络识别图像帧中的目标人物、目标人物在图像帧中的位置坐标、目标人物的行为开始时间点以及目标人物行为结束的时间点,其中,在图像帧上存在多个人物时,目标人物可以有多个。
在本实施例中,通过获取多个图像帧中的人物信息,根据人物信息对应的人物的行为特征以及人体特征获取子特征参数,将识别度高的人物信息作为特征参数,使之更符合用户的搜索逻辑,对目标视频的理解更加形象生动的有益效果。
参照图5,图5为本发明视频的处理方法第四实施例的流程示意图,图5也为图4中步骤S300的细化流程图,基于上述第三实施例,步骤S300包括:
步骤S310,获取所述行为特征对应的行为特征类别;
步骤S320,获取所述人体特征对应的身份信息;
步骤S330,将所述行为特征类别以及所述身份信息设为所述目标视频的关键词。
在本实施例中,行为特征类别可以是人类动作的任一种,如跳舞、蹲下、溜冰等;身份信息可包括公众人物的名字、性别以及年龄中的一种或多种。
在获取到目标视频的目标人物的行为特征后,对行为特征进行分类,得到行为特征对应的行为特征类别。
可选地,可将上述提取的多个图像帧输入到神经网络模型,通过神经网络模型识别出图像帧中的目标人物的位置坐标,再通过三维卷积网络根据目标人物的位置坐标提取目标人物的行为特征,并获取相应的权值,根据目标人物的行为特征以及对应的权值计算出目标人物的行为特征对应的行为特征类别。
可选地,神经网络模型可通过上万张已知行为特征的图像帧训练而成,可通过损失函数,将神经网络模型计算出来的行为特征类别与实际行为特征进行比对,不断优化神经网络模型的参数,提高神经网络模型对图像帧中人物的行为特征识别的准确性。
可根据目标视频的目标人物的人体特征与终端设备中预存的已知身份信息的人物的人体特征进行比对,如脸部特征与预设脸部特征进行比对,得出相关度高于预设值,且相关度最高时,将相关度高的人物的身份信息作为目标人物的身份信息,得到目标人物的身份信息。虹膜特征与人体特征与此类似,在此不再赘述。
将行为特征类别设为目标视频的行为关键词,将目标视频中的目标人物的身份信息设为目标视频的人物关键词。例如,在一段目标视频中,一位男士从一位女士手中拿走一个箱子,可通过提取三张图像帧,确定目标人物为一位男士以及一位女士,可分别识别出男士的行为特征以及女士的行为特征,可通过目标人物的人体特征如脸部、虹膜以及体型中的任一种可识别出目标人物的身份信息,如威尔史密斯。将目标人物的行为特征类别设为目标视频的行为关键词,即拿箱子;将目标人物的身份信息设为目标视频的人物关键,如威尔史密斯以及一位女士。综合目标视频的行为关键词以及人物关键词,可得出目标视频的关键词为威尔史密斯从一位女士手中拿走一个箱子。
可选地,还可以将目标人物的行为开始时间点以及行为结束时间点添加至目标视频的关键词,如“11分13秒到12分14秒,威尔史密斯从一位女士手中拿走一个箱子”。
在本实施例中,根据目标视频的人物信息的行为特征以及人体特征,获取行为特征类别以及目标人物的身份信息,将行为特征类别以及身份信息设为目标视频的关键词,识别出目标视频中的人物的行为以及身份信息,并转换成目标视频的关键词,可精准概括出目标视频中的人物行为以及身份的有益效果。
参照图6,图6为本发明视频的处理方法第五实施例的流程示意图,图6也为图5中步骤S320的细化流程图,基于上述第四实施例,步骤S320包括:
步骤S321,比对所述人体特征以及预设人体特征,并获取比对结果;
步骤S322,根据所述比对结果获取所述人体特征对应的预设人体特征;
步骤S323,根据所述人体特征对应的预设人体特征获取所述身份信息。
在获取到目标视频中人物信息的人体特征后,人体特征可包括脸部特征、虹膜特征以及体型特征中的一个或多个。预设人体特征与人体特征相对应,若人体特征为脸部特征,那么对应的预设人体特征为预设脸部特征;若人体特征为虹膜特征,那么对应的预设人体特征为预设虹膜特征;若人体特征为体型特征,那么对应的预设人体特征为预设体型特征;若人体特征对应有多个,那么预设人体特征也对应多个。以脸部特征为例,进行说明。
将人物信息的脸部特征与终端设备中的数据库中的预设脸部特征进行比对,其中,预设脸部特征所对应的人物的身份信息是已知的。
比对结果可根据脸部特征的特征值与预设脸部特征的特征值之间的差值是否大于预设差值,来确定比对结果,其中,比对结果包括匹配成功以及匹配失败中的一个。
在比对结果为匹配成功时,将脸部特征对应的预设脸部特征的身份信息作为脸部特征的人物的身份信息。
可选地,特征值可以是人脸的可128维向量,可通过脸部特征得到目标视频中目标人物的128维向量,再将目标人物的128维向量与预设脸部特征的128维向量做矢量差,得出差值,在差值小于或等于预设值时,则将预设脸部特征对应的身份信息作为人体特征对应的身份信息。若脸部特征与数据库中所有的预设脸部特征得出的差值均大于预设值,则脸部特征对应的目标人物不是公知人物,可通过性别、年龄来得出脸部特征对应的身份信息,如老奶奶。
进而,将人体特征对应的预设人体特征的身份信息作为人体特征的人物的身份信息。
在本实施例中,通过比对人体特征以及预设人体特征,获取比对结果,得出人体特征对应的预设人体特征,将预设人体特征的身份信息作为人体特征的人物的身份信息,可精准识别出目标视频中目标人物的身份信息的有益效果。
参照图7,图7为本发明视频的处理方法第六实施例的流程示意图,图7也为图6中步骤S100的细化流程图,基于上述第一实施例至第五实施例中的任一实施例,步骤S100包括:
步骤S110,按预设帧频依次提取所述待剪辑视频的多个图像帧;
预设帧频可根据设计人员的需求进行设置,需综合考虑剪辑的精度以及剪辑的效率,如30帧每分钟。按预设帧频依次提取待剪辑视频的多个图像帧,可以理解的是,按次序以及相同的时间间隔获取多个图像帧。
步骤S120,将所述图像帧转换成对应的灰度图;
步骤S130,根据相邻图像帧的所述灰度图确定相邻的所述图像帧是否存在场景变化;
步骤S140,在相邻图像帧存在场景变化时,将存在场景变化的相邻图像帧作为分割帧;
步骤S150,根据所述分割帧对所述待剪辑视频进行剪辑,以得到所述目标视频。
将提取的各个图像帧转换成灰度图,可通过比对相邻图像帧的灰度图中的内容的变化量确定是否存在场景变化。可以理解的是,在相邻的图像帧的灰度图中的内容的变化量大于设定值时,则认为场景发生变化;在相邻的图像帧的灰度图中的内容的变化量小于或等于设定值时,则认为场景没有发生变化。
在相邻的图像帧存在场景变化时,将存在场景变化的相邻图像帧作为分割帧,前一图像帧可设为前一目标视频的终止分割帧,后一图像帧可设为后以目标视频的起始分割帧。可以理解的是,待剪辑视频中可以有多个分割帧,进而能被分割成不同场景的目标视频。
根据分割帧对待剪辑视频进行剪辑,进而得到目标视频。
在本实施例中,通过提取待剪辑视频的多个图像帧,并将图像帧转化成灰度图,根据相邻图像帧的灰度图确定场景是否存在变化,在存在变化时,将存在场景变化的相邻图像帧作为分割帧,根据分割帧剪辑待剪辑视频,得到目标视频,具有剪辑精度高、简便高效的有益效果。
参照图8,图8为本发明视频的处理方法第七实施例的流程示意图,图8也为图7中步骤S130的细化流程图,基于上述第六实施例,步骤S130包括:
步骤S131,分别在相邻图像帧对应的灰度图中提取图像块,所述相邻的所述图像帧中提取的图像块的位置与大小相同;
在本实施例中,分别从相邻图像帧对应的灰度图中提取图像块,其中,图像块左上角的坐标是随机生成的,图像块的大小也是随机生成的。可以理解的是,相邻图像帧中提取的图像块的位置与大小相同,有利于进行后续比对。
步骤S132,获取每个图像块中在各个预设灰度范围内的像素点的数量;
步骤S133,获取各个预设灰度范围内相邻图像帧对应的数量的差值绝对值;
步骤S134,对各个所述差值绝对值求和,得到和值;
图像块由像素点组成,如10个像素点乘以10个像素点的图像块包括100个像素点。像素点具有灰度值,可以是0到255间的整数。预设灰度范围可根据需求进行设置,如0-4,5-9,10-14等。可以理解的是,预设灰度范围越小,精度越大,但速率越低。
每个像素点对应一个预设灰度范围,可分别获取每个图像块在各个预设灰度范围内的像素点的数量。
在获取到每个图像块在各个预设灰度范围内的像素点的数量后,计算相邻图像帧的图像块在各个预设灰度范围内对应的像素点的数量的差值,并可得到各个差值的绝对值,即差值绝对值,对各个差值绝对值进行求和,得到和值。
可选地,可通过绘制每个图像块的直方图,根据直方图在各个预设灰度范围内的像素点的数量,以及在各个预设灰度范围内数量的差值的绝对值,来计算和值。
步骤S135,确定所述和值是否大于预设阈值,其中,在所述和值大于所述预设阈值时,确定相邻的所述图像帧存在场景变化。
预设阈值可以是设计人员设置的,用于确定场景是否发生变化的临界值。判断和值是否大于预设阈值来确定相邻图像帧是否存在场景变化。在和值小于或等于预设阈值时,确定相邻的图像帧不存在场景变化;在和值大于预设阈值时,确定相邻的图像帧存在场景变化。
在本实施例中,通过获取相邻图像帧的图像块,并计算图像块在各个预设灰度范围内的像素点的数量以及在各个预设灰度范围内数量的差值绝对值,计算出和值,根据和值与预设阈值之间的关系,确定相邻图像帧是否存在场景变化,通过随机提取、逐一比对确定场景是否变化,对视频的剪辑具有精度高、全面的有益效果。
参照图9,图9为本发明视频的搜索方法第八实施例的流程示意图,所述视频的搜索方法包括:
步骤S500,获取从搜索界面输入的目标关键词;
步骤S600,根据所述目标关键词搜索预设数据库中的目标视频,并显示所述目标关键词关联的目标视频。
在本实施中,目标视频是基于上述视频的处理方法得到的,即根据场景将长视频分割成多个短视频,其中,目标视频存储于预设数据库,与目标视频关联的关键词也保存于预设数据库。
终端设备可在当前界面上输出搜索界面,通过搜索界面获取用户输入的目标关键词。其中,目标关键词可以是用户输入的查询语句。预设数据库可包括云端数据库以及本地数据库中的至少一个。
终端设备可根据目标关键词在预设数据库中进行匹配查找,查找目标关键词在预设数据库中对应的关联的关键词,根据关联的关键词获取对应的目标视频,根据匹配的相似度高低依次在当前显示界面上显示预设关键词对应的目标视频。
在本实施例中,通过获取用户输入的目标关键词,根据目标关键词搜索预设数据库中的目标视频,并显示目标关键词对应的目标视频,由于目标视频自身对应的关键词具有关联性强、描述准确性高的特点,进而,通过输入目标关键词获取对应的目标视频,具有搜索精准度高的有益效果。
此外,本发明实施例还提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的视频的处理程序或视频的搜索程序,所述视频的处理程序被所述处理器执行时实现如上所述的视频的处理方法实施例的内容,以及所述视频的搜索程序被处理器执行时实现如上述的视频的搜索方法实施例的内容。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有视频的处理程序或视频的搜索程序,所述视频的处理程序被处理器执行时实现如上所述的视频的处理方法实施例的内容,以及所述视频的搜索程序被处理器执行时实现如上述的视频的搜索方法实施例的内容。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种视频的处理方法,其特征在于,所述视频的处理方法包括以下步骤:
根据场景对待剪辑视频进行剪辑,并得到目标视频;
获取所述目标视频的特征参数;
根据所述特征参数生成所述目标视频的关键词;
将所述关键词与所述目标视频关联保存。
2.如权利要求1所述的视频的处理方法,其特征在于,所述获取所述目标视频的特征参数的步骤包括:
提取所述目标视频的多个图像帧;
获取多个所述图像帧的子特征参数;
根据所述子特征参数获取所述目标视频的特征参数。
3.如权利要求2所述的视频的处理方法,其特征在于,所述获取多个所述图像帧的子特征参数的步骤包括:
获取多个所述图像帧中的人物信息;
根据所述人物信息对应的人物的行为特征以及人体特征获取所述子特征参数。
4.如权利要求3所述的视频的处理方法,其特征在于,所述根据所述特征参数生成所述目标视频的关键词的步骤包括:
获取所述行为特征对应的行为特征类别;
获取所述人体特征对应的身份信息;
将所述行为特征类别以及所述身份信息设为所述目标视频的关键词。
5.如权利要求3所述的视频的处理方法,其特征在于,所述获取所述人体特征对应的身份信息的步骤还包括:
比对所述人体特征以及预设人体特征,并获取比对结果;
根据所述比对结果获取所述人体特征对应的预设人体特征;
根据所述人体特征对应的预设人体特征获取所述身份信息。
6.如权利要求1所述的视频的处理方法,其特征在于,所述根据场景对待剪辑视频进行剪辑,并得到目标视频的步骤包括:
按预设帧频依次提取所述待剪辑视频的多个图像帧;
将所述图像帧转换成对应的灰度图;
根据相邻图像帧的所述灰度图确定相邻的所述图像帧是否存在场景变化;
在相邻图像帧存在场景变化时,将存在场景变化的相邻图像帧作为分割帧;
根据所述分割帧对所述待剪辑视频进行剪辑,以得到所述目标视频。
7.如权利要求6所述的视频的处理方法,其特征在于,所述根据相邻图像帧的所述灰度图确定相邻的所述图像帧是否存在场景变化的步骤包括:
分别在相邻图像帧对应的灰度图中提取图像块,所述相邻的所述图像帧中提取的图像块的位置与大小相同;
获取每个图像块中在各个预设灰度范围内的像素点的数量;
获取各个预设灰度范围内相邻图像帧对应的数量的差值绝对值;
对各个所述差值绝对值求和,得到和值;
确定所述和值是否大于预设阈值,其中,在所述和值大于所述预设阈值时,确定相邻的所述图像帧存在场景变化。
8.一种视频的搜索方法,其特征在于,所述视频的搜索方法包括以下步骤:
获取从搜索界面输入的目标关键词;
根据所述目标关键词搜索预设数据库中的目标视频,并显示所述目标关键词关联的目标视频,其中,所述目标视频基于权利要求1至7中任一项所述的视频的处理方法得到的。
9.一种终端设备,其特征在于,所述终端设备包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的视频的处理程序或视频的搜索程序,所述视频的处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频的处理方法的步骤,以及所述视频的搜索程序被所述处理器执行时实现如权利要求8所述视频的搜索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有视频的处理程序或视频的搜索程序,所述视频的处理程序被处理器执行时实现如权利要求1至7中的任一项所述的视频的处理方法的步骤,以及所述视频的搜索程序被所述处理器执行时实现如权利要求8所述视频的搜索方法的步骤。
CN201911424339.3A 2019-12-30 2019-12-30 视频的处理方法、视频的搜索方法及终端设备 Active CN111177470B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201911424339.3A CN111177470B (zh) 2019-12-30 2019-12-30 视频的处理方法、视频的搜索方法及终端设备
PCT/CN2020/111032 WO2021135286A1 (zh) 2019-12-30 2020-08-25 视频的处理方法、视频的搜索方法、终端设备及计算机可读存储介质
US17/758,179 US12001479B2 (en) 2019-12-30 2020-08-25 Video processing method, video searching method, terminal device, and computer-readable storage medium
EP20908901.0A EP4086786A4 (en) 2019-12-30 2020-08-25 VIDEO PROCESSING METHOD, VIDEO SEARCHING METHOD, TERMINAL AND COMPUTER-READABLE STORAGE METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911424339.3A CN111177470B (zh) 2019-12-30 2019-12-30 视频的处理方法、视频的搜索方法及终端设备

Publications (2)

Publication Number Publication Date
CN111177470A true CN111177470A (zh) 2020-05-19
CN111177470B CN111177470B (zh) 2024-04-30

Family

ID=70646548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911424339.3A Active CN111177470B (zh) 2019-12-30 2019-12-30 视频的处理方法、视频的搜索方法及终端设备

Country Status (3)

Country Link
EP (1) EP4086786A4 (zh)
CN (1) CN111177470B (zh)
WO (1) WO2021135286A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111711771A (zh) * 2020-05-20 2020-09-25 北京奇艺世纪科技有限公司 一种图像选取方法、装置、电子设备及存储介质
WO2021135286A1 (zh) * 2019-12-30 2021-07-08 深圳Tcl新技术有限公司 视频的处理方法、视频的搜索方法、终端设备及计算机可读存储介质
CN113542818A (zh) * 2021-07-16 2021-10-22 北京字节跳动网络技术有限公司 一种视频展示方法、视频编辑方法及装置
US12001479B2 (en) 2019-12-30 2024-06-04 Shenzhen Tcl New Technology Co., Ltd. Video processing method, video searching method, terminal device, and computer-readable storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682308A (zh) * 2011-03-17 2012-09-19 株式会社理光 图像处理方法和图像处理设备
CN103914561A (zh) * 2014-04-16 2014-07-09 北京酷云互动科技有限公司 一种图像搜索方法和装置
CN110309353A (zh) * 2018-02-06 2019-10-08 上海全土豆文化传播有限公司 视频索引方法及装置
US20190377956A1 (en) * 2018-06-08 2019-12-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing video

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011124979A (ja) * 2009-11-13 2011-06-23 Jvc Kenwood Holdings Inc 映像処理装置、映像処理方法、および映像処理プログラム
CN109508406B (zh) * 2018-12-12 2020-11-13 北京奇艺世纪科技有限公司 一种信息处理方法、装置及计算机可读存储介质
CN110401873A (zh) * 2019-06-17 2019-11-01 北京奇艺世纪科技有限公司 视频剪辑方法、装置、电子设备和计算机可读介质
CN111177470B (zh) * 2019-12-30 2024-04-30 深圳Tcl新技术有限公司 视频的处理方法、视频的搜索方法及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682308A (zh) * 2011-03-17 2012-09-19 株式会社理光 图像处理方法和图像处理设备
CN103914561A (zh) * 2014-04-16 2014-07-09 北京酷云互动科技有限公司 一种图像搜索方法和装置
CN110309353A (zh) * 2018-02-06 2019-10-08 上海全土豆文化传播有限公司 视频索引方法及装置
US20190377956A1 (en) * 2018-06-08 2019-12-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing video

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021135286A1 (zh) * 2019-12-30 2021-07-08 深圳Tcl新技术有限公司 视频的处理方法、视频的搜索方法、终端设备及计算机可读存储介质
US12001479B2 (en) 2019-12-30 2024-06-04 Shenzhen Tcl New Technology Co., Ltd. Video processing method, video searching method, terminal device, and computer-readable storage medium
CN111711771A (zh) * 2020-05-20 2020-09-25 北京奇艺世纪科技有限公司 一种图像选取方法、装置、电子设备及存储介质
CN111711771B (zh) * 2020-05-20 2022-09-30 北京奇艺世纪科技有限公司 一种图像选取方法、装置、电子设备及存储介质
CN113542818A (zh) * 2021-07-16 2021-10-22 北京字节跳动网络技术有限公司 一种视频展示方法、视频编辑方法及装置

Also Published As

Publication number Publication date
WO2021135286A1 (zh) 2021-07-08
EP4086786A1 (en) 2022-11-09
CN111177470B (zh) 2024-04-30
US20230044146A1 (en) 2023-02-09
EP4086786A4 (en) 2024-02-21

Similar Documents

Publication Publication Date Title
CN109146892B (zh) 一种基于美学的图像裁剪方法及装置
CN108446390B (zh) 用于推送信息的方法和装置
US8750602B2 (en) Method and system for personalized advertisement push based on user interest learning
CN111177470B (zh) 视频的处理方法、视频的搜索方法及终端设备
US11144800B2 (en) Image disambiguation method and apparatus, storage medium, and electronic device
CN107423306B (zh) 一种图像检索方法及装置
US8396303B2 (en) Method, apparatus and computer program product for providing pattern detection with unknown noise levels
CN111814620A (zh) 人脸图像质量评价模型建立方法、优选方法、介质及装置
CN110072140B (zh) 一种视频信息提示方法、装置、设备及存储介质
CN111814655B (zh) 目标重识别方法及其网络训练方法、相关装置
CN107133567B (zh) 一种创可贴广告点位选取方法及装置
KR20140114444A (ko) 키워드 검출장치, 그 제어방법 및 제어 프로그램, 및 표시기기
CN110347869B (zh) 一种视频生成方法、装置、电子设备及存储介质
CN111814846A (zh) 属性识别模型的训练方法、识别方法及相关设备
CN114677402A (zh) 海报文本布局、海报生成方法及相关装置
CN114494775A (zh) 视频切分方法、装置、设备及存储介质
CN113850178A (zh) 一种视频词云的生成方法及装置、存储介质及电子设备
JP2020095615A (ja) 生成装置、生成方法および生成プログラム
CN110674388A (zh) 推送项目的配图方法、装置、存储介质和终端设备
CN110728983A (zh) 一种信息显示方法、装置、设备及可读存储介质
CN114943549A (zh) 一种广告投放方法及装置
CN110781345B (zh) 视频描述生成模型的获取方法、视频描述生成方法及装置
US12001479B2 (en) Video processing method, video searching method, terminal device, and computer-readable storage medium
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN112973122A (zh) 游戏角色上妆方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant