CN115495600A - 一种基于特征的视音频检索方法 - Google Patents

一种基于特征的视音频检索方法 Download PDF

Info

Publication number
CN115495600A
CN115495600A CN202110608505.6A CN202110608505A CN115495600A CN 115495600 A CN115495600 A CN 115495600A CN 202110608505 A CN202110608505 A CN 202110608505A CN 115495600 A CN115495600 A CN 115495600A
Authority
CN
China
Prior art keywords
audio
image
characteristic
points
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110608505.6A
Other languages
English (en)
Inventor
郑严
殷松迁
郭忠武
李国华
刘宇航
闫晨博
韩煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bohui Technology Inc
Original Assignee
Beijing Bohui Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bohui Technology Inc filed Critical Beijing Bohui Technology Inc
Priority to CN202110608505.6A priority Critical patent/CN115495600A/zh
Publication of CN115495600A publication Critical patent/CN115495600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及音视频检索技术领域,提供一种基于特征的视音频检索方法,通过预先建立图像素材库以及预先建立音频素材库,对待检测样本进行索引,例如,可针对广播电视节目广告播出进行精准的监控统计,广播电视播出广告具有不变性特点,基于该方法提取各电视频道的特征构建素材特征库,然后基于广告样本特征检索,统计广告播出情况。基于特征的毫秒级特点,可对广告进行精准定位及查看。通过构建的素材特征库,可重复对不同待检测样本进行检索。基于时间连续性判断输出检索结果。特征ID根据节目ID和特征时间生成,可快速对检索的媒资进行分组,可精确到毫秒级的精准定位,精确匹配节目中素材出现的位置,且可对素材进行反复追溯检索。

Description

一种基于特征的视音频检索方法
技术领域
本申请涉及音视频检索技术领域,尤其涉及一种具体基于特征的视音频检索方法。
背景技术
随着现代计算机及互联网技术的发展,多媒体数据的种类越来越丰富,规模也越来越大,这使得多媒体检索技术编的越来越重要,例如,广告投放方需要监控投放的广告是否按约定播出,又例如,影视出品方需要确定作品的播放情况。
目前现有的视音频检索方案常见的是基于单维度的检索。例如,先将语音转换为文字,然后基于文字做检索,只提取的音频特征,未关联图像特征检索,且将语音先转换为文字这种识别技术,耗费大量的算力且无法精确到毫秒级的匹配,在背景音嘈杂时检索结果不理想。而单纯的图像检索,由于大量不同的视音频会采用相同或者相近的图像,导致采用图像检索方式,获得的检索结果存在较大的误差,不利于视音频的高效精确检索。
发明内容
为了提供一种高效精确的视音频检索方法,本申请实施例提供一种基于特征的视音频检索方法。
本申请第一方面提供一种基于特征的视音频检索方法,包括:
取待检测样本的图像特征点,以及待检测样本的音频特征点;
利用待检测样本图像特征点对预先建立的图像素材库进行筛选,若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内,则提取出对应的素材图像特征点,并以所有提取的素材图像特征点建立第一特征集合;以及,利用待检测样本音频特征点对预先建立的音频素材库进行筛选,若音频素材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内,则提取出对应的素材音频特征点,并以所有提取的素材音频特征点建立第二特征集合;
对第一特征集合的素材图像特征点按照节目ID进行分组,同一ID分组的素材图像特征点按照时间戳进行排序,获得多组素材图像特征序列集合;以及,对第二特征集合的素材音频特征点按照节目ID进行分组,同一ID分组的音频特征点按照时间戳进行排序,获得多组素材音频特征序列集合;
在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇;以及,在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇;
分别对同类图像簇中的素材图像特征点和同类音频簇中的素材音频特征点进行连续性验证,确定同类图像簇中素材图像特征序列的起始及结束时间,获得连续素材图像特征序列集合;以及,确定同类音频簇中素材音频特征序列的起始及结束时间,获得连续素材音频特征序列集合;
根据节目ID,对连续素材图像特征序列集合与连续素材音频特征序列集合,求并集或子集。
可选地,所述获取待检测样本的图像特征点,以及待检测样本的音频特征点的步骤,具体为:
获取待检测样本的音视频;
提取的所述待检测样本的音视频的样本图像序列和样本音频序列;
对所述样本图像序列4进行特征提取的,生成待检测样本的图像特征点,所述待检测样本的图像特征点包括节目ID信息、时间信息和指纹信息;
对所述样本音频序列基于频谱峰值进行特征提取的,生成待检测样本的音频特征点,所述待检测样本的音频特征点包括节目ID信息、时间信息和声纹信息。
可选地,所述在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇的步骤,具体为:
获取素材图像特征点的unix时间戳信息,若连续的素材图像特征点之间的时间戳满足以下公式,则将连续的素材图像特征点归类一个同类图像簇;
tn2-tn1<10*IA
或者tn2-tn1>=10*IA且|(tAFn2->SAF-tAFn1->SAF)-(tn2-tn1)|<3*IA;
其中,tn2和tn1为两个连续的素材图像特征点的unix时间戳信息,IA为预设的隔帧提取的间隔时间;tAFn2->SAF和tAFn1->SAF为两个连续的素材图像特征点对应的待检测样本图像特征点的unix时间戳信息。
可选地,所述视音频检索方法还包括:
若所述同类图像簇中只有一个素材图像特征点,则去除该同类图像簇;
计算任一同类图像簇的持续时间,若所述持续时间小于预设时长,则去除该同类图像簇。
可选地,所述在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇的步骤,具体为:
获取素材音频特征点的unix时间戳信息,若连续的音频特征点之间的时间戳满足以下公式,则将连续的素材音频特征点归类一个同类音频簇;
Tn2-Tn1<10*IP
或者Tn2-Tn1>=10*IP且|(TAFn2->SAF-TAFn1->SAF)-(Tn2-Tn1)|<3*IP;
其中,Tn2和Tn1为两个连续的素材音频特征点的unix时间戳信息,IP为预设的隔帧提取的间隔时间;TAFn2->SAF和TAFn1->SAF为两个连续的素材音频特征点对应的待检测样本音频特征点的unix时间戳信息。
可选地,所述视音频检索方法还包括:
若所述同类音频簇中只有一个素材音频特征点,则去除该同类音频簇;
计算任一同类音频簇的持续时间,若所述持续时间小于预设时长,则去除该同类音频簇。
可选地,所述预先建立的图像素材库和预先建立的音频素材库通过以下方法建立:
获取音视频素材,并按照预设的切片时长对所述音视频素材进行切片;
对切片后的音视频素材进行解码,生成素材图像序列和素材音频序列,所述素材图像序列和素材音频序列的序列戳根据解码时间及录像自然时间生成;
对素材图像序列进行隔帧提取特征,生成素材图像特征点,对素材音频序列基于频谱峰值特征进行特征提取的,生成素材音频特征点;
将所有素材图像特征点独立建库,获得图像素材库,以及,将所有素材音频特征点独立建库,获得音频素材库;所述所述素材图像特征点和素材音频特征点独立建库时,均设置有独立ID,所述独立ID包括节目ID信息及unix时间戳信息。
本申请第二方面提供一种基于特征的视音频检索装置,所述视音频检索装置用于执行本申请第一方面提供的视音频检索方法,所述视音频检索装置包括:
获取装置,用于获取待检测样本的图像特征点,以及用于获取待检测样本的音频特征点;
筛选模块,用于根据待检测样本图像特征点对预先建立的图像素材库进行筛选,若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内,则提取出对应的素材图像特征点,并以所有提取的素材图像特征点建立第一特征集合;
以及,用于根据待检测样本音频特征点对预先建立的音频素材库进行筛选,若音频素材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内,则提取出对应的素材音频特征点,并以所有提取的素材音频特征点建立第二特征集合;
分组模块,用于对第一特征集合的素材图像特征点按照节目ID进行分组,同一ID分组的素材图像特征点按照时间戳进行排序,获得多组素材图像特征序列集合;
以及,用于对第二特征集合的素材音频特征点按照节目ID进行分组,同一ID分组的音频特征点按照时间戳进行排序,获得多组素材音频特征序列集合;
聚类模块,用于在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇;
以及,用于在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇;
排序模块,用于对同类图像簇中的素材图像特征点进行连续性验证,确定同类图像簇中素材图像特征序列的起始及结束时间,获得多组连续素材图像特征序列集合;
以及,用于对同类音频簇中的素材音频特征点进行连续性验证,确定同类音频簇中素材音频特征序列的起始及结束时间,获得多组连续素材音频特征序列集合;
合并模块,用于根据节目ID,对连续素材图像特征序列集合与连续素材音频特征序列集合,求并集或子集。
本申请第三方面提供一种存储介质,所述存储介质存储有计算机程序;所述计算机程序被执行时,实现如本申请第一方面提供的一种基于特征的视音频检索方法的步骤。
本申请第四方面提供一种计算机设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如本申请第一方面提供的一种基于特征的视音频检索方法的步骤。
本申请提供的一种基于特征的视音频检索方法,通过预先建立图像素材库以及预先建立音频素材库,对待检测样本进行索引,例如,可针对广播电视节目广告播出进行精准的监控统计,广播电视播出广告具有不变性特点,基于该方法提取各电视频道的特征构建素材特征库(图像素材库和音频素材库),然后基于广告样本特征检索,统计广告播出情况,基于特征的毫秒级特点,可对广告进行精准定位及查看。又例如。针对节目转播监测,可将要求转播的频道提取特征,构件素材特征库,然后将转播的节目提取特征在素材库中检索,核查节目是否有正常转播。本申请提供的一种基于特征的视音频检索方法,通过构建的素材特征库,可重复对不同待检测样本进行检索。基于时间连续性判断输出检索结果。特征ID根据节目 ID和特征时间生成,可快速对检索的媒资进行分组,可精确到毫秒级的精准定位,精确匹配节目中素材出现的位置,且可对素材进行反复追溯检索。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于特征的视音频检索方法的流程示意图;
图2为本申请实施例提供的已经过排序的连续素材音频特征序列示意图;
图3为本申请实施例提供的图像素材库和音频素材库的建立方法的流程示意图。
具体实施方式
为了更清楚的描述本申请实施例的技术方案,在此作出如下约定,以图像特征为例,特征点:具备三个信息(描述图像指纹信息、图像时间信息和图像节目ID信息);特征序列:特征点有前后关系,这样的特征点集合称之为序列;序列集合:多条特征序列构成的一个序列集合,序列和序列之间没有绝对关系。
为了提供一种高效精确的视音频检索方法,本申请实施例提供一种基于特征的视音频检索方法。如图1所示,为本申请实施例提供的一种基于特征的视音频检索方法的流程示意图,本申请实施例第一方面提供一种基于特征的视音频检索方法,包括:
步骤S101,获取待检测样本的图像特征点,以及待检测样本的音频特征点。
具体的,首先获取待检测样本的音视频;然后提取的所述待检测样本的样本图像序列和样本音频序列,该步骤生成的样本图像序列和样本音频序列,不用关注自然时间,定义重样本时长。最后对所述样本图像序列的全局信息进行特征提取的,生成待检测样本的图像特征点,所述待检测样本的图像特征点包括节目ID信息、时间信息和指纹信息;以及,对所述样本音频序列基于频谱峰值进行特征提取的,生成待检测样本的音频特征点,所述待检测样本的音频特征点包括节目ID信息、时间信息和声纹信息,其中,所述指纹信息是用于计算两个图像特征点之间的内积距离,所述声纹信息是用于计算两个音频特征点之间的内积距离。
步骤S102,利用待检测样本图像特征点对预先建立的图像素材库进行筛选,若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内,则提取出对应的素材图像特征点,并以所有提取的素材图像特征点建立第一特征集合;以及,利用待检测样本音频特征点对预先建立的音频素材库进行筛选,若音频素材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内,则提取出对应的素材音频特征点,并以所有提取的素材音频特征点建立第二特征集合。
其中,以待检测样本图像特征点为例,在预先建立的图像素材库中,计算图像素材库中的素材图像特征点与待检测样本图像特征点内积距离,并将内积距离归一化后,判断内积距离是否处于预设区间,归一化后的内积距离越接近于1,则表示两个对象越相似,归一化后的内积距离等于1,则表示两个对象完全一致,在实际应用过程中,可以根据精度需要,设置预设区间,在本申请的实施例中,将预设区间设置为[0.8,1.0]。需要说明的是,第一特征集合存在的素材图像特征点是杂乱无序的组合在一起,以及,第二特征集合存在的素材音频特征点是杂乱无序的组合在一起。
步骤S103,对第一特征集合的素材图像特征点按照节目ID进行分组,同一ID分组的素材图像特征点按照时间戳进行排序,获得多组素材图像特征序列集合;以及,对第二特征集合的素材音频特征点按照节目ID进行分组,同一ID分组的音频特征点按照时间戳进行排序,获得多组素材音频特征序列集合。
对于第一特征集合与第二特征集合中杂乱无序的特征点,需要一定规律进行整合,本申请实施例中,先通过节目ID,对素材图像特征点或音频特征点进行分组,在同一ID分组下,在根据素材图像特征点或音频特征点的时间戳进行排序,从而获得一组有序排列的素材图像特征序列,多组素材图像特征序列集合或多组素材音频特征序列集合。
步骤S104,在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇;以及,在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇。
其中,对素材图像特征点进行时间性聚类,具体为:获取素材图像特征点的unix时间戳信息,若连续的素材图像特征点之间的时间戳满足以下公式,则将连续的素材图像特征点归类一个同类图像簇。
tn2-tn1<10*IP
或者tn2-tn1>=10*IP且|(tAFn2->SAF-tAFn1->SAF)-(tn2-tn1)|<3*IP。
其中,tn2和tn1为两个连续的素材图像特征点的unix时间戳信息,IP为预设的隔帧提取的间隔时间;tAFn2->SAF和tAFn1->SAF为两个连续的素材图像特征点对应的待检测样本图像特征点的unix时间戳信息。
对素材音频特征点进行时间性聚类具体为:获取素材音频特征点的unix时间戳信息,若连续的音频特征点之间的时间戳满足以下公式,则将连续的素材音频特征点归类一个同类音频簇。
Tn2-Tn1<10*IA
或者Tn2-Tn1>=10*IA且|(TAFn2->SAF-TAFn1->SAF)-(Tn2-Tn1)|<3*IA。
其中,Tn2和Tn1为两个连续的素材音频特征点的unix时间戳信息,IA为预设的隔帧提取的间隔时间;TAFn2->SAF和TAFn1->SAF为两个连续的素材音频特征点对应的待检测样本音频特征点的unix时间戳信息。
需要说明的是,在获得多个同类图像簇或多个同类音频簇后,需要去除噪声,对于同类图像簇,若所述同类图像簇中只有一个素材图像特征点,则去除该同类图像簇,以及,计算任一同类图像簇的持续时间,若所述持续时间小于预设时长,则去除该同类图像簇,对于同类图像簇,预设时长为待检测音视频的图像序列的十分之一。
对于同类音频簇,若所述同类音频簇中只有一个素材音频特征点,则去除该同类音频簇,以及,计算任一同类音频簇的持续时间,若所述持续时间小于预设时长,则去除该同类音频簇,对于同类音频簇,预设时长为待检测音视频的音频序列的十分之一。
步骤S105,分别对同类图像簇中的素材图像特征点和同类音频簇中的素材音频特征点进行连续性验证,确定同类图像簇中素材图像特征序列的起始及结束时间,获得连续素材图像特征序列集合;以及,确定同类音频簇中素材音频特征序列的起始及结束时间,获得连续素材音频特征序列集合。
对同一个同类图像簇或者同类音频簇中的特征点,进行连续性验证,并确定匹配的素材起始及结束时间。例如,在本申请实施例中,通过对同类音频簇中素材音频特点的起始及结束时间,按照从小到大的顺序进行排列,从而获得连续素材图像特征序列集合。如图2所示,本申请实施例提供的已经过排序的连续素材音频特征序列示意图。对于一个同类音频簇,tn1 至tnn为n个素材音频特征点,AFn1至Afnn为n个素材音频特征点对应的时间戳信息,SAF1 至SAFn为n个待检测样本的音频特征点的时间戳信息,按照待检测样本的音频特征点的时间戳信息,对素材音频特征点进行排序,获得一个连续素材音频特征序列,多个连续素材音频特征序列组合为一个连续素材音频特征序列集合。
步骤S106,根据节目ID,对连续素材图像特征序列集合与连续素材音频特征序列集合,求并集或子集。
如图3所示,为本申请实施例提供的图像素材库和音频素材库的建立方法的流程示意图,对于本申请实施例中提及的图像素材库音频素材库,通过以下方法预先建立:
步骤S301,获取音视频素材,并按照预设的切片时长对所述音视频素材进行切片。
在实际应用过程中,针对实时流节目或者长录像节目,需要做切片处理,在本申请实施例中,预设的切片时长为1小时。
步骤S302,对切片后的音视频素材进行解码,生成素材图像序列和素材音频序列,所述素材图像序列和素材音频序列的序列戳根据解码时间及录像自然时间生成。
在实际环境会存在视音频缺失情况,图像序列戳及音频序列戳的时间将结合解码时刻的时间戳时间及录像自然时间生成。比如切片起始帧开始的自然时间是2021-3-2500:00:00 (ts),切片起始是PTSs,第n帧图片的序列戳是PTSn,则时间戳信息tn的时间为: tn=ts+(PTSn-PTSs)。
步骤S303,对素材图像序列进行隔帧提取的特征,生成素材图像特征点,对素材音频序列基于频谱峰值特征进行特征提取的,生成素材音频特征点。
对于素材图像序列,基于图像的全局信息进行特征提取,因图像的连续性、特征的鲁棒性及特征提取的效率,对素材图像序列进行隔帧提取特征,可使用PDQ特征提取算法或感知哈希特征与像差特征提取算法,两两特征点之间的时间间隔IP,即素材图像特征序列预设的隔帧提取的间隔时间。素材音频序列基于频谱峰值特征,该特征约90ms一个特征,音频特征点之间的间隔为IA,即素材音频特征序列预设的隔帧提取的间隔时间。
步骤S304,将所有素材图像特征点独立建库,获得图像素材库,以及,将所有素材音频特征点独立建库,获得音频素材库;所述所述素材图像特征点和素材音频特征点独立建库时,均设置有独立ID,所述独立ID包括节目ID信息及unix时间戳信息。
其中。所述独立ID有128bit构成,其中前64bit代表节目ID信息,后64bit是tn换算为unix时间戳信息。
本申请实施例第二方面还提供一种基于特征的视音频检索装置,所述视音频检索装置用于执行本申请实施例第一方面提供的视音频检索方法,所述视音频检索装置包括:
获取装置,用于获取待检测样本的图像特征点,以及用于获取待检测样本的音频特征点;
筛选模块用于根据待检测样本图像特征点对预先建立的图像素材库进行筛选,若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内,则提取出对应的素材图像特征点,并以所有提取的素材图像特征点建立第一特征集合;
以及,用于根据待检测样本音频特征点对预先建立的音频素材库进行筛选,若音频素材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内,则提取出对应的素材音频特征点,并以所有提取的素材音频特征点建立第二特征集合;
分组模块,用用于对第一特征集合的素材图像特征点按照节目ID进行分组,同一ID分组的素材图像特征点按照时间戳进行排序,获得多组素材图像特征序列集合;
以及,用于对第二特征集合的素材音频特征点按照节目ID进行分组,同一ID分组的音频特征点按照时间戳进行排序,获得多组素材音频特征序列集合;
聚类模块,用于在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇;
以及,用于在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇;
排序模块,用于对同类图像簇中的素材图像特征点进行连续性验证,确定同类图像簇中素材图像特征序列的起始及结束时间,获得多组连续素材图像特征序列集合;
以及,用于对同类音频簇中的素材音频特征点进行连续性验证,确定同类音频簇中素材音频特征序列的起始及结束时间,获得多组连续素材音频特征序列集合;
合并模块,根据节目ID,对连续素材图像特征序列集合与连续素材音频特征序列集合,求并集或子集。
本申请实施例第三方面还提供一种存储介质,所述存储介质存储有计算机程序;所述计算机程序被执行时,实现如本申请实施例第一方面提供的一种基于特征的视音频检索方法的步骤。
本申请实施例第三方面还提供一种计算机设备,所述一种计算机设备包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器用于执行所述计算机程序时实现本申请实施例第一方面提供的一种基于特征的视音频检索方法的步骤。
本申请实施例提供的一种基于特征的视音频检索方法,通过预先建立图像素材库以及预先建立音频素材库,对待检测样本进行索引,例如,可针对广播电视节目广告播出进行精准的监控统计,广播电视播出广告具有不变性特点,基于该方法提取各电视频道的特征构建素材特征库(图像素材库和音频素材库),然后基于广告样本特征检索,统计广告播出情况,基于特征的毫秒级特点,可对广告进行精准定位及查看。又例如。针对节目转播监测,可将要求转播的频道提取特征,构件素材特征库,然后将转播的节目提取特征在素材库中检索,核查节目是否有正常转播。本申请提供的一种基于特征的视音频检索方法,通过构建的素材特征库,可重复对不同待检测样本进行检索。基于时间连续性判断输出检索结果。特征ID根据节目ID和特征时间生成,可快速对检索的媒资进行分组,可精确到毫秒级的精准定位,精确匹配节目中素材出现的位置,且可对素材进行反复追溯检索。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims (10)

1.一种基于特征的视音频检索方法,其特征在于,包括:
获取待检测样本的图像特征点,以及待检测样本的音频特征点;
利用待检测样本图像特征点对预先建立的图像素材库进行筛选,若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内,则提取出对应的素材图像特征点,并以所有提取的素材图像特征点建立第一特征集合;以及,利用待检测样本音频特征点对预先建立的音频素材库进行筛选,若音频素材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内,则提取出对应的素材音频特征点,并以所有提取的素材音频特征点建立第二特征集合;
对第一特征集合的素材图像特征点按照节目ID进行分组,同一ID分组的素材图像特征点按照时间戳进行排序,获得一组素材图像特征序列,并将多组素材图像特征序列组合为素材图像特征序列集合;以及,对第二特征集合的素材音频特征点按照节目ID进行分组,同一ID分组的音频特征点按照时间戳进行排序,获得一组素材音频特征序列,并将多组素材音频特征序列组合为素材音频特征序列集合;
在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇;以及,在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇;
分别对同类图像簇中的素材图像特征点和同类音频簇中的素材音频特征点进行连续性验证,确定同类图像簇中素材图像特征序列的起始及结束时间,获得连续素材图像特征序列集合;以及,确定同类音频簇中素材音频特征序列的起始及结束时间,获得连续素材音频特征序列集合;
根据节目ID,对连续素材图像特征序列集合与连续素材音频特征序列集合,求并集或子集。
2.根据权利要求1所述的一种基于特征的视音频检索方法,其特征在于,所述获取待检测样本的图像特征点,以及待检测样本的音频特征点的步骤,具体为:
获取待检测样本的音视频;
提取的所述待检测样本的音视频的样本图像序列和样本音频序列;
对所述样本图像序列进行特征提取的,生成待检测样本的图像特征点,所述待检测样本的图像特征点包括节目ID信息、时间信息和指纹信息;
对所述样本音频序列基于频谱峰值进行特征提取的,生成待检测样本的音频特征点,所述待检测样本的音频特征点包括节目ID信息、时间信息和声纹信息。
3.根据权利要求1所述的一种基于特征的视音频检索方法,其特征在于,所述在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇的步骤,具体为:
获取素材图像特征点的unix时间戳信息,若连续的素材图像特征点之间的时间戳满足以下公式,则将连续的素材图像特征点归类一个同类图像簇;
tn2-tn1<10*IA
或者tn2-tn1>=10*IA且|(tAFn2->SAF-tAFn1->SAF)-(tn2-tn1)|<3*IA;
其中,tn2和tn1为两个连续的素材图像特征点的unix时间戳信息,IA为预设的隔帧提取的间隔时间;tAFn2->SAF和tAFn1->SAF为两个连续的素材图像特征点对应的待检测样本图像特征点的unix时间戳信息。
4.根据权利要求3所述的一种基于特征的视音频检索方法,其特征在于,所述视音频检索方法还包括:
若所述同类图像簇中只有一个素材图像特征点,则去除该同类图像簇;
计算任一同类图像簇的持续时间,若所述持续时间小于预设时长,则去除该同类图像簇。
5.根据权利要求1所述的一种基于特征的视音频检索方法,其特征在于,所述在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇簇的步骤,具体为:
获取素材音频特征点的unix时间戳信息,若连续的音频特征点之间的时间戳满足以下公式,则将连续的素材音频特征点归类一个同类音频簇;
Tn2-Tn1<10*IP
或者Tn2-Tn1>=10*IP且|(TAFn2->SAF-TAFn1->SAF)-(Tn2-Tn1)|<3*IP;
其中,Tn2和Tn1为两个连续的素材音频特征点的unix时间戳信息,IP为预设的隔帧提取的间隔时间;TAFn2->SAF和TAFn1->SAF为两个连续的素材音频特征点对应的待检测样本音频特征点的unix时间戳信息。
6.根据权利要求5所述的一种基于特征的视音频检索方法,其特征在于,所述视音频检索方法还包括:
若所述同类音频簇中只有一个素材音频特征点,则去除该同类音频簇;
计算任一同类音频簇的持续时间,若所述持续时间小于预设时长,则去除该同类音频簇。
7.根据权利要求1所述的一种基于特征的视音频检索方法,其特征在于,所述预先建立的图像素材库和预先建立的音频素材库通过以下方法建立:
获取音视频素材,并按照预设的切片时长对所述音视频素材进行切片;
对切片后的音视频素材进行解码,生成素材图像序列和素材音频序列,所述素材图像序列和素材音频序列的序列戳根据解码时间及录像自然时间生成;
对素材图像序列进行隔帧提取特征,生成素材图像特征点,对素材音频序列基于频谱峰值特征进行特征提取的,生成素材音频特征点;
将所有素材图像特征点独立建库,获得图像素材库,以及,将所有素材音频特征点独立建库,获得音频素材库;所述所述素材图像特征点和素材音频特征点独立建库时,均设置有独立ID,所述独立ID包括节目ID信息及unix时间戳信息。
8.一种基于特征的视音频检索装置,其特征在于,所述视音频检索装置用于执行权利要求1-7任一项所述的视音频检索方法,所述视音频检索装置包括:
获取装置,用于获取待检测样本的图像特征点,以及用于获取待检测样本的音频特征点;
筛选模块,用于根据待检测样本图像特征点对预先建立的图像素材库进行筛选,若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内,则提取出对应的素材图像特征点,并以所有提取的素材图像特征点建立第一特征集合;
以及,用于根据待检测样本音频特征点对预先建立的音频素材库进行筛选,若音频素材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内,则提取出对应的素材音频特征点,并以所有提取的素材音频特征点建立第二特征集合;
分组模块,用于对第一特征集合的素材图像特征点按照节目ID进行分组,同一ID分组的素材图像特征点按照时间戳进行排序,获得多组素材图像特征序列集合;
以及,用于对第二特征集合的素材音频特征点按照节目ID进行分组,同一ID分组的音频特征点按照时间戳进行排序,获得多组素材音频特征序列集合;
聚类模块,用于在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇;
以及,用于在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇;
排序模块,用于对同类图像簇中的素材图像特征点进行连续性验证,确定同类图像簇中素材图像特征序列的起始及结束时间,获得多组连续素材图像特征序列集合;
以及,用于对同类音频簇中的素材音频特征点进行连续性验证,确定同类音频簇中素材音频特征序列的起始及结束时间,获得多组连续素材音频特征序列集合;
合并模块,用于根据节目ID,对连续素材图像特征序列集合与连续素材音频特征序列集合,求并集或子集。
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序;所述计算机程序被执行时,实现如权利要求1-7任一项所述的一种基于特征的视音频检索方法的步骤。
10.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-7任一项所述的一种基于特征的视音频检索方法的步骤。
CN202110608505.6A 2021-06-01 2021-06-01 一种基于特征的视音频检索方法 Pending CN115495600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110608505.6A CN115495600A (zh) 2021-06-01 2021-06-01 一种基于特征的视音频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110608505.6A CN115495600A (zh) 2021-06-01 2021-06-01 一种基于特征的视音频检索方法

Publications (1)

Publication Number Publication Date
CN115495600A true CN115495600A (zh) 2022-12-20

Family

ID=84464558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110608505.6A Pending CN115495600A (zh) 2021-06-01 2021-06-01 一种基于特征的视音频检索方法

Country Status (1)

Country Link
CN (1) CN115495600A (zh)

Similar Documents

Publication Publication Date Title
US11328011B2 (en) Unordered matching of audio fingerprints
US11575454B2 (en) Automated data-matching based on fingerprints
US8453170B2 (en) System and method for monitoring and recognizing broadcast data
Herley ARGOS: Automatically extracting repeating objects from multimedia streams
US9092518B2 (en) Automatic identification of repeated material in audio signals
CN102799605B (zh) 一种广告监播方法和系统
EP1774348B1 (en) Method of characterizing the overlap of two media segments
US20140161263A1 (en) Facilitating recognition of real-time content
US20030121046A1 (en) Method and system for re-identifying broadcast segments using statistical profiles
EP3534615B1 (en) Systems and methods for real-time television ad detection using an automated content recognition database
JP2006515721A (ja) ストリームに繰り返し埋め込まれたメディアオブジェクトを識別し、セグメント化するためのシステムおよび方法
George et al. Scalable and robust audio fingerprinting method tolerable to time-stretching
JP5257356B2 (ja) コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム
CN115495600A (zh) 一种基于特征的视音频检索方法
US10178415B2 (en) Chapter detection in multimedia streams via alignment of multiple airings
Shao et al. Automatically generating summaries for musical video
EP2401700B1 (fr) Traitement d&#39;un flux de données numériques
Herley Accurate repeat finding and object skipping using fingerprints
Huijbregts et al. Towards automatic speaker retrieval for large multimedia archives
Zeng et al. Program segmentation in a television stream using acoustic cues
Senarath et al. Automated TV commercial tracking and auditing
CN117221646A (zh) 一种新闻拆条方法、系统、电子设备和可读存储介质
Wang et al. Break-segment detection and Recognition in Broadcasting Video/Audio based on C/S architecture
Zhang et al. Applying Acoustic Analysis to Video Segmentation
Poli et al. Fast Hierarchical Multimodal Structuring of Time Slots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination