CN109089112B - 一种多声道虚拟声像音视频在线检测方法及装置 - Google Patents

一种多声道虚拟声像音视频在线检测方法及装置 Download PDF

Info

Publication number
CN109089112B
CN109089112B CN201811266490.4A CN201811266490A CN109089112B CN 109089112 B CN109089112 B CN 109089112B CN 201811266490 A CN201811266490 A CN 201811266490A CN 109089112 B CN109089112 B CN 109089112B
Authority
CN
China
Prior art keywords
sound source
motion
sound
moving
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811266490.4A
Other languages
English (en)
Other versions
CN109089112A (zh
Inventor
牛欢
孟子厚
高靖
甄茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201811266490.4A priority Critical patent/CN109089112B/zh
Publication of CN109089112A publication Critical patent/CN109089112A/zh
Application granted granted Critical
Publication of CN109089112B publication Critical patent/CN109089112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提供了一种多声道虚拟声像音视频在线检测方法及装置,其中方法包括:获取影视作品多轨音视频,提取多轨音频文件和多帧视频文件;从多轨音频文件中提取声音特征参数,并根据声音特征参数获取非运动声源信号以及运动声源信号;对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间;利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹;在多轨音频文件中添加运动声源的标注文件。

Description

一种多声道虚拟声像音视频在线检测方法及装置
技术领域
本发明涉及音视频在线检测技术领域,尤其涉及一种多声道虚拟声像音视频在线检测方法及装置。
背景技术
随着影视作品出品率越来越高和音视频技术的高速发展,现在音视频数量也呈现爆炸性的增长,其中观众在观看影视作品时对于声像的运动感知要求越来越高。但是现在实现对于声像运动感知基本来自于影视作品音频制作者的艺术理解,基本上集中于平面状态,基本未涉及垂直状态的声像运动感知的设计。同时针对于现在占片源量高达60%以上的杜比5.1以及7.1的音视频重放制式,对于声像运动轨迹的三维感知基本没办法实现。
音视频检测在日常生活中也存在一定应用,随着网络音视频的数目机位庞大且每天都会产生大量新数据,因而对于暴力、恐怖音视频内容检测系统也是存在的,其主要对单一的暴恐或非暴恐进行检测以及分类标签的标注。
由此可见,现有技术中对音视频检测技术主要有以下的缺陷和不足:
1.现有的音视频检测技术主要应用于音视频内容检测,但只对单一的内容进行检测分类,且未用于影视作品重放中虚拟声像轨迹的精准呈现中,并未对于影视作品中的大部分动态音效进行检测;
2.在现有影视作品特别是占片源量高达60%以上的杜比5.1以及7.1等音视频重放制式进行重放时,虚拟声像就只能进行平面运动,而没办法实现三维运动感知;
3.现有音视频技术主要是将音频、视频分别进行处理,并未将两者进行有效的结合进行影视作品重放中的虚拟声像生成应用。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的一种多声道虚拟声像音视频在线检测方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种多声道虚拟声像音视频在线检测方法,包括:获取影视作品多轨音视频,提取多轨音频文件和多帧视频文件;从多轨音频文件中提取声音特征参数,并根据声音特征参数获取非运动声源信号以及运动声源信号;对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间;利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹;利用运动声源的水平运动轨迹、运动声源的起始运动时间以及运动声源的垂直上下空间的运动轨迹在多轨音频文件中添加运动声源的标注文件。
其中,多声道虚拟声像音视频在线检测方法还包括:获取动态检测的训练集和测试集;利用训练集和测试集生成音频运动声源区别的模型。
其中,利用训练集和测试集生成音频运动声源区别的模型包括:对每一声道运动声源的声音特征参数与非运动声源的声音特征参数进行聚类分析,确定运动声源与非运动声源的声音特征参数,确定音频运动声源区别的模型。
其中,根据声音特征参数获取非运动声源信号以及运动声源信号包括:将声音特征参数代入音频运动声源区别的模型获取非运动声源信号以及运动声源信号。
其中,从多轨音频文件中提取声音特征参数包括:对多轨音频文件中的每一声道进行声音特征检测,得到每一声道的声音特征参数。
其中,对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间包括:对已确定的运动声源的声音特征参数进行分析,将不同声道间的相近时间段内的运动声源声音特征参数进行匹配,确定运动声源在各声道出现的时间先后顺序来判定运动声源的水平运动轨迹以及运动声源的起始运动时间。
其中,利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹包括:获取运动时间内的目标声源的模板,对序列图像进行有限个连续区域的分割,通过图像处理特征提取算法进行目标声源提取与连续时间段内的目标声源跟踪,确定目标声源的垂直上下空间的运动轨迹。
本发明另一方面提供了一种多声道虚拟声像音视频在线检测装置,包括:提取模块,用于获取影视作品多轨音视频,提取多轨音频文件和多帧视频文件;获取模块,用于从多轨音频文件中提取声音特征参数,并根据声音特征参数获取非运动声源信号以及运动声源信号;标记模块,用于对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间;计算模块,用于利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹;添加模块,用于利用运动声源的水平运动轨迹、运动声源的起始运动时间以及运动声源的垂直上下空间的运动轨迹在多轨音频文件中添加运动声源的标注文件。
其中,多声道虚拟声像音视频在线检测装置还包括:模型生成模块;模型生成模块,用于获取动态检测的训练集和测试集;利用训练集和测试集生成音频运动声源区别的模型。
其中,模型生成模块通过如下方式利用训练集和测试集生成音频运动声源区别的模型:模型生成模块,具体用于对每一声道运动声源的声音特征参数与非运动声源的声音特征参数进行聚类分析,确定运动声源与非运动声源的声音特征参数,确定音频运动声源区别的模型。
其中,获取模块通过如下方式根据声音特征参数获取非运动声源信号以及运动声源信号:获取模块,具体用于将声音特征参数代入音频运动声源区别的模型获取非运动声源信号以及运动声源信号。
其中,获取模块通过如下方式从多轨音频文件中提取声音特征参数:获取模块,具体用于对多轨音频文件中的每一声道进行声音特征检测,得到每一声道的声音特征参数。
其中,标记模块通过如下方式对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间:标记模块,具体用于对已确定的运动声源的声音特征参数进行分析,将不同声道间的相近时间段内的运动声源声音特征参数进行匹配,确定运动声源在各声道出现的时间先后顺序来判定运动声源的水平运动轨迹以及运动声源的起始运动时间。
其中,计算模块通过如下方式利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹:计算模块,具体用于获取运动时间内的目标声源的模板,对序列图像进行有限个连续区域的分割,通过图像处理特征提取算法进行目标声源提取与连续时间段内的目标声源跟踪,确定目标声源的垂直上下空间的运动轨迹。
由此可见,通过本发明实施例提供的多声道虚拟声像音视频在线检测方法及装置,可以针对多声道音频信号进行动态声源检测,并进行相应参数标记;而视频画面检测则是通过音频信号动态声源检测的参数标记进行动态声源物体在画面中的检测,确定动态声源在上下空间的运动轨迹,音视频检测参数有效的结合,能更好地解决其在三维声重放中三维声像空间解析不够等缺陷,从而可以为后续对影视作品中虚拟声像生成算法的实现,提供前期的准备。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的多声道虚拟声像音视频在线检测方法的流程图;
图2为本发明实施例提供的多声道虚拟声像音视频在线检测方法的一种具体实现方式的流程图;
图3为本发明实施例提供的多声道虚拟声像音视频在线检测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的多声道虚拟声像音视频在线检测方法的流程图,参见图1,本发明实施例提供的多声道虚拟声像音视频在线检测方法,包括:
S101,获取影视作品多轨音视频,提取多轨音频文件和多帧视频文件。
具体地,本申请可以针对影视作品的多轨音视频进行检测并动态音效标记。例如可以针对于影视市场占有率60%以上的杜比5.1以及7.1等影视作品进行检测并动态音效标记。
S102,从多轨音频文件中提取声音特征参数,并根据声音特征参数获取非运动声源信号以及运动声源信号。
作为本发明实施例的一个可选实施方式,从多轨音频文件中提取声音特征参数包括:对多轨音频文件中的每一声道进行声音特征检测,得到每一声道的声音特征参数。通过此种方式,可以对每一声道的声音特征均进行区分,方便后续对每一通道的声音特征进行使用。
作为本发明实施例的一个可选实施方式,在本步骤S102之前,或者在步骤S101之前,本发明实施例提供的多声道虚拟声像音视频在线检测方法还包括:获取动态检测的训练集和测试集;利用训练集和测试集生成音频运动声源区别的模型。由此可以建立一个音频运动声源区别的模型用以区分运动声源和非运动声源。具体地,先进行影视作品多轨音频数据集的储备:例如本发明动态检测的多轨音频数据集收集工作可以分为两个部分:第一部分,直接从网络上下载获取运动声源以及非运动声源数据集ESC-50。该数据集共含有50个不同类别2000个样例。第二部分,总结一些5.1影片中的运动声源种类,主要类别分为直升机声、客机声、UFO声、汽车引擎声等,这部分的数据集由自己建立,主要是通过影片截取或者网络搜索获得。该数据集共还有200个样例。以上两部分数据集组成该动态检测的训练集与测试集。当然,还可以采用其他方式获取训练集和测试集,这在本发明中并不做具体限制。进一步,作为本发明实施例的一个可选实施方式,根据声音特征参数获取非运动声源信号以及运动声源信号包括:将声音特征参数代入音频运动声源区别的模型获取非运动声源信号以及运动声源信号。由此可以方便地获取到非运动声源信号以及运动声源信号。
进一步,作为本发明实施例的一个可选实施方式,利用训练集和测试集生成音频运动声源区别的模型包括:对每一声道运动声源的声音特征参数与非运动声源的声音特征参数进行聚类分析,确定运动声源与非运动声源的声音特征参数,确定音频运动声源区别的模型。通过此种方式,可以对每一声道的运动声源均进行区分,方便后续对每一通道的运动声源进行使用。具体地,对所有样本库的音频信号中每一声道进行声音特征检测,其中,声音特征可以主要包含:音高、频谱包络、谱质心、短时能量、短时过零率以及Mel频率到普系数等参数。对所有样本库中的每一声道运动声源的声音特征参数与非运动声源的特征参数进行聚类分析可以采用K-MEANS算法,也可以采取BIRCH算法、DBSCAN算法等。进一步,作为本发明实施例的一个可选实施方式,根据声音特征参数获取非运动声源信号以及运动声源信号包括:将每一声道的声音特征参数代入音频运动声源区别的模型获取每一声道的非运动声源信号以及每一声道的运动声源信号。
S103,对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间。
作为本发明实施例的一个可选实施方式,对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间包括:对已确定的运动声源的声音特征参数进行分析,将不同声道间的相近时间段内的运动声源声音特征参数进行匹配,确定运动声源在各声道出现的时间先后顺序来判定运动声源的水平运动轨迹以及运动声源的起始运动时间。具体地,针对已确定的运动声源的声音特征参数进行分析,将不同声道间的相近时间段内的运动声源声音特征参数进行匹配,确定运动声源在各声道出现的时间先后顺序来判定运动声源的平面运动轨迹以及运动声源的运动时间等标记参数,通过此种方式可以准确地确定运动声源的水平运动轨迹以及运动声源的起始运动时间。
S104,利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹。
作为本发明实施例的一个可选实施方式,利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹包括:获取运动时间内的目标声源的模板,对序列图像进行有限个连续区域的分割,通过图像处理特征提取算法进行目标声源提取与连续时间段内的目标声源跟踪,确定目标声源的垂直上下空间的运动轨迹。具体地,根据动态检测中运动声源的运动时间,利用基于区域的多类目标识别与分割算法:首先得到运动时间内的目标模板,然后在对序列图像进行有限个连续区域的分割,再运用相关图像处理特征提取算法进行提取目标与连续时间段内的目标跟踪,从而确定目标声源垂直面上下的运动轨迹。通过此种方式可以准确地确定目标声源的垂直上下空间的运动轨迹。
S105,利用运动声源的水平运动轨迹、运动声源的起始运动时间以及运动声源的垂直上下空间的运动轨迹在多轨音频文件中添加运动声源的标注文件。
具体地,在多声道音频文件中添加一组标记文件,主要标记识别的运动声源的运动时间、三维运动轨迹、运动声源的声压级等参数。
由此可见,通过本发明实施例提供的多声道虚拟声像音视频在线检测方法,可以针对多声道音频信号进行动态声源检测,并进行相应参数标记;而视频画面检测则是通过音频信号动态声源检测的参数标记进行动态声源物体在画面中的检测,确定动态声源在上下空间的运动轨迹,音视频检测参数有效的结合,能更好地解决其在三维声重放中三维声像空间解析不够等缺陷,从而可以为后续对影视作品中虚拟声像生成算法的实现,提供前期的准备。
以下提供本发明的一种多声道虚拟声像音视频在线检测方法的一种具体实现方式,但本发明并不局限于此,参见图2,本发明提供的一种多声道虚拟声像音视频在线检测方法的具体实现,包括:获取影视作品多轨音视频,提取多轨音频文件和多帧视频文件;从多轨音频文件中提取声音特征参数(例如音高、谱质心、短时能量、短时过零率等),并根据声音特征参数获取非运动声源信号以及运动声源信号;对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源声音特征参数(例如声压级等声音特征参数),标记运动声源的起始运动时间;利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法(即提取图像参数)进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹;利用运动声源的水平运动轨迹以及运动声源声音特征参数、运动声源的起始运动时间以及运动声源的垂直上下空间的运动轨迹在多轨音频文件中添加运动声源的标注文件。由此可以针对多声道音频信号进行动态声源检测,并进行相应参数标记;而视频画面检测则是通过音频信号动态声源检测的参数标记进行动态声源物体在画面中的检测,确定动态声源在上下空间的运动轨迹,音视频检测参数有效的结合,能更好地解决其在三维声重放中三维声像空间解析不够等缺陷,从而可以为后续对影视作品中虚拟声像生成算法的实现,提供前期的准备。
图3示出了本发明实施例提供的多声道虚拟声像音视频在线检测装置的结构示意图,本发明实施例提供的多声道虚拟声像音视频在线检测装置应用上述方法,以下仅对本发明实施例提供的多声道虚拟声像音视频在线检测装置的结构进行简要说明,其他未尽事宜,参考上述多声道虚拟声像音视频在线检测方法的相关描述,参见图3,本发明实施例提供的多声道虚拟声像音视频在线检测装置,包括:
提取模块301,用于获取影视作品多轨音视频,提取多轨音频文件和多帧视频文件;
获取模块302,用于从多轨音频文件中提取声音特征参数,并根据声音特征参数获取非运动声源信号以及运动声源信号;
标记模块303,用于对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间;
计算模块304,用于利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹;
添加模块305,用于利用运动声源的水平运动轨迹、运动声源的起始运动时间以及运动声源的垂直上下空间的运动轨迹在多轨音频文件中添加运动声源的标注文件。
由此可见,通过本发明实施例提供的多声道虚拟声像音视频在线检测装置,可以针对多声道音频信号进行动态声源检测,并进行相应参数标记;而视频画面检测则是通过音频信号动态声源检测的参数标记进行动态声源物体在画面中的检测,确定动态声源在上下空间的运动轨迹,音视频检测参数有效的结合,能更好地解决其在三维声重放中三维声像空间解析不够等缺陷,从而可以为后续对影视作品中虚拟声像生成算法的实现,提供前期的准备。
作为本发明实施例提供的一种可选实施方式,多声道虚拟声像音视频在线检测装置还包括:模型生成模块306;模型生成模块306,用于获取动态检测的训练集和测试集;利用训练集和测试集生成音频运动声源区别的模型。由此可以建立一个音频运动声源区别的模型用以区分运动声源和非运动声源。
作为本发明实施例提供的一种可选实施方式,模型生成模块306通过如下方式利用训练集和测试集生成音频运动声源区别的模型:模型生成模块306,具体用于对每一声道运动声源的声音特征参数与非运动声源的声音特征参数进行聚类分析,确定运动声源与非运动声源的声音特征参数,确定音频运动声源区别的模型。通过此种方式,可以对每一声道的运动声源均进行区分,方便后续对每一通道的运动声源进行使用。
作为本发明实施例提供的一种可选实施方式,获取模块302通过如下方式根据声音特征参数获取非运动声源信号以及运动声源信号:获取模块302,具体用于将声音特征参数代入音频运动声源区别的模型获取非运动声源信号以及运动声源信号。由此可以方便地获取到非运动声源信号以及运动声源信号。
作为本发明实施例提供的一种可选实施方式,获取模块302通过如下方式从多轨音频文件中提取声音特征参数:获取模块302,具体用于对多轨音频文件中的每一声道进行声音特征检测,得到每一声道的声音特征参数。通过此种方式,可以对每一声道的声音特征均进行区分,方便后续对每一通道的声音特征进行使用。
作为本发明实施例提供的一种可选实施方式,标记模块303通过如下方式对运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间:标记模块303,具体用于对已确定的运动声源的声音特征参数进行分析,将不同声道间的相近时间段内的运动声源声音特征参数进行匹配,确定运动声源在各声道出现的时间先后顺序来判定运动声源的水平运动轨迹以及运动声源的起始运动时间。通过此种方式可以准确地确定运动声源的水平运动轨迹以及运动声源的起始运动时间。
作为本发明实施例提供的一种可选实施方式,计算模块304通过如下方式利用运动声源的起始运动时间以及多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹:计算模块304,具体用于获取运动时间内的目标声源的模板,对序列图像进行有限个连续区域的分割,通过图像处理特征提取算法进行目标声源提取与连续时间段内的目标声源跟踪,确定目标声源的垂直上下空间的运动轨迹。通过此种方式可以准确地确定目标声源的垂直上下空间的运动轨迹。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种多声道虚拟声像音视频在线检测方法,其特征在于,包括:
获取影视作品多轨音视频,提取多轨音频文件和多帧视频文件;
从所述多轨音频文件中提取声音特征参数,并根据所述声音特征参数获取非运动声源信号以及运动声源信号;
对所述运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间;
利用所述运动声源的起始运动时间以及所述多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹;
利用所述运动声源的水平运动轨迹、所述运动声源的起始运动时间以及所述运动声源的垂直上下空间的运动轨迹在所述多轨音频文件中添加运动声源的标注文件。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取动态检测的训练集和测试集;
利用所述训练集和所述测试集生成音频运动声源区别的模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述训练集和所述测试集生成音频运动声源区别的模型包括:
对每一声道运动声源的声音特征参数与非运动声源的声音特征参数进行聚类分析,确定运动声源与非运动声源的声音特征参数,确定所述音频运动声源区别的模型。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述声音特征参数获取非运动声源信号以及运动声源信号包括:
将所述声音特征参数代入所述音频运动声源区别的模型获取所述非运动声源信号以及所述运动声源信号。
5.根据权利要求1所述的方法,其特征在于,所述从所述多轨音频文件中提取声音特征参数包括:
对所述多轨音频文件中的每一声道进行声音特征检测,得到每一声道的声音特征参数。
6.根据权利要求1所述的方法,其特征在于,所述对所述运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间包括:
对已确定的运动声源的声音特征参数进行分析,将不同声道间的相近时间段内的运动声源声音特征参数进行匹配,确定运动声源在各声道出现的时间先后顺序来判定所述运动声源的水平运动轨迹以及所述运动声源的起始运动时间。
7.根据权利要求1所述的方法,其特征在于,所述利用所述运动声源的起始运动时间以及所述多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹包括:
获取运动时间内的目标声源的模板,对序列图像进行有限个连续区域的分割,通过图像处理特征提取算法进行目标声源提取与连续时间段内的目标声源跟踪,确定所述目标声源的垂直上下空间的运动轨迹。
8.一种多声道虚拟声像音视频在线检测装置,其特征在于,包括:
提取模块,用于获取影视作品多轨音视频,提取多轨音频文件和多帧视频文件;
获取模块,用于从所述多轨音频文件中提取声音特征参数,并根据所述声音特征参数获取非运动声源信号以及运动声源信号;
标记模块,用于对所述运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间;
计算模块,用于利用所述运动声源的起始运动时间以及所述多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹;
添加模块,用于利用所述运动声源的水平运动轨迹、所述运动声源的起始运动时间以及所述运动声源的垂直上下空间的运动轨迹在所述多轨音频文件中添加运动声源的标注文件。
9.根据权利要求8所述的装置,其特征在于,还包括:模型生成模块;
所述模型生成模块,用于获取动态检测的训练集和测试集;利用所述训练集和所述测试集生成音频运动声源区别的模型。
10.根据权利要求9所述的装置,其特征在于,所述模型生成模块通过如下方式利用所述训练集和所述测试集生成音频运动声源区别的模型:
所述模型生成模块,具体用于对每一声道运动声源的声音特征参数与非运动声源的声音特征参数进行聚类分析,确定运动声源与非运动声源的声音特征参数,确定所述音频运动声源区别的模型。
11.根据权利要求9或10所述的装置,其特征在于,所述获取模块通过如下方式根据所述声音特征参数获取非运动声源信号以及运动声源信号:
所述获取模块,具体用于将所述声音特征参数代入所述音频运动声源区别的模型获取所述非运动声源信号以及所述运动声源信号。
12.根据权利要求8所述的装置,其特征在于,所述获取模块通过如下方式从所述多轨音频文件中提取声音特征参数:
所述获取模块,具体用于对所述多轨音频文件中的每一声道进行声音特征检测,得到每一声道的声音特征参数。
13.根据权利要求8所述的装置,其特征在于,所述标记模块通过如下方式对所述运动声源信号利用各通道运动声源的声音特征参数进行匹配,标记运动声源的水平运动轨迹以及运动声源的起始运动时间:
所述标记模块,具体用于对已确定的运动声源的声音特征参数进行分析,将不同声道间的相近时间段内的运动声源声音特征参数进行匹配,确定运动声源在各声道出现的时间先后顺序来判定所述运动声源的水平运动轨迹以及所述运动声源的起始运动时间。
14.根据权利要求8所述的装置,其特征在于,所述计算模块通过如下方式利用所述运动声源的起始运动时间以及所述多帧视频文件通过基于区域的多类目标识别与分割算法进行计算,追踪目标声源,并计算运动声源的垂直上下空间的运动轨迹:
所述计算模块,具体用于获取运动时间内的目标声源的模板,对序列图像进行有限个连续区域的分割,通过图像处理特征提取算法进行目标声源提取与连续时间段内的目标声源跟踪,确定所述目标声源的垂直上下空间的运动轨迹。
CN201811266490.4A 2018-10-29 2018-10-29 一种多声道虚拟声像音视频在线检测方法及装置 Active CN109089112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811266490.4A CN109089112B (zh) 2018-10-29 2018-10-29 一种多声道虚拟声像音视频在线检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811266490.4A CN109089112B (zh) 2018-10-29 2018-10-29 一种多声道虚拟声像音视频在线检测方法及装置

Publications (2)

Publication Number Publication Date
CN109089112A CN109089112A (zh) 2018-12-25
CN109089112B true CN109089112B (zh) 2019-12-27

Family

ID=64844263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811266490.4A Active CN109089112B (zh) 2018-10-29 2018-10-29 一种多声道虚拟声像音视频在线检测方法及装置

Country Status (1)

Country Link
CN (1) CN109089112B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174959B (zh) * 2022-06-21 2024-01-30 咪咕文化科技有限公司 视频3d音效设置方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100551087C (zh) * 2004-11-30 2009-10-14 南京Lg新港显示有限公司 数字电视接收机的声像同步测试方法及其装置
CN104125534B (zh) * 2013-07-18 2017-01-11 中国传媒大学 一种多声道音频同步录制及播出方法以及相应的系统
CN108683909B (zh) * 2018-07-12 2020-07-07 北京理工大学 Vr音视频整体用户体验质量评估方法

Also Published As

Publication number Publication date
CN109089112A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
Chung et al. Out of time: automated lip sync in the wild
CN108307229B (zh) 一种影音数据的处理方法及设备
CN113691836B (zh) 视频模板生成方法、视频生成方法、装置和电子设备
RU2637989C2 (ru) Способ и устройство для идентификации целевого объекта на изображении
US9076065B1 (en) Detecting objects in images
JP2004229283A (ja) ニュースビデオにおいてニュース司会者の遷移を識別する方法
CN102087704A (zh) 信息处理装置、信息处理方法和程序
US9773058B2 (en) Methods and systems for arranging and searching a database of media content recordings
Bredin et al. Improving speaker diarization of tv series using talking-face detection and clustering
CN110348392B (zh) 车辆匹配方法及设备
US9390170B2 (en) Methods and systems for arranging and searching a database of media content recordings
CN110505498A (zh) 视频的处理、播放方法、装置及计算机可读介质
CN109089112B (zh) 一种多声道虚拟声像音视频在线检测方法及装置
JP7204786B2 (ja) 視覚的検索方法、装置、コンピュータ機器及び記憶媒体
CN113992973B (zh) 视频摘要生成方法、装置、电子设备和存储介质
Fuentes et al. Urban sound & sight: Dataset and benchmark for audio-visual urban scene understanding
Kannao et al. Segmenting with style: detecting program and story boundaries in TV news broadcast videos
CN110874554A (zh) 动作识别方法、终端设备、服务器、系统及存储介质
CN111178266B (zh) 一种生成人脸关键点的方法及装置
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质
Yang et al. Automated extraction of lecture outlines from lecture videos
Gurban et al. Multimodal speaker localization in a probabilistic framework
CN115810209A (zh) 一种基于多模态特征融合网络的说话人识别方法和装置
CN113299276B (zh) 多人多语种识别和翻译方法与装置
CN101826092A (zh) 基于序列仿真技术的图像搜索引擎

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant