CN107481738B

CN107481738B - 实时音频比对方法及装置

Info

Publication number: CN107481738B
Application number: CN201710502367.7A
Authority: CN
Inventors: 许钢鸣; 祥祖军; 黄振川
Original assignee: China Central TV Station
Current assignee: China Central TV Station
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2021-06-08
Anticipated expiration: 2037-06-27
Also published as: CN107481738A

Abstract

本发明实施例提供一种实时音频比对方法及装置。该方法包括：获取第一音频信号和第二音频信号；对第一音频信号进行音频处理获得第一音频序列，对第二音频信号进行音频处理获得第二音频序列；根据第一音频序列，确定第一音频信号的第一音频特征值序列；根据第二音频序列，确定第二音频信号的第二音频特征值序列；根据第一音频特征值序列和第二音频特征值序列，确定第一音频信号和第二音频信号的比对位置；从比对位置开始，比对第一音频信号和第二音频信号。本发明实施例结合音频特点，对音频时域、频域数据进行稀疏处理，降低特征值的数据量，以达到实时比对多路信号的目的，同时对比对两端的对齐位置进行实时调整，大大提高了比对的识别准确率。

Description

实时音频比对方法及装置

技术领域

本发明实施例涉及音频内容检测领域，尤其涉及一种实时音频比对方法及装置。

背景技术

广播电视信号在传播过程中，从播出源到播出末级会经过多个的音频设备例如响度控制器，导致电视信号经过不同的音频设备后，存在不同程度的数据丢失，或能量损失。

现有技术通过从广播电视信号的传播系统中采集两路音频信号，并从两路音频信号的初始同步位置进行比对，由于音频信号从播出源到播出末级会经过多个的音频设备，并且网络传输的不稳定性，造成比对结果的精确度较低。

发明内容

本发明实施例提供一种实时音频比对方法及装置，以提高音频比对结果的精确度。

本发明实施例的一个方面是提供一种实时音频比对方法，包括：

获取第一音频信号和第二音频信号；

对所述第一音频信号进行音频处理获得第一音频序列，对所述第二音频信号进行音频处理获得第二音频序列；

根据所述第一音频序列，确定所述第一音频信号的第一音频特征值序列，所述第一音频特征值序列包括多个第一音频特征值；

根据所述第二音频序列，确定所述第二音频信号的第二音频特征值序列，所述第二音频特征值序列包括多个第二音频特征值；

根据所述第一音频特征值序列和所述第二音频特征值序列，确定所述第一音频信号和所述第二音频信号的比对位置；

从所述比对位置开始，比对所述第一音频信号和所述第二音频信号。

本发明实施例的另一个方面是提供一种实时音频比对装置，包括：

获取模块，用于获取第一音频信号和第二音频信号；对所述第一音频信号进行音频处理获得第一音频序列，对所述第二音频信号进行音频处理获得第二音频序列；

确定模块，用于根据所述第一音频序列，确定所述第一音频信号的第一音频特征值序列，所述第一音频特征值序列包括多个第一音频特征值；根据所述第二音频序列，确定所述第二音频信号的第二音频特征值序列，所述第二音频特征值序列包括多个第二音频特征值；根据所述第一音频特征值序列和所述第二音频特征值序列，确定所述第一音频信号和所述第二音频信号的比对位置；

比对模块，用于从所述比对位置开始，比对所述第一音频信号和所述第二音频信号。

本发明实施例提供的实时音频比对方法及装置，通过结合音频特点，对音频时域、频域数据进行稀疏处理，降低特征值的数据量，以达到实时比对多路信号的目的，同时对比对两端的对齐位置进行实时调整，大大提高了比对的识别准确率。

附图说明

图1为本发明实施例提供的实时音频比对方法流程图；

图2为本发明实施例提供的另一实时音频比对系统的结构图；

图3为本发明实施例提供的另一实时音频比对方法流程图；

图4为本发明实施例提供的实时音频比对装置的结构图。

具体实施方式

图1为本发明实施例提供的实时音频比对方法流程图。本发明实施例针对现有技术通过从广播电视信号的传播系统中采集两路音频信号，并从两路音频信号的初始同步位置进行比对，由于音频信号从播出源到播出末级会经过多个的音频设备，并且网络传输的不稳定性，造成比对结果的精确度较低，提供了实时音频比对方法，该方法具体步骤如下：

步骤S101、获取第一音频信号和第二音频信号。

本实施例以广播电视信号的传播系统中采集的两路音频信号为例，实现对该两路音频信号的比对，为了区分该两路音频信号，本实施例以第一音频信号和第二音频信号加以区分，或者，也可将第一音频信号记为源端信号，将第二音频信号记为目标端信号，再或者，还可以将第二音频信号记为源端信号，将第一音频信号记为目标端信号，本实施例不加以具体限定。

步骤S102、对所述第一音频信号进行音频处理获得第一音频序列，对所述第二音频信号进行音频处理获得第二音频序列。

在本实施例中，第一音频信号和第二音频信号可以是模拟的连续信号，为了实现精确比对，将模拟的连续信号转换为时间离散、取值离散的序列，具体的，对所述第一音频信号进行音频处理获得第一音频序列，对所述第二音频信号进行音频处理获得第二音频序列，可选的，该音频处理包括抽样、量化、编码。

步骤S103、根据所述第一音频序列，确定所述第一音频信号的第一音频特征值序列，所述第一音频特征值序列包括多个第一音频特征值。

步骤S104、根据所述第二音频序列，确定所述第二音频信号的第二音频特征值序列，所述第二音频特征值序列包括多个第二音频特征值。

假设将第一音频信号和第二音频信号作为进行比对的两端音频时域信号，具体的，对比对两端音频时域信号进行归一化操作，得到尺度一致的音频时域原始数据；根据所述第一音频序列，确定所述第一音频信号的第一音频特征值序列，以及根据所述第二音频序列，确定所述第二音频信号的第二音频特征值序列的方法一致，以其中一个为例，具体过程可以如下：

根据视频帧起始位置对音频时域信号插入序号，对时域原始数据进行有规则的切分，对已切分好的音频时域数据加窗后进行短时傅立叶变换，得到短时频域能量值；对短时频域能量值进行特定频点的加三角窗求窗内均值操作，得到稀疏的频域能量值；将每一时间窗内稀疏的频域能量值后续一定范围内的数据进行求和操作，将此作为这一个时间窗内的音频特征值，每个时间窗内的音频特征值构成一个音频特征值序列。

步骤S105、根据所述第一音频特征值序列和所述第二音频特征值序列，确定所述第一音频信号和所述第二音频信号的比对位置。

步骤S106、从所述比对位置开始，比对所述第一音频信号和所述第二音频信号。

对比对两端的音频特征值进行相关性匹配，大致找到比对两端音频的对齐位置，并实时调整对齐位置以达到精确对齐，若多次调整对齐位置仍然无法匹配，则认为比对两端的音频不一致，若比对目标与源端的音频在某一对齐位置达到匹配成功，则认为比对双方音频一致。

本发明实施例结合音频特点，对音频时域、频域数据进行稀疏处理，降低特征值的数据量，以达到实时比对多路信号的目的，同时对比对两端的对齐位置进行实时调整，大大提高了比对的识别准确率。

图2为本发明实施例提供的另一实时音频比对系统的结构图。如图2所示的实时音频比对系统包括信号采集模块21、信号处理模块22、特征值提取模块23、音频比对模块24、控制单元25。其中，实时音频比对系统比对的两路音频信号分别来自两个不同的数字分量串行接口(Serial DigitalInterface，简称SDI)，例如SDI1和SDI2，假定第一音频信号来自SDI1，第二音频信号来自SDI2。

在实时音频比对系统中，信号采集模块21主要用于解嵌SDI信号，并计算音频帧计数值。信号处理模块22主要用于对音视频信号进行处理，生成音频脉冲编码调制(PulseCode Modulation,PCM)信号，音频PCM信号作为提取特征值的基础数据。特征值提取模块23用于根据音频PCM信号根据音频PCM生成音视频特征值。音频比对模块24用于根据音视频特征值进行音视频同步，比对并产生报警。控制单元25用于各个模块参数配置，与功能控制。

结合图2，本实施例提供的实时音频比对方法包括如下几个步骤1-4：

步骤1、信号采集

在信号采集环节，信号采集模块21对SDI1和SDI2输入的音频信号进行解嵌，根据行场同步产生视频帧计数，将其按一定格式嵌入每帧视频数据，同时将其按固定的40ms时钟周期嵌入音频PCM中。此视频帧计数均用于后期比对环节的音频同步。

步骤2、信号处理

在信号处理环节，信号处理模块22生成音频PCM数据，即生成来自SDI1的第一音频信号的音频PCM数据，以及生成来自SDI2的第二音频信号的音频PCM数据。

步骤3、特征值提取

音频特征值提取包含如下步骤31-35：

步骤31、对比对两端的信号分别进行采样，对采样后的音频时域数据进行归一化操作，得到同一振幅尺度的音频采样序列。

步骤32、在无效声道加入序号，该序号为依据SDI信号特点，在得到每个视频帧时插入到音频无效声道内。依据此序号，对音频原始数据进行切分，得到同一时间尺度的音频时域序列。

步骤33、对已切分好的音频时域数据加汉明窗，进行短时傅立叶变换，得到短时频域能量值序列。

步骤34、对短时能量值序列进行以特定频点为中心的加三角窗滤波操作，得到稀疏的频域能量值。

步骤35、将每一时间窗内稀疏的频域能量值后续一定范围内的数据进行求和操作，将此作为该时间窗内的音频特征值。对两路信号的某一组音频特征值进行相关性匹配计算，判断两帧数据相似采用欧式距离，计算公式如下(1)所示：

其中f代表频点序号，N代表频点总数，src代表源端音频信号在f频点位置的能量大小，target表示目标端音频信号在f频点位置的能量大小。distance表示两组音频特征值的距离。

步骤4、特征值比对

两路信号的音频特征值的实时比算法包括如下：

预比对：将两组需要比对的音频信号划分为源端信号和目标端的信号，在源端信号所产生的特征值序列中搜索目标端信号所产生的特征值序列。具体方法为在目标特征值中选取一个序列(50个特征值)，用此序列中的第一个特征值与源端序列逐一比较，以第一个符合匹配标准的帧(计算距离在门限2000以下)作为源端特征值基准帧，此时作为评分标准的score加1，再选取目标序列中的第二个特征值在基准帧序号(－50～+100)内搜索是否有匹配的帧，若有则score加1，以此类推，若score大于15则可以认为目标序列已经大致匹配到源端序列。

周期序列比对：在匹配完第一个序列之后，目标序列选取与第一个序列紧邻的一个序列(50个特征值)，源端序列的基准帧选取第一次匹配成功的基准帧在时间方向向后跨过一个目标序列长度的距离(50个特征值)，以此帧作为新的基准帧，选择此基准帧序号(－50～100)内的特征值作为新的源端序列。同步骤1，目标序列在源端序列中匹配到一个特征值score加1，若score大于15则认为，目标序列与源端序列是匹配的，否则是不匹配的。

若在某一时间段内有超过三个序列无法匹配成功，则退出周期序列比对循环，转而进行预比对。

图3为本发明实施例提供的另一实时音频比对方法流程图。音频比对结果的判断机制为：记录每一帧音频比对结果，并计算最新N个结果的平均值(N为报警门限)；若平均值大于相似度门限，则执行快速同步；若快速同步成功，则继续原来的帧差进行比对；若快速同步失败，则上报平台比对异常；若平均值小于相似度门限；当前状态为比对一致，则继续原来的帧差进行比对；当前状态为比对一致，上报平台比对异常恢复。

图4为本发明实施例提供的实时音频比对装置的结构图。本发明实施例提供的实时音频比对装置可以执行实时音频比对方法实施例提供的处理流程，如图4所示，实时音频比对装置包括：获取模块41、确定模块42、比对模块43，其中，获取模块41用于获取第一音频信号和第二音频信号；对所述第一音频信号进行音频处理获得第一音频序列，对所述第二音频信号进行音频处理获得第二音频序列；确定模块42用于根据所述第一音频序列，确定所述第一音频信号的第一音频特征值序列，所述第一音频特征值序列包括多个第一音频特征值；根据所述第二音频序列，确定所述第二音频信号的第二音频特征值序列，所述第二音频特征值序列包括多个第二音频特征值；根据所述第一音频特征值序列和所述第二音频特征值序列，确定所述第一音频信号和所述第二音频信号的比对位置；比对模块43用于从所述比对位置开始，比对所述第一音频信号和所述第二音频信号。

本发明实施例通过结合音频特点，对音频时域、频域数据进行稀疏处理，降低特征值的数据量，以达到实时比对多路信号的目的，同时对比对两端的对齐位置进行实时调整，大大提高了比对的识别准确率。

在上述实施例的基础上，获取模块41具体用于对所述第一音频信号进行抽样、量化、编码，获得第一音频序列；对所述第二音频信号进行抽样、量化、编码，获得第二音频序列。

确定模块42具体用于对所述第一音频序列进行分段，获得多个第一音频子序列；对每个第一音频子序列进行傅里叶变换，获得频域能量值；根据所述频域能量值，确定所述第一音频子序列对应的第一音频特征值；其中，每个第一音频子序列对应一个第一音频特征值。

另外，确定模块42具体用于对所述第二音频序列进行分段，获得多个第二音频子序列；对每个第二音频子序列进行傅里叶变换，获得频域能量值；根据所述频域能量值，确定所述第二音频子序列对应的第二音频特征值；其中，每个第二音频子序列对应一个第二音频特征值。

此外，获取模块41还用于从所述第二音频特征值序列中获取一个包括预设数量的第二音频特征值的第二子序列；确定模块42具体用于将所述第二子序列中的一个第二音频特征值与所述第一音频特征值序列中的第一音频特征值逐一进行比较，确定所述第一音频特征值序列中与所述第二子序列中的一个第二音频特征值匹配的第一个第一音频特征值；以所述第一个第一音频特征值对应的所述第一音频信号的位置作为所述比对位置。

本发明实施例提供的实时音频比对装置可以具体用于执行上述图1所提供的方法实施例，具体功能此处不再赘述。

综上所述，本发明实施例通过结合音频特点，对音频时域、频域数据进行稀疏处理，降低特征值的数据量，以达到实时比对多路信号的目的，同时对比对两端的对齐位置进行实时调整，大大提高了比对的识别准确率。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种实时音频比对方法，其特征在于，包括：

获取第一音频信号和第二音频信号；

从所述比对位置开始，比对所述第一音频信号和所述第二音频信号；

所述对所述第一音频信号进行音频处理获得第一音频序列，对所述第二音频信号进行音频处理获得第二音频序列，包括：

对所述第一音频信号进行抽样、量化、编码，获得第一音频序列；

对所述第二音频信号进行抽样、量化、编码，获得第二音频序列；

所述根据所述第一音频序列，确定所述第一音频信号的第一音频特征值序列，包括：

对所述第一音频序列进行分段，获得多个第一音频子序列；

对每个第一音频子序列进行傅里叶变换，获得频域能量值；

根据所述频域能量值，确定所述第一音频子序列对应的第一音频特征值；

其中，每个第一音频子序列对应一个第一音频特征值；

所述根据所述第二音频序列，确定所述第二音频信号的第二音频特征值序列，包括：

对所述第二音频序列进行分段，获得多个第二音频子序列；

对每个第二音频子序列进行傅里叶变换，获得频域能量值；

根据所述频域能量值，确定所述第二音频子序列对应的第二音频特征值；

其中，每个第二音频子序列对应一个第二音频特征值；

其中，所述比对所述第一音频信号和所述第二音频信号包括：

根据第一音频信号所产生的特征值序列和第二音频信号所产生的特征值序列进行预比对；

根据第一音频信号所产生的特征值序列和第二音频信号所产生的特征值序列进行周期序列比对；

若在所述周期序列比对的过程中，在某一时间段内有超过三个特征值序列无法匹配成功，则退出周期序列比对循环，进行预比对。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频特征值序列和所述第二音频特征值序列，确定所述第一音频信号和所述第二音频信号的比对位置，包括：

从所述第二音频特征值序列中获取一个包括预设数量的第二音频特征值的第二子序列；

将所述第二子序列中的一个第二音频特征值与所述第一音频特征值序列中的第一音频特征值逐一进行比较，确定所述第一音频特征值序列中与所述第二子序列中的一个第二音频特征值匹配的第一个第一音频特征值；

以所述第一个第一音频特征值对应的所述第一音频信号的位置作为所述比对位置。

3.一种实时音频比对装置，其特征在于，包括：

比对模块，用于从所述比对位置开始，比对所述第一音频信号和所述第二音频信号；

所述获取模块具体用于对所述第一音频信号进行抽样、量化、编码，获得第一音频序列；

所述确定模块具体用于对所述第一音频序列进行分段，获得多个第一音频子序列；对每个第一音频子序列进行傅里叶变换，获得频域能量值；根据所述频域能量值，确定所述第一音频子序列对应的第一音频特征值；其中，每个第一音频子序列对应一个第一音频特征值；

所述确定模块具体用于对所述第二音频序列进行分段，获得多个第二音频子序列；对每个第二音频子序列进行傅里叶变换，获得频域能量值；根据所述频域能量值，确定所述第二音频子序列对应的第二音频特征值；其中，每个第二音频子序列对应一个第二音频特征值；

其中，

所述确定模块具体用于：根据第一音频信号所产生的特征值序列和第二音频信号所产生的特征值序列进行预比对；根据第一音频信号所产生的特征值序列和第二音频信号所产生的特征值序列进行周期序列比对；若在所述周期序列比对的过程中，在某一时间段内有超过三个特征值序列无法匹配成功，则退出周期序列比对循环，进行预比对。

4.根据权利要求3所述的实时音频比对装置，其特征在于，所述获取模块还用于从所述第二音频特征值序列中获取一个包括预设数量的第二音频特征值的第二子序列；

所述确定模块具体用于将所述第二子序列中的一个第二音频特征值与所述第一音频特征值序列中的第一音频特征值逐一进行比较，确定所述第一音频特征值序列中与所述第二子序列中的一个第二音频特征值匹配的第一个第一音频特征值；以所述第一个第一音频特征值对应的所述第一音频信号的位置作为所述比对位置。