CN106100771B - 一种双向时延检测方法及装置 - Google Patents

一种双向时延检测方法及装置 Download PDF

Info

Publication number
CN106100771B
CN106100771B CN201610429658.3A CN201610429658A CN106100771B CN 106100771 B CN106100771 B CN 106100771B CN 201610429658 A CN201610429658 A CN 201610429658A CN 106100771 B CN106100771 B CN 106100771B
Authority
CN
China
Prior art keywords
signal
frame
time delay
characteristic parameter
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610429658.3A
Other languages
English (en)
Other versions
CN106100771A (zh
Inventor
修平平
刘焕
鄢仁祥
曹李军
周秋芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Keda Technology Co Ltd
Original Assignee
Suzhou Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Keda Technology Co Ltd filed Critical Suzhou Keda Technology Co Ltd
Priority to CN201610429658.3A priority Critical patent/CN106100771B/zh
Publication of CN106100771A publication Critical patent/CN106100771A/zh
Application granted granted Critical
Publication of CN106100771B publication Critical patent/CN106100771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/364Delay profiles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Stereophonic System (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)

Abstract

本发明公开了一种双向时延检测方法及装置,该方法包括:对采集信号分帧;计算第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数与第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数的差方和;第一预定信号帧为第一信号在预定时刻的信号帧,第二预定信号帧为第二信号在预定时刻对应的信号帧之后的第M个信号帧;依次循环从第一预定信号帧的下一帧开始,计算第一信号特征参数和第二信号特征参数的差方和,循环次数至少为最大正时延帧数与最大负时延帧数之和;获取差方和中的最小值及其对应的起始帧的序号;根据起始帧的序号计算时延值。可以在设备使用过程中实时检测时延现象;同时既可以实现正时延的检测,也可以实现负时延的检测。

Description

一种双向时延检测方法及装置
技术领域
本发明涉及语音信号处理领域,具体涉及一种双向时延检测方法及装置。
背景技术
在许多音频设备,例如视频会议系统中,会出现时延大、时延不稳定、甚至出现负时延现象,这使得远近端信号无法对齐,从而无法更好地进行回波抵消处理。导致语音信号出现时延情况的因素大致可以分成四类:一是语音播放设备自身的时延,例如视频会议系统中电视的时延,有的电视时延可达上百毫秒甚至几百毫秒,设置还有时延飘逸现象;二是语音采集设备与语音播放设备之间的时延,例如在视频会议系统中由于语音采集和播放不在同一个线程,同时还有线程调度、处理速度等因素的影响,使得时延不稳定;三是语音采集设备端的环境变化,例如语音通过空气传播至语音采集设备的时延,人说话的同时走动或移动麦克风对时延的影响等;四是语音播放设备如扬声器播放出来的声音被麦克风拾取后要发回语音采集设备处,使得说话人能听到自己的声音,若将此发回的语音信号作为参考信号,则出现了采集信号在前、参考信号在后的负时延现象。
现有的时延检测方法有很多,如脉冲法在本地终端预设脉冲,并通过本地播放端播放,再通过本地采集端采集,从而获取时延,此外还有互相关法、自适应滤波法等。
脉冲法虽简单,但只可在语音设备对通前进行时延估计,不能在其使用过程中实时检测时延漂移现象;互相关法受背景噪声及混响影响较大;而自适应滤波法,随着时延增大,其滤波器长度越长,收敛速度越慢,且只能求正时延值,对于既有正时延又有负时延的情况,则需要用两套滤波器进行双向滤波,检测算法较为复杂,不适合实时处理。
发明内容
本发明要解决的技术问题在于克服现有技术中不能实时检测时延情况、不能同时求取正时延和负时延的缺陷。
为此,本发明提供一种双向时延检测方法,包括如下步骤:分别采集来自不同信号端的第一信号和第二信号,并对其分帧;计算所述第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数,计算所述第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数,计算所述第一信号特征参数和所述第二信号特征参数的差方和;所述第一预定信号帧为所述第一信号在预定时刻的信号帧,所述第二预定信号帧为所述第二信号在所述预定时刻对应的信号帧之后的第M个信号帧,所述M为自然数;依次循环从第一预定信号帧的下一帧开始计算预设帧数的第一信号特征参数,计算所述第一信号特征参数和所述第二信号特征参数的差方和;循环次数至少为最大正时延帧数与最大负时延帧数之和;获取所述差方和中的最小值;获取所述最小值对应的所述第一信号的起始帧的序号;根据所述起始帧的序号计算时延值。
优选地,所述M为最大正时延帧数或最大负时延帧数中的任一者。
优选地,对所述第一信号和所述第二信号分帧时,相邻帧重叠。
优选地,所述最大正时延帧数的计算公式为其中,M+为最大正时延帧数,T+为最大正时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算;所述最大负时延帧数的计算公式为其中,M-为最大负时延帧数,T-为最大负时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算。
优选地,所述计算所述第一信号特征参数和所述第二信号特征参数的差方和的公式为其中,k为所述第一信号的起始帧的序号,N为预设帧数;xi为所述第一信号从起始帧开始的第i个信号帧的第一信号特征参数;yi为所述第二信号从第二预定信号帧开始的第i个信号帧的第二信号特征参数。
优选地,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数的类型包括线性预测倒谱系数LPCC、美尔倒谱系数MFCC、线性预测美尔倒谱系数LPCMCC中的任一者。
优选地,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数为线性预测美尔倒谱系数LPCMCC;所述计算所述第一信号特征参数和所述第二信号特征参数的差方和的公式为其中,k为所述第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为所述第一信号的从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
优选地,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数为线性预测美尔倒谱系数LPCMCC;所述计算所述第一信号特征参数和所述第二信号特征参数的差方和的步骤还包括:计算所述第二信号从第二预定信号帧开始的预设帧数的方差,其计算公式为其中,N为预设帧数,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC;所述计算所述第一信号特征参数和所述第二信号特征参数的差方和的公式为
其中,k为所述第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为所述第一信号从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
优选地,所述根据所述起始帧的序号计算时延值的步骤包括:判断所述最小值是否大于预定阈值;若大于,则将所述第二预定信号帧向后移动一帧,重新获取差方和中的最小值。
优选地,所述所述根据所述起始帧的序号计算时延值的公式为
其中,Y为所述差方和中的最小值对应的所述第一信号的起始帧的序号,Y0为第二预定信号帧的序号;fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数。
相应地,本发明提供一种双向时延检测装置,包括:采集分帧单元,用于分别采集来自不同信号端的第一信号和第二信号,并对其分帧;差方和计算单元,用于计算所述第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数,计算所述第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数,计算所述第一信号特征参数和所述第二信号特征参数的差方和;所述第一预定信号帧为所述第一信号在预定时刻的信号帧,所述第二预定信号帧为所述第二信号在所述预定时刻对应的信号帧之后的第M个信号帧,所述M为自然数;所述差方和计算单元,还用于依次循环从第一预定信号帧的下一帧开始计算预设帧数的第一信号特征参数,计算所述第一信号特征参数和所述第二信号特征参数的差方和;循环次数至少为最大正时延帧数与最大负时延帧数之和;最小值获取单元,用于获取所述差方和中的最小值;序号获取单元,用于获取所述最小值对应的所述第一信号的起始帧的序号;时延计算单元,用于根据所述起始帧的序号计算时延值。
优选地,所述M为最大正时延帧数或最大负时延帧数中的任一者。
优选地,所述采集分帧单元对所述第一信号和所述第二信号分帧时,相邻帧重叠。
优选地,所述装置包括:最大正时延帧数计算单元,用于计算最大正时延帧数,其计算公式为其中,M+为最大正时延帧数,T+为最大正时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算;最大负时延帧数计算单元,用于计算最大负时延帧数,其计算公式为其中,M-为最大负时延帧数,T-为最大负时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算。
优选地,所述差方和计算单元计算所述第一信号特征参数和所述第二信号特征参数的差方和的公式为其中,k为所述第一信号的起始帧的序号,N为预设帧数;xi为所述第一信号从起始帧开始的第i个信号帧的第一信号特征参数;yi为所述第二信号从第二预定信号帧开始的第i个信号帧的第二信号特征参数。
优选地,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数的类型包括线性预测倒谱系数LPCC、美尔倒谱系数MFCC、线性预测美尔倒谱系数LPCMCC中的任一者。
优选地,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数为线性预测美尔倒谱系数LPCMCC;所述差方和计算单元包括:第一计算子单元,用于计算所述第一信号特征参数和所述第二信号特征参数的差方和,其计算公式为其中,k为所述第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为所述第一信号的从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
优选地,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数为线性预测美尔倒谱系数LPCMCC;所述差方和计算单元包括:第二计算子单元,用于计算所述第二信号从第二预定信号帧开始的预设帧数的方差,其计算公式为其中,N为预设帧数,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC;第三计算子单元,用于计算所述第一信号特征参数和所述第二信号特征参数的差方和,其计算公式为其中,k为所述第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为所述第一信号从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
优选地,所述装置还包括:判断单元,用于在所述根据所述起始帧的序号计算时延值的步骤之前,判断所述最小值是否大于预定阈值;移动单元,用于若所述最小值大于预定阈值,则将所述第二预定信号帧向后移动一帧,重新获取差方和中的最小值。
优选地,所述时延计算单元计算根据所述起始帧的序号计算时延值的公式为其中,Y为所述差方和中的最小值对应的所述第一信号的起始帧的序号,Y0为第二预定信号帧的序号;fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数。
本发明技术方案,具有如下优点:
1.本发明实施例提供的双向时延检测方法及装置,对第一信号和第二信号分帧后,计算第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数,计算第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数,计算第一信号特征参数和第二信号特征参数的差方和;然后依次循环从第一预定信号帧的下一帧开始计算预设帧数的第一信号特征参数,并计算第一信号特征参数和第二信号特征参数的差方和,循环次数至少为最大正时延帧数与最大负时延帧数之和,获取差方和中的最小值及该最小值对应的第一信号的起始帧的序号,根据该起始帧的序号计算时延值。该方法可以在设备使用过程中实时检测时延现象;同时,由于第一预定信号帧为第一信号在预定时刻的信号帧,而第二预定信号帧为第二信号为第二信号在预定时刻对应的信号帧之后的第M个信号帧,第一信号的起始帧移动的次数为“最大正时延帧数+最大负时延帧数”次,因此既可以实现正时延的检测,也可以实现负时延的检测。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本发明实施例1中双向时延检测方法的流程图;
图1B至图1E以及图1H为本发明实施例1中双向时延检测方法计算差方和的示意图;
图1F和图1G为本发明实施例1中双向时延检测方法帧重叠及时延值计算的示意图;
图2A为本发明实施例2中双向时延检测装置的原理框图;
图2B为本发明实施例2中双向时延检测装置的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供一种双向时延检测方法,如图1A所示,包括如下步骤:
S10:分别采集来自不同信号端的第一信号和第二信号,并对其分帧。
S20:计算第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数,计算第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数,计算第一信号特征参数和第二信号特征参数的差方和;第一预定信号帧为第一信号在预定时刻的信号帧,第二预定信号帧为第二信号在预定时刻对应的信号帧之后的第M个信号帧,M为自然数。
该第一信号特征参数和第二信号特征参数是能够识别信号特征的信号参数。
例如,预定时刻如图1B至图1E中所示,第一预定信号帧为预定时刻的信号帧,第二预定信号帧为预定时刻开始的第3帧,即M为3帧。选定预定帧数为3帧,则分别计算黑色方框所示的对应信号帧的差方和。
S30:依次循环从第一预定信号帧的下一帧开始计算预设帧数的第一信号特征参数,计算第一信号特征参数和第二信号特征参数的差方和;循环次数至少为最大正时延帧数与最大负时延帧数之和。
例如,如图1C所示,在图1B所示的步骤之后,将第一信号的起始帧向后移动一帧,再分别计算黑色方框所示的对应信号帧的差方和。
如图1E所示,最大负时延帧数为2帧,最大正时延帧数为3帧,则需执行该步骤S30的次数至少为5次。
S40:获取差方和中的最小值。
该步骤可以为依次执行步骤S30,每次执行完步骤S30后便获取差方和中的最小值;或者也可以先执行步骤S30“最大正时延帧数+最大负时延帧数”次后,再从所有的差方和结果中获取最小值。
S50:获取最小值对应的第一信号的起始帧的序号。
S60:根据起始帧的序号计算时延值。
本发明实施例提供的上述双向时延检测方法,对第一信号和第二信号分帧后,计算第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数,计算第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数,计算第一信号特征参数和第二信号特征参数的差方和;然后依次循环从第一预定信号帧的下一帧开始计算预设帧数的第一信号特征参数,并计算第一信号特征参数和第二信号特征参数的差方和,循环次数至少为最大正时延帧数与最大负时延帧数之和,获取差方和中的最小值及该最小值对应的第一信号的起始帧的序号,根据该起始帧的序号计算时延值。该方法可以在设备使用过程中实时检测时延现象;同时,由于第一预定信号帧为第一信号在预定时刻的信号帧,而第二预定信号帧为第二信号为第二信号在预定时刻对应的信号帧之后的第M个信号帧,第一信号的起始帧移动的次数为“最大正时延帧数+最大负时延帧数”次,因此既可以实现正时延的检测,也可以实现负时延的检测。
优选地,M为最大正时延帧数或最大负时延帧数中的任一者。显然,图1B至图1E所示中,M为2帧。
需要补充说明的是,从预定时刻开始,第一信号的信号帧从0开始顺序编号,第二信号的信号帧从0开始顺序编号。
优选地,对第一信号和第二信号分帧时,相邻帧重叠。相邻帧重叠使帧与帧之间特征参数过渡平缓,不会丢失边缘信号,从而提高时延检测的准确性。假设每帧有5个采样点,其重叠方式如图1F所示,相邻帧重叠2个点,不重叠的有3个点。
通常情况下,相邻帧重叠的点数与不重叠的点数相同。例如每帧有512个采样点,重叠的点数为256个点,不重叠的点数也是256个点。
进一步地,最大正时延帧数的计算公式为其中,M+为最大正时延帧数,T+为最大正时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算。
最大负时延帧数的计算公式为其中,M-为最大负时延帧数,T-为最大负时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算。
例如,沿用上例,若最大正时延的时长为5ms,1ms的采样点数为3个点,则5ms内的采样点数为15点,如相邻帧不重叠的点数为3。由即可得最大正时延帧数为5帧。
需要补充说明的是,上述最大正时延的时长和最大负时延的时长可以是根据系统特性或经验预先估计的,也可以是在系统的设备对通之前通过其他方法测得的,本发明对此不做限定。
作为本实施例的一种优选实施方式,计算第一信号特征参数和第二信号特征参数的差方和的公式为其中,k为第一信号的起始帧的序号,N为预设帧数;xi为第一信号从起始帧开始的第i个信号帧的第一信号特征参数;yi为第二信号从第二预定信号帧开始的第i个信号帧的第二信号特征参数。
如图1C所示,预设帧数为3帧,当前第一信号的起始帧的序号为1,则差方和为其中,x1至x3分别为图中所示第一信号的第1帧至第3帧的第一信号特征参数,y1至y3分别为图中所示第二信号的第2帧至第4帧的第一信号特征参数。
优选地,第一信号和第二信号为语音信号,第一信号特征参数和第二信号特征参数的类型包括线性预测倒谱系数LPCC、美尔倒谱系数MFCC、线性预测美尔倒谱系数LPCMCC中的任一者。LPCC计算量较小,MFCC基于人耳听觉机理,抗噪性好,稳定性高。LPCMCC融合了LPCC和MFCC的优点,此外,由于LPCMCC计算过程无需进行傅立叶变换,因此算法复杂度低。
作为本实施例的一种优选实施方式,第一信号和第二信号为语音信号,第一信号特征参数和第二信号特征参数为线性预测美尔倒谱系数LPCMCC。采用LPCMCC作为第一信号特征参数和第二信号特征参数,算法复杂度低,计算量较小、抗噪性好、稳定性高。
对于每帧语音信号,其包括了多个采样点,LPCMCC采用了前面时刻的采样点预测后面时刻的采样点,因此,每一帧语音信号都可以有多个LPCMCC,其数量为预测的阶数。
进一步地,计算第一信号特征参数和第二信号特征参数的差方和的公式为其中,k为第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为第一信号的从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
以图1D计算差方和的步骤为例,假设LPCMCC的阶数为4,即每帧有4个LPCMCC,则其详细步骤如图1H所示。先求取第一信号和第二信号如图所示的三帧的第1个LPCMCC的差方和,再求取如图所示的三帧的第2个LPCMCC的差方和,求取如图所示的三帧的第3个LPCMCC的差方和,求取如图所示的三帧的第4个LPCMCC的差方和,最后将上述四个差方和相加作为图1D所示步骤所求取的差方和结果。
作为上述进一步优选实施方式的并列优选实施方式,计算第一信号特征参数和第二信号特征参数的差方和的步骤还包括:计算第二信号从第二预定信号帧开始的预设帧数的方差,其计算公式为其中,N为预设帧数,y(i,j)为第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
计算第一信号特征参数和第二信号特征参数的差方和的公式为
其中,k为第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为第一信号从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
仍旧以图1D计算差方和的步骤为例,假设LPCMCC的阶数为4,即每帧有4个LPCMCC,则其详细步骤如图1H所示。求取第二信号如图所示的三帧的第1个LPCMCC的方差,求取第一信号和第二信号如图所示的三帧的第1个LPCMCC的协方差,用该协方差除以该方差;求取第二信号如图所示的三帧的第2个LPCMCC的方差,求取第一信号和第二信号如图所示的三帧的第2个LPCMCC的协方差,用该协方差除以该方差;求取第二信号如图所示的三帧的第3个LPCMCC的方差,求取第一信号和第二信号如图所示的三帧的第3个LPCMCC的协方差,用该协方差除以该方差;求取第二信号如图所示的三帧的第4个LPCMCC的方差,求取第一信号和第二信号如图所示的三帧的第4个LPCMCC的协方差,用该协方差除以该方差。最后将上述四个比值相加,作为图1D所示步骤所求取的差方和结果。
上述求取第一信号和第二信号每帧的预定位置的LPCMCC的差方和之后,再比上第二信号每帧的该预定位置的LPCMCC的方差,通过第二信号的LPCMCC的方差对第一信号和第二信号LPCMCC的协方差进行归一化,一方面减小计算结果的数量级,另一方面提高算法的准确性。
作为本实施例的一种优选实施方式,根据起始帧的序号计算时延值的步骤之前,还包括:判断最小值是否大于预定阈值;若大于,则将第二预定信号帧向后移动一帧,通过图1A所示方法,重新获取差方和中的最小值。
差方和的最小值大于预定阈值的情况,有可能是系统出现异常所导致的,在此情况下计算所得的时延值往往不准确,因需要排除该异常值,以提高计算结果的准确性。
作为本实施例的一种优选实施方式,根据起始帧的序号计算时延值的公式为其中,Y为差方和中的最小值对应的第一信号的起始帧的序号,Y0为第二预定信号帧的序号;fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数。
Y-Y0表示时延的帧数,帧重叠情况下,时延的点数为(Y-Y0)*fnot-overlap,乘以采样间隔时间即可得上述时延值计算公式。时延值Tdelay的单位为ms,当Tdelay为正值时表示正时延,当Tdelay为负值时表示负时延。
如图1F所示,假设差方和最小值对应的起始帧的序号为5,第二预定信号帧的序号为2,则时延的帧数为3。相邻帧重叠点数为2,不重叠点数为3,则时延的点数为9。假设1ms的采样点数为3个点,则时延值为3ms,即时延3ms,为正时延。
负时延的情形如图1G所示,假设差方和最小值对应的起始帧的序号为0,第二预定信号帧的序号为2,则时延的帧数为-2。相邻帧重叠点数为2,不重叠点数为3,则时延的点数为-6。假设1ms的采样点数为3个点,则时延值为-2ms,即时延2ms,为负时延。
实施例2
本实施例提供一种双向时延检测装置,包括采集分帧单元10、差方和计算单元20、最小值获取单元40、序号获取单元50和时延计算单元60。
采集分帧单元10,用于分别采集来自不同信号端的第一信号和第二信号,并对其分帧。
差方和计算单元20,用于计算第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数,计算第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数,计算第一信号特征参数和第二信号特征参数的差方和;第一预定信号帧为第一信号在预定时刻的信号帧,第二预定信号帧为第二信号在预定时刻对应的信号帧之后的第M个信号帧,M为自然数。
该差方和计算单元20,还用于依次循环从第一预定信号帧的下一帧开始计算预设帧数的第一信号特征参数,计算第一信号特征参数和第二信号特征参数的差方和;循环次数至少为最大正时延帧数与最大负时延帧数之和。
最小值获取单元40,用于获取差方和中的最小值。
序号获取单元50,用于获取最小值对应的第一信号的起始帧的序号。
时延计算单元60,用于根据起始帧的序号计算时延值。
本发明实施例提供的上述双向时延检测装置,通过采集分帧单元对第一信号和第二信号分帧后,采用差方和计算单元计算第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数,计算第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数,计算第一信号特征参数和第二信号特征参数的差方和;然后依次循环从第一预定信号帧的下一帧开始计算预设帧数的第一信号特征参数,并计算第一信号特征参数和第二信号特征参数的差方和,循环次数至少为最大正时延帧数与最大负时延帧数之和,通过最小值获取单元、序号获取单元获取差方和中的最小值及该最小值对应的第一信号的起始帧的序号,通过时延计算单元根据该起始帧的序号计算时延值。该装置可以在设备使用过程中实时检测时延现象;同时,由于第一预定信号帧为第一信号在预定时刻的信号帧,而第二预定信号帧为第二信号为第二信号在预定时刻对应的信号帧之后的第M个信号帧,第一信号的起始帧移动的次数为“最大正时延帧数+最大负时延帧数”次,因此既可以实现正时延的检测,也可以实现负时延的检测。
优选地,M为最大正时延帧数或最大负时延帧数中的任一者。
优选地,采集分帧单元对第一信号和第二信号分帧时,相邻帧重叠。
进一步地,该双向时延检测装置包括最大正时延帧数计算单元70和最大负时延帧数计算单元80。
最大正时延帧数计算单元70,用于计算最大正时延帧数,其计算公式为
其中,M+为最大正时延帧数,T+为最大正时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算。
最大负时延帧数计算单元80,用于计算最大负时延帧数,其计算公式为其中,M-为最大负时延帧数,T-为最大负时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算。
作为本实施例的一种优选实施方式,差方和计算单元20计算第一信号特征参数和第二信号特征参数的差方和的公式为其中,k为第一信号的起始帧的序号,N为预设帧数;xi为第一信号从起始帧开始的第i个信号帧的第一信号特征参数;yi为第二信号从第二预定信号帧开始的第i个信号帧的第二信号特征参数。
优选地,第一信号和第二信号为语音信号,第一信号特征参数和第二信号特征参数的类型包括线性预测倒谱系数LPCC、美尔倒谱系数MFCC、线性预测美尔倒谱系数LPCMCC中的任一者。
作为本实施例的一种优选实施方式,第一信号和第二信号为语音信号,第一信号特征参数和第二信号特征参数为线性预测美尔倒谱系数LPCMCC。
进一步地,差方和计算单元20包括:第一计算子单元21,用于计算第一信号特征参数和第二信号特征参数的差方和,其计算公式为其中,k为第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为第一信号的从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
作为上述进一步优选实施方式的并列优选实施方式,差方和计算单元20包括第二计算子单元22和第三计算子单元23。
第二计算子单元22,用于计算第二信号从第二预定信号帧开始的预设帧数的方差,其计算公式为其中,N为预设帧数,y(i,j)为第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
第三计算子单元23,用于计算第一信号特征参数和第二信号特征参数的差方和,其计算公式为其中,k为第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为第一信号从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
作为本实施例的一种优选实施方式,该双向时延检测装置还包括判断单元90和移动单元100。
判断单元90,用于在根据起始帧的序号计算时延值的步骤之前,判断最小值是否大于预定阈值。
移动单元100,用于若最小值大于预定阈值,则将第二预定信号帧向后移动一帧,重新获取差方和中的最小值。
作为本实施例的一种优选实施方式,时延计算单元60计算根据起始帧的序号计算时延值的公式为其中,Y为差方和中的最小值对应的第一信号的起始帧的序号,Y0为第二预定信号帧的序号;fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (17)

1.一种双向时延检测方法,其特征在于,包括如下步骤:
分别采集来自不同信号端的第一信号和第二信号,并对其分帧;
计算所述第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数,计算所述第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数,计算所述第一信号特征参数和所述第二信号特征参数的差方和;所述第一预定信号帧为所述第一信号在预定时刻的信号帧,所述第二预定信号帧为所述第二信号在所述预定时刻对应的信号帧之后的第M个信号帧,所述M为自然数;
依次循环从第一预定信号帧的下一帧开始计算预设帧数的第一信号特征参数,计算所述第一信号特征参数和所述第二信号特征参数的差方和;循环次数至少为最大正时延帧数与最大负时延帧数之和;
获取所述差方和中的最小值;
获取所述最小值对应的所述第一信号的起始帧的序号;
根据所述起始帧的序号和所述第二预定信号帧的序号计算时延值。
2.根据权利要求1所述的双向时延检测方法,其特征在于,所述M为最大正时延帧数或最大负时延帧数中的任一者。
3.根据权利要求1所述的双向时延检测方法,其特征在于,对所述第一信号和所述第二信号分帧时,相邻帧重叠。
4.根据权利要求2所述的双向时延检测方法,其特征在于,对所述第一信号和所述第二信号分帧时,相邻帧重叠。
5.根据权利要求4所述的双向时延检测方法,其特征在于,所述最大正时延帧数的计算公式为
其中,M+为最大正时延帧数,T+为最大正时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算;
所述最大负时延帧数的计算公式为
其中,M-为最大负时延帧数,T-为最大负时延的时长,其单位为ms,fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数,函数floor表示向下取整运算。
6.根据权利要求1所述的双向时延检测方法,其特征在于,所述计算所述第一信号特征参数和所述第二信号特征参数的差方和的公式为
其中,k为所述第一信号的起始帧的序号,N为预设帧数;xi为所述第一信号从起始帧开始的第i个信号帧的第一信号特征参数;yi为所述第二信号从第二预定信号帧开始的第i个信号帧的第二信号特征参数。
7.根据权利要求1所述的双向时延检测方法,其特征在于,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数的类型包括线性预测倒谱系数LPCC、美尔倒谱系数MFCC、线性预测美尔倒谱系数LPCMCC中的任一者。
8.根据权利要求1所述的双向时延检测方法,其特征在于,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数为线性预测美尔倒谱系数LPCMCC;
所述计算所述第一信号特征参数和所述第二信号特征参数的差方和的公式为
其中,k为所述第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为所述第一信号的从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
9.根据权利要求1所述的双向时延检测方法,其特征在于,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数为线性预测美尔倒谱系数LPCMCC;
所述计算所述第一信号特征参数和所述第二信号特征参数的差方和的步骤还包括:计算所述第二信号从第二预定信号帧开始的预设帧数的方差,其计算公式为
其中,N为预设帧数,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC;
所述计算所述第一信号特征参数和所述第二信号特征参数的差方和的公式为
其中,k为所述第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为所述第一信号从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
10.根据权利要求1所述的双向时延检测方法,其特征在于,所述根据所述起始帧的序号计算时延值的步骤之前,还包括:
判断所述最小值是否大于预定阈值;
若大于,则将所述第二预定信号帧向后移动一帧,重新获取差方和中的最小值。
11.根据权利要求3所述的双向时延检测方法,其特征在于,所述根据所述起始帧的序号计算时延值的公式为
其中,Y为所述差方和中的最小值对应的所述第一信号的起始帧的序号,Y0为第二预定信号帧的序号;fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数。
12.一种双向时延检测装置,其特征在于,包括:
采集分帧单元,用于分别采集来自不同信号端的第一信号和第二信号,并对其分帧;
差方和计算单元,用于计算所述第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数,计算所述第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数,计算所述第一信号特征参数和所述第二信号特征参数的差方和;所述第一预定信号帧为所述第一信号在预定时刻的信号帧,所述第二预定信号帧为所述第二信号在所述预定时刻对应的信号帧之后的第M个信号帧,所述M为自然数;
所述差方和计算单元,还用于依次循环从第一预定信号帧的下一帧开始计算预设帧数的第一信号特征参数,计算所述第一信号特征参数和所述第二信号特征参数的差方和;循环次数至少为最大正时延帧数与最大负时延帧数之和;
最小值获取单元,用于获取所述差方和中的最小值;
序号获取单元,用于获取所述最小值对应的所述第一信号的起始帧的序号;
时延计算单元,用于根据所述起始帧的序号和所述第二预定信号帧的序号计算时延值。
13.根据权利要求12所述的双向时延检测装置,其特征在于,所述采集分帧单元对所述第一信号和所述第二信号分帧时,相邻帧重叠。
14.根据权利要求12所述的双向时延检测装置,其特征在于,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数为线性预测美尔倒谱系数LPCMCC;
所述差方和计算单元包括:第一计算子单元,用于计算所述第一信号特征参数和所述第二信号特征参数的差方和,其计算公式为
其中,k为所述第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为所述第一信号的从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
15.根据权利要求12所述的双向时延检测装置,其特征在于,所述第一信号和所述第二信号为语音信号,所述第一信号特征参数和所述第二信号特征参数为线性预测美尔倒谱系数LPCMCC;
所述差方和计算单元包括:
第二计算子单元,用于计算所述第二信号从第二预定信号帧开始的预设帧数的方差,其计算公式为
其中,N为预设帧数,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC;
第三计算子单元,用于计算所述第一信号特征参数和所述第二信号特征参数的差方和,其计算公式为
其中,k为所述第一信号的起始帧的序号,N为预设帧数,J为线性预测美尔倒谱系数LPCMCC的阶数,x(i,j)为所述第一信号从起始帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC,y(i,j)为所述第二信号从第二预定信号帧开始的第i个信号帧的第j个线性预测美尔倒谱系数LPCMCC。
16.根据权利要求12所述的双向时延检测装置,其特征在于,所述装置还包括:
判断单元,用于在所述根据所述起始帧的序号计算时延值的步骤之前,判断所述最小值是否大于预定阈值;
移动单元,用于若所述最小值大于预定阈值,则将所述第二预定信号帧向后移动一帧,重新获取差方和中的最小值。
17.根据权利要求13所述的双向时延检测装置,其特征在于,所述时延计算单元计算根据所述起始帧的序号计算时延值的公式为
其中,Y为所述差方和中的最小值对应的所述第一信号的起始帧的序号,Y0为第二预定信号帧的序号;fsample为1ms的采样点数,fnot-overlap为相邻帧不重叠的点数。
CN201610429658.3A 2016-06-16 2016-06-16 一种双向时延检测方法及装置 Active CN106100771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610429658.3A CN106100771B (zh) 2016-06-16 2016-06-16 一种双向时延检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610429658.3A CN106100771B (zh) 2016-06-16 2016-06-16 一种双向时延检测方法及装置

Publications (2)

Publication Number Publication Date
CN106100771A CN106100771A (zh) 2016-11-09
CN106100771B true CN106100771B (zh) 2018-07-03

Family

ID=57236769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610429658.3A Active CN106100771B (zh) 2016-06-16 2016-06-16 一种双向时延检测方法及装置

Country Status (1)

Country Link
CN (1) CN106100771B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111262749B (zh) 2018-11-30 2023-05-23 华为技术有限公司 一种检测网络可靠性的方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104810025A (zh) * 2015-03-31 2015-07-29 天翼爱音乐文化科技有限公司 音频相似度检测方法及装置
CN105118516A (zh) * 2015-09-29 2015-12-02 浙江图维电力科技有限公司 基于声音线性预测倒谱系数的工程机械的识别方法
CN105529028A (zh) * 2015-12-09 2016-04-27 百度在线网络技术(北京)有限公司 语音解析方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5053950B2 (ja) * 2008-07-29 2012-10-24 キヤノン株式会社 情報処理方法、情報処理装置、プログラムおよび記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104810025A (zh) * 2015-03-31 2015-07-29 天翼爱音乐文化科技有限公司 音频相似度检测方法及装置
CN105118516A (zh) * 2015-09-29 2015-12-02 浙江图维电力科技有限公司 基于声音线性预测倒谱系数的工程机械的识别方法
CN105529028A (zh) * 2015-12-09 2016-04-27 百度在线网络技术(北京)有限公司 语音解析方法和装置

Also Published As

Publication number Publication date
CN106100771A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN102388416B (zh) 信号处理装置及信号处理方法
US8972255B2 (en) Method and device for classifying background noise contained in an audio signal
US8645130B2 (en) Processing unit, speech recognition apparatus, speech recognition system, speech recognition method, storage medium storing speech recognition program
CN107507625B (zh) 声源距离确定方法及装置
CN106209491B (zh) 一种时延检测方法及装置
EP0692135A1 (en) Method and apparatus for voice-interactive language instruction
CN101114449A (zh) 非特定人孤立词的模型训练方法、识别系统及识别方法
CN109313909A (zh) 评估麦克风阵列一致性的方法、设备、装置和系统
CN109979476A (zh) 一种语音去混响的方法及装置
CN105118522A (zh) 噪声检测方法及装置
Matassoni et al. The DIRHA-GRID corpus: baseline and tools for multi-room distant speech recognition using distributed microphones
Callens et al. Joint blind room acoustic characterization from speech and music signals using convolutional recurrent neural networks
Xiao et al. Beamforming networks using spatial covariance features for far-field speech recognition
CN106100771B (zh) 一种双向时延检测方法及装置
López et al. A universal deep room acoustics estimator
Gamper et al. Predicting word error rate for reverberant speech
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
JP2001520764A (ja) スピーチ分析システム
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
Knorr Reliable voiced/unvoiced decision
Huang Real-time acoustic source localization with passive microphone arrays
Shabtai et al. Towards room-volume classification from reverberant speech using room-volume feature extraction and room-acoustics parameters
CN110265048A (zh) 回声消除方法、装置、设备及存储介质
Krueger et al. Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data.
Leng et al. Selective gammatone filterbank feature for robust sound event recognition.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant