CN116230005A - 一种远程语音信号延迟估计方法 - Google Patents

一种远程语音信号延迟估计方法 Download PDF

Info

Publication number
CN116230005A
CN116230005A CN202310201095.2A CN202310201095A CN116230005A CN 116230005 A CN116230005 A CN 116230005A CN 202310201095 A CN202310201095 A CN 202310201095A CN 116230005 A CN116230005 A CN 116230005A
Authority
CN
China
Prior art keywords
signal
remote
representing
voice signal
order correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310201095.2A
Other languages
English (en)
Inventor
刘建洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Dongmak Information Technology Co ltd
Original Assignee
Changsha Dongmak Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Dongmak Information Technology Co ltd filed Critical Changsha Dongmak Information Technology Co ltd
Priority to CN202310201095.2A priority Critical patent/CN116230005A/zh
Publication of CN116230005A publication Critical patent/CN116230005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及信号延迟估计的技术领域,揭露了一种远程语音信号延迟估计方法,所述方法包括:对预处理后的远程语音信号进行频谱细化处理,得到语音信号对应的频谱细化表示;对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算,并构建得到远程语音信号的二阶相关性函数;对构建的二阶相关性函数进行优化求解,得到远程语音信号相较于参考语音信号的延迟估计。本发明基于频谱权值函数对所采集语音信号进行加权调零处理,并基于参考语音信号的信号长度对远程语音信号进行插值填充处理,提高频谱的计算精度,实现更为精准的延迟估计,并基于二阶相关性结果以及对应的梯度,采用迭代优化算法快速求解估计得到延迟。

Description

一种远程语音信号延迟估计方法
技术领域
本发明涉及信号延迟估计的技术领域,尤其涉及一种远程语音信号延迟估计方法。
背景技术
在音频信号超远程传输过程中,经常存音频的时延对齐问题。特别对于同一语音信号,由于传输媒介等因素差异,导致不同接受源得到的语音信号存在一定的时延差异。远程语音信号的时延差异,一方面增加了管理和维护的复杂性,另一方面对工作时效性产生较大障碍。因此,非常有必要对远程语音信号进行时延的自动估计,针对该问题,本发明提出一种远程语音信号延迟估计方法。
发明内容
有鉴于此,本发明提供一种远程语音信号延迟估计方法,目的在于:1)由于不同麦克风所接收语音信号之间存在时延,且由于设备因素以及环境噪音因素,导致不同麦克风所接收信号的信号长度可能存在不一致的现象,其中远程语音信号的信号长度可能较短,主要是由于远程麦克风距离讲话人距离较远,可能存在较大噪音,因此本发明基于频谱权值函数对所采集语音信号进行加权调零处理,并基于参考语音信号的信号长度对远程语音信号进行插值填充处理,提高频谱的计算精度,实现更为精准的延迟估计;2)基于参考语音信号以及远程语音信号的频谱细化表示的相关性构建得到二阶相关性函数,进而基于二阶相关性结果以及对应的梯度,采用迭代优化算法求解得到信号采样结果求解点,并将求解结果转换为延迟估计结果,实现快速求解远程语音信号相较于参考语音信号的延迟估计。
实现上述目的,本发明提供的一种远程语音信号延迟估计方法,包括以下步骤:
S1:采集远程语音信号与参考语音信号,并对采集的语音信号进行预处理,其中远程语音信号为远处麦克风所接收信号的数字化表示,参考语音信号为目标麦克风所接收信号的数字化表示;
S2:分别对预处理后的远程语音信号以及参考语音信号进行频谱细化处理,得到对应的频谱细化表示;
S3:计算参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性,并基于二阶相关性计算结果构建得到远程语音信号的二阶相关性函数;
S4:对构建的二阶相关性函数进行优化求解,得到远程语音信号相较于参考语音信号的延迟估计。
作为本发明的进一步改进方法:
可选地,所述S1步骤中采集远程语音信号与参考语音信号,包括:分别采集远程语音信号
Figure SMS_1
以及参考语音信号/>
Figure SMS_2
,其中远程语音信号为远处麦克风所接收信号的数字化表示,参考语音信号为目标麦克风所接收信号的数字化表示,用于得到远处麦克风所接收信号相较于目标麦克风所接收信号的延迟估计,在本发明实施例中,将参考语音信号设置为距离讲话人最近的麦克风所接收的信号;所采集语音信号的格式为:
Figure SMS_3
;
Figure SMS_4
;
其中:
Figure SMS_5
表示参考语音信号/>
Figure SMS_6
中第n个离散信号点的信号值,/>
Figure SMS_7
表示参考语音信号中离散信号点的总数;
Figure SMS_8
表示远程语音信号/>
Figure SMS_9
中第n个离散信号点的信号值,/>
Figure SMS_10
表示远程语音信号中离散信号点的总数,其中/>
Figure SMS_11
可选地,所述S1步骤中对所采集的语音信号进行预处理,包括:
对所采集的远程语音信号以及参考语音信号进行预处理,得到预处理后的语音信号,其中预处理流程为:
S11:构建长度为
Figure SMS_12
的窗函数/>
Figure SMS_13
Figure SMS_14
;
其中:
Figure SMS_15
是适用于语音信号/>
Figure SMS_16
的窗函数,/>
Figure SMS_17
,/>
Figure SMS_18
表示语音信号/>
Figure SMS_19
中离散信号点总数;
S12:利用窗函数
Figure SMS_20
对语音信号/>
Figure SMS_21
中的离散信号点信号值/>
Figure SMS_22
进行加窗处理,其中/>
Figure SMS_23
,加窗处理公式为:
Figure SMS_24
;
其中:
Figure SMS_25
表示语音信号/>
Figure SMS_26
中第n个离散信号点的信号值加窗处理结果。
可选地,所述S2步骤中对预处理后的远程语音信号以及参考语音信号进行频谱细化处理,包括:
对预处理后的语音信号进行频谱细化处理,得到语音信号对应的频谱细化表示,其中频谱细化处理流程为:
S21:构建频谱权值函数:
Figure SMS_27
;
其中:
Figure SMS_28
为频谱权值函数;
Figure SMS_29
表示虚数单位,/>
Figure SMS_30
S22:计算频谱权值函数的共轭复数
Figure SMS_31
:/>
Figure SMS_32
;
S23:基于频谱权值函数的共轭复数
Figure SMS_33
,对预处理后语音信号的每个离散信号点进行加权以及调零处理:
Figure SMS_34
;
其中:
Figure SMS_35
表示语音信号/>
Figure SMS_36
中第n个离散信号点的信号值加权调零处理结果,
Figure SMS_37
;S24:分别对频谱权值函数以及语音信号处理结果进行傅里叶变换处理:
Figure SMS_38
;
Figure SMS_39
;
其中:
Figure SMS_40
表示傅里叶变换的点数;
Figure SMS_41
表示语音信号/>
Figure SMS_42
的频谱表示结果;
Figure SMS_43
表示频谱权值函数的频谱表示结果;
并对两者的频谱表示乘积进行傅里叶逆变换处理:
Figure SMS_44
;
其中:
Figure SMS_45
表示语音信号/>
Figure SMS_46
的傅里叶逆变换处理结果;
S25:截取傅里叶逆变换处理结果与共轭复数
Figure SMS_47
作为语音信号/>
Figure SMS_48
的频谱细化表示:
Figure SMS_49
;
其中:
Figure SMS_50
表示参考语音信号的频谱细化表示,/>
Figure SMS_51
表示远程语音信号的频谱细化表示。
可选地,所述S3步骤中对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算,包括:
对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算,其中二阶相关性计算公式为:
Figure SMS_52
;
其中:
Figure SMS_53
表示/>
Figure SMS_54
的共轭复数;
Figure SMS_55
表示参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性。
可选地,所述S3步骤中构建得到远程语音信号的二阶相关性函数,包括:
构建得到远程语音信号的二阶相关性函数:
Figure SMS_56
;
其中:
Figure SMS_57
表示远程语音信号的二阶相关性函数。
可选地,所述S4步骤中对构建的二阶相关性函数进行优化求解,包括:
对所构建的二阶相关性函数进行优化求解,得到二阶相关性函数的信号采样结果求解点
Figure SMS_58
,其中/>
Figure SMS_59
,二阶相关性函数的优化求解流程为:
S41:随机生成信号采样点数作为初始解
Figure SMS_60
,其中/>
Figure SMS_61
S42:设定算法的当前迭代次数为h,h的初始值为1,最大值为Max,则第h次迭代的解为
Figure SMS_62
S43:计算第h次迭代的二阶相关性函数梯度值
Figure SMS_63
Figure SMS_64
;
其中:
Figure SMS_65
表示梯度算子;
S44:更新迭代解:
Figure SMS_66
;
Figure SMS_67
;
Figure SMS_68
;
其中:
I为单位矩阵;
Figure SMS_69
表示单位矩阵;
Figure SMS_70
,/>
Figure SMS_71
;
Figure SMS_72
,/>
Figure SMS_73
;
Figure SMS_74
表示第h次迭代的迭代系数;
T表示转置;
Figure SMS_75
,则终止迭代,将/>
Figure SMS_76
作为信号采样结果求解点/>
Figure SMS_77
,否则令h=h+1,返回步骤S43。
可选地,所述S4步骤中将优化求解结果转换为延迟估计结果,得到远程语音信号相较于参考语音信号的延迟估计,包括:计算
Figure SMS_78
,其中/>
Figure SMS_79
表示麦克风所接收信号中相邻离散信号点之间的时间间隔,/>
Figure SMS_80
表示远程语音信号相较于参考语音信号的延迟估计结果。/>
为了解决上述问题,本发明提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;
通信接口,实现电子设备通信;及处理器,执行所述存储器中存储的指令以实现上述所述的远程语音信号延迟估计方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的远程语音信号延迟估计方法。
相对于现有技术,本发明提出一种远程语音信号延迟估计方法,该技术具有以下优势:
首先,本方案提出一种延迟估计精度提高方法,对预处理后的语音信号进行频谱细化处理,得到语音信号对应的频谱细化表示,其中频谱细化处理流程为:构建频谱权值函数:
Figure SMS_81
;
其中:
Figure SMS_82
为频谱权值函数;/>
Figure SMS_83
表示虚数单位,/>
Figure SMS_84
;计算频谱权值函数的共轭复数/>
Figure SMS_85
:/>
Figure SMS_86
;
基于频谱权值函数的共轭复数
Figure SMS_87
,对预处理后语音信号的每个离散信号点进行加权以及调零处理:
Figure SMS_88
;
其中:
Figure SMS_89
表示语音信号/>
Figure SMS_90
中第n个离散信号点的信号值加权调零处理结果;分别对频谱权值函数以及语音信号处理结果进行傅里叶变换处理:
Figure SMS_91
;
Figure SMS_92
;
其中:
Figure SMS_93
表示傅里叶变换的点数;/>
Figure SMS_94
表示语音信号/>
Figure SMS_95
的频谱表示结果;/>
Figure SMS_96
表示频谱权值函数的频谱表示结果;并对两者的频谱表示乘积进行傅里叶逆变换处理:
Figure SMS_97
;
其中:
Figure SMS_98
表示语音信号/>
Figure SMS_99
的傅里叶逆变换处理结果;截取傅里叶逆变换处理结果与共轭复数/>
Figure SMS_100
作为语音信号/>
Figure SMS_101
的频谱细化表示:/>
Figure SMS_102
;
其中:
Figure SMS_103
表示参考语音信号的频谱细化表示,/>
Figure SMS_104
表示远程语音信号的频谱细化表示。由于不同麦克风所接收语音信号之间存在时延,且由于设备因素以及环境噪音因素,导致不同麦克风所接收信号的信号长度可能存在不一致的现象,其中远程语音信号的信号长度可能较短,主要是由于远程麦克风距离讲话人距离较远,可能存在较大噪音,因此本发明基于频谱权值函数对所采集语音信号进行加权调零处理,并基于参考语音信号的信号长度对远程语音信号进行插值填充处理,提高频谱的计算精度,实现更为精准的延迟估计。
同时,本方案提出一种快速求解延迟估计结果的方法,通过对所构建的二阶相关性函数进行优化求解,得到二阶相关性函数的信号采样结果求解
Figure SMS_105
点,其中/>
Figure SMS_106
,二阶相关性函数的优化求解流程为:随机生成信号采样点数作为初始解/>
Figure SMS_107
,其中/>
Figure SMS_108
;设定算法的当前迭代次数为h,h的初始值为1,最大值为Max,则第h次迭代的解为/>
Figure SMS_109
;计算第h次迭代的二阶相关性函数梯度值/>
Figure SMS_110
Figure SMS_111
;
其中:
Figure SMS_112
表示梯度算子;更新迭代解:
Figure SMS_113
;
Figure SMS_114
Figure SMS_115
;
其中:I为单位矩阵;
Figure SMS_117
表示单位矩阵;/>
Figure SMS_121
,/>
Figure SMS_124
Figure SMS_119
,/>
Figure SMS_122
;/>
Figure SMS_125
表示第h次迭代的迭代系数;T表示转置;若
Figure SMS_127
,则终止迭代,将/>
Figure SMS_116
作为信号采样结果求解点/>
Figure SMS_120
,否则令h=h+1,返回上述步骤。计算
Figure SMS_123
,其中/>
Figure SMS_126
表示麦克风所接收信号中相邻离散信号点之间的时间间隔,/>
Figure SMS_118
表示远程语音信号相较于参考语音信号的延迟估计结果。本方案基于参考语音信号以及远程语音信号的频谱细化表示的相关性构建得到二阶相关性函数,进而基于二阶相关性结果以及对应的梯度,采用迭代优化算法求解得到信号采样结果求解点,并将求解结果转换为延迟估计结果,实现快速求解远程语音信号相较于参考语音信号的延迟估计。
附图说明
图1为本发明一实施例提供的一种远程语音信号延迟估计方法的流程示意图;
图2为本发明一实施例提供的实现远程语音信号延迟估计方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种远程语音信号延迟估计方法。所述远程语音信号延迟估计方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述远程语音信号延迟估计方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
实施例1
S1:采集远程语音信号与参考语音信号,并对采集的语音信号进行预处理,其中远程语音信号为远处麦克风所接收信号的数字化表示,参考语音信号为目标麦克风所接收信号的数字化表示。
所述S1步骤中采集远程语音信号与参考语音信号,包括:
分别采集远程语音信号
Figure SMS_128
以及参考语音信号/>
Figure SMS_129
,其中远程语音信号为远处麦克风所接收信号的数字化表示,参考语音信号为目标麦克风所接收信号的数字化表示,用于得到远处麦克风所接收信号相较于目标麦克风所接收信号的延迟估计,在本发明实施例中,将参考语音信号设置为距离讲话人最近的麦克风所接收的信号;
所采集语音信号的格式为:
Figure SMS_130
;
Figure SMS_131
;
其中:
Figure SMS_132
表示参考语音信号/>
Figure SMS_133
中第n个离散信号点的信号值,/>
Figure SMS_134
表示参考语音信号中离散信号点的总数;
Figure SMS_135
表示远程语音信号/>
Figure SMS_136
中第n个离散信号点的信号值,/>
Figure SMS_137
表示远程语音信号中离散信号点的总数,其中/>
Figure SMS_138
。所述S1步骤中对所采集的语音信号进行预处理,包括:
对所采集的远程语音信号以及参考语音信号进行预处理,得到预处理后的语音信号,其中预处理流程为:
S11:构建长度为
Figure SMS_139
的窗函数/>
Figure SMS_140
Figure SMS_141
;
其中:
Figure SMS_142
是适用于语音信号/>
Figure SMS_143
的窗函数,/>
Figure SMS_144
,/>
Figure SMS_145
表示语音信号/>
Figure SMS_146
中离散信号点总数;
S12:利用窗函数
Figure SMS_147
对语音信号/>
Figure SMS_148
中的离散信号点信号值/>
Figure SMS_149
进行加窗处理,其中/>
Figure SMS_150
,加窗处理公式为:
Figure SMS_151
;
其中:
Figure SMS_152
表示语音信号/>
Figure SMS_153
中第n个离散信号点的信号值加窗处理结果。
S2:分别对预处理后的远程语音信号以及参考语音信号进行频谱细化处理,得到对应的频谱细化表示。
所述S2步骤中对预处理后的远程语音信号以及参考语音信号进行频谱细化处理,包括:
对预处理后的语音信号进行频谱细化处理,得到语音信号对应的频谱细化表示,其中频谱细化处理流程为:
S21:构建频谱权值函数:
Figure SMS_154
;
其中:
Figure SMS_155
为频谱权值函数;
Figure SMS_156
表示虚数单位,/>
Figure SMS_157
S22:计算频谱权值函数的共轭复数
Figure SMS_158
Figure SMS_159
;
S23:基于频谱权值函数的共轭复数
Figure SMS_160
,对预处理后语音信号的每个离散信号点进行加权以及调零处理:
Figure SMS_161
;
其中:
Figure SMS_162
表示语音信号/>
Figure SMS_163
中第n个离散信号点的信号值加权调零处理结果,/>
Figure SMS_164
S24:分别对频谱权值函数以及语音信号处理结果进行傅里叶变换处理:
Figure SMS_165
Figure SMS_166
;
其中:
Figure SMS_167
表示傅里叶变换的点数;
Figure SMS_168
表示语音信号/>
Figure SMS_169
的频谱表示结果;
Figure SMS_170
表示频谱权值函数的频谱表示结果;
并对两者的频谱表示乘积进行傅里叶逆变换处理:
Figure SMS_171
;
其中:
Figure SMS_172
表示语音信号/>
Figure SMS_173
的傅里叶逆变换处理结果;
S25:截取傅里叶逆变换处理结果与共轭复数
Figure SMS_174
作为语音信号/>
Figure SMS_175
的频谱细化表示:/>
Figure SMS_176
;
其中:
Figure SMS_177
表示参考语音信号的频谱细化表示,/>
Figure SMS_178
表示远程语音信号的频谱细化表示。
S3:计算参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性,并基于二阶相关性计算结果构建得到远程语音信号的二阶相关性函数。
所述S3步骤中对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算,包括:
对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算,其中二阶相关性计算公式为:
Figure SMS_179
;
其中:
Figure SMS_180
表示/>
Figure SMS_181
的共轭复数;
Figure SMS_182
表示参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性。
所述S3步骤中构建得到远程语音信号的二阶相关性函数,包括:
构建得到远程语音信号的二阶相关性函数:
Figure SMS_183
;
其中:
Figure SMS_184
表示远程语音信号的二阶相关性函数。
S4:对构建的二阶相关性函数进行优化求解,得到远程语音信号相较于参考语音信号的延迟估计。
所述S4步骤中对构建的二阶相关性函数进行优化求解,包括:
对所构建的二阶相关性函数进行优化求解,得到二阶相关性函数的信号采样结果求解点
Figure SMS_185
,其中/>
Figure SMS_186
,二阶相关性函数的优化求解流程为:
S41:随机生成信号采样点数作为初始解
Figure SMS_187
,其中/>
Figure SMS_188
S42:设定算法的当前迭代次数为h,h的初始值为1,最大值为Max,则第h次迭代的解为
Figure SMS_189
;S43:计算第h次迭代的二阶相关性函数梯度值/>
Figure SMS_190
Figure SMS_191
;
其中:
Figure SMS_192
表示梯度算子;
S44:更新迭代解:
Figure SMS_193
;
Figure SMS_194
;
Figure SMS_195
;
其中:
I为单位矩阵;
Figure SMS_196
表示单位矩阵;
Figure SMS_197
,/>
Figure SMS_198
;
Figure SMS_199
,/>
Figure SMS_200
;
Figure SMS_201
表示第h次迭代的迭代系数;
T表示转置;
Figure SMS_202
,则终止迭代,将/>
Figure SMS_203
作为信号采样结果求解点/>
Figure SMS_204
,否则令h=h+1,返回步骤S43。
所述S4步骤中将优化求解结果转换为延迟估计结果,得到远程语音信号相较于参考语音信号的延迟估计,包括:
计算
Figure SMS_205
,其中/>
Figure SMS_206
表示麦克风所接收信号中相邻离散信号点之间的时间间隔,/>
Figure SMS_207
表示远程语音信号相较于参考语音信号的延迟估计结果。
实施例2:
如图2所示,是本发明一实施例提供的实现远程语音信号延迟估计方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信接口13和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(用于实现基于远程语音信号延迟估计的程序12等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述通信接口13可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接,并实现电子设备内部组件之间的连接通信。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图2仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图2示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
采集远程语音信号与参考语音信号,并对采集的语音信号进行预处理;
分别对预处理后的远程语音信号以及参考语音信号进行频谱细化处理,得到对应的频谱细化表示;
计算参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性,并基于二阶相关性计算结果构建得到远程语音信号的二阶相关性函数;
对构建的二阶相关性函数进行优化求解,得到远程语音信号相较于参考语音信号的延迟估计。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图2对应实施例中相关步骤的描述,在此不赘述。需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种远程语音信号延迟估计方法,其特征在于,所述方法包括:
S1:采集远程语音信号与参考语音信号,并对采集的语音信号进行预处理;
S2:对预处理后的语音信号进行频谱细化处理,得到语音信号对应的频谱细化表示;
S3:对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算,并构建得到远程语音信号的二阶相关性函数;
S4:对构建的二阶相关性函数进行优化求解,得到远程语音信号相较于参考语音信号的延迟估计。
2.如权利要求1所述的一种远程语音信号延迟估计方法,其特征在于,所述S1步骤中采集远程语音信号与参考语音信号,包括:
分别采集远程语音信号
Figure QLYQS_1
以及参考语音信号/>
Figure QLYQS_2
,其中远程语音信号为远处麦克风所接收信号的数字化表示,参考语音信号为目标麦克风所接收信号的数字化表示,用于得到远处麦克风所接收信号相较于目标麦克风所接收信号的延迟估计;
所采集语音信号的格式为:
Figure QLYQS_3
Figure QLYQS_4
其中:
Figure QLYQS_5
表示参考语音信号/>
Figure QLYQS_6
中第n个离散信号点的信号值,/>
Figure QLYQS_7
表示参考语音信号中离散信号点的总数;
Figure QLYQS_8
表示远程语音信号/>
Figure QLYQS_9
中第n个离散信号点的信号值,/>
Figure QLYQS_10
表示远程语音信号中离散信号点的总数,其中/>
Figure QLYQS_11
3.如权利要求2所述的一种远程语音信号延迟估计方法,其特征在于,所述S1步骤中对所采集的语音信号进行预处理,包括:
对所采集的远程语音信号以及参考语音信号进行预处理,得到预处理后的语音信号,其中预处理流程为:
S11:构建长度为
Figure QLYQS_12
的窗函数/>
Figure QLYQS_13
Figure QLYQS_14
其中:
Figure QLYQS_15
是适用于语音信号/>
Figure QLYQS_16
的窗函数,/>
Figure QLYQS_17
,/>
Figure QLYQS_18
表示语音信号/>
Figure QLYQS_19
中离散信号点总数;
S12:利用窗函数
Figure QLYQS_20
对语音信号/>
Figure QLYQS_21
中的离散信号点信号值/>
Figure QLYQS_22
进行加窗处理,其中
Figure QLYQS_23
,加窗处理公式为:
Figure QLYQS_24
其中:
Figure QLYQS_25
表示语音信号/>
Figure QLYQS_26
中第n个离散信号点的信号值加窗处理结果。
4.如权利要求3所述的一种远程语音信号延迟估计方法,其特征在于,所述S2步骤中对预处理后的语音信号进行频谱细化处理,包括:
对预处理后的语音信号进行频谱细化处理,得到语音信号对应的频谱细化表示,其中频谱细化处理流程为:
S21:构建频谱权值函数:
Figure QLYQS_27
其中:
Figure QLYQS_28
为频谱权值函数;
Figure QLYQS_29
表示虚数单位,/>
Figure QLYQS_30
S22:计算频谱权值函数的共轭复数
Figure QLYQS_31
Figure QLYQS_32
S23:基于频谱权值函数的共轭复数
Figure QLYQS_33
,对预处理后语音信号的每个离散信号点进行加权以及调零处理:
Figure QLYQS_34
其中:
Figure QLYQS_35
表示语音信号/>
Figure QLYQS_36
中第n个离散信号点的信号值加权调零处理结果;
S24:分别对频谱权值函数以及语音信号处理结果进行傅里叶变换处理:
Figure QLYQS_37
Figure QLYQS_38
其中:
Figure QLYQS_39
表示傅里叶变换的点数;
Figure QLYQS_40
表示语音信号/>
Figure QLYQS_41
的频谱表示结果;
Figure QLYQS_42
表示频谱权值函数的频谱表示结果;
并对两者的频谱表示乘积进行傅里叶逆变换处理:
Figure QLYQS_43
其中:
Figure QLYQS_44
表示语音信号/>
Figure QLYQS_45
的傅里叶逆变换处理结果;/>
S25:截取傅里叶逆变换处理结果与共轭复数
Figure QLYQS_46
作为语音信号/>
Figure QLYQS_47
的频谱细化表示:
Figure QLYQS_48
其中:
Figure QLYQS_49
表示参考语音信号的频谱细化表示,/>
Figure QLYQS_50
表示远程语音信号的频谱细化表示。
5.如权利要求4所述的一种远程语音信号延迟估计方法,其特征在于,所述S3步骤中对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算,包括:
对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算,其中二阶相关性计算公式为:
Figure QLYQS_51
其中:
Figure QLYQS_52
表示/>
Figure QLYQS_53
的共轭复数;
Figure QLYQS_54
表示参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性。
6.如权利要求1所述的一种远程语音信号延迟估计方法,其特征在于,所述S3步骤中构建得到远程语音信号的二阶相关性函数,包括:
构建得到远程语音信号的二阶相关性函数:
Figure QLYQS_55
其中:
Figure QLYQS_56
表示远程语音信号的二阶相关性函数。
7.如权利要求6所述的一种远程语音信号延迟估计方法,其特征在于,所述S4步骤中对构建的二阶相关性函数进行优化求解,包括:
对所构建的二阶相关性函数进行优化求解,得到二阶相关性函数的信号采样结果求解点
Figure QLYQS_57
,其中/>
Figure QLYQS_58
,二阶相关性函数的优化求解流程为:
S41:随机生成信号采样点数作为初始解
Figure QLYQS_59
,其中/>
Figure QLYQS_60
S42:设定算法的当前迭代次数为h,h的初始值为1,最大值为Max,则第h次迭代的解为
Figure QLYQS_61
S43:计算第h次迭代的二阶相关性函数梯度值
Figure QLYQS_62
Figure QLYQS_63
其中:
Figure QLYQS_64
表示梯度算子;
S44:更新迭代解:
Figure QLYQS_65
Figure QLYQS_66
/>
Figure QLYQS_67
其中:
I为单位矩阵;
Figure QLYQS_68
表示单位矩阵;
Figure QLYQS_69
,/>
Figure QLYQS_70
Figure QLYQS_71
,/>
Figure QLYQS_72
Figure QLYQS_73
表示第h次迭代的迭代系数;
T表示转置;
Figure QLYQS_74
,则终止迭代,将/>
Figure QLYQS_75
作为信号采样结果求解点/>
Figure QLYQS_76
,否则令h=h+1,返回步骤S43。
8.如权利要求7所述的一种远程语音信号延迟估计方法,其特征在于,所述S4步骤中将优化求解结果转换为延迟估计结果,得到远程语音信号相较于参考语音信号的延迟估计,包括:
计算
Figure QLYQS_77
,其中/>
Figure QLYQS_78
表示麦克风所接收信号中相邻离散信号点之间的时间间隔,/>
Figure QLYQS_79
表示远程语音信号相较于参考语音信号的延迟估计结果。/>
CN202310201095.2A 2023-03-06 2023-03-06 一种远程语音信号延迟估计方法 Pending CN116230005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310201095.2A CN116230005A (zh) 2023-03-06 2023-03-06 一种远程语音信号延迟估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310201095.2A CN116230005A (zh) 2023-03-06 2023-03-06 一种远程语音信号延迟估计方法

Publications (1)

Publication Number Publication Date
CN116230005A true CN116230005A (zh) 2023-06-06

Family

ID=86584050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310201095.2A Pending CN116230005A (zh) 2023-03-06 2023-03-06 一种远程语音信号延迟估计方法

Country Status (1)

Country Link
CN (1) CN116230005A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190179597A1 (en) * 2017-12-07 2019-06-13 Powerchord Group Limited Audio synchronization and delay estimation
CN112331226A (zh) * 2020-09-29 2021-02-05 江苏清微智能科技有限公司 一种针对主动降噪系统的语音增强系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190179597A1 (en) * 2017-12-07 2019-06-13 Powerchord Group Limited Audio synchronization and delay estimation
CN112331226A (zh) * 2020-09-29 2021-02-05 江苏清微智能科技有限公司 一种针对主动降噪系统的语音增强系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
茅惠达等: "声源定位中广义互相关时延估计算法的研究", 《计算机工程与应用》, 3 July 2015 (2015-07-03), pages 138 - 142 *

Similar Documents

Publication Publication Date Title
EP3611725B1 (en) Voice signal processing model training method, electronic device, and storage medium
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
WO2021208728A1 (zh) 基于神经网络的语音端点检测方法、装置、设备及介质
WO2022121799A1 (zh) 声音信号处理方法、装置和电子设备
CN109979469B (zh) 信号处理方法、设备及存储介质
CN109872276A (zh) 用于生成图像超分辨率模型的方法和装置
WO2021196475A1 (zh) 智能化语言流利度识别方法、装置、计算机设备及存储介质
CN109961141A (zh) 用于生成量化神经网络的方法和装置
EP4191478A1 (en) Method and apparatus for compressing neural network model
CN112562633A (zh) 一种歌唱合成方法、装置、电子设备及存储介质
CN106920543B (zh) 语音识别方法及装置
CN111988707B (zh) 啸叫检测方法、装置及存储介质
CN116230005A (zh) 一种远程语音信号延迟估计方法
CN114171043B (zh) 回声的确定方法、装置、设备以及存储介质
CN115762555A (zh) 一种动态音频信号调节传输方法
CN116110419A (zh) 一种自适应波束整形的智能会议音频处理方法及系统
CN113593527B (zh) 一种生成声学特征、语音模型训练、语音识别方法及装置
CN112002339B (zh) 语音降噪方法和装置、计算机可读的存储介质及电子装置
CN115696140B (zh) 一种教室音频多通道回声消除方法
CN111443329A (zh) 声源定位方法及装置、计算机存储介质和电子设备
JP2010185682A (ja) 一般調和解析装置および周波数分析装置
CN115662395B (zh) 一种基于空气传导下的学习耳机智能消除不健康声音方法
CN117826113A (zh) 一种深度感知的雷达微信号检测方法
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
CN116068521B (zh) 一种雷达探测信号主动降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination