CN116230005A

CN116230005A - 一种远程语音信号延迟估计方法

Info

Publication number: CN116230005A
Application number: CN202310201095.2A
Authority: CN
Inventors: 刘建洪
Original assignee: Changsha Dongmak Information Technology Co ltd
Current assignee: Changsha Dongmak Information Technology Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-06

Abstract

本发明涉及信号延迟估计的技术领域，揭露了一种远程语音信号延迟估计方法，所述方法包括：对预处理后的远程语音信号进行频谱细化处理，得到语音信号对应的频谱细化表示；对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算，并构建得到远程语音信号的二阶相关性函数；对构建的二阶相关性函数进行优化求解，得到远程语音信号相较于参考语音信号的延迟估计。本发明基于频谱权值函数对所采集语音信号进行加权调零处理，并基于参考语音信号的信号长度对远程语音信号进行插值填充处理，提高频谱的计算精度，实现更为精准的延迟估计，并基于二阶相关性结果以及对应的梯度，采用迭代优化算法快速求解估计得到延迟。

Description

一种远程语音信号延迟估计方法

技术领域

本发明涉及信号延迟估计的技术领域，尤其涉及一种远程语音信号延迟估计方法。

背景技术

在音频信号超远程传输过程中，经常存音频的时延对齐问题。特别对于同一语音信号，由于传输媒介等因素差异，导致不同接受源得到的语音信号存在一定的时延差异。远程语音信号的时延差异，一方面增加了管理和维护的复杂性，另一方面对工作时效性产生较大障碍。因此，非常有必要对远程语音信号进行时延的自动估计，针对该问题，本发明提出一种远程语音信号延迟估计方法。

发明内容

有鉴于此，本发明提供一种远程语音信号延迟估计方法，目的在于：1）由于不同麦克风所接收语音信号之间存在时延，且由于设备因素以及环境噪音因素，导致不同麦克风所接收信号的信号长度可能存在不一致的现象，其中远程语音信号的信号长度可能较短，主要是由于远程麦克风距离讲话人距离较远，可能存在较大噪音，因此本发明基于频谱权值函数对所采集语音信号进行加权调零处理，并基于参考语音信号的信号长度对远程语音信号进行插值填充处理，提高频谱的计算精度，实现更为精准的延迟估计；2）基于参考语音信号以及远程语音信号的频谱细化表示的相关性构建得到二阶相关性函数，进而基于二阶相关性结果以及对应的梯度，采用迭代优化算法求解得到信号采样结果求解点，并将求解结果转换为延迟估计结果，实现快速求解远程语音信号相较于参考语音信号的延迟估计。

实现上述目的，本发明提供的一种远程语音信号延迟估计方法，包括以下步骤：

S1：采集远程语音信号与参考语音信号，并对采集的语音信号进行预处理，其中远程语音信号为远处麦克风所接收信号的数字化表示，参考语音信号为目标麦克风所接收信号的数字化表示；

S2：分别对预处理后的远程语音信号以及参考语音信号进行频谱细化处理，得到对应的频谱细化表示；

S3：计算参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性，并基于二阶相关性计算结果构建得到远程语音信号的二阶相关性函数；

S4：对构建的二阶相关性函数进行优化求解，得到远程语音信号相较于参考语音信号的延迟估计。

作为本发明的进一步改进方法：

可选地，所述S1步骤中采集远程语音信号与参考语音信号，包括：分别采集远程语音信号

以及参考语音信号/>

，其中远程语音信号为远处麦克风所接收信号的数字化表示，参考语音信号为目标麦克风所接收信号的数字化表示，用于得到远处麦克风所接收信号相较于目标麦克风所接收信号的延迟估计，在本发明实施例中，将参考语音信号设置为距离讲话人最近的麦克风所接收的信号；所采集语音信号的格式为：

;

;

其中：

表示参考语音信号/>

中第n个离散信号点的信号值，/>

表示参考语音信号中离散信号点的总数；

表示远程语音信号/>

中第n个离散信号点的信号值，/>

表示远程语音信号中离散信号点的总数，其中/>

。

可选地，所述S1步骤中对所采集的语音信号进行预处理，包括：

对所采集的远程语音信号以及参考语音信号进行预处理，得到预处理后的语音信号，其中预处理流程为：

S11：构建长度为

的窗函数/>

：

;

其中：

是适用于语音信号/>

的窗函数，/>

，/>

表示语音信号/>

中离散信号点总数；

S12：利用窗函数

对语音信号/>

中的离散信号点信号值/>

进行加窗处理，其中/>

，加窗处理公式为：

;

其中：

表示语音信号/>

中第n个离散信号点的信号值加窗处理结果。

可选地，所述S2步骤中对预处理后的远程语音信号以及参考语音信号进行频谱细化处理，包括：

对预处理后的语音信号进行频谱细化处理，得到语音信号对应的频谱细化表示，其中频谱细化处理流程为：

S21：构建频谱权值函数：

;

其中：

为频谱权值函数；

表示虚数单位，/>

；

S22：计算频谱权值函数的共轭复数

：/>

;

S23：基于频谱权值函数的共轭复数

，对预处理后语音信号的每个离散信号点进行加权以及调零处理：

;

其中：

表示语音信号/>

中第n个离散信号点的信号值加权调零处理结果，

；S24：分别对频谱权值函数以及语音信号处理结果进行傅里叶变换处理：

;

;

其中：

表示傅里叶变换的点数；

表示语音信号/>

的频谱表示结果；

表示频谱权值函数的频谱表示结果；

并对两者的频谱表示乘积进行傅里叶逆变换处理：

;

其中：

表示语音信号/>

的傅里叶逆变换处理结果；

S25：截取傅里叶逆变换处理结果与共轭复数

作为语音信号/>

的频谱细化表示：

;

其中：

表示参考语音信号的频谱细化表示，/>

表示远程语音信号的频谱细化表示。

可选地，所述S3步骤中对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算，包括：

对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算，其中二阶相关性计算公式为：

;

其中：

表示/>

的共轭复数；

表示参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性。

可选地，所述S3步骤中构建得到远程语音信号的二阶相关性函数，包括：

构建得到远程语音信号的二阶相关性函数：

;

其中：

表示远程语音信号的二阶相关性函数。

可选地，所述S4步骤中对构建的二阶相关性函数进行优化求解，包括：

对所构建的二阶相关性函数进行优化求解，得到二阶相关性函数的信号采样结果求解点

，其中/>

，二阶相关性函数的优化求解流程为：

S41：随机生成信号采样点数作为初始解

，其中/>

；

S42：设定算法的当前迭代次数为h，h的初始值为1，最大值为Max，则第h次迭代的解为

；

S43：计算第h次迭代的二阶相关性函数梯度值

：

;

其中：

表示梯度算子；

S44：更新迭代解：

;

;

;

其中：

I为单位矩阵；

表示单位矩阵；

,/>

;

,/>

;

表示第h次迭代的迭代系数；

T表示转置；

若

，则终止迭代，将/>

作为信号采样结果求解点/>

，否则令h=h+1，返回步骤S43。

可选地，所述S4步骤中将优化求解结果转换为延迟估计结果，得到远程语音信号相较于参考语音信号的延迟估计，包括：计算

，其中/>

表示麦克风所接收信号中相邻离散信号点之间的时间间隔，/>

表示远程语音信号相较于参考语音信号的延迟估计结果。/>

为了解决上述问题，本发明提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；

通信接口，实现电子设备通信；及处理器，执行所述存储器中存储的指令以实现上述所述的远程语音信号延迟估计方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的远程语音信号延迟估计方法。

相对于现有技术，本发明提出一种远程语音信号延迟估计方法，该技术具有以下优势：

首先，本方案提出一种延迟估计精度提高方法，对预处理后的语音信号进行频谱细化处理，得到语音信号对应的频谱细化表示，其中频谱细化处理流程为：构建频谱权值函数：

;

其中：

为频谱权值函数；/>

表示虚数单位，/>

；计算频谱权值函数的共轭复数/>

：/>

;

基于频谱权值函数的共轭复数

;

其中：

表示语音信号/>

中第n个离散信号点的信号值加权调零处理结果；分别对频谱权值函数以及语音信号处理结果进行傅里叶变换处理：

;

;

其中：

表示傅里叶变换的点数；/>

表示语音信号/>

的频谱表示结果；/>

表示频谱权值函数的频谱表示结果；并对两者的频谱表示乘积进行傅里叶逆变换处理：

;

其中：

表示语音信号/>

的傅里叶逆变换处理结果；截取傅里叶逆变换处理结果与共轭复数/>

作为语音信号/>

的频谱细化表示：/>

;

其中：

表示参考语音信号的频谱细化表示，/>

表示远程语音信号的频谱细化表示。由于不同麦克风所接收语音信号之间存在时延，且由于设备因素以及环境噪音因素，导致不同麦克风所接收信号的信号长度可能存在不一致的现象，其中远程语音信号的信号长度可能较短，主要是由于远程麦克风距离讲话人距离较远，可能存在较大噪音，因此本发明基于频谱权值函数对所采集语音信号进行加权调零处理，并基于参考语音信号的信号长度对远程语音信号进行插值填充处理，提高频谱的计算精度，实现更为精准的延迟估计。

同时，本方案提出一种快速求解延迟估计结果的方法，通过对所构建的二阶相关性函数进行优化求解，得到二阶相关性函数的信号采样结果求解

点，其中/>

，二阶相关性函数的优化求解流程为：随机生成信号采样点数作为初始解/>

，其中/>

；设定算法的当前迭代次数为h，h的初始值为1，最大值为Max，则第h次迭代的解为/>

；计算第h次迭代的二阶相关性函数梯度值/>

：

;

其中：

表示梯度算子；更新迭代解：

;

;

其中：I为单位矩阵；

表示单位矩阵；/>

，/>

；

，/>

；/>

表示第h次迭代的迭代系数；T表示转置；若

，则终止迭代，将/>

作为信号采样结果求解点/>

，否则令h=h+1，返回上述步骤。计算

，其中/>

表示远程语音信号相较于参考语音信号的延迟估计结果。本方案基于参考语音信号以及远程语音信号的频谱细化表示的相关性构建得到二阶相关性函数，进而基于二阶相关性结果以及对应的梯度，采用迭代优化算法求解得到信号采样结果求解点，并将求解结果转换为延迟估计结果，实现快速求解远程语音信号相较于参考语音信号的延迟估计。

附图说明

图1为本发明一实施例提供的一种远程语音信号延迟估计方法的流程示意图；

图2为本发明一实施例提供的实现远程语音信号延迟估计方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种远程语音信号延迟估计方法。所述远程语音信号延迟估计方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述远程语音信号延迟估计方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

实施例1

S1：采集远程语音信号与参考语音信号，并对采集的语音信号进行预处理，其中远程语音信号为远处麦克风所接收信号的数字化表示，参考语音信号为目标麦克风所接收信号的数字化表示。

所述S1步骤中采集远程语音信号与参考语音信号，包括：

分别采集远程语音信号

以及参考语音信号/>

，其中远程语音信号为远处麦克风所接收信号的数字化表示，参考语音信号为目标麦克风所接收信号的数字化表示，用于得到远处麦克风所接收信号相较于目标麦克风所接收信号的延迟估计，在本发明实施例中，将参考语音信号设置为距离讲话人最近的麦克风所接收的信号；

所采集语音信号的格式为：

;

;

其中：

表示参考语音信号/>

中第n个离散信号点的信号值，/>

表示参考语音信号中离散信号点的总数；

表示远程语音信号/>

中第n个离散信号点的信号值，/>

表示远程语音信号中离散信号点的总数，其中/>

。所述S1步骤中对所采集的语音信号进行预处理，包括：

S11：构建长度为

的窗函数/>

：

;

其中：

是适用于语音信号/>

的窗函数，/>

，/>

表示语音信号/>

中离散信号点总数；

S12：利用窗函数

对语音信号/>

中的离散信号点信号值/>

进行加窗处理，其中/>

，加窗处理公式为：

;

其中：

表示语音信号/>

中第n个离散信号点的信号值加窗处理结果。

S2：分别对预处理后的远程语音信号以及参考语音信号进行频谱细化处理，得到对应的频谱细化表示。

所述S2步骤中对预处理后的远程语音信号以及参考语音信号进行频谱细化处理，包括：

S21：构建频谱权值函数：

;

其中：

为频谱权值函数；

表示虚数单位，/>

；

S22：计算频谱权值函数的共轭复数

：

;

S23：基于频谱权值函数的共轭复数

;

其中：

表示语音信号/>

中第n个离散信号点的信号值加权调零处理结果，/>

；

S24：分别对频谱权值函数以及语音信号处理结果进行傅里叶变换处理：

;

其中：

表示傅里叶变换的点数；

表示语音信号/>

的频谱表示结果；

表示频谱权值函数的频谱表示结果；

并对两者的频谱表示乘积进行傅里叶逆变换处理：

;

其中：

表示语音信号/>

的傅里叶逆变换处理结果；

S25：截取傅里叶逆变换处理结果与共轭复数

作为语音信号/>

的频谱细化表示：/>

;

其中：

表示参考语音信号的频谱细化表示，/>

表示远程语音信号的频谱细化表示。

S3：计算参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性，并基于二阶相关性计算结果构建得到远程语音信号的二阶相关性函数。

所述S3步骤中对参考语音信号以及远程语音信号的频谱细化表示进行二阶相关性计算，包括：

;

其中：

表示/>

的共轭复数；

所述S3步骤中构建得到远程语音信号的二阶相关性函数，包括：

构建得到远程语音信号的二阶相关性函数：

;

其中：

表示远程语音信号的二阶相关性函数。

所述S4步骤中对构建的二阶相关性函数进行优化求解，包括：

，其中/>

，二阶相关性函数的优化求解流程为：

S41：随机生成信号采样点数作为初始解

，其中/>

；

；S43：计算第h次迭代的二阶相关性函数梯度值/>

：

;

其中：

表示梯度算子；

S44：更新迭代解：

;

;

;

其中：

I为单位矩阵；

表示单位矩阵；

,/>

;

,/>

;

表示第h次迭代的迭代系数；

T表示转置；

若

，则终止迭代，将/>

作为信号采样结果求解点/>

，否则令h=h+1，返回步骤S43。

所述S4步骤中将优化求解结果转换为延迟估计结果，得到远程语音信号相较于参考语音信号的延迟估计，包括：

计算

,其中/>

表示远程语音信号相较于参考语音信号的延迟估计结果。

实施例2：

如图2所示，是本发明一实施例提供的实现远程语音信号延迟估计方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11、通信接口13和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card， SMC）、安全数字（SecureDigital， SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如程序12的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心（ControlUnit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块（用于实现基于远程语音信号延迟估计的程序12等），以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述通信接口13可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接，并实现电子设备内部组件之间的连接通信。

所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图2仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图2示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

采集远程语音信号与参考语音信号，并对采集的语音信号进行预处理；

分别对预处理后的远程语音信号以及参考语音信号进行频谱细化处理，得到对应的频谱细化表示；

计算参考语音信号以及远程语音信号所对应频谱细化表示的二阶相关性，并基于二阶相关性计算结果构建得到远程语音信号的二阶相关性函数；

对构建的二阶相关性函数进行优化求解，得到远程语音信号相较于参考语音信号的延迟估计。

具体地，所述处理器10对上述指令的具体实现方法可参考图1至图2对应实施例中相关步骤的描述，在此不赘述。需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。