CN111294367A

CN111294367A - 音频信号后处理方法和装置、存储介质及电子设备

Info

Publication number: CN111294367A
Application number: CN202010404621.1A
Authority: CN
Inventors: 于旸; 陈昱
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-06-16
Anticipated expiration: 2040-05-14
Also published as: EP4050861A4; EP4050861B1; US20220262388A1; US12002484B2; CN111294367B; WO2021227730A1; EP4050861A1

Abstract

本发明公开了一种音频信号后处理方法和装置、存储介质及电子设备。其中，该方法包括：获取第一语音信号，并对第一语音信号进行分帧处理后转换为多帧第一频域信号，对多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理，并保留每帧第一频域信号中高于目标频率阈值的第二子频域信号，再对得到的多帧第二频域信号进行合帧处理，得到输出的第二语音信号的方式，通过混淆输出语音信号的低频段部分，达到了对语音信号防护，避免遭受窃听攻击，保护语音信号的隐私和安全的目的。本发明解决了相关技术中在防护对语音信号进行攻击窃听时需要对终端软硬件进行限制，处理方式适用范围较小，用户体验差的技术问题。

Description

音频信号后处理方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频信号后处理方法和装置、存储介质及电子设备。

背景技术

云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云安全(Cloud Security) 是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念，通过网状的大量客户端对网络中软件行为的异常监测，获取互联网中木马、恶意程序的最新信息，并发送到服务端进行自动分析和处理，再把病毒和木马的解决方案分发到每一个客户端。

云安全主要研究方向包括：1. 云计算安全，主要研究如何保障云自身及云上各种应用的安全，包括云计算机系统安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等；2. 安全基础设施的云化，主要研究如何采用云计算新建与整合安全基础设施资源，优化安全防护机制，包括通过云计算技术构建超大规模安全事件、信息采集与处理平台，实现对海量信息的采集与关联分析，提升全网安全事件把控能力及风险控制能力；3. 云安全服务，主要研究各种基于云计算平台为用户提供的安全服务，如防病毒服务等。

目前的相关技术中，在进行语音传输的服务当中，通过扬声器等电声换能器件在将电信号转变为声信号时会引起主板振动，该振动信息可被搭载在同一主板上或与主板紧密接触的加速度传感器、陀螺仪等MEMS传感器所捕获并通过特定的语音重构算法还原出原始语音信号。若攻击者获得MEMS传感器的访问权限则可能窃听语音，目前用于防护侧信道窃听的方法为限制终端MEMS传感器的采样率，例如，禁止加速度传感器采集50Hz以上的信号；或者，限制终端MEMS传感器的使用权限，例如，使用MEMS的APP需要获得用户的授权等，而采用限制MEMS传感器采样率的方法会导致某些需要高采样率的应用无法正常运行，采用限制MEMS传感器使用权限的方法会降低用户体验，因此，相关技术中通过在拾音侧进行防护窃听的方法需要对终端软硬件进行限制，适用范围较小，用户体验差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频信号后处理方法和装置、存储介质及电子设备，以至少解决相关技术中在防护对语音信号进行攻击窃听时需要对终端软硬件进行限制，处理方式适用范围较小，用户体验差的技术问题。

根据本发明实施例的一个方面，提供了一种音频信号后处理方法，包括：获取第一器件采集到的第一语音信号；对所述第一语音信号进行分帧处理，得到多帧语音信号；将所述多帧语音信号转换为多帧第一频域信号；对所述多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理，并保留所述每帧第一频域信号中高于所述目标频率阈值的第二子频域信号，得到多帧第二频域信号，其中，所述目标频率阈值与第二器件的采样频率相关；将所述多帧第二频域信号进行合帧处理，得到为第二语音信号。

可选地，所述对所述多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理，并保留所述每帧第一频域信号中高于所述目标频率阈值的第二子频域信号，得到多帧第二频域信号，包括：对所述每帧第一频域信号中的所述第一子频域信号进行交替的增强和削弱，得到第三子频域信号，并保留所述每帧第一频域信号中的所述第二子频域信号，得到所述多帧第二频域信号。

可选地，所述多帧第二频域信号满足以下关系：

其中，H[k,n]为第k帧的低频混淆函数，f _th表示所述目标频率阈值，X _w [k,n]用于表示第k帧第一频域信号，在n≤f _th时，X _w [k,n]用于表示所述第k帧第一频域信号中的第二子频域信号，在n＞f _th时，X _w [k,n]H[k,n]用于表示所述第k帧第一频域信号中的第二子频域信号，X _w [k,n]用于表示所述第k帧第一频域信号中的第三子频域信号，X’ _w [k,n]用于表示第k帧第二频域信号。

可选地，所述多帧第二频域信号满足以下关系：

其中，H[k,n]为第k帧的低频混淆函数，f _th表示所述目标频率阈值，X _w [k,n]用于表示第k帧第一频域信号，在n≤f _th时，X _w [k,n]用于表示所述第k帧第一频域信号中的第二子频域信号，在n＞f _th时，X _w [k,n]用于表示所述第k帧第一频域信号中的第二子频域信号，X _w [k,n] +H[k,n]用于表示所述第k帧第一频域信号中的第三子频域信号，X’ _w [k,n]用于表示第k帧第二频域信号。

可选地，所述第k帧的低频混淆函数

满足以下关系：

其中，D[n]为滤波器，当k为奇数时的H[k,n]是当k为偶数时的H[k,n]的倒数，k包括2m+1，2m。

可选地，所述第k帧的低频混淆函数

满足以下关系：

其中，D[n]为滤波器，当k为奇数时的H[k,n]是当k为偶数时的H[k,n]的负数，k包括2m+1，2m。

可选地，

所述对所述第一语音信号进行分帧处理，得到多帧语音信号，包括：按照基于哈斯效应确定的帧时长以及预设采样频率将所述第一语音信号分为所述多帧语音信号；

所述将所述多帧语音信号转换为多帧第一频域信号，包括：为所述多帧语音信号中的每帧语音信号添加分析窗h _a，得到多帧第一加窗信号；对所述多帧第一加窗信号中的每帧第一加窗信号进行离散傅里叶变换，得到所述多帧第一频域信号；

所述将所述多帧第二频域信号进行合帧处理，得到为第二语音信号，包括：对所述多帧第二频域信号中的每帧第二频域信号进行离散傅里叶逆变换，得到多帧第一时域信号；为所述多帧第一时域信号中的每帧第一时域信号添加合成窗h _s，得到多帧第二加窗信号；将所述多帧第二加窗信号进行合帧处理，得到所述第二语音信号。

可选地，所述多帧语音信号中的每帧语音信号的帧长度N、所述分析窗h _a以及所述合成窗h _s满足如下关系：

其中，h _a（n）用于表示所述分析窗h _a中的第n项，h _s（n）用于表示所述合成窗h _s中的第n项。

可选地，所述多帧第一加窗信号中的第k帧第一加窗信号满足如下关系：

，

其中，M表示所述多帧语音信号中的相邻帧重叠采样的点数，x[n]用于表示所述第k帧第一加窗信号中的第n个值，所述分析窗h _a包括：

h _a[n]用于表示所述分析窗h _a中的第n项，h _a[n-kM]用于表示所述分析窗h _a中的第n-kM项。

可选地，

所述多帧第二加窗信号中的第k帧第二加窗信号满足以下关系：

，

；

所述第二语音信号满足以下关系：

其中，M表示所述多帧语音信号中的相邻帧重叠采样的点数，x’ _w [k,n-kM]用于表示对第k帧第一时域信号中的第n-kM个值，x’[n]用于表示所述第二语音信号的第n个值；

其中，所述合成窗h _s包括：

h _s[n]用于表示所述合成窗h _s中的第n项，h _s[n-kM]用于表示所述合成窗h _s中的第n-kM项。

可选地，所述多帧语音信号中的每帧语音信号的帧长度为N，其中，所述帧长度N满足如下关系：

N≈α×f

其中，f为所述第二器件的采样频率，α为所述多帧语音信号中的每帧语音信号的帧时长。

可选地，所述目标频率阈值与第二器件的采样频率相关，包括：所述目标频率阈值与所述第二器件的采样频率的上限一致。

根据本发明实施例的一个方面，提供了一种音频信号后处理装置，包括：获取模块，用于获取第一器件采集到的第一语音信号；

分帧模块，用于对第一语音信号进行分帧处理，得到多帧语音信号；

转换模块，用于将多帧语音信号转换为多帧第一频域信号；

混淆模块，用于对多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理，并保留每帧第一频域信号中高于目标频率阈值的第二子频域信号，得到多帧第二频域信号，其中，目标频率阈值与第二器件的采样频率相关；

合帧模块，用于将多帧第二频域信号进行合帧处理，得到为第二语音信号。

可选地，所述混淆模块，包括：

混淆单元，用于对每帧第一频域信号中的第一子频域信号进行交替的增强和削弱，得到第三子频域信号，并保留每帧第一频域信号中的第二子频域信号，得到多帧第二频域信号。

可选地，所述混淆单元，包括：

第一混淆子模块，用于得到满足以下关系的多帧第二频域信号：

可选地，混淆单元，包括：

第二混淆子模块，用于得到满足以下关系的多帧第二频域信号：

可选地，所述装置还用于：确定满足以下关系的低频混淆函数H[k,n]：

其中，D[n]为滤波器，当k为奇数时的H[k,n]是当k为偶数时的H[k,n]的负数，k包括2m+1，2m。

可选地，所述分帧模块包括：分帧单元，用于按照基于哈斯效应确定的帧时长以及预设采样频率将第一语音信号分为多帧语音信号；

所述转换模块包括：第一添加单元，用于为多帧语音信号中的每帧语音信号添加分析窗h _a，得到多帧第一加窗信号；第一计算单元，用于对多帧第一加窗信号中的每帧第一加窗信号进行离散傅里叶变换，得到多帧第一频域信号；

所述合帧模块包括：第二计算单元，用于对多帧第二频域信号中的每帧第二频域信号进行离散傅里叶逆变换，得到多帧第一时域信号；第二添加单元，用于为多帧第一时域信号中的每帧第一时域信号添加合成窗h _s，得到多帧第二加窗信号；合帧单元，用于将多帧第二加窗信号进行合帧处理，得到第二语音信号。

，

可选地，所述多帧第二加窗信号中的第k帧第二加窗信号满足以下关系：

，

；

所述第二语音信号满足以下关系：

其中，所述合成窗h _s包括：

N≈α×f

可选地，目标频率阈值与第二器件的采样频率相关，包括：目标频率阈值与第二器件的采样频率的上限一致。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频信号后处理方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的音频信号后处理方法。

在本发明实施例中，采用获取待后处理的第一语音信号，通过交替的增强和削弱第一语音信号的低频段信号对第一语音信号进行低频混淆，得到第二语音信号的方式，通过混淆输出语音信号的低频段，因此，对低频敏感的MEMS传感器采集到振动信息后也无法正确恢复出原始语音信号，同时通过在相邻帧交替增强和削弱低频段信号，从而利用哈斯效应抵消上述混淆对人耳的主观影响，达到了对侧信道语音信号进行防护的目的，从而实现了无需对MEMS传感器进行任何软硬件限制，就能实现对放音侧语音信号进行防护，优化用户使用体验的技术效果，进而解决了相关技术中在防护对语音信号进行攻击窃听时需要对终端软硬件进行限制，处理方式适用范围较小，用户体验差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的音频信号后处理方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的音频信号后处理方法的流程示意图；

图3是根据本发明实施例的一种可选的音频信号后处理方法的示意图；

图4是根据本发明实施例的另一种可选的音频信号后处理方法的流程示意图；

图5是根据本发明实施例的一种可选的音频信号后处理装置的结构示意图；

图6是根据本发明实施例的另一种可选的音频信号后处理装置的结构示意图；

图7是根据本发明实施例的另一种可选的音频信号后处理装置的结构示意图；

图8是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中涉及的部分名词或者术语进行说明：

云安全可以运用在包括但不限于例如云会议或者云呼叫等云技术领域中。

云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以SaaS (Software as a Service,软件即服务)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。

在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。

云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。

云呼叫中心(（Cloud Call Center）)是基于云计算技术而搭建的呼叫中心系统，企业无需购买任何软、硬件系统，只需具备人员、场地等基本条件，就可以快速拥有属于自己的呼叫中心，软硬件平台、通信资源、日常维护与服务由服务器商提供。具有建设周期短、投入少、风险低、部署灵活、系统容量伸缩性强、运营维护成本低等众多特点；无论是电话营销中心、客户服务中心，企业只需按需租用服务，便可建立一套功能全面、稳定、可靠、座席可分布全国各地，全国呼叫接入的呼叫中心系统。

侧信道窃听：扬声器等电声换能器件在将电信号转变为声信号时会引起主板振动，该振动信息可被搭载在同一主板上或与主板紧密接触的加速度传感器、陀螺仪等MEMS传感器所捕获并通过特定的语音重构算法还原出原始语音信号。若攻击者获得MEMS传感器的访问权限（通常比麦克风权限更容易获得）则可能通过窃听行为攻击，破坏语音传输的安全性。

语音后处理：是指数字语音信号处理流程中的最后一步，经过该步骤处理后的语音信号将直接送至声卡等数模转换设备。

哈斯效应（Haas effect）：类比视觉暂留现象，听觉也存在暂留现象，暂留时间为20ms左右。当有声波刺激人耳时，听觉的建立和消失都需要一定的过程，即具有一定的惰性，声波刺激会在听觉中保留一段时间。哈斯效应指人们不能分辨出某些延迟声的现象。延迟声的声压级小于先导声，无论来向如何，只要小于17ms，就不会感到延迟的存在。当延迟声的方向接近先导声，延迟30ms也不会感受到。只有大于50ms时，人们才会感受到延迟声。

下面结合实施例对本发明进行说明：

根据本发明实施例的一个方面，提供了一种音频信号后处理方法，可选地，在本实施例中，上述音频信号后处理方法可以应用于如图1所示的由服务器101和用户终端103所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，可用于为用户终端或用户终端上安装的客户端提供服务，目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。可在服务器上或独立于服务器设置数据库105，用于为服务器101提供数据存储服务，上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络，用户终端103可以是配置有目标客户端的终端，可以包括但不限于以下至少之一：手机（如Android手机、iOS手机等）、笔记本电脑、平板电脑、掌上电脑、MID（Mobile InternetDevices，移动互联网设备）、PAD、台式电脑、智能电视等，上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器，音频信号后处理应用107通过用户终端103进行显示，可通过终端上配置的音频信号后处理应用107的入口使用上述音频信号后处理服务进行对信道窃听攻击行为的防护，上述仅是一种示例，本实施例中对此不作任何限定。

根据本发明实施例的一个方面，如图2所示，提供了一种音频信号后处理方法，包括如下步骤：

S202，获取第一器件采集到的第一语音信号；

S204，对第一语音信号进行分帧处理，得到多帧语音信号；

S206，将多帧语音信号转换为多帧第一频域信号；

S208，对多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理，并保留每帧第一频域信号中高于目标频率阈值的第二子频域信号，得到多帧第二频域信号，其中，目标频率阈值与第二器件的采样频率相关；

S210，将多帧第二频域信号进行合帧处理，得到为第二语音信号。

可选地，在本实施例中，上述第一语音信号可以通过一个或者多个收音设备获取，也可以通过音频生成软件进行创建，上述第一子频域信号可以包括但不限于小于目标频率的基于频域表示的语音信号，例如，目标频率可以包括但不限于进行获取音频震动的MEMS传感器的采样频率上限，上述第一器件和第二器件可以包括但不限于MEMS传感器。

通过本实施例，采用获取第一器件采集到的第一语音信号；对第一语音信号进行分帧处理，得到多帧语音信号，将多帧语音信号转换为多帧第一频域信号；对多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理，并保留每帧第一频域信号中高于目标频率阈值的第二子频域信号，得到多帧第二频域信号，将多帧第二频域信号进行合帧处理，得到为第二语音信号的方式，通过混淆输出语音信号的低频段语音信号，使得对低频敏感的MEMS传感器采集到振动信息后也无法正确恢复出原始语音信号，同时通过在相邻帧交替增强和削弱低频段信号，从而利用哈斯效应抵消上述混淆对人耳的主观影响，达到了对侧信道语音信号进行防护的目的，从而实现了无需对MEMS传感器进行任何软硬件限制，就能实现对放音侧语音信号进行防护，优化用户使用体验的技术效果，进而解决了相关技术中在防护对语音信号进行攻击窃听时需要对终端软硬件进行限制，处理方式适用范围较小，用户体验差的技术问题。

在一个可选的实施例中，对多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理，并保留每帧第一频域信号中高于目标频率阈值的第二子频域信号，得到多帧第二频域信号，包括：对每帧第一频域信号中的第一子频域信号进行交替的增强和削弱，得到第三子频域信号，并保留每帧第一频域信号中的第二子频域信号，得到多帧第二频域信号。

可选地，在本实施例中，上述对多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理可以包括但不限于将多帧第一频域信号中的每帧第一频域信号的相邻帧的频域信号进行交替的增强和削弱。

可选地，在本实施例中，可以对多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号利用人耳的哈斯效应交替的增强和削弱，例如，根据哈斯效应，人耳的听觉暂留时间约为20毫秒，因此可以将上述第一语音信号划分为帧时长对应在20毫秒左右的多帧语音信号，再进行后续的处理，从而尽可能的保证所进行的低频混淆不被人耳觉察到，上述帧时长可以由系统预设，也可以根据不同的人耳进行监测识别。

通过本实施例，对上述利用人耳的哈斯效应交替的增强和削每帧第一频域信号中的第一子频域信号处理后输出混淆后的第二语音信号。该第二语音信号的低频段被混淆，因此，输出的语音信号的振动信息即使被对低频敏感的MEMS传感器采集到后也无法正确恢复出原始语音信号。同时通过在相邻帧交替增强和削弱低频段信号，从而利用哈斯效应抵消掉所加的混淆对人耳的主观影响。而攻击者如果想过滤所加的混淆信号，除了进行特异性设计，不然效果会很轻微，能够解决相关技术中在防护对语音信号进行攻击窃听时需要对终端软硬件进行限制，处理方式适用范围较小，用户体验差的技术问题，达到优化用户使用体验，保证语音信号数据安全的技术效果。

在一个可选的实施例中，所述多帧第二频域信号满足以下关系：

可选地，在本实施例中，首先判断上述每帧第一频域信号与目标频率阈值的大小比较关系，在小于等于上述目标频率阈值的情况下，将上述第一频域信号中的第二子频域信号与低频混淆函数相乘，得到上述第三子频域信号，实现对每帧第一频域信号中的第一子频域信号进行交替的增强和削弱，对第一频域信号中大于上述目标频率阈值的第二子频域信号不做任何处理。

可选地，在本实施例中，上述低频混淆函数H[k,n]满足奇偶帧增益相消性质，不失一般性，一种H[k,n]的实现方式如下：

其中，D[n]为滤波器，H[k,n]的奇数帧为其偶数帧的倒数。

低频混淆函数为H[k,n]除了以乘法作用于X _w [k,n]上外，还可以以加法或其他形式作用于X _w [k,n]上，例如：

上述X _w [k,n]除了通过奇偶帧互为倒数来满足奇偶帧增益相消的性质外还可以用其他方式如加减增益相消等，如：

可选地，在本实施例中，上述滤波器D[n]可以包括但不限于一种用于增加不确定性的滤波器，可以是时变或者时不变，参数随机或者参数固定的滤波器，上述仅是一种示例，具体用于进行滤波的滤波器可以包括上述的一种或者多种的组合。

通过本实施例，通过使用低频混淆函数交替的增强和削弱低频段信号，从而尽可能的保证添加了低频混淆的语音信号的振动信息即使被对低频敏感的MEMS传感器采集到后也无法正确恢复出原始语音信号。能够解决相关技术中在防护对语音信号进行攻击窃听时需要对终端软硬件进行限制，处理方式适用范围较小，用户体验差的技术问题，达到优化用户使用体验，保证语音信号数据安全的技术效果。

可选地，在本实施例中，获取上述第三子频域信号的方式可以包括但不限于将第一频域信号中的第二子频域信号与低频混淆函数相加，进而得到混淆后的第三子频域信号。

在一个可选的实施例中，所述第k帧的低频混淆函数H[k,n]满足以下关系：

可选地，在本实施例中，上述低频混淆函数对应于将第一频域信号中的第二子频域信号与低频混淆函数相乘，得到混淆后的第三子频域信号时，所述低频混淆函数满足当k为奇数时的H[k,n]是当k为偶数时的H[k,n]的倒数。

可选地，在本实施例中，上述低频混淆函数对应于将第一频域信号中的第二子频域信号与低频混淆函数相加，得到混淆后的第三子频域信号时，所述低频混淆函数满足当k为奇数时的H[k,n]是当k为偶数时的H[k,n]的负数。

在一个可选的实施例中，所述对所述第一语音信号进行分帧处理，得到多帧语音信号，包括：按照基于哈斯效应确定的帧时长以及预设采样频率将所述第一语音信号分为所述多帧语音信号；

可选地，在本实施例中，可以通过如下公式对多帧第一加窗信号中的每帧第一加窗信号进行离散傅里叶变换，得到多帧第一频域信号：

其中，x[i]h _a[i-kM]用于表示多帧第一加窗信号中的第k帧第一加窗信号，X_w[k,n]表示通过频域表示的多帧第一频域信号。

通过本实施例，利用离散傅里叶变换可以将以时域表示的每帧加窗信号转换为以频域表示的上述多帧第一频域信号，能够达到便于后续对多帧第一频域信号进行低频混淆的技术效果。

可选地，在本实施例中，可以通过如下公式将多帧第二频域信号中的每帧第二频域信号通过离散傅里叶逆变换转换为通过时域表示的多帧第一时域信号：

其中，X’_w[k,i]用于表示多帧第二频域信号中的每帧第二频域信号，x’_w[k,n]为通过时域表示的多帧第一时域信号。

通过本实施例，利用离散傅里叶的逆变换可以将以频域表示的第二频域信号转换为以时域表示的上述第一时域信号，能够达到便于后续对上述第一时域信号添加合成窗进行合成的技术效果。

可选地，在本实施例中，上述分析窗h _a和合成窗h _s可以包括但不限于汉宁窗（Hanning窗）、矩形窗、哈明窗（Hamming窗）、布莱克明窗（Blackman窗）等，例如，图3是根据本发明实施例的一种可选的音频信号的后处理方法的示意图，如图3所示，可以包括图3中所示的多种组合，上述仅是一种示例，本发明对此不做任何限定。

在一个可选的实施例中，所述多帧语音信号中的每帧语音信号的帧长度N、所述分析窗h _a以及所述合成窗h _s满足如下关系：

通过本实施例，上述多帧语音信号中的每帧语音信号的帧长度N、分析窗h _a以及合成窗h _s满足完美重建准，可以使得上述语音信号在进行音频信号后处理时，音频信号的实际内容不受损伤，不会产生畸变。

在一个可选的实施例中，所述多帧第一加窗信号中的第k帧第一加窗信号满足如下关系：

，

h_a[n]用于表示所述分析窗h_a中的第n项，h_a[n-kM]用于表示所述分析窗h_a中的第n-kM项。

可选地，在本实施例中，上述分析窗以汉宁窗为例，其描述如上述所示，通过对每帧语音信号进行加窗，利用汉宁窗实现对上述多帧语音信号中的每帧语音信号进行加窗操作，达到将上述每帧语音信号周期性截断，避免泄露频谱信息，保护语音信号的安全的技术效果。

在一个可选的实施例中，所述多帧第二加窗信号中的第k帧第二加窗信号满足以下关系：

，

；

所述第二语音信号满足以下关系：

其中，所述合成窗h _s包括：

可选地，在本实施例中，上述合成窗可以包括但不限于汉宁窗和矩形窗，以矩形窗为例，将上述第

帧第一时域信号添加合成窗后，能够得到如x’ _w[k,n-kM]h_s[n-kM]的上述第k帧第二加窗信号，能够达到消除窗边界的技术效果，保证处理后的语音信号不受损伤。

通过上述方式将第二加窗信号逐帧合成，得到第二语音信号，可以将上述第二语音信号直接发送至声卡等数模转换设备进行语音播放，达到在放音端对语音信号的安全保护，防护语音信号能够在放音端安全输出的技术效果。

在一个可选的实施例中，所述多帧语音信号中的每帧语音信号的帧长度为N，其中，所述帧长度N满足如下关系：

N≈α×f

可选地，在本实施例中，上述第二器件的采样频率可以包括但不限于由系统进行预设，还可以基于不同的应用场景或者不同格式的音频文件进行调整，例如，常见的取值有11025Hz、22050Hz、24000Hz、44100Hz、48000Hz等。由于语音信号为时变的，在短时间内特征变化较小，通过在相邻帧之间设置重叠点数，作为对上述第一语音信号进行稳态处理的手段。

可选地，在本实施例中，根据哈斯效应，人耳的听觉暂留时间约为20毫秒，因此帧长度N所对应的帧时长应在20毫秒左右，即：

N≈0.02×f

上述相邻帧重叠点数M可以通过上述帧长度进行确定，例如，可以但不限于取½N或¾N。上述仅是一种示例，本实施例对此不做任何具体限定。

通过本实施例，利用人耳的哈斯效应确定上述帧长度能够尽可能的保证上述语音信号进行低频混淆后不被人耳觉察，实现利用哈斯效应抵消掉所加的混淆对人耳的主观影响的技术效果。

在一个可选的实施例中，目标频率阈值与第二器件的采样频率相关，包括：

目标频率阈值与第二器件的采样频率的上限一致。

可选地，在本实施例中，上述目标频率阈值可以约等于终端内置MEMS传感器的采样频率上限f _cap，即：f _th≈f _cap。

通过设置与第二器件采样频率一致的目标频率阈值，可以达到保证听感不变，维持原有输入的语音信号听感的技术效果。

下面结合具体的实施例对本发明作进一步完整说明：

图4是根据本发明实施例的另一种可选的音频信号后处理方法的流程示意图，如图4所示，该流程步骤如下：

S401，获取原始语音信号（对应于前述的第一语音信号）；

S402，将上述原始语音信号进行分帧处理，得到多帧语音信号；

S403，将上述多帧语音信号添加汉宁窗作为分析窗进行处理，得到多帧加窗信号；

S404，按照公式（1）将上述多帧加窗信号进行离散傅里叶变换，得到基于频域表示的第一频域信号；

S405，按照公式（2）将上述第一频域信号中的第二子频域信号进行无感知低频混淆，得到上述第三子频域信号，并保留大于目标频率阈值的其他子频域信号，其中，

设低频混淆函数为H[k,n]，则加了低频混淆后的第

帧的频域信号X’ _w [k,n]表示如下：

其中，H[k,n]需满足奇偶帧增益相消性质，不失一般性，实现方式如下：

其中，D[n]为滤波器，H[k,n]的奇数帧为其偶数帧的倒数。

S406，按照公式（3）将上述第三子频域信号以及大于目标频率阈值的其他子频域信号进行离散傅里叶逆变换，得到基于时域表示的第一时域信号；

S407，将上述第一时域信号添加矩形窗作为合成窗进行处理，得到第二加窗信号；

S408，按照公式（4）将上述第二加窗信号逐帧进行合成，得到第二语音信号；

S409，将上述第二语音信号输出得到混淆后的语音信号。

具体可以包括如下四个公式：

(1)

(2)

(3)

(4)

通过本实施例，原始语音信号输入后经过“分帧”、“加分析窗”、“离散傅立叶变换”、“无感知低频混淆”、“离散傅立叶逆变换”、“加合成窗”、“帧合成”等七个步骤的处理后输出混淆后的语音信号。该输出信号的低频段被混淆，因此，振动信息无法被对低频敏感的MEMS传感器采集到后也无法正确恢复出原始语音信号。同时通过在相邻帧交替增强和削弱低频段信号，从而利用哈斯效应抵消掉所加的混淆对人耳的主观影响。而攻击者如果想过滤所加的混淆信号，除了进行特异性设计，不然效果会很轻微。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述音频信号后处理方法的音频信号后处理装置。如图5所示，该装置包括：

获取模块502，用于获取第一器件采集到的第一语音信号；

分帧模块504，用于对第一语音信号进行分帧处理，得到多帧语音信号；

转换模块506，用于将多帧语音信号转换为多帧第一频域信号；

混淆模块508，用于对多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理，并保留每帧第一频域信号中高于目标频率阈值的第二子频域信号，得到多帧第二频域信号，其中，目标频率阈值与第二器件的采样频率相关；

合帧模块510，用于将多帧第二频域信号进行合帧处理，得到为第二语音信号。

可选地，图6是根据本发明实施例的另一种音频信号后处理装置的结构示意图，如图6所示，上述混淆模块508，包括：

混淆单元602，用于对每帧第一频域信号中的第一子频域信号进行交替的增强和削弱，得到第三子频域信号，并保留每帧第一频域信号中的第二子频域信号，得到多帧第二频域信号。

可选地，图7是根据本发明实施例的另一种音频信号后处理装置的结构示意图，如图7所示，混淆单元602，包括：

第一混淆子模块702，用于得到满足以下关系的多帧第二频域信号：

可选地，混淆单元602，包括：

第二混淆子模块704，用于得到满足以下关系的多帧第二频域信号：

可选地，上述装置还用于：确定满足以下关系的低频混淆函数H[k,n]：

可选地，装置还用于：确定满足以下关系的低频混淆函数H[k,n]：

可选地，分帧模块504包括：分帧单元，用于按照基于哈斯效应确定的帧时长以及预设采样频率将第一语音信号分为多帧语音信号；

转换模块506包括：第一添加单元，用于为多帧语音信号中的每帧语音信号添加分析窗h _a，得到多帧第一加窗信号；第一计算单元，用于对多帧第一加窗信号中的每帧第一加窗信号进行离散傅里叶变换，得到多帧第一频域信号；

合帧模块510包括：第二计算单元，用于对多帧第二频域信号中的每帧第二频域信号进行离散傅里叶逆变换，得到多帧第一时域信号；第二添加单元，用于为多帧第一时域信号中的每帧第一时域信号添加合成窗h _s，，得到多帧第二加窗信号；合帧单元，用于将多帧第二加窗信号进行合帧处理，得到第二语音信号。

，

，

；

所述第二语音信号满足以下关系：

其中，所述合成窗h _s包括：

N≈α×f

根据本发明实施例的又一个方面，还提供了一种用于实施上述音频信号后处理方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为可以放置在终端和服务器上，以服务器为例来说明。如图8所示，该电子设备包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取第一器件采集到的第一语音信号；

S2，对第一语音信号进行分帧处理，得到多帧语音信号；

S3，将多帧语音信号转换为多帧第一频域信号；

S4，对多帧第一频域信号中的每帧第一频域信号中低于或等于目标频率阈值的第一子频域信号进行混淆处理，并保留每帧第一频域信号中高于目标频率阈值的第二子频域信号，得到多帧第二频域信号，其中，目标频率阈值与第二器件的采样频率相关；

S5，将多帧第二频域信号进行合帧处理，得到为第二语音信号。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子装置电子设备也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图8其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图8中所示更多或者更少的组件（如网络接口等），或者具有与图8所示不同的配置。

其中，存储器802可用于存储软件程序以及模块，如本发明实施例中的音频信号后处理方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频信号后处理方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802具体可以但不限于用于语音信号等信息。作为一种示例，如图8所示，上述存储器802中可以但不限于包括上述音频信号后处理装置中的获取模块502、分帧模块504、转换模块506、混淆模块508以及合帧模块510。此外，还可以包括但不限于上述音频信号后处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器808，用于显示上述音频信号后处理过程中的音频信号频谱信息；和连接总线810，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点（P2P，Peer To Peer）网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取第一器件采集到的第一语音信号；

S2，对第一语音信号进行分帧处理，得到多帧语音信号；

S3，将多帧语音信号转换为多帧第一频域信号；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。