CN107016990B

CN107016990B - 音频信号生成方法及装置

Info

Publication number: CN107016990B
Application number: CN201710171063.7A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2018-06-05
Anticipated expiration: 2037-03-21
Also published as: CN107016990A

Abstract

本发明公开了一种音频信号生成方法及装置，属于信号处理技术领域。该方法包括：采集环境音频信号，所述环境音频信号是指来源于当前环境真实环境的音频信号；计算所述环境音频信号的实际混响时长，所述实际混响时长是指所述环境音频信号从起始信号能量衰减至信号能量阈值所经历的时长；根据所述实际混响时长调整虚拟音频信号的混响效果，得到处理后的虚拟音频信号；将所述处理后的虚拟音频信号与所述环境音频信号进行叠加，得到叠加后的音频信号。本发明解决了叠加后的音频信号的空间感与真实环境中的环境音频信号的空间感不符，叠加后的音频信号的播放效果不佳的问题；提高了叠加后的音频信号的播放效果。

Description

音频信号生成方法及装置

技术领域

本发明实施例涉及信号处理技术领域，特别涉及一种音频信号处理方法及装置。

背景技术

增强现实(AR，Augmented Reality)技术是一种将虚拟世界和现实世界叠加到同一画面或空间中，使得虚拟世界和现实世界同时存在的技术。AR技术通过终端生成虚拟世界的信息，将该虚拟世界的信息叠加到现实世界中，使得用户能够体验到在现实世界中很难体验到的虚拟世界的信息(比如：视觉信息、声音信息、味觉信息、触觉信息等)。

以通过AR技术生成虚拟世界的声音信息为例，在一种典型的生成音频信号的方法中，AR设备采集真实环境中的环境音频信号确定虚拟音频信号；将该虚拟音频信号与终端采集到的环境音频信号进行叠加得到叠加后的音频信号。其中，虚拟音频信号是由AR设备生成的音频信号。

为了提高虚拟世界的信息融合到现实世界中的效果，AR设备输出的叠加后的音频信号需要与真实环境中的声音具有相同的空间感，若AR设备直接将虚拟音频信号与环境音频信号进行叠加，叠加后的音频信号的空间感可能与真实环境中的声音的空间感不一致，从而导致叠加后的音频信号的播放效果不佳的问题。

发明内容

为了解决由于AR设备输出的叠加后的音频信号的空间感与真实环境中的声音的空间感不一致，导致叠加后的音频信号的播放效果不佳的问题，本发明实施例提供了一种音频信号生成方法及装置。所述技术方案如下：

第一方面，提供了一种音频信号生成方法，所述方法包括：

采集环境音频信号，所述环境音频信号是指来源于真实环境的音频信号；

计算所述环境音频信号的实际混响时长，所述实际混响时长是指所述环境音频信号从起始信号能量衰减至信号能量阈值所经历的时长；

根据所述实际混响时长调整虚拟音频信号的混响效果，得到处理后的虚拟音频信号；

将所述处理后的虚拟音频信号与所述环境音频信号进行叠加，得到叠加后的音频信号。

第二方面，提供了一种音频信号生成装置，所述装置包括：

信号采集模块，用于采集环境音频信号，所述环境音频信号是指来源于真实环境的音频信号；

混响计算模块，用于计算所述信号采集模块采集到的所述环境音频信号的实际混响时长，所述实际混响时长是指所述环境音频信号从起始信号能量衰减至信号能量阈值所经历的时长；

混响调整模块，用于根据所述混响计算模块得到的所述实际混响时长调整虚拟音频信号的混响效果，得到处理后的虚拟音频信号；

信号叠加模块，用于将所述混响调整模块得到的所述处理后的虚拟音频信号与所述环境音频信号进行叠加，得到叠加后的音频信号。

本发明实施例提供的技术方案带来的有益效果包括：通过计算环境音频信号的实际混响时长，根据该实际混响时长调节虚拟音频信号的混响时长；将调节后的虚拟音频信号与环境音频信号进行叠加，得到叠加后的音频信号；解决了叠加后的音频信号的空间感与真实环境中的环境音频信号的空间感不符，叠加后的音频信号的播放效果不佳的问题；由于终端输出的叠加后的音频信号的混响时长与环境音频信号的混响时长基本一致，提高了叠加后的音频信号的播放效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本发明一个实施例提供的AR系统的结构示意图；

图1B是本发明一个实施例提供的音频信号生成方法的流程图；

图2是本发明一个实施例提供的第一种确定目标频点的流程图；

图3是本发明一个实施例提供的第二种确定目标频点的流程图；

图4是本发明一个实施例提供的第三种确定目标频点的流程图；

图5是本发明一个实施例提供的实际混响时长计算方法的流程图；

图6是本发明一个实施例提供的梳状滤波器模型的示意图；

图7是本发明一个实施例提供的全通滤波器模型的示意图；

图8是本发明一个实施例提供的Schroeder混响模型的示意图；

图9是本发明一个实施例提供的音频信号生成装置的框图；

图10是本发明一个实施例提供的终端的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

首先，对本申请涉及的若干个名词进行介绍。

混响：是指声源停止发声后，声源已经发出的音频信号经过多次反射和吸收最后消失的现象。由于音频信号在传输过程中会被障碍物反射，每反射一次，音频信号的信号能量都要被障碍物吸收一部分。这样，当声源停止发声后，声源已经发出的音频信号还会持续一段时间。其中，持续的时长为混响时长。

AR设备：是指通过AR技术将虚拟世界和现实世界叠加到同一画面或空间中显示的电子设备，比如：AR眼镜、AR头盔、手机、相机、电视机等使用了AR技术的电子设备。

频点：终端对音频信号进行时频变换时，在频域上对不同频率的音频信号进行采样，得到的至少一个频域上的采样点。频点可以通过对应的频率来表示，也可以通过对该频点采样的采样顺序来表示，本实施例对此不作限定。

相关技术中，AR设备在播放音频信号时，采集真实环境中的环境音频信号，然后，使用该环境音频信号与生成的虚拟音频信号进行叠加，得到叠加后的音频信号并输出。此时，叠加后的音频信号的空间感可能与真实环境中的环境音频信号的空间感不符。其中，虚拟音频信号是指AR设备生成的音频信号，比如：AR设备中存储的多媒体文件的音频信号。

空间感是通过音频信号的混响时长体现出来的，音频信号的混响时长较长，说明音频信号的空间感较强，即，真实环境吸收的信号能量少，比如：真实环境为电影院、剧院、山洞等场所；音频信号的混响时长较短，说明音频信号的空间感弱，即，真实环境吸收的信号能量多，比如：真实环境为办公室、卧室等场所。

叠加后的音频信号的空间感与真实环境中的环境音频信号的空间感不符，至少包括如下两种情况：

第一种情况：叠加后的音频信号的空间感比环境音频信号的空间感强，此时，AR设备输出的音频信号混响时长较长，而实际上真实环境中的声音的混响时长较短。

第二种情况：叠加后的音频信号的空间感比环境音频信号的空间感弱，此时，AR设备输出的音频信号时长较短，而实际上真实环境中的声音的混响时长较长。

从人耳听觉的角度，上述两种情况下AR设备输出的音频信号与环境中的声音相似度低，AR设备输出的音频信号不真实。

为了提高AR设备输出的音频信号与真实环境中的声音相似度，本发明实施例提供了如下技术方案。

可选地，本发明实施例提供的方法，以各步骤的执行主体为终端为例进行说明，该终端包括AR设备且终端具有播放音频信号的功能。当然，终端还包括其它类型的电子设备，比如：平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等。

请参考图1A，其示出了本发明一个实施例提供的AR系统的结构示意图。该AR系统包括：显示组件120和增强现实主机140。

显示组件120可以包括各类固定式、手持式或者可穿戴式设备或所采用的显示屏装置，如液晶显示屏、触摸液晶显示屏、基于光学原理的穿透式投影显示屏等，或者，显示组件120也可以是基于视频合成技术的透射式显示装置。

可选地，显示组件120还包括传感器组件，传感器组件可以由陀螺仪和加速计组成，通过陀螺仪能够测量沿一个轴或几个轴转动的角度和角速度，通过加速度计能够测量转动的角加速度，结合使用这两种传感器，能准确跟踪并捕捉三维空间内的完整运动。在本发明中，传感器组件可以设置为佩戴在用户头部，以测量用户头部的转动参数。

可选地，增强现实主机140作为与显示组件120相独立的电子设备，组装在显示组件120中；或者，增强现实主机140与显示组件120安装于同一电子设备中。

可选地，增强现实主机140为平板电脑、电子书阅读器、MP3(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等，本实施例对此不作限定。

增强现实主机140采集真实环境中的环境音频信号，并将该环境音频信号与虚拟音频信号进行叠加输出的叠加后的音频信号。增强现实主机140通常由设置在电路板上的处理器、存储器、总线等电子器件实现。

可选地，显示组件120和增强现实主机140还可以包括其它组件，比如：通信组件、图像采集组件等，本实施例对此不作限定。

请参考图1B，其示出了本发明一个实施例提供的音频信号生成方法的流程图。该方法可以包括以下几个步骤：

步骤101，采集环境音频信号。

环境音频信号是指来源于真实环境的音频信号。比如：在当前真实环境下，音响设备播放的音乐、用户说话的声音、雨滴的声音、手指敲击键盘的声音等。

本实施例中，终端通过音频采集组件采集环境音频信号，其中，音频采集组件用于采集音频信号，本实施例不对音频采集组件的类型作限定。比如：音频采集组件为电容式的麦克风，或者压电陶瓷式的麦克风。

可选地，终端在接收到播放音频信号的播放指令时开始实时采集环境音频信号；或者，在接收到播放音频信号时开始每隔第一时长采集环境音频信号；或者，在开机后实时采集环境音频信号；或者，在开机后每隔第二时长采集环境音频信号，本实施例不对终端采集环境音频信号的时机作限定。其中，第一预定时长与第二预定时长相同或不同，且本实施例不对第一时长和第二时长的数值作限定。

步骤102，计算环境音频信号的实际混响时长。

本实施例中，通过计算环境音频信号的实际混响时长，使得终端能够根据该实际混响时长调整虚拟音频信号的混响时长，从而得到与环境音频信号的空间感一致的虚拟音频信号。

实际混响时长是指环境音频信号从起始信号能量衰减至信号能量阈值所经历的时长。

可选地，混响阶段的环境音频信号的起始信号能量为当前真实环境中的声源停止发声的时刻对应的信号能量。其中，声源是指音频信号的来源。

信号能量阈值根据起始信号能量确定。可选地，终端将起始信号能量乘以预设数值得到信号能量阈值，该预设数值为小于1的整数，比如：预设数值为10^-6，此时，起始信号能量衰减了60dB。

终端计算环境音频信号的实际混响时长，包括：根据环境音频信号，确定信号能量满足衰减条件的n个目标频点；计算该n个目标频点的单个目标频点混响时长的平均值，得到实际混响时长，n为正整数。

其中，衰减条件是指：频点的信号能量随着时间的延长呈衰减状态。本实施例中，通过该衰减条件选择出来的目标频点的信号能量均呈衰减状态，符合混响阶段的音频信号的信号能量衰减的特征，终端根据该目标频点的单个目标频点混响时长来计算实际混响时长，提高了终端计算实际混响时长的准确性。

步骤103，根据实际混响时长调整虚拟音频信号的混响效果，得到处理后的虚拟音频信号。

终端中预设有混响模型，该混响模型用于调整虚拟音频信号的混响效果。混响效果通过混响时长来体现，若混响时长长，则混响效果好；若混响时长短，则混响效果差。

可选地，混响模型为数字混响器，混响模型包括：梳状滤波器模型、全通滤波器模型、施罗德(Schroeder)混响模型、穆勒(Moorer)混响模型中的一种。当然，混响模型还可以为其它的用于调节混响效果的模型，本实施例对此不作限定。

步骤104，将处理后的虚拟音频信号与环境音频信号进行叠加，得到叠加后的音频信号。

终端将处理后的虚拟音频信号与环境音频信号进行叠加，得到叠加后的音频信号，包括：将环境音频信号乘以第一加权值，得到第一音频信号；将处理后的虚拟音频信号乘以第二加权值，得到第二音频信号；将第一音频信号与第二音频信号的和确定为叠加后的音频信号。

其中，第一加权值和第二加权值预设在终端中，第一加权值为小于1的正数，第一加权值与第二加权值的和为1。本实施例不对第一加权值的取值作限定。

终端将处理后的虚拟音频信号与环境音频信号进行叠加的公式如下，其中，S_out为叠加后的音频信号，a为第一加权值，S_r为环境音频信号，(1-a)为第二加权值，S_v为虚拟音频信号。

S_out＝a·S_r+(1-a)·S_v

可选地，第一加权值与第二加权值的和也可以不为1，且都是小于1的正数，本实施例对此不作限定。

可选地，终端选择其它类型的叠加方式将处理后的虚拟音频信号与环境音频信号进行叠加，本实施例对此不作限定。

可选地，终端得到叠加后的音频信号后，输出该叠加后的音频信号。

可选地，若终端实时地将采集到的环境音频信号输出，为了减少叠加后的音频信号中的环境音频信号与采集到的该环境音频信号之间的延迟，终端在得到处理后的虚拟音频信号后，再次采集当前的环境音频信号，将最新采集的环境音频信号与处理后的虚拟音频信号叠加，得到叠加后的音频信号。

可选地，若终端实时地将采集到的环境音频信号输出，为了减少叠加后的音频信号中的环境音频信号与采集到的该环境音频信号之间的延迟，终端在得到实际混响时长后，在一段时长内都使用该实际混响时长对应的混响模型，来调整虚拟音频信号的混响时长，此时，终端不必每次采集到环境音频信号后都执行步骤102至104。

综上所述，本实施例提供的方法，通过计算环境音频信号的实际混响时长，根据该实际混响时长调节虚拟音频信号的混响时长；将调节后的虚拟音频信号与环境音频信号进行叠加，得到叠加后的音频信号；解决了叠加后的音频信号的空间感与真实环境中的环境音频信号的空间感不符，叠加后的音频信号的播放效果不佳的问题；由于终端输出的叠加后的音频信号的混响时长与环境音频信号的混响时长基本一致，提高了叠加后的音频信号的播放效果。

下面对步骤102中，终端确定n个目标频点的方式进行详细介绍。

终端根据环境音频信号，确定信号能量满足衰减条件的n个目标频点，包括但不限于以下实现方式。

在第一种实现方式中，终端对采集到的环境音频信号整体进行时频变换，并从变换得到的频域信号中选择目标频点(下面采用图2所示的实施例来详细阐述)；

在第二种实现方式中，终端从环境音频信号中识别出存在混响现象的音频信号作为目标音频信号，对该目标音频信号进行时频变换，并从变换得到的目标频域信号中选择目标频点(下面采用图3所示的实施例来详细阐述)；

在第三种实现方式中，终端对目标音频信号进行时频变换，并从变换得到的目标频域信号中选择频率范围在预设频率范围内的目标频段，从该目标频段中选择目标频点(下面采用图4所示的实施例来详细阐述)。

下面对这三种确定n个目标频点的方式分别进行介绍。

请参考图2，其示出了本发明一个实施例提供的第一种确定目标频点的方法的流程图。该方法可以包括以下几个步骤：

步骤201，对采集到的环境音频信号进行时频变换，得到频域信号。

可选地，终端通过快速傅氏变换(Fast Fourier Transformation，FFT)对环境音频信号进行时频变换；或者，通过傅立叶变换(Fourier Transform，FT)对环境音频信号进行时频变换，本实施例不对时频变换的算法作限定。

步骤202，计算频域信号中每个频点在不同的音频帧中对应的信号能量。

终端采集到环境音频信号后，会对该环境音频信号进行分帧，得到至少一帧音频帧；每帧音频帧的音频帧序号是根据终端采集该音频帧的采集时间确定的，音频帧序号与采集时间呈正相关关系。比如：终端将音频信号分为3帧音频帧，第一帧音频帧为第一时刻采集到的音频信号；第二帧音频帧为第二时刻采集到的音频信号；第三帧音频帧为第三时刻采集到的音频信号，其中，第一时刻早于第二时刻早于第三时刻。

可选地，终端通过周期图法来估计音频信号的功率分布情况(功率谱)，根据该功率分布情况确定每个频点在不同的音频帧中对应的信号能量；或者，终端通过参数模型法来估计音频信号的功率分布情况，根据该功率分布情况确定每个频点在不同的音频帧中对应的信号能量，本实施例不对功率分布情况的估计算法作限定。

其中，周期图法包括直接法与间接法。直接法：对于频域信号，计算该频域信号与该频域信号的共轭信号的乘积，得到功率分布情况。间接法：终端对环境音频信号在时域上进行采样，得到N个采样点；根据该N个采样点计算自相关函数；对该自相关函数进行傅里叶变换，得到功率分布情况。

可选地，为了提高周期图法估计功率分布情况的精度，终端将环境音频信号分成多个子音频信号；对于每个子音频信号分别采用上述周期图法估计功率分布情况；计算各个自音频信号的估计结果的平均值，作为整个环境音频信号的功率分布情况。其中，各个子音频信号之间可以重叠，也可以不重叠，本实施例对此不作限定。

参数模型法是指以信号模型为基础计算功率分布情况。参数模型法通常包括以下三个步骤：选择合适的信号模型；根据时域上的N个采样点估计信号模型的参数；根据参数调整后的信号模型计算信号功率分布情况。

其中，终端得到的功率分布情况通过二维数组来表示，该二维数组包括每个频点和每个音频帧序号对应的信号能量。可选地，该二维数组为X(n1，n2)(T1，T2)，其中，n1和n2用于表示频点的序号，T1和T2表示音频帧序号。可选地，n1、n2、T1和T2为自然数。

假设终端计算得到的功率分布情况如下表一所示，第一行表示音频帧的音频帧序号，第一列表示各个频点的序号。根据表一可知，每个音频帧序号和频点的序号都对应有一个信号能量。

表一：

需要补充说明的是，在实际实现时，终端采样得到的频点的数量和音频帧的个数可能很多，比如：数量级达到上百，或者，数量级达到上千，本实施例仅以4个音频帧，3个频点为例进行说明。

步骤203，对于频域信号中的每个频点，检测该频点的信号能量是否与音频帧序号呈负相关关系。

当频点的信号能量与音频帧序号呈负相关关系时，说明该频点均为随着时间的延长，信号能量呈衰减状态的频点，符合衰减条件，此时执行步骤204；当频点的信号能量不与音频帧序号呈负相关关系时，不符合衰减条件，则继续检测下一个频点的信号能量是否与音频帧序号呈负相关关系，直至所有的频点都检测完毕时停止。

假设终端得到的功率分布情况如上表一所示，对于频点0，信号能量由0.8衰减至0.6，由0.6衰减至0.3，由0.3衰减至0.1，即，随着时间的延长，信号能量呈衰减状态，说明频点0符合衰减条件。

步骤204，确定频点为目标频点。

综上所述，本实施例通过对环境音频信号整体进行时频变换，并从变换得到的频域信号中选择目标频点，得到的目标频点均为符合衰减条件的目标频点，保证了终端计算实际混响时长的准确性。

请参考图3，其示出了本发明一个实施例提供的第二种确定目标频点的方法的流程图。该方法包括如下几个步骤。

步骤301，确定环境音频信号由显著信号切换为非显著信号的第一时刻。

其中，显著信号是指信号能量大于预设阈值的音频信号，非显著信号是指环境音频信号中除显著信号之外的音频信号，本实施例不对预设阈值的数值作限定。

由于环境中的声源发出的音频信号的信号能量通常大于预设阈值，在该声源停止发出音频信号后，处于混响阶段的音频信号的能量通常小于该预设阈值，因此，环境音频信号从显著信号跳变为非显著信号的第一时刻通常为混响阶段的起始时刻。若终端检测第一时刻之后的时间段内，是否存在满足衰减条件的目标频点，使得终端对于每个频点，只需要在少数的音频帧中检测该频点是否满足衰减条件即可，不必在环境音频信号对应的所有音频帧中检测频点是否满足衰减条件，既能够选择出满足衰减条件的目标频点，又节省了终端确定目标频点时消耗的资源。

可选地，本实施例中，终端通过语音活性检测(Voice activity detection，VAD)算法来确定第一时刻。VAD算法在识别出音频信号为显著信号时，输出第一标志；在识别出音频信号为非显著信号时，输出第二标志，终端将第一标志跳变为第二标志的时刻确定为第一时刻。本实施例不对第一标志和第二标志的形式作限定，示意性地，第一标志通过“1”来表示，第二标志通过“0”来表示。

步骤302，从环境音频信号中截取目标音频信号，目标音频信号的起始时刻在第一时刻之前、且与第一时刻间隔第一预设时长；目标音频信号的截止时刻在第一时刻之后、且与第一时刻间隔第二预设时长。

目标音频信号是根据第一时刻确定的。

由于VAD算法在确定第一时刻时可能会存在误差，因此，终端在截取目标音频信号时，会在第一时刻之前，且与第一时刻间隔第一预设时长处开始截取目标音频信号。即，目标音频信号的起始时刻位于第一时刻之前，且与第一时刻间隔第一预设时长。

由于从第一时刻开始之后，满足衰减条件的频点通常为处于混响阶段的频点，因此，终端不需要根据第一时刻之后的所有环境音频信号来选择目标频点，只需要截取第一时刻之后的一段音频信号，根据该段音频信号选择目标频点。即，目标音频信号的截止时刻位于第一时刻之后，且与第一时刻间隔第二预设时长。

可选地，第一预设时长和第二预设时长相同或不同，本实施例不对第一预设时长和第二预设时长的数值作限定。示意性地，第一预设时长和第二预设时长相同，均为1秒(s)。

步骤303，对目标音频信号进行时频变换，得到目标频域信号。

有关时频变换的介绍详见步骤201，本实施例在此不作赘述。

步骤304，计算目标频域信号中各个频点在不同的音频帧中对应的信号能量。

有关计算频点在不同的音频帧中对应的信号能量的介绍详见步骤202，本实施例在此不作赘述。

步骤305，对于目标频域信号中的每个频点，检测频点的信号能量是否与音频帧序号呈负相关关系。

当频点的信号能量与音频帧序号呈负相关关系时，说明该频点均为随着时间的延长，信号能量呈衰减状态的频点，符合衰减条件，此时执行步骤306；当频点的信号能量不与音频帧序号呈负相关关系时，不符合衰减条件，则继续检测下一个频点的信号能量是否与音频帧序号呈负相关关系，直至所有的频点都检测完毕时停止。

步骤306，确定频点为目标频点。

综上所述，本实施例通过从环境音频信号中选择目标音频信号，对该目标音频信号进行时频变换，并从变换得到的目标频域信号中选择目标频点，得到的目标频点均为符合衰减条件的目标频点，既保证了终端计算实际混响时长的准确性；又使得终端不必对于每个频点，都在环境音频信号对应的全部音频帧中检测该频点是否满足衰减特性，而是从目标音频信号对应的部分音频帧中检测该频点是否满足衰减特性，节省了终端确定目标频点时消耗的资源。

基于图3所示的实施例，请参考图4，其示出了本发明一个实施例提供的第三种确定目标频点的方法的流程图。在步骤303之后，该方法包括如下几个步骤。

步骤401，从目标频域信号中提取频率范围在预设范围内的目标频段。

由于显著信号的频率和非显著信号的频率范围通常处于预设范围内，比如：声源发出的语音信号和处于混响阶段的语音信号的频率范围在200～800Hz范围内，因此，终端在得到目标频域信号之后，若检测频率预设范围内的目标频段中的各个频点是否满足衰减条件，则无需对所有频点都进行检测，节省了终端确定目标频点时消耗的资源。本实施例不对预设范围的取值作限定。

作为步骤305的可替换步骤，步骤402，对于目标频段中的每个频点，检测频点的信号能量是否与音频帧序号呈负相关关系。

当频点的信号能量与音频帧序号呈负相关关系时，执行步骤306；当频点的信号能量不与音频帧序号呈负相关关系时，继续检测下一个频点的信号能量是否与音频帧序号呈负相关关系，直至所有的频点都检测完毕时停止。

综上所述，本实施例通过从目标频域信号中选择目标频段，从该目标频点中选择目标频点，得到的目标频点均为符合衰减条件的目标频点，既保证了终端计算实际混响时长的准确性；又使得终端不必检测所有频点是否满足衰减特性，减少了终端所需检测的频点的数量，节省了终端确定目标频点时消耗的资源。

可选地，终端在步骤201之后，从频域信号中提取频率在预设范围内的目标频段；对于目标频段中的每个频点，检测频点的信号能量是否与音频帧序号呈负相关关系，其过程与本实施例的相关描述相同，本实施例在此不作赘述。

可选地，由于终端得到的信号能量与音频帧序号呈负相关关系的频点的个数可能很少，而其它的频点均不满足衰减条件，此时，该频点所属的环境音频信号是不符合混响现象的，因此，基于图2至图4的实施例，终端在得到信号能量与音频帧序号呈负相关关系的频点之后，还需要检测第一数量与第二数量之间的比值是否达到比例阈值，该第一数量为信号能量与音频帧序号呈负相关关系的频点的数量，第二数量为目标频域信号中所有频点的总数量；当第一数量与第二数量之间的比值达到比例阈值时，确定信号能量与音频帧序号呈负相关关系的频点为目标频点，从而提高终端确定目标频点的准确性。本实施例不对比例阈值的取值作限定。

可选地，由于终端得到信号能量与音频帧序号呈负相关关系的频点，该频点的信号能量可能只在较短的时长内呈衰减状态，之后又呈递增状态，此时，该频点是不符合混响现象的，因此，基于图2至图4所述的实施例，终端在得到信号能量与音频帧序号呈负相关关系的频点之后，还需要检测该频点的信号能量与音频帧序号呈负相关关系的时长是否达到预设时长；当频点的信号能量与音频帧序号呈负相关关系的时长是否达到预设时长时，确定频点为目标频点，从而提高终端确定目标频点的准确性。本实施例不对预设时长的取值作限定。

可选地，在实际实现时，终端确定频点m是否为目标频点的方式可以通过下述伪代码实现。其中，m为正整数。终端也可以通过其它伪代码来确定目标频点，本实施例对此不作限定。其中，伪代码(又称虚拟代码)是用于描述算法的一种方法。

fall_flag＝0；(初始化频点m不是目标频点)

cnt＝0；(初始化频点m的衰减时长为0)

for i＝0～T-3(循环检测频点m在T-2帧音频帧中是否呈衰减状态)

if(Xm_sm(i)>Xm_sm(i+2))(如果频点m在第i帧上对应的信号能量大于在第i+2帧上对应的信号能量，则说明频点m在第i帧至第i+2帧期间呈衰减状态)

cnt++；(衰减时长的计数+1)

end(如果m在第i帧上对应的信号能量小于或等于在第i+2帧上对应的信号能量，则说明频点m在第i帧至第i+2帧期间不呈衰减状态，则频点m在i+1帧至i+1+2帧期间是否呈衰减状态，且衰减时长的计数不变)

end(如果频点m在所有音频帧上都检测完毕，则输出衰减时长的计数值)

if cnt>0.85*(T-2)(如果衰减时长的计数值大于0.85*(T-2))

fall_flag＝1；(确定频点m是目标频点)

end

下面结合上述各个实施例，对终端确定出n个目标频点后，根据该n个目标频点中单个目标频点混响时长计算实际混响时长进行介绍。

请参考图5，其示出了本发明一个实施例提供的一种计算实际混响时长的方法的流程图。该方法可以包括以下几个步骤：

步骤501，对于n个目标频点中的每个目标频点，确定目标频点的信号能量衰减至信号能量阈值的第二时刻。

目标频点的信号能量衰减至信号能量阈值的第二时刻，即为混响阶段的结束时刻。

步骤502，确定第一时刻至第二时刻之间的时长为目标频点的单个目标频点混响时长。

第一时刻为混响阶段的起始时刻。单个目标频点混响时长＝第二时刻-第一时刻。

步骤503，将n个目标频点的单个目标频点混响时长的和除以n，得到实际混响时长。

终端计算实际混响时长的公式如下，其中，T60为实际混响时长，n为目标频点的个数，k为第k个目标频点，t60(k)为第k个目标频点的单个目标频点混响时长。

下面结合上述各个实施例对终端中的混响模型进行详细介绍。

1)混响模型为梳状滤波器模型。

梳状滤波器模型由下述公式表示，其中，y(n)为处理后的虚拟音频信号，a为衰减系统，且a为大于0且小于1的定值，D为实际混响时长，x(n)为虚拟音频信号。

y(n)＝a(n-D)+x(n)

参考图6，其示出了梳状滤波器模型的示意图，该梳状滤波模型包括信号叠加模块601、衰减模块602和延迟模块603。其中，衰减模块602的衰减系数a为定值，延迟模块603的延迟时长为实际混响时长。虚拟音频信号604输入该梳状滤波器模型后，经过延迟模块603延迟了实际混响时长后，经过衰减模块602进行衰减，然后输入信号叠加模块601，信号叠加模块将衰减后的音频信号与虚拟音频信号604进行叠加，得到处理后的虚拟信号605并输出。

2)混响模型为全通滤波器模型。

全通滤波器模型由下述公式表示，其中，y(n)为处理后的虚拟音频信号，g为反馈增益，且g为大于0且小于1的定值，m为实际混响时长，x(n)为虚拟音频信号。

y(n)＝-gx(n)+x(n-m)+gy(n-m)

参考图7，其示出了全通滤波器模型的示意图，该梳状滤波模型包括第一信号叠加模块701、第二信号叠加模块702、前向反馈支路703、后向反馈支路704和延迟模块705。其中，前向反馈支路703的反馈增益为-g，后向反馈支路704的反馈增益为g，延迟模块705的延迟时长为实际混响时长。

虚拟音频信号706输入该全通滤波器模型后，同时经过前向反馈支路703和延迟模块705，前向反馈支路703对虚拟音频信号706进行衰减得到第一信号；延迟模块705对虚拟音频信号706进行延时，得到第二信号；将第二信号输入后向反馈支路704进行衰减得到第三信号，将第二信号和第三信号经过第一信号叠加模块701进行叠加，得到第四信号；将第四信号与第一信号经过第二信号叠加模块702进行叠加得到处理后的虚拟音频信号。

3)混响模型为Schroeder混响模型。

参考图8，其示出了Schroeder混响模型的示意图。Schroeder混响模型包括4个并联的梳状滤波器801和2个串联的全通滤波器802。

Schroeder混响模型涉及的参数有：梳状滤波器801的延迟时长D1、D2、D3、D4；全通滤波器802的延迟时长D3、D6；梳状滤波器801的衰减系数a1、a2、a3、a4；全通滤波器802的反馈增益g1、g2。

D1～D6可以根据实际混响时长进行调节，且通常较大，否则不能达到实际混响时长。另外，终端可以通过调整梳状滤波器801的衰减系数和全通滤波器802的反馈增益来得到实际混响时长。

梳状滤波器801的衰减系数通过下述公式计算得到，其中，a_i表示第i个梳状滤波器801的衰减系数，m_i表示第i个梳状滤波器801的延时样点数，f_s表示采样频率，T60为实际混响时长。本实施例不对m_i的数值作限定。

可选地，当四个梳状滤波器801的m_i的数值相等时，存在声染色现象，通过将各个梳状滤波器801的m_i的数值设置的不规则，使各个梳状滤波器801频谱的峰谷互不重叠，可避免产生较严重的声染色。比如：m₀＝2191，m₁＝2971，m₂＝3253，m₃＝3307。其中，声染色(又叫声染)是指在音频信号中某一频率得到过分加强或者减弱时，破坏了音频信号的均匀性的现象。

可选地，反馈增益g1、g2的值预设在终端中，本实施例不对g1、g2的数值作限定，示意性地，g1＝0.7，g2＝0.34。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参考图9，其示出了本发明一个实施例提供的音频信号生成装置的框图。智能电视该装置具有执行上述方法示例的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：信号采集模块910、混响计算模块920、混响调整模块930和信号叠加模块940。

信号采集模块910，用于执行上述步骤101；

混响计算模块920，用于执行上述步骤102；

混响调整模块930，用于执行上述步骤103；

信号叠加模块940，用于执行上述步骤104。

可选地，混响计算模块820，包括：频点确定单元和混响计算单元。

频点确定单元，用于根据环境音频信号，确定信号能量满足衰减条件的n个目标频点，衰减条件是指：频点的信号能量随着时间的延长呈衰减状态，n为正整数；

混响计算单元，用于计算n个目标频点的单个目标频点混响时长的平均值，得到实际混响时长，单个目标频点混响时长是指一个目标频点的混响时长。

可选地，频点确定单元，包括：

信号截取子单元，用于从环境音频信号中截取目标音频信号，目标音频信号为环境音频信号中存在混响现象的音频信号；

信号变换子单元，用于执行上述步骤201和303；

能量计算子单元，用于执行上述步骤202和304；

能量检测子单元，用于执行上述步骤203和305；

频点确定子单元，用于执行上述步骤204和306。

可选地，所信号截取子单元，还用于执行上述步骤301和302。

可选地，能量检测子单元，还用于执行上述步骤401和402。

可选地，频点确定子单元，还用于：当频点的信号能量与音频帧序号呈负相关关系时，检测频点的信号能量与音频帧序号呈负相关关系的时长是否达到预设时长；当频点的信号能量与音频帧序号呈负相关关系的时长是否达到预设时长时，确定频点为目标频点。

可选地，频点确定子单元，还用于：检测第一数量与第二数量之间的比值是否达到比例阈值，第一数量为信号能量与音频帧序号呈负相关关系的频点的数量，第二数量为目标频域信号中所有频点的总数量；当第一数量与第二数量之间的比值达到比例阈值时，确定信号能量与音频帧序号呈负相关关系的频点为目标频点。

可选地，混响计算单元，包括：第一确定子单元、第二确定子单元和计算子单元

第一确定子单元，用于执行上述步骤501；

第二确定子单元，用于执行上述步骤502；

计算子单元，用于执行上述步骤503。

可选地，混响调整模块，包括：第一调整单元和信号调整单元。

第一调整单元，用于根据实际混响时长调整预设混响模型的混响系数，得到调整后的混响模型；

信号调整单元，用于将虚拟音频信号输入调整后的混响模型，得到处理后的虚拟音频信号。

可选地，信号叠加模块，包括：第一计算单元、第二计算单元和信号叠加单元。

第一计算单元，用于将环境音频信号乘以第一加权值，得到第一音频信号，第一加权值为小于1的正数；

第二计算单元，用于将处理后的虚拟音频信号乘以第二加权值，得到第二音频信号，第一加权值与第二加权值的和为1；

信号叠加单元，用于将第一音频信号与第二音频信号的和确定为叠加后的音频信号。

相关细节可参考图1B、图2、图3、图4和图5所示的方法实施例。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，其示出了本发明一个实施例提供的终端的结构示意图。该终端1000用于实施上述实施例中提供的音频信号生成方法。具体来讲：

终端1000可以包括RF(Radio Frequency，射频)电路1010、包括有一个或一个以上计算机可读存储介质的存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、WiFi(wireless fidelity，无线保真)模块1070、包括有一个或者一个以上处理核心的处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1080处理；另外，将涉及上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端1000的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1020还可以包括存储器控制器，以提供处理器1080和输入单元1030对存储器1020的访问。

输入单元1030可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1030可包括图像输入设备1031以及其他输入设备1032。图像输入设备1031可以是摄像头，也可以是光电扫描设备。除了图像输入设备1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及终端1000的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1040可包括显示面板1041，可选地，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板1041。

终端1000还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在终端1000移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端1000还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器10101，传声器10102可提供用户与终端1000之间的音频接口。传声器10102还用于采集真实环境中的环境音频信号。音频电路1060可将接收到的音频数据(环境音频信号)转换后的电信号，传输到扬声器10101，由扬声器10101转换为声音信号输出；另一方面，传声器10102将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一终端，或者将音频数据输出至存储器1020以便进一步处理。音频电路1060还可能包括耳塞插孔，以提供外设耳机与终端1000的通信。

WiFi属于短距离无线传输技术，终端1000通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于终端1000的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是终端1000的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行终端1000的各种功能和处理数据，从而对手机进行整体监控。可选地，处理器1080可包括一个或多个处理核心；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

终端1000还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1090还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端1000还可以包括蓝牙模块等，在此不再赘述。

具体在本实施例中，终端1000还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法的指令。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频信号生成方法，其特征在于，所述方法包括：

从所述环境音频信号中截取目标音频信号，所述目标音频信号为所述环境音频信号中存在混响现象的音频信号；

对所述目标音频信号进行时频变换，得到目标频域信号；

计算所述目标频域信号中各个频点在不同的音频帧中对应的信号能量；

对于所述目标频域信号中的每个频点，检测所述频点的信号能量是否与音频帧序号呈负相关关系，所述音频帧序号是指所述音频帧的序号，且所述音频帧序号与采集时间呈正相关关系；

当所述频点的信号能量与音频帧序号呈负相关关系时，确定所述频点为目标频点；

计算得到的n个目标频点的单个目标频点混响时长的平均值，得到实际混响时长，所述n为正整数，所述单个目标频点混响时长是指一个所述目标频点的混响时长，所述实际混响时长是指所述环境音频信号从起始信号能量衰减至信号能量阈值所经历的时长；

2.根据权利要求1所述的方法，其特征在于，所述从所述环境音频信号中截取目标音频信号，包括：

确定所述环境音频信号由显著信号切换为非显著信号的第一时刻，所述显著信号是指信号能量大于预设阈值的音频信号，所述非显著信号是指所述环境音频信号中除所述显著信号之外的音频信号，所述第一时刻对应的信号能量为所述环境音频信号的所述起始信号能量；

从所述环境音频信号中截取目标音频信号，所述目标音频信号的起始时刻在所述第一时刻之前、且与所述第一时刻间隔第一预设时长；所述目标音频信号的截止时刻在所述第一时刻之后、且与所述第一时刻间隔第二预设时长。

3.根据权利要求1所述的方法，其特征在于，所述对于所述目标频域信号中的每个频点，检测所述频点的信号能量是否与音频帧序号呈负相关关系，包括：

从所述目标频域信号中提取频率范围在预设范围内的目标频段；

对于所述目标频段中的每个频点，检测所述频点的信号能量是否与音频帧序号呈负相关关系。

4.根据权利要求1所述的方法，其特征在于，所述当所述频点的信号能量与音频帧序号呈负相关关系时，确定所述频点为目标频点，包括：

当所述频点的信号能量与音频帧序号呈负相关关系时，检测所述频点的信号能量与音频帧序号呈负相关关系的时长是否达到预设时长；

当所述频点的信号能量与音频帧序号呈负相关关系的时长是否达到预设时长时，确定所述频点为所述目标频点。

5.根据权利要求1所述的方法，其特征在于，所述当所述频点的信号能量与音频帧序号呈负相关关系时，确定所述频点为目标频点，包括：

检测第一数量与第二数量之间的比值是否达到比例阈值，第一数量为信号能量与音频帧序号呈负相关关系的频点的数量，所述第二数量为所述目标频域信号中所有频点的总数量；

当所述第一数量与所述第二数量之间的比值达到所述比例阈值时，确定信号能量与音频帧序号呈负相关关系的频点为所述目标频点。

6.根据权利要求1所述的方法，其特征在于，所述计算得到的n个目标频点的单个目标频点混响时长的平均值，得到所述实际混响时长，包括：

对于所述n个目标频点中的每个所述目标频点，确定所述目标频点的信号能量衰减至所述信号能量阈值的第二时刻；

确定第一时刻至所述第二时刻之间的时长为所述目标频点的单个目标频点混响时长，所述第一时刻为所述环境音频信号由显著信号切换为非显著信号的时刻；

将所述n个目标频点的所述单个目标频点混响时长的和除以n，得到所述实际混响时长。

7.根据权利要求1至6任一所述的方法，其特征在于，所述根据所述实际混响时长调整虚拟音频信号的混响效果，得到处理后的虚拟音频信号，包括：

根据所述实际混响时长调整预设混响模型的混响系数，得到调整后的混响模型；

将所述虚拟音频信号输入所述调整后的混响模型，得到所述处理后的虚拟音频信号。

8.根据权利要求1至6任一所述的方法，其特征在于，所述将所述处理后的虚拟音频信号与所述环境音频信号进行叠加，得到叠加后的音频信号，包括：

将所述环境音频信号乘以第一加权值，得到第一音频信号，所述第一加权值为小于1的正数；

将所述处理后的虚拟音频信号乘以第二加权值，得到第二音频信号，所述第一加权值与所述第二加权值的和为1；

将所述第一音频信号与所述第二音频信号的和确定为所述叠加后的音频信号。

9.一种音频信号生成装置，其特征在于，所述装置包括：

混响计算模块包括频点确定单元和混响计算单元，所述频点确定单元包括信号截取子单元、信号变换子单元、能量计算子单元、能量检测子单元和频点确定子单元，所述信号截取子单元，用于从所述环境音频信号中截取目标音频信号，所述目标音频信号为所述环境音频信号中存在混响现象的音频信号；所述信号变换子单元，用于对所述信号截取子单元得到的所述目标音频信号进行时频变换，得到目标频域信号；所述能量计算子单元，用于计算所述信号变换子单元得到的所述目标频域信号中各个频点在不同的音频帧中对应的信号能量；所述能量检测子单元，用于对于所述目标频域信号中的每个频点，检测所述能量计算子单元得到的所述频点的信号能量是否与音频帧序号呈负相关关系，所述音频帧序号是指所述音频帧的序号，且所述音频帧序号与采集时间呈正相关关系；所述频点确定子单元，用于当所述能量检测子单元检测出所述频点的信号能量与音频帧序号呈负相关关系时，确定所述频点为目标频点；所述混响计算单元，用于计算得到的n个目标频点的单个目标频点混响时长的平均值，得到实际混响时长，所述n为正整数，所述单个目标频点混响时长是指一个所述目标频点的混响时长，所述实际混响时长是指所述环境音频信号从起始信号能量衰减至信号能量阈值所经历的时长；

10.根据权利要求9所述的装置，其特征在于，所述信号截取子单元，还用于：

11.根据权利要求9所述的装置，其特征在于，所述能量检测子单元，还用于：

12.根据权利要求9所述的装置，其特征在于，所述频点确定子单元，还用于：

13.根据权利要求9所述的装置，其特征在于，所述频点确定子单元，还用于：

14.根据权利要求9所述的装置，其特征在于，所述混响计算单元，包括：

第一确定子单元，用于对于所述n个目标频点中的每个所述目标频点，确定所述目标频点的信号能量衰减至所述信号能量阈值的第二时刻；

第二确定子单元，用于确定第一时刻至所述第二时刻之间的时长为所述目标频点的单个目标频点混响时长，所述第一时刻为所述环境音频信号由显著信号切换为非显著信号的时刻；

计算子单元，用于将所述n个目标频点的所述单个目标频点混响时长的和除以n，得到所述实际混响时长。

15.根据权利要求9至14任一所述的装置，其特征在于，所述混响调整模块，包括：

第一调整单元，用于根据所述实际混响时长调整预设混响模型的混响系数，得到调整后的混响模型；

信号调整单元，用于将所述虚拟音频信号输入所述调整后的混响模型，得到所述处理后的虚拟音频信号。

16.根据权利要求9至14任一所述的装置，其特征在于，所述信号叠加模块，包括：

第一计算单元，用于将所述环境音频信号乘以第一加权值，得到第一音频信号，所述第一加权值为小于1的正数；

第二计算单元，用于将所述处理后的虚拟音频信号乘以第二加权值，得到第二音频信号，所述第一加权值与所述第二加权值的和为1；

信号叠加单元，用于将所述第一音频信号与所述第二音频信号的和确定为所述叠加后的音频信号。