CN111933156B

CN111933156B - 基于多重特征识别的高保真音频处理方法及装置

Info

Publication number: CN111933156B
Application number: CN202011021411.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: Guangzhou Bairui Network Technology Co ltd
Current assignee: Guangzhou Bairui Network Technology Co ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-19
Anticipated expiration: 2040-09-25
Also published as: CN111933156A

Abstract

本发明揭示的基于多重特征识别的高保真音频处理方法及装置，首先从信号输入设备中采集待处理音频信号，其次解析待处理音频信号以获得每组待处理音频信号对应的特征因子并根据特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布，然后提取每组音频特征分布中不随音频幅值波动而变化的目标特征集合并基于目标特征集合确定每组音频特征分布对应的生物特征数据，最后建立信号输入设备的音频信号解码列表并构建音频信号解码列表的解码队列以进行识别得到音频信号解码路径，根据音频信号解码路径对待处理音频信号进行信号解码以得到目标音频信号并输出。本发明能够确保解码的保真度，确保目标音频信号更加接近于原始信号。

Description

基于多重特征识别的高保真音频处理方法及装置

技术领域

本发明涉及基于音频信号解码处理技术领域，特别涉及一种基于多重特征识别的高保真音频处理方法及装置。

背景技术

随着科技的发展，语音交流已成为人们日常的远程通信交流方式。电子设备的类型多样化和功能全面化使得不同电子设备之间能够进行音频数据的传输以实现语音交流。音频数据的传输过程通常如下：发出端将音频数据或音频信号进行压缩编码，然后通过特定的频段发送给接收端，接收端对压缩编码后的音频信号进行解码以实现音频信号的还原。然而在实际应用时，常常会出现解码得到的信号的保真度差，与原始信号相差甚远的技术问题。

发明内容

有鉴于此，本发明提供了一种基于多重特征识别的高保真音频处理方法及装置。

第一方面，提供一种基于多重特征识别的高保真音频处理方法，应用于与信号输入设备存在数据通信连接的信号处理设备，所述方法包括：

向所述信号输入设备发送携带有音频输出参数的音频数据获取申请，在接收到所述信号输入设备基于所述音频数据获取申请发送的确认信息时，从所述信号输入设备的音频信号输出接口中采集待处理音频信号；

解析所述信号输入设备对应的待处理音频信号以获得每组待处理音频信号对应的特征因子，根据所述特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布；其中，所述音频特征分布的分布轨迹为设定分布轨迹；

提取每组音频特征分布中不随音频幅值波动而变化的目标特征集合，基于所述目标特征集合确定每组音频特征分布对应的生物特征数据；其中，所述生物特征数据用于表征音频特征分布对应生物特征数据的信号加重参数；

通过所述生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立所述信号输入设备的音频信号解码列表；构建所述音频信号解码列表的解码队列并对所述解码队列进行识别得到音频信号解码路径，根据所述音频信号解码路径对所述待处理音频信号进行信号解码以得到目标音频信号并输出。

可选地，解析所述信号输入设备对应的待处理音频信号以获得每组待处理音频信号对应的特征因子，具体包括：

解析所述信号输入设备对应的待处理音频信号以确定出所述待处理音频信号对应的特征缺损分布；

调取每组特征缺损分布对应的缺损百分比矩阵的音质缺损阵列数据；

从所述音质缺损阵列数据中确定出与其对应的特征缺损分布之间存在特征类别标记信息的特征缺损指向数据，根据所述特征缺损指向数据在所述特征缺损分布中确定出所述特征因子。

可选地，根据所述特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布，进一步包括：

提取所述特征因子对应的音质加重数据并将所述音质加重数据进行拆分得到多个连续的数据片段，确定每个数据片段的音质偏移系数以及相邻两个数据片段之间的声纹匹配度；

获取每组待处理音频信号的信号幅值队列并根据所述信号幅值队列构建用于指示所述待处理音频信号的音频幅值波动率的第一信号幅值集合以及用于指示所述待处理音频信号的信号失真程度的第二信号幅值集合；其中，所述第一信号幅值集合和所述第二信号幅值集合中均包括多个具有不同幅值修正系数的幅值单元；

基于确定出的每个数据片段的音质偏移系数以及相邻两个数据片段之间的声纹匹配度对所述第一信号幅值集合中的幅值单元进行筛选，使得筛选得到的第一幅值单元对应的音频幅值波动率在每个数据片段上的匹配系数与该数据片段对应的音质偏移系数之间的差值大于第一预设值、且筛选得到的第一幅值单元在所述第一信号幅值集合中的幅值影响因子小于确定出的每个声纹匹配度；从所述第一幅值单元中确定出最大幅值修正系数对应的目标幅值单元对应的幅值区段且并行地从所述第二信号幅值集合中选取基准幅值单元；其中，所述基准幅值单元对应的信号失真程度为所述第二信号幅值集合对应的所有信号失真程度中的中位数且所述基准幅值单元的幅值修正系数为所述第二信号幅值集合对应的所有信号失真程度中的最小值；

将所述幅值区段映射至所述基准幅值单元中以在所述基准幅值单元中得到与所述幅值区段对应的映射区段，通过所述映射区段和所述幅值区段之间的幅值变化轨迹确定每组待处理音频信号对应的信号频谱特征提取路径；提取每条信号频谱特征提取路径对应的路径分布信息以及所述路径分布信息对应的音频特征提取节点，基于所述路径分布信息对每组待处理音频信号进行信号频谱特征提取得到音频特征数据流并通过所述音频特征提取节点对所述音频特征数据流进行特征再分配以得到所述音频特征分布。

可选地，基于所述目标特征集合确定每组音频特征分布对应的生物特征数据，包括：

从所述目标特征集合中提取出多个特征环境信息，并确定每个特征环境信息的音质环境指标；

提取每组音质环境指标对应的指标基准区间并按照所述音质环境指标对应的特征环境信息在所述目标特征集合中的相对位置将所述指标基准区间对应的区间值进行排序以得到指标基准区间序列；

按照所述指标基准区间序列对应的生物特征指向信息提取每组音频特征分布对应的生物信息感应记录，并基于所述音频特征分布对应的特征再分配记录从所述生物信息感应记录中确定出所述生物特征数据。

可选地，通过所述生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立所述信号输入设备的音频信号解码列表，包括：

基于所述生物特征数据中的全带信号特征确定所述信号输入设备对应的信号解码线程参数；其中，每组信号解码线程参数存在两个解码参数集，每组信号解码线程参数中的两个解码参数集的解码优先级不同，每组信号解码线程参数的解码逻辑指向为该信号解码线程参数中具有较高解码优先级的解码参数集指向具有较低解码优先级的解码参数集；

根据从所述音频特征分布中确定出的音频损耗数据确定所述音频损耗数据对应的信号输入设备的解码资源配置信息；

根据所述解码资源配置信息确定对应的信号输入设备的解码资源分配记录并基于所述解码资源分配记录获取所述信号输入设备对应的信号解码日志；

通过所述信号输入设备对应的信号解码日志以及每组信号解码线程参数对应的解码参数集和解码逻辑指向建立所述信号输入设备的音频信号解码列表。

第二方面，提供一种基于多重特征识别的高保真音频处理装置，应用于与信号输入设备存在数据通信连接的信号处理设备，所述装置包括：

音频信号采集模块，用于向所述信号输入设备发送携带有音频输出参数的音频数据获取申请，在接收到所述信号输入设备基于所述音频数据获取申请发送的确认信息时，从所述信号输入设备的音频信号输出接口中采集待处理音频信号；

特征分布提取模块，用于解析所述信号输入设备对应的待处理音频信号以获得每组待处理音频信号对应的特征因子，根据所述特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布；其中，所述音频特征分布的分布轨迹为设定分布轨迹；

特征数据确定模块，用于提取每组音频特征分布中不随音频幅值波动而变化的目标特征集合，基于所述目标特征集合确定每组音频特征分布对应的生物特征数据；其中，所述生物特征数据用于表征音频特征分布对应生物特征数据的信号加重参数；

音频信号解码模块，用于通过所述生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立所述信号输入设备的音频信号解码列表；构建所述音频信号解码列表的解码队列并对所述解码队列进行识别得到音频信号解码路径，根据所述音频信号解码路径对所述待处理音频信号进行信号解码以得到目标音频信号并输出。

可选地，特征分布提取模块，用于：

可选地，特征数据确定模块，用于：

可选地，音频信号解码模块，用于：

有益效果

本发明的实施例提供的技术方案可以包括以下有益效果。

首先从信号输入设备的音频信号输出接口中采集待处理音频信号，其次解析待处理音频信号以获得每组待处理音频信号对应的特征因子并根据特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布，然后提取每组音频特征分布中不随音频幅值波动而变化的目标特征集合并基于目标特征集合确定每组音频特征分布对应的生物特征数据，最后通过生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立信号输入设备的音频信号解码列表，构建音频信号解码列表的解码队列并对解码队列进行识别得到音频信号解码路径，根据音频信号解码路径对待处理音频信号进行信号解码以得到目标音频信号并输出。如此，能够确保解码的保真度，确保目标音频信号更加接近于原始信号。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是本发明提供的基于多重特征识别的高保真音频处理方法的流程图。

图2是本发明提供的基于多重特征识别的高保真音频处理装置的功能模块框图。

图3是本发明提供的信号处理设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为改善现有技术存在的上述技术问题，本发明实施例首先提供了如图1所示的基于多重特征识别的高保真音频处理方法，所述方法可以应用于与信号输入设备存在数据通信连接的信号处理设备，在本实施例中，信号输入设备和信号处理设备可以是智能手机、平板电脑、笔记本电脑和台式计算机等，也可以是智能音响，在此不作限定。进一步地，所述方法可以包括以下步骤S110-步骤S140所描述的内容。

步骤S110，向所述信号输入设备发送携带有音频输出参数的音频数据获取申请，在接收到所述信号输入设备基于所述音频数据获取申请发送的确认信息时，从所述信号输入设备的音频信号输出接口中采集待处理音频信号。

在本实施例中，音频数据获取申请携带有信号处理设备的身份认证信息，确认信息用于表征信号输入设备以完成对身份认证信息的确定。

步骤S120，解析所述信号输入设备对应的待处理音频信号以获得每组待处理音频信号对应的特征因子，根据所述特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布。

在本实施例中，所述音频特征分布的分布轨迹为设定分布轨迹。

步骤S130，提取每组音频特征分布中不随音频幅值波动而变化的目标特征集合，基于所述目标特征集合确定每组音频特征分布对应的生物特征数据。

在本实施例中，所述生物特征数据用于表征音频特征分布对应生物特征数据的信号加重参数。

步骤S140，通过所述生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立所述信号输入设备的音频信号解码列表；构建所述音频信号解码列表的解码队列并对所述解码队列进行识别得到音频信号解码路径，根据所述音频信号解码路径对所述待处理音频信号进行信号解码以得到目标音频信号并输出。

其中，构建所述音频信号解码列表的解码队列并对所述解码队列进行识别得到音频信号解码路径，根据所述音频信号解码路径对所述待处理音频信号进行信号解码以得到目标音频信号并输出，具体包括：

根据所述音频信号解码列表的列表结构生成解码队列，采用预设的卷积神经网络对所述解码队列进行识别得到音频信号解码路径，根据所述音频信号解码路径中的每个解码节点的执行函数对所述待处理音频信号进行信号解码以得到目标音频信号并进行语音播报或者文字显示。

可以理解，通过上述步骤S110-步骤S140所描述的内容，首先从信号输入设备的音频信号输出接口中采集待处理音频信号，其次解析待处理音频信号以获得每组待处理音频信号对应的特征因子并根据特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布，然后提取每组音频特征分布中不随音频幅值波动而变化的目标特征集合并基于目标特征集合确定每组音频特征分布对应的生物特征数据，最后通过生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立信号输入设备的音频信号解码列表，构建音频信号解码列表的解码队列并对解码队列进行识别得到音频信号解码路径，根据音频信号解码路径对待处理音频信号进行信号解码以得到目标音频信号并输出。如此，能够确保解码的保真度，确保目标音频信号更加接近于原始信号。

在一个具体的实施方式中，为了准确地确定出每组待处理音频信号对应的特征因子，步骤S120所描述的解析所述信号输入设备对应的待处理音频信号以获得每组待处理音频信号对应的特征因子，具体可以包括以下步骤S1211-步骤S1213所描述的内容。

步骤S1211，解析所述信号输入设备对应的待处理音频信号以确定出所述待处理音频信号对应的特征缺损分布。

步骤S1212，调取每组特征缺损分布对应的缺损百分比矩阵的音质缺损阵列数据。

步骤S1213，从所述音质缺损阵列数据中确定出与其对应的特征缺损分布之间存在特征类别标记信息的特征缺损指向数据，根据所述特征缺损指向数据在所述特征缺损分布中确定出所述特征因子。

如此，基于上述步骤S1211-步骤S1213，能够准确地确定出每组待处理音频信号对应的特征因子。

在一个可能的实施方式中，为了确保音频特征分布的完整性，步骤S120所描述的根据所述特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布，具体可以包括以下步骤S1221-步骤S1224所描述的内容。

步骤S1221，提取所述特征因子对应的音质加重数据并将所述音质加重数据进行拆分得到多个连续的数据片段，确定每个数据片段的音质偏移系数以及相邻两个数据片段之间的声纹匹配度。

步骤S1222，获取每组待处理音频信号的信号幅值队列并根据所述信号幅值队列构建用于指示所述待处理音频信号的音频幅值波动率的第一信号幅值集合以及用于指示所述待处理音频信号的信号失真程度的第二信号幅值集合；其中，所述第一信号幅值集合和所述第二信号幅值集合中均包括多个具有不同幅值修正系数的幅值单元。

步骤S1223，基于确定出的每个数据片段的音质偏移系数以及相邻两个数据片段之间的声纹匹配度对所述第一信号幅值集合中的幅值单元进行筛选，使得筛选得到的第一幅值单元对应的音频幅值波动率在每个数据片段上的匹配系数与该数据片段对应的音质偏移系数之间的差值大于第一预设值、且筛选得到的第一幅值单元在所述第一信号幅值集合中的幅值影响因子小于确定出的每个声纹匹配度；从所述第一幅值单元中确定出最大幅值修正系数对应的目标幅值单元对应的幅值区段且并行地从所述第二信号幅值集合中选取基准幅值单元；其中，所述基准幅值单元对应的信号失真程度为所述第二信号幅值集合对应的所有信号失真程度中的中位数且所述基准幅值单元的幅值修正系数为所述第二信号幅值集合对应的所有信号失真程度中的最小值。

步骤S1224，将所述幅值区段映射至所述基准幅值单元中以在所述基准幅值单元中得到与所述幅值区段对应的映射区段，通过所述映射区段和所述幅值区段之间的幅值变化轨迹确定每组待处理音频信号对应的信号频谱特征提取路径；提取每条信号频谱特征提取路径对应的路径分布信息以及所述路径分布信息对应的音频特征提取节点，基于所述路径分布信息对每组待处理音频信号进行信号频谱特征提取得到音频特征数据流并通过所述音频特征提取节点对所述音频特征数据流进行特征再分配以得到所述音频特征分布。

在应用上述步骤S1221-步骤S1224所描述的内容时，能够确保音频特征分布的完整性。

在一个可替换的实施方式中，为了确保生物特征数据与每组音频特征分布的一一对应，步骤S130所描述的基于所述目标特征集合确定每组音频特征分布对应的生物特征数据，具体包括以下步骤S131-步骤S133所描述的内容。

步骤S131，从所述目标特征集合中提取出多个特征环境信息，并确定每个特征环境信息的音质环境指标。

步骤S132，提取每组音质环境指标对应的指标基准区间并按照所述音质环境指标对应的特征环境信息在所述目标特征集合中的相对位置将所述指标基准区间对应的区间值进行排序以得到指标基准区间序列。

步骤S133，按照所述指标基准区间序列对应的生物特征指向信息提取每组音频特征分布对应的生物信息感应记录，并基于所述音频特征分布对应的特征再分配记录从所述生物信息感应记录中确定出所述生物特征数据。

这样以来，可以通过上述步骤S131-步骤S133确保生物特征数据与每组音频特征分布的一一对应。

在一个具体的实施方式中，为了确保音频信号解码列表不会出现错位或部分缺失，步骤S140所描述的通过所述生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立所述信号输入设备的音频信号解码列表，具体可以包括以下步骤S141-步骤S144所描述的内容。

步骤S141，基于所述生物特征数据中的全带信号特征确定所述信号输入设备对应的信号解码线程参数；其中，每组信号解码线程参数存在两个解码参数集，每组信号解码线程参数中的两个解码参数集的解码优先级不同，每组信号解码线程参数的解码逻辑指向为该信号解码线程参数中具有较高解码优先级的解码参数集指向具有较低解码优先级的解码参数集。

步骤S142，根据从所述音频特征分布中确定出的音频损耗数据确定所述音频损耗数据对应的信号输入设备的解码资源配置信息。

步骤S143，根据所述解码资源配置信息确定对应的信号输入设备的解码资源分配记录并基于所述解码资源分配记录获取所述信号输入设备对应的信号解码日志。

步骤S144，通过所述信号输入设备对应的信号解码日志以及每组信号解码线程参数对应的解码参数集和解码逻辑指向建立所述信号输入设备的音频信号解码列表。

通过应用上述步骤S141-步骤S144，可以确保音频信号解码列表不会出现错位或部分缺失。

基于上述同样的发明构思，请结合参阅图2，提供了基于多重特征识别的高保真音频处理装置200的功能模块框图，所述装置包括：

音频信号采集模块210，用于向所述信号输入设备发送携带有音频输出参数的音频数据获取申请，在接收到所述信号输入设备基于所述音频数据获取申请发送的确认信息时，从所述信号输入设备的音频信号输出接口中采集待处理音频信号；

特征分布提取模块220，用于解析所述信号输入设备对应的待处理音频信号以获得每组待处理音频信号对应的特征因子，根据所述特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布；其中，所述音频特征分布的分布轨迹为设定分布轨迹；

特征数据确定模块230，用于提取每组音频特征分布中不随音频幅值波动而变化的目标特征集合，基于所述目标特征集合确定每组音频特征分布对应的生物特征数据；其中，所述生物特征数据用于表征音频特征分布对应生物特征数据的信号加重参数；

音频信号解码模块240，用于通过所述生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立所述信号输入设备的音频信号解码列表；构建所述音频信号解码列表的解码队列并对所述解码队列进行识别得到音频信号解码路径，根据所述音频信号解码路径对所述待处理音频信号进行信号解码以得到目标音频信号并输出。

可替换地，特征分布提取模块220，用于：

可替换地，特征数据确定模块230，用于：

可替换地，音频信号解码模块240，用于：

应当理解，关于图2所示的功能模块的说明可以参阅对图1所示的方法的详细说明，因此在此不作更多说明。

进一步地，请结合参阅图3，还提供了一种信号处理设备100的硬件架构图，包括通过总线103通信的处理器101和存储器102，处理器101从存储器102中读取计算机程序并执行，可以实现如图2所示的方法。基于此，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在运行时实现上述图2所示的方法。

以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围，而仅仅是表示本申请的选定实施例。因此，本申请的保护范围应以权利要求的保护范围为准。此外，基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本申请保护的范围。

Claims

1.一种基于多重特征识别的高保真音频处理方法，其特征在于，应用于与信号输入设备存在数据通信连接的信号处理设备，所述方法包括：

通过所述生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立所述信号输入设备的音频信号解码列表；构建所述音频信号解码列表的解码队列并对所述解码队列进行识别得到音频信号解码路径，根据所述音频信号解码路径对所述待处理音频信号进行信号解码以得到目标音频信号并输出；

其中，解析所述信号输入设备对应的待处理音频信号以获得每组待处理音频信号对应的特征因子，具体包括：解析所述信号输入设备对应的待处理音频信号以确定出所述待处理音频信号对应的特征缺损分布；调取每组特征缺损分布对应的缺损百分比矩阵的音质缺损阵列数据；从所述音质缺损阵列数据中确定出与其对应的特征缺损分布之间存在特征类别标记信息的特征缺损指向数据，根据所述特征缺损指向数据在所述特征缺损分布中确定出所述特征因子。

2.根据权利要求1所述的方法，其特征在于，根据所述特征因子对每组待处理音频信号进行信号频谱特征提取得到音频特征分布，进一步包括：

3.根据权利要求1所述的方法，其特征在于，基于所述目标特征集合确定每组音频特征分布对应的生物特征数据，包括：

4.根据权利要求3所述的方法，其特征在于，通过所述生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立所述信号输入设备的音频信号解码列表，包括：

5.一种基于多重特征识别的高保真音频处理装置，其特征在于，应用于与信号输入设备存在数据通信连接的信号处理设备，所述装置包括：

音频信号解码模块，用于通过所述生物特征数据以及从所述音频特征分布中确定出的音频损耗数据建立所述信号输入设备的音频信号解码列表；构建所述音频信号解码列表的解码队列并对所述解码队列进行识别得到音频信号解码路径，根据所述音频信号解码路径对所述待处理音频信号进行信号解码以得到目标音频信号并输出；

其中，特征分布提取模块，用于：解析所述信号输入设备对应的待处理音频信号以确定出所述待处理音频信号对应的特征缺损分布；调取每组特征缺损分布对应的缺损百分比矩阵的音质缺损阵列数据；从所述音质缺损阵列数据中确定出与其对应的特征缺损分布之间存在特征类别标记信息的特征缺损指向数据，根据所述特征缺损指向数据在所述特征缺损分布中确定出所述特征因子。

6.根据权利要求5所述的装置，其特征在于，特征分布提取模块，用于：

7.根据权利要求5所述的装置，其特征在于，特征数据确定模块，用于：

8.根据权利要求7所述的装置，其特征在于，音频信号解码模块，用于：