CN114615610B

CN114615610B - 音频补偿式耳机的音频补偿方法、系统和电子设备

Info

Publication number: CN114615610B
Application number: CN202210289978.9A
Authority: CN
Inventors: 李怀子; 李建军; 武世军; 袁德中; 谢建兰
Original assignee: Honsenn Technology Co ltd
Current assignee: Honsenn Technology Co ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2023-05-16
Anticipated expiration: 2042-03-23
Also published as: CN114615610A

Abstract

本申请公开了一种音频补偿式耳机的音频补偿方法、系统和电子设备，其通过基于神经网络模型的特征提取器和生成器从传入第一耳机的音频数据和传入第二耳机的音频数据来智能地生成听力补偿曲线，以在音乐模式中调用所述音频补偿曲线使得左右耳体验到的音频大小一样。并且在此过程中，引入对转换到概率空间的所述音频特征矩阵的每个位置的特征值进行迭代加权优化的迭代互加权系数，以对所述音频特征矩阵进行修正，进而考虑到所述传入第一耳机的音频数据和所述传入第二耳机的音频数据之间的传播偏移，这样，可以提高特征提取的精准度，从而提高对于生成的音频补偿曲线的准确性，以使得左右耳体验到的音频大小一样。

Description

音频补偿式耳机的音频补偿方法、系统和电子设备

技术领域

本申请涉及音频补偿耳机的领域，且更为具体地，涉及一种音频补偿式耳机的音频补偿方法、系统和电子设备。

背景技术

助听器是帮助提高听力的仪器，实际上就是一个小型的半导体扩音器，其作用可以使比较弱小的声音，经放大后传到耳机，使本来听力下降的部位借助放大作用而听到声音。

目前，助听器需要通过听力测试测出左右耳的听力曲线，并根据听力曲线来补偿不同频率点的听力。现有的助听器只有助听功能，没有音乐补偿功能，且听力补偿也只针对通话频段。因此，为了在助听器的音乐模式中调用音频补偿曲线使得左右耳体验到的音频大小一样，期望一种音频补偿式耳机的音频补偿方法。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种音频补偿式耳机的音频补偿方法、系统和电子设备，其通过基于神经网络模型的特征提取器和生成器从传入第一耳机的音频数据和传入第二耳机的音频数据来智能地生成听力补偿曲线，以在音乐模式中调用所述音频补偿曲线使得左右耳体验到的音频大小一样。并且在此过程中，引入对转换到概率空间的所述音频特征矩阵的每个位置的特征值进行迭代加权优化的迭代互加权系数，以对所述音频特征矩阵进行修正，进而考虑到所述传入第一耳机的音频数据和所述传入第二耳机的音频数据之间的传播偏移，这样，可以提高特征提取的精准度，从而提高对于生成的音频补偿曲线的准确性，以使得左右耳体验到的音频大小一样。

根据本申请的一个方面，提供了一种音频补偿式耳机的音频补偿方法，其包括：

训练阶段，包括：

获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；

以第一神经网络模型从所述第一音频数据提取第一音频特征矩阵；

以第二神经网络模型从所述第二音频数据提取第二音频特征矩阵；

将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；

计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵以及计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵，其中，所述第一迭代互加权系数为一减去以一与所述第一概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值，所述第二迭代互加权系数为一减去以一与所述第二概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值；

以所述第一迭代互加权修正矩阵和所述第二迭代互加权修正矩阵分别对所述第一音频特征矩阵和所述第二音频特征矩阵进行加权以获得修正后第一音频特征矩阵和修正后第二音频特征矩阵；

将所述修正后第一音频特征矩阵和所述修正后第二音频特征矩阵分别通过生成器模型以生成第一听力补偿曲线和第二听力补偿曲线；

获取第一耳的第一听力测试曲线和第二耳的第二听力测试曲线；

计算所述第一听力测试曲线与所述第一听力补偿曲线的第一叠加听力曲线和计算所述第二听力测试曲线和所述第二听力补偿曲线的第二叠加听力曲线；

计算所述第一叠加听力曲线与所述第二叠加听力曲线之间的差异作为损失函数值；

以所述损失函数值对所述第一神经网络模型、所述第二神经网络模型和所述生成器模型进行训练；以及

推断阶段，包括：

以训练阶段训练完成的所述第一神经网络模型从所述第一音频数据提取第一音频特征矩阵；

以训练阶段训练完成的所述第二神经网络模型从所述第二音频数据提取第二音频特征矩阵；

将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；以及

将所述第一音频特征矩阵和所述第二音频特征矩阵分别通过经训练阶段训练完成的所述生成器模型以生成第一听力补偿曲线和第二听力补偿曲线。

根据本申请的又一个方面，提供了一种音频补偿式耳机的音频补偿系统，其包括：

数据获取单元，用于获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；

第一特征提取单元，用于以第一神经网络模型从所述数据获取单元获得的所述第一音频数据提取第一音频特征矩阵；

第二特征提取单元，用于以第二神经网络模型从所述数据获取单元获得的所述第二音频数据提取第二音频特征矩阵；

映射单元，用于将所述第一特征提取单元获得的所述第一音频特征矩阵和所述第二特征提取单元获得的所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；

迭代互加权系数计算单元，用于计算所述映射单元获得的所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵以及计算所述映射单元获得的所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵，其中，所述第一迭代互加权系数为一减去以一与所述第一概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值，所述第二迭代互加权系数为一减去以一与所述第二概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值；

修正单元，用于以所述迭代互加权系数计算单元获得的所述第一迭代互加权修正矩阵和所述迭代互加权系数计算单元获得的所述第二迭代互加权修正矩阵分别对所述第一音频特征矩阵和所述第二音频特征矩阵进行加权以获得修正后第一音频特征矩阵和修正后第二音频特征矩阵；

生成器单元，用于将所述修正单元获得的所述修正后第一音频特征矩阵和所述修正单元获得的所述修正后第二音频特征矩阵分别通过生成器模型以生成第一听力补偿曲线和第二听力补偿曲线；

曲线获取单元，用于获取第一耳的第一听力测试曲线和第二耳的第二听力测试曲线；

叠加听力曲线计算单元，用于计算所述曲线获取单元获得的所述第一听力测试曲线与所述生成器单元获得的所述第一听力补偿曲线的第一叠加听力曲线和计算所述曲线获取单元获得的所述第二听力测试曲线和所述生成器单元获得的所述第二听力补偿曲线的第二叠加听力曲线；

差异计算单元，用于计算所述叠加听力曲线计算单元获得的所述第一叠加听力曲线与所述叠加听力曲线计算单元获得的所述第二叠加听力曲线之间的差异作为损失函数值；以及

训练单元，用于以所述差异计算单元获得的所述损失函数值对所述第一神经网络模型、所述第二神经网络模型和所述生成器模型进行训练；

推断模块，包括：

推断数据获取单元，用于获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；

第一音频特征矩阵生成单元，用于以训练阶段训练完成的所述第一神经网络模型从所述推断数据获取单元获得的所述第一音频数据提取第一音频特征矩阵；

第二音频特征矩阵生成单元，用于以训练阶段训练完成的所述第二神经网络模型从所述推断数据获取单元获得的所述第二音频数据提取第二音频特征矩阵；

概率化音频特征矩阵生成单元，用于将所述第一音频特征矩阵生成单元获得的所述第一音频特征矩阵和所述第二音频特征矩阵生成单元获得的所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；以及

听力补偿曲线生成单元，用于将所述概率化音频特征矩阵生成单元获得的所述第一音频特征矩阵和所述概率化音频特征矩阵生成单元获得的所述第二音频特征矩阵分别通过经训练阶段训练完成的所述生成器模型以生成第一听力补偿曲线和第二听力补偿曲线。

根据本申请的又一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的音频补偿式耳机的音频补偿方法。

根据本申请的再又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的音频补偿式耳机的音频补偿方法。

根据本申请提供的音频补偿式耳机的音频补偿方法、系统和电子设备，其通过基于神经网络模型的特征提取器和生成器从传入第一耳机的音频数据和传入第二耳机的音频数据来智能地生成听力补偿曲线，以在音乐模式中调用所述音频补偿曲线使得左右耳体验到的音频大小一样。并且在此过程中，引入对转换到概率空间的所述音频特征矩阵的每个位置的特征值进行迭代加权优化的迭代互加权系数，以对所述音频特征矩阵进行修正，进而考虑到所述传入第一耳机的音频数据和所述传入第二耳机的音频数据之间的传播偏移，这样，可以提高特征提取的精准度，从而提高对于生成的音频补偿曲线的准确性，以使得左右耳体验到的音频大小一样。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的音频补偿式耳机的音频补偿方法的场景示意图。

图2为根据本申请实施例的音频补偿式耳机的音频补偿方法中训练阶段的流程图。

图3为根据本申请实施例的音频补偿式耳机的音频补偿方法中推断阶段的流程图。

图4为根据本申请实施例的音频补偿式耳机的音频补偿方法中训练阶段的架构示意图。

图5为根据本申请实施例的音频补偿式耳机的音频补偿方法中推断阶段的架构示意图。

图6为根据本申请实施例的音频补偿式耳机的音频补偿方法中，以第一神经网络模型从所述第一音频数据提取第一音频特征矩阵的流程图。

图7为根据本申请实施例的音频补偿式耳机的音频补偿系统的框图。

图8为根据本申请实施例的音频补偿式耳机的音频补偿系统中第一特征提取单元的框图。

图9为根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如前所述，助听器是帮助提高听力的仪器，实际上就是一个小型的半导体扩音器，其作用可以使比较弱小的声音，经放大后传到耳机，使本来听力下降的部位借助放大作用而听到声音。

目前，助听器需要通过听力测试测出左右耳的听力曲线，并根据听力曲线来补偿不同频率点的听力。但是，现今对于听力测试的方法并不方便，需要去医院或者专业的机构去测试听力曲线，这样就会给使用助听器的人们带来困难。并且现有的助听器只有助听功能，没有音乐功能，且听力补偿也只针对通话频段。因此，为了在助听器的音乐模式中调用音频补偿曲线使得左右耳体验到的音频大小一样，期望一种音频补偿式耳机的音频补偿方法。

对于音乐补偿式耳机而言，期待在音乐模式中调用音频补偿曲线使得左右耳体验到的音频大小一样。也就是，基于传入第一耳机的音频数据和传入第二耳机的音频数据来智能地生成听力补偿曲线，这可以基于神经网络模型的特征提取器和生成器来实现。

在实际应用中，由于音频数据首先从音频输出设备(例如，智能手机)传入第一耳机而后从第一耳机传入第二耳机，这导致传入第一耳机的音频数据和传入第二耳机的音频数据之间存在传播偏移。相应地，在使用特征提取器从传入第一耳机的第一音频数据和从传入第二耳机的第二音频数据中提取第一音频特征矩阵和第二音频特征矩阵，由于第一音频特征矩阵和第二音频特征矩阵所具有的特征位置对应性完全相同，而这与实际情况下的传播偏移是具有差异的，因此如果不对所提取的高维特征进行修正，则特征矩阵可能在特定位置陷入局部最优，从而影响特征提取的精度，进而影响生成的补偿曲线的准确性。

相应地，在本申请的技术方案中，将转换到概率空间的第一音频特征矩阵记为M₁，其每个位置的特征值记为

将转换到概率空间的第二音频特征矩阵记为M₂，其每个位置的特征值记为

引入对特征矩阵的每个位置的特征值进行迭代加权优化的迭代互加权系数，表示为：

其中

是第一音频特征矩阵M₁的所有特征值

和第二音频特征矩阵M₂的所有特征值

当中的最大值。

这样，可以获得第一迭代互加权修正矩阵和第二迭代互加权修正矩阵，分别以其与第一音频特征矩阵和第二音频特征矩阵进行点乘以进行修正，可以获得修正后的第一音频特征矩阵和第二音频特征矩阵。

基于此，本申请提出了一种音频补偿式耳机的音频补偿方法，其包括：训练阶段和推断阶段。其中，训练阶段包括步骤：获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；以第一神经网络模型从所述第一音频数据提取第一音频特征矩阵；以第二神经网络模型从所述第二音频数据提取第二音频特征矩阵；将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵以及计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵，其中，所述第一迭代互加权系数为一减去以一与所述第一概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值，所述第二迭代互加权系数为一减去以一与所述第二概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值；以所述第一迭代互加权修正矩阵和所述第二迭代互加权修正矩阵分别对所述第一音频特征矩阵和所述第二音频特征矩阵进行加权以获得修正后第一音频特征矩阵和修正后第二音频特征矩阵；将所述修正后第一音频特征矩阵和所述修正后第二音频特征矩阵分别通过生成器模型以生成第一听力补偿曲线和第二听力补偿曲线；获取第一耳的第一听力测试曲线和第二耳的第二听力测试曲线；计算所述第一听力测试曲线与所述第一听力补偿曲线的第一叠加听力曲线和计算所述第二听力测试曲线和所述第二听力补偿曲线的第二叠加听力曲线；计算所述第一叠加听力曲线与所述第二叠加听力曲线之间的差异作为损失函数值；以及，以所述损失函数值对所述第一神经网络模型、所述第二神经网络模型和所述生成器模型进行训练。其中，推断阶段包括步骤：获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；以训练阶段训练完成的所述第一神经网络模型从所述第一音频数据提取第一音频特征矩阵；以训练阶段训练完成的所述第二神经网络模型从所述第二音频数据提取第二音频特征矩阵；将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；以及，将所述第一音频特征矩阵和所述第二音频特征矩阵分别通过经训练阶段训练完成的所述生成器模型以生成第一听力补偿曲线和第二听力补偿曲线。

图1图示了根据本申请实施例的音频补偿式耳机的音频补偿方法的场景示意图。如图1所示，在该应用场景的训练阶段中，首先，通过音频输出设备(例如，如图1中所示意的D)中获取从音频输出设备传入第一耳机(例如，如图1中所示意的H1)的第一音频数据和从所述第一耳机传入第二耳机(例如，如图1中所示意的H2)的第二音频数据，并且获取第一耳的第一听力测试曲线和第二耳的第二听力测试曲线。在该应用场景中，所述音频输入设备包括但不局限于智能手机、智能电脑等。然后，将获得的所述第一音频数据和所述第二音频数据，以及所述第一听力测试曲线和所述第二听力测试曲线输入至部署有音频补偿式耳机的音频补偿算法的服务器(例如，如图1中所示意的S)中，其中，所述服务器能够基于音频补偿式耳机的音频补偿算法以所述第一音频数据和所述第二音频数据，以及所述第一听力测试曲线和所述第二听力测试曲线对音频补偿式耳机的音频补偿的所述第一神经网络模型、所述第二神经网络模型和所述生成器模型进行训练。

在训练完成后，在推断阶段中，首先，通过音频输出设备(例如，如图1中所示意的D)中获取从音频输出设备传入第一耳机(例如，如图1中所示意的H1)的第一音频数据和从所述第一耳机传入第二耳机(例如，如图1中所示意的H2)的第二音频数据。在该应用场景中，所述音频输入设备包括但不局限于智能手机、智能电脑等。然后，将所述第一音频数据和所述第二音频数据输入至部署有音频补偿式耳机的音频补偿算法的服务器(例如，如图1中所示意的S)中，其中，所述服务器能够以音频补偿式耳机的音频补偿算法对所述第一音频数据和所述第二音频数据进行处理，以生成第一听力补偿曲线和第二听力补偿曲线。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2图示了根据本申请实施例的音频补偿式耳机的音频补偿方法中训练阶段的流程图。如图2所示，根据本申请实施例的音频补偿式耳机的音频补偿方法，包括：训练阶段，包括步骤：S110，获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；S120，以第一神经网络模型从所述第一音频数据提取第一音频特征矩阵；S130，以第二神经网络模型从所述第二音频数据提取第二音频特征矩阵；S140，将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；S150，计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵以及计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵，其中，所述第一迭代互加权系数为一减去以一与所述第一概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值，所述第二迭代互加权系数为一减去以一与所述第二概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值；S160，以所述第一迭代互加权修正矩阵和所述第二迭代互加权修正矩阵分别对所述第一音频特征矩阵和所述第二音频特征矩阵进行加权以获得修正后第一音频特征矩阵和修正后第二音频特征矩阵；S170，将所述修正后第一音频特征矩阵和所述修正后第二音频特征矩阵分别通过生成器模型以生成第一听力补偿曲线和第二听力补偿曲线；S180，获取第一耳的第一听力测试曲线和第二耳的第二听力测试曲线；S190，计算所述第一听力测试曲线与所述第一听力补偿曲线的第一叠加听力曲线和计算所述第二听力测试曲线和所述第二听力补偿曲线的第二叠加听力曲线；S200，计算所述第一叠加听力曲线与所述第二叠加听力曲线之间的差异作为损失函数值；以及，S201，以所述损失函数值对所述第一神经网络模型、所述第二神经网络模型和所述生成器模型进行训练。

图3图示了根据本申请实施例的音频补偿式耳机的音频补偿方法中推断阶段的流程图。如图3所示，根据本申请实施例的音频补偿式耳机的音频补偿方法，还包括：推断阶段，包括步骤：S210，获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；S220，以训练阶段训练完成的所述第一神经网络模型从所述第一音频数据提取第一音频特征矩阵；S230，以训练阶段训练完成的所述第二神经网络模型从所述第二音频数据提取第二音频特征矩阵；S240，将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；以及，S250，将所述第一音频特征矩阵和所述第二音频特征矩阵分别通过经训练阶段训练完成的所述生成器模型以生成第一听力补偿曲线和第二听力补偿曲线。

图4图示了根据本申请实施例的音频补偿式耳机的音频补偿方法中训练阶段的架构示意图。如图4所示，在训练阶段中，在该网络架构中，首先，以第一神经网络模型(例如，如图4中所示意的CNN1)从所述第一音频数据(例如，如图4中所示意的P1)提取第一音频特征矩阵(例如，如图4中所示意的MF1)；接着，以第二神经网络模型(例如，如图4中所示意的CNN2)从所述第二音频数据(例如，如图4中所示意的P2)提取第二音频特征矩阵(例如，如图4中所示意的MF2)；然后，将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵(例如，如图4中所示意的MF3)和第二概率化音频特征矩阵(例如，如图4中所示意的MF4)；接着，计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵(例如，如图4中所示意的MF5)以及计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵(例如，如图4中所示意的MF6)；然后，以所述第一迭代互加权修正矩阵和所述第二迭代互加权修正矩阵分别对所述第一音频特征矩阵和所述第二音频特征矩阵进行加权以获得修正后第一音频特征矩阵(例如，如图4中所示意的M1)和修正后第二音频特征矩阵(例如，如图4中所示意的M2)；接着，将所述修正后第一音频特征矩阵和所述修正后第二音频特征矩阵分别通过生成器模型(例如，如图4中所示意的GM)以生成第一听力补偿曲线(例如，如图4中所示意的HC1)和第二听力补偿曲线(例如，如图4中所示意的HC2)；然后，计算获得的所述第一听力测试曲线(例如，如图4中所示意的LT1)与所述第一听力补偿曲线的第一叠加听力曲线(例如，如图4中所示意的SH1)和计算所述第二听力测试曲线(例如，如图4中所示意的LT2)和所述第二听力补偿曲线的第二叠加听力曲线(例如，如图4中所示意的SH2)；接着，计算所述第一叠加听力曲线与所述第二叠加听力曲线之间的差异作为损失函数值(例如，如图4中所示意的CLV)；以及，最后，以所述损失函数值对所述第一神经网络模型、所述第二神经网络模型和所述生成器模型进行训练。

图5图示了根据本申请实施例的音频补偿式耳机的音频补偿方法中推断阶段的架构示意图。如图5所示，在推断阶段中，在该网络结构中，首先，以训练阶段训练完成的所述第一神经网络模型(例如，如图5中所示意的CN1)从所述第一音频数据(例如，如图5中所示意的P1)提取第一音频特征矩阵(例如，如图5中所示意的MF1)；接着，以训练阶段训练完成的所述第二神经网络模型(例如，如图5中所示意的CN2)从所述第二音频数据(例如，如图5中所示意的P2)提取第二音频特征矩阵(例如，如图5中所示意的MF2)；然后，将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵(例如，如图5中所示意的MF3)和第二概率化音频特征矩阵(例如，如图5中所示意的MF4)；以及，最后，将所述第一音频特征矩阵和所述第二音频特征矩阵分别通过经训练阶段训练完成的所述生成器模型(例如，如图5中所示意的G)以生成第一听力补偿曲线(例如，如图5中所示意的H1)和第二听力补偿曲线(例如，如图5中所示意的H2)。

更具体地，在训练阶段中，在步骤S110、步骤S120和步骤S130中，获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据，并以第一神经网络模型从所述第一音频数据提取第一音频特征矩阵，再以第二神经网络模型从所述第二音频数据提取第二音频特征矩阵。如前所述，应可以理解，对于音乐补偿式耳机而言，期待在音乐模式中调用音频补偿曲线使得左右耳体验到的音频大小一样。也就是，在本申请的技术方案中，基于传入第一耳机的音频数据和传入第二耳机的音频数据来智能地生成听力补偿曲线，这可以基于神经网络模型的特征提取器和生成器来实现。

也就是，具体地，在本申请的技术方案中，首先，通过音频输出设备中获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据。这里，所述音频输入设备包括但不局限于智能手机、智能电脑等。然后，将获得的所述第一音频数据和所述第二音频数据分别通过第一卷积神经网络模型和第二卷积神经网络模型中进行特征提取，以分别提取出所述第一音频数据和所述第二音频数据中的高维关联特征，从而获得第一音频特征矩阵和第二音频特征矩阵。

具体地，在本申请实施例中，以第一神经网络模型从所述第一音频数据提取第一音频特征矩阵的过程，包括：首先，将所述第一音频数据的波形图通过所述第一神经网络模型的第一卷积神经网络，以挖掘出所述第一音频数据的波形图的局部特征在高维中间中的特征分布表示，从而获得第一特征矩阵。相应地，在一个具体示例中，所述第一卷积神经网络的各层在层的正向传递中分别对输入数据进行基于二维卷积核的卷积处理、沿通道维度的池化处理和激活处理以由所述第一卷积神经网络的最后一层输出所述第一特征矩阵，其中，所述第一卷积神经网络的第一层的输入为所述第一音频数据的波形图。

接着，以预定时间间隔从所述第一音频数据截取多个音频片段数据，并分别获得各个所述音频片段数据的梅尔统计特征。应可以理解，人耳对于声音信号的感知聚焦于某一特定频率区域内，而非在整个频谱包络中。并且耳蜗的滤波作用是在对数频率尺度进行的，在1000Hz以下为线性，在1000Hz以上为对数，这就使得所述人耳对低频比高频更敏感。人类对语音信号频率内容的感知遵循一种主观上定义的非线性尺度，该非线性标度可被称为“Mel”标度。梅尔频率标度的单位是Mel，它是为了描绘音调而被定义出来的，能够更生动地反映出了频率和音调的非线性关系。

然后，将各个所述音频片段数据的梅尔统计特征通过所述第一神经网络模型的包含嵌入层的基于上下文的编码器模型以获得多个第一音频特征向量。相应地，在一个具体示例中，使用所述基于上下文的编码器模型的嵌入层分别将各个所述音频片段数据的梅尔统计特征转化为输入向量以获得输入向量的序列；以及，使用所述基于上下文的编码器模型的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个第一音频特征向量。应可以理解，由于基于转换器的编码器模型能够基于上下文对所述输入向量进行编码，因此所获得的第一音频特征向量具有全局性的音频片段数据的关联特征。

接着，将所述多个第一音频特征向量进行二维排列以获得第二特征矩阵。最后，融合所述第一特征矩阵和所述第二特征矩阵以获得所述第一音频特征矩阵。应可以理解，为了更好地利用所述第一特征矩阵和所述第二特征矩阵中的特征信息，相应地，在一个具体示例中，先计算所述第一特征矩阵与所述第二特征矩阵的矩阵乘积以获得第一融合特征矩阵；再计算所述第二特征矩阵与所述第一特征矩阵的矩阵乘积以获得第二融合特征矩阵；最后计算所述第一融合特征矩阵和所述第二融合特征矩阵之间的按位置加权和以获得所述第一音频特征矩阵。

同样地，在本申请实施例中，以第二神经网络模型从所述第二音频数据提取第二音频特征矩阵的过程，包括：首先，将所述第二音频数据的波形图通过所述第二神经网络模型的第二卷积神经网络以获得第二特征矩阵；接着，以预定时间间隔从所述第二音频数据截取多个音频片段数据，并分别获得各个所述音频片段数据的梅尔统计特征；然后，将各个所述音频片段数据的梅尔统计特征通过所述第二神经网络模型的包含嵌入层的基于上下文的编码器模型以获得多个第二音频特征向量；接着，将所述多个第二音频特征向量进行二维排列以获得第二特征矩阵；以及，最后，融合所述第二特征矩阵和所述第二特征矩阵以获得所述第二音频特征矩阵。

图6图示了根据本申请实施例的基于移动互联网的教育平台互动方法中，第一神经网络模型从所述第一音频数据提取第一音频特征矩阵的流程图。如图6所示，在本申请实施例中，第一神经网络模型从所述第一音频数据提取第一音频特征矩阵，包括：S310，将所述第一音频数据的波形图通过所述第一神经网络模型的第一卷积神经网络以获得第一特征矩阵；S320，以预定时间间隔从所述第一音频数据截取多个音频片段数据，并分别获得各个所述音频片段数据的梅尔统计特征；S330，将各个所述音频片段数据的梅尔统计特征通过所述第一神经网络模型的包含嵌入层的基于上下文的编码器模型以获得多个第一音频特征向量；S340，将所述多个第一音频特征向量进行二维排列以获得第二特征矩阵；以及，S350，融合所述第一特征矩阵和所述第二特征矩阵以获得所述第一音频特征矩阵。

更具体地，在训练阶段中，在步骤S140和步骤S150中，将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵，并计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵以及计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵，其中，所述第一迭代互加权系数为一减去以一与所述第一概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值，所述第二迭代互加权系数为一减去以一与所述第二概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值。

应可以理解，在实际应用中，由于音频数据首先从音频输出设备，例如，智能手机传入第一耳机而后从所述第一耳机传入第二耳机，这导致传入所述第一耳机的音频数据和传入所述第二耳机的音频数据之间存在传播偏移。相应地，在使用所述特征提取器从传入第一耳机的所述第一音频数据和从传入第二耳机的所述第二音频数据中提取第一音频特征矩阵和第二音频特征矩阵，由于所述第一音频特征矩阵和所述第二音频特征矩阵所具有的特征位置对应性完全相同，而这与实际情况下的传播偏移是具有差异的，因此如果不对所提取的高维特征进行修正，则特征矩阵可能在特定位置陷入局部最优，从而影响特征提取的精度，进而影响生成的补偿曲线的准确性。

因此，在本申请的技术方案中，进一步将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵M₁，其每个位置的特征值记为

和第二概率化音频特征矩阵M₂，其每个位置的特征值记为

然后，引入对所述概率化音频特征矩阵的每个位置的特征值进行迭代加权优化的迭代互加权系数。也就是，具体地，计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵以及计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵

具体地，在本申请实施例中，计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵，以及，计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵的过程，包括：以如下公式计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数，其中，所述公式为：

以如下公式计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数，其中，所述公式为：

其中

是第一音频特征矩阵M₁的所有特征值

和第二音频特征矩阵M₂的所有特征值

当中的最大值。

更具体地，在训练阶段中，在步骤S160和步骤S170中，以所述第一迭代互加权修正矩阵和所述第二迭代互加权修正矩阵分别对所述第一音频特征矩阵和所述第二音频特征矩阵进行加权以获得修正后第一音频特征矩阵和修正后第二音频特征矩阵，并将所述修正后第一音频特征矩阵和所述修正后第二音频特征矩阵分别通过生成器模型以生成第一听力补偿曲线和第二听力补偿曲线。也就是，在本申请的技术方案中，接着，进一步再将以所述第一迭代互加权修正矩阵和所述第二迭代互加权修正矩阵分别对所述第一音频特征矩阵和所述第二音频特征矩阵进行加权修正，以获得修正后第一音频特征矩阵和修正后第二音频特征矩阵。相应地，在一个具体示例中，可以计算所述第一迭代互加权修正矩阵和所述第二迭代互加权修正矩阵分别与所述第一音频特征矩阵和所述第二音频特征矩阵的点乘以进行修正。

然后，就可以将所述修正后第一音频特征矩阵和所述修正后第二音频特征矩阵分别通过生成器模型以生成第一听力补偿曲线和第二听力补偿曲线。应可以理解，通过引入对所述特征矩阵的各个位置的特征值进行融合迭代加权优化的迭代互加权系数，并以此对所述特征矩阵的每个位置的特征值来进行修正，可以避免所述特征矩阵在迭代过程中在某个位置陷入局部最优，导致在迭代过程中神经网络的参数不再能够更新优化，这样，就改进了在所述音频特征矩阵的高维特征提取过程当中，所述卷积神经网络和所述上下文编码器的模型参数跨周期的迭代更新能力，以及模型所进行的特征提取的跨位置的局部优化能力，最终提高了生成的补偿曲线的准确性。

更具体地，在训练阶段中，在步骤S180和步骤S190中，获取第一耳的第一听力测试曲线和第二耳的第二听力测试曲线，并计算所述第一听力测试曲线与所述第一听力补偿曲线的第一叠加听力曲线和计算所述第二听力测试曲线和所述第二听力补偿曲线的第二叠加听力曲线。也就是，在本申请的技术方案中，进一步还需要获取两个耳的听力测试曲线，并且利用所述第一听力补偿曲线和所述第二听力补偿曲线分别对获得的对应于所述两耳的听力测试曲线进行叠加修正，以获得第一叠加听力曲线和第二叠加听力曲线。

更具体地，在训练阶段中，在步骤S200和步骤S201中，计算所述第一叠加听力曲线与所述第二叠加听力曲线之间的差异作为损失函数值，并以所述损失函数值对所述第一神经网络模型、所述第二神经网络模型和所述生成器模型进行训练。应可以理解，在本申请的技术方案中，在得到所述第一叠加听力曲线与所述第二叠加听力曲线后，就可以计算两者之间的特征差异来作为损失函数值，以训练所述第一神经网络模型、所述第二神经网络模型和所述生成器模型。相应地，在一个具体示例中，计算所述第一叠加听力曲线与所述第二叠加听力曲线之间的欧式距离作为所述损失函数值。应可以理解，这样，就改进了在所述音频特征矩阵的高维特征提取过程当中，卷积神经网络和上下文编码器的模型参数跨周期的迭代更新能力，以及模型所进行的特征提取的跨位置的局部优化能力，最终提高了生成的补偿曲线的准确性。

在训练完成后，进入推断阶段。也就是，将经训练阶段训练完成的所述第一神经网络模型、所述第二神经网络模型和所述生成器模型用于推断阶段中，按照上述方法可以得到第一听力补偿曲线和第二听力补偿曲线，然后进一步利用所述第一听力补偿曲线和所述第二听力补偿曲线对所述听力曲线进行补偿，以使得左右耳体验到的音频大小一样。

具体地，首先，获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；接着，以训练阶段训练完成的所述第一神经网络模型从所述第一音频数据提取第一音频特征矩阵；然后，以训练阶段训练完成的所述第二神经网络模型从所述第二音频数据提取第二音频特征矩阵；接着，将所述第一音频特征矩阵和所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；最后，将所述第一音频特征矩阵和所述第二音频特征矩阵分别通过经训练阶段训练完成的所述生成器模型以生成第一听力补偿曲线和第二听力补偿曲线。

综上，基于本申请实施例的音频补偿式耳机的音频补偿方法被阐明，其通过基于神经网络模型的特征提取器和生成器从传入第一耳机的音频数据和传入第二耳机的音频数据来智能地生成听力补偿曲线，以在音乐模式中调用所述音频补偿曲线使得左右耳体验到的音频大小一样。并且在此过程中，引入对转换到概率空间的所述音频特征矩阵的每个位置的特征值进行迭代加权优化的迭代互加权系数，以对所述音频特征矩阵进行修正，进而考虑到所述传入第一耳机的音频数据和所述传入第二耳机的音频数据之间的传播偏移，这样，可以提高特征提取的精准度，从而提高对于生成的音频补偿曲线的准确性，以使得左右耳体验到的音频大小一样。

示例性系统

图7图示了根据本申请实施例的音频补偿式耳机的音频补偿系统的框图。如图7所示，根据本申请实施例的音频补偿式耳机的音频补偿系统700，包括：训练模块710和推断模块720。

如图7所示，所述训练模块710，包括：数据获取单元7101，用于获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；第一特征提取单元7102，用于以第一神经网络模型从所述数据获取单元7101获得的所述第一音频数据提取第一音频特征矩阵；第二特征提取单元7103，用于以第二神经网络模型从所述数据获取单元7101获得的所述第二音频数据提取第二音频特征矩阵；映射单元7104，用于将所述第一特征提取单元7102获得的所述第一音频特征矩阵和所述第二特征提取单元7103获得的所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；迭代互加权系数计算单元7105，用于计算所述映射单元7104获得的所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵以及计算所述映射单元7104获得的所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵，其中，所述第一迭代互加权系数为一减去以一与所述第一概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值，所述第二迭代互加权系数为一减去以一与所述第二概率化音频特征矩阵中各个位置的特征值除以所述第一概率化音频特征矩阵的所有特征值和所述第二概率化音频特征矩阵的所有特征值中的最大值的商之间的差值的平方为幂的自然指数函数值；修正单元7106，用于以所述迭代互加权系数计算单元7105获得的所述第一迭代互加权修正矩阵和所述迭代互加权系数计算单元7105获得的所述第二迭代互加权修正矩阵分别对所述第一音频特征矩阵和所述第二音频特征矩阵进行加权以获得修正后第一音频特征矩阵和修正后第二音频特征矩阵；生成器单元7107，用于将所述修正单元7106获得的所述修正后第一音频特征矩阵和所述修正单元7106获得的所述修正后第二音频特征矩阵分别通过生成器模型以生成第一听力补偿曲线和第二听力补偿曲线；曲线获取单元7108，用于获取第一耳的第一听力测试曲线和第二耳的第二听力测试曲线；叠加听力曲线计算单元7109，用于计算所述曲线获取单元7108获得的所述第一听力测试曲线与所述生成器单元7107获得的所述第一听力补偿曲线的第一叠加听力曲线和计算所述曲线获取单元7108获得的所述第二听力测试曲线和所述生成器单元7107获得的所述第二听力补偿曲线的第二叠加听力曲线；差异计算单元7110，用于计算所述叠加听力曲线计算单元7109获得的所述第一叠加听力曲线与所述叠加听力曲线计算单元7109获得的所述第二叠加听力曲线之间的差异作为损失函数值；以及，训练单元7111，用于以所述差异计算单元7110获得的所述损失函数值对所述第一神经网络模型、所述第二神经网络模型和所述生成器模型进行训练。

如图7所示，所述推断模块720，包括：推断数据获取单元721，用于获取从音频输出设备传入第一耳机的第一音频数据和从所述第一耳机传入第二耳机的第二音频数据；第一音频特征矩阵生成单元722，用于以训练阶段训练完成的所述第一神经网络模型从所述推断数据获取单元721获得的所述第一音频数据提取第一音频特征矩阵；第二音频特征矩阵生成单元723，用于以训练阶段训练完成的所述第二神经网络模型从所述推断数据获取单元721获得的所述第二音频数据提取第二音频特征矩阵；概率化音频特征矩阵生成单元724，用于将所述第一音频特征矩阵生成单元722获得的所述第一音频特征矩阵和所述第二音频特征矩阵生成单元723获得的所述第二音频特征矩阵映射到概率空间中以获得第一概率化音频特征矩阵和第二概率化音频特征矩阵；以及，听力补偿曲线生成单元725，用于将所述概率化音频特征矩阵生成单元724获得的所述第一音频特征矩阵和所述概率化音频特征矩阵生成单元724获得的所述第二音频特征矩阵分别通过经训练阶段训练完成的所述生成器模型以生成第一听力补偿曲线和第二听力补偿曲线。

在一个示例中，在上述音频补偿式耳机的音频补偿系统400中，如图8所示，所述第一特征提取单元7102，包括：第一特征矩阵生成子单元71021，用于将所述第一音频数据的波形图通过所述第一神经网络模型的第一卷积神经网络以获得第一特征矩阵；截取子单元71022，用于以预定时间间隔从所述第一音频数据截取多个音频片段数据，并分别获得各个所述音频片段数据的梅尔统计特征；编码子单元71023，用于将各个所述截取子单元71022获得的所述音频片段数据的梅尔统计特征通过所述第一神经网络模型的包含嵌入层的基于上下文的编码器模型以获得多个第一音频特征向量；二维排列子单元71024，用于将所述编码子单元71023获得的所述多个第一音频特征向量进行二维排列以获得第二特征矩阵；以及，特征融合子单元71025，用于融合所述第一特征矩阵生成子单元71021获得的所述第一特征矩阵和所述二维排列子单元71024获得的所述第二特征矩阵以获得所述第一音频特征矩阵。

在一个示例中，在上述音频补偿式耳机的音频补偿系统400中，所述第一特征矩阵生成子单元71021，进一步用于：所述第一卷积神经网络的各层在层的正向传递中分别对输入数据进行基于二维卷积核的卷积处理、沿通道维度的池化处理和激活处理以由所述第一卷积神经网络的最后一层输出所述第一特征矩阵，其中，所述第一卷积神经网络的第一层的输入为所述第一音频数据的波形图。

在一个示例中，在上述音频补偿式耳机的音频补偿系统400中，所述编码子单元71023，进一步用于：使用所述基于上下文的编码器模型的嵌入层分别将各个所述音频片段数据的梅尔统计特征转化为输入向量以获得输入向量的序列；以及，使用所述基于上下文的编码器模型的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个第一音频特征向量。

在一个示例中，在上述音频补偿式耳机的音频补偿系统400中，所述特征融合子单元71025，进一步用于：计算所述第一特征矩阵与所述第二特征矩阵的矩阵乘积以获得第一融合特征矩阵；计算所述第二特征矩阵与所述第一特征矩阵的矩阵乘积以获得第二融合特征矩阵；以及，计算所述第一融合特征矩阵和所述第二融合特征矩阵之间的按位置加权和以获得所述第一音频特征矩阵。

在一个示例中，在上述音频补偿式耳机的音频补偿系统400中，所述第二特征提取单元7103，进一步用于：将所述第二音频数据的波形图通过所述第二神经网络模型的第二卷积神经网络以获得第二特征矩阵；以预定时间间隔从所述第二音频数据截取多个音频片段数据，并分别获得各个所述音频片段数据的梅尔统计特征；将各个所述音频片段数据的梅尔统计特征通过所述第二神经网络模型的包含嵌入层的基于上下文的编码器模型以获得多个第二音频特征向量；将所述多个第二音频特征向量进行二维排列以获得第二特征矩阵；以及，融合所述第二特征矩阵和所述第二特征矩阵以获得所述第二音频特征矩阵。

在一个示例中，在上述音频补偿式耳机的音频补偿系统400中，所述所述迭代互加权系数计算单元7105，进一步用于：以如下公式计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数，其中，所述公式为：

其中

是第一音频特征矩阵M₁的所有特征值

和第二音频特征矩阵M₂的所有特征值

当中的最大值。

在一个示例中，在上述音频补偿式耳机的音频补偿系统400中，所述叠加听力曲线计算单元7109，进一步用于：计算所述第一叠加听力曲线与所述第二叠加听力曲线之间的欧式距离作为所述损失函数值。

这里，本领域技术人员可以理解，上述音频补偿式耳机的音频补偿系统700中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的音频补偿式耳机的音频补偿方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的音频补偿式耳机的音频补偿系统700可以实现在各种终端设备中，例如音频补偿式耳机的音频补偿算法的服务器等。在一个示例中，根据本申请实施例的音频补偿式耳机的音频补偿系统700可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该音频补偿式耳机的音频补偿系统700可以是该终端设备的操作装置中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该音频补偿式耳机的音频补偿系统700同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该音频补偿式耳机的音频补偿系统700与该终端设备也可以是分立的设备，并且该音频补偿式耳机的音频补偿系统700可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图9来描述根据本申请实施例的电子设备。如图9所示，电子设备包括10包括一个或多个处理器11和存储器12。所述处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的音频补偿式耳机的音频补偿方法的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如概率化音频特征矩阵、叠加听力曲线等各种内容。

在一个示例中，电子设备10还可以包括：输入系统13和输出系统14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入系统13可以包括例如键盘、鼠标等等。

该输出系统14可以向外部输出各种信息，包括第一听力补偿曲线和第二听力补偿曲线等。该输出系统14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频补偿式耳机的音频补偿方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的音频补偿式耳机的音频补偿方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种音频补偿式耳机的音频补偿方法，其特征在于，包括：

训练阶段，包括：

计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵以及计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵；

推断阶段，包括：

获取从音频输出设备传入第一耳机的推断用第一音频数据和从所述第一耳机传入第二耳机的推断用第二音频数据；

以训练阶段训练完成的所述第一神经网络模型从所述推断用第一音频数据提取推断用第一音频特征矩阵；

以训练阶段训练完成的所述第二神经网络模型从所述推断用第二音频数据提取推断用第二音频特征矩阵；

将所述推断用第一音频特征矩阵和所述推断用第二音频特征矩阵映射到概率空间中以获得推断用第一概率化音频特征矩阵和推断用第二概率化音频特征矩阵；以及

将所述推断用第一音频特征矩阵和所述推断用第二音频特征矩阵分别通过经训练阶段训练完成的所述生成器模型以生成推断用第一听力补偿曲线和推断用第二听力补偿曲线；

其中，计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数以获得第一迭代互加权修正矩阵，以及，计算所述第二概率化音频特征矩阵中各个位置的特征值的第二迭代互加权系数以获得第二迭代互加权修正矩阵，包括：

以如下公式计算所述第一概率化音频特征矩阵中各个位置的特征值的第一迭代互加权系数，其中，所述公式为：

其中

是第一音频特征矩阵M₁的所有特征值

和第二音频特征矩阵M₂的所有特征值

当中的最大值。

2.根据权利要求1所述的音频补偿式耳机的音频补偿方法，其中，以第一神经网络模型从所述第一音频数据提取第一音频特征矩阵，包括：

将所述第一音频数据的波形图通过所述第一神经网络模型的第一卷积神经网络以获得第一特征矩阵；

以预定时间间隔从所述第一音频数据截取多个音频片段数据，并分别获得各个所述音频片段数据的梅尔统计特征；

将各个所述音频片段数据的梅尔统计特征通过所述第一神经网络模型的包含嵌入层的基于上下文的编码器模型以获得多个第一音频特征向量；

将所述多个第一音频特征向量进行二维排列以获得第二特征矩阵；以及

融合所述第一特征矩阵和所述第二特征矩阵以获得所述第一音频特征矩阵。

3.根据权利要求2所述的音频补偿式耳机的音频补偿方法，其中，将所述第一音频数据的波形图通过所述第一神经网络模型的第一卷积神经网络以获得第一特征矩阵，包括：

所述第一卷积神经网络的各层在层的正向传递中分别对输入数据进行基于二维卷积核的卷积处理、沿通道维度的池化处理和激活处理以由所述第一卷积神经网络的最后一层输出所述第一特征矩阵，其中，所述第一卷积神经网络的第一层的输入为所述第一音频数据的波形图。

4.根据权利要求2所述的音频补偿式耳机的音频补偿方法，其中，将各个所述音频片段数据的梅尔统计特征通过所述第一神经网络模型的包含嵌入层的基于上下文的编码器模型以获得多个第一音频特征向量，包括：

使用所述基于上下文的编码器模型的嵌入层分别将各个所述音频片段数据的梅尔统计特征转化为输入向量以获得输入向量的序列；以及

使用所述基于上下文的编码器模型的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个第一音频特征向量。

5.根据权利要求2所述的音频补偿式耳机的音频补偿方法，其中，融合所述第一特征矩阵和所述第二特征矩阵以获得所述第一音频特征矩阵，包括：

计算所述第一特征矩阵与所述第二特征矩阵的矩阵乘积以获得第一融合特征矩阵；

计算所述第二特征矩阵与所述第一特征矩阵的矩阵乘积以获得第二融合特征矩阵；以及

计算所述第一融合特征矩阵和所述第二融合特征矩阵之间的按位置加权和以获得所述第一音频特征矩阵。

6.根据权利要求2所述的音频补偿式耳机的音频补偿方法，其中，以第二神经网络模型从所述第二音频数据提取第二音频特征矩阵，包括：

将所述第二音频数据的波形图通过所述第二神经网络模型的第二卷积神经网络以获得第二特征矩阵；

以预定时间间隔从所述第二音频数据截取多个音频片段数据，并分别获得各个所述音频片段数据的梅尔统计特征；

将各个所述音频片段数据的梅尔统计特征通过所述第二神经网络模型的包含嵌入层的基于上下文的编码器模型以获得多个第二音频特征向量；

将所述多个第二音频特征向量进行二维排列以获得第二特征矩阵；以及

融合所述第二特征矩阵和所述第二特征矩阵以获得所述第二音频特征矩阵。

7.根据权利要求1所述的音频补偿式耳机的音频补偿方法，其中，计算所述第一叠加听力曲线与所述第二叠加听力曲线之间的差异作为损失函数值，包括：

计算所述第一叠加听力曲线与所述第二叠加听力曲线之间的欧式距离作为所述损失函数值。

8.一种音频补偿式耳机的音频补偿系统，其特征在于，包括：

训练模块，包括：

推断模块，包括：

推断数据获取单元，用于获取从音频输出设备传入第一耳机的推断用第一音频数据和从所述第一耳机传入第二耳机的推断用第二音频数据；

第一音频特征矩阵生成单元，用于以训练阶段训练完成的所述第一神经网络模型从所述推断数据获取单元获得的所述推断用第一音频数据提取推断用第一音频特征矩阵；

第二音频特征矩阵生成单元，用于以训练阶段训练完成的所述第二神经网络模型从所述推断数据获取单元获得的所述推断用第二音频数据提取推断用第二音频特征矩阵；

概率化音频特征矩阵生成单元，用于将所述推断用第一音频特征矩阵生成单元获得的所述推断用第一音频特征矩阵和所述推断用第二音频特征矩阵生成单元获得的所述推断用第二音频特征矩阵映射到概率空间中以获得推断用第一概率化音频特征矩阵和推断用第二概率化音频特征矩阵；以及

听力补偿曲线生成单元，用于将所述概率化音频特征矩阵生成单元获得的所述推断用第一音频特征矩阵和所述概率化音频特征矩阵生成单元获得的所述推断用第二音频特征矩阵分别通过经训练阶段训练完成的所述生成器模型以生成推断用第一听力补偿曲线和推断用第二听力补偿曲线。

9.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的音频补偿式耳机的音频补偿方法。