CN111524536A

CN111524536A - 信号处理方法和信息处理设备

Info

Publication number: CN111524536A
Application number: CN201910104232.4A
Authority: CN
Inventors: 刘柳; 石自强; 林慧镔; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2020-08-11
Anticipated expiration: 2039-02-01
Also published as: JP7283375B2; JP2020126227A; CN111524536B

Abstract

本公开提供了信号处理方法和信息处理设备。信息处理设备包括处理器，所述处理器被配置为：对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分，以获得与各个子带对应的子带信号；将所获得的子带信号输入到预先训练好的分类模型中；以及利用分类模型确定声音信号中所包括的声音事件的类别，其中，分类模型包括分别与各个子带相对应的多个子带模型，每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重，并根据被施加权重后的子带信号输出关于声音事件的初步分类结果，以及其中，分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。

Description

信号处理方法和信息处理设备

技术领域

本公开总体上涉及信号处理领域，具体而言，涉及用于声音事件检测的信号处理方法以及能够实现该信号处理方法的信息处理设备。

背景技术

声音承载了大量的日常生活环境里各种不同事件的信息。我们可以通过声音来感知所处的场景(如喧闹的街道、办公室等)和/或辨认出一些特定的事件(如行人的脚步、汽车开过等)，上述场景和事件的辨认可以统称为声音事件检测。

声音事件的自动检测在现实中可以有很多应用。举例而言，声音事件检测可以用于智能设备、智能机器人、环境感知、以及监控系统等应用或场景中。

目前，声音事件检测一般通过分类算法实现。然而，现有的用于声音事件分类的算法对于待检测场景复杂(例如，存在多个待识别的声音事件类别)的情况下检测的准确度较低。因此，期望提供一种能够在复杂场景下仍准确检测声音事件的方法或设备。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于对现有的声音事件检测方法进行改进的需求，本发明的目的之一是提供一种信号处理方法以及能够实现该信号处理方法的信息处理设备，其能够在复杂场景下仍准确地检测声音事件。

根据本公开的一个方面，提供了一种信号处理方法，其包括：对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分，以获得与各个子带对应的子带信号；将所获得的子带信号输入到预先训练好的分类模型中；以及利用分类模型确定声音信号中所包括的声音事件的类别，其中，分类模型包括分别与各个子带相对应的多个子带模型，每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重，并根据被施加权重后的子带信号输出关于声音事件的初步分类结果，以及其中，分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。

根据本公开的另一方面，提供了一种信息处理设备，其包括处理器，所述处理器被配置为：对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分，以获得与各个子带对应的子带信号；将所获得的子带信号输入到预先训练好的分类模型中；以及利用分类模型确定声音信号中所包括的声音事件的类别，其中，分类模型包括分别与各个子带相对应的多个子带模型，每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重，并根据被施加权重后的子带信号输出关于声音事件的初步分类结果，以及其中，分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。

依据本公开的其它方面，还提供了一种使得计算机实现如上所述的信号处理方法的程序。

依据本公开的又一方面，还提供了相应的存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行上述信号处理方法。

上述根据本公开实施例的各个方面，至少能够获得以下益处：利用本公开所提供的信号处理方法、信息处理设备、程序和存储介质，可以根据频域子带对声音事件分类的影响而针对各个子带将声音信号的频域特征进行增强，从而基于增强特征得到更准确的分类结果。

通过以下结合附图对本公开的最佳实施例的详细说明，本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示意性地示出根据本公开实施例的信号处理方法的示例流程的流程图。

图2是用于说明图1的信号处理方法中执行的示例处理的说明图。

图3是示意性地示出图1的信号处理方法中所应用的分类模型的示意图。

图4是示意性地示出根据本公开实施例的信号处理方法的另一个示例流程的流程图。

图5是示意性地示出图4的信号处理方法中所应用的分类模型的示意图。

图6是示意性地示出根据本公开实施例的信号处理设备的一个示例结构的示意性框图。

图7是示意性地示出根据本公开实施例的信号处理设备的另一个示例结构的示意性框图。

图8是示出了可用来实现根据本公开实施例的信号处理方法和设备的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

根据本公开的一个方面，提供了一种信号处理方法。图1是示意性地示出根据本公开实施例的信号处理方法100的示例流程的流程图。

如图1所示，信号处理方法100可以包括：子带划分步骤S101，对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分，以获得与各个子带对应的子带信号；子带信号输入步骤S103，将所获得的子带信号输入到预先训练好的分类模型中；以及声音事件分类步骤S105，利用分类模型确定声音信号中所包括的声音事件的类别。在本实施例的信号处理方法中，所采用的分类模型包括分别与各个子带相对应的多个子带模型，其中，每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重，并根据被施加权重后的子带信号输出关于声音事件的初步分类结果。相应地，分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。

作为示例，本实施例的信号处理方法所处理的声音事件/场景的类别例如可以包括成年男性说话、成年女性说话、儿童说话、街道场景、办公室场景、行人走过、货车开过、自行车经过，等等。

发明人发现，不同声音场景或事件中涉及的不同对象发出的声音都有各自对应的频率。例如，女性说话时声音的频率通常比男性更高；诸如装满货物的卡车的大物体驶过导致震动发声的频率会比诸如自行车的小物体低；蝙蝠可以发出频率超过20000Hz的超声波，而地震时会产生低于20Hz的次声波，等等。

因此，在本实施例的信处理方法中，针对不同的频域子带对声音信号的频域特征进行增强。具体地，利用根据通过训练获得的、频域子带对声音事件分类的影响而对所输入的子带信号(其可被视为声音信号的频域特征)施加权重以进行增强，从而可以基于增强的子带信号得到准确的分类结果。

以下将结合图2和图3描述图1的信息处理方法中执行的示例处理，其中，图2是用于说明图1的信号处理方法中的子带划分步骤中的示例处理的说明图，图3是示出图1的信号处理方法中所采用的分类模型的示意结构的示意图。

作为示例，在本实施例中，根据声音信号获得的时频域信号可以包括语谱图。如图2所示，以时域的声音信号x_t(0≤t≤T,T为声音信号的时长)为例，通过本领域的一系列已知变换可以得到该信号的语谱图ui,_j，其中，0≤i≤I,0≤j≤J,I为语谱图的宽度并且对应于声音信号的时长，J为语谱图的高度并且对应于声音信号的整个频率范围，u_i,j为时间i处、频率j处的频域信号的值(例如，通过短时傅里叶变换等方式获得的功率谱密度等)。

对于具有上述形式的语谱图u_i,j，在子带划分步骤S101中，可以如图2下方所示，将其按照频率方向上的N个子带进行划分，以获得N个子带信号

其中，N为大于1的自然数，J₁,…,J_N-2,J_N-1,J_N为各个子带的边界处的频率。

优选地，诸如N个子带的多个子带可以是在频率方向上均匀划分的。N的取值越大、子带划分越细，则能够越精确地针对每个子带信号施加表示频域子带对声音事件分类的影响的权重。本领域技术人员可以理解，在具体应用时，可以综合考虑处理速度和系统性能等因素的平衡而选择N的适当数目。

替选地，诸如N个子带的多个子带也可以是在频率方向上根据对声音事件的频率的先验知识来划分的。例如，可以根据要检测声音事件的场景所包括的各个声音事件各自的频率范围，对根据声音信号获得的时频域信号按照频率方向上的多个子带进行初步划分，使得每个子带尽量对应于可能检测到一个声音事件的频率范围。

接下来，在子带信号输入步骤S103中，将所获得的子带信号

输入到预先训练好的分类模型中，并且在声音事件分类步骤S105中，利用分类模型确定声音信号中所包括的声音事件的类别。

图3示出了分类模型的示意结构，该分类模型例如可以包括基于卷积神经网络的模型。如图3所示，分类模型可以包括分别与各个子带相对应的多个子带模型M₁，M₂，…,M_N，其中，每个子带模型可以各自利用包括若干个卷积层和池化层等卷积神经网络的一般结构的简单神经网络实现。由于本实施例中采用了诸如语谱图形式的时频域信号，因此，作为示例，每个子带模型可以采用用于图像处理的基于卷积神经网络的分类器，以类似于对图像信号分类的方式对语谱图形式的时域信号进行分类。相较于现有技术中一般用于处理音频信号的贝叶斯分类器等，本优选实施例中采用的基于卷积神经网络的分类器更有利于处理数目较多的类别，从而能够在复杂的声音场景检测中改进分类的准确度。

如图3左侧所示，各个子带模型M₁，M₂，…,M_N根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号

施加权重s₁,s₂…,s_N，以通过下述公式(1)获得被施加权重后的第c个子带信号：

其中，1≤c≤N表示子带的编号。

在一个优选实施例中，可以利用激励函数获得公式(1)中的权重s_c。即，每个子带模型Mc可以利用通过训练获得的激励函数fex_c来表示相对应的子带c对声音事件分类的影响，其中，激励函数fex_c的输入为相对应的子带信号

的强度Z_c，激励函数的输出为该子带信号的权重s_c。激励函数fex_c本身例如可以是参数矩阵的形式或简单的神经网络的形式，并且其具体参数可以在训练分类模型时一并获得。

作为示例，可以将子带信号的所有信息在频率方向上以及在时间方向上的累积结果表示该子带信号的强度。例如，每个子带c的子带强度Z_c可以通过下述公式(2)获得：

利用上述公式(2)所示的子带强度Z_c、以及通过训练获得的激励函数fex_c，可以获得每个子带的激励权重s_c＝fex_c(Z_c)。通过所获得的权重s₁…,s₂…,s_N应用于公式(1)，可以获得施加权重后的子带信号

并输入用于分类的子带模型。由于各个子带模型所输入的子带信号通过施加权重而进行了特征加强，因此可以通过分类模型获得改进的分类结果。

如图3右侧所示，根据施加权重后的子带信号

各个子带模型M₁，M₂，…,M_N各自输出关于声音事件的初步分类结果Class₁，Class₂，…,Class_N，并且分类模型可以据此输出最终分类结果Class。作为示例，利用卷积神经网络实现的分类模型所获得的各个初步分类结果以及最终分类结果可以是表示声音事件属于各个预定事件类别的概率的一维向量。例如，子带模型M_c的初步分类结果Class_c＝{p^c ₁,p^c ₂,….,p^c _K},其中，p^c ₁,p^c ₂,….,p^c _K分别表示所输入的子带信号

属于预先设置的K个类别中的每个类别的概率。

举例而言，可以通过将各个初步分类结果加权以获得最终的分类结果，如下述公式(3)所示。

Class＝w₁Class₁+w₂Class₂+…+w_NClass_N…公式(3)

公式(3)使用的各个权重系数w₁w₂，…，w_N可以在训练分类模型时一并获得。稍后将会描述用于训练分类模型的示例方式。这里，通过各个初步分类结果经由加权等方式获得最终的分类结果的处理例如可以通过卷积神经网络模型的全连接层实现。

如上所述，最终分类结果Class也可以具有与初步分类结果Class_c类似的表示声音事件属于各个预定事件类别的概率的一维向量形式。相应地，例如可以在最终分类结果的各个概率中将概率大于预定阈值的那个事件类别作为对输入信号分类的最终类别。另外，可以在最终分类结果Class中的各个概率均小于预定阈值时，将输入的信号识别为噪声或未知类别。

以上参照图1至图3描述了根据本公开实施例的信号处理方法的一个示例流程。利用本实施例的信号处理方法，可以根据频域子带对声音事件分类的影响而针对各个子带将声音信号的频域特征进行增强，从而基于增强特征得到更准确的分类结果。

接下来，将简单描述如图3所示的分类模型的训练过程。本领域技术人员可以理解，分类模型的训练与其应用过程是一一对应的，因此，此处仅就二者的区别进行必要描述。

作为示例，可以利用预先标记好声音事件的类别的训练声音数据的时频域信号，通过训练获得分类模型。例如，L个训练声音数据的时频域信号可以分别采用与根据待分类的声音信号获得的语谱图u_i,j具有类似形式的语谱图v^l _i,j，其中，1≤l≤L表示训练数据的序号，L为训练数据的总个数，并且每个训练数据已经标记好各自的声音事件的类别Label^l。

可以通过与以上参照图1至图3描述的处理类似的方式，将训练声音数据的语谱图v^l _i,j按照频率方向上的N个子带进行划分，以获得与N个子带对应的训练子带信号，v^l _i,j1(0≤i≤I,0≤j₁≤J₁)，…,v^l _i,jn-2(0≤i≤I,0≤j_n-2≤J_N-2)，v^l _i,jn-1(0≤i≤I,0≤j_n-1≤J_N-1)，v^l _i,jn(0≤i≤I,0≤j_n≤J_N)，其中，N为大于1的自然数，J₁,…,J_N-2,J_N-1,J_N为各个子带的边界处的频率。

优选地，诸如N个子带的多个子带可以是在频率方向上均匀划分的。替选地，诸如N个子带的多个子带也可以是在频率方向上根据对声音事件的频率的先验知识来划分的。本领域技术人员可以理解，应用于训练声音数据的子带划分与应用于待分类声音数据的子带划分是一致的。

接下来，将所获得的训练声音数据的子带信号v^l _i,j1，…,v^l _i,jn-2，v^l _i,jn-1，v^l _i,jn输入到分类模型中，并且利用分类模型确定声音信号中所包括的声音事件的类别，通过使得分类模型确定的类别与真实类别之间的差异最小化而获得分类模型的各个参数，包括用于对子带信号施加权重的激励函数的参数以及各个子带模型的初步分类结果的权重等。

更具体地，在要训练的分类模型中，每个子带模型M_c利用激励函数fex_c来表示相对应的子带c对声音事件分类的影响，其中，激励函数fex_c的输入为相对应的训练子带信号v^l _i,jc的强度Z^l _c(例如通过与公式(2)类似的方式获得)，输出为该训练子带信号的权重s^l _c，从而以与公式(1)类似的方式获得施加权重之后的训练子带信号

根据上述施加权重后的训练子带信号v^l _i,jc，各个子带模型M₁，M₂，…,M_N各自输出关于声音事件的初步分类结果Class^l ₁，Class^l ₂，…,Class^l _N，并且分类模型可以通过与公式(3)类似的方式输出最终分类结果Class^l＝w₁Class^l ₁+w₂Class^l ₂+…+w_NClass^l _N。

对于共L个训练数据，可以基于L个最终分类结果Class^l(1≤l≤L)与这些数据的分类标签Label^l之间的差异构建损失函数，并且通过使得该损失函数获得最小值而得到分类模型中的各个参数，包括激励函数fex_c中的具体参数以及公式(3)中的各个权重w₁，w₂，…，w_N等。在本公开内容的基础上，本领域技术人员可以通过各种适当方式构建上述损失函数并获得模型中的参数的优选值，在此不再赘述。

接下来，将参照图4和图5描述根据本公开实施例的信号处理方法的另一个示例流程，其中，图4是示意性地示出信号处理方法的该示例流程的流程图，图5是示意性地示出图4的信号处理方法中所应用的分类模型的示意图。

如图4所示，本实施例的信号处理方法400与图1的信号处理方法100的区别在于，除了与图1中的步骤S101至S105分别对应的子带划分单元步骤S401、子带信号输入步骤S403、声音事件分类步骤S405之外还另外地包括整体信号输入步骤S404，用于将根据声音信号获得的时频域信号整体输入到分类模型中。如图5所示，本实施例中所采用的分类模型与图3所示的分类模型的区别在于，还另外地包括与整体的时频域信号相对应的整体模型M₀，该整体模型M₀根据整体输入的时频域信号u_i,j输出关于声音事件的初步分类结果Class₀，并且分类模型根据多个子带模型M₁，M₂，…,M_N的初步分类结果Class₁，Class₂，…，Class_N以及整体模型M₀的初步分类结果Class₀输出关于声音事件的最终分类结果Class’。通过在分类模型中增加整体模型，本实施例可以在进行子带特征增强的同时很好地保留各个子带之间的互相关信息，从而进一步改进分类模型的分类准确度。

除了上述区别之外，本实施例的图像处理方法400中的其余步骤与S401、S403、S405与图2的图像处理方法100的相应步骤S101、S103、S105基本相同或类似，并且所采用的图5的分类模型中的各个子带模型与图3中的相应子带模型基本相同。因此，以下将在参照图1至图3描述的实施例的基础上，主要描述本实施例的不同之处，并省略对共同之处的描述。

作为示例，本实施例中采用的整体模型M₀可以与子带模型M₁，M₂，…,M_N类似地利用包括若干个卷积层和池化层等卷积神经网络的一般结构的简单神经网络实现。换言之，用于处理诸如整体未经划分的语谱图形式的整体时频域信号的整体模型可以采用用于图像处理的基于卷积神经网络的分类器，以类似于对图像信号分类的方式对语谱图形式的时域信号进行分类。如图5所示，整体模型M₀与子带模型M₁，M₂，…,M_N的区别在于，其可以直接基于未经加权的语谱图输出初步分类结果Class₀。

在诸如图5所示的分类模型中，可以利用下述公式(4)获得最终分类结果：

Class’＝w₁Class₁+w₂Class₂+…+w_NClass_N+w₀Class₀…公式(4)

在公式(4)中，相对于公式(3)增加了整体模型M₀的初步分类结果Class₀及相应的权重系数w₀。

对于诸如图5所示的分类模型，可以采用与图3所示的分类模型类似的训练方式，即，通过共同训练获得包括整体模型M₀与子带模型M₁，M₂，…,M_N的整个分类模型中的各个参数。

作为替选，可以利用下述公式(5)获得最终分类结果：

Class”＝Class+λClass₀…公式(5)

其中，Class为参照图3描述的公式(3)获得的分类结果，即最终分类结果如下公式(6)所示：

Class”＝w₁Class₁+w₂Class₂+…+w_NClass_N+λClass₀…公式(6)

对于此替选方式，可以一方面单独以参照图3描述的方式单独训练不包括整体模型M₀的模型部分，另一方面单独训练整体模型M₀。最后，可以将两个部分各自的输出结果进行融合，并通过训练获得整体模型M₀此时的权重系数λ(即，整体模型M₀相对于分类模型中不包括整体模型M₀的模型部分的权重系数)，在此不再赘述。

以上参照图4至图5描述了根据本公开实施例的信号处理方法的另一个示例流程。利用本实施例的信号处理方法，通过在分类模型中增加整体模型，可以在进行子带特征增强的同时很好地保留各个子带之间的互相关信息，从而进一步改进分类模型的分类准确度。

根据根本公开的另一方面，提供了一种信号处理设备。图6是示意性地示出根据本公开实施例的信号处理设备的一个示例结构的示意性框图。

如图6所示，信号处理设备600可以包括：子带划分单元601，对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分，以获得与各个子带对应的子带信号；子带信号输入单元603，将所获得的子带信号输入到预先训练好的分类模型中；以及声音事件分类单元605，利用分类模型确定声音信号中所包括的声音事件的类别。在本实施例的信号处理设备中，所采用的分类模型包括分别与各个子带相对应的多个子带模型，其中，每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重，并根据被施加权重后的子带信号输出关于声音事件的初步分类结果。相应地，分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。

上述信号处理设备及其各个单元例如可以进行以上参照图1至图3描述的信号处理方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

如图7所示，本实施例的信号处理设备700与图6的信号处理设备600的区别在于，除了与图6中的单元601至605分别对应的子带划分单元701、子带信号输入单元703、声音事件分类单元705之外，还另外地包括整体信号输入单元704，用于将根据声音信号获得的时频域信号整体输入到分类模型中。相应地，在本实施例中所采用的分类模型中，还另外地包括与整体的时频域信号相对应的整体模型，该整体模型根据整体输入的时频域信号输出关于声音事件的初步分类结果，并且分类模型根据多个子带模型的初步分类结果以及整体模型的初步分类结果输出关于声音事件的最终分类结果。

上述信号处理设备及其各个单元例如可以进行以上参照图4至图5描述的信号处理方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

根据根本公开的又一方面，提供了一种信息处理设备。该信息处理设备可以实现根据本公开实施例的信号处理方法，其可以包括处理器，该处理器被配置为：对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分，以获得与各个子带对应的子带信号；将所获得的子带信号输入到预先训练好的分类模型中；以及利用分类模型确定声音信号中所包括的声音事件的类别，其中，分类模型包括分别与各个子带相对应的多个子带模型，每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重，并根据被施加权重后的子带信号输出关于声音事件的初步分类结果，以及其中，分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。

信息处理设备的处理器例如可以被配置为进行以上参照图1至图7描述的信号处理方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

作为示例，根据声音信号获得的时频域信号可以包括语谱图。

优选地，每个子带模型利用通过训练获得的激励函数表示相对应的子带对声音事件分类的影响，其中，所述激励函数的输入为相对应的子带信号的强度，所述激励函数的输出为该子带信号的权重。

优选地，多个子带是在频率方向上均匀划分的。

替选地，多个子带是在频率方向上根据对声音事件的频率的先验知识来划分的。

作为示例，在分类模型中，各个初步分类结果被加权以获得最终的分类结果。

作为示例，分类模型可以包括基于卷积神经网络的模型。

作为示例，可以利用预先标记好声音事件的类别的训练声音数据的时频域信号，通过训练获得分类模型。

在一个优选实施例中，该处理器可以进一步被配置为将根据声音信号获得的时频域信号整体输入到所述分类模型中，其中，所述分类模型还包括与整体的时频域信号相对应的整体模型，该整体模型根据整体输入的时频域信号输出关于声音事件的初步分类结果，并且所述分类模型根据多个子带模型的初步分类结果以及整体模型的初步分类结果输出关于声音事件的最终分类结果。

图8是示出了可用来实现根据本公开实施例的信号处理方法和设备以及信息处理设备的一种可能的硬件配置800的结构简图。

在图8中，中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中，还根据需要存储当CPU 801执行各种处理等等时所需的数据。CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件也连接到输入/输出接口805：输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡例如LAN卡、调制解调器等)。通信部分809经由网络例如因特网执行通信处理。根据需要，驱动器810也可连接到输入/输出接口805。可拆卸介质811例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上，使得从中读出的计算机程序可根据需要被安装到存储部分808中。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本公开实施例的信号处理方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

即，本公开还提出了一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行上述根据本公开实施例的信号处理方法。所述指令代码包括指令代码部分，用于进行下述操作：随机生成由预定素材集中的元素构成的认证序列；提示被测用户以语音方式输入认证序列，得到待认证语音序列；从待认证语音序列中提取语音特征；以及将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户，其中，判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

上述存储介质例如可以包括但不限于磁盘、光盘、磁光盘、半导体存储器等。

在上面对本公开具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外，显然，根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户信息处理终端通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序，也可以实现本公开的各实施例。

综上，根据本公开实施例，本公开提供了如下方案，但不限于此：

方案1.一种信息处理设备，包括：

处理器，被配置为：

对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分，以获得与各个子带对应的子带信号；

将所获得的子带信号输入到预先训练好的分类模型中；以及

利用分类模型确定声音信号中所包括的声音事件的类别，

其中，分类模型包括分别与各个子带相对应的多个子带模型，每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重，并根据被施加权重后的子带信号输出关于声音事件的初步分类结果，以及

其中，分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。

方案2.如方案1所述的信息处理设备，其中，

根据声音信号获得的时频域信号包括语谱图。

方案3.如方案1或2所述的信息处理设备，其中，

每个子带模型利用通过训练获得的激励函数表示相对应的子带对声音事件分类的影响，其中，激励函数的输入为相对应的子带信号的强度，激励函数的输出为该子带信号的权重。

方案4.如方案1或2所述的信息处理设备，其中，

处理器进一步被配置为：将根据声音信号获得的时频域信号整体输入到分类模型中，

其中，分类模型还包括与整体的时频域信号相对应的整体模型，该整体模型根据整体输入的时频域信号输出关于声音事件的初步分类结果，并且所述分类模型根据多个子带模型的初步分类结果以及整体模型的初步分类结果输出关于声音事件的最终分类结果。

方案5.如方案1或2所述的信息处理设备，其中，

多个子带是在频率方向上均匀划分的。

方案6.如方案1或2所述的信息处理设备，其中，

多个子带是在频率方向上根据对声音事件的频率的先验知识来划分的。

方案7.如方案1或4所述的信息处理设备，其中，

在分类模型中，各个初步分类结果被加权以获得最终的分类结果。

方案8.如方案1或2所述的信息处理设备，其中，

分类模型包括基于卷积神经网络的模型。

方案9.如方案1或2所述的信息处理设备，其中，

利用预先标记好声音事件的类别的训练声音数据的时频域信号，通过训练获得分类模型。

方案10.一种信号处理方法，包括：

将所获得的子带信号输入到预先训练好的分类模型中；以及

利用分类模型确定声音信号中所包括的声音事件的类别，

方案11.如方案10所述的信号处理方法，其中，

根据声音信号获得的时频域信号包括语谱图。

方案12.如方案10或11所述的信号处理方法，其中，每个子带模型利用通过训练获得的激励函数表示相对应的子带对声音事件分类的影响，其中，激励函数的输入为相对应的子带信号的强度，激励函数的输出为该子带信号的权重。

方案13.如方案10或11所述的信号处理方法，还包括：

将根据声音信号获得的时频域信号整体输入到分类模型中，

其中，分类模型还包括与整体的时频域信号相对应的整体模型，该整体模型根据整体输入的时频域信号输出关于声音事件的初步分类结果，并且分类模型根据多个子带模型的初步分类结果以及整体模型的初步分类结果输出关于声音事件的最终分类结果。

方案14.如方案10或11所述的信号处理方法，其中，

多个子带是在频率方向上均匀划分的。

方案15.如方案10或11所述的信号处理方法，其中，

方案16.如方案10或13所述的信号处理方法，其中，

方案17.如方案10或11所述的信号处理方法，其中，

分类模型包括基于卷积神经网络的模型。

方案18.如方案10或11所述的信号处理方法，其中，

方案19.一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行一种信号处理方法，所述信号处理方法包括：

将所获得的子带信号输入到预先训练好的分类模型中；以及

利用分类模型确定声音信号中所包括的声音事件的类别，

最后，还需要说明的是，在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备可能不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims

1.一种信息处理设备，包括：

处理器，被配置为：

将所获得的子带信号输入到预先训练好的分类模型中；以及

利用分类模型确定声音信号中所包括的声音事件的类别，

2.如权利要求1所述的信息处理设备，其中，

根据声音信号获得的时频域信号包括语谱图。

3.如权利要求1或2所述的信息处理设备，其中，

4.如权利要求1或2所述的信息处理设备，其中，

5.如权利要求1或2所述的信息处理设备，其中，

多个子带是在频率方向上均匀划分的。

6.如权利要求1或2所述的信息处理设备，其中，

7.如权利要求1或2所述的信息处理设备，其中，

8.如权利要求1或2所述的信息处理设备，其中，

分类模型包括基于卷积神经网络的模型。

9.如权利要求1或2所述的信息处理设备，其中，

10.一种信号处理方法，包括：

将所获得的子带信号输入到预先训练好的分类模型中；以及

利用分类模型确定声音信号中所包括的声音事件的类别，