CN112634944A

CN112634944A - 识别声音事件的方法

Info

Publication number: CN112634944A
Application number: CN202011054502.4A
Authority: CN
Inventors: 克里斯托夫·J·米切尔; 萨夏·克尔斯图洛维奇; 卡格达斯·比伦; 胡安·阿斯卡雷塔·奥尔蒂斯; 贾科莫·费罗尼; 阿尔诺德·杰森纳斯; 弗朗切斯科·图韦里
Original assignee: Audio Analytic Ltd
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-10-07
Filing date: 2020-09-29
Publication date: 2021-04-09
Also published as: US20210104230A1; US11587556B2

Abstract

一种用于识别包括音频数据帧序列的音频信号中的非语言声音事件和场景中的至少一个的方法，该方法包括：对于序列的每个帧：处理音频数据帧以提取音频数据帧的多个声学特征；以及通过为声音类别集合中的每个声音类别确定帧表示声音类别的得分，对声学特征进行分类以对帧进行分类；处理帧序列中的多个帧的声音类别得分，以针对每个帧生成每个帧的声音类别决策；以及处理帧序列的声音类别决策，以识别非语言声音事件和场景中的至少一个。

Description

识别声音事件的方法

技术领域

本发明总体涉及通过处理音频数据来识别非语言声音事件和/或场景。

背景技术

关于声音识别系统和方法的背景信息可以在申请人的PCT申请 WO2010/070314中找到。

发明内容

根据第一方面，提供了一种用于音频信号中的非语言声音事件和场景中的至少一个的方法，所述音频信号包括音频数据帧序列。该方法可以包括：对于序列的每个帧，处理音频数据帧以提取音频数据帧的多个声学特征。该方法还可以包括：对于序列的每个帧，通过针对声音类别集合中的每个声音类别确定帧表示声音类别的得分，对声学特征进行分类以对帧进行分类。该方法还可以包括：处理帧序列中的多个帧的声音类别得分，以针对每个帧生成每个帧的声音类别决策。该方法还可以包括：处理帧序列的声音类别决策，以识别非语言声音事件和场景中的至少一个。

非语言声音事件和/或场景可以是由事件和/或场景和/或动作产生的声音。非语言声音事件的示例可能是婴儿啼哭、开枪射击、狗吠。非语言声音事件的另一个示例是识别正在讲话的人的存在，换句话说，用于识别非语言声音事件和/或场景的方法可以包括一种方法，该方法包括确定一个人正在讲话(或其他详细信息(例如，一个人何时开始和停止讲话)，或确定多个人正在讲话)。用于识别非语言声音事件和/ 或场景的方法可以不包括识别以及例如转录准确的语音词，这种方法属于语音识别。

音频信号可以是由诸如麦克风之类的声音捕获设备捕获的模拟或数字音频信号。如果音频信号是模拟信号，则该方法可以包括例如使用模数转换器(ADC)将模拟信号转换为数字信号。声音捕获设备可以是麦克风阵列，如果是这种情况，则可以捕获多声道音频并且可以将其用于获取改进的声音识别结果。

音频信号可以被定义为帧序列。每个帧可以覆盖每0.016s采样的约0.032s的声音。该序列指示帧具有时间顺序。帧可以是从连续时间序列(例如，音频信号)中以规则间隔获取的样本。由于可以以规则间隔(由采样率定义)来获取样本(即，帧)，因此时间可以等效地以标准时间单位(即，分钟、秒、毫秒等)表示或被表示为帧数。例如，在采样率为16kHz的数字系统(意指每秒16,000个采样)中，16毫秒的持续时间可以等效地被表示为256个采样：0.016秒乘以每秒 16,000个采样等于256个采样。

音频数据帧可以包含时域波形样本或傅立叶域频谱样本。音频数据帧可以包括一个或多个时域波形样本或一个或多个傅立叶域频谱样本。

处理音频数据帧可以包括处理时域波形样本和傅立叶域波形样本中的一个或多个，其中时域波形样本和傅立叶域波形样本对应于音频信号中来自同一时间点的音频。处理的结果可以是声学特征的一个或多个矢量。处理音频帧可以包括对音频数据帧执行一种或多种信号处理算法。附加地或可替代地，处理音频数据帧可以包括使用回归方法。回归方法可以包括特征学习。特征学习可以例如通过训练人工神经网络(ANN)以产生声学特征来实现。在这种情况下，可以训练神经网络以产生瓶颈特征(即，由瓶颈层输出的特征)，其中嵌入先前训练的神经网络模型是对另一个神经网络的输入。

用于处理音频数据帧的神经网络可以被训练为自动编码器。在这种情况下，神经网络被训练为使输入矢量与其自身匹配，但是该网络具有某些特定结构，例如神经网络中间的收缩部或具有递归结构。特定结构可以将音频数据帧编码为多个声学特征。

提取各种特征是有利的，因为它可以提供帧的更精确分类。

所提取的一个或多个声学特征可以是象声语特征，例如表示与音频数据帧相关联的“哔哔声”级的声学特征(其他示例可以是“突发性”或“和谐性”级)。

单个声学特征矢量可以包括帧的所有所提取的声学特征。

声学特征用于对帧进行分类。通过针对声音类别集合中的每个声音类别确定帧表示声音类别的得分，对帧进行分类。声音类别的得分可以表示在帧表示的时间段期间发生了与该声音类别相关联的非语言声音事件和/或场景的指示。可以使用复音分类来对帧进行分类，其中单个输入(即，一个帧)可以对应于若干个重叠的非语言声音事件和/ 或场景。与帧相关联的得分不必是概率，也不必总和为1。

声音类别是可以通过所描述的方法从音频信号识别的非语言声音。声音类别可以表示非语言声音事件和/或场景、指示非语言声音事件和/或场景或与非语言声音事件和/或场景相关联，例如，声音类别可以是“婴儿啼哭”、“狗吠”或“女性讲话”。附加地或可替代地，声音类别可以表示音频场景、指示音频场景或与音频场景相关联，其中音频场景例如是“火车站”或“家庭晚餐”。声音类别在定义上可以具有不同的精确度级，例如，可能的声音类别有“大声的碰撞”、“异常” 或“嘈杂的房间”，它们可能被认为不如“婴儿啼哭”的声音类别重点突出。

非语言声音事件可以被称为音频事件。音频事件可以是某一时间点和/或一段持续时间内的声音类别的体现。例如，“烟雾报警器响起 10秒钟”或“今天在12:15至12:17期间婴儿啼哭”是非语言声音事件的示例。

声音场景可以被称为音频场景。声音场景可以是以期望的声音或声音类型集合为特征的环境。可以通过识别和处理多个音频事件来识别音频场景。音频场景可以指示特定情境。音频场景的示例有“火车站”(可以由诸如火车声音、人群声音等音频事件的复合混合定义)和 “家庭晚餐”(由诸如陶制餐具声音、对话、咀嚼声音等音频事件的复合混合定义)。

声音类别集合可以包括一个或多个目标声音类别和一个非目标声音类别。目标声音类别是所描述的系统被配置为要识别的声音类别(例如，“婴儿啼哭”、“狗吠”或“女性讲话”)。非目标声音类别是包括不是目标声音类别的所有声音类别的声音类别。如果一个帧中没有音频事件和/或场景具有相应的目标声音类别，则该帧将被分类为具有非目标声音类别。非目标声音类别是包括不是目标声音类别的所有声音类别的声音类别。如果一个帧中没有音频事件和/或场景(具有相应的目标声音类别)，则该帧将被分类为具有非目标声音类别。非目标声音类别表示一个或多个目标声音类别中的每个目标声音类别都不存在。

对于声音类别集合中的每个声音类别，确定帧表示声音类别的得分。该得分可以标识每个帧对声音类别的隶属程度。得分可以是概率，在这种情况下，针对声音类别集合中的每个声音类别的得分的总和等于1。如果期望执行一种针对每个帧仅输出单个声音类别的方法，则将概率作为得分可能是有利的。该得分可以被称为类别隶属得分，其中得分表示帧对声音类别的隶属程度级。该得分可以是距离或表示帧对声音类别的隶属程度级的任何其他度量。换句话说，得分可能不是概率。有利地，如果得分不是概率，则可以执行一种识别相对于时间而重叠的声音的方法，因为该方法允许确定与帧相关联的一个以上的声音事件和/或场景。

处理声音类别得分以生成帧的声音类别决策。该处理可以通过处理帧的多个声音类别的得分来输出帧的单个声音类别决策。该处理可以通过处理帧的多个声音类别的得分来输出帧的多个声音类别决策。处理多个帧的声音类别得分，以便针对单个帧生成声音类别决策。

声音类别决策是对帧与声音类别相关联的指示。换句话说，声音类别决策是对由声音类别决策表示的非语言声音事件和/或场景在帧跨越的时间期间已经发生的指示。为了生成声音类别决策，处理长期时间信息，例如，可以处理多个帧的声音类别得分以确定一个帧的声音类别决策。声音类别决策可以是硬决策，例如，声音类别决策可以是将帧与一个(或多个)声音类别相关联的是或否。声音类别决策可以是软决策，其表示声音类别具有与之相关联的一个或多个声音类别的可能性。对于此步骤，可以输入多个声音类别得分并且可以输出声音类别决策(在此示例中，声音类别决策是输出的声音类别)。

处理声音类别决策以识别一个或多个非语言声音事件和/或场景。识别非语言声音事件和/或场景可以包括生成连续声音事件和/或场景的指示。这样的指示可以被输出到另一设备，或者可以经由用户界面被传达给用户。

该方法可以包括识别非语言声音事件和/或场景。在一段时间内可能会识别出多个声音事件和/或场景。这可以包括识别非语言声音事件和/或场景的开始时间和结束时间。

处理声音类别得分可以包括将时间结构约束应用于声音类别得分以生成声音类别决策。应用时间结构约束可以包括将一致性约束应用于多个帧的序列上的声音类别得分。一致性约束可以是软约束或硬约束：例如，要求指定数量或比例的帧具有相似的声音类别得分和/或相同的声音类别决策；或要求对于帧序列满足一致性度量；或使用响应于声音类别得分的历史的过程来处理帧序列的声音类别得分。因此，将时间结构约束应用于帧序列通常可以包括处理帧序列以确定是否满足约束(即，时间结构约束)。

对声学特征进行分类可以包括使用第一分类器集合对音频数据帧进行分类，并且其中，应用时间结构约束可以包括使用第二分类器处理声音类别得分。

第二分类器可以是神经网络。

对声学特征进行分类可以包括使用第一分类器集合对音频数据帧进行分类，并且其中，应用时间结构约束可以包括使用维特比最优路径搜索算法处理声音类别得分。第一分类器集合可以被称为声音类别。第一分类器的示例有“婴儿啼哭”、“玻璃破碎”或“狗吠”。

第一分类器集合可以包括神经网络分类器集合。第一分类器集合可以包括前馈神经网络分类器集合。

处理音频数据帧以提取音频数据帧的多个声学特征可以包括使用特征提取神经网络处理音频数据帧以提取该帧的声学特征。特征提取神经网络可以是包括多个不同功能层的神经网络系统的子系统。

可以使用算法集合来提取多个声学特征。该算法集合可以是信号处理算法集。

音频数据帧可以包括用于时间窗口的时域音频数据，并且其中，处理音频数据帧以提取音频数据帧的声学特征可以包括将音频数据帧变换为频域音频数据和/或从频域音频数据中确定定义音频数据帧的声学特征的特征矢量。

用于特征提取的神经网络可以接收以下的任何一项作为输入：帧的波形、帧的频域数据或帧的另外的变换。

换句话说，神经网络可以被配置为：接收波形作为输入；并且输出多个声学特征。可以将波形变换为傅立叶频谱，神经网络可以被配置为接收傅立叶频谱并且输出多个声学特征。可以通过信号处理算法操作波形(以例如产生梅尔频率倒谱系数)，神经网络可以被配置为：接收信号处理算法的输出作为输入；并且输出多个声学特征。

对声学特征进行分类以对帧进行分类可以包括：将音频数据帧的多个声学特征与序列中的相邻音频数据帧的多个声学特征级联。

处理音频数据帧以提取音频数据帧的声学特征可以包括确定定义音频数据帧的声学特征的特征矢量。

音频数据帧可以包括用于时间窗口的时域音频数据。处理音频数据帧以提取音频数据帧的声学特征可以包括将音频数据帧变换为频域音频数据。

该方法可以包括基于以下的一项或多项调整帧序列中的多个帧的声音类别得分：关于一个或多个声音类别的认识；以及关于从中捕获音频数据的声音环境的认识。所述认识可以是先验认识并且可以从外部源接收。关于从中捕获音频数据的环境的认识可以是声音识别设备所在的房屋是空的。关于一个或多个声音类别的认识可以例如是声音类别发生的相对概率，例如不如语音声音发生频繁的玻璃破碎或烟雾报警器声音。关于一个或多个声音类别的认识可以例如是针对某些声音类别做出错误决策的代价，例如，误检测一个狗吠声的代价可能低，因为很可能狗会再次吠叫，而误检测玻璃破碎声的代价高，因为误检测的后果(例如，窃贼入侵)可能是灾难性的。这样的认识可以被认为是“外部”或先验认识，因为它是从音频信号之外的源获得的。这种认识包含与所识别的声音事件和/或场景的可能性有关的信息。所述认识可以具有与声音不同的感觉形态。

处理帧序列中的多个帧的声音类别得分以针对每个帧生成一个或多个声音类别决策可以包括跨多个帧使用最优路径搜索算法。该处理可以针对一个帧生成多个类别决策，这可能是音频事件和/或场景重叠的结果。例如，在烟雾报警器响起时婴儿啼哭可能会导致针对一个帧的多个类别决策：针对所考虑的帧的指示婴儿啼哭的类别决策和指示烟雾报警器的类别决策。

最优路径搜索算法可以是维特比(Viterbi)算法。

维特比算法接收多个帧的声音类别得分作为输入并且输出一个或多个帧的声音类别决策。当使用维特比算法时，对于每个声音类别都存在一个状态。转换矩阵可以用于阻止或支持特定状态之间(即，特定声音类别之间)的转换。这意指在连续帧之间，声音类别决策可能仅例如从目标声音类别变迁到非目标声音类别，或者可能被禁止从第一目标声音类别直接变迁到第二目标声音类别。换句话说，转换矩阵可以以各种方式影响转换，例如，迫使转换而不是阻止转换，或者确保所有转换都是等概率的。

处理帧序列的声音类别决策以识别非语言声音事件和/或场景可以包括确定非语言声音事件和/或场景的开始时间和结束时间。

处理帧序列中的多个帧的声音类别得分以针对每个帧生成每个帧的声音类别决策可以包括：对多个帧的声音类别得分进行滤波以生成每个帧的平滑得分；以及将每个平滑得分与阈值进行比较以确定每个帧的声音类别决策。

可以处理帧级分类以生成表示长于声音类别决策的时间段的事件和/或场景指示符。事件和/或场景指示符可以指示事件和场景中的至少一个已经发生。可以例如通过以下方式处理帧级分类以生成音频事件指示符：

-将每个帧的声音类别决策分组为具有开始时间、结束时间和持续时间的单个长期事件和/或场景指示符；

-放弃短于为每个声音类别各自定义的阈值的事件和/或场景指示符。例如，如果“婴儿啼哭”指示符短于116毫秒/10帧，则可以将其放弃；如果烟雾报警器指示符短于0.4秒/25帧，则可以将其放弃，其中可以灵活地设置针对每个类别的持续时间阈值；

-将与特定时间窗口相交的相同声音类别事件和/或场景合并为一个单一的事件和/或场景指示符，例如，如果在4秒的间隔内发生两次婴儿啼哭事件，则可以将它们合并为一个事件指示符，其中窗口持续时间(在上述示例中为4秒)是可以灵活调整的参数。

根据另一方面，提供了一种载有处理器控制码的非暂时性数据载体，该处理器控制码当在设备上运行时使该设备执行上述任何一个方法步骤。

根据另一方面，提供了一种计算机系统，其被配置为实现上述任何一个方法步骤。

根据另一方面，提供了一种包括上述计算机系统的消费电子设备。

根据另一方面，提供了一种用于识别音频信号中的非语言声音事件和/或场景中的至少一个的系统。音频信号可以包括音频数据帧序列。该系统可以包括麦克风以捕获音频数据。该系统可以包括麦克风阵列以捕获音频数据。该系统可以包括一个或多个处理器。该系统可以被配置为：对于序列的每个帧，处理音频数据帧以提取音频数据帧的多个声学特征。该系统可以被配置为：对于序列的每个帧，通过针对声音类别集合中的每个声音类别确定帧表示声音类别的得分，对声学特征进行分类以对帧进行分类。该系统可以被配置为：处理帧序列中的多个帧的声音类别得分，以针对每个帧生成每个帧的声音类别决策。该系统可以被配置为：处理帧序列的类别决策，以识别非语言声音事件和场景中的至少一个。

根据另一方面，提供了一种用于识别音频信号中的非语言声音事件和场景中的至少一个的声音识别设备。音频信号可以包括音频数据帧序列。声音识别设备可以包括：麦克风，用于捕获音频数据。声音识别设备可以包括处理器，该处理器被配置为：从麦克风接收音频数据。处理器可以被配置为：对于序列的每个帧，处理音频数据帧以提取音频数据帧的多个声学特征。处理器可以被配置为：对于序列的每个帧，通过针对声音类别集合中的每个声音类别确定帧表示声音类别的得分，对声学特征进行分类以对帧进行分类。处理器可以被配置为：处理帧序列中的多个帧的声音类别得分，以针对每个帧生成每个帧的声音类别决策。处理器可以被配置为：处理帧序列的类别决策，以识别非语言声音事件和场景中的至少一个。可以使用麦克风阵列来捕获音频数据。

在相关方面，提供了一种载有处理器控制码的非暂时性数据载体，该处理器控制码当在设备上运行时使该设备如所描述的那样操作。

将理解，所描述的设备的功能可以跨若干个模块划分和/或部分地或全部地在云中实现。可替代地，可以在单个模块或处理器中提供所述功能。该处理器或每个处理器可以用任何已知的合适硬件来实现，例如微处理器、数字信号处理(DSP)芯片、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、张量处理单元 (TPU)等。该处理器或每个处理器可以包括一个或多个处理核，每个核被配置为独立执行。该处理器或每个处理器可以连接到总线，以执行指令和处理例如存储在存储器中的信息。

可以单独地训练前述用于识别非语言声音事件和/或场景的神经网络。可替代地，前述用于识别非语言声音事件和/或场景的神经网络可以被认为是可以被端对端地训练(即，反向传播)的神经网络系统。这可以被认为是单个神经网络，或者可以被认为是联合地训练的模块链。

本发明还提供处理器控制码，以例如在通用计算机系统、数字信号处理器(DSP)或特别设计的数学加速单元(例如，图形处理单元 (GPU)或张量处理单元(TPU))上实现上述系统和方法。本发明还提供一种载有处理器控制码的载体，以当运行时尤其在非暂时性数据载体(例如，磁盘、微处理器、CD-或DVD-ROM、诸如只读存储器 (固件)之类的编程存储器)上或在诸如光或电信号载体之类的数据载体上实现上述任何一种方法。可以在诸如磁盘、微处理器、CD-或DVD-ROM、编程存储器(例如，非易失性存储器(例如，闪存)或只读存储器(固件))之类的载体上提供代码。用于实现本发明的实施例的代码(和/或数据)可以包括用诸如C之类的常规编程语言(解释或编译)的源代码、目标代码或可执行代码、汇编代码、用于设置或控制ASIC(专用集成电路)、FPGA(现场可编程门阵列)、GPU(图形处理单元)、TPU(张量处理单元)或NPU(神经处理单元)的代码或诸如Verilog^TM或VHDL(超高速集成电路硬件描述语言)之类的硬件描述语言的代码。如本领域技术人员将理解的，这样的代码和/ 或数据可以分布在彼此通信的多个耦合组件之间。本发明可以包括控制器，该控制器包括耦合到系统的一个或多个组件的微处理器、工作存储器和程序存储器。本发明可以包括在GPU和/或AI加速器微处理器上执行DNN操作以及在另外的处理器上执行其他操作。

根据下面描述的实施例，这些和其他方面将是显而易见的。本公开的范围既不旨在受该发明内容限制，也不限于必要地解决所指出的任何或所有缺点的实施方式。

附图说明

通过示例的方式，将参考附图描述本发明的实施例，在附图中：

图1示出了被配置为识别非语言声音事件和/或场景的系统100的框图。

图2示出了用于识别非语言声音事件和/或场景的方法200的示意性流程图。

图3示出了用于使用图2的系统识别非语言声音事件和/或场景的过程300。

图4示出了用于训练图2的系统的机器学习模型(例如，神经网络)的过程400。

具体实施方式

图1示出了被配置为识别非语言声音事件和/或场景的系统100。

该系统包括设备101。设备101可以是任何类型的电子设备。设备101可以是消费电子设备。例如，消费电子设备101可以是智能电话、耳机、智能扬声器、汽车、数字个人助理、个人计算机、平板计算机。设备101包括存储器102、处理器103、麦克风105、模数转换器(ADC)106、接口108和接口107。处理器连接到：存储器102；麦克风105；模数转换器(ADC)106；接口108；以及接口107。处理器103被配置为通过运行存储在存储器102上的计算机代码来识别非语言声音事件和/或场景。例如，处理器103被配置为执行图2的方法200。处理器103可以包括CPU模块和DSP模块中的一个或多个。存储器102被配置为存储计算机代码，该计算机代码当由处理器103 执行时使处理器识别非语言声音事件和/或场景。

麦克风105被配置为将声音转换为音频信号。音频信号可以是模拟信号，在这种情况下，麦克风105经由接口108耦合到ADC106。 ADC106被配置为将模拟音频信号转换为数字信号。然后，可以由处理器103处理数字音频信号。在实施例中，可以使用麦克风阵列(未示出)代替麦克风105。

尽管ADC 106和麦克风105被示出为设备101的一部分，但是 ADC 106和麦克风105中的一个或多个可以位于远离设备101的位置。如果ADC 106和麦克风105中的一个或多个位于远离设备101的位置，则处理器103被配置为经由接口108并且可选地进一步经由接口107与ADC 106和/或麦克风105通信。

处理器103还可以被配置为与远程计算系统109通信。远程计算系统109被配置为识别非语言声音事件和/或场景，因此识别非语言声音事件和/或场景所需的处理步骤可以在处理器103与处理器113之间展开。远程计算系统包括处理器113、接口111和存储器115。设备 101的接口107被配置为与设备109的接口111交互，使得识别非语言声音事件和/或场景所需的处理步骤可以在处理器103与处理器113 之间展开。

图2示出了用于识别非语言声音事件和/或场景的方法200。方法 200可以由图1中的处理器103执行，或者可以在若干个处理器(例如，图1中的处理器103和113)之间进行拆分。

步骤201示出了获取数字音频样本215。音频样本可以通过麦克风(例如，图1的麦克风105)获取。然后，通过模数转换器(例如，通过图1中的模数转换器(ADC)106)将音频样本215从模拟样本转换为数字样本。处理器103被配置为经由接口108从ADC 106接收数字样本。麦克风105和模数转换器(ADC)106可以一起执行步骤 201，以经由接口108(例如，诸如I2C之类的串行接口)将数字音频样本传递到处理器103。采样频率可以是16kHz，这意指每秒采样 16,000个音频样本。

数字音频样本215被分组为具有16ms长的跳跃大小的一系列 32ms长的帧。如果采样频率是16Khz，则相当于将数字音频样本215 分组为包括具有256个音频样本长的跳跃大小的512个音频样本的一系列帧。

一旦获取了数字音频样本215，就对数字音频样本215的帧执行特征提取，如步骤203所示。特征提取203产生特征帧序列217。特征提取步骤203包括将数字音频样本215变换为一系列多维特征矢量 (即，帧)，例如每16ms发出。步骤203的特征提取可以以各种方式来实现。

特征提取步骤203的一种实施方式是对数字音频样本215的帧执行一种或多种信号处理算法。信号处理算法的示例是处理帧的功率频谱以提取帧的频谱平坦度值的算法。另一个示例是从帧中提取谐波及其相对振幅的信号处理算法。

特征提取步骤203的附加或可替代实施方式是使用深度神经网络 (DNN)提取帧的多个声学特征。DNN可以被配置为提取任何维的音频特征矢量。可以使用瓶颈DNN嵌入或任何其他适当的DNN嵌入来提取声学特征。这里，神经网络瓶颈可以指在神经网络的输入层与输出层之间具有瓶颈层的神经网络，其中瓶颈层中的单元数小于输入层的单元数并且小于输出层的单元数，从而迫使瓶颈层构建声学输入的通用表示。

特征矢量堆叠步骤205是方法200的可选步骤。特征矢量堆叠步骤205包括将声学特征矢量217级联为更大的声学特征矢量219。级联包括将相邻的特征矢量分组为一个更长(即，更高维)的特征矢量。

例如，如果声学特征矢量包括32个特征，则特征矢量堆叠步骤 205可以通过在所考虑的声学特征矢量之前和之后将声学特征矢量与 5个声学特征矢量进行级联来产生352维堆叠特征矢量(352维＝32 维x 11帧，其中11帧＝5个前声学特征矢量+1个中央声学特征矢量+5个后声学特征矢量)。

特征矢量堆叠步骤205的一个可替代示例将是在中央声学特征矢量之前和之后堆叠15个声学特征矢量，其中具有43个特征的原始声学特征矢量将产生具有1333维的堆叠声学特征矢量(1333d＝43d x 31 个声学特征矢量，其中31个声学特征矢量＝15个前+1个中央+15 个后)。

声学建模步骤207包括通过针对声音类别集合中的每个声音类别确定帧表示声音类别的得分来对声学特征进行分类以对帧进行分类。声学建模步骤207包括使用深度神经网络(DNN)，其被训练为将每个传入的堆叠或非堆叠声学特征矢量分类为声音类别(例如，玻璃破碎、狗吠、婴儿啼哭等)中。因此，DNN的输入是声学特征矢量，而输出是每个声音类别的得分。帧的每个声音类别的得分可以被统称为帧得分矢量。例如，在步骤207中使用的DNN被配置为每16ms输出由系统建模的每个声音类别的得分。

在步骤207中使用的示例DNN是具有992个输入(包括中央声学矢量之前的15个声学矢量和中央声学矢量之后的15个声学矢量的级联特征矢量＝合计31帧x 32维)的前馈全连接DNN。该示例DNN 具有3个隐藏层(每层具有128个单元)以及RELU激活。

可替代地，可以使用卷积神经网络(CNN)、递归神经网络(RNN) 和/或其他形式的深度神经网络架构或其组合。

DNN的输出的示意性示例在221处示出。在该示例中，存在由三种颜色表示的三种不同的声音类别：灰色(227)、红色(223)和蓝色 (225)。横轴表示时间，而竖轴表示得分值(其中向下的竖直方向表示高得分)。每个点是与音频数据帧相对应的得分值。

得分扭曲步骤209是随207之后的可选步骤。在步骤209中，根据从应用相关的数据中获知的概率对得分进行重新加权。换句话说，基于在步骤201中获取的音频数据以外的某种形式的认识来调整由 DNN在步骤207中输出的得分。所述认识可以被称为外部信息，这种外部信息的示例可以在208处看到。

作为示例，得分扭曲209可以包括以下方法：使用针对给定应用的声音事件和/或场景发生的先验概率来对一个或多个得分进行重新加权。例如，对于在忙碌的家中的声音识别，将对与语音事件和/或场景有关的任何声音类别的得分进行向上加权。相反，对于在空置的家中的声音识别，将对与语音事件和/或场景有关的任何声音类别的得分进行向下加权。

在步骤211处执行长期声学分析。在步骤211处执行的长期声学分析包括处理帧序列中的多个帧的声音类别得分，以针对每个帧生成每个帧的声音类别决策。在将通常跨越一秒或几秒的较长期的时间信息集成到帧级评分中之后，在步骤211处执行的长期声学分析输出帧级分类决策。

作为示例，如果存在四个声音类别：A、B、C和D，则在步骤211 处执行的长期声学分析将包括接收矢量序列。每个矢量将具有四维，其中每个维表示针对类别的(可选地重新加权的)得分。在步骤211 处执行的长期声学分析包括处理表示长期窗口的多个矢量，通常是1.6 秒/100个得分值长的情境窗口。然后，在步骤211处执行的长期声学分析将输出针对每个帧的一系列分类决策(即，输出将是针对每个帧的A、B、C或D，而不是针对每个帧的4个得分)。因此，在步骤211 处执行的长期声学分析使用从跨长期窗口的帧中得出的信息。

长期声学分析可以与外部持续时间或共现模型结合使用。例如：

-可以使用转换矩阵来传递长期信息，并且可以独立于维特比对其进行训练。转换矩阵是共现模型的示例并且隐含地是持续时间模型的示例。共现模型包括表示事件和/或场景的关系或顺序的信息。

-可以从基本真值标签(即，已知数据)中训练持续时间概率的显式模型，例如将高斯概率密度函数拟合到由人类听众标记的一个或几个婴儿啼哭声的持续时间上。在此示例中，婴儿啼哭声可能会持续0.1s至2.5s，平均长1.3s。更一般地，持续时间的统计可以从外部数据中获知，例如从标签的持续时间中或从对特定声音事件和/或场景的持续时间的特定研究中。

-可以使用多种类型的模型，只要它们能够生成某种取决于类别的持续时间或共现得分/权重(例如，图表、决策树等)，该得分/权重例如可以用于重新评分维特比路径，或者可替代地，通过长期上(例如，跨越1.6s的得分帧序列上)的除维特比算法以外的某种方法与声音类别得分相组合。

下面给出在步骤211处执行的长期声学分析的示例，其中长期声学分析因此可以应用时间结构约束。

a)得分平滑化和阈值处理

b)维特比最优路径搜索

c)被训练为跨长期窗口集成帧决策的递归DNN。

更详细地：

a)跨长期窗口的得分平滑化和阈值处理

可以将中值滤波或某种其他形式的长期低通滤波(例如，移动平均滤波器)应用于长期窗口所跨越的得分值。然后，可以对平滑化得分进行阈值处理，以将得分转变为类别决策，例如，当婴儿啼哭得分高于阈值时，则该帧的决策是婴儿啼哭，否则决策是世界(“不是婴儿”)。每个类别/每个得分有一个阈值。

b)跨长期窗口的维特比最优路径搜索

使用维特比算法执行步骤211的输入包括：

·状态-空间定义：存在S个状态，其中每个状态(s_i)是一声音类别，例如：s_0＝＝world；s_1＝＝baby_cry；s_2＝＝ glass_break；等。然而，在存在6种状态的一种配置中，总体而言，状态与要识别的类别一样多，加上表示所有其他声音的额外状态(在上面被标记为“world(世界)”类别，即，非目标声音类别)。

·初始概率数组：这是S大小的数组，其中第i元素是解码序列以状态i开头的概率。在一个示例中，这些概率全部相等(例如，全部等于1/S)。

·转换矩阵A：这是一个S x S矩阵，其中元素(i，j)是从状态i变迁到状态j的概率。在一个示例配置中，该矩阵用于阻止目标类别之间的转换，例如，行0(世界类别)的概率全部大于零，这意指状态可以从世界变迁到所有其他目标类别。但是，在行1(婴儿啼哭)中，仅列0和列1是非零的，这意指从婴儿啼哭开始既可以保持在婴儿啼哭状态，也可以变迁到世界状态。相应的规则适用于其他行。

·发出矩阵：这是一个N x S矩阵，其中元素(i，j)是在时间帧i处观测类别j的得分(在扭曲之后由声学模型给出)。在一个示例中，N等于100。在该示例中，时间窗口长为100 帧(即，1.6秒)，并且其以100帧的步长变迁，因此没有重叠。

换句话说，每次调用维特比算法时，维特比算法都会接收例如100 个声音类别得分作为输入并且输出100个声音类别决策。

设置是灵活的，即，可以将帧数设置为更长的范围和/或帧可以重叠。

转换矩阵可以用于禁止某些类别之间的转换，例如，可以禁止在大多数婴儿啼哭决策中出现狗吠决策。

c)跨长期窗口的DNN

用于执行在步骤211处执行的长期声学分析的DNN的示例为：

-具有101个堆叠帧得分矢量(目标帧之前和之后50帧)的长短期记忆递归神经网络(LSTM-RNN)，其中得分帧矢量包含输入的6个得分(6个类别各自一个)。因此，输入大小为 101 x 6张量。DNN的其余部分包括1个LSTM隐藏层(具有50个单元)、硬S型(hardsigmoid)递归激活和双曲正切 (tanh)激活。输出层具有用于6类别系统的6个单元。

-门控循环单元RNN(GRU-RNN)：输入大小类似地是101 x 6 张量，此后有2个GRU隐藏层(每层具有50个单元)以及双曲正切激活。在输出层之前，执行池化容量为2的时间最大池化(temporal max pooling)。输出层具有用于6类别系统的6个单元。

长期信息可能会受到外部持续时间或共现模型(例如，在情况c) 中使用维特比最优路径搜索的转换矩阵)的影响，或者受到由学习典型事件和/或场景的长度而形成的外部模型(例如，通过某些机器学习方法(通常是DNN)捕获的事件和/或场景持续时间的概率)的影响。

在步骤213处，处理帧序列的声音类别决策，以识别非语言声音事件和/或场景。在一个示例中，多个帧的声音类别决策被输入，而对一个或多个非语言声音事件和/或场景的指示被输出。下面说明可以如何执行步骤213的示例，可以在步骤213中实现以下一个或多个示例：

a)每个帧的声音类别决策可以被分组为具有开始时间、结束时间和持续时间的长期事件和/或场景符号；

b)放弃短于为每个声音类别各自定义的声音事件和/或场景持续时间阈值的相同类别的声音类别决策序列。例如：如果“婴儿啼哭” 声音类别决策序列总共短于116毫秒(约相当于10帧)，则可以将其放弃；如果“烟雾报警器”声音类别决策序列总共短于0.4秒(约相当于25帧)，则可以将其放弃。可以为每个类别手动设置声音事件和/ 或场景持续时间阈值；

c)将与特定时间窗口相交的相同声音类别的多个非语言声音事件和/或场景合并为一个单一的非语言声音事件和/或场景。例如，如果确定两个“婴儿啼哭”非语言声音事件和/或场景在4秒的间隔内发生，则将它们合并为一个单个的“婴儿啼哭”非语言声音事件和/或场景，其中窗口持续时间(在上述示例中为4秒)是可以手动调整的参数。对于每个声音类别，窗口持续时间可以不同。

过程300的第一步骤(302)是捕获包括多个帧的音频数据。音频数据可以由麦克风105捕获并且使用ADC 106进行处理。处理后的音频数据被经由接口108从ADC 106输出到处理器103。处理后的音频数据可以被认为是音频数据。

在步骤304处，处理音频数据以提取每个帧的多个声学特征。

在步骤306处，对于声音类别集合中的每个声音类别，确定针对每个帧的帧表示声音类别的声音类别得分。步骤306可以包括通过针对声音类别集合中的每个声音类别确定帧表示声音类别的得分来对声学特征进行分类以对帧进行分类。

过程300的下一步骤(308)是针对每个帧生成声音类别决策。这是通过处理帧序列中的多个帧的声音类别得分以针对每个帧生成每个帧的声音类别决策来执行的。

过程300的下一步骤是处理(步骤310)声音类别决策以识别非语音声音事件和/或场景。

响应于识别出非语音声音事件和/或场景，系统可以可选地输出通信到用户设备或另一计算设备。系统可以响应于识别出非语音声音事件和/或场景而提供视觉、听觉或其他指示符。

图4示出了用于训练图2的系统的机器学习模型(例如，神经网络)的过程400。将关于神经网络来讨论图4，但是可以使用其他机器学习模型。

在步骤402处，将数据输入到神经网络中。在一个示例中，神经网络被配置为接收多个帧的声学特征数据并且输出帧的声音类别得分。

在步骤404处，将神经网络的输出与训练数据进行比较，以确定使用损失函数确定的损失。例如，将帧的输出声音类别得分与帧的基本真值(声音类别标签)进行比较。针对一个或多个声音类别计算损失(优选地，针对每个声音类别计算损失)。

在步骤406处，对损失进行反向传播。在反向传播之后，在步骤 408处更新神经网络的权重。

在一个示例中，使用包括以下特征的损失函数来确定损失。损失函数直接优化多帧事件和/或场景的分类(无需诉诸附加的优化阶段)，而不是仅各自考虑每个短时音频帧的分类。

用于训练图2的系统的机器学习模型的示例损失函数可以是分类交叉熵：

其中，i表示帧，y_i是帧i的声音类别标签，x_i表示由递归神经网络输出的帧i的一个或多个声音类别得分。yi可以是基本真值，并且可以是包括每个声音类别的标签的矢量。在该示例中，机器学习模型可以是一个或多个神经网络。

用于训练图2的系统的机器学习模型的另一示例损失函数可以具有多个属性：

a)当帧的基本真值标签是非目标声音类别时，用于错误地将帧识别为具有目标声音类别的损失值。

b)随着更多的具有声音类别标签的帧被正确地识别，针对该声音类别的损失值接近零。

c)关于声音类别的时间一致性检测的损失值小于时间不一致性检测。换句话说，混沌激活会受到惩罚。

d)对于目标类别，任何其他目标类别的错误激活也必须受到惩罚 (错过检测优于交叉触发)。

在该示例中，机器学习模型可以是一个或多个神经网络。

这些标准中的每个标准都可以使用一个或多个特定惩罚项来执行，下面将对每个惩罚项进行更详细的说明。

非目标交叉熵

声音类别集合可以包括一个或多个目标声音类别和一个非目标声音类别。目标声音类别是所描述的系统被配置为要识别的声音类别(例如，“婴儿啼哭”、“狗吠”或“女性讲话”)。非目标声音类别是包括不是目标声音类别的所有声音类别的声音类别。如果帧中没有音频事件和/或场景(具有相应的目标声音类别)，则该帧将被分类为具有非目标声音类别。非目标声音类别表示一个或多个目标声音类别中的每个目标声音类别都不存在。

非目标交叉熵项会惩罚不正确，并且可以通过以下方式来确定：

其中，i表示具有非目标声音类别(表示一个或多个目标声音类别中的每个目标声音类别都不存在)的基本真值的帧，y_i是帧i的声音类别标签，x_i表示由递归神经网络输出的帧i的一个或多个声音类别得分。y_i可以是基本真值，并且可以是包括每个声音类别的标签的矢量。

目标损失

对于类别，为了成功地识别与类别相关联的声音事件和/或场景，可能不必正确地对每个帧进行分类。而是，可能仅正确地对与声音事件和/或场景相关联的一定比例的帧进行分类就足够了。例如，对于通常具有短持续时间的声音事件和/或场景，将具有与声音事件和/或场景相关联的类别的大多数帧正确地分类可以是有利的。对于通常具有长持续时间的声音事件和/或场景，仅将具有该类别的一小部分帧正确地分类就可以足够了。为此，可以使用得分在类别内的加权池化。因此，损失函数项可以确定：

其中，j表示目标声音类别，i∈labeI_j表示已被分类为声音类别j的帧，y_i是帧i的声音类别标签(即，基本真值)，x_i表示由递归神经网络输出的帧i的一个或多个声音类别得分，

是声音类别得分的函数并且包括参数β。

pool β()是将多个输出组合的池化函数，并且可以被定义为：

这等效于β＝0时的平均池化和β→inf时的最大池化。

使用正确的β参数，当没有帧创建检测时，此损失函数将导致高值，而当检测到足够数量的帧而使其他帧不受约束时，该损失函数将导致较低的值。

平滑度损失

如上所述，时间连续性分类(即，平滑)优于时间不一致性分类，因为它们更可能被认为是一种识别。因此，可以使用惩罚标签上类别中的非平滑变化的损失项，其被确定如下：

其中i表示帧，y_i表示帧i的声音类别标签，x_i表示由递归神经网络输出的帧i的一个或多个声音类别得分，x_i-1表示由递归神经网络输出的帧i-l的一个或多个声音类别得分，其中帧i-l是序列中具有在帧i之前的位置的帧；x_i+1表示由递归神经网络输出的帧i+1的一个或多个声音类别得分，其中帧i+1是序列中具有在帧i之后的位置的帧。

交叉触发损失

在一个示例中，存在惩罚被分类为一个以上类别的帧的损失项。该损失项随着目标标签上触发其他更多的类别而增加(世界类别除外，因为错过检测并不那么重要)。执行此函数的示例项是：

其中j表示目标声音类别，i∈label_j表示具有目标声音类别j的基本真值的帧i，y_i表示帧i的声音类别标签，x_i表示由递归神经网络输出的帧i的一个或多个声音类别得分，

表示非类别c 的声音类别得分的x_i的最高声音类别得分。

Claims

1.一种用于识别音频信号中的非语言声音事件和场景中的至少一个的方法，所述音频信号包括音频数据帧序列，所述方法包括：

对于所述序列的每个帧：

处理音频数据帧，以提取所述音频数据帧的多个声学特征；以及

通过针对声音类别集合中的每个声音类别确定所述帧表示所述声音类别的得分，对所述声学特征进行分类以对所述帧进行分类；

处理所述帧序列中的多个帧的所述声音类别得分，以针对每个帧生成每个帧的声音类别决策；以及

处理所述帧序列的所述声音类别决策，以识别非语言声音事件和场景中的至少一个。

2.根据权利要求1所述的方法，其中，处理所述声音类别得分包括将时间结构约束应用于所述声音类别得分以生成所述声音类别决策。

3.根据权利要求2所述的方法，其中，对所述声学特征进行分类包括使用第一分类器集合对所述音频数据帧进行分类，并且其中，应用所述时间结构约束包括使用第二分类器来处理所述声音类别得分。

4.根据权利要求3所述的方法，其中，所述第二分类器是神经网络。

5.根据权利要求2所述的方法，其中，对所述声学特征进行分类包括使用第一分类器集合对所述音频数据帧进行分类，并且其中，应用所述时间结构约束包括：使用维特比最优路径搜索算法来处理所述声音类别得分。

6.根据权利要求3、4或5中任一项所述的方法，其中，所述第一分类器集合包括神经网络分类器集合。

7.根据前述权利要求中任一项所述的方法，其中，处理所述音频数据帧以提取所述音频数据帧的所述声学特征包括确定定义所述音频数据帧的所述声学特征的特征矢量。

8.根据前述权利要求中任一项所述的方法，其中，所述音频数据帧包括用于时间窗口的时域音频数据，并且其中，处理所述音频数据帧以提取所述音频数据帧的所述声学特征包括将所述音频数据帧变换为频域音频数据。

9.根据前述权利要求中任一项所述的方法，其中，处理所述音频数据帧以提取所述音频数据帧的多个声学特征包括：使用特征提取神经网络来处理所述音频数据帧以提取所述帧的所述声学特征。

10.根据前述权利要求中任一项所述的方法，其中，在进行对声学特征的分类以对所述帧进行分类之前，所述方法包括将所述音频数据帧的多个声学特征与所述序列中的相邻音频数据帧的多个声学特征级联。

11.根据前述权利要求中任一项所述的方法，还包括基于以下的一项或多项调整所述帧序列中的多个帧的所述声音类别得分：

关于所述声音类别中的一个或多个的认识；以及

关于从中捕获所述音频数据的环境的认识。

12.根据前述权利要求中任一项所述的方法，其中，处理所述帧序列中的多个帧的所述声音类别得分以针对每个帧生成每个帧的声音类别决策包括跨多于一个帧使用最优路径搜索算法。

13.根据权利要求12所述的方法，其中，所述最优路径搜索算法是维特比算法。

14.根据权利要求1至11中任一项所述的方法，其中，处理所述帧序列中的多个帧的所述声音类别得分以针对每个帧生成每个帧的声音类别决策包括：对所述多个帧的所述声音类别得分进行滤波以生成每个帧的平滑得分；以及将每个平滑得分与阈值进行比较以确定每个帧的声音类别决策。

15.根据前述权利要求中任一项所述的方法，其中，处理所述帧序列的所述类别决策以识别非语言声音事件和场景中的至少一个还包括确定非语言声音事件和场景中的至少一个的开始时间和结束时间。

16.一种载有处理器控制码的非暂时性数据载体，所述处理器控制码当在设备上运行时使所述设备执行根据权利要求1至15中任一项所述的方法。

17.一种计算机系统，被配置为实现根据权利要求1至15中任一项所述的方法。

18.一种消费电子设备，包括根据权利要求17所述的计算机系统。

19.一种用于识别音频信号中的非语言声音事件和场景中的至少一个的系统，所述音频信号包括音频数据帧序列，所述系统包括用于捕获音频数据的麦克风和一个或多个处理器，其中，所述系统被配置为：

对于所述序列的每个帧：

处理所述音频数据帧，以提取所述音频数据帧的多个声学特征；并且

处理所述帧序列中的多个帧的所述声音类别得分，以针对每个帧生成每个帧的声音类别决策；并且

处理所述帧序列的所述类别决策，以识别非语言声音事件和场景中的至少一个。

20.一种用于识别音频信号中的非语言声音事件和场景中的至少一个的声音识别设备，所述音频信号包括音频数据帧序列，所述声音识别设备包括：

麦克风，用于捕获所述音频数据；以及

处理器，被配置为：

从所述麦克风接收所述音频数据；并且

对于所述序列的每个帧：