CN114155835A

CN114155835A - 一种融合全局场景与局部事件信息的音频语意概述方法

Info

Publication number: CN114155835A
Application number: CN202111475701.7A
Authority: CN
Inventors: 关键; 肖飞扬; 谢明杰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-08
Anticipated expiration: 2041-12-06
Also published as: CN114155835B

Abstract

本发明涉及一种音频语意概述方法，具体为一种融合全局场景与局部事件信息的音频语意概述方法，首先对实际场景中产生的音频进行建模分析，随后从声学场景的宏观全局特性入手，并融合了对于场景内各音频事件的精细化感知，最终生成贴合人类自然语言逻辑的语意概述文本，本发明对于声学场景中局部声音事件的精细化感知为构建音频特征的语意信息与自然语言语意信息的映射提供了细粒度的信息感知方式，能够有效规避传统方法对于音频事件的误识别与内容忽略，有助于构建更高语意层次的人机交互过程；此外，本发明提供了全新的注意力计算机制，相比传统注意力机制降低了计算成本。

Description

一种融合全局场景与局部事件信息的音频语意概述方法

技术领域

本发明涉及一种音频语意概述方法，具体为一种融合全局场景与局部事件信息的音频语意概述方法。

背景技术

声音信号是人类感知外部世界的一种重要途径，现实生活中，人类能够借助声学感知获取许多信息——人可以通过背后的脚步声来判断其他人在靠近或是远离自己，通过说话音色判断对话的另一方的性别乃至大概年龄，并将这些通过声音感知的信息转换为自然语言的描述进行记录或传达给他人。人类通过漫长的演化和学习获得了上述的语意描述能力，但对机器而言，理解场景中的音频语意信息是非常困难的，由此延伸出了音频语意描述方法的研究。

音频语意概述方法是一种分析实际场景中所产生的音频数据，并用自然语言将音频数据中所包含的场景事件信息进行概述的跨模态跨场景的“翻译”方法。不同于自动语音识别会将人类语音转换为与内容严格对应的语音语句文本，音频语意概述会对场景中发生的声音事件(不局限于人类语音)进行分析并给出对整个场景的概述。例如，当男士A走向女士B，询问道：“你吃了么？我知道一家餐厅很不错，要不要试试？”此时，自动语音识别会关注到询问的语句内容(即“你吃了么？我知道一家餐厅很不错，要不要试试？”)，而音频语意概述则会关注到这一场景的整体表述(理想状态下的概述：“一位男士走向一位女士，并邀请她一起用餐。”)，而不会仅仅关注场景中男士所发出的语音。音频语意概述技术能够帮助研究人员深入理解人类听觉-语意感知过程，为人机交互的声学控制或安防监控的及时预警提供更高语意层次的交互便利，还能帮助残障人士感知声学场景，辅助残障人士的出行、学习和交流。

现有音频语意概述方法在分析场景音频信息与自然语言潜在映射关系时仅考虑了将场景音频整体进行建模并与自然语言特征进行联系，而忽略了构成自然语言的词汇所表示的语意的局限性，难以精细地感知到构成整个音频场景的局部音频事件信息，从而导致生成的语意概述与理想状态存在较大的偏差，可能出现错误的场景内实体认知或者错误的行为事件认知，对交互的对象产生信息误导，影响用户使用体验。

发明内容

本发明的目的在于提供一种融合全局场景与局部事件信息的音频语意概述方法，以解决上述背景技术中提出的难以精细地感知到构成整个音频场景的局部音频事件信息，成的语意概述与理想状态存在较大的偏差，可能出现错误的场景内实体认知或者错误的行为事件认知，对交互的对象产生信息误导，影响用户使用体验的问题。

为实现上述目的，本发明提供如下技术方案：一种融合全局场景与局部事件信息的音频语意概述方法，包含音频场景时空特征提取器和细粒度语意概述生成器，实际场景所发生的声学信号输入音频场景时空特征提取器，得到了从高维空间表示的场景信息，并保留了各个声音事件的时序特性，突出了各事件信息的潜在表示，从而获得与场景对应的音频特征矩阵；细粒度语意概述生成器首先将词汇表中的离散自然语言词汇表示抽象为潜在的词向量，随后在保障生成概述语序的情况下，对音频特征矩阵进行语意感知，从全局场景和局部事件的角度构建音频特征矩阵到概述语意特征的映射关系，从而生成高质量、高度符合人类语音习惯的场景概述文本。

优选的，所述细粒度语意概述生成器包含全局语意序列化处理模块，保障了生成的语意概述符合自然语言语序规则，规避了来自尚未预测的场景语意信息的干扰，实现了语意特征的有序化，并设计了一种全新的基于逐元素乘法的注意力计算机制，相比于现有的基于矩阵乘法的注意力机制，该设计具有更低的计算成本，大大提高了计算效率，降低了对部署环境的硬件要求；

其具体实现依赖于一种全新的无需矩阵乘法的注意力计算机制，并通过可学习的掩码矩阵保障语序，处理全局化的词向量语意特征；掩码矩阵M的数学表示如下：

其中

N表示全局场景语意序列的长度，-∞则表示负无穷大，用于屏蔽来自未预测部分的语意干扰；根据上述的掩码矩阵M，全局语意序列处理模块的数学表示形式如下：

其中，

为全局序列化语意特征的第n个特征向量，I＝n则表示当前语意序列的长度，Q，K，V是由已生成的语意特征映射而来的三个特征矩阵，用于推导第n个特征向量，m_n，i则表示掩码矩阵M中的某一个元素，σ(·)表示Sigmoid非线性S型激活函数，⊙表示逐元素乘法而非矩阵乘法，exp(·)则表示以自然常数e为底的指数函数，且exp(-∞)＝0，所述全局语意序列处理模块中的第n个特征向量后的未预测信息初始值不会对第n个特征向量的预测生成过程产生干扰同时保障了概述语意的语序，可学习的掩码矩阵M用于在训练过程中学习到全局性的语意感知视角，保证语意序列化特征切合实际声学场景；

在注意力计算机制中采用逐元素乘法取代了传统注意力计算机制中矩阵乘法的高昂计算成本(时间复杂度O(N²d)，空间复杂度O(N²+Nd)，d表示特征向量维度)，极大地降低了计算空间成本(时间复杂度O(N²d)，空间复杂度O(Nd))，降低了对运算硬件设备的要求。

优选的，所述细粒度语意概述生成器还包含局部事件与全局场景结合的语意感知模块，在保留全局场景感知的基础上，借助于局部事件窗为语意概述方法引入了现有方法不曾考虑到的局部事件信息，极大地补偿了对声学场景内各声音事件的具体感知；

其中，语意感知模块包含一个可学习的权重矩阵

其中L表示音频场景时空特征提取所获得的音频特征矩阵的时间序列长度，并为权重矩阵Z设计了局部事件窗Local(·)，局部事件窗的数学表示形式如下：

其中，z_n，l表示语意感知模块中权重矩阵

的一个元素，s则表示局部事件窗的窗长；

随后，局部事件与全局场景结合的语意感知模块将这些精细化的局部声音事件信息与感知到的全局场景语意相融合，公式表述如下：

其中

表示融合全局场景与局部事件信息的第n位概述语意特征输出，

表示序列化语意信息的第n位，HK与HV分别是对音频特征矩阵的映射，⊙为矩阵逐元素乘法，σ(·)为非线性激活函数，局部事件窗的可学习参数部分为模块认知音频特征的区域性特征提供了可能，经过训练后能够对场景中的局部音频事件进行精确感知，当Local(z_n，l)＝0，有exp(0)＝1，这一计算保留了局部事件窗外的全局场景信息感知，从而使得语意感知模块能够同时结合全局场景音频语意信息和局部事件音频语意信息，并生成高质量的概述语意特征；

同时，语意感知模块在全局语意序列化模块中设计的基于逐元素乘法的注意力计算机制基础上添加了局部事件窗的适应性改动，这进一步降低了全局场景音频语意信息和局部事件音频语意信息融合时所使用的计算成本(时间复杂度降低至O(Nsd)，空间复杂度保持O(Nd)不变)。

优选的，还包括采用精简算法对注意力计算机制进行计算，且精简算法公式表述如下：

能够满足低计算力设备下的部署需求，这一精简版本的注意力计算机制时间复杂度降低至，空间复杂度保持不变。尽管这一精简版本会使得生成概述文本的质量有所下降，但为更为广泛的穿戴式低计算力成本设备部署提供了极大便利。

与现有技术相比，本发明的有益效果是：

针对传统音频语意概述方法仅考虑对场景全局建模而忽略场景中声音事件感知的问题，设计了能够感知并分析场景中各声音事件的细粒度语意概述生成器，将全局场景与局部事件信息相融合，弥补了传统语意概述方法对于音频场景分析的模糊与偏差，提高了用户在语意层次进行交互的体验。同时，本发明具体实现中所设计的基于逐元素乘法的注意力计算机制相比传统的基于矩阵乘法的注意力计算机制有效降低了计算成本，提高了计算效率，降低了对于部署硬件的性能要求。

附图说明

图1是本发明的流程示意图；

图2是本发明中音频场景时空特征提取器结构图；

图3是本发明中场景语意的全局序列化的计算原理图；

图4是本发明中局部事件窗的作用效果图；

图5是本发明中全局声学场景与局部音频事件信息融合的计算原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例：

请参阅图1-5，本发明提供一种技术方案：

1.音频场景时空特征提取

实际场景产生的音频信号首先经过Mel滤波器组转换为Mel谱图，随后输入音频场景时空特征提取器。音频场景时空特征提取器基于大规模预训练的音频特征抽取模型(Pretrained Audio Neural Networks,PANNs)进行设计，借助PANNs将Mel谱图映射为不同维度下的时频域数据。同时，整合频域特征在不同维度下的表现差异，将频域所包含的空间信息进行压缩，突出场景中各音频事件的潜在特征，从而获取到场景所对应的音频特征矩阵。

2.细粒度的语意概述生成

(1)场景语意的全局序列化

自然语言是离散化的字符序列表示，为满足连续微分计算的需求，细粒度语意概述生成器将自然语言词汇转换为连续的高维词向量。同时，声学场景所对应的语意信息也是序列化的，概述中每一个词汇的生成都需要已经被生成的概述内容的指导，即生成语意概述的过程要逐个词汇地进行，从而保障场景语意的语序属性。

本发明设计了一种全局语意序列处理模块，具体实现依赖于一种全新的无需矩阵乘法的注意力计算机制，并通过可学习的掩码矩阵保障语序，处理全局化的词向量语意特征。掩码矩阵M的数学表示如下：

其中

N表示全局场景语意序列的长度。-∞则表示负无穷大，用于屏蔽来自未预测部分的语意干扰。

根据上述的掩码矩阵M，全局语意序列处理模块的数学表示形式如下：

其中，

为全局序列化语意特征的第n个特征向量，I＝n则表示当前语意序列的长度，Q，K，V是由已生成的语意特征映射而来的三个特征矩阵，用于推导第n个特征向量。m_n，i则表示掩码矩阵M中的某一个元素。σ(·)表示Sigmoid非线性S型激活函数，⊙表示逐元素乘法而非矩阵乘法。exp(·)则表示以自然常数e为底的指数函数，特别注意的是，exp(-∞)＝0，因此，在全局语意序列处理模块中，第n个特征向量后的未预测信息初始值不会对第n个特征向量的预测生成过程产生干扰，从而保障了概述语意的语序。可学习的掩码矩阵M还能在训练过程中学习到全局性的语意感知视角，保证语意序列化特征切合实际声学场景。

同时，在注意力计算机制中采用逐元素乘法是本发明的一大亮点，其取代了传统注意力计算机制中矩阵乘法的高昂计算成本(时间复杂度O(N²d)，空间复杂度O(N²+Nd)，d表示特征向量维度)，而本发明在全局语意序列化模块中设计的基于逐元素乘法的注意力计算机制极大的降低了计算空间成本(时间复杂度O(N²d)，空间复杂度O(Nd))，降低了对运算硬件设备的要求。

(2)全局声学场景与局部音频事件信息融合的语意感知

传统音频语意概述方法通常在感知音频特征与自然语言语意的映射关系时仅仅将音频特征矩阵整体作为潜在空间的隐变量进行计算，这使得传统方法只能感知到声学场景中的宏观全局信息，而缺乏对于构成场景的各个具体声音事件的建模认识。本发明由此出发，提供了全新的音频特征与自然语言语意的映射感知模式，即全局声学场景与局部音频事件信息融合的语意感知，获得了对于具体声音事件的感知过程，并在全局语意序列化模块的基础上进一步减少了注意力计算的时间复杂度。

具体实现过程中，本发明提供了一个可学习的权重矩阵

其中L表示音频场景时空特征提取所获得的音频特征矩阵的时间序列长度，并为权重矩阵Z设计了一个局部事件窗Local(·)。局部事件窗的数学表示形式如下：

其中，z_n，l表示感知模块中权重矩阵

的一个元素，s则表示局部事件窗的窗长。

其中

表示序列化语意信息的第n位。H^K与HV分别是对音频特征矩阵的映射。⊙为矩阵逐元素乘法，σ(·)为非线性激活函数(Sigmoid)。局部事件窗的可学习参数部分为模块认知音频特征的区域性特征提供了可能，经过训练后能够对场景中的局部音频事件进行精确感知。值得注意的是，当Local(z_n，l)＝0(即感知发生在局部事件窗外部时)，有exp(0)＝1，这一计算保留了局部事件窗外的全局场景信息感知，从而使得模块能够同时结合全局场景音频语意信息和局部事件音频语意信息，并生成高质量的概述语意特征。

同时，本模块在全局语意序列化模块中设计的基于逐元素乘法的注意力计算机制基础上添加了局部事件窗的适应性改动，这进一步降低了全局场景音频语意信息和局部事件音频语意信息融合时所使用的计算成本(时间复杂度降低至O(Nsd)，空间复杂度保持O(Nd)不变)。

此外，考虑部署在低计算力设备(如移动终端或辅助式穿戴设备)的需求，本发明提供了更为精简的注意力计算机制——将可学习的权重矩阵(如上述的M，Z)抛弃，将计算公式精简为如下形式：

这一精简版本的注意力计算机制时间复杂度降低至O(Nd)，空间复杂度保持O(Nd)不变。尽管这一精简版本会使得生成概述文本的质量有所下降，但为更为广泛的穿戴式低计算力成本设备部署提供了极大便利。

(3)语意概述文本选择

上述环节所输出的概述语意特征最终经过softmax函数转换为对应词汇表的概率统计信息，并选取每个与音频场景特征相关概率最高的词汇，按全局序列化模块提供的语序结构组成最终的语意概述文本。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合全局场景与局部事件信息的音频语意概述方法，其特征在于，包含音频场景时空特征提取器和细粒度语意概述生成器，实际场景所发生的声学信号输入音频场景时空特征提取器，得到了从高维空间表示的场景信息，并保留了各个声音事件的时序特性，突出了各事件信息的潜在表示，从而获得与场景对应的音频特征矩阵；细粒度语意概述生成器首先将词汇表中的离散自然语言词汇表示抽象为潜在的词向量，随后在保障生成概述语序的情况下，对音频特征矩阵进行语意感知，从全局场景和局部事件的角度构建音频特征矩阵到概述语意特征的映射关系，从而生成高质量、高度符合人类语音习惯的场景概述文本。

2.根据权利要求1所述的一种融合全局场景与局部事件信息的音频语意概述方法，其特征在于：所述细粒度语意概述生成器包含全局语意序列化处理模块，其具体实现依赖于一种全新的无需矩阵乘法的注意力计算机制，并通过可学习的掩码矩阵保障语序，处理全局化的词向量语意特征；掩码矩阵M的数学表示如下：

其中

其中，

为全局序列化语意特征的第n个特征向量，I＝n则表示当前语意序列的长度，Q,K,V是由已生成的语意特征映射而来的三个特征矩阵，用于推导第n个特征向量，m_n,i则表示掩码矩阵M中的某一个元素，σ(·)表示Sigmoid非线性S型激活函数，⊙表示逐元素乘法而非矩阵乘法，exp(·)则表示以自然常数e为底的指数函数，且exp(-∞)＝0，所述全局语意序列处理模块中的第n个特征向量后的未预测信息初始值不会对第n个特征向量的预测生成过程产生干扰同时保障了概述语意的语序，可学习的掩码矩阵M用于在训练过程中学习到全局性的语意感知视角，保证语意序列化特征切合实际声学场景。

3.根据权利要求2所述的一种融合全局场景与局部事件信息的音频语意概述方法，其特征在于：所述细粒度语意概述生成器还包含局部事件与全局场景结合的语意感知模块，在保留全局场景感知的基础上，借助于局部事件窗为语意概述方法引入了现有方法不曾考虑到的局部事件信息，极大地补偿了对声学场景内各声音事件的具体感知；

其中，语意感知模块包含一个可学习的权重矩阵

其中，z_n,l表示语意感知模块中权重矩阵

的一个元素，s则表示局部事件窗的窗长；

其中

表示序列化语意信息的第n位，H^K与H^V分别是对音频特征矩阵的映射，⊙为矩阵逐元素乘法，σ(·)为非线性激活函数，局部事件窗的可学习参数部分为模块认知音频特征的区域性特征提供了可能，经过训练后能够对场景中的局部音频事件进行精确感知，当Local(z_n,l)＝0，有exp(0)＝1，这一计算保留了局部事件窗外的全局场景信息感知，从而使得语意感知模块能够同时结合全局场景音频语意信息和局部事件音频语意信息，并生成高质量的概述语意特征。

4.根据权利要求2或3任一项所述的一种融合全局场景与局部事件信息的音频语意概述方法，其特征在于：还包括采用精简算法对注意力计算机制进行计算，且精简算法公式表述如下：