CN111524503A

CN111524503A - 音频数据的处理方法、装置、音频识别设备和存储介质

Info

Publication number: CN111524503A
Application number: CN202010295242.3A
Authority: CN
Inventors: 郭欣; 唐大闰; 梁志婷; 徐浩
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-11
Anticipated expiration: 2040-04-15
Also published as: CN111524503B

Abstract

本申请提供一种音频数据的处理方法、装置、音频识别设备和存储介质，该方法包括：将音频数据输入至训练过的注意力模型中进行语音识别，得到该音频数据的注意力矩阵，该音频数据中的每帧数据对应该注意力矩阵中的一个向量；根据该注意力矩阵中每个元素的权重，从该注意力矩阵中为目标帧对应的目标向量确定出多个相关元素，该注意力矩阵中每个元素的权重用于表示非目标帧的数据对目标帧的数据的影响力；基于该多个相关元素对应的特征内容，生成该目标帧的特征矩阵；通过训练过的分类模型对该目标帧的特征矩阵进行识别，得到该目标帧的分类结果，该分类结果用于指示该目标帧的音频数据是否为隐私数据。

Description

音频数据的处理方法、装置、音频识别设备和存储介质

技术领域

本申请涉及音频数据处理技术领域，具体而言，涉及一种音频数据的处理方法、装置、音频识别设备和存储介质。

背景技术

在音频数据中涉及用户隐私的数据时，通常会对涉及用户隐私的数据进行处理。

目前，为了从音频数据中识别出隐私数据，常用的做法是：第一种，人为进行识别处理，但是处理效率低；第二种，在监测到设置好的隐私词句时将对应的句子删除，这种按照固定规则、固定词句进行筛选识别的方式容易造成误判、漏检，准确率低。

发明内容

本申请实施例的目的在于提供一种音频数据的处理方法、装置、音频识别设备和存储介质，用以改善现有技术中难以在兼顾效率和准确率的情况下对音频数据中的隐私数据进行识别的问题。

第一方面，实施例提供一种音频数据的处理方法，所述方法包括：

将音频数据输入至训练过的注意力模型中进行语音识别，得到所述音频数据的注意力矩阵，所述音频数据中的每帧数据对应所述注意力矩阵中的一个向量；

根据所述注意力矩阵中每个元素的权重，从所述注意力矩阵中为目标帧对应的目标向量确定出多个相关元素，所述注意力矩阵中每个元素的权重用于表示非目标帧的数据对目标帧的数据的影响力；

基于所述多个相关元素对应的特征内容，生成所述目标帧的特征矩阵；

通过训练过的分类模型对所述目标帧的特征矩阵进行识别，得到所述目标帧的分类结果，所述分类结果用于指示所述目标帧的音频数据是否为隐私数据。

在上述方法中，先将音频数据输入至训练过的注意力模型以提取该音频数据所对应的注意力矩阵，再根据注意力矩阵中各个元素的权重生成新的特征矩阵，然后通过训练过的分类模型对生成的特征矩阵进行分类识别，可以对一段音频数据实现帧级别的音频识别。不仅提升了检测效率，还考虑到了各帧之间的影响关系，结合整段音频数据的内容而非仅仅单个词的内容来判定一个词是否为隐私数据，检测的准确性得到提升，且避免了人为因素的过多参与，有利于保护用户隐私。

在可选的实施方式中，所述根据所述注意力矩阵中每个元素的权重，从所述注意力矩阵中为目标帧对应的目标向量确定出多个相关元素，包括：

根据目标帧的帧数从所述注意力矩阵中确定目标向量；

根据所述目标向量中的每个元素的权重，从所述目标向量的所有元素中确定出权重最大的指定个数的相关元素，作为所述目标帧的多个相关元素。

通过上述实现方式，基于注意力机制得到对隐私数据具有影响力的权重矩阵(注意力矩阵)后，根据矩阵中的各向量的元素权重确定出权重较大的相关元素，根据这些相关元素对应的帧数能够构建特征矩阵，此实现方式充分考虑了各帧之间的影响关系，有利于后续特征矩阵的构建，从而在最终的分类识别时提升识别可靠性。

在可选的实施方式中，所述多个相关元素中包括第一元素以及多个第二元素，所述基于所述多个相关元素对应的特征内容，生成所述目标帧的特征矩阵，包括：

获取所述第一元素对应的目标帧的特征内容；

获取所述多个第二元素中每个元素对应的非目标帧的特征内容；

将所述第一元素对应的目标帧的特征内容，以及所述多个第二元素对应的非目标帧的多个特征内容进行组合，生成所述目标帧的特征矩阵。

通过上述实现方式，可以基于相关元素的位置从整段音频数据中确定出一些语音帧的位置，并获取相应帧数的特征内容，以此能够根据整段音频数据中的语音帧中相关的位置获取特征内容并构建特征矩阵，通过这样构建出特征矩阵参与分类识别时，能够提升对于隐私数据的识别准确率，降低误判率、漏检率。

在可选的实施方式中，所述方法还包括：

在所述目标帧的分类结果指示为隐私数据时，对所述目标帧对应的音频数据进行处理，或，对所述目标帧的音频数据对应的文本内容进行处理。

通过上述实现方式，可以避免音频数据中的隐私数据被随意泄漏，避免音频数据所转换输出的文字内容中泄漏用户隐私，可以实现对于用户隐私的有效保密。

在可选的实施方式中，所述方法还包括：

获取所述音频数据在经过语音识别后得到的文本内容，所述文本内容中包括每个词对应的帧数；

在所述文本内容中的目标词对应的帧数为多个时，基于所述目标词的所有帧数对应的多个分类结果，在所述多个分类结果中指示为隐私数据的帧数比例达到设定值时，确定所述目标词为私数据，并对所述目标词对应的所有帧数下的文本内容或音频数据进行处理。

通过上述实现方式，可以对不同语速、不同持续长度的音频数据进行可靠识别，具有较好的鲁棒性，且由于仍然是基于帧级别进行识别的，因此可以保障识别准确性。

在可选的实施方式中，在所述将音频数据输入至训练过的注意力模型中进行语音识别之前，所述方法还包括：

通过经过隐私标注的音频数据样本对注意力模型进行转写训练，得到所述音频数据样本的注意力训练矩阵，并为所述注意力训练矩阵中的每个注意力向量提取指定个数的相关元素，得到指定个数的相关元素的位置；

根据每个注意力向量对应的指定个数的相关元素的位置，确定特征获取帧数，并按照所述特征获取帧数，从所述音频数据样本的多帧数据的特征内容中，获取指定帧的训练特征内容；

将所述指定帧中的各帧的训练特征内容进行组合，作为当前帧对应的训练特征矩阵；

对所述当前帧对应的训练特征矩阵进行隐私标注，并通过经过隐私标注的训练特征矩阵对分类模型进行训练。

通过上述实现方式进行训练，有利于提升应用过程的识别准确率。

第二方面，实施例提供一种音频数据的处理装置，所述装置包括：

第一识别模块，用于将音频数据输入至训练过的注意力模型中进行语音识别，得到所述音频数据的注意力矩阵，所述音频数据中的每帧数据对应所述注意力矩阵中的一个向量；

确定模块，用于根据所述注意力矩阵中每个元素的权重，从所述注意力矩阵中为目标帧对应的目标向量确定出多个相关元素，所述注意力矩阵中每个元素的权重用于表示非目标帧的数据对目标帧的数据的影响力；

生成模块，用于基于所述多个相关元素对应的特征内容，生成所述目标帧的特征矩阵；

第二识别模块，用于通过训练过的分类模型对所述目标帧的特征矩阵进行识别，得到所述目标帧的分类结果，所述分类结果用于指示所述目标帧的音频数据是否为隐私数据。

通过上述装置可以执行前述第一方面提供的方法，能够对音频数据实现帧级别的识别，可以准确识别出音频数据中的隐私数据，且相较于人为处理的方式，识别效率高。

在可选的实施方式中，所述确定模块还用于：

根据目标帧的帧数从所述注意力矩阵中确定目标向量；

第三方面，实施例提供一种音频识别设备，包括：

存储器；

处理器；

所述存储器上存储有所述处理器可执行的计算机程序，所述计算机程序被所述处理器执行时执行前述第一方面所述的方法。

第四方面，实施例提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时执行前述第一方面所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的音频识别设备的结构框图。

图2为本申请实施例提供的一种音频数据的处理方法的流程图。

图3为本申请实施例提供的一种音频数据的处理方法的部分流程图。

图4为本申请实施例提供的一个注意力矩阵的示意图。

图5为本申请实施例提供的一个实例中的部分相关元素的位置示意图。

图6为本申请实施例提供的一种音频数据的处理装置的功能模块框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在对音频数据中的隐私数据进行识别时，若通过人为识别的方式，不仅效率低，还容易造成用户隐私被相应的数据处理人员直接得知，安全性较低。

而如果通过先规定一些隐私信息的词句或规定的正则化的规则进行机器检测，在检测到设置好的词句时进行删除或检测到符合固定规则的句子时进行删除，这样的处理方式由于实际应用中难以枚举用户的个人信息，因此使用固定的词句或固定的规则对音频数据进行筛选容易造成误判、漏检，准确率低。

有鉴于此，发明人提出以下实施例以改善上述缺陷，既能避免人为过多的参与，又可以提升识别准确性和识别效率。

请参阅图1，图1为本申请实施例提供的一种音频识别设备的结构框图。

该音频识别设备具有运算处理能力，可用于执行本申请实施例提供的方法，可以支持在线识别、离线识别，该音频识别设备可以是移动终端、个人计算机、服务器等。本申请对于音频识别设备的具体形态不作限定。

如图1所示，该音频识别设备可以包括存储器110、处理器120、通信单元130等。存储器110、处理器120、通信单元130之间直接或间接连接，以实现数据交互。

其中，存储器110是一种存储介质，可以是高速RAM存储器，也可以是非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器110可用于存储本申请实施例提供的方法对应的各个功能模块及对应的计算机程序。处理器120可以执行存储器110中存储的软件功能模块、计算机程序，从而实现本申请实施例提供的音频数据的处理方法。

处理器120具有运算处理能力，可以是中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等通用处理器；还可以是专用处理器或者其他可编程逻辑器件搭建的处理器。处理器120可以实现本申请实施例提供的方法、步骤及逻辑框图。

通信单元130可以包括通讯总线、通信卡口等用于与其他外部设备载体进行有线或无线通信的介质。

在一个应用场景下，该音频识别设备可通过通信单元130接收外部设备发送的音频数据(例如音频流)，从而将接收到的音频数据作为处理对象，然后通过处理器120执行存储器110中存储的计算机程序，以实现本申请实施例提供的方法，从而识别出音频数据中的隐私数据并对隐私数据进行处理。处理后的得到的结果可以通过通信单元130发送给外部设备进行显示或播放，处理后的得到的结果也可以由该音频识别设备自行进行显示或播放。

作为另一种应用场景，请继续参阅图1，该音频识别设备还可包括语音接收单元140(例如麦克风)、显示单元150、语音播放单元160。语音接收单元140(例如麦克风)、显示单元150、语音播放单元160、存储器110、处理器120、通信单元130之间直接或间接连接。

对于用户口述或者设备外放的音频数据，语音接收单元140可以接收音频数据中的语音内容，从而将语音内容作为处理对象，通过处理器120执行存储器110中存储的计算机程序以实现本申请实施例提供的方法，从而识别出隐私数据并对隐私数据进行处理。处理后的得到的音频结果可以通过语音播放单元160(例如扬声器)进行播放，处理后得到的文本内容可以通过显示单元150(例如液晶显示屏)进行显示，处理后得到的数据也可以通过通信单元130发送给外部设备，以供外部设备进行显示或播放。

可以理解的是，图1所示结构仅作为示意，具体应用时可以有更多的组件，或具有不同于图1所示的其他配置方式。

请参阅图2，图2为本申请实施例提供的一种音频数据的处理方法的流程图。

如图2所示，该方法包括步骤S21-S23。

S21：将音频数据输入至训练过的注意力模型中进行语音识别，得到音频数据的注意力矩阵，音频数据中的每帧数据对应注意力矩阵中的一个向量。

其中，S21中的音频数据是一段数据，包含至少一句话。S21中的音频数据可以被分解为多帧音频数据。

注意力模型是一种能够应用于自然语言处理、图像识别及语音识别等技术领域的处理模型，可通过深度学习中的注意力机制实现。在本申请实施例中的注意力模型是一种基于注意力机制实现的自动语音识别(Automatic Speech Recognition，ASR)模型。注意力机制的本质是一个由权重向量构成的矩阵。ASR模型能够将音频数据转换为文字内容，例如可以将麦克风采集到的自然声音转换为文字。

其中，在通过注意力模型对音频数据进行语音识别后，还可确定出音频数据的帧数与转写得到的文字内容之间的关系，以此可以确定有多少帧的音频数据被转写成同一个文字或同一个词。

在注意力模型对一段音频数据进行识别的过程中，可以得到该段音频数据对应的注意力矩阵，该注意力矩阵中的每个注意力向量的维数(行数或列数)可以表示音频数据的对应帧数。该注意力矩阵中每个元素的权重用于表示非目标帧的数据对目标帧的数据的影响力。

例如，对于通过S21得到的关于一段音频数据的注意力矩阵A，该矩阵A中的一个元素a_i,j可以表示该段音频数据中的第j帧的特征对第i帧的特征的影响力，第i帧为目标帧，第j帧为非目标帧。

在得到音频数据对应的注意力矩阵后，可以执行S22。

S22：针对注意力矩阵中的目标向量对应的目标帧，基于目标向量中每个元素的权重为目标帧生成特征矩阵。

请参阅图3，该S22包括S221-S222。

S221：根据注意力矩阵中每个元素的权重，从注意力矩阵中为目标帧对应的目标向量确定出多个相关元素。

S222：基于多个相关元素对应的特征内容，生成目标帧的特征矩阵。

其中，每个目标向量中确定出的相关元素的个数是预先设定的。相关元素在矩阵中的位置是根据整段音频数据中对目标帧的影响力较大的其他非目标帧的特征内容决定的。

例如，对于具有180帧的音频数据，在以第20帧作为目标帧时，第20帧对应的第20行注意力向量作为目标向量。该目标向量中包括180个元素，这180个元素的权重分别表示1-180帧数据的特征对第20帧数据的特征的影响力。假设该180帧中，除了第20帧自身以外，对第20帧数据的影响最大的是第1、3、5、12、22帧，则可以为该第20帧确定出对应的5个相关元素，并根据这5个相关元素获取第1、3、5、12、22帧的特征内容。然后基于这些相关元素，生成第20帧对应的特征矩阵。

可以理解的是，依据上述原理可以为该段音频数据中的多帧生成对应的多个特征矩阵。

在通过S22生成特征矩阵后，可以执行S23。

S23：通过训练过的分类模型对目标帧的特征矩阵进行识别，得到目标帧的分类结果，分类结果用于指示目标帧的音频数据是否为隐私数据。

其中，可以将S22生成的目标帧的特征矩阵输入至训练过的分类模型中进行分类识别。分类模型的本质是个二分类器，可以通过神经网络、支持向量机(Support VectorMachine,SVM)、决策树等模型实现。

由于在将音频数据通过注意力模型进行语音识别后，音频数据与转写得到的文字内容之间存在对应关系，因此分类结果还可以用于指示目标帧所对应的文字内容是否为隐私数据。

在其他实施例中，可以根据多帧的相关元素构造生成一个特征矩阵，以此得到的单个特征矩阵可能是一个变长的矩阵，对于这样得到的特征矩阵在采用普通的神经网络作为分类模型进行识别时，可以先对特征矩阵进行降维处理，以使降维后的特征矩阵符合分类模型的输入尺寸。

作为一种替代方式，可以在不降维的情况下，采用回归神经网络代替普通的神经网络作为分类模型以对变长的矩阵进行灵活识别。

通过上述S21-23的方法，先将音频数据输入至训练过的注意力模型以提取该音频数据所对应的注意力矩阵，再根据注意力矩阵中各个元素的权重生成新的特征矩阵，然后通过训练过的分类模型对生成的特征矩阵进行分类识别，可以对一段音频数据实现帧级别的音频识别。不仅提升了检测效率，还考虑到了各帧之间的影响关系，结合整段音频数据的内容而非单个词的内容来判定一个词是否为隐私数据，检测的准确性得到提升，且降低了因采用人为识别而使得用户隐私被相关处理人员得知的风险。

需要说明的是，本申请实施例中，通过注意力模型是为了找出一段音频数据中相互之间影响大的帧数内容，并进行语音识别，而不是对权重值本身进行调整设置。在构造特征矩阵时，是利用非目标帧对目标帧的影响，结合数据之间的关系完成特征矩阵的构建过程。

为便于描述，下面将以每帧音频数据对应注意力矩阵中的一个行向量为例对本申请实施例的方法进行详细介绍。

作为上述S221的一种实现方式，上述S221可以包括子步骤S2211-S2212。

S2211：根据目标帧的帧数从注意力矩阵中确定目标向量。

S2212：根据目标向量中的每个元素的权重，从目标向量的所有元素中确定出权重最大的指定个数的相关元素，作为目标帧的多个相关元素。

其中，在目标帧为单帧时，从注意力矩阵中确定出一个目标向量，在目标帧为多帧时，从注意力矩阵中确定出多个目标向量。本领域技术人员可以预先对每次要处理的帧数进行设置。

本领域技术人员可以预先对相关元素的指定个数进行配置，指定个数可以是4个、5个、8个、10个等。

以目标帧为单帧，指定个数为6个为例，对于一个具有100帧的音频数据，该100帧音频数据对应的注意力矩阵B的尺寸为100*100。

请参阅图4，该注意力矩阵B有100行，矩阵B中的每行作为每帧音频的注意力向量，每个注意力向量有100维(列)，矩阵中的元素amn是第m行、第n列的元素(m＝n＝100)，amn的权重值用于表示第n帧的特征对第m帧的特征的影响力。

在当前的目标帧为注意力矩阵B中的第3帧时，从注意力矩阵中确定的目标向量包括第3行的所有元素：a31、a32、a33、a34、a35、a36……a3n(n为100)。从该第3行的所有元素中确定出权重值最大的6个元素为：a31、a33、a34、a35、a36、a3n(如图5所示)，该6个元素(a31、a33、a34、a35、a36、a3n)作为第3帧的相关元素。

以此原理可以对注意力矩阵B的每个行向量(1至m行中的任一行，m为100)确定出相应的相关元素，以得到每帧对应的相关元素，这些元素用于确定参与构建特征矩阵的帧数，从而构建特征矩阵。

通过上述实现方式，基于注意力机制得到对隐私数据具有影响力的权重矩阵(注意力矩阵)，根据矩阵中的各向量的元素权重确定出权重较大的相关元素，能够根据这些相关元素对应的帧数构建特征矩阵。由于充分考虑了各帧之间的影响关系，有利于构建特征矩阵，从而在最终的分类识别时提升识别可靠性。

其中，在S221中确定出的多个相关元素中可以包括第一元素以及多个第二元素。上述S222可以包括子步骤：S2221-S2223。

S2221：获取第一元素对应的目标帧的特征内容。

S2222：获取多个第二元素中每个元素对应的非目标帧的特征内容。

其中，行数位置与列数位置相同的元素作为第一元素，同一向量的多个相关元素中，除了第一元素外的元素作为第二元素。

作为一种实现方式，可以在确定出相关元素之前先对音频数据进行特征提取，得到每帧的音频数据特征，在确定出相关元素后，从预先得到的多帧特征中提取出相关元素对应的特征内容，以得到第一元素对应的目标帧的特征内容，以及多个第二元素中每个元素对应的非目标帧的特征内容。

作为另一种实现方式，可以在确定出相关元素后临时对音频数据的相应帧进行特征提取，以得到第一元素对应的目标帧的特征内容，以及多个第二元素中每个元素对应的非目标帧的特征内容。

S2223：将第一元素对应的目标帧的特征内容，以及多个第二元素对应的非目标帧的多个特征内容进行组合，生成目标帧的特征矩阵。

仍以图4、图5为例，对于第3帧的多个相关元素：a31、a33、a34、a35、a36、a3n(n为100)，第一元素为a33，多个第二元素为a31、a34、a35、a36、a3n(n为100)。

根据6个相关元素a31、a33、a34、a35、a36、a3n分别确定出的帧数是第1帧、第3帧、第4帧、第5帧、第6帧、第n帧，因此将第1帧、第3帧、第4帧、第5帧、第6帧以及第n帧的特征内容进行组合，生成第3帧的特征矩阵。在将第3帧的特征矩阵输入至训练过的分类模型时，将第1帧、第3帧、第4帧、第5帧、第6帧以及第n帧的特征内容都输入至分类模型中从而进行分类识别，得到的结果作为第3帧的分类结果。

本领域技术人员可以根据实际需要设置特征组合方式，例如可以按照权重大小进行排序组合，也可以按照帧数序列进行组合，从而生成目标帧的特征矩阵。

通过上述实现方式，可以基于注意力向量中权重值大的相关元素的位置，从整段音频数据中确定出一些语音帧的位置，在查找出对于目标帧位置的特征有较大影响的其他非目标帧位置的特征后，根据整段音频数据中的语音帧最相关的位置获取特征内容，构建特征矩阵，以此使得最终的特征矩阵不仅仅只是依赖目标帧的数据内容的矩阵，而是能够反映出非目标帧对目标帧的影响关系的特征矩阵。以此构建出特征矩阵参与后续分类识别的情况下，能够提升对于隐私数据的识别准确率，降低误判率、漏检率。

可选地，在通过S23对目标帧的特征矩阵进行分类识别后，方法还可以包括步骤S24。

S24：在目标帧的分类结果指示为隐私数据时，对目标帧对应的音频数据进行处理，或，对目标帧的音频数据对应的文本内容进行处理。

其中，可以对被判定为隐私数据的音频内容或文本内容进行删除，也可以对被判定为隐私数据的音频内容或文本内容进行模糊处理，还可以对被判定为隐私数据的音频内容或文本内容进行标记处理。

例如，在识别到一段音频数据中的第20帧为隐私数据时，对该第20帧相关的特征添加“隐私”标签，在识别到第50帧不是隐私数据时，对该第50帧相关的特征可以添加“非隐私”标签。

通过上述实现方式，可避免音频数据中的隐私数据被随意泄漏，或避免音频数据所转换输出的文字内容中泄漏用户隐私，可以实现对于用户隐私的有效保密。

可选地，为了使得对于多种变种数据的识别更有较好的鲁棒性，本申请实施例提供的方法还可以包括S25-26。

S25：获取音频数据在经过语音识别后得到的文本内容，文本内容中包括每个词对应的帧数。

S26：在文本内容中的目标词对应的帧数为多个时，基于目标词的所有帧数对应的多个分类结果，在多个分类结果中指示为隐私数据的帧数比例达到设定值时，确定目标词为隐私数据，并对目标词对应的所有帧数下的文本内容或音频数据进行处理。

设定值可以是80％、85％、90％等值。

例如，在一个目标词对应10帧时，若该10帧中被判定为隐私数据的帧数比例达到80％，可以确定该目标词为隐私数据，并可以对该目标词下的10帧音频数据进行处理。

其中，由于实际应用中每个人说话的速度可能不一样，同一个人自己说话的语速也可能改变，因此一个词对应多帧的现象较为常见。在同一个目标词所对应的所有帧数中，判定为隐私数据的帧数比例达到设定值时，认为整个目标词满足帧数识别条件，整个目标词可以被判定为隐私数据，因此可以对整个目标词的所有帧数下的文本内容或音频数据进行处理，包括删除、标记或模糊处理等处理方式。

通过上述实现方式，可以对不同语速、不同持续长度的音频数据进行可靠识别，能够提升鲁棒性。由于仍然是基于帧级别进行识别的，因此可以保障识别准确性。

在可选的实施方式中，在将音频数据输入至训练过的注意力模型中进行语音识别之前，方法还包括S11-S14。

S11：通过经过隐私标注的音频数据样本对注意力模型进行转写训练，得到音频数据样本的注意力训练矩阵，并为注意力训练矩阵中的每个注意力向量提取指定个数的相关元素，得到指定个数的相关元素的位置。

S12：根据每个注意力向量对应的指定个数的相关元素的位置，确定特征获取帧数，并按照特征获取帧数，从音频数据样本的多帧数据的特征内容中，获取指定帧的训练特征内容。

S13：将指定帧中的各帧的训练特征内容进行组合，作为当前帧对应的训练特征矩阵。

S14：对当前帧对应的训练特征矩阵进行隐私标注，并通过经过隐私标注的训练特征矩阵对分类模型进行训练。

在一个实例中，对于一段包含隐私数据的音频数据样本，对应的文本内容为“我的家庭住址是北京市北京欢迎你”。假设“家庭住址”这个词对应该段音频数据中的第10帧至第20帧，“北京市”这个词对应该段音频数据中的第32帧至第42帧。对音频数据内容和文本内容进行特征提取、强制对齐等预处理操作后，训练出基于注意力机制的ASR神经网络(注意力模型)。

使用该神经网络得到该段音频的注意力训练矩阵(在应用过程中记作注意力矩阵)，若该音频数据样本共有100帧，则注意力训练矩阵的大小为100*100。矩阵的每行是每帧音频的注意力向量，每帧数据都有一个相应的注意力向量，每个注意力向量有100维。

为该注意力训练矩阵中的每个注意力向量找出权重值最大的6个元素作为指定个数的相关元素。根据当前的注意力向量中的这6个元素的位置，确定出当前帧对应的特征获取帧数。例如对于第32帧数据的注意力向量，该注意力向量中权重值最大的6个位置在矩阵中的第1、3、10、15、32、33列，则可从100帧特征内容中获取第1、3、10、15、32、33帧数据的特征，作为第32帧的训练特征内容。然后将第1、3、10、15、33帧的特征与第32帧的特征进行组合，得到当前帧(第32帧)对应的训练特征矩阵。

若该第32帧音频在整个音频数据样本中已经被标记为隐私数据，则可将该第32帧对应的训练特征矩阵标注为“隐私”，若该第32帧音频在整个音频数据样本中未被标记为隐私数据，则可将该第32帧对应的训练特征矩阵标注为“非隐私”，以实现对于当前帧的训练特征矩阵的隐私标注。然后使用整段音频数据中所有经过隐私标注的训练特征矩阵训练二分类网络，即，对分类模型进行训练。

通过上述实现方式可以训练得到能够支撑实现前述识别过程的模型，有利于提升应用过程的识别准确率。

请参阅图6，本申请实施例还提供一种音频数据的处理装置300，该装置可用于执行前述的音频数据的处理方法。

如图6所示，该装置包括第一识别模块301、生成模块302、第二识别模块303。

第一识别模块301，用于将音频数据输入至训练过的注意力模型中进行语音识别，得到音频数据的注意力矩阵，音频数据中的每帧数据对应注意力矩阵中的一个向量。

生成模块302用于针对注意力矩阵中的目标向量对应的目标帧，基于目标向量中每个元素的权重为目标帧生成特征矩阵。

其中，生成模块302可包括确定模块3021、生成子模块3022。

确定模块3021，用于根据注意力矩阵中每个元素的权重，从注意力矩阵中为目标帧对应的目标向量确定出多个相关元素，注意力矩阵中每个元素的权重用于表示非目标帧的数据对目标帧的数据的影响力。

生成子模块3022，用于基于多个相关元素对应的特征内容，生成目标帧的特征矩阵。

第二识别模块303，用于通过训练过的分类模型对目标帧的特征矩阵进行识别，得到目标帧的分类结果，分类结果用于指示目标帧的音频数据是否为隐私数据。

通过上述装置可以执行前述的方法，能够对音频数据实现帧级别的识别，可以准确识别出音频数据中的隐私数据，且相较于人为处理的方式，识别效率高。

可选地，确定模块3021还用于：根据目标帧的帧数从注意力矩阵中确定目标向量；根据目标向量中的每个元素的权重，从目标向量的所有元素中确定出权重最大的指定个数的相关元素，作为目标帧的多个相关元素。

可选地，多个相关元素中包括第一元素以及多个第二元素，生成子模块3022还可用于：获取第一元素对应的目标帧的特征内容；获取多个第二元素中每个元素对应的非目标帧的特征内容；将第一元素对应的目标帧的特征内容，以及多个第二元素对应的非目标帧的多个特征内容进行组合，生成目标帧的特征矩阵。

可选地，该装置还可包括处理模块，用于在目标帧的分类结果指示为隐私数据时，对目标帧对应的音频数据进行处理，或，对目标帧的音频数据对应的文本内容进行处理。

可选地，该处理模块还可用于：获取音频数据在经过语音识别后得到的文本内容，文本内容中包括每个词对应的帧数；在文本内容中的目标词对应的帧数为多个时，基于目标词的所有帧数对应的多个分类结果，在多个分类结果中指示为隐私数据的帧数比例达到设定值时，确定目标词为隐私数据，并对目标词对应的所有帧数下的文本内容或音频数据进行处理。

可选地，该装置还可包括训练模块，该训练模块用于：通过经过隐私标注的音频数据样本对注意力模型进行转写训练，得到音频数据样本的注意力训练矩阵，并为注意力训练矩阵中的每个注意力向量提取指定个数的相关元素，得到指定个数的相关元素的位置；根据每个注意力向量对应的指定个数的相关元素的位置，确定特征获取帧数，并按照特征获取帧数，从音频数据样本的多帧数据的特征内容中，获取指定帧的训练特征内容；将指定帧中的各帧的训练特征内容进行组合，作为当前帧对应的训练特征矩阵；对当前帧对应的训练特征矩阵进行隐私标注，并通过经过隐私标注的训练特征矩阵对分类模型进行训练。

关于该音频数据的处理装置300的其他细节，请进一步参考前述方法中的相关描述，在此不再赘述。

除了上述实施例以外，本申请实施例还提供一种存储介质，该存储介质上存储有计算机程序，计算机程序被处理器执行时执行前述的音频数据的处理方法。存储介质可包括：U盘、移动硬盘、存储器、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频数据的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述注意力矩阵中每个元素的权重，从所述注意力矩阵中为目标帧对应的目标向量确定出多个相关元素，包括：

根据目标帧的帧数从所述注意力矩阵中确定目标向量；

3.根据权利要求1所述的方法，其特征在于，所述多个相关元素中包括第一元素以及多个第二元素，所述基于所述多个相关元素对应的特征内容，生成所述目标帧的特征矩阵，包括：

获取所述第一元素对应的目标帧的特征内容；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述文本内容中的目标词对应的帧数为多个时，基于所述目标词的所有帧数对应的多个分类结果，在所述多个分类结果中指示为隐私数据的帧数比例达到设定值时，确定所述目标词为隐私数据，并对所述目标词对应的所有帧数下的文本内容或音频数据进行处理。

6.根据权利要求1所述的方法，其特征在于，在所述将音频数据输入至训练过的注意力模型中进行语音识别之前，所述方法还包括：

7.一种音频数据的处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述确定模块还用于：

根据目标帧的帧数从所述注意力矩阵中确定目标向量；

9.一种音频识别设备，其特征在于，包括：

存储器；

处理器；

所述存储器上存储有所述处理器可执行的计算机程序，所述计算机程序被所述处理器执行时执行权利要求1-6任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时执行权利要求1-6任一项所述的方法。