CN110738986B

CN110738986B - 一种长语音标注装置及方法

Info

Publication number: CN110738986B
Application number: CN201911018547.3A
Authority: CN
Inventors: 王丽媛; 齐红威; 王大亮; 张云斌; 何鸿凌
Original assignee: Datang Beijing Intelligent Technology Co ltd
Current assignee: Datang Beijing Intelligent Technology Co ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2022-08-05
Anticipated expiration: 2039-10-24
Also published as: CN110738986A

Abstract

本发明提供一种长语音标注装置及方法，以对长语音进行标注得到有效语音段落。在本发明实施例中，对长语音进行预处理得到语音信号后，会使用初始标注网络对语音帧进行初始标注，得到初始标注结果，再使用标注修正网络以模拟人工纠错的行为对初始标注结果进行修正(修正类型体现了对初始标注结果所进行的修正)，在一定程度上减少了标注误差，然后再由标注决策子单元决策每一语音帧的最终标注结果(有效语音帧或无效语音帧)。由于有效语音段落包括连接多个有效语音帧，因此，在确定每一语音帧是有效语音帧或无效语音帧后，有效语音段落也会确定下来，从而实现了对长语音的标注。

Description

一种长语音标注装置及方法

技术领域

本发明涉及计算机领域，特别涉及一种长语音标注装置及方法。

背景技术

近些年来，语音技术得到了飞速的发展，语音合成、语音识别、声纹识别、语音质量检测等研究领域的算法也在不断创新，需要大量的语音数量集来训练和测试。

有效语音段落标注是构建语音数据集的一种关键预处理步骤，这里的标注指的是在含有静音段或噪音段的长语音(指时长过长的一段语音文件，如会议记录语音文件)中，标定有效语音段落。

目前如何对长语音进行标注以得到有效语音段落是目前研究的热门。

发明内容

有鉴于此，本发明实施例提供一种长语音标注装置及方法，以对长语音进行标注得到有效语音段落。

为实现上述目的，本发明实施例提供如下技术方案：

一种长语音标注装置，用于在训练阶段及预测阶段标定长语音中的有效语音段落；

所述装置包括预处理单元、特征提取单元和标注单元；

其中，所述预处理单元用于：对输入的长语音进行预处理，得到多个语音信号；所述语音信号包含至少多帧语音帧；所述预处理包括等时长截断和预加重；

所述特征提取单元用于：对所述语音信号进行特征提取，得到语音帧特征；

所述标注单元包括：初始标注网络子单元、标注修正网络子单元和标注决策子单元；其中：

所述初始标注网络子单元用于：根据所述语音帧特征对所述语音信号中的语音帧进行标注，得到每一语音帧的初始标注结果；

所述标注修正网络子单元用于：根据所述初始标注结果与所述语音帧特征，得到与所述语音帧的初始标注结果相对应的修正类型；

所述标注决策子单元用于：至少根据所述初始标注结果与所述修正类型，决策得到每一语音帧的最终标注结果；其中，所述最终标注结果用于表征相应的语音帧为有效语音帧或无效语音帧；有效语音段落包括连续多个有效语音帧。

可选的，所述预处理单元输出的多个语音信号中的任一语音信号为目标语音信号；所述目标语音信号中每一语音帧对应的初始标注结果为目标初始标注结果；

所述装置还包括标注结果检查单元和人工施教单元；

在所述训练阶段中：

所述标注结果检测单元用于：在人机交互界面展现所述目标语音信号中所有语音帧的最终标注结果，并接收第一指令或第二指令；所述第一指令用于指示输出所述目标语音信号中所有语音帧的最终标注结果，所述第二指令用于指示执行一次人工施教交互；

在一次人工施教交互中，所述人工施教单元用于：

接收对目标语音片段的人工修正结果；所述目标语音片段为人工在所述目标语音信号中选定的语音片段；所述目标语音片段包括至少一个语音帧；

根据所述人工修正结果，生成与所述目标语音片段中每一语音帧相对应的修正类型标签；其中，所述修正类型标签包括相应语音帧的修正类型；

向所述标注修正网络子单元返回所述修正类型标签；

在一次人工施教交互中，所述标注修正网络子单元用于：

根据所述目标初始标注结果、所述修正类型标签和所述目标语音信号对应的语音帧特征，重新生成与所述目标初始标注结果相对应的修正类型，并输出至所述标注决策子单元，由标注决策子单元重新决策得到所述目标语音信号中所有语音帧的最终标注结果，并输出至所述标注结果检测单元。

可选的，还包括：

交互控制子单元，用于：

在本次人工施教交互完成后或接收到所述人工修正结果后，计算交互密度；

若所述交互密度超过预设阈值，禁止执行人工施教交互，进入人工标注所述目标语音信号的操作流程。

可选的，在所述计算交互密度的方面，所述交互控制子单元具体用于：

记录针对所述目标语音片段所执行的人工施教交互的总次数；

使用所述总次数除以所述目标语音片段的时长，得到所述交互密度。

可选的，在根据所述语音帧特征对所述语音信号中的语音帧进行标注，得到每一语音帧的初始标注结果的方面，所述初始标注网络子单元具体用于：

计算第一自动识别类别对应的第一识别概率P₁(valid)，以及第二自动识别类别对应的第二识别概率P₁(invalid)；所述第一自动识别类别为有效语音帧，所述第二自动识别类别为无效语音帧；所述初始标注结果包括所述第一识别概率和所述第二识别概率；所述第一识别概率和所述第二识别概率中的较大值所对应的自动识别类别为自动标注结果；

在根据所述初始标注结果与所述语音帧特征，得到与所述语音帧的初始标注结果相对应的修正类型的方面，所述标注修正网络子单元具体用于：

计算所述相应的语音帧的自动标注结果为有效语音帧，人工标注其为有效语音帧的第一类概率P₂(valid2valid)；

计算所述相应的语音帧的自动标注结果为有效语音帧，人工标注其为无效语音帧的第二类概率P₂(valid2invalid)；

计算所述相应的语音帧的自动标注结果为无效语音帧，人工标注其为有效语音帧的第三类概率P₂(invalid2valid)；

计算所述相应的语音帧的自动标注结果为无效语音帧，人工标注其为无效语音帧的第四类概率P₂(invalid2invalid)；

在根据所述初始标注结果与所述修正类型，决策得到每一语音帧的最终标注结果的方面，所述标注决策子单元具体用于：

使用第一公式，计算所述相应的语音帧为有效语音帧的第一概率；

使用第二公式，计算所述相应的语音帧为无效语音帧的第二概率；

所述第一公式为：

P(valid)＝P₁(valid)×P₂(valid2valid)+P₁(invalid)×P₂(invalid2valid)；

所述第二公式为：

P(invalid)＝P₁(invalid)×P₂(invalid2invalid)+P₁(valid)×P₂(valid2invalid)。

可选的，所述特征提取单元包括：

语音多通道特征提取单元，用于：提取频谱特征和语音帧的深层特征；

融合单元，用于对所述频谱特征和所述深层特征进行拼接，并对拼接结果进行降维处理，得到低维特征作为所述语音帧特征。

可选的，所述语音多通道特征提取单元包括：

语音帧特征提取子单元，用于分析得到所述频谱特征；

语音端点检测子单元，用于分析得到语音帧的端点特征；

音频事件检测子单元，用于分析得到语音帧的音频事件特征；

语音识别子单元，用于分析得到语音帧的语音识别表观特征；

所述深层特征包括所述端点特征、所述音频事件特征和所述语音识别表观特征。

一种长语音标注方法，用于标定长语音中的有效语音段落；

所述方法包括：

对输入的长语音进行预处理，得到多个语音信号；所述语音信号包含至少多帧语音帧；所述预处理包括等时长截断和预加重；

对所述语音信号进行特征提取，得到语音帧特征；

使用初始标注网络，根据所述语音帧特征对所述语音信号中的语音帧进行标注，得到每一语音帧的初始标注结果；

使用标注修正网络，根据所述初始标注结果与所述语音帧特征，得到与所述语音帧的初始标注结果相对应的修正类型；

根据所述初始标注结果与所述修正类型，决策得到每一语音帧的最终标注结果；其中，所述最终标注结果用于表征相应的语音帧为有效语音帧或无效语音帧；有效语音段落包括连续多个有效语音帧。

可选的，所述多个语音信号中的任一语音信号为目标语音信号；在所述训练阶段，所述方法还包括：在人机交互界面展现所述目标语音信号中所有语音帧的最终标注结果，并接收第一指令或第二指令；所述第一指令用于指示输出所述目标语音信号中所有语音帧的最终标注结果，所述第二指令用于指示执行一次人工施教交互；其中，一次人工施教交互包括：接收对目标语音片段的人工修正结果；所述目标语音片段为人工在所述目标语音信号中选定的语音片段；所述目标语音片段包括至少一个语音帧；根据所述人工修正结果，生成与所述目标语音片段中每一语音帧相对应的修正类型标签；其中，所述修正类型标签包括相应语音帧的修正类型；所述标注修正网络根据所述目标初始标注结果、所述修正类型标签和所述目标语音信号的语音帧特征，重新生成与所述目标初始标注结果相对应的修正类型；根据所述目标初始标注结果与重新生成的修正类型，重新决策得到所述目标语音信号中所有语音帧的最终标注结果。

可选的，还包括：

在本发明实施例中，对长语音进行预处理得到语音信号后，会使用初始标注网络对语音帧进行初始标注，得到初始标注结果，再使用标注修正网络以模拟人工纠错的行为对初始标注结果进行修正(修正类型体现了对初始标注结果所进行的修正)，在一定程度上减少了标注误差，然后再由标注决策子单元决策每一语音帧的最终标注结果(有效语音帧或无效语音帧)。由于有效语音段落包括连接多个有效语音帧，因此，在确定每一语音帧是有效语音帧或无效语音帧后，有效语音段落也会确定下来，从而实现了对长语音的标注。

附图说明

图1a、图2、图4、图6为本发明实施例提供的长语音标注装置的示例性结构；

图1b、图3为本发明实施例提供的长语音标注方法的一种示例性流程；

图5、图7为本发明实施例提供的训练过程的示例性流程；

图8a为本发明实施例提供的语音端点检测网络的示意图；

图8b为本发明实施例提供的音频事件检测网络的示意图；

图8c为本发明实施例提供的语音识别单元的示例图；

图9a为本发明实施例提供的特征拼接示意图；

图9b为本发明实施例提供的稀疏自动编码器的示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结如下：

长语音：指时长过长的一段语音文件，如会议记录语音文件；

有效语音段落：有效语音指人们在特定任务中关注的特定声音种类，比如在婴儿哭声检测时，将婴儿的哭声指定为有效语音，将其他声音类别视为无效语音；有效语音段落指由连续有效语音组成的语音片段；

短时平稳性：指语音信号在一定时间内可以认为是近似不变的。

交互式：指由机器判定初始标注结果，人工调整初始标注结果，并将调整后的结果反馈给机器，由机器再次学习人工调整的动作，从而更新机器判定决策的过程。

语音标注的实现方法包括人工标注、语音端点检测等算法。人工标注方法利用大量的时间和精力来换取语音段落标注的准确率，此方法适用于构建规模较小的语音数据集，并且主观性较强，无法得到统一的标准。针对大规模的语音数据集，语音端点检测技术彰显了其高效率的处理能力。

多数语音端点检测技术采用了时域参数特征，这使得它们在语音数据信噪比较高的情况下能够快速准确地判别出静音段与非静音段。

然而，随着语音技术应用的普及，所需语音数据集的种类和涵盖范围也变得更加广泛。比如，相较于在以往的受控制条件下采集的语音文件(如朗读语音文件)，在真实环境中的语音数据具有更大及更实用的研究价值。

自然环境下采集得到的长篇幅语音文件(即长语音)具有复杂多样的声学信息。在自然条件下，采集到的长语音中可能包含突发噪声的干扰，含有背景事件(诸如笑声、哼声、喘息声、咂嘴声、抽泣声等)的非有效语音段、不同种类和强度的背景噪声。

在声学环境复杂的情况下，语音端点检测技术的判别效果明显降低。另一方面，现有的端点检测方法不能有效区分有效语音段(即含有人说话内容的声音)与非有效语音段(即不含人说话内容的声音，如咂嘴声、哼声、喘息声等)，可能会将不属于有效说话内容的语音段判断为有效语音段落，因此这种方式无法实现更细粒度的有效语音段落标注。

本发明提供一种长语音标注装置及方法，以在训练阶段及预测阶段标定长语音中的有效语音段落。

请参见图可1a，上述长语音标注装置的一种示例性结构包括：预处理单元1、特征提取单元2和标注单元3。

上述长语音标注装置中的各单元可以软件或组件的形式部署于同一服务器(例如标注服务器)或计算机上，或者，上述长语音标注装置所包含的各模块可分别为独立的服务器。

长语音标注装置需进行训练(训练阶段)，训练完成后可正式投入使用(进入预测阶段)。

在训练阶段和预测阶段，请参见图1b，预处理单元1可用于：对输入的长语音进行预处理，得到多个语音信号。

在一个示例中，预处理可包括等时长截断和预加重。

举例来讲，对于一个时长为1.5小时的长语音，可将其进行时长等分型截断，形成两个或两个以上(也即多个)具有一定时长(例如30分钟)的语音信号(也可称为语音段)。

由于音频信号具有短时平稳性，进一步可将语音信号按照预设的帧长和帧移切分成多帧(“多帧”指至少两帧)语音帧，并且认为每帧语音帧都是短时平稳的。

例如，可按10ms的帧移，将语音信号切分为多个帧长为30ms的语音帧。

对语音信号进行预加重处理，以增强语音信号的高频成分，避免由于高频分量在传输过程中过量衰减而导致语音不够清晰明确，影响后续语音特征的提取。

特征提取单元2，用于对语音信号进行特征提取，得到语音帧特征。

标注单元3，用于根据语音帧特征标注语音信号中的有效语音段落，得到标注结果。

在本发明其他实施例中，请参见图2，上述标注单元3可进一步包括初始标注网络子单元31(也可称为初始标注网络)、标注修正网络子单元32(也可称为标注修正网络)和标注决策子单元33。

图3示出了基于图2所示的长语音标注装置的长语音标注方法的一种示例性流程，包括：

S1：对输入的长语音进行预处理，得到多个语音信号；

可由前述的预处理单元1执行步骤S1。

在本发明实施例中，上述长语音标注装置还可包括输入单元，用于输入待标注的长语音。

具体的，在预测阶段，长语音由用户输入。

在训练过程，长语音可以从已收集的语料库中获取，或者通过第三方工具收集，此处不做限制。

语音信号的相关描述请参见前述记载，在此不作赘述。

S2：对语音信号进行特征提取，得到语音帧特征；

可由前述的特征提取单元2执行步骤S2。

S3：根据语音帧特征对语音信号中的语音帧进行标注，得到每一语音帧的初始标注结果(也可称为自动标注结果)；

可由前述的初始标注网络子单元31执行步骤S3，并将初始标注结果传给标注决策子单元33和标注修正网络32。

初始标注网络是一个二分类网络。

在一个示例中，初始标注网络可根据语音帧特征计算第一自动识别类别(有效语音帧)对应的第一识别概率P₁(valid)，以及第二自动识别类别(无效语音帧)对应的第二识别概率P₁(invalid)。

换句话说，针对某语音帧，初始标注网络会计算其为有效语音帧的概率(P₁(valid))，以及其为无效语音帧的概率P₁(invalid)。

初始标注结果可包括第一识别概率P₁(valid)以及第二识别概率P₁(invalid)。

第一识别概率P₁(valid)和第二识别概率P₁(invalid)的和值为1或100％，二者中的较大值所对应的自动识别类别为自动标注结果。

举例来讲，假定语音帧m所对应的P₁(valid)＝80％，P₁(invalid)＝20％，则语音帧m的自动标注结果为有效语音帧。

S4：标注修正网络根据初始标注结果与语音帧特征，得到与相应语音帧的初始标注结果相对应的修正类型；

可由前述的标注修正网络子单元32执行步骤S4，并将修正类型传给标注决策子单元33。

该步骤模拟的是人工对机器的自动标注结果的修正。需要说明的是，由于初始标注网络的预测具有一定的误差，因此本专利添加了标注修正网络，用以模拟人工纠错的行为，在一定程度上减小标注误差。

标注修正网络是一个四分类网络，其输入与初始标注网络的输入均包括语音帧特征，其输出为人工调整标注的四种情形下的概率，用符号可表示为：

第一类概率P₂(valid2valid)：指语音帧的自动标注结果为有效语音帧，人工标注其为有效语音帧的概率；

第二类概率P₂(valid2invalid)：指语音帧的自动标注结果为有效语音帧，人工标注其为无效语音帧的概率；

第三类概率P₂(invalid2valid)：指语音帧的自动标注结果为无效语音帧，人工标注其为有效语音帧的概率；

第四概率P₂(invalid2invalid)：指语音帧的自动标注结果为无效语音帧，人工标注其为无效语音帧的类概率。

S5：根据初始标注结果与修正类型，决策得到每一语音帧的最终标注结果。

可由前述的标注决策子单元33执行步骤S5。

在一个示例中，标注决策子单元33可根据初始标注结果与修正类型计算语音帧为有效语音帧的第一概率，以及，其为无效语音帧的第二概率。

最终标注结果用于表征相应的语音帧为有效语音帧或无效语音帧。可以理解的是，当第一概率大于第二概率，则表征语音帧为有效语音帧，反之为无效语音帧。

具体的，可使用第一公式计算第一概率P(valid)，使用第二公式计算第二概率P(invalid)。

其中，第一公式为：

P(valid)＝P₁(valid)×P₂(valid2valid)+P₁(invalid)×P₂(invalid2valid)；

第二公式为：

上述步骤S3-S5可实现：

通过初始标注网络对语音信号进行一次有效语音段落标注的预测；

通过标注修正网络对语音信号进行一次有效语音段落标注修正的预测；

通过标注决策，结合语音信号有效语音段落的标注和标注修正的预测，决定最终标注结果。

可见，在本发明实施例中，对长语音进行预处理得到语音信号后，会使用初始标注网络对语音帧进行初始标注，得到初始标注结果，再使用标注修正网络以模拟人工纠错的行为对初始标注结果进行修正(修正类型体现了对初始标注结果所进行的修正)，在一定程度上减少了标注误差，然后再由标注决策子单元决策每一语音帧的最终标注结果(有效语音帧或无效语音帧)。由于有效语音段落包括连接多个有效语音帧，因此，在确定每一语音帧是有效语音帧或无效语音帧后，有效语音段落也会确定下来，从而实现了对长语音更细粒度的标注。

下面将介绍如何进行训练。

先对初始标注网络进行训练，训练完成后，再对标注修正网络进行训练。

前述提及了，初始标注网络是二分类网络，可采用现有的二分类网络的训练方法进行训练，在此不作赘述。

请参见图4，为实现标注修正网络的训练，上述长语音标注装置还可包括：标注结果检查单元4和人工施教单元5。

标注结果检查单元和人工施教单元所参与的训练过程可参见图5，其可包括如下步骤：

S51-S53与前述的S3-S5相同，在此不作赘述。

需要说明的是，为简约起见，本实施例未描述对输入的长语音进行预处理、对语音信号进行特征提取得到语音帧特征等的步骤，但在训练中，上述步骤都会被执行。

此外，为了后续称呼方便，将预处理单元输出的多个语音信号中的任一语音信号称为目标语音信号，而该目标语音信号中每一语音帧对应的初始标注结果称为目标初始标注结果。

S54：标注结果检查单元在人机交互界面展现目标语音信号中所有语音帧的最终标注结果，由人工对最终标注结果进行检测，接收第一指令或第二指令。

可在人机交互界面展现目标语音信号每一语音帧的最终标注结果，若人工判定最终标注结果的准确率已经满足要求，则输出最终标注结果；否则进入人工施教环节。

更具体的，若最终标注结果中正确标注的语音帧的总时长，占据语音信号时长的98％及以上时，即视为满足要求。

在一个示例中，可在人机交互界面设置两个按钮，若人工判定满足要求，则点击第一按钮，下达第一指令(指示输出目标语音信号中所有语音帧的最终标注结果)进入S57，而若人工判定不满足要求，则点击第二按钮，下达第二指令，指示执行一次人工施教交互。

S55：人工施教单元接收对目标语音片段的人工修正结果。

其中，目标语音片段为人工在目标语音信号中选定的语音片段，可以理解的是目标语音片段包括至少一个语音帧。

人工修正结果包括表示目标语音片段中的所有语音帧为有效语音帧或无效语音帧的修正信息。

例如人工可对0.2-0.4秒间的语音，统一标注为有效或无效。

在一个示例中，请参见图6，人工施教单元5可进一步包括人工标注子单元，可通过人工标注子单元在目标语音信号中选定语音片段，并输入人工修正结果。

S56：人工施教单元根据人工修正结果，生成与目标语音片段中每一语音帧相对应的修正类型标签，向标注修正网络子单元返回修正类型标签，返回步骤S52。

其中，修正类型标签包括目标语音片段中的语音帧的修正类型。

举例来讲，人工选定的语音片段(一般为出现标注错误的语音片段)中包括100个语音帧，人工统一标注为无效。人工施教单元可根据统一的人工修正结果，得到这100个语音帧对应的修正类型。

前述提及了修正类型包括P₂(valid2valid)至P₂(invalid2invalid)。假定这100个语音帧中的第56个语音帧的最终标注结果表征其为有效语音帧，则经人工修正(人工统一标注为无效)后，第56个语音帧对应的修正类型标签中的P₂(valid2valid)至P₂(invalid2invalid)的取值分别为：0，1，0，0；反之，若人工统一标注为有效，则第56个语音帧对应的修正类型标签中的P₂(valid2valid)至P₂(invalid2invalid)的取值分别为：1，0，0，0。

再例如，假定第20个语音帧的最终标注结果表征其为无效语音帧，则经人工修正(人工统一标注为无效)后，第20个语音帧对应的修正类型标签中的P₂(valid2valid)至P₂(invalid2invalid)的取值分别为：0，0，0，1，反之，若人工统一标注为有效，则第20个语音帧对应的修正类型标签中的P₂(valid2valid)至P₂(invalid2invalid)的取值分别为：0，0，1，0。

之后，标注修正网络会根据目标初始标注结果、修正类型标签和目标语音信号的语音帧特征，重新生成与目标初始标注结果相对应的修正类型(也即使用修正类型标签对标注修正网络进行了训练)，并输出至标注决策子单元，由标注决策子单元再重新决策得到目标语音信号中所有语音帧的最终标注结果，并输出至标注结果检测单元。

之后，若目标语音片段的最终标注结果经人工检测还不满足要求，可再次对目标语音片段进行人工修正。

S57：输出最终标注结果。

在一次次的人工施教中，标注修正网络可以学习人工先验知识，经过训练，得到学习人工调整标注行为的标注修正网络。每次人工施教中的人工修正结果都将用于更新标注修正网络模型，使其能够对有效语音段落的自动标注结果进行智能化校正，实现了利用少量的人工标注完成大量的长语音有效语音段落的精准标注，具有低成本、高效率的特点。

由于待标注语音段的时长过长，为了更好地控制人机交互过程，避免因网络训练的衰退而产生的异常,在本发明其他实施例中，仍请参见图6，上述人工施教单元还可包括交互控制子单元。

交互控制子单元与标注结果检测单元可构成人机交互模块。

请参见图7，上述训练过程还可包括：

S58：在接收到人工修正结果后，计算交互密度；

在本发明其他实施例中，也可在本次人工施教交互完成后计算交互密度。

本专利提出了交互密度的概念，用于反映对目标语音片段进行交互式标注的频繁程度，其计算方式如下述公式所示：

Den(CT,DT)＝CT/DT。其中，CT表示记录的、在目标语音片段上的人工施教交互的总次数，DT指目标语音片段的总时长(单位可为小时)，Den(CT,DT)表示在该目标语音片段上的交互密度。

S59：判断交互密度是否超过预设阈值，若否，进入S56，禁止执行人工施教交互，否则，进入S510；

本领域技术人员可根据需要灵活设计预设阈值的具体取值，例如，可将预设阈值设置为6次/时(意即，每小时的语音数据允许进行6次人工施教交互)。

S510：人工标注目标语音信号的操作流程。

在每次人工修改标注结果时，系统将会检测交互密度是否超过预先设定的阈值，若是，则意味着人机交互标注网络(标注单元和人工施教单元)出现了异常，不适用于该语音信号，则由人工通过人工标注子单元标注目标语音信号中的语音帧，并输出人工标注后的目标语音信号的最终标注结果；否则，继续执行人工施教交互流程。

S511：输出人工标注后的目标语音信号的最终标注结果。

在输出人工标注后的目标语音信号的最终标注结果，或在第一指令的触发下输出目标语音信号的最终标注结果后，可提取下一语音信号的语音帧特征，然后从步骤S51开始执行。

请参见图6，上述装置还可包括输出单元，用于将最终标注结果输出至下一语音处理单元进行后续处理。

在本发明其他实施例中，仍请参见图6，上述人工施教单元还可包括特征提取子单元：用于提取人工标注后的每帧语音帧的语音帧特征及其前述的修正标签，以便用于标注修正网络的训练。

或者，在本发明其他实施例中，也可使用特征提取单元提取的语音帧特征训练标注修正网络。

下面对特征提取单元进行具体介绍。仍请参见图6，特征提取单元可进一步包括：

语音多通道特征提取单元21，用于：提取每一语音帧的频谱特征和深层特征；

融合单元22(语音多通道特征整合单元)，用于对频谱特征和深层特征进行拼接，并对拼接结果进行降维处理，得到低维特征作为上述语音帧特征。

或者说，融合单元22可对频谱特征和深层特征进行工程化处理，生成便于后续算法处理的派生特征(低维特征)。

在一个示例中，仍请参见图6，语音多通道特征提取单元21可进一步包括如下子单元：

语音帧特征提取子单元，用于分析得到上述频谱特征；

语音端点检测子单元，用于分析得到语音帧的端点特征；

前述的深层特征包括端点特征、音频事件特征和语音识别表观特征。

需要说明的是，由于自然环境下的声学信息的复杂性，仅仅根据音频信号的时域参数和频域参数很难准确区分有效语音和其他音频，本实施例从不同通道对语音帧挖掘表征不同语音技术任务的相应特征，从而得到相互补充、辅助纠正的比较全面的特征。上述语音端点检测子单元、音频事件检测子单元和语音识别子单元对应三个通道，涉及语音端点检测技术、音频事件检测技术、语音识别技术，这三项技术是能够判别某一语音段是否属于有效语音的三种关键技术，因此，本实施例从上述三个通道出发来研究语音帧的深层特征。

下面分别介绍频谱特征和深层特征：

1)，频谱特征

相较于时域参数(如短时能量、过零率等)，频谱特征更能反映语音信号携带的复杂信息，因此常被用于语音识别、声纹识别等任务中。

其中，梅尔倒谱特征(Mel Frequency Cepstral Coefficents，MFCC)能够有效描述语音信号频谱的包络，而基频特征(pitch)能够很好地描述语音信号的精细结构，因此，本发明实施例采用MFCC与pitch参数作为语音帧的基本特征，也即频谱特征包括MFCC与pitch参数。

2)，语音帧的端点特征(语音端点检测表观特征，Fea(VAD))

语音端点检测(Voice Activity Detection，VAD)就是从连续的语音流中将有效语音(即人说话的声音)的部分与外界的噪音或者静音分割开来，其主要包括两个方面：检测出有效语音的起始点即前端点和结束点即后端点。

主流的语音端点检测方法包括基于时域参数、基于频域参数、基于时域与频域结合参数和基于模型的方法，每种方法在特定的环境下都能达到优秀的检测效果，然而在其他环境下的性能会明显下降。

鉴于本发明实施例输入的语音段属于自然环境下的长语音，采用基于深度神经网络(Deep Neural Network，DNN)和长短时记忆单元(Long-Short TermMemory，LSTM)混合结构的语音端点检测方法。

DNN-LSTM结合的工作原理是利用DNN善于对数据进行非线性变换，具有从原始数据中学习层次特征的能力，而LSTM善于对时间序列分析的能力(例如可以对语音帧的动态信息加以分析利用)，从而利用上下文信息推断语音帧是否是静音段。二者结合，使得其在噪声环境下的检测准确率明显高于基于能量的检测方法。

DNN-LSTM的输入为频率特征(即前述的语音帧特征提取子单元的输出)，输出为每帧语音帧的语音端点检测结果(即是静音帧或非静音帧)。

如图8a的语音端点检测网络图所示(语音端点检测子单元包括语音端点检测网络)，x(t)表示在t时刻的语音帧的频谱特征，y(t)表示t时刻的语音帧的语音端点检测结果。

具体的，是由DNN-LSTM从语音帧的频谱特征提取深层次特征给SoftMax层，y(t)是softmax层的输出，在这里SoftMax层含有2个神经元，分别计算语音帧属于静音/非静音的后验概率。

此外，需要说明的是，LSTM是在时间上展开的，它横向的输入是上一时刻LSTM的记忆信息，横向的输出是此时刻的记忆信息。

上述DNN-LSTM也需要训练，其训练阶段位于初始标注网络训练之前(也即DNN-LSTM先于初始标注网络进行训练)。在训练过程中，softmax层的输出可用于DNN-LSTM的网络权重调整。

本发明实施例抽取LSTM层的输出矢量(也即深层次特征)作为表征语音帧经由语音端点检测后的特征(可称为端点特征或语音端点检测表观特征)。

DNN-LSTM为现有网络结构，在此不作赘述。

3)，音频事件特征(音频事件检测表观特征，Fea(AED))

为了辅助纠正语音端点检测的结果，本发明实施例设计了卷积神经网络(Convolutional Neural Network，CNN)来检测语音信号中的异常声音事件。

如图8b的音频事件检测网络图(音频事件检测子单元包括该网络)所示，x(t)表示在t时刻的语音帧的频谱特征，y(t)表示t时刻的语音帧的音频事件检测结果。

该网络的输入为频率特征(即前述的语音帧特征提取子单元的输出)，在时间轴上利用滑动的卷积核来提取频率特征的深层特征，整合了频域和时域维度上的信息，网络的输出单元(SoftMax层)为匹配的音频事件类别。

其中，音频事件类别包括但不限于：笑声、哼声、喘息声、咂嘴声、抽泣声、碰撞声等。

图8b中的y(t)是softmax层的输出，softmax层会根据前面的特征，计算各类别的概率。

上述CNN也需要先于初始标注网络进行训练。在训练过程中，softmax层的输出可用于CNN的网络权重调整。

本发明实施例抽取CNN层的输出矢量作为表征语音帧经由音频事件检测(Acoustic Event Detection，AED)的特征(可称为音频事件特征或音频事件检测表观特征)。

4)，语音识别表观特征(Fea(ASR))

为了辅助纠正语音端点检测的结果，本发明实施例设计了基于时延神经网络(Time Delay Neural Network，TDNN)的语音识别(Automatic Speech Recognition，ASR)单元(即语音识别子单元)。

如图8c所示，x(t)表示在t时刻的语音帧的频谱特征，y(t)表示t时刻的语音帧的语音识别结果，通过解码器可以判断语音帧对应于静音音素、噪声音素或者其他语音音素的概率。

上述TDNN需要先于初始标注网络进行训练，在训练过程中解码器的输出可用于TDNN的权重调整。

本发明实施例抽取TDNN网络的输出矢量作为表征该帧语音帧经由语音识别后的特征(即语音识别表观特征)。

下面介绍融合单元的功能。

语音信号在经历多个通道的特征提取后，每帧语音帧都扩充了多个深层特征，每一个深层特征可能含有上百维度，融合单元就是将每一帧语音帧的不同深层特征融合为单一的多维度特征，进而作为标注单元的输入。

融合过程分为以下两个步骤：

1)，特征拼接

首先，如图9a所示，将语音帧的多个特征拼接起来。图9a中MFCC+Pitch指语音帧的基本特征(频谱特征)，Fea(VAD)表示经过语音端点检测训练后提取的深层特征，Fea(AED)表示经过音频事件检测训练后提取的深层特征，Fea(ASR)表示经过语音识别训练后提取的深层特征。记拼接后的语音帧的深层特征为Fea(highDimen)。

2)，特征降维

Fea(highDimen)具有很长的维度，为了从这些特征中进一步提取有意义的特征，本专利采用稀疏自动编码器(Sparse AutoEncoder)对特征建模。

稀疏自动编码器如图9b所示，包括三层：Layer L1，Layer L2和Layer L3，经过模型的训练，Layer L2层输出的低维深层特征是本发明实施例中的低维特征，记为Fea(lowerDimen)，也即标注单元的输入。

综上，本发明提供的基于人机交互的长语音标注方法及装置，采用包括语音端点检测在内的多种语音技术充分挖掘语音信息，基于深度学习搭建具有时序建模能力的有效语音段落标注网络，通过人机交互与机器自学习的方式，实现利用少量的人工标注完成大量的有效语音段落的精准标注，为长语音有效语音段落标注提供了更高效、更鲁棒的技术解决方案，具有低成本、高效率、细粒度的优势。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及模型步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或模型的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、WD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种长语音标注装置，其特征在于，用于在训练阶段及预测阶段标定长语音中的有效语音段落；

所述装置包括预处理单元、特征提取单元和标注单元；

所述初始标注网络子单元用于：根据所述语音帧特征对所述语音信号中的语音帧进行标注，得到每一语音帧的初始标注结果，具体包括：计算第一自动识别类别对应的第一识别概率P₁(valid)，以及第二自动识别类别对应的第二识别概率P₁(invalid)；所述第一自动识别类别为有效语音帧，所述第二自动识别类别为无效语音帧；所述初始标注结果包括所述第一识别概率和所述第二识别概率；所述第一识别概率和所述第二识别概率中的较大值所对应的自动识别类别为自动标注结果；

所述标注修正网络子单元用于：根据所述初始标注结果与所述语音帧特征，得到与所述语音帧的初始标注结果相对应的修正类型，具体包括：计算相应的语音帧的自动标注结果为有效语音帧，人工标注其为有效语音帧的第一类概率P₂(valid2valid)；计算相应的语音帧的自动标注结果为有效语音帧，人工标注其为无效语音帧的第二类概率P₂(valid2invalid)；计算相应的语音帧的自动标注结果为无效语音帧，人工标注其为有效语音帧的第三类概率P₂(invalid2valid)；计算相应的语音帧的自动标注结果为无效语音帧，人工标注其为无效语音帧的第四类概率P₂(invalid2invalid)；

2.如权利要求1所述的装置，其特征在于，

所述预处理单元输出的多个语音信号中的任一语音信号为目标语音信号；所述目标语音信号中每一语音帧对应的初始标注结果为目标初始标注结果；

所述装置还包括标注结果检测单元和人工施教单元；

在所述训练阶段中：

在一次人工施教交互中，所述人工施教单元用于：

向所述标注修正网络子单元返回所述修正类型标签；

在一次人工施教交互中，所述标注修正网络子单元用于：

3.如权利要求2所述的装置，其特征在于，还包括：

交互控制子单元，用于：

若所述交互密度超过预设阈值，禁止执行人工施教交互。

4.如权利要求3所述的装置，其特征在于，在所述计算交互密度的方面，所述交互控制子单元具体用于：

5.如权利要求1所述的装置，其特征在于，

使用第一公式，计算相应的语音帧为有效语音帧的第一概率；

使用第二公式，计算相应的语音帧为无效语音帧的第二概率；

所述第一公式为：

P(valid)＝P₁(valid)×P₂(valid2valid)+P₁(invalid)×P₂(invalid2valid)；

所述第二公式为：

6.如权利要求1所述的装置，其特征在于，

所述特征提取单元包括：

7.如权利要求6所述的装置，其特征在于，所述语音多通道特征提取单元包括：

语音帧特征提取子单元，用于分析得到所述频谱特征；

语音端点检测子单元，用于分析得到语音帧的端点特征；

8.一种长语音标注方法，其特征在于，用于在训练阶段及预测阶段标定长语音中的有效语音段落；

所述方法包括：

对所述语音信号进行特征提取，得到语音帧特征；

使用初始标注网络，根据所述语音帧特征对所述语音信号中的语音帧进行标注，得到每一语音帧的初始标注结果，具体包括：计算第一自动识别类别对应的第一识别概率P₁(valid)，以及第二自动识别类别对应的第二识别概率P₁(invalid)；所述第一自动识别类别为有效语音帧，所述第二自动识别类别为无效语音帧；所述初始标注结果包括所述第一识别概率和所述第二识别概率；所述第一识别概率和所述第二识别概率中的较大值所对应的自动识别类别为自动标注结果；

使用标注修正网络，根据所述初始标注结果与所述语音帧特征，得到与所述语音帧的初始标注结果相对应的修正类型，具体包括：计算相应的语音帧的自动标注结果为有效语音帧，人工标注其为有效语音帧的第一类概率P₂(valid2valid)；计算相应的语音帧的自动标注结果为有效语音帧，人工标注其为无效语音帧的第二类概率P₂(valid2invalid)；计算相应的语音帧的自动标注结果为无效语音帧，人工标注其为有效语音帧的第三类概率P₂(invalid2valid)；计算相应的语音帧的自动标注结果为无效语音帧，人工标注其为无效语音帧的第四类概率P₂(invalid2invalid)；

9.如权利要求8所述的方法，其特征在于，

所述多个语音信号中的任一语音信号为目标语音信号；

在所述训练阶段，所述方法还包括：

在人机交互界面展现所述目标语音信号中所有语音帧的最终标注结果，并接收第一指令或第二指令；所述第一指令用于指示输出所述目标语音信号中所有语音帧的最终标注结果，所述第二指令用于指示执行一次人工施教交互；

其中，一次人工施教交互包括：

所述标注修正网络根据所述目标初始标注结果、所述修正类型标签和所述目标语音信号的语音帧特征，重新生成与所述目标初始标注结果相对应的修正类型；

根据所述目标初始标注结果与重新生成的修正类型，重新决策得到所述目标语音信号中所有语音帧的最终标注结果。

10.如权利要求9所述的方法，其特征在于，还包括：