CN103578470A

CN103578470A - 一种电话录音数据的处理方法及系统

Info

Publication number: CN103578470A
Application number: CN201210282728.9A
Authority: CN
Inventors: 高建清; 王智国; 何婷婷; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-08-09
Filing date: 2012-08-09
Publication date: 2014-02-12
Anticipated expiration: 2032-08-09
Also published as: CN103578470B

Abstract

本发明实施例公开了一种电话录音数据的处理方法，包括：对输入的源录音数据进行端点检测，获取有声数据；判断有声数据是否为无效数据，若是，则舍弃，否则，确定有声数据为语音数据；判断语音数据是否为异常数据，若是，则舍弃，否则，确定语音数据为有效语音数据。本发明公开的电话录音数据的处理方法，滤除了具有较高能量的噪声信号和异常语音信号，保证进入后续语音识别系统的数据的有效性，从而降低了后续语音识别过程的错误率，提高了语音识别的效率，同时通过端点检测确定有声数据的步骤，减小了运算量。本发明实施例还公开了一种电话录音数据的处理系统。

Description

一种电话录音数据的处理方法及系统

技术领域

本发明属于语音识别技术领域，尤其涉及一种电话录音数据的处理方法及系统。

背景技术

随着人们对信息获取移动性需求的不断增加以及电话网络的日益普及,电话语音服务正日益渗透到人们生活的方方面面。同时，针对各种电话语音服务的录音数据后续处理，例如信息挖掘、统计分析、服务质量抽查、关键词检索等需求也越来越迫切。面对海量的电话录音数据进行人工处理显然是不切实际的，这些需求通常首先要通过自动语音识别模块将语音数据转化为文字数据，然后再使用文本挖掘、检索技术进行处理。如果不对这些电话录音数据进行筛选，直接交给自动语音识别模块来处理，将极大增加语音识别的错误率，进而严重降低各种后续处理模块的有效性。因此，在自动语音识别模块接触源录音数据之前，要对源录音数据进行处理，增加一个无效语音数据的过滤装置。

公开号为CN1949364A的专利申请公开了一种检测输入语音信号可甄别度的系统和方法，将输入信号的信噪比、输入信号为语音的几率以及系统处理输入信号的可靠度作为语音质量的衡量准则，符合该衡量准则的语音信号被送入后续的语音识别系统进行后续处理。

但是，经过上述系统处理后的语音数据进入自动语音识别系统后，自动语音识别系统仍会出现较高的错误率，并且识别效率较低。如何提高自动语音识别系统的识别效率、降低其错误率是本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种电话录音数据的处理方法，可以将源录音数据中具有较高能量的噪声信号和异常语音信号滤除，从而降低后续语音识别的错误率、提高语音识别的效率。本发明还公开了一种电话录音数据的处理系统。

为实现上述目的，本发明提供如下技术方案：

一种电话录音数据的处理方法，包括：

对输入的源录音数据进行端点检测，获取有声数据；

判断所述有声数据是否为无效数据，若是，则舍弃，否则，确定所述有声数据为语音数据；

判断所述语音数据是否为异常数据，若是，则舍弃，否则，确定所述语音数据为有效语音数据；

所述无效数据包括拨号音、振铃音、传真音、静音、挂机音和彩铃音，所述异常数据包括音量过大的语音数据、音量过小的语音数据以及噪音干扰过大的语音数据。

优选的，在上述方法中，判断所述有声数据是否为无效数据的步骤，包括：

将有声数据中的每一帧依次作为当前帧，判断所述当前帧是否为噪音帧；

确定所述有声数据中噪音帧的总量；

判断所述噪音帧的总量与所述有声数据中数据帧总量之间的比值是否达到第一阈值或判断所述噪音帧的总量是否达到第二阈值，若所述比值达到第一阈值或所述噪音帧的总量达到第二阈值，则确定所述有声数据为无效数据；否则，确定所述有声数据为语音数据。

步骤S21：初始化所述有声数据中噪音帧的数量，确定所述有声数据中的第一帧为当前帧；

步骤S22：判断所述当前帧是否为噪音帧，若所述当前帧为噪音帧，则执行步骤S23，否则，执行步骤S26；

步骤S23：将所述噪音帧的数量加1；

步骤S24：判断所述噪音帧的数量与所述有声数据中数据帧总量之间的比值是否达到第一阈值或判断所述噪音帧的数量是否达到第二阈值，若所述比值达到第一阈值或所述噪音帧的数量达到第二阈值，则执行步骤S25，否则，执行步骤S26；

步骤S25：确定所述有声数据为无效数据；

步骤S26：判断所述当前帧是否为所述有声数据的最后一帧，若是最后一帧，则执行步骤S28，否则，执行步骤S27；

步骤S27：确定所述有声数据中当前帧的下一帧为新的当前帧，执行步骤S22。

步骤S28：确定所述有声数据为语音数据。

优选的，在上述方法中，判断所述当前帧是否为噪音帧的步骤，包括：

对所述当前帧进行傅里叶变换，确定所述当前帧在预设频段的功率谱；

判断所述当前帧在预设频段的功率谱是否与一种无效数据的频带分布规则相匹配，若是，则确定所述当前帧为噪音帧，否则，确定所述当前帧为语音帧。

提取所述当前帧的声学特征矢量；

将所述当前帧的声学特征矢量与语音模型进行匹配，计算所述当前帧与所述语音模型的似然度；

将所述当前帧的声学特征矢量与非语音模型匹配，计算所述当前帧与所述非语音模型的似然度，所述非语音模型包括拨号音模型、传真音模型、挂机音模型、彩铃音模型和忙音模型；

计算所述当前帧隶属于所述语音模型的第一后验概率、以及所述当前帧隶属于所述非语音模型的第二后验概率；

判断所述第一后验概率和第二后验概率是否满足预设条件，当满足预设条件时，确定所述当前帧为噪音帧，否则，确定所述当前帧为语音帧。

判断所述当前帧在预设频段的功率谱是否与任意一种无效数据的频带分布规则相匹配，若是，则确定所述当前帧为噪音帧，否则，提取所述当前帧的声学特征矢量；

将所述当前帧的声学特征矢量与语音模型进行匹配，计算所述当前帧与语音模型的似然度；

将所述当前帧的声学特征矢量与非语音模型匹配，计算所述当前帧与非语音模型的似然度，所述非语音模型包括拨号音模型、传真音模型、挂机音模型、彩铃音乐模型和忙音模型；

优选的，在上述方法中，所述判断所述语音数据是否为音量异常数据的步骤，包括：

步骤S31：计算所述语音数据的平均幅度；

步骤S32：判断所述平均幅度是否小于第四门限值，若是，则执行步骤S38，否则，执行步骤S33；

步骤S33：确定所述语音数据中发生截幅的语音帧的数量，计算所述发生截幅的语音帧的数量与所述语音数据中语音帧总量之间的比值；

步骤S34：判断所述比值是否大于第五门限值，若是，则执行步骤S38，否则，执行步骤S35；

步骤S35：计算所述语音数据的信噪比；

步骤S36：判断所述信噪比是否低于第六门限值，若是，则执行步骤S38。否则，执行步骤S37；

步骤S37：确定所述语音数据未发生异常；

步骤S38：确定所述语音数据为异常数据。

一种电话录音数据的处理系统，包括：

端点检测单元，用于对输入的源录音数据进行端点检测，获取有声数据；

无效数据检测单元，用于判断所述有声数据是否为无效数据，若是，则舍弃，否则，确定所述有声数据为语音数据；

异常数据检测单元，用于判断所述语音数据是否为异常数据，若是，则舍弃，否则，确定所述语音数据为有效语音数据；

优选的，在上述系统中，

所述无效数据检测单元包括：

噪音帧检测子单元，用于检测所述有声数据中的数据帧是否为噪音帧；

噪音帧总量确定子单元，用于控制所述噪音帧检测子单元检测所述有声数据中的全部数据帧，并确定所述有声数据中噪音帧的总量；

第一处理子单元，用于判断所述噪音帧的总量与所述有声数据中数据帧总量之间的比值是否达到第一阈值或判断所述噪音帧的总量是否达到第二阈值，若所述比值达到第一阈值或所述噪音帧的总量达到第二阈值，则确定所述有声数据为无效数据；否则，确定所述有声数据为语音数据；

或者，

所述无效数据检测单元包括：

初始化子单元，用于初始化所述有声数据中噪音帧的数量，确定所述有声数据中的第一帧为当前帧；

噪音帧数量更新子单元，用于在所述噪音帧检测子单元确定所述当前帧是噪音帧时，将所述噪音帧的数量加1；

第二处理子单元，用于在所述噪音帧数量更新子单元更新噪音帧数量后，判断所述噪音帧的数量与所述有声数据中数据帧总量之间的比值是否达到第一阈值或判断所述噪音帧的数量是否达到第二阈值，若所述比值达到第一阈值或所述噪音帧的数量达到第二阈值，则确定所述有声数据为无效数据；

当前帧更新子单元，用于在所述噪音帧检测子单元确定所述当前帧不是噪音帧、或者在所述第二处理单元确定所述比值未达到第一阈值且所述噪音帧的数量未达到第二阈值时，判断当前帧是否为所述有声数据的最后一帧，若是，则确定所述有声数据为语音数据，否则，确定所述有声数据中当前帧的下一帧为新的当前帧，将所述新的当前帧送入噪音帧检测子单元。

优选的，在上述系统中，

所述噪音帧检测子单元包括功率谱确定模块和第一处理模块；

所述功率谱确定模块用于对所述当前帧进行傅里叶变换，确定所述当前帧在预设频段的功率谱；

所述第一处理模块用于判断所述当前帧在预设频段的功率谱是否与一种无效数据的频带分布规则相匹配，若是，则确定所述当前帧为噪音帧，否则，确定所述当前帧为语音帧；

或者，

所述噪音帧检测子单元包括声学特征矢量提取模块、模型匹配模块、后验概率确定模块和第二处理模块；

所述声学特征矢量提取模块用于提取所述当前帧的声学特征矢量；

所述模型匹配模块用于将所述当前帧的声学特征矢量与语音模型进行匹配，计算所述当前帧与所述语音模型的似然度，还用于将所述当前帧的声学特征矢量与非语音模型匹配，计算所述当前帧与所述非语音模型的似然度，所述非语音模型包括拨号音模型、传真音模型、挂机音模型、彩铃音模型和忙音模型；

所述后验概率确定模块用于计算所述当前帧隶属于所述语音模型的第一后验概率、以及所述当前帧隶属于所述非语音模型的第二后验概率；

所述第二处理模块用于判断所述第一后验概率和第二后验概率是否满足预设条件，当满足预设条件时，确定所述当前帧为噪音帧，否则，确定所述当前帧为语音帧；

或者，

所述噪音帧检测子单元包括：功率谱确定模块、第三处理模块、声学特征矢量提取模块、模型匹配模块、后验概率确定模块和第二处理模块；

所述第三处理模块用于判断所述当前帧在预设频段的功率谱是否与一种无效数据的频带分布规则相匹配，若是，则确定所述当前帧为噪音帧，否则，启动所述声学特征矢量提取模块；

所述第二处理模块用于判断所述第一后验概率和第二后验概率是否满足预设条件，当满足预设条件时，确定所述当前帧为噪音帧，否则，确定所述当前帧为语音帧。

优选的，在上述系统中，所述异常数据检测单元包括平均幅度计算子单元、第三处理子单元、第四处理子单元和第五处理子单元

平均幅度计算子单元，用于计算所述语音数据的平均幅度；

第三处理子单元，用于比较所述平均幅度和第四门限值，在所述平均幅度小于第四门限值时，确定所述语音数据为异常数据；

第四处理子单元，用于在所述平均幅度大于或等于所述第四门限值时，确定所述语音数据中发生截幅的语音帧的数量，计算所述发生截幅的语音帧的数量与所述语音数据中语音帧总量之间的比值，并在所述比值大于第五门限值时，确定所述语音数据为异常数据；

第五处理子单元，用于在所述比值小于或等于所述第五门限值时，计算所述语音数据的信噪比，并在所述信噪比低于第六门限值时，确定所述语音数据为异常数据，在所述信噪比高于或等于所述第六门限值时，确定所述语音数据未发生异常。由此可见，本发明的有益效果为：本发明公开的电话录音数据的处理方法和系统中，滤除了具有较高能量的噪声信号和异常语音信号，保证进入后续语音识别系统的数据的有效性，从而降低了后续语音识别过程的错误率，提高了语音识别的效率，同时通过端点检测确定有声数据的步骤，减小了运算量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种电话录音数据的处理方法的流程图；

图2为本发明公开的一种确定有声数据的起始帧的方法的流程图；

图3为本发明公开的一种确定有声数据的终点帧的方法的流程图；

图4为本发明公开的一种判断有声数据是否为无效数据的方法的流程图；

图5为本发明公开的一种判断有声数据中的当前帧是否为噪音帧的方法的流程图；

图6为本发明公开的另一种判断有声数据中的当前帧是否为噪音帧的方法的流程图；

图7为本发明公开的另一种判断有声数据中的当前帧是否为噪音帧的方法的流程图；

图8为本发明公开的一种判断语音数据是否为异常数据的方法的流程图；

图9为本发明公开的一种电话录音数据的处理系统的结构示意图。

具体实施方式

本发明申请人经过研究发现，现有技术中利用输入信号的信噪比、输入信号为语音的几率以及系统处理输入信号的可靠度这三个指标判断语音信号可识别度的方法，在复杂的电话录音应用场景中还存在很大的局限性：该方法不能很好的区分具有较高能量的噪声信号，也未考虑电话录音场景中存在的异常语音情况，如音量截幅、音量过小，导致后续语音识别的错误率较高、降低了语音识别的效率。

本发明公开了一种电话录音数据的处理方法，可以将源录音数据中具有较高能量的噪声信号和异常语音信号滤除，从而降低后续语音识别的错误率、并提高语音识别的效率。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1为本发明公开的一种电话录音数据的处理方法的流程图。包括：

步骤S1：对输入的源录音数据进行端点检测，获取有声数据。

考虑到语音信号的特征是随时间呈现短时性特点的，只有在一段时间间隔内语音信号才能保持相对稳定一致的特征，本发明对语音信号的处理都是基于短时语音帧分析。对源录音数据进行端点检测，是在连续信号流中检测有声数据的起始帧和终点帧的过程，可以将连续输入信号中的有声信号与其他背景噪音信号分离，从而减少系统的运算量，同时也可以尽可能降低背景噪音信号对后续语音识别的影响。

传统的端点检测方法都是基于能量窗的形式，当信号帧能量大于某个特定的值则认为是语音帧，而如果信号帧能量小于某个特定的值，则认为是静音帧或者说是噪音帧。为了提高端点检测的准确性，本发明中基于短时能量和过零率的特性对噪音段和有声数据段进行区分。

步骤S2：判断有声数据是否为无效数据，若是，则舍弃，否则，确定所述有声数据为语音数据。

端点检测虽然能高效快捷的区分背景噪音段和有声数据段，但是在实际情况下，当噪音的能量较大时，容易将能量较大的噪音信号误判为语音信号，导致能量较大的噪音信号混入语音信号被输送给后续语音处理系统，从而影响到整个系统处理的正确率。

在电话语音数据中，往往存在大量的以突发形式出现的非语音信号，如拨号音、振铃音（包括电话拨通还没有开始通话之前的普通响铃）、传真音、静音、挂机音、彩铃音（主要是电话拨通还没有开始通话之前的音乐声）和忙音（无法接通或者一方挂断电话后的声音），对后续语音处理系统而言这些信号都是无效数据，但是这些无效信号能量往往比较集中，基于短时语音特征分析的端点检测方法较难将其和语音段区分开来。

因此，本发明中进一步判断通过端点检测得到的有声数据是否为无效数据，无效数据包括拨号音、振铃音、传真音、静音、挂断音和彩铃音，当有声数据为无效数据时，将其舍弃，否则，将其作为语音数据进行后续处理。

实施中，通过计算有声数据中噪音帧或语音帧所占的比例来确定该有声数据属于无效数据还是语音数据，而判断有声数据中的数据帧是噪音帧还是语音帧的过程，可以通过比对该数据帧在预设频段的功率谱和无效数据的频带分布规则来确定，或者通过比对该数据帧的声学特征矢量和语音模型、以及非语音模型来确定。

步骤S3：判断语音数据是否为异常数据，若是，则舍弃，否则，确定该语音数据为有效语音数据。

在现代通讯，特别是移动电话通讯中，通讯设备的可移动性往往导致用户按照个人使用习惯或近或远的放置通讯设备，相应的录制的语音信号也就存在音量多大或过小的现象。过大的音量将导致语音信号截幅，输入到语音识别系统的语音将不是完整波形，因而加大了识别难度，而较小的音量将导致识别混淆度的增加，也会影响到语音识别系统的性能。

为了降低后续语音识别的错误率、并提高语音识别的效率，本发明中进一步判断语音数据是否为异常数据，若是，则舍弃该语音数据，否则将其作为有效语音数据传输至语音识别系统进行后续处理。异常数据包括音量过大的语音数据、音量过小的语音数据以及噪音干扰过大的语音数据。

本发明上述公开的电话录音数据的处理方法中，滤除了具有较高能量的噪声信号和异常语音信号，保证进入后续语音识别系统的数据的有效性，从而降低了后续语音识别过程的错误率，提高了语音识别的效率，同时通过端点检测确定有声数据的步骤，减小了运算量。

实施中，对输入的源录音数据进行端点检测主要包括确定有声数据起始帧和终点帧的步骤，下面结合图2和图3进行详细说明。

参见图2和图3，图2为本发明公开的一种确定有声数据的起始帧的方法的流程图，图3为本发明公开的一种确定有声数据的终点帧的方法的流程图。

确定有声数据的起始帧的方法如图2所示，包括：

步骤S111：确定源录音数据的第一数据帧为当前数据帧。

步骤S112：判断从当前数据帧开始的X个数据帧内是否有连续Y个数据帧的能量大于第一门限值，若有，则执行步骤S113，否则，执行步骤S117。

步骤S113：判断从当前数据帧开始的m个数据帧内是否有连续n个数据帧的能量大于第二门限值，若有，则执行步骤S114，否则，执行步骤S117。

步骤S114：从当前数据帧开始取一窗数据，计算该窗数据的段过零率。

步骤S115：判断该过零率是否超过第三门限值，若超过，则执行步骤S116，否则，执行步骤S117。

步骤S116：确定当前数据帧为所述有声数据的起始帧。

步骤S117：将源录音数据中位于当前数据帧的下一帧的数据帧作为新的当前数据帧，执行步骤S112。

在执行图2所示的方法后，可以在源录音数据中确定有声数据的起始帧，之后，要以该起始帧为起点检测该有声数据的终点帧。

确定有声数据的终点帧的方法如图3所示，包括：

步骤S121：确定有声数据的起始帧为当前数据帧。

步骤S122：判断当前数据帧的能量是否低于所述第一门限值，若低于，则执行步骤S123，否则，执行步骤S125。

步骤S123：判断从当前数据帧开始的a个数据帧内是否有连续b个数据帧的能量大于第二门限值，若有，则执行步骤S124，否则，执行步骤S125。

步骤S124：将源录音数据中位于当前数据帧的下一帧的数据帧作为新的当前数据帧，执行步骤S122。

步骤S125：确定当前数据帧为有声数据的终点帧。

根据图2和图3所示的方法在源录音数据中确定有声数据的起始帧和终点帧后，可以将位于该起始帧和该终点帧之间的源录音数据确定为有声数据。

实施中，判断有声数据是否为无效数据的过程可以采用多种方式实现。

例如：将有声数据中的每一帧依次作为当前帧，判断当前帧是否为噪音帧，之后确定有声数据中噪音帧的总量，判断噪音帧的总量与有声数据中数据帧总量之间的比值是否达到第一阈值，或者判断该噪音帧的总量是否达到第二阈值，若该比值达到第一阈值或该噪音帧的总量达到第二阈值，则确定有声数据为无效数据，否则，确定有声数据为语音数据。

或者，确定有声数据中语音帧的总量，判断语音帧的总量与有声数据中数据帧总量之间的比值是否达到第三阈值，或者判断该语音帧的总量是否达到第四阈值，若该比值达到第三阈值或者语音帧的总量达到第四阈值，则确定有声数据为语音数据，否则，确定有声数据为无效数据。

本发明公开了另一种判断有声数据是否为无效数据的方法。

参见图4，图4为本发明公开的一种判断有声数据是否为无效数据的方法的流程图。包括：

步骤S21：初始化有声数据中噪音帧的数量，确定有声数据中的第一帧为当前帧。

步骤S22：判断当前帧是否为噪音帧，若当前帧为噪音帧，则执行步骤S23，否则，执行步骤S26。

步骤S23：将噪音帧的数量加1。

步骤S24：判断噪音帧的数量与有声数据中数据帧总量之间的比值是否达到第一阈值或判断噪音帧的数量是否达到第二阈值，若该比值达到第一阈值或噪音帧的数量达到第二阈值，则执行步骤S25，否则，执行步骤S26。

实施中，该第一阈值为根据应用环境背景噪音等调试的经验值，优选为0.5。

步骤S25：确定有声数据为无效数据。

步骤S26：判断当前帧是否为有声数据的最后一帧，若是最后一帧，则执行步骤S28，否则，执行步骤S27。

步骤S27：确定有声数据中当前帧的下一帧为新的当前帧，执行步骤S22。

步骤S28：确定有声数据为语音数据。

在图4所示的方法中，当确定有声数据中的某一个数据帧是噪音帧后，判断更新后的噪音帧数量与有声数据中数据帧总量之间的比值是否达到相应的第一阈值，或者判断更新后的噪音帧数量是否达到相应的第二阈值，当满足其中任意一个条件时，就可以确定该有声数据为无效数据，而不需要再对后面的数据帧进行处理，减小了系统的运算量。

实施中，在前述的各种判断有声数据是否为无效数据的方法中，判断当前帧是否为噪音帧的步骤可以通过多种方式实现。下面分别结合图5、图6和图7进行说明。

参见图5，图5为本发明公开的一种判断有声数据中的当前帧是否为噪音帧的方法的流程图。包括：

步骤S2211：对当前帧进行傅里叶变换，确定当前帧在预设频段的功率谱。

步骤S2212：判断当前帧在预设频段的功率谱是否与一种无效数据的频带分布规则相匹配，若是，则执行步骤S2213，否则，执行步骤S2214。

无效数据的频带分布规则如下：

a).判断其是否为拨号音：

根据DTMF的国际标准，每个拨号音信号占据的低频能量和高频能量占比之和具有特定的规则，本发明将输入的当前帧和预置的门限进行对比来判断当前帧是否为拨号音。

例如，若

则认为当前帧是“1”键拨号音。

其他拨号音的频带分布如表1所示。

表1

b).判断是否为振铃音:

若P_Ratio(2,1)或P_Ratio(2,3)或P_Ratio(2,4)或P_Ratio(2,5)或P_Ratio(2,6)＞8.0，则判断当前帧为振铃音。

c).判断是否为传真音：

若P_Ratio(4,2)＞0及P_Ratio(4,3)＞0或者P_i＞P₂及P_i＞P₃,其中i＝5或6或7或8，则判断当前帧为传真音。

d).判断是否为静音：

若P₂＞0.1及P₃＞0.1及P₄＞0.1或者

则判断当前帧为静音。

e).判断是否为挂断音：

若P_Ratio(2,3)及P_Ratio(3,4)及P_Ratio(4,5)及P_Ratio(5,6)及P_Ratio(6,7)均小于0.4，则判断当前帧为挂断音。

f).判断是否为彩铃音：

若P_Ratio(1,2)＞-2且P_Ratio(1,3)＞-1且P_Ratio(1，4)＞0，则判断当前帧为彩铃音.

其中，P_Ratio(x,y)表示P_x与P_y的比值。

另外，上文中关于频谱子带的定义如下：

P₁＝P_60～160,P₂＝P_360~460,P₃＝P_660~760,P₄＝P_960~1060,

P₅＝P_1260~1360,P₆＝P_1560~1660,P₇＝P_1860~1960,P₈＝P_2160~2260

步骤S2213：确定当前帧为噪音帧。

步骤S2214：确定当前帧为语音帧。

在图5所示的方法中，通过判断当前帧在预设频段上的功率谱是否与任意一种无效数据的频带分布规则相匹配，来确定该当前帧是否为噪音帧，其运算量较小，但准确性稍低。

参见图6，图6为本发明公开的另一种判断有声数据中的当前帧是否为噪音帧的方法的流程图。包括：

步骤S2221：提取当前帧的声学特征矢量。

步骤S2222：将当前帧的声学特征矢量与语音模型进行匹配，计算当前帧与语音模型的似然度。

步骤S2223：将当前帧的声学特征矢量与非语音模型进行匹配，计算当前帧与非语音模型的似然度。

非语音模型包括传真音模型F、拨号音模型D、彩铃音模型M、挂机音模型H和忙音模型B。

其中，语音模型和非语音模型均利用人工标注的数据预先训练。具体的，对人工标注的数据提取声学特征向量，使用高斯混合模型(Gaussian MixtureModel，GMM)对声学特征进行建模。其中，语音部分数据用来训练语音模型，非语音数据分别训练相应的非语音模型。

另外，本发明中使用最小分类错误准则(Minimum Classification Error，MCE)对得到的GMM模型进行区分性训练，以提高语音模型和非语音噪音模型之间的区分度。

特别的，在MCE训练过程中，考虑到系统目标是为了尽可能的区分语音信号和非语音信号，而对不同非语音信号之间的区分性没有要求，因此本发明在MCE模型训练过程中特别将所有噪音模型看作一大非语音类，将其和语音信号类区分训练。

步骤S2224：计算当前帧隶属于语音模型的第一后验概率、以及当前帧隶属于非语音模型的第二后验概率。

当前帧隶属于语音模型S的第一后验概率为：

而当前帧隶属于非语音模型NS的第二后验概率为：

即取所有非语音模型中具有最大后验概率的值。

其中，A表示所有可能的模型，包括语音模型S，传真音模型F，拨号音模型D，彩铃音模型M，挂机音模型H和忙音模型B。

步骤S2225：判断第一后验概率和第二后验概率是否满足预设条件，当满足预设条件时，执行步骤S2227，否则，执行步骤S2226。

该预设条件可以为：第二后验概率大于第一后验概率。另外，本发明优选的预设条件为：第二后验概率大于第一后验概率，且第二后验概率大于第七门限值。

步骤S2226：确定当前帧为语音帧。

步骤S2227：确定当前帧为噪音帧。

图6所示的方法，通过将当前帧分别与语音模型和非语音模型进行匹配，以确定当前帧隶属于语音模型和隶属于非语音模型的后验概率，之后比对两个后验概率来确定当前帧是否为噪音帧，与图5所示方法相比，其准确度更高，相应的其运算量也较大。

参见图7，图7为本发明公开的另一种判断有声数据中的当前帧是否为噪音帧的方法的流程图。包括：

步骤S2231：对当前帧进行傅里叶变换，确定当前帧在预设频段的功率谱；

步骤S2232：判断当前帧在预设频段的功率谱是否与任意一种无效数据的频带分布规则相匹配，若是，则执行步骤S2239，否则，执行步骤S2233。

步骤S2233：提取当前帧的声学特征矢量；

步骤S2234：将当前帧的声学特征矢量与语音模型进行匹配，计算当前帧与语音模型的似然度；

步骤S2235：将当前帧的声学特征矢量与非语音模型匹配，计算当前帧与非语音模型的似然度。

非语音模型包括传真音模型、按键音模型、彩铃音乐模型、挂机音模型和忙音模型。

步骤S2236：计算当前帧隶属于语音模型的第一后验概率、以及当前帧隶属于非语音模型的第二后验概率。

步骤S2237：判断第一后验概率和第二后验概率是否满足预设条件，当满足预设条件时，执行步骤S2239，否则，执行步骤S2238。

步骤S2238：确定当前帧为语音帧。

步骤S2239：确定当前帧为噪音帧。

在图7所示的方法中，首先判断当前帧在预设频段上的功率谱是否与任一种无效数据的频带分布规则相匹配，如果是，则确认当前帧为噪声帧，否则进一步将当前帧分别与语音模型和非语音模型进行匹配以获得两个后验概率，之后通过比对两个后验概率来确定当前帧是否为噪音帧。图7所示方法与图5所示方法相比，其运算量稍大、但其准确度较高，图7所示方法与图6所示方法相比，由于预先剔除了部分噪音数据，因而减小了运算量，即图7所示方法在运算量与准确度之间取得了较为均衡的技术效果。

在图6和图7所示流程中，声学特征矢量可以采用PLP（Perceptual LinearPredictive，感知线性预测）特征，也可以采用MFCC（Mel-Frequency CepstralCoefficients，梅尔倒谱系数）特征，本发明不对其进行限定。

实施中，判断语音数据是否为音量异常数据的过程可以如图8所示。

参见图8，图8为本发明公开的一种判断语音数据是否为音量异常数据的方法的流程图。包括：

步骤S31：计算语音数据的平均幅度。

步骤S32：判断平均幅度是否小于第四门限值，若是，则执行步骤S38，否则，执行步骤S33。

步骤S33：确定语音数据中发生截幅的语音帧的数量，计算发生截幅的语音帧的数量与语音数据中语音帧总量之间的比值。

步骤S34：判断该比值是否大于第五门限值，若是，则执行步骤S38，否则，执行步骤S35。

步骤S35：计算语音数据的信噪比。

步骤S36：判断该信噪比是否低于第六门限值，若是，则执行步骤S38。否则，执行步骤S37。

步骤S37：确定语音数据未发生音量异常。

步骤S38：确定语音数据为音量异常数据。

本发明上述公开了电话录音数据的处理方法，相应的，本发明还公开了一种应用前述方法的电话录音数据的处理系统。

参见图9，图9为本发明公开的一种电话录音数据的处理系统。该系统包括端点检测单元1、异常数据检测单元2和异常数据检测单元3。

其中，端点检测单元1，用于对输入的源录音数据进行端点检测，获取有声数据。

无效数据检测单元2，用于判断有声数据是否为无效数据，若是，则舍弃，否则，确定有声数据为语音数据。

异常数据检测单元3，用于判断语音数据是否为异常数据，若是，则舍弃，否则，确定该语音数据为有效语音数据。

需要说明的是：无效数据包括拨号音、振铃音、传真音、静音、挂机音和彩铃音，异常数据包括音量过大的语音数据、音量过小的语音数据以及噪音干扰过大的语音数据。

本发明上述公开的电话录音数据的处理系统中，滤除了具有较高能量的噪声信号和异常语音信号，保证进入后续语音识别系统的数据的有效性，从而降低了后续语音识别过程的错误率，提高了语音识别的效率，同时通过端点检测确定有声数据的步骤，减小了运算量。

无效数据检测单元2可以采用多种结构，下面对其中两种进行说明。

第一种：

无效数据检测单元2包括噪音帧检测子单元、噪音帧总量确定子单元和第一处理子单元。

其中，噪音帧检测子单元，用于检测所述有声数据中的数据帧是否为噪音帧。噪音帧总量确定子单元，用于控制所述噪音帧检测子单元检测所述有声数据中的全部数据帧，并确定所述有声数据中噪音帧的总量。第一处理子单元，用于判断所述噪音帧的总量与所述有声数据中数据帧总量之间的比值是否达到第一阈值或判断所述噪音帧的总量是否达到第二阈值，若所述比值达到第一阈值或所述噪音帧的总量达到第二阈值，则确定所述有声数据为无效数据；否则，确定所述有声数据为语音数据。

第二种：

无效数据检测单元2包括初始化子单元、噪音帧检测子单元、噪音帧数量更新子单元、第二处理子单元和当前帧更新子单元。

其中，初始化子单元，用于初始化所述有声数据中噪音帧的数量，确定所述有声数据中的第一帧为当前帧。噪音帧检测子单元，用于检测所述有声数据中的数据帧是否为噪音帧。噪音帧数量更新子单元，用于在所述噪音帧检测子单元确定所述当前帧是噪音帧时，将所述噪音帧的数量加1。第二处理子单元，用于在所述噪音帧数量更新子单元更新噪音帧数量后，判断所述噪音帧的数量与所述有声数据中数据帧总量之间的比值是否达到第一阈值或判断所述噪音帧的数量是否达到第二阈值，若所述比值达到第一阈值或所述噪音帧的数量达到第二阈值，则确定所述有声数据为无效数据。当前帧更新子单元，用于在所述噪音帧检测子单元确定所述当前帧不是噪音帧、或者在所述第二处理单元确定所述比值未达到第一阈值且所述噪音帧的数量未达到第二阈值时，判断当前帧是否为所述有声数据的最后一帧，若是，则确定所述有声数据为语音数据，否则，确定所述有声数据中当前帧的下一帧为新的当前帧，将所述新的当前帧送入噪音帧检测子单元。

实施中，噪音帧检测子单元可以采用多种结构实现，本发明仅对其中三种进行说明。

第一种：

噪音帧检测子单元包括功率谱确定模块和第一处理模块。

其中，功率谱确定模块用于对所述当前帧进行傅里叶变换，确定所述当前帧在预设频段的功率谱。第一处理模块用于判断所述当前帧在预设频段的功率谱是否与一种无效数据的频带分布规则相匹配，若是，则确定所述当前帧为噪音帧，否则，确定所述当前帧为语音帧。

第二种：

噪音帧检测子单元包括声学特征矢量提取模块、模型匹配模块、后验概率确定模块和第二处理模块。

其中，声学特征矢量提取模块用于提取所述当前帧的声学特征矢量。模型匹配模块用于将所述当前帧的声学特征矢量与语音模型进行匹配，计算所述当前帧与所述语音模型的似然度，还用于将所述当前帧的声学特征矢量与非语音模型匹配，计算所述当前帧与所述非语音模型的似然度，所述非语音模型包括拨号音模型、传真音模型、挂机音模型、彩铃音模型和忙音模型。后验概率确定模块用于计算所述当前帧隶属于所述语音模型的第一后验概率、以及所述当前帧隶属于所述非语音模型的第二后验概率。第二处理模块用于判断所述第一后验概率和第二后验概率是否满足预设条件，当满足预设条件时，确定所述当前帧为噪音帧，否则，确定所述当前帧为语音帧。

第三种：

噪音帧检测子单元包括功率谱确定模块、第三处理模块、声学特征矢量提取模块、模型匹配模块、后验概率确定模块和第二处理模块。

其中，功率谱确定模块用于对所述当前帧进行傅里叶变换，确定所述当前帧在预设频段的功率谱。第三处理模块用于判断所述当前帧在预设频段的功率谱是否与一种无效数据的频带分布规则相匹配，若是，则确定所述当前帧为噪音帧，否则，启动所述声学特征矢量提取模块。声学特征矢量提取模块用于提取所述当前帧的声学特征矢量。模型匹配模块用于将所述当前帧的声学特征矢量与语音模型进行匹配，计算所述当前帧与所述语音模型的似然度，还用于将所述当前帧的声学特征矢量与非语音模型匹配，计算所述当前帧与所述非语音模型的似然度，所述非语音模型包括拨号音模型、传真音模型、挂机音模型、彩铃音模型和忙音模型。后验概率确定模块用于计算所述当前帧隶属于所述语音模型的第一后验概率、以及所述当前帧隶属于所述非语音模型的第二后验概率。第二处理模块用于判断所述第一后验概率和第二后验概率是否满足预设条件，当满足预设条件时，确定所述当前帧为噪音帧，否则，确定所述当前帧为语音帧。

另外，在上述电话录音数据的处理系统中，异常数据检测单元3包括平均幅度计算子单元、第三处理子单元、第四处理子单元和第五处理子单元。

其中，平均幅度计算子单元，用于计算所述语音数据的平均幅度。第三处理子单元，用于比较所述平均幅度和第四门限值，在所述平均幅度小于第四门限值时，确定所述语音数据为异常数据。第四处理子单元，用于在所述平均幅度大于或等于所述第四门限值时，确定所述语音数据中发生截幅的语音帧的数量，计算所述发生截幅的语音帧的数量与所述语音数据中语音帧总量之间的比值，并在所述比值大于第五门限值时，确定所述语音数据为异常数据。第五处理子单元，用于在所述比值小于或等于所述第五门限值时，计算所述语音数据的信噪比，并在所述信噪比低于第六门限值时，确定所述语音数据为异常数据，在所述信噪比高于或等于所述第六门限值时，确定所述语音数据未发生异常。

端点检测单元1的工作过程请参见前文中关于图2和图3的记载，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种电话录音数据的处理方法，其特征在于，包括：

对输入的源录音数据进行端点检测，获取有声数据；

2.根据权利要求1所述的方法，其特征在于，判断所述有声数据是否为无效数据的步骤，包括：

确定所述有声数据中噪音帧的总量；

3.根据权利要求1所述的方法，其特征在于，判断所述有声数据是否为无效数据的步骤，包括：

步骤S23：将所述噪音帧的数量加1；

步骤S25：确定所述有声数据为无效数据；

步骤S27：确定所述有声数据中当前帧的下一帧为新的当前帧，执行步骤S22；

步骤S28：确定所述有声数据为语音数据。

4.根据权利要求2或3所述的方法，其特征在于，判断所述当前帧是否为噪音帧的步骤，包括：

5.根据权利要求2或3所述的方法，其特征在于，判断所述当前帧是否为噪音帧的步骤，包括：

提取所述当前帧的声学特征矢量；

6.根据权利要求2或3所述的方法，其特征在于，判断所述当前帧是否为噪音帧的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，所述判断所述语音数据是否为音量异常数据的步骤，包括：

步骤S31：计算所述语音数据的平均幅度；

步骤S35：计算所述语音数据的信噪比；

步骤S36：判断所述信噪比是否低于第六门限值，若是，则执行步骤S38；否则，执行步骤S37；

步骤S37：确定所述语音数据未发生异常；

步骤S38：确定所述语音数据为异常数据。

8.一种电话录音数据的处理系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，

所述无效数据检测单元包括：

或者，

所述无效数据检测单元包括：

10.根据权利要求9所述的系统，其特征在于，

或者，

11.根据权利要求8、9或10所述的系统，其特征在于，所述异常数据检测单元包括平均幅度计算子单元、第三处理子单元、第四处理子单元和第五处理子单元；

平均幅度计算子单元，用于计算所述语音数据的平均幅度；

第五处理子单元，用于在所述比值小于或等于所述第五门限值时，计算所述语音数据的信噪比，并在所述信噪比低于第六门限值时，确定所述语音数据为异常数据，在所述信噪比高于或等于所述第六门限值时，确定所述语音数据未发生异常。