CN103716470B

CN103716470B - 语音质量监控的方法和装置

Info

Publication number: CN103716470B
Application number: CN201210375963.0A
Authority: CN
Inventors: 肖玮; 马付伟; 许丽净
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-09-29
Filing date: 2012-09-29
Publication date: 2016-12-07
Anticipated expiration: 2032-09-29
Also published as: EP2884493A4; EP2884493A1; US20150179187A1; CN103716470A; EP2884493B1; WO2014048127A1

Abstract

一种语音质量监控的方法和装置，解决了使用较低的成本，对较长的音频信号进行合理的语音质量监控的难题。方法包括：从输入的信号中截取一个或多个语音信号段；对每个语音信号段进行语段分割，获得一个或多个语段；对语段进行语音质量评估，根据语音质量评估获得质量评估结果。与方法对应的装置包括分类单元、语段分割单元、质量评估单元上述技术方案，通过对输入的信号进行信号分类；对分类后截取的语音信号段进行语段分割；以分割后的语段为单位进行语音质量评估，由于分割后的语段仅包含语音信号且比输入信号短，可以使用较低的成本，对较长的音频信号进行合理的语音质量监控，从而获得更精确的语音质量评估结果。

Description

语音质量监控的方法和装置

技术领域

本发明涉及音频技术领域，更具体地涉及语音质量监控的方法和装置。

背景技术

在音频技术研究领域，应用户或技术供应方的需求，需要反映相关音频技术的好与坏，也就是需要进行语音质量监控，并输出质量评估结果。

然而，基于不同技术的质量评估方法或装置存在如下问题。例如，对于待评估的音频信号有长度要求，例如不超过20秒。或者，对于较长的待评估的音频信号需要一次性输入，增加了评估装置的硬件成本。这些问题使得如何使用较低的成本，对较长的音频信号进行合理的语音质量监控成为一个难题。

发明内容

有鉴于此，本发明实施例提供一种语音质量监控的方法和装置，以解决使用较低的成本，对较长的音频信号进行合理的语音质量监控的难题。

第一方面，提供了一种语音质量监控的方法，包括：从输入的信号中截取一个或多个语音信号段；对每个语音信号段进行语段分割，获得一个或多个语段；对语段进行语音质量评估，根据语音质量评估获得质量评估结果。

在第一种可能的实现方式中，根据语音活跃度对每个所述语音信号段进行语段分割，获得一个或多个语段，所述语音活跃度表示语音信号段中每一帧语音信号的活跃性；或将每个所述语音信号段进行分段，获得一个或多个语段，每个语段的长度等于一个固定时长。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，分析语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将语音信号段分割成一个或多个语段。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，分析语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将语音信号段分割成一个或多个语段；确定分割后相邻的两个语段的状态切换点之间的时长T；将时长T与门限阈值比较，根据比较结果，调整两个语段的各自时长，获得调整时长后的语段，对语段进行语音质量评估包括：对调整时长后的语段进行质量评估。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，当时长T大于门限阈值时，将前一个语段的结束位置由原状态切换点向后延长0.5倍门限阈值；将后一个语段的开始位置由原状态切换点向前延长0.5倍门限阈值；或当时长T小于等于门限阈值时，将前一个语段的结束位置由原状态切换点延长0.5*T时长；将后一个语段的开始位置由原状态切换点向前延长0.5*T时长。

结合第一方面或第一方面的上述可能的实现方式，在第五种可能的实现方式中，以单位时间对输入的信号进行分割，获得多个单位时间的输入的信号；通过分析单位时间的输入的信号，确定单位时间的输入的信号为语音信号或非语音信号；将确定为语音信号的单位时间的输入的信号作为语音信号段。

结合第一方面或第一方面的上述可能的实现方式，在第六种可能的实现方式中，对语段进行非侵入式质量评估，获得质量评估结果。

第二方面，提供了一种语音质量检测的装置，包括分类单元、语段分割单元、质量评估单元：信号分类单元用于从输入的信号中截取一个或多个语音信号段，并发送到语段分割单元；语段分割单元用于对从信号分类单元接收的每个语音信号段进行语段分割，获得一个或多个语段，并发送到质量评估单元；质量评估单元用于对从语段分割单元接收的语段进行语音质量评估，根据语音质量评估获得质量评估结果。

在第一种可能的实现方式中，语段分割单元用于根据语音活跃度对每个语音信号段进行语段分割，获得一个或多个语段，所述语音活跃度表示语音信号段中每一帧语音信号的活跃性；或语段分割单元，用于将每个语音信号段进行分段，获得一个或多个语段，每个语段的长度等于一个固定时长。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，语段分割单元包括：语音活跃度检测单元，语音活跃度检测单元用于分析语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将语音信号段分割成一个或多个语段。

结合第二方面的第一种可能的实现方式，在第三种可能的实现方式中，语段分割单元包括语音活跃度检测单元和时长确定单元：语音活跃度检测单元用于分析语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将语音信号段分割成一个或多个语段；时长确定单元用于确定相邻的两个语段的状态切换点之间的时长T；将时长T与门限阈值比较，根据比较结果，调整两个语段的各自时长，获得调整时长后的语段，并将调整时长后的语段发送给质量评估单元；质量评估单元，用于对时长确定单元调整时长后的语段进行语音质量评估，根据语音质量评估获取质量评估结果。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，时长确定单元具体用于：当时长T大于门限阈值时，将前一个语段的结束位置由原状态切换点向后延长0.5倍门限阈值；将后一个语段的开始位置由原状态切换点向前延长0.5倍门限阈值；或当时长T小于等于门限阈值时，将前一个语段的结束位置由原状态切换点延长0.5*T时长；将后一个语段的开始位置由原状态切换点向前延长0.5*T时长。

结合第二方面或第二方面的上述可能的实现方式，在第五种可能的实现方式中，信号分类单元具体用于：以单位时间对输入的信号进行分割，获得多个单位时间的输入的信号；通过分析单位时间的输入的信号，确定单位时间的输入的信号为语音信号或非语音信号；将确定为语音信号的单位时间的输入的信号作为语音信号段。

结合第二方面或第二方面的上述可能的实现方式，在第六种可能的实现方式中，质量评估单元用于对语段进行非侵入式质量评估，获得质量评估结果。

上述技术方案，通过对输入的信号截取语音信号段，对于语音信号段进行语段分割；以分割后的语段为单位进行语音质量评估，由于分割后的语段仅包含语音信号且比输入信号短，可以使用较低的成本，对较长的音频信号进行合理的语音质量监控，从而获得更精确的语音质量评估结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1的语音质量监控的方法的示意流程图。

图2是本发明实施例2的信号分类的方法的示意流程图。

图3是本发明实施例3的语段分割的方法的示意流程图。

图4是本发明实施例4的两个语段的示意图。

图5A和图5B是本发明实施例5的语段分割算法的示意图。

图6是本发明实施例6的非侵入式质量评估方法的示意流程图。

图7A和图7B是本发明实施例7的语音质量监控的装置的示意框图。

图8是本发明实施例8的语音质量监控的装置的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明实施例所涉及的技术主要是通过分析语音信号，预测出人的主观体验。一种应用场景例如将使用本发明实施例技术方案的装置嵌入到移动电话中、或移动电话使用本发明实施例的技术方案，对通话中的语音质量进行评估。具体地，对于通话中的一侧移动电话，其接收到码流后通过解码，可以重构出语音信号；将该语音信号作为本发明实施例的输入的语音信号，可以获得接收到的语音的质量；该语音质量基本反映出用户真实听到的语音质量。因此，通过在移动电话中使用本发明实施例所涉及的技术方案，可以有效地评估出人的主观感受。

此外一般地，语音数据需要通过网络中的若干节点后，才能传递到接收方。由于一些因素影响，在经过网络传递后，语音质量有可能下降。因此，检测网络侧各节点的语音质量是非常有意义的。然而，现有很多方法更多地反映了传输层面的质量，并不一一对应于人的真实感受。因此，可以考虑将本发明实施例所述的技术方案应用到各网络节点，同步地进行质量预测，找到质量瓶颈。例如：对于任意网络结果，我们通过分析码流，选择特定的解码器，对码流进行本地解码，重构出语音信号；将该语音信号作为本发明实施例的输入的语音信号，可以获得该节点的语音质量；通过对比不同节点的语音质量，我们可以定位出质量需要改进的节点。因此，此应用对于运营商进行网优可以起到重要的辅助作用。

在网络上传输的信号多种多样。例如一路通话，在接通时有彩铃声（音乐）；有主叫的说话声；当主叫不说话时，会存在长度不定的静音等。一路通话的长度是不可预知的，对于固定的评估模型，用于质量评估处理的数据量具备不确定性。此外，因为人说话过程中需要停顿或静音，一般长度为5s左右。语音质量评估方法应该是当说话人停顿时，立即打出上一段的质量评估结果。

上述输入的待评估的音频信号可以是实时的，也可以是非实时的。然而，对于输入的音频信号较长时，例如几分钟甚至更长，现有技术需要将上述音频信号一次输入，增加了硬件成本的同时，对于实时的应用场景无法实现快速评估，而对于非实时的应用场景仅给出一个评估结果不够合理。

针对上述问题本发明实施例提供了一种语音质量监控的方法和装置。

图1是本发明实施例1的语音质量监控的方法的示意流程图，包括以下内容。

S11，从输入的信号中截取一个或多个语音信号段。

对输入的信号，得到一个或多个语音信号段。通常，作为输入的信号的一段音频信号可以包括语音信号和非语音信号。非语音信号例如音乐等。可选的，通过对输入的信号进行分类，可以对分类后的信号分别进行质量评估。质量评估通常是对语音信号进行打分。因此，从该步骤中可以截取有用的语音信号，同时去除无关信号例如音乐等，由此优化也就是精简了待评估的数据量

S12，对每个语音信号段进行语段分割，获得一个或多个语段。

对每一个语音信号段进行进一步的分割，获得语段（英文为Voicesegment）。可选的，所获得的语段作为考虑了静音或停顿等因素后更为合理的语音评估的单位。

S13，对语段进行语音质量评估，根据语音质量评估获得质量评估结果。

可以采用各种非侵入式话音质量评估的方法，更利于对网络中实时输入的信号进行语音质量监控。

当输入的信号为连续的，例如网络中实时的信号，根据本发明实施例的技术方案可以支持不间断的网络质量监控。

本发明实施例提供了语音质量监控的方法，通过对输入的信号截取语音信号段，对于语音信号段进行语段分割；以分割后的语段为单位进行语音质量评估，由于分割后的语段仅包含语音信号且比输入信号短，可以使用较低的成本，对较长的音频信号进行合理的语音质量监控，从而获得更精确的语音质量评估结果。

可选的，作为不同的实施例，所述对每个所述语音信号段进行语段分割，获得一个或多个语段，包括：根据语音活跃度对每个所述语音信号段进行语段分割，获得一个或多个语段，所述语音活跃度表示语音信号段中每一帧语音信号的活跃性；或将每个所述语音信号段进行分段，获得一个或多个语段，每个语段的长度等于一个固定时长。可选的，作为不同的实施例，所述对每个所述语音信号段进行语段分割，获得一个或多个语段，包括：分析所述语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将所述语音信号段分割成一个或多个语段。

一个实施例中，按照语音活跃度将语音信号段分割为一个或多个语段，具体包括：分析所述语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将所述语音信号段分割成一个或多个语段。这个实施例中，每个语段仅包含活跃的时长。通过去除语音段中所有连续的非活跃帧，仅对活跃帧做分析，可以使用较低成本获得较为精确的语音质量评估结果。

另一个实施例中，按照语音活跃度分割为一个或多个语段后，确定相邻的两个语段的状态切换点之间的时长T；将时长T与门限阈值比较，根据比较结果调整两个语段的各自时长，将调整时长后的语段作为语音质量评估的语段。其中所述对所述语段进行语音质量评估，获得质量评估结果，具体包括对所述调整时长后的所述语段进行语音质量评估，获得质量评估结果。这个实施例中，每个语段中包括一个有起始的活跃的时长和部分非活跃的时长。通过对活跃帧构成的语段增加一部分静音构成语段，可以使得语音质量评估更为平稳。

可选的，作为不同的实施例，将所述时长T与门限阈值比较，根据所述比较结果，则调整所述两个语段的各自时长，获得调整时长后的所述语段，包括：当所述时长T大于门限阈值时，将前一个所述语段的结束位置由原状态切换点向后延长0.5倍门限阈值；将后一个所述语段的开始位置由原状态切换点向前延长0.5倍门限阈值；或当所述时长T小于等于门限阈值时，将前一个所述语段的结束位置由原状态切换点延长0.5*T时长；将后一个所述语段的开始位置由原状态切换点向前延长0.5*T时长。

可选的，作为不同的实施例，所述对输入的信号进行信号分类，截取多个语音信号段，包括：以单位时间对所述输入的信号进行分割，获得多个单位时间的所述输入的信号；通过分析所述单位时间的所述输入的信号，确定所述单位时间的所述输入的信号为语音信号或非语音信号；将确定为语音信号的所述单位时间的所述输入的信号作为所述语音信号段。

可选的，作为不同的实施例，所述对所述语段进行语音质量评估，获得质量评估结果，包括：对所述语段进行非侵入式质量评估，获得质量评估结果。

在现网中，接收到信号种类多种多样。例如一路通话，在接通时有彩铃声，也就是音乐、有主叫的说话声、当主叫不说话时还会存在长度不定的静音等。现有技术中非侵入式质量评估标准主要是用于语音，对音乐等其它类型的评估能力还不足。因此，当为了做到不间断的实时质量监控，则需要剔除无关信号例如非语音信号，有针对性地预测语音信号的质量，从而达到准确的监控效果。

经典的信号分类，一般会把信号分成语音和音乐两类。虽然是进行逐帧地分析，但在实际应用中，信号分类方法均考虑到了一定时间内信号分类的平稳性，避免频繁地出现切换。实验表明，频繁地切换模式，对语音传输有很大的影响。一个极端的例子是奇数帧判决为语音，偶数帧判决为音乐，这种不稳定性不仅影响编码、传输，也影响质量监控的实现。

因此，为了避免频繁的模式切换，实际应用中一般是在一段时间内，例如以秒为单位的时间内，分类结果是一致的。

信号分类的方法有很多，作为优选的实施例，可以通过音调特性例如音调的个数、分布规律等进行信号分类。图2示出本发明实施例2的信号分类的方法的示意流程图，包括以下内容。

S21，以单位时间对输入的信号进行分割，获得一个或多个单位时间的输入的信号。

接下来，通过分析单位时间的输入的信号，确定单位时间的输入的信号为语音信号或非语音信号。

在该步骤中本发明优选地实施例是通过提取单位时间的输入的信号的音调特性例如音调分量的个数、分布规律等来确定该单位时间的输入的信号为语音信号或非语音信号。

S22，针对每一个单位时间的输入的信号，确定其包括的音调分量个数的均值是否相对较大。与阈值比较，如果音调分量个数的均值相对较大，即S22的判断结果为“是”，则执行S23。反之，即S22的判断结果为“否”，则执行S24。

S23，确定该单位时间的输入的信号为非语音信号。

S24，针对每一个单位时间的输入的信号，确定其音调分量在低频的分布比率是否相对较小。与阈值比较，如果音调分量在低频的分布比率相对较小，即S24的判断结果为“是”，则执行S23。反之，即S24的判断结果为“否”，则执行S25。

S25，确定该单位时间的输入的信号为语音信号，将该单位时间的输入的信号作为语音信号段用于后续的处理。

本发明实施例通过剔除输入的信号中的无关信号，即非语音信号，可以有针对性地对语音信号进行语音质量评估，从而达到准确的监控效果。

可选的，将每个语音信号段进行分段，获得一个或多个语段，每个语段的长度等于一个固定时长。然而，经信号分类，在现网中截取出的一段语音信号段可能包含多个部分，例如：人在8秒中的时间内说了两段短语，且短语间有一定的停顿。因此，为了更精细的分析，需要对截出的语音信号做语段分割，更客观的质量评估方法是分离出一个或多个语段，分别对每一个语段进行打分。因此，可选的，作为不同的实施例，根据语音活跃度对每个所述语音信号段进行语段分割，获得一个或多个语段，所述语音活跃度表示语音信号段中每一帧语音信号的活跃性。对通过语音活跃度分析获得的语段进行语音质量评估，得到的评估结果更精确。图3是本发明实施例3的语段分割的方法的示意流程图。

S31，分析语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将语音信号段分割成一个或多个语段。

图4是本发明实施例4的两个语段的示意图。如图4所示，根据语音活跃度（英文为Voice Activity），起止时间为[T0，T1]的语音信号段分割成两个语段41、42，起始时间分别为[T0，T’]和[T’,T1]。语段分割可以采用现有技术的VAD（英文为Vocie Activity Detection，中文为语音活跃度检测）技术。

针对语段分割的VAD检测技术可以大致分成两个步骤：

步骤1：将语音信号段逐帧地标识出每一帧是活跃或非活跃。现有技术中的一般方法是通过计算每一帧的能量、频谱等信息，并与阈值进行比较来确定每帧的活跃度。当小于阈值时，定义为非活跃；反之，定义为活跃。

步骤2：在实现过程中，为避免频繁地出现活跃到非活跃、或非活跃到活跃的切换，会进行平滑出现，确保一段时间内的状态是一致的。

因此，当出现状态切换时，就将当前帧标识为一语段的开始或结束。具体地，当出现非活跃到活跃的切换，语段状态切换点标识为开始；当出现活跃到非活跃的切换，语段状态切换点标识为结束。

因此，每个语段中包括由一对语段状态切换点限定的从开始到结束的时长，状态为活跃；以及该时长之前或之后为了平滑过渡的一段时长，状态为非活跃。

S32，确定分割后语段个数是否大于1。当语段的个数为1，即S32的判断结果为“是”，则执行S37。反之，即S32的判断结果为“否”，则执行S33。

作为一种实现方式，接下来可以对分割后的语段例如图4中的41和42逐个进行语音质量评估，获得质量评估结果。但本发明实施例提供了一个更优选的方法，说明如下。

S33，确定分割后相邻的两个语段的状态切换点之间的时长T。

从图4中还可以看到，两个语段41、42的状态切换点之间仍然有一定的时长T，如图中的43，可能是长时间的静音。对包括长时间的静音的语段进行质量分析使得语音质量监控的结果不够精确。为了更精细的分析，本发明实施例优选地通过将时长T与门限阈值比较，根据比较结果，调整两个语段的各自时长，获得调整时长后的上述语段，对上述调整时长后的语段进行语音质量评估，获得质量评估结果。

S34，比较时长T与门限阈值大小。如果时长T大于门限阈值时，即S34的判断结果为“是”，则执行S35。如果时长T小于等于门限阈值时，即S34的判断结果为“否”，则执行S36。

S35，当时长T大于门限阈值时，前一个语段的结束位置，由原状态切换点向后延长0.5倍门限阈值；后一个语段的开始位置，由原状态切换点向前延长0.5倍门限阈值，获得调整时长后的两个语段，随后执行S37。

图5A和图5B是本发明实施例5的语段分割算法的示意图。为了说明方便，其中B10等价于图4的T0，B21等价于图4的T1，时长[B10,B21]即为一个语音信号段。该语音信号段经过VAD检测，确定以下时长[B10,T10]、[T11,T20]和[T21,B21]的语音活跃度为0，即状态为非活跃。时长[T10,T11]和[T20,T21]的语音活跃度为1，即状态为活跃。

举例来说，参考图5A，经过上述VAD检测，对于[B10,B21]间，我们获得两个相对独立的语段51、52，其中语段51的起止时间为[B10，B11]，语段52的起止时间为[B20，B21]。当第一个语段状态切换点T11和第二个语段状态切换点T20的间距小于等于一个经验阈值THD，例如：450ms时，本发明认为以上两个语段是相邻的。因此，分别对[B10,B11]和[B20,B21]两个语段进行质量评估。需要注意的，B11和B20是重合点，且为T11和T20时刻间的中心点。

S36，当时长T小于等于门限阈值时，前一个语段的结束位置，由原状态切换点延长0.5*T时长；后一个语段的开始位置，由原状态切换点向前延长0.5*T时长，获得调整时长后的两个语段，随后执行S37。

举例来说，参考图5B，经过上述VAD检测，对于[B10,B21]间，我们获得两个相对独立的语段51、52，其中语段51的起止时间为[B10，B11]，语段52的起止时间为[B20，B21]。当第一个语段状态切换点T11和第二个语段状态切换点T20的间距大于一个经验阈值（例如：450ms）时，本发明认为以上两个语段是非相邻的，中间存在大段的静音。对于静音，进行质量评估没有任何的意义。因此，分别指定[T11,B11]和[B20,T20]的长度为0.5*THD后，分别对[B10,B11]和[B20,B21]两个语段进行质量评估；[B11,B20]之间定义为绝对静音段，无需进行质量评估。需要注意的，B11和B20不是重合点。

S37，对调整了时长后的语段进行语音质量评估，获得质量评估结果。

当分割后的语段仅有一个时，则直接对该语段进行语音质量评估，获得质量评估结果。当分割后的语段有多个时，则对调整了时长的该语段进行语音质量评估，获得质量评估结果。

本发明实施例在对输入的信号进行语音分类的基础上，利用VAD检测，分割出进行质量评估更为客观的单位，即语段；此外，还对参与质量评估的语段进行了时长的优化，使得质量评估进一步精确。

现有技术包括侵入式质量评估方法和非侵入式质量评估方法。在主叫方，我们将编码前的信号定义为参考信号S_Ref，考虑到编码、以及后续传输对语音质量的负面影响，S_Ref一般是整个流程中的最优质量。对应地，我们定义经过解码后的信号定义为接收信号S_Deg，一般地，S_Deg质量次于S_Ref。从S_Ref分析到S_Deg，质量下降的主要因素包括：编码和传输等。侵入式质量方法中，根据S_Ref、S_Deg进行侵入式评估，输出语音质量评估的结果，即MOS-LQO（英文为Mean Opinion Score-Listening Quality Objectives，中文为平均意见分-听力质量目标）。非侵入式质量评估方法中，直接根据S_Deg进行非侵入式评估，输出语音质量评估的结果，即MOS-LQO。

在现网中，一般情况下，对于任意一个经过语音分类后分割得到的语段，进行语音质量评估时，很难获得参考信号S_Ref。因此，本发明实施例建议使用非侵入式质量评估方法，直接对失真后的信号，也就是S_Deg进行实时质量监控。特别地，对较长的或者不间断的输入信号，非侵入式质量评估方法可以做到实时输出语音质量评估结果。图6是本发明实施例6的非侵入式质量评估方法的示意流程图。非侵入式质量评估方法通常包括：预处理、听觉建模、特征提取、失真计算、质量评估等流程。非侵入式质量评估方法中，不同的技术在听觉建模、特征提取方面具有自身的独特性，但在本发明实施例中其输入仍是一段分割后得到的语段，输出则是介于1~5分的MOS-LQO，表征当前语段的质量。本发明实施例中的语段即为非侵入式质量评估方法中的接收信号S_Deg。

综上所述，本发明实施例中通过对输入的信号进行信号分类；对分类后截取的语音信号段进行语段分割；以分割后的语段为单位或进一步以调整了时长的语段为单位进行语音质量评估，由于分割后的语段仅包含语音信号且比输入信号短，可以使用较低的成本，对较长的音频信号进行合理的语音质量监控，从而获得更精确的语音质量评估结果。

图7A是本发明实施例7的语音质量监控的装置70的示意框图。装置70包括：信号分类单元71、语段分割单元单元72和质量评估单元73。

信号分类单元71从输入的信号中截取一个或多个语音信号段，并发送到所述语段分割单元；

语段分割单元72对从所述信号分类单元71接收的每个所述语音信号段进行语段分割，获得一个或多个语段，并发送到所述质量评估单元；

作为不同的实施例，可选的，语段分割单元72根据语音活跃度对每个语音信号段进行语段分割，获得一个或多个语段；可选的，语段分割单元72将每个语音信号段进行分段，获得一个或多个语段，每个语段的长度等于一个固定时长。

质量评估单元73对从所述语段分割单元72接收的所述语段进行语音质量评估，获得质量评估结果。

作为不同的实现方式，图7B是本发明实施例7的语音质量监控的装置70的另一示意框图。与图7A的装置70不同的是，图7B中的语段分割单元72包括语音活跃度检测单元721，或者语段分割单元72包括语音活跃度检测单元721和时长确定单元722。

作为不同的实施例，可选的，语音活跃度检测单元721具体分析所述语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将所述语音信号段分割成一个或多个语段。得到的一个或多个语段用于语音质量评估。

作为不同的实施例，可选的，语音活跃度检测单元721分析所述语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将所述语音信号段分割成一个或多个语段；时长确定单元722确定相邻的所述两个语段的状态切换点之间的时长T；将所述时长T与门限阈值比较，根据比较结果，调整所述两个语段的各自时长，获得调整时长后的语段作为语音质量评估的所述语段获得。

作为不同的实施例，可选的，时长确定单元具体当所述时长T大于门限阈值时，将前一个所述语段的结束位置由原状态切换点向后延长0.5倍门限阈值；将后一个所述语段的开始位置由原状态切换点向前延长0.5倍门限阈值；或当所述时长T小于等于门限阈值时，将前一个所述语段的结束位置由原状态切换点延长0.5*T时长；将后一个所述语段的开始位置由原状态切换点向前延长0.5*T时长。

作为不同的实施例，可选的，信号分类单元具体以单位时间对所述输入的信号进行分割，获得多个单位时间的所述输入的信号；通过分析所述单位时间的所述输入的信号，确定所述单位时间的所述输入的信号为语音信号或非语音信号；将确定为语音信号的所述单位时间的所述输入的信号作为所述语音信号段。

作为不同的实施例，可选的，质量评估单元对所述语段进行非侵入式质量评估，获得质量评估结果。

装置70可以实现本发明实施例1至6任一语音质量监测的方法，出于简洁，具体细节参考实施例1至6的说明，此处不再赘述。

本发明实施例中通过对输入的信号进行信号分类；对分类后截取的语音信号段进行语段分割；以分割后的语段为单位或进一步以调整了时长的语段为单位进行语音质量评估，由于分割后的语段仅包含语音信号且比输入信号短，可以使用较低的成本，对较长的音频信号进行合理的语音质量监控，从而获得更精确的语音质量评估结果。

图8是本发明实施例8的语音质量监控的装置80的示意框图。装置80包括处理器81和存储器82。处理器81和存储器82通过总线相连。

存储器82用于存储使得处理器81执行以下操作的指令：从输入的信号中截取一个或多个语音信号段；对每个所述语音信号段进行语段分割，获得一个或多个语段；对所述语段进行语音质量评估，根据语音质量评估获得质量评估结果，还可以用于存储上述操作的数据和结果。

处理器81用于从输入的信号中截取一个或多个语音信号段；对每个所述语音信号段进行语段分割，获得一个或多个语段；对所述语段进行语音质量评估，根据语音质量评估获得质量评估结果。

本发明实施例提供了语音质量监控的方法，通过对输入的信号进行分类，将分类后的信号再次进行语段分割，通过对分割后的语段进行质量评估，能够实现使用较低的成本，对较长的音频信号进行合理的语音质量评估，从而获得更精确的语音质量评估结果。

处理器141还可以称为CPU（Central Processing Unit，中央处理单元）。存储器142可以包括只读存储器和随机存取存储器，并向处理器141提供指令和数据。存储器142的一部分还可以包括非易失性随机存取存储器（NVRAM）。

上述本发明实施例揭示的方法可以应用于处理器81中，或者由处理器81实现。处理器81可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器81中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器81可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器82，处理器81读取存储器82中的信息，结合其硬件完成上述方法的步骤。

可选的，作为不同的实施例，处理器根据语音活跃度对每个语音信号段进行语段分割，获得一个或多个语段，所述语音活跃度表示语音信号段中每一帧语音信号的活跃性；或将每个语音信号段进行分段，获得一个或多个语段，每个语段的长度等于一个固定时长。

可选的，作为不同的实施例，处理器具体分析所述语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将所述语音信号段分割成一个或多个语段。

可选的，作为不同的实施例，处理器分析所述语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将所述语音信号段分割成一个或多个语段；确定相邻的所述两个语段的状态切换点之间的时长T；将所述时长T与门限阈值比较，根据比较结果，则调整所述两个语段的各自时长，获得调整时长后的所述语段作为语音质量评估的语段获得。

可选的，作为不同的实施例，处理器当所述时长T大于门限阈值时，将前一个所述语段的结束位置由原状态切换点向后延长0.5倍门限阈值；将后一个所述语段的开始位置由原状态切换点向前延长0.5倍门限阈值；或当所述时长T小于等于门限阈值时，将前一个所述语段的结束位置由原状态切换点延长0.5*T时长；将后一个所述语段的开始位置由原状态切换点向前延长0.5*T时长。

可选的，作为不同的实施例，处理器以单位时间对所述输入的信号进行分割，获得多个单位时间的所述输入的信号；通过分析所述单位时间的所述输入的信号，确定所述单位时间的所述输入的信号为语音信号或非语音信号；将确定为语音信号的所述单位时间的所述输入的信号作为所述语音信号段。

可选的，作为不同的实施例，处理器对所述语段进行非侵入式质量评估，获得质量评估结果。

装置80可以实现本发明实施例1至6任一语音质量监测的方法，出于简洁，具体细节参考实施例1至6的说明，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音质量监控的方法，其特征在于，包括：

从输入的信号中截取一个或多个语音信号段；分析所述语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将所述语音信号段分割成一个或多个语段，其中，所述语音活跃度表示语音信号段中每一帧语音信号的活跃性；

确定相邻的两个所述语段的相邻的状态切换点之间的时长T，其中，所述状态切换点为所述语段的开始帧或结束帧；

将所述时长T与门限阈值比较，根据比较结果调整所述相邻的两个所述语段的各自时长，获得调整时长后的语段；

对所述调整时长后的语段进行质量评估，根据所述语音质量评估获得质量评估结果。

2.根据权利要求1所述的方法，其特征在于，将所述时长T与门限阈值比较，根据比较结果调整所述相邻的两个所述语段的各自时长包括：

当所述时长T大于门限阈值时，将前一个语段的结束位置由原状态切换点向后延长0.5倍门限阈值；将后一个语段的开始位置由原状态切换点向前延长0.5倍门限阈值；或

当所述时长T小于等于门限阈值时，将前一个语段的结束位置由原状态切换点延长0.5*T时长；将后一个语段的开始位置由原状态切换点向前延长0.5*T时长。

3.根据权利要求1或2所述的方法，其特征在于，所述从输入的信号中截取一个或多个语音信号段，包括：

以单位时间对所述输入的信号进行分割，获得多个单位时间的所述输入的信号；

通过分析所述单位时间的所述输入的信号，确定所述单位时间的所述输入的信号为语音信号或非语音信号；

将确定为语音信号的所述单位时间的所述输入的信号作为所述语音信号段。

4.根据权利要求1所述的方法，其特征在于，所述对所述调整时长后的语段进行质量评估，根据所述语音质量评估获得质量评估结果，包括：

对所述调整时长后的语段进行非侵入式质量评估，获得质量评估结果。

5.一种语音质量监控的装置，其特征在于，包括信号分类单元、语段分割单元、质量评估单元：

所述信号分类单元，用于从输入的信号中截取一个或多个语音信号段，并发送到所述语段分割单元；

所述语段分割单元，用于根据语音活跃度对每个所述语音信号段进行语段分割，获得一个或多个语段，并发送到所述质量评估单元，所述语音活跃度表示语音信号段中每一帧语音信号的活跃性；

其中，所述语段分割单元包括语音活跃度检测单元和时长确定单元：

所述语音活跃度检测单元，用于分析所述语音信号段每帧的语音活跃度，连续的活跃帧作为一个语段，将所述语音信号段分割成一个或多个语段；

所述时长确定单元，用于确定相邻的两个所述语段的相邻的状态切换点之间的时长T，其中，所述状态切换点为所述语段的开始帧或结束帧；将所述时长T与门限阈值比较，根据比较结果，调整所述相邻的两个所述语段的各自时长，获得调整时长后的语段，并将调整时长后的语段发送给质量评估单元；质量评估单元，用于对所述时长确定单元调整时长后的语段进行语音质量评估，根据所述语音质量评估获得质量评估结果。

6.根据权利要求5所述的装置，其特征在于，所述时长确定单元具体用于：

当所述时长T大于门限阈值时，将前一个语段的结束位置由原状态切换点向后延长0.5倍门限阈值；将后一个所述语段的开始位置，由原状态切换点向前延长0.5倍门限阈值；或

当所述时长T小于等于门限阈值时，将前一个语段的结束位置，由原状态切换点延长0.5*T时长；将后一个语段的开始位置，由原状态切换点向前延长0.5*T时长。

7.根据权利要求5或6所述的装置，其特征在于，所述信号分类单元具体用于：

8.根据权利要求5所述的装置，其特征在于：

所述质量评估单元用于对所述语段进行非侵入式质量评估，获得质量评估结果。