CN108074587A

CN108074587A - 检测通话断续的方法和装置

Info

Publication number: CN108074587A
Application number: CN201611024940.XA
Authority: CN
Inventors: 卢宇逍; 殷兵; 祁俊杰; 顾龙
Original assignee: Shanghai Xunfei Information Technology Co Ltd Rui Yuan
Current assignee: Shanghai Xunfei Information Technology Co Ltd Rui Yuan
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2018-05-25
Anticipated expiration: 2036-11-16
Also published as: CN108074587B

Abstract

本申请提出一种检测通话断续的方法和装置，该方法包括：对语音数据进行解码，得到所述语音数据对应的语音信号；对所述语音信号进行采样，得到采样语音信号；确定所述采样语音信号处于的声音状态，所述声音状态包括：有声状态或无声状态；根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果。该方法能够更准确全面地评价通话断续问题。

Description

检测通话断续的方法和装置

技术领域

本申请涉及语音数据处理技术领域，尤其涉及一种检测通话断续的方法和装置及系统。

背景技术

现代生活中移动电话的普及和应用给人们带来了极大的便利，随着城市的发展和使用者的增加，人们在实际使用中经常会遇到一些诸如吞字、断续等影响感知的现象，造成用户感知度下降，通信运营商花费了大量的精力开展通话质量保障。

相关技术中，通信运营商对于吞字、断续等通话问题判断方法主要是采用RTP丢包率拟合的方法，当丢包率达到一定程度即判为断续。但是，通话断续不一定是由丢包造成的，例如，终端编解码问题、协议错误等原因也会导致断续现象。因此，相关技术中的方法存在较大的局限性，无法做到准确、全面地评估通话断续问题。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种检测通话断续的方法，该方法可以更准确全面地评价通话断续问题。

本申请的另一个目的在于提出一种检测通话断续的装置。

为达到上述目的，本申请第一方面实施例提出的检测通话断续的方法，包括：对语音数据进行解码，得到所述语音数据对应的语音信号；对所述语音信号进行采样，得到采样语音信号；确定所述采样语音信号处于的声音状态，所述声音状态包括：有声状态或无声状态；根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果。

本申请第一方面实施例提出的检测通话断续的方法，通过对语音信号本身进行分析以确定是否存在通话断续，可以避免丢包检测方式存在的局限问题，并且对语音信号本身进行分析更契合用户实际体验，从而更准确全面地评价通话断续问题。

为达到上述目的，本申请第二方面实施例提出的检测通话断续的装置，包括：解码模块，用于对语音数据进行解码，得到所述语音数据对应的语音信号；采样模块，用于对所述语音信号进行采样，得到采样语音信号；状态确定模块，用于确定所述采样语音信号处于的声音状态，所述声音状态包括：有声状态或无声状态；结果确定模块，用于根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果。

本申请第二方面实施例提出的检测通话断续的装置，通过对语音信号本身进行分析以确定是否存在通话断续，可以避免丢包检测方式存在的局限问题，并且对语音信号本身进行分析更契合用户实际体验，从而更准确全面地评价通话断续问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的检测通话断续的方法的流程示意图；

图2是本申请另一个实施例提出的检测通话断续的方法的流程示意图；

图3是本申请实施例中计算采样语音信号的能量值的示意图；

图4是本申请一个实施例提出的检测通话断续的装置的结果示意图；

图5是本申请另一个实施例提出的检测通话断续的装置的结果示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一个实施例提出的检测通话断续的方法的流程示意图。

如图1所示，本实施例的方法包括：

S11：对语音数据进行解码，得到语音数据对应的语音信号。

根据网络传输协议的不同，语音数据可以基于相应的协议在网络中传输。

一些示例中，通话可以基于实时传输协议(Real-time Transport Protocol，RTP)传输，相应的，此时的语音数据是RTP码流。

在接收到RTP码流后，可以对其进行解码，得到与语音数据对应的语音信号。

S12：对所述语音信号进行采样，得到采样语音信号。

具体的，可以预设采样周期，每次采样长度为预设的采样周期的语音信号。采样周期例如为120ms。

S13：确定所述采样语音信号处于的声音状态，所述声音状态包括：有声状态或无声状态。

例如，对应每个采样语音信号，确定该采样语音信号处于的声音状态。

具体的，对应每个采样语音信号，可以计算该采样语音信号的能量值，如果计算得到的能量值小于能量阈值，则确定该采样语音信号处于的声音状态为无声状态，否则为有声状态。

S14：根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果。

通话断续结果可以包括如下项中的至少一项：

通话断续判定结果，通话断续次数、通话断续时长、通话断续占比。

其中，通话断续判定结果是指所述语音数据对应的本次通话是否存在断续；通话断续次数是指所述语音数据对应的整个通话存在的断续次数；通话断续时长是指断续发生的时长；通话断续占比是指整个通话中断续发生的总时长占通话总时长的比例。

通过对通话吞字、断续的特点进行分析，当声音中断大于或等于500毫秒(ms)时，可被人耳明显感知。因此，当检测到连续无声音状态的时长等于或近似等于500ms时，可以确定存在通话断续。

相应的，在确定通话断续判定结果时，可以将所述采样语音信号处于的声音状态与预设的断续规则进行比较，如果所述采样语音信号处于的声音状态满足预设的断续规则时，确定所述通话断续判定结果为存在通话断续，其中，所述断续规则包括：连续处于无声状态的采样语音信号的个数达到次数阈值；或者，连续处于无声状态的采样语音信号的总时长达到时间阈值。

上述的次数阈值为：500毫秒除以所述采样语音信号的采样周期得到的值向下取整后的值；上述的时间阈值为：500毫秒。

以依据次数阈值进行确定为例，具体可以包括：对采样语音信号处于的声音状态进行标识，例如，用0表示无声状态，用1表示有声状态，如果连续的0达到次数阈值，则可以确定出现一次通话断续。

上述的次数阈值可以与采样语音信号的长度有关。具体的，如上所示，当声音中断大于或等于500ms时，可被人耳明显感知。因此，可以对500ms除以采样语音信号的长度得到的值进行向下取整作为次数阈值。

例如，每个采样语音信号的长度为120ms，上述的次数阈值可以选为4，即当连续处于无声状态的采样语音信号的个数至少为4个时，则确定存在通话断续。

其余的通话断续结果的计算可以参见后续描述。

本实施例中，通过对语音信号本身进行分析以确定是否存在通话断续，可以避免丢包检测方式存在的局限问题，并且对语音信号本身进行分析更契合用户实际体验，从而更准确全面地评价通话断续问题。

图2是本申请另一个实施例提出的检测通话断续的方法的流程示意图。

如图2所示，本实施例的流程包括：

S201：获取断续规则。

例如，检测设备预先获取并存储由工作人员设置的断续规则。

本实施例以次数进行断续判定为例，以采样周期为120ms为例，则可以设置次数阈值为4，相应的，断续规则为：在连续处于无声状态的采样语音信号的个数达到4个时，确定存在通话断续。

S202：接收语音数据，并对语音数据进行解码，得到通过数据对应的语音信号。

例如，当基于RTP传输语音数据时，可以采用RTP协议进行相应解码，从而由码流形式的数据转换为波形形式的语音信号。具体解码方法可以采用现有或将来出现的技术实现，在此不再详述。

S203：对所述语音信号进行采样，得到采样语音信号。

例如，以120ms为采样周期，每次采样得到长度为120ms的采样语音信号。

S204：计算所述采样语音信号的能量值。

例如，采用语音活动检测(Voice Activity Detection，VAD)算法，计算采样语音信号的能量值。

具体的，参见为3，左侧为一个采样语音信号的波形示意图，计算该采样语音信号的能量值时，如图3右侧所示，可以先对其进行分帧，其中，每个分帧的长度是预设的，比如20ms；再计算每个分帧的短时平均能量；再对所有分帧的短时平均能量进行平均，得到该采样语音信号的能量值。用公式表示为：

假设采样语音信号的能量值用E_avg表示，每个分帧的短时平均能量用E_n(n＝1,2,…,N)表示，则

其中，N是分帧总数，每个分帧的短时平均能量E_n的计算公式为：

其中，M为每个分帧的总采样点数，x_n(m)是第n个分帧的第m个采样点的振幅值。每个分帧的总采样点数可以根据预设的采样率确定，比如预设的采样率是16K/秒，每个分帧长度为20ms，则M＝0.02*16000＝320。

S205：根据采样语音信号的能量值，确定采样语音信号处于的声音状态，所述声音状态包括：无声状态或有声状态。

例如，如果所述能量值小于能量阈值，则确定所述采样语音信号处于无声状态，否则处于有声状态。

S206：将所述采样语音信号处于的声音状态与断续规则比对，在所述采样语音信号处于的声音状态满足预设的断续规则时，确定存在通话断续，并记录通话断续次数。

例如，用0标识无声状态，1标识有声状态，依据本实施例上述的断续规则，则在每次存在连续4个0时，则确定存在一次通话断续。

通话断续次数的初始值设置为0，则每次发生一次通话断续，则将通话断续次数增加1。

S207：如果采样语音信号处于无声状态，则记录当前时间。

例如，将处于无声状态的采样语音信号的预设时间点作为当前时间，预设时间点例如为采样语音信号的起始时间、结束时间或者中间时间等。

S208：在确定发生通话断续后，根据记录的时间确定通话断续时长。

例如，在确定发生一次通话断续后，将该次通话断续对应的末次记录的时间与首次记录的时间的差值作为该次通话断续对应的时长。

S209：在整个通话结束后，获取记录的通话断续次数。

通过对通话断续次数进行记录，则可以获知整个通话共发生了多少次通话断续。

S210：在整个通话结束后，计算通话断续占比。

通过对每次通话断续对应的时长进行累加，可以得到通话断续的总时长，用通话断续的总时长除以整个通话的总时长，得到通话断续占比。

本实施例中，通过对语音信号本身进行分析以确定是否存在通话断续，可以避免丢包检测方式存在的局限问题，并且对语音信号本身进行分析更契合用户实际体验，从而更准确全面地评价通话断续问题。通过采用VAD技术，能够准确判断出无声或有声；通过设置合理的断续规则，可以对断续现象进行有效甄别，提高判断结果准确度。

图4是本申请一个实施例提出的检测通话断续的装置的结果示意图。

如图4所示，本实施例的装置40包括：解码模块41、采样模块42、状态确定模块43和结果确定模块44。

解码模块41，用于对语音数据进行解码，得到所述语音数据对应的语音信号；

采样模块42，用于对所述语音信号进行采样，得到采样语音信号；

状态确定模块43，用于确定所述采样语音信号处于的声音状态，所述声音状态包括：有声状态或无声状态；

结果确定模块44，用于根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果。

一些实施例中，参见图5，所述状态确定模块43包括：

能量计算子模块431，用于计算所述采样语音信号的能量值；

确定子模块432，用于在所述能量值小于能量阈值时，确定所述采样语音信号处于无声状态。

一些实施例中，所述能量计算子模块431具体用于：

采用VAD算法，计算所述采样语音信号的能量值。

一些实施例中，所述通话断续结果包括如下项中的至少一项：

一些实施例中，当所述通话断续结果包括通话断续判定结果时，所述结果确定模块44具体用于：

将所述采样语音信号处于的声音状态与预设的断续规则进行比较，如果所述采样语音信号处于的声音状态满足预设的断续规则时，确定所述通话断续判定结果为存在通话断续，其中，所述断续规则包括：连续处于无声状态的采样语音信号的个数达到次数阈值；或者，连续处于无声状态的采样语音信号的总时长达到时间阈值。

一些实施例中，所述次数阈值为：500毫秒除以所述采样语音信号的采样周期得到的值向下取整后的值；或者，

所述时间阈值为：500毫秒。

一些实施例中，当所述通话断续结果包括通话断续次数时，所述结果确定模块44具体用于：

根据所述采样语音信号处于的声音状态，确定存在通话断续时，则对初始值为0的通话断续次数进行加1运算，直至所述语音数据对应的整个通话结束时，累加得到通话断续次数。

一些实施例中，当所述通话断续结果包括通话断续时长时，所述结果确定模块44具体用于：

在确定所述采样语音信号处于无声状态时，记录当前时间；

在确定存在通话断续时，将记录的末次时间与首次时间之间的差值作为当前通话断续对应的通话断续时长。

一些实施例中，当所述通话断续结果包括通话断续占比时，所述结果确定模块44具体用于：

根据所述采样语音信号处于的声音状态，确定存在通话断续，且得到当前通话断续对应的通话断续时长时，将所述语音数据对应的整个通话中存在的通话断续对应的通话断续时长进行累加，得到通话断续总时长；

将通话断续总时长与所述整个通话的总时长的比值，作为通话断续占比。

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种检测通话断续的方法，其特征在于，包括：

对语音数据进行解码，得到所述语音数据对应的语音信号；

对所述语音信号进行采样，得到采样语音信号；

确定所述采样语音信号处于的声音状态，所述声音状态包括：有声状态或无声状态；

根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果。

2.根据权利要求1所述的方法，其特征在于，所述确定所述采样语音信号处于的声音状态，包括：

计算所述采样语音信号的能量值；

如果所述能量值小于能量阈值，则确定所述采样语音信号处于无声状态。

3.根据权利要求2所述的方法，其特征在于，所述计算所述采样语音信号的能量值，包括：

采用VAD算法，计算所述采样语音信号的能量值。

4.根据权利要求1所述的方法，其特征在于，所述通话断续结果包括如下项中的至少一项：

5.根据权利要求4所述的方法，其特征在于，当所述通话断续结果包括通话断续判定结果时，所述根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果，包括：

6.根据权利要求5所述的方法，其特征在于，

所述次数阈值为：500毫秒除以所述采样语音信号的采样周期得到的值向下取整后的值；或者，

所述时间阈值为：500毫秒。

7.根据权利要求4所述的方法，其特征在于，当所述通话断续结果包括通话断续次数时，所述根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果，包括：

8.根据权利要求4所述的方法，其特征在于，当所述通话断续结果包括通话断续时长时，所述根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果，包括：

在确定所述采样语音信号处于无声状态时，记录当前时间；

9.根据权利要求4所述的方法，其特征在于，当所述通话断续结果包括通话断续占比时，所述根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果，包括：

10.一种检测通话断续的装置，其特征在于，包括：

解码模块，用于对语音数据进行解码，得到所述语音数据对应的语音信号；

采样模块，用于对所述语音信号进行采样，得到采样语音信号；

状态确定模块，用于确定所述采样语音信号处于的声音状态，所述声音状态包括：有声状态或无声状态；

结果确定模块，用于根据所述采样语音信号处于的声音状态，确定所述语音数据对应的通话断续结果。

11.根据权利要求10所述的装置，其特征在于，所述状态确定模块包括：

能量计算子模块，用于计算所述采样语音信号的能量值；

确定子模块，用于在所述能量值小于能量阈值时，确定所述采样语音信号处于无声状态。

12.根据权利要求11所述的装置，其特征在于，所述能量计算子模块具体用于：

采用VAD算法，计算所述采样语音信号的能量值。

13.根据权利要求10所述的装置，其特征在于，所述通话断续结果包括如下项中的至少一项：

14.根据权利要求13所述的装置，其特征在于，当所述通话断续结果包括通话断续判定结果时，所述结果确定模块具体用于：

15.根据权利要求14所述的装置，其特征在于，

所述时间阈值为：500毫秒。

16.根据权利要求13所述的装置，其特征在于，当所述通话断续结果包括通话断续次数时，所述结果确定模块具体用于：

17.根据权利要求13所述的装置，其特征在于，当所述通话断续结果包括通话断续时长时，所述结果确定模块具体用于：

在确定所述采样语音信号处于无声状态时，记录当前时间；

18.根据权利要求13所述的装置，其特征在于，当所述通话断续结果包括通话断续占比时，所述结果确定模块具体用于：