CN109524026A

CN109524026A - 提示音的确定方法及装置、存储介质、电子装置

Info

Publication number: CN109524026A
Application number: CN201811260030.0A
Authority: CN
Inventors: 邹新生
Original assignee: Beijing Net Co Creation Technology Co Ltd
Current assignee: Hunan Huawei Jin'an Enterprise Management Co ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-26
Anticipated expiration: 2038-10-26
Also published as: CN109524026B

Abstract

本发明提供了一种提示音的确定方法及装置、存储介质、电子装置，其中上述方法包括:将完整的通话语音分为若干语音分片；获取所述若干语音分片中的两两分片的余弦距离，或获取所述若干分片中的一个分片与提示音库中的分片的余弦距离；在所述余弦距离小于第一阈值时，判定余弦距离小于第一阈值所对应的两个语音分片均为提示音。

Description

提示音的确定方法及装置、存储介质、电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种提示音的确定方法及装置、存储介质、电子装置。

背景技术

端点检测技术是语音识别和语音处理的一个基本环节，也是语音识别研究的一个热点领域，该技术的主要目的是从输入的语音中对语音和非语音进行区分，主要功能可以有：去掉语音中的静音成分；以及获取输入语音中有效语音。而比较常见的端点检测方法有：通过比较一段语音片段的能量大小来判断是否有语音，或者是静音，以及噪声(一般指较小的噪声)，由于需要获取语音片段，并比较该语音片段的能量大小，需要涉及到语音片段(静音片段)长度和能量大小的阈值。

现有技术中提供了一种快速检测单频提示音的方法及系统，上述方法的主要流程如下：1)确定参考单频信号，根据参考单频信号确定搜索频率范围；2)根据参考单频信号的长度截取相应长度的待检测信号；3)根据搜索频率范围计算待检测信号的自相关函数；4)在每帧信号的自相关函数上，搜索预定数量的最好候选值；5)设定一个代价损失函数，根据搜索的最大候选值利用动态规划获得一条平滑的基频曲线；6)将所述基频曲线与目标单频信号的基频曲线进行比对，如果一致，则初步判定所述待检测信号为提示音，否则判断不是提示音，结束处理流程。可见，相关技术中主要提供的是仅仅针对单频提示音(“嘀”、“嘟”等)的检测方案，无法对其他提示音进行检测，检测提示音的种类有限。

针对相关技术中，仅能对单频提示音进行检测，无法对其他提示音进行检测的问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种提示音的确定方法及装置、存储介质、电子装置，以至少解决相关技术中仅能对单频提示音进行检测，无法对其他提示音进行检测的问题。

根据本发明的一个实施例，提供了一种提示音的确定方法，包括：

将完整的通话语音分为若干语音分片；获取所述若干语音分片中的两两分片的余弦距离，或获取所述若干分片中的一个分片与提示音库中的分片的余弦距离；在所述余弦距离小于第一阈值时，判定余弦距离小于第一阈值所对应的两个语音分片均为提示音。

可选地，获取所述若干语音分片中的两两分片的余弦距离，包括：

将所述若干语音分片按照指定原则分配为N个集合，其中，N为正整数；

获取所述N个集合中每个集合中的两两分片的余弦距离。

可选地，获取所述若干分片中的一个分片与提示音库中的分片的余弦距离之前，所述方法还包括：

判断所述若干分片的一个分片的时长与所述提示音库中的分片的时长之差是否小于第二阈值；

如果是，则获取所述一个分片与提示音库中的分片的余弦距离。

可选地，将完整的通话语音分为若干语音分片，包括：

根据端点检测法将完整的通话语音分为若干语音分片。

根据本发明的另一个实施例，还提供了一种提示音的确定装置，包括：

划分模块，用于将完整的通话语音分为若干语音分片；

获取模块，用于获取所述若干语音分片中的两两分片的余弦距离，或获取所述若干分片中的一个分片与提示音库中的分片的余弦距离；

判定模块，用于在所述余弦距离小于第一阈值时，判定余弦距离小于第一阈值所对应的两个语音分片均为提示音。

可选地，所述获取模块，用于将所述若干语音分片按照指定原则分配为N个集合，其中，N为正整数；以及获取所述N个集合中每个集合中的两两分片的余弦距离。

可选地，所述获取模块包括：

判断单元，用于判断所述若干分片的一个分片的时长与所述提示音库中的分片的时长之差是否小于第二阈值；

获取单元，在判断结果是，则获取所述一个分片与提示音库中的分片的余弦距离。

可选地，所述划分模块，还用于根据端点检测法将完整的通话语音分为若干语音分片。

根据本发明的另一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述提示音的确定方法。

根据本发明的另一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述提示音的确定方法。

通过本发明，通过比较语音分片中两两分片的提示音的余弦距离与第一阈值的关系，或语音分片中一个分片与提示音库中的分片的关系进而判断出提示音，采用上述技术方案，以至少解决相关技术中仅能对单频提示音进行检测，无法对其他提示音进行检测的问题，进而提高了检测提示音的种类。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的提示音的确定方法的流程图；

图2是根据本发明实施例的提示音的确定装置的结构框图；

图3是根据本发明实施例的提示音的确定装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

在本实施例中提供了一种提示音的确定方法，图1是根据本发明实施例的提示音的确定方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，将完整的通话语音分为若干语音分片；

步骤S104，获取所述若干语音分片中的两两分片的余弦距离，或获取所述若干分片中的一个分片与提示音库中的分片的余弦距离；

步骤S106，在所述余弦距离小于第一阈值时，判定余弦距离小于第一阈值所对应的两个语音分片均为提示音。

通过上述步骤，在将待检测的完整的通话语音划分为若干个语音后，可以通过比较语音分片中两两分片的提示音的余弦距离与第一阈值的关系，或若干分片中的一个分片与提示音库中的分片的余弦距离与第一举止的关系，进而判断出提示音，采用上述技术方案，以至少解决相关技术中仅能对单频提示音进行检测，无法对其他提示音进行检测的问题，进而提高了检测提示音的种类。

可选地，步骤S104中的“获取所述若干语音分片中的两两分片的余弦距离”可以通过以下技术方案实现：

获取所述N个集合中每个集合中的两两分片的余弦距离。

在本发明实施例中，将完整的通话语音分为若干语音分片，包括：根据端点检测法将完整的通话语音分为若干语音分片。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种提示音的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的提示音的确定装置的结构框图，如图2所示，该装置包括：

划分模块20，用于将完整的通话语音分为若干语音分片；

获取模块22，用于获取所述若干语音分片中的两两分片的余弦距离，或获取所述若干分片中的一个分片与提示音库中的分片的余弦距离；

判定模块24，用于在所述余弦距离小于第一阈值时，判定余弦距离小于第一阈值所对应的两个语音分片均为提示音。

通过上述模块的作用，在将待检测的完整的通话语音划分为若干个语音后，可以通过比较语音分片中两两分片的提示音的余弦距离与第一阈值的关系，或若干分片中的一个分片与提示音库中的分片的余弦距离与第一举止的关系，进而判断出提示音，采用上述技术方案，以至少解决相关技术中仅能对单频提示音进行检测，无法对其他提示音进行检测的问题，进而提高了检测提示音的种类。

可选地，获取模块22，用于将所述若干语音分片按照指定原则分配为N个集合，其中，N为正整数；以及获取所述N个集合中每个集合中的两两分片的余弦距离。

可选地，如图3所示，获取模块22包括：

判断单元220，用于判断所述若干分片的一个分片的时长与所述提示音库中的分片的时长之差是否小于第二阈值；

获取单元222，在判断结果是，则获取所述一个分片与提示音库中的分片的余弦距离。

可选地，划分模块20，还用于根据端点检测法将完整的通话语音分为若干语音分片。

以下结合优选实施例对上述提示音的确定过程进行说明，但不用于确定本发明实施例的技术方案。

本发明优选实施例选择的语音为提前录制好的语音，其不受环境和信道影响，重复播报语音(重复语料)的相似度非常高，采用本发明优选实施例的技术方案能够准确判断这种重复语料，而正常的说话或者通话中出现的语料不具备这种精确的相似性，因而采用本发明实施例提供的技术方案能够区分开提示音和正常语音，其中，取余弦相似度最高的情况下，余弦距离为0，即检测到提示音。

在实际使用中，语音的实时性也是需要着重考虑的问题，且两个重复语料不一定是完全对齐的，并且语音的采样点都可能存在误差漂移，上述的情况都会影响结果。考虑到上述技术问题，本发明优选实施例提出以下方案，具体方法和步骤如下：

需要说明的是，余弦距离的计算过程为如下过程：两个矢量u和v，长度相同，其余弦距离为1-u·v/||u||₂||v||₂，其中分子中的符号为点积，分母中的符号为2范数。

步骤1，对于完整的通话语音A，通过端点检测得到若干语音分片A1,A2,A3...；

步骤2，将上述语音分片A1,A2,A3...按照时长接近的原则进行归类，时长差异小于ε₁为一个集合，这样总共有集合S1，S2，S3，...，每个集合中有若干分片；

步骤3，依次比较每个集合中若干分片两两之间的余弦距离，如果有cosine(A_i,A_j)＜ε₂，则判定分片A_i和A_j为提示音；

步骤4，cosine(A_i,A_j)计算方式如下：

以两者中采样点多的为基准，一个矢量沿着另一个矢量的时间窗滑动，一次滑动一个采样点，共滑动K次，每次计算对应时间窗内的两个矢量的余弦距离D_K，取K个值中的最大值作为A_i和A_j的余弦距离。

在上述计算中，发现有部分余弦距离在准确的有效判定值和无效的判定值之间，后来发现是A_i和A_j由于采样误差等原因，造成两个矢量的子序列(可以理解为是矢量的一段)沿着不同的方向有漂移，即前面一段往左快了1～2个采样点，后面一段往右快了1～2个采样点。对于这种情况，本发明优选实施例通过增加1个步骤，进一步修改端点检测的阈值，将A_i和A_j切割成更小的分片，保证每个更小的分片内不存在漂移，并重复第4步。

以上为具有重复提示音的单个录音文件的检测解决方案。对于单个录音文件中不重复的提示音，仍然有可能将上述方案加以推广应用。具体方法如下：

通过上述检测单个录音文件重复提示音的方法，检测到提示音，形成提示音库，包含若干提示音语音分片A1,A2,A3...

对于完整的通话语音B，通过端点检测得到若干语音分片B1,B2,B3...

3、比较通话语音B的分片和提示音库分片的时长是否接近，即判断A_i和B_j的时长之差是否小于ε₁，如果时长接近，则通过上述计算余弦距离的方法计算A_i和B_j的余弦距离，如果cosine(A_i,B_j)＜ε₂，则认为B_j为提示音。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项所述的方法。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，将完整的通话语音分为若干语音分片；

S2，获取所述若干语音分片中的两两分片的余弦距离，或获取所述若干分片中的一个分片与提示音库中的分片的余弦距离；

S3，在所述余弦距离小于第一阈值时，判定余弦距离小于第一阈值所对应的两个语音分片均为提示音。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

S4，将所述若干语音分片按照指定原则分配为N个集合，其中，N为正整数；

S5，获取所述N个集合中每个集合中的两两分片的余弦距离。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提示音的确定方法，其特征在于，包括：

将完整的通话语音分为若干语音分片；

获取所述若干语音分片中的两两分片的余弦距离，或获取所述若干分片中的一个分片与提示音库中的分片的余弦距离；

在所述余弦距离小于第一阈值时，判定余弦距离小于第一阈值所对应的两个语音分片均为提示音。

2.根据权利要求1所述的方法，其特征在于，获取所述若干语音分片中的两两分片的余弦距离，包括：

获取所述N个集合中每个集合中的两两分片的余弦距离。

3.根据权利要求1所述的方法，其特征在于，获取所述若干分片中的一个分片与提示音库中的分片的余弦距离之前，所述方法还包括：

判断所述若干分片的一个分片的时长与所述提示音库中的分片时长之差是否小于第二阈值；

4.根据权利要求1所述的方法，其特征在于，将完整的通话语音分为若干语音分片，包括：

根据端点检测法将完整的通话语音分为若干语音分片。

5.一种提示音的确定装置，其特征在于，包括：

划分模块，用于将完整的通话语音分为若干语音分片；

6.根据权利要求5所述的装置，其特征在于，所述获取模块，用于将所述若干语音分片按照指定原则分配为N个集合，其中，N为正整数；以及获取所述N个集合中每个集合中的两两分片的余弦距离。

7.根据权利要求5所述的装置，其特征在于，所述获取模块包括：

8.根据权利要求5所述的装置，其特征在于，所述划分模块，还用于根据端点检测法将完整的通话语音分为若干语音分片。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。