CN108877768B

CN108877768B - 座机提示音识别方法、装置及计算机设备

Info

Publication number: CN108877768B
Application number: CN201810489543.2A
Authority: CN
Inventors: 李逸帆; 李炯城; 邢竟; 陈运动; 黄伟如
Original assignee: State-owned Assets Supervision and Administration Commission of the State Council
Current assignee: State-owned Assets Supervision and Administration Commission of the State Council
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2020-12-11
Anticipated expiration: 2038-05-21
Also published as: CN108877768A

Abstract

本发明涉及一种座机提示音识别方法、装置、计算机设备及计算机可读存储介质系统。上述方法包括步骤：获取同一类型座机的多个语音匹配模板；将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率；从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板；采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。本方法提高了识别座机提示音的准确性，并提高了识别效率，克服了传统语音识别方法存在准确性低的缺陷。

Description

座机提示音识别方法、装置及计算机设备

技术领域

本发明涉及语音识别技术领域，特别是涉及一种座机提示音识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

在电话通讯领域里，用户拨打被呼叫方的号码，通过本地交换中心识别所述拨打的号码转化成的呼叫信号，触发用户所在座机的相关语音提示音，方便用户判断是否呼叫成功，因此，对相关语音提示音的正确识别非常重要。

目前，对于相关语音提示音的识别，比如某种类型座机的空号语音提示音，通常是将空号语音提示音的时域信号转化为频域信号，再提取频域信号的频谱特征，通过预先训练的声学模型进行特征识别，从而获取识别效果。但是，将语音提示音的时域信号转化为频域信号，既会造成大量相关的信息丢失，又需要建立对自然语言的识别和理解规则；而且，不同通信运营商的语音提示音存在多样性，在语音提示音的时间、语音提示音的内容重复性和语音提示音的内容完整性等其他方面也存在干扰。

综上，目前采用的语音识别方法实现对语音提示音的识别时，容易出现识别准确性较低的缺陷。

发明内容

基于此，有必要针对目前的语音识别方法存在识别准确性较低的技术问题，提供一种座机提示音识别方法、装置、计算机设备及计算机可读存储介质。

一种座机提示音识别方法，包括以下步骤：

获取同一类型座机的多个语音匹配模板；

将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率；

从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板；

采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。

在其中一个实施例中，所述获取同一类型座机的多个语音匹配模板的步骤之后，包括：

按照预设顺序，分别以不同的长度截断所述多个语音匹配模板，由此得到多个不同长度的语音匹配模板。

在其中一个实施例中，所述获取同一类型座机的多个语音匹配模板的步骤之后，还包括：

根据所述同一类型座机的多个语音匹配模板，得到多种语音匹配模板组；

所述将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率的步骤，包括：

将各种语音匹配模板组输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板组在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板组对应的目标正确率；

所述从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板的步骤，包括：

从所述多种语音匹配模板组中筛选出目标正确率最高的语音匹配模板组，作为所述同一类型座机的目标语音匹配模板组。

在其中一个实施例中，所述语音匹配模型通过下述方法获得：

获取预设类型座机的多个数据样本；所述数据样本包括不同长度的语音匹配模板和待处理的座机提示音；

按照语音匹配模板的长度，依次对多个座机提示音进行多次切割，得到多个座机提示音包含的多段语音片段；

将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，由此得到所述多个座机提示音的最优匹配值；

根据所述多个座机提示音的最优匹配值，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到计算得到的正确率满足设定条件为止。

在其中一个实施例中，所述将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，由此得到所述多个座机提示音的最优匹配值的步骤，包括：

将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，并分别计算所述语音匹配模板与所述多个座机提示音包含的多段语音片段的匹配值；

从所述多个座机提示音对应的多个匹配值中筛选出最高匹配值，作为所述多个座机提示音的最优匹配值。

在其中一个实施例中，所述座机提示音包括空号语音提示音和正常语音提示音；

所述根据所述多个座机提示音的最优匹配值，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到计算得到的正确率满足设定条件为止的步骤，包括：

在所述多个座机提示音中，将最优匹配值大于预设阈值的座机提示音，作为预测的空号语音提示音；将最优匹配值小于预设阈值的座机提示音，作为预测的正常语音提示音；

根据空号语音提示音和预测的空号语音提示音，以及正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别座机提示音的正确率；

以此类推，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到所述计算得到的正确率满足设定条件为止。

在其中一个实施例中，所述根据空号语音提示音和预测的空号语音提示音，以及正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别座机提示音的正确率的步骤，包括：

根据空号语音提示音和预测的空号语音提示音，计算所述语音匹配模板在该预设阈值下，识别空号语音提示音的正确率；以及根据正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别正常语音提示音的正确率；

将所述识别空号语音提示音的正确率和识别正常语音提示音的正确率之和，作为所述语音匹配模板在该预设阈值下，识别座机提示音的正确率；

所述计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到所述计算得到的正确率满足设定条件为止的步骤，包括：

计算所述语音匹配模板在不同预设阈值下，识别空号语音提示音的正确率和识别正常语音提示音的正确率；

在识别正常语音提示音的正确率大于预设正确率的范围内，分别统计不同预设阈值下，识别座机提示音的正确率，直到统计得到的正确率满足最高值为止。

在其中一个实施例中，所述语音匹配模板为空号语音匹配模板；

和/或，

所述获取同一类型座机的多个语音匹配模板的步骤，包括：

获取同一类型座机的预设通信运营商的多个语音匹配模板；

所述将各语音匹配模板输入预先训练的语音匹配模型的步骤，包括：

将同一类型座机的预设通信运营商的多个语音匹配模板输入与所述预设通信运营商对应的语音匹配模型；

从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的预设通信运营商的目标语音匹配模板。

一种座机提示音识别装置，所述装置包括：

模板获取模块，用于获取同一类型座机的多个语音匹配模板；

目标正确率计算模块，用于将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出识别座机提示音的正确率的最高值，作为所述语音匹配模板对应的目标正确率；

目标模板获取模块，用于从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板；

识别模块，用于采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述所述座机提示音识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述所述座机提示音识别方法的步骤。

上述座机提示音识别方法、装置、计算机设备及计算机可读存储介质，先获取同一类型座机的多个语音匹配模板，将各语音匹配模板输入预先训练的语音匹配模型，得到多个语音匹配模板对应的目标正确率，然后从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板，最后采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。通过从同一类型座机的多个语音匹配模板中，筛选出目标正确率最高的语音匹配模板，以此去识别同一类型座机的座机提示音，无需将座机提示音从时域信号转化为频域信号后再进行识别，简化了识别座机提示音的过程；同时通过语音匹配模板去识别座机提示音，提高了识别座机提示音的准确性，并提高了识别效率，克服了传统语音识别方法存在准确性低的缺陷。

附图说明

图1为一个实施例的座机提示音识别方法的应用环境图；

图2为一个实施例的座机提示音识别方法的示意性流程图；

图3为另一个实施例的座机提示音识别方法的示意性流程图；

图4为又一个实施例的座机提示音识别方法的示意性流程图；

图5为再一个实施例的座机提示音识别方法的示意性流程图；

图6为一个实施例的语音匹配模型构建方法的示意性流程图；

图7为一个实施例的识别语音提示音的正确率的曲线图；

图8为一个实施例的座机提示音识别装置的示意性结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种座机提示音识别方法。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

基于上述对应用环境的说明，以下对座机提示音识别方法的实施例进行说明。

在一个实施例中，如图2所示，提供了一种座机提示音识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S201，获取同一类型座机的多个语音匹配模板。

在本步骤中，座机指的是固定电话，表示使用电话线的电话机，其使用性能、拨打效果、语音干扰等与厂商有关，不同厂商生产的座机类型不一样。语音匹配模板是指用来识别语音的模板，包括空号语音匹配模板。

一般地，后台从同一类型的多个座机中提取众多个语音提示音，比如空号语音提示音，随机选取几个语音提示音，作为语音匹配模板；并人工截取“您好，你拨打的号码是空号”的语音片段，语音长度是2秒-3秒之间。只截取语音匹配模板的核心内容，有利于排除其他语音信息的干扰，进一步提高了识别座机提示音的准确性。

步骤S202，将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率。

其中，语音匹配模型是一种能够计算语音匹配模板的目标正确率的模型。座机提示音包括空号语音提示音或正常语音提示音；阈值是指空号语音提示音和正常语音提示音的分界阈值，用于区分空号语音提示音和正常语音提示音，其取值范围在0-1之间。识别座机提示音的正确率是指语音匹配模板识别的座机提示音与实际的座机提示音之间的偏差，偏差越低，说明正确率越高。另外，在不同预设阈值下，语音匹配模板识别座机提示音的正确率是不一样的。

将各语音匹配模板输入预先训练的语音匹配模型，语音匹配模型通过计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，并从中筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率，为后续根据目标正确率筛选出目标语音匹配模板提供了便利，进一步提高了识别座机提示音的准确性。

步骤S203，从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板。

在本步骤中，根据多个语音匹配模板对应的目标正确率，从多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，以此作为同一类型座机的目标语音匹配模板，有利于后续采用所述目标语音匹配模板识别所述同一类型座机的座机提示音，进一步提高了识别座机提示音的准确性。

步骤S204，采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。

在本步骤中，采用目标语音匹配模板识别同一类型座机的座机提示音，即通过语音匹配模板识别座机提示音，无需将座机提示音从时域信号转化为频域信号后再进行识别，既提高了识别效率，又进一步提高了识别座机提示音的准确性，克服了传统语音识别方法存在准确性低的缺陷。

上述实施例，先获取同一类型座机的多个语音匹配模板，将各语音匹配模板输入预先训练的语音匹配模型，得到多个语音匹配模板对应的目标正确率，然后从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板，最后采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。通过从同一类型座机的多个语音匹配模板中，筛选出目标正确率最高的语音匹配模板，以此去识别同一类型座机的座机提示音，无需将座机提示音从时域信号转化为频域信号后再进行识别，简化了识别座机提示音的过程；同时通过语音匹配模板去识别座机提示音，提高了识别座机提示音的准确性，并提高了识别效率，克服了传统语音识别方法存在准确性低的缺陷。

考虑到语音匹配模板的时间长度在2秒-3秒之间，且人工不可能完全截取语音提示音的最核心内容，为了进一步减少识别误差，需要对语音匹配模板进行截断。

在一个实施例中，上述步骤S201，所述获取同一类型座机的多个语音匹配模板的步骤之后，包括：按照预设顺序，分别以不同的长度截断所述多个语音匹配模板，由此得到多个不同长度的语音匹配模板。比如，以不同的长度从语音匹配模板的头部向尾部进行截断，舍弃语音匹配模板的后半部分，并保留截断后的语音匹配模板的前半部分。上述实施例，以不同的长度将语音匹配模板截短，有利于提高识别速度，从而提高识别效率，同时减少识别误差，进一步提高了识别座机提示音的准确性。

在一个实施例中，如图3所示，提供了另一种座机提示音识别方法，包括以下步骤：

步骤S301，获取同一类型座机的多个语音匹配模板。

步骤S302，按照预设顺序，分别以不同的长度截断所述多个语音匹配模板，由此得到多个不同长度的语音匹配模板。

步骤S303，将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率。筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率。

步骤S304，从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板。

步骤S305，采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。

上述实施例，通过截断后的语音匹配模板去识别座机提示音，提高了识别座机提示音的准确性，并提高了识别效率，克服了传统语音识别方法存在准确性低的缺陷。

另外，同一类型座机的多个语音匹配模板中，虽然基本语音内容大致一样，但是参杂的噪音、录制的人、录制环境、座机发音效果等不一样，导致语音匹配模板之间存在多样性，为了提高识别过程的鲁棒性，需要将语音匹配模板进行组合。

在一个实施例中，上述步骤S201，所述获取同一类型座机的多个语音匹配模板的步骤之后，还包括：根据所述同一类型座机的多个语音匹配模板，得到多种语音匹配模板组。其中，语音匹配模板组由多个语音匹配模板组合而成。比如，有10个语音匹配模板，若以两个为一组，总共有

种组合。上述实施例，将语音匹配模板进行组合，避免了语音匹配模板之间存在多样性的干扰，提高了识别座机提示音的鲁棒性。

那么，上述步骤S202，所述将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率的步骤，包括：将各种语音匹配模板组输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板组在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板组对应的目标正确率。即通过语音匹配模型计算得到各种语音匹配模板组对应的目标正确率，有利于后续筛选出目标正确率最高的语音匹配模板组，进一步提高了识别座机提示音的准确性和鲁棒性。

那么，上述步骤S203，所述从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板的步骤，包括：从所述多种语音匹配模板组中筛选出目标正确率最高的语音匹配模板组，作为所述同一类型座机的目标语音匹配模板组。有利于后续采用所述目标语音匹配模板组识别所述同一类型座机的座机提示音，进一步提高了识别座机提示音的准确性和鲁棒性。

在一个实施例中，如图4所示，提供了又一种座机提示音识别方法，包括以下步骤：

步骤S401，获取同一类型座机的多个语音匹配模板。

步骤S402，根据所述同一类型座机的多个语音匹配模板，得到多种语音匹配模板组。

步骤S403，将各种语音匹配模板组输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板组在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板组对应的目标正确率。

步骤S404，从所述多种语音匹配模板组中筛选出目标正确率最高的语音匹配模板组，作为所述同一类型座机的目标语音匹配模板组。

步骤S405，采用所述目标语音匹配模板组识别所述同一类型座机的座机提示音。

上述实施例，通过组合后的语音匹配模板组去识别座机提示音，提高了识别座机提示音的准确性和鲁棒性，并提高了识别效率，克服了传统语音识别方法存在准确性低的缺陷。

考虑到不同通信运营商(比如电信、移动和联通)的座机提示音不一样，为了进一步提高识别座机提示音的准确性，需要获取各通信运营商对应的目标语音匹配模板。

在一个实施例中，上述步骤S201，所述获取同一类型座机的多个语音匹配模板的步骤，包括：获取同一类型座机的预设通信运营商的多个语音匹配模板。

那么，上述步骤S202，所述将各语音匹配模板输入预先训练的语音匹配模型的步骤，包括：将同一类型座机的预设通信运营商的多个语音匹配模板输入与所述预设通信运营商对应的语音匹配模型。其中，语音匹配模型是与要分析计算的通信运营商的语音匹配模板对应的，比如电信运营商的语音匹配模型只能分析计算电信运营商的语音匹配模板的目标正确率。

那么，上述步骤S203，所述从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板的步骤，包括：从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的预设通信运营商的目标语音匹配模板。

上述实施例，获取同一类型座机的各通信运营商的目标语音匹配模板，有利于减少识别误差，实现了对各通信运营商的语音提示音的精准识别的目的，进一步提高了识别座机提示音的准确性。

在一个实施例中，如图5所示，提供了再一种座机提示音识别方法，包括以下步骤：

步骤S501，获取同一类型座机的预设通信运营商的多个语音匹配模板。

步骤S502，将同一类型座机的预设通信运营商的多个语音匹配模板输入与所述预设通信运营商对应的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率。

步骤S503，从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的预设通信运营商的目标语音匹配模板。

步骤S504，采用所述目标语音匹配模板识别所述同一类型座机的预设通信运营商的座机提示音。

上述实施例，通过预设通信运营商的语音匹配模板去识别该预设通信运营商的座机提示音，提高了识别座机提示音的准确性，并提高了识别效率，克服了传统语音识别方法存在准确性低的缺陷。

另外，为了方便分析计算语音匹配模板的目标正确率，需要建立一种语音匹配模型。

在一个实施例中，如图6所示，提供了一种语音匹配模型构建方法，包括以下步骤:

步骤S601，获取预设类型座机的多个数据样本；所述数据样本包括不同长度的语音匹配模板和待处理的座机提示音。

其中，待处理的座机提示音包括空号语音提示音和正常语音提示音，时间长度是20秒-60秒之间，在内容上存在重复。

步骤S602，按照语音匹配模板的长度，依次对多个座机提示音进行多次切割，得到多个座机提示音包含的多段语音片段。

其中，语音片段的长度跟语音匹配模板的长度是一样的。

步骤S603，将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，由此得到所述多个座机提示音的最优匹配值。

步骤S604，根据所述多个座机提示音的最优匹配值，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到计算得到的正确率满足设定条件为止。

上述实施例，通过构建语音匹配模型，有利于得到语音匹配模板的目标正确率，方便后续筛选出目标语音匹配模板，以及识别同一类型座机的座机提示音，从而进一步提高了识别座机提示音的准确性，同时提高了识别效率。

在一个实施例中，上述步骤S603，所述将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，由此得到所述多个座机提示音的最优匹配值的步骤，包括：将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，并分别计算所述语音匹配模板与所述多个座机提示音包含的多段语音片段的匹配值；从所述多个座机提示音对应的多个匹配值中筛选出最高匹配值，作为所述多个座机提示音的最优匹配值。比如，计算语音匹配模板的特征列向量与同一座机提示音包含的多段语音片段的特征列向量之间的相似性，以此作为匹配值，从多个匹配值中筛选出最高匹配值，作为该座机提示音的最优匹配值。上述实施例，将座机提示音切割成多段，有利于提高识别速度，降低识别误差，方便快速确定座机提示音的最优匹配值，有利于后续确定语音匹配模板识别座机提示音的正确率。

在一个实施例中，所述座机提示音包括空号语音提示音和正常语音提示音。上述步骤S604，所述根据所述多个座机提示音的最优匹配值，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到计算得到的正确率满足设定条件为止的步骤，包括：在所述多个座机提示音中，将最优匹配值大于预设阈值的座机提示音，作为预测的空号语音提示音；将最优匹配值小于预设阈值的座机提示音，作为预测的正常语音提示音；根据空号语音提示音和预测的空号语音提示音，以及正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别座机提示音的正确率；以此类推，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到所述计算得到的正确率满足设定条件为止。上述实施例，通过语音匹配模板预测的座机提示音与实际的座机提示音之间的偏差，确定语音匹配模板识别座机提示音的正确率，方便后续从多个正确率中确定语音匹配模板的目标正确率，进一步减少了识别误差。

在一个实施例中，所述根据空号语音提示音和预测的空号语音提示音，以及正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别座机提示音的正确率的步骤，包括：根据空号语音提示音和预测的空号语音提示音，计算所述语音匹配模板在该预设阈值下，识别空号语音提示音的正确率；以及根据正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别正常语音提示音的正确率；将所述识别空号语音提示音的正确率和识别正常语音提示音的正确率之和，作为所述语音匹配模板在该预设阈值下，识别座机提示音的正确率。上述实施例，通过计算识别空号语音提示音的正确率以及识别正常语音提示音的正确率，有利于确定识别座机提示音的正确率，方便后续确定语音匹配模板在不同预设阈值下，识别座机提示音的正确率，为后续确定语音匹配模板的目标正确率提供了便利，进一步提高了识别效率。

比如，有4个座机提示音，分别为空号语音提示音A，空号语音提示音B，正常语音提示音C和正常语音提示音D，其对应的最优匹配值分别为0.7,0.6,0.5和0.3，若预设阈值为0.4，由于0.7,0.6都大于0.4，说明空号语音提示音A和空号语音提示音B都被识别成空号语音提示音，所以识别空号语音提示音的正确率为100％；由于0.5大于0.4，0.3小于0.4，说明正常语音提示音C被识别成空号语音提示音，正常语音提示音D被识别成正常语音提示音，所以识别正常语音提示音的正确率为50％，因此，在预设阈值为0.4时，语音匹配模板识别空号语音提示音的正确率为100％，以及识别正常语音提示音的正确率为50％。通过设置不同的阈值，可以计算该语音匹配模板识别空号语音提示音的正确率曲线和识别正常语音提示音的正确率曲线，具体如图7所示(其中，横坐标为阈值，纵坐标为正确率)。

在一个实施例中，所述计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到所述计算得到的正确率满足设定条件为止的步骤，包括：计算所述语音匹配模板在不同预设阈值下，识别空号语音提示音的正确率和识别正常语音提示音的正确率；在识别正常语音提示音的正确率大于预设正确率(比如95％)的范围内，分别统计不同预设阈值下，识别座机提示音的正确率，直到统计得到的正确率满足最高值为止。其中，识别座机提示音的正确率为识别空号语音提示音的正确率和识别正常语音提示音的正确率之和。上述实施例，在识别正常语音提示音的正确率大于预设正确率的范围内，才统计不同预设阈值下，识别座机提示音的正确率，简化了筛选语音匹配模板的正确率的最高值的过程，提高了识别效率，进一步提高了识别座机提示音的准确性。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种座机提示音识别装置，包括：模板获取模块810、目标正确率计算模块820、目标模板获取模块830和识别模块840，其中：

模板获取模块810，用于获取同一类型座机的多个语音匹配模板。

目标正确率计算模块820，用于将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出识别座机提示音的正确率的最高值，作为所述语音匹配模板对应的目标正确率。

目标模板获取模块830，用于从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板。

识别模块840，用于采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。

在一个实施例中，所述座机提示音识别装置还包括截断模块，用于模板获取模块810获取同一类型座机的多个语音匹配模板之后，按照预设顺序，分别以不同的长度截断所述多个语音匹配模板，由此得到多个不同长度的语音匹配模板。

在一个实施例中，所述座机提示音识别装置还包括分组模块，用于模板获取模块810获取同一类型座机的多个语音匹配模板之后，根据所述同一类型座机的多个语音匹配模板，得到多种语音匹配模板组。

在一个实施例中，所述目标正确率计算模块820，还用于将各种语音匹配模板组输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板组在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板组对应的目标正确率。

在一个实施例中，所述目标模板获取模块830，还用于从所述多种语音匹配模板组中筛选出目标正确率最高的语音匹配模板组，作为所述同一类型座机的目标语音匹配模板组。

在一个实施例中，所述座机提示音识别装置还包括模型构建模块，用于获取预设类型座机的多个数据样本；所述数据样本包括不同长度的语音匹配模板和待处理的座机提示音；按照语音匹配模板的长度，依次对多个座机提示音进行多次切割，得到多个座机提示音包含的多段语音片段；将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，由此得到所述多个座机提示音的最优匹配值；根据所述多个座机提示音的最优匹配值，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到计算得到的正确率满足设定条件为止。

在一个实施例中，所述模型构建模块，还用于将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，并分别计算所述语音匹配模板与所述多个座机提示音包含的多段语音片段的匹配值；从所述多个座机提示音对应的多个匹配值中筛选出最高匹配值，作为所述多个座机提示音的最优匹配值。

在一个实施例中，所述模型构建模块，还用于在所述多个座机提示音中，将最优匹配值大于预设阈值的座机提示音，作为预测的空号语音提示音；将最优匹配值小于预设阈值的座机提示音，作为预测的正常语音提示音；根据空号语音提示音和预测的空号语音提示音，以及正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别座机提示音的正确率；以此类推，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到所述计算得到的正确率满足设定条件为止。

在一个实施例中，所述模型构建模块，还用于根据空号语音提示音和预测的空号语音提示音，计算所述语音匹配模板在该预设阈值下，识别空号语音提示音的正确率；以及根据正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别正常语音提示音的正确率；将所述识别空号语音提示音的正确率和识别正常语音提示音的正确率之和，作为所述语音匹配模板在该预设阈值下，识别座机提示音的正确率。

在一个实施例中，所述模型构建模块，还用于计算所述语音匹配模板在不同预设阈值下，识别空号语音提示音的正确率和识别正常语音提示音的正确率；在识别正常语音提示音的正确率大于预设正确率的范围内，分别统计不同预设阈值下，识别座机提示音的正确率，直到统计得到的正确率满足最高值为止。

在一个实施例中，所述模板获取模块810，还用于获取同一类型座机的预设通信运营商的多个语音匹配模板。

在一个实施例中，所述目标正确率计算模块820，还用于将同一类型座机的预设通信运营商的多个语音匹配模板输入与所述预设通信运营商对应的语音匹配模型。

在一个实施例中，所述目标模板获取模块830，还用于从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的预设通信运营商的目标语音匹配模板。

上述各个实施例，座机提示音识别装置先获取同一类型座机的多个语音匹配模板，将各语音匹配模板输入预先训练的语音匹配模型，得到多个语音匹配模板对应的目标正确率，然后从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板，最后采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。通过从同一类型座机的多个语音匹配模板中，筛选出目标正确率最高的语音匹配模板，以此去识别同一类型座机的座机提示音，无需将座机提示音从时域信号转化为频域信号后再进行识别，简化了识别座机提示音的过程；同时通过语音匹配模板去识别座机提示音，提高了识别座机提示音的准确性，并提高了识别效率，克服了传统语音识别方法存在准确性低的缺陷。

关于座机提示音识别装置的具体限定可以参见上文中对于座机提示音识别方法的限定，在此不再赘述。上述座机提示音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取同一类型座机的多个语音匹配模板；将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率；从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板；采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在获取同一类型座机的多个语音匹配模板之后，按照预设顺序，分别以不同的长度截断所述多个语音匹配模板，由此得到多个不同长度的语音匹配模板。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在获取同一类型座机的多个语音匹配模板之后，根据所述同一类型座机的多个语音匹配模板，得到多种语音匹配模板组；将各种语音匹配模板组输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板组在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板组对应的目标正确率；从所述多种语音匹配模板组中筛选出目标正确率最高的语音匹配模板组，作为所述同一类型座机的目标语音匹配模板组。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取预设类型座机的多个数据样本；所述数据样本包括不同长度的语音匹配模板和待处理的座机提示音；按照语音匹配模板的长度，依次对多个座机提示音进行多次切割，得到多个座机提示音包含的多段语音片段；将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，由此得到所述多个座机提示音的最优匹配值；根据所述多个座机提示音的最优匹配值，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到计算得到的正确率满足设定条件为止。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，并分别计算所述语音匹配模板与所述多个座机提示音包含的多段语音片段的匹配值；从所述多个座机提示音对应的多个匹配值中筛选出最高匹配值，作为所述多个座机提示音的最优匹配值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在所述多个座机提示音中，将最优匹配值大于预设阈值的座机提示音，作为预测的空号语音提示音；将最优匹配值小于预设阈值的座机提示音，作为预测的正常语音提示音；根据空号语音提示音和预测的空号语音提示音，以及正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别座机提示音的正确率；以此类推，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到所述计算得到的正确率满足设定条件为止。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据空号语音提示音和预测的空号语音提示音，计算所述语音匹配模板在该预设阈值下，识别空号语音提示音的正确率；以及根据正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别正常语音提示音的正确率；将所述识别空号语音提示音的正确率和识别正常语音提示音的正确率之和，作为所述语音匹配模板在该预设阈值下，识别座机提示音的正确率。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算所述语音匹配模板在不同预设阈值下，识别空号语音提示音的正确率和识别正常语音提示音的正确率；在识别正常语音提示音的正确率大于预设正确率的范围内，分别统计不同预设阈值下，识别座机提示音的正确率，直到统计得到的正确率满足最高值为止。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取同一类型座机的预设通信运营商的多个语音匹配模板；将同一类型座机的预设通信运营商的多个语音匹配模板输入与所述预设通信运营商对应的语音匹配模型；从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的预设通信运营商的目标语音匹配模板。

上述各个实施例，计算机设备通过所述处理器上运行的计算机程序，提高了识别座机提示音的准确性，并提高了识别效率，克服了传统语音识别方法存在准确性低的缺陷。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取同一类型座机的多个语音匹配模板；将各语音匹配模板输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板对应的目标正确率；从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的目标语音匹配模板；采用所述目标语音匹配模板识别所述同一类型座机的座机提示音。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在获取同一类型座机的多个语音匹配模板之后，按照预设顺序，分别以不同的长度截断所述多个语音匹配模板，由此得到多个不同长度的语音匹配模板。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在获取同一类型座机的多个语音匹配模板之后，根据所述同一类型座机的多个语音匹配模板，得到多种语音匹配模板组；将各种语音匹配模板组输入预先训练的语音匹配模型，所述语音匹配模型用于计算语音匹配模板组在不同预设阈值下，识别座机提示音的正确率，筛选出正确率的最高值，作为所述语音匹配模板组对应的目标正确率；从所述多种语音匹配模板组中筛选出目标正确率最高的语音匹配模板组，作为所述同一类型座机的目标语音匹配模板组。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取预设类型座机的多个数据样本；所述数据样本包括不同长度的语音匹配模板和待处理的座机提示音；按照语音匹配模板的长度，依次对多个座机提示音进行多次切割，得到多个座机提示音包含的多段语音片段；将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，由此得到所述多个座机提示音的最优匹配值；根据所述多个座机提示音的最优匹配值，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到计算得到的正确率满足设定条件为止。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，并分别计算所述语音匹配模板与所述多个座机提示音包含的多段语音片段的匹配值；从所述多个座机提示音对应的多个匹配值中筛选出最高匹配值，作为所述多个座机提示音的最优匹配值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在所述多个座机提示音中，将最优匹配值大于预设阈值的座机提示音，作为预测的空号语音提示音；将最优匹配值小于预设阈值的座机提示音，作为预测的正常语音提示音；根据空号语音提示音和预测的空号语音提示音，以及正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别座机提示音的正确率；以此类推，计算所述语音匹配模板在不同预设阈值下，识别座机提示音的正确率，直到所述计算得到的正确率满足设定条件为止。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据空号语音提示音和预测的空号语音提示音，计算所述语音匹配模板在该预设阈值下，识别空号语音提示音的正确率；以及根据正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别正常语音提示音的正确率；将所述识别空号语音提示音的正确率和识别正常语音提示音的正确率之和，作为所述语音匹配模板在该预设阈值下，识别座机提示音的正确率。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算所述语音匹配模板在不同预设阈值下，识别空号语音提示音的正确率和识别正常语音提示音的正确率；在识别正常语音提示音的正确率大于预设正确率的范围内，分别统计不同预设阈值下，识别座机提示音的正确率，直到统计得到的正确率满足最高值为止。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取同一类型座机的预设通信运营商的多个语音匹配模板；将同一类型座机的预设通信运营商的多个语音匹配模板输入与所述预设通信运营商对应的语音匹配模型；从所述多个语音匹配模板中筛选出目标正确率最高的语音匹配模板，作为所述同一类型座机的预设通信运营商的目标语音匹配模板。

上述各个实施例，计算机可读存储介质通过其存储的计算机程序，提高了识别座机提示音的准确性，并提高了识别效率，克服了传统语音识别方法存在准确性低的缺陷。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种座机提示音识别方法，其特征在于，包括以下步骤：

获取同一类型座机的多个语音匹配模板；

2.根据权利要求1所述的座机提示音识别方法，其特征在于，所述获取同一类型座机的多个语音匹配模板的步骤之后，包括：

3.根据权利要求2所述的座机提示音识别方法，其特征在于，所述获取同一类型座机的多个语音匹配模板的步骤之后，还包括：

4.根据权利要求1至3任一项所述的座机提示音识别方法，其特征在于，所述语音匹配模型通过下述方法获得：

5.根据权利要求4所述的座机提示音识别方法，其特征在于，所述将所述语音匹配模板分别与所述多个座机提示音包含的多段语音片段进行匹配，由此得到所述多个座机提示音的最优匹配值的步骤，包括：

6.根据权利要求4所述的座机提示音识别方法，其特征在于，所述座机提示音包括空号语音提示音和正常语音提示音；

7.根据权利要求6所述的座机提示音识别方法，其特征在于，所述根据空号语音提示音和预测的空号语音提示音，以及正常语音提示音和预测的正常语音提示音，计算所述语音匹配模板在该预设阈值下，识别座机提示音的正确率的步骤，包括：

8.根据权利要求1至3、5至7任一项所述的座机提示音识别方法，其特征在于，所述语音匹配模板为空号语音匹配模板；

所述获取同一类型座机的多个语音匹配模板的步骤，包括：

获取同一类型座机的预设通信运营商的多个语音匹配模板；

9.一种座机提示音识别装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述座机提示音识别方法的步骤。