CN112837680A

CN112837680A - 音频关键词检索方法、智能外呼方法及相关装置

Info

Publication number: CN112837680A
Application number: CN201911167510.7A
Authority: CN
Inventors: 乔宏利; 杨春勇; 靳丁南; 权圣
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd; Mashang Consumer Finance Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2021-05-25

Abstract

本发明提供一种音频关键词的检索方法、智能外呼方法及相关装置，检索方法包括：根据预设规则对预设音频片段进行特征化处理得到第一特征数据集，第一特征数据集包含至少一个第一特征向量序列，其中预设音频包含音频关键词；获取待检索音频片段，并按照预设规则对待检索音频片段进行特征化处理得到第二特征数据集，所述第二特征数据集包含至少一个第二特征向量序列；从与第一特征向量序列对应的第二特征向量序列中截取与第一特征向量序列长度相同的第三特征向量序列；通过计算第三特征向量序列与所述第一特征向量序列的相似度来判断待检索音频片段是否包含音频关键词。其方法实施简单，计算复杂度低，高效快速。

Description

音频关键词检索方法、智能外呼方法及相关装置

技术领域

本发明涉及音频检索技术领域，尤其涉及一种音频关键词检索方法、智能外呼方法及相关装置。

背景技术

人工智能语音服务正成为机器学习领域新的热点科研及产业化发展方向，主流的技术方向是语音转文本和文本转语音。但是有一些应用场景下，不需要复杂的语音识别或合成模型，服务器只需要了解某段录音或在线音频里，是否包含某些关键字句，即可满足后续业务需要。这种技术称为语音关键词检索。

关键词检索一般是截取关键词音频片段，然后通过检索、匹配等方法，在待识别音频中去探索。如果匹配成功，则返回匹配的位置。

在申请号为201810096472.X的专利《语音关键词的识别方法和装置》中，基于原始音频信号做特征化的模型训练，然后将得到的特征用于关键词识别；具有较强的泛化能力，但是整体设计、训练、开发成本较高，不适用于中小企业开发应用，且对于预设应用难以保证足够精度。

在申请号为201811524225.0的专利《一种语音关键词检测方法及装置》中，先要把语音数据，通过语音转文本技术转化为文本数据，然后通过文本关键词匹配的方法来确定音频中是否有关键词语音。这种方法成本高昂，需要自研或购买语音转文本技术服务；且效果严重依赖于语音转文本技术识别结果。如果语音转文本技术识别错误率高，则该关键词检测失效概率大；另外，它不适合在线服务环境使用，因为在线音频，比如打电话，音频是实时分片传输的，音频内容不一定能够完整成句子；而一般语音转文本技术对说话内容的自然完整度依赖较高，否则大概率会出现错字。

在申请日为201811636670.7的专利《一种基于关键词的语音识别方法中，跟第二个专利类似，不过它是先把语音信号转化为汉语拼音，然后做检索。

在申请号为201410266543.6的专利《一种基于音频模板的语音关键词检索方法》中，用概率分布序列作为语音及样例语音模板特征，采用DTW(Dynamic Time Warping，动态时间归整)算法执行语音搜索，最后对不同模板的得分进行排序来确定检索结果。

以上，专利一的缺点主要是研究开发成本比较高，需要大量精细人工标注样本，且服务部署后，需要较高的硬件成本才能保证实时性要求。专利二、三的缺点，是识别检索效果严重依赖于中间技术(语音转文本技术或音频到拼音转换)或服务的质量。专利三的缺点,用概率分布做语音特征，需要极其庞大的相关样本音频量才能有效，且通过简单概率分布做音频特征，其效果不能得到保证，且DTW算法自身也是计算复杂度高，耗费大的算法，对实时服务部署使用不利。

因此，现有技术有待改进。

发明内容

本发明提供一种音频关键词检索方法、智能外呼方法及相关装置，其方法实施简单，计算复杂度低，高效快速。

为解决上述技术问题，本发明采用的第一个技术方案是：根据预设规则对预设音频片段进行特征化处理得到第一特征数据集，所述第一特征数据集包含至少一个第一特征向量序列，其中所述预设音频包含音频关键词；获取待检索音频片段，并按照所述预设规则对所述待检索音频片段进行特征化处理得到第二特征数据集，所述第二特征数据集包含至少一个第二特征向量序列；从所述第二特征向量序列中对应截取与所述第一特征向量序列长度相同的第三特征向量序列；通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词。

其中，所述从所述第二特征向量序列中对应截取与所述第一特征向量序列长度相同的第三特征向量序列的步骤之前，还包括：获取与所述任一第一特征向量序列对应的第二特征向量序列的长度；若所述第二特征向量序列的长度大于等于所述第一特征向量序列的长度，则通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词；若所述第二特征向量序列的长度小于所述第一特征向量序列的长度，则所述待检索音频片段不包含所述音频关键词。

其中，所述根据预设规则对预设音频片段进行特征化处理得到第一特征数据集，所述第一特征数据集包含至少一个第一特征向量序列，其中所述预设音频片段包含音频关键词的步骤，具体包括：根据设定的窗口时长和预设移动步长将所述预设音频片段分割成至少一个预设时长的预设音频片段，并计算任一所述预设时长的预设音频片段的第一短时平均幅度值和第一短时平均过零率，以得到第一短时平均幅度值特征向量和第一短时平均过零率特征向量，所述第一短时平均幅度值特征向量和所述第一短时平均过零率特征向量构成所述第一特征向量序列；所述获取待检索音频片段，并按照所述预设规则对所述待检索音频片段进行特征化处理得到第二特征数据集，所述第二特征数据集包含至少一个第二特征向量序列的步骤，具体包括：根据所述窗口时长和所述预设移动步长将所述待检索音频片段分割成至少一个预设时长的待检索音频片段，并计算任一所述预设时长的待检索音频片段的第二短时平均幅度值和第二短时平均过零率，以得到第二短时平均幅度值特征向量和第二短时平均过零率特征向量，所述第二短时平均幅度值特征向量和所述第二短时平均过零率特征向量构成所述第二特征向量序列。

其中，所述从与所述第一特征向量序列对应的所述第二特征向量序列中截取与所述第一特征向量序列长度相同的第三特征向量序列的步骤包括：以预设的步进长度，从所述第二特征向量序列中截取至少一个长度等于所述第一特征向量序列的长度的所述第三特征向量序列。

其中，所述通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词的步骤，具体包括：判断所述相似度的值是否大于等于预设阈值；若所述相似度的值大于等于所述预设阈值，则所述待检索音频片段包含所述音频关键词；若所述余弦相似度的值小于所述预设阈值，则所述待检索音频片段不包含所述音频关键词。

其中，所述通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词的步骤，具体包括：计算任一所述第一特征向量序列中的第一短时平均幅度值特征向量与对应所述第三特征向量序列中的第二短时平均幅度值特征向量的第一相似度；计算任一所述第一特征向量序列中的第一短时平均过零率特征向量与对应所述第三特征向量序列中的第二短时平均过零率特征向量的第二相似度；计算所述第一相似度及第二相似度的乘积以得到所述相似度的值，并判断所述相似度的值是否大于等于预设阈值。

其中，所述若所述相似度的值大于等于所述预设阈值，则所述待检索音频片段包含所述音频关键词的步骤，还包括：记录所述第三特征向量序列的偏移值；根据所述第三特征向量序列的偏移值和所述预设移动步长确定所述音频关键词在所述待检索音频片段中的时间位置；所述若所述相似度的值小于所述预设阈值，则所述待检索音频片段不包含所述音频关键词的步骤，还包括：判断所述第三特征向量序列是否为所述第二特征向量序列中的最后一个特征向量序列，若是，则所述待检索音频片段不包含所述音频关键词；若否，则继续执行所述计算所述第三特征向量序列与所述第一特征向量序列相似度的步骤。

为解决上述技术问题，本发明采用的第二个技术方案是：提供一种智能外呼方法，包括：接收通讯服务端的早期媒体音频，作为待检索音频片段，所述待检索音频片段用于反馈自动外呼用户通讯终端的当前通讯状态；根据上述任一项所述关键词检索方法检索所述待检索音频片段，获取检索结果；根据所述检索结果，确定所述通讯终端的当前通讯状态；根据确定的所述当前通讯状态，确定自动外呼策略。

为解决上述技术问题，本发明采用的第三个技术方案是：提供一种音频关键词检索装置，包括：第一特征处理模块，用于根据预设规则对预设音频片段进行特征化处理得到第一特征数据集，所述第一特征数据集包含至少一个第一特征向量序列，其中所述预设音频包含音频关键词；第二特征处理模块，用于获取待检索音频片段，并按照所述预设规则对所述待检索音频片段进行特征化处理得到第二特征数据集，所述第二特征数据集包含至少一个第二特征向量序列；特征提取模块，用于从所述第二特征向量序列中对应截取与所述第一特征向量序列长度相同的第三特征向量序列；相似度计算模块，用于通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词。

为解决上述技术问题，本发明采用的第四个技术方案是：提供一种智能外呼装置，包括：接收模块，用于接收通讯服务端的早期媒体音频，作为待检索音频片段，所述待检索音频片段用于反馈自动外呼用户通讯终端的当前通讯状态；关键词检索模块，用于根据上述任一项所述关键词检索方法检索所述待检索音频片段，获取检索结果；状态检测模块，用于根据所述检索结果，确定所述通讯终端的当前通讯状态；执行模块，用于根据确定的所述当前通讯状态，确定自动外呼策略。

为解决上述技术问题，本发明采用的第五个技术方案是：提供一种音频关键词检索装置，包括：相互藕接的处理器及存储器，其中，所述存储器存储有程序指令；所述处理器用于调取所述存储器存储的所述程序指令以执行上述任意一项所述的音频关键词的检索方法。

为解决上述技术问题，本发明采用的第六个技术方案是：提供一种存储介质，存储有程序文件，所述程序文件能够被执行以实现上述任意一项所述的音频关键词的检索方法。

本发明的有益效果是：区别于现有技术，本发明通过根据预设规则对包含音频关键词的预设音频片段进行特征化处理得到第一特征数据集，第一特征数据集包含至少一个第一特征向量序列，任一第一特征向量序列的长度为预设长度；获取待检索音频片段，按照预设规则对待检索音频进行特征化处理得到第二特征数据集，第二特征数据集包含至少一个第二特征向量序列；从第二特征向量序列中截取与第一特征向量序列长度相同的第三特征向量序列，计算第一特征向量序列与第三特征向量序列的相似度，根据相似度的计算结果判断待检索音频片段是否包含音频关键词。本发明的音频关键词的检索方法实施简单，计算复杂度低，高效快速。

附图说明

图1是本发明音频关键词检索方法的第一实施例的流程示意图；

图2是本发明音频关键词检索方法的第二实施例的流程示意图；

图3是本发明音频关键词检索方法的第三实施例的流程示意图；

图4是本发明音频关键词检索方法的第四实施例的流程示意图；

图5是本发明智能外呼方法的一实施例的流程示意图；

图6是本发明音频关键词检索装置的第一实施例的结构示意图；

图7是本发明智能外呼装置的一实施例的流程示意图；

图8是本发明音频关键词检索装置的第二实施例的结构示意图；

图9是本发明存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图和实施例对本发明进行详细的说明。

请参见图1，为本发明音频关键词的检索方法的第一实施例的流程示意图。包括：

步骤S11：根据预设规则对预设音频片段进行特征化处理得到第一特征数据集，所述第一特征数据集包含至少一个第一特征向量序列，其中所述预设音频包含音频关键词。

具体地，获取包含音频关键词的预设音频片段，以预设的规则对预设音频片段进行处理，以得到第一特征数据集。第一特征数据集包含至少一个第一特征向量序列。

步骤S12：获取待检索音频片段，并按照所述预设规则对所述待检索音频进行特征化处理得到第二特征数据集，所述第二特征数据集包含至少一个第二特征向量序列。

获取一段待检索音频片段，按照预设的规则对待检索音频片段进行特征化处理，以得到第二特征数据集。第二特征数据集包括至少一个第二特征向量序列。

步骤S13：从所述第二特征向量序列中对应截取与所述第一特征向量序列长度相同的第三特征向量序列。

从与第一特征向量序列对应的第二特征向量序列中截取与第一特征向量序列长度相同的第三特征向量序列。

步骤S14：通过计算第三特征向量序列与第一特征向量序列的相似度来判断待检索音频片段是否包含音频关键词。

具体的，在本实施例中，计算第三特征向量序列与第一特征向量序列的余弦相似度，根据计算得到的余弦相似度的值判断待检索音频片段是否包含音频关键词。

本实施例中，将具有音频关键词的预设音频片段及待检索音频片段进行特征化以得到第一特征数据集及第二特征数据集，其中第一特征数据集包含至少一第一特征向量序列，第二特征数据集包含至少一第二特征向量序列，从第二特征向量序列中截取与第一特征向量序列长度相同的第三特征向量序列，通过计算第三特征向量序列与第一特征向量序列的余弦相似度来判断待检索音频片段是否包含音频关键词。以此能够实现检索方法实施简单，计算复杂度低，高效快速的目的。

请参见图2，为本发明音频关键词的检索方法的第二实施例的流程示意图。与上述第一实施例相比区别在于，在步骤S13之前，还包括：

步骤S21：获取与所述任一第一特征向量序列对应的第二特征向量序列的长度。

具体的，在进行相似度计算时，向量的长度需要保持一致。可以理解的，若要从第二特征向量序列中截取与第一特征向量序列长度相同的第三特征向量序列，第二特征向量序列的长度需大于等于第一特征向量序列的长度。

在本申请，第一特征数据集包括短时平均过零率特征的第一特征向量序列及短时平均幅度值特征的第一特征向量序列，第二特征数据集包括短时平均过零率特征的第二特征向量序列及短时平均幅度值特征的第二特征向量序列，在进行长度比较时，需要先获取到对应的特征向量序列。即，短时平均过零率特征的第一特征向量序列与短时平均过零率特征的第二特征向量序列进行长度比较，短时平均幅度值特征的第一特征向量序列与短时平均幅度值特征的第二特征向量序列进行长度比较。

步骤S22：若所述第二特征向量序列的长度大于等于所述第一特征向量序列的长度，则通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断待检索音频片段是否包含所述音频关键词。

在本实施例中，通过计算第三特征向量序列与第一特征向量序列的余弦相似度来判断待检索音频片段是否包含音频关键词。若第二特征向量序列的长度大于等于第一特征向量序列的长度，此时截取第三特征向量序列，计算第三特征向量序列与第一特征向量序列的余弦相似度，根据余弦相似度的值判断待检索音频片段是否包含音频关键词。

步骤S23：若第二特征向量序列的长度小于第一特征向量序列的长度，待检索音频片段不包含音频关键词。

具体的，若第二特征向量序列的长度小于第一特征向量序列的长度时，则无法从第二特征向量序列中获取与第一特征向量序列长度相同的第三特征向量序列，进而无法进行相似度的计算，此时判定待检索音频片段中不包含音频关键词。

在本实施例中，与上述第一实施例相同，将具有音频关键词的预设音频片段及待检索音频片段进行特征化以得到第一特征数据集及第二特征数据集，其中第一特征数据集包含至少一第一特征向量序列，第二特征数据集包含至少一第二特征向量序列。不同的是在从第二特征向量序列中截取与第一特征向量序列长度相同的第三特征向量序列之前，需要判断第二特征向量序列与第一特征向量序列的长度关系，若第二特征向量序列的长度大于等于第一特征向量序列的长度，则从第二特征向量序列中截取与第一特征向量序列长度相同的第三特征向量序列，通过计算第三特征向量序列与第一特征向量序列的余弦相似度来判断待检索音频片段是否包含音频关键词，若第二特征向量序列的长度小于第一特征向量序列的长度，则判定待检索音频片段不不包含音频关键词。以此能够实现检索方法实施简单，计算复杂度低，高效快速的目的。

请参见图3，为本发明音频关键词的检索方法的第三实施例的流程示意图。与第一实施例相比，区别在于：步骤S11包括：

步骤S21：根据设定的窗口时长和预设移动步长将所述预设音频片段分割成至少一个预设时长的预设音频片段，并计算任一所述预设时长的预设音频片段的第一短时平均幅度值和第一短时平均过零率，以得到第一短时平均幅度值特征向量和所述第一短时平均过零率特征向量，所述第一短时平均幅度值特征向量和所述第一短时平均过零率特征向量构成所述第一特征向量序列。

在本实施例中，将预设音频片段按照设定的窗口时长及预设移动步长进行分割，以将预设音频片段向量化。本实施例中，预设音频片段的长度可以是1秒，当然预设音频片段也可以是其他长度。例如在一实施例中预设音频片段的长度为1s，此时，设定窗口时长为0.1s，移动步长为0.025s，在对预设音频片段进行向量特征化时，得到第一个片段为0～0.1s，第二个片段为0.025～0.125s，第三个片段为0.05～0.15s，以此类推，直至最后一个片段为0.975～1s。在根据窗口时长及移动步长得出多个片段后，计算每一个片段的第一短时平均幅度值特征向量和第一短时平均过零率特征向量，例如预设音频片段进行向量特征化后得到预设长度的片段，则计算得出长度为预设长度的第一短时平均幅度值特征向量和第一短时平均过零率特征向量。其中，将第一短时平均幅度值特征向量记为Ve＝(V1、V2、V3……VL)，将第一短时平均过零率特征向量记为Ue＝(U1、U2、U3……UL)。其中，Ve＝(V1、V2、V3……VL)及Ue＝(U1、U2、U3……UL)均为第一特征向量序列。

在本实施例中，以此将具有音频关键词的预设音频片段进行特征化，能够大大减少计算量，实施简单。

步骤S12包括：步骤S22：根据所述窗口时长和所述预设移动步长将所述待检索音频片段分割成至少一个预设时长的待检索音频片段，并计算任一所述预设时长的待检索音频片段的第二短时平均幅度值和第二短时平均过零率，以得到第二短时平均幅度值特征向量和所述第二短时平均过零率特征向量，所述第二短时平均幅度值特征向量和所述第二短时平均过零率特征向量构成所述第二特征向量序列。

在本实施例中，将待检索音频片段按照与步骤S21相同的窗口时长及移动步长进行分割，以将待检索音频片段向量化。例如在一实施例中，待检索音频片段的长度为5s，窗口时长设定为0.1，移动步长设定为0.025s，在对预设音频片段进行向量特征化时，得到第一个片段为0～0.1s，第二个片段为0.025～0.125s，第三个片段为0.05～0.15，以此类推，直至最后一个片段为4.975～5s。在根据窗口时长及移动步长得出多个片段后，计算每一个片段的第二短时平均幅度值特征向量和第二短时平均过零率特征向量，例如待检索音频片段进行向量特征化后得到长度为S的片段，则计算得出S个第二短时平均幅度值特征向量和第二短时平均过零率特征向量。其中，将第二短时平均幅度值特征向量记为Vue＝(V1、V2、V3…VL…VS)，将第二短时平均过零率特征向量记为Uue＝(U1、U2、U3…UL…US)。其中，Vue＝(V1、V2、V3…VL…VS)及Uue＝(U1、U2、U3…UL…US)均为第二特征向量序列。

在本实施例中，以此将待检索音频片段进行特征化，能够大大减少计算量，实施简单。

步骤S13包括：步骤S33：以预设的步进长度，从所述第二特征向量序列中截取至少一个长度等于所述第一特征向量序列的长度的所述第三特征向量序列。

具体的，在本实施例中，以预设的步进长度，从第二特征向量序列中截取至少一个长度等于第一特征向量序列的长度的第三特征向量序列。具体地，若第一特征向量序列为第一短时平均幅度值特征向量时，则将第二特征向量序列中的第二短时平均幅度值特征向量进行截取，截取与第一特征向量序列长度相同的第三特征向量序列。

若第一特征向量序列为第一短时平均过零率特征向量时，则将第二特征向量序列中的第二短时平均过零率特征向量进行截取，截取与第一特征向量序列长度相同的第三特征向量序列。

在一具体实施例中，在截取得到第三特征向量序列时，按照预设的步进长度进行截取，为了确保检索的准确性，以一个最小单位长度为步进长度，将第二特征化数据集分成多个长度为L的第三特征化数据集。具体地，假设最小单位长度为1，此时步进长度＝1，截取的第一个长度为预设长度的第三特征向量序列为SubVue＝(V1、V2、V3…VL)、SubUue＝(U1、U2、U3…UL)，第二个长度为预设长度的第三特征向量序列SubVue＝(V2、V3、V4…VL、VL+1)、SubUue＝(U2、U3、U4…UL、UL+1)，直至第n个长度为预设长度的第三特征向量序列为SubVue＝(……VS)、SubUue＝(……US)。

请参见图4，为本发明关键词的检索方法的第四实施例的流程示意图，与上述图1所示的第一实施例相比，区别在于：步骤S14具体包括：

步骤S40：计算任一第一特征向量序列中的第一短时平均幅度值特征向量与对应第三特征向量序列中的第二短时平均幅度值特征向量的第一相似度。

具体地，第一特征向量序列中的第一短时平均幅度值特征向量为Ve＝(V1、V2、V3……VL)，第三特征向量序列中的第二短时平均幅度值特征向量依次为：SubVue＝(V1、V2、V3…VL)、(V2、V3、V4…VL、VL+1)、(……VS)；在此过程中，计算第一短时平均幅度值特征向量与任意一个第三特征向量序列中的第二短时平均幅度值特征向量的第一相似度。例如在一实施例中，第一相似度＝cosine(Ve，SubVue)。

步骤S41：计算任一第一特征向量序列中的第一短时平均过零率特征向量与对应第三特征向量序列中的第二短时平均过零率特征向量的第二相似度。

具体地，将第一短时平均过零率特征向量记为Ue＝(U1、U2、U3……UL)，第三特征向量序列中的第二短时平均过零率特征向量记为SubUue＝(U1、U2、U3…UL)、SubUue＝(U2、U3、U4…UL、UL+1)、SubUue＝(……US)；在此过程中，计算第一短时平均过零率特征向量与任意一个第三特征向量序列中的第二短时平均过零率特征向量的第二相似度。例如在一实施例中，第二相似度＝cosine(Ve，SubVue)。

步骤S42：计算第一相似度与第二相似度的乘积以得到相似度的值。

具体地，相似度的值为第一相似度乘以第二相似度，即cosine(Ve，SubVue)×cosine(Ve，SubVue)。

步骤S43：判断相似度的值是否大于等于预设预设阈值。

具体的，判断cosine(Ve，SubVue)×cosine(Ve，SubVue)的值是否大于等于预设阈值，根据判断结果得出待检索音频片段是否包含音频关键词。

若判断结果为相似度的值大于等于预设阈值，则步骤S44：待检索音频片段包含音频关键词。

在判断出待检索音频片段包含音频关键词后，还需要确认音频关键词的位置，具体的，请参见步骤S45：记录第三特征向量序列的偏移值。

在本实施例中，若截取的第三特征向量序列一共为3个，由于确认音频关键词的位置时需要从起始时间开始确认，则三个第三特征向量序列用偏移值表示为0，1，2。假如在检索第二个第三特征向量序列时检索到了音频关键词，此时记录偏移值为1。若截取的第三特征向量序列一共为n个，则n个第三特征向量序列用偏移值表示为0，1，2，3······n-2，n-1，假如在检索第n个第三特征向量序列时检索到了音频关键词，此时记录偏移值为n-1。

步骤S46：根据第三特征向量序列的偏移值和移动步长确定音频关键词在待检索音频片段中的时间位置。

在本申请中，延续上述的例子，在步骤S21及步骤S22中对预设音频片段进行特征化时，设定的移动步长为0.025s，若在检索第二个第三特征向量序列时检索到了音频关键词，此时在确定音频关键词在待检索音频片段中的时间位置时，用移动步长乘以偏移值即可得出。即1×0.025＝0.025，则音频关键词在待检索音频片段中的0.025秒处。若检索第n个第三特征向量序列时检索到了音频关键词，此时在确定音频关键词在待检索音频片段中的时间位置时，用移动步长乘以偏移值即可得出。即(n-1)×0.5，则音频关键词在待检索音频片段中的(n-1)×0.5秒处。

若判断结果为相似度的值小于预设阈值，则步骤S47：待检索音频片段不包含音频关键词。

具体的，要确认待检索音频片段不包含音频关键词，还需要进行步骤S48：判断第三特征向量序列是否为第二特征向量序列中最后一个特征向量序列。

即判断第二特征向量序列中截取的第三特征向量序列是否计算到最后一个，若是，则步骤S49：待检索音频片段不包含音频关键词。若判断第三特征向量序列没有计算到最后一个，则步骤S50：返回步骤S14，重新计算第一特征向量序列与第三特征向量序列的相似度。即若判断当前计算第二个第三特征向量序列也不是最后一个特征向量序列时，此时返回步骤S14，开始计算第三个第三特征向量序列与第一特征向量序列的相似度，若计算得出包含音频关键词的结果，则检索完毕，若没有得出包含音频关键词的结果，则再次计算下一个第三特征向量序列，直至计算到最后一个完毕。

通过上述方式的检索方法，经过特征化处理，大大减少了计算步骤，其实施简单，计算复杂度低，高效快速，且适用于音频检索应用场景的需要。

具体地，请参见图5，为本发明智能外呼方法的流程示意图。具体包括：

步骤S51：接收通讯服务端的早期媒体音频，作为待检索音频片段，所述待检索音频片段用于反馈自动外呼用户通讯终端的当前通讯状态。

具体地，智能外呼服务向目标电话拨出电话后，会从通讯服务端接收到被呼叫电话返回的早期媒体音频，早期媒体音频为能够反映被呼叫方状态的语音片段，本实施例中，通讯服务端为FreeSwitch连接的设备，即语音网关。例如，在拨打电话时，若对方正在通话中，此时呼叫方会收到例如“对不起，您所拨打的电话正在通话中，请稍后再拨”的语音片段。

步骤S52：根据关键词检索方法检索所述待检索音频片段，获取检索结果。

在呼叫方接收到早期媒体音频后，将早期媒体音频作为待检索音频片段，根据预设规则对待检索音频片段进行特征化处理得到第二特征数据集，第二特征数据集包含至少一个第二特征向量序列。在本实施例中，一般呼叫方会具有一段预设音频片段，其包含有至少一个能够反映被呼叫方状态的音频关键词，例如“关机”、“正在通话中”、“暂停服务”等，呼叫方终端对预设音频片段进行特征化处理，得到第一特征数据集，第一特征数据集至少包括一个第一特征向量序列。

具体地，若预设规则中设定窗口时长为0.1秒，移动步长为0.025秒，在对预设音频片段进行向量特征化时，得到每一个片段的第一短时平均幅度值特征向量和第一短时平均过零率特征向量。其中，将第一短时平均幅度值特征向量记为Ve＝(V1、V2、V3……VL)，将第一短时平均过零率特征向量记为Ue＝(U1、U2、U3……UL)。呼叫方以同样的方式对待检索音频片段(即早期媒体音频)进行特征化处理，计算每一个片段的第二短时平均幅度值特征向量和第二短时平均过零率特征向量。其中，将第二短时平均幅度值特征向量记为Vue＝(V1、V2、V3…VL…VS)，将第二短时平均过零率特征向量记为Uue＝(U1、U2、U3…UL…US)。

在判断待检索音频片段中是否包含关键词时，需要对待检索音频片段及预设音频片段进行相似度比较，在进行相似度比较时，需要从第二特征向量序列中截取至少一个长度等于第一特征向量序列的长度的第三特征向量序列，因此需要使第二特征数据集的长度大于第一特征数据集的长度。

具体地，以预设的步进长度，从第二特征向量序列中截取至少一个长度等于第一特征向量序列的长度的第三特征向量序列。如假设最小单位长度为1，此时步进长度＝1，截取的第一个长度为预设长度的第三特征向量序列为SubVue＝(V1、V2、V3…VL)、SubUue＝(U1、U2、U3…UL)，第二个长度为预设长度的第三特征向量序列SubVue＝(V2、V3、V4…VL、VL+1)、SubUue＝(U2、U3、U4…UL、UL+1)，直至第n个长度为预设长度的第三特征向量序列为SubVue＝(……VS)、SubUue＝(……US)。

计算第一短时平均幅度值特征向量与任意一个第三特征向量序列中的第二短时平均幅度值特征向量的第一相似度。例如在一实施例中，第一相似度＝cosine(Ve，SubVue)；计算第一短时平均过零率特征向量与任意一个第三特征向量序列中的第二短时平均过零率特征向量的第二相似度。例如在一实施例中，第二相似度＝cosine(Ve，SubVue)；再计算第一相似度与第二相似度的乘积以得到相似度的值，即cosine(Ve，SubVue)×cosine(Ve，SubVue)。

若得到相似度的值大于预设阈值时，则说明早期媒体音频中包含音频关键词。

步骤S53：根据检索结果，确认通讯终端的当前通讯状态。

例如，从早期媒体音频中检测到音频关键词为“关机”，则表示被呼叫方电话已关机，若检索到关键词“正在通话中”，则表示被呼叫方正在通话中，若检索到关键词“暂停服务”，则表示被呼叫方已暂停服务。

步骤S54：根据确定的当前通讯状态，确定自动外呼策略。

若通过上述关键词检索方法，未检索到关键词，则表示接收方正常使用，或状态未知，呼叫方可以选择继续呼叫也可以选择不继续呼叫。若检索到音频关键词，则表示被呼叫方不便于接收电话信号，如其“正在通话中”、“关机”等，呼叫方可根据提示改变呼叫策略。

请参见图6，为本发明音频关键词检索装置的第一实施例的结构示意图。包括：第一特征处理模块61、第二特征处理模块62、特征提取模块63及相似度比较模块64。

其中，第一特征处理模块61用于根据预设规则对预设音频片段进行特征化处理得到第一特征数据集，所述第一特征数据集包含至少一个第一特征向量序列，其中预设音频包含音频关键词；具体的，第一特征处理模块61还用于根据设定的窗口时长和预设移动步长将预设音频片段分割成至少一个预设时长的预设音频片段，并计算任一预设时长的预设音频片段的第一短时平均幅度值和第一短时平均过零率，以得到第一短时平均幅度值特征向量和第一短时平均过零率特征向量，第一短时平均幅度值特征向量和第一短时平均过零率特征向量构成所述第一特征向量序列。

其中，第二特征处理模块62用于获取待检索音频片段，并按照所述预设规则对所述待检索音频片段进行特征化处理得到第二特征数据集，所述第二特征数据集包含至少一个第二特征向量序列；具体的第二特征处理模块62还用于根据窗口时长和预设移动步长将待检索音频片段分割成至少一个预设时长的待检索音频片段，并计算任一预设时长的待检索音频片段的第二短时平均幅度值和第二短时平均过零率，以得到第二短时平均幅度值特征向量和第二短时平均过零率特征向量，第二短时平均幅度值特征向量和第二短时平均过零率特征向量构成所述第二特征向量序列。

其中，特征提取模块63用于从与第一特征向量序列对应的第二特征向量序列中截取与第一特征向量序列长度相同的第三特征向量序列；具体的，特征提取模块63获取与任一第一特征向量序列对应的第二特征向量序列的长度；若第二特征向量序列的长度大于等于第一特征向量序列的长度时，特征提取模块63以预设的步进长度，从第二特征向量序列中截取至少一个长度等于第一特征向量序列的长度的第三特征向量序列。

其中，相似度比较模块64用于通过计算第三特征向量序列与第一特征向量序列的相似度来判断待检索音频片段是否包含所述音频关键词。具体的，相似度比较模块64用于计算任一第一特征向量序列中的第一短时平均幅度值特征向量与对应第三特征向量序列中的第二短时平均幅度值特征向量的第一相似度；计算任一第一特征向量序列中的第一短时平均过零率特征向量与对应第三特征向量序列中的第一短时平均过零率特征向量的第二相似度；计算第一相似度及第二相似度的乘积以得到相似度的值，并判断相似度的值是否大于等于预设阈值。若相似度的值大于等于所述预设阈值，则待检索音频片段包含所述音频关键词；若相似度的值小于所述预设阈值，则所述待检索音频片段不包含所述音频关键词。

进一步的，相似度比较模块64还用于记录第三特征向量序列的偏移值；根据第三特征向量序列的偏移值和移动步长确定音频关键词在待检索音频片段中的时间位置。判断第三特征向量序列是否为第二特征向量序列中的最后一个特征向量序列，若是，则待检索音频片段不包含所述音频关键词；若否，则继续计算所述第三特征向量序列与所述第一特征向量序列相似度。

请参见图7，为本发明智能外呼装置的一实施例的结构示意图。包括：接收模块71、关键词检索模块72、状态检测模块73及执行模块74。

其中，接收模块71用于接收通讯服务端的早期媒体音频，作为待检索音频片段，所述待检索音频片段用于反馈自动外呼用户通讯终端的当前通讯状态。其中，关键词检索模块72用于根据上述任一项关键词检索方法检索所述待检索音频片段，并获取检索结果。状态检测模块73用于根据检索结果，确定通讯终端的当前通讯状态。具体地，若检索结果包含音频关键词，被呼叫方当前处于关键词所指示状态，所述未检索到音频关键词，则被呼叫方当前状态未知。执行模块74用于根据确定的当前通讯状态，确定自动外呼策略，若被呼叫方当前处于关键词所指示状态，执行模块74执行暂停呼叫命令或继续呼叫命令。

请参见图8，为本发明音频关键词检索装置的第二实施例的结构示意图。音频关键词检索装置包括相互连接的存储器81和处理器82。

存储器81用于存储程序指令。

处理器82用于调取存储器81存储的程序指令以执行如上述任意一项所述的音频关键词检索方法。

其中，处理器82还可以称为CPU(Central Processing Unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器81可以为内存条、TF卡等，可以存储音频关键词检索装置中全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器，音频关键词检索装置才有记忆功能，才能保证正常工作。音频关键词检索装置中的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，系统服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

请参阅图9，为本发明存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有智能输入方法的程序文件91，其中，该程序文件91可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频关键词的检索方法，其特征在于，包括：

根据预设规则对预设音频片段进行特征化处理得到第一特征数据集，所述第一特征数据集包含至少一个第一特征向量序列，其中所述预设音频包含音频关键词；

获取待检索音频片段，并按照所述预设规则对所述待检索音频片段进行特征化处理得到第二特征数据集，所述第二特征数据集包含至少一个第二特征向量序列；

从所述第二特征向量序列中对应截取与所述第一特征向量序列长度相同的第三特征向量序列；

通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词。

2.根据权利要求1所述的关键词检索方法，，其特征在于，所述从所述第二特征向量序列中对应截取与所述第一特征向量序列长度相同的第三特征向量序列的步骤之前，还包括：

获取与所述任一第一特征向量序列对应的第二特征向量序列的长度；

若所述第二特征向量序列的长度大于等于所述第一特征向量序列的长度，则通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词；

若所述第二特征向量序列的长度小于所述第一特征向量序列的长度，则所述待检索音频片段不包含所述音频关键词。

3.根据权利要求2所述的关键词检索方法，其特征在于，所述根据预设规则对预设音频片段进行特征化处理得到第一特征数据集，所述第一特征数据集包含至少一个第一特征向量序列，其中所述预设音频片段包含音频关键词的步骤，具体包括：

根据设定的窗口时长和预设移动步长将所述预设音频片段分割成至少一个预设时长的预设音频片段，并计算任一所述预设时长的预设音频片段的第一短时平均幅度值和第一短时平均过零率，以得到第一短时平均幅度值特征向量和第一短时平均过零率特征向量，所述第一短时平均幅度值特征向量和所述第一短时平均过零率特征向量构成所述第一特征向量序列；

所述获取待检索音频片段，并按照所述预设规则对所述待检索音频片段进行特征化处理得到第二特征数据集，所述第二特征数据集包含至少一个第二特征向量序列的步骤，具体包括：

根据所述窗口时长和所述预设移动步长将所述待检索音频片段分割成至少一个预设时长的待检索音频片段，并计算任一所述预设时长的待检索音频片段的第二短时平均幅度值和第二短时平均过零率，以得到第二短时平均幅度值特征向量和第二短时平均过零率特征向量，所述第二短时平均幅度值特征向量和所述第二短时平均过零率特征向量构成所述第二特征向量序列。

4.根据权利要求3所述的检索方法，其特征在于，所述从与所述第一特征向量序列对应的所述第二特征向量序列中截取与所述第一特征向量序列长度相同的第三特征向量序列的步骤包括：

以预设的步进长度，从所述第二特征向量序列中截取至少一个长度等于所述第一特征向量序列的长度的所述第三特征向量序列。

5.根据权利要求4所述的检索方法，其特征在于，所述通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词的步骤，具体包括：

判断所述相似度的值是否大于等于预设阈值；

若所述相似度的值大于等于所述预设阈值，则所述待检索音频片段包含所述音频关键词；

若所述余弦相似度的值小于所述预设阈值，则所述待检索音频片段不包含所述音频关键词。

6.根据权利要求5所述的检索方法，其特征在于，所述通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词的步骤，具体包括：

计算任一所述第一特征向量序列中的第一短时平均幅度值特征向量与对应所述第三特征向量序列中的第二短时平均幅度值特征向量的第一相似度；

计算任一所述第一特征向量序列中的第一短时平均过零率特征向量与对应所述第三特征向量序列中的第二短时平均过零率特征向量的第二相似度；

计算所述第一相似度及第二相似度的乘积以得到所述相似度的值，并判断所述相似度的值是否大于等于预设阈值。

7.根据权利要求6所述的检索方法，其特征在于，所述若所述相似度的值大于等于所述预设阈值，则所述待检索音频片段包含所述音频关键词的步骤，还包括：

记录所述第三特征向量序列的偏移值；

根据所述第三特征向量序列的偏移值和所述预设移动步长确定所述音频关键词在所述待检索音频片段中的时间位置；

所述若所述相似度的值小于所述预设阈值，则所述待检索音频片段不包含所述音频关键词的步骤，还包括：

判断所述第三特征向量序列是否为所述第二特征向量序列中的最后一个特征向量序列，若是，则所述待检索音频片段不包含所述音频关键词；

若否，则继续执行所述计算所述第三特征向量序列与所述第一特征向量序列相似度的步骤。

8.一种智能外呼方法，其特征在于，包括：

接收通讯服务端的早期媒体音频，作为待检索音频片段，所述待检索音频片段用于反馈自动外呼用户通讯终端的当前通讯状态；

根据权利要求1-7任一项所述关键词检索方法检索所述待检索音频片段，获取检索结果；

根据所述检索结果，确定所述通讯终端的当前通讯状态；

根据确定的所述当前通讯状态，确定自动外呼策略。

9.一种音频关键词检索装置，其特征在于，包括：

第一特征处理模块，用于根据预设规则对预设音频片段进行特征化处理得到第一特征数据集，所述第一特征数据集包含至少一个第一特征向量序列，其中所述预设音频包含音频关键词；

第二特征处理模块，用于获取待检索音频片段，并按照所述预设规则对所述待检索音频片段进行特征化处理得到第二特征数据集，所述第二特征数据集包含至少一个第二特征向量序列；

特征提取模块，用于从所述第二特征向量序列中对应截取与所述第一特征向量序列长度相同的第三特征向量序列；

相似度计算模块，用于通过计算所述第三特征向量序列与所述第一特征向量序列的相似度来判断所述待检索音频片段是否包含所述音频关键词。

10.一种智能外呼装置，其特征在于，包括：

接收模块，用于接收通讯服务端的早期媒体音频，作为待检索音频片段，所述待检索音频片段用于反馈自动外呼用户通讯终端的当前通讯状态；

关键词检索模块，用于根据权利要求1-7任一项所述关键词检索方法检索所述待检索音频片段，获取检索结果；

状态检测模块，用于根据所述检索结果，确定所述通讯终端的当前通讯状态；

执行模块，用于根据确定的所述当前通讯状态，确定自动外呼策略。

11.一种音频关键词检索装置，其特征在于，包括：相互藕接的处理器及存储器，其中，

所述存储器存储有程序指令；

所述处理器用于调取所述存储器存储的所述程序指令以执行如权利要求1-7任意一项所述的音频关键词的检索方法及权利要求8所述的智能外呼方法。

12.一种存储介质，其特征在于，存储有程序文件，所述程序文件能够被执行以实现如权利要求1-7任意一项所述的音频关键词的检索方法及权利要求8所述的智能外呼方法。