CN117877525A

CN117877525A - 一种基于可变粒度特征的音频检索方法和装置

Info

Publication number: CN117877525A
Application number: CN202410282560.4A
Authority: CN
Inventors: 朱文海; 罗柳平; 苏宇; 阎伟萍; 钟杰
Original assignee: Guangzhou Teligen Communication Technology Co ltd
Current assignee: Guangzhou Teligen Communication Technology Co ltd
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-04-12
Anticipated expiration: 2044-03-13
Also published as: CN117877525B

Abstract

本发明公开了一种基于可变粒度特征的音频检索方法和装置，方法包括当接收到待检索音频时，对待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从待检索音频中筛选初始音频，响应接收到的多个语音模板，构建对应的特征查找地图，根据特征查找地图检索第一音频特征序列，根据第一检索结果从初始音频中选取中间音频，对中间音频执行分帧提取，生成第二粒度的第二音频特征序列，根据特征查找地图检索第二音频特征序列，根据第二检索结果定位目标语音。从而通过不同粒度的音频特征序列匹配语音模板的方式，以粗粒度排除海量非目标语音，细粒度完全匹配目标语音的方式，有效提高音频匹配的可靠性和准确度。

Description

一种基于可变粒度特征的音频检索方法和装置

技术领域

本发明涉及音频检索技术领域，尤其涉及一种基于可变粒度特征的音频检索方法和装置。

背景技术

近年来，随着多媒体数据的快速增长，丰富多元的数据充斥着人们的生活，图像、文本、音频和视频等多媒体数据已经成为了人们认识世界的主要方式。随着多媒体与互联网的广泛应用，多媒体数据量正在呈指数增长，音频数据作为多媒体数据的重要组成部分，其信息量也在迅速膨胀，如何快速、准确的检索到所需要的信息已经成为现代信息检索领域的一个重点问题。

传统的音频检索方案通常是在海量语音里检索包含固定音频内容信息的目标语音，通过给定一个语音模板，在待检索语音里检索包含该音频内容的目标语音，这好比给定一段文本，在批量文章中检索包含该段文本的文章。

但由于音频内容和文本内容有巨大的差别，音频带有背景噪音，音量大小变化，音频失真等因素干扰，若是直接使用“比特位”的方式对比语音的相似度来检索语音，其对比语音的效率较低，且由于受到音频干扰的影响，导致音频匹配的可靠性无法得到保证。

发明内容

本发明提供了一种基于可变粒度特征的音频检索方法和装置，解决了由于音频内容和文本内容有巨大的差别，音频带有背景噪音，音量大小变化，音频失真等因素干扰，若是直接使用“比特位”的方式对比语音的相似度来检索语音，其对比语音的效率较低，且由于受到音频干扰的影响，导致音频匹配的可靠性无法得到保证的技术问题。

本发明提供的一种基于可变粒度特征的音频检索方法，包括：

当接收到待检索音频时，对所述待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从所述待检索音频中筛选初始音频；

响应接收到的多个语音模板，构建对应的特征查找地图；

根据所述特征查找地图检索所述第一音频特征序列，根据第一检索结果从所述初始音频中选取中间音频；

对所述中间音频执行分帧提取，生成第二粒度的第二音频特征序列；

根据所述特征查找地图检索所述第二音频特征序列，根据第二检索结果定位目标语音。

可选地，所述当接收到待检索音频时，对所述待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从所述待检索音频中筛选初始音频，包括：

当接收到待检索音频时，以预设采样点数为单位，按照第一帧移对所述待检索音频进行分帧，得到多个语音帧信号；

对各所述语音帧进行频域变换，分别生成多个频域简谐波信号；

根据多个所述频域简谐波信号的拆分提取结果，构建音频特征值序列和音频能量值序列；

从所述音频能量值序列中筛除小于所述预设能量阈值的音频能量值，得到多个更新能量值；

从所述音频特征值序列中选取全部所述更新能量值对应的第一音频特征值，构建第一粒度的第一音频特征序列；

从所述待检索音频选取全部所述更新能量值对应的语音帧信号，构建初始音频。

可选地，所述对各所述语音帧进行频域变换，分别生成多个频域简谐波信号，包括：

调用窗函数对各所述语音帧信号分别进行加窗操作，得到加窗信号；

对每个所述加窗信号执行快速傅里叶变换，分别生成对应的多个频域简谐波信号。

可选地，所述根据多个所述频域简谐波信号的拆分提取结果，构建音频特征值序列和音频能量值序列，包括：

按照频率从低至高对多个所述频域简谐波信号进行排序后，按照预设拆分数量拆分为多组中间简谐波；

计算每组所述中间简谐波中各个频域简谐波信号的振幅平方值；

计算全部所述振幅平方值的和值作为所述语音帧信号对应的音频能量值；

选取各组所述振幅平方值中最大值对应的简谐波下标，结合所述拆分数量和所述中间简谐波的组别编号，确定所述语音帧信号对应的音频特征值；

采用全部所述音频特征值构建音频特征值序列，采用全部所述音频能量值构建音频能量值序列。

可选地，所述响应接收到的多个语音模板，构建对应的特征查找地图，包括：

响应接收到的多个语音模板，从各所述语音模板分别提取语音特征序列和模板标识；所述语音特征序列包括多个语音特征值；

采用各所述语音特征值在所述语音特征序列中所处序列位置和所述模板标识，并关联所述语音特征值，生成特征查找地图。

可选地，所述根据所述特征查找地图检索所述第一音频特征序列，根据第一检索结果从所述初始音频中选取中间音频，包括：

遍历所述第一音频特征序列内的第一音频特征值，在所述特征查找地图确定所述第一音频特征值对应的第一目标模板标识和第一目标序列位置；

根据所述第一目标模板标识、第一目标序列位置和所述第一音频特征值在所述初始音频中的初始音频帧位置，确定第一匹配度；

从所述初始音频中筛除所述第一匹配度小于第一匹配度阈值的音频，得到中间音频。

可选地，所述根据所述第一目标模板标识、第一目标序列位置和所述第一音频特征值在所述初始音频中的初始音频帧位置，确定第一匹配度，包括：

计算所述第一音频特征值在所述初始音频中的初始音频帧位置和所述第一目标序列位置之间的差值，得到第一相对位置，并按预设步长累计第一帧匹配次数；

当所述第一音频特征值遍历完成后，按照最大的第一帧匹配次数关联的第一目标模板标识确定目标语音模板；

获取所述目标语音模板对应的模板帧数；

计算最大的第一帧匹配次数和所述模板帧数之间的比值，得到所述第一相对位置和所述目标语音模板之间的第一匹配度。

可选地，所述根据所述特征查找地图检索所述第二音频特征序列，根据第二检索结果定位目标语音，包括：

遍历所述第二音频特征序列内的第二音频特征值，在所述特征查找地图确定所述第二音频特征值对应的第二目标模板标识和第二目标序列位置；

计算所述第二音频特征值在所述中间音频中的第二音频帧位置和所述第二目标序列位置之间的差值，得到第二相对位置，并按预设步长累计第二帧匹配次数；

根据所述第二帧匹配次数和所述第二音频帧位置，确定第二匹配度；

从所述中间音频中选取所述第二匹配度大于第二匹配度阈值的音频，得到待定音频；

根据所述第二相对位置和所述第二粒度，从所述待定音频中定位所述语音模板对应的目标语音。

可选地，所述根据所述匹配相对位置偏移量和所述第二粒度，从所述待定音频中定位所述语音模板对应的目标语音，包括：

计算所述第二相对位置和所述第二粒度对应的时间之间的乘值，得到开始位置时刻；

基于所述语音模板的模板帧数和所述开始位置时刻，确定结束位置时刻；

按照所述开始位置时刻和所述结束位置时刻从所述中间音频定位所述语音模板对应的目标语音。

本发明还提供了一种基于可变粒度特征的音频检索装置，包括：

粗粒度特征序列生成模块，用于当接收到待检索音频时，对所述待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从所述待检索音频中筛选初始音频；

地图构建模块，用于响应接收到的多个语音模板，构建对应的特征查找地图；

音频检索模块，用于根据所述特征查找地图检索所述第一音频特征序列，根据第一检索结果从所述初始音频中选取中间音频；

细粒度特征序列生成模块，用于对所述中间音频执行分帧提取，生成第二粒度的第二音频特征序列；

语音定位模块，用于根据所述特征查找地图检索所述第二音频特征序列，根据第二检索结果定位目标语音。

从以上技术方案可以看出，本发明具有以下优点：

当接收到待检索音频时，对待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从待检索音频中筛选初始音频，响应接收到的多个语音模板，构建对应的特征查找地图，根据特征查找地图检索第一音频特征序列，根据第一检索结果从初始音频中选取中间音频，对中间音频执行分帧提取，生成第二粒度的第二音频特征序列，根据特征查找地图检索第二音频特征序列，根据第二检索结果定位目标语音。从而通过不同粒度的音频特征序列匹配语音模板的方式，以粗粒度排除海量非目标语音，细粒度完全匹配目标语音的方式，有效提高音频匹配的可靠性和准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种基于可变粒度特征的音频检索方法的步骤流程图；

图2为本发明另一实施例提供的一种基于可变粒度特征的音频检索方法的步骤流程图；

图3为本发明实施例提供的一种基于可变粒度特征的音频检索装置的结构框图。

具体实施方式

本发明实施例提供了一种基于可变粒度特征的音频检索方法和装置，用于解决由于音频内容和文本内容有巨大的差别，音频带有背景噪音，音量大小变化，音频失真等因素干扰，若是直接使用“比特位”的方式对比语音的相似度来检索语音，其对比语音的效率较低，且由于受到音频干扰的影响，导致音频匹配的可靠性无法得到保证的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种基于可变粒度特征的音频检索方法的步骤流程图。

步骤101，当接收到待检索音频时，对待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从待检索音频中筛选初始音频；

待检索音频指的是采样率为8k，即每秒采样8000次，每个采样点为16bit（使用16位即2字节存储一个采样点）的音频信号，例如语音信号等。若输入音频的采样率或采样点未满足要求，则将其转换为要求格式后再作为待检索音频执行后续过程。

分帧提取指的是对音频信号按照一定的采样点数以及一定的帧移进行分帧后进行频域转换，以及特征提取得到音频特征序列的过程。其中，分帧指的是把信号划分成一系列小段信号，每一小段信号称为帧（帧与帧之间允许有重叠的部分），作为频谱处理单元，后续用于傅里叶变换，以便分析和处理信号频谱。帧移指的是信号分帧时，前后两帧之间偏移的间隔。粒度指的是音频特征序列中帧移的采样间隔点数。

音频特征序列包括第一音频特征序列和第二音频特征序列，指的是从语音等音频中提取“可以鉴别语音内容”的关键鲁棒性音频特征信息所组成的序列数据，是基于语音内容的压缩签名，应用于语音内容对比和匹配。

由于现有技术中缺乏对音频进行不同粒度的检索，其音频匹配效果容易受到干扰的影响，为此在本实施例中，当接收到待检索音频时，可以先对其进行分帧提取，以从中提取到第一粒度的第一音频特征序列，作为后续语音模版的匹配数据基础。

与此同时，为减少后续音频检索的音频帧数，可以从待检索音频中按照分帧提取的能量值进行筛减，将“低能量值”的音频帧位置的音频内容排除，以从中筛选得到初始音频。

步骤102，响应接收到的多个语音模板，构建对应的特征查找地图；

语音模板指的是给定一段语音（语音时长5秒左右），用该段语音的固定音频内容作为语音搜索的匹配模板。

特征查找地图用于给定音频特征值作为查找关键字，可以查找出该音频特征值所在语音id和在语音模板中的位置。

在本实施例中，响应接收到的多个语音模板，对其进行解析并按照步骤101的操作提取其对应的语音特征值，以及语音模板的模板标识和序列位置，建立其关联关系，以得到多个语音模板对应的特征查找地图。

需要说明的是，语音模板中可能存在多个同值的语音特征值。

步骤103，根据特征查找地图检索第一音频特征序列，根据第一检索结果从初始音频中选取中间音频；

在生成特征查找地图后，采用该特征查找地图检索第一音频特征序列，对第一音频特征序列中的每个第一音频特征逐一进行匹配，以确定各个第一音频特征分别匹配的语音特征值，从而检索到其对应的模板标识和序列位置作为第一检索结果。进一步按照该第一检索结果计算每帧音频和语音模板之间的第一匹配度后，按照该第一匹配度与第一匹配度阈值的比较结果从初始音频选取中间音频。

在具体实现中，在帧移为128个采样点时，语音模板的长度为5秒且第一匹配度小于3.5%时，该语音模板排除非目标语音的准确率接近100%，从而能够筛选得到存在目标语音的中间音频。

步骤104，对中间音频执行分帧提取，生成第二粒度的第二音频特征序列；

在完成中间音频的筛选后，由于第一粒度的精度限制，需要进一步以更小的帧移对中间音频执行分帧提取，以得到精度更高的第二粒度的第二音频特征序列作为目标语音的定位数据基础。

需要说明的是，第二粒度可以为帧移64个采样点，第一粒度为帧移128个采样点，每帧音频数据为512个采样点（0.064秒的音频信号作为一帧），且前后帧之间可以重叠。

步骤105，根据特征查找地图检索第二音频特征序列，根据第二检索结果定位目标语音。

在本实施例中，采用该特征查找地图检索第二音频特征序列，对第二音频特征序列中的每个第二音频特征逐一进行匹配，以确定各个第二音频特征分别匹配的语音特征值，从而检索到其对应的模板标识和序列位置作为第二检索结果。进一步按照该第二检索结果计算每帧音频和语音模板之间的第二匹配度后，按照该第二匹配度与第二匹配度阈值的比较结果从中间音频中定位到目标语音所处的位置。

需要说明的是，语音模板的长度为5秒且匹配度大于等于6%时，语音模板匹配目标语音的结果准确率几乎100%，从而可以设定阈值6%来精确匹配目标的结果值。

在本发明实施例中，当接收到待检索音频时，对待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从待检索音频中筛选初始音频，响应接收到的多个语音模板，构建对应的特征查找地图，根据特征查找地图检索第一音频特征序列，根据第一检索结果从初始音频中选取中间音频，对中间音频执行分帧提取，生成第二粒度的第二音频特征序列，根据特征查找地图检索第二音频特征序列，根据第二检索结果定位目标语音。从而通过不同粒度的音频特征序列匹配语音模板的方式，以粗粒度排除海量非目标语音，细粒度完全匹配目标语音的方式，有效提高音频匹配的可靠性和准确度。

请参阅图2，图2为本发明实施例提供的一种基于可变粒度特征的音频检索方法的步骤流程图。

在本实施中步骤101拆分为步骤201-206，以细化其分帧提取的过程。

步骤201，当接收到待检索音频时，以预设采样点数为单位，按照第一帧移对待检索音频进行分帧，得到多个语音帧信号；

在本实施例中，输入音频统一转换成8k采样率（每秒采样8000次），每个采样点16bit（使用16位即2字节存储一个采样点）的待检索音频。以预设采样点数为单位，即连续512个采样点作为一帧（相当于0.064秒的语音信号作为一帧），前后帧之间可以重叠，同时按照第一帧移即128个采样点的间隔，将待检索音频逐帧进行分割，从而得到多个语音帧信号。

步骤202，对各语音帧进行频域变换，分别生成多个频域简谐波信号；

进一步地，步骤202可以包括以下子步骤：

调用窗函数对各语音帧信号分别进行加窗操作，得到加窗信号；

对每个加窗信号执行快速傅里叶变换，分别生成对应的多个频域简谐波信号。

简谐波信号指的是简谐运动的波形信号。

加窗操作指的是帧的信号函数乘以窗函数，用于调整帧信号的权重。在本实施例中选取的窗函数为汉宁窗，其窗离散函数为w[i]=0.5*(1-cos(2*π*i/(N-1))，其中i=0,1,2,……，N-1；N为窗体大小。

在本实施例中，可以调用窗函数对各个语音帧信号分别进行加窗操作，从而生成加窗信号。具体地，对语音帧信号加“汉宁窗”，用来平滑削弱帧的开始和结束位置的信号内容，从而可以避免因语音帧采样点信号始末边缘突变导致信号通过FFT转换成一系列频域简谐波叠加的失真，C++操作代码如下：

for(int i=0;i<NFFT;i++) hanningWindow[i]=0.5-0.5*cos(PI2*i/(NFFT-1));(I)

for(int i=0;i<NFTT;i++) xout[start+i]=x[start+i]*hanningWindow[i];(II)

其中，(I)代码是初始化汉宁窗，其中PI2是2倍π值（2*3.14159……），NFFT是帧长512（512刚好是2的9次方，以便后续用于信号FFT快速傅里叶变换）。(II)代码是对信号进行加窗操作，一帧的输入信号为：x[start]到x[start+511]，start是帧开始的采样点位置值，信号加“汉宁窗”后的输出信号为xout[start]到xout[start+511]。

在生成加窗信号后，可以对其进行快速傅里叶变换，以生成每个加窗信号分别对应的多个频域简谐波信号。具体地，对每帧加窗信号中加了汉宁窗的512个采样点信号进行FFT快速傅里叶变换，可以输出该帧的一系列频域简谐波信号。

其中，每个频域简谐波信号对应一个复数a+bi，a*a+b*b则可以计算得到简谐波的振幅值的平方，振幅值的平方可代表该简谐波信号的能量值。

步骤203，根据多个频域简谐波信号的拆分提取结果，构建音频特征值序列和音频能量值序列；

在本发明的一个示例中，步骤203可以包括以下子步骤：

按照频率从低至高对多个频域简谐波信号进行排序后，按照预设拆分数量拆分为多组中间简谐波；

计算每组中间简谐波中各个频域简谐波信号的振幅平方值；

计算全部振幅平方值的和值作为语音帧信号对应的音频能量值；

选取各组振幅平方值中最大值对应的简谐波下标，结合拆分数量和中间简谐波的组别编号，确定语音帧信号对应的音频特征值；

采用全部音频特征值构建音频特征值序列，采用全部音频能量值构建音频能量值序列。

在本实施例中，在完成频域简谐波的提取后，需要进一步各个频域简谐波信号进行拆分，以提取到每帧语音帧信号对应的音频特征值和音频能量值。为此可以按照频率从低频至高频对全部频域简谐波信号进行排序，再按照预设的拆分数量将其拆分为多组中间简谐波，例如从低频到高频每18个简谐波信号作为一组，每组下标标记为0~17，一共获取4组。

再计算每组中间简谐波中各个频域简谐波信号的振幅平方值，而每个频域简谐波信号对应一个复数a+bi，a*a+b*b则可以计算得到简谐波的振幅平方值，通过计算全部振幅平方值的和值作为该帧语音帧信号对应的音频能量值。

与此同时，从各组振幅平方值中选取最大值所对应的简谐波下标，结合拆分数量和中间简谐波的组别编号，确定语音帧信号对应的音频特征值，音频特征值计算过程如下：

；

其中，k为中间简谐波的组数，B为每组中间简谐波内频域简谐波信号的数量，每组中间简谐波内频域简谐波信号的间谐波下标为0~B-1，i为第i组中间简谐波，为第i组中间简谐波中振幅平方值最大值对应的简谐波下标，/>的取值范围为0~B-1。

在本实施例中，一帧音频帧信号512个采样点经过步骤201-203后压缩为一个音频特征值和一个音频能量值，在得到全部音频帧信号分别对应的音频特征值和音频能量值后，可以采用全部音频特征值构建音频特征值序列，采用全部音频能量值构建音频能量值序列。

需要说明的是，音频特征值序列内的每个音频特征值均与音频能量值序列中对应位置的音频能量值一一对应。

步骤204，从音频能量值序列中筛除小于预设能量阈值的音频能量值，得到多个更新能量值；

步骤205，从音频特征值序列中选取全部更新能量值对应的第一音频特征值，构建第一粒度的第一音频特征序列；

在得到音频能量值序列和音频特征值序列后，由于并不是全部音频帧信号均属于语音信号，即部分音频帧信号可能仅存在白噪音或者背景空白噪音等。为提高语音内容的匹配效率，把这些“低能量”的音频帧位置语音内容排除掉，帧位置对应的音频特征值不计入匹配结果。可以按照音频能量值和预设能量阈值的比较结果，从音频能量值序列中筛除小于预设能量阈值的音频能量值，得到多个更新能量值。进一步从音频特征值序列中选取全部更新能量值对应的第一音频特征值，构建第一粒度的第一音频特征序列。

需要说明的是，白噪音为功率频谱密度近似为常数的随机信号，背景空白噪音指的是语音背景只有白噪音，无其它内容的语音，预设能量阈值可以设为。

步骤206，从待检索音频选取全部更新能量值对应的语音帧信号，构建初始音频；

与此同时，为了提升有效语音内容的匹配准确率，把这些“低能量”的音频帧位置语音内容排除掉，从待检索音频删掉除全部更新能量值对应的其余语音帧信号，采用更新能量值所对应的语音帧信号构建初始音频作为后续音频检索的数据基础。

步骤207，响应接收到的多个语音模板，构建对应的特征查找地图；

在本发明的一个示例中，步骤207可以包括以下子步骤：

响应接收到的多个语音模板，从各语音模板分别提取语音特征序列和模板标识；语音特征序列包括多个语音特征值；

采用各语音特征值在语音特征序列中所处序列位置和模板标识，并关联语音特征值，生成特征查找地图。

在进行语音检索时，通常是同时使用一段语音作为检索目标进行检索，但若是对整段语音进行检索则会导致检索效率较低。为此，可以将需要检索的语音划分为相同长度的多个语音模板，以语音模板作为检索目标进行逐一检索。

具体地，响应其预划分的多个语音模板，从各个语音目标分别提取到语音特征序列，语音特征序列包括多个语音特征值，其提取过程可以参照步骤201-205的过程，在此不在赘述。同时每个语音模板均预设有唯一的模板标识。

在得到模板标识和语音特征序列后，可以进一步参照键值对的方式创建关联关系，以各个语音特征值作为key，采用各语音特征值在语音特征序列中所处序列位置和模板标识作为value，并建立每个语音模板内每个语音特征值分别对应的关联关系，从而得到特征查找地图。

需要说明的是，特征查找地图可以通过以下C++代码进行定义：

//块信息：文件下标，块下标（用于Map检索）

typedef struct ChunkInfo{

int file_index;

int chunk_index;

}ChunkInfo;

map<int,vector<ChunkInfo>>vpMap;

其中，map的key为“语音模板”的“音频特征值”（语音模板可能存在多个同值的“音频特征值”），映射的value为一个列表，列表的元素为一个数据结构体，结构体里面包含该语音模板的“模板id（即模板标识）”，以及该特征值的所在该模板的“语音特征序列”的下标位置（即序列位置）。多个“语音模板”的特征值序列可以一起构造成一个特征查找地图。

步骤208，根据特征查找地图检索第一音频特征序列，根据第一检索结果从初始音频中选取中间音频；

在本发明的一个示例中，步骤208可以包括以下子步骤S11-S13：

S11、遍历第一音频特征序列内的第一音频特征值，在特征查找地图确定第一音频特征值对应的第一目标模板标识和第一目标序列位置；

在本实施例中，通过遍历第一音频特征序列内的第一音频特征值，逐一定位各个第一音频特征值在初始音频中的初始音频帧位置index。与此同时，在特征查找地图中进行第一音频特征值的检索，以确定各第一音频特征值分别对应的第一目标模板标识和第一目标序列位置。

具体地，可以采用第一音频特征值作为检索键在特征查找地图中进行检索匹配，以检索到相同的语音特征值，进而获取到该语音特征值关联的映射表，确定第一目标模板标识match_id和第一目标序列位置match_index。

S12、根据第一目标模板标识、第一目标序列位置和第一音频特征值在初始音频中的初始音频帧位置，确定第一匹配度；

进一步地，S12可以包括以下子步骤：

计算第一音频特征值在初始音频中的初始音频帧位置和第一目标序列位置之间的差值，得到第一相对位置，并按预设步长累计第一帧匹配次数；

当第一音频特征值遍历完成后，按照最大的第一帧匹配次数关联的第一目标模板标识确定目标语音模板；

获取目标语音模板对应的模板帧数；

计算最大的第一帧匹配次数和模板帧数之间的比值，得到第一相对位置和目标语音模板之间的第一匹配度。

在本发明的另一个示例中，在定位到第一音频特征值在初始音频中的初始音频帧位置，计算初始音频帧位置和第一目标序列位置之间的差值，从而得到第一相对位置match_offset，即匹配相对位置偏移量；与此同时，按照预设步长对其对应的二维map的第一帧匹配次数MapCount[match_id][match_offset]进行累计，预设步长可以为1。

当第一音频特征值遍历完成后，即完成了特征查找地图和第一音频特征序列之间的检索匹配后，此时可以得到匹配初始音频的各个语音模板在各个第一相对位置的第一匹配次数所对应的二维map相对偏移位置匹配帧次数MapCount。从MapCount中获取最大的元素MapCount[match_id][match_offset]，即最大的第一帧匹配次数，按照最大的第一帧匹配次数关联的第一目标模板标识确定目标语音模板。其对应的match_id 便是匹配初始音频的最佳“语音模板”id，match_offset便是最佳匹配相对位置，即最优的结果是在初始音频的match_offset位置匹配 match_id 语音模板，匹配的帧次数是MapCount[match_id][match_offset]。

与此同时，获取目标语音模板对应的模板帧数作为后续第一匹配度的计算基础，该目标语音模板的匹配帧次数为最大的第一帧匹配次数，则可以通过计算最大的第一帧匹配次数和模板帧数之间的比值，得到第一相对位置和目标语音模板之间的第一匹配度：

在具体实现中，若在待检索语音F的match_offset位置匹配上id为match_id的语音模板T，最大的第一帧匹配次数为match_count，T的帧数为frame_count，则匹配度P=match_count/frame_count。

需要说明的是，二维map为C++中的类型定义 map<int,map<int,int>>，可以类似二维数组元素下标一样获取二维map值。

对第一音频特征序列内的每个第一音频特征值执行上述过程S11-S12后，从而计算出每帧语音帧信号分别对应的第一匹配度。

S13、从初始音频中筛除第一匹配度小于第一匹配度阈值的音频，得到中间音频。

当帧移为128个采样点时，语音模板T的长度为5秒且匹配度小于3.5%时，语音模板排除非目标语音准确率几乎100%，从而可以设定阈值3.5%来排除大量非目标语音的结果。此时可以从初始音频中筛除第一匹配度小于第一匹配度阈值的音频/语音帧信号，从而排除大量非中标语音，得到待检索的中间音频。

步骤209，对中间音频执行分帧提取，生成第二粒度的第二音频特征序列；

在本发明实施例中，第二粒度的第二音频特征序列的生成过程可以参见步骤201-205的过程，在此不在赘述。

其中，第二粒度为帧移64个采样点。

步骤210，根据特征查找地图检索第二音频特征序列，根据第二检索结果定位目标语音。

在本发明的一个示例中，步骤210可以包括以下子步骤S21-S25：

S21、遍历第二音频特征序列内的第二音频特征值，在特征查找地图确定第二音频特征值对应的第二目标模板标识和第二目标序列位置；

S22、计算第二音频特征值在中间音频中的第二音频帧位置和第二目标序列位置之间的差值，得到第二相对位置，并按预设步长累计第二帧匹配次数；

S23、根据第二帧匹配次数和第二音频帧位置，确定第二匹配度；

在本发明实施例中，步骤S21-S23的具体实施过程可以参见步骤S11-S12，在此不再赘述。

具体地，S23可以包括以下子步骤：

当第二音频特征值遍历完成后，按照最大的第二帧匹配次数关联的第二目标模板标识确定更新语音模板；

获取更新语音模板对应的模板帧数；

计算最大的第二帧匹配次数和模板帧数之间的比值，得到第二相对位置和更新语音模板之间的第二匹配度。

S24、从中间音频中选取第二匹配度大于第二匹配度阈值的音频，得到待定音频；

当帧移为64采样点时，语音模板T的长度为5秒且匹配度大于等于6%时，语音模板匹配目标语音的结果准确率几乎100%，从而可以设定阈值6%来精确匹配目标的结果值。在本实施例中，可以从中间音频中选取第二匹配度大于第二匹配度阈值即6%的音频/语音帧信号，从而得到待定音频。

在具体实现中，在海量语音里检索与语音模板中标的语音，绝大部分语音都是非目标语音，粗粒度检索比细粒度检索性能更优，为此可以先通过步骤201-208排除大量非中标语音，筛选到的小部分待检索的语音后再通过步骤209-210来精确匹配中标结果，从而可以提高程序处理性能。

需要说明的是，由于第一匹配度和第二匹配度通常是以百分比的形式显示，其代表含义可能无法明确表达，例如大于6%即可作为待定音频。为此，可以对第一匹配度和第二匹配度进行规范化，以分值规范化成结果分Score（0分~100分）：

；

S25、根据第二相对位置和第二粒度，从待定音频中定位语音模板对应的目标语音。

进一步地，S25可以包括以下子步骤：

计算第二相对位置和第二粒度对应的时间之间的乘值，得到开始位置时刻；

基于语音模板的模板帧数和开始位置时刻，确定结束位置时刻；

按照开始位置时刻和结束位置时刻从中间音频定位语音模板对应的目标语音。

在本发明实施例中，由于采样点数是固定的，每帧512个采样点，对应时间是0.064秒（64毫秒），细粒度帧移为64个采样点，对应时间是0.008秒（8毫秒），为此可以通过计算第二相对位置match_offset和第二粒度之间的乘值，得到目标语音的开始位置时刻(毫秒），即：

start_time=match_offset*8

语音模板的模板帧数为len，其模板时长（毫秒）可以为t_time：

t_time=len*8+(64-8)

基于语音模板的模板帧数和开始位置时刻，确定结束位置时刻end_time：

end_time=start_time+t_time=(match_offset+len)*8+56

需要说明的是，当语音模板匹配的目标语音在开头或者结尾时，需要边缘化处理，保证start_time>=0，且end_time时长不超过待检索语音的时长。

在具体实现中，在算法处理参数方面，简谐波分组为20同样具有较好的“语音模板检索”效果，采用20分组时，对应的特征值可以用4位20进制的数值表示。“低能量”帧阈值为10⁸~10¹¹的范围都有较好的排除“低能量”帧效果。在提取音频帧的特征值的过程中，关注的是各组简谐波的能量峰值对应简谐波的组内下标，即各组能量峰出现的频域位置，简谐波能量值是中间计算结果，该简谐波能量值可以统一用简谐波振幅值的任意次方表示（简谐波能量一般用振幅绝对值或振幅的2次方来表示），不同的方法表示简谐波能量，对应的“低能量”帧的阈值会不同，本发明采用的是简谐波振幅的2次方表示简谐波能量。本发明使用粗细两个粒度“匹配器”，即生成不同粒度的音频特征序列，也可以用多个“匹配器”来筛选过滤“语音模板检索”的结果。本发明使用的语音模板长度为5秒，对于4秒到6秒左右的语音模板，算法参数依然有较好的“语音模板检索”效果。

在本发明实施例中，当接收到待检索音频时，对待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从待检索音频中筛选初始音频，响应接收到的多个语音模板，构建对应的特征查找地图，根据特征查找地图检索第一音频特征序列，根据第一检索结果从初始音频中选取中间音频，对中间音频执行分帧提取，生成第二粒度的第二音频特征序列，根据特征查找地图检索第二音频特征序列，根据第二检索结果定位目标语音。从而通过不同粒度的音频特征序列匹配语音模板的方式，以粗粒度排除海量非目标语音，细粒度完全匹配目标语音的方式，与现有技术相比，使用本发明设定的参数，使得“语音模板检索”在 “电话语音”情况下匹配效果更佳，并且性能更优。与现有技术相比，使用本发明的“音频能量值”排除“低能量”帧的方法，使得“语音模板检索”在语音普遍含有“空白噪音”和“静音”的情况下依然适用，有效提高音频检索匹配的准确度和可靠性。

请参阅图3，图3示出了本发明实施例中的一种基于可变粒度特征的音频检索装置的结构框图。

粗粒度特征序列生成模块301，用于当接收到待检索音频时，对待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从待检索音频中筛选初始音频；

地图构建模块302，用于响应接收到的多个语音模板，构建对应的特征查找地图；

音频检索模块303，用于根据特征查找地图检索第一音频特征序列，根据第一检索结果从初始音频中选取中间音频；

细粒度特征序列生成模块304，用于对中间音频执行分帧提取，生成第二粒度的第二音频特征序列；

语音定位模块305，用于根据特征查找地图检索第二音频特征序列，根据第二检索结果定位目标语音。

可选地，粗粒度特征序列生成模块301，包括：

分帧子模块，用于当接收到待检索音频时，以预设采样点数为单位，按照第一帧移对待检索音频进行分帧，得到多个语音帧信号；

频域变换子模块，用于对各语音帧进行频域变换，分别生成多个频域简谐波信号；

序列构建子模块，用于根据多个频域简谐波信号的拆分提取结果，构建音频特征值序列和音频能量值序列；

能量值筛除子模块，用于从音频能量值序列中筛除小于预设能量阈值的音频能量值，得到多个更新能量值；

粗粒度序列生成子模块，用于从音频特征值序列中选取全部更新能量值对应的第一音频特征值，构建第一粒度的第一音频特征序列；

初始音频构建子模块，用于从待检索音频选取全部更新能量值对应的语音帧信号，构建初始音频。

可选地，频域变换子模块具体用于：

可选地，序列构建子模块具体用于：

计算每组中间简谐波中各个频域简谐波信号的振幅平方值；

可选地，地图构建模块302具体用于：

可选地，音频检索模块303，包括：

第一检索子模块，用于遍历第一音频特征序列内的第一音频特征值，在特征查找地图确定第一音频特征值对应的第一目标模板标识和第一目标序列位置；

第一匹配度计算子模块，用于根据第一目标模板标识、第一目标序列位置和第一音频特征值在初始音频中的初始音频帧位置，确定第一匹配度；

第一筛选子模块，用于从初始音频中筛除第一匹配度小于第一匹配度阈值的音频，得到中间音频。

可选地，第一匹配度计算子模块具体用于：

获取目标语音模板对应的模板帧数；

可选地，语音定位模块305，包括：

第二检索子模块，用于遍历第二音频特征序列内的第二音频特征值，在特征查找地图确定第二音频特征值对应的第二目标模板标识和第二目标序列位置；

第二相对位置确定子模块，用于计算第二音频特征值在中间音频中的第二音频帧位置和第二目标序列位置之间的差值，得到第二相对位置，并按预设步长累计第二帧匹配次数；

第二匹配度计算子模块，用于根据第二帧匹配次数和第二音频帧位置，确定第二匹配度；

待定音频筛选子模块，用于从中间音频中选取第二匹配度大于第二匹配度阈值的音频，得到待定音频；

目标语音定位子模块，用于根据第二相对位置和第二粒度，从待定音频中定位语音模板对应的目标语音。

可选地，目标语音定位子模块具体用于：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、模块和子模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于可变粒度特征的音频检索方法，其特征在于，包括：

响应接收到的多个语音模板，构建对应的特征查找地图；

2.根据权利要求1所述的方法，其特征在于，所述当接收到待检索音频时，对所述待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从所述待检索音频中筛选初始音频，包括：

从所述音频能量值序列中筛除小于预设能量阈值的音频能量值，得到多个更新能量值；

3.根据权利要求2所述的方法，其特征在于，所述对各所述语音帧进行频域变换，分别生成多个频域简谐波信号，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据多个所述频域简谐波信号的拆分提取结果，构建音频特征值序列和音频能量值序列，包括：

5.根据权利要求1所述的方法，其特征在于，所述响应接收到的多个语音模板，构建对应的特征查找地图，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述特征查找地图检索所述第一音频特征序列，根据第一检索结果从所述初始音频中选取中间音频，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一目标模板标识、第一目标序列位置和所述第一音频特征值在所述初始音频中的初始音频帧位置，确定第一匹配度，包括：

获取所述目标语音模板对应的模板帧数；

8.根据权利要求5所述的方法，其特征在于，所述根据所述特征查找地图检索所述第二音频特征序列，根据第二检索结果定位目标语音，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述匹配相对位置偏移量和所述第二粒度，从所述待定音频中定位所述语音模板对应的目标语音，包括：

10.一种基于可变粒度特征的音频检索装置，其特征在于，包括：