CN111724824A

CN111724824A - 一种音频的储存和检索方法

Info

Publication number: CN111724824A
Application number: CN202010529367.8A
Authority: CN
Inventors: 龙图景; 刘政伟
Original assignee: Beijing Kaishida Information Technology Co ltd
Current assignee: Beijing Kaishida Information Technology Co ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-29
Anticipated expiration: 2040-06-11
Also published as: CN111724824B

Abstract

本发明涉及一种音频的储存和检索方法，在存储音频数据时，将音频数据对应的PCM波形中的拐点进行统计和拐点的坐标进行记录，同时将相邻拐点横向距离和纵向距离进行计算并记录，从而得出一个可以大致反应音频数据PCM波形的数据列，将冗余信息剔除，节省存储空间；检索时，按照同样的步骤获得音频样本的数据列，再通过分步检索，首先将音频样本中的部分数据列带入至存储音频中的数据列中，如果符合再将音频样本中的全部的数据列带入至存储音频中的数据列中，如果符合再将音频样本的PCM波形带入至存储音频中的PCM波形中，分段检索，实现先粗略再精细的检索方式，避免浪费大量的运算力进行逐一对比，从而提高检索效率。

Description

一种音频的储存和检索方法

技术领域

本发明涉及音频处理技术领域，具体是一种音频的储存和检索方法。

背景技术

随着多媒体技术的发展，音频检索作为研究热点，已经在广告检索、网络监管领域得到了广泛应用。音频检索，是从待检音频中检索并定位与指定音频 (或者称为样本音频)同源的音频片段。

当然，同源并非完全相同，也可能经过翻录或者编码压缩等处理。目前，一种音频检索方法是，将待检音频与样本音频按相同的时间间隔划分成帧系列，分别提取各帧的语音特征，并计算对应位置上的两个语音特征的距离，将各个距离累加后，根据距离和值来判断待检音频与样本音频的相似度。但是，由于样本音频通常较短，它在待检音频中的位置是不确定的，因此，需要采用滑移窗口的方式，依次在待检音频中，执行上述音频检索方法，以在待检音频中检索并定位样本音频。

然而，以上音频检索方式，运算量较大，检索效率较低。

发明内容

有鉴于此，本发明的目的是提供一种音频的储存和检索方法，能够对音频进行压缩存储，同时检索时能够减少运算量，提高检索速度和正确率。

本发明的一种音频的储存和检索方法，包括步骤：

步骤S101，将音频数据进行模数转换，同时按照特定的采样率f将音频进行 PCM编码，从而数字音频转换为在横轴为时间纵轴为音强的坐标轴上的波形；

步骤S102，将获得的PCM音频数据中的冗余信息进行剔除；

步骤S103，将剔除冗余信息后的PCM音频编码进行拐点统计，并对拐点进行标记，标记出拐点An处的坐标值(x_n，y_n)；

步骤S104，计算出所有的相邻拐点An之间的横坐标和纵坐标的差值(Δx,Δy)，将其记录在前一个或者后一个的拐点信息内，从而获得音调和音强的两个的拐点数据列S(Δx_n)和S(Δy_n)；

步骤S105，将PCM音频数据的波形还原为特定格式的音频进行存储。

进一步地，所述步骤S102中的冗余信息为音强小于10分贝的PCM音频数据。

进一步地，所述步骤S103中的拐点统计的步骤包括：

S10301，在PCM坐标轴上的PCM音频数据的波形上任意取4个相邻的点A1(x1， y1)、A2(x2，y2)、A3(x3，y3)和A4(x4，y4)，取A1(x1，y1)和A2(x2，y2)，得到正向直线方程L12(x，y)＝(x2-x1)(y-y1)+(y1-y2)(x-x1)；

S10302，计算函数值L12(x3，y3)，如果L12(x3，y3)小于0，则确定A3(x3， y3)位于正向直线L12的内侧，如果L12(x3，y3)大于0，则确定A3(x3，y3)位于正向直线L12的外侧，从而确定点A3(x3，y3)位于得到正向直线方程L1的哪一侧，

然后再取点A2(x2，y2)，A3(x3，y3)得到另一正向直线方程L23(x， y)＝(x3-x2)(y-y2)+(y2-y3)(x-x2)，

计算函数值L23(x4，y4)，可以确定点A4(x4，y4)位于得到正向直线方程L2 的哪一侧，如果L12(x3，y3)*L23(x4，y4)<0，可以得出点A3(x3，y3)是一个拐点，否则A3(x3，y3)不是拐点；

S10303，重复上述计算步骤，即可判断A3,A4,A5,......,An-1是否为拐点。

本发明还提供一种音频的检索方法，其特征在于：包括步骤：

步骤S201，判断音频样本为模拟音频还是数字音频，并进行对应的拐点统计；

步骤S20101，如果音频样本为模拟音频，对音频样本进行模数转换，同时按照采样率f将音频进行PCM编码，同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记，从而获得两个时间轴和音强轴上的检索数据列S1(Δx_i)和 S1(Δy_i)；

步骤S20102，如果音频样本为数字音频，直接获取并还原音频样本的波形，同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记，从而获得两个时间轴和音强轴上的检索数据列S1(Δx_i)和S1(Δy_i)；

步骤S202，先将S1(Δx_i)中的相邻的至少2个数据S1(Δx₁，Δx₂...Δx_n)，代入至S(Δx_n)中，当存储的音频数据中有一段或者多段同时满足：S1(Δx₁，Δx₂...Δx_n)＝α *S(Δx₁，Δx₂...Δx_n)，S1(Δy₁，Δy₂...Δy_n)＝β*S(Δy₁，Δy₂...Δy_n)，α和β为任意倍数，则将S1(Δx_i)中其他所有的数据带入至S(Δx_n)中进行验证，

步骤S20201，如果完全符合S1(Δy_i)＝α*S(Δy_n)，α和β为任意倍数，则将音频样本的PCM波形与存储的音频数据的的PCM波形的对应位置进行对比，如果判断音频样本全部数据PCM1(x)，PCM1(y)与存储的音频数据对应位置PCM2 (x),PCM2(y)有超过阈值的符合PCM1(x)＝α*PCM2(x)，PCM1(y)＝β*PCM2 (y)则判断音频样本与存储的音频数据符合；

步骤S20202，如果验证不完全满足S2(Δy_i)＝α*S(Δy_n)，α和β为任意倍数，则带入到该音频数据中的其他满足S1(Δx₁，Δx₂...Δx_n)＝α*S(Δx₁，Δx₂...Δx_n)， S1(Δy₁，Δy₂...Δy_n)＝β*S(Δy₁，Δy₂...Δy_n)，α和β为任意倍数的数据段中进行验证，直至将该音频数据验证完，如果均不符合，则为不符合。

进一步地，所述步骤S20201中的阈值为80％。

本发明的有益效果是：本发明的一种音频的储存和检索方法，在存储音频数据时，将音频数据对应的PCM波形中的拐点进行统计和拐点的坐标进行记录，同时将相邻拐点横向距离和纵向距离进行计算并记录，从而得出一个可以大致反应音频数据PCM波形的数据列，将冗余信息剔除，节省存储空间；检索时，按照同样的步骤获得音频样本的数据列，再通过分步检索，首先将音频样本中的部分数据列带入至存储音频中的数据列中，如果符合再将音频样本中的全部的数据列带入至存储音频中的数据列中，如果符合再将音频样本的PCM波形带入至存储音频中的PCM波形中，分段检索，实现先粗略再精细的检索方式，避免浪费大量的运算力进行逐一对比，从而提高检索效率，最后通过PCM波形对比还可以提高准确率，同时本发明还可以对压缩后的音频数据进行精确快速地检索。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的存储过程的流程图；

图2为本发明的拐点统计流程图；

图3为本发明的检索流程图。

具体实施方式

如图1-3所示：本实施例的一种音频的储存和检索方法，包括步骤：

步骤S101，将音频数据进行模数转换，数字格式通常有CD、WAV、MP3等，本实施例中的数字音频指离散化处理后未经过进一步压缩的数字音频格式，转换后按照的采样率f将音频进行PCM编码，采样率f≥21KHz，从而数字音频转换为在横轴为时间纵轴为音强的坐标轴上的离散波形；

步骤S102，将获得的PCM音频数据中的冗余信息进行剔除，冗余信息为音强小于10分贝的PCM音频数据，人耳对于声音信息的接收范围是10-120分贝，因此直接将小于10分贝的PCM波形直接剔除，同时可以根据时域掩蔽效应，将部分PCM数据进行剔除，具体原理为现有技术故不赘述；

步骤S103，将剔除冗余信息后的PCM音频编码进行拐点统计，并对拐点进行标记，标记出拐点An处的坐标值(x_n，y_n)，其中x_n为时间参数，y_n为音强参数，表示各个时间点上的音强；

步骤S104，计算出所有的相邻拐点An之间的横坐标和纵坐标的差值 (Δx,Δy)，Δx表示PCM波形的频率，可以用来表示声音的音调，而波形中的谐波部分则为音色，Δy表示波峰与波谷之间的距离，用来体现声音的强度，将其记录在前一个或者后一个的拐点信息内，从而获得音调和音强的两个的拐点数据列S(Δx_n)和S(Δy_n)；

步骤S105，将PCM音频数据的波形还原为对应格式的音频进行存储，由于剔除了冗余信息，但是在拐点处添加了拐点的数据列，音频数据的大小总体上会小于原文件的大小，从而节省了存储空间，添加的拐点的数据列则可以便于对音频样本的检索。

本实施例中，所述步骤S103中的拐点统计的步骤包括：

S10301，在PCM坐标轴上的PCM音频数据的波形上任意取4个相邻的点A1(x1， y1)、A2(x2，y2)、A3(x3，y3)和A4(x4，y4)，取A1(x1，y1)和A2(x2，y2)，得到正向直线方程L12(x，y)＝(x2-x1)(y-y1)+(y1-y2)(x-x1)，正直线L12即为A1和A2的正直连线；

S10302，将A3(x3，y3)点的坐标值代入至正向直线方程L12(x，y)中，计算函数值L12(x3，y3)，如果L12(x3，y3)小于0，则确定A3(x3，y3)位于正向直线L12的内侧(下方)，如果L12(x3，y3)大于0，则确定A3(x3，y3)位于正向直线L12的外侧(上方)，依照上述原理从而确定点A3(x3，y3)位于得到正向直线方程L1的哪一侧；

同理，然后再取点A2(x2，y2)，A3(x3，y3)得到另一正向直线方程L23(x， y)＝(x3-x2)(y-y2)+(y2-y3)(x-x2)，同时将A4(x4，y4)代入到正向直线方程 L23(x，y)中，判断A4位于直线L23的哪一侧；由于A1(x1，y1)、A2(x2，y2)和 A3(x3，y3)为相邻点，因此L12和L23为连接关系，如果A3(x3，y3)位于L12的外侧，A4(x4，y4)位于L23的外侧，则L12(x3，y3)*L23(x4，y4)>0，无法判断是否存在拐点，当A3(x3，y3)和A4(x4，y4)分别位于L12和L23的不同侧，则L12(x3， y3)*L23(x4，y4)<0，可以得出点A3(x3，y3)是一个拐点；

S10303，按照上述原理和计算过程，重复上述计算步骤，即可判断 A3,A4,A5,......,An-1是否为拐点，从而完成全部拐点的统计过程，值得注意的是，统计的拐点并不是PCM波形中的全部拐点，由于在步骤S102中已经剔除了冗余信息，因此冗余信息中音强小于10分贝的拐点被剔除，因此获得的拐点的平滑连线并不能还原原有的PCM波形，只用于波形特性的检索。

步骤S20101，如果音频样本为模拟音频，对音频样本进行模数转换，同时按照采样率f将音频进行PCM编码，同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记，从而获得两个时间轴和音强轴上的检索数据列S1(Δx_i)和 S1(Δy_i)，S1(Δx_i)和S1(Δy_i)分别体现音频样本的频率信息和音强信息；

步骤S20102，如果音频样本为数字音频，直接获取并还原音频样本的波形，同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记，从而获得两个时间轴和音强轴上的检索数据列S1(Δx_i)和S1(Δy_i)，S1(Δx_i)和S1(Δy_i)分别体现音频样本的频率信息和音强信息；

经过步骤S20101和S20202将模拟音频和数字音频中的拐点数据列作为检索数据列提取出来；

步骤S202，先将S1(Δx_i)中的相邻的至少2个数据S1(Δx₁，Δx₂...Δx_n)，代入至S(Δx_n)中，当存储的音频数据中有一段或者多段同时满足：S1(Δx₁，Δx₂...Δx_n)＝α *S(Δx₁，Δx₂...Δx_n)，S1(Δy₁，Δy₂...Δy_n)＝β*S(Δy₁，Δy₂...Δy_n)，α和β为任意倍数，则将S1(Δx_i)中其他所有的数据带入至S(Δx_n)中进行验证，音频样本不一定与存储的音频数据一模一样，但是只要符合倍数关系，便可以看做是相同的音频数据段经过了特殊处理，从而可以将改变了音强和音调的音频样本检索出来，本步骤中的检索为粗略检索，一端音频数据中很容易存在多段符合的数据段，此步骤的目的便是找出多段符合的数据段，后续精细化检索时可以避开大部分的无效区域，从而避免进行全域检索，节省检索运算力；

步骤S20201，如果完全符合S1(Δy_i)＝α*S(Δy_n)，α和β为任意倍数，则将音频样本的PCM波形与存储的音频数据的的PCM波形的对应位置进行对比，如果判断音频样本全部数据PCM1(x)，PCM1(y)与存储的音频数据对应位置PCM2 (x),PCM2(y)有超过阈值的符合PCM1(x)＝α*PCM2(x)，PCM1(y)＝β*PCM2 (y)则判断音频样本与存储的音频数据符合，此步骤通过拐点进行PCM波形的判断，由于拐点的数据列并不能还原原本的PCM波形，因此也容易出现多个符合检索情况的数据段，数量的多少取决于音频样本的长度，音频样本越长误差率越小，获得的符合检索情况的数据段也就越少，反之则越多；

步骤S20202，如果验证不完全满足S2(Δy_i)＝α*S(Δy_n)，α和β为任意倍数，则带入到该音频数据中的其他满足S1(Δx₁，Δx₂...Δx_n)＝α*S(Δx₁，Δx₂...Δx_n)， S1(Δy₁，Δy₂...Δy_n)＝β*S(Δy₁，Δy₂...Δy_n)，α和β为任意倍数的数据段中进行验证，直至将该音频数据验证完，如果均不符合，则为不符合，最后一步基于步骤 S20201的定位进行精确匹配，从而避免检索的误差；

本实施例中，所述步骤S20201中的阈值为80％，音频样本很容易在录音时发生稍微失真的情况，因此很难完全获得与存储音频数据匹配度为100％的音频样本，因此设置一个阈值用于容错，当录音条件合适的情况下很容易达到80％的匹配度。

本发明的一种音频的储存和检索方法，在存储音频数据时，将音频数据对应的PCM波形中的拐点进行统计和拐点的坐标进行记录，同时将相邻拐点横向距离和纵向距离进行计算并记录，从而得出一个可以大致反应音频数据PCM波形的数据列，将冗余信息剔除，节省存储空间；检索时，按照同样的步骤获得音频样本的数据列，再通过分步检索，首先将音频样本中的部分数据列带入至存储音频中的数据列中，如果符合再将音频样本中的全部的数据列带入至存储音频中的数据列中，如果符合再将音频样本的PCM波形带入至存储音频中的PCM 波形中，分段检索，实现先粗略再精细的检索方式，避免浪费大量的运算力进行逐一对比，从而提高检索效率，最后通过PCM波形对比还可以提高准确率，同时本发明还可以对压缩后的音频数据进行精确快速地检索。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种音频的储存方法，其特征在于：包括步骤：

步骤S101，将音频数据进行模数转换，同时按照特定的采样率f将音频进行PCM编码，从而数字音频转换为在横轴为时间纵轴为音强的坐标轴上的波形；

步骤S102，将获得的PCM音频数据中的冗余信息进行剔除；

2.根据权利要求1所述的一种音频的储存和检索方法，其特征在于：所述步骤S102中的冗余信息为音强小于10分贝的PCM音频数据。

3.根据权利要求1所述的一种音频的储存和检索方法，其特征在于：所述步骤S103中的拐点统计的步骤包括：

S10301，在PCM坐标轴上的PCM音频数据的波形上任意取4个相邻的点A1(x1，y1)、A2(x2，y2)、A3(x3，y3)和A4(x4，y4)，取A1(x1，y1)和A2(x2，y2)，得到正向直线方程L12(x，y)＝(x2-x1)(y-y1)+(y1-y2)(x-x1)；

S10302，计算函数值L12(x3，y3)，如果L12(x3，y3)小于0，则确定A3(x3，y3)位于正向直线L12的内侧，如果L12(x3，y3)大于0，则确定A3(x3，y3)位于正向直线L12的外侧，从而确定点A3(x3，y3)位于得到正向直线方程L1的哪一侧，

然后再取点A2(x2，y2)，A3(x3，y3)得到另一正向直线方程L23(x，y)＝(x3-x2)(y-y2)+(y2-y3)(x-x2)，

计算函数值L23(x4，y4)，可以确定点A4(x4，y4)位于得到正向直线方程L2的哪一侧，如果L12(x3，y3)*L23(x4，y4)<0，可以得出点A3(x3，y3)是一个拐点，否则A3(x3，y3)不是拐点；

4.一种音频的检索方法，其特征在于：包括步骤：

步骤S20101，如果音频样本为模拟音频，对音频样本进行模数转换，同时按照采样率f将音频进行PCM编码，同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记，从而获得两个时间轴和音强轴上的检索数据列S1(Δx_i)和S1(Δy_i)；

步骤S202，先将S1(Δx_i)中的相邻的至少2个数据S1(Δx₁，Δx₂...Δx_n)，代入至S(Δx_n)中，当存储的音频数据中有一段或者多段同时满足：S1(Δx₁，Δx₂...Δx_n)＝αS(Δx₁，Δx₂...Δx_n)，S1(Δy₁，Δy₂...Δy_n)＝β*S(Δy₁，Δy₂...Δy_n)，α和β为任意倍数，则将S1(Δx_i)中其他所有的数据带入至S(Δx_n)中进行验证，

步骤S20201，如果完全符合S1(Δy_i)＝α*S(Δy_n)，α和β为任意倍数，则将音频样本的PCM波形与存储的音频数据的的PCM波形的对应位置进行对比，如果判断音频样本全部数据PCM1(x)，PCM1(y)与存储的音频数据对应位置PCM2(x),PCM2(y)有超过阈值的符合PCM1(x)＝α*PCM2(x)，PCM1(y)＝β*PCM2(y)则判断音频样本与存储的音频数据符合；

步骤S20202，如果验证不完全满足S2(Δy_i)＝α*S(Δy_n)，α和β为任意倍数，则带入到该音频数据中的其他满足S1(Δx₁，Δx₂...Δx_n)＝αS(Δx₁，Δx₂...Δx_n)，S1(Δy₁，Δy₂...Δy_n)＝β*S(Δy₁，Δy₂...Δy_n)，α和β为任意倍数的数据段中进行验证，直至将该音频数据验证完，如果均不符合，则为不符合。

5.根据权利要求4所述的一种音频的储存和检索方法，其特征在于：所述步骤S20201中的阈值为80％。