CN109147795B

CN109147795B - 声纹数据传输、识别方法、识别装置和存储介质

Info

Publication number: CN109147795B
Application number: CN201810886676.3A
Authority: CN
Inventors: 程衎
Original assignee: Allwinner Technology Co Ltd
Current assignee: Allwinner Technology Co Ltd
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2021-05-14
Anticipated expiration: 2038-08-06
Also published as: CN109147795A

Abstract

本发明提供一种声纹数据传输、识别方法、识别装置和存储介质，传输方法包括：将声纹数据在时域上分成多个分段时域数据；提取各个分段时域数据在目标频域上的分段频域数据；将每个分段频域数据分别在不同传输频域上进行传输。由于声纹数据的频点信息主要集中在目标频域上，故只需要对目标频域的数据进行传输即可，而非目标频域的数据则不传送，并且利用非目标频域的频域进行其他分段频域数据的传输，首先将声纹数据在时域上分成多个分段时域数据，再将每个分段时域数据提取目标频域的分段频域数据，最后将分段频域数据分别在不同传输频域上进行传输，复用各个频段中，从而将字符串分割成多段在全频域并行输出，达到减少数据传输时间的目的。

Description

声纹数据传输、识别方法、识别装置和存储介质

技术领域

本发明涉及声纹识别领域,尤其涉及一种声纹数据传输方法、声纹数据识别方法、声纹数据识别装置和可读存储介质。

背景技术

人耳能识别的声音的频率范围大致为20Hz至20000Hz。低频部分为20Hz至200Hz，中频部分为500Hz至2kHz，高频部分为2kHz至20kHz。

噪音是指现实生活中，物体自发地，或者互动地，发生碰撞、压缩等等相互作用，而导致的连续的不规则的声音。噪音在每个频段都有出现，其中大致分为低频和高频噪音，由于波长原因，低频噪音波长长，在现实中获中大幅存在，并且穿透性很强，轻易刻录下来的数据中在低频部分会有大量不规则的能量存在。相反，高频噪音由于其波长很短，穿透性差，一般每隔10米就会下降6db，在录音中一般很少存在高频的噪音。

对于声纹识别技术，一段明文密码,通常用一组字符串表达，字符串的元素为8bit字符，有256种可能。每一种可能我们可以在一个频段中用256个单频tone之一表示，如此达到一一对应进行无损还原。

但是在实践中，本技术综合考虑计算精度和运算效能的限制，基于256＝16x16，一个字符我们分两次进行解码，这样每次解码的1/2个字符可以从16个点中还原，从而在同样的频域分辨率的情况下，可容许的误差被更多的释放出来，由于精度问题导致的误码率大大降低。

对于RS编码，RS码又称里所码，即Reed-solomon codes，是一种前向纠错的信道编码，对由校正过采样数据所产生的多项式有效。当接收器正确的收到足够的点后，它就可以恢复原来的多项式，即使接收到的多项式上有很多点被噪声干扰失真。

为保证编码出来的频点能量饱和且易识别，一般编码的音频帧长度大概在60-80ms。一个字符包含两个音频帧。以长度为20的字符串为例，其编码的pcm数据传输时间大约在2.5-3s之间，时间略长。加上RS编码的存在，实际输出字符串长度可能有一定溢出，则传输耗时更久。

发明内容

本发明的第一目的是提供一种减少数据传输时间的声纹数据传输方法。

本发明的第二目的是提供一种减少数据传输时间的声纹数据识别方法。

本发明的第三目的是提供一种减少数据传输时间的声纹数据识别装置。

本发明的第四目的是提供一种减少数据传输时间的可读存储介质。

为了实现本发明的第一目的，本发明提供一种多频复用声纹传输方法，包括：

将声纹数据在时域上分成多个分段时域数据；

提取各个分段时域数据在目标频域上的分段频域数据；

将每个分段频域数据分别在不同传输频域上进行传输。

由上述方案可见，由于声纹数据的频点信息主要集中在目标频域上，故只需要对目标频域的数据进行传输即可，而非目标频域的数据则不传送，并且利用非目标频域的频域进行其他分段频域数据的传输，具体地，首先将声纹数据在时域上分成多个分段时域数据，再将每个分段时域数据提取目标频域的分段频域数据，最后将分段频域数据分别在不同传输频域上进行传输，复用各个频段中，从而将字符串分割成多段在全频域并行输出，达到减少数据传输时间的目的。

更进一步的方案是，将每个分段频域数据分别在不同传输频域上进行传输的步骤包括：

第一分段频域数据在第一传输频域进行传输，第一传输频域与目标频域相同。

由上可见，第一传输频域与目标频域相同时，则数据不需要进行频谱搬移，提取目标频域的数据后便可直接在目标频域进行数据传输。

更进一步的方案是，将每个分段频域数据分别在不同传输频域上进行传输的步骤还包括：

第二分段频域数据依次进行多倍下采样、多倍插值上采样、位于第二分段频域上的带通滤波；

将第二分段频域数据在第二传输频域上进行传输，第一传输频域不同于第二传输频域。

第三分段频域数据依次进行多倍下采样、多倍插值上采样、位于第三分段频域上的带通滤波；

将第三分段频域数据在第三传输频域上进行传输，第一传输频域、第二传输频域和第三传输频域均相互不相同。

由上可见，对于第二分段频域数据和第三分段频域数据进行频谱搬移，通过多倍下采样、多倍插值上采样、相应带通滤波后，分别在第二传输频域和第三传输频域传输，使得声纹数据在全频域并行输出，达到减少数据传输时间的目的。

更进一步的方案是，目标频域为0Khz至7.5Khz之间。

更进一步的方案是，传输频域分成W1频域、W2频域和W3频域；

W1频域为0Khz至7.5Khz之间；

W2频域为7.5Khz至15Khz之间

W3频域为15Khz至22Khz之间。

由上可见，声纹数据的频点信息主要集中在0Khz至7.5Khz中，故主要对目标频域的数据进行传输即可，而可将声纹数据在时域上分割成三份，继而提取目标频域上的数据，最后在三个传输频域进行传输，从而实现提高传输速度。

为了实现本发明的第二目的，本发明提供一种多频复用声纹数据识别方法，包括声纹数据传输步骤和解码识别步骤；

声纹数据传输步骤采用上述方案中的声纹传输方法的步骤；

对多个分段频域数据进行解码和声纹识别。

为了实现本发明的第三目的，本发明提供一种多频复用声纹数据识别装置，声纹识别装置包括处理器，处理器用于执行存储器中存储的计算机程序时实现上述声纹识别方法的步骤。

为了实现本发明的第四目的，本发明提供一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述声纹识别方法的步骤。

由上可见，利用上述高效的声纹数据传输方法，在解码后便可实现快速、稳定的声纹识别。

附图说明

图1是本发明多频复用声纹数据传输方法实施例的流程图。

图2是本发明多频复用声纹数据传输方法实施例中数据频谱搬移的流程图。

图3是本发明多频复用声纹数据传输方法实施例中第二分段时域数据的频谱图。

图4是本发明多频复用声纹数据传输方法实施例中提取W1频域的数据示意图。

图5是本发明多频复用声纹数据传输方法实施例中进行三倍下采样的示意图。

图6是本发明多频复用声纹数据传输方法实施例中进行三倍插值上采样的示意图。

图7是本发明多频复用声纹数据传输方法实施例中通过第二传输频域的带通滤波器的示意图。

以下结合附图及实施例对本发明作进一步说明。

具体实施方式

参照图1，首先执行步骤S1，接收声纹数据(PCM数据),PCM数据切割，在时域上分成N等分成{PCM_i}|_1≤i≤N,在本实施例中数据分成三份,即将声纹数据在时域上分成多个分段时域数据并得出第一分段时域数据PCM1、第二分段时域数据PCM2和第二分段时域数据PCM3。

随后执行步骤S2，将W频域范围也N等分成{W_i}|_1≤i≤N，在本实施例中，频域范围分三份，以频响W＝(0,22Khz),N＝3为例。

W被分割为W₁＝(0Khz,7.5Khz)，W₂＝(7.5khz,15khz)，W₃＝(15khz,22khz)。

从图2中的频-半符号索引映射表可知，Pcm_i的频点信息I_i集中在中W₁。故本案主要传输W1频域的声纹数据。分别提取PCM1、PCM2和PCM3数据在W1频域上的数据，提取数据的方式是分别通过W1、W2、W3的带通滤波器，继而得出第一分段频域数据PCM1-W1、第二分段频域数据PCM2-W1、第三分段频域数据PCM3-W1。

随后执行步骤S31，将第一分段频域数据PCM1-W1在第一传输频域W1进行传输。

执行步骤S32,对第二分段频域数据PCM2-W1进行频谱搬移，参照图3和图4，图4表示第二分段时域数据PCM2的频谱图，而阴影部分是W1频域的频域数据，这部分是需要进行传输，参照图5，将PCM2数据通过滤波器Filter₁，滤波器Filter₁是位于W1频域的带通滤波器，通过滤波器的滤波得出第一分段频域数据PCM1-W1为Pcm₂-Filter1。

随后执行步骤S321并参照图6，将Pcm₂-Filter1三倍下采样，得Pcm₂-Filter1-d3samp。

然后执行步骤S322，并照图7，将Pcm₂-Filter1-d3samp三倍插值上采样，得Pcm₂-Filter1-d3samp-u3samp。

随后执行步骤S323，并照图8，Pcm₂-Filter1-d3samp-u3samp过带通滤波器Filter₂，带通滤波器Filter₂为位于W2频域的带通滤波器，得Pcm₂-Filter1-d3samp-u3samp-Filter₂。如此，Pcm₂通过上述处理，W₁频段被搬移到了W₂(以共轭倒相的形式存在)，输出了Pcm₂-Filter1-d3samp-u3samp-Filter₂，执行步骤S324，使得第二分段频域数据PCM2-W1在第二传输频域W2进行传输。

执行步骤S33，对于Pcm₃，同种方法生成Pcm₃-Filter1-d3samp-u3samp-Filter₃，即第三分段频域数据依次进行多倍下采样、多倍插值上采样、位于第三分段频域上的带通滤波，继而将所述第三分段频域数据在第三传输频域上进行传输。

最后执行步骤S4，Mix合成最终输出信号，

本方法可将声纹识别传输时间减少至原有时间的N分之一。

在本实施例外，声纹数据可以分成多分进行传输，即每个Pcm_i生成Pcm_i-Filter1-d3samp-u3samp-Filter_i，Pcm_i-W1被分别搬移到Wn上进行传输。

声纹识别模块接收到上述传输的数据后，可对多个分段频域数据进行解码和声纹识别。

一种多频复用声纹数据识别装置，声纹识别装置包括处理器，处理器用于执行存储器中存储的计算机程序时实现如上述声纹识别方法的步骤。

一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述声纹识别方法的步骤。

由上可见，由于声纹数据的频点信息主要集中在目标频域上，故只需要对目标频域的数据进行传输即可，而非目标频域的数据则不传送，并且利用非目标频域的频域进行其他分段频域数据的传输，具体地，首先将声纹数据在时域上分成多个分段时域数据，再将每个分段时域数据提取目标频域的分段频域数据，最后将分段频域数据分别在不同传输频域上进行传输，复用各个频段中，从而将字符串分割成多段在全频域并行输出，达到减少数据传输时间的目的。

Claims

1.一种多频复用声纹传输方法，其特征在于，包括：

将声纹数据在时域上分成多个分段时域数据，多个所述分段时域数据包括第一分段时域数据和第二分段时域数据；

提取所述第一分段时域数据在目标频域上的第一分段频域数据，提取所述第二分段时域数据在所述目标频域上的第二分段频域数据；

所述第一分段频域数据在第一传输频域进行传输，所述第一传输频域与所述目标频域相同；

所述第二分段频域数据依次进行多倍下采样、多倍插值上采样和位于第二分段频域上的带通滤波；

将经过所述第二分段频域带通滤波的所述第二分段频域数据在第二传输频域上进行传输，所述第一传输频域不同于所述第二传输频域，所述第二分段频域与所述第二传输频域相同。

2.根据权利要求1所述的声纹传输方法，其特征在于：

所述声纹传输方法还包括：

多个所述分段时域数据包括第三分段时域数据；

所述第三分段频域数据依次进行多倍下采样、多倍插值上采样、位于第三分段频域上的带通滤波；

将经过所述第三分段频域带通滤波的所述第三分段频域数据在第三传输频域上进行传输，所述第一传输频域、所述第二传输频域和所述第三传输频域均相互不相同，所述第三分段频域与所述第三传输频域相同。

3.根据权利要求1或2所述的声纹传输方法，其特征在于：

所述目标频域为0Khz至7.5Khz之间。

4.根据权利要求2所述的声纹传输方法，其特征在于：

所述第一传输频域为0Khz至7.5Khz之间；

所述第二传输频域为7.5Khz至15Khz之间

所述第三传输频域为15Khz至22Khz之间。

5.一种多频复用声纹数据识别方法，其特征在于，包括声纹数据传输步骤和解码识别步骤；

所述声纹数据传输步骤采用上述权利要求1至4任一项所述的声纹传输方法的步骤；

对所述第一分段时域数据和所述第二分段时域数据进行解码和声纹识别。

6.一种多频复用声纹数据识别装置，其特征在于，所述声纹识别装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求5中所述声纹识别方法的步骤。

7.可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求5中所述声纹识别方法的步骤。