CN109147795B - 声纹数据传输、识别方法、识别装置和存储介质 - Google Patents

声纹数据传输、识别方法、识别装置和存储介质 Download PDF

Info

Publication number
CN109147795B
CN109147795B CN201810886676.3A CN201810886676A CN109147795B CN 109147795 B CN109147795 B CN 109147795B CN 201810886676 A CN201810886676 A CN 201810886676A CN 109147795 B CN109147795 B CN 109147795B
Authority
CN
China
Prior art keywords
frequency domain
data
segmented
voiceprint
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810886676.3A
Other languages
English (en)
Other versions
CN109147795A (zh
Inventor
程衎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Allwinner Technology Co Ltd
Original Assignee
Allwinner Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Allwinner Technology Co Ltd filed Critical Allwinner Technology Co Ltd
Priority to CN201810886676.3A priority Critical patent/CN109147795B/zh
Publication of CN109147795A publication Critical patent/CN109147795A/zh
Application granted granted Critical
Publication of CN109147795B publication Critical patent/CN109147795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Facsimiles In General (AREA)

Abstract

本发明提供一种声纹数据传输、识别方法、识别装置和存储介质,传输方法包括:将声纹数据在时域上分成多个分段时域数据;提取各个分段时域数据在目标频域上的分段频域数据;将每个分段频域数据分别在不同传输频域上进行传输。由于声纹数据的频点信息主要集中在目标频域上,故只需要对目标频域的数据进行传输即可,而非目标频域的数据则不传送,并且利用非目标频域的频域进行其他分段频域数据的传输,首先将声纹数据在时域上分成多个分段时域数据,再将每个分段时域数据提取目标频域的分段频域数据,最后将分段频域数据分别在不同传输频域上进行传输,复用各个频段中,从而将字符串分割成多段在全频域并行输出,达到减少数据传输时间的目的。

Description

声纹数据传输、识别方法、识别装置和存储介质
技术领域
本发明涉及声纹识别领域,尤其涉及一种声纹数据传输方法、声纹数据识别方法、声纹数据识别装置和可读存储介质。
背景技术
人耳能识别的声音的频率范围大致为20Hz至20000Hz。低频部分为20Hz至200Hz,中频部分为500Hz至2kHz,高频部分为2kHz至20kHz。
噪音是指现实生活中,物体自发地,或者互动地,发生碰撞、压缩等等相互作用,而导致的连续的不规则的声音。噪音在每个频段都有出现,其中大致分为低频和高频噪音,由于波长原因,低频噪音波长长,在现实中获中大幅存在,并且穿透性很强,轻易刻录下来的数据中在低频部分会有大量不规则的能量存在。相反,高频噪音由于其波长很短,穿透性差,一般每隔10米就会下降6db,在录音中一般很少存在高频的噪音。
对于声纹识别技术,一段明文密码,通常用一组字符串表达,字符串的元素为8bit字符,有256种可能。每一种可能我们可以在一个频段中用256个单频tone之一表示,如此达到一一对应进行无损还原。
但是在实践中,本技术综合考虑计算精度和运算效能的限制,基于256=16x16,一个字符我们分两次进行解码,这样每次解码的1/2个字符可以从16个点中还原,从而在同样的频域分辨率的情况下,可容许的误差被更多的释放出来,由于精度问题导致的误码率大大降低。
对于RS编码,RS码又称里所码,即Reed-solomon codes,是一种前向纠错的信道编码,对由校正过采样数据所产生的多项式有效。当接收器正确的收到足够的点后,它就可以恢复原来的多项式,即使接收到的多项式上有很多点被噪声干扰失真。
为保证编码出来的频点能量饱和且易识别,一般编码的音频帧长度大概在60-80ms。一个字符包含两个音频帧。以长度为20的字符串为例,其编码的pcm数据传输时间大约在2.5-3s之间,时间略长。加上RS编码的存在,实际输出字符串长度可能有一定溢出,则传输耗时更久。
发明内容
本发明的第一目的是提供一种减少数据传输时间的声纹数据传输方法。
本发明的第二目的是提供一种减少数据传输时间的声纹数据识别方法。
本发明的第三目的是提供一种减少数据传输时间的声纹数据识别装置。
本发明的第四目的是提供一种减少数据传输时间的可读存储介质。
为了实现本发明的第一目的,本发明提供一种多频复用声纹传输方法,包括:
将声纹数据在时域上分成多个分段时域数据;
提取各个分段时域数据在目标频域上的分段频域数据;
将每个分段频域数据分别在不同传输频域上进行传输。
由上述方案可见,由于声纹数据的频点信息主要集中在目标频域上,故只需要对目标频域的数据进行传输即可,而非目标频域的数据则不传送,并且利用非目标频域的频域进行其他分段频域数据的传输,具体地,首先将声纹数据在时域上分成多个分段时域数据,再将每个分段时域数据提取目标频域的分段频域数据,最后将分段频域数据分别在不同传输频域上进行传输,复用各个频段中,从而将字符串分割成多段在全频域并行输出,达到减少数据传输时间的目的。
更进一步的方案是,将每个分段频域数据分别在不同传输频域上进行传输的步骤包括:
第一分段频域数据在第一传输频域进行传输,第一传输频域与目标频域相同。
由上可见,第一传输频域与目标频域相同时,则数据不需要进行频谱搬移,提取目标频域的数据后便可直接在目标频域进行数据传输。
更进一步的方案是,将每个分段频域数据分别在不同传输频域上进行传输的步骤还包括:
第二分段频域数据依次进行多倍下采样、多倍插值上采样、位于第二分段频域上的带通滤波;
将第二分段频域数据在第二传输频域上进行传输,第一传输频域不同于第二传输频域。
更进一步的方案是,将每个分段频域数据分别在不同传输频域上进行传输的步骤还包括:
第三分段频域数据依次进行多倍下采样、多倍插值上采样、位于第三分段频域上的带通滤波;
将第三分段频域数据在第三传输频域上进行传输,第一传输频域、第二传输频域和第三传输频域均相互不相同。
由上可见,对于第二分段频域数据和第三分段频域数据进行频谱搬移,通过多倍下采样、多倍插值上采样、相应带通滤波后,分别在第二传输频域和第三传输频域传输,使得声纹数据在全频域并行输出,达到减少数据传输时间的目的。
更进一步的方案是,目标频域为0Khz至7.5Khz之间。
更进一步的方案是,传输频域分成W1频域、W2频域和W3频域;
W1频域为0Khz至7.5Khz之间;
W2频域为7.5Khz至15Khz之间
W3频域为15Khz至22Khz之间。
由上可见,声纹数据的频点信息主要集中在0Khz至7.5Khz中,故主要对目标频域的数据进行传输即可,而可将声纹数据在时域上分割成三份,继而提取目标频域上的数据,最后在三个传输频域进行传输,从而实现提高传输速度。
为了实现本发明的第二目的,本发明提供一种多频复用声纹数据识别方法,包括声纹数据传输步骤和解码识别步骤;
声纹数据传输步骤采用上述方案中的声纹传输方法的步骤;
对多个分段频域数据进行解码和声纹识别。
为了实现本发明的第三目的,本发明提供一种多频复用声纹数据识别装置,声纹识别装置包括处理器,处理器用于执行存储器中存储的计算机程序时实现上述声纹识别方法的步骤。
为了实现本发明的第四目的,本发明提供一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述声纹识别方法的步骤。
由上可见,利用上述高效的声纹数据传输方法,在解码后便可实现快速、稳定的声纹识别。
附图说明
图1是本发明多频复用声纹数据传输方法实施例的流程图。
图2是本发明多频复用声纹数据传输方法实施例中数据频谱搬移的流程图。
图3是本发明多频复用声纹数据传输方法实施例中第二分段时域数据的频谱图。
图4是本发明多频复用声纹数据传输方法实施例中提取W1频域的数据示意图。
图5是本发明多频复用声纹数据传输方法实施例中进行三倍下采样的示意图。
图6是本发明多频复用声纹数据传输方法实施例中进行三倍插值上采样的示意图。
图7是本发明多频复用声纹数据传输方法实施例中通过第二传输频域的带通滤波器的示意图。
以下结合附图及实施例对本发明作进一步说明。
具体实施方式
参照图1,首先执行步骤S1,接收声纹数据(PCM数据),PCM数据切割,在时域上分成N等分成{PCMi}|1≤i≤N,在本实施例中数据分成三份,即将声纹数据在时域上分成多个分段时域数据并得出第一分段时域数据PCM1、第二分段时域数据PCM2和第二分段时域数据PCM3。
随后执行步骤S2,将W频域范围也N等分成{Wi}|1≤i≤N,在本实施例中,频域范围分三份,以频响W=(0,22Khz),N=3为例。
W被分割为W1=(0Khz,7.5Khz),W2=(7.5khz,15khz),W3=(15khz,22khz)。
从图2中的频-半符号索引映射表可知,Pcmi的频点信息Ii集中在中W1。故本案主要传输W1频域的声纹数据。分别提取PCM1、PCM2和PCM3数据在W1频域上的数据,提取数据的方式是分别通过W1、W2、W3的带通滤波器,继而得出第一分段频域数据PCM1-W1、第二分段频域数据PCM2-W1、第三分段频域数据PCM3-W1。
随后执行步骤S31,将第一分段频域数据PCM1-W1在第一传输频域W1进行传输。
执行步骤S32,对第二分段频域数据PCM2-W1进行频谱搬移,参照图3和图4,图4表示第二分段时域数据PCM2的频谱图,而阴影部分是W1频域的频域数据,这部分是需要进行传输,参照图5,将PCM2数据通过滤波器Filter1,滤波器Filter1是位于W1频域的带通滤波器,通过滤波器的滤波得出第一分段频域数据PCM1-W1为Pcm2-Filter1。
随后执行步骤S321并参照图6,将Pcm2-Filter1三倍下采样,得Pcm2-Filter1-d3samp。
然后执行步骤S322,并照图7,将Pcm2-Filter1-d3samp三倍插值上采样,得Pcm2-Filter1-d3samp-u3samp。
随后执行步骤S323,并照图8,Pcm2-Filter1-d3samp-u3samp过带通滤波器Filter2,带通滤波器Filter2为位于W2频域的带通滤波器,得Pcm2-Filter1-d3samp-u3samp-Filter2。如此,Pcm2通过上述处理,W1频段被搬移到了W2(以共轭倒相的形式存在),输出了Pcm2-Filter1-d3samp-u3samp-Filter2,执行步骤S324,使得第二分段频域数据PCM2-W1在第二传输频域W2进行传输。
执行步骤S33,对于Pcm3,同种方法生成Pcm3-Filter1-d3samp-u3samp-Filter3,即第三分段频域数据依次进行多倍下采样、多倍插值上采样、位于第三分段频域上的带通滤波,继而将所述第三分段频域数据在第三传输频域上进行传输。
最后执行步骤S4,Mix合成最终输出信号,
Figure GDA0002969437440000061
本方法可将声纹识别传输时间减少至原有时间的N分之一。
在本实施例外,声纹数据可以分成多分进行传输,即每个Pcmi生成Pcmi-Filter1-d3samp-u3samp-Filteri,Pcmi-W1被分别搬移到Wn上进行传输。
声纹识别模块接收到上述传输的数据后,可对多个分段频域数据进行解码和声纹识别。
一种多频复用声纹数据识别装置,声纹识别装置包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述声纹识别方法的步骤。
一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述声纹识别方法的步骤。
由上可见,由于声纹数据的频点信息主要集中在目标频域上,故只需要对目标频域的数据进行传输即可,而非目标频域的数据则不传送,并且利用非目标频域的频域进行其他分段频域数据的传输,具体地,首先将声纹数据在时域上分成多个分段时域数据,再将每个分段时域数据提取目标频域的分段频域数据,最后将分段频域数据分别在不同传输频域上进行传输,复用各个频段中,从而将字符串分割成多段在全频域并行输出,达到减少数据传输时间的目的。

Claims (7)

1.一种多频复用声纹传输方法,其特征在于,包括:
将声纹数据在时域上分成多个分段时域数据,多个所述分段时域数据包括第一分段时域数据和第二分段时域数据;
提取所述第一分段时域数据在目标频域上的第一分段频域数据,提取所述第二分段时域数据在所述目标频域上的第二分段频域数据;
所述第一分段频域数据在第一传输频域进行传输,所述第一传输频域与所述目标频域相同;
所述第二分段频域数据依次进行多倍下采样、多倍插值上采样和位于第二分段频域上的带通滤波;
将经过所述第二分段频域带通滤波的所述第二分段频域数据在第二传输频域上进行传输,所述第一传输频域不同于所述第二传输频域,所述第二分段频域与所述第二传输频域相同。
2.根据权利要求1所述的声纹传输方法,其特征在于:
所述声纹传输方法还包括:
多个所述分段时域数据包括第三分段时域数据;
所述第三分段频域数据依次进行多倍下采样、多倍插值上采样、位于第三分段频域上的带通滤波;
将经过所述第三分段频域带通滤波的所述第三分段频域数据在第三传输频域上进行传输,所述第一传输频域、所述第二传输频域和所述第三传输频域均相互不相同,所述第三分段频域与所述第三传输频域相同。
3.根据权利要求1或2所述的声纹传输方法,其特征在于:
所述目标频域为0Khz至7.5Khz之间。
4.根据权利要求2所述的声纹传输方法,其特征在于:
所述第一传输频域为0Khz至7.5Khz之间;
所述第二传输频域为7.5Khz至15Khz之间
所述第三传输频域为15Khz至22Khz之间。
5.一种多频复用声纹数据识别方法,其特征在于,包括声纹数据传输步骤和解码识别步骤;
所述声纹数据传输步骤采用上述权利要求1至4任一项所述的声纹传输方法的步骤;
对所述第一分段时域数据和所述第二分段时域数据进行解码和声纹识别。
6.一种多频复用声纹数据识别装置,其特征在于,所述声纹识别装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求5中所述声纹识别方法的步骤。
7.可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求5中所述声纹识别方法的步骤。
CN201810886676.3A 2018-08-06 2018-08-06 声纹数据传输、识别方法、识别装置和存储介质 Active CN109147795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810886676.3A CN109147795B (zh) 2018-08-06 2018-08-06 声纹数据传输、识别方法、识别装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810886676.3A CN109147795B (zh) 2018-08-06 2018-08-06 声纹数据传输、识别方法、识别装置和存储介质

Publications (2)

Publication Number Publication Date
CN109147795A CN109147795A (zh) 2019-01-04
CN109147795B true CN109147795B (zh) 2021-05-14

Family

ID=64791916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810886676.3A Active CN109147795B (zh) 2018-08-06 2018-08-06 声纹数据传输、识别方法、识别装置和存储介质

Country Status (1)

Country Link
CN (1) CN109147795B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023329A (zh) * 2021-10-13 2022-02-08 南京龙垣信息科技有限公司 跨信道声纹比对方法、系统、计算机设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450490A (en) * 1994-03-31 1995-09-12 The Arbitron Company Apparatus and methods for including codes in audio signals and decoding
CN1983914B (zh) * 2005-12-16 2011-04-13 株式会社Ntt都科摩 一种混合自动请求重传方法及系统
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US20110286605A1 (en) * 2009-04-02 2011-11-24 Mitsubishi Electric Corporation Noise suppressor
CN103730131B (zh) * 2012-10-12 2016-12-07 华为技术有限公司 语音质量评估的方法和装置
CN104242871B (zh) * 2013-06-14 2017-02-08 中国科学院声学研究所 一种基于嵌套阵的多倍频程恒定束宽波束形成方法及系统
CN103646649B (zh) * 2013-12-30 2016-04-13 中国科学院自动化研究所 一种高效的语音检测方法
CN106160937B (zh) * 2015-04-15 2019-01-04 中兴通讯股份有限公司 一种实现码块分割的方法及装置
CN105162569B (zh) * 2015-08-21 2018-06-22 广州丰谱信息技术有限公司 一种异步双工零射频无线通信系统
CN105790889A (zh) * 2016-02-23 2016-07-20 北京杰睿中恒科技有限公司 基于正交频分复用的数据传输方法和装置、抄表系统
CN106059706B (zh) * 2016-05-24 2019-01-15 广东电网有限责任公司信息中心 一种混合声波录音屏蔽器
CN106788734B (zh) * 2016-12-09 2020-05-08 上海交通大学 一种采用无数据辅助频偏估计算法的光ofdm系统
CN107994921B (zh) * 2017-11-27 2020-04-07 上海航天测控通信研究所 高动态低信噪比环境下的信号捕获方法
CN108063661B (zh) * 2017-12-20 2021-01-08 珠海全志科技股份有限公司 基于曼彻斯特编码的采样电路和接收电路
CN108303717B (zh) * 2018-01-08 2022-01-21 中国科学院光电研究院 一种复合载波导航信号高动态精捕获方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Cyber Voice Recognition with Low SNR;Zhao, HA等;《 14th IEEE Intl Conf on Dependable, Autonomic and Secure Comp》;20160812;全文 *
数字录音真实性司法鉴定研究现状;曾锦华等;《中国司法鉴定》;20140715(第4期);全文 *

Also Published As

Publication number Publication date
CN109147795A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
KR101764926B1 (ko) 음향 통신을 위한 장치 및 방법
CN101918999B (zh) 执行音频水印嵌入以及水印检测和提取的方法和设备
CN1327409C (zh) 提供信号重建的宽带音频信号发送机、接收机、系统和方法
KR101221918B1 (ko) 신호 처리 방법 및 장치
CN101183527B (zh) 用于对高频信号进行编码和解码的方法和设备
EP1914721B1 (en) Data embedding device, data embedding method, data extraction device, and data extraction method
US9941978B2 (en) Acoustic channel-based data communications method
CN102394724A (zh) 一种基于双音多频声波的高可靠性数据传输方法及装置
CN1323505C (zh) 传输线路编码方法、传输线路解码方法及其设备
CN102479513B (zh) 解码器及对比特错误加以隐藏的方法
WO1995021489A1 (fr) Methode et appareil de codage de donnees, methode et appareil de decodage de donnees, support d'enregistrement de donnees et mode de transmission de donnees
AU2014289527A1 (en) Method and apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
JP6608380B2 (ja) 耐雑音性を改良した通信システム、方法および装置
TR201808452T4 (tr) Algısal ses kodeklerinde harmonik sinyaller için faz uyum kontrolü.
CN109147795B (zh) 声纹数据传输、识别方法、识别装置和存储介质
CN103928031B (zh) 编码方法、解码方法、编码装置和解码装置
CN103456307B (zh) 音频解码器中帧差错隐藏的谱代替方法及系统
US9312893B2 (en) Systems, methods and devices for electronic communications having decreased information loss
EP3080805A1 (en) Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
CN109584890A (zh) 音频水印嵌入、提取、电视节目互动方法及装置
US20170063471A1 (en) Audio signal transmission system with enhanced audio signal recognition and data processing method for the same
JP3694059B2 (ja) 線形予測を用いて重畳されたアナログ信号とデジタル信号からのアナログ信号とデジタル信号の復元
JP5131596B2 (ja) 信号分離再生装置および信号分離再生方法
CA2521445A1 (en) Code conversion method and apparatus
KR20160036670A (ko) 고 주파수 복원 알고리즘들을 위한 주파수 대역 테이블 설계

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant