CN107195028B - 一种高精度无线语音识别门禁系统 - Google Patents

一种高精度无线语音识别门禁系统 Download PDF

Info

Publication number
CN107195028B
CN107195028B CN201710290060.5A CN201710290060A CN107195028B CN 107195028 B CN107195028 B CN 107195028B CN 201710290060 A CN201710290060 A CN 201710290060A CN 107195028 B CN107195028 B CN 107195028B
Authority
CN
China
Prior art keywords
voice signal
hash sequence
perception
hash
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710290060.5A
Other languages
English (en)
Other versions
CN107195028A (zh
Inventor
刘恩元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Changen Intelligent Ltd By Share Ltd
Original Assignee
Shenzhen Changen Intelligent Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Changen Intelligent Ltd By Share Ltd filed Critical Shenzhen Changen Intelligent Ltd By Share Ltd
Priority to CN201710290060.5A priority Critical patent/CN107195028B/zh
Publication of CN107195028A publication Critical patent/CN107195028A/zh
Application granted granted Critical
Publication of CN107195028B publication Critical patent/CN107195028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/22Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
    • G07C9/25Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种高精度无线语音识别门禁系统,包括语音采集模块、无线传输模块、语音信号处理模块、验证识别模块、感知哈希序列数据库和门禁,所述语音采集模块用于采集目标语音信号;所述语音信号处理模块用于将目标语音信号进行二进制比特的感知哈希序列构造;所述感知哈希序列数据库中预存有标准的二进制比特方式的感知哈希序列;验证识别模块用于将目标语音信号的感知哈希序列与感知哈希序列数据库中标准的感知哈希序列进行对比验证识别,得到语音验证识别结果,语音验证识别结果发送至门禁。本发明采用构造二进制比特方式的感知哈希序列对目标语音信号进行处理,验证识别时扩大相异的感知哈希值之间的差距,大大提高语音识别的精确度,从而提高门禁安全性能。

Description

一种高精度无线语音识别门禁系统
技术领域
本发明涉及门禁技术领域,具体涉及一种高精度无线语音识别门禁系统。
背景技术
相关技术中的门禁系统多为有线传输方式,新增布线极为繁琐,且目前主流的语音识别方法多采用模板匹配法,而采用模板匹配法最大的缺点是需要存储大量的语音模型,当存储的语音模型达到一定限度时,会发生语音模型之间可能互相混淆的情况,大大降低识别性能。我们知道音频是一类重要的多媒体形式,与人类生活息息相关,其主要表现形式主要有音频、音乐和声音。在2001年Ton Kalker第一次提出了“感知哈希”的概念,感知哈希是指将在数据量的多媒体数据映射为长度较小的比特串,并将感知相近的多媒体对象映射成数学相近的哈希值,因此感知哈希关注的是感知的相似性,在音频验证方面,将输入音频映射成二进制哈希序列,然后将预先存在的二进制哈希序列进行比较,可以准确验证。
在音频压缩方面,常常应用带改进的离散余弦变换,所谓改进的离散余弦变换(Modified Discrete Cosine Transform,MDCT)是一种与傅立叶变换相关的变换,以第四型离散余弦变换(DCT-IV)为基础,重叠性质如下:它是应用于处理较大的资料集合,当连续的资料区块中,当前的资料区块跟后续的资料区块有重叠到的情形;即当前资料区块的后半段与下一个资料区块的前半段为重叠的状态。
在音频解码方面,开源解码器Libmad(MPEG Audio Decoder)是一个开源的高精度MPEG音频解码库,支持MPEG-1(Layer I,Layer II和LayerIII-也就是MP3)。开源解码器Libmad(MPEG Audio Decoder)提供24-bit的PCM输出,完全是定点计算,非常适合没有浮点支持的平台上使用。使用Libmad提供的一系列API,就可以非常简单地实现MP3数据解码工作。
非负矩阵分解是针对非负的矩阵进行分解降维的概念,最早由两位科学家D.D.Lee和H.S.Seung与1999年在《Nature》杂志上提出。非负矩阵分解通过低秩,对那些都为非负值得矩阵进行分解。非负矩阵分解在感知哈希技术中有着广泛的应用。
发明内容
针对上述问题,本发明旨在提供一种高精度无线语音识别门禁系统。
本发明的目的采用以下技术方案来实现:
一种高精度无线语音识别门禁系统,包括语音采集模块、无线传输模块、语音信号处理模块、验证识别模块、感知哈希序列数据库和门禁,所述语音采集模块用于采集目标语音信号;所述语音信号处理模块用于将目标语音信号进行二进制比特的感知哈希序列构造;所述感知哈希序列数据库中预存有标准的二进制比特方式的感知哈希序列;验证识别模块用于将目标语音信号的感知哈希序列与感知哈希序列数据库中标准的感知哈希序列进行对比验证识别,得到语音验证识别结果,语音验证识别结果发送至门禁。
工作时,需要进出目标人员向语音采集模块发出目标语音信号,无线传输模块将目标语音信号发送至语音信号处理模块,语音信号处理模块将目标语音信号进行二进制比特方式的感知哈希序列构造后发送到验证识别模块,该验证识别模块将目标语音信号的感知哈希序列与感知哈希序列数据库中标准的感知哈希序列进行对比验证,如果验证成功,则绿LED灯亮,门禁打开,如果验证失败,则红LED灯亮,门禁保持关闭。
本发明的有益效果为:本发明采用构造二进制比特方式的感知哈希序列对目标语音信号进行处理,验证识别时扩大不同感知哈希值之间的差距,大大提高语音识别的精确度,从而提高门禁安全性能,同时本发明对目标语音信号构造成二进制比特序列方式进行存储,降低单个目标的存储空间从而起到提高存储目标数量的良好效果。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明的框架结构图;
图2是本发明的语音信号处理模块的框架结构图。
附图标记:
语音采集模块1、无线传输模块2、语音信号处理模块3、验证识别模块4、感知哈希序列数据库5、门禁6、语音信号预处理子模块31、系数提取子模块32、感知哈希序列构建子模块33。
具体实施方式
结合以下应用场景对本发明作进一步描述。
参见图1,本实施例的一种高精度无线语音识别门禁系统,包括语音采集模块1、无线传输模块2、语音信号处理模块3、验证识别模块4、感知哈希序列数据库5和门禁6,所述语音采集模块4用于采集目标语音信号;所述语音信号处理模块3用于将目标语音信号进行二进制比特方式的感知哈希序列构造;所述感知哈希序列数据库5中预存有标准的二进制比特方式的感知哈希序列;验证识别模块4用于将目标语音信号的感知哈希序列与感知哈希序列数据库5中预存的标准的感知哈希序列进行对比验证识别,得到语音验证识别结果,语音验证识别结果发送至门禁6。
优选地,所述无线传输模块2为4G无线网络或蓝牙。
优选地,如图2所示,所述语音信号处理模块3包括语音信号预处理子模块31、系数提取子模块32和感知哈希序列构建子模块33,所述语音信号预处理子模块31用于对目标语音信号进行加窗、分段和混叠处理;所述系数提取子模块32用于对目标语音信号进行压缩、解码及提取改进的离散余弦变换(MDCT)系数;所述感知哈希序列构建子模块33用于将提取的MDCT系数计算目标语音信号子带的能量,以构建目标语言的感知哈希序列。
工作时,需要进出目标人员向语音采集模块1发出目标语音信号,无线传输模块2将目标语音信号发生至语音信号处理模块3,语音信号处理模块3将目标语音信号进行二进制比特方式的感知哈希序列构造后发送到验证识别模块4,该验证识别模块4将目标语音信号的感知哈希序列与感知哈希序列数据库5中标准的感知哈希序列进行对比验证,如果验证成功,则绿LED灯亮,门禁6打开,如果验证失败,则红LED灯亮,门禁6保持关闭。
本发明上述实施例,采用构造二进制比特方式的感知哈希序列对目标语音信号进行处理,验证识别时扩大不同感知哈希值之间的差距,大大提高语音识别的精确度和鲁棒性,从而提高门禁安全性能,同时本发明对目标语音信号构造成二进制比特的感知哈希序列方式进行存储,降低单个目标的存储空间从而起到提高存储目标数量的良好效果。
优选地,所述门禁6包括红、绿LED灯,所述红LED灯用于在目标语音信号的感知哈希序列与标准的感知哈希序列匹配失败时发光;所述绿LED灯用于在目标语音信号的感知哈希序列与标准的感知哈希序列匹配成功时发光。
本发明上述实施例,采用红、绿LED灯进行验证结果显示,简明易懂,且材料成本低廉,节能环保。
优选地,所述语音信号预处理子模块用于对目标语音信号进行加窗、分段和混叠预处理,具体为:
(1)由于语音信号为非平稳信号,需要对采集得到的语音信号进行加窗处理,以得到短时平稳的语音信号,加窗卷积函数为:
Y(a)=y(a)*w(a)
式中:Y(a)为进行加窗处理后的第a帧时域语音信号,y(a)为输入的第a帧时域语音信号,w(a)为自定义窗函数,N为窗口长度;
(2)将时域语音信号Y(a)分为j段,每段包括k节,每节包括p个子带,具体的j、k、p值根据实际情况设定,相邻段之间设定有(k-1)节的重复。
本发明上述实施例,将语音信号分段重叠,并设定相邻段之间设定有(k-1)节的重复,保证语音信号的鲁棒性同时确保算法精度。
优选地,所述系数提取子模块基于MDCT的MP3音频压缩理论对输入的语音信号进行压缩,然后对压缩后的语音信号进行解码,提取MDCT系数,包括:
(1)对预处理后的语音信号进行压缩,其中在对加窗处理后的时域语音信号进行频域变换时,采用下列公式进行频域变换:
式中,表示对加窗处理后的时域语音信号再进行频域变换后得到的频域语音信号,x=0,1,2……b-1,Y(a)表示进行加窗处理后的时域语音信号,a为语音信号帧数,b为感知哈希序列长度(单位:比特),为修正因子;
(2)对输入的时域语音信号压缩完毕后,再对得到的压缩频域语音信号使用开源解码器Libmad(MPEG Audio Decoder)作为解码软件进行解码,提取MDCT系数。
本发明上述实施例,通过自定义改进的离散余弦变换公式,引入修正因子,减少系统误差,能够更加准确地对时域语音信号进行频域变换,提高算法鲁棒性,有利于开源解码器Libmad更加准确提取MDCT系数,为接下来的能量计算奠定良好基础。
优选地,所述感知哈希序列构建子模块把通过开源解码器Libmad提取得到的MDCT系数来计算频域语音信号子带的能量,以构造感知哈希数序列,具体为:
(1)将频域语音信号每一个小节分为32个子带,分别计算每一个子带的能量,定义能量计算公式为:
式中,P(j,k,p)表示频域语音信号第j段第k节第p个子带的能量,Q(j,k,p,q)表示频域语音信号第j段第k节第p个子带的第q个MDCT系数;
(2)提取每段中1至k节1-32子带的能量,构成感知特征矩阵Aj
k值可表示矩阵长度,对特征矩阵Aj通过非负矩阵分解降维,形成第j段的段内特征矩阵Gj
Aj=Cj×Gj
其中,Cj、Gj分别为k×1、1×32的矩阵,将每段的段内特征矩阵转置合并得到段间联合特征矩阵D=[G1 T,G2 T,G3 T,…,G32 T],再用非负矩阵分解对段间联合特征矩阵D进行降维,得到段间特征矩阵G;
(3)构造感知哈希序列,采用二进制比特序列方式构造感知哈希序列,构造公式为:
式中,H(i)表示感知哈希序列计算函数,g(i)为段间特征矩阵G中第i个元素的数值,g(i)∈G,i=1,2,3……b,b为感知哈希序列的长度(单位:比特),为段间特征矩阵G中元素数值的均值;
得到的感知哈希序列发送至验证识别模块。
本发明上述实施例,通过自定义能量计算公式,准确计算子带能量值,构成感知特征矩阵,最终提高二进制比特序列的精度,而且采用二进制比特序列进行存储的方式也使得存储数据量减小,同时提高运算速度。
优选地,所述验证识别模块将目标语音信号的感知哈希序列与感知哈希序列数据库中标准的感知哈希序列进行对比验证,对比得到的结果采用自定义误差值来衡量,自定义误差值公式如下:
式中,W表示自定义误差值计算函数,b为感知哈希序列的长度(单位:比特),βn为第n个权重系数,gn 1为目标语音信号的感知哈希序列中的第n个感知哈希值,gn 2为感知哈希序列数据库内标准的感知哈希序列的第n个标准的感知哈希值;
定义比较判断函数:
式中,γ为设定的误差值的阈值。
本发明上述实施例,通过将目标语音信号的感知哈希序列与感知哈希序列数据库内标准的感知哈希序列比较,用自定义误差值来衡量两段感知哈希序列之间的差距,扩大相异的感知哈希值之间的差距值,更有利于突出差异,提高相同语音信号匹配识别时的准确度。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (6)

1.一种高精度无线语音识别门禁系统,其特征是,包括语音采集模块、无线传输模块、语音信号处理模块、验证识别模块、感知哈希序列数据库和门禁,所述语音采集模块用于采集目标语音信号;所述语音信号处理模块用于将目标语音信号进行二进制比特的感知哈希序列构造;所述感知哈希序列数据库中预存有标准的二进制比特方式的感知哈希序列;验证识别模块用于将目标语音信号的感知哈希序列与感知哈希序列数据库中标准的感知哈希序列进行对比验证识别,得到语音验证识别结果,语音验证识别结果发送至门禁;
所述语音信号处理模块包括语音信号预处理子模块、系数提取子模块和感知哈希序列构建子模块,所述语音信号预处理子模块用于对目标语音信号进行加窗、分段和混叠处理;所述系数提取子模块用于对目标语音信号进行压缩、解码及提取改进的离散余弦变换(Modified Discrete Cosine Transform,MDCT)系数;所述感知哈希序列构建子模块用于将提取的MDCT系数计算目标语音信号子带的能量,以构建目标语音信号的感知哈希序列;
所述语音信号预处理子模块用于对目标语音信号进行加窗、分段和混叠预处理,具体为:
(1)对采集得到的目标语音信号进行加窗处理,以得到短时平稳的语音信号,其中加窗卷积函数为:
Y(a)=y(a)*w(a)
式中:Y(a)为进行加窗处理后的第a帧时域语音信号,y(a)为输入的第a帧时域语音信号,w(a)为自定义窗函数,N为窗口长度;
(2)将时域语音信号Y(a)分为j段,每段包括k节,每节包括p个子带,具体的j、k、p值根据实际情况设定,相邻段之间设定有(k-1)节的重复。
2.根据权利要求1所述的一种高精度无线语音识别门禁系统,其特征是,所述无线传输模块为4G无线网络或蓝牙。
3.根据权利要求1所述的一种高精度无线语音识别门禁系统,其特征是,所述门禁包括红、绿LED灯,所述红LED灯用于在目标语音信号的感知哈希序列与标准的感知哈希序列匹配失败时发光;所述绿LED灯用于在目标语音信号的感知哈希序列与标准的感知哈希序列匹配成功时发光。
4.根据权利要求1所述的一种高精度无线语音识别门禁系统,其特征是,所述系数提取子模块基于MDCT的MP3音频压缩理论对预处理后的语音信号进行压缩,然后对压缩后的语音信号进行解码,提取MDCT系数,包括:
(1)对预处理后的语音信号进行压缩,其中在对加窗处理后的时域语音信号进行频域变换时,采用下列公式进行频域变换:
式中,表示对加窗处理后的时域语音信号再进行频域变换后得到的频域语音信号,x=0,1,2……b-1,Y(a)表示进行加窗处理后的时域语音信号,a为语音信号帧数,b为感知哈希序列长度,其单位为比特,为修正因子;
(2)对目标语音信号压缩完毕后,再对得到的压缩频域语音信号使用开源解码器Libmad(MPEG Audio Decoder)作为解码软件进行解码,提取MDCT系数。
5.根据权利要求1所述的一种高精度无线语音识别门禁系统,其特征是,所述感知哈希序列构建子模块把通过开源解码器Libmad提取得到的MDCT系数来计算频域语音信号子带的能量,以构造感知哈希序列,具体为:
(1)将频域语音信号每一个小节分为32个子带,分别计算每一个子带的能量,定义能量计算公式为:
式中,P(j,k,p)表示频域语音信号第j段第k节第p个子带的能量,Q(j,k,p,q)表示频域语音信号第j段第k节第p个子带的第q个MDCT系数;
(2)提取每段中1至k节1-32子带的能量,构成感知特征矩阵Aj
k值可表示矩阵长度,对特征矩阵Aj通过非负矩阵分解降维,形成第j段的段内特征矩阵Gj
Aj=Cj×Gj
其中,Cj、Gj分别为k×1、1×32的矩阵,将每段的段内特征矩阵转置合并得到段间联合特征矩阵D=[G1 T,G2 T,G3 T,…,G32 T],再用非负矩阵分解对段间联合特征矩阵D进行降维,得到段间特征矩阵G;
(3)采用二进制比特序列方式构造目标语音信号的感知哈希序列,构造公式为:
式中,H(i)表示感知哈希序列计算函数,g(i)为段间特征矩阵G中第i个元素的数值,g(i)∈G,i=1,2,3……b,b为感知哈希序列的长度,其单位为比特,为段间特征矩阵G中元素数值的均值;
得到的感知哈希序列发送至验证识别模块。
6.根据权利要求5所述的一种高精度无线语音识别门禁系统,其特征是,所述验证识别模块将目标语音信号的感知哈希序列与感知哈希序列数据库中标准的感知哈希序列进行对比验证,对比得到的结果采用自定义误差值来衡量,自定义误差值公式如下:
式中,W表示自定义误差值计算函数,b为感知哈希序列长度,其单位为比特,βn为第n个权重系数,gn 1为目标语音信号的感知哈希序列中的第n个感知哈希值,gn 2为感知哈希序列数据库内标准的感知哈希序列的第n个标准的感知哈希值;
定义比较判断函数:
式中,γ为设定的误差值的阈值。
CN201710290060.5A 2017-04-27 2017-04-27 一种高精度无线语音识别门禁系统 Active CN107195028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710290060.5A CN107195028B (zh) 2017-04-27 2017-04-27 一种高精度无线语音识别门禁系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710290060.5A CN107195028B (zh) 2017-04-27 2017-04-27 一种高精度无线语音识别门禁系统

Publications (2)

Publication Number Publication Date
CN107195028A CN107195028A (zh) 2017-09-22
CN107195028B true CN107195028B (zh) 2018-07-06

Family

ID=59872221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710290060.5A Active CN107195028B (zh) 2017-04-27 2017-04-27 一种高精度无线语音识别门禁系统

Country Status (1)

Country Link
CN (1) CN107195028B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102881291A (zh) * 2012-10-24 2013-01-16 兰州理工大学 语音感知哈希认证的感知哈希值提取方法及认证方法
CN103280011A (zh) * 2013-06-09 2013-09-04 无锡北斗星通信息科技有限公司 楼宇门禁安全管理系统
CN203909869U (zh) * 2014-05-12 2014-10-29 深圳市威富多媒体有限公司 一种云端门禁道闸管理系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
CN104091104B (zh) * 2014-07-02 2017-03-15 兰州理工大学 多格式音频感知哈希认证的特征值提取及认证方法
CN105741853B (zh) * 2016-01-25 2019-03-29 西南交通大学 一种基于共振峰频率的数字语音感知哈希方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102881291A (zh) * 2012-10-24 2013-01-16 兰州理工大学 语音感知哈希认证的感知哈希值提取方法及认证方法
CN103280011A (zh) * 2013-06-09 2013-09-04 无锡北斗星通信息科技有限公司 楼宇门禁安全管理系统
CN203909869U (zh) * 2014-05-12 2014-10-29 深圳市威富多媒体有限公司 一种云端门禁道闸管理系统

Also Published As

Publication number Publication date
CN107195028A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN110718228B (zh) 语音分离方法、装置、电子设备及计算机可读存储介质
KR102017244B1 (ko) 자연어 인식 성능 개선 방법 및 장치
CN101256768B (zh) 用于语种识别的时频二维倒谱特征提取方法
Sajjan et al. Comparison of DTW and HMM for isolated word recognition
CN102968986A (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
Chen et al. Audio hash function based on non-negative matrix factorisation of mel-frequency cepstral coefficients
CN112634880B (zh) 话者识别的方法、装置、设备、存储介质以及程序产品
CN113192497B (zh) 基于自然语言处理的语音识别方法、装置、设备及介质
CN103489445A (zh) 一种识别音频中人声的方法及装置
Chen et al. An audio scene classification framework with embedded filters and a DCT-based temporal module
CN114255740A (zh) 语音识别方法、装置、计算机设备和存储介质
CN105741853A (zh) 一种基于共振峰频率的数字语音感知哈希方法
CN107195028B (zh) 一种高精度无线语音识别门禁系统
El-Henawy et al. Recognition of phonetic Arabic figures via wavelet based Mel Frequency Cepstrum using HMMs
Kalamani et al. Review of Speech Segmentation Algorithms for Speech Recognition
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
CN113270090B (zh) 基于asr模型与tts模型的组合模型训练方法及设备
CN114067793A (zh) 音频处理方法和装置、电子设备及可读存储介质
CN113889089A (zh) 语音识别模型的获取方法、装置、电子设备以及存储介质
CN112951256A (zh) 语音处理方法及装置
Patel et al. Development and implementation of algorithm for speaker recognition for gujarati language
Rahman et al. Continuous bangla speech segmentation, classification and feature extraction
CN114360580B (zh) 基于多特征决策融合的音频copy-move篡改检测与定位方法和系统
CN113345413B (zh) 基于音频特征提取的语音合成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liu Enyuan

Inventor before: Jia Huaqi

CB03 Change of inventor or designer information
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180523

Address after: 518000 Shenzhen, Guangdong, Yantian District, Hai Shan Street, Sha Tou Jiao Deep Salt Road South Bao Fa Building fifth floor H1

Applicant after: Shenzhen changen intelligent Limited by Share Ltd.

Address before: 100000 No. 4, 5 building, No. 9 Anning West Road, Haidian District, Beijing 302

Applicant before: Jia Huaqi

GR01 Patent grant
GR01 Patent grant
CI03 Correction of invention patent

Correction item: Inventor

Correct: Jia Huaqi

False: Liu Enyuan

Number: 24-01

Volume: 34

Correction item: Patentee|Address

Correct: Jia Huaqi|100000 No. 4, 5 building, No. 9 Anning West Road, Haidian District, Beijing 302

False: Shenzhen changen intelligent Limited by Share Ltd|518000 Shenzhen, Guangdong, Yantian District, Hai Shan Street, Sha Tou Jiao Deep Salt Road South Bao Fa Building fifth floor H1

Number: 24-01

Volume: 34

CI03 Correction of invention patent
TR01 Transfer of patent right

Effective date of registration: 20200811

Address after: 518000 Shenzhen, Guangdong, Yantian District, Hai Shan Street, Sha Tou Jiao Deep Salt Road South Bao Fa Building fifth floor H1

Patentee after: Shenzhen changen intelligent Limited by Share Ltd.

Address before: 100000, No. 4, gate 5, building 9, Anning West Road, 302, Beijing, Haidian District

Patentee before: Jia Huaqi

TR01 Transfer of patent right