CN113257266B - 基于声纹多特征融合的复杂环境门禁方法及装置 - Google Patents

基于声纹多特征融合的复杂环境门禁方法及装置 Download PDF

Info

Publication number
CN113257266B
CN113257266B CN202110559509.XA CN202110559509A CN113257266B CN 113257266 B CN113257266 B CN 113257266B CN 202110559509 A CN202110559509 A CN 202110559509A CN 113257266 B CN113257266 B CN 113257266B
Authority
CN
China
Prior art keywords
environment
voice
data
network
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110559509.XA
Other languages
English (en)
Other versions
CN113257266A (zh
Inventor
赵晓凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Terminus Technology Group Co Ltd
Original Assignee
Terminus Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Terminus Technology Group Co Ltd filed Critical Terminus Technology Group Co Ltd
Priority to CN202110559509.XA priority Critical patent/CN113257266B/zh
Publication of CN113257266A publication Critical patent/CN113257266A/zh
Application granted granted Critical
Publication of CN113257266B publication Critical patent/CN113257266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于声纹多特征融合的复杂环境门禁方法及装置,涉及人工智能技术领域,该方法包括根据语音环境数据训练集中的数据组合的语音混合数据提取第一、第二特征矩阵并将其融合后输入语音处理网络进行处理,输出第一输出向量;将数据组合的环境数据输入环境处理网络进行处理,输出第二输出向量,根据第一、第二输出向量构建损失函数训练语音处理网络和环境处理网络,训练完成后将第二输出向量输入环境恢复网络进行处理,输出特征矩阵作为环境处理网络的输入,再次训练,训练完成后共同组成语音识别网络,实现用户识别。本发明通过反馈滤除环境音,实现了嘈杂环境下用户语音的高速识别。

Description

基于声纹多特征融合的复杂环境门禁方法及装置
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于声纹多特征融合的复杂环境门禁方法及装置。
背景技术
声纹不仅具有特定性,而且有相对稳定性的特点。人成年以后,人的声音可保持长期相对稳定不变。根据声纹的该特点,目前市场上也出现了多种利用声纹识别的门禁系统。
但是,这些声纹识别的门禁系统大多是仅针对声音采集设备采集获得的一段语音来进行声纹建模和特征提取,从而获得该段语音的说话人,以实施是否开门的判断。然而,通常声音采集设备安装在移动客户端(如手机、IPAD等)、门禁设备端等地方,工作时所采集到的语音中都包含有环境音,导致存在识别率低、易出错的缺陷,特别是在嘈杂等的复杂环境下。
发明内容
因此,为了克服上述缺陷,本发明实施例提供一种基于声纹多特征融合的复杂环境门禁方法及装置。
为此,本发明实施例的一种基于声纹多特征融合的复杂环境门禁方法,包括以下步骤:
获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;
将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;
获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
优选地,所述第一特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同。
优选地,所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层,融合矩阵输入语音处理网络,经语音处理网络处理后输出第一输出向量的步骤包括:
将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
优选地,所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层,将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量的步骤包括:
将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
优选地,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵的步骤包括:
将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
本发明实施例的一种基于声纹多特征融合的复杂环境门禁装置,包括:
训练集获取单元,用于获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
声纹特征提取单元,用于将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;
语音处理网络单元,用于将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
环境处理网络单元,用于将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
第一训练单元,用于将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
第二训练单元,用于将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
语音识别网络训练单元,用于在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;
用户语音识别单元,用于获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
开关门控制单元,用于根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
优选地,所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层,语音处理网络单元包括:
第一卷积-循环层单元,用于将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
第一全连接层单元,用于将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
优选地,所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层,环境处理网络单元包括:
环境特征提取单元,用于将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
第二卷积-循环层单元,用于将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
第二全连接层单元,用于将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
优选地,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,第二训练单元包括:
第三全连接层单元,用于将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
循环-反卷积层单元,用于将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
本发明实施例的基于声纹多特征融合的复杂环境门禁方法及装置,具有如下优点:
通过将环境恢复网络恢复出的环境数据反馈给语音识别网络的输入端,从而滤除掉输入语音混合数据中的环境数据,消除复杂环境对语音识别的影响,提高了识别率和识别速度,从而也提高了识别准确性。用户在门禁输入语音时通常伴随有环境音/背景音,其十分影响语音识别的效果,特别是在嘈杂环境中。通过将用户开门时的语音,即待识别的语音混合数据,去除掉环境音/背景音,然后输入语音识别网络进行识别,获得用户识别成功与否的信息,以此进行开关门的控制,提高了识别效率及准确性,特别是在嘈杂环境中能够快速实现用户声音的识别,提高开门速度和开门安全性。
附图说明
为了更清楚地说明本发明具体实施方式中的技术方案,下面将对具体实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中基于声纹多特征融合的复杂环境门禁方法的一个具体示例的流程图;
图2为本发明实施例1中基于声纹多特征融合的复杂环境门禁方法的一个具体示例的原理框图;
图3为本发明实施例2中基于声纹多特征融合的复杂环境门禁装置的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,本文所用的术语仅用于描述特定实施例的目的,而并非旨在限制本发明。除非上下文明确指出,否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时,是意图说明存在该特征、整数、步骤、操作、元素和/或组件,而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,本说明书中的某些图式是用于例示方法的流程图。应了解,这些流程图中的每一个方块、及这些流程图中方块的组合可通过计算机程序指令来实施。这些计算机程序指令可加载至一计算机或其他可编程的设备上来形成一机器,以使在所述计算机或其他可编程设备上执行的指令形成用于实施在所述流程图方块中所规定功能的结构。这些计算机程序指令也可储存于一计算机可读存储器中,所述计算机可读存储器可指令一计算机或其他可编程设备以一特定方式工作,以使储存于所述计算机可读存储器中的指令形成一包含用于实施在所述流程图方块中所规定功能的指令结构的制品。所述计算机程序指令也可加载至一计算机或其他可编程设备上,以便在所述计算机或其他可编程设备上执行一系列操作步骤来形成一由计算机实施的过程,从而使在所述计算机或其他可编程设备上执行的指令提供用于实施在所述流程图方块中所规定功能的步骤。
相应地,各流程图中的方块支持用于执行所规定功能的结构的组合及用于执行所规定功能的步骤的组合。还应了解,所述流程图中的每一个方块、及所述流程图中方块的组合可由执行所规定功能或步骤的基于专用硬件的计算机系统、或者专用硬件与计算机指令的组合来实施。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供一种基于声纹多特征融合的复杂环境门禁方法,如图1所示,包括以下步骤:
S1、获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成,也可以是背景音数据;语音环境数据训练集中包括所有用户,若有新的用户,则可将新的用户加入到语音环境数据训练集中即可。每个用户可建立多个环境数据和语音混合数据组成的数据组合,即同一句语音可对应多个不同的环境,采用实时采集录制或后期叠加处理(后期对语音叠加上不同的背景音)均可。
S2、将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;
优选地,所述第一特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同。
S3、将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
优选地,将MFCC特征参数矩阵和GFCC特征参数矩阵进行融合,例如,将这两个矩阵进行合并形成一个融合矩阵,或者将这两个矩阵中的各元素分别求取一阶差分后获得两个一阶差分矩阵,然后将这两个矩阵和两个一阶差分矩阵进行合并形成一个融合矩阵。通过参数融合后提高了识别性能和抗噪性。
S4、将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
S5、将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
当损失函数满足最小化要求时,第一输出向量与第二输出向量完成映射关联,即第一输出向量对应的语音混合数据与第二输出向量对应的环境数据实现数据组合的配对,从而达到了训练效果,完成训练。
S6、将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
S7、在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;将所述语音混合数据去除掉所述特征矩阵对应的环境数据可根据实际选择相应的方法即可。
S8、获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
S9、根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。根据用于识别成功信息控制开门,根据用户识别不成功信息控制不开门或其他控制步骤(例如若确认为用户则进行用户信息录入等步骤)。
如图2所示,上述基于声纹多特征融合的复杂环境门禁方法中采用语音处理网络、环境处理网络和环境恢复网络构成训练模型,训练时分为两个阶段,先通过语音环境数据训练集中的预设置的用户语音与环境之间的数据组合对语音处理网络和环境处理网络进行训练,以用户语音与环境之间的空间距离构建的损失函数最小化为训练目标,使得用户语音与环境之间在高维空间实现向量对齐,以符合预设置的配对,从而完成训练。然后在训练好的语音处理网络和环境处理网络的基础上,将环境恢复网络的输出输入环境处理网络,还是以上述损失函数的最小化为训练目标,即第一输出向量和第二输出向量的空间距离(用户语音与环境之间的空间距离)构建的损失函数,再次进行训练,以调整网络参数使得环境恢复网络能够恢复出原始环境数据。
该方法中还采用语音识别网络构成语音识别模型,通过将环境恢复网络恢复出的环境数据反馈给语音识别网络的输入端,从而滤除掉输入语音混合数据中的环境数据,消除复杂环境对语音识别的影响,提高了识别率和识别速度,从而也提高了识别准确性。用户在门禁输入语音时通常伴随有环境音/背景音,其十分影响语音识别的效果,特别是在嘈杂环境中。通过将用户开门时的语音,即待识别的语音混合数据,去除掉环境音/背景音,然后输入语音识别网络进行识别,获得用户识别成功与否的信息,以此进行开关门的控制,提高了识别效率及准确性,特别是在嘈杂环境中能够快速实现用户声音的识别,提高开门速度和开门安全性。
优选地,所述语音处理网络包括依次连接的第一卷积-循环层(CNN-RNN)和第一全连接层,融合矩阵输入语音处理网络,经语音处理网络处理后输出第一输出向量的步骤包括:
S31、将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
S32、将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
上述步骤从语音混合数据中分别提取不同的声纹特征,并将不同的声纹特征进行融合,从而提高识别性能和抗噪性。进行融合后获得声纹的融合矩阵作为语音处理网络的输入,在语音处理网络经第一卷积-循环层进行计算,然后经第一全连接层后输出语音混合数据对应的高维特征向量。
优选地,所述环境处理网络包括依次连接的第二卷积-循环层(CNN-RNN)和第二全连接层,将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量的步骤包括:
S41、将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
S42、将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
S43、将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
上述步骤从环境数据中提取声音特征,形成环境特征矩阵,从而获得代表环境的特征。将环境特征矩阵作为环境处理网络的输入,在环境处理网络经第二卷积-循环层进行计算,然后经第二全连接层后输出环境数据对应的高维特征向量。
优选地,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵的步骤包括:
S61、将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
S62、将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
上述步骤将环境数据对应的第二输出向量作为环境恢复网络的输入,在环境恢复网络进行与环境处理网络相逆的过程,经第三全连接层进行计算,然后经循环-反卷积层后输出环境数据对应的特征矩阵。
实施例2
本实施例提供一种基于声纹多特征融合的复杂环境门禁装置,对应于实施例1的基于声纹多特征融合的复杂环境门禁方法,如图3所示,包括:
训练集获取单元1,用于获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
声纹特征提取单元2,用于将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;
优选地,所述第一特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同。
语音处理网络单元3,用于将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
优选地,将MFCC特征参数矩阵和GFCC特征参数矩阵进行融合,例如,将这两个矩阵进行合并形成一个融合矩阵,或者将这两个矩阵中的各元素分别求取一阶差分后获得两个一阶差分矩阵,然后将这两个矩阵和两个一阶差分矩阵进行合并形成一个融合矩阵。通过参数融合后提高了识别性能和抗噪性。
环境处理网络单元4,用于将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
第一训练单元5,用于将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
当损失函数满足最小化要求时,第一输出向量与第二输出向量完成映射关联,即第一输出向量对应的语音混合数据与第二输出向量对应的环境数据实现数据组合的配对,从而达到了训练效果,完成训练。
第二训练单元6,用于将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
语音识别网络训练单元7,用于在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;将所述语音混合数据去除掉所述特征矩阵对应的环境数据可根据实际选择相应的方法即可。
用户语音识别单元8,用于获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
开关门控制单元9,用于根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
上述基于声纹多特征融合的复杂环境门禁装置,通过将环境恢复网络恢复出的环境数据反馈给语音识别网络的输入端,从而滤除掉输入语音混合数据中的环境数据,消除复杂环境对语音识别的影响,提高了识别率和识别速度,从而也提高了开门速度和开门安全性,特别是在嘈杂的环境中。
优选地,所述语音处理网络包括依次连接的第一卷积-循环层(CNN-RNN)和第一全连接层,语音处理网络单元包括:
第一卷积-循环层单元,用于将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
第一全连接层单元,用于将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
上述语音处理网络单元将声纹的融合矩阵作为语音处理网络的输入,在语音处理网络经第一卷积-循环层进行计算,然后经第一全连接层后输出语音混合数据对应的高维特征向量。
优选地,所述环境处理网络包括依次连接的第二卷积-循环层(CNN-RNN)和第二全连接层,环境处理网络单元包括:
环境特征提取单元,用于将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
第二卷积-循环层单元,用于将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
第二全连接层单元,用于将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
上述环境处理网络单元将环境特征矩阵作为环境处理网络的输入,在环境处理网络经第二卷积-循环层进行计算,然后经第二全连接层后输出环境数据对应的高维特征向量。
优选地,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,第二训练单元包括:
第三全连接层单元,用于将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
循环-反卷积层单元,用于将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
上述第二训练单元将环境数据对应的第二输出向量作为环境恢复网络的输入,在环境恢复网络进行与环境处理网络相逆的过程,经第三全连接层进行计算,然后经循环-反卷积层后输出环境数据对应的特征矩阵。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种基于声纹多特征融合的复杂环境门禁方法,其特征在于,包括以下步骤:
获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;所述第一特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同;
将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;
获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
2.根据权利要求1所述的方法,其特征在于,所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层,融合矩阵输入语音处理网络,经语音处理网络处理后输出第一输出向量的步骤包括:
将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
3.根据权利要求1所述的方法,其特征在于,所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层,将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量的步骤包括:
将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵的步骤包括:
将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
5.一种基于声纹多特征融合的复杂环境门禁装置,其特征在于,包括:
训练集获取单元,用于获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
声纹特征提取单元,用于将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;所述第一特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同;
语音处理网络单元,用于将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
环境处理网络单元,用于将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
第一训练单元,用于将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
第二训练单元,用于将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
语音识别网络训练单元,用于在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;
用户语音识别单元,用于获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
开关门控制单元,用于根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
6.根据权利要求5所述的装置,其特征在于,所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层,语音处理网络单元包括:
第一卷积-循环层单元,用于将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
第一全连接层单元,用于将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
7.根据权利要求5所述的装置,其特征在于,所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层,环境处理网络单元包括:
环境特征提取单元,用于将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
第二卷积-循环层单元,用于将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
第二全连接层单元,用于将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,第二训练单元包括:
第三全连接层单元,用于将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
循环-反卷积层单元,用于将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
CN202110559509.XA 2021-05-21 2021-05-21 基于声纹多特征融合的复杂环境门禁方法及装置 Active CN113257266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110559509.XA CN113257266B (zh) 2021-05-21 2021-05-21 基于声纹多特征融合的复杂环境门禁方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110559509.XA CN113257266B (zh) 2021-05-21 2021-05-21 基于声纹多特征融合的复杂环境门禁方法及装置

Publications (2)

Publication Number Publication Date
CN113257266A CN113257266A (zh) 2021-08-13
CN113257266B true CN113257266B (zh) 2021-12-24

Family

ID=77183675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110559509.XA Active CN113257266B (zh) 2021-05-21 2021-05-21 基于声纹多特征融合的复杂环境门禁方法及装置

Country Status (1)

Country Link
CN (1) CN113257266B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015083091A2 (en) * 2013-12-06 2015-06-11 Tata Consultancy Services Limited System and method to provide classification of noise data of human crowd
CN109801634A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种声纹特征的融合方法及装置
WO2019127897A1 (zh) * 2017-12-29 2019-07-04 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN110299142A (zh) * 2018-05-14 2019-10-01 桂林远望智能通信科技有限公司 一种基于网络融合的声纹识别方法及装置
EP3608907A1 (en) * 2018-08-10 2020-02-12 Visa International Service Association Replay spoofing detection for automatic speaker verification system
EP3174262B1 (en) * 2015-03-20 2020-06-17 Baidu Online Network Technology (Beijing) Co., Ltd Voiceprint login method and apparatus based on artificial intelligence
CN111402100A (zh) * 2020-02-03 2020-07-10 重庆特斯联智慧科技股份有限公司 一种通过目标追踪实现的人口登记方法和系统
CN111524522A (zh) * 2020-04-23 2020-08-11 上海依图网络科技有限公司 一种基于多种语音特征融合的声纹识别方法及系统
CN111554306A (zh) * 2020-04-26 2020-08-18 兰州理工大学 一种基于多特征的声纹识别方法
CN112349005A (zh) * 2020-09-14 2021-02-09 中标慧安信息技术股份有限公司 一种通过语音识别实现开门的智能门禁系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782565A (zh) * 2016-11-29 2017-05-31 重庆重智机器人研究院有限公司 一种声纹特征识别方法及系统
CN110956965A (zh) * 2019-12-12 2020-04-03 电子科技大学 一种基于声纹识别的个性化智能家居安全控制系统及方法
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN111785285A (zh) * 2020-05-22 2020-10-16 南京邮电大学 面向家居多特征参数融合的声纹识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015083091A2 (en) * 2013-12-06 2015-06-11 Tata Consultancy Services Limited System and method to provide classification of noise data of human crowd
EP3174262B1 (en) * 2015-03-20 2020-06-17 Baidu Online Network Technology (Beijing) Co., Ltd Voiceprint login method and apparatus based on artificial intelligence
WO2019127897A1 (zh) * 2017-12-29 2019-07-04 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN110299142A (zh) * 2018-05-14 2019-10-01 桂林远望智能通信科技有限公司 一种基于网络融合的声纹识别方法及装置
EP3608907A1 (en) * 2018-08-10 2020-02-12 Visa International Service Association Replay spoofing detection for automatic speaker verification system
CN109801634A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种声纹特征的融合方法及装置
CN111402100A (zh) * 2020-02-03 2020-07-10 重庆特斯联智慧科技股份有限公司 一种通过目标追踪实现的人口登记方法和系统
CN111524522A (zh) * 2020-04-23 2020-08-11 上海依图网络科技有限公司 一种基于多种语音特征融合的声纹识别方法及系统
CN111554306A (zh) * 2020-04-26 2020-08-18 兰州理工大学 一种基于多特征的声纹识别方法
CN112349005A (zh) * 2020-09-14 2021-02-09 中标慧安信息技术股份有限公司 一种通过语音识别实现开门的智能门禁系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An Improved Feature Fusion for Speaker Recognition;Meixiang Dai et al;《2019 IEEE Fourth International Conference on Data Science in Cyberspace (DSC)》;20191205;全文 *
Fusing wavelet and short-term features for speaker identification in noisy environment;Sara SEKKATE et al;《2018 ISCV》;20180507;全文 *
基于机器学习的声纹识别研发;祁晓波;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215;全文 *
基于深度学习的声纹识别算法研究;郭茗涵;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200815;全文 *

Also Published As

Publication number Publication date
CN113257266A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
US20220148571A1 (en) Speech Recognition Method and Apparatus, and Computer-Readable Storage Medium
CN112037754B (zh) 一种语音合成训练数据的生成方法及相关设备
US7373301B2 (en) Method for detecting emotions from speech using speaker identification
JP2017215468A (ja) 音声対話装置および音声対話方法
CN105700682A (zh) 基于视觉和语音的智能性别、情绪识别检测系统及方法
CN110379441B (zh) 一种基于对抗型人工智能网络的语音服务方法与系统
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
KR20080023030A (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
CN105845139A (zh) 一种离线语音控制方法和装置
EP1022725A1 (en) Selection of acoustic models using speaker verification
CN108597501A (zh) 一种基于残差网络和双向门控循环单元的视听语音模型
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN112329593A (zh) 一种基于风格化的手势生成方法及生成系统
CN110503943B (zh) 一种语音交互方法以及语音交互系统
CN110931018A (zh) 智能语音交互的方法、装置及计算机可读存储介质
CN113257266B (zh) 基于声纹多特征融合的复杂环境门禁方法及装置
CN110910898A (zh) 一种语音信息处理的方法和装置
CN113571095A (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
CN108492821B (zh) 一种减弱语音识别中说话人影响的方法
CN116434758A (zh) 声纹识别模型训练方法、装置、电子设备及存储介质
CN106971734B (zh) 一种可根据模型的提取频率训练识别模型的方法及系统
US20220270636A1 (en) Dialogue emotion correction method based on graph neural network
CN113643688A (zh) 一种蒙古语语音特征融合方法及装置
CN114067807A (zh) 音频数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant