CN113257266B - 基于声纹多特征融合的复杂环境门禁方法及装置 - Google Patents
基于声纹多特征融合的复杂环境门禁方法及装置 Download PDFInfo
- Publication number
- CN113257266B CN113257266B CN202110559509.XA CN202110559509A CN113257266B CN 113257266 B CN113257266 B CN 113257266B CN 202110559509 A CN202110559509 A CN 202110559509A CN 113257266 B CN113257266 B CN 113257266B
- Authority
- CN
- China
- Prior art keywords
- environment
- voice
- data
- network
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 160
- 238000012545 processing Methods 0.000 claims abstract description 148
- 238000012549 training Methods 0.000 claims abstract description 83
- 239000013598 vector Substances 0.000 claims abstract description 79
- 238000011084 recovery Methods 0.000 claims abstract description 44
- 230000007613 environmental effect Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims description 39
- 238000013507 mapping Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 27
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于声纹多特征融合的复杂环境门禁方法及装置,涉及人工智能技术领域,该方法包括根据语音环境数据训练集中的数据组合的语音混合数据提取第一、第二特征矩阵并将其融合后输入语音处理网络进行处理,输出第一输出向量;将数据组合的环境数据输入环境处理网络进行处理,输出第二输出向量,根据第一、第二输出向量构建损失函数训练语音处理网络和环境处理网络,训练完成后将第二输出向量输入环境恢复网络进行处理,输出特征矩阵作为环境处理网络的输入,再次训练,训练完成后共同组成语音识别网络,实现用户识别。本发明通过反馈滤除环境音,实现了嘈杂环境下用户语音的高速识别。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于声纹多特征融合的复杂环境门禁方法及装置。
背景技术
声纹不仅具有特定性,而且有相对稳定性的特点。人成年以后,人的声音可保持长期相对稳定不变。根据声纹的该特点,目前市场上也出现了多种利用声纹识别的门禁系统。
但是,这些声纹识别的门禁系统大多是仅针对声音采集设备采集获得的一段语音来进行声纹建模和特征提取,从而获得该段语音的说话人,以实施是否开门的判断。然而,通常声音采集设备安装在移动客户端(如手机、IPAD等)、门禁设备端等地方,工作时所采集到的语音中都包含有环境音,导致存在识别率低、易出错的缺陷,特别是在嘈杂等的复杂环境下。
发明内容
因此,为了克服上述缺陷,本发明实施例提供一种基于声纹多特征融合的复杂环境门禁方法及装置。
为此,本发明实施例的一种基于声纹多特征融合的复杂环境门禁方法,包括以下步骤:
获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;
将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;
获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
优选地,所述第一特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同。
优选地,所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层,融合矩阵输入语音处理网络,经语音处理网络处理后输出第一输出向量的步骤包括:
将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
优选地,所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层,将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量的步骤包括:
将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
优选地,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵的步骤包括:
将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
本发明实施例的一种基于声纹多特征融合的复杂环境门禁装置,包括:
训练集获取单元,用于获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
声纹特征提取单元,用于将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;
语音处理网络单元,用于将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
环境处理网络单元,用于将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
第一训练单元,用于将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
第二训练单元,用于将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
语音识别网络训练单元,用于在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;
用户语音识别单元,用于获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
开关门控制单元,用于根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
优选地,所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层,语音处理网络单元包括:
第一卷积-循环层单元,用于将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
第一全连接层单元,用于将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
优选地,所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层,环境处理网络单元包括:
环境特征提取单元,用于将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
第二卷积-循环层单元,用于将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
第二全连接层单元,用于将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
优选地,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,第二训练单元包括:
第三全连接层单元,用于将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
循环-反卷积层单元,用于将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
本发明实施例的基于声纹多特征融合的复杂环境门禁方法及装置,具有如下优点:
通过将环境恢复网络恢复出的环境数据反馈给语音识别网络的输入端,从而滤除掉输入语音混合数据中的环境数据,消除复杂环境对语音识别的影响,提高了识别率和识别速度,从而也提高了识别准确性。用户在门禁输入语音时通常伴随有环境音/背景音,其十分影响语音识别的效果,特别是在嘈杂环境中。通过将用户开门时的语音,即待识别的语音混合数据,去除掉环境音/背景音,然后输入语音识别网络进行识别,获得用户识别成功与否的信息,以此进行开关门的控制,提高了识别效率及准确性,特别是在嘈杂环境中能够快速实现用户声音的识别,提高开门速度和开门安全性。
附图说明
为了更清楚地说明本发明具体实施方式中的技术方案,下面将对具体实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中基于声纹多特征融合的复杂环境门禁方法的一个具体示例的流程图;
图2为本发明实施例1中基于声纹多特征融合的复杂环境门禁方法的一个具体示例的原理框图;
图3为本发明实施例2中基于声纹多特征融合的复杂环境门禁装置的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,本文所用的术语仅用于描述特定实施例的目的,而并非旨在限制本发明。除非上下文明确指出,否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时,是意图说明存在该特征、整数、步骤、操作、元素和/或组件,而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,本说明书中的某些图式是用于例示方法的流程图。应了解,这些流程图中的每一个方块、及这些流程图中方块的组合可通过计算机程序指令来实施。这些计算机程序指令可加载至一计算机或其他可编程的设备上来形成一机器,以使在所述计算机或其他可编程设备上执行的指令形成用于实施在所述流程图方块中所规定功能的结构。这些计算机程序指令也可储存于一计算机可读存储器中,所述计算机可读存储器可指令一计算机或其他可编程设备以一特定方式工作,以使储存于所述计算机可读存储器中的指令形成一包含用于实施在所述流程图方块中所规定功能的指令结构的制品。所述计算机程序指令也可加载至一计算机或其他可编程设备上,以便在所述计算机或其他可编程设备上执行一系列操作步骤来形成一由计算机实施的过程,从而使在所述计算机或其他可编程设备上执行的指令提供用于实施在所述流程图方块中所规定功能的步骤。
相应地,各流程图中的方块支持用于执行所规定功能的结构的组合及用于执行所规定功能的步骤的组合。还应了解,所述流程图中的每一个方块、及所述流程图中方块的组合可由执行所规定功能或步骤的基于专用硬件的计算机系统、或者专用硬件与计算机指令的组合来实施。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供一种基于声纹多特征融合的复杂环境门禁方法,如图1所示,包括以下步骤:
S1、获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成,也可以是背景音数据;语音环境数据训练集中包括所有用户,若有新的用户,则可将新的用户加入到语音环境数据训练集中即可。每个用户可建立多个环境数据和语音混合数据组成的数据组合,即同一句语音可对应多个不同的环境,采用实时采集录制或后期叠加处理(后期对语音叠加上不同的背景音)均可。
S2、将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;
优选地,所述第一特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同。
S3、将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
优选地,将MFCC特征参数矩阵和GFCC特征参数矩阵进行融合,例如,将这两个矩阵进行合并形成一个融合矩阵,或者将这两个矩阵中的各元素分别求取一阶差分后获得两个一阶差分矩阵,然后将这两个矩阵和两个一阶差分矩阵进行合并形成一个融合矩阵。通过参数融合后提高了识别性能和抗噪性。
S4、将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
S5、将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
当损失函数满足最小化要求时,第一输出向量与第二输出向量完成映射关联,即第一输出向量对应的语音混合数据与第二输出向量对应的环境数据实现数据组合的配对,从而达到了训练效果,完成训练。
S6、将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
S7、在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;将所述语音混合数据去除掉所述特征矩阵对应的环境数据可根据实际选择相应的方法即可。
S8、获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
S9、根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。根据用于识别成功信息控制开门,根据用户识别不成功信息控制不开门或其他控制步骤(例如若确认为用户则进行用户信息录入等步骤)。
如图2所示,上述基于声纹多特征融合的复杂环境门禁方法中采用语音处理网络、环境处理网络和环境恢复网络构成训练模型,训练时分为两个阶段,先通过语音环境数据训练集中的预设置的用户语音与环境之间的数据组合对语音处理网络和环境处理网络进行训练,以用户语音与环境之间的空间距离构建的损失函数最小化为训练目标,使得用户语音与环境之间在高维空间实现向量对齐,以符合预设置的配对,从而完成训练。然后在训练好的语音处理网络和环境处理网络的基础上,将环境恢复网络的输出输入环境处理网络,还是以上述损失函数的最小化为训练目标,即第一输出向量和第二输出向量的空间距离(用户语音与环境之间的空间距离)构建的损失函数,再次进行训练,以调整网络参数使得环境恢复网络能够恢复出原始环境数据。
该方法中还采用语音识别网络构成语音识别模型,通过将环境恢复网络恢复出的环境数据反馈给语音识别网络的输入端,从而滤除掉输入语音混合数据中的环境数据,消除复杂环境对语音识别的影响,提高了识别率和识别速度,从而也提高了识别准确性。用户在门禁输入语音时通常伴随有环境音/背景音,其十分影响语音识别的效果,特别是在嘈杂环境中。通过将用户开门时的语音,即待识别的语音混合数据,去除掉环境音/背景音,然后输入语音识别网络进行识别,获得用户识别成功与否的信息,以此进行开关门的控制,提高了识别效率及准确性,特别是在嘈杂环境中能够快速实现用户声音的识别,提高开门速度和开门安全性。
优选地,所述语音处理网络包括依次连接的第一卷积-循环层(CNN-RNN)和第一全连接层,融合矩阵输入语音处理网络,经语音处理网络处理后输出第一输出向量的步骤包括:
S31、将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
S32、将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
上述步骤从语音混合数据中分别提取不同的声纹特征,并将不同的声纹特征进行融合,从而提高识别性能和抗噪性。进行融合后获得声纹的融合矩阵作为语音处理网络的输入,在语音处理网络经第一卷积-循环层进行计算,然后经第一全连接层后输出语音混合数据对应的高维特征向量。
优选地,所述环境处理网络包括依次连接的第二卷积-循环层(CNN-RNN)和第二全连接层,将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量的步骤包括:
S41、将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
S42、将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
S43、将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
上述步骤从环境数据中提取声音特征,形成环境特征矩阵,从而获得代表环境的特征。将环境特征矩阵作为环境处理网络的输入,在环境处理网络经第二卷积-循环层进行计算,然后经第二全连接层后输出环境数据对应的高维特征向量。
优选地,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵的步骤包括:
S61、将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
S62、将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
上述步骤将环境数据对应的第二输出向量作为环境恢复网络的输入,在环境恢复网络进行与环境处理网络相逆的过程,经第三全连接层进行计算,然后经循环-反卷积层后输出环境数据对应的特征矩阵。
实施例2
本实施例提供一种基于声纹多特征融合的复杂环境门禁装置,对应于实施例1的基于声纹多特征融合的复杂环境门禁方法,如图3所示,包括:
训练集获取单元1,用于获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
声纹特征提取单元2,用于将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;
优选地,所述第一特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同。
语音处理网络单元3,用于将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
优选地,将MFCC特征参数矩阵和GFCC特征参数矩阵进行融合,例如,将这两个矩阵进行合并形成一个融合矩阵,或者将这两个矩阵中的各元素分别求取一阶差分后获得两个一阶差分矩阵,然后将这两个矩阵和两个一阶差分矩阵进行合并形成一个融合矩阵。通过参数融合后提高了识别性能和抗噪性。
环境处理网络单元4,用于将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
第一训练单元5,用于将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
当损失函数满足最小化要求时,第一输出向量与第二输出向量完成映射关联,即第一输出向量对应的语音混合数据与第二输出向量对应的环境数据实现数据组合的配对,从而达到了训练效果,完成训练。
第二训练单元6,用于将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
语音识别网络训练单元7,用于在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;将所述语音混合数据去除掉所述特征矩阵对应的环境数据可根据实际选择相应的方法即可。
用户语音识别单元8,用于获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
开关门控制单元9,用于根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
上述基于声纹多特征融合的复杂环境门禁装置,通过将环境恢复网络恢复出的环境数据反馈给语音识别网络的输入端,从而滤除掉输入语音混合数据中的环境数据,消除复杂环境对语音识别的影响,提高了识别率和识别速度,从而也提高了开门速度和开门安全性,特别是在嘈杂的环境中。
优选地,所述语音处理网络包括依次连接的第一卷积-循环层(CNN-RNN)和第一全连接层,语音处理网络单元包括:
第一卷积-循环层单元,用于将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
第一全连接层单元,用于将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
上述语音处理网络单元将声纹的融合矩阵作为语音处理网络的输入,在语音处理网络经第一卷积-循环层进行计算,然后经第一全连接层后输出语音混合数据对应的高维特征向量。
优选地,所述环境处理网络包括依次连接的第二卷积-循环层(CNN-RNN)和第二全连接层,环境处理网络单元包括:
环境特征提取单元,用于将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
第二卷积-循环层单元,用于将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
第二全连接层单元,用于将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
上述环境处理网络单元将环境特征矩阵作为环境处理网络的输入,在环境处理网络经第二卷积-循环层进行计算,然后经第二全连接层后输出环境数据对应的高维特征向量。
优选地,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,第二训练单元包括:
第三全连接层单元,用于将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
循环-反卷积层单元,用于将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
上述第二训练单元将环境数据对应的第二输出向量作为环境恢复网络的输入,在环境恢复网络进行与环境处理网络相逆的过程,经第三全连接层进行计算,然后经循环-反卷积层后输出环境数据对应的特征矩阵。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (8)
1.一种基于声纹多特征融合的复杂环境门禁方法,其特征在于,包括以下步骤:
获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;所述第一特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同;
将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;
获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
2.根据权利要求1所述的方法,其特征在于,所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层,融合矩阵输入语音处理网络,经语音处理网络处理后输出第一输出向量的步骤包括:
将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
3.根据权利要求1所述的方法,其特征在于,所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层,将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量的步骤包括:
将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵的步骤包括:
将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
5.一种基于声纹多特征融合的复杂环境门禁装置,其特征在于,包括:
训练集获取单元,用于获取语音环境数据训练集,所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成,所述语音混合数据由用户的声音数据和环境的声音数据构成,所述环境数据由所述环境的声音数据构成;
声纹特征提取单元,用于将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵;将所述语音混合数据提取获得第二特征矩阵;所述第一特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个;所述第二特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个,第二特征矩阵与第一特征矩阵不同;
语音处理网络单元,用于将所述第一特征矩阵和所述第二特征矩阵进行融合,获得融合矩阵并输入语音处理网络,经语音处理网络处理后输出第一输出向量;
环境处理网络单元,用于将所述数据组合的环境数据输入环境处理网络,经环境处理网络处理后输出第二输出向量;
第一训练单元,用于将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数,以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络,训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数;
第二训练单元,用于将所述第二输出向量输入环境恢复网络,经环境恢复网络处理后输出特征矩阵,将所述特征矩阵作为环境处理网络的输入,在训练好的语音处理网络和环境处理网络的基础上,通过所述损失函数,以所述损失函数最小化为目标训练环境恢复网络,训练好后获得环境恢复网络的第三网络参数;
语音识别网络训练单元,用于在语音处理网络的输出端连接分类器,组成语音识别网络,将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛,获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系;
用户语音识别单元,用于获取待识别的语音混合数据,将其输入训练好的语音识别网络进行处理,若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据,则输出用户识别成功信息;若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据,则输出用户识别不成功信息;
开关门控制单元,用于根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。
6.根据权利要求5所述的装置,其特征在于,所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层,语音处理网络单元包括:
第一卷积-循环层单元,用于将融合矩阵输入所述第一卷积-循环层进行计算,获得第一结果;
第一全连接层单元,用于将所述第一结果输入第一全连接层进行计算,获得第一输出向量。
7.根据权利要求5所述的装置,其特征在于,所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层,环境处理网络单元包括:
环境特征提取单元,用于将所述数据组合的环境数据提取声音特征,获得环境特征矩阵;
第二卷积-循环层单元,用于将环境特征矩阵输入所述第二卷积-循环层进行计算,获得第二结果;
第二全连接层单元,用于将所述第二结果输入第二全连接层进行计算,获得第二输出向量。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层,第二训练单元包括:
第三全连接层单元,用于将所述第二输出向量输入所述第三全连接层进行计算,获得第三结果;
循环-反卷积层单元,用于将所述第三结果输入循环-反卷积层进行计算,获得特征矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110559509.XA CN113257266B (zh) | 2021-05-21 | 2021-05-21 | 基于声纹多特征融合的复杂环境门禁方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110559509.XA CN113257266B (zh) | 2021-05-21 | 2021-05-21 | 基于声纹多特征融合的复杂环境门禁方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113257266A CN113257266A (zh) | 2021-08-13 |
CN113257266B true CN113257266B (zh) | 2021-12-24 |
Family
ID=77183675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110559509.XA Active CN113257266B (zh) | 2021-05-21 | 2021-05-21 | 基于声纹多特征融合的复杂环境门禁方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113257266B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015083091A2 (en) * | 2013-12-06 | 2015-06-11 | Tata Consultancy Services Limited | System and method to provide classification of noise data of human crowd |
CN109801634A (zh) * | 2019-01-31 | 2019-05-24 | 北京声智科技有限公司 | 一种声纹特征的融合方法及装置 |
WO2019127897A1 (zh) * | 2017-12-29 | 2019-07-04 | 广州势必可赢网络科技有限公司 | 一种自学习声纹识别的更新方法和装置 |
CN110299142A (zh) * | 2018-05-14 | 2019-10-01 | 桂林远望智能通信科技有限公司 | 一种基于网络融合的声纹识别方法及装置 |
EP3608907A1 (en) * | 2018-08-10 | 2020-02-12 | Visa International Service Association | Replay spoofing detection for automatic speaker verification system |
EP3174262B1 (en) * | 2015-03-20 | 2020-06-17 | Baidu Online Network Technology (Beijing) Co., Ltd | Voiceprint login method and apparatus based on artificial intelligence |
CN111402100A (zh) * | 2020-02-03 | 2020-07-10 | 重庆特斯联智慧科技股份有限公司 | 一种通过目标追踪实现的人口登记方法和系统 |
CN111524522A (zh) * | 2020-04-23 | 2020-08-11 | 上海依图网络科技有限公司 | 一种基于多种语音特征融合的声纹识别方法及系统 |
CN111554306A (zh) * | 2020-04-26 | 2020-08-18 | 兰州理工大学 | 一种基于多特征的声纹识别方法 |
CN112349005A (zh) * | 2020-09-14 | 2021-02-09 | 中标慧安信息技术股份有限公司 | 一种通过语音识别实现开门的智能门禁系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782565A (zh) * | 2016-11-29 | 2017-05-31 | 重庆重智机器人研究院有限公司 | 一种声纹特征识别方法及系统 |
CN110956965A (zh) * | 2019-12-12 | 2020-04-03 | 电子科技大学 | 一种基于声纹识别的个性化智能家居安全控制系统及方法 |
CN111524525B (zh) * | 2020-04-28 | 2023-06-16 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
CN111785285A (zh) * | 2020-05-22 | 2020-10-16 | 南京邮电大学 | 面向家居多特征参数融合的声纹识别方法 |
-
2021
- 2021-05-21 CN CN202110559509.XA patent/CN113257266B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015083091A2 (en) * | 2013-12-06 | 2015-06-11 | Tata Consultancy Services Limited | System and method to provide classification of noise data of human crowd |
EP3174262B1 (en) * | 2015-03-20 | 2020-06-17 | Baidu Online Network Technology (Beijing) Co., Ltd | Voiceprint login method and apparatus based on artificial intelligence |
WO2019127897A1 (zh) * | 2017-12-29 | 2019-07-04 | 广州势必可赢网络科技有限公司 | 一种自学习声纹识别的更新方法和装置 |
CN110299142A (zh) * | 2018-05-14 | 2019-10-01 | 桂林远望智能通信科技有限公司 | 一种基于网络融合的声纹识别方法及装置 |
EP3608907A1 (en) * | 2018-08-10 | 2020-02-12 | Visa International Service Association | Replay spoofing detection for automatic speaker verification system |
CN109801634A (zh) * | 2019-01-31 | 2019-05-24 | 北京声智科技有限公司 | 一种声纹特征的融合方法及装置 |
CN111402100A (zh) * | 2020-02-03 | 2020-07-10 | 重庆特斯联智慧科技股份有限公司 | 一种通过目标追踪实现的人口登记方法和系统 |
CN111524522A (zh) * | 2020-04-23 | 2020-08-11 | 上海依图网络科技有限公司 | 一种基于多种语音特征融合的声纹识别方法及系统 |
CN111554306A (zh) * | 2020-04-26 | 2020-08-18 | 兰州理工大学 | 一种基于多特征的声纹识别方法 |
CN112349005A (zh) * | 2020-09-14 | 2021-02-09 | 中标慧安信息技术股份有限公司 | 一种通过语音识别实现开门的智能门禁系统 |
Non-Patent Citations (4)
Title |
---|
An Improved Feature Fusion for Speaker Recognition;Meixiang Dai et al;《2019 IEEE Fourth International Conference on Data Science in Cyberspace (DSC)》;20191205;全文 * |
Fusing wavelet and short-term features for speaker identification in noisy environment;Sara SEKKATE et al;《2018 ISCV》;20180507;全文 * |
基于机器学习的声纹识别研发;祁晓波;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215;全文 * |
基于深度学习的声纹识别算法研究;郭茗涵;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113257266A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220148571A1 (en) | Speech Recognition Method and Apparatus, and Computer-Readable Storage Medium | |
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
CN112037754B (zh) | 一种语音合成训练数据的生成方法及相关设备 | |
Das et al. | Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers | |
US7373301B2 (en) | Method for detecting emotions from speech using speaker identification | |
CN110379441B (zh) | 一种基于对抗型人工智能网络的语音服务方法与系统 | |
CN105700682A (zh) | 基于视觉和语音的智能性别、情绪识别检测系统及方法 | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
CN108053840A (zh) | 一种基于pca-bp的情绪识别方法及系统 | |
CN105845139A (zh) | 一种离线语音控制方法和装置 | |
CN110503943B (zh) | 一种语音交互方法以及语音交互系统 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN108597501A (zh) | 一种基于残差网络和双向门控循环单元的视听语音模型 | |
CN110931018A (zh) | 智能语音交互的方法、装置及计算机可读存储介质 | |
CN112329593A (zh) | 一种基于风格化的手势生成方法及生成系统 | |
CN113257266B (zh) | 基于声纹多特征融合的复杂环境门禁方法及装置 | |
CN113516987A (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN110910898A (zh) | 一种语音信息处理的方法和装置 | |
CN113571095A (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
CN106971734B (zh) | 一种可根据模型的提取频率训练识别模型的方法及系统 | |
US20220270636A1 (en) | Dialogue emotion correction method based on graph neural network | |
CN106971731B (zh) | 一种声纹识别的修正方法 | |
CN111833897B (zh) | 一种用于交互式教育的语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |