CN113782032B - 一种声纹识别方法及相关装置 - Google Patents

一种声纹识别方法及相关装置 Download PDF

Info

Publication number
CN113782032B
CN113782032B CN202111122913.7A CN202111122913A CN113782032B CN 113782032 B CN113782032 B CN 113782032B CN 202111122913 A CN202111122913 A CN 202111122913A CN 113782032 B CN113782032 B CN 113782032B
Authority
CN
China
Prior art keywords
audio
information
feature vector
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111122913.7A
Other languages
English (en)
Other versions
CN113782032A (zh
Inventor
吴丽贤
布力
宋才华
林钰杰
关兆雄
杨峰
杜家兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Foshan Power Supply Bureau of Guangdong Power Grid Corp
Original Assignee
Guangdong Power Grid Co Ltd
Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Foshan Power Supply Bureau of Guangdong Power Grid Corp filed Critical Guangdong Power Grid Co Ltd
Priority to CN202111122913.7A priority Critical patent/CN113782032B/zh
Publication of CN113782032A publication Critical patent/CN113782032A/zh
Application granted granted Critical
Publication of CN113782032B publication Critical patent/CN113782032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本申请公开了一种声纹识别方法及相关装置,方法包括:获取不同人说话的音频信息、对应的年龄段信息和性别信息;根据预置提取技术获取音频信息的基频、第一共振峰和第二共振峰;采用预置神经网络模型提取音频信息的音频特征向量,音频特征向量为预置神经网络模型的池化层的输入量;基于年龄段信息、性别信息、基频、第一共振峰、第二共振峰和音频特征向量构建综合特征向量;将综合特征向量输入预置神经网络模型中进行训练,得到音频识别神经网络模型。本申请能够解决现有技术的声纹特征向量表达单一,无法确保识别结果的准确性的技术问题。

Description

一种声纹识别方法及相关装置
技术领域
本申请涉及声纹识别技术领域,尤其涉及一种声纹识别方法及相关装置。
背景技术
声纹识别,生物识别技术的一种,也称为说话人识别,有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号,再用计算机进行识别的过程。
目前的声纹识别方法中较为普遍的是基于神经网络模型的识别过程,通过获取到的特征向量与数据库向量之间的距离进行相似度识别,但是这种特征向量的特征表达能力还是太过单一,无法保证识别结果的准确性,导致实际的声纹识别效果欠佳。
发明内容
本申请提供了一种声纹识别方法及相关装置,用于解决现有技术的声纹特征向量表达单一,无法确保识别结果的准确性的技术问题。
有鉴于此,本申请第一方面提供了一种声纹识别方法,包括:
获取不同人说话的音频信息、对应的年龄段信息和性别信息;
根据预置提取技术获取所述音频信息的基频、第一共振峰和第二共振峰;
采用预置神经网络模型提取所述音频信息的音频特征向量,所述音频特征向量为所述预置神经网络模型的池化层的输入量;
基于所述年龄段信息、所述性别信息、所述基频、所述第一共振峰、所述第二共振峰和所述音频特征向量构建综合特征向量;
将所述综合特征向量输入所述预置神经网络模型中进行训练,得到音频识别神经网络模型。
可选的,所述基于所述年龄段信息、所述性别信息、所述基频、所述第一共振峰、所述第二共振峰和所述音频特征向量构建综合特征向量,包括:
将所述年龄段信息和所述性别信息通过组合的方式转换成组合标注信息;
根据所述基频、所述第一共振峰和所述第二共振峰构建音频组合向量;
将所述组合标注信息、所述音频组合向量和所述音频特征向量进行拼接,得到综合特征向量。
可选的,所述根据所述基频、所述第一共振峰和所述第二共振峰构建音频组合向量,之后还包括:
对所述音频组合向量进行归一化处理。
可选的,所述将所述综合特征向量输入所述预置神经网络模型中进行训练,得到音频识别神经网络模型,之后还包括:
采用测试音频、对应的测试年龄段信息和测试性别信息对所述音频识别神经网络模型进行测试,得到测试结果;
将测试结果满足预置模型条件的所述音频识别神经网络模型作为目标音频识别模型。
可选的,所述年龄段信息包括儿童、青年、中年和老年。
本申请第二方面提供了一种声纹识别装置,包括:
第一获取模块,用于获取不同人说话的音频信息、对应的年龄段信息和性别信息;
第二获取模块,用于根据预置提取技术获取所述音频信息的基频、第一共振峰和第二共振峰;
特征提取模块,用于采用预置神经网络模型提取所述音频信息的音频特征向量,所述音频特征向量为所述预置神经网络模型的池化层的输入量;
特征融合模块,用于基于所述年龄段信息、所述性别信息、所述基频、所述第一共振峰、所述第二共振峰和所述音频特征向量构建综合特征向量;
模型训练模块,用于将所述综合特征向量输入所述预置神经网络模型中进行训练,得到音频识别神经网络模型。
可选的,所述特征融合模块,具体用于:
将所述年龄段信息和所述性别信息通过组合的方式转换成组合标注信息;
根据所述基频、所述第一共振峰和所述第二共振峰构建音频组合向量;
将所述组合标注信息、所述音频组合向量和所述音频特征向量进行拼接,得到综合特征向量。
可选的,还包括:
归一化模块,用于对所述音频组合向量进行归一化处理。
可选的,还包括:
模型测试模块,用于采用测试音频、对应的测试年龄段信息和测试性别信息对所述音频识别神经网络模型进行测试,得到测试结果;
模型选取模块,用户将测试结果满足预置模型条件的所述音频识别神经网络模型作为目标音频识别模型。
本申请第三方面提供了一种声纹识别设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的声纹识别方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种声纹识别方法,包括:获取不同人说话的音频信息、对应的年龄段信息和性别信息;根据预置提取技术获取音频信息的基频、第一共振峰和第二共振峰;采用预置神经网络模型提取音频信息的音频特征向量,音频特征向量为预置神经网络模型的池化层的输入量;基于年龄段信息、性别信息、基频、第一共振峰、第二共振峰和音频特征向量构建综合特征向量;将综合特征向量输入预置神经网络模型中进行训练,得到音频识别神经网络模型。
本申请提供的声纹识别方法,不仅获取了不同的人说话时的音频信息,还获取了对应的年龄段信息和性别信息,以及音频对应的基频和共振峰等信息,从不同层面和维度的对声纹所属人进行描述,多种信息构建的综合特征向量的表达能力更强,更有助于识别模型的训练,进一步提高音频识别神经网络模型的识别准确率。因此,本申请能够解决现有技术的声纹特征向量表达单一,无法确保识别结果的准确性的技术问题。
附图说明
图1为本申请实施例提供的一种声纹识别方法的流程示意图;
图2为本申请实施例提供的一种声纹识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种声纹识别方法的实施例,包括:
步骤101、获取不同人说话的音频信息、对应的年龄段信息和性别信息。
进一步地,年龄段信息包括儿童、青年、中年和老年。
由于不同性别的说话人的声音特征差距比较大,相同性别的说话人的声音特征差距比较小,如果网络模型能够更多地学习到相同性别说话人的声音特征差异,就能更好地进行说话人辨识。同时,由于不同年龄段的说话人不同的性别的声音特征差距不同,比如老年男性和女性在声音特征上差异很小,而青年男性和女性在声音特征上差异就很大,如果能高效的区别处理这些差异,能够提升网络模型的声纹辨识性能。
因此,本实施例中除了获取不同人说话的音频信息,还获取每个人对应的年龄段信息和性别信息;综合多种信息辅助声纹识别,提高识别准确率。
步骤102、根据预置提取技术获取音频信息的基频、第一共振峰和第二共振峰。
音频信息中的基频可以决定声音的音高(pitch),而音高是声音的三大属性之一;而且,由有规律的振动发出的声音,一般都会有基频,这样的声音包括语音中的元音与浊辅音,以及能演奏旋律的乐器发出的声音;也有些声音没有基频,它们听起来就是噪声,这样的声音包括语音中的清辅音,以及打击乐器发出的声音。语音的基频一般在100Hz~400Hz之间,女声比男声的基频高,童声更高;歌声以及乐器发出的声音则会有更广的基频范围,低可以低到50Hz甚至更低,高可以超过1000Hz。人对于基频的感知遵循对数律,也就是说,人们会感觉100Hz到200Hz的差距,与200Hz到400Hz的差距相同。因此,音高常常用基频的对数来表示。
由于声音的基频往往随时间而变化,所以基频提取通常会先把信号分帧(帧长通常为几十毫秒),再逐帧提取基频;提取一帧声音基频的方法,大致可以分为时域法和频域法。时域法以声音的波形为输入,其基本原理是寻找波形的最小正周期;当然,实际信号的周期性只能是近似的。频域法则会先对信号做傅里叶变换,得到频谱(仅取幅度谱,舍弃相位谱);频谱上在基频的整数倍处会有尖峰,频域法的基本原理就是要求出这些尖峰频率的最大公约数。
当声门处准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,这一组共振频率称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带的宽度,它是区别不同韵母的重要参数,由于共振峰包含在语音的频谱包络中,因此共振峰参数的提取关键是估计自然语音的频谱包络,并认为谱包括的极大值就是共振峰,通常认为共振峰数量不超过4个。利用线性预测系数法可以提取音频中的共振峰。
步骤103、采用预置神经网络模型提取音频信息的音频特征向量,音频特征向量为预置神经网络模型的池化层的输入量。
预置神经网络模型可以根据需要进行网络框架的选取,在此不作限定;可以明确的是,预置神经网络模型由输入层,隐藏层和输出层构成,通过卷积计算的方式获取音频中的抽象特征,采用音频特征向量表达声音的不同特点。本实施例中的音频识别并非直接通过模型得到结果,而是提取预置神经网络模型中池化层的输入量,也就是完成卷积计算后提取到的特征向量,用于后续的综合特征融合,从特征向量的角度提升模型的识别准确率。
步骤104、基于年龄段信息、性别信息、基频、第一共振峰、第二共振峰和音频特征向量构建综合特征向量。
进一步地,步骤104,包括:
将年龄段信息和性别信息通过组合的方式转换成组合标注信息;
根据基频、第一共振峰和第二共振峰构建音频组合向量;
将组合标注信息、音频组合向量和音频特征向量进行拼接,得到综合特征向量。
进一步地,根据基频、第一共振峰和第二共振峰构建音频组合向量,之后还包括:对音频组合向量进行归一化处理。
根据本实施例定义的年龄段信息为儿童、青年、中年和老年,根据不同年龄段两种性别的声音特征差异度,可以形成8种不同的年龄段性别类目,对不同的类目进行标注,即青年女性记作0,青年男性记作1;中年女性记作0.2,中年男性记作0.8;儿童女性记作0.4,儿童男性记作0.6;老年女性记作0.45,老年男性记作0.55;这样可以有效区分不同性别和年龄段之间的声音。
对于同性别或者同年龄段的声音,则需要进一步提取基频和共振峰信息,将这些信息组建成一个向量,然后进行归一化处理后,即可与组合标注信息、音频组合向量和音频特征向量进行拼接,得到综合特征向量。
步骤105、将综合特征向量输入预置神经网络模型中进行训练,得到音频识别神经网络模型。
综合特征向量并非是从预置神经网络模型中的第一层输入,而是从而上述音频特征向量的提取处,也就是池化层的输入端输入,继续完成预置神经网络模型的训练,融入了多种特征信息的综合特征向量能够提升神经网络模型的识别准确率,优化模型性能。
进一步地,步骤105,之后还包括:
采用测试音频、对应的测试年龄段信息和测试性别信息对音频识别神经网络模型进行测试,得到测试结果;
将测试结果满足预置模型条件的音频识别神经网络模型作为目标音频识别模型。
测试音频与对应的测试年龄段信息和测试性别信息均与训练模型中的音频信息以及其他信息的处理过程一致,主要测试训练完成的模型性能,对于测试结果较好的模型可以保留,用于实际场景的音频识别过程中。
预置模型条件可以是准确率、召回率和错误率等标准,具体可以根据实际情况选择,在此不作限定。
本申请实施例提供的声纹识别方法,不仅获取了不同的人说话时的音频信息,还获取了对应的年龄段信息和性别信息,以及音频对应的基频和共振峰等信息,从不同层面和维度的对声纹所属人进行描述,多种信息构建的综合特征向量的表达能力更强,更有助于识别模型的训练,进一步提高音频识别神经网络模型的识别准确率。因此,本申请实施例能够解决现有技术的声纹特征向量表达单一,无法确保识别结果的准确性的技术问题。
为了便于理解,请参阅图2,本申请提供了一种声纹识别装置的实施例,包括:
第一获取模块201,用于获取不同人说话的音频信息、对应的年龄段信息和性别信息;
第二获取模块202,用于根据预置提取技术获取音频信息的基频、第一共振峰和第二共振峰;
特征提取模块203,用于采用预置神经网络模型提取音频信息的音频特征向量,音频特征向量为预置神经网络模型的池化层的输入量;
特征融合模块204,用于基于年龄段信息、性别信息、基频、第一共振峰、第二共振峰和音频特征向量构建综合特征向量;
模型训练模块205,用于将综合特征向量输入预置神经网络模型中进行训练,得到音频识别神经网络模型。
进一步地,特征融合模块204,具体用于:
将年龄段信息和性别信息通过组合的方式转换成组合标注信息;
根据基频、第一共振峰和第二共振峰构建音频组合向量;
将组合标注信息、音频组合向量和音频特征向量进行拼接,得到综合特征向量。
进一步地,还包括:
归一化模块206,用于对音频组合向量进行归一化处理。
进一步地,还包括:
模型测试模块207,用于采用测试音频、对应的测试年龄段信息和测试性别信息对音频识别神经网络模型进行测试,得到测试结果;
模型选取模块208,用户将测试结果满足预置模型条件的音频识别神经网络模型作为目标音频识别模型。
本申请还提供了一种声纹识别设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行上述方法实施例中的声纹识别方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:RandomAccess Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种声纹识别方法,其特征在于,包括:
获取不同人说话的音频信息、对应的年龄段信息和性别信息;
根据预置提取技术获取所述音频信息的基频、第一共振峰和第二共振峰;
采用预置神经网络模型提取所述音频信息的音频特征向量,所述音频特征向量为所述预置神经网络模型的池化层的输入量;
基于所述年龄段信息、所述性别信息、所述基频、所述第一共振峰、所述第二共振峰和所述音频特征向量构建综合特征向量;
将所述综合特征向量输入所述预置神经网络模型中进行训练,得到音频识别神经网络模型;
所述基于所述年龄段信息、所述性别信息、所述基频、所述第一共振峰、所述第二共振峰和所述音频特征向量构建综合特征向量,包括:
将所述年龄段信息和所述性别信息通过组合的方式转换成组合标注信息;
根据所述基频、所述第一共振峰和所述第二共振峰构建音频组合向量;
将所述组合标注信息、所述音频组合向量和所述音频特征向量进行拼接,得到综合特征向量。
2.根据权利要求1所述的声纹识别方法,其特征在于,所述根据所述基频、所述第一共振峰和所述第二共振峰构建音频组合向量,之后还包括:
对所述音频组合向量进行归一化处理。
3.根据权利要求1所述的声纹识别方法,其特征在于,所述将所述综合特征向量输入所述预置神经网络模型中进行训练,得到音频识别神经网络模型,之后还包括:
采用测试音频、对应的测试年龄段信息和测试性别信息对所述音频识别神经网络模型进行测试,得到测试结果;
将测试结果满足预置模型条件的所述音频识别神经网络模型作为目标音频识别模型。
4.根据权利要求1所述的声纹识别方法,其特征在于,所述年龄段信息包括儿童、青年、中年和老年。
5.一种声纹识别装置,其特征在于,包括:
第一获取模块,用于获取不同人说话的音频信息、对应的年龄段信息和性别信息;
第二获取模块,用于根据预置提取技术获取所述音频信息的基频、第一共振峰和第二共振峰;
特征提取模块,用于采用预置神经网络模型提取所述音频信息的音频特征向量,所述音频特征向量为所述预置神经网络模型的池化层的输入量;
特征融合模块,用于基于所述年龄段信息、所述性别信息、所述基频、所述第一共振峰、所述第二共振峰和所述音频特征向量构建综合特征向量;
所述特征融合模块,具体用于:
将所述年龄段信息和所述性别信息通过组合的方式转换成组合标注信息;
根据所述基频、所述第一共振峰和所述第二共振峰构建音频组合向量;
将所述组合标注信息、所述音频组合向量和所述音频特征向量进行拼接,得到综合特征向量;
模型训练模块,用于将所述综合特征向量输入所述预置神经网络模型中进行训练,得到音频识别神经网络模型。
6.根据权利要求5所述的声纹识别装置,其特征在于,还包括:
归一化模块,用于对所述音频组合向量进行归一化处理。
7.根据权利要求5所述的声纹识别装置,其特征在于,还包括:
模型测试模块,用于采用测试音频、对应的测试年龄段信息和测试性别信息对所述音频识别神经网络模型进行测试,得到测试结果;
模型选取模块,用户将测试结果满足预置模型条件的所述音频识别神经网络模型作为目标音频识别模型。
8.一种声纹识别设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的声纹识别方法。
CN202111122913.7A 2021-09-24 2021-09-24 一种声纹识别方法及相关装置 Active CN113782032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111122913.7A CN113782032B (zh) 2021-09-24 2021-09-24 一种声纹识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111122913.7A CN113782032B (zh) 2021-09-24 2021-09-24 一种声纹识别方法及相关装置

Publications (2)

Publication Number Publication Date
CN113782032A CN113782032A (zh) 2021-12-10
CN113782032B true CN113782032B (zh) 2024-02-13

Family

ID=78853210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111122913.7A Active CN113782032B (zh) 2021-09-24 2021-09-24 一种声纹识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN113782032B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495948B (zh) * 2022-04-18 2022-09-09 北京快联科技有限公司 一种声纹识别方法及装置
CN116884437B (zh) * 2023-09-07 2023-11-17 北京惠朗时代科技有限公司 基于人工智能的语音识别处理器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817222A (zh) * 2019-01-26 2019-05-28 平安科技(深圳)有限公司 一种年龄识别方法、装置及终端设备
CN111933148A (zh) * 2020-06-29 2020-11-13 厦门快商通科技股份有限公司 基于卷神经网络的年龄识别方法、装置及终端
CN112259104A (zh) * 2020-10-10 2021-01-22 西南政法大学 一种声纹识别模型的训练装置
CN112382300A (zh) * 2020-12-14 2021-02-19 北京远鉴信息技术有限公司 声纹鉴定方法、模型训练方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817222A (zh) * 2019-01-26 2019-05-28 平安科技(深圳)有限公司 一种年龄识别方法、装置及终端设备
CN111933148A (zh) * 2020-06-29 2020-11-13 厦门快商通科技股份有限公司 基于卷神经网络的年龄识别方法、装置及终端
CN112259104A (zh) * 2020-10-10 2021-01-22 西南政法大学 一种声纹识别模型的训练装置
CN112382300A (zh) * 2020-12-14 2021-02-19 北京远鉴信息技术有限公司 声纹鉴定方法、模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113782032A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN106486131B (zh) 一种语音去噪的方法及装置
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
JP2020524308A (ja) 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体
Dişken et al. A review on feature extraction for speaker recognition under degraded conditions
WO2021179717A1 (zh) 一种语音识别的前端处理方法、装置及终端设备
CN113782032B (zh) 一种声纹识别方法及相关装置
Kamińska et al. Recognition of human emotion from a speech signal based on Plutchik's model
Yusnita et al. Malaysian English accents identification using LPC and formant analysis
Chelali et al. Text dependant speaker recognition using MFCC, LPC and DWT
CN110970036A (zh) 声纹识别方法及装置、计算机存储介质、电子设备
Farouk et al. Application of wavelets in speech processing
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
Usman et al. Heart rate detection and classification from speech spectral features using machine learning
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
Mahesha et al. LP-Hillbert transform based MFCC for effective discrimination of stuttering dysfluencies
Hidayat et al. Wavelet detail coefficient as a novel wavelet-mfcc features in text-dependent speaker recognition system
Usman On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes
Goh et al. Robust speech recognition using harmonic features
CN110838294B (zh) 一种语音验证方法、装置、计算机设备及存储介质
Khanna et al. Application of vector quantization in emotion recognition from human speech
Saloni et al. Disease detection using voice analysis: A review
Selvan et al. Speaker recognition system for security applications
Renisha et al. Cascaded Feedforward Neural Networks for speaker identification using Perceptual Wavelet based Cepstral Coefficients
Gao Audio deepfake detection based on differences in human and machine generated speech
Paul et al. Speech recognition of throat microphone using MFCC approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant