CN108648760A - 实时声纹辨识系统与方法 - Google Patents

实时声纹辨识系统与方法 Download PDF

Info

Publication number
CN108648760A
CN108648760A CN201810343033.4A CN201810343033A CN108648760A CN 108648760 A CN108648760 A CN 108648760A CN 201810343033 A CN201810343033 A CN 201810343033A CN 108648760 A CN108648760 A CN 108648760A
Authority
CN
China
Prior art keywords
phoneme
real
voice data
speaker
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810343033.4A
Other languages
English (en)
Other versions
CN108648760B (zh
Inventor
吴郢
展华益
刘明华
伍强
许亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201810343033.4A priority Critical patent/CN108648760B/zh
Publication of CN108648760A publication Critical patent/CN108648760A/zh
Application granted granted Critical
Publication of CN108648760B publication Critical patent/CN108648760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实时声纹辨识系统与方法,包括:语音采集和存储模块,用于采集和存储语音数据;音素检测模块,用于检测所述语音数据中存在的音素类别和音素位置;说话人辨识模块,用于根据所述音素类别和音素位置确认说话人身份信息。本发明可以实现对与文本无关的说话人的别,提高了用户的体验度;采用音素作为语言中最基本的组成单元,具有更高可辨识性,同时将与文本无关的内容转化为文本相关,降低了对说话人识别的难度。

Description

实时声纹辨识系统与方法
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种与文本无关的实时声纹辨识系统与方法。
背景技术
近几年来,随着人工智能技术的快速发展,越来越多的带有人工智能技术的产品出现在人们的日常生活中,特别是近年的智能音箱异军突起。其中声纹识别技术几乎是所有的智能音箱的标配,用户使用自己的声音就可以完成账户登录、购物支付等。
现有说话人识别技术存在以下问题,1)搭载在这些智能产品上的声纹识别技术都在云端完成的,即产品只是作为语音收集的入口,而云端完成声纹识别的过程,而真正实现本地化运行声纹识别技术的产品还非常少,或者精度无法满足实际需求;2)现有的说话人识别技术方案大都采用文本相关的方式,严重影响用户的体验度。
发明内容
本发明克服了现有技术的不足,提供一种实时声纹辨识系统与方法,用于实现对与文本无关的说话人的识别,提高用户的体验度。
考虑到现有技术的上述问题,根据本发明公开的一个方面,本发明采用以下技术方案:
一种实时声纹辨识系统,包括:
语音采集和存储模块,用于采集和存储语音数据;
音素检测模块,用于检测所述语音数据中存在的音素类别和音素位置;
说话人辨识模块,用于根据所述音素类别和音素位置确认说话人身份信息。
为了更好地实现本发明,进一步的技术方案是:
根据本发明的一个实施方案,所述说话人辨识模块,包括:
单音素的说话人辨识模块,用于识别单个音素的身份信息,将一个音素和所有注册人的此音素比较相似度,判断此音素的身份信息。
多音素融合的说话人辨识模块,用于将单音素识别的结果进行融合,将语音中音素识别为最多的人作为此段语音的身份信息。
根据本发明的另一个实施方案,通过距离判断两个音素之间的相似度。
本发明还可以是:
一种实时声纹辨识方法,包括:
步骤S1:采集和存储语音数据;
步骤S2:检测所述语音数据中存在的音素类别和音素位置;
步骤S3:根据所述音素类别和音素位置确认说话人身份信息。
根据本发明的另一个实施方案,所述步骤S2,包括:
先进行语音特征提取;
再将提取的所述语音特征进行滑窗处理;
然后进行音素分类和音素位置映射。
根据本发明的另一个实施方案,提取所述语音特征的方法,包括:
提取梅尔频率倒谱系数特征,记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。
根据本发明的另一个实施方案,进行所述音素分类的方法,包括:
首先训练一个音素分类器,然后用所述分类器对每一个语音滑动窗口进行分类。
根据本发明的另一个实施方案,训练所述音素分类器的方法,包括:
音素样本的准备:采用标定音素的真实窗口大小做前后随机滑窗,把与真实的窗口之间的交集大于80%的滑动窗口作为标定的音素类的正样本;
特征提取:将正样本归一化到同样的长度L,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,每个帧长内就会得到一个C维的特征向量,假设音素数据有N帧,这样得到CxN的二维矩阵X,将此X矩阵转换为一个一维特征向量,长度为NxC;
训练分类器:根据以上提取的特征对分类器进行训练。
根据本发明的另一个实施方案,映射所述音素位置的方法,包括:
1)计算权利要求7中每个窗口中的起始帧和终止帧对应于语音数据的起始位置和终止位置;
2)将窗口的起始帧对应的数据起始位置和终止帧对应的数据终止位置作为此窗口在重采样语音数据上对应的位置。
根据本发明的另一个实施方案,在语音特征提取之前进行语音数据重采样,进行所述语音数据重采样的方法包括:
设定M个采样尺度系数,对大于1的系数采用上采样,对于小1的系数采用下采样,使得一条语音数据便可以得到M条语音数据。
根据本发明的一个实施方案,。
根据本发明的另一个实施方案,所述。
与现有技术相比,本发明的有益效果之一是:
本发明的一种实时声纹辨识系统与方法,可以实现对与文本无关的说话人的别,提高了用户的体验度;采用音素作为语言中最基本的组成单元,具有更高可辨识性,同时将与文本无关的内容转化为文本相关,降低了对说话人识别的难度。
附图说明
为了更清楚的说明本申请文件实施例或现有技术中的技术方案,下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅是对本申请文件中一些实施例的参考,对于本领域技术人员来讲,在不付出创造性劳动的情况下,还可以根据这些附图得到其它的附图。
图1为根据本发明一个实施例的语音采集和存储模块示意图。
图2为根据本发明一个实施例的音素检测模块示意图。
图3为根据本发明一个实施例的基于单音素的说话人辨识模块示意图。
图4为根据本发明一个实施例的基于多音素的说话人辨识模块示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
一种与文本无关的实时声纹辨识系统,其能够高效且准确地识别说话人的身份。为了达到本发明的目的,使技术方案和优点更加清楚,下面结合附图1~4对本发明做如下详细描述:
一种实时声纹辨识系统,包括语音采集和存储模块、音素检测模块、说话人辨识模块,具体地:
如图1所示,语音采集和存储模块,其用于获取语音数据并存储在本地端。
如图2所示,音素检测模块,其音素检测流程包括如下:
语音数据重采样,语音数据重采样的目的是为了能检测到不同长度的音素。数据重采样的方法为:设定M个采样尺度系数,对大于1的系数采用上采样,对于小1的系数采用下采样,这样一条语音数据便可以得到M条语音数据。
特征提取,方法为:对M条语音数据提取梅尔频率倒谱系数特征,同时保存特征中每一帧特征对应在语音数据上的起始位置和终止位置坐标。
语音特征滑窗处理,方法为:设定一个固定窗口大小和一个固定的步长,对3-2)中语音特征做滑窗,并记录每个窗口的起始帧和终止帧的位置信息。
音素分类,方法为:分类器对每一个滑窗进行分类,给出每一类的得分。
音素位置映射,方法为:首先计算3-3)每个窗口中的起始帧和终止帧对应于3-2)中的语音数据起始位置和终止位置,然后将窗口的起始帧对应的起始位置和终止帧对应的终止位置作为此窗口在对应的语音数据上对应的位置,最后将此窗口的起始位置和终止位置分别除以对应的3-1)中的采样尺度系数,就可以得到在原始数据上面的位置信息。
音素去重,方法为:采用非极大抑制(NMS)方法滤掉得分低、位置重复的音素,得到最终的检测结果,即音素的类别和对应的位置信息。
如图3所示,基于单音素的说话人辨识模块,其通过比较两个音素的相似度来确定这个两个音素是否是属于同一个人。
如图4所示,基于多音素融合的说话人辨识模块,其将单音素识别的结果进行融合,以及将语音中音素识别为最多的人作为此段语音的身份信息。
一实施例,对识别10个说话人的具体步骤,可包括:
S1、训练阶段
S11、数据收集
收集语音数据库,标定音素的类别和位置,根据中文的声母和韵母的发音规则,将音素分为a,aa,ai,an,ang,ao,b,c,ch,d,e,ee,ei,en,eng,er,f,g,h,i,ia,ian,iang,iao,ie,ii,in,ing,iong,iu,ix,iy,iz,j,k,l,m,n,o,ong,oo,ou,p,q,r,s,sh,t,u,ua,uai,uan,uang,ueng,ui,un,uo,uu,v,van,ve,vn,vv,x,z,zh,66类。
S12、训练音素svm分类器
S121、对于标定的音素,采用此音素的真实窗口大小做前后随机滑窗,把与真实的窗口之间的交集大于80%的滑动后的窗口作为与此音素类别的正样本;
S122、特征提取,提取梅尔频率倒谱系数特征,将所有的样本归一化到1500维,假设帧长为25ms,步长为10ms,因此每个帧长内就会得到一个39维的特征向量,这样得到39x8的二维mfcc特征矩阵,将此矩阵转换为一个一维特征向量,长度为312。
S123、训练svm,采用一对多的方式训练一个线性分类器,即66个二分类器。训练方式为,训练某一类音素的二分类器,将此音素作为正样本,其它所有65类音素作为负样本。
S2、识别阶段
S20、获取数据
采集所需识别的10个说话人的训练语音数据
S21、音素检测
对10人的所有数据采用如下S211-S216步骤做音素检测。
S211、语音数据重采样,语音数据重采样的目的是为了能检测到不同长度的音素。数据重采样的方法为:设定5个采样尺度系数,分别为1.4,1.2,1.0,0.8,0.6,对大于1的系数采用上采样,对于小1的系数采用下采样,这样一条语音数据便可以得到5条语音数据。
S212、特征提取,方法为:对5条语音数据提取梅尔频率倒谱系数特征,同时保存特征中每一帧特征对应在语音数据上的起始位置和终止位置坐标。
S213、语音特征滑窗处理,方法为:设定一个固定窗口大小为8和一个固定的步长为2,对S212中语音特征做滑窗,并记录每个窗口的起始帧和终止帧的位置信息。
S214、音素分类,方法为:采用svm分类器对每一个滑窗进行分类,给出每一类的得分,即每个窗口有66个等分。
S215、音素位置映射,方法为:首先计算S213每个窗口中的起始帧和终止帧对应于S212中的语音数据起始位置和终止位置,然后将窗口的起始帧对应的起始位置和终止帧对应的终止位置作为此窗口在对应的语音数据上对应的位置,最后将此窗口的起始位置和终止位置分别除以对应的S211中的采样尺度系数,就可以得到在原始数据上面的位置信息。
S216、音素去重,方法为:设置一个得分阈值为0.8和IOU阈值0.3,采用非极大抑制(NMS)方法滤掉得分低、位置重复的音素,得到最终的检测结果,即音素的类别和对应的位置信息。
S22、音素身份鉴别
S221、假如一条语音数据里面有20个音素,分别计算这20个音素的mfcc特征;
S222、将20个音素的特征分别和注册库里面的所有人的这个20音素分别计算距离,采用动态时间归整(DTW),每个音素得到10个距离,将每个音素的10个距离中最小值所对应的那个人为此音素的身份类别。
S223、采用投票的方式决定这个这条语音的身份归属,如这20个音素中有8个音素属于说话人A,有5个音素属于说话人B,有4个音素属于说话人C,有2个音素属于说话人D,有1个音素属于说话人E,则这条语音的就属于说话人A。
综上所述,本发明通过语音采集和存储模块、音素检测模块和说话人辨识模块实现了一种文本无关的实时声纹辨识系统。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
本说明书中各个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分相互参见即可。在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”等,指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说,结合任一实施例描述一个具体特征、结构或者特点时,所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。
尽管这里参照本发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外,对于本领域技术人员来说,其他的用途也将是明显的。

Claims (10)

1.一种实时声纹辨识系统,其特征在于包括:
语音采集和存储模块,用于采集和存储语音数据;
音素检测模块,用于检测所述语音数据中存在的音素类别和音素位置;
说话人辨识模块,用于根据所述音素类别和音素位置确认说话人身份信息。
2.根据权利要求1所述的实时声纹辨识系统,其特征在于所述说话人辨识模块,包括:
单音素的说话人辨识模块,用于识别单个音素的身份信息,将一个音素和所有注册人的此音素比较相似度,判断此音素的身份信息。
多音素融合的说话人辨识模块,用于将单音素识别的结果进行融合,将语音中音素识别为最多的人作为此段语音的身份信息。
3.根据权利要求1所述的实时声纹辨识系统,其特征在于通过距离判断两个音素之间的相似度。
4.一种实时声纹辨识方法,其特征在于包括:
步骤S1:采集和存储语音数据;
步骤S2:检测所述语音数据中存在的音素类别和音素位置;
步骤S3:根据所述音素类别和音素位置确认说话人身份信息。
5.根据权利要求4所述的实时声纹辨识方法,其特征在于所述步骤S2,包括:
先进行语音特征提取;
再将提取的所述语音特征进行滑窗处理;
然后进行音素分类和音素位置映射。
6.根据权利要求5所述的实时声纹辨识方法,其特征在于提取所述语音特征的方法,包括:
提取梅尔频率倒谱系数特征,记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。
7.根据权利要求5所述的实时声纹辨识方法,其特征在于进行所述音素分类的方法,包括:
首先训练一个音素分类器,然后用所述分类器对每一个语音滑动窗口进行分类。
8.根据权利要求7所述的实时声纹辨识方法,其特征在于训练所述音素分类器的方法,包括:
音素样本的准备:采用标定音素的真实窗口大小做前后随机滑窗,把与真实的窗口之间的交集大于80%的滑动窗口作为标定的音素类的正样本;
特征提取:将正样本归一化到同样的长度L,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,每个帧长内就会得到一个C维的特征向量,假设音素数据有N帧,这样得到CxN的二维矩阵X,将此X矩阵转换为一个一维特征向量,长度为NxC;
训练分类器:根据以上提取的特征对分类器进行训练。
9.根据权利要求7所述的实时声纹辨识方法,其特征在于映射所述音素位置的方法,包括:
1)计算权利要求7中每个窗口中的起始帧和终止帧对应于语音数据的起始位置和终止位置;
2)将窗口的起始帧对应的数据起始位置和终止帧对应的数据终止位置作为此窗口在重采样语音数据上对应的位置。
10.根据权利要求5所述的实时声纹辨识方法,其特征在于在语音特征提取之前进行语音数据重采样,进行所述语音数据重采样的方法包括:
设定M个采样尺度系数,对大于1的系数采用上采样,对于小1的系数采用下采样,使得一条语音数据便可以得到M条语音数据。
CN201810343033.4A 2018-04-17 2018-04-17 实时声纹辨识系统与方法 Active CN108648760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810343033.4A CN108648760B (zh) 2018-04-17 2018-04-17 实时声纹辨识系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810343033.4A CN108648760B (zh) 2018-04-17 2018-04-17 实时声纹辨识系统与方法

Publications (2)

Publication Number Publication Date
CN108648760A true CN108648760A (zh) 2018-10-12
CN108648760B CN108648760B (zh) 2020-04-28

Family

ID=63746635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810343033.4A Active CN108648760B (zh) 2018-04-17 2018-04-17 实时声纹辨识系统与方法

Country Status (1)

Country Link
CN (1) CN108648760B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377981A (zh) * 2018-11-22 2019-02-22 四川长虹电器股份有限公司 音素对齐的方法及装置
CN109686377A (zh) * 2018-12-24 2019-04-26 龙马智芯(珠海横琴)科技有限公司 音频识别方法及装置、计算机可读存储介质
CN110689895A (zh) * 2019-09-06 2020-01-14 北京捷通华声科技股份有限公司 语音校验方法、装置、电子设备及可读存储介质
TWI684874B (zh) * 2018-10-18 2020-02-11 瑞軒科技股份有限公司 智慧型音箱及其操作方法
WO2020177120A1 (en) * 2019-03-07 2020-09-10 Harman International Industries, Incorporated Method and system for speech sepatation
CN111951809A (zh) * 2019-05-14 2020-11-17 深圳子丸科技有限公司 多人声纹辨别方法及系统
CN112786058A (zh) * 2021-03-08 2021-05-11 北京百度网讯科技有限公司 声纹模型训练方法、装置、设备以及存储介质
CN115223587A (zh) * 2021-05-26 2022-10-21 广州汽车集团股份有限公司 一种异响检测方法、装置、存储介质及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670820A (zh) * 2004-03-17 2005-09-21 财团法人工业技术研究院 对易标错形素重新评分以提高准确率的文字转音标的方法
CN101256776A (zh) * 2007-02-26 2008-09-03 财团法人工业技术研究院 语音信号处理方法
CN101436403A (zh) * 2007-11-16 2009-05-20 创新未来科技有限公司 声调识别方法和系统
CN101467204A (zh) * 2005-05-27 2009-06-24 普提克斯科技股份有限公司 用于生物计量声纹认证的方法和系统
US20100017192A1 (en) * 2009-09-26 2010-01-21 Manuel-Devadoss Smith Johnson Method and portable apparatus for performing spoken language translation using language areas of intended recipients' brain
CN105989834A (zh) * 2015-02-05 2016-10-05 宏碁股份有限公司 语音辨识装置及语音辨识方法
CN106340298A (zh) * 2015-07-06 2017-01-18 南京理工大学 融合内容识别和话者识别的声纹解锁方法
CN106448685A (zh) * 2016-10-09 2017-02-22 北京远鉴科技有限公司 一种基于音素信息的声纹认证系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670820A (zh) * 2004-03-17 2005-09-21 财团法人工业技术研究院 对易标错形素重新评分以提高准确率的文字转音标的方法
CN101467204A (zh) * 2005-05-27 2009-06-24 普提克斯科技股份有限公司 用于生物计量声纹认证的方法和系统
CN101256776A (zh) * 2007-02-26 2008-09-03 财团法人工业技术研究院 语音信号处理方法
CN101436403A (zh) * 2007-11-16 2009-05-20 创新未来科技有限公司 声调识别方法和系统
US20100017192A1 (en) * 2009-09-26 2010-01-21 Manuel-Devadoss Smith Johnson Method and portable apparatus for performing spoken language translation using language areas of intended recipients' brain
CN105989834A (zh) * 2015-02-05 2016-10-05 宏碁股份有限公司 语音辨识装置及语音辨识方法
CN106340298A (zh) * 2015-07-06 2017-01-18 南京理工大学 融合内容识别和话者识别的声纹解锁方法
CN106448685A (zh) * 2016-10-09 2017-02-22 北京远鉴科技有限公司 一种基于音素信息的声纹认证系统及方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI684874B (zh) * 2018-10-18 2020-02-11 瑞軒科技股份有限公司 智慧型音箱及其操作方法
US11955125B2 (en) 2018-10-18 2024-04-09 Amtran Technology Co., Ltd. Smart speaker and operation method thereof
CN109377981A (zh) * 2018-11-22 2019-02-22 四川长虹电器股份有限公司 音素对齐的方法及装置
CN109377981B (zh) * 2018-11-22 2021-07-23 四川长虹电器股份有限公司 音素对齐的方法及装置
CN109686377A (zh) * 2018-12-24 2019-04-26 龙马智芯(珠海横琴)科技有限公司 音频识别方法及装置、计算机可读存储介质
CN109686377B (zh) * 2018-12-24 2019-11-05 龙马智芯(珠海横琴)科技有限公司 音频识别方法及装置、计算机可读存储介质
WO2020177120A1 (en) * 2019-03-07 2020-09-10 Harman International Industries, Incorporated Method and system for speech sepatation
CN111951809A (zh) * 2019-05-14 2020-11-17 深圳子丸科技有限公司 多人声纹辨别方法及系统
CN110689895A (zh) * 2019-09-06 2020-01-14 北京捷通华声科技股份有限公司 语音校验方法、装置、电子设备及可读存储介质
CN112786058A (zh) * 2021-03-08 2021-05-11 北京百度网讯科技有限公司 声纹模型训练方法、装置、设备以及存储介质
CN112786058B (zh) * 2021-03-08 2024-03-29 北京百度网讯科技有限公司 声纹模型训练方法、装置、设备以及存储介质
CN115223587A (zh) * 2021-05-26 2022-10-21 广州汽车集团股份有限公司 一种异响检测方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN108648760B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN108648760A (zh) 实时声纹辨识系统与方法
CN109409296B (zh) 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN108074576B (zh) 审讯场景下的说话人角色分离方法及系统
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN108269133A (zh) 一种结合人体识别和语音识别的智能广告推送方法及终端
CN111339913A (zh) 一种视频中的人物情绪识别方法及装置
CN105139857A (zh) 一种自动说话人识别中针对语音欺骗的对抗方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN109377981B (zh) 音素对齐的方法及装置
CN106409298A (zh) 一种声音重录攻击的识别方法
Pruthi et al. Acoustic parameters for the automatic detection of vowel nasalization.
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
Sharma et al. Visual speech recognition using optical flow and hidden Markov model
CN111145726A (zh) 基于深度学习的声场景分类方法、系统、装置及存储介质
CN104464738A (zh) 一种面向智能移动设备的声纹识别方法
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Bock et al. Assessing the efficacy of benchmarks for automatic speech accent recognition
CN113611285B (zh) 基于层叠双向时序池化的语种识别方法
Mini et al. Feature vector selection of fusion of MFCC and SMRT coefficients for SVM classifier based speech recognition system
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms
Majidnezhad A HTK-based method for detecting vocal fold pathology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant