CN107134277A - 一种基于gmm模型的语音激活检测方法 - Google Patents

一种基于gmm模型的语音激活检测方法 Download PDF

Info

Publication number
CN107134277A
CN107134277A CN201710453487.2A CN201710453487A CN107134277A CN 107134277 A CN107134277 A CN 107134277A CN 201710453487 A CN201710453487 A CN 201710453487A CN 107134277 A CN107134277 A CN 107134277A
Authority
CN
China
Prior art keywords
signal
voice
noise
frame
gmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710453487.2A
Other languages
English (en)
Inventor
羊开云
高可攀
韩翀蛟
徐晓峰
李夏宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRANDSTREAM NETWORKS Inc
SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd
Original Assignee
GRANDSTREAM NETWORKS Inc
SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRANDSTREAM NETWORKS Inc, SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd filed Critical GRANDSTREAM NETWORKS Inc
Priority to CN201710453487.2A priority Critical patent/CN107134277A/zh
Publication of CN107134277A publication Critical patent/CN107134277A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明主要披露了一种基于GMM模型的语音激活检测方法,包括以下操作:数据训练:建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型;数据测试:对实时通话进行检测,包括:分帧处理、特征提取、概率计算;数据判断:根据语音信号概率及噪声信号概率判断测试帧信号为语音信号还是噪声信号。本发明先用噪声信号及语音信号预先训练GMM模型参数,再对实时通话信号进行检测判别其为噪声信号还是语音信号。具体为对提取的信号特征,根据预先训练的GMM模型参数分别计算其为噪声的概率以及其为语音的概率,其计算复杂度低,计算实时性强。

Description

一种基于GMM模型的语音激活检测方法
技术领域
本发明属于音频处理技术领域,尤其涉及VoIP通讯过程的音频处理技术。
背景技术
随着VoIP及视频会议技术的不断发展创新,VoIP、视频会议已成为公司日常工作沟通和交流的重要手段,因此长时间的视频会议,语音会议司空见惯。在会议间隙不免可能会有长时间的资料整理,录入,调试等工作,这段时间没有人说话,但是由于与会者离VoIP终端较近,会导致对端听到键盘敲击声,纸张翻阅,或者其他的的较大的噪声,对对端造成干扰。为了避免上述尴尬的发生,本发明提出一种语音激活检测方法,其对语音通话中特定噪声检测并做相应处理,当有人重新说话时,则开启正常通话模式。
现有的语音激活检测方法,大多只能区别比较小的背景噪音与语音,对于键盘敲击等特定的较大的噪声,则无法判别。本发明提出基于对语音信号和特定噪声分别用GMM(Gaussian Mixture Model,高斯混合模型)训练模型并用于检测区别语音信号与特定噪声的语音激活检测方法。
发明内容
本发明的目的在于提供一种基于GMM模型的语音激活检测方法, 为了实现在VoIP通话过程中在无人说话时对特定的噪声信号进行噪声处理,以减少通话间隙长时间无人说话时,一些噪声对对端与会者造成干扰。
为了实现上述发明目的,本发明一种基于GMM模型的语音激活检测方法,主要包括以下操作:数据训练:建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型;数据测试:对实时通话进行检测,包括:分帧处理、特征提取、概率计算;数据判断:根据语音信号概率及噪声信号概率判断测试帧信号为语音信号还是噪声信号。
优选的,该数据训练进一步包括:步骤1-a:收集语音信号样本集和噪声信号样本集,对语音信号样本集和噪声信号样本集中的音频文件分别进行分帧,语音帧信号集记为,噪声帧信号集记为;步骤1-b:提取用于GMM训练的特征集,即对语音帧信号集提取的语音特征集记为,对噪声帧信号集提取的噪声特征集记为;步骤1-c:对语音特征集、噪声特征集进行GMM训练,分别得到:语音模型GMM参数集、噪声模型GMM参数集
优选的,该数据测试包括:步骤2-a:对测试信号分帧处理;步骤2-b:对测试信号提取用于GMM测试的特征集,记为测试特征集;步骤2-c:分别计算语音信号概率和噪声信号概率
优选的,语音信号概率是根据测试特征集和语音模型GMM参数集计算所得;噪声信号概率是根据测试特征集和噪声模型GMM参数集计算所得。
优选的,语音帧信号集包含10ms长度的帧语音信号;噪声帧信号集包含10ms长度的帧噪声信号为语音信号帧总数以及噪声信号帧总数。
优选的,语音特征集包括所有语音帧信号提取的特征集集合,是对中的每一帧语音信号提取基音频率特征和时域特征;噪声特征集包括所有噪声帧信号提取的特征集集合,是对中的每一帧噪声信号提取基音频率特征和时域特征。
优选的,数据训练还包括:提取训练特征操作,记为第帧语音信号,其为时域采样点的集合,记为,其中为10ms一帧信号包含的时域采样点总数,由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成,即,其中,由现有的基音检测技术,即对自相关系数求峰值得到,为第一个LPC(线性预测编码)系数,LPC为现有的较为成熟的语音线性预测编码技术,其他三个特征的计算公式分别如下:,其中为符号函数,即
优选的,对整理为GMM模型训练算法的输入矩阵形式,即,每一行对应每一帧语音信号的特征集,并对用GMM训练器训练语音信号模型参数;对整理为GMM模型训练算法的输入矩阵形式,即,每一行对应每一帧噪声信号的特征集,并对用GMM训练器训练噪声信号模型参数
优选的,数据测试包括:步骤2-a:对测试信号提取基音频率特征和时域特征,由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成,记为;步骤2-b:用多维高斯概率密度计算公式,根据及训练部分的,计算测试帧信号为语音信号的概率,根据及训练部分的计算测试帧信号为噪声信号的概率,其计算公式如下:
优选的,数据判断包括:根据判别所述测试帧信号为语音信号还是噪声信号,若则判别为语音信号,否则判别为噪声信号;对判别为语音信号的帧信号保持正常通话模式,对判别为噪声信号的帧信号则进行相应处理。
本发明提供的方案在会议通话过程中,有效监测通话信号为噪声信号还是语音信号,从而对无效噪声信号进行相应处理。
本发明提供的技术方案对特定噪声信号进行采集,提取特征集,并用GMM训练特定噪声模型参数集,从而用于对实时信号计算其为噪声信号的概率,对特定噪声信号的训练,能够有针对性的处理目标噪声信号,如敲击声,脚步声等。
本发明提供的技术方案对语音信号提取特征集,并用GMM训练语音模型参数集,用于对实时信号计算其为语音信号的概率,从而保证在无人说话的消噪状态到有人说话时恢复正常通话状态的准确切换。
本发明先用噪声信号及语音信号预先训练GMM模型参数,再对实时通话信号进行检测判别其为噪声信号还是语音信号时对提取的信号特征,根据预先训练的GMM模型参数分别计算其为噪声的概率还是语音的概率,计算复杂度低,保证实时性。
附图说明
图1为本发明具体实施例中GMM模型参数训练框图。
图2为本发明具体实施例中测试帧信号测试框图。
具体实施方式
发明的基本原理:本发明采用GMM对特定噪声和语音分别训练模型参数,用于实时检测VoIP通话信号为特定噪声信号还是语音信号,如果为噪声信号则做相应处理,为语音信号则为正常通话状态。用于GMM训练和检测的语音信号的特征集为语音基音频率特征与时域特征的结合。
为了更清楚地说明本发明实例的技术方案,下面将结合示例图对本发明的具体实施例进行详细的介绍,下面的描述仅仅是本发明的一些实施例。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些实施例获得本发明的其他实施方式。
本发明实施例提供了一种对VoIP终端采集信号判断其为噪声还是语音信号并做相应处理,从而实现在无人说话时,针对性的处理会议室如敲击声,键盘声,脚步声等噪声,避免与会者在对端无人说话时,受其噪声干扰。
本发明实施例提供的基于GMM对特定噪声训练模型的语音激活检测方法分为训练部分和检测部分。训练部分对特定噪声信号训练GMM噪声模型参数集,对语音信号训练GMM语音模型参数集。
图1为本发明具体实施例中GMM模型参数训练框图。如图1所示,本发明的训练部分主要内容包括:
步骤S110:收集语音信号样本集,应尽量包含多种语音,多个说话人,多样化内容;收集噪声信号样本集,应包含需要检测的会议室特定噪声如敲击声,文件翻阅声,脚步声等。
步骤S120:对语音信号样本集和噪声信号样本集中的音频文件分别进行分帧,每一帧帧长固定,对语音帧信号记为,对噪声帧信号记为
步骤S130:对语音帧信号提取用于GMM训练的特征集,记为,对噪声帧信号提取用于GMM训练的特征集,记为
其中,为语音特征的集合,包括基音频率特征,时域特征。
步骤S140:对用GMM训练,得到语音模型GMM参数集,对用GMM训练,得到噪声模型GMM参数集
图2为本发明具体实施例中测试帧信号测试框图。由该图所示,本发明的测试部分主要内容包括:
步骤S210:对测试信号分帧处理,该测试帧信号记为
步骤S220:对提取用于GMM测试的特征集,记为
其中,包含的语音特征的集合与训练部分步骤S130中的包含的特征集合一致,即基音频率特征,时域特征。
步骤S230:根据及训练部分的计算测试帧信号为语音信号的概率,根据及训练部分的计算测试帧信号为噪声信号的概率
步骤S240:根据判别测试帧信号为语音信号还是噪声信号。
步骤S250:根据步骤S240判决结果,对判别为语音信号的帧信号保持正常通话模式,对判别为噪声信号的帧信号则进行噪声处理模式。
此时,训练过程具体实施方案如下所述:
首先是对于训练部分,主要包括建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型。
步骤S310:收集语音信号样本库。通过网络下载及自己录制获得一定数量的语音信号音频文件,将这些文件用音频编辑软件进行整理,获得语音样本集,其中包含的语音文件为,采样率,大小均相同。收集噪声音频文件,建立噪声信号样本集,其中包含的噪声文件为,主要来源为网络下载的部分噪声音频文件以及自己录制会议室容易产生的噪声,如键盘敲击声,脚步声,纸张翻阅声等噪声音频文件。其中,为样本库中包含的音频文件总数, 即语音信号样本库包含个文件大小相同,采样率相同的语音音频文件,噪声信号样本库包含个与语音信号样本库中语音文件大小相同,采样率相同的噪声音频文件。
步骤S320:对语音信号样本集中的所有语音文件以10ms时间长度为一帧进行分帧,得到语音帧信号集,包含的都是10ms长度的帧语音信号。对噪声信号样本集中的所有噪声信号文件以10ms时间长度为一帧进行分帧,得到噪声帧信号集,包含的都是10ms长度的帧噪声信号。其中,为语音信号帧总数以及噪声信号帧总数。
步骤S330:对中的每一帧语音信号提取基音频率特征和时域特征,组成用于GMM训练的语音特征集,记所有语音帧信号提取的特征集集合为。对中的每一帧噪声信号提取基音频率特征和时域特征,组成用于GMM训练的噪声特征集,记所有噪声帧信号提取的特征集集合为
3-a记为第帧语音信号,其为时域采样点的集合,记为,其中为10ms一帧信号包含的时域采样点总数。由基音频率,过零率,短时能量,归一化自相关系数,第一语音线性预测系数这五个特征组成。即,由现有的基音检测技术,即对自相关系数求峰值得到。为第一个LPC(线性预测编码)系数,LPC为现有的较为成熟的语音线性预测编码技术。其他三个特征的计算公式如下:
,其中为符号函数,即
3-b对语音帧信号中的每一帧信号,均按照3-a中的步骤提取特征集,从而获得语音信号特征集集合。同样,按照3-a中的各特征计算方法和公式,对噪声信号中的每一帧信号,计算噪声信号特征集集合
步骤S340 对信号特征集集合用EM为核心算法的GMM模型训练,得到语音信号GMM模型参数集,对噪声特征集集合用EM为核心算法的GMM模型训练,得到噪声信号GMM模型参数集
4-a. 对整理为GMM模型训练算法的输入矩阵形式,即,即每一行对应每一帧语音信号的特征集;
4-b.对用GMM训练器训练语音信号模型参数
4-c.对整理为GMM模型训练算法的输入矩阵形式,即
,每一行对应每一帧噪声信号的特征集;
4-d.对用GMM训练器训练噪声信号模型参数
步骤4-c,4-d中为高斯混合模型数。
本发明的测试部分主要为:
步骤S410:以10ms为一帧长对测试信号时域采样点进行读取,得到测试帧信号,记为
步骤S420:对提取基音频率特征和时域特征,由基音频率,过零率,短时能量,归一化自相关系数,第一语音线性预测系数这五个特征组成,记为。测试帧信号特征提取方法与训练部分步骤3中的提取训练特征的提取方法一致。
步骤S430:用多维高斯概率密度计算公式,根据及训练部分的,计算测试帧信号为语音信号的概率,根据及训练部分的计算测试帧信号为噪声信号的概率。计算公式如下:
步骤S440:根据判别测试帧信号为语音信号还是噪声信号,若则判别为语音信号,否则判别为噪声信号。
步骤S450:根据步骤S440判决结果,对判别为语音信号的帧信号保持正常通话模式,对判别为噪声信号的帧信号则进行相应处理。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于GMM模型的语音激活检测方法,其特征在于,所述方法包括以下操作:
数据训练:建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型;
数据测试:对实时通话进行检测,包括:分帧处理、特征提取、概率计算;
数据判断:根据所述语音信号概率及所述噪声信号概率判断测试帧信号为语音信号还是噪声信号。
2.根据权利要求1所述的语音激活检测方法,其特征在于,所述数据训练进一步包括:步骤1-a:收集语音信号样本集和噪声信号样本集,对所述语音信号样本集和所述噪声信号样本集中的音频文件分别进行分帧,语音帧信号集记为,噪声帧信号集记为
步骤1-b:提取用于GMM训练的特征集,即对所述语音帧信号集提取的语音特征集记为,对所述噪声帧信号集提取的噪声特征集记为
步骤1-c:对所述语音特征集、所述噪声特征集进行GMM训练,分别得到:语音模型GMM参数集、噪声模型GMM参数集
3.根据权利要求2所述的语音激活检测方法,其特征在于,所述数据测试包括:步骤2-a:对测试信号分帧处理;步骤2-b:对所述测试信号提取用于GMM测试的特征集,记为测试特征集;步骤2-c:分别计算所述语音信号概率和所述噪声信号概率
4.根据权利要求3所述的语音激活检测方法,其特征在于,所述语音信号的概率是根据所述测试特征集和所述语音模型GMM参数集计算所得;所述噪声信号概率是根据所述测试特征集和所述噪声模型GMM参数集计算所得。
5.根据权利要求4所述的语音激活检测方法,其特征在于,所述语音帧信号集包含10ms长度的帧语音信号;所述噪声帧信号集包含10ms长度的帧噪声信号为语音信号帧总数以及噪声信号帧总数。
6.根据权利要求5所述的语音激活检测方法,其特征在于,所述语音特征集包括所有语音帧信号提取的特征集集合,是对中的每一帧语音信号提取基音频率特征和时域特征;所述噪声特征集包括所有噪声帧信号提取的特征集集合,是对中的每一帧噪声信号提取基音频率特征和时域特征。
7.根据权利要求6所述的语音激活检测方法,其特征在于,所述数据训练还包括:提取训练特征操作,记为第帧语音信号,其为时域采样点的集合,记为,其中为10ms一帧信号包含的时域采样点总数,由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成,即,其中,由现有的基音检测技术,即对自相关系数求峰值得到,为第一个LPC(线性预测编码)系数,LPC为现有的较为成熟的语音线性预测编码技术,其他三个特征的计算公式分别如下:
,其中为符号函数,即
8.根据权利要求7所述的语音激活检测方法,其特征在于,对整理为GMM模型训练算法的输入矩阵形式,即,每一行对应每一帧语音信号的特征集,并对用GMM训练器训练语音信号模型参数;对整理为GMM模型训练算法的输入矩阵形式,即,每一行对应每一帧噪声信号的特征集,并对用GMM训练器训练噪声信号模型参数
9.根据权利要求8所述的语音激活检测方法,其特征在于,所述数据测试包括:步骤2-a:对测试信号提取基音频率特征和时域特征,由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成,记为;步骤2-b:用多维高斯概率密度计算公式,根据及训练部分的,计算测试帧信号为语音信号的概率,根据及训练部分的计算测试帧信号为噪声信号的概率,其计算公式如下:
10.根据权利要求9所述的语音激活检测方法,其特征在于,所述数据判断包括:根据判别所述测试帧信号为语音信号还是噪声信号,若则判别为语音信号,否则判别为噪声信号;对判别为语音信号的帧信号保持正常通话模式,对判别为噪声信号的帧信号则进行相应处理。
CN201710453487.2A 2017-06-15 2017-06-15 一种基于gmm模型的语音激活检测方法 Pending CN107134277A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710453487.2A CN107134277A (zh) 2017-06-15 2017-06-15 一种基于gmm模型的语音激活检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710453487.2A CN107134277A (zh) 2017-06-15 2017-06-15 一种基于gmm模型的语音激活检测方法

Publications (1)

Publication Number Publication Date
CN107134277A true CN107134277A (zh) 2017-09-05

Family

ID=59734743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710453487.2A Pending CN107134277A (zh) 2017-06-15 2017-06-15 一种基于gmm模型的语音激活检测方法

Country Status (1)

Country Link
CN (1) CN107134277A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108039182A (zh) * 2017-12-22 2018-05-15 西安烽火电子科技有限责任公司 一种语音激活检测方法
CN108831508A (zh) * 2018-06-13 2018-11-16 百度在线网络技术(北京)有限公司 语音活动检测方法、装置和设备
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN109887508A (zh) * 2019-01-25 2019-06-14 广州富港万嘉智能科技有限公司 一种基于声纹的会议自动记录方法、电子设备及存储介质
CN110289016A (zh) * 2019-06-20 2019-09-27 深圳追一科技有限公司 一种基于实时对话的语音质检方法、装置及电子设备
CN112468762A (zh) * 2020-11-03 2021-03-09 视联动力信息技术股份有限公司 一种发言方的切换方法、装置、终端设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
CN101320560A (zh) * 2008-07-01 2008-12-10 上海大学 语音识别系统应用采样速率转化提高识别率的方法
WO2011010604A1 (ja) * 2009-07-21 2011-01-27 日本電信電話株式会社 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
CN102063899A (zh) * 2010-10-27 2011-05-18 南京邮电大学 一种非平行文本条件下的语音转换方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
CN106653047A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
CN101320560A (zh) * 2008-07-01 2008-12-10 上海大学 语音识别系统应用采样速率转化提高识别率的方法
WO2011010604A1 (ja) * 2009-07-21 2011-01-27 日本電信電話株式会社 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
US20120173234A1 (en) * 2009-07-21 2012-07-05 Nippon Telegraph And Telephone Corp. Voice activity detection apparatus, voice activity detection method, program thereof, and recording medium
CN102063899A (zh) * 2010-10-27 2011-05-18 南京邮电大学 一种非平行文本条件下的语音转换方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
CN106653047A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN108039182A (zh) * 2017-12-22 2018-05-15 西安烽火电子科技有限责任公司 一种语音激活检测方法
CN108039182B (zh) * 2017-12-22 2021-10-08 西安烽火电子科技有限责任公司 一种语音激活检测方法
CN108831508A (zh) * 2018-06-13 2018-11-16 百度在线网络技术(北京)有限公司 语音活动检测方法、装置和设备
CN109887508A (zh) * 2019-01-25 2019-06-14 广州富港万嘉智能科技有限公司 一种基于声纹的会议自动记录方法、电子设备及存储介质
CN110289016A (zh) * 2019-06-20 2019-09-27 深圳追一科技有限公司 一种基于实时对话的语音质检方法、装置及电子设备
CN112468762A (zh) * 2020-11-03 2021-03-09 视联动力信息技术股份有限公司 一种发言方的切换方法、装置、终端设备和存储介质
CN112468762B (zh) * 2020-11-03 2024-04-02 视联动力信息技术股份有限公司 一种发言方的切换方法、装置、终端设备和存储介质

Similar Documents

Publication Publication Date Title
CN107134277A (zh) 一种基于gmm模型的语音激活检测方法
CN106251859B (zh) 语音识别处理方法和装置
CN106486131B (zh) 一种语音去噪的方法及装置
CN103578470B (zh) 一种电话录音数据的处理方法及系统
CN105405439B (zh) 语音播放方法及装置
CN107910014B (zh) 回声消除的测试方法、装置及测试设备
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
CN104900235B (zh) 基于基音周期混合特征参数的声纹识别方法
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
WO2017084197A1 (zh) 一种基于情感识别的智能家居控制方法及其系统
CN108922518A (zh) 语音数据扩增方法和系统
CN107507625B (zh) 声源距离确定方法及装置
CN108399923A (zh) 多人发言中发言人识别方法以及装置
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN109887489A (zh) 基于生成对抗网络的深度特征的语音去混响方法
CN106373589A (zh) 一种基于迭代结构的双耳混合语音分离方法
US20180308501A1 (en) Multi speaker attribution using personal grammar detection
CN109410956A (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
Hou et al. Domain adversarial training for speech enhancement
CN108922516B (zh) 检测调域值的方法和装置
CN107507627B (zh) 语音数据热度分析方法及系统
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination