CN106611604B - 一种基于深度神经网络的自动语音叠音检测方法 - Google Patents

一种基于深度神经网络的自动语音叠音检测方法 Download PDF

Info

Publication number
CN106611604B
CN106611604B CN201510696366.1A CN201510696366A CN106611604B CN 106611604 B CN106611604 B CN 106611604B CN 201510696366 A CN201510696366 A CN 201510696366A CN 106611604 B CN106611604 B CN 106611604B
Authority
CN
China
Prior art keywords
voice
neural network
deep neural
network model
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510696366.1A
Other languages
English (en)
Other versions
CN106611604A (zh
Inventor
颜永红
陈梦喆
潘接林
刘建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201510696366.1A priority Critical patent/CN106611604B/zh
Publication of CN106611604A publication Critical patent/CN106611604A/zh
Application granted granted Critical
Publication of CN106611604B publication Critical patent/CN106611604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明涉及一种基于深度神经网络的自动语音叠音检测方法,包括:训练用于叠音检测的深度神经网络模型;其中,该深度神经网络模型的输入层为语音的特征信息,输出层为针对叠音语音、单人语音、非语音三类状态的概率输出值;采用深度神经网络模型对自动语音做叠音检测。

Description

一种基于深度神经网络的自动语音叠音检测方法
技术领域
本发明涉及语音检测方法,特别涉及一种基于深度神经网络的自动语音叠音检测方法。
背景技术
自动语音叠音检测,就是通过自动的方法检测出语音中哪些位置发生了多人同时说话的现象,并将这些位置标注出来。叠音现象的出现会对语音信号处理技术的效果产生影响。在说话人分类领域中,叠音现象是产生说话人分类错误的主要原因之一。传统的说话人分类只能对切分后的语音段判断是否为某个说话人,当叠音段出现时,显然判断为任何一个说话人都是不正确的;在语音识别领域中,叠音区域由于存在他人语音交叠的情况,对需要识别的语音产生了干扰,相应的识别性能将会受到影响,这种影响甚至还会蔓延到叠音前后的区域,使得错误率明显上升。这些情况下需要用自动叠音检测判断出哪些段落是叠音数据,然后针对叠音再进行特殊处理。
对于自动语音叠音检测来说,性能的优化主要从两方面进行:特征层面和建模层面。在特征层面,从叠音的声学特性入手,通过加入有针对性的特征类型用于区分,例如在叠音现象明显的多人会议说话人分类任务中,分别通过加入空间信息和加入高层信息的方法优化输入特征的类型,从而提高叠音检测的性能。在建模层面,有学者提出了基于HMM语音端点检测框架,通过对单说话人语音、串扰、叠音和静音四类语音进行HMM建模,从而判断出哪些地方出现了叠音。在实际应用中,自动语音叠音检测常常用于客服质检系统中,自动发现哪些地方有出现客服打断用户说话或者抢话的现象,从而对客服质量进行评估。这种技术可辅助甚至代替客服质检人员处理用户投诉、监督客服质量,由于极大程度上节省了人力开销,逐渐受到市场的青睐。
近年来,深度神经网络(Deep Neural Network,DNN)技术在大词汇连续语音系统声学建模领域中得到了成功应用,相比传统的HMM混合高斯模型,识别性能得到明显改善。由于DNN是一种深层次的统计模型,相比传统浅层的模型而言,其学习能力更强。目前DNN在语音处理技术的相关研究领域应用都非常广泛语音识别、说话人识别、语音增强,然而在自动语音叠音检测领域上的相关研究工作还非常缺乏。
发明内容
本发明的目的在于克服现有技术中尚缺乏深度神经网络在自动语音叠音检测领域上的应用的缺陷,从而提供一种基于深度神经网络的自动语音叠音检测方法。
为了实现上述目的,本发明提供了一种基于深度神经网络的自动语音叠音检测方法,包括:
步骤1)、训练用于叠音检测的深度神经网络模型;其中,该深度神经网络模型的输入层为语音的特征信息,输出层为针对叠音语音、单人语音、非语音三类状态的概率输出值;
步骤2)、采用步骤1)训练得到的深度神经网络模型对自动语音做叠音检测。
上述技术方案中,还包括人工合成模拟叠音数据的步骤;该步骤所生成的模拟叠音数据作为训练数据的一部分,用于深度神经网络模型的训练。
上述技术方案中,所述人工合成模拟叠音数据的步骤具体包括:
步骤a)、对带标注的标准库的对话数据进行强制对齐,得到语音或非语音的片段信息标注;
步骤b)、对所有训练数据进行加噪处理;
步骤c)、根据片段信息标注,对所有语音片段进行随机两两选择,进行时域线性叠加。
上述技术方案中,所述步骤1)进一步包括:
步骤1-1)、采集一定量的语音数据作为训练数据,设立对应的帧级别状态目标值;其中,所述帧级别状态目标值包括:叠音语音、单人语音、非语音;
步骤1-2)、从训练数据中提取语音特征,对所提取的语音特征进行处理,生成深度神经网络模型的输入特征;其中,所提取的语音特征包括:13维MFPLP特征、一维基频特征和一维表征基频可信度的NCC特征;对所提取的语音特征进行处理包括:对所提取的语音特征做3阶差分;深度神经网络模型的输入特征包括经3阶差分后的语音特征以及静态特征;
步骤1-3)、利用步骤1-2)得到的深度神经网络模型的输入特征,训练用于叠音检测的深度神经网络模型。
上述技术方案中,在步骤1-3)中,采用“概率采样”的重采样方法从训练数据集中采集输入到深度神经网络模型中的数据;
所述“概率采样”的重采样方法的采样概率为:
Figure BDA0000828888830000031
其中,cs为线性平滑系数,其大小在0-1之间;p(x)为某一类别在训练数据中的先验概率;Nc表示类别的数目。
上述技术方案中,所述步骤2)进一步包括:
步骤2-1)、向深度神经网络模型输入待检测的自动语音的语音特征,每输入一帧语音特征,都通过深度神经网络模型计算得到这帧语音属于叠音语音或单人语音或非语音的概率;
步骤2-2)、采用维特比算法通过每帧的各状态概率分布最终判断出叠音语音段的起止点;该步骤具体包括:
将深度神经网络模型的输出状态作为观测序列,将叠音语音、单人语音、非语音三种状态的排列作为隐含序列,深度神经网络模型的各个输出状态之间存在转移概率;从语音信号的起始点对语音进行逐帧的判断,对于当前这一帧,通过求得之前每一帧出现各个状态的概率,乘以帧间的转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列;确定所述最有可能出现的隐含序列每帧上的状态归属后,即可得到哪些帧属于叠音的信息,进而得到叠音语音段的起止点。
本发明的优点在于:
本发明在自动语音叠音检测中引入DNN,利用DNN较强的学习能力对叠音/非叠音数据进行建模,并结合维特比算法判断出切分后的语音段是否含有叠音,同时给出叠音发生的时间点。具有检测效果高、检测结果准确的优点。
附图说明
图1是本发明的自动语音叠音检测方法的流程图;
图2是用于自动语音叠音检测的深度神经网络模型的示意图。
具体实施方式
现结合附图对本发明作进一步的描述。
本发明的自动语音叠音检测方法引入了DNN模型,并结合维特比算法判断出切分后的语音段是否含有叠音以及叠音发生的时间点。
参考图1,该方法主要包括以下步骤:
步骤1)、训练用于叠音检测的深度神经网络模型(DNN模型)。
该步骤可包括:
步骤1-1)、采集一定量的语音数据作为训练数据,设立对应的帧级别状态目标值;
在叠音检测方法中,为语音帧所设立的帧级别状态目标值包括:叠音语音、单人语音、非语音,这三类目标值反映了语音帧可能的三种状态。
步骤1-2)、从训练数据中提取语音特征,对所提取的语音特征进行处理,构成DNN模型的输入特征;其中,
从训练数据中所提取的语音特征包括:语音识别中常用的13维MFPLP特征、一维基频特征和一维表征基频可信度的NCC特征;对这些从训练数据中所提取的语音特征做3阶差分,然后加上静态特征,总共构成60维的输入特征;
步骤1-3)、训练用于叠音检测的深度神经网络模型;
参考图2,本发明中用于叠音检测的深度神经网络模型仅针对叠音语音/单人语音/非语音三个状态进行建模,其输入层为提取的表征语音的特征信息,输出层则是针对这三类状态的概率输出,隐含层的层数及大小可以根据实际数据的情况进行选择。
在训练深度神经网络模型时,本发明采用一种称为“概率采样”的重采样方法从训练数据集中选取训练数据。深度神经网络模型的一种传统训练方式为将训练数据以随机顺序输入,这意味着每个更新迭代使用的一批数据由所有训练数据随机抽取组成,这种方式称为“完全随机采样”。这种情况下,对某一类别的采样概率即该类别在训练数据中的先验概率p(x)。深度神经网络模型的另一种常见的采样方法称作“均匀采样”方法,其每批训练数据由各类别训练数据平均组成,因此,其采样概率为
Figure BDA0000828888830000041
(假设共有Nc个类别)。本发明所采用的“概率采样”方法是对“完全随机采样”和“均匀采样”方法做线性平滑的结果,具体的采样概率如下所示:
Figure BDA0000828888830000042
其中,cs为线性平滑系数,如果cs=0,则退化为“完全随机采样”,如果cs=1,则退回到“均匀采样”。
由于叠音数据较非叠音数据在训练数据中所占比例较少。在多类别的机器学习任务中,各建模单元的训练数据不均衡是影响算法性能的一个重要问题。这种情况下,训练得到的模型倾向于优化训练数据充足的类别,而忽略训练数据不足的类别。因此,本步骤中采用“概率采样”的重采样方法来选取训练数据有助于DNN对各个状态的训练得到趋于一致的建模精度,并最终改善检测性能。
步骤2)、采用深度神经网络模型对自动语音实现叠音检测。
该步骤可包括:
步骤2-1)、向深度神经网络模型输入待检测的自动语音的语音特征,每输入一帧语音特征,都可通过深度神经网络模型计算得到这帧语音属于叠音语音/单人语音/非语音的概率。
步骤2-2)、采用维特比算法通过每帧的各状态概率分布最终判断出叠音语音段的起止点。
维特比算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的隐含状态序列。在叠音检测中,DNN的输出状态就相当于观测序列,叠音语音/单人语音/非语音的排列则对应的是隐含序列。DNN的各个输出状态之间存在转移概率。从信号的起始点对语音进行逐帧的判断,对于当前这一帧,通过求得之前每一帧出现各个状态的概率,乘以帧间的转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列,当确定了这个序列每帧上的状态归属,那么就可以得到哪些帧属于叠音的信息,进而可以得到叠音语音段的起止点。在维特比算法中,有两个参数需要预先设定:一是各个状态间的转移概率值,二是各个状态的先验概率值。这两个值的设定通常是在开发集上进行调优,然后固定下来用于其它数据的测试。
考虑到实际对话数据中真实的叠音数据非常少,获取起来耗时耗力;如仅用少量的叠音数据和大量的非叠音数据进行训练,DNN模型将会过度学习非叠音的特性,而忽略叠音数据的特性,从而大大影响叠音检测的性能。因此,作为一种优选实现方式,在另一个实施例中,本发明的自动语音叠音检测方法还包括有:人工合成模拟足量叠音数据的步骤。在步骤1-1)中,采集一定量的语音数据作为训练数据时,所述训练数据包括该步骤所得到的模拟数据。
该步骤可包括:
步骤a)、对带标注的标准库的对话数据进行强制对齐,得到语音或非语音的片段信息标注;
人工合成叠音训练数据的来源为汉语普通话电话聊天口语对话数据,如语言数据联盟LDC提供的汉语普通话通用标准数据集Call-Home、Call-Friend以及Call-HKUST。该语音数据基于人工标注的时间点进行了分段。对于分段后的训练集,进行强制对齐操作,可得到每帧数据属于语音或非语音的标注信息。
步骤b)、对所有训练数据进行加噪处理,使DNN能够更好地应付不同种类噪声下的叠音检测;
在本实施例中,为训练数据添加了8种不同的噪声,包含有马路噪声、餐厅噪声、音乐噪声、风声等常见噪声类型。对所有的训练数据分批随机加入这8种噪声,加入信噪比的范围控制在0-20db。
步骤c)、根据片段信息标注,对所有语音片段进行随机两两选择,进行时域线性叠加。
人工合成叠音时,在所有的语音片段中随机的选择出两句,将这两句进行时域线性叠加。当两句的长度不一致时,保留下来的语音长度以较短的时间长度为准。考虑到实际情况中,来自同一个人的语音不可能出现交叠,所以随机选择叠加语音时需要保证两句话来自不同的说话人。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于深度神经网络的自动语音叠音检测方法,包括:
步骤1)、训练用于叠音检测的深度神经网络模型;其中,该深度神经网络模型的输入层为语音的特征信息,输出层为针对叠音语音、单人语音、非语音三类状态的概率输出值;
步骤2)、采用步骤1)训练得到的深度神经网络模型对语音做自动叠音检测;
所述步骤1)进一步包括:
步骤1-1)、采集一定量的语音数据作为训练数据,设立对应的帧级别状态目标值;其中,所述帧级别状态目标值包括:叠音语音、单人语音、非语音;
步骤1-2)、从训练数据中提取语音特征,对所提取的语音特征进行处理,生成深度神经网络模型的输入特征;其中,所提取的语音特征包括:13维MFPLP特征、一维基频特征和一维表征基频可信度的NCC特征;对所提取的语音特征进行处理包括:对所提取的语音特征做3阶差分;深度神经网络模型的输入特征包括经3阶差分后的语音特征以及静态特征;
步骤1-3)、利用步骤1-2)得到的深度神经网络模型的输入特征,训练用于叠音检测的深度神经网络模型。
2.根据权利要求1所述的基于深度神经网络的自动语音叠音检测方法,其特征在于,还包括人工合成模拟叠音数据的步骤;该步骤所生成的模拟叠音数据作为训练数据的一部分,用于深度神经网络模型的训练。
3.根据权利要求2所述的基于深度神经网络的自动语音叠音检测方法,其特征在于,所述人工合成模拟叠音数据的步骤具体包括:
步骤a)、对带标注的标准库的对话数据进行强制对齐,得到语音或非语音的片段信息标注;
步骤b)、对所有训练数据进行加噪处理;
步骤c)、根据片段信息标注,对所有语音片段进行随机两两选择,进行时域线性叠加。
4.根据权利要求1所述的基于深度神经网络的自动语音叠音检测方法,其特征在于,在步骤1-3)中,采用“概率采样”的重采样方法从训练数据集中采集输入到深度神经网络模型中的数据;
所述“概率采样”的重采样方法的采样概率为:
Figure FDA0002323892970000011
其中,cs为线性平滑系数,其大小在0-1之间;p(x)为某一类别在训练数据中的先验概率;Nc表示类别的数目。
5.根据权利要求1所述的基于深度神经网络的自动语音叠音检测方法,其特征在于,所述步骤2)进一步包括:
步骤2-1)、向深度神经网络模型输入待检测语音的语音特征,每输入一帧语音特征,都通过深度神经网络模型计算得到这帧语音属于叠音语音或单人语音或非语音的概率;
步骤2-2)、采用维特比算法通过每帧的各状态概率分布最终判断出叠音语音段的起止点;该步骤具体包括:
将深度神经网络模型的输出状态作为观测序列,将叠音语音、单人语音、非语音三种状态的排列作为隐含序列,深度神经网络模型的各个输出状态之间存在转移概率;从语音信号的起始点对语音进行逐帧的判断,对于当前这一帧,通过求得之前每一帧出现各个状态的概率,乘以帧间的转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列;确定所述最有可能出现的隐含序列每帧上的状态归属后,即可得到哪些帧属于叠音的信息,进而得到叠音语音段的起止点。
CN201510696366.1A 2015-10-23 2015-10-23 一种基于深度神经网络的自动语音叠音检测方法 Active CN106611604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510696366.1A CN106611604B (zh) 2015-10-23 2015-10-23 一种基于深度神经网络的自动语音叠音检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510696366.1A CN106611604B (zh) 2015-10-23 2015-10-23 一种基于深度神经网络的自动语音叠音检测方法

Publications (2)

Publication Number Publication Date
CN106611604A CN106611604A (zh) 2017-05-03
CN106611604B true CN106611604B (zh) 2020-04-14

Family

ID=58613832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510696366.1A Active CN106611604B (zh) 2015-10-23 2015-10-23 一种基于深度神经网络的自动语音叠音检测方法

Country Status (1)

Country Link
CN (1) CN106611604B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564546A (zh) * 2017-07-27 2018-01-09 上海师范大学 一种基于位置信息的语音端点检测方法
CN109036470B (zh) * 2018-06-04 2023-04-21 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN111354352B (zh) * 2018-12-24 2023-07-14 中国科学院声学研究所 一种用于音频检索的模板自动清洗方法及系统
CN109600526A (zh) * 2019-01-08 2019-04-09 上海上湖信息技术有限公司 客户服务质量检测方法及装置、可读存储介质
CN109599125A (zh) * 2019-02-01 2019-04-09 浙江核新同花顺网络信息股份有限公司 一种重叠音检测方法及相关装置
CN110728996A (zh) * 2019-10-24 2020-01-24 北京九狐时代智能科技有限公司 一种实时语音质检方法、装置、设备及计算机存储介质
CN111147676A (zh) * 2019-12-23 2020-05-12 广州供电局有限公司 基于电力it服务呼叫中心智能辅助坐席应答服务实现方法
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN112002347A (zh) * 2020-08-14 2020-11-27 北京奕斯伟计算技术有限公司 语音检测方法、装置和电子设备
CN112820299B (zh) * 2020-12-29 2021-09-14 马上消费金融股份有限公司 声纹识别模型训练方法、装置及相关设备
CN112735385A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 语音端点检测方法、装置、计算机设备及存储介质
CN115019826A (zh) * 2021-03-03 2022-09-06 阿里巴巴(中国)有限公司 音频信号处理方法、设备、系统及存储介质
CN115579022B (zh) * 2022-12-09 2023-06-30 南方电网数字电网研究院有限公司 叠音检测方法、装置、计算机设备和存储介质
CN115862676A (zh) * 2023-02-22 2023-03-28 南方电网数字电网研究院有限公司 基于深度学习的语音叠音检测方法、装置和计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995030983A1 (en) * 1994-05-04 1995-11-16 Georgia Tech Research Corporation Audio analysis/synthesis system
CN1315801A (zh) * 2000-03-27 2001-10-03 朗迅科技公司 用自适应判决门限来完成通话重叠检测的方法和装置
EP1035537A3 (en) * 1999-03-09 2002-04-17 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
CN102054480A (zh) * 2009-10-29 2011-05-11 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN102682760A (zh) * 2011-03-07 2012-09-19 株式会社理光 重叠语音检测方法和系统
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
KR20140013156A (ko) * 2012-07-19 2014-02-05 에스케이플래닛 주식회사 통합 검색을 제공하는 내비게이션 장치 및 통합 검색 제공 방법
CN104123937A (zh) * 2013-04-28 2014-10-29 腾讯科技(深圳)有限公司 提醒设置方法、装置和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995030983A1 (en) * 1994-05-04 1995-11-16 Georgia Tech Research Corporation Audio analysis/synthesis system
EP1035537A3 (en) * 1999-03-09 2002-04-17 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
CN1315801A (zh) * 2000-03-27 2001-10-03 朗迅科技公司 用自适应判决门限来完成通话重叠检测的方法和装置
CN102054480A (zh) * 2009-10-29 2011-05-11 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN102682760A (zh) * 2011-03-07 2012-09-19 株式会社理光 重叠语音检测方法和系统
KR20140013156A (ko) * 2012-07-19 2014-02-05 에스케이플래닛 주식회사 통합 검색을 제공하는 내비게이션 장치 및 통합 검색 제공 방법
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN104123937A (zh) * 2013-04-28 2014-10-29 腾讯科技(深圳)有限公司 提醒设置方法、装置和系统

Also Published As

Publication number Publication date
CN106611604A (zh) 2017-05-03

Similar Documents

Publication Publication Date Title
CN106611604B (zh) 一种基于深度神经网络的自动语音叠音检测方法
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
US11276407B2 (en) Metadata-based diarization of teleconferences
CN106057206B (zh) 声纹模型训练方法、声纹识别方法及装置
US20190266998A1 (en) Speech recognition method and device, computer device and storage medium
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
CN104900235B (zh) 基于基音周期混合特征参数的声纹识别方法
Chai et al. A cross-entropy-guided measure (CEGM) for assessing speech recognition performance and optimizing DNN-based speech enhancement
CN112259105B (zh) 一种声纹识别模型的训练方法、存储介质和计算机设备
CN108766418A (zh) 语音端点识别方法、装置及设备
CN112259104B (zh) 一种声纹识别模型的训练装置
CN109036471B (zh) 语音端点检测方法及设备
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
CN105096941A (zh) 语音识别方法以及装置
CN104464423A (zh) 一种口语考试评测的校标优化方法及系统
CN109545228A (zh) 一种端到端说话人分割方法及系统
CN109256137A (zh) 语音采集方法、装置、计算机设备和存储介质
CN109119070A (zh) 一种语音端点检测方法、装置、设备及存储介质
CN108899033B (zh) 一种确定说话人特征的方法及装置
CN108735200A (zh) 一种说话人自动标注方法
CN106023986A (zh) 一种基于声效模式检测的语音识别方法
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant