CN108320732A - 生成目标说话人语音识别计算模型的方法和装置 - Google Patents

生成目标说话人语音识别计算模型的方法和装置 Download PDF

Info

Publication number
CN108320732A
CN108320732A CN201710025703.3A CN201710025703A CN108320732A CN 108320732 A CN108320732 A CN 108320732A CN 201710025703 A CN201710025703 A CN 201710025703A CN 108320732 A CN108320732 A CN 108320732A
Authority
CN
China
Prior art keywords
voice
target speaker
neural network
speech
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710025703.3A
Other languages
English (en)
Inventor
薛少飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710025703.3A priority Critical patent/CN108320732A/zh
Publication of CN108320732A publication Critical patent/CN108320732A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请提供一种生成目标说话人语音识别计算模型的方法包括:获取样本语音数据;利用样本语音数据训练计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型并形成目标说话人语音识别初始化模型;利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型。能够将区分目标说话人和非目标说话人的语音的声学特征的模型包括到所述目标说话人语音识别计算模型中,所生成的目标说话人语音识别计算模型能够起到计算并输出语音的设定时段包含有目标说话人语音可能性的评估值的作用。

Description

生成目标说话人语音识别计算模型的方法和装置
技术领域
本申请涉及一种生成计算模型的方法,具体涉及一种生成目标说话人语音识别计算模型的方法和装置;还涉及一种生成话音激活检测分类模型的方法和装置;还涉及一种生成话音声学特征增强模型的方法和装置;本申请还涉及一种评估语音的设定时段中包含目标说话人语音的可能性的方法和装置,本申请还涉及一种用于评估语音的设定时段中包含目标说话人语音的可能性的装置,本申请还提供一种分离目标说话人语音的方法。本申请还提供一种处理语音的电子设备。
背景技术
话音激活检测(Voice Activity Detection,简称VAD)是一种检测输入信号是否包含有语音的技术。这项技术具有多方面的用途,如在语音识别中,由于话音激活检测可以检测到语音信号的范围,所以识别系统就可以只在语音信号的范围内进行识别工作,从而减少系统中大量的运算并减少误判率,使得自动语音识别系统具有更好的实时性和识别准确率。
话音激活检测旨在检测当前音频中是否包含语音信号存在,即对输入音频进行判断,将语音信号与各种背景噪声信号区分开来。
话音激活检测通常作为语音识别的前端模块,为语音识别模块提供完整准确的语音信号用于识别,以提高语音识别的准确率。
目标说话人在嘈杂的环境下(如车内、公共场所)使用语音识别服务时,各种环境噪声尤其是周边干扰说话人的语音会对话音激活检测的准确率造成很大影响,同时由于话音激活检测不能提供准确的语音结束边界而对用户体验造成较大影响。
经典的话音激活检测方法为基于短时能量的语音激活检测。高信噪比下,由于最低能量的语音能量也超过背景噪声能量,因此做简单的能量测量就可以鉴别出语音或非语音。低信噪比下,通常将短时能量与短时过零率结合起来,称之为双门限比较法,但效果依旧不够好。
近年来,基于深度计算机神经网络模型的话音激活检测方法取得了很大发展,现有的基于深度计算机神经网络模型的话音激活检测方法尽管对于包含一般环境噪声的语音具有较好的抗干扰效果。
但是在多于一人说话且仅需要识别其中一个说话人的语音的情况下,现有的话音激活检测的方法所能够识别的语音即包含有需要识别的目标说话人的语音,也包含有不应该识别的非目标说话人的语音,对所述包含有非目标说话人语音的语音数据进行后续的语音识别处理,无疑会导致语音识别的偏差和错误。
综上可见,现有的话音激活检测的方法存在无法区分目标说话人的语音和非目标说话人的语音的问题。为解决这一问题,需要判断所述多人说话的情况下,多人说话的语音中是否包含有需要识别的目标说话人的语音,但现有的话音激活检测相关的方法中没有判断多人说话的语音中是否包含有目标说话人语音的方法。
发明内容
本申请提供一种生成目标说话人语音识别计算模型的方法以及提供一种生成目标说话人语音识别计算模型的装置;本申请还提供一种生成话音激活检测分类模型的方法以及一种生成话音激活检测分类模型的装置;本申请还提供一种生成话音声学特征增强模型的方法以及一种生成话音声学特征增强模型的装置;本申请还提供一种评估语音的设定时段中包含目标说话人语音的可能性的方法以及一种评估语音的设定时段中包含目标说话人语音的可能性的装置;本申请还提供一种用于评估语音的设定时段中包含目标说话人语音的可能性的装置;本申请还提供一种分离目标说话人语音的方法;本申请还提供一种用于语音处理的电子设备。
本申请提供的一种生成目标说话人语音识别计算模型的方法,包括以下步骤:
获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据,目标说话人语音的声学特征数据,以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值;
利用样本语音数据训练话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型;
将所述话音激活检测分类模型的输入端连接到所述话音声学特征增强模型的输出端,形成目标说话人语音识别初始化模型;
利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型;
其中目标说话人语音为样本语音中设定时段前的语音。
可选地,所述话音激活检测分类计算机神经网络包括:
长短时间记忆计算机神经网络。
可选地,所述长短时间记忆计算机神经网络包含多于一个隐藏层。
可选地,所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;
所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端为所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出。
可选地,所述长短时间记忆计算机神经网络包括:第一长短时间记忆计算机神经网络和第二长短时间记忆计算机神经网络;
所述第一长短时间记忆计算机神经网络的输出端作为所述长短时间记忆计算机神经网络的输出;
所述第一长短时间记忆计算机神经网络的输出端还作为所述第二长短时间记忆计算机神经网络的部分输入端;
所述第二长短时间记忆计算机神经网络的输出端作为所述第一长短时间记忆计算机神经网络的部分输入端。
可选地,所述声音特征数据包括:声学特征数据。
可选地,所述声音特征数据包括:声学特征数据和声纹特征数据。
本申请提供的一种生成话音激活检测分类模型的方法,所述方法用于评估目标说话人语音,包括以下步骤:
获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值;
利用所述样本语音数据,训练长短时间记忆计算机神经网络,生成话音激活检测分类模型;
其中目标说话人语音为样本语音中设定时段前的语音。
可选地,所述长短时间记忆计算机神经网络包含多于一个隐藏层。
可选地,所述声音特征数据包括:声学特征数据。
可选地,所述声音特征数据包括:声学特征数据和声纹特征数据。
本申请提供的一种生成话音声学特征增强模型的方法,所述方法用于增强目标说话人语音声学特征,包括以下步骤:
获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及目标说话人语音的声学特征数据;
利用所述样本语音数据,训练话音声学特征增强计算机神经网络,生成话音声学特征增强模型;
所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端连接所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出;
其中目标说话人语音为样本语音中设定时段前的语音。
可选地,所述长短时间记忆计算机神经网络包括:第一长短时间记忆计算机神经网络和第二长短时间记忆计算机神经网络;
所述第一长短时间记忆计算机神经网络的输出端作为所述长短时间记忆计算机神经网络的输出;
所述第一长短时间记忆计算机神经网络的输出端还作为所述第二长短时间记忆计算机神经网络的部分输入端;
所述第二长短时间记忆计算机神经网络的输出端作为到所述第一长短时间记忆计算机神经网络的部分输入端。
可选地,所述声音特征数据包括:声学特征数据。
可选地,所述声音特征数据包括:声学特征数据和声纹特征数据。
本申请提供的一种评估语音的设定时段中包含目标说话人语音的可能性的方法,包括以下步骤:
获取待评估语音,所述待评估语音中设定时段前为目标说话人的语音;
生成所述待评估语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络;
将所述待评估语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值。
可选地,所述声音特征数据包括:声学特征数据。
可选地,所述声音特征数据包括:声学特征数据和声纹特征数据。
本申请提供的一种生成目标说话人语音识别计算模型的装置,包括:
获取单元,用于获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据,目标说话人语音的声学特征数据,以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值,其中目标说话人语音为样本语音中设定时段前的语音;
第一生成单元,用于利用样本语音数据训练话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型;
连接单元,用于将所述话音激活检测分类模型的输入端连接到所述话音声学特征增强模型的输出端,形成目标说话人语音识别初始化模型;
计算模型生成单元,用于利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型。
本申请提供的一种生成话音激活检测分类模型的装置,所述装置用于评估目标说话人语音,包括:
获取单元,用于获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值,其中目标说话人语音为样本语音中设定时段前的语音;
生成单元,用于利用所述样本语音数据,训练长短时间记忆计算机神经网络,生成话音激活检测分类模型。
本申请提供的一种生成话音声学特征增强模型的装置,所述装置用于增强目标说话人语音声学特征,包括:
获取单元,用于获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及目标说话人语音的声学特征数据,其中目标说话人语音为样本语音中设定时段前的语音;
生成单元,用于利用所述样本语音数据,训练话音声学特征增强计算机神经网络,生成话音声学特征增强模型;
所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端连接所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出。
本申请提供的一种评估语音的设定时段中包含目标说话人语音的可能性的装置,包括:
获取单元,用于获取待评估语音,所述待评估语音中设定时段前为目标说话人的语音;
生成单元,用于生成所述待评估语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络;
评估单元,用于将所述待评估语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值。
本申请提供的一种用于评估语音的设定时段中包含目标说话人语音的可能性的装置,该装置具有输入端和输出端,包括:话音声学特征增强单元和话音激活检测分类单元;
所述装置的输入端包括所述声学特征增强单元的输入端,所述装置的输出端包括所述话音激活检测分类单元的输出端,所述话音声学特征增强单元的输出连接到所述话音激活检测分类单元的输入端;
将待评估语音的声音特征数据输入到该装置的输入端后,该装置能够在输出端输出所述语音的设定时段中包含有目标说话人语音的可能性的评估值。
本申请提供的一种分离目标说话人语音的方法,包括:
获取待处理语音,所述待处理语音中设定时段前为目标说话人的语音;
生成所述待处理语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络;
将所述待处理语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值;
对于所述评估值大于设定的阈值的情况,从所述待处理语音中将目标说话人语音分离出出来发送至语音识别执行装置。
可选地,应用于车载导航、自动驾驶以及其它需要连续人机交互的场景。
本申请提供的一种用于语音处理的电子设备,包括处理器和存储器,
所述存储器用于存储实现一种分离目标说话人语音的方法的程序,该设备通电并通过所述处理器运行该程序后,执行下述步骤:
获取待处理语音,所述待处理语音中设定时段前为目标说话人的语音;
生成所述待处理语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络;
将所述待处理语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值;
对于所述评估值大于设定的阈值的情况,从所述待处理语音中将目标说话人语音分离出出来发送至语音识别执行装置。
与现有技术相比,本申请提供的一种生成目标说话人语音识别计算模型的方法具有以下优点:能够利用样本语音数据训练包含有话音声学特征增强计算机神经网络,得到目标说话人语音识别计算模型。起到将区分目标说话人和非目标说话人的语音的声学特征的模型包括到所述目标说话人语音识别计算模型的作用。同时,所生成的目标说话人语音识别计算模型能够起到在将语音的声音特征数据输入时,计算并输出所述语音的设定时段包含有目标说话人语音可能性的评估值的作用。
与现有技术相比,本申请提供的一种生成话音激活检测分类模型的方法,具有以下优点:所生成的话音激活检测分类模型能够起到在将语音的声音特征数据输入时,计算并输出所述语音的设定时段包含有目标说话人语音可能性的评估值的作用。
与现有技术相比,本申请提供的一种生成话音声学特征增强模型的方法,具有以下优点:所生成的话音声学特征增强模型能够起到在将包含有目标说话人语音的混合语音的声音特征数据输入时,计算并输出增强了目标说话人的声学特征的混合语音的声学特征数据。
与现有技术相比,本申请提供的一种评估语音的设定时段中包含目标说话人语音的可能性的方法具有以下优点:能够利用具有话音声学特征增强模型的目标说话人语音识别计算模型对待评估语音数据进行处理得到所述待评估语音包含有目标说话人的语音的可能性的评估值。起到为判断待评估语音的设定时段中是否包含有目标说话人的语音提供参考依据的作用,进而能够起到为后续区分目标说话人的语音和非目标说话人的语音提供依据,创造条件的作用。
与现有技术相比本申请提供的一种分离目标说话人语音的方法具有以下优点:能够根据所述待处理语音的设定时段中包含有目标说话人语音的可能性的评估值,从所述待处理语音中将目标说话人语音分离出来,达到节省资源,提高效率的效果。
附图说明
图1为本申请第一实施例一种生成目标说话人语音识别计算模型的方法的流程示意图;
图2为本申请第一实施例一种生成目标说话人语音识别计算模型的方法的话音声学特征增强模型示意图;
图3为本申请第一实施例一种生成目标说话人语音识别计算模型的方法的目标说话人语音识别初始化模型示意图;
图4为本申请第二实施例一种目标说话人语音识别计算模型结构示意图;
图5为本申请第三实施例提供的一种生成话音激活检测分类模型的方法的流程示意图;
图6为本申请第四实施例提供的一种生成话音声学特征增强模型的方法的流程示意图;
图7为本申请第五实施例提供的一种评估语音的设定时段中包含目标说话人语音的可能性的方法的流程示意图;
图8为本申请第六实施例提供的一种生成目标说话人语音识别计算模型的装置的结构框图;
图9为本申请第七实施例提供的一种生成话音激活检测分类模型的装置的结构框图;
图10为本申请第八实施例提供的一种生成话音声学特征增强模型的装置的结构框图;
图11为本申请第九实施例提供的一种评估语音的设定时段中包含目标说话人语音的可能性的装置的结构框图;
图12为本申请第十实施例提供的一种用于评估语音的设定时段中包含目标说话人语音的可能性的装置的结构示意图;
图13为本申请第十一实施例提供的一种分离目标说话人语音的方法的流程示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
为了从包含有多个说话人同时说话的语音中识别出目标说话人的语音,需要评估所述语音中是否包含有目标说话人的语音,本申请第一实施例提供一种生成目标说话人语音识别计算模型的方法,将按照本方法生成的目标说话人语音识别计算模型应用于处理语音数据,能够得到所述语音数据的设定时段中包含有目标说话语音的可能性的评估值。本实施例提供的方法的流程示意图如图1所示,包括以下步骤:
步骤S101,获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据,目标说话人语音的声学特征数据,以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值。
所述样本语音用于训练生成本实施例所述的目标说话人语音识别计算模型。包括多条语音,样本语音条数越多生成的计算模型效果越好。每一条样本语音都可以采用不同说话人的语音合成而成,合成样本语音时,使合成后的每条样本语音中开始一段设定的时长内仅包含有需要被识别的目标说话人的语音而不包含其他说话人的语音;所述设定的时长之后,既可以包含目标说话人的语音,也可以不包含目标说话人的语音。
每条样本语音的设定时长之后的语音即为设定时段的语音。目标说话人的语音包含在每条样本语音的设定时段之前。
所述设定的时长可以根据应用本实施例所述的计算模型时的应用场景来以及所述样本语音训练本实施例所述的目标说话人语音识别计算模型时的效果进行设定和调整,例如,对于应用时在需要评估的语音开始后的前1秒钟到2秒钟内仅包含有目标说话人语音的情况,可以设定所述时长为1-2秒钟,如1.5秒。
所述样本语音的声音特征数据可以是每条样本语音的某一种声学特征数据,如filterbank数据、MFCC数据或PLP数据等;所述样本语音的声音特征数据也可以同时包括每条样本语音的一种声学特征数据和一种声纹特征数据,所述声纹特征数据包括i-vector数据或说话人分类DNN深瓶颈特征数据等。除了对声学特征数据进行处理外,还对声纹特征数据进行处理能够使得生成的计算模型效果更好,性能更优。
所述目标说话人语音的声学特征数据是指每条样本语音开始部分(设定时段之前)所包含的目标说话人的语音的声学特征数据,由于样本语音采用目标说话人的语音和其他说话人的语音合成而成,所以可以单独对每条样本语音所包含的目标说话人的语音进行处理得到每条样本语音所对应的其所包含的目标说话人的语音的声学特征数据。
与样本语音的声学特征数据类似,目标说话人的声学特征数据为一种声学特征数据,且为采用生成样本语音的声学特征数据同样的方法生成的同样的声学特征数据。例如,样本语音的声学特征数据为MFCC数据,则其所对应的目标说话人的语音的声学特征数据也为MFCC数据。
所述目标说话人的声学特征数据用于训练生成所述计算模型时用作期望值,除了需要将目标说话人的语音的声学特征数据作为期望值外,还需要将样本语音的设定时段中包含有目标说话人的语音的判断值作为训练生成所述计算模型时的期望值,如将一条样本语音的设定时段中包含有目标说话人语音的判断值设定为100%,将一条样本语音的设定时段中不包含有目标说话人语音的逻辑判断值设定为0%作为训练用的期望值。同样由于样本语音为合成的语音,所以能够得到每条样本语音所对应的其设定时段中包含有目标说话人语音的判断值。
步骤S102,利用样本语音数据训练话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型
本步骤所述话音激活检测分类计算机神经网络可以为任何结构的计算机神经网络,本实施例优选采用长短时间记忆计算机神经网络(Long-Short Term Memory,简称LSTM),长短时间记忆计算机神经网络是一种被广泛应用的循环神经网络(RNN)的一种,与传统深度计算机神经网络(DNN)的主要区别就是它具有记忆性,通过将以前的输入历史和当前输入映射到当前的输出来获取对序列数据建模的能力。
为了生成评估效果更好的计算模型,可以设置话音激活检测分类计算机神经网络所包括的所述长短时间记忆计算机神经网络的隐藏层多于一个,如将包含有一个输入层,一个输出层和两个隐藏层的长短时间记忆计算机神经网络作为所述话音激活检测分类计算机神经网络。
所述话音激活检测分类计算机神经网络的输入层的端口数量根据其所要处理的语音数据的实际情况来确定,如对于对语音的声学特征数据输入时,根据所述声学特征数据的向量的维度来确定,如所述声学特征数据为一个20×1的向量,则将所述话音激活检测分类计算机神经网络的输入层的端口数量设置为20。对于对语音的声学特征数据和声纹特征数据进行处理的情况,如果语音的声学特征向量和声纹特征向量都是20×1的,则可以设置所述话音激活检测分类计算机神经网络的输入层的端口数量为20+20=40。
所述话音激活检测分类计算机神经网络内部各层之间的连接关系和各个节点之间的连接关系可以按照需要进行设置,本实施例中可以对任意内部连接关系的长短时间记忆计算机神经网络进行训练。
具体训练所述话音激活检测分类计算机神经网络方法为,初始化所述话音激活检测分类计算机神经网络的各个参数,将样本语音数据中的每条样本语音的声音特征数据作为所述话音激活检测分类计算机神经网络的输入值,将每条样本语音的设定时段中包含目标说话人语音的判断值作为所述话音激活检测分类计算机神经网络的输出期望值,根据所述话音激活检测分类计算机神经网络实际输出值与期望输出值的误差关系,按照预先设定的规则不断调整所述话音激活检测分类计算机神经网络的各个参数,直至所述误差收敛,将误差收敛的情况下相应的参数的话音激活检测分类计算机神经网络作为话音激活检测分类模型。
本步骤所述话音声学特征增强计算机神经网络包括长短时间记忆计算机神经网络(LSTM)和深度计算机神经网络(DNN)。所述长短时间记忆计算机神经网络的输出端口连接到所述深度计算机神经网络的输入端口(即所述长短时间记忆计算机神经网络的输出层作为所述深度计算机神经网络的输入层),所述长短时间记忆计算机神经网络的输入端(即输入层)为所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端(即输出层)作为所述话音声学特征增强计算机神经网络的输出。
所述话音声学特征增强计算机神经网络中的长短时间记忆计算机神经网络将以前的输入历史和当前输入映射到当前的输出来获取对序列数据建模的能力,能够使得模型的效果更好,准确率更高。
与话音激活检测分类计算机神经网络中的长短时间记忆计算机神经网络类似,所述话音声学特征增强计算机神经网络中的长短时间记忆计算机神经网络可以采用任何内部连接形式的网络,其隐藏层的数量也可以根据实际所处理的语音数据的复杂程度进行设置,例如,所述话音声学特征增强计算机神经网络中的长短时间记忆计算机神经网络可以包含有一个输入层,一个输出层和两个隐藏层。
所述话音声学特征增强计算机神经网络中的输入端口数量也要根据其所处理的语音的数据向量的维度来确定,如,对于处理20×1的声学特征向量的情况,其输入端设置为20个,对于处理20×1的声学特征向量和20×1的声纹特征向量的情况,其输入端设置为40个。
所述话音声学特征增强计算机神经网络中的输入端口数量应设置为能够包含语音的声学特征数据的向量的维度。即,对于其所处理的语音的声学特征数据为20×1的向量的情况,可以设置其输出端口的数量为20。
与所述深度计算机神经网络的输入端相连接的所述长短时间记忆计算机神经网络的输出端的端口数量可以根据所需要处理的语音的效果来确定,例如可以设置为和其声学特征数据的向量的维度相一致,如声学特征数据为20×1的向量的情况,可以设置所述深度计算机神经网络的输入端的端口和所述长短时间记忆计算机神经网络的输出端的端口的数量均为20。
为了获得更好的效果,所述话音声学特征增强计算机神经网络中的长短时间记忆计算机神经网络可以包含两个长短时间记忆计算机神经网络:第一长短时间记忆计算机神经网络(LSTM1)和第二长短时间记忆计算机神经网络(LSTM2)。此方式下,所述话音声学特征增强计算机神经网络的结构示意图如图2所示。
其中第一长短时间记忆计算机神经网络的输出端作为所述第二长短时间记忆计算机神经网络的部分输入端(即将第一长短时间记忆计算机神经网络的输出层节点作为第二长短时间记忆计算机神经网络的输入层部分节点),第二长短时间记忆计算机神经网络的输出端作为所述第一长短时间记忆计算机神经网络的部分输入端(即将第二长短时间记忆计算机神经网络的输出层节点作为第一长短时间记忆计算机神经网络的输入层部分节点)。第一长短时间记忆计算机神经网络的输出端(即输出层)同时还作为所述长短时间记忆计算机神经网络的输出,同时作为所述话音声学特征增强计算机神经网络中的深度计算机神经网络的输入端(输入层节点),第一长短时间记忆计算机神经网络的其余输入端(输入层的节点)与第二长短时间记忆计算机神经网络的其余输入端(输入层的节点)为所述长短时间记忆计算机神经网络的输入。且每个长短时间记忆计算机神经网络的输入层其余节点都能够将语音的声音特征数据作为输入。
利用样本语音数据训练所述话音声学特征增强计算机神经网络的方法如下:初始化所述话音声学特征增强计算机神经网络的各个参数,将样本语音数据中每条样本语音的声音特征数据作为所述话音激活检测分类计算机神经网络的输入值,将所述每条样本语音对应的目标说话人语音的声学特征数据作为所述话音声学特征增强计算机神经网络的期望输出值,根据所述话音声学特征增强计算机神经网络实际输出值与所述期望输出值的误差的关系,按照预先设定的规则不断调整所述话音激活检测分类计算机神经网络的各个参数,直至所述误差收敛,将误差收敛的情况下相应的参数的话音声学特征增强计算机神经网络作为话音声学特征增强模型。
至此得到参数确定的话音激活检测分类模型和话音声学特征增强模型。
步骤S103,将所述话音激活检测分类模型的输入端连接到所述话音声学特征增强模型的输出端,形成目标说话人语音识别初始化模型。
形成的目标说话人语音识别初始化模型的结构示意图如图3所示,
对于利用样本语音数据中的样本语音的声学特征数据和声纹特征数据生成模型的情况,可以将所述话音声学特征增强模型的输出端作为生成所述话音激活检测分类模型时输入样本语音数据的声学特征数据的输入端的端口。将所述话音激活检测分类模型的输入端的其余端口作为输入声纹特征数据之用。所述话音声学特征增强模型的输入端作为输入声学特征数据和声纹特征数据之用,所述话音声学特征增强模型的输入端和所述话音激活检测分类模型的其余输入端一起作为所述目标说话人语音识别初始化模型的输入端,用以将声音特征数据作为输入。
对于仅仅利用声学特征数据的情况,则仅需要将所述话音声学特征增强模型的输出端作为所述话音激活检测分类模型的输入端。所述话音声学特征增强模型的输入端为所述目标说话人语音识别初始化模型的输入端,用以将声音特征数据(声学特征数据)作为输入。
所述目标说话人语音识别初始化模型的输出端为所述话音激活检测分类模型的输出端。
所述形成的目标说话人语音识别初始化模型的各个参数为前一步骤中所确定的话音激活检测分类模型和话音声学特征增强模型的各个参数
步骤S104,利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型。
具体训练的方法为:将样本语音数据中的每条样本语音的声音特征数据作为所述目标说话人语音识别初始化模型的输入值,将所述每条样本语音的设定时段中包含目标说话人语音的判断值作为所述话音激活检测分类计算机神经网络的输出期望值,根据所述目标说话人语音识别初始化模型实际输出值与输出处期望值的误差关系,按照预先设定的规则不断调整所述目标说话人语音识别初始化模型的各个参数,直至所述误差收敛,将误差收敛的情况下相应的参数的目标说话人语音识别初始化模型作为目标说话人语音识别计算模型。
所述经过样本语音数据训练,确定了参数的目标说话人语音识别计算模型能够用于评估语音的设定时段中包含目标说话人语音可能性。
以上为本申请的一种生成目标说话人语音识别计算模型的方法的实施例,该方法能够利用样本语音数据训练包含有话音声学特征增强计算机神经网络,得到目标说话人语音识别计算模型。起到将区分目标说话人和非目标说话人的语音的声学特征的模型包括到所述目标说话人语音识别计算模型的作用。同时,所生成的目标说话人语音识别计算模型能够起到在将语音的声音特征数据输入时,计算并输出所述语音的设定时段中包含有目标说话人语音可能性的评估值的作用。
本申请的第二实施例提供按照本申请提供的生成目标说话人语音识别计算模型的方法生成的一种目标说话人语音识别计算模型。其结构框图如图4所示,该目标说话人语音识别计算模型包括:由长短时间记忆计算机神经网络(LSTM)形成的话音激活检测分类模型和由第一长短时间记忆计算机神经网络(LSTM1),第二长短时间记忆计算机神经网络(LSTM2)和深度计算机神经网络(DNN)组成的话音声学特征增强模型。
所述目标说话人语音识别计算模型具有输入端和输出端,所述目标说话人语音识别计算模型的输入端包括第一长短时间记忆计算机神经网络(LSTM1)的输入层部分节点,第二长短时间记忆计算机神经网络(LSTM2)的输入层部分节点和深度计算机神经网络(DNN)的输入层的部分节点。
所述目标说话人语音识别计算模型的输出端包括由长短时间记忆计算机神经网络(LSTM)的输出层的节点。
所述第一长短时间记忆计算机神经网络(LSTM1)的输出层节点除了作为所述深度计算机神经网络(DNN)的输入层节点外,还同时作为所述第二长短时间记忆计算机神经网络(LSTM2)的输入层部分节点;所述第二长短时间记忆计算机神经网络(LSTM2)的输出层节点作为所述第一长短时间记忆计算机神经网络(LSTM1)的输入层的部分节点。
该目标说话人语音识别计算模型能够在输入端接收待评估语音的声音特征数据,所述声音特征数据为与生成所述目标说话人语音识别计算模型时训练所用的样本语音的声音特征数据同样的声音特征数据。如生成所述目标说话人语音识别计算模型时用到的样本语音的声音特征数据为MFCC数据,则所述目标说话人语音识别计算模型的输入端接收的应该是待评估语音的MFCC数据。
所述目标说话人语音识别计算模型能够对所述输入的待评估语音的声音特征数据进行处理并在输出端输出所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值。
本申请第三实施例提供一种生成话音激活检测分类模型的方法,其流程示意图如图5所示,包括以下步骤:
步骤S301,获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值。
所述声音特征数据包括声学特征数据或包括声学特征数据和声纹特征数据。
更加详细的说明可以参考本申请第一实施例中相关的描述,在此不做赘述。
步骤S302,利用所述样本语音数据,训练长短时间记忆计算机神经网络,生成话音激活检测分类模型。
训练并生成话音激活检测分类模型的具体方式可以参考本申请第一实施例中相关的描述,在此不做赘述。
按照本实施例提供的方法生成的话音激活检测分类模型能够在接收端接收待评估语音的声音特征数据,对所述声音特征数据进行处理,在输出端输出所述待评估语音的设定时段中包含目标说话人语音的可能性的评估值。为后续语音处理创造条件。
本申请第四实施例提供一种生成话音声学特征增强模型的方法,其流程示意图如图6所示,包括以下步骤:
步骤S401,获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及目标说话人语音的声学特征数据。
所述声音特征数据包括声学特征数据或包括声学特征数据和声纹特征数据。
更加详细的说明可以参考本申请第一实施例中相关的描述,在此不做赘述。
步骤S402,利用所述样本语音数据,训练话音声学特征增强计算机神经网络,生成话音声学特征增强模型。
所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端连接所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出。
为了取得更好的效果,所述话音声学特征增强计算机神经网络中的的长短时间记忆计算机神经网络可以包括:第一长短时间记忆计算机神经网络和第二长短时间记忆计算机神经网络。
所述第一长短时间记忆计算机神经网络的输出端作为所述长短时间记忆计算机神经网络的输出;所述第一长短时间记忆计算机神经网络的输出端还作为所述第二长短时间记忆计算机神经网络的部分输入端;所述第二长短时间记忆计算机神经网络的输出端作为所述第一长短时间记忆计算机神经网络的部分输入端。
训练并生成话音声学特征增强模型的具体方式可以参考本申请第一实施例中相关的描述,在此不做赘述。
本申请第5实施例提供一种评估语音的设定时段中包含目标说话人语音的可能性的方法,其流程示意图如图7所示,包括以下步骤:
步骤S501,获取待评估语音。
所述待评估语音的开始设定的时长内仅包含有目标说话人的语音,不包含有其他说话人的语音,所述时长应该与生成目标说话人语音识别计算模型时所用的样本语音包含有目标说话人语音的时长相对应。具体的说明可以参考本申请第一实施例中的相关描述。
步骤S502,生成所述待评估语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成。
所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型。所述目标说话人语音识别计算模型为利用包含有所述样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络。
所述目标说话人语音识别计算模型可以按照本申请提供的一种生成目标说话人语音识别计算模型的方法生成。
所述采用与生成样本语音的声音特征数据相同的方式生成是指按照与处理样本语音相同的处理方式处理所述待评估语音,得到与样本语音的声音特征数据类型相同的待评估语音的声音特征数据。
例如,当生成目标说话人语音识别计算模型时所用样本语音的声音特征数据为声学特征数据的MFCC数据时,本步骤中对待评估语音进行相应的处理生成所述待评估语音的MFCC数据。
所述声音特征数据可以仅包括声学特征数据,也可以包括声学特征数据和声纹特征数据。具体的说明可以参考本申请第一实施例中的相关描述,在此不作赘述。
步骤S503将所述待评估语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值。
将待评估语音的声音特征数据输入到所述目标说话人语音识别计算模型的相应输入端,如,对于仅仅采用声学特征数据作为输入的情况,将所述待评估语音的声学特征数据输入到所述目标说话人语音识别计算模型中话音声学特征增强模型的输入端;对于采用声学特征数据和声纹特征数据作为输入的情况,除了将所述待评估语音的声学特征数据输入到所述目标说话人语音识别计算模型中话音声学特征增强模型的输入端外,还要将所述待评估语音的声纹特征数据输入到所述目标说话人语音识别计算模型中话音声学特征增强模型的输入端和所述目标说话人语音识别计算模型中话音激活检测分类模型的输入端。
根据生成所述目标说话人语音识别计算模型时的规则,经过所述目标说话人语音识别计算模型的处理得到的评估值可以为0至100%的数值,代表所述待评估语音的设定时段中包含有目标说话人语音的可能性的大小。所述评估值能够为后续语音处理提供必要的信息,便于对语音做进一步处理。
本申请第六实施例提供一种生成目标说话人语音识别计算模型的装置,其结构框图如图8所示,包括:获取单元U601,第一生成单元U602,连接单元U603和计算模型生成单元U604。
所述获取单元U601,用于获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据,目标说话人语音的声学特征数据,以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值,其中目标说话人语音为样本语音中设定时段前的语音。
所述第一生成单元U602,用于利用样本语音数据训练话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型。
所述连接单元U603,用于将所述话音激活检测分类模型的输入端连接到所述话音声学特征增强模型的输出端,形成目标说话人语音识别初始化模型。
所述计算模型生成单元U604,用于利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型。
本申请第七实施例提供一种生成话音激活检测分类模型的装置,所述装置用于评估目标说话人语音,其结构框图如图9所示,包括:获取单元U701和生成单元U702。
所述获取单元U701,用于获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值,其中目标说话人语音为样本语音中设定时段前的语音。
所述生成单元U702,用于利用所述样本语音数据,训练长短时间记忆计算机神经网络,生成话音激活检测分类模型。
本申请第八实施例提供一种生成话音声学特征增强模型的装置,所述装置用于增强目标说话人语音声学特征,其结构框图如图10所示,包括:获取单元U801和生成单元U802。
所述获取单元U801,用于获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及目标说话人语音的声学特征数据,其中目标说话人语音为样本语音中设定时段前的语音。
所述生成单元U802,用于利用所述样本语音数据,训练话音声学特征增强计算机神经网络,生成话音声学特征增强模型;
所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端连接所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出。
本申请第九实施例提供一种评估语音的设定时段中包含目标说话人语音的可能性的装置,其结构框图如图11所示,包括:获取单元U901,生成单元U902和评估单元U903。
所述获取单元U901,用于获取待评估语音,所述待评估语音中设定时段前为目标说话人的语音。
所述生成单元U902,用于生成所述待评估语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络。
所述评估单元U903,用于将所述待评估语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值。
本申请第10实施例提供一种用于评估语音的设定时段中包含目标说话人语音的可能性的装置,该装置结构示意图如图12所示,该装置具有输入端和输出端,包括:话音声学特征增强单元和话音激活检测分类单元。
所述装置的输入端包括所述声学特征增强单元的输入端,所述装置的输出端包括所述话音激活检测分类单元的输出端,所述话音声学特征增强单元的输出连接到所述话音激活检测分类单元的输入端。
将待评估语音的声音特征数据输入到该装置的输入端后,该装置能够在输出端输出所述语音的设定时段中包含有目标说话人语音的可能性的评估值。
本申请第十一实施例提供一种分离目标说话人语音的方法,其流程示意图如图13所示,包括以下步骤:
步骤S1101,获取待处理语音,所述待处理语音中设定时段前为目标说话人的语音。
一些业务场景中需要将特定说话人语音从有其他说话人语音中分离出来,如车载导航系统接受语音指令进行导航时,需要将驾驶员的语音从车内多人说话的环境中分离出来才能正确执行导航指令。
此场景下的车内语音中驾驶员即为目标说话人。
需要进行语音指挥导航时,驾驶员会使用特定的语音指令启动语音指挥导的功能,也即车内语音的开始设定时长内为驾驶员的特定的语音指令,也即目标说话人的语音。所述设定的时长之后,车内其他人员的语音也有可能与驾驶员的语音混合在一起被录制为待处理语音。所述设定时长之后的语音即为设定时段的语音。
本步骤获取所述待处理语音。
步骤S1102,生成所述待处理语音的声音特征数据。
所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成。所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络。
与本申请第五实施例中生成待评估语音的声音特征数据类似,本步骤对待处理语音进行处理得到声音特征数据。详细的说明可以参考本申请第五实施例中的相关描述,在此不做赘述。
步骤S1103,将所述待处理语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待处理语音的设定时段中包含有目标说话人语音的可能性的评估值。
与本申请第五实施例中得到待评估语音的设定时段中包含有目标说话人语音的可能性的评估值类似,本步骤得到所述待处理语音的设定时段中包含有目标说话人语音的可能性的评估值。详细的说明可以参考本申请第五实施例中的相关描述,在此不做赘述。
步骤S1104,对于所述评估值大于设定的阈值的情况,从所述待处理语音中将目标说话人语音分离出出来发送至语音识别执行装置。
获得了所述待处理语音的设定时段中包含有目标说话人(驾驶员)语音的评估值后,可以根据所述评估值进行后续的处理。
例如,对于事先设定的阈值,当所述评估值大于所述阈值时,认为所述待处理语音中包含有驾驶员的语音,则将驾驶员的语音从所述待处理语音中分离出来送至语音识别执行装置做进一步分析,以便与执行,如执行驾驶员的语音指令。否则,则无需对待处理语音做进一步处理,从而节省了资源,提高了效率。
除了应用于车载导航场景,本方法还可以应用于其它需要连续人机交互的场景,如自动驾驶。
本申请第十二实施例提供或一种用于语音处理的电子设备,包括处理器和存储器,
所述存储器用于存储实现一种分离目标说话人语音的方法的程序,该设备通电并通过所述处理器运行该程序后,执行下述步骤:
步骤一,获取待处理语音,所述待处理语音中设定时段前为目标说话人的语音;
步骤二,生成所述待处理语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络。
步骤三,将所述待处理语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值。
步骤四,对于所述评估值大于设定的阈值的情况,从所述待处理语音中将目标说话人语音分离出出来发送至语音识别执行装置。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (26)

1.一种生成目标说话人语音识别计算模型的方法,特征在于,包括以下步骤:
获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据,目标说话人语音的声学特征数据,以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值;
利用样本语音数据训练话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型;
将所述话音激活检测分类模型的输入端连接到所述话音声学特征增强模型的输出端,形成目标说话人语音识别初始化模型;
利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型;
其中目标说话人语音为样本语音中设定时段前的语音。
2.根据权利要求1所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述话音激活检测分类计算机神经网络包括:
长短时间记忆计算机神经网络。
3.根据权利要求2所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述长短时间记忆计算机神经网络包含多于一个隐藏层。
4.根据权利要求1所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;
所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端为所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出。
5.根据权利要求4所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述长短时间记忆计算机神经网络包括:第一长短时间记忆计算机神经网络和第二长短时间记忆计算机神经网络;
所述第一长短时间记忆计算机神经网络的输出端作为所述长短时间记忆计算机神经网络的输出;
所述第一长短时间记忆计算机神经网络的输出端还作为所述第二长短时间记忆计算机神经网络的部分输入端;
所述第二长短时间记忆计算机神经网络的输出端作为所述第一长短时间记忆计算机神经网络的部分输入端。
6.根据权利要求1所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述声音特征数据包括:声学特征数据。
7.根据权利要求1所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述声音特征数据包括:声学特征数据和声纹特征数据。
8.一种生成话音激活检测分类模型的方法,所述方法用于评估目标说话人语音,特征在于,包括以下步骤:
获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值;
利用所述样本语音数据,训练长短时间记忆计算机神经网络,生成话音激活检测分类模型;
其中目标说话人语音为样本语音中设定时段前的语音。
9.根据权利要求8所述的生成话音激活检测分类模型的方法,其特征在于,所述长短时间记忆计算机神经网络包含多于一个隐藏层。
10.根据权利要求8所述的生成话音激活检测分类模型的方法,其特征在于,所述声音特征数据包括:声学特征数据。
11.根据权利要求8所述的生成话音激活检测分类模型的方法,其特征在于,所述声音特征数据包括:声学特征数据和声纹特征数据。
12.一种生成话音声学特征增强模型的方法,所述方法用于增强目标说话人语音声学特征,特征在于,包括以下步骤:
获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及目标说话人语音的声学特征数据;
利用所述样本语音数据,训练话音声学特征增强计算机神经网络,生成话音声学特征增强模型;
所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端连接所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出;
其中目标说话人语音为样本语音中设定时段前的语音。
13.根据权利要求12所述的生成话音声学特征增强模型的方法,特征在于,所述长短时间记忆计算机神经网络包括:第一长短时间记忆计算机神经网络和第二长短时间记忆计算机神经网络;
所述第一长短时间记忆计算机神经网络的输出端作为所述长短时间记忆计算机神经网络的输出;
所述第一长短时间记忆计算机神经网络的输出端还作为所述第二长短时间记忆计算机神经网络的部分输入端;
所述第二长短时间记忆计算机神经网络的输出端作为到所述第一长短时间记忆计算机神经网络的部分输入端。
14.根据权利要求12所述的生成话音声学特征增强模型的方法,其特征在于,所述声音特征数据包括:声学特征数据。
15.根据权利要求12所述的生成话音声学特征增强模型的方法,其特征在于,所述声音特征数据包括:声学特征数据和声纹特征数据。
16.一种评估语音的设定时段中包含目标说话人语音的可能性的方法,特征在于,包括以下步骤:
获取待评估语音,所述待评估语音中设定时段前为目标说话人的语音;
生成所述待评估语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络;
将所述待评估语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值。
17.根据权利要求16所述的评估语音中包含目标说话人语音的可能性的方法,其特征在于,所述声音特征数据包括:声学特征数据。
18.根据权利要求16所述的评估语音中包含目标说话人语音的可能性的方法,其特征在于,所述声音特征数据包括:声学特征数据和声纹特征数据。
19.一种生成目标说话人语音识别计算模型的装置,特征在于,包括:
获取单元,用于获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据,目标说话人语音的声学特征数据,以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值,其中目标说话人语音为样本语音中设定时段前的语音;
第一生成单元,用于利用样本语音数据训练话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型;
连接单元,用于将所述话音激活检测分类模型的输入端连接到所述话音声学特征增强模型的输出端,形成目标说话人语音识别初始化模型;
计算模型生成单元,用于利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型。
20.一种生成话音激活检测分类模型的装置,所述装置用于评估目标说话人语音,特征在于,包括:
获取单元,用于获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值,其中目标说话人语音为样本语音中设定时段前的语音;
生成单元,用于利用所述样本语音数据,训练长短时间记忆计算机神经网络,生成话音激活检测分类模型。
21.一种生成话音声学特征增强模型的装置,所述装置用于增强目标说话人语音声学特征,特征在于,包括:
获取单元,用于获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及目标说话人语音的声学特征数据,其中目标说话人语音为样本语音中设定时段前的语音;
生成单元,用于利用所述样本语音数据,训练话音声学特征增强计算机神经网络,生成话音声学特征增强模型;
所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端连接所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出。
22.一种评估语音的设定时段中包含目标说话人语音的可能性的装置,特征在于,包括:
获取单元,用于获取待评估语音,所述待评估语音中设定时段前为目标说话人的语音;
生成单元,用于生成所述待评估语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络;
评估单元,用于将所述待评估语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值。
23.一种用于评估语音的设定时段中包含目标说话人语音的可能性的装置,该装置具有输入端和输出端,特征在于,包括:话音声学特征增强单元和话音激活检测分类单元;
所述装置的输入端包括所述声学特征增强单元的输入端,所述装置的输出端包括所述话音激活检测分类单元的输出端,所述话音声学特征增强单元的输出连接到所述话音激活检测分类单元的输入端;
将待评估语音的声音特征数据输入到该装置的输入端后,该装置能够在输出端输出所述语音的设定时段中包含有目标说话人语音的可能性的评估值。
24.一种分离目标说话人语音的方法,特征在于,包括:
获取待处理语音,所述待处理语音中设定时段前为目标说话人的语音;
生成所述待处理语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络;
将所述待处理语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值;
对于所述评估值大于设定的阈值的情况,从所述待处理语音中将目标说话人语音分离出出来发送至语音识别执行装置。
25.根据权利要求24所述的分离目标说话人语音的方法,特征在于,应用于车载导航、自动驾驶以及其它需要连续人机交互的场景。
26.一种用于语音处理的电子设备,其特征在于,包括处理器和存储器,
所述存储器用于存储实现一种分离目标说话人语音的方法的程序,该设备通电并通过所述处理器运行该程序后,执行下述步骤:
获取待处理语音,所述待处理语音中设定时段前为目标说话人的语音;
生成所述待处理语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络;
将所述待处理语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值;
对于所述评估值大于设定的阈值的情况,从所述待处理语音中将目标说话人语音分离出出来发送至语音识别执行装置。
CN201710025703.3A 2017-01-13 2017-01-13 生成目标说话人语音识别计算模型的方法和装置 Pending CN108320732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710025703.3A CN108320732A (zh) 2017-01-13 2017-01-13 生成目标说话人语音识别计算模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710025703.3A CN108320732A (zh) 2017-01-13 2017-01-13 生成目标说话人语音识别计算模型的方法和装置

Publications (1)

Publication Number Publication Date
CN108320732A true CN108320732A (zh) 2018-07-24

Family

ID=62890977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710025703.3A Pending CN108320732A (zh) 2017-01-13 2017-01-13 生成目标说话人语音识别计算模型的方法和装置

Country Status (1)

Country Link
CN (1) CN108320732A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086387A (zh) * 2018-07-26 2018-12-25 上海慧子视听科技有限公司 一种音频流评分方法、装置、设备及存储介质
CN109448852A (zh) * 2018-11-29 2019-03-08 平安科技(深圳)有限公司 基于预测模型的健康管理方法、装置和计算机设备
CN110136749A (zh) * 2019-06-14 2019-08-16 苏州思必驰信息科技有限公司 说话人相关的端到端语音端点检测方法和装置
CN110289010A (zh) * 2019-06-17 2019-09-27 百度在线网络技术(北京)有限公司 一种声音采集的方法、装置、设备和计算机存储介质
CN111462759A (zh) * 2020-04-01 2020-07-28 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质
CN111583916A (zh) * 2020-05-19 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
WO2020258661A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN112262431A (zh) * 2018-09-25 2021-01-22 谷歌有限责任公司 使用说话者嵌入和所训练的生成模型的说话者日志
CN113571054A (zh) * 2020-04-28 2021-10-29 中国移动通信集团浙江有限公司 语音识别信号预处理方法、装置、设备及计算机存储介质
CN113593529A (zh) * 2021-07-09 2021-11-02 北京字跳网络技术有限公司 说话人分离算法的评估方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
US20160284347A1 (en) * 2015-03-27 2016-09-29 Google Inc. Processing audio waveforms
CN106250707A (zh) * 2016-08-12 2016-12-21 王双坤 一种基于深度学习算法处理头部结构像数据的方法
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
US20160284347A1 (en) * 2015-03-27 2016-09-29 Google Inc. Processing audio waveforms
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN106250707A (zh) * 2016-08-12 2016-12-21 王双坤 一种基于深度学习算法处理头部结构像数据的方法
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086387A (zh) * 2018-07-26 2018-12-25 上海慧子视听科技有限公司 一种音频流评分方法、装置、设备及存储介质
CN112262431A (zh) * 2018-09-25 2021-01-22 谷歌有限责任公司 使用说话者嵌入和所训练的生成模型的说话者日志
CN109448852A (zh) * 2018-11-29 2019-03-08 平安科技(深圳)有限公司 基于预测模型的健康管理方法、装置和计算机设备
CN110136749A (zh) * 2019-06-14 2019-08-16 苏州思必驰信息科技有限公司 说话人相关的端到端语音端点检测方法和装置
CN110289010B (zh) * 2019-06-17 2020-10-30 百度在线网络技术(北京)有限公司 一种声音采集的方法、装置、设备和计算机存储介质
CN110289010A (zh) * 2019-06-17 2019-09-27 百度在线网络技术(北京)有限公司 一种声音采集的方法、装置、设备和计算机存储介质
US11295724B2 (en) 2019-06-17 2022-04-05 Baidu Online Network Technology (Beijing) Co., Ltd. Sound-collecting method, device and computer storage medium
WO2020258661A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN111462759A (zh) * 2020-04-01 2020-07-28 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质
CN111462759B (zh) * 2020-04-01 2024-02-13 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质
CN113571054A (zh) * 2020-04-28 2021-10-29 中国移动通信集团浙江有限公司 语音识别信号预处理方法、装置、设备及计算机存储介质
CN113571054B (zh) * 2020-04-28 2023-08-15 中国移动通信集团浙江有限公司 语音识别信号预处理方法、装置、设备及计算机存储介质
CN111583916A (zh) * 2020-05-19 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN113593529A (zh) * 2021-07-09 2021-11-02 北京字跳网络技术有限公司 说话人分离算法的评估方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108320732A (zh) 生成目标说话人语音识别计算模型的方法和装置
US11545147B2 (en) Utterance classifier
US10726830B1 (en) Deep multi-channel acoustic modeling
EP3573049B1 (en) Training of acoustic models for far-field vocalization processing systems
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
US20170358306A1 (en) Neural network-based voiceprint information extraction method and apparatus
Chai et al. A cross-entropy-guided measure (CEGM) for assessing speech recognition performance and optimizing DNN-based speech enhancement
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
CN108417201B (zh) 单信道多说话人身份识别方法及系统
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN108766418A (zh) 语音端点识别方法、装置及设备
US11574637B1 (en) Spoken language understanding models
CN105161092B (zh) 一种语音识别方法和装置
CN103811009A (zh) 一种基于语音分析的智能电话客服系统
JP6440967B2 (ja) 文末記号推定装置、この方法及びプログラム
CN108986798B (zh) 语音数据的处理方法、装置及设备
US11393473B1 (en) Device arbitration using audio characteristics
CN110600013B (zh) 非平行语料声音转换数据增强模型训练方法及装置
CN110299142A (zh) 一种基于网络融合的声纹识别方法及装置
CN114333865B (zh) 一种模型训练以及音色转换方法、装置、设备及介质
Aryal et al. Articulatory-based conversion of foreign accents with deep neural networks
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Li et al. Oriental language recognition (OLR) 2020: Summary and analysis
Liu et al. Using bidirectional associative memories for joint spectral envelope modeling in voice conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180724

RJ01 Rejection of invention patent application after publication