CN111540367A - 语音特征提取方法、装置、电子设备和存储介质 - Google Patents

语音特征提取方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111540367A
CN111540367A CN202010307618.8A CN202010307618A CN111540367A CN 111540367 A CN111540367 A CN 111540367A CN 202010307618 A CN202010307618 A CN 202010307618A CN 111540367 A CN111540367 A CN 111540367A
Authority
CN
China
Prior art keywords
voice
voice data
sample
speech
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010307618.8A
Other languages
English (en)
Other versions
CN111540367B (zh
Inventor
杨帆
方磊
方四安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Ustc Iflytek Co ltd
Original Assignee
Hefei Ustc Iflytek Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Ustc Iflytek Co ltd filed Critical Hefei Ustc Iflytek Co ltd
Priority to CN202010307618.8A priority Critical patent/CN111540367B/zh
Publication of CN111540367A publication Critical patent/CN111540367A/zh
Application granted granted Critical
Publication of CN111540367B publication Critical patent/CN111540367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种语音特征提取方法、装置、电子设备和存储介质,其中方法包括:确定语音数据;将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。本发明实施例提供的方法、装置、电子设备和存储介质,对语音数据进行编码即可实现针对语音数据的隐层特征的深度挖掘和表达,对隐层特征进行非线性空间映射即可优化语音特征对于语音数据的拟合效果,且节省了大量计算,避免了由于人为降维带来的高维特征损失。

Description

语音特征提取方法、装置、电子设备和存储介质
技术领域
本发明涉及智能语音技术领域,尤其涉及一种语音特征提取方法、装置、电子设备和存储介质。
背景技术
智能语音技术作为人工智能重要的组成部分,其应用通过标注大量的有监督数据,重新训练语音模型或者在原始语音模型上进行优化,其过程会消耗大量的人力和时间成本。特别地,在一些特殊行业,受限于行业的机密性,无法利用互联网平台进行大规模的标注工作。因此,无监督的语音特征提取方法应用而生。
目前无监督的语音特征提取方法主要包括主成分分析方法和基于混合高斯模型的方法两种,上述两种方法的设置前提均是语音数据服从高斯分布,且在执行过程中仅需要进行人为降维,然而语音数据不一定符合高斯分布,且人为降维会无可避免地导致高维特征的损失,这些都导致语音特征的无监督提取偏离真实情况,影响后续语音识别、说话人识别、语种识别等应用的可靠性和准确性。
发明内容
本发明实施例提供一种语音特征提取方法、装置、电子设备和存储介质,用以解决现有的无监督语音特征提取的准确性和可靠性低的问题。
第一方面,本发明实施例提供一种语音特征提取方法,包括:
确定语音数据;
将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;
其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。
优选地,所述将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征,具体包括:
将所述语音数据输入至所述语音特征提取模型的隐层特征提取层,得到所述隐层特征提取层输出的隐层特征;
将所述隐层特征输入至所述语音特征提取模型的空间映射层,得到所述空间映射层输出的语音特征。
优选地,所述语音特征提取模型是基于同一正向语音数据对中两个样本语音数据的样本语音特征之间的相关性,和/或不同正向语音数据对中样本语音数据的样本语音特征之间的差异性训练得到的;
任一正向语音数据对中两个样本语音数据分别为原始语音数据和增强语音数据,所述增强语音数据是对所述原始语音数据进行数据增强得到的。
优选地,所述语音特征提取模型的损失函数是基于每一样本语音数据的对内特征相似度和对间特征相似度确定的;
其中,任一样本语音数据的对内特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对中另一样本语音数据的样本语音特征之间的相似度,所述任一样本语音数据的对间特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对之外的每一样本语音数据的样本语音特征之间的相似度。
优选地,所述语音特征提取模型的损失函数是基于每一样本语音数据的单样本损失函数确定的;
其中,任一样本语音数据的单样本损失函数是基于所述任一样本语音数据的对内特征得分与整体特征得分的比值确定的;
所述任一样本语音数据的对内特征得分是基于所述任一样本语音数据的对内特征相似度确定的,所述任一样本语音数据的整体特征得分是基于所述任一样本语音数据的对内特征相似度和对间特征相似度确定的。
优选地,所述将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征,之后还包括:
对多个语音数据的语音特征进行聚类,得到聚类结果。
优选地,所述语音特征为说话人特征、语种特征或发音音素特征。
第二方面,本发明实施例提供一种语音特征提取装置,包括:
语音确定单元,用于确定语音数据;
特征提取单元,用于将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;
其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑命令,以执行如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种语音特征提取方法、装置、电子设备和存储介质,通过无监督训练得到的语音特征提取模型对语音数据进行编码和非线性空间映射,从而实现语音特征的准确表征。在此过程中,对语音数据进行编码即可实现针对语音数据的隐层特征的深度挖掘和表达,对隐层特征进行非线性空间映射即可优化语音特征对于语音数据的拟合效果,且节省了大量计算,避免了由于人为降维带来的高维特征损失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音特征提取方法的流程示意图;
图2为本发明实施例提供的语音特征提取模型运行方法的流程示意图;
图3为本发明实施例提供的语音特征提取模型训练方法的流程示意图;
图4为本发明实施例提供的语音特征提取装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前的智能语音技术尚无法同时适用于所有语种、口音或者领域,这无疑给智能语音技术的应用带来了很多限制。因此,需要通过大量的有监督数据重新训练语音模型或者在原始语音模型上进行优化,然而有监督数据的获取需要消耗大量的人力和时间成本,且一些特殊行业由于其本身机密性的影响,无法进行大规模的标注,因此无法通过有监督训练实现智能语音技术的应用。为了解决这一问题,无监督的语音特征提取方法应用而生。
目前无监督的语音特征提取方法主要包括主成分分析方法和基于混合高斯模型的方法两种,其中主成分分析方法通过数据维度降低的方式,查找数据在低维空间的关联,并通过这一原理进行语音数据的表示,从而达到预设语音数据分布的目的。基于混合高斯模型的方法即使用多个高斯模型对数据分布进行表示,其中每个高斯模型均表示语音数据中一个维度的特征分布。然而无论是主成分分析方法,还是基于混合高斯模型的方法,均存在下述问题:
其一是两种方法的设置前提均为语音数据服从高斯分布,当语音数据不服从高斯分布时,会造成无法避免的尺度偏移;其二是设定混合高斯模型数量的过程也可以看作是人为降维的过程,即两种方法都需要在没有任何先验知识的情况下对语音数据进行人为降维,无可避免地导致了高维特征中的信息损失;其三是两种方法均假设降维后的变量之间的相互独立的,而实际上语音数据的变量之间存在复杂的直接或间接的相关性,强行将相关性置零必然带来表征上的偏差;最后,上述两种方法均难以对语音数据中潜在的隐变量的数目进行很好的估计,直接导致了最终的拟合结果和真实情况之间的偏离。
针对上述问题,本发明实施例提供了一种语音特征提取方法,以实现准确可靠的无监督语音特征提取。图1为本发明实施例提供的语音特征提取方法的流程示意图,如图1所示,该方法包括:
步骤110,确定语音数据。
具体地,语音数据即需要进行语音特征提取的语音数据。针对于不同的智能语音任务,需要进行语音特征提取的语音数据可以相同也可以不同。进一步地,针对于不同的智能语音任务,语音数据的时长可能存在区别,例如针对于说话人识别任务或语种识别任务,语音数据可以是一整条完整语音,针对于连续语音识别任务,语音数据可以是对一整条完整语音进行切分后的一个输入单元,输入单元为连续的若干个语音帧。
步骤120,将语音数据输入至语音特征提取模型中,得到语音特征提取模型输出的语音特征;其中,语音特征提取模型是基于样本语音数据无监督训练得到的;语音提取模型用于将语音数据编码得到隐层特征,并将隐层特征进行非线性空间映射,得到语音特征。
具体地,将语音数据输入至语音特征提取模型后,由语音特征提取模型对语音数据进行编码,得到语音数据的隐层特征。此处的隐层特征用于对语音数据进行整体上的全面表达。随即对隐层特征进行非线性空间映射,从而将隐层特征映射到新的空间,得到语音特征。通过非线性空间映射,可以使得输出的语音特征对于特征表达具有更强的拟合性,从而实现更加准确的特征表征。在此过程中,语音特征提取模型无需对语音数据进行降维即可实现语音特征的表征,因此避免了由于人为降维带来的高维特征损失。
在执行步骤120之前,还可以预先训练得到语音特征提取模型,具体可以通过如下方法训练得到语音特征提取模型:首先,收集大量样本语音数据,从而应用样本将样本语音数据对初始模型进行无监督训练,通过直接比对和放大样本语音数据之间的共性特征和差异特征,使得初始模型具备良好的表征能力。
需要说明的是,对应于不同的智能语音任务,可以设置不同的语音特征提取模型,例如,对应于说话人识别任务的语音特征提取模型,其输出的语音特征即语音数据的说话人特征,对应于语种识别任务的语音特征提取模型,其输出的语音特征即语音数据的语种特征,对应于连续语音识别任务的语音特征提取模型,其输出的语音特征即语音数据的发音音素特征。
用于实现不同的智能语音任务的语音特征提取模型是基于不同的样本语音数据训练得到的。例如,对应于说话人识别任务的语音特征提取模型的训练,其对应的样本语音数据可以包含不同说话人的同一种语言的语音数据,从而使得初始模型可以放大相同说话人的语音数据的共性特征,以及不同说话人的语音数据的差异性特征;对应于语种识别任务的语音特征提取模型的训练,其对应的样本语音数据可以包含不同语种的语音数据,从而使得初始模型可以放大相同语种的语音数据的共性特征,以及不同语种的语音数据的差异性特征;对应于连续语音识别任务的语音特征提取模型的训练,其对应的样本语音数据可以包含不同发音音素的语音数据,从而使得初始模型可以放大相同发音音素的语音数据的共性特征,以及不同发音音素的语音数据的差异性特征,从而无监督优化初始模型的表征能力。
本发明实施例提供的方法,通过无监督训练得到的语音特征提取模型对语音数据进行编码和非线性空间映射,从而实现语音特征的准确表征。在此过程中,对语音数据进行编码即可实现针对语音数据的隐层特征的深度挖掘和表达,对隐层特征进行非线性空间映射即可优化语音特征对于语音数据的拟合效果,且节省了大量计算,避免了由于人为降维带来的高维特征损失。
基于上述实施例,语音特征提取模型包括隐层特征提取层和空间映射层;图2为本发明实施例提供的语音特征提取模型运行方法的流程示意图,如图2所示,步骤120具体包括:
步骤121,将语音数据输入至语音特征提取模型的隐层特征提取层,得到隐层特征提取层输出的隐层特征。
具体地,隐层特征提取层用于对输入的语音数据整体进行编码,从而得到能够从整体上表征语音数据的隐层特征。考虑到语音数据本身的时序特点,隐层特征提取层可以是基于RNN(Recurrent Neural Network,循环神经网络)构建的,也可以是基于BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)构建的,还可以是基于RNN-BiLSTM构建的,本发明实施例对此不作具体限定。
假设xi为第i个语音数据,隐层特征提取层的函数表示为f,则将xi输入到隐层特征提取层得到的隐层特征可以表示为hi=f(xi)。进一步地,当隐层特征提取层是通过RNN-BiLSTM构建得到时,隐层特征可以表示为hi=f(xi)=RNN-BiLSTM(xi),由此得到的隐层特征
Figure BDA0002456326800000071
d为预先设定的隐层特征长度。
步骤122,将隐层特征输入至语音特征提取模型的空间映射层,得到空间映射层输出的语音特征。
具体地,空间映射层用于对隐层特征进行非线性空间映射,从而将隐层特征映射到新的空间得到映射后的特征,即语音特征。进一步地,空间映射层可以通过全连接层构建。
假设第i个语音数据xi的隐层特征为hi,空间映射层的函数表示为g,则将hi输入到空间映射层得到的语音特征可以表示为zi=g(hi)。进一步地,当空间映射层是通过全连接层构建得到时,语音特征可以表示为zi=g(hi)=W2σ(W1hi),式中σ为ReLU激活函数,
Figure BDA0002456326800000072
Figure BDA0002456326800000073
均为参数矩阵,由此得到的语音特征
Figure BDA0002456326800000074
m、n为预先设定的参数矩阵的大小。
本发明实施例提供的方法,语音特征提取模型仅应用隐层特征提取层和空间映射层,即可实现语音数据的特征提取,期间无需经过多次矩阵和激活变换,大大降低了语音特征提取的计算量,亦无需对语音数据进行降维,避免了降维导致的信息损失。此外,通过空间映射层实现了特征的非线性变换,使得最终得到的语音特征对语音数据有更好的拟合效果,即语音特征的表征更加准确。
基于上述任一实施例,语音特征提取模型是基于同一正向语音数据对中两个样本语音数据的样本语音特征之间的相关性,和/或不同正向语音数据对中样本语音数据的样本语音特征之间的差异性训练得到的;任一正向语音数据对中两个样本语音数据分别为原始语音数据和增强语音数据,增强语音数据是对原始语音数据进行数据增强得到的。
具体地,正向语音数据对中包含有两个样本语音数据,其中一个为原始语音数据,另一个为对原始语音数据进行数据增强得到的增强语音数据,此处的原始语音数据是相对于增强语音数据而言的,未经过数据增强操作的样本语音数据。
数据增强方式可以是裁剪、翻转、变速或加噪。其中,裁剪即按照预先设定的比例对原始语音数据中的部分片段进行删除,裁减比例常设于5%到20%之间;翻转即将原始语音数据在时间维度上进行时序翻转;变速即将原始语音数据在时间维度上进行拉长或缩短;加噪即在原始语音数据中加入高斯噪声。假设第i个原始语音数据为
Figure BDA0002456326800000081
Figure BDA0002456326800000082
执行上述数据增强方式中的一种,得到
Figure BDA0002456326800000083
对应的增强语音数据
Figure BDA0002456326800000084
Figure BDA0002456326800000085
即构成一对正向语音数据对。
语音特征提取模型是基于大量正向语音数据对训练得到的,将样本语音数据输入至语音特征提取模型,即可得到语音特征提取模型输出的样本语音特征。在训练过程中,语音特征提取模型可以放大并学习同一正向语音数据对的两个样本语音数据的样本语音特征之间的相关性,即同一正向语音数据对中两个样本语音数据之间的共性特征;此外,语音特征提取模型也可以放大并学习不同正向语音数据对中样本语音数据的样本语音特征之间的差异性,即不同正向语音数据对中样本语音数据之间的差异性特征。语音特征提取模型通过在训练过程中放大并学习正向语音数据对内部的共性特征,和/或正向语音数据对之间的差异性特征,从而实现良好的表征能力。
本发明实施例提供的方法,语音特征提取模型基于正向语音数据对进行无监督对抗学习,学习正向语音数据对内部的共性特征和/或正向语音数据对之间的差异性特征,从而充分放大正向语音数据对之间的共性特征,而不是通过概率分布或者人为设定的降维规则来描述语音数据,使得语音特征提取模型具有更加科学的预测能力和更强的鲁棒性。
基于上述任一实施例,语音特征提取模型的损失函数是基于每一样本语音数据的对内特征相似度和对间特征相似度确定的;其中,任一样本语音数据的对内特征相似度为该样本语音数据的样本语音特征与所属正向语音数据对中另一样本语音数据的样本语音特征之间的相似度,该样本语音数据的对间特征相似度为该样本语音数据的样本语音特征与所属正向语音数据对之外的每一样本语音数据的样本语音特征之间的相似度。
假设训练样本包括2N个样本语音数据,其中样本语音数据
Figure BDA0002456326800000091
Figure BDA0002456326800000092
构成一对正向语音数据对,zi和zj对应表示
Figure BDA0002456326800000093
Figure BDA0002456326800000094
的样本语音特征,N为正整数,i和j为小于等于N的正整数。以样本语音数据
Figure BDA0002456326800000095
为例,
Figure BDA0002456326800000096
的对内特征相似度即zi和zj之间的相似度,可以表示为D(zi,zj);
Figure BDA0002456326800000097
的对外特征相似度即zi和zo之间的相似度,可以表示为D(zi,zo),此处zo即样本语音数据
Figure BDA0002456326800000098
的样本语音特征,o为小于等于N的正整数,o≠i且o≠j。此处的对内特征相似度和对间特征相似度可以通过余弦相似度计算得到,也可以通过欧式距离、切比雪夫距离等常用的相似度算法计算得到,本发明实施例对此不作具体限定。
对内特征相似度用于反映语音特征提取模型对于同一正向语音数据对中两个样本语音数据之间的共性特征进行学习表征的能力,对间特征相似度用于反映不同正向语音数据对中样本语音数据之间的差异性特征的学习表征能力,样本语音数据的对内特征相似度越大,对间特征相似度越小,则语音特征提取模型的损失函数值越小,语音特征提取模型越能够准确表征语音特征。
基于上述任一实施例,语音特征提取模型的损失函数是基于每一样本语音数据的单个样本损失函数确定的;其中,任一样本语音数据的单样本损失函数是基于该样本语音数据的对内特征得分与整体特征得分的比值确定的;该本语音数据的对内特征得分是基于该样本语音数据的对内特征相似度确定的,该样本语音数据的整体特征得分是基于该样本语音数据的对内特征相似度和对间特征相似度确定的。
具体地,每一样本语音数据均对应一个单样本损失函数。假设训练样本包括2N个样本语音数据,其中样本语音数据
Figure BDA0002456326800000101
Figure BDA0002456326800000102
构成一对正向语音数据对,zi和zj对应表示
Figure BDA0002456326800000103
Figure BDA0002456326800000104
的样本语音特征,N为正整数,i和j为小于等于N的正整数。以样本语音数据
Figure BDA0002456326800000105
为例,
Figure BDA0002456326800000106
的对内特征相似度可以表示为D(zi,zj),
Figure BDA0002456326800000107
的对外特征相似度可以表示为D(zi,zo),o≠i且o≠j。
基于
Figure BDA0002456326800000108
的对内特征相似度D(zi,zj)可以得到
Figure BDA0002456326800000109
的对内特征得分,D(zi,zj)越大,则对内特征得分越高,语音特征提取模型对于同一正向语音数据对中两个样本语音数据之间的共性特征进行学习表征的能力越优。作为优选,对内特征得分可以表示为exp(D(zi,zj)/τ),其中τ为标量参数。
基于
Figure BDA00024563268000001010
的对内特征相似度D(zi,zj)和对外特征相似度D(zi,zo)可以得到
Figure BDA00024563268000001011
的整体特征得分,对外特征相似度D(zi,zo)越小,整体特征得分越小,语音特征提取模型对于不同正向语音数据对之间的差异性特征进行学习和区分的能力越优。作为优选,整体特征得分可以表示为
Figure BDA00024563268000001012
其中,k为小于等于2N的正整数。
Figure BDA00024563268000001013
的单样本损失函数中,对内特征得分越高,整体特征得分越低,则对内特征得分与整体特征得分的比值越大,语音特征提取模型的训练效果越优,对应的单样本损失函数的值越小。作为优选,可将
Figure BDA00024563268000001014
的单样本损失函数l(i,j)表示为如下形式:
Figure BDA00024563268000001015
在得到每一样本语音数据的单样本损失函数后,即可确定语音特征提取模型的损失函数。例如,可以将每一样本语音数据的单样本损失函数的均值作为语音特征提取模型的损失函数L,具体表现为如下形式:
Figure BDA00024563268000001016
式中,2N为训练样本规模,即共存在2N的样本语音数据,对应于N组正向语音数据对,m为小于等于N的正整数,第2m-1和第2m个样本语音数据构成一组正向语音数据对,l(2m-1,2m)+l(2m,2m-1)是一组正向语音数据对中的两个样本语音数据的单样本损失函数之和,L即对所有样本语音数据的单样本损失函数求平均。
基于上述语音特征提取模型的损失函数对语音特征提取模型进行训练,通过训练过程不断优化语音特征提取模型中的隐层特征提取层和空间映射层,使得两者的表征能力不断加强,从而得到能够准确表征语音特征的语音特征提取模型。
基于上述任一实施例,图3为本发明实施例提供的语音特征提取模型训练方法的流程示意图,如图3所示,首先采集大量原始语音数据,此处的原始语音数据的数量为N。随即分别对每一原始语音数据进行数据增强,从而得到每一原始语音数据对应的增强语音数据,由此构成N组正向语音数据对,图3中样本语音数据1和2为一组正向语音数据对,样本语音数据2N-1和2N为一组正向语音数据对。
将每一样本语音数据分别输入到语音特征提取模型的隐层特征提取层中,得到每一样本语音数据分别对应的样本隐层特征,再将每一样本语音数据分别对应的样本隐层特征输入到语音特征提取模型的空间映射层中,得到每一样本语音数据分别对应的样本语音特征。
在此基础上,利用各个样本语音数据的样本语音特征进行对抗训练,其训练目标是放大同一正向语音数据对的样本语音特征之间的共性特征,以及不同正向语音数据对的样本语音特征之间的差异性特征。图3中,样本语音特征之间的实线圆弧表示共性特征的放大和学习,样本语音特征之间的点划线圆弧表示差异性特征的放大和学习。
基于上述任一实施例,步骤120之后还包括:对多个语音数据的语音特征进行聚类,得到聚类结果。
具体地,基于步骤110和步骤120,可以得到多个语音数据的语音特征,在此基础上,可以对多个语音数据的语音特征进行聚类,根据聚类结果确定语音数据的不同分类。
例如,对应于说话人识别任务的语音特征提取模型输出的语音特征用于表示语音数据的说话人特征,由此得到的聚类结果可以用于划分语音数据和说话人的对应关系,进而确定语音数据的说话人。对应于语种识别任务的语音特征提取模型输出的语音特征用于表示语音数据的语种特征,由此得到的聚类结果可以用于划分语音数据和语种的对应关系,进而确定语音数据的语种。对应于连续语音识别任务的语音特征提取模型输出的语音特征用于表示语音数据的发音音素特征,由此得到的聚类结果可以用于划分语音数据和发音音素的对应关系,进而确定语音数据的发音音素。
基于上述任一实施例,语音特征为说话人特征、语种特征或发音音素特征。
对应地,当语音特征提取模型应用于说话人识别任务时,语音特征提取模型在训练过程中放大相同说话人的语音数据的共性特征,以及不同说话人的语音数据的差异性特征,从而在训练完成后能够实现说话人特征的提取。
当语音特征提取模型应用于语种识别任务时,语音特征提取模型在训练过程中放大相同语种的语音数据的共性特征,以及不同语种的语音数据的差异性特征,从而在训练完成后能够实现语种特征的提取。
当语音特征提取模型应用于连续语音识别任务时,语音特征提取模型在训练过程中放大相同发音音素的语音数据的共性特征,以及不同发音音素的语音数据的差异性特征,从而在训练完成后能够实现发音音素特征的提取。
基于上述任一实施例,图4为本发明实施例提供的语音特征提取装置的结构示意图,如图4所示,该装置包括语音确定单元410和特征提取单元420;
语音确定单元410用于确定语音数据;
特征提取单元420用于将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;
其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。
本发明实施例提供的装置,通过无监督训练得到的语音特征提取模型对语音数据进行编码和非线性空间映射,从而实现语音特征的准确表征。在此过程中,对语音数据进行编码即可实现针对语音数据的隐层特征的深度挖掘和表达,对隐层特征进行非线性空间映射即可优化语音特征对于语音数据的拟合效果,且节省了大量计算,避免了由于人为降维带来的高维特征损失。
基于上述任一实施例,特征提取单元420具体用于:
将所述语音数据输入至所述语音特征提取模型的隐层特征提取层,得到所述隐层特征提取层输出的隐层特征;
将所述隐层特征输入至所述语音特征提取模型的空间映射层,得到所述空间映射层输出的语音特征。
基于上述任一实施例,所述语音特征提取模型是基于同一正向语音数据对中两个样本语音数据的样本语音特征之间的相关性,和/或不同正向语音数据对中样本语音数据的样本语音特征之间的差异性训练得到的;
任一正向语音数据对中两个样本语音数据分别为原始语音数据和增强语音数据,所述增强语音数据是对所述原始语音数据进行数据增强得到的。
基于上述任一实施例,所述语音特征提取模型的损失函数是基于每一样本语音数据的对内特征相似度和对间特征相似度确定的;
其中,任一样本语音数据的对内特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对中另一样本语音数据的样本语音特征之间的相似度,所述任一样本语音数据的对间特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对之外的每一样本语音数据的样本语音特征之间的相似度。
基于上述任一实施例,所述语音特征提取模型的损失函数是基于每一样本语音数据的单样本损失函数确定的;
其中,任一样本语音数据的单样本损失函数是基于所述任一样本语音数据的对内特征得分与整体特征得分的比值确定的;
所述任一样本语音数据的对内特征得分是基于所述任一样本语音数据的对内特征相似度确定的,所述任一样本语音数据的整体特征得分是基于所述任一样本语音数据的对内特征相似度和对间特征相似度确定的。
基于上述任一实施例,该装置还包括聚类单元;所述聚类单元具体用于:
对多个语音数据的语音特征进行聚类,得到聚类结果。
基于上述任一实施例,所述语音特征为说话人特征、语种特征或发音音素特征。
图5为本发明实施例提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令,以执行如下方法:确定语音数据;将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。
此外,上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定语音数据;将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音特征提取方法,其特征在于,包括:
确定语音数据;
将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;
其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。
2.根据权利要求1所述的语音特征提取方法,其特征在于,所述将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征,具体包括:
将所述语音数据输入至所述语音特征提取模型的隐层特征提取层,得到所述隐层特征提取层输出的所述隐层特征;
将所述隐层特征输入至所述语音特征提取模型的空间映射层,得到所述空间映射层输出的所述语音特征。
3.根据权利要求1所述的语音特征提取方法,其特征在于,所述语音特征提取模型是基于同一正向语音数据对中两个样本语音数据的样本语音特征之间的相关性,和/或不同正向语音数据对中样本语音数据的样本语音特征之间的差异性训练得到的;
任一正向语音数据对中两个样本语音数据分别为原始语音数据和增强语音数据,所述增强语音数据是对所述原始语音数据进行数据增强得到的。
4.根据权利要求3所述的语音特征提取方法,其特征在于,所述语音特征提取模型的损失函数是基于每一样本语音数据的对内特征相似度和对间特征相似度确定的;
其中,任一样本语音数据的对内特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对中另一样本语音数据的样本语音特征之间的相似度,所述任一样本语音数据的对间特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对之外的每一样本语音数据的样本语音特征之间的相似度。
5.根据权利要求4所述的语音特征提取方法,其特征在于,所述语音特征提取模型的损失函数是基于每一样本语音数据的单样本损失函数确定的;
其中,任一样本语音数据的单样本损失函数是基于所述任一样本语音数据的对内特征得分与整体特征得分的比值确定的;
所述任一样本语音数据的对内特征得分是基于所述任一样本语音数据的对内特征相似度确定的,所述任一样本语音数据的整体特征得分是基于所述任一样本语音数据的对内特征相似度和对间特征相似度确定的。
6.根据权利要求1至5中任一项所述的语音特征提取方法,其特征在于,所述将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征,之后还包括:
对多个语音数据的语音特征进行聚类,得到聚类结果。
7.根据权利要求1至5中任一项所述的语音特征提取方法,其特征在于,所述语音特征为说话人特征、语种特征或发音音素特征。
8.一种语音特征提取装置,其特征在于,包括:
语音确定单元,用于确定语音数据;
特征提取单元,用于将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;
其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的语音特征提取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音特征提取方法的步骤。
CN202010307618.8A 2020-04-17 2020-04-17 语音特征提取方法、装置、电子设备和存储介质 Active CN111540367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010307618.8A CN111540367B (zh) 2020-04-17 2020-04-17 语音特征提取方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010307618.8A CN111540367B (zh) 2020-04-17 2020-04-17 语音特征提取方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111540367A true CN111540367A (zh) 2020-08-14
CN111540367B CN111540367B (zh) 2023-03-31

Family

ID=71978733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010307618.8A Active CN111540367B (zh) 2020-04-17 2020-04-17 语音特征提取方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111540367B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509555A (zh) * 2020-11-25 2021-03-16 平安科技(深圳)有限公司 方言语音识别方法、装置、介质及电子设备
CN113053357A (zh) * 2021-01-29 2021-06-29 网易(杭州)网络有限公司 语音合成方法、装置、设备和计算机可读存储介质
CN113129900A (zh) * 2021-04-29 2021-07-16 科大讯飞股份有限公司 一种声纹提取模型构建方法、声纹识别方法及其相关设备
CN113192487A (zh) * 2021-04-30 2021-07-30 平安科技(深圳)有限公司 支持多语言混合的语音识别方法、装置、设备及存储介质
CN113488069A (zh) * 2021-07-06 2021-10-08 浙江工业大学 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
CN116913259A (zh) * 2023-09-08 2023-10-20 中国电子科技集团公司第十五研究所 结合梯度引导的语音识别对抗防御方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448749A (zh) * 2018-12-19 2019-03-08 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN110211565A (zh) * 2019-05-06 2019-09-06 平安科技(深圳)有限公司 方言识别方法、装置及计算机可读存储介质
CN110706710A (zh) * 2018-06-25 2020-01-17 普天信息技术有限公司 一种语音识别方法、装置、电子设备及存储介质
WO2020035085A2 (en) * 2019-10-31 2020-02-20 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706710A (zh) * 2018-06-25 2020-01-17 普天信息技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN109448749A (zh) * 2018-12-19 2019-03-08 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN110211565A (zh) * 2019-05-06 2019-09-06 平安科技(深圳)有限公司 方言识别方法、装置及计算机可读存储介质
WO2020035085A2 (en) * 2019-10-31 2020-02-20 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林琳等: "短语音说话人识别新方法的研究", 《系统仿真学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509555A (zh) * 2020-11-25 2021-03-16 平安科技(深圳)有限公司 方言语音识别方法、装置、介质及电子设备
CN112509555B (zh) * 2020-11-25 2023-05-23 平安科技(深圳)有限公司 方言语音识别方法、装置、介质及电子设备
CN113053357B (zh) * 2021-01-29 2024-03-12 网易(杭州)网络有限公司 语音合成方法、装置、设备和计算机可读存储介质
CN113053357A (zh) * 2021-01-29 2021-06-29 网易(杭州)网络有限公司 语音合成方法、装置、设备和计算机可读存储介质
CN113129900A (zh) * 2021-04-29 2021-07-16 科大讯飞股份有限公司 一种声纹提取模型构建方法、声纹识别方法及其相关设备
CN113192487A (zh) * 2021-04-30 2021-07-30 平安科技(深圳)有限公司 支持多语言混合的语音识别方法、装置、设备及存储介质
CN113192487B (zh) * 2021-04-30 2024-05-03 平安科技(深圳)有限公司 支持多语言混合的语音识别方法、装置、设备及存储介质
CN113488069A (zh) * 2021-07-06 2021-10-08 浙江工业大学 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN113488069B (zh) * 2021-07-06 2024-05-24 浙江工业大学 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN114882873B (zh) * 2022-07-12 2022-09-23 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
CN116913259B (zh) * 2023-09-08 2023-12-15 中国电子科技集团公司第十五研究所 结合梯度引导的语音识别对抗防御方法及装置
CN116913259A (zh) * 2023-09-08 2023-10-20 中国电子科技集团公司第十五研究所 结合梯度引导的语音识别对抗防御方法及装置

Also Published As

Publication number Publication date
CN111540367B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN111540367B (zh) 语音特征提取方法、装置、电子设备和存储介质
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN111627419B (zh) 一种基于水下目标及环境信息特征的声音生成方法
CN114157539B (zh) 一种数据知识双驱动的调制智能识别方法
CN114579743B (zh) 基于注意力的文本分类方法、装置及计算机可读介质
CN111597333B (zh) 一种面向区块链领域的事件与事件要素抽取方法及装置
CN111858878A (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN114529903A (zh) 文本细化网络
CN115511069A (zh) 神经网络的训练方法、数据处理方法、设备及存储介质
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN114420151B (zh) 基于并联张量分解卷积神经网络的语音情感识别方法
CN110633787A (zh) 基于多比特神经网络非线性量化的深度神经网络压缩方法
CN114203185A (zh) 一种时序声纹特征组合识别方法及装置
CN116884067B (zh) 一种基于改进的隐式语义数据增强的微表情识别方法
CN113160823A (zh) 基于脉冲神经网络的语音唤醒方法、装置及电子设备
CN114140848B (zh) 基于knn和dsn的微表情识别方法、系统、设备及存储介质
CN115482575A (zh) 一种基于标记分布学习的面部表情识别方法
CN114841287A (zh) 分类模型的训练方法、图像分类方法及装置
CN111552805B (zh) 一种问答系统问句意图识别方法
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN113611289A (zh) 一种语音识别方法和装置
Liu et al. Keyword retrieving in continuous speech using connectionist temporal classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant