CN114519996A - 一种语音合成类型的确定方法、装置、设备以及存储介质 - Google Patents

一种语音合成类型的确定方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN114519996A
CN114519996A CN202210413157.1A CN202210413157A CN114519996A CN 114519996 A CN114519996 A CN 114519996A CN 202210413157 A CN202210413157 A CN 202210413157A CN 114519996 A CN114519996 A CN 114519996A
Authority
CN
China
Prior art keywords
target
voice
frame
spectrum
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210413157.1A
Other languages
English (en)
Other versions
CN114519996B (zh
Inventor
郑榕
孟凡芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Information Technology Co Ltd filed Critical Beijing Yuanjian Information Technology Co Ltd
Priority to CN202210413157.1A priority Critical patent/CN114519996B/zh
Publication of CN114519996A publication Critical patent/CN114519996A/zh
Application granted granted Critical
Publication of CN114519996B publication Critical patent/CN114519996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种语音合成类型的确定方法、装置、设备以及存储介质,其中,该方法包括:获取待识别的目标语音,从目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱,针对目标语音中任一帧语音的目标幅度谱和目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱,将各帧语音对应的中间组合谱按照各帧语音的时间顺序进行拼接,得到目标语音的目标组合谱,将目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定目标语音的合成类型。这样,可以提升确定语音合成类型的准确率。

Description

一种语音合成类型的确定方法、装置、设备以及存储介质
技术领域
本公开涉及语音识别技术领域,具体而言,涉及一种语音合成类型的确定方法、装置、设备以及存储介质。
背景技术
语音合成通常是指将输入的文本转换成特定的语音。随着科技的发展,语音合成的方法越来越多,合成语音日益趋近于真实语音,可以达到以假乱真的地步,因此,需要对语音的真假进行识别,然而通常在进行语音真假的识别并确定语音为假之后,需要进一步的提供确定语音合成的类型,但是目前还没有更好的对语音的合成类型进行溯源的方法。
发明内容
本公开实施例至少提供一种语音合成类型的确定方法、装置、设备以及存储介质,可以精准的确定语音的合成类型,方便对合成语音的进一步的解释。
本公开实施例提供了一种语音合成类型的确定方法,所述方法包括:
获取待识别的目标语音;其中,所述目标语音包括至少一帧语音;
从所述目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱;
针对所述目标语音中各帧语音的所述目标幅度谱和所述目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱;其中,所述中间组合谱用于表征所述目标语音的幅度特征和相位特征;
将各帧语音对应的所述中间组合谱按照各帧语音的时间顺序进行拼接,得到所述目标语音的目标组合谱;
将所述目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定所述目标语音的合成类型;其中,所述目标模型是基于样本语音的样本组合谱以及语音合成类型标签进行训练得到的。
一种可选的实施方式中,根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标幅度谱:
获取所述目标语音中各帧语音的声谱图和梅尔频率倒谱图;
将所述梅尔频率倒谱图和所述声谱图输入到幅度谱估计器,得到各帧语音的目标幅度谱。
一种可选的实施方式中,根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标相位谱:
获取所述目标语音中各帧语音的声谱图和基频数据;
将所述基频数据和所述声谱图输入到相位谱估计器,得到各帧语音的目标相位谱。
一种可选的实施方式中,根据以下步骤获取所述目标语音中各帧语音的声谱图:
获取所述目标语音中各帧语音的初始信号图;
将所述初始信号图旋转90度,得到各帧语音的中间信号图;
将各帧语音的中间信号图进行短时傅里叶变换计算,得到所述目标语音中各帧语音的声谱图。
一种可选的实施方式中,针对所述目标语音中任一帧语音,根据以下步骤得到该帧语音的中间组合谱:
针对所述目标语音中任一帧语音,从该帧语音的所述目标幅度谱提取出第一特征向量,以及从该帧语音的所述目标相位谱中提取第二特征向量;
针对所述目标语音中任一帧语音,将该帧语音的所述第一特征向量和所述第二特征向量进行特征拼接,得到该帧语音的中间组合谱。
一种可选的实施方式中,所述目标语音的合成类型包括以下至少一种:
基于无声码器的合成类型、基于统计参数声码器的合成类型、基于序列到序列声码器的合成类型、基于流形声码器的合成类型、基于对抗生成声码器的合成类型、基于变分自编码声码器的合成类型、基于扩散声码器的合成类型。
本公开实施例还提供一种语音合成类型的确定装置,所述装置包括:
获取模块,用于获取待识别的目标语音;其中,所述目标语音包括至少一帧语音;
提取模块,用于从所述目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱;
第一拼接模块,用于针对所述目标语音中各帧语音的所述目标幅度谱和所述目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱;其中,所述中间组合谱用于表征所述目标语音的幅度特征和相位特征;
第二拼接模块,用于将各帧语音对应的所述中间组合谱按照各帧语音的时间顺序进行拼接,得到所述目标语音的目标组合谱;
确定模块,用于将所述目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定所述目标语音的合成类型;其中,所述目标模型是基于样本语音的样本组合谱以及语音合成类型标签进行训练得到的。
一种可选的实施方式中,所述提取模块根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标幅度谱:
获取所述目标语音中各帧语音的声谱图和梅尔频率倒谱图;
将所述梅尔频率倒谱图和所述声谱图输入到幅度谱估计器,得到各帧语音的目标幅度谱。
一种可选的实施方式中,所述提取模块根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标相位谱:
获取所述目标语音中各帧语音的声谱图和基频数据;
将所述基频数据和所述声谱图输入到相位谱估计器,得到各帧语音的目标相位谱。
一种可选的实施方式中,所述提取模块根据以下步骤获取所述目标语音中各帧语音的声谱图:
获取所述目标语音中各帧语音的初始信号图;
将所述初始信号图旋转90度,得到各帧语音的中间信号图;
将各帧语音的中间信号图进行短时傅里叶变换计算,得到所述目标语音中各帧语音的声谱图。
一种可选的实施方式中,所述第一拼接模块针对所述目标语音中任一帧语音,根据以下步骤得到该帧语音的中间组合谱:
针对所述目标语音中任一帧语音,从该帧语音的所述目标幅度谱提取出第一特征向量,以及从该帧语音的所述目标相位谱中提取第二特征向量;
针对所述目标语音中任一帧语音,将该帧语音的所述第一特征向量和所述第二特征向量进行特征拼接,得到该帧语音的中间组合谱。
一种可选的实施方式中,所述目标语音的合成类型包括以下至少一种:
基于无声码器的合成类型、基于统计参数声码器的合成类型、基于序列到序列声码器的合成类型、基于流形声码器的合成类型、基于对抗生成声码器的合成类型、基于变分自编码声码器的合成类型、基于扩散声码器的合成类型。
本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述实施方式中的步骤。
本公开实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述实施方式中的步骤。
本公开实施例提供的一种语音合成类型的确定方法、装置、设备以及存储介质,其中,该方法包括:获取待识别的目标语音,从目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱,针对目标语音中任一帧语音的目标幅度谱和目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱,将各帧语音对应的中间组合谱按照各帧语音的时间顺序进行拼接,得到目标语音的目标组合谱,将目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定目标语音的合成类型。这样,可以提升确定语音合成类型的准确率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种语音合成类型的确定方法的流程图;
图2示出了本公开实施例所提供的另一种语音合成类型的确定方法的流程图;
图3示出了本公开实施例所提供的语音合成类型的确定方法的过程示意图;
图4示出了本公开实施例所提供的一种语音合成类型的确定装置的示意图;
图5示出了本公开实施例所提供的一种电子设备的示意图。
图示说明:
400-语音合成类型的确定装置、410-获取模块、420-提取模块、430-第一拼接模块、440-第二拼接模块、450-确定模块、500-电子设备、510-处理器、520-存储器、521-内存、522-外部存储器、530-总线。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
语音合成通常是指将输入的文本转换成特定的语音。随着科技的发展,语音合成的方法越来越多,合成语音日益趋近于真实语音,可以达到以假乱真的地步,因此,需要对语音的真假进行识别,然而通常在进行语音真假的识别并确定语音为假之后,需要进一步的提供确定语音合成的类型,但是目前还没有更好的对语音的合成类型进行溯源的方法。
基于上述研究,本公开提供了一种语音合成类型的确定方法、装置、设备以及存储介质,其中,该方法包括:获取待识别的目标语音,从目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱,针对目标语音中任一帧语音的目标幅度谱和目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱,将各帧语音对应的中间组合谱按照各帧语音的时间顺序进行拼接,得到目标语音的目标组合谱,将目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定目标语音的合成类型。这样,可以提升确定语音合成类型的准确率。
需要说明的是,语音合成通常是将指定输入文本转换为特定语音的过程。语音合成主要分为统计参数语音合成方法和基于深度神经网络的语音合成。其中,基于深度学习的语音合成系统是当前主流,可进一步细分为两种:一种是将深度学习应用到传统语音合成系统各个模块中建模,这种方法可以有效地合成语音,但系统有较多的模块且各个模块独立建模,系统调优比较困难,容易出现累积误差。另一种是端到端语音合成系统,这种系统旨在利用深度学习强大的特征提取能力和序列数据处理能力,摒弃各种复杂的中间环节,利用声学模型将文本转化中间表征,然后声码器将中间表征还原成语音。声学模型和声码器是当前语音合成系统的重要组成部分,其中声学模型由语言特征生成声学特征,声码器通常根据声学特征合成波形。声码器分为统计参数声码器(SP-vocoder)和神经网络声码器(NN-vocoder)。目前应用广泛的统计参数声码器包括STRAIGHT、WORLD等。神经网络声码器具有强大的非线性拟合能力,可以将语音特征转换为语音波形,是目前声码器研究最活跃的领域。
当前针对语音深度合成技术的鉴伪检测得到了越来越多的研究,但鉴伪输出通常只有真实或伪造的二分类结果,然而在声像资料司法取证及鉴定的背景下,不仅关注音频本身的真伪性,还希望进一步知道伪造生成语音的生成来源类型,实现伪造音频溯源。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种语音合成类型的确定方法进行详细介绍,本公开实施例所提供的语音合成类型的确定方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端手持设备等。在一些可能的实现方式中,该语音合成类型的确定方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的语音合成类型的确定方法的流程图,所述方法包括步骤S101~S105,其中:
S101:获取待识别的目标语音。
这里,由于在日常生活中合成语音可以以假乱真,所以需要对语音的真伪进行检测,并在确定语音为合成的后,确定语音的合成类型,以向用户解释合成语音的来源,在确定语音的合成类型时,首先需要获取待识别的目标语音,目标语音为用户收集的需要进行合成类型识别的语音,其中,所述目标语音包括至少一帧语音。
其中,目标语音按照帧长和帧移的设置值进行分帧,得到至少一帧语音,帧长和帧移的具体值根据用户需要进行设置,在此不做具体的限定。
S102:从所述目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱。
这里,从目标语音的时域图中提取出各帧语音分别对应的目标幅度谱和目标相位谱,其中,目标语音的时域图为目标语音信号的时间和该时间信号幅度的关系图;目标幅度谱为目标语音信号的频率和该频率信号幅度绝对值的关系图;目标相位图为目标语音信号的频率和该频率信号相位的关系图;目标语音包括至少一帧语音,每帧语音均对应一个目标幅度谱和一个目标相位谱。
在从目标语音的时域图中提取出各帧语音分别对应的目标幅度谱和目标相位谱时,需要将目标语音的时域图转换成声谱图,从声谱图中提取各帧语音的目标幅度谱和目标相位谱,在提取各帧语音对应的目标幅度谱和目标相位谱时,可以分开提取,也可以集中提取。其中,声谱图为目标语音信号的频率和该频率信号幅度的关系图。
示例性的,在分开提取时,可以将目标语音的时域图中的各帧语音进行加窗操作,例如利用汉明窗进行加窗,并进行傅里叶变换,例如快速傅里叶变换,得到傅里叶变换谱(即声谱图),从傅里叶变换谱中分别提取出目标幅度谱和目标相位谱。
具体的,傅里叶变换谱的表达式为
Figure M_220407160210450_450323001
其中,
Figure M_220407160210528_528964001
为傅里叶变换谱中所有的特征向量,n为目标语音中的子语音的帧数,
Figure M_220407160210560_560242002
为幅度谱,
Figure M_220407160210591_591476003
为相位谱。
示例性的,在集中提取时,可以通过引入相位和谐波感知的深度神经网络(Phase-and-Harmonics-Aware Speech Enhancement Network,PHASEN)集中提取目标幅度谱和目标相位谱,由于相位缠绕和相位建模困难,会影响相位谱的准确估计,PHASEN模型呈双流结构(Two-Stream Block,TSB),其中,幅度流利用卷积网络、频域变换模块(FrequencyTransformation Block,FTB)和双向长短期记忆网络(Long short-term memory,LSTM)来估计幅度掩膜(即幅度谱),其取值为正的实数;相位流仅利用卷积网络来估计相位掩膜(即相位谱),其取值为复数,由实部和虚部组成;在相位流的每个卷积层进行卷积之前都需要进行归一化处理,在进行样本训练时,可以消除奇异样本数据的不良影响;为了充分利用双流的信息,在双流结构TSB模块的尾部输出前(也就是幅度流的最后一个FTB模块之后和相位流的最后一个卷积层之后),采用门控方式在强度流和相位流之间增加了信息交互机制,从而让幅度或者相位处理过程中能利用另外一路的信息作为参考。为了提升幅度估计和相位估计的准确性,TSB模块可以堆叠1个到多个进行级联使用。
S103:针对所述目标语音中各帧语音的所述目标幅度谱和所述目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱。
其中,所述中间组合谱用于表征所述目标语音的幅度特征和相位特征。
进一步的,一种可选的实施方式中,针对所述目标语音中任一帧语音,根据以下步骤得到该帧语音的中间组合谱:
针对所述目标语音中任一帧语音,从该帧语音的所述目标幅度谱提取出第一特征向量,以及从该帧语音的所述目标相位谱中提取第二特征向量;
针对所述目标语音中任一帧语音,将该帧语音的所述第一特征向量和所述第二特征向量进行特征拼接,得到该帧语音的中间组合谱。
这里,提取目标语音中任一帧语音的目标幅度谱中的第一特征向量和该帧语音的目标相位谱中的第二特征向量,利用拼接函数将提取的目标幅度谱中的第一特征向量和目标相位谱中的第二特征向量进行拼接,得到待识别特征向量,例如,第一特征向量
Figure M_220407160210639_639297001
=(
Figure M_220407160210655_655457002
Figure M_220407160210686_686690003
),第二特征向量
Figure M_220407160210717_717960004
=(
Figure M_220407160210749_749182005
Figure M_220407160210764_764822006
)进行拼接,得到
Figure M_220407160210796_796074007
=(
Figure M_220407160210811_811696008
Figure M_220407160210843_843896009
Figure M_220407160210860_860028010
Figure M_220407160210891_891309011
),将待识别特征向量作为各帧语音的中间组合谱,以便通过中间组合谱对目标语音进行合成类型的确定。
其中,目标幅度谱中的第一特征向量为幅度与频率之间的关系量化的特征值;目标相位谱中的第二特征向量为相位和频率之间的关系量化的特征值。
S104:将各帧语音对应的所述中间组合谱按照各帧语音的时间顺序进行拼接,得到所述目标语音的目标组合谱。
这里,检测目标语音中的各帧语音的时间顺序,并将与各帧语音对应的中间组合谱按照各帧语音的时间顺序,得到所述目标语音的目标组合谱,其中,所述目标组合谱为时间-频率-特征分布图,特征包括幅度特征和相位特征,所述目标组合谱可以很直观的表现出语音信号的特征随着时间和频率的变化。
S105:将所述目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定所述目标语音的合成类型。
这里,将拼接得到的目标组合谱输入到用于进行语音合成类型识别的目标模型中,进行目标模型的识别和分类,得到所述目标语音的合成类型,例如统计参数声码器类型。
其中,目标模型可以使用残差网络进行训练得到的,例如深度残差网络(Deepresidual network,ResNet)。在使用深度残差网络进行训练之前,利用瓶颈设计将常规的深度残差网络进行优化,用两个3*3的卷积层替换1*1卷积+3*3卷积+1*1卷积,新结构中的中间3*3的卷积层首先在一个降维1*1的卷积层下减少了计算,然后在另一个1*1的卷积层下做了还原,既保持了分析精度又减少了计算量。
另外,可以采用级联残差网络Res2Net进行训练得到目标模型。其中Res2Net在单个残差块内构造分层的残差连接,构建了新的卷积神经网络结构,Res2Net网络中用一组较小的滤波器组替换传统残差网络中n个通道的3*3滤波器,这些滤波器组以分层级联的方式相连接,在更细粒度的层次上提高了多尺度表示能力,提高模型的分类准确度。
在训练时,是将样本特征向量(即样本组合谱),输入到Res2Net网络中,在经过第一层的1*1卷积层的卷积的降维处理后,将卷积后的样本特征向量分成4组(x1, x2, x3,x4),四组中的一组特征向量可以直接得到输出值y1,其他三组特征向量均先经过3*3的滤波器,然后和其他通道的特征向量一起级联输入到下一组滤波器,直至完成整个计算,最后将所有输出的特征向量进行信息融合(y1,y2,y3,y4)输入到下一1*1的滤波器。
本实施例公开的语音合成类型方法,通过获取待识别的目标语音,从目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱,针对目标语音中任一帧语音的目标幅度谱和目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱,将各帧语音对应的中间组合谱按照各帧语音的时间顺序进行拼接,得到目标语音的目标组合谱,将目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定目标语音的合成类型。这样,可以提升确定语音合成类型的准确率。
参见图2所示,为本公开实施例提供的另一种语音合成类型方法的流程图,所述方法包括步骤S201~S207,其中:
S201:获取待识别的目标语音。
其中,所述目标语音包括至少一帧语音。
S202:获取所述目标语音中各帧语音的声谱图和梅尔频率倒谱图。
这里,声谱图为目标语音信号的频率和该频率信号幅度的关系图;梅尔频率倒谱图为目标语音信号频率的非线性梅尔刻度的对数能量频谱的线性变换图。
进一步的,一种可选的实施方式中,步骤202中根据以下步骤获取所述目标语音中各帧语音的声谱图:
获取所述目标语音中各帧语音的初始信号图;
将所述初始信号图旋转90度,得到各帧语音的中间信号图;
将各帧语音的中间信号图进行短时傅里叶变换计算,得到所述目标语音中各帧语音的声谱图。
这里,在获取声谱图时,首先,获取目标语音中各帧语音的初始信号图,其中,初始信号图为频率和幅度的平滑曲线图,其次,将所述初始信号图旋转90度,得到各帧语音的中间信号图,将各帧语音的中间信号图进行傅里叶变换计算,得到各帧语音的声谱图。
进一步的,将声谱图输入到梅尔滤波器中,得到梅尔频谱;对得到的梅尔频谱取对数,并将取完对数的梅尔频谱利用离散余弦进行逆变换,得到梅尔频率倒谱图。
S203:将所述梅尔频率倒谱图和所述声谱图输入到幅度谱估计器,得到各帧语音的目标幅度谱。
这里,获取当前帧语音以及针对当前帧语音的前一帧语音的梅尔频率倒谱图和声谱图,将获取的梅尔频率倒谱图和声谱图输入到幅度估计器中,获取当前帧语音的目标幅度谱。
S204:从所述目标语音中提取出各帧语音分别对应的目标相位谱。
S205:针对所述目标语音中各帧语音的所述目标幅度谱和所述目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱。
S206:将各帧语音对应的所述中间组合谱按照各帧语音的时间顺序进行拼接,得到所述目标语音的目标组合谱。
S207:将所述目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定所述目标语音的合成类型。
其中,步骤S201、步骤S205至步骤S207的描述,可以参照步骤S101、步骤S103至步骤S105的描述,并且可以达到相同的技术效果和解决相同的技术问题,在此不做赘述。
接下来,结合具体实施方式进一步对本实施例进行说明。
一种可选的实施方式中,根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标相位谱:
获取所述目标语音中各帧语音的声谱图和基频数据;
将所述基频数据和所述声谱图输入到相位谱估计器,得到各帧语音的目标相位谱。
这里,首先对目标语音进行分帧,可以从目标语音的时域图中检测语音波形的最小正周期,将其作为基频数据;也可以从目标语音的声谱图中检测大于预设幅度的所有幅度值的最大公约数,并将其作为基频数据。其次,将获取到的基频数据和声谱图输入到相位谱估计器中,得到各帧语音的目标相位谱。
一种可选的实施方式中,所述目标语音的合成类型包括以下至少一种:
基于无声码器的合成类型、基于统计参数声码器的合成类型、基于序列到序列声码器的合成类型、基于流形声码器的合成类型、基于对抗生成声码器的合成类型、基于变分自编码声码器的合成类型、基于扩散声码器的合成类型。
这里,由于声码器为语音合成系统的重要组成部分,且对合成声音的影响最重要,所以以声码器的类别为依据,对合成语音进行分类,其中无声码器类别即为真实语音。
参见图3所示,为本公开实施例提供的语音合成类型的确定方法的过程示意图,输入语音波形(即目标语音),从语音波形中提取声学特征(梅尔频率倒谱图)、短时傅里叶变换谱(即声谱图)、基频(即F0,决定语音音调的高低),将提取到的声学特征和短时傅里叶变换谱输入到幅度估计器中,由幅度谱估计器输出幅度谱;将提取到的短时傅里叶变换谱和基频输入到相位估计器中,由相位估计器输出相位谱;将得到的幅度谱和相位谱进行级联组合,并将级联组合后的幅度谱和相位谱输入到生成来源类型分类器(即用于进行语音合成类型识别的目标模型)中经过多尺度特征提取和分类器的处理之后输出语音波形的合成类型。
本实施例公开的语音合成类型的确定方法,通过获取待识别的目标语音,获取所述目标语音中各帧语音的声谱图和梅尔频率倒谱图;将所述梅尔频率倒谱图和所述声谱图输入到幅度谱估计器,得到各帧语音的目标幅度谱;从目标语音中提取出各帧语音分别对应的目标相位谱,针对目标语音中任一帧语音的目标幅度谱和目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱,将各帧语音对应的中间组合谱按照各帧语音的时间顺序进行拼接,得到目标语音的目标组合谱,将目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定目标语音的合成类型。这样,可以提升确定语音合成类型的准确率。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与语音合成类型的确定方法对应的语音合成类型的确定装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述语音合成类型的确定方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图4,图4为本公开实施例提供的一种语音合成类型的确定装置400的示意图。如图4中所示,本公开实施例提供的语音合成类型的确定装置400,包括:
获取模块410,用于获取待识别的目标语音;其中,所述目标语音包括至少一帧语音;
提取模块420,用于从所述目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱;
第一拼接模块430,用于针对所述目标语音中各帧语音的所述目标幅度谱和所述目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱;其中,所述中间组合谱用于表征所述目标语音的幅度特征和相位特征;
第二拼接模块440,用于将各帧语音对应的所述中间组合谱按照各帧语音的时间顺序进行拼接,得到所述目标语音的目标组合谱;
确定模块450,用于将所述目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定所述目标语音的合成类型;其中,所述目标模型是基于样本语音的样本组合谱以及语音合成类型标签进行训练得到的。
一种可选的实施方式中,所述提取模块420根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标幅度谱:
获取所述目标语音中各帧语音的声谱图和梅尔频率倒谱图;
将所述梅尔频率倒谱图和所述声谱图输入到幅度谱估计器,得到各帧语音的目标幅度谱。
一种可选的实施方式中,所述提取模块420根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标相位谱:
获取所述目标语音中各帧语音的声谱图和基频数据;
将所述基频数据和所述声谱图输入到相位谱估计器,得到各帧语音的目标相位谱。
一种可选的实施方式中,所述提取模块420根据以下步骤获取所述目标语音中各帧语音的声谱图:
获取所述目标语音中各帧语音的初始信号图;
将所述初始信号图旋转90度,得到各帧语音的中间信号图;
将各帧语音的中间信号图进行短时傅里叶变换计算,得到所述目标语音中各帧语音的声谱图。
一种可选的实施方式中,所述第一拼接模块430针对所述目标语音中任一帧语音,根据以下步骤得到该帧语音的中间组合谱:
针对所述目标语音中任一帧语音,从该帧语音的所述目标幅度谱提取出第一特征向量,以及从该帧语音的所述目标相位谱中提取第二特征向量;
针对所述目标语音中任一帧语音,将该帧语音的所述第一特征向量和所述第二特征向量进行特征拼接,得到该帧语音的中间组合谱。
一种可选的实施方式中,所述目标语音的合成类型包括以下至少一种:
基于无声码器的合成类型、基于统计参数声码器的合成类型、基于序列到序列声码器的合成类型、基于流形声码器的合成类型、基于对抗生成声码器的合成类型、基于变分自编码声码器的合成类型、基于扩散声码器的合成类型。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例公开的语音合成类型的确定装置,通过获取模块,用于获取待识别的目标语音;提取模块,用于从所述目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱;第一拼接模块,用于针对所述目标语音中各帧语音的所述目标幅度谱和所述目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱;第二拼接模块,用于将各帧语音对应的所述中间组合谱按照各帧语音的时间顺序进行拼接,得到所述目标语音的目标组合谱;确定模块,用于将所述目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定所述目标语音的合成类型。这样,可以提升确定语音合成类型的准确率。
基于同一技术构思,本公开实施例还提供了一种电子设备500,如图5所示,为本公开实施例提供的电子设备500结构示意图,电子设备500包括:
处理器510、存储器520、和总线530;存储器520用于存储执行指令,包括内存521和外部存储器522;这里的内存521也称内存储器,用于暂时存放处理器510中的运算数据,以及与硬盘等外部存储器522交换的数据,处理器510通过内存521与外部存储器522进行数据交换,当所述电子设备500运行时,所述处理器510与存储器520之间通过总线530通信,使得所述处理器510可以执行上述方法实施例中所示的语音合成类型的确定方法的步骤。
本公开实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的语音合成类型的确定方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的语音合成类型的确定方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备、存储介质和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的设备、存储介质、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种语音合成类型的确定方法,其特征在于,所述方法包括:
获取待识别的目标语音;其中,所述目标语音包括至少一帧语音;
从所述目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱;
针对所述目标语音中各帧语音的所述目标幅度谱和所述目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱;其中,所述中间组合谱用于表征所述目标语音的幅度特征和相位特征;
将各帧语音对应的所述中间组合谱按照各帧语音的时间顺序进行拼接,得到所述目标语音的目标组合谱;
将所述目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定所述目标语音的合成类型;其中,所述目标模型是基于样本语音的样本组合谱以及语音合成类型标签进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标幅度谱:
获取所述目标语音中各帧语音的声谱图和梅尔频率倒谱图;
将所述梅尔频率倒谱图和所述声谱图输入到幅度谱估计器,得到各帧语音的目标幅度谱。
3.根据权利要求1所述的方法,其特征在于,根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标相位谱:
获取所述目标语音中各帧语音的声谱图和基频数据;其中,所述声谱图为各帧语音的幅度与频率的关系图;所述基频数据为目标语音的最低频率值;
将所述基频数据和所述声谱图输入到相位谱估计器,得到各帧语音的目标相位谱。
4.根据权利要求2或3所述的方法,其特征在于,根据以下步骤获取所述目标语音中各帧语音的声谱图:
获取所述目标语音中各帧语音的初始信号图;
将所述初始信号图旋转90度,得到各帧语音的中间信号图;
将各帧语音的中间信号图进行短时傅里叶变换计算,得到所述目标语音中各帧语音的声谱图。
5.根据权利要求1所述的方法,其特征在于,针对所述目标语音中任一帧语音,根据以下步骤得到该帧语音的中间组合谱:
针对所述目标语音中任一帧语音,从该帧语音的所述目标幅度谱提取出第一特征向量,以及从该帧语音的所述目标相位谱中提取第二特征向量;
针对所述目标语音中任一帧语音,将该帧语音的所述第一特征向量和所述第二特征向量进行特征拼接,得到该帧语音的中间组合谱。
6.根据权利要求1所述的方法,其特征在于,所述目标语音的合成类型包括以下至少一种:
基于无声码器的合成类型、基于统计参数声码器的合成类型、基于序列到序列声码器的合成类型、基于流形声码器的合成类型、基于对抗生成声码器的合成类型、基于变分自编码声码器的合成类型、基于扩散声码器的合成类型。
7.一种语音合成类型的确定装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的目标语音;其中,所述目标语音包括至少一帧语音;
提取模块,用于从所述目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱;
第一拼接模块,用于针对所述目标语音中各帧语音的所述目标幅度谱和所述目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱;其中,所述中间组合谱用于表征所述目标语音的幅度特征和相位特征;
第二拼接模块,用于将各帧语音对应的所述中间组合谱按照各帧语音的时间顺序进行拼接,得到所述目标语音的目标组合谱;
确定模块,用于将所述目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定所述目标语音的合成类型;其中,所述目标模型是基于样本语音的样本组合谱以及语音合成类型标签进行训练得到的。
8.根据权利要求7所述的装置,其特征在于,所述提取模块根据以下步骤从所述目标语音中提取出各帧语音分别对应的目标幅度谱:
获取所述目标语音中各帧语音的声谱图和梅尔频率倒谱;
将所述梅尔频率倒谱和所述声谱图输入到幅度谱估计器,得到各帧语音的目标幅度谱。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6中任一项所述的语音合成类型的确定方法的步骤。
10.一种计算机存储介质,其特征在于,该计算机存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6中任一项所述的语音合成类型的确定方法的步骤。
CN202210413157.1A 2022-04-20 2022-04-20 一种语音合成类型的确定方法、装置、设备以及存储介质 Active CN114519996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210413157.1A CN114519996B (zh) 2022-04-20 2022-04-20 一种语音合成类型的确定方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210413157.1A CN114519996B (zh) 2022-04-20 2022-04-20 一种语音合成类型的确定方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN114519996A true CN114519996A (zh) 2022-05-20
CN114519996B CN114519996B (zh) 2022-07-08

Family

ID=81600540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210413157.1A Active CN114519996B (zh) 2022-04-20 2022-04-20 一种语音合成类型的确定方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114519996B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118553261A (zh) * 2024-07-25 2024-08-27 深圳市计通智能技术有限公司 一种头戴ar设备的定向音源降噪方法及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69127339D1 (de) * 1990-10-23 1997-09-25 Nederland Ptt Methode und Einrichtung zur Kodierung und Dekodierung eines abgetasteten Analogsignals mit Wiederholungseigenschaften
WO1998001848A1 (en) * 1996-07-05 1998-01-15 The Victoria University Of Manchester Speech synthesis system
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CN112634914A (zh) * 2020-12-15 2021-04-09 中国科学技术大学 基于短时谱一致性的神经网络声码器训练方法
CN113470671A (zh) * 2021-06-28 2021-10-01 安徽大学 一种充分利用视觉与语音联系的视听语音增强方法及系统
CN113903328A (zh) * 2021-09-01 2022-01-07 深圳壹秘科技有限公司 基于深度学习的说话人计数方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69127339D1 (de) * 1990-10-23 1997-09-25 Nederland Ptt Methode und Einrichtung zur Kodierung und Dekodierung eines abgetasteten Analogsignals mit Wiederholungseigenschaften
WO1998001848A1 (en) * 1996-07-05 1998-01-15 The Victoria University Of Manchester Speech synthesis system
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CN112634914A (zh) * 2020-12-15 2021-04-09 中国科学技术大学 基于短时谱一致性的神经网络声码器训练方法
CN113470671A (zh) * 2021-06-28 2021-10-01 安徽大学 一种充分利用视觉与语音联系的视听语音增强方法及系统
CN113903328A (zh) * 2021-09-01 2022-01-07 深圳壹秘科技有限公司 基于深度学习的说话人计数方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱泽宇等: "基于WaveNet的端到端语音合成方法", 《计算机应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118553261A (zh) * 2024-07-25 2024-08-27 深圳市计通智能技术有限公司 一种头戴ar设备的定向音源降噪方法及介质

Also Published As

Publication number Publication date
CN114519996B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
US9685155B2 (en) Method for distinguishing components of signal of environment
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN109308912B (zh) 音乐风格识别方法、装置、计算机设备及存储介质
CN107610707A (zh) 一种声纹识别方法及装置
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN113470684A (zh) 音频降噪方法、装置、设备及存储介质
CN113903361A (zh) 基于人工智能的语音质检方法、装置、设备及存储介质
CN118230722B (zh) 基于ai的智能语音识别方法及系统
CN114519996B (zh) 一种语音合成类型的确定方法、装置、设备以及存储介质
Kumar et al. Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
Dong et al. A time-frequency network with channel attention and non-local modules for artificial bandwidth extension
Lu et al. Shallow convolutional neural networks for acoustic scene classification
Gu et al. Memory storable network based feature aggregation for speaker representation learning
Hu et al. A lightweight multi-sensory field-based dual-feature fusion residual network for bird song recognition
CN117935789A (zh) 语音识别方法及系统、设备、存储介质
Wang et al. Revealing the processing history of pitch-shifted voice using CNNs
Rituerto-González et al. End-to-end recurrent denoising autoencoder embeddings for speaker identification
Hu et al. MSARN: A Multi-scale Attention Residual Network for End-to-End Environmental Sound Classification
Eshaghi et al. A voice activity detection algorithm in spectro-temporal domain using sparse representation
CN112712792A (zh) 一种方言识别模型的训练方法、可读存储介质及终端设备
Stephenson et al. Monaural audio speaker separation with source contrastive estimation
Naiborhu et al. Indonesian continuous speech recognition using cnn and bidirectional lstm
Huang et al. Improved emotion recognition with novel task-oriented wavelet packet features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant