CN111916105A - 语音信号处理方法、装置、电子设备及存储介质 - Google Patents

语音信号处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111916105A
CN111916105A CN202010682351.0A CN202010682351A CN111916105A CN 111916105 A CN111916105 A CN 111916105A CN 202010682351 A CN202010682351 A CN 202010682351A CN 111916105 A CN111916105 A CN 111916105A
Authority
CN
China
Prior art keywords
voice signal
signal
model
sample
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010682351.0A
Other languages
English (en)
Other versions
CN111916105B (zh
Inventor
王超
陈孝良
冯大航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010682351.0A priority Critical patent/CN111916105B/zh
Publication of CN111916105A publication Critical patent/CN111916105A/zh
Application granted granted Critical
Publication of CN111916105B publication Critical patent/CN111916105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)

Abstract

本公开提供了一种语音信号处理方法、装置、电子设备及存储介质,属于信号处理技术领域。方法包括:响应于对第一语音信号进行目标操作,对第一类型的第一语音信号进行频谱处理,得到第一语音信号对应的语谱图;调用目标音频转换模型,目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的;根据语谱图,通过目标音频转换模型,将第一语音信号转换为第二类型的第二语音信号;对第二语音信号执行目标操作。通过上述方法,使待处理的语音信号可以符合目标操作要求的语音信号,从而简化了语音信号的处理流程,提高了语音信号处理的效率。

Description

语音信号处理方法、装置、电子设备及存储介质
技术领域
本公开涉及信号处理技术领域,特别涉及一种语音信号处理方法、装置、 电子设备及存储介质。
背景技术
随着信号处理技术的发展,通过对语音信号进行处理来获取信息已经成为 重要的信息获取方式。其中,语音识别成为了一种重要的语音信号处理方式。
在相关技术中,电子设备进行语音识别时,常通过语音识别模型对语音信 号进行识别。其中,语音识别模型为根据目标类型的语音信号进行训练得到的 语音识别模型,在进行语音识别时,通常需要通过语音识别模型识别相应目标 类型的语音信号。例如,在对语音信号进行识别时,当该语音信号为近场类型 的语音信号时,调用识别近场语音信号的语音识别模型;当该语音信号为远场 类型的语音信号时,调用识别远场语音信号的语音识别模型。
上述相关技术中,语音识别模型为根据目标类型的语音信号进行训练得到 的语音识别模型。因此,在进行语音识别的过程中,只能对目标类型的语音信 号进行语音识别,当待识别的语音信号的类型为其他类型时,需要再次训练其 他类型对应的语音识别模型,工作量大,操作繁琐,导致语音信号处理的效率 低。
发明内容
本公开实施例提供了一种语音信号处理方法、装置、电子设备及存储介质, 能够提高语音信号处理的效率。所述技术方案如下:
一方面,提供了一种语音信号处理方法,所述方法包括:
响应于对第一语音信号进行目标操作,对所述第一语音信号进行频谱处理, 得到所述第一语音信号对应的语谱图,所述第一语音信号为第一类型的语音信 号;
调用目标音频转换模型,所述目标音频转换模型为通过第一音频转换模型 和第二音频转换模型进行对抗训练得到的,所述第一音频转换模型用于将所述 第一类型的语音信号转换为所述第二类型的语音信号,所述第二音频转换模型 用于将所述第二类型的语音信号转换为所述第一类型的语音信号;
根据所述语谱图,通过所述目标音频转换模型,将所述第一语音信号转换 为所述第二类型的第二语音信号;
对所述第二语音信号执行所述目标操作。
在一种可能的实现方式中,所述目标操作为训练所述第一类型对应的第一 语音识别模型;
所述对所述第二语音信号执行所述目标操作,包括:
根据所述第一语音信号和所述第二语音信号进行模型泛化训练,得到所述 第一语音识别模型。
在另一种可能的实现方式中,所述目标操作为语音识别;
所述对所述第二语音信号执行所述目标操作,包括:
调用所述第二类型对应的第二语音识别模型,对所述第二语音信号进行语 音识别,得到语音识别结果;
将所述语音识别结果作为所述第一语音信号的语音识别结果。
在另一种可能的实现方式中,所述对所述第一语音信号进行频谱处理,得 到所述第一语音信号对应的语谱图,包括:
对所述第一语音信号进行分帧处理,得到第三语音信号;
对所述第三语音信号进行傅里叶变换,确定所述第三语音信号对应的频率 点;
根据所述频率点,生成所述第一语音信号对应的语谱图。
在另一种可能的实现方式中,所述对所述第三语音信号进行傅里叶变换, 确定所述第三语音信号对应的频率点,包括:
对所述第三语音信号进行傅里叶变换,得到所述第三语音信号对应的频率 特征点;
从所述第三语音信号对应的频率特征点中选择目标频率特征点;
对所述目标频率特征点的幅值进行频谱运算,得到所述第三语音信号对应 的频率点。
在另一种可能的实现方式中,所述调用目标音频转换模型之前,所述方法 还包括:
获取第一样本语音信号,所述第一样本语音信号为所述第一类型的语音信 号;调用所述第一音频转换模型,将所述第一样本语音信号转换为所述第二类 型的第二样本语音信号,调用所述第二音频转换模型,将所述第二样本语音信 号转换为所述第一类型的第三样本语音信号;
获取第四样本语音信号,所述第四样本语音信号为所述第二类型的语音信 号;调用所述第二音频转换模型,将所述第四样本语音信号转换为所述第一类 型的第五样本语音信号,调用所述第一音频转换模型,将所述第五样本语音信 号转换为所述第二类型的第六样本语音信号;
根据所述第一样本语音信号和所述第三样本语音信号,以及,所述第四样 本语音信号和所述第六样本语音信号,进行模型训练,得到所述目标音频转换 模型。
在另一种可能的实现方式中,所述根据所述第一样本语音信号和所述第三 样本语音信号,以及,所述第四样本语音信号和所述第六样本语音信号,进行 模型训练,得到所述目标音频转换模型,包括:
根据所述第一样本语音信号、所述第三样本语音信号和第一转换损失函数, 确定所述第一音频转换模型的第一转换损失值;
根据所述第四样本语音信号、所述第六样本语音信号和第二转换损失函数, 确定所述第二音频转换模型的第二转换损失值;
根据用于训练所述目标音频转换模型的损失函数,确定所述目标音频转换 模型的模型损失值;
根据所述第一转换损失值、所述第二转换损失值和所述模型损失值,确定 目标损失值;
根据所述目标损失值,进行模型训练,得到所述目标音频转换模型。
在另一种可能的实现方式中,所述根据所述第一转换损失值、所述第二转 换损失值和所述模型损失值,确定目标损失值,包括:
将所述第一转换损失值、所述第二转换损失值和所述模型损失值进行加权 求和,得到所述目标损失值。
在另一种可能的实现方式中,所述根据所述第一样本语音信号、所述第三 样本语音信号和转换损失函数,确定所述第一音频转换模型的第一转换损失值, 包括:
确定所述第一样本语音信号和所述第三样本语音信号之间的转换差值;
将所述转换差值带入所述第一音频转换模型的转换损失函数中,得到所述 第一转换损失值。
另一方面,提供了一种语音信号处理装置,所述装置包括:
频谱处理模块,被配置为响应于对第一语音信号进行目标操作,对所述第 一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,所述第一语 音信号为第一类型的语音信号;
模型调用模块,被配置为调用目标音频转换模型,所述目标音频转换模型 为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的,所述第一 音频转换模型用于将所述第一类型的语音信号转换为所述第二类型的语音信 号,所述第二音频转换模型用于将所述第二类型的语音信号转换为所述第一类 型的语音信号;
语音转换模块,被配置为根据所述语谱图,通过所述目标音频转换模型, 将所述第一语音信号转换为所述第二类型的第二语音信号;
操作执行模块,被配置为对所述第二语音信号执行所述目标操作。
在一种可能的实现方式中,所述目标操作为训练所述第一类型对应的第一 语音识别模型;
所述操作执行模块包括:
泛化训练单元,被配置为根据所述第一语音信号和所述第二语音信号进行 模型泛化训练,得到所述第一语音识别模型。
在另一种可能的实现方式中,所述目标操作为语音识别;
所述操作执行模块包括:
语音识别单元,被配置为调用所述第二类型对应的第二语音识别模型,对 所述第二语音信号进行语音识别,得到语音识别结果;将所述语音识别结果作 为所述第一语音信号的语音识别结果。
在另一种可能的实现方式中,所述频谱处理模块包括:
分频处理单元,被配置为对所述第一语音信号进行分帧处理,得到第三语 音信号;
傅里叶变换单元,被配置为对所述第三语音信号进行傅里叶变换,确定所 述第三语音信号对应的频率点;
语谱图生成单元,被配置为根据所述频率点,生成所述第一语音信号对应 的语谱图。
在另一种可能的实现方式中,所述傅里叶变换单元,被配置为对所述第三 语音信号进行傅里叶变换,得到所述第三语音信号对应的频率特征点;从所述 第三语音信号对应的频率特征点中选择目标频率特征点;对所述目标频率特征 点的幅值进行频谱运算,得到所述第三语音信号对应的频率点。
在另一种可能的实现方式中,所述装置还包括:
第一获取模块,被配置为获取第一样本语音信号,所述第一样本语音信号 为所述第一类型的语音信号;调用所述第一音频转换模型,将所述第一样本语 音信号转换为所述第二类型的第二样本语音信号,调用所述第二音频转换模型, 将所述第二样本语音信号转换为所述第一类型的第三样本语音信号;
第二获取模块,被配置为获取第四样本语音信号,所述第四样本语音信号 为所述第二类型的语音信号;调用所述第二音频转换模型,将所述第四样本语 音信号转换为所述第一类型的第五样本语音信号,调用所述第一音频转换模型, 将所述第五样本语音信号转换为所述第二类型的第六样本语音信号;
模型训练模块,被配置为根据所述第一样本语音信号和所述第三样本语音 信号,以及,所述第四样本语音信号和所述第六样本语音信号,进行模型训练, 得到所述目标音频转换模型。
在另一种可能的实现方式中,所述模型训练模块包括:
第一确定单元,被配置为根据所述第一样本语音信号、所述第三样本语音 信号和第一转换损失函数,确定所述第一音频转换模型的第一转换损失值;
第二确定单元,被配置为根据所述第四样本语音信号、所述第六样本语音 信号和第二转换损失函数,确定所述第二音频转换模型的第二转换损失值;
第三确定单元,被配置为根据用于训练所述目标音频转换模型的损失函数, 确定所述目标音频转换模型的模型损失值;
第四确定单元,被配置为根据所述第一转换损失值、所述第二转换损失值 和所述模型损失值,确定目标损失值;
模型训练单元,被配置为根据所述目标损失值,进行模型训练,得到所述 目标音频转换模型。
在另一种可能的实现方式中,所述第四确定单元,被配置为将所述第一转 换损失值、所述第二转换损失值和所述模型损失值进行加权求和,得到所述目 标损失值。
在另一种可能的实现方式中,所述第一确定单元,被配置为确定所述第一 样本语音信号和所述第三样本语音信号之间的转换差值;将所述转换差值带入 所述第一音频转换模型的转换损失函数中,得到所述第一转换损失值。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所 述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现上 述任一种可能实现方式中的语音信号处理方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中 存储有至少一条指令,所述指令由处理器加载并执行以实现上述任一种可能实 现方式中的语音信号处理方法中电子设备执行的操作。
本公开实施例提供的技术方案带来的有益效果是:
在本公开实施例中,在第一语音信号的信号类型与能够执行目标操作的第 二类型不同的情况下,通过目标音频转换模型,对第一语音信号的语谱图进行 转换,得到第二类型的第二语音信号,对第二语音信号执行目标操作,因此, 在不能对第一语音信号执行目标操作时,能够通过转换第一语音信号的信号类 型来实现对第一语音信号的目标操作,而不需要重新优化目标操作,从而简化 了语音信号的处理流程,提高了语音信号处理的效率。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种语音信号处理方法的流程图;
图2是本公开实施例提供的一种语音信号处理方法的流程图;
图3是本公开实施例提供的一种语音信号处理方法的流程图;
图4是本公开实施例提供的一种语音信号处理方法的流程图;
图5是本公开实施例提供的一种语音信号处理方法的流程图;
图6是本公开实施例提供的一种语音信号处理方法的流程图;
图7是本公开实施例提供的一种语音信号处理装置的框图;
图8是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开 实施方式作进一步地详细描述。
首先对说明书中涉及到的专业术语做出解释:
生成对抗网络(Generative Adversarial Networks,简称GAN):是一种计算 机视觉技术,基本思想是用两个神经网络来进行对抗训练,生成网络用来拟合 数据的分布,判别网络用来判别所输入的数据是否是生成网络合成出来的伪数 据。生成对抗网络可以用来做很多事情,例如,生成人脸照片,图像超分辨率 重建,图像去噪,图图转化(风格迁移)等。
循环生成对抗网络(Cycle Generative Adversarial Networks,简称CycleGAN):可以用来处理图像到图像的翻译,即图图转换或者是风格迁移, 也就是说,把一个域中的图像映射到另一个域中。基本思想是利用两个GAN网 络来进行,将X域转换到Y域,再转回X域,结果应该和输入相似。CycleGAN 不需要成对的标签,只需要两个域中的数据,就可以训练。
X域和Y域:指不同信号类型的数据,相同信号类型的语音信号可以为同 一域中的信号。
在对第一语音信号进行目标操作时,可以通过本公开提供的方案,对第一 类型的第一语音信号的信号类型进行转换,得到第二类型的第二语音信号,对 该第二语音信号进行信号处理。
其中,在一种可能的实现方式中,该目标操作可以为训练该第一类型对应 的第一语音识别模型。也即,在对第一语音识别模型进行模型训练的过程中, 获取作为训练样本的第一语音信号。例如,在对用于识别近场的语音信号的语 音识别模型进行训练时,可以获取近场的样本语音信号,通过目标音频转换模 型将该近场的样本语音信号转换成远场的样本语音信号,从而丰富样本语音信 号的类型,通过近场的样本语音信号和远场的样本语音信号对语音识别模型进 行模型训练,得到语音识别模型。通过本公开提供的方案,对该第一语音信号 的信号类型进行转换得到第二类型的第二语音信号,通过第一语音信号和第二 语音信号对模型进行模型泛化训练,得到第一语音识别模型,使得训练得到的 第一语音识别模型可以识别更多类型的语音信号,从而丰富了模型训练的训练 样本,提高第一语音识别模型的泛化性能的同时,不需要获取其他的训练样本, 进而提高了语音信号处理的效率。
在另一种可能的实现方式中,该目标操作可以为语音识别。也即,在对第 一语音信号进行语音识别时,响应于当前的第二语音识别模型为第二类型的语 音信号进行识别的模型。例如,当前需要对变速后的语音信号进行识别,但当 前的语音识别模型识别原速的语音信号更准确时,可以采用目标音频转换模型 将变速后的语音信号转换成原速的语音信号,再通过语音识别模型对原速的语 音信号进行识别,从而得到相应的变速后的语音信号的识别结果。通过本公开 提供的方案对第一语音信号的信号类型进行转换得到第二类型的第二语音信 号,通过第二语音识别模型对第二语音信号进行识别,得到第一语音信号的语 音识别结果,从而通过对第一语音信号的信号类型进行转换,使得第二语音识 别模型可以对第二类型的第二语音信号进行识别,从而无需训练其他语音识别 模型也可以准确得到第一语音信号的语音识别结果,不仅提高了语音识别的准 确度,还节省了语音识别的成本。
图1是本公开实施例提供的一种语音信号处理方法的流程图。参见图1,该 实施例包括:
步骤101:响应于对第一语音信号进行目标操作,对该第一语音信号进行频 谱处理,得到该第一语音信号对应的语谱图,该第一语音信号为第一类型的语 音信号。
步骤102:调用目标音频转换模型,该目标音频转换模型为通过第一音频转 换模型和第二音频转换模型进行对抗训练得到的,该第一音频转换模型用于将 该第一类型的语音信号转换为该第二类型的语音信号,该第二音频转换模型用 于将该第二类型的语音信号转换为该第一类型的语音信号。
步骤103:根据该语谱图,通过该目标音频转换模型,将该第一语音信号转 换为该第二类型的第二语音信号。
步骤104:对该第二语音信号执行该目标操作。
在一种可能的实现方式中,该目标操作为训练该第一类型对应的第一语音 识别模型;
该对该第二语音信号执行该目标操作,包括:
根据该第一语音信号和该第二语音信号进行模型泛化训练,得到该第一语 音识别模型。
在另一种可能的实现方式中,该目标操作为语音识别;
该对该第二语音信号执行该目标操作,包括:
调用该第二类型对应的第二语音识别模型,对该第二语音信号进行语音识 别,得到语音识别结果;
将该语音识别结果作为该第一语音信号的语音识别结果。
在另一种可能的实现方式中,该对该第一语音信号进行频谱处理,得到该 第一语音信号对应的语谱图,包括:
对该第一语音信号进行分帧处理,得到第三语音信号;
对该第三语音信号进行傅里叶变换,确定该第三语音信号对应的频率点;
根据该频率点,生成该第一语音信号对应的语谱图。
在另一种可能的实现方式中,该对该第三语音信号进行傅里叶变换,确定 该第三语音信号对应的频率点,包括:
对该第三语音信号进行傅里叶变换,得到该第三语音信号对应的频率特征 点;
从该第三语音信号对应的频率特征点中选择目标频率特征点;
对该目标频率特征点的幅值进行频谱运算,得到该第三语音信号对应的频 率点。
在另一种可能的实现方式中,该调用目标音频转换模型之前,该方法还包 括:
获取第一样本语音信号,该第一样本语音信号为该第一类型的语音信号; 调用该第一音频转换模型,将该第一样本语音信号转换为该第二类型的第二样 本语音信号,调用该第二音频转换模型,将该第二样本语音信号转换为该第一 类型的第三样本语音信号;
获取第四样本语音信号,该第四样本语音信号为该第二类型的语音信号; 调用该第二音频转换模型,将该第四样本语音信号转换为该第一类型的第五样 本语音信号,调用该第一音频转换模型,将该第五样本语音信号转换为该第二 类型的第六样本语音信号;
根据该第一样本语音信号和该第三样本语音信号,以及,该第四样本语音 信号和该第六样本语音信号,进行模型训练,得到该目标音频转换模型。
在另一种可能的实现方式中,该根据该第一样本语音信号和该第三样本语 音信号,以及,该第四样本语音信号和该第六样本语音信号,进行模型训练, 得到该目标音频转换模型,包括:
根据该第一样本语音信号、该第三样本语音信号和第一转换损失函数,确 定该第一音频转换模型的第一转换损失值;
根据该第四样本语音信号、该第六样本语音信号和第二转换损失函数,确 定该第二音频转换模型的第二转换损失值;
根据用于训练该目标音频转换模型的损失函数,确定该目标音频转换模型 的模型损失值;
根据该第一转换损失值、该第二转换损失值和该模型损失值,确定目标损 失值;
根据该目标损失值,进行模型训练,得到该目标音频转换模型。
在另一种可能的实现方式中,该根据该第一转换损失值、该第二转换损失 值和该模型损失值,确定目标损失值,包括:
将该第一转换损失值、该第二转换损失值和该模型损失值进行加权求和, 得到该目标损失值。
在另一种可能的实现方式中,该根据该第一样本语音信号、该第三样本语 音信号和转换损失函数,确定该第一音频转换模型的第一转换损失值,包括:
确定该第一样本语音信号和该第三样本语音信号之间的转换差值;
将该转换差值带入该第一音频转换模型的转换损失函数中,得到该第一转 换损失值。
在本公开实施例中,在第一语音信号的信号类型与能够执行目标操作的第 二类型不同的情况下,通过目标音频转换模型,对第一语音信号的语谱图进行 转换,得到第二类型的第二语音信号,对第二语音信号执行目标操作,因此, 在不能对第一语音信号执行目标操作时,能够通过转换第一语音信号的信号类 型来实现对第一语音信号的目标操作,而不需要重新优化目标操作,从而简化 了语音信号的处理流程,提高了语音信号处理的效率。
电子设备在对第一语音信号进行目标操作时,当该第一语音信号不符合当 前目标操作对应的信号类型时,可以通过目标音频转换模型将第一语音信号转 换成目标操作对应的信号类型的第二语音信号。相应的,在此之前,电子设备 需要先获取目标音频转换模型。电子设备可以先对第一音频转换模型和第二音 频转换模型进行模型训练,得到目标音频转换模型。图2是本公开实施例提供 的一种语音信号处理方法的流程图。本实施例以对第一音频转换模型和第二音 频转换模型进行训练,得到目标音频转换模型为例进行说明。参见图2,该实施 例包括:
步骤201:电子设备获取第一样本语音信号,该第一样本语音信号为该第一 类型的语音信号。
其中,该第一样本语音信号用于对第一音频转换模型进行模型训练。该第 一样本语音信号可以为与第一语音信号的信号类型相同的样本语音信号。在对 第一音频转换模型和第二音频转换模型进行对抗训练前,获取第一音频转换模 型和第二音频转换模型的第一样本语音信号和第四样本语音信号。其中,该第 一样本语音信号和第二样本语音信号为信号类型不同的两种样本语音信号。该 第一类型可以为未处理原始信号类型,例如,任一信道类型、远场类型、近场 类型、任一声调类型、任一语速类型、加噪类型或加混响类型等信号类型中的 至少一个。
另外,电子设备还可以接收用户输入的第一样本语音信号。相应的,电子 设备接收用户输入的第一类型的第一样本语音信号。电子设备还可以从服务器 中获取第一样本语音信号。相应的,电子设备通过数据接口或无线网络从数据 库中获取第一类型的样本数据。其中,该数据库中存储的第一样本语音信号可 以为其他电子设备上传的语音信号。通过获取其他电子设备上传的第一样本语 音信号,从而丰富了第一样本语音信号的来源,降低了第一样本语音信号的获 取难度。
该第一样本语音信号的信号时长可以根据需要确定,在本公开实施例中, 对该第一样本语音信号的信号时长不作具体限定。例如,该第一样本语音信号 的信号时长可以为2s、2.5s或3s等。
该电子设备可以为终端也可以为服务器。相应的,当该电子设备为终端时, 该电子设备可以为手机、电脑、平板电脑或可穿戴设备等。当该电子设备为服 务器时该电子设备可以为单独的服务器,也可以是多个服务器组成的服务器集 群,还可以是云服务器等。在本公开实施例中,对此不作具体限定。
步骤202:电子设备调用第一音频转换模型,将该第一样本语音信号转换为 第二类型的第二样本语音信号,调用该第二音频转换模型,将该第二样本语音 信号转换为该第一类型的第三样本语音信号。
在本步骤中,电子设备获取第一音频转换模型和第二音频转换模型。其中, 该第一音频转换模型用于将该第一类型的语音信号转换为该第二类型的语音信 号,该第二音频转换模型用于将该第二类型的语音信号转换为该第一类型的语 音信号。
其中,第一类型为可以为未处理的语音信号的任一信道类型、远场类型、 近场类型、任一声调类型、任一语速类型、加噪类型或加混响类型等信号类型 中的一种;第二类型为与第一类型不同的任一信道类型、远场类型、近场类型、 任一声调类型、任一语速类型、加噪类型或加混响类型等信号类型中的任一种 信号类型。例如,第一类型可以为第一信道类型,则第二类型可以为第二信道 类型。
该第一音频转换模型和第二音频转换模型为目标音频转换模型对应的两个 神经网络,该第一音频转换模型和第二音频转换模型可以为相同类型的神经网 络。例如,该第一音频转换模型和第二音频转换模型均可以为GAN网络。通过 第一音频转换模型和第二音频转换模型对第一样本语音信号进行拟合,生成该 第一样本语音信号对应的相同信号类型的第三样本语音信号。其中,该拟合过 程为电子设备通过第一音频转换模型将第一样本语音信号转换为第二样本语音 信号,通过第二音频转换模型将该第二样本语音信号再转换为第一类型的第三 样本语音信号。参见图3,该第一样本语音信号为图3中X域中的第一样本语 音信号,通过第一音频转换模型F将第一样本语音信号转换到Y域中,得到第 二样本语音信号,再通过第二音频转换模型G将第二样本语音信号转换为X域 中的第三样本语音信号。其中,X域为第一类型的样本语音信号所在的域,Y 域为第二类型的样本语音信号所在的域。
需要说明的一点是,电子设备可以通过第一音频转换模型和第二音频转换 模型可以直接对音频格式的音频信号进行音频转换。相应的,在本步骤中,电 子设备可以直接将第一样本语音信号输入至第一音频转换模型中,得到第一样 本语音信号对应的第二类型的第二样本语音信号。电子设备还可以通过第一音 频转换模型和第二音频转换模型对语谱图格式的音频信号进行音频转换。相应 的,电子设备可以直接获取语谱图格式的第一样本语音信号。电子设备还可以 获取音频格式的第一样本语音信号,再对音频格式的第一样本语音信号进行傅 里叶变换,将音频格式的第一样本语音信号转换成语谱图格式的第一样本语音 信号。相应的,当该第一样本语音信号为语音信号时,电子设备在通过第一音频转换模型将第一样本语音信号转换为第二样本语音信号之前,确定该第一样 本语音信号的第一语谱图。该电子设备确定该第一样本语音信号的第一语谱图 的过程可以通过以下步骤(1)-(3)实现,包括:
(1)电子设备对该第一样本语音信号进行分帧处理,得到第七样本语音信 号。
电子设备可以根据预设帧长和预设帧移对第一样本语音信号进行分帧处 理。在本步骤中,电子设备将第一样本语音信号分帧成预设帧长对应的第七样 本语音信号。其中,每个第七样本语音信号的信号长度为预设帧长,每个第七 样本语音信号的起始位置的差值为预设帧移。该预设帧长和预设帧移可以根据 第一样本语音信号的信号时长进行设置并调整。例如,该预设帧长可以为25ms, 预设帧移可以为10ms等。
(2)电子设备对该第七样本语音信号进行傅里叶变换,确定该第七样本语 音信号对应的频率点。
电子设备可以采用任一种傅里叶变换来确定第七样本语音信号对应的频率 点。例如,电子设备可以采用短时傅里叶变换对第七样本语音信号进行傅里叶 变换。本步骤可以通过以下步骤(2-1)-(2-3)实现,包括:
(2-1)电子设备对该第七样本语音信号进行傅里叶变换,得到该第七样本 语音信号对应的频率特征点。
电子设备将第七样本语音信号中进行傅里叶变换后得到多个频率特征点。 例如,电子设备采用512点的短时傅里叶变换法,对第七样本语音信号进行傅 里叶变换,得到该第七样本语音信号对应的512个频率特征点。
(2-2)电子设备从该第七样本语音信号对应的频率特征点中选择目标频率 特征点。
在一种可能的实现方式中,电子设备可以从第七样本语音信号对应的频率 特征点中随机选择目标频率特征点。在另一种可能的实现方式中,该第七样本 语音信号对应的频率特征点为复数形式的共轭对称的频率特征点,因此,电子 设备可以选择共轭对称的频率特征点中的一个作为目标频率特征点。例如,电 子设备采用512点的短时傅里叶变换法,对第七样本语音信号进行傅里叶变换, 得到该第七样本语音信号对应的512个频率特征点,该512个频率特征点为共 轭对称的频率特征点,因此,可以从该512个频率特征中,选择共轭对称的一 半特征点,以及无共轭对称点的频率特征点,得到257个目标频率特征点。
(2-3)电子设备对该目标频率特征点的幅值进行频谱运算,得到该第七样 本语音信号对应的频率点。
在本步骤中,电子设备可以分别确定每个目标频率特征点对应的幅值,对 每个目标频率特征点对应的幅值进行取对数操作,也即对该幅值进行log运算, 得到第七样本语音信号对应的频率点。
(3)电子设备根据该频率点,生成该第一样本语音信号对应的第一语谱图。
对于第一样本语音信号分帧得到的T帧第七样本语音信号,通过上述步骤 (2-1)-(2-3),确定每帧第七样本语音信号对应的频率点,将该T帧第七样本 语音信号对应的频率点组成第一样本语音信号对应的第一语谱图。
在本实现方式中,通过将第一样本语音信号转换成第一音频转换模型可以 处理的第一语谱图,从而使得第一音频转换模型可以对语音信号进行转换处理。
需要说明的一点是,电子设备在通过第一音频转换模型将第一样本语音信 号转换成第二样本语音信号后,第二样本语音信号可以为对应的第二语谱图, 也可以为语音信号,相应的,在第二音频转换模型将第二样本语音信号转换第 三样本语音信号时,该第三样本语音信号可以为第三样本语音信号对应的语谱 图。在本公开实施例中,对此不作具体限定。
步骤203:电子设备获取第四样本语音信号,该第四样本语音信号为该第二 类型的语音信号。
本步骤与步骤201相似,在此不再赘述。
步骤204:电子设备调用该第二音频转换模型,将该第四样本语音信号转换 为该第一类型的第五样本语音信号,调用该第一音频转换模型,将该第五样本 语音信号转换为该第二类型的第六样本语音信号。
请继续参见图3,本步骤与步骤202相似,在此不再赘述。
需要说明的一点是,电子设备可以先对第一样本语音信号进行转换,再对 第四样本语音信号进行转换。电子设备也可以先对第四样本语音信号进行转换, 再对第一样本语音信号进行转换。电子设备还可以同时对第一样本语音信号和 第四样本语音信号进行转换。也即,电子设备可以先执行步骤201和202,再执 行步骤203和204。电子设备也可以先执行步骤203和204,再执行不走201和 202。电子设备还可以同执行步骤201和202,以及步骤203和204。在本公开 实施例中,对步骤201-202和步骤203-204的执行顺序不作具体限定。
步骤205:电子设备根据该第一样本语音信号、该第三样本语音信号和第一 转换损失函数,确定该第一音频转换模型的第一转换损失值。
在本步骤中,电子设备根据该第一样本语音信号和第三样本语音信号之间 的差值,确定第一样本语音信号转换成第三样本语音信号后的差值,根据该差 值确定第一转换损失值。本步骤可以通过以下步骤(1)-(2)实现,包括:
(1)电子设备确定该第一样本语音信号和该第三样本语音信号之间的转换 差值。
在本步骤中,电子设备分别计算第一样本语音信号和第三样本语音信号的 之间的转换差值。其中,该第一样本语音信号和第三样本语音信号都可以为语 谱图,相应的,在本步骤中,电子设备可以确定第一样本语音信号对应的第一 语谱图和第三样本语音信号对应的第二语谱图,通过对比第一语谱图和第二语 谱图中相同频率点,确定第一样本语音信号和第三样本语音信号之间的转换差 值。
(2)电子设备将该转换差值带入该第一音频转换模型的第一转换损失函数 中,得到该第一转换损失值。
其中,第一音频转换模型由生成网络和判别网络组成。其中,生成网络用 于拟合数据分布,判别网络用于判断输入的数据是否为生成网络合成出来的。 因此,该第一音频转换模型对应的第一转换损失函数由生成网络的损失函数和 判别网络的损失函数组成。其中,生成网络的损失函数可以由判别网络固定时 生成网络的损失函数表示,判别网络的损失函数可以由生成网络固定时判别网 络的损失函数表示。其中,这两种损失函数均可以为期望形式的损失函数,相 应的,该第一转换损失值可以通过以下公式一计算。
公式一:
Figure BDA0002586303420000161
其中,LGAN(F,DX,X,Y)表示第一转换损失值;
Figure BDA0002586303420000162
表示 第一语音信号转换模型的生成网络一定时,判别网络的损失函数,
Figure BDA0002586303420000163
表示第一语音信号转换模型的判别网络一定时, 生成网络的损失函数,DX表示第一音频转换模型的判别网络,F为第一音频转 换模型的生成网络。
步骤206:电子设备根据该第四样本语音信号、该第六样本语音信号和第二 转换损失函数,确定该第二音频转换模型的第二转换损失值。
本步骤与步骤205相似,在此不再赘述。
步骤207:电子设备根据用于训练该目标音频转换模型的损失函数,确定该 目标音频转换模型的模型损失值。
其中,该目标音频转换模型为通过第一音频转换模型和第二音频转换模型 进行对抗训练的到的音频转换模型,也即该目标音频转换模型为通过CycleGAN 训练得到的。相应的,该目标音频转换模型的损失函数可以为第一音频转换模 型和第二音频转换模型的损失函数的和。其中,第一音频转换模型的损失函数 和第二音频转换模型的损失函数可以为相同的损失函数也可以为不同的损失函 数,在本公开实施例中,对此不作具体限定。其中,该目标音频转换模型的损 失函数可以分别根据第一类型的语音信号进行转化后仍属于第一类型的期望 值,以及第二类型的语音信号进行转化后仍属于第二类型的期望值。相应的, 该损失函数可以通过以下公式二表示。
公式二:
Figure BDA0002586303420000164
其中,Lcyc(G,F)标识目标音频转换模型的损失值,
Figure BDA0002586303420000171
表示第一类型的语音信号进行转化后仍属于第一类 型的期望值,
Figure BDA0002586303420000172
表示第二类型的语音信号进行转化后 仍属于第二类型的期望值,G为第二音频转换模型的生成网络,F为第一音频转 换模型的生成网络。
步骤208:电子设备根据该第一转换损失值、该第二转换损失值和该模型损 失值,确定目标损失值。
电子设备将第一转换损失值、第二转换损失值和模型损失值求和得到目标 损失值。其中,电子设备可以将该第一转换损失值、该第二转换损失值和该模 型损失值进行加权求和,得到该目标损失值。
其中,该第一转换损失值、该第二转换损失值和该模型损失值对应的权重 可以根据需要进行设置,并且,该第一转换损失值、该第二转换损失值和该模 型损失值的权重可以相同也可以不同。相应的,该目标损失值可以由以下公式 三表示。
公式三:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λLcyc(G,F)
其中,L(G,F,DX,DY)表示目标损失值,LGAN(G,DY,X,Y)表示第一转换损 失值,LGAN(F,DX,Y,X)表示第二转换损失值,Lcyc(G,F)表示目标音频转换模 型的模型损失值,λ表示目标音频转换模型的模型损失值的权重,G为第二音频 转换模型的生成网络,F为第一音频转换模型的生成网络,DX第一音频转换模 型的判别网络,DY第二音频转换模型的判别网络。
步骤209:电子设备根据该目标损失值,进行模型训练,得到该目标音频转 换模型。
在本步骤中,电子设备根据该目标损失值,确定本次训练的目标损失值与 上一次训练的目标损失值之间的差值,将该差值确定为损失梯度,训练过程中 电子设备根据损失梯度确定当前参数的调整方式是否正确。相应的,当该损失 梯度减小时,说明当前损失梯度调整方式正确,则电子设备可以继续以当前的 参数调整方式调整该第一音频转换模型和第二音频转换模型的模型参数。当该 损失梯度增大时,说明当前损失梯度的调整方式不正确,则电子设备调整当前 的参数调整方式,通过新的参数调整方式继续调整第一音频转换模型和第二音 频转换模型的模型参数,直到该损失梯度小于预设梯度值完成模型训练,得到 所述目标音频转换模型。
需要说明的一点是,上述对目标音频转换模型进行模型训练的过程还可以 由其他电子设备进行。相应的,电子设备获取目标音频转换模型的过程可以为: 电子设备向其他电子设备发送模型获取请求,其他电子设备接收该模型获取请 求,根据该模型获取请求获取目标音频转换模型,将该目标音频转换模型发送 给电子设备,电子设备接收其他电子设备发送的目标音频转换模型。其中,其 他电子设备训练目标音频转换模型的过程与电子设备训练目标音频转换模型的 过程相似,在此不再赘述。
在本公开实施例中,通过第一音频转换模型和第二音频转换模型,将第一 音频转换模型和第二音频转换模型对第一样本语音信号和第四样本语音信号机 型转换,从而根据转换得到的第三样本语音信号和第六样本语音信号对第一音 频转换模型和第二音频转换模型进行转换,完成目标音频转换模型的训练,以 便可以根据该目标音频转换模型对语音信号进行转换,从而无需增加其他音频 识别模型就可以识别多种类型的语音信号,并且,可以通过该目标音频转换模 型对语音信号的信号类型进行转换,从而实现丰富语音识别模型的训练样本。
在本公开实施例中,在第一语音信号的信号类型与能够执行目标操作的第 二类型不同的情况下,通过目标音频转换模型,对第一语音信号的语谱图进行 转换,得到第二类型的第二语音信号,对第二语音信号执行目标操作,因此, 在不能对第一语音信号执行目标操作时,能够通过转换第一语音信号的信号类 型来实现对第一语音信号的目标操作,而不需要重新优化目标操作,从而简化 了语音信号的处理流程,提高了语音信号处理的效率。
图4是本公开实施例提供的一种语音信号处理方法的流程图。本实施例以 在对第一语音信号进行目标操作时,对第一语音信号进行音频转换为例进行说 明。参见图4,该实施例包括:
步骤401:响应于对第一语音信号进行目标操作,电子设备对该第一语音信 号进行分帧处理,得到第三语音信号。
在对第一语音信号进行目标操作时,确定该第一语音信号的信号类型是否 满足音频信号的信号类型,当第一语音信号的信号类型满足目标操作对应的类 型时,电子设备可以直接对第一语音信号执行目标操作。当第一语音信号的信 号类型不满足目标操作对应的信号类型时,将该第一语音信号转换成目标操作 对应的信号类型。
响应于电子设备接收到目标操作指令,确定对第一语音信号进行目标操作。 其中,该目标操作指令可以为训练该第一类型对应的第一语音识别模型的指令, 或者,该目标操作指令可以为语音识别指令。
相应的,在一种可能的实现方式中,电子设备可以通过该目标音频转换模 型对训练语音识别模型所需的样本数据进行扩展,则该第一语音信号为模型训 练过程中,需要的样本语音信号。在另一种可能的实现方式中,电子设备可以 通过该目标音频转换模型对待识别的语音信号的信号类型进行转换,则第一语 音信号为待识别的语音信号。例如,电子设备可以对问答系统中的接收到的语 音信号进行转换,转换成问答系统中识别准确率更高的类型的语音信号。
在本步骤之前,电子设备需要获取第一语音信号。该第一语音信号可以为 在对第一语音识别模型进行模型训练时需要使用的语音信号。相应的,该第一 语音信号可以为从样本数据库中获取的语音信号。该第一语音信号还可以为第 二语音识别模型待识别的语音信号,相应的,第一语音信号可以为用户输入的 待识别的语音信号。
另外,电子设备对该第一语音信号进行分帧处理的操作与步骤202中的步 骤(1)相似,在此不再赘述。
步骤402:电子设备对该第三语音信号进行傅里叶变换,确定该第三语音信 号对应的频率点。
本步骤与步骤202中的步骤(2)相似,在此不再赘述。
步骤403:电子设备根据该频率点,生成该第一语音信号对应的语谱图。
本步骤与步骤202中的步骤(3)相似,在此不再赘述。
步骤404:电子设备调用目标音频转换模型,该目标音频转换模型为通过第 一音频转换模型和第二音频转换模型进行对抗训练得到的,该第一音频转换模 型用于将该第一类型的语音信号转换为该第二类型的语音信号,该第二音频转 换模型用于将该第二类型的语音信号转换为该第一类型的语音信号。
在本步骤中,电子设备确定当前第一语音信号的第一类型;以及确定目标 操作对应的第二类型,确定该第一类型和第二类型,根据该第一类型和第二类 型调用可以对第一类型和第二类型进行转换的目标音频转换模型。
在一种可能的实现方式中,电子设备中可以存储多个音频转换模型,其中, 不同的音频转换模型对应不同类型的语音信号转换功能。相应的,在本步骤中, 电子设备根据第一类型和第二类型从多个音频转换模型中,获取用于对第一类 型和第二类型进行转换的目标音频转换模型。
在本实现方式中,电子设备中存储多个音频转换模型,从而可以在音频转 换的过程中,选择任一音频转化模型进行音频转换,从而使音频转换过程更符 合音频中语音信号类型,提高了音频转换的准确性。
在另一种可能的实现方式中,目标音频转换模型中集成了多种类型的音频 转换网络,相应的,在本步骤中,电子设备获取目标音频转换模型,通过第一 类型和第二类型确定目标音频转换模型中的音频转换网络,从而通过该音频转 换网络将对第一语音信号进行音频转换。
在本实现方式中,电子设备将多了音频转换网络集成在同一目标音频转换 模型中,从而节省了电子设备存储目标音频转换模型的存储空间。
步骤405:电子设备根据该语谱图,通过该目标音频转换模型,将该第一语 音信号转换为该第二类型的第二语音信号。
在本步骤中,电子设备通过目标音频转换模型将该第一语音信号对应的语 谱图转换成第二类型的语谱图,电子设备可以直接将该第二类型的语谱图作为 第二语音信号。电子设备还可以将该第二类型的语谱图转换成第二语音信号。 在本公开实施例中,对此不作具体限定。
其中,电子设备将第二类型的语谱图转换成第二语音信号的过程可以为: 电子设备可以直接通过该目标音频转换模型将该第二类型的语谱图转换成第二 语音信号。电子设备还可以获取目标音频转换模型输出的第二类型的语谱图, 再将该第二类型的语谱图转换成第二语音信号。
步骤406:电子设备对该第二语音信号执行该目标操作。
在本步骤中,电子设备根据目标操作对第二语音信号进行语音信号处理。
在本公开实施例中,在第一语音信号的信号类型与能够执行目标操作的第 二类型不同的情况下,通过目标音频转换模型,对第一语音信号的语谱图进行 转换,得到第二类型的第二语音信号,对第二语音信号执行目标操作,因此, 在不能对第一语音信号执行目标操作时,能够通过转换第一语音信号的信号类 型来实现对第一语音信号的目标操作,而不需要重新优化目标操作,从而简化 了语音信号的处理流程,提高了语音信号处理的效率。
该目标操作可以为训练该第一类型对应的第一语音识别模型。在对第一语 音识别模型进行模型训练的过程中,获取作为训练样本的第一语音信号。相应 的,参见图5,图5是本公开实施例提供的一种语音信号处理方法的流程图。在 本公开实施例中,以通过第一语音信号对第一语音识别模型进行模型训练为例 进行说明。该实施例包括:
步骤501:电子设备获取第一语音识别模型。
其中,该第一语音识别模型可以为任一类型的语音识别模型。例如,该语 音识别模型可以为语义理解模型、语音翻译模型等。
步骤502:响应于对第一语音识别模型进行模型训练,电子设备获取第一类 型的第一语音信号。
本步骤与步骤401中,电子设备获取第一语音信号的过程相似,在此不再 赘述。
步骤503:电子设备根据该第一语音信号,获取第二类型的第二语音信号。
本步骤可以通过步骤401-405实现,在此不再赘述。
步骤504:电子设备根据该第一语音信号和该第二语音信号进行模型泛化训 练,得到该第一语音识别模型。
在本步骤中,电子设备分别根据第一类型的第一语音信号和第二类型的第 二语音信号对第一语音识别模型进行模型训练。
其中,该第二类型可以为与第一类型不同的任一信号类型。并且,在本公 开实施例中,可以通过目标音频转换模型将第一语音信号转换成多种不同信号 类型的第二语音信号,从而通过多种不同类型的第二语音信号对第一语音识别 模型进行模型训练。
在本公开实施例中,通过在对第一语音识别模型进行模型训练的过程中, 获取作为训练样本的第一语音信号,通过本公开提供的方案,对该第一语音信 号的信号类型进行转换得到第二类型的第二语音信号,通过第一语音信号和第 二语音信号对模型进行模型泛化训练,得到第一语音识别模型,使得训练得到 的第一语音识别模型可以识别更多类型的语音信号,从而丰富了模型训练的训 练样本,提高第一语音识别模型的泛化性能的同时,不需要获取其他的训练样 本。
在本公开实施例中,在第一语音信号的信号类型与能够执行目标操作的第 二类型不同的情况下,通过目标音频转换模型,对第一语音信号的语谱图进行 转换,得到第二类型的第二语音信号,对第二语音信号执行目标操作,因此, 在不能对第一语音信号执行目标操作时,能够通过转换第一语音信号的信号类 型来实现对第一语音信号的目标操作,而不需要重新优化目标操作,从而简化 了语音信号的处理流程,提高了语音信号处理的效率。
该目标操作可以为对第一语音信号进行语音识别。在对第一语音信号进行 识别的过程中,将第一语音信号转换为符合第二语音识别模型的识别类型的语 音信号。相应的,参见图6,图6是本公开实施例提供的一种语音信号处理方法 的流程图。在本公开实施例中,以通过第二语音识别模型对第一语音信号进行 识别为例进行说明。该实施例包括:
步骤601:电子设备获取第二语音识别模型。
其中,该第二语音识别模型可以为任一类型的语音识别模型。例如,该语 音识别模型可以为语义理解模型、语音翻译模型等。并且,该第二语音识别模 型可以准确识别第二类型的语音信号。
步骤602:响应于通过第二语音信号识别模型对第一语音信号进行语音识 别,电子设备获取第一类型的第一语音信号。
本步骤与步骤401中,电子设备获取第一语音信号的过程相似,在此不再 赘述。
步骤603:电子设备根据该第一语音信号,获取第二类型的第二语音信号。
本步骤可以通过步骤401-405实现,在此不再赘述。
步骤604:电子设备调用该第二类型对应的第二语音识别模型,对该第二语 音信号进行语音识别,得到语音识别结果,将该语音识别结果作为该第一语音 信号的语音识别结果。
该第二语音识别模型为用于识别第二类型的语音信号的语音识别模型。其 中,该语音识别结果可以为语音信号对应的文本结果、语音信号对应的用户的 年龄、性别、意图等结果。
在一种可能的实现方式中,电子设备通过第二语音识别模型对第二语音信 号进行识别,将第二语音信号对应的语音识别结果作为第一语音信号的识别结 果。在另一种可能的实现方式中,电子设备通过该第二语音识别模型分别识别 第一语音信号和第二语音信号,响应于第一语音信号和第二语音信号对应的识 别结果相同时,将该相同的语音识别结果作为该第一语音信号的云识别结果、 响应于该第一语音信号和第二语音信号对应的识别结果不同时,分别展示该第 一语音信号和第二语音信号对应的语音识别结果,响应于接收到语音识别结果 的确定操作,将该语音识别结果的确定操作对应的语音识别结果确定为第一语 音信号对应的语音识别结果。
在本公开实施例中,通过在对第一语音信号进行语音识别时,响应于当前 的第二语音识别模型为第二类型的语音信号进行识别的模型,通过本公开提供 的方案对第一语音信号的信号类型进行转换得到第二类型的第二语音信号,通 过第二语音识别模型对第二语音信号进行识别,得到第一语音信号的语音识别 结果,从而通过对第一语音信号的信号类型进行转换,使得第二语音识别模型 可以对第二类型的第二语音信号进行识别,从而无需训练其他语音识别模型也 可以准确得到第一语音信号的语音识别结果,不仅提高了语音识别的准确度, 还节省了语音识别的成本。
在本公开实施例中,在第一语音信号的信号类型与能够执行目标操作的第 二类型不同的情况下,通过目标音频转换模型,对第一语音信号的语谱图进行 转换,得到第二类型的第二语音信号,对第二语音信号执行目标操作,因此, 在不能对第一语音信号执行目标操作时,能够通过转换第一语音信号的信号类 型来实现对第一语音信号的目标操作,而不需要重新优化目标操作,从而简化 了语音信号的处理流程,提高了语音信号处理的效率。
图7是本公开实施例提供的一种语音信号处理装置的框图。参见图7,该装 置包括:
频谱处理模块701,被配置为响应于对第一语音信号进行目标操作,对该第 一语音信号进行频谱处理,得到该第一语音信号对应的语谱图,该第一语音信 号为第一类型的语音信号;
模型调用模块702,被配置为调用目标音频转换模型,该目标音频转换模型 为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的,该第一音 频转换模型用于将该第一类型的语音信号转换为该第二类型的语音信号,该第 二音频转换模型用于将该第二类型的语音信号转换为该第一类型的语音信号;
语音转换模块703,被配置为根据该语谱图,通过该目标音频转换模型,将 该第一语音信号转换为该第二类型的第二语音信号;
操作执行模块704,被配置为对该第二语音信号执行该目标操作。
在一种可能的实现方式中,该目标操作为训练该第一类型对应的第一语音 识别模型;
该操作执行模块704包括:
泛化训练单元,被配置为根据该第一语音信号和该第二语音信号进行模型 泛化训练,得到该第一语音识别模型。
在另一种可能的实现方式中,该目标操作为语音识别;
该操作执行模块704包括:
语音识别单元,被配置为调用该第二类型对应的第二语音识别模型,对该 第二语音信号进行语音识别,得到语音识别结果;将该语音识别结果作为该第 一语音信号的语音识别结果。
在另一种可能的实现方式中,该频谱处理模块701包括:
分频处理单元,被配置为对该第一语音信号进行分帧处理,得到第三语音 信号;
傅里叶变换单元,被配置为对该第三语音信号进行傅里叶变换,确定该第 三语音信号对应的频率点;
语谱图生成单元,被配置为根据该频率点,生成该第一语音信号对应的语 谱图。
在另一种可能的实现方式中,该傅里叶变换单元,被配置为对该第三语音 信号进行傅里叶变换,得到该第三语音信号对应的频率特征点;从该第三语音 信号对应的频率特征点中选择目标频率特征点;对该目标频率特征点的幅值进 行频谱运算,得到该第三语音信号对应的频率点。
在另一种可能的实现方式中,该装置还包括:
第一获取模块,被配置为获取第一样本语音信号,该第一样本语音信号为 该第一类型的语音信号;调用该第一音频转换模型,将该第一样本语音信号转 换为该第二类型的第二样本语音信号,调用该第二音频转换模型,将该第二样 本语音信号转换为该第一类型的第三样本语音信号;
第二获取模块,被配置为获取第四样本语音信号,该第四样本语音信号为 该第二类型的语音信号;调用该第二音频转换模型,将该第四样本语音信号转 换为该第一类型的第五样本语音信号,调用该第一音频转换模型,将该第五样 本语音信号转换为该第二类型的第六样本语音信号;
模型训练模块,被配置为根据该第一样本语音信号和该第三样本语音信号, 以及,该第四样本语音信号和该第六样本语音信号,进行模型训练,得到该目 标音频转换模型。
在另一种可能的实现方式中,该模型训练模块包括:
第一确定单元,被配置为根据该第一样本语音信号、该第三样本语音信号 和第一转换损失函数,确定该第一音频转换模型的第一转换损失值;
第二确定单元,被配置为根据该第四样本语音信号、该第六样本语音信号 和第二转换损失函数,确定该第二音频转换模型的第二转换损失值;
第三确定单元,被配置为根据用于训练该目标音频转换模型的损失函数, 确定该目标音频转换模型的模型损失值;
第四确定单元,被配置为根据该第一转换损失值、该第二转换损失值和该 模型损失值,确定目标损失值;
模型训练单元,被配置为根据该目标损失值,进行模型训练,得到该目标 音频转换模型。
在另一种可能的实现方式中,该第四确定单元,被配置为将该第一转换损 失值、该第二转换损失值和该模型损失值进行加权求和,得到该目标损失值。
在另一种可能的实现方式中,该第一确定单元,被配置为确定该第一样本 语音信号和该第三样本语音信号之间的转换差值;将该转换差值带入该第一音 频转换模型的转换损失函数中,得到该第一转换损失值。
在本公开实施例中,在第一语音信号的信号类型与能够执行目标操作的第 二类型不同的情况下,通过目标音频转换模型,对第一语音信号的语谱图进行 转换,得到第二类型的第二语音信号,对第二语音信号执行目标操作,因此, 在不能对第一语音信号执行目标操作时,能够通过转换第一语音信号的信号类 型来实现对第一语音信号的目标操作,而不需要重新优化目标操作,从而简化 了语音信号的处理流程,提高了语音信号处理的效率。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在 此不再一一赘述。
需要说明的是:上述实施例提供的语音信号处理装置在进行语音信号处理 时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而 将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功 能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音 信号处理装置与语音信号处理方法实施例属于同一构思,其具体实现过程详见 方法实施例,这里不再赘述。
图8示出了本公开一个示例性实施例提供的电子设备800的结构框图。该 电子设备800可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔 记本电脑或台式电脑。电子设备800还可能被称为用户设备、便携式电子设备、 膝上型电子设备、台式电子设备等其他名称。
通常,电子设备800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理 器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA (Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可 以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理 的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于 对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801 可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显 示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括 AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器 学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储 介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失 性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中, 存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少 一个指令用于被处理器801所执行以实现本申请中方法实施例提供的语音信号 处理方法。
在一些实施例中,电子设备800还可选包括有:外围设备接口803和至少 一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线 或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口 803相连。具体地,外围设备包括:射频电路804、触摸显示屏805、摄像头组 件806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少 一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、 存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实 施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以 在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电 磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。 射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号 转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多 个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块 卡等等。射频电路804可以通过至少一种无线通信协议来与其它电子设备进行 通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些 实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离 无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、 文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示 屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸 信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以 用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中, 显示屏805可以为一个,设置电子设备800的前面板;在另一些实施例中,显 示屏805可以为至少两个,分别设置在电子设备800的不同表面或呈折叠设计; 在再一些实施例中,显示屏805可以是柔性显示屏,设置在电子设备800的弯 曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形, 也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display,液晶显示屏)、 OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置 摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像 头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为 主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄 像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全 景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。 在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪 光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声 波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路 804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别 设置在电子设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦 克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。 扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电 陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号 转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807 还可以包括耳机插孔。
定位组件808用于定位电子设备800的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件808可以是基于美国的 GPS(Global Positioning System,全球定位系统)、中国的北斗系统、俄罗斯的 格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源809用于为电子设备800中的各个组件进行供电。电源809可以是交 流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该 可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充 技术。
在一些实施例中,电子设备800还包括有一个或多个传感器810。该一个或 多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传 感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以电子设备800建立的坐标系的三个坐标轴上 的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标 轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号, 控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感 器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测电子设备800的机体方向及转动角度,陀螺仪 传感器812可以与加速度传感器811协同采集用户对电子设备800的3D动作。 处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应 (比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯 性导航。
压力传感器813可以设置在电子设备800的侧边框和/或触摸显示屏805的 下层。当压力传感器813设置在电子设备800的侧边框时,可以检测用户对电 子设备800的握持信号,由处理器801根据压力传感器813采集的握持信号进 行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时, 由处理器801根据用户对触摸显示屏805的压力操作,实现对UI界面上的可操 作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜 单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814 采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识 别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户 执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、 支付及更改设置等。指纹传感器814可以被设置电子设备800的正面、背面或 侧面。当电子设备800上设置有物理按键或厂商Logo时,指纹传感器814可以 与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以 根据光学传感器815采集的环境光强度,控制触摸显示屏805的显示亮度。具 体地,当环境光强度较高时,调高触摸显示屏805的显示亮度;当环境光强度 较低时,调低触摸显示屏805的显示亮度。在另一个实施例中,处理器801还 可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄 参数。
接近传感器816,也称距离传感器,通常设置在电子设备800的前面板。接 近传感器816用于采集用户与电子设备800的正面之间的距离。在一个实施例 中,当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变小 时,由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态;当接近传 感器816检测到用户与电子设备800的正面之间的距离逐渐变大时,由处理器 801控制触摸显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对电子设备800的 限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同 的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存 储介质中存储有至少一条指令,上述至少一条指令可由服务器中的处理器执行 以完成上述实施例中的语音信号处理方法。例如,所述计算机可读存储介质可 以是ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory, 随机存取存储器)、CD-ROM(CompactDisc Read-Only Memory,只读光盘)、 磁带、软盘和光数据存储设备等。
本公开还提供了一种计算机程序产品,当计算机程序产品中的指令由终端 或服务器的处理器执行时,使得终端或服务器能够执行上述各个方法实施例提 供的语音信号处理方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于 一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或 光盘等。
以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的 保护范围之内。

Claims (12)

1.一种语音信号处理方法,其特征在于,所述方法包括:
响应于对第一语音信号进行目标操作,对所述第一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,所述第一语音信号为第一类型的语音信号;
调用目标音频转换模型,所述目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的,所述第一音频转换模型用于将所述第一类型的语音信号转换为所述第二类型的语音信号,所述第二音频转换模型用于将所述第二类型的语音信号转换为所述第一类型的语音信号;
根据所述语谱图,通过所述目标音频转换模型,将所述第一语音信号转换为所述第二类型的第二语音信号;
对所述第二语音信号执行所述目标操作。
2.根据权利要求1所述的方法,其特征在于,所述目标操作为训练所述第一类型对应的第一语音识别模型;
所述对所述第二语音信号执行所述目标操作,包括:
根据所述第一语音信号和所述第二语音信号进行模型泛化训练,得到所述第一语音识别模型。
3.根据权利要求1所述的方法,其特征在于,所述目标操作为语音识别;
所述对所述第二语音信号执行所述目标操作,包括:
调用所述第二类型对应的第二语音识别模型,对所述第二语音信号进行语音识别,得到语音识别结果;
将所述语音识别结果作为所述第一语音信号的语音识别结果。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,包括:
对所述第一语音信号进行分帧处理,得到第三语音信号;
对所述第三语音信号进行傅里叶变换,确定所述第三语音信号对应的频率点;
根据所述频率点,生成所述第一语音信号对应的语谱图。
5.根据权利要求4所述的方法,其特征在于,所述对所述第三语音信号进行傅里叶变换,确定所述第三语音信号对应的频率点,包括:
对所述第三语音信号进行傅里叶变换,得到所述第三语音信号对应的频率特征点;
从所述第三语音信号对应的频率特征点中选择目标频率特征点;
对所述目标频率特征点的幅值进行频谱运算,得到所述第三语音信号对应的频率点。
6.根据权利要求1所述的方法,其特征在于,所述调用目标音频转换模型之前,所述方法还包括:
获取第一样本语音信号,所述第一样本语音信号为所述第一类型的语音信号;调用所述第一音频转换模型,将所述第一样本语音信号转换为所述第二类型的第二样本语音信号,调用所述第二音频转换模型,将所述第二样本语音信号转换为所述第一类型的第三样本语音信号;
获取第四样本语音信号,所述第四样本语音信号为所述第二类型的语音信号;调用所述第二音频转换模型,将所述第四样本语音信号转换为所述第一类型的第五样本语音信号,调用所述第一音频转换模型,将所述第五样本语音信号转换为所述第二类型的第六样本语音信号;
根据所述第一样本语音信号和所述第三样本语音信号,以及,所述第四样本语音信号和所述第六样本语音信号,进行模型训练,得到所述目标音频转换模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一样本语音信号和所述第三样本语音信号,以及,所述第四样本语音信号和所述第六样本语音信号,进行模型训练,得到所述目标音频转换模型,包括:
根据所述第一样本语音信号、所述第三样本语音信号和第一转换损失函数,确定所述第一音频转换模型的第一转换损失值;
根据所述第四样本语音信号、所述第六样本语音信号和第二转换损失函数,确定所述第二音频转换模型的第二转换损失值;
根据用于训练所述目标音频转换模型的损失函数,确定所述目标音频转换模型的模型损失值;
根据所述第一转换损失值、所述第二转换损失值和所述模型损失值,确定目标损失值;
根据所述目标损失值,进行模型训练,得到所述目标音频转换模型。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一转换损失值、所述第二转换损失值和所述模型损失值,确定目标损失值,包括:
将所述第一转换损失值、所述第二转换损失值和所述模型损失值进行加权求和,得到所述目标损失值。
9.根据权利要求7所述的方法,其特征在于,所述根据所述第一样本语音信号、所述第三样本语音信号和转换损失函数,确定所述第一音频转换模型的第一转换损失值,包括:
确定所述第一样本语音信号和所述第三样本语音信号之间的转换差值;
将所述转换差值带入所述第一音频转换模型的转换损失函数中,得到所述第一转换损失值。
10.一种语音信号处理装置,其特征在于,所述装置包括:
频谱处理模块,被配置为响应于对第一语音信号进行目标操作,对所述第一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,所述第一语音信号为第一类型的语音信号;
模型调用模块,被配置为调用目标音频转换模型,所述目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的,所述第一音频转换模型用于将所述第一类型的语音信号转换为所述第二类型的语音信号,所述第二音频转换模型用于将所述第二类型的语音信号转换为所述第一类型的语音信号;
语音转换模块,被配置为根据所述语谱图,通过所述目标音频转换模型,将所述第一语音信号转换为所述第二类型的第二语音信号;
操作执行模块,被配置为对所述第二语音信号执行所述目标操作。
11.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求9任一项所述的语音信号处理方法所执行的操作。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的语音信号处理方法所执行的操作。
CN202010682351.0A 2020-07-15 2020-07-15 语音信号处理方法、装置、电子设备及存储介质 Active CN111916105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010682351.0A CN111916105B (zh) 2020-07-15 2020-07-15 语音信号处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010682351.0A CN111916105B (zh) 2020-07-15 2020-07-15 语音信号处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111916105A true CN111916105A (zh) 2020-11-10
CN111916105B CN111916105B (zh) 2022-07-15

Family

ID=73280229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010682351.0A Active CN111916105B (zh) 2020-07-15 2020-07-15 语音信号处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111916105B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361357A (zh) * 2021-05-31 2021-09-07 北京达佳互联信息技术有限公司 图像处理模型训练方法、图像处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019884A1 (en) * 2014-07-18 2016-01-21 Nuance Communications, Inc. Methods and apparatus for training a transformation component
US20180033427A1 (en) * 2016-07-27 2018-02-01 Samsung Electronics Co., Ltd. Speech recognition transformation system
CN110400560A (zh) * 2019-07-24 2019-11-01 北京明略软件系统有限公司 数据处理方法及装置、存储介质、电子装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019884A1 (en) * 2014-07-18 2016-01-21 Nuance Communications, Inc. Methods and apparatus for training a transformation component
US20180033427A1 (en) * 2016-07-27 2018-02-01 Samsung Electronics Co., Ltd. Speech recognition transformation system
CN110400560A (zh) * 2019-07-24 2019-11-01 北京明略软件系统有限公司 数据处理方法及装置、存储介质、电子装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361357A (zh) * 2021-05-31 2021-09-07 北京达佳互联信息技术有限公司 图像处理模型训练方法、图像处理方法及装置

Also Published As

Publication number Publication date
CN111916105B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN110688082B (zh) 确定音量的调节比例信息的方法、装置、设备及存储介质
CN110110787A (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN111048111B (zh) 检测音频的节奏点的方法、装置、设备及可读存储介质
CN108335703B (zh) 确定音频数据的重音位置的方法和装置
CN109003621B (zh) 一种音频处理方法、装置及存储介质
CN109192218B (zh) 音频处理的方法和装置
CN108922506A (zh) 歌曲音频生成方法、装置和计算机可读存储介质
CN108831425B (zh) 混音方法、装置及存储介质
CN109065068B (zh) 音频处理方法、装置及存储介质
CN112261491B (zh) 视频时序标注方法、装置、电子设备及存储介质
CN113763228A (zh) 图像处理方法、装置、电子设备及存储介质
CN109102811B (zh) 音频指纹的生成方法、装置及存储介质
CN109192223B (zh) 音频对齐的方法和装置
CN109243479B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN111613213B (zh) 音频分类的方法、装置、设备以及存储介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN109961802B (zh) 音质比较方法、装置、电子设备及存储介质
CN113963707A (zh) 音频处理方法、装置、设备和存储介质
CN112133319B (zh) 音频生成的方法、装置、设备及存储介质
CN111916105B (zh) 语音信号处理方法、装置、电子设备及存储介质
CN109388732B (zh) 音乐地图的生成和显示方法、装置及存储介质
CN109036463B (zh) 获取歌曲的难度信息的方法、装置及存储介质
CN110992954A (zh) 语音识别的方法、装置、设备及存储介质
CN111063372B (zh) 确定音高特征的方法、装置、设备及存储介质
CN112329909B (zh) 生成神经网络模型的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant