CN113938749A - 音频数据处理方法、装置、电子设备和存储介质 - Google Patents

音频数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113938749A
CN113938749A CN202111454677.9A CN202111454677A CN113938749A CN 113938749 A CN113938749 A CN 113938749A CN 202111454677 A CN202111454677 A CN 202111454677A CN 113938749 A CN113938749 A CN 113938749A
Authority
CN
China
Prior art keywords
information
fundamental frequency
obtaining
audio data
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111454677.9A
Other languages
English (en)
Other versions
CN113938749B (zh
Inventor
侯建康
聂志朋
张立强
孙涛
贾磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111454677.9A priority Critical patent/CN113938749B/zh
Publication of CN113938749A publication Critical patent/CN113938749A/zh
Priority to US18/071,187 priority patent/US11984134B2/en
Priority to EP22210430.9A priority patent/EP4120265A3/en
Application granted granted Critical
Publication of CN113938749B publication Critical patent/CN113938749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本公开提供了一种音频数据处理方法,涉及人工智能技术领域,尤其涉及语音处理技术领域。具体实现方案为:对音频数据的谱数据进行处理,得到第一特征信息;根据第一特征信息,得到基频指示信息,基频指示信息指示了第一特征信息中的有效音频数据和无效音频数据;根据第一特征信息和基频指示信息,得到基频信息和谱能量信息;以及根据基频信息和谱能量信息,得到音频数据的谐波结构信息。本公开还提供了一种音频数据处理装置、电子设备和存储介质。

Description

音频数据处理方法、装置、电子设备和存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及语音处理技术。更具体地,本公开提供了一种音频数据处理方法、装置、电子设备和存储介质。
背景技术
音频数据可以分解为周期数据和非周期数据。周期数据可以是谐波结构信息。谐波结构信息也是音频数据的重要组成部分。非周期数据可以是音频的底噪。
发明内容
本公开提供了一种音频数据处理方法、装置、设备以及存储介质。
根据第一方面,提供了一种音频数据处理方法,该方法包括:对上述音频数据的谱数据进行处理,得到第一特征信息;根据上述第一特征信息,得到基频指示信息,上述基频指示信息指示了上述第一特征信息中的有效音频数据和无效音频数据;根据上述第一特征信息和基频指示信息,得到基频信息和谱能量信息;以及根据上述基频信息和谱能量信息,得到上述音频数据的谐波结构信息。
根据第二方面,提供了一种音频数据处理装置,该装置包括:处理模块,用于对上述音频数据的谱数据进行处理,得到第一特征信息;第一获得模块,用于根据上述第一特征信息,得到基频指示信息,上述基频指示信息指示了上述第一特征信息中的有效音频数据和无效音频数据;第二获得模块,用于根据上述第一特征信息和基频指示信息,得到基频信息和谱能量信息;以及第三获得模块,用于根据上述基频信息和谱能量信息,得到上述音频数据的谐波结构信息。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的一个实施例的音频数据处理方法的流程图;
图2A是根据本公开的一个实施例的音频数据处理方法的原理图;
图2B是根据本公开的另一个实施例的音频数据处理方法的原理图;
图3是根据本公开的一个实施例的对基频信息检测模型进行训练的流程图;
图4A是根据本公开的一个实施例的参考基频信息的示意图;
图4B是根据本公开的一个实施例的插值后的参考基频信息的示意图;
图5是根据本公开的另一个实施例的音频数据处理方法的原理图;
图6是根据本公开的一个实施例的音频数据处理装置的框图;以及
图7是根据本公开的一个实施例的可以应用音频数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
可以从音频数据分解出的一段周期数据。与该周期数据的周期相等的正弦波分量被称为基波分量。该基波分量的频率称为基频。频率等于基频的整数倍的正弦波分量被称为谐波。将基频和谐波相加,可以得到另一个周期数据,该周期数据为上述音频数据的谐波结构信息。
相关技术中,可利用纯数学的方式获取一个音频数据的谐波结构信息,比如利用相位声码器(Phase Vocoder)获取谐波结构信息。但该方式有较大的误差,而且获取谐波结构信息的过程不可导,无法与神经网络模型联合训练。
也可以利用深度学习网络获取一个音频数据的谐波结构信息。比如,可以并行地提取出音频数据的基频信息、全局能量分布信息和谐波能量分布信息,进而获取谐波结构信息。该方式可以有效地从乐器产生的音频数据中获取谐波结构信息。然而人类产生的音频数据比乐器产生的音频数据复杂。利用该方式从人类产生的音频数据中获取谐波结构信息时,会有较大的误差。
图1根据本公开的一个实施例的音频数据处理方法的流程图。
如图1所示,该方法100可以包括操作S110至操作S140。
在操作S110,对音频数据的谱数据进行处理,得到第一特征信息。
例如,音频数据可以是由人类发出的。在一个示例中,在用户朗诵指定语句时,进行音频录制,可以得到一个音频数据。
例如,谱数据可以包括梅尔谱数据。
例如,可以利用神经网络模型对音频数据的谱数据进行处理,得到第一特征信息。在一个示例中,神经网络模型可以是残差神经网络(Residual Neural Network)模型,比如Resnet-38模型或Resnet-64模型。
在操作S120,根据第一特征信息,得到基频指示信息。
在本公开实施例中,基频指示信息指示了第一特征信息中的有效音频数据和无效音频数据。
例如,可以将第一特征信息输入基频指示信息检测模型,得到基频指示信息。在一个示例中,基频指示信息检测模型可以是卷积神经网络(Convolution Neural Network,CNN)模型。
本领域技术人员可以理解,基于惯用的朗诵习惯,用户在朗诵指定语句时会有停顿,以进行断句。与停顿的时段对应的音频数据可以是无效音频数据。
在操作S130,根据第一特征信息和基频指示信息,得到基频信息和谱能量信息。
在本公开实施例中,可以根据第一特征信息和基频指示信息,得到第二特征信息。
例如,可以对第一特征信息和基频指示信息进行融合处理,得到第二特征信息。
在本公开实施例中,将第二特征信息输入基频信息检测模型,得到基频信息。
例如,基频信息检测模型可以是神经网络模型。在一个示例中,基频信息检测模型可以是卷积神经网络模型。
在本公开实施例中,根据第一特征信息、基频指示信息和基频信息,得到第三特征信息。
例如,可以对第一特征信息、基频指示信息和基频信息进行融合处理,得到第三特征信息。
在本公开实施例中,根据第三特征信息,得到谱能量信息。
例如,谱能量信息包括全局能量信息和谐波能量分布信息。
例如,根据第三特征信息,得到全局能量信息。在一个示例中,可以将第三特征信息输入全局能量信息检测模型,得到全局能量信息。在一个示例中,全局能量信息检测模型可以是卷积神经网络模型。
例如,根据第一特征信息、基频指示信息、基频信息和全局能量信息,得到谐波能量分布信息。在一个示例中,可以对第一特征信息、基频指示信息、基频信息和全局能量信息进行融合处理,得到第四特征信息。在一个示例中,在获得第四特征信息之后,可以将第四特征信息输入谐波能量分布信息检测模型,得到谐波能量分布信息。在一个示例中,谐波能量分布信息检测模型可以是卷积神经网络模型。
需要说明的是,谐波能量分布信息检测模型的参数、上述全局能量信息检测模型的参数、上述基频信息检测模型的参数或上述基频指示信息检测模型的参数,可以不同
需要说明的是,上述融合处理可以是拼接处理。
在操作S140,根据基频信息和谱能量信息,得到音频数据的谐波结构信息。
例如,谐波结构信息可以由一组正弦波叠加得到。
例如,在第n时刻,可以通过以下公式根据全局能量信息和谐波能量分布信息得到正弦波的能量信息Ak(n):
Ak(n)=A(n)ck(n) (公式一)
A(n)为全局能量信息,ck(n)为谐波能量分布信息。
可以通过以下公式根据基频得到上述一组正弦波中各个正弦波的频率fk(n):
fk(n)=kf0(n) (公式二)
f0(n)为基频信息,k为正弦波的数量。
可以通过以下公式根据正弦波的频率fk(n)得到正弦波的相位Φk(n):
Figure BDA0003384907300000051
可以通过以下公式根据相位Φk(n)和能量信息Ak(n)得到谐波结构信息x(n):
Figure BDA0003384907300000052
通过本公开实施例,充分利用了级联的基频指示信息检测网络、基频信息检测网络、全局能量信息检测网络、谐波能量分布信息检测网络的输出,显著降低了从音频数据中提取谐波结构信息的误差。
可以利用谐波结构信息生成音频数据,但根据方法100获得的谐波结构信息中几乎没有底噪。仅根据该谐波结构信息生成的音频数据是不真实的,与真实的人声差别较大。
在一些实施例中,上文所述的音频数据的处理方法还可以包括:根据第一特征信息,得到音频数据中的噪声信息;根据谐波结构信息和噪声信息,得到合成音频数据。
例如,可以利用任意滤波模型,从第一特征信息中滤除周期性的数据,以得到音频数据中的噪声信息。
例如,根据谐波结构信息和噪声信息,利用任意方式,可以得到合成音频数据。在一个示例中,谐波结构信息可以作为无底噪的音频,与噪声信息叠加后,得到的合成音频数据更接近正常的人声。
图2A是根据本公开的一个实施例的音频数据处理方法的原理图。
如图2A所示,可以将谱数据211输入特征提取模型221,进行处理,得到第一特征信息212。特征提取模型221可以是残差神经网络模型,比如Resnet-64模型。第一特征信息212可以是一个2×N的特征向量。
可以将第一特征信息212输入基频指示信息检测模型222,得到基频指示信息213。基频指示信息213可以是一个1×N的特征向量。
可以将基频指示信息213和第一特征信息212拼接,得到第二特征信息。将第二特征信息输入基频信息检测模型223,得到基频信息214。第二特征信息可以是一个3×N的特征向量,基频指示信息213可以是一个2×N的特征向量。
可以将基频信息214、基频指示信息213和第一特征信息212拼接,得到第三特征信息。将第三特征信息输入全局能量信息检测模型224,得到全局能量信息215。第三特征信息可以是一个5×N的特征向量,全局能量信息215可以是一个2×N的特征向量。
可以将全局能量信息215、基频信息214、基频指示信息213和第一特征信息212拼接,得到第四特征信息。将第四特征信息输入谐波能量分布信息检测模型225,得到谐波能量分布信息216。第四特征信息可以是一个7×N的特征向量,谐波能量分布信息216可以是一个2×N的特征向量。
接下来,可以根据谐波能量分布信息216、全局能量信息215和基频信息214,得到谐波结构信息217。例如,可以利用上述公式一至公式四,根据谐波能量分布信息216、全局能量信息215和基频信息214,得到谐波结构信息217。
图2B是根据本公开另一个实施例的音频数据处理方法的原理图
如图2B所示,与图2A不同之处在于,本示例中,在将第一特征信息212输入基频指示信息检测模型222的同时或之后,可以将第一特征信息212输入滤波模型226,得到噪声信息218。在一个示例中,滤波模型226可以滤除第一特征信息212中的周期性数据,得到非周期性的特征信息。并且滤波模型226还可以将该非周期性的特征信息和预设白噪声信息融合,得到噪声信息218。
在获得谐波结构信息217之后,可以将谐波结构信息217与噪声信息218融合,得到合成音频数据219。
图3是根据本公开的另一个实施例的音频数据处理方法的流程图。
如图3所示,该方法300可以包括操作S301至操作S303。
例如,该方法300可以在方法100的操作S110之前进行。
在操作S301,根据音频数据,得到参考基频信息。
例如,可以音频数据中提取出参考基频信息。
在操作S302,对参考基频信息进行线性插值,得到插值后的参考基频信息。
例如,在进行线性插值时,用于插值的函数可以为一次多项式。线性插值后的参考基频信息更加平滑。
在操作S303,利用插值后的参考基频信息和基频信息,对基频信息检测模型进行训练。
在本公开实施例中,对基频信息检测模型进行训练,使得插值后的参考基频信息和基频信息之间的差异小于预定阈值。
例如,可以根据插值后的参考基频信息和基频信息,利用L1损失函数,得到插值后的参考基频信息和基频信息之间的差异。根据该差异,调整基频信息检测模型的参数,以对该模型进行训练。
通过本公开实施例,利用平滑的线性插值后的参考基频信息对基频信息检测模型进行训练,使得经训练后的基频信息检测模型可以提取出更加平滑的基频信息。
为了便于理解,下面将插值后的参考基频信息和基频信息之间的差异表述为第一差异,将上述预定阈值表述为第一预定阈值。
在一些实施例中,可以根据音频数据,得到参考基频指示信息。根据参考基频指示信息和基频指示信息,对基频指示信息检测模型进行训练,使得参考基频指示信息和基频信息之间的第二差异小于的第二预定阈值。
例如,根据参考基频指示信息和基频指示信息,可以利用L1损失函数,得到上述第二差异。
在一些实施例中,可以根据音频数据和合成音频数据,对全局能量信息检测模型和/或谐波能量分布信息检测模型进行训练,使得音频数据和合成音频数据之间的第三差异小于第三预设阈值。
例如,根据音频数据和合成音频数据,利用STFT(Short-Time FourierTransform,短时傅里叶变换)损失函数,得到上述第三差异。
图4A是根据本公开一个实施例的参考基频信息的示意图。
如图4A所示,参考基频信息中存在不平滑问题。例如,区域401内存在凹陷,区域402内存在凸起。
图4B是根据本公开一个实施例的插值后的参考基频信息的示意图。
如图4B所示,与参考基频信息相比,插值后的参考基频信息更加平滑。例如,区域403内不存在凹陷,区域404内不存在的凸起。区域403与图4A中的区域401相对应,区域404与图4A中的区域402相对应。
图5是根据本公开一个实施例的对基频信息检测模型进行训练的原理图。
如图5所示,可以根据音频数据531,得到谱数据511。可以根据音频数据531,得到参考基频信息532。可以根据音频数据531,得到参考基频指示信息533。
可以对参考基频信息532进行线性插值,得到插值后的参考基频信息534。在一个示例中,参考基频信息532可以是例如图4A所示的参考基频信息,插值后的参考基频信息534可以是例如图4B所示的插值后的参考基频信息。
可以将谱数据511输入特征提取模型521,进行处理,得到第一特征信息512。特征提取模型521可以是残差神经网络模型,比如Resnet-64模型。
可以将第一特征信息512输入基频指示信息检测模型522,得到基频指示信息513。根据参考基频指示信息533和基频指示信息513,利用L1损失函数,可以得到第一差异Lffi536。根据第一差异Lffi 536,可以调整基频指示信息检测模型522的参数,以对基频指示信息检测模型522进行训练。
可以将基频指示信息513和第一特征信息512拼接,得到第二特征信息。将第二特征信息输入基频信息检测模型523,得到基频信息514。根据基频信息514和插值后的参考基频信息534,利用L1损失函数,可以得到第二差异Lff 535。根据第二差异Lff 535,可以调整基频信息检测模型523的参数,以对基频信息检测模型523进行训练。
可以将基频信息514、基频指示信息513和第一特征信息512拼接,得到第三特征信息。将第三特征信息输入全局能量信息检测模型524,得到全局能量信息515。
可以将全局能量信息515、基频信息514、基频指示信息513和第一特征信息512拼接,得到第四特征信息。将第四特征信息输入谐波能量分布信息检测模型525,得到谐波能量分布信息516。
接下来,可以根据谐波能量分布信息516、全局能量信息515和基频信息514,得到谐波结构信息517。例如,可以利用上述公式一至公式四,根据谐波能量分布信息516、全局能量信息515和基频信息514,得到谐波结构信息517
可以将第一特征信息512输入滤波模型526,得到噪声信息518。在可以将谐波结构信息517与噪声信息518融合,得到合成音频数据519。
根据音频数据531和合成音频数据519,利用STFT损失函数,可以得到第三差异LSTFT 537。根据第三差异LSTFT 537,可以分别调整全局能量信息检测模型524和谐波能量分布信息检测模型525的参数,以对这两个模型进行训练。
本示例中,第一特征信息512、基频指示信息513、基频信息514、全局能量信息515、第二特征信息、第三特征信息和第四特征信息的维度,可以参考上文所述的第一特征信息212、基频指示信息213、基频信息214、全局能量信息215、第二特征信息、第三特征信息和第四特征信息,本公开在此不再赘述。
图6是根据本公开的一个实施例的音频数据处理装置的框图。
如图6所示,该装置600可以包括处理模块610、第一获得模块620、第二获得模块630和第三获得模块640。
处理模块610,用于对上述音频数据的谱数据进行处理,得到第一特征信息。
第一获得模块620,用于根据上述第一特征信息,得到基频指示信息,上述基频指示信息指示了上述第一特征信息中的有效音频数据和无效音频数据。
第二获得模块630,用于根据上述第一特征信息和基频指示信息,得到基频信息和谱能量信息。
第三获得模块640,用于根据上述基频信息和谱能量信息,得到上述音频数据的谐波结构信息。
在一些实施例中,上述第二获得模块包括:第一获得子模块,用于根据上述第一特征信息和基频指示信息,得到第二特征信息;以及输入子模块,用于将上述第二特征信息输入基频信息检测模型,得到基频信息。
在一些实施例中,该装置600还包括:第四获得模块,用于根据上述音频数据,得到参考基频信息;线性插值模块,用于对上述参考基频信息进行线性插值,得到插值后的参考基频信息;以及训练模块,用于利用上述插值后的参考基频信息和上述基频信息,对上述基频信息检测模型进行训练,使得上述插值后的参考基频信息和上述基频信息之间的差异小于预定阈值。
在一些实施例中,上述第二获得模块还包括:第二获得子模块,用于根据上述第一特征信息、基频指示信息和基频信息,得到第三特征信息;以及第三获得子模块,用于根据上述第三特征信息,得到谱能量信息。
在一些实施例中,上述谱能量信息包括全局能量信息和谐波能量分布信息;上述第三获得子模块包括:第一获得单元,用于根据上述第三特征信息,得到全局能量信息;以及第二获得单元,用于根据第一特征信息、基频指示信息、基频信息和全局能量信息,得到谐波能量分布信息。
在一些实施例中,该装置600还包括:第五获得模块,用于根据上述第一特征信息,得到上述音频数据中的噪声信息;以及第六获得模块,用于根据上述谐波结构信息和噪声信息,得到合成音频数据。
在一些实施例中,上述谱数据包括梅尔谱数据。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如音频数据处理方法。例如,在一些实施例中,音频数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的音频数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行音频数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种音频数据处理方法,包括:
对所述音频数据的谱数据进行处理,得到第一特征信息;
根据所述第一特征信息,得到基频指示信息,所述基频指示信息指示了所述第一特征信息中的有效音频数据和无效音频数据;
根据所述第一特征信息和基频指示信息,得到基频信息和谱能量信息;以及
根据所述基频信息和谱能量信息,得到所述音频数据的谐波结构信息。
2.根据权利要求1所述的方法,其中,所述根据所述第一特征信息和基频指示信息,得到基频信息和谱能量信息包括:
根据所述第一特征信息和基频指示信息,得到第二特征信息;以及
将所述第二特征信息输入基频信息检测模型,得到基频信息。
3.根据权利要求2所述的方法,还包括:
根据所述音频数据,得到参考基频信息;
对所述参考基频信息进行线性插值,得到插值后的参考基频信息;以及
利用所述插值后的参考基频信息和所述基频信息,对所述基频信息检测模型进行训练,使得所述插值后的参考基频信息和所述基频信息之间的差异小于预定阈值。
4.根据权利要求2所述的方法,其中,所述根据所述第一特征信息和基频指示信息,得到基频信息和谱能量信息还包括:
根据所述第一特征信息、基频指示信息和基频信息,得到第三特征信息;以及
根据所述第三特征信息,得到谱能量信息。
5.根据权利要求4所述的方法,其中,所述谱能量信息包括全局能量信息和谐波能量分布信息;所述根据所述第三特征信息,得到谱能量信息包括:
根据所述第三特征信息,得到全局能量信息;以及
根据第一特征信息、基频指示信息、基频信息和全局能量信息,得到谐波能量分布信息。
6.根据权利要求1所述的方法,还包括:
根据所述第一特征信息,得到所述音频数据中的噪声信息;以及
根据所述谐波结构信息和噪声信息,得到合成音频数据。
7.根据权利要求1所述的方法,其中,所述谱数据包括梅尔谱数据。
8.一种音频数据处理装置,包括:
处理模块,用于对所述音频数据的谱数据进行处理,得到第一特征信息;
第一获得模块,用于根据所述第一特征信息,得到基频指示信息,所述基频指示信息指示了所述第一特征信息中的有效音频数据和无效音频数据;
第二获得模块,用于根据所述第一特征信息和基频指示信息,得到基频信息和谱能量信息;以及
第三获得模块,用于根据所述基频信息和谱能量信息,得到所述音频数据的谐波结构信息。
9.根据权利要求8所述的装置,其中,所述第二获得模块包括:
第一获得子模块,用于根据所述第一特征信息和基频指示信息,得到第二特征信息;以及
输入子模块,用于将所述第二特征信息输入基频信息检测模型,得到基频信息。
10.根据权利要求9所述的装置,还包括:
第四获得模块,用于根据所述音频数据,得到参考基频信息;
线性插值模块,用于对所述参考基频信息进行线性插值,得到插值后的参考基频信息;以及
训练模块,用于利用所述插值后的参考基频信息和所述基频信息,对所述基频信息检测模型进行训练,使得所述插值后的参考基频信息和所述基频信息之间的差异小于预定阈值。
11.根据权利要求9所述的装置,其中,所述第二获得模块还包括:
第二获得子模块,用于根据所述第一特征信息、基频指示信息和基频信息,得到第三特征信息;以及
第三获得子模块,用于根据所述第三特征信息,得到谱能量信息。
12.根据权利要求11所述的装置,其中,所述谱能量信息包括全局能量信息和谐波能量分布信息;所述第三获得子模块包括:
第一获得单元,用于根据所述第三特征信息,得到全局能量信息;以及
第二获得单元,用于根据第一特征信息、基频指示信息、基频信息和全局能量信息,得到谐波能量分布信息。
13.根据权利要求8所述的装置,还包括:
第五获得模块,用于根据所述第一特征信息,得到所述音频数据中的噪声信息;以及
第六获得模块,用于根据所述谐波结构信息和噪声信息,得到合成音频数据。
14.根据权利要求8所述的装置,其中,所述谱数据包括梅尔谱数据。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。
CN202111454677.9A 2021-11-30 2021-11-30 音频数据处理方法、装置、电子设备和存储介质 Active CN113938749B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111454677.9A CN113938749B (zh) 2021-11-30 2021-11-30 音频数据处理方法、装置、电子设备和存储介质
US18/071,187 US11984134B2 (en) 2021-11-30 2022-11-29 Method of processing audio data, electronic device and storage medium
EP22210430.9A EP4120265A3 (en) 2021-11-30 2022-11-30 Method and apparatus of processing audio data, electronic device, storage medium and program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111454677.9A CN113938749B (zh) 2021-11-30 2021-11-30 音频数据处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113938749A true CN113938749A (zh) 2022-01-14
CN113938749B CN113938749B (zh) 2023-05-05

Family

ID=79288654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111454677.9A Active CN113938749B (zh) 2021-11-30 2021-11-30 音频数据处理方法、装置、电子设备和存储介质

Country Status (2)

Country Link
EP (1) EP4120265A3 (zh)
CN (1) CN113938749B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212473A (ja) * 2002-12-27 2004-07-29 Matsushita Electric Ind Co Ltd カラオケ装置及びカラオケ再生方法
CN104538024A (zh) * 2014-12-01 2015-04-22 百度在线网络技术(北京)有限公司 语音合成方法、装置及设备
CN108417228A (zh) * 2018-02-02 2018-08-17 福州大学 乐器音色迁移下的人声音色相似性度量方法
CN110085245A (zh) * 2019-04-09 2019-08-02 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110718233A (zh) * 2019-09-29 2020-01-21 华声设计研究院(深圳)有限公司 一种基于心理声学的声学辅助降噪方法及装置
CN111833843A (zh) * 2020-07-21 2020-10-27 苏州思必驰信息科技有限公司 语音合成方法及系统
CN111986691A (zh) * 2020-09-04 2020-11-24 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备及存储介质
CN112634928A (zh) * 2020-12-08 2021-04-09 北京有竹居网络技术有限公司 声音信号处理方法、装置和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
WO1999003095A1 (en) * 1997-07-11 1999-01-21 Koninklijke Philips Electronics N.V. Transmitter with an improved harmonic speech encoder

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212473A (ja) * 2002-12-27 2004-07-29 Matsushita Electric Ind Co Ltd カラオケ装置及びカラオケ再生方法
CN104538024A (zh) * 2014-12-01 2015-04-22 百度在线网络技术(北京)有限公司 语音合成方法、装置及设备
CN108417228A (zh) * 2018-02-02 2018-08-17 福州大学 乐器音色迁移下的人声音色相似性度量方法
CN110085245A (zh) * 2019-04-09 2019-08-02 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110718233A (zh) * 2019-09-29 2020-01-21 华声设计研究院(深圳)有限公司 一种基于心理声学的声学辅助降噪方法及装置
CN111833843A (zh) * 2020-07-21 2020-10-27 苏州思必驰信息科技有限公司 语音合成方法及系统
CN111986691A (zh) * 2020-09-04 2020-11-24 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备及存储介质
CN112634928A (zh) * 2020-12-08 2021-04-09 北京有竹居网络技术有限公司 声音信号处理方法、装置和电子设备

Also Published As

Publication number Publication date
US20230087531A1 (en) 2023-03-23
EP4120265A3 (en) 2023-05-03
CN113938749B (zh) 2023-05-05
EP4120265A2 (en) 2023-01-18

Similar Documents

Publication Publication Date Title
CN113239705B (zh) 语义表示模型的预训练方法、装置、电子设备和存储介质
CN113553864B (zh) 翻译模型的训练方法、装置、电子设备及存储介质
US20230004721A1 (en) Method for training semantic representation model, device and storage medium
CN112466288A (zh) 语音识别方法、装置、电子设备及存储介质
CN112466314A (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
CN112861548A (zh) 自然语言生成及模型的训练方法、装置、设备和存储介质
KR20230039505A (ko) 음성 인식 방법, 인코딩 및 디코딩 방법, 장치, 전자 기기 및 기록 매체
CN114495977B (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN113689868B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
CN114861059A (zh) 资源推荐方法、装置、电子设备及存储介质
CN114023342B (zh) 一种语音转换方法、装置、存储介质及电子设备
CN114564971A (zh) 深度学习模型的训练方法、文本数据处理方法和装置
CN113468857A (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
EP3822813A1 (en) Similarity processing method, apparatus, server and storage medium
CN114020950A (zh) 图像检索模型的训练方法、装置、设备以及存储介质
EP4202924A1 (en) Audio recognizing method, apparatus, device, medium and product
US11861498B2 (en) Method and apparatus for compressing neural network model
CN113938749B (zh) 音频数据处理方法、装置、电子设备和存储介质
CN114937478B (zh) 用于训练模型的方法、用于生成分子的方法和装置
CN114171043B (zh) 回声的确定方法、装置、设备以及存储介质
US11984134B2 (en) Method of processing audio data, electronic device and storage medium
CN115454261A (zh) 输入法候选词生成方法、装置、电子设备及可读存储介质
CN115512682A (zh) 多音字读音预测方法、装置、电子设备及存储介质
CN113869042A (zh) 文本标题生成方法、装置、电子设备以及存储介质
CN113689867B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant