CN114694665A - 语音信号的处理方法和装置,存储介质和电子设备 - Google Patents

语音信号的处理方法和装置,存储介质和电子设备 Download PDF

Info

Publication number
CN114694665A
CN114694665A CN202011606050.6A CN202011606050A CN114694665A CN 114694665 A CN114694665 A CN 114694665A CN 202011606050 A CN202011606050 A CN 202011606050A CN 114694665 A CN114694665 A CN 114694665A
Authority
CN
China
Prior art keywords
signal
information
voice
frequency domain
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011606050.6A
Other languages
English (en)
Inventor
方立华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202011606050.6A priority Critical patent/CN114694665A/zh
Publication of CN114694665A publication Critical patent/CN114694665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开一种语音信号的处理方法和装置,视频、实时通信的语音信号输出方法、语音信号调变交互方法、存储介质以及电子设备;处理方法包括:根据语音音频信息的频域信号提取频谱包络信息和激励信号信息;对激励信号信息和频谱包络信息中的至少一个信息进行调整,获得变换后的信息;将根据新激励信号信息和新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者将根据新频谱包络信息和激励信号信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者将根据新激励信号信息和频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;从而信号处理的降低复杂度。

Description

语音信号的处理方法和装置,存储介质和电子设备
技术领域
本申请涉及计算机应用技术领域,具体涉及一种语音信号的处理方法和装置,一种视频语音信号的输出方法,一种实时通信的语音信号输出方法,语音信号调变交互方法以及计算机存储介质和电子设备。
背景技术
随着互联网的发展,各种应用服务以成为生活中不可或缺的部分,例如:网络交流应用服务、视频直播应用服务、短视频应用服务等。对各种应用服务个性化需求越来越多,在保持基本的信息传递功能外,同时也要具有一定娱乐性。例如:在实时通信娱乐场景下的语音互动服务平台中,为增加聊天的趣味,需要提供个性化的音色转换功能,譬如:男声变女声,女声变男生等。
现有的音色转换功能通常采用如下两种方式:
1、波形叠加方式(WSOLA:Waveform Similarity Over-Lap Add)
所述波形叠加方式主要是通过重采样和波形叠加完成变声,该方式的变声后语音信息具有严重的机械音,从而导致语音信息真实度低,即质量差。
2、基音同步叠加方式(PSOLA:Ptich Synchronous Overlap Add)
通过重采样实现共振峰信息的改变,通过基音检测和动态规划实现基音的改变,该方式中基音检测模块复杂度较高、基于动态规划的后端处理需要较多的语音延时,从而导致实时性差。
发明内容
本申请提供一种语音信号的处理方法,以解决现有技术中语音信号输出延时和质量差的问题。
本申请提供一种语音信号的处理方法,包括:
根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息和所述语音音频信息中的激励信号信息;
对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息;
将根据所述新激励信号信息和所述新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者将根据所述新频谱包络信息和所述激励信号信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者将根据所述新激励信号信息和所述频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号。
在一些实施例中,所述根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息,包括:
获取所述语音音频信息在所述频域信号上的频带数据;
根据所述频带数据,确定所述语音音频信息的频谱信息;
根据所述频谱信息,提取所述频谱包络信息。
在一些实施例中,所述获取所述语音音频信息在所述频域信号上的频带数据,包括:
对所述频域信号中频带取绝对值,获得所述频带数据。
在一些实施例中,所述根据所述频谱信息,提取所述频谱包络信息,包括:
对所述频谱信息进行离散余弦变换,确定所述频谱信息中的低频信号信息;
根据所述低频信号信息,提取所述频谱包络信息。
在一些实施例中,所述根据语音音频信息的频域信号提取所述语音音频信息中的激励信号信息,包括:
根据所述频域信号和所述频谱包络信息,提取所述激励信号信息。
在一些实施例中,所述根据所述频域信号和所述频谱包络信息,提取所述激励信号信息,包括:
将所述频域信号与所述频谱包络信息的相除结果,确定为所述激励信号信息。
在一些实施例中,所述对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息,包括:
根据频域变调方式,对所述激励信号信息进行调整,获得变换后的所述新激励信号信息;
根据重采样方式,对所述频谱包络信息进行调整,获得变换后的所述新频谱包络信息。
在一些实施例中,还包括:
将所述目标时域语音音频信号确定为针对所述语音音频信息变声后的目标语音信息进行输出。
在一些实施例中,还包括:
将获取的所述语音音频信息的时域信号转换为所述频域信号。
本申请还提供一种语音信号的处理装置,包括:
提取单元,用于根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息和所述语音音频信息中的激励信号信息;
调整单元,用于对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息;
转换单元,用于将根据所述新激励信号信息和所述新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号。
本申请还提供一种视频语音信号的输出方法,包括:
获取待输出视频数据的视频语音信号;
将所述视频语音信号根据上述的语音信号的处理方法进行处理,获得针对所述视频语音信号的语音变音信号;
将所述语音变音信号与所述待输出视频数据中的视频信号合成后,进行输出。
本申请还提供一种实时通信的语音信号输出方法,包括:
获取实时通信的实时语音信号;
将所述语音信号根据上述的语音信号的处理方法进行处理,获得针对所述实时语音信号的实时语音变音信号;
将所述实时语音变音信号进行输出。
本申请还提供一种语音信号调变交互方法,包括:
获取针对语音音频信息调变请求;
根据调变请求中携带的调变参数,确定待调变信号为所述语音音频信号的音调和音色中的至少一种信号;
对确定的所述信号,采用上述的语音信号的处理方法进行处理;
将处理后获得针对所述语音音频信息的语音变音信号,输出到所述调变请求方。
本申请还提供一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被获取执行时,执行如上所述的语音信号的处理方法的步骤,或者,执行如上所述的视频语音信号的输出方法的步骤,或者,执行如上所述的实时通信的语音信号输出方法的步骤;或者执行如上所述的语音信号调变交互方法的步骤。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器获取执行时,所述程序在被获取执行时,执行如上所述的语音信号的处理方法的步骤,或者,执行如上所述的视频语音信号的输出方法的步骤,或者,执行如上所述的实时通信的语音信号输出方法的步骤;或者执行如上所述的语音信号调变交互方法的步骤。
与现有技术相比,本申请具有以下优点:
本申请提供的一种语音信号的处理方法实施例,从语音音频信息频域信号提取所述语音音频信息中的激励信号和所述语音音频信息中的频谱包络信息,进而将所述语音音频信息中的频域信号从激励信号信息和频谱包络信息两个信号维度进行分离,可以对这两信号维度分别单独进行调整或者仅调整其中之一,从而使得调整过程中二者相互独立互不干扰,输出变声后的语音信息更加自然真实。通过调整频谱包络和激励信号其中一个信号,即可对应的间接调整共振峰和基频中的至少一个信号,从而避免因为基频检测的复杂度和后期共振峰合成的复杂度,提高变声后目标语音信息输出的实时性。
附图说明
图1是本申请提供的一种语音信号的处理方法实施例的流程图;
图2是本申请提供的一种语音信号的处理方法实施例的原理结构示意图;
图3是本申请提供的一种语音信号的处理装置实施例的结构示意图;
图4是本申请提供的一种视频语音信号的输出方法实施例的流程图;
图5是本申请提供的一种实时通信的语音信号输出方法实施例的流程图;
图6是本申请提供的一种语音信号调变交互方法实施例的流程图;
图7是本申请提供的一种电子设备实施例的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请中使用的术语是仅仅出于对特定实施例描述的目的,而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如:“一种”、“第一”、和“第二”等,并非对数量上的限定或先后顺序上的限定,而是用来将同一类型的信息彼此区分。
基于背景技术中的描述可知,本申请提供的一种语音信号的处理方法主要是基于对获取的语音音频信号进行变调的处理过程,即,将一种语音信号转换为另一种不同的语音信号,但是语音的语义信息是不变的,例如:男声转女声或者转童声等。从而能够增强对语音信息具有转换需求应用的功能。考虑到现有技术中对语音信息的转换存在的复杂度、延时和转换质量的问题,故此构思出本申请的技术方案。
请参考图1和图2所示,图1是本申请提供的一种语音信号的处理方法实施例的流程图,图2是本申请提供的一种语音信号的处理方法实施例的原理结构示意图。如图1所示,该处理方法实施例包括:
步骤S101:根据语音音频信息的频域信号提取所述语音音频信息中的激励信号信息和所述语音音频信息中的频谱包络信息;
所述步骤S101的目的在于从频域信号中提取出所述语音音频信息中的频谱包络信息和所述语音音频信息中的激励信号信息。
所述激励信号信息也可以理解为包括基频信号的信息,基频信号也可以被称之为基音频率信号,是指浊音的发生过程中声带振动的频率,即声源的频率信号;所述频谱包络信息可以理解为包括共振峰信号的信息,所谓共振峰信号是指声道脉冲响应,将声道视为谐振腔,则共振峰信号为所述谐振腔腔体的谐振频率。那么,要从频域信号中提取出所述激励信号信息和所述频谱包络信息,则需要先获得语音音频信息的频域信号。因此,需要将语音音频信息的时域信号转换为频域信号,进而根据所述频域信号提取所述激励信号信息和所述频谱包络信息。
通常,可以通过傅里叶变换将所述时域信号转换为频域信号。在本实施例中,主要是采用快速傅里叶变换(FFT:Fast Fourier Transform)方式,将获取的语音音频信号的时域信号转换为频域信号。
所述激励信号信息和所述频谱包络信息可以是语音信号分析中表征语音信号特征的基本语音音频信号参数,在本实施例中,为达到较为自然真实的变声效果,需要对激励信号信息和频谱包络信息进行单独调整,因此,所述步骤S101中是通过频域信号分别提取出激励信号信息和频谱包络信息,也就是说,将激励信号信息从原语音音频信息的频域信号中提取出来,将频谱包络信号也从原语音音频信息的频域信号中提取出来,获得两个信号维度的信息。
在本实施例中,所述步骤S101的具体实现过程可以包括:
通过所述频域信号提取所述频谱包络信息可以包括:
步骤S101-11:获取所述语音音频信息在所述频域信号上的频带数据;
步骤S101-12:根据所述频带数据,确定所述语音音频信息的频谱信息;
步骤S101-13:根据所述频谱信息,提取所述频谱包络信息。
其中,所述步骤S101-12的具体实现过程可以包括:对所述频带数据取绝对值,确定所述语音音频信息的频谱信息,即:先将时域信号x(n)经过FFT变换到频域x(k),取每个频带的绝对值Xabs(k),具体公式可以是:
Xabs(k)=abs(FFT(x(n)))。
所述步骤S101-13的具体实现过程可以是通过对所述频谱信息进行DCT变换获得频谱信息中的低频信号信息,也就是说,根据频谱信息中各频带幅度DCT变化的低频信号信息提取出频谱包络信息。其中,所述DCT(Discrete CosineTransform)为离散余弦变换,所述IDCT(Inverse Discrete Cosine Transform)为离散余弦逆变换。
具体可以是:对频谱进行DCT(Discrete Cosine Transform:离散余弦变换)变换,保留低频信息,提取出包括有共振峰信息的频谱包络信息Xenv(k)。本实施例中,提取频谱包络的公式如下:
Xenv(k)=idct(low(dct(log(Xabs(k)))));其中,Xabs为取绝对值,log、dct和idct为频谱压缩计算等,目的在于从频谱信息中提取出低频信息的频谱包络信息,也就是说,本实施例中,所述频谱包络信息为低频的频谱包络信息。
本实施例中,根据语音音频信息的频域信号提取所述语音音频信息中的激励信号信息,包括:
步骤S101-21:根据所述频域信号和所述频谱包络信息,提取所述激励信号信息;
本实施例中具体可以是:将频域信号x(k)除以频谱包络信号Xenv(k)得到激励信号E(k),即:E(k)=x(k)/Xenv(k)。
本实施例中一方面,通过所述频谱信息进行离散余弦变换后确定的低频信息提取频谱包络信息;另一方面,根据频域信号和所述频谱包络信息的商,确定激励信号信息,能够将提取的激励信号信息和频谱包络信息在频域信号层面上进行分离。
步骤S102:对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息;
所述步骤S102的目的在于对激励信号信息和频谱包络信息中的至少一个信息进行单独调整。调整其中一个信息不影响另外一个信息,调整过程相互独立。
对于语音信号的变声处理而言,不同声音基频分布不同,共振峰的频率高低也有不同。例如:男声的基频一般分布在50Hz到180Hz,共振峰频率偏低。女声的基频一般分布在160Hz到380Hz,共振峰频率中等。童声的基频一般分布在400Hz到1000Hz,共振峰频率较高。而频谱包络中包括共振峰信息,根据上述对频谱包络提取的描述,可知,本实施例中提取的频谱包络为低频信息的频谱包络,因此,对频谱包络信息和对激励信号信息的调整均不需要计算基音频率和共振峰位置,简化调整的复杂度。
所述步骤S102的具体实现过程可以包括:
步骤S102-1:根据频域变调方式,对所述激励信号信息进行调整,获得变换后的所述新激励信号信息;
步骤S102-2:根据重采样方式,对所述频谱包络信息进行调整,获得变换后的所述新频谱包络信息。
所述步骤S102-1中对所述激励信号信息进行调整是通过对频域变调的方式,例如:通过change pitch(改变音调)方式对基频信号进行调整,获得新激励信号信息E’(k)。
所述步骤S102-2中可以是通过重采样函数resample实现频谱包络信息的调整,resample函数是对原样本重新处理的方式,是一个对常规时间序列数据重新采样和频率转换的便捷的方式,可以包括降采样和升采样,所谓降采样为数据抽样,可以使包络信号压缩;所谓升采样为数据插值,可以使包络信号拉伸。达到即对共振峰位置的拉伸或压缩。在本实施例中,根据创建的采样时间,对频谱包络进行重采样,采样方式可以是降采样也可以升采样。
因为,本实施例中将激励信号信息和频谱包络信息单独调整,因此,在对频谱包络信息进行采样时不会影响到激励信号信息,故此,无需通过基频检测确保基频信号改变和共振峰改变之间互不相关。
步骤S103:将根据所述新激励信号信息和所述新频谱包络信息整合后的频域语音音频信号,转换为时域语音音频信号;或者将根据所述新频谱包络信息和所述激励信号信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者将根据所述新激励信号信息和所述频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号。
所述步骤S103的目的在于整合处理后的信号,形成目标频域语音音频。具体实现过程中,可以针对调整后的所述新激励信号信息和所述新频谱包络信息重新整合在一起,获得目标频域语音音频信号;或者,针对调整后的所述新激励信号信息和所述频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者,针对调整后的所述新频谱包络信息和所述激励信号信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号。即:
步骤S103-1:将所述新激励信号信息和所述新频谱包络信息中的至少一个信息,与调整前的激励信号信息和频谱包络信息中的至少一个信息进行整合,获得所述目标频域语音音频信号;
步骤S103-2:将所述目标频域语音音频信号转换为目标时域语音音频信号。其中,将目标频域语音音频信号可以通过快速傅立叶逆变换(IFFT:Invert FastFourierTransformation)进行时域到频域的变换。将转换后的所述目标时域语音音频信号确定为针对所述语音音频信息变声后的目标语音信息进行输出。
其中,所述步骤S103-1的具体实现过程可以包括如下几种实现方式:
方式一:
将新激励信号信息E’(k)与频谱包络信息Xenv(k)进行整合;
方式二:
将新频谱包络信息X’env(k)与激励信号信息E(k)进行整合;
方式三:
将新激励信号信息E’(k)与新频谱包络信息X’env(k)进行整合。
在本实施例中,采用方式三进行整合,具体整合方式可以是将新激励信号信息E’(k)与新频谱包络信息X’env(k)进行相乘,即:Y(n)=IFFT(E’(k)×X’env(k)),其中IFFT表示对E’(k)×X’env(k)获得的积进行快速傅立叶逆变换,实现时域到频域的变换,获得所述目标时域语音音频信号。
以上是对本申请提供的一种语音信号的处理方法实施例的具体描述,该处理方法实施例可以结合图2所示,即:将获取的语音音频信号X(n)通过快速傅里叶变换从时域转换到频域,对转换后的频域语音音频信号X(k)提取激励信号信息E(k)和频谱包络信息Xenv(k),使得激励信号信息E(k)和频谱包络信息Xenv(k)分离为独立两个参数,并进行单独调整改变,从而二者相互独立互不干扰,输出变声后的语音信息Y(n)更加自然真实。由于二者是相互独立调整的因此无需为了保证二者之间的分离状态,在共振峰进行重采样后还要进行基频检测,从而避免因为基频检测的复杂度和后期整合处理的复杂度,提高了变声后目标语音信息输出的真实性和实时性。另外,本申请在对激励信号信息E(k)和频谱包络信息调整改变时还可以改变输出变声信号的音量。
与前述提供的一种语音信号的处理方法实施例相对应,本申请还公开一种语音信号的处理装置实施例,请参看图3,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图3所示,图3是本申请提供的一种语音信号的处理装置实施例的结构示意图,该处理装置实施例包括:
提取单元301,用于根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息和所述语音音频信息中的激励信号信息;
所述提取单元301包括频谱包络提取子单元和激励信号提取子单元。
所述频谱包络提取子单元,用于根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息;
所述激励信号提取子单元,用于根据语音音频信息的频域信号提取所述语音音频信息中的激励信号信息。
其中,所述频谱包络提取子单元包括:获取子单元、确定子单元和提取子单元;
所述获取子单元,用于获取所述语音音频信息在所述频域信号上的频带数据;
所述确定子单元,用于根据所述频带数据,确定所述语音音频信息的频谱信息;
所述提取子单元,用于根据所述频谱信息,提取所述频谱包络信息。
所述获取子单元包括:绝对值处理子单元;
所述绝对值获取子单元,用于对所述频域信号中频带取绝对值,获得所述频带数据。
其中,所述激励信号提取子单元具体用于根据所述频域信号和所述频谱包络信息,提取所述激励信号信息。即:将所述频域信号与所述频谱包络信息的商,确定为所述激励信号信息。
本实施例还包括:时域频域转换单元,用于将获取的所述语音音频信息的时域信号转换为所述频域信号。
调整单元302,用于对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息;
所述调整单元302可以包括:激励信号调整子单元和包络调整子单元;
所述激励信号调整子单元,用于根据频域变调方式,对所述激励信号信息进行调整,获得变换后的所述新激励信号信息;
所述包络调整子单元,用于根据重采样方式,对所述频谱包络信息进行调整,获得变换后的所述新频谱包络信息。
转换单元303,用于将根据所述新激励信号信息和所述新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者将根据所述新频谱包络信息和所述激励信号信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者将根据所述新激励信号信息和所述频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号。
所述转换单元303包括:整合子单元和转换子单元;
所述整合子单元,用于将所述新激励信号信息和所述新频谱包络信息中的至少一个信息,与调整前的激励信号信息和频谱包络信息中的至少一个信息进行整合,获得所述目标频域语音音频信号;具体实现过程可以包括几种实现方式:方式一:
将新激励信号信息E’(k)与频谱包络信息Xenv(k)进行整合;
方式二:
将新频谱包络信息X’env(k)与激励信号信息E(k)进行整合;
方式三:
将新激励信号信息E’(k)与新频谱包络信息X’env(k)进行整合。
所述转换子单元,用于将所述目标频域语音音频信号转换为目标时域语音音频信号。
本实施例还包括:输出单元,用于将所述目标时域语音音频信号确定为针对所述语音音频信息变声后的目标语音信息进行输出。
以上是对本申请提供的一种语音信号的处理装置实施例的描述,该描述过程较为概要,具体内容可以结合上述语音信号的处理方法实施例的步骤S101-步骤S103的具体内容,此处不再重复赘述。
基于上述内容,本申请还提供一种视频语音信号的输出方法,请参考图4所示,图4是本申请提供的一种视频语音信号的输出方法实施例的流程图,该输出方法实施例包括:
步骤S401:获取待输出视频数据的视频语音信号;
步骤S402:将所述视频语音信号根据上述语音信号的处理方法进行处理,获得针对所述视频语音信号的语音变音信号;
步骤S403:将所述语音变音信号与所述待输出视频数据中的视频信号合成后,进行输出。
本申请提供的视频语音信号的输出方法能够将所述视频语音信号通过上述语音信号的处理方法进行变音,变音过程均在频域完成,且基频信号与共振峰分离调整,因此使得变音后的语音信号真实自然,降低输出延时。
基于上述内容,本申请还提供一种实时通信的语音信号输出方法,请参考图5所示,图5是本申请提供的一种实时通信的语音信号输出方法实施例的流程图,该输出方法实施例包括:
步骤S501:获取实时通信的实时语音信号;
步骤S502:将所述语音信号根据上述语音信号的处理方法进行处理,获得针对所述实时语音信号的实时语音变音信号;
步骤S503:将所述实时语音变音信号进行输出。
同样地,所述实时通信的语音信号输出方法能够将采集的实时语音信号通过上述语音信号的处理方法进行变音,变音过程均在频域完成,且基频信号与共振峰分离调整,因此使得变音后的语音信号真实自然,降低输出延时。
不论本申请提供的视频语音信号的输出方法还是实时通信的语音信号输出方法,均可以根据需求输出不同的变声信号,在保护用户隐私的情况下提高变声信号的真实度,不同用户可以对应不同的变声效果。
以上仅是通过视频语音信号和实时通信的语音信号产生语音信号的处理最终输出变声信号的过程的描述,实际上,还可以应用到线上会议、KTV等。任何可以用于语音处理的场景下均可以上述语音信号的处理方法。
基于上述内容,本申请还提供一种语音信号调变交互方法,请参考图6所示,图6是本申请提供的一种语音信号调变交互方法实施例的交互示意图,该交互方法实施例包括:
步骤S601:获取针对语音音频信息调变请求;其中,所述调变请求可以是针对应用平台上提供的音频信号调整操作控件的操作,生成所述调变请求。例如:可以提供针对音调调变的操作控件和针对音色调变的操作控件中的至少一个,其中,音色调变对应于调整频谱包络信息,音调调变对应于调整激励信号信息。
步骤S602:根据调变请求中携带的调变参数,确定待调变信号为所述语音音频信号的音调和音色中的至少一种信号;
步骤S603:对确定的所述信号,采用如上所述的语音信号的处理方法进行处理;
步骤S604:将处理后获得针对所述语音音频信息的语音变音信号,输出到所述调变请求方。
可以理解的是,不论是上述视频语音信号的输出方法实施例还是实时通信的语音信号输出方法实施例,均可以采用软件工具包(SDK)的形式实现语音音频信息的变声处理。
基于上述内容,本申请还提供一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被获取执行时,执行如下步骤:
根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息和所述语音音频信息中的激励信号信息;
对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息;
将根据所述新激励信号信息和所述新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号。
其中,所述根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息,包括:
获取所述语音音频信息在所述频域信号上的频带数据;
根据所述频带数据,确定所述语音音频信息的频谱信息;
根据所述频谱信息,提取所述频谱包络信息。
其中,所述获取所述语音音频信息在所述频域信号上的频带数据,包括:
对所述频域信号中频带取绝对值,获得所述频带数据。
其中,所述根据所述频谱信息,提取所述频谱包络信息,包括:
对所述频谱信息进行离散余弦变换,确定所述频谱信息中的低频信号信息;
根据所述低频信号信息,提取所述频谱包络信息。
其中,所述根据语音音频信息的频域信号提取所述语音音频信息中的激励信号信息,包括:
根据所述频域信号和所述频谱包络信息,提取所述激励信号信息。
其中,所述根据所述频域信号和所述频谱包络信息,提取所述激励信号信息,包括:
将所述频域信号与所述频谱包络信息的相除结果,确定为所述激励信号信息。
其中,所述对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息,包括:
根据频域变调方式,对所述激励信号信息进行调整,获得变换后的所述新激励信号信息;
根据重采样方式,对所述频谱包络信息进行调整,获得变换后的所述新频谱包络信息。
其中,所述将根据所述新激励信号信息和所述新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号,包括:
将所述新激励信号信息和所述新频谱包络信息中的至少一个信息进行整合,获得所述目标频域语音音频信号;
将所述目标频域语音音频信号转换为目标时域语音音频信号。
其中,还包括:将所述目标时域语音音频信号确定为针对所述语音音频信息变声后的目标语音信息进行输出。
其中,还包括:将获取的所述语音音频信息的时域信号转换为所述频域信号。
或者,执行如下步骤:
获取待输出视频数据的视频语音信号;
将所述视频语音信号根据上述语音信号的处理方法进行处理,获得针对所述视频语音信号的语音变音信号;
将所述语音变音信号与所述待输出视频数据中的视频信号合成后,进行输出。
或者,执行如下步骤:
获取实时通信的实时语音信号;
将所述语音信号根据上述语音信号的处理方法进行处理,获得针对所述实时语音信号的实时语音变音信号;
将所述实时语音变音信号进行输出。
或者,执行如下步骤:
获取针对语音音频信息调变请求;
根据调变请求中携带的调变参数,确定待调变信号为所述语音音频信号的音调和音色中的至少一种信号;
根据确定的所述信号,采用上述语音信号的处理方法进行处理;
将处理后获得针对所述语音音频信息的语音变音信号,输出到所述调变请求方。
请参考图7,图7是提供的一种电子设备实施例的结构示意图,所述电子设备实施例包括:
处理器701;
存储器702,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器获取执行时,所述程序在被获取执行时,执行如下步骤:
根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息和所述语音音频信息中的激励信号信息;
对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息;
将根据所述新激励信号信息和所述新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号。
其中,所述根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息,包括:
获取所述语音音频信息在所述频域信号上的频带数据;
根据所述频带数据,确定所述语音音频信息的频谱信息;
根据所述频谱信息,提取所述频谱包络信息。
其中,所述获取所述语音音频信息在所述频域信号上的频带数据,包括:
对所述频域信号中频带取绝对值,获得所述频带数据。
其中,所述根据所述频谱信息,提取所述频谱包络信息,包括:
对所述频谱信息进行离散余弦变换,确定所述频谱信息中的低频信号信息;
根据所述低频信号信息,提取所述频谱包络信息。
其中,所述根据语音音频信息的频域信号提取所述语音音频信息中的激励信号信息,包括:
根据所述频域信号和所述频谱包络信息,提取所述激励信号信息。
其中,所述根据所述频域信号和所述频谱包络信息,提取所述激励信号信息,包括:
将所述频域信号与所述频谱包络信息的相除结果,确定为所述激励信号信息。
其中,所述对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息,包括:
根据频域变调方式,对所述激励信号信息进行调整,获得变换后的所述新激励信号信息;
根据重采样方式,对所述频谱包络信息进行调整,获得变换后的所述新频谱包络信息。
其中,所述将根据所述新激励信号信息和所述新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号,包括:
将所述新激励信号信息和所述新频谱包络信息中的至少一个信息进行整合,获得所述目标频域语音音频信号;
将所述目标频域语音音频信号转换为目标时域语音音频信号。
其中,还包括:将所述目标时域语音音频信号确定为针对所述语音音频信息变声后的目标语音信息进行输出。
其中,还包括:将获取的所述语音音频信息的时域信号转换为所述频域信号。
或者,执行如下步骤:
获取待输出视频数据的视频语音信号;
将所述视频语音信号根据上述语音信号的处理方法进行处理,获得针对所述视频语音信号的语音变音信号;
将所述语音变音信号与所述待输出视频数据中的视频信号合成后,进行输出。
或者,执行如下步骤:
获取实时通信的实时语音信号;
将所述语音信号根据上述语音信号的处理方法进行处理,获得针对所述实时语音信号的实时语音变音信号;
将所述实时语音变音信号进行输出。
或者,执行如下步骤:
获取针对语音音频信息调变请求;
根据调变请求中携带的调变参数,确定待调变信号为所述语音音频信号的音调和音色中的至少一种信号;
根据确定的所述信号,采用上述语音信号的处理方法进行处理;
将处理后获得针对所述语音音频信息的语音变音信号,输出到所述调变请求方。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (15)

1.一种语音信号的处理方法,其特征在于,包括:
根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息和所述语音音频信息中的激励信号信息;
对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息;
将根据所述新激励信号信息和所述新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者将根据所述新频谱包络信息和所述激励信号信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号;或者将根据所述新激励信号信息和所述频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号。
2.根据权利要求1所述的语音信号的处理方法,其特征在于,所述根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息,包括:
获取所述语音音频信息在所述频域信号上的频带数据;
根据所述频带数据,确定所述语音音频信息的频谱信息;
根据所述频谱信息,提取所述频谱包络信息。
3.根据权利要求2所述的语音信号的处理方法,其特征在于,所述获取所述语音音频信息在所述频域信号上的频带数据,包括:
对所述频域信号中频带取绝对值,获得所述频带数据。
4.根据权利要求3所述的语音信号的处理方法,其特征在于,所述根据所述频谱信息,提取所述频谱包络信息,包括:
对所述频谱信息进行离散余弦变换,确定所述频谱信息中的低频信号信息;
根据所述低频信号信息,提取所述频谱包络信息。
5.根据权利要求1所述的语音信号的处理方法,其特征在于,所述根据语音音频信息的频域信号提取所述语音音频信息中的激励信号信息,包括:
根据所述频域信号和所述频谱包络信息,提取所述激励信号信息。
6.根据权利要求5所述的语音信号的处理方法,其特征在于,所述根据所述频域信号和所述频谱包络信息,提取所述激励信号信息,包括:
将所述频域信号与所述频谱包络信息的相除结果,确定为所述激励信号信息。
7.根据权利要求1所述的语音信号的处理方法,其特征在于,所述对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息,包括:
根据频域变调方式,对所述激励信号信息进行调整,获得变换后的所述新激励信号信息;
根据重采样方式,对所述频谱包络信息进行调整,获得变换后的所述新频谱包络信息。
8.根据权利要求1所述的语音信号的处理方法,其特征在于,还包括:
将所述目标时域语音音频信号确定为针对所述语音音频信息变声后的目标语音信息进行输出。
9.根据权利要求1所述的语音信号的处理方法,其特征在于,还包括:
将获取的所述语音音频信息的时域信号转换为所述频域信号。
10.一种语音信号的处理装置,其特征在于,包括:
提取单元,用于根据语音音频信息的频域信号提取所述语音音频信息中的频谱包络信息和所述语音音频信息中的激励信号信息;
调整单元,用于对所述激励信号信息和所述频谱包络信息中的至少一个信息进行调整,获得变换后的新激励信号信息和新频谱包络信息中的至少一个信息;
转换单元,用于将根据所述新激励信号信息和所述新频谱包络信息整合后的目标频域语音音频信号,转换为目标时域语音音频信号。
11.一种视频语音信号的输出方法,其特征在于,包括:
获取待输出视频数据的视频语音信号;
将所述视频语音信号根据上述权利要求1-10任意一项所述的语音信号的处理方法进行处理,获得针对所述视频语音信号的语音变音信号;
将所述语音变音信号与所述待输出视频数据中的视频信号合成后,进行输出。
12.一种实时通信的语音信号输出方法,其特征在于,包括:
获取实时通信的实时语音信号;
将所述语音信号根据上述权利要求1-9任意一项所述的语音信号的处理方法进行处理,获得针对所述实时语音信号的实时语音变音信号;
将所述实时语音变音信号进行输出。
13.一种语音信号调变交互方法,其特征在于,包括:
获取针对语音音频信息调变请求;
根据调变请求中携带的调变参数,确定待调变信号为所述语音音频信号的音调和音色中的至少一种信号;
对确定的所述信号,采用上述权利要求1到9任意一项所述的语音信号的处理方法进行处理;
将处理后获得针对所述语音音频信息的语音变音信号,输出到所述调变请求方。
14.一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被获取执行时,执行如权利要求1至9任意一项所述的语音信号的处理方法的步骤,或者,执行如权利要求11所述的视频语音信号的输出方法的步骤,或者,执行如权利要求12所述的实时通信的语音信号输出方法的步骤;或者执行如权利要求13所述的语音信号调变交互方法的步骤。
15.一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器获取执行时,所述程序在被获取执行时,执行如权利要求1至9任意一项所述的语音信号的处理方法的步骤,或者,执行如权利要求11所述的视频语音信号的输出方法的步骤,或者,执行如权利要求12所述的实时通信的语音信号输出方法的步骤;或者执行如权利要求13所述的语音信号调变交互方法的步骤。
CN202011606050.6A 2020-12-28 2020-12-28 语音信号的处理方法和装置,存储介质和电子设备 Pending CN114694665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011606050.6A CN114694665A (zh) 2020-12-28 2020-12-28 语音信号的处理方法和装置,存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011606050.6A CN114694665A (zh) 2020-12-28 2020-12-28 语音信号的处理方法和装置,存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN114694665A true CN114694665A (zh) 2022-07-01

Family

ID=82132014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011606050.6A Pending CN114694665A (zh) 2020-12-28 2020-12-28 语音信号的处理方法和装置,存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN114694665A (zh)

Similar Documents

Publication Publication Date Title
JP5336522B2 (ja) 瞬間的事象を有する音声信号の操作装置および操作方法
US8473298B2 (en) Pre-resampling to achieve continuously variable analysis time/frequency resolution
EP3163906B1 (en) Addition of virtual bass in the frequency domain
JP6386634B2 (ja) オーディオ信号の符号化及び復号化方法並びにその装置
JP5957446B2 (ja) 音響処理システム及び方法
JP2009122699A (ja) サブバンド領域における改良されたスペクトル移動/折返し
TW201140563A (en) Determining an upperband signal from a narrowband signal
Kazama et al. On the significance of phase in the short term Fourier spectrum for speech intelligibility
CN105321526B (zh) 音频处理方法和电子设备
EP3591993B1 (en) Addition of virtual bass
Wells Modal decompositions of impulse responses for parametric interaction
CN114694665A (zh) 语音信号的处理方法和装置,存储介质和电子设备
CN113747337B (zh) 音频处理方法、介质、装置和计算设备
Zantalis Guided matching pursuit and its application to sound source separation
Chookaszian Music Visualization Using Source Separated Stereophonic Music
Wang et al. Deep encoder/decoder dual-path neural network for speech separation in noisy reverberation environments
JP3869823B2 (ja) 音声の周波数特性の等化装置
KR100891669B1 (ko) 믹스 신호의 처리 방법 및 장치
CN114827886A (zh) 音频生成方法、装置、电子设备和存储介质
WO2024102983A1 (en) Full-band audio signal reconstruction enabled by output from a machine learning model
WO2017188141A1 (ja) オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
CN116643712A (zh) 电子设备、音频处理的系统及方法、计算机可读存储介质
CN113571084A (zh) 音频处理方法、装置、设备及存储介质
JP2004205624A (ja) 音声処理システム
CN114566191A (zh) 录音的修音方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination