CN117153175A - 音频处理方法、装置、设备、介质及产品 - Google Patents
音频处理方法、装置、设备、介质及产品 Download PDFInfo
- Publication number
- CN117153175A CN117153175A CN202311105674.3A CN202311105674A CN117153175A CN 117153175 A CN117153175 A CN 117153175A CN 202311105674 A CN202311105674 A CN 202311105674A CN 117153175 A CN117153175 A CN 117153175A
- Authority
- CN
- China
- Prior art keywords
- audio
- voice
- sound
- segment
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000006243 chemical reaction Methods 0.000 claims abstract description 139
- 238000012545 processing Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims description 50
- 238000001514 detection method Methods 0.000 claims description 44
- 238000004519 manufacturing process Methods 0.000 claims description 24
- 230000007704 transition Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000012512 characterization method Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 20
- 230000000694 effects Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种音频处理方法、装置、设备、介质及产品,属于音频处理技术领域。音频处理方法包括:获取第一音频,第一音频包括至少两个发声对象;对第一音频进行转换点检测,得到各发声对象之间的音频转换点;根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段;按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。
Description
技术领域
本申请属于音频处理技术领域,具体涉及一种音频处理方法、装置、设备、介质及产品。
背景技术
针对存在多个发声对象的音频,为了增加音频的趣味性,可以对不同发声对象的音频进行变声处理,例如可以将发声对象A的声音变换为萝莉音、卡通音等。在需要对不同的发声对象进行变声时,需要先将整个音频中不同发声对象的音频切分出来,然后根据需求对不同发声对象的音频进行变声。
目前,主要是通过手动切分不同发声对象的音频,过程繁琐,效率较低。
发明内容
本申请实施例的目的是提供一种音频处理方法、装置、设备、介质及产品,能够解决相关技术通过手动切分不同发声对象的音频,导致过程繁琐、效率低的问题。
第一方面,本申请实施例提供了一种音频处理方法,包括:
获取第一音频,第一音频包括至少两个发声对象;
对第一音频进行转换点检测,得到各发声对象之间的音频转换点;
根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段;
按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。
第二方面,本申请实施例提供了一种音频处理装置,包括:
获取模块,用于获取第一音频,第一音频包括至少两个发声对象;
检测模块,用于对第一音频进行转换点检测,得到各发声对象之间的音频转换点;
切分模块,用于根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段;
处理模块,用于按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所述的方法的步骤。
第六方面,本申请实施例提供了一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行时实现如第一方面所述的方法的步骤。
本申请实施例获取第一音频,第一音频包括至少两个发声对象;对第一音频进行转换点检测,得到各发声对象之间的音频转换点;根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段;按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。即本申请实施例通过转换点检测,可以自动确定各发声对象之间的音频转换点,并基于音频转换点对第一音频进行自动切分,得到各发声对象的语音段,无需用户手动切分,如此简化了用户的操作,提高了效率,而且可以避免手动导致的切分结果不准确的问题,进而提高了变声的处理效果。
附图说明
图1为本申请实施例提供的一种音频处理方法的流程图;
图2为本申请实施例提供的另一种音频处理方法的流程图;
图3为本申请实施例提供的一种第一音频的示意图;
图4为本申请实施例提供的一种第一音频的检测结果的示意图;
图5为本申请实施例提供的一种第二语音段的语音信号和第一文本的字的对齐关系的示意图;
图6为本申请实施例提供的一种第一界面的示意图;
图7为本申请实施例提供的一种为发声对象A选取变声方式的示意图;
图8为本申请实施例提供的一种发声对象A的变声方式确定后的界面显示示意图;
图9为本申请实施例提供的一种变声处理结束后的显示示意图;
图10为本申请实施例提供的一种音频处理装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图;
图12为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的音频方法、装置、设备、介质及产品进行详细地说明。
图1为本申请实施例提供的一种音频处理方法的流程图,如图1所示,该音频处理方法可以包括以下步骤:
S110、获取第一音频。
第一音频包括至少两个发声对象。
S120、对第一音频进行转换点检测,得到各发声对象之间的音频转换点。
S130、根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段。
S140、按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。
本申请实施例获取第一音频,第一音频包括至少两个发声对象;对第一音频进行转换点检测,得到各发声对象之间的音频转换点;根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段;按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。即本申请实施例通过转换点检测,可以自动确定各发声对象之间的音频转换点,并基于音频转换点对第一音频进行自动切分,得到各发声对象的语音段,无需用户手动切分,如此简化了用户的操作,提高了效率,而且可以避免手动导致的切分结果不准确的问题,进而提高了变声的处理效果。
下面对上述步骤进行详细说明,具体如下所示:
在S110中,第一音频可以是包含至少两个发声对象的音频,第一音频的获取方式可以包括使用麦克风录音的方式在线获取,从用户由本地或云端上传的文件中获取,或者从用户输入的互联网上音频文件地址链接中获取等,在此不作限定。
发声对象可以是人、动物、乐器等可以发出声音的任一对象,例如第一音频可以包括两个发声对象,分别为用户A和用户B。
在S120中,音频转换点为不同发声对象的发声转折点,以发声对象为不同的用户为例,音频转换点可以是不同说话人的转换点。例如用户A说了一段话并经过停顿或沉默后,又继续说话,则此处不是音频转换点。如果用户A说了一段话并经过停顿或沉默后,用户B开始说话,则此处是音频转换点。
示例性地,可以识别第一音频中出现停顿或沉默的位置,基于停顿或沉默的位置将第一音频划分为多个语音段,然后识别各个语音段的说话人的身份,如果相邻两个语音段的说话人的身份相同,则两个语音段之间的停顿或沉默的位置不是音频转换点,如果相邻两个语音段的说话人的身份不同,则两个语音段之间的停顿或沉默的位置是音频转换点。
示例性地,考虑到同一个语音段中可能存在抢话的情况,即一个语音段可能包含多个发声对象,为了提高准确识别音频转换点,可以以字为单位,结合声纹信息和文本信息,逐字检查不同发声对象之间的音频转换点。
示例性地,也可以将第一音频输入转换点检测模型,基于转换点检测模型对第一音频进行转换点检测,得到不同发声对象之间的音频转换点。转换点检测模型用于检测不同发声对象之间的音频转换点,该转换点检测模型可以是经训练的神经网络模型。
当然,还可以采用其他方式对第一音频进行转换点检测,本申请实施例在此不进行限定。
在S130中,语音段为由连续语音活动的若干帧形成的一段语音,一般对应着一个发声对象开始说话到话说完,或者到中间停顿、沉默或换气的地方,一般为几秒。语音段也称有声段。
第一语音段为与各发声对象对应的语音段,一个发声对象可以对应一个或多个第一语音段。当一个发声对象对应多个第一语音段时,这多个第一语音段可以是不连续的语音段。
不同发声对象之间的音频转换点确定之后,即可基于音频转换点对第一音频进行切分,得到多个语音段,通过识别各个语音段,可以得到各个语音段的发声对象的身份信息,从而得到与各个发声对象对应的至少一个第一语音段。
示例性地,可以提取各个语音段的音色、语气、性别、基频等特征,基于提取出的特征确定各个语音段对应的发声对象的身份信息。例如可以将识别出的特征与特征模板进行匹配,得到与各个特征对应的发声对象的身份信息。特征模板用于存储发声对象与各个特征的对应关系。
示例性地,也可以将各个语音段输入身份识别模型,基于身份识别模型识别各个语音段对应的发声对象的身份信息。身份识别模型可以是经训练的神经网络模型。
本申请实施例在确定不同发声对象之间的音频转换点后,即可自动基于音频转换点对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段,无需用户手动操作,如此可以提高效率,也可以避免手动操作导致的准确性较低的问题。
在S140中,变声方式可以是将一个语音段由发声对象的音色变换为其他音色的方式,这里的其他音色例如可以是萝莉音、正太音、卡通音、电音等特效音,也可以是其他发声对象的音色,例如可以将发声对象A的音色变换为发声对象C的音色。
通过对语音段进行变声处理,不仅可以避免发声对象的真实身份信息泄露,也可以增加音频的趣味性和戏剧性。
目标语音段为第一语音段中的至少一个语音段,示例性地,目标语音段可以是不同发声对象的语音段,也可以是同一个发声对象的部分或全部的语音段。也即本申请实施例可以对不同发声对象的语音段进行变声处理,也可以对同一个发声对象的部分或全部语音段进行变声处理,如此提高了变声的灵活性。
示例性地,在目标语音段为同一个发声对象的多个语音段的情况下,多个语音段采用的变声方式可以相同也可以不同。在目标语音段为不同发声对象的语音段的情况下,不同发声对象采用的变声方式可以相同也可以不同。如此提高了变声的灵活性。
第二音频为变声处理后的第一音频。为了保证音频的完整性,在对目标语音段进行变声处理后,需要将各个语音段,包括变声处理后的目标语音段以及未变声处理的语音段按照发声对象的发声顺序拼接,得到第二音频。
示例性地,在拼接相邻的两个语音段时,可以使用基音同步叠加(PitchSynchronous Overlap Add,PSOLA)技术对拼接后的语音段进行平滑处理,以消除或减弱拼接点处可能出现的“咔哒”声。
具体地,针对一个语音段,在将该发声对象的音色变换为其他音色时,可以采用不同的处理方式,例如可以先将语音段转换为文本,然后对该文本进行语音合成,得到该文本的合成语音。也可以直接对该语音段进行变声处理,将该发声对象的音色变换为其他音色。
以通过语音合成的方式进行音频变声为例,示例性地,上述S140可以包括以下步骤:
对目标语音段进行语音识别,得到目标语音段对应的第二文本;
将第二文本输入语音合成模型,得到合成语音段,合成语音段的音色与目标语音段的音色不同;
利用合成语音段替换目标语音段,得到第二音频。
第二文本为与目标语音段对应的文本,示例性地,可以通过语音转换模型对目标语音段进行语音识别,并将语音转换为文本。该文本舍弃了发声对象的语音韵律、节奏信息,从而可以隐藏发声对象的身份信息。
语音合成模型用于将其他音色合成到上述文本上,得到文本的合成语音段,该合成语音段保留了目标语音段的文本内容,但音色被替换为指定的音色,如萝莉音、夹子音、正太音等。当目标语音段有多个语音段时,各语音段的处理方式类似。
利用合成语音段替换目标语音段,即可得到新的音频,也即第二音频。
本申请实施例先对目标语音段进行语音识别,以舍弃原始音色、仅保留文本,然后对文本进行语音合成,为文本添加指定的音色,并重新变换到语音信号域,实现了对特定发声对象的音频变声的目的。
以直接将发声对象的音色变换为其他音色为例,示例性地,上述S140可以包括以下步骤:
将目标语音段输入语音转换模型,得到变声语音段,变声语音段的音色与目标语音段的音色不同;
利用变声语音段替换目标语音段,得到第二音频。
语音转换模型用于将目标语音段的音色转换为其他音色。该语音转换模型可以保留发声对象原有的韵律信息和节奏信息。
示例性地,语音转换模型可以是经过训练的神经网络模型,例如双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)、Tacotron网络、CBHG(1-Dconvolution bank+highway network+bidirectional GRU)网络、生成式对抗网络(Generative Adversarial Networks,GAN)以及生成网络(Variational Auto-Encoder,VAE)等。
示例性地,还可以通过其他的语音转换技术将目标语音段的音色转换为其他音色,语音转换技术例如可以是基于变分自编码器的方法、基于音素后验概率(PhoneticPosterior Gram,PPG)结合神经网络的方法等。
本申请实施例实现了从目标语音段到变声语音段的语音转换,无需再将目标语音段先转换为文本,如此可以避免变声音频与口型不匹配的情况,影响音视频的观赏体验。
在一些实施例中,如图2所示,该音频处理方法可以包括以下步骤:
S210、获取第一音频。
S220、从第一音频中确定至少一个第二语音段。
其中,第二语音段包括连续的语音帧。
S230、针对每一个第二语音段,将第二语音段的语音信号和第二语音段对应的第一文本的各个字进行对齐,得到语音信号和字的对齐关系。
S240、针对每一个第二语音段对应的第一文本,利用语言表征模型,确定第i个字相对于上文出现的第一概率。
其中,上文为第j个字到第i-1个字之间的文本,第j个字为预先确定的与第i个字距离最近的音频转换点,i和j均为正整数,且i>j。
S250、根据语音信号和字的对齐关系,从第二语音段中确定与第一文本的第i个字到第i+m个字对应的第一语音帧,以及与第一文本的第j个字到第i-1个字对应的第二语音帧。
其中,m为正整数。
S260、根据第一语音帧的第一声纹特征和第二语音帧的第二声纹特征,确定第一语音帧和第二语音帧的第一声纹相似度。
S270、根据第一概率和第一声纹相似度,确定第i个字是否为第一发声对象和第二发声对象之间的音频转换点。
其中,第一发声对象和第二发声对象为各发声对象中的发声对象。
S280、根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段。
S290、按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。
其中,S210、S280和S290的过程与上述S110、S130和S140的过程相同,具体可以参见上述S110、S130和S140的描述,为简洁描述,此处不再赘述。
下面对上述其他步骤进行详细说明,具体如下所示:
在S220中,第二语音段为第一音频中包含连续语音帧的语音段。语音帧即包含语音信号的帧。实际应用时,第一音频除了可以包含语音帧,还可以包含静音帧,静音帧即未包含语音信号的帧。
示例性地,可以逐帧地检测第一音频的每一帧,确定该帧是否存在语音信号,从而可以确定该帧是语音帧还是静音帧。如此可以得到各个帧的语音检测结果。将连续的语音帧合并,即可得到第二语音段。
示例性地,上述S220可以包括以下步骤:
针对第一音频的每一帧,提取帧的第三声学特征;
将第三声学特征输入语音检测模型,得到帧的语音检测结果,语音检测结果包括帧为静音帧或者帧为语音帧;
将连续的语音帧进行合并,得到至少一个第二语音段。
第三声学特征为每一帧的声学特征,用于表征该帧的声学信息的特征,示例性地,第三声学特征可以包括但不限于该帧的能量、过零率等。过零表示信号通过零值,过零率即每秒内信号值通过零值的次数。
本申请实施例对第三声学特征的提取方式不进行限定,例如可以采用经过训练的声学特征提取模型提取每一帧的第三声学特征。声学特征提取模型例如可以是神经网络模型。
语音检测模型用于判断第一音频的每一帧是属于语音帧还是静音帧。示例性地,该语音检测模型可以采用分类算法对第三声学特征进行分类,得到每一帧属于静音帧或语音帧的概率,并将概率较大的分类结果作为该帧的语音检测结果。
分类算法例如可以是机器学习领域中常用的分类算法,也可以是神经网络算法。
每一帧的语音检测结果确定之后,即可将连续的语音帧进行合并,得到第二语音段。
示例性地,在进行语音帧合并时,也可以采用一些纠正策略来纠正可能出现的错误,例如前后较长的语音段中夹杂了一帧孤零零的静音帧,此时可以根据阈值选择性地将该孤立的静音帧纠正为语音帧。
以第一音频包含一个语音段为例,示例性地,第一音频对应的语音信号可以参见图3,通过上述检测方案,可以得到第一音频包含的语音段和静音段,具体可以参见图4,其中,标签为0表示对应时间段为静音段,标签为1表示对应时间段为语音段。
对于语音段可以进行后续的变声处理,对于静音段,因为没有语音信息,不存在需要变声的问题。需要注意的是,静音段虽然不含语音信息,但在后续拼接各个语音段,得到第二音频时,应该按照静音段在第一音频中的原始位置依次复制到拼接后的音频中。
本申请实施例在检测不同发声对象之间的音频转换点时,提前对第一音频进行语音活动的检测,确定其包含的静音帧和语音帧,如此可以避免静音帧对音频转换点检测的干扰,提高了音频转换点检测结果的准确性。
在S230中,第一文本为与第二语音段对应的文本,语音到文本的转换方式可以参见上述实施例,此处不再赘述。
为了提高音频转换点检测结果的准确性,示例性地,可以以字为单位,结合声纹信息和文本信息,逐字检测不同发声对象之间的音频转换点。
为了准确确定与各个字对应的声纹信息,示例性地,可以将语音段的语音信号和语音段对应的文本进行对齐。
例如,针对每一个第二语音段,可以将该第二语音段的语音信号和该第二语音段对应的第一文本的各个字进行对齐,得到语音信号和字的对齐关系。
第二语音段的语音信号和第一文本的字的对齐关系可以参见图5,其中,N为第一文本包含的字的数量,1表示第一文本的第一个字,2表示第一文本的第二个字,依次类推,N表示第一文本的第N个字,由此可以将第一文本的各个字与第二语音段的语音信号的对齐关系,方便后续确定与各个字对应的语音信号的声纹信息。
在S240中,应当理解,在发声对象转换的情况下,下一个发声对象的表达内容与当前发声对象的表达内容往往不是连贯的,难以构成语义顺畅的一句话,因此可以利用语义信息的连贯性来检测不同发声对象之间的音频转换点。
语言表征模型用于确定第一文本的第i个字相对于上文出现的概率,也即第一概率,第一概率可以表征第i个字的语义连贯性得分,例如第一概率越大,表示第i个字的语义连贯性得分越高,也即第i个字为音频转换点的概率越低。
示例性地,语言表征模型可以是神经网络模型。例如可以是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,Bert)模型。示例性地,该语言表征模型可以以第一文本为输入,以第一文本的各个字相对于上文出现的概率为输出。
这里的上文为第j个字到第i-1个字之间的文本,第j个字为预先确定的与第i个字距离最近的音频转换点,也即第j个字为上一次不同发声对象之间的音频转换点。
示例性地,第一概率可以表示为:p(xi|xi-1xi-2…xj),其中,xi表示第i个字,xi- 1xi-2…xj表示第j个字到第i-1个字之间的文本,p(xi|xi-1xi-2…xj)表示在上文为xi-1xi-2…xj的语境下,xi出现的概率。
以“今天很开心”和“今天很开我”为例,p(心|今天很开)>p(我|今天很开)。在一般语境下,在上文为“今天很开”时,下文出现“心”的概率比“我”的概率更大,文本“今天很开心”比文本“今天很开我”的语义更连贯通顺。
本申请实施例以字为单位,逐字确定其相对于上文出现的概率,从而可以确定各个字的语义连贯性得分,为后续的音频转换点检测提供了依据。
考虑到在将语音段转换为文本时,可能存在错误,为了准确确定第i个字相对于上文出现的概率,示例性地,上述S240可以包括以下步骤:
获取第一文本的拼音序列;
将第一文本和拼音序列输入语言表征模型,得到第i个字相对于上文出现的第一概率。
还是以第二语音段为“今天很开心”为例,在将该第二语音段识别为文本时,可能识别为“今天很开新”,如果以文本“今天很开新”作为第一文本,输入语言表征模型,容易导致“新”这个字相对于上文出现的概率较低,也即“新”的语义连贯性得分较低,从而容易将“新”这个字确定为音频转换点,影响检测结果的准确性。
为了避免因语音识别结果错误而导致某个字的语义连贯性得分过低,影响音频转换点检测结果的准确性,本申请实施例除了将第一文本作为输入,还将第一文本的拼音序列作为输入,也即将第一文本以及第一文本的拼音序列同时输入语言表征模型。
例如“今天很开新”和“今天很开心”的拼音序列相同,在第一文本为“今天很开新”时,同时将拼音序列作为输入,输入至语言表征模型,可以提高“新”相对于上文出现的概率,从而可以避免将其误认为是音频转换点。
本申请实施例在确定第一文本的第i个字相对于上文出现的概率时,以第一文本和第一文本对应的拼音序列为输入,输入至语言表征模型,可以避免因语音识别结果错误而导致某个字的语义连贯性得分过低,影响音频转换点检测结果的准确性。
在S250中,为了准确确定各个字是否为音频转换点,除了可以依据各个字相对于上文出现的概率,还可以依据各个字前后的语音帧的声纹相似度。
在确定各个字前后的语音帧的声纹相似度之前,需要先确定与第一文本的第i个字之前的文本对应的语音帧以及与第i个字之后的文本对应的语音帧。
示例性地,可以基于上述得到的语音信号和字的对齐关系,从第二语音段中确定与第一文本的第i个字到第i+m个字对应的第一语音帧以及与第一文本的第j个字到第i-1个字对应的第二语音帧。
其中,第一语音帧为第i个字之后的语音帧,也称为待识别语音段;第二语音帧为第i个字之前的语音帧,也称为参考语音段。m的大小可以根据实际需要设定。需要说明的是,m不宜过小或过大,例如m过小容易导致第二语音帧过短,进而导致发声对象的声纹信息不足,影响音频转换点的识别结果。m过大,即第二语音帧过长,容易存在音频转换点,从而影响发声对象的声纹信息,进而影响音频转换点的识别结果。
示例性地,m可以在3-5之间选择,例如当m=4时,第二语音帧包含5个字,时长约1s,我们默认这1s内为同一个发声对象的语音。
在S260中,声纹特征是对语音段中所蕴含的、能表征和标识发声对象身份的语音特征。例如在本申请实施例中,第一声纹特征能够表征和标识第一语音帧的发声对象的身份信息,第二声纹特征能够表征和标识第二语音帧的发声对象的身份信息。
第一声纹相似度用于表示第一语音帧和第二语音帧所对应的声纹的相似度,第一声纹相似度越大,表示第一语音帧和第二语音帧所对应的声纹越相似,也即第一语音帧和第二语音帧为同一个发声对象的语音帧的可能性越大,也即第i个字为音频转换点的可能性越小。
本申请实施例对第一声纹相似度的确定方式不进行限定,例如可以将第一声纹特征和第二声纹特征输入经过训练的声纹相似度模型,得到第一声纹特征和第二声纹特征的声纹相似度。声纹相似度模型例如可以是神经网络模型。
示例性地,也可以确定第一声纹特征和第二声纹特征的欧式距离,基于欧氏距离,确定第一声纹特征和第二声纹特征的声纹相似度。
示例性地,也可以确定第一声纹特征和第二声纹特征的余弦相似度,将该余弦相似度确定为第一声纹特征和第二声纹特征的声纹相似度。
以基于第一声纹特征和第二声纹特征的余弦相似度确定第一语音帧和第二语音帧的声纹相似度为例,示例性地,上述S260可以包括以下步骤:
从第一语音帧中提取第一声学特征,以及从第二语音帧中提取第二声学特征;
将第一声学特征和第二声学特征分别输入第一声纹识别模型,得到第一语音帧的第一声纹特征以及第二语音帧的第二声纹特征;
计算第一声纹特征和第二声纹特征的余弦相似度,并将余弦相似度确定为第一语音帧和第二语音帧的第一声纹相似度。
声学特征例如可以包括但不限于梅尔频率倒谱系数(Mel-scale FrequencyCepstral Coefficients,MFCC)、线性预测倒谱系数(linear predictive cepstrumcoefficient,LPCC)以及感知对数面积比系数(Perceptual Log Area Ratio,PLAR)等。
本申请实施例对声学特征的提取方式不进行限定,任何可以提取上述声学特征的方式均可以应用于本申请实施例。
第一声纹识别模型用于识别第一语音帧和第二语音帧的声纹特征,示例性地,可以将第一声学特征和第二声学特征分别输入预先训练的第一声纹识别模型,得到第一语音帧的第一声纹特征以第二语音帧的第二声纹特征。
第一声纹识别模型可以是神经网络模型,例如可以是ECAPA-TDNN(EmphasizedChannel Attention,Propagation and Aggregation in time delay neural networkBased Speaker Verification)模型。
示例性地,可以通过如下公式计算第一声纹特征和第二声纹特征的余弦相似度:
其中,fsimilar为第一声纹相似度,εi(i+m)为第一语音帧的第一声纹特征,ε(i-1)j为第二语音帧的第二声纹特征,cosine(εi(i+m),ε(i-1)j)是计算第一声纹特征与第二声纹特征的余弦相似度。
本申请实施例分别从第一语音帧和第二语音帧中提取声学特征,并分别基于提取的声学特征和第二声学特征确定第一语音帧和第二语音帧的声纹特征,进而计算两个声纹特征的余弦相似度,作为第一语音帧和第二语音帧的声纹相似度,可以更准确地确定音频转换点。
在S270中,第i个字相对于上文出现的第一概率以及第i个字到第i+m个字对应的第一语音帧与第j个字到第i-1个字对应的第二语音帧的第一声纹相似度确定之后,即可基于第一概率和第一声纹相似度,判断第i个字是否为音频转换点。
示例性地,可以累加第一概率和第一声纹相似度,得到累加和,并基于累加和判断第i个字是否为音频转换点。例如如果累加和小于设定阈值,可以确定第i个字为音频转换点,如果累加和大于或等于设定阈值,可以确定第i个字不是音频转换点。
当然也可以对第一概率和第一声纹相似度进行其他的运算,得到运算结果,并基于运算结果判断第i个字是否为音频转换点。
例如可以分别为第一概率和第一声纹相似度设置一个权重,将第一概率和第一声纹相似度分别与对应的权重相乘,然后累加各自的加权结果,得到累加和,基于累加和判断第i个字是否为音频转换点。
其中,第一概率的权重可以由用户设置,例如可以设置为1。
第一声纹相似度的权重也可以由用户设置,还可以基于i和j对应的位置差值确定,例如i和j的位置差值越大,第一声纹相似度的权重越小,并趋近于1,i和j的位置差值越小,第一声纹相似度的权重越大。基于i和j的位置差值设置第一声纹相似度的权重,可以避免因i和j的位置差值过小导致对应的语音帧的声纹特征过少,从而影响第一声纹相似度的准确性。
以基于i和j的位置差值设置第一声纹相似度的权重为例,示例性地,上述S270可以包括以下步骤:
将i和j的位置差值,结合权重计算公式,确定调整权重,调整权重的大小与位置差值呈负相关;
根据调整权重与第一声纹相似度的乘积值调整第一声纹相似度,得到调整后的第一声纹相似度;
在调整后的第一声纹相似度与第一概率的累加和小于预设阈值的情况下,确定第i个字是第一发声对象和第二发声对象之间的音频转换点;
在调整后的第一声纹相似度与第一概率的累加和大于或等于预设阈值的情况下,确定第i个字不是第一发声对象和第二发声对象之间的音频转换点。
调整权重用于调整第一声纹相似度,调整权重可以基于i和j的位置差值,以及权重计算公式确定。
示例性地,权重计算公式可以采用如下形式:
其中,f(i-j)为调整权重,n为大于或等于2的整数。将i和j的位置差值代入上述公式,即可得到第一声纹相似度的调整权重。f(i-j)的值随自变量(i-j)的增大而减小,且趋近于1。
因为第i个字与前一个音频转换点距离越近,即i-j越小,则参考语音段(第二语音帧)包含的声纹特征越少,即便参考语音段与待识别语音段(第一语音帧)属于同一个发声对象,两者的声纹相似度也相对较小,如此会影响音频转换点识别结果的准确性。通过调整权重的调整,可以弥补i-j过小导致音频转换点识别结果不准确的缺陷。
示例性地,可以利用调整权重与第一声纹相似度的乘积值调整第一声纹相似度,例如可以将调整权重与第一声纹相似度的乘积值作为新的第一声纹相似度,也即调整后的第一声纹相似度。
第一概率的权重默认为1。基于调整后的第一声纹相似度和第一概率的累加和,可以判断第i个字是否为音频转换点。
示例性地,如果fcoherence+f(i-j)fsimilar<θ,可以确定第i个字是第一发声对象和第二发声对象之间的音频转换点,如果fcoherence+f(i-j)fsimilar≥θ,可以确定第i个字不是第一发声对象和第二发声对象之间的音频转换点。第一发生对象和第二发声对象为第一音频所包含的发声对象中的发声对象。
其中,fcoherence为第i个字相对于上文出现的第一概率,θ为预设阈值。本申请实施例对预设阈值的大小不进行限定。
本申请实施例可以基于i和j的位置差值,以及权重计算公式,确定调整权重,并基于该调整权重,调整第一声纹相似度,进而基于调整后的第一声纹相似度与第一概率的和,判断第i个字是否为音频转换点。如此可以避免因i和j的位置差值过小或过大,而影响第一语音帧与第二语音帧的声纹相似度,进而影响音频转换点识别结果的准确性。
通过上述方案可以准确地检测出第一音频包含的各个音频转换点,尤其是在某个语音段存在抢话的情况下,通过上述逐字的检测,也可以准确识别出不同发声对象之间的音频转换点。
第一音频包含的各个音频转换点确定之后,即可基于各个音频转换点自动地对第一音频进行切分,无需用户操作,如此可以提高切分效率以及切分的准确性。
示例性地,上述S130可以包括以下步骤:
根据音频转换点对第一音频进行切分,得到至少一个第一语音段;
根据第二声纹识别模型,识别各第一语音段的发声对象,得到与各发声对象对应的至少一个第一语音段。
示例性地,以音频转换点为分界点,可以将两个分界点之间的1个或若干个语音段重新组成一个新的语音段,也即第一语音段。第一语音段也可以称为发声对象的连续语音段,表示发生对象连续说的一段话。
第二声纹识别模型用于识别各个第一语音段的发声对象的身份信息,即识别每一个第一语音段对应哪个发声对象,方便后续建立发声对象与第一语音段的关联关系,进而方便后续的变声处理。
示例性地,第二声纹识别模型可以是i-vector结合线性鉴别器或者神经网络模型。
需要注意的是,第二声纹识别模型是以第一语音段为输入,也即以相邻两个音频转换点之间的一个或多个语音段重新组成的连续语音段为输入,以发声对象的识别结果为输出,例如语音段1为发声对象A的语音信号,语音段2为发声对象B的语音信号。
在输出各个发声对象时,可以以A、B、C等字母进行标识;也可以用用户熟悉的姓名形式如张三、李四进行标识,方便用户记忆;还可以以发声对象的真实姓名进行标识等。
本申请实施例基于上述得到的音频转换点可以自动切分第一音频,得到各个第一语音段,并通过第二声纹识别模型识别各个第一语音段的发声对象,从而建立第一语音段与发声对象的对应关系,方便后续的变声处理。
在一些实施例中,在S140之前,可以通过如下方式确定目标语音段:
显示第一界面,第一界面包括第一音频的至少一个第一语音段以及各发声对象;
接收对目标对象的第一输入,目标对象为第三语音段和目标发声对象中的至少一个,第三语音段为各第一语音段中的至少一个,目标发声对象为各发声对象中的至少一个;
在目标对象包括第三语音段的情况下,响应于第一输入,将第三语音段确定为目标语音段;
在目标对象包括目标发声对象的情况下,响应于第一输入,将目标发声对象的各第一语音段确定为目标语音段。
第一界面可以是显示各个第一语音段以及发声对象的界面,示例性地,第一界面的示意图可以参见图6,第一界面除了可以显示各个第一语音段以及各个发声对象,还可以显示音频导入控件610、音频分析控件620以及变声控件630,还可以显示变声方式,以供用户选择。变声方式可以参见图6的显示区域640,该显示区域以显示了三种变声方式为例,分别为正太音、萝莉音和卡通音,实际应用时,可以有更多的变声方式。
音频导入控件610用于导入音频,例如在本申请实施例可以导入第一音频。音频分析控件620用于对分析第一音频,即可以采用上述实施例的方案对第一音频进行分析和处理。第一视频导入后,用户点击音频分析控件620,即可在第一界面中看到第一音频的分析结果以及声纹识别结果。
其中,该分析结果可以包括整段第一音频的分析结果,例如可以包括第一音频中的各个第一语音段以及各个静音段。声纹识别结果可以包括第一音频包含的各个发声对象,以及与各个发声对象对应的部分语音段。如此可以方便用户执行变声操作。
示例性地,在显示第一音频包含的各个发声对象时,与各个发声对象对应的部分语音段可以是该发声对象的第一个语音段。
第一输入为确定目标对象的输入,示例性地,第一输入可以是对目标对象的点击、触控等操作。
目标对象可以是第三语音段和目标发声对象中的至少一个,第三语音段为各第一语音段中的至少一个,目标发声对象为各发声对象中的至少一个。也即用户可以对一个或多个发声对象的语音段进行变声,也可以仅对一个或多个语音段进行变声。如此提高了变声的灵活性,可以满足不同的场景需求。
示例性地,在目标对象包括第三语音段的情况下,可以直接将第三语音段确定为目标语音段,并对目标语音段进行变声处理,也即可以仅对一个或多个语音段进行变声,当该语音段有多个时,该多个语音段可以为同一个发声对象的,也可以是不同发声对象的,具体可以根据场景需求设定。
示例性地,在目标对象包括目标发声对象的情况下,可以直接将目标发声对象的全部语音段确定为目标语音段,也即可以对一个或多个发声对象的全部语音段进行变声,如此无需再针对某一个发声对象,逐一处理该发声对象的各个语音段,如此提高了变声的处理效率。
示例性地,参考图7,以目标对象为发声对象A为例,用户可以双击或长按发声对象A,以选中发声对象A,图7以通过矩形框代表选中发声对象A为例,然后用户可以从显示区域640中为该发声对象选取合适的变声方式,图7以为发声对象选取正太音为例,示例性地,参考图8,用户选取一种变声方式后,电子设备可以基于用户选取的变声方式,播放该发声对象的语音段,方便用户选取更合适的变声方式。
示例性地,参考图8,为了方便用户了解当前的变声方式,可以在发声对象A所在的区域显示用户选取的变声方式。例如当用户为发声对象A选取“正太音”时,可以在发声对象A所在的区域显示“正太音”。
示例性地,如果用户需要对多个发声对象进行处理,各个发声对象的处理过程类似,即用户可以在处理完一个发声对象后,再处理另一个发声对象。
示例性地,参考图9,用户对各个发声对象均处理完毕后,可以点击变声控件630,电子设备接收到用户对变声控件630的输入后,可以在第一界面显示变声后的完整音频,也即第二音频。如此,用户可以播放变声后的完整音频,体验变声后的音频效果。
当需要对一个或多个语音段进行变声处理时,用户可以直接点击分析结果中的对应语音段即可,然后为选中的语音段选取合适的变声方式。
在实际应用时,也可以对视频中的音频进行上述处理,例如用户可以根据对视频内容的理解和对人物形象的塑造需求,为不同的发声对象选择合适的变声方式,也可以为同一个发声对象的不同语音段设置不同的变声方式,例如当一个发声对象分饰不同的角色时,可以为不同的角色设置不同的变声方式,如此可以增强变声音频的趣味性。
本申请实施例的方案不进行可以对语音段进行变声处理,还可以增加背景音,例如可以根据音频的中场景、情节、人设的变换,为不同的连续音频段(包括静音段和语音段)增加俏皮、恐怖、恬静的背景音。
需要说明的是,本申请实施例提供的音频处理方法,执行主体可以为音频处理装置,或者该音频处理装置中的用于执行音频处理方法的处理模块。本申请实施例中以音频处理装置执行音频处理方法为例,说明本申请实施例提供的音频处理装置。
图10为本申请实施例提供的一种音频处理装置的结构示意图。
如图10所示,该音频处理装置1000可以包括:
获取模块1001,用于获取第一音频,第一音频包括至少两个发声对象;
检测模块1002,用于对第一音频进行转换点检测,得到各发声对象之间的音频转换点;
切分模块1003,用于根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段;
处理模块1004,用于按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。
本申请实施例获取第一音频,第一音频包括至少两个发声对象;对第一音频进行转换点检测,得到各发声对象之间的音频转换点;根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段;按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。即本申请实施例通过转换点检测,可以自动确定各发声对象之间的音频转换点,并基于音频转换点对第一音频进行自动切分,得到各发声对象的语音段,无需用户手动切分,如此简化了用户的操作,提高了效率,而且可以避免手动导致的切分结果不准确的问题,进而提高了变声的处理效果。
在本申请实施例的一些可能实现中,检测模块1002,包括:确定单元和对齐单元;
确定单元,用于从第一音频中确定至少一个第二语音段,第二语音段包括连续的语音帧;
对齐单元,用于针对每一个第二语音段,将第二语音段的语音信号和第二语音段对应的第一文本的各个字进行对齐,得到语音信号和字的对齐关系;
确定单元,还用于针对每一个第二语音段对应的第一文本,利用语言表征模型,确定第i个字相对于上文出现的第一概率,上文为第j个字到第i-1个字之间的文本,第j个字为预先确定的与第i个字距离最近的音频转换点,i和j均为正整数,且i>j;
确定单元,还用于根据语音信号和字的对齐关系,从第二语音段中确定与第一文本的第i个字到第i+m个字对应的第一语音帧,以及与第一文本的第j个字到第i-1个字对应的第二语音帧,m为正整数;
确定单元,还用于根据第一语音帧的第一声纹特征和第二语音帧的第二声纹特征,确定第一语音帧和第二语音帧的第一声纹相似度;
确定单元,还用于根据第一概率和第一声纹相似度,确定第i个字是否为第一发声对象和第二发声对象之间的音频转换点,第一发声对象和第二发声对象为各发声对象中的发声对象。
在本申请实施例的一些可能实现中,确定单元,具体用于:
从第一语音帧中提取第一声学特征,以及从第二语音帧中提取第二声学特征;
将第一声学特征和第二声学特征分别输入第一声纹识别模型,得到第一语音帧的第一声纹特征以及第二语音帧的第二声纹特征;
计算第一声纹特征和第二声纹特征的余弦相似度,并将余弦相似度确定为第一语音帧和第二语音帧的第一声纹相似度。
在本申请实施例的一些可能实现中,确定单元,具体用于:
将i和j的位置差值,结合权重计算公式,确定调整权重,调整权重的大小与位置差值呈负相关;
根据调整权重与第一声纹相似度的乘积值调整第一声纹相似度,得到调整后的第一声纹相似度;
在调整后的第一声纹相似度与第一概率的累加和小于预设阈值的情况下,确定第i个字是第一发声对象和第二发声对象之间的音频转换点;
在调整后的第一声纹相似度与第一概率的累加和大于或等于预设阈值的情况下,确定第i个字不是第一发声对象和第二发声对象之间的音频转换点。
在本申请实施例的一些可能实现中,获取模块1001,还用于获取第一文本的拼音序列;
确定单元,还用于将第一文本和拼音序列输入语言表征模型,得到第i个字相对于上文出现的第一概率。
在本申请实施例的一些可能实现中,确定单元,具体用于:
针对第一音频的每一帧,提取帧的第三声学特征;
将第三声学特征输入语音检测模型,得到帧的语音检测结果,语音检测结果包括帧为静音帧或者帧为语音帧;
将连续的语音帧进行合并,得到至少一个第二语音段。
在本申请实施例的一些可能实现中,切分模块1003,具体用于:
根据音频转换点对第一音频进行切分,得到至少一个第一语音段;
根据第二声纹识别模型,识别各第一语音段的发声对象,得到与各发声对象对应的至少一个第一语音段。
在本申请实施例的一些可能实现中,该音频处理装置1000还可以包括:
显示模块,用于在处理模块1004按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频之前,显示第一界面,第一界面包括第一音频的至少一个第一语音段以及各发声对象;
接收模块,用于接收对目标对象的第一输入,目标对象为第三语音段和目标发声对象中的至少一个,第三语音段为各第一语音段中的至少一个,目标发声对象为各发声对象中的至少一个;
确定单元,还用于在目标对象包括第三语音段的情况下,响应于第一输入,将第三语音段确定为目标语音段;在目标对象包括目标发声对象的情况下,响应于第一输入,将目标发声对象的各第一语音段确定为目标语音段。
本申请实施例通过转换点检测,可以自动确定各发声对象之间的音频转换点,并基于音频转换点对第一音频进行自动切分,得到各发声对象的语音段,无需用户手动切分,如此简化了用户的操作,提高了效率,而且可以避免手动导致的切分结果不准确的问题,进而提高了变声的处理效果。
本申请实施例中的音频处理装置可以是装置,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的电子设备可以为具有操作系统的电子设备。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的音频处理装置能够实现图1至图9的音频处理方法实施例中的各个过程,为避免重复,这里不再赘述。
如图11所示,本申请实施例还提供一种电子设备1100,包括处理器1101和存储器1102,存储器1102存储可在处理器1101上运行的程序或指令,该程序或指令被处理器1101执行时实现上述图像处理方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图12为本申请实施例提供的一种电子设备的硬件结构示意图。
该电子设备1200包括但不限于:射频单元1201、网络模块1202、音频输出单元1203、输入单元1204、传感器1205、显示单元1206、用户输入单元1207、接口单元1208、存储器1209、以及处理器1210等部件。
本领域技术人员可以理解,电子设备1200还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1210逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图12中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器1210,用于获取第一音频,第一音频包括至少两个发声对象;
对第一音频进行转换点检测,得到各发声对象之间的音频转换点;
根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段;
按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。
本申请实施例获取第一音频,第一音频包括至少两个发声对象;对第一音频进行转换点检测,得到各发声对象之间的音频转换点;根据音频转换点,对第一音频进行切分,得到与各发声对象对应的至少一个第一语音段;按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频。即本申请实施例通过转换点检测,可以自动确定各发声对象之间的音频转换点,并基于音频转换点对第一音频进行自动切分,得到各发声对象的语音段,无需用户手动切分,如此简化了用户的操作,提高了效率,而且可以避免手动导致的切分结果不准确的问题,进而提高了变声的处理效果。
在本申请实施例的一些可能实现中,处理器1210,具体用于:
从第一音频中确定至少一个第二语音段,第二语音段包括连续的语音帧;
针对每一个第二语音段,将第二语音段的语音信号和第二语音段对应的第一文本的各个字进行对齐,得到语音信号和字的对齐关系;
针对每一个第二语音段对应的第一文本,利用语言表征模型,确定第i个字相对于上文出现的第一概率,上文为第j个字到第i-1个字之间的文本,第j个字为预先确定的与第i个字距离最近的音频转换点,i和j均为正整数,且i>j;
根据语音信号和字的对齐关系,从第二语音段中确定与第一文本的第i个字到第i+m个字对应的第一语音帧,以及与第一文本的第j个字到第i-1个字对应的第二语音帧,m为正整数;
根据第一语音帧的第一声纹特征和第二语音帧的第二声纹特征,确定第一语音帧和第二语音帧的第一声纹相似度;
根据第一概率和第一声纹相似度,确定第i个字是否为第一发声对象和第二发声对象之间的音频转换点,第一发声对象和第二发声对象为各发声对象中的发声对象。
在本申请实施例的一些可能实现中,处理器1210,具体用于:
从第一语音帧中提取第一声学特征,以及从第二语音帧中提取第二声学特征;
将第一声学特征和第二声学特征分别输入第一声纹识别模型,得到第一语音帧的第一声纹特征以及第二语音帧的第二声纹特征;
计算第一声纹特征和第二声纹特征的余弦相似度,并将余弦相似度确定为第一语音帧和第二语音帧的第一声纹相似度。
在本申请实施例的一些可能实现中,处理器1210,具体用于:
将i和j的位置差值,结合权重计算公式,确定调整权重,调整权重的大小与位置差值呈负相关;
根据调整权重与第一声纹相似度的乘积值调整第一声纹相似度,得到调整后的第一声纹相似度;
在调整后的第一声纹相似度与第一概率的累加和小于预设阈值的情况下,确定第i个字是第一发声对象和第二发声对象之间的音频转换点;
在调整后的第一声纹相似度与第一概率的累加和大于或等于预设阈值的情况下,确定第i个字不是第一发声对象和第二发声对象之间的音频转换点。
在本申请实施例的一些可能实现中,处理器1210,具体用于:
获取第一文本的拼音序列;
将第一文本和拼音序列输入语言表征模型,得到第i个字相对于上文出现的第一概率。
在本申请实施例的一些可能实现中,处理器1210,具体用于:
针对第一音频的每一帧,提取帧的第三声学特征;
将第三声学特征输入语音检测模型,得到帧的语音检测结果,语音检测结果包括帧为静音帧或者帧为语音帧;
将连续的语音帧进行合并,得到至少一个第二语音段。
在本申请实施例的一些可能实现中,处理器1210,具体用于:
根据音频转换点对第一音频进行切分,得到至少一个第一语音段;
根据第二声纹识别模型,识别各第一语音段的发声对象,得到与各发声对象对应的至少一个第一语音段。
在本申请实施例的一些可能实现中,显示单元1206,还用于在处理器1210按照预设的变声方式对各第一语音段中的目标语音段进行变声处理,得到第二音频之前,显示第一界面,第一界面包括第一音频的至少一个第一语音段以及各发声对象;
用户输入单元1207,接收对目标对象的第一输入,目标对象为第三语音段和目标发声对象中的至少一个,第三语音段为各第一语音段中的至少一个,目标发声对象为各发声对象中的至少一个;
处理器1210,还用于在目标对象包括第三语音段的情况下,响应于第一输入,将第三语音段确定为目标语音段;
在目标对象包括目标发声对象的情况下,响应于第一输入,将目标发声对象的各第一语音段确定为目标语音段。
本申请实施例通过转换点检测,可以自动确定各发声对象之间的音频转换点,并基于音频转换点对第一音频进行自动切分,得到各发声对象的语音段,无需用户手动切分,如此简化了用户的操作,提高了效率,而且可以避免手动导致的切分结果不准确的问题,进而提高了变声的处理效果。
应理解的是,本申请实施例中,输入单元1204可以包括图形处理器(GraphicsProcessing Unit,GPU)12041和麦克风12042,图形处理器12041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1206可包括显示面板12061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板12061。用户输入单元1207包括触控面板12071以及其他输入设备12072中的至少一种。触控面板12071,也称为触摸屏。触控面板12071可包括触摸检测装置和触摸控制器两个部分。其他输入设备12072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器1209可用于存储软件程序以及各种数据。存储器1209可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器1209可以包括易失性存储器或非易失性存储器,或者,存储器1209可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器1209包括但不限于这些和任意其它适合类型的存储器。
处理器1210可包括一个或多个处理单元;可选的,处理器1210集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器1210中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中所述的电子设备中的处理器。可读存储介质包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (12)
1.一种音频处理方法,其特征在于,包括:
获取第一音频,所述第一音频包括至少两个发声对象;
对所述第一音频进行转换点检测,得到各所述发声对象之间的音频转换点;
根据所述音频转换点,对所述第一音频进行切分,得到与各所述发声对象对应的至少一个第一语音段;
按照预设的变声方式对各所述第一语音段中的目标语音段进行变声处理,得到第二音频。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一音频进行转换点检测,得到各所述发声对象之间的音频转换点,包括:
从所述第一音频中确定至少一个第二语音段,所述第二语音段包括连续的语音帧;
针对每一个所述第二语音段,将所述第二语音段的语音信号和所述第二语音段对应的第一文本的各个字进行对齐,得到语音信号和字的对齐关系;
针对每一个所述第二语音段对应的第一文本,利用语言表征模型,确定第i个字相对于上文出现的第一概率,所述上文为第j个字到第i-1个字之间的文本,所述第j个字为预先确定的与所述第i个字距离最近的音频转换点,i和j均为正整数,且i>j;
根据所述语音信号和字的对齐关系,从所述第二语音段中确定与所述第一文本的第i个字到第i+m个字对应的第一语音帧,以及与所述第一文本的第j个字到第i-1个字对应的第二语音帧,m为正整数;
根据所述第一语音帧的第一声纹特征和所述第二语音帧的第二声纹特征,确定所述第一语音帧和所述第二语音帧的第一声纹相似度;
根据所述第一概率和所述第一声纹相似度,确定所述第i个字是否为第一发声对象和第二发声对象之间的音频转换点,所述第一发声对象和所述第二发声对象为各所述发声对象中的发声对象。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一语音帧的第一声纹特征和所述第二语音帧的第二声纹特征,确定所述第一语音帧和所述第二语音帧的第一声纹相似度,包括:
从所述第一语音帧中提取第一声学特征,以及从所述第二语音帧中提取第二声学特征;
将所述第一声学特征和所述第二声学特征分别输入第一声纹识别模型,得到所述第一语音帧的第一声纹特征以及所述第二语音帧的第二声纹特征;
计算所述第一声纹特征和所述第二声纹特征的余弦相似度,并将所述余弦相似度确定为所述第一语音帧和所述第二语音帧的第一声纹相似度。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一概率和所述第一声纹相似度,确定所述第i个字是否为第一发声对象和第二发声对象之间的音频转换点,包括:
将i和j的位置差值,结合权重计算公式,确定调整权重,所述调整权重的大小与所述位置差值呈负相关;
根据所述调整权重与所述第一声纹相似度的乘积值调整所述第一声纹相似度,得到调整后的第一声纹相似度;
在所述调整后的第一声纹相似度与所述第一概率的累加和小于预设阈值的情况下,确定所述第i个字是所述第一发声对象和所述第二发声对象之间的音频转换点;
在所述调整后的第一声纹相似度与所述第一概率的累加和大于或等于预设阈值的情况下,确定所述第i个字不是所述第一发声对象和所述第二发声对象之间的音频转换点。
5.根据权利要求2所述的方法,其特征在于,所述针对每一个所述第二语音段对应的第一文本,利用语言表征模型,确定第i个字相对于上文出现的第一概率,包括:
获取所述第一文本的拼音序列;
将所述第一文本和所述拼音序列输入所述语言表征模型,得到第i个字相对于上文出现的第一概率。
6.根据权利要求2所述的方法,其特征在于,所述从所述第一音频中确定至少一个第二语音段,包括:
针对所述第一音频的每一帧,提取所述帧的第三声学特征;
将所述第三声学特征输入语音检测模型,得到所述帧的语音检测结果,所述语音检测结果包括所述帧为静音帧或者所述帧为语音帧;
将连续的语音帧进行合并,得到至少一个第二语音段。
7.根据权利要求1所述的方法,其特征在于,所述根据所述音频转换点,对所述第一音频进行切分,得到与各所述发声对象对应的至少一个第一语音段,包括:
根据所述音频转换点对所述第一音频进行切分,得到至少一个第一语音段;
根据第二声纹识别模型,识别各所述第一语音段的发声对象,得到与各所述发声对象对应的至少一个第一语音段。
8.根据权利要求1所述的方法,其特征在于,所述按照预设的变声方式对各所述第一语音段中的目标语音段进行变声处理,得到第二音频之前,所述方法还包括:
显示第一界面,所述第一界面包括所述第一音频的至少一个第一语音段以及各所述发声对象;
接收对目标对象的第一输入,所述目标对象为第三语音段和目标发声对象中的至少一个,所述第三语音段为各所述第一语音段中的至少一个,所述目标发声对象为各所述发声对象中的至少一个;
在所述目标对象包括所述第三语音段的情况下,响应于所述第一输入,将所述第三语音段确定为目标语音段;
在所述目标对象包括所述目标发声对象的情况下,响应于所述第一输入,将所述目标发声对象的各所述第一语音段确定为目标语音段。
9.一种音频处理装置,其特征在于,包括:
获取模块,用于获取第一音频,所述第一音频包括至少两个发声对象;
检测模块,用于对所述第一音频进行转换点检测,得到各所述发声对象之间的音频转换点;
切分模块,用于根据所述音频转换点,对所述第一音频进行切分,得到与各所述发声对象对应的至少一个第一语音段;
处理模块,用于按照预设的变声方式对各所述第一语音段中的目标语音段进行变声处理,得到第二音频。
10.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至8任一项所述的方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至8任一项所述的方法的步骤。
12.一种计算机程序产品,其特征在于,所述程序产品被存储在存储介质中,所述程序产品被至少一个处理器执行时实现如权利要求1至8任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311105674.3A CN117153175A (zh) | 2023-08-29 | 2023-08-29 | 音频处理方法、装置、设备、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311105674.3A CN117153175A (zh) | 2023-08-29 | 2023-08-29 | 音频处理方法、装置、设备、介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117153175A true CN117153175A (zh) | 2023-12-01 |
Family
ID=88902029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311105674.3A Pending CN117153175A (zh) | 2023-08-29 | 2023-08-29 | 音频处理方法、装置、设备、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117153175A (zh) |
-
2023
- 2023-08-29 CN CN202311105674.3A patent/CN117153175A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN110148427B (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
US11373633B2 (en) | Text-to-speech processing using input voice characteristic data | |
US11232808B2 (en) | Adjusting speed of human speech playback | |
CN112397091B (zh) | 中文语音综合评分及诊断系统和方法 | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US20240153505A1 (en) | Proactive command framework | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
EP1557822A1 (en) | Automatic speech recognition adaptation using user corrections | |
Arora et al. | Phonological feature-based speech recognition system for pronunciation training in non-native language learning | |
US11282495B2 (en) | Speech processing using embedding data | |
JP2021529337A (ja) | 音声認識技術を利用した多者間対話記録/出力方法及びこのため装置 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
CN115428066A (zh) | 合成语音处理 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN112750445A (zh) | 语音转换方法、装置和系统及存储介质 | |
CN113823323A (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
Piotrowska et al. | Evaluation of aspiration problems in L2 English pronunciation employing machine learning | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
KR20080018658A (ko) | 사용자 선택구간에 대한 음성비교 시스템 | |
CN117882131A (zh) | 多个唤醒词检测 | |
CN117153175A (zh) | 音频处理方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |