CN114582306A - 音频调整方法和计算机设备 - Google Patents

音频调整方法和计算机设备 Download PDF

Info

Publication number
CN114582306A
CN114582306A CN202210171012.5A CN202210171012A CN114582306A CN 114582306 A CN114582306 A CN 114582306A CN 202210171012 A CN202210171012 A CN 202210171012A CN 114582306 A CN114582306 A CN 114582306A
Authority
CN
China
Prior art keywords
audio
information
standard
melody
adjusted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210171012.5A
Other languages
English (en)
Inventor
陈梦
赵伟峰
张超鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202210171012.5A priority Critical patent/CN114582306A/zh
Publication of CN114582306A publication Critical patent/CN114582306A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本申请涉及一种音频调整方法、装置、计算机设备、存储介质和计算机程序产品。通过待调整音频对应的标准音频的标准旋律信息、标准歌词信息和难度信息确定调整模板,将标准歌词信息与待调整音频进行匹配,得到包括标准歌词信息中每个歌词对应的类音符单位的待调整音频序列,并基于调整模板中的旋律模板、歌词模板和用于标识难度信息的标识信息,对待调整音频序列中多个类音符单位进行音准调整,再基于得到的调整后的音频序列调整待调整音频,得到调整后的音频。相较于传统的基于固定方式进行音频调整,本方案通过分析标准音频的难度信息,根据标准音频的难度信息对待调整音频进行针对性调整,提高了音频调整的调整效果。

Description

音频调整方法和计算机设备
技术领域
本申请涉及音频处理技术领域,特别是涉及一种音频调整方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
目前用户已经可以通过移动设备,例如手机等终端进行歌曲演唱。由于每个用户的唱功不一,用户演唱时会发生演唱的歌曲与原曲有差别的情况,此时则需要对用户演唱的歌曲进行修音,使得用户演唱的歌曲尽可能与原曲接近。目前对用户演唱的歌曲进行修音的方式通常是基于固定的方式对用户演唱的歌曲进行修音。然而,通过固定的修音方式,会导致修音效果较为生硬。
因此,目前的修音方法存在修音效果不足的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高修音效果的音频调整方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种音频调整方法,所述方法包括:
获取待调整音频及其对应的标准音频,并获取所述标准音频的难度信息,所述难度信息包括所述标准音频的标准旋律信息的第一难度信息和标准歌词信息的第二难度信息中至少一项;
基于所述标准音频的标准旋律信息、所述标准歌词信息以及所述难度信息,确定调整模板;所述调整模板包括旋律模板和歌词模板;所述旋律模板和所述歌词模板中至少一个包括用于标识所述难度信息的标识信息;
将所述歌词模板与所述待调整音频进行匹配,得到待调整音频序列;所述待调整音频序列中包括所述歌词模板中每个歌词对应的类音符单位;
基于所述旋律模板,对所述待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列;基于所述调整后的音频序列调整所述待调整音频,得到调整后的音频。
在其中一个实施例中,所述基于所述标准音频的标准旋律信息、所述标准歌词信息以及所述难度信息,确定调整模板,包括:
基于所述标准旋律信息,获取旋律模板;所述旋律模板中的目标音程标识有替换音程;所述目标音程基于所述第一难度信息确定,表征所述标准旋律信息中的难例音程;
基于所述标准歌词信息,获取歌词模板;所述歌词模板中的目标歌词信息标识有装饰音标识信息;所述目标歌词信息基于所述第二难度信息确定,表征所述标准歌词信息中的装饰音旋律对应的歌词;
根据所述旋律模板和所述歌词模板,确定调整模板。
在其中一个实施例中,所述基于所述标准旋律信息,获取旋律模板,包括:
根据所述标准旋律信息中相邻音符的音高差值,获取所述标准旋律信息中的难例音程;
获取与所述难例音程对应的替换音程;所述替换音程与难例音程的音程差值小于预设音程差阈值,且与所述难例音程中的相邻音符的音调一致;
在所述标准旋律信息中所述难例音程处标识所述替换音程,得到旋律模板。
在其中一个实施例中,所述基于所述标准歌词信息,获取歌词模板,包括:
获取所述标准旋律信息中的装饰音旋律;
在所述标准歌词信息中向所述装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板。
在其中一个实施例中,所述根据所述标准旋律信息中相邻音符的音高差值,获取所述标准旋律信息中的难例音程,包括:
若所述音高差值大小大于或等于预设音高差阈值,确定所述标准旋律信息中的相邻音符为难例音程。
在其中一个实施例中,在所述标准歌词信息中向所述装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板,包括:
获取所述标准旋律信息中的装饰音旋律对应的歌词的字数;
获取所述装饰音旋律对应的歌词的字数与所述标准歌词信息的歌词总数的比值;
若所述比值大于预设装饰音阈值,在所述标准歌词信息中向所述装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板。
在其中一个实施例中,所述将所述标准歌词信息与所述待调整音频进行匹配之前,还包括:
获取所述标准旋律信息中存在变调且发音长度大于预设长度阈值的长元音音符的个数;
根据所述长元音音符的个数,获取所述标准旋律信息中长元音音符的占比;
若所述占比大于预设长元音概率阈值,获取所述长元音音符对应的扩展元音;
根据所述长元音音符的发音长度以及所述扩展元音,在所述歌词模板中扩展所述长元音音符的音素,得到所述歌词模板对应的扩展后歌词信息;
基于所述扩展后歌词信息与所述待调整音频进行匹配。
在其中一个实施例中,所述根据所述长元音音符的个数,获取所述标准旋律信息中长元音音符的占比,包括:
获取所述标准歌词信息中的歌词行数;
基于所述长元音音符的个数与所述歌词行数的比值,确定所述标准旋律信息中的长元音音符的占比。
在其中一个实施例中,所述将所述标准歌词信息与所述待调整音频进行匹配,得到待调整音频序列,包括:
对所述待调整音频进行基频检测,得到所述待调整音频对应的基频序列,并将所述基频序列转换为类音符单位序列;
将所述类音符单位序列中每个类音符单位与所述歌词模板中的每个歌词对齐,得到逐字映射后的待调整音频序列。
在其中一个实施例中,所述基于所述调整模板,对所述待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列,包括:
针对待调整音频序列中的每个类音符单位,若检测到该类音符单位包含装饰音标识信息,对该类音符单位中的音符进行音高平移,以贴合所述旋律模板;
若检测到该类音符单位中包含替换音程,遍历该类音符单位的每个替换音程,将该类音符单位中的音程对应的音符替换为与该类音符单位的音程差异度最小的替换音程中的替换音符;
根据多个类音符单位的音准调整结果,得到调整后的音频序列。
在其中一个实施例中,所述基于所述调整模板,对所述待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列,包括:
针对待调整音频序列中的每个类音符单位,若检测到该类音符单位不包含装饰音标识信息和替换音程,对该类音符单位中的音符进行音高平移以及幅度压缩处理,以贴合所述调整模板中的旋律模板;
根据多个类音符单位的音准调整结果,得到调整后的音频序列。
在其中一个实施例中,所述基于所述调整后的音频序列调整所述待调整音频,得到调整后的音频,包括:
根据所述调整后的音频序列,对所述待调整音频进行变调处理,得到调整后的音频。
第二方面,本申请提供了一种音频调整装置,所述装置包括:
获取模块,用于获取待调整音频及其对应的标准音频,并获取所述标准音频的难度信息,所述难度信息包括所述标准音频的标准旋律信息的第一难度信息和标准歌词信息的第二难度信息中至少一项;
确定模块,用于基于所述标准音频的标准旋律信息、所述标准歌词信息以及所述难度信息,确定调整模板;所述调整模板包括旋律模板和歌词模板;所述旋律模板和所述歌词模板中至少一个包括用于标识所述难度信息的标识信息;
对齐模块,用于将所述歌词模板与所述待调整音频进行匹配,得到待调整音频序列;所述待调整音频序列中包括所述歌词模板中每个歌词对应的类音符单位;
调整模块,用于基于所述旋律模板,对所述待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列;基于所述调整后的音频序列调整所述待调整音频,得到调整后的音频。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
上述音频调整方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待调整音频及其标准音频,并获取标准音频中的难度信息,基于标准音频的标准旋律信息、标准歌词信息和难度信息确定调整模板,并将标准歌词信息与待调整音频进行匹配,得到包括标准歌词信息中每个歌词对应的类音符单位的待调整音频序列,并基于调整模板中的旋律模板、歌词模板以及用于标识难度信息的标识信息,对待调整音频序列中多个类音符单位进行音准调整,得到调整后的音频序列,再基于调整后的音频序列调整待调整音频,得到调整后的音频。相较于传统的基于固定方式进行音频调整,本方案通过分析标准音频的难度信息,根据标准音频的难度信息对待调整音频进行针对性调整,提高了音频调整的调整效果。
附图说明
图1为一个实施例中音频调整方法的应用环境图;
图2为一个实施例中音频调整方法的流程示意图;
图3为一个实施例中获取调整模板步骤的流程示意图;
图4为一个实施例中获取旋律模板的流程示意图;
图5为一个实施例中扩展元音步骤的流程示意图;
图6为一个实施例中对齐步骤的流程示意图;
图7为另一个实施例中对齐步骤的流程示意图;
图8为一个实施例中音频调整步骤的界面示意图;
图9为一个实施例中音频调整步骤的流程示意图;
图10为另一个实施例中音频调整方法的流程示意图;
图11为一个实施例中音频调整装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的音频调整方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以获取用户输入的待调整音频,并将待调整音频发送至服务器104,服务器104可以基于得到的待调整音频进行难度分析和调整方式的确定,从而服务器104可以基于待调整音频对应的标准音频的难度信息,对待调整音频进行针对性的音频调整,服务器104可以将调整完成后的音频传输至终端102中,实现对待调整音频的调整。另外,在一些实施例中,终端102可以也可以对待调整音频进行难度分析和音频调整。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种音频调整方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取待调整音频及其对应的标准音频,并获取标准音频的难度信息,难度信息包括标准音频的标准旋律信息的第一难度信息和标准歌词信息的第二难度信息中至少一项。
其中,待调整音频可以是用户输入的音频,例如用户歌唱时录入的歌曲音频。标准音频可以是待调整音频对应的标准音频,以对用户的歌唱音频进行调整为例,服务器104可以获取用户歌唱音频对应的原唱音频,作为标准音频。例如,以终端102是手机为例,手机可以采集用户歌唱后产生的歌曲录音,并将该歌曲录音发送至服务器104,服务器104可以获取该歌曲录音对应的原唱歌曲的id,服务器104接收到修音任务后,确认任务需要的素材,包括歌曲录音、原唱歌曲的歌曲旋律和歌曲歌词文件都齐全时,可以对用户的歌曲录音进行调整。其中,待调整音频对应的标准音频具有多样性,每个标准音频具备相应的难度信息。例如,对于歌曲而言,歌曲的风格和类别有很多种,由于旋律的不同或者演唱者的声音的特点,不同歌曲的演唱难度也有差别。服务器104通过一套难度分级系统,可以在修音场景下对歌曲难度进行分级,更好的实现修音策略的多样性。因此,服务器104获取待调整音频对应的标准音频后,可以获取标准音频的难度信息。其中,难度信息包括标准音频的标准旋律信息的第一难度信息和标准歌词信息的第二难度信息中的至少一项。第一难度信息和第二难度信息可以同时存在、也可以存在任意一项。第一难度信息和第二难度信息可以是不同的难度信息。其中,标准旋律信息可以是标准音频的旋律信息,标准歌词信息可以是标准音频的歌词信息,服务器104可以从标准音频中得到上述标准旋律信息和标准歌词信息。上述第一难度信息可以是标准音频旋律中的音高跨度较大的难例音程。其中,音程是指标准音频的旋律信息中相邻音符的音高的差值。上述第二难度信息可以是标准音频中使用了装饰音等演唱技巧的歌词及其旋律。其中,演唱技巧也可以成为发声技巧,属于一种发声技术,可以用来评价用户的唱功。发声技巧主要有真声、假声、强声、弱声、气声、颤音、滑音、转音、咽音、哑音、怒音、噎音、哭腔等。不同发声技巧可以对演唱效果起到不同的情绪烘托的作用。
当音频存在难度信息时,服务器104可以基于这些难度信息针对性地对音频进行调整。例如,终端102将用户输入的待调整音频上传至服务器104,通过服务器104对用户的待调整音频进行MIR(Music Information Retriveal,音乐信息检索)分析,音频合成等操作,实现对待调整音频的调整。
步骤S204,基于标准音频的标准旋律信息、标准歌词信息以及难度信息,确定调整模板;调整模板包括旋律模板和歌词模板;旋律模板和歌词模板中至少一个包括用于标识难度信息的标识信息。
其中,标准音频可以是用户输入的待调整音频对应的标准音频,标准音频中包括其标准旋律信息、标准歌词信息和难度信息。服务器104可以基于标准音频中的标准旋律信息、标准歌词信息和难度信息,确定调整模板。其中,上述待调整音频可以是用户输入的歌曲录音的原始干声,标准音频可以是该原始干声对应的歌曲的原唱音频,调整模板可以是调整待调整音频的模板,该调整模板中包含了标准音频中标准旋律和标准歌词,以及对标准音频的难度进行分析后在标准音频中标识的难度信息的标识信息,即调整模板中包括了旋律模板、歌词模板,并且旋律模板和歌词模板中的至少一个包括用于标识难度信息的标识信息。其中,上述难度信息可以有多种,每种难度信息的标识的形式可以是不一致的。
步骤S206,将歌词模板与待调整音频进行匹配,得到待调整音频序列;待调整音频序列中包括歌词模板中每个歌词对应的类音符单位。
其中,标准歌词信息可以是标准音频对应的标准歌词信息,例如,标准音频可以是上述待调整音频对应的原唱音频,则原唱音频有对应的标准歌词信息。服务器104可以基于标准歌词信息对待调整音频和标准音频进行匹配,得到待调整音频序列。例如,服务器104可以以歌词模板中的每个字为单位,将待调整音频和歌词模板进行逐字匹配,得到逐字映射后的待调整音频序列。其中,该待调整音频序列中包括标准歌词信息中每个歌词对应的NLU(Note-Like Unit,类音符单位)。其中,类音符单位可以是由上述标准音频的标准旋律信息中的每个歌词对应的一段旋律信息构成,该段旋律信息可以是一种波形信息。上述匹配可以是一种歌词对齐技术,可以获取待调整音频中用户演唱对应歌词内容的音频的逐字时间戳。
步骤S208,基于旋律模板,对待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列;基于调整后的音频序列调整待调整音频,得到调整后的音频。
其中,调整模板可以是基于标准音频中的标准旋律信息、标准歌词信息和难度信息得到的模板,其中包含了标准音频对应的旋律模板、歌词模板和难度信息的标识信息。待调整音频序列可以是服务器104基于标准歌词信息将待调整音频和标准音频进行匹配对齐后得到的序列,待调整音频序列中包括多个类音符单位。服务器104可以基于上述调整模板,对上述待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列。例如,服务器104可以在每个类音符单位中,对其中包含的多个音高进行调整,该调整包括平移、压缩和替换等操作,服务器104对待调整音频序列中的所有类音符单位均进行调整后,可以得到调整后的音频序列。服务器104得到上述调整后的音频序列后,还可以基于调整后的音频序列,调整上述待调整音频,从而得到调整后的音频,完成对用户输入的待调整音频的调整。
例如,在一个实施例中,基于调整后的音频序列调整待调整音频,得到调整后的音频,包括:根据调整后的音频序列,对待调整音频进行变调处理,得到调整后的音频。本实施例中,服务器104可以基于调整后得到的调整后音频序列,对用户输入的待调整音频进行处理。服务器104可以基于调整后的音频序列,对待调整音频进行变调处理,从而得到调整后的音频。例如,以待调整音频是用户的歌唱录音原始干声为例,上述调整后的音频序列可以是一种移频序列,服务器104得到上述经过处理后的移频序列后,可以对用户的原始干声进行变调处理,完成对用户的歌唱录音的修音调整。其中,变调是指能够改变音频音高的技术。
即服务器104可以对用户的歌唱录音进行修音。例如在K歌应用程序中,由于每首歌的演唱方式和技巧都不一样,基于固定的修音方式无法表达对歌曲的理解,因此服务器104可以通过上述方式对歌曲的难度信息进行分析,从而基于难度信息针对性地调整用户输入的歌唱录音。
上述音频调整方法中,通过获取待调整音频及其标准音频,并获取标准音频中的难度信息,基于标准音频的标准旋律信息、标准歌词信息和难度信息确定调整模板,并将标准歌词信息与待调整音频进行匹配,得到包括标准歌词信息中每个歌词对应的类音符单位的待调整音频序列,并基于调整模板中的旋律模板、歌词模板以及用于标识难度信息的标识信息,对待调整音频序列中多个类音符单位进行音准调整,得到调整后的音频序列,再基于调整后的音频序列调整待调整音频,得到调整后的音频。相较于传统的基于固定方式进行音频调整,本方案通过分析标准音频的难度信息,根据标准音频的难度信息对待调整音频进行针对性调整,提高了音频调整的调整效果。
在一个实施例中,基于标准音频的标准旋律信息、标准歌词信息以及难度信息,确定调整模板,包括:基于标准旋律信息,获取旋律模板;旋律模板中的目标音程标识有替换音程;目标音程根据标准旋律信息的第一难度信息确定;第一难度信息表征标准旋律信息中的难例音程;基于标准歌词信息,获取歌词模板;歌词模板中的目标歌词信息标识有装饰音标识信息;目标歌词信息根据标准歌词信息的第二难度信息确定;第二难度信息表征标准歌词信息中的装饰音旋律对应的歌词;根据旋律模板和歌词模板,确定调整模板。
本实施例中,服务器104可以基于标准音频的标准旋律信息、标准歌词信息以及难度信息,确定用于调整待调整音频的调整模板。其中,如图3所示,图3为一个实施例中获取调整模板步骤的流程示意图。调整模板中包括旋律模板和歌词模板。服务器104基于标准音频中的标准旋律信息,获取旋律模板。其中,旋律模板中包括有多个音符,每相邻两个音符可以组成音程,则旋律模板中可以包括多个音程,服务器104还可以对旋律模板中的目标音程标识替换音程,该标识可以是一种关联过程。其中,目标音程可以基于标准旋律信息中的第一难度信息确定,第一难度信息为标准旋律信息中的难例音程,即服务器104可以从标准旋律信息中检测出属于难例音程的目标音程,并为该目标音程添加替换音程。其中,难例音程是指上述标准旋律信息中音程中的相邻音符跨度较大的音程,即服务器104可以提取旋律中的音域跨度(Pitch Range),替换音程可以是与其对应的难例音程的调性一致,且音程更小的音程,替换音程可以有多个,即上述难例音程可以关联多个替换音程。服务器104可以在音频调整阶段将难例音程替换为与其关联的合适的替换音程。
服务器104还可以基于标准音频的标准歌词信息,获取歌词模板。其中,标准音频中可能会出现有装饰音等演唱技巧,服务器104可以对标准旋律信息中的装饰音进行识别,并将其对应出现的歌词进行标注。从而服务器104可以在上述歌词模板中的目标歌词信息进行标识,得到标识有装饰音标识信息的目标歌词信息。其中,目标歌词信息可以根据标准歌词信息的第二难度信息确定,第二难度信息表征标准歌词信息中装饰音旋律对应的歌词。其中,上述装饰音可以包括多种形式,例如转音、颤音和滑音等,则服务器104可以检测标准旋律信息中的装饰音的类型,并基于装饰音的类型给予对应的歌词信息不同的装饰音标识信息,例如转音标识、颤音标识、滑音标识等。从而服务器104在音频调整阶段,可以基于歌词模板中的装饰音标识信息,对待调整音频序列中相应的音高进行调整。具体地,以音频为歌曲为例,如图3所示,服务器104可以获取用户输入的歌曲录音对应的原唱音频,并从原唱音频中提取歌词的长元音、歌曲旋律难度和歌曲音域跨度等信息,从而基于这些特征信息进行歌曲的难度分析,得到相应的包含标识信息的旋律模板和歌词模板,并基于旋律模板和歌词模板,确定调整模板。另外,在一些实施例中,上述装饰音标识信息还可以标识在旋律模板中,例如,服务器104可以在旋律模板中对应于出现装饰音的歌词的旋律处添加对应的装饰音标识信息。
通过本实施例,服务器104可以对标准音频进行难度分析,对其中的难例音程和装饰音标识信息进行标识,从而服务器104可以基于难度信息对待调整音频进行针对性调整,提高了音频调整的效果。
在一个实施例中,基于标准旋律信息,获取旋律模板,包括:根据标准旋律信息中相邻音符的音高差值,获取标准旋律信息中的难例音程;获取与难例音程对应的替换音程;替换音程与难例音程的音程差值小于预设音程差阈值,且与难例音程中的相邻音符的音调一致;在标准旋律信息中难例音程处标识替换音程,得到旋律模板。
本实施例中,服务器104可以对标准旋律信息中的难例音程进行判断检测。服务器104可以基于上述标准旋律信息中的相邻音符的音高差值,检测获取标准旋律信息中的难例音程。例如,在一个实施例中,根据标准旋律信息中相邻音符的音高差值,获取标准旋律信息中的难例音程,包括:获取标准旋律信息中的相邻音符的音高差值大小,若音高差值大小大于或等于预设音高差阈值,确定标准旋律信息中的相邻音符为难例音程。本实施例中,音程中包括旋律信息中的相邻音符,服务器104可以获取标准旋律信息中的相邻音符的音高差值大小,并获取该音高差值大小与预设音高差阈值的对比结果,若服务器104检测到音高差值大小大于或等于预设音高差阈值,则服务器104可以确定标准旋律信息中该相邻音符为难例音程。
具体地,服务器104可以通过以下公式得到相邻音符的音高差值大小:Interval=Notei-Notei-1,Interval>=6。其中,Interval为音高差值大小,Notei为标准旋律信息中的第i个音符,由上述公式可知,服务器104检测到音高差值大小大于或等于6时,可以判断为是较难唱的音程,服务器104可以在旋律模板中对该类难例音程进行标识。
服务器104获取得到难例音程并标识后,可以获取难例音程对应的替换音程。其中,替换音程和难例音程的音程差值小于预设音程差阈值,并且替换音程中的相邻音符与难例音程中的相邻音符的音调一致。即服务器104可以提供满足难例音程的调性且音程更小的替换音程,并且替换音程的数量可以有多个。
服务器104得到替换音程后,可以在标准旋律信息中的难例音程处标识替换音程,得到旋律模板。具体地,如图4所示,图4为一个实施例中获取旋律模板的流程示意图。旋律模板中的标识信息可以包括标准音频的音域跨度、演唱技巧(例如装饰音标识信息)和音程难度信息等信息,从而服务器104可以基于该旋律模板对待调整音频进行调整,例如对歌曲进行修音。
通过上述实施例,服务器104可以对标准旋律信息中的难例音程进行分析,并获取相应的替换音程,从而服务器104可以基于难例音程和替换音程对待调整音频进行针对性调整,提高了对音频调整的效果。
在一个实施例中,基于标准歌词信息,获取歌词模板,包括:获取标准旋律信息中的装饰音旋律,在标准歌词信息中向装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板。
本实施例中,上述模板信息中还包括歌词模板,服务器104可以基于标准歌词信息得到歌词模板,并且,服务器104还可以对其中属于装饰音等演唱技巧的字进行标识,从而在音频调整阶段能够针对存在装饰音的旋律进行对应的调整。服务器104可以检测标准旋律信息中属于装饰音的装饰音旋律,并且服务器104可以确定出这些属于装饰音的旋律对应的歌词,从而服务器104可以在标准歌词信息中装饰音旋律对应的歌词处添加装饰音标识信息,得到歌词模板。其中,上述装饰音可以有多种类型,例如转音、颤音和滑音等,则服务器104可以基于装饰音的类型在标准歌词信息中添加相应的装饰音标识信息,例如转音标记、颤音标记和滑音标记等。需要说明的是,在一些实施例中,服务器104也可以在标准旋律信息中的装饰音旋律中添加上述装饰音标识信息,从而服务器104可以在音频调整时基于由包含装饰音标识信息的标准旋律信息形成的旋律模板,对用户输入的待调整音频进行调整。
其中,服务器104还可以对标准音频中的使用演唱技巧的频率,并在出现演唱技巧的频率达到一定数值时,才添加装饰音标识信息。例如,在一个实施例中,获取标准旋律信息中的装饰音旋律,在标准歌词信息中向装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板,包括:获取标准旋律信息中的装饰音旋律对应的歌词的字数;获取装饰音旋律对应的歌词的字数与标准歌词信息的歌词总数的比值,若比值大于预设装饰音阈值,获取标准旋律信息中的装饰音旋律,在标准歌词信息中向装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板。
本实施例中,服务器104可以首先获取标准音频中标准歌词信息的歌词总数,作为第一字数,并获取标准旋律信息中的装饰音旋律对应的歌词的字数,从而服务器104的得到装饰音旋律对应的歌词的字数与标准歌词信息的歌词总数的比值,若服务器104检测到该比值大于预设装饰音阈值,则服务器104可以获取标准旋律信息中的装饰音旋律,并在标准歌词信息中向装饰音旋律对应的歌词添加装饰音标识信息,从而得到歌词模板。即服务器104可以在标准旋律信息中检测到装饰音出现的概率大于一定数值时才添加装饰音标识。具体地,以上述标准音频为原唱歌曲的音频为例,服务器104可以获取该原唱歌曲中演唱技巧的使用频率。例如,服务器104可以计算原唱歌曲中使用了颤音、滑音、转音这些装饰音的字数相对于标准歌词信息的总字数的平均值,其计算公式如下所示:
Figure BDA0003517619760000131
则服务器104在检测到
Figure BDA0003517619760000132
时,可以确定用户在演唱该歌曲时会有较高概率出现装饰音,因此在制作旋律模板时需要增加演唱技巧的标识信息,包括转音标记、颤音标记、滑音标记等。服务器104可以是基于音频序列进行逐字的音频调整的,因此服务器104可以基于上述装饰音标识信息,在计算策略处理阶段计算移频序列进行调音时,注意当前字是否有装饰音标识信息等演唱技巧的标记存在,从而进行对应的调整。其中,上述装饰音标识信息可以添加到旋律模板中,也可以添加到歌词模板中,使得在服务器104进行逐字音频调整时,可以按照歌词中每个字是否存在装饰音标识信息确定调整的策略。
通过上述实施例,服务器104可以基于标准音频中装饰音出现的概率确定是否要添加装饰音标识信息,并且可以在音频调整阶段,基于装饰音标识信息对用户输入的音频进行对应的调整,提高了音频调整的调整效果。
在一个实施例中,将歌词模板与待调整音频进行匹配之前,还包括:获取标准旋律信息中存在变调且发音长度大于预设长度阈值的长元音音符的个数;根据长元音音符的个数,获取标准旋律信息中长元音音符的占比;若占比大于预设长元音概率阈值,获取长元音音符对应的扩展元音;根据长元音音符的发音长度以及扩展元音,在所述标准歌词信息中扩展长元音音符的音素,得得到标准歌词信息对应的扩展后歌词信息;将扩展后歌词信息与待调整音频进行匹配。
本实施例中,服务器104可以对待调整音频与标准歌词信息进行匹配前,可以对标准音频中的带变调的长元音进行识别,长元音即为拖长音,多出现于唱歌时每句句末。例如对出现多次转音的“啊”字等长元音进行识别,长元音的出现会影响人声和歌词的对齐准确度。服务器104可以在带变调的长元音出现的概率大于一定数值时,对长元音进行音素扩展。例如,服务器104可以获取标准旋律信息中存在变调且发音长度大于预设长度阈值的长元音音符的个数,并基于该长元音音符的个数获取标准旋律信息中长元音音符的占比。其中,该占比可以通过计算比值的方式得到。例如,在一个实施例中,根据长元音音符的个数,获取标准旋律信息中长元音音符的占比,包括:获取标准歌词信息中的歌词行数,获取长元音音符的个数与标准歌词信息中的歌词行数的比值,作为标准旋律信息中的长元音音符的占比。本实施例中,服务器104可以计算标准旋律信息中长元音音符的占比。例如,服务器104可以获取标准歌词信息中的歌词行数,并获取上述长元音音符的个数与上述标准歌词信息中歌词行数的比值,作为标准旋律信息中长元音音符的占比。
服务器104得到长元音音符的占比后,若服务器104检测到该占比大于预设长元音概率阈值,则服务器104可以获取长元音音符对应的扩展元音。其中,扩展元音可以基于发音词典得到,服务器104可以基于长元音音符查询发音词典,得到长元音音符对应的扩展元音,例如将长元音音符中的最后一个发音音节作为扩展元音。从而服务器104可以基于得到的扩展元音,在标准歌词信息中扩展长元音音符的音素,得到标准歌词信息对应的扩展后歌词信息,服务器104可以基于扩展后歌词信息与待调整音频进行匹配,得到对齐结果。具体地,如图5所示,图5为一个实施例中扩展元音步骤的流程示意图。以用户输入的录音为歌唱录音为例,标准音频为歌唱录音的原唱音频,服务器104可以基于标准音频中带变调长元音的概率p以及发音词典,对标准歌词文件进行元音扩展。服务器104可以首先计算出标准音频中出现长元音的概率,其计算公式可以如下所示:P=变调的长元音个数/歌词行数,其中,变调长元音个数可以是标准音频中出现的变调长元音的个数,歌词行数可以是标准歌词的行数,具体地,对于lrc格式的歌词,其具备每行歌词的时间标签等信息,因此服务器104可以基于这些信息确定歌词的行数。如果P>0.1时,说明用户在演唱这首歌时会有较高概率出现有变调长元音,则服务器104在制作发音词典时会基于长元音部分进行元音音素扩展。例如,演唱过程中出现长元音的“哈”,其对应的音素序列由原来的Ha1扩展为Ha1a1a1,并且该a1元音音素的个数会根据长元音长度进行扩展,且元音音素的个数与长元音长度呈正比关系。其中,发音词典包含对齐系统所需要处理的单词的集合,并表明了其发音。服务器104可以通过发音词典得到声学模型建模单元和语言模型建模单元间的映射关系,从而组成一个搜索的状态空间用于解码。例如:对于哈(字)->Ha(拼音)->Ha1a1…(音素序列),1代表中文中的声调,一声即为1。
通过上述实施例,服务器104可以对标准音频中的长元音出现概率进行检测,并在长元音出现概率较大时,对长元音的音素序列进行扩展,从而可以在标准歌词信息与用户的待调整音频进行匹配时,提高长元音对齐的准确度,进而提高了音频调整的调整效果。
在一个实施例中,将歌词模板与待调整音频进行匹配,得到待调整音频序列,包括:对待调整音频进行基频检测,得到待调整音频对应的基频序列,并将基频序列转换为类音符单位序列;将类音符单位序列每个类音符单位与歌词模板中的每个歌词对齐,得到逐字映射后的待调整音频序列。
本实施例中,服务器104可以将待调整音频与标准歌词信息进行匹配。其中,服务器104可以将待调整音频进行转换处理后,才将其与标准歌词信息对应歌词模板进行匹配对齐。例如,服务器104可以对待调整音频进行基频检测,得到待调整音频对应的基频序列,并将基频序列转换为类音符单位序列。其中,基频提取技术是指能够提取用户干声中人声的基频(fundamental frequency:F0)曲线。类音符单位序列中包括多个类音符单位NLU。服务器104可以将类音符单位序列中每个类音符单位与上述歌词模板中的每个歌词进行对齐,得到逐字映射后的待调整音频序列。具体地,如图6所示,图6为一个实施例中对齐步骤的流程示意图。服务器104可以首先对用户输入的音频进行基频检测,其中基频是由声带振动产生的,一般浊音都会有基频,服务器104可以通过对待调整音频中的浊音段的音频信号进行周期性分析,得到基频序列。服务器104获得基频序列后,可以通过设定公式将其转换为Note序列,即类音符单位序列,从而便于后续与模板的比较。服务器104可以根据基频序列与第一数值的比值,得到对数函数;获取对数函数与第二数值的乘积,并获取乘积与第三数值的和,得到类音符单位序列;其中,第一数值、第二数值与第三数值均不同,具体地,其计算公式如下所示:Note=12*log2(frequency/440)+69。其中,Note可以是一种类音符单位序列,frequency可以是基频序列。其中,上述基频序列中还可以包括服务器104对长元音进行音素扩展后的扩展元音内容,从而转换后的类音符单位序列中也可以包括有扩展元音内容,便于对齐。再如图7所示,图7为另一个实施例中对齐步骤的流程示意图。以用户输入的音频为歌曲的录音为例,服务器104得到上述类音符单位序列后,可以将用户输入的待调整音频与歌词模板进行比较对齐,得到逐字映射的关系,作为待调整音频序列。
通过本实施例,服务器104可以通过将待调整音频转换为序列,从而基于序列与歌词模板进行对齐,并基于得到的逐字映射的待调整音频序列进行音频调整,从而提高了音频调整的效果。
在一个实施例中,基于旋律模板,对待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列,包括:针对待调整音频序列中的每个类音符单位,若检测到该类音符单位包含装饰音标识信息,对该类音符单位中的音符进行音高平移,以贴合旋律模板;若检测到该类音符单位中包含替换音程,遍历该类音符单位的每个替换音程,将该类音符单位中的音程对应的音符替换为与该类音符单位的音程差异度最小的替换音程中的替换音符;根据多个类音符单位的音准调整结果,得到调整后的音频序列。
本实施例中,服务器104在音频处理阶段,已经在待调整音频中添加了装饰音标识信息以及难例音程的替换音程。服务器104可以基于待调整音频转换为待调整音频序列,待调整音频序列中包括多个类音符单位。对于待调整音频序列中的每个类音符单位,服务器104可以检测该类音符单位中是否包含装饰音标识信息和替换音程。若服务器104检测到该类音符单位中包括装饰音标识信息,则服务器104可以基于旋律模板中的旋律信息对该类音符单位中的音符进行音高平移,从而使得该类音符单位中的波形贴合旋律模板对应位置的波形。若服务器104检测到该类音符单位中包含替换音程,由于替换音程有多个,则服务器104可以遍历该类音符单位的每个替换音程,并将该类音符单位中的音程对应的音符替换为与该类音符的单位的移频最小,即音程差异度最小的替换音程中的替换音符。
另外,在一个实施例中,上述待调整音频序列中的每个类音符单位也可以不包括装饰音标识信息和替换音程。则服务器104检测到该类音符单位不包含装饰音标识信息和替换音程时,可以对该类音符单位中的音符进行音高平移以及幅度压缩处理,以贴合所述调整模板中的旋律模板。从而服务器104可以根据对待调整音频序列中的多个类音符单位的音准调整结果,得到调整后的音频序列。
具体地,如图8所示,图8为一个实施例中音频调整步骤的界面示意图。类音符单位NLU即是图8中的横线,类音符单位是基于基频序列的波形图进行平滑得到的短时平稳的音符值。服务器104可以对类音符单位进行两种调整,包括:对用户基频的部分的NLU(Note-Like Unit)进行平移调整,以及对NLU内的基频抖动的动态范围进行调整。其中,音高平移是指将偏离模板音高值通过整体升降调的操作回到标准值附近的操作;动态范围调整是指控制单个NLU内,基频序列的抖动幅度,例如图8中的矩形800和矩形802。其中,进行800的抖动程度比较大,而矩形802内的基频抖动幅度比较稳定。服务器104可以对不包含装饰音标识信息的类音符单位进行上述平移和压缩操作。需要说明的是,当然如果基频序列在当前NLU内几乎没有抖动,听感上就会产生机械感,因此,抖动过于剧烈或者固定音高不变都是不可取的。服务器104可以将该基频序列贴紧旋律模板。
另外,如图9所示,图9为一个实施例中音频调整步骤的流程示意图。以用户输入的音频为歌唱录音为例,歌唱录音的标准音频即为原唱音频。服务器104可以基于原唱音频的模板旋律、模板歌词,与用户输入的干声旋律和干声逐字信息进行基于序列的逐字匹配,得到相应的待调整音频序列,从而进行逐字匹配,并基于每个字是否存在相应的难度信息的标识,确定对应的修音策略,得到最终的移频序列。例如,当服务器104在逐字匹配过程中,检测到类音符单位中存在多个替换音程时,服务器104可以遍历所有替换音程,并选择移频程度最少的目标替换音程进行使用,将其与原本的难例音程进行替换。服务器104检测到类音符单位存在装饰音标识信息时,可以对用户的待调整音频序列进行技巧检测,若没有检测到有演唱技巧,则不特殊处理;若检测到有装饰音等演唱技巧,则服务器104可以只对用户的音高进行平移处理,而不进行压缩处理,从而实现对待调整音频序列的音频调整。
通过上述实施例,服务器104可以基于待调整音频序列中的难度信息标识,对不同的类音符单位采用不同的音频调整方式,从而提高音频调整的调整效果。
在一个实施例中,如图10示,图10为另一个实施例中音频调整方法的流程示意图。该方法可以应用于对歌唱音频的修音中,服务器104中可以包括修音引擎。用户可以通过获取用户输入的待调整音频,作为用户干声,并基于用户干声得到对应的原唱音频,对原唱音频进行歌词字频、歌曲旋律难度和歌曲音域跨度等难度分析,服务器104对相应的难度信息进行标识后,可以得到相应的模板旋律和模板歌词。服务器104还可以对用户干声进行特征提取,例如基频提取和逐字映射序列的获取等。服务器104可以基于包含用户干声的特征的音频序列,以及上述检测到的演唱技巧和音域等识别结果,确定对用户干声对应的音频序列的修音从策略,服务器104对音频序列进行针对性的修音后,可以基于修音后的音频序列,对用户的原始干声进行相应的变调处理,得到修音后的修音音频。
通过上述实施例,服务器104可以基于歌曲原唱,在旋律模板的基础上,增加对应的替换音程以及演唱技巧标注信息,避免由于难例音程过多导致的修音效果不自然,并且通过分析标准音频的难度信息,根据标准音频的难度信息对待调整音频进行针对性调整,提高了音频调整的调整效果。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的音频调整方法的音频调整装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个音频调整装置实施例中的具体限定可以参见上文中对于音频调整方法的限定,在此不再赘述。
在一个实施例中,如图11所示,提供了一种音频调整装置,包括:获取模块500、确定模块502、对齐模块504和调整模块506,其中:
获取模块500,用于获取待调整音频及其对应的标准音频,并获取标准音频的难度信息,难度信息包括标准音频的标准旋律信息的第一难度信息和标准歌词信息的第二难度信息中至少一项。
确定模块502,用于基于标准音频的标准旋律信息、标准歌词信息以及难度信息,确定调整模板;调整模板包括旋律模板和歌词模板;旋律模板和歌词模板中至少一个包括用于标识难度信息的标识信息。
对齐模块504,用于将歌词模板与待调整音频进行匹配,得到待调整音频序列;待调整音频序列中包括歌词模板中每个歌词对应的类音符单位。
调整模块506,用于基于旋律模板,对待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列;基于调整后的音频序列调整待调整音频,得到调整后的音频。
在一个实施例中,上述确定模块502,具体用于基于所述标准旋律信息,获取旋律模板;所述旋律模板中的目标音程标识有替换音程;所述目标音程基于所述第一难度信息确定,表征所述标准旋律信息中的难例音程;基于所述标准歌词信息,获取歌词模板;所述歌词模板中的目标歌词信息标识有装饰音标识信息;所述目标歌词信息基于所述第二难度信息确定,表征所述标准歌词信息中的装饰音旋律对应的歌词;根据所述旋律模板和所述歌词模板,确定调整模板。
在一个实施例中,上述确定模块502,具体用于根据所述标准旋律信息中相邻音符的音高差值,获取所述标准旋律信息中的难例音程;获取与所述难例音程对应的替换音程;所述替换音程与难例音程的音程差值小于预设音程差阈值,且与所述难例音程中的相邻音符的音调一致;在所述标准旋律信息中所述难例音程处标识所述替换音程,得到旋律模板。
在一个实施例中,上述确定模块502,具体用于获取标准旋律信息中的装饰音旋律,在标准歌词信息中向装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板。
在一个实施例中,上述确定模块502,具体用于若所述音高差值大小大于或等于预设音高差阈值,确定所述标准旋律信息中的相邻音符为难例音程。
在一个实施例中,上述确定模块502,具体用于获取所述标准旋律信息中的装饰音旋律对应的歌词的字数;获取所述装饰音旋律对应的歌词的字数与所述标准歌词信息的歌词总数的比值;若所述比值大于预设装饰音阈值,在所述标准歌词信息中向所述装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板。
在一个实施例中,上述装置还包括:扩展模块,用于获取所述标准旋律信息中存在变调且发音长度大于预设长度阈值的长元音音符的个数;根据所述长元音音符的个数,获取所述标准旋律信息中长元音音符的占比;若所述占比大于预设长元音概率阈值,获取所述长元音音符对应的扩展元音;根据所述长元音音符的发音长度以及所述扩展元音,在所述歌词模板中扩展所述长元音音符的音素,得到所述歌词模板对应的扩展后歌词信息;基于所述扩展后歌词信息与所述待调整音频进行匹配。
在一个实施例中,上述扩展模块,具体用于获取所述标准歌词信息中的歌词行数;基于所述长元音音符的个数与所述歌词行数的比值,确定所述标准旋律信息中的长元音音符的占比。
在一个实施例中,上述对齐模块504,具体用于对待调整音频进行基频检测,得到待调整音频对应的基频序列,并将基频序列转换为类音符单位序列;将类音符单位序列每个类音符单位与歌词模板中的每个歌词对齐,得到逐字映射后的待调整音频序列。
在一个实施例中,上述调整模块506,具体用于针对待调整音频序列中的每个类音符单位,若检测到该类音符单位包含装饰音标识信息,对该类音符单位中的音符进行音高平移,以贴合旋律模板;若检测到该类音符单位中包含替换音程,遍历该类音符单位的每个替换音程,将该类音符单位中的音程对应的音符替换为与该类音符单位的音程差异度最小的替换音程中的替换音符;根据多个类音符单位的音准调整结果,得到调整后的音频序列。
在一个实施例中,上述调整模块506,具体用于针对待调整音频序列中的每个类音符单位,若检测到该类音符单位不包含装饰音标识信息和替换音程,对该类音符单位中的音符进行音高平移以及幅度压缩处理,以贴合调整模板中的旋律模板;根据多个类音符单位的音准调整结果,得到调整后的音频序列。
在一个实施例中,上述调整模块506,具体用于根据调整后的音频序列,对待调整音频进行变调处理,得到调整后的音频。
上述音频调整装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频调整方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的音频调整方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的音频调整方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的音频调整方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (14)

1.一种音频调整方法,其特征在于,所述方法包括:
获取待调整音频及其对应的标准音频,并获取所述标准音频的难度信息,所述难度信息包括所述标准音频的标准旋律信息的第一难度信息和标准歌词信息的第二难度信息中至少一项;
基于所述标准音频的标准旋律信息、所述标准歌词信息以及所述难度信息,确定调整模板;所述调整模板包括旋律模板和歌词模板;所述旋律模板和所述歌词模板中至少一个包括用于标识所述难度信息的标识信息;
将所述歌词模板与所述待调整音频进行匹配,得到待调整音频序列;所述待调整音频序列中包括所述歌词模板中每个歌词对应的类音符单位;
基于所述旋律模板,对所述待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列;基于所述调整后的音频序列调整所述待调整音频,得到调整后的音频。
2.根据权利要求1所述的方法,其特征在于,所述基于所述标准音频的标准旋律信息、所述标准歌词信息以及所述难度信息,确定调整模板,包括:
基于所述标准旋律信息,获取旋律模板;所述旋律模板中的目标音程标识有替换音程;所述目标音程基于所述第一难度信息确定,表征所述标准旋律信息中的难例音程;
基于所述标准歌词信息,获取歌词模板;所述歌词模板中的目标歌词信息标识有装饰音标识信息;所述目标歌词信息基于所述第二难度信息确定,表征所述标准歌词信息中的装饰音旋律对应的歌词;
根据所述旋律模板和所述歌词模板,确定调整模板。
3.根据权利要求2所述的方法,其特征在于,所述基于所述标准旋律信息,获取旋律模板,包括:
根据所述标准旋律信息中相邻音符的音高差值,获取所述标准旋律信息中的难例音程;
获取与所述难例音程对应的替换音程;所述替换音程与难例音程的音程差值小于预设音程差阈值,且与所述难例音程中的相邻音符的音调一致;
在所述标准旋律信息中所述难例音程处标识所述替换音程,得到旋律模板。
4.根据权利要求2所述的方法,其特征在于,所述基于所述标准歌词信息,获取歌词模板,包括:
获取所述标准旋律信息中的装饰音旋律;
在所述标准歌词信息中向所述装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板。
5.根据权利要求3所述的方法,其特征在于,所述根据所述标准旋律信息中相邻音符的音高差值,获取所述标准旋律信息中的难例音程,包括:
若所述音高差值大小大于或等于预设音高差阈值,确定所述标准旋律信息中的相邻音符为难例音程。
6.根据权利要求4所述的方法,其特征在于,所述在所述标准歌词信息中向所述装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板,包括:
获取所述标准旋律信息中的装饰音旋律对应的歌词的字数;
获取所述装饰音旋律对应的歌词的字数与所述标准歌词信息的歌词总数的比值;
若所述比值大于预设装饰音阈值,在所述标准歌词信息中向所述装饰音旋律对应的歌词添加装饰音标识信息,得到歌词模板。
7.根据权利要求1所述的方法,其特征在于,所述将所述歌词模板与所述待调整音频进行匹配之前,还包括:
获取所述标准旋律信息中存在变调且发音长度大于预设长度阈值的长元音音符的个数;
根据所述长元音音符的个数,获取所述标准旋律信息中长元音音符的占比;
若所述占比大于预设长元音概率阈值,获取所述长元音音符对应的扩展元音;
根据所述长元音音符的发音长度以及所述扩展元音,在所述歌词模板中扩展所述长元音音符的音素,得到所述歌词模板对应的扩展后歌词信息;
基于所述扩展后歌词信息与所述待调整音频进行匹配。
8.根据权利要求7所述的方法,其特征在于,所述根据所述长元音音符的个数,获取所述标准旋律信息中长元音音符的占比,包括:
获取所述标准歌词信息中的歌词行数;
基于所述长元音音符的个数与所述歌词行数的比值,确定所述标准旋律信息中的长元音音符的占比。
9.根据权利要求1所述的方法,其特征在于,所述将所述歌词模板与所述待调整音频进行匹配,得到待调整音频序列,包括:
对所述待调整音频进行基频检测,得到所述待调整音频对应的基频序列,并将所述基频序列转换为类音符单位序列;
将所述类音符单位序列中每个类音符单位与所述歌词模板中的每个歌词对齐,得到逐字映射后的待调整音频序列。
10.根据权利要求2所述方法,其特征在于,所述基于所述旋律模板,对所述待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列,包括:
针对待调整音频序列中的每个类音符单位,若检测到该类音符单位包含装饰音标识信息,对该类音符单位中的音符进行音高平移,以贴合所述旋律模板;
若检测到该类音符单位中包含替换音程,遍历该类音符单位的每个替换音程,将该类音符单位中的音程对应的音符替换为与该类音符单位的音程差异度最小的替换音程中的替换音符;
根据多个类音符单位的音准调整结果,得到调整后的音频序列。
11.根据权利要求2所述方法,其特征在于,所述基于所述旋律模板,对所述待调整音频序列中的多个类音符单位进行音准调整,得到调整后的音频序列,包括:
针对待调整音频序列中的每个类音符单位,若检测到该类音符单位不包含装饰音标识信息和替换音程,对该类音符单位中的音符进行音高平移以及幅度压缩处理,以贴合所述调整模板中的旋律模板;
根据多个类音符单位的音准调整结果,得到调整后的音频序列。
12.根据权利要求1所述的方法,其特征在于,所述基于所述调整后的音频序列调整所述待调整音频,得到调整后的音频,包括:
根据所述调整后的音频序列,对所述待调整音频进行变调处理,得到调整后的音频。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
CN202210171012.5A 2022-02-23 2022-02-23 音频调整方法和计算机设备 Pending CN114582306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210171012.5A CN114582306A (zh) 2022-02-23 2022-02-23 音频调整方法和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210171012.5A CN114582306A (zh) 2022-02-23 2022-02-23 音频调整方法和计算机设备

Publications (1)

Publication Number Publication Date
CN114582306A true CN114582306A (zh) 2022-06-03

Family

ID=81774606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210171012.5A Pending CN114582306A (zh) 2022-02-23 2022-02-23 音频调整方法和计算机设备

Country Status (1)

Country Link
CN (1) CN114582306A (zh)

Similar Documents

Publication Publication Date Title
Muller et al. Signal processing for music analysis
Gómez et al. Towards computer-assisted flamenco transcription: An experimental comparison of automatic transcription algorithms as applied to a cappella singing
KR101982345B1 (ko) 인공지능을 이용한 음악 생성 장치 및 방법
CN112382257B (zh) 一种音频处理方法、装置、设备及介质
Molina et al. SiPTH: Singing transcription based on hysteresis defined on the pitch-time curve
Gowrishankar et al. An exhaustive review of automatic music transcription techniques: Survey of music transcription techniques
Su et al. Sparse modeling of magnitude and phase-derived spectra for playing technique classification
Yu et al. Sparse cepstral codes and power scale for instrument identification
CN113836344A (zh) 个性化歌曲文件生成方法和装置、音乐演唱设备
Heydarian Automatic recognition of Persian musical modes in audio musical signals
Iskandar et al. Syllabic level automatic synchronization of music signals and text lyrics
Gajjar et al. Computational musicology for raga analysis in Indian classical music: a critical review
CN114743526A (zh) 音频调整方法、计算机设备和计算机程序产品
CN112992110B (zh) 音频处理方法、装置、计算设备以及介质
CN114582306A (zh) 音频调整方法和计算机设备
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
Duggan Machine annotation of traditional Irish dance music
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
Dhara et al. Automatic note transcription system for Hindustani classical music
You et al. Music tonality detection based on Krumhansl-Schmuckler profile
CN113539215A (zh) 音乐风格转换方法、装置、设备及存储介质
JP2004531758A5 (zh)
JP2015184447A (ja) プログラム,情報処理装置,及び評価データ生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination