CN113707113B - 用户歌声的修音方法、装置及电子设备 - Google Patents
用户歌声的修音方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113707113B CN113707113B CN202110975941.7A CN202110975941A CN113707113B CN 113707113 B CN113707113 B CN 113707113B CN 202110975941 A CN202110975941 A CN 202110975941A CN 113707113 B CN113707113 B CN 113707113B
- Authority
- CN
- China
- Prior art keywords
- user
- song
- singing voice
- singing
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000033764 rhythmic process Effects 0.000 claims description 26
- 238000009966 trimming Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 abstract description 2
- 230000008439 repair process Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/366—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种用户歌声的修音方法、装置及电子设备。所述方法包括:获取第一用户的歌声信息,以及与所述歌声信息对应的歌曲名称;确定与所述歌曲名称对应的目标干声;其中,所述目标干声包括第二用户唱所述歌曲名称对应的歌曲时的纯人声;基于所述目标干声对所述第一用户的歌声信息进行修音。通过上述方法可以解决用户歌声的修音不准确的问题。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种用户歌声的修音方法、装置及电子设备。
背景技术
随着移动互联网K歌应用的不断发展,用户对于K歌录音流程中的体验要求越来越高。但由于不同的人对乐感和旋律的感知能力参差不齐,跑调或者节奏跟不上的情况时有发生,严重影响用户的心情。为此,K歌应用推出了修音功能,以对用户歌声进行修音。
在相关技术中,通常是从歌曲原唱的作品(例如专辑)中提取音频特征,并以此作为歌声标准对用户的歌声进行修音。
然而,由于原唱的作品中存在伴奏、和声的声音,因此从作品中提取出的音频特征难以避免的会被伴奏、和声所影响,从而导致音频特征不准确。而基于不准确的音频特征修音后的用户歌声必然也是不准确的。
因此,急需为用户提供更为准确的用户歌声的修音方式。
发明内容
本公开提供一种用户歌声的修音方法、装置及电子设备,以至少解决相关技术中存在用户歌声的修音不准确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种用户歌声的修音方法,包括:
获取第一用户的歌声信息,以及与所述歌声信息对应的歌曲名称;
确定与所述歌曲名称对应的目标干声;其中,所述目标干声包括第二用户唱所述歌曲名称对应的歌曲时的纯人声;
基于所述目标干声对所述第一用户的歌声信息进行修音。
可选的,所述确定与所述歌曲名称对应的目标干声;其中,所述目标干声包括第二用户唱所述歌曲名称对应的歌曲时的纯人声,包括:
提取所述歌声信息中所述第一用户的声纹特征,并从所述歌曲名称对应的声纹库中查询与所述声纹特征匹配的目标声纹;其中,所述目标干声包括所述目标声纹对应的第二用户唱所述歌曲名称对应的歌曲时的纯人声;
从所述歌曲名称对应的干声库中查询所述目标声纹对应的目标干声。
可选的,所述基于所述目标干声对所述第一用户的歌声信息进行修音,包括:
以所述目标干声的歌声节奏为标准节奏,将所述歌声信息中的歌声节奏调整至与所述标准节奏。
可选的,所述基于所述目标干声对所述第一用户的歌声信息进行修音,包括:
以所述目标干声的歌声音高为标准音高,将所述歌声信息中的歌声音高调整至与所述标准歌声。
可选的,还包括:
基于所述目标干声对所述第一用户的歌声信息进行打分。
可选的,所述基于所述目标干声对所述第一用户的歌声信息进行打分,包括:
计算所述目标干声与所述第一用户的歌声信息的相似度;
基于所述相似度确定所述第一用户的歌曲信息的K歌分值。
可选的,所述基于所述相似度确定所述第一用户的歌曲信息的K歌分值,包括:将所述相似度对应的分值区间的数值确定为所述第一用户的歌曲信息的K歌分值。
可选的,所述目标干声为打分分值超过阈值的优质干声。
根据本公开实施例的第二方面,提供一种用户歌声的修音装置,包括:
获取单元,被配置为执行获取第一用户的歌声信息,以及与所述歌声信息对应的歌曲名称;
确定单元,被配置为执行确定与所述歌曲名称对应的目标干声;其中,所述目标干声包括第二用户唱所述歌曲名称对应的歌曲时的纯人声;
修音单元,被配置为执行基于所述目标干声对第一用户的歌声信息进行修音。
可选的,所述确定单元,包括:
提取单元,被配置为执行提取所述歌声信息中所述第一用户的声纹特征,并从所述歌曲名称对应的声纹库中查询与所述声纹特征匹配的目标声纹;其中,所述目标干声包括所述目标声纹对应的第二用户唱所述歌曲名称对应的歌曲时的纯人声;
查询单元,被配置为执行从所述歌曲名称对应的干声库中查询所述目标声纹对应的目标干声。
可选的,所述修音单元,被配置为执行以所述目标干声的歌声节奏为标准节奏,将所述歌声信息中的歌声节奏调整至与所述标准节奏。
可选的,所述修音单元,被配置为执行以所述目标干声的歌声音高为标准音高,将所述歌声信息中的歌声音高调整至与所述标准歌声。
可选的,还包括:打分单元,被配置为执行基于所述目标干声对所述第一用户的歌声信息进行打分。
可选的,所述打分单元,包括:
计算子单元,被配置为执行计算所述目标干声与所述第一用户的歌声信息的相似度;
打分子单元,被配置为执行基于所述相似度确定第一用户的歌曲信息的K歌分值。
可选的,所述打分子单元,被配置为执行将所述相似度对应的分值区间的数值确定为所述第一用户的歌曲信息的K歌分值。
可选的,所述目标干声为打分分值超过阈值的优质干声。
根据本公开实施例的第三方面,一种用户歌声的修音电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现前述任一项所述的用户歌声的修音方法。
根据本公开实施例的第四方面,一种计算机可读存储介质,当所述计算机可读存储介质中的指令由用户歌声的修音电子设备的处理器执行时,使得用户歌声的修音电子设备能够执行前述任一项所述的用户歌声的修音方法。
根据本公开实施例的第五方面,一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现前述任一项所述的用户歌声的修音方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过将唱相同歌曲的目标干声对第一用户的歌声信息进行修音;一方面,由于目标干声是纯人声不包含伴奏和和声,因此不需要提取音频特征,直接可以使用目标干声进行修音。
另一方面,由于目标干声是纯人声不会被含伴奏和和声影响准确性,因此基于目标干声进行修音的结果更为准确。
再一方面,由于目标干声具有与第一用户相似的声纹特征,因此基于目标干声进行修音的结果更为贴合第一用户的原始音色。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的系统架构的示意图。
图2是根据一示例性实施例示出的K歌界面的示意图。
图3是根据一示例性实施例示出的一种用户歌声的修音方法的流程图。
图4是根据一示例性实施例示出的一种用户歌声的修音装置的框图。
图5是根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1示出了本文中可以适用的示例性的系统架构的示意图。图1中,各种网络节点借助网络可以实现信息的通信,继而完成交互和数据的处理。系统架构概念图可以包括经由网络112与一个或多个客户端106进行数据通信的服务端105,以及可以集成于服务端105或独立于服务端105的数据库115。
每个网络112都可以包括有线或无线电信装置,客户端106所基于的网络装置可以通过所述有线或无线电信装置来交换数据。例如,每个网络112都可以包括局域网(“LAN”)、广域网(“WAN”)、内部网、互联网、移动电话网络、虚拟专用网(VPN)、蜂窝式或其它移动通信网络、蓝牙、NFC或其任何组合。在示例性实施方案的讨论中,应理解,术语“数据”和“信息”可在本文中互换使用来指代可存在于基于计算机的环境中的文字、图像、音频、视频或任何其它形式的信息。
每个客户端106所基于的网络装置都可以包括具有能够经由网络112发出并接收数据的通信模块的装置。例如,每个客户端106所基于的网络装置都可以包括服务器、台式计算机、膝上型计算机、平板计算机、智能手机、手持式计算机、个人数字助理(“PDA”),或者其它任何的有线或无线处理器驱动装置。在图1所描绘的示例性实施方案中,客户端106所基于的网络装置可以由用户进行操作。
用户可以使用如网页浏览器应用程序或独立应用程序的应用程序,以便经由网络112查看、下载、上传或以其它方式访问文件或网页。网络包括有线或无线电信系统或装置,网络装置(包括服务端105、客户端106)可以通过所述有线或无线电信装置来交换数据。例如,网络112可以包括局域网(“LAN”)、广域网(“WAN”)、内部网、互联网、存储区域网络(SAN)、个人区域网络(PAN)、城域网(MAN)、无线局域网(WLAN)、虚拟专用网(VPN)、蜂窝式或其它移动通信网络、蓝牙、NFC或其任何组合,或者有助于信号、数据和/或消息的通信的任何其它适当的架构或系统。在示例性实施方案的讨论中,应理解,术语“数据”和“信息”可在本文中互换使用来指代可存在于基于计算机的环境中的文字、图像、音频、视频或任何其它形式的信息。
网页浏览器应用程序或独立应用程序的应用程序,可以与连接到网络112的网页服务器(或其它服务器,诸如唱歌平台、K歌平台等)以完成交互。
图1中,与服务端105可以是集成关系或分立关系的计算装置(图中未示出),特别是后者的情况下,一般可以通过内部网络或专用网络连接,或者也可以通过加密的公共网络连接。特别的,当为集成关系时,可能采用更高效、传输速度更快的内部总线形式的连接。该计算装置,当为集成关系或分立关系时,均可以直接或通过服务端105访问数据库115。
对计算机装置进行适当的编程,可以藉由这种指令控制本专利中方法的实施。特别的,当为集成关系时,计算机装置处理的事务可以视为服务端105的处理而不必特别加以区分。
以K歌业务的场景为例,上述客户端可以包括安装有K歌APP的客户端;上述服务端可以包括K歌APP对应的服务平台。
以下结合图2所示的K歌界面的示意图加以说明。
在实现时,第一用户可以在客户端上打开K歌APP;并在歌曲列表中选择想要唱的歌曲名称。如图2所示的歌曲列表界面21中展示有若干的歌曲名称,当用户点击“歌曲名称3”选项后,客户端响应于该“歌曲名称3”选项,从歌曲列表界面21跳转到K歌入口界面22。
进一步,用户可以点击“K歌”选项,客户端响应于“K歌”选项,从K歌入口界面22跳转到K歌录音界面23。
在K歌录音界面23中,展示有开始录音的操作选项24,在该操作选项24被触发后,用户可以唱歌,用户的歌声将被开启的音频接收装置采集,从而得到录制的歌声信息。
在录音过程中,该K歌录音界面23还可以展示“录音声波动态”的声波图像25。
一般的,在录音时长达到预设时长(一般是歌曲名称对应的歌曲时长)后,客户端可以从K歌录音界面23跳转到K歌上传界面26。
在K歌上传界面26中,展示有若干选项,例如用于试听录制的歌声信息“试听”选项,用于重新录制的“重录”选项,以及用于上传录制的歌声信息的“上传”选项等。
一般的,用户在录制的歌声信息后,需要将歌声信息上传给服务端,由服务端对歌声信息进行处理。例如,对歌声信息进行修音。
而如前所述的,在相关技术中,修音通常是从歌曲原唱的作品(例如专辑)中提取音频特征,并以此作为歌声标准对用户的歌声进行修音。
然而,由于原唱的作品中存在伴奏、和声的声音,因此从作品中提取出的音频特征难以避免的会被伴奏、和声所影响,从而导致音频特征不准确。而基于不准确的音频特征修音后的用户歌声必然也是不准确的。
另外,由于原唱的音色一般与用户的音色不同,利用原创的声音作为修音的目标,会使修音后的用户歌声具有一定的原创音色,显得不是用户所唱,影响用户体验。
基于此,本说明书旨在提供一种更为准确、更贴合用户音色的修音方案。通过将唱相同歌曲的目标干声对第一用户的歌声信息进行修音;一方面,由于目标干声是纯人声不包含伴奏和和声,因此不需要提取音频特征,直接可以使用目标干声进行修音。另一方面,由于目标干声是纯人声不会被含伴奏和和声影响准确性,因此基于目标干声进行修音的结果更为准确。再一方面,由于目标干声具有与第一用户相似的声纹特征,因此基于目标干声进行修音的结果更为贴合第一用户的原始音色。
在说明书提供的实施例,可以应用于上述客户端与服务端交互中的服务端侧,即由服务端对客户端上传的歌声信息进行修音。
当然在实际应用中,也可以应用在无需交互的客户端。即客户端在获取到用户的歌声信息后,可以直接在本地对歌声信息进行修音。以传统的KTV场景为例,一般KTV中的唱歌设备是不联网的,即使联网为了保护用户的隐私也不会擅自将用户的歌声信息上传到服务端。因此,在此类非交互或离线的场景中,客户端需要在本地对用户的歌声信息进行修音。
以下请参考图3,图3是根据一示例性实施例示出的一种用户歌声的修音方法的流程图,包括以下步骤:
步骤210,获取第一用户的歌声信息,以及与所述歌声信息对应的歌曲名称。
以下以应用于服务端为例,如前所述客户端可以将录制的第一用户的歌声信息上传给服务端,进而服务端可以获取该歌声信息,以及确定与所述歌声信息对应的歌曲名称。
在一示出的实施例中,所述歌曲名称可以是客户端与歌声信息一起上传的,以使所述服务端可以确定歌曲名称。
在一示出的实施例中,所述歌曲名称可以是服务端基于歌声信息识别出的。一般的,服务端可以借助业内常用的“听歌识曲”识别出歌声信息对应的歌曲名称。
在一示出的实施例中,所述歌声信息可以是第一用户唱歌的干声。
在实际应用中,客户端可以采集第一用户唱歌的干声,这样方便后续基于目标干声对所述第一用户的歌声信息进行修音时,避免由于歌声信息存在非干声的音频对修音造成的干扰。
步骤220,确定与所述歌曲名称对应的目标干声;其中,所述目标干声包括第二用户唱所述歌曲名称对应的歌曲时的纯人声。
服务端在获取到歌声信息以及歌曲名称之后,可以进一步确定与所述歌曲名称对应的目标干声。
其中,干声又称为裸声,属于音频术语,一般是指录音以后未经过任何后期处理或加工的纯人声。与之相对的经过后期处理或加工(如:混响、延迟等)的人声称为湿声。
在本实施例中,所述服务端可以预先为每首歌曲配置目标干声。其中,所述目标干声为打分分值超过阈值的优质干声。所述打分是指对用户的歌声信息进行评价以给出表示该用户唱歌好坏的一个打分分值。具体如何进行打分将在后续实施例中详细说明。
由于目标干声都是打分分值超过阈值的优质干声,因此基于这些优质干声进行修音的结果也更为准确。
以K歌业务的场景为例,所述目标干声可以是指第二用户上传的K歌分值超过阈值的优质干声。在K歌分值超过阈值时,则说明第二用户唱歌的干声接近于原唱,可以作为修音的参考歌声使用。
另外,本实施例针对修音后音色变化的问题,在图1基础上进一步改进,从而提出了以下方案:
在一示例性的实施例中,所述步骤220,可以包括:
提取所述歌声信息中所述第一用户的声纹特征,并从所述歌曲名称对应的声纹库中查询与所述声纹特征匹配的目标声纹;
从所述歌曲名称对应的干声库中查询所述目标声纹对应的目标干声。
其中,声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同,所发出来的声音及其音调各不相同,因此,基于声纹具有实际的不可替代性和稳定性的特点可以作为基本特征来实现人的身份识别。
该示例中,利用声纹特征,为歌声信息匹配具有与第一用户相似音色的目标干声,以实现基于目标干声进行修音的结果更为贴合第一用户的原始音色。
为了满足各色用户不同音色的需求,服务端可以预先为每首歌曲构建对应的干声库。所述干声库中存储有若干不同音色的优质的目标干声。
以K歌业务的场景为例,服务端可以通过K歌APP收集很多用户唱歌的干声,并基于K歌打分机制筛选出优质的干声;在有实施例中,还可以进一步可以结合人工筛选以确定最为优质的目标干声。将这些目标干声分别存储到歌曲名称对应的干声库中。
然后,对每个干声库中的干声提取声纹特征,以构建每个歌曲名称对应的声纹库。所述声纹库与干声库之间可以通过干声的声纹特征作为索引进行关联。
这样,当获取到第一用户的歌声信息后,通过歌声信息的声纹信息,可以与声纹库里的声纹特征进行匹配,然后以匹配到的目标声纹为索引从干声库中获取对应的目标干声。
如此,最终确定的目标干声可以具有与第一用户相似的音色。利用这样的目标干声对第一用户的歌声信息进行修音,修音的结果更为贴合第一用户的原始音色。
步骤230,基于所述目标干声对所述第一用户的歌声信息进行修音。
服务端在确定了目标干声后,就可以利用目标干声对所述第一用户的歌声信息进行修音。
一般的,修音可以从歌声音高和/或歌声节奏等多个维度进行调整,最终的修音目标是将第一用户的歌声信息调整到与目标干声相似或一致。
在一示例性的实施例中,所述基于所述目标干声对所述第一用户的歌声信息进行修音,包括:
以所述目标干声的歌声节奏为标准节奏,将所述歌声信息中的歌声节奏调整至与所述标准节奏。
该示例中,对第一用户的歌声节奏进行调整,以目标干声的歌声节奏为标准节奏,将歌声信息的歌声节奏调整至与所述标准节奏。这样修音后的歌声信息的歌声节奏就变得与标准节奏相同,从而修正歌声信息中错误的歌声节奏。
在一示例性的实施例中,所述基于所述目标干声对所述第一用户的歌声信息进行修音,包括:
以所述目标干声的歌声音高为标准音高,将所述歌声信息中的歌声音高调整至与所述标准歌声。
该示例中,对第一用户的歌声音高进行调整,以目标干声的歌声音高为标准音高,将歌声信息的歌声音高调整至与所述标准音高。这样修音后的歌声信息的歌声音高就变得与标准音高相同,从而修正歌声信息中错误的歌声音高。
以K歌业务的场景为例,当第一用户通过K歌APP进行K歌后,可以选取第一用户所唱的歌曲名称对应的目标干声作为修音的参考歌声。
由于目标干声是纯人声不包含伴奏和和声,因此不需要进行音频特征提取,直接可以使用目标干声进行修音;并且不会被含伴奏和和声影响准确性,因此基于目标干声进行修音的结果更为准确。
本说明书在确定了目标干声后,除了可以对第一用户的歌声信息进行修音,还可以对第一用户的歌声信息进行打分;与修音类似的,打分也可以是基于目标干声进行打分。
在一示例性的实施例中,服务端可以基于所述目标干声对所述第一用户的歌声信息进行打分。
通过打分可以给予用户一个直观体现其唱歌好坏的评价,从而有效提高用户的唱歌体验。
在实际应用中,打分多少可以参考多个不同维度的打分标准,例如计算歌曲完成度、与目标干声的相似度,而细化标准还可以参考歌声的节奏、音调等是否标准,也可以参考歌声是否破音、真假音切换是否正确等等。
以K歌业务的场景为例,通常,可以计算所述目标干声与所述第一用户的歌声信息的相似度;然而,基于所述相似度确定所述第一用户的歌曲信息的K歌分值。
在实际应用中,相似度与打分分值通常成正比,即相似度越高打分分值越高,反之相似度越低打分分值越低。
需要说明的是,基于目标干声对第一用户的歌声信息进行打分,其具有与前述修音类似的效果。由于目标干声是纯人声不会被含伴奏和和声影响准确性,因此基于目标干声进行打分的结果更为准确。
在实际应用中,所述基于所述相似度确定所述第一用户的歌曲信息的K歌分值,包括:
将所述相似度对应的分值区间的数值确定为所述第一用户的歌曲信息的K歌分值。
在该示例中,由于相似度的数值一般位于[0,1]之间,因此可以对相似度做区间映射,映射到分值区间[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]的某个区间后,该区间对应的数值就可以作为K歌分值。
例如,计算得到的相似度为0.43,那么做区间映射后,其映射到分值区域中的[0.4,0.5],而该区域位于分值区域的第5区间段,进而可以将5作为K歌分值。
由于相似度的数值普遍较小,很难让用户能够直观感受到这个数值表示唱歌的好坏;为此通过区间映射放大数值较小的相似度,如此可以令用户通过K歌分值直观感受到其唱歌的好坏。
与前述图3所示用户歌声的修音方法实施例相对应,本说明书还提供了图4所示用户歌声的修音装置的实施例。所述装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。
图4是与前述图3对应的一种用户歌声的修音装置框图。参照图4,该装置至少可以包括获取单元310,确定单元320和修音单元。
其中,获取单元310,被配置为执行获取第一用户的歌声信息,以及与所述歌声信息对应的歌曲名称;
确定单元320,被配置为执行确定与所述歌曲名称对应的目标干声;其中,所述目标干声包括第二用户唱所述歌曲名称对应的歌曲时的纯人声;
修音单元330,被配置为执行基于所述的目标干声对所述第一用户的歌声信息进行修音。
在一可选的实施例中,所述确定单元320,包括:
提取单元,被配置为执行提取所述歌声信息中所述第一用户的声纹特征,并从所述歌曲名称对应的声纹库中查询与所述声纹特征匹配的目标声纹;其中,所述目标干声包括所述目标声纹对应的第二用户唱所述歌曲名称对应的歌曲时的纯人声;
查询单元,被配置为执行从所述歌曲名称对应的干声库中查询所述目标声纹对应的目标干声。
在一可选的实施例中,所述修音单元330,被配置为执行以所述目标干声的歌声节奏为标准节奏,将所述歌声信息中的歌声节奏调整至与所述标准节奏。
在一可选的实施例中,所述修音单元330,被配置为执行以所述目标干声的歌声音高为标准音高,将所述歌声信息中的歌声音高调整至与所述标准歌声。
在一可选的实施例中,还包括:
打分单元,可以被配置为执行基于所述的目标干声对所述第一用户的歌声信息进行打分。
在一可选的实施例中,所述打分单元,包括:
计算子单元,被配置为执行计算所述目标干声与所述第一用户的歌声信息的相似度;
打分子单元,被配置为执行基于所述的相似度确定所述第一用户的歌曲信息的K歌分值。
在一可选的实施例中,所述打分子单元,被配置为执行将所述相似度对应的分值区间的数值确定为所述第一用户的歌曲信息的K歌分值。
在一可选的实施例中,所述目标干声为打分分值超过阈值的优质干声。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种用户歌声的修音电子设备,包括处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以完成上述任一实施例所述的用户歌声的修音方法。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,当该计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一实施例所述的用户歌声的修音方法。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序或指令被处理器执行时完成上述任一实施例所述的用户歌声的修音方法。
图5是根据本公开的实施例示出的一种电子设备的示意框图。参照图5,电子设备400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件418。上述电子设备可以采用类似的硬件架构。
处理组件402通常控制电子设备400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述三维虚拟形象的生成方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在电子设备400的操作。这些数据的示例包括用于在电子设备400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为电子设备400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为电子设备400生成、管理和分配电力相关联的组件。
多媒体组件408包括在电子设备400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当电子设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的或具有焦距和光学变焦能力的光学透镜系统。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当电子设备400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件418发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,选项等。这些选项可包括但不限于:主页选项、音量选项、启动选项和锁定选项。
传感器组件414包括一个或多个传感器,用于为电子设备400提供各个方面的状态评估。例如,传感器组件414可以检测到电子设备400的打开/关闭状态,组件的相对定位,例如所述组件为电子设备400的显示器和小键盘,传感器组件414还可以检测电子设备400或电子设备400一个组件的位置改变,用户与电子设备400接触的存在或不存在,电子设备400方位或加速/减速和电子设备400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件418被配置为便于电子设备400和其他设备之间有线或无线方式的通信。电子设备400可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或4G),或它们的组合。在一个示例性实施例中,通信组件418经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件418还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在本公开一实施例中,电子设备400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述任一实施例所述的用户歌声的修音方法。
在本公开一实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器404,上述指令可由电子设备400的处理器420执行以完成上述任一实施例所述的用户歌声的修音方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (16)
1.一种用户歌声的修音方法,其特征在于,包括:
获取第一用户的歌声信息,以及与所述歌声信息对应的歌曲名称;
提取所述歌声信息中所述第一用户的声纹特征,并从所述歌曲名称对应的声纹库中查询与所述声纹特征匹配的目标声纹;
从所述歌曲名称对应的干声库中查询所述目标声纹对应的目标干声;其中,所述目标干声包括所述目标声纹对应的第二用户唱所述歌曲名称对应的歌曲时的纯人声;
基于所述目标干声对所述第一用户的歌声信息进行修音。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标干声对所述第一用户的歌声信息进行修音,包括:
以所述目标干声的歌声节奏为标准节奏,将所述歌声信息中的歌声节奏调整至与所述标准节奏。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标干声对所述第一用户的歌声信息进行修音,包括:
以所述目标干声的歌声音高为标准音高,将所述歌声信息中的歌声音高调整至与所述标准歌声。
4.根据权利要求1所述的方法,其特征在于,还包括:
基于所述目标干声对所述第一用户的歌声信息进行打分。
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标干声对所述第一用户的歌声信息进行打分,包括:
计算所述目标干声与所述第一用户的歌声信息的相似度;
基于所述相似度确定所述第一用户的歌曲信息的K歌分值。
6.根据权利要求5所述的方法,其特征在于,所述基于所述相似度确定所述第一用户的歌曲信息的K歌分值,包括:
将所述相似度对应的分值区间的数值确定为所述第一用户的歌曲信息的K歌分值。
7.根据权利要求4所述的方法,其特征在于,所述目标干声为打分分值超过阈值的优质干声。
8.一种用户歌声的修音装置,其特征在于,包括:
获取单元,被配置为执行获取第一用户的歌声信息,以及与所述歌声信息对应的歌曲名称;
提取单元,被配置为执行提取所述歌声信息中所述第一用户的声纹特征,并从所述歌曲名称对应的声纹库中查询与所述声纹特征匹配的目标声纹;
查询单元,被配置为执行从所述歌曲名称对应的干声库中查询所述目标声纹对应的目标干声;其中,所述目标干声包括所述目标声纹对应的第二用户唱所述歌曲名称对应的歌曲时的纯人声;
修音单元,被配置为执行基于所述目标干声对所述第一用户的歌声信息进行修音。
9.根据权利要求8所述的装置,其特征在于,所述修音单元,被配置为执行以所述目标干声的歌声节奏为标准节奏,将所述歌声信息中的歌声节奏调整至与所述标准节奏。
10.根据权利要求8所述的装置,其特征在于,所述修音单元,被配置为执行以所述目标干声的歌声音高为标准音高,将所述歌声信息中的歌声音高调整至与所述标准歌声。
11.根据权利要求8所述的装置,其特征在于,还包括:
打分单元,被配置为执行基于所述目标干声对所述第一用户的歌声信息进行打分。
12.根据权利要求11所述的装置,其特征在于,所述打分单元,包括:
计算子单元,被配置为执行计算所述目标干声与所述第一用户的歌声信息的相似度;
打分子单元,被配置为执行基于所述相似度确定所述第一用户的歌曲信息的K歌分值。
13.根据权利要求12所述的装置,其特征在于,所述打分子单元,被配置为执行将所述相似度对应的分值区间的数值确定为所述第一用户的歌曲信息的K歌分值。
14.根据权利要求11所述的装置,其特征在于,所述目标干声为打分分值超过阈值的优质干声。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-7中任一项所述的用户歌声的修音方法。
16.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-7中任一项所述的用户歌声的修音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110975941.7A CN113707113B (zh) | 2021-08-24 | 2021-08-24 | 用户歌声的修音方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110975941.7A CN113707113B (zh) | 2021-08-24 | 2021-08-24 | 用户歌声的修音方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113707113A CN113707113A (zh) | 2021-11-26 |
CN113707113B true CN113707113B (zh) | 2024-02-23 |
Family
ID=78654453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110975941.7A Active CN113707113B (zh) | 2021-08-24 | 2021-08-24 | 用户歌声的修音方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113707113B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114566191A (zh) * | 2022-02-25 | 2022-05-31 | 腾讯音乐娱乐科技(深圳)有限公司 | 录音的修音方法及相关装置 |
CN114944154B (zh) * | 2022-07-26 | 2022-11-15 | 深圳市长丰影像器材有限公司 | 音频调整方法、装置、设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250325A (ja) * | 2008-03-31 | 2008-10-16 | S & K:Kk | カラオケシステム、カラオケ用リモコン装置 |
CN104882147A (zh) * | 2015-06-05 | 2015-09-02 | 福建星网视易信息系统有限公司 | 一种演唱评分显示方法、装置及系统 |
CN105554633A (zh) * | 2015-12-30 | 2016-05-04 | 福建星网视易信息系统有限公司 | 内置音效器声音信号处理方法及电子设备 |
CN105989842A (zh) * | 2015-01-30 | 2016-10-05 | 福建星网视易信息系统有限公司 | 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用 |
CN107221340A (zh) * | 2017-05-31 | 2017-09-29 | 福建星网视易信息系统有限公司 | 基于多路音频的实时评分方法、存储设备及应用 |
CN108074557A (zh) * | 2017-12-11 | 2018-05-25 | 深圳Tcl新技术有限公司 | 音调调整方法、装置及存储介质 |
CN108647003A (zh) * | 2018-05-09 | 2018-10-12 | 福建星网视易信息系统有限公司 | 一种基于声控的虚拟场景互动方法和存储介质 |
CN109785820A (zh) * | 2019-03-01 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种处理方法、装置及设备 |
CN110010162A (zh) * | 2019-02-28 | 2019-07-12 | 华为技术有限公司 | 一种歌曲录制方法、修音方法及电子设备 |
CN111091800A (zh) * | 2019-12-25 | 2020-05-01 | 北京百度网讯科技有限公司 | 歌曲生成方法和装置 |
CN111192594A (zh) * | 2020-01-10 | 2020-05-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声和伴奏分离方法及相关产品 |
CN112825245A (zh) * | 2019-11-20 | 2021-05-21 | 北京声智科技有限公司 | 实时修音方法、装置及电子设备 |
CN112992109A (zh) * | 2019-12-16 | 2021-06-18 | 宏正自动科技股份有限公司 | 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体 |
-
2021
- 2021-08-24 CN CN202110975941.7A patent/CN113707113B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250325A (ja) * | 2008-03-31 | 2008-10-16 | S & K:Kk | カラオケシステム、カラオケ用リモコン装置 |
CN105989842A (zh) * | 2015-01-30 | 2016-10-05 | 福建星网视易信息系统有限公司 | 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用 |
CN104882147A (zh) * | 2015-06-05 | 2015-09-02 | 福建星网视易信息系统有限公司 | 一种演唱评分显示方法、装置及系统 |
CN105554633A (zh) * | 2015-12-30 | 2016-05-04 | 福建星网视易信息系统有限公司 | 内置音效器声音信号处理方法及电子设备 |
CN107221340A (zh) * | 2017-05-31 | 2017-09-29 | 福建星网视易信息系统有限公司 | 基于多路音频的实时评分方法、存储设备及应用 |
CN108074557A (zh) * | 2017-12-11 | 2018-05-25 | 深圳Tcl新技术有限公司 | 音调调整方法、装置及存储介质 |
CN108647003A (zh) * | 2018-05-09 | 2018-10-12 | 福建星网视易信息系统有限公司 | 一种基于声控的虚拟场景互动方法和存储介质 |
CN110010162A (zh) * | 2019-02-28 | 2019-07-12 | 华为技术有限公司 | 一种歌曲录制方法、修音方法及电子设备 |
CN109785820A (zh) * | 2019-03-01 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种处理方法、装置及设备 |
CN112825245A (zh) * | 2019-11-20 | 2021-05-21 | 北京声智科技有限公司 | 实时修音方法、装置及电子设备 |
CN112992109A (zh) * | 2019-12-16 | 2021-06-18 | 宏正自动科技股份有限公司 | 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体 |
CN111091800A (zh) * | 2019-12-25 | 2020-05-01 | 北京百度网讯科技有限公司 | 歌曲生成方法和装置 |
CN111192594A (zh) * | 2020-01-10 | 2020-05-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声和伴奏分离方法及相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113707113A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106024009B (zh) | 音频处理方法及装置 | |
CN113707113B (zh) | 用户歌声的修音方法、装置及电子设备 | |
CN109859730B (zh) | 一种音频处理方法及装置 | |
CN107994879B (zh) | 响度控制方法及装置 | |
WO2022042129A1 (zh) | 音频处理方法及装置 | |
CN111583944A (zh) | 变声方法及装置 | |
CN111508511A (zh) | 实时变声方法及装置 | |
CN106024033B (zh) | 播放控制方法及装置 | |
US20140358566A1 (en) | Methods and devices for audio processing | |
US20210027800A1 (en) | Method for processing audio, electronic device and storage medium | |
CN113409764B (zh) | 一种语音合成方法、装置和用于语音合成的装置 | |
CN111583972B (zh) | 歌唱作品生成方法、装置及电子设备 | |
CN111813301B (zh) | 内容播放方法、装置、电子设备及可读存储介质 | |
CN110610720B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN113223542B (zh) | 音频的转换方法、装置、存储介质及电子设备 | |
CN106782625A (zh) | 音频处理方法和装置 | |
CN113259701B (zh) | 个性化音色的生成方法、装置及电子设备 | |
JP5550593B2 (ja) | カラオケ装置 | |
CN113409765B (zh) | 一种语音合成方法、装置和用于语音合成的装置 | |
TWI377559B (en) | Singing system with situation sound effect and method thereof | |
JP2019101148A (ja) | 通信カラオケシステム | |
CN109524025B (zh) | 一种唱歌评分方法、装置、电子设备及存储介质 | |
CN112699269A (zh) | 歌词显示方法、装置、电子设备、计算机可读存储介质 | |
CN111739528A (zh) | 一种交互方法、装置和耳机 | |
CN108364631B (zh) | 一种语音合成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |