CN116343726A

CN116343726A - 一种点唱机音频切换方法、装置、计算机设备及存储介质

Info

Publication number: CN116343726A
Application number: CN202310609291.3A
Authority: CN
Inventors: 张俊峰; 何文强; 刘兴保
Original assignee: Chengdu Xiaosing Technology Co ltd
Current assignee: Chengdu Xiaosing Technology Co ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-06-27
Anticipated expiration: 2043-05-29
Also published as: CN116343726B

Abstract

本发明涉及音频处理技术领域，尤其涉及一种点唱机音频切换方法、装置、计算机设备及存储介质，该方法应用于娱乐场景的演唱过程中，包括：通过麦克风采集音频信息，确定音频信息的振幅；基于音频信息，确定音调信息；基于音频信息，确定音频信息的时间戳信息，时间戳信息为音频信息在演唱过程中所处的时段；基于音调信息、振幅以及时间戳信息，判断音频信息是否为人声，得到判断结果；基于判断结果，对音频切换，进而通过分析采集到的音频信息是否为人声，从而来切换原唱和伴唱，不仅提高了切换效率，而且，提高了歌唱体验效果。

Description

一种点唱机音频切换方法、装置、计算机设备及存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及一种点唱机音频切换方法、装置、计算机设备及存储介质。

背景技术

现有在家庭或者户外的娱乐都会用到点唱机，实现随时随地唱歌，满足娱乐生活，但是，常常会由于忘记歌词导致播放出仅有伴奏的效果，此时，需要用户手动切换原唱，而频繁手动切换原唱和伴唱等操作，整首歌曲体验会非常差，而且，切换的过程中用户的反应时间以及设备的反应时间都会造成歌曲出现间断情况，体验度不佳。

因此，如何实现音频自动切换原唱和伴唱，以提高歌唱体验效果是目前亟待解决的技术问题。

发明内容

鉴于上述问题，本发明提供了一种克服上述问题或者至少部分地解决上述问题的点唱机音频切换方法、装置、计算机设备及存储介质。

第一方面，本发明提供了一种点唱机音频切换方法，应用于娱乐场景的演唱过程中，包括：

通过麦克风采集音频信息，确定所述音频信息的振幅；

基于所述音频信息，确定音调信息；

基于所述音频信息，确定所述音频信息的时间戳信息，所述时间戳信息为所述音频信息在演唱过程中所处的时段；

基于所述音调信息、所述振幅以及时间戳信息，判断所述音频信息是否为人声，得到判断结果；

基于所述判断结果，对音频切换。

进一步地，所述基于所述音频信息，确定音调信息，包括：

将所述音频信息通过快速傅里叶变换，得到所述音频信息的实时频点信息；

基于所述实时频点信息，确定音调信息。

进一步地，所述将所述音频信息通过快速傅里叶变换，得到所述音频信息的实时频点信息，包括：

将所述音频信息采用时间抽取算法的快速傅里叶变换，得到所述音频信息的实时频点信息；或者

将所述音频信息采用频率抽取算法的快速傅里叶变换，得到所述音频信息的实时频点信息。

进一步地，所述基于所述音频信息，确定所述音频信息的时间戳信息，包括：

采用音乐时间戳预测模块对目标歌曲标注时间戳信息，以确定所述目标歌曲的演唱时段的时间位置和音乐过门的时间位置，其中，音乐时间戳预测模块为基于N个训练歌曲以及各个训练歌曲所对应的训练时间戳信息所训练得到的，所述目标歌曲为当前播放的歌曲；

基于所述音频信息，确定所述音频信息在所述目标歌曲中的时间信息；

基于所述音乐时间戳预测模型和所述时间信息，确定所述音频信息的时间戳信息。

进一步地，在所述基于所述音频信息，确定所述音频信息的时间戳信息之后，还包括：

基于所述音频信息的时间戳信息，判断所述音频信息在所述目标歌曲中的时间信息是否对应演唱时段，所述目标歌曲包括演唱时段和音乐过门。

进一步地，所述基于所述音调信息、所述振幅以及时间戳信息，判断所述音频信息是否为人声，得到判断结果，包括：

在所述音调信息满足第一预设条件，所述振幅满足第二预设条件，且所述音频信息的时间戳信息为演唱时段时，确定所述音频信息为人声，否则，确定所述音频信息不为人声。

进一步地，基于所述判断结果，对音频切换，包括：

在所述判断结果为人声时，控制开启伴唱模式；

在所述判断结果不为人声时，控制开启原唱模式。

第二方面，本发明提供了一种点唱机音频切换装置，应用于娱乐场景的演唱过程中，包括：

第一确定模块，用于通过麦克风采集音频信息，确定所述音频信息的振幅；

第二确定模块，用于基于所述音频信息，确定音调信息；

第三确定模块，用于基于所述音频信息，确定所述音频信息的时间戳信息，所述时间戳信息为所述音频信息在演唱过程中所处的时段；

第一判断模块，用于基于所述音调信息、所述振幅以及时间戳信息，判断所述音频信息是否为人声，得到判断结果；

切换模块，用于基于所述判断结果，对音频切换。

第三方面，本发明还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面中所述的方法步骤。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序,该程序被处理器执行时实现第一方面中所述的方法步骤。

本发明实施例中的一个或多个技术方案，至少具有如下技术效果或优点：

本发明提供了一种点唱机音频切换方法，应用于娱乐场景的演唱过程中，包括：通过麦克风采集音频信息，确定音频信息的振幅；基于音频信息，确定音调信息；基于音频信息，确定音频信息的时间戳信息，时间戳信息为音频信息在演唱过程中所处的时段；基于音调信息、振幅以及时间戳信息，判断音频信息是否为人声，得到判断结果；基于判断结果，对音频切换，进而通过分析采集到的音频信息是否为人声，从而来切换原唱和伴唱，不仅提高了切换效率，而且，提高了歌唱体验效果。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考图形表示相同的部件。在附图中：

图1示出了本发明实施例中点唱机音频切换方法的步骤流程示意图；

图2示出了本发明实施例中点唱机音频切换装置的结构示意图；

图3示出了本发明实施例中实现点唱机音频切换方法的计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例1

本发明的实施例提供了一种点唱机音频切换方法，如图1所示，包括：

S101，通过麦克风采集音频信息，确定音频信息的振幅；

S102，基于音频信息，确定音调信息；

S103，基于音频信息，确定音频信息的时间戳信息，该时间戳信息为音频信息在演唱过程中所处的时段；

S104，基于音调信息、振幅以及时间戳信息，判断音频信息是否为人声，得到判断结果；

S105，基于判断结果，对音频切换。

在具体的实施方式中，S101，通过麦克风采集音频信息，由于是在开放的环境，进入麦克风的声音包括了人声以及周围的噪声，周围的噪声包括了设备播放的伴奏音等等。

在采集到音频信息之后，进行模数转换，得到数字信号。

在S101中，可以确定出该音频信息的振幅。具体可以根据绘制的音频信息的波形图来确定该振幅。

接下来，执行S102，基于音频信息，确定音调信息。

具体地，将音频信息通过快速傅里叶变换，得到音频信息的实时频点信息；基于实时频点信息，确定音调信息。

这里的快速傅里叶变换，可以为时间抽取算法或者频率抽取算法，因此，将音信信息采用时间抽取算法的快速傅里叶变换，得到音频信息的实时频点信息；或者将音频信息采用频率抽取算法的快速傅里叶变换，得到音频信息的实时频点信息。

在采用频率抽取算法时，按照频率抽取的FFT算法是将频域信号序列X（x）分解为奇偶两部分，算法是由时域信号序列开始逐级运算，按照时域采集的n个点分成n/2个点计算FFT，将直接计算离散傅里叶变换所需的n次乘法缩减到n/2次。

在确定音频信息的实时频点信息之后，基于该实时频点信息，确定音调信息，其中，音调是由频率决定的，频率越高，则音调越高。具体的音调与实时频点信息的对照关系如下：

音调	频率（Hz）	音调	频率（Hz）	音调	频率（Hz）
						低音1	261.6	中音1	523.3	高音1	1046.5
低音2	293.7	中音2	587.3	高音2	1174.7
						低音3	329.6	中音3	659.3	高音3	1318.5
低音4	349.2	中音4	698.5	高音4	1396.9
						低音5	392	中音5	784	高音5	1568
低音6	440	中音6	880	高音6	1760
						低音7	493.9	中音7	987.8	高音7	1975.5

当然，也可以按照八度音阶与频率的对应关系，确定音调信息，其中，该音阶就是该音调信息，如下表所示：

八度	G	#C	D	#D	E	F	#F	G	#G	A	#A	B
													0	16.351	17.324	18.354	19.445	20.601	21.827	23.124	24.499	25.956	27.50	29.135	30.867
1	32.703	34.648	36.708	38.891	41.203	43.654	46.249	48.999	51.913	55.00	58.270	61.735
													2	65.406	69.296	73.416	77.782	82.407	87.307	92.499	97.999	103.83	110.00	116.54	123.47
3	130.81	138.59	146.83	155.56	164.81	174.61	184.99	195.99	207.65	220.00	233.08	246.94
													4	261.62	277.18	293.67	311.13	329.63	349.23	369.99	391.99	415.31	440.00	466.16	493.88
5	523.25	554.36	587.33	622.25	659.26	698.46	739.99	783.99	830.61	880.00	932.32	987.76
													6	1046.5	1108.7	1174.7	1244.5	1318.5	1396.9	1479.9	1567.9	1661.2	1760.00	1964.7	1975.5
7	2093.0	2217.5	2349.3	2489.0	2637.0	2739.8	2959.9	3135.9	3322.4	3520.0	3729.3	3951.1
													8	4186.0	4434.9	4698.6	4978.0	5274.0	5587.7	5919.9	6271.9	6644.9	7040.0	7458.6	7902.1

由此，可以根据上述的对应关系，确定音调信息。

接下来，执行S103，基于该音频信息，确定音频信息的时间戳信息，该时间戳信息为音频信息在演唱过程中所处的时段。

具体地，是采用音乐时间戳预测模块对目标歌曲标注时间戳信息，以确定目标歌曲的演唱时段的时间位置和音乐过门的时间位置，其中，音乐时间戳预测模块为基于N个训练歌曲以及各个训练歌曲所对应的训练时间戳信息所训练得到的，目标歌曲为当前播放的歌曲。

接着，基于该音频信息，确定音频信息在目标歌曲中的时间信息；最后，基于音乐时间戳预设模型和时间信息，确定音频信息的时间戳信息。

在具体的实施方式中，借助神经网络模型算法、 N个训练歌曲以及N个训练歌曲所对应的训练时间戳信息进行训练，由此得到音乐时间戳预测模型，该时间戳信息具体是与整首歌曲的时间对应的时段信息，比如，从0’0’’到1’12’’是第一段音乐过门，从1’13’’到1’34’’是第一段演唱时段，接着1’35’’到1’50’’是第二段音乐过门……在目标歌曲的时间戳信息确定之后，根据实时采集的音频信息在目标歌曲中的时间信息，从而将时间信息输入该音乐时间戳预测模型之后，由此得到对应的时间戳信息，即对应的是音乐过门还是演唱时段，其中，音乐过门是不需要人声的，而演唱时段是需要人声的。

接着执行S104，基于音频信息、振幅以及时间戳信息，判断音频信息是否为人声，得到判断结果。

具体地，分别对三个指标进行判断，第一个指标，音调信息，音调只有在满足第一预设条件，才能确定有人声，该第一预设条件采用常规手段确定；接下来，对于第二个指标进行判断，音频信息的振幅，只有在满足第二预设条件时，才能确定有人声，其中，振幅较大时确定有人声，振幅较小时，确定无人声，采用这样的方式，可以将其他噪声进行过滤。同时，还需要对音频信息的时间戳信息进行判断，在音频信息的时间戳信息为演唱时段时，确定该音频信息为人声。

因此，在音调信息满足第一预设条件、振幅满足第二预设条件，且音频信息的时间戳信息为演唱时段时，确定音频信息为人声，否则，确定音频信息不为人声。

上述三个指标在均满足对应的条件时，才能确定有人声。当然，在上述三个指标中有一个不满足对应的条件时，确定音频信息不为人声。

最后，执行S105，基于判断结果，对音频切换。

具体地，在判断结果为人声时，控制开启伴唱模式；在判断结果不为人声时，控制开启原唱模式。

也就是说，通过上述的判断，在确定该音频信息为人声时，控制当前播放伴唱，即仅有音乐，因此为伴唱模式。在确定该音频信息不为人声时，控制当前播放原唱，即原音播放，因此为原唱模式。

具体播放的过程中，在用户忘记歌词时，根据采集到的音频信息，确定当前无人声，则将原唱的声音逐渐开启，直到正常音量播放。在用户能够跟随节奏开启歌唱时，根据采集到的音频信息，确定当前有人声，则将原唱的声音逐渐关闭，直到全部转为伴唱音乐。采用逐渐降低原唱音量以及逐渐增大原唱音量的方式，能够将人声与原唱相衔接，提高听者的体验度。

本发明提供了点唱机音频切换方法，应用于娱乐场景的演唱过程中，包括：通过麦克风采集音频信息，确定音频信息的振幅；基于音频信息，确定音调信息；基于音频信息，确定音频信息的时间戳信息，时间戳信息为音频信息在演唱过程中所处的时段；基于音调信息、振幅以及时间戳信息，判断音频信息是否为人声，得到判断结果；基于判断结果，对音频切换，进而通过分析采集到的音频信息是否为人声，从而来切换原唱和伴唱，不仅提高了切换效率，而且，提高了歌唱体验效果。

实施例2

基于相同的发明构思，本发明实施例还提供了一种点唱机音频切换装置，如图2所示，包括：

第一确定模块201，用于通过麦克风采集音频信息，确定所述音频信息的振幅；

第二确定模块202，用于基于所述音频信息，确定音调信息；

第三确定模块203，用于基于所述音频信息，确定所述音频信息的时间戳信息，所述时间戳信息为所述音频信息在演唱过程中所处的时段；

第一判断模块204，用于基于所述音调信息、所述振幅以及时间戳信息，判断所述音频信息是否为人声，得到判断结果；

切换模块205，用于基于所述判断结果，对音频切换。

在一种可选的实施方式中，第二确定模块202，包括：

得到单元，用于将所述音频信息通过快速傅里叶变换，得到所述音频信息的实时频点信息；

第一确定单元，用于基于所述实时频点信息，确定音调信息。

在一种可选的实施方式中，得到单元，用于将所述音频信息采用时间抽取算法的快速傅里叶变换，得到所述音频信息的实时频点信息；或者

在一种可选的实施方式中，第三确定模块203，包括：

第二确定单元，用于采用音乐时间戳预测模块对目标歌曲标注时间戳信息，以确定所述目标歌曲的演唱时段的时间位置和音乐过门的时间位置，其中，音乐时间戳预测模块为基于N个训练歌曲以及各个训练歌曲所对应的训练时间戳信息所训练得到的，所述目标歌曲为当前播放的歌曲；

第三确定单元，用于基于所述音频信息，确定所述音频信息在所述目标歌曲中的时间信息；

第四确定单元，用于基于所述音乐时间戳预测模型和所述时间信息，确定所述音频信息的时间戳信息。

在一种可选的实施方式中，还包括：第二判断模块，用于基于所述音频信息的时间戳信息，判断所述音频信息在所述目标歌曲中的时间信息是否对应演唱时段，所述目标歌曲包括演唱时段和音乐过门。

在一种可选的实施方式中，所述第一判断模块204，用于在所述音调信息满足第一预设条件，所述振幅满足第二预设条件，且所述音频信息的时间戳信息为演唱时段时，确定所述音频信息为人声，否则，确定所述音频信息不为人声。

在一种可选的实施方式中，切换模块205，用于：

在所述判断结果为人声时，控制开启伴唱模式；

在所述判断结果不为人声时，控制开启原唱模式。

实施例3

基于相同的发明构思，本发明实施例提供了一种计算机设备，如图3所示，包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序，所述处理器302执行所述程序时实现上述点唱机音频切换方法的步骤。

其中，在图3中，总线架构（用总线300来代表），总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

实施例4

基于相同的发明构思，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述点唱机音频切换方法的步骤。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个实施例中所明确记载的特征更多的特征。更确切地说，如每个实施例所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在具体实施方式中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的点唱机音频切换装置、计算机设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种点唱机音频切换方法，应用于娱乐场景的演唱过程中，其特征在于，包括：

通过麦克风采集音频信息，确定所述音频信息的振幅；

基于所述音频信息，确定音调信息；

基于所述判断结果，对音频切换。

2.如权利要求1所述的方法，其特征在于，所述基于所述音频信息，确定音调信息，包括：

基于所述实时频点信息，确定音调信息。

3.如权利要求2所述的方法，其特征在于，所述将所述音频信息通过快速傅里叶变换，得到所述音频信息的实时频点信息，包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述音频信息，确定所述音频信息的时间戳信息，包括：

5.如权利要求4所述的方法，其特征在于，在所述基于所述音频信息，确定所述音频信息的时间戳信息之后，还包括：

6.如权利要求5所述的方法，其特征在于，所述基于所述音调信息、所述振幅以及时间戳信息，判断所述音频信息是否为人声，得到判断结果，包括：

7.如权利要求1所述的方法，其特征在于，基于所述判断结果，对音频切换，包括：

在所述判断结果为人声时，控制开启伴唱模式；

在所述判断结果不为人声时，控制开启原唱模式。

8.一种点唱机音频切换装置，应用于娱乐场景的演唱过程中，其特征在于，包括：

第二确定模块，用于基于所述音频信息，确定音调信息；

切换模块，用于基于所述判断结果，对音频切换。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~7中任一权利要求所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1~7中任一权利要求所述的方法步骤。