CN112489607A - 录制歌曲的方法、装置、电子设备及可读存储介质 - Google Patents

录制歌曲的方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112489607A
CN112489607A CN201910779946.5A CN201910779946A CN112489607A CN 112489607 A CN112489607 A CN 112489607A CN 201910779946 A CN201910779946 A CN 201910779946A CN 112489607 A CN112489607 A CN 112489607A
Authority
CN
China
Prior art keywords
information
user
voice
sound characteristic
song
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910779946.5A
Other languages
English (en)
Inventor
郝舫
张跃
白云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fengqu Internet Information Service Co ltd
Original Assignee
Beijing Fengqu Internet Information Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fengqu Internet Information Service Co ltd filed Critical Beijing Fengqu Internet Information Service Co ltd
Priority to CN201910779946.5A priority Critical patent/CN112489607A/zh
Publication of CN112489607A publication Critical patent/CN112489607A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/096Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith using a touch screen

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种录制歌曲的方法、装置、电子设备及可读存储介质。该方法包括:在获取到用户的歌曲录制请求时,获取用户的声音特征信息,以及目标歌曲的歌词内容;根据声音特征信息确定目标歌曲的配乐信息;基于声音特征信息,将配乐信息与歌词内容进行结合,得到目标歌曲。在本申请实施例中,由于目标歌曲的配乐信息是基于用户的声音特征信息确定的,进而基于配乐信息生成的目标歌曲可以更好的贴近用户的声音,可以好的适合用户,并且增加了录制歌曲的方式,可以更好的满足用户的实际需求,提升了用户的体验。

Description

录制歌曲的方法、装置、电子设备及可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,本发明涉及一种录制歌曲的方法、装置、电子设备及可读存储介质。
背景技术
随着科学技术的高速发展,各种与音乐有关的应用程序层出不穷,用户可通过音乐产品进行录制歌曲,并分享录制歌曲。目前,用户在进行录制歌曲时,大都是用户根据自己的喜好选择音乐伴奏,然后跟随音乐伴奏及字幕进行演唱录制,但是有时候用户根据自己的喜好所选择的音乐可能并不适合自己,最终导致录制的效果不是特别满意。可见,目前进行录制歌曲的方式相对单一,无法满足用户的实际需求。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是目前进行录制歌曲的方式相对单一,无法满足用户的实际需求的技术缺陷。
第一方面,本申请实施例提供了一种录制歌曲的方法,该方法包括:
在获取到用户的歌曲录制请求时,获取用户的声音特征信息,以及目标歌曲的歌词内容;
根据声音特征信息确定目标歌曲的配乐信息;
基于声音特征信息,将配乐信息与歌词内容进行结合,得到目标歌曲。
第一方面可选的实施例中,录制歌曲请求中包括用户的标识,获取用户的声音特征信息,包括:
获取用户输入的第一语音信息,基于神经网络模型对第一语音信息进行声音特征提取,获取用户的声音特征信息;
和/或,
基于用户的标识以及预配置的声音特征库,获取用户的声音特征信息。
第一方面可选的实施例中,获取用户的声音特征信息之后,还包括:
基于获取的声音特征信息对神经网络模型和/或用户的声音特征库进行更新。
第一方面可选的实施例中,配乐信息包括目标歌曲的曲调信息和伴奏信息,根据声音特征确定目标歌曲的配乐信息,包括:
根据声音特征信息,确定与声音特征信息相匹配的曲调信息;
根据预配置的曲调信息和伴奏信息的映射关系,确定与曲调信息对应的伴奏信息。
第一方面可选的实施例中,基于声音特征信息,将歌曲信息与歌词内容进行结合,得到目标歌曲,包括:
基于声音特征信息,将歌词内容转换为第二语音信息;
基于曲调信息对第二语音信息进行处理,得到处理后的第二语音信息;
将处理后的第二语音信息与伴奏信息进行结合,得到目标歌曲。
第一方面可选的实施例中,声音特征信息包括音色、音长、音高和音强中的至少一项。
第一方面可选的实施例中,通过下列的方式得到神经网络模型:
获取训练样本数据,训练样本数据中包括样本用户的语音信息,以及与样本用户的语音信息对应的样本声音特征信息;
基于训练样本数据对初始神经网络模型进行训练,直至满足预设的训练结束条件;其中,初始神经网络模型的输入为语音信息,输出为语音信息的声音特征信息。
第二方面,本申请实施例提供了一种录制歌曲的装置,包括:
信息获取模块,用于在获取到用户的歌曲录制请求时,获取用户的声音特征信息,以及目标歌曲的歌词内容;
配乐信息确定模块,用于根据声音特征信息确定目标歌曲的配乐信息;
歌曲生成模块,用于基于声音特征信息,将配乐信息与歌词内容进行结合,得到目标歌曲。
第二方面可选的实施例中,录制歌曲请求中包括用户的标识,信息获取模块在获取用户的声音特征信息时,具体用于:
获取用户输入的第一语音信息,基于神经网络模型对第一语音信息进行声音特征提取,获取用户的声音特征信息;
和/或,
基于用户的标识以及预配置的声音特征库,获取用户的声音特征信息。
第二方面可选的实施例中,该装置还包括更新模块,具体用于:
基于获取的声音特征信息对神经网络模型和/或用户的声音特征库进行更新。
第二方面可选的实施例中,配乐信息包括目标歌曲的曲调信息和伴奏信息,配乐信息确定模块在根据声音特征确定目标歌曲的配乐信息时,具体用于:
根据声音特征信息,确定与声音特征信息相匹配的曲调信息;
根据预配置的曲调信息和伴奏信息的映射关系,确定与曲调信息对应的伴奏信息。
第二方面可选的实施例中,歌曲生成模块在基于声音特征信息,将歌曲信息与歌词内容进行结合,得到目标歌曲时,具有用于:
基于声音特征信息,将歌词内容转换为第二语音信息;
基于曲调信息对第二语音信息进行处理,得到处理后的第二语音信息;
将处理后的第二语音信息与伴奏信息进行结合,得到目标歌曲。
第二方面可选的实施例中,声音特征信息包括音色、音长、音高和音强中的至少一项。
第二方面可选的实施例中,信息获取模块通过下列的方式得到神经网络模型:
获取训练样本数据,训练样本数据中包括样本用户的语音信息,以及与样本用户的语音信息对应的样本声音特征信息;
基于训练样本数据对初始神经网络模型进行训练,直至满足预设的训练结束条件;其中,初始神经网络模型的输入为语音信息,输出为语音信息的声音特征信息。
第三方面,本申请实施例提供一种电子设备,包括:
处理器;以及存储器,存储器被配置用于存储机器可读指令,指令在由处理器执行时,使得处理器执行第一方面任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,存储介质存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面任一的方法。
本申请实施例提供的技术方案带来的有益效果是:
在本申请实施例中,在接收到用户触发的录制歌曲请求后,可以基于用户的声音特征信息确定目标歌曲的配乐信息,并将配乐信息与歌词内容进行结合,得到最终的目标歌曲。在本申请实施例中,由于目标歌曲的配乐信息是基于用户的声音特征信息确定的,进而基于配乐信息生成的目标歌曲可以更好的贴近用户的声音,可以好的适合用户,并且增加了录制歌曲的方式,可以更好的满足用户的实际需求,提升了用户的体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种录制歌曲的方法的流程示意图;
图2为本申请实施例提供的一种录制歌曲的装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种录制歌曲的方法,如图1所示,该方法包括:
步骤101,在获取到用户的歌曲录制请求时,获取用户的声音特征信息,以及目标歌曲的歌词内容。
其中,歌曲录制请求表示用户想要启动录制歌曲功能,而用户用于触发歌曲录制请求的具体形式可以根据需要配置,本申请实施例不做限定。例如,在实际应用中,可通过在客户端应用程序的用户界面上设置相关触发标识来触发该请求,其中,触发标识的具体形式可以根据实际需要配置,比如,可以是客户端应用程序的用户界面上的指定触发按钮或输入框,还可以是用户的语音指令,具体的,例如可以是在客户端应用程序的用户界面上显示的“录歌”的虚拟按钮,用户点击该按钮的操作即为用户触发了歌曲录制请求。
其中,本申请实施例中的执行主体可以为终端设备,也可以为客户端应用程序对应的服务器。若本申请实施例中的执行主体为客户端应用程序对应的服务器,客户端应用程序对应的服务器获取到用户的歌曲录制请求后,可将歌曲录制请求发送至对应的服务器,以使服务器开启歌曲录制功能。
在实际应用中,声音是由喉部的肌肉收缩引起声带的震动,再经过口腔、鼻腔的共鸣后发出的,声音特征信息则指的是用于说明发声特点的信息,在本申请实施例中,声音特征信息可以包括音色、音长、音高和音强中的至少一项。
其中,音色是指不同的声音频率,表现在波形方面总与众不同的特性,音高指的是发音体在一定时间内所振动的频率特征,发音体振动的频率快,音则高,反之,音则低。音长是指发音体振动延续的时间特征,振动时间长,音则长,反之,音则短。音强指发音体振动的幅度特征,振动幅度大,音则强;反之,音则弱。
在实际应用中,获取歌词内容的方式可以根据实际需求预先配置,本申请实施例不做限定。比如,可以预先配置歌词内容库,并向用户显示预配置的歌词内容的标识(如可以为歌词内容的主题),基于该标识用户选择歌词内容。再比如,可以获取用户输入的歌词信息,而获取用户输入的歌词信息具体实现方式,本申请实施例不做限定。
作为一种可选的实施方式,在接收到用户的歌词录制请求后,可以获取用户输入的语音信息,并对语音信息进行识别,将识别得到的文本信息作为歌词内容。比如,对用户输入的语音信息进行语音识别,得到的内容为“好好学习”则识别得到的“好好学习”即为用户输入的歌词内容。作为另一种可选的实施方式,用户还可以采用文字输入的方式输入文本信息,并将用户输入的文本信息作为歌词内容。例如,用户输入的文本信息为“出去旅游”,此时文本信息“出去旅游”即为用户输入的歌词内容。
当然,在实际应用中,在接收到用户触发的歌词录制请求后,还可以向用户提供选择输入歌词内容方式的列表,用户基于显示的列表选择自己喜欢的方式输入目标歌曲的歌词内容。
其中,若本申请实施例中的执行主体为客户端应用程序对应的服务器,客户端应用程序获取到用户输入歌词内容的语音信息或用户输入歌词内容的文本信息后,可将用户输入歌词内容的语音信息或用户输入歌词内容的文本信息发送至对应的服务器,以使服务器或者知晓用户输入的歌词内容。
步骤102,根据声音特征信息确定目标歌曲的配乐信息。
在实际应用中,在获取到用户的声音特征信息后,可以确定与获取到的声音特征信息相匹配的配乐信息,以使后续生成的目标歌曲可以更好的贴近用户的声音特征,保证生成的目标歌曲更加的适合用户。
步骤103,基于声音特征信息,将配乐信息与歌词内容进行结合,得到目标歌曲。
在本申请实施例中,在接收到用户触发的录制歌曲请求后,可以基于用户的声音特征信息确定目标歌曲的配乐信息,并将配乐信息与歌词内容进行结合,得到最终的目标歌曲。在本申请实施例中,由于目标歌曲的配乐信息是基于用户的声音特征信息确定的,进而基于配乐信息生成的目标歌曲可以更好的贴近用户的声音,可以好的适合用户,并且增加了录制歌曲的方式,可以更好的满足用户的实际需求,提升了用户的体验。
在本申请实施例中,歌曲录制请求中包括用户的标识,获取用户的声音特征信息,包括:
获取用户输入的第一语音信息,基于神经网络模型对第一语音信息进行声音特征提取,获取用户的声音特征信息;
和/或,
基于用户的标识以及预配置的声音特征库,获取用户的声音特征信息。
在实际应用中,获取用户的声音特征信息的具体实现方式,可以存在多种实现方式,下面针对不同的方式进行详细的描述。
方式1:获取用户输入的第一语音信息,基于神经网络模型对第一语音信息进行声音特征提取,获取用户的声音特征信息。
在实际应用中,在需要获取用户的声音特征信息时,可以获取用户输入的第一语音信息,然后可以通过用于提取声音特征信息的神经网络模型对第一语音信息进行声音特征提取,进而获取到用户的声音特征信息。其中,用户输入的第一语音信息可以是用户采用语音方式输入歌词内容的语音信息,也可以是用户输入的其它语音信息。当第一语音信息为用户输入的其它语音信息时,可以向用户提供“获取声音特征”的提示信息,用户基于该提示信息可以知晓当前需要输入语音信息,在接收到用户的确定操作到接收到用户的结束操作的期间,所获取到的语音信息可以作为第一语音信息。
在本申请实施例中,通过下列的方式得到神经网络模型:
获取训练样本数据,训练样本数据中包括样本用户的语音信息,以及与样本用户的语音信息对应的样本声音特征信息;
基于训练样本数据对初始神经网络模型进行训练,直至满足预设的训练结束条件;其中,初始神经网络模型的输入为语音信息,输出为语音信息的声音特征信息。
其中,训练结束条件可以包括:每次训练所输出的声音特征信息与输入的语音信息对应的样本声音特征信息差异度小于预设阈值,而计算输出的声音特征信息与输入的语音信息对应的样本声音特征信息差异度可以通过用于表征声音特征信息差异度的损失函数确定。
在实际应用中,可以预先获取训练样本数据,该样本数据中可以包括至少一个样本用户的语音信息,以及与样本用户的语音信息对应的样本声音特征信息。比如,训练样本数据中可以包括样本用户A和样本用户B的语音信息,以及样本用户A的声音特征信息和样本用户B的声音特征信息。相应的,在对初始的神经网络模型时,可以将样本用户的语音信息输入至初始的神经网络模型,得到声音特征信息,并基于损失函数确定输出的声音特征信息与输入的语音信息对应的样本声音特征信息差异度,若差异度不小于预设阈值,则可以对初始的神经网络模型中的参数进行调整,并再次将语音信息输入至调整参数后的神经网络模型,得到声音特征信息,并再次基于损失函数确定输出的声音特征信息与输入的语音信息对应的样本声音特征信息差异度,若差异度仍不小于预设阈值,则再次调整神经网络模型中的参数,直至输出的声音特征信息与输入的语音信息对应的样本声音特征信息差异度不小于预设阈值。
在实际应用中,可以实时获取用户的语音信息,当获取到的用户的语音信息的时长达到预设时长时,基于获取到的用户的语音信息通过机器学习,获取到该用户的声音特征信息。其中,在实时获取用户的语音信息的期间,可以将当前语音信息的获取进度提供给用户,如可以是当前已获取到预设时长的80%、90%等。
方式2:基于用户的标识以及声音特征库,获取用户的声音特征信息。
其中,歌曲录制请求中还可以包括用户的标识,该标识用于标识具体需要获取哪一个用户的声音特征信息。在实际应用中,若预先在声音特征库配置了不同用户的声音特征信息,可以直接基于用户的标识从声音特征库中获取用户的声音特征信息。其中,声音特征库中不同用户的声音特征信息是对不同用户之前输入的语音信息通过用于提取声音特征信息的神经网络模型进行提取后存储的。
其中,若本申请实施例中的执行主体为终端设备,声音特征库可以存储在服务器,在获取用户的声音特征信息时,将录制歌曲请求发送至服务器,服务器基于用户的标识,从声音特征库获取到用户的声音特征信息后,将用户的声音特征信息返回至终端设备。
在实际应用中,在获取用户的声音特征信息时可以仅采用上述两种可选实施方式中的任意一种,也可以将两种可选实施方式进行结合。
比如,在获取用户的声音特征信息时,可以先确定声音特征库中是否包含了该用户的声音特征信息,若包含,此时可以直接基于该用户的标识从声音特征库中确定该用户的声音特征信息,若不包含,则获取该用户输入的第一语音信息,并对输入的第一语音信息进行声音特征提取,进而得到该用户的声音特征信息。
在本申请实施例中,获取用户的声音特征信息之后,还可以包括:
基于获取的声音特征信息对神经网络模型和/或用户的声音特征库进行更新。
在实际应用中,为了保证获取到的声音特征信息更加准确,在获取到用户的声音特征信息后,还可以对神经网络模型和/或用户的声音特征库进行更新。
在一示例中,若获取用户的声音特征信息是通过神经网络模型获取的,且确定声音特征库中并未存储有该用户的声音特征信息,此时可以将该声音特征信息保存至声音特征库中。若获取用户的声音特征信息是通过神经网络模型获取的,但与声音特征库中存储的该用户的声音特征信息存在差异,此时可以对神经网络模型进行更新。
在本申请实施例中,配乐信息包括目标歌曲的曲调信息和伴奏信息,根据声音特征确定目标歌曲的配乐信息,包括:
根据声音特征信息,确定与声音特征信息相匹配的曲调信息;
根据预配置的曲调信息和伴奏信息的映射关系,确定与曲调信息对应的伴奏信息。
其中,伴奏信息指的是用于衬托歌唱的器乐演奏的音频信息,即歌曲中的器乐演奏的音频信息。曲调信息指的是用于说明歌曲中歌词的调式、节奏、节拍、力度、音色等要素的信息。在实际应用中,可以预先配置曲调信息和伴奏信息,以及曲调信息和伴奏信息的映射关系,基于该映射关系,可以确定每一个曲调信息对应的伴奏信息。
在实际应用中,确定与声音特征信息相匹配的曲调信息的具体实现方式可以根据预先配置,本申请实施例不做限定。比如,在获取到声音特征信息后,可以确定用户的音色与预先配置的每一首曲调信息中的音色的相似度,取相似度最高的曲调信息作为与声音特征信息相匹配的曲调信息。在实际应用中,也可以确定声音特征信息中的每一项特征信息与预先配置的每一个曲调信息中对应的特征信息的相似度,然后对每一首曲调信息中所包括的特征信息的相似度进行加权处理,得到每一首曲调信息与用户声音特征信息的相似度,取相似度最高的曲调信息作为与声音特征信息相匹配的曲调信息。进一步的,基于预先配置的曲调信息和伴奏信息的映射关系,确定与声音特征信息相匹配的曲调信息所对应的伴奏信息。
在本申请实施例中,基于声音特征信息,将歌曲信息与歌词内容进行结合,得到目标歌曲,包括:
基于声音特征信息,将歌词内容转换为第二语音信息;
基于曲调信息对第二语音信息进行处理,得到处理后的第二语音信息;
将处理后的第二语音信息与伴奏信息进行结合,得到目标歌曲。
在实际应用中,在获取到用户的声音特征信息后,可以基于用户的声音特征信息将歌词内容转换为第二语音信息(即将模仿用户的声音将歌词内容转换语音的形式),然后基于确定的曲调信息中的调式、节奏、节拍、力度、音色等要素的信息,对第二语音信息中的调式、节奏、节拍、力度、音色等进行调整,得到调整后的语音信息,然后将调整后的语音信息与对应的伴奏信息结合,进而得到目标歌曲。
其中,若获取歌词内容的方式为用户通过语音输入的方式获取到的,此时可以不执行基于用户的声音特征信息将歌词内容转换为第二语音信息的步骤,可以直接基于确定的曲调信息中的调式、节奏、节拍、力度、音色等要素的信息,对用户输入歌词内容信息的语音信息中的调式、节奏、节拍、力度、音色等进行调整,得到调整后的语音信息,然后将调整后的语音信息与对应的伴奏信息结合,进而得到目标歌曲。
本申请实施例提供了一种录制歌曲的装置,如图2所示,该录制歌曲的装置60可以包括:信息获取模块601、配乐信息确定模块602以及歌曲生成模块603,其中,
信息获取模块,用于在获取到用户的歌曲录制请求时,获取用户的声音特征信息,以及目标歌曲的歌词内容;
配乐信息确定模块,用于根据声音特征信息确定目标歌曲的配乐信息;
歌曲生成模块,用于基于声音特征信息,将配乐信息与歌词内容进行结合,得到目标歌曲。
本申请可选的实施例中,录制歌曲请求中包括用户的标识,信息获取模块在获取用户的声音特征信息时,具体用于:
获取用户输入的第一语音信息,基于神经网络模型对第一语音信息进行声音特征提取,获取用户的声音特征信息;
和/或,
基于用户的标识以及预配置的声音特征库,获取用户的声音特征信息。
本申请可选的实施例中,该装置还包括更新模块,具体用于:
基于获取的声音特征信息对神经网络模型和/或用户的声音特征库进行更新。
本申请可选的实施例中,配乐信息包括目标歌曲的曲调信息和伴奏信息,配乐信息确定模块在根据声音特征确定目标歌曲的配乐信息时,具体用于:
根据声音特征信息,确定与声音特征信息相匹配的曲调信息;
根据预配置的曲调信息和伴奏信息的映射关系,确定与曲调信息对应的伴奏信息。
本申请可选的实施例中,歌曲生成模块在基于声音特征信息,将歌曲信息与歌词内容进行结合,得到目标歌曲时,具有用于:
基于声音特征信息,将歌词内容转换为第二语音信息;
基于曲调信息对第二语音信息进行处理,得到处理后的第二语音信息;
将处理后的第二语音信息与伴奏信息进行结合,得到目标歌曲。
本申请可选的实施例中,声音特征信息包括音色、音长、音高和音强中的至少一项。
本申请可选的实施例中,信息获取模块通过下列的方式得到神经网络模型:
获取训练样本数据,训练样本数据中包括样本用户的语音信息,以及与样本用户的语音信息对应的样本声音特征信息;
基于训练样本数据对初始神经网络模型进行训练,直至满足预设的训练结束条件;其中,初始神经网络模型的输入为语音信息,输出为语音信息的声音特征信息。
本申请实施例的录制歌曲的装置可执行本申请实提供的一种录制歌曲的方法,其实现原理相类似,此处不再赘述。
本申请实施例提供了一种电子设备,如图3所示,图3所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现图2所示的模块的功能。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码,以实现图2所示实施例提供的录制歌曲的装置的动作。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:处理器;以及存储器,存储器被配置用于存储机器可读指令,指令在由处理器执行时,使得处理器执行录制歌曲的方法。,
在本申请实施例中,由于目标歌曲的配乐信息是基于用户的声音特征信息确定的,进而基于配乐信息生成的目标歌曲可以更好的贴近用户的声音,可以好的适合用户,并且增加了录制歌曲的方式,可以更好的满足用户的实际需求,提升了用户的体验。
本申请实施例提供了一种计算机可读存储介质,存储介质存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行录制歌曲的方法。
在本申请实施例中,由于目标歌曲的配乐信息是基于用户的声音特征信息确定的,进而基于配乐信息生成的目标歌曲可以更好的贴近用户的声音,可以好的适合用户,并且增加了录制歌曲的方式,可以更好的满足用户的实际需求,提升了用户的体验。
本申请实施例中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种录制歌曲的方法,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种录制歌曲的方法,其特征在于,包括:
在获取到用户的歌曲录制请求时,获取所述用户的声音特征信息,以及目标歌曲的歌词内容;
根据所述声音特征信息确定目标歌曲的配乐信息;
基于所述声音特征信息,将所述配乐信息与所述歌词内容进行结合,得到所述目标歌曲。
2.根据权利要求1所述方法,其特征在于,所述录制歌曲请求中包括所述用户的标识,所述获取所述用户的声音特征信息,包括:
获取所述用户输入的第一语音信息,基于神经网络模型对所述第一语音信息进行声音特征提取,获取所述用户的声音特征信息;
和/或,
基于所述用户的标识以及预配置的声音特征库,获取所述用户的声音特征信息。
3.根据权利要求2所述方法,其特征在于,所述获取所述用户的声音特征信息之后,还包括:
基于所述获取的声音特征信息对所述神经网络模型和/或所述用户的声音特征库进行更新。
4.根据权利要求1所述方法,其特征在于,所述配乐信息包括所述目标歌曲的曲调信息和伴奏信息,所述根据所述声音特征确定所述目标歌曲的配乐信息,包括:
根据所述声音特征信息,确定与所述声音特征信息相匹配的曲调信息;
根据预配置的曲调信息和伴奏信息的映射关系,确定与所述曲调信息对应的伴奏信息。
5.根据权利要求4所述方法,其特征在于,所述基于所述声音特征信息,将所述歌曲信息与所述歌词内容进行结合,得到所述目标歌曲,包括:
基于所述声音特征信息,将所述歌词内容转换为第二语音信息;
基于所述曲调信息对所述第二语音信息进行处理,得到处理后的第二语音信息;
将所述处理后的第二语音信息与所述伴奏信息进行结合,得到所述目标歌曲。
6.根据权利要求1至5任一项所述方法,其特征在于,所述声音特征信息包括音色、音长、音高和音强中的至少一项。
7.根据权利要求2所述方法,其特征在于,通过下列的方式得到所述神经网络模型:
获取训练样本数据,所述训练样本数据中包括样本用户的语音信息,以及与样本用户的语音信息对应的样本声音特征信息;
基于所述训练样本数据对初始神经网络模型进行训练,直至满足预设的训练结束条件;其中,所述初始神经网络模型的输入为语音信息,输出为语音信息的声音特征信息。
8.一种录制歌曲的装置,其特征在于,包括:
信息获取模块,用于在获取到用户的歌曲录制请求时,获取所述用户的声音特征信息,以及目标歌曲的歌词内容;
配乐信息确定模块,用于根据所述声音特征信息确定所述目标歌曲的配乐信息;
歌曲生成模块,用于基于所述声音特征信息,将所述配乐信息与所述歌词内容进行结合,得到所述目标歌曲。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时,使得所述处理器执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7任一所述的方法。
CN201910779946.5A 2019-08-22 2019-08-22 录制歌曲的方法、装置、电子设备及可读存储介质 Pending CN112489607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910779946.5A CN112489607A (zh) 2019-08-22 2019-08-22 录制歌曲的方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910779946.5A CN112489607A (zh) 2019-08-22 2019-08-22 录制歌曲的方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112489607A true CN112489607A (zh) 2021-03-12

Family

ID=74919696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910779946.5A Pending CN112489607A (zh) 2019-08-22 2019-08-22 录制歌曲的方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112489607A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951184A (zh) * 2021-03-26 2021-06-11 平安科技(深圳)有限公司 歌曲生成方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101313477A (zh) * 2005-12-21 2008-11-26 Lg电子株式会社 音乐生成设备及其操作方法
CN102404278A (zh) * 2010-09-08 2012-04-04 盛乐信息技术(上海)有限公司 一种基于声纹识别的点歌系统及其应用方法
CN105070283A (zh) * 2015-08-27 2015-11-18 百度在线网络技术(北京)有限公司 为歌声语音配乐的方法和装置
CN106328176A (zh) * 2016-08-15 2017-01-11 广州酷狗计算机科技有限公司 一种生成歌曲音频的方法和装置
CN106373580A (zh) * 2016-09-05 2017-02-01 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置
CN106469557A (zh) * 2015-08-18 2017-03-01 阿里巴巴集团控股有限公司 伴奏音乐的提供方法和装置
CN108346418A (zh) * 2018-02-07 2018-07-31 黄华新 一种歌曲生成的方法、系统及终端
CN109272975A (zh) * 2018-08-14 2019-01-25 无锡冰河计算机科技发展有限公司 演唱伴奏自动调整方法、装置及ktv点唱机

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101313477A (zh) * 2005-12-21 2008-11-26 Lg电子株式会社 音乐生成设备及其操作方法
CN102404278A (zh) * 2010-09-08 2012-04-04 盛乐信息技术(上海)有限公司 一种基于声纹识别的点歌系统及其应用方法
CN106469557A (zh) * 2015-08-18 2017-03-01 阿里巴巴集团控股有限公司 伴奏音乐的提供方法和装置
CN105070283A (zh) * 2015-08-27 2015-11-18 百度在线网络技术(北京)有限公司 为歌声语音配乐的方法和装置
CN106328176A (zh) * 2016-08-15 2017-01-11 广州酷狗计算机科技有限公司 一种生成歌曲音频的方法和装置
CN106373580A (zh) * 2016-09-05 2017-02-01 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置
CN108346418A (zh) * 2018-02-07 2018-07-31 黄华新 一种歌曲生成的方法、系统及终端
CN109272975A (zh) * 2018-08-14 2019-01-25 无锡冰河计算机科技发展有限公司 演唱伴奏自动调整方法、装置及ktv点唱机

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951184A (zh) * 2021-03-26 2021-06-11 平安科技(深圳)有限公司 歌曲生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
TWI774967B (zh) 音頻合成方法、裝置、儲存媒體和計算機設備
CN107123415B (zh) 一种自动编曲方法及系统
CN110010159B (zh) 声音相似度确定方法及装置
CN106898339B (zh) 一种歌曲的合唱方法及终端
CN108766407B (zh) 音频连接方法及装置
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
CN101930732B (zh) 基于用户输入语音的乐曲生成方法及装置、智能终端
CN112489607A (zh) 录制歌曲的方法、装置、电子设备及可读存储介质
CN112420003B (zh) 伴奏的生成方法、装置、电子设备及计算机可读存储介质
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
CN112420002A (zh) 乐曲生成方法、装置、电子设备及计算机可读存储介质
CN112489608B (zh) 生成歌曲的方法、装置、电子设备及存储介质
JP2023013684A (ja) 歌唱声質変換プログラム及び歌唱声質変換装置
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
JP6075313B2 (ja) プログラム,情報処理装置,及び評価データ生成方法
JP5699496B2 (ja) 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム
JP6380305B2 (ja) データ生成装置、カラオケシステム、及びプログラム
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム
JP6406182B2 (ja) カラオケ装置、及びカラオケシステム
CN112420008A (zh) 录制歌曲的方法、装置、电子设备及存储介质
CN116189636B (zh) 基于电子乐器的伴奏生成方法、装置、设备及存储介质
JP5439994B2 (ja) データ集配システム,通信カラオケシステム
JP5262875B2 (ja) 追従性評価システム,カラオケシステムおよびプログラム
CN117995139A (zh) 音乐生成方法、装置、计算设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination