CN105788589B - 一种音频数据的处理方法及装置 - Google Patents

一种音频数据的处理方法及装置 Download PDF

Info

Publication number
CN105788589B
CN105788589B CN201610292614.0A CN201610292614A CN105788589B CN 105788589 B CN105788589 B CN 105788589B CN 201610292614 A CN201610292614 A CN 201610292614A CN 105788589 B CN105788589 B CN 105788589B
Authority
CN
China
Prior art keywords
word
audio
audio data
information
time length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610292614.0A
Other languages
English (en)
Other versions
CN105788589A (zh
Inventor
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610292614.0A priority Critical patent/CN105788589B/zh
Publication of CN105788589A publication Critical patent/CN105788589A/zh
Priority to PCT/CN2017/083119 priority patent/WO2017190674A1/zh
Priority to US16/102,485 priority patent/US10789290B2/en
Application granted granted Critical
Publication of CN105788589B publication Critical patent/CN105788589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0083Recording/reproducing or transmission of music for electrophonic musical instruments using wireless transmission, e.g. radio, light, infrared
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/365Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems the accompaniment information being stored on a host computer and transmitted to a reproducing terminal by means of a network, e.g. public telephone lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

本发明公开了一种音频数据的处理方法及装置,其中该方法包括:获取歌曲信息,根据歌曲信息确定歌曲的说唱部分及相应的乐谱信息,歌曲信息包括歌曲对应的歌词文件及乐谱文件;接收用户输入的与说唱部分相应的音频数据;确定音频数据中每个文字的时间信息;基于时间信息及乐谱信息,按照预设规则对文字的字时长进行处理,得到处理后的音频数据。本发明通过歌曲说唱部分的乐谱信息,及用户输入的音频数据中文字的时间信息,对文字的字时长进行音频处理,来对用户演唱音频和原始说唱音频进行匹配,相对于演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式,提高说唱演绎质量,并改善用户演唱音频和原始说唱音乐音频的匹配效果。

Description

一种音频数据的处理方法及装置
技术领域
本发明属于通信技术领域,尤其涉及一种音频数据的处理方法及装置。
背景技术
目前,Rap(说唱、饶舌)是目前流行的一种音乐形式,它是以在机械的节奏声背景下,快速地诉说一连串押韵的词句为特征。随着用户对个性元素的追求,用户在听别人演唱说唱音乐的同时,也希望自己能够演唱说唱音乐。
现有k歌产品中,可以模拟KTV、演唱会、剧场、露天广场等多种音效,让用户可以自由的演唱说唱音乐。
在对现有技术的研究和实践过程中,本发明的发明人发现,由于演唱说唱音乐往往需要演唱者具有一定的乐理知识以及歌唱技巧,因此对普通用户而言演唱说唱音乐有一定难度,从而导致用户演唱音频和原始说唱音乐音频的匹配效果差的问题。
发明内容
本发明的目的在于提供一种音频数据的处理方法及装置,旨在改善用户演唱音频和原始说唱音乐音频的匹配效果,提高说唱演绎质量。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种音频数据的处理方法,其中包括:
获取歌曲信息,根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息,所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件;
接收用户输入的与所述说唱部分相应的音频数据;
确定所述音频数据中每个文字的时间信息;
基于所述时间信息以及所述乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据。
为解决上述技术问题,本发明实施例还提供以下技术方案:
一种音频数据的处理装置,其中包括:
第一获取单元,用于获取歌曲信息,所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件;
第一确定单元,用于根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息;
接收单元,用于接收用户输入的与所述说唱部分相应的音频数据;
第二确定单元,用于确定所述音频数据中每个文字的时间信息;
处理单元,用于基于所述时间信息以及所述乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据。
相对于现有技术,本发明实施例,首先获取歌曲信息,并确定歌曲的说唱部分及相应的乐谱信息;然后,接收用户输入的与说唱部分相应的音频数据,并确定音频数据中每个文字的时间信息;最后基于时间信息以及乐谱信息,对相应的文字的字时长进行处理,从而得到处理后的音频数据。本发明实施例通过歌曲说唱部分的乐谱信息,以及用户输入的音频数据中文字的时间信息,对文字的字时长进行音频处理,即通过对文字的音频处理,来对用户演唱音频和原始说唱音乐音频进行匹配,相对于现有演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式,提高了说唱演绎质量,并大大改善用户演唱音频和原始说唱音乐音频的匹配效果。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1a是本发明实施例提供的音频数据的处理方法的场景示意图;
图1b是本发明第一实施例提供的音频数据的处理方法的流程示意图;
图1c为本发明第一实施例提供的音频数据的处理方法中歌词文件示意图;
图1d为本发明第一实施例提供的音频数据的处理方法中乐谱文件示意图;
图2为本发明第二实施例提供的音频数据的处理方法的流程示意图;
图3a为本发明第三实施例提供的音频数据的处理装置的结构示意图;
图3b为本发明第三实施例提供的音频数据的处理装置的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
本发明实施例提供一种音频数据的处理方法及装置。
参见图1a,该图为本发明实施例所提供的音频数据的处理方法的场景示意图,该场景可以包括音频数据的处理装置,简称音频处理装置,主要用于获取歌曲信息,根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息,其中,所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件;然后,接收用户输入的音频数据,比如,用户根据歌曲的说唱部分所输入的音频数据;随后,确定该音频数据中每个文字的时间信息,基于确定的时间信息以及说唱部分的乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据,等等。
此外,该场景还可以包括歌曲数据库,该歌曲数据库中存储有大量的歌曲信息,其中包含歌曲相应的伴奏文件、歌词文件以及乐谱文件;音频处理装置根据歌曲数据库中的歌词文件以及乐谱文件,可以确定出歌曲的说唱部分,其中该说唱部分携带相应的乐谱信息。当然,该场景中还可以包括用户终端,如手机、平板电脑等,该用户终端包括输入装置(如键盘、鼠标等)以及输出装置(如屏幕、功放等),用户通过输入装置触发音频处理装置对音频数据进行处理,音频处理装置对音频数据进行处理后,通过输出装置向用户播放处理后的音频数据,等等。
以下将分别进行详细说明。
第一实施例
在本实施例中,将从音频处理装置的角度进行描述,该音频处理装置具体可以集成在服务器或网关等网络设备中。
一种音频数据的处理方法,包括:获取歌曲信息,根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息,所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件;接收用户输入的与说唱部分相应的音频数据;确定音频数据中每个文字的时间信息;基于时间信息以及乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据。
请参阅图1b,图1b是本发明第一实施例提供的音频数据的处理方法的流程示意图。所述方法包括:
在步骤S101中,获取歌曲信息,根据歌曲信息确定歌曲的说唱部分及该说唱部分相应的乐谱信息。
其中歌曲可以为歌曲库中的任一歌曲,具体的,该歌曲可以为歌曲库中的任一包含说唱部分的歌曲。歌曲库中的每首歌曲的歌曲信息包括伴奏文件、歌词文件和乐谱文件,还可以包括原唱文件等。
其中伴奏文件是指伴随衬托歌唱该歌曲的演奏文件。
歌词文件是指记录了该歌曲对应的歌词以及歌词的时间信息的文件。本发明实施例中,该歌词文件包括该歌曲对应的歌词,以及歌词中每个字的起始时间和持续时长。请参阅图1c,示出了本发明实施例提供的歌词文件的示例。
乐谱文件可具体指乐器数字接口文件(midi,Musical Instrument DigitalInterface),简称midi文件。该乐谱文件包括该歌曲包含的音符序列、音符序列中每个音符的起始时间和持续时长、以及每个音符的音高。请参阅图1d,示出了本发明实施例提供的歌词文件的示例。
进一步的,该实施例中,根据歌曲信息确定歌曲的说唱部分可以具体包括:
1、获取歌曲信息中歌词文件包含的每个字对应的起始时间和持续时长;
2、获取所述歌曲信息中乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高;
3、根据歌词文件中包含的每个字对应的起始时间和持续时长,以及乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高,确定歌曲的说唱部分。
可具体的,由于歌词文件中包含每个字对应的起始时间和持续时长,乐谱文件中包含每个音符对应的起始时间和持续时长、以及每个音符的音高,每个字可以对应一个或多个音符,因此当一个字对应一个音符时,可以从乐谱文件获取到每个字对应的起始时间、时长以及音高信息,当一个字对应多个音符时,可以根据这多个音符的起始时间、持续时长和音高,对应的得到这个字的起始时间和持续时长、以及音高。而歌曲说唱部分并非演唱内容,而是说话,因此没有音高信息,由此,将歌词文件与乐谱文件进行对齐比对后,可以得到每个字对应的音高,如果其中一部分字是没有音高的就可以确定为该歌曲的说唱部分。
在步骤S102中,接收用户输入的与所述说唱部分相应的音频数据。
比如,当用户选择歌曲后,将提示用户演唱该歌曲的说唱部分,用户可以按照该歌曲对应的歌词文件来进行朗读;在某些实施方式中,用户也可以自主发挥改变歌词,其中本实施例中说唱部分的歌词字数需要跟原始歌词文件的字数一致。
可以理解的是,本实施例中用户输入的音频数据可以是指由用户说唱而产生的语音数据;该音频数据带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体,为电信号,可以被音频设备如音响等设备接收,然后播放。
在步骤S103中,确定音频数据中每个文字的时间信息。
本发明实施例中,每个文字的时间信息可以具体指每个文字对应的拼音的时间信息,如包括对应的声母和韵母的起始时间信息和持续时间信息,等等。
可以理解的是,本发明实施例中,确定音频数据中每个文字的时间信息可以具体包括如下步骤:
A、将音频数据转换为文本数据。
B、确定说唱部分的歌词字数以及文本数据的字数。
C、在确定歌词字数与文本数据的字数相同时,对文本数据中所指示文字的拼音进行切分,并确定该文字对应的时间信息。
其中,时间信息包括起始时间信息和持续时间信息。
比如,在接收到用户输入的音频数据后,先利用语音评测技术将用户输入的音频数据转换为音素序列,从而切分出每个字对应的声母及韵母的时间信息。
可具体的,将所述音频数据转换成音素序列,并根据预设的声学模型对所述音素序列进行替换,生成模型序列;确定所述音频数据中每一帧的特征,计算每一帧的特征在所述模型序列中的置信度,得到置信度计算结果;根据所述置信度计算结果,确定文字对应的声母及韵母的时间信息。
也就是说,首先需要建立声学模型,可以先收集大量语料,将语料人工切分成声母和韵母后,为所有声母和韵母训练模型,其中此模型可以根据不同的场景采用GMM-HMM或DNN-HMM等多种形式,也可以选择mfcc(Mel频率倒谱系数)、lpcc(线性预测倒谱系数)等不同的特征。由于每个声母和/或韵母的具体发音情况受到上下文的影响,所以在训练模型的时候把不同上下文的音素分开训练,如同样是音素a,在不同上下文环境下,如n-a+m(表示在此语料中韵母a前面的是声母n,后面的声母是m)、k-a+m这两个同一音素在实际情况下是训练成两个模型的,这样的话,如果声母和/或韵母总数是n个的话,实际训练的模型数是n^3。
其次,将用户要说的内容(即音频数据)转换为音素序列,比如“我们”就可以转成sil-w+o w-o+m m-en+sil(其中sil表示静音)的音素序列,之后可以将整个音素序列用前述声学模型代替,从而得到一个模型序列。
当用户朗读完毕后,将用户的音频数据分帧后求得每一帧的特征,将每一帧的数据在模型序列中计算置信度,比如,一个模型可以对应多帧,每一帧数据与一个模型都可以算出一个0~1的匹配度,由于经过的模型一定是按顺序的,所以最终可以得到一种将所有帧匹配度最大化的路径,将之称为最优路径,如有5帧数据,有两个模型,则一共可能有5种不同的路径,分别是(5,0)(表示5帧对应模型1,0帧对应模型2,此种情况的总置信度就是5帧数据每一帧与模型1的匹配度的乘积)、(4,1)…),最后根据最优路径我们就能知道用户是在什么时间读了哪个声母或韵母,也能知道用户发音的置信度。
可以理解的是,本实施例中仅以前述语音评测技术为例对文字拼音的切分进行说明,并不构成对本发明的限定。
优选的,在将音频数据转换为文本数据后,判断用户输入的文字个数(即文本数据的个数)是否与歌词(说唱部分的歌词)文字个数一致,如果不一致,则提示用户进行重新输入;如果一致,则利用前述语音评测方案,将音频数据中的每个文字的时间信息进行切分,从而得到对应的声母或韵母的起始时间信息和持续时间信息。
在步骤S104中,基于时间信息以及乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据。
可以理解的是,在确定出音频数据中每个文字的时间信息后,可以按照该时间信息以及说唱部分的乐谱信息,对相应的文字的字时长进行处理,如,对用户输入的音频数据进行拉伸或压缩,从而得到处理后的音频数据。
比如,在一种可能的实施方式中,基于时间信息以及乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据可以具体包括:
a、基于时间信息,从音频数据中提取每个文字对应的音频数据,得到音频段。
b、根据音频段,确定对应的字时长。
c、基于字时长以及乐谱信息中对应的音频时长,按照预设规则对相应的文字的字时长进行音频处理,得到音频处理后的文字。
d、将音频处理后的文字进行拼接,得到处理后的音频数据。
其中按照预设规则对相应的文字的字时长进行音频处理可包括:若所述乐谱信息中对应的音频时长大于字时长,则拉伸所述字时长;若所述乐谱信息中对应的音频时长等于字时长,则保持所述字时长不变;若所述乐谱信息中对应的音频时长小于字时长,则压缩所述字时长。
即将说唱部分的乐谱信息与音频数据进行按照时间进行对齐,以使得可以按照字时长以及乐谱信息中对应的音频时长,对字时长进行拉伸或压缩等;最后,将音频处理后的文字进行拼接,从而可以得到处理后的音频数据。
可以理解的是,对文字进行音频处理的方式有很多,比如:
c1、若所述乐谱信息中对应的音频时长大于字时长,则控制声母时长保持不变,拉伸韵母时长。
c2、若所述乐谱信息中对应的音频时长等于字时长,则控制声母时长与韵母时长保持不变。
c3、若所述乐谱信息中对应的音频时长小于字时长,则对声母时长与韵母时长同时进行压缩。
即根据前述对文本数据中所指示文字的拼音进行切分的结果,可以确定每一个字对应的声母时长与韵母时长。
优选的,在将音频处理后的文字进行拼接,得到处理后的音频数据(步骤d)之后,如在歌词中字与字之间有时间差,还可以进行补零处理。
其中,本实施例中补零处理包括两部分,一部分是真实歌词字与字之间会有间隔,比如演唱者中间换气或换句时,需要进行补零,以使得合成的音频与原始的伴奏对齐;另一部分是由于拉伸与压缩后的时长可能不够精确,因此需要用补零的方式对齐,为了使合成音频与伴奏对齐。
进一步的,得到处理后的音频数据之后,还可以包括:
e、获取歌曲的伴奏文件;
f、将处理后的音频数据与该伴奏文件进行混音,得到混音后的音频数据。
比如,从预设歌曲库中,获取歌曲对应的伴奏文件,并将经过字时长拉伸或压缩处理、拼接等处理后的音频数据与该伴奏文件进行混音,从而得到最终的音频(即混音后的音频数据)。
在得到混音后的音频数据之后,还可以将混音后的音频数据展示给用户,如供用户试听;若用户满意,则可以将该混音后的音频数据合并到此歌曲的用户整体演绎中。
由上述可知,本实施例提供的音频数据的处理方法,首先获取歌曲信息,并确定歌曲的说唱部分及相应的乐谱信息;然后,接收用户输入的与说唱部分相应的音频数据,并确定音频数据中每个文字的时间信息;最后基于时间信息以及乐谱信息,对相应的文字的字时长进行处理,从而得到处理后的音频数据。本发明实施例通过歌曲说唱部分的乐谱信息,以及用户输入的音频数据中文字的时间信息,对文字的字时长进行音频处理,即通过对字时长的音频处理,来对用户演唱音频和原始说唱音乐音频进行匹配,相对于现有演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式,提高了说唱演绎质量,并大大改善用户演唱音频和原始说唱音乐音频的匹配效果。
第二实施例
根据第一实施例所描述的方法,以下将举例作进一步详细说明。
首先,音频处理装置通过将用户输入的音频数据转换为文本数据,从而获取到音频数据中文字的时间信息,其后结合歌曲说唱部分的乐谱信息,对字时长进行拉伸或压缩处理,即通过对文字进行时长变换,来对用户演唱音频和原始说唱音乐音频进行匹配。以下将进行详细说明。
请参阅图2,图2为本发明第二实施例提供的音频数据的处理方法的流程示意图。所述方法包括:
在步骤S201中,音频处理装置确定歌曲信息,并获取歌曲相应的歌词文件以及乐谱文件。
在步骤S202中,音频处理装置根据歌词文件以及乐谱文件,确定歌曲的说唱部分及该说唱部分相应的乐谱信息。
在步骤S203中,音频处理装置接收用户根据该歌曲所输入的音频数据。
其中,所述步骤S201至步骤S203可具体为:
可以理解的是,在预设歌曲库中,存储有大量歌曲,具体的,该歌曲可以为任一包含说唱部分的歌曲。其中每一首歌曲的歌曲信息包括伴奏文件、歌词文件以及乐谱文件,还可以包括原唱文件等,用户可以根据这些文件选择想要演唱的歌曲。
比如,在XX k歌应用对应的XX歌曲库中,确定出歌曲A,并获取相应的歌词文件以及乐谱文件,其中歌词文件格式可具体参考图1c,其包含该歌曲对应的歌词,以及歌词中每个字的起始时间和持续时长;乐谱文件格式可具体参考图1d,其包含该歌曲包含的音符序列、音符序列中每个音符的起始时间和持续时长、以及每个音符的音高。
比如,如图1c和图1d,为歌曲A的歌词文件与乐谱文件,其中“MC”(说唱歌手,Microphone Controller)演唱的部分为说唱部分rap,“岳”演唱的部分为普通演唱。首先,需要在XX歌曲库中进行rap句子的标记,由于rap句子的特点并非演唱,而是说话,所以没有音高信息,因此通过将歌词文件与乐谱文件这两个文件进行时间对齐后,则将没有音高信息部分的歌词标记为rap,当用户选择此歌曲A后,将提示用户歌曲A的rap部分,用户可以按照歌曲A的歌词来朗读。
容易想到的是,在某些实施方式中,用户也可以自主发挥改变歌词,但rap部分的歌词字数需要跟原始歌词文件的字数一致。
在步骤S204中,音频处理装置利用语音评测技术将音频数据转换为音素序列,并切分出每个字对应的声母及韵母的时间信息。
可以理解的是,用户输入音频后,由于需要对节奏进行改变,所以需要明确的知道演唱者演唱每个字的准确时间信息,具体步骤可以包括如下:
(1)利用业界现有的语音识别服务将音频数据转换为文本数据。
(2)确定说唱部分的歌词字数以及文本数据的字数。
(3)在确定歌词字数与文本数据的字数相同时,对文本数据中所指示文字的拼音进行切分,并确定该文字对应的时间信息。
比如,将音频数据转换为文本数据后,需要判断用户输入的文字个数(即文本数据的个数)是否与歌词(说唱部分的歌词)文字个数一致,如果不一致,则提示用户进行重新输入;如果一致,则利用现有的语音评测方案,将音频数据中的每个文字的时间信息进行切分,从而得到对应的声母或韵母的起始时间信息和持续时间信息。
在步骤S205中,音频处理装置按照说唱部分的乐谱信息以及文字的时间信息,对相应的声母及韵母进行处理。
比如,本实施例中,音频处理装置按照说唱部分的乐谱信息以及文字的时间信息,对相应的声母及韵母进行处理可具体包括如下步骤:
(一)根据文字对应的起始时间信息以及持续时间信息,从用户音频(即音频数据)中提取每个文字对应的音频。
(二)根据文字对应的音频,确定对应的字时长。
(三)基于字时长以及乐谱信息中对应的音频时长,按照预设规则对相应的文字的字时长进行音频处理,得到音频处理后的文字。
将说唱部分的乐谱信息与音频数据进行按照时间进行对齐,以使得可以按照字时长以及乐谱信息中对应的音频时长,对声母和/或韵母进行拉伸或压缩等音频处理,其中对文字的字时长进行音频处理的方式可具体如下:
首先,对于歌词中的每一个字,根据相应的字时长,确定对应的声母时长与韵母时长,如一个字的录音时长为n,其声母录音时长为n1,韵母录音时长为n2,对应的歌词时长(即乐谱信息中对应的音频时长)为m:若m>n,则需要将用户录音进行拉伸,此时声母时长保持不变,只拉伸韵母时长;若m=n,则控制声母时长与韵母时长保持不变;若m<n,则需要将用户录音进行压缩,此时可以对声母时长与韵母时长同时压缩。
优选的,由于声母部分大多为清音,无法提取基频(基音的频率即为基频,决定整个音的音高),因此拉伸和压缩声母时长或韵母时长的方式可如下:
1)以30ms为帧长,5ms为帧移,提取原始音频的基音序列;其中基音序列是指由发音体发出的一系列频率、振幅各不相同的振动复合而成的声音。
2)对原始音频进行拉伸和压缩,其中拉伸采用内插法,压缩采用抽取法,随着压缩和拉伸的进行,原始基音序列的基频会被改变,处理原始音频的同时,对步骤1)提取的基音序列进行同步拉伸和压缩。
3)利用LPC(Linear Predictive Coding,线性预测编码)合成滤波方法对拉伸和压缩后的音频进行基音恢复。
需要说明的是,本发明实施例中,采用内插法对原始音频进行拉伸、采用抽取法对原始音频进行压缩、采用LPC合成滤波方法对音频进行基音恢复等均可以采用现有方法实现,此处不再赘述。
(四)将音频处理后的文字进行拼接。
根据前述(一)至(三)处理完全部的字后,将拉伸或压缩后的音频拼接起来,得到处理后的音频数据,如在歌词中字与字之间有时间差,还可以进行补零处理。
其中,本实施例中补零处理包括两部分,一部分是真实歌词字与字之间会有间隔,比如演唱者中间换气或换句时,需要进行补零,以使得合成的音频与原始的伴奏对齐;另一部分是由于拉伸与压缩后的时长可能不够精确,因此需要用补零的方式对齐,为了使合成音频与伴奏对齐。
在步骤S206中,音频处理装置将拼接后的音频数据与伴奏文件进行混音,得到混音后的音频数据。
比如,假设伴奏音频与用户音频(即拼接后的音频数据)全部为44k16bit格式,首先计算伴奏音频平均能量,将伴奏音频每个采样点的值取绝对值后得到n个(0~32768)的值,从而求出这n个值的平均值x,然后再利用同样的方法求得用户音频的平均值y;最后,对每个采样点进行处理,如第i个采样点,伴奏的值为xi,用户音频的值为yi,则最终混音合并后的能量为xi*(0.4*y/x)+yi*(1-0.4*y/x)。
进一步的,在得到混音后的音频数据之后,还可以将混音后的音频数据展示给用户,如供用户试听;若用户满意,则可以将该混音后的音频数据合并到此歌曲的用户整体演绎中。因此,通过本发明方法实现将用户以任意节奏朗读的普通朗读语音转换为与标准节奏一致的rap演绎,使用户随意朗读都能得到很好的rap演绎效果。
由上述可知,本实施例提供的音频数据的处理方法,首先获取歌曲信息,并确定歌曲的说唱部分及相应的乐谱信息;然后,接收用户输入的与说唱部分相应的音频数据,并确定音频数据中每个文字的时间信息;最后基于时间信息以及乐谱信息,对相应的文字的字时长进行处理,从而得到处理后的音频数据。本发明实施例通过歌曲说唱部分的乐谱信息,以及用户输入的音频数据中文字的时间信息,对文字的字时长进行音频处理,即通过对文字的音频处理,来对用户演唱音频和原始说唱音乐音频进行匹配,相对于现有演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式,提高了说唱演绎质量,并大大改善用户演唱音频和原始说唱音乐音频的匹配效果。
第三实施例
为便于更好的实施本发明实施例提供的音频数据的处理方法,本发明实施例还提供一种基于上述音频数据的处理方法的装置。其中名词的含义与上述音频数据的处理的方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3a,图3a为本发明实施例提供的音频数据的处理装置的结构示意图,可以包括第一获取单元301、第一确定单元302、接收单元303、第二确定单元304以及处理单元305。
其中,所述第一获取单元301,用于获取歌曲信息,所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件;第一确定单元302,用于根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息。
其中歌曲可以为歌曲库中的任一歌曲,具体的,该歌曲可以为歌曲库中的任一包含说唱部分的歌曲。歌曲库中的每首歌曲的歌曲信息包括伴奏文件、歌词文件和乐谱文件,还可以包括原唱文件等。
其中伴奏文件是指伴随衬托歌唱该歌曲的演奏文件。歌词文件是指记录了该歌曲对应的歌词以及歌词的时间信息的文件。本发明实施例中,该歌词文件包括该歌曲对应的歌词,以及歌词中每个字的起始时间和持续时长。乐谱文件可具体指乐器数字接口文件,简称midi文件。该乐谱文件包括该歌曲包含的音符序列、音符序列中每个音符的起始时间和持续时长、以及每个音符的音高。
接收单元303,用于接收用户输入的与所述说唱部分相应的音频数据;第二确定单元304,用于确定所述音频数据中每个文字的时间信息;处理单元305,用于基于所述时间信息以及所述乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据。
可一并参考图3b,为本发明实施例提供的音频数据的处理装置的另一结构示意图,本发明实施例中,所述第一确定单元302可以包括:
获取子单元3021,用于获取所述歌曲信息中歌词文件包含的每个字对应的起始时间和持续时长,以及获取所述歌曲信息中乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高;第一确定子单元3022,用于根据所述歌词文件包含的每个字对应的起始时间和持续时长,和所述乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高,确定歌曲的说唱部分。
可具体的,由于歌词文件中包含每个字对应的起始时间和持续时长,乐谱文件中包含每个音符对应的起始时间和持续时长、以及每个音符的音高,每个字可以对应一个或多个音符,因此当一个字对应一个音符时,可以从乐谱文件获取到每个字对应的起始时间、时长以及音高信息,当一个字对应多个音符时,可以根据这多个音符的起始时间、持续时长和音高,对应的得到这个字的起始时间和持续时长、以及音高。而歌曲说唱部分并非演唱内容,而是说话,因此没有音高信息,由此,将歌词文件与乐谱文件进行对齐比对后,可以得到每个字对应的音高,如果其中一部分字是没有音高的就可以确定为该歌曲的说唱部分。
接着所述接收单元303接收用户输入的与所述说唱部分相应的音频数据。
比如,当用户选择歌曲后,将提示用户演唱该歌曲的说唱部分,用户可以按照该歌曲对应的歌词文件来进行朗读;在某些实施方式中,用户也可以自主发挥改变歌词,其中本实施例中说唱部分的歌词字数需要跟原始歌词文件的字数一致。
可以理解的是,本实施例中用户输入的音频数据可以是指由用户说唱而产生的语音数据;该音频数据带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体,为电信号,可以被音频设备如音响等设备接收,然后播放。
可以理解的是,本发明实施例中,所述第二确定单元304可以包括:
转换子单元3041,用于将所述音频数据转换为文本数据;
第二确定子单元3042,用于确定所述说唱部分的歌词字数以及所述文本数据的字数;
切分子单元3043,用于在确定所述歌词字数与所述文本数据的字数相同时,对所述文本数据中所指示文字的拼音进行切分,并确定所述文字对应的时间信息,所述时间信息包括起始时间信息和持续时间信息。
比如,在接收到用户输入的音频数据后,先利用语音评测技术将用户输入的音频数据转换为音素序列,从而切分出每个字对应的声母及韵母的时间信息。
其中,切分子单元3043在确定所述文字对应的时间信息时,可具体用于将所述音频数据转换成音素列表,并根据预设的声学模型对所述音素列表进行替换,生成模型序列;确定所述音频数据中每一帧的特征,计算每一帧的特征在所述模型序列中的置信度,得到置信度计算结果;根据所述置信度计算结果,确定文字对应的声母及韵母的时间信息。
优选的,在将音频数据转换为文本数据后,判断用户输入的文字个数(即文本数据的个数)是否与歌词(说唱部分的歌词)文字个数一致,如果不一致,则提示用户进行重新输入;如果一致,则利用语音评测方案,将音频数据中的每个文字的时间信息进行切分,从而得到对应的声母或韵母的起始时间信息和持续时间信息。
可以理解的是,在确定出音频数据中每个文字的时间信息后,可以按照该时间信息以及说唱部分的乐谱信息,对相应的文字的字时长进行处理,如,对用户输入的音频数据进行拉伸或压缩,从而得到处理后的音频数据。
比如,在一种可能的实施方式中,所述处理单元305可以包括:
提取子单元3051,用于基于所述时间信息,从所述音频数据中提取每个文字对应的音频数据,得到音频段。
第三确定子单元3052,用于根据所述音频段,确定对应的字时长。
音频处理子单元3053,用于基于所述字时长以及所述乐谱信息中对应的音频时长,按照预设规则对相应的文字的字时长进行音频处理,得到音频处理后的文字。
拼接子单元3054,用于将所述音频处理后的文字进行拼接,得到处理后的音频数据。
其中所述音频处理子单元3053,可用于若所述乐谱信息中对应的音频时长大于字时长,则拉伸所述字时长;若所述乐谱信息中对应的音频时长等于字时长,则保持所述字时长不变;若所述乐谱信息中对应的音频时长小于字时长,则压缩所述字时长。
即将说唱部分的乐谱信息与音频数据进行按照时间进行对齐,以使得可以按照字时长以及乐谱信息中对应的音频时长,对字时长进行拉伸或压缩等;最后,将音频处理后的文字进行拼接,从而可以得到处理后的音频数据。
可以理解的是,对文字进行音频处理的方式有很多,比如,所述音频处理子单元3053可以具体用于:
若所述乐谱信息中对应的音频时长大于字时长,则控制声母时长保持不变,拉伸韵母时长;若所述乐谱信息中对应的音频时长等于字时长,则控制声母时长与韵母时长保持不变;若所述乐谱信息中对应的音频时长小于字时长,则对声母时长与韵母时长同时进行压缩。
即根据前述对文本数据中所指示文字的拼音进行切分的结果,可以确定每一个字对应的声母时长与韵母时长。
优选的,在将音频处理后的文字进行拼接,得到处理后的音频数据之后,如在歌词中字与字之间有时间差,还可以进行补零处理。
其中,本实施例中补零处理包括两部分,一部分是真实歌词字与字之间会有间隔,比如演唱者中间换气或换句时,需要进行补零,以使得合成的音频与原始的伴奏对齐;另一部分是由于拉伸与压缩后的时长可能不够精确,因此需要用补零的方式对齐,为了使合成音频与伴奏对齐。
进一步的,所述音频数据的处理装置还可以包括:
第二获取单元306,用于获取所述歌曲的伴奏文件;
混音单元307,用于将所述处理后的音频数据与所述伴奏文件进行混音,得到混音后的音频数据。
比如,从预设歌曲库中,获取歌曲对应的伴奏文件,并将经过字时长拉伸或压缩处理、拼接等处理后的音频数据与该伴奏文件进行混音,从而得到最终的音频(即混音后的音频数据)。
在得到混音后的音频数据之后,还可以将混音后的音频数据展示给用户,如供用户试听;若用户满意,则可以将该混音后的音频数据合并到此歌曲的用户整体演绎中。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
该音频数据的处理装置具体可以集成在服务器或网关等网络设备中。
由上述可知,本实施例提供的音频数据的处理装置,首先获取歌曲信息,并确定歌曲的说唱部分及相应的乐谱信息;然后,接收用户输入的与说唱部分相应的音频数据,并确定音频数据中每个文字的时间信息;最后基于时间信息以及乐谱信息,对相应的文字的字时长进行处理,从而得到处理后的音频数据。本发明实施例通过歌曲说唱部分的乐谱信息,以及用户输入的音频数据中文字的时间信息,对文字的字时长进行音频处理,即通过对文字的音频处理,来对用户演唱音频和原始说唱音乐音频进行匹配,相对于现有演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式,提高了说唱演绎质量,并大大改善用户演唱音频和原始说唱音乐音频的匹配效果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对音频数据的处理方法的详细描述,此处不再赘述。
本发明实施例提供的所述音频数据的处理装置,譬如为计算机、平板电脑、具有触摸功能的手机等等,所述音频数据的处理装置与上文实施例中的音频数据的处理方法属于同一构思,在所述音频数据的处理装置上可以运行所述音频数据的处理方法实施例中提供的任一方法,其具体实现过程详见所述音频数据的处理方法实施例,此处不再赘述。
需要说明的是,对本发明所述音频数据的处理方法而言,本领域普通测试人员可以理解实现本发明实施例所述音频数据的处理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在终端的存储器中,并被该终端内的至少一个处理器执行,在执行过程中可包括如所述音频数据的处理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本发明实施例的所述音频数据的处理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的一种音频数据的处理方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种音频数据的处理方法,其特征在于,包括:
获取歌曲信息,根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息,所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件;
接收用户输入的与所述说唱部分相应的音频数据;
将所述音频数据转换为文本数据,确定所述说唱部分的歌词字数以及所述文本数据的字数,在确定所述歌词字数与所述文本数据的字数相同时,对所述文本数据中所指示文字的拼音进行切分,将所述音频数据转换成音素序列,并根据预设的声学模型对所述音素序列进行替换,生成模型序列;
确定所述音频数据中每一帧的特征,计算每一帧的特征在所述模型序列中的置信度,得到置信度计算结果,并根据所述置信度计算结果,确定文字对应的声母及韵母的时间信息,所述时间信息包括起始时间信息和持续时间信息;
基于所述时间信息以及所述乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据。
2.根据权利要求1所述的音频数据的处理方法,其特征在于,所述根据所述歌曲信息确定歌曲的说唱部分包括:
获取所述歌曲信息中歌词文件包含的每个字对应的起始时间和持续时长;
获取所述歌曲信息中乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高;
根据所述歌词文件包含的每个字对应的起始时间和持续时长,和所述乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高,确定歌曲的说唱部分。
3.根据权利要求1或2所述的音频数据的处理方法,其特征在于,所述基于所述时间信息以及所述乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据包括:
基于所述时间信息,从所述音频数据中提取每个文字对应的音频数据,得到音频段;
根据所述音频段,确定对应的字时长;
基于所述字时长以及所述乐谱信息中对应的音频时长,按照预设规则对相应的文字的字时长进行音频处理,得到音频处理后的文字;
将所述音频处理后的文字进行拼接,得到处理后的音频数据。
4.根据权利要求3所述的音频数据的处理方法,其特征在于,所述基于所述字时长以及所述乐谱信息中对应的音频时长,按照预设规则对相应的文字的字时长进行音频处理,包括:
若所述乐谱信息中对应的音频时长大于字时长,则拉伸所述字时长;
若所述乐谱信息中对应的音频时长等于字时长,则保持所述字时长不变;
若所述乐谱信息中对应的音频时长小于字时长,则压缩所述字时长。
5.根据权利要求4所述的音频数据的处理方法,其特征在于,
若所述乐谱信息中对应的音频时长大于字时长,则拉伸所述字时长包括:若所述乐谱信息中对应的音频时长大于字时长,则控制声母时长保持不变,拉伸韵母时长;
若所述乐谱信息中对应的音频时长等于字时长,则保持所述字时长不变包括:若所述乐谱信息中对应的音频时长等于字时长,则控制声母时长与韵母时长保持不变;
若所述乐谱信息中对应的音频时长小于字时长,则压缩所述字时长包括:若所述乐谱信息中对应的音频时长小于字时长,则对声母时长与韵母时长同时进行压缩。
6.根据权利要求1所述的音频数据的处理方法,其特征在于,所述得到处理后的音频数据之后,还包括:
获取所述歌曲的伴奏文件;
将所述处理后的音频数据与所述伴奏文件进行混音,得到混音后的音频数据。
7.一种音频数据的处理装置,其特征在于,包括第一获取单元、第一确定单元、接收单元、第二确定单元和处理单元,所述第二确定单元包括转换子单元、第二确定子单元和切分子单元;
第一获取单元,用于获取歌曲信息,所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件;
第一确定单元,用于根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息;
接收单元,用于接收用户输入的与所述说唱部分相应的音频数据;
转换子单元,用于将所述音频数据转换为文本数据;
第二确定子单元,用于确定所述说唱部分的歌词字数以及所述文本数据的字数;
切分子单元,用于在确定所述歌词字数与所述文本数据的字数相同时,对所述文本数据中所指示文字的拼音进行切分,将所述音频数据转换成音素列表,并根据预设的声学模型对所述音素列表进行替换,生成模型序列;确定所述音频数据中每一帧的特征,计算每一帧的特征在所述模型序列中的置信度,得到置信度计算结果;根据所述置信度计算结果,确定文字对应的声母及韵母时间信息,所述时间信息包括起始时间信息和持续时间信息;
处理单元,用于基于所述时间信息以及所述乐谱信息,按照预设规则对相应的文字的字时长进行处理,得到处理后的音频数据。
8.根据权利要求7所述的音频数据的处理装置,其特征在于,所述第一确定单元包括:
获取子单元,用于获取所述歌曲信息中歌词文件包含的每个字对应的起始时间和持续时长,以及获取所述歌曲信息中乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高;
第一确定子单元,用于根据所述歌词文件包含的每个字对应的起始时间和持续时长,和所述乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高,确定歌曲的说唱部分。
9.根据权利要求7或8所述的音频数据的处理装置,其特征在于,所述处理单元包括:
提取子单元,用于基于所述时间信息,从所述音频数据中提取每个文字对应的音频数据,得到音频段;
第三确定子单元,用于根据所述音频段,确定对应的字时长;
音频处理子单元,用于基于所述字时长以及所述乐谱信息中对应的音频时长,按照预设规则对相应的文字的字时长进行音频处理,得到音频处理后的文字;
拼接子单元,用于将所述音频处理后的文字进行拼接,得到处理后的音频数据。
10.根据权利要求9所述的音频数据的处理装置,其特征在于,所述音频处理子单元,用于若所述乐谱信息中对应的音频时长大于字时长,则拉伸所述字时长;若所述乐谱信息中对应的音频时长等于字时长,则保持所述字时长不变;若所述乐谱信息中对应的音频时长小于字时长,则压缩所述字时长。
11.根据权利要求10所述的音频数据的处理装置,其特征在于,所述音频处理子单元具体用于:
若所述乐谱信息中对应的音频时长大于字时长,则控制声母时长保持不变,拉伸韵母时长;若所述乐谱信息中对应的音频时长等于字时长,则控制声母时长与韵母时长保持不变;若所述乐谱信息中对应的音频时长小于字时长,则对声母时长与韵母时长同时进行压缩。
12.根据权利要求7所述的音频数据的处理装置,其特征在于,所述装置还包括:
第二获取单元,用于获取所述歌曲的伴奏文件;
混音单元,用于将所述处理后的音频数据与所述伴奏文件进行混音,得到混音后的音频数据。
CN201610292614.0A 2016-05-04 2016-05-04 一种音频数据的处理方法及装置 Active CN105788589B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610292614.0A CN105788589B (zh) 2016-05-04 2016-05-04 一种音频数据的处理方法及装置
PCT/CN2017/083119 WO2017190674A1 (zh) 2016-05-04 2017-05-04 一种音频数据的处理方法、装置及计算机存储介质
US16/102,485 US10789290B2 (en) 2016-05-04 2018-08-13 Audio data processing method and apparatus, and computer storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610292614.0A CN105788589B (zh) 2016-05-04 2016-05-04 一种音频数据的处理方法及装置

Publications (2)

Publication Number Publication Date
CN105788589A CN105788589A (zh) 2016-07-20
CN105788589B true CN105788589B (zh) 2021-07-06

Family

ID=56400686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610292614.0A Active CN105788589B (zh) 2016-05-04 2016-05-04 一种音频数据的处理方法及装置

Country Status (3)

Country Link
US (1) US10789290B2 (zh)
CN (1) CN105788589B (zh)
WO (1) WO2017190674A1 (zh)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105788589B (zh) * 2016-05-04 2021-07-06 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN106373580B (zh) * 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置
CN106448630B (zh) 2016-09-09 2020-08-04 腾讯科技(深圳)有限公司 歌曲的数字乐谱文件的生成方法和装置
CN106486128B (zh) * 2016-09-27 2021-10-22 腾讯科技(深圳)有限公司 一种双音源音频数据的处理方法及装置
CN106649644B (zh) * 2016-12-08 2020-02-07 腾讯音乐娱乐(深圳)有限公司 一种歌词文件生成方法及装置
CN106652986B (zh) * 2016-12-08 2020-03-20 腾讯音乐娱乐(深圳)有限公司 一种歌曲音频拼接方法及设备
CN108228658B (zh) * 2016-12-22 2022-06-03 阿里巴巴集团控股有限公司 一种自动生成配音文字的方法、装置以及电子设备
CN106652997B (zh) * 2016-12-29 2020-07-28 腾讯音乐娱乐(深圳)有限公司 一种音频合成的方法及终端
CN108268530B (zh) * 2016-12-30 2022-04-29 阿里巴巴集团控股有限公司 一种歌词的配乐生成方法和相关装置
CN106970950B (zh) * 2017-03-07 2021-08-24 腾讯音乐娱乐(深圳)有限公司 相似音频数据的查找方法及装置
CN106898340B (zh) * 2017-03-30 2021-05-28 腾讯音乐娱乐(深圳)有限公司 一种歌曲的合成方法及终端
CN107122493B (zh) * 2017-05-19 2020-04-28 北京金山安全软件有限公司 歌曲播放方法和装置
CN107170464B (zh) * 2017-05-25 2020-11-27 厦门美图之家科技有限公司 一种基于音乐节奏的语音变速方法及计算设备
CN107680571A (zh) * 2017-10-19 2018-02-09 百度在线网络技术(北京)有限公司 一种歌曲伴奏方法、装置、设备和介质
CN109801618B (zh) * 2017-11-16 2022-09-13 深圳市腾讯计算机系统有限公司 一种音频信息的生成方法和装置
CN107978323B (zh) * 2017-12-01 2022-09-27 腾讯科技(深圳)有限公司 音频识别方法、装置及存储介质
CN108231048B (zh) * 2017-12-05 2021-09-28 北京小唱科技有限公司 修正音频节奏的方法及装置
CN108257609A (zh) * 2017-12-05 2018-07-06 北京小唱科技有限公司 音频内容修正的方法及其智能装置
CN108109634B (zh) * 2017-12-15 2020-12-04 广州酷狗计算机科技有限公司 歌曲音高的生成方法、装置及设备
CN108269579B (zh) * 2018-01-18 2020-11-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
CN108172232A (zh) * 2018-01-19 2018-06-15 北京小唱科技有限公司 音频修正方法及装置
CN108877766A (zh) * 2018-07-03 2018-11-23 百度在线网络技术(北京)有限公司 歌曲合成方法、装置、设备及存储介质
CN110767204B (zh) * 2018-07-27 2022-06-14 华为技术有限公司 声音处理方法、装置及存储介质
CN109036464B (zh) * 2018-09-17 2022-02-22 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN108962286B (zh) * 2018-10-15 2020-12-01 腾讯音乐娱乐科技(深圳)有限公司 音频识别方法、装置及存储介质
CN109346044B (zh) * 2018-11-23 2023-06-23 广州酷狗计算机科技有限公司 音频处理方法、装置及存储介质
CN109949783B (zh) * 2019-01-18 2021-01-29 苏州思必驰信息科技有限公司 歌曲合成方法及系统
JP7059972B2 (ja) * 2019-03-14 2022-04-26 カシオ計算機株式会社 電子楽器、鍵盤楽器、方法、プログラム
CN110033791B (zh) * 2019-03-26 2021-04-09 北京雷石天地电子技术有限公司 一种歌曲基频提取方法及装置
TWI754804B (zh) * 2019-03-28 2022-02-11 國立中正大學 改善構音異常語音理解度之系統與方法
CN110267081B (zh) * 2019-04-02 2021-01-22 北京达佳互联信息技术有限公司 直播流处理方法、装置、系统、电子设备及存储介质
US11487815B2 (en) * 2019-06-06 2022-11-01 Sony Corporation Audio track determination based on identification of performer-of-interest at live event
CN110516103B (zh) * 2019-08-02 2022-10-14 平安科技(深圳)有限公司 基于分类器的歌曲节奏生成方法、设备、存储介质及装置
CN112336370B (zh) * 2019-08-09 2022-07-05 深圳市理邦精密仪器股份有限公司 胎心音处理方法、装置、医疗设备及计算机存储介质
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
CN110610721B (zh) * 2019-09-16 2022-01-07 上海瑞美锦鑫健康管理有限公司 一种基于歌词演唱准确度的检测系统及方法
CN111061909B (zh) * 2019-11-22 2023-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏分类方法和装置
CN111210833A (zh) * 2019-12-30 2020-05-29 联想(北京)有限公司 音频处理方法、电子设备和介质
CN111159465B (zh) * 2019-12-31 2023-09-29 杭州网易云音乐科技有限公司 一种歌曲分类方法及装置
CN111326171B (zh) * 2020-01-19 2023-06-23 成都潜在人工智能科技有限公司 一种基于简谱识别和基频提取的人声旋律提取方法及系统
CN111402842B (zh) * 2020-03-20 2021-11-19 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111445897B (zh) * 2020-03-23 2023-04-14 北京字节跳动网络技术有限公司 歌曲生成方法、装置、可读介质及电子设备
CN111445892B (zh) * 2020-03-23 2023-04-14 北京字节跳动网络技术有限公司 歌曲生成方法、装置、可读介质及电子设备
CN111681637B (zh) * 2020-04-28 2024-03-22 平安科技(深圳)有限公司 歌曲合成方法、装置、设备及存储介质
CN114064964A (zh) * 2020-07-30 2022-02-18 华为技术有限公司 文本的时间标注方法、装置、电子设备和可读存储介质
CN111737589A (zh) * 2020-08-25 2020-10-02 北京圈清文化传媒有限公司 一种基于人工智能的推荐方法、装置及系统
CN111986696B (zh) * 2020-08-27 2023-07-07 湖南融视文化创意有限公司 一种高效处理歌曲音量均衡的方法
CN113823281B (zh) * 2020-11-24 2024-04-05 北京沃东天骏信息技术有限公司 语音信号处理方法、装置、介质及电子设备
CN112509538A (zh) * 2020-12-18 2021-03-16 咪咕文化科技有限公司 音频处理方法、装置、终端及存储介质
CN112669849A (zh) * 2020-12-18 2021-04-16 百度国际科技(深圳)有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112712783B (zh) * 2020-12-21 2023-09-29 北京百度网讯科技有限公司 生成音乐的方法和装置、计算机设备和介质
CN112735429B (zh) * 2020-12-28 2023-11-14 腾讯音乐娱乐科技(深圳)有限公司 确定歌词时间戳信息的方法和声学模型的训练方法
CN112906369A (zh) * 2021-02-19 2021-06-04 脸萌有限公司 一种歌词文件生成方法及装置
CN113160849A (zh) * 2021-03-03 2021-07-23 腾讯音乐娱乐科技(深圳)有限公司 歌声合成方法、装置及电子设备和计算机可读存储介质
CN113112969B (zh) * 2021-03-23 2024-04-05 平安科技(深圳)有限公司 基于神经网络的佛教音乐记谱方法、装置、设备及介质
CN112951239B (zh) * 2021-03-24 2023-07-28 平安科技(深圳)有限公司 基于注意力模型的佛乐生成方法、装置、设备及存储介质
CN113204673A (zh) * 2021-04-28 2021-08-03 北京达佳互联信息技术有限公司 音频处理方法、装置、终端及计算机可读存储介质
CN113377992A (zh) * 2021-06-21 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 歌曲分段方法、设备和存储介质
CN113421589B (zh) * 2021-06-30 2024-03-01 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质
CN113963723B (zh) * 2021-09-16 2023-05-26 秦慈军 一种音乐呈现方法、装置、设备及存储介质
CN114023286A (zh) * 2021-10-15 2022-02-08 天翼爱音乐文化科技有限公司 一种说唱音乐生成方法、系统、装置与存储介质
CN113658570B (zh) * 2021-10-19 2022-02-11 腾讯科技(深圳)有限公司 歌曲处理方法、装置、计算机设备、存储介质及程序产品
CN115910002B (zh) * 2023-01-06 2023-05-16 之江实验室 一种音频生成的方法、存储介质及电子设备
CN116705058B (zh) * 2023-08-04 2023-10-27 贝壳找房(北京)科技有限公司 多模语音任务的处理方法、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1811907A (zh) * 2005-01-24 2006-08-02 乐金电子(惠州)有限公司 具有歌曲校正功能的歌曲伴奏装置及其方法
CN101901598A (zh) * 2010-06-30 2010-12-01 北京捷通华声语音技术有限公司 一种哼唱合成方法和系统
CN102024453A (zh) * 2009-09-09 2011-04-20 财团法人资讯工业策进会 歌声合成系统、方法以及装置
CN104081453A (zh) * 2011-07-25 2014-10-01 索拉公司 用于声学变换的系统和方法
CN105006234A (zh) * 2015-05-27 2015-10-28 腾讯科技(深圳)有限公司 一种k歌处理方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6740802B1 (en) * 2000-09-06 2004-05-25 Bernard H. Browne, Jr. Instant musician, recording artist and composer
US7058889B2 (en) * 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
US20060009979A1 (en) * 2004-05-14 2006-01-12 Mchale Mike Vocal training system and method with flexible performance evaluation criteria
US20060112812A1 (en) * 2004-11-30 2006-06-01 Anand Venkataraman Method and apparatus for adapting original musical tracks for karaoke use
US20070166683A1 (en) * 2006-01-05 2007-07-19 Apple Computer, Inc. Dynamic lyrics display for portable media devices
US8304642B1 (en) * 2006-03-09 2012-11-06 Robison James Bryan Music and lyrics display method
CN101399036B (zh) * 2007-09-30 2013-05-29 三星电子株式会社 将语音转换为说唱音乐的设备和方法
US20090164902A1 (en) * 2007-12-19 2009-06-25 Dopetracks, Llc Multimedia player widget and one-click media recording and sharing
EP2450877B1 (en) * 2010-11-09 2013-04-24 Sony Computer Entertainment Europe Limited System and method of speech evaluation
US20130144626A1 (en) * 2011-12-04 2013-06-06 David Shau Rap music generation
WO2016009444A2 (en) * 2014-07-07 2016-01-21 Sensibiol Audio Technologies Pvt. Ltd. Music performance system and method thereof
CN104252872B (zh) * 2014-09-23 2017-05-24 努比亚技术有限公司 歌词生成方法和智能终端
US9721551B2 (en) * 2015-09-29 2017-08-01 Amper Music, Inc. Machines, systems, processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptions
CN105788589B (zh) * 2016-05-04 2021-07-06 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1811907A (zh) * 2005-01-24 2006-08-02 乐金电子(惠州)有限公司 具有歌曲校正功能的歌曲伴奏装置及其方法
CN102024453A (zh) * 2009-09-09 2011-04-20 财团法人资讯工业策进会 歌声合成系统、方法以及装置
CN101901598A (zh) * 2010-06-30 2010-12-01 北京捷通华声语音技术有限公司 一种哼唱合成方法和系统
CN104081453A (zh) * 2011-07-25 2014-10-01 索拉公司 用于声学变换的系统和方法
CN105006234A (zh) * 2015-05-27 2015-10-28 腾讯科技(深圳)有限公司 一种k歌处理方法及装置

Also Published As

Publication number Publication date
US20180349495A1 (en) 2018-12-06
CN105788589A (zh) 2016-07-20
WO2017190674A1 (zh) 2017-11-09
US10789290B2 (en) 2020-09-29

Similar Documents

Publication Publication Date Title
CN105788589B (zh) 一种音频数据的处理方法及装置
Bu et al. Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline
CN106898340B (zh) 一种歌曲的合成方法及终端
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
US11361753B2 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
CN101578659A (zh) 音质转换装置及音质转换方法
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
CN111477210A (zh) 语音合成方法和装置
US20220293091A1 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
CN112927677B (zh) 语音合成方法和装置
Ogayo et al. Building African Voices
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
KR20150118974A (ko) 음성 처리 장치
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
CN113421571B (zh) 一种语音转换方法、装置、电子设备和存储介质
Hsu et al. Speaker-dependent model interpolation for statistical emotional speech synthesis
Ghimire et al. Enhancing the quality of nepali text-to-speech systems
Singh et al. Speech recognition system for north-east Indian accent
CN112164387A (zh) 音频合成方法、装置及电子设备和计算机可读存储介质
Godambe et al. Developing a unit selection voice given audio without corresponding text
EP1589524B1 (en) Method and device for speech synthesis
Ravi et al. Text-to-speech synthesis system for Kannada language
Sadhukhan et al. Automatic identification of spoken language
Yong et al. Low footprint high intelligibility Malay speech synthesizer based on statistical data
CN111696530B (zh) 一种目标声学模型获取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant