CN106653037B - 音频数据处理方法和装置 - Google Patents

音频数据处理方法和装置 Download PDF

Info

Publication number
CN106653037B
CN106653037B CN201510738376.7A CN201510738376A CN106653037B CN 106653037 B CN106653037 B CN 106653037B CN 201510738376 A CN201510738376 A CN 201510738376A CN 106653037 B CN106653037 B CN 106653037B
Authority
CN
China
Prior art keywords
audio data
data
sound
tail
harmony
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510738376.7A
Other languages
English (en)
Other versions
CN106653037A (zh
Inventor
赵伟峰
陈雪琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201510738376.7A priority Critical patent/CN106653037B/zh
Priority to EP16861572.2A priority patent/EP3373299B1/en
Priority to PCT/CN2016/104402 priority patent/WO2017076304A1/zh
Priority to JP2018541477A priority patent/JP6669883B2/ja
Priority to KR1020187015689A priority patent/KR102083917B1/ko
Publication of CN106653037A publication Critical patent/CN106653037A/zh
Priority to US15/968,670 priority patent/US10665218B2/en
Application granted granted Critical
Publication of CN106653037B publication Critical patent/CN106653037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • G10H1/10Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones for obtaining chorus, celeste or ensemble effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/245Ensemble, i.e. adding one or more voices, also instrumental voices
    • G10H2210/251Chorus, i.e. automatic generation of two or more extra voices added to the melody, e.g. by a chorus effect processor or multiple voice harmonizer, to produce a chorus or unison effect, wherein individual sounds from multiple sources with roughly the same timbre converge and are perceived as one
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • G10H2210/331Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Abstract

本发明提供了一种音频数据处理方法,所述方法包括:根据待处理的音频数据获取对应的歌词文件;按照所述歌词文件中的句子分割所述音频数据,以得到音频数据段;提取所述音频数据段中尾音所对应的数据;对所述尾音所对应的数据进行和声处理。此外,还提供了一种与该方法匹配的音频数据处理装置。上述音频数据处理方法和装置能够避免整个音频数据在整个时间段均附加和声音效,提高了和声模拟的真实性。

Description

音频数据处理方法和装置
技术领域
本发明涉及计算机应用技术领域,特别涉及一种音频数据处理方法和装置。
背景技术
随着媒体应用的发展,针对音频数据进行编辑的应用越来越多,不再仅限于实现各种音频数据的采集和播放,而更为专注于音频数据的编辑,以采集的音频数据为原声来实现丰富多样的音频数据输出。
例如,在为用户提供的K歌功能中,对于采集得到的音频数据,大都实际对其进行编辑,以附加了一定的音效之后才由输出,以供听众收听。在对音频数据所进行的编辑中,如需实现和声音效的模拟,所对应的实现方式是以采集的音频数据,即输入的人声作为原声,在此基础上将其它人声以某个数量某个比例叠加在原声上,便可得到用以输出的音频数据。
然而,这一和声音效模拟的实现是对整个原声都附加了和声音效,即在整个时间段上均进行了和声,这有悖于真实场景中的和声,存在着和声音效模拟失真的局限性。
发明内容
基于此,有必要提供一种音频数据处理方法,该方法能够避免整个音频数据在整个时间段均附加和声音效,提高和声模拟的真实性。
此外,还有必要提供一种音频数据处理装置,该装置能够避免整个音频数据在整个时间段均附加和声音效,提高和声模拟的真实性。
为解决上述技术问题,将采用如下技术方案:
一种音频数据处理方法,包括:
根据待处理的音频数据获取对应的歌词文件;
按照所述歌词文件中的句子分割所述音频数据,以得到音频数据段;
提取所述音频数据段中尾音所对应的数据;
对所述尾音所对应的数据进行和声处理。
一种音频数据处理装置,包括:
歌词获取模块,用于根据待处理的音频数据获取对应的歌词文件;
分割模块,用于按照所述歌词文件中的句子分割所述音频数据,以得到音频数据段;
提取模块,用于提取所述音频数据段中尾音所对应的数据;
尾音处理模块,用于对所述尾音所对应的数据进行和声处理。
由上述技术方案可知,对于任一需进行和声模拟的音频数据,首先获取该音频数据对应的歌词文件,按照歌词文件中的句子对音频数据进行分割,以得到音频数据段,提取音频数据段中尾音所对应的数据,以对该数据进行和声处理,也就是说,在对该音频数据所进行的编辑中,将在该音频数据中仅对尾音所对应的数据进行和声,而不再对整个音频数据在整个时间段进行和声,进而使得和声模拟的实现与实际唱歌时进行的和声相一致,提高了和声模拟的真实性。
附图说明
图1是本发明实施例提供的一种电子设备的结构示意图;
图2是一个实施例中音频数据处理方法的流程图;
图3是图2中根据待处理的音频数据获取对应的歌词文件的方法流程图;
图4是图2中按照歌词文件中的句子分割音频数据,以得到音频数据段的方法流程图;
图5是一个实施例中根据预设的尾音长度值在音频数据段中提取尾音所对应的数据的方法流程图;
图6是图2中对尾音所对应的数据进行和声处理的方法流程图;
图7是一个实施例中音频处理装置的结构示意图;
图8是图7中歌词获取模块的结构示意图;
图9是图7中分割模块的结构示意图;
图10是图7中提取模块的结构示意图;
图11是图7中尾音处理模块的结构示意图。
具体实施方式
体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化,其皆不脱离本发明的范围,且其中的说明及图示在本质上是当作说明之用,而非用以限制本发明。
如前所述的,对音频数据进行的各种编辑中,如若需要对输入的人声附加和声音效,则必须针对输入的整个人声进行,即对输入的整个人声均添加和声音效。因此,虽然现有的音频数据编辑中可对输入的任一音频数据添加所需要的音效,但是,对于和声音效而言,也仅仅是生硬地将其它人声直接叠加于该音频数据中,以使得整个音频数据均附带了和声音效,虽然达到了和声的目的,但是缺乏真实性,并无法呈现真实场景中的和声效果。
因此,为确保模拟的真实性,可呈现真实场景中的和声效果,特提出了一种音频数据处理方法,该音频数据处理方法由计算机程序实现,与之相对应的,所构建的音频数据处理装置则被存储于电子设备中,以在该电子设备中运行,进而实现任一音频数据的和声。
图1示出了本发明实施例提供的一种电子设备的结构。该电子设备100只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。该电子设备100也不能解释为需要依赖于或具有图示的示例性的电子设备100中的一个或者多个部件的组合。
如图1所示,电子设备100包括处理器110、存储器120和系统总线130。包括存储器120和处理器110在内的各种组件将连接到系统总线130上。处理器110是一个用于通过计算机系统中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器120是一个用于临时或永久性存储计算机程序或数据的物理设备。
其中,存储器120中存储了若干音频数据以及各种歌词文件;处理器110将执行存储器120中的程序指令。
便携终端设备100还包括各种输入接口170、输入装置140,以实现各种操作的输入。其中,该输入装置140可以是触摸屏幕、按键、键盘和鼠标等至少一种。
便携终端设备100还包括存储设备180,存储设备180可以从多种计算机可读存储介质中选择,计算机可读介质是指可以进行访问的任何可利用的介质,包括移动的和固定的两种介质。例如,计算机可读介质,包括但不限于闪速存储器(微型SD卡)、CD-ROM、数字通用光盘(DVD)或其它光盘、磁带盒、磁带存储或其它存储设备、或者可用于存储所需信息并可访问的任何其它介质。
如上面所详细描述的,适用本发明的电子设备100将执行实现和声音效的指定操作,即通过处理器110运行存储器120中的程序指令的形式执行该指定操作,以实现电子设备100中音频数据的处理。
此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明,因此,实现本发明并不限于任何特定硬件电路、软件以及两者的组合。
在一个实施例中,具体的,该音频数据处理方法如图2所示,包括:
步骤210,根据待处理的音频数据获取对应的歌词文件。
该音频数据是当前进行编辑的音频数据,其可为用户在演唱某一歌曲时录入的音频数据,也可以是用户预先演唱某一歌曲而预先录入的音频数据。因此,对该音频数据的编辑可以是实时进行的,也可以是对该音频数据所进行的后续编辑。
根据该音频数据所属的歌曲,获取对应的歌词文件,以便以歌词文件为依据进行该音频数据的和声模拟。
步骤230,按照歌词文件中的句子分割音频数据,以得到音频数据段。
歌词文件的内容包含了歌曲的每一句歌词以及各种相关的时间点,因此,可按照歌词文件中的句子进行音频数据分割,以得到与句子相对应的音频数据段。例如,若该音频数据是针对整首歌曲所录入的,则根据歌词文件中句子所进行的分割,将得到每一句子所对应的音频数据段。
若该音频数据是当前实时录入的,则按照其在歌词文件中对应的句子进行分割,以随着音频数据的不断录入而不断分割得到音频数据段。
步骤250,提取音频数据段中尾音对应的数据。
在音频数据段中根据其尾音进行数据提取,以得到尾音所对应的数据。由此对于分割得到的若干音频数据段而言,便得到了每一音频数据段中尾音所对应的数据。
步骤270,对尾音所对应的数据进行和声处理。
仅针对音频数据段中尾音所对应的数据进行和声处理,以得到仅在尾音进行和声音效模拟的音频数据段,进而由该音频数据段构成了和声音效模拟的音频数据,输出的音频数据附带了和声音效,并且在该音频数据的输出中仅在尾音部分进行的和声音效的模拟,与真实场景中的和声相一致,进而保证了和声模拟的真实性。
进一步的,在本实施例中,如图3所示,在一个实施例中,该步骤210包括:
步骤211,根据待处理的音频数据得到所属歌曲。
步骤213,获取所属歌曲对应的歌词文件。
该音频数据对应的歌词文件可以为任意形式,但其内容则必定包含了多个句子以及每一句子对应的起止时间点,即每一句子的起始时间和终止时间。
进一步的,在实际运营中,歌词文件中的内容包含了歌词所对应的文字以及该文字所对应的时间点,在此,将首先确定每一句子首尾所分别对应的文字,进而得到该句子首尾所对应的时间点,该句子首尾所对应的时间点即为句子的起始时间和终止时间。
在一个实施例中,如图4所示,该步骤230包括:
步骤231,提取歌词文件中句子的起始时间和终止时间。
在歌词文件中进行句子的起始时间和终止时间的提取,句子之间将以时间为界线进行区分。
需要说明的是,如若歌词文件中句子之间存在着间隔,则该间隔可归属于上一句子的尾端或者下一句子的首端,与之相对应的,该终止时间将为间隔末端所对应的时间,或者,该起始时间为间隔前端所对应的时间。
步骤233,根据起始时间和终止时间分割音频数据,得到句子对应的音频数据段。
音频数据中的时间是与歌词文件中的时间相一致的,因此,可根据歌词文件中的时间分割得到句子对应的音频数据段。
也就是说,对于演唱歌曲所录入的音频数据而言,其演唱内容与歌词文件中的歌词和时间点相对应,因此,与歌词文件中的句子处于相同时间段的数据即为该句子所对应的音频数据段。
例如,一句歌词的尾音是3秒,则该句歌词对应的音频数据段中的3秒即为该音频数据段中的15秒至18秒所对应的数据,这一15秒至18秒所对应的数据即为该音频数据段中尾音所对应的数据。
进一步的,在本实施例中,该步骤250包括:根据预设的尾音长度值在音频数据段中提取尾音所对应的数据。
预先设定了尾音长度值,该尾音长度值为一时间值,将表征了尾音所对应的时间长度。优选地,该尾音长度值可预选设定为3秒。
在每一音频数据段中根据预设的尾音长度值即可确定尾音所对应的数据,进而直接提取即可。也就是说,每一音频数据段中尾部时间长度与该尾音长度值相匹配的数据即为尾音所对应的数据。
进一步的,在本实施例中,如图5所示,该根据预设的尾音长度值在音频数据段中提取尾音所对应的数据的步骤包括:
步骤251,根据音频数据段所属句子对应的终止时间和预设的尾音长度值得到尾音开始时间。
通过依据起始时间和终止时间所进行的音频数据分割,使得该分割的音频数据段与歌词文件中的句子相对应。由此,每一音频数据段均有所属的句子,进而得到该句子对应的终止时间。
终止时间和预设的尾音长度值之间的差值即为尾音开始时间,尾音开始时间将作为音频数据段中尾音所对应的数据提取的起始点。
步骤253,根据尾音开始时间和音频数据的采样率在音频数据段中定位尾音所对应的起始数据。
音频数据段中每一数据都有对应的时间,也就是说,可根据其所对应的时间可根据其在音频数据中的位置以及采样率确定,即t = n/fs,其中,t为数据所对应的时间,n是该数据在音频数据中的坐标,fs则是音频数据的采样率。
由此可知,根据尾音开始时间和音频数据的采样率即可运算得到时间为尾音开始时间所对应的音频数据中的坐标,进而在音频数据段中定位数据,以得到尾音所对应的起始数据。
步骤255,在音频数据段中由以起始数据为起始进行数据提取直至提取至音频数据段的尾端,以得到尾音所对应的数据。
在音频数据段中,将直接以起始数据为起始依次往后进行数据提取,直至提取至所在音频数据段的尾端,由此所得到的数据即为尾音所对应的数据,以待后续针对该提取的数据进行和声。
通过如上所述的过程,将使得分割得到的音频数据段均相应提取得到尾音所对应的数据,进而由该数据实现每一音频数据段中的和声音效模拟,从而完成整个音频数据中的和声音效模拟,并且提高了音效模拟的真实性。
需要说明的是,如若句子之间的间隔归属于上一句子对应的音频数据段,则尾音所对应的数据提取过程将对起始数据和间隔末端之间的数据提取过程。也就是说,对于附加了间隔的音频数据段,将仍然根据起始数据次往后进行数据提取,由此得到包含该间隔的尾音所对应的数据。
在后续的和声处理中,对于包含间隔的尾音所对应的数据,也将直接对其进行和声处理即可。
在一个实施例中,如图6所示,该步骤270包括:
步骤271,以尾音所对应的数据为原声,复制原声并进行降调处理得到中间数据。
复制一份尾音所对应的数据,以任一尾音所对应的数据为原声,对另一尾音所对应的数据进行降调处理,以得到中间数据。其中,用于实现降调处理的算法可以为任意的pitch shift相关的算法。
步骤273,复制若干份中间数据,以分别对每份中间数据进行随机延迟和衰减处理得到若干份和声音效数据。
通过如上所述的步骤得到一作为原声的尾音所对应的数据和中间数据,此时,将中间数据s’(n)复制成L份,每份加入一个随机的延迟和随机的衰减,即s’’ = r*s’(n -P),其中r为纯小数,P正数,s’’即为任一和声音效数据。
步骤275,将原声和和声音效数据叠加得到模拟和声的音频数据。
将L个s’’与原声叠加在一起便可得到音频数据段中模拟了和声的尾音,进而实现了音频数据段中的和声模拟,多个音频数据段拼接在一起即可得到待输出的音频数据。
如若以包含了间隔的尾音所对应的数据为原声,和声音效数据也是以该包含了间隔的尾音所对应的数据为基础所处理得到的,因此,尾音所对应的数据中,与间隔对应的部分将为空,相对应的,和声音效数据中,与间隔对应的部分也将为空,因此,在原声和和声音效数据进行的叠加中,该数据为空的部分也将叠加在一起,得到模拟了和声并仍然包含间隔的尾音,从而既实现了尾音中和声的模拟,又不会对原有的音频数据中存在的间隔造成影响。
在具体的应用中,对于如上所述的音频数据处理方法,将首先需要获取一对应的歌词文件,歌词文件中每一句子的起始时间s(m)和终止时间d(m),其中,m代表歌词文件中的第m句句子。起始时间s(m)和终止时间d(m)也为该句子对应的音频数据段的起始点和终止点。
假设待处理的音频数据为x(n),n为小于N的整数,该音频数据的总长度为N。
预设尾音长度值为T,T=3秒,则由此得到音频数据段中的尾音开始时间ts(m),即ts(m) = d(m) -T,从而在每一音频数据段中分别聚集出尾音所对应的数据s(n)。
复制一份s(n),并对复制所得到的s(n)进行降调处理得到中间数据s’(n)。
此时,复制L份中间数据s’(n),每一份中间数据s’(n)均加入随机的延迟和随机的衰减,即s’’= r*s’(n - P),其中r为纯小数,P正数。
将L份s’’与s(n)进行叠加得到模拟了和声的尾音y(n)。
通过如上所述的过程便对音频数据精准实现了尾音的和声模拟。
通过如上所述的音频数据处理方法,将使得各种音频应用,例如,K唱应用可对音频数据实现和声模拟,极大地丰富了音频应用中的功能。
在一个实施例中,还相应地提供了一种音频数据处理装置,如图7所示,该装置包括歌词获取模块310、分割模块330、提取模块350和尾音处理模块370,其中:
歌词获取模块310,用于根据待处理的音频数据获取对应的歌词文件。
分割模块330,用于按照歌词文件中的句子分割音频数据,以得到音频数据段。
提取模块350,用于提取单元数据段中尾音所对应的数据。
尾音处理模块370,用于对尾音所对应的数据进行和声处理。
在一个实施例中,如图8所示,该歌词获取模块310包括所属歌曲获取单元311和文件获取单元313,其中:
所属歌曲获取单元311,用于根据待处理的音频数据得到所属歌曲。
文件获取单元313,用于获取所属歌曲对应的歌曲文件。
在一个实施例中,如图9所示,该分割模块330包括时间提取模块331和数据分割单元333,其中:
时间提取模块331,用于提取歌词文件中句子的起始时间和终止时间。
数据分割单元333,用于根据起始时间和终止时间分割音频数据,得到句子对应的音频数据段。
在一个实施例中,提取模块350进一步用于根据预设的尾音长度值在音频数据段中提取尾音所对应的数据。
进一步的,在本实施例中,如图10所示,该提取模块350包括尾音时间运算单元351、起始数据定位单元363和数据提取单元355,其中:
尾音时间运算单元351,用于根据音频数据所属句子对应的终止时间和预设的尾音长度值得到尾音开始时间。
起始数据定位单元353,用于根据尾音开始时间和音频数据的采样率在音频数据段中定位尾音所对应的起始数据。
数据提取单元355,用于在音频数据段中以起始数据为起始进行数据提取,直至提取至音频数据段的尾端,以得到尾音对应的数据。
在一个实施例中,如图 11所示,该尾音处理模块370包括降调处理单元371、音效生成单元373和叠加单元375,其中:
降调处理单元372,用于以尾音所对应的数据为原声,复制该原声并进行降调处理得到中间数据。
音效生成单元373,用于复制若干份中间数据,以分别对每份中间数据进行随机延迟和衰减处理得到若干份和声音效数据。
叠加单元375,用于将原声和和声音效数据混合叠加得到模拟和声的音频数据。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
虽然已参照几个典型实施方式描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施方式不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims (10)

1.一种音频数据处理方法,其特征在于,包括:
根据待处理的音频数据获取对应的歌词文件,所述音频数据是当前实时录入的;
按照所述歌词文件中的句子分割所述音频数据,以随着所述音频数据的不断录入而不断分割得到音频数据段;
提取所述音频数据段中尾音所对应的数据;
以所述尾音所对应的数据为原声,复制所述原声并进行降调处理得到中间数据;
复制若干份所述中间数据,以分别对每份中间数据进行随机延迟和衰减处理得到若干份和声音效数据;
将所述原声和所述若干份和声音效数据混合叠加得到模拟和声的音频数据,如果所述尾音包含间隔,则所述模拟和声的音频数据中仍然包括相同的所述间隔。
2.根据权利要求1所述的方法,其特征在于,所述根据待处理的音频数据获取对应的歌词文件的步骤包括:
根据所述待处理的音频数据得到所属歌曲;
获取所述所属歌曲对应的歌词文件。
3.根据权利要求1所述的方法,其特征在于,所述按照所述歌词文件中的句子分割所述音频数据,以得到音频数据段的步骤包括:
提取所述歌词文件中句子的起始时间和终止时间;
根据所述起始时间和终止时间分割所述音频数据,得到句子对应的音频数据段。
4.根据权利要求3所述的方法,其特征在于,所述提取所述音频数据段中尾音所对应的数据的步骤包括:
根据预设的尾音长度值在所述音频数据段中提取尾音所对应的数据。
5.根据权利要求4所述的方法,其特征在于,所述根据预设的尾音长度值在所述音频数据段中提取尾音所对应的数据的步骤包括:
根据所述音频数据段所属句子对应的终止时间和预设的尾音长度值得到尾音开始时间;
根据所述尾音开始时间和所述音频数据的采样率在所述音频数据段中定位尾音所对应的起始数据;
在所述音频数据段中以所述起始数据为起始进行数据提取,直至提取至所述音频数据段的尾端,以得到所述尾音所对应的数据。
6.一种音频数据处理装置,其特征在于,包括:
歌词获取模块,用于根据待处理的音频数据获取对应的歌词文件,所述音频数据是当前实时录入的;
分割模块,用于按照所述歌词文件中的句子分割所述音频数据,以随着所述音频数据的不断录入而不断分割得到音频数据段;
提取模块,用于提取所述音频数据段中尾音所对应的数据;
尾音处理模块,用于以所述尾音所对应的数据为原声,复制所述原声并进行降调处理得到中间数据;复制若干份所述中间数据,以分别对每份中间数据进行随机延迟和衰减处理得到若干份和声音效数据;将所述原声和所述和声音效数据混合叠加得到模拟和声的音频数据,如果所述尾音包含间隔,则所述模拟和声的音频数据中仍然包括相同的所述间隔。
7.根据权利要求6所述的装置,其特征在于,所述歌词获取模块包括:
所属歌曲获取单元,用于根据所述待处理的音频数据得到所属歌曲;
文件获取单元,用于获取所述所属歌曲对应的歌曲文件。
8.根据权利要求6所述的装置,其特征在于,所述分割模块包括:
时间提取单元,用于提取所述歌词文件中句子的起始时间和终止时间;
数据分割单元,用于根据所述起始时间和终止时间分割所述音频数据,得到句子对应的音频数据段。
9.根据权利要求8所述的装置,其特征在于,所述提取模块进一步用于根据预设的尾音长度值在所述音频数据段中提取尾音所对应的数据。
10.根据权利要求9所述的装置,其特征在于,所述提取模块包括:
尾音时间运算单元,用于根据所述音频数据段所属句子对应的终止时间和预设的尾音长度值得到尾音开始时间;
起始数据定位单元,用于根据所述尾音开始时间和所述音频数据的采样率在所述音频数据段中定位尾音所对应的起始数据;
数据提取单元,用于在所述音频数据段中以所述起始数据为起始进行数据提取,直至提取至所述音频数据段的尾端,以得到所述尾音对应的数据。
CN201510738376.7A 2015-11-03 2015-11-03 音频数据处理方法和装置 Active CN106653037B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201510738376.7A CN106653037B (zh) 2015-11-03 2015-11-03 音频数据处理方法和装置
EP16861572.2A EP3373299B1 (en) 2015-11-03 2016-11-03 Audio data processing method and device
PCT/CN2016/104402 WO2017076304A1 (zh) 2015-11-03 2016-11-03 音频数据处理方法和装置
JP2018541477A JP6669883B2 (ja) 2015-11-03 2016-11-03 音声データ処理方法及び装置
KR1020187015689A KR102083917B1 (ko) 2015-11-03 2016-11-03 오디오 데이터 처리 방법 및 장치
US15/968,670 US10665218B2 (en) 2015-11-03 2018-05-01 Audio data processing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510738376.7A CN106653037B (zh) 2015-11-03 2015-11-03 音频数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN106653037A CN106653037A (zh) 2017-05-10
CN106653037B true CN106653037B (zh) 2020-02-14

Family

ID=58662548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510738376.7A Active CN106653037B (zh) 2015-11-03 2015-11-03 音频数据处理方法和装置

Country Status (6)

Country Link
US (1) US10665218B2 (zh)
EP (1) EP3373299B1 (zh)
JP (1) JP6669883B2 (zh)
KR (1) KR102083917B1 (zh)
CN (1) CN106653037B (zh)
WO (1) WO2017076304A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653037B (zh) * 2015-11-03 2020-02-14 广州酷狗计算机科技有限公司 音频数据处理方法和装置
CN107452361B (zh) * 2017-08-08 2020-07-07 腾讯音乐娱乐(深圳)有限公司 歌曲分句方法及装置
CN108182953B (zh) * 2017-12-27 2021-03-16 上海传英信息技术有限公司 音频尾部pop音处理方法和装置
CN108172210B (zh) * 2018-02-01 2021-03-02 福州大学 一种基于歌声节奏的演唱和声生成方法
CN108648733B (zh) * 2018-03-15 2020-07-03 北京雷石天地电子技术有限公司 一种迪曲生成方法及系统
CN108831425B (zh) * 2018-06-22 2022-01-04 广州酷狗计算机科技有限公司 混音方法、装置及存储介质
CN112559798B (zh) * 2019-09-26 2022-05-17 北京新唐思创教育科技有限公司 音频内容质量的检测方法及装置
CN111145765B (zh) * 2019-12-31 2022-04-15 思必驰科技股份有限公司 一种音频处理方法、装置、电子设备及存储介质
CN111429880A (zh) * 2020-03-04 2020-07-17 苏州驰声信息科技有限公司 一种切割段落音频的方法、系统、装置、介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1153964A (zh) * 1995-02-27 1997-07-09 雅马哈株式会社 在实际歌唱声上产生虚拟和声的卡拉ok设备
CN1153963A (zh) * 1995-09-13 1997-07-09 雅马哈株式会社 向歌唱及合唱声施加不同效果的卡拉ok设备
CN101567184A (zh) * 2009-03-24 2009-10-28 广州酷狗计算机科技有限公司 一种卡拉ok动感歌词的制作方法
CN102682762A (zh) * 2011-03-15 2012-09-19 新加坡科技研究局 和声合成器及声音信号的和声方法
CN103165119A (zh) * 2013-01-31 2013-06-19 华为技术有限公司 K歌方法及系统
CN103733255A (zh) * 2011-08-10 2014-04-16 索尼公司 信号处理装置和方法、信号处理系统以及程序

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4527274A (en) * 1983-09-26 1985-07-02 Gaynor Ronald E Voice synthesizer
US5621538A (en) * 1993-01-07 1997-04-15 Sirius Publishing, Inc. Method for synchronizing computerized audio output with visual output
JP2838977B2 (ja) * 1995-01-17 1998-12-16 ヤマハ株式会社 カラオケ装置
EP0913808B1 (en) * 1997-10-31 2004-09-29 Yamaha Corporation Audio signal processor with pitch and effect control
US7058889B2 (en) * 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
US20020193895A1 (en) * 2001-06-18 2002-12-19 Ziqiang Qian Enhanced encoder for synchronizing multimedia files into an audio bit stream
WO2004027577A2 (en) * 2002-09-19 2004-04-01 Brian Reynolds Systems and methods for creation and playback performance
US20050123886A1 (en) * 2003-11-26 2005-06-09 Xian-Sheng Hua Systems and methods for personalized karaoke
US7718885B2 (en) * 2005-12-05 2010-05-18 Eric Lindemann Expressive music synthesizer with control sequence look ahead capability
KR100658869B1 (ko) * 2005-12-21 2006-12-15 엘지전자 주식회사 음악생성장치 및 그 운용방법
US20070166683A1 (en) * 2006-01-05 2007-07-19 Apple Computer, Inc. Dynamic lyrics display for portable media devices
US8304642B1 (en) * 2006-03-09 2012-11-06 Robison James Bryan Music and lyrics display method
CN101046956A (zh) * 2006-03-28 2007-10-03 国际商业机器公司 交互式音效产生方法及系统
US7915511B2 (en) * 2006-05-08 2011-03-29 Koninklijke Philips Electronics N.V. Method and electronic device for aligning a song with its lyrics
CN101261865B (zh) * 2007-04-20 2012-07-04 炬力集成电路设计有限公司 媒体电子文件的制作方法、装置及其播放设备及方法
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
JP2011215358A (ja) * 2010-03-31 2011-10-27 Sony Corp 情報処理装置、情報処理方法及びプログラム
US9601127B2 (en) * 2010-04-12 2017-03-21 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
JP5895740B2 (ja) * 2012-06-27 2016-03-30 ヤマハ株式会社 歌唱合成を行うための装置およびプログラム
JP6083764B2 (ja) * 2012-12-04 2017-02-22 国立研究開発法人産業技術総合研究所 歌声合成システム及び歌声合成方法
US9620092B2 (en) * 2012-12-21 2017-04-11 The Hong Kong University Of Science And Technology Composition using correlation between melody and lyrics
JP5817854B2 (ja) * 2013-02-22 2015-11-18 ヤマハ株式会社 音声合成装置およびプログラム
JP6171828B2 (ja) * 2013-10-18 2017-08-02 ヤマハ株式会社 音響効果データ生成方法を実現するためのプログラムおよび音響効果データ生成装置
CN104834642B (zh) * 2014-02-11 2019-06-18 北京三星通信技术研究有限公司 改变音乐演绎风格的方法、装置及设备
JP6283936B2 (ja) * 2014-02-26 2018-02-28 ブラザー工業株式会社 カラオケ装置、及びカラオケ用プログラム
KR101554662B1 (ko) * 2014-04-29 2015-09-21 김명구 디지털 오디오 데이터에 대한 코드 제공 방법 및 이에 의한 사용자 단말
CN105006234B (zh) * 2015-05-27 2018-06-29 广州酷狗计算机科技有限公司 一种k歌处理方法及装置
CN106653037B (zh) * 2015-11-03 2020-02-14 广州酷狗计算机科技有限公司 音频数据处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1153964A (zh) * 1995-02-27 1997-07-09 雅马哈株式会社 在实际歌唱声上产生虚拟和声的卡拉ok设备
CN1153963A (zh) * 1995-09-13 1997-07-09 雅马哈株式会社 向歌唱及合唱声施加不同效果的卡拉ok设备
CN101567184A (zh) * 2009-03-24 2009-10-28 广州酷狗计算机科技有限公司 一种卡拉ok动感歌词的制作方法
CN102682762A (zh) * 2011-03-15 2012-09-19 新加坡科技研究局 和声合成器及声音信号的和声方法
CN103733255A (zh) * 2011-08-10 2014-04-16 索尼公司 信号处理装置和方法、信号处理系统以及程序
CN103165119A (zh) * 2013-01-31 2013-06-19 华为技术有限公司 K歌方法及系统

Also Published As

Publication number Publication date
JP2018537732A (ja) 2018-12-20
US20180247629A1 (en) 2018-08-30
JP6669883B2 (ja) 2020-03-18
EP3373299A1 (en) 2018-09-12
WO2017076304A1 (zh) 2017-05-11
EP3373299B1 (en) 2020-11-04
EP3373299A4 (en) 2019-07-17
US10665218B2 (en) 2020-05-26
KR102083917B1 (ko) 2020-04-23
KR20180088824A (ko) 2018-08-07
CN106653037A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106653037B (zh) 音频数据处理方法和装置
CN106486128B (zh) 一种双音源音频数据的处理方法及装置
CN107464555A (zh) 向包含语音的音频数据添加背景声音
CN106971749A (zh) 音频处理方法及电子设备
US10971125B2 (en) Music synthesis method, system, terminal and computer-readable storage medium
CN106375780B (zh) 一种多媒体文件生成方法及其设备
JP2017513049A (ja) カラオケ曲の演奏に関するフィードバックをユーザに提供する方法
CN112995736A (zh) 语音字幕合成方法、装置、计算机设备及存储介质
WO2023051246A1 (zh) 视频录制方法、装置、设备及存储介质
CN106601220A (zh) 一种录制多人轮唱的方法及装置
CN112712783B (zh) 生成音乐的方法和装置、计算机设备和介质
KR101193362B1 (ko) 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체
TW201832222A (zh) 自動生成配音文字的方法、裝置以及電子設備
KR101580247B1 (ko) 스트리밍 음원의 리듬분석 장치 및 방법
CN112825245B (zh) 实时修音方法、装置及电子设备
CN112071287A (zh) 用于生成歌谱的方法、装置、电子设备和计算机可读介质
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
WO2024001307A1 (zh) 一种语音克隆方法、装置及相关设备
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
US11922911B1 (en) Method and system for performing musical score
CN112750422B (zh) 一种歌声合成方法、装置及设备
Kim et al. Score-Informed MIDI Velocity Estimation for Piano Performance by FiLM Conditioning
CN111048094A (zh) 音频信息调整方法、装置、设备和介质
CN115623279A (zh) 多媒体处理方法、装置、电子设备及存储介质
CN113178182A (zh) 信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant