CN106782627B - 音频文件的重录方法及装置 - Google Patents

音频文件的重录方法及装置 Download PDF

Info

Publication number
CN106782627B
CN106782627B CN201510810824.XA CN201510810824A CN106782627B CN 106782627 B CN106782627 B CN 106782627B CN 201510810824 A CN201510810824 A CN 201510810824A CN 106782627 B CN106782627 B CN 106782627B
Authority
CN
China
Prior art keywords
vocal segments
time
vocal
segments
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510810824.XA
Other languages
English (en)
Other versions
CN106782627A (zh
Inventor
冯穗豫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201510810824.XA priority Critical patent/CN106782627B/zh
Priority to KR1020187017901A priority patent/KR102084979B1/ko
Priority to PCT/CN2016/094649 priority patent/WO2017088527A1/zh
Priority to JP2018526686A priority patent/JP6717940B2/ja
Priority to EP16867754.0A priority patent/EP3382707B1/en
Publication of CN106782627A publication Critical patent/CN106782627A/zh
Priority to US15/968,674 priority patent/US10283168B2/en
Application granted granted Critical
Publication of CN106782627B publication Critical patent/CN106782627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/022Electronic editing of analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/116Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of sound parameters or waveforms, e.g. by graphical interactive control of timbre, partials or envelope
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/035Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/615Waveform editing, i.e. setting or modifying parameters for waveform synthesis.
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本发明公开了一种音频文件的重录方法及装置,属于终端技术领域。所述方法包括:获取第一时间,第一时间为待重录人声片段的起始时间;根据第一时间,播放已录制的第一人声片段,第一人声片段以第一时间为结束时间;当到达第一时间时,采集用户的第一人声数据,得到第二人声片段;对第一人声片段和第二人声片段进行处理,得到重录音频文件。本发明无需将音谱文件录制多次,通过播放待重录人声片段之前的人声片段,使得用户在重新录制待重录人声片段时,能够聆听之前所录制的人声片段,以调整气息、与麦克风的距离、音色等,基于采集到的歌唱数据,移动终端剪辑、拼接得到的音频文件听感效果较佳,听者察觉不出拼接的痕迹。

Description

音频文件的重录方法及装置
技术领域
本发明涉及终端技术领域,特别涉及一种音频文件的重录方法及装置。
背景技术
在现代生活中,为了丰富用户的业余生活,越来越多的录音应用被安装的移动终端中,基于这些录音应用,用户无需走入专业的录音棚,即可录制音频文件。在录制音频文件的过程中,受限于气息、音色等自身条件,所录制的音频文件中的某一人声片段可能无法达到用户的预期效果,为了提高所录制的音频文件的听感效果,需要对音频文件中的该人声片段进行重录。
目前,移动终端中的录音应用提供了重录功能,当接收到用户的重录指令时,移动终端通过扬声器播放伴奏文件,同时通过麦克风采集用户的歌唱数据,得到一个音频文件。当经过多次重录操作,得到多个音频文件后,移动终端通过将多个音频文件进行剪辑、拼接,最终可得到一个重录音频文件。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
通常音频文件中需要重新录制的部分可能仅是一句话或一段话,对整个音频文件进行多次重录,不仅增加了移动终端的资源消耗,而且由于每次重录时用户的气息、与麦克风的距离、音色等控制上的不同,导致移动终端每次采集到的歌唱数据不同,最终剪辑、拼接得到的重录音频文件听感效果依然较差,听者能够很明显的察觉出拼接的痕迹。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种音频文件的重录方法及装置。所述技术方案如下:
一方面,提供了一种音频文件的重录方法,所述方法包括:
获取第一时间,所述第一时间为待重录人声片段的起始时间;
根据所述第一时间,播放已录制的第一人声片段,所述第一人声片段以所述第一时间为结束时间;
当到达所述第一时间时,采集用户的第一人声数据,得到第二人声片段;
对所述第一人声片段和所述第二人声片段进行处理,得到重录音频文件。
另一方面,提供了一种音频文件的重录装置,所述装置包括:
获取模块,用于获取第一时间,所述第一时间为待重录人声片段的起始时间;
第一播放模块,用于根据所述第一时间,播放已录制的第一人声片段,所述第一人声片段以所述第一时间为结束时间;
第一采集模块,用于当到达所述第一时间时,采集用户的第一人声数据,得到第二人声片段;
处理模块,用于对所述第一人声片段和所述第二人声片段进行处理,得到重录音频文件。
本发明实施例提供的技术方案带来的有益效果是:
本发明无需将音谱文件录制多次,通过播放待重录人声片段之前的人声片段,使得用户在重新录制待重录人声片段时,能够聆听之前所录制的人声片段,以调整气息、与麦克风的距离、音色等,基于采集到的歌唱数据,移动终端剪辑、拼接得到的音频文件听感效果较佳,听者察觉不出拼接的痕迹。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种音频文件的重录方法流程图;
图2是本发明另一实施例提供的一种音频文件的重录方法流程图;
图3是本发明另一实施例提供的一种音频文件的录制界面的示意图;
图4是本发明另一实施例提供的一种音谱的示意图;
图5是本发明另一实施例提供的一种音谱的示意图;
图6是本发明另一实施例提供的一种音谱的示意图;
图7是本发明另一实施例提供的一种音谱的示意图;
图8是本发明另一实施例提供的一种对第一目标音谱和第二目标音谱进行拟合的示意图;
图9是本发明另一实施例提供的一种音频文件的重录装置的结构示意图;
图10是本发明另一实施例提供的一种音频文件的重录终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
随着终端技术的发展,为了满足用户的歌唱需要,各种用于录制歌曲的应用被安装在移动终端中。对于一些非专业歌手而言,在录制音频文件时,很难把控自己的气息、感情,导致某些人声片段很难达到用户的预期效果,此时用户常会对这些人声片段进行重录。由于现有技术在对音频文件进行重录时,需要将整个音频文件重录多次,并将多次重录的音频文件进行剪辑、拼接,不仅增加了移动终端的资源消耗,而且所拼接出的音频文件播放以后,听者能够明显感觉到并不是歌者一气呵成的唱作。为此,本发明实施例提供了一种音频文件的重录方法,该方法在重录某一人声片段时,通过播放待重录人声片段之前的一段人声片段,使用户回忆起之前歌唱的情景,通过调整当前歌唱时的音色、力度、与麦克风之间的距离、气息等,使得重录的人声片段尽可能的与之前歌唱的人声片段能够自然衔接。参见图1,本实施例提供的方法流程包括:
101、获取第一时间,该第一时间为待重录人声片段的起始时间。
102、根据第一时间,播放已录制的第一人声片段,该第一人声片段以第一时间为结束时间。
103、当到达第一时间时,采集用户的第一人声数据,得到第二人声片段。
104、对第一人声片段和第二人声片段进行处理,得到重录音频文件。
本发明实施例提供的方法,无需将音谱文件录制多次,通过播放待重录人声片段之前的人声片段,使得用户在重新录制待重录人声片段时,能够聆听之前所录制的人声片段,以调整气息、与麦克风的距离、音色等,基于采集到的歌唱数据,移动终端剪辑、拼接得到的音频文件听感效果较佳,听者察觉不出拼接的痕迹。
在本发明的另一个实施例中,该方法还包括:
在播放已录制的第一人声片段的过程中,采集用户的第二人声数据,得到第三人声片段;
将第二人声片段和第三人声片段作为本次录制的人声片段。
在本发明的另一个实施例中,对第一人声片段和第二人声片段进行处理,得到重录音频文件,包括:
获取第一人声片段对应的第一音谱,并获取第二人声片段对应的第二音谱;
从第一音谱中,获取平稳起始点及平稳起始点对应的第二时间;
从第二音谱中,获取上升起始点及上升起始点对应的第三时间;
以第二时间为起始时间,从本次录制的人声片段中选取第四人声片段;
以第三时间为结束时间,从上次录制的人声片段中选取第五人声片段,上次录制的人声片段包括待重录人声片段和第一人声片段;
对第四人声片段和第五人声片段进行处理,得到重录音频文件;
其中,第二时间早于第一时间,第一时间早于第三时间。
在本发明的另一个实施例中,对第四人声片段和第五人声片段进行处理,得到重录音频文件,包括:
将第四人声片段对应的音谱和第五人声片段对应的音谱进行比对;
从第四人声片段对应的音谱中,获取第一目标音谱,并从第五人声片段对应的音谱中,获取第二目标音谱,第一目标音谱和第二音谱具有相同的起始时间和结束时间;
对第一目标音频和第二目标音谱进行拟合,使得第四人声片段和第五人声片段拼接在一起,得到重录音频文件。
在本发明的另一个实施例中,该方法还包括:
在播放已录制的人声片段及录制人声片段的过程中,播放相应的伴奏文件。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
本发明实施例提供了一种音频文件的重录方法,参见图2,本实施例提供的方法流程包括:
201、移动终端获取第一时间,该第一时间为待重录人声片段的起始时间。
在本实施例中,移动终端可以为智能手机、笔记本电脑、平板电脑等设备,该移动终端中安装有具有重录功能的录音应用,基于所安装的录音应用,用户可随时随地的录制自己喜欢的音频文件,并将录制好的音频文件分享给好友。
在录制音频文件的过程中,如果所录制的人声片段没有达到用户的预期效果或录制过程中得分较低,用户可根据录音应用所提供的重录功能,对该人声片段进行重录。其中,待重录人声片段可以为一句歌词、一个段落等,该待重录人声片段在音频文件中对应一个起始时间和结束时间。本实施例以待重录人声片段的起始时间为第一时间为例,该第一时间并不是绝对时间,而是相对音频文件起始播放时刻的时间,可用于表征音频文件的播放时刻或录制进度。该第一时间应小于音频文件的播放时长,例如,音频文件的播放时长为4分钟,起始播放时刻为00:00,该第一时间为音频文件的第1分钟30秒、第2分钟等。当获取音频文件的播放时长及第一时间,还可获知待重录人声片段在音频文件中的位置,例如,音频文件的时长为4分钟,第一时间为音频文件的第2分钟为例,则可获知待重录人声片段位于音频文件的中点处。
需要说明的是,本实施例中涉及到多个人声片段,为了将这些不同的人声片段区分开来,本实施将未达到用户预期效果需要重新录制的人声片段称为待重录人声片段,将本次所播放的人声片段称为第一人声片段,将播放第一人声片段过程中所录制的人声片段称为第三人声片段,将本次重新录制的人声片段称为第二人声片段,将从本次所录制的人声片段中所选取的人声片段称为第四人声片段,将从上次所录制的人声片段中所选取的人声片段称为第五人声片段。
202、移动终端根据第一时间,播放已录制的第一人声片段,该第一人声片段以第一时间为结束时间。
通常用户在唱歌的时候,都会不经意地调整气息和情绪以配合当前所歌唱的歌词,这使得在重录待重录人声片段的过程中,用户很难找准歌唱前一句歌词时使用的气息和情绪,导致重录音频文件听感效果不佳。为了提高重录音频文件的听感效果,当待重录人声片段确定后,移动终端还将根据待重录人声片段的起始时间,从已录制的音频文件中,确定需要播放的第一人声片段,该第一人声片段应以第一时间为结束时间,可以为待重录人声片段之前的一句歌词、两句歌词,还可以为待重录人声片段之前的一段歌词、二段歌词等,本实施例不对第一人声片段的长度作具体的限定。为使重录后的音频文件更为自然,播放效果更佳,移动终端在根据第一时间,确定第一人声片段时,可将第一人声片段的长度选取的尽量长一些。以录制歌曲《同桌的你》为例,参见图3,图3为歌曲《同桌的你》的录制界面,如果用户想要重新录制“才想起同桌的你”这一句歌词,即待重录人声片段为“才想起同桌的你”,并获取到该句歌词的起始时间为音频文件的第39秒,则移动终端可将“猜不出问题的你,我也是偶然翻相片”作为第一人声片段。
之后,移动终端将通过麦克风播放该已录制的第一人声片段。为了最大限度地还原上一次的录制场景,移动终端在播放已录制的第一人声片段的过程中,还将根据该第一人声片段对应的时间,播放与该时间相应的伴奏文件,该伴奏文件的播放时长与音频文件的播放时长相同,且音频文件中的人声片段与伴奏文件的中的伴奏片段一一对应。例如,第一人声片段的起始时间为音频文件的第1分钟06秒、结束时间为2分钟13秒,移动终端在通过麦克风播放该第一人声片段时,还将同步播放第一人声片段对应的伴奏文件。
203、在播放已录制的第一人声片段的过程中,移动终端采集用户的第二人声数据,得到第三人声片段。
在移动终端播放已录制的第一人声片段时,用户即可跟随第一人声片段及相应的伴奏文件重唱第一人声片段,此时麦克风等设备将采集用户的第二人声数据,并将采集到的第二人声数据存储到缓存等存储介质中,得到第三人声片段。该第三人声片段与第一人声片段具有相同的音频内容,即第三人声片段和第一人声片段对应音频文件中相同的歌词。
204、当到达第一时间时,移动终端采集用户的第一人声数据,得到第二人声片段,并将第二人声片段和第三人声片段作为本次录制的人声片段。
当到达第一人声片段的结束时间第一时间时,移动终端通过麦克风等设备采集用户的第一人声数据,并将采集到的第一人声数据存储到缓存等存储介质中,得到第二人声片段,该第二人声片段与待重录人声片段具有相同的音频内容,即第二人声片段与待重录人声片段对应音频文件中相同的歌词。
至此,在本次重录过程中,移动终端总计录制了两段人声片段,分别为第三人声片段和第二人声片段,移动终端将第三人声片段和第二人声片段作为本次录制的人声片段。
205、移动终端对第一人声片段和第二人声片段进行处理,得到重录音频文件。
经过上述步骤201~204,移动终端获取到用户较为满意的第二人声片段,但该第二人声片段并未与第一人声片段相连,而是与第三人声片段连接在一起,且第一人声片段也未与第二人声片段相连,而是与待重录人声片段相连,此时移动终端需要对第一人声片段和第二人声片段进行处理,使得第一人声片段和第二人声片段能够自然的拼接在一起,得到重录音频文件。
移动终端在对第一人声片段和第二人声片段进行处理时,可采用如下步骤2051~2056:
2051、移动终端获取第一人声片段对应的第一音谱,并获取第二人声片段对应的第二音谱。
众所周知声音在空气中传播可以形成声波,每个声波都对应一个音谱。本实施例正是基于第一人声片段对应的音谱、第二人声片段对应的音谱,对第一人声片段和第二人声片段进行处理的。为了便于后续叙述,本实施例将第一人声片段对应的音谱称为第一音谱,将第二人声片段对应的音谱称为第二音谱。参见图4,图4中401为伴奏文件对应的音谱,402为第一人声片段对应的第一音谱,403为第一人声片段之前的人声片段对应的音谱,404为待重录人声片段对应的音谱,405为以待重录人声片段为起点已录制人声片段对应的音谱。
在本实施例中,移动终端获取第一人声片段对应的第一音谱时,可将第一人声片段输入到示波器中,得到第一人声片段对应的第一音谱。移动终端在获取第二人声片段对应的第二音谱时,可将第二人声片段谱输入到示波器中,得到第二人声片段对应的第二音谱。
上述仅为获取第一人声片段对应的第一音谱、以及第二人声片段对应的第二音谱的一种方式,在实际应用中,还可以采用其他方式获取第一人声片段对应的第一音谱及第二人声片段对应的第二音谱,本实施例对此不再一一说明。
2052、移动终端从第一音谱中,获取平稳起始点及平稳起始点对应的第二时间。
在一句歌词歌唱完成的过程中,麦克风等设备采集到的人声片段对应的音谱趋于稳定且音谱幅值逐渐较小,从音谱趋于稳定的起始点开始,麦克风等设备所采集到的人声片段通常仅为用户的气息等,并无人声数据。本实施例将音谱趋于稳定的起始点称为平稳起始点,将平稳起始点对应的时间称为第二时间。其中,第二时间可以为音频文件的第1分钟、音频文件的第3分钟等,本实施例不对第二时间的大小作具体的限定,只需保证第二时间早于第一时间即可。参见图5,图5中的A为第一人声片段对应的第一音谱,B为待重录人声片段对应的第二音谱,S为第一音谱中的平稳起始点,设定S点对应的时间为t1
2053、移动终端从第二音谱中,获取上升起始点及上升起始点对应的第三时间。
在开始歌唱一句歌词的过程中,麦克风等设备采集到的人声片段对应的音谱逐渐上升且音谱幅值逐渐增大,从音谱开始上升的起始点开始,麦克风等设备采集到的人声片段开始有用户的人声数据。本实施例将音谱趋于上升的起始点称为上升起始点,将上升起始点对应的时间称为第三时间。其中,第三时间可以为音频文件的第3分钟、音频文件的第5分钟等,本实施例不对第三时间的大小作具体的限定,只需保证第一时间早于第三时间即可。参见图6,图6中的A`为第三人声片段对应的音谱,C为第二人声片段对应的音谱,E为第二音谱中的上升起始点,设定E点对应的时间为t2
2054、移动终端以第二时间为起始时间,从本次录制的人声片段中选取第四人声片段。
为了获取到听感较佳的音频文件,无论是上次采集到的人声片段,还是本次采集到的人声片段,移动终端都会将采集到的人声片段存储在缓存等存储介质中。为使第一人声片段和第二人声片段自然拼接在一起,移动终端可对第一人声片段和第二人声片段中无人声数据的部分进行拼接。
为了更好地做到无缝拼接,移动终端可以第二时间为起始时间,从本次录制的人声片段中选取第四人声片段,该第四人声片段包括第三人声片段中的部分及第二人声片段,该第三人声片段中的部分以第二时间为起始时间、以第三时间为结束时间。参见图7,第四人声片段包括第三人声片段中的部分及第二人声片段C。
2055、移动终端以第三时间为结束时间,从上次录制的人声片段中选取第五人声片段,上次录制的人声片段包括待重录人声片段和第一人声片段。
为了将第一人声片段和第二人声片段更好地拼接在一起,移动终端还将以第三时间为结束时间,从上次录制的人声片段中选取第五人声片段,该上次录制的人声片段包括待重录人声片段和第一人声片段,相应地,第五人声片段包括第一人声片段和待重录人声片段中的部分,该待重录人声片段的部分以第二时间为起始时间、以第三时间为结束时间。参见图7,第五人声片段包括第一人声片段A及待重录人声片段中的部分。
2056、移动终端对第四人声片段和第五人声片段进行处理,得到重录音频文件。
移动终端在对第四人声片段和第五人声片段进行处理,得到重录音频文件时,可采用如下步骤a~c:
a、移动终端将第四人声片段对应的音谱和第五人声片段对应的音谱进行比对。
通常人声片段的音谱可以反应出人声片段在某一时刻的振幅情况,移动终端通过将第四人声片段对应的音谱和第五人声片段对应的音谱进行比较,可获取到第四人声片段和第五人声片段振幅较小的部分,该振幅较小部分并无人声,在该部分对第四人声片段和第五人声片段进行拼接,不会影响到整个音频文件的完整性。
b、移动终端从第四人声片段对应的音谱中,获取第一目标音谱,并从第五人声片段对应的音谱中,获取第二目标音谱。
其中,移动终端通过将第四人声片段对应的音谱和第五人声片段对应的音谱进行比较,可从第四人声片段对应的音谱中,获取到第一目标音谱,从第五人声片段对应的音谱中,获取第二目标音谱。第一目标音谱和第二音谱具有相同的起始时间和结束时间,该第一目标音谱为第四人声片段中振幅较小部分,该第二目标音谱为第五人声片段中振幅较小部分。
c、移动终端对第一目标音频和第二目标音谱进行拟合,使得第四人声片段和第五人声片段拼接在一起,得到重录音频文件。
移动终端在对第一目标音谱和第二目标音谱进行拟合时,可选取一次函数、二次函数、指定参数等作为第一目标音谱和第二目标音谱的权重值,并基于所选取的权重值对第一目标音谱和第二目标音谱的振幅进行拟合,通过拟合可使第四人声片段和第五人声片段拼接在一起,进而将第一人声片段和第二人声片段也拼接在一起,得到重录音频文件。为保证拼接在一起的第四人声片段和第五人声片段更自然,移动终端在为第一目标音谱和第二目标音谱选取权重值时,可为第一目标音谱的权重值和第二目标音谱的权重值选取相同的数值或函数。参见图8,图8为对第一目标音谱和第二目标音谱进行拟合的示意图,其中,X为第一目标音谱,Y为第二目标音谱,s、t为二次函数,s为第一目标音谱对应的权重值,t为第二目标音谱对应的权重值,,基于二次函数s和t,移动终端通过对第一目标音谱和第二目标音谱进行拟合,可使第四人声片段和第五人声片段平滑地连接在一起。
需要说明的是,上述以移动终端在重录音频文件的过程中,仅采集用户的人声数据为例进行说明,在实际应用中,移动终端还可同时采集人声数据和伴奏数据,并将采集到的人声数据和伴奏数据整合成重录音谱文件。
本发明实施例提供的方法,无需将音谱文件录制多次,通过播放待重录人声片段之前的人声片段,使得用户在重新录制待重录人声片段时,能够聆听之前所录制的人声片段,以调整气息、与麦克风的距离、音色等,基于采集到的歌唱数据,移动终端剪辑、拼接得到的音频文件听感较佳,听者察觉不出拼接的痕迹。
参见图9,本发明实施例提供了一种音频文件的重录装置的结构示意图,该装置包括:
获取模块901,用于获取第一时间,第一时间为待重录人声片段的起始时间;
第一播放模块902,用于根据第一时间,播放已录制的第一人声片段,第一人声片段以第一时间为结束时间;
第一采集模块903,用于当到达第一时间时,采集用户的第一人声数据,得到第二人声片段;
处理模块904,用于对第一人声片段和第二人声片段进行处理,得到重录音频文件。
在本发明的另一个实施例中,该装置还包括:
第二采集模块,用于在播放已录制的第一人声片段的过程中,采集用户的第二人声数据,得到第三人声片段;将第二人声片段和第三人声片段作为本次录制的人声片段。
在本发明的另一个实施例中,处理模块904,用于获取第一人声片段对应的第一音谱,并获取第二人声片段对应的第二音谱;从第一音谱中,获取平稳起始点及平稳起始点对应的第二时间;从第二音谱中,获取上升起始点及上升起始点对应的第三时间;以第二时间为起始时间,从本次录制的人声片段中选取第四人声片段;以第三时间为结束时间,从上次录制的人声片段中选取第五人声片段,上次录制的人声片段包括待重录人声片段和第一人声片段;对第四人声片段和第五人声片段进行处理,得到重录音频文件;
其中,第二时间早于第一时间,第一时间早于第三时间。
在本发明的另一个实施例中,处理模块904,还用于将第四人声片段对应的音谱和第五人声片段对应的音谱进行比对;从第四人声片段对应的音谱中,获取第一目标音谱,并从第五人声片段对应的音谱中,获取第二目标音谱,第一目标音谱和第二音谱具有相同的起始时间和结束时间;对第一目标音频和第二目标音谱进行拟合,使得第四人声片段和第五人声片段拼接在一起,得到重录音频文件。
在本发明的另一个实施例中,该装置还包括:
第二播放模块,用于在播放已录制的人声片段及录制人声片段的过程中,播放相应的伴奏文件。
综上,本发明实施例提供的装置,无需将音谱文件录制多次,通过播放待重录人声片段之前的人声片段,使得用户在重新录制待重录人声片段时,能够聆听之前所录制的人声片段,以调整气息、与麦克风的距离、音色等,基于采集到的歌唱数据,移动终端剪辑、拼接得到的音频文件听感较佳,听者察觉不出拼接的痕迹。
参见图10,其示出了本发明实施例所涉及音频文件的重录终端的结构示意图,该终端可以用于实施上述实施例中提供的音频文件的重录方法。具体来讲:
终端1000可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(Wireless Fidelity,无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图10中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端1000的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端1000的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图10中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端1000还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端1000移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端1000还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端1000之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端1000的通信。
WiFi属于短距离无线传输技术,终端1000通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块170,但是可以理解的是,其并不属于终端1000的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端1000的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端1000的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;可选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端1000还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端1000还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端1000的显示单元是触摸屏显示器,终端1000还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行以下操作的指令:
获取第一时间,第一时间为待重录人声片段的起始时间;
根据第一时间,播放已录制的第一人声片段,第一人声片段以第一时间为结束时间;
当到达第一时间时,采集用户的第一人声数据,得到第二人声片段;
对第一人声片段和第二人声片段进行处理,得到重录音频文件。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
该方法还包括:
在播放已录制的第一人声片段的过程中,采集用户的第二人声数据,得到第三人声片段;
将第二人声片段和第三人声片段作为本次录制的人声片段。
假设上述为第二种可能的实施方式,则在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
对第一人声片段和第二人声片段进行处理,得到重录音频文件,包括:
获取第一人声片段对应的第一音谱,并获取第二人声片段对应的第二音谱;
从第一音谱中,获取平稳起始点及平稳起始点对应的第二时间;
从第二音谱中,获取上升起始点及上升起始点对应的第三时间;
以第二时间为起始时间,从本次录制的人声片段中选取第四人声片段;
以第三时间为结束时间,从上次录制的人声片段中选取第五人声片段,上次录制的人声片段包括待重录人声片段和第一人声片段;
对第四人声片段和第五人声片段进行处理,得到重录音频文件;
其中,第二时间早于第一时间,第一时间早于第三时间。
假设上述为第三种可能的实施方式,则在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
对第四人声片段和第五人声片段进行处理,得到重录音频文件,包括:
将第四人声片段对应的音谱和第五人声片段对应的音谱进行比对;
从第四人声片段对应的音谱中,获取第一目标音谱,并从第五人声片段对应的音谱中,获取第二目标音谱,第一目标音谱和第二音谱具有相同的起始时间和结束时间;
对第一目标音频和第二目标音谱进行拟合,使得第四人声片段和第五人声片段拼接在一起,得到重录音频文件。
假设上述为第四种可能的实施方式,则在第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
该方法还包括:
在播放已录制的人声片段及录制人声片段的过程中,播放相应的伴奏文件。
本发明实施例提供的终端,无需将音谱文件录制多次,通过播放待重录人声片段之前的人声片段,使得用户在重新录制待重录人声片段时,能够聆听之前所录制的人声片段,以调整气息、与麦克风的距离、音色等,基于采集到的歌唱数据,移动终端剪辑、拼接得到的音频文件听感较佳,听者察觉不出拼接的痕迹。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序,该一个或者一个以上程序被一个或者一个以上的处理器用来执行音频文件的重录,该方法包括:
获取第一时间,第一时间为待重录人声片段的起始时间;
根据第一时间,播放已录制的第一人声片段,第一人声片段以第一时间为结束时间;
当到达第一时间时,采集用户的第一人声数据,得到第二人声片段;
对第一人声片段和第二人声片段进行处理,得到重录音频文件。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
该方法还包括:
在播放已录制的第一人声片段的过程中,采集用户的第二人声数据,得到第三人声片段;
将第二人声片段和第三人声片段作为本次录制的人声片段。
假设上述为第二种可能的实施方式,则在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
对第一人声片段和第二人声片段进行处理,得到重录音频文件,包括:
获取第一人声片段对应的第一音谱,并获取第二人声片段对应的第二音谱;
从第一音谱中,获取平稳起始点及平稳起始点对应的第二时间;
从第二音谱中,获取上升起始点及上升起始点对应的第三时间;
以第二时间为起始时间,从本次录制的人声片段中选取第四人声片段;
以第三时间为结束时间,从上次录制的人声片段中选取第五人声片段,上次录制的人声片段包括待重录人声片段和第一人声片段;
对第四人声片段和第五人声片段进行处理,得到重录音频文件;
其中,第二时间早于第一时间,第一时间早于第三时间。
假设上述为第三种可能的实施方式,则在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
对第四人声片段和第五人声片段进行处理,得到重录音频文件,包括:
将第四人声片段对应的音谱和第五人声片段对应的音谱进行比对;
从第四人声片段对应的音谱中,获取第一目标音谱,并从第五人声片段对应的音谱中,获取第二目标音谱,第一目标音谱和第二音谱具有相同的起始时间和结束时间;
对第一目标音频和第二目标音谱进行拟合,使得第四人声片段和第五人声片段拼接在一起,得到重录音频文件。
假设上述为第四种可能的实施方式,则在第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
该方法还包括:
在播放已录制的人声片段及录制人声片段的过程中,播放相应的伴奏文件。
本发明实施例提供的计算机可读存储介质,无需将音谱文件录制多次,通过播放待重录人声片段之前的人声片段,使得用户在重新录制待重录人声片段时,能够聆听之前所录制的人声片段,以调整气息、与麦克风的距离、音色等,基于采集到的歌唱数据,移动终端剪辑、拼接得到的音频文件听感较佳,听者察觉不出拼接的痕迹。
本发明实施例中提供了一种图形用户接口,该图形用户接口用在音频文件的重录终端上,该执行音频文件的重录终端包括触摸屏显示器、存储器和用于执行一个或者一个以上的程序的一个或者一个以上的处理器;该图形用户接口包括:
获取第一时间,第一时间为待重录人声片段的起始时间;
根据第一时间,播放已录制的第一人声片段,第一人声片段以第一时间为结束时间;
当到达第一时间时,采集用户的第一人声数据,得到第二人声片段;
对第一人声片段和第二人声片段进行处理,得到重录音频文件。
本发明实施例提供的图形用户接口,无需将音谱文件录制多次,通过播放待重录人声片段之前的人声片段,使得用户在重新录制待重录人声片段时,能够聆听之前所录制的人声片段,以调整气息、与麦克风的距离、音色等,基于采集到的歌唱数据,移动终端剪辑、拼接得到的音频文件听感较佳,听者察觉不出拼接的痕迹。
需要说明的是:上述实施例提供的音频文件的重录装置在重录音频文件时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将音频文件的重录装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频文件的重录装置与音频文件的重录方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种音频文件的重录方法,其特征在于,所述方法包括:
获取第一时间,所述第一时间为待重录人声片段的起始时间;
根据所述第一时间,播放已录制的第一人声片段,所述第一人声片段以所述第一时间为结束时间;
在播放已录制的第一人声片段的过程中,采集用户的第二人声数据,得到第三人声片段;
当到达所述第一时间时,采集所述用户的第一人声数据,得到第二人声片段;
将所述第二人声片段和所述第三人声片段作为本次录制的人声片段;
获取所述第一人声片段对应的第一音谱,并获取所述第二人声片段对应的第二音谱;
从所述第一音谱中,获取平稳起始点及所述平稳起始点对应的第二时间;
从所述第二音谱中,获取上升起始点及所述上升起始点对应的第三时间;
以所述第二时间为起始时间,从所述本次录制的人声片段中选取第四人声片段;所述第四人声片段包括所述第三人声片段中的部分及所述第二人声片段,所述第三人声片段中的部分以所述第二时间为起始时间、以所述第三时间为结束时间;
以所述第三时间为结束时间,从上次录制的人声片段中选取第五人声片段,所述上次录制的人声片段包括所述待重录人声片段和所述第一人声片段;所述第五人声片段包括所述第一人声片段和所述待重录人声片段中的部分,所述待重录人声片段的部分以所述第二时间为起始时间、以所述第三时间为结束时间;
对所述第四人声片段和所述第五人声片段进行处理,得到所述重录音频文件;
其中,所述第二时间早于所述第一时间,所述第一时间早于所述第三时间。
2.根据权利要求1所述的方法,其特征在于,所述对所述第四人声片段和所述第五人声片段进行处理,得到所述重录音频文件,包括:
将所述第四人声片段对应的音谱和所述第五人声片段对应的音谱进行比对;
从所述第四人声片段对应的音谱中,获取第一目标音谱,并从所述第五人声片段对应的音谱中,获取第二目标音谱,所述第一目标音谱和所述第二音谱具有相同的起始时间和结束时间;
对所述第一目标音频和所述第二目标音谱进行拟合,使得所述第四人声片段和所述第五人声片段拼接在一起,得到所述重录音频文件。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在播放已录制的人声片段及录制人声片段的过程中,播放相应的伴奏文件。
4.一种音频文件的重录装置,其特征在于,所述装置包括:
获取模块,用于获取第一时间,所述第一时间为待重录人声片段的起始时间;
第一播放模块,用于根据所述第一时间,播放已录制的第一人声片段,所述第一人声片段以所述第一时间为结束时间;
第二采集模块,用于在播放已录制的第一人声片段的过程中,采集用户的第二人声数据,得到第三人声片段;将所述第二人声片段和所述第三人声片段作为本次录制的人声片段;
第一采集模块,用于当到达所述第一时间时,采集所述用户的第一人声数据,得到第二人声片段;
处理模块,用于获取所述第一人声片段对应的第一音谱,并获取所述第二人声片段对应的第二音谱;从所述第一音谱中,获取平稳起始点及所述平稳起始点对应的第二时间;从所述第二音谱中,获取上升起始点及所述上升起始点对应的第三时间;以所述第二时间为起始时间,从所述本次录制的人声片段中选取第四人声片段,所述第四人声片段包括所述第三人声片段中的部分及所述第二人声片段,所述第三人声片段中的部分以所述第二时间为起始时间、以所述第三时间为结束时间;以所述第三时间为结束时间,从上次录制的人声片段中选取第五人声片段,所述上次录制的人声片段包括所述待重录人声片段和所述第一人声片段,所述第五人声片段包括所述第一人声片段和所述待重录人声片段中的部分,所述待重录人声片段的部分以所述第二时间为起始时间、以所述第三时间为结束时间;对所述第四人声片段和所述第五人声片段进行处理,得到所述重录音频文件;其中,所述第二时间早于所述第一时间,所述第一时间早于所述第三时间。
5.根据权利要求4所述的装置,其特征在于,所述处理模块,还用于将所述第四人声片段对应的音谱和所述第五人声片段对应的音谱进行比对;从所述第四人声片段对应的音谱中,获取第一目标音谱,并从所述第五人声片段对应的音谱中,获取第二目标音谱,所述第一目标音谱和所述第二音谱具有相同的起始时间和结束时间;对所述第一目标音频和所述第二目标音谱进行拟合,使得所述第四人声片段和所述第五人声片段拼接在一起,得到所述重录音频文件。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
第二播放模块,用于在播放已录制的人声片段及录制人声片段的过程中,播放相应的伴奏文件。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,所述程序用于实现如权利要求1至3任一所述的音频文件的重录方法。
CN201510810824.XA 2015-11-23 2015-11-23 音频文件的重录方法及装置 Active CN106782627B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201510810824.XA CN106782627B (zh) 2015-11-23 2015-11-23 音频文件的重录方法及装置
KR1020187017901A KR102084979B1 (ko) 2015-11-23 2016-08-11 오디오 파일 재 녹음 방법, 장치 및 저장매체
PCT/CN2016/094649 WO2017088527A1 (zh) 2015-11-23 2016-08-11 音频文件的重录方法、装置及存储介质
JP2018526686A JP6717940B2 (ja) 2015-11-23 2016-08-11 オーディオファイルの再録音方法、装置及び記憶媒体
EP16867754.0A EP3382707B1 (en) 2015-11-23 2016-08-11 Audio file re-recording method, device and storage medium
US15/968,674 US10283168B2 (en) 2015-11-23 2018-05-01 Audio file re-recording method, device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510810824.XA CN106782627B (zh) 2015-11-23 2015-11-23 音频文件的重录方法及装置

Publications (2)

Publication Number Publication Date
CN106782627A CN106782627A (zh) 2017-05-31
CN106782627B true CN106782627B (zh) 2019-08-27

Family

ID=58763915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510810824.XA Active CN106782627B (zh) 2015-11-23 2015-11-23 音频文件的重录方法及装置

Country Status (6)

Country Link
US (1) US10283168B2 (zh)
EP (1) EP3382707B1 (zh)
JP (1) JP6717940B2 (zh)
KR (1) KR102084979B1 (zh)
CN (1) CN106782627B (zh)
WO (1) WO2017088527A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358969A (zh) * 2017-07-19 2017-11-17 无锡冰河计算机科技发展有限公司 一种录音融合方法
CN108022604A (zh) * 2017-11-28 2018-05-11 北京小唱科技有限公司 补录音频内容的方法和装置
CN109378018A (zh) * 2018-10-18 2019-02-22 广州酷狗计算机科技有限公司 多媒体文件的录制方法、装置、终端及存储介质
CN110136752B (zh) * 2019-06-04 2021-01-26 广州酷狗计算机科技有限公司 音频处理的方法、装置、终端及计算机可读存储介质
CN110688082B (zh) * 2019-10-10 2021-08-03 腾讯音乐娱乐科技(深圳)有限公司 确定音量的调节比例信息的方法、装置、设备及存储介质
CN112382310B (zh) * 2020-11-12 2022-09-27 北京猿力未来科技有限公司 一种人声音频录制方法和装置
CN112837709B (zh) 2021-02-24 2022-07-22 北京达佳互联信息技术有限公司 一种音频文件拼接的方法及装置
CN113438434A (zh) * 2021-08-26 2021-09-24 视见科技(杭州)有限公司 基于文本的音频/视频重录方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548618B1 (en) * 2010-09-13 2013-10-01 Audible, Inc. Systems and methods for creating narration audio

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2877981B2 (ja) * 1991-04-26 1999-04-05 シャープ株式会社 記録再生装置
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6111709A (en) * 1997-09-24 2000-08-29 Sony Corporation Digital recorder with seamless punch-out
US6064961A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
JP3978909B2 (ja) * 1998-12-03 2007-09-19 ヤマハ株式会社 カラオケ装置
WO2003038808A1 (en) * 2001-10-31 2003-05-08 Koninklijke Philips Electronics N.V. Method of and system for transcribing dictations in text files and for revising the texts
US7231351B1 (en) * 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
US7979281B2 (en) * 2003-04-29 2011-07-12 Custom Speech Usa, Inc. Methods and systems for creating a second generation session file
US8109765B2 (en) * 2004-09-10 2012-02-07 Scientific Learning Corporation Intelligent tutoring feedback
GB2431489A (en) * 2005-10-14 2007-04-25 Fabularo Ltd Method for the manufacture of an audio book
US20080140652A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Authoring tool
US8751022B2 (en) * 2007-04-14 2014-06-10 Apple Inc. Multi-take compositing of digital media assets
CN101840722A (zh) * 2009-03-18 2010-09-22 美商原创分享控股集团有限公司 线上影音编辑处理方法、装置及系统
US8370151B2 (en) * 2009-01-15 2013-02-05 K-Nfb Reading Technology, Inc. Systems and methods for multiple voice document narration
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8825488B2 (en) * 2010-04-12 2014-09-02 Adobe Systems Incorporated Method and apparatus for time synchronized script metadata
US9031493B2 (en) * 2011-11-18 2015-05-12 Google Inc. Custom narration of electronic books
WO2014088036A1 (ja) * 2012-12-04 2014-06-12 独立行政法人産業技術総合研究所 歌声合成システム及び歌声合成方法
US9280906B2 (en) * 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
CN104347096A (zh) * 2013-08-09 2015-02-11 上海证大喜马拉雅网络科技有限公司 集音频裁剪、续录及合并于一体的录音系统和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548618B1 (en) * 2010-09-13 2013-10-01 Audible, Inc. Systems and methods for creating narration audio

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
willow software.Anvil Studio ™User’s Guide.《willow software》.2011,第3页. *

Also Published As

Publication number Publication date
JP6717940B2 (ja) 2020-07-08
WO2017088527A1 (zh) 2017-06-01
EP3382707B1 (en) 2020-10-28
US10283168B2 (en) 2019-05-07
US20180247675A1 (en) 2018-08-30
EP3382707A4 (en) 2019-08-07
CN106782627A (zh) 2017-05-31
KR102084979B1 (ko) 2020-03-05
EP3382707A1 (en) 2018-10-03
JP2019505944A (ja) 2019-02-28
KR20180090294A (ko) 2018-08-10

Similar Documents

Publication Publication Date Title
CN106782627B (zh) 音频文件的重录方法及装置
CN105788612B (zh) 一种检测音质的方法和装置
CN106251890B (zh) 一种录制歌曲音频的方法、装置和系统
CN103440862B (zh) 一种语音与音乐合成的方法、装置以及设备
CN105549740B (zh) 一种播放音频数据的方法和装置
CN104427083B (zh) 调节音量的方法和装置
CN105554522B (zh) 在群组内播放音频的方法、服务器及终端
CN106210755B (zh) 一种播放直播视频的方法、装置和系统
CN106328176B (zh) 一种生成歌曲音频的方法和装置
CN106231433B (zh) 一种播放网络视频的方法、装置和系统
US20160337279A1 (en) Information interaction method and terminal
CN106126160B (zh) 一种音效调节方法及用户终端
CN105957544B (zh) 歌词显示方法及装置
CN110830368B (zh) 即时通讯消息发送方法及电子设备
CN105550316B (zh) 音频列表的推送方法及装置
CN107734426A (zh) 音频信号处理方法、终端及计算机可读存储介质
CN106887244B (zh) 音频切换方法及装置
CN106558299A (zh) 音频演绎的模式切换方法及装置
CN109862430A (zh) 多媒体播放方法及终端设备
CN105976849B (zh) 一种播放音频数据的方法和装置
CN106792014B (zh) 一种推荐音频的方法、装置及系统
CN106057213B (zh) 一种显示人声音高数据的方法和装置
CN105808716B (zh) 闹钟提醒方法、装置及终端
CN106098088B (zh) 一种显示歌词的方法和装置
CN106228994B (zh) 一种检测音质的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 510660 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17

Applicant after: Guangzhou KuGou Networks Co., Ltd.

Address before: 510000 B1, building, No. 16, rhyme Road, Guangzhou, Guangdong, China 13F

Applicant before: Guangzhou KuGou Networks Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant