JP6717940B2 - オーディオファイルの再録音方法、装置及び記憶媒体 - Google Patents

オーディオファイルの再録音方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP6717940B2
JP6717940B2 JP2018526686A JP2018526686A JP6717940B2 JP 6717940 B2 JP6717940 B2 JP 6717940B2 JP 2018526686 A JP2018526686 A JP 2018526686A JP 2018526686 A JP2018526686 A JP 2018526686A JP 6717940 B2 JP6717940 B2 JP 6717940B2
Authority
JP
Japan
Prior art keywords
recording segment
recording
time
segment
audio file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018526686A
Other languages
English (en)
Other versions
JP2019505944A (ja
Inventor
▲穂▼豫 ▲馮▼
▲穂▼豫 ▲馮▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Publication of JP2019505944A publication Critical patent/JP2019505944A/ja
Application granted granted Critical
Publication of JP6717940B2 publication Critical patent/JP6717940B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/022Electronic editing of analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/116Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of sound parameters or waveforms, e.g. by graphical interactive control of timbre, partials or envelope
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/035Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/615Waveform editing, i.e. setting or modifying parameters for waveform synthesis.
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本願は出願日2015年11月23日、出願番号201510810824.X、及び発明の名称「オーディオファイルの再録音方法及び装置」の中国特許出願の優先権を主張し、その内容は全体として参照により本明細書に取り込まれる。
本発明は、端末技術の分野に関し、特に、オーディオファイルの再録音方法、装置及び記憶媒体に関するものである。
現在、ユーザの余暇を豊かにするために、ますます多くの録音アプリケーションがモバイル端末にインストールされている。ユーザは、これらの録音アプリケーションに基づいて、プロの録音スタジオに入らずにオーディオファイルを録音することができる。オーディオファイルの録音中において、息や音質などの自分自身の条件によって制限され、録音されたオーディオファイル内のある音声セグメントは、ユーザの所望の効果を達成できないことがある。録音されたオーディオファイルのオーディオ効果を向上させるためには、オーディオファイル内の当該音声セグメントを再録音する必要がある。
現在、移動端末における録音アプリケーションは、再録音機能を提供する。再録音命令を受信すると、移動端末はスピーカを介して伴奏ファイルを再生すると同時に、ユーザの音声をマイクロフォンを介して収集して、一つの音声ファイルを得る。複数回の別個の再録音動作を実行して、複数のオーディオファイルを得た後、移動端末は、複数のオーディオファイルを編集して繋ぎ合わせることにより、最終的に再録音されたオーディオファイルを得ることができる。
通常、オーディオファイルにおける再録音する必要がある部分は、1つの言葉または1つの段落だけである可能性がある。オーディオファイル全体を複数回再録音する場合、移動端末のリソース消費を増加させるだけでなく、毎回の再録音時のユーザの呼吸、マイクロフォンまでの距離、音色などに対する制御の違いによって、移動端末によって収集されたデータが毎回異なるようになり、最終的に編集して繋ぎ合わせることによって得られた再録音されたオーディオファイルのオーディオ効果は依然として悪く、繋ぎ合わせの痕跡がはっきりと認識されることがある。
発明の実施形態は、オーディオファイルの再録音方法および装置、並びに不揮発性メモリ記憶媒体を提供する。
一形態において、
再録音待ちの録音セグメントの第1開始時間である第1時間を決定することと、
前記第1時間を第1終了時間として録音された第1録音セグメントを再生することと、
前記第1時間に達すると、ユーザの第1音声データを収集して、第2録音セグメントを得ることと、
前記第1録音セグメントと前記第2録音セグメントを処理して、再録音されたオーディオファイルを得ることとを含む、
オーディオファイルの再録音方法を提供する。
他の形態において、
再録音待ちの録音セグメントの第1開始時間である第1時間を決定するための取得モジュールと、
前記第1時間を第1終了時間として録音された第1録音セグメントを再生するための第1再生モジュールと、
前記第1時間に達すると、ユーザの第1音声データを収集して、第2録音セグメントを得るための第1収集モジュールと、
前記第1録音セグメントと前記第2録音セグメントを処理して、再録音されたオーディオファイルを得るための処理モジュールとを含む、
オーディオファイルの再録音装置を提供する。
他の形態において、
プログラム命令が計算デバイスによって実行される場合、前記計算デバイスは、
オーディオファイルにおける再録音待ちの録音セグメントの第1開始時間である第1時間を決定する動作と、
前記オーディオファイルにおいて前記第1時間を第1終了時間として録音された第1録音セグメントを再生する動作と、
前記第1時間に達すると、ユーザの第1音声データを収集して、第2録音セグメントを得る動作と、
前記第1録音セグメントと前記第2録音セグメントを処理して、再録音されたオーディオファイルを得る動作とを実行する、
プログラム命令を記憶する不揮発性メモリ記憶媒体を提供する。
本発明では、音響スペクトルファイルを複数回録音する必要がなく、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音された録音セグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。
本発明の実施形態によるオーディオファイルの再録音方法のフローチャートである。 本発明の他の実施形態によるオーディオファイルの再録音方法のフローチャートである。 本発明の他の実施形態によるオーディオファイルの録音インターフェースの概略図である。 本発明の他の実施形態による音響スペクトルスの概略図である。 本発明の他の実施形態による音響スペクトルスの概略図である。 本発明の他の実施形態による音響スペクトルスの概略図である。 本発明の他の実施形態による音響スペクトルスの概略図である。 本発明の他の実施形態による第1対象音響スペクトルと第2対象音響スペクトルとを合わせる概略図である。 本発明の実施形態によるオーディオファイルの再録音装置の概略構成図である。 本発明の実施形態によるオーディオファイルの再録音端末の概略構成図である。
本発明の技術的解決方策および利点をより明確にするために、以下、図面を参照して本発明の実施形態をさらに詳しく説明する。
端末技術の発達に伴い、ユーザの歌唱ニーズを満たすために、歌を録音するための様々なアプリケーションが移動端末にインストールされている。アマチュア歌手にとって、オーディオファイルを録音するとき、自分の息や感情をコントロールすることは困難であり、この結果、ある音声セグメントは、ユーザの所望の効果を達成できないことがある。この時、ユーザはこれらの音声セグメントを再録音することが多い。オーディオファイルを再録音する場合、複数回の別個の再録音を実行し、複数回再録音されたオーディオファイルを編集して繋ぎ合わせるので、移動端末のリソース消費を増加させるだけでなく、繋ぎ合わせたオーディオファイルが再生される際に、聴取者は歌手が一度に歌っていないことをはっきりと感じることができる。
従って、本発明の実施形態は、オーディオファイルの再録音方法を提供する。当該方法では、ある録音セグメントを再録音する場合、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザは以前の歌唱シーンを思い出させ、現在の歌唱中の音色、強さ、マイクロフォンまでの距離、息などを調整することにより、再録音された録音セグメントをできるだけ以前に録音された録音セグメントと自然につながる。前記録音セグメントは音声セグメントであってもよい。
図1を参照し、本実施形態による方法は、以下の動作を実行する
ステップ101では、オーディオファイルにおける再録音待ちの録音セグメントの開始時間である第1時間を決定する。
ステップ102では、前記オーディオファイルにおいて前記第1時間を終了時間として録音された第1録音セグメントを再生する。
ステップ103では、前記第1時間に達すると、ユーザの第1音声データを収集して、第2録音セグメントを得る。
ステップ104では、第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得る。
前記第1時間は絶対的な時点に限定されず、オーディオファイルの開始時刻に対する時間であってもよく、オーディオファイルの再生時刻または録音の進行状況を特徴付けるために使用されることが理解できる。また、前記第1時間は、前記オーディオファイルにおける前記再録音待ちの録音セグメントの位置によって表されてもよいことも理解できる。
本明細書で説明する再録音待ちの録音セグメントとは、オーディオファイルにおけるユーザの期待を満たせず、録音アプリケーションによって提供される再録音機能に従って再録音されることを意図した録音セグメントを指すことが理解できる。
本明細書で使用される用語「録音セグメント」とは、音声を含む録音されたオーディオファイルにおけるセグメントを指すことが理解できる。これらのセグメントには、音声を含んでもよく、音声を含まなくてもよい(例えば無音)。本明細書で表示される「録音セグメント」は、当該セグメントには必ず音声を含むことを制限しない。
本発明の実施形態による方法では、再録音待ちの録音セグメントの前のセグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音されたセグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。
本発明の別の実施形態では、この方法は、
録音された第1録音セグメントの再生のプロセスにおいて、ユーザの第2音声データを収集して、第3録音セグメントを得る動作と、
第2録音セグメントと第3録音セグメントを今回の録音された録音セグメントとする動作とをさらに実行する
本発明の別の実施形態では、第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、
第1録音セグメントに対応する第1音響スペクトルを取得し、第2録音セグメントに対応する第2音響スペクトルを取得することと、
第1音響スペクトルから、安定開始点および安定開始点に対応する第2時間を決定することと、
第2音響スペクトルから、立ち上がり開始点および立ち上がり開始点に対応する第3時間を取得することとを含む。
本発明の一実施形態において、前記安定開始点および立ち上がり開始点はそれぞれ連続する2つの音響スペクトルの中間の安定領域の始点および終点である。前記安定領域は、歌詞に対応する音響スペクトルと音声のラウドネスとに基づいて決定されることができ、一般に2つの連続する歌詞に対応する音響スペクトルの間かつラウドネスが予め設定された閾値よりも低い領域に位置する。前記音声のラウドネスの予め設定された閾値は、-70dbであってもよい。図7を例として、音響スペクトル領域S〜Eは、ラウドネスが-70db未満の安定領域であり、2つの連続する音響スペクトルAと音響スペクトルBとの間に位置する。ただし、Sは第1音響スペクトルAの安定開始点であり、Eは第2音響スペクトルBの立ち上がり開始点である。
本発明の別の実施形態では、第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、第2時間を開始時間として、今回の録音された録音セグメントから第4録音セグメントを選択することをさらに含む。前記第4録音セグメントは、歌詞に対応する音響スペクトルと音声のラウドネスとに基づいて選択されることができ、例えば、歌詞に対応する音響スペクトルの終わりから音声のラウドネスが予め設定された閾値よりも低い領域の始まりまでである。前記音声のラウドネスの予め設定された閾値は、-70dbであってもよい。
本発明の別の実施形態では、第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、第3時間を終了時間として、再録音待ちの録音セグメントと第1録音セグメントを含む前回の録音された録音セグメントから第5録音セグメントを選択することをさらに含む。前記第5録音セグメントの選択態様は、第4録音セグメントの選択態様と類似する。
本発明の別の実施形態では、第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、第4録音セグメントと第5録音セグメントを処理して、再録音されたオーディオファイルを得ることをさらに含む
第2時間は第1時間よりも早く、第1時間は第3時間よりも早い。
本発明の別の実施形態において、第4録音セグメントと第5録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、
第4録音セグメントに対応する音響スペクトルと第5録音セグメントに対応する音響スペクトルとを比較することと、
第4録音セグメントに対応する音響スペクトルから第1対象音響スペクトルを取得し、第5録音セグメントに対応する音響スペクトルから第2対象音響スペクトルを取得し、第1対象音響スペクトルと第2対象音響スペクトルは同じ開始時間と終了時間を有することと、
第1対象音響スペクトルと第2対象音響スペクトルとをフィッティングし、第4録音セグメントと第5録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得ることとを含む。
本発明の別の実施形態において、この方法は、録音された録音セグメントの再生のプロセスおよび録音セグメントの録音中において、対応する伴奏ファイルを再生することをさらに含む。
前述の選択可能な技術的解決策のすべては、本発明の選択可能な実施形態を形成するために任意の組み合わせを採用することができ、ここで、説明を省略する。
本発明の実施形態は、オーディオファイルの再録音方法を提供し、図2を参照し、本実施形態による方法は、以下の動作実行する
ステップ201において、移動端末は再録音待ちの録音セグメントの開始時間である第1時間を決定する。
本実施形態では、移動端末は、スマートフォン、ラップトップパソコン、タブレットパソコンなどのデバイスであってもよい。移動端末には、再録音機能を備えた録音アプリケーションがインストールされており、インストールされた録音アプリケーションに基づいて、ユーザはいつでもどこでも好きなオーディオファイルを録音し、録音されたオーディオファイルを友人と共有することができる。
オーディオファイルの録音中において、録音された録音セグメントがユーザの期待した効果に達していないか、録音中のスコアが低い場合、ユーザは録音アプリケーションによって提供された再録音機能に従って当該録音セグメントを再録音する。再録音待ちの録音セグメントは、歌詞、段落などであり、オーディオファイルにおいて当該再録音待ちの録音セグメントは、一つの開始時間及び終了時間に対応する。本実施形態では、再録音待ちの録音セグメントの開始時間を第1時間とすることを例にとるが、当該第1時間は絶対時間ではなく、オーディオファイルの開始再生時刻に対する時間であり、オーディオファイルの再生時刻または録音の進行状況を特徴付けるために使用される。当該第1時間はオーディオファイルの再生時間よりも短くする必要がある。たとえば、オーディオファイルの再生時間は4分で、開始再生時刻は00:00であり、当該第1時間はオーディオファイルの1分30秒のところ、2分のところなどである。オーディオファイルの再生時間および第1時間が取得されると、オーディオファイルにおける再録音待ちの録音セグメントの位置を知ることもできる。例えば、オーディオファイルの長さが4分であり、第1時間がオーディオファイルの2分のところであることを例にとると、再録音待ちの録音セグメントはオーディオファイルの中点に位置することがわかる。
なお、注意すべきことは、本実施形態では、複数の録音セグメントに関与し、これらの異なる録音セグメントを区別するために、ユーザの所望の効果を達成できず再録音される必要がある録音セグメントを再録音待ちの録音セグメントと呼び、今回の再生された録音セグメントを第1録音セグメントと呼び、第1録音セグメントの再生のプロセスにおいて録音された録音セグメントを第3録音セグメントと呼び、今回の再録音された録音セグメントを第2録音セグメントと呼び、今回の録音された録音セグメントから選択した録音セグメントを第4録音セグメントと呼び、前回の録音された録音セグメントから選択した録音セグメントを第5録音セグメントと呼ぶ。
図2に示すように、本発明の実施形態による方法は、以下の動作をさらに実行する。ステップ202において、移動端末は第1時間を終了時間として録音された第1録音セグメントを再生する。
通常、ユーザが歌を歌うとき、現在の歌う歌詞に合わせるように不注意に息と気分を調整する。これにより、ユーザが再録音待ちの録音セグメントを再録音する過程においてこれまでの歌詞を歌うときに使用した息と気分を正確に把握することが困難である。この結果、再録音されたオーディオファイルは聴覚的に劣れている。再録音されたオーディオファイルの聴覚効果を向上させるために、再録音待ちの録音セグメントを決定した後、移動端末は再録音待ちの録音セグメントの開始時間に応じて、録音されたオーディオファイルから再生する必要がある第1録音セグメントを決定する。当該第1録音セグメントは第1時間を終了時間とする。当該第1録音セグメントは再録音待ちの録音セグメントの前の幾つかの歌詞または何節の歌詞であってもよい。本実施形態は、第1録音セグメントの長さを特に限定しない。再録音されたオーディオファイルをより自然にしてよりよく再生するために、移動端末が第1録音セグメントを決定するとき、第1録音セグメントの長さは可能な限り長く選択される。図3を参照し、「隣の君」という歌を録音することを例にする。図3は、「隣の君」という歌の録音インターフェースを示す。ユーザが「隣の君を思い出した」という歌詞を再録音したい場合、即ち、再録音待ちの録音セグメントは「隣の君を思い出した」であり、当該歌詞の開始時間はオーディオファイルの39秒のことであることを取得する場合、移動端末は「答えられない君、僕も偶然アルバムをめぐって」を第1録音セグメントとすることができる。
この後、移動端末は、録音された第1録音セグメントをヘッドホンやスピーカなどの再生装置または聴取装置を介して再生する。前回の録音シーンを最大限に復元するために、移動端末は、録音された第1録音セグメントの再生のプロセスにおいて、当該第1録音セグメントに対応する時間に応じて、当該時間に対応する伴奏ファイルを再生する。当該伴奏ファイルの再生時間は、オーディオファイルの再生時間と同じであり、オーディオファイル内の録音セグメントと伴奏ファイル内の伴奏セグメントは1対1の対応関係を有する。例えば、第1録音セグメントの開始時間はオーディオファイルの1分06秒であり、終了時間は2分13秒であり、移動端末は、スピーカを介して当該第1録音セグメントを再生する際に、同期に第1録音セグメントに対応する伴奏ファイルも再生する。
図2に示すように、本発明の実施形態による方法は、以下の動作をさらに実行する。ステップ203において、録音された第1録音セグメントの再生のプロセスにおいて、移動端末は、ユーザの第2音声データを収集して、第3録音セグメントを得る。
移動端末が録音された第1録音セグメントを再生するとき、ユーザは第1録音セグメントおよび対応する伴奏ファイルに従って、第1録音セグメントを再作成する。このとき、マイクなどのデバイスは、ユーザの第2音声データを収集し、収集された第2音声データをバッファなどの記憶媒体に格納することにより第3録音セグメントを得る。第3録音セグメントは、第1録音セグメントの開始時間から第1時間までの時間内に音声収集装置によって収集されたオーディオセグメントであり、当該第3録音セグメントは、第1録音セグメントと同じ内容であってもよいし、 第1録音セグメントの一部であってもよい。
図2に示すように、本発明の実施形態による方法は、以下の動作をさらに実行する。ステップ204において、第1時間に達すると、移動端末は、ユーザの第1音声データを収集して、第2録音セグメントを得て、第2録音セグメントと第3録音セグメントを今回の録音された録音セグメントとする。
第1録音セグメントの終了時間である第1時間に達すると、移動端末は、マイクなどのデバイスを介してユーザの第1音声データを収集し、収集された第1音声データをバッファなどの記憶媒体に格納することにより第2録音セグメントを得る。当該第2録音セグメントは、再録音待ちの録音セグメントと同じオーディオ内容を有する。すなわち、第2録音セグメントは、再録音待ちの録音セグメントに対応するオーディオファイルと同じ歌詞を有する。
ここまで、今回の再録音中では、移動端末は、2つの録音セグメント、すなわち第3録音セグメントと第2録音セグメントを録音し、第3録音セグメントと第2録音セグメントを今回の録音された録音セグメントとする。
図2に示すように、本発明の実施形態による方法は、以下の動作をさらに実行する。ステップ205において、移動端末は、第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得る。
上記のステップ201〜204を経て、移動端末は、ユーザが満足する第2録音セグメントを取得するが、当該第2録音セグメントは第1録音セグメントに接続されず、第3録音セグメントに接続され、かつ第1録音セグメントは第2録音セグメントにも接続されず、再録音待ちの録音セグメントに接続される。この場合、第1録音セグメントと第2録音セグメントとを自然につなぎ合わせて再録音されたオーディオファイルを得るように、移動端末は第1録音セグメントと第2録音セグメントとを処理する必要がある。
移動端末が第1録音セグメントと第2録音セグメントを処理する場合、以下の動作を採用することができる。
ステップ2051において、移動端末は、第1録音セグメントに対応する第1音響スペクトルを取得し、第2録音セグメントに対応する第2音響スペクトルを取得する。
音声は空気中を伝播することで音波を形成し、各音波は一つの音響スペクトルに対応することがよく知られている。本実施形態では、第1録音セグメントに対応する音響スペクトルと第2録音セグメントに対応する音響スペクトルに基づいて、第1録音セグメントと第2録音セグメントが処理される。以下の説明を容易にするために、本実施形態では、第1録音セグメントに対応する音響スペクトルを第1音響スペクトルと呼び、第2録音セグメントに対応する音響スペクトルを第2音響スペクトルと呼ぶ。図4を参照し、図4において、401は伴奏ファイルに対応する音響スペクトルであり、402は第1録音セグメントに対応する第1音響スペクトルであり、403は第1録音セグメントの前の録音セグメントに対応する音響スペクトルであり、404は再録音待ちの録音セグメントに対応する音響スペクトルであり、405は再録音待ちの録音セグメントを起点として録音された録音セグメントに対応する音響スペクトルである。
本実施形態では、移動端末が第1録音セグメントに対応する第1音響スペクトルを取得すると、第1録音セグメントをオシロスコープに入力して、第1録音セグメントに対応する第1音響スペクトルを取得する。移動端末が第2録音セグメントに対応する第2音響スペクトルを取得すると、第2録音セグメントをオシロスコープに入力して、第2録音セグメントに対応する第2音響スペクトルを取得する。
上記は、第1録音セグメントに対応する第1音響スペクトルと第2録音セグメントに対応する第2音響スペクトルを取得する1つの方法に過ぎない。実際の用途において、第1録音セグメントに対応する第1音響スペクトルと第2録音セグメントに対応する第2音響スペクトルを他の方法で取得してもよい。本実施形態では、説明を省略する。
移動端末が第1録音セグメントと第2録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ2052において、移動端末は、第1音響スペクトルから、安定開始点および安定開始点に対応する第2時間を取得する。
一つの歌詞を歌うから完成までの過程で、マイクなどのデバイスによって収集された録音セグメントに対応する音響スペクトルが安定する傾向にあり、音響スペクトルの振幅が徐々に小さくなり、音響スペクトルが安定する傾向にあった開始点から、マイクなどのデバイスによって収集された録音セグメントは、通常にユーザの息だけであり、音声データがない。本実施形態では、音響スペクトルが安定する傾向にあった開始点を安定開始点と呼び、安定開始点に対応する時間を第2時間と呼ぶ。第2時間はオーディオファイルの1分のところ、オーディオファイルの30秒のところなどであってもよい。本実施形態は、第2時間の長さを具体的に制限しない、第2時間が第1時間よりも早いことを保証すればよい。図5を参照し、図5のAは第1録音セグメントに対応する第1音響スペクトルであり、Bは再録音待ちの録音セグメントに対応する音響スペクトルであり、Sは第1音響スペクトルにおける安定開始点であり、S点に対応する時間がt1に設定される。
移動端末が第1録音セグメントと第2録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ2053において、移動端末は、第2音響スペクトルから、立ち上がり開始点および立ち上がり開始点に対応する第3時間を取得する。
一つの歌詞を歌う過程で、マイクなどのデバイスによって収集された録音セグメントに対応する音響スペクトルが徐々に上昇し、音響スペクトルの振幅が徐々に大きくなり、音響スペクトルが立ち上がる開始点からマイクなどのデバイスによって収集された録音セグメントがユーザの音声データを持つようになっている。本実施形態では、音響スペクトルが立ち上がる傾向にあった開始点を立ち上がり開始点と呼び、立ち上がり開始点に対応する時間を第3時間と呼ぶ。第3時間はオーディオファイルの3分のところ、オーディオファイルの5分のところなどであってもよい。本実施形態は、第3時間の長さを具体的に制限しない、第1時間が第3時間よりも早いことを保証すればよい。図6を参照し、図6のA’は第3録音セグメントに対応する音響スペクトルであり、Cは第2録音セグメントに対応する音響スペクトルであり、Eは第2音響スペクトルにおける立ち上がり開始点であり、E点に対応する時間がtに設定される。
移動端末が第1録音セグメントと第2録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ2054において、移動端末は、第2時間を開始時間として、今回の録音された録音セグメントから第4録音セグメントを選択する。
聴覚的に優れたオーディオファイルを得るために、前回の収集した録音セグメントであるか今回の収集した録音セグメントであるかにかかわらず、移動端末は収集した録音セグメントをバッファなどの記憶媒体に格納する。第1録音セグメントと第2録音セグメントとを自然につなぎ合わせるように、移動端末は第1録音セグメントと第2録音セグメントにおける音声データがない部分をつなぎ合わせる。
シームレスなつなぎ合わせを実現するために、移動端末は第2時間を開始時間として、今回の録音された録音セグメントから第4録音セグメントを選択することができる。当該第4録音セグメントは、第3録音セグメントの一部と第2録音セグメントとを含み、当該第3録音セグメントの一部は第2時間を開始時間として、かつ第1時間を終了時間とする。図7を参照し、第4録音セグメントは、第3録音セグメントの一部と第2録音セグメントCを含む。
移動端末が第1録音セグメントと第2録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ2055において、移動端末は、第3時間を終了時間として、再録音待ちの録音セグメントと第1録音セグメントを含む前回の録音された録音セグメントから第5録音セグメントを選択する。
第1録音セグメントと第2録音セグメントトをより良好につなぎ合わせるために、移動端末は、第3時間を終了時間として前回の録音された録音セグメントから第5録音セグメントを選択する。当該前回の録音された録音セグメントは、再録音待ちの録音セグメントと第1録音セグメントを含む。これに対応して、第5録音セグメントは、第1録音セグメントと再録音待ちの録音セグメントの一部を含む。当該再録音待ちの録音セグメントの一部は第1時間を開始時間として、かつ第3時間を終了時間とする。図7を参照し、第5録音セグメントは、第1録音セグメントAと再録音待ちの録音セグメントの一部を含む。
移動端末が第1録音セグメントと第2録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ2056において、移動端末は、第4録音セグメントと第5録音セグメントを処理して、再録音されたオーディオファイルを得る。
移動端末が第4録音セグメントと第5録音セグメントを処理して、再録音されたオーディオファイルを得る場合、以下のステップa〜cを採用することができる
ステップaにおいて、移動端末は、第4録音セグメントに対応する音響スペクトルと第5録音セグメントに対応する音響スペクトルとを比較する。
通常、録音セグメントの音響スペクトルは、ある時刻における録音セグメントの振幅を反映することができ、移動端末は第4録音セグメントに対応する音響スペクトルと第5録音セグメントに対応する音響スペクトルとを比較することにより、第4録音セグメントと第5録音セグメントの振幅が小さい部分を得る。当該振幅が小さい部分は音声を持ってない。当該部分において第4録音セグメントと第5録音セグメントをつなぎ合わせることは、オーディオファイル全体の完全性に影響しない。
ステップbにおいて、移動端末は、第4録音セグメントに対応する音響スペクトルから第1対象音響スペクトルを取得し、第5録音セグメントに対応する音響スペクトルから第2対象音響スペクトルを取得する。
移動端末は、第4録音セグメントに対応する音響スペクトルと第5録音セグメントに対応する音響スペクトルとを比較することにより、第4録音セグメントに対応する音響スペクトルから第1対象音響スペクトルを取得し、第5録音セグメントに対応する音響スペクトルから第2対象音響スペクトルを取得することができる。第1対象音響スペクトルと第2対象音響スペクトルは同じ開始時間と終了時間を有する。当該第1対象音響スペクトルは第4録音セグメントの振幅が小さい部分であり、当該第2対象音響スペクトルは第5録音セグメントの振幅が小さい部分である。
ステップcにおいて、移動端末は、第1対象音響スペクトルと第2対象音響スペクトルとをフィッティングし、第4録音セグメントと第5録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得る。
移動端末は、第1対象音響スペクトルと第2対象音響スペクトルとを合わせる場合、第1対象音響スペクトルと第2対象音響スペクトルの重み付け値として1次関数、2次関数、特定パラメータなどを選択し、選択された重み付け値に基づいて、第1対象音響スペクトルと第2対象音響スペクトルの振幅を合わせる。合わせることにより、第4録音セグメントと第5録音セグメントを繋ぎ合わせて、ひいては第1録音セグメントと第2録音セグメントを繋ぎ合わせて、再録音されたオーディオファイルを取得する。繋ぎ合わせた第4録音セグメントと第5録音セグメントをより自然にするように、移動端末が、第1対象音響スペクトルと第2対象音響スペクトルの重み付け値を選択する場合、第1対象音響スペクトルの重み付け値と第2対象音響スペクトルの重み付け値に対して同じ値または関数を選択することができる。図8を参照し、図8は第1対象音響スペクトルと第2対象音響スペクトルとを合わせる概略図であり、ただし、Xは第1対象音響スペクトルであり、Yは第2対象音響スペクトルであり、s、tは2次関数であり、sは第1対象音響スペクトルに対応する重み付け値、tは第2対象音響スペクトルに対応する重み付け値である。 2次関数s、tに基づいて、移動端末は第1対象音響スペクトルと第2対象音響スペクトルとを合わせることにより、第4録音セグメントと第5録音セグメントとを円滑に繋ぎ合わせることができる。
なお、注意すべきことは、以上、オーディオファイルを再録音する過程において、移動端末はユーザの音声データのみを収集することを例に挙げているが、実際には、移動端末は音声データと伴奏データを同時に収集してもよく、収集された音声データと伴奏データは再録音された音響スペクトルファイルに統合される。
本発明の実施形態による方法では、音響スペクトルファイルを複数回録音する必要がなく、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音されたセグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。
図9を参照し、図9は本発明の実施形態によるオーディオファイルの再録音装置の概略構成図であり、当該再録音装置は、
再録音待ちの録音セグメントの開始時間である第1時間を決定するための取得モジュール901と、
第1時間を終了時間として録音された第1録音セグメントを再生するための第1再生モジュール902と、
第1時間に達すると、ユーザの第1音声データを収集して、第2録音セグメントを得るための第1収集モジュール903と、
第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得るための処理モジュール904とを含む。
本発明の別の実施形態では、当該再録音装置は、録音された第1録音セグメントの再生のプロセスにおいて、ユーザの第2音声データを収集して、第3録音セグメントを得るための第2収集モジュールをさらに含み、第2録音セグメントと第3録音セグメントを今回の録音された録音セグメントとする。
本発明の別の実施形態では、処理モジュール904は、第1録音セグメントに対応する第1音響スペクトルを取得し、第2録音セグメントに対応する第2音響スペクトルを取得することと、第1音響スペクトルから、安定開始点および安定開始点に対応する第2時間を取得することと、第2音響スペクトルから、立ち上がり開始点および立ち上がり開始点に対応する第3時間を取得することと、第2時間を開始時間として、今回の録音された録音セグメントから第4録音セグメントを選択することと、第3時間を終了時間として、再録音待ちの録音セグメントと前記第1録音セグメントを含む前回の録音された録音セグメントから第5録音セグメントを選択することと、第4録音セグメントと第5録音セグメントを処理して、再録音されたオーディオファイルを得ることに用いられ、第2時間は第1時間よりも早く、第1時間は第3時間よりも早い。
本発明の別の実施形態では、処理モジュール904は、第4録音セグメントに対応する音響スペクトルと第5録音セグメントに対応する音響スペクトルとを比較することと、第4録音セグメントに対応する音響スペクトルから第1対象音響スペクトルを取得し、第5録音セグメントに対応する音響スペクトルから第2対象音響スペクトルを取得し、第1対象音響スペクトルと第2対象音響スペクトルは同じ開始時間と終了時間を有することと、第1対象音響スペクトルと第2対象音響スペクトルとをフィッティングし、第4録音セグメントと第5録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得ることにさらに用いられる。
本発明の別の実施形態では、当該装置は、録音された録音セグメントの再生のプロセスおよび録音セグメントの録音中において、対応する伴奏ファイルを再生するための第2再生モジュールをさらに含む。
以上により、本発明の実施形態による装置では、音響スペクトルファイルを複数回録音する必要がなく、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音された録音セグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。
図10を参照し、図10は本発明の実施形態によるオーディオファイルの再録音端末の概略構成図であり、当該端末は、上記の実施形態によるオーディオファイルの再録音方法を実施するために使用される。
具体的に、端末1000は、RF(Radio Frequency、無線周波数)回路110と、1つ以上のコンピュータ可読記憶媒体を含むメモリ120と、入力ユニット130と、表示ユニット140と、センサ150と、オーディオ回路160と、WiFi(Wireless Fidelity、ワイヤレスフィデリティ)モジュール170、1つ以上の処理コアを含むプロセッサ180、および電源190などの部品を含む。当業者は、図10に示す端末構造が端末を制限せず、図示された構成要素より多くまたはより少ない部品を含んでもよいし、幾つかの部品を組み合わせてもよいし、異なる部品のレイアウトを採用してもよい。
RF回路110は、情報の送信および受信中または通話中に、信号を受信および送信するために使用され、特に、基地局のダウンリンク情報が受信された後、1つ以上のプロセッサ180によって処理される。さらに、アップリンクデータは基地局に送信される。一般に、RF回路110は、アンテナ、少なくとも1つの増幅器、チューナー、1つ以上の発振器、ユーザ識別モジュール(SIM)カード、トランシーバ、カプラ、LNA(Low Noise Amplifier、低雑音増幅器)およびデュプレクサを含むが、これらに限定されない。 また、RF回路110は、無線通信を介してネットワークや他の機器と通信することもできる。前記無線通信は、いずれかの通信規格またはプロトコルを使ってもよく、GSM(登録商標)(Global System of Mobile communication、グローバル移動通信システム)、GPRS(General Packet Radio Service、一般パケット無線サービス)、CDMA(Code Division Multiple Access、符号分割多元接続)、WCDMA(登録商標)(Wideband Code Division Multiple Access、広帯域符号分割多元接続)、LTE(Long Term Evolution、ロング・ターム・エヴォリューション)、電子メール、SMS(Short Messaging Service、ショートメッセージサービス)などを含むが、これらに限定されない。
メモリ120は、ソフトウェアプログラムおよびモジュールを記憶するために使用されてもよく、プロセッサ180は、メモリ120に記憶されたソフトウェアプログラムおよびモジュールを実行することによって、様々な機能アプリケーションおよびデータ処理を実行する。メモリ120は、主にプログラム記憶領域とデータ記憶領域を含む。プログラム記憶領域はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーション(例えば音声再生機能や画像再生機能など)などを格納することができる。データ記憶領域には、端末1000の使用に応じて作成されたデータ(例えば音声データや電話帳など)を格納することができる。さらに、メモリ120は、高速ランダムアクセスメモリを含むことができ、また、少なくとも1つのディスク記憶装置、フラッシュメモリ装置、または他の揮発性ソリッドステート記憶装置などの不揮発性メモリを含むこともできる。対応して、メモリ120は、プロセッサ180および入力ユニット130のメモリ120へのアクセスを提供するメモリコントローラをさらに含むことができる。
入力ユニット130は、入力された数字または文字情報を受信し、ユーザ設定および機能制御に関連するキーボード、マウス、ジョイスティック、光学またはトラックボール信号入力を生成するように構成されてもよい。具体的に、入力ユニット130は、接触感知面131および他の入力装置132を含むことができる。接触感知面131は、タッチスクリーンまたはタッチパネルとも呼ばれ、ユーザのその上またはその近くのタッチ操作(例えば、指、スタイラスなどの任意の適切な物体または付属品による接触感知面131上または接触感知面131の近くにおける操作)を収集し、予め設定されたプログラムに従って対応する接続デバイスを駆動することができる。選択肢の一つとして、接触感知面131は、タッチ検出装置とタッチコントローラの2つの部分を含んでもよい。タッチ検出装置は、ユーザのタッチ方向を検出し、タッチ操作による信号を検出し、その信号をタッチコントローラに送信する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、接触座標に変換して、プロセッサ180に送信し、プロセッサ180からのコマンドを受信して実行することができる。また、接触感知面131は、抵抗性、容量性、赤外線および表面音波などによって実現されている。接触感知面131に加えて、入力ユニット130は、他の入力装置132も含むことができる。具体的に、他の入力装置132は、物理キーボード、機能キー(例えば音量制御キー、スイッチキーなど)、トラックボール、マウス、ジョイスティックなどのうちの1つ以上を含むが、これらに限定されない。
表示ユニット140は、ユーザによって入力された情報またはユーザに提供される情報および端末1000の様々なグラフィカルユーザインターフェースを表示するように構成されてもよい。これらのグラフィカルユーザインターフェースは、グラフィックス、テキスト、アイコン、ビデオ、及びこれらの任意の組み合わせにより構成される。表示ユニット140は、表示パネル141を含むことができる。選択肢の一つとして、表示パネル141は、LCD(Liquid Crystal Display、液晶表示装置)、OLED(Organic Light-Emitting Diode、有機発光ダイオード)などの形態で構成されることができる。さらに、接触感知面131は、表示パネル141を覆うことができる。接触感知面131がその上またはその近くのタッチ操作を検出すると、プロセッサ180に送信してタッチ種類を判断し、この後プロセッサ180はタッチ種類に応じて表示パネル141に対応する視覚出力を提供する。図10では、接触感知面131と表示パネル141とが2つの独立した部品として入力及び入力機能を実現するが、いくつかの実施形態では、接触感知面131と表示パネル141とを一体化して、入力および出力機能を実現する。
端末1000は、例えば光センサ、モーションセンサ、および他のセンサなどの少なくとも1つのセンサ150をさらに含むことができる。具体的に、光センサは、周辺光センサと近接センサとを含み、周辺光センサは、周辺光の明るさに従って表示パネル141の明るさを調節し、近接センサは、端末機1000が耳に動くときに表示パネル141および/またはバックライトをオフにする。モーションセンサの一種である重力加速度センサは、各方向(通常は3軸)の加速度の大きさを検出し、静止する時に重力の大きさや方向を検出することができ、携帯電話の姿勢を識別するアプリケーション(例えば水平および垂直画面の切り替え、関連ゲーム、磁力計の姿勢校正)や、振動関連機能(例えば歩数計、タップ)などに用いられることができる。なお、端末1000に配置可能なジャイロ、気圧計、湿度計、温度計、赤外線センサ等の他のセンサについては、ここでは説明を省略する。
オーディオ回路160、スピーカ161およびマイク162は、ユーザと端末1000との間のオーディオインターフェースを提供することができる。オーディオ回路160は、受信したオーディオデータを電気信号に変換してスピーカ161に送信し、スピーカ161により音声信号出力に変換してもよい。一方、マイク162は、収集された音声信号を電気信号に変換して、オーディオ回路160で受信した後でオーディオデータに変換して、さらにオーディオデータを出力してプロセッサ180で処理した後、RF回路110を介して例えば別の端末に送信し、またはさらなる処理のためにメモリ120に出力する。オーディオ回路160は、周辺イヤホンと端末1000との間の通信を提供するためのイヤホンジャックを含むことができる。
WiFiは、近距離無線伝送技術であり、端末1000はWiFiモジュール170を利用することにより、ユーザが電子メールを送受信し、ウェブページを閲覧し、ストリーミングメディアにアクセスすることなどを支援することができる。WiFiは、ユーザに無線のワイドバンドインターネットアクセスを提供する。図10はWiFiモジュール170を示しているが、理解すべきことは、WiFiモジュール170は端末1000に必要な構成ではなく、もちろん、本発明の本質を変更することなく、必要に応じて省略することができる。
プロセッサ180は、端末1000の制御センターであり、様々なインターフェース及びラインを使用して携帯電話全体の各部分を接続し、メモリ120に格納されたソフトウェアプログラム及び/又はモジュールをランニング又は実行し、メモリ120に格納されたデータを呼び出すことにより、 端末1000の各種機能を実行してデータを処理し、携帯電話の全体的な監視を行う。選択肢の一つとして、プロセッサ180は1つ以上の処理コアを含んでもよい。選択肢の一つとして、プロセッサ180はアプリケーションプロセッサおよびモデムプロセッサを統合することができる。アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインターフェース、およびアプリケーションプログラムを扱う。モデムプロセッサは、主に無線通信を扱う。上記モデムプロセッサはプロセッサ180に統合されていなくてもよいことが理解できる。
端末1000は、各部品に電力を供給するための電源(例えばバッテリー)190をさらに含む。好ましくは、電源は、電力管理システムを介してプロセッサ180と論理的に接続され、電力管理システムを介して充電管理、放電管理及び電力消耗管理などの機能を実現する。電源190は、DCまたはAC電源、再充電システム、電源故障検出回路、電力変換器またはインバータ、電力状況インジケータなどのうちの任意の1つ以上の部品を含むことができる。
図示しないが、端末1000は、カメラ、ブルートゥースモジュールなどを含んでいてもよく、ここでは説明を省略する。具体的には、本実施形態において、端末1000の表示ユニットは、タッチスクリーンディスプレイである。
端末1000は、メモリと1つ以上のプログラムとをさらに含み、1つ以上のプログラムがメモリに格納され、1つ以上のプロセッサによって実行されるように構成される。前記1つ以上のプログラムは以下の動作を実行するための命令を含む。
すなわち、オーディオファイルにおける再録音待ちの録音セグメントの開始時間である第1時間を決定すること、前記オーディオファイルにおいて前記第1時間を終了時間として録音された第1録音セグメントを再生すること、前記第1時間に達すると、ユーザの第1音声データを収集して、第2録音セグメントを得ること、第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得ることである。
上記のことが第1の可能な実施形態であると仮定すると、第1の可能な実施形態に基づいて提供される第2の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。
すなわち、録音された第1録音セグメントの再生のプロセスにおいて、ユーザの第2音声データを収集して、第3録音セグメントを得ること、第2録音セグメントと第3録音セグメントを今回の録音された録音セグメントとすることである。
上記のことが第2の可能な実施形態であると仮定すると、第2の可能な実施形態に基づいて提供される第3の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。
すなわち、第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得ることは、
第1録音セグメントに対応する第1音響スペクトルを取得し、第2録音セグメントに対応する第2音響スペクトルを取得することと、
第1音響スペクトルから、安定開始点および前記オーディオファイルにおける安定開始点に対応する第2時間を決定することと、
第2音響スペクトルから、立ち上がり開始点および前記オーディオファイルにおける立ち上がり開始点に対応する第3時間を決定することと、
第2時間を開始時間として、今回の録音された録音セグメントから第4録音セグメントを選択することと、
第3時間を終了時間として、再録音待ちの録音セグメントと第1録音セグメントにより構成される前回の録音された録音セグメントから第5録音セグメントを選択することと、
第4録音セグメントと第5録音セグメントを処理して、再録音されたオーディオファイルを得ることとを含み、
第2時間は第1時間よりも早く、第1時間は第3時間よりも早い。
上記のことが第3の可能な実施形態であると仮定すると、第3の可能な実施形態に基づいて提供される第4の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。
すなわち、第4録音セグメントと第5録音セグメントを処理して、再録音されたオーディオファイルを得ることは、
第4録音セグメントに対応する音響スペクトルと第5録音セグメントに対応する音響スペクトルとを比較することと、
第4録音セグメントに対応する音響スペクトルから第1対象音響スペクトルを取得し、第5録音セグメントに対応する音響スペクトルから第2対象音響スペクトルを取得し、第1対象音響スペクトルと第2対象音響スペクトルは同じ開始時間と終了時間を有することと、
第1対象音響スペクトルと第2対象音響スペクトルとをフィッティングし、第4録音セグメントと第5録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得ることとを含む。
上記のことが第4の可能な実施形態であると仮定すると、第4の可能な実施形態に基づいて提供される第5の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。
すなわち、録音された録音セグメントの再生のプロセスおよび録音セグメントの録音中において、対応する伴奏ファイルを再生することである。
本発明の実施形態による端末は、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音された録音セグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。
本発明の実施形態は、コンピュータ読取可能な記憶媒体をさらに提供し、当該コンピュータ読取可能な記憶媒体は、上記実施形態のメモリに含まれるコンピュータ読取可能な記憶媒体であってもよいし、単独で存在し端末に組み込まれていないコンピュータ読取可能な記憶媒体であってもよい。当該コンピュータ読取可能な記憶媒体は、1つ以上のプログラムを格納し、当該1つ以上のプログラムは1つ以上のプロセッサによって、以下のステップを介してオーディオファイルの再録音を実行する。
すなわち、オーディオファイルにおける再録音待ちの録音セグメントの開始時間である第1時間を決定するステップと、
前記オーディオファイルにおいて前記第1時間を終了時間として録音された第1録音セグメントを再生するステップと、
第1時間に達すると、ユーザの第1音声データを収集して、第2録音セグメントを得るステップと、
第1録音セグメントと第2録音セグメントを処理して、再録音されたオーディオファイルを得るステップとを含む。
上記のことが第1の可能な実施形態であると仮定すると、第1の可能な実施形態に基づいて提供される第2の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。
すなわち、録音された第1録音セグメントの再生のプロセスにおいて、ユーザの第2音声データを収集して、第3録音セグメントを得ること、第2録音セグメントと第3録音セグメントを今回の録音された録音セグメントとすることである。
上記のことが第2の可能な実施形態であると仮定すると、第2の可能な実施形態に基づいて提供される第3の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。
すなわち、第1録音セグメントに対応する第1音響スペクトルを取得し、第2録音セグメントに対応する第2音響スペクトルを取得することと、
第1音響スペクトルから、安定開始点および安定開始点に対応する第2時間を取得することと、
第2音響スペクトルから、立ち上がり開始点および立ち上がり開始点に対応する第3時間を取得することと、
第2時間を開始時間として、今回の録音された録音セグメントから第4録音セグメントを取得することと、
第3時間を終了時間として、再録音待ちの録音セグメントと第1録音セグメントを含む前回の録音された録音セグメントから第5録音セグメントを選択することと、
第4録音セグメントと第5録音セグメントを処理して、再録音されたオーディオファイルを得ることとを含み、
第2時間は第1時間よりも早く、第1時間は第3時間よりも早い。
上記のことが第3の可能な実施形態であると仮定すると、第3の可能な実施形態に基づいて提供される第4の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。
すなわち、第4録音セグメントに対応する音響スペクトルと第5録音セグメントに対応する音響スペクトルとを比較することと、
第4録音セグメントに対応する音響スペクトルから第1対象音響スペクトルを取得し、第5録音セグメントに対応する音響スペクトルから第2対象音響スペクトルを取得し、第1対象音響スペクトルと第2対象音響スペクトルは同じ開始時間と終了時間を有することと、
第1対象音響スペクトルと第2対象音響スペクトルとをフィッティングし、第4録音セグメントと第5録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得ることとを含む。
上記のことが第4の可能な実施形態であると仮定すると、第4の可能な実施形態に基づいて提供される第5の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。
すなわち、録音された録音セグメントの再生および録音セグメントの録音のプロセスにおいて、対応する伴奏ファイルを再生することである。
なお、注意すべきことは、上記実施形態によるオーディオファイルの再録音装置は、オーディオファイルを再録音する場合、上記の各機能モジュールの分割のみを例として説明する。実際の適用において、上記の機能は、必要に応じて異なる機能モジュールによって実現されてもよい。すなわち、オーディオファイルの再録音装置の内部構造を異なる機能モジュールに分割して、上述の機能のすべてまたは一部を完成する。なお、上述した実施形態に係るオーディオファイルの再記録装置及びオーディオファイルの再記録方法の実施形態は、同一の概念に属するものであり、具体的な実現の過程については、方法の実施形態で詳細に説明するので、ここでは省略する。
当業者は、上記の実施形態を実現するためのステップの全部または一部をハードウェアで完成させることができ、また、プログラムで関連するハードウェアを命令することにより完成させることを理解できる。前記プログラムは、コンピュータ読取可能な記憶媒体に格納されてもよく、上記した記憶媒体は、読出専用メモリ、磁気ディスク、光ディスクなどであってもよい。
上記の説明は、本発明の好ましい実施形態であり、本発明を限定するものではない。本発明の精神および原理の範囲内でなされた変更、等効の置換、および改良は、本発明の保護範囲に含まれるものとする。
110 RF回路
120 メモリ
130 入力ユニット
140 表示ユニット
150 センサ
160 オーディオ回路
170 WiFiモジュール
180 プロセッサ
190 電源
901 取得モジュール
902 第1再生モジュール
903 第1取集モジュール
904 処理モジュール

Claims (7)

  1. オーディオファイルにおける再録音待ちの録音セグメントの第1開始時間である第1時間を決定することと、
    前記オーディオファイルにおいて前記第1時間を第1終了時間として録音された第1録音セグメントを再生することであって、録音された第1録音セグメントの再生のプロセスにおいて、ユーザの第2音声データを収集して、第3録音セグメントを得ることと、
    前記第1時間に達すると、ユーザの第1音声データを収集して、第2録音セグメントを得ることと、
    前記第1録音セグメントと前記第2録音セグメントを処理して、再録音されたオーディオファイルを得ることであって、
    前記第1録音セグメントに対応する第1音響波形を取得し、前記第2録音セグメントに対応する第2音響波形を取得することと、
    前記第1音響波形から、安定開始点および前記オーディオファイルにおける前記安定開始点に対応する第2時間を決定することと、
    前記第2音響波形から、立ち上がり開始点および前記オーディオファイルにおける前記立ち上がり開始点に対応する第3時間を決定することと、
    前記第2時間を開始時間として、前記第2録音セグメント及び前記第3録音セグメントから第4録音セグメントを選択することと、
    前記第3時間を終了時間として、前記再録音待ちの録音セグメント及び前記第1録音セグメントから第5録音セグメントを選択することと、
    前記第4録音セグメントと前記第5録音セグメントを処理して、前記再録音されたオーディオファイルを得ることとを含み、
    前記第2時間は前記第1時間よりも早く、前記第1時間は前記第3時間よりも早い、ことと、
    を含む、オーディオファイルの再録音方法。
  2. 前記第4録音セグメントと前記第5録音セグメントを処理して、前記再録音されたオーディオファイルを得ることは、
    前記第4録音セグメントに対応する音響波形と前記第5録音セグメントに対応する音響波形とを比較することと、
    前記第4録音セグメントに対応する音響波形から第1対象音響波形を取得し、前記第5録音セグメントに対応する音響波形から第2対象音響波形を取得し、前記第1対象音響波形と前記第2対象音響波形は同じ開始時間と終了時間を有することと、
    前記第1対象音響波形と前記第2対象音響波形とをフィッティングし、前記第4録音セグメントと前記第5録音セグメントとを繋ぎ合わせて、前記再録音されたオーディオファイルを得ることとを含む、
    請求項に記載のオーディオファイルの再録音方法。
  3. 録音された録音セグメントの再生および録音セグメントの録音のプロセスにおいて、対応する伴奏ファイルを再生することをさらに含む、
    請求項1に記載のオーディオファイルの再録音方法。
  4. 1つ以上のプロセッサおよびプログラムモジュールを記憶したメモリを含み、
    前記プログラムモジュールは、
    オーディオファイルにおける再録音待ちの録音セグメントの第1開始時間である第1時間を決定するための取得モジュールであって、録音された第1録音セグメントの再生のプロセスにおいて、ユーザの第2音声データを収集して、第3録音セグメントを得る取得モジュールと、
    前記オーディオファイルにおいて前記第1時間を第1終了時間として録音された第1録音セグメントを再生するための第1再生モジュールと、
    前記第1時間に達すると、ユーザの第1音声データを収集して、第2録音セグメントを得るための第1収集モジュールと、
    前記第1録音セグメントと前記第2録音セグメントを処理して、再録音されたオーディオファイルを得るための処理モジュールとを含
    前記処理モジュールは、
    前記第1録音セグメントに対応する第1音響波形を取得し、前記第2録音セグメントに対応する第2音響波形を取得することと、
    前記第1音響波形から、安定開始点および前記オーディオファイルにおける前記安定開始点に対応する第2時間を決定することと、
    前記第2音響波形から、立ち上がり開始点および前記オーディオファイルにおける前記立ち上がり開始点に対応する第3時間を決定することと、
    前記第2時間を開始時間として、前記第2録音セグメント及び前記第3録音セグメントから第4録音セグメントを選択することと、
    前記第3時間を終了時間として、前記再録音待ちの録音セグメント及び前記第1録音セグメントから第5録音セグメントを選択することと、
    前記第4録音セグメントと前記第5録音セグメントを処理して、前記再録音されたオーディオファイルを得ることにさらに用いられ、
    前記第2時間は前記第1時間よりも早く、前記第1時間は前記第3時間よりも早い、
    オーディオファイルの再録音装置。
  5. 前記処理モジュールは、
    前記第4録音セグメントに対応する音響波形と前記第5録音セグメントに対応する音響波形とを比較することと、
    前記第4録音セグメントに対応する音響波形から第1対象音響波形を取得し、前記第5録音セグメントに対応する音響波形から第2対象音響波形を取得し、前記第1対象音響波形と前記第2対象音響波形は同じ開始時間と終了時間を有することと、
    前記第1対象音響波形と前記第2対象音響波形とをフィッティングし、前記第4録音セグメントと前記第5録音セグメントとを繋ぎ合わせて、前記再録音されたオーディオファイルを得ることにさらに用いられる、
    請求項に記載のオーディオファイルの再録音装置。
  6. 録音された録音セグメントの再生および録音セグメントの録音のプロセスにおいて、対応する伴奏ファイルを再生することに用いられる第2再生モジュールをさらに含む、
    請求項に記載のオーディオファイルの再録音装置。
  7. プログラム命令が計算デバイスによって実行される場合、前記計算デバイスは、
    オーディオファイルにおける再録音待ちの録音セグメントの第1開始時間である第1時間を決定する動作と、
    前記オーディオファイルにおいて前記第1時間を第1終了時間として録音された第1録音セグメントを再生する動作であって、録音された第1録音セグメントの再生のプロセスにおいて、ユーザの第2音声データを収集して、第3録音セグメントを得る動作と、
    前記第1時間に達する場合、ユーザの第1音声データを収集して、第2録音セグメントを得る動作と、
    前記第1録音セグメントと、前記第2録音セグメントを処理して、再録音されたオーディオファイルを得る動作とを実行するように設定さ
    前記再録音されたオーディオファイルを得る動作は、
    前記第1録音セグメントに対応する第1音響波形を取得し、前記第2録音セグメントに対応する第2音響波形を取得することと、
    前記第1音響波形から、安定開始点および前記オーディオファイルにおける前記安定開始点に対応する第2時間を決定することと、
    前記第2音響波形から、立ち上がり開始点および前記オーディオファイルにおける前記立ち上がり開始点に対応する第3時間を決定することと、
    前記第2時間を開始時間として、前記第2録音セグメント及び前記第3録音セグメントから第4録音セグメントを選択することと、
    前記第3時間を終了時間として、前記再録音待ちの録音セグメント及び前記第1録音セグメントから第5録音セグメントを選択することと、
    前記第4録音セグメントと前記第5録音セグメントを処理して、前記再録音されたオーディオファイルを得ることとを含み、
    前記第2時間は前記第1時間よりも早く、前記第1時間は前記第3時間よりも早い、
    プログラム命令を記憶する不揮発性メモリ記憶媒体。
JP2018526686A 2015-11-23 2016-08-11 オーディオファイルの再録音方法、装置及び記憶媒体 Active JP6717940B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510810824.X 2015-11-23
CN201510810824.XA CN106782627B (zh) 2015-11-23 2015-11-23 音频文件的重录方法及装置
PCT/CN2016/094649 WO2017088527A1 (zh) 2015-11-23 2016-08-11 音频文件的重录方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2019505944A JP2019505944A (ja) 2019-02-28
JP6717940B2 true JP6717940B2 (ja) 2020-07-08

Family

ID=58763915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018526686A Active JP6717940B2 (ja) 2015-11-23 2016-08-11 オーディオファイルの再録音方法、装置及び記憶媒体

Country Status (6)

Country Link
US (1) US10283168B2 (ja)
EP (1) EP3382707B1 (ja)
JP (1) JP6717940B2 (ja)
KR (1) KR102084979B1 (ja)
CN (1) CN106782627B (ja)
WO (1) WO2017088527A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358969A (zh) * 2017-07-19 2017-11-17 无锡冰河计算机科技发展有限公司 一种录音融合方法
CN108022604A (zh) * 2017-11-28 2018-05-11 北京小唱科技有限公司 补录音频内容的方法和装置
CN109378018A (zh) * 2018-10-18 2019-02-22 广州酷狗计算机科技有限公司 多媒体文件的录制方法、装置、终端及存储介质
CN110136752B (zh) * 2019-06-04 2021-01-26 广州酷狗计算机科技有限公司 音频处理的方法、装置、终端及计算机可读存储介质
CN110688082B (zh) * 2019-10-10 2021-08-03 腾讯音乐娱乐科技(深圳)有限公司 确定音量的调节比例信息的方法、装置、设备及存储介质
CN112382310B (zh) * 2020-11-12 2022-09-27 北京猿力未来科技有限公司 一种人声音频录制方法和装置
CN112837709B (zh) * 2021-02-24 2022-07-22 北京达佳互联信息技术有限公司 一种音频文件拼接的方法及装置
CN113438434A (zh) * 2021-08-26 2021-09-24 视见科技(杭州)有限公司 基于文本的音频/视频重录方法和系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2877981B2 (ja) * 1991-04-26 1999-04-05 シャープ株式会社 記録再生装置
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6111709A (en) * 1997-09-24 2000-08-29 Sony Corporation Digital recorder with seamless punch-out
US6064961A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
JP3978909B2 (ja) * 1998-12-03 2007-09-19 ヤマハ株式会社 カラオケ装置
JP4145796B2 (ja) * 2001-10-31 2008-09-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム
US7231351B1 (en) * 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
US7979281B2 (en) * 2003-04-29 2011-07-12 Custom Speech Usa, Inc. Methods and systems for creating a second generation session file
US8109765B2 (en) * 2004-09-10 2012-02-07 Scientific Learning Corporation Intelligent tutoring feedback
GB2431489A (en) * 2005-10-14 2007-04-25 Fabularo Ltd Method for the manufacture of an audio book
US20080140652A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Authoring tool
US8751022B2 (en) * 2007-04-14 2014-06-10 Apple Inc. Multi-take compositing of digital media assets
CN101840722A (zh) * 2009-03-18 2010-09-22 美商原创分享控股集团有限公司 线上影音编辑处理方法、装置及系统
US8346557B2 (en) * 2009-01-15 2013-01-01 K-Nfb Reading Technology, Inc. Systems and methods document narration
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US9066049B2 (en) * 2010-04-12 2015-06-23 Adobe Systems Incorporated Method and apparatus for processing scripts
US8548618B1 (en) * 2010-09-13 2013-10-01 Audible, Inc. Systems and methods for creating narration audio
US9031493B2 (en) * 2011-11-18 2015-05-12 Google Inc. Custom narration of electronic books
US9595256B2 (en) * 2012-12-04 2017-03-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
US9280906B2 (en) * 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
CN104347096A (zh) * 2013-08-09 2015-02-11 上海证大喜马拉雅网络科技有限公司 集音频裁剪、续录及合并于一体的录音系统和方法

Also Published As

Publication number Publication date
EP3382707A1 (en) 2018-10-03
EP3382707B1 (en) 2020-10-28
CN106782627B (zh) 2019-08-27
US10283168B2 (en) 2019-05-07
EP3382707A4 (en) 2019-08-07
CN106782627A (zh) 2017-05-31
JP2019505944A (ja) 2019-02-28
WO2017088527A1 (zh) 2017-06-01
US20180247675A1 (en) 2018-08-30
KR102084979B1 (ko) 2020-03-05
KR20180090294A (ko) 2018-08-10

Similar Documents

Publication Publication Date Title
JP6717940B2 (ja) オーディオファイルの再録音方法、装置及び記憶媒体
CN105872253B (zh) 一种直播声音处理方法及移动终端
WO2016177296A1 (zh) 一种生成视频的方法和装置
JP5266368B2 (ja) 音楽再生制御のための方法、システム及びプログラム製品
RU2612362C1 (ru) Способ записи, способ воспроизведения, устройство, терминал и система
US20090062944A1 (en) Modifying media files
JP2010205394A (ja) 音源再生装置及び音源選択再生方法
US20230252964A1 (en) Method and apparatus for determining volume adjustment ratio information, device, and storage medium
JP2008294516A (ja) 再生装置および再生方法
KR20150024188A (ko) 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치
CN106328176B (zh) 一种生成歌曲音频的方法和装置
WO2017028686A1 (zh) 一种信息处理方法、终端设备及计算机存储介质
US11272136B2 (en) Method and device for processing multimedia information, electronic equipment and computer-readable storage medium
KR100783113B1 (ko) 이동 통신 단말기의 음악 파일 단축 저장 방법
CN110675848A (zh) 音频处理方法、装置及存储介质
WO2017101260A1 (zh) 音频切换方法、装置以及存储介质
KR102156805B1 (ko) 데이터 처리 방법 및 그 전자 장치
CN107391076A (zh) 音效评价显示方法及装置
CN105702240A (zh) 智能终端调整歌曲伴奏音乐的方法和装置
WO2020118560A1 (zh) 一种录音方法、装置、电子设备和计算机可读存储介质
KR101393714B1 (ko) 단말 및 그의 음악 재생 방법
KR101082260B1 (ko) 휴대용 디지털 기기의 캐릭터 표시방법
WO2019071491A1 (zh) 一种基于智能终端的音效区分方法及音效区分系统
JP6464754B2 (ja) 音楽再生装置、及び、音楽再生プログラム
JP3145706U (ja) ビデオ−オーディオ娯楽マルチメディア処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200611

R150 Certificate of patent or registration of utility model

Ref document number: 6717940

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250