JP6717940B2

JP6717940B2 - オーディオファイルの再録音方法、装置及び記憶媒体

Info

Publication number: JP6717940B2
Application number: JP2018526686A
Authority: JP
Inventors: ▲穂▼豫 ▲馮▼
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-11-23
Filing date: 2016-08-11
Publication date: 2020-07-08
Anticipated expiration: 2036-08-11
Also published as: EP3382707A1; EP3382707B1; CN106782627B; US10283168B2; EP3382707A4; CN106782627A; JP2019505944A; WO2017088527A1; US20180247675A1; KR102084979B1; KR20180090294A

Description

本願は出願日２０１５年１１月２３日、出願番号２０１５１０８１０８２４.X、及び発明の名称「オーディオファイルの再録音方法及び装置」の中国特許出願の優先権を主張し、その内容は全体として参照により本明細書に取り込まれる。

本発明は、端末技術の分野に関し、特に、オーディオファイルの再録音方法、装置及び記憶媒体に関するものである。

現在、ユーザの余暇を豊かにするために、ますます多くの録音アプリケーションがモバイル端末にインストールされている。ユーザは、これらの録音アプリケーションに基づいて、プロの録音スタジオに入らずにオーディオファイルを録音することができる。オーディオファイルの録音中において、息や音質などの自分自身の条件によって制限され、録音されたオーディオファイル内のある音声セグメントは、ユーザの所望の効果を達成できないことがある。録音されたオーディオファイルのオーディオ効果を向上させるためには、オーディオファイル内の当該音声セグメントを再録音する必要がある。

現在、移動端末における録音アプリケーションは、再録音機能を提供する。再録音命令を受信すると、移動端末はスピーカを介して伴奏ファイルを再生すると同時に、ユーザの音声をマイクロフォンを介して収集して、一つの音声ファイルを得る。複数回の別個の再録音動作を実行して、複数のオーディオファイルを得た後、移動端末は、複数のオーディオファイルを編集して繋ぎ合わせることにより、最終的に再録音されたオーディオファイルを得ることができる。

通常、オーディオファイルにおける再録音する必要がある部分は、１つの言葉または１つの段落だけである可能性がある。オーディオファイル全体を複数回再録音する場合、移動端末のリソース消費を増加させるだけでなく、毎回の再録音時のユーザの呼吸、マイクロフォンまでの距離、音色などに対する制御の違いによって、移動端末によって収集されたデータが毎回異なるようになり、最終的に編集して繋ぎ合わせることによって得られた再録音されたオーディオファイルのオーディオ効果は依然として悪く、繋ぎ合わせの痕跡がはっきりと認識されることがある。

本発明の実施形態は、オーディオファイルの再録音方法および装置、並びに不揮発性メモリ記憶媒体を提供する。

一形態において、
再録音待ちの録音セグメントの第１開始時間である第１時間を決定することと、
前記第１時間を第１終了時間として録音された第１録音セグメントを再生することと、
前記第１時間に達すると、ユーザの第１音声データを収集して、第２録音セグメントを得ることと、
前記第１録音セグメントと前記第２録音セグメントを処理して、再録音されたオーディオファイルを得ることとを含む、
オーディオファイルの再録音方法を提供する。

他の形態において、
再録音待ちの録音セグメントの第１開始時間である第１時間を決定するための取得モジュールと、
前記第１時間を第１終了時間として録音された第１録音セグメントを再生するための第１再生モジュールと、
前記第１時間に達すると、ユーザの第１音声データを収集して、第２録音セグメントを得るための第１収集モジュールと、
前記第１録音セグメントと前記第２録音セグメントを処理して、再録音されたオーディオファイルを得るための処理モジュールとを含む、
オーディオファイルの再録音装置を提供する。

他の形態において、
プログラム命令が計算デバイスによって実行される場合、前記計算デバイスは、
オーディオファイルにおける再録音待ちの録音セグメントの第１開始時間である第１時間を決定する動作と、
前記オーディオファイルにおいて前記第１時間を第１終了時間として録音された第１録音セグメントを再生する動作と、
前記第１時間に達すると、ユーザの第１音声データを収集して、第２録音セグメントを得る動作と、
前記第１録音セグメントと前記第２録音セグメントを処理して、再録音されたオーディオファイルを得る動作とを実行する、
プログラム命令を記憶する不揮発性メモリ記憶媒体を提供する。

本発明では、音響スペクトルファイルを複数回録音する必要がなく、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音された録音セグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。

本発明の実施形態によるオーディオファイルの再録音方法のフローチャートである。本発明の他の実施形態によるオーディオファイルの再録音方法のフローチャートである。本発明の他の実施形態によるオーディオファイルの録音インターフェースの概略図である。本発明の他の実施形態による音響スペクトルスの概略図である。本発明の他の実施形態による音響スペクトルスの概略図である。本発明の他の実施形態による音響スペクトルスの概略図である。本発明の他の実施形態による音響スペクトルスの概略図である。本発明の他の実施形態による第１対象音響スペクトルと第２対象音響スペクトルとを合わせる概略図である。本発明の実施形態によるオーディオファイルの再録音装置の概略構成図である。本発明の実施形態によるオーディオファイルの再録音端末の概略構成図である。

本発明の技術的解決方策および利点をより明確にするために、以下、図面を参照して本発明の実施形態をさらに詳しく説明する。

端末技術の発達に伴い、ユーザの歌唱ニーズを満たすために、歌を録音するための様々なアプリケーションが移動端末にインストールされている。アマチュア歌手にとって、オーディオファイルを録音するとき、自分の息や感情をコントロールすることは困難であり、この結果、ある音声セグメントは、ユーザの所望の効果を達成できないことがある。この時、ユーザはこれらの音声セグメントを再録音することが多い。オーディオファイルを再録音する場合、複数回の別個の再録音を実行し、複数回再録音されたオーディオファイルを編集して繋ぎ合わせるので、移動端末のリソース消費を増加させるだけでなく、繋ぎ合わせたオーディオファイルが再生される際に、聴取者は歌手が一度に歌っていないことをはっきりと感じることができる。

従って、本発明の実施形態は、オーディオファイルの再録音方法を提供する。当該方法では、ある録音セグメントを再録音する場合、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザは以前の歌唱シーンを思い出させ、現在の歌唱中の音色、強さ、マイクロフォンまでの距離、息などを調整することにより、再録音された録音セグメントをできるだけ以前に録音された録音セグメントと自然につながる。前記録音セグメントは音声セグメントであってもよい。

図１を参照し、本実施形態による方法は、以下の動作を実行する。

ステップ１０１では、オーディオファイルにおける再録音待ちの録音セグメントの開始時間である第１時間を決定する。

ステップ１０２では、前記オーディオファイルにおいて前記第１時間を終了時間として録音された第１録音セグメントを再生する。

ステップ１０３では、前記第１時間に達すると、ユーザの第１音声データを収集して、第２録音セグメントを得る。

ステップ１０４では、第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得る。

前記第１時間は絶対的な時点に限定されず、オーディオファイルの開始時刻に対する時間であってもよく、オーディオファイルの再生時刻または録音の進行状況を特徴付けるために使用されることが理解できる。また、前記第１時間は、前記オーディオファイルにおける前記再録音待ちの録音セグメントの位置によって表されてもよいことも理解できる。

本明細書で説明する再録音待ちの録音セグメントとは、オーディオファイルにおけるユーザの期待を満たせず、録音アプリケーションによって提供される再録音機能に従って再録音されることを意図した録音セグメントを指すことが理解できる。

本明細書で使用される用語「録音セグメント」とは、音声を含む録音されたオーディオファイルにおけるセグメントを指すことが理解できる。これらのセグメントには、音声を含んでもよく、音声を含まなくてもよい（例えば無音）。本明細書で表示される「録音セグメント」は、当該セグメントには必ず音声を含むことを制限しない。

本発明の実施形態による方法では、再録音待ちの録音セグメントの前のセグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音されたセグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。

本発明の別の実施形態では、この方法は、
録音された第１録音セグメントの再生のプロセスにおいて、ユーザの第２音声データを収集して、第３録音セグメントを得る動作と、
第２録音セグメントと第３録音セグメントを今回の録音された録音セグメントとする動作とをさらに実行する。

本発明の別の実施形態では、第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、
第１録音セグメントに対応する第１音響スペクトルを取得し、第２録音セグメントに対応する第２音響スペクトルを取得することと、
第１音響スペクトルから、安定開始点および安定開始点に対応する第２時間を決定することと、
第２音響スペクトルから、立ち上がり開始点および立ち上がり開始点に対応する第３時間を取得することとを含む。

本発明の一実施形態において、前記安定開始点および立ち上がり開始点はそれぞれ連続する２つの音響スペクトルの中間の安定領域の始点および終点である。前記安定領域は、歌詞に対応する音響スペクトルと音声のラウドネスとに基づいて決定されることができ、一般に２つの連続する歌詞に対応する音響スペクトルの間かつラウドネスが予め設定された閾値よりも低い領域に位置する。前記音声のラウドネスの予め設定された閾値は、-70dbであってもよい。図７を例として、音響スペクトル領域S〜Eは、ラウドネスが-70db未満の安定領域であり、２つの連続する音響スペクトルAと音響スペクトルBとの間に位置する。ただし、Sは第１音響スペクトルAの安定開始点であり、Eは第２音響スペクトルBの立ち上がり開始点である。

本発明の別の実施形態では、第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、第２時間を開始時間として、今回の録音された録音セグメントから第４録音セグメントを選択することをさらに含む。前記第４録音セグメントは、歌詞に対応する音響スペクトルと音声のラウドネスとに基づいて選択されることができ、例えば、歌詞に対応する音響スペクトルの終わりから音声のラウドネスが予め設定された閾値よりも低い領域の始まりまでである。前記音声のラウドネスの予め設定された閾値は、-70dbであってもよい。

本発明の別の実施形態では、第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、第３時間を終了時間として、再録音待ちの録音セグメントと第１録音セグメントを含む前回の録音された録音セグメントから第５録音セグメントを選択することをさらに含む。前記第５録音セグメントの選択態様は、第４録音セグメントの選択態様と類似する。

本発明の別の実施形態では、第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、第４録音セグメントと第５録音セグメントを処理して、再録音されたオーディオファイルを得ることをさらに含む。

第２時間は第１時間よりも早く、第１時間は第３時間よりも早い。

本発明の別の実施形態において、第４録音セグメントと第５録音セグメントを処理して、再録音されたオーディオファイルを得る動作は、
第４録音セグメントに対応する音響スペクトルと第５録音セグメントに対応する音響スペクトルとを比較することと、
第４録音セグメントに対応する音響スペクトルから第１対象音響スペクトルを取得し、第５録音セグメントに対応する音響スペクトルから第２対象音響スペクトルを取得し、第１対象音響スペクトルと第２対象音響スペクトルは同じ開始時間と終了時間を有することと、
第１対象音響スペクトルと第２対象音響スペクトルとをフィッティングし、第４録音セグメントと第５録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得ることとを含む。

本発明の別の実施形態において、この方法は、録音された録音セグメントの再生のプロセスおよび録音セグメントの録音中において、対応する伴奏ファイルを再生することをさらに含む。

前述の選択可能な技術的解決策のすべては、本発明の選択可能な実施形態を形成するために任意の組み合わせを採用することができ、ここで、説明を省略する。

本発明の実施形態は、オーディオファイルの再録音方法を提供し、図２を参照し、本実施形態による方法は、以下の動作を実行する。

ステップ２０１において、移動端末は再録音待ちの録音セグメントの開始時間である第１時間を決定する。

本実施形態では、移動端末は、スマートフォン、ラップトップパソコン、タブレットパソコンなどのデバイスであってもよい。移動端末には、再録音機能を備えた録音アプリケーションがインストールされており、インストールされた録音アプリケーションに基づいて、ユーザはいつでもどこでも好きなオーディオファイルを録音し、録音されたオーディオファイルを友人と共有することができる。

オーディオファイルの録音中において、録音された録音セグメントがユーザの期待した効果に達していないか、録音中のスコアが低い場合、ユーザは録音アプリケーションによって提供された再録音機能に従って当該録音セグメントを再録音する。再録音待ちの録音セグメントは、歌詞、段落などであり、オーディオファイルにおいて当該再録音待ちの録音セグメントは、一つの開始時間及び終了時間に対応する。本実施形態では、再録音待ちの録音セグメントの開始時間を第１時間とすることを例にとるが、当該第１時間は絶対時間ではなく、オーディオファイルの開始再生時刻に対する時間であり、オーディオファイルの再生時刻または録音の進行状況を特徴付けるために使用される。当該第１時間はオーディオファイルの再生時間よりも短くする必要がある。たとえば、オーディオファイルの再生時間は４分で、開始再生時刻は００:００であり、当該第１時間はオーディオファイルの１分３０秒のところ、２分のところなどである。オーディオファイルの再生時間および第１時間が取得されると、オーディオファイルにおける再録音待ちの録音セグメントの位置を知ることもできる。例えば、オーディオファイルの長さが４分であり、第１時間がオーディオファイルの２分のところであることを例にとると、再録音待ちの録音セグメントはオーディオファイルの中点に位置することがわかる。

なお、注意すべきことは、本実施形態では、複数の録音セグメントに関与し、これらの異なる録音セグメントを区別するために、ユーザの所望の効果を達成できず再録音される必要がある録音セグメントを再録音待ちの録音セグメントと呼び、今回の再生された録音セグメントを第１録音セグメントと呼び、第１録音セグメントの再生のプロセスにおいて録音された録音セグメントを第３録音セグメントと呼び、今回の再録音された録音セグメントを第２録音セグメントと呼び、今回の録音された録音セグメントから選択した録音セグメントを第４録音セグメントと呼び、前回の録音された録音セグメントから選択した録音セグメントを第５録音セグメントと呼ぶ。

図２に示すように、本発明の実施形態による方法は、以下の動作をさらに実行する。ステップ２０２において、移動端末は第１時間を終了時間として録音された第１録音セグメントを再生する。

通常、ユーザが歌を歌うとき、現在の歌う歌詞に合わせるように不注意に息と気分を調整する。これにより、ユーザが再録音待ちの録音セグメントを再録音する過程においてこれまでの歌詞を歌うときに使用した息と気分を正確に把握することが困難である。この結果、再録音されたオーディオファイルは聴覚的に劣れている。再録音されたオーディオファイルの聴覚効果を向上させるために、再録音待ちの録音セグメントを決定した後、移動端末は再録音待ちの録音セグメントの開始時間に応じて、録音されたオーディオファイルから再生する必要がある第１録音セグメントを決定する。当該第１録音セグメントは第１時間を終了時間とする。当該第１録音セグメントは再録音待ちの録音セグメントの前の幾つかの歌詞または何節の歌詞であってもよい。本実施形態は、第１録音セグメントの長さを特に限定しない。再録音されたオーディオファイルをより自然にしてよりよく再生するために、移動端末が第１録音セグメントを決定するとき、第１録音セグメントの長さは可能な限り長く選択される。図３を参照し、「隣の君」という歌を録音することを例にする。図３は、「隣の君」という歌の録音インターフェースを示す。ユーザが「隣の君を思い出した」という歌詞を再録音したい場合、即ち、再録音待ちの録音セグメントは「隣の君を思い出した」であり、当該歌詞の開始時間はオーディオファイルの３９秒のことであることを取得する場合、移動端末は「答えられない君、僕も偶然アルバムをめぐって」を第１録音セグメントとすることができる。

この後、移動端末は、録音された第１録音セグメントをヘッドホンやスピーカなどの再生装置または聴取装置を介して再生する。前回の録音シーンを最大限に復元するために、移動端末は、録音された第１録音セグメントの再生のプロセスにおいて、当該第１録音セグメントに対応する時間に応じて、当該時間に対応する伴奏ファイルを再生する。当該伴奏ファイルの再生時間は、オーディオファイルの再生時間と同じであり、オーディオファイル内の録音セグメントと伴奏ファイル内の伴奏セグメントは１対１の対応関係を有する。例えば、第１録音セグメントの開始時間はオーディオファイルの１分０６秒であり、終了時間は２分１３秒であり、移動端末は、スピーカを介して当該第１録音セグメントを再生する際に、同期に第１録音セグメントに対応する伴奏ファイルも再生する。

図２に示すように、本発明の実施形態による方法は、以下の動作をさらに実行する。ステップ２０３において、録音された第１録音セグメントの再生のプロセスにおいて、移動端末は、ユーザの第２音声データを収集して、第３録音セグメントを得る。

移動端末が録音された第１録音セグメントを再生するとき、ユーザは第１録音セグメントおよび対応する伴奏ファイルに従って、第１録音セグメントを再作成する。このとき、マイクなどのデバイスは、ユーザの第２音声データを収集し、収集された第２音声データをバッファなどの記憶媒体に格納することにより第３録音セグメントを得る。第３録音セグメントは、第１録音セグメントの開始時間から第１時間までの時間内に音声収集装置によって収集されたオーディオセグメントであり、当該第３録音セグメントは、第１録音セグメントと同じ内容であってもよいし、第１録音セグメントの一部であってもよい。

図２に示すように、本発明の実施形態による方法は、以下の動作をさらに実行する。ステップ２０４において、第１時間に達すると、移動端末は、ユーザの第１音声データを収集して、第２録音セグメントを得て、第２録音セグメントと第３録音セグメントを今回の録音された録音セグメントとする。

第１録音セグメントの終了時間である第１時間に達すると、移動端末は、マイクなどのデバイスを介してユーザの第１音声データを収集し、収集された第１音声データをバッファなどの記憶媒体に格納することにより第２録音セグメントを得る。当該第２録音セグメントは、再録音待ちの録音セグメントと同じオーディオ内容を有する。すなわち、第２録音セグメントは、再録音待ちの録音セグメントに対応するオーディオファイルと同じ歌詞を有する。

ここまで、今回の再録音中では、移動端末は、２つの録音セグメント、すなわち第３録音セグメントと第２録音セグメントを録音し、第３録音セグメントと第２録音セグメントを今回の録音された録音セグメントとする。

図２に示すように、本発明の実施形態による方法は、以下の動作をさらに実行する。ステップ２０５において、移動端末は、第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得る。

上記のステップ２０１〜２０４を経て、移動端末は、ユーザが満足する第２録音セグメントを取得するが、当該第２録音セグメントは第１録音セグメントに接続されず、第３録音セグメントに接続され、かつ第１録音セグメントは第２録音セグメントにも接続されず、再録音待ちの録音セグメントに接続される。この場合、第１録音セグメントと第２録音セグメントとを自然につなぎ合わせて再録音されたオーディオファイルを得るように、移動端末は第１録音セグメントと第２録音セグメントとを処理する必要がある。

移動端末が第１録音セグメントと第２録音セグメントを処理する場合、以下の動作を採用することができる。

ステップ２０５１において、移動端末は、第１録音セグメントに対応する第１音響スペクトルを取得し、第２録音セグメントに対応する第２音響スペクトルを取得する。

音声は空気中を伝播することで音波を形成し、各音波は一つの音響スペクトルに対応することがよく知られている。本実施形態では、第１録音セグメントに対応する音響スペクトルと第２録音セグメントに対応する音響スペクトルに基づいて、第１録音セグメントと第２録音セグメントが処理される。以下の説明を容易にするために、本実施形態では、第１録音セグメントに対応する音響スペクトルを第１音響スペクトルと呼び、第２録音セグメントに対応する音響スペクトルを第２音響スペクトルと呼ぶ。図４を参照し、図４において、４０１は伴奏ファイルに対応する音響スペクトルであり、４０２は第１録音セグメントに対応する第１音響スペクトルであり、４０３は第１録音セグメントの前の録音セグメントに対応する音響スペクトルであり、４０４は再録音待ちの録音セグメントに対応する音響スペクトルであり、４０５は再録音待ちの録音セグメントを起点として録音された録音セグメントに対応する音響スペクトルである。

本実施形態では、移動端末が第１録音セグメントに対応する第１音響スペクトルを取得すると、第１録音セグメントをオシロスコープに入力して、第１録音セグメントに対応する第１音響スペクトルを取得する。移動端末が第２録音セグメントに対応する第２音響スペクトルを取得すると、第２録音セグメントをオシロスコープに入力して、第２録音セグメントに対応する第２音響スペクトルを取得する。

上記は、第１録音セグメントに対応する第１音響スペクトルと第２録音セグメントに対応する第２音響スペクトルを取得する１つの方法に過ぎない。実際の用途において、第１録音セグメントに対応する第１音響スペクトルと第２録音セグメントに対応する第２音響スペクトルを他の方法で取得してもよい。本実施形態では、説明を省略する。

移動端末が第１録音セグメントと第２録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ２０５２において、移動端末は、第１音響スペクトルから、安定開始点および安定開始点に対応する第２時間を取得する。

一つの歌詞を歌うから完成までの過程で、マイクなどのデバイスによって収集された録音セグメントに対応する音響スペクトルが安定する傾向にあり、音響スペクトルの振幅が徐々に小さくなり、音響スペクトルが安定する傾向にあった開始点から、マイクなどのデバイスによって収集された録音セグメントは、通常にユーザの息だけであり、音声データがない。本実施形態では、音響スペクトルが安定する傾向にあった開始点を安定開始点と呼び、安定開始点に対応する時間を第２時間と呼ぶ。第２時間はオーディオファイルの１分のところ、オーディオファイルの３０秒のところなどであってもよい。本実施形態は、第２時間の長さを具体的に制限しない、第２時間が第１時間よりも早いことを保証すればよい。図５を参照し、図５のAは第１録音セグメントに対応する第１音響スペクトルであり、Bは再録音待ちの録音セグメントに対応する音響スペクトルであり、Sは第１音響スペクトルにおける安定開始点であり、S点に対応する時間がｔ₁に設定される。

移動端末が第１録音セグメントと第２録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ２０５３において、移動端末は、第２音響スペクトルから、立ち上がり開始点および立ち上がり開始点に対応する第３時間を取得する。

一つの歌詞を歌う過程で、マイクなどのデバイスによって収集された録音セグメントに対応する音響スペクトルが徐々に上昇し、音響スペクトルの振幅が徐々に大きくなり、音響スペクトルが立ち上がる開始点からマイクなどのデバイスによって収集された録音セグメントがユーザの音声データを持つようになっている。本実施形態では、音響スペクトルが立ち上がる傾向にあった開始点を立ち上がり開始点と呼び、立ち上がり開始点に対応する時間を第３時間と呼ぶ。第３時間はオーディオファイルの３分のところ、オーディオファイルの５分のところなどであってもよい。本実施形態は、第３時間の長さを具体的に制限しない、第１時間が第３時間よりも早いことを保証すればよい。図６を参照し、図６のA’は第３録音セグメントに対応する音響スペクトルであり、Cは第２録音セグメントに対応する音響スペクトルであり、Eは第２音響スペクトルにおける立ち上がり開始点であり、E点に対応する時間がｔ_２に設定される。

移動端末が第１録音セグメントと第２録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ２０５４において、移動端末は、第２時間を開始時間として、今回の録音された録音セグメントから第４録音セグメントを選択する。

聴覚的に優れたオーディオファイルを得るために、前回の収集した録音セグメントであるか今回の収集した録音セグメントであるかにかかわらず、移動端末は収集した録音セグメントをバッファなどの記憶媒体に格納する。第１録音セグメントと第２録音セグメントとを自然につなぎ合わせるように、移動端末は第１録音セグメントと第２録音セグメントにおける音声データがない部分をつなぎ合わせる。

シームレスなつなぎ合わせを実現するために、移動端末は第２時間を開始時間として、今回の録音された録音セグメントから第４録音セグメントを選択することができる。当該第４録音セグメントは、第３録音セグメントの一部と第２録音セグメントとを含み、当該第３録音セグメントの一部は第２時間を開始時間として、かつ第１時間を終了時間とする。図７を参照し、第４録音セグメントは、第３録音セグメントの一部と第２録音セグメントCを含む。

移動端末が第１録音セグメントと第２録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ２０５５において、移動端末は、第３時間を終了時間として、再録音待ちの録音セグメントと第１録音セグメントを含む前回の録音された録音セグメントから第５録音セグメントを選択する。

第１録音セグメントと第２録音セグメントトをより良好につなぎ合わせるために、移動端末は、第３時間を終了時間として前回の録音された録音セグメントから第５録音セグメントを選択する。当該前回の録音された録音セグメントは、再録音待ちの録音セグメントと第１録音セグメントを含む。これに対応して、第５録音セグメントは、第１録音セグメントと再録音待ちの録音セグメントの一部を含む。当該再録音待ちの録音セグメントの一部は第１時間を開始時間として、かつ第３時間を終了時間とする。図７を参照し、第５録音セグメントは、第１録音セグメントAと再録音待ちの録音セグメントの一部を含む。

移動端末が第１録音セグメントと第２録音セグメントを処理する場合、以下の動作をさらに採用することができる。ステップ２０５６において、移動端末は、第４録音セグメントと第５録音セグメントを処理して、再録音されたオーディオファイルを得る。

移動端末が第４録音セグメントと第５録音セグメントを処理して、再録音されたオーディオファイルを得る場合、以下のステップa〜cを採用することができる

ステップaにおいて、移動端末は、第４録音セグメントに対応する音響スペクトルと第５録音セグメントに対応する音響スペクトルとを比較する。

通常、録音セグメントの音響スペクトルは、ある時刻における録音セグメントの振幅を反映することができ、移動端末は第４録音セグメントに対応する音響スペクトルと第５録音セグメントに対応する音響スペクトルとを比較することにより、第４録音セグメントと第５録音セグメントの振幅が小さい部分を得る。当該振幅が小さい部分は音声を持ってない。当該部分において第４録音セグメントと第５録音セグメントをつなぎ合わせることは、オーディオファイル全体の完全性に影響しない。

ステップbにおいて、移動端末は、第４録音セグメントに対応する音響スペクトルから第１対象音響スペクトルを取得し、第５録音セグメントに対応する音響スペクトルから第２対象音響スペクトルを取得する。

移動端末は、第４録音セグメントに対応する音響スペクトルと第５録音セグメントに対応する音響スペクトルとを比較することにより、第４録音セグメントに対応する音響スペクトルから第１対象音響スペクトルを取得し、第５録音セグメントに対応する音響スペクトルから第２対象音響スペクトルを取得することができる。第１対象音響スペクトルと第２対象音響スペクトルは同じ開始時間と終了時間を有する。当該第１対象音響スペクトルは第４録音セグメントの振幅が小さい部分であり、当該第２対象音響スペクトルは第５録音セグメントの振幅が小さい部分である。

ステップcにおいて、移動端末は、第１対象音響スペクトルと第２対象音響スペクトルとをフィッティングし、第４録音セグメントと第５録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得る。

移動端末は、第１対象音響スペクトルと第２対象音響スペクトルとを合わせる場合、第１対象音響スペクトルと第２対象音響スペクトルの重み付け値として１次関数、２次関数、特定パラメータなどを選択し、選択された重み付け値に基づいて、第１対象音響スペクトルと第２対象音響スペクトルの振幅を合わせる。合わせることにより、第４録音セグメントと第５録音セグメントを繋ぎ合わせて、ひいては第１録音セグメントと第２録音セグメントを繋ぎ合わせて、再録音されたオーディオファイルを取得する。繋ぎ合わせた第４録音セグメントと第５録音セグメントをより自然にするように、移動端末が、第１対象音響スペクトルと第２対象音響スペクトルの重み付け値を選択する場合、第１対象音響スペクトルの重み付け値と第２対象音響スペクトルの重み付け値に対して同じ値または関数を選択することができる。図８を参照し、図８は第１対象音響スペクトルと第２対象音響スペクトルとを合わせる概略図であり、ただし、Xは第１対象音響スペクトルであり、Yは第２対象音響スペクトルであり、s、tは２次関数であり、sは第１対象音響スペクトルに対応する重み付け値、tは第２対象音響スペクトルに対応する重み付け値である。２次関数s、tに基づいて、移動端末は第１対象音響スペクトルと第２対象音響スペクトルとを合わせることにより、第４録音セグメントと第５録音セグメントとを円滑に繋ぎ合わせることができる。

なお、注意すべきことは、以上、オーディオファイルを再録音する過程において、移動端末はユーザの音声データのみを収集することを例に挙げているが、実際には、移動端末は音声データと伴奏データを同時に収集してもよく、収集された音声データと伴奏データは再録音された音響スペクトルファイルに統合される。

本発明の実施形態による方法では、音響スペクトルファイルを複数回録音する必要がなく、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音されたセグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。

図９を参照し、図９は本発明の実施形態によるオーディオファイルの再録音装置の概略構成図であり、当該再録音装置は、
再録音待ちの録音セグメントの開始時間である第１時間を決定するための取得モジュール９０１と、
第１時間を終了時間として録音された第１録音セグメントを再生するための第１再生モジュール９０２と、
第１時間に達すると、ユーザの第１音声データを収集して、第２録音セグメントを得るための第１収集モジュール９０３と、
第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得るための処理モジュール９０４とを含む。

本発明の別の実施形態では、当該再録音装置は、録音された第１録音セグメントの再生のプロセスにおいて、ユーザの第２音声データを収集して、第３録音セグメントを得るための第２収集モジュールをさらに含み、第２録音セグメントと第３録音セグメントを今回の録音された録音セグメントとする。

本発明の別の実施形態では、処理モジュール９０４は、第１録音セグメントに対応する第１音響スペクトルを取得し、第２録音セグメントに対応する第２音響スペクトルを取得することと、第１音響スペクトルから、安定開始点および安定開始点に対応する第２時間を取得することと、第２音響スペクトルから、立ち上がり開始点および立ち上がり開始点に対応する第３時間を取得することと、第２時間を開始時間として、今回の録音された録音セグメントから第４録音セグメントを選択することと、第３時間を終了時間として、再録音待ちの録音セグメントと前記第１録音セグメントを含む前回の録音された録音セグメントから第５録音セグメントを選択することと、第４録音セグメントと第５録音セグメントを処理して、再録音されたオーディオファイルを得ることに用いられ、第２時間は第１時間よりも早く、第１時間は第３時間よりも早い。

本発明の別の実施形態では、処理モジュール９０４は、第４録音セグメントに対応する音響スペクトルと第５録音セグメントに対応する音響スペクトルとを比較することと、第４録音セグメントに対応する音響スペクトルから第１対象音響スペクトルを取得し、第５録音セグメントに対応する音響スペクトルから第２対象音響スペクトルを取得し、第１対象音響スペクトルと第２対象音響スペクトルは同じ開始時間と終了時間を有することと、第１対象音響スペクトルと第２対象音響スペクトルとをフィッティングし、第４録音セグメントと第５録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得ることにさらに用いられる。

本発明の別の実施形態では、当該装置は、録音された録音セグメントの再生のプロセスおよび録音セグメントの録音中において、対応する伴奏ファイルを再生するための第２再生モジュールをさらに含む。

以上により、本発明の実施形態による装置では、音響スペクトルファイルを複数回録音する必要がなく、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音された録音セグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。

図１０を参照し、図１０は本発明の実施形態によるオーディオファイルの再録音端末の概略構成図であり、当該端末は、上記の実施形態によるオーディオファイルの再録音方法を実施するために使用される。

具体的に、端末１０００は、RF（Radio Frequency、無線周波数）回路１１０と、１つ以上のコンピュータ可読記憶媒体を含むメモリ１２０と、入力ユニット１３０と、表示ユニット１４０と、センサ１５０と、オーディオ回路１６０と、WiFi（Wireless Fidelity、ワイヤレスフィデリティ）モジュール１７０、１つ以上の処理コアを含むプロセッサ１８０、および電源１９０などの部品を含む。当業者は、図１０に示す端末構造が端末を制限せず、図示された構成要素より多くまたはより少ない部品を含んでもよいし、幾つかの部品を組み合わせてもよいし、異なる部品のレイアウトを採用してもよい。

RF回路１１０は、情報の送信および受信中または通話中に、信号を受信および送信するために使用され、特に、基地局のダウンリンク情報が受信された後、１つ以上のプロセッサ１８０によって処理される。さらに、アップリンクデータは基地局に送信される。一般に、RF回路１１０は、アンテナ、少なくとも１つの増幅器、チューナー、１つ以上の発振器、ユーザ識別モジュール（SIM）カード、トランシーバ、カプラ、LNA（Low Noise Amplifier、低雑音増幅器）およびデュプレクサを含むが、これらに限定されない。また、RF回路１１０は、無線通信を介してネットワークや他の機器と通信することもできる。前記無線通信は、いずれかの通信規格またはプロトコルを使ってもよく、GSM(登録商標)（Global System of Mobile communication、グローバル移動通信システム）、GPRS（General Packet Radio Service、一般パケット無線サービス）、CDMA（Code Division Multiple Access、符号分割多元接続）、WCDMA(登録商標)（Wideband Code Division Multiple Access、広帯域符号分割多元接続）、LTE（Long Term Evolution、ロング・ターム・エヴォリューション）、電子メール、SMS（Short Messaging Service、ショートメッセージサービス）などを含むが、これらに限定されない。

メモリ１２０は、ソフトウェアプログラムおよびモジュールを記憶するために使用されてもよく、プロセッサ１８０は、メモリ１２０に記憶されたソフトウェアプログラムおよびモジュールを実行することによって、様々な機能アプリケーションおよびデータ処理を実行する。メモリ１２０は、主にプログラム記憶領域とデータ記憶領域を含む。プログラム記憶領域はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーション（例えば音声再生機能や画像再生機能など）などを格納することができる。データ記憶領域には、端末１０００の使用に応じて作成されたデータ（例えば音声データや電話帳など）を格納することができる。さらに、メモリ１２０は、高速ランダムアクセスメモリを含むことができ、また、少なくとも１つのディスク記憶装置、フラッシュメモリ装置、または他の揮発性ソリッドステート記憶装置などの不揮発性メモリを含むこともできる。対応して、メモリ１２０は、プロセッサ１８０および入力ユニット１３０のメモリ１２０へのアクセスを提供するメモリコントローラをさらに含むことができる。

入力ユニット１３０は、入力された数字または文字情報を受信し、ユーザ設定および機能制御に関連するキーボード、マウス、ジョイスティック、光学またはトラックボール信号入力を生成するように構成されてもよい。具体的に、入力ユニット１３０は、接触感知面１３１および他の入力装置１３２を含むことができる。接触感知面１３１は、タッチスクリーンまたはタッチパネルとも呼ばれ、ユーザのその上またはその近くのタッチ操作（例えば、指、スタイラスなどの任意の適切な物体または付属品による接触感知面１３１上または接触感知面１３１の近くにおける操作）を収集し、予め設定されたプログラムに従って対応する接続デバイスを駆動することができる。選択肢の一つとして、接触感知面１３１は、タッチ検出装置とタッチコントローラの２つの部分を含んでもよい。タッチ検出装置は、ユーザのタッチ方向を検出し、タッチ操作による信号を検出し、その信号をタッチコントローラに送信する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、接触座標に変換して、プロセッサ１８０に送信し、プロセッサ１８０からのコマンドを受信して実行することができる。また、接触感知面１３１は、抵抗性、容量性、赤外線および表面音波などによって実現されている。接触感知面１３１に加えて、入力ユニット１３０は、他の入力装置１３２も含むことができる。具体的に、他の入力装置１３２は、物理キーボード、機能キー（例えば音量制御キー、スイッチキーなど）、トラックボール、マウス、ジョイスティックなどのうちの１つ以上を含むが、これらに限定されない。

表示ユニット１４０は、ユーザによって入力された情報またはユーザに提供される情報および端末１０００の様々なグラフィカルユーザインターフェースを表示するように構成されてもよい。これらのグラフィカルユーザインターフェースは、グラフィックス、テキスト、アイコン、ビデオ、及びこれらの任意の組み合わせにより構成される。表示ユニット１４０は、表示パネル１４１を含むことができる。選択肢の一つとして、表示パネル１４１は、LCD（Liquid Crystal Display、液晶表示装置）、OLED（Organic Light-Emitting Diode、有機発光ダイオード）などの形態で構成されることができる。さらに、接触感知面１３１は、表示パネル１４１を覆うことができる。接触感知面１３１がその上またはその近くのタッチ操作を検出すると、プロセッサ１８０に送信してタッチ種類を判断し、この後プロセッサ１８０はタッチ種類に応じて表示パネル１４１に対応する視覚出力を提供する。図１０では、接触感知面１３１と表示パネル１４１とが２つの独立した部品として入力及び入力機能を実現するが、いくつかの実施形態では、接触感知面１３１と表示パネル１４１とを一体化して、入力および出力機能を実現する。

端末１０００は、例えば光センサ、モーションセンサ、および他のセンサなどの少なくとも１つのセンサ１５０をさらに含むことができる。具体的に、光センサは、周辺光センサと近接センサとを含み、周辺光センサは、周辺光の明るさに従って表示パネル１４１の明るさを調節し、近接センサは、端末機１０００が耳に動くときに表示パネル１４１および/またはバックライトをオフにする。モーションセンサの一種である重力加速度センサは、各方向（通常は３軸）の加速度の大きさを検出し、静止する時に重力の大きさや方向を検出することができ、携帯電話の姿勢を識別するアプリケーション（例えば水平および垂直画面の切り替え、関連ゲーム、磁力計の姿勢校正）や、振動関連機能（例えば歩数計、タップ）などに用いられることができる。なお、端末１０００に配置可能なジャイロ、気圧計、湿度計、温度計、赤外線センサ等の他のセンサについては、ここでは説明を省略する。

オーディオ回路１６０、スピーカ１６１およびマイク１６２は、ユーザと端末１０００との間のオーディオインターフェースを提供することができる。オーディオ回路１６０は、受信したオーディオデータを電気信号に変換してスピーカ１６１に送信し、スピーカ１６１により音声信号出力に変換してもよい。一方、マイク１６２は、収集された音声信号を電気信号に変換して、オーディオ回路１６０で受信した後でオーディオデータに変換して、さらにオーディオデータを出力してプロセッサ１８０で処理した後、RF回路１１０を介して例えば別の端末に送信し、またはさらなる処理のためにメモリ１２０に出力する。オーディオ回路１６０は、周辺イヤホンと端末１０００との間の通信を提供するためのイヤホンジャックを含むことができる。

WiFiは、近距離無線伝送技術であり、端末１０００はWiFiモジュール１７０を利用することにより、ユーザが電子メールを送受信し、ウェブページを閲覧し、ストリーミングメディアにアクセスすることなどを支援することができる。WiFiは、ユーザに無線のワイドバンドインターネットアクセスを提供する。図１０はWiFiモジュール１７０を示しているが、理解すべきことは、WiFiモジュール１７０は端末１０００に必要な構成ではなく、もちろん、本発明の本質を変更することなく、必要に応じて省略することができる。

プロセッサ１８０は、端末１０００の制御センターであり、様々なインターフェース及びラインを使用して携帯電話全体の各部分を接続し、メモリ１２０に格納されたソフトウェアプログラム及び/又はモジュールをランニング又は実行し、メモリ１２０に格納されたデータを呼び出すことにより、端末１０００の各種機能を実行してデータを処理し、携帯電話の全体的な監視を行う。選択肢の一つとして、プロセッサ１８０は１つ以上の処理コアを含んでもよい。選択肢の一つとして、プロセッサ１８０はアプリケーションプロセッサおよびモデムプロセッサを統合することができる。アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインターフェース、およびアプリケーションプログラムを扱う。モデムプロセッサは、主に無線通信を扱う。上記モデムプロセッサはプロセッサ１８０に統合されていなくてもよいことが理解できる。

端末１０００は、各部品に電力を供給するための電源（例えばバッテリー）１９０をさらに含む。好ましくは、電源は、電力管理システムを介してプロセッサ１８０と論理的に接続され、電力管理システムを介して充電管理、放電管理及び電力消耗管理などの機能を実現する。電源１９０は、DCまたはAC電源、再充電システム、電源故障検出回路、電力変換器またはインバータ、電力状況インジケータなどのうちの任意の１つ以上の部品を含むことができる。

図示しないが、端末１０００は、カメラ、ブルートゥースモジュールなどを含んでいてもよく、ここでは説明を省略する。具体的には、本実施形態において、端末１０００の表示ユニットは、タッチスクリーンディスプレイである。

端末１０００は、メモリと１つ以上のプログラムとをさらに含み、１つ以上のプログラムがメモリに格納され、１つ以上のプロセッサによって実行されるように構成される。前記１つ以上のプログラムは以下の動作を実行するための命令を含む。

すなわち、オーディオファイルにおける再録音待ちの録音セグメントの開始時間である第１時間を決定すること、前記オーディオファイルにおいて前記第１時間を終了時間として録音された第１録音セグメントを再生すること、前記第１時間に達すると、ユーザの第１音声データを収集して、第２録音セグメントを得ること、第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得ることである。

上記のことが第１の可能な実施形態であると仮定すると、第１の可能な実施形態に基づいて提供される第２の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。

すなわち、録音された第１録音セグメントの再生のプロセスにおいて、ユーザの第２音声データを収集して、第３録音セグメントを得ること、第２録音セグメントと第３録音セグメントを今回の録音された録音セグメントとすることである。

上記のことが第２の可能な実施形態であると仮定すると、第２の可能な実施形態に基づいて提供される第３の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。

すなわち、第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得ることは、
第１録音セグメントに対応する第１音響スペクトルを取得し、第２録音セグメントに対応する第２音響スペクトルを取得することと、
第１音響スペクトルから、安定開始点および前記オーディオファイルにおける安定開始点に対応する第２時間を決定することと、
第２音響スペクトルから、立ち上がり開始点および前記オーディオファイルにおける立ち上がり開始点に対応する第３時間を決定することと、
第２時間を開始時間として、今回の録音された録音セグメントから第４録音セグメントを選択することと、
第３時間を終了時間として、再録音待ちの録音セグメントと第１録音セグメントにより構成される前回の録音された録音セグメントから第５録音セグメントを選択することと、
第４録音セグメントと第５録音セグメントを処理して、再録音されたオーディオファイルを得ることとを含み、
第２時間は第１時間よりも早く、第１時間は第３時間よりも早い。

上記のことが第３の可能な実施形態であると仮定すると、第３の可能な実施形態に基づいて提供される第４の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。

すなわち、第４録音セグメントと第５録音セグメントを処理して、再録音されたオーディオファイルを得ることは、
第４録音セグメントに対応する音響スペクトルと第５録音セグメントに対応する音響スペクトルとを比較することと、
第４録音セグメントに対応する音響スペクトルから第１対象音響スペクトルを取得し、第５録音セグメントに対応する音響スペクトルから第２対象音響スペクトルを取得し、第１対象音響スペクトルと第２対象音響スペクトルは同じ開始時間と終了時間を有することと、
第１対象音響スペクトルと第２対象音響スペクトルとをフィッティングし、第４録音セグメントと第５録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得ることとを含む。

上記のことが第４の可能な実施形態であると仮定すると、第４の可能な実施形態に基づいて提供される第５の可能な実施形態において、端末のメモリは、以下の動作を実行するための命令をさらに含む。

すなわち、録音された録音セグメントの再生のプロセスおよび録音セグメントの録音中において、対応する伴奏ファイルを再生することである。

本発明の実施形態による端末は、再録音待ちの録音セグメントの前の録音セグメントを再生することにより、ユーザが再録音待ちの録音セグメントを再録音する際に、以前に録音された録音セグメントを聞き取って、息、マイクまでの距離、音色などを調整することができる。収集された歌唱データに基づいて、移動端末によって編集して繋ぎ合わせることにより得られたオーディオファイルは、聴覚的に優れており、聴取者は繋ぎ合わせの痕跡を認識することができない。

本発明の実施形態は、コンピュータ読取可能な記憶媒体をさらに提供し、当該コンピュータ読取可能な記憶媒体は、上記実施形態のメモリに含まれるコンピュータ読取可能な記憶媒体であってもよいし、単独で存在し端末に組み込まれていないコンピュータ読取可能な記憶媒体であってもよい。当該コンピュータ読取可能な記憶媒体は、１つ以上のプログラムを格納し、当該１つ以上のプログラムは１つ以上のプロセッサによって、以下のステップを介してオーディオファイルの再録音を実行する。

すなわち、オーディオファイルにおける再録音待ちの録音セグメントの開始時間である第１時間を決定するステップと、
前記オーディオファイルにおいて前記第１時間を終了時間として録音された第１録音セグメントを再生するステップと、
第１時間に達すると、ユーザの第１音声データを収集して、第２録音セグメントを得るステップと、
第１録音セグメントと第２録音セグメントを処理して、再録音されたオーディオファイルを得るステップとを含む。

すなわち、第１録音セグメントに対応する第１音響スペクトルを取得し、第２録音セグメントに対応する第２音響スペクトルを取得することと、
第１音響スペクトルから、安定開始点および安定開始点に対応する第２時間を取得することと、
第２音響スペクトルから、立ち上がり開始点および立ち上がり開始点に対応する第３時間を取得することと、
第２時間を開始時間として、今回の録音された録音セグメントから第４録音セグメントを取得することと、
第３時間を終了時間として、再録音待ちの録音セグメントと第１録音セグメントを含む前回の録音された録音セグメントから第５録音セグメントを選択することと、
第４録音セグメントと第５録音セグメントを処理して、再録音されたオーディオファイルを得ることとを含み、
第２時間は第１時間よりも早く、第１時間は第３時間よりも早い。

すなわち、第４録音セグメントに対応する音響スペクトルと第５録音セグメントに対応する音響スペクトルとを比較することと、
第４録音セグメントに対応する音響スペクトルから第１対象音響スペクトルを取得し、第５録音セグメントに対応する音響スペクトルから第２対象音響スペクトルを取得し、第１対象音響スペクトルと第２対象音響スペクトルは同じ開始時間と終了時間を有することと、
第１対象音響スペクトルと第２対象音響スペクトルとをフィッティングし、第４録音セグメントと第５録音セグメントとを繋ぎ合わせて、再録音されたオーディオファイルを得ることとを含む。

すなわち、録音された録音セグメントの再生および録音セグメントの録音のプロセスにおいて、対応する伴奏ファイルを再生することである。

なお、注意すべきことは、上記実施形態によるオーディオファイルの再録音装置は、オーディオファイルを再録音する場合、上記の各機能モジュールの分割のみを例として説明する。実際の適用において、上記の機能は、必要に応じて異なる機能モジュールによって実現されてもよい。すなわち、オーディオファイルの再録音装置の内部構造を異なる機能モジュールに分割して、上述の機能のすべてまたは一部を完成する。なお、上述した実施形態に係るオーディオファイルの再記録装置及びオーディオファイルの再記録方法の実施形態は、同一の概念に属するものであり、具体的な実現の過程については、方法の実施形態で詳細に説明するので、ここでは省略する。

当業者は、上記の実施形態を実現するためのステップの全部または一部をハードウェアで完成させることができ、また、プログラムで関連するハードウェアを命令することにより完成させることを理解できる。前記プログラムは、コンピュータ読取可能な記憶媒体に格納されてもよく、上記した記憶媒体は、読出専用メモリ、磁気ディスク、光ディスクなどであってもよい。

上記の説明は、本発明の好ましい実施形態であり、本発明を限定するものではない。本発明の精神および原理の範囲内でなされた変更、等効の置換、および改良は、本発明の保護範囲に含まれるものとする。

１１０ RF回路
１２０メモリ
１３０入力ユニット
１４０表示ユニット
１５０センサ
１６０オーディオ回路
１７０ WiFiモジュール
１８０プロセッサ
１９０電源
９０１取得モジュール
９０２第１再生モジュール
９０３第１取集モジュール
９０４処理モジュール

Claims

オーディオファイルにおける再録音待ちの録音セグメントの第１開始時間である第１時間を決定することと、
前記オーディオファイルにおいて前記第１時間を第１終了時間として録音された第１録音セグメントを再生することであって、録音された第１録音セグメントの再生のプロセスにおいて、ユーザの第２音声データを収集して、第３録音セグメントを得ることと、
前記第１時間に達すると、ユーザの第１音声データを収集して、第２録音セグメントを得ることと、
前記第１録音セグメントと前記第２録音セグメントを処理して、再録音されたオーディオファイルを得ることであって、
前記第１録音セグメントに対応する第１音響波形を取得し、前記第２録音セグメントに対応する第２音響波形を取得することと、
前記第１音響波形から、安定開始点および前記オーディオファイルにおける前記安定開始点に対応する第２時間を決定することと、
前記第２音響波形から、立ち上がり開始点および前記オーディオファイルにおける前記立ち上がり開始点に対応する第３時間を決定することと、
前記第２時間を開始時間として、前記第２録音セグメント及び前記第３録音セグメントから第４録音セグメントを選択することと、
前記第３時間を終了時間として、前記再録音待ちの録音セグメント及び前記第１録音セグメントから第５録音セグメントを選択することと、
前記第４録音セグメントと前記第５録音セグメントを処理して、前記再録音されたオーディオファイルを得ることとを含み、
前記第２時間は前記第１時間よりも早く、前記第１時間は前記第３時間よりも早い、ことと、
を含む、オーディオファイルの再録音方法。
前記第４録音セグメントと前記第５録音セグメントを処理して、前記再録音されたオーディオファイルを得ることは、
前記第４録音セグメントに対応する音響波形と前記第５録音セグメントに対応する音響波形とを比較することと、
前記第４録音セグメントに対応する音響波形から第１対象音響波形を取得し、前記第５録音セグメントに対応する音響波形から第２対象音響波形を取得し、前記第１対象音響波形と前記第２対象音響波形は同じ開始時間と終了時間を有することと、
前記第１対象音響波形と前記第２対象音響波形とをフィッティングし、前記第４録音セグメントと前記第５録音セグメントとを繋ぎ合わせて、前記再録音されたオーディオファイルを得ることとを含む、
請求項１に記載のオーディオファイルの再録音方法。
録音された録音セグメントの再生および録音セグメントの録音のプロセスにおいて、対応する伴奏ファイルを再生することをさらに含む、
請求項１に記載のオーディオファイルの再録音方法。
１つ以上のプロセッサおよびプログラムモジュールを記憶したメモリを含み、
前記プログラムモジュールは、
オーディオファイルにおける再録音待ちの録音セグメントの第１開始時間である第１時間を決定するための取得モジュールであって、録音された第１録音セグメントの再生のプロセスにおいて、ユーザの第２音声データを収集して、第３録音セグメントを得る取得モジュールと、
前記オーディオファイルにおいて前記第１時間を第１終了時間として録音された第１録音セグメントを再生するための第１再生モジュールと、
前記第１時間に達すると、ユーザの第１音声データを収集して、第２録音セグメントを得るための第１収集モジュールと、
前記第１録音セグメントと前記第２録音セグメントを処理して、再録音されたオーディオファイルを得るための処理モジュールとを含み、
前記処理モジュールは、
前記第１録音セグメントに対応する第１音響波形を取得し、前記第２録音セグメントに対応する第２音響波形を取得することと、
前記第１音響波形から、安定開始点および前記オーディオファイルにおける前記安定開始点に対応する第２時間を決定することと、
前記第２音響波形から、立ち上がり開始点および前記オーディオファイルにおける前記立ち上がり開始点に対応する第３時間を決定することと、
前記第２時間を開始時間として、前記第２録音セグメント及び前記第３録音セグメントから第４録音セグメントを選択することと、
前記第３時間を終了時間として、前記再録音待ちの録音セグメント及び前記第１録音セグメントから第５録音セグメントを選択することと、
前記第４録音セグメントと前記第５録音セグメントを処理して、前記再録音されたオーディオファイルを得ることにさらに用いられ、
前記第２時間は前記第１時間よりも早く、前記第１時間は前記第３時間よりも早い、
オーディオファイルの再録音装置。
前記処理モジュールは、
前記第４録音セグメントに対応する音響波形と前記第５録音セグメントに対応する音響波形とを比較することと、
前記第４録音セグメントに対応する音響波形から第１対象音響波形を取得し、前記第５録音セグメントに対応する音響波形から第２対象音響波形を取得し、前記第１対象音響波形と前記第２対象音響波形は同じ開始時間と終了時間を有することと、
前記第１対象音響波形と前記第２対象音響波形とをフィッティングし、前記第４録音セグメントと前記第５録音セグメントとを繋ぎ合わせて、前記再録音されたオーディオファイルを得ることにさらに用いられる、
請求項４に記載のオーディオファイルの再録音装置。
録音された録音セグメントの再生および録音セグメントの録音のプロセスにおいて、対応する伴奏ファイルを再生することに用いられる第２再生モジュールをさらに含む、
請求項４に記載のオーディオファイルの再録音装置。
プログラム命令が計算デバイスによって実行される場合、前記計算デバイスは、
オーディオファイルにおける再録音待ちの録音セグメントの第１開始時間である第１時間を決定する動作と、
前記オーディオファイルにおいて前記第１時間を第１終了時間として録音された第１録音セグメントを再生する動作であって、録音された第１録音セグメントの再生のプロセスにおいて、ユーザの第２音声データを収集して、第３録音セグメントを得る動作と、
前記第１時間に達する場合、ユーザの第１音声データを収集して、第２録音セグメントを得る動作と、
前記第１録音セグメントと、前記第２録音セグメントを処理して、再録音されたオーディオファイルを得る動作とを実行するように設定され、
前記再録音されたオーディオファイルを得る動作は、
前記第１録音セグメントに対応する第１音響波形を取得し、前記第２録音セグメントに対応する第２音響波形を取得することと、
前記第１音響波形から、安定開始点および前記オーディオファイルにおける前記安定開始点に対応する第２時間を決定することと、
前記第２音響波形から、立ち上がり開始点および前記オーディオファイルにおける前記立ち上がり開始点に対応する第３時間を決定することと、
前記第２時間を開始時間として、前記第２録音セグメント及び前記第３録音セグメントから第４録音セグメントを選択することと、
前記第３時間を終了時間として、前記再録音待ちの録音セグメント及び前記第１録音セグメントから第５録音セグメントを選択することと、
前記第４録音セグメントと前記第５録音セグメントを処理して、前記再録音されたオーディオファイルを得ることとを含み、
前記第２時間は前記第１時間よりも早く、前記第１時間は前記第３時間よりも早い、
プログラム命令を記憶する不揮発性メモリ記憶媒体。