JP6669883B2

JP6669883B2 - 音声データ処理方法及び装置

Info

Publication number: JP6669883B2
Application number: JP2018541477A
Authority: JP
Inventors: ▲偉▼峰 ▲趙▼; 雪▲キ▼ ▲陳▼
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-11-03
Filing date: 2016-11-03
Publication date: 2020-03-18
Anticipated expiration: 2036-11-03
Also published as: KR20180088824A; KR102083917B1; EP3373299A1; EP3373299A4; US10665218B2; US20180247629A1; EP3373299B1; CN106653037A; CN106653037B; JP2018537732A; WO2017076304A1

Description

本発明は音声データ処理方法及び装置に関する。

メディアアプリケーションの発展に伴って、音声データに対して編集を行うアプリケーションがますます多くなる。種々の音声データの収集及び再生のみに限らず、もっと音声データの編集に注目して、収集された音声データを原音として様々な音声データの出力が図る。

例えば、ユーザに提供されるカラオケの機能では、収集された音声データに対して、編集を行うとともに特定の効果音を付けてから出力し、リスナーに聴取されることが多い。音声データに対して行う編集において、ハーモニーの効果音の模擬を実現する必要があると、相応的な実現方式は、収集された音声データ、即ち入力された人声を原音として、他の人声をある数且つある比例で原音に重畳することにより、出力用の音声データが得られる。

ところで、そのハーモニーの効果音の模擬は、原音全体にハーモニーの効果音を付けることにより実現される。即ち、期間全体に亘ってハーモニー処理を行うので、リアルシーンでのハーモニーに反し、ハーモニーの効果音の模擬に歪みが生じるという制限がある。

これに鑑みて、本発明の一つの実施例では、音声データ全体が期間全体に亘ってハーモニーの効果音が付けられることを避け、ハーモニーの模擬のリアル性を向上させることができる音声データ処理方法を提供する。

また、一つの実施例では、音声データ全体が期間全体に亘ってハーモニーの効果音が付けられることを避け、ハーモニーの模擬のリアル性を向上させることができる音声データ処理装置を提供する。

本発明の一側面において、
処理する音声データに基づいて相応的な歌詞ファイルを取得することと、
前記歌詞ファイルにおける文に基づいて前記音声データを分割することにより、音声データセグメントを取得することと、
前記音声データセグメントにおける最後の音が対応するデータを抽出することと、
前記最後の音が対応するデータに対してハーモニー処理を行うこととを含む音声データ処理方法を提供する。

本発明の他の側面において、処理する音声データに基づいて相応的な歌詞ファイルを取得するための取得モジュールと、
前記歌詞ファイルにおける文に基づいて前記音声データを分割することにより、音声データセグメントを取得するための分割モジュールと、
前記音声データセグメントにおける最後の音が対応するデータを抽出するためのデータ抽出モジュールと、
前記最後の音が対応するデータに対してハーモニー処理を行うための最後の音処理モジュールとを含む音声データ処理装置を提供する。
さらに、本発明のまた他の側面において、いくつかの音声データ処理方法および音声データ処理装置を提供する

上記の側面からわかるように、ハーモニーの模擬を行う必要がある任意の音声データに対して、まず、その音声データが対応する歌詞ファイルを取得し、歌詞ファイルにおける文に基づいて音声データを分割することにより、音声データセグメントを取得して、音声データセグメントにおける最後の音が対応するデータを抽出し、そのデータに対してハーモニー処理を行う。つまり、その音声データに対して行う編集では、その音声データにおいて最後の音が対応するデータのみにハーモニー処理を行い、音声データ全体に対して期間全体に亘ってハーモニー処理を行うことではないので、ハーモニーの模擬の実現が実際に歌を歌う際に行われるハーモニーと一致し、ハーモニーの模擬のリアル性が向上する。

図１は、本発明の実施例が提供する電子機器の構成模式図である。図２は、１つの実施例における音声データ処理方法のフローチャートである。図３は、図２における処理する音声データに基づいて歌詞ファイルを取得する方法のフローチャートである。図４は、図２における歌詞ファイルにおける文に基づいて音声データを分割することにより、音声データセグメントを取得する方法のフローチャートである。図５は、１つの実施例における予め設定された最後の音の長さの値に基づいて音声データセグメントから最後の音が対応するデータを抽出する方法のフローチャートである。図６は、図２における最後の音が対応するデータに対してハーモニー処理を行う方法のフローチャートである。図７は、１つの実施例における音声処理装置の構成模式図である。図８は、図７における歌詞取得モジュールの構成模式図である。図９は、図７における分割モジュールの構成模式図である。図１０は、図７における抽出モジュールの構成模式図である。図１１は、図７における最後の音処理モジュールの構成模式図である。

本発明の代表的な実施形態について、以下の説明で詳細に記載する。本発明は、異なる実施形態に種々の変化があり、それらの変化がいずれも本発明の範囲を逸脱しないとともに、その説明及び図示が本質的に説明するためのものであり、本発明を制限するためのものではないこと、が理解すべきである。

上述したように、音声データに対して行う種々の編集では、入力された人声にハーモニーの効果音を付ける必要があれば、入力された人声全体に対して付けなければならなく、即ち、入力された人声全体にハーモニーの効果音を付加する。よって、従来の音声データの編集では、入力された任意の音声データに所要の効果音を付加することが可能であるが、ハーモニーの効果音に対して、単に、不自然に他の人声を当該音声データに直接重畳することにより、音声データ全体にハーモニーの効果音を付ける。これにより、ハーモニーの目的を達成するが、リアル性が欠けるので、リアルシーンでのハーモニーの效果を表さない。

よって、模擬のリアル性を確保し、リアルシーンでのハーモニーの效果を表すために、音声データ処理方法を提出する。当該音声データ処理方法が、コンピュータプログラムにより実現されることが可能であり、それに応じて、構築された音声データ処理装置が電子機器に格納されることが可能であるとともに、その電子機器でランニングすることが可能であり、これにより、任意の音声データのハーモニーを実現する。

図１に、本発明の実施例が提供する電子機器の構成を示す。当該電子機器１００は、本発明に適合する例だけであり、本発明の使用範囲を制限するものではない。当該電子機器１００が、図示する実施例の電子機器１００における１つまたは複数の部材の組み合わせを備える、または、それに依存する必要があること、と解釈できない。

図１に示すように、電子機器１００は、プロセッサ１１０と、メモリ１２０とシステムバス１３０とを含む。メモリ１２０とプロセッサ１１０を含む種々の構成要素がシステムバス１３０に接続される。プロセッサ１１０は、コンピュータシステムにおける基本的な演算及び論理演算によりコンピュータプログラムの命令を実行させるためのハードウェアによって実施されることが可能である。メモリ１２０は、コンピュータプログラムやデータを一時的または永続的に記憶するための物理機器によって実施されることが可能である。

そのうち、メモリ１２０には、複数の音声データ及び種々の歌詞ファイルが記憶されることが可能である。プロセッサ１１０は、メモリ１２０におけるプログラム命令を実行する。

携帯端末装置１００は、種々の操作の入力を実現するように、入力インターフェイス１７０と入力装置１４０とをさらに含む。そのうち、この入力装置１４０は、タッチスクリーンや、キーや、キーボードや、マウスなどの少なく１種であってもよい。

携帯端末装置１００は、記憶装置１８０をさらに含み、記憶装置１８０が、複数種のコンピュータ可読記憶媒体から選択されることが可能である。コンピュータ可読記憶媒体とは、アクセス可能且つ利用可能な任意の媒体を指し、リムーバブル媒体と固定媒体との２種類の媒体を含む。コンピュータ可読媒体は、例えば、フラッシュメモリ（マイクロＳＤカード）、ＣＤ−ＲＯＭ、ディジタルバーサタイルディスク（ＤＶＤ）または他のディスク、磁気テープカセット、磁気テープ記憶媒体または他の記憶装置、或いは所要の情報を記憶可能且つアクセス可能な他の任意の媒体を含んでもよいが、これに限定されない。

上記詳細に説明したように、本発明が適用される電子機器１００は、ハーモニー効果音を実現するための特定の操作を実行し、即ち、プロセッサ１１０によりメモリ１２０におけるプログラム命令を実行するという形で当該特定の操作を実行することにより、電子機器１００での音声データの処理を実現する。

また、ハードウェア回路またはハードウェア回路とソフトウェア命令との組み合わせによりも同様に本発明を実現することができるので、本発明の実現は、特定のハードウェア回路、ソフトウェア及び両方の組み合わせに限定されない。

１つの実施例では、具体的に、当該音声データ処理方法は、図２に示すように、下記動作を実行する。
ステップ２１０において、処理する音声データに基づいて相応的な歌詞ファイルを取得する。

その音声データは、現在編集している音声データであって、ユーザがある曲を歌っている際に録音される音声データであってもよいし、ユーザが予めある曲を歌って予め録音された音声データであってもよい。よって、音声データに対する編集は、リアルタイムに行ってもよいし、その音声データに対して行う後続編集であってもよい。

その音声データが属する曲に基づいて、歌詞ファイルを取得して、歌詞ファイルを根拠として当該音声データのハーモニーの模擬を行う。

また、当該音声データ処理方法は、図２に示すように、さらに下記動作を実行する。ステップ２３０において、歌詞ファイルにおける文に基づいて前記音声データを分割することにより、音声データセグメントを取得する。

歌詞ファイルの内容は、曲の１文毎の歌詞及び種々の相関の時点を含むので、歌詞ファイルにおける文に基づいて音声データの分割を行うことができ、即ち、前記音声データを分割して、文に対応する音声データセグメントを取得する。例えば、その音声データは１曲全体に亘って録音されたものであれば、歌詞ファイルにおける文に基づいて行う分割により、毎文が対応する音声データセグメントを取得する。

その音声データは、現在でリアルタイムに録音されているものであれば、その歌詞ファイルにおける相応的な文に基づいて分割を行うことにより、音声データの録音の進みに伴って分割して音声データセグメントを取得し続ける。

また、当該音声データ処理方法は、図２に示すように、さらに下記動作を実行する。ステップ２５０において、音声データセグメントにおける最後の音が対応するデータを抽出する。

音声データセグメントにおける最後の音に基づいてデータの抽出を行うことにより、最後の音が対応するデータを取得する。これにより、分割により取得された複数の音声データセグメントに対して、音声データセグメント毎における最後の音が対応するデータを取得するようになる。

また、当該音声データ処理方法は、図２に示すように、さらに下記動作を実行する。ステップ２７０において、最後の音が対応するデータに対してハーモニー処理を行う。

音声データセグメントにおける最後の音が対応するデータのみに対してハーモニー処理を行い、最後の音でハーモニー効果音の模擬を行う音声データセグメントを取得し、その音声データセグメントによりハーモニーの効果音を模擬する音声データを構成し、出力された音声データにハーモニーの効果音が付けられ、且つその音声データの出力において最後の音の部分のみにハーモニーの効果音の模擬が行われ、リアルシーンでのハーモニーと一致して、ハーモニー模擬のリアル性が保証される。

さらに、本実施例では、図３に示すように、１つの実施例において、当該ステップ２１０では、下記動作を実行する。テップ２１１において、処理する音声データに基づいて所属曲を取得する。また、テップ２１３において、所属曲が対応する歌詞ファイルを取得する。

当該音声データが対応する歌詞ファイルは、任意の形式であってもよいが、その内容が必ず複数の文及び文毎が対応する開始終了時点、即ち文毎の開始時間及び終了時間を含む。

さらに、実際の運営では、歌詞ファイルにおける内容は、歌詞が対応する文字及びその文字が対応する時点を含む。ここで、まず、１文毎の頭尾がそれぞれ対応する文字を決定して、その文の頭尾が対応する時点を取得する。その文の頭尾が対応する時点は、それぞれ文の開始時間と終了時間である。

１つの実施例では、図４に示すように、当該ステップ２３０では、下記動作を実行する。テップ２３１において、歌詞ファイルにおける文の開始時間及び終了時間を抽出する。

歌詞ファイルから文の開始時間及び終了時間の抽出を行い、文同士が時間を境界として区分される。

説明したいことは、歌詞ファイルにおいて文同士に間隔があると、その間隔が前の１文の尾端或いは次の１文の先端に帰属し、それに応じて、その終了時間が、間隔の末端が対応する時間であり、または、その開始時間が、間隔の前端が対応する時間である。

また、図４に示すように、当該ステップ２３０では、下記動作も実行する。テップ２３３において、開始時間及び終了時間に基づいて音声データを分割することにより、文が対応する音声データセグメントを取得する。

音声データにおける時間が歌詞ファイルにおける時間に一致するので、歌詞ファイルにおける時間に基づいて分割して文が対応する音声データセグメントを取得することができる。

つまり、歌を歌って録音された音声データに対して、その歌う内容が歌詞ファイルにおける歌詞及び時点に対応するので、歌詞ファイルにおける文と同じ期間にあるデータは、その文が対応する音声データセグメントである。

例えば、１文分の歌詞の最後の音が３秒であると、その文の歌詞が対応する音声データセグメントにおける３秒は、その音声データセグメントにおける１５秒から１８秒が対応するデータであり、その１５秒から１８秒が対応するデータは、その音声データセグメントにおける最後の音が対応するデータである。

さらに、本実施例では、当該ステップ２５０において、予め設定された最後の音の長さの値に基づいて音声データセグメントから最後の音が対応するデータを抽出する動作を含む。

最後の音の長さの値が予め設定された。当該最後の音の長さの値は、時間の値であり、最後の音が対応する時間の長さを表す。好ましくは、当該最後の音の長さの値が３秒に予め設定される。

音声データセグメント毎から、予め設定された最後の音の長さの値に基づいて最後の音が対応するデータを決定することが可能であるので、直接抽出すればよい。つまり、音声データセグメント毎において尾部の時間の長さが当該最後の音の長さの値に一致するデータは、最後の音が対応するデータである。

さらに、本実施例では、図５に示すように、予め設定された最後の音の長さの値に基づいて音声データセグメントから最後の音が対応するデータを抽出するステップは、ステップ２５１において、音声データセグメントの属する文が対応する終了時間及び予め設定された最後の音の長さの値に基づいて最後の音の開始時間を取得することを含む。

開始時間と終了時間に基づいて行う音声データの分割により、その分割された音声データセグメントが歌詞ファイルにおける文に対応する。これにより、音声データセグメント毎に、属する文があり、当該文が対応する終了時間を取得する。

終了時間と予め設定された最後の音の長さの値との差分は、最後の音の開始時間であり、最後の音の開始時間が音声データセグメントにおいて最後の音が対応するデータの抽出の開始点とされる。

また、図５に示すように、予め設定された最後の音の長さの値に基づいて音声データセグメントから最後の音が対応するデータを抽出するステップは、ステップ２５３において、最後の音の開始時間及び音声データのサンプリングレートに基づいて音声データセグメントから最後の音が対応する開始データの位置を決定することを含む。

音声データセグメントにおけるデータ毎に、対応する時間があり、つまり、その対応する時間がその音声データにおける位置及びサンプリングレートに基づいて決定されることが可能であり、即ち、ｔ＝ｎ／ｆｓ。ただし、ｔはデータが対応する時間であり、ｎは当該データの音声データにおける座標であり、ｆｓは音声データのサンプリングレートである。

上記からわかるように、最後の音の開始時間及び音声データのサンプリングレートに基づいて、最後の音の開始時間である時間が対応する音声データにおける座標を算出することができ、音声データセグメントからデータの位置を決定し、最後の音が対応する開始データを取得する。

また、図５に示すように、予め設定された最後の音の長さの値に基づいて音声データセグメントから最後の音が対応するデータを抽出するステップは、ステップ２５５において、音声データセグメントから、開始データを開始として、音声データセグメントの尾端を抽出するまでデータの抽出を行うことにより、最後の音が対応するデータを取得することを含む。

音声データセグメントから、直接に開始データを開始として、音声データセグメントの尾端を抽出するまで順序にデータの抽出を行い、これにより取得されたデータは、最後の音が対応するデータであり、その抽出されたデータに対してハーモニーの処理を行う。

上記したプロセスにより、分割し取得された音声データセグメントから最後の音が対応するデータを抽出し取得することができ、そのデータにより音声データセグメント毎のハーモニーの効果音の模擬を実現することで、音声データ全体のハーモニーの効果音の模擬が完成し、効果音の模擬のリアル性が向上される。

なお、注意すべきのは、文同士の間隔が前の１文が対応する音声データセグメントに帰属すれば、最後の音が対応するデータの抽出プロセスが、開始データと間隔の末端とのデータの抽出プロセスである。つまり、間隔が付加された音声データセグメントに対しても、開始データを開始として順次にデータの抽出を行うことにより、その間隔を含む最後の音が対応するデータを取得する。

後続のハーモニー処理においても、間隔を含む最後の音が対応するデータに対して、直接にハーモニー処理を行えばよい。

１つの実施例では、図６に示すように、当該ステップ２７０では、下記動作を含む。ステップ２７１において、最後の音が対応するデータを原音として、その原音をコピーしフォーリングトーン処理を行うことにより、中間データを取得する。

最後の音が対応するデータを１部コピーし、いずれの最後の音が対応するデータを原音として、他の最後の音が対応するデータに対してフォーリングトーン処理を行うことにより、中間データを取得する。そのうち、フォーリングトーン処理のためのアルゴリズムは、任意のｐｉｔｃｈｓｈｉｆｔに関するアルゴリズムである。

また、図６に示すように、当該ステップ２７０では、下記動作を含む。ステップ２７３において、前記中間データをコピーして複数部の中間データを取得し、毎部の中間データに対してそれぞれランダムな遅延及び減衰処理を行い、複数部のハーモニーの効果音データを取得する。

上記のようなステップにより、原音である最後の音が対応するデータ及び中間データを取得し、この際、中間データｓ’（ｎ）をＬ部コピーし、毎部にランダムな遅延及びランダムな減衰を付加し、即ち、ｓ”＝ｒ＊ｓ’（ｎ−Ｐ）。ただし、ｒは小数であり、Ｐは正数であり、ｓ”は任意のハーモニーの効果音データである。

また、図６に示すように、当該ステップ２７０では、下記動作を含む。ステップ２７５において、原音とハーモニーの効果音データとを重畳してハーモニーを模擬する音声データを取得する。

Ｌ部のｓ”を原音に重畳することにより音声データセグメントにおけるハーモニーを模擬した最後の音を取得することができ、音声データセグメントにおけるハーモニーの模擬を実現する。複数個の音声データセグメントがスティッチングされることにより、出力する音声データを得ることができる。

間隔を含む最後の音が対応するデータを原音とすれば、ハーモニーの効果音データも、その間隔を含む最後の音が対応するデータを基本として処理を行うことにより得られたものであるので、最後の音が対応するデータにおいて、間隔に対応する部分は空であり、それに応じて、ハーモニーの効果音データにおいて、間隔に対応する部分も空である。よって、原音とハーモニーの効果音データの重畳では、そのデータが空である部分も重畳されることにより、ハーモニーを模擬し間隔を含む最後の音を取得するので、最後の音のハーモニーの模擬を実現するとともに、既存の音声データに存在する間隔に影響しない。

具体的なアプリケーションにおいて、上記のような音声データ処理方法は、まず、相応的な歌詞ファイル、歌詞ファイルにおける文毎の開始時間ｓ（ｍ）及び終了時間ｄ（ｍ）を取得し、ただし、ｍとは、歌詞ファイルにおける第ｍ個の文を指す。開始時間ｓ（ｍ）及び終了時間ｄ（ｍ）も、その文が対応する音声データセグメントの開始点及び終了点である。

処理する音声データをｘ（ｎ）と仮定し、ｎはＮよりも小さい整数であり、その音声データの全長はＮである。

最後の音の長さの値をＴとして予め設定し、Ｔ＝３秒であり、これにより、音声データセグメントにおける最後の音の開始時間ｔｓ（ｍ）を取得し、即ち、ｔｓ（ｍ）＝ｄ（ｍ）−Ｔ。これにより、音声データセグメント毎に、それぞれ最後の音が対応するデータｓ（ｎ）を集める。

１部のｓ（ｎ）をコピーして、コピーにより得られたｓ（ｎ）に対してフォーリングトーン処理を行い、中間データｓ’（ｎ）を取得する。

この際、Ｌ部の中間データｓ’（ｎ）をコピーし、毎部の中間データｓ’（ｎ）にランダムな遅延及びランダムな減衰を付加し、即ち、ｓ”＝ｒ＊ｓ’（ｎ−Ｐ）であり、ただし、ｒは小数であり、Ｐは正数である。

Ｌ部のｓ”とｓ（ｎ）とを重畳してハーモニーを模擬した最後の音ｙ（ｎ）を得る。

上記のようなプロセスにより、音声データに対して、最後の音のハーモニーの模擬が精確的に実現される。

上記のような音声データ処理方法によれば、種々の音声アプリケーション、例えば、カラオケ用のアプリケーションが音声データのハーモニーの模擬を実現し、音声アプリケーションの機能を非常に豊富させる。

１つの実施例では、相応的に音声データ処理装置を提供する。図７に示すように、当該装置は、歌詞取得モジュール３１０と、分割モジュール３３０と、抽出モジュール３５０と最後の音処理モジュール３７０とを含む。

そのうち、歌詞取得モジュール３１０は、処理する音声データに基づいて歌詞ファイルを取得する。

分割モジュール３３０は、歌詞ファイルにおける文に基づいて音声データを分割することにより、音声データセグメントを取得する。

抽出モジュール３５０は、音声データセグメントにおける最後の音が対応するデータを抽出する。

最後の音処理モジュール３７０は、最後の音が対応するデータに対してハーモニー処理を行う。

１つの実施例では、図８に示すように、当該歌詞取得モジュール３１０は、所属曲取得手段３１１とファイル取得手段３１３とを含む。

そのうち、所属曲取得手段３１は、処理する音声データに基づいて所属曲を取得する。

ファイル取得手段３１３は、所属曲が対応する曲ファイルを取得する。

１つの実施例では、図９に示すように、当該分割モジュール３３０は、時間抽出モジュール３３１とデータ分割手段３３３とを含む。

そのうち、時間抽出モジュール３３１は、歌詞ファイルにおける文の開始時間及び終了時間を抽出する。

データ分割手段３３３が、開始時間及び終了時間に基づいて音声データを分割することにより、文が対応する音声データセグメントを取得する。

１つの実施例では、抽出モジュール３５０は、さらに、予め設定された最後の音の長さの値に基づいて音声データセグメントから最後の音が対応するデータを抽出する。

さらに、本実施例では、如図１０に示すように、当該抽出モジュール３５０は、最後の音時間算出手段３５１と、開始データ位置決定手段３５３と、データ抽出手段３５５とを含む。

そのうち、最後の音時間算出手段３５１は、音声データの属する文が対応する終了時間及び予め設定された最後の音の長さの値に基づいて、最後の音の開始時間を取得する。

開始データ位置決定手段３５３は、最後の音の開始時間及び音声データのサンプリングレートに基づいて、音声データセグメントから最後の音が対応する開始データの位置を決定する。

データ抽出手段３５５は、音声データセグメントから、開始データを開始として、音声データセグメントの尾端を抽出するまでデータの抽出を行うことにより、最後の音が対応するデータを取得する。

１つの実施例では、図１１に示すように、当該最後の音処理モジュール３７０は、フォーリングトーン処理手段３７１と、効果音生成手段３７３と、重畳手段３７５とを含む。

そのうち、フォーリングトーン処理手段３７２は、最後の音が対応するデータを原音として、その原音をコピーしフォーリングトーン処理を行うことにより、中間データを取得する。

効果音生成手段３７３は、前記中間データをコピーして、複数部の中間データを取得し、毎部の中間データに対してそれぞれランダムな遅延及び減衰処理を行い、複数部のハーモニーの効果音データを取得する。

重畳手段３７５は、原音とハーモニーの効果音データとを混合し重畳することにより、ハーモニーを模擬する音声データを取得する。

当業者は、以下のことが理解できる。上記実施例の全部または一部のステップがハードウェアにより実現されてもよく、プログラムからのかかるハードウェアへの命令により実現されてもよい。前記プログラムがコンピュータ可読記憶媒体に記憶されてもよい。上記言及した記憶媒体は、ＲＯＭやディスク、光ディスクなどであってもよい。

いくつかの代表的な実施態様を参照して本発明を説明しましたが、使用される用語は、制限的ではなく、説明用で例示的な用語であること、が理解できる。本発明が発明の要旨または本質を逸脱することなく様々な形で実施することができるので、上記実施態様は、いかなる前記詳細に限定されず、添付される特許請求の範囲で広く解釈されるべきものであるため、添付される特許請求の範囲に入るすべての変化及び変更が特許請求の範囲に含まれることが、理解できる。

１００電子機器
１１０プロセッサ
１２０メモリ
１３０システムバス
１４０入力装置
１７０入力インターフェイス
１８０記憶装置
３１０歌詞取得モジュール
３１１所属曲取得手段
３１３ファイル取得手段
３３０分割モジュール
３３１時間抽出モジュール
３３３データ分割手段
３５０抽出モジュール
３５１最後の音時間算出手段
３５３開始データ位置決定手段
３５５データ抽出手段
３７０最後の音処理モジュール
３７１フォーリングトーン処理手段
３７３効果音生成手段
３７５重畳手段

Claims

処理する音声データに基づいて歌詞ファイルを取得することと、
前記歌詞ファイルにおける文に基づいて前記音声データを分割することにより、音声データセグメントを取得することと、
前記音声データセグメントにおける最後の音が対応するデータを抽出することと、
前記最後の音が対応するデータに対してハーモニーの処理を行うことと、を含むことを特徴とする音声データ処理方法。
前記処理する音声データに基づいて歌詞ファイルを取得するステップは、前記処理する音声データに基づいて所属曲を取得することと、前記所属曲が対応する歌詞ファイルを取得することと、を含むことを特徴とする請求項１に記載の方法。
前記歌詞ファイルにおける文に基づいて前記音声データを分割することにより、音声データセグメントを取得するステップは、前記歌詞ファイルにおける文の開始時間及び終了時間を抽出することと、前記開始時間及び終了時間に基づいて前記音声データを分割して、文が対応する音声データセグメントを取得することと、を含むことを特徴とする請求項１に記載の方法。
前記音声データセグメントにおける最後の音が対応するデータを抽出するステップは、予め設定された最後の音の長さの値に基づいて、前記音声データセグメントから最後の音が対応するデータを抽出すること、を含むことを特徴とする請求項３に記載の方法。
予め設定された最後の音の長さの値に基づいて、前記音声データセグメントから最後の音が対応するデータを抽出するステップは、前記音声データセグメントの属する文が対応する終了時間及び予め設定された最後の音の長さの値に基づいて最後の音の開始時間を取得することと、前記最後の音の開始時間及び前記音声データのサンプリングレートに基づいて、前記音声データセグメントから最後の音が対応する開始データの位置を決定することと、前記音声データセグメントから、前記開始データを開始として、前記音声データセグメントの尾端を抽出するまでデータの抽出を行うことにより、前記最後の音が対応するデータを取得することと、を含むことを特徴とする請求項４に記載の方法。
前記最後の音が対応するデータに対してハーモニーの処理を行うステップは、前記最後の音が対応するデータを原音として、前記原音をコピーしフォーリングトーン処理を行うことにより、中間データを取得することと、前記中間データをコピーして、複数部の前記中間データを取得することと、毎部の中間データに対してそれぞれランダムな遅延及び減衰処理を行い、複数部のハーモニーの効果音データを取得することと、前記原音と前記ハーモニーの効果音データとを混合し重畳することにより、ハーモニーを模擬する音声データを取得することと、含むことを特徴とする請求項１に記載の方法。
処理する音声データに基づいて歌詞ファイルを取得するための歌詞取得モジュールと、
前記歌詞ファイルにおける文に基づいて前記音声データを分割することにより、音声データセグメントを取得するための分割モジュールと、
前記音声データセグメントにおける最後の音が対応するデータを抽出するための抽出モジュールと、
前記最後の音が対応するデータに対してハーモニー処理を行うための最後の音処理モジュールとを含むことを特徴とする音声データ処理装置。
前記歌詞取得モジュールは、前記処理する音声データに基づいて所属曲を取得するための所属曲取得手段と、前記所属曲が対応する歌詞ファイルを取得するためのファイル取得手段と、を含むことを特徴とする請求項７に記載の装置。
前記分割モジュールは、前記歌詞ファイルにおける文の開始時間及び終了時間を抽出するための時間抽出手段と、前記開始時間及び終了時間に基づいて前記音声データを分割して、文が対応する音声データセグメントを取得するためのデータ分割手段と、を含むことを特徴とする請求項７に記載の装置。
前記抽出モジュールは、さらに、予め設定された最後の音の長さの値に基づいて、前記音声データセグメントから最後の音が対応するデータを抽出することを特徴とする請求項９に記載の装置。
前記抽出モジュールは、前記音声データセグメントの属する文が対応する終了時間及び予め設定された最後の音の長さの値に基づいて最後の音の開始時間を取得するための最後の音時間算出手段と、前記最後の音の開始時間及び前記音声データのサンプリングレートに基づいて、前記音声データセグメントから最後の音が対応する開始データの位置を決定するための開始データ位置決定手段と、前記音声データセグメントから、前記開始データを開始として、前記音声データセグメントの尾端を抽出するまでデータの抽出を行うことにより、前記最後の音が対応するデータを取得するためのデータ抽出手段と、を含むことを特徴とする請求項１０に記載の装置。
前記最後の音処理モジュールは、前記最後の音が対応するデータを原音として、前記原音をコピーしフォーリングトーン処理を行うことにより、中間データを取得するためのフォーリングトーン処理手段と、前記中間データをコピーして、複数部の前記中間データを取得し、毎部の中間データに対してそれぞれランダムな遅延及び減衰処理を行い、複数部のハーモニーの効果音データを取得するための効果音生成手段と、前記原音と前記ハーモニーの効果音データとを混合し重畳することにより、ハーモニーを模擬する音声データを取得するための重畳手段と、を含むことを特徴とする請求項７に記載の装置。