JP2019507912A

JP2019507912A - 歌曲メロディ情報処理方法、サーバ、および記憶媒体

Info

Publication number: JP2019507912A
Application number: JP2018552111A
Authority: JP
Inventors: 碧磊朱; ▲ファン▼▲マイ▼ ▲鄭▼; 星明金; 科李; 永▲堅▼ ▲呉▼; ▲飛▼▲躍▼ 黄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-03-18
Filing date: 2017-02-21
Publication date: 2019-03-22
Anticipated expiration: 2037-02-21
Also published as: WO2017157142A1; US11288309B2; JP6784362B2; CN107203571B; KR102167520B1; CN107203571A; US20180232446A1; KR20180088889A

Abstract

歌曲メロディ情報処理方法は、MIDIファイルを収集するステップと、MIDIファイルの歌曲識別子を取得するステップと、MIDIファイルに従って第1のメロディ情報を生成するステップと、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを含む。

Description

関連出願
本出願は、参照によりその全体が組み込まれている、2016年3月18日に出願した、「SONG MELODY INFORMATION PROCESSING METHOD AND APPARATUS」と題する中国特許出願第2016101583497号に対する優先権を主張するものである。

本出願は、音声処理技術の分野に関し、より詳細には、歌曲メロディ情報処理方法、サーバ、および記憶媒体に関する。

ハミング認識は、音声処理技術の重要な適用例である。ユーザがハミングした音声が録音され、ハミング認識を実装するために、その音声に一致するメロディ情報に対応する歌曲情報が戻されるように、その一致するメロディ情報に対して歌曲メロディデータベースが探索される。ハミング認識技術は豊富な歌曲メロディデータベースに依拠することが理解できる。

現在、歌曲メロディデータベースは、楽器デジタルインターフェース(MIDI)ファイルを使用することによって完全にセットアップされ、MIDIファイルは、専用デバイスを使用することによって音楽家によって製作される必要があり、極めて高い製作コストを生じさせる。ハミング認識の実装のために必要とされる歌曲メロディデータベース内のメロディ情報の数は、概して、数百万程度に及ぶ。結果として、ハミング認識を実装するために歌曲メロディデータベースをセットアップするコストは非常に高く、ハミング認識技術の適用および開発を制限する。

本出願の実施形態によれば、歌曲メロディ情報処理方法、サーバ、および記憶媒体が提供される。

歌曲メロディ情報処理方法であって、
MIDIファイルを収集するステップと、
MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセット(user unaccompanied-singing audio data set)を取得するステップと、
ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと
を含む、方法が提供される。

メモリとプロセッサとを含むサーバであって、メモリがコンピュータ可読命令を記憶し、コンピュータ可読命令が、プロセッサによって実行されると、プロセッサに、
MIDIファイルを収集するステップと、
MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと
を実行させる、サーバが提供される。

コンピュータ可読命令を記憶した、1つまたは複数の不揮発性コンピュータ可読記憶媒体であって、コンピュータ可読命令が、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、
MIDIファイルを収集するステップと、
MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと
を実行させる、不揮発性コンピュータ可読記憶媒体が提供される。

以下の添付の図面および説明において、本出願の1つまたは複数の実施形態の詳細が提供される。本開示の他の特徴、目的、および利点は、明細書、添付の図面、および請求項において明らかになろう。

本明細書の実施形態または既存の技術における技術的解決策をより明瞭に説明するために、以下は、これらの実施形態または既存の技術を説明するために必要とされる添付の図面について短く説明する。明らかに、以下の説明における添付の図面は、本出願のいくつかの実施形態を単に示し、当業者は創造的な取り組みなしにこれらの添付の図面から他の図面を依然として導出することができる。

一実施形態による、歌曲音声データ処理システムの適用環境の図である。一実施形態による、サーバの内部構造の図である。一実施形態による、歌曲メロディ情報処理方法の概略的フローチャートである。一実施形態による、歌曲音声データセットからのメロディ情報を歌曲メロディデータベースに追加するステップの概略的フローチャートである。一実施形態による、歌曲メロディデータベースをセットアップするために複数のソースから音声データを取得するプロセスの概略図である。一実施形態による、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップの概略的フローチャートである。一実施形態による、第2のメロディ情報を取得するために、ユーザ無伴奏歌唱音声データセットを音声表記する(transcribing)プロセスの概略図である。一実施形態による、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出するステップの概略的フローチャートである。一実施形態による、歌曲メロディデータベースを使用することによって、ハミング認識を実行するステップの概略的フローチャートである。一実施形態による、ハミング認識のために3つのデータベースセットアップ解決策でセットアップされる歌曲メロディデータベースが使用されるときの、ハミング認識性能の比較の概略図である。一実施形態によるサーバの構造ブロック図である。別の実施形態によるサーバの構造ブロック図である。さらに別の実施形態によるサーバの構造ブロック図である。さらに別の実施形態によるサーバの構造ブロック図である。

本出願の目的、技術的解決策、および利点をより明瞭かつより理解し易くするために、以下は、添付の図面および実施形態を参照して、本出願をさらに詳細に説明する。本明細書で説明する特定の実施形態は、単に本出願を説明するために使用され、本出願を限定することを意図しないことを理解されたい。

図1に示すように、一実施形態は、ユーザ端末110(図1のユーザ端末110a、110b、および110c)と、ハミング認識サーバ120と、歌唱サーバ130と、歌曲サーバ140とを含む歌曲音声データ処理システムを提供する。ユーザ端末110は、モバイル端末、車両デバイス、パーソナルコンピュータなどを含む。モバイル端末は、モバイルフォン、タブレットコンピュータ、インテリジェントウォッチ、携帯情報端末(PDA)などのうちの少なくとも1つを含む。ハミング認識サーバ120、歌唱サーバ130、および歌曲サーバ140はすべて、独立した物理サーバであってよく、または物理サーバクラスタであってもよい。ハミング認識アプリケーションプログラム、歌曲アプリケーションプログラム、および歌曲再生アプリケーションプログラムは、ユーザ端末110内に設置される。ユーザ端末110は、ハミング認識アプリケーションプログラムを使用することによってハミング認識サーバ120と通信し、歌唱アプリケーションプログラムを使用することによって歌唱サーバ130と通信し、歌曲再生アプリケーションプログラムを使用することによって歌曲サーバ140と通信する。

図2に示すように、実施形態はサーバを提供する。サーバはハミング認識サーバ120として使用されてよく、サーバは、システムバスを使用して接続される、プロセッサと、不揮発性記憶媒体と、メモリと、ネットワークインターフェースとを含む。プロセッサは、計算機能と、動作するようにサーバ120を制御する機能とを有する。不揮発性記憶媒体は、磁気記憶媒体、光記憶媒体、およびフラッシュ記憶媒体のうちの少なくとも1つを含む。不揮発性記憶媒体は、オペレーティングシステムを記憶し、コンピュータ可読命令をさらに記憶する。コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに歌曲メロディ情報処理方法を実装させる。プロセッサは、計算機能と、動作するようにサーバ120を制御する機能とを有する。プロセッサは、歌曲メロディ情報処理方法を実行するように構成される。この方法は、MIDIファイルを収集するステップと、MIDIファイルの歌曲識別子を取得するステップと、MIDIファイルに従って第1のメロディ情報を生成するステップと、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを含む。ネットワークインターフェースは、ネットワークを使用することによってユーザ端末110に接続するように構成される。

図3に示すように、一実施形態は、歌曲メロディ情報処理方法を提供する。この実施形態は、この方法が図1および図2のハミング認識サーバ120に適用される一例を使用することによって説明される。この方法は、具体的には、以下のステップを含む。

ステップ302。MIDIファイルを収集する。

具体的には、ハミング認識サーバは、MIDIファイルセットを形成するために、既に存在するMIDIファイルを収集することができる。具体的には、ハミング認識サーバは、ネットワークから既存のMIDIファイルセットをクロールすることができるか、またはMIDIファイルを記憶する第一者サーバから既存のMIDIファイルセットをプルすることができる。

ステップ304。MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶する。

具体的には、ハミング認識サーバは、MIDIファイルセット内の各MIDIファイルをトラバースし(traverse)、抽出された歌曲認識情報に従って、対応する歌曲識別子を取得するために、MIDIファイル内の歌曲認識情報を抽出することができる。歌曲認識情報は、歌曲を認識するために使用され得る情報、たとえば、歌曲の題名または歌手名であってよい。MIDIファイルは、ピッチ(pitch)および対応する時間情報を含み、各ピッチはノート(note)を示す。したがって、MIDIファイル内に含まれるピッチおよび対応する時間情報は、第1のメロディ情報を形成し得る。ハミング認識サーバは、次いで、第1のメロディ情報を歌曲メロディデータベースに追加する。

ステップ306。ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得する。

具体的には、ユーザ無伴奏歌唱音声データは、背景音楽ではなく、ユーザの歌唱を録音するために使用されるデータである。ユーザ端末は、歌唱アプリケーションプログラムを使用することによって、歌曲識別子に対応するユーザ無伴奏歌唱音声データを録音し、ユーザ無伴奏歌唱音声データセットが歌唱サーバ内で形成されるように、録音されたユーザ無伴奏歌唱音声データをその歌唱サーバにアップロードする。ハミング認識サーバは、歌唱サーバからユーザ無伴奏歌唱音声データセットを周期的に取得することができる。代替として、歌唱サーバは、歌唱サーバ内のユーザ無伴奏歌唱音声データセットを、周期的にまたはユーザ無伴奏歌唱音声データが新しく追加されるときに、ハミング認識サーバと同期させることができる。

歌唱アプリケーションプログラムを使用することによってユーザ無伴奏歌唱音声データを録音するとき、ユーザ端末は、ヘッドセットを使用することによって、歌曲識別子に対応する歌曲伴奏を再生することができる。ユーザは、再生される歌曲伴奏に従って、伴奏なしに歌唱する。ユーザ端末は、ユーザ端末の音ピックアップを使用することによって、ユーザの無伴奏音を取得し、ユーザ端末のプロセッサの処理によってユーザ無伴奏歌唱音声データを取得する。

ステップ308。ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出する。

具体的には、ハミング認識サーバは、ユーザ無伴奏歌唱音声データセット内の各ユーザ無伴奏歌唱音声データをトラバースし、トラバースされたユーザ無伴奏歌唱音声データから第2のメロディ情報を抽出することができる。メロディ情報は、時間に伴う歌曲のピッチの変化状況を反映し得る情報であり、メロディ情報は、一連のピッチと対応する時間情報との間の対応を使用することによって示すことができる。時間情報は、たとえば、ピッチの開始時間またはピッチの持続時間である。第2のメロディ情報は、ユーザ無伴奏歌唱音声データセットから抽出されたメロディ情報であり、続く第3のメロディ情報とは異なる。

ステップ310。それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶する。

具体的には、ハミング認識サーバは、専用データベースサーバを含み得る。第2のメロディ情報を抽出した後で、ハミング認識サーバは、それに応じて、第2のメロディ情報および対応する歌曲識別子をデータベースサーバ内の歌曲メロディデータベース内に記憶することができる。歌曲識別子は、歌曲の一意識別子であり、一意の文字列を使用することによって示すことができる。歌曲の題名および歌手名を使用することによって異なる歌曲を区別することができ、異なる歌曲に異なる歌曲識別子が割り当てられる。

歌曲メロディ情報処理方法では、もはや専用MIDIファイルを製作する必要がないように、MIDIファイルと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットの中にあり、かつ複数のソースからであるデータとを使用することによって、歌曲メロディデータベースがセットアップされ、それによって、歌曲メロディデータベースをセットアップするコストを大いに低減する。加えて、歌曲メロディデータベース内の同じ歌曲識別子は、異なるソースからの音声データを音声表記することによって取得されるメロディ情報に対応し得、その結果、歌曲メロディデータベースを使用することによってハミング認識が実行されるとき、認識のヒット率を改善することができる。

図4に示すように、一実施形態では、歌曲メロディ情報処理方法は、歌曲音声データセットからのメロディ情報を歌曲メロディデータベースに追加するステップをさらに含み、具体的には、以下のステップを含む。

ステップ402。ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得する。

具体的には、歌曲サーバは、歌曲音声データを含む歌曲音声データセットを記憶し、歌曲音声データセット内の各歌曲音声データは対応する歌曲識別子を有する。歌曲サーバは、歌曲再生アプリケーションプログラムを使用することによってユーザ端末によってトリガされる歌曲取得要求を受信し、取得された歌曲識別子に従って、歌曲音声データセットから対応する歌曲音声データを抽出して、その歌曲音声データをユーザ端末にフィードバックするために、歌曲取得要求に従って歌曲識別子を取得することができる。ユーザ端末は歌曲音声データを再生する。ハミング認識サーバは、歌曲サーバから歌曲音声データセットを周期的に取得することができる。代替として、歌曲サーバは、歌曲サーバ内の歌曲音声データセットを、周期的にまたは歌曲音声データが新しく追加されるときに、ハミング認識サーバと同期させることができる。

ステップ404。歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出する。

具体的には、ハミング認識サーバは、歌曲音声データセット内の各歌曲音声データをトラバースし、トラバースされた歌曲音声データから第3のメロディ情報を抽出することができる。第3のメロディ情報は、歌曲音声データセットから抽出されたメロディ情報である。

ステップ406。それに応じて、第3のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶する。

具体的には、ハミング認識サーバは、専用データベースサーバを含み得る。第3のメロディ情報を抽出した後で、ハミング認識サーバは、それに応じて、第3のメロディ情報および対応する歌曲識別子をデータベースサーバ内の歌曲メロディデータベース内に記憶することができる。ステップ306からステップ310の順序およびステップ312からステップ316の順序は、交換されてよく、または並行して処理されてもよい。

この実施形態では、図5を参照すると、MIDIファイルを歌曲メロディデータベースに直接追加することができ、ユーザ無伴奏歌唱音声データセットおよび歌曲音声データセットに対して、音声表記によって、ノートのピッチおよび時間情報によって示されるメロディ情報を取得することができる。このようにして、データベースセットアップのコストが低減されると同時に、ハミング認識性能を著しく改善することができるように、ハイブリッドデータセットアップのために複数のソースからのデータが使用される。

一実施形態では、ステップ308の前に、この方法は、以下のユーザ無伴奏歌唱音声データ、すなわち、未完成のユーザ無伴奏歌唱音声データ、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データのうちの少なくとも1つをユーザ無伴奏歌唱音声データセットからフィルタで除去するステップをさらに含む。

未完成のユーザ無伴奏歌唱音声データは、歌曲全体のコンテンツを含まないユーザ無伴奏歌唱音声データである。たとえば、ユーザは歌曲の一部だけを歌唱し、次いで、録音を終え、その場合、未完成のユーザ無伴奏歌唱音声データが取得される。ハミング認識サーバは、その音声時間長が事前設定された時間長に満たないユーザ無伴奏歌唱音声データを未完成のユーザ無伴奏歌唱音声データとして認識することができる。

ハミング認識サーバは、ユーザ無伴奏歌唱音声データ内で伝えられ、データが完成しているかどうかを示すために使用されるマークに従って、未完成のユーザ無伴奏歌唱音声データをさらに認識することができる。このマークは、ユーザ無伴奏歌唱音声データの録音が終了するときに、歌曲アプリケーションプログラムを使用することによってユーザ端末によって追加され得る。具体的には、ユーザ端末は、歌曲伴奏の伴奏終了時点を取得し、録音が終点したときの録音終了時点が伴奏終了時点を超えるかまたはそれに等しいかどうかを決定し、伴奏終了時を超えるかまたはそれに等しい場合、完成を示すために使用されるマークを追加し、そうでない場合、未完成を示すために使用されるマークを追加する。ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データは、ユーザ無伴奏歌唱音声データ内で伝えられ、録音のためにヘッドセットが装着されたかどうかを示すために使用されるマークを使用することによって認識され得る。

雑音または伴奏を含むユーザ無伴奏歌唱音声データの決定は、以下の仮定に基づいてよい。すなわち、一般的な歌曲音声データの場合、人間の声は概してデータの一部分の中に分布し、雑音および伴奏が音声全体を占める場合がある。したがって、クリーンなユーザ無伴奏歌唱音声データ内のエリアの一部分の中にのみ明らかなエネルギーが存在するはずである。音声エリア全体に明らかなエネルギーが存在する場合、音声は汚染されている。

具体的には、ハミング認識サーバは、1つのユーザ無伴奏歌唱音声データを取得し、タイムライン内でユーザ無伴奏歌唱音声データに関してフレームセグメンテーションを実行し、次いで、各音声フレームの二乗平均平方根エネルギーを算出し、その二乗平均平方根エネルギーがしきい値を超える音声フレームの量をカウントすることができる。ユーザ無伴奏歌唱音声データ全体の音声フレーム総量に対する音声フレームのカウントされた量の比率が前の比率を満たす場合、ユーザ無伴奏歌唱音声データはクリーンなユーザ無伴奏歌唱音声データであると決定される。あるいは、ユーザ無伴奏歌唱音声データ全体の音声フレームの総量に対する音声フレームのカウントされた量の比率が前の比率を満たさない場合、ユーザ無伴奏歌唱音声データ内に雑音または伴奏が存在すると決定される。

この実施形態では、未完成のユーザ無伴奏歌唱音声データは歌曲のメロディ情報の部分のみを含むため、ユーザがユーザ無伴奏歌唱音声データ内に含まれていないコンテンツを正確にハミングする場合、そのコンテンツは正確に認識され得ない。加えて、ユーザ無伴奏歌唱音声データの存在は歌曲メロディデータベースを探索する時間を増大させ、ハミング認識性能を低減させる。ハミングを認識するために歌曲メロディデータベースが使用されるとき、不正確なユーザ無伴奏歌唱音声データが歌曲メロディデータベースの認識性能に影響を及ぼすことを防ぐように、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データおよび/または雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データはフィルタ処理され除去される。

図6および図7を参照すると、一実施形態では、ステップ308は、具体的には、以下のステップを含む。

ステップ602。ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出する。

具体的には、ピッチは、昇順のスケールで配置された音に対する聴覚の知覚属性である。ピッチの抽出プロセスは、基音の抽出プロセスでもある。基音の周波数は基本周波数と呼ばれる。基音は、非常に低い音声周波数を有するが、最大振幅を有する純音である。基音はノート全体のピッチを決定する。

ハミング認識サーバは、周波数とピッチとの間の対応に従って基本周波数をピッチに変換するために、時間領域事象発生検出方法(time-domain event occurrence detection method)、自己相関関数方法、またはYet Another Algorithm for Pitch Tracking(YAAPT)アルゴリズムなどの基本周波数抽出アルゴリズムを使用することによって基本周波数を抽出することができる。時間領域事象発生検出方法は、以下のような理論に基づく:時間領域内の音声波形の表現は周期的であり、時間期間内で繰り返し発生する事象の時間の量がカウントされ得る。したがって、基本周波数は、毎秒発生する事象の時間の量をカウントすることによって推定され得る。時間領域事象発生検出方法は、たとえば、ゼロ交差率(ZCR)アルゴリズム、ピークレートアルゴリズム、およびスロープ事象率アルゴリズム(slope event rate algorithm)を含む。

自己相関関数方法では、ユーザ無伴奏歌唱音声データは音声信号(speech signal)であると見なされ、音声信号は時間とともに変化する信号であり、短期安定度の特性を有する。このようにして、ユーザ無伴奏歌唱音声データは、処理のために音声フレームのグループに分割され得る。音声信号のフレームセグメントは、ウィンドウイングによって実装され、ウィンドウ関数は矩形ウィンドウまたはハミングウィンドウであり得る。

ユーザ無伴奏歌唱音声データの自己相関関数が式(1)として示される。

r_t(τ)は時点tにおける自己相関関数を示し、x_i,i=1,K、2Wは、ユーザ無伴奏歌唱音声データを示し、近似周期信号であり、Wはウィンドウ関数のサイズであり、tは時点を示し、τは遅延を示す。τが基本周波数周期の整数倍数に等しいとき、最大値が生成される。したがって、最大値を探索し、ユーザ無伴奏歌曲データの基本周波数を推定するために、自己相関関数を算出することができる。

一実施形態では、ハミング認識サーバは、自己相関関数に基づくYINアルゴリズムを使用することによって、ユーザ無伴奏歌唱音声データのピッチを抽出することができる。YINアルゴリズムは、音声および音楽に対する基本周波数推定器である。具体的には、ステップ(1)からステップ(4)を含め、以下のステップを実行して、基本周波数を推定することができる。

(1)ユーザ無伴奏歌唱音声データの自己相関関数を算出する。ここで、算出は、具体的には、式(1)に従って実行される。

(2)自己相関関数に従って差分関数を算出する。

差分関数は式(2)によって表され得る。

自己相関関数r_t(τ)が与えられる場合、差分関数の算出は以下の式(3)に簡素化され得る:
d_t(τ)=r_t(0)+r_t+τ(0)-2r_t(τ) 式(3)

(3)差分関数d_t(τ)に関して累積平均正規化を実行して、正規化された差分関数d_t'(τ)を取得する。フォルマントの共鳴により高周波数で生じる最小値は、累積平均正規化によって補償され得る。

(4)事前設定されたしきい値sを取得し、d_t'(τ)の局所最小値が取得され、かつd_t'(τ)<sであるとき、最低遅延τ_minを探索する。基本周波数f₀=1/τ_minが推定される。さらに、推定された基本周波数に従って、対応するピッチが取得され得る。

ステップ604。抽出されたピッチに対応するノート開始時間を取得するために、トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行する。

具体的には、ハミング認識サーバは、位相特徴に基づく音楽ノート開始検出アルゴリズムを使用することによってユーザ無伴奏歌唱音声データに関してノート開始検出を実行することができるか、または全位相メル周波数ケプストラム係数(MFCC:all-phase mel-frequency cepstral coefficient)の差分に基づく自動ノート開始検出方法を使用することによって検出を実行することができる。

一実施形態では、ハミング認識サーバは、心理音響知識方法を適用することによって音開始検出を使用することによってノート開始検出を実行することができ、プロセスは、具体的には、フィルタを使用することによってユーザ無伴奏歌唱音声データを複数の周波数サブバンドに分割するステップと、各周波数サブバンドから振幅輪郭A(t)を抽出するステップと、一次相対差異関数

を計算するステップと、ノート開始成分として局所最大値W(t)を抽出するステップと、ノート開始成分の時間および強度を推定するステップと、最終的なノート開始時間を決定するために、異なる周波数サブバンドのノート開始成分の時間および強度を収束するステップとを含む。

ステップ606。ピッチと対応するノート開始時間とを結合して、トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にする。

具体的には、ハミング認識サーバは、抽出されたピッチと、ピッチに対応するノート開始時間とを結合してノートシーケンスにして、トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報を形成する。トラバースが完了した後で、ユーザ無伴奏歌唱音声データセットに対応する第2のメロディ情報セットが取得され得る。

この実施形態では、ユーザ無伴奏歌唱音声データセットをトラバースしてピッチを抽出し、抽出されたピッチと対応するノート開始時間とに従って第2のメロディ情報が形成されるように、ピッチに対応するノート開始時間を取得するためにノート開始検出が実行される。このようにして、抽出された第2のメロディ情報はより正確であり、ハミング認識のために歌曲メロディデータベースが使用されるとき、最終的に取得される歌曲メロディデータベースのハミング認識精度はより高い。

一実施形態では、図8を参照すると、ステップ314は、具体的には、以下のステップを含む。

ステップ802。トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、歌曲音声データセットをトラバースする。

具体的には、ハミング認識サーバは、既存のメインメロディ抽出方法、たとえば、倍音検出に基づくメインメロディ抽出技術を使用することによって、歌曲音声データからメインメロディピッチ輪郭を抽出することができる。歌曲は、概して、複数のメロディラインを含み、複数のメロディラインは、歌手の歌唱のメインメモリーライン、背景音楽のメロディラインなどを含む。ピッチ輪郭は、ピッチ輪郭とも呼ばれ、時間的に連続する基音シーケンスである。

一実施形態では、ハミング認識サーバは、Melody Extraction from Polyphonic Music Signals using Pitch Contour Characteristics方法を使用することによって、歌曲音声データのメインメロディピッチ輪郭を抽出することができる。具体的には、各音声フレームのスペクトルピーク値を抽出するために、歌曲音声データに関して短期フーリエ変換をまず実行することができ;歌曲音声データの候補ピッチが抽出され、抽出されたスペクトルピーク値に従って、高調波追加(harmonic addition)方法を使用することによって、各候補ピッチの有効関数(significance function)が算出され;各音声フレーム内の有効関数のピーク値が抽出され、時間および周波数の点で連続的なピーク値が接続されて、ピッチ輪郭を形成し;算出された特徴値に従ってメインメロディ特徴を有するメインメロディピッチ輪郭が選択されるように、各ピッチ輪郭に関して一連の特徴値が算出される。

ステップ804。融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従ってメインメロディピッチ輪郭内のピッチを融合させる。

具体的には、この実施形態では、ハミング認識サーバは、ノート開始時間を決定するときにノート開始検出を実行しないが、ピッチ輪郭内の固定時間長内のすべてのピッチをトラバースされた歌曲音声データ内のタイムスタンプに従って1つのノートのピッチに直接融合させ、たとえば、50ミリ秒のピッチを1つのノートのピッチに融合させる。融合されたピッチの値は、融合されたピッチに対応する、融合前のすべてのピッチの平均値であり得る。融合されたピッチのノート開始時間は、融合前のすべての対応するピッチ内の最古のピッチに対応する時間であり得る。

ステップ806。融合されたピッチと対応するノート開始時間とを結合して、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にする。

具体的には、ハミング認識サーバは、融合されたピッチと対応するノート開始時間とを結合してノートシーケンスにして、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報を形成する。トラバースが完了した後で、歌曲音声データセットに対応する第3のメロディ情報セットが取得され得る。

この実施形態では、歌曲音声データ、たとえば、一般的な流行歌の音声データは、偏在する歌曲音声リソースである。歌曲メロディデータベースが非常に高い歌曲カバレージを有するように、第3のメロディ情報はユーザ端末に歌曲サービスを提供する歌曲音声データセットを使用することによって抽出され、ハミング認識のために歌曲メロディデータベースが使用されるとき歌曲メロディデータベースの認識性能をさらに改善することができる。第3のメロディ情報が抽出されるとき、ノート開始検出は実行されず、ピッチおよびノート開始時間を決定するためにメインメロディピッチ輪郭内の固定時間長内のピッチが融合され、それによって、ハミング認識精度を低減させずに計算効率を改善する。

図9に示すように、一実施形態では、歌曲メロディ情報処理方法は、歌曲メロディデータベースを使用することによってハミング認識を実行するステップをさらに含み、具体的には、以下のステップを含む。

ステップ902。認識されるべきハミング特徴データを受信する。

具体的には、ユーザ端末は、ハミング認識アプリケーションプログラムを使用することによって認識されるべきハミング音声データを録音し、認識されるべきハミング特徴データを取得するためにハミング音声データに関して特徴抽出を実行し、ハミング特徴データをハミング認識サーバにアップロードすることができる。ハミング認識サーバは、ハミング特徴データを受信する。ハミング認識アプリケーションプログラムを使用することによって、認識されるべきハミング音声データを録音した後で、ユーザ端末は、代替として、ハミング音声データをハミング認識サーバに直接アップロードすることができる。ハミング認識サーバは、認識されるべきハミング特徴データを取得するために、ハミング音声データに関して特徴抽出を実行する。ハミング特徴データは、ピッチ特徴と、ピッチ特徴に対応する時間特徴とを含む。

ステップ904。ハミング特徴データと歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得する。

具体的には、ハミング認識サーバは、ダイナミックタイムワーピング(DTW:dynamic time warping)アルゴリズムを使用することによって、ハミング特徴データと歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を算出することができる。

ステップ906。事前設定された類似性しきい値を超える類似性を取得された類似性から選別して除去する。

ステップ908。選別された類似性に対応する歌曲識別子を取得する。

具体的には、ハミング認識サーバは、取得された類似性をトラバースし、トラバースされた類似性を事前設定された類似性しきい値と比較し、トラバースされた類似性が事前設定された類似性しきい値を超える場合、対応する歌曲識別子を取得し、トラバースが完了するまで、または指定された数の歌曲識別子が見出されるまで、歌曲識別子を候補歌曲セット内に追加することができる。ハミング認識サーバは、具体的には、事前設定された類似性しきい値を超え、かつ最大である類似性を取得された類似性から選別して除去する。

ステップ910。取得された歌曲識別子に従って、ハミング認識結果を生成する。

具体的には、ハミング認識サーバは、取得された歌曲識別子に従って、対応する歌曲情報、たとえば、歌曲の題名、歌曲のアルバム名、歌手名、歌曲の種類、歌曲再生リンクなどのうちの1つまたは複数の組合せを取得し、取得された歌曲情報に従って、ハミング認識結果を生成し、ハミング認識結果をユーザ端末にフィードバックすることができる。

この実施形態では、正確なハミング認識結果を取得することができるように、ハミング認識を実行するために複数のソースからの音声データに従ってセットアップされた歌曲メロディデータベースが使用される。加えて、図10を参照すると、単にMIDIファイルを使用することによってセットアップされたデータベースと比較して、データベースがMIDIファイルとユーザ無伴奏歌唱音声データの組合せでセットアップされる解決策では、ハミング認識の第1のヒット率は15%を超えて増大し、最初の5つのヒット率は10%を超えて増大する。データベースがMIDIファイルとユーザ無伴奏歌唱音声データの組合せでセットアップされる解決策と比較して、データベースがMIDIファイルと、ユーザ無伴奏歌唱音声データと、歌曲音声データの組合せでセットアップされる解決策では、ヒット率はある程度さらに増大する。

図11に示すように、一実施形態はサーバ1100を提供する。サーバの内部構造は、図2に示した構造に対応し得る。以下のモジュールのすべてまたはいくつかは、ソフトウェア、ハードウェア、またはそれらの組合せによって実装され得る。サーバ1100は、第1のソースデータ収集モジュール1101と、第1のメロディ情報抽出モジュール1102と、第2のソースデータ取得モジュール1103と、第2のメロディ情報抽出モジュール1104とを含む。

第1のソースデータ収集モジュール1101は、MIDIファイルを収集するように構成される。

具体的には、第1のソースデータ収集モジュール1101は、MIDIファイルセットを形成するために、既に存在するMIDIファイルを収集することができる。具体的には、第1のソースデータ収集モジュール1101は、ネットワークから既存のMIDIファイルセットをクロールすることができるか、またはMIDIファイルを記憶している第一者サーバから既存のMIDIファイルセットをプルすることができる。

第1のメロディ情報抽出モジュール1102は、MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するように構成される。

具体的には、第1のメロディ情報抽出モジュール1102は、MIDIファイルセット内の各MIDIファイルをトラバースし、抽出された歌曲認識情報に従って、対応する歌曲識別子を取得するために、MIDIファイル内の歌曲認識情報を抽出することができる。歌曲認識情報は、歌曲を認識するために使用され得る情報、たとえば、歌曲の題名または歌手名であってよい。MIDIファイルは、ピッチおよび対応する時間情報を含み、各ピッチはノートを示す。したがって、MIDIファイル内に含まれるピッチおよび対応する時間情報は、第1のメロディ情報を形成し得る。第1のメロディ情報抽出モジュール1102は、次いで、第1のメロディ情報を歌曲メロディデータベースに追加する。

第2のソースデータ取得モジュール1103は、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するように構成される。

具体的には、ユーザ無伴奏歌唱音声データは、背景音楽ではなく、ユーザの歌唱を録音するためのデータである。ユーザ端末は、歌唱アプリケーションプログラムを使用することによって、歌唱識別子に対応するユーザ無伴奏歌唱音声データを録音し、ユーザ無伴奏歌唱音声データセットが歌唱サーバ内に形成されるように、録音されたユーザ無伴奏歌唱音声データをその歌唱サーバにアップロードすることができる。第2のソースデータ取得モジュール1103は、歌唱サーバからユーザ無伴奏歌唱音声データセットを周期的に取得することができる。代替として、歌唱サーバは、歌唱サーバ内のユーザ無伴奏歌唱音声データセットを、周期的にまたはユーザ無伴奏歌唱音声データが新しく追加されるときに、第2のソースデータ取得モジュール1103と同期させることができる。

歌唱アプリケーションプログラムを使用することによってユーザ無伴奏歌唱音声データを録音するとき、ユーザ端末は、ヘッドセットを使用することによって、歌曲識別子に対応する歌曲伴奏を再生することができる。ユーザは、再生される歌曲伴奏に従って伴奏なしに歌唱する。ユーザ端末は、ユーザ端末の音ピックアップを使用することによって、ユーザの無伴奏音を取得し、ユーザ端末のプロセッサの処理によってユーザ無伴奏歌唱音声データを取得する。

第2のメロディ情報抽出モジュール1104は、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出し、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するように構成される。

具体的には、第2のメロディ情報抽出モジュール1104は、ユーザ無伴奏歌唱音声データセット内の各ユーザ無伴奏歌唱音声データをトラバースし、トラバースされたユーザ無伴奏歌唱音声データから第2のメロディ情報を抽出することができる。メロディ情報は、時間に伴う歌曲のピッチの変化傾向を反映し得る情報であり、メロディ情報は、一連のピッチと対応する時間情報との間の対応を使用することによって示すことができる。時間情報は、たとえば、ピッチの開始時間またはピッチの持続時間である。第2のメロディ情報は、ユーザ無伴奏歌唱音声データセットから抽出されたメロディ情報であり、続く第3のメロディ情報とは異なる。

具体的には、第2のメロディ情報を抽出した後で、第2のメロディ情報抽出モジュール1104は、それに応じて、抽出された第2のメロディ情報および対応する歌曲識別子をデータベースサーバ内の歌曲メロディデータベース内に記憶することができる。歌曲識別子は、歌曲の一意識別子であり、一意の文字列を使用することによって示すことができる。歌曲の題名および歌手名を使用することによって異なる歌曲を区別することができ、異なる歌曲に異なる歌曲識別子が割り当てられる。

サーバ1100は、もはや専用MIDIファイルを製作する必要がないように、MIDIファイルと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットの中にあり、かつ複数のソースからであるデータとを使用することによって、歌曲メロディデータベースをセットアップし、それによって、歌曲メロディデータベースをセットアップするコストを大いに低減する。加えて、歌曲メロディデータベース内の同じ歌曲識別子は、異なるソースからの音声データを音声表記することによって取得されるメロディ情報に対応し得、その結果、歌曲メロディデータベースを使用することによってハミング認識が実行されるとき、認識のヒット率を改善することができる。

図12に示すように、一実施形態では、サーバ1100は、第3のソースデータ取得モジュール1105と第3のメロディ情報抽出モジュール1106とをさらに含む。

第3のソースデータ取得モジュール1105は、ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するように構成される。

具体的には、歌曲サーバは、歌曲音声データを含む歌曲音声データセットを記憶し、歌曲音声データセット内の各歌曲音声データは対応する歌曲識別子を有する。歌曲サーバは、歌曲再生アプリケーションプログラムを使用することによってユーザ端末によってトリガされる歌曲取得要求を受信し、取得された歌曲識別子に従って、歌曲音声データセットから対応する歌曲音声データを抽出して、その歌曲音声データをユーザ端末にフィードバックするために、歌曲取得要求に従って歌曲識別子を取得することができる。ユーザ端末は歌曲音声データを再生する。第3のソースデータ取得モジュール1105は、歌曲サーバから歌曲音声データセットを周期的に取得することができる。代替として、歌曲サーバは、歌曲サーバ内の歌曲音声データセットを、周期的にまたは歌曲音声データが新しく追加されるときに、第3のソースデータ取得モジュール1105と同期させることができる。

第3のメロディ情報抽出モジュール1106は、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出し、それに応じて、第3のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するように構成される。

具体的には、第3のメロディ情報抽出モジュール1106は、歌曲音声データセット内の各歌曲音声データをトラバースし、トラバースされた歌曲音声データから第3のメロディ情報を抽出することができる。第3のメロディ情報は、歌曲音声データセットから抽出されたメロディ情報である。第3のメロディ情報を抽出した後で、第3のメロディ情報抽出モジュール1106は、それに応じて、抽出された第3のメロディ情報と対応する歌曲識別子とをデータベースサーバ内の歌曲メロディデータベース内に記憶することができる。

この実施形態では、図5を参照すると、MIDIファイルを歌曲メロディデータベースに直接追加することができ、ユーザ無伴奏歌唱音声データセットおよび歌曲音声データセットに対して、音声表記によって、ノートのピッチおよび時間情報を使用することによって示されるメロディ情報を取得することができる。このようにして、データベースセットアップのコストを低減すると同時に、ハミング認識性能を著しく改善することができるように、ハイブリッドデータベースセットアップのために複数のソースからのデータが使用される。

図13に示すように、一実施形態では、サーバ1100は、以下のユーザ無伴奏歌唱音声データ、すなわち、未完成のユーザ無伴奏歌唱音声データ、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データのうちの少なくとも1つをユーザ無伴奏歌唱音声データセットからフィルタで除去するように構成されたフィルタ処理モジュール1107をさらに含む。

未完成のユーザ無伴奏歌唱音声データは、歌曲全体のコンテンツを含まないユーザ無伴奏歌唱音声データである。たとえば、ユーザは、歌曲の一部のみを歌唱し、次いで、録音を終了し、その場合、未完成のユーザ無伴奏歌唱音声データが取得される。フィルタ処理モジュール1107は、その音声時間長が事前設定された時間長未満であるユーザ無伴奏歌唱音声データを未完成のユーザ無伴奏歌唱音声データとして認識することができる。

フィルタ処理モジュール1107は、ユーザ無伴奏歌唱音声データ内で伝えられ、データが完成しているかどうかを示すために使用されるマークに従って、未完成のユーザ無伴奏歌唱音声データをさらに認識することができる。このマークは、ユーザ無伴奏歌唱音声データの録音が終了するときに、歌曲アプリケーションプログラムを使用することによってユーザ端末によって追加され得る。具体的には、ユーザ端末は、歌曲伴奏の伴奏終了時間を取得し、録音が終了したときの録音終了時点が伴奏終了時点に等しいかまたはそれを超えるかどうかを決定し、それに等しいかまたはそれを超える場合、完成を示すために使用されるマークを追加し、そうでない場合、未完成を示すために使用されるマークを追加することができる。ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データは、ユーザ無伴奏歌唱音声データ内で伝えられ、録音のためにヘッドセットが装着されたかどうかを示すために使用されるマークを使用することによって認識され得る。

雑音または伴奏を含むユーザ無伴奏歌唱音声データの決定は、以下の仮定に基づいてよい。すなわち、一般的な歌曲音声データの場合、人間の声は概してデータの一部分の中に分布し、雑音および伴奏が音声全体を占める場合がある。したがって、クリーンなユーザ無伴奏歌唱音声データ内のエリアの一部分の中にのみ明らかなエネルギーが存在するはずである。音声エリア全体に明らかなエネルギーが存在する場合、音声は汚染されている

具体的には、フィルタ処理モジュール1107は、1つのユーザ無伴奏歌唱音声データを取得し、タイムライン内でユーザ無伴奏歌唱音声データに関するフレームセグメンテーションを実行し、次いで、各音声フレームの二乗平均平方根エネルギーを算出し、その二乗平均平方根エネルギーがしきい値を超える音声フレームの量をカウントすることができる。ユーザ無伴奏歌唱音声データ全体の音声フレーム総量に対する音声フレームのカウントされた量の比率が前の比率を満たす場合、ユーザ無伴奏歌唱音声データはクリーンなユーザ無伴奏歌唱音声データであると決定される。あるいは、ユーザ無伴奏歌唱音声データ全体の音声フレームの総量に対する音声フレームのカウントされた量の比率が前の比率を満たさない場合、ユーザ無伴奏歌唱音声データ内に雑音または伴奏が存在すると決定される。

一実施形態では、第2のメロディ情報抽出モジュール1104は、具体的には、ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出し、抽出されたピッチに対応するノート開始時間を取得するために、トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行し、ピッチと対応するノート開始時間とを結合して、トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするように構成される。

この実施形態では、ユーザ無伴奏歌唱音声データセットは、ピッチを抽出するためにトラバースされ、抽出されたピッチと対応するノート開始時間とに従って第2のメロディ情報が形成されるように、ピッチに対応するノート開始時間を取得するためにノート開始検出が実行される。このようにして、抽出された第2のメロディ情報はより正確であり、ハミング認識のために歌曲メロディデータベースが使用されるとき、最終的に取得される歌曲メロディデータベースのハミング認識精度はより高い。

一実施形態では、第3のメロディ情報抽出モジュール1106は、具体的には、トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために歌曲音声データセットをトラバースし、融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従ってメインメロディピッチ輪郭内のピッチを融合させ、融合されたピッチと対応するノート開始時間とを結合して、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするように構成される。

図14に示すように、一実施形態では、サーバ1100は、認識されるべきハミング特徴データを受信し、ハミング特徴データと歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得し、事前設定された類似性しきい値を超える類似性を取得された類似性から選別して除去し、選別された類似性に対応する歌曲識別子を取得し、取得された歌曲識別子に従って、ハミング認識結果を生成するように構成されたハミング認識モジュール1108をさらに含む。

一実施形態は、メモリとプロセッサとを含むサーバを提供する。メモリはコンピュータ可読命令を記憶し、コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに、MIDIファイルを収集するステップと、MIDIファイルの歌曲識別子を取得するステップと、MIDIファイルに従って第1のメロディ情報を生成するステップと、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを実行させる。

一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップの前に以下のユーザ無伴奏歌唱音声データ、すなわち、未完成のユーザ無伴奏歌唱音声データ、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データのうちの少なくとも1つをユーザ無伴奏歌唱音声データセットからフィルタで除去させる。

一実施形態では、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップは、ユーザ無伴奏歌唱音声データセットをトラバースするステップと、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出するステップと、抽出されたピッチに対応するノート開始時間を取得するために、トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップと、ピッチと対応するノート開始時間とを結合して、トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするステップとを含む。

一実施形態では、抽出されたピッチに対応するノート開始時間を取得するために、トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップは、フィルタを使用することによって、ユーザ無伴奏歌唱音声データを複数の周波数サブバンドに分割するステップと、振幅輪郭を各周波数サブバンドから抽出するステップと、一次相対差異関数を算出するステップと、一次相対差異関数の局所最大値をノート開始成分として抽出するステップと、ノート開始成分の時間および強度を推定するステップと、最終的なノート開始時間を決定するために、異なる周波数サブバンドのノート開始成分の時間および強度を収束するステップとを含む。

一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、さらにプロセッサに、ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するステップと、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出するステップと、それに応じて、第3のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを行わせる。

一実施形態では、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出するステップは、トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、歌曲音声データセットをトラバースするステップと、融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従って、メインメロディピッチ輪郭内のピッチを融合させるステップと、融合されたピッチと対応するノート開始時間とを結合して、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップとを含む。

一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、さらにプロセッサに、認識されるべきハミング特徴データを受信するステップと、ハミング特徴データと歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得するステップと、事前設定された類似性しきい値を超える類似性を取得された類似性から選別して除去するステップと、選別された類似性に対応する歌曲識別子を取得するステップと、取得された歌曲識別子に従って、ハミング認識結果を生成するステップとを実行させる。

一実施形態は、コンピュータ可読命令を記憶した、1つまたは複数の不揮発性コンピュータ可読記憶媒体を提供し、コンピュータ可読命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、MIDIファイルを収集するステップと、MIDIファイルの歌曲識別子を取得するステップと、MIDIファイルに従って第1のメロディ情報を生成するステップと、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを行わせる。

一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップの前に、以下のユーザ無伴奏歌唱音声データ、すなわち、未完成のユーザ無伴奏歌唱音声データ、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データのうちの1つをユーザ無伴奏歌唱音声データセットからフィルタで除去させる。

一実施形態では、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出するステップは、トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために歌曲音声データセットをトラバースするステップと、融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従ってメインメロディピッチ輪郭内のピッチを融合させるステップと、融合されたピッチと対応するノート開始時間とを結合して、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップとを含む。

当業者は、これらの実施形態における方法のプロセスのすべてまたはいくつかは、関連ハードウェアに命令するコンピュータプログラムによって実装され得ることを理解されよう。コンピュータプログラムは、コンピュータ可読記憶媒体内に記憶され得る。プログラムが実行するとき、これらの実施形態における方法のプロセスが実行され得る。記憶媒体は、磁気ディスク、光ディスク、または読取り専用メモリ(ROM)などの不揮発性記憶媒体であってよく、またはランダムアクセスメモリ(RAM)などであってもよい。

前述の実施形態における様々な技術的特徴をランダムに組み合わせることができる。説明を容易にするために、前述の実施形態における様々な技術的特徴の組合せがすべて説明されているとは限らない。しかしながら、技術的特徴の組合せが互いに互換性があることを条件に、技術的特徴の組合せは、本明細書に記録された範囲と見なされるべきである。

前述の実施形態は、具体的かつ詳細に説明された、本出願のいくつかの実装形態のみを説明しており、したがって、本発明の特許範囲に対する限定と見なすことはできない。当業者は、本出願の着想から逸脱せずに様々な変更および改善を行うことができ、それらはすべて本出願の保護範囲に包含されるべきである。したがって、本出願の特許の保護範囲は、添付の請求項を条件とする。

110 ユーザ端末
110a ユーザ端末
110b ユーザ端末
110c ユーザ端末
120 ハミング認識サーバ、サーバ
130 歌唱サーバ
140 歌曲サーバ
1100 サーバ
1101 第1のソースデータ収集モジュール
1102 第1のメロディ情報抽出モジュール
1103 第2のソースデータ取得モジュール
1104 第2のメロディ情報抽出モジュール
1105 第3のソースデータ取得モジュール
1106 第3のメロディ情報抽出モジュール
1107 フィルタ処理モジュール
1108 ハミング認識モジュール

メモリとプロセッサとを含むサーバであって、メモリがコンピュータ可読命令を記憶し、コンピュータ可読命令が、プロセッサによって実行されると、プロセッサに、前述した方法を実行させる、サーバが提供される。

コンピュータ可読命令を記憶した、1つまたは複数の不揮発性コンピュータ可読記憶媒体であって、コンピュータ可読命令が、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、前述した方法を実行させる、不揮発性コンピュータ可読記憶媒体が提供される。

Claims

歌曲メロディ情報処理方法であって、
MIDIファイルを収集するステップと、
前記MIDIファイルの歌曲識別子を取得し、前記MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、前記第1のメロディ情報および前記歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
それに応じて、前記第2のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
を含む、方法。
前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップの前に、前記方法が、
以下のユーザ無伴奏歌唱音声データ、すなわち、
未完成のユーザ無伴奏歌唱音声データ、
ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および
雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データ
のうちの少なくとも1つを前記ユーザ無伴奏歌唱音声データセットからフィルタで除去するステップをさらに含む、請求項1に記載の方法。
前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップが、
前記ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出するステップと、
前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップと、
前記ピッチと前記対応するノート開始時間とを結合して、前記トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするステップと
を含む、請求項1に記載の方法。
前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を前記実行するステップが、
フィルタを使用することによって、前記ユーザ無伴奏歌唱音声データを複数の周波数サブバンドに分割するステップと、
各周波数サブバンドから振幅輪郭を抽出し、一次相対差異関数を算出し、前記一次相対差異関数の局所最大値をノート開始成分として抽出し、前記ノート開始成分の時間および強度を推定するステップと、
最終的なノート開始時間を決定するために、異なる周波数サブバンドのノート開始成分の時間および強度を収束するステップと
を含む、請求項3に記載の方法。
前記ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するステップと、
前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を抽出するステップと、
それに応じて、前記第3のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
をさらに含む、請求項1に記載の方法。
前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を前記抽出するステップが、
トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、前記歌曲音声データセットをトラバースするステップと、
融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従って前記メインメロディピッチ輪郭内のピッチを融合させるステップと、
前記融合されたピッチと前記対応するノート開始時間とを結合して、前記トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップと
を含む、請求項5に記載の方法。
認識されるべきハミング特徴データを受信するステップと、
前記ハミング特徴データと前記歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得するステップと、
事前設定された類似性しきい値を超える類似性を前記取得された類似性から選別して除去するステップと、
前記選別された類似性に対応する歌曲識別子を取得するステップと、
前記取得された歌曲識別子に従ってハミング認識結果を生成するステップと
をさらに含む、請求項1に記載の方法。
メモリとプロセッサとを含むサーバであって、前記メモリがコンピュータ可読命令を記憶し、前記コンピュータ可読命令が、前記プロセッサによって実行されると、前記プロセッサに、
MIDIファイルを収集するステップと、
前記MIDIファイルの歌曲識別子を取得し、前記MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、前記第1のメロディ情報および前記歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
それに応じて、前記第2のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
を実行させる、サーバ。
前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップの前に、前記コンピュータ可読命令が、さらに前記プロセッサに、以下のユーザ無伴奏歌唱音声データ、すなわち、
未完成のユーザ無伴奏歌唱音声データ、
ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および
雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データ
のうちの少なくとも1つを前記ユーザ無伴奏歌唱音声データセットからフィルタで除去させるステップ
を実行させる、請求項8に記載のサーバ。
前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップが、
前記ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出するステップと、
前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップと、
前記ピッチと前記対応するノート開始時間とを結合して、前記トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするステップと
を含む、請求項8に記載のサーバ。
前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を前記実行するステップが、
フィルタによって、前記ユーザ無伴奏歌唱音声データを複数の周波数サブバンドに分割するステップと、
各周波数サブバンドから振幅輪郭を抽出し、一次相対差異関数を算出し、前記一次相対差異関数の局所最大値をノート開始成分として抽出し、前記ノート開始成分の時間および強度を推定するステップと、
最終的なノート開始時間を決定するために、異なる周波数サブバンドのノート開始成分の時間および強度を収束するステップと
を含む、請求項10に記載のサーバ。
前記コンピュータ可読命令が、前記プロセッサによって実行されると、さらに前記プロセッサに、
前記ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するステップと、
前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を抽出するステップと、
それに応じて、前記第3のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
を実行させる、請求項8に記載のサーバ。
前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を前記抽出するステップが、
トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、前記歌曲音声データセットをトラバースするステップと、
融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従って前記メインメロディピッチ輪郭内のピッチを融合させるステップと、
前記融合されたピッチと前記対応するノート開始時間とを結合して、前記トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップと
を含む、請求項12に記載のサーバ。
前記コンピュータ可読命令が、前記プロセッサによって実行されると、さらに前記プロセッサに、
認識されるべきハミング特徴データを受信するステップと、
前記ハミング特徴データと前記歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得するステップと、
事前設定された類似性しきい値を超える類似性を前記取得された類似性から選別して除去するステップと、
前記選別された類似性に対応する歌曲識別子を取得するステップと、
前記取得された歌曲識別子に従ってハミング認識結果を生成するステップと
を実行させる、請求項8に記載のサーバ。
コンピュータ可読命令を記憶した、1つまたは複数の不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が、1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、
MIDIファイルを収集するステップと、
前記MIDIファイルの歌曲識別子を取得し、前記MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、前記第1のメロディ情報および前記歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
それに応じて、前記第2のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
を実行させる、不揮発性コンピュータ可読記憶媒体。
前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップの前に、前記コンピュータ可読命令が、さらに前記プロセッサに、以下のユーザ無伴奏歌唱音声データ、すなわち、
未完成のユーザ無伴奏歌唱音声データ、
ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および
雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データ
のうちの少なくとも1つを前記ユーザ無伴奏歌唱音声データセットからフィルタで除去させるステップ
を実行させる、請求項15に記載の不揮発性コンピュータ可読記憶媒体。
前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップが、
前記ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出するステップと、
前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップと、
前記ピッチと前記対応するノート開始時間とを結合して、前記トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするステップと
を含む、請求項15に記載の不揮発性コンピュータ可読記憶媒体。
前記コンピュータ可読命令が、前記プロセッサによって実行されると、さらに前記プロセッサに、
前記ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するステップと、
前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を抽出するステップと、
それに応じて、前記第3のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
を実行させる、請求項15に記載の不揮発性コンピュータ可読記憶媒体。
前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を前記抽出するステップが、
トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、前記歌曲音声データセットをトラバースするステップと、
融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従って前記メインメロディピッチ輪郭内のピッチを融合させるステップと、
前記融合されたピッチと前記対応するノート開始時間とを結合して、前記トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップと
を含む、請求項18に記載の不揮発性コンピュータ可読記憶媒体。
前記コンピュータ可読命令が、前記プロセッサによって実行されると、さらに前記プロセッサに、
認識されるべきハミング特徴データを受信するステップと、
前記ハミング特徴データと前記歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得するステップと、
事前設定された類似性しきい値を超える類似性を前記取得された類似性から選別して除去するステップと、
前記選別された類似性に対応する歌曲識別子を取得するステップと、
前記取得された歌曲識別子に従ってハミング認識結果を生成するステップと
を実行させる、請求項15に記載の不揮発性コンピュータ可読記憶媒体。