JP2019507912A - 歌曲メロディ情報処理方法、サーバ、および記憶媒体 - Google Patents

歌曲メロディ情報処理方法、サーバ、および記憶媒体 Download PDF

Info

Publication number
JP2019507912A
JP2019507912A JP2018552111A JP2018552111A JP2019507912A JP 2019507912 A JP2019507912 A JP 2019507912A JP 2018552111 A JP2018552111 A JP 2018552111A JP 2018552111 A JP2018552111 A JP 2018552111A JP 2019507912 A JP2019507912 A JP 2019507912A
Authority
JP
Japan
Prior art keywords
song
user
voice data
singing voice
melody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018552111A
Other languages
English (en)
Other versions
JP6784362B2 (ja
Inventor
碧磊 朱
碧磊 朱
▲ファン▼▲マイ▼ ▲鄭▼
▲ファン▼▲マイ▼ ▲鄭▼
星明 金
星明 金
科 李
科 李
永▲堅▼ ▲呉▼
永▲堅▼ ▲呉▼
▲飛▼▲躍▼ 黄
▲飛▼▲躍▼ 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2019507912A publication Critical patent/JP2019507912A/ja
Application granted granted Critical
Publication of JP6784362B2 publication Critical patent/JP6784362B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

歌曲メロディ情報処理方法は、MIDIファイルを収集するステップと、MIDIファイルの歌曲識別子を取得するステップと、MIDIファイルに従って第1のメロディ情報を生成するステップと、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを含む。

Description

関連出願
本出願は、参照によりその全体が組み込まれている、2016年3月18日に出願した、「SONG MELODY INFORMATION PROCESSING METHOD AND APPARATUS」と題する中国特許出願第2016101583497号に対する優先権を主張するものである。
本出願は、音声処理技術の分野に関し、より詳細には、歌曲メロディ情報処理方法、サーバ、および記憶媒体に関する。
ハミング認識は、音声処理技術の重要な適用例である。ユーザがハミングした音声が録音され、ハミング認識を実装するために、その音声に一致するメロディ情報に対応する歌曲情報が戻されるように、その一致するメロディ情報に対して歌曲メロディデータベースが探索される。ハミング認識技術は豊富な歌曲メロディデータベースに依拠することが理解できる。
現在、歌曲メロディデータベースは、楽器デジタルインターフェース(MIDI)ファイルを使用することによって完全にセットアップされ、MIDIファイルは、専用デバイスを使用することによって音楽家によって製作される必要があり、極めて高い製作コストを生じさせる。ハミング認識の実装のために必要とされる歌曲メロディデータベース内のメロディ情報の数は、概して、数百万程度に及ぶ。結果として、ハミング認識を実装するために歌曲メロディデータベースをセットアップするコストは非常に高く、ハミング認識技術の適用および開発を制限する。
本出願の実施形態によれば、歌曲メロディ情報処理方法、サーバ、および記憶媒体が提供される。
歌曲メロディ情報処理方法であって、
MIDIファイルを収集するステップと、
MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセット(user unaccompanied-singing audio data set)を取得するステップと、
ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと
を含む、方法が提供される。
メモリとプロセッサとを含むサーバであって、メモリがコンピュータ可読命令を記憶し、コンピュータ可読命令が、プロセッサによって実行されると、プロセッサに、
MIDIファイルを収集するステップと、
MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと
を実行させる、サーバが提供される。
コンピュータ可読命令を記憶した、1つまたは複数の不揮発性コンピュータ可読記憶媒体であって、コンピュータ可読命令が、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、
MIDIファイルを収集するステップと、
MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと
を実行させる、不揮発性コンピュータ可読記憶媒体が提供される。
以下の添付の図面および説明において、本出願の1つまたは複数の実施形態の詳細が提供される。本開示の他の特徴、目的、および利点は、明細書、添付の図面、および請求項において明らかになろう。
本明細書の実施形態または既存の技術における技術的解決策をより明瞭に説明するために、以下は、これらの実施形態または既存の技術を説明するために必要とされる添付の図面について短く説明する。明らかに、以下の説明における添付の図面は、本出願のいくつかの実施形態を単に示し、当業者は創造的な取り組みなしにこれらの添付の図面から他の図面を依然として導出することができる。
一実施形態による、歌曲音声データ処理システムの適用環境の図である。 一実施形態による、サーバの内部構造の図である。 一実施形態による、歌曲メロディ情報処理方法の概略的フローチャートである。 一実施形態による、歌曲音声データセットからのメロディ情報を歌曲メロディデータベースに追加するステップの概略的フローチャートである。 一実施形態による、歌曲メロディデータベースをセットアップするために複数のソースから音声データを取得するプロセスの概略図である。 一実施形態による、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップの概略的フローチャートである。 一実施形態による、第2のメロディ情報を取得するために、ユーザ無伴奏歌唱音声データセットを音声表記する(transcribing)プロセスの概略図である。 一実施形態による、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出するステップの概略的フローチャートである。 一実施形態による、歌曲メロディデータベースを使用することによって、ハミング認識を実行するステップの概略的フローチャートである。 一実施形態による、ハミング認識のために3つのデータベースセットアップ解決策でセットアップされる歌曲メロディデータベースが使用されるときの、ハミング認識性能の比較の概略図である。 一実施形態によるサーバの構造ブロック図である。 別の実施形態によるサーバの構造ブロック図である。 さらに別の実施形態によるサーバの構造ブロック図である。 さらに別の実施形態によるサーバの構造ブロック図である。
本出願の目的、技術的解決策、および利点をより明瞭かつより理解し易くするために、以下は、添付の図面および実施形態を参照して、本出願をさらに詳細に説明する。本明細書で説明する特定の実施形態は、単に本出願を説明するために使用され、本出願を限定することを意図しないことを理解されたい。
図1に示すように、一実施形態は、ユーザ端末110(図1のユーザ端末110a、110b、および110c)と、ハミング認識サーバ120と、歌唱サーバ130と、歌曲サーバ140とを含む歌曲音声データ処理システムを提供する。ユーザ端末110は、モバイル端末、車両デバイス、パーソナルコンピュータなどを含む。モバイル端末は、モバイルフォン、タブレットコンピュータ、インテリジェントウォッチ、携帯情報端末(PDA)などのうちの少なくとも1つを含む。ハミング認識サーバ120、歌唱サーバ130、および歌曲サーバ140はすべて、独立した物理サーバであってよく、または物理サーバクラスタであってもよい。ハミング認識アプリケーションプログラム、歌曲アプリケーションプログラム、および歌曲再生アプリケーションプログラムは、ユーザ端末110内に設置される。ユーザ端末110は、ハミング認識アプリケーションプログラムを使用することによってハミング認識サーバ120と通信し、歌唱アプリケーションプログラムを使用することによって歌唱サーバ130と通信し、歌曲再生アプリケーションプログラムを使用することによって歌曲サーバ140と通信する。
図2に示すように、実施形態はサーバを提供する。サーバはハミング認識サーバ120として使用されてよく、サーバは、システムバスを使用して接続される、プロセッサと、不揮発性記憶媒体と、メモリと、ネットワークインターフェースとを含む。プロセッサは、計算機能と、動作するようにサーバ120を制御する機能とを有する。不揮発性記憶媒体は、磁気記憶媒体、光記憶媒体、およびフラッシュ記憶媒体のうちの少なくとも1つを含む。不揮発性記憶媒体は、オペレーティングシステムを記憶し、コンピュータ可読命令をさらに記憶する。コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに歌曲メロディ情報処理方法を実装させる。プロセッサは、計算機能と、動作するようにサーバ120を制御する機能とを有する。プロセッサは、歌曲メロディ情報処理方法を実行するように構成される。この方法は、MIDIファイルを収集するステップと、MIDIファイルの歌曲識別子を取得するステップと、MIDIファイルに従って第1のメロディ情報を生成するステップと、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを含む。ネットワークインターフェースは、ネットワークを使用することによってユーザ端末110に接続するように構成される。
図3に示すように、一実施形態は、歌曲メロディ情報処理方法を提供する。この実施形態は、この方法が図1および図2のハミング認識サーバ120に適用される一例を使用することによって説明される。この方法は、具体的には、以下のステップを含む。
ステップ302。MIDIファイルを収集する。
具体的には、ハミング認識サーバは、MIDIファイルセットを形成するために、既に存在するMIDIファイルを収集することができる。具体的には、ハミング認識サーバは、ネットワークから既存のMIDIファイルセットをクロールすることができるか、またはMIDIファイルを記憶する第一者サーバから既存のMIDIファイルセットをプルすることができる。
ステップ304。MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶する。
具体的には、ハミング認識サーバは、MIDIファイルセット内の各MIDIファイルをトラバースし(traverse)、抽出された歌曲認識情報に従って、対応する歌曲識別子を取得するために、MIDIファイル内の歌曲認識情報を抽出することができる。歌曲認識情報は、歌曲を認識するために使用され得る情報、たとえば、歌曲の題名または歌手名であってよい。MIDIファイルは、ピッチ(pitch)および対応する時間情報を含み、各ピッチはノート(note)を示す。したがって、MIDIファイル内に含まれるピッチおよび対応する時間情報は、第1のメロディ情報を形成し得る。ハミング認識サーバは、次いで、第1のメロディ情報を歌曲メロディデータベースに追加する。
ステップ306。ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得する。
具体的には、ユーザ無伴奏歌唱音声データは、背景音楽ではなく、ユーザの歌唱を録音するために使用されるデータである。ユーザ端末は、歌唱アプリケーションプログラムを使用することによって、歌曲識別子に対応するユーザ無伴奏歌唱音声データを録音し、ユーザ無伴奏歌唱音声データセットが歌唱サーバ内で形成されるように、録音されたユーザ無伴奏歌唱音声データをその歌唱サーバにアップロードする。ハミング認識サーバは、歌唱サーバからユーザ無伴奏歌唱音声データセットを周期的に取得することができる。代替として、歌唱サーバは、歌唱サーバ内のユーザ無伴奏歌唱音声データセットを、周期的にまたはユーザ無伴奏歌唱音声データが新しく追加されるときに、ハミング認識サーバと同期させることができる。
歌唱アプリケーションプログラムを使用することによってユーザ無伴奏歌唱音声データを録音するとき、ユーザ端末は、ヘッドセットを使用することによって、歌曲識別子に対応する歌曲伴奏を再生することができる。ユーザは、再生される歌曲伴奏に従って、伴奏なしに歌唱する。ユーザ端末は、ユーザ端末の音ピックアップを使用することによって、ユーザの無伴奏音を取得し、ユーザ端末のプロセッサの処理によってユーザ無伴奏歌唱音声データを取得する。
ステップ308。ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出する。
具体的には、ハミング認識サーバは、ユーザ無伴奏歌唱音声データセット内の各ユーザ無伴奏歌唱音声データをトラバースし、トラバースされたユーザ無伴奏歌唱音声データから第2のメロディ情報を抽出することができる。メロディ情報は、時間に伴う歌曲のピッチの変化状況を反映し得る情報であり、メロディ情報は、一連のピッチと対応する時間情報との間の対応を使用することによって示すことができる。時間情報は、たとえば、ピッチの開始時間またはピッチの持続時間である。第2のメロディ情報は、ユーザ無伴奏歌唱音声データセットから抽出されたメロディ情報であり、続く第3のメロディ情報とは異なる。
ステップ310。それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶する。
具体的には、ハミング認識サーバは、専用データベースサーバを含み得る。第2のメロディ情報を抽出した後で、ハミング認識サーバは、それに応じて、第2のメロディ情報および対応する歌曲識別子をデータベースサーバ内の歌曲メロディデータベース内に記憶することができる。歌曲識別子は、歌曲の一意識別子であり、一意の文字列を使用することによって示すことができる。歌曲の題名および歌手名を使用することによって異なる歌曲を区別することができ、異なる歌曲に異なる歌曲識別子が割り当てられる。
歌曲メロディ情報処理方法では、もはや専用MIDIファイルを製作する必要がないように、MIDIファイルと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットの中にあり、かつ複数のソースからであるデータとを使用することによって、歌曲メロディデータベースがセットアップされ、それによって、歌曲メロディデータベースをセットアップするコストを大いに低減する。加えて、歌曲メロディデータベース内の同じ歌曲識別子は、異なるソースからの音声データを音声表記することによって取得されるメロディ情報に対応し得、その結果、歌曲メロディデータベースを使用することによってハミング認識が実行されるとき、認識のヒット率を改善することができる。
図4に示すように、一実施形態では、歌曲メロディ情報処理方法は、歌曲音声データセットからのメロディ情報を歌曲メロディデータベースに追加するステップをさらに含み、具体的には、以下のステップを含む。
ステップ402。ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得する。
具体的には、歌曲サーバは、歌曲音声データを含む歌曲音声データセットを記憶し、歌曲音声データセット内の各歌曲音声データは対応する歌曲識別子を有する。歌曲サーバは、歌曲再生アプリケーションプログラムを使用することによってユーザ端末によってトリガされる歌曲取得要求を受信し、取得された歌曲識別子に従って、歌曲音声データセットから対応する歌曲音声データを抽出して、その歌曲音声データをユーザ端末にフィードバックするために、歌曲取得要求に従って歌曲識別子を取得することができる。ユーザ端末は歌曲音声データを再生する。ハミング認識サーバは、歌曲サーバから歌曲音声データセットを周期的に取得することができる。代替として、歌曲サーバは、歌曲サーバ内の歌曲音声データセットを、周期的にまたは歌曲音声データが新しく追加されるときに、ハミング認識サーバと同期させることができる。
ステップ404。歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出する。
具体的には、ハミング認識サーバは、歌曲音声データセット内の各歌曲音声データをトラバースし、トラバースされた歌曲音声データから第3のメロディ情報を抽出することができる。第3のメロディ情報は、歌曲音声データセットから抽出されたメロディ情報である。
ステップ406。それに応じて、第3のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶する。
具体的には、ハミング認識サーバは、専用データベースサーバを含み得る。第3のメロディ情報を抽出した後で、ハミング認識サーバは、それに応じて、第3のメロディ情報および対応する歌曲識別子をデータベースサーバ内の歌曲メロディデータベース内に記憶することができる。ステップ306からステップ310の順序およびステップ312からステップ316の順序は、交換されてよく、または並行して処理されてもよい。
この実施形態では、図5を参照すると、MIDIファイルを歌曲メロディデータベースに直接追加することができ、ユーザ無伴奏歌唱音声データセットおよび歌曲音声データセットに対して、音声表記によって、ノートのピッチおよび時間情報によって示されるメロディ情報を取得することができる。このようにして、データベースセットアップのコストが低減されると同時に、ハミング認識性能を著しく改善することができるように、ハイブリッドデータセットアップのために複数のソースからのデータが使用される。
一実施形態では、ステップ308の前に、この方法は、以下のユーザ無伴奏歌唱音声データ、すなわち、未完成のユーザ無伴奏歌唱音声データ、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データのうちの少なくとも1つをユーザ無伴奏歌唱音声データセットからフィルタで除去するステップをさらに含む。
未完成のユーザ無伴奏歌唱音声データは、歌曲全体のコンテンツを含まないユーザ無伴奏歌唱音声データである。たとえば、ユーザは歌曲の一部だけを歌唱し、次いで、録音を終え、その場合、未完成のユーザ無伴奏歌唱音声データが取得される。ハミング認識サーバは、その音声時間長が事前設定された時間長に満たないユーザ無伴奏歌唱音声データを未完成のユーザ無伴奏歌唱音声データとして認識することができる。
ハミング認識サーバは、ユーザ無伴奏歌唱音声データ内で伝えられ、データが完成しているかどうかを示すために使用されるマークに従って、未完成のユーザ無伴奏歌唱音声データをさらに認識することができる。このマークは、ユーザ無伴奏歌唱音声データの録音が終了するときに、歌曲アプリケーションプログラムを使用することによってユーザ端末によって追加され得る。具体的には、ユーザ端末は、歌曲伴奏の伴奏終了時点を取得し、録音が終点したときの録音終了時点が伴奏終了時点を超えるかまたはそれに等しいかどうかを決定し、伴奏終了時を超えるかまたはそれに等しい場合、完成を示すために使用されるマークを追加し、そうでない場合、未完成を示すために使用されるマークを追加する。ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データは、ユーザ無伴奏歌唱音声データ内で伝えられ、録音のためにヘッドセットが装着されたかどうかを示すために使用されるマークを使用することによって認識され得る。
雑音または伴奏を含むユーザ無伴奏歌唱音声データの決定は、以下の仮定に基づいてよい。すなわち、一般的な歌曲音声データの場合、人間の声は概してデータの一部分の中に分布し、雑音および伴奏が音声全体を占める場合がある。したがって、クリーンなユーザ無伴奏歌唱音声データ内のエリアの一部分の中にのみ明らかなエネルギーが存在するはずである。音声エリア全体に明らかなエネルギーが存在する場合、音声は汚染されている。
具体的には、ハミング認識サーバは、1つのユーザ無伴奏歌唱音声データを取得し、タイムライン内でユーザ無伴奏歌唱音声データに関してフレームセグメンテーションを実行し、次いで、各音声フレームの二乗平均平方根エネルギーを算出し、その二乗平均平方根エネルギーがしきい値を超える音声フレームの量をカウントすることができる。ユーザ無伴奏歌唱音声データ全体の音声フレーム総量に対する音声フレームのカウントされた量の比率が前の比率を満たす場合、ユーザ無伴奏歌唱音声データはクリーンなユーザ無伴奏歌唱音声データであると決定される。あるいは、ユーザ無伴奏歌唱音声データ全体の音声フレームの総量に対する音声フレームのカウントされた量の比率が前の比率を満たさない場合、ユーザ無伴奏歌唱音声データ内に雑音または伴奏が存在すると決定される。
この実施形態では、未完成のユーザ無伴奏歌唱音声データは歌曲のメロディ情報の部分のみを含むため、ユーザがユーザ無伴奏歌唱音声データ内に含まれていないコンテンツを正確にハミングする場合、そのコンテンツは正確に認識され得ない。加えて、ユーザ無伴奏歌唱音声データの存在は歌曲メロディデータベースを探索する時間を増大させ、ハミング認識性能を低減させる。ハミングを認識するために歌曲メロディデータベースが使用されるとき、不正確なユーザ無伴奏歌唱音声データが歌曲メロディデータベースの認識性能に影響を及ぼすことを防ぐように、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データおよび/または雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データはフィルタ処理され除去される。
図6および図7を参照すると、一実施形態では、ステップ308は、具体的には、以下のステップを含む。
ステップ602。ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出する。
具体的には、ピッチは、昇順のスケールで配置された音に対する聴覚の知覚属性である。ピッチの抽出プロセスは、基音の抽出プロセスでもある。基音の周波数は基本周波数と呼ばれる。基音は、非常に低い音声周波数を有するが、最大振幅を有する純音である。基音はノート全体のピッチを決定する。
ハミング認識サーバは、周波数とピッチとの間の対応に従って基本周波数をピッチに変換するために、時間領域事象発生検出方法(time-domain event occurrence detection method)、自己相関関数方法、またはYet Another Algorithm for Pitch Tracking(YAAPT)アルゴリズムなどの基本周波数抽出アルゴリズムを使用することによって基本周波数を抽出することができる。時間領域事象発生検出方法は、以下のような理論に基づく:時間領域内の音声波形の表現は周期的であり、時間期間内で繰り返し発生する事象の時間の量がカウントされ得る。したがって、基本周波数は、毎秒発生する事象の時間の量をカウントすることによって推定され得る。時間領域事象発生検出方法は、たとえば、ゼロ交差率(ZCR)アルゴリズム、ピークレートアルゴリズム、およびスロープ事象率アルゴリズム(slope event rate algorithm)を含む。
自己相関関数方法では、ユーザ無伴奏歌唱音声データは音声信号(speech signal)であると見なされ、音声信号は時間とともに変化する信号であり、短期安定度の特性を有する。このようにして、ユーザ無伴奏歌唱音声データは、処理のために音声フレームのグループに分割され得る。音声信号のフレームセグメントは、ウィンドウイングによって実装され、ウィンドウ関数は矩形ウィンドウまたはハミングウィンドウであり得る。
ユーザ無伴奏歌唱音声データの自己相関関数が式(1)として示される。
Figure 2019507912
rt(τ)は時点tにおける自己相関関数を示し、xi,i=1,K、2Wは、ユーザ無伴奏歌唱音声データを示し、近似周期信号であり、Wはウィンドウ関数のサイズであり、tは時点を示し、τは遅延を示す。τが基本周波数周期の整数倍数に等しいとき、最大値が生成される。したがって、最大値を探索し、ユーザ無伴奏歌曲データの基本周波数を推定するために、自己相関関数を算出することができる。
一実施形態では、ハミング認識サーバは、自己相関関数に基づくYINアルゴリズムを使用することによって、ユーザ無伴奏歌唱音声データのピッチを抽出することができる。YINアルゴリズムは、音声および音楽に対する基本周波数推定器である。具体的には、ステップ(1)からステップ(4)を含め、以下のステップを実行して、基本周波数を推定することができる。
(1)ユーザ無伴奏歌唱音声データの自己相関関数を算出する。ここで、算出は、具体的には、式(1)に従って実行される。
(2)自己相関関数に従って差分関数を算出する。
差分関数は式(2)によって表され得る。
Figure 2019507912
自己相関関数rt(τ)が与えられる場合、差分関数の算出は以下の式(3)に簡素化され得る:
dt(τ)=rt(0)+rt+τ(0)-2rt(τ) 式(3)
(3)差分関数dt(τ)に関して累積平均正規化を実行して、正規化された差分関数dt'(τ)を取得する。フォルマントの共鳴により高周波数で生じる最小値は、累積平均正規化によって補償され得る。
Figure 2019507912
(4)事前設定されたしきい値sを取得し、dt'(τ)の局所最小値が取得され、かつdt'(τ)<sであるとき、最低遅延τminを探索する。基本周波数f0=1/τminが推定される。さらに、推定された基本周波数に従って、対応するピッチが取得され得る。
ステップ604。抽出されたピッチに対応するノート開始時間を取得するために、トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行する。
具体的には、ハミング認識サーバは、位相特徴に基づく音楽ノート開始検出アルゴリズムを使用することによってユーザ無伴奏歌唱音声データに関してノート開始検出を実行することができるか、または全位相メル周波数ケプストラム係数(MFCC:all-phase mel-frequency cepstral coefficient)の差分に基づく自動ノート開始検出方法を使用することによって検出を実行することができる。
一実施形態では、ハミング認識サーバは、心理音響知識方法を適用することによって音開始検出を使用することによってノート開始検出を実行することができ、プロセスは、具体的には、フィルタを使用することによってユーザ無伴奏歌唱音声データを複数の周波数サブバンドに分割するステップと、各周波数サブバンドから振幅輪郭A(t)を抽出するステップと、一次相対差異関数
Figure 2019507912
を計算するステップと、ノート開始成分として局所最大値W(t)を抽出するステップと、ノート開始成分の時間および強度を推定するステップと、最終的なノート開始時間を決定するために、異なる周波数サブバンドのノート開始成分の時間および強度を収束するステップとを含む。
ステップ606。ピッチと対応するノート開始時間とを結合して、トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にする。
具体的には、ハミング認識サーバは、抽出されたピッチと、ピッチに対応するノート開始時間とを結合してノートシーケンスにして、トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報を形成する。トラバースが完了した後で、ユーザ無伴奏歌唱音声データセットに対応する第2のメロディ情報セットが取得され得る。
この実施形態では、ユーザ無伴奏歌唱音声データセットをトラバースしてピッチを抽出し、抽出されたピッチと対応するノート開始時間とに従って第2のメロディ情報が形成されるように、ピッチに対応するノート開始時間を取得するためにノート開始検出が実行される。このようにして、抽出された第2のメロディ情報はより正確であり、ハミング認識のために歌曲メロディデータベースが使用されるとき、最終的に取得される歌曲メロディデータベースのハミング認識精度はより高い。
一実施形態では、図8を参照すると、ステップ314は、具体的には、以下のステップを含む。
ステップ802。トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、歌曲音声データセットをトラバースする。
具体的には、ハミング認識サーバは、既存のメインメロディ抽出方法、たとえば、倍音検出に基づくメインメロディ抽出技術を使用することによって、歌曲音声データからメインメロディピッチ輪郭を抽出することができる。歌曲は、概して、複数のメロディラインを含み、複数のメロディラインは、歌手の歌唱のメインメモリーライン、背景音楽のメロディラインなどを含む。ピッチ輪郭は、ピッチ輪郭とも呼ばれ、時間的に連続する基音シーケンスである。
一実施形態では、ハミング認識サーバは、Melody Extraction from Polyphonic Music Signals using Pitch Contour Characteristics方法を使用することによって、歌曲音声データのメインメロディピッチ輪郭を抽出することができる。具体的には、各音声フレームのスペクトルピーク値を抽出するために、歌曲音声データに関して短期フーリエ変換をまず実行することができ;歌曲音声データの候補ピッチが抽出され、抽出されたスペクトルピーク値に従って、高調波追加(harmonic addition)方法を使用することによって、各候補ピッチの有効関数(significance function)が算出され;各音声フレーム内の有効関数のピーク値が抽出され、時間および周波数の点で連続的なピーク値が接続されて、ピッチ輪郭を形成し;算出された特徴値に従ってメインメロディ特徴を有するメインメロディピッチ輪郭が選択されるように、各ピッチ輪郭に関して一連の特徴値が算出される。
ステップ804。融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従ってメインメロディピッチ輪郭内のピッチを融合させる。
具体的には、この実施形態では、ハミング認識サーバは、ノート開始時間を決定するときにノート開始検出を実行しないが、ピッチ輪郭内の固定時間長内のすべてのピッチをトラバースされた歌曲音声データ内のタイムスタンプに従って1つのノートのピッチに直接融合させ、たとえば、50ミリ秒のピッチを1つのノートのピッチに融合させる。融合されたピッチの値は、融合されたピッチに対応する、融合前のすべてのピッチの平均値であり得る。融合されたピッチのノート開始時間は、融合前のすべての対応するピッチ内の最古のピッチに対応する時間であり得る。
ステップ806。融合されたピッチと対応するノート開始時間とを結合して、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にする。
具体的には、ハミング認識サーバは、融合されたピッチと対応するノート開始時間とを結合してノートシーケンスにして、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報を形成する。トラバースが完了した後で、歌曲音声データセットに対応する第3のメロディ情報セットが取得され得る。
この実施形態では、歌曲音声データ、たとえば、一般的な流行歌の音声データは、偏在する歌曲音声リソースである。歌曲メロディデータベースが非常に高い歌曲カバレージを有するように、第3のメロディ情報はユーザ端末に歌曲サービスを提供する歌曲音声データセットを使用することによって抽出され、ハミング認識のために歌曲メロディデータベースが使用されるとき歌曲メロディデータベースの認識性能をさらに改善することができる。第3のメロディ情報が抽出されるとき、ノート開始検出は実行されず、ピッチおよびノート開始時間を決定するためにメインメロディピッチ輪郭内の固定時間長内のピッチが融合され、それによって、ハミング認識精度を低減させずに計算効率を改善する。
図9に示すように、一実施形態では、歌曲メロディ情報処理方法は、歌曲メロディデータベースを使用することによってハミング認識を実行するステップをさらに含み、具体的には、以下のステップを含む。
ステップ902。認識されるべきハミング特徴データを受信する。
具体的には、ユーザ端末は、ハミング認識アプリケーションプログラムを使用することによって認識されるべきハミング音声データを録音し、認識されるべきハミング特徴データを取得するためにハミング音声データに関して特徴抽出を実行し、ハミング特徴データをハミング認識サーバにアップロードすることができる。ハミング認識サーバは、ハミング特徴データを受信する。ハミング認識アプリケーションプログラムを使用することによって、認識されるべきハミング音声データを録音した後で、ユーザ端末は、代替として、ハミング音声データをハミング認識サーバに直接アップロードすることができる。ハミング認識サーバは、認識されるべきハミング特徴データを取得するために、ハミング音声データに関して特徴抽出を実行する。ハミング特徴データは、ピッチ特徴と、ピッチ特徴に対応する時間特徴とを含む。
ステップ904。ハミング特徴データと歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得する。
具体的には、ハミング認識サーバは、ダイナミックタイムワーピング(DTW:dynamic time warping)アルゴリズムを使用することによって、ハミング特徴データと歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を算出することができる。
ステップ906。事前設定された類似性しきい値を超える類似性を取得された類似性から選別して除去する。
ステップ908。選別された類似性に対応する歌曲識別子を取得する。
具体的には、ハミング認識サーバは、取得された類似性をトラバースし、トラバースされた類似性を事前設定された類似性しきい値と比較し、トラバースされた類似性が事前設定された類似性しきい値を超える場合、対応する歌曲識別子を取得し、トラバースが完了するまで、または指定された数の歌曲識別子が見出されるまで、歌曲識別子を候補歌曲セット内に追加することができる。ハミング認識サーバは、具体的には、事前設定された類似性しきい値を超え、かつ最大である類似性を取得された類似性から選別して除去する。
ステップ910。取得された歌曲識別子に従って、ハミング認識結果を生成する。
具体的には、ハミング認識サーバは、取得された歌曲識別子に従って、対応する歌曲情報、たとえば、歌曲の題名、歌曲のアルバム名、歌手名、歌曲の種類、歌曲再生リンクなどのうちの1つまたは複数の組合せを取得し、取得された歌曲情報に従って、ハミング認識結果を生成し、ハミング認識結果をユーザ端末にフィードバックすることができる。
この実施形態では、正確なハミング認識結果を取得することができるように、ハミング認識を実行するために複数のソースからの音声データに従ってセットアップされた歌曲メロディデータベースが使用される。加えて、図10を参照すると、単にMIDIファイルを使用することによってセットアップされたデータベースと比較して、データベースがMIDIファイルとユーザ無伴奏歌唱音声データの組合せでセットアップされる解決策では、ハミング認識の第1のヒット率は15%を超えて増大し、最初の5つのヒット率は10%を超えて増大する。データベースがMIDIファイルとユーザ無伴奏歌唱音声データの組合せでセットアップされる解決策と比較して、データベースがMIDIファイルと、ユーザ無伴奏歌唱音声データと、歌曲音声データの組合せでセットアップされる解決策では、ヒット率はある程度さらに増大する。
図11に示すように、一実施形態はサーバ1100を提供する。サーバの内部構造は、図2に示した構造に対応し得る。以下のモジュールのすべてまたはいくつかは、ソフトウェア、ハードウェア、またはそれらの組合せによって実装され得る。サーバ1100は、第1のソースデータ収集モジュール1101と、第1のメロディ情報抽出モジュール1102と、第2のソースデータ取得モジュール1103と、第2のメロディ情報抽出モジュール1104とを含む。
第1のソースデータ収集モジュール1101は、MIDIファイルを収集するように構成される。
具体的には、第1のソースデータ収集モジュール1101は、MIDIファイルセットを形成するために、既に存在するMIDIファイルを収集することができる。具体的には、第1のソースデータ収集モジュール1101は、ネットワークから既存のMIDIファイルセットをクロールすることができるか、またはMIDIファイルを記憶している第一者サーバから既存のMIDIファイルセットをプルすることができる。
第1のメロディ情報抽出モジュール1102は、MIDIファイルの歌曲識別子を取得し、MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するように構成される。
具体的には、第1のメロディ情報抽出モジュール1102は、MIDIファイルセット内の各MIDIファイルをトラバースし、抽出された歌曲認識情報に従って、対応する歌曲識別子を取得するために、MIDIファイル内の歌曲認識情報を抽出することができる。歌曲認識情報は、歌曲を認識するために使用され得る情報、たとえば、歌曲の題名または歌手名であってよい。MIDIファイルは、ピッチおよび対応する時間情報を含み、各ピッチはノートを示す。したがって、MIDIファイル内に含まれるピッチおよび対応する時間情報は、第1のメロディ情報を形成し得る。第1のメロディ情報抽出モジュール1102は、次いで、第1のメロディ情報を歌曲メロディデータベースに追加する。
第2のソースデータ取得モジュール1103は、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するように構成される。
具体的には、ユーザ無伴奏歌唱音声データは、背景音楽ではなく、ユーザの歌唱を録音するためのデータである。ユーザ端末は、歌唱アプリケーションプログラムを使用することによって、歌唱識別子に対応するユーザ無伴奏歌唱音声データを録音し、ユーザ無伴奏歌唱音声データセットが歌唱サーバ内に形成されるように、録音されたユーザ無伴奏歌唱音声データをその歌唱サーバにアップロードすることができる。第2のソースデータ取得モジュール1103は、歌唱サーバからユーザ無伴奏歌唱音声データセットを周期的に取得することができる。代替として、歌唱サーバは、歌唱サーバ内のユーザ無伴奏歌唱音声データセットを、周期的にまたはユーザ無伴奏歌唱音声データが新しく追加されるときに、第2のソースデータ取得モジュール1103と同期させることができる。
歌唱アプリケーションプログラムを使用することによってユーザ無伴奏歌唱音声データを録音するとき、ユーザ端末は、ヘッドセットを使用することによって、歌曲識別子に対応する歌曲伴奏を再生することができる。ユーザは、再生される歌曲伴奏に従って伴奏なしに歌唱する。ユーザ端末は、ユーザ端末の音ピックアップを使用することによって、ユーザの無伴奏音を取得し、ユーザ端末のプロセッサの処理によってユーザ無伴奏歌唱音声データを取得する。
第2のメロディ情報抽出モジュール1104は、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出し、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するように構成される。
具体的には、第2のメロディ情報抽出モジュール1104は、ユーザ無伴奏歌唱音声データセット内の各ユーザ無伴奏歌唱音声データをトラバースし、トラバースされたユーザ無伴奏歌唱音声データから第2のメロディ情報を抽出することができる。メロディ情報は、時間に伴う歌曲のピッチの変化傾向を反映し得る情報であり、メロディ情報は、一連のピッチと対応する時間情報との間の対応を使用することによって示すことができる。時間情報は、たとえば、ピッチの開始時間またはピッチの持続時間である。第2のメロディ情報は、ユーザ無伴奏歌唱音声データセットから抽出されたメロディ情報であり、続く第3のメロディ情報とは異なる。
具体的には、第2のメロディ情報を抽出した後で、第2のメロディ情報抽出モジュール1104は、それに応じて、抽出された第2のメロディ情報および対応する歌曲識別子をデータベースサーバ内の歌曲メロディデータベース内に記憶することができる。歌曲識別子は、歌曲の一意識別子であり、一意の文字列を使用することによって示すことができる。歌曲の題名および歌手名を使用することによって異なる歌曲を区別することができ、異なる歌曲に異なる歌曲識別子が割り当てられる。
サーバ1100は、もはや専用MIDIファイルを製作する必要がないように、MIDIファイルと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットの中にあり、かつ複数のソースからであるデータとを使用することによって、歌曲メロディデータベースをセットアップし、それによって、歌曲メロディデータベースをセットアップするコストを大いに低減する。加えて、歌曲メロディデータベース内の同じ歌曲識別子は、異なるソースからの音声データを音声表記することによって取得されるメロディ情報に対応し得、その結果、歌曲メロディデータベースを使用することによってハミング認識が実行されるとき、認識のヒット率を改善することができる。
図12に示すように、一実施形態では、サーバ1100は、第3のソースデータ取得モジュール1105と第3のメロディ情報抽出モジュール1106とをさらに含む。
第3のソースデータ取得モジュール1105は、ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するように構成される。
具体的には、歌曲サーバは、歌曲音声データを含む歌曲音声データセットを記憶し、歌曲音声データセット内の各歌曲音声データは対応する歌曲識別子を有する。歌曲サーバは、歌曲再生アプリケーションプログラムを使用することによってユーザ端末によってトリガされる歌曲取得要求を受信し、取得された歌曲識別子に従って、歌曲音声データセットから対応する歌曲音声データを抽出して、その歌曲音声データをユーザ端末にフィードバックするために、歌曲取得要求に従って歌曲識別子を取得することができる。ユーザ端末は歌曲音声データを再生する。第3のソースデータ取得モジュール1105は、歌曲サーバから歌曲音声データセットを周期的に取得することができる。代替として、歌曲サーバは、歌曲サーバ内の歌曲音声データセットを、周期的にまたは歌曲音声データが新しく追加されるときに、第3のソースデータ取得モジュール1105と同期させることができる。
第3のメロディ情報抽出モジュール1106は、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出し、それに応じて、第3のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するように構成される。
具体的には、第3のメロディ情報抽出モジュール1106は、歌曲音声データセット内の各歌曲音声データをトラバースし、トラバースされた歌曲音声データから第3のメロディ情報を抽出することができる。第3のメロディ情報は、歌曲音声データセットから抽出されたメロディ情報である。第3のメロディ情報を抽出した後で、第3のメロディ情報抽出モジュール1106は、それに応じて、抽出された第3のメロディ情報と対応する歌曲識別子とをデータベースサーバ内の歌曲メロディデータベース内に記憶することができる。
この実施形態では、図5を参照すると、MIDIファイルを歌曲メロディデータベースに直接追加することができ、ユーザ無伴奏歌唱音声データセットおよび歌曲音声データセットに対して、音声表記によって、ノートのピッチおよび時間情報を使用することによって示されるメロディ情報を取得することができる。このようにして、データベースセットアップのコストを低減すると同時に、ハミング認識性能を著しく改善することができるように、ハイブリッドデータベースセットアップのために複数のソースからのデータが使用される。
図13に示すように、一実施形態では、サーバ1100は、以下のユーザ無伴奏歌唱音声データ、すなわち、未完成のユーザ無伴奏歌唱音声データ、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データのうちの少なくとも1つをユーザ無伴奏歌唱音声データセットからフィルタで除去するように構成されたフィルタ処理モジュール1107をさらに含む。
未完成のユーザ無伴奏歌唱音声データは、歌曲全体のコンテンツを含まないユーザ無伴奏歌唱音声データである。たとえば、ユーザは、歌曲の一部のみを歌唱し、次いで、録音を終了し、その場合、未完成のユーザ無伴奏歌唱音声データが取得される。フィルタ処理モジュール1107は、その音声時間長が事前設定された時間長未満であるユーザ無伴奏歌唱音声データを未完成のユーザ無伴奏歌唱音声データとして認識することができる。
フィルタ処理モジュール1107は、ユーザ無伴奏歌唱音声データ内で伝えられ、データが完成しているかどうかを示すために使用されるマークに従って、未完成のユーザ無伴奏歌唱音声データをさらに認識することができる。このマークは、ユーザ無伴奏歌唱音声データの録音が終了するときに、歌曲アプリケーションプログラムを使用することによってユーザ端末によって追加され得る。具体的には、ユーザ端末は、歌曲伴奏の伴奏終了時間を取得し、録音が終了したときの録音終了時点が伴奏終了時点に等しいかまたはそれを超えるかどうかを決定し、それに等しいかまたはそれを超える場合、完成を示すために使用されるマークを追加し、そうでない場合、未完成を示すために使用されるマークを追加することができる。ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データは、ユーザ無伴奏歌唱音声データ内で伝えられ、録音のためにヘッドセットが装着されたかどうかを示すために使用されるマークを使用することによって認識され得る。
雑音または伴奏を含むユーザ無伴奏歌唱音声データの決定は、以下の仮定に基づいてよい。すなわち、一般的な歌曲音声データの場合、人間の声は概してデータの一部分の中に分布し、雑音および伴奏が音声全体を占める場合がある。したがって、クリーンなユーザ無伴奏歌唱音声データ内のエリアの一部分の中にのみ明らかなエネルギーが存在するはずである。音声エリア全体に明らかなエネルギーが存在する場合、音声は汚染されている
具体的には、フィルタ処理モジュール1107は、1つのユーザ無伴奏歌唱音声データを取得し、タイムライン内でユーザ無伴奏歌唱音声データに関するフレームセグメンテーションを実行し、次いで、各音声フレームの二乗平均平方根エネルギーを算出し、その二乗平均平方根エネルギーがしきい値を超える音声フレームの量をカウントすることができる。ユーザ無伴奏歌唱音声データ全体の音声フレーム総量に対する音声フレームのカウントされた量の比率が前の比率を満たす場合、ユーザ無伴奏歌唱音声データはクリーンなユーザ無伴奏歌唱音声データであると決定される。あるいは、ユーザ無伴奏歌唱音声データ全体の音声フレームの総量に対する音声フレームのカウントされた量の比率が前の比率を満たさない場合、ユーザ無伴奏歌唱音声データ内に雑音または伴奏が存在すると決定される。
この実施形態では、未完成のユーザ無伴奏歌唱音声データは歌曲のメロディ情報の部分のみを含むため、ユーザがユーザ無伴奏歌唱音声データ内に含まれていないコンテンツを正確にハミングする場合、そのコンテンツは正確に認識され得ない。加えて、ユーザ無伴奏歌唱音声データの存在は歌曲メロディデータベースを探索する時間を増大させ、ハミング認識性能を低減させる。ハミングを認識するために歌曲メロディデータベースが使用されるとき、不正確なユーザ無伴奏歌唱音声データが歌曲メロディデータベースの認識性能に影響を及ぼすことを防ぐように、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データおよび/または雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データはフィルタ処理され除去される。
一実施形態では、第2のメロディ情報抽出モジュール1104は、具体的には、ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出し、抽出されたピッチに対応するノート開始時間を取得するために、トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行し、ピッチと対応するノート開始時間とを結合して、トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするように構成される。
この実施形態では、ユーザ無伴奏歌唱音声データセットは、ピッチを抽出するためにトラバースされ、抽出されたピッチと対応するノート開始時間とに従って第2のメロディ情報が形成されるように、ピッチに対応するノート開始時間を取得するためにノート開始検出が実行される。このようにして、抽出された第2のメロディ情報はより正確であり、ハミング認識のために歌曲メロディデータベースが使用されるとき、最終的に取得される歌曲メロディデータベースのハミング認識精度はより高い。
一実施形態では、第3のメロディ情報抽出モジュール1106は、具体的には、トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために歌曲音声データセットをトラバースし、融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従ってメインメロディピッチ輪郭内のピッチを融合させ、融合されたピッチと対応するノート開始時間とを結合して、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするように構成される。
この実施形態では、歌曲音声データ、たとえば、一般的な流行歌の音声データは、偏在する歌曲音声リソースである。歌曲メロディデータベースが非常に高い歌曲カバレージを有するように、第3のメロディ情報はユーザ端末に歌曲サービスを提供する歌曲音声データセットを使用することによって抽出され、ハミング認識のために歌曲メロディデータベースが使用されるとき歌曲メロディデータベースの認識性能をさらに改善することができる。第3のメロディ情報が抽出されるとき、ノート開始検出は実行されず、ピッチおよびノート開始時間を決定するためにメインメロディピッチ輪郭内の固定時間長内のピッチが融合され、それによって、ハミング認識精度を低減させずに計算効率を改善する。
図14に示すように、一実施形態では、サーバ1100は、認識されるべきハミング特徴データを受信し、ハミング特徴データと歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得し、事前設定された類似性しきい値を超える類似性を取得された類似性から選別して除去し、選別された類似性に対応する歌曲識別子を取得し、取得された歌曲識別子に従って、ハミング認識結果を生成するように構成されたハミング認識モジュール1108をさらに含む。
この実施形態では、正確なハミング認識結果を取得することができるように、ハミング認識を実行するために複数のソースからの音声データに従ってセットアップされた歌曲メロディデータベースが使用される。加えて、図10を参照すると、単にMIDIファイルを使用することによってセットアップされたデータベースと比較して、データベースがMIDIファイルとユーザ無伴奏歌唱音声データの組合せでセットアップされる解決策では、ハミング認識の第1のヒット率は15%を超えて増大し、最初の5つのヒット率は10%を超えて増大する。データベースがMIDIファイルとユーザ無伴奏歌唱音声データの組合せでセットアップされる解決策と比較して、データベースがMIDIファイルと、ユーザ無伴奏歌唱音声データと、歌曲音声データの組合せでセットアップされる解決策では、ヒット率はある程度さらに増大する。
一実施形態は、メモリとプロセッサとを含むサーバを提供する。メモリはコンピュータ可読命令を記憶し、コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに、MIDIファイルを収集するステップと、MIDIファイルの歌曲識別子を取得するステップと、MIDIファイルに従って第1のメロディ情報を生成するステップと、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを実行させる。
一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップの前に以下のユーザ無伴奏歌唱音声データ、すなわち、未完成のユーザ無伴奏歌唱音声データ、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データのうちの少なくとも1つをユーザ無伴奏歌唱音声データセットからフィルタで除去させる。
一実施形態では、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップは、ユーザ無伴奏歌唱音声データセットをトラバースするステップと、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出するステップと、抽出されたピッチに対応するノート開始時間を取得するために、トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップと、ピッチと対応するノート開始時間とを結合して、トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするステップとを含む。
一実施形態では、抽出されたピッチに対応するノート開始時間を取得するために、トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップは、フィルタを使用することによって、ユーザ無伴奏歌唱音声データを複数の周波数サブバンドに分割するステップと、振幅輪郭を各周波数サブバンドから抽出するステップと、一次相対差異関数を算出するステップと、一次相対差異関数の局所最大値をノート開始成分として抽出するステップと、ノート開始成分の時間および強度を推定するステップと、最終的なノート開始時間を決定するために、異なる周波数サブバンドのノート開始成分の時間および強度を収束するステップとを含む。
一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、さらにプロセッサに、ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するステップと、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出するステップと、それに応じて、第3のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを行わせる。
一実施形態では、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出するステップは、トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、歌曲音声データセットをトラバースするステップと、融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従って、メインメロディピッチ輪郭内のピッチを融合させるステップと、融合されたピッチと対応するノート開始時間とを結合して、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップとを含む。
一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、さらにプロセッサに、認識されるべきハミング特徴データを受信するステップと、ハミング特徴データと歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得するステップと、事前設定された類似性しきい値を超える類似性を取得された類似性から選別して除去するステップと、選別された類似性に対応する歌曲識別子を取得するステップと、取得された歌曲識別子に従って、ハミング認識結果を生成するステップとを実行させる。
一実施形態は、コンピュータ可読命令を記憶した、1つまたは複数の不揮発性コンピュータ可読記憶媒体を提供し、コンピュータ可読命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、MIDIファイルを収集するステップと、MIDIファイルの歌曲識別子を取得するステップと、MIDIファイルに従って第1のメロディ情報を生成するステップと、それに応じて、第1のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップと、ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップと、それに応じて、第2のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを行わせる。
一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップの前に、以下のユーザ無伴奏歌唱音声データ、すなわち、未完成のユーザ無伴奏歌唱音声データ、ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データのうちの1つをユーザ無伴奏歌唱音声データセットからフィルタで除去させる。
一実施形態では、ユーザ無伴奏歌唱音声データセットに従って、歌曲識別子に対応する第2のメロディ情報を抽出するステップは、ユーザ無伴奏歌唱音声データセットをトラバースするステップと、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出するステップと、抽出されたピッチに対応するノート開始時間を取得するために、トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップと、ピッチと対応するノート開始時間とを結合して、トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするステップとを含む。
一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、さらにプロセッサに、ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するステップと、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出するステップと、それに応じて、第3のメロディ情報および歌曲識別子を歌曲メロディデータベース内に記憶するステップとを行わせる。
一実施形態では、歌曲音声データセットに従って、歌曲識別子に対応する第3のメロディ情報を抽出するステップは、トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために歌曲音声データセットをトラバースするステップと、融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従ってメインメロディピッチ輪郭内のピッチを融合させるステップと、融合されたピッチと対応するノート開始時間とを結合して、トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップとを含む。
一実施形態では、コンピュータ可読命令は、プロセッサによって実行されると、さらにプロセッサに、認識されるべきハミング特徴データを受信するステップと、ハミング特徴データと歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得するステップと、事前設定された類似性しきい値を超える類似性を取得された類似性から選別して除去するステップと、選別された類似性に対応する歌曲識別子を取得するステップと、取得された歌曲識別子に従って、ハミング認識結果を生成するステップとを実行させる。
当業者は、これらの実施形態における方法のプロセスのすべてまたはいくつかは、関連ハードウェアに命令するコンピュータプログラムによって実装され得ることを理解されよう。コンピュータプログラムは、コンピュータ可読記憶媒体内に記憶され得る。プログラムが実行するとき、これらの実施形態における方法のプロセスが実行され得る。記憶媒体は、磁気ディスク、光ディスク、または読取り専用メモリ(ROM)などの不揮発性記憶媒体であってよく、またはランダムアクセスメモリ(RAM)などであってもよい。
前述の実施形態における様々な技術的特徴をランダムに組み合わせることができる。説明を容易にするために、前述の実施形態における様々な技術的特徴の組合せがすべて説明されているとは限らない。しかしながら、技術的特徴の組合せが互いに互換性があることを条件に、技術的特徴の組合せは、本明細書に記録された範囲と見なされるべきである。
前述の実施形態は、具体的かつ詳細に説明された、本出願のいくつかの実装形態のみを説明しており、したがって、本発明の特許範囲に対する限定と見なすことはできない。当業者は、本出願の着想から逸脱せずに様々な変更および改善を行うことができ、それらはすべて本出願の保護範囲に包含されるべきである。したがって、本出願の特許の保護範囲は、添付の請求項を条件とする。
110 ユーザ端末
110a ユーザ端末
110b ユーザ端末
110c ユーザ端末
120 ハミング認識サーバ、サーバ
130 歌唱サーバ
140 歌曲サーバ
1100 サーバ
1101 第1のソースデータ収集モジュール
1102 第1のメロディ情報抽出モジュール
1103 第2のソースデータ取得モジュール
1104 第2のメロディ情報抽出モジュール
1105 第3のソースデータ取得モジュール
1106 第3のメロディ情報抽出モジュール
1107 フィルタ処理モジュール
1108 ハミング認識モジュール
メモリとプロセッサとを含むサーバであって、メモリがコンピュータ可読命令を記憶し、コンピュータ可読命令が、プロセッサによって実行されると、プロセッサに、前述した方法を実行させる、サーバが提供される。
コンピュータ可読命令を記憶した、1つまたは複数の不揮発性コンピュータ可読記憶媒体であって、コンピュータ可読命令が、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、前述した方法を実行させる、不揮発性コンピュータ可読記憶媒体が提供される。

Claims (20)

  1. 歌曲メロディ情報処理方法であって、
    MIDIファイルを収集するステップと、
    前記MIDIファイルの歌曲識別子を取得し、前記MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、前記第1のメロディ情報および前記歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
    ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
    前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
    それに応じて、前記第2のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
    を含む、方法。
  2. 前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップの前に、前記方法が、
    以下のユーザ無伴奏歌唱音声データ、すなわち、
    未完成のユーザ無伴奏歌唱音声データ、
    ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および
    雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データ
    のうちの少なくとも1つを前記ユーザ無伴奏歌唱音声データセットからフィルタで除去するステップをさらに含む、請求項1に記載の方法。
  3. 前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップが、
    前記ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出するステップと、
    前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップと、
    前記ピッチと前記対応するノート開始時間とを結合して、前記トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするステップと
    を含む、請求項1に記載の方法。
  4. 前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を前記実行するステップが、
    フィルタを使用することによって、前記ユーザ無伴奏歌唱音声データを複数の周波数サブバンドに分割するステップと、
    各周波数サブバンドから振幅輪郭を抽出し、一次相対差異関数を算出し、前記一次相対差異関数の局所最大値をノート開始成分として抽出し、前記ノート開始成分の時間および強度を推定するステップと、
    最終的なノート開始時間を決定するために、異なる周波数サブバンドのノート開始成分の時間および強度を収束するステップと
    を含む、請求項3に記載の方法。
  5. 前記ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するステップと、
    前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を抽出するステップと、
    それに応じて、前記第3のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
    をさらに含む、請求項1に記載の方法。
  6. 前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を前記抽出するステップが、
    トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、前記歌曲音声データセットをトラバースするステップと、
    融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従って前記メインメロディピッチ輪郭内のピッチを融合させるステップと、
    前記融合されたピッチと前記対応するノート開始時間とを結合して、前記トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップと
    を含む、請求項5に記載の方法。
  7. 認識されるべきハミング特徴データを受信するステップと、
    前記ハミング特徴データと前記歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得するステップと、
    事前設定された類似性しきい値を超える類似性を前記取得された類似性から選別して除去するステップと、
    前記選別された類似性に対応する歌曲識別子を取得するステップと、
    前記取得された歌曲識別子に従ってハミング認識結果を生成するステップと
    をさらに含む、請求項1に記載の方法。
  8. メモリとプロセッサとを含むサーバであって、前記メモリがコンピュータ可読命令を記憶し、前記コンピュータ可読命令が、前記プロセッサによって実行されると、前記プロセッサに、
    MIDIファイルを収集するステップと、
    前記MIDIファイルの歌曲識別子を取得し、前記MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、前記第1のメロディ情報および前記歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
    ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
    前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
    それに応じて、前記第2のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
    を実行させる、サーバ。
  9. 前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップの前に、前記コンピュータ可読命令が、さらに前記プロセッサに、以下のユーザ無伴奏歌唱音声データ、すなわち、
    未完成のユーザ無伴奏歌唱音声データ、
    ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および
    雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データ
    のうちの少なくとも1つを前記ユーザ無伴奏歌唱音声データセットからフィルタで除去させるステップ
    を実行させる、請求項8に記載のサーバ。
  10. 前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップが、
    前記ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出するステップと、
    前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップと、
    前記ピッチと前記対応するノート開始時間とを結合して、前記トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするステップと
    を含む、請求項8に記載のサーバ。
  11. 前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を前記実行するステップが、
    フィルタによって、前記ユーザ無伴奏歌唱音声データを複数の周波数サブバンドに分割するステップと、
    各周波数サブバンドから振幅輪郭を抽出し、一次相対差異関数を算出し、前記一次相対差異関数の局所最大値をノート開始成分として抽出し、前記ノート開始成分の時間および強度を推定するステップと、
    最終的なノート開始時間を決定するために、異なる周波数サブバンドのノート開始成分の時間および強度を収束するステップと
    を含む、請求項10に記載のサーバ。
  12. 前記コンピュータ可読命令が、前記プロセッサによって実行されると、さらに前記プロセッサに、
    前記ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するステップと、
    前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を抽出するステップと、
    それに応じて、前記第3のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
    を実行させる、請求項8に記載のサーバ。
  13. 前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を前記抽出するステップが、
    トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、前記歌曲音声データセットをトラバースするステップと、
    融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従って前記メインメロディピッチ輪郭内のピッチを融合させるステップと、
    前記融合されたピッチと前記対応するノート開始時間とを結合して、前記トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップと
    を含む、請求項12に記載のサーバ。
  14. 前記コンピュータ可読命令が、前記プロセッサによって実行されると、さらに前記プロセッサに、
    認識されるべきハミング特徴データを受信するステップと、
    前記ハミング特徴データと前記歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得するステップと、
    事前設定された類似性しきい値を超える類似性を前記取得された類似性から選別して除去するステップと、
    前記選別された類似性に対応する歌曲識別子を取得するステップと、
    前記取得された歌曲識別子に従ってハミング認識結果を生成するステップと
    を実行させる、請求項8に記載のサーバ。
  15. コンピュータ可読命令を記憶した、1つまたは複数の不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が、1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、
    MIDIファイルを収集するステップと、
    前記MIDIファイルの歌曲識別子を取得し、前記MIDIファイルに従って第1のメロディ情報を生成し、それに応じて、前記第1のメロディ情報および前記歌曲識別子を歌曲メロディデータベース内に記憶するステップと、
    ユーザ端末によってアップロードされたユーザ無伴奏歌唱音声データセットを取得するステップと、
    前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を抽出するステップと、
    それに応じて、前記第2のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
    を実行させる、不揮発性コンピュータ可読記憶媒体。
  16. 前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップの前に、前記コンピュータ可読命令が、さらに前記プロセッサに、以下のユーザ無伴奏歌唱音声データ、すなわち、
    未完成のユーザ無伴奏歌唱音声データ、
    ヘッドセットを装着せずに録音されたユーザ無伴奏歌唱音声データ、および
    雑音または伴奏を含むと決定されたユーザ無伴奏歌唱音声データ
    のうちの少なくとも1つを前記ユーザ無伴奏歌唱音声データセットからフィルタで除去させるステップ
    を実行させる、請求項15に記載の不揮発性コンピュータ可読記憶媒体。
  17. 前記ユーザ無伴奏歌唱音声データセットに従って、前記歌曲識別子に対応する第2のメロディ情報を前記抽出するステップが、
    前記ユーザ無伴奏歌唱音声データセットをトラバースし、トラバースされたユーザ無伴奏歌唱音声データのピッチを抽出するステップと、
    前記抽出されたピッチに対応するノート開始時間を取得するために、前記トラバースされたユーザ無伴奏歌唱音声データに関してノート開始検出を実行するステップと、
    前記ピッチと前記対応するノート開始時間とを結合して、前記トラバースされたユーザ無伴奏歌唱音声データの歌曲識別子に対応する第2のメロディ情報にするステップと
    を含む、請求項15に記載の不揮発性コンピュータ可読記憶媒体。
  18. 前記コンピュータ可読命令が、前記プロセッサによって実行されると、さらに前記プロセッサに、
    前記ユーザ端末に歌曲サービスを提供するために使用される歌曲音声データセットを取得するステップと、
    前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を抽出するステップと、
    それに応じて、前記第3のメロディ情報および前記歌曲識別子を前記歌曲メロディデータベース内に記憶するステップと
    を実行させる、請求項15に記載の不揮発性コンピュータ可読記憶媒体。
  19. 前記歌曲音声データセットに従って、前記歌曲識別子に対応する第3のメロディ情報を前記抽出するステップが、
    トラバースされた歌曲音声データのメインメロディピッチ輪郭を取得するために、前記歌曲音声データセットをトラバースするステップと、
    融合されたピッチと対応するノート開始時間とを取得するために、固定時間長に従って前記メインメロディピッチ輪郭内のピッチを融合させるステップと、
    前記融合されたピッチと前記対応するノート開始時間とを結合して、前記トラバースされた歌曲音声データの歌曲識別子に対応する第3のメロディ情報にするステップと
    を含む、請求項18に記載の不揮発性コンピュータ可読記憶媒体。
  20. 前記コンピュータ可読命令が、前記プロセッサによって実行されると、さらに前記プロセッサに、
    認識されるべきハミング特徴データを受信するステップと、
    前記ハミング特徴データと前記歌曲メロディデータベース内のいくつかのメロディ情報との間の類似性を取得するステップと、
    事前設定された類似性しきい値を超える類似性を前記取得された類似性から選別して除去するステップと、
    前記選別された類似性に対応する歌曲識別子を取得するステップと、
    前記取得された歌曲識別子に従ってハミング認識結果を生成するステップと
    を実行させる、請求項15に記載の不揮発性コンピュータ可読記憶媒体。
JP2018552111A 2016-03-18 2017-02-21 歌曲メロディ情報処理方法、サーバ、および記憶媒体 Active JP6784362B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610158349.7A CN107203571B (zh) 2016-03-18 2016-03-18 歌曲旋律信息处理方法和装置
CN201610158349.7 2016-03-18
PCT/CN2017/074315 WO2017157142A1 (zh) 2016-03-18 2017-02-21 歌曲旋律信息处理方法、服务器和存储介质

Publications (2)

Publication Number Publication Date
JP2019507912A true JP2019507912A (ja) 2019-03-22
JP6784362B2 JP6784362B2 (ja) 2020-11-11

Family

ID=59850580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018552111A Active JP6784362B2 (ja) 2016-03-18 2017-02-21 歌曲メロディ情報処理方法、サーバ、および記憶媒体

Country Status (5)

Country Link
US (1) US11288309B2 (ja)
JP (1) JP6784362B2 (ja)
KR (1) KR102167520B1 (ja)
CN (1) CN107203571B (ja)
WO (1) WO2017157142A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288309B2 (en) 2016-03-18 2022-03-29 Tencent Technology (Shenzhen) Company Limited Method, server, and storage medium for melody information processing

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101942814B1 (ko) * 2017-08-10 2019-01-29 주식회사 쿨잼컴퍼니 사용자 허밍 멜로디 기반 반주 제공 방법 및 이를 위한 장치
CN108711415B (zh) * 2018-06-11 2021-10-08 广州酷狗计算机科技有限公司 纠正伴奏和干音之间的时延的方法、装置及存储介质
CN109785820B (zh) * 2019-03-01 2022-12-27 腾讯音乐娱乐科技(深圳)有限公司 一种处理方法、装置及设备
CN109920449B (zh) * 2019-03-18 2022-03-04 广州市百果园网络科技有限公司 节拍分析方法、音频处理方法及装置、设备、介质
CN110267081B (zh) * 2019-04-02 2021-01-22 北京达佳互联信息技术有限公司 直播流处理方法、装置、系统、电子设备及存储介质
CN112420004A (zh) * 2019-08-22 2021-02-26 北京峰趣互联网信息服务有限公司 生成歌曲的方法、装置、电子设备及计算机可读存储介质
CN112927713B (zh) * 2019-12-06 2024-06-14 腾讯科技(深圳)有限公司 音频特征点的检测方法、装置和计算机存储介质
CN111309962B (zh) * 2020-01-20 2023-05-16 抖音视界有限公司 提取音频片段的方法、装置以及电子设备
CN111223491B (zh) * 2020-01-22 2022-11-15 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备
CN111309959B (zh) * 2020-02-10 2023-08-18 清华大学 歌曲推荐方法和装置
CN111739493B (zh) * 2020-06-23 2023-07-14 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN112596696B (zh) * 2020-12-30 2024-06-21 北京达佳互联信息技术有限公司 歌曲录制方法、装置、终端及存储介质
CN113157968A (zh) * 2021-04-07 2021-07-23 腾讯音乐娱乐科技(深圳)有限公司 获取同旋律音频组方法、终端及存储介质
CN113421589B (zh) * 2021-06-30 2024-03-01 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质
CN113593609B (zh) * 2021-08-03 2024-02-09 杭州网易云音乐科技有限公司 乐曲识别方法、装置、电子设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1155201A (ja) * 1997-07-29 1999-02-26 Sony Corp 情報処理装置および方法、情報処理システム、並びに伝送媒体
JP2001075985A (ja) * 1999-09-03 2001-03-23 Sony Corp 音楽検索装置
JP2002091433A (ja) * 2000-09-19 2002-03-27 Fujitsu Ltd メロディー情報の抽出方法その装置
JP2008516289A (ja) * 2004-10-11 2008-05-15 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声信号の基礎となるメロディを抽出する方法および装置
JP2009015535A (ja) * 2007-07-03 2009-01-22 Nippon Laboatec Kk 類似音楽検索装置、類似音楽検索方法、類似音楽検索プログラム及びコンピュータで読み取り可能な記録媒体
JP2009063854A (ja) * 2007-09-07 2009-03-26 Xing Inc デジタルコンテンツ情報配信システム、デジタルコンテンツ情報配信システムの制御方法、及びデジタルコンテンツ情報配信システムの制御プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879323B2 (ja) * 1999-09-06 2007-02-14 ヤマハ株式会社 電話端末装置
CN1750117A (zh) * 2004-09-16 2006-03-22 乐金电子(惠州)有限公司 伴唱机歌曲搜索系统及其旋律数据库构成方法
CN100373382C (zh) * 2005-09-08 2008-03-05 上海交通大学 基于内容的数字音乐检索旋律特征数据库及生成系统
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
US20080082507A1 (en) * 2006-09-29 2008-04-03 University Of Florida Research Foundation, Inc. System and methods for providing content over a data communications network and compensating content owners and resource providers
JP4404130B2 (ja) * 2007-10-22 2010-01-27 ソニー株式会社 情報処理端末装置、情報処理装置、情報処理方法、プログラム
US7979422B2 (en) * 2008-07-30 2011-07-12 Oracle International Corp. Hybrid optimization strategies in automatic SQL tuning
US9280598B2 (en) * 2010-05-04 2016-03-08 Soundhound, Inc. Systems and methods for sound recognition
CN102522083B (zh) * 2011-11-29 2014-03-05 北京百纳威尔科技有限公司 一种应用移动终端搜索哼唱歌曲的方法及其移动终端
CN103440250A (zh) * 2013-07-22 2013-12-11 北京承芯卓越科技有限公司 基于16位dsp平台应用的嵌入式哼唱检索方法及系统
CN103559232B (zh) * 2013-10-24 2017-01-04 中南大学 一种基于二分逼近动态时间归整匹配的音乐哼唱检索方法
CN107203571B (zh) 2016-03-18 2019-08-06 腾讯科技(深圳)有限公司 歌曲旋律信息处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1155201A (ja) * 1997-07-29 1999-02-26 Sony Corp 情報処理装置および方法、情報処理システム、並びに伝送媒体
JP2001075985A (ja) * 1999-09-03 2001-03-23 Sony Corp 音楽検索装置
JP2002091433A (ja) * 2000-09-19 2002-03-27 Fujitsu Ltd メロディー情報の抽出方法その装置
JP2008516289A (ja) * 2004-10-11 2008-05-15 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声信号の基礎となるメロディを抽出する方法および装置
JP2009015535A (ja) * 2007-07-03 2009-01-22 Nippon Laboatec Kk 類似音楽検索装置、類似音楽検索方法、類似音楽検索プログラム及びコンピュータで読み取り可能な記録媒体
JP2009063854A (ja) * 2007-09-07 2009-03-26 Xing Inc デジタルコンテンツ情報配信システム、デジタルコンテンツ情報配信システムの制御方法、及びデジタルコンテンツ情報配信システムの制御プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288309B2 (en) 2016-03-18 2022-03-29 Tencent Technology (Shenzhen) Company Limited Method, server, and storage medium for melody information processing

Also Published As

Publication number Publication date
WO2017157142A1 (zh) 2017-09-21
US11288309B2 (en) 2022-03-29
JP6784362B2 (ja) 2020-11-11
CN107203571B (zh) 2019-08-06
KR102167520B1 (ko) 2020-10-19
CN107203571A (zh) 2017-09-26
US20180232446A1 (en) 2018-08-16
KR20180088889A (ko) 2018-08-07

Similar Documents

Publication Publication Date Title
JP6784362B2 (ja) 歌曲メロディ情報処理方法、サーバ、および記憶媒体
US11087726B2 (en) Audio matching with semantic audio recognition and report generation
US9640156B2 (en) Audio matching with supplemental semantic audio recognition and report generation
Regnier et al. Singing voice detection in music tracks using direct voice vibrato detection
US10043500B2 (en) Method and apparatus for making music selection based on acoustic features
Mauch et al. Timbre and Melody Features for the Recognition of Vocal Activity and Instrumental Solos in Polyphonic Music.
CN102486920A (zh) 音频事件检测方法和装置
US9892758B2 (en) Audio information processing
Sharma et al. On the Importance of Audio-Source Separation for Singer Identification in Polyphonic Music.
Rajan et al. Music genre classification by fusion of modified group delay and melodic features
Patil et al. Combining evidences from mel cepstral features and cepstral mean subtracted features for singer identification
Rao Audio signal processing
Porter Evaluating musical fingerprinting systems
Waghmare et al. Analyzing acoustics of indian music audio signal using timbre and pitch features for raga identification
Jun et al. Music segmentation and summarization based on self-similarity matrix
KR20200118587A (ko) 음악의 내재적 정보를 이용한 음악 추천 시스템
Bohak et al. Finding Repeating Stanzas in Folk Songs.
Shelke et al. An Effective Feature Calculation For Analysis & Classification of Indian Musical Instruments Using Timbre Measurement
Kumar et al. Melody extraction from polyphonic music using deep neural network: A literature survey
Lagrange et al. Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching
Song et al. The Music Retrieval Method Based on The Audio Feature Analysis Technique with The Real World Polyphonic Music
Xu et al. 5 CONTENT-BASED
Cuesta et al. Audio Melody Extraction
RICHARD Audio Signal Indexing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191017

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200709

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200709

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200717

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200923

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201013

R150 Certificate of patent or registration of utility model

Ref document number: 6784362

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250