JP6290858B2 - 発話の入力オーディオエンコーディングを、対象歌曲にリズム的に調和する出力へと自動変換するための、コンピュータ処理方法、装置、及びコンピュータプログラム製品 - Google Patents

発話の入力オーディオエンコーディングを、対象歌曲にリズム的に調和する出力へと自動変換するための、コンピュータ処理方法、装置、及びコンピュータプログラム製品 Download PDF

Info

Publication number
JP6290858B2
JP6290858B2 JP2015503661A JP2015503661A JP6290858B2 JP 6290858 B2 JP6290858 B2 JP 6290858B2 JP 2015503661 A JP2015503661 A JP 2015503661A JP 2015503661 A JP2015503661 A JP 2015503661A JP 6290858 B2 JP6290858 B2 JP 6290858B2
Authority
JP
Japan
Prior art keywords
segments
processing method
rhythm
computer processing
audio encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015503661A
Other languages
English (en)
Other versions
JP2015515647A (ja
Inventor
コーディア,パラグ
ゴドフリー,マーク
ラエ,アレクサンダー
グプタ,プレーナ
アール. クック,ペリー
アール. クック,ペリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smule Inc
Original Assignee
Smule Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smule Inc filed Critical Smule Inc
Publication of JP2015515647A publication Critical patent/JP2015515647A/ja
Application granted granted Critical
Publication of JP6290858B2 publication Critical patent/JP6290858B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Description

本発明は、概して、発語(発話)の自動処理用のデジタル信号処理を含むコンピュータ処理技術に関し、より詳細には、システムもしくはデバイスが、発語(発話)の入力音声(オーディオ)エンコーディングを、演奏(可聴的な提供)用の拍子もしくはリズムを有する曲(歌曲)、ラップ、もしくは他の表現様式の出力エンコーディングへと自動変換するようにプログラムされうる技術に関する。
携帯電話および他のハンドヘルドコンピュートデバイスのインストールベースは、圧倒的な数で、かつコンピュータ処理力で日々進化している。世界中の人々のライフスタイルにおいて、ユビキタス、かつ深く確立されると、インストールベースは、ほぼあらゆる文化的および経済的バリアを超越する。コンピュータ処理的には、今日の携帯電話は、10年に満たない以前のデスクトップコンピュータに匹敵する速度および記憶性能を提供し、視聴覚信号の変換に基づくリアルタイム音合成および他のデジタル信号処理用に驚くほど適したものにしている。
実際には、Androidオペレーティングシステムを実行する競合デバイスと同様に、Apple Inc.から市販されているiPhone(登録商標)、iPod Touch(登録商標)およびiPad(登録商標)デジタルデバイスなどのiOS(登録商標)デバイスを含む近年の携帯電話およびハンドヘルドコンピュートデバイスは、全て、音声およびビデオ再生ならびに処理を、極めて良好にサポートする傾向がある。(リアルタイムデジタル信号処理用に適したプロセッサ、メモリおよびI/O機能、ハードウェアおよびソフトウェアCODEC、オーディオビジュアルAPIなどを含む)これらの性能は、敏感なアプリケーションおよび開発者エコシステムに寄与してきた。音楽アプリケーション領域における実施例は、Smule,Inc.によって市販され、取り込まれたボーカルのリアルタイムの連続的ピッチ(音の調子)補正を提供する、普及用I Am T−PainおよびGlee Karaokeソーシャル音楽アプリ、ならびに、ユーザのボーカルに伴奏する音楽を自動的に作曲する、Khush,Inc.によるLaDiDaリバースカラオケアプリを含む。
取り込まれたボーカルは、魅力的アプリケーションを提供し、単なる初心者のユーザミュージシャンが音楽的演奏を作成し、演奏し、ならびに共有する特定目的デバイスさえも提供する先進的デジタル信号処理技術を利用して自動変換されてもよいことが発見された。幾つかの場合においては、自動変換は、発されたボーカルを、分割し、配列し、対象リズム、拍子、もしくは伴奏するバッキングトラックと時間的に整列し、ならびにスコアもしくは音色シーケンスに従ってピッチ補正することを可能とする。発語−曲(発語から曲への)音楽アプリケーションは、当該一実施例である。幾つかの場合においては、発されたボーカルは、しばしばピッチ補正なしで、自動化された分割および時間的整列技術を利用して、ラップなどの音楽様式に従って変換されてもよい。異なる信号処理および異なる自動変換を使用しうる当該アプリケーションは、それに関わらず、当該主題における発語−ラップ変形例として理解されてもよい。
発語−曲および発語−ラップアプリケーション(もしくは、玩具もしくはアミューズメント市場などに対する特定目的デバイス)においては、取り込まれたボーカルの自動変換は、典型的には、変換されたボーカルが演奏用に最終的にミキシングされるバッキングトラックの音楽的特徴(例えば、リズム、拍子、リピート/反復構成)によって、具体化される。一方、音楽的バッキングトラックとのミキシングは、本発明の技術の多くの実現において典型的であるが、幾つかの場合においては、取り込まれたボーカルの自動変換は、音楽的伴奏なしで、対象リズムもしくは拍子(詩、弱強格の周期、リメリックなど)と時間的に整列する印象的な演奏を提供するために適応されてもよい。これらのおよび他の変形例は、以下の請求項を参照し、本開示にアクセスする当業者によって理解されるであろう。
本発明に従う幾つかの実施形態においては、コンピュータ処理方法は、対象曲(対象歌曲)とリズム的に調和する出力へと、発語(発話)の入力音声(オーディオ)エンコーディングを変換するために実現される。本方法は、(i)発語の入力音声エンコーディングを複数のセグメントへと分割することであって、セグメントは音声エンコーディングの連続的シーケンスに対応し、かつ、その中で識別される開始(出だし、立ち上がり)によって境界を定められる、ことと、(ii)対象曲用のフレーズテンプレートの其々のサブフレーズ部分へと複数のセグメントのうちの個々のセグメントをマッピングすることであって、マッピングは一つ以上のフレーズ候補を確立する、ことと、(iii)対象曲用のリズムスケルトンと、フレーズ候補のうちの少なくとも一つを時間的に整列させることと、(iv)入力音声エンコーディングのうちの開始によって境界を定められるセグメントからマッピングされた、時間的に整列したフレーズ候補に対応して、結果として生じる発語の音声エンコーディングを準備することと、を含む。
幾つかの実施形態においては、本方法は、対象曲用のバッキングトラックの音声エンコーディングと、結果として生じる音声エンコーディングをミキシングすることと、ミキシングされた音声を演奏することと、をさらに含む。幾つかの実施形態においては、本方法は、入力音声エンコーディングとして、(例えば、ポータブルハンドヘルドデバイスのマイクロフォン入力から)そのユーザによって発された発語を取り込むことと、フレーズテンプレートおよびリズムスケルトンのうちの少なくとも一つのコンピュータ可読エンコーディングを(例えば、ユーザによる対象曲の選択に応じて)検索することと、をさらに含む。幾つかの場合においては、ユーザの選択に応じて検索することは、ポータブルハンドヘルドデバイスの通信インターフェイスを介して、遠隔記憶装置から、少なくともフレーズテンプレートを獲得することを含む。
幾つかの場合においては、分割することは、発語の音声エンコーディングに対してスペクトル差タイプ(SDFタイプ)関数を適用することと、発語エンコーディング内の開始候補として、その結果において時間的に指数付けされたピークを選び取ることと、開始候補の相対強度に少なくとも部分的に基づいて、セグメントへと発語エンコーディングの隣接する開始候補によって境界を定められたサブ部分をまとめることと、を含む。幾つかの場合においては、SDFタイプ関数は、発語エンコーディング用にパワースペクトルの心理音響に基づいた表現に対して動作する。幾つかの場合においては、まとめることは、最小セグメント長閾値に少なくとも部分的に基づいて、実施される。幾つかの場合においては、本方法は、対象範囲内のセグメントの総数を達成するために、まとめることを繰り返すことを含む。
幾つかの場合においては、マッピングすることは、セグメントのうちの隣接するセグメントのグルーピングに基づいて、発語エンコーディングの開始によって境界を定められた、N個の分割の組を計数することを含む。ここで、Nは、フレーズテンプレートのサブフレーズ部分の数に対応する。マッピングすることは、各分割に対して、サブフレーズ部分へと発語エンコーディングセグメントグルーピングの対応するマッピングを構成することをも含み、マッピングは、複数のフレーズ候補を提供する。
幾つかの場合においては、マッピングすることは、複数のフレーズ候補を提供し、時間的に整列させることは、複数のフレーズ候補の各々に対して実施され、対象曲用のリズムスケルトンとのリズム整列の程度に基づいて、複数のフレーズ候補間から選択することをさらに含む。
幾つかの場合においては、リズムスケルトンは、対象曲のテンポをエンコードするパルス列に対応する。幾つかの場合においては、対象曲は複数の構成リズムを含み、パルス列エンコーディングは、構成リズムの相対強度に従ってスケール変更される其々のパルスを含む。
幾つかの実施形態においては、本方法は、リズムスケルトンを作成するために、対象曲のバッキングトラック用のビート(拍子)検出を実施することをさらに含む。幾つかの実施形態においては、本方法は、対象曲用の音色シーケンスに従って、結果として生じる音声エンコーディングをピッチシフトすることをさらに含む。幾つかの場合においては、ピッチシフトすることは、声門パルスの相互合成を使用する。
幾つかの実施形態においては、本方法は、音色シーケンスのコンピュータ可読エンコーディングを検索することをさらに含む。幾つかの場合においては、検索することは、ポータブルハンドヘルドデバイスのユーザインターフェイスにおけるユーザ選択に応じたものであり、ポータブルハンドヘルドデバイスの通信インターフェイスを介して、遠隔記憶装置から、少なくとも対象曲用のフレーズテンプレートおよび音色シーケンスを得る。
幾つかの実施形態においては、本方法は、発語エンコーディング内の開始の境界を定める時間的に隣接するセグメントへと、対象曲用の音色の開始をマッピングすることと、マッピングされた音色開始に対応する発語エンコーディングの其々の部分に対して、マッピングされた音色の期間を満たすために、其々の部分を時間的に延伸もしくは圧縮することと、をさらに含む。幾つかの実施形態においては、本方法は、スペクトルロールオフに少なくとも部分的に基づいて、発語エンコーディングのフレームを特徴づけることをさらに含み、高周波数成分の概してより大きいロールオフは、有声母音を示し、対応するフレームに対して、特徴づけられた母音の示すスペクトルロールオフに基づいて、発語エンコーディングの其々の部分に適用された時間的延伸の大きさを動的に変化させる。幾つかの場合においては、動的に変化させることは、対象曲用の旋律の密度ベクトルおよび発語エンコーディング用のスペクトルロールオフベクトルの合成を利用する。
幾つかの実施形態においては、本方法は、コンピュートパッド、パーソナルデジタルアシスタントもしくはブックリーダおよび携帯電話もしくはメディアプレイヤーの群から選択されたポータブルコンピューティングデバイス上で実施される。幾つかの実施形態においては、本方法は、特定目的、玩具もしくはアミューズメントデバイスを利用して実施される。幾つかの実施形態においては、コンピュータプログラム製品は、一つ以上の媒体において、本方法をポータブルコンピューティングデバイスに実施させるために、ポータブルコンピューティングデバイスのプロセッサ上で実行可能な命令をエンコードする。幾つかの場合においては、一つ以上の媒体は、ポータブルコンピューティングデバイスによって読み取り可能か、または、ポータブルコンピューティングデバイスに伝送するコンピュータプログラム製品に付随して読みとり可能である。
本発明に従う幾つかの実施形態においては、装置は、ポータブルコンピューティングデバイスと、対象曲にリズム的に調和する出力へと、発語の入力音声エンコーディングを変換するために、ポータブルコンピューティングデバイス上で実行可能、かつ非一時的媒体において具現化されたマシン可読コードと、を含み、マシン可読コードは、複数のセグメントへと発語の入力音声エンコーディングを分割するように実行可能な命令を含み、セグメントは、音声エンコーディングのサンプルの連続的シーケンスに対応し、かつその中に識別された開始によって境界を定められる。マシン可読コードは、対象曲用のフレーズテンプレートの其々のサブフレーズ部分に、複数のセグメントのうちの個々のセグメントをマッピングするようにさらに実行可能であって、マッピングは、一つ以上のフレーズ候補を確立する。マシン可読コードは、対象曲用のリズムスケルトンと、フレーズ候補のうちの少なくとも一つを時間的に整列させるようにさらに実行可能である。マシン可読コードは、入力音声エンコーディングの開始によって境界を定められるセグメントからマッピングされた時間的に整列したフレーズ候補に対応して、結果として生じる発語の音声エンコーディングを準備するようにさらに実行可能である。幾つかの場合においては、装置は、コンピュートパッド、ハンドヘルドモバイルデバイス、携帯電話、パーソナルデジタルアシスタント、スマートフォン、メディアプレイヤーおよびブックリーダのうちの一つ以上として具現化される。
本発明に従う幾つかの実施形態においては、コンピュータプログラム製品は、非一時的媒体にエンコードされ、対象曲とリズム的に調和する出力へと、発語の入力音声エンコーディングを変換するように実行可能な命令を含む。コンピュータプログラム製品は、複数のセグメントへと発語の入力音声エンコーディングを分割するように実行可能な命令をエンコードして含み、セグメントは、その中に識別された開始によって境界を定められる音声エンコーディングのサンプルの連続的シーケンスに対応する。コンピュータプログラム製品は、対象曲用のフレーズテンプレートの其々のサブフレーズ部分へと、複数のセグメントのうちの個々のセグメントをマッピングするように実行可能な命令をさらにエンコードして含み、マッピングは、一つ以上のフレーズ候補を確立する。コンピュータプログラム製品は、対象曲用のリズムスケルトンと、少なくとも一つのフレーズ候補を時間的に整列させるように実行可能な命令をさらにエンコードして含む。コンピュータプログラム製品は、入力音声エンコーディングの開始によって境界を定められたセグメントからマッピングされ、時間的に整列したフレーズ候補に対応して、結果として生じる発語の音声エンコーディングを準備するように実行可能である命令をさらにエンコードして含む。幾つかの場合においては、媒体は、ポータブルコンピューティングデバイスによって読み取り可能であるか、または、ポータブルコンピューティングデバイスに伝送するコンピュータプログラム製品に付随して読みとり可能である。
本発明に従う幾つかの実施形態においては、コンピュータ処理方法は、対象曲とリズム的に調和する出力へと、発語の入力音声エンコーディングを変換するために提供される。本方法は、(i)複数のセグメントへと発語の入力音声エンコーディングを分割することであって、セグメントは、音声エンコーディングのサンプルの連続的シーケンスに対応し、かつその中に識別された開始によって境界を定められる、分割することと、(ii)対象曲用のリズムスケルトンの其々の連続的パルスと、セグメントのうちの連続的、時間順セグメントを時間的に整列させることと、(iii)時間的に整列したセグメントのうちの少なくとも幾つかを時間的に延伸すること、ならびに時間的に整列したセグメントのうちの少なくとも他の幾つかを時間的に圧縮することであって、時間的な延伸および圧縮は、リズムスケルトンの連続的パルスの其々のパルス間の利用可能な時間的スペースを実質的に満たし、時間的延伸および圧縮は、実質的に時間的に整列したセグメントをピッチシフトすることなく、実施される、時間的に延伸および圧縮することと、(iv)入力音声エンコーディングの時間的に整列、延伸および圧縮されたセグメントに対応して、結果として生じる発語の音声エンコーディングを準備することと、を含む。
幾つかの実施形態においては、本方法は、対象曲用のバッキングトラックの音声エンコーディングと、結果として生じる音声エンコーディングをミキシングすることと、ミキシングされた音声を演奏することと、をさらに含む。幾つかの実施形態においては、本方法は、入力音声エンコーディングとして、そのユーザによって発された発語を(例えば、ポータブルハンドヘルドデバイスのマイクロフォン入力から)取り込むことをさらに含む。幾つかの実施形態においては、本方法は、対象曲用のリズムスケルトンおよびバッキングトラックのうちの少なくとも一つのコンピュータ可読エンコーディングを(例えば、ユーザによる対象曲の選択に応じて)検索することをさらに含む。幾つかの場合においては、ユーザの選択に応じて検索することは、ポータブルハンドヘルドデバイスの通信インターフェイスを介して、遠隔記憶装置から、リズムスケルトンおよびバッキングトラックのうちのいずれかもしくはその双方を得ることを含む。
幾つかの実施形態においては、分割することは、発語の音声エンコーディングへと、帯域制限された(もしくは帯域加重された)スペクトル差タイプ(SDFタイプ)関数を適用することと、発語エンコーディング内の開始候補として、その結果において時間的に指数付けされたピークを選び取ることと、開始候補の相対強度に少なくとも部分的に基づいて、セグメントへと発語エンコーディングの隣接する開始候補によって境界を定められたサブ部分をまとめることと、を含む。幾つかの場合においては、帯域制限された(もしくは帯域加重された)SDFタイプ関数は、発語エンコーディング用のパワースペクトルの心理音響に基づいた表現に対して動作し、帯域制限(もしくは加重)は、約2000Hz未満のパワースペクトルのサブ帯域を強調する。幾つかの場合においては、強調されたサブ帯域は、約700Hzから約1500Hzである。幾つかの場合においては、まとめることは、最小セグメント長閾値に少なくとも部分的に基づいて、実施される。
幾つかの場合においては、リズムスケルトンは対象曲のテンポをエンコードするパルス列に対応する。幾つかの場合においては、対象曲は、複数の構成リズムを含み、パルス列エンコーディングは、構成リズムの相対強度に従ってスケール変更される其々のパルスを含む。
幾つかの実施形態においては、本方法は、リズムスケルトンを作成するために、対象曲のバッキングトラック用のビート検出を実施することを含む。幾つかの実施形態においては、本方法は、位相ボコーダを利用して、実質的にピッチシフトすることなく、延伸および圧縮を実施することを含む。幾つかの場合においては、延伸および圧縮することは、リズムスケルトンの連続的パルス間で満たされる時間的スペースへと、セグメント長の其々の比率に従って、時間的に整列したセグメントの其々に対して変化する割合で、リアルタイムに実施される。
幾つかの実施形態においては、本方法は、リズムスケルトンの連続的パルスのうちのそれぞれパルス間の利用可能な時間的スペースを実質的に満たすために、発語エンコーディングの時間的に整列したセグメントのうちの少なくとも幾つかに対して、静寂で満たすことを含む。幾つかの実施形態においては、本方法は、リズムスケルトンへと連続的に順序づけられたセグメントの複数の候補マッピングの各々に対して、連続的に順序づけられたセグメントの其々のセグメントに対して適用された時間的延伸および圧縮比率の統計学的分布を評価することと、其々の統計学的分布に少なくとも部分的に基づいて、候補マッピング間から選択することと、を含む。
幾つかの実施形態においては、本方法は、複数候補の各々に対して、リズムスケルトンへと、連続的に順序づけられたセグメントをマッピングすることを含み、候補マッピングは異なる開始点を有し、時間的延伸および圧縮の大きさを特定の候補マッピングに対して計算することと、其々の計算された大きさに少なくとも部分的に基づいて、候補マッピング間から選択することと、を含む。幾つかの場合においては、其々の大きさは延伸および圧縮比率の幾何平均として計算され、選択は、計算された幾何平均を実質的に最小化する候補マッピングのものである。
幾つかの場合においては、本方法は、コンピュートパッド、パーソナルデジタルアシスタントもしくはブックリーダおよび携帯電話もしくはメディアプレイヤーの群から選択されるポータブルコンピューティングデバイス上で実施される。幾つかの場合においては、本方法は、特定目的、玩具もしくはアミューズメントデバイスを利用して実施される。幾つかの場合においては、コンピュータプログラム製品は、一つ以上の媒体にエンコードされ、本方法をポータブルコンピューティングデバイスに実施させるために、ポータブルコンピューティングデバイスのプロセッサ上で実行可能な命令を含む。幾つかの場合においては、一つ以上の媒体は、ポータブルコンピューティングデバイスによって読み取り可能か、またはポータブルコンピューティングデバイスに伝送するコンピュータプログラム製品に付随して読みとり可能である。
本発明に従う幾つかの実施形態においては、装置は、ポータブルコンピューティングデバイスと、音声エンコーディングのサンプルの開始によって境界を定められた連続的シーケンスを含むセグメントへと、発語の入力音声エンコーディングを分割するようにポータブルコンピューティングデバイス上で実行可能な、非一時的媒体において具現化されたマシン可読コードと、を含む。マシン可読コードは、対象曲用のリズムスケルトンの其々の連続的パルスと、連続的、時間順セグメントのうちの一つを時間的に整列させるようにさらに実行可能である。マシン可読コードは、時間的に整列したセグメントのうちの少なくとも幾つかを時間的に延伸し、かつ、時間的に整列したセグメントのうちの少なくとも他の幾つかを時間的に圧縮するようにさらに実行可能であって、時間的延伸および圧縮は、実質的に時間的に整列したセグメントをピッチシフトすることなく、リズムスケルトンの連続的パルスの其々のパルス間の利用可能な時間的スペースを実質的に満たす。マシン可読コードは、入力音声エンコーディングの時間的に整列、延伸および圧縮されたセグメントに対応して、結果として生じる発語の音声エンコーディングを準備するようにさらに実行可能である。幾つかの場合においては、装置は、コンピュートパッド、ハンドヘルドモバイルデバイス、携帯電話、パーソナルデジタルアシスタント、スマートフォン、メディアプレイヤーおよびブックリーダの一つ以上として具現化される。
本発明に従う幾つかの実施形態においては、コンピュータプログラム製品は、非一時的媒体にエンコードされ、対象曲とリズム的に調和する出力へと、発語の入力音声エンコーディングを変換するようにコンピュータシステム上で実行可能な命令を含む。コンピュータプログラム製品は、音声エンコーディングからのサンプルの開始によって境界を定められた連続的シーケンスに対応する複数のセグメントへと、発語の入力音声エンコーディングを分割するように実行可能な命令をエンコードして含む。コンピュータプログラム製品は、対象曲用のリズムスケルトンの其々の連続的パルスと、セグメントのうちの連続的、時間順のセグメントを時間的に整列させるように実行可能な命令をさらにエンコードして含む。コンピュータプログラム製品は、時間的に整列したセグメントのうちの少なくとも幾つかを時間的に延伸し、かつ、時間的に整列したセグメントのうちの他の少なくとも幾つかを時間的に圧縮するように実行可能な命令をさらにエンコードして含み、時間的な延伸および圧縮は、時間的に整列したセグメントを実質的にピッチシフトすることなく、リズムスケルトンの連続的パルスの其々のパルス間の利用可能な時間的スペースを実質的に満たす。コンピュータプログラム製品は、入力音声エンコーディングの時間的に整列、延伸および圧縮されたセグメントに対応して、結果として生じる発語の音声エンコーディングを準備するように実行可能な命令をさらにエンコードして含む。幾つかの場合においては、媒体は、ポータブルコンピューティングデバイスによって読み取り可能であるか、または、ポータブルコンピューティングデバイスへと伝送するコンピュータプログラム製品に付随して読み取り可能である。
これらのおよび他の実施形態は、それらに対する多数の変形例とともに、以下の記述、請求項および図面に基づいて、当業者によって理解されるであろう。
本発明は、より理解され、その多数の対象、特徴および利点は、添付の図面を参照することによって当業者にとって明らかとなる可能性がある。
演奏用の拍子もしくはリズムを有する曲、ラップもしくは他の表現様式へと、サンプルされた音声信号を自動変換するために、(複数の)本発明の幾つかの実施形態に従ってプログラムされた例示的なハンドヘルドコンピュートプラットフォームのマイクロフォン入力に近接して話すユーザの可視描画である。 (複数の)本発明の幾つかの実施形態に従って、サンプルされた音声信号の自動変換の準備用に、発語型ボーカルを取り込むためにソフトウェアを実行するプログラムされた(図1に示されるような)ハンドヘルドコンピュートプラットフォームのスクリーンショット画像である。 (複数の)本発明の例示的なハンドヘルドコンピュートプラットフォーム実施形態におけるか、それと接続される機能ブロック間のデータフローを示す機能ブロック図である。 (複数の)本発明の幾つかの実施形態に従って、例示的な方法における一連のステップを示すフローチャートである。それによって、取り込まれた発語音声エンコーディングは、自動的に、バッキングトラックを有する演奏用の拍子もしくはリズムを有する出力曲、ラップもしくは他の表現様式へと自動変換される。 (複数の)本発明の幾つかの実施形態に従って音声信号が分割される例示的な一方法における一連のステップを、スペクトル差関数の適用の結果として生じる信号におけるピークの図示およびフローチャートによって、示す。 (複数の)本発明の幾つかの発語−曲対象実施形態に従って、分割された音声信号がフレーズテンプレートへとマッピングされ、結果として生じるフレーズ候補がリズムアラインメント用に評価される、例示的な一方法における一連のステップを、フローチャートおよびテンプレートに対するサブフレーズマッピングおよび分割の図示によって示す。 本発明の幾つかの実施形態に従って、発語−曲(songification)アプリケーションにおける信号処理機能フローを図示する。 リズムスケルトンもしくはグリッドに対応して、整列、延伸および/もしくは圧縮されたピッチシフトされたバージョンの音声信号の合成用に、本発明に従う幾つかの実施形態において使用されうる声門パルスモデルを図示する。 例示的な一方法における一連のステップを、フローチャートならびに分割および整列の図示によって示し、それによって、開始はリズムスケルトンもしくはグリッドへと整列し、分割された音声信号のうちの対応するセグメントは、(複数の)本発明の幾つかの発語−ラップ対象実施形態に従って延伸、および/もしくは圧縮される。 発語−音楽および/もしくは発語−ラップ対象実装が、遠隔データ記憶装置もしくはサービスプラットフォームおよび/もしくは(複数の)本発明の幾つかの実施形態に従って変換された音声信号の演奏に適した遠隔デバイスと通信する、ネットワーク化された通信環境を示す。 (複数の)本発明の幾つかの実施形態に従う、例示的な玩具もしくはアミューズメントタイプデバイスを示す。 (複数の)本発明の幾つかの実施形態に従う、例示的な玩具もしくはアミューズメントタイプデバイスを示す。 図11および図12で示された(例えば、玩具もしくはアミューズメントデバイス市場用の)デバイスタイプ用に適したデータの機能ブロック図および他のフローであり、本明細書で記述される自動変換技術は、音声取り込み用マイクロフォン、プログラムされたマイクロコントローラ、デジタルアナログ回路(DAC)、アナログデジタル変換器(ADC)回路および任意の一体型スピーカもしくは音声信号出力を有する特定目的デバイスにおいて低コストで提供されてもよい。
異なる図面における同一の参照番号の利用は、類似もしくは同一の品目を示す。
発明の詳細な説明
本明細書で記述されるように、取り込まれたユーザのボーカルの自動変換は、iOSおよびAndoroidベースの携帯電話、メディアデバイスおよびタブレット以来、ユビキタスとなったハンドヘルドコンピュートプラットフォーム上でさえ、実行可能な魅力的なアプリケーションを提供することがある。自動変換は、玩具、ゲームもしくはアミューズメントデバイス市場などの特定目的デバイスにおいても実現されてもよい。
本明細書で記述される先進的デジタル信号処理技術は、単に初心者のユーザミュージシャンが音楽的演奏を作成し、演奏(可聴的に提供)し、ならびに共有する実現を可能とする。幾つかの場合においては、自動変換は、発されたボーカルを、分割、配列そして、対象リズム、拍子もしくは伴奏するバッキングトラックと時間的に整列、ならびにスコアもしくは音色シーケンスに従ってピッチ補正することを可能とする。発語(発話)−曲(歌曲)音楽的実装は、そのような一実施例であって、以下に例示的なsongification(歌曲化)用途が記述される。幾つかの場合においては、発されたボーカルは、しばしば、ピッチ補正することなく、自動分割および時間的整列技術を利用して、ラップなどの音楽様式に従って変換されてもよい。当該用途は、異なる信号処理および異なる自動変換を使用するが、それでもなお、当該主題における発語−ラップ変形例として理解されてもよい。例示的な自動ラップアプリケーションを提供するための適応もまた、本明細書で記述される。
具体性のために、処理およびデバイス性能、用語、APIフレームワーク、特定の実現環境に典型的なフォームファクタ、即ち、Apple,Inc.によって普及したiOSデバイス空間が、仮定される。任意の当該実施例もしくはフレームワークへの記述の依存性に関わらず、本開示にアクセスする当業者は、他のコンピュートプラットフォームおよび他の具体的物理的実装用の配置および適切な適応を理解するであろう。
[発語から音楽への自動変換(“Songification”)]
図1は、演奏用の拍子もしくはリズムを有する曲、ラップもしくは他の表現様式へとサンプルされた音声信号を自動変換するために、(複数の)本発明の幾つかの実施形態に従ってプログラムされる、例示的なハンドヘルドコンピュートプラットフォーム101のマイクロフォン入力に近接して話すユーザの図である。図2は、サンプルされた音声信号の自動変換の準備で(例えば、マイクロフォン入力314から)発語型音声を取り込むために、アプリケーションソフトウェア(例えば、Songifyアプリケーション350)を実行するプログラムされたハンドヘルドコンピュートプラットフォーム101の例示的なキャプチャスクリーン画像である。
図3は、(複数の)本発明の例示的なiOSタイプハンドヘルド301コンピュートプラットフォーム実施形態の、もしくはそれと接続される機能ブロック間でのデータフローを示す機能ブロック図であって、Songifyアプリケーション350は、マイクロフォン314(もしくは類似のインターフェイス)を利用して取り込まれたボーカルの自動変換を実行し、(例えば、スピーカ312もしくは結合されたヘッドフォンを介して)演奏される。特定の音楽対象用のデータセット(例えば、バッキングトラック、フレーズテンプレート、予め計算されたリズムスケルトン、任意のスコアおよび/もしくは音色シーケンス)は、遠隔コンテンツサーバ310もしくは他のサービスプラットフォームからローカルストレージ361へと(例えば、需要に応じて供給されるか、ソフトウェア配布もしくはアップデートの一部として)ダウンロードされてもよい。
コンピュートプラットフォーム上のメモリもしくは不揮発性ストレージに表され、取り込まれたボーカル由来の音声信号エンコーディングで動作するための種々の示された機能ブロック(例えば、音声信号分割371、フレーズマッピングへのセグメント372、セグメントの時間的整列および延伸/圧縮373、ピッチ補正374)は、本明細書で詳細に記述される信号処理技術を参照して、理解されるであろう。図4は、例示的な一方法における一連のステップ(401、402、403、404、405、406および407)を示すフローチャートであって、それによって、取り込まれた発語音声エンコーディング(例えば、マイクロフォン314から取り込まれる、図3を再度参照)は、バッキングトラックを有する演奏用の拍子もしくはリズムを有する出力の曲、ラップもしくは他の表現様式へと自動変換される。つまり、図4は、以下を含むフロー(例えば、例示的なiOSタイプのハンドヘルド301コンピュートプラットフォーム上で実行するSongifyアプリケーション350に関連して図示されたような機能的もしくは計算ブロックを通して、図3を再度参照)を要約する。
・ 音声信号として発語を取り込みもしくは記録する(401)
・ 取り込まれた音声信号中の開始もしくは開始候補の検出(402)
・ 音声信号セグメントの境界を定める分割境界を生成する(403)ために、開始、もしくは開始候補ピークもしくは他の最大値から選びとる
・ (例えば、分割計算の一部として決定された候補フレーズとして)対象曲のフレーズテンプレートもしくは他のスケルトン構造のうちの順序づけられたサブフレーズへと、個々のセグメントもしくはセグメント群をマッピングする(404)
・ 音色開始を有する音声開始を整列させために、かつ、(幾つかの場合においては)対象曲の旋律スコアに基づいて、音色期間を満たすために、対象曲および(適切な場合には)延伸/圧縮用のリズムスケルトンもしくは他のアクセントパターン/構造に対する候補フレーズのリズム整列を評価する(405)
・ 取り込まれた(今フレーズマッピングされ、リズム的に整列した)ボーカルが対象曲の特徴(例えば、リズム、拍子、リピート/反復構成)によって具体化されるボコーダもしくは他のフィルタ再合成タイプ音質スタンピング技術を利用する(406)
・ 対象曲用のバッキングトラックを有する、結果として生じる時間的に整列し、フレーズマッピングされ、かつ音質スタンピングされた音声信号を最終的にミキシングする(407)
これらおよび他の態様は、以下により詳細に記述され、図5−図8を参照して、示される。
[発語分割]
詩を旋律へとのせるときに、音楽的な構造を強めるために、或るフレーズが繰り返される場合がしばしばある。我々の発語分割アルゴリズムは、フレーズを繰り返すかさもなければ再配列されるように、発語入力中の語およびフレーズ間の境界を判定することを試みる。単語は、典型的には静寂によって分離されないため、単純な静寂検出は、実践的な方法として、多くの用途においては不十分である可能性がある。取り込まれた発語音声信号の分割用の例示的な技術は、図5および以下の記述を参照して理解されるであろう。
[ソーン表現]
発語は、44100Hzのサンプルレートを利用して、発語エンコーディング501として典型的にデジタル化される。パワースペクトルは、スペクトログラムから計算される。各フレームに対して、FFTは、1024のサイズのHannウインドウを利用して(50%の重複で)行われる。これは、マトリクスを返し、行は周波数ビンを表し、列はタイムステップを表す。人の音量知覚を考慮に入れるために、パワースペクトルは、ソーンベース表現へと変換される。幾つかの実装においては、このプロセスの最初のステップは、一組の臨界帯域フィルタもしくはバーク帯域フィルタ511を含み、それらは、内耳に存在する聴覚フィルタをモデル化したものである。フィルタ幅および応答は、周波数によって変化し、線形周波数スケールを対数スケールへと変換する。さらには、結果として生じるソーン表現502は、モデル化スペクトルマスキングと同様に、外耳のフィルタ特性を考慮に入れる。このプロセスの終わりに、新規マトリクスは、臨界帯域に対応する行および時間ステップに対応する列を有して返される。
[開始検出]
分割に対する或るアプローチは、開始を検出することを含む。ピアノを打つなどの新規のイベントは、種々の周波数帯域における突然のエネルギー増大につながる。このことは、ローカルピークとして、波形の時間ドメイン表現においてしばしばみられる。開始検出用の或る種の技術は、スペクトル差関数(SDF)を計算すること(512)を含む。スペクトログラムを与えられると、SDFは、第一の差であり、隣接する時間ステップにおいて各周波数ビンに対して、振幅の差を合計することによって計算される。例えば、以下の様になる。
ここで、ソーン表現に類似の手順を適用すると、或る種のSDF513を得る。示されたSDF513は、一次元関数であって、開始候補を示すピークを有する。図5は、例示的な音声処理パイプラインにおけるSDF計算512に先行し、それに続く信号処理ステップとともに、サンプリングされた音声由来の音声信号エンコーディングからの例示的なSDF計算512を示す。
我々は、続いて、SDF(513)から選びとられうるローカル最大値(もしくは、ピーク513.1、513.2、513.3...513.99)の時間的な位置である、開始候補503を定義する。これらの位置は、開始の可能性のある時刻を示す。さらに、我々は、最大値において中心におかれた小ウインドウ上の関数の中央値から、ローカル最大値におけるSDF曲線のレベルを差し引くことによって決定された開始強度の尺度を返す。閾値を下回る開始強度を有する開始は、典型的には捨てられる。ピーク採取514は、一連の閾値を上回る強度の開始候補503を生成する。
我々は、二つの隣接する開始間の大量の音声であるセグメント(例えば、セグメント515.1)を定義する。幾つかの場合においては、上述された開始検出アルゴリズムは、非常に小さいセグメント(例えば、典型的な単語の期間よりも非常に小さい)につながる多くの誤検知につながる可能性がある。当該セグメントの数を減少させるために、或るセグメント(例えば、セグメント515.2を参照)は、まとめアルゴリズムを利用して、マージされる(515.2)。第一に、我々は、閾値(ここでは、0.372秒閾値で開始する)よりも短いセグメントが存在するか否かを判定する。もし存在する場合には、それらは時間的に先行するか後に続くセグメントとマージされる。幾つかの場合においては、マージの方向は、隣接する開始の強度に基づいて決定される。
結果は、その後のステップで使用される発語エンコーディング(501)の分割されたバージョンを定義するセグメント(504)を生成するために、短い隣接するセグメントのまとめおよび強い開始候補に基づくセグメントである。発語−曲実施形態の場合(図6参照)においては、その後のステップは、フレーズ候補を構成するためのセグメントマッピングおよび対象曲用のパターンもしくはリズムスケルトンへのフレーズ候補のリズムアラインメントを含んでもよい。発語−ラップ実施形態の場合(図9参照)においては、その後のステップは、グリッドもしくはリズムスケルトンの対応する部分へと満たすために、対象曲用のグリッドもしくはリズムスケルトンに対する、セグメントの境界を定める開始の整列と、特定の整列したセグメントの延伸/圧縮と、を含んでもよい。
[発語−曲実施形態用のフレーズ構成]
図6は、より大きい計算フローのフレーズ構成態様を、さらに詳細に(例えば、図3のコンピュートプラットフォーム上で実行するアプリケーションに関連して示され前述されたような機能的もしくは計算ブロックを通して、図4に要約されたように)示す。図6の図は、或る例示的な発語−曲実施形態に関連する。
前述されたフレーズ構成ステップのある目的は、より大きいフレーズを形成するために、ことによると繰り返しを伴って、セグメント(例えば、図5に関連して示されて上述された技術に従って生成されうるようなセグメント504)を組み合わせることによってフレーズを生成することである。プロセスは、我々がフレーズテンプレートと称するものによって誘導される。フレーズテンプレートは、フレーズ構成を示すシンボル体系をエンコードして、音楽構成を表すための典型的方法に従う。例えば、フレーズテンプレート{AABBCC}は、全体フレーズが3つのサブフレーズで構成され、各サブフレーズが二度繰り返されることを示す。本明細書で記述されるフレーズ構成アルゴリズムの目的は、サブフレーズに対するセグメントをマッピングすることである。開始候補503およびセグメント504に基づいて取り込まれた発語音声信号の一つ以上の候補サブフレーズ分割を計算した(612)後で、可能性のあるサブフレーズ分割(例えば、分割612.1、612.2...612.3)は、対象曲用のフレーズテンプレート601の構造へとマッピングされる(613)。特定のフレーズテンプレートへのサブフレーズ(もしくは、実際には候補サブフレーズ)のマッピングに基づいて、フレーズ候補613.1は生成される。図6は、例示的なプロセスフローのサブシーケンスに関連して、このプロセスを図面によって示す。概して、多数のフレーズ候補が、さらなる処理用の特定のフレーズマッピングされた音声エンコーディングを選択するために準備されて、評価されてもよい。幾つかの実施形態においては、結果として生じるフレーズマッピング(もしくは複数のマッピング)の品質は、本明細書の他所で詳細に記述されるように、曲(もしくは他のリズム対象)の基本的な拍子とのリズムアラインメントの程度に基づいて評価される(614)。
技術の幾つかの実現においては、セグメント数が多数のサブフレーズよりも大きくなることを必要とすることが有用である。サブフレーズへのセグメントのマッピングは、分割問題として構成することができる。対象フレーズにおけるサブフレーズ数をmとする。そのとき、我々は、正確な数のフレーズへと発声を分割するために、m−1の分配先を必要とする。我々のプロセスにおいては、我々は、開始位置においてのみ分割を許容する。例えば、図6においては、我々は、検出された開始(613.1、613.2...613.9)を有し、かつ、フレーズテンプレート601{AABBCC}によってエンコードされた対象フレーズ構造に関連して評価される発声を示す。隣接する開始は、図6に示されるように、3つのサブフレーズA、BおよびCを生成するために組み合わせられる。m個の部分とn個の開始を有する全ての可能性のある分割の組は、
である。計算された分割のうちの一つ、即ちサブフレーズ分割613.2は、フレーズテンプレート601に基づいて選択された特定のフレーズ候補613.1の基礎を形成する。
幾つかの実施形態においては、ユーザは、異なる対象曲、演奏、演奏家、スタイルなどに対する、フレーズテンプレートのライブラリから選択および再選択してもよいことに留意されたい。幾つかの実施形態においては、フレーズテンプレートは、売買され、利用可能にされ、または、アプリ購入収益モデルの一部に従って需要に応じて供給され(もしくは計算され)てもよいし、または、ゲーム、教育の一部として獲得、公表、交換され、および/もしくはソーシャルタイプのユーザインタラクションによってサポートされてもよい。
可能性のあるフレーズ数がセグメント数と組み合わせ的に増加するため、幾つかの実践的実装においては、我々は、総セグメントを最大20に制限する。無論、より一般的かつ任意の与えられた用途に対して、検索スペースは、使用可能な処理リソースおよびストレージに従って、増減してもよい。開始検出アルゴリズムの第一過程後にセグメント数がこの最大値よりも大きい場合、プロセスはセグメントのまとめ用のより高い最小期間を利用して繰り返される。例えば、元の最小セグメント長が0.372秒だった場合、これは0.5秒へと増加して、より少数のセグメントへつながる。最小閾値の増加プロセスは、対象セグメント数が所望の量よりも小さくなるまで続く。一方、セグメント数がサブフレーズ数よりも小さい場合には、2以上のサブフレーズへと同一のセグメントをマッピングすることなく、サブフレーズへとセグメントをマッピングすることは通常不可能である。これを矯正するために、開始検出アルゴリズムは、幾つかの実施形態においては、より低いセグメント長閾値を利用して再評価され、典型的には、より多数のセグメントへとまとめられたより少数の開始を生じる。したがって、幾つかの実施形態においては、我々は、セグメント数が任意のフレーズテンプレートに存在するサブフレーズの最大数を超えるまで、長さ閾値を減少し続ける。我々は、満たすべき最小サブフレーズ長を有し、これは、より短いセグメントとの分割を可能とするために必要とされる場合には低下する。
本明細書の記述に基づいて、当業者は、計算プロセスのより後の段階からより早い段階へと情報をフィードバックする多数の機会を認識する。プロセスフローの前方向における本明細書の記述的焦点は、記述の簡便性および連続性のためのものであって、限定することを意図するものではない。
[リズムアラインメント]
上述された各可能性のある分割は、現在考えられるフレーズテンプレートに対する候補フレーズを表す。要約すると、我々は、一つ以上のセグメントをサブフレーズへと排他的にマッピングする。その後、全体フレーズは、フレーズテンプレートに従って、サブフレーズを組み立てることによって生成される。次の段階においては、我々は、バッキングトラックのリズム構造に対して、最も近くに整列させることができる候補フレーズを見つけることを望む。これによって、我々は、フレーズがビート上にあるように聞こえることを望む。これは、しばしば、発語内の確かなアクセントを、ビートもしくは他の韻律的に重要な位置と整列させるようにすることによって達成することができる。
このリズムアラインメントを提供するために、我々は、図6に示されるようなリズムスケルトン(RS)603を導入する。リズムスケルトンは、特定のバッキングトラック用の基礎となるアクセントパターンを与える。幾つかの場合もしくは実施形態においては、リズムスケルトン603は、バッキングトラックにおけるビート位置における一組の単位インパルスを含む可能性がある。概して、当該リズムスケルトンは、任意のバッキングトラック用にもしくは任意のバッキングトラックと併せて予め計算されるか、ダウンロードされるか、必要に応じて計算されてもよい。テンポが既知の場合には、当該インパルス列を構成することは、概して容易である。しかしながら、幾つかのトラックにおいては、さらなるリズム情報(例えば、旋律のうち第一および第三ビートは、第二および第四ビートよりもよりアクセントを付けるなどの事実)を追加することが望ましいことがある。これは、インパルスの高さが各ビートの相対的強度を表すように、インパルスをスケール変更することによって行うことができる。概して、任意の複雑なリズムスケルトンを利用することができる。均等に間隔の開けられた一連のデルタ関数で構成されるインパルス列は、その後、連続的曲線を生成するために、小さいHann(例えば、5点)ウインドウで畳み込まれる。
我々は、ソーン表現を利用して計算されたスペクトル差関数(SDF)とRSの相互相関をとることによって、リズムスケルトンとフレーズ間の、リズムアラインメント(RA)の程度を測定する。SDFは開始に対応する信号における突然の変化を表すことを想起されたい。音楽情報検索文献においては、我々は、開始検出アルゴリズムの基礎となるこの連続的曲線を検出関数として称する。検出関数は、音声信号のうちのアクセントもしくは中間レベルイベント構造を表すための効率的方法である。相互相関関数は、RSおよびSDF間の点別乗算と和算を実施して、SDFバッファ内の異なる開始位置を仮定することによって、種々の遅延に対する対応程度を測定する。このようにして、各遅延に対して、相互相関はスコアを返す。相互相関関数のピークは、最大アラインメントを有する遅延を示す。ピークの高さは、この一致のスコアとして考えられ、その位置は、数秒の遅延を与える。
アラインメントスコアAは、以下の式によって与えられる。
このプロセスは、全フレーズに対して繰り返されて、最高スコアを有するフレーズが利用される。遅延は、遅延がその点から開始するようにフレーズを回転するために利用される。これは、循環的に行われる。全てのフレーズテンプレートもしくは与えられたフレーズテンプレートのみによって生成されるフレーズ中から、最良の一致を見つけることができることは注意する価値があることである。我々は、全フレーズテンプレートにわたって最適化するために選択を行い、より良好なリズム一致を与え、かつ、種々のフレーズ構造に対する自然な導入をする。
分割マッピングがサブフレーズの繰り返しを必要とするとき、(フレーズテンプレート{AABC}によって特定されるようなリズムパターンなど)、繰り返されるサブフレーズは、繰り返しが次のビートで生じるように満たされるときに、よりリズム的に聞こえることが見出された。同様に、結果として生じる全体の分割されたフレーズは、バッキングトラックで繰り返す前に、拍子の長さへと満たされる。
したがって、フレーズ構造(613)およびリズムアラインメント(614)手順の終わりで、我々は、バッキングトラックへと整列した元の発声のセグメントから構成される完全なフレーズを有する。バッキングトラックもしくはボーカル入力が変化する場合、プロセスは再実行される。これは、例示的な“songification”プロセスの第一部分を完結する。これから記述する第二部分は、発語を旋律へと変換する。
所望の旋律ラインにおける音色の開始と、声の開始をさらに同期するために、我々は、旋律長に一致するために声セグメントを延伸する手順を利用する。旋律内の各音色に対して、任意の時間ウインドウ内にある間の音色開始に最も近い時間に生じるセグメント開始(上述された我々の分割手順によって計算された)は、この音色開始へとマッピングされる。音色は、(典型的には網羅的に、かつ、典型的には、ほぼランダムな順序で、バイアスを除去し、再生中に延伸するうえで変動性を導入するために)可能性のある一致セグメントを有する全ての音色がマッピングされるまで、繰り返される。音色−セグメントマッピングは、それがマッピングされる音色を満たすように、適切な量の分だけ各セグメントを延伸するシーケンサへと、その後、与えられる。各セグメントは近傍にある音色へとマッピングされるため、全発語に対する累積延伸ファクタは、多かれ少なかれ1であるべきであり、しかしながら、包括的延伸量が望まれる(例えば、2ずつ結果の発語を遅くする)場合には、これは、旋律の高速バージョンへとセグメントをマッピングすることによって達成される。出力延伸量は、その後、旋律の元の速度に一致するようにスケール変更され、結果として、速度ファクタの逆数によって延伸する全体傾向を生じる。
アラインメントおよび音色−セグメント延伸プロセスは、声の開始を旋律の音色へと同期するが、バッキングトラックの音楽的構造は、音色の長さを満たすために、音節を延伸することによってさらに強調することができる。明瞭性を失うことなくこれを達成するために、我々は、発語内の母音を延伸するための動的時間延伸を利用し、一方で、子音はそのまま残す。子音は通常、その高い周波数成分によって特徴づけられるため、我々は、母音と子音の間を区別する特徴として、全体のエネルギーのうちの95%までスペクトルロールオフを利用する。スペクトルロールオフは以下の様に定義される。|X[k]|をk番目のフーリエ係数の大きさであるとすると、95%の閾値用のロールオフは、
と定義され、ここで、NはFFTの長さである。概して、より大きいk_rollフーリエビン指数がより高い周波数エネルギーの増大と調和し、ノイズもしくは無声子音の指示である。同様に、より低いk_rollフーリエビン指数は、時間延伸もしくは圧縮に適した有声音(例えば母音)を示す傾向がある。
声セグメントのスペクトルロールオフは、1024サンプルの各分析フレームに対して50%の重複で計算される。これに沿って、関連付けられた旋律(MIDIシンボル)の旋律密度は、移動ウインドウ上で計算され、旋律全体にわたって正規化されて、滑らかな曲線を与えるために、その後、補間される。スペクトルロールオフおよび正規化された旋律密度の内積は、マトリクスを提供し、その後、これは、関連付けられた最小コストを有するマトリクスを通して経路を見つける、標準の動的プログラミング問題への入力として扱われる。マトリクス内の各ステップは、マトリクスを通してとられる経路を調整するために微調整できる、対応するコストに関連付けられる。この手順は、旋律内の対応する音色を満たすために、セグメント内の各フレーム用に必要とされる延伸量を引き起こす。
[発語から旋律への変換]
発語の基本周波数もしくはピッチは連続的に変化するが、概して、音楽的旋律の様に聞こえることはない。典型的には、音楽的旋律の様に聞こえるには、変化はあまりにも小さく、速く、もしくは頻繁ではない。ピッチ変化は、音生成方法および話し手の感情状態を含む種々の理由のために生じ、フレーズ終了もしくは質問および音調言語の固有部分を示す。
幾つかの実施形態においては、発語セグメントの音声エンコーディング(上述されたように、リズムスケルトンもしくはグリッドへと整列/延伸/圧縮される)は、音色シーケンスもしくは旋律スコアに従ってピッチ補正される。前述されたように、音色シーケンスもしくは旋律スコアは、バッキングトラック用もしくはバッキングトラックに関連して、予め計算されたり、ダウンロードされてもよい。
幾つかの実施形態に対して、実装された発語−旋律(S2M)変換の望ましい特質は、発語が音楽的旋律の様に明瞭に聞こえつつ、明確に理解できるままであることである。当業者は、使用されることがある種々の可能性のある技術を理解するが、我々のアプローチは、声の周期励起をエミュレートする、声門パルスと話し手の声との相互合成に基づく。これは、声の音色の特徴を保持する明確に整えられた信号につながり、発語内容を広範囲の状況で明瞭に理解することを可能とする。図7は、旋律スコア701(例えば、バッキングトラック用もしくはバッキングトラックに関連してローカルストレージから読み出されるか、ダウンロードされるか、必要に応じて供給されるなど)が声門パルスの相互合成(702)に対する入力として使用される、幾つかの実施形態における、信号処理フローのブロック図を示す。対象スペクトルが入力ボーカルのFFT704によって提供される一方で、相互合成のソース励起は、(707からの)声門信号である。
入力発語703は、44.1kHzでサンプリングされ、そのスペクトログラムは、75サンプルによって重複される1024サンプルのHannウインドウ(23ms)を利用して計算される(704)。声門パルス(705)は、図8に示されるRosenbergモデルに基づいていた。それは、以下の式に従って生成され、かつ、開始前(0−t)、開始−ピーク(t−t)およびピーク−終了(t−T)に対応する3つの領域で構成される。これは、以下の式によって要約される。
Rosenberg声門パルスのパラメータは、相対的開放期間(t−t/T)および相対的閉鎖期間((T−t)/T)を含む。これらの割合を変化させることによって、音色の特徴を変化させることができる。これに加えて、基本的形状は、パルスにより自然な品質を与えるために改変された。より詳細には、数学的に定義された形状は、手によって(即ち、描画プログラムでマウスを利用して)描かれ、わずかな不規則性につながる。“汚れた”波形は、その後、マウス座標の量子化によって導入される突然の不連続性を除去するために、20ポイント有限インパルス応答(FIR)フィルタを利用して、低域フィルタ処理された。
上記の声門パルスのピッチは、Tによって与えられる。我々の場合には、我々は、異なるピッチ用に同一の声門パルス形状を柔軟に利用することができることを望み、かつ、これを連続的に制御できることを望む。これは、所望のピッチに従って声門パルスを再サンプリングすることによって達成され、それによって、波形内でホップすべき量を変化させる。線形補間は、各ホップで声門パルスの値を決定するために使用された。
声門波形のスペクトログラムは、75%重複された1024サンプルのHannウインドウを利用して獲得された。周期的声門パルス波形と発語との間の相互合成(702)は、発語の各フレームの振幅スペクトル(707)を、声門パルスの複素スペクトルによって乗算すること(706)によって達成され、声門パルススペクトルに従って、複素振幅の大きさを有効に再度スケール変更する。幾つかの場合もしくは実施形態においては、直接強度スペクトルを利用するのではなく、各バーク帯域内のエネルギーがスペクトルを予め強調した(スペクトルホワイトニング)後で利用される。この方法においては、声門パルススペクトルの調和構造は、発語のフォルマント構造が刻まれる間に乱されることはない。我々は、これが音楽的変換に対する発語用の有効な技術であることを見出した。
上記のアプローチで生じるある問題点は、本質的に騒々しい、幾つかの子音音素などの無声音が、上記のアプローチによって適切にモデル化されないことである。これは、発語内にそれらが存在するときに“鳴り響く音(ringing sound)”につながり、パーカッションの質の欠如につながる。これらの音節を適切に保持するために、我々は、制御された量のハイパスホワイトノイズ(708)を導入する。無声音は広帯域スペクトルを有する傾向があり、スペクトルロールオフが、再度、指示的音響特性として利用される。つまり、高周波数成分の顕著なロールオフによって特徴づけられないフレームは、ハイパスホワイトノイズの多少の補償的追加用の候補である。導入されるノイズの量は、広帯域スペクトルを有するが、上述された声門パルス技術を利用してでは適切にモデル化されない無声音が、この指示的音声特性によって制御されるハイパスホワイトノイズの量とミキシングされるように、フレームのスペクトルロールオフによって制御される。我々は、これがより明瞭かつ自然な出力につながることを見出した。
[概略的曲構成]
上述された発語−音楽songificationプロセスの幾つかの実現は、声門パルスのピッチを決定するピッチ制御信号を使用する。理解されるように、制御信号は任意の数の方法で生成することができる。例えば、制御信号はランダムに生成されてもよいし、または、統計的モデルに従って生成されてもよい。幾つかの場合もしくは実施形態においては、ピッチ制御信号(例えば、711)は、記号的記譜法もしくは曲唱を利用して作曲された旋律(701)に基づく。前者の場合には、対象ピッチ値のベクトルで構成される音声レート制御信号を生成するために、MIDIなどの記号的記譜法がPythonスクリプトを利用して処理される。曲唱された旋律の場合には、ピッチ検出アルゴリズムは、制御信号を生成するために使用することができる。ピッチ推定の細分化の程度に依存して、音声レート制御信号を生成するために、線形補間が利用される。
曲を作成するうえでのさらなるステップは、デジタル音声ファイルの形式であるバッキングトラックと、整列して合成変換された発語(出力710)とをミキシングすることである。上述されたように、最終的な旋律がどれくらいの長さになるか予め知られていないことに留意されたい。リズム整列ステップは、短いもしくは長いパターンを選択してもよい。これを処理するために、バッキングトラックは、典型的に、より長いパターンを適応させるために継ぎ目なくループできるように作曲される。最終的旋律がループよりも短い場合、とられる動作はなく、ボーカルのない曲の一部が存在する。
[他の様式と調和する出力用の変形例]
我々は、ここで、“ラップ”(即ち、ビートに対してリズム的に整列した発語)に発語を変換するためにより適したさらなる方法を記述する。我々は、この手順を“オートラップ(AutoRap)”と称し、当業者は、本明細書の記述に基づいて広範囲の実現を理解するであろう。より詳細には、より大きなコンピュータ処理フロー(例えば、図4に要約されたように、図3のコンピュートプラットフォーム上で実行するアプリケーションに関連して以前図示され、記述されたような機能的もしくはコンピュータ処理ブロックを通して)の態様は、適用可能なままである。しかしながら、前述されたものに対するある適応、分割および整列技術は、発語−ラップ実施形態に対して適切である。図9の図面は、ある例示的な発語−ラップ実施形態に関連する。
以前のように、分割(ここでは、分割911)は、バーク帯域表現に基づいて、スペクトル差関数を利用して計算される検出関数を使用する。しかしながら、ここで、我々は、検出関数を計算するときに、約700Hzから1500Hzのサブバンドを強調する。帯域制限されるか、もしくは強調されたDFは、音節核(知覚的に発語におけるストレス点である)に対してより近く対応することが見出される。
より具体的には、中間帯域制限が良好な検出性能を提供するが、より良好な検出性能は、中間帯域を加重し、強調された中間帯域外のスペクトルを考慮することによって幾つかの場合においては達成できることが見出された。これは、広周波帯域特性によって特徴づけられるパーカッションの開始が、中間帯域を利用して主に検出される母音の開始に加えて取り込まれるためである。幾つかの実施形態においては、所望の加重は、中間帯域に対して、各バークバンドにおける電力のログを取って、10で乗算することに基づき、他の帯域に対してログもしくは再スケール変更を適用しない。
スペクトル差が計算されるとき、このアプローチは、値の範囲がより大きいため、中間帯域に対してより大きい比重を与える傾向がある。しかしながら、スペクトル距離関数における距離を計算するとき、L標準が0.25の値で利用されるため、より大きい振幅の差が、一つもしくは幾つかの帯域で観察されるような場合に、多帯域にわたって生じる微小な変化は大きな変化として登録する。ユークリッド距離が使用される場合、この効果は観察されない。無論、他の中間帯域強調技術が、他の実施形態においては利用されてもよい。
上述された中間帯域強調は別として、検出関数計算は、発語−曲実装用に上述されたスペクトル差(SDF)技術に類似する(図5および図6ならびに添付の記述を再考)。前述のように、ローカルピーク取得は、スケール変更された中間閾値を利用して、SDF上で実施される。スケールファクタは、ピークを考慮するために、ピークがローカル中央値をどの程度超えなければならないかを制御する。ピーク取得後、前述のように、SDFがまとめ関数に対して渡される。再度図9を参照すると、上述されたように、最小セグメント長よりも小さいセグメントがない場合、まとめは停止し、連続的セグメントへと分割された元の音声発語を残す(ここでは、904)。
続いて、リズムパターン(例えば、リズムスケルトンもしくはグリッド903)は、定義、生成、または検索される。幾つかの実施形態においては、ユーザは異なる対象ラップ、演奏、演奏者、様式などに対して、リズムスケルトンのライブラリから選択ならびに再選択してもよいことに留意されたい。フレーズテンプレートと同様に、リズムスケルトンもしくはグリッドは、売買され、利用可能にされ、または、アプリ購入収益モデルの一部に従って需要に応じて供給され(もしくは計算され)てもよいし、または、ゲーム、教育の一部として獲得、公表、交換され、および/もしくはソーシャルタイプのユーザインタラクションによってサポートされてもよい。
幾つかの実施形態においては、リズムパターンは特定の時間位置における一連のインパルスとして表される。例えば、これは、単に、均等間隔のインパルスのグリッドであり、パルス間の幅は、現在の曲のテンポに関連する。曲が120BPMのテンポを有する場合には、ビート間は.5秒であり、パルス間は、典型的には、これの整数分数(例えば、.5および.25など)である。音楽的用語においては、これは、各四分音符もしくは各八分音符などのインパルスに等価である。より複雑なパターンも定義することができる。例えば、我々は、2つの四分音符後の4つの八分音符の繰り返しパターンを特定し、4ビートパターンを作成する。120BPMのテンポにおいては、パルスは、以下の時間位置(秒)に存在する。つまり、0.5、1.5、1.75、2.0、2.25、3.0、3.5、4.0、4.25、4.5、4.75秒である。
分割(911)およびグリッド構成後、アラインメントが実施される(912)。図9は、図6のフレーズテンプレート駆動技術とは異なるアラインメントプロセスを示し、それは、その代わりに発語−ラップ実施形態用に適合される。図9を参照すると、各セグメントは、リズムパルスに対応する順序で動かされる。我々がセグメントS1、S2、S3...S5およびパルスP1、P2、P3...S5を有する場合、セグメントS1は、パルスP1の位置へと動かされ、S2はP2に動かされる。概して、セグメント長は、連続的パルス間の距離に一致しない。これを扱うために使用する二つの手順が存在する。
(1)セグメントは、連続的パルス間の空間に適合するために、(より短い場合には)時間延伸されるか、(より長い場合には)時間圧縮される。プロセスは、図9に図示される。我々は、位相ボコーダ913の利用に基づく時間延伸および圧縮用の技術を以下に記述する。
(2)セグメントがより短い場合には、無音で満たされる。第一の手順はより頻繁に利用されるが、セグメントが適合するためにその後の延伸を必要とする場合には、後者の手順は時には、延伸のアーティファクト(影響)を回避するために利用される。
二つのさらなる方策が過度の延伸もしくは圧縮を最小化するために使用される。第一に、S1からのマッピングを開始するのみではなく、我々は、各可能性のあるセグメントから開始して、終了が到達するときに完了する全てのマッピングを考える。したがって、我々がS5で開始する場合、マッピングは、パルスP1に対してセグメントS5、P2に対してS6などである。各開始点に対して、我々は、延伸/圧縮の総量を測定し、それをリズム歪みと呼ぶ。幾つかの実施形態においては、リズム歪みスコアは、1より小さい延伸比の逆数として計算される。この手順は、各リズムパターンに対して繰り返される。リズムパターン(例えば、リズムスケルトンもしくはグリッド903)およびリズム歪みスコアを最小化する開始点は、最良のマッピングになるために取得され、合成用に利用される。
幾つかの場合もしくは実施形態においては、より良好に動作することがしばしば見出される別のリズム歪みスコアが、スピードスコアの分布における異常値の数を計数することによって計算された。つまり、データは、十分位数に分割され、スピードスコアが下部および上部十分位数にあるセグメント数は、スコアを与えるために追加された。より高いスコアは、より多くの異常値を示し、それによって、より大きい程度のリズム歪みを示す。
第二に、位相ボコーダ913は、可変速度で延伸/圧縮するために利用される。これは、リアルタイム、即ち、ソース音声全体にアクセスすることなく行われる。時間延伸および圧縮は、必然的に、結果として、異なる長さの入力および出力を生じ、これは、延伸/圧縮の程度を制御するために利用される。幾つかの場合もしくは実施形態においては、位相ボコーダ913は、4回の重複で動作し、蓄積FIFOバッファへとその出力を追加する。出力が要求されると、データはこのバッファからコピーされる。このバッファの有効部分の終わりが到達すると、コアルーチンは、現在のタイムステップでデータの次のホップを生成する。各ホップに対して、新規入力データはコールバックによって検索され、初期化の間に提供され、ある数の音声サンプルを提供することによって、外部対象が時間延伸/圧縮の量を制御することを可能とする。一タイムステップ用の出力を計算するために、以前のタイムステップからの複素出力に沿って、nfft/4によってオフセットされた1024長さ(nfft)の二つの重複ウインドウが比較される。入力信号全体が利用可能ではないリアルタイム環境においてこれを可能とするために、位相ボコーダ913は、入力信号のFIFOバッファを長さ5/4nfftで維持し、それによって、これらの二つの重複ウインドウは任意の時間ステップにおいて利用可能である。直近のデータを有するウインドウは、“フロント”ウインドウと称され、他の(“バック”)ウインドウは、デルタ位相を得るために利用される。
第一に、以前の複素出力は、その強度によって正規化され、位相成分を表す単位強度複素数のベクトルを得る。その後、FFTがフロントおよびバックウインドウの双方でとられる。正規化された以前の出力は、バックウインドウの複素共役によって乗算され、結果として、バックウインドウの強度を有する複素ベクトルが生じ、位相はバックウインドウと以前の出力との間の相違に等しい。
我々は、所定の周波数ビンの各複素振幅をその直近の平均で置換することによって、隣接する周波数ビン間の位相コヒーレンスを保持することを試みる。隣接するビンにおける低レベルノイズを有し、あるビンにおいて明確な正弦曲線が存在する場合、その強度は、近傍よりも大きく、その位相は、真の正弦曲線の位相によって置換される。我々は、これが顕著に再合成品質を改善することを見出した。
結果として生じるベクトルは、その後その強度によって正規化される。ゼロ強度ビンでさえ単位強度へと正規化することを保証するために、微小なオフセットは、正規化の前に加えられる。このベクトルは、フロントウインドウのフーリエ変換で乗算される。結果として生じるベクトルは、フロントウインドウの強度を有するが、位相は、フロントおよびバックウインドウ間の相違と以前の出力の位相との和である。入力がコールバックによって提供される同一の速度で、出力が要求される場合、これは、位相コヒーレンスステップが排除されるときに、再構成と同等である。
[具体的配置もしくは実装]
図10は、発語−音楽および/もしくは発語−ラップ対象実装(例えば、ハンドヘルドコンピュートプラットフォーム1001上で実行可能で、かつ本明細書で記述された信号処理技術の計算的実現を具現化するアプリケーション)が(例えば、マイクロフォン入力1012を介して)発語を取り込み、データ記憶装置もしくはサービスプラットフォーム(例えば、サーバ/サービス1005もしくはネットワーククラウド1004内)と、および/もしくは遠隔デバイス(例えば、さらなる発語−音楽および/もしくは発語−ラップアプリケーションインスタンスおよび/もしくはコンピュータ1006をホストするハンドヘルドコンピュートプラットフォーム1002)と通信し、(複数の)本発明の幾つかの実施形態に従って変換される音声信号の演奏用に適した、ネットワーク化された通信環境を示す。
(複数の)本発明に従う幾つかの実施形態は、玩具もしくはアミューズメント市場など特定目的のデバイスの形式をとるか、および/もしくは、特定目的デバイスとして提供される可能性がある。図11および図12は、当該特定目的のデバイス用例示的構成を示し、図13は、玩具もしくはデバイス1350の内部電子機器で実現/使用するために適したデータおよび他のフローの機能的ブロック図を示し、自動変換技術が本明細書で記述される。プログラマブルハンドヘルドコンピュートプラットフォームと比較すると、(例えば、iOSもしくはAndroidデバイスタイプの実施形態)、玩具もしくはデバイス1350用の内部電子機器の実装は、音声取り込み用のマイクロフォン、プログラムされたマイクロコントローラ、デジタルアナログ回路(DAC)、アナログデジタル変換器(ADC)回路および任意の一体型スピーカもしくは音声信号出力を有する特定目的のデバイスにおいて比較的低コストで提供されてもよい。
[他の実施形態]
(複数の)本発明は、種々の実施形態に関連して記述されているが、これらの実施形態は例示的なものであって、(複数の)本発明の範囲は、それらに限定されることはないことを理解されたい。多くの変形、改変、追加および改善が可能である。例えば、ボーカル発語が取り込まれ、自動変換され、バッキングトラックとのミキシング用に整列する実施形態が記述されてきたが、本明細書で記述された取り込まれたボーカルの自動変換は、音楽的伴奏なしで、対象リズムもしくは拍子(詩、弱強格の周期、リメリックなどの特性)と時間的に整列する印象的演奏を提供するために使用されてもよいことを理解されたい。
さらには、ある例示的信号処理技術が、ある例示的な用途の文脈で記述されてきたが、当業者は、他の適切な信号処理技術および効果を適応させるために、記述された技術を改変することは容易であることを認識するであろう。
(複数の)本発明に従う幾つかの実施形態は、本明細書で記述された方法を実施するためにコンピュータシステム(iPhoneハンドヘルド、モバイルデバイスもしくはポータブル計算デバイスなど)内で次々に実行されうる、非一時的媒体内に実体的に具現化されたソフトウェアの命令シーケンスおよび他の機能的構成としてマシン可読媒体にエンコードされたコンピュータプログラム製品の形式をとるか、および/もしくは、コンピュータプログラム製品として提供されてもよい。概して、マシン可読媒体は、情報の伝送に対して付随する有形、非一時的ストレージと同様に、マシン(例えば、コンピュータ、モバイルデバイスもしくはポータブル計算デバイスの計算ファシリティなど)によって読み取り可能な形式(アプリケーション、ソースもしくはオブジェクトコード、機能記述的情報など)で情報をエンコードする有形態様を含むことができる。マシン可読媒体は、磁気記憶媒体(例えば、ディスクおよび/もしくはテープ記憶装置)、光学記憶媒体(例えば、CD−ROM、DVDなど)、光磁気記憶媒体、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、消去可能なプログラマブルメモリ(例えば、EPROMおよびEEPROM)、フラッシュメモリもしくは電子的命令、動作シーケンス、機能記述的情報エンコーディングなどを格納するのに適した他のタイプの媒体を含むが、それに限定されることはない。
概して、単一の実施例として本明細書で記述されたコンポーネント、動作もしくは構造用に、複数の実施例が提供されてもよい。種々のコンポーネント、動作およびデータ記憶装置の間の境界は、任意のものであって、特定の動作は、特定の例示的構成の文脈で示される。機能の他の割り当てが想定され、(複数の)本発明の範囲内にある。概して、例示的構成において個別のコンポーネントとして提示された構造および機能は、組み合わせられた構造もしくはコンポーネントとして実現されてもよい。同様に、単一のコンポーネントとして提示された構造および機能は、個別のコンポーネントとして実現されてもよい。これらのおよび他の変形、改変、追加および改善は、(複数の)本発明の範囲内にある可能性がある。

Claims (23)

  1. 発話の入力オーディオエンコーディングを、対象歌曲にリズム的に調和する出力へと変換するためのコンピュータ処理方法であって、
    前記発話の前記入力オーディオエンコーディングを複数のセグメントへと分割することであって、前記複数のセグメントは、前記入力オーディオエンコーディングの複数のサンプルの連続したシーケンスに対応し、かつ、前記サンプルの中で識別される複数の出だしによって境界が定められる、ことと、
    前記複数のセグメントのうちの連続して時間順に並んだセグメントを、前記対象歌曲用のリズムスケルトンの其々の連続したパルスと時間的に整列させることと、
    前記時間的に整列した複数のセグメントのうちの少なくとも幾つかを時間的に延伸し、かつ、前記時間的に整列した複数のセグメントのうちの少なくとも他の幾つかを時間的に圧縮することであって、前記時間的に延伸および圧縮することは、前記リズムスケルトンの前記連続したパルスのうちの其々のパルス間の利用可能な時間的スペースを実質的に満たし、前記時間的に延伸および圧縮することは、前記時間的に整列した複数のセグメントを実質的にピッチシフトすることなく実施される、ことと、
    前記入力オーディオエンコーディングの、前記時間的に整列し且つ延伸および圧縮された複数のセグメントに対応して、結果として生じる前記発話のオーディオエンコーディングを準備することと、
    を含む、ことを特徴とするコンピュータ処理方法。
  2. 前記結果として生じるオーディオエンコーディングを、前記対象歌曲用のバッキングトラックのオーディオエンコーディングとミキシングすることと、
    前記ミキシングされたオーディオを可聴的に提供することと、
    をさらに含む、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  3. ポータブルハンドヘルドデバイスのマイクロフォン入力から、前記入力オーディオエンコーディングとして、前記ポータブルハンドヘルドデバイスのユーザによって発声された発話を取り込むことをさらに含む、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  4. ーザによる前記対象歌曲の選択に応じて、前記対象歌曲用の前記リズムスケルトンおよびバッキングトラックのうちの少なくとも一方のコンピュータ可読エンコーディングを検索することをさらに含む、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  5. 前記ユーザの選択に応じて前記検索することは、ポータブルハンドヘルドデバイスの通信インターフェイスを介して、遠隔記憶装置から、前記リズムスケルトンおよび前記バッキングトラックのいずれかもしくはその双方を獲得することを含む、
    ことを特徴とする請求項4に記載のコンピュータ処理方法。
  6. 前記分割することは、
    帯域制限されたもしくは帯域加重されたスペクトル差タイプ(SDFタイプ)関数を、前記発話の前記オーディオエンコーディングに適用し、かつ、その結果における時間的に指数付けされた複数のピークを、前記発話の前記オーディオエンコーディング内の複数の出だし候補として選び取ることと、
    前記複数の出だし候補の相対的強度に少なくとも部分的に基づいて、前記オーディオエンコーディングの隣接する出だし候補によって境界を定められた複数のサブ部分を、複数のセグメントへとまとめることと、
    を含む、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  7. 前記帯域制限されたもしくは帯域加重されたSDFタイプ関数は、前記オーディオエンコーディング用のパワースペクトルの心理音響に基づいた表現に対して動作し、
    前記帯域制限もしくは帯域加重は、約2000Hz未満の前記パワースペクトルのサブ帯域を強調する、ことを特徴とする請求項6に記載のコンピュータ処理方法。
  8. 前記強調されたサブ帯域は、約700Hzから約1500Hzの間である、ことを特徴とする請求項7に記載のコンピュータ処理方法。
  9. 前記まとめることは、最小セグメント長閾値に少なくとも部分的に基づいて実施される、ことを特徴とする請求項6に記載のコンピュータ処理方法。
  10. 前記リズムスケルトンは、前記対象歌曲のテンポのパルス列エンコーディングに対応する、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  11. 前記対象歌曲は、複数の構成リズムを含み、
    前記パルス列エンコーディングは、前記構成リズムの複数の相対的強度に従ってスケール変更された其々のパルスを含む、ことを特徴とする請求項10に記載のコンピュータ処理方法。
  12. 前記リズムスケルトンを作成するために、前記対象歌曲のバッキングトラック用のビート検出を実施することをさらに含む、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  13. 位相ボコーダを利用して、実質的にピッチシフトすることなく、前記延伸および圧縮を実施することをさらに含む、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  14. 前記延伸および圧縮は、前記時間的に整列した複数のセグメントの其々に対し、前記リズムスケルトンの複数の連続したパルス間が満たされる時間的スペースに対するセグメント長の其々の比に従って変化する割合で、リアルタイムに実施される、ことを特徴とする請求項13に記載のコンピュータ処理方法。
  15. 前記オーディオエンコーディングの前記時間的に整列した複数のセグメントのうちの少なくとも幾つかに対して、前記リズムスケルトンの複数の前記連続したパルスのうちの其々のパルス間の利用可能な時間的スペースを実質的に満たすために、無音を挿入することをさらに含む、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  16. 前記連続して順に並んだ複数のセグメントの、前記リズムスケルトンへの複数の候補マッピングの各々に対して、前記連続して順に並んだ複数のセグメントのうちのそれぞれ一つに適用された時間的な延伸および圧縮の比率の統計学的分布を評価することと、
    前記複数の其々の統計学的分布に少なくとも部分的に基づいて、前記複数の候補マッピングの間から選択することと、
    をさらに含む、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  17. 前記連続して順に並んだ複数のセグメントの、前記リズムスケルトンへの複数の候補マッピングであって、複数の異なる開始点を有する前記複数の候補マッピングの各々について、特定の前記候補マッピングに対して前記時間的な延伸および圧縮の大きさを計算することと、
    前記其々の計算された大きさに少なくとも部分的に基づいて、前記複数の候補マッピングの中から選択することと、
    をさらに含む、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  18. 前記其々の大きさは、前記延伸および圧縮の比率の幾何平均として計算され、
    前記選択は、前記計算された幾何平均を実質的に最小限化する候補マッピングの選択である、ことを特徴とする請求項17に記載のコンピュータ処理方法。
  19. コンピュートパッド、
    パーソナルデジタルアシスタントもしくはブックリーダ、及び
    携帯電話もしくはメディアプレイヤー
    の群から選択されたポータブルコンピューティングデバイス上で実施される、ことを特徴とする請求項1に記載のコンピュータ処理方法。
  20. ポータブルコンピューティングデバイスと、
    非一時的媒体において具現化されたマシン可読コードであって、発話の入力オーディオエンコーディングを、前記入力オーディオエンコーディングのうちの複数のサンプルの出だしによって境界を定められた複数の連続したシーケンスを含む複数のセグメントへと分割するよう、前記ポータブルコンピューティングデバイス上で実行可能なマシン可読コードと、
    を含み、
    前記マシン可読コードは、前記複数のセグメントのうちの連続して時間順に並んだセグメントを、対象歌曲用のリズムスケルトンの其々の連続したパルスと時間的に整列させるように、さらに実行可能であって、
    前記マシン可読コードは、前記時間的に整列した複数のセグメントのうちの少なくとも幾つかを時間的に延伸し、かつ、前記時間的に整列した複数のセグメントのうちの少なくとも他の幾つかを時間的に圧縮するようにさらに実行可能であって、前記時間的に延伸および圧縮することは、前記時間的に整列した複数のセグメントを実質的にピッチシフトすることなく、前記リズムスケルトンの前記連続したパルスのうちの其々のパルス間の利用可能な時間的スペースを実質的に満たし、
    前記マシン可読コードは、前記入力オーディオエンコーディングのうちの、前記時間的に整列し、かつ、延伸および圧縮された複数のセグメントに対応して、結果として生じる前記発話のオーディオエンコーディングを準備するようにさらに実行可能である、ことを特徴とする装置。
  21. コンピュータ処理パッド、ハンドヘルドモバイルデバイス、携帯電話、パーソナルデジタルアシスタント、スマートフォン、メディアプレイヤーおよびブックリーダのうちの一つ以上として具現化される、ことを特徴とする請求項20に記載の装置。
  22. 一時的媒体内にエンコードされたコンピュータプログラムであって、ポータブルコンピューティングデバイスを、
    の入力オーディオエンコーディングを、前記入力オーディオエンコーディングからの複数のサンプルの、出だしによって境界を定められた連続した複数のシーケンスに対応する複数のセグメントへと分割する手段
    前記複数のセグメントのうちの連続して時間順に並んだセグメントを、対象歌曲用のリズムスケルトンの其々の連続したパルスと時間的に整列させる手段
    前記時間的に整列した複数のセグメントのうちの少なくとも幾つかを時間的に延伸し、かつ、前記時間的に整列した複数のセグメントのうちの他の少なくとも幾つかを時間的に圧縮する手段であって、前記時間的に延伸および圧縮することは、前記時間的に整列した複数のセグメントを実質的にピッチシフトすることなく、前記リズムスケルトンの前記連続したパルスのうちの其々のパルス間の利用可能な時間的スペースを実質的に満たす、手段及び、
    前記入力オーディオエンコーディングの前記時間的に整列し、かつ、延伸および圧縮された複数のセグメントに対応して、結果として生じる前記発話のオーディオエンコーディングを準備する手段
    として機能させるためのコンピュータプログラム。
  23. 前記媒体は、前記ポータブルコンピューティングデバイスによって読み取り可能な媒体であるか、または、前記コンピュータプログラムを前記ポータブルコンピューティングデバイスへ伝送する際に前記ポータブルコンピューティングデバイスによって読み取り可能な媒体である、ことを特徴とする請求項22に記載のコンピュータプログラム。
JP2015503661A 2012-03-29 2013-03-29 発話の入力オーディオエンコーディングを、対象歌曲にリズム的に調和する出力へと自動変換するための、コンピュータ処理方法、装置、及びコンピュータプログラム製品 Active JP6290858B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261617643P 2012-03-29 2012-03-29
US61/617,643 2012-03-29
PCT/US2013/034678 WO2013149188A1 (en) 2012-03-29 2013-03-29 Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm

Publications (2)

Publication Number Publication Date
JP2015515647A JP2015515647A (ja) 2015-05-28
JP6290858B2 true JP6290858B2 (ja) 2018-03-07

Family

ID=48093118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015503661A Active JP6290858B2 (ja) 2012-03-29 2013-03-29 発話の入力オーディオエンコーディングを、対象歌曲にリズム的に調和する出力へと自動変換するための、コンピュータ処理方法、装置、及びコンピュータプログラム製品

Country Status (4)

Country Link
US (5) US9324330B2 (ja)
JP (1) JP6290858B2 (ja)
KR (1) KR102038171B1 (ja)
WO (1) WO2013149188A1 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
US10262644B2 (en) * 2012-03-29 2019-04-16 Smule, Inc. Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition
US8961183B2 (en) * 2012-06-04 2015-02-24 Hallmark Cards, Incorporated Fill-in-the-blank audio-story engine
US9459768B2 (en) * 2012-12-12 2016-10-04 Smule, Inc. Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters
US10971191B2 (en) * 2012-12-12 2021-04-06 Smule, Inc. Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
US9123353B2 (en) * 2012-12-21 2015-09-01 Harman International Industries, Inc. Dynamically adapted pitch correction based on audio input
US9372925B2 (en) * 2013-09-19 2016-06-21 Microsoft Technology Licensing, Llc Combining audio samples by automatically adjusting sample characteristics
US9798974B2 (en) 2013-09-19 2017-10-24 Microsoft Technology Licensing, Llc Recommending audio sample combinations
JP6299141B2 (ja) * 2013-10-17 2018-03-28 ヤマハ株式会社 楽音情報生成装置および楽音情報生成方法
WO2015103415A1 (en) * 2013-12-31 2015-07-09 Smule, Inc. Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition
US11032602B2 (en) 2017-04-03 2021-06-08 Smule, Inc. Audiovisual collaboration method with latency management for wide-area broadcast
CN108040497B (zh) 2015-06-03 2022-03-04 思妙公司 用于自动产生协调的视听作品的方法和系统
US11488569B2 (en) 2015-06-03 2022-11-01 Smule, Inc. Audio-visual effects system for augmentation of captured performance based on content thereof
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
CN109923609A (zh) * 2016-07-13 2019-06-21 思妙公司 用于音调轨道生成的众包技术
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
GB201615934D0 (en) 2016-09-19 2016-11-02 Jukedeck Ltd A method of combining data
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
US10741197B2 (en) * 2016-11-15 2020-08-11 Amos Halava Computer-implemented criminal intelligence gathering system and method
US11310538B2 (en) 2017-04-03 2022-04-19 Smule, Inc. Audiovisual collaboration system and method with latency management for wide-area broadcast and social media-type user interface mechanics
EP3389028A1 (en) 2017-04-10 2018-10-17 Sugarmusic S.p.A. Automatic music production from voice recording.
US10818308B1 (en) * 2017-04-28 2020-10-27 Snap Inc. Speech characteristic recognition and conversion
US10861476B2 (en) * 2017-05-24 2020-12-08 Modulate, Inc. System and method for building a voice database
IL253472B (en) * 2017-07-13 2021-07-29 Melotec Ltd Method and system for performing melody recognition
CN108257613B (zh) * 2017-12-05 2021-12-10 北京小唱科技有限公司 修正音频内容音高偏差的方法及装置
CN108257609A (zh) * 2017-12-05 2018-07-06 北京小唱科技有限公司 音频内容修正的方法及其智能装置
CN108206026B (zh) * 2017-12-05 2021-12-03 北京小唱科技有限公司 确定音频内容音高偏差的方法及装置
CN108257588B (zh) * 2018-01-22 2022-03-01 姜峰 一种谱曲方法及装置
CN108877753B (zh) * 2018-06-15 2020-01-21 百度在线网络技术(北京)有限公司 音乐合成方法及系统、终端以及计算机可读存储介质
AU2020231241A1 (en) * 2019-03-07 2021-10-07 Yao The Bard, LLC. Systems and methods for transposing spoken or textual input to music
US10762887B1 (en) * 2019-07-24 2020-09-01 Dialpad, Inc. Smart voice enhancement architecture for tempo tracking among music, speech, and noise
CN110675886B (zh) * 2019-10-09 2023-09-15 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN115428068A (zh) * 2020-04-16 2022-12-02 沃伊斯亚吉公司 用于声音编解码器中的语音/音乐分类和核心编码器选择的方法和设备
KR20220039018A (ko) * 2020-09-21 2022-03-29 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112420062A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法及设备
CN112542159B (zh) * 2020-12-01 2024-04-09 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法以及设备
US11495200B2 (en) * 2021-01-14 2022-11-08 Agora Lab, Inc. Real-time speech to singing conversion
WO2024054556A2 (en) 2022-09-07 2024-03-14 Google Llc Generating audio using auto-regressive generative neural networks

Family Cites Families (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE757772A (fr) * 1970-06-10 1971-04-01 Kakehashi Ikutaro Dispositif pour la production automatique d'un rythme
JPS5241648B2 (ja) * 1971-10-18 1977-10-19
US3723667A (en) * 1972-01-03 1973-03-27 Pkm Corp Apparatus for speech compression
US6001131A (en) * 1995-02-24 1999-12-14 Nynex Science & Technology, Inc. Automatic target noise cancellation for speech enhancement
US5842172A (en) * 1995-04-21 1998-11-24 Tensortech Corporation Method and apparatus for modifying the play time of digital audio tracks
US5749064A (en) * 1996-03-01 1998-05-05 Texas Instruments Incorporated Method and system for time scale modification utilizing feature vectors about zero crossing points
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3620240B2 (ja) * 1997-10-14 2005-02-16 ヤマハ株式会社 自動作曲装置および記録媒体
US6236966B1 (en) * 1998-04-14 2001-05-22 Michael K. Fleming System and method for production of audio control parameters using a learning machine
JP2000105595A (ja) * 1998-09-30 2000-04-11 Victor Co Of Japan Ltd 歌唱装置及び記録媒体
JP3675287B2 (ja) * 1999-08-09 2005-07-27 ヤマハ株式会社 演奏データ作成装置
JP3570309B2 (ja) * 1999-09-24 2004-09-29 ヤマハ株式会社 リミックス装置および記憶媒体
US6859778B1 (en) * 2000-03-16 2005-02-22 International Business Machines Corporation Method and apparatus for translating natural-language speech using multiple output phrases
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
JP2002023747A (ja) * 2000-07-07 2002-01-25 Yamaha Corp 自動作曲方法と装置及び記録媒体
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7735011B2 (en) * 2001-10-19 2010-06-08 Sony Ericsson Mobile Communications Ab Midi composer
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
JP2003302984A (ja) * 2002-04-11 2003-10-24 Yamaha Corp 歌詞表示方法、歌詞表示プログラムおよび歌詞表示装置
US7411985B2 (en) * 2003-03-21 2008-08-12 Lucent Technologies Inc. Low-complexity packet loss concealment method for voice-over-IP speech transmission
TWI221561B (en) * 2003-07-23 2004-10-01 Ali Corp Nonlinear overlap method for time scaling
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
JP4533696B2 (ja) * 2004-08-04 2010-09-01 パイオニア株式会社 報知制御装置、報知制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
US7164906B2 (en) * 2004-10-08 2007-01-16 Magix Ag System and method of music generation
US8296143B2 (en) * 2004-12-27 2012-10-23 P Softhouse Co., Ltd. Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer
US7825321B2 (en) * 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
US8013229B2 (en) * 2005-07-22 2011-09-06 Agency For Science, Technology And Research Automatic creation of thumbnails for music videos
KR100725018B1 (ko) * 2005-11-24 2007-06-07 삼성전자주식회사 음악 내용 자동 요약 방법 및 그 장치
KR100717396B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 로컬 스펙트럴 정보를 이용하여 음성 인식을 위한 유성음을판단하는 방법 및 장치
US7790974B2 (en) * 2006-05-01 2010-09-07 Microsoft Corporation Metadata-based song creation and editing
GB2443027B (en) * 2006-10-19 2009-04-01 Sony Comp Entertainment Europe Apparatus and method of audio processing
US7863511B2 (en) * 2007-02-09 2011-01-04 Avid Technology, Inc. System for and method of generating audio sequences of prescribed duration
US20080221876A1 (en) * 2007-03-08 2008-09-11 Universitat Fur Musik Und Darstellende Kunst Method for processing audio data into a condensed version
CN101399036B (zh) 2007-09-30 2013-05-29 三星电子株式会社 将语音转换为说唱音乐的设备和方法
JP4640407B2 (ja) * 2007-12-07 2011-03-02 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
KR101455090B1 (ko) * 2008-01-07 2014-10-28 삼성전자주식회사 재생 음악과 연주 음악간의 자동 키 매칭 방법 및 장치 및그 오디오 재생 장치
CN102047321A (zh) * 2008-05-30 2011-05-04 诺基亚公司 用于提供改进的语音合成的方法、设备和计算机程序产品
US8140330B2 (en) * 2008-06-13 2012-03-20 Robert Bosch Gmbh System and method for detecting repeated patterns in dialog systems
US8119897B2 (en) * 2008-07-29 2012-02-21 Teie David Ernest Process of and apparatus for music arrangements adapted from animal noises to form species-specific music
US20100095829A1 (en) * 2008-10-16 2010-04-22 Rehearsal Mix, Llc Rehearsal mix delivery
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
US20100169105A1 (en) * 2008-12-29 2010-07-01 Youngtack Shim Discrete time expansion systems and methods
US8374712B2 (en) * 2008-12-31 2013-02-12 Microsoft Corporation Gapless audio playback
US8026436B2 (en) * 2009-04-13 2011-09-27 Smartsound Software, Inc. Method and apparatus for producing audio tracks
US8566258B2 (en) * 2009-07-10 2013-10-22 Sony Corporation Markovian-sequence generator and new methods of generating Markovian sequences
US8153882B2 (en) * 2009-07-20 2012-04-10 Apple Inc. Time compression/expansion of selected audio segments in an audio file
TWI394142B (zh) * 2009-08-25 2013-04-21 Inst Information Industry 歌聲合成系統、方法、以及裝置
US8903730B2 (en) * 2009-10-02 2014-12-02 Stmicroelectronics Asia Pacific Pte Ltd Content feature-preserving and complexity-scalable system and method to modify time scaling of digital audio signals
US8222507B1 (en) * 2009-11-04 2012-07-17 Smule, Inc. System and method for capture and rendering of performance on synthetic musical instrument
US8983829B2 (en) * 2010-04-12 2015-03-17 Smule, Inc. Coordinating and mixing vocals captured from geographically distributed performers
US8682653B2 (en) * 2009-12-15 2014-03-25 Smule, Inc. World stage for pitch-corrected vocal performances
US9058797B2 (en) * 2009-12-15 2015-06-16 Smule, Inc. Continuous pitch-corrected vocal capture device cooperative with content server for backing track mix
US9053695B2 (en) * 2010-03-04 2015-06-09 Avid Technology, Inc. Identifying musical elements with similar rhythms
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
JP5598398B2 (ja) * 2011-03-25 2014-10-01 ヤマハ株式会社 伴奏データ生成装置及びプログラム
US20130144626A1 (en) * 2011-12-04 2013-06-06 David Shau Rap music generation
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
WO2014025819A1 (en) * 2012-08-07 2014-02-13 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
US9451304B2 (en) * 2012-11-29 2016-09-20 Adobe Systems Incorporated Sound feature priority alignment
US9459768B2 (en) * 2012-12-12 2016-10-04 Smule, Inc. Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters
US10971191B2 (en) * 2012-12-12 2021-04-06 Smule, Inc. Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置

Also Published As

Publication number Publication date
KR20150016225A (ko) 2015-02-11
US20130339035A1 (en) 2013-12-19
US20170337927A1 (en) 2017-11-23
US11127407B2 (en) 2021-09-21
US20200105281A1 (en) 2020-04-02
US20220180879A1 (en) 2022-06-09
US9324330B2 (en) 2016-04-26
US10290307B2 (en) 2019-05-14
WO2013149188A1 (en) 2013-10-03
US20140074459A1 (en) 2014-03-13
KR102038171B1 (ko) 2019-10-29
US9666199B2 (en) 2017-05-30
JP2015515647A (ja) 2015-05-28

Similar Documents

Publication Publication Date Title
JP6290858B2 (ja) 発話の入力オーディオエンコーディングを、対象歌曲にリズム的に調和する出力へと自動変換するための、コンピュータ処理方法、装置、及びコンピュータプログラム製品
US11264058B2 (en) Audiovisual capture and sharing framework with coordinated, user-selectable audio and video effects filters
US20200082802A1 (en) Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition
Durrieu et al. A musically motivated mid-level representation for pitch estimation and musical audio source separation
CN104272382B (zh) 基于模板的个性化歌唱合成的方法和系统
JP5961950B2 (ja) 音声処理装置
JP2016509384A (ja) コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタを有する音響視覚取得及び共有フレームワーク
CN108766409A (zh) 一种戏曲合成方法、装置和计算机可读存储介质
JP2018077283A (ja) 音声合成方法
WO2015103415A1 (en) Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition
Verfaille et al. Adaptive digital audio effects
JP5573529B2 (ja) 音声処理装置およびプログラム
JP6834370B2 (ja) 音声合成方法
US20210383816A1 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
JP2018077280A (ja) 音声合成方法
Maddage et al. Word level automatic alignment of music and lyrics using vocal synthesis
JP6822075B2 (ja) 音声合成方法
TWI302296B (ja)
Galajit et al. ThaiSpoof: A Database for Spoof Detection in Thai Language
CN114765029A (zh) 语音至歌声的实时转换技术
Ananthakrishnan Music and speech analysis using the ‘Bach’scale filter-bank
Dhiman Prosody Modifications for Voice Conversion
Calitz Independent formant and pitch control applied to singing voice
Cooke Audio Morphing Stuart Nicholas Wrigley 29 April 1998

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20171002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180208

R150 Certificate of patent or registration of utility model

Ref document number: 6290858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250