JP2016509384A

JP2016509384A - コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタを有する音響視覚取得及び共有フレームワーク

Info

Publication number: JP2016509384A
Application number: JP2015547574A
Authority: JP
Inventors: ピー．コーディア，パラグ; アール．クック，ペリー; ティー．ゴドフリー，マーク; グプタ，プレーナ; エム．クルーゲ，ニコラス; ジェイ．ライスティコウ，ランダル; エム．ディー．ラエ，アレクサンダー; エス．サイモン，イアン
Original assignee: Smule Inc
Current assignee: Smule Inc
Priority date: 2012-12-12
Filing date: 2013-12-12
Publication date: 2016-03-24
Also published as: WO2014093713A1

Abstract

コーディネートされた音響及びビデオフィルタペアは、音響視覚演奏の芸術的及び感情的コンテンツを増強するために適用される。そのようなフィルタペアは、携帯計算機装置（携帯電話あるいはメディアプレーヤー、計算機バッドあるいはタブレット、ゲームコントローラあるいはパーソナルデジタルアシスタントあるいは書籍リーダなど)上でホストされる音響視覚アプリケーションの音響及びビデオ処理パイプラインにおいて適用された場合、コーディネートされた音響及びビデオ両方を増強する効果のユーザの選択を可能にすることが出来る。コーディネートされた音響及びビデオは、カメラ及びマイクインタフェースを用い、プロセッサ上で実行可能なデジタル信号処理ソフトウェアを用い、及び、装置の、あるいは、これと相互運用性のある記憶装置、スピーカ、及びディスプレイ装置を用い、携帯計算機装置において、取得され、フィルタ処理され、及び、レンダリングされる。身近なハンドヘルド装置に音響視覚取得及び個人化を提供することによって、現在のソーシャルネットワークプラットフォームによって広く広まった種類のソーシャルインタラクション及び投稿は、音響視覚コンテンツに拡張されることが出来る。【選択図】図２Ａ

Description

本発明は、概して、音響視覚コンテンツのためのデジタル信号処理を含む演算技術に関し、より詳細には、システムあるいは装置が、取得された、及び／あるいは、アクセスされた音響視覚コンテンツに、コーディネートされた音響及び視覚効果フィルタ処理を適用するようにプログラミングされる技術に関する。

携帯電話及び他のハンドヘルド計算機装置の実装されたベースは、圧倒的な数及び計算能力において、日々進化している。世界中の人々の生活スタイルにおいて、非常にありふれており、深く浸透したことにより、これらは、ほとんど全ての文化的および経済的障壁を超越している。計算の側面では、今日の携帯電話は、１０年以内の昔のデスクトップコンピュータに匹敵する速度と記憶容量を提供し、リアルタイムの音声合成、及び、他の音響視覚信号のデジタル信号処理に基づいた変換に驚くほど適するようになっている。

事実、Ａｎｄｒｏｉｄオペレーティングシステムで動作する競合装置と共に、ＡｐｐｌｅＩｎｃ．から購入することが出来る、ｉＰｈｏｎｅ（商標）、ｉＰｏｄＴｏｕｃｈ（商標）およびｉＰａｄ（商標）デジタル装置などのｉＯＳ（商標）装置を含む、現在の携帯電話及びハンドヘルド計算機装置は、みな、非常に良く、音響及びビデオ再生及び処理をサポートする傾向にある。これらの性能（プロセッサ、メモリ、リアルタイムデジタル信号処理に適したＩ／Ｏ装置、ハードウェア及びソフトウェアのＣＯＤＥＣＳ、音響視覚ＡＰＩなどを含む）は、様々な応用及び開発者エコシステムに寄与してきた。音楽への応用空間における例は、リアルタイムでの連続的な、取得した歌声のピッチ補正を提供するＳＭｕｌｅ，Ｉｎｃ．から購入する事が出来る、ソーシャル音楽アプリである、広く知られた、ＩＡｍＴ−Ｐａｉｎ，ＧｌｅｅＫａｒａｏｋｅ、取得した歌声を目標の音楽あるいは拍子に適用する、ＳｏｎｇｉｆｙａｎｄＡｕｔｏＲａｐアプリ（これらもＳＭｕｌｅから購入することが出来る）、及び、ユーザの歌声に合うように自動的に音楽を作曲する、ＬａＤｉＤａリバースカラオケアプリ（これもＳＭｕｌｅから購入することができる）を含む。

音響視覚コンテンツを操作する用途においては、結果の音響視覚演奏の芸術的及び感情的なコンテンツを増強する、コーディネートされた音響及びビデオフィルタペアを適用することが可能であることが発見された。そのようなフィルタペアは、携帯計算機装置（携帯電話、あるいは、メディアプレーヤー、計算機バッドあるいはタブレット、ゲームコントローラ、あるいは、パーソナルデジタルアシスタントあるいは書籍リーダなど）上に設けられる音響視覚アプリケーションの音響及びビデオ処理パイプラインに適用されると、コーディネートされた音響と視覚の両方を増強する効果をユーザが選択することを可能とする。しばしば、コーディネートされた音響及びビデオは、カメラ及びマイクインタフェースを用い、プロセッサ上で実行可能なデジタル信号処理ソフトウェアを用い、相互運用可能な、記憶装置、スピーカ、および、表示装置を用いる、携帯計算機装置において、取得され、フィルタリングされ、レンダリングされる。携帯電話のような、身近なハンドヘルド装置に、音響視覚取得及び個人化（ｐｅｒｓｏｎａｌｉｚａｔｉｏｎ）（例えば、ユーザが選択可能であるが、コーディネートされたフィルタペアによって）を提供することによって、現代のソーシャルネットワークプラットフォームによって一般的になった、ある種のソーシャルインタラクション及び投稿を、音響視覚コンテンツに拡張することが出来る。

密接に結合した音響とビデオフィルタを提供することによって、ユーザの操作は、簡単化され、少なくとも一部は、創造的なプロセスにおけるユーザの貢献によって、ソーシャルネットワークインタラクションは増強される。例えば、ここに説明する、音声視覚的用途のある実施形態においては、ユーザは、取得された音響視覚コンテンツへ、ビンテージ感を提供するために、音響とビデオ効果フィルタのコーディネートされたペアを適用することが出来る。音響パイプラインにおいては、フィルタペアの音響部分は、帯域制限された、取得（あるいは検索）された音響へ作用し、初期の記録媒体に起きるスクラッチ及び他のノイズを追加することが出来る。ビデオパイプラインにおいては、フィルタペアのビデオ部分は、色マップをセピア色調にゆがませるように動作することができ、フィルム投影におきる、粒質及び／あるいは、フレームレート効果をフィルムに加えるように動作することが出来る。他のフィルタペアは、他のスタイルあるいは効果を提供するように選択することが出来る。例えば、休暇期間フィルタペアは、季節的に適切な音響トラックをミキシングしたり、それに対して取得された音声を適用したり、ビデオパイプラインに、シミュレーションされた降雪を重ね合わせたりするように、（音響パイプライン内で）動作することが出来る。任意の多様なコーディネートされた、音響及びビデオ効果は、ユーザとソーシャルネットワークの経験を増強するためにサポートされることが出来る。ある実施形態においては、ユーザは、一つのフィルタペア（すなわち、コーディネートされた音響及びビデオ効果）を選択し、適用することが出来、楽しくあるいは好ましく処理された、取得した音響視覚コンテンツを完成し、投稿する前に気が変わって、ハンドヘルド装置で動作する音響及びビデオ処理パイプライン内の任意の数の他のフィルタペアを選択し、適用することが出来る。ある場合には、プレミアム音響及びビデオ効果ペアは、アプリ内購入で購入することが出来る。ある場合には、最終的レンダリングは、ローカルに行うことが出来る。ある場合には、ソーシャルネットワークサービスと別個の、あるいは、これらと一体化されたリモートプラットフォームが、最終的なレンダリングを行うことが出来る。

ある実施形態では、音楽生成技術も用いられ、音響及びビデオ効果ペアの相補的あるいは構成部分に影響を与える。例えば、ある場合には、歌声型音響入力は、コーディネートされた音響視覚コンテンツの音響部分に基づいて、カスタムメードなサウンドトラックを生成するために、ｉＯＳ及びＡｎｄｒｏｉｄ装置のためのＬａＤｉＤａアプリケーション（ＳＭｕｌｅから購入できる）で広く広まったタイプの音楽生成技術を駆動するために使用される。取得され、あるいは、検索された音響入力（これは、典型的ではあるが、歌声を必ずしも含まなくても良い）が処理され、音楽が、入力と合致する、あるいは、入力を補間するために自動的に（つまり、アルゴリズム的に）作曲される。

ある場合には、音響パイプライン内のＬａＤｉＤａ型の処理は、ユーザによって選択され、適用された、コーディネートされた音響及びビデオ効果ペアの音響部分によって指定されることが出来る。一般に、ＬａＤｉＤａ型の処理は、入力のピッチを追跡し、適切なハーモニーを見つけることによって動作する。その後、結果としてのコードマップは、選択されたスタイルに依存して使用される異なる楽器で、音楽を生成するのに用いられる。入力音響（例えば、発され、あるいは、歌われたユーザの歌声）は、今度は、自動的に生成された伴奏のキーにマッチするようにピッチ補正される。ある場合には、自動生成の伴奏、キーあるいは他のスタイルの特定の楽器の選択は、コーディネートされたペアの音響フィルタ部分によって指定されることが出来る。ある場合には、節とコーラスの境界を特定するなどの、音響パイプライン処理の間に行われる、入力音響の構造解析の結果は、コーディネートされたビデオ効果を可能とするために、ビデオパイプラインに伝搬されることが出来る。

音響とビデオ効果ペアの相補的あるいは構成部分に影響を与えるために、音響パイプラインで用いられる音楽生成技術の他の形態は、ｉＯＳ及びＡｎｄｒｏｉｄ装置のためのＳｏｎｇｉｆｙ及びＡｕｔｏＲａｐアプリケーション（ＳＭｕｌｅで購入することができる）において広く広まった種類の音響処理である。前述されたように、取得された、あるいは、検索された音響入力（必ずしも必要ではないが、典型的には歌声を含む）は、音楽を生成するために、音響パイプラインにおいて処理される。しかし、Ｓｏｎｇｉｆｙ及びＡｕｔｏＲａｐの技術の場合には、音響は、既存の音楽的あるいはリズム的構造に適用される。Ｓｏｎｇｉｆｙの場合には、音響入力は、対象の歌のフレーズのテンプレートに、分割され、及び、再マッピング（再度並べ替えされたサブフレーズの可能性がある）される。ＡｕｔｏＲａｐの場合には、音響入力は、分割され、対象の歌のリズムの骨格に対し時間方向に整列される。ＳｏｎｇｉｆｙあるいはＡｕｔｏＲａｐ処理の選択は、ユーザによって選択され、適用される、コーディネートされた音響及びビデオ効果ペアの音響部分によって指定されうる。前述されたように、分割境界を特定する、再マッピングする、整列するなどの音響パイプライン処理の間に行われる入力音響の構造解析の結果は、コーディネートされたビデオ効果を可能とするために、ビデオパイプラインに伝送されることができる。

ユーザの観点からの処理の例は例示的なものである。ユーザが携帯計算機装置上で実行するアプリケーションで短いビデオを取得し、選択し、あるいは、生成した後、ユーザは、選択可能なタイルあるいはボタンで表される一組のフィルタを提示される。これらの選択可能なタイルあるいはボタンは、上記した、コーディネートされた音響及びビデオ効果ペアの一つの可能なユーザインタフェースの提示形態に過ぎない。記録されたビデオのフレームが、フィルタが適用された基本視覚効果と共に示され、ユーザが適切なフィルタを選択しやすくしている。ユーザがフィルタを選択すると、少なくとも、あるコーディネートされた音響及びビデオ効果ペアの場合、ユーザは、特定の歌あるいは音楽スタイルと共に、特定の音楽生成技術（ＬａＤｉＤａ型、ＳｏｎｇｉｆｙあるいはＡｕｔｏＲａｐなど）も選択する。音響パイプラインでの音楽生成の出力は、音響入力と共に、選択されたスタイル／歌に依存する。

フィルタが選択されると、音響及びビデオは、選択された音響及びビデオ効果ペアに従ってレンダリングされ、ユーザは結果をプレビューする。別の音響及びビデオ効果ペアが選択され、プレビューされることも出来る。ユーザが、特定の音響及びビデオ効果フィルタペアによって提供される結果に満足するなら、ユーザはそれを了承し、音響視覚コンテンツは完全にレンダリングされる。この時点で、リモートサーバ、１以上のソーシャルネットワークプラットフォーム及び／あるいは電子メールに、コメントあるいは、他の音響視覚コンテンツの注釈投稿を追加することが可能である。

本発明に従った、ある実施形態では、音響視覚処理方法は、マイク及びカメラインタフェースからの対応する音響とビデオストリームを取得し、少なくとも一時的に、取得した音響及びビデオストリームを記憶装置に格納するために、携帯計算機装置を使用することを含む。携帯計算機装置上では、第１の効果プロファイルが、複数の予め決められた効果プロファイルから選択される。予め決められた効果プロファイルは、それぞれ、音響及びビデオストリームに適用される、音響及び視覚フィルタのそれぞれのコーディネートされたペアを選択するものである。音響及びビデオストリームは、それぞれのコーディネートされた音響及びビデオパイプラインで処理され、コーディネートは、コーディネートされた音響及び視覚フィルタのそれぞれの音響及びビデオストリームへの適用に少なくとも部分的に基づいている。音響及びビデオストリームは、適用される、コーディネートされた、音響及び視覚フィルタと共に、携帯計算機装置のディスプレイに対し、音響視覚的にレンダリングされる。その後、レンダリングされた音響視覚コンテンツは、格納され、伝送され、投稿される。

ある実施形態においては、この方法は、格納し、伝送し、あるいは、投稿する前に、複数の予め決められた効果プロファイルから、少なくとも第２の効果プロファイルを選択し、第２の効果プロファイルのコーディネートされた音響及び視覚フィルタを用いて、処理し、音響視覚的にレンダリングするステップを実行することを含む。

ある場合においては、第１の効果プロファイルは、音響パイプラインに適用された場合には、処理された音響ストリームから時間的に局所化可能な特徴を抽出する音響フィルタを選択するもので、コーディネートは、更に、ビデオパイプラインにおいて、音響パイプラインで抽出された少なくとも１つの時間的に局所化可能な特徴を用いることを含む。ある場合には、第１の効果プロファイルは、ビデオパイプラインに適用された場合には、処理されたビデオストリームから時間的に局所化可能な特徴を抽出するビデオフィルタを選択するものであり、コーディネートは、音響パイプラインにおいて、ビデオパイプラインで抽出された少なくとも１つの時間的に局所化可能な特徴を用いることをさらに含む。

ある実施形態においては、この方法は、音響パイプラインにおいて、音響ストリームを複数のセグメントに分割し、セグメントの個別のものを、対象の歌のフレーズテンプレートのそれぞれのサブフレーズ部分にマッピングすることを含む。コーディネートは、ビデオパイプラインにおいて、ビデオストリームを分割し、音響分割及びマッピングに対応して、そのセグメントをマッピングすることをさらに含む。ある場合には、取得された音響ストリームは、ビデオストリームと時間的に同期された歌声を含み、セグメントは、歌声の検出された開始に基づいて、音響パイプラインにおいて、境界付けられる。

ある実施形態においては、この方法は、音響パイプラインにおいて、音響ストリームを複数のセグメントに分割し、セグメントの連続するものを、対象の歌のリズムの骨格（ｒｈｙｔｈｍｉｃｓｋｅｌｅｔｏｎ）のそれぞれのパルスに時間的に整列し、時間的に整列されたセグメントの少なくともいくつかを時間的に引き伸ばし、時間的に整列されたセグメントの少なくともいくつかの他のものを時間的に圧縮することを含む。コーディネートは、ビデオパイプラインにおいて、ビデオストリームを分割し、音響セグメントの整列、引き伸ばし、圧縮に対応して、そのそれぞれのセグメントを時間的に整列し、引き伸ばし、及び、圧縮することをさらに含む。ある場合には、取得された音響ストリームは、ビデオストリームと時間的に同期された歌声を含み、セグメントは、歌声の検出された開始に基づいて、音響パイプラインで境界付けられる。

ある実施形態においては、取得された音響ストリームは、歌声を含み、この方法は、音響パイプラインにおいて、歌声において検出されたメロディピッチの和音であるコードの選択に基づいて、及び、更に、コード進行の統計的モデルに基づいて、歌声の音楽的伴奏を自動的に生成することをさらに含む。

ある実施形態においては、この方法は、１以上の追加的な効果プロファイルの購買あるいはライセンスの取引を、携帯計算機装置から実行することを含む。ある場合には、この方法は、取引の促進において、１以上の追加的効果プロファイルのコンピュータ可読符号化を、携帯計算機装置の通信インタフェースを介して検索し、あるいは、符号化の既存の格納されているインスタンスを解除する、ことをさらに含む。

ある実施形態においては、記憶装置は、携帯計算機装置に対してローカルである。ある実施形態においては、記憶装置は、少なくとも部分的にネットワークに存在し、携帯計算機装置から離れている。

ある実施形態においては、この方法は、携帯計算機装置とネットワーク通信するが、物理的に離れている、サービスプラットフォームにおいて、少なくとも最終的に選択された効果プロファイルにしたがって、処理を実行することをさらに含む。

ある場合には、音響フィルタインスタンスは、音響パイプライン内の音響ストリームに適用された場合、スペクトル等化、音響圧縮、ピッチ補正、ステレオ遅延、反響あるいはエコー、及び、オーディオトラックとのミキシングの１つ以上を提供する。ある場合には、ビデオフィルタインスタンスは、ビデオパイプライン内のビデオストリームに適用された場合、ぼかし、あるいは、先鋭化、色マップ選択あるいは変換、色歪みあるいは等化、視覚ノイズ、重ね合わせ、あるいは、画像フレーム化、輝度、あるいは、コントラスト変更、及び、ビデオフレームレート変更あるいは、ゲーティングの１つ以上を提供する。

ある実施形態においては、携帯計算機装置は、計算機バッド、ゲームコントローラ、パーソナルデジタルアシスタント、あるいは、書籍リーダ、及び、携帯電話あるいはメディアプレーヤーの群から選択される。

ある場合には、音響及び視覚フィルタのコーディネートされたペアは、音響及びビデオストリームに適用されるべき、芸術的に整合した効果を指定する。ある場合には、音響及び視覚フィルタのコーディネートされたペアの少なくとも１つは、音響パイプラインにおいて、帯域制限フィルタ、スクラッチ及びポップトラックとのオーディオミックスを含み、ビデオパイプラインにおいては、セピア色調フィルタ、フィルム粒及びスクラッチのビデオ重ね合わせを含む、ビンテージ効果を指定する。

本発明に従った、ある実施形態においては、コンピュータプログラム製品は、１以上の媒体において符号化される。コンピュータプログラム製品は、携帯計算機装置に、上記の方法に記載されたステップの少なくとも実質的な部分集合を実行させる、携帯計算機装置のプロセッサ上で実行可能な命令を含む。

本発明に従った、ある実施形態において、システムは、携帯計算機装置に、上記の方法に記載されたステップの少なくとも実質的な部分集合を実行させる、そのプロセッサ上で実行可能な命令でプログラミングされた携帯計算機装置を含む。

本発明に従った、ある実施形態において、音響視覚コンテンツを変換する計算方法は、コンピュータ可読記憶媒体からの音響視覚コンテンツの符号化にアクセスすることを含み、音響視覚コンテンツは、コーディネートされた音響及びビデオストリームを含み、当該方法は、それぞれのコーディネートされた音響及びビデオパイプラインにおいて、音響及びビデオストリームを処理することを含み、それぞれの音響及びビデオパイプラインのコーディネートは、ビデオパイプラインによる処理において、音響パイプラインで抽出された時間的に局所化可能な特徴を用いることを含む。

ある場合には、時間的に局所化可能な特徴の少なくともいくつかは、音響側エポックを境界付ける。ある場合には、コーディネートは、エポックに従って、音響及びビデオストリームの両方のそれぞれの部分を再整列することを含む。ある実施形態においては、この方法は、特定のエポックの音響を、歌テンプレートのそれぞれの部分にマッピングすることをさらに含み、このマッピングは、音響の時間的引き延ばし及び圧縮のうちの１つ以上を含む。コーディネートは、エポックマッピングにあわせて、ビデオストリームの対応する部分をマッピングし、対応する時間的引き延ばし、及び、圧縮をビデオストリームに適用することを含む。ある場合には、マッピングは、音響ストリームのそれぞれの部分を繰り返すことを含み、コーディネートは、ビデオストリームに同じ繰り返しを適用することを含む。ある場合には、音響ストリームは、歌声を含み、時間的に局所化可能な特徴の少なくともいくつかは、歌声の検出された開始に対応する。

ある実施形態においては、この方法は、音響パイプラインにおいて、歌声の音響符号化を複数のセグメントに分割し、セグメントの個別のものを、対象の歌のフレーズテンプレートのそれぞれのサブフレーズ部分にマッピングすることをさらに含む。コーディネートは、ビデオパイプラインにおいて、ビデオストリームを分割し、そのセグメントを、音響分割とマッピングに対応して、マッピングすることを含む。ある場合においては、セグメントは、音響符号化において特定された開始によって境界付けられる音響符号化のサンプル列に対応する。ある実施形態においては、この方法は、音響パイプラインにおいて、１以上のマッピングされた音響セグメントを、対象の歌のリズムの骨格に時間的に整列し、ビデオパイプラインにおいて、ビデオセグメントを、音響整列に対応して、時間的に整列することをさらに含む。

ある実施形態においては、この方法は、音響パイプラインにおいて、歌声の音響符号化を、複数のセグメントに分割し、セグメントの連続するものを、対象の歌のリズムの骨格のそれぞれのパルスに時間的に整列し、時間的に整列されたセグメントの少なくともいくつかを時間的に引き伸ばし、時間的に整列されたセグメントの少なくともいくつかの他のものを時間的に圧縮することをさらに含む。コーディネートは、ビデオパイプラインにおいて、ビデオストリームを分割し、音響分割、整列、引き伸ばし、及び圧縮に対応して、そのそれぞれのセグメントを時間的に整列し、引き伸ばし、及び、圧縮することを含む。

ある実施形態においては、取得された音響ストリームは、歌声を含み、この方法は、音響パイプラインにおいて、歌声において検出されたメロディピッチの和音であるコードの選択に基づき、更に、コード進行の統計的モデルに基づき、歌声の音楽的伴奏を自動的に生成することをさらに含む。

ある実施形態においては、この方法は、携帯計算機装置上で、コーディネートされた音響及びビデオストリームを取得し、それぞれのコーディネートされた音響及びビデオパイプラインにおいて、音響及びビデオストリーム処理を実行することをさらに含む。ある実施形態においては、この方法は、携帯計算機装置上で、コーディネートされた音響及びビデオパイプラインの出力を、音響視覚的にレンダリングすることをさらに含む。

ある場合には、コンピュータ可読記憶装置は、音響及びビデオパイプラインをホストする携帯計算機装置に対してローカルである。ある場合には、このコンピュータ可読記憶装置は、少なくとも部分的にネットワークに存在し、音響及びビデオパイプラインをホストする携帯計算機装置から離れている。

ある場合には、それぞれの音響及びビデオパイプラインのコーディネートは、音響及びビデオストリームへ、芸術的に整合した効果を適用することをさらに含み、この方法は、芸術的に整合した効果を適用して、音響及びビデオストリームを音響視覚的にレンダリングすることをさらに含む。ある場合においては、芸術的に整合した効果は、ビンテージ効果を含む。音響パイプラインで適用されるビンテージ効果は、帯域制限フィルタと、スクラッチとポップトラックのオーディオミックスを含み、ビデオパイプラインで適用されるビンテージ効果は、セピア色調フィルタと、フィルム粒とスクラッチのビデオ重ね合わせを含む。

本発明に従った、ある実施形態においては、音響視覚コンテンツを変換する計算方法は、コンピュータ可読記憶装置からの音響視覚コンテンツの符号化にアクセスすることを含み、音響視覚コンテンツは、コーディネートされた音響及びビデオストリームを含み、当該方法は、それぞれのコーディネートされた音響及びビデオパイプラインにおいて、音響及びビデオストリームを処理することを含み、それぞれの音響及びビデオパイプラインのコーディネートは、音響パイプラインによる処理において、ビデオパイプラインにおいて抽出された時間的に局所化可能な特徴を用いることを含む。

ある場合には、時間的に局所化可能な特徴の少なくともいくつかは、ビデオエポックを境界付け、時間的に局所化可能な特徴の使用は、ビデオエポック間の境界に少なくとも部分的に基づいて、音響ストリームを分割することを含む。

ある場合には、時間的に局所化可能な特徴は、オプティカルフローの大きさ、あるいは、方向の急激な変化、色分布の急激な変化、及び、輝度の全体的あるいは空間的分布の急激な変化の１以上を含む。

本発明に従った、ある実施形態においては、方法は、携帯計算機装置において、コーディネートされた音響及びビデオストリームを取得することと、それぞれのコーディネートされた音響及びビデオパイプラインにおいて、音響及びビデオストリームを処理することとを含み、それぞれの音響及びビデオパイプラインのコーディネートは、（ｉ）ビデオパイプラインによる処理において、音響パイプライン内で抽出された１以上の特徴を用いること、及び（ｉｉ）音響パイプラインによる処理において、ビデオパイプライン内で抽出された１以上の特徴を用いることの何れか、あるいは、両方を含み、当該方法は、携帯計算機装置上で、コーディネートされた音響及びビデオパイプラインの出力を音響視覚的にレンダリングすることを含む。ある場合には、携帯計算機装置は、計算機バッド、ゲームコントローラ、パーソナルデジタルアシスタントあるいは書籍リーダ、及び、携帯電話あるいはメディアプレーヤーの群から選択される。

本発明に従った、ある実施形態においては、１以上の媒体に符号化されたコンピュータプログラム製品は、携帯計算機装置に、上記の方法を実行させる、携帯計算機装置のプロセッサ上で実行可能な命令を含む。

本発明に従った、ある実施形態においては、方法は、（ｉ）携帯計算機装置を使って、コーディネートされた音響及びビデオストリームを取得することであって、取得された音響ストリームは歌声を含む、ことと、（ｉｉ）携帯計算機装置の音響及びビデオパイプラインにおいて適用されるべき、コーディネートされた音響及び視覚効果の予め決められたペアから選択することと、（ｉｉｉ）歌声で検出されたメロディピッチの和音であるコードの選択に基づき、更に、コード進行の統計的モデルに基づき、歌声の音楽的伴奏を自動生成することと、ならびに、（ｉｖ）適用された、コーディネートされた音響及び視覚効果を用いて、音響及びビデオストリームを音響視覚的にレンダリングすることと、を含む。

ある場合には、音響視覚的レンダリングは、自動的に生成された音楽的伴奏を含む。ある実施形態においては、この方法は、コーディネートされた音響及び視覚効果の、少なくとも第２の予め決められたペアを選択し、その後、適用された、コーディネートされた音響及び視覚効果の第２のペアで、音響及びビデオストリームを音響視覚的に再レンダリングすることをさらに含む。ある実施形態においては、この方法は、レンダリングされ、あるいは、再レンダリングされた、音響視覚コンテンツを格納し、伝送し、あるいは、投稿することをさらに含む。

ある場合においては、音響効果は、反響あるいはエコー効果、コーラスあるいは和音効果、電話、市民帯（ＣＢ）ラジオあるいはビンテージオーディオで使われる帯域制限フィルタ、及び、重ね合わせトラックの１以上を含む。ある場合には、ビデオ効果は、色ずれ、輝度あるいはコントラスト変化、先鋭化あるいは、ぼかし、及び、ビデオゲーティングあるいは重ね合わせの１以上を含む。ある場合には、携帯計算機装置は、計算機バッド、ゲームコントローラ、パーソナルデジタルアシスタントあるいは書籍リーダ、及び、携帯電話あるいはメディアプレーヤーの群から選択される。

これら、及び、他の実施形態は、様々な、それらへの変形と共に、以下の詳細な説明、請求項及び図面に基づいて、当業者によって理解されるだろう。

本発明は、添付の図面を参照すれば、当業者によって、より良く理解され、多くの部品、特徴、及び、利点が明らかになるだろう。

本発明のある実施形態に従った、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザが選択したインスタンスを適用するために、ソフトウェアを実行するプログラムされたハンドヘルド計算プラットフォーム（Ａｐｐｌｅ，Ｉｎｃ．から購入できるハンドヘルド装置の例示）のスクリーンショット画像である。本発明のある実施形態に従った、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザが選択したインスタンスを適用し、音響視覚コンテンツのレンダリングをするための、音楽生成技術を有するか有しない、ある例示目的の変形例における、携帯計算機装置上で実行されるのに適したソフトウェアの動作を示すフローチャートである。本発明のある実施形態に従った、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザが選択したインスタンスを適用し、音響視覚コンテンツのレンダリングをするための、音楽生成技術を有するか有しない、ある例示目的の変形例における、携帯計算機装置上で実行されるのに適したソフトウェアの動作を示すフローチャートである。本発明のある実施形態に従った、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザが選択したインスタンスを適用し、音響視覚コンテンツのレンダリングをするための、音楽生成技術を有するか有しない、ある例示目的の変形例における、携帯計算機装置上で実行されるのに適したソフトウェアの動作を示すフローチャートである。本発明のある実施形態に従った、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザが選択したインスタンスを適用し、音響視覚コンテンツのレンダリングをするための、音楽生成技術を有するか有しない、ある例示目的の変形例における、携帯計算機装置上で実行されるのに適したソフトウェアの動作を示すフローチャートである。音楽生成技術の特定のクラスを用いる、例示的実施形態における、音響パイプライン処理における、あるいは、処理に関連した機能ブロック間のデータフローを図示する機能ブロック図である。本発明のある実施形態に従った、取得された発話音響符号化が、バックトラックを有する音響レンダリングのために拍子あるいはリズムを有する、出力歌、ラップ、あるいは、他の表現ジャンルに、自動的に変換される、例示的方法におけるステップ列を図示するフローチャートである。本発明のある実施形態に従った、音響信号が分割される、例示的方法におけるステップ列を、フローチャート及びスペクトル差関数を適用した結果の信号におけるピークのグラフ図によって、図示する。本発明のある、発話−歌対象実施形態に従った、分割された音響信号がフレーズテンプレートにマッピングされ、リズム整列に対して、結果のフレーズ候補が評価される例示的方法におけるステップ列を、フローチャート及び、分割部分とテンプレートにマッピングされるサブフレーズのグラフ図によって、図示する。本発明のある実施形態に従った、発話−歌（歌化；ｓｏｎｇｉｆｉｃａｔｉｏｎ）アプリケーションにおける信号処理機能フローを図示する。リズムの骨格あるいはグリッドに対応して整列され、引き伸ばされ、及び／あるいは、圧縮される音響信号のピッチずれバージョンの合成のための、本発明に従った、ある実施形態で用いられる声門パルスモデルを図示する。本発明の、ある発話−ラップ対象実施形態に従った、開始がリズムの骨格あるいはグリッドに整列され、分割された音響信号の対応するセグメントが、引き伸ばされ、及び／あるいは、圧縮される例示的方法におけるステップ列を、フローチャート及び分割と整列のグラフ図によって、示す。発話−音楽及び／あるいは発話−ラップ対象実装が、本発明のある実施形態に従って変換される音響信号の音響レンダリングに適した遠隔のデータ記憶装置あるいはサービスプラットフォーム及び／あるいは遠隔の装置と通信する、ネットワーク通信環境を図示する。本発明のある実施形態に従って、音楽的伴奏が、取得された歌声から自動的に、及び、計算的に生成される処理を図示するフローチャートである。

異なる図における同じ参照記号の使用は、類似物、あるいは、同一物を示す。

上記したように、取得されたユーザの歌声の自動変換は、ｉＯＳ及びＡｎｄｒｏｉｄに基づいた電話、メディア装置、及び、タブレットの出現以来、広く広まった、ハンドヘルド計算プラットフォーム上においても実行可能なアプリケーションを魅力的にすることを提供することが出来る。自動変換は、玩具、ゲームあるいは娯楽装置市場のためのような、専用装置においても実装することが出来る。

上記したような音響視覚コンテンツを操作するアプリケーションにおいては、結果の音響視覚演奏の芸術的及び感情的コンテンツを増強する、コーディネートされた音響及びビデオフィルタペアを適用することが出来る。そのようなフィルタペアは、携帯計算機装置（携帯電話あるいはメディアプレーヤー、計算機バッドあるいはタブレット、ゲームコントローラあるいはパーソナルデジタルアシスタントあるいは書籍リーダなど）の上で実行される音響視覚アプリケーションの音響及びビデオ処理パイプラインに適用されるならば、ユーザが、コーディネートされた音響及びビデオ双方を増強する効果を選択することを可能とする。しばしば、コーディネートされた音響及びビデオは、カメラ及びマイクインタフェースを使用し、プロセッサで実行可能なデジタル信号処理ソフトウェアを使用し、及び、記憶装置、スピーカ、及び、ディスプレイ装置あるいは、携帯計算機装置と相互運用性のあるものを用いて、携帯計算機装置において、取得され、フィルタリングされ、及び、レンダリングされる。携帯電話などの身近なハンドヘルド装置上での音響視覚取得及び個人化を提供することによって（例えば、ユーザが選択可能であるが、コーディネートされたフィルタペアによって）、現代のソーシャルネットワークプラットフォームによって広く広まった種類のソーシャルインタラクションおよび投稿は、音響視覚コンテンツに拡張されることが出来る。

密接に結合した音響及びビデオフィルタを提供することによって、ユーザインタラクションは簡単化され、生成プロセスにおけるユーザの少なくとも部分的なかかわりによって、ソーシャルネットワークインタラクションは増強される。例えば、ここに説明される音響視覚アプリケーションのある実施形態においては、ユーザは、取得された音響視覚コンテンツに対し、ビンテージ感を提供するために、音響及びビデオ効果フィルタのコーディネートされたペアを適用することが出来る。音響パイプラインにおいては、フィルタペアの音響部分は、帯域制限された、取得された（あるいは、検索された）音響に操作を加え、初期の記録媒体に発生するスクラッチ及び他のノイズを加える操作をすることが出来る。ビデオパイプラインにおいては、フィルタペアのビデオ部分は、色マップをセピア色調にゆがませ、フィルム投影において生じるフィルム粒質及び／あるいはフレームレート効果を加える操作をすることが出来る。他のフィルタペアは、他のスタイルあるいは効果を提供するために選択されることが出来る。例えば、休暇期間フィルタペアは、（音響パイプラインにおいては）取得された歌声を、季節的に適切なオーディオトラックとミキシングし、あるいは、適用し、ビデオパイプラインにおいて、シミュレートされた降雪を重ね合わせる操作をすることが出来る。あらゆる多様な調整された音響及びビデオ効果は、ユーザに対してソーシャルネットーク経験を増強するためにサポートされることが出来る。ある実施形態においては、ユーザは、一つのフィルタペア（つまり、コーディネートされた音響及びビデオ効果）を選択し、適用し、楽しくあるいは好ましく処理された、取得された音響視覚コンテンツを完成し、投稿する前に気が変わって、ハンドヘルド装置上で実行される、音響及びビデオ処理パイプラインにおいて、任意の数の他のフィルタペアを選択し、適用することが出来る。ある場合には、プレミアム音響及びビデオ効果ペアは、アプリ内購入で購入することが出来る。ある場合には、最終レンダリングは、ローカルに行われることが出来る。ある場合には、ソーシャルネットワークサービスとは別個の、あるいは、これに一体化された、リモートプラットフォームが、最終レンダリングを行うことが出来る。

ある実施形態においては、音楽生成技術も用いられ、音響及びビデオ効果ペアの相補的あるいは構成部分に影響を与えることが出来る。例えば、ある場合には、歌声タイプの音響入力は、コーディネートされた音響視覚コンテンツの音響部分に基づいて、カスタムメイドのサウンドトラックを生成するために、ｉＯＳ及びＡｎｄｒｏｉｄ装置のためのＬａＤｉＤａアプリケーション（ＳＭｕｌｅから購入することが出来る）において広く広まった種類の音楽生成技術を駆動するために用いられる。取得された、あるいは、検索された音響入力（典型的には歌声を含むが、必ずしも含む必要が無い）は、処理され、音楽が、この入力に合致する、あるいは、相補的となるように、自動的に（つまり、アルゴリズム的に）作曲される。

ある場合には、音響パイプラインにおけるＬａＤｉＤａ型の処理は、ユーザによって選択され、適用された、コーディネートされた音響及びビデオ効果ペアの音響部分によって指定されることが出来る。一般に、ＬａＤｉＤａ型処理は、入力のピッチを追跡し、適切な和音を見つけることにより、動作する。結果としてのコードマップは、その後、選択されたスタイルによって使用される異なる楽器で、音楽を生成するのに用いられる。入力音響（例えば、発声され、あるいは、歌われたユーザの歌声）は、今度は、自動生成された伴奏のキーに合致するように、ピッチ補正される。ある場合には、自動生成された伴奏、キーあるいは他のスタイル態様のための特定の楽器の選択は、コーディネートされたペアの音響フィルタ部分によって指定されることが出来る。ある場合には、節及びコーラスの境界などの、音響パイプライン処理中に実行される、入力音響の構造解析の結果は、コーディネートされたビデオ効果を可能とするために、ビデオパイプラインへ伝搬されることが出来る。

音響及びビデオ効果ペアの相補的あるいは構成部分に影響を与えるために、音響パイプラインにおいて用いられることが出来る音楽生成技術の他の形態は、ｉＯＳ及びＡｎｄｒｏｉｄ装置のためのＳｏｎｇｉｆｙ及びＡｕｔｏＲａｐアプリケーション（ＳＭｕｌｅから購入することが出来る）で広く広まった種類の音響処理である。前述されたように、取得され、あるいは、検索された音響入力（典型的には歌声を含むが、必ずしもそうでなくても良い）は、音楽を生成するために、音響パイプラインにおいて処理される。しかし、Ｓｏｎｇｉｆｙ及びＡｕｔｏＲａｐ技術の場合には、音響は、既存の音楽、あるいは、リズム構造に適用される。Ｓｏｎｇｉｆｙの場合には、音響入力は、分割され、対象の歌のフレーズテンプレートへと、再マッピングされる（潜在的に再整列されたサブフレーズとして）。ＡｕｔｏＲａｐの場合には、音響入力は、分割され、対象の歌のリズムの骨格に時間的に整列される。ＳｏｎｇｉｆｙあるいはＡｕｔｏＲａｐ処理の選択は、ユーザによって選択され、適用された、コーディネートされた音響及びビデオ効果ペアの音響部分によって指定されることが出来る。前述されたように、セグメントの境界を特定し、再マッピングし、整列するなどの音響パイプライン処理の間、実行される入力音響の構造解析の結果は、コーディネートされたビデオ効果を可能とするために、ビデオパイプラインに伝搬されることが出来る。

ユーザの観点からの処理の例は、例示目的である。携帯計算機装置上で実行されるアプリケーションで、ユーザが短いビデオを取得し、選択し、あるいは、生成した後、ユーザは、選択可能なタイルあるいはボタンとして表される、一組のフィルタを提示される。これらの選択可能なタイルあるいはボタンは、上記した、コーディネートされた音響及びビデオ効果ペアの考えられるユーザインタフェースの提示の一つにすぎない。記録されたビデオのフレームは、適用されたそのフィルタの基本的視覚効果を伴って示され、ユーザが適切なフィルタを選択するのを容易にする。ユーザがフィルタを選択するときは、ユーザは、少なくともあるコーディネートされた音響及びビデオ効果ペアの場合には、また、特定の歌あるいは音楽スタイルと共に、特定の音楽生成技術（ＬａＤｉＤａ型、ＳｏｎｇｉｆｙあるいはＡｕｔｏＲａｐなど）も選択する。音響パイプラインでの音楽生成の出力は、音響入力と共に、選択されたスタイル／歌に依存する。

フィルタが選択されると、音響及びビデオは、選択された音響及びビデオ効果ペアにしたがって、レンダリングされ、ユーザは、結果をプレビューすることが出来る。別の音響及びビデオ効果ペアが選択及びプレビューされることが出来る。ユーザが特定の音響及びビデオ効果フィルタペアによって提供される結果に満足すると、ユーザはそれを了承し、音響視覚コンテンツは、完全にレンダリングされる。この時点で、リモートサーバ、１以上のソーシャルネットワークプラットフォーム及び／あるいは、電子メールに、コメントあるいは、音響視覚コンテンツの注釈投稿を追加することが出来る。

［例示的実装及び動作フロー］
図１は、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザによって選択されたインスタンスを適用するソフトウェアを実行する、プログラムされた、携帯計算機装置（例えば、Ａｐｐｌｅ，Ｉｎｃ．から購入することの出来るハンドヘルド装置１０１）のスクリーンショット画像である。コーディネートされた音響及びビデオフィルタペアは、タッチスクリーンユーザインタフェースにより、ユーザが選択可能であり、ある場合には、プログラムされた携帯計算機装置によって、取得されたコンテンツに適用される、分割（音響あるいはビデオ）、特徴抽出及び／あるいは自動伴奏技術を含む、デジタル信号処理のための選択肢である。

図２Ａ、図２Ｂ、図２Ｃ及び図２Ｄは、ハンドヘルド装置１０１などの携帯計算機装置上で実行されるのに適した、ある例示的変形において、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザによって選択されたインスタンスを適用し、音響視覚コンテンツをレンダリングするための音楽生成技術の使用を行う、あるいは、行わない、ソフトウェアの動作を図示するフローチャートである。ある場合には、そのようなソフトウェアは、携帯計算機装置上で実行可能なアプリケーション（例えば、ＣｉｎｅＢｅａｔアプリケーション２００）として実装される。各場合において、音響及びビデオフィルタペアは、コーディネートされた効果を生成するために、音響及びビデオコンテンツのそれぞれの計算操作に対して選択的である。

限定するものではないが、例として、音響フィルタ２２１インスタンスは、音響パイプライン２２０を介して音響ストリーム２１１に適用されると、スペクトル等化、音響圧縮、ピッチ補正、ステレオ遅延、反響あるいはエコー、及び、オーディオトラックとのミキシングの１以上を提供することが出来る。同様に、再び限定するものではないが、ビデオフィルタ２３１インスタンスは、ビデオパイプライン２３０を介してビデオストリーム２１２に適用されると、ぼかしあるいは先鋭化、色マップ選択あるいは変換、色歪みあるいは等化、視覚ノイズ、重ね合わせ、あるいは画像フレーム化、輝度あるいはコントラスト変更、及び、ビデオフレームレート変更あるいはゲーティングの１以上を提供することが出来る。

ある場合には、音響及び視覚フィルタ（２２１、２３１）のコーディネートされたペアは、音響及びビデオストリーム（２１１、２１２）に適用されるべき、芸術的に整合した効果を指定する。例えば、音響（２２１）及びビデオ（２３１）フィルタのコーディネートされたペアの少なくとも１つは、音響パイプライン２２０においては、帯域制限フィルタと、スクラッチ及びポップトラックのオーディオミックスを含み、ビデオパイプライン２３０においては、セピア色調フィルタと、フィルム粒とスクラッチのビデオ重ね合わせを含む、ビンテージ効果を指定することが出来る。他の芸術的に整合した効果は、演奏様式、季節的テーマなどに従って選択された音響及び視覚フィルタのコーディネートされたペアによって提供されることができる。本明細書における説明に基づき、当業者は、適切あるいは望ましい、与えられた適用、状況あるいは展開に対して、図２Ａ、図２Ｂ、図２Ｃ及び／あるいは図２Ｄのフローにしたがって提供される、広範囲の音響及びビデオフィルタのコーディネートされたペアを理解するだろう。

図２Ａ、２Ｂ、２Ｃ及び２Ｄにおいて、ある共通の、あるいは、類似の特徴、構造、及び、動作が図示される。ＣｉｎｅＢｅａｔアプリケーション２５０の機能フローと相互作用が、例示的な、携帯計算機装置型実行環境のある構造及び特徴として図示される。例えば、音響コンテンツは、携帯計算機装置プラットフォームに設けられ、デジタル的に符号化された音響として、音響パイプライン２２０に供給される、Ａ／Ｄ変換２０５及び、他の音響回路あるいはファームウェア／ソフトウェアを用いて、マイク装置（あるいはインタフェース）２０１において、（あるいは、これから）取得される。同様に、ビデオコンテンツは、携帯計算機装置プラットフォームに設けられる、フレームバッファ２０６及び、他のビデオ回路あるいはファームウェア／ソフトウェアを用いて、カメラ装置（あるいはインタフェース）２０２において、（あるいは、カメラ装置２０２から）取得され、デジタル的に符号化されたビデオとして、ビデオパイプライン２３０に供給される。各場合において、記憶装置２０８が設けられ、コーディネートされた音響及びビデオフィルタペアの連続した選択の適用を可能とするために、取得された音響及びビデオコンテンツの一時的記憶（及び検索）のために用いられる。

コーディネートされた音響及びビデオフィルタペアの選択は、他のユーザインタフェース設計が考えられ、特定のアプリケーション、計算プラットフォームあるいは展開では適切であることもあるが、ユーザがタッチスクリーンディスプレイ２０３を用いることによって行うことが出来る。音響及びビデオコンテンツは、音響及びビデオパイプライン（２２０、２３０）において変換され、処理される場合、スピーカ／オーディオインタフェース２０４及びディスプレイ２０３を介して、変換され、かつ、処理された音響視覚演奏として、ユーザに提示されるように、レンダリングエンジン２５０を用いて、時間的にコーディネートされた形式でレンダリングされる。レンダリングエンジン２５０もまた、変換され、処理された音響視覚演奏を、コンテンツサーバ３１０への伝送、及び／あるいは、コンテンツサーバ３１０での格納に適した形で、適切に符号化されるよう、音響視覚ＣＯＤＥＣＳを用い、あるいは、提供する。あるシステムあるいは展開において、コンテンツサーバ３１０は、そのような音響視覚コンテンツを、他の装置、ハンドヘルド装置１０１自体、及び／あるいは、ソーシャルネットワークへ（あるいは、を介して）提供することが出来る。ある場合においては、コンテンツサーバ３１０は、少なくとも部分的に、クラウド型ソーシャル音楽ネットワークを実装する。ある場合においては、プレミアムフィルタ、投稿された音響視覚コンテンツなどは、コンテンツサーバ３１０によって提供（あるいは、コンテンツサーバ３１０から提供される情報に基づいて解除）されることが出来る。

一般に、コーディネートされた音響／ビデオ効果フィルタペアは、さまざまな任意の方法で、様々な異なる符号化技術を用いて実装されることが出来ることに注意されたい。ある場合には、音響及びビデオ効果フィルタは、少なくとも部分的には、それぞれの音響及びビデオパイプラインの動作を知らせる、デジタルフィルタ係数、ルックアップテーブル及びデータ（例えば、記憶装置２０８、あるいは、他所から検索された）を用いて、規定される。ある場合には、音響及びビデオ効果フィルタは、少なくとも部分的には、それぞれのパイプラインと共に実行し、それによって音響及びビデオコンテンツのデジタル表現を操作するためのそれぞれのパイプラインから呼び出される、機能コード（例えば、記憶装置２０８あるいは他所から検索された）を用いて、規定されることが出来る。

図２Ｂに戻ると、図２Ａの機能フローの変形例が、図示され、説明される。特に、図２Ｂの変形例は、発話を、音響パイプライン２２０への音楽変換（Ｓｏｎｇｉｆｙ／ＡｕｔｏＲａｐ機能２２２）へと加える。Ｓｏｎｇｉｆｙ／ＡｕｔｏＲａｐ機能２２２と実行される変換の実装は、したがって、以下により完全に説明される。しかし、図２Ｂのフロー中において、Ｓｏｎｇｉｆｙ／ＡｕｔｏＲａｐ機能２２２は、ある音楽構造特性あるいはテンプレート、例えば、フレーズ構造、拍子、音階値などを有し、これらに適合する、導出された音響を用意するために、取得された音響へ実行される追加的信号処理として理解されるだろう。

特定の例が以下に説明されるが、図２Ｂに図示される注目すべき態様は、Ｓｏｎｇｉｆｙ／ＡｕｔｏＲａｐ機能２２２の文脈で計算される音響的特徴２９１（例えば、分割の指示、フレーズ構造に沿った再整列、セグメントもしくはブロックの引き延ばしまたは圧縮、スペクトル特性、音階値、リズムあるいは拍子、音量、演奏の修飾など）は、ビデオコンテンツに対して対応し、コーディネートされた変換２３２を促進するために、ビデオパイプライン２３０に運ばれる、ということである。このように、音響コンテンツの一部のＳｏｎｇｉｆｙ／ＡｕｔｏＲａｐ型再整列は、対応するビデオコンテンツの対応する再整列内にある。同様に、Ｓｏｎｇｉｆｙ／ＡｕｔｏＲａｐ機能２２２によって時間的に引き延ばされ、あるいは、圧縮される音響コンテンツの一部については、ビデオコンテンツの対応する一部は、同様に、例えば、フレームレートあるいは有効フレームレートの変化によって、引き伸ばされ、あるいは、圧縮される。ビデオパイプライン２３０へ運ばれ、それによってディスプレイ２０３において最終的に表示されるビデオコンテンツに（コーディネートされた方法で）影響を与える、音響パイプライン２２０において計算される音響的特徴の他の例は、この説明と、以下の実施例の文脈で理解されるだろう。

図２Ｃは、取得された音響が歌声を含み、取得された歌声から音楽的伴奏を計算によって自動的に生成することが、音響（２２０）及びビデオ（２３０）パイプラインに適用される、コーディネートされた音響及びビデオ効果フィルタペア２６１の基本機能（図２Ａを最参照されたい）に加えて設けられる他の変形例を示す。伴奏のＬａＤｉＤａ型自動生成機能２２２の詳細が、以下に提供されるが、図２Ｃのフローにおいては、ＬａＤｉＤａ型機能２２３は、歌声のピッチを追跡し、キーを推定し、メロディ構造を解析し、境界及びセクションを特定するために、取得された歌声音響に実行され、そのような導出された特性に基づき、自動的に音楽的伴奏を生成するための追加的信号処理として理解されるだろう。オプションとして、ＬａＤｉＤａ型機能２２３によって抽出された音響的特徴（例えば、構造境界）及び／あるいは、計算的にそれから導出された選択（例えば、スタイル）は、音響パイプライン２２０において処理される、音響コンテンツ（自動生成された伴奏を伴う歌声）への、ビデオパフォーマンス効果の適用をコーディネートさせるように、ビデオパイプライン２３０側ビデオフィルタ２３１へ伝搬されることが出来る。

図２Ｄは、ビデオパイプライン２３０で処理されるビデオコンテンツへの、音響演奏効果の適用をコーディネートさせるために、音響パイプライン２２０側音響フィルタ２２１を駆動する、取得されたビデオコンテンツの分割及び／あるいは、取得されたビデオコンテンツからの特徴抽出である更に他の変形例を示す。図２Ａ、図２Ｂ、図２Ｃ及び図２Ｄは、個別の機能フローとして図示され、説明されるが、本開示の利益を有する当業者は、ある場合、あるいは、実施形態においては、機能フローの１以上の態様は、組み合わせられた形態で組み込まれうることを理解するだろう。

［一般的音楽生成技術］
以上に（例えば、図２Ｂ及び２Ｃを最参照されたい）、及び、本明細書の他の部分で説明したように、本発明に従った、ある実施形態は、より従来的な音響及びビデオ効果に加えて、音楽生成技術を用いることが出来る。より従来的な音響及びビデオ効果によるように、特定の音楽生成ファシリティ及び設定の選択は、コーディネートされたペアとして、密接に結合された音響及びビデオフィルタを提供するフレームワークの一部として実行することが出来る。

音楽生成技術の実装は、先進デジタル信号処理技術に基づいており、純粋な素人のユーザミュージシャンが、音響視覚演奏を取得し、処理し、レンダリングし、共有できるハンドヘルド装置の実装を可能とする。ある場合には、自動変換は、コーディネートされた音響視覚コンテンツの音響部分に基づいて、カスタムメイドのサウンドトラックを生成するのに用いられることが出来る。取得され、あるいは、検索された音響入力（しばしば、歌声）が処理され、音楽が、入力に合致するように、あるいは、入力に相補的となるように自動的に（つまり、アルゴリズム的に）作曲される。

同様に、音響入力（歌われ、あるいは、発話された歌声を含む）は、分割され、配列され、対象のリズム、拍子、あるいは、伴奏バックトラックと時間的に配列され、楽譜あるいは音符列に合うようにピッチ補正されることが出来る。発話−歌音楽実装は、そのような一つの例であり、例示的歌化（ｓｏｎｇｉｆｉｃａｔｉｏｎ）アプリケーションが以下に説明される。ある場合には、発話される歌声は、しばしば、ピッチ補正なしで、自動分割及び時間的配列技術を用いたラップなど、音楽様式にあわせて変換される。そのようなアプリケーションは、異なる信号処理及び異なる自動変換を用いることが出来るが、なお、テーマにおける発話−ラップ変形として理解されることが出来る。例示的ＡｕｔｏＲａｐアプリケーションを提供するための適用も、ここに説明される。

具体的にするために、特定の実装環境、特にＡｐｐｌｅ，Ｉｎｃ．によって広められたｉＯＳ装置空間に典型的な、処理及び装置能力、語句、ＡＰＩフレームワーク、及び、外形情報までも仮定する。しかし、そのような例あるいはフレームワークに依存する説明によっても、本開示に接する当業者は、他の計算プラットフォーム及び他の具体的な物理的実装の展開と適切な適用を理解するだろう。

［自動発話−音楽変換（“Ｓｏｎｇｉｆｉｃａｔｉｏｎ”）］
図２Ｂにおいて、発話−音楽変換（‘Ｓｏｎｇｉｆｙ／ＡｕｔｏＲａｐ機能２２２）を音響パイプライン２２０に加える実施形態が説明された。Ｓｏｎｇｉｆｙ／ＡｕｔｏＲａｐ機能２２２と、それによって実行される変換の実装が、ここでより完全に説明される。前述されたように、Ｓｏｎｇｉｆｙ／ＡｕｔｏＲａｐ機能２２２は、ある音楽的構造特性あるいはテンプレート、例えば、フレーズ構造、拍子、音階値などを有し、あるいは、これらに適合する、導出された音響を用意するために、取得された音響に実行される追加的な信号処理として概して理解されるだろう。図３は、いくらかより詳しく言うと、取得された音響（ここでは、発話）を分割し、セグメントをフレーズテンプレートにマッピングし、オプションの更なる音響処理、例えば、ピッチ補正、バックトラックとのミキシング、及び、ビデオフィルタの適用（特に図示していないが、図２Ｂを最参照されたい）などのために、（再）マッピングされた音響を時間的に整列し、引き伸ばし及び／あるいは、圧縮するために、音響パイプライン２５０において、Ｓｏｎｇｉｆｙ型発話−音楽変換を用いる実施形態において用いられる機能及び信号／データフローを図示する。

特に、図３は、Ｓｏｎｇｉｆｙ型音響パイプラインが、マイク３１４（あるいは同様のインタフェース）を用いて取得され、（例えば、スピーカ３１２あるいは結合されたヘッドホンを介して）音響的にレンダリングされる歌声を自動的に変換するために実行する、本発明の例示的ｉＯＳ型ハンドヘルド３０１計算プラットフォーム実施形態の、あるいは、その実施形態に関連した、機能ブロック間のデータフローを示す機能ブロック図である。特定の音楽対象のデータセット（例えば、バックトラック、フレーズテンプレート、予め計算されたリズムの骨格、任意の楽譜及び／あるいは音符列）は、遠隔のコンテンツサーバ３１０あるいは他のサービスプラットフォームから、ローカルな記憶装置３０８にダウンロードされることが出来る（例えば、オンデマンドの供給、あるいは、ソフトウェアの配信あるいはアップデートの一部として）。

抽出された、あるいは、導出された音響的特徴３９１は、ビデオコンテンツに対するコーディネートされた操作を促進するために、ビデオパイプライン２３０に運ばれる。例えば、音響的特徴３９１は、時間的に配列されたビデオコンテンツを対応する断片に分解し、時間的に再整列し、音響パイプライン２５０で実行されるセグメント−フレーズ−テンプレートマッピングに対応して、そのような断片を複製することが出来るように、ビデオパイプライン２３０に運ばれる、分割境界（例えば、時間的マーカとして符号化される）及び、再マッピング情報を含むことが出来る。様々な、図示された機能ブロック（例えば、音響信号分割部３７１、セグメント−フレーズマッピング部３７２、セグメントの時間的配列及び引き伸ばし／圧縮部３７３、及び、ピッチ補正部３７４）は、取得された歌声から導出され、計算プラットフォーム上のメモリあるいは不揮発性記憶装置に表された音響信号符号化に操作を施す、ここに詳細に説明する信号処理技術を参照して、理解されるだろう。

図４は、取得された発話音響符号化（例えば、マイク３１４によって取得されたもの、図３を最参照されたい）が、バックトラックと共に音響的にレンダリングするために、拍子あるいはリズムを有する、出力歌、ラップ、あるいは、他の表現様式に自動的に変換される、例示的方法における、ステップ列（４０１、４０２、４０３、４０４、４０５、４０６及び４０７）を示すフローチャートである。特に、図４は、フロー（例えば、例示的ｉＯＳ型ハンドヘルド３０１計算プラットフォーム上で実行されるＳｏｎｇｉｆｙアプリケーション３５０に関連して図示されるような、機能的、あるいは、計算的ブロックを介して、図３を最参照されたい）を要約する。フローは、
・発話を音響信号として取得し、あるいは、記録する（４０１）ことと；
・取得された音響信号における開始もしくは開始候補を検出する（４０２）ことと；
・音響信号セグメントを境界付ける分割（４０３）境界を生成するために、開始もしくは開始候補の中から、ピークあるいは他の最大値を取り出すことと；
・対象の歌のフレーズテンプレートあるいは他の骨格構造の整列されたサブフレーズに個々のセグメントあるいはセグメントのグループをマッピングする（４０４）（例えば、分割計算の一部として決定された候補フレーズとして）ことと；
・対象の歌のリズムの骨格あるいは、他のアクセントパターン／構造への候補フレーズのリズム的整列（４０５）を評価し、（適切ならば）音声の開始を音符の開始と整列するために、引き伸ばし／圧縮し、（ある場合には）対象の歌のメロディ楽譜に基づいて、音符の継続部分を満たすことと；
・取得された歌声（フレーズマッピングされ、リズム的に整列された）が、対象の歌の特徴（例えば、リズム、拍子、リピート／反復組織）によって形作られるボコーダあるいは他のフィルタ再合成型音色スタンピング（ｔｉｍｂｒｅｓｔａｍｐｉｎｇ）（４０６）技術を用いることと；
・対象の歌のバックトラックと、時間的に整列され、フレーズマッピングされ、音色スタンプされた結果の音響信号を最終的にミキシングすることと、
を含む。

これら、及び、他の態様が、以下により詳細に説明され、図５−図８に図示される。

［発話分割］
歌詞がメロディに設定されると、音楽的構造を強調するために、あるフレーズが繰り返されることがしばしばある。われわれの発話分割アルゴリズムは、フレーズが繰り返され、あるいは、他の場合、再配置されることが出来るように、発話入力における言葉とフレーズの間の境界を決定することを試みる。言葉は、典型的には、無音によって分けられていないので、実用的な意味で、単純な無音を検出することは、多くの用途において不十分である。取得された発話音響信号の分割の例示的技術が、図５を参照し、以下の説明により理解されるだろう。

［ソーン表現（ＳｏｎｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ）］
発話発声は、典型的に、４４１００Ｈｚのサンプルレートを用いて、発話符号化５０１としてデジタル化される。パワースペクトルは、スペクトログラムから計算される。各フレームに対し、ＦＦＴが、（５０％の重なりで）１０２４のサイズのハンウィンドウ（Ｈａｎｎｗｉｎｄｏｗ）を用いて実行される。これは、行が、周波数ビンを表し、列が、時間ステップを表す行列を返す。人間の音量感覚を考慮するため、パワースペクトルが、ソーン形式の表現に変換される。ある実装においては、この処理の初期ステップは、内耳にある聴覚フィルタをモデル化する、一組の臨界帯域フィルタあるいは、発話帯域（ｂａｒｋｂａｎｄ）フィルタ５１１を含む。フィルタ幅と応答は、周波数によって変化し、線形周波数スケールを対数スケールに変換する。更に、結果のソーン表現５０２は、スペクトルマスキングをモデル化すると共に、外耳のフィルタ性能を考慮に入れる。この処理の終わりには、行が臨界帯域に対応し、列が時間ステップに対応する新しい行列が返される。

［開始検出］
われわれの分割に対するアプローチは、開始を見つけることを含む。ピアノで音符を奏でるなどの新しいイベントは、様々な周波数帯域でのエネルギーの突然の増加を導く。これは、しばしば、波形の時間領域表現において、局所的なピークとして見られる。開始を見つけるある種の技術は、スペクトル差関数（ＳＤＦ)を計算する（５１２）ことを含む。スペクトログラムが与えられると、ＳＤＦは第１の差であり、隣接する時間ステップでの各周波数ビンの振幅の差を加算することによって計算される。例えば：
SDF[i] = (Σ(B[i] - B[i - l]) ^.25)⁴

ここで、ソーン表現に同様な処理を適用し、一種のＳＤＦ５１３を得る。図示されたＳＤＦ５１３は、１次元関数で、ピークが可能性の高い開始候補を示す。図５は、例示的音響処理パイプラインにおける、ＳＤＦ計算５１２の前及び後の信号処理ステップと共に、サンプルされた歌声から導出される、音響信号符号化からの例示的ＳＤＦ計算５１２を示す。

次に、ＳＤＦ（５１３）から取り出される極大（あるいは、ピーク５１３．１、５１３．２、５１３．３、・・・、５１３．９９）の時間的位置として、開始候補５０３を定義する。これらの位置は、開始である可能性のある時間を示す。追加的に、最大値を中心とした小さなウィンドウに渡る関数の中央値から、極大におけるＳＤＦ曲線のレベルを減算することによって決定される開始強度の測度を返す。閾値より下の開始強度を有する開始は、典型的には、破棄される。ピークを採用すること５１４は、一連の閾値より上の強度の開始候補５０３を生成する。

ここで、セグメント（例えば、セグメント５１５．１）を、２つの隣接する開始位置間の音響の塊と定義する。ある場合には、上記の開始検出アルゴリズムは、とても小さな（例えば、典型的な言葉の継続時間よりずっと小さな）セグメントにつながる多くの間違ったケースに導く可能性がある。そのようなセグメントの数を減らすために、あるセグメント（例えば、セグメント５１５．２を参照）は、塊化アルゴリズムを用いて併合される（５１５．２）。まず、閾値（ここでは、０．３７２秒閾値から始める）よりも短いセグメントがあるか否かを判断する。もし閾値よりも短いセグメントがある場合には、時間的に前のあるいは、後ろのセグメントと併合される。ある場合には、併合の方向は、隣接する開始の強度に基づいて決定される。

結果は、後続のステップで使用される発話符号化（５０１）の分割バージョンを規定するセグメント（５０４）を生成する、強い開始候補と、短い隣接するセグメントの塊化に基づいたセグメントである。発話−歌実施形態の場合（図６参照）、後続のステップは、フレーズ候補を構成するため、及び、対象の歌のパターンあるいはリズム的な骨格へのリズム的なフレーズ候補の整列を構成するためのセグメントマッピングを含むことが出来る。発話−ラップ実施形態の場合（図９参照）、後続のステップは、開始を境界付けるセグメントを対象の歌のグリッドあるいはリズム的な骨格に整列し、グリッドあるいはリズム的な骨格の対応する部分を満たすための、特定の整列されたセグメントの引き伸ばし／圧縮をすることを含むことが出来る。

［発話−歌実施形態のためのフレーズ構成］
図６は、より大きな計算フローのフレーズ構成の態様（例えば、計算プラットフォーム上で実行されるアプリケーションに関連して、以前に図示され、説明されたような機能あるいは計算ブロックを介して、図４に要約されたように。図３を最参照されたい）を更に詳細に図示する。図６の図示は、ある例示的発話−歌実施形態に関連する。

上記の一つの目的は、フレーズ構成ステップが、より大きなフレーズを形成するために、おそらく繰り返しを含め、セグメントを結合する（例えば、図５に関連して図示され、説明された技術に従って生成されるような、セグメント５０４）ことによって、フレーズを生成することである。処理は、フレーズテンプレートと呼ぶものによって導かれる。フレーズテンプレートは、フレーズ構成を示す記号を符号化し、音楽構造を表現する典型的な方法に従う。例えば、フレーズテンプレート｛ＡＡＢＢＣＣ｝は、全体のフレーズが、それぞれが２回繰り返される３つのサブフレーズからなることを示す。ここに説明するフレーズ構成アルゴリズムの目的は、セグメントをサブフレーズにマッピングすることである。開始候補５０３及びセグメント５０４に基づく、取得された発話音響信号の１以上の候補サブフレーズ分割を計算した（６１２）後、可能性のあるサブフレーズ分割（例えば、分割６１２．１、６１２．２、・・・、６１２．３）は、対象の歌のフレーズテンプレート６０１の構造にマッピングされる（６１３）。サブフレーズ（あるいは、実際、候補サブフレーズ）の特定のフレーズテンプレートへのマッピングに基づいて、フレーズ候補６１３．１は、生成される。図６は、この処理を、例示的処理フローのサブシーケンスと共に図示する。一般に、複数のフレーズ候補が、更なる処理のため、特定のフレーズマッピングされた音響符号化を選択するために、用意され、評価されることが出来る。ある実施形態においては、結果としてのフレーズマッピング（あるいは、複数のマッピング）の品質は、本明細書の別のところで詳しく述べるように、歌の基本の拍子（あるいは、他のリズム的目標）へのリズム的整列の度合いに基づいて、評価される（６１４）。

この技術のある実装においては、セグメントの数がサブフレーズの数より多いことを要求することは有益である。セグメントのサブフレーズへのマッピングは、分割問題として定式化できる。ｍを対象フレーズのサブフレーズの数とする。それから、歌声の発声を、フレーズの正しい数に分割するために、ｍ−１個の除算数（ｄｉｖｉｄｅｒ）を要求する。われわれの処理では、分割は、開始位置のみで可能とする。例えば、図６において、検出された開始（６１３．１、６１３．２、・・・、６１３．９）を有する、フレーズテンプレート６０１｛ＡＡＢＢＣＣ｝によって符号化された対象フレーズ構造と共に評価される、歌声発声を示す。図６に示されるように、隣接する開始は、３つのサブフレーズＡ、Ｂ及びＣを生成するために、結合される。ｍ個の部分及びｎ個の開始を有する可能な分割の全ての組は、
計算された分割の一つ、特には、サブフレーズ分割６１３．２は、フレーズテンプレート６０１に基づいて選択された特定のフレーズ候補６１３．１の基となる。

ある実施形態では、ユーザは、異なる対象の歌、演奏、アーティスト、スタイルなどのフレーズテンプレートのライブラリから選択し、再選択することが出来る。ある実施形態においては、フレーズテンプレートは、アプリ内購入所得モデルの一部にしたがって、取引され、購入可能とされ、あるいは、オンデマンドで供給され（あるいは、計算され）、あるいは、ゲーム、教育及び／あるいは、サポートされたソーシャル型ユーザインタラクションの一部として、獲得され、公開され、あるいは、交換されることが出来る。

可能なフレーズの数は、ある現実的な実装において、セグメントの数に伴って組み合わせ数的に増加するので、全セグメントを最大２０に限定する。もちろん、より一般に、任意の与えられた適用においては、検索空間は、処理資源及び使用できる記憶容量に従って、増加、あるいは、減少する。開始検出アルゴリズムの第１の実行の後、セグメント数がこの最大数より大きい場合は、処理は、セグメントを塊化するための、より大きい最小継続時間を用いて、繰り返される。例えば、最初の最小セグメント長が、０．３７２秒であった場合には、これは、０．５秒に増加され、より少ないセグメントに導くかもしれない。最小閾値を増加する処理は、対象のセグメントの数が好ましい量より少なくなるまで継続されるだろう。他方、セグメントの数がサブフレーズの数より少ない場合には、同じセグメントを１以上のサブフレーズにマッピングすることなしに、セグメントをサブフレーズにマッピングすることは一般に不可能であろう。これに対処するために、開始検出アルゴリズムは、ある実施形態では、より小さいセグメント長閾値を用いて再評価し、典型的には、より少ない開始がより多数のセグメントに塊化される。したがって、ある実施形態においては、セグメント数が、任意のフレーズテンプレートに存在するサブフレーズの最大数を越えるまで長さ閾値を減少し続ける。満たさなくてはならない最小のサブフレーズ長があり、より短いセグメントで分割可能とするために、必要ならば、これをより小さくする。

この説明に基づけば、当業者は、計算処理の後段から前段へ情報をフィードバックする多くの機会を理解するだろう。処理フローの前方方向について、説明の焦点を当てることは、理解の容易さと、説明の連続性のためであり、限定する意図はない。

［リズム的整列］
上記の各可能な分割は、現在考えているフレーズテンプレートの候補フレーズを表す。要約すると、もっぱら、１以上のセグメントをサブフレーズにマッピングする。全フレーズは、その後、フレーズテンプレートに従って、サブフレーズを組み立てることにより生成される。次の段階では、バックトラックのリズム構造に最も近く整列された候補フレーズを見つけたい。これにより、あたかもフレーズがビートに乗っているように、フレーズを聞こえさせたいことを意味する。これは、しばしば、発話におけるアクセントが、ビート、あるいは、他の計量的に重要な位置に整列しがちとなるようにすることで達成される。

このリズム的整列を提供するために、特定のバックトラックの基本のアクセントパターンを与える、図６に示されるリズムの骨格（ＲＳ）６０３を導入する。ある場合あるいは実施形態においては、リズムの骨格６０３は、バックトラックのビートの位置に単位インパルスの組を含むことが出来る。一般に、そのようなリズムの骨格は、予め計算されることが出来、与えられたバックトラックについて、あるいは、与えられたバックトラックと併せてダウンロードされることができ、あるいは、オンデマンドで計算されることが出来る。テンポが既知であるならば、一般に、そのようなインパルス列を構成することは直接的なことである。しかし、あるトラックでは、旋律の第１及び第３のビートは、第２及び第４のビートよりもアクセントが利いているというような、追加的なリズムの情報を追加することが望ましい。これは、高さが各ビートの相対的強度を表すように、インパルスをスケール変更することにより行うことが出来る。一般に、任意の複雑なリズムの骨格を用いることが出来る。一連の等間隔のデルタ関数からなるインパルス列は、連続的な曲線を生成するために、小さなハン（例えば、５点）ウィンドウと畳み込み演算されることが出来る：

ＲＳと、ソーン表現を用いて計算されるスペクトル差関数（ＳＤＦ）との相互相関を取ることによって、リズムの骨格とフレーズと間のリズム的整列（ＲＡ）の度合いを測る。ＳＤＦは、開始に対応する信号の急激な変化を表現することを再参照されたい。音楽情報検索文献においては、開始検出アルゴリズムの基本となる、この連続曲線を検出関数と呼ぶ。検出関数は、音響信号のアクセントあるいは、中間レベルイベント構造を表す効果的な方法である。相互相関関数は、ＳＤＦバッファ内の異なる開始位置を仮定すると、ＲＳとＳＤＦとの間の多点乗算及び加算を行うことにより、様々なラグについて、対応の度合いを測定する。したがって、それぞれのラグについて、相互相関は、スコアを返す。相互相関関数のピークは、最も良く整列したラグを示す。ピークの高さは、このフィティングのスコアとして採用され、その位置は、ラグを秒で与える。

整列スコアＡは、そして、
で与えられる。

この処理は、全てのフレーズについて繰り返され、最も高いスコアのフレーズが用いられる。ラグは、その点から開始するように、フレーズを回転するために用いられる。これは、繰り返し行われる。最良のフィッティングは、全てのフレーズテンプレート、あるいは、直接与えられたフレーズテンプレートによって生成されるフレーズに渡って見つけることが出来る。全てのフレーズテンプレートにわたって最適化するように選択し、より良いリズム的フィッティングを与え、自然に、フレーズ構造に多様性を導入する。

分割マッピングが（フレーズテンプレート｛ＡＡＢＣ｝によって指定されるようなリズム的パターンのように）サブフレーズを繰り返すことを要求するとき、繰り返されたサブフレーズは、繰り返しが次のビートに起こるようにパッディングされると、よりリズム感があるように聞こえることが発見された。同様に、全体の結果としての分割フレーズは、バックトラックと共に繰り返される前、旋律の長さにパッディングされる。

したがって、フレーズ構成（６１３）とリズム的整列（６１４）処理の最後には、バックトラックと整列された、元の歌声発声のセグメントから構成された完全なフレーズを得る。バックトラックあるいは歌声入力が変更されると、処理は再作動させられる。これで、例示的"歌化"処理の第１の部分を終了となる。次に説明する第２の部分は、発話をメロディに変換する。

音声の開始を、望まれるメロディラインの音符の開始と更に同期させるために、メロディの長さに合致させるために、音声セグメントを引き伸ばす処理を用いる。メロディの各音符について、依然与えられた時間ウィンドウ内ではあるが、音符の開始と時間的に近くに発生するセグメントの開始（上記の分割処理によって計算される）は、この音符の開始にマッピングされる。音符は、可能性のある合致セグメントを有する全ての音符がマップされるまで、（バイアスを取除き、引き伸ばしの動作から動作に渡って可変性を導入するために、典型的には、網羅的に、及び、典型的には、ランダムな順序で）繰り返される。その後、音符−セグメントマップは、マップされたとき、音符を埋めるように、各セグメントを適切な量だけ引き伸ばすシーケンサに与えられる。各セグメントは、近くの音符にマッピングされるので、全発声に渡る累積引き伸ばしファクタは、多かれ少なかれ１であるべきである。しかし、大域引き伸ばし量が望まれる（例えば、結果の発声を２倍に遅くする）ならば、これは、セグメントをメロディの高速化バージョンにマッピングすることで達成できる。出力引き伸ばし量は、その後、メロディの元の速度に合致するようにスケール変更され、その結果、全体的に、速度ファクタの逆数によって引き伸ばす傾向となる。

整列及び音符−セグメント引き伸ばし処理は、音声の開始をメロディの開始に同期させるが、バックトラックの音楽的構造は、音符の長さを埋めるために、音節を引き伸ばすことによってさらに強調させることが出来る。聞き取りやすさを失うことなくこれを達成するために、子音をそのままにしつつ、発話中の母音音を引き伸ばすための動的時間引き延ばしを用いる。子音は、通常、その高周波数成分によって特徴付けられるので、母音と子音との間を区別する特徴として、全エネルギーの９５％までのスペクトルロールオフを用いた。スペクトルロールオフは、以下のように定義される。｜Ｘ［ｋ］｜を、ｋ番目のフーリエ係数の強度とすると、９５％の閾値のロールオフは、
と定義される。ここで、Ｎは、ＦＦＴの長さである。一般に、ｋ＿ｒｏｌｌが大きいほど、フーリエビンインデックスは、高周波数エネルギーの増加と整合し、ノイズあるいは、無声子音を示す。同様に、ｋ＿ｒｏｌｌが小さいほど、フーリエビンインデックスは、時間引き延ばしあるいは圧縮に適した有声音（例えば、母音）を示す傾向がある。

音声セグメントのスペクトルロールオフは、１０２４サンプルで５０％の重なりの各解析フレームについて計算された。これにより、関連するメロディ（ＭＩＤＩ記号）のメロディ密度は、メロディ全体に渡って規格化された、移動ウィンドウに渡って計算され、その後、滑らかな曲線を与えるために、補間される。スペクトルロールオフと規格化メロディ密度の内積は、最小関連コストで、行列を通過する経路を見つける、標準動的計画法問題の入力として扱われる行列を提供する。行列の各ステップは、行列を通って取られる経路を調整するために微調整されることが出来る、対応するコストに関連している。この処理によって、メロディの対応する音符を埋めるために、セグメントの各フレームに要求される引き伸ばしの量を得る。

［発話−メロディ変換］
発話の基本周波数あるいはピッチは、連続的に変化するが、通常、これは、音楽的メロディのようには聞こえない。変化は、典型的には、音楽的メロディのように聞こえるには、小さすぎ、速過ぎ、あるいは、発生頻度が少なすぎる。ピッチ変化は、音声生成機構、フレーズの終了や疑問を示すための発声者の感情状態、及び、音階言語の本質的な部分を含む、様々な理由で発生する。

ある実施形態では、発話セグメント（上記したように、リズムの骨格あるいはグリッドに対して整列され／引き伸ばされ／圧縮された）の音響符号化は、音符列あるいはメロディスコアに従って、ピッチ補正される。前述されたように、音符列あるいはメロディスコアは、予め計算され、及び、バックトラックのためにダウンロードされ、あるいは、バックトラックと関連してダウンロードされることが出来る。

ある実施形態にとって、実装された発話−メロディ（Ｓ２Ｍ）変換の望ましい属性は、明らかに音楽的メロディのように聞こえる一方、発話は理解可能のままである、というものである。当業者は、利用できる可能な技術の様々なものを理解するだろうが、われわれのアプローチは、音声の周期的励起をエミュレートする、声門パルスの、発話者の音声との相互合成に基づいている。これは、音声の音色特性を保持する、明確なピッチを有する信号へと導き、発話内容が、様々な状況でも明確に聞き取れるようにする。図７は、声門パルスの相互合成（７０２）への入力として、メロディスコア７０１（例えば、ローカルな記憶装置から読み込まれる、バックトラックのためにダウンロードされる、あるいは、オンデマンドで供給される、あるいは、バックトラックとの関連でダウンロードされる、あるいは、オンデマンドで供給される）が用いられるある実施形態の信号処理フローのブロック図である。相互合成のソース励起は、（７０７からの）声門信号であり、対象スペクトルは、ＦＦＴ７０４によって、入力歌声について得られる。

入力発話７０３は、４４．１ｋＨｚでサンプリングされ、そのスペクトログラムは、７５サンプル重なった１０２４サンプルのハンウィンドウ（２３ｍｓ）を用いて計算される（７０４）。声門パルス（７０５）は、図８に示される、ローゼンバーグモデルに基づいていた。それは、以下の式にしたがって生成され、開始前（０−ｔ_０）、開始からピーク（ｔ_０−ｔ_ｆ）及びピークから終了（ｔ_ｆ−Ｔ_ｐ）に対応する３つの領域からなっている。Ｔ_ｐは、パルスのピッチ周期である。これは、以下の式に要約される：

ローゼンバーグ声門パルスのパラメータは、相対開口継続時間（ｔ_ｆ- ｔ_０／Ｔ_ｐ）と相対閉止継続時間（（Ｔ_ｐ- ｔ_ｆ）／Ｔ_ｐ）を含む。これらの比を変化させることで、音色特性を変えることが出来る。これに加え、基本形状は、パルスにより自然な質を与えるために変更された。特に、数学的に定義された形状は、手によってトレースされた（つまり、ペイントプログラムで、マウスを用いて）ので、わずかな乱れとなった。「汚れた」波形は、その後、マウス座標の量子化によって導入された突然の不連続を取除くために、２０点有限インパルス応答（ＦＩＲ)フィルタを用いて、ローパスフィルタ処理された。

上記声門パルスのピッチは、Ｔ_ｐで与えられる。われわれの場合には、異なるピッチで、同じ声門パルス形状を柔軟に使用でき、これを連続的に制御出来ることを望んだ。これは、望みのピッチに従って声門パルスを再サンプリングし、次に、波形においてホップする（ｈｏｐ）量を変化させることによって達成された。線形補間は、各ホップにおける声門パルスの値を決定するために用いられた。

声門波形のスペクトログラムは、７５％の重なりで、１０２４サンプルのハンウィンドウを用いて取られた。周期的声門パルス波形と発話の間の相互合成（７０２）は、発話の各フレームの強度スペクトル（７０７）を、声門パルスの複素スペクトルで乗算する（７０６）ことによって達成され、声門パルススペクトルに従って、複素振幅の強度を効率的に再スケーリングした。ある場合、あるいは、ある実施形態においては、強度スペクトルを直接用いるのではなく、各発話帯域のエネルギーを、スペクトルを事前強調（スペクトル白色化）した後で用いる。このように、声門パルススペクトルの和音構造は、発話のフォルマント構造が刷り込まれる一方で、乱されない。われわれは、これが、発話−音楽変換における有効な技術であることを発見した。

上記アプローチで生じる１つの問題は、本質的にノイズ的である、ある子音音素のような無音音声は、上記のアプローチではうまくモデル化されない、ということである。これは、発話に存在すると「ｒｉｎｇｉｎｇｓｏｕｎｄ（響く音）」となり、打音質の喪失となる。これらの部分をより良く維持するために、制御された量の高域が透過された白色ノイズ（７０８）を導入する。無音音声は、広域のスペクトルを有する傾向があり、スペクトルロールオフが、再び、音響的特徴の指標として用いられる。特に、高周波成分の顕著なロールオフによっては特徴付けられないフレームは、高域が透過された白色ノイズのいくらかの補償的追加の候補である。導入されるノイズの量は、広帯域のスペクトルを有するが、上記の声門パルス技術を用いてはうまくモデル化されない無声音声が、この指標的音響的特徴によって制御される、ある量の高域が透過された白色ノイズとミキシングされるように、フレームのスペクトルロールオフによって制御される。これは、非常に明瞭、かつ自然な出力となることを発見した。

［一般的歌構成］
上記した、発話−音楽歌化処理のいくつかの実装は、声門パルスのピッチを決定するピッチ制御信号を用いる。理解されるように、制御信号は、任意の数の方法で生成されることが出来る。例えば、制御信号は、ランダムに、あるいは、統計的モデルに従って、生成されるかもしれない。ある場合、あるいは、実施形態においては、ピッチ制御信号（例えば、７１１）は、記号表示を用いて作曲された、あるいは、歌われたメロディ（７０１）に基づく。前者の場合、ＭＩＤＩのような記号表示は、対象のピッチ値のベクトルからなる音響レート制御信号を生成するために、パイソンスクリプト（Ｐｙｔｈｏｎｓｃｒｉｐｔ）を用いて処理される。歌われたメロディの場合においては、ピッチ検出アルゴリズムは、制御信号を生成するために用いられることが出来る。ピッチ評価の粒度に依存して、線形補間が、音響レート制御信号を生成するために用いられる。

歌を生成する更なるステップは、デジタル音響ファイルの形式で、整列され、合成変換された発話（出力７１０）を、バックトラックとミキシングすることである。上記したように、最終的なメロディがどのくらいの長さになるかは、予め分からないことを理解されたい。リズム的な整列ステップは、短いあるいは長いパターンを選択することが出来る。このことを考慮するため、バックトラックは、典型的には、より長いパターンを適応させるように、シームレスにループできるように、作曲される。最終メロディが、ループより短い場合には、特に何もされず、歌声のない歌の部分があるだろう。

［他の様式と整合した出力の変形例］
図２Ｂを再び参照すると、発話−ラップ変換（ＡｕｔｏＲａｐ機能２２２）を音響パイプライン２２０に追加する変形例が説明された。ＡｕｔｏＲａｐ機能２２２と、それによって実行される変換の実装が、より完全に説明される。前述されたように、ＡｕｔｏＲａｐ機能２２２は、フレーズ構造、拍子、音階値などの、ある音楽的構造特性あるいはテンプレートを有する、あるいは、ある音楽的構造特性あるいはテンプレートに適合する、導出された音響を用意するために、取得された音響に実行される追加的信号処理として一般に理解されるだろう。本開示の利益を有する当業者は、Ｓｏｎｇｉｆｙ型発話−歌変換に対して上記した技術との、信号処理技術のある共通性を理解するだろう。

したがって、発話を「ラップ」、すなわち、ビートに対してリズム的に整列された発話に変換するための、より適した更なる方法を説明する。このプロセスを「ＡｕｔｏＲａｐ」と呼び、当業者は、本明細書の説明に基づいて、広範な実装を理解するだろう。特に、より大きな計算フローの態様（例えば、計算プラットフォーム上で実行するアプリケーションに関して、前に図示し、説明した、機能あるいは計算ブロックを介して、図４に要約されているように。図３を最参照されたい）は適用可能であり続ける。しかし、前述の、分割及び整列技術へのある適用は、発話−ラップ実施形態に対して適切である。図９の図示は、ある例示的発話−ラップ実施形態に関する。

前述されたように、分割（ここでは、分割９１１）は、発話帯域表示に基づいて、スペクトル差関数を用いて計算される検出関数を用いる。しかし、ここで、検出関数を計算するときに、約７００Ｈｚから１５００Ｈｚのサブ帯域を強調する。帯域制限あるいは強調ＤＦは、音節核により密接に対応し、認識的に、発話の強調点であることが発見された。

より詳しくは、中間帯域制限は、よい検出能力を提供する一方、中間帯域を重み付けるが、依然、強調された中間帯域の外のスペクトルを考慮することによって、ある場合には、もっと良い検出能力を達成出来ることが発見された。これは、広帯域特徴によって特徴付けられる、打音開始が、中間帯域を用いて主に検出される母音開始に加えて、取得されるからである。ある実施形態においては、望ましい重み付けは、中間帯域については、各発話帯域におけるパワーの対数を取り、１０倍し、他の帯域には、対数あるいは再スケーリングを適用しないことに基づいている。

スペクトル差を計算するとき、このアプローチは、値の範囲が大きいので、中間帯域により大きな重みを与える傾向がある。しかし、スペクトル距離関数における距離を計算する場合、Ｌ−ノルムは、０．２５の値で用いられるので、多くの帯域に渡って起こる小さな変化は、また、より大きな強度の差が、１つあるいはいくつかの帯域で観測される場合のように、大きな変化として記録される。ユークリッド距離が用いられる場合には、この効果は、観測されない。もちろん、他の中間帯域強調技術は、他の実施形態において利用されることが出来る。

今述べた、中間帯域強調とは別に、検出関数計算は、発話−歌実装について上述したスペクトル差（ＳＤＦ)技術に似ている（図５及び図６と付随する説明を最参照されたい）。前述されたように、局所ピーク取得は、スケーリングされた中央値閾値を用いて、ＳＤＦについて実行される。スケールファクタは、ピークが、ピークと考えられるためには、どれほど局所中央値を越えなくてはならないかを制御する。ピークのピーク化の後、ＳＤＦは、前述されたように、塊化関数に渡される。再び、図９に戻るが、再度上記したように、最小セグメント長より短いセグメントがないとき、塊化は停止し、元の歌声発声は、連続したセグメントに分割されたままとなる（ここでは、９０４）。

次に、リズム的パターン（例えば、リズムの骨格あるいはグリッド９０３）が、定義され、生成され、あるいは、検索される。ある実施形態においては、ユーザは、異なる対象のラップ、演奏、アーティスト、スタイルなどに対して、リズムの骨格のライブラリから選択し、再選択することが出来ることに注意されたい。フレーズテンプレートのように、リズムの骨格あるいはグリッドは、アプリ内購入所得モデルの一部にしたがって、取引され、購入可能とされ、あるいは、オンデマンドで供給され（あるいは、計算され）、あるいは、ゲーム、教育及び／あるいは、サポートされたソーシャル型ユーザインタラクションの一部として、獲得され、公開され、あるいは、交換されることが出来る。

ある実施形態においては、リズム的パターンは、特定の時間位置において、一連のインパルスとして表される。例えば、これは、単純に、パルス間幅が、現在の歌のテンポに関連した、インパルスの等間隔グリッドであるかもしれない。歌が、１２０ＢＰＭのテンポ、したがって、．５ｓのビート間周期を有する場合、パルス間は、典型的には、この整数分の１である（例えば、．５、．２５など）。音楽用語では、これは、四分音符ごと、あるいは、八分音符ごとなどのインパルスと同等である。より複雑なパターンも定義することが出来る。例えば、４ビートパターンを形成する、８分の４分音符が続く２つの四分音符の繰り返しパターンを指定するかもしれない。１２０ＢＰＭのテンポでは、パルスは、以下の時間位置にある：０秒、．５秒、１．５秒、１．７５秒、２．０秒、２．２５秒、３．０秒、３．５秒、４．０秒、４．２５秒、４．５秒、４．７５秒。

分割（９１１）とグリッド構成の後、整列が行われる（９１２）。図９は、図６のフレーズテンプレート駆動技術とは異なり、むしろ、発話−ラップ実施形態に適用された整列処理が図示されている。図９を参照すると、各セグメントは、対応するリズムパルスに、順番に移動される。セグメントＳ１、Ｓ２、Ｓ３、・・・、Ｓ５と、パルスＰ１、Ｐ２、Ｐ３、・・・、Ｓ５を有している場合、セグメントＳ１は、パルスＰ１、Ｓ２はＰ２などのように移動される。一般に、セグメント長は、連続するパルスの間の距離に一致しないだろう。これを扱うために用いる、２つの処理がある。

セグメントは、連続するパルスの間の空間にフィットするために、（短すぎれば）時間的に引き伸ばされ、あるいは、（長すぎれば）時間的に圧縮される。この処理が、図９に、図式的に示される。以下に、位相ボコーダ９１３の使用に基づいた、時間引き延ばし、及び、圧縮の技術を説明する。

セグメントが短すぎた場合、それは、無音でパッディングされる。第１の処理が最もしばしば使用されるが、セグメントが、フィットするために、実質的に引き伸ばされる必要がある時には、後者の処理が時々、引き伸ばしアーチファクトを防止するために用いられる。

２つの追加的な戦略が、余分な引き伸ばし、あるいは、圧縮を最小化するために用いられる。第1に、Ｓ１からのマッピングを開始するのみではなく、全ての可能なセグメントから開始し、端に至ったなら、丸め込む全てのマッピングを考える。したがって、Ｓ５から開始すると、マッピングは、セグメントＳ５からパルスＰ１、Ｓ６からＰ２などとなるだろう。各開始点については、リズム的歪みと呼ぶ、引き伸ばし／圧縮の全量を測定する。ある実施形態においては、リズム的な歪みスコアは、１より小さい、引き伸ばし比の逆数として計算される。この処理は、各リズムパターンについて繰り返される。リズム的歪みスコアを最小化する、リズムパターン（例えば、リズムの骨格あるいはグリッド９０３）及び、開始点は、最良マッピングとして採用され、合成に使用される。

ある場合、あるいは、実施形態においては、しばしば、より良く機能することが分かるが、別のリズム的歪みスコアが、速度スコアの分布の異常値の数を数えることによって計算された。特に、データは、十分位数に分割され、速度スコアが最低と最高の十分位数であったセグメントの数が、スコアを与えるために加算された。より高いスコアは、より異常値であり、したがって、リズム的歪みがより大きい程度であることを示す。

第２に、位相ボコーダ９１３は、様々なレートで、引き伸ばし／圧縮を行うために用いられる。これは、リアルタイムで、すなわち、全ソース音響にアクセスすることなしに、実行される。時間的引き延ばし及び圧縮は、必然的に、異なる長さの入力と出力となり−これは、引き伸ばし／圧縮の度合いを制御するために用いられる。ある場合、あるいは、実施形態においては、位相ボコーダ９１３は、４倍の重なりで動作し、その出力を累積ＦＩＦＯバッファに追加する。出力が要求されると、データは、このバッファからコピーされる。このバッファの有効部分の終端に至ると、コアルーチンは、現在の時間ステップで、データの次のホップを生成する。各ホップについては、新しい入力データが、コールバックによって検索され、初期化の間提供され、外部オブジェクトが、ある数の音響サンプルを提供することによって、時間引き延ばし／圧縮の量を制御することが出来るようにする。１時間ステップの出力を計算するために、長さ１０２４（ｎｆｆｔ）で、ｎｆｆｔ／４のオフセットを有する２つの重なりウィンドウが、前の時間ステップからの複素出力と比較される。全入力信号が使えないリアルタイムで、これを可能とするために、位相ボコーダ９１３は、長さ５／４ｎｆｆｔの入力信号のＦＩＦＯバッファを保持し、それによって、これらの２つの重なりウィンドウは、任意の時間ステップで利用可能である。最新のデータを有するウィンドウは、「フロント」ウィンドウと呼ばれ、他の（「バック」）ウィンドウは、デルタ位相を取得するために用いられる。

第１に、前の複素出力は、その強度が規格化され、単位強度の複素数のベクトルを得、これは位相成分を表す。そして、ＦＦＴは、フロントとバックウィンドウの両方で取られる。規格化された前の出力は、バックウィンドウの複素共役と乗算され、バックウィンドウの強度を有し、バックウィンドウと前の出力との間の差に等しい位相を有する複素ベクトルとなる。

与えられた周波数ビンの各複素振幅を、その隣接値に渡る平均で置き換えることにより、隣接周波数ビンの間の位相コヒーレンスを維持しようと試みる。あるビンに明らかに正弦波形状があり、隣接ビンが低レベルノイズを伴っているならば、その強度は、その隣接値よりも大きく、それらの位相は、真の正弦波の位相と置き換えられるだろう。これは、再合成品質を顕著に改善することが分かった。

結果のベクトルは、その後、その強度が規格化され、強度が０のビンについてさえ単位強度に確実に規格化されるように、わずかなオフセットが規格化の前に追加される。このベクトルは、フロントウィンドウのフーリエ変換によって乗算され、結果のベクトルは、フロントウィンドウの強度を有するが、位相は、前の出力の位相に対する、フロントウィンドウとバックウィンドウの間の差の和となるだろう。出力が、入力がコールバックによって提供されるものと同じレートで要求されるならば、これは、位相コヒーレンスステップが排除されるならば、再構成と同等である。

［自動生成伴奏変形例］
図２Ｃを振り返って参照すると、自動伴奏変換（ＬａＤｉＤａ機能２２３）を音響パイプライン２２０に組み込む変形例が説明された。ＬａＤｉＤａ機能２２３及びそれによって実行される変換の実装は、ここにより完全に説明される。前述されたように、ＬａＤｉＤａ機能２２３は、一般に、歌声のピッチを追跡し、キーを評価し、メロディ構造を解析し、境界とセクションを特定するために、取得された歌声（音響）について実行される追加的な信号処理として理解されるだろう。そのような導出された特性に基づき、ＬａＤｉＤａ機能２２３は、取得された歌声に対し、音楽的伴奏を自動的に生成する。Ｓｏｎｇｉｆｙ及びＡｕｔｏＲａｐ型変換について上記した、分割とフレーズテンプレートマッピング技術は、オプションとして含まれることが出来、本開示の利益を有する当業者によれば、理解されるであろう。

図２Ｃに従う変形例においては、取得された音響は、歌声を含む。取得された歌声から音楽的伴奏を計算的に自動で生成することは、音響（２２０）及びビデオ（２３０）パイプラインで適用される、コーディネートされた音響及びビデオ効果フィルタペア２６１の基本機能（図２Ａを最参照されたい）に追加して提供される。図１１の最上位レベルの機能フローに図示されるように、ＬａＤｉＤａ型機能２２３は、歌声のピッチを追跡し（１１９２）、キーを評価し（１１９３）、メロディ構造を解析し（１１９４）、それによって、歌声の境界とセクションを特定するための、取得された歌声音響１１９１のための追加的信号処理を提供する。そのような導出された特性に基づき、ＬａＤｉＤａ型機能２２３は、コード割り当て（１１９５）に対し、隠れマルコフモデル（ＨＭＭ）技術を用い、かつ、テンプレートスタイルファイルからの選択（１１９６）を用いて、音楽的伴奏を自動的に生成する。結果のＭＩＤＩ形式の伴奏（１１９７）は、レンダリングエンジン２５０によって最終的にレンダリングされる、歌声信号／データを生成するために、取得された歌声（取得された歌声の処理された導出物を含む）と、音響パイプライン２２０において、ミキシングされることが出来ることを理解されたい（図２Ｃを最参照されたい）。

音響フィルタ２２１動作は、一般に、取得された歌声、自動生成された伴奏あるいは、ミキシングされた演奏（自動生成された伴奏とミキシングされた取得された／処理された歌声）の信号／符号化に適用されることが出来る。オプションとして、ＬａＤｉＤａ型機能２２３（例えば、構造境界）及び／あるいは、計算的にこれから導出された選択（例えば、スタイル）によって抽出された音響的特徴は、音響パイプライン２２０において処理された音響コンテンツ（自動生成された伴奏を伴う歌声）へのビデオパフォーマンス効果の適用をコーディネートさせるように、ビデオパイプライン２３０側ビデオフィルタ２３１に伝搬されることが出来る。

本開示の利益を有する当業者は、図１１に従う、あるいは、ここに適用される技術の部分集合あるいは超集合に基づく音楽的伴奏の自動生成の可能な種々の実装を理解するだろうが、歌声ピッチ追跡（１１９２）、キー評価（１１９３）、構造解析（１１９４）、コード割り当てのための隠れマルコフモデル（ＨＭＭ）技術及びスタイルプレーヤー選択（１１９６）の例示的及び具体的計算システム実装の更なる詳細は、２０１２年１２月１２日出願の米国仮出願番号６１／７３６、５０３号の付録Ａに現れており、これは、参照により、ここに組み込まれる。

［システム及びネットワーク展開］
図１０は、ある実施形態においては、発話−音楽あるいは発話−ラップ対象、及び／あるいは、自動伴奏生成計算ファシリティを含む、コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタと共に、音響視覚取得及び共有が提供される、ネットワークに接続された通信環境を図示する。計算ファシリティは、本明細書に説明した信号処理技術の計算による実現を実装し、音響視覚コンテンツを（例えば、マイク及び、カメラインタフェースあるいは入力によって）取得するために、ハンドヘルド計算プラットフォーム１００１上で実行可能で、遠隔のデータ記憶装置あるいはサービスプラットフォーム（例えば、サーバ／サービス１００５あるいは、ネットワーククラウド１００４内）と通信し、及び／あるいは、本発明のある実施形態に従って、変換された音響信号を音響的に及び視覚的にレンダリングするのに適した、遠隔の装置（例えば、追加的な音響視覚取得及び／あるいは共有アプリケーションインスタンスをホストするハンドヘルド計算プラットフォーム１００２及び／あるいは、コンピュータ１００６）と通信するアプリケーション（あるいは、さもなくば、呼び出し可能／実行可能な機能）として実装される。

［他の実施形態］
本発明が、様々な実施形態を参照して説明されたが、これらの実施形態は例示目的で、本発明の範囲をこれらに限定するものではないことが理解されるだろう。多くの変形、改変、追加、改善が可能である。例えば、実施形態は、歌声発話を取得され、バックトラックとミキシングされるために、自動的に変換され、整列されるものとして説明されたが、ここに説明した、取得した歌声の自動変換は、また、対象のリズムあるいは拍子（詩、強弱格のサイクル、リメリックなどにおいて特徴的であるような）と時間的に整列され、音楽的伴奏のない表現的演奏を提供するために用いられることも可能であることが理解されるだろう。

更に、ある例示的信号処理技術が、ある例示的応用の文脈で説明されたが、当業者は、他の適切な信号処理技術及び効果を適応させるために、説明された技術を改変することは直接的なことであることを認識するだろう。

本発明に従った、ある実施形態は、玩具、あるいは、娯楽市場のためなどの、専用装置の形状を有することができ、及び／あるいは、専用装置として提供されることができる。図では、本明細書に説明される自動変換技術が、歌声取得のためのマイク、プログラムされたマイクロコントローラ、デジタル−アナログ回路（ＤＡＣ)、アナログ−デジタル変換器（ＡＤＣ）回路及び、任意の一体スピーカあるいは音響信号出力を有する専用装置において、（例えば、ｉＯＳ装置などのプログラム可能なハンドヘルド計算プラットフォーム実施形態に対して）低価格で提供される、そのような装置の種類に適したデータ及び他のフローと共に、機能ブロックが示された。

本発明に従った、ある実施形態は、本明細書に説明した方法を実行するために、計算システム（ｉＰｈｏｎｅハンドヘルド、携帯装置あるいは、携帯計算機装置）において実行される、命令列としてマシン可読媒体に符号化されたコンピュータプログラム製品、及び、非一時的媒体に有形的に実体化されたソフトウェアの他の機能構成の形状を取り、及び／あるいは、これらのものとして提供される。一般に、マシン可読媒体は、情報を伝送するために用いられる、有形の非一時的記憶装置と共に、マシン（例えば、コンピュータ、携帯装置あるいは携帯計算機装置などの計算ファシリティなど）によって読み取り可能な形状（例えば、アプリケーション、ソースあるいはオブジェクトコード、機能的記述情報など）で情報が符号化された、有形の態様を含むことが出来る。マシン可読媒体は、磁気記憶媒体（例えば、ディスク及び／あるいはテープ記憶装置）、光記憶媒体（例えば、ＣＤ−ＲＯＭ、ＤＶＤ、など）、光磁気記憶媒体、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルメモリ（例えば、ＥＰＲＯＭ及びＥＥＰＲＯＭ）、フラッシュメモリ、電子命令、動作シーケンス、機能的記述情報符号化などを格納するのに適した、他の種類の媒体を含むことが出来るが、これらには限定されない。

一般に、複数の例が、本明細書で説明されたコンポーネント、動作あるいは構造に対し、単数の例として提供されることが出来る。様々なコンポーネント、動作、データ記憶装置の間の境界は、いくらか恣意的で、特定の動作は、特定の例示目的の構成の文脈で図示された。機能の他の割り当てを考えることができ、それは、本発明の範囲に入る。一般に、例示的構成において、別個のコンポーネントとして提示された構造及び機能は、結合された構造あるいはコンポーネントとして実装されることが出来る。同様に、単一のコンポーネントとして提示された構造及び機能は、個別のコンポーネントとして実装されることが出来る。これら、及び、他の変形、改変、追加、及び、改善は、本発明の範囲内に入る。

Claims

取り付けられているマイクとカメラインタフェースから対応する音響及びビデオストリームを取得し、前記取得された音響及びビデオストリームを、記憶装置に、少なくとも一時的に格納するために、携帯計算機装置を用いることと、
前記携帯計算機装置上で、複数の予め決められた効果プロファイルから第１の効果プロファイルを選択することであって、前記予め決められた効果プロファイルは、それぞれ、前記音響及びビデオストリームに適用するための、音響及び視覚フィルタのそれぞれのコーディネートされたペアから選択される、ことと、
前記音響及びビデオストリームを、それぞれのコーディネートされた音響及びビデオパイプラインで処理することであって、前記コーディネートは、前記コーディネートされた音響及び視覚フィルタの、前記それぞれの音響及びビデオストリームへの適用に、少なくとも部分的に基づく、ことと、
前記携帯計算機装置のディスプレイに対し、適用された前記コーディネートされた音響及び視覚フィルタで、前記音響及びビデオストリームを音響視覚的にレンダリングすることと、
その後、前記レンダリングされた音響視覚コンテンツを格納し、伝送し、あるいは、投稿することと、
を含む、
ことを特徴とする音響視覚処理方法。
前記格納、伝送あるいは投稿の前に、前記複数の予め決められた効果プロファイルから少なくとも第２の効果プロファイルを選択することと、前記第２の効果プロファイルの前記コーディネートされた音響及び視覚フィルタを用いて、前記処理及び音響視覚的レンダリングステップを行うことと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
少なくとも前記第１の効果プロファイルは、前記音響パイプラインで適用された場合、前記処理された音響ストリームから時間的に局所化可能な特徴を抽出する音響フィルタから選択され、
前記コーディネートは、前記ビデオパイプラインにおいて、前記音響パイプラインにおいて抽出された、少なくとも１つの時間的に局所化可能な特徴を用いることを更に含む、
ことを特徴とする請求項１に記載の方法。
少なくとも前記第１の効果プロファイルは、前記ビデオパイプラインで適用された場合、前記処理されたビデオストリームから時間的に局所化可能な特徴を抽出するビデオフィルタから選択され、
前記コーディネートは、前記音響パイプラインにおいて、前記ビデオパイプラインにおいて抽出された少なくとも１つの時間的に局所化可能な特徴を用いる、ことを更に含む、
ことを特徴とする請求項１に記載の方法。
前記音響パイプラインにおいて、前記音響ストリームを複数のセグメントに分割することと、セグメントのそれぞれを、対象の歌のフレーズテンプレートのそれぞれのサブフレーズ部分にマッピングすることとを更に含み、
前記コーディネートは、前記ビデオパイプラインにおいて、前記音響の分割及びマッピングに対応して、前記ビデオストリームを分割することと、そのセグメントをマッピングすることとを更に含む、
ことを特徴とする請求項１に記載の方法。
前記取得された音響ストリームは、前記ビデオストリームと時間的に同期された歌声を含み、
前記分割は、前記歌声において検出された開始に基づいて、前記音響パイプラインにおいて、境界付けられる、
ことを特徴とする請求項５に記載の方法。
前記音響パイプラインにおいて、前記音響ストリームを複数のセグメントに分割することと、前記セグメントの連続するものを、対象の歌のリズムの骨格のそれぞれのパルスに時間的に整列することと、前記時間的に整列されたセグメントの少なくともいくつかを時間的に引き伸ばすことと、前記時間的に整列されたセグメントの少なくともいくつかの他のものを時間的に圧縮することとを更に含み、
前記コーディネートは、前記ビデオパイプラインにおいて、前記ビデオストリームを分割することと、前記音響の分割整列、引き伸ばし、及び、圧縮に対応して、そのそれぞれのセグメントを、時間的に整列し、引き伸ばし、及び、圧縮することを更に含む、
ことを特徴とする請求項１に記載の方法。
前記取得された音響ストリームは、前記ビデオストリームに時間的に同期された歌声を含み、
前記セグメントは、前記歌声において検出された開始に基づいて、前記音響パイプラインにおいて、境界付けられる、
ことを特徴とする請求項７に記載の方法。
前記取得された音響ストリームは、歌声を含み、
前記音響パイプラインにおいて、前記歌声において検出されたメロディのピッチの和音であるコード選択に基づいて、かつ、更に、コード進行の統計的モデルに基づいて、前記歌声に対する音楽的伴奏を自動生成することを更に含む、
ことを特徴とする請求項１に記載の方法。
前記携帯計算機装置から、１以上の追加的な効果プロファイルの購入あるいはライセンスの取引を実行することを更に含む、
ことを特徴とする請求項１に記載の方法。
前記取引の実行において、前記携帯計算機装置の通信インタフェースを介して検索すること、あるいは、前記１以上の追加的効果プロファイルのコンピュータ可読符号化の既存の格納されたインスタンスを開放することを更に含む、
ことを特徴とする請求項１０に記載の方法。
前記記憶装置は、前記携帯計算機装置に対してローカルである、
ことを特徴とする請求項１に記載の方法。
前記記憶装置は、少なくとも部分的に、ネットワークに存在し、前記携帯計算機装置から離れている、
ことを特徴とする請求項１に記載の方法。
前記携帯計算機装置とネットワークを介して通信するが、物理的に離れている、サービスプラットフォームにおいて、少なくとも最終的に選択された効果プロファイルに合わせて、処理を実行することを更に含む、
ことを特徴とする請求項１に記載の方法。
音響フィルタインスタンスは、前記音響パイプラインで、前記音響ストリームに適用された場合、
スペクトル等化と、
音響圧縮と、
ピッチ補正と、
ステレオ遅延と、
反響あるいはエコーと、
オーディオトラックとのミキシングと、
のうちの１以上を提供する、
ことを特徴とする請求項１に記載の方法。
ビデオフィルタインスタンスは、前記ビデオパイプラインで、前記ビデオストリームに適用された場合、
ぼかし、あるいは、先鋭化と、
色マップ選択あるいは変換と、
色歪みあるいは等化と、
視覚ノイズ、重なりあるいは画像フレーム化と、
輝度あるいはコントラスト変化と、
ビデオフレームレート変化あるいはゲーティングと、
のうちの１以上を提供する、
ことを特徴とする請求項１に記載の方法。
前記携帯計算機装置は、
計算機バッドと、
ゲームコントローラと、
パーソナルデジタルアシスタントあるいは書籍リーダと、
携帯電話あるいはメディアプレーヤーと、
から成る群から選択される、
ことを特徴とする請求項１に記載の方法。
音響及び視覚フィルタの前記コーディネートされたペアは、前記音響及びビデオストリームに適用されるべき、芸術的に整合した効果を指定する、
ことを特徴とする請求項１に記載の方法。
音響及び視覚フィルタの前記コーディネートされたペアの少なくとも１つは、前記音響パイプラインにおいて、帯域制限フィルタ及び、スクラッチとポップトラックとのオーディオミキシングを含み、前記ビデオパイプラインにおいて、セピア色調フィルタ及び、フィルム粒とスクラッチとのビデオ重ね合わせを含む、ビンテージ効果を指定する、
ことを特徴とする請求項１に記載の方法。
前記携帯計算機装置に、請求項１に記載されたステップの少なくとも実質的な部分集合を実行させる、前記携帯計算機装置のプロセッサ上で実行可能な命令を含む、
１以上の媒体に符号化されたコンピュータプログラム製品。
前記携帯計算機装置に、請求項１に記載されたステップの少なくとも実質的な部分集合を実行させる、そのプロセッサ上で実行可能な命令でプログラムされた前記携帯計算機装置を含むシステム。
音響視覚コンテンツを変換する計算方法であって、
コンピュータ可読記憶装置から、コーディネートされた音響及びビデオストリームを含む音響視覚コンテンツの符号化にアクセスすることと、
それぞれのコーディネートされた音響及びビデオパイプラインにおいて、前記音響及びビデオストリームを処理することであって、前記それぞれの音響及びビデオパイプラインのコーディネートは、前記ビデオパイプラインによる処理において、前記音響パイプラインにおいて抽出された時間的に局所化可能な特徴を用いることを含む、ことと、
を含む、
ことを特徴とする方法。
前記時間的に局所化可能な特徴の少なくともいくつかは、音響側エポックを境界付ける、ことを特徴とする請求項２２に記載の方法。
前記コーディネートは、前記エポックに従って、前記音響及びビデオストリームの両方のそれぞれの部分を、再整列することを含む、
ことを特徴とする請求項２３に記載の方法。
特定のエポックの音響を、歌テンプレートのそれぞれの部分にマッピングすることを更に含み、前記マッピングは、前記音響を、時間的に引き伸ばすことと、圧縮することのうちの１以上を含み、
前記コーディネートは、前記エポックマッピングに従って、前記ビデオストリームの対応する部分をマッピングすることと、前記ビデオストリームに対応する時間的引き延ばし、及び、圧縮を適用することとを含む、
ことを特徴とする請求項２３に記載の方法。
前記マッピングは、前記音響ストリームのそれぞれの部分を繰り返すことを含み、
前記コーディネートは、前記ビデオストリームに同じ繰り返しを適用することを含む、
ことを特徴とする請求項２５に記載の方法。
前記音響ストリームは、歌声を含み、前記時間的に局所化可能な特徴の少なくともいくつかは、前記歌声において検出された開始に対応する、
ことを特徴とする請求項２３に記載の方法。
前記音響パイプラインにおいて、歌声の音響符号化を複数のセグメントに分割することと、前記セグメントのそれぞれのものを、対象の歌のフレーズテンプレートのそれぞれのサブフレーズ部分にマッピングすることとを更に含み、
前記コーディネートは、前記ビデオパイプラインにおいて、前記音響分割及びマッピングに対応して、前記ビデオストリームを分割することと、そのセグメントをマッピングすることを含む、
ことを特徴とする請求項２２に記載の方法。
前記セグメントは、前記音響符号化において特定された開始によって境界付けられる、前記音響符号化のサンプル列に対応する、
ことを特徴とする請求項２８に記載の方法。
前記音響パイプラインにおいて、前記マッピングされた音響セグメントの１以上を、前記対象の歌のリズムの骨格に時間的に整列することと、
前記ビデオパイプラインにおいて、前記音響整列に対応して、前記ビデオセグメントを時間的に整列することと、を更に含む、
ことを特徴とする請求項２８に記載の方法。
前記音響パイプラインにおいて、歌声の音響符号化を複数のセグメントに分割することと、前記セグメントの連続するものを、対象の歌のリズムの骨格のそれぞれのパルスに時間的に整列することと、前記時間的に整列されたセグメントの少なくともいくつかを時間的に引き伸ばすことと、前記時間的に整列されたセグメントの少なくともいくつかの他のものを時間的に圧縮することとを更に含み、
前記コーディネートは、前記ビデオパイプラインにおいて、前記音響分割整列、引き伸ばし、及び、圧縮に対応して、前記ビデオストリームを分割することと、そのぞれぞれのセグメントを、時間的に整列し、引き伸ばし、圧縮することと、を含む、
ことを特徴とする請求項２２に記載の方法。
前記取得された音響ストリームは、歌声を含み、
前記音響パイプラインにおいて、前記歌声に検出されたメロディのピッチの和音であるコードの選択に基づき、かつ、コード進行の統計的モデルに更に基づいて、前記歌声への音楽的伴奏を自動的に生成することを更に含む、
ことを特徴とする請求項２２に記載の方法。
携帯計算機装置上で、前記コーディネートされた音響及びビデオストリームを取得することと、前記それぞれのコーディネートされた音響及びビデオパイプラインにおいて、前記音響及びビデオストリームの処理を実行することを更に含む、
ことを特徴とする請求項２２に記載の方法。
前記携帯計算機装置上で、前記コーディネートされた音響及びビデオパイプラインの出力を音響視覚的にレンダリングすることを更に含む、
ことを特徴とする請求項３３に記載の方法。
前記コンピュータ可読記憶装置は、前記音響及びビデオパイプラインをホストする携帯計算機装置に対してローカルである、
ことを特徴とする請求項２２に記載の方法。
前記コンピュータ可読記憶装置は、少なくとも部分的にネットワークに存在し、前記音響及びビデオパイプラインをホストする携帯計算機装置から離れている、
ことを特徴とする請求項２２に記載の方法。
前記それぞれの音響及びビデオパイプラインの前記コーディネートは、前記音響及びビデオストリームに、芸術的に整合した効果を適用することをさらに含み、
適用された、前記芸術的に整合した効果を用いて、前記音響及びビデオストリームを音響視覚的にレンダリングすることを更に含む、
ことを特徴とする請求項２２に記載の方法。
前記芸術的に整合した効果は、ビンテージ効果を含み、
前記音響パイプラインにおいて適用された前記ビンテージ効果は、帯域制限フィルタ及び、スクラッチとポップトラックとのオーディオミックスを含み、
前記ビデオパイプラインにおいて適用された前記ビンテージ効果は、セピア色調フィルタ及び、フィルム粒とスクラッチとのビデオ重ね合わせを含む、
ことを特徴とする請求項３７に記載の方法。
音響視覚コンテンツを変換する計算方法であって、
コンピュータ可読記憶装置から、コーディネートされた音響及びビデオストリームを含む音響視覚コンテンツの符号化にアクセスすることと、
それぞれのコーディネートされた音響及びビデオパイプラインにおいて、前記音響及びビデオストリームを処理することであって、前記それぞれの音響及びビデオパイプラインのコーディネートは、前記音響パイプラインによる処理において、前記ビデオパイプラインにおいて抽出された時間的に局所化可能な特徴を用いることを含む、ことと、
を含む、
ことを特徴とする方法。
前記時間的に局所化可能な特徴の少なくともいくつかは、ビデオエポックを境界付け、
時間的に局所化可能な特徴の前記使用は、前記ビデオエポックの間の境界に、少なくとも部分的に基づいて、前記音響ストリームを分割することを含む、
ことを特徴とする請求項３９に記載の方法。
前記時間的に局所化可能な特徴は、
オプティカルフローの強度あるいは方向の急激な変化と、
色分布の急激な変化と、
輝度の全体の、あるいは、空間的な分布の急激な変化と、
のうちの１以上を含む、
ことを特徴とする請求項３９に記載の方法。
携帯計算機装置において、コーディネートされた音響及びビデオストリームを取得することと、
それぞれのコーディネートされた音響及びビデオパイプラインにおける前記音響及びビデオストリームを処理することであって、前記それぞれの音響及びビデオパイプラインのコーディネートは、（ｉ）前記ビデオパイプラインによる処理において、前記音響パイプラインにおいて抽出された１以上の特徴を用いることと、（ｉｉ）前記音響パイプラインによる処理において、前記ビデオパイプラインにおいて抽出された１以上の特徴を用いることと、の一方、あるいは、両方を含む、ことと、
前記携帯計算機装置上で、前記コーディネートされた音響及びビデオパイプラインの出力を音響視覚的にレンダリングすることと、
を含む、
ことを特徴とする方法。
前記携帯計算機装置は、
計算機バッドと、
ゲームコントローラと、
パーソナルデジタルアシスタントあるいは書籍リーダと、
携帯電話あるいはメディアプレーヤーと、
から成る群から選択される、
ことを特徴とする請求項４２に記載の方法。
請求項４２に記載された方法を前記携帯計算機装置に実行させるために、前記携帯計算機装置のプロセッサ上で実行可能な命令を含む、１以上の媒体に符号化されたコンピュータプログラム製品。
携帯計算機装置を用いて、コーディネートされた音響及びビデオストリームを取得することであって、前記取得された音響ストリームは歌声を含む、ことと、
前記携帯計算機装置の音響及びビデオパイプラインにおいて適用されるべき、コーディネートされた音響及び視覚効果の予め決められたペアの中から選択することと、
前記歌声において検出されたメロディのピッチの和音であるコードの選択に基づき、かつ、コード進行の統計的モデルに更に基づき、前記歌声の音楽的伴奏を自動的に生成することと、
適用された、前記コーディネートされた音響及び視覚効果を用いて、前記音響及びビデオストリームを音響視覚的にレンダリングすることと、
を含む、
ことを特徴とする方法。
前記音響視覚的レンダリングは、自動的に生成された音楽的伴奏を含む、
ことを特徴とする請求項４５に記載の方法。
コーディネートされた音響及び視覚効果の少なくとも第２の予め決められたペアを選択することと、その後、適用された、コーディネートされた音響及び視覚効果の前記第２のペアを用いて、前記音響及びビデオストリームを音響視覚的に再レンダリングすることを更に含む、
ことを特徴とする請求項４５に記載の方法。
前記レンダリングされた、あるいは、再レンダリングされた音響視覚コンテンツを、格納し、伝送あるいは投稿することを更に含む、
ことを特徴とする請求項４５に記載の方法。
前記音響効果は、
反響あるいはエコー効果と、
コーラスあるいは和音効果と、
電話で起動される帯域制限フィルタ、市民帯（ＣＢ）ラジオあるいはビンテージオーディオと、
重ね合わせトラックと、
のうちの１以上を含む、
ことを特徴とする請求項４５に記載の方法。
前記ビデオ効果は、
色ずれと、
輝度あるいはコントラスト変化と、
先鋭化あるいは、ぼかしと、
ビデオゲーティングあるいは重ね合わせと、
のうちの１以上を含む、
ことを特徴とする請求項４５に記載の方法。
前記携帯計算機装置は、
計算機バッドと、
ゲームコントローラと、
パーソナルデジタルアシスタントあるいは書籍リーダと、
携帯電話あるいはメディアプレーヤーと、
から成る群から選択される、
ことを特徴とする請求項４５に記載の方法。