JP2016509384A - コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタを有する音響視覚取得及び共有フレームワーク - Google Patents
コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタを有する音響視覚取得及び共有フレームワーク Download PDFInfo
- Publication number
- JP2016509384A JP2016509384A JP2015547574A JP2015547574A JP2016509384A JP 2016509384 A JP2016509384 A JP 2016509384A JP 2015547574 A JP2015547574 A JP 2015547574A JP 2015547574 A JP2015547574 A JP 2015547574A JP 2016509384 A JP2016509384 A JP 2016509384A
- Authority
- JP
- Japan
- Prior art keywords
- video
- audio
- acoustic
- pipeline
- coordinated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/414—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
- H04N21/41407—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4318—Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4852—End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4854—End-user interface for client configuration for modifying image parameters, e.g. image brightness, contrast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2621—Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
コーディネートされた音響及びビデオフィルタペアは、音響視覚演奏の芸術的及び感情的コンテンツを増強するために適用される。そのようなフィルタペアは、携帯計算機装置(携帯電話あるいはメディアプレーヤー、計算機バッドあるいはタブレット、ゲームコントローラあるいはパーソナルデジタルアシスタントあるいは書籍リーダなど)上でホストされる音響視覚アプリケーションの音響及びビデオ処理パイプラインにおいて適用された場合、コーディネートされた音響及びビデオ両方を増強する効果のユーザの選択を可能にすることが出来る。コーディネートされた音響及びビデオは、カメラ及びマイクインタフェースを用い、プロセッサ上で実行可能なデジタル信号処理ソフトウェアを用い、及び、装置の、あるいは、これと相互運用性のある記憶装置、スピーカ、及びディスプレイ装置を用い、携帯計算機装置において、取得され、フィルタ処理され、及び、レンダリングされる。身近なハンドヘルド装置に音響視覚取得及び個人化を提供することによって、現在のソーシャルネットワークプラットフォームによって広く広まった種類のソーシャルインタラクション及び投稿は、音響視覚コンテンツに拡張されることが出来る。【選択図】図2A
Description
本発明は、概して、音響視覚コンテンツのためのデジタル信号処理を含む演算技術に関し、より詳細には、システムあるいは装置が、取得された、及び/あるいは、アクセスされた音響視覚コンテンツに、コーディネートされた音響及び視覚効果フィルタ処理を適用するようにプログラミングされる技術に関する。
携帯電話及び他のハンドヘルド計算機装置の実装されたベースは、圧倒的な数及び計算能力において、日々進化している。世界中の人々の生活スタイルにおいて、非常にありふれており、深く浸透したことにより、これらは、ほとんど全ての文化的および経済的障壁を超越している。計算の側面では、今日の携帯電話は、10年以内の昔のデスクトップコンピュータに匹敵する速度と記憶容量を提供し、リアルタイムの音声合成、及び、他の音響視覚信号のデジタル信号処理に基づいた変換に驚くほど適するようになっている。
事実、Androidオペレーティングシステムで動作する競合装置と共に、Apple Inc.から購入することが出来る、iPhone(商標)、iPod Touch(商標)および iPad(商標)デジタル装置などのiOS(商標)装置を含む、現在の携帯電話及びハンドヘルド計算機装置は、みな、非常に良く、音響及びビデオ再生及び処理をサポートする傾向にある。これらの性能(プロセッサ、メモリ、リアルタイムデジタル信号処理に適したI/O装置、ハードウェア及びソフトウェアのCODECS、音響視覚APIなどを含む)は、様々な応用及び開発者エコシステムに寄与してきた。音楽への応用空間における例は、リアルタイムでの連続的な、取得した歌声のピッチ補正を提供するSMule,Inc.から購入する事が出来る、ソーシャル音楽アプリである、広く知られた、I Am T−Pain, Glee Karaoke、取得した歌声を目標の音楽あるいは拍子に適用する、Songify and AutoRapアプリ(これらもSMuleから購入することが出来る)、及び、ユーザの歌声に合うように自動的に音楽を作曲する、LaDiDa リバースカラオケアプリ(これもSMuleから購入することができる)を含む。
音響視覚コンテンツを操作する用途においては、結果の音響視覚演奏の芸術的及び感情的なコンテンツを増強する、コーディネートされた音響及びビデオフィルタペアを適用することが可能であることが発見された。そのようなフィルタペアは、携帯計算機装置(携帯電話、あるいは、メディアプレーヤー、計算機バッドあるいはタブレット、ゲームコントローラ、あるいは、パーソナルデジタルアシスタントあるいは書籍リーダなど)上に設けられる音響視覚アプリケーションの音響及びビデオ処理パイプラインに適用されると、コーディネートされた音響と視覚の両方を増強する効果をユーザが選択することを可能とする。しばしば、コーディネートされた音響及びビデオは、カメラ及びマイクインタフェースを用い、プロセッサ上で実行可能なデジタル信号処理ソフトウェアを用い、相互運用可能な、記憶装置、スピーカ、および、表示装置を用いる、携帯計算機装置において、取得され、フィルタリングされ、レンダリングされる。携帯電話のような、身近なハンドヘルド装置に、音響視覚取得及び個人化(personalization)(例えば、ユーザが選択可能であるが、コーディネートされたフィルタペアによって)を提供することによって、現代のソーシャルネットワークプラットフォームによって一般的になった、ある種のソーシャルインタラクション及び投稿を、音響視覚コンテンツに拡張することが出来る。
密接に結合した音響とビデオフィルタを提供することによって、ユーザの操作は、簡単化され、少なくとも一部は、創造的なプロセスにおけるユーザの貢献によって、ソーシャルネットワークインタラクションは増強される。例えば、ここに説明する、音声視覚的用途のある実施形態においては、ユーザは、取得された音響視覚コンテンツへ、ビンテージ感を提供するために、音響とビデオ効果フィルタのコーディネートされたペアを適用することが出来る。音響パイプラインにおいては、フィルタペアの音響部分は、帯域制限された、取得(あるいは検索)された音響へ作用し、初期の記録媒体に起きるスクラッチ及び他のノイズを追加することが出来る。ビデオパイプラインにおいては、フィルタペアのビデオ部分は、色マップをセピア色調にゆがませるように動作することができ、フィルム投影におきる、粒質及び/あるいは、フレームレート効果をフィルムに加えるように動作することが出来る。他のフィルタペアは、他のスタイルあるいは効果を提供するように選択することが出来る。例えば、休暇期間フィルタペアは、季節的に適切な音響トラックをミキシングしたり、それに対して取得された音声を適用したり、ビデオパイプラインに、シミュレーションされた降雪を重ね合わせたりするように、(音響パイプライン内で)動作することが出来る。任意の多様なコーディネートされた、音響及びビデオ効果は、ユーザとソーシャルネットワークの経験を増強するためにサポートされることが出来る。ある実施形態においては、ユーザは、一つのフィルタペア(すなわち、コーディネートされた音響及びビデオ効果)を選択し、適用することが出来、楽しくあるいは好ましく処理された、取得した音響視覚コンテンツを完成し、投稿する前に気が変わって、ハンドヘルド装置で動作する音響及びビデオ処理パイプライン内の任意の数の他のフィルタペアを選択し、適用することが出来る。ある場合には、プレミアム音響及びビデオ効果ペアは、アプリ内購入で購入することが出来る。ある場合には、最終的レンダリングは、ローカルに行うことが出来る。ある場合には、ソーシャルネットワークサービスと別個の、あるいは、これらと一体化されたリモートプラットフォームが、最終的なレンダリングを行うことが出来る。
ある実施形態では、音楽生成技術も用いられ、音響及びビデオ効果ペアの相補的あるいは構成部分に影響を与える。例えば、ある場合には、歌声型音響入力は、コーディネートされた音響視覚コンテンツの音響部分に基づいて、カスタムメードなサウンドトラックを生成するために、iOS及びAndroid装置のためのLaDiDaアプリケーション(SMuleから購入できる)で広く広まったタイプの音楽生成技術を駆動するために使用される。取得され、あるいは、検索された音響入力(これは、典型的ではあるが、歌声を必ずしも含まなくても良い)が処理され、音楽が、入力と合致する、あるいは、入力を補間するために自動的に(つまり、アルゴリズム的に)作曲される。
ある場合には、音響パイプライン内のLaDiDa型の処理は、ユーザによって選択され、適用された、コーディネートされた音響及びビデオ効果ペアの音響部分によって指定されることが出来る。一般に、LaDiDa型の処理は、入力のピッチを追跡し、適切なハーモニーを見つけることによって動作する。その後、結果としてのコードマップは、選択されたスタイルに依存して使用される異なる楽器で、音楽を生成するのに用いられる。入力音響(例えば、発され、あるいは、歌われたユーザの歌声)は、今度は、自動的に生成された伴奏のキーにマッチするようにピッチ補正される。ある場合には、自動生成の伴奏、キーあるいは他のスタイルの特定の楽器の選択は、コーディネートされたペアの音響フィルタ部分によって指定されることが出来る。ある場合には、節とコーラスの境界を特定するなどの、音響パイプライン処理の間に行われる、入力音響の構造解析の結果は、コーディネートされたビデオ効果を可能とするために、ビデオパイプラインに伝搬されることが出来る。
音響とビデオ効果ペアの相補的あるいは構成部分に影響を与えるために、音響パイプラインで用いられる音楽生成技術の他の形態は、iOS及びAndroid装置のためのSongify及びAutoRapアプリケーション(SMuleで購入することができる)において広く広まった種類の音響処理である。前述されたように、取得された、あるいは、検索された音響入力(必ずしも必要ではないが、典型的には歌声を含む)は、音楽を生成するために、音響パイプラインにおいて処理される。しかし、Songify及びAutoRapの技術の場合には、音響は、既存の音楽的あるいはリズム的構造に適用される。Songifyの場合には、音響入力は、対象の歌のフレーズのテンプレートに、分割され、及び、再マッピング(再度並べ替えされたサブフレーズの可能性がある)される。AutoRapの場合には、音響入力は、分割され、対象の歌のリズムの骨格に対し時間方向に整列される。SongifyあるいはAutoRap処理の選択は、ユーザによって選択され、適用される、コーディネートされた音響及びビデオ効果ペアの音響部分によって指定されうる。前述されたように、分割境界を特定する、再マッピングする、整列するなどの音響パイプライン処理の間に行われる入力音響の構造解析の結果は、コーディネートされたビデオ効果を可能とするために、ビデオパイプラインに伝送されることができる。
ユーザの観点からの処理の例は例示的なものである。ユーザが携帯計算機装置上で実行するアプリケーションで短いビデオを取得し、選択し、あるいは、生成した後、ユーザは、選択可能なタイルあるいはボタンで表される一組のフィルタを提示される。これらの選択可能なタイルあるいはボタンは、上記した、コーディネートされた音響及びビデオ効果ペアの一つの可能なユーザインタフェースの提示形態に過ぎない。記録されたビデオのフレームが、フィルタが適用された基本視覚効果と共に示され、ユーザが適切なフィルタを選択しやすくしている。ユーザがフィルタを選択すると、少なくとも、あるコーディネートされた音響及びビデオ効果ペアの場合、ユーザは、特定の歌あるいは音楽スタイルと共に、特定の音楽生成技術(LaDiDa型、SongifyあるいはAutoRapなど)も選択する。音響パイプラインでの音楽生成の出力は、音響入力と共に、選択されたスタイル/歌に依存する。
フィルタが選択されると、音響及びビデオは、選択された音響及びビデオ効果ペアに従ってレンダリングされ、ユーザは結果をプレビューする。別の音響及びビデオ効果ペアが選択され、プレビューされることも出来る。ユーザが、特定の音響及びビデオ効果フィルタペアによって提供される結果に満足するなら、ユーザはそれを了承し、音響視覚コンテンツは完全にレンダリングされる。この時点で、リモートサーバ、1以上のソーシャルネットワークプラットフォーム及び/あるいは電子メールに、コメントあるいは、他の音響視覚コンテンツの注釈投稿を追加することが可能である。
本発明に従った、ある実施形態では、音響視覚処理方法は、マイク及びカメラインタフェースからの対応する音響とビデオストリームを取得し、少なくとも一時的に、取得した音響及びビデオストリームを記憶装置に格納するために、携帯計算機装置を使用することを含む。携帯計算機装置上では、第1の効果プロファイルが、複数の予め決められた効果プロファイルから選択される。予め決められた効果プロファイルは、それぞれ、音響及びビデオストリームに適用される、音響及び視覚フィルタのそれぞれのコーディネートされたペアを選択するものである。音響及びビデオストリームは、それぞれのコーディネートされた音響及びビデオパイプラインで処理され、コーディネートは、コーディネートされた音響及び視覚フィルタのそれぞれの音響及びビデオストリームへの適用に少なくとも部分的に基づいている。音響及びビデオストリームは、適用される、コーディネートされた、音響及び視覚フィルタと共に、携帯計算機装置のディスプレイに対し、音響視覚的にレンダリングされる。その後、レンダリングされた音響視覚コンテンツは、格納され、伝送され、投稿される。
ある実施形態においては、この方法は、格納し、伝送し、あるいは、投稿する前に、複数の予め決められた効果プロファイルから、少なくとも第2の効果プロファイルを選択し、第2の効果プロファイルのコーディネートされた音響及び視覚フィルタを用いて、処理し、音響視覚的にレンダリングするステップを実行することを含む。
ある場合においては、第1の効果プロファイルは、音響パイプラインに適用された場合には、処理された音響ストリームから時間的に局所化可能な特徴を抽出する音響フィルタを選択するもので、コーディネートは、更に、ビデオパイプラインにおいて、音響パイプラインで抽出された少なくとも1つの時間的に局所化可能な特徴を用いることを含む。ある場合には、第1の効果プロファイルは、ビデオパイプラインに適用された場合には、処理されたビデオストリームから時間的に局所化可能な特徴を抽出するビデオフィルタを選択するものであり、コーディネートは、音響パイプラインにおいて、ビデオパイプラインで抽出された少なくとも1つの時間的に局所化可能な特徴を用いることをさらに含む。
ある実施形態においては、この方法は、音響パイプラインにおいて、音響ストリームを複数のセグメントに分割し、セグメントの個別のものを、対象の歌のフレーズテンプレートのそれぞれのサブフレーズ部分にマッピングすることを含む。コーディネートは、ビデオパイプラインにおいて、ビデオストリームを分割し、音響分割及びマッピングに対応して、そのセグメントをマッピングすることをさらに含む。ある場合には、取得された音響ストリームは、ビデオストリームと時間的に同期された歌声を含み、セグメントは、歌声の検出された開始に基づいて、音響パイプラインにおいて、境界付けられる。
ある実施形態においては、この方法は、音響パイプラインにおいて、音響ストリームを複数のセグメントに分割し、セグメントの連続するものを、対象の歌のリズムの骨格(rhythmic skeleton)のそれぞれのパルスに時間的に整列し、時間的に整列されたセグメントの少なくともいくつかを時間的に引き伸ばし、時間的に整列されたセグメントの少なくともいくつかの他のものを時間的に圧縮することを含む。コーディネートは、ビデオパイプラインにおいて、ビデオストリームを分割し、音響セグメントの整列、引き伸ばし、圧縮に対応して、そのそれぞれのセグメントを時間的に整列し、引き伸ばし、及び、圧縮することをさらに含む。ある場合には、取得された音響ストリームは、ビデオストリームと時間的に同期された歌声を含み、セグメントは、歌声の検出された開始に基づいて、音響パイプラインで境界付けられる。
ある実施形態においては、取得された音響ストリームは、歌声を含み、この方法は、音響パイプラインにおいて、歌声において検出されたメロディピッチの和音であるコードの選択に基づいて、及び、更に、コード進行の統計的モデルに基づいて、歌声の音楽的伴奏を自動的に生成することをさらに含む。
ある実施形態においては、この方法は、1以上の追加的な効果プロファイルの購買あるいはライセンスの取引を、携帯計算機装置から実行することを含む。ある場合には、この方法は、取引の促進において、1以上の追加的効果プロファイルのコンピュータ可読符号化を、携帯計算機装置の通信インタフェースを介して検索し、あるいは、符号化の既存の格納されているインスタンスを解除する、ことをさらに含む。
ある実施形態においては、記憶装置は、携帯計算機装置に対してローカルである。ある実施形態においては、記憶装置は、少なくとも部分的にネットワークに存在し、携帯計算機装置から離れている。
ある実施形態においては、この方法は、携帯計算機装置とネットワーク通信するが、物理的に離れている、サービスプラットフォームにおいて、少なくとも最終的に選択された効果プロファイルにしたがって、処理を実行することをさらに含む。
ある場合には、音響フィルタインスタンスは、音響パイプライン内の音響ストリームに適用された場合、スペクトル等化、音響圧縮、ピッチ補正、ステレオ遅延、反響あるいはエコー、及び、オーディオトラックとのミキシングの1つ以上を提供する。ある場合には、ビデオフィルタインスタンスは、ビデオパイプライン内のビデオストリームに適用された場合、ぼかし、あるいは、先鋭化、色マップ選択あるいは変換、色歪みあるいは等化、視覚ノイズ、重ね合わせ、あるいは、画像フレーム化、輝度、あるいは、コントラスト変更、及び、ビデオフレームレート変更あるいは、ゲーティングの1つ以上を提供する。
ある実施形態においては、携帯計算機装置は、計算機バッド、ゲームコントローラ、パーソナルデジタルアシスタント、あるいは、書籍リーダ、及び、携帯電話あるいはメディアプレーヤーの群から選択される。
ある場合には、音響及び視覚フィルタのコーディネートされたペアは、音響及びビデオストリームに適用されるべき、芸術的に整合した効果を指定する。ある場合には、音響及び視覚フィルタのコーディネートされたペアの少なくとも1つは、音響パイプラインにおいて、帯域制限フィルタ、スクラッチ及びポップトラックとのオーディオミックスを含み、ビデオパイプラインにおいては、セピア色調フィルタ、フィルム粒及びスクラッチのビデオ重ね合わせを含む、ビンテージ効果を指定する。
本発明に従った、ある実施形態においては、コンピュータプログラム製品は、1以上の媒体において符号化される。コンピュータプログラム製品は、携帯計算機装置に、上記の方法に記載されたステップの少なくとも実質的な部分集合を実行させる、携帯計算機装置のプロセッサ上で実行可能な命令を含む。
本発明に従った、ある実施形態において、システムは、携帯計算機装置に、上記の方法に記載されたステップの少なくとも実質的な部分集合を実行させる、そのプロセッサ上で実行可能な命令でプログラミングされた携帯計算機装置を含む。
本発明に従った、ある実施形態において、音響視覚コンテンツを変換する計算方法は、コンピュータ可読記憶媒体からの音響視覚コンテンツの符号化にアクセスすることを含み、音響視覚コンテンツは、コーディネートされた音響及びビデオストリームを含み、当該方法は、それぞれのコーディネートされた音響及びビデオパイプラインにおいて、音響及びビデオストリームを処理することを含み、それぞれの音響及びビデオパイプラインのコーディネートは、ビデオパイプラインによる処理において、音響パイプラインで抽出された時間的に局所化可能な特徴を用いることを含む。
ある場合には、時間的に局所化可能な特徴の少なくともいくつかは、音響側エポックを境界付ける。ある場合には、コーディネートは、エポックに従って、音響及びビデオストリームの両方のそれぞれの部分を再整列することを含む。ある実施形態においては、この方法は、特定のエポックの音響を、歌テンプレートのそれぞれの部分にマッピングすることをさらに含み、このマッピングは、音響の時間的引き延ばし及び圧縮のうちの1つ以上を含む。コーディネートは、エポックマッピングにあわせて、ビデオストリームの対応する部分をマッピングし、対応する時間的引き延ばし、及び、圧縮をビデオストリームに適用することを含む。ある場合には、マッピングは、音響ストリームのそれぞれの部分を繰り返すことを含み、コーディネートは、ビデオストリームに同じ繰り返しを適用することを含む。ある場合には、音響ストリームは、歌声を含み、時間的に局所化可能な特徴の少なくともいくつかは、歌声の検出された開始に対応する。
ある実施形態においては、この方法は、音響パイプラインにおいて、歌声の音響符号化を複数のセグメントに分割し、セグメントの個別のものを、対象の歌のフレーズテンプレートのそれぞれのサブフレーズ部分にマッピングすることをさらに含む。コーディネートは、ビデオパイプラインにおいて、ビデオストリームを分割し、そのセグメントを、音響分割とマッピングに対応して、マッピングすることを含む。ある場合においては、セグメントは、音響符号化において特定された開始によって境界付けられる音響符号化のサンプル列に対応する。ある実施形態においては、この方法は、音響パイプラインにおいて、1以上のマッピングされた音響セグメントを、対象の歌のリズムの骨格に時間的に整列し、ビデオパイプラインにおいて、ビデオセグメントを、音響整列に対応して、時間的に整列することをさらに含む。
ある実施形態においては、この方法は、音響パイプラインにおいて、歌声の音響符号化を、複数のセグメントに分割し、セグメントの連続するものを、対象の歌のリズムの骨格のそれぞれのパルスに時間的に整列し、時間的に整列されたセグメントの少なくともいくつかを時間的に引き伸ばし、時間的に整列されたセグメントの少なくともいくつかの他のものを時間的に圧縮することをさらに含む。コーディネートは、ビデオパイプラインにおいて、ビデオストリームを分割し、音響分割、整列、引き伸ばし、及び圧縮に対応して、そのそれぞれのセグメントを時間的に整列し、引き伸ばし、及び、圧縮することを含む。
ある実施形態においては、取得された音響ストリームは、歌声を含み、この方法は、音響パイプラインにおいて、歌声において検出されたメロディピッチの和音であるコードの選択に基づき、更に、コード進行の統計的モデルに基づき、歌声の音楽的伴奏を自動的に生成することをさらに含む。
ある実施形態においては、この方法は、携帯計算機装置上で、コーディネートされた音響及びビデオストリームを取得し、それぞれのコーディネートされた音響及びビデオパイプラインにおいて、音響及びビデオストリーム処理を実行することをさらに含む。ある実施形態においては、この方法は、携帯計算機装置上で、コーディネートされた音響及びビデオパイプラインの出力を、音響視覚的にレンダリングすることをさらに含む。
ある場合には、コンピュータ可読記憶装置は、音響及びビデオパイプラインをホストする携帯計算機装置に対してローカルである。ある場合には、このコンピュータ可読記憶装置は、少なくとも部分的にネットワークに存在し、音響及びビデオパイプラインをホストする携帯計算機装置から離れている。
ある場合には、それぞれの音響及びビデオパイプラインのコーディネートは、音響及びビデオストリームへ、芸術的に整合した効果を適用することをさらに含み、この方法は、芸術的に整合した効果を適用して、音響及びビデオストリームを音響視覚的にレンダリングすることをさらに含む。ある場合においては、芸術的に整合した効果は、ビンテージ効果を含む。音響パイプラインで適用されるビンテージ効果は、帯域制限フィルタと、スクラッチとポップトラックのオーディオミックスを含み、ビデオパイプラインで適用されるビンテージ効果は、セピア色調フィルタと、フィルム粒とスクラッチのビデオ重ね合わせを含む。
本発明に従った、ある実施形態においては、音響視覚コンテンツを変換する計算方法は、コンピュータ可読記憶装置からの音響視覚コンテンツの符号化にアクセスすることを含み、音響視覚コンテンツは、コーディネートされた音響及びビデオストリームを含み、当該方法は、それぞれのコーディネートされた音響及びビデオパイプラインにおいて、音響及びビデオストリームを処理することを含み、それぞれの音響及びビデオパイプラインのコーディネートは、音響パイプラインによる処理において、ビデオパイプラインにおいて抽出された時間的に局所化可能な特徴を用いることを含む。
ある場合には、時間的に局所化可能な特徴の少なくともいくつかは、ビデオエポックを境界付け、時間的に局所化可能な特徴の使用は、ビデオエポック間の境界に少なくとも部分的に基づいて、音響ストリームを分割することを含む。
ある場合には、時間的に局所化可能な特徴は、オプティカルフローの大きさ、あるいは、方向の急激な変化、色分布の急激な変化、及び、輝度の全体的あるいは空間的分布の急激な変化の1以上を含む。
本発明に従った、ある実施形態においては、方法は、携帯計算機装置において、コーディネートされた音響及びビデオストリームを取得することと、それぞれのコーディネートされた音響及びビデオパイプラインにおいて、音響及びビデオストリームを処理することとを含み、それぞれの音響及びビデオパイプラインのコーディネートは、(i)ビデオパイプラインによる処理において、音響パイプライン内で抽出された1以上の特徴を用いること、及び(ii)音響パイプラインによる処理において、ビデオパイプライン内で抽出された1以上の特徴を用いることの何れか、あるいは、両方を含み、当該方法は、携帯計算機装置上で、コーディネートされた音響及びビデオパイプラインの出力を音響視覚的にレンダリングすることを含む。ある場合には、携帯計算機装置は、計算機バッド、ゲームコントローラ、パーソナルデジタルアシスタントあるいは書籍リーダ、及び、携帯電話あるいはメディアプレーヤーの群から選択される。
本発明に従った、ある実施形態においては、1以上の媒体に符号化されたコンピュータプログラム製品は、携帯計算機装置に、上記の方法を実行させる、携帯計算機装置のプロセッサ上で実行可能な命令を含む。
本発明に従った、ある実施形態においては、方法は、(i)携帯計算機装置を使って、コーディネートされた音響及びビデオストリームを取得することであって、取得された音響ストリームは歌声を含む、ことと、(ii)携帯計算機装置の音響及びビデオパイプラインにおいて適用されるべき、コーディネートされた音響及び視覚効果の予め決められたペアから選択することと、(iii)歌声で検出されたメロディピッチの和音であるコードの選択に基づき、更に、コード進行の統計的モデルに基づき、歌声の音楽的伴奏を自動生成することと、ならびに、(iv)適用された、コーディネートされた音響及び視覚効果を用いて、音響及びビデオストリームを音響視覚的にレンダリングすることと、を含む。
ある場合には、音響視覚的レンダリングは、自動的に生成された音楽的伴奏を含む。ある実施形態においては、この方法は、コーディネートされた音響及び視覚効果の、少なくとも第2の予め決められたペアを選択し、その後、適用された、コーディネートされた音響及び視覚効果の第2のペアで、音響及びビデオストリームを音響視覚的に再レンダリングすることをさらに含む。ある実施形態においては、この方法は、レンダリングされ、あるいは、再レンダリングされた、音響視覚コンテンツを格納し、伝送し、あるいは、投稿することをさらに含む。
ある場合においては、音響効果は、反響あるいはエコー効果、コーラスあるいは和音効果、電話、市民帯(CB)ラジオあるいはビンテージオーディオで使われる帯域制限フィルタ、及び、重ね合わせトラックの1以上を含む。ある場合には、ビデオ効果は、色ずれ、輝度あるいはコントラスト変化、先鋭化あるいは、ぼかし、及び、ビデオゲーティングあるいは重ね合わせの1以上を含む。ある場合には、携帯計算機装置は、計算機バッド、ゲームコントローラ、パーソナルデジタルアシスタントあるいは書籍リーダ、及び、携帯電話あるいはメディアプレーヤーの群から選択される。
これら、及び、他の実施形態は、様々な、それらへの変形と共に、以下の詳細な説明、請求項及び図面に基づいて、当業者によって理解されるだろう。
本発明は、添付の図面を参照すれば、当業者によって、より良く理解され、多くの部品、特徴、及び、利点が明らかになるだろう。
異なる図における同じ参照記号の使用は、類似物、あるいは、同一物を示す。
上記したように、取得されたユーザの歌声の自動変換は、iOS及びAndroidに基づいた電話、メディア装置、及び、タブレットの出現以来、広く広まった、ハンドヘルド計算プラットフォーム上においても実行可能なアプリケーションを魅力的にすることを提供することが出来る。自動変換は、玩具、ゲームあるいは娯楽装置市場のためのような、専用装置においても実装することが出来る。
上記したような音響視覚コンテンツを操作するアプリケーションにおいては、結果の音響視覚演奏の芸術的及び感情的コンテンツを増強する、コーディネートされた音響及びビデオフィルタペアを適用することが出来る。そのようなフィルタペアは、携帯計算機装置(携帯電話あるいはメディアプレーヤー、計算機バッドあるいはタブレット、ゲームコントローラあるいはパーソナルデジタルアシスタントあるいは書籍リーダなど)の上で実行される音響視覚アプリケーションの音響及びビデオ処理パイプラインに適用されるならば、ユーザが、コーディネートされた音響及びビデオ双方を増強する効果を選択することを可能とする。しばしば、コーディネートされた音響及びビデオは、カメラ及びマイクインタフェースを使用し、プロセッサで実行可能なデジタル信号処理ソフトウェアを使用し、及び、記憶装置、スピーカ、及び、ディスプレイ装置あるいは、携帯計算機装置と相互運用性のあるものを用いて、携帯計算機装置において、取得され、フィルタリングされ、及び、レンダリングされる。携帯電話などの身近なハンドヘルド装置上での音響視覚取得及び個人化を提供することによって(例えば、ユーザが選択可能であるが、コーディネートされたフィルタペアによって)、現代のソーシャルネットワークプラットフォームによって広く広まった種類のソーシャルインタラクションおよび投稿は、音響視覚コンテンツに拡張されることが出来る。
密接に結合した音響及びビデオフィルタを提供することによって、ユーザインタラクションは簡単化され、生成プロセスにおけるユーザの少なくとも部分的なかかわりによって、ソーシャルネットワークインタラクションは増強される。例えば、ここに説明される音響視覚アプリケーションのある実施形態においては、ユーザは、取得された音響視覚コンテンツに対し、ビンテージ感を提供するために、音響及びビデオ効果フィルタのコーディネートされたペアを適用することが出来る。音響パイプラインにおいては、フィルタペアの音響部分は、帯域制限された、取得された(あるいは、検索された)音響に操作を加え、初期の記録媒体に発生するスクラッチ及び他のノイズを加える操作をすることが出来る。ビデオパイプラインにおいては、フィルタペアのビデオ部分は、色マップをセピア色調にゆがませ、フィルム投影において生じるフィルム粒質及び/あるいはフレームレート効果を加える操作をすることが出来る。他のフィルタペアは、他のスタイルあるいは効果を提供するために選択されることが出来る。例えば、休暇期間フィルタペアは、(音響パイプラインにおいては)取得された歌声を、季節的に適切なオーディオトラックとミキシングし、あるいは、適用し、ビデオパイプラインにおいて、シミュレートされた降雪を重ね合わせる操作をすることが出来る。あらゆる多様な調整された音響及びビデオ効果は、ユーザに対してソーシャルネットーク経験を増強するためにサポートされることが出来る。ある実施形態においては、ユーザは、一つのフィルタペア(つまり、コーディネートされた音響及びビデオ効果)を選択し、適用し、楽しくあるいは好ましく処理された、取得された音響視覚コンテンツを完成し、投稿する前に気が変わって、ハンドヘルド装置上で実行される、音響及びビデオ処理パイプラインにおいて、任意の数の他のフィルタペアを選択し、適用することが出来る。ある場合には、プレミアム音響及びビデオ効果ペアは、アプリ内購入で購入することが出来る。ある場合には、最終レンダリングは、ローカルに行われることが出来る。ある場合には、ソーシャルネットワークサービスとは別個の、あるいは、これに一体化された、リモートプラットフォームが、最終レンダリングを行うことが出来る。
ある実施形態においては、音楽生成技術も用いられ、音響及びビデオ効果ペアの相補的あるいは構成部分に影響を与えることが出来る。例えば、ある場合には、歌声タイプの音響入力は、コーディネートされた音響視覚コンテンツの音響部分に基づいて、カスタムメイドのサウンドトラックを生成するために、iOS及びAndroid装置のためのLaDiDaアプリケーション(SMuleから購入することが出来る)において広く広まった種類の音楽生成技術を駆動するために用いられる。取得された、あるいは、検索された音響入力(典型的には歌声を含むが、必ずしも含む必要が無い)は、処理され、音楽が、この入力に合致する、あるいは、相補的となるように、自動的に(つまり、アルゴリズム的に)作曲される。
ある場合には、音響パイプラインにおけるLaDiDa型の処理は、ユーザによって選択され、適用された、コーディネートされた音響及びビデオ効果ペアの音響部分によって指定されることが出来る。一般に、LaDiDa型処理は、入力のピッチを追跡し、適切な和音を見つけることにより、動作する。結果としてのコードマップは、その後、選択されたスタイルによって使用される異なる楽器で、音楽を生成するのに用いられる。入力音響(例えば、発声され、あるいは、歌われたユーザの歌声)は、今度は、自動生成された伴奏のキーに合致するように、ピッチ補正される。ある場合には、自動生成された伴奏、キーあるいは他のスタイル態様のための特定の楽器の選択は、コーディネートされたペアの音響フィルタ部分によって指定されることが出来る。ある場合には、節及びコーラスの境界などの、音響パイプライン処理中に実行される、入力音響の構造解析の結果は、コーディネートされたビデオ効果を可能とするために、ビデオパイプラインへ伝搬されることが出来る。
音響及びビデオ効果ペアの相補的あるいは構成部分に影響を与えるために、音響パイプラインにおいて用いられることが出来る音楽生成技術の他の形態は、iOS及びAndroid装置のためのSongify及びAutoRapアプリケーション(SMuleから購入することが出来る)で広く広まった種類の音響処理である。前述されたように、取得され、あるいは、検索された音響入力(典型的には歌声を含むが、必ずしもそうでなくても良い)は、音楽を生成するために、音響パイプラインにおいて処理される。しかし、Songify及びAutoRap技術の場合には、音響は、既存の音楽、あるいは、リズム構造に適用される。Songifyの場合には、音響入力は、分割され、対象の歌のフレーズテンプレートへと、再マッピングされる(潜在的に再整列されたサブフレーズとして)。AutoRapの場合には、音響入力は、分割され、対象の歌のリズムの骨格に時間的に整列される。SongifyあるいはAutoRap処理の選択は、ユーザによって選択され、適用された、コーディネートされた音響及びビデオ効果ペアの音響部分によって指定されることが出来る。前述されたように、セグメントの境界を特定し、再マッピングし、整列するなどの音響パイプライン処理の間、実行される入力音響の構造解析の結果は、コーディネートされたビデオ効果を可能とするために、ビデオパイプラインに伝搬されることが出来る。
ユーザの観点からの処理の例は、例示目的である。携帯計算機装置上で実行されるアプリケーションで、ユーザが短いビデオを取得し、選択し、あるいは、生成した後、ユーザは、選択可能なタイルあるいはボタンとして表される、一組のフィルタを提示される。これらの選択可能なタイルあるいはボタンは、上記した、コーディネートされた音響及びビデオ効果ペアの考えられるユーザインタフェースの提示の一つにすぎない。記録されたビデオのフレームは、適用されたそのフィルタの基本的視覚効果を伴って示され、ユーザが適切なフィルタを選択するのを容易にする。ユーザがフィルタを選択するときは、ユーザは、少なくともあるコーディネートされた音響及びビデオ効果ペアの場合には、また、特定の歌あるいは音楽スタイルと共に、特定の音楽生成技術(LaDiDa型、SongifyあるいはAutoRapなど)も選択する。音響パイプラインでの音楽生成の出力は、音響入力と共に、選択されたスタイル/歌に依存する。
フィルタが選択されると、音響及びビデオは、選択された音響及びビデオ効果ペアにしたがって、レンダリングされ、ユーザは、結果をプレビューすることが出来る。別の音響及びビデオ効果ペアが選択及びプレビューされることが出来る。ユーザが特定の音響及びビデオ効果フィルタペアによって提供される結果に満足すると、ユーザはそれを了承し、音響視覚コンテンツは、完全にレンダリングされる。この時点で、リモートサーバ、1以上のソーシャルネットワークプラットフォーム及び/あるいは、電子メールに、コメントあるいは、音響視覚コンテンツの注釈投稿を追加することが出来る。
[例示的実装及び動作フロー]
図1は、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザによって選択されたインスタンスを適用するソフトウェアを実行する、プログラムされた、携帯計算機装置(例えば、Apple,Inc.から購入することの出来るハンドヘルド装置101)のスクリーンショット画像である。コーディネートされた音響及びビデオフィルタペアは、タッチスクリーンユーザインタフェースにより、ユーザが選択可能であり、ある場合には、プログラムされた携帯計算機装置によって、取得されたコンテンツに適用される、分割(音響あるいはビデオ)、特徴抽出及び/あるいは自動伴奏技術を含む、デジタル信号処理のための選択肢である。
図1は、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザによって選択されたインスタンスを適用するソフトウェアを実行する、プログラムされた、携帯計算機装置(例えば、Apple,Inc.から購入することの出来るハンドヘルド装置101)のスクリーンショット画像である。コーディネートされた音響及びビデオフィルタペアは、タッチスクリーンユーザインタフェースにより、ユーザが選択可能であり、ある場合には、プログラムされた携帯計算機装置によって、取得されたコンテンツに適用される、分割(音響あるいはビデオ)、特徴抽出及び/あるいは自動伴奏技術を含む、デジタル信号処理のための選択肢である。
図2A、図2B、図2C及び図2Dは、ハンドヘルド装置101などの携帯計算機装置上で実行されるのに適した、ある例示的変形において、音響視覚コンテンツを取得し、コーディネートされた音響及びビデオフィルタペアのユーザによって選択されたインスタンスを適用し、音響視覚コンテンツをレンダリングするための音楽生成技術の使用を行う、あるいは、行わない、ソフトウェアの動作を図示するフローチャートである。ある場合には、そのようなソフトウェアは、携帯計算機装置上で実行可能なアプリケーション(例えば、CineBeatアプリケーション200)として実装される。各場合において、音響及びビデオフィルタペアは、コーディネートされた効果を生成するために、音響及びビデオコンテンツのそれぞれの計算操作に対して選択的である。
限定するものではないが、例として、音響フィルタ221インスタンスは、音響パイプライン220を介して音響ストリーム211に適用されると、スペクトル等化、音響圧縮、ピッチ補正、ステレオ遅延、反響あるいはエコー、及び、オーディオトラックとのミキシングの1以上を提供することが出来る。同様に、再び限定するものではないが、ビデオフィルタ231インスタンスは、ビデオパイプライン230を介してビデオストリーム212に適用されると、ぼかしあるいは先鋭化、色マップ選択あるいは変換、色歪みあるいは等化、視覚ノイズ、重ね合わせ、あるいは画像フレーム化、輝度あるいはコントラスト変更、及び、ビデオフレームレート変更あるいはゲーティングの1以上を提供することが出来る。
ある場合には、音響及び視覚フィルタ(221、231)のコーディネートされたペアは、音響及びビデオストリーム(211、212)に適用されるべき、芸術的に整合した効果を指定する。例えば、音響(221)及びビデオ(231)フィルタのコーディネートされたペアの少なくとも1つは、音響パイプライン220においては、帯域制限フィルタと、スクラッチ及びポップトラックのオーディオミックスを含み、ビデオパイプライン230においては、セピア色調フィルタと、フィルム粒とスクラッチのビデオ重ね合わせを含む、ビンテージ効果を指定することが出来る。他の芸術的に整合した効果は、演奏様式、季節的テーマなどに従って選択された音響及び視覚フィルタのコーディネートされたペアによって提供されることができる。本明細書における説明に基づき、当業者は、適切あるいは望ましい、与えられた適用、状況あるいは展開に対して、図2A、図2B、図2C及び/あるいは図2Dのフローにしたがって提供される、広範囲の音響及びビデオフィルタのコーディネートされたペアを理解するだろう。
図2A、2B、2C及び2Dにおいて、ある共通の、あるいは、類似の特徴、構造、及び、動作が図示される。CineBeatアプリケーション250の機能フローと相互作用が、例示的な、携帯計算機装置型実行環境のある構造及び特徴として図示される。例えば、音響コンテンツは、携帯計算機装置プラットフォームに設けられ、デジタル的に符号化された音響として、音響パイプライン220に供給される、A/D変換205及び、他の音響回路あるいはファームウェア/ソフトウェアを用いて、マイク装置(あるいはインタフェース)201において、(あるいは、これから)取得される。同様に、ビデオコンテンツは、携帯計算機装置プラットフォームに設けられる、フレームバッファ206及び、他のビデオ回路あるいはファームウェア/ソフトウェアを用いて、カメラ装置(あるいはインタフェース)202において、(あるいは、カメラ装置202から)取得され、デジタル的に符号化されたビデオとして、ビデオパイプライン230に供給される。各場合において、記憶装置208が設けられ、コーディネートされた音響及びビデオフィルタペアの連続した選択の適用を可能とするために、取得された音響及びビデオコンテンツの一時的記憶(及び検索)のために用いられる。
コーディネートされた音響及びビデオフィルタペアの選択は、他のユーザインタフェース設計が考えられ、特定のアプリケーション、計算プラットフォームあるいは展開では適切であることもあるが、ユーザがタッチスクリーンディスプレイ203を用いることによって行うことが出来る。音響及びビデオコンテンツは、音響及びビデオパイプライン(220、230)において変換され、処理される場合、スピーカ/オーディオインタフェース204及びディスプレイ203を介して、変換され、かつ、処理された音響視覚演奏として、ユーザに提示されるように、レンダリングエンジン250を用いて、時間的にコーディネートされた形式でレンダリングされる。レンダリングエンジン250もまた、変換され、処理された音響視覚演奏を、コンテンツサーバ310への伝送、及び/あるいは、コンテンツサーバ310での格納に適した形で、適切に符号化されるよう、音響視覚CODECSを用い、あるいは、提供する。あるシステムあるいは展開において、コンテンツサーバ310は、そのような音響視覚コンテンツを、他の装置、ハンドヘルド装置101自体、及び/あるいは、ソーシャルネットワークへ(あるいは、を介して)提供することが出来る。ある場合においては、コンテンツサーバ310は、少なくとも部分的に、クラウド型ソーシャル音楽ネットワークを実装する。ある場合においては、プレミアムフィルタ、投稿された音響視覚コンテンツなどは、コンテンツサーバ310によって提供(あるいは、コンテンツサーバ310から提供される情報に基づいて解除)されることが出来る。
一般に、コーディネートされた音響/ビデオ効果フィルタペアは、さまざまな任意の方法で、様々な異なる符号化技術を用いて実装されることが出来ることに注意されたい。ある場合には、音響及びビデオ効果フィルタは、少なくとも部分的には、それぞれの音響及びビデオパイプラインの動作を知らせる、デジタルフィルタ係数、ルックアップテーブル及びデータ(例えば、記憶装置208、あるいは、他所から検索された)を用いて、規定される。ある場合には、音響及びビデオ効果フィルタは、少なくとも部分的には、それぞれのパイプラインと共に実行し、それによって音響及びビデオコンテンツのデジタル表現を操作するためのそれぞれのパイプラインから呼び出される、機能コード(例えば、記憶装置208あるいは他所から検索された)を用いて、規定されることが出来る。
図2Bに戻ると、図2Aの機能フローの変形例が、図示され、説明される。特に、図2Bの変形例は、発話を、音響パイプライン220への音楽変換(Songify/AutoRap機能222)へと加える。Songify/AutoRap機能222と実行される変換の実装は、したがって、以下により完全に説明される。しかし、図2Bのフロー中において、Songify/AutoRap機能222は、ある音楽構造特性あるいはテンプレート、例えば、フレーズ構造、拍子、音階値などを有し、これらに適合する、導出された音響を用意するために、取得された音響へ実行される追加的信号処理として理解されるだろう。
特定の例が以下に説明されるが、図2Bに図示される注目すべき態様は、Songify/AutoRap機能222の文脈で計算される音響的特徴291(例えば、分割の指示、フレーズ構造に沿った再整列、セグメントもしくはブロックの引き延ばしまたは圧縮、スペクトル特性、音階値、リズムあるいは拍子、音量、演奏の修飾など)は、ビデオコンテンツに対して対応し、コーディネートされた変換232を促進するために、ビデオパイプライン230に運ばれる、ということである。このように、音響コンテンツの一部のSongify/AutoRap型再整列は、対応するビデオコンテンツの対応する再整列内にある。同様に、Songify/AutoRap機能222によって時間的に引き延ばされ、あるいは、圧縮される音響コンテンツの一部については、ビデオコンテンツの対応する一部は、同様に、例えば、フレームレートあるいは有効フレームレートの変化によって、引き伸ばされ、あるいは、圧縮される。ビデオパイプライン230へ運ばれ、それによってディスプレイ203において最終的に表示されるビデオコンテンツに(コーディネートされた方法で)影響を与える、音響パイプライン220において計算される音響的特徴の他の例は、この説明と、以下の実施例の文脈で理解されるだろう。
図2Cは、取得された音響が歌声を含み、取得された歌声から音楽的伴奏を計算によって自動的に生成することが、音響(220)及びビデオ(230)パイプラインに適用される、コーディネートされた音響及びビデオ効果フィルタペア261の基本機能(図2Aを最参照されたい)に加えて設けられる他の変形例を示す。伴奏のLaDiDa型自動生成機能222の詳細が、以下に提供されるが、図2Cのフローにおいては、LaDiDa型機能223は、歌声のピッチを追跡し、キーを推定し、メロディ構造を解析し、境界及びセクションを特定するために、取得された歌声音響に実行され、そのような導出された特性に基づき、自動的に音楽的伴奏を生成するための追加的信号処理として理解されるだろう。オプションとして、LaDiDa型機能223によって抽出された音響的特徴(例えば、構造境界)及び/あるいは、計算的にそれから導出された選択(例えば、スタイル)は、音響パイプライン220において処理される、音響コンテンツ(自動生成された伴奏を伴う歌声)への、ビデオパフォーマンス効果の適用をコーディネートさせるように、ビデオパイプライン230側ビデオフィルタ231へ伝搬されることが出来る。
図2Dは、ビデオパイプライン230で処理されるビデオコンテンツへの、音響演奏効果の適用をコーディネートさせるために、音響パイプライン220側音響フィルタ221を駆動する、取得されたビデオコンテンツの分割及び/あるいは、取得されたビデオコンテンツからの特徴抽出である更に他の変形例を示す。図2A、図2B、図2C及び図2Dは、個別の機能フローとして図示され、説明されるが、本開示の利益を有する当業者は、ある場合、あるいは、実施形態においては、機能フローの1以上の態様は、組み合わせられた形態で組み込まれうることを理解するだろう。
[一般的音楽生成技術]
以上に(例えば、図2B及び2Cを最参照されたい)、及び、本明細書の他の部分で説明したように、本発明に従った、ある実施形態は、より従来的な音響及びビデオ効果に加えて、音楽生成技術を用いることが出来る。より従来的な音響及びビデオ効果によるように、特定の音楽生成ファシリティ及び設定の選択は、コーディネートされたペアとして、密接に結合された音響及びビデオフィルタを提供するフレームワークの一部として実行することが出来る。
以上に(例えば、図2B及び2Cを最参照されたい)、及び、本明細書の他の部分で説明したように、本発明に従った、ある実施形態は、より従来的な音響及びビデオ効果に加えて、音楽生成技術を用いることが出来る。より従来的な音響及びビデオ効果によるように、特定の音楽生成ファシリティ及び設定の選択は、コーディネートされたペアとして、密接に結合された音響及びビデオフィルタを提供するフレームワークの一部として実行することが出来る。
音楽生成技術の実装は、先進デジタル信号処理技術に基づいており、純粋な素人のユーザミュージシャンが、音響視覚演奏を取得し、処理し、レンダリングし、共有できるハンドヘルド装置の実装を可能とする。ある場合には、自動変換は、コーディネートされた音響視覚コンテンツの音響部分に基づいて、カスタムメイドのサウンドトラックを生成するのに用いられることが出来る。取得され、あるいは、検索された音響入力(しばしば、歌声)が処理され、音楽が、入力に合致するように、あるいは、入力に相補的となるように自動的に(つまり、アルゴリズム的に)作曲される。
同様に、音響入力(歌われ、あるいは、発話された歌声を含む)は、分割され、配列され、対象のリズム、拍子、あるいは、伴奏バックトラックと時間的に配列され、楽譜あるいは音符列に合うようにピッチ補正されることが出来る。発話−歌音楽実装は、そのような一つの例であり、例示的歌化(songification)アプリケーションが以下に説明される。ある場合には、発話される歌声は、しばしば、ピッチ補正なしで、自動分割及び時間的配列技術を用いたラップなど、音楽様式にあわせて変換される。そのようなアプリケーションは、異なる信号処理及び異なる自動変換を用いることが出来るが、なお、テーマにおける発話−ラップ変形として理解されることが出来る。例示的AutoRapアプリケーションを提供するための適用も、ここに説明される。
具体的にするために、特定の実装環境、特にApple,Inc.によって広められたiOS装置空間に典型的な、処理及び装置能力、語句、APIフレームワーク、及び、外形情報までも仮定する。しかし、そのような例あるいはフレームワークに依存する説明によっても、本開示に接する当業者は、他の計算プラットフォーム及び他の具体的な物理的実装の展開と適切な適用を理解するだろう。
[自動発話−音楽変換(“Songification”)]
図2Bにおいて、発話−音楽変換(‘Songify/AutoRap機能222)を音響パイプライン220に加える実施形態が説明された。Songify/AutoRap機能222と、それによって実行される変換の実装が、ここでより完全に説明される。前述されたように、Songify/AutoRap機能222は、ある音楽的構造特性あるいはテンプレート、例えば、フレーズ構造、拍子、音階値などを有し、あるいは、これらに適合する、導出された音響を用意するために、取得された音響に実行される追加的な信号処理として概して理解されるだろう。図3は、いくらかより詳しく言うと、取得された音響(ここでは、発話)を分割し、セグメントをフレーズテンプレートにマッピングし、オプションの更なる音響処理、例えば、ピッチ補正、バックトラックとのミキシング、及び、ビデオフィルタの適用(特に図示していないが、図2Bを最参照されたい)などのために、(再)マッピングされた音響を時間的に整列し、引き伸ばし及び/あるいは、圧縮するために、音響パイプライン250において、Songify型発話−音楽変換を用いる実施形態において用いられる機能及び信号/データフローを図示する。
図2Bにおいて、発話−音楽変換(‘Songify/AutoRap機能222)を音響パイプライン220に加える実施形態が説明された。Songify/AutoRap機能222と、それによって実行される変換の実装が、ここでより完全に説明される。前述されたように、Songify/AutoRap機能222は、ある音楽的構造特性あるいはテンプレート、例えば、フレーズ構造、拍子、音階値などを有し、あるいは、これらに適合する、導出された音響を用意するために、取得された音響に実行される追加的な信号処理として概して理解されるだろう。図3は、いくらかより詳しく言うと、取得された音響(ここでは、発話)を分割し、セグメントをフレーズテンプレートにマッピングし、オプションの更なる音響処理、例えば、ピッチ補正、バックトラックとのミキシング、及び、ビデオフィルタの適用(特に図示していないが、図2Bを最参照されたい)などのために、(再)マッピングされた音響を時間的に整列し、引き伸ばし及び/あるいは、圧縮するために、音響パイプライン250において、Songify型発話−音楽変換を用いる実施形態において用いられる機能及び信号/データフローを図示する。
特に、図3は、Songify型音響パイプラインが、マイク314(あるいは同様のインタフェース)を用いて取得され、(例えば、スピーカ312あるいは結合されたヘッドホンを介して)音響的にレンダリングされる歌声を自動的に変換するために実行する、本発明の例示的iOS型ハンドヘルド301計算プラットフォーム実施形態の、あるいは、その実施形態に関連した、機能ブロック間のデータフローを示す機能ブロック図である。特定の音楽対象のデータセット(例えば、バックトラック、フレーズテンプレート、予め計算されたリズムの骨格、任意の楽譜及び/あるいは音符列)は、遠隔のコンテンツサーバ310あるいは他のサービスプラットフォームから、ローカルな記憶装置308にダウンロードされることが出来る(例えば、オンデマンドの供給、あるいは、ソフトウェアの配信あるいはアップデートの一部として)。
抽出された、あるいは、導出された音響的特徴391は、ビデオコンテンツに対するコーディネートされた操作を促進するために、ビデオパイプライン230に運ばれる。例えば、音響的特徴391は、時間的に配列されたビデオコンテンツを対応する断片に分解し、時間的に再整列し、音響パイプライン250で実行されるセグメント−フレーズ−テンプレートマッピングに対応して、そのような断片を複製することが出来るように、ビデオパイプライン230に運ばれる、分割境界(例えば、時間的マーカとして符号化される)及び、再マッピング情報を含むことが出来る。様々な、図示された機能ブロック(例えば、音響信号分割部371、セグメント−フレーズマッピング部372、セグメントの時間的配列及び引き伸ばし/圧縮部373、及び、ピッチ補正部374)は、取得された歌声から導出され、計算プラットフォーム上のメモリあるいは不揮発性記憶装置に表された音響信号符号化に操作を施す、ここに詳細に説明する信号処理技術を参照して、理解されるだろう。
図4は、取得された発話音響符号化(例えば、マイク314によって取得されたもの、図3を最参照されたい)が、バックトラックと共に音響的にレンダリングするために、拍子あるいはリズムを有する、出力歌、ラップ、あるいは、他の表現様式に自動的に変換される、例示的方法における、ステップ列(401、402、403、404、405、406及び407)を示すフローチャートである。特に、図4は、フロー(例えば、例示的iOS型ハンドヘルド301計算プラットフォーム上で実行されるSongifyアプリケーション350に関連して図示されるような、機能的、あるいは、計算的ブロックを介して、図3を最参照されたい)を要約する。フローは、
・発話を音響信号として取得し、あるいは、記録する(401)ことと;
・取得された音響信号における開始もしくは開始候補を検出する(402)ことと;
・音響信号セグメントを境界付ける分割(403)境界を生成するために、開始もしくは開始候補の中から、ピークあるいは他の最大値を取り出すことと;
・対象の歌のフレーズテンプレートあるいは他の骨格構造の整列されたサブフレーズに個々のセグメントあるいはセグメントのグループをマッピングする(404)(例えば、分割計算の一部として決定された候補フレーズとして)ことと;
・対象の歌のリズムの骨格あるいは、他のアクセントパターン/構造への候補フレーズのリズム的整列(405)を評価し、(適切ならば)音声の開始を音符の開始と整列するために、引き伸ばし/圧縮し、(ある場合には)対象の歌のメロディ楽譜に基づいて、音符の継続部分を満たすことと;
・取得された歌声(フレーズマッピングされ、リズム的に整列された)が、対象の歌の特徴(例えば、リズム、拍子、リピート/反復組織)によって形作られるボコーダあるいは他のフィルタ再合成型音色スタンピング(timbre stamping)(406)技術を用いることと;
・対象の歌のバックトラックと、時間的に整列され、フレーズマッピングされ、音色スタンプされた結果の音響信号を最終的にミキシングすることと、
を含む。
・発話を音響信号として取得し、あるいは、記録する(401)ことと;
・取得された音響信号における開始もしくは開始候補を検出する(402)ことと;
・音響信号セグメントを境界付ける分割(403)境界を生成するために、開始もしくは開始候補の中から、ピークあるいは他の最大値を取り出すことと;
・対象の歌のフレーズテンプレートあるいは他の骨格構造の整列されたサブフレーズに個々のセグメントあるいはセグメントのグループをマッピングする(404)(例えば、分割計算の一部として決定された候補フレーズとして)ことと;
・対象の歌のリズムの骨格あるいは、他のアクセントパターン/構造への候補フレーズのリズム的整列(405)を評価し、(適切ならば)音声の開始を音符の開始と整列するために、引き伸ばし/圧縮し、(ある場合には)対象の歌のメロディ楽譜に基づいて、音符の継続部分を満たすことと;
・取得された歌声(フレーズマッピングされ、リズム的に整列された)が、対象の歌の特徴(例えば、リズム、拍子、リピート/反復組織)によって形作られるボコーダあるいは他のフィルタ再合成型音色スタンピング(timbre stamping)(406)技術を用いることと;
・対象の歌のバックトラックと、時間的に整列され、フレーズマッピングされ、音色スタンプされた結果の音響信号を最終的にミキシングすることと、
を含む。
これら、及び、他の態様が、以下により詳細に説明され、図5−図8に図示される。
[発話分割]
歌詞がメロディに設定されると、音楽的構造を強調するために、あるフレーズが繰り返されることがしばしばある。われわれの発話分割アルゴリズムは、フレーズが繰り返され、あるいは、他の場合、再配置されることが出来るように、発話入力における言葉とフレーズの間の境界を決定することを試みる。言葉は、典型的には、無音によって分けられていないので、実用的な意味で、単純な無音を検出することは、多くの用途において不十分である。取得された発話音響信号の分割の例示的技術が、図5を参照し、以下の説明により理解されるだろう。
歌詞がメロディに設定されると、音楽的構造を強調するために、あるフレーズが繰り返されることがしばしばある。われわれの発話分割アルゴリズムは、フレーズが繰り返され、あるいは、他の場合、再配置されることが出来るように、発話入力における言葉とフレーズの間の境界を決定することを試みる。言葉は、典型的には、無音によって分けられていないので、実用的な意味で、単純な無音を検出することは、多くの用途において不十分である。取得された発話音響信号の分割の例示的技術が、図5を参照し、以下の説明により理解されるだろう。
[ソーン表現(Sone Representation)]
発話発声は、典型的に、44100Hzのサンプルレートを用いて、発話符号化501としてデジタル化される。パワースペクトルは、スペクトログラムから計算される。各フレームに対し、FFTが、(50%の重なりで)1024のサイズのハンウィンドウ(Hann window)を用いて実行される。これは、行が、周波数ビンを表し、列が、時間ステップを表す行列を返す。人間の音量感覚を考慮するため、パワースペクトルが、ソーン形式の表現に変換される。ある実装においては、この処理の初期ステップは、内耳にある聴覚フィルタをモデル化する、一組の臨界帯域フィルタあるいは、発話帯域(bark band)フィルタ511を含む。フィルタ幅と応答は、周波数によって変化し、線形周波数スケールを対数スケールに変換する。更に、結果のソーン表現502は、スペクトルマスキングをモデル化すると共に、外耳のフィルタ性能を考慮に入れる。この処理の終わりには、行が臨界帯域に対応し、列が時間ステップに対応する新しい行列が返される。
発話発声は、典型的に、44100Hzのサンプルレートを用いて、発話符号化501としてデジタル化される。パワースペクトルは、スペクトログラムから計算される。各フレームに対し、FFTが、(50%の重なりで)1024のサイズのハンウィンドウ(Hann window)を用いて実行される。これは、行が、周波数ビンを表し、列が、時間ステップを表す行列を返す。人間の音量感覚を考慮するため、パワースペクトルが、ソーン形式の表現に変換される。ある実装においては、この処理の初期ステップは、内耳にある聴覚フィルタをモデル化する、一組の臨界帯域フィルタあるいは、発話帯域(bark band)フィルタ511を含む。フィルタ幅と応答は、周波数によって変化し、線形周波数スケールを対数スケールに変換する。更に、結果のソーン表現502は、スペクトルマスキングをモデル化すると共に、外耳のフィルタ性能を考慮に入れる。この処理の終わりには、行が臨界帯域に対応し、列が時間ステップに対応する新しい行列が返される。
[開始検出]
われわれの分割に対するアプローチは、開始を見つけることを含む。ピアノで音符を奏でるなどの新しいイベントは、様々な周波数帯域でのエネルギーの突然の増加を導く。これは、しばしば、波形の時間領域表現において、局所的なピークとして見られる。開始を見つけるある種の技術は、スペクトル差関数(SDF)を計算する(512)ことを含む。スペクトログラムが与えられると、SDFは第1の差であり、隣接する時間ステップでの各周波数ビンの振幅の差を加算することによって計算される。例えば:
SDF[i] = (Σ(B[i] - B[i - l]) .25)4
われわれの分割に対するアプローチは、開始を見つけることを含む。ピアノで音符を奏でるなどの新しいイベントは、様々な周波数帯域でのエネルギーの突然の増加を導く。これは、しばしば、波形の時間領域表現において、局所的なピークとして見られる。開始を見つけるある種の技術は、スペクトル差関数(SDF)を計算する(512)ことを含む。スペクトログラムが与えられると、SDFは第1の差であり、隣接する時間ステップでの各周波数ビンの振幅の差を加算することによって計算される。例えば:
SDF[i] = (Σ(B[i] - B[i - l]) .25)4
ここで、ソーン表現に同様な処理を適用し、一種のSDF513を得る。図示されたSDF513は、1次元関数で、ピークが可能性の高い開始候補を示す。図5は、例示的音響処理パイプラインにおける、SDF計算512の前及び後の信号処理ステップと共に、サンプルされた歌声から導出される、音響信号符号化からの例示的SDF計算512を示す。
次に、SDF(513)から取り出される極大(あるいは、ピーク513.1、513.2、513.3、・・・、513.99)の時間的位置として、開始候補503を定義する。これらの位置は、開始である可能性のある時間を示す。追加的に、最大値を中心とした小さなウィンドウに渡る関数の中央値から、極大におけるSDF曲線のレベルを減算することによって決定される開始強度の測度を返す。閾値より下の開始強度を有する開始は、典型的には、破棄される。ピークを採用すること514は、一連の閾値より上の強度の開始候補503を生成する。
ここで、セグメント(例えば、セグメント515.1)を、2つの隣接する開始位置間の音響の塊と定義する。ある場合には、上記の開始検出アルゴリズムは、とても小さな(例えば、典型的な言葉の継続時間よりずっと小さな)セグメントにつながる多くの間違ったケースに導く可能性がある。そのようなセグメントの数を減らすために、あるセグメント(例えば、セグメント515.2を参照)は、塊化アルゴリズムを用いて併合される(515.2)。まず、閾値(ここでは、0.372秒閾値から始める)よりも短いセグメントがあるか否かを判断する。もし閾値よりも短いセグメントがある場合には、時間的に前のあるいは、後ろのセグメントと併合される。ある場合には、併合の方向は、隣接する開始の強度に基づいて決定される。
結果は、後続のステップで使用される発話符号化(501)の分割バージョンを規定するセグメント(504)を生成する、強い開始候補と、短い隣接するセグメントの塊化に基づいたセグメントである。発話−歌実施形態の場合(図6参照)、後続のステップは、フレーズ候補を構成するため、及び、対象の歌のパターンあるいはリズム的な骨格へのリズム的なフレーズ候補の整列を構成するためのセグメントマッピングを含むことが出来る。発話−ラップ実施形態の場合(図9参照)、後続のステップは、開始を境界付けるセグメントを対象の歌のグリッドあるいはリズム的な骨格に整列し、グリッドあるいはリズム的な骨格の対応する部分を満たすための、特定の整列されたセグメントの引き伸ばし/圧縮をすることを含むことが出来る。
[発話−歌実施形態のためのフレーズ構成]
図6は、より大きな計算フローのフレーズ構成の態様(例えば、計算プラットフォーム上で実行されるアプリケーションに関連して、以前に図示され、説明されたような機能あるいは計算ブロックを介して、図4に要約されたように。図3を最参照されたい)を更に詳細に図示する。図6の図示は、ある例示的発話−歌実施形態に関連する。
図6は、より大きな計算フローのフレーズ構成の態様(例えば、計算プラットフォーム上で実行されるアプリケーションに関連して、以前に図示され、説明されたような機能あるいは計算ブロックを介して、図4に要約されたように。図3を最参照されたい)を更に詳細に図示する。図6の図示は、ある例示的発話−歌実施形態に関連する。
上記の一つの目的は、フレーズ構成ステップが、より大きなフレーズを形成するために、おそらく繰り返しを含め、セグメントを結合する(例えば、図5に関連して図示され、説明された技術に従って生成されるような、セグメント504)ことによって、フレーズを生成することである。処理は、フレーズテンプレートと呼ぶものによって導かれる。フレーズテンプレートは、フレーズ構成を示す記号を符号化し、音楽構造を表現する典型的な方法に従う。例えば、フレーズテンプレート{A A B B C C}は、全体のフレーズが、それぞれが2回繰り返される3つのサブフレーズからなることを示す。ここに説明するフレーズ構成アルゴリズムの目的は、セグメントをサブフレーズにマッピングすることである。開始候補503及びセグメント504に基づく、取得された発話音響信号の1以上の候補サブフレーズ分割を計算した(612)後、可能性のあるサブフレーズ分割(例えば、分割612.1、612.2、・・・、612.3)は、対象の歌のフレーズテンプレート601の構造にマッピングされる(613)。サブフレーズ(あるいは、実際、候補サブフレーズ)の特定のフレーズテンプレートへのマッピングに基づいて、フレーズ候補613.1は、生成される。図6は、この処理を、例示的処理フローのサブシーケンスと共に図示する。一般に、複数のフレーズ候補が、更なる処理のため、特定のフレーズマッピングされた音響符号化を選択するために、用意され、評価されることが出来る。ある実施形態においては、結果としてのフレーズマッピング(あるいは、複数のマッピング)の品質は、本明細書の別のところで詳しく述べるように、歌の基本の拍子(あるいは、他のリズム的目標)へのリズム的整列の度合いに基づいて、評価される(614)。
この技術のある実装においては、セグメントの数がサブフレーズの数より多いことを要求することは有益である。セグメントのサブフレーズへのマッピングは、分割問題として定式化できる。mを対象フレーズのサブフレーズの数とする。それから、歌声の発声を、フレーズの正しい数に分割するために、m−1個の除算数(divider)を要求する。われわれの処理では、分割は、開始位置のみで可能とする。例えば、図6において、検出された開始(613.1、613.2、・・・、613.9)を有する、フレーズテンプレート601{A A B B C C}によって符号化された対象フレーズ構造と共に評価される、歌声発声を示す。図6に示されるように、隣接する開始は、3つのサブフレーズA、B及びCを生成するために、結合される。m個の部分及びn個の開始を有する可能な分割の全ての組は、
計算された分割の一つ、特には、サブフレーズ分割613.2は、フレーズテンプレート601に基づいて選択された特定のフレーズ候補613.1の基となる。
ある実施形態では、ユーザは、異なる対象の歌、演奏、アーティスト、スタイルなどのフレーズテンプレートのライブラリから選択し、再選択することが出来る。ある実施形態においては、フレーズテンプレートは、アプリ内購入所得モデルの一部にしたがって、取引され、購入可能とされ、あるいは、オンデマンドで供給され(あるいは、計算され)、あるいは、ゲーム、教育及び/あるいは、サポートされたソーシャル型ユーザインタラクションの一部として、獲得され、公開され、あるいは、交換されることが出来る。
可能なフレーズの数は、ある現実的な実装において、セグメントの数に伴って組み合わせ数的に増加するので、全セグメントを最大20に限定する。もちろん、より一般に、任意の与えられた適用においては、検索空間は、処理資源及び使用できる記憶容量に従って、増加、あるいは、減少する。開始検出アルゴリズムの第1の実行の後、セグメント数がこの最大数より大きい場合は、処理は、セグメントを塊化するための、より大きい最小継続時間を用いて、繰り返される。例えば、最初の最小セグメント長が、0.372秒であった場合には、これは、0.5秒に増加され、より少ないセグメントに導くかもしれない。最小閾値を増加する処理は、対象のセグメントの数が好ましい量より少なくなるまで継続されるだろう。他方、セグメントの数がサブフレーズの数より少ない場合には、同じセグメントを1以上のサブフレーズにマッピングすることなしに、セグメントをサブフレーズにマッピングすることは一般に不可能であろう。これに対処するために、開始検出アルゴリズムは、ある実施形態では、より小さいセグメント長閾値を用いて再評価し、典型的には、より少ない開始がより多数のセグメントに塊化される。したがって、ある実施形態においては、セグメント数が、任意のフレーズテンプレートに存在するサブフレーズの最大数を越えるまで長さ閾値を減少し続ける。満たさなくてはならない最小のサブフレーズ長があり、より短いセグメントで分割可能とするために、必要ならば、これをより小さくする。
この説明に基づけば、当業者は、計算処理の後段から前段へ情報をフィードバックする多くの機会を理解するだろう。処理フローの前方方向について、説明の焦点を当てることは、理解の容易さと、説明の連続性のためであり、限定する意図はない。
[リズム的整列]
上記の各可能な分割は、現在考えているフレーズテンプレートの候補フレーズを表す。要約すると、もっぱら、1以上のセグメントをサブフレーズにマッピングする。全フレーズは、その後、フレーズテンプレートに従って、サブフレーズを組み立てることにより生成される。次の段階では、バックトラックのリズム構造に最も近く整列された候補フレーズを見つけたい。これにより、あたかもフレーズがビートに乗っているように、フレーズを聞こえさせたいことを意味する。これは、しばしば、発話におけるアクセントが、ビート、あるいは、他の計量的に重要な位置に整列しがちとなるようにすることで達成される。
上記の各可能な分割は、現在考えているフレーズテンプレートの候補フレーズを表す。要約すると、もっぱら、1以上のセグメントをサブフレーズにマッピングする。全フレーズは、その後、フレーズテンプレートに従って、サブフレーズを組み立てることにより生成される。次の段階では、バックトラックのリズム構造に最も近く整列された候補フレーズを見つけたい。これにより、あたかもフレーズがビートに乗っているように、フレーズを聞こえさせたいことを意味する。これは、しばしば、発話におけるアクセントが、ビート、あるいは、他の計量的に重要な位置に整列しがちとなるようにすることで達成される。
このリズム的整列を提供するために、特定のバックトラックの基本のアクセントパターンを与える、図6に示されるリズムの骨格(RS)603を導入する。ある場合あるいは実施形態においては、リズムの骨格603は、バックトラックのビートの位置に単位インパルスの組を含むことが出来る。一般に、そのようなリズムの骨格は、予め計算されることが出来、与えられたバックトラックについて、あるいは、与えられたバックトラックと併せてダウンロードされることができ、あるいは、オンデマンドで計算されることが出来る。テンポが既知であるならば、一般に、そのようなインパルス列を構成することは直接的なことである。しかし、あるトラックでは、旋律の第1及び第3のビートは、第2及び第4のビートよりもアクセントが利いているというような、追加的なリズムの情報を追加することが望ましい。これは、高さが各ビートの相対的強度を表すように、インパルスをスケール変更することにより行うことが出来る。一般に、任意の複雑なリズムの骨格を用いることが出来る。一連の等間隔のデルタ関数からなるインパルス列は、連続的な曲線を生成するために、小さなハン(例えば、5点)ウィンドウと畳み込み演算されることが出来る:
RSと、ソーン表現を用いて計算されるスペクトル差関数(SDF)との相互相関を取ることによって、リズムの骨格とフレーズと間のリズム的整列(RA)の度合いを測る。SDFは、開始に対応する信号の急激な変化を表現することを再参照されたい。音楽情報検索文献においては、開始検出アルゴリズムの基本となる、この連続曲線を検出関数と呼ぶ。検出関数は、音響信号のアクセントあるいは、中間レベルイベント構造を表す効果的な方法である。相互相関関数は、SDFバッファ内の異なる開始位置を仮定すると、RSとSDFとの間の多点乗算及び加算を行うことにより、様々なラグについて、対応の度合いを測定する。したがって、それぞれのラグについて、相互相関は、スコアを返す。相互相関関数のピークは、最も良く整列したラグを示す。ピークの高さは、このフィティングのスコアとして採用され、その位置は、ラグを秒で与える。
整列スコアAは、そして、
で与えられる。
この処理は、全てのフレーズについて繰り返され、最も高いスコアのフレーズが用いられる。ラグは、その点から開始するように、フレーズを回転するために用いられる。これは、繰り返し行われる。最良のフィッティングは、全てのフレーズテンプレート、あるいは、直接与えられたフレーズテンプレートによって生成されるフレーズに渡って見つけることが出来る。全てのフレーズテンプレートにわたって最適化するように選択し、より良いリズム的フィッティングを与え、自然に、フレーズ構造に多様性を導入する。
分割マッピングが(フレーズテンプレート{A A B C}によって指定されるようなリズム的パターンのように)サブフレーズを繰り返すことを要求するとき、繰り返されたサブフレーズは、繰り返しが次のビートに起こるようにパッディングされると、よりリズム感があるように聞こえることが発見された。同様に、全体の結果としての分割フレーズは、バックトラックと共に繰り返される前、旋律の長さにパッディングされる。
したがって、フレーズ構成(613)とリズム的整列(614)処理の最後には、バックトラックと整列された、元の歌声発声のセグメントから構成された完全なフレーズを得る。バックトラックあるいは歌声入力が変更されると、処理は再作動させられる。これで、例示的"歌化"処理の第1の部分を終了となる。次に説明する第2の部分は、発話をメロディに変換する。
音声の開始を、望まれるメロディラインの音符の開始と更に同期させるために、メロディの長さに合致させるために、音声セグメントを引き伸ばす処理を用いる。メロディの各音符について、依然与えられた時間ウィンドウ内ではあるが、音符の開始と時間的に近くに発生するセグメントの開始(上記の分割処理によって計算される)は、この音符の開始にマッピングされる。音符は、可能性のある合致セグメントを有する全ての音符がマップされるまで、(バイアスを取除き、引き伸ばしの動作から動作に渡って可変性を導入するために、典型的には、網羅的に、及び、典型的には、ランダムな順序で)繰り返される。その後、音符−セグメントマップは、マップされたとき、音符を埋めるように、各セグメントを適切な量だけ引き伸ばすシーケンサに与えられる。各セグメントは、近くの音符にマッピングされるので、全発声に渡る累積引き伸ばしファクタは、多かれ少なかれ1であるべきである。しかし、大域引き伸ばし量が望まれる(例えば、結果の発声を2倍に遅くする)ならば、これは、セグメントをメロディの高速化バージョンにマッピングすることで達成できる。出力引き伸ばし量は、その後、メロディの元の速度に合致するようにスケール変更され、その結果、全体的に、速度ファクタの逆数によって引き伸ばす傾向となる。
整列及び音符−セグメント引き伸ばし処理は、音声の開始をメロディの開始に同期させるが、バックトラックの音楽的構造は、音符の長さを埋めるために、音節を引き伸ばすことによってさらに強調させることが出来る。聞き取りやすさを失うことなくこれを達成するために、子音をそのままにしつつ、発話中の母音音を引き伸ばすための動的時間引き延ばしを用いる。子音は、通常、その高周波数成分によって特徴付けられるので、母音と子音との間を区別する特徴として、全エネルギーの95%までのスペクトルロールオフを用いた。スペクトルロールオフは、以下のように定義される。|X[k]|を、k番目のフーリエ係数の強度とすると、95%の閾値のロールオフは、
と定義される。ここで、Nは、FFTの長さである。一般に、k_rollが大きいほど、フーリエビンインデックスは、高周波数エネルギーの増加と整合し、ノイズあるいは、無声子音を示す。同様に、k_rollが小さいほど、フーリエビンインデックスは、時間引き延ばしあるいは圧縮に適した有声音(例えば、母音)を示す傾向がある。
音声セグメントのスペクトルロールオフは、1024サンプルで50%の重なりの各解析フレームについて計算された。これにより、関連するメロディ(MIDI記号)のメロディ密度は、メロディ全体に渡って規格化された、移動ウィンドウに渡って計算され、その後、滑らかな曲線を与えるために、補間される。スペクトルロールオフと規格化メロディ密度の内積は、最小関連コストで、行列を通過する経路を見つける、標準動的計画法問題の入力として扱われる行列を提供する。行列の各ステップは、行列を通って取られる経路を調整するために微調整されることが出来る、対応するコストに関連している。この処理によって、メロディの対応する音符を埋めるために、セグメントの各フレームに要求される引き伸ばしの量を得る。
[発話−メロディ変換]
発話の基本周波数あるいはピッチは、連続的に変化するが、通常、これは、音楽的メロディのようには聞こえない。変化は、典型的には、音楽的メロディのように聞こえるには、小さすぎ、速過ぎ、あるいは、発生頻度が少なすぎる。ピッチ変化は、音声生成機構、フレーズの終了や疑問を示すための発声者の感情状態、及び、音階言語の本質的な部分を含む、様々な理由で発生する。
発話の基本周波数あるいはピッチは、連続的に変化するが、通常、これは、音楽的メロディのようには聞こえない。変化は、典型的には、音楽的メロディのように聞こえるには、小さすぎ、速過ぎ、あるいは、発生頻度が少なすぎる。ピッチ変化は、音声生成機構、フレーズの終了や疑問を示すための発声者の感情状態、及び、音階言語の本質的な部分を含む、様々な理由で発生する。
ある実施形態では、発話セグメント(上記したように、リズムの骨格あるいはグリッドに対して整列され/引き伸ばされ/圧縮された)の音響符号化は、音符列あるいはメロディスコアに従って、ピッチ補正される。前述されたように、音符列あるいはメロディスコアは、予め計算され、及び、バックトラックのためにダウンロードされ、あるいは、バックトラックと関連してダウンロードされることが出来る。
ある実施形態にとって、実装された発話−メロディ(S2M)変換の望ましい属性は、明らかに音楽的メロディのように聞こえる一方、発話は理解可能のままである、というものである。当業者は、利用できる可能な技術の様々なものを理解するだろうが、われわれのアプローチは、音声の周期的励起をエミュレートする、声門パルスの、発話者の音声との相互合成に基づいている。これは、音声の音色特性を保持する、明確なピッチを有する信号へと導き、発話内容が、様々な状況でも明確に聞き取れるようにする。図7は、声門パルスの相互合成(702)への入力として、メロディスコア701(例えば、ローカルな記憶装置から読み込まれる、バックトラックのためにダウンロードされる、あるいは、オンデマンドで供給される、あるいは、バックトラックとの関連でダウンロードされる、あるいは、オンデマンドで供給される)が用いられるある実施形態の信号処理フローのブロック図である。相互合成のソース励起は、(707からの)声門信号であり、対象スペクトルは、FFT704によって、入力歌声について得られる。
入力発話703は、44.1kHzでサンプリングされ、そのスペクトログラムは、75サンプル重なった1024サンプルのハンウィンドウ(23ms)を用いて計算される(704)。声門パルス(705)は、図8に示される、ローゼンバーグモデルに基づいていた。それは、以下の式にしたがって生成され、開始前(0−t0)、開始からピーク(t0−tf)及びピークから終了(tf−Tp)に対応する3つの領域からなっている。Tpは、パルスのピッチ周期である。これは、以下の式に要約される:
ローゼンバーグ声門パルスのパラメータは、相対開口継続時間(tf- t0/Tp)と相対閉止継続時間((Tp- tf)/Tp)を含む。これらの比を変化させることで、音色特性を変えることが出来る。これに加え、基本形状は、パルスにより自然な質を与えるために変更された。特に、数学的に定義された形状は、手によってトレースされた(つまり、ペイントプログラムで、マウスを用いて)ので、わずかな乱れとなった。「汚れた」波形は、その後、マウス座標の量子化によって導入された突然の不連続を取除くために、20点有限インパルス応答(FIR)フィルタを用いて、ローパスフィルタ処理された。
上記声門パルスのピッチは、Tpで与えられる。われわれの場合には、異なるピッチで、同じ声門パルス形状を柔軟に使用でき、これを連続的に制御出来ることを望んだ。これは、望みのピッチに従って声門パルスを再サンプリングし、次に、波形においてホップする(hop)量を変化させることによって達成された。線形補間は、各ホップにおける声門パルスの値を決定するために用いられた。
声門波形のスペクトログラムは、75%の重なりで、1024サンプルのハンウィンドウを用いて取られた。周期的声門パルス波形と発話の間の相互合成(702)は、発話の各フレームの強度スペクトル(707)を、声門パルスの複素スペクトルで乗算する(706)ことによって達成され、声門パルススペクトルに従って、複素振幅の強度を効率的に再スケーリングした。ある場合、あるいは、ある実施形態においては、強度スペクトルを直接用いるのではなく、各発話帯域のエネルギーを、スペクトルを事前強調(スペクトル白色化)した後で用いる。このように、声門パルススペクトルの和音構造は、発話のフォルマント構造が刷り込まれる一方で、乱されない。われわれは、これが、発話−音楽変換における有効な技術であることを発見した。
上記アプローチで生じる1つの問題は、本質的にノイズ的である、ある子音音素のような無音音声は、上記のアプローチではうまくモデル化されない、ということである。これは、発話に存在すると「ringing sound(響く音)」となり、打音質の喪失となる。これらの部分をより良く維持するために、制御された量の高域が透過された白色ノイズ(708)を導入する。無音音声は、広域のスペクトルを有する傾向があり、スペクトルロールオフが、再び、音響的特徴の指標として用いられる。特に、高周波成分の顕著なロールオフによっては特徴付けられないフレームは、高域が透過された白色ノイズのいくらかの補償的追加の候補である。導入されるノイズの量は、広帯域のスペクトルを有するが、上記の声門パルス技術を用いてはうまくモデル化されない無声音声が、この指標的音響的特徴によって制御される、ある量の高域が透過された白色ノイズとミキシングされるように、フレームのスペクトルロールオフによって制御される。これは、非常に明瞭、かつ自然な出力となることを発見した。
[一般的歌構成]
上記した、発話−音楽歌化処理のいくつかの実装は、声門パルスのピッチを決定するピッチ制御信号を用いる。理解されるように、制御信号は、任意の数の方法で生成されることが出来る。例えば、制御信号は、ランダムに、あるいは、統計的モデルに従って、生成されるかもしれない。ある場合、あるいは、実施形態においては、ピッチ制御信号(例えば、711)は、記号表示を用いて作曲された、あるいは、歌われたメロディ(701)に基づく。前者の場合、MIDIのような記号表示は、対象のピッチ値のベクトルからなる音響レート制御信号を生成するために、パイソンスクリプト(Python script)を用いて処理される。歌われたメロディの場合においては、ピッチ検出アルゴリズムは、制御信号を生成するために用いられることが出来る。ピッチ評価の粒度に依存して、線形補間が、音響レート制御信号を生成するために用いられる。
上記した、発話−音楽歌化処理のいくつかの実装は、声門パルスのピッチを決定するピッチ制御信号を用いる。理解されるように、制御信号は、任意の数の方法で生成されることが出来る。例えば、制御信号は、ランダムに、あるいは、統計的モデルに従って、生成されるかもしれない。ある場合、あるいは、実施形態においては、ピッチ制御信号(例えば、711)は、記号表示を用いて作曲された、あるいは、歌われたメロディ(701)に基づく。前者の場合、MIDIのような記号表示は、対象のピッチ値のベクトルからなる音響レート制御信号を生成するために、パイソンスクリプト(Python script)を用いて処理される。歌われたメロディの場合においては、ピッチ検出アルゴリズムは、制御信号を生成するために用いられることが出来る。ピッチ評価の粒度に依存して、線形補間が、音響レート制御信号を生成するために用いられる。
歌を生成する更なるステップは、デジタル音響ファイルの形式で、整列され、合成変換された発話(出力710)を、バックトラックとミキシングすることである。上記したように、最終的なメロディがどのくらいの長さになるかは、予め分からないことを理解されたい。リズム的な整列ステップは、短いあるいは長いパターンを選択することが出来る。このことを考慮するため、バックトラックは、典型的には、より長いパターンを適応させるように、シームレスにループできるように、作曲される。最終メロディが、ループより短い場合には、特に何もされず、歌声のない歌の部分があるだろう。
[他の様式と整合した出力の変形例]
図2Bを再び参照すると、発話−ラップ変換(AutoRap機能222)を音響パイプライン220に追加する変形例が説明された。AutoRap機能222と、それによって実行される変換の実装が、より完全に説明される。前述されたように、AutoRap機能222は、フレーズ構造、拍子、音階値などの、ある音楽的構造特性あるいはテンプレートを有する、あるいは、ある音楽的構造特性あるいはテンプレートに適合する、導出された音響を用意するために、取得された音響に実行される追加的信号処理として一般に理解されるだろう。本開示の利益を有する当業者は、Songify型発話−歌変換に対して上記した技術との、信号処理技術のある共通性を理解するだろう。
図2Bを再び参照すると、発話−ラップ変換(AutoRap機能222)を音響パイプライン220に追加する変形例が説明された。AutoRap機能222と、それによって実行される変換の実装が、より完全に説明される。前述されたように、AutoRap機能222は、フレーズ構造、拍子、音階値などの、ある音楽的構造特性あるいはテンプレートを有する、あるいは、ある音楽的構造特性あるいはテンプレートに適合する、導出された音響を用意するために、取得された音響に実行される追加的信号処理として一般に理解されるだろう。本開示の利益を有する当業者は、Songify型発話−歌変換に対して上記した技術との、信号処理技術のある共通性を理解するだろう。
したがって、発話を「ラップ」、すなわち、ビートに対してリズム的に整列された発話に変換するための、より適した更なる方法を説明する。このプロセスを「AutoRap」と呼び、当業者は、本明細書の説明に基づいて、広範な実装を理解するだろう。特に、より大きな計算フローの態様(例えば、計算プラットフォーム上で実行するアプリケーションに関して、前に図示し、説明した、機能あるいは計算ブロックを介して、図4に要約されているように。図3を最参照されたい)は適用可能であり続ける。しかし、前述の、分割及び整列技術へのある適用は、発話−ラップ実施形態に対して適切である。図9の図示は、ある例示的発話−ラップ実施形態に関する。
前述されたように、分割(ここでは、分割911)は、発話帯域表示に基づいて、スペクトル差関数を用いて計算される検出関数を用いる。しかし、ここで、検出関数を計算するときに、約700Hzから1500Hzのサブ帯域を強調する。帯域制限あるいは強調DFは、音節核により密接に対応し、認識的に、発話の強調点であることが発見された。
より詳しくは、中間帯域制限は、よい検出能力を提供する一方、中間帯域を重み付けるが、依然、強調された中間帯域の外のスペクトルを考慮することによって、ある場合には、もっと良い検出能力を達成出来ることが発見された。これは、広帯域特徴によって特徴付けられる、打音開始が、中間帯域を用いて主に検出される母音開始に加えて、取得されるからである。ある実施形態においては、望ましい重み付けは、中間帯域については、各発話帯域におけるパワーの対数を取り、10倍し、他の帯域には、対数あるいは再スケーリングを適用しないことに基づいている。
スペクトル差を計算するとき、このアプローチは、値の範囲が大きいので、中間帯域により大きな重みを与える傾向がある。しかし、スペクトル距離関数における距離を計算する場合、L−ノルムは、0.25の値で用いられるので、多くの帯域に渡って起こる小さな変化は、また、より大きな強度の差が、1つあるいはいくつかの帯域で観測される場合のように、大きな変化として記録される。ユークリッド距離が用いられる場合には、この効果は、観測されない。もちろん、他の中間帯域強調技術は、他の実施形態において利用されることが出来る。
今述べた、中間帯域強調とは別に、検出関数計算は、発話−歌実装について上述したスペクトル差(SDF)技術に似ている(図5及び図6と付随する説明を最参照されたい)。前述されたように、局所ピーク取得は、スケーリングされた中央値閾値を用いて、SDFについて実行される。スケールファクタは、ピークが、ピークと考えられるためには、どれほど局所中央値を越えなくてはならないかを制御する。ピークのピーク化の後、SDFは、前述されたように、塊化関数に渡される。再び、図9に戻るが、再度上記したように、最小セグメント長より短いセグメントがないとき、塊化は停止し、元の歌声発声は、連続したセグメントに分割されたままとなる(ここでは、904)。
次に、リズム的パターン(例えば、リズムの骨格あるいはグリッド903)が、定義され、生成され、あるいは、検索される。ある実施形態においては、ユーザは、異なる対象のラップ、演奏、アーティスト、スタイルなどに対して、リズムの骨格のライブラリから選択し、再選択することが出来ることに注意されたい。フレーズテンプレートのように、リズムの骨格あるいはグリッドは、アプリ内購入所得モデルの一部にしたがって、取引され、購入可能とされ、あるいは、オンデマンドで供給され(あるいは、計算され)、あるいは、ゲーム、教育及び/あるいは、サポートされたソーシャル型ユーザインタラクションの一部として、獲得され、公開され、あるいは、交換されることが出来る。
ある実施形態においては、リズム的パターンは、特定の時間位置において、一連のインパルスとして表される。例えば、これは、単純に、パルス間幅が、現在の歌のテンポに関連した、インパルスの等間隔グリッドであるかもしれない。歌が、120BPMのテンポ、したがって、.5sのビート間周期を有する場合、パルス間は、典型的には、この整数分の1である(例えば、.5、.25など)。音楽用語では、これは、四分音符ごと、あるいは、八分音符ごとなどのインパルスと同等である。より複雑なパターンも定義することが出来る。例えば、4ビートパターンを形成する、8分の4分音符が続く2つの四分音符の繰り返しパターンを指定するかもしれない。120BPMのテンポでは、パルスは、以下の時間位置にある:0秒、.5秒、1.5秒、1.75秒、2.0秒、2.25秒、3.0秒、3.5秒、4.0秒、4.25秒、4.5秒、4.75秒。
分割(911)とグリッド構成の後、整列が行われる(912)。図9は、図6のフレーズテンプレート駆動技術とは異なり、むしろ、発話−ラップ実施形態に適用された整列処理が図示されている。図9を参照すると、各セグメントは、対応するリズムパルスに、順番に移動される。セグメントS1、S2、S3、・・・、S5と、パルスP1、P2、P3、・・・、S5を有している場合、セグメントS1は、パルスP1、S2はP2などのように移動される。一般に、セグメント長は、連続するパルスの間の距離に一致しないだろう。これを扱うために用いる、2つの処理がある。
セグメントは、連続するパルスの間の空間にフィットするために、(短すぎれば)時間的に引き伸ばされ、あるいは、(長すぎれば)時間的に圧縮される。この処理が、図9に、図式的に示される。以下に、位相ボコーダ913の使用に基づいた、時間引き延ばし、及び、圧縮の技術を説明する。
セグメントが短すぎた場合、それは、無音でパッディングされる。第1の処理が最もしばしば使用されるが、セグメントが、フィットするために、実質的に引き伸ばされる必要がある時には、後者の処理が時々、引き伸ばしアーチファクトを防止するために用いられる。
2つの追加的な戦略が、余分な引き伸ばし、あるいは、圧縮を最小化するために用いられる。第1に、S1からのマッピングを開始するのみではなく、全ての可能なセグメントから開始し、端に至ったなら、丸め込む全てのマッピングを考える。したがって、S5から開始すると、マッピングは、セグメントS5からパルスP1、S6からP2などとなるだろう。各開始点については、リズム的歪みと呼ぶ、引き伸ばし/圧縮の全量を測定する。ある実施形態においては、リズム的な歪みスコアは、1より小さい、引き伸ばし比の逆数として計算される。この処理は、各リズムパターンについて繰り返される。リズム的歪みスコアを最小化する、リズムパターン(例えば、リズムの骨格あるいはグリッド903)及び、開始点は、最良マッピングとして採用され、合成に使用される。
ある場合、あるいは、実施形態においては、しばしば、より良く機能することが分かるが、別のリズム的歪みスコアが、速度スコアの分布の異常値の数を数えることによって計算された。特に、データは、十分位数に分割され、速度スコアが最低と最高の十分位数であったセグメントの数が、スコアを与えるために加算された。より高いスコアは、より異常値であり、したがって、リズム的歪みがより大きい程度であることを示す。
第2に、位相ボコーダ913は、様々なレートで、引き伸ばし/圧縮を行うために用いられる。これは、リアルタイムで、すなわち、全ソース音響にアクセスすることなしに、実行される。時間的引き延ばし及び圧縮は、必然的に、異なる長さの入力と出力となり−これは、引き伸ばし/圧縮の度合いを制御するために用いられる。ある場合、あるいは、実施形態においては、位相ボコーダ913は、4倍の重なりで動作し、その出力を累積FIFOバッファに追加する。出力が要求されると、データは、このバッファからコピーされる。このバッファの有効部分の終端に至ると、コアルーチンは、現在の時間ステップで、データの次のホップを生成する。各ホップについては、新しい入力データが、コールバックによって検索され、初期化の間提供され、外部オブジェクトが、ある数の音響サンプルを提供することによって、時間引き延ばし/圧縮の量を制御することが出来るようにする。1時間ステップの出力を計算するために、長さ1024(nfft)で、nfft/4のオフセットを有する2つの重なりウィンドウが、前の時間ステップからの複素出力と比較される。全入力信号が使えないリアルタイムで、これを可能とするために、位相ボコーダ913は、長さ5/4nfftの入力信号のFIFOバッファを保持し、それによって、これらの2つの重なりウィンドウは、任意の時間ステップで利用可能である。最新のデータを有するウィンドウは、「フロント」ウィンドウと呼ばれ、他の(「バック」)ウィンドウは、デルタ位相を取得するために用いられる。
第1に、前の複素出力は、その強度が規格化され、単位強度の複素数のベクトルを得、これは位相成分を表す。そして、FFTは、フロントとバックウィンドウの両方で取られる。規格化された前の出力は、バックウィンドウの複素共役と乗算され、バックウィンドウの強度を有し、バックウィンドウと前の出力との間の差に等しい位相を有する複素ベクトルとなる。
与えられた周波数ビンの各複素振幅を、その隣接値に渡る平均で置き換えることにより、隣接周波数ビンの間の位相コヒーレンスを維持しようと試みる。あるビンに明らかに正弦波形状があり、隣接ビンが低レベルノイズを伴っているならば、その強度は、その隣接値よりも大きく、それらの位相は、真の正弦波の位相と置き換えられるだろう。これは、再合成品質を顕著に改善することが分かった。
結果のベクトルは、その後、その強度が規格化され、強度が0のビンについてさえ単位強度に確実に規格化されるように、わずかなオフセットが規格化の前に追加される。このベクトルは、フロントウィンドウのフーリエ変換によって乗算され、結果のベクトルは、フロントウィンドウの強度を有するが、位相は、前の出力の位相に対する、フロントウィンドウとバックウィンドウの間の差の和となるだろう。出力が、入力がコールバックによって提供されるものと同じレートで要求されるならば、これは、位相コヒーレンスステップが排除されるならば、再構成と同等である。
[自動生成伴奏変形例]
図2Cを振り返って参照すると、自動伴奏変換(LaDiDa機能223)を音響パイプライン220に組み込む変形例が説明された。LaDiDa機能223及びそれによって実行される変換の実装は、ここにより完全に説明される。前述されたように、LaDiDa機能223は、一般に、歌声のピッチを追跡し、キーを評価し、メロディ構造を解析し、境界とセクションを特定するために、取得された歌声(音響)について実行される追加的な信号処理として理解されるだろう。そのような導出された特性に基づき、LaDiDa機能223は、取得された歌声に対し、音楽的伴奏を自動的に生成する。Songify及びAutoRap型変換について上記した、分割とフレーズテンプレートマッピング技術は、オプションとして含まれることが出来、本開示の利益を有する当業者によれば、理解されるであろう。
図2Cを振り返って参照すると、自動伴奏変換(LaDiDa機能223)を音響パイプライン220に組み込む変形例が説明された。LaDiDa機能223及びそれによって実行される変換の実装は、ここにより完全に説明される。前述されたように、LaDiDa機能223は、一般に、歌声のピッチを追跡し、キーを評価し、メロディ構造を解析し、境界とセクションを特定するために、取得された歌声(音響)について実行される追加的な信号処理として理解されるだろう。そのような導出された特性に基づき、LaDiDa機能223は、取得された歌声に対し、音楽的伴奏を自動的に生成する。Songify及びAutoRap型変換について上記した、分割とフレーズテンプレートマッピング技術は、オプションとして含まれることが出来、本開示の利益を有する当業者によれば、理解されるであろう。
図2Cに従う変形例においては、取得された音響は、歌声を含む。取得された歌声から音楽的伴奏を計算的に自動で生成することは、音響(220)及びビデオ(230)パイプラインで適用される、コーディネートされた音響及びビデオ効果フィルタペア261の基本機能(図2Aを最参照されたい)に追加して提供される。図11の最上位レベルの機能フローに図示されるように、LaDiDa型機能223は、歌声のピッチを追跡し(1192)、キーを評価し(1193)、メロディ構造を解析し(1194)、それによって、歌声の境界とセクションを特定するための、取得された歌声音響1191のための追加的信号処理を提供する。そのような導出された特性に基づき、LaDiDa型機能223は、コード割り当て(1195)に対し、隠れマルコフモデル(HMM)技術を用い、かつ、テンプレートスタイルファイルからの選択(1196)を用いて、音楽的伴奏を自動的に生成する。結果のMIDI形式の伴奏(1197)は、レンダリングエンジン250によって最終的にレンダリングされる、歌声信号/データを生成するために、取得された歌声(取得された歌声の処理された導出物を含む)と、音響パイプライン220において、ミキシングされることが出来ることを理解されたい(図2Cを最参照されたい)。
音響フィルタ221動作は、一般に、取得された歌声、自動生成された伴奏あるいは、ミキシングされた演奏(自動生成された伴奏とミキシングされた取得された/処理された歌声)の信号/符号化に適用されることが出来る。オプションとして、LaDiDa型機能223(例えば、構造境界)及び/あるいは、計算的にこれから導出された選択(例えば、スタイル)によって抽出された音響的特徴は、音響パイプライン220において処理された音響コンテンツ(自動生成された伴奏を伴う歌声)へのビデオパフォーマンス効果の適用をコーディネートさせるように、ビデオパイプライン230側ビデオフィルタ231に伝搬されることが出来る。
本開示の利益を有する当業者は、図11に従う、あるいは、ここに適用される技術の部分集合あるいは超集合に基づく音楽的伴奏の自動生成の可能な種々の実装を理解するだろうが、歌声ピッチ追跡(1192)、キー評価(1193)、構造解析(1194)、コード割り当てのための隠れマルコフモデル(HMM)技術及びスタイルプレーヤー選択(1196)の例示的及び具体的計算システム実装の更なる詳細は、2012年12月12日出願の米国仮出願番号61/736、503号の付録Aに現れており、これは、参照により、ここに組み込まれる。
[システム及びネットワーク展開]
図10は、ある実施形態においては、発話−音楽あるいは発話−ラップ対象、及び/あるいは、自動伴奏生成計算ファシリティを含む、コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタと共に、音響視覚取得及び共有が提供される、ネットワークに接続された通信環境を図示する。計算ファシリティは、本明細書に説明した信号処理技術の計算による実現を実装し、音響視覚コンテンツを(例えば、マイク及び、カメラインタフェースあるいは入力によって)取得するために、ハンドヘルド計算プラットフォーム1001上で実行可能で、遠隔のデータ記憶装置あるいはサービスプラットフォーム(例えば、サーバ/サービス1005あるいは、ネットワーククラウド1004内)と通信し、及び/あるいは、本発明のある実施形態に従って、変換された音響信号を音響的に及び視覚的にレンダリングするのに適した、遠隔の装置(例えば、追加的な音響視覚取得及び/あるいは共有アプリケーションインスタンスをホストするハンドヘルド計算プラットフォーム1002及び/あるいは、コンピュータ1006)と通信するアプリケーション(あるいは、さもなくば、呼び出し可能/実行可能な機能)として実装される。
図10は、ある実施形態においては、発話−音楽あるいは発話−ラップ対象、及び/あるいは、自動伴奏生成計算ファシリティを含む、コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタと共に、音響視覚取得及び共有が提供される、ネットワークに接続された通信環境を図示する。計算ファシリティは、本明細書に説明した信号処理技術の計算による実現を実装し、音響視覚コンテンツを(例えば、マイク及び、カメラインタフェースあるいは入力によって)取得するために、ハンドヘルド計算プラットフォーム1001上で実行可能で、遠隔のデータ記憶装置あるいはサービスプラットフォーム(例えば、サーバ/サービス1005あるいは、ネットワーククラウド1004内)と通信し、及び/あるいは、本発明のある実施形態に従って、変換された音響信号を音響的に及び視覚的にレンダリングするのに適した、遠隔の装置(例えば、追加的な音響視覚取得及び/あるいは共有アプリケーションインスタンスをホストするハンドヘルド計算プラットフォーム1002及び/あるいは、コンピュータ1006)と通信するアプリケーション(あるいは、さもなくば、呼び出し可能/実行可能な機能)として実装される。
[他の実施形態]
本発明が、様々な実施形態を参照して説明されたが、これらの実施形態は例示目的で、本発明の範囲をこれらに限定するものではないことが理解されるだろう。多くの変形、改変、追加、改善が可能である。例えば、実施形態は、歌声発話を取得され、バックトラックとミキシングされるために、自動的に変換され、整列されるものとして説明されたが、ここに説明した、取得した歌声の自動変換は、また、対象のリズムあるいは拍子(詩、強弱格のサイクル、リメリックなどにおいて特徴的であるような)と時間的に整列され、音楽的伴奏のない表現的演奏を提供するために用いられることも可能であることが理解されるだろう。
本発明が、様々な実施形態を参照して説明されたが、これらの実施形態は例示目的で、本発明の範囲をこれらに限定するものではないことが理解されるだろう。多くの変形、改変、追加、改善が可能である。例えば、実施形態は、歌声発話を取得され、バックトラックとミキシングされるために、自動的に変換され、整列されるものとして説明されたが、ここに説明した、取得した歌声の自動変換は、また、対象のリズムあるいは拍子(詩、強弱格のサイクル、リメリックなどにおいて特徴的であるような)と時間的に整列され、音楽的伴奏のない表現的演奏を提供するために用いられることも可能であることが理解されるだろう。
更に、ある例示的信号処理技術が、ある例示的応用の文脈で説明されたが、当業者は、他の適切な信号処理技術及び効果を適応させるために、説明された技術を改変することは直接的なことであることを認識するだろう。
本発明に従った、ある実施形態は、玩具、あるいは、娯楽市場のためなどの、専用装置の形状を有することができ、及び/あるいは、専用装置として提供されることができる。図では、本明細書に説明される自動変換技術が、歌声取得のためのマイク、プログラムされたマイクロコントローラ、デジタル−アナログ回路(DAC)、アナログ−デジタル変換器(ADC)回路及び、任意の一体スピーカあるいは音響信号出力を有する専用装置において、(例えば、iOS装置などのプログラム可能なハンドヘルド計算プラットフォーム実施形態に対して)低価格で提供される、そのような装置の種類に適したデータ及び他のフローと共に、機能ブロックが示された。
本発明に従った、ある実施形態は、本明細書に説明した方法を実行するために、計算システム(iPhoneハンドヘルド、携帯装置あるいは、携帯計算機装置)において実行される、命令列としてマシン可読媒体に符号化されたコンピュータプログラム製品、及び、非一時的媒体に有形的に実体化されたソフトウェアの他の機能構成の形状を取り、及び/あるいは、これらのものとして提供される。一般に、マシン可読媒体は、情報を伝送するために用いられる、有形の非一時的記憶装置と共に、マシン(例えば、コンピュータ、携帯装置あるいは携帯計算機装置などの計算ファシリティなど)によって読み取り可能な形状(例えば、アプリケーション、ソースあるいはオブジェクトコード、機能的記述情報など)で情報が符号化された、有形の態様を含むことが出来る。マシン可読媒体は、磁気記憶媒体(例えば、ディスク及び/あるいはテープ記憶装置)、光記憶媒体(例えば、CD−ROM、DVD、など)、光磁気記憶媒体、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、消去可能プログラマブルメモリ(例えば、EPROM及びEEPROM)、フラッシュメモリ、電子命令、動作シーケンス、機能的記述情報符号化などを格納するのに適した、他の種類の媒体を含むことが出来るが、これらには限定されない。
一般に、複数の例が、本明細書で説明されたコンポーネント、動作あるいは構造に対し、単数の例として提供されることが出来る。様々なコンポーネント、動作、データ記憶装置の間の境界は、いくらか恣意的で、特定の動作は、特定の例示目的の構成の文脈で図示された。機能の他の割り当てを考えることができ、それは、本発明の範囲に入る。一般に、例示的構成において、別個のコンポーネントとして提示された構造及び機能は、結合された構造あるいはコンポーネントとして実装されることが出来る。同様に、単一のコンポーネントとして提示された構造及び機能は、個別のコンポーネントとして実装されることが出来る。これら、及び、他の変形、改変、追加、及び、改善は、本発明の範囲内に入る。
Claims (51)
- 取り付けられているマイクとカメラインタフェースから対応する音響及びビデオストリームを取得し、前記取得された音響及びビデオストリームを、記憶装置に、少なくとも一時的に格納するために、携帯計算機装置を用いることと、
前記携帯計算機装置上で、複数の予め決められた効果プロファイルから第1の効果プロファイルを選択することであって、前記予め決められた効果プロファイルは、それぞれ、前記音響及びビデオストリームに適用するための、音響及び視覚フィルタのそれぞれのコーディネートされたペアから選択される、ことと、
前記音響及びビデオストリームを、それぞれのコーディネートされた音響及びビデオパイプラインで処理することであって、前記コーディネートは、前記コーディネートされた音響及び視覚フィルタの、前記それぞれの音響及びビデオストリームへの適用に、少なくとも部分的に基づく、ことと、
前記携帯計算機装置のディスプレイに対し、適用された前記コーディネートされた音響及び視覚フィルタで、前記音響及びビデオストリームを音響視覚的にレンダリングすることと、
その後、前記レンダリングされた音響視覚コンテンツを格納し、伝送し、あるいは、投稿することと、
を含む、
ことを特徴とする音響視覚処理方法。 - 前記格納、伝送あるいは投稿の前に、前記複数の予め決められた効果プロファイルから少なくとも第2の効果プロファイルを選択することと、前記第2の効果プロファイルの前記コーディネートされた音響及び視覚フィルタを用いて、前記処理及び音響視覚的レンダリングステップを行うことと、をさらに含む、
ことを特徴とする請求項1に記載の方法。 - 少なくとも前記第1の効果プロファイルは、前記音響パイプラインで適用された場合、前記処理された音響ストリームから時間的に局所化可能な特徴を抽出する音響フィルタから選択され、
前記コーディネートは、前記ビデオパイプラインにおいて、前記音響パイプラインにおいて抽出された、少なくとも1つの時間的に局所化可能な特徴を用いることを更に含む、
ことを特徴とする請求項1に記載の方法。 - 少なくとも前記第1の効果プロファイルは、前記ビデオパイプラインで適用された場合、前記処理されたビデオストリームから時間的に局所化可能な特徴を抽出するビデオフィルタから選択され、
前記コーディネートは、前記音響パイプラインにおいて、前記ビデオパイプラインにおいて抽出された少なくとも1つの時間的に局所化可能な特徴を用いる、ことを更に含む、
ことを特徴とする請求項1に記載の方法。 - 前記音響パイプラインにおいて、前記音響ストリームを複数のセグメントに分割することと、セグメントのそれぞれを、対象の歌のフレーズテンプレートのそれぞれのサブフレーズ部分にマッピングすることとを更に含み、
前記コーディネートは、前記ビデオパイプラインにおいて、前記音響の分割及びマッピングに対応して、前記ビデオストリームを分割することと、そのセグメントをマッピングすることとを更に含む、
ことを特徴とする請求項1に記載の方法。 - 前記取得された音響ストリームは、前記ビデオストリームと時間的に同期された歌声を含み、
前記分割は、前記歌声において検出された開始に基づいて、前記音響パイプラインにおいて、境界付けられる、
ことを特徴とする請求項5に記載の方法。 - 前記音響パイプラインにおいて、前記音響ストリームを複数のセグメントに分割することと、前記セグメントの連続するものを、対象の歌のリズムの骨格のそれぞれのパルスに時間的に整列することと、前記時間的に整列されたセグメントの少なくともいくつかを時間的に引き伸ばすことと、前記時間的に整列されたセグメントの少なくともいくつかの他のものを時間的に圧縮することとを更に含み、
前記コーディネートは、前記ビデオパイプラインにおいて、前記ビデオストリームを分割することと、前記音響の分割整列、引き伸ばし、及び、圧縮に対応して、そのそれぞれのセグメントを、時間的に整列し、引き伸ばし、及び、圧縮することを更に含む、
ことを特徴とする請求項1に記載の方法。 - 前記取得された音響ストリームは、前記ビデオストリームに時間的に同期された歌声を含み、
前記セグメントは、前記歌声において検出された開始に基づいて、前記音響パイプラインにおいて、境界付けられる、
ことを特徴とする請求項7に記載の方法。 - 前記取得された音響ストリームは、歌声を含み、
前記音響パイプラインにおいて、前記歌声において検出されたメロディのピッチの和音であるコード選択に基づいて、かつ、更に、コード進行の統計的モデルに基づいて、前記歌声に対する音楽的伴奏を自動生成することを更に含む、
ことを特徴とする請求項1に記載の方法。 - 前記携帯計算機装置から、1以上の追加的な効果プロファイルの購入あるいはライセンスの取引を実行することを更に含む、
ことを特徴とする請求項1に記載の方法。 - 前記取引の実行において、前記携帯計算機装置の通信インタフェースを介して検索すること、あるいは、前記1以上の追加的効果プロファイルのコンピュータ可読符号化の既存の格納されたインスタンスを開放することを更に含む、
ことを特徴とする請求項10に記載の方法。 - 前記記憶装置は、前記携帯計算機装置に対してローカルである、
ことを特徴とする請求項1に記載の方法。 - 前記記憶装置は、少なくとも部分的に、ネットワークに存在し、前記携帯計算機装置から離れている、
ことを特徴とする請求項1に記載の方法。 - 前記携帯計算機装置とネットワークを介して通信するが、物理的に離れている、サービスプラットフォームにおいて、少なくとも最終的に選択された効果プロファイルに合わせて、処理を実行することを更に含む、
ことを特徴とする請求項1に記載の方法。 - 音響フィルタインスタンスは、前記音響パイプラインで、前記音響ストリームに適用された場合、
スペクトル等化と、
音響圧縮と、
ピッチ補正と、
ステレオ遅延と、
反響あるいはエコーと、
オーディオトラックとのミキシングと、
のうちの1以上を提供する、
ことを特徴とする請求項1に記載の方法。 - ビデオフィルタインスタンスは、前記ビデオパイプラインで、前記ビデオストリームに適用された場合、
ぼかし、あるいは、先鋭化と、
色マップ選択あるいは変換と、
色歪みあるいは等化と、
視覚ノイズ、重なりあるいは画像フレーム化と、
輝度あるいはコントラスト変化と、
ビデオフレームレート変化あるいはゲーティングと、
のうちの1以上を提供する、
ことを特徴とする請求項1に記載の方法。 - 前記携帯計算機装置は、
計算機バッドと、
ゲームコントローラと、
パーソナルデジタルアシスタントあるいは書籍リーダと、
携帯電話あるいはメディアプレーヤーと、
から成る群から選択される、
ことを特徴とする請求項1に記載の方法。 - 音響及び視覚フィルタの前記コーディネートされたペアは、前記音響及びビデオストリームに適用されるべき、芸術的に整合した効果を指定する、
ことを特徴とする請求項1に記載の方法。 - 音響及び視覚フィルタの前記コーディネートされたペアの少なくとも1つは、前記音響パイプラインにおいて、帯域制限フィルタ及び、スクラッチとポップトラックとのオーディオミキシングを含み、前記ビデオパイプラインにおいて、セピア色調フィルタ及び、フィルム粒とスクラッチとのビデオ重ね合わせを含む、ビンテージ効果を指定する、
ことを特徴とする請求項1に記載の方法。 - 前記携帯計算機装置に、請求項1に記載されたステップの少なくとも実質的な部分集合を実行させる、前記携帯計算機装置のプロセッサ上で実行可能な命令を含む、
1以上の媒体に符号化されたコンピュータプログラム製品。 - 前記携帯計算機装置に、請求項1に記載されたステップの少なくとも実質的な部分集合を実行させる、そのプロセッサ上で実行可能な命令でプログラムされた前記携帯計算機装置を含むシステム。
- 音響視覚コンテンツを変換する計算方法であって、
コンピュータ可読記憶装置から、コーディネートされた音響及びビデオストリームを含む音響視覚コンテンツの符号化にアクセスすることと、
それぞれのコーディネートされた音響及びビデオパイプラインにおいて、前記音響及びビデオストリームを処理することであって、前記それぞれの音響及びビデオパイプラインのコーディネートは、前記ビデオパイプラインによる処理において、前記音響パイプラインにおいて抽出された時間的に局所化可能な特徴を用いることを含む、ことと、
を含む、
ことを特徴とする方法。 - 前記時間的に局所化可能な特徴の少なくともいくつかは、音響側エポックを境界付ける、ことを特徴とする請求項22に記載の方法。
- 前記コーディネートは、前記エポックに従って、前記音響及びビデオストリームの両方のそれぞれの部分を、再整列することを含む、
ことを特徴とする請求項23に記載の方法。 - 特定のエポックの音響を、歌テンプレートのそれぞれの部分にマッピングすることを更に含み、前記マッピングは、前記音響を、時間的に引き伸ばすことと、圧縮することのうちの1以上を含み、
前記コーディネートは、前記エポックマッピングに従って、前記ビデオストリームの対応する部分をマッピングすることと、前記ビデオストリームに対応する時間的引き延ばし、及び、圧縮を適用することとを含む、
ことを特徴とする請求項23に記載の方法。 - 前記マッピングは、前記音響ストリームのそれぞれの部分を繰り返すことを含み、
前記コーディネートは、前記ビデオストリームに同じ繰り返しを適用することを含む、
ことを特徴とする請求項25に記載の方法。 - 前記音響ストリームは、歌声を含み、前記時間的に局所化可能な特徴の少なくともいくつかは、前記歌声において検出された開始に対応する、
ことを特徴とする請求項23に記載の方法。 - 前記音響パイプラインにおいて、歌声の音響符号化を複数のセグメントに分割することと、前記セグメントのそれぞれのものを、対象の歌のフレーズテンプレートのそれぞれのサブフレーズ部分にマッピングすることとを更に含み、
前記コーディネートは、前記ビデオパイプラインにおいて、前記音響分割及びマッピングに対応して、前記ビデオストリームを分割することと、そのセグメントをマッピングすることを含む、
ことを特徴とする請求項22に記載の方法。 - 前記セグメントは、前記音響符号化において特定された開始によって境界付けられる、前記音響符号化のサンプル列に対応する、
ことを特徴とする請求項28に記載の方法。 - 前記音響パイプラインにおいて、前記マッピングされた音響セグメントの1以上を、前記対象の歌のリズムの骨格に時間的に整列することと、
前記ビデオパイプラインにおいて、前記音響整列に対応して、前記ビデオセグメントを時間的に整列することと、を更に含む、
ことを特徴とする請求項28に記載の方法。 - 前記音響パイプラインにおいて、歌声の音響符号化を複数のセグメントに分割することと、前記セグメントの連続するものを、対象の歌のリズムの骨格のそれぞれのパルスに時間的に整列することと、前記時間的に整列されたセグメントの少なくともいくつかを時間的に引き伸ばすことと、前記時間的に整列されたセグメントの少なくともいくつかの他のものを時間的に圧縮することとを更に含み、
前記コーディネートは、前記ビデオパイプラインにおいて、前記音響分割整列、引き伸ばし、及び、圧縮に対応して、前記ビデオストリームを分割することと、そのぞれぞれのセグメントを、時間的に整列し、引き伸ばし、圧縮することと、を含む、
ことを特徴とする請求項22に記載の方法。 - 前記取得された音響ストリームは、歌声を含み、
前記音響パイプラインにおいて、前記歌声に検出されたメロディのピッチの和音であるコードの選択に基づき、かつ、コード進行の統計的モデルに更に基づいて、前記歌声への音楽的伴奏を自動的に生成することを更に含む、
ことを特徴とする請求項22に記載の方法。 - 携帯計算機装置上で、前記コーディネートされた音響及びビデオストリームを取得することと、前記それぞれのコーディネートされた音響及びビデオパイプラインにおいて、前記音響及びビデオストリームの処理を実行することを更に含む、
ことを特徴とする請求項22に記載の方法。 - 前記携帯計算機装置上で、前記コーディネートされた音響及びビデオパイプラインの出力を音響視覚的にレンダリングすることを更に含む、
ことを特徴とする請求項33に記載の方法。 - 前記コンピュータ可読記憶装置は、前記音響及びビデオパイプラインをホストする携帯計算機装置に対してローカルである、
ことを特徴とする請求項22に記載の方法。 - 前記コンピュータ可読記憶装置は、少なくとも部分的にネットワークに存在し、前記音響及びビデオパイプラインをホストする携帯計算機装置から離れている、
ことを特徴とする請求項22に記載の方法。 - 前記それぞれの音響及びビデオパイプラインの前記コーディネートは、前記音響及びビデオストリームに、芸術的に整合した効果を適用することをさらに含み、
適用された、前記芸術的に整合した効果を用いて、前記音響及びビデオストリームを音響視覚的にレンダリングすることを更に含む、
ことを特徴とする請求項22に記載の方法。 - 前記芸術的に整合した効果は、ビンテージ効果を含み、
前記音響パイプラインにおいて適用された前記ビンテージ効果は、帯域制限フィルタ及び、スクラッチとポップトラックとのオーディオミックスを含み、
前記ビデオパイプラインにおいて適用された前記ビンテージ効果は、セピア色調フィルタ及び、フィルム粒とスクラッチとのビデオ重ね合わせを含む、
ことを特徴とする請求項37に記載の方法。 - 音響視覚コンテンツを変換する計算方法であって、
コンピュータ可読記憶装置から、コーディネートされた音響及びビデオストリームを含む音響視覚コンテンツの符号化にアクセスすることと、
それぞれのコーディネートされた音響及びビデオパイプラインにおいて、前記音響及びビデオストリームを処理することであって、前記それぞれの音響及びビデオパイプラインのコーディネートは、前記音響パイプラインによる処理において、前記ビデオパイプラインにおいて抽出された時間的に局所化可能な特徴を用いることを含む、ことと、
を含む、
ことを特徴とする方法。 - 前記時間的に局所化可能な特徴の少なくともいくつかは、ビデオエポックを境界付け、
時間的に局所化可能な特徴の前記使用は、前記ビデオエポックの間の境界に、少なくとも部分的に基づいて、前記音響ストリームを分割することを含む、
ことを特徴とする請求項39に記載の方法。 - 前記時間的に局所化可能な特徴は、
オプティカルフローの強度あるいは方向の急激な変化と、
色分布の急激な変化と、
輝度の全体の、あるいは、空間的な分布の急激な変化と、
のうちの1以上を含む、
ことを特徴とする請求項39に記載の方法。 - 携帯計算機装置において、コーディネートされた音響及びビデオストリームを取得することと、
それぞれのコーディネートされた音響及びビデオパイプラインにおける前記音響及びビデオストリームを処理することであって、前記それぞれの音響及びビデオパイプラインのコーディネートは、(i)前記ビデオパイプラインによる処理において、前記音響パイプラインにおいて抽出された1以上の特徴を用いることと、(ii)前記音響パイプラインによる処理において、前記ビデオパイプラインにおいて抽出された1以上の特徴を用いることと、の一方、あるいは、両方を含む、ことと、
前記携帯計算機装置上で、前記コーディネートされた音響及びビデオパイプラインの出力を音響視覚的にレンダリングすることと、
を含む、
ことを特徴とする方法。 - 前記携帯計算機装置は、
計算機バッドと、
ゲームコントローラと、
パーソナルデジタルアシスタントあるいは書籍リーダと、
携帯電話あるいはメディアプレーヤーと、
から成る群から選択される、
ことを特徴とする請求項42に記載の方法。 - 請求項42に記載された方法を前記携帯計算機装置に実行させるために、前記携帯計算機装置のプロセッサ上で実行可能な命令を含む、1以上の媒体に符号化されたコンピュータプログラム製品。
- 携帯計算機装置を用いて、コーディネートされた音響及びビデオストリームを取得することであって、前記取得された音響ストリームは歌声を含む、ことと、
前記携帯計算機装置の音響及びビデオパイプラインにおいて適用されるべき、コーディネートされた音響及び視覚効果の予め決められたペアの中から選択することと、
前記歌声において検出されたメロディのピッチの和音であるコードの選択に基づき、かつ、コード進行の統計的モデルに更に基づき、前記歌声の音楽的伴奏を自動的に生成することと、
適用された、前記コーディネートされた音響及び視覚効果を用いて、前記音響及びビデオストリームを音響視覚的にレンダリングすることと、
を含む、
ことを特徴とする方法。 - 前記音響視覚的レンダリングは、自動的に生成された音楽的伴奏を含む、
ことを特徴とする請求項45に記載の方法。 - コーディネートされた音響及び視覚効果の少なくとも第2の予め決められたペアを選択することと、その後、適用された、コーディネートされた音響及び視覚効果の前記第2のペアを用いて、前記音響及びビデオストリームを音響視覚的に再レンダリングすることを更に含む、
ことを特徴とする請求項45に記載の方法。 - 前記レンダリングされた、あるいは、再レンダリングされた音響視覚コンテンツを、格納し、伝送あるいは投稿することを更に含む、
ことを特徴とする請求項45に記載の方法。 - 前記音響効果は、
反響あるいはエコー効果と、
コーラスあるいは和音効果と、
電話で起動される帯域制限フィルタ、市民帯(CB)ラジオあるいはビンテージオーディオと、
重ね合わせトラックと、
のうちの1以上を含む、
ことを特徴とする請求項45に記載の方法。 - 前記ビデオ効果は、
色ずれと、
輝度あるいはコントラスト変化と、
先鋭化あるいは、ぼかしと、
ビデオゲーティングあるいは重ね合わせと、
のうちの1以上を含む、
ことを特徴とする請求項45に記載の方法。 - 前記携帯計算機装置は、
計算機バッドと、
ゲームコントローラと、
パーソナルデジタルアシスタントあるいは書籍リーダと、
携帯電話あるいはメディアプレーヤーと、
から成る群から選択される、
ことを特徴とする請求項45に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261736503P | 2012-12-12 | 2012-12-12 | |
US61/736,503 | 2012-12-12 | ||
PCT/US2013/074820 WO2014093713A1 (en) | 2012-12-12 | 2013-12-12 | Audiovisual capture and sharing framework with coordinated, user-selectable audio and video effects filters |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016509384A true JP2016509384A (ja) | 2016-03-24 |
Family
ID=50934970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015547574A Pending JP2016509384A (ja) | 2012-12-12 | 2013-12-12 | コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタを有する音響視覚取得及び共有フレームワーク |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2016509384A (ja) |
WO (1) | WO2014093713A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2528100A (en) | 2014-07-10 | 2016-01-13 | Nokia Technologies Oy | Method, apparatus and computer program product for editing media content |
GB2554322B (en) | 2015-06-03 | 2021-07-14 | Smule Inc | Automated generation of coordinated audiovisual work based on content captured from geographically distributed performers |
CN105898538A (zh) * | 2015-12-14 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 用于安卓平台的播放方法、装置及移动终端设备 |
US10845956B2 (en) * | 2017-05-31 | 2020-11-24 | Snap Inc. | Methods and systems for voice driven dynamic menus |
US20210390937A1 (en) * | 2018-10-29 | 2021-12-16 | Artrendex, Inc. | System And Method Generating Synchronized Reactive Video Stream From Auditory Input |
CN112218167B (zh) * | 2019-07-10 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 多媒体信息播放方法、服务器、终端及存储介质 |
US11381756B2 (en) * | 2020-02-14 | 2022-07-05 | Snap Inc. | DIY effects image modification |
CN113658570B (zh) * | 2021-10-19 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 歌曲处理方法、装置、计算机设备、存储介质及程序产品 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG124415A1 (en) * | 2005-02-02 | 2006-08-30 | Creative Tech Ltd | Method and system to process video effects |
US8930002B2 (en) * | 2006-10-11 | 2015-01-06 | Core Wireless Licensing S.A.R.L. | Mobile communication terminal and method therefor |
JP5042307B2 (ja) * | 2007-03-09 | 2012-10-03 | パイオニア株式会社 | エフェクト装置、av処理装置およびプログラム |
-
2013
- 2013-12-12 WO PCT/US2013/074820 patent/WO2014093713A1/en active Application Filing
- 2013-12-12 JP JP2015547574A patent/JP2016509384A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2014093713A1 (en) | 2014-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11264058B2 (en) | Audiovisual capture and sharing framework with coordinated, user-selectable audio and video effects filters | |
US20220180879A1 (en) | Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm | |
US20200082802A1 (en) | Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition | |
JP2016509384A (ja) | コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタを有する音響視覚取得及び共有フレームワーク | |
US8706496B2 (en) | Audio signal transforming by utilizing a computational cost function | |
JP6791258B2 (ja) | 音声合成方法、音声合成装置およびプログラム | |
JP5143569B2 (ja) | 音響的特徴の同期化された修正のための方法及び装置 | |
CN108766409A (zh) | 一种戏曲合成方法、装置和计算机可读存储介质 | |
JP2018077283A (ja) | 音声合成方法 | |
WO2015103415A1 (en) | Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition | |
JP4430174B2 (ja) | 音声変換装置及び音声変換方法 | |
Loscos | Spectral processing of the singing voice. | |
Lin et al. | High quality and low complexity pitch modification of acoustic signals | |
JP6834370B2 (ja) | 音声合成方法 | |
JP6683103B2 (ja) | 音声合成方法 | |
Blaauw | Modeling timbre for neural singing synthesis: methods for data-efficient, reduced effort voice creation, and fast and stable inference | |
JP6822075B2 (ja) | 音声合成方法 | |
TWI302296B (ja) | ||
CN114765029A (zh) | 语音至歌声的实时转换技术 | |
JP3447220B2 (ja) | 音声変換装置及び音声変換方法 |