JP2021189450A - オーディオの個人化をサポートするためのオーディオトラック分析技術 - Google Patents

オーディオの個人化をサポートするためのオーディオトラック分析技術 Download PDF

Info

Publication number
JP2021189450A
JP2021189450A JP2021088172A JP2021088172A JP2021189450A JP 2021189450 A JP2021189450 A JP 2021189450A JP 2021088172 A JP2021088172 A JP 2021088172A JP 2021088172 A JP2021088172 A JP 2021088172A JP 2021189450 A JP2021189450 A JP 2021189450A
Authority
JP
Japan
Prior art keywords
audio
category
track
audio track
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021088172A
Other languages
English (en)
Inventor
コンサリポア オミド
Khonsaripour Omid
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of JP2021189450A publication Critical patent/JP2021189450A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/637Administration of user profiles, e.g. generation, initialization, adaptation or distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

【課題】オーディオの個人化をサポートするためのオーディオトラック分析技術の提供。【解決手段】様々な実施形態により、オーディオの個人化を可能にするためのシステム及び技術が明示される。本技術は、オーディオカテゴリのオーディオ個人化設定を特定することと、オーディオトラックの1つ以上のオーディオプロパティを特定することと、1つ以上のオーディオプロパティに基づいて、オーディオカテゴリを代表するオーディオトラックの第1の部分を選択することと、ユーザにオーディオトラックの第1の部分を再生することと、オーディオトラックの第1の部分の再生時に、ユーザの入力に基づいて、ユーザの個人化設定を調整することと、を含む。【選択図】図3

Description

本開示の実施形態は、概して、オーディオデバイスに関し、より具体的には、オーディオの個人化をサポートするためのオーディオトラック分析に関する。
パーソナルエンターテインメントデバイスは、ユーザが電子メディア及びオーディオコンテンツを個人化することを可能にするモバイルアプリケーション及びコンピュータソフトウェアを含み得る。音楽、ビデオ、ビデオゲーム、及び/またはオンライン広告などのオーディオコンテンツを聴いている間のユーザ体験を向上させるために、このようなアプリケーションは、ユーザが、例えば好みのコンテンツを選択して聴くこと、または設定を調整することを可能にし得る。また、特定のオーディオ品質を強化または明確にするために、このようなアプリケーションは、ユーザがオーディオコンテンツをデジタル操作することを可能にし得る。
しかし、所与のオーディオコンテンツで所望のオーディオ体験を達成するために、ユーザは通常、様々なアプリケーション及び/または設定を手動で調整するが、これは退屈であり得、時間がかかり得、及び/または面倒であり得る。例えば、オーディオトラックのニュアンスやアーティファクトをよりよく聞くために、及び/または他の所望の目標を達成するために、ユーザは、個人の好みに基づいて、低音または高音のレベルを上げるもしくは下げる、周波数帯域フィルタを調整する、及び/または圧縮もしくは等化を適用する必要があり得る。
さらに、オーディオコンテンツの様々なカテゴリを切り替える場合に、アプリケーション設定を個人化することは、ユーザには困難であり得る。特に、オーディオプロパティは、オーディオカテゴリにより異なり得る。例えば、第1のオーディオカテゴリ(例えばロックンロール)に特有のオーディオ個人化設定は、第2のオーディオカテゴリ(例えばクラシック)のオーディオコンテンツには、不適切であり得る。その結果、第1のオーディオカテゴリのオーディオ個人化設定が第2のオーディオカテゴリのオーディオコンテンツに適用された場合、オーディオ個人化設定は、第2のオーディオカテゴリのオーディオコンテンツにあまり合わず、よって、第2のオーディオカテゴリのオーディオコンテンツのリスニング体験は低下する。従って、ユーザは、カテゴリ間の切り替えが起こるたびに、オーディオ個人化設定を調整し得る。これは、多くの場合、特にオーディオコンテンツをストリーミングする場合に、所望のリスニング体験を一貫して実現することを困難にする。これらの個人化問題のうちのいくつかは、オーディオカテゴリごとにユーザの個人化設定を記憶することより、対処できる。次に、ユーザの個人化設定は、対応するオーディオカテゴリのオーディオトラックがユーザに再生されるたびに、ロードされ適用され得る。
しかし、特定のオーディオカテゴリを代表するオーディオサンプルを選択して、それによりその特定のオーディオカテゴリの個人化設定を最初に構成することは、困難である。例えば、ユーザは、特定のオーディオカテゴリ内の相当な数のオーディオコンテンツを熟知し得るが、自身の個人化設定を作成するための代表サンプルとして選択する特定のオーディオトラックを、容易に決定できない場合がある。さらに、オーディオプロパティは通常、1つのオーディオコンテンツ内で異なるため、特定のオーディオトラックが特定のオーディオカテゴリを代表する場合でも、特定のオーディオトラックの全ての部分が、特定のオーディオカテゴリの個人化設定を構成するのに好適であるとは限らない。
その結果、ユーザは通常、面倒で、時間がかかり、エラーが起こりやすい個人化プロセスを経て、質の良くない代表サンプルを選択する可能性が高く、選択した代表サンプルで個人化設定を構成することにより、多くの場合、部分的に最適な個人化設定が生じ、かつ各オーディオカテゴリの多数のオーディオコンテンツでリスニング体験が低下する。
従って、音声コンテンツの様々なカテゴリの個人化設定を構成する時に使用するオーディオサンプルをユーザがより適切に選択することを可能にする技術が求められている。
様々な実施形態により、オーディオカテゴリのオーディオ個人化設定を決定するためのコンピュータ実施方法が明示される。方法は、オーディオトラックの1つ以上のオーディオプロパティを特定することと、1つ以上のオーディオプロパティに基づいて、オーディオカテゴリを代表するオーディオトラックの第1の部分を選択することと、ユーザにオーディオトラックの第1の部分を再生することと、オーディオトラックの第1の部分の再生時に、ユーザの入力に基づいて、ユーザの個人化設定を調整することと、を含む。
さらなる実施形態により、数ある中でも、上記の方法を実施するように構成されたシステム及び1つ以上のコンピュータ可読記憶媒体が提供される。
先行技術に対して、開示される技術の少なくとも1つの技術的利点として、開示される技術は、ユーザが特定のオーディオカテゴリに自分好みの個人化設定を実現することを可能にするオーディオ特性の適切なバランスを含む代表オーディオトラック及び代表オーディオトラックの代表オーディオサンプルを、ユーザがより効率的かつ効果的に選択することを可能にすることにより、向上したオーディオ個人化を可能にすることが挙げられる。開示される技術は、ユーザの選択に基づいて、特定のオーディオカテゴリの個人化設定を作成する時に使用する別の代表オーディオトラックを提案し得る。さらに、開示される技術は、個人化設定の構成に使用できるオーディオ特性のカテゴリ特有バランスを含むオーディオトラックの一部を生成するための、より高速で計算効率の良い手段をユーザに提供する。
様々な実施形態の上記に列挙した特徴を詳細に理解できるようにするために、上記で簡潔にまとめた本発明の概念のより具体的な説明が、様々な実施形態を参照して行われ得、そのうちのいくつかが添付図面に示される。しかしながら、添付図面は本発明の概念の典型的な実施形態のみを示しており、よって、いかなる方法でも範囲を限定するものと解釈されるべきではなく、他の同等に効果的な実施形態が存在することに留意されたい。
例えば、本願は以下の項目を提供する。
(項目1)
オーディオカテゴリのオーディオ個人化設定を決定するためのコンピュータ実施方法であって、
オーディオトラックの1つ以上のオーディオプロパティを特定することと、
上記1つ以上のオーディオプロパティに基づいて、上記オーディオカテゴリを代表する上記オーディオトラックの第1の部分を選択することと、
ユーザに上記オーディオトラックの上記第1の部分を再生することと、
上記オーディオトラックの上記第1の部分の再生時に、上記ユーザの入力に基づいて、上記ユーザの個人化設定を調整することと、
を含む、上記コンピュータ実施方法。
(項目2)
上記オーディオトラックの上記第1の部分の複数の繰り返しを含むオーディオサンプルを作成することをさらに含み、
上記オーディオトラックの上記第1の部分を再生することは、上記オーディオサンプルを再生することをさらに含む、
上記項目に記載のコンピュータ実施方法。
(項目3)
上記オーディオサンプルを作成することは、上記オーディオサンプルにおいて上記オーディオトラックの上記第1の部分の上記繰り返しの間にテンポの不連続性が生じないように、上記オーディオトラックの上記第1の部分の継続時間を短縮または延長することを含む、上記項目のいずれか一項に記載のコンピュータ実施方法。
(項目4)
上記オーディオトラックの上記第1の部分を選択する前に、上記1つ以上のオーディオプロパティに基づいて、上記オーディオトラックが上記オーディオカテゴリを代表するか否かを判定することをさらに含む、上記項目のいずれか一項に記載のコンピュータ実施方法。
(項目5)
上記判定に基づいて、上記オーディオカテゴリを代表する第2のオーディオトラックを提案することをさらに含む、上記項目のいずれか一項に記載のコンピュータ実施方法。
(項目6)
上記1つ以上のオーディオプロパティには、低音レベル、高音レベル、周波数スペクトル、エネルギー、またはテンポのうちの少なくとも1つが含まれる、上記項目のいずれか一項に記載のコンピュータ実施方法。
(項目7)
上記オーディオトラックの上記第1の部分を選択することは、上記1つ以上のオーディオプロパティのそれぞれを、上記オーディオカテゴリに関連付けられた対応するオーディオメトリックと比較することを含む、上記項目のいずれか一項に記載のコンピュータ実施方法。
(項目8)
上記オーディオトラックの上記第1の部分を選択することは、上記1つ以上のオーディオプロパティのそれぞれと、上記オーディオカテゴリに関連付けられた対応するオーディオメトリックとの総計差が、閾値差未満であるか否かを判定することを含む、上記項目のいずれか一項に記載のコンピュータ実施方法。
(項目9)
上記オーディオトラックの上記第1の部分を選択することは、上記1つ以上のオーディオプロパティのそれぞれを、上記オーディオカテゴリに関連付けられた対応するオーディオメトリックの範囲と比較することを含む、上記項目のいずれか一項に記載のコンピュータ実施方法。
(項目10)
上記オーディオトラックに関連付けられたメタデータまたはユーザ選択に基づいて、上記オーディオトラックの上記オーディオカテゴリを特定することをさらに含む、上記項目のいずれか一項に記載のコンピュータ実施方法。
(項目11)
メモリと、プロセッサとを備えたシステムであって、
上記メモリは、1つ以上のソフトウェアアプリケーションを格納し、
上記プロセッサは、上記1つ以上のソフトウェアアプリケーションを実行すると、
オーディオトラックの1つ以上のオーディオプロパティを特定することと、
上記1つ以上のオーディオプロパティに基づいて、オーディオカテゴリを代表する上記オーディオトラックの第1の部分を選択することと、
ユーザに上記オーディオトラックの上記第1の部分を再生することと、
上記オーディオトラックの上記第1の部分の再生時に、上記ユーザの入力に基づいて、上記ユーザの個人化設定を調整することと、
のステップを実行するように構成される、上記システム。
(項目12)
上記プロセッサは、上記オーディオトラックの上記第1の部分を選択する前に、上記1つ以上のオーディオプロパティに基づいて、上記オーディオトラックが上記オーディオカテゴリを代表するか否かを判定することのステップを実行するようにさらに構成される、上記項目に記載のシステム。
(項目13)
上記プロセッサは、上記判定に基づいて、上記オーディオカテゴリを代表する第2のオーディオトラックを提案することのステップを実行するようにさらに構成される、上記項目のいずれか一項に記載のシステム。
(項目14)
上記オーディオトラックの上記第1の部分を選択することは、上記1つ以上のオーディオプロパティのそれぞれを、上記オーディオカテゴリに関連付けられた対応するオーディオメトリックと比較することを含む、上記項目のいずれか一項に記載のシステム。
(項目15)
上記オーディオトラックの上記第1の部分を選択することは、上記1つ以上のオーディオプロパティのそれぞれと、上記オーディオカテゴリに関連付けられた対応するオーディオメトリックとの総計差が、閾値差未満であるか否かを判定することを含む、上記項目のいずれか一項に記載のシステム。
(項目16)
上記オーディオトラックの上記第1の部分を選択することは、上記1つ以上のオーディオプロパティのそれぞれを、上記オーディオカテゴリに関連付けられた対応するオーディオメトリックの範囲と比較することを含む、上記項目のいずれか一項に記載のシステム。
(項目17)
命令を格納する1つ以上の非一時的コンピュータ可読媒体であって、上記命令が1つ以上のプロセッサにより実行されると、上記1つ以上のプロセッサに、
オーディオトラックの1つ以上のオーディオプロパティを特定することと、
上記1つ以上のオーディオプロパティに基づいて、オーディオカテゴリを代表する上記オーディオトラックの第1の部分を選択することと、
ユーザに上記オーディオトラックの上記第1の部分を再生することと、
上記オーディオトラックの上記第1の部分の再生時に、上記ユーザの入力に基づいて、上記ユーザの個人化設定を調整することと、
のステップを実行させる、上記1つ以上の非一時的コンピュータ可読媒体。
(項目18)
上記オーディオトラックの上記第1の部分を選択する前に、上記1つ以上のオーディオプロパティに基づいて、上記オーディオトラックが上記オーディオカテゴリを代表するか否かを判定することをさらに含む、上記項目に記載の1つ以上の非一時的コンピュータ可読媒体。
(項目19)
上記個人化設定を上記オーディオカテゴリに関連付けることと、
上記個人化設定を保存することと、
をさらに含む、上記項目のいずれか一項に記載の1つ以上の非一時的コンピュータ可読媒体。
(項目20)
再生する第2のオーディオトラックの選択を受信することと、
上記第2のオーディオトラックの第2のオーディオカテゴリを特定することと、
上記第2のオーディオカテゴリに関連付けられた第2の個人化設定をロードすることと、
上記第2の個人化設定に従って上記第2のオーディオトラックのオーディオを修正することにより、カスタマイズされたオーディオ信号を生成することと、
上記カスタマイズされたオーディオ信号を上記ユーザに再生することと、
をさらに含む、上記項目のいずれか一項に記載の1つ以上の非一時的コンピュータ可読媒体。
(摘要)
様々な実施形態により、オーディオの個人化を可能にするためのシステム及び技術が明示される。本技術は、オーディオカテゴリのオーディオ個人化設定を特定することと、オーディオトラックの1つ以上のオーディオプロパティを特定することと、1つ以上のオーディオプロパティに基づいて、オーディオカテゴリを代表するオーディオトラックの第1の部分を選択することと、ユーザにオーディオトラックの第1の部分を再生することと、オーディオトラックの第1の部分の再生時に、ユーザの入力に基づいて、ユーザの個人化設定を調整することと、を含む。
本開示の1つ以上の態様を実施するように構成されたオーディオ個人化システムを示す概略図である。 本開示の様々な実施形態の1つ以上の態様を実施するように構成されたコンピューティングシステムの概念ブロック図である。 本開示の様々な実施形態による、オーディオカテゴリの個人化設定をカスタマイズするための方法ステップのフローチャートである。 本開示の様々な実施形態による、オーディオ個人化設定をオーディオトラックの再生に適用するための方法ステップのフローチャートである。
明確にするために、該当する場合、図面間で共通の同一要素を指すのに、同一の参照番号が使用されている。ある実施形態の特徴は、さらなる詳述なしに、他の実施形態に組み込まれ得ることが企図される。
下記の説明では、様々な実施形態のより完全な理解をもたらすために、多数の具体的な詳細が明記される。しかし、本発明の概念は、これらの具体的な詳細のうちの1つ以上がなくとも実施され得ることは、当業者には明らかであろう。
図1は、本開示の1つ以上の態様を実施するように構成されたオーディオ個人化システム100を示す概略図である。オーディオ個人化システム100は、1つ以上のオーディオ環境110と、ユーザプロファイルデータベース120と、オーディオプロファイルデータベース130と、コンピューティングデバイス140とを含むが、これらに限定されない。オーディオ個人化システム100は、ユーザが代表オーディオトラック及び代表オーディオトラックの代表オーディオサンプルをより効率的かつ効果的に選択することを可能にすることにより、ユーザが、対応するオーディオカテゴリでユーザ好みの個人化設定を達成できるように構成される。いくつかの実施形態では、オーディオ個人化システム100は、ユーザが複数のオーディオカテゴリの個人化設定をカスタマイズできるように構成される。
いくつかの実施形態では、オーディオ体験用のオーディオコンテンツは、コンピューティングデバイス140のローカルに格納され、他の実施形態では、このようなオーディオコンテンツは、クラウドベースのインフラストラクチャ105で実施されるストリーミングサービス104により提供される。オーディオコンテンツには、音楽、ビデオ、映画、ビデオゲーム、オンライン広告、オーディオブック、音声(着信音、動物の音声、合成音)、ポッドキャスト、スポーツイベント、または音響的に聞こえるもしくは録音できる任意の他のコンテンツが含まれ得る。
クラウドベースのインフラストラクチャ105は、分散コンピューティングシステム及び/またはクラウドベースのストレージシステムなど、技術的に実現可能な任意のインターネットベースのコンピューティングシステムであり得る。いくつかの実施形態では、クラウドベースのインフラストラクチャ105は、複数のネットワーク、複数のサーバ、複数のオペレーティングシステム、及び/または複数のストレージデバイスなどを含むが、これらに限定されない。サーバは、スタンドアロンサーバ、サーバのクラスタもしくは「ファーム」、1つ以上のネットワークアプライアンス、または本開示の1つ以上の態様を実施するのに好適な任意の他のデバイスであり得る。
1つ以上のオーディオ環境110のそれぞれは、特定のユーザのためにオーディオコンテンツを再生するように構成される。例えば、オーディオ環境110には、1つ以上のスマートデバイス111、ヘッドホン112、スマートスピーカ113、及び/または他の入力/出力(I/O)デバイス119が含まれ得るが、これらに限定されない。
図1に示される実施形態では、オーディオ環境110は、無線または有線によるポイントツーポイントまたはネットワーク化された通信リンクの任意の技術的に実現可能な組み合わせを介して、コンピューティングデバイス140から受信されるオーディオコンテンツを再生する。ネットワーク化された通信リンクには、リモートまたはローカルのコンピュータシステム及びコンピューティングデバイスの間の通信を可能にする任意の好適な通信リンクが含まれ、例えばブルートゥース(登録商標)通信チャネル、無線及び有線のLAN(ローカルエリアネットワーク)、インターネットベースのWAN(広域ネットワーク)、及び/またはセルラーネットワークなどが挙げられるが、これらに限定されない。その結果、オーディオ環境110には、家庭の「ダム」スピーカ、車両のステレオシステム、及び/または従来の一対のヘッドホンなど、コンピューティングデバイス140からオーディオコンテンツを直接受信することができる任意のオーディオデバイスが含まれ得る。さらに、図1に示される実施形態では、オーディオ環境110は、オーディオ信号処理を内部で実行する能力、またはクラウドベースのインフラストラクチャ105で実施されるエンティティからオーディオコンテンツまたは他の情報を受信する能力に、依存しない。
スマートデバイス111には、パーソナルコンピュータ、携帯情報端末、タブレットコンピュータ、携帯電話、スマートフォン、メディアプレーヤ、モバイルデバイス、または本発明の1つ以上の態様を実施するのに好適な任意の他のデバイスであり得るコンピューティングデバイスが含まれ得るが、これらに限定されない。スマートデバイス111は、電話サービス、ナビゲーションサービス、及び/またはインフォテインメントサービスなどを含むがこれらに限定されない様々なサービスを提供することにより、オーディオ個人化システム100の機能を増強し得る。さらに、スマートデバイス111は、センサからデータを取得し、そのデータをオーディオ個人化システム100に送信し得る。スマートデバイス111は、オーディオ入力デバイスを介して音声データを取得することができ、音声データを処理のためにオーディオ個人化システム100に送信する。同様に、ユーザがオーディオ個人化システム100から発信されるオーディオを聞くことができるように、スマートデバイス111は、オーディオ個人化システム100から音声データを受信し、音声データをオーディオ出力デバイスに送信し得る。
ヘッドホン112は、オーディオ個人化システム100から受信した1つ以上のオーディオ信号に基づいて音声を生成できるオーディオ出力デバイス、及び/またはオーディオ個人化システム100に関連付けられたパワーアンプなどの代替的なオーディオデバイスを含み得る。より具体的には、オーディオ出力デバイスは、1つ以上の電気信号を音波に変換し、音波を物理的環境内へ送ることができる。
スマートスピーカ113は、オーディオ入力デバイスを含み得、これは、周囲環境からユーザの声などの音響データを取得し、音響データに関連付けられた信号をオーディオ個人化システム100に送信し得る。
ヘッドホン112及びスマートスピーカ113のそれぞれは、1つ以上のスピーカ117、及びいくつかの実施形態では、1つ以上のセンサ118を含む。スピーカ(複数可)117は、コンピューティングデバイス140から受信されるカスタマイズされたオーディオ信号に基づいて、音声出力を生成するように構成されたオーディオ出力デバイスである。センサ(複数可)118は、ユーザから生体測定データ(例えば心拍数及び/または皮膚コンダクタンスなど)を取得し、生体測定データに関連付けられた信号をコンピューティングデバイス140に送信するように構成される。センサ(複数可)118により取得された生体測定データは、次に、コンピューティングデバイス140で実行される個人化アプリケーション145により処理され、特定のユーザの1つ以上の個人的オーディオ選好が決定され得る。様々な実施形態では、センサ(複数可)118には、生体測定データを取得可能な任意の種類の画像センサ、電気センサ、及び/または生体測定センサなどが含まれ得、例えばカメラ、電極、及び/またはマイクなどが含まれるが、これらに限定されない。
他のI/Oデバイス119は、入力デバイス、出力デバイス、及び入力データの受信と出力データの生成の両方が可能であるデバイスを含むが、これらに限定されない。他のI/Oデバイス119は、スマートデバイス111、ヘッドホン112、スマートスピーカ113、スピーカ117、センサ(複数可)118、リモートデータベース、及び/または他のコンピューティングデバイスなどへデータを送信し、及び/またはこれらからデータを受信する有線及び/または無線の通信デバイスを含み得るが、これらに限定されない。さらに、いくつかの実施形態では、他のI/Oデバイス119は、プッシュツートーク(PTT)ボタンを含み得、例えば車両、モバイルデバイス、及び/またはスマートスピーカなどに含まれるPTTボタンが挙げられる。
ユーザプロファイルデータベース120は、オーディオ環境110のいずれかで、特定のユーザに個人化オーディオ体験を生み出すことを可能にするユーザ特有情報を格納する。示されるように、ユーザプロファイルデータベース120はクラウドベースのインフラストラクチャ105に実装することができ、よって、コンピューティングデバイス140がネットワーク化された通信リンクにアクセスできる場合はいつでも、コンピューティングデバイス140はユーザプロファイルデータベース120にアクセスすることができる。いくつかの実施形態では、特定のユーザに関連付けられ、かつユーザプロファイルデータベース120に格納された情報は、その特定のユーザに関連付けられたコンピューティングデバイス140のローカルにも格納される。このような実施形態では、ユーザ選好プロファイル(複数可)121及び/または個人化設定(複数可)122は、コンピューティングデバイス140のローカルユーザプロファイルデータベース143に格納される。ユーザプロファイルデータベース120に格納されたユーザ特有情報は、ユーザ選好プロファイル(複数可)121及び個人化設定(複数可)122のうちの1つ以上を含み得る。
ユーザ選好プロファイル(複数可)121は、特定のユーザに個人化オーディオ体験を生み出すために使用するユーザ特有情報を含み得る。いくつかの実施形態では、ユーザ選好プロファイル(複数可)121は、特定のユーザに関連付けられた音響フィルタ及び/またはEQ曲線を含む。いくつかの実施形態では、ユーザ選好プロファイル(複数可)121は、ダイナミックレンジ圧縮、ダイナミック拡張、オーディオ制限、及び/またはオーディオ信号の空間処理など、ユーザ好みの他の信号処理を含む。いくつかの実施形態では、ユーザ選好プロファイル(複数可)121は、ユーザが好みのリスニング設定を構成している間に選択した事前設定のEQ曲線を含み得る。EQ曲線は、ユーザが好みのリスニング設定を構成している間にユーザが行った1つ以上の個別の振幅調整を含み得る。事前設定のEQ曲線は、有名なミュージシャンや有名人など、別のユーザに関連付けられ得る。いくつかの実施形態では、EQ曲線は、特定のユーザに特有の頭部伝達関数(HRTF)情報を含み得る。
個人化設定(複数可)122は、対応するオーディオカテゴリの再生中に、特定のユーザに個人化オーディオ体験を生み出すために使用する情報を含み得る。いくつかの実施形態では、特定のオーディオカテゴリを代表する1つ以上のオーディオプロパティを有するオーディオトラックの再生中にユーザが行った設定に基づいて、各個人化設定122は生成され得る。いくつかの実施形態では、各個人化設定122は、オーディオトラックの一部の再生中に受信されるユーザ入力から決定され得、オーディオトラックの当該一部は、特定のオーディオカテゴリを代表する1つ以上のオーディオプロパティを有する。
いくつかの実施形態では、各特定のオーディオカテゴリは、音楽的または非音楽的なオーディオコンテンツの任意の分類を含み得る。例えば、オーディオカテゴリは、音楽のジャンル(クラシック、カントリー、ヒップホップ、及び/またはロックなど)を含み得る。オーディオカテゴリはまた、ビデオ、映画、ビデオゲーム、オンライン広告、オーディオブック、音声(着信音、動物の音声、合成音)、ポッドキャスト、スポーツイベント、または音響的に聞こえるもしくは録音できる任意の他のコンテンツの任意の分類を含み得る。いくつかの実施形態では、各特定のオーディオカテゴリは、リズム、ハーモニー、楽器、調性、及び/またはテンポなどの属性の組み合わせに基づく任意の分類を含み得る。
いくつかの実施形態では、特定のユーザにより選択され、オーディオ環境110のうちの1つで再生されるオーディオコンテンツは、対応するオーディオカテゴリのオーディオトラック再生時のそのユーザの個人的リスニング選好に適合するように、修正される。あるいは、またはさらに、いくつかの実施形態では、個人化設定(複数可)122は、対応するオーディオカテゴリの再生中に適用する他のユーザ好みかつカテゴリ特有の信号処理、例えばカテゴリ特有ダイナミックレンジ圧縮、カテゴリ特有ダイナミック拡張、カテゴリ特有オーディオ制限、及び/またはオーディオ信号のカテゴリ特有空間処理などを含む。いくつかの実施形態では、このようなカテゴリ特有の信号処理はまた、ユーザがオーディオコンテンツをオーディオ環境110のうちの1つで再生する時に、オーディオコンテンツを修正するように、オーディオ処理アプリケーション146により使用され得る。
コンピューティングデバイス140は、本明細書で説明される本開示の少なくとも1つの態様を実施するように構成され得る任意のコンピューティングデバイスであり得、これには、スマートフォン、電子タブレット、ラップトップコンピュータ、パーソナルコンピュータ、携帯情報端末、モバイルデバイス、または本開示の1つ以上の態様を実施するのに好適な任意の他のデバイスが含まれる。通常、コンピューティングデバイス140は、個人化アプリケーション145及び/またはオーディオ処理アプリケーション146に関連付けられた命令を含むがこれらに限定されないアプリケーションプログラムを実行することができる任意の種類のデバイスであり得る。いくつかの実施形態では、コンピューティングデバイス140はさらに、ローカルユーザプロファイルデータベース143を格納するように構成され、これは、1つ以上のユーザ選好プロファイル(複数可)121及び/または個人化設定(複数可)122を含み得る。いくつかの実施形態では、コンピューティングデバイス140はさらに、オーディオコンテンツのデジタル録音などのオーディオコンテンツ144を格納するように構成される。
個人化アプリケーション145は、コンピューティングデバイス140と、ユーザプロファイルデータベース120、オーディオプロファイルデータベース130、及びオーディオ環境110との間の通信を実行するように構成される。いくつかの実施形態では、個人化アプリケーション145はまた、対応するオーディオカテゴリのオーディオトラックの再生中にユーザ音声選好テスト及び/または設定操作などを可能にするユーザインターフェース(図示せず)を、ユーザに提示するように構成される。いくつかの実施形態では、個人化アプリケーション145はさらに、ユーザ特有オーディオ処理情報及びカテゴリ特有オーディオ処理情報に基づいて、オーディオ信号に対し、カスタマイズされたオーディオ個人化手順を生成するように構成される。
オーディオ処理アプリケーション146は、個人化アプリケーション145により生成されたカスタマイズされたオーディオ個人化手順で初期オーディオ信号を処理することにより、カスタマイズされたオーディオ信号を動的に生成し得る。例えば、オーディオ処理アプリケーション146は、特定のオーディオカテゴリの再生に関連付けられた1つ以上の適用可能なユーザ個人化設定122に基づいて初期オーディオ信号を修正することにより、カスタマイズされたオーディオ信号を生成し得る。
オーディオプロファイルデータベース130は、オーディオコンテンツの複数のカテゴリのそれぞれに関して、1つ以上のオーディオメトリック131を格納する。特定のオーディオカテゴリに関連付けられたオーディオメトリック131のそれぞれは、特定のオーディオカテゴリに含まれるオーディオサンプルを代表する。これらの1つ以上のオーディオメトリック131は、個人化アプリケーション145により使用可能であり、対応するオーディオカテゴリの個人化設定122を設定する際に使用する代表オーディオトラック及び/または代表オーディオサンプルを選択するのに役立つ。示されるように、オーディオプロファイルデータベース130はクラウドベースのインフラストラクチャ105に実装することができ、よって、コンピューティングデバイス140がネットワーク化された通信リンクにアクセスできる場合はいつでも、コンピューティングデバイス140はオーディオプロファイルデータベース130にアクセスすることができる。オーディオプロファイルデータベース130は、オーディオメトリック131などの情報を格納し得る。
いくつかの実施形態では、オーディオメトリック131は、オーディオカテゴリのそれぞれを代表するオーディオコンテンツの分析に基づいて、生成され得る。いくつかの実施形態では、オーディオメトリック131は、動的プロパティ、低音または高音レベル、周波数スペクトル、エネルギー、及び/またはテンポなどの1つ以上のオーディオプロパティに関連付けられたデータを含み得る。
いくつかの実施形態では、オーディオカテゴリのそれぞれに関してオーディオメトリック131を決定するために使用するオーディオサンプルは、事前にラベル付け及び/または分類されたオーディオカテゴリのキュレートされたオーディオサンプル集合から選択され得る。いくつかの実施形態では、1つ以上のオーディオカテゴリは、オーディオサンプルの様々なオーディオプロパティ間の1つ以上の境界を特定するアルゴリズムを使用して決定され得、これは、オーディオサンプルの事前ラベル付けまたは分類と一貫する。いくつかの実施形態では、1つ以上の境界は、クラスタリング技術(例えばk平均法クラスタ分析)及び/または機械学習技術などを使用して特定され得る。
いくつかの実施形態では、オーディオメトリック131は、オーディオカテゴリごとに個別に格納される。いくつかの実施形態では、オーディオメトリック131は、集約オーディオコンテンツの統計モデリング、データマイニング、及び/または他のアルゴリズム分析に基づいて、生成され得る。いくつかの実施形態では、オーディオメトリック131は、オーディオカテゴリそれぞれのオーディオコンテンツの1つ以上のオーディオプロパティの平均値、標準偏差、値の範囲、及び/または中央値などの1つ以上の統計プロパティを含み得る。非限定的な例として、オーディオメトリック131は、一連の事前定義された周波数帯域のそれぞれにおけるスペクトルエネルギーの平均及び標準偏差を含み得、これらは、オーディオカテゴリのそれぞれに関して、事前定義された周波数帯域のそれぞれにおけるスペクトルエネルギーの典型的な量を示す。別の非限定的な例として、オーディオメトリック131は、連続するテンポパルス信号、エネルギーフラックス、エネルギースパイク、及び/またはダウンビート位置などの間の時間的分離の平均及び標準偏差を含み得る。いくつかの実施形態では、オーディオメトリック131は、テンポパルス信号、エネルギーフラックス、エネルギースパイク、及び/またはダウンビート位置などの周波数の平均及び標準偏差を含み得る。いくつかの実施形態では、オーディオメトリック131は、所定の期間中のテンポパルス信号、エネルギーフラックス、エネルギースパイク、及び/またはダウンビート位置などの数の平均及び標準偏差を含み得る。
いくつかの実施形態では、オーディオメトリック131は、各オーディオカテゴリに関連付けられた許容誤差ウィンドウを含み得る。許容誤差ウィンドウは、対応するオーディオカテゴリのオーディオコンテンツの1つ以上のオーディオプロパティの期待値の所定範囲であり得る。いくつかの実施形態では、許容誤差ウィンドウは、1つ以上のオーディオプロパティの偏差の限度を含み得る。
いくつかの実施形態では、オーディオメトリックは、対応するオーディオカテゴリへのオーディオサンプルの適合程度に関連付けられる複合または集約オーディオメトリックの計算において、オーディオプロパティのそれぞれに割り当てられる相対的または絶対的な重みまたはスコアを含み得る。いくつかの実施形態では、集約オーディオメトリックは、対応するオーディオカテゴリの好みの個人化設定を構成するのに使用可能なオーディオプロパティのバランスに関連付けられ得る。
いくつかの実施形態では、オーディオメトリック131は、個人化アプリケーション145により使用され、オーディオカテゴリの個人化設定122をカスタマイズするためにユーザが使用する代表オーディオトラック及び代表オーディオサンプルを、ユーザが選択することを支援し得る。いくつかの実施形態では、ユーザは、オーディオトラックの全長、オーディオトラックの一部、または1つ以上のオーディオトラックの1つ以上の部分の集約などを、潜在的な候補オーディオトラックとして選択し、ユーザの個人化設定122を設定する時に使用することができる。いくつかの実施形態では、個人化アプリケーション145は、オーディオトラックのオーディオプロパティを、選択したオーディオトラックに関連付けられたオーディオカテゴリのオーディオメトリック131と比較する。いくつかの実施形態では、選択したオーディオトラックのオーディオカテゴリは、選択したオーディオトラックに関連付けられた分類データ及び/または他のメタデータ(例えばジャンル、サブジャンル、アーティスト、及び/またはタイトルなど)、並びに/あるいはユーザによるオーディオカテゴリの識別から、特定され得る。いくつかの実施形態では、個人化アプリケーション145は、関連するオーディオカテゴリを特定するために、1つ以上のオンラインデータベースに対して、分類データ及び/または他のメタデータのリアルタイム検索を実行し得る。いくつかの実施形態では、個人化アプリケーション145は、オーディオトラック内の1つ以上の楽器を識別し、1つ以上のオーディオパターンマッチング技術を実行して、対応するオーディオカテゴリを特定し得る。
いくつかの実施形態では、個人化アプリケーション145は、動的プロパティ、低音または高音レベル、周波数スペクトル、エネルギー、及び/またはテンポなど、選択したオーディオトラックの1つ以上のオーディオプロパティを特定する。いくつかの実施形態では、オーディオトラックのエネルギーは、様々な周波数副帯域の振幅(dBレベル)を含む。いくつかの実施形態では、オーディオトラックの周波数範囲は、周波数副帯域に分割され得る。いくつかの実施形態では、副帯域は、所定の周波数範囲に関連付けられる。いくつかの実施形態では、副帯域のそれぞれにおけるスペクトルエネルギーに対応する副帯域係数は、修正離散コサイン変換(MDCT)、高速フーリエ変換(FFT)、直交ミラーフィルタバンク(QMF)、及び/または共役直交ミラーフィルタバンク(CQMF)など、時間周波数領域変換技術を使用して特定され得る。
いくつかの実施形態では、テンポは、エネルギーフラックスとインパルス信号の相関、及び/または反復エネルギースパイク、ダウンビート位置の発見など、小節線検出技術を使用して特定され得る。いくつかの実施形態では、テンポは、エネルギースパイク及び/またはダウンビート位置などの間の平均継続時間で特定され得る。いくつかの実施形態では、テンポは、エネルギースパイク及び/またはダウンビート位置などの平均周波数で特定され得る。いくつかの実施形態では、テンポは、所定の期間中に発生するエネルギースパイク及び/またはダウンビート位置などのカウント数で特定され得る。いくつかの実施形態では、個人化アプリケーション145は、短時間フーリエ変換(STFT)などの技術を使用して、エネルギーフラックスを特定する。
いくつかの実施形態では、個人化アプリケーション145は、選択したオーディオトラックのオーディオプロパティを、対応するオーディオカテゴリに関連付けられた1つ以上のオーディオメトリック131と比較することにより、選択したオーディオトラックが対応するオーディオカテゴリを代表するか否かを判定する。いくつかの実施形態では、個人化アプリケーション145は、オーディオトラックのオーディオプロパティを、対応するオーディオカテゴリに関連付けられた統計的プロパティ及び/または許容誤差ウィンドウのうちの1つ以上を組み合わせたものと、比較する。
いくつかの実施形態では、個人化アプリケーション145は、選択したオーディオトラックの全てまたは所定のパーセンテージ(例えば90パーセント、80パーセント、及び/または75パーセントなど)のオーディオプロパティが、オーディオメトリック131における各オーディオプロパティの対応する範囲内にあるか否かを判定する。いくつかの実施形態では、範囲は、各オーディオメトリック131の対応する平均からの所定数の標準偏差、及び/または各オーディオメトリック131の許容誤差ウィンドウなどに基づいて、決定される。
いくつかの実施形態では、個人化アプリケーション145は、オーディオプロパティと、対応するオーディオカテゴリの対応するオーディオメトリック131との総計差が、閾値差を下回るか否かを判定する。いくつかの実施形態では、オーディオプロパティと対応するオーディオメトリック131との差は、オーディオプロパティが、対応するオーディオメトリック131の平均とどれだけ異なるかに基づく。いくつかの実施形態では、差は、対応するオーディオメトリックの平均からオーディオプロパティの標準偏差の数を示すzスコアを特定することにより、測定される。いくつかの実施形態では、オーディオプロパティと対応するオーディオメトリック131との差は、距離関数(例えばユークリッド距離)及び/または加重和などを使用して、集約され得る。いくつかの実施形態では、加重和で使用される重みは、各オーディオプロパティに割り当てられた重みまたはスコアに対応し得、これは、対応するカテゴリに関連付けられた個人化設定を決定する際に、他のオーディオプロパティと比較したオーディオプロパティの重要性を示す。
いくつかの実施形態では、1つ以上のオーディオプロパティが1つ以上のオーディオメトリックを満たさないと個人化アプリケーション145が判断した場合、個人化アプリケーション145は、代替のオーディオトラックを提案し得る。いくつかの実施形態では、個人化アプリケーション145は、オーディオメトリック131に使用されたオーディオサンプルのキュレートライブラリ内のオーディオサンプルのうちの1つ以上、ストリーミングサービス104を介して再生されるオーディオコンテンツ、オーディオコンテンツ144、ウェブベースのプログラムから、コンピューティングデバイス140のローカルに格納されたプログラムから、及び/またはプレイリストなどから、オーディオトラックを選択する。いくつかの実施形態では、個人化アプリケーション145は、対応するオーディオカテゴリのオーディオプロパティと同様のオーディオプロパティを有するオーディオサンプルを提案する。
いくつかの実施形態では、個人化アプリケーション145は、対応するオーディオカテゴリの代替オーディオトラックの提案を動的に生成し得る。いくつかの実施形態では、個人化アプリケーション145は、オーディオメトリック131に使用されたオーディオサンプルのキュレートライブラリ内のオーディオサンプルのうちの1つ以上の分析に基づいて、対応するオーディオカテゴリを代表するオーディオトラックを提案し得る。いくつかの実施形態では、個人化アプリケーション145は、対応するオーディオカテゴリのオーディオプロパティと同様のオーディオプロパティを有する複数のオーディオトラックを分析することにより、代替オーディオトラックの提案を動的に生成する。いくつかの実施形態では、個人化アプリケーション145は、対応するオーディオカテゴリの1つ以上のオーディオメトリック131に対する1つ以上のオーディオサンプルの1つ以上のオーディオプロパティの動的分析に基づいて、別の代表トラックを自動的に選択するように事前構成されたアルゴリズムを使用する。いくつかの実施形態では、個人化アプリケーション145は、関連するオーディオカテゴリでのユーザによる代表トラック選択の履歴データ、オーディオカテゴリの代表オーディオトラックに関するデータ、及び/または類似ユーザが選んだ1つ以上の代表トラックを示す人口統計データなどに基づいて、別のオーディオトラックを提案し得る。
いくつかの実施形態では、個人化アプリケーション145は、オーディオトラックの1つ以上の部分のオーディオプロパティを1つ以上のオーディオメトリック131と比較して、対応するオーディオカテゴリを代表するオーディオトラックの部分を特定する。いくつかの実施形態では、個人化アプリケーション145は、選択したオーディオトラックを1つ以上のフレームに分割する。いくつかの実施形態では、個人化アプリケーション145は、オーディオトラックの1つ以上の部分のオーディオプロパティを、対応するオーディオカテゴリに関連付けられた統計的プロパティ及び/または許容誤差ウィンドウのうちの1つ以上を組み合わせたものと、比較する。いくつかの実施形態では、個人化アプリケーション145は、選択したオーディオトラックが対応するオーディオカテゴリを代表するものであるか否かを判定することに関して前述された技術と同様の技術を使用して、対応するオーディオカテゴリを最も代表するオーディオトラックの部分を特定する。
いくつかの実施形態では、個人化アプリケーション145は、オーディオトラックの部分に基づいてオーディオサンプルを作成する。いくつかの実施形態では、オーディオサンプルは、オーディオトラックの部分から生成された事前定義の長さのオーディオコンテンツを含み得る。例えば、オーディオサンプルは、オーディオトラックの部分から選択された15〜25秒のサンプルであり得る。いくつかの実施形態では、個人化アプリケーション145は、オーディオトラックの部分からオーディオサンプルを事前に選択する、またはユーザ入力に基づいてオーディオサンプルを作成する。いくつかの実施形態では、オーディオサンプルは、オーディオトラックの部分から生成された反復ループである。いくつかの実施形態では、オーディオサンプルは、オーディオトラックの部分の複数の繰り返しを含む。
いくつかの実施形態では、個人化アプリケーション145は、オーディオトラックの部分の繰り返しをまとめて、オーディオサンプルにシームレスに編集することにより、オーディオサンプルを作成する。いくつかの実施形態では、個人化アプリケーションは、オーディオトラックの部分の長さを短縮または延長して、オーディオトラックの部分の第1の繰り返しの終了と、オーディオトラックの第2の繰り返しの開始との間にテンポの不連続性が生じないようにする。いくつかの実施形態では、第1の繰り返しにおける最後のテンポパルス信号、エネルギースパイク、及び/またはダウンビート位置などと、第2の繰り返しにおける最初のテンポパルス信号、エネルギースパイク、及び/またはダウンビート位置との間の継続時間が、オーディオトラックの部分の全体的なテンポと一致するように、短縮または延長が選択される。いくつかの実施形態では、オーディオトラックの複数の部分をまとめて組み合わせてオーディオサンプルを作成する場合に、同様の技術が使用され得る。
いくつかの実施形態では、個人化アプリケーション145は、オーディオサンプルの1つ以上のオーディオプロパティの動的分析に基づいて、オーディオサンプルの1つ以上の特定の楽節を連続的に再生する。いくつかの実施形態では、オーディオサンプルの再生は、オーディオサンプルのオーディオプロパティを、対応するオーディオカテゴリに関連付けられた1つ以上のオーディオメトリック131と比較することに基づく。いくつかの実施形態では、オーディオサンプルの再生は、対応するオーディオカテゴリの1つ以上のオーディオメトリック131との総計差が最小であるオーディオサンプルの1つ以上の特定の楽節に、ユーザの焦点を向け直す。
いくつかの実施形態では、個人化アプリケーション145は、次に、オーディオサンプルの再生時に、ユーザ入力に基づいて、ユーザの1つ以上の個人化設定を調整し得る。いくつかの実施形態では、ユーザは、低音または高音レベルの上昇または低下、周波数帯域フィルタの調整、圧縮または等化の適用、離散振幅調整の実行、事前設定音響フィルタの選択もしくは修正、及び/またはオーディオカテゴリの好みの信号処理(ダイナミックレンジ圧縮、ダイナミック拡張、オーディオ制限、オーディオ信号の空間処理など)の選択などを、実行することができる。いくつかの実施形態では、ユーザは、出発点として関連するオーディオカテゴリの過去の個人化設定を選択し、オーディオサンプルの再生中に個人化設定を更新することができる。
いくつかの実施形態では、個人化アプリケーション145は、次に、オーディオカテゴリの1つ以上の個人化設定を保存する。いくつかの実施形態では、個人化設定は、ユーザプロファイルデータベース120内の個人化設定122に保存される。
いくつかの実施形態では、オーディオ処理アプリケーション146は、個人化設定をオーディオトラックの再生に適用し得る。いくつかの実施形態では、ユーザは、オーディオトラックの全長、オーディオトラックの一部、または1つ以上のオーディオトラックの1つ以上の部分の集約などを選択し得る。いくつかの実施形態では、オーディオ処理アプリケーション146は、個人化アプリケーション145に関して前述された技術と同様の技術を使用して、オーディオトラックのオーディオカテゴリを特定し得る。いくつかの実施形態では、オーディオ処理アプリケーション146は、選択したオーディオトラックに関連付けられた分類データ及び/または他のメタデータから、及び/またはユーザ入力などから、選択したオーディオトラックのオーディオカテゴリを特定する。
いくつかの実施形態では、オーディオ処理アプリケーション146は、特定のオーディオカテゴリの個人化設定が使用可能であるか否かを判定する。いくつかの実施形態では、特定のオーディオカテゴリの個人化設定が使用可能でないとオーディオ処理アプリケーション146が判定した場合、オーディオ処理アプリケーション146は、個人化アプリケーション145を使用して個人化設定を作成するオプションを提供する。いくつかの実施形態では、オーディオカテゴリの個人化設定が使用可能であるとオーディオ処理アプリケーション146が判定した場合、オーディオ処理アプリケーション146は、オーディオカテゴリの個人化設定をロードする。いくつかの実施形態では、オーディオ処理アプリケーション146は、ユーザプロファイルデータベース120内の保存された個人化設定122から、オーディオカテゴリの個人化設定をロードする。いくつかの実施形態では、オーディオ処理アプリケーション146は、個人化設定をオーディオトラックの再生に適用する。
図2は、様々な実施形態の1つ以上の態様を実施するように構成されたコンピューティングデバイス200の概念的ブロック図である。いくつかの実施形態では、コンピューティングデバイス200は、コンピューティングデバイス140と一致する。コンピューティングデバイス200は、個人化アプリケーション145及び/またはオーディオ処理アプリケーション146などに関連付けられた命令を含むがこれらに限定されないアプリケーションプログラムを実行することが可能な任意の種類のデバイスであり得る。例えば、コンピューティングデバイス200は、電子タブレット、スマートフォン、ラップトップコンピュータ、車両に組み込まれたインフォテインメントシステム、及び/またはホームエンターテインメントシステムなどであり得るが、これらに限定されない。あるいは、コンピューティングデバイス200は、マイクロプロセッサなどのスタンドアロンチップとして、または特定用途向け集積回路(ASIC)及びシステムオンチップ(SoC)などとして実装されるより包括的なソリューションの一部として、実装され得る。本明細書で説明されるコンピューティングシステムは例示であり、任意の他の技術的に実現可能な構成も本発明の範囲に含まれることに留意されたい。
図示されるように、コンピューティングデバイス200は、プロセッサ250と、図1のオーディオ環境110に接続された入力/出力(I/O)デバイスインターフェース260と、メモリ210と、ストレージ230と、ネットワークインターフェース270とを接続する相互接続(バス)240を含むが、これらに限定されない。プロセッサ250は、中央処理装置(CPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、任意の他の種類の処理ユニット、または、例えばデジタル信号プロセッサ(DSP)と連動するように構成されたCPUなどの異なる処理ユニットの組み合わせ、として実装される任意の好適なプロセッサであり得る。例えば、いくつかの実施形態では、プロセッサ250は、CPU及びDSPを含む。通常、プロセッサ250は、本明細書で説明されるコンピューティングデバイス200の動作を促進するためにデータを処理する及び/または命令を実行することが可能な任意の技術的に実現可能なハードウェアユニットであり得る。さらに、本開示の文脈では、コンピューティングデバイス200内に示されるコンピューティング要素は、物理コンピューティングシステム(例えばデータセンタ内のシステム)に対応し得る、またはコンピューティングクラウド内で実行される仮想コンピューティングインスタンスであり得る。
I/Oデバイスインターフェース260は、図1のオーディオ環境110とプロセッサ250との通信を可能にする。I/Oデバイスインターフェース260は通常、プロセッサ250が生成するオーディオ環境110に対応するアドレスを解釈するのに必要なロジックを含む。I/Oデバイスインターフェース260はまた、プロセッサ250とオーディオ環境110とのハンドシェイクを実施し、及び/またはオーディオ環境110に関連付けられた割り込みを生成するように構成され得る。I/Oデバイスインターフェース260は、任意の技術的に実現可能なCPU、ASIC、FPGA、任意の他の種類の処理ユニットまたはデバイスとして実装され得る。
ネットワークインターフェース270は、プロセッサ250を通信ネットワーク205に接続するコンピュータハードウェアコンポーネントである。ネットワークインターフェース270は、スタンドアロンカード、プロセッサ、または他のハードウェアデバイスとしてコンピューティングデバイス200に実装され得る。いくつかの実施形態では、ネットワークインターフェース270は、セルラー通信機能、衛星電話通信機能、無線WAN通信機能、または通信ネットワーク205及びコンピューティングデバイス200の外部の他のコンピューティングデバイスとの通信を可能にする他の種類の通信機能を備えるように構成され得る。
メモリ210は、ランダムアクセスメモリ(RAM)モジュール、フラッシュメモリユニット、または任意の他の種類のメモリユニット、あるいはこれらの組み合わせを含み得る。プロセッサ250、I/Oデバイスインターフェース260、及びネットワークインターフェース270は、メモリ210に対してデータの読み出し及び書き込みを行うように構成される。メモリ210は、プロセッサ250により実行可能な様々なソフトウェアプログラムと、個人化アプリケーション145及び/またはオーディオ処理アプリケーション146などを含む当該ソフトウェアプログラムに関連付けられたアプリケーションデータとを含む。
ストレージ230は、不揮発性ストレージデバイスなどの非一時的コンピュータ可読媒体を含み得る。いくつかの実施形態では、ストレージ230は、ローカルユーザプロファイルデータベース143を含む。
図3は、本開示の様々な実施形態による、オーディオカテゴリの個人化設定をカスタマイズするための方法ステップのフローチャートである。方法ステップは図1のシステムに関して説明されるが、方法ステップを任意の順序で実行するように構成されたあらゆるシステムが、様々な実施形態の範囲に含まれることが、当業者には理解されよう。いくつかの実施形態では、図3の方法のステップの一部または全ては、個人化アプリケーション145により実行され得る。
示されるように、方法300は、ユーザがオーディオトラックを選択するステップ301から始まる。いくつかの実施形態では、ユーザは、オーディオトラックの全長、オーディオトラックの一部、または1つ以上のオーディオトラックの1つ以上の部分の集約などを選択し得る。いくつかの実施形態では、ユーザは、ストリーミングサービス104を介して再生されるオーディオコンテンツから、またはコンピューティングデバイス140のローカルに格納されたオーディオコンテンツ144から、オーディオトラックを選択し得る。いくつかの実施形態では、ユーザは、ウェブベースのプログラムまたはコンピューティングデバイス140のローカルに格納されたプログラムを使用して、オーディオトラックを選択し得る。いくつかの実施形態では、オーディオトラックは、センサ(複数可)118またはスマートデバイス(複数可)111上に配置されたセンサから取得されたデータに基づいて、自動的に選択され得る。例えば、オーディオトラックは、選択に関するユーザ発声、オーディオトラックの選択に関連付けられたユーザの動き及び/またはジェスチャ、並びに/あるいは入力デバイスによるユーザインタラクションなどをセンサがキャプチャすることに基づいて、選択され得る。いくつかの実施形態では、オーディオトラックは、プレイリストから選択され得る。
ステップ302にて、オーディオトラックのオーディオプロパティが特定される。いくつかの実施形態では、動的プロパティ、低音または高音レベル、周波数スペクトル、エネルギー、及び/またはテンポなど、選択したオーディオトラックの1つ以上のオーディオプロパティが特定される。いくつかの実施形態では、オーディオトラックの周波数範囲は、周波数副帯域に分割され得る。いくつかの実施形態では、図1の個人化アプリケーション145に関して前述された周波数領域技術と同様の周波数領域技術を使用して、副帯域のそれぞれにおけるスペクトルエネルギーに対応する副帯域係数が特定される。
ステップ303にて、オーディオトラックのオーディオカテゴリが特定される。いくつかの実施形態では、選択したオーディオトラックのオーディオカテゴリは、選択したオーディオトラックに関連付けられた分類データ及び/または他のメタデータから特定され得る。いくつかの実施形態では、選択したオーディオトラックのオーディオカテゴリは、1つ以上のオンラインデータベースに対して、分類データ及び/または他のメタデータのリアルタイム検索を実行することにより特定され得る。いくつかの実施形態では、選択したオーディオトラックのオーディオカテゴリは、オーディオトラック内の1つ以上の楽器を識別し、1つ以上のオーディオパターンマッチング技術を実行することにより特定され得る。
いくつかの実施形態では、オーディオカテゴリは、ユーザ選択に基づいて特定される。いくつかの実施形態では、オーディオカテゴリは、センサ(複数可)118またはスマートデバイス(複数可)111上に配置されたセンサから取得されたデータに基づいて、自動的に選択され得る。例えば、オーディオカテゴリは、オーディオカテゴリの選択を識別する音声コマンド、オーディオカテゴリの選択を識別するユーザの動き及び/またはジェスチャ、並びに/あるいは入力デバイスによるユーザインタラクションなどをセンサ(複数可)118がキャプチャすることに基づいて、選択され得る。
ステップ304にて、オーディオトラックのオーディオプロパティは、オーディオカテゴリの1つ以上のオーディオメトリック131と比較され、選択したオーディオトラックが対応するオーディオカテゴリを代表するか否かが判定される。いくつかの実施形態では、オーディオトラックのオーディオプロパティは、対応するオーディオカテゴリに関連付けられた統計的プロパティ及び/または許容誤差ウィンドウのうちの1つ以上を組み合わせたものと、比較される。
いくつかの実施形態では、オーディオトラックのオーディオプロパティは、対応するオーディオメトリック131の範囲または平均と比較されて、オーディオプロパティの何パーセントが、対応する範囲内であるか、対応する平均から所定数の標準偏差内であるか、及び/または対応するオーディオメトリック131の許容誤差ウィンドウ内であるかなどが特定される。いくつかの実施形態では、オーディオトラックのオーディオプロパティと、対応するオーディオメトリック131との総計差が、閾値差と比較される。いくつかの実施形態では、総計差は、距離関数(例えばユークリッド距離)及び/または加重和などに基づく。いくつかの実施形態では、オーディオプロパティと対応するオーディオメトリック131との差は、対応するオーディオメトリック131の平均から測定される、または対応するオーディオメトリックの平均からオーディオプロパティの標準偏差の数を示すzスコアを特定することにより測定される。
オーディオプロパティが対応するオーディオカテゴリのオーディオメトリック131と一致しない場合(例えば対応する範囲外であるオーディオプロパティが多すぎる、及び/または総距離が閾値距離を超える場合)、ステップ305にて代替オーディオトラックが提案される。オーディオプロパティがオーディオトラックのオーディオカテゴリのオーディオメトリック131と一致する場合、選択したオーディオトラックは、ステップ306からさらに処理される。
ステップ305にて、代替オーディオトラックが提案される。いくつかの実施形態では、関連するオーディオカテゴリでのユーザによる代表トラック選択の履歴データ、オーディオカテゴリの代表オーディオトラックに関するデータ、及び/または類似ユーザが選んだ1つ以上の代表トラックを示す人口統計データなどに基づいて、別のオーディオトラックが提案される。次に、ユーザが別のオーディオトラックを選択できるようにステップ301〜304が繰り返され、別のオーディオトラックがオーディオカテゴリと一致するか否かが判定される。
ステップ306にて、オーディオカテゴリを代表するオーディオトラックの部分が選択される。いくつかの実施形態では、オーディオトラックは、1つ以上のフレームまたはセグメントに分割される。いくつかの実施形態では、ステップ304で使用される技術と同様の技術を使用して、どのフレーム及び/またはセグメントが、ステップ303で特定されたオーディオカテゴリの最適代表オーディオプロパティを有するかが特定される。次に、最適代表フレームまたはセグメントが、オーディオトラックの部分として選択される。いくつかの実施形態では、オーディオカテゴリの1つ以上のオーディオメトリック131との総計差が最小であるフレーム及び/またはセグメントが、オーディオトラックの部分として選択される。
ステップ307にて、オーディオサンプルは、オーディオトラックの部分に基づいて作成される。いくつかの実施形態では、オーディオサンプルは、オーディオトラックの部分から生成された事前定義の長さのオーディオコンテンツ(例えば15〜25秒のサンプル)を含み得る。いくつかの実施形態では、オーディオサンプルは、オーディオトラックの部分から生成された反復ループである。いくつかの実施形態では、オーディオサンプルは、オーディオトラックの第1の部分の複数の繰り返しを含む。いくつかの実施形態では、オーディオトラックの第1の部分の任意の2つの繰り返しの間にテンポの不連続性が生じないように、オーディオトラックの部分の繰り返しを共にオーディオサンプルへとシームレスに編集することにより、オーディオサンプルは作成される。
ステップ308にて、ユーザのためにオーディオサンプルが再生される。オーディオサンプルは、1つ以上のスマートデバイス111、ヘッドホン112、スマートスピーカ113、及び他の入力/出力(I/O)デバイス119を含むがこれらに限定されないオーディオ環境110内のデバイスのうちのいずれかを使用して、再生され得る。いくつかの実施形態では、オーディオサンプルは、センサ(複数可)118またはスマートデバイス(複数可)111上に配置されたセンサから取得されたデータに基づいて、自動的に再生され得る。例えば、オーディオサンプルは、ユーザの再生コマンド発声、オーディオサンプルの再生の開始に関連付けられたユーザの動き及び/またはジェスチャ、並びに/あるいは入力デバイスによるユーザインタラクションなどをセンサがキャプチャすることに基づいて、再生され得る。
ステップ309にて、オーディオサンプルの再生時に、ユーザ入力に基づいてユーザの1つ以上の個人化設定は調整される。いくつかの実施形態では、ユーザは、低音または高音レベルの上昇または低下、周波数帯域フィルタの調整、圧縮または等化の適用、離散振幅調整の実行、事前設定音響フィルタの選択もしくは修正、及び/またはオーディオカテゴリの好みの信号処理(ダイナミックレンジ圧縮、ダイナミック拡張、オーディオ制限、オーディオ信号の空間処理など)の選択などを、実行することができる。いくつかの実施形態では、ユーザは、出発点として関連するオーディオカテゴリの過去の個人化設定を選択し、オーディオサンプルの再生中に個人化設定を更新することができる。
いくつかの実施形態では、個人化設定(複数可)は、センサ(複数可)118またはスマートデバイス(複数可)111上に配置されたセンサから取得されたデータに基づいて、自動的に調整される。例えば、個人化設定(複数可)は、設定を上げる、下げる、選択する、修正する、または調整するコマンドのユーザ発声をセンサがキャプチャすることに基づいて、調整され得る。いくつかの実施形態では、個人化設定(複数可)は、設定の調整に関連付けられたユーザの動き及び/またはジェスチャ、並びに/あるいは入力デバイスによるユーザインタラクションなどをセンサがキャプチャすることに基づいて、調整され得る。
ステップ310にて、オーディオカテゴリの個人化設定(複数可)が保存される。いくつかの実施形態では、ユーザは、個人化設定(複数可)を新たな個人化設定(複数可)として保存し得る、またはオーディオコンテンツの1つ以上の関連カテゴリの以前保存された個人化設定(複数可)を更新し得る。いくつかの実施形態では、個人化設定(複数可)は、オーディオカテゴリに関連付けられる。いくつかの実施形態では、個人化設定(複数可)は、センサ(複数可)118またはスマートデバイス(複数可)111上に配置されたセンサから取得されたデータに基づいて、自動的に保存され得る。例えば、個人化設定(複数可)は、ユーザの保存もしくは更新コマンド発声、個人化設定の保存もしくは更新の開始に関連付けられたユーザの動き及び/またはジェスチャ、並びに/あるいは入力デバイスによるユーザインタラクションなどをセンサがキャプチャすることに基づいて、保存され得る。いくつかの実施形態では、個人化設定(複数可)は、ユーザプロファイルデータベース120内の個人化設定122に保存される。
図4は、オーディオ個人化設定をオーディオトラックの再生に適用するための方法ステップのフローチャートである。方法ステップは図1のシステムに関して説明されるが、方法ステップを任意の順序で実行するように構成されたあらゆるシステムが、様々な実施形態の範囲に含まれることが、当業者には理解されよう。いくつかの実施形態では、図3の方法のステップの一部または全ては、オーディオ処理アプリケーション146により実行され得る。
示されるように、方法400は、ユーザが再生するオーディオトラックを選択するステップ401から始まる。いくつかの実施形態では、ユーザは、オーディオトラックの全長、オーディオトラックの一部、または1つ以上のオーディオトラックの1つ以上の部分の集約などを選択し得る。ユーザは、ストリーミングサービス104を介して再生されるオーディオコンテンツから、またはコンピューティングデバイス140のローカルに格納されたオーディオコンテンツ144から、オーディオトラックを選択し得る。ユーザは、ウェブベースのプログラムまたはコンピューティングデバイス140のローカルに格納されたプログラムを使用して、オーディオトラックを選択し得る。オーディオトラックは、センサ(複数可)118またはスマートデバイス(複数可)111上に配置されたセンサから取得されたデータに基づいて、自動的に選択され得る。例えば、オーディオトラックは、選択に関するユーザ発声、オーディオトラックの選択に関連付けられたユーザの動き及び/またはジェスチャ、並びに/あるいは入力デバイスによるユーザインタラクションなどをセンサがキャプチャすることに基づいて、選択され得る。
ステップ402にて、オーディオトラックのオーディオカテゴリが特定される。いくつかの実施形態では、選択したオーディオトラックのオーディオカテゴリは、選択したオーディオトラックに関連付けられた分類データ及び/または他のメタデータから特定され得る。いくつかの実施形態では、選択したオーディオトラックのオーディオカテゴリは、1つ以上のオンラインデータベースに対して、分類データ及び/または他のメタデータのリアルタイム検索を実行することにより特定され得る。いくつかの実施形態では、選択したオーディオトラックのオーディオカテゴリは、オーディオトラック内の1つ以上の楽器を識別し、1つ以上のオーディオパターンマッチング技術を実行することにより特定され得る。
いくつかの実施形態では、オーディオカテゴリは、ユーザ選択に基づいて特定される。いくつかの実施形態では、オーディオカテゴリは、センサ(複数可)118またはスマートデバイス(複数可)111上に配置されたセンサから取得されたデータに基づいて、自動的に選択され得る。例えば、オーディオカテゴリは、オーディオカテゴリの選択を識別する音声コマンド、オーディオカテゴリの選択を識別するユーザの動き及び/またはジェスチャ、並びに/あるいは入力デバイスによるユーザインタラクションなどをセンサ(複数可)118がキャプチャすることに基づいて、選択され得る。
いくつかの実施形態では、ステップ304で使用される技術と同様の技術を使用して、選択したオーディオトラックのオーディオカテゴリが特定される。いくつかの実施形態では、オーディオカテゴリは、選択したオーディオトラックのオーディオプロパティを、1つ以上のオーディオカテゴリに関連付けられた1つ以上のオーディオメトリック131と比較して、選択したトラックのオーディオプロパティに最もよく一致する1つ以上のオーディオメトリック131を有するオーディオカテゴリを見つけることにより、特定される。
ステップ403にて、特定のオーディオカテゴリの個人化設定が使用可能か否かの判定が行われる。いくつかの実施形態では、ソフトウェアアプリケーションは、ユーザプロファイルデータベース120に問い合わせを実行して、格納された個人化設定(複数可)122が特定のオーディオカテゴリの個人化設定を含むか否かを判定する。いくつかの実施形態では、特定のオーディオカテゴリの個人化設定が見つからない場合、個人化設定を作成するためのオプションがステップ404で提供される。いくつかの実施形態では、特定のオーディオカテゴリの個人化設定が使用可能である場合、選択したオーディオトラックは、ステップ405からさらに処理される。
ステップ404にて、個人化設定を作成するためのオプションが提供される。いくつかの実施形態では、特定のオーディオカテゴリの個人化設定の提案オプションが生成され、これにより、ユーザはオーディオカテゴリの個人化設定を選択することが可能となる。いくつかの実施形態では、関連するオーディオカテゴリの過去の個人化設定を選択して、特定のオーディオカテゴリの個人化設定を保存するオプションが、ユーザに与えられる。いくつかの実施形態では、図3に開示される方法のように、オーディオカテゴリの個人化設定をカスタマイズするプロセスを開始するオプションが、ユーザに与えられる。
ステップ405にて、オーディオカテゴリの個人化設定がロードされる。いくつかの実施形態では、オーディオカテゴリの個人化設定は、ステップ310で保存された個人化設定に対応する。
ステップ406にて、個人化設定がオーディオトラックの再生に適用される。いくつかの実施形態では、ステップ405でロードした個人化設定に従って、ステップ401で選択したオーディオトラックのオーディオを修正することにより、カスタマイズされたオーディオ信号が生成される。
要約すると、様々な実施形態は、代表オーディオトラック及び代表オーディオサンプルを選択するための効率的かつ便宜的な手段を提供することにより、オーディオの個人化を可能にするシステム及び技術を明示する。開示される実施形態では、ソフトウェアアプリケーションは、オーディオトラックを分析してそのオーディオプロパティを特定し、オーディオトラックのオーディオプロパティを対応するオーディオカテゴリに関連付けられた1つ以上のオーディオメトリックと比較することにより、オーディオトラックが対応するオーディオカテゴリを代表するか否かを判定する。オーディオトラックが対応するオーディオカテゴリを十分代表する場合、ソフトウェアアプリケーションは、オーディオトラックの1つ以上の部分のオーディオプロパティを1つ以上のオーディオメトリックと比較して、対応するオーディオカテゴリを代表するオーディオトラックの部分を特定する。ソフトウェアアプリケーションは、次に、オーディオトラックの部分に基づいて、オーディオサンプルを作成する。いくつかの実施形態では、ソフトウェアアプリケーションは、次に、オーディオサンプルの再生時に、ユーザ入力に基づいて、ユーザの1つ以上の個人化設定を調整し得る。いくつかの実施形態では、1つ以上の個人化設定は、対応するオーディオカテゴリのオーディオトラックの再生に適用され得る。
先行技術に対して、開示される技術の少なくとも1つの技術的利点として、開示される技術は、ユーザが特定のオーディオカテゴリに自分好みの個人化設定を実現することを可能にするオーディオプロパティの適切なバランスを含む代表オーディオトラックを、ユーザがより効率的かつ効果的に選択することを可能にすることにより、向上したオーディオ個人化を可能にすることが挙げられる。開示される技術は、ユーザの選択に基づいて、特定のオーディオカテゴリの個人化設定を作成する時に使用する別の代表オーディオトラックを提案し得る。さらに、開示される技術は、個人化設定の構成に使用できるオーディオ特性のカテゴリ特有バランスを含むオーディオトラックの一部を生成するための、より高速で計算効率の良い手段をユーザに提供する。
1.いくつかの実施形態における、オーディオカテゴリのオーディオ個人化設定を決定するためのコンピュータ実施方法であって、オーディオトラックの1つ以上のオーディオプロパティを特定することと、前記1つ以上のオーディオプロパティに基づいて、前記オーディオカテゴリを代表する前記オーディオトラックの第1の部分を選択することと、ユーザに前記オーディオトラックの前記第1の部分を再生することと、前記オーディオトラックの前記第1の部分の再生時に、前記ユーザの入力に基づいて、前記ユーザの個人化設定を調整することと、を含む前記コンピュータ実施方法。
2.前記オーディオトラックの前記第1の部分の複数の繰り返しを含むオーディオサンプルを作成することをさらに含み、前記オーディオトラックの前記第1の部分を再生することは、前記オーディオサンプルを再生することをさらに含む、条項1に記載のコンピュータ実施方法。
3.前記オーディオサンプルを作成することは、前記オーディオサンプルにおいて前記オーディオトラックの前記第1の部分の前記繰り返しの間にテンポの不連続性が生じないように、前記オーディオトラックの前記第1の部分の継続時間を短縮または延長することを含む、条項1または2に記載のコンピュータ実施方法。
4.前記オーディオトラックの前記第1の部分を選択する前に、前記1つ以上のオーディオプロパティに基づいて、前記オーディオトラックが前記オーディオカテゴリを代表するか否かを判定することをさらに含む、条項1〜3のいずれかに記載のコンピュータ実施方法。
5.前記判定に基づいて、前記オーディオカテゴリを代表する第2のオーディオトラックを提案することをさらに含む、条項1〜4のいずれかに記載のコンピュータ実施方法。
6.前記1つ以上のオーディオプロパティには、低音レベル、高音レベル、周波数スペクトル、エネルギー、またはテンポのうちの少なくとも1つが含まれる、条項1〜5のいずれかに記載のコンピュータ実施方法。
7.前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれを、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックと比較することを含む、条項1〜6のいずれかに記載のコンピュータ実施方法。
8.前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれと、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックとの総計差が、閾値差未満であるか否かを判定することを含む、条項1〜7のいずれかに記載のコンピュータ実施方法。
9.前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれを、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックの範囲と比較することを含む、条項1〜8のいずれかに記載のコンピュータ実施方法。
10.前記オーディオトラックに関連付けられたメタデータまたはユーザ選択に基づいて、前記オーディオトラックの前記オーディオカテゴリを特定することをさらに含む、条項1〜9のいずれかに記載のコンピュータ実施方法。
11.いくつかの実施形態における、メモリと、プロセッサとを備えたシステムであって、前記メモリは、1つ以上のソフトウェアアプリケーションを格納し、前記プロセッサは、前記1つ以上のソフトウェアアプリケーションを実行すると、オーディオトラックの1つ以上のオーディオプロパティを特定することと、前記1つ以上のオーディオプロパティに基づいて、オーディオカテゴリを代表する前記オーディオトラックの第1の部分を選択することと、ユーザに前記オーディオトラックの前記第1の部分を再生することと、前記オーディオトラックの前記第1の部分の再生時に、前記ユーザの入力に基づいて、前記ユーザの個人化設定を調整することと、のステップを実行するように構成される、前記システム。
12.前記プロセッサは、前記オーディオトラックの前記第1の部分を選択する前に、前記1つ以上のオーディオプロパティに基づいて、前記オーディオトラックが前記オーディオカテゴリを代表するか否かを判定することのステップを実行するようにさらに構成される、条項11に記載のシステム。
13.前記プロセッサは、前記判定に基づいて、前記オーディオカテゴリを代表する第2のオーディオトラックを提案することのステップを実行するようにさらに構成される、条項11または12に記載のシステム。
14.前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれを、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックと比較することを含む、条項11〜13のいずれかに記載のシステム。
15.前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれと、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックとの総計差が、閾値差未満であるか否かを判定することを含む、条項11〜14のいずれかに記載のシステム。
16.前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれを、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックの範囲と比較することを含む、条項11〜15のいずれかに記載のシステム。
17.いくつかの実施形態における、命令を格納する1つ以上の非一時的コンピュータ可読媒体であって、前記命令が1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、オーディオトラックの1つ以上のオーディオプロパティを特定することと、前記1つ以上のオーディオプロパティに基づいて、オーディオカテゴリを代表する前記オーディオトラックの第1の部分を選択することと、ユーザに前記オーディオトラックの前記第1の部分を再生することと、前記オーディオトラックの前記第1の部分の再生時に、前記ユーザの入力に基づいて、前記ユーザの個人化設定を調整することと、のステップを実行させる、前記1つ以上の非一時的コンピュータ可読媒体。
18.前記オーディオトラックの前記第1の部分を選択する前に、前記1つ以上のオーディオプロパティに基づいて、前記オーディオトラックが前記オーディオカテゴリを代表するか否かを判定することをさらに含む、条項17に記載の1つ以上の非一時的コンピュータ可読媒体。
19.前記個人化設定を前記オーディオカテゴリに関連付けることと、前記個人化設定を保存することと、をさらに含む、条項17または18に記載の1つ以上の非一時的コンピュータ可読媒体。
20.再生する第2のオーディオトラックの選択を受信することと、前記第2のオーディオトラックの第2のオーディオカテゴリを特定することと、前記第2のオーディオカテゴリに関連付けられた第2の個人化設定をロードすることと、前記第2の個人化設定に従って前記第2のオーディオトラックのオーディオを修正することにより、カスタマイズされたオーディオ信号を生成することと、前記カスタマイズされたオーディオ信号を前記ユーザに再生することと、をさらに含む、条項17〜19のいずれかに記載の1つ以上の非一時的コンピュータ可読媒体。
任意の請求項に列挙される任意の請求項要素、及び/または本出願に記載される任意の要素の、任意の方法での任意の組み合わせ並びに全ての組み合わせは、本発明及び保護の企図される範囲に含まれる。
様々な実施形態の説明は、例示目的で提示されており、網羅的である、または開示される実施形態に限定される意図はない。説明される実施形態の範囲及び趣旨から逸脱することのない数多くの変更形態及び変形形態が、当業者には明らかであろう。
本実施形態の態様は、システム、方法、またはコンピュータプログラム製品として具現化され得る。従って、本開示の態様は、完全なハードウェア実施形態、完全なソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、あるいは本明細書で全て概して「モジュール」、「システム」、または「コンピュータ」と称され得るソフトウェア態様及びハードウェア態様を組み合わせた実施形態の形態を取り得る。さらに、本開示に記載の任意のハードウェア及び/またはソフトウェア技術、プロセス、機能、コンポーネント、エンジン、モジュール、あるいはシステムは、回路または回路のセットとして実装され得る。さらに、本開示の態様は、コンピュータ可読プログラムコードを取り込んだ1つ以上のコンピュータ可読媒体(複数可)に具現化されたコンピュータプログラム製品の形態を取り得る。
1つ以上のコンピュータ可読媒体(複数可)の任意の組み合わせが利用され得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、もしくは半導体のシステム、機器、もしくはデバイス、または前述の任意の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非包括的一覧)には、1つ以上の通信回線を有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD‐ROM)、光学記憶装置、磁気記憶装置、または前述の任意の好適な組み合わせが含まれ得る。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによるが使用するまたは接続する、プログラムを包含または格納可能な任意の有形媒体であり得る。
本開示の態様は、本開示の実施形態による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/またはブロック図を参照して上記に説明される。フローチャート図及び/またはブロック図の各ブロック、並びにフローチャート図及び/またはブロック図のブロックの組み合わせは、コンピュータプログラム命令により実施できることが、理解されよう。これらのコンピュータプログラム命令が、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、マシンが生成され得る。命令が、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行されることにより、フローチャート及び/またはブロック図の1つ以上のブロックの特定の機能/動作を実施することが可能となる。このようなプロセッサは、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサ、またはフィールドプログラマブルゲートアレイであり得るが、これらに限定されない。
図中のフローチャート及びブロック図は、本開示の様々な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実施態様のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、特定の論理機能(複数可)を実施するための1つ以上の実行可能命令を含むモジュール、セグメント、またはコードの部分を表し得る。いくつかの代替的な実施態様では、ブロックに記される機能は、図に記される順番以外でも起こり得ることにも留意されたい。例えば、連続して示される2つのブロックは、実際には、ほぼ同時に実行されてもよく、または関与する機能に応じて、ブロックは時に逆の順序で実行されてもよい。ブロック図及び/またはフローチャート図の各ブロック、並びにブロック図及び/またはフローチャート図のブロックの組み合わせは、特定の機能もしくは動作を実行する専用ハードウェアベースシステム、または専用ハードウェア及びコンピュータ命令の組み合わせにより、実施され得ることにも留意されたい。
上記は本開示の実施形態を対象とするが、本開示の他の実施形態及びさらなる実施形態は、その基本的な範囲から逸脱することなく考案されてもよく、その範囲は、添付の特許請求の範囲により特定される。

Claims (20)

  1. オーディオカテゴリのオーディオ個人化設定を決定するためのコンピュータ実施方法であって、
    オーディオトラックの1つ以上のオーディオプロパティを特定することと、
    前記1つ以上のオーディオプロパティに基づいて、前記オーディオカテゴリを代表する前記オーディオトラックの第1の部分を選択することと、
    ユーザに前記オーディオトラックの前記第1の部分を再生することと、
    前記オーディオトラックの前記第1の部分の再生時に、前記ユーザの入力に基づいて、前記ユーザの個人化設定を調整することと、
    を含む、前記コンピュータ実施方法。
  2. 前記オーディオトラックの前記第1の部分の複数の繰り返しを含むオーディオサンプルを作成することをさらに含み、
    前記オーディオトラックの前記第1の部分を再生することは、前記オーディオサンプルを再生することをさらに含む、
    請求項1に記載のコンピュータ実施方法。
  3. 前記オーディオサンプルを作成することは、前記オーディオサンプルにおいて前記オーディオトラックの前記第1の部分の前記繰り返しの間にテンポの不連続性が生じないように、前記オーディオトラックの前記第1の部分の継続時間を短縮または延長することを含む、請求項2に記載のコンピュータ実施方法。
  4. 前記オーディオトラックの前記第1の部分を選択する前に、前記1つ以上のオーディオプロパティに基づいて、前記オーディオトラックが前記オーディオカテゴリを代表するか否かを判定することをさらに含む、請求項1に記載のコンピュータ実施方法。
  5. 前記判定に基づいて、前記オーディオカテゴリを代表する第2のオーディオトラックを提案することをさらに含む、請求項4に記載のコンピュータ実施方法。
  6. 前記1つ以上のオーディオプロパティには、低音レベル、高音レベル、周波数スペクトル、エネルギー、またはテンポのうちの少なくとも1つが含まれる、請求項1に記載のコンピュータ実施方法。
  7. 前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれを、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックと比較することを含む、請求項1に記載のコンピュータ実施方法。
  8. 前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれと、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックとの総計差が、閾値差未満であるか否かを判定することを含む、請求項1に記載のコンピュータ実施方法。
  9. 前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれを、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックの範囲と比較することを含む、請求項1に記載のコンピュータ実施方法。
  10. 前記オーディオトラックに関連付けられたメタデータまたはユーザ選択に基づいて、前記オーディオトラックの前記オーディオカテゴリを特定することをさらに含む、請求項1に記載のコンピュータ実施方法。
  11. メモリと、プロセッサとを備えたシステムであって、
    前記メモリは、1つ以上のソフトウェアアプリケーションを格納し、
    前記プロセッサは、前記1つ以上のソフトウェアアプリケーションを実行すると、
    オーディオトラックの1つ以上のオーディオプロパティを特定することと、
    前記1つ以上のオーディオプロパティに基づいて、オーディオカテゴリを代表する前記オーディオトラックの第1の部分を選択することと、
    ユーザに前記オーディオトラックの前記第1の部分を再生することと、
    前記オーディオトラックの前記第1の部分の再生時に、前記ユーザの入力に基づいて、前記ユーザの個人化設定を調整することと、
    のステップを実行するように構成される、前記システム。
  12. 前記プロセッサは、前記オーディオトラックの前記第1の部分を選択する前に、前記1つ以上のオーディオプロパティに基づいて、前記オーディオトラックが前記オーディオカテゴリを代表するか否かを判定することのステップを実行するようにさらに構成される、請求項11に記載のシステム。
  13. 前記プロセッサは、前記判定に基づいて、前記オーディオカテゴリを代表する第2のオーディオトラックを提案することのステップを実行するようにさらに構成される、請求項11に記載のシステム。
  14. 前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれを、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックと比較することを含む、請求項11に記載のシステム。
  15. 前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれと、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックとの総計差が、閾値差未満であるか否かを判定することを含む、請求項11に記載のシステム。
  16. 前記オーディオトラックの前記第1の部分を選択することは、前記1つ以上のオーディオプロパティのそれぞれを、前記オーディオカテゴリに関連付けられた対応するオーディオメトリックの範囲と比較することを含む、請求項11に記載のシステム。
  17. 命令を格納する1つ以上の非一時的コンピュータ可読媒体であって、前記命令が1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、
    オーディオトラックの1つ以上のオーディオプロパティを特定することと、
    前記1つ以上のオーディオプロパティに基づいて、オーディオカテゴリを代表する前記オーディオトラックの第1の部分を選択することと、
    ユーザに前記オーディオトラックの前記第1の部分を再生することと、
    前記オーディオトラックの前記第1の部分の再生時に、前記ユーザの入力に基づいて、前記ユーザの個人化設定を調整することと、
    のステップを実行させる、前記1つ以上の非一時的コンピュータ可読媒体。
  18. 前記オーディオトラックの前記第1の部分を選択する前に、前記1つ以上のオーディオプロパティに基づいて、前記オーディオトラックが前記オーディオカテゴリを代表するか否かを判定することをさらに含む、請求項17に記載の1つ以上の非一時的コンピュータ可読媒体。
  19. 前記個人化設定を前記オーディオカテゴリに関連付けることと、
    前記個人化設定を保存することと、
    をさらに含む、請求項17に記載の1つ以上の非一時的コンピュータ可読媒体。
  20. 再生する第2のオーディオトラックの選択を受信することと、
    前記第2のオーディオトラックの第2のオーディオカテゴリを特定することと、
    前記第2のオーディオカテゴリに関連付けられた第2の個人化設定をロードすることと、
    前記第2の個人化設定に従って前記第2のオーディオトラックのオーディオを修正することにより、カスタマイズされたオーディオ信号を生成することと、
    前記カスタマイズされたオーディオ信号を前記ユーザに再生することと、
    をさらに含む、請求項17に記載の1つ以上の非一時的コンピュータ可読媒体。
JP2021088172A 2020-06-01 2021-05-26 オーディオの個人化をサポートするためのオーディオトラック分析技術 Pending JP2021189450A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/889,535 US12010495B2 (en) 2020-06-01 2020-06-01 Techniques for audio track analysis to support audio personalization
US16/889,535 2020-06-01

Publications (1)

Publication Number Publication Date
JP2021189450A true JP2021189450A (ja) 2021-12-13

Family

ID=75825508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021088172A Pending JP2021189450A (ja) 2020-06-01 2021-05-26 オーディオの個人化をサポートするためのオーディオトラック分析技術

Country Status (5)

Country Link
US (1) US12010495B2 (ja)
EP (1) EP3920049A1 (ja)
JP (1) JP2021189450A (ja)
KR (1) KR20210148916A (ja)
CN (1) CN113766307A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11930328B2 (en) * 2021-03-08 2024-03-12 Sonos, Inc. Operation modes, audio layering, and dedicated controls for targeted audio experiences

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7826911B1 (en) * 2005-11-30 2010-11-02 Google Inc. Automatic selection of representative media clips
US20070261537A1 (en) * 2006-05-12 2007-11-15 Nokia Corporation Creating and sharing variations of a music file
US7842876B2 (en) * 2007-01-05 2010-11-30 Harman International Industries, Incorporated Multimedia object grouping, selection, and playback system
US20100229094A1 (en) * 2009-03-04 2010-09-09 Apple Inc. Audio preview of music
US9311309B2 (en) * 2009-08-05 2016-04-12 Robert Bosch Gmbh Entertainment media visualization and interaction method
US20120128173A1 (en) * 2010-11-24 2012-05-24 Visteon Global Technologies, Inc. Radio system including terrestrial and internet radio
US9111519B1 (en) * 2011-10-26 2015-08-18 Mixwolf LLC System and method for generating cuepoints for mixing song data
JP6011064B2 (ja) * 2012-06-26 2016-10-19 ヤマハ株式会社 自動演奏装置及びプログラム
US9031244B2 (en) 2012-06-29 2015-05-12 Sonos, Inc. Smart audio settings
US9372925B2 (en) 2013-09-19 2016-06-21 Microsoft Technology Licensing, Llc Combining audio samples by automatically adjusting sample characteristics
US8767996B1 (en) * 2014-01-06 2014-07-01 Alpine Electronics of Silicon Valley, Inc. Methods and devices for reproducing audio signals with a haptic apparatus on acoustic headphones
WO2016167812A1 (en) 2015-04-17 2016-10-20 Hewlett-Packard Development Company, L.P. Adjusting speaker settings
US10855241B2 (en) * 2018-11-29 2020-12-01 Sony Corporation Adjusting an equalizer based on audio characteristics

Also Published As

Publication number Publication date
US20210377662A1 (en) 2021-12-02
CN113766307A (zh) 2021-12-07
US12010495B2 (en) 2024-06-11
EP3920049A1 (en) 2021-12-08
KR20210148916A (ko) 2021-12-08

Similar Documents

Publication Publication Date Title
US11729565B2 (en) Sound normalization and frequency remapping using haptic feedback
US10790919B1 (en) Personalized real-time audio generation based on user physiological response
US9319019B2 (en) Method for augmenting a listening experience
US20190018644A1 (en) Soundsharing capabilities application
US11829680B2 (en) System for managing transitions between media content items
US7774078B2 (en) Method and apparatus for audio data analysis in an audio player
JP2019525571A (ja) ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送
KR102477001B1 (ko) 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치
JP2010020133A (ja) 再生装置、表示方法および表示プログラム
US10921892B2 (en) Personalized tactile output
CN110853606A (zh) 一种音效配置方法、装置及计算机可读存储介质
JP2021189450A (ja) オーディオの個人化をサポートするためのオーディオトラック分析技術
Wilson et al. Perception & evaluation of audio quality in music production
TW201118719A (en) System and method for modifying an audio signal
US20200081681A1 (en) Mulitple master music playback
US20240213943A1 (en) Dynamic audio playback equalization using semantic features
EP3889958A1 (en) Dynamic audio playback equalization using semantic features
JP2020537470A (ja) オーディオ信号の個人適用のためのパラメータを設定するための方法
KR101426763B1 (ko) 음원 서비스 시스템 및 그 방법, 그리고 이에 적용되는 장치
US20230135778A1 (en) Systems and methods for generating a mixed audio file in a digital audio workstation
US11985376B2 (en) Playback of generative media content
US10921893B2 (en) Personalized tactile output
Pöpel et al. Sound Quality and User Experience
JP2017090682A (ja) データ管理装置及びコンテンツ再生システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240502