JP2024097827A - ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理 - Google Patents

ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理 Download PDF

Info

Publication number
JP2024097827A
JP2024097827A JP2024071376A JP2024071376A JP2024097827A JP 2024097827 A JP2024097827 A JP 2024097827A JP 2024071376 A JP2024071376 A JP 2024071376A JP 2024071376 A JP2024071376 A JP 2024071376A JP 2024097827 A JP2024097827 A JP 2024097827A
Authority
JP
Japan
Prior art keywords
audio
user
specific
processing
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2024071376A
Other languages
English (en)
Inventor
ティモシー パイ ダニエル
Timothy Pye Daniel
エドワード オリーブ ショーン
Edward Olive Sean
エス. ウェルティ トッド
S Welti Todd
コンサリポア オミド
Khonsaripour Omid
ゴピナサ スリニディ カダガター
Gopinatha SRINIDHI Kadagattur
ラディック クリストファー
Ludwig Christopher
ナップ マイケル
Knappe Michael
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of JP2024097827A publication Critical patent/JP2024097827A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/12Audiometering
    • A61B5/121Audiometering evaluating hearing capacity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/43Electronic input selection or mixing based on input signal analysis, e.g. mixing or selection between microphone and telecoil or between microphones with different directivity characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/48Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using constructional means for obtaining a desired frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/05Detection of connection of loudspeakers or headphones to amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Neurosurgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理の提供。【解決手段】音声信号処理の方法であって、本方法は、特定のユーザに関するユーザ固有音声処理情報にアクセスすることと、音出力を音声信号から生成するための音声デバイスの識別情報を判定することと、音声デバイスの識別情報に基づいて、音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、ユーザ固有音声処理情報及びデバイス固有音声処理情報に基づいて、音声信号に関するカスタマイズされた音声処理手順を発生させることと、音声信号をカスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることと、を含む。【選択図】図3

Description

関連出願の相互参照
本出願は、2019年1月4日出願の米国仮特許出願第62/788,677号の優先的な利益を主張するものである。この関連出願の主題は、内容全体が参照により本明細書に組み込まれている。
本開示の実施形態は、一般的に、音声デバイスに関し、より具体的には、ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理に関する。
音声エンターテイメントの分野で、リスナーの音声体験は、現在の音声環境(例えば、部屋、車両、及びヘッドホン装置など)の様々な態様によって影響を受ける可能性がある。例えば、低音域及び高音域の設定、スピーカ間の音量バランス、及び音声環境の他の特徴は、このような特徴がリスナーの個人的な音声の嗜好と合致するかどうかに応じて、リスナーの音声体験を損なうまたは高める可能性がある。よって、音声環境がリスナーの個人的な音声の嗜好と食い違う(例えば、低音が大き過ぎる)時、リスナーは、好きな音声を選んでかけていても、音声体験が低下する可能性がある。
車載音声システム、ワイヤレスヘッドホン、及びホームエンターテイメントシステムなどの個別の音響製品のカスタマイズによって、音声環境を、その音声環境に対してリスナーの個人的な音声の嗜好と合致させることができる。例えば、特定の部屋における音響システムの性能は、部屋自体の内部の発生させた音声の相互作用によって引き起こされる問題点を補正可能である、及び/またはさらに、リスナーの音声の嗜好を考慮可能であるルームイコライゼーションによって最適化されてもよい。別の例では、リスナーは、車両での音声システムにおけるイコライゼーション、音量、及び他の設定をセットアップでき、それによって、結果として生じる音声環境はその車両におけるそのリスナーに対して最適化される。その結果、その特定のリスナーは、そのリスナーの個人的な音声の嗜好及び音声環境の音声特性に合わせた最適な室内のリスニング体験を有する。
音声環境のカスタマイズに対する1つの欠点は、このようなカスタマイズが一般的に、現在のリスナーを対象とするものではなく、これを行った最後のリスナーによってカスタマイズされた固有の音声環境に関係していることである。従って、新しいリスナーが、先のリスナーによってカスタマイズされている音声環境の部屋に入るまたは車両を使用する時、先のリスナーによってセットアップされたカスタマイズがデフォルト設定で実施される。その結果、異なるリスナーが最適化された音声環境に入ってくるときはいつも、カスタマイズ工程が繰り返されなければならず、これは、新しいリスナーにとって、時間がかかることであり、イライラさせるものになり得る。さらに、ある特定の個人的な音声の嗜好を、ユーザが最適化された音声環境に入る度に得ることは実際的ではないまたは不可能である可能性がある。例えば、ゲイン調整は、特定のリスナーの聴覚障害プロファイルを補償するために音声環境において採用可能であるが、リスナーが音声環境を再カスタマイズする度に聴覚テストを行うことはそれほど実際的ではない。その結果、このようなゲイン調整は一般的に、他のリスナーと共有される音声環境において実施不可能であるし、別の音声環境に便利に適用されることもできない。
上記を考慮して、音声環境においてカスタマイズされた音声処理を実施するためのより効果的な技法が有用であると思われる。
様々な実施形態では、特定のユーザに関するユーザ固有音声処理情報にアクセスすることと、音出力を音声信号から生成するための音声デバイスの識別情報を判定することと、音声デバイスの識別情報に基づいて、音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、ユーザ固有音声処理情報及びデバイス固有音声処理情報に基づいて、音声信号に関するカスタマイズされた音声処理手順を発生させることと、音声信号をカスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることとを含む、音声信号処理に関する方法が説明されている。
先行技術に対する開示される技術の少なくとも1つの技術的な利点は、開示される技術が、現在の音声環境に関係なく、リスナーに関する音声体験を個別化することを可能にすることである。具体的には、リスナーの個人的嗜好及び/または聴力障害プロファイルは、またリスナーが各音声環境における音声システムを再カスタマイズする必要がないように、音声環境の音声特徴も把握しながら、いずれかの音声環境に自動的に適用され得る。さらなる利点は、個別化された音声体験は、個別化された音声体験を生じさせるための音声信号処理の一部もしくは全てを行う高性能音声デバイス、または音声信号処理を行わない「低機能」の音声デバイスを含む音声環境で実施できることである。これらの技術的な利点は、先行技術アプローチについての1つ以上の技術的改善を表す。
1つ以上の実施形態の上記に列挙された特徴の方式を詳細に理解することができるように、上記に簡潔に要約された1つ以上の実施形態のより具体的な説明は、ある具体的な実施形態を参照することによって説明され得、当該実施形態の一部は、添付図に示される。しかしながら、添付図は一般的な実施形態だけを示し、ひいては、任意の方式でその範囲を制限するものとして考慮されず、様々な実施形態の範囲に関して、同様に他の実施形態を包含することを留意されたい。
本発明は、例えば、以下を提供する。
(項目1)
音声信号処理の方法であって、前記方法は、
特定のユーザに関するユーザ固有音声処理情報にアクセスすることと、
音声信号から音出力を生成するために、音声デバイスの識別情報を判定することと、
前記音声デバイスの前記識別情報に基づいて、前記音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、
前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、前記音声信号に関するカスタマイズされた音声処理手順を発生させることと、
前記音声信号を前記カスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることと、
を含む、前記方法。
(項目2)
前記音声デバイスに音出力を前記カスタマイズされた音声信号から生成させることをさらに含む、上記項目に記載の方法。
(項目3)
前記音声デバイスに音出力を前記カスタマイズされた音声信号から生成させることは、前記カスタマイズされた音声信号を前記音声デバイスに無線接続を介して伝送することを含む、上記項目のいずれかに記載の方法。
(項目4)
前記音声信号を前記カスタマイズされた音声処理手順で前記処理することは、前記音声デバイスの外部にあるプロセッサを用いて行われる、上記項目のいずれかに記載の方法。
(項目5)
前記音声信号を前記カスタマイズされた音声処理手順で前記処理することは、前記音声デバイス内に含まれるプロセッサを用いて行われる、上記項目のいずれかに記載の方法。
(項目6)
前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、
前記特定のユーザの識別情報を判定することと、
前記特定のユーザの前記識別情報に基づいて、前記ユーザ固有音声処理情報をクラウドベースリポジトリから読み出すことと、
を含む、上記項目のいずれかに記載の方法。
(項目7)
前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、
前記特定のユーザの識別情報を判定することと、
前記特定のユーザの前記識別情報に基づいて、前記ユーザ固有音声処理情報を、前記カスタマイズされた音声処理手順を発生させるように構成されるコンピューティングデバイスから読み出すことと、
を含む、上記項目のいずれかに記載の方法。
(項目8)
前記カスタマイズされた音声処理手順を発生させることは、前記ユーザ固有音声処理情報または前記デバイス固有音声処理情報の少なくとも1つに含まれる情報から合成音イコライゼーションカーブを発生させることを含む、上記項目のいずれかに記載の方法。
(項目9)
前記合成音イコライゼーションカーブを発生させることは、前記ユーザ固有音声処理情報または前記デバイス固有音声処理情報に含まれる全ての音イコライゼーションカーブを組み合わせることを含む、上記項目のいずれかに記載の方法。
(項目10)
前記カスタマイズされた音声信号を前記カスタマイズされた音声処理手順で発生させることは、
前記音声信号を前記合成音イコライゼーションカーブで修正することによって、修正された音声信号を発生させることと、
前記修正された音声信号の前記ユーザ固有音声情報または前記デバイス固有音声情報の少なくとも1つに示されるゲイン修正動作を行うことと、
を含む、上記項目のいずれかに記載の方法。
(項目11)
非一過性コンピュータ可読媒体であって、プロセッサによって実行されるとき、前記プロセッサに、
特定のユーザに関するユーザ固有音声処理情報にアクセスすることと、
音声信号から音出力を生成するために、音声デバイスの識別情報を判定することと、
前記音声デバイスの前記識別情報に基づいて、前記音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、
前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、前記音声信号に関するカスタマイズされた音声処理手順を発生させることと、
前記音声信号を前記カスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることと、
のようなステップを行わせる命令を記憶する、前記非一過性コンピュータ可読媒体。
(項目12)
前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、前記音声信号に関する前記カスタマイズされた音声処理手順を発生させることは、さらに環境固有情報に基づいて、前記音声信号に関する前記カスタマイズされた音声処理手順を発生させることを含む、上記項目のいずれかに記載の非一過性コンピュータ可読媒体。
(項目13)
前記方法は、前記音声デバイスの前記識別情報及び前記特定のユーザの識別情報の少なくとも1つに基づいて、前記環境固有情報を判定することをさらに含む、上記項目のいずれかに記載の非一過性コンピュータ可読媒体。
(項目14)
前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、
固有イコライゼーションプロファイルを示すユーザ入力を受信することと、
前記固有イコライゼーションプロファイルにアクセスすることと、
を含む、上記項目のいずれかに記載の非一過性コンピュータ可読媒体。
(項目15)
前記カスタマイズされた音声処理手順を発生させることは、前記固有イコライゼーションプロファイルに基づいて、前記カスタマイズされた音声処理手順を発生させることを含む、上記項目のいずれかに記載の非一過性コンピュータ可読媒体。
(項目16)
前記方法は、前記特定のユーザによって行われるパーソナライゼーションテストに基づいて、前記固有イコライゼーションプロファイルを発生させることをさらに含む、上記項目のいずれかに記載の非一過性コンピュータ可読媒体。
(項目17)
前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、
前記特定のユーザの識別情報を判定することと、
前記特定のユーザの前記識別情報に基づいて、前記ユーザ固有音声処理情報をクラウドベースリポジトリから読み出すことと、
を含む、上記項目のいずれかに記載の非一過性コンピュータ可読媒体。
(項目18)
前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、
前記特定のユーザの識別情報を判定することと、
前記特定のユーザの前記識別情報に基づいて、前記ユーザ固有音声処理情報を、前記カスタマイズされた音声処理手順を発生させるように構成されるコンピューティングデバイスから読み出すことと、
を含む、上記項目のいずれかに記載の非一過性コンピュータ可読媒体。
(項目19)
前記カスタマイズされた音声処理手順を発生させることは、前記ユーザ固有音声処理情報または前記デバイス固有音声処理情報の少なくとも1つに含まれる情報から合成音イコライゼーションカーブを発生させることを含む、上記項目のいずれかに記載の非一過性コンピュータ可読媒体。
(項目20)
システムであって、
命令を記憶するメモリと、
前記メモリに結合されるプロセッサであって、前記命令を実行するとき、
特定のユーザに関するユーザ固有音声処理情報にアクセスすることと、
音声信号から音出力を生成するために、音声デバイスの識別情報を判定することと、
前記音声デバイスの前記識別情報に基づいて、前記音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、
前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、前記音声信号に関するカスタマイズされた音声処理手順を発生させることと、
前記音声信号を前記カスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることと、
のようなステップを行うように構成される、前記プロセッサと、
を含む、前記システム。
(摘要)
音声信号処理の方法であって、本方法は、特定のユーザに関するユーザ固有音声処理情報にアクセスすることと、音出力を音声信号から生成するための音声デバイスの識別情報を判定することと、音声デバイスの識別情報に基づいて、音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、ユーザ固有音声処理情報及びデバイス固有音声処理情報に基づいて、音声信号に関するカスタマイズされた音声処理手順を発生させることと、音声信号をカスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることと、を含む。
本開示の1つ以上の態様を実施するように構成される、個別化済み音声システムを示す概略図である。 本開示の様々な実施形態による、音声体験を個別化するために、ユーザ固有情報を発生させるための方法ステップのフローチャートである。 本開示の様々な実施形態による、カスタマイズされた音声信号を発生させるための方法ステップのフローチャートである。 本開示の様々な実施形態による、個別化済み音声システムを示す概略図である。 様々な実施形態の1つ以上の態様を実施するように構成される、コンピューティングシステムの概念的ブロック図である。
明確にするために、同一の参照数字は、適切な場合、複数の図において共通である同一要素を指定するように使用されている。一実施形態の特徴は、さらに列挙されることなく、他の実施形態に組み込まれ得ることが想到される。
本明細書に説明される実施形態は、自宅内、車内、及び/または外出先等の様々な音声環境(例えば、ヘッドホンを用いる)において、デバイスベース及び/またはクラウドベースの個別化された音声体験をユーザに提供する。個別化された音声体験は、個別の音及び音声体験の調整によって、特定のユーザの聴取嗜好及び聴力障害に対して最適化される。ユーザが、ある音声環境(例えば、ヘッドホンを用いる)における音声コンテンツに対する聴取から、別の音声環境(例えば、車内音声システムを用いる)に移行するとき、ユーザに関連付けられる個別の聴取嗜好及び/または聴力障害設定は、各音声環境において実施される。したがって、実施形態は、特定のユーザにカスタマイズされた音声体験を発生させ、連続的に、ある音声環境から別の音声環境まで当該ユーザを追いかける。結果として、ユーザの音声体験は、異なる音声環境に含まれる異なる音声デバイスが音声コンテンツをユーザに提供しているけれども、実質的に同じままである。様々な実施形態では、モバイルコンピューティングデバイス、ソフトウェアアプリケーション(または「アプリ」)、及び/またはクラウドサービスの組み合わせは、個別化された音声体験を多種多様のデバイス及び環境にもたらす。1つの係る実施形態は、図1と併せて下記に説明される。
図1は、本開示の1つ以上の態様を実施するように構成される、個別化済み音声システム100を示す概略図である。個別化済み音声システム100は、限定ではないが、1つ以上の音声環境110、ユーザプロファイルデータベース120、デバイスプロファイルデータベース130、及びモバイルコンピューティングデバイス140を含む。個別化済み音声システム100は、現在どの固有音声環境110が音声体験をユーザに提供しているかに関係なく、個別化された音声体験を特定のユーザに提供するように構成される。いくつかの実施形態では、音声体験に関する音声コンテンツは、モバイルコンピューティングデバイス140内でローカルに記憶され、他の実施形態では、係る音声コンテンツは、クラウドインフラストラクチャ105で実施されるストリーミングサービス104によって提供される。クラウドインフラストラクチャ105は、分散コンピューティングシステム及び/またはクラウドベースストレージシステム等の任意の技術的に実現可能なインターネットベースコンピューティングシステムであり得る。
1つ以上の音声環境110のそれぞれは、特定のユーザに関する音声コンテンツを再生するように構成される。例えば、音声環境110は、限定ではないが、自動車(または他の車両)の音声環境101、ヘッドホン102、及びスマートスピーカ103の1つ以上を含み得る。図1に示される実施形態では、音声環境110は、例えば、無線接続(例えば、Bluetooth(登録商標)及び/またはWiFi(登録商標))及び/または有線接続を介して、モバイルコンピューティングデバイス140から受信された音声コンテンツを再生する。結果として、音声環境110は、自宅内の「低機能」のスピーカ、車内のステレオシステム、または従来の一対のヘッドホン等のモバイルコンピューティングデバイス140から直接、音声コンテンツを受信することができる、任意の音声デバイスを含み得る。さらに、図1に示される実施形態では、音声環境110は、クラウドベースインフラストラクチャ105の内部で音声信号処理を行う能力、またはクラウドベースインフラストラクチャ105内に実装されるエンティティから音声コンテンツまたは他の情報を受信する能力に依存しない。
1つ以上の音声環境110のそれぞれは、1つ以上のスピーカ107を含み、いくつかの実施形態では、1つ以上のスピーカ107と、1つ以上のセンサ108とを含む。スピーカ(複数可)107は、モバイルコンピューティングデバイス140から受信されたカスタマイズされた音声信号に基づいて、音出力を生成するように構成される音声出力デバイスである。センサ(複数可)108は、生体データ(例えば、心拍数、皮膚コンダクタンス、及び/または同等物)をユーザから獲得し、生体データに関連付けられる信号をモバイルコンピューティングデバイス140に伝送するように構成される。次に、センサ(複数可)108によって獲得された生体データは、特定のユーザの1つ以上の個別の音声嗜好を判定するために、モバイルコンピューティングデバイス140上で起動している制御アルゴリズム145によって処理されることができる。様々な実施形態では、センサ(複数可)108は、例えば、限定ではないが、カメラ、電極、マイクロホン等を含む生体データを獲得することが可能である、任意の種類の画像センサ、電気センサ、生体センサ等を含み得る。
ユーザプロファイルデータベース120は、特定のユーザに関する音声環境110のいずれかで生じる同様の個別化された音声体験を可能にする、ユーザ固有情報及びデバイス固有情報を記憶する。示されるように、ユーザプロファイルデータベース120は、クラウドベースインフラストラクチャ105内に実装され、ひいては、モバイルコンピューティングデバイス140がインターネット接続を有するときはいつでも、モバイルコンピューティングデバイス140によってアクセスされることに利用できる。係るインターネット接続は、携帯電話接続、WiFi(登録商標)接続、及び/または有線接続を介して行われることができる。ユーザプロファイルデータベース120内に記憶されるユーザ固有情報及びデバイス固有情報は、1つ以上のユーザ嗜好イコライゼーション(イコライゼーション)プロファイル(複数可)121、環境イコライゼーション(イコライゼーション)プロファイル(複数可)122、及び聴力障害補償プロファイル123を含み得る。いくつかの実施形態では、特定のユーザに関連付けられ、ユーザプロファイルデータベース120内に記憶される情報は、また、特定のユーザに関連付けられるモバイルコンピューティングデバイス140内で、ローカルに記憶される。係る実施形態では、ユーザ嗜好プロファイル(複数可)121、環境イコライゼーションプロファイル(複数可)122、及び/または聴力障害補償プロファイル123は、モバイルコンピューティングデバイス140のローカルユーザプロファイルデータベース143内に記憶される。
ユーザ嗜好プロファイル(複数可)121は、特定のユーザに関する音声環境110のいずれかで個別化された音声体験を生じさせるために採用される、ユーザ固有情報を含む。いくつかの実施形態では、ユーザ嗜好プロファイル(複数可)121は、特定のユーザに関連付けられる音響フィルタ及び/またはイコライゼーションカーブを含む。概して、モバイルコンピューティングデバイス140の音声処理アプリケーション146による音声信号に関するカスタマイズされた音声処理手順の一部として採用されるとき、音響フィルタまたはイコライゼーションカーブは、特定の周波数において、音声信号の振幅を調節する。したがって、特定のユーザによって選択され及び音声環境110の1つで再生される音声コンテンツは、当該ユーザの個別の聴取嗜好に合わせるように修正される。代替として、または加えて、いくつかの実施形態では、ユーザ嗜好プロファイル(複数可)121は、音声信号のダイナミックレンジ圧縮、ダイナミック拡張、音声制限、及び/または空間処理等の他のユーザが好む信号処理を含む。係る実施形態では、ユーザによって選択されるとき、係るユーザが好む信号処理は、また、音声環境110の1つで再生されるとき、音声コンテンツを修正する音声処理アプリケーション146によって採用されることができる。
いくつかの実施形態では、ユーザ嗜好プロファイル(複数可)121は、ユーザプロファイルデータベース120に関連付けられる特定のユーザによって好まれる音声イコライゼーションを反映する1つ以上のユーザ嗜好ベースイコライゼーションザカーブを含む。係る実施形態では、ユーザ嗜好べースイコライゼーションカーブは、ユーザによる好ましい聴取設定のセットアップ中に選択された事前設定済イコライゼーションカーブであり得る。代替として、または加えて、係る実施形態では、ユーザ嗜好べースイコライゼーションカーブは、既知のミュージシャンまたは有名人に関連付けられた嗜好ベースイコライゼーションカーブ等の異なるユーザに関連付けられた事前設定済みイコライゼーションカーブであり得る。代替として、または加えて、係る実施形態では、ユーザ嗜好べースイコライゼーションカーブは、ユーザによる好ましい聴取設定のセットアップ中にユーザによって行われる1つ以上の個々の振幅調節を含むイコライゼーションカーブであり得る。代替として、または加えて、係る実施形態では、ユーザ嗜好ベースイコライゼーションカーブは、特定のユーザに固有の頭部伝達関数(HRTF)情報を含み得る。係るユーザ嗜好ベースイコライゼーションカーブは、カスタマイズされた音声処理手順の一部として、音声処理アプリケーション146によって採用されるとき、当該ユーザ嗜好イコライゼーションカーブに関連付けられる特定のユーザに関する没入体験及び/または3次元音声体験を可能にし得る。
いくつかの実施形態では、ユーザ嗜好プロファイル121のそれぞれは、音楽の固有のカテゴリまたは複数のカテゴリの再生、1日の特定の時間または複数の時間、1つ以上のセンサ108を介してユーザから受信された生体フィードバック(雰囲気を示すことができる)の固有セット等に関連付けられることができる。したがって、同じユーザに関して、異なるユーザ嗜好プロファイル121は、異なる個別化された音声環境を生じさせるために採用されることができる。例えば、モバイルコンピューティングデバイス140のユーザインタフェースを用いるユーザ選択に基づいて、異なるユーザ嗜好イコライゼーションカーブは、ユーザに関する個別化された音声環境を生じさせるために採用されることができる。
環境イコライゼーションプロファイル(複数可)122は、特定のユーザに関する音声環境110のいずれかで個別化された音声体験を生じさせるために採用される、場所固有情報を含む。いくつかの実施形態では、環境イコライゼーションプロファイル(複数可)122は、固有音声環境110及び/または固有音声環境110の内部の固有場所にそれぞれが構成される音響フィルタ及び/またはイコライゼーションカーブを含む。
いくつかの実施形態では、環境イコライゼーションプロファイル122の1つは、固有音声環境110内部で発生する音及び/または音声環境110内の表面の相互作用によって生じる問題のイコライゼーション補償を提供するように構成される。例えば、ユーザに関する音声体験は、係る環境イコライゼーションプロファイル122が、音声処理アプリケーション146によって、カスタマイズされた音声処理手順の一部として採用されるとき、車内の固有のシート位置または部屋内部の場所に関して改善されることができる。既知のラウドスピーカの種類及び場所を伴う固有車両の内部等の固定環境に関して、係る環境イコライゼーションプロファイル122は、ユーザ相互作用なしで判定されることができ、オプションとして、事前設定された補正イコライゼーションとしてユーザに提供される。代替として、または加えて、係る事前設定された環境イコライゼーションプロファイル122は、さらに、個別化済み音声システム100に関するユーザ音嗜好テスト中またはセットアップ動作中に、ユーザによって修正されることができる。特定の部屋の内部の特定の場所等の他の環境に関して、環境イコライゼーションプロファイル122は、スピーカ107(例えば、スマートスピーカ103)、センサ108、及びモバイルコンピューティングデバイス140を介して、特定の部屋の内部の特定の場所で行われるユーザ音嗜好テスト等のユーザ対話に基づくテストによって判定されることができる。いくつかの実施形態では、ユーザ音嗜好テストは、制御アプリケーション145、音声処理アプリケーション146、またはモバイルコンピューティングデバイス140上で起動している任意の他の適切なソフトウェアアプリケーションを用いて行われることができる。
聴力障害補償プロファイル123は、特定のユーザに関連付けられる聴力障害を補償するために採用されることができるユーザ固有情報を含む。様々な実施形態に従って、係る聴力障害補償は、ユーザプロファイルデータベース120に関連付けられるユーザに関する個別化された音声体験の構成要素であり得る。概して、聴力障害補償プロファイル123は、ユーザプロファイルデータベース120で検出された聴力障害、またはそうでなければ、ユーザプロファイルデータベース120に関連付けられるユーザに関連付けられた聴力障害を補償するために選択された1つ以上のゲイン圧縮カーブを含む。いくつかの実施形態では、係るゲイン圧縮カーブはマルチバンド圧縮を可能にし得、そこでは、音声信号の周波数スペクトルの異なる部分はゲイン圧縮の異なるレベルを受ける。ゲイン圧縮は、不快なほど大きくなるような高レベル音を生じさせることなく、閾値レベルを下回る低レベル音を増加させることができる。その結果、ゲイン圧縮は、特定のユーザの聴力障害を補償するために採用され、係るゲイン圧縮は、聴力障害補償プロファイル123に含まれる1つ以上のゲイン圧縮カーブを用いて実施される。
いくつかの実施形態では、特定のユーザの聴力障害は、例えば、モバイルコンピューティングデバイス140上で起動している適切なソフトウェアアプリケーションを用いてユーザに届けられる質問表を用いて、ユーザから集められた人口学的情報に基づいて判定される。係る実施形態では、質問表は、個別化済み音声システム100に関するセットアップ動作中に、ユーザに届けられ得る。他の実施形態では、係る聴力障害は、1つ以上のスピーカ107、1つ以上のセンサ108、及びモバイルコンピューティングデバイス140を用いて行われる、1つ以上の聴力テストに基づいて判定される。いずれの場合、係る聴力障害に基づいて、ある周波数バンドにおける聴力障害は判定され、適切な聴力障害補償プロファイル123が選択される。例えば、固有ゲイン圧縮カーブは、ユーザから集められた人口学的情報及び/または聴力テスト情報に基づいて、ユーザに関して選択または構成されることができる。次に、固有ゲイン圧縮カーブは、当該ユーザに関する聴力障害補償プロファイル123に含まれ、ユーザに関する個別化された音声体験を生じさせるためにカスタマイズされた音声処理手順の一部として、音声処理アプリケーション146によって採用されることができる。結果として、聴力補償を含む個別化された音声体験は、音声環境110のいずれかでユーザに提供されることができる。
図2は、本開示の様々な実施形態による、音声体験を個別化するために、ユーザ固有情報を発生させるための方法ステップのフローチャートである。方法ステップによって発生させるユーザ固有情報は、1つ以上のユーザ嗜好プロファイル121、環境イコライゼーションプロファイル122、及び/または聴覚障害補償プロファイル123を含むことができる。方法ステップは図1のシステムに関して説明されているが、方法ステップを任意の順序で行うように設定されるいずれのシステムも様々な実施形態の範囲内にあることを、当業者は理解するであろう。
示されるように、方法200はステップ201で開始する。ここで、制御アプリケーション145などのモバイルコンピューティングデバイス140上で起動する適したソフトウェアアプリケーションは、現在のユーザの聴覚障害テストを開始するためにユーザ入力を受信する。
ステップ202では、ソフトウェアアプリケーションは、行う固有の聴覚障害テストを選択する。それぞれのこのような聴覚障害テストは、ユーザと関連付けられた聴覚障害補償情報を判定することができる。例えば、いくつかの実施形態では、ある特定の聴覚障害テストは、異なる音声環境110及び/または固有ユーザに固有とすることができる。よって、このような実施形態では、異なる聴覚障害テストは、現在の音声環境110に応じてユーザに対して選択可能である。さらに、いくつかの実施形態では、人口統計情報に基づく聴覚障害テスト、及び複数の周波数帯における聴覚消失を定量化することに基づく聴覚障害テストなどの種々のタイプの聴覚障害テストが選択可能である。
ステップ203では、ソフトウェアアプリケーションは、ステップ202において選択された聴覚障害テストを行う。例えば、いくつかのインスタンスでは、ユーザ人口統計情報は、どんな聴覚障害補償がユーザにとって有益である可能性が高いかを判定するために収集されてもよい。代替的にはまたはさらに、いくつかの実施形態では、聴覚障害テストは、ソフトウェアアプリケーション、現在の音声環境110に配設される1つ以上のスピーカ107、及び現在の音声環境110に配設される1つ以上のセンサ108を介して行われる。このような実施形態では、ユーザの聴覚障害は、複数の周波数帯のそれぞれに対して定量化可能であり、このようなテストの結果は、ユーザに対する聴覚障害補償プロファイル123に含まれる。
ステップ204では、ソフトウェアアプリケーションは、現在の音声環境110においてユーザに対して行われるべきいずれかの残りの聴覚障害テストがあるかどうかを判定する。例えば、いくつかの実施形態では、ソフトウェアアプリケーションは、ユーザによってまだ行われていない聴覚障害テストのリストによってユーザを促す。これが行われる場合、方法200はステップ202に戻り、行われるべき別の聴覚障害テストが選択され、これが行われない場合、方法200はステップ205に進む。
ステップ205では、ソフトウェアアプリケーションは、現在のユーザ及び/または音声環境110のパーソナライゼーションテストを開始するためにユーザ入力を受信する。
ステップ206では、ソフトウェアアプリケーションは、行う固有のパーソナライゼーションテストを選択する。例えば、いくつかの実施形態では、可能なパーソナライゼーションテストは、限定はされないが、ユーザに対する固有のユーザ嗜好プロファイル121を判定するための個人的なイコライゼーション嗜好テスト、ユーザによって特定される特定の音声環境110に対して固有の環境イコライゼーションプロファイル122を判定するための環境イコライゼーションテスト、及びユーザに対する固有のHRTFを判定するためのHRTFテストを含む。
ステップ207では、ソフトウェアアプリケーションは、ステップ206において選択されたパーソナライゼーションテストを行う。例えば、個人的なイコライゼーション嗜好テストが行われるインスタンスでは、事前設定音響フィルタまたは他の音響プロファイルは、現在の音声環境110を介してユーザに対して実証されてもよいことで、ユーザは最良の音声体験を提供する事前設定音響プロファイルを選択できる。このようなパーソナライゼーションテスト中、ソフトウェアアプリケーションは、1つ以上の事前設定音響フィルタ応答を含む音響事前設定ランキング画面を表示してもよい。ユーザはさらにまた、事前設定音響フィルタ応答のそれぞれによって連続的に処理されるテスト音を聞き、かつ個人的嗜好に基づいて事前設定音響フィルタ応答をランク付けする。いくつかの実施形態では、そのように採用された、事前設定音響フィルタはユーザに関連しているデータに基づいている。例えば、ソフトウェアアプリケーションは、人口統計学的範囲内のユーザが先に高いランクを付けている1つ以上の事前設定音響フィルタを選択するためにユーザと関連付けられたまたはユーザが入力した人口統計学的データに関連している履歴データを検索してもよい。代替的にはまたはさらに、いくつかの実施形態では、このようなパーソナライゼーションテストは、ユーザによって行われるA/Bの選択肢に頼る「視力テスト」式テストを含む。このような視力テスト式テストは、A/B比較リスニングテストに基づいて選択を急速に絞ることができる。代替的にはまたはさらに、いくつかの実施形態では、このようなパーソナライゼーションテストは、選択された事前設定音響フィルタ応答の固有の周波数帯レベルの個別の編集を提供する。
環境イコライゼーションテストが行われるインスタンスでは、事前設定音響フィルタは、現在の音声環境110を介してユーザに対して実証され得るため、ユーザは、ユーザによって指示される固有の音声環境110に対して最良の音声体験を提供するために高くランク付けされている事前設定音響フィルタを選択できる。このようなパーソナライゼーションテスト中、ソフトウェアアプリケーションは、1つ以上の事前設定音響フィルタ応答を含む音響事前設定ランキング画面を表示してもよく、また、種々の事前設定音響フィルタの連続的なまたはA/Bテストを行ってもよい。代替的にはまたはさらに、いくつかの実施形態では、このような環境イコライゼーションテストによって、ユーザは、選択された事前設定音響フィルタ応答の固有の周波数帯レベルの個別の編集を行うことができる。例えば、いくつかの実施形態では、それぞれの周波数帯に対して所望されるゲインを選択するための異なるスライダが表示される。
HRTFテストが行われるインスタンスでは、ユーザに対する固有のHRTF値は、ユーザの人体測定学的特徴など、音声環境110における音のローカリゼーションに影響するユーザの特性に基づいて判定される。ユーザに対する固有のHRTF値は、さらにまた、音声信号を処理するために採用可能であるユーザ嗜好プロファイル121としてユーザプロファイルデータベース120に含まれる。HRTF処理された音声信号に基づく音声出力が音声環境110において再生される時、ユーザの聴覚は一般的に、音声出力を、音声環境110内に配設される個別の音声デバイスからではなく全方向から生じると解釈する。
ステップ208では、ソフトウェアアプリケーションは、現在の音声環境110においてユーザに対して行われるべきいずれかの残りのパーソナライゼーションテストがあるかどうかを判定する。例えば、いくつかの実施形態では、ソフトウェアアプリケーションは、ユーザによってまだ行われていないパーソナライゼーションテストのリストによってユーザを促す。これが行われる場合、方法200はステップ206に戻り、行われるべき別のパーソナライゼーションテストが選択され、これが行われない場合、方法200はステップ209に進む。
ステップ209では、ソフトウェアアプリケーションは、ユーザプロファイルデータベース120において上述されるパーソナライゼーションテストによって判定されるユーザ固有情報及び/または環境固有情報を含む。
図1に戻ると、デバイスプロファイルデータベース130は、それぞれが、ヘッドホンの固有のメーカ及びモデル、車内音声システム、スマートスピーカのメーカ及びモデルなど、特定の音声デバイスと関連付けられる複数のデバイス固有イコライゼーションカーブ131を含む。さらに、それぞれのデバイス固有イコライゼーションカーブ131は、関連の音声デバイスによって再生される前に音声信号を修正するように構成され、この場合、音声信号は、音声デバイスの非理想的な周波数応答を補償するために修正される。いくつかの実施形態では、理想的な音声システムは、音声出力が基づく入力信号のひずみを少なくしたまたはなくした音声出力を発生させる。すなわち、理想的な音声システムは、システムの動作周波数にわたって一定でフラットな大きさの周波数応答で機能する(例えば、20Hz~20kHz)。さらに、理想的な音声システムでは、音声出力は、システムの全ての動作周波数において精確に同じ時間だけ遅延させる。実際には、任意の所与の音声システムは、理想的な音声システムの上述される周波数応答から変化する異なる周波数応答を有する。また、多くのスピーカは、ある特定の周波数におけるピーク及びディップを含む、及び/またはある特定の周波数における応答を過度に強調する大まかなフラットではない周波数応答を有する。一般的に、フラットではない周波数応答を有するスピーカは、ほとんどのユーザにとって可聴であり、かつ普遍的に嫌がられる共鳴またはカラーレーションが付加された音声出力を発生させる。その結果として、多大な労力及び資源が高品質の録音による特定の演奏を取り込むことに向けられていても、再生デバイスの周波数応答は、録音を聴く時ユーザ体験を大幅に低下させる可能性がある。
いくつかの実施形態では、それぞれのデバイス固有イコライゼーションカーブ131は、ヘッドホン装置、スマートスピーカ、車内音声システムのスピーカ、及び従来のスピーカなどの特定の音声デバイスのベンチマーキングまたは他の性能定量化テストによって構成される。デバイス固有イコライゼーションカーブ131は、さらにまた、デバイスプロファイルデータベース130に記憶され、かつモバイルコンピューティングデバイス140の音声処理アプリケーション146に利用可能とされる。よって、様々な実施形態によると、固有の音声デバイスが音声処理アプリケーション146によって検出される時、適切なデバイス固有イコライゼーションカーブ131は、音声処理アプリケーション146によって音声信号に対するカスタマイズされた音声処理手順に組み込み可能である。その結果、カスタマイズされた音声処理手順によって特定のユーザに対して音声信号から発生させる個別化された音声体験は、個別化された音声体験を提供する音声デバイスの非理想的な周波数応答に対する補償を含むことができる。
モバイルコンピューティングデバイス140は、スマートフォン、電子タブレット、及びラップトップコンピュータなどを含む、本明細書に説明される本開示の少なくとも1つの態様を実装するように構成可能である任意のモバイルコンピューティングデバイスとすることができる。一般的に、モバイルコンピューティングデバイス140は、限定ではないが、制御アプリケーション145及び/または音声処理アプリケーション146と関連付けられた命令を含むアプリケーションプログラムを実行することが可能な任意のタイプのデバイスとすることができる。いくつかの実施形態では、モバイルコンピューティングデバイス140は、ユーザ嗜好プロファイル121、環境イコライゼーションプロファイル(複数可)122、及び/または聴覚障害補償プロファイル123の1つ以上を含むことができるローカルユーザプロファイルデータベース143を記憶するようにさらに構成される。代替的にはまたはさらに、いくつかの実施形態では、モバイルコンピューティングデバイス140は、音声コンテンツのデジタル録音など、音声コンテンツ144を記憶するようにさらに構成される。
制御アプリケーション145は、モバイルコンピューティングデバイス140及びユーザプロファイルデータベース120、デバイスプロファイルデータベース130、ならびに音声環境110の間の通信を行うように構成される。いくつかの実施形態では、制御アプリケーション145はまた、ユーザ音嗜好テスト、聴覚テスト、及び/または個別化済み音声システム100に対するセットアップ動作を可能にするためにユーザに(示されない)ユーザインタフェースを提示するように構成される。いくつかの実施形態では、制御アプリケーション145は、ユーザ固有音声処理情報およびデバイス固有音声処理情報に基づいて音声信号に対してカスタマイズされた音声処理手順を生じさせるようにさらに構成される。例えば、ユーザ固有音声処理情報は、1つ以上のユーザ嗜好プロファイル121及び/または聴覚障害補償プロファイル123を含むことができ、デバイス固有音声処理情報は、1つ以上の環境イコライゼーションプロファイル122及び/またはデバイス固有イコライゼーションカーブ131を含むことができる。
いくつかの実施形態では、制御アプリケーション145は、1つ以上の特定のリスニングシナリオに対して、合成イコライゼーションカーブ141及び/または合成ゲインカーブ142を発生させることによってカスタマイズされた音声処理手順を発生させる。一般的に、それぞれの特定のリスニングシナリオは、ユーザ及びリスニング環境110の一意の組み合わせである。よって、特定のユーザに対して、制御アプリケーション145は、ユーザが個別化された音声体験を有することが予想されるそれぞれのリスニング環境110に対して異なる合成イコライゼーションカーブ141及び/または合成非線形処理142を発生させるように構成される。例えば、ユーザが(車両の特定のメーカ及びモデルにおける特定の座席など)固有の自動車音声環境101にいる時、制御アプリケーション145は一部のまたは全ての適用可能なイコライゼーションカーブに基づいて合成イコライゼーションカーブ141を発生させる。このようなインスタンスでは、適用可能なイコライゼーションカーブの例には、限定はされないが、1つ以上の、ユーザと関連付けられた適用可能なユーザ嗜好プロファイル121、ユーザが位置する固有の自動車音声環境101に適用可能である環境イコライゼーションプロファイル(複数可)122、固有の自動車音声環境101に適用可能であるデバイス固有イコライゼーションカーブ(複数可)131、聴覚障害補償プロファイル123が含まれる。
いくつかの実施形態では、制御アプリケーション145は、全ての適用可能なイコライゼーションプロファイルの動作をまとめて単一の音イコライゼーションカーブにすることによって特定のリスニングシナリオに対する合成イコライゼーションカーブ141を発生させる。よって、音声処理アプリケーション146によって行われるカスタマイズされた音声処理手順において、音声信号は複数のイコライゼーションプロファイルが連続的に処理される代わりに、合成イコライゼーションカーブ141によって修正可能である。いくつかの実施形態では、制御アプリケーション145はまた、ユーザ嗜好プロファイル121及び/または聴覚障害補償プロファイル123の全ての適用可能な非線形処理部分の動作をまとめて単一の合成非線形処理142にすることによって、特定のリスニングシナリオに対する合成非線形処理142を発生させる。例えば、このような非線形処理は、限定はされないが、聴覚障害補償プロファイル123に含まれる1つ以上のゲイン補償動作、ユーザ嗜好プロファイル121に含まれる1つ以上のダイナミックレンジ圧縮動作、及び、ユーザ嗜好プロファイル121に含まれる1つ以上の音声限界動作などを含むことができる。
いくつかの実施形態では、制御アプリケーション145が特定のリスニングシナリオに対する合成イコライゼーションカーブ141を発生させる時、合成イコライゼーションカーブは、さらなる使用のために、ローカルユーザプロファイルデータベース143及び/またはユーザプロファイルデータベース120に記憶される。同様に、このような実施形態では、制御アプリケーション145が特定のリスニングシナリオに対する合成非線形処理142を発生させる時、合成非線形処理142はまた、さらなる使用のために、ローカルユーザプロファイルデータベース143及び/またはユーザプロファイルデータベース120に記憶される。
いくつかの実施形態では、それぞれの特定のリスニングシナリオは、ユーザ、リスニング環境110、及びユーザプロファイルデータベース120からのユーザ選択されたユーザ嗜好プロファイル121の一意の組み合わせである。このような実施形態では、ユーザ選択されたユーザ嗜好プロファイル121は、周知の音楽家または著名人と関連付けられたイコライゼーションカーブ、ユーザが特定のアクティビティ(例えば、ビデオゲームをすること、運動すること、運転することなど)と関連付けられているイコライゼーションカーブ、ユーザが楽曲またはプレイリストの特定のカテゴリと関連付けられているイコライゼーションカーブなどとすることができる。よって、このような実施形態では、制御アプリケーション145は、ユーザ、リスニング環境110、及びユーザ選択されたユーザ嗜好プロファイル121の特定の組み合わせに対する異なる合成イコライゼーションカーブ141を発生させるように構成される。よって、適したユーザ嗜好プロファイル121の選択によって、ユーザは、個別化された音声体験を、特定の音声環境110及びユーザ嗜好プロファイル121両方に合わせることができる。
音声処理アプリケーション146は、制御アプリケーション145によって発生させる、カスタマイズされた音声処理手順によって初期音声信号を処理することによって、カスタマイズされた音声信号を発生させるように構成される。より具体的には、音声処理アプリケーション146は、初期音声信号を合成イコライゼーションカーブ141、いくつかの実施形態では、合成非線形処理142によって修正することによってカスタマイズされた音声信号を発生させる。1つのこのような実施形態は、図3と併せて後述される。
図3は、本開示の様々な実施形態による、カスタマイズされた音声信号を発生させるための方法ステップのフローチャートである。方法ステップは図1及び図2のシステムに関して説明されているが、方法ステップを任意の順序で行うように構成されるいずれのシステムも様々な実施形態の範囲内にあることを、当業者は理解するであろう。
示されるように、方法300はステップ301で開始し、ここで、音声処理アプリケーション146は現在のユーザを識別する。例えば、音声処理アプリケーション146は、ユーザログイン、ユーザによって入力されたユーザ情報などに基づいてユーザの識別情報を判定することができる。
ステップ302では、音声処理アプリケーション146は、ユーザ固有音声情報、このような1つ以上のユーザ嗜好イコライゼーションカーブ151、聴覚障害補償プロファイル123、及び/またはユーザに対する個別化された音声体験を発生させるためのカスタマイズされた音声処理手順を可能にする他のユーザ固有リスニング処理情報にアクセスする。いくつかの実施形態では、音声処理アプリケーション146は、ユーザプロファイルデータベース120におけるユーザ固有音声情報の一部または全てにアクセスする。代替的にはまたはさらに、いくつかの実施形態では、音声処理アプリケーション146は、ローカルユーザプロファイルデータベース143におけるユーザ固有音声情報の一部または全てにアクセスする。
ステップ303において、音声処理アプリケーション146は、現在の音声環境に含まれる音声デバイスまたはデバイス(複数可)を識別する。例えば、いくつかの実施形態では、制御アプリケーション145は、ユーザによって入力された情報に基づいて現在の音声環境110の音声デバイス(複数可)についての識別情報を判定し、かつこの識別情報を音声処理アプリケーション146に通信する。他の実施形態では、制御アプリケーション145は、それぞれの音声デバイスに直接問い合わせすることによって音声デバイス(複数可)についての識別情報を判定するまたは受信する。例えば、1つのこのような実施形態では、制御アプリケーション145は、音声デバイスとのワイヤレス接続によって、媒体アクセス制御(MAC)アドレス及び/またはモデル番号などを受信する。
ステップ304では、音声処理アプリケーション146は、ユーザに対する個別化された音声体験を発生させるためのカスタマイズされた音声処理手順を可能にする(1つ以上のデバイス固有イコライゼーションカーブ131などの)デバイス固有音声情報にアクセスする。いくつかの実施形態では、音声処理アプリケーション146は、ユーザプロファイルデータベース120におけるデバイス固有音声情報の一部または全てにアクセスし、いくつかの実施形態では、音声処理アプリケーション146は、ローカルユーザプロファイルデータベース143におけるデバイス固有音声情報の一部または全てにアクセスする。
ステップ305において、音声処理アプリケーション146は、音声環境固有音声処理情報が適用可能であるかどうかを判定する。例えば、ステップ303において判定される音声デバイス(複数可)についての識別情報に基づいて、制御アプリケーション145は、現在の音声環境110が、ユーザが環境イコライゼーションテストを行った固有の部屋または他の場所と関連付けられている特定の車室またはスマートスピーカと関連付けられた音声システムを含むと判定することができる。そうでない場合、方法300はステップ307に進み、そうである場合、方法300はステップ306に進む。
ステップ306において、音声処理アプリケーション146は、ユーザに対する個別化された音声体験を発生させるためのカスタマイズされた音声処理手順を可能にする(例えば、1つ以上の環境固有イコライゼーションプロファイル122などの)環境固有音声情報にアクセスする。いくつかの実施形態では、音声処理アプリケーション146は、ユーザプロファイルデータベース120における環境固有音声情報の一部または全てにアクセスし、いくつかの実施形態では、音声処理アプリケーション146は、ローカルユーザプロファイルデータベース143における環境固有音声情報の一部または全てにアクセスする。
ステップ307では、音声処理アプリケーション146は、ステップ302、304、及び306においてアクセスした音声情報に基づいてカスタマイズされた音声処理手順を発生させる。具体的には、音声処理アプリケーション146は、現在のリスニングシナリオに対する合成イコライゼーションカーブ141及び/または合成非線形処理142を発生させることによってカスタマイズされた音声処理手順を発生させる。上記のように、現在のリスニングシナリオは、現在のユーザ、現在のリスニング環境110、及び、いくつかの実施形態では、ユーザ及び/または聴覚障害補償プロファイル123によって選択されたユーザ嗜好プロファイル121の組み合わせに基づくことができる。
ステップ308では、音声処理アプリケーション146は、ステップ307において発生させた、カスタマイズされた音声処理手順によって音声信号を修正する。いくつかの実施形態では、音声信号は、モバイルコンピューティングデバイス140にローカルに記憶された音声コンテンツ144から発生させる。他の実施形態では、音声信号は、ストリーミングサービス104から受信される音声コンテンツから発生させる。
様々な実施形態によると、カスタマイズされた音声処理手順による音声信号の修正は2つの段階で生じる。最初に、音声信号は、修正された音声信号を発生させるために、合成イコライゼーションカーブ141を使用して処理される。次いで、適切な音声環境110において再生される時、ユーザに対する個別化された音声体験を生成するカスタマイズされた音声信号を発生させるために修正された音声信号に対してゲイン修正動作が行われる。合成イコライゼーションカーブ141を形成するために組み合わせられる複数のイコライゼーションまたはフィルタリング動作が、音声信号に対して順次に行われるのではなく、代わりに単一動作で行われることは留意されたい。その結果、音声信号におけるノイズレベルは増大せず、これは、1つのイコライゼーション動作が特定の周波数帯におけるレベルを低下させ、かつその後のイコライゼーション動作がその周波数帯におけるレベルを増幅する時に生じ得る。同様に、クリッピングはまた、防止または低減可能であるが、これは、1つのイコライゼーション動作が特定の周波数帯における音声信号のレベルを、限界値を超えて増幅し、かつその後のイコライゼーション動作がその周波数帯のレベルを低減する時にクリッピングが生じ得るからである。
図1に示される実施形態では、モバイルコンピューティングデバイス140、モバイルコンピューティングデバイス140上で起動する1つ以上のソフトウェアアプリケーション、及び、クラウドベースサービスの組み合わせは、様々な音声環境110に個別化された音声体験を配信する。他の実施形態では、様々な音声環境における1つ以上の音声デバイスは、様々な音声環境のそれぞれにおける個別化された音声体験を可能にするためにクラウドベースサービスと直接通信する。このような実施形態では、モバイルコンピューティングデバイスは、ユーザインタフェース及び/または音声システム制御インタフェースを提供できるが、音声信号に対するカスタマイズされた音声処理手順を発生させる及び/または実施するための処理エンジンとして動作しない。その代わりに、カスタマイズされた音声処理手順の一部または全てはクラウドベースサービスにおいて行われ、カスタマイズされた音声処理手順を使用する音声処理の一部または全ては、音声環境に含まれるスマートデバイスにおいてローカルに行われる。1つのこのような実施形態は、図4と併せて後述される。
図4は、本開示の1つ以上の態様を実装するように構成される個別化済み音声システム400を示す概略図である。個別化済み音声システム400は、限定はされないが、少なくとも1つのプログラマブル音声デバイス440を含む1つ以上の音声環境410、ユーザプロファイルデータベース120、デバイスプロファイルデータベース130、及びモバイルコンピューティングデバイス440を含む。個別化済み音声システム400は、どんな固有の音声環境410が現在ユーザに音声体験を提供しているかにかかわらず、特定のユーザに個別化された音声体験を提供するように構成される。個別化済み音声システム400は、クラウドインフラストラクチャ105において起動している制御アプリケーション445が、特定の音声環境における再生のために音声信号を修正するためのカスタマイズされた音声処理手順を発生させること以外は、動作が、個別化済み音声システム100と同様である。さらに、カスタマイズされた音声処理手順を使用する音声信号処理は、固有の音声環境と関連付けられた1つ以上のプログラマブル音声デバイス440において行われる。よって、制御アプリケーション445は図1の合成イコライゼーションカーブ141と同様の合成イコライゼーションカーブ、及び/または図1の合成非線形処理142と同様の合成ゲインカーブを発生させる。
いくつかの実施形態では、カスタマイズされた音声処理手順は、プログラマブル音声デバイス440の内部音声プロセッサ446にプログラミングされることによって個別化済み音声システム400において実施される。このような実施形態では、カスタマイズされた音声処理手順と関連付けられた音声処理は、プログラマブルデジタル信号プロセッサ(DSP)または他のプロセッサとすることができる内部音声プロセッサ446によって行われる。(例えば、ストリーミングサービス104からのまたは音声コンテンツ144に基づく)音声信号は、カスタマイズされた音声信号444を発生させるためにカスタマイズされた音声処理手順を使用して内部音声プロセッサ446によって修正される。プログラマブル音声デバイス440に含まれるあるいはこれと関連付けられるスピーカ408がカスタマイズされた音声信号444に基づく音出力449を生成する時、個別化された音声体験は音声環境410におけるユーザに対して発生させる。よって、図4に示される実施形態では、(例えば、ストリーミングサービス104からのまたは音声コンテンツ144に基づく)音声信号は、音声環境410に含まれる音声デバイスの外部にあるプロセッサによってではなく、内部音声プロセッサ445によってカスタマイズされた音声処理手順で処理される。
図5は、様々な実施形態の1つ以上の態様を実装するように構成される、コンピューティングシステム500の概念的ブロック図である。コンピューティングシステム500は、限定はされないが、制御アプリケーション145、音声処理アプリケーション146、及び/または制御アプリケーション445と関連付けられた命令を含むアプリケーションプログラムを実行することが可能な任意のタイプのデバイスであってよい。例えば、限定はされないが、コンピューティングシステム500は、電子タブレット、スマートフォン、ラップトップコンピュータ、車両に組み込まれるインフォテインメントシステム、ホームエンターテイメントシステムなどであってよい。代替的には、コンピューティングシステム500は、マイクロプロセッサなどのスタンドアロンチップとして、または、特定用途向け集積回路(ASIC)及びシステムオンチップ(SoC)などとして実装されるより包括的な解決策の一部として実装されてもよい。本明細書に説明されるコンピューティングシステムは説明のためのものであり、任意の他の技術的に実現可能な構成が本発明の範囲内にあることは、留意されたい。
示されるように、コンピューティングシステム500は、限定はされないが、プロセッサ550、入出力デバイス580に結合される入力/出力(I/O)デバイスインタフェース560、メモリ510、ストレージ530、及びネットワークインタフェース570を接続する相互接続(バス)540を含む。プロセッサ550は、中央処理装置(CPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、任意のタイプの処理ユニット、または、デジタル信号プロセッサ(DSP)と併せて動作するように構成されるCPUなどの異なる処理ユニットの組み合わせとして実装される任意の適したプロセッサであってよい。例えば、いくつかの実施形態では、プロセッサ550はCPU及びDSPを含む。一般に、プロセッサ550は、本明細書に説明されるように、図5のコンピューティングシステム500の動作を容易にするためにデータを処理すること及び/または命令を実行することが可能な任意の技術的に実現可能なハードウェアユニットであってよい。さらに、本開示の文脈において、コンピューティングデバイス500に示されるコンピューティング要素は、物理コンピューティングコンピューティングシステム(例えば、データセンタにおけるシステム)に対応する場合がある、または、コンピューティングクラウド内で実行する仮想コンピューティングインスタンスであってよい。
入出力デバイス580は、キーボード、マウス、タッチ式スクリーン、及びマイクロホン581などの入力を提供することが可能なデバイスのみならず、ラウドスピーカ582及び表示画面などの出力を提供することが可能なデバイスを含んでもよい。表示画面は、コンピュータモニタ、ビデオ表示画面、ハンドヘルドデバイスに組み込まれる表示装置、または任意の他の技術的に実現可能な表示画面であってよい。ラウドスピーカ582の特定のインスタンスは、図1における個別化済み音声システム100または図4における個別化済み音声システム400などの音声システムの要素である1つ以上のラウドスピーカを含むことができる。
入出力デバイス580は、タッチスクリーン及びユニバーサルシリアルバス(USB)ポートなど、入力を受信すること及び出力を提供することの両方が可能である追加のデバイスを含んでもよい。このような入出力デバイス580は、コンピューティングデバイス500のエンドユーザから様々なタイプの入力を受信し、また、表示されたデジタル画像またはデジタルビデオなど、コンピューティングデバイス500のエンドユーザに様々なタイプの出力を提供するように構成されてもよい。いくつかの実施形態では、入出力デバイス580の1つ以上は、コンピューティングデバイス500を通信ネットワーク505に結合するように構成される。
入出力インタフェース560は、入出力デバイス580とプロセッサ550との通信を可能にする。入出力インタフェースは一般的に、プロセッサ550によって発生させる入出力デバイス580に対応するアドレスを解釈するための必須の論理を含む。入出力インタフェース560はまた、プロセッサ550と入出力デバイス580との間のハンドシェーキングを実施するように、及び/または入出力デバイス580と関連付けられた割り込みを発生させるように構成されてもよい。入出力インタフェース560は、任意の技術的に実現可能なCPU、ASIC、FPGA、任意の他のタイプの処理ユニットまたはデバイスとして実装されてもよい。
ネットワークインタフェース570は、プロセッサ550を通信ネットワーク505に接続するコンピュータハードウェアコンポーネントである。ネットワークインタフェース570は、スタンドアロンカード、プロセッサ、または他のハードウェアデバイスとしてコンピューティングデバイス500において実装されてもよい。通信ネットワーク505がWiFi(登録商標)ネットワークまたはWPANを含む実施形態では、ネットワークインタフェース570は適したワイヤレストランシーバを含む。代替的にはまたはさらに、ネットワークインタフェース570は、セルラー通信能力、衛星電話通信能力、ワイヤレスWAN通信能力、または、通信ネットワーク505、及び、コンピューティングシステム500の外部にある他のコンピューティングデバイス500との通信を可能にする他のタイプの通信能力によって構成されてもよい。
メモリ510は、ランダムアクセスメモリ(RAM)モジュール、フラッシュメモリユニット、または他のタイプのメモリユニットもしくはこれらの組み合わせを含んでもよい。プロセッサ550、入出力デバイスインタフェース560、及びネットワークインタフェース570は、メモリ510に対してデータを読み出しかつ書きこむように構成される。メモリ510は、プロセッサ550によって実行可能である様々なソフトウェアプログラム、及び、制御アプリケーション145、音声処理アプリケーション145、及び/または制御アプリケーション445を含む上記のソフトウェアプログラムと関連付けられたアプリケーションデータを含む。
ストレージ530は、不揮発性ストレージデバイスなどの非一過性コンピュータ可読媒体を含むことができる。いくつかの実施形態では、ストレージ530は、ユーザプロファイルデータベース120、デバイスプロファイルデータベース130、及び/またはローカルユーザプロファイルデータベース143を含む。
要するに、様々な実施形態では、様々な音声環境においてデバイスベース及び/またはクラウドベースの個別化された音声体験をユーザに提供するためのシステム及び技術が説明されており、個別化された音声体験は、個別の音及び音声体験の調整によって、特定のユーザの聴取嗜好及び聴力障害に対して最適化される。複数の実施形態では、カスタマイズされた音声処理手順は、ユーザ固有情報、音声デバイス固有情報、及び環境固有情報に基づいて発生する。カスタマイズされた音声処理手順が再生前に音声信号を修正するために採用されるとき、ユーザは、ユーザの聴取嗜好に調整された個別化された音声体験を有することができる。
先行技術に対する開示される技術の少なくとも1つの技術的な利点は、開示される技術が、現在の音声環境に関係なく、リスナーに関する音声体験を個別化することを可能にすることである。具体的には、リスナーの個人的嗜好及び/または聴力障害プロファイルは、またリスナーが各音声環境における音声システムを再カスタマイズする必要がないように、音声環境の音声特徴も把握しながら、いずれかの音声環境に自動的に適用され得る。さらなる利点は、個別化された音声体験は、個別化された音声体験を生じさせるための音声信号処理の一部もしくは全てを行う高性能音声デバイス、または音声信号処理を行わない「低機能」の音声デバイスを含む、音声環境で実施できることである。これらの技術的な利点は、先行技術アプローチについての1つ以上の技術的改善を表す。
1.いくつかの実施形態では、音声信号処理の方法は、特定のユーザに関するユーザ固有音声処理情報にアクセスすることと、音出力を音声信号から生成するための音声デバイスの識別情報を判定することと、前記音声デバイスの前記識別情報に基づいて、前記音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、前記音声信号に関するカスタマイズされた音声処理手順を発生させることと、前記音声信号を前記カスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることと、を含む。
2.前記音声デバイスに音出力を前記カスタマイズされた音声信号から生成させることをさらに含む、条項1に記載の方法。
3.前記音声デバイスに音出力を前記カスタマイズされた音声信号から生成させることは、前記カスタマイズされた音声信号を前記音声デバイスに無線接続を介して伝送することを含む、条項1または2に記載の方法。
4.前記音声信号を前記カスタマイズされた音声処理手順で前記処理することは、前記音声デバイスの外部にあるプロセッサを用いて行われる、条項1~3のいずれかに記載の方法。
5.前記音声信号を前記カスタマイズされた音声処理手順で前記処理することは、前記音声デバイス内に含まれるプロセッサを用いて行われる、条項1~4のいずれかに記載の方法。
6.前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、前記特定のユーザの識別情報を判定することと、前記特定のユーザの前記識別情報に基づいて、前記ユーザ固有音声処理情報をクラウドベースリポジトリから読み出すことと、を含む、条項1~5のいずれかに記載の方法。
7.前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、前記特定のユーザの識別情報を判定することと、前記特定のユーザの前記識別情報に基づいて、前記ユーザ固有音声処理情報を、前記カスタマイズされた音声処理手順を発生させるように構成されるコンピューティングデバイスから読み出すことと、を含む、条項1~6のいずれかに記載の方法。
8.前記カスタマイズされた音声処理手順を発生させることは、前記ユーザ固有音声処理情報または前記デバイス固有音声処理情報の少なくとも1つに含まれる情報から合成音イコライゼーションカーブを発生させることを含む、条項1~7のいずれかに記載の方法。
9.前記合成音イコライゼーションカーブを発生させることは、前記ユーザ固有音声処理情報または前記デバイス固有音声処理情報に含まれる全ての音イコライゼーションカーブを組み合わせることを含む、条項1~8のいずれかに記載の方法。
10.前記カスタマイズされた音声信号を前記カスタマイズされた音声処理手順で発生させることは、前記音声信号を前記合成音イコライゼーションカーブで修正することによって、修正された音声信号を発生させることと、前記修正された音声信号の前記ユーザ固有音声情報または前記デバイス固有音声情報の少なくとも1つに示されるゲイン修正動作を行うことと、を含む、条項1~9のいずれかに記載の方法。
11.いくつかの実施形態では、非一過性コンピュータ可読媒体は、プロセッサによって実行されるとき、特定のユーザに関するユーザ固有音声処理情報にアクセスすることと、音出力を音声信号から生成するための音声デバイスの識別情報を判定することと、前記音声デバイスの前記識別情報に基づいて、前記音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、前記音声信号に関するカスタマイズされた音声処理手順を発生させることと、前記音声信号を前記カスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることとのようなステップをプロセッサに行わせる命令を記憶する。
12.前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、前記音声信号に関する前記カスタマイズされた音声処理手順を発生させることは、さらに環境固有情報に基づいて、前記音声信号に関する前記カスタマイズされた音声処理手順を発生させることを含む、条項11に記載の非一過性コンピュータ可読媒体。
13.前記方法は、前記音声デバイスの前記識別情報及び前記特定のユーザの識別情報の少なくとも1つに基づいて、前記環境固有情報を判定することをさらに含む、条項11または12に記載の非一過性コンピュータ可読媒体。
14.前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、固有イコライゼーションプロファイルを示すユーザ入力を受信することと、前記固有イコライゼーションプロファイルにアクセスすることと、を含む、条項11~13のいずれかに記載の非一過性コンピュータ可読媒体。
15.前記カスタマイズされた音声処理手順を発生させることは、前記固有イコライゼーションプロファイルに基づいて、前記カスタマイズされた音声処理手順を発生させることを含む、条項11~14のいずれかに記載の非一過性コンピュータ可読媒体。
16.前記方法は、前記特定のユーザによって行われるパーソナライゼーションテストに基づいて、前記固有イコライゼーションプロファイルを発生させることをさらに含む、条項11~15のいずれかに記載の非一過性コンピュータ可読媒体。
17.前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、前記特定のユーザの識別情報を判定することと、前記特定のユーザの前記識別情報に基づいて、前記ユーザ固有音声処理情報をクラウドベースリポジトリから読み出すことと、を含む、条項11~16のいずれかに記載の非一過性コンピュータ可読媒体。
18.前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることは、前記特定のユーザの識別情報を判定することと、前記特定のユーザの前記識別情報に基づいて、前記ユーザ固有音声処理情報を、前記カスタマイズされた音声処理手順を発生させるように構成されるコンピューティングデバイスから読み出すことと、を含む、条項11~17のいずれかに記載の非一過性コンピュータ可読媒体。
19.前記カスタマイズされた音声処理手順を発生させることは、前記ユーザ固有音声処理情報または前記デバイス固有音声処理情報の少なくとも1つに含まれる情報から合成音イコライゼーションカーブを発生させることを含む、条項11~18のいずれかに記載の非一過性コンピュータ可読媒体。
20.いくつかの実施形態では、システムは、命令を記憶するメモリと、前記メモリに結合されるプロセッサと、を含み、前記命令を実行するとき、前記特定のユーザに関するユーザ固有音声処理情報にアクセスすることと、音出力を音声信号から生成するための音声デバイスの識別情報を判定することと、前記音声デバイスの前記識別情報に基づいて、前記音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、前記音声信号に関するカスタマイズされた音声処理手順を発生させることと、前記音声信号を前記カスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることとのようなステップを行うように構成される。
いずれかの様式で「特許請求の範囲」のいずれかに列挙される請求項の要素のいずれか及び/または本願に説明されるいずれかの要素の任意の及び全ての組み合わせは、本発明及び保護の想到される範囲内にある。
様々な実施形態の説明は、例証の目的のために提示されているが、包括的であることが意図されない、または開示された実施形態に限定されることが意図されない。多くの修正及び変形例は、説明される実施形態の範囲及び主旨から逸脱することなく、当業者に明らかであろう。
本実施形態の態様は、システム、方法、またはコンピュータプログラム製品として具体化され得る。したがって、本開示の態様は、全体的にハードウェア実施形態、全体的にソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)、または、全て一般的に、本明細書では、「モジュール」もしくは「システム」と称され得るソフトウェア及びハードウェア態様を組み合わせる実施形態の形態をとり得る。加えて、本開示に説明される任意のハードウェア及び/またはソフトウェアの技術、プロセス、機能、コンポーネント、エンジン、モジュール、またはシステムは、回路または回路のセットとして実装され得る。さらに、本開示の態様は、少なくとも1つのコンピュータ可読媒体(その上に具体化されたコンピュータ可読プログラムコードを有する)で具体化された、コンピュータプログラム製品の形態をとり得る。
少なくとも1つのコンピュータ可読媒体の任意の組み合わせは利用され得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読ストレージ媒体であり得る。コンピュータ可読ストレージ媒体は、例えば、限定ではないが、電子、磁気、光学、電磁気、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、または前述の任意の適切な組み合わせであり得る。コンピュータ可読ストレージ媒体のより具体的な例(非包括的リスト)は、以下の少なくとも1つのワイヤを有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能プログラム読取専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読取専用メモリ(CD-ROM)、光学式ストレージデバイス、磁気ストレージデバイス、または前述の任意の適切な組み合わせを含むだろう。本文書に関連して、コンピュータ可読ストレージ媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用されるプログラムを含有または記憶することができる任意の有形媒体であり得る。
本開示の態様は、本開示の実施形態に従って、方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/またはブロック図を参照して、上記に説明される。フローチャート図及び/またはブロック図の各ブロック、ならびにフローチャート図及び/またはブロック図のブロックの組み合わせは、コンピュータプログラム命令によって実施できることが理解されるであろう。これらのコンピュータプログラム命令は、機械動作を生じさせる汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供され得、それにより、コンピュータまたは他のプログラム可能データ処理装置のプロセッサによって実行する命令は、フローチャート及び/またはブロック図のブロックまたは複数のブロックに指定された機能/行為の実施を可能にする。係るプロセッサは、限定ではないが、汎用プロセッサ、専用プロセッサ、アプリケーション特有プロセッサ、またはフィールドプログラマブルプロセッサもしくはフィールドプログラマブルプロセッサゲートアレイであり得る。
図のフローチャート及びブロック図は、本開示の様々な実施形態に従って、システム、方法、及びコンピュータプログラム製品の可能である実施態様のアーキテクチャ、機能、及び動作を示す。この点では、フローチャートまたはブロック図の各ブロックは、モジュール、区画、またはコードの一部を表し得、それらは、指定された論理機能(複数可)を実施するための少なくとも1つの実行可能命令を含む。また、いくつかの代替実施態様では、ブロックで留意される機能は、図で留意されるものとは違う順序で発生し得ることを留意されたい。例えば、連続して示される2つのブロックは、実際に、実質的に同時に実行され得る、またはブロックは、時々、関連する機能に応じて逆順で実行され得る。また、ブロック図及び/またはフローチャート図の各ブロック、ならびにブロック図及び/またはフローチャート図の複数のブロックの組み合わせは、指定された機能もしくは行為、または専用ハードウェア及び専用コンピュータの命令の組み合わせを行う専用ハードウェアベースシステムによって実施され得ることが留意されるであろう。
前述は本開示の実施形態を対象とする一方、本開示の他の実施形態及びさらなる実施形態は、その基本的な範囲から逸脱するすることなく考案され得、その範囲は、以下に続く「特許請求の範囲」によって決定される。

Claims (15)

  1. 音声信号処理の方法であって、前記方法は、
    特定のユーザに関するユーザ固有音声処理情報を判定するために1つ以上のテストを行うことと、
    音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、
    前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、前記音声信号に関する合成音イコライゼーションカーブを発生させることと、
    前記ユーザ固有音声処理情報に基づいて、前記音声信号に関する非線形処理を発生させることと、
    前記合成音イコライゼーションカーブ及び前記非線形処理に基づいて、前記音声信号に関するカスタマイズされた音声処理手順を発生させることと、
    前記音声信号を前記カスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることと、
    を含む、方法。
  2. 前記音声デバイスに音出力を前記カスタマイズされた音声信号から生成させることをさらに含む、請求項1に記載の方法。
  3. ユーザ固有音声処理情報を判定するために前記1つ以上のテストを行うことは、前記特定のユーザの聴覚障害テストを行うことをさらに含む、請求項1に記載の方法。
  4. 前記特定のユーザの音声環境に基づいて、前記1つ以上のテストのうちの第1のテストを選択することをさらに含む、請求項1に記載の方法。
  5. 前記特定のユーザの人口統計情報に基づいて、前記1つ以上のテストのうちの第1のテストを選択することをさらに含む、請求項1に記載の方法。
  6. 前記聴覚テストを行うことは、
    前記特定のユーザの少なくとも1つの聴覚障害を検出することと、
    少なくとも1つの周波数帯に対して前記特定のユーザの前記少なくとも1つの聴覚障害を定量化することと、
    をさらに含む、請求項3に記載の方法。
  7. 前記聴覚テストを行うことは、聴覚障害補償プロファイルを発生させることをさらに含み、前記ユーザ固有音声処理情報は、前記聴覚障害補償プロファイルを含む、請求項3に記載の方法。
  8. 前記合成音イコライゼーションカーブを発生させることは、前記ユーザ固有音声処理情報または前記デバイス固有音声処理情報に含まれる少なくとも1つの音イコライゼーションカーブを組み合わせることを含む、請求項1に記載の方法。
  9. 前記カスタマイズされた音声信号を前記カスタマイズされた音声処理手順で発生させることは、
    前記音声信号を前記合成音イコライゼーションカーブで修正することによって、修正された音声信号を発生させることと、
    前記修正された音声信号の前記ユーザ固有音声処理情報または前記デバイス固有音声処理情報の少なくとも1つに示されるゲイン修正動作を行うことと、
    を含む、請求項1に記載の方法。
  10. 前記合成音イコライゼーションカーブ及び前記非線形処理に基づいて、前記音声信号に関する前記カスタマイズされた音声処理手順を発生させることは、さらに環境固有情報に基づいて、前記音声信号に関する前記カスタマイズされた音声処理手順を発生させることを含む、請求項1に記載の方法。
  11. 非一過性コンピュータ可読媒体であって、プロセッサによって実行されるとき、前記プロセッサに、
    特定のユーザに関するユーザ固有音声処理情報を判定するために1つ以上のテストを行うことと、
    音声デバイスに関するデバイス固有音声処理情報にアクセスすることと、
    前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、音声信号に関する合成音イコライゼーションカーブを発生させることと、
    前記ユーザ固有音声処理情報に基づいて、前記音声信号に関する非線形処理を発生させることと、
    前記合成音イコライゼーションカーブ及び前記非線形処理に基づいて、前記音声信号に関するカスタマイズされた音声処理手順を発生させることと、
    前記音声信号を前記カスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることと、
    のようなステップを行わせる命令を記憶する、非一過性コンピュータ可読媒体。
  12. 前記合成音イコライゼーションカーブ及び前記非線形処理に基づいて、前記音声信号に関する前記カスタマイズされた音声処理手順を発生させることは、さらに環境固有情報に基づいて、前記音声信号に関する前記カスタマイズされた音声処理手順を発生させることを含む、請求項11に記載の非一過性コンピュータ可読媒体。
  13. 記ステップは、前記音声デバイスに関する前記デバイス固有音声処理情報及び前記特定のユーザの識別情報の少なくとも1つに基づいて、前記環境固有情報を判定することをさらに含む、請求項12に記載の非一過性コンピュータ可読媒体。
  14. 前記ステップは、前記特定のユーザの音声環境または前記特定のユーザの人口統計情報に基づいて、前記1つ以上のテストのうちの第1のテストを選択することをさらに含む、請求項11に記載の非一過性コンピュータ可読媒体。
  15. システムであって、
    命令を記憶するメモリと、
    前記メモリに結合されるプロセッサであって、前記命令を実行するとき、
    特定のユーザに関するユーザ固有音声処理情報を判定するために1つ以上のテストを行うことと、
    声デバイスに関するデバイス固有音声処理情報にアクセスすることと、
    前記ユーザ固有音声処理情報及び前記デバイス固有音声処理情報に基づいて、音声信号に関する合成音イコライゼーションカーブを発生させることと、
    前記ユーザ固有音声処理情報に基づいて、前記音声信号に関する非線形処理を発生させることと、
    前記合成音イコライゼーションカーブ及び前記非線形処理に基づいて、前記音声信号に関するカスタマイズされた音声処理手順を発生させることと、
    前記音声信号を前記カスタマイズされた音声処理手順で処理することによって、カスタマイズされた音声信号を発生させることと、
    のようなステップを行うように構成される、プロセッサと、
    を含む、システム。
JP2024071376A 2019-01-04 2024-04-25 ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理 Pending JP2024097827A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962788677P 2019-01-04 2019-01-04
US62/788,677 2019-01-04
US16/730,064 2019-12-30
US16/730,064 US11134353B2 (en) 2019-01-04 2019-12-30 Customized audio processing based on user-specific and hardware-specific audio information
JP2020000041A JP7481116B2 (ja) 2019-01-04 2020-01-05 ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020000041A Division JP7481116B2 (ja) 2019-01-04 2020-01-05 ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理

Publications (1)

Publication Number Publication Date
JP2024097827A true JP2024097827A (ja) 2024-07-19

Family

ID=69105732

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020000041A Active JP7481116B2 (ja) 2019-01-04 2020-01-05 ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理
JP2024071376A Pending JP2024097827A (ja) 2019-01-04 2024-04-25 ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020000041A Active JP7481116B2 (ja) 2019-01-04 2020-01-05 ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理

Country Status (5)

Country Link
US (1) US11134353B2 (ja)
EP (1) EP3678388A1 (ja)
JP (2) JP7481116B2 (ja)
KR (1) KR20200085226A (ja)
CN (1) CN111415673A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2588197A (en) * 2019-10-14 2021-04-21 Global Radio Services Ltd Audio-based user matching
US11470162B2 (en) * 2021-01-30 2022-10-11 Zoom Video Communications, Inc. Intelligent configuration of personal endpoint devices
DK180999B1 (en) * 2021-02-26 2022-09-13 Gn Hearing As Fitting agent and method of determining hearing device parameters
CN113086547A (zh) * 2021-03-04 2021-07-09 蒋守卫 一种矿石开采用具有防溜坡功能的安全性高的运输设备
US12041424B2 (en) * 2021-03-11 2024-07-16 Google Llc Real-time adaptation of audio playback
US12063476B2 (en) 2022-06-30 2024-08-13 Cerence Operating Company In-car assistive audio technologies for users with hearing loss
WO2024062757A1 (ja) * 2022-09-21 2024-03-28 ヤマハ株式会社 情報処理装置、情報処理システムおよび情報処理方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000032585A (ja) 1998-07-15 2000-01-28 Kenwood Corp オーディオ装置の音質補正回路
US6944474B2 (en) * 2001-09-20 2005-09-13 Sound Id Sound enhancement for mobile phones and other products producing personalized audio for users
JP2005300772A (ja) 2004-04-08 2005-10-27 Denso Corp 楽曲情報紹介システム
JP2010050875A (ja) 2008-08-25 2010-03-04 Sony Corp イコライザ装置、周波数特性付加方法、周波数特性付加プログラムおよび音響再生装置
US8611570B2 (en) * 2010-05-25 2013-12-17 Audiotoniq, Inc. Data storage system, hearing aid, and method of selectively applying sound filters
WO2012024144A1 (en) 2010-08-18 2012-02-23 Dolby Laboratories Licensing Corporation Method and system for controlling distortion in a critical frequency band of an audio signal
JP5630696B2 (ja) 2010-10-06 2014-11-26 ヤマハ株式会社 音響特性補正装置
US9613028B2 (en) * 2011-01-19 2017-04-04 Apple Inc. Remotely updating a hearing and profile
KR101251626B1 (ko) 2011-09-20 2013-04-08 (주)골든이어스 스마트 기기를 이용한 음향기기의 특성에 대한 보상 서비스 제공 방법
US20130177188A1 (en) * 2012-01-06 2013-07-11 Audiotoniq, Inc. System and method for remote hearing aid adjustment and hearing testing by a hearing health professional
CN104956689B (zh) * 2012-11-30 2017-07-04 Dts(英属维尔京群岛)有限公司 用于个性化音频虚拟化的方法和装置
US9344793B2 (en) 2013-02-11 2016-05-17 Symphonic Audio Technologies Corp. Audio apparatus and methods
US9319019B2 (en) * 2013-02-11 2016-04-19 Symphonic Audio Technologies Corp. Method for augmenting a listening experience
US9577596B2 (en) 2013-03-08 2017-02-21 Sound Innovations, Llc System and method for personalization of an audio equalizer
JP5780259B2 (ja) 2013-03-26 2015-09-16 ソニー株式会社 情報処理装置、情報処理方法、プログラム
WO2015026859A1 (en) * 2013-08-19 2015-02-26 Symphonic Audio Technologies Corp. Audio apparatus and methods
US10021484B2 (en) * 2014-02-27 2018-07-10 Sonarworks Sia Method of and apparatus for determining an equalization filter
EP3120578B2 (en) 2014-03-19 2022-08-17 Bose Corporation Crowd sourced recommendations for hearing assistance devices
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume

Also Published As

Publication number Publication date
EP3678388A1 (en) 2020-07-08
JP7481116B2 (ja) 2024-05-10
US20200221240A1 (en) 2020-07-09
CN111415673A (zh) 2020-07-14
KR20200085226A (ko) 2020-07-14
JP2020109968A (ja) 2020-07-16
US11134353B2 (en) 2021-09-28

Similar Documents

Publication Publication Date Title
JP7481116B2 (ja) ユーザ固有音声情報及びハードウェア固有音声情報に基づくカスタマイズされた音声処理
US10231074B2 (en) Cloud hosted audio rendering based upon device and environment profiles
US11075609B2 (en) Transforming audio content for subjective fidelity
US9847767B2 (en) Electronic device capable of adjusting an equalizer according to physiological condition of hearing and adjustment method thereof
US11113092B2 (en) Global HRTF repository
JP7511638B2 (ja) 動的レンダリングデバイスメタデータ情報に基づいたオーディオエンハンスメントシステム
US11736889B2 (en) Personalized and integrated virtual studio
US11601752B2 (en) Sound quality enhancement and personalization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240425