JP2023554694A - オーディオソース指向性に基づく心理音響的強調 - Google Patents
オーディオソース指向性に基づく心理音響的強調 Download PDFInfo
- Publication number
- JP2023554694A JP2023554694A JP2023544356A JP2023544356A JP2023554694A JP 2023554694 A JP2023554694 A JP 2023554694A JP 2023544356 A JP2023544356 A JP 2023544356A JP 2023544356 A JP2023544356 A JP 2023544356A JP 2023554694 A JP2023554694 A JP 2023554694A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- audio signals
- zoom
- source
- processors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 447
- 230000004044 response Effects 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 230000001629 suppression Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000010191 image analysis Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 description 95
- 239000003623 enhancer Substances 0.000 description 53
- 230000008859 change Effects 0.000 description 15
- 230000004913 activation Effects 0.000 description 8
- 230000003190 augmentative effect Effects 0.000 description 7
- 230000007423 decrease Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
- H04N23/632—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/69—Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
Abstract
Description
[0001]本出願は、その内容全体が参照により本明細書に明確に組み込まれる、2021年1月29日に出願された、同一出願人が所有する米国非仮特許出願第17/162,241号の優先権の利益を主張する。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを記憶するように構成されたメモリと、
1つまたは複数のプロセッサと、
を備えるデバイスであって、前記1つまたは複数のプロセッサは、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を行うように構成された、デバイス。
[C2]
前記心理音響的強調バージョンは、オーディオズーム動作に関連するズーム配向およびズーム距離における前記1つまたは複数のオーディオソースの周波数応答を近似する、C1に記載のデバイス。
[C3]
前記1つまたは複数のプロセッサは、
オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記ズームターゲットに基づいて前記1つまたは複数の等化器設定を決定することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C4]
前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、C3に記載のデバイス。
[C5]
前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記指向性データは、前記特定のオーディオソースの配向および距離周波数応答特性を示す、C1に記載のデバイス。
[C6]
前記1つまたは複数のプロセッサは、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C7]
前記1つまたは複数のプロセッサは、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C8]
前記1つまたは複数のプロセッサは、
利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記1つまたは複数の入力オーディオ信号に基づく利得調整器入力オーディオ信号に1つまたは複数の利得を適用することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記利得調整されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C9]
前記1つまたは複数のプロセッサは、
雑音抑圧されたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく雑音抑圧器入力オーディオ信号に対して雑音抑圧を実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記雑音抑圧されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C10]
前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのコンテキストデータを生成するために、前記1つまたは複数の入力オーディオ信号に基づくコンテキスト検出器入力オーディオ信号を処理することと、ここにおいて、前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C11]
前記1つまたは複数のプロセッサは、前記1つまたは複数の入力オーディオ信号に関連する画像データに少なくとも部分的に基づいて前記コンテキストデータを生成するようにさらに構成された、C10に記載のデバイス。
[C12]
前記1つまたは複数のプロセッサは、メモリから前記画像データと前記1つまたは複数の入力オーディオ信号とを取り出すようにさらに構成された、C11に記載のデバイス。
[C13]
前記1つまたは複数のプロセッサに結合され、前記1つまたは複数の入力オーディオ信号を生成するように構成された、1つまたは複数のマイクロフォンをさらに備える、C11に記載のデバイス。
[C14]
前記1つまたは複数のプロセッサに結合され、前記画像データを生成するように構成された、カメラをさらに備える、C11に記載のデバイス。
[C15]
前記1つまたは複数のプロセッサは、前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースの前記タイプを識別するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施するようにさらに構成された、C11に記載のデバイス。
[C16]
前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記配向を決定するために、前記画像データに対して画像分析を実施することと、
を行うようにさらに構成された、C11に記載のデバイス。
[C17]
前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記距離を決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に対して、距離分析を実施することと、
を行うようにさらに構成された、C11に記載のデバイス。
[C18]
前記1つまたは複数のプロセッサは、前記1つまたは複数の等化器設定を、前記コンテキストデータ、前記指向性データ、ズーム配向、ズーム距離、またはそれらの組合せに関連付ける等化器設定データに基づいて、前記1つまたは複数の等化器設定を選択するようにさらに構成された、C10に記載のデバイス。
[C19]
前記1つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記等化器設定データを取得するようにさらに構成された、C18に記載のデバイス。
[C20]
前記1つまたは複数のプロセッサは、中間周波数に対応する周波数応答を低減するために、前記1つまたは複数の等化器設定を選択するようにさらに構成された、C10に記載のデバイス。
[C21]
前記1つまたは複数のプロセッサは、
第1の時間において、前記1つまたは複数のオーディオソースのうちの特定のオーディオソースに対応する第1の入力オーディオ信号の第1の音スペクトルを生成することと、
第2の時間において、前記特定のオーディオソースに対応する第2の入力オーディオ信号の第2の音スペクトルを生成することと、
前記第1の時間における第1の距離および第1の配向と、前記第2の時間における第2の距離および第2の配向との間の差が、前記第1の音スペクトルと前記第2の音スペクトルとの間の差に対応することを示すように、前記指向性データを更新することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C22]
前記1つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記指向性データを取得するようにさらに構成された、C1に記載のデバイス。
[C23]
前記1つまたは複数のプロセッサは、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号中の音声を検出することと、
1つまたは複数の利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記1つまたは複数のビームフォーミングされたオーディオ信号、前記1つまたは複数の音声オーディオ信号、またはそれらの組合せに、1つまたは複数の利得を適用することと、
前記1つまたは複数の利得調整されたオーディオ信号に少なくとも部分的に基づいて、前記1つまたは複数のオーディオソースのコンテキストデータを生成することと、ここにおいて、前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
前記コンテキストデータ、ズーム配向、およびズーム距離にさらに基づいて、前記1つまたは複数の等化器設定を決定することと、
1つまたは複数の雑音抑圧されたオーディオ信号を生成するために、前記1つまたは複数の利得調整されたオーディオ信号に雑音抑圧を適用することと、
前記1つまたは複数の等化器設定に基づいて前記1つまたは複数の雑音抑圧されたオーディオ信号を処理することによって、前記1つまたは複数の出力オーディオ信号を生成することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C24]
デバイスにおいて、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することと、
前記デバイスにおいて、前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を備える方法。
[C25]
前記デバイスにおいて、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記デバイスにおいて、前記ズームターゲットに基づいて前記1つまたは複数の等化器設定を決定することと、ここにおいて、前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、
をさらに備える、C24に記載の方法。
[C26]
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することと、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を行わせる、非一時的コンピュータ可読媒体。
[C27]
前記命令は、前記1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、C26に記載の非一時的コンピュータ可読媒体。
[C28]
前記命令は、前記1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、C26に記載の非一時的コンピュータ可読媒体。
[C29]
1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得するための手段と、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定するための手段と、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成するための手段と、
を備える装置。
[C30]
取得するための前記手段、決定するための前記手段、および生成するための前記手段は、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット(IoT)デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも1つに統合される、C29に記載の装置。
Claims (30)
- 1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを記憶するように構成されたメモリと、
1つまたは複数のプロセッサと、
を備えるデバイスであって、前記1つまたは複数のプロセッサは、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を行うように構成された、デバイス。 - 前記心理音響的強調バージョンは、オーディオズーム動作に関連するズーム配向およびズーム距離における前記1つまたは複数のオーディオソースの周波数応答を近似する、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、
オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記ズームターゲットに基づいて前記1つまたは複数の等化器設定を決定することと、
を行うようにさらに構成された、請求項1に記載のデバイス。 - 前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、請求項3に記載のデバイス。
- 前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記指向性データは、前記特定のオーディオソースの配向および距離周波数応答特性を示す、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項1に記載のデバイス。 - 前記1つまたは複数のプロセッサは、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項1に記載のデバイス。 - 前記1つまたは複数のプロセッサは、
利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記1つまたは複数の入力オーディオ信号に基づく利得調整器入力オーディオ信号に1つまたは複数の利得を適用することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記利得調整されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項1に記載のデバイス。 - 前記1つまたは複数のプロセッサは、
雑音抑圧されたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく雑音抑圧器入力オーディオ信号に対して雑音抑圧を実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記雑音抑圧されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項1に記載のデバイス。 - 前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのコンテキストデータを生成するために、前記1つまたは複数の入力オーディオ信号に基づくコンテキスト検出器入力オーディオ信号を処理することと、ここにおいて、前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
を行うようにさらに構成された、請求項1に記載のデバイス。 - 前記1つまたは複数のプロセッサは、前記1つまたは複数の入力オーディオ信号に関連する画像データに少なくとも部分的に基づいて前記コンテキストデータを生成するようにさらに構成された、請求項10に記載のデバイス。
- 前記1つまたは複数のプロセッサは、メモリから前記画像データと前記1つまたは複数の入力オーディオ信号とを取り出すようにさらに構成された、請求項11に記載のデバイス。
- 前記1つまたは複数のプロセッサに結合され、前記1つまたは複数の入力オーディオ信号を生成するように構成された、1つまたは複数のマイクロフォンをさらに備える、請求項11に記載のデバイス。
- 前記1つまたは複数のプロセッサに結合され、前記画像データを生成するように構成された、カメラをさらに備える、請求項11に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースの前記タイプを識別するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施するようにさらに構成された、請求項11に記載のデバイス。
- 前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記配向を決定するために、前記画像データに対して画像分析を実施することと、
を行うようにさらに構成された、請求項11に記載のデバイス。 - 前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記距離を決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に対して、距離分析を実施することと、
を行うようにさらに構成された、請求項11に記載のデバイス。 - 前記1つまたは複数のプロセッサは、前記1つまたは複数の等化器設定を、前記コンテキストデータ、前記指向性データ、ズーム配向、ズーム距離、またはそれらの組合せに関連付ける等化器設定データに基づいて、前記1つまたは複数の等化器設定を選択するようにさらに構成された、請求項10に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記等化器設定データを取得するようにさらに構成された、請求項18に記載のデバイス。
- 前記1つまたは複数のプロセッサは、中間周波数に対応する周波数応答を低減するために、前記1つまたは複数の等化器設定を選択するようにさらに構成された、請求項10に記載のデバイス。
- 前記1つまたは複数のプロセッサは、
第1の時間において、前記1つまたは複数のオーディオソースのうちの特定のオーディオソースに対応する第1の入力オーディオ信号の第1の音スペクトルを生成することと、
第2の時間において、前記特定のオーディオソースに対応する第2の入力オーディオ信号の第2の音スペクトルを生成することと、
前記第1の時間における第1の距離および第1の配向と、前記第2の時間における第2の距離および第2の配向との間の差が、前記第1の音スペクトルと前記第2の音スペクトルとの間の差に対応することを示すように、前記指向性データを更新することと、
を行うようにさらに構成された、請求項1に記載のデバイス。 - 前記1つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記指向性データを取得するようにさらに構成された、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号中の音声を検出することと、
1つまたは複数の利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記1つまたは複数のビームフォーミングされたオーディオ信号、前記1つまたは複数の音声オーディオ信号、またはそれらの組合せに、1つまたは複数の利得を適用することと、
前記1つまたは複数の利得調整されたオーディオ信号に少なくとも部分的に基づいて、前記1つまたは複数のオーディオソースのコンテキストデータを生成することと、ここにおいて、前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
前記コンテキストデータ、ズーム配向、およびズーム距離にさらに基づいて、前記1つまたは複数の等化器設定を決定することと、
1つまたは複数の雑音抑圧されたオーディオ信号を生成するために、前記1つまたは複数の利得調整されたオーディオ信号に雑音抑圧を適用することと、
前記1つまたは複数の等化器設定に基づいて前記1つまたは複数の雑音抑圧されたオーディオ信号を処理することによって、前記1つまたは複数の出力オーディオ信号を生成することと、
を行うようにさらに構成された、請求項1に記載のデバイス。 - デバイスにおいて、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することと、
前記デバイスにおいて、前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を備える方法。 - 前記デバイスにおいて、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記デバイスにおいて、前記ズームターゲットに基づいて前記1つまたは複数の等化器設定を決定することと、ここにおいて、前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、
をさらに備える、請求項24に記載の方法。 - 命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することと、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を行わせる、非一時的コンピュータ可読媒体。 - 前記命令は、前記1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、請求項26に記載の非一時的コンピュータ可読媒体。 - 前記命令は、前記1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、請求項26に記載の非一時的コンピュータ可読媒体。 - 1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得するための手段と、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定するための手段と、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成するための手段と、
を備える装置。 - 取得するための前記手段、決定するための前記手段、および生成するための前記手段は、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット(IoT)デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも1つに統合される、請求項29に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/162,241 | 2021-01-29 | ||
US17/162,241 US11646046B2 (en) | 2021-01-29 | 2021-01-29 | Psychoacoustic enhancement based on audio source directivity |
PCT/US2021/072989 WO2022164590A1 (en) | 2021-01-29 | 2021-12-17 | Psychoacoustic enhancement based on audio source directivity |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023554694A true JP2023554694A (ja) | 2023-12-28 |
JP7459391B2 JP7459391B2 (ja) | 2024-04-01 |
Family
ID=79730274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023544356A Active JP7459391B2 (ja) | 2021-01-29 | 2021-12-17 | オーディオソース指向性に基づく心理音響的強調 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11646046B2 (ja) |
EP (1) | EP4285611A1 (ja) |
JP (1) | JP7459391B2 (ja) |
KR (1) | KR102650763B1 (ja) |
CN (1) | CN116803106B (ja) |
BR (1) | BR112023014480A2 (ja) |
TW (1) | TW202304226A (ja) |
WO (1) | WO2022164590A1 (ja) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003337164A (ja) * | 2002-03-13 | 2003-11-28 | Univ Nihon | 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置 |
US8319858B2 (en) | 2008-10-31 | 2012-11-27 | Fortemedia, Inc. | Electronic apparatus and method for receiving sounds with auxiliary information from camera system |
EP2211564B1 (en) * | 2009-01-23 | 2014-09-10 | Harman Becker Automotive Systems GmbH | Passenger compartment communication system |
EP2680616A1 (en) | 2012-06-25 | 2014-01-01 | LG Electronics Inc. | Mobile terminal and audio zooming method thereof |
US9685171B1 (en) * | 2012-11-20 | 2017-06-20 | Amazon Technologies, Inc. | Multiple-stage adaptive filtering of audio signals |
US9595997B1 (en) * | 2013-01-02 | 2017-03-14 | Amazon Technologies, Inc. | Adaption-based reduction of echo and noise |
WO2015178949A1 (en) * | 2014-05-19 | 2015-11-26 | Tiskerling Dynamics Llc | Using the location of a near-end user in a video stream to adjust audio settings of a far-end system |
JP6865371B2 (ja) | 2016-03-24 | 2021-04-28 | パナソニックIpマネジメント株式会社 | モニタリングシステム及びモニタリング方法 |
DK3477964T3 (da) * | 2017-10-27 | 2021-05-25 | Oticon As | Høresystem, der er konfigureret til at lokalisere en mållydkilde |
CN108564962B (zh) | 2018-03-09 | 2021-10-08 | 浙江大学 | 基于四面体麦克风阵列的无人机声音信号增强方法 |
WO2019204214A2 (en) | 2018-04-16 | 2019-10-24 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for encoding and decoding of directional sound sources |
CN113226928A (zh) | 2019-03-29 | 2021-08-06 | 松下知识产权经营株式会社 | 无人移动体以及信息处理方法 |
-
2021
- 2021-01-29 US US17/162,241 patent/US11646046B2/en active Active
- 2021-12-17 EP EP21844928.8A patent/EP4285611A1/en active Pending
- 2021-12-17 BR BR112023014480A patent/BR112023014480A2/pt unknown
- 2021-12-17 KR KR1020237025350A patent/KR102650763B1/ko active IP Right Grant
- 2021-12-17 JP JP2023544356A patent/JP7459391B2/ja active Active
- 2021-12-17 WO PCT/US2021/072989 patent/WO2022164590A1/en active Application Filing
- 2021-12-17 CN CN202180091715.0A patent/CN116803106B/zh active Active
- 2021-12-20 TW TW110147704A patent/TW202304226A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
CN116803106A (zh) | 2023-09-22 |
US11646046B2 (en) | 2023-05-09 |
TW202304226A (zh) | 2023-01-16 |
JP7459391B2 (ja) | 2024-04-01 |
US20220246160A1 (en) | 2022-08-04 |
EP4285611A1 (en) | 2023-12-06 |
KR20230113853A (ko) | 2023-08-01 |
CN116803106B (zh) | 2024-03-19 |
WO2022164590A1 (en) | 2022-08-04 |
BR112023014480A2 (pt) | 2024-01-23 |
KR102650763B1 (ko) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10645518B2 (en) | Distributed audio capture and mixing | |
US10123140B2 (en) | Dynamic calibration of an audio system | |
JP6397158B1 (ja) | 協調的なオーディオ処理 | |
US11721355B2 (en) | Audio bandwidth reduction | |
JP2018533051A (ja) | 協調的なオーディオ処理 | |
WO2021244056A1 (zh) | 一种数据处理方法、装置和可读介质 | |
WO2022253003A1 (zh) | 语音增强方法及相关设备 | |
KR20210035725A (ko) | 혼합 오디오 신호를 저장하고 지향성 오디오를 재생하기 위한 방법 및 시스템 | |
JP6977768B2 (ja) | 情報処理装置、情報処理方法、音声出力装置、および音声出力方法 | |
TW202143750A (zh) | 使用自我調整網路來對全景聲係數進行變換 | |
TW202420242A (zh) | 音訊信號增強 | |
JP2011211266A (ja) | スピーカアレイ装置 | |
JP7459391B2 (ja) | オーディオソース指向性に基づく心理音響的強調 | |
US11671752B2 (en) | Audio zoom | |
CN111696566B (zh) | 语音处理方法、装置和介质 | |
CN111696564B (zh) | 语音处理方法、装置和介质 | |
CN111696565B (zh) | 语音处理方法、装置和介质 | |
US20240087597A1 (en) | Source speech modification based on an input speech characteristic | |
CN117896469B (zh) | 音频分享方法、装置、计算机设备和存储介质 | |
JP7496433B2 (ja) | 変化する環境でオーディオを向上するシステム及び方法 | |
CN115967892A (zh) | 发声控制方法、系统、显示设备及计算机可读存储介质 | |
JP2022128177A (ja) | 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム | |
WO2024177842A1 (en) | Speech enhancement using predicted noise | |
CN114449341A (zh) | 音频处理方法、装置、可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230721 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230721 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7459391 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |