JP2023503959A - リスニングシーンを構築する方法及び関連装置 - Google Patents
リスニングシーンを構築する方法及び関連装置 Download PDFInfo
- Publication number
- JP2023503959A JP2023503959A JP2022530306A JP2022530306A JP2023503959A JP 2023503959 A JP2023503959 A JP 2023503959A JP 2022530306 A JP2022530306 A JP 2022530306A JP 2022530306 A JP2022530306 A JP 2022530306A JP 2023503959 A JP2023503959 A JP 2023503959A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- target
- rms
- music
- channel audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 230000000694 effects Effects 0.000 claims abstract description 223
- 238000009877 rendering Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 124
- 238000012546 transfer Methods 0.000 claims description 110
- 238000005259 measurement Methods 0.000 claims description 57
- 238000005070 sampling Methods 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 20
- 230000001143 conditioned effect Effects 0.000 claims description 8
- 238000007667 floating Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 4
- 210000003128 head Anatomy 0.000 description 65
- 238000010586 diagram Methods 0.000 description 33
- 238000012545 processing Methods 0.000 description 32
- 210000005069 ears Anatomy 0.000 description 17
- 230000008859 change Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000007654 immersion Methods 0.000 description 12
- 241000976924 Inca Species 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 241000238631 Hexapoda Species 0.000 description 5
- 230000037433 frameshift Effects 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 241000271566 Aves Species 0.000 description 3
- 241000209504 Poaceae Species 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 240000008467 Oryza sativa Japonica Group Species 0.000 description 1
- 235000005043 Oryza sativa Japonica Group Nutrition 0.000 description 1
- 241001502122 Pyrrhocoris apterus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- CNQCVBJFEGMYDW-UHFFFAOYSA-N lawrencium atom Chemical compound [Lr] CNQCVBJFEGMYDW-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S1/005—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
Description
音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、複数のタイムノードの音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することを含む。
ターゲットオーディオを複数のオーディオフレームに分割することと、
複数のオーディオフレームのタイムノードに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数(head-related transfer function,HRTF)をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することと、を含む。
複数のオーディオフレームのうちの1つのオーディオフレームである第一オーディオフレームに対応するタイムノードの音源の第一位置を取得することと、
第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定することであって、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応する、確定することと、
第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得することとを含む。
P個の測定位置点にそれぞれ対応する頭部伝達関数によってフィッティングすることにより、第一位置に対応する第二頭部伝達関数を獲得し、
第一オーディオフレームに対して第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得する。
ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングすることは、
左チャンネルオーディオの二乗平均平方根(root mean square,RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定することと、
変調係数に基づいて、左チャンネルオーディオのRMS値及び右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得することであって、調整後の左チャンネルオーディオのRMS値及び調整後の右チャンネルのRMS値はターゲット音楽のRMS値より高くないことと、
調整後の左チャンネルオーディオをターゲット音楽の左チャンネルにミキシングして、ターゲット音楽の左チャンネルのレンダリングオーディオとし、調整後の右チャンネルオーディオをターゲット音楽の右チャンネルにミキシングして、ターゲット音楽の右チャンネルのレンダリングオーディオとすることと、を含む。
RMSA2、RMSB2及びRMSYが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA2に調整し、右チャンネルオーディオのRMS値をRMSB2に調整することであって、
RMSA2=alpha*RMSYであり、
RMSB2=alpha*RMSYであり、alphaは、予め設定された比率係数であり、0<alpha<1である、調整することと、
RMSA3、RMSB3及びRMSYが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA3に調整し、右チャンネルオーディオのRMS値をRMSB3に調整することであって、
RMSA3=F-RMSYであり、Fは浮動小数点型で表される数字の最大数であり、
RMSB3=F-RMSYである、調整することと、
ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、ターゲットオーディオのサンプリングレートをターゲット音楽のサンプリングレートに変換することをさらに含む。
オーディオ選択ユニットは、ターゲットオーディオを確定するために用いられ、ターゲットオーディオはターゲットシーンにおける音特徴を特徴付けるために用いられ、
位置確定ユニットは、ターゲットオーディオの音源の位置を確定するために用いられ、
音像変調ユニットは、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、ターゲットオーディが音源の位置からのものであるという効果を生じることができ、
オーディオレンダリングユニットは、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得するために用いられる。
ターゲットオーディオに対する選択操作を受信して、選択操作により指定されたオーディオをターゲットオーディオとして確定する。
音像変調ユニットは、音源の位置に基づいてターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、複数のタイムノードの音源の位置に基づいてターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。
ターゲットオーディオを複数のオーディオフレームに分割するフレーム分割サブユニットと、
複数のオーディオフレームのタイムノードに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数(head-related transfer function,HRTF)をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる音像生成サブユニットと、を含む。
フレーム位置マッチングサブユニットは、複数のオーディオフレームのうちの1つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得するために用いられ、
位置測定サブユニットは、第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定するために用いられ、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応し、
畳み込みサブユニットは、第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。
前記装置は、
P個の測定位置点に対応する頭部伝達関数によってフィッティングすることにより第一位置に対応する第二頭部伝達関数を獲得するために用いられる位置フィッティングサブユニットをさらに含み、
畳み込みサブユニットは、さらに、第一オーディオフレームに対して第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。
変調係数確定サブユニットは、左チャンネルオーディオの二乗平均平方根(root mean square,RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、
調整サブユニットは、変調係数に基づいて、左チャンネルオーディオのRMS値及び右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得するために用いられ、調整後の左チャンネルオーディオのRMS値及び調整後の右チャンネルのRMS値は、ターゲット音楽のRMS値より高くなく、
ミキシングサブユニットは、調整後の左チャンネルオーディオをターゲット音楽の左チャンネルにミキシングして、ターゲット音楽の左チャンネルのレンダリングオーディオとし、調整後の右チャンネルオーディオをターゲット音楽の右チャンネルにミキシングして、ターゲット音楽の右チャンネルのレンダリングオーディオとするために用いられる。
RMSA2、RMSB2及びRMSYが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA2に調整し、右チャンネルオーディオのRMS値をRMSB2に調整し、
RMSA2=alpha*RMSYであり、
RMSB2=alpha*RMSYであり、alphaは、予め設定された比率係数であり、0<alpha<1であり、
RMSA3、RMSB3及びRMSYが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA3に調整し、右チャンネルオーディオのRMS値をRMSB3に調整し、
RMSA3=F-RMSYであり、Fは浮動小数点型で表される数字の最大数であり、
RMSB3=F-RMSYであり、
M_1=min(M_A1,M_B1)である。
変調係数確定サブユニット1711は、左チャンネルオーディオの二乗平均平方根(RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、
調整サブユニット1712は、変調係数に基づいて、左チャンネルオーディオのRMS値及び右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得するために用いられ、調整後の左チャンネルオーディオのRMS値及び調整後の右チャンネルのRMS値は、ターゲット音楽のRMS値より高くなく、
ミキシングサブユニット1713は、調整後の左チャンネルオーディオをターゲット音楽の左チャンネルにミキシングして、ターゲット音楽の左チャンネルのレンダリングオーディオとし、調整後の右チャンネルオーディオをターゲット音楽の右チャンネルにミキシングして、ターゲット音楽の右チャンネルのレンダリングオーディオとするために用いられる。
RMSA2、RMSB2及びRMSYが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA2に調整し、右チャンネルオーディオのRMS値をRMSB2に調整し、
RMSA2=alpha*RMSYであり、
RMSB2=alpha*RMSYであり、alphaは、予め設定された比率係数であり、0<alpha<1であり、
RMSA3、RMSB3及びRMSYが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA3に調整し、右チャンネルオーディオのRMS値をRMSB3に調整し、
RMSA3=F-RMSYであり、Fは浮動小数点型で表される数字の最大数であり、
RMSB3=F-RMSYであり、
ターゲットオーディオを複数のオーディオフレームに分割することと、
複数のオーディオフレームに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数(head-related transfer function,HRTF)をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することと、を含む。
複数のオーディオフレームのうちの1つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得することと、
第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定することであって、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応する、確定することと、
第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得することとを含む。
ターゲットオーディオを複数のオーディオフレームに分割するフレーム分割サブユニットと、
複数のオーディオフレームに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数(head-related transfer function,HRTF)をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる音像生成サブユニットと、を含む。
RMSA2、RMSB2及びRMSYが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA2に調整し、右チャンネルオーディオのRMS値をRMSB2に調整し、
RMSA2=alpha*RMSYであり、
RMSB2=alpha*RMSYであり、alphaは、予め設定された比率係数であり、0<alpha<1であり、
Claims (22)
- リスニングシーンを構築する方法であって、
ターゲットシーンの音特徴を特徴付けるために用いられるターゲットオーディオを確定することと、
前記ターゲットオーディオの音源の位置を確定することと、
前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することであって、前記ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、前記ターゲットオーディが前記音源の位置からのものであるという効果を生じることができることと、
前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、前記ターゲット音楽が前記ターゲットシーンで再生される効果を獲得することと、
を含む、
ことを特徴とするリスニングシーンを構築する方法。 - 前記ターゲット音楽の人の声部分が出現する前又は人の声が終了した後、前記ターゲットオーディオは、前記ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び/又は、
前記ターゲット音楽の人の声部分において、前記ターゲットオーディオは、前記ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである、
ことを特徴とする請求項1に記載の方法。 - 前記ターゲットオーディオの音源の位置を確定することは、複数のタイムノードの前記ターゲットオーディオの音源の位置を確定することを含み、
前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することは、前記複数のタイムノードの音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することを含む、
ことを特徴とする請求項1又は2に記載の方法。 - 前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
前記ターゲットオーディオを複数のオーディオフレームに分割することと、
前記複数のオーディオフレームに対応する音源の位置に基づいて、前記複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することと、
を含む、
ことを特徴とする請求項1~3のいずれか一項に記載の方法。 - 前記複数のオーディオフレームに対応する音源の位置に基づいて、前記複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
前記複数のオーディオフレームのうちのいずれか1つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得することと、
前記第一位置が予め設定された測定点範囲内にあると、前記第一位置に対応する第一頭部伝達関数を確定することであって、前記予め設定された測定点範囲内の各測定点は頭部伝達関数に対応することと、
前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの前記第一頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得することと、
を含む、
ことを特徴とする請求項4に記載の方法。 - 前記第一位置が前記予め設定された測定点範囲内にないと、前記第一位置に基づいてP個の測定位置点を確定し、前記P個の測定位置点は前記予め設定された測定点範囲内にあるP個の点であり、Pは1以上の整数であることと、
前記P個の測定位置点にぞれぞれ対応する頭部伝達関数によってフィッティングすることにより、前記第一位置に対応する第二頭部伝達関数を獲得することと、
前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの前記第二頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得することと、
をさらに含む、
ことを特徴とする請求項5に記載の方法。 - 前記ターゲットオーディオのデュアルチャネルオーディオは、左チャンネルオーディオ及び右チャンネルオーディオを含み、
前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングすることは、
前記左チャンネルオーディオの二乗平均平方根(RMS)値、前記右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定することと、
前記変調係数に基づいて、前記左チャンネルオーディオのRMS値及び前記右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得することであって、前記調整後の左チャンネルオーディオのRMS値及び前記調整後の右チャンネルのRMS値は前記ターゲット音楽のRMS値より高くないことと、
前記調整後の左チャンネルオーディオを前記ターゲット音楽の左チャンネルにミキシングして、前記ターゲット音楽の左チャンネルのレンダリングオーディオとし、前記調整後の右チャンネルオーディオを前記ターゲット音楽の右チャンネルにミキシングして、前記ターゲット音楽の右チャンネルのレンダリングオーディオとすることと、
を含む、
ことを特徴とする請求項6に記載の方法。 - 調整前の前記左チャンネルオーディオのRMS値はRMSA1であり、調整前の前記右チャンネルオーディオのRMS値はRMSB1であり、前記ターゲット音楽のRMS値はRMSYであり、
前記左チャンネルオーディオのRMS値、前記右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定することは、
RMSA2、RMSB2及びRMSYが以下の関係を満たすように、前記左チャンネルオーディオのRMS値をRMSA2に調整し、前記右チャンネルオーディオのRMS値をRMSB2に調整することであって、
RMSA2=alpha*RMSY、
RMSB2=alpha*RMSY、alphaは、予め設定された比率係数であり、0<alpha<1であることと、
を含む、
ことを特徴とする請求項7に記載の方法。 - 前記ターゲットオーディオを確定した後、前記ターゲットオーディオの音源の位置を確定する前に、
前記ターゲットオーディオのサンプリングレートと前記ターゲット音楽のサンプリングレートとが同じではない場合、前記ターゲットオーディオのサンプリングレートを前記ターゲット音楽のサンプリングレートに変換することをさらに含む、
ことを特徴とする請求項1又は2に記載の方法。 - リスニングシーンを構築する装置であって、
オーディオ選択ユニット、位置確定ユニット、音像変調ユニット及びオーディオレンダリングユニットを含み、
前記オーディオ選択ユニットは、ターゲットオーディオを確定するために用いられ、前記ターゲットオーディオはターゲットシーンにおける音特徴を特徴付けるために用いられ、
前記位置確定ユニットは、前記ターゲットオーディオの音源の位置を確定するために用いられ、
前記音像変調ユニットは、前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、前記ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、前記ターゲットオーディが前記音源の位置からのものであるという効果を生じることができ、
前記オーディオレンダリングユニットは、前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、前記ターゲット音楽が前記ターゲットシーンで再生される効果を獲得するために用いられる、
ことを特徴とする装置。 - 前記ターゲット音楽の人の声部分が出現する前又は人の声が終了した後、前記ターゲットオーディオは、前記ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び/又は、
前記ターゲット音楽の人の声部分において、前記ターゲットオーディオは、前記ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである、
ことを特徴とする請求項11に記載の装置。 - 前記位置確定ユニットは、前記ターゲットオーディオの音源の位置を確定するために用いられ、具体的には、複数のタイムノードの前記ターゲットオーディオの音源の位置を確定し、
前記音像変調ユニットは、前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、前記複数のタイムノードの音源の位置に基づいて前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得する、
ことを特徴とする請求項11又は12に記載の装置。 - 前記音像変調ユニットは、
前記ターゲットオーディオを複数のオーディオフレームに分割するために用いられるフレーム分割サブユニットと、
前記複数のオーディオフレームに対応する音源の位置に基づいて、前記複数のオーディオフレームに対して前記音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる音像生成サブユニットと、
を含む、
ことを特徴とする請求項11~13のいずれか一項に記載の装置。 - 前記音像生成サブユニットは、フレーム位置マッチングサブユニット、位置測定サブユニット及び畳み込みサブユニットを含み、
前記フレーム位置マッチングサブユニットは、前記複数のオーディオフレームのうちの1つのオーディオフレームである前記第一オーディオフレームに対応する音源の第一位置を取得するために用いられ、
前記位置測定サブユニットは、前記第一位置が予め設定された測定点範囲内にあると、前記第一位置に対応する第一頭部伝達関数を確定するために用いられ、前記予め設定された測定点範囲内の各測定点は頭部伝達関数に対応し、
前記畳み込みサブユニットは、前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの前記第一頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる、
ことを特徴とする請求項14に記載の装置。 - 前記位置測定サブユニットは、さらに、前記第一位置が予め設定された測定点範囲内にないと、前記第一位置に基づいてP個の測定位置点を確定するために用いられ、前記P個の測定位置点は前記予め設定された測定点範囲内にあるP個の点であり、Pは、1以上の整数であり、
前記装置は、前記P個の測定位置点に対応する頭部伝達関数によってフィッティングすることにより前記第一位置に対応する第二頭部伝達関数を獲得するために用いられる位置フィッティングサブユニットをさらに含み、
前記畳み込みサブユニットは、さらに、前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる、
ことを特徴とする請求項15に記載の装置。 - 前記オーディオレンダリングユニットは、前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、前記ターゲット音楽が前記ターゲットシーンで再生される効果を獲得するために用いられ、具体的には、
変調係数確定サブユニットは、前記左チャンネルオーディオの二乗平均平方根(RMS)値、前記右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、
前記調整サブユニットは、前記変調係数に基づいて、前記左チャンネルオーディオのRMS値及び前記右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得するために用いられ、前記調整後の左チャンネルオーディオのRMS値及び前記調整後の右チャンネルのRMS値は、ターゲット音楽のRMS値より高くなく、
ミキシングサブユニットは、前記調整後の左チャンネルオーディオを前記ターゲット音楽の左チャンネルにミキシングして、前記ターゲット音楽の左チャンネルのレンダリングオーディオとし、前記調整後の右チャンネルオーディオを前記ターゲット音楽の右チャンネルにミキシングして、前記ターゲット音楽の右チャンネルのレンダリングオーディオとするために用いられる、
ことを特徴とする請求項11~13のいずれか一項に記載の装置。 - 調整前の前記左チャンネルオーディオのRMS値はRMSA1であり、調整前の前記右チャンネルオーディオのRMS値はRMSB1であり、前記ターゲット音楽のRMS値はRMSYであり、前記変調係数確定サブユニットは、前記左チャンネルオーディオの二乗平均平方根(RMS)値、前記右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、具体的には、
RMSA2、RMSB2及びRMSYが以下の関係を満たすように、前記左チャンネルオーディオのRMS値をRMSA2に調整し、前記右チャンネルオーディオのRMS値をRMSB2に調整し、
RMSA2=alpha*RMSYであり、
RMSB2=alpha*RMSYであり、alphaは、予め設定された比率係数であり、0<alpha<1であり、
ことを特徴とする請求項17に記載の装置。 - 前記装置は、前記オーディオ選択ユニットがターゲットオーディオを確定した後、前記位置確定ユニットが前記ターゲットオーディオの音源の位置を確定する前に、前記ターゲットオーディオのサンプリングレートと前記ターゲット音楽のサンプリングレートとが同じではない場合、前記ターゲットオーディオのサンプリングレートを前記ターゲット音楽のサンプリングレートに変換するために用いられるサンプリングレート変換ユニットをさらに含む、
ことを特徴とする請求項11に記載の装置。 - リスニングシーンを構築する装置であって、
プロセッサ及びメモリを含み、前記メモリはコンピュータプログラムを格納するために用いられ、前記プロセッサは前記コンピュータプログラムを呼び出して、請求項1~10のいずれか一項に記載された方法を実行するために用いられる、
ことを特徴とするリスニングシーンを構築する装置。 - コンピュータプログラムを含むコンピュータ記憶媒体であって、
前記コンピュータプログラムが電子機器で実行されると、前記電子機器に請求項1~10のいずれか一項に記載された方法を実行させる、
ことを特徴とするコンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911169274.2 | 2019-11-25 | ||
CN201911169274.2A CN110972053B (zh) | 2019-11-25 | 2019-11-25 | 构造听音场景的方法和相关装置 |
PCT/CN2020/074640 WO2021103314A1 (zh) | 2019-11-25 | 2020-02-10 | 一种构造听音场景的方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023503959A true JP2023503959A (ja) | 2023-02-01 |
JP7436664B2 JP7436664B2 (ja) | 2024-02-21 |
Family
ID=70031586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022530306A Active JP7436664B2 (ja) | 2019-11-25 | 2020-02-10 | リスニングシーンを構築する方法及び関連装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220286781A1 (ja) |
JP (1) | JP7436664B2 (ja) |
CN (1) | CN110972053B (ja) |
WO (1) | WO2021103314A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113875265A (zh) * | 2020-04-20 | 2021-12-31 | 深圳市大疆创新科技有限公司 | 音频信号处理方法、音频处理装置及录音设备 |
CN111601157B (zh) * | 2020-05-11 | 2022-06-14 | 海信视像科技股份有限公司 | 一种音频输出方法及显示设备 |
CN112165648B (zh) * | 2020-10-19 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 一种音频播放的方法、相关装置、设备及存储介质 |
CN114501295B (zh) * | 2020-10-26 | 2022-11-15 | 深圳Tcl数字技术有限公司 | 音频数据处理方法、装置、终端和计算机可读存储介质 |
CN115278350A (zh) * | 2021-04-29 | 2022-11-01 | 华为技术有限公司 | 一种渲染方法及相关设备 |
CN113257256A (zh) * | 2021-07-14 | 2021-08-13 | 广州朗国电子科技股份有限公司 | 一种语音处理方法、会议一体机、系统及存储介质 |
CN113971013A (zh) * | 2021-10-25 | 2022-01-25 | 北京字节跳动网络技术有限公司 | 音乐的音效播放方法及设备 |
WO2024084950A1 (ja) * | 2022-10-19 | 2024-04-25 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 |
WO2024084949A1 (ja) * | 2022-10-19 | 2024-04-25 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11243598A (ja) * | 1997-10-31 | 1999-09-07 | Yamaha Corp | ディジタルフィルタ処理方法、ディジタルフィルタ装置、記録媒体、firフィルタ処理方法、および音像定位装置 |
JP2000132150A (ja) * | 1998-08-20 | 2000-05-12 | Ricoh Co Ltd | 映像表示装置 |
JP2006174052A (ja) * | 2004-12-15 | 2006-06-29 | Nippon Telegr & Teleph Corp <Ntt> | 音像提示方法、音像提示装置、音像提示プログラム、及びこれを記録した記録媒体 |
WO2018079850A1 (ja) * | 2016-10-31 | 2018-05-03 | ヤマハ株式会社 | 信号処理装置、信号処理方法およびプログラム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020191779A1 (en) * | 2001-03-23 | 2002-12-19 | Tien Pham | System for convolutional echo cancellation by iterative autocorrelation |
US6915225B2 (en) * | 2003-05-15 | 2005-07-05 | Northrop Grumman Corporation | Method, apparatus and system for digital data resampling utilizing fourier series based interpolation |
US20130065213A1 (en) * | 2011-09-13 | 2013-03-14 | Harman International Industries, Incorporated | System and method for adapting audio content for karaoke presentations |
CN105120418B (zh) * | 2015-07-17 | 2017-03-22 | 武汉大学 | 双声道3d音频生成装置及方法 |
CN105117021A (zh) * | 2015-09-24 | 2015-12-02 | 深圳东方酷音信息技术有限公司 | 一种虚拟现实内容的生成方法和播放装置 |
CN106572419B (zh) * | 2015-10-08 | 2018-08-03 | 中国科学院声学研究所 | 一种立体声音效增强系统 |
CN105792090B (zh) * | 2016-04-27 | 2018-06-26 | 华为技术有限公司 | 一种增加混响的方法与装置 |
US10088517B2 (en) * | 2016-10-07 | 2018-10-02 | Yaskawa America, Inc. | Voltage source inverter filter with resistor failure detection circuit |
JP2018126185A (ja) * | 2017-02-06 | 2018-08-16 | 株式会社日立製作所 | 装置、音データの生成方法、及びプログラム |
CN106993249B (zh) * | 2017-04-26 | 2020-04-14 | 深圳创维-Rgb电子有限公司 | 一种声场的音频数据的处理方法及装置 |
CN206759672U (zh) * | 2017-05-27 | 2017-12-15 | 江西创成微电子有限公司 | 一种麦克风 |
KR102622714B1 (ko) * | 2018-04-08 | 2024-01-08 | 디티에스, 인코포레이티드 | 앰비소닉 깊이 추출 |
CN108616789B (zh) * | 2018-04-11 | 2021-01-01 | 北京理工大学 | 基于双耳实时测量的个性化虚拟音频回放方法 |
CN108829254A (zh) * | 2018-06-21 | 2018-11-16 | 广东小天才科技有限公司 | 一种麦克风与用户终端互动的实现方法、系统及相关设备 |
CN110270094A (zh) * | 2019-07-17 | 2019-09-24 | 珠海天燕科技有限公司 | 一种游戏中音频控制的方法及装置 |
CN110488225B (zh) * | 2019-10-17 | 2020-02-07 | 南京雷鲨信息科技有限公司 | 声音方位的指示方法、装置、可读存储介质及移动终端 |
-
2019
- 2019-11-25 CN CN201911169274.2A patent/CN110972053B/zh active Active
-
2020
- 2020-02-10 WO PCT/CN2020/074640 patent/WO2021103314A1/zh active Application Filing
- 2020-02-10 JP JP2022530306A patent/JP7436664B2/ja active Active
-
2022
- 2022-05-24 US US17/751,960 patent/US20220286781A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11243598A (ja) * | 1997-10-31 | 1999-09-07 | Yamaha Corp | ディジタルフィルタ処理方法、ディジタルフィルタ装置、記録媒体、firフィルタ処理方法、および音像定位装置 |
JP2000132150A (ja) * | 1998-08-20 | 2000-05-12 | Ricoh Co Ltd | 映像表示装置 |
JP2006174052A (ja) * | 2004-12-15 | 2006-06-29 | Nippon Telegr & Teleph Corp <Ntt> | 音像提示方法、音像提示装置、音像提示プログラム、及びこれを記録した記録媒体 |
WO2018079850A1 (ja) * | 2016-10-31 | 2018-05-03 | ヤマハ株式会社 | 信号処理装置、信号処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021103314A1 (zh) | 2021-06-03 |
CN110972053B (zh) | 2021-06-25 |
JP7436664B2 (ja) | 2024-02-21 |
CN110972053A (zh) | 2020-04-07 |
US20220286781A1 (en) | 2022-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7436664B2 (ja) | リスニングシーンを構築する方法及び関連装置 | |
KR102502383B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
US9131305B2 (en) | Configurable three-dimensional sound system | |
TWI616810B (zh) | 輸出一調變音訊之方法及藉由一應用程式產生之圖形使用者介面 | |
US10924875B2 (en) | Augmented reality platform for navigable, immersive audio experience | |
CN112037738B (zh) | 一种音乐数据的处理方法、装置及计算机存储介质 | |
CN110992970B (zh) | 音频合成方法及相关装置 | |
JP2010538572A (ja) | オーディオ信号デコーディング方法及び装置 | |
CN106797525A (zh) | 用于生成和回放音频信号的方法和设备 | |
JP2012503943A (ja) | モノフォニック対応およびラウドスピーカ対応のバイノーラルフィルタ | |
CN102972047A (zh) | 用于再现立体声的方法和设备 | |
CN113823250B (zh) | 音频播放方法、装置、终端及存储介质 | |
WO2023109278A1 (zh) | 一种伴奏的生成方法、设备及存储介质 | |
CN114067827A (zh) | 一种音频处理方法、装置及存储介质 | |
CN114049871A (zh) | 基于虚拟空间的音频处理方法、装置和计算机设备 | |
Cohen et al. | Spatial soundscape superposition and multimodal interaction | |
CA3044260A1 (en) | Augmented reality platform for navigable, immersive audio experience | |
Klepko | 5-channel microphone array with binaural-head for multichannel reproduction | |
KR20110065972A (ko) | 콘텐츠 적응형 입체음향 구현 방법 및 시스템 | |
Barrett | Spatial music composition | |
Young | Proximity/Infinity | |
Munoz | Space Time Exploration of Musical Instruments | |
Rumsey | Sonification, assistive listening, and soundscapes | |
Nuora | Introduction to sound design for virtual reality games: a look into 3D sound, spatializer plugins and their implementation in Unity game engine | |
US20220122623A1 (en) | Real-Time Voice Timbre Style Transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220602 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220602 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7436664 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |