JP2023503959A

JP2023503959A - リスニングシーンを構築する方法及び関連装置

Info

Publication number: JP2023503959A
Application number: JP2022530306A
Authority: JP
Inventors: ヤン，チェンハイ
Original assignee: テンセントミュージックエンターテイメントテクノロジー（シンチェン）カンパニーリミテッド
Priority date: 2019-11-25
Filing date: 2020-02-10
Publication date: 2023-02-01
Anticipated expiration: 2040-02-10
Also published as: WO2021103314A1; CN110972053B; JP7436664B2; CN110972053A; US20220286781A1

Abstract

本願の実施例は、リスニングシーンを構築する方法及び関連装置を開示し、前記方法は、ターゲットシーンの音特徴を特徴付けるために用いられるターゲットオーディオを確定することと、ターゲットオーディオの音源の位置を確定することと、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することと、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得することと、を含む。本願の実施例によって提供されるリスニングシーンを構築する方法は、ユーザーに没入タイプのリスニング体験を提供し、ユーザーは音楽を聴きながら特殊なシーン要素が耳のあたりを巡っているように感じることができ、ユーザーの臨場感を高める。【選択図】図２

Description

本出願は、中国特許庁に提出された中国特許出願の優先権を主張し、出願日は２０１９年１１月２５日であり、出願番号は２０１９１１１６９２７４．２であり、発明の名称は「リスニングシーンを構築する方法及び関連装置」であり、且つ参照のためその全文を本出願に組み込む。

本出願は、オーディオ処理分野に関し、特にリスニングシーンを構築する方法及び関連装置に関する。

音楽は、人類の現実生活の感情を反映する芸術であり、人の情操を陶冶し、人々の想像力を奮い立たせ、人々の精神生活を豊かにすることができる。電子機器の普及に伴い、いろいろな再生機器を使って音楽を再生することができる。ユーザーのリスニング体験を向上させるために、再生機器には、ユーザーが選択できる様々な音効果要素（ｓｏｕｎｄｅｆｆｅｃｔｅｌｅｍｅｎｔ）が内蔵されており、ユーザーが音楽を再生する時、音楽にいろいろな音効果要素を人為的に追加して特別な再生効果に達する。例えば、再生機器が周杰倫の「稲香」を再生する時、ユーザーは、田園の音効果要素を選んで歌曲に追加して一緒に再生することができる。しかし、再生機器が追加された音効果要素を再生するとき、元の音楽に簡単にミキシングするだけであり、且つ音効果要素が固定されているので、音効果要素によって構築された芸術的な境地をユーザーが感じにくくなり、ユーザーが音楽を聴く時の臨場感及び没入感に影響を及ぼす。

従って、ユーザーが音楽を聴く時、音効果要素を用いてよりリアルなリスニングシーンをどのように構築するかは、当業者が検討している問題である。

本出願の実施例は、リスニングシーンを構築する方法及び関連装置を開示し、ユーザーが音楽を聴く時の臨場感及び没入感を向上させることができる。

第一態様によれば、本出願の実施例は、リスニングシーンを構築する方法を提供する。リスニングシーンを構築する方法は、ターゲットシーンの音特徴を特徴付けるために用いられるターゲットオーディオを確定することと、ターゲットオーディオの音源の位置を確定することと、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することであって、ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、ターゲットオーディが音源の位置からのものであるという効果を生じることができる、獲得することと、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得することと、を含む。

以上から分かるように、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、先ず音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入る時、音源の位置から伝わってくるようになり、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。

第一態様の別の選択的な形態において、ターゲットオーディオは、ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び／又は、ターゲットオーディオは、ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである。

つまり、ターゲット音楽の人の声が出現する前及び終了した後において、ターゲット歌曲は、伴奏のみで人の声がない段階に属し、この段階において、歌曲のタイプ又は歌詞内容全体に基づいてターゲットオーディオを確定することができ、聴取者は、歌曲の伴奏部分で歌曲のスタイル又は歌曲内容にマッチングするオーディオを感じることができる。ターゲット音楽の人の声が出現する部分において、音楽の主な効果は、歌われる歌詞を介して伝えられるので、歌詞の具体的な内容に基づいてターゲットオーディオをマッチングし、このように音楽歌詞を主導とするオーディオマッチング方法は、追加するオーディオがターゲット音楽の内容により合致し、音楽を聴く体験を向上させる。

第一態様の別の選択的な形態において、ターゲットオーディオを確定することは、ターゲットオーディオに対する選択操作を受信して、ターゲットオーディオとして確定することを含む。

以上から分かるように、ミキシングすべきオーディオを選択する時、ユーザーに１つ又は複数のオーディオを提供し、ターゲットオーディオに対する選択操作を受信することにより、ターゲットオーディオとして確定する。つまり、ユーザーは、音楽を聴いているところ、自分の好みに応じてオーディオを自主的に選択して音楽にミキシングすることができ、従って個性的なリスニングシーンを構築し、ユーザーの創作と欲望を奮い立たせ、リスニング体験の面白さを増加させることができる。

第一態様の別の選択的な形態において、ターゲットオーディオの音源の位置を確定することは、複数のタイムノードのターゲットオーディオの音源の位置を確定することを含み、
音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、複数のタイムノードの音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することを含む。

現在のデバイスが音楽を再生して音効果要素を追加する時、音源の位置が固定されており、左耳と右耳で聞こえる内容は同じであり、音の位置は中央にあるか、又は、固定されている。しかし、空間において、音効果要素の音源の位置は、人の耳に対して固定されていることも、変位することもあり得る。本出願の実施例に係わる方法は、ターゲットリスニングシーンを特徴付けるオーディオに対して、予め設定された時間間隔で複数のタイムノードのターゲットオーディオの音源の位置を確定し、複数のタイムノードの音源位置に基づいてターゲットオーディオに対して音像変調を行うことにより、ターゲットオーディオが音源の位置からのものであるという効果を生じさせ、移動軌跡が変化可能であり、ユーザーの臨場感を向上させ、構築されたリスニングシーンがより自然になる。

第一態様の別の選択的な形態において、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
ターゲットオーディオを複数のオーディオフレームに分割することと、
複数のオーディオフレームのタイムノードに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数（ｈｅａｄ-ｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ，ＨＲＴＦ）をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することと、を含む。

以上から分かるように、オーディオ処理効果を向上させるために、頭部伝達関数を用いて音像変調を行う前に、ターゲットオーディオに対してフレーム分割処理を実行することを必要とする。分割されたオーディオフレームに対して頭部伝達関数を畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオが左耳及び右耳で再生される時、聴取者にターゲットオーディオが音源の位置からのものであるという効果を感じさせ、音効果要素をよりリアルに呈する。

第一態様の別の選択的な形態において、複数のオーディオフレームに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
複数のオーディオフレームのうちの１つのオーディオフレームである第一オーディオフレームに対応するタイムノードの音源の第一位置を取得することと、
第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定することであって、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応する、確定することと、
第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得することとを含む。

以上から分かるように、ターゲットオーディオの音源の位置が連続的に変化することができるので、複数のオーディオフレームのうちの第一オーディオフレームに対して、先ず第一オーディオフレームに対応する第一位置を確定し、さらに第一位置に対応する頭部伝達関数を確定し、そして畳み込み処理を行う。頭部伝達関数を畳み込む処理を行ったターゲットオーディオのデュアルチャネルオーディオを聴取者の左耳及び右耳で再生する時、聴取者にターゲット音楽が音源の位置から伝わってくるように感じさせることができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。

第一態様の別の選択的な形態において、第一位置が予め設定された測定点範囲内にない場合、第一位置に基づいて、Ｐ個の測定位置点を確定し、Ｐ個の測定位置点は、予め設定された測定点範囲内にあるＰ個の点であり、Ｐは、１以上の整数であり、
Ｐ個の測定位置点にそれぞれ対応する頭部伝達関数によってフィッティングすることにより、第一位置に対応する第二頭部伝達関数を獲得し、
第一オーディオフレームに対して第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得する。

以上から分かるように、頭部伝達関数は測定点範囲が予め設定されており、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応している。第一位置が測定点範囲内にないと、第一位置に近く、予め設定された範囲内にあるＰ個の測定点を確定し、Ｐ個の測定点に対応する頭部伝達関数によってフィッティングすることにより、第一位置の頭部伝達関数を獲得し、ターゲットオーディオの音像変調効果の正確率を向上させ、ターゲットオーディオの処理過程の効果安定性を強化させることができる。

第一態様の別の選択的な形態において、ターゲットオーディオのデュアルチャネルオーディオは、左チャンネルオーディオ及び右チャンネルオーディオを含み、
ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングすることは、
左チャンネルオーディオの二乗平均平方根（ｒｏｏｔｍｅａｎｓｑｕａｒｅ，ＲＭＳ)値、右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定することと、
変調係数に基づいて、左チャンネルオーディオのＲＭＳ値及び右チャンネルオーディオのＲＭＳ値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得することであって、調整後の左チャンネルオーディオのＲＭＳ値及び調整後の右チャンネルのＲＭＳ値はターゲット音楽のＲＭＳ値より高くないことと、
調整後の左チャンネルオーディオをターゲット音楽の左チャンネルにミキシングして、ターゲット音楽の左チャンネルのレンダリングオーディオとし、調整後の右チャンネルオーディオをターゲット音楽の右チャンネルにミキシングして、ターゲット音楽の右チャンネルのレンダリングオーディオとすることと、を含む。

現在のデバイスが音楽を再生して音効果要素を追加する時、追加する音効果要素の音強度が統一されておらず、一部の音効果要素のラウドネスはとても大きく、データオーバーフローをもたらしやすく、音楽の音を覆う一方、一部の音効果要素のラウドネスはとても小さく、ほとんど感知できず、ユーザーが音楽を聴く体験に影響を与える。本出願の実施例に係わる方法は、ターゲットオーディオを音楽にミキシングする時、先ずターゲット音楽のパワーを変調させ、音楽のラウドネスなどの特徴を変え、音効果要素が元の音楽信号を覆うことを防止し、音効果要素のラウドネスが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、音効果要素を追加したオーディオは、ユーザーが元の音楽を聴取することに影響を及ぼさない。

第一態様の別の選択的な形態において、上述したように、左チャンネルオーディオの二乗平均平方根（ＲＭＳ）値、右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定することは、調整前の左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ１とし、調整前の右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ１とし、ターゲット音楽のＲＭＳ値をＲＭＳ_Ｙとして
ＲＭＳ_Ａ２、ＲＭＳ_Ｂ２及びＲＭＳ_Ｙが以下の関係を満たすように、左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ２に調整し、右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ２に調整することであって、
ＲＭＳ_Ａ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、
ＲＭＳ_Ｂ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、ａｌｐｈａは、予め設定された比率係数であり、０＜ａｌｐｈａ＜１である、調整することと、

第一グループ値を変調係数として確定するとすることと、を含む。

以上から分かるように、ターゲット音楽の左チャンネルオーディオのＲＭＳ値、ターゲット音楽の右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定し、変調係数によってターゲットオーディオのパワーを変調して、ターゲットオーディオの二乗平均平方根値とターゲット音楽の二乗平均平方根値とが所定の比率になるように制御することにより、ターゲットオーディオが過剰に出現せず、従って元の音楽の聴取に影響しない。音効果要素とターゲット音楽との比値であるａｌｐｈａ値の設定は、システムにより予め設定されてもよく又はユーザーにより自ら設定されてもよく、ユーザーは自分の好みに応じて比率係数を設定することができ、従って個性的なリスニング効果を構築し、リスニング体験の面白さを増加させる。

第一態様の別の選択的な形態において、上述したように、左チャンネルオーディオの二乗平均平方根（ＲＭＳ）値、右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定することは、
ＲＭＳ_Ａ３、ＲＭＳ_Ｂ３及びＲＭＳ_Ｙが以下の関係を満たすように、左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ３に調整し、右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ３に調整することであって、
ＲＭＳ_Ａ３＝Ｆ－ＲＭＳ_Ｙであり、Ｆは浮動小数点型で表される数字の最大数であり、
ＲＭＳ_Ｂ３＝Ｆ－ＲＭＳ_Ｙである、調整することと、

第一グループ値は、第二グループ値より小さい。

以上から分かるように、変調係数を確定する時、ミキシング後のレンダリングオーディオのＲＭＳ値がマシン数の値範囲の最大値を超えないようにする必要があり、このように、データオーバーフローを防止する前提下で、ターゲットオーディオのパワーが大きすぎるのでターゲット音楽を覆うことを防止することができ、ターゲットオーディオのパワーが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、ターゲット音楽の主体としての地位を確保する。

第一態様の別の選択的な形態において、ターゲットオーディオを確定した後、ターゲットオーディオの音源の位置を確定する前に、
ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、ターゲットオーディオのサンプリングレートをターゲット音楽のサンプリングレートに変換することをさらに含む。

以上から分かるように、ターゲットオーディオを確定した後、ターゲットオーディオとターゲット音楽のサンプリングレートとが同じではない場合、音効果要素のサンプリングレートをターゲット音楽のサンプリングレートに変換することにより、ミキシング時により自然に聞こえる。

第二態様によれば、本出願の実施例は、リスニングシーンを構築する装置を提供する。リスニングシーンを構築する装置は、オーディオ選択ユニット、位置確定ユニット、音像変調ユニット及びオーディオレンダリングユニットを含み、
オーディオ選択ユニットは、ターゲットオーディオを確定するために用いられ、ターゲットオーディオはターゲットシーンにおける音特徴を特徴付けるために用いられ、
位置確定ユニットは、ターゲットオーディオの音源の位置を確定するために用いられ、
音像変調ユニットは、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、ターゲットオーディが音源の位置からのものであるという効果を生じることができ、
オーディオレンダリングユニットは、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得するために用いられる。

以上から分かるように、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、先ず音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入る時、音源の位置から伝わってくるようになり、音効果要素がよりリアルなリスニングシーンを構築することができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。

第二態様の別の選択的な形態において、ターゲットオーディオは、ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び／又は、ターゲットオーディオは、ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである。

つまり、ターゲット音楽の人の声が出現する前及び終了した後において、ターゲット歌曲は、伴奏のみで人の声がない段階に属し、この段階において、歌曲のタイプ又は歌詞内容全体に基づいてターゲットオーディオを確定することができ、聴取者は、歌曲の伴奏部分において、歌曲のスタイル又は歌曲内容にマッチングするオーディオを感じることができる。ターゲット音楽の人の声が出現する部分において、音楽の主な効果は、歌われる歌詞を介して伝えられるので、歌詞の具体的な内容に基づいてターゲットオーディオをマッチングし、このように音楽歌詞を主導とするオーディオマッチング方法は、追加するオーディオがターゲット音楽の内容により合致し、音楽を聴く体験を向上させる。

第二態様の別の選択的な形態において、オーディオ選択ユニットは、ターゲットオーディオを確定するために用いられ、具体的には、
ターゲットオーディオに対する選択操作を受信して、選択操作により指定されたオーディオをターゲットオーディオとして確定する。

以上から分かるように、ミキシングすべきオーディオを選択する時、ユーザーに１つ又は複数のオーディオを提供し、ターゲットオーディオに対する選択操作を受信することにより、ターゲットオーディオとして確定する。つまり、ユーザーは、音楽を聴いているところ、自分の好みに応じてオーディオを自主的に選択して音楽にミキシングすることができ、従って個性的なリスニングシーンを構築し、ユーザーの創作と欲望を奮い立たせ、リスニング体体験の面白さを増加させることができる。

第二態様の別の選択的な形態において、位置確定ユニットは、ターゲットオーディオの音源の位置を確定するために用いられ、具体的には、複数のタイムノードのターゲットオーディオの音源の位置を確定する。
音像変調ユニットは、音源の位置に基づいてターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、複数のタイムノードの音源の位置に基づいてターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。

現在のデバイスが音楽を再生して音効果要素を追加する時、音源の位置が固定されており、左耳と右耳で聞こえる内容は同じであり、音の位置は中央にあるか、又は、固定されている。しかし、空間において、音効果要素の音源の位置は、人の耳に対して固定されているか、又は変位することができる。本出願の実施例に係わる装置は、ターゲットリスニングシーンを特徴付けるオーディオに対して、予め設定された時間間隔で複数のタイムノードのターゲットオーディオの音源の位置を確定し、複数のタイムノードの音源位置に基づいてターゲットオーディオに対して音像変調を行うことにより、ターゲットオーディオが音源の位置からのものであるという効果を生じさせ、移動軌跡が変化可能であり、ユーザーの臨場感を向上させ、構築されたリスニングシーンがより自然になる。

第二態様の別の選択的な形態において、音像変調ユニットは、
ターゲットオーディオを複数のオーディオフレームに分割するフレーム分割サブユニットと、
複数のオーディオフレームのタイムノードに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数（ｈｅａｄ-ｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ，ＨＲＴＦ）をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる音像生成サブユニットと、を含む。

以上から分かるように、オーディオ処理効果を向上させるために、頭部伝達関数を用いて音像変調を行う前に、ターゲットオーディオに対してフレーム分割処理を実行することを必要とする。分割されたオーディオフレームに対して頭部伝達関数を畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオが左耳及び右耳で再生される時、ユーザーにターゲットオーディオが音源の位置からのものであるという効果を感じさせ、音効果要素をよりリアルに呈する。

第二態様の別の選択的な形態において、音像生成サブユニットは、フレーム位置マッチングサブユニット、位置測定サブユニット及び畳み込みサブユニットを含み、
フレーム位置マッチングサブユニットは、複数のオーディオフレームのうちの１つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得するために用いられ、
位置測定サブユニットは、第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定するために用いられ、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応し、
畳み込みサブユニットは、第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。

第二態様の別の選択的な形態において、位置測定サブユニットは、さらに、第一位置が予め設定された測定点範囲内にない場合に、第一位置に基づいてＰ個の測定位置点を確定するために用いられ、Ｐ個の測定位置点は予め設定された測定点範囲内にあるＰ個の点であり、Ｐは、１以上の整数であり、
前記装置は、
Ｐ個の測定位置点に対応する頭部伝達関数によってフィッティングすることにより第一位置に対応する第二頭部伝達関数を獲得するために用いられる位置フィッティングサブユニットをさらに含み、
畳み込みサブユニットは、さらに、第一オーディオフレームに対して第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。

以上から分かるように、頭部伝達関数は測定点範囲が予め設定されており、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応している。第一位置が測定点範囲内にないと、第一位置の近く、予め設定された範囲内にあるＰ個の測定点を確定し、Ｐ個の測定点に対応する頭部伝達関数によってフィッティングすることにより、第一位置の頭部伝達関数を獲得し、ターゲットオーディオの音像変調効果の正確率を向上させ、ターゲットオーディオの処理過程の効果安定性を強化させることができる。

第二態様の別の選択的な形態において、オーディオレンダリングユニットは、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得するために用いられ、具体的には、
変調係数確定サブユニットは、左チャンネルオーディオの二乗平均平方根（ｒｏｏｔｍｅａｎｓｑｕａｒｅ，ＲＭＳ)値、右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定するために用いられ、
調整サブユニットは、変調係数に基づいて、左チャンネルオーディオのＲＭＳ値及び右チャンネルオーディオのＲＭＳ値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得するために用いられ、調整後の左チャンネルオーディオのＲＭＳ値及び調整後の右チャンネルのＲＭＳ値は、ターゲット音楽のＲＭＳ値より高くなく、
ミキシングサブユニットは、調整後の左チャンネルオーディオをターゲット音楽の左チャンネルにミキシングして、ターゲット音楽の左チャンネルのレンダリングオーディオとし、調整後の右チャンネルオーディオをターゲット音楽の右チャンネルにミキシングして、ターゲット音楽の右チャンネルのレンダリングオーディオとするために用いられる。

現在のデバイスが音楽を再生して音効果要素を追加する時、追加する音効果要素の音強度が統一されておらず、一部の音効果要素のラウドネスはとても大きく、データオーバーフローをもたらしやすく、音楽の音を覆う一方、一部の音効果要素のラウドネスはとても小さく、ほとんど感知できず、ユーザーが音楽を聴く体験に影響を与える。本出願の実施例に係わる装置は、ターゲットオーディオを音楽にミキシングする時、先ずターゲット音楽のパワーを変調させ、音楽のラウドネスなどの特徴を変え、音効果要素が元の音楽信号を覆うことを防止し、音効果要素のラウドネスが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、音効果要素を追加したオーディオは、ユーザーが元の音楽を聴取することに影響を及ぼさない。

第二態様の別の選択的な形態において、左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ１とし、右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ１とし、ターゲット音楽のＲＭＳ値をＲＭＳ_Ｙとして、変調係数確定サブユニットは、左チャンネルオーディオの二乗平均平方根（ＲＭＳ）値、右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定するために用いられ、具体的には、
ＲＭＳ_Ａ２、ＲＭＳ_Ｂ２及びＲＭＳ_Ｙが以下の関係を満たすように、左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ２に調整し、右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ２に調整し、
ＲＭＳ_Ａ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、
ＲＭＳ_Ｂ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、ａｌｐｈａは、予め設定された比率係数であり、０＜ａｌｐｈａ＜１であり、

第一グループ値を変調係数として確定する。

以上から分かるように、ターゲット音楽の左チャンネルオーディオのＲＭＳ値、ターゲット音楽の右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定し、変調係数によってターゲットオーディオのパワーを変調させ、ターゲットオーディオの二乗平均平方根値とターゲット音楽の二乗平均平方根値とが所定の比率になるように制御することにより、ターゲットオーディオが過剰に出現せず、従って元の音楽の聴取に影響しない。音効果要素とターゲット音楽との比値であるａｌｐｈａ値の設定は、システムにより予め設定されてもよく又はユーザーにより自ら設定されてもよく、ユーザーは自分の好みに応じて比率係数を設定することができ、従って個性的なリスニング効果を構築し、音楽聴取体験の面白さを増加させる。

第二態様の別の選択的な形態において、変調係数確定サブユニットは、さらに、
ＲＭＳ_Ａ３、ＲＭＳ_Ｂ３及びＲＭＳ_Ｙが以下の関係を満たすように、左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ３に調整し、右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ３に調整し、
ＲＭＳ_Ａ３＝Ｆ－ＲＭＳ_Ｙであり、Ｆは浮動小数点型で表される数字の最大数であり、
ＲＭＳ_Ｂ３＝Ｆ－ＲＭＳ_Ｙであり、

第一グループ値は、第二グループ値より小さい。

以上から分かるように、変調係数を確定する時、ミキシング後のレンダリングオーディオのＲＭＳ値がマシン数の値範囲の最大値を超えないようにする必要があり、このように、データオーバーフローを防止する前提下で、ターゲットオーディオのパワーが大きすぎるのでターゲット音楽を覆うことを防止することができ、ターゲットオーディオのパワーが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、ターゲット音楽のメインステータスを確保する。

第二態様の別の選択的な形態において、装置は、オーディオ選択ユニットがターゲットオーディオを確定した後、位置確定ユニットがターゲットオーディオの音源の位置を確定する前に、ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、ターゲットオーディオのサンプリングレートをターゲット音楽のサンプリングレートに変換するために用いられるサンプリングレート変換ユニットをさらに含む。

第三態様によれば、本出願の実施例は、リスニングシーンを構築する装置を提供し、プロセッサ及びメモリを含み、メモリはコンピュータプログラムを格納するために用いられ、プロセッサは、コンピュータプログラムを呼び出して、請求項１～１１のいずれか一項に記載された方法を実行するために用いられることを特徴とする。

第四態様によれば、本出願の実施例は、コンピュータプログラムを含むコンピュータ記憶媒体を提供し、コンピュータプログラムが電子機器で実行されると、電子機器に本出願の実施例の第一態様又は第一態様のいずれかの実現形態に係わる方法を実行させる。

第五態様によれば、本出願の実施例は、コンピュータプログラム製品を提供し、コンピュータプログラム製品が電子機器で実行されると、電子機器に本出願の実施例の第一態様又は第一態様のいずれかの実現形態に係わる方法を実行させる。

上述した、第二態様のリスニングシーンを構築する装置、第三態様のリスニングシーンを構築する装置、第四態様のコンピュータ記憶媒体、及び第五態様のコンピュータプログラム製品は、第一態様の音楽可視化方法を実行するために用いられ、従って、実現できる有益な効果は、第一態様のリスニングシーンを構築する方法の有益な効果を参照することができ、ここでは詳しく説明しない。

本出願の実施例又は従来技術における技術的解決手段をより明瞭に説明するために、以下、本出願の実施例又は背景技術で使用される図面を簡単に紹介する。
図１は、本出願の実施例によって提供される仮想リスニングシーンを構築する方法のシーン概略図である。図２は、本出願の実施例によって提供される仮想リスニングシーンを構築する方法のフローチャートである。図３は、本出願の実施例によって提供されるターゲットオーディオ確定方法の概略図である。図４は、本出願の実施例によって提供される別のターゲットオーディオ確定方法の概略図である。図５は、本出願の実施例によって提供される別のターゲットオーディオ確定方法の概略図である。図６は、本出願の実施例によって提供される音源の位置の概略図である。図７は、本出願の実施例によって提供される別の音源の位置の概略図である。図８は、本出願の実施例によって提供される可能なフレーム分割処理方法の概略図である。図９は、本出願の実施例によって提供されるウィンドウイング（windowing）処理の効果の概略図である。図１０は、本出願の実施例によって提供される別の音源の位置の概略図である。図１１は、本出願の実施例によって提供される二乗平均平方根値を測定することを示す概略図である。図１２は、本出願の実施例によって提供されるオーディオのミキシング時間を確定する方法の概略図である。図１３は、本出願の実施例によって提供される別のオーディオのミキシング時間を確定する方法の概略図である。図１４は、本出願の実施例によって提供されるパワー変調方法のフローチャートである。図１５は、本出願の実施例によって提供される別のパワー変調方法のフローチャートである。図１６は、本出願の実施例によって提供される別のオーディオのミキシング時間を確定する方法の概略図である。図１７は、本出願の実施例によって提供されるリスニングシーンを構築する装置の構造を示す概略図である。図１８は、本出願の実施例によって提供される別のリスニングシーンを構築する装置の構造を示す概略図である。

以下、本発明の実施形態の図面を参照して、本発明の実施形態に係わる技術方案を明確且つ詳細に説明する。

本出願の実施例は、ユーザーが音楽を聴く時、ユーザーが音楽を聴く時の臨場感及び没入感を向上させることができる方法を開示する。本出願の実施例において、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、先ず音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入ると、音源の位置から伝わってくるようになり、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。

図１を参照すると、図１は、本出願の実施例によって提供される仮想リスニングシーンを構築する方法のシーン概略図である。前記方法は、コンピュータ、携帯電話などの電子機器によって実現することができる。電子機器が仮想リスニングシーン１０５を構築する方法を実行する過程において、音効果要素のオーディオ１０１、音効果要素に対して音像変調を行って獲得した左チャンネルオーディオ１０２、音効果要素に対して音像変調を行って獲得した右チャンネルオーディオ１０３、元の音楽１０４に対する処理に係わる。

音効果要素のオーディオ１０１は、元の音楽１０４のタイプ又は歌詞に基づいてマッチングされた音効果要素のオーディオであることができ、ユーザーの選択操作を受けて確定された音効果要素のオーディオであることもできる。音効果要素のオーディオは、幾つかのシーンの特徴を特徴付けることができ、例えば、山林のようなシーンの音は、鳥が鳴く音、木の葉が揺れる音で特徴付けることができる。

音効果要素のオーディオ１０１に対して音像変調した後、左チャンネルオーディオ１０２及び右チャンネルオーディオ１０３を獲得する。あるオーディオは、音源が固定されることを必要とする一方、ある音源は所定の移動軌跡を有することを必要とするので、音像変調を行う前に、先ず音効果要素のオーディオにおける音源の位置を確定することを必要とする。例えば、聴取者にとって、シーンにおける木の葉の音は固定されることができるが、鳥の音は、遠くから近くへ、又は左から右へ移動することができるので、予め設定された時間間隔で複数のタイムノードの音源の位置を確定することを必要とする。空間における１つの音源の位置は、三次元座標で表すことができ、例えば［方位角，仰角，距離］の座標で表すことができる。複数のタイムノードの音源の位置を確定した後、音効果要素のオーディオに対してフレーム分割、ウィンドウイング（ｗｉｎｄｏｗｉｎｇ）などの処理を行い、そしてオーディオフレームにおける音源の位置から左右への頭部伝達関数（ｈｅａｄ-ｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ，ＨＲＴＦ) を確定し、オーディオフレームに対して音源位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込み、左チャンネルオーディオ１０２及び右チャンネルオーディオ１０３を獲得する。即ち、シングルチャンネルオーディオに対して音源位置から左耳及び右耳までの伝達関数をそれぞれ畳み込むことにより、両耳オーディオを形成する。左耳及び右耳で左チャンネルオーディオ１０２及び右チャンネルオーディオ１０３を同時に再生する時、聴取者に音効果要素が音源の位置からのものであるという効果を感じさせることができる。

選択的には、音効果要素１０１は、波の音、木の葉の音、流水の音などのようなシーンを特徴付けることができるオーディオファイルであってもよく、ＷＭＡ（ｗｉｎｄｏｗｓｍｅｄｉａａｕｄｉｏ）、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）などのオーディオフォーマットによって格納することができる。以下、ターゲットオーディオは、音効果要素のオーディオである。

元の音楽１０４は、再生可能なオーディオファイルであり、再生時に元の音楽と音効果要素の左チャンネルオーディオ１０２及び右チャンネルオーディオ１０３とをミキシングすることができ、ミキシング後の音楽を左耳及び右耳で再生すると、ユーザーは、再生機器を用いてミキシング後の音楽を再生する時、元の音楽１０４を聴くだけではなく、特殊なシーン要素が耳のあたりを巡っているように感じることができ、まるで本当にリスニングシーン１０６に身を置いているようである。

選択的には、元の音楽１０４は、複数のフォーマットのオーディオファイルであることができ、例えば、ＷＭＡ（ｗｉｎｄｏｗｓｍｅｄｉａａｕｄｉｏ）、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）などのフォーマットのオーディオファイルであることができ、ヘッドホンなどの再生機器などを介して再生することができる。以下、ターゲット音楽は、元の音楽である。選択的には、前記電子機器は、ミキシング後の音楽を再生するための再生機器として機能してもよい。この場合、再生機器は、電子機器に集積された再生モジュールであり、電子機器は、計算能力を有するスマートイヤホンなどの機器であることができる。選択的には、電子機器は、有線インタフェース、無線インタフェース（例えば、ＷＩＦＩインタフェース、ブルートゥースインタフェース）などを介して再生機器にミキシング後の音楽を送信することができ、再生機器はミキシング後の音楽を再生するために用いられる。この場合、電子機器は、サーバ（又はサーバクラスター）、ホストコンピューターなどの電子機器であることができ、再生機器は、ブルートゥースイヤホン、有線イヤホンなどの機器であることができる。

つまり、リスニングシーン１０６は、いくつかの特殊な音効果セグメントを追加したり、音効果をレンダリングしたりすることによって、聴取者に独特な仮想リスニング環境を感じさせることができる。通常のリスニングシーンは、主に海辺、窓際、郊外などがあり、これらのシーンは、いくつかの音効果要素を追加することによって作り出すことができる。

図２を参照すると、図２は、本出願の実施例によって提供されるリスニングシーンを構築する方法のフローチャートである。前記方法は、下記のステップを含むことができる。

Ｓ２０１：電子機器は、ターゲットオーディオを確定する。

具体的には、電子機器は、携帯電話やコンピュータなどの演算能力を有する機器であることができ、ターゲットオーディオは、ターゲット音楽にミキシングされる音効果要素のオーディオであり、ターゲット音楽は、歌曲や録音などの音楽ファイルであることができる。電子機器は、以下の選択可能な方式によってターゲットオーディオを確定することができる。

方式１：ターゲット音楽のタイプ情報によってターゲットオーディオを確定する。電子機器は、ターゲット音楽のタイプ情報又はターゲット音楽のタイプ情報のラベルを予め格納することができ、又は、電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽のタイプ情報又はタイプ情報のラベルを取得することができる。電子機器は、ターゲット音楽のタイプ情報又はターゲット音楽のタイプ情報のラベルに基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。選択的には、１つの歌曲は、複数のタイプ又は複数のラベルを有することができる。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第一マッチング閾値を予め設定することができる。具体的には、電子機器は、ターゲット音楽のタイプ情報又はタイプ情報ラベルに基づいて１つ又は複数の音効果要素をマッチングし、１つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第一マッチング閾値よりも高い１つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。選択的には、歌曲の人の声が出現する前及び人の声が出現した後（即ち、歌曲に伴奏しかない時期）に、方式１によってターゲットオーディオを確定する。

ケース１：図３を参照すると、図３は、本出願の実施例によって提供される可能なターゲットオーディオ確定方法の概略図であり、ターゲット音楽３０１、歌曲情報３０２及びマッチング情報３０３を含む。ターゲット音楽は、歌手である周杰倫が歌う歌曲「稲香」であることができ、電子機器は、歌曲情報３０２に「稲香」のタイプ情報を予め格納し、即ち、「稲香」は、民謡タイプの歌曲であり、また、ヒップホップタイプにも属し、従って、民謡及びヒップホップのタイプ情報に基づいて複数の音効果要素をマッチングし、複数の音効果要素のマッチングパラメータを獲得する。ターゲットオーディオを確定する時、選択された音効果要素をミキシングする時に不自然ではないことを確保するために、電子機器は、先ず第一マッチング閾値を予め設定することができる。例えば、第一マッチング閾値を７５．０に予め設定すると、マッチングパラメータが７５．０よりも高い音効果要素のみをターゲットオーディオとして確定することができる。選択的には、選択される音効果要素の数を制御するために、電子機器は、選択される音効果要素の数を予め設定することができ、例えば、選択される音効果要素の数を２に予め設定すると、マッチングパラメータが７５．０よりも高い音効果要素のうち、マッチングパラメータが上位２の音効果要素のオーディオをターゲットオーディオとして確定する。図３を参照すると、「稲香」の人の声が出現する前の時期に、「山林の渓流の流水音」と「虫の音」をターゲットオーディオとして確定することができる。「フレッシュパーティクル特殊効果」は第一マッチング閾値未満であるので、ターゲットオーディオとして確定することができなく、「風が木の葉を吹く音」が第一マッチング閾値よりも高いが、２つの音効果要素のみを選択すると予め設定されているので、ターゲットオーディオとして確定することができない。

方式２：ターゲット音楽の歌詞全体によってターゲットオーディオを確定する。電子機器にターゲット音楽の歌詞全体を予め格納することができ、又は電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽の歌詞全体を取得することができる。電子機器は、歌詞全体に基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータを獲得し、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第二マッチング閾値を予め設定することができる。具体的には、電子機器は、テキストマッチングアルゴリズムを用いて、ターゲット音楽の歌詞全体に１つ又は複数の音効果要素をマッチングし、１つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第二マッチング閾値よりも高い１つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。第二マッチング閾値は、第一マッチング閾値と等しくてもよく、等しくなくてもよく、ここでは制限しない。選択的には、歌曲の人の声が出現する前及び人の声が出現した後（即ち、歌曲に伴奏しかない時期）に、方式２によってターゲットオーディオを確定する。

ケース２：電子機器に「稲香」の歌詞全体を予め格納し、ターゲットオーディオを確定する時、「稲香」の歌詞全体に基づいて複数の音効果要素をマッチングし、電子機器は、第二マッチング閾値を７６．０に予め設定すると、マッチングパラメータが７６．０よりも高い音効果要素をターゲットオーディオとして確定することができる。選択的には、選択される音効果要素の数を制御するために、電子機器は、選択される音効果要素の数を予め設定することができ、例えば、選択される音効果要素の数を３に予め設定すると、マッチングパラメータが７５．０よりも高い音効果要素のうち、マッチングパラメータが上位３の音効果要素のオーディオをターゲットオーディオとして確定する。

方式３：ターゲット音楽の歌詞内容によってターゲットオーディオを確定し、ターゲット音楽の歌詞内容は、歌詞の文字、単語、短文又は文などの具体的な内容である。電子機器にターゲット音楽の歌詞内容を予め格納することができ、又は電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽の歌詞内容を取得することができる。電子機器は、歌詞内容に基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータを獲得し、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第三マッチング閾値を予め設定することができる。具体的には、電子機器は、単語分割アルゴリズムによって歌詞を文字、単語、短文などの具体的な内容に分けることができ、テキストマッチングアルゴリズムを利用して、ターゲット音楽の歌詞内容に１つ又は複数の音効果要素をマッチングし、１つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第三マッチング閾値よりも高い１つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。第三マッチング閾値は、第一マッチング閾値又は第二マッチング閾値と等しくてもよく、等しくなくてもよく、ここでは制限しない。選択的には、ターゲット音楽の人の声の歌い段階（即ち、人の声が出現した後及び人の声が終了する前の段階）に、方式３によってターゲットオーディオを確定する。

ケース３：図４を参照すると、図４は、本出願の実施例によって提供される別の可能なターゲットオーディオ確定方法の概略図であり、ターゲット音楽４０１及びマッチング情報４０２を含む。ターゲット音楽は「稲香」であることができ、電子機器は、単語分割アルゴリズムによって「稲香」の歌詞を文字、単語、短文などの具体的な歌詞内容に分け、「稲香」の具体的な歌詞内容に基づいてテキストマッチングを行うことができ、即ち、歌詞の具体的なテキストに基づいて１つ又は複数の音効果要素をマッチングし、１つ又は複数のテキストのそれぞれにマッチングする１つ又は複数の音効果要素のマッチングパラメータを獲得する。ターゲットオーディオを確定する時、「稲香」の人の声の歌い段階は、音楽の本体部分であるので、音効果要素とテキストとが強い関連性を有することを必要とするので、第三マッチング閾値を予め設定することができ、マッチングパラメータが予め設定された第三マッチング閾値よりも高い音効果要素のみをターゲットオーディオとして確定することができる。例えば、マッチングパラメータが８５．０よりも高い音効果要素のオーディオのみをターゲットオーディオとして確定することができる。図４を参照すると、予め設定された第三マッチング閾値が８５．０であると、歌曲「稲香」のうち、歌詞テキストである「梦（中国語）（夢）」にマッチングする音効果要素は「パーティクルライト効果音」及び「マジックフラッシュ効果音」があり、そのうち「マジックフラッシュ効果音」のマッチングパラメータは７９．６だけであるので、そのオーディオをターゲットオーディオとして確定することができない。選択的には、選択される音効果要素の数を予め設定することができ、例えば、選択される音効果要素の数を３に予め設定すると、マッチングパラメータが８５．０よりも高い音効果要素のうち、マッチングパラメータが上位３つの音効果要素のオーディオをターゲットオーディオとして確定する。

方式４：電子機器は、ユーザーに複数の選択可能な音効果要素のオーディオのオプションを提供し、電子機器はユーザーによるターゲットオーディオに対する選択操作を受信し、ターゲットオーディオを確定する。具体的には、電子機器はタッチスクリーンなどの情報入力機器を含み、ユーザーの入力操作を受信し、入力操作が指示するオーディオをターゲットオーディオとして確定する。

ケース４：図５を参照すると、図５は、本出願の実施例によって提供される別のターゲットオーディオ確定方法の概略図である。電子機器にディスプレイスクリーンが設置されており、ディスプレイスクリーンに周杰倫が歌った「稲香」の再生インタフェースが表示されている。ユーザーは、「稲香」の再生中に、音効果要素のオーディオを特徴付けるオプションラベルをクリック又はドラッグすることができ、ミキシングしようとする時間にドラッグすると、ユーザーによって選択された音効果要素のオーディオをターゲットオーディオとして確定する。選択的には、ユーザーは、音効果要素を歌詞の単語又は短文にドラッグすることができ、歌詞に対応する音楽のタイムスタンプは、ユーザーによって選択されたターゲットオーディオのミキシング時間であり、タイムスタンプ（ｔｉｍｅｓｔａｍｐ）は、時間データであり、通常は文字シーケンスであり、歌曲の時間を特徴付けることができる。

Ｓ２０２：ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、電子機器は、ターゲットオーディオのサンプリングレートをターゲット音楽のサンプリングレートに変換する。

具体的には、ターゲットオーディオを確定した後、ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、ミキシング時に不自然に聞こえるので、音効果要素のサンプリングレートをターゲット音楽のサンプリングレートに変換し、ミキシング時により自然に聞こえるようにする必要がある。例えば、ターゲットオーディオのサンプリングレートは４４１００Ｈｚであるが、ターゲット音楽のサンプリングレートは４８０００Ｈｚであると、ターゲットオーディオのサンプリングレートを４８０００Ｈｚに変換することができ、ミキシング時により自然に聞こえるようにする。選択的には、ターゲットオーディオのサンプリングレートを変換するステップを実行しなくてもよい。ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、サンプリングレートを変換せずに、ターゲットオーディオをターゲット音楽にミキシングすると、不自然に聞こえ、ターゲットオーディオによって生成されたシーン効果もターゲット音楽とあまり適しない。

Ｓ２０３：電子機器は、ターゲットオーディオの音源の位置を確定する。

具体的には、空間の任意の音源の位置は、音源の位置パラメータであり、三次元座標で表すことができる。例えば、聴取者にとって、音源の位置は、［方位角，仰角，距離］という３次元座標で表すことができる。異なるシーンにおいて、音源の位置は、固定された位置又は変化する位置であることができ、例えば、虫の音などは、音源の位置が固定された位置であることができるが、波の音、風の音などは、音源の位置が連続的に変化する必要がある。また、例えば、人の声が始まる前、即ち音楽の始まり部分に、ターゲットオーディオの音源の位置は遠くから近くへ変わり、音楽がゆっくり漂ってくる効果を表す。以下の選択可能な方法によって、音源の位置を確定することができる。

方法１：電子機器はターゲットオーディオにおける音源の位置を予め格納する。具体的には、電子機器はターゲットオーディオとターゲットオーディオにおける音源の位置との間の対応関係を予め格納し、電子機器は、ターゲットオーディオを確定した後、ターゲットオーディオ、及びターゲットオーディオと音源の位置との間の対応関係に基づいて音源の位置を確定する。

方法２：電子機器は、ターゲットオーディオを確定する時間に応じて音源の位置を確定する。具体的には、電子機器は、ターゲット音楽の異なる段階の音源の位置を予め格納する。例えば、ターゲットオーディオを確定する時間がターゲット音楽の人の声が始まる前であると、ターゲットオーディオの位置関係は、遠くから近くへ変化することができ、ターゲットオーディオを確定する時間がターゲット音楽の人の声が終了した後であると、ターゲットオーディオの位置関係は、遠くから近くへ変化することができる。

方法３：ユーザーの操作を受信して音源の位置を選択する。具体的には、電子機器は、ユーザーに音源位置の位置範囲、位置オプション、動き速度、動き方向などのオプションを提供することができ、ユーザーの入力操作又は選択操作が指示する音源の位置を受信し、且つターゲットオーディオの音源の位置とする。

選択的には、電子機器は、音源の位置を計算するユニットが統合することができ、異なる音源の位置を模擬することにより、ビッグデータ又は人工知能技術に基づいて、ターゲットオーディオに適する音源の位置を獲得することができる。選択的には、電子機器は、さらに、音源位置を専門的に計算する他の訓練プラットフォームから送信された音源の位置を受信することができる。ここでは繰り返さない。

ターゲットオーディオの音源の位置を確定した後、具体的に位置を生成する時、以下の複数の状況がある。

状況１：ターゲットオーディオの音源の位置が固定されており、固定位置パラメータを用いて表す。例えば、図６を参照すると、図６は、本出願の実施例によって提供される可能な音源の位置の概略図であり、ターゲットオーディオの音源の位置６０１及び聴取者６０２を含み、音源の位置の三次元座標は、［方位角，仰角，距離］で表す。位置６０１は［２０，１６，１．６］を使用し、ターゲットオーディオの音源の位置は、聴取者６０２にとって、方位角が２０°、仰角が１６°、距離が１．６メートルであることを示す。

状況２：図７を参照すると、図７は、本出願の実施例によって提供される位置が変化する音源の位置の概略図であり、ターゲットオーディオの開始位置７０１、終了位置７０２及び聴取者６０２を含み、音源の位置の三次元座標は、［方位角，仰角，距離］で表す。当該ターゲットオーディオの音源は、再生過程で位置７０１から位置７０２へ移動することを必要とる。予め設定された第一時間間隔Ｔ１によって、複数のタイムノードのターゲットオーディオの音源の位置を確定する。例えば、予め設定された第一時間間隔Ｔ１が０．１秒であると、０．１秒間隔毎に音源位置を１回確定する。開始時間に、聴取者６０２にとって、ターゲットオーディオの音源の位置は、方位角が２０°、仰角が１６°、距離が１．６メートルである。開始時間から０．１秒経過した後に、聴取者６０２にとって、ターゲットオーディオの音源の位置は、方位角が２２°、仰角が１５°、距離が１．５メートルであり、このように複数のタイムノードの音源の位置を獲得する。

Ｓ２０４：電子機器は、音源の位置に基づいてターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。

具体的には、音源の位置は、固定された位置又は変化する位置であることができ、音像変調によって、ターゲットオーディオが音源の位置から伝わってくるように聞こえるようにする。電子機器は、複数のタイムノードの各タイムノードでターゲットオーディオに対応する音源の位置に基づいて、ターゲットオーディオに対して別々に音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。音像変調の方法は、頭部伝達関数の畳み込み、又は時間遅延法、位相差法などの音像変調方法であることができる。

１つの最適な方案として、音像変調の効果を可能な限り確保するために、電子機器は、ターゲットオーディオに対して、プリエンファシス処理（ｐｒｅ-ｅｍｐｈａｓｉｓｐｒｏｃｅｓｓｉｎｇ）及び正規化処理（ｎｏｒｍａｌｉｚａｔｉｏｎｐｒｏｃｅｓｓｉｎｇ）を行うことができる。プリエンファシス処理は、オーディオの高周波成分を向上させる処理方式である。実際の過程において、オーディオのパワースペクトルは周波数の増加に伴って減少し、オーディオの大部分のエネルギーは低周波数範囲に集中するので、高周波端でのオーディオの信号対雑音比が許容できない程度に低下する可能性があり、従って、プリエンファシス処理を採用してオーディオの高周波解像度を向上させる。具体的には、ハイパスデジタルフィルターによってプリエンファシス処理を実現することができる。正規化処理は、計算を簡略化する一般的な情報処理方式であり、有次元の処理対象を無次元の処理対象に変換し、処理結果の適用範囲を広げることができる。

ターゲットオーディオに対してプリエンファシス処理及び正規化処理を行ってから、電子機器は、予め設定された第二時間間隔Ｔ２に基づいて、ターゲットオーディオを複数のオーディオフレームに分割する。オーディオ信号は、時間にしたがって変化する信号であり、短い期間内（一般的に１０～３０ｍｓ）に、オーディオ信号はほぼ変化しなく、即ち、オーディオは短時間の安定性を有すると見なす。ターゲットオーディオに対してフレーム分割処理を行うことができ、予め設定された第二時間間隔Ｔ２に基づいて、ターゲットオーディオを複数のオーディオフレーム（分析フレームとも呼ばれる）に分割して処理し、選択的には、オーディオフレームの第二時間間隔を０．１＊Ｆｓに予め設定することができ、Ｆｓは、ターゲットオーディオの現在のサンプリングレートである。

電子機器は、オーディオに対してフレーム分割処理を行ってオーディオの自然度と連続性を破壊してスペクトルの漏れを招く問題を解決するために、ターゲットオーディオに対してフレーム分割処理を行う時、移動可能な有限長さのウィンドウで重み付けを実行する方法、即ち、ウィンドウイング及びフレーム分割処理を採用することができる。フレーム分割処理時、１秒当たりのオーディオフレーム数は、３３～１００フレームであることができ、実際の状況に応じて定める。フレーム分割処理は、連続セグメンテーション（ｃｏｎｔｉｎｕｏｕｓｓｅｇｍｅｎｔａｔｉｏｎ）又はオーバーラッピングセグメンテーション（ｏｖｅｒｌａｐｐｉｎｇｓｅｇｍｅｎｔａｔｉｏｎ）の方法を使用することができる。オーバーラッピングセグメンテーションは、オーディオフレーム間のスムーズな遷移、それらの連続性を維持するために使用される。前のフレームと後のフレームとの重なり部分はフレームシフトと呼ばれ、フレームシフトとフレーム長さの比率は、一般的に０～０．５である。フレーム長さは、１つのオーディオフレームのサンプリングポイントの数又はサンプリング時間である。図８を参照すると、図８は、本出願の実施例によって提供される可能なフレーム分割処理方法の概略図であり、Ｎはフレーム長さであり、Ｍはフレームシフトである。例えば、サンプリングレートが５０ｋＨｚの６秒のＰＣＭオーディオ信号に対して、フレーム長さ３０ｍｓであり、フレームシフト１５ｍｓである場合、オーディオ信号を４０１個のオーディオフレームに分割することができ、各オーディオフレームのサンプリングポイントの数、即ち、サンプル数は１５００である。具体的な実施形態において、長方形ウィンドウ、ハニングウィンドウ（ｈａｎｎｉｎｇｗｉｎｄｏｗ）、三角形ウィンドウなどの語音信号処理に通常使用されるウィンドウ関数を選択して、ウィンドウイング及びフレーム分割処理を行うことができる。例えば、オーディオフレームを分割する第二時間間隔を０．１＊Ｆｓに予め設定することができ、ここでＦｓはターゲットオーディオの現在のサンプリングレートであり、フレームシフトを０．１＊Ｆｓ－２５６に設定し、ハニングウィンドウの長さは５１２である。図９を参照すると、図９は、本出願の実施例によって提供される可能なウィンドウイング処理効果の概略図であり、ウィンドウイング操作は、異なるデータフレームに異なる伝達関数を畳み込む時、信号の不連続性によって生じる雑音を効果的に防止することができ、異なるウィンドウの長さは異なる処理効果を示す。前処理、フレーム分割、ウィンドウイング処理などの処理を経て、ターゲットオーディオの複数のオーディオフレームを獲得することができる。

好ましい実施形態として、電子機器は、複数のオーディオフレームのタイムノードのそれぞれに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得する。

頭部伝達関数（ｈｅａｄｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｓ，ＨＲＴＦ）は、解剖学的伝達関数（ａｎａｔｏｍｉｃａｌｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ，ＡＴＦ）とも呼ばれ、音効果位置決めアルゴリズムであり、両耳間時間遅延（ｉｎｔｅｒａｕｒａｌｔｉｍｅｄｅｌａｙ，ＩＴＤ）、両耳間振幅差（ｉｎｔｅｒａｕｒａｌａｍｐｌｉｔｕｄｅｄｉｆｆｅｒｅｎｃｅ、ＩＡＤ）及び耳介周波数振動などの技術を利用して立体的な音効果を生じさせることができ、音が人の耳の耳介、耳道及び鼓膜に伝達される時、聴取者は、サラウンド音効果を感じ、システムは、耳介、頭型、肩などの要素の影響を受ける。人に音が聞こえるのは音が空間の中で伝播する結果であり、音は音源から人の耳の鼓膜まで伝播する過程において変化が発生し、この変化は人の両耳による音に対するフィルタリングの作用であると見なすことができ、ＨＲＴＦ処理されたオーディオによってこのフィルタリング効果を模擬することができる。つまり、聴取者は、ＨＲＴＦ処理されたオーディオによってオーディオの音源の位置を判断することができる。

電子機器は、頭部伝達関数を畳み込むことによってデュアルチャネルオーディオを合成する時、ターゲットオーディオの音源の位置を測定点とし、頭部伝達関数を畳み込むことによりターゲットオーディオに方位感を与える。例えば、ドイツのケルン大学のＨＲＴＦデータベースを標準伝達関数ライブラリとして、オーディオの音源の位置情報を［方位角，仰角，距離］の３次元位置座標で表し、三次元位置座標をパラメータとして、音源の位置から両耳までのＨＲＴＦ関数を確定し、音源位置から左耳及び右耳までのＨＲＴＦ関数をそれぞれ畳み込み、従ってターゲットオーディオのデュアルチャネルオーディオを形成する。ここで、ドイツのケルン大学のＨＲＴＦデータベースの要求によると、位置のプリセットパラメータ範囲は、方位角度範囲は－９０度～９０度であり、仰角角度範囲は－９０度～９０度であり、距離は０．５メートル～１．５メートルであり、及びファーフィールド距離は１．５メートルより大きい。具体的に処理する時、以下の複数の状況を含むことができる。

状況１：位置が固定される音源の場合、複数のタイムノード内で三次元座標が変化していないと見なすことができる。パラメータがＨＲＴＦ関数ライブラリのプリセットパラメータ範囲内にあると、電子機器は、ターゲットオーディオの音源の位置に基づいて、音源位置の頭部伝達関数を確定し、畳み込み処理を行う。図６を参照すると、図６は、本出願の実施例によって提供される可能な音源の位置の概略図であり、ターゲットオーディオの音源６０１及び聴取者６０２を含む。ドイツのケルン大学のＨＲＴＦデータベースを標準伝達関数ライブラリとして、音源の位置［２０，１６，１．６］を入力し、位置［２０，１６，１．６］がプリセットパラメータ範囲内にあると、位置［２０，１６，１．６］に対応する頭部伝達関数を確定し、便利に説明するために、ここでは第一頭部伝達関数と呼ぶ。ターゲットオーディオの複数のオーディオフレームに対して音源位置から左耳までの第一頭部伝達関数を畳み込むことにより、ターゲットオーディオの左チャンネルオーディオを獲得し、ターゲットオーディオの複数のオーディオフレームに対して音源位置から右耳までの第一頭部伝達関数を畳み込むことにより、ターゲットオーディオの右チャンネルオーディオを獲得する。

状況２：位置が変化する音源の場合、電子機器は、予め設定された時間間隔Ｔによって、複数のタイムノードの音源の位置を確定することができる。パラメータがＨＲＴＦ関数ライブラリのプリセットパラメータ範囲内にあると、電子機器は、ターゲットオーディオの音源の位置に基づいて、複数のタイムノードの音源の位置の頭部伝達関数を確定し、畳み込み処理を行う。図７を参照すると、図７は、本出願の実施例によって提供される位置が変化する音源の位置の概略図であり、ターゲットオーディオの開始位置７０１、終了位置７０２及び聴取者６０２を含む。ターゲットオーディオの音源は、再生過程で、位置７０１から位置７０２へ移動することを必要として、位置７０１と位置７０２との間で複数のタイムノードの音源の位置を確定する。第一オーディオフレームの開始タイムノード又は終了タイムノードに対応する音源の位置に基づいて、音源の位置から左耳及び右耳までの頭部伝達関数を確定し、第一オーディオフレームに対して頭部伝達関数を畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオフレームを獲得する。例えば、ドイツのケルン大学のＨＲＴＦデータベースを標準伝達関数ライブラリとして、第一オーディオフレームに対応するタイムノードの音源の位置［２０，１６，１．６］を入力し、位置［２０，１６，１．６］がプリセットパラメータ範囲内にあると、位置［２０，１６，１．６］から左耳及び右耳までの頭部伝達関数を確定する。ターゲットオーディオの第一オーディオフレームに対して音源位置から左耳までの頭部伝達関数を畳み込むことにより、第一オーディオフレームの左チャンネルオーディオを獲得し、ターゲットオーディオの第一オーディオフレームに対して音源位置から右耳までの頭部伝達関数を畳み込むことにより、第一オーディオフレームの右チャンネルオーディオを獲得する。同様に、ターゲットオーディオの複数のオーディオフレームに対して相対位置の頭部伝達関数を畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得する。

状況３：状況１又は状況２の音源の位置を確定する時、第一位置の位置がＨＲＴＦ関数ライブラリのプリセットパラメータ範囲内にないと、電子機器は、第一位置の周りのＰ個の位置点を確定し、Ｐ個の位置点に対応する頭部伝達関数によってフィッティングすることにより、第一位置に対応する頭部伝達関数を獲得することができる。便利に説明するために、ここで得られた頭部伝達関数を第二頭部伝達関数と呼ぶ。Ｐは、１以上の整数である。図１０を参照すると、図１０は、本出願の実施例によって提供される別の可能な音源の位置の概略図であり、ターゲットオーディオの第一位置１００１、第二位置１００２、第三位置１００３、第四位置１００４及び聴取者１００５を含む。電子機器がオーディオフレームに対して頭部伝達関数を畳み込む時、選択された第一位置１００１がＨＲＴＦのプリセットパラメータ範囲内にないと、１００２に近いＰ個の測定点を確定する。例えば、Ｐ値が３であると予め設定し、第一位置に最も近い３つの測定点、即ち第二位置１００２、第三位置１００３及び第四位置１００４を確定し、３つの測定点の位置がいずれもＨＲＴＦ関数ライブラリのプリセットパラメータ範囲内にあり、３つの測定点に対応する頭部伝達関数によってフィッティングすることにより、第一位置に対応する第二頭部伝達関数を獲得する。選択的には、３つの測定点から第一位置までの距離重みを介して、３個の測定点に対応する頭部伝達関数をフィッティングすることにより、第一位置に対応する頭部伝達関数を獲得する。

Ｓ２０５：電子機器は、ターゲットオーディオのデュアルチャネルオーディオのパワーを変調する。

具体的には、ターゲットオーディオがターゲット音楽のリスニング体験に大きい影響を及ぼさないように、電子機器は、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングする前に、ターゲットオーディオに対してパワー変調を行うことができ、即ちターゲットオーディオのパワーを下げて、ターゲットオーディオのパワーがターゲット音楽のパワーより低いようにする。なお、デュアルチャネルオーディオのパワーを変調することは、好ましい実施例に過ぎず、ユーザ体験を向上させるための選択可能な方案である。電子機器は、ターゲットオーディオのデュアルチャネルオーディオのパワーを変調する前に、ターゲットオーディオをターゲット音楽にレンダリングする時間を確定することを必要として、即ちターゲットオーディオのミキシング時間を確定する。ターゲットオーディオのミキシング時間を確定することは、以下の複数の選択的な方案がある。

方法１：電子機器は、ターゲットオーディオのミキシング時間を予め設定する。選択的には、電子機器は、ターゲットオーディオをターゲット音楽にレンダリングする時、ターゲットオーディオを複数回ミキシングすることができ、又は予め設定された第三時間間隔Ｔ３によって循環的に出現することができる。図１２を参照すると、図１２は、本出願の実施例によって提供される可能なオーディオのミキシング時間を確定する方法の概略図であり、ターゲットオーディオ１２０１及びターゲット音楽１２０２を含む。ターゲットオーディオをミキシングする時、ターゲットオーディオの長さが６ｓであり、予め設定された１回目のミキシングの時間が５ｓであり、予め設定された第三時間間隔Ｔ３が７ｓであると、ターゲットオーディオの１回目のミキシング時間はターゲット音楽の第５ｓ目であり、第１１ｓ目にターゲットオーディオのミキシングを終了し、２回目のミキシング時間はターゲット音楽の第１８ｓ目であることを示す。選択的には、方式１及び方式２によって確定されたターゲットオーディオは、ターゲットオーディオの１回目のミキシング時間を予め設定する方案でミキシングすることができる。例えば、ケース１において、歌曲「稲香」を再生する時、田野環境を特徴付けることができる花草虫鳥の音を第５ｓ目にミキシングするように予め設定し、「稲香」を田野環境で再生するシーンの効果を作り出す。

方法２：電子機器は、歌詞のタイムスタンプに基づいてターゲットオーディオのミキシング時間を確定する。例えば、電子機器は、方式２によってターゲットオーディオを確定し、ターゲットオーディオをマッチングする時に歌詞によってマッチングするので、マッチングした歌詞が歌い始められるタイムスタンプは、ターゲットオーディオのミキシング時間である。図１３を参照すると、図１３は、本出願の実施例によって提供される別の可能なオーディオのミキシング時間を確定する方法の概略図であり、ターゲットオーディオ１３０１及びターゲット音楽１３０２を含み、ターゲットオーディオ１３０１は、ｔ５～ｔ６の間に歌われる歌詞に基づいてマッチングして確定されたオーディオである。例えば、図４を参照すると、ケース３において、「稻香」（中国語）（日本語の稲香に対応する）という歌詞に基づいてマッチングされた「田野の花草虫鳥の音」をターゲットオーディオとして確定した後、ミキシング時間は、「稻香」（中国語）という歌詞が歌い始められるタイムスタンプである。

方法３：電子機器は、ユーザーの選択又は入力動作を受信し、選択又は入力動作により指示された時間をターゲットオーディオのミキシング時間として確定する。例えば、図５を参照すると、ケース４において、ユーザーが「虫の音」を歌詞の「蛍火虫（中国語）」にドラッグすると、「蛍火虫」という歌詞が歌い始められる時間をオーディオのミキシング時間とする。

電子機器は、ターゲットオーディオのミキシング時間を確定した後、オーディオのミキシング時間に基づいてオーディオに対してパワー変調を行うことができる。選択的には、統一された時間に複数のオーディオをミキシングすることを必要とすると、電子機器は、複数のオーディオのパワーを比率によって下げて、最後に出力する全体パワーが所定のパワー閾値を超えないようにすることができる。オーディオ信号は、ランダムな信号であるので、オーディオ信号のパワーは、二乗平均平方根値（ｒｏｏｔｍｅａｍｓｑｕａｒｅ，ＲＭＳ）で表すことができ、オーディオ信号のピークと同じ振幅の正弦波信号の測定結果であり、平均値に近く、オーディオの発熱エネルギーを表す。二乗平均平方根値は、実効値（ｅｆｆｅｃｔｉｖｅｖａｌｕｅ）とも呼ばれ、その計算方法は、先ず二乗し、次に平均化し、それから平方根を求める。図１１を参照すると、図１１は、本出願の実施例によって提供される二乗平均平方根値を測定することを示す概略図であり、オーディオ信号の下で、１．００ＶのオーディオＣＨ１の二乗平均平方根値が５１３．０ｍＶであることを示す。ターゲットオーディオに対してパワー変調を実行すると、音効果要素のラウドネスが大きすぎるので音楽信号を覆うことを防止することができ、音効果要素のラウドネスが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、以下のいくつかの方法でパワーを変調することができる。

方法１：第一変調係数を確定し、ターゲットオーディオをターゲット音楽のＲＭＳ値のａｌｐｈａ倍に変調し、ａｌｐｈａは、予め設定されたパラメータ又は受信されたユーザーの入力操作により指示されたパラメータであり、０＜ａｌｐｈａ＜１である。図１４を参照すると、図１４は、本出願の実施例によって提供されるパワー変調方法のフローチャートであり、主に以下のステップを含む。

Ｓ１４１１：ターゲットオーディオの左チャンネルオーディオＲＭＳ_Ａ１、ターゲットオーディオの右チャンネルオーディオＲＭＳ_Ｂ１、ターゲット音楽のオーディオＲＭＳ_Ｙを計算する。

具体的には、ターゲットオーディオの左チャンネルオーディオ及び右チャンネルオーディオは、畳み込み関数によって処理されるので、オーディオを変調する時、シングルチャンネルのパワーをそれぞれ計算する必要がある。

Ｓ１４１２：計算パラメータａｌｐｈａを取得する。

Ｓ１４１３：ＲＭＳ_Ａ２＝ａｌｐｈａ＊ＲＭＳ_Ｙを満たすために、左チャンネルオーディオをＲＭＳ_Ａ２と設定する。

Ｓ１４１４：ＲＭＳ_Ａ２とＲＭＳ_Ａ１との比を第一左チャンネル変調係数Ｍ_Ａ１とする。

Ｓ１４１５：ＲＭＳ_Ｂ２＝ａｌｐｈａ＊ＲＭＳ_Ｙを満たすために、右チャンネルオーディオをＲＭＳ_Ｂ２と設定する。

Ｓ１４１６：ＲＭＳ_Ｂ２とＲＭＳ_Ｂ１との比を第一右チャンネル変調係数Ｍ_Ｂ１とする。

Ｓ１４１７：Ｍ_Ａ１とＭ_Ｂ１のうちの小さい値を第一変調係数Ｍ_１として、ターゲットオーディオの左チャンネルオーディオ及び右チャンネルオーディオのＲＭＳ値をそれぞれＭ_１＊ＲＭＳ_Ａ１及びＭ_１＊ＲＭＳ_Ｂ１に調整する。

具体的には、Ｍ_Ａ１とＭ_Ｂ１のうちの小さい値を第一変調係数Ｍ_１として、即ち、
Ｍ＿１＝ｍｉｎ（Ｍ＿Ａ１，Ｍ＿Ｂ１）である。

ターゲットオーディオは畳み込み関数によって処理されるので、デュアルチャネルの音像変調効果を変更せずに維持するために、左右の２つのチャンネルの振幅変調に１つの変調係数を共用することを必要とするので、Ｍ_Ａ１とＭ_Ｂ１のうちの小さい値を第一変調係数Ｍ_１とする。

選択的には、方式１で変調する時、変調後のターゲットオーディオがターゲット音楽にミキシングされた後、得られたミキシングされたオーディオの二乗平均平方根値がマシン数の値範囲を超える場合、ターゲットオーディオのパワーを下げる必要があり、そうでなければ、データオーバーフローをもたらす。図１４に示された方法において、システムがａｌｐｈａを０．５に予め設定した場合、第一変調係数によって変調されたターゲット音楽のＲＭＳ値はターゲット音楽のＲＭＳ値より６ｄＢ少なく、効果音要素が過剰に出現せず、従って元の音楽の聴取に影響しないことを確保する。

方法２：第二変調係数を確定し、ターゲットオーディオのＲＭＳ値を変調し、ターゲット音楽のＲＭＳ値とターゲットオーディオのＲＭＳ値との合計がマシン数の値範囲の最大値を超えないようにする。変調によって、ターゲットオーディオのＲＭＳ値は常にターゲット音楽のＲＭＳ値より小さい。図１５を参照すると、図１５は、本出願の実施例によって提供される別の可能なパワー変調方法のフローチャートであり、Ｆは、マシン数の値範囲の最大値であり、主に以下のステップを含む。

Ｓ１５２１：ターゲットオーディオの左チャンネルオーディオＲＭＳ_Ａ１、ターゲットオーディオの右チャンネルオーディオＲＭＳ_Ｂ１、ターゲット音楽のオーディオＲＭＳ_Ｙを計算する。

Ｓ１５２２：ＲＭＳ_Ａ３＝Ｆ－ＲＭＳ_Ｙを満たすために、左チャンネルオーディオをＲＭＳ_Ａ３と設定する。

Ｓ１５２３：ＲＭＳ_Ａ３とＲＭＳ_Ａ１との比を第二左チャンネル変調係数Ｍ_Ａ２とする。

Ｓ１５２４：ＲＭＳ_Ｂ３＝Ｆ－ＲＭＳ_Ｙを満たすように、チャンネルオーディオをＲＭＳ_Ｂ３と設定する。

Ｓ１５２５：ＲＭＳ_Ｂ３とＲＭＳ_Ｂ１との比を第二右チャンネル変調係数Ｍ_Ｂ２とする。

Ｓ１５２６：Ｍ_Ａ２とＭ_Ｂ２のうちの小さい値を第二変調係数Ｍ_２として、ターゲットオーディオの左チャンネルオーディオ及び右チャンネルオーディオのＲＭＳ値をそれぞれＭ_２＊ＲＭＳ_Ａ１及びＭ_２＊ＲＭＳ_Ｂ１に調整する。

図１５に示された方法において、電子機器は、第二変調係数によって、ターゲット音楽のＲＭＳ値とターゲットオーディオのＲＭＳ値との合計がマシン数の値範囲の最大値を超えないようにすることができる。この変調方法は、データオーバーフローを防止した上で、音効果要素が過剰に出現せず、従って元の音楽の聴取に大きく影響しないことを確保する。

方法３：第三変調係数を確定し、ターゲットオーディオのＲＭＳ値を変調することにより、ターゲットオーディオのＲＭＳ値がターゲット音楽のＲＭＳ値より小さくなるようにする。第三変調係数は、その他の方式で確定することができ、ターゲット音楽のＲＭＳ値を変調するために用いられ、例えば、第一変調係数と第二変調係数のうちの小さい値を第三変調係数として、即ち、第一変調係数の値が第二変調係数の値より小さい場合、第一変調係数を変調係数として確定し、ターゲットオーディオのＲＭＳ値を変調するために用いられ、ターゲットオーディオのＲＭＳ値がターゲット音楽のＲＭＳ値より小さくなるようにする。同様に、第二変調係数の値が第一変調係数の値より小さい場合、第二変調係数を変調係数として確定し、ターゲットオーディオのＲＭＳ値を変調するために用いられ、ターゲットオーディオのＲＭＳ値がターゲット音楽のＲＭＳ値より小さくなるようにする。この変調方法は、データオーバーフローを防止することを前提として、できるだけ効果音データと音楽データとのＲＭＳ比率関係を変化しないように確保することができ、ターゲットオーディオのパワーが大きすぎるのでターゲット音楽を覆うことを防止することができ、ターゲットオーディオのパワーが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、ターゲット音楽の主体としての地位を確保する。

選択的には、音楽はリアルタイムに再生されるので、様々な音効果要素のオーディオを使用して、リスニングシーンを構築することができる。図１６を参照すると、図１６は、本出願の実施例によって提供される別のオーディオのミキシング時間を確定する方法の概略図であり、第一オーディオ１６０１、第二オーディオ１６０２及びターゲット音楽１６０３を含む。第二オーディオ１６０２のミキシング時間は、ｔ７～ｔ９の期間であり、ｔ７～ｔ９の間のｔ８で、第一オーディオをミキシングすることを必要とする。同じ時間に複数のオーディオをミキシングすることを必要とする場合、複数のオーディオに対して重み付け平均調整法のミキシング操作を行い、且つミキシング操作後のオーディオに対してパワーを変調することにより、ミキシング後のオーディオのＲＭＳ値がターゲット音楽のＲＭＳ値より小さくなるようにする。

Ｓ２０６：電子機器は、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得する。

具体的には、電子機器は、ステップＳ２０６において確定されたターゲットオーディオのミキシング時間に基づいて、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にミキシングして、ミキシング後の音楽を獲得し、再生機器がミキシング後の音楽を再生する時、聴取者は、ターゲット音楽がターゲットシーンで再生される効果を感じることができる。

選択的には、電子機器は、ミキシング後の音楽を再生するための再生機器として機能してもよい。この場合、再生機器は、電子機器に集積された再生モジュールであり、電子機器は、計算能力を有するスマートイヤホンなどの機器であることができる。選択的には、電子機器は、有線インタフェース、無線インタフェース（例えばＷＩＦＩインタフェース、ブルートゥースインタフェース）などを介して再生機器にミキシング後の音楽を送信することができ、再生機器はミキシング後の音楽を再生するために用いられる。この場合、電子機器は、サーバ（又はサーバクラスター）、ホストコンピューターなどの電子機器であることができ、再生機器は、ブルートゥースイヤホン、有線イヤホンなどの機器であることができる。

例えば、電子機器は、歌曲「稲香」をターゲット音楽とし、田野をターゲットシーンとし、「田野の花草虫鳥の音」、「渓流の流水音」、「フラッシュ特殊効果音」を田野のシーンを代表するターゲットオーディオとして、ターゲットオーディオにおける音源の位置を確定した後、ターゲットオーディオに対して畳み込み処理、パワー変調などの操作を行い、ターゲットオーディオのミキシング時間によって、ターゲットオーディオを「稲香」のオーディオにミキシングすることにより、ミキシングオーディオを獲得する。ミキシングオーディオはイヤホン接続インタフェースを介してヘッドホンに送信することによって、聴取者は、ヘッドホンで「稲香」を聞く時、音効果要素が耳のあたりを巡っているように感じ、田野に身を置いて稲の香りを嗅いでいるようなものである。

図２に示された方法において、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、電子機器は、先ずオーディオの音源の位置を確定し、音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入る時、音源の位置から伝わってくるようになり、音効果要素がよりリアルなリスニングシーンを構築することができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。

以上、本出願の実施例の方法について詳細に説明し、以下、本出願の実施例の装置を提供する。

図１７を参照すると、図１７は、本出願の実施例によって提供されるリスニングシーンを構築する装置１７０の構造を示す概略図である。サーバ１７０は、オーディオ選択ユニット１７０１、位置確定ユニット１７０２、音像変調ユニット１７０３及びオーディオレンダリングユニット１７０４を含むことができ、各ユニットの詳細説明は、以下のとおりである。

オーディオ選択ユニット１７０１は、ターゲットオーディオを確定するために用いられ、ターゲットオーディオはターゲットシーンにおける音特徴を特徴付けるために用いられる。位置確定ユニット１７０２は、ターゲットオーディオの音源の位置を確定するために用いられる。音像変調ユニット１７０３は、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、ターゲットオーディが音源の位置からのものであるという効果を生じることができる。オーディオレンダリングユニット１７０４は、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得するために用いられる。

別の選択的な方案において、ターゲット音楽の人の声部分が出現する前又は人の声が終了した後において、ターゲットオーディオは、ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び／又は、ターゲット音楽の人の声部分において、ターゲットオーディオは、ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである。

別の選択的な方案において、オーディオ選択ユニット１７０１はターゲットオーディオを確定するために用いられ、具体的には、ターゲットオーディオに対する選択操作を受信して、ターゲットオーディオとして確定する。

別の選択的な方案において、位置確定ユニット１７０２はターゲットオーディオの音源の位置を確定するために用いられ、具体的には、複数のタイムノードのターゲットオーディオの音源の位置を確定する。

音像変調ユニットは、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、複数のタイムノードの音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。

現在のデバイスが音楽を再生して音効果要素を追加する時、音源の位置が固定されており、左耳と右耳で聞こえる内容は同じであり、音響位置は中央にあるか、又は、固定されている。しかし、空間において、音効果要素の音源の位置は、人の耳に対して固定されていることも、変位することもあり得る。本出願の実施例に係わる装置は、ターゲットリスニングシーンを特徴付けるオーディオに対して、予め設定された時間間隔で複数のタイムノードのターゲットオーディオの音源の位置を確定し、複数のタイムノードの音源位置に基づいてターゲットオーディオに対して音像変調を行うことにより、ターゲットオーディオが音源の位置からのものであるという効果を生じさせ、移動軌跡が変化可能であり、ユーザーの臨場感を向上させ、構築されたリスニングシーンがより自然になる。

別の選択的な方案において、音像変調ユニット１７０３は、フレーム分割サブユニット１７０５及び音像生成サブユニット１７０６を含む。フレーム分割サブユニット１７０５は、ターゲットオーディオを複数のオーディオフレームに分割するために用いられる。音像生成サブユニット１７０６は、複数のオーディオフレームのタイムノードに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる。

別の選択的な方案において、音像生成サブユニット１７０６は、フレーム位置マッチングサブユニット１７０７、位置測定サブユニット１７０８及び畳み込みサブユニット１７０９を含む。フレーム位置マッチングサブユニット１７０７は、複数のオーディオフレームのうちの１つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得するために用いられる。位置測定サブユニット１７０８は、第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定するために用いられ、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応する。畳み込みサブユニット１７０９は、第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。

別の選択的な方案において、位置測定サブユニット１７０８は、さらに、第一位置が予め設定された測定点範囲内にない場合に、第一位置に基づいて、Ｐ個の測定位置点を確定するために用いられ、Ｐ個の測定位置点は、予め設定された測定点範囲内にあるＰ個の点であり、Ｐは、１以上の整数である。

前記装置は、位置フィッティングサブユニット１７１０をさらに含む。位置フィッティングサブユニット１７１０は、Ｐ個の測定位置点に対応する頭部伝達関数によってフィッティングすることにより、第一位置に対応する第二頭部伝達関数を獲得するために用いられる。畳み込みサブユニット１７０９は、さらに、第一オーディオフレームに対して第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。

以上から分かるように、頭部伝達関数は測定点範囲が予め設定されており、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応している。第一位置が測定点範囲内にない場合、第一位置に近く、予め設定された範囲内にあるＰ個の測定点を確定し、Ｐ個の測定点に対応する頭部伝達関数によってフィッティングすることにより、第一位置の頭部伝達関数を獲得し、ターゲットオーディオの音像変調効果の正確率を向上させ、ターゲットオーディオの処理過程の効果安定性を強化させることができる。

別の選択的な方案において、オーディオレンダリングユニット１７０４は、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得するために用いられ、具体的には、
変調係数確定サブユニット１７１１は、左チャンネルオーディオの二乗平均平方根（ＲＭＳ）値、右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定するために用いられ、
調整サブユニット１７１２は、変調係数に基づいて、左チャンネルオーディオのＲＭＳ値及び右チャンネルオーディオのＲＭＳ値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得するために用いられ、調整後の左チャンネルオーディオのＲＭＳ値及び調整後の右チャンネルのＲＭＳ値は、ターゲット音楽のＲＭＳ値より高くなく、
ミキシングサブユニット１７１３は、調整後の左チャンネルオーディオをターゲット音楽の左チャンネルにミキシングして、ターゲット音楽の左チャンネルのレンダリングオーディオとし、調整後の右チャンネルオーディオをターゲット音楽の右チャンネルにミキシングして、ターゲット音楽の右チャンネルのレンダリングオーディオとするために用いられる。

別の選択的な方案において、変調係数確定サブユニット１７１１は、左チャンネルオーディオのＲＭＳ値、右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定するために用いられ、具体的には、左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ１とし、右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ１とし、ターゲット音楽のＲＭＳ値をＲＭＳ_Ｙとして、
ＲＭＳ_Ａ２、ＲＭＳ_Ｂ２及びＲＭＳ_Ｙが以下の関係を満たすように、左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ２に調整し、右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ２に調整し、
ＲＭＳ_Ａ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、
ＲＭＳ_Ｂ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、ａｌｐｈａは、予め設定された比率係数であり、０＜ａｌｐｈａ＜１であり、

第一グループ値を変調係数として確定する。

別の選択的な方案において、変調係数確定サブユニット１７１１は、さらに、以下の操作を実行するために用いられ、
ＲＭＳ_Ａ３、ＲＭＳ_Ｂ３及びＲＭＳ_Ｙが以下の関係を満たすように、左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ３に調整し、右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ３に調整し、
ＲＭＳ_Ａ３＝Ｆ－ＲＭＳ_Ｙであり、Ｆは浮動小数点型で表される数字の最大数であり、
ＲＭＳ_Ｂ３＝Ｆ－ＲＭＳ_Ｙであり、

第一グループ値は、第二グループ値より小さい。

別の選択的な方案において、装置は、サンプリングレート変換ユニット１７１４をさらに含む。サンプリングレート変換ユニット１７１４は、オーディオ選択ユニットがターゲットオーディオを確定した後、位置確定ユニットがターゲットオーディオの音源の位置を確定する前に、ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、ターゲットオーディオのサンプリングレートをターゲット音楽のサンプリングレートに変換するために用いられる。

以上から分かるように、図１７によって説明された装置は、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、先ず音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入る時、音源の位置から伝わってくるようになり、音効果要素がよりリアルなリスニングシーンを構築することができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。

なお、各操作の実現は、さらに、図２に示された方法実施例に対する説明を対応して参照することができることに留意されたい。装置１７０は、図２に示された方法実施例の電子機器、又は電子機器に統合されたモジュールである。

図１８を参照すると、図１８は、本出願の実施例によって提供される別のリスニングシーンを構築する装置１８０の構造を示す概略図である。リスニングシーンを構築する装置は、プロセッサ１８０１、メモリ１８０２及びバス１８０３を含むことができる。プロセッサ１８０１とメモリ１８０２は、バス１８０３又はその他の方式によって接続されることができ、本出願の実施例は、バスによって接続されることを例として、各ユニットの詳細な説明は以下の通りである。

プロセッサ１８０１（中央プロセッサ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）とも呼ばれる）は、装置の計算コア及び制御コアであり、装置内の様々な指令及び処理装置の様々なデータを解析することができ、例えば、ＣＰＵは、装置内部構造間で様々なインタラクションデータを伝送することができる。

メモリ１８０２は、装置内の記憶デバイスであり、プログラム及びデータを格納するために用いられる。メモリ１８０２は、装置の内蔵メモリを含むことができ、装置がサポートする拡張メモリを含むこともできる。メモリ８０１は、装置のオペレーティングシステム及びその他のデータを格納する記憶空間を提供する。例えば、Ａｎｄｒｏｉｄシステム、ｉＯＳシステム、ＷｉｎｄｏｗｓＰｈｏｎｅシステムなどを含むことができ、本出願はこれに対して限定しない。

プロセッサ１８０１は、メモリ１８０２に格納されたプログラム命令を呼び出して、図２に示す実施例によって提供される方法を実行するために用いられる。

なお、各操作の実現は、さらに、図２に示された方法実施例の対応する説明を参照することができることに留意されたい。装置１８０は、図２に示された方法実施例の電子機器、又は電子機器に統合されたモジュールである。

本出願の実施例は、コンピュータプログラムが格納されたコンピュータ可読記憶媒体をさらに提供し、コンピュータ可読記憶媒体がプロセッサ上で実行されると、図２に示された実施例の電子機器によって実行される操作を実現する。

本出願の実施例は、コンピュータプログラム製品をさらに提供し、コンピュータプログラム製品がプロセッサ上で実行されると、図２に示された実施例の電子機器によって実行される操作を実現する。

上述した実施例の全部又は一部は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせによって実現することができる。ソフトウェアによって実現する場合、上記の機能の全部又は一部は、コンピュータプログラム製品の形式で実現することができる。コンピュータプログラム製品は、１つ又は複数のコンピュータ命令を含む。コンピュータプログラム命令がコンピュータにロードされて実行されるとき、本出願の実施例に記載されたプロセス又は機能の全部又は一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク又は他のプログラム可能な装置であることができる。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又はコンピュータ可読記憶媒体を介して伝送されてもよい。コンピュータ命令は、１つのＷｅｂサイト、コンピュータ、サーバー又はデータセンターから有線（例えば、同軸ケーブル、光ファイバー、デジタル加入者線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ，ＤＳＬ）などである）又は無線（例えば、赤外線、無線、マイクロ波などである）で別のＷｅｂサイト、コンピュータ、サーバー又はデータセンターに送信することができる。コンピュータ可読記憶媒体は、コンピュータがアクセスできる任意の利用可能な媒体であることができ、又は１つ又は複数の利用可能な媒体統合を含むサーバー、データセンターなどのようなデータ記憶装置であることができる。使用可能な媒体は、磁気媒体（例えば、ソフトディスク、ハードディスク又は磁気テープである）、光学媒体（例えば、デジタルビデオディスク（ＤＶＤ）である）、又は半導体媒体（ソリッドステートディスク（ＳＳＤ））などであることができる。

第一態様の別の選択的な形態において、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
ターゲットオーディオを複数のオーディオフレームに分割することと、
複数のオーディオフレームに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数（ｈｅａｄ-ｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ，ＨＲＴＦ）をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することと、を含む。

第一態様の別の選択的な形態において、複数のオーディオフレームに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
複数のオーディオフレームのうちの１つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得することと、
第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定することであって、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応する、確定することと、
第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得することとを含む。

第二態様の別の選択的な形態において、音像変調ユニットは、
ターゲットオーディオを複数のオーディオフレームに分割するフレーム分割サブユニットと、
複数のオーディオフレームに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数（ｈｅａｄ-ｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ，ＨＲＴＦ）をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる音像生成サブユニットと、を含む。

第二態様の別の選択的な形態において、調整前の左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ１とし、調整前の右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ１とし、ターゲット音楽のＲＭＳ値をＲＭＳ_Ｙとして、変調係数確定サブユニットは、左チャンネルオーディオの二乗平均平方根（ＲＭＳ）値、右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定するために用いられ、具体的には、
ＲＭＳ_Ａ２、ＲＭＳ_Ｂ２及びＲＭＳ_Ｙが以下の関係を満たすように、左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ２に調整し、右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ２に調整し、
ＲＭＳ_Ａ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、
ＲＭＳ_Ｂ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、ａｌｐｈａは、予め設定された比率係数であり、０＜ａｌｐｈａ＜１であり、

第一グループ値を変調係数として確定する。

第三態様によれば、本出願の実施例は、リスニングシーンを構築する装置を提供し、プロセッサ及びメモリを含み、メモリはコンピュータプログラムを格納するために用いられ、プロセッサは、コンピュータプログラムを呼び出して、本出願の実施例の第一態様又は第一態様のいずれかの実現形態に係わる方法を実行するために用いられることを特徴とする。

上述した、第二態様のリスニングシーンを構築する装置、第三態様のリスニングシーンを構築する装置、第四態様のコンピュータ記憶媒体、及び第五態様のコンピュータプログラム製品は、第一態様のリスニングシーンを構築する方法を実行するために用いられ、従って、実現できる有益な効果は、第一態様のリスニングシーンを構築する方法の有益な効果を参照することができ、ここでは詳しく説明しない。

方式１：ターゲット音楽のタイプ情報によってターゲットオーディオを確定する。電子機器は、ターゲット音楽のタイプ情報又はターゲット音楽のタイプ情報のラベルを予め格納することができ、又は、電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽のタイプ情報又はタイプ情報のラベルを取得することができる。電子機器は、ターゲット音楽のタイプ情報又はターゲット音楽のタイプ情報のラベルに基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。選択的には、１つの歌曲は、複数のタイプ又は複数のラベルを有することができる。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第一マッチング閾値を予め設定することができる。具体的には、電子機器は、ターゲット音楽のタイプ情報又はタイプ情報ラベルに基づいて１つ又は複数の音効果要素をマッチングし、１つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第一マッチング閾値よりも高い１つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。選択的には、歌曲の人の声が出現する前及び人の声が終了した後（即ち、歌曲に伴奏しかない時期）に、方式１によってターゲットオーディオを確定する。

方式２：ターゲット音楽の歌詞全体によってターゲットオーディオを確定する。電子機器にターゲット音楽の歌詞全体を予め格納することができ、又は電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽の歌詞全体を取得することができる。電子機器は、歌詞全体に基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータを獲得し、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第二マッチング閾値を予め設定することができる。具体的には、電子機器は、テキストマッチングアルゴリズムを用いて、ターゲット音楽の歌詞全体に１つ又は複数の音効果要素をマッチングし、１つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第二マッチング閾値よりも高い１つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。第二マッチング閾値は、第一マッチング閾値と等しくてもよく、等しくなくてもよく、ここでは制限しない。選択的には、歌曲の人の声が出現する前及び人の声が終了した後（即ち、歌曲に伴奏しかない時期）に、方式２によってターゲットオーディオを確定する。

ケース２：電子機器に「稲香」の歌詞全体を予め格納し、ターゲットオーディオを確定する時、「稲香」の歌詞全体に基づいて複数の音効果要素をマッチングし、電子機器は、第二マッチング閾値を７６．０に予め設定すると、マッチングパラメータが７６．０よりも高い音効果要素をターゲットオーディオとして確定することができる。選択的には、選択される音効果要素の数を制御するために、電子機器は、選択される音効果要素の数を予め設定することができ、例えば、選択される音効果要素の数を３に予め設定すると、マッチングパラメータが７６．０よりも高い音効果要素のうち、マッチングパラメータが上位３の音効果要素のオーディオをターゲットオーディオとして確定する。

方法２：電子機器は、ターゲットオーディオを確定する時間に応じて音源の位置を確定する。具体的には、電子機器は、ターゲット音楽の異なる段階の音源の位置を予め格納する。例えば、ターゲットオーディオを確定する時間がターゲット音楽の人の声が始まる前であると、ターゲットオーディオの位置関係は、遠くから近くへ変化することができ、ターゲットオーディオを確定する時間がターゲット音楽の人の声が終了した後であると、ターゲットオーディオの位置関係は、近くから遠くへ変化することができる。

状況１：位置が固定される音源の場合、複数のタイムノード内で三次元座標が変化していないと見なすことができる。パラメータがＨＲＴＦ関数ライブラリのプリセットパラメータ範囲内にあると、電子機器は、ターゲットオーディオの音源の位置に基づいて、音源位置の頭部伝達関数を確定し、畳み込み処理を行う。図６を参照すると、図６は、本出願の実施例によって提供される可能な音源の位置の概略図であり、ターゲットオーディオの音源の位置６０１及び聴取者６０２を含む。ドイツのケルン大学のＨＲＴＦデータベースを標準伝達関数ライブラリとして、音源の位置［２０，１６，１．６］を入力し、位置［２０，１６，１．６］がプリセットパラメータ範囲内にあると、位置［２０，１６，１．６］に対応する頭部伝達関数を確定し、便利に説明するために、ここでは第一頭部伝達関数と呼ぶ。ターゲットオーディオの複数のオーディオフレームに対して音源位置から左耳までの第一頭部伝達関数を畳み込むことにより、ターゲットオーディオの左チャンネルオーディオを獲得し、ターゲットオーディオの複数のオーディオフレームに対して音源位置から右耳までの第一頭部伝達関数を畳み込むことにより、ターゲットオーディオの右チャンネルオーディオを獲得する。

選択的には、方式１で変調する時、変調後のターゲットオーディオがターゲット音楽にミキシングされた後、得られたミキシングされたオーディオの二乗平均平方根値がマシン数の値範囲を超える場合、ターゲットオーディオのパワーを下げる必要があり、そうでなければ、データオーバーフローをもたらす。図１４に示された方法において、システムがａｌｐｈａを０．５に予め設定した場合、第一変調係数によって変調されたターゲットオーディオのＲＭＳ値はターゲット音楽のＲＭＳ値より６ｄＢ少なく、効果音要素が過剰に出現せず、従って元の音楽の聴取に影響しないことを確保する。

Ｓ１５２４：ＲＭＳ_Ｂ３＝Ｆ－ＲＭＳ_Ｙを満たすように、右チャンネルオーディオをＲＭＳ_Ｂ３と設定する。

方法３：第三変調係数を確定し、ターゲットオーディオのＲＭＳ値を変調することにより、ターゲットオーディオのＲＭＳ値がターゲット音楽のＲＭＳ値より小さくなるようにする。第三変調係数は、その他の方式で確定することができ、ターゲットオーディオのＲＭＳ値を変調するために用いられ、例えば、第一変調係数と第二変調係数のうちの小さい値を第三変調係数として、即ち、第一変調係数の値が第二変調係数の値より小さい場合、第一変調係数を変調係数として確定し、ターゲットオーディオのＲＭＳ値を変調するために用いられ、ターゲットオーディオのＲＭＳ値がターゲット音楽のＲＭＳ値より小さくなるようにする。同様に、第二変調係数の値が第一変調係数の値より小さい場合、第二変調係数を変調係数として確定し、ターゲットオーディオのＲＭＳ値を変調するために用いられ、ターゲットオーディオのＲＭＳ値がターゲット音楽のＲＭＳ値より小さくなるようにする。この変調方法は、データオーバーフローを防止することを前提として、できるだけ効果音データと音楽データとのＲＭＳ比率関係を変化しないように確保することができ、ターゲットオーディオのパワーが大きすぎるのでターゲット音楽を覆うことを防止することができ、ターゲットオーディオのパワーが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、ターゲット音楽の主体としての地位を確保する。

図１７を参照すると、図１７は、本出願の実施例によって提供されるリスニングシーンを構築する装置１７０の構造を示す概略図である。リスニングシーンを構築する装置１７０は、オーディオ選択ユニット１７０１、位置確定ユニット１７０２、音像変調ユニット１７０３及びオーディオレンダリングユニット１７０４を含むことができ、各ユニットの詳細説明は、以下のとおりである。

音像変調ユニット１７０３は、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、複数のタイムノードの音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。

メモリ１８０２は、装置内の記憶デバイスであり、プログラム及びデータを格納するために用いられる。メモリ１８０２は、装置の内蔵メモリを含むことができ、装置がサポートする拡張メモリを含むこともできる。メモリ１８０２は、装置のオペレーティングシステム及びその他のデータを格納する記憶空間を提供する。例えば、Ａｎｄｒｏｉｄシステム、ｉＯＳシステム、ＷｉｎｄｏｗｓＰｈｏｎｅシステムなどを含むことができ、本出願はこれに対して限定しない。

本出願の実施例は、コンピュータプログラムが格納されたコンピュータ可読記憶媒体をさらに提供し、コンピュータプログラムがプロセッサ上で実行されると、図２に示された実施例の電子機器によって実行される操作を実現する。

Claims

リスニングシーンを構築する方法であって、
ターゲットシーンの音特徴を特徴付けるために用いられるターゲットオーディオを確定することと、
前記ターゲットオーディオの音源の位置を確定することと、
前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することであって、前記ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、前記ターゲットオーディが前記音源の位置からのものであるという効果を生じることができることと、
前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、前記ターゲット音楽が前記ターゲットシーンで再生される効果を獲得することと、
を含む、
ことを特徴とするリスニングシーンを構築する方法。
前記ターゲット音楽の人の声部分が出現する前又は人の声が終了した後、前記ターゲットオーディオは、前記ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び／又は、
前記ターゲット音楽の人の声部分において、前記ターゲットオーディオは、前記ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである、
ことを特徴とする請求項１に記載の方法。
前記ターゲットオーディオの音源の位置を確定することは、複数のタイムノードの前記ターゲットオーディオの音源の位置を確定することを含み、
前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することは、前記複数のタイムノードの音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することを含む、
ことを特徴とする請求項１又は２に記載の方法。
前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
前記ターゲットオーディオを複数のオーディオフレームに分割することと、
前記複数のオーディオフレームに対応する音源の位置に基づいて、前記複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することと、
を含む、
ことを特徴とする請求項１～３のいずれか一項に記載の方法。
前記複数のオーディオフレームに対応する音源の位置に基づいて、前記複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
前記複数のオーディオフレームのうちのいずれか１つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得することと、
前記第一位置が予め設定された測定点範囲内にあると、前記第一位置に対応する第一頭部伝達関数を確定することであって、前記予め設定された測定点範囲内の各測定点は頭部伝達関数に対応することと、
前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの前記第一頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得することと、
を含む、
ことを特徴とする請求項４に記載の方法。
前記第一位置が前記予め設定された測定点範囲内にないと、前記第一位置に基づいてＰ個の測定位置点を確定し、前記Ｐ個の測定位置点は前記予め設定された測定点範囲内にあるＰ個の点であり、Ｐは１以上の整数であることと、
前記Ｐ個の測定位置点にぞれぞれ対応する頭部伝達関数によってフィッティングすることにより、前記第一位置に対応する第二頭部伝達関数を獲得することと、
前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの前記第二頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得することと、
をさらに含む、
ことを特徴とする請求項５に記載の方法。
前記ターゲットオーディオのデュアルチャネルオーディオは、左チャンネルオーディオ及び右チャンネルオーディオを含み、
前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングすることは、
前記左チャンネルオーディオの二乗平均平方根（ＲＭＳ)値、前記右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定することと、
前記変調係数に基づいて、前記左チャンネルオーディオのＲＭＳ値及び前記右チャンネルオーディオのＲＭＳ値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得することであって、前記調整後の左チャンネルオーディオのＲＭＳ値及び前記調整後の右チャンネルのＲＭＳ値は前記ターゲット音楽のＲＭＳ値より高くないことと、
前記調整後の左チャンネルオーディオを前記ターゲット音楽の左チャンネルにミキシングして、前記ターゲット音楽の左チャンネルのレンダリングオーディオとし、前記調整後の右チャンネルオーディオを前記ターゲット音楽の右チャンネルにミキシングして、前記ターゲット音楽の右チャンネルのレンダリングオーディオとすることと、
を含む、
ことを特徴とする請求項６に記載の方法。
調整前の前記左チャンネルオーディオのＲＭＳ値はＲＭＳ_Ａ１であり、調整前の前記右チャンネルオーディオのＲＭＳ値はＲＭＳ_Ｂ１であり、前記ターゲット音楽のＲＭＳ値はＲＭＳ_Ｙであり、
前記左チャンネルオーディオのＲＭＳ値、前記右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定することは、
ＲＭＳ_Ａ２、ＲＭＳ_Ｂ２及びＲＭＳ_Ｙが以下の関係を満たすように、前記左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ２に調整し、前記右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ２に調整することであって、
ＲＭＳ_Ａ２＝ａｌｐｈａ＊ＲＭＳ_Ｙ、
ＲＭＳ_Ｂ２＝ａｌｐｈａ＊ＲＭＳ_Ｙ、ａｌｐｈａは、予め設定された比率係数であり、０＜ａｌｐｈａ＜１であることと、

前記第一グループ値を変調係数として確定することと、
を含む、
ことを特徴とする請求項７に記載の方法。
前記左チャンネルオーディオのＲＭＳ値、前記右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定することは、
ＲＭＳ_Ａ３、ＲＭＳ_Ｂ３及びＲＭＳ_Ｙが以下の関係を満たすように、前記左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ３に調整し、前記右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ３に調整することであって、
ＲＭＳ_Ａ３＝Ｆ－ＲＭＳ_Ｙ、Ｆは浮動小数点型で表される数字の最大数であり、
ＲＭＳ_Ｂ３＝Ｆ－ＲＭＳ_Ｙであることと、

をさらに含み、
前記第一グループ値は、前記第二グループ値より小さい、
ことを特徴とする請求項８に記載の方法。
前記ターゲットオーディオを確定した後、前記ターゲットオーディオの音源の位置を確定する前に、
前記ターゲットオーディオのサンプリングレートと前記ターゲット音楽のサンプリングレートとが同じではない場合、前記ターゲットオーディオのサンプリングレートを前記ターゲット音楽のサンプリングレートに変換することをさらに含む、
ことを特徴とする請求項１又は２に記載の方法。
リスニングシーンを構築する装置であって、
オーディオ選択ユニット、位置確定ユニット、音像変調ユニット及びオーディオレンダリングユニットを含み、
前記オーディオ選択ユニットは、ターゲットオーディオを確定するために用いられ、前記ターゲットオーディオはターゲットシーンにおける音特徴を特徴付けるために用いられ、
前記位置確定ユニットは、前記ターゲットオーディオの音源の位置を確定するために用いられ、
前記音像変調ユニットは、前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、前記ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、前記ターゲットオーディが前記音源の位置からのものであるという効果を生じることができ、
前記オーディオレンダリングユニットは、前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、前記ターゲット音楽が前記ターゲットシーンで再生される効果を獲得するために用いられる、
ことを特徴とする装置。
前記ターゲット音楽の人の声部分が出現する前又は人の声が終了した後、前記ターゲットオーディオは、前記ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び／又は、
前記ターゲット音楽の人の声部分において、前記ターゲットオーディオは、前記ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである、
ことを特徴とする請求項１１に記載の装置。
前記位置確定ユニットは、前記ターゲットオーディオの音源の位置を確定するために用いられ、具体的には、複数のタイムノードの前記ターゲットオーディオの音源の位置を確定し、
前記音像変調ユニットは、前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、前記複数のタイムノードの音源の位置に基づいて前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得する、
ことを特徴とする請求項１１又は１２に記載の装置。
前記音像変調ユニットは、
前記ターゲットオーディオを複数のオーディオフレームに分割するために用いられるフレーム分割サブユニットと、
前記複数のオーディオフレームに対応する音源の位置に基づいて、前記複数のオーディオフレームに対して前記音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる音像生成サブユニットと、
を含む、
ことを特徴とする請求項１１～１３のいずれか一項に記載の装置。
前記音像生成サブユニットは、フレーム位置マッチングサブユニット、位置測定サブユニット及び畳み込みサブユニットを含み、
前記フレーム位置マッチングサブユニットは、前記複数のオーディオフレームのうちの１つのオーディオフレームである前記第一オーディオフレームに対応する音源の第一位置を取得するために用いられ、
前記位置測定サブユニットは、前記第一位置が予め設定された測定点範囲内にあると、前記第一位置に対応する第一頭部伝達関数を確定するために用いられ、前記予め設定された測定点範囲内の各測定点は頭部伝達関数に対応し、
前記畳み込みサブユニットは、前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの前記第一頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる、
ことを特徴とする請求項１４に記載の装置。
前記位置測定サブユニットは、さらに、前記第一位置が予め設定された測定点範囲内にないと、前記第一位置に基づいてＰ個の測定位置点を確定するために用いられ、前記Ｐ個の測定位置点は前記予め設定された測定点範囲内にあるＰ個の点であり、Ｐは、１以上の整数であり、
前記装置は、前記Ｐ個の測定位置点に対応する頭部伝達関数によってフィッティングすることにより前記第一位置に対応する第二頭部伝達関数を獲得するために用いられる位置フィッティングサブユニットをさらに含み、
前記畳み込みサブユニットは、さらに、前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる、
ことを特徴とする請求項１５に記載の装置。
前記オーディオレンダリングユニットは、前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、前記ターゲット音楽が前記ターゲットシーンで再生される効果を獲得するために用いられ、具体的には、
変調係数確定サブユニットは、前記左チャンネルオーディオの二乗平均平方根（ＲＭＳ)値、前記右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定するために用いられ、
前記調整サブユニットは、前記変調係数に基づいて、前記左チャンネルオーディオのＲＭＳ値及び前記右チャンネルオーディオのＲＭＳ値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得するために用いられ、前記調整後の左チャンネルオーディオのＲＭＳ値及び前記調整後の右チャンネルのＲＭＳ値は、ターゲット音楽のＲＭＳ値より高くなく、
ミキシングサブユニットは、前記調整後の左チャンネルオーディオを前記ターゲット音楽の左チャンネルにミキシングして、前記ターゲット音楽の左チャンネルのレンダリングオーディオとし、前記調整後の右チャンネルオーディオを前記ターゲット音楽の右チャンネルにミキシングして、前記ターゲット音楽の右チャンネルのレンダリングオーディオとするために用いられる、
ことを特徴とする請求項１１～１３のいずれか一項に記載の装置。
調整前の前記左チャンネルオーディオのＲＭＳ値はＲＭＳ_Ａ１であり、調整前の前記右チャンネルオーディオのＲＭＳ値はＲＭＳ_Ｂ１であり、前記ターゲット音楽のＲＭＳ値はＲＭＳ_Ｙであり、前記変調係数確定サブユニットは、前記左チャンネルオーディオの二乗平均平方根（ＲＭＳ）値、前記右チャンネルオーディオのＲＭＳ値及びターゲット音楽のＲＭＳ値に基づいて変調係数を確定するために用いられ、具体的には、
ＲＭＳ_Ａ２、ＲＭＳ_Ｂ２及びＲＭＳ_Ｙが以下の関係を満たすように、前記左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ２に調整し、前記右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ２に調整し、
ＲＭＳ_Ａ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、
ＲＭＳ_Ｂ２＝ａｌｐｈａ＊ＲＭＳ_Ｙであり、ａｌｐｈａは、予め設定された比率係数であり、０＜ａｌｐｈａ＜１であり、

前記第一グループ値を変調係数として確定する、
ことを特徴とする請求項１７に記載の装置。
前記変調係数確定サブユニットは、さらに、
ＲＭＳ_Ａ３、ＲＭＳ_Ｂ３及びＲＭＳ_Ｙが以下の関係を満たすように、前記左チャンネルオーディオのＲＭＳ値をＲＭＳ_Ａ３に調整し、前記右チャンネルオーディオのＲＭＳ値をＲＭＳ_Ｂ３に調整し、
ＲＭＳ_Ａ３＝Ｆ－ＲＭＳ_Ｙであり、Ｆは浮動小数点型で表される数字の最大数であり、
ＲＭＳ_Ｂ３＝Ｆ－ＲＭＳ_Ｙであり、

前記第一グループ値は、前記第二グループ値より小さい、
ことを特徴とする請求項１８に記載の装置。
前記装置は、前記オーディオ選択ユニットがターゲットオーディオを確定した後、前記位置確定ユニットが前記ターゲットオーディオの音源の位置を確定する前に、前記ターゲットオーディオのサンプリングレートと前記ターゲット音楽のサンプリングレートとが同じではない場合、前記ターゲットオーディオのサンプリングレートを前記ターゲット音楽のサンプリングレートに変換するために用いられるサンプリングレート変換ユニットをさらに含む、
ことを特徴とする請求項１１に記載の装置。
リスニングシーンを構築する装置であって、
プロセッサ及びメモリを含み、前記メモリはコンピュータプログラムを格納するために用いられ、前記プロセッサは前記コンピュータプログラムを呼び出して、請求項１～１０のいずれか一項に記載された方法を実行するために用いられる、
ことを特徴とするリスニングシーンを構築する装置。
コンピュータプログラムを含むコンピュータ記憶媒体であって、
前記コンピュータプログラムが電子機器で実行されると、前記電子機器に請求項１～１０のいずれか一項に記載された方法を実行させる、
ことを特徴とするコンピュータ記憶媒体。