JP2023503959A - リスニングシーンを構築する方法及び関連装置 - Google Patents

リスニングシーンを構築する方法及び関連装置 Download PDF

Info

Publication number
JP2023503959A
JP2023503959A JP2022530306A JP2022530306A JP2023503959A JP 2023503959 A JP2023503959 A JP 2023503959A JP 2022530306 A JP2022530306 A JP 2022530306A JP 2022530306 A JP2022530306 A JP 2022530306A JP 2023503959 A JP2023503959 A JP 2023503959A
Authority
JP
Japan
Prior art keywords
audio
target
rms
music
channel audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022530306A
Other languages
English (en)
Other versions
JP7436664B2 (ja
Inventor
ヤン,チェンハイ
Original Assignee
テンセント ミュージック エンターテイメント テクノロジー (シンチェン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント ミュージック エンターテイメント テクノロジー (シンチェン) カンパニー リミテッド filed Critical テンセント ミュージック エンターテイメント テクノロジー (シンチェン) カンパニー リミテッド
Publication of JP2023503959A publication Critical patent/JP2023503959A/ja
Application granted granted Critical
Publication of JP7436664B2 publication Critical patent/JP7436664B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本願の実施例は、リスニングシーンを構築する方法及び関連装置を開示し、前記方法は、ターゲットシーンの音特徴を特徴付けるために用いられるターゲットオーディオを確定することと、ターゲットオーディオの音源の位置を確定することと、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することと、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得することと、を含む。本願の実施例によって提供されるリスニングシーンを構築する方法は、ユーザーに没入タイプのリスニング体験を提供し、ユーザーは音楽を聴きながら特殊なシーン要素が耳のあたりを巡っているように感じることができ、ユーザーの臨場感を高める。【選択図】図2

Description

本出願は、中国特許庁に提出された中国特許出願の優先権を主張し、出願日は2019年11月25日であり、出願番号は201911169274.2であり、発明の名称は「リスニングシーンを構築する方法及び関連装置」であり、且つ参照のためその全文を本出願に組み込む。
本出願は、オーディオ処理分野に関し、特にリスニングシーンを構築する方法及び関連装置に関する。
音楽は、人類の現実生活の感情を反映する芸術であり、人の情操を陶冶し、人々の想像力を奮い立たせ、人々の精神生活を豊かにすることができる。電子機器の普及に伴い、いろいろな再生機器を使って音楽を再生することができる。ユーザーのリスニング体験を向上させるために、再生機器には、ユーザーが選択できる様々な音効果要素(sound effect el ement )が内蔵されており、ユーザーが音楽を再生する時、音楽にいろいろな音効果要素を人為的に追加して特別な再生効果に達する。例えば、再生機器が周杰倫の「稲香」を再生する時、ユーザーは、田園の音効果要素を選んで歌曲に追加して一緒に再生することができる。しかし、再生機器が追加された音効果要素を再生するとき、元の音楽に簡単にミキシングするだけであり、且つ音効果要素が固定されているので、音効果要素によって構築された芸術的な境地をユーザーが感じにくくなり、ユーザーが音楽を聴く時の臨場感及び没入感に影響を及ぼす。
従って、ユーザーが音楽を聴く時、音効果要素を用いてよりリアルなリスニングシーンをどのように構築するかは、当業者が検討している問題である。
本出願の実施例は、リスニングシーンを構築する方法及び関連装置を開示し、ユーザーが音楽を聴く時の臨場感及び没入感を向上させることができる。
第一態様によれば、本出願の実施例は、リスニングシーンを構築する方法を提供する。リスニングシーンを構築する方法は、ターゲットシーンの音特徴を特徴付けるために用いられるターゲットオーディオを確定することと、ターゲットオーディオの音源の位置を確定することと、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することであって、ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、ターゲットオーディが音源の位置からのものであるという効果を生じることができる、獲得することと、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得することと、を含む。
以上から分かるように、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、先ず音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入る時、音源の位置から伝わってくるようになり、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。
第一態様の別の選択的な形態において、ターゲットオーディオは、ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び/又は、ターゲットオーディオは、ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである。
つまり、ターゲット音楽の人の声が出現する前及び終了した後において、ターゲット歌曲は、伴奏のみで人の声がない段階に属し、この段階において、歌曲のタイプ又は歌詞内容全体に基づいてターゲットオーディオを確定することができ、聴取者は、歌曲の伴奏部分で歌曲のスタイル又は歌曲内容にマッチングするオーディオを感じることができる。ターゲット音楽の人の声が出現する部分において、音楽の主な効果は、歌われる歌詞を介して伝えられるので、歌詞の具体的な内容に基づいてターゲットオーディオをマッチングし、このように音楽歌詞を主導とするオーディオマッチング方法は、追加するオーディオがターゲット音楽の内容により合致し、音楽を聴く体験を向上させる。
第一態様の別の選択的な形態において、ターゲットオーディオを確定することは、ターゲットオーディオに対する選択操作を受信して、ターゲットオーディオとして確定することを含む。
以上から分かるように、ミキシングすべきオーディオを選択する時、ユーザーに1つ又は複数のオーディオを提供し、ターゲットオーディオに対する選択操作を受信することにより、ターゲットオーディオとして確定する。つまり、ユーザーは、音楽を聴いているところ、自分の好みに応じてオーディオを自主的に選択して音楽にミキシングすることができ、従って個性的なリスニングシーンを構築し、ユーザーの創作と欲望を奮い立たせ、リスニング体験の面白さを増加させることができる。
第一態様の別の選択的な形態において、ターゲットオーディオの音源の位置を確定することは、複数のタイムノードのターゲットオーディオの音源の位置を確定することを含み、
音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、複数のタイムノードの音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することを含む。
現在のデバイスが音楽を再生して音効果要素を追加する時、音源の位置が固定されており、左耳と右耳で聞こえる内容は同じであり、音の位置は中央にあるか、又は、固定されている。しかし、空間において、音効果要素の音源の位置は、人の耳に対して固定されていることも、変位することもあり得る。本出願の実施例に係わる方法は、ターゲットリスニングシーンを特徴付けるオーディオに対して、予め設定された時間間隔で複数のタイムノードのターゲットオーディオの音源の位置を確定し、複数のタイムノードの音源位置に基づいてターゲットオーディオに対して音像変調を行うことにより、ターゲットオーディオが音源の位置からのものであるという効果を生じさせ、移動軌跡が変化可能であり、ユーザーの臨場感を向上させ、構築されたリスニングシーンがより自然になる。
第一態様の別の選択的な形態において、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
ターゲットオーディオを複数のオーディオフレームに分割することと、
複数のオーディオフレームのタイムノードに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数(head-related transfer function,HRTF)をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することと、を含む。
以上から分かるように、オーディオ処理効果を向上させるために、頭部伝達関数を用いて音像変調を行う前に、ターゲットオーディオに対してフレーム分割処理を実行することを必要とする。分割されたオーディオフレームに対して頭部伝達関数を畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオが左耳及び右耳で再生される時、聴取者にターゲットオーディオが音源の位置からのものであるという効果を感じさせ、音効果要素をよりリアルに呈する。
第一態様の別の選択的な形態において、複数のオーディオフレームに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
複数のオーディオフレームのうちの1つのオーディオフレームである第一オーディオフレームに対応するタイムノードの音源の第一位置を取得することと、
第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定することであって、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応する、確定することと、
第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得することとを含む。
以上から分かるように、ターゲットオーディオの音源の位置が連続的に変化することができるので、複数のオーディオフレームのうちの第一オーディオフレームに対して、先ず第一オーディオフレームに対応する第一位置を確定し、さらに第一位置に対応する頭部伝達関数を確定し、そして畳み込み処理を行う。頭部伝達関数を畳み込む処理を行ったターゲットオーディオのデュアルチャネルオーディオを聴取者の左耳及び右耳で再生する時、聴取者にターゲット音楽が音源の位置から伝わってくるように感じさせることができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。
第一態様の別の選択的な形態において、第一位置が予め設定された測定点範囲内にない場合、第一位置に基づいて、P個の測定位置点を確定し、P個の測定位置点は、予め設定された測定点範囲内にあるP個の点であり、Pは、1以上の整数であり、
P個の測定位置点にそれぞれ対応する頭部伝達関数によってフィッティングすることにより、第一位置に対応する第二頭部伝達関数を獲得し、
第一オーディオフレームに対して第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得する。
以上から分かるように、頭部伝達関数は測定点範囲が予め設定されており、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応している。第一位置が測定点範囲内にないと、第一位置に近く、予め設定された範囲内にあるP個の測定点を確定し、P個の測定点に対応する頭部伝達関数によってフィッティングすることにより、第一位置の頭部伝達関数を獲得し、ターゲットオーディオの音像変調効果の正確率を向上させ、ターゲットオーディオの処理過程の効果安定性を強化させることができる。
第一態様の別の選択的な形態において、ターゲットオーディオのデュアルチャネルオーディオは、左チャンネルオーディオ及び右チャンネルオーディオを含み、
ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングすることは、
左チャンネルオーディオの二乗平均平方根(root mean square,RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定することと、
変調係数に基づいて、左チャンネルオーディオのRMS値及び右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得することであって、調整後の左チャンネルオーディオのRMS値及び調整後の右チャンネルのRMS値はターゲット音楽のRMS値より高くないことと、
調整後の左チャンネルオーディオをターゲット音楽の左チャンネルにミキシングして、ターゲット音楽の左チャンネルのレンダリングオーディオとし、調整後の右チャンネルオーディオをターゲット音楽の右チャンネルにミキシングして、ターゲット音楽の右チャンネルのレンダリングオーディオとすることと、を含む。
現在のデバイスが音楽を再生して音効果要素を追加する時、追加する音効果要素の音強度が統一されておらず、一部の音効果要素のラウドネスはとても大きく、データオーバーフローをもたらしやすく、音楽の音を覆う一方、一部の音効果要素のラウドネスはとても小さく、ほとんど感知できず、ユーザーが音楽を聴く体験に影響を与える。本出願の実施例に係わる方法は、ターゲットオーディオを音楽にミキシングする時、先ずターゲット音楽のパワーを変調させ、音楽のラウドネスなどの特徴を変え、音効果要素が元の音楽信号を覆うことを防止し、音効果要素のラウドネスが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、音効果要素を追加したオーディオは、ユーザーが元の音楽を聴取することに影響を及ぼさない。
第一態様の別の選択的な形態において、上述したように、左チャンネルオーディオの二乗平均平方根(RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定することは、調整前の左チャンネルオーディオのRMS値をRMSA1とし、調整前の右チャンネルオーディオのRMS値をRMSB1とし、ターゲット音楽のRMS値をRMSとして
RMSA2、RMSB2及びRMSが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA2に調整し、右チャンネルオーディオのRMS値をRMSB2に調整することであって、
RMSA2=alpha*RMSであり、
RMSB2=alpha*RMSであり、alphaは、予め設定された比率係数であり、0<alpha<1である、調整することと、
Figure 2023503959000002
第一グループ値を変調係数として確定するとすることと、を含む。
以上から分かるように、ターゲット音楽の左チャンネルオーディオのRMS値、ターゲット音楽の右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定し、変調係数によってターゲットオーディオのパワーを変調して、ターゲットオーディオの二乗平均平方根値とターゲット音楽の二乗平均平方根値とが所定の比率になるように制御することにより、ターゲットオーディオが過剰に出現せず、従って元の音楽の聴取に影響しない。音効果要素とターゲット音楽との比値であるalpha値の設定は、システムにより予め設定されてもよく又はユーザーにより自ら設定されてもよく、ユーザーは自分の好みに応じて比率係数を設定することができ、従って個性的なリスニング効果を構築し、リスニング体験の面白さを増加させる。
第一態様の別の選択的な形態において、上述したように、左チャンネルオーディオの二乗平均平方根(RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定することは、
RMSA3、RMSB3及びRMSが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA3に調整し、右チャンネルオーディオのRMS値をRMSB3に調整することであって、
RMSA3=F-RMSであり、Fは浮動小数点型で表される数字の最大数であり、
RMSB3=F-RMSである、調整することと、
Figure 2023503959000003
第一グループ値は、第二グループ値より小さい。
以上から分かるように、変調係数を確定する時、ミキシング後のレンダリングオーディオのRMS値がマシン数の値範囲の最大値を超えないようにする必要があり、このように、データオーバーフローを防止する前提下で、ターゲットオーディオのパワーが大きすぎるのでターゲット音楽を覆うことを防止することができ、ターゲットオーディオのパワーが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、ターゲット音楽の主体としての地位を確保する。
第一態様の別の選択的な形態において、ターゲットオーディオを確定した後、ターゲットオーディオの音源の位置を確定する前に、
ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、ターゲットオーディオのサンプリングレートをターゲット音楽のサンプリングレートに変換することをさらに含む。
以上から分かるように、ターゲットオーディオを確定した後、ターゲットオーディオとターゲット音楽のサンプリングレートとが同じではない場合、音効果要素のサンプリングレートをターゲット音楽のサンプリングレートに変換することにより、ミキシング時により自然に聞こえる。
第二態様によれば、本出願の実施例は、リスニングシーンを構築する装置を提供する。リスニングシーンを構築する装置は、オーディオ選択ユニット、位置確定ユニット、音像変調ユニット及びオーディオレンダリングユニットを含み、
オーディオ選択ユニットは、ターゲットオーディオを確定するために用いられ、ターゲットオーディオはターゲットシーンにおける音特徴を特徴付けるために用いられ、
位置確定ユニットは、ターゲットオーディオの音源の位置を確定するために用いられ、
音像変調ユニットは、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、ターゲットオーディが音源の位置からのものであるという効果を生じることができ、
オーディオレンダリングユニットは、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得するために用いられる。
以上から分かるように、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、先ず音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入る時、音源の位置から伝わってくるようになり、音効果要素がよりリアルなリスニングシーンを構築することができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。
第二態様の別の選択的な形態において、ターゲットオーディオは、ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び/又は、ターゲットオーディオは、ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである。
つまり、ターゲット音楽の人の声が出現する前及び終了した後において、ターゲット歌曲は、伴奏のみで人の声がない段階に属し、この段階において、歌曲のタイプ又は歌詞内容全体に基づいてターゲットオーディオを確定することができ、聴取者は、歌曲の伴奏部分において、歌曲のスタイル又は歌曲内容にマッチングするオーディオを感じることができる。ターゲット音楽の人の声が出現する部分において、音楽の主な効果は、歌われる歌詞を介して伝えられるので、歌詞の具体的な内容に基づいてターゲットオーディオをマッチングし、このように音楽歌詞を主導とするオーディオマッチング方法は、追加するオーディオがターゲット音楽の内容により合致し、音楽を聴く体験を向上させる。
第二態様の別の選択的な形態において、オーディオ選択ユニットは、ターゲットオーディオを確定するために用いられ、具体的には、
ターゲットオーディオに対する選択操作を受信して、選択操作により指定されたオーディオをターゲットオーディオとして確定する。
以上から分かるように、ミキシングすべきオーディオを選択する時、ユーザーに1つ又は複数のオーディオを提供し、ターゲットオーディオに対する選択操作を受信することにより、ターゲットオーディオとして確定する。つまり、ユーザーは、音楽を聴いているところ、自分の好みに応じてオーディオを自主的に選択して音楽にミキシングすることができ、従って個性的なリスニングシーンを構築し、ユーザーの創作と欲望を奮い立たせ、リスニング体体験の面白さを増加させることができる。
第二態様の別の選択的な形態において、位置確定ユニットは、ターゲットオーディオの音源の位置を確定するために用いられ、具体的には、複数のタイムノードのターゲットオーディオの音源の位置を確定する。
音像変調ユニットは、音源の位置に基づいてターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、複数のタイムノードの音源の位置に基づいてターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。
現在のデバイスが音楽を再生して音効果要素を追加する時、音源の位置が固定されており、左耳と右耳で聞こえる内容は同じであり、音の位置は中央にあるか、又は、固定されている。しかし、空間において、音効果要素の音源の位置は、人の耳に対して固定されているか、又は変位することができる。本出願の実施例に係わる装置は、ターゲットリスニングシーンを特徴付けるオーディオに対して、予め設定された時間間隔で複数のタイムノードのターゲットオーディオの音源の位置を確定し、複数のタイムノードの音源位置に基づいてターゲットオーディオに対して音像変調を行うことにより、ターゲットオーディオが音源の位置からのものであるという効果を生じさせ、移動軌跡が変化可能であり、ユーザーの臨場感を向上させ、構築されたリスニングシーンがより自然になる。
第二態様の別の選択的な形態において、音像変調ユニットは、
ターゲットオーディオを複数のオーディオフレームに分割するフレーム分割サブユニットと、
複数のオーディオフレームのタイムノードに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数(head-related transfer function,HRTF)をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる音像生成サブユニットと、を含む。
以上から分かるように、オーディオ処理効果を向上させるために、頭部伝達関数を用いて音像変調を行う前に、ターゲットオーディオに対してフレーム分割処理を実行することを必要とする。分割されたオーディオフレームに対して頭部伝達関数を畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオが左耳及び右耳で再生される時、ユーザーにターゲットオーディオが音源の位置からのものであるという効果を感じさせ、音効果要素をよりリアルに呈する。
第二態様の別の選択的な形態において、音像生成サブユニットは、フレーム位置マッチングサブユニット、位置測定サブユニット及び畳み込みサブユニットを含み、
フレーム位置マッチングサブユニットは、複数のオーディオフレームのうちの1つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得するために用いられ、
位置測定サブユニットは、第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定するために用いられ、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応し、
畳み込みサブユニットは、第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。
以上から分かるように、ターゲットオーディオの音源の位置が連続的に変化することができるので、複数のオーディオフレームのうちの第一オーディオフレームに対して、先ず第一オーディオフレームに対応する第一位置を確定し、さらに第一位置に対応する頭部伝達関数を確定し、そして畳み込み処理を行う。頭部伝達関数を畳み込む処理を行ったターゲットオーディオのデュアルチャネルオーディオを聴取者の左耳及び右耳で再生する時、聴取者にターゲット音楽が音源の位置から伝わってくるように感じさせることができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。
第二態様の別の選択的な形態において、位置測定サブユニットは、さらに、第一位置が予め設定された測定点範囲内にない場合に、第一位置に基づいてP個の測定位置点を確定するために用いられ、P個の測定位置点は予め設定された測定点範囲内にあるP個の点であり、Pは、1以上の整数であり、
前記装置は、
P個の測定位置点に対応する頭部伝達関数によってフィッティングすることにより第一位置に対応する第二頭部伝達関数を獲得するために用いられる位置フィッティングサブユニットをさらに含み、
畳み込みサブユニットは、さらに、第一オーディオフレームに対して第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。
以上から分かるように、頭部伝達関数は測定点範囲が予め設定されており、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応している。第一位置が測定点範囲内にないと、第一位置の近く、予め設定された範囲内にあるP個の測定点を確定し、P個の測定点に対応する頭部伝達関数によってフィッティングすることにより、第一位置の頭部伝達関数を獲得し、ターゲットオーディオの音像変調効果の正確率を向上させ、ターゲットオーディオの処理過程の効果安定性を強化させることができる。
第二態様の別の選択的な形態において、オーディオレンダリングユニットは、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得するために用いられ、具体的には、
変調係数確定サブユニットは、左チャンネルオーディオの二乗平均平方根(root mean square,RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、
調整サブユニットは、変調係数に基づいて、左チャンネルオーディオのRMS値及び右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得するために用いられ、調整後の左チャンネルオーディオのRMS値及び調整後の右チャンネルのRMS値は、ターゲット音楽のRMS値より高くなく、
ミキシングサブユニットは、調整後の左チャンネルオーディオをターゲット音楽の左チャンネルにミキシングして、ターゲット音楽の左チャンネルのレンダリングオーディオとし、調整後の右チャンネルオーディオをターゲット音楽の右チャンネルにミキシングして、ターゲット音楽の右チャンネルのレンダリングオーディオとするために用いられる。
現在のデバイスが音楽を再生して音効果要素を追加する時、追加する音効果要素の音強度が統一されておらず、一部の音効果要素のラウドネスはとても大きく、データオーバーフローをもたらしやすく、音楽の音を覆う一方、一部の音効果要素のラウドネスはとても小さく、ほとんど感知できず、ユーザーが音楽を聴く体験に影響を与える。本出願の実施例に係わる装置は、ターゲットオーディオを音楽にミキシングする時、先ずターゲット音楽のパワーを変調させ、音楽のラウドネスなどの特徴を変え、音効果要素が元の音楽信号を覆うことを防止し、音効果要素のラウドネスが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、音効果要素を追加したオーディオは、ユーザーが元の音楽を聴取することに影響を及ぼさない。
第二態様の別の選択的な形態において、左チャンネルオーディオのRMS値をRMSA1とし、右チャンネルオーディオのRMS値をRMSB1とし、ターゲット音楽のRMS値をRMSとして、変調係数確定サブユニットは、左チャンネルオーディオの二乗平均平方根(RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、具体的には、
RMSA2、RMSB2及びRMSが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA2に調整し、右チャンネルオーディオのRMS値をRMSB2に調整し、
RMSA2=alpha*RMSであり、
RMSB2=alpha*RMSであり、alphaは、予め設定された比率係数であり、0<alpha<1であり、
Figure 2023503959000004
第一グループ値を変調係数として確定する。
以上から分かるように、ターゲット音楽の左チャンネルオーディオのRMS値、ターゲット音楽の右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定し、変調係数によってターゲットオーディオのパワーを変調させ、ターゲットオーディオの二乗平均平方根値とターゲット音楽の二乗平均平方根値とが所定の比率になるように制御することにより、ターゲットオーディオが過剰に出現せず、従って元の音楽の聴取に影響しない。音効果要素とターゲット音楽との比値であるalpha値の設定は、システムにより予め設定されてもよく又はユーザーにより自ら設定されてもよく、ユーザーは自分の好みに応じて比率係数を設定することができ、従って個性的なリスニング効果を構築し、音楽聴取体験の面白さを増加させる。
第二態様の別の選択的な形態において、変調係数確定サブユニットは、さらに、
RMSA3、RMSB3及びRMSが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA3に調整し、右チャンネルオーディオのRMS値をRMSB3に調整し、
RMSA3=F-RMSであり、Fは浮動小数点型で表される数字の最大数であり、
RMSB3=F-RMSであり、
Figure 2023503959000005
第一グループ値は、第二グループ値より小さい。
以上から分かるように、変調係数を確定する時、ミキシング後のレンダリングオーディオのRMS値がマシン数の値範囲の最大値を超えないようにする必要があり、このように、データオーバーフローを防止する前提下で、ターゲットオーディオのパワーが大きすぎるのでターゲット音楽を覆うことを防止することができ、ターゲットオーディオのパワーが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、ターゲット音楽のメインステータスを確保する。
第二態様の別の選択的な形態において、装置は、オーディオ選択ユニットがターゲットオーディオを確定した後、位置確定ユニットがターゲットオーディオの音源の位置を確定する前に、ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、ターゲットオーディオのサンプリングレートをターゲット音楽のサンプリングレートに変換するために用いられるサンプリングレート変換ユニットをさらに含む。
以上から分かるように、ターゲットオーディオを確定した後、ターゲットオーディオとターゲット音楽のサンプリングレートとが同じではない場合、音効果要素のサンプリングレートをターゲット音楽のサンプリングレートに変換することにより、ミキシング時により自然に聞こえる。
第三態様によれば、本出願の実施例は、リスニングシーンを構築する装置を提供し、プロセッサ及びメモリを含み、メモリはコンピュータプログラムを格納するために用いられ、プロセッサは、コンピュータプログラムを呼び出して、請求項1~11のいずれか一項に記載された方法を実行するために用いられることを特徴とする。
第四態様によれば、本出願の実施例は、コンピュータプログラムを含むコンピュータ記憶媒体を提供し、コンピュータプログラムが電子機器で実行されると、電子機器に本出願の実施例の第一態様又は第一態様のいずれかの実現形態に係わる方法を実行させる。
第五態様によれば、本出願の実施例は、コンピュータプログラム製品を提供し、コンピュータプログラム製品が電子機器で実行されると、電子機器に本出願の実施例の第一態様又は第一態様のいずれかの実現形態に係わる方法を実行させる。
上述した、第二態様のリスニングシーンを構築する装置、第三態様のリスニングシーンを構築する装置、第四態様のコンピュータ記憶媒体、及び第五態様のコンピュータプログラム製品は、第一態様の音楽可視化方法を実行するために用いられ、従って、実現できる有益な効果は、第一態様のリスニングシーンを構築する方法の有益な効果を参照することができ、ここでは詳しく説明しない。
本出願の実施例又は従来技術における技術的解決手段をより明瞭に説明するために、以下、本出願の実施例又は背景技術で使用される図面を簡単に紹介する。
図1は、本出願の実施例によって提供される仮想リスニングシーンを構築する方法のシーン概略図である。 図2は、本出願の実施例によって提供される仮想リスニングシーンを構築する方法のフローチャートである。 図3は、本出願の実施例によって提供されるターゲットオーディオ確定方法の概略図である。 図4は、本出願の実施例によって提供される別のターゲットオーディオ確定方法の概略図である。 図5は、本出願の実施例によって提供される別のターゲットオーディオ確定方法の概略図である。 図6は、本出願の実施例によって提供される音源の位置の概略図である。 図7は、本出願の実施例によって提供される別の音源の位置の概略図である。 図8は、本出願の実施例によって提供される可能なフレーム分割処理方法の概略図である。 図9は、本出願の実施例によって提供されるウィンドウイング(windowing)処理の効果の概略図である。 図10は、本出願の実施例によって提供される別の音源の位置の概略図である。 図11は、本出願の実施例によって提供される二乗平均平方根値を測定することを示す概略図である。 図12は、本出願の実施例によって提供されるオーディオのミキシング時間を確定する方法の概略図である。 図13は、本出願の実施例によって提供される別のオーディオのミキシング時間を確定する方法の概略図である。 図14は、本出願の実施例によって提供されるパワー変調方法のフローチャートである。 図15は、本出願の実施例によって提供される別のパワー変調方法のフローチャートである。 図16は、本出願の実施例によって提供される別のオーディオのミキシング時間を確定する方法の概略図である。 図17は、本出願の実施例によって提供されるリスニングシーンを構築する装置の構造を示す概略図である。 図18は、本出願の実施例によって提供される別のリスニングシーンを構築する装置の構造を示す概略図である。
以下、本発明の実施形態の図面を参照して、本発明の実施形態に係わる技術方案を明確且つ詳細に説明する。
本出願の実施例は、ユーザーが音楽を聴く時、ユーザーが音楽を聴く時の臨場感及び没入感を向上させることができる方法を開示する。本出願の実施例において、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、先ず音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入ると、音源の位置から伝わってくるようになり、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。
図1を参照すると、図1は、本出願の実施例によって提供される仮想リスニングシーンを構築する方法のシーン概略図である。前記方法は、コンピュータ、携帯電話などの電子機器によって実現することができる。電子機器が仮想リスニングシーン105を構築する方法を実行する過程において、音効果要素のオーディオ101、音効果要素に対して音像変調を行って獲得した左チャンネルオーディオ102、音効果要素に対して音像変調を行って獲得した右チャンネルオーディオ103、元の音楽104に対する処理に係わる。
音効果要素のオーディオ101は、元の音楽104のタイプ又は歌詞に基づいてマッチングされた音効果要素のオーディオであることができ、ユーザーの選択操作を受けて確定された音効果要素のオーディオであることもできる。音効果要素のオーディオは、幾つかのシーンの特徴を特徴付けることができ、例えば、山林のようなシーンの音は、鳥が鳴く音、木の葉が揺れる音で特徴付けることができる。
音効果要素のオーディオ101に対して音像変調した後、左チャンネルオーディオ102及び右チャンネルオーディオ103を獲得する。あるオーディオは、音源が固定されることを必要とする一方、ある音源は所定の移動軌跡を有することを必要とするので、音像変調を行う前に、先ず音効果要素のオーディオにおける音源の位置を確定することを必要とする。例えば、聴取者にとって、シーンにおける木の葉の音は固定されることができるが、鳥の音は、遠くから近くへ、又は左から右へ移動することができるので、予め設定された時間間隔で複数のタイムノードの音源の位置を確定することを必要とする。空間における1つの音源の位置は、三次元座標で表すことができ、例えば[方位角,仰角,距離]の座標で表すことができる。複数のタイムノードの音源の位置を確定した後、音効果要素のオーディオに対してフレーム分割、ウィンドウイング(windowing)などの処理を行い、そしてオーディオフレームにおける音源の位置から左右への頭部伝達関数(head-related transfer function,HRTF) を確定し、オーディオフレームに対して音源位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込み、左チャンネルオーディオ102及び右チャンネルオーディオ103を獲得する。即ち、シングルチャンネルオーディオに対して音源位置から左耳及び右耳までの伝達関数をそれぞれ畳み込むことにより、両耳オーディオを形成する。左耳及び右耳で左チャンネルオーディオ102及び右チャンネルオーディオ103を同時に再生する時、聴取者に音効果要素が音源の位置からのものであるという効果を感じさせることができる。
選択的には、音効果要素101は、波の音、木の葉の音、流水の音などのようなシーンを特徴付けることができるオーディオファイルであってもよく、WMA(windows media audio)、MP3(Moving Picture Experts Group Audio Layer III)などのオーディオフォーマットによって格納することができる。以下、ターゲットオーディオは、音効果要素のオーディオである。
元の音楽104は、再生可能なオーディオファイルであり、再生時に元の音楽と音効果要素の左チャンネルオーディオ102及び右チャンネルオーディオ103とをミキシングすることができ、ミキシング後の音楽を左耳及び右耳で再生すると、ユーザーは、再生機器を用いてミキシング後の音楽を再生する時、元の音楽104を聴くだけではなく、特殊なシーン要素が耳のあたりを巡っているように感じることができ、まるで本当にリスニングシーン106に身を置いているようである。
選択的には、元の音楽104は、複数のフォーマットのオーディオファイルであることができ、例えば、WMA(windows media audio)、MP3(Moving Picture Experts Group Audio Layer III)などのフォーマットのオーディオファイルであることができ、ヘッドホンなどの再生機器などを介して再生することができる。以下、ターゲット音楽は、元の音楽である。選択的には、前記電子機器は、ミキシング後の音楽を再生するための再生機器として機能してもよい。この場合、再生機器は、電子機器に集積された再生モジュールであり、電子機器は、計算能力を有するスマートイヤホンなどの機器であることができる。選択的には、電子機器は、有線インタフェース、無線インタフェース(例えば、WIFIインタフェース、ブルートゥースインタフェース)などを介して再生機器にミキシング後の音楽を送信することができ、再生機器はミキシング後の音楽を再生するために用いられる。この場合、電子機器は、サーバ(又はサーバクラスター)、ホストコンピューターなどの電子機器であることができ、再生機器は、ブルートゥースイヤホン、有線イヤホンなどの機器であることができる。
つまり、リスニングシーン106は、いくつかの特殊な音効果セグメントを追加したり、音効果をレンダリングしたりすることによって、聴取者に独特な仮想リスニング環境を感じさせることができる。通常のリスニングシーンは、主に海辺、窓際、郊外などがあり、これらのシーンは、いくつかの音効果要素を追加することによって作り出すことができる。
図2を参照すると、図2は、本出願の実施例によって提供されるリスニングシーンを構築する方法のフローチャートである。前記方法は、下記のステップを含むことができる。
S201:電子機器は、ターゲットオーディオを確定する。
具体的には、電子機器は、携帯電話やコンピュータなどの演算能力を有する機器であることができ、ターゲットオーディオは、ターゲット音楽にミキシングされる音効果要素のオーディオであり、ターゲット音楽は、歌曲や録音などの音楽ファイルであることができる。電子機器は、以下の選択可能な方式によってターゲットオーディオを確定することができる。
方式1:ターゲット音楽のタイプ情報によってターゲットオーディオを確定する。電子機器は、ターゲット音楽のタイプ情報又はターゲット音楽のタイプ情報のラベルを予め格納することができ、又は、電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽のタイプ情報又はタイプ情報のラベルを取得することができる。電子機器は、ターゲット音楽のタイプ情報又はターゲット音楽のタイプ情報のラベルに基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。選択的には、1つの歌曲は、複数のタイプ又は複数のラベルを有することができる。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第一マッチング閾値を予め設定することができる。具体的には、電子機器は、ターゲット音楽のタイプ情報又はタイプ情報ラベルに基づいて1つ又は複数の音効果要素をマッチングし、1つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第一マッチング閾値よりも高い1つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。選択的には、歌曲の人の声が出現する前及び人の声が出現した後(即ち、歌曲に伴奏しかない時期)に、方式1によってターゲットオーディオを確定する。
ケース1:図3を参照すると、図3は、本出願の実施例によって提供される可能なターゲットオーディオ確定方法の概略図であり、ターゲット音楽301、歌曲情報302及びマッチング情報303を含む。ターゲット音楽は、歌手である周杰倫が歌う歌曲「稲香」であることができ、電子機器は、歌曲情報302に「稲香」のタイプ情報を予め格納し、即ち、「稲香」は、民謡タイプの歌曲であり、また、ヒップホップタイプにも属し、従って、民謡及びヒップホップのタイプ情報に基づいて複数の音効果要素をマッチングし、複数の音効果要素のマッチングパラメータを獲得する。ターゲットオーディオを確定する時、選択された音効果要素をミキシングする時に不自然ではないことを確保するために、電子機器は、先ず第一マッチング閾値を予め設定することができる。例えば、第一マッチング閾値を75.0に予め設定すると、マッチングパラメータが75.0よりも高い音効果要素のみをターゲットオーディオとして確定することができる。選択的には、選択される音効果要素の数を制御するために、電子機器は、選択される音効果要素の数を予め設定することができ、例えば、選択される音効果要素の数を2に予め設定すると、マッチングパラメータが75.0よりも高い音効果要素のうち、マッチングパラメータが上位2の音効果要素のオーディオをターゲットオーディオとして確定する。図3を参照すると、「稲香」の人の声が出現する前の時期に、「山林の渓流の流水音」と「虫の音」をターゲットオーディオとして確定することができる。「フレッシュパーティクル特殊効果」は第一マッチング閾値未満であるので、ターゲットオーディオとして確定することができなく、「風が木の葉を吹く音」が第一マッチング閾値よりも高いが、2つの音効果要素のみを選択すると予め設定されているので、ターゲットオーディオとして確定することができない。
方式2:ターゲット音楽の歌詞全体によってターゲットオーディオを確定する。電子機器にターゲット音楽の歌詞全体を予め格納することができ、又は電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽の歌詞全体を取得することができる。電子機器は、歌詞全体に基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータを獲得し、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第二マッチング閾値を予め設定することができる。具体的には、電子機器は、テキストマッチングアルゴリズムを用いて、ターゲット音楽の歌詞全体に1つ又は複数の音効果要素をマッチングし、1つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第二マッチング閾値よりも高い1つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。第二マッチング閾値は、第一マッチング閾値と等しくてもよく、等しくなくてもよく、ここでは制限しない。選択的には、歌曲の人の声が出現する前及び人の声が出現した後(即ち、歌曲に伴奏しかない時期)に、方式2によってターゲットオーディオを確定する。
ケース2:電子機器に「稲香」の歌詞全体を予め格納し、ターゲットオーディオを確定する時、「稲香」の歌詞全体に基づいて複数の音効果要素をマッチングし、電子機器は、第二マッチング閾値を76.0に予め設定すると、マッチングパラメータが76.0よりも高い音効果要素をターゲットオーディオとして確定することができる。選択的には、選択される音効果要素の数を制御するために、電子機器は、選択される音効果要素の数を予め設定することができ、例えば、選択される音効果要素の数を3に予め設定すると、マッチングパラメータが75.0よりも高い音効果要素のうち、マッチングパラメータが上位3の音効果要素のオーディオをターゲットオーディオとして確定する。
方式3:ターゲット音楽の歌詞内容によってターゲットオーディオを確定し、ターゲット音楽の歌詞内容は、歌詞の文字、単語、短文又は文などの具体的な内容である。電子機器にターゲット音楽の歌詞内容を予め格納することができ、又は電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽の歌詞内容を取得することができる。電子機器は、歌詞内容に基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータを獲得し、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第三マッチング閾値を予め設定することができる。具体的には、電子機器は、単語分割アルゴリズムによって歌詞を文字、単語、短文などの具体的な内容に分けることができ、テキストマッチングアルゴリズムを利用して、ターゲット音楽の歌詞内容に1つ又は複数の音効果要素をマッチングし、1つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第三マッチング閾値よりも高い1つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。第三マッチング閾値は、第一マッチング閾値又は第二マッチング閾値と等しくてもよく、等しくなくてもよく、ここでは制限しない。選択的には、ターゲット音楽の人の声の歌い段階(即ち、人の声が出現した後及び人の声が終了する前の段階)に、方式3によってターゲットオーディオを確定する。
ケース3:図4を参照すると、図4は、本出願の実施例によって提供される別の可能なターゲットオーディオ確定方法の概略図であり、ターゲット音楽401及びマッチング情報402を含む。ターゲット音楽は「稲香」であることができ、電子機器は、単語分割アルゴリズムによって「稲香」の歌詞を文字、単語、短文などの具体的な歌詞内容に分け、「稲香」の具体的な歌詞内容に基づいてテキストマッチングを行うことができ、即ち、歌詞の具体的なテキストに基づいて1つ又は複数の音効果要素をマッチングし、1つ又は複数のテキストのそれぞれにマッチングする1つ又は複数の音効果要素のマッチングパラメータを獲得する。ターゲットオーディオを確定する時、「稲香」の人の声の歌い段階は、音楽の本体部分であるので、音効果要素とテキストとが強い関連性を有することを必要とするので、第三マッチング閾値を予め設定することができ、マッチングパラメータが予め設定された第三マッチング閾値よりも高い音効果要素のみをターゲットオーディオとして確定することができる。例えば、マッチングパラメータが85.0よりも高い音効果要素のオーディオのみをターゲットオーディオとして確定することができる。図4を参照すると、予め設定された第三マッチング閾値が85.0であると、歌曲「稲香」のうち、歌詞テキストである「梦(中国語)(夢)」にマッチングする音効果要素は「パーティクルライト効果音」及び「マジックフラッシュ効果音」があり、そのうち「マジックフラッシュ効果音」のマッチングパラメータは79.6だけであるので、そのオーディオをターゲットオーディオとして確定することができない。選択的には、選択される音効果要素の数を予め設定することができ、例えば、選択される音効果要素の数を3に予め設定すると、マッチングパラメータが85.0よりも高い音効果要素のうち、マッチングパラメータが上位3つの音効果要素のオーディオをターゲットオーディオとして確定する。
方式4:電子機器は、ユーザーに複数の選択可能な音効果要素のオーディオのオプションを提供し、電子機器はユーザーによるターゲットオーディオに対する選択操作を受信し、ターゲットオーディオを確定する。具体的には、電子機器はタッチスクリーンなどの情報入力機器を含み、ユーザーの入力操作を受信し、入力操作が指示するオーディオをターゲットオーディオとして確定する。
ケース4:図5を参照すると、図5は、本出願の実施例によって提供される別のターゲットオーディオ確定方法の概略図である。電子機器にディスプレイスクリーンが設置されており、ディスプレイスクリーンに周杰倫が歌った「稲香」の再生インタフェースが表示されている。ユーザーは、「稲香」の再生中に、音効果要素のオーディオを特徴付けるオプションラベルをクリック又はドラッグすることができ、ミキシングしようとする時間にドラッグすると、ユーザーによって選択された音効果要素のオーディオをターゲットオーディオとして確定する。選択的には、ユーザーは、音効果要素を歌詞の単語又は短文にドラッグすることができ、歌詞に対応する音楽のタイムスタンプは、ユーザーによって選択されたターゲットオーディオのミキシング時間であり、タイムスタンプ(timestamp)は、時間データであり、通常は文字シーケンスであり、歌曲の時間を特徴付けることができる。
S202:ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、電子機器は、ターゲットオーディオのサンプリングレートをターゲット音楽のサンプリングレートに変換する。
具体的には、ターゲットオーディオを確定した後、ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、ミキシング時に不自然に聞こえるので、音効果要素のサンプリングレートをターゲット音楽のサンプリングレートに変換し、ミキシング時により自然に聞こえるようにする必要がある。例えば、ターゲットオーディオのサンプリングレートは44100Hzであるが、ターゲット音楽のサンプリングレートは48000Hzであると、ターゲットオーディオのサンプリングレートを48000Hzに変換することができ、ミキシング時により自然に聞こえるようにする。選択的には、ターゲットオーディオのサンプリングレートを変換するステップを実行しなくてもよい。ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、サンプリングレートを変換せずに、ターゲットオーディオをターゲット音楽にミキシングすると、不自然に聞こえ、ターゲットオーディオによって生成されたシーン効果もターゲット音楽とあまり適しない。
S203:電子機器は、ターゲットオーディオの音源の位置を確定する。
具体的には、空間の任意の音源の位置は、音源の位置パラメータであり、三次元座標で表すことができる。例えば、聴取者にとって、音源の位置は、[方位角,仰角,距離]という3次元座標で表すことができる。異なるシーンにおいて、音源の位置は、固定された位置又は変化する位置であることができ、例えば、虫の音などは、音源の位置が固定された位置であることができるが、波の音、風の音などは、音源の位置が連続的に変化する必要がある。また、例えば、人の声が始まる前、即ち音楽の始まり部分に、ターゲットオーディオの音源の位置は遠くから近くへ変わり、音楽がゆっくり漂ってくる効果を表す。以下の選択可能な方法によって、音源の位置を確定することができる。
方法1:電子機器はターゲットオーディオにおける音源の位置を予め格納する。具体的には、電子機器はターゲットオーディオとターゲットオーディオにおける音源の位置との間の対応関係を予め格納し、電子機器は、ターゲットオーディオを確定した後、ターゲットオーディオ、及びターゲットオーディオと音源の位置との間の対応関係に基づいて音源の位置を確定する。
方法2:電子機器は、ターゲットオーディオを確定する時間に応じて音源の位置を確定する。具体的には、電子機器は、ターゲット音楽の異なる段階の音源の位置を予め格納する。例えば、ターゲットオーディオを確定する時間がターゲット音楽の人の声が始まる前であると、ターゲットオーディオの位置関係は、遠くから近くへ変化することができ、ターゲットオーディオを確定する時間がターゲット音楽の人の声が終了した後であると、ターゲットオーディオの位置関係は、遠くから近くへ変化することができる。
方法3:ユーザーの操作を受信して音源の位置を選択する。具体的には、電子機器は、ユーザーに音源位置の位置範囲、位置オプション、動き速度、動き方向などのオプションを提供することができ、ユーザーの入力操作又は選択操作が指示する音源の位置を受信し、且つターゲットオーディオの音源の位置とする。
選択的には、電子機器は、音源の位置を計算するユニットが統合することができ、異なる音源の位置を模擬することにより、ビッグデータ又は人工知能技術に基づいて、ターゲットオーディオに適する音源の位置を獲得することができる。選択的には、電子機器は、さらに、音源位置を専門的に計算する他の訓練プラットフォームから送信された音源の位置を受信することができる。ここでは繰り返さない。
ターゲットオーディオの音源の位置を確定した後、具体的に位置を生成する時、以下の複数の状況がある。
状況1:ターゲットオーディオの音源の位置が固定されており、固定位置パラメータを用いて表す。例えば、図6を参照すると、図6は、本出願の実施例によって提供される可能な音源の位置の概略図であり、ターゲットオーディオの音源の位置601及び聴取者602を含み、音源の位置の三次元座標は、[方位角,仰角,距離]で表す。位置601は[20,16,1.6]を使用し、ターゲットオーディオの音源の位置は、聴取者602にとって、方位角が20°、仰角が16°、距離が1.6メートルであることを示す。
状況2:図7を参照すると、図7は、本出願の実施例によって提供される位置が変化する音源の位置の概略図であり、ターゲットオーディオの開始位置701、終了位置702及び聴取者602を含み、音源の位置の三次元座標は、[方位角,仰角,距離]で表す。当該ターゲットオーディオの音源は、再生過程で位置701から位置702へ移動することを必要とる。予め設定された第一時間間隔T1によって、複数のタイムノードのターゲットオーディオの音源の位置を確定する。例えば、予め設定された第一時間間隔T1が0.1秒であると、0.1秒間隔毎に音源位置を1回確定する。開始時間に、聴取者602にとって、ターゲットオーディオの音源の位置は、方位角が20°、仰角が16°、距離が1.6メートルである。開始時間から0.1秒経過した後に、聴取者602にとって、ターゲットオーディオの音源の位置は、方位角が22°、仰角が15°、距離が1.5メートルであり、このように複数のタイムノードの音源の位置を獲得する。
S204:電子機器は、音源の位置に基づいてターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。
具体的には、音源の位置は、固定された位置又は変化する位置であることができ、音像変調によって、ターゲットオーディオが音源の位置から伝わってくるように聞こえるようにする。電子機器は、複数のタイムノードの各タイムノードでターゲットオーディオに対応する音源の位置に基づいて、ターゲットオーディオに対して別々に音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。音像変調の方法は、頭部伝達関数の畳み込み、又は時間遅延法、位相差法などの音像変調方法であることができる。
1つの最適な方案として、音像変調の効果を可能な限り確保するために、電子機器は、ターゲットオーディオに対して、プリエンファシス処理(pre-emphasis processing)及び正規化処理(normalization processing)を行うことができる。プリエンファシス処理は、オーディオの高周波成分を向上させる処理方式である。実際の過程において、オーディオのパワースペクトルは周波数の増加に伴って減少し、オーディオの大部分のエネルギーは低周波数範囲に集中するので、高周波端でのオーディオの信号対雑音比が許容できない程度に低下する可能性があり、従って、プリエンファシス処理を採用してオーディオの高周波解像度を向上させる。具体的には、ハイパスデジタルフィルターによってプリエンファシス処理を実現することができる。正規化処理は、計算を簡略化する一般的な情報処理方式であり、有次元の処理対象を無次元の処理対象に変換し、処理結果の適用範囲を広げることができる。
ターゲットオーディオに対してプリエンファシス処理及び正規化処理を行ってから、電子機器は、予め設定された第二時間間隔T2に基づいて、ターゲットオーディオを複数のオーディオフレームに分割する。オーディオ信号は、時間にしたがって変化する信号であり、短い期間内(一般的に10~30ms)に、オーディオ信号はほぼ変化しなく、即ち、オーディオは短時間の安定性を有すると見なす。ターゲットオーディオに対してフレーム分割処理を行うことができ、予め設定された第二時間間隔T2に基づいて、ターゲットオーディオを複数のオーディオフレーム(分析フレームとも呼ばれる)に分割して処理し、選択的には、オーディオフレームの第二時間間隔を0.1*Fsに予め設定することができ、Fsは、ターゲットオーディオの現在のサンプリングレートである。
電子機器は、オーディオに対してフレーム分割処理を行ってオーディオの自然度と連続性を破壊してスペクトルの漏れを招く問題を解決するために、ターゲットオーディオに対してフレーム分割処理を行う時、移動可能な有限長さのウィンドウで重み付けを実行する方法、即ち、ウィンドウイング及びフレーム分割処理を採用することができる。フレーム分割処理時、1秒当たりのオーディオフレーム数は、33~100フレームであることができ、実際の状況に応じて定める。フレーム分割処理は、連続セグメンテーション(continuous segmentation)又はオーバーラッピングセグメンテーション(overlapping segmentation)の方法を使用することができる。オーバーラッピングセグメンテーションは、オーディオフレーム間のスムーズな遷移、それらの連続性を維持するために使用される。前のフレームと後のフレームとの重なり部分はフレームシフトと呼ばれ、フレームシフトとフレーム長さの比率は、一般的に0~0.5である。フレーム長さは、1つのオーディオフレームのサンプリングポイントの数又はサンプリング時間である。図8を参照すると、図8は、本出願の実施例によって提供される可能なフレーム分割処理方法の概略図であり、Nはフレーム長さであり、Mはフレームシフトである。例えば、サンプリングレートが50kHzの6秒のPCMオーディオ信号に対して、フレーム長さ30msであり、フレームシフト15msである場合、オーディオ信号を401個のオーディオフレームに分割することができ、各オーディオフレームのサンプリングポイントの数、即ち、サンプル数は1500である。具体的な実施形態において、長方形ウィンドウ、ハニングウィンドウ(hanning window)、三角形ウィンドウなどの語音信号処理に通常使用されるウィンドウ関数を選択して、ウィンドウイング及びフレーム分割処理を行うことができる。例えば、オーディオフレームを分割する第二時間間隔を0.1*Fsに予め設定することができ、ここでFsはターゲットオーディオの現在のサンプリングレートであり、フレームシフトを0.1*Fs-256に設定し、ハニングウィンドウの長さは512である。図9を参照すると、図9は、本出願の実施例によって提供される可能なウィンドウイング処理効果の概略図であり、ウィンドウイング操作は、異なるデータフレームに異なる伝達関数を畳み込む時、信号の不連続性によって生じる雑音を効果的に防止することができ、異なるウィンドウの長さは異なる処理効果を示す。前処理、フレーム分割、ウィンドウイング処理などの処理を経て、ターゲットオーディオの複数のオーディオフレームを獲得することができる。
好ましい実施形態として、電子機器は、複数のオーディオフレームのタイムノードのそれぞれに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得する。
頭部伝達関数(head related transfer functions,HRTF)は、解剖学的伝達関数(anatomical transfer function,ATF)とも呼ばれ、音効果位置決めアルゴリズムであり、両耳間時間遅延(interaural time delay,ITD)、両耳間振幅差(interaural amplitude difference、IAD)及び耳介周波数振動などの技術を利用して立体的な音効果を生じさせることができ、音が人の耳の耳介、耳道及び鼓膜に伝達される時、聴取者は、サラウンド音効果を感じ、システムは、耳介、頭型、肩などの要素の影響を受ける。人に音が聞こえるのは音が空間の中で伝播する結果であり、音は音源から人の耳の鼓膜まで伝播する過程において変化が発生し、この変化は人の両耳による音に対するフィルタリングの作用であると見なすことができ、HRTF処理されたオーディオによってこのフィルタリング効果を模擬することができる。つまり、聴取者は、HRTF処理されたオーディオによってオーディオの音源の位置を判断することができる。
電子機器は、頭部伝達関数を畳み込むことによってデュアルチャネルオーディオを合成する時、ターゲットオーディオの音源の位置を測定点とし、頭部伝達関数を畳み込むことによりターゲットオーディオに方位感を与える。例えば、ドイツのケルン大学のHRTFデータベースを標準伝達関数ライブラリとして、オーディオの音源の位置情報を[方位角,仰角,距離]の3次元位置座標で表し、三次元位置座標をパラメータとして、音源の位置から両耳までのHRTF関数を確定し、音源位置から左耳及び右耳までのHRTF関数をそれぞれ畳み込み、従ってターゲットオーディオのデュアルチャネルオーディオを形成する。ここで、ドイツのケルン大学のHRTFデータベースの要求によると、位置のプリセットパラメータ範囲は、方位角度範囲は-90度~90度であり、仰角角度範囲は-90度~90度であり、距離は0.5メートル~1.5メートルであり、及びファーフィールド距離は1.5メートルより大きい。具体的に処理する時、以下の複数の状況を含むことができる。
状況1:位置が固定される音源の場合、複数のタイムノード内で三次元座標が変化していないと見なすことができる。パラメータがHRTF関数ライブラリのプリセットパラメータ範囲内にあると、電子機器は、ターゲットオーディオの音源の位置に基づいて、音源位置の頭部伝達関数を確定し、畳み込み処理を行う。図6を参照すると、図6は、本出願の実施例によって提供される可能な音源の位置の概略図であり、ターゲットオーディオの音源601及び聴取者602を含む。ドイツのケルン大学のHRTFデータベースを標準伝達関数ライブラリとして、音源の位置[20,16,1.6]を入力し、位置[20,16,1.6]がプリセットパラメータ範囲内にあると、位置[20,16,1.6]に対応する頭部伝達関数を確定し、便利に説明するために、ここでは第一頭部伝達関数と呼ぶ。ターゲットオーディオの複数のオーディオフレームに対して音源位置から左耳までの第一頭部伝達関数を畳み込むことにより、ターゲットオーディオの左チャンネルオーディオを獲得し、ターゲットオーディオの複数のオーディオフレームに対して音源位置から右耳までの第一頭部伝達関数を畳み込むことにより、ターゲットオーディオの右チャンネルオーディオを獲得する。
状況2:位置が変化する音源の場合、電子機器は、予め設定された時間間隔Tによって、複数のタイムノードの音源の位置を確定することができる。パラメータがHRTF関数ライブラリのプリセットパラメータ範囲内にあると、電子機器は、ターゲットオーディオの音源の位置に基づいて、複数のタイムノードの音源の位置の頭部伝達関数を確定し、畳み込み処理を行う。図7を参照すると、図7は、本出願の実施例によって提供される位置が変化する音源の位置の概略図であり、ターゲットオーディオの開始位置701、終了位置702及び聴取者602を含む。ターゲットオーディオの音源は、再生過程で、位置701から位置702へ移動することを必要として、位置701と位置702との間で複数のタイムノードの音源の位置を確定する。第一オーディオフレームの開始タイムノード又は終了タイムノードに対応する音源の位置に基づいて、音源の位置から左耳及び右耳までの頭部伝達関数を確定し、第一オーディオフレームに対して頭部伝達関数を畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオフレームを獲得する。例えば、ドイツのケルン大学のHRTFデータベースを標準伝達関数ライブラリとして、第一オーディオフレームに対応するタイムノードの音源の位置[20,16,1.6]を入力し、位置[20,16,1.6]がプリセットパラメータ範囲内にあると、位置[20,16,1.6]から左耳及び右耳までの頭部伝達関数を確定する。ターゲットオーディオの第一オーディオフレームに対して音源位置から左耳までの頭部伝達関数を畳み込むことにより、第一オーディオフレームの左チャンネルオーディオを獲得し、ターゲットオーディオの第一オーディオフレームに対して音源位置から右耳までの頭部伝達関数を畳み込むことにより、第一オーディオフレームの右チャンネルオーディオを獲得する。同様に、ターゲットオーディオの複数のオーディオフレームに対して相対位置の頭部伝達関数を畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得する。
状況3:状況1又は状況2の音源の位置を確定する時、第一位置の位置がHRTF関数ライブラリのプリセットパラメータ範囲内にないと、電子機器は、第一位置の周りのP個の位置点を確定し、P個の位置点に対応する頭部伝達関数によってフィッティングすることにより、第一位置に対応する頭部伝達関数を獲得することができる。便利に説明するために、ここで得られた頭部伝達関数を第二頭部伝達関数と呼ぶ。Pは、1以上の整数である。図10を参照すると、図10は、本出願の実施例によって提供される別の可能な音源の位置の概略図であり、ターゲットオーディオの第一位置1001、第二位置1002、第三位置1003、第四位置1004及び聴取者1005を含む。電子機器がオーディオフレームに対して頭部伝達関数を畳み込む時、選択された第一位置1001がHRTFのプリセットパラメータ範囲内にないと、1002に近いP個の測定点を確定する。例えば、P値が3であると予め設定し、第一位置に最も近い3つの測定点、即ち第二位置1002、第三位置1003及び第四位置1004を確定し、3つの測定点の位置がいずれもHRTF関数ライブラリのプリセットパラメータ範囲内にあり、3つの測定点に対応する頭部伝達関数によってフィッティングすることにより、第一位置に対応する第二頭部伝達関数を獲得する。選択的には、3つの測定点から第一位置までの距離重みを介して、3個の測定点に対応する頭部伝達関数をフィッティングすることにより、第一位置に対応する頭部伝達関数を獲得する。
S205:電子機器は、ターゲットオーディオのデュアルチャネルオーディオのパワーを変調する。
具体的には、ターゲットオーディオがターゲット音楽のリスニング体験に大きい影響を及ぼさないように、電子機器は、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングする前に、ターゲットオーディオに対してパワー変調を行うことができ、即ちターゲットオーディオのパワーを下げて、ターゲットオーディオのパワーがターゲット音楽のパワーより低いようにする。なお、デュアルチャネルオーディオのパワーを変調することは、好ましい実施例に過ぎず、ユーザ体験を向上させるための選択可能な方案である。電子機器は、ターゲットオーディオのデュアルチャネルオーディオのパワーを変調する前に、ターゲットオーディオをターゲット音楽にレンダリングする時間を確定することを必要として、即ちターゲットオーディオのミキシング時間を確定する。ターゲットオーディオのミキシング時間を確定することは、以下の複数の選択的な方案がある。
方法1:電子機器は、ターゲットオーディオのミキシング時間を予め設定する。選択的には、電子機器は、ターゲットオーディオをターゲット音楽にレンダリングする時、ターゲットオーディオを複数回ミキシングすることができ、又は予め設定された第三時間間隔T3によって循環的に出現することができる。図12を参照すると、図12は、本出願の実施例によって提供される可能なオーディオのミキシング時間を確定する方法の概略図であり、ターゲットオーディオ1201及びターゲット音楽1202を含む。ターゲットオーディオをミキシングする時、ターゲットオーディオの長さが6sであり、予め設定された1回目のミキシングの時間が5sであり、予め設定された第三時間間隔T3が7sであると、ターゲットオーディオの1回目のミキシング時間はターゲット音楽の第5s目であり、第11s目にターゲットオーディオのミキシングを終了し、2回目のミキシング時間はターゲット音楽の第18s目であることを示す。選択的には、方式1及び方式2によって確定されたターゲットオーディオは、ターゲットオーディオの1回目のミキシング時間を予め設定する方案でミキシングすることができる。例えば、ケース1において、歌曲「稲香」を再生する時、田野環境を特徴付けることができる花草虫鳥の音を第5s目にミキシングするように予め設定し、「稲香」を田野環境で再生するシーンの効果を作り出す。
方法2:電子機器は、歌詞のタイムスタンプに基づいてターゲットオーディオのミキシング時間を確定する。例えば、電子機器は、方式2によってターゲットオーディオを確定し、ターゲットオーディオをマッチングする時に歌詞によってマッチングするので、マッチングした歌詞が歌い始められるタイムスタンプは、ターゲットオーディオのミキシング時間である。図13を参照すると、図13は、本出願の実施例によって提供される別の可能なオーディオのミキシング時間を確定する方法の概略図であり、ターゲットオーディオ1301及びターゲット音楽1302を含み、ターゲットオーディオ1301は、t5~t6の間に歌われる歌詞に基づいてマッチングして確定されたオーディオである。例えば、図4を参照すると、ケース3において、「稻香」(中国語)(日本語の稲香に対応する)という歌詞に基づいてマッチングされた「田野の花草虫鳥の音」をターゲットオーディオとして確定した後、ミキシング時間は、「稻香」(中国語)という歌詞が歌い始められるタイムスタンプである。
方法3:電子機器は、ユーザーの選択又は入力動作を受信し、選択又は入力動作により指示された時間をターゲットオーディオのミキシング時間として確定する。例えば、図5を参照すると、ケース4において、ユーザーが「虫の音」を歌詞の「蛍火虫(中国語)」にドラッグすると、「蛍火虫」という歌詞が歌い始められる時間をオーディオのミキシング時間とする。
電子機器は、ターゲットオーディオのミキシング時間を確定した後、オーディオのミキシング時間に基づいてオーディオに対してパワー変調を行うことができる。選択的には、統一された時間に複数のオーディオをミキシングすることを必要とすると、電子機器は、複数のオーディオのパワーを比率によって下げて、最後に出力する全体パワーが所定のパワー閾値を超えないようにすることができる。オーディオ信号は、ランダムな信号であるので、オーディオ信号のパワーは、二乗平均平方根値(root meam square,RMS)で表すことができ、オーディオ信号のピークと同じ振幅の正弦波信号の測定結果であり、平均値に近く、オーディオの発熱エネルギーを表す。二乗平均平方根値は、実効値(effective value)とも呼ばれ、その計算方法は、先ず二乗し、次に平均化し、それから平方根を求める。図11を参照すると、図11は、本出願の実施例によって提供される二乗平均平方根値を測定することを示す概略図であり、オーディオ信号の下で、1.00VのオーディオCH1の二乗平均平方根値が513.0mVであることを示す。ターゲットオーディオに対してパワー変調を実行すると、音効果要素のラウドネスが大きすぎるので音楽信号を覆うことを防止することができ、音効果要素のラウドネスが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、以下のいくつかの方法でパワーを変調することができる。
方法1:第一変調係数を確定し、ターゲットオーディオをターゲット音楽のRMS値のalpha倍に変調し、alphaは、予め設定されたパラメータ又は受信されたユーザーの入力操作により指示されたパラメータであり、0<alpha<1である。図14を参照すると、図14は、本出願の実施例によって提供されるパワー変調方法のフローチャートであり、主に以下のステップを含む。
S1411:ターゲットオーディオの左チャンネルオーディオRMSA1、ターゲットオーディオの右チャンネルオーディオRMSB1、ターゲット音楽のオーディオRMSを計算する。
具体的には、ターゲットオーディオの左チャンネルオーディオ及び右チャンネルオーディオは、畳み込み関数によって処理されるので、オーディオを変調する時、シングルチャンネルのパワーをそれぞれ計算する必要がある。
S1412:計算パラメータalphaを取得する。
S1413:RMSA2=alpha*RMSを満たすために、左チャンネルオーディオをRMSA2と設定する。
S1414:RMSA2とRMSA1との比を第一左チャンネル変調係数MA1とする。
Figure 2023503959000006
S1415:RMSB2=alpha*RMSを満たすために、右チャンネルオーディオをRMSB2と設定する。
S1416:RMSB2とRMSB1との比を第一右チャンネル変調係数MB1とする。
Figure 2023503959000007
S1417:MA1とMB1のうちの小さい値を第一変調係数Mとして、ターゲットオーディオの左チャンネルオーディオ及び右チャンネルオーディオのRMS値をそれぞれM*RMSA1及びM*RMSB1に調整する。
Figure 2023503959000008
S1417:MA1とMB1のうちの小さい値を第一変調係数Mとして、ターゲットオーディオの左チャンネルオーディオ及び右チャンネルオーディオのRMS値をそれぞれM*RMSA1及びM*RMSB1に調整する。
具体的には、MA1とMB1のうちの小さい値を第一変調係数Mとして、即ち、
M_1=min(M_A1,M_B1)である。
ターゲットオーディオは畳み込み関数によって処理されるので、デュアルチャネルの音像変調効果を変更せずに維持するために、左右の2つのチャンネルの振幅変調に1つの変調係数を共用することを必要とするので、MA1とMB1のうちの小さい値を第一変調係数Mとする。
選択的には、方式1で変調する時、変調後のターゲットオーディオがターゲット音楽にミキシングされた後、得られたミキシングされたオーディオの二乗平均平方根値がマシン数の値範囲を超える場合、ターゲットオーディオのパワーを下げる必要があり、そうでなければ、データオーバーフローをもたらす。図14に示された方法において、システムがalphaを0.5に予め設定した場合、第一変調係数によって変調されたターゲット音楽のRMS値はターゲット音楽のRMS値より6dB少なく、効果音要素が過剰に出現せず、従って元の音楽の聴取に影響しないことを確保する。
方法2:第二変調係数を確定し、ターゲットオーディオのRMS値を変調し、ターゲット音楽のRMS値とターゲットオーディオのRMS値との合計がマシン数の値範囲の最大値を超えないようにする。変調によって、ターゲットオーディオのRMS値は常にターゲット音楽のRMS値より小さい。図15を参照すると、図15は、本出願の実施例によって提供される別の可能なパワー変調方法のフローチャートであり、Fは、マシン数の値範囲の最大値であり、主に以下のステップを含む。
S1521:ターゲットオーディオの左チャンネルオーディオRMSA1、ターゲットオーディオの右チャンネルオーディオRMSB1、ターゲット音楽のオーディオRMSを計算する。
S1522:RMSA3=F-RMSを満たすために、左チャンネルオーディオをRMSA3と設定する。
S1523:RMSA3とRMSA1との比を第二左チャンネル変調係数MA2とする。
Figure 2023503959000009
S1524:RMSB3=F-RMSを満たすように、チャンネルオーディオをRMSB3と設定する。
S1525:RMSB3とRMSB1との比を第二右チャンネル変調係数MB2とする。
Figure 2023503959000010
S1526:MA2とMB2のうちの小さい値を第二変調係数Mとして、ターゲットオーディオの左チャンネルオーディオ及び右チャンネルオーディオのRMS値をそれぞれM*RMSA1及びM*RMSB1に調整する。
Figure 2023503959000011
図15に示された方法において、電子機器は、第二変調係数によって、ターゲット音楽のRMS値とターゲットオーディオのRMS値との合計がマシン数の値範囲の最大値を超えないようにすることができる。この変調方法は、データオーバーフローを防止した上で、音効果要素が過剰に出現せず、従って元の音楽の聴取に大きく影響しないことを確保する。
方法3:第三変調係数を確定し、ターゲットオーディオのRMS値を変調することにより、ターゲットオーディオのRMS値がターゲット音楽のRMS値より小さくなるようにする。第三変調係数は、その他の方式で確定することができ、ターゲット音楽のRMS値を変調するために用いられ、例えば、第一変調係数と第二変調係数のうちの小さい値を第三変調係数として、即ち、第一変調係数の値が第二変調係数の値より小さい場合、第一変調係数を変調係数として確定し、ターゲットオーディオのRMS値を変調するために用いられ、ターゲットオーディオのRMS値がターゲット音楽のRMS値より小さくなるようにする。同様に、第二変調係数の値が第一変調係数の値より小さい場合、第二変調係数を変調係数として確定し、ターゲットオーディオのRMS値を変調するために用いられ、ターゲットオーディオのRMS値がターゲット音楽のRMS値より小さくなるようにする。この変調方法は、データオーバーフローを防止することを前提として、できるだけ効果音データと音楽データとのRMS比率関係を変化しないように確保することができ、ターゲットオーディオのパワーが大きすぎるのでターゲット音楽を覆うことを防止することができ、ターゲットオーディオのパワーが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、ターゲット音楽の主体としての地位を確保する。
選択的には、音楽はリアルタイムに再生されるので、様々な音効果要素のオーディオを使用して、リスニングシーンを構築することができる。図16を参照すると、図16は、本出願の実施例によって提供される別のオーディオのミキシング時間を確定する方法の概略図であり、第一オーディオ1601、第二オーディオ1602及びターゲット音楽1603を含む。第二オーディオ1602のミキシング時間は、t7~t9の期間であり、t7~t9の間のt8で、第一オーディオをミキシングすることを必要とする。同じ時間に複数のオーディオをミキシングすることを必要とする場合、複数のオーディオに対して重み付け平均調整法のミキシング操作を行い、且つミキシング操作後のオーディオに対してパワーを変調することにより、ミキシング後のオーディオのRMS値がターゲット音楽のRMS値より小さくなるようにする。
S206:電子機器は、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得する。
具体的には、電子機器は、ステップS206において確定されたターゲットオーディオのミキシング時間に基づいて、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にミキシングして、ミキシング後の音楽を獲得し、再生機器がミキシング後の音楽を再生する時、聴取者は、ターゲット音楽がターゲットシーンで再生される効果を感じることができる。
選択的には、電子機器は、ミキシング後の音楽を再生するための再生機器として機能してもよい。この場合、再生機器は、電子機器に集積された再生モジュールであり、電子機器は、計算能力を有するスマートイヤホンなどの機器であることができる。選択的には、電子機器は、有線インタフェース、無線インタフェース(例えばWIFIインタフェース、ブルートゥースインタフェース)などを介して再生機器にミキシング後の音楽を送信することができ、再生機器はミキシング後の音楽を再生するために用いられる。この場合、電子機器は、サーバ(又はサーバクラスター)、ホストコンピューターなどの電子機器であることができ、再生機器は、ブルートゥースイヤホン、有線イヤホンなどの機器であることができる。
例えば、電子機器は、歌曲「稲香」をターゲット音楽とし、田野をターゲットシーンとし、「田野の花草虫鳥の音」、「渓流の流水音」、「フラッシュ特殊効果音」を田野のシーンを代表するターゲットオーディオとして、ターゲットオーディオにおける音源の位置を確定した後、ターゲットオーディオに対して畳み込み処理、パワー変調などの操作を行い、ターゲットオーディオのミキシング時間によって、ターゲットオーディオを「稲香」のオーディオにミキシングすることにより、ミキシングオーディオを獲得する。ミキシングオーディオはイヤホン接続インタフェースを介してヘッドホンに送信することによって、聴取者は、ヘッドホンで「稲香」を聞く時、音効果要素が耳のあたりを巡っているように感じ、田野に身を置いて稲の香りを嗅いでいるようなものである。
図2に示された方法において、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、電子機器は、先ずオーディオの音源の位置を確定し、音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入る時、音源の位置から伝わってくるようになり、音効果要素がよりリアルなリスニングシーンを構築することができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。
以上、本出願の実施例の方法について詳細に説明し、以下、本出願の実施例の装置を提供する。
図17を参照すると、図17は、本出願の実施例によって提供されるリスニングシーンを構築する装置170の構造を示す概略図である。サーバ170は、オーディオ選択ユニット1701、位置確定ユニット1702、音像変調ユニット1703及びオーディオレンダリングユニット1704を含むことができ、各ユニットの詳細説明は、以下のとおりである。
オーディオ選択ユニット1701は、ターゲットオーディオを確定するために用いられ、ターゲットオーディオはターゲットシーンにおける音特徴を特徴付けるために用いられる。位置確定ユニット1702は、ターゲットオーディオの音源の位置を確定するために用いられる。音像変調ユニット1703は、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、ターゲットオーディが音源の位置からのものであるという効果を生じることができる。オーディオレンダリングユニット1704は、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得するために用いられる。
以上から分かるように、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、先ず音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入る時、音源の位置から伝わってくるようになり、音効果要素がよりリアルなリスニングシーンを構築することができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。
別の選択的な方案において、ターゲット音楽の人の声部分が出現する前又は人の声が終了した後において、ターゲットオーディオは、ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び/又は、ターゲット音楽の人の声部分において、ターゲットオーディオは、ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである。
つまり、ターゲット音楽の人の声が出現する前及び終了した後において、ターゲット歌曲は、伴奏のみで人の声がない段階に属し、この段階において、歌曲のタイプ又は歌詞内容全体に基づいてターゲットオーディオを確定することができ、聴取者は、歌曲の伴奏部分で歌曲のスタイル又は歌曲内容にマッチングするオーディオを感じることができる。ターゲット音楽の人の声が出現する部分において、音楽の主な効果は、歌われる歌詞を介して伝えられるので、歌詞の具体的な内容に基づいてターゲットオーディオをマッチングし、このように音楽歌詞を主導とするオーディオマッチング方法は、追加するオーディオがターゲット音楽の内容により合致し、音楽を聴く体験を向上させる。
別の選択的な方案において、オーディオ選択ユニット1701はターゲットオーディオを確定するために用いられ、具体的には、ターゲットオーディオに対する選択操作を受信して、ターゲットオーディオとして確定する。
以上から分かるように、ミキシングすべきオーディオを選択する時、ユーザーに1つ又は複数のオーディオを提供し、ターゲットオーディオに対する選択操作を受信することにより、ターゲットオーディオとして確定する。つまり、ユーザーは、音楽を聴いているところ、自分の好みに応じてオーディオを自主的に選択して音楽にミキシングすることができ、従って個性的なリスニングシーンを構築し、ユーザーの創作と欲望を奮い立たせ、リスニング体験の面白さを増加させることができる。
別の選択的な方案において、位置確定ユニット1702はターゲットオーディオの音源の位置を確定するために用いられ、具体的には、複数のタイムノードのターゲットオーディオの音源の位置を確定する。
音像変調ユニットは、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、複数のタイムノードの音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。
現在のデバイスが音楽を再生して音効果要素を追加する時、音源の位置が固定されており、左耳と右耳で聞こえる内容は同じであり、音響位置は中央にあるか、又は、固定されている。しかし、空間において、音効果要素の音源の位置は、人の耳に対して固定されていることも、変位することもあり得る。本出願の実施例に係わる装置は、ターゲットリスニングシーンを特徴付けるオーディオに対して、予め設定された時間間隔で複数のタイムノードのターゲットオーディオの音源の位置を確定し、複数のタイムノードの音源位置に基づいてターゲットオーディオに対して音像変調を行うことにより、ターゲットオーディオが音源の位置からのものであるという効果を生じさせ、移動軌跡が変化可能であり、ユーザーの臨場感を向上させ、構築されたリスニングシーンがより自然になる。
別の選択的な方案において、音像変調ユニット1703は、フレーム分割サブユニット1705及び音像生成サブユニット1706を含む。フレーム分割サブユニット1705は、ターゲットオーディオを複数のオーディオフレームに分割するために用いられる。音像生成サブユニット1706は、複数のオーディオフレームのタイムノードに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる。
以上から分かるように、オーディオ処理効果を向上させるために、頭部伝達関数を用いて音像変調を行う前に、ターゲットオーディオに対してフレーム分割処理を実行することを必要とする。分割されたオーディオフレームに対して頭部伝達関数を畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオが左耳及び右耳で再生される時、聴取者にターゲットオーディオが音源の位置からのものであるという効果を感じさせ、音効果要素をよりリアルに呈する。
別の選択的な方案において、音像生成サブユニット1706は、フレーム位置マッチングサブユニット1707、位置測定サブユニット1708及び畳み込みサブユニット1709を含む。フレーム位置マッチングサブユニット1707は、複数のオーディオフレームのうちの1つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得するために用いられる。位置測定サブユニット1708は、第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定するために用いられ、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応する。畳み込みサブユニット1709は、第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。
以上から分かるように、ターゲットオーディオの音源の位置が連続的に変化することができるので、複数のオーディオフレームのうちの第一オーディオフレームに対して、先ず第一オーディオフレームに対応する第一位置を確定し、さらに第一位置に対応する頭部伝達関数を確定し、そして畳み込み処理を行う。頭部伝達関数を畳み込む処理を行ったターゲットオーディオのデュアルチャネルオーディオを聴取者の左耳及び右耳で再生する時、聴取者にターゲット音楽が音源の位置から伝わってくるように感じさせることができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。
別の選択的な方案において、位置測定サブユニット1708は、さらに、第一位置が予め設定された測定点範囲内にない場合に、第一位置に基づいて、P個の測定位置点を確定するために用いられ、P個の測定位置点は、予め設定された測定点範囲内にあるP個の点であり、Pは、1以上の整数である。
前記装置は、位置フィッティングサブユニット1710をさらに含む。位置フィッティングサブユニット1710は、P個の測定位置点に対応する頭部伝達関数によってフィッティングすることにより、第一位置に対応する第二頭部伝達関数を獲得するために用いられる。畳み込みサブユニット1709は、さらに、第一オーディオフレームに対して第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる。
以上から分かるように、頭部伝達関数は測定点範囲が予め設定されており、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応している。第一位置が測定点範囲内にない場合、第一位置に近く、予め設定された範囲内にあるP個の測定点を確定し、P個の測定点に対応する頭部伝達関数によってフィッティングすることにより、第一位置の頭部伝達関数を獲得し、ターゲットオーディオの音像変調効果の正確率を向上させ、ターゲットオーディオの処理過程の効果安定性を強化させることができる。
別の選択的な方案において、オーディオレンダリングユニット1704は、ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、ターゲット音楽がターゲットシーンで再生される効果を獲得するために用いられ、具体的には、
変調係数確定サブユニット1711は、左チャンネルオーディオの二乗平均平方根(RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、
調整サブユニット1712は、変調係数に基づいて、左チャンネルオーディオのRMS値及び右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得するために用いられ、調整後の左チャンネルオーディオのRMS値及び調整後の右チャンネルのRMS値は、ターゲット音楽のRMS値より高くなく、
ミキシングサブユニット1713は、調整後の左チャンネルオーディオをターゲット音楽の左チャンネルにミキシングして、ターゲット音楽の左チャンネルのレンダリングオーディオとし、調整後の右チャンネルオーディオをターゲット音楽の右チャンネルにミキシングして、ターゲット音楽の右チャンネルのレンダリングオーディオとするために用いられる。
現在のデバイスが音楽を再生して音効果要素を追加する時、追加する音効果要素の音強度が統一されておらず、一部の音効果要素のラウドネスはとても大きく、データオーバーフローをもたらしやすく、音楽の音を覆う一方、一部の音効果要素のラウドネスはとても小さく、ほとんど感知できず、ユーザーが音楽を聴く体験に影響を与える。本出願の実施例に係わる装置は、ターゲットオーディオを音楽にミキシングする時、先ずターゲット音楽のパワーを変調させ、音楽のラウドネスなどの特徴を変え、音効果要素が元の音楽信号を覆うことを防止し、音効果要素のラウドネスが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、音効果要素を追加したオーディオは、ユーザーが元の音楽を聴取することに影響を及ぼさない。
別の選択的な方案において、変調係数確定サブユニット1711は、左チャンネルオーディオのRMS値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、具体的には、左チャンネルオーディオのRMS値をRMSA1とし、右チャンネルオーディオのRMS値をRMSB1とし、ターゲット音楽のRMS値をRMSとして、
RMSA2、RMSB2及びRMSが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA2に調整し、右チャンネルオーディオのRMS値をRMSB2に調整し、
RMSA2=alpha*RMSであり、
RMSB2=alpha*RMSであり、alphaは、予め設定された比率係数であり、0<alpha<1であり、
Figure 2023503959000012
第一グループ値を変調係数として確定する。
以上から分かるように、ターゲット音楽の左チャンネルオーディオのRMS値、ターゲット音楽の右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定し、変調係数によってターゲットオーディオのパワーを変調して、ターゲットオーディオの二乗平均平方根値とターゲット音楽の二乗平均平方根値とが所定の比率になるように制御することにより、ターゲットオーディオが過剰に出現せず、従って元の音楽の聴取に影響しない。音効果要素とターゲット音楽との比値であるalpha値の設定は、システムにより予め設定されてもよく又はユーザーにより自ら設定されてもよく、ユーザーは自分の好みに応じて比率係数を設定することができ、従って個性的なリスニング効果を構築し、リスニング体験の面白さを増加させる。
別の選択的な方案において、変調係数確定サブユニット1711は、さらに、以下の操作を実行するために用いられ、
RMSA3、RMSB3及びRMSが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA3に調整し、右チャンネルオーディオのRMS値をRMSB3に調整し、
RMSA3=F-RMSであり、Fは浮動小数点型で表される数字の最大数であり、
RMSB3=F-RMSであり、
Figure 2023503959000013
第一グループ値は、第二グループ値より小さい。
以上から分かるように、変調係数を確定する時、ミキシング後のレンダリングオーディオのRMS値がマシン数の値範囲の最大値を超えないようにする必要があり、このように、データオーバーフローを防止する前提下で、ターゲットオーディオのパワーが大きすぎるのでターゲット音楽を覆うことを防止することができ、ターゲットオーディオのパワーが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、ターゲット音楽の主体としての地位を確保する。
別の選択的な方案において、装置は、サンプリングレート変換ユニット1714をさらに含む。サンプリングレート変換ユニット1714は、オーディオ選択ユニットがターゲットオーディオを確定した後、位置確定ユニットがターゲットオーディオの音源の位置を確定する前に、ターゲットオーディオのサンプリングレートとターゲット音楽のサンプリングレートとが同じではない場合、ターゲットオーディオのサンプリングレートをターゲット音楽のサンプリングレートに変換するために用いられる。
以上から分かるように、ターゲットオーディオを確定した後、ターゲットオーディオとターゲット音楽のサンプリングレートとが同じではない場合、音効果要素のサンプリングレートをターゲット音楽のサンプリングレートに変換することにより、ミキシング時により自然に聞こえる。
以上から分かるように、図17によって説明された装置は、ユーザーが音楽を聴く時、リスニングシーンを特徴付けることができる音効果要素をミキシングする。音効果要素のオーディオを音楽にミキシングする時、先ず音源の位置に基づいて音効果要素のオーディオに対して音像変調を行うことにより、音効果要素が両耳に入る時、音源の位置から伝わってくるようになり、音効果要素がよりリアルなリスニングシーンを構築することができ、ユーザーが音楽を聴く時の臨場感及び没入感を向上させる。
なお、各操作の実現は、さらに、図2に示された方法実施例に対する説明を対応して参照することができることに留意されたい。装置170は、図2に示された方法実施例の電子機器、又は電子機器に統合されたモジュールである。
図18を参照すると、図18は、本出願の実施例によって提供される別のリスニングシーンを構築する装置180の構造を示す概略図である。リスニングシーンを構築する装置は、プロセッサ1801、メモリ1802及びバス1803を含むことができる。プロセッサ1801とメモリ1802は、バス1803又はその他の方式によって接続されることができ、本出願の実施例は、バスによって接続されることを例として、各ユニットの詳細な説明は以下の通りである。
プロセッサ1801(中央プロセッサ(Central Processing Unit、CPU)とも呼ばれる)は、装置の計算コア及び制御コアであり、装置内の様々な指令及び処理装置の様々なデータを解析することができ、例えば、CPUは、装置内部構造間で様々なインタラクションデータを伝送することができる。
メモリ1802は、装置内の記憶デバイスであり、プログラム及びデータを格納するために用いられる。メモリ1802は、装置の内蔵メモリを含むことができ、装置がサポートする拡張メモリを含むこともできる。メモリ801は、装置のオペレーティングシステム及びその他のデータを格納する記憶空間を提供する。例えば、Androidシステム、iOSシステム、Windows Phoneシステムなどを含むことができ、本出願はこれに対して限定しない。
プロセッサ1801は、メモリ1802に格納されたプログラム命令を呼び出して、図2に示す実施例によって提供される方法を実行するために用いられる。
なお、各操作の実現は、さらに、図2に示された方法実施例の対応する説明を参照することができることに留意されたい。装置180は、図2に示された方法実施例の電子機器、又は電子機器に統合されたモジュールである。
本出願の実施例は、コンピュータプログラムが格納されたコンピュータ可読記憶媒体をさらに提供し、コンピュータ可読記憶媒体がプロセッサ上で実行されると、図2に示された実施例の電子機器によって実行される操作を実現する。
本出願の実施例は、コンピュータプログラム製品をさらに提供し、コンピュータプログラム製品がプロセッサ上で実行されると、図2に示された実施例の電子機器によって実行される操作を実現する。
上述した実施例の全部又は一部は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせによって実現することができる。ソフトウェアによって実現する場合、上記の機能の全部又は一部は、コンピュータプログラム製品の形式で実現することができる。コンピュータプログラム製品は、1つ又は複数のコンピュータ命令を含む。コンピュータプログラム命令がコンピュータにロードされて実行されるとき、本出願の実施例に記載されたプロセス又は機能の全部又は一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク又は他のプログラム可能な装置であることができる。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又はコンピュータ可読記憶媒体を介して伝送されてもよい。コンピュータ命令は、1つのWebサイト、コンピュータ、サーバー又はデータセンターから有線(例えば、同軸ケーブル、光ファイバー、デジタル加入者線(digital subscriber line,DSL)などである)又は無線(例えば、赤外線、無線、マイクロ波などである)で別のWebサイト、コンピュータ、サーバー又はデータセンターに送信することができる。コンピュータ可読記憶媒体は、コンピュータがアクセスできる任意の利用可能な媒体であることができ、又は1つ又は複数の利用可能な媒体統合を含むサーバー、データセンターなどのようなデータ記憶装置であることができる。使用可能な媒体は、磁気媒体(例えば、ソフトディスク、ハードディスク又は磁気テープである)、光学媒体(例えば、デジタルビデオディスク(DVD)である)、又は半導体媒体(ソリッドステートディスク(SSD))などであることができる。
第一態様の別の選択的な形態において、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
ターゲットオーディオを複数のオーディオフレームに分割することと、
複数のオーディオフレーム対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数(head-related transfer function,HRTF)をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することと、を含む。
第一態様の別の選択的な形態において、複数のオーディオフレームに対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
複数のオーディオフレームのうちの1つのオーディオフレームである第一オーディオフレームに対応する源の第一位置を取得することと、
第一位置が予め設定された測定点範囲内にある場合に、第一位置に対応する第一頭部伝達関数を確定することであって、予め設定された測定点範囲内の各測定点は頭部伝達関数に対応する、確定することと、
第一オーディオフレームに対して第一位置から左耳及び右耳までの第一頭部伝達関数をそれぞれ畳み込むことにより、ターゲットオーディオの第一オーディオフレームのデュアルチャネルオーディオを獲得することとを含む。
第二態様の別の選択的な形態において、音像変調ユニットは、
ターゲットオーディオを複数のオーディオフレームに分割するフレーム分割サブユニットと、
複数のオーディオフレーム対応する音源の位置に基づいて、複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数(head-related transfer function,HRTF)をそれぞれ畳み込むことにより、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる音像生成サブユニットと、を含む。
第二態様の別の選択的な形態において、調整前の左チャンネルオーディオのRMS値をRMSA1とし、調整前の右チャンネルオーディオのRMS値をRMSB1とし、ターゲット音楽のRMS値をRMSとして、変調係数確定サブユニットは、左チャンネルオーディオの二乗平均平方根(RMS)値、右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、具体的には、
RMSA2、RMSB2及びRMSが以下の関係を満たすように、左チャンネルオーディオのRMS値をRMSA2に調整し、右チャンネルオーディオのRMS値をRMSB2に調整し、
RMSA2=alpha*RMSであり、
RMSB2=alpha*RMSであり、alphaは、予め設定された比率係数であり、0<alpha<1であり、
Figure 2023503959000036
第一グループ値を変調係数として確定する。
第三態様によれば、本出願の実施例は、リスニングシーンを構築する装置を提供し、プロセッサ及びメモリを含み、メモリはコンピュータプログラムを格納するために用いられ、プロセッサは、コンピュータプログラムを呼び出して、本出願の実施例の第一態様又は第一態様のいずれかの実現形態に係わる方法を実行するために用いられることを特徴とする。
上述した、第二態様のリスニングシーンを構築する装置、第三態様のリスニングシーンを構築する装置、第四態様のコンピュータ記憶媒体、及び第五態様のコンピュータプログラム製品は、第一態様のリスニングシーンを構築する方法を実行するために用いられ、従って、実現できる有益な効果は、第一態様のリスニングシーンを構築する方法の有益な効果を参照することができ、ここでは詳しく説明しない。
方式1:ターゲット音楽のタイプ情報によってターゲットオーディオを確定する。電子機器は、ターゲット音楽のタイプ情報又はターゲット音楽のタイプ情報のラベルを予め格納することができ、又は、電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽のタイプ情報又はタイプ情報のラベルを取得することができる。電子機器は、ターゲット音楽のタイプ情報又はターゲット音楽のタイプ情報のラベルに基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。選択的には、1つの歌曲は、複数のタイプ又は複数のラベルを有することができる。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第一マッチング閾値を予め設定することができる。具体的には、電子機器は、ターゲット音楽のタイプ情報又はタイプ情報ラベルに基づいて1つ又は複数の音効果要素をマッチングし、1つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第一マッチング閾値よりも高い1つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。選択的には、歌曲の人の声が出現する前及び人の声が終了した後(即ち、歌曲に伴奏しかない時期)に、方式1によってターゲットオーディオを確定する。
方式2:ターゲット音楽の歌詞全体によってターゲットオーディオを確定する。電子機器にターゲット音楽の歌詞全体を予め格納することができ、又は電子機器は、有線インタフェース、無線インタフェースなどを介してターゲット音楽の歌詞全体を取得することができる。電子機器は、歌詞全体に基づいて音効果要素をマッチングし、音効果要素のマッチングパラメータを獲得し、音効果要素のマッチングパラメータに基づいてターゲットオーディオを確定する。音効果要素をマッチングする時、ターゲットオーディオとターゲット音楽との相関度を高めるために、第二マッチング閾値を予め設定することができる。具体的には、電子機器は、テキストマッチングアルゴリズムを用いて、ターゲット音楽の歌詞全体に1つ又は複数の音効果要素をマッチングし、1つ又は複数の音効果要素のマッチングパラメータを獲得し、マッチングパラメータが第二マッチング閾値よりも高い1つ又は複数の音効果要素のオーディオをターゲットオーディオとして確定する。第二マッチング閾値は、第一マッチング閾値と等しくてもよく、等しくなくてもよく、ここでは制限しない。選択的には、歌曲の人の声が出現する前及び人の声が終了した後(即ち、歌曲に伴奏しかない時期)に、方式2によってターゲットオーディオを確定する。
ケース2:電子機器に「稲香」の歌詞全体を予め格納し、ターゲットオーディオを確定する時、「稲香」の歌詞全体に基づいて複数の音効果要素をマッチングし、電子機器は、第二マッチング閾値を76.0に予め設定すると、マッチングパラメータが76.0よりも高い音効果要素をターゲットオーディオとして確定することができる。選択的には、選択される音効果要素の数を制御するために、電子機器は、選択される音効果要素の数を予め設定することができ、例えば、選択される音効果要素の数を3に予め設定すると、マッチングパラメータが7.0よりも高い音効果要素のうち、マッチングパラメータが上位3の音効果要素のオーディオをターゲットオーディオとして確定する。
方法2:電子機器は、ターゲットオーディオを確定する時間に応じて音源の位置を確定する。具体的には、電子機器は、ターゲット音楽の異なる段階の音源の位置を予め格納する。例えば、ターゲットオーディオを確定する時間がターゲット音楽の人の声が始まる前であると、ターゲットオーディオの位置関係は、遠くから近くへ変化することができ、ターゲットオーディオを確定する時間がターゲット音楽の人の声が終了した後であると、ターゲットオーディオの位置関係は、近くから遠くへ変化することができる。
状況1:位置が固定される音源の場合、複数のタイムノード内で三次元座標が変化していないと見なすことができる。パラメータがHRTF関数ライブラリのプリセットパラメータ範囲内にあると、電子機器は、ターゲットオーディオの音源の位置に基づいて、音源位置の頭部伝達関数を確定し、畳み込み処理を行う。図6を参照すると、図6は、本出願の実施例によって提供される可能な音源の位置の概略図であり、ターゲットオーディオの音源の位置601及び聴取者602を含む。ドイツのケルン大学のHRTFデータベースを標準伝達関数ライブラリとして、音源の位置[20,16,1.6]を入力し、位置[20,16,1.6]がプリセットパラメータ範囲内にあると、位置[20,16,1.6]に対応する頭部伝達関数を確定し、便利に説明するために、ここでは第一頭部伝達関数と呼ぶ。ターゲットオーディオの複数のオーディオフレームに対して音源位置から左耳までの第一頭部伝達関数を畳み込むことにより、ターゲットオーディオの左チャンネルオーディオを獲得し、ターゲットオーディオの複数のオーディオフレームに対して音源位置から右耳までの第一頭部伝達関数を畳み込むことにより、ターゲットオーディオの右チャンネルオーディオを獲得する。
選択的には、方式1で変調する時、変調後のターゲットオーディオがターゲット音楽にミキシングされた後、得られたミキシングされたオーディオの二乗平均平方根値がマシン数の値範囲を超える場合、ターゲットオーディオのパワーを下げる必要があり、そうでなければ、データオーバーフローをもたらす。図14に示された方法において、システムがalphaを0.5に予め設定した場合、第一変調係数によって変調されたターゲットオーディオのRMS値はターゲット音楽のRMS値より6dB少なく、効果音要素が過剰に出現せず、従って元の音楽の聴取に影響しないことを確保する。
S1524:RMSB3=F-RMSを満たすように、チャンネルオーディオをRMSB3と設定する。
Figure 2023503959000037
Figure 2023503959000038
方法3:第三変調係数を確定し、ターゲットオーディオのRMS値を変調することにより、ターゲットオーディオのRMS値がターゲット音楽のRMS値より小さくなるようにする。第三変調係数は、その他の方式で確定することができ、ターゲットオーディオのRMS値を変調するために用いられ、例えば、第一変調係数と第二変調係数のうちの小さい値を第三変調係数として、即ち、第一変調係数の値が第二変調係数の値より小さい場合、第一変調係数を変調係数として確定し、ターゲットオーディオのRMS値を変調するために用いられ、ターゲットオーディオのRMS値がターゲット音楽のRMS値より小さくなるようにする。同様に、第二変調係数の値が第一変調係数の値より小さい場合、第二変調係数を変調係数として確定し、ターゲットオーディオのRMS値を変調するために用いられ、ターゲットオーディオのRMS値がターゲット音楽のRMS値より小さくなるようにする。この変調方法は、データオーバーフローを防止することを前提として、できるだけ効果音データと音楽データとのRMS比率関係を変化しないように確保することができ、ターゲットオーディオのパワーが大きすぎるのでターゲット音楽を覆うことを防止することができ、ターゲットオーディオのパワーが小さすぎるので作用が顕著ではない状況の発生を防止することもでき、ターゲット音楽の主体としての地位を確保する。
図17を参照すると、図17は、本出願の実施例によって提供されるリスニングシーンを構築する装置170の構造を示す概略図である。リスニングシーンを構築する装置170は、オーディオ選択ユニット1701、位置確定ユニット1702、音像変調ユニット1703及びオーディオレンダリングユニット1704を含むことができ、各ユニットの詳細説明は、以下のとおりである。
音像変調ユニット1703は、音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、複数のタイムノードの音源の位置に基づいて、ターゲットオーディオに対して音像変調を行って、ターゲットオーディオのデュアルチャネルオーディオを獲得する。
メモリ1802は、装置内の記憶デバイスであり、プログラム及びデータを格納するために用いられる。メモリ1802は、装置の内蔵メモリを含むことができ、装置がサポートする拡張メモリを含むこともできる。メモリ1802は、装置のオペレーティングシステム及びその他のデータを格納する記憶空間を提供する。例えば、Androidシステム、iOSシステム、Windows Phoneシステムなどを含むことができ、本出願はこれに対して限定しない。
本出願の実施例は、コンピュータプログラムが格納されたコンピュータ可読記憶媒体をさらに提供し、コンピュータプログラムがプロセッサ上で実行されると、図2に示された実施例の電子機器によって実行される操作を実現する。

Claims (22)

  1. リスニングシーンを構築する方法であって、
    ターゲットシーンの音特徴を特徴付けるために用いられるターゲットオーディオを確定することと、
    前記ターゲットオーディオの音源の位置を確定することと、
    前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することであって、前記ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、前記ターゲットオーディが前記音源の位置からのものであるという効果を生じることができることと、
    前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、前記ターゲット音楽が前記ターゲットシーンで再生される効果を獲得することと、
    を含む、
    ことを特徴とするリスニングシーンを構築する方法。
  2. 前記ターゲット音楽の人の声部分が出現する前又は人の声が終了した後、前記ターゲットオーディオは、前記ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び/又は、
    前記ターゲット音楽の人の声部分において、前記ターゲットオーディオは、前記ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである、
    ことを特徴とする請求項1に記載の方法。
  3. 前記ターゲットオーディオの音源の位置を確定することは、複数のタイムノードの前記ターゲットオーディオの音源の位置を確定することを含み、
    前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することは、前記複数のタイムノードの音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することを含む、
    ことを特徴とする請求項1又は2に記載の方法。
  4. 前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
    前記ターゲットオーディオを複数のオーディオフレームに分割することと、
    前記複数のオーディオフレームに対応する音源の位置に基づいて、前記複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することと、
    を含む、
    ことを特徴とする請求項1~3のいずれか一項に記載の方法。
  5. 前記複数のオーディオフレームに対応する音源の位置に基づいて、前記複数のオーディオフレームに対して音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオのデュアルチャネルオーディオを獲得することは、
    前記複数のオーディオフレームのうちのいずれか1つのオーディオフレームである第一オーディオフレームに対応する音源の第一位置を取得することと、
    前記第一位置が予め設定された測定点範囲内にあると、前記第一位置に対応する第一頭部伝達関数を確定することであって、前記予め設定された測定点範囲内の各測定点は頭部伝達関数に対応することと、
    前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの前記第一頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得することと、
    を含む、
    ことを特徴とする請求項4に記載の方法。
  6. 前記第一位置が前記予め設定された測定点範囲内にないと、前記第一位置に基づいてP個の測定位置点を確定し、前記P個の測定位置点は前記予め設定された測定点範囲内にあるP個の点であり、Pは1以上の整数であることと、
    前記P個の測定位置点にぞれぞれ対応する頭部伝達関数によってフィッティングすることにより、前記第一位置に対応する第二頭部伝達関数を獲得することと、
    前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの前記第二頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得することと、
    をさらに含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記ターゲットオーディオのデュアルチャネルオーディオは、左チャンネルオーディオ及び右チャンネルオーディオを含み、
    前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングすることは、
    前記左チャンネルオーディオの二乗平均平方根(RMS)値、前記右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定することと、
    前記変調係数に基づいて、前記左チャンネルオーディオのRMS値及び前記右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得することであって、前記調整後の左チャンネルオーディオのRMS値及び前記調整後の右チャンネルのRMS値は前記ターゲット音楽のRMS値より高くないことと、
    前記調整後の左チャンネルオーディオを前記ターゲット音楽の左チャンネルにミキシングして、前記ターゲット音楽の左チャンネルのレンダリングオーディオとし、前記調整後の右チャンネルオーディオを前記ターゲット音楽の右チャンネルにミキシングして、前記ターゲット音楽の右チャンネルのレンダリングオーディオとすることと、
    を含む、
    ことを特徴とする請求項6に記載の方法。
  8. 調整前の前記左チャンネルオーディオのRMS値はRMSA1であり、調整前の前記右チャンネルオーディオのRMS値はRMSB1であり、前記ターゲット音楽のRMS値はRMSであり、
    前記左チャンネルオーディオのRMS値、前記右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定することは、
    RMSA2、RMSB2及びRMSが以下の関係を満たすように、前記左チャンネルオーディオのRMS値をRMSA2に調整し、前記右チャンネルオーディオのRMS値をRMSB2に調整することであって、
    RMSA2=alpha*RMS
    RMSB2=alpha*RMS、alphaは、予め設定された比率係数であり、0<alpha<1であることと、
    Figure 2023503959000014
    前記第一グループ値を変調係数として確定することと、
    を含む、
    ことを特徴とする請求項7に記載の方法。
  9. 前記左チャンネルオーディオのRMS値、前記右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定することは、
    RMSA3、RMSB3及びRMSが以下の関係を満たすように、前記左チャンネルオーディオのRMS値をRMSA3に調整し、前記右チャンネルオーディオのRMS値をRMSB3に調整することであって、
    RMSA3=F-RMS、Fは浮動小数点型で表される数字の最大数であり、
    RMSB3=F-RMSであることと、
    Figure 2023503959000015
    をさらに含み、
    前記第一グループ値は、前記第二グループ値より小さい、
    ことを特徴とする請求項8に記載の方法。
  10. 前記ターゲットオーディオを確定した後、前記ターゲットオーディオの音源の位置を確定する前に、
    前記ターゲットオーディオのサンプリングレートと前記ターゲット音楽のサンプリングレートとが同じではない場合、前記ターゲットオーディオのサンプリングレートを前記ターゲット音楽のサンプリングレートに変換することをさらに含む、
    ことを特徴とする請求項1又は2に記載の方法。
  11. リスニングシーンを構築する装置であって、
    オーディオ選択ユニット、位置確定ユニット、音像変調ユニット及びオーディオレンダリングユニットを含み、
    前記オーディオ選択ユニットは、ターゲットオーディオを確定するために用いられ、前記ターゲットオーディオはターゲットシーンにおける音特徴を特徴付けるために用いられ、
    前記位置確定ユニットは、前記ターゲットオーディオの音源の位置を確定するために用いられ、
    前記音像変調ユニットは、前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、前記ターゲットオーディオのデュアルチャネルオーディオを同時に出力すると、前記ターゲットオーディが前記音源の位置からのものであるという効果を生じることができ、
    前記オーディオレンダリングユニットは、前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、前記ターゲット音楽が前記ターゲットシーンで再生される効果を獲得するために用いられる、
    ことを特徴とする装置。
  12. 前記ターゲット音楽の人の声部分が出現する前又は人の声が終了した後、前記ターゲットオーディオは、前記ターゲット音楽のタイプ情報又は歌詞全体に基づいてマッチングされたオーディオであり、及び/又は、
    前記ターゲット音楽の人の声部分において、前記ターゲットオーディオは、前記ターゲット音楽の歌詞内容に基づいてマッチングされたオーディオである、
    ことを特徴とする請求項11に記載の装置。
  13. 前記位置確定ユニットは、前記ターゲットオーディオの音源の位置を確定するために用いられ、具体的には、複数のタイムノードの前記ターゲットオーディオの音源の位置を確定し、
    前記音像変調ユニットは、前記音源の位置に基づいて、前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられ、具体的には、前記複数のタイムノードの音源の位置に基づいて前記ターゲットオーディオに対して音像変調を行って、前記ターゲットオーディオのデュアルチャネルオーディオを獲得する、
    ことを特徴とする請求項11又は12に記載の装置。
  14. 前記音像変調ユニットは、
    前記ターゲットオーディオを複数のオーディオフレームに分割するために用いられるフレーム分割サブユニットと、
    前記複数のオーディオフレームに対応する音源の位置に基づいて、前記複数のオーディオフレームに対して前記音源の位置から左耳及び右耳までの頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオのデュアルチャネルオーディオを獲得するために用いられる音像生成サブユニットと、
    を含む、
    ことを特徴とする請求項11~13のいずれか一項に記載の装置。
  15. 前記音像生成サブユニットは、フレーム位置マッチングサブユニット、位置測定サブユニット及び畳み込みサブユニットを含み、
    前記フレーム位置マッチングサブユニットは、前記複数のオーディオフレームのうちの1つのオーディオフレームである前記第一オーディオフレームに対応する音源の第一位置を取得するために用いられ、
    前記位置測定サブユニットは、前記第一位置が予め設定された測定点範囲内にあると、前記第一位置に対応する第一頭部伝達関数を確定するために用いられ、前記予め設定された測定点範囲内の各測定点は頭部伝達関数に対応し、
    前記畳み込みサブユニットは、前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの前記第一頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる、
    ことを特徴とする請求項14に記載の装置。
  16. 前記位置測定サブユニットは、さらに、前記第一位置が予め設定された測定点範囲内にないと、前記第一位置に基づいてP個の測定位置点を確定するために用いられ、前記P個の測定位置点は前記予め設定された測定点範囲内にあるP個の点であり、Pは、1以上の整数であり、
    前記装置は、前記P個の測定位置点に対応する頭部伝達関数によってフィッティングすることにより前記第一位置に対応する第二頭部伝達関数を獲得するために用いられる位置フィッティングサブユニットをさらに含み、
    前記畳み込みサブユニットは、さらに、前記第一オーディオフレームに対して前記第一位置から左耳及び右耳までの第二頭部伝達関数をそれぞれ畳み込むことにより、前記ターゲットオーディオの前記第一オーディオフレームのデュアルチャネルオーディオを獲得するために用いられる、
    ことを特徴とする請求項15に記載の装置。
  17. 前記オーディオレンダリングユニットは、前記ターゲットオーディオのデュアルチャネルオーディオをターゲット音楽にレンダリングして、前記ターゲット音楽が前記ターゲットシーンで再生される効果を獲得するために用いられ、具体的には、
    変調係数確定サブユニットは、前記左チャンネルオーディオの二乗平均平方根(RMS)値、前記右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、
    前記調整サブユニットは、前記変調係数に基づいて、前記左チャンネルオーディオのRMS値及び前記右チャンネルオーディオのRMS値を調整して、調整後の左チャンネルオーディオ及び調整後の右チャンネルオーディオを獲得するために用いられ、前記調整後の左チャンネルオーディオのRMS値及び前記調整後の右チャンネルのRMS値は、ターゲット音楽のRMS値より高くなく、
    ミキシングサブユニットは、前記調整後の左チャンネルオーディオを前記ターゲット音楽の左チャンネルにミキシングして、前記ターゲット音楽の左チャンネルのレンダリングオーディオとし、前記調整後の右チャンネルオーディオを前記ターゲット音楽の右チャンネルにミキシングして、前記ターゲット音楽の右チャンネルのレンダリングオーディオとするために用いられる、
    ことを特徴とする請求項11~13のいずれか一項に記載の装置。
  18. 調整前の前記左チャンネルオーディオのRMS値はRMSA1であり、調整前の前記右チャンネルオーディオのRMS値はRMSB1であり、前記ターゲット音楽のRMS値はRMSであり、前記変調係数確定サブユニットは、前記左チャンネルオーディオの二乗平均平方根(RMS)値、前記右チャンネルオーディオのRMS値及びターゲット音楽のRMS値に基づいて変調係数を確定するために用いられ、具体的には、
    RMSA2、RMSB2及びRMSが以下の関係を満たすように、前記左チャンネルオーディオのRMS値をRMSA2に調整し、前記右チャンネルオーディオのRMS値をRMSB2に調整し、
    RMSA2=alpha*RMSであり、
    RMSB2=alpha*RMSであり、alphaは、予め設定された比率係数であり、0<alpha<1であり、
    Figure 2023503959000016
    前記第一グループ値を変調係数として確定する、
    ことを特徴とする請求項17に記載の装置。
  19. 前記変調係数確定サブユニットは、さらに、
    RMSA3、RMSB3及びRMSが以下の関係を満たすように、前記左チャンネルオーディオのRMS値をRMSA3に調整し、前記右チャンネルオーディオのRMS値をRMSB3に調整し、
    RMSA3=F-RMSであり、Fは浮動小数点型で表される数字の最大数であり、
    RMSB3=F-RMSであり、
    Figure 2023503959000017
    前記第一グループ値は、前記第二グループ値より小さい、
    ことを特徴とする請求項18に記載の装置。
  20. 前記装置は、前記オーディオ選択ユニットがターゲットオーディオを確定した後、前記位置確定ユニットが前記ターゲットオーディオの音源の位置を確定する前に、前記ターゲットオーディオのサンプリングレートと前記ターゲット音楽のサンプリングレートとが同じではない場合、前記ターゲットオーディオのサンプリングレートを前記ターゲット音楽のサンプリングレートに変換するために用いられるサンプリングレート変換ユニットをさらに含む、
    ことを特徴とする請求項11に記載の装置。
  21. リスニングシーンを構築する装置であって、
    プロセッサ及びメモリを含み、前記メモリはコンピュータプログラムを格納するために用いられ、前記プロセッサは前記コンピュータプログラムを呼び出して、請求項1~10のいずれか一項に記載された方法を実行するために用いられる、
    ことを特徴とするリスニングシーンを構築する装置。
  22. コンピュータプログラムを含むコンピュータ記憶媒体であって、
    前記コンピュータプログラムが電子機器で実行されると、前記電子機器に請求項1~10のいずれか一項に記載された方法を実行させる、
    ことを特徴とするコンピュータ記憶媒体。
JP2022530306A 2019-11-25 2020-02-10 リスニングシーンを構築する方法及び関連装置 Active JP7436664B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911169274.2 2019-11-25
CN201911169274.2A CN110972053B (zh) 2019-11-25 2019-11-25 构造听音场景的方法和相关装置
PCT/CN2020/074640 WO2021103314A1 (zh) 2019-11-25 2020-02-10 一种构造听音场景的方法和相关装置

Publications (2)

Publication Number Publication Date
JP2023503959A true JP2023503959A (ja) 2023-02-01
JP7436664B2 JP7436664B2 (ja) 2024-02-21

Family

ID=70031586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022530306A Active JP7436664B2 (ja) 2019-11-25 2020-02-10 リスニングシーンを構築する方法及び関連装置

Country Status (4)

Country Link
US (1) US20220286781A1 (ja)
JP (1) JP7436664B2 (ja)
CN (1) CN110972053B (ja)
WO (1) WO2021103314A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113875265A (zh) * 2020-04-20 2021-12-31 深圳市大疆创新科技有限公司 音频信号处理方法、音频处理装置及录音设备
CN111601157B (zh) * 2020-05-11 2022-06-14 海信视像科技股份有限公司 一种音频输出方法及显示设备
CN112165648B (zh) * 2020-10-19 2022-02-01 腾讯科技(深圳)有限公司 一种音频播放的方法、相关装置、设备及存储介质
CN114501295B (zh) * 2020-10-26 2022-11-15 深圳Tcl数字技术有限公司 音频数据处理方法、装置、终端和计算机可读存储介质
CN115278350A (zh) * 2021-04-29 2022-11-01 华为技术有限公司 一种渲染方法及相关设备
CN113257256A (zh) * 2021-07-14 2021-08-13 广州朗国电子科技股份有限公司 一种语音处理方法、会议一体机、系统及存储介质
CN113971013A (zh) * 2021-10-25 2022-01-25 北京字节跳动网络技术有限公司 音乐的音效播放方法及设备
WO2024084950A1 (ja) * 2022-10-19 2024-04-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084949A1 (ja) * 2022-10-19 2024-04-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11243598A (ja) * 1997-10-31 1999-09-07 Yamaha Corp ディジタルフィルタ処理方法、ディジタルフィルタ装置、記録媒体、firフィルタ処理方法、および音像定位装置
JP2000132150A (ja) * 1998-08-20 2000-05-12 Ricoh Co Ltd 映像表示装置
JP2006174052A (ja) * 2004-12-15 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> 音像提示方法、音像提示装置、音像提示プログラム、及びこれを記録した記録媒体
WO2018079850A1 (ja) * 2016-10-31 2018-05-03 ヤマハ株式会社 信号処理装置、信号処理方法およびプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020191779A1 (en) * 2001-03-23 2002-12-19 Tien Pham System for convolutional echo cancellation by iterative autocorrelation
US6915225B2 (en) * 2003-05-15 2005-07-05 Northrop Grumman Corporation Method, apparatus and system for digital data resampling utilizing fourier series based interpolation
US20130065213A1 (en) * 2011-09-13 2013-03-14 Harman International Industries, Incorporated System and method for adapting audio content for karaoke presentations
CN105120418B (zh) * 2015-07-17 2017-03-22 武汉大学 双声道3d音频生成装置及方法
CN105117021A (zh) * 2015-09-24 2015-12-02 深圳东方酷音信息技术有限公司 一种虚拟现实内容的生成方法和播放装置
CN106572419B (zh) * 2015-10-08 2018-08-03 中国科学院声学研究所 一种立体声音效增强系统
CN105792090B (zh) * 2016-04-27 2018-06-26 华为技术有限公司 一种增加混响的方法与装置
US10088517B2 (en) * 2016-10-07 2018-10-02 Yaskawa America, Inc. Voltage source inverter filter with resistor failure detection circuit
JP2018126185A (ja) * 2017-02-06 2018-08-16 株式会社日立製作所 装置、音データの生成方法、及びプログラム
CN106993249B (zh) * 2017-04-26 2020-04-14 深圳创维-Rgb电子有限公司 一种声场的音频数据的处理方法及装置
CN206759672U (zh) * 2017-05-27 2017-12-15 江西创成微电子有限公司 一种麦克风
KR102622714B1 (ko) * 2018-04-08 2024-01-08 디티에스, 인코포레이티드 앰비소닉 깊이 추출
CN108616789B (zh) * 2018-04-11 2021-01-01 北京理工大学 基于双耳实时测量的个性化虚拟音频回放方法
CN108829254A (zh) * 2018-06-21 2018-11-16 广东小天才科技有限公司 一种麦克风与用户终端互动的实现方法、系统及相关设备
CN110270094A (zh) * 2019-07-17 2019-09-24 珠海天燕科技有限公司 一种游戏中音频控制的方法及装置
CN110488225B (zh) * 2019-10-17 2020-02-07 南京雷鲨信息科技有限公司 声音方位的指示方法、装置、可读存储介质及移动终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11243598A (ja) * 1997-10-31 1999-09-07 Yamaha Corp ディジタルフィルタ処理方法、ディジタルフィルタ装置、記録媒体、firフィルタ処理方法、および音像定位装置
JP2000132150A (ja) * 1998-08-20 2000-05-12 Ricoh Co Ltd 映像表示装置
JP2006174052A (ja) * 2004-12-15 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> 音像提示方法、音像提示装置、音像提示プログラム、及びこれを記録した記録媒体
WO2018079850A1 (ja) * 2016-10-31 2018-05-03 ヤマハ株式会社 信号処理装置、信号処理方法およびプログラム

Also Published As

Publication number Publication date
WO2021103314A1 (zh) 2021-06-03
CN110972053B (zh) 2021-06-25
JP7436664B2 (ja) 2024-02-21
CN110972053A (zh) 2020-04-07
US20220286781A1 (en) 2022-09-08

Similar Documents

Publication Publication Date Title
JP7436664B2 (ja) リスニングシーンを構築する方法及び関連装置
KR102502383B1 (ko) 오디오 신호 처리 방법 및 장치
US9131305B2 (en) Configurable three-dimensional sound system
TWI616810B (zh) 輸出一調變音訊之方法及藉由一應用程式產生之圖形使用者介面
US10924875B2 (en) Augmented reality platform for navigable, immersive audio experience
CN112037738B (zh) 一种音乐数据的处理方法、装置及计算机存储介质
CN110992970B (zh) 音频合成方法及相关装置
JP2010538572A (ja) オーディオ信号デコーディング方法及び装置
CN106797525A (zh) 用于生成和回放音频信号的方法和设备
JP2012503943A (ja) モノフォニック対応およびラウドスピーカ対応のバイノーラルフィルタ
CN102972047A (zh) 用于再现立体声的方法和设备
CN113823250B (zh) 音频播放方法、装置、终端及存储介质
WO2023109278A1 (zh) 一种伴奏的生成方法、设备及存储介质
CN114067827A (zh) 一种音频处理方法、装置及存储介质
CN114049871A (zh) 基于虚拟空间的音频处理方法、装置和计算机设备
Cohen et al. Spatial soundscape superposition and multimodal interaction
CA3044260A1 (en) Augmented reality platform for navigable, immersive audio experience
Klepko 5-channel microphone array with binaural-head for multichannel reproduction
KR20110065972A (ko) 콘텐츠 적응형 입체음향 구현 방법 및 시스템
Barrett Spatial music composition
Young Proximity/Infinity
Munoz Space Time Exploration of Musical Instruments
Rumsey Sonification, assistive listening, and soundscapes
Nuora Introduction to sound design for virtual reality games: a look into 3D sound, spatializer plugins and their implementation in Unity game engine
US20220122623A1 (en) Real-Time Voice Timbre Style Transform

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220602

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240208

R150 Certificate of patent or registration of utility model

Ref document number: 7436664

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150