JP2017525292A - 入力音声信号を操作するための装置および方法 - Google Patents

入力音声信号を操作するための装置および方法 Download PDF

Info

Publication number
JP2017525292A
JP2017525292A JP2017503511A JP2017503511A JP2017525292A JP 2017525292 A JP2017525292 A JP 2017525292A JP 2017503511 A JP2017503511 A JP 2017503511A JP 2017503511 A JP2017503511 A JP 2017503511A JP 2017525292 A JP2017525292 A JP 2017525292A
Authority
JP
Japan
Prior art keywords
audio signal
specific distance
distance
controller
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017503511A
Other languages
English (en)
Other versions
JP6430626B2 (ja
Inventor
クリストフ・ファラー
アレクシス・ファヴロート
リユン・パン
ペーター・グロシェ
ユエ・ラン
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2017525292A publication Critical patent/JP2017525292A/ja
Application granted granted Critical
Publication of JP6430626B2 publication Critical patent/JP6430626B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

本発明は、空間音源に関連する入力音声信号を空間音声のシナリオ内で操作する装置(100)に関し、ここで、空間音源は、空間音声のシナリオ内で聞き手に対して特定の距離を有し、装置(100)は、入力音声信号を操作して出力音声信号を得るように構成された振動子(101)と、特定の距離に基づいて入力音声信号を操作するために、振動子(101)のパラメータを制御するように構成されたコントローラ(103)とを含む。

Description

本発明は、音声信号処理の分野に関し、特に、空間音声信号処理の分野に関する。
空間音声信号の合成は、複数の用途において主要な議題である。例えば、バイノーラル音声の合成では、空間音源に関連する音声信号を処理することで、空間音声のシナリオ内の聞き手に対して所望の位置に空間音源を仮想的に配置することができ、これにより、聞き手が処理済の音声信号がその所望の位置から生じていると知覚することができる。
聞き手に対する空間音源の空間位置は、例えば、空間音源と聞き手との間の距離、および/または空間音源と聞き手との相対的な方位角を特徴とする。異なる距離および/または方位角に応じて音声信号を適合させる一般的な音声信号処理技術は、例えば、音声信号のラウドネスレベルおよび/または群遅延を適合させることに基づいている。
U.Zolzer著、“DAFX:Digital Audio Effects”、John Wiley&Sons、2002年の文献では、一般的な音声信号処理技術の概要が提供されている。
U.Zolzer著、"DAFX:Digital Audio Effects"、John Wiley&Sons、2002年
本発明の目的は、空間音声のシナリオ内で入力音声信号を操作するための効率的な概念を提供することである。
この目的は、従属請求項の特徴によって達成される。本発明のさらなる実施形態は、従属請求項、説明および図面から明らかである。
本発明は、入力音声信号を振動子によって操作することができるという発見に基づいており、振動子の制御パラメータを、空間音声のシナリオ内で空間音源と聞き手との間の特定の距離に基づいてコントローラによって制御することができる。振動子は、入力音声信号をフィルタリングするバンドパスフィルタと、フィルタリング済音声信号を非線形処理する非線形プロセッサと、フィルタリング済かつ非線形処理済の音声信号を入力音声信号と結合させる結合器とを含むことができる。特定の距離に応じて振動子のパラメータを制御することで、近接効果などの複雑な音響効果を考慮することができる。
第1の態様によれば、本発明は、空間音源に関連する入力音声信号を空間音声のシナリオ内で操作する装置に関し、ここで、空間音源は、空間音声のシナリオ内で聞き手に対して特定の距離を有し、装置は、入力音声信号を操作して出力音声信号を得るように構成された振動子と、特定の距離に基づいて、入力音声信号を操作するために振動子のパラメータを制御するように構成されたコントローラとを含む。したがって、聞き手までの距離に基づいて入力音声信号を空間音声のシナリオ内で操作するための、効率的な概念を実現することができる。
装置は、空間音声のシナリオ内の聞き手までの空間音源の距離の変化を現実的に知覚するために、空間音源に関連する入力音声信号を空間音声のシナリオで操作または適合させる効率的な解決策を促進する。
例えば仮想現実、拡張現実、映画のサウンドトラックのミキシング、およびさらに多くの異なる応用シナリオに装置を適用することができる。拡張現実の応用シナリオについては、空間音源を聞き手から特定の距離に配置することができる。他の音声信号処理の応用シナリオでは、空間音源の認識された近接効果を高めるために入力音声信号を操作することができる。
空間音源は仮想音源に関連していてもよい。空間音声のシナリオは仮想音声のシナリオに関連していてもよい。特定の距離は、空間音源に関連する距離情報に関連していてもよく、空間音声のシナリオ内の聞き手までの空間音源の距離を表してもよい。聞き手は、空間音声のシナリオの中心に位置してもよい。入力音声信号および出力音声信号は、単一チャンネル音声信号であってもよい。
特定の距離は、絶対距離、または例えば最大距離などの基準距離に正規化される正規化距離であってもよい。装置は、例えばグラフィカル・ユーザー・インタフェースおよび/またはスライディング制御などのマン・マシン・インタフェースを介した手動入力によって、例えば空間音源が有するものとする(例えば拡張現実および/または仮想現実アプリケーション用の)例えば所望の位置または複数の位置の経路に基づいて特定の距離を算出するプロセッサによって、または任意の他の距離決定部によって、特定の距離を、装置の外部の、または装置に一体化された距離測定機器またはモジュールから得るように構成されてもよい。
第1の態様自体による装置の第1の実施の形態では、振動子は、入力音声信号をフィルタリングしてフィルタリング済音声信号を得るように構成されたバンドパスフィルタと、フィルタリング済音声信号を非線形処理して非線形処理済音声信号を得るように構成された非線形プロセッサと、非線形処理済音声信号を入力音声信号と結合して出力音声信号を得るように構成された結合器とを含む。したがって、振動子を効率的に実現することができる。
バンドパスフィルタは周波数伝達関数を含んでもよい。バンドパスフィルタの周波数伝達関数は、フィルタ係数によって決定することができる。例えばハードリミットまたはソフトリミットなどの非線形処理をフィルタリング済音声信号に施すように、非線形プロセッサを構成することができる。フィルタリング済音声信号のハードリミットは、フィルタリング済音声信号のハードクリッピングに関連していてもよい。フィルタリング済音声信号のソフトリミットは、フィルタリング済音声信号のソフトクリッピングに関連していてもよい。結合器は、非線形処理済音声信号を入力音声信号に加算するように構成された加算器を含んでもよい。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第2の実施の形態では、コントローラは、振動子のバンドパスフィルタの周波数伝達関数を特定の距離に基づいて決定するように構成される。バンドパスフィルタは、例えば、入力音声信号をフィルタリングするように構成されてもよい。したがって、入力音声信号の励起された周波数成分を効率的に決定することができる。
コントローラを、例えば低域遮断周波数、高域遮断周波数、通過帯域減衰、阻止帯域減衰、通過帯域リップルおよび/または阻止帯域リップルなどのバンドパスフィルタの周波数伝達関数の伝達特性を特定の距離に基づいて決定するように構成することができる。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第3の実施の形態では、コントローラは、特定の距離が減少およびその逆に増加する場合に、振動子のバンドパスフィルタの低域遮断周波数および/または高域遮断周波数を増加させるように構成される。バンドパスフィルタは、例えば、入力音声信号をフィルタリングするように構成されてもよい。したがって、特定の距離が減少した場合に入力音声信号のより高い周波数成分を励起することができる。
低域遮断周波数は、バンドパスフィルタの周波数伝達関数の−3dBの低域遮断周波数に関連していてもよい。高域遮断周波数は、バンドパスフィルタの周波数伝達関数の−3dBの高域遮断周波数に関連していてもよい。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第4の実施の形態では、コントローラは、特定の距離が減少およびその逆に増加する場合に、振動子のバンドパスフィルタの帯域幅を増加させるように構成される。バンドパスフィルタは、例えば、入力音声信号をフィルタリングするように構成されてもよい。したがって、特定の距離が減少した場合に入力音声信号のより多くの周波数成分を励起することができる。バンドパスフィルタの帯域幅は、バンドパスフィルタの−3dBの帯域幅に関連していてもよい。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第5の実施の形態では、コントローラは、振動子のバンドパスフィルタの低域遮断周波数および/または高域遮断周波数を、次の式
fH=(2−rnorm)・b1_freq
fL=(2−rnorm)・b2_freq
に従って決定するように構成され、式中、fHは高域遮断周波数を表し、fLは低域遮断周波数を表し、b1_freqは第1基準遮断周波数を表し、b2_freqは第2基準遮断周波数を表し、rは特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表す。したがって、低域遮断周波数および/または高域遮断周波数を効率的に決定することができる。コントローラが、低域遮断周波数および高域遮断周波数を減少する特定の距離rに基づいて増加させる場合、バンドパスフィルタの帯域幅もまた増大する。コントローラが、低域遮断周波数および高域遮断周波数を増加する特定の距離rに基づいて減少させる場合、バンドパスフィルタの帯域幅もまた減少する。バンドパスフィルタは、例えば、入力音声信号をフィルタリングするように構成されてもよい。
第5の実施の形態によるコントローラは、距離rを、または代替実施の形態では正規化距離rnormを、特定の距離として得るように構成されてもよい。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第6の実施の形態では、コントローラは、特定の距離に基づいて、非線形処理済音声信号を得るために振動子の非線形プロセッサのパラメータを制御するように構成される。非線形プロセッサは、例えばバンドパスフィルタによってフィルタリングされた入力音声信号のフィルタリング済のバージョンに基づいて、非線形処理済音声信号を得るように構成されてもよい。したがって、入力音声信号を励起するため、すなわち、入力音声信号またはフィルタリング済入力音声信号の非線形処理済のバージョンに基づいて出力音声信号を得るために、非線形効果を用いることができる。
非線形プロセッサのパラメータは、ハードリミット方式の限界閾値および/またはソフトリミット方式のさらなる限界閾値を含むことができる。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第7の実施の形態では、コントローラは、特定の距離が減少およびその逆に増加する場合に、非線形処理済音声信号が、非線形処理済音声信号の高周波部分においてより高い高調波および/またはより多くの電力を含むように、振動子の非線形プロセッサのパラメータを制御するように構成される。あるいは、換言すれば、コントローラは、非線形プロセッサが、非線形プロセッサに入力された信号に存在しない高調波周波数成分を生成するように、それぞれ、非線形プロセッサによって出力された信号が、非線形プロセッサに入力された信号に存在しない高調波周波数成分を含むように、振動子の非線形プロセッサのパラメータを制御するように構成される。したがって、特定の距離を減少させるときに出力音声信号の知覚輝度を増大させることができる。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第8の実施の形態では、振動子の非線形プロセッサは、時間領域内のフィルタリング済音声信号の大きさを限界閾値未満の大きさに制限して非線形処理済音声信号を得るように構成され、コントローラは、限界閾値を特定の距離に基づいて制御するように構成される。したがって、フィルタリング済音声信号のハードリミットまたはハードクリッピングを実現することができる。フィルタリング済音声信号は、例えば、バンドパスフィルタによってフィルタリングされた入力信号であってもよい。
第1の態様の第8の実施の形態による装置の第9の実施の形態では、コントローラは、特定の距離が減少およびその逆に増加する場合に限界閾値を減少させるように構成される。したがって、非線形効果は、特定の距離が減少すると影響が増大する可能性がある。特定の距離が減少すると、限界閾値は減少し、より高い高調波が生成される。
第1の態様の第8の実施の形態または第9の実施の形態による装置の第10の実施の形態では、コントローラは、特定の距離に基づいて限界閾値を、次の式
lt=LT・rnorm
に従って決定するように構成され、
式中、ltは限界閾値を表し、LTは限界閾値定数または限界閾値基準を表し、rは特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表す。したがって、限界閾値を効率的に決定することができる。
第10の実施の形態によるコントローラは、距離rを、または代替実施の形態では正規化距離rnormを、特定の距離として得るように構成されてもよい。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第11の実施の形態では、振動子の非線形プロセッサは、フィルタリング済音声信号に時間領域内のゲイン信号を乗算するように構成され、ゲイン信号は、特定の距離に基づいて入力音声信号から決定される。したがって、フィルタリング済音声信号のソフトリミットまたはソフトクリッピングを実現することができる。
非線形プロセッサおよび/またはコントローラによって特定の距離に基づいて、ゲイン信号を入力音声信号から決定することができる。
第1の態様の第11の実施の形態による装置の第12の実施の形態では、コントローラは、特定の距離に基づいてゲイン信号を、次の式
lt[n]=limithr+(1−limithr)・rnorm[n]
に従って決定するように構成され、
式中、μはゲイン信号を表し、srmsは二乗平均平方根入力音声信号を表し、sBPはフィルタリング済音声信号を表し、ltは、さらなる限界閾値を表し、limthrは、さらなる限界閾値定数を表し、rは特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表し、nはサンプル時間指数を表す。したがって、ゲイン信号を効率的に決定することができる。二乗平均平方根入力音声信号を、非線形プロセッサおよび/またはコントローラによって入力音声信号から決定することができる。
第12の実施の形態によるコントローラは、距離rを、または代替実施の形態では正規化距離rnormを、特定の距離として得るように構成されてもよい。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第13の実施の形態では、振動子は、例えば入力音声信号のフィルタリング済のバージョンの非線形処理済のバージョンなどの非線形処理済音声信号をゲイン係数で重み付けするように構成された計数器を含み、コントローラは、計数器のゲイン係数を特定の距離に基づいて決定するように構成される。したがって、非線形効果の影響を特定の距離に基づいて適応させることができる。
計数器は、非線形処理済音声信号をゲイン係数で重み付けするための乗算器を含んでもよい。ゲイン係数は、例えば0から1までの範囲の実数であってもよい。
第1の態様の第13の実施の形態による装置の第14の実施の形態では、コントローラは、特定の距離が減少およびその逆に増加する場合にゲイン係数を増加させるように構成される。したがって、非線形効果は、特定の距離を減少させると影響が増大する可能性がある。
第1の態様の第13の実施の形態または第14の実施の形態による装置の第15の実施の形態では、コントローラは、特定の距離に基づいてゲイン係数を、次の式
gexc[n]=1−rnorm[n]
に従って決定するように構成され、
式中、gexcはゲイン係数を表し、rは特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表し、nはサンプル時間指数を表す。したがって、特定の距離が増加およびその逆に減少する場合にゲイン係数を効率的に決定し、かつ減少させることができる。
第15の実施の形態によるコントローラは、距離rを、または代替実施の形態では正規化距離rnormを、特定の距離として得るように構成されてもよい。
第1の態様自体による、または第1の態様の任意の先行する実施の形態の装置の第16の実施の形態では、装置は、特定の距離を決定するように構成された決定部をさらに含む。したがって、特定の距離を、外部の信号処理構成要素が提供する距離情報から決定することができる。
決定部は、例えば任意の距離測定値、空間音源の空間座標、および/または、空間音声のシナリオ内の聞き手の空間座標から特定の距離を決定することができる。
決定部は、絶対距離、または例えば最大距離などの基準距離に正規化される正規化距離として、特定の距離を決定することができる。決定部は、例えばグラフィカル・ユーザー・インタフェースおよび/またはスライディング制御などのマン・マシン・インタフェースを介した手動入力によって、例えば空間音源が有するものとする(例えば拡張現実および/または仮想現実アプリケーション用の)例えば所望の位置または複数の位置の経路に基づいて特定の距離を算出するプロセッサによって、または任意の他の距離決定部によって、特定の距離を、装置の外部の、または装置に一体化された距離測定機器またはモジュールから得るように構成されてもよい。
第2の態様によれば、本発明は、空間音源に関連する入力音声信号を空間音声のシナリオ内で操作する方法に関し、ここで、空間音源は、空間音声のシナリオ内で聞き手に対して特定の距離を有し、この方法は、入力音声信号を特定の距離に基づいて励起するために、コントローラによって励起パラメータを制御するステップと、出力音声信号を得るために振動子によって入力音声信号を励起するステップとを含む。したがって、聞き手までの距離に基づいて入力音声信号を空間音声のシナリオ内で操作するための、効率的な概念を実現することができる。
この方法は、空間音声のシナリオ内の聞き手までの空間音源の距離の変化を現実的に知覚するために、空間音源に関連する入力音声信号を空間音声のシナリオで操作または適合させる効率的な解決策を促進する。
第2の態様自体による方法の第1の実施の形態では、振動子によって入力音声信号を励起するステップは、フィルタリング済音声信号を得るためにバンドパスフィルタによって入力音声信号をバンドパスフィルタリングするステップと、非線形処理済音声信号を得るために非線形プロセッサによってフィルタリング済音声信号を非線形処理するステップと、出力音声信号を得るために結合器によって非線形処理済音声信号を入力音声信号と結合させるステップとを含む。したがって、入力音声信号を励起するステップを効率的に実現することができる。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第2の実施の形態では、方法は、振動子のバンドパスフィルタの周波数伝達関数を、特定の距離に基づいてコントローラによって決定するステップを含む。したがって、入力音声信号の励起された周波数成分を効率的に決定することができる。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第3の実施の形態では、方法は、特定の距離が減少およびその逆に増加する場合に、コントローラによって振動子のバンドパスフィルタの低域遮断周波数および/または高域遮断周波数を増加させるステップを含む。したがって、特定の距離が減少した場合に入力音声信号のより高い周波数成分を励起することができる。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第4の実施の形態では、方法は、特定の距離が減少およびその逆に増加する場合に、コントローラによって振動子のバンドパスフィルタの帯域幅を増加させるステップを含む。したがって、特定の距離が減少した場合に入力音声信号のより多くの周波数成分を励起することができる。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第5の実施の形態では、方法は、振動子のバンドパスフィルタの低域遮断周波数および/または高域遮断周波数を、コントローラによって次の式
fH=(2−rnorm)・b1_freq
fL=(2−rnorm)・b2_freq
に従って決定するように構成され、式中、fHは高域遮断周波数を表し、fLは低域遮断周波数を表し、b1_freqは第1基準遮断周波数を表し、b2_freqは第2基準遮断周波数を表し、rは特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表す。したがって、低域遮断周波数および/または高域遮断周波数を効率的に決定することができる。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第6の実施の形態では、方法は、特定の距離に基づいて、非線形処理済音声信号を得るためにコントローラによって振動子の非線形プロセッサのパラメータを制御するステップを含む。したがって、入力音声信号を励起するために非線形効果を使用することができる。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第7の実施の形態では、方法は、特定の距離が減少およびその逆に増加する場合に、非線形処理済音声信号が、非線形処理済音声信号の高周波部分においてより高い高調波および/またはより多くの電力を含むように、コントローラによって振動子の非線形プロセッサのパラメータを制御するステップを含む。あるいは、換言すれば、方法は、非線形プロセッサに入力された信号に存在しない高調波周波数成分が生成されるように、それぞれ、非線形プロセッサによって出力された信号が、非線形プロセッサに入力された信号に存在しない高調波周波数成分を含むように、振動子の非線形プロセッサの制御パラメータを制御するステップを含む。したがって、特定の距離を減少させるときに出力音声信号の知覚輝度を増大させることができる。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第8の実施の形態では、方法は、非線形処理済音声信号を得るために振動子の非線形プロセッサによって、時間領域内のフィルタリング済音声信号の大きさを限界閾値未満の大きさに制限するステップと、限界閾値をコントローラによって特定の距離に基づいて制御するステップとを含む。したがって、フィルタリング済音声信号のハードリミットまたはハードクリッピングを実現することができる。
第2の態様の第8の実施の形態による方法の第9の実施の形態では、方法は、特定の距離が減少およびその逆に増加する場合にコントローラによって限界閾値を減少させるステップを含む。したがって、非線形効果は、特定の距離が減少すると影響が増大する可能性がある。
第2の態様の第8の実施の形態または第9の実施の形態による方法の第10の実施の形態では、方法は、限界閾値を、特定の距離に基づいてコントローラによって次の式
lt=LT・rnorm
に従って決定するように構成され、
式中、ltは限界閾値を表し、LTは限界閾値定数または限界閾値基準を表し、rは特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表す。したがって、限界閾値を効率的に決定することができる。
第10の実施の形態による方法は、距離rを、または代替実施の形態では正規化距離rnormを、特定の距離として得るステップを含んでもよい。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第11の実施の形態では、振動子の非線形プロセッサによってフィルタリング済音声信号に時間領域内のゲイン信号を乗算するステップと、ゲイン信号を特定の距離に基づいて入力音声信号から決定するステップとを含む。したがって、フィルタリング済音声信号のソフトリミットまたはソフトクリッピングを実現することができる。
第2の態様の第11の実施の形態による方法の第12の実施の形態では、方法は、ゲイン信号を、特定の距離に基づいてコントローラによって次の式
gexc[n]=1−rnorm[n]
に従って決定するように構成され、
式中、μはゲイン信号を表し、srmsは二乗平均平方根入力音声信号を表し、sBPはフィルタリング済音声信号を表し、ltは、さらなる限界閾値を表し、limthrは、さらなる限界閾値定数を表し、rは特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表し、nはサンプル時間指数を表す。したがって、ゲイン信号を効率的に決定することができる。
第12の実施の形態による方法は、距離rを、または代替実施の形態では正規化距離rnormを、特定の距離として得るステップを含んでもよい。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第13の実施の形態では、方法は、振動子の計数器によって非線形処理済音声信号をゲイン係数で重み付けするステップと、コントローラによって特定の距離に基づいて計数器のゲイン係数を決定するステップとを含む。したがって、非線形効果の影響を特定の距離に基づいて適応させることができる。
第2の態様の第13の実施の形態による方法の第14の実施の形態では、方法は、特定の距離が減少およびその逆に増加する場合にコントローラによってゲイン係数を増加させるステップを含む。したがって、非線形効果は、特定の距離を減少させると影響が増大する可能性がある。
第2の態様の第13の実施の形態または第14の実施の形態による方法の第15の実施の形態では、方法は、ゲイン係数を、特定の距離に基づいてコントローラによって次の式
gexc[n]=1−rnorm[n]
に従って決定するように構成され、
式中、gexcはゲイン係数を表し、rは特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表し、nはサンプル時間指数を表す。したがって、ゲイン係数を効率的に決定することができる。
第15の実施の形態による方法は、距離rを、または代替実施の形態では正規化距離rnormを、特定の距離として得るステップを含んでもよい。
第2の態様自体による、または第2の態様の任意の先行する実施の形態の方法の第16の実施の形態では、方法は、装置の決定部によって特定の距離を決定するステップをさらに含む。したがって、特定の距離を、外部の信号処理構成要素が提供する距離情報から決定することができる。
本方法を装置によって行うことができる。方法のさらなる特徴は、装置の機能に直接起因する。
第1の態様について提供した説明およびその実施の形態は、第2の態様および対応する実施の形態に同様に適用される。
第3の態様によれば、本発明は、コンピュータ上で実行される場合に、第2の態様またはその実施の形態のうちのいずれかによる方法を行うためのプログラムコードを含むコンピュータプログラムに関する。したがって、この方法を自動的かつ反復可能に行うことができる。
コンピュータプログラムを装置によって行うことができる。装置を、コンピュータプログラムを実行するようにプログラム可能に構成することができる。
ハードウェア、ソフトウェアまたはこれらの任意の組み合わせにおいて本発明を実施することができる。
本発明のさらなる実施形態を、以下の図面に関連して説明する。
一実施の形態による、空間音声のシナリオ内で空間音源に関連する入力音声信号を操作する装置の図である。 一実施の形態による、空間音声のシナリオ内で空間音源に関連する入力音声信号を操作する方法の図である。 一実施の形態による、空間音源および聞き手を含む空間音声のシナリオの図である。 一実施の形態による、空間音声のシナリオ内で空間音源に関連する入力音声信号を操作する装置の図である。 一実施の形態による、聞き手周囲の空間音源の配置の図である。 一実施の形態による、入力音声信号および出力音声信号のスペクトログラムである。
同一または少なくとも同等の特徴については、同一の参照符号を用いる。
図1は、本発明の一実施形態による、空間音声のシナリオ内で空間音源に関連する入力音声信号を操作する装置100の図を示している。空間音源は、空間音声のシナリオ内で聞き手に対して特定の距離を有する。
装置100は、出力音声信号を得るために入力音声信号を操作するように構成された振動子101と、入力音声信号を操作する振動子のパラメータを特定の距離に基づいて制御するように構成されたコントローラ103とを含む。
装置100を、例えば仮想現実、拡張現実、映画のサウンドトラックのミキシング、およびさらに多くの異なる応用シナリオに適用することができる。
拡張現実の応用シナリオについては、一般的に追加の空間音源が既存の空間音声のシナリオに追加されるが、この追加の空間音源を、聞き手から特定の距離に配置することができる。音声信号処理の応用シナリオでは、空間音源の認識された近接効果を高めるために入力音声信号を操作することができる。
振動子101は、入力音声信号をフィルタリングしてフィルタリング済音声信号を得るように構成されたバンドパスフィルタと、フィルタリング済音声信号を非線形処理して非線形処理済音声信号を得るように構成された非線形プロセッサと、非線形処理済音声信号を入力音声信号と結合して出力音声信号を得るように構成された結合器とを含んでもよい。振動子101は、非線形処理済音声信号をゲイン係数で重み付けするように構成された計数器をさらに含んでもよい。
コントローラ103は、特定の距離に基づいて入力音声信号を操作するために、バンドパスフィルタ、非線形プロセッサ、結合器および/または計数器のパラメータを制御するように構成される。
図3から図6に基づいて、装置100の実施形態をさらに詳細に説明する。
図2は、本発明の一実施形態による、空間音声のシナリオ内で空間音源に関連する入力音声信号を操作する方法200の図を示している。空間音源は、空間音声のシナリオ内で聞き手に対して特定の距離を有する。
方法200は、特定の距離に基づいて、入力音声信号を励起するために励起パラメータを制御するステップ201と、出力音声信号を得るために入力音声信号を励起するステップ203とを含む。
入力音声信号を励起するステップ203は、フィルタリング済音声信号を得るために入力音声信号をバンドパスフィルタリングするステップと、非線形処理済音声信号を得るためにフィルタリング済音声信号を非線形処理するステップと、出力音声信号を得るために非線形処理済音声信号を入力音声信号と結合させるステップとを含んでもよい。
方法200を装置100によって行うことができる。例えばコントローラ103によって制御ステップ201を行ってもよく、例えば振動子101によって励起ステップ203を行ってもよい。方法200のさらなる特徴は、装置100の機能に直接起因する。コンピュータプログラムによって方法200を行うことができる。
図3は、本発明の一実施形態による、空間音源301および聞き手303(図示されているのは聞き手の頭部である)を含む空間音声のシナリオ300の図を示している。この図は、空間音源301を、Y軸に沿った視線方向を含む聞き手303の頭部位置に対して特定の距離rおよび方位Θを有するX−Y平面内の点音源Sとして示している。
空間音源301の近接性の認識は、聞き手303が良好に音声に没頭することと関連し得る。音声のミキシング技術、具体的にはバイノーラル音声の合成技術は、聞き手303に改善された音声体験をもたらす現実的な音声レンダリングのために、音源距離情報を用いることができる。例えば映画および/またはゲームにおける移動音源を、音源の聞き手303に対する特定の距離rを用いてバイノーラル方式で混合することができる。
近接効果を、以下のように空間音源距離の関数として分類してもよい。1mまでの短い距離では、主な近接効果はバイノーラル近接場効果から生じる可能性がある。結果として、空間音源301が近づくほど、より低い周波数を強調またはブーストすることができる。1mから10mまでの中間距離では、主な近接効果は残響から生じる可能性がある。この距離間隔では、空間音源301が近づくと、より高い周波数を強調またはブーストすることができる。10mからの長い距離では、主な近接効果は吸収であり、高周波数の減衰をもたらす可能性がある。
空間音源301または点音源Sの音の感知された音色は、聞き手303に対する特定の距離rおよび角度Θとともに変化する可能性がある。Θおよびrは、例えば振動子101を用いた近接効果処理の前に行うことができるバイノーラルミキシングのために用いることができる。
装置100の実施形態を、振動子101を用いた仮想音源または空間音源301の近接性の認識を強化するかまたは強調するために用いることができる。
装置100は、より現実的な音声レンダリングのためにバイノーラル音声出力の近接効果を強調することができる。装置は、例えば、ミキシング機器、または空間音声のシナリオを生成するかまたは操作するために用いられる任意の他の前処理装置または処理装置に適用することができるが、ヘッドフォンの有無にかかわらず、他の機器、例えばスマートフォンまたはタブレットなどのモバイル機器にも適用することができる。
例えば映画用の入力音声信号を、バイノーラル合成によって移動音源と混合することができる。仮想音源または空間音源301を、可変距離情報を含む装置100によってバイノーラル方式で合成することができる。
装置100は、空間音源301の特定の距離rが変化する場合に、知覚輝度、例えば高周波数の密度がそれに応じて変化するように、振動子パラメータを適合させるように構成される。したがって、装置100の実施形態は、近接性の認識を強調するために、仮想音源または空間音源301の音の明るさを変更するように適合される。
本発明の実施形態では、仮想音源または空間音源301を、知覚近接効果を強調するために振動子101を用いてレンダリングすることができる。明るさを特定の距離の関数として増大させるために、振動子をコントローラ103によって制御して周波数部分を強調することができる。振動子効果がより強くなるように選択されると、空間音源301は、聞き手303に近づいていると認識される。振動子を、空間音源301の特定の距離の関数として聞き手303の位置に適合させてもよい。
図4は、本発明の一実施形態による、空間音声のシナリオ内で空間音源に関連する入力音声信号を操作する装置100のより詳細な図を示している。
装置100は、振動子101とコントローラ103とを含む。振動子101は、バンドパスフィルタ(BPフィルタ)401、非線形プロセッサ(NLP)403、加算器で構成される結合器405、および、ゲイン係数を有する任意の計数器407(ゲイン)を含む。入力音声信号は、INとして、それぞれをsとして表される。出力音声信号は、OUTとして、それぞれをyとして表される。コントローラ103は、特定の距離rまたは特定の距離に関する距離情報を受信するように構成され、振動子101のパラメータを特定の距離rに基づいて制御するようにさらに構成される。換言すれば、コントローラは、バンドパスフィルタ401、非線形プロセッサ403、および振動子101の計数器407のパラメータを特定の距離rに基づいて制御するように構成される。
この図は、所望の周波数部分において高調波を生成するためのバンドパスフィルタ401および非線形プロセッサ403を含む振動子101の実施を示している。振動子101は、入力音声信号を改善するために用いられる音声信号処理技術を実現することができる。振動子101は、高調波、すなわち所定の周波数または周波数範囲の倍数を入力音声信号に加えることができる。振動子101は、入力音声信号の輝度を増大させるために追加することができる高調波を入力音声信号から生成するために、非線形処理およびフィルタリングを用いることができる。
コントローラ103および振動子101を含む装置100の一実施形態を、以下に示す。入力音声信号sは、励起されるべき周波数を抽出するために、インパルス応答fBPを有するバンドパスフィルタ401を用いて最初にフィルタリングされる。
sBP[n]=fBP*s
空間音源の明るさを特定の距離rに知覚的に一致させるために、コントローラは、バンドパスフィルタ401の高域遮断周波数fHおよび低域遮断周波数fLを空間音源の特定の距離の関数として調整または設定するように構成される。これら遮断周波数は、振動子101の効果が適用される周波数範囲を決定する。
空間音源が近づくと、バンドパスフィルタ401の遮断周波数fLおよびfHは、コントローラ103によってより高い周波数へ移行される。必要に応じて、バンドパスフィルタ401の遮断周波数fLおよびfHが特定の距離rの減少に伴って増加するだけでなく、帯域幅、すなわちバンドパスフィルタ401のfHとfLとの差もまた、コントローラ103によって増大する。遮断周波数の増加によって、高調波が非線形プロセッサ403によってより高い周波数部分に生成される。バンドパスフィルタ401の帯域幅の増大によって、非線形プロセッサ403によって生成された高調波の量が増加する。
その結果、出力音声信号は、より高い周波数部分においてより多くのエネルギーを有し、聞き手は、空間音源が近づいたときに増大した明るさを知覚する。例えば、fHおよびfLを、コントローラ103によって
fH=(2−rnorm)・b1_freq
fL=(2−rnorm)・b2_freq
に従って定義することができ、
式中、rnormを例えば0から1の間の正規化距離であってもよく、これは、
として定義され、
式中、rmaxは、振動子101に適用される特定の距離rの最大可能値であってもよく、例えば、rmax=10メートルである。b1_freqおよびb2_freqは、バンドパスフィルタ401用の基準遮断周波数であってもよく、最大距離rmaxに対するバンドパスフィルタ401の遮断周波数を形成することができる。コントローラ103を、基準遮断周波数を設定または用いるように構成することができ、例えばb1_freq=10kHzであり、b2_freq=1kHzである。
その後、非線形プロセッサ403は、これら周波数に対して高調波を生成するためにフィルタリング済音声信号sBPに適用される。一例は、限界閾値ltに関連するハードリミット方式を用いることであり、これは、
として定義され、
式中、nはサンプル時間指数であり、限界閾値ltは、空間音源の特定の距離の関数rとして制御される。例えば、ltを、
lt=LT・rnorm
として定義してもよく、
式中、LTは限界閾値定数であってもよい。例えば、LT=10−30/20であり、すなわちリニアスケールで−30dBである。空間音源が近づくほど、より高い高調波を生成するためにコントローラによってより小さい限界閾値ltが選択される。より高い高調波を含む音声信号は、より高い周波数部分でより多くの電力またはエネルギーを含む。したがって、出力音声信号はより明るく聞こえる。
別の例は、適応ソフトクリッピングまたはリミット方式を用いることであり、これは、入力音声信号の大きさまたはレベルを追跡する利点を有することができ、かつ得られた信号s’BPの歪みを低減することができる。リミッタの閾値を、コントローラ103によって入力音声信号の二乗平均平方根(RMS)推定に基づいて、例えば、
に従って動的に決定することができ、
式中、αttおよびαrelは、それぞれ、RMS推定について例えば0から1の間の値を有するアタックおよびリリースの平滑化定数である。例えば、αtt=0.0023およびαrel=0.0011を選択することができる。その後、srms[n]を用いて、
に従ってリミッタの閾値を導出することができ、
式中、lt[n]は、リミッタの効果を特定の距離rに応じて調整するためのさらなる適応限界閾値であってもよい。例えば、lt[n]を、
lt[n]=limithr+(1−limithr)・rnorm[n]
として定義することができ、
式中、limthrは、0から1の間の値を有するさらなる限界閾値定数であり、例えばlimthr=0.4である。さらに、急速に変化する値によるアーチファクトを回避するために、ゲイン信号μまたはμ’を経時的に平滑化することができる。例えば、
μ’[n]=(1−αhold)・μ’[n−1]+αhold・μ[n]
であり、
式中、αholdは、0から1の間の保持平滑化定数であり、例えばαhold=0.2である。
非線形プロセッサ403の出力信号を、
s’BP[n]=μ’[n]・sBP[n]
として計算することができる。
得られた非線形処理済音声信号は、その後、結合器405によって入力音声信号に追加される。振動子101の強度を制御して、
y[n]=gexc[n]・s’BP[n]+s[n]
に従って出力音声信号yを生成するためにゲイン係数を含む計数器407を用いることができる。
コントローラによって例えば0から1の間の値を含むゲイン係数gexcを制御することで、近接効果を空間音源の特定の距離の関数rとしてレンダリングすることができ、これは、バイノーラル音声信号を、再生のためにゲイン係数が空間音源の特定の距離の関数rとして適合される振動子101へ供給することができることを意味している。例えば、
gexc[n]=1−rnorm[n]
である。
装置100の実施形態は、距離rを、または、代替の実施の形態では正規化距離rnormを、特定の距離として得るかまたは用いるように構成されてもよい。
図5は、本発明の一実施形態による聞き手周囲の空間音源の配置の図501、503および505を示している。
図501は、経時的な聞き手の頭部周囲の空間音源の軌跡を示している。軌跡は、デカルト座標X−Y平面内を2回移動する。図501は、軌跡、聞き手(デカルト座標X−Y平面の中心の)聞き手の頭部、X−Y平面の正のX軸に沿った聞き手の視線方向、軌跡の開始位置、および軌跡の停止位置を示している。図503は、経時的な軌跡のX位置、Y位置およびZ位置(経時的な変化なし)を示している。図505は、経時的な空間音源と聞き手との間の特定の距離を示している。
空間音源は、楕円形の軌跡上で聞き手の頭部の周囲を移動すると考えることができ、Z平面に変化はない。デカルトX−Y−Z座標内の移動経路の時間発展、および、空間音源の特定の距離の時間発展を考慮することができる。
図6は、本発明の一実施形態による入力音声信号および出力音声信号のスペクトログラム601および603を示している。例示のために、バイノーラル出力信号の右チャンネル、すなわち空間音源が聞き手の頭部に近づく場所のスペクトログラム601および603を示す。
スペクトログラム601および603は、経時的な周波数成分の大きさをグレースケールの態様で示している。スペクトログラム601は、追加の振動子が用いられない場合の入力音声信号に関連している。スペクトログラム603は、振動子が用いられる場合の出力音声信号に関連している。入力音声信号は、バイノーラル出力信号の例えば右チャンネルまたは左チャンネルとすることができる。
比較すると、励起された出力音声信号は、振動子を用いることなく入力音声信号よりも高い輝度を示す。
輝度の増大は、破線の円で示された励起された出力音声信号において高周波数の高密度として視覚化される。
いくつかの利点を本発明によって達成することができる。例えば、空間音源が近いことを聞き手が知覚することができるように、最も近い空間音源の鮮明さを強調することができる。さらに、元の入力音声信号の高調波に対応する周波数を動的に増加させることができる。また、高周波数が過度に強調されたりブーストされたりすることはない。音質および音色を大きく変更することなく、自然な音の明るさを入力音声信号に加えることができる。
さらに、元の入力音声信号に高周波数成分が不足している場合、振動子は、入力音声信号に輝度を加えるための効率的な解決策となり得る。さらに、聞き手付近の空間音源のレンダリング、移動空間音源のレンダリング、および/または、物体に基づく空間音源のレンダリングを改善することができる。
以下では、本発明のさらなる実施形態をいくつかの例示的な応用シナリオに関連して説明する。
単純な例では、空間音源は例えば話者であり、空間音源に関連する音声信号は、例えばマイクロフォンで記録することで得られたモノ音声チャンネル信号である。コントローラは特定の距離を得て、振動子の制御パラメータをそれに応じて制御するかまたは設定する。振動子は、モノ音声チャンネル信号を入力音声信号INとして受信し、かつ、音声モノチャンネル信号を制御パラメータに応じて操作して出力音声信号OUTを得るように構成され、モノ音声チャンネル信号は、聞き手に対する操作または適合された知覚距離を含む。
一実施形態では、この出力音声信号は、空間音声のシナリオ、すなわちモノ音声チャンネル信号によって表される単一音源の空間音声のシナリオを形成する。
別の実施形態では、この操作済のモノ音声チャンネル信号からバイノーラル左右チャンネル音声信号を含むバイノーラル音声信号を得るために、この出力音声チャンネル信号を、頭部伝達関数(HRTF)を適用することでさらに処理することができる。所望の方位角を空間音声のシナリオ内の空間音源の知覚された位置に追加するために、HRTFを用いてもよい。
代替実施形態では、HRTFは最初にモノ音声チャンネル信号に適用され、その後、振動子を用いた距離操作が、同じ方法で、すなわち同一の振動子制御パラメータを用いて、左右のバイノーラル音声チャンネル信号の両方に適用される。
さらなる実施形態では、空間音源に関連するモノ音声チャンネル信号を用いて、バイノーラル音声信号に代わる指向性空間キューを含む他の音声信号形式、例えばステレオ音声信号、または、2つ以上の音声チャンネル信号、またはそれらのダウンミックスされた音声チャンネル信号および対応する空間パラメータを含む一般的なマルチチャンネル信号を得ることができる。これらの実施形態のいずれかでは、バイノーラルの実施形態の場合と同様に、指向性操作の前または後に振動子によるモノ音声チャンネル信号の操作を行うことができ、指向性操作の後に行う場合、一般に同一の振動子パラメータは、マルチチャンネル音声信号の全ての音声チャンネル信号に個別に適用される。
特定の実施形態では、例えば拡張現実アプリケーションまたは映画のサウンドトラックのミキシングについて、空間音源に関連する音声チャンネル信号のこれらモノ、バイノーラルまたはマルチチャンネルの表現を、既に1つ以上の空間音源を含む空間音声のシナリオの既存のモノ、バイノーラルまたはマルチチャンネルの表現と混合してもよい。
その他の実施形態では、例えば仮想現実アプリケーションまたは映画のサウンドトラックのミキシングについて、2つ以上の空間音源を含む空間音声のシナリオを作るために、空間音源に関連する音声チャンネル信号のこれらモノ、バイノーラルまたはマルチチャンネルの表現を、他の空間音源のモノ、バイノーラルまたはマルチチャンネルの表現と混合してもよい。
さらなる実施形態では、具体的には、2つ以上の空間音源を含むバイノーラルまたはマルチチャンネル音声信号によって表される空間音声のシナリオについて、一方の空間音源を他方の空間音源から分離するために、かつ、例えば本発明の実施形態100または200を用いて知覚距離の操作を行って、空間音声のシナリオ内に同様に含まれる他方の空間音源と比較した、この一方の空間音源ごとの空間音声信号の知覚距離を操作するために、音源の分離を行うことができる。その後、操作済かつ分離済の音声チャンネル信号は、バイノーラルまたはマルチチャンネル音声信号によって表される空間音声のシナリオに混合される。
さらに他の実施形態では、空間音源ごとのこれら一部または全ての空間音声信号の知覚距離を操作するために、一部または全ての空間音声信号が分離される。その後、操作済かつ分離済の音声チャンネル信号は、バイノーラルまたはマルチチャンネル音声信号によって表される操作済の空間音声のシナリオを形成するために混合される。空間音声のシナリオに含まれる全ての空間音源の知覚距離が操作される場合、音源の分離を省略することもでき、本発明の実施形態100および200を用いた距離操作を、バイノーラルまたはマルチチャンネル信号の個別の音声チャンネル信号に同様に適用してもよい。
空間音源は、人間、動物、楽器、または関連する空間音声信号を生成すると考えられる任意の他の音源であってもよく、またはこれらを表していてもよい。空間音源に関連する音声チャンネル信号は、自然な音声信号または記録された音声信号、または、人工的に生成された音声信号、または上述の音声信号の組み合わせであってもよい。
本発明の実施形態は、入力音声信号を励起するための振動子を含み、かつ振動子のパラメータを対応する特定の距離の関数として調整するためのコントローラを含む聞き手のヘッドフォンを介して、空間音源をレンダリングするための装置および/または方法に関連していてもよい。
振動子は、距離情報に基づいて入力音声信号にフィルタを与えることができる。振動子は、距離情報に基づいてフィルタリング済音声信号に非線形性を与えることができる。振動子は、距離情報に基づいて振動子の強度を制御するために、ゲイン係数によるスケーリングをさらに適用することができる。出力音声信号を提供するために、得られた音声信号を入力音声信号に追加することができる。
100 装置
101 振動子
103 コントローラ
200 方法
300 空間音声のシナリオ
301 空間音源
303 聞き手
401 バンドパスフィルタ
403 非線形プロセッサ
405 結合器
407 計数器

Claims (16)

  1. 空間音源(301)に関連する入力音声信号を空間音声のシナリオ(300)内で操作する装置(100)であって、前記空間音源(301)が、前記空間音声のシナリオ(300)内で聞き手(303)に対して特定の距離を有し、前記装置(100)は、
    前記入力音声信号を操作して出力音声信号を得るように構成された振動子(101)と、
    前記特定の距離に基づいて、前記入力音声信号を操作するために前記振動子(101)のパラメータを制御するように構成されたコントローラ(103)と
    を含む、装置(100)。
  2. 前記振動子(101)は、
    前記入力音声信号をフィルタリングしてフィルタリング済音声信号を得るように構成されたバンドパスフィルタ(401)と、
    前記フィルタリング済音声信号を非線形処理して非線形処理済音声信号を得るように構成された非線形プロセッサ(403)と、
    前記非線形処理済音声信号を前記入力音声信号と結合して前記出力音声信号を得るように構成された結合器(405)と
    を含む、請求項1に記載の装置(100)。
  3. 前記コントローラ(103)は、前記振動子(101)のバンドパスフィルタ(401)の周波数伝達関数を前記特定の距離に基づいて決定するように構成される、請求項1または2に記載の装置(100)。
  4. 前記コントローラ(103)は、前記特定の距離が減少およびその逆に増加する場合に、前記振動子(101)のバンドパスフィルタ(401)の低域遮断周波数および/または高域遮断周波数を増加させるように構成され、および/または
    前記コントローラ(103)は、前記特定の距離が減少およびその逆に増加する場合に、前記振動子(101)のバンドパスフィルタ(401)の帯域幅を増大させるように構成され、および/または
    前記コントローラ(103)は、前記振動子(101)の前記バンドパスフィルタ(401)の低域遮断周波数および/または高域遮断周波数を、次の式
    fH=(2−rnorm)・b1_freq
    fL=(2−rnorm)・b2_freq
    に従って決定するように構成され、
    式中、fHは前記高域遮断周波数を表し、fLは前記低域遮断周波数を表し、b1_freqは第1基準遮断周波数を表し、b2_freqは第2基準遮断周波数を表し、rは前記特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表す、請求項1から3のいずれか一項に記載の装置(100)。
  5. 前記コントローラ(103)は、前記特定の距離に基づいて、非線形処理済音声信号を得るために前記振動子(101)の非線形プロセッサ(403)のパラメータを制御するように構成される、請求項1から4のいずれか一項に記載の装置(100)。
  6. 前記コントローラ(103)は、前記特定の距離が減少およびその逆に増加する場合に、非線形処理済音声信号が、前記非線形処理済音声信号の高周波部分においてより高い高調波および/またはより多くの電力を含むように、前記振動子(101)の非線形プロセッサ(403)のパラメータを制御するように構成される、請求項1から5のいずれか一項に記載の装置(100)。
  7. 前記振動子(101)の非線形プロセッサ(403)は、時間領域内のフィルタリング済音声信号の大きさを限界閾値未満の大きさに制限して、非線形処理済音声信号を得るように構成され、前記コントローラ(103)は、前記限界閾値を前記特定の距離に基づいて制御するように構成される、請求項1から6のいずれか一項に記載の装置(100)。
  8. 前記コントローラ(103)は、前記特定の距離が減少およびその逆に増加する場合に前記限界閾値を減少させるように構成され、および/または
    前記コントローラ(103)は、前記特定の距離に基づいて前記限界閾値を、次の式
    lt=LT・rnorm
    に従って決定するように構成され、
    式中、ltは前記限界閾値を表し、LTは限界閾値定数を表し、rは前記特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表す、請求項7に記載の装置(100)。
  9. 前記振動子(101)の非線形プロセッサ(403)は、フィルタリング済音声信号に時間領域内のゲイン信号を乗算するように構成され、前記ゲイン信号は、前記特定の距離に基づいて前記入力音声信号から決定される、請求項1から8のいずれか一項に記載の装置(100)。
  10. 前記コントローラ(103)は、前記特定の距離に基づいて前記ゲイン信号を、次の式
    lt[n]=limithr+(1−limithr)・rnorm[n]
    に従って決定するように構成され、
    式中、μは前記ゲイン信号を表し、srmsは二乗平均平方根入力音声信号を表し、sBPは前記フィルタリング済音声信号を表し、ltは、さらなる限界閾値を表し、limthrは、さらなる限界閾値定数を表し、rは前記特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表し、nはサンプル時間指数を表す、請求項9に記載の装置(100)。
  11. 前記振動子(101)は、非線形処理済音声信号をゲイン係数で重み付けするように構成された計数器(407)を含み、前記コントローラ(103)は、前記計数器(407)の前記ゲイン係数を前記特定の距離に基づいて決定するように構成される、請求項1から10のいずれか一項に記載の装置(100)。
  12. 前記コントローラ(103)は、前記特定の距離が減少およびその逆に増加する場合に前記ゲイン係数を増加させるように構成され、および/または
    前記コントローラ(103)は、前記特定の距離に基づいて前記ゲイン係数を、次の式
    gexc[n]=1−rnorm[n]
    に従って決定するように構成され、
    式中、gexcは前記ゲイン係数を表し、rは前記特定の距離を表し、rmaxは最大距離を表し、rnormは正規化距離を表し、nはサンプル時間指数を表す、請求項11に記載の装置(100)。
  13. 前記装置(100)は、前記特定の距離を決定するように構成された決定部をさらに含む、請求項1から12のいずれか一項に記載の装置(100)。
  14. 空間音源(301)に関連する入力音声信号を空間音声のシナリオ(300)内で操作する方法(200)であって、前記空間音源(301)は、前記空間音声のシナリオ(300)内で聞き手(303)に対して特定の距離を有し、前記方法(200)は、
    前記入力音声信号を前記特定の距離に基づいて励起するために励起パラメータを制御するステップ(201)と、
    出力音声信号を得るために前記入力音声信号を励起するステップ(203)と
    を含む、方法(200)。
  15. 前記入力音声信号を励起するステップ(203)は、
    フィルタリング済音声信号を得るために前記入力音声信号をバンドパスフィルタリングするステップと、
    非線形処理済音声信号を得るために前記フィルタリング済音声信号を非線形処理するステップと、
    前記出力音声信号を得るために前記非線形処理済音声信号を前記入力音声信号と結合させるステップと
    を含む、請求項14に記載の方法(200)。
  16. コンピュータ上で実行する場合に、請求項14または15の前記方法(200)を行うためのプログラムコードを含む、コンピュータプログラム。
JP2017503511A 2014-07-22 2014-07-22 入力音声信号を操作するための装置および方法 Active JP6430626B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2014/065728 WO2016012037A1 (en) 2014-07-22 2014-07-22 An apparatus and a method for manipulating an input audio signal

Publications (2)

Publication Number Publication Date
JP2017525292A true JP2017525292A (ja) 2017-08-31
JP6430626B2 JP6430626B2 (ja) 2018-11-28

Family

ID=51212855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017503511A Active JP6430626B2 (ja) 2014-07-22 2014-07-22 入力音声信号を操作するための装置および方法

Country Status (12)

Country Link
US (1) US10178491B2 (ja)
EP (1) EP3155828B1 (ja)
JP (1) JP6430626B2 (ja)
KR (1) KR101903535B1 (ja)
CN (1) CN106465032B (ja)
AU (1) AU2014401812B2 (ja)
BR (1) BR112017001382B1 (ja)
CA (1) CA2955427C (ja)
MX (1) MX363415B (ja)
RU (1) RU2671996C2 (ja)
WO (1) WO2016012037A1 (ja)
ZA (1) ZA201700207B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3264228A1 (en) * 2016-06-30 2018-01-03 Nokia Technologies Oy Mediated reality
WO2018043917A1 (en) * 2016-08-29 2018-03-08 Samsung Electronics Co., Ltd. Apparatus and method for adjusting audio
US11489847B1 (en) * 2018-02-14 2022-11-01 Nokomis, Inc. System and method for physically detecting, identifying, and diagnosing medical electronic devices connectable to a network
WO2020200964A1 (en) 2019-03-29 2020-10-08 Sony Corporation Apparatus and method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817149A (en) * 1987-01-22 1989-03-28 American Natural Sound Company Three-dimensional auditory display apparatus and method utilizing enhanced bionic emulation of human binaural sound localization
JPH03114000A (ja) * 1989-09-27 1991-05-15 Nippon Telegr & Teleph Corp <Ntt> 音声再生方式
JPH06269096A (ja) * 1993-03-15 1994-09-22 Olympus Optical Co Ltd 音像制御装置
US20110243336A1 (en) * 2010-03-31 2011-10-06 Kenji Nakano Signal processing apparatus, signal processing method, and program
JP2013243626A (ja) * 2012-05-23 2013-12-05 Sony Corp 信号処理装置、信号処理方法、およびプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920840A (en) * 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
US20030007648A1 (en) * 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US7391877B1 (en) 2003-03-31 2008-06-24 United States Of America As Represented By The Secretary Of The Air Force Spatial processor for enhanced performance in multi-talker speech displays
US20050147261A1 (en) * 2003-12-30 2005-07-07 Chiang Yeh Head relational transfer function virtualizer
KR100609878B1 (ko) * 2005-07-25 2006-08-08 삼성전자주식회사 오디오 출력장치 및 그 제어방법
JP5082327B2 (ja) 2006-08-09 2012-11-28 ソニー株式会社 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
WO2008032255A2 (en) * 2006-09-14 2008-03-20 Koninklijke Philips Electronics N.V. Sweet spot manipulation for a multi-channel signal
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
WO2008106680A2 (en) * 2007-03-01 2008-09-04 Jerry Mahabub Audio spatialization and environment simulation
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
EP2234103B1 (en) * 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
WO2013181172A1 (en) * 2012-05-29 2013-12-05 Creative Technology Ltd Stereo widening over arbitrarily-configured loudspeakers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817149A (en) * 1987-01-22 1989-03-28 American Natural Sound Company Three-dimensional auditory display apparatus and method utilizing enhanced bionic emulation of human binaural sound localization
JPH03114000A (ja) * 1989-09-27 1991-05-15 Nippon Telegr & Teleph Corp <Ntt> 音声再生方式
JPH06269096A (ja) * 1993-03-15 1994-09-22 Olympus Optical Co Ltd 音像制御装置
US20110243336A1 (en) * 2010-03-31 2011-10-06 Kenji Nakano Signal processing apparatus, signal processing method, and program
JP2013243626A (ja) * 2012-05-23 2013-12-05 Sony Corp 信号処理装置、信号処理方法、およびプログラム

Also Published As

Publication number Publication date
BR112017001382B1 (pt) 2022-02-08
RU2017105461A (ru) 2018-08-22
CN106465032B (zh) 2018-03-06
ZA201700207B (en) 2018-04-25
MX2017000954A (es) 2017-05-01
RU2671996C2 (ru) 2018-11-08
AU2014401812A1 (en) 2017-02-02
EP3155828A1 (en) 2017-04-19
WO2016012037A1 (en) 2016-01-28
US10178491B2 (en) 2019-01-08
RU2017105461A3 (ja) 2018-08-22
CA2955427C (en) 2019-01-15
BR112017001382A2 (pt) 2018-06-05
CA2955427A1 (en) 2016-01-28
KR101903535B1 (ko) 2018-10-02
KR20170030606A (ko) 2017-03-17
AU2014401812B2 (en) 2018-03-01
MX363415B (es) 2019-03-22
EP3155828B1 (en) 2018-11-07
CN106465032A (zh) 2017-02-22
US20170134877A1 (en) 2017-05-11
JP6430626B2 (ja) 2018-11-28

Similar Documents

Publication Publication Date Title
US10469978B2 (en) Audio signal processing method and device
US8515104B2 (en) Binaural filters for monophonic compatibility and loudspeaker compatibility
CN108196683B (zh) 利用波形的声音到触觉效应转换系统
JP6251809B2 (ja) サウンドステージ拡張用の装置及び方法
US20180048975A1 (en) Audio signal processing method and apparatus
US10178491B2 (en) Apparatus and a method for manipulating an input audio signal
EP2939443B1 (en) System and method for variable decorrelation of audio signals
EP3286929A1 (en) Processing audio data to compensate for partial hearing loss or an adverse hearing environment
WO2015080994A1 (en) Audio signal processing
CN112585868B (zh) 响应于压缩反馈进行音频增强
JP5915249B2 (ja) 音響処理装置および音響処理方法
CN108182947A (zh) 一种声道混合处理方法及装置
WO2019203124A1 (ja) ミキシング装置、ミキシング方法、及びミキシングプログラム
JP2024507535A (ja) バイノーラル・オーディオのための仮想化器
WO2023187208A1 (en) Methods and systems for immersive 3dof/6dof audio rendering
WO2024025803A1 (en) Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds
Carlsson The Acoustics of Stockholm Concert Hall and Artificial Reverberation Systems: Evaluation of Stora salen and simulation of its electronic reverberation system
WO2022250772A1 (en) Dynamic range adjustment of spatial audio objects

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181031

R150 Certificate of patent or registration of utility model

Ref document number: 6430626

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250