JP2016052117A - 音声信号処理方法および装置 - Google Patents

音声信号処理方法および装置 Download PDF

Info

Publication number
JP2016052117A
JP2016052117A JP2015113909A JP2015113909A JP2016052117A JP 2016052117 A JP2016052117 A JP 2016052117A JP 2015113909 A JP2015113909 A JP 2015113909A JP 2015113909 A JP2015113909 A JP 2015113909A JP 2016052117 A JP2016052117 A JP 2016052117A
Authority
JP
Japan
Prior art keywords
signal
mobile terminal
audio signal
microphone
rear surround
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015113909A
Other languages
English (en)
Inventor
チェン・ジンドン
Jingdong Chen
リー・ハイティン
Haiting Li
ヂャン・ドーミン
Deming Zhang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2016052117A publication Critical patent/JP2016052117A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声信号処理方法および装置を提供する。
【解決手段】本発明の実施形態は、音声信号処理方法および装置を開示し、オーディオ信号処理分野に関し、端末を取囲む三次元音場において信号を収集および処理することができる。本発明における方法は、三次元音場から音声信号を移動端末によって取得するステップを含み、少なくとも3つのマイクロホンが移動端末に配設されており、1つのマイクロホンが少なくとも1つの方向の音声信号を受取るように構成され、当該方法はさらに、取得された音声信号に従って、移動端末に対する音源の方向を取得するステップと、移動端末に対する音源の方向および取得された音声信号に従って、空間オーディオ信号を得るステップとを含み、空間オーディオ信号は、三次元音場をシミュレートするために使用される。本発明は、端末を取囲む三次元音場において信号を収集および処理するプロセスに適用可能である。
【選択図】図1

Description

技術分野
本発明は、オーディオ信号処理分野に関し、特に音声信号処理方法および装置に関する。
背景
電子情報技術の発展に伴って、三次元音場の収集および処理が絶えず改良されている。移動端末は、三次元音場収集および処理システムにおける一般的な装置である。先行技術における、移動端末によって三次元音場の収集および処理を行うための具体的な手段について以下で説明する。
二次元音場の収集のためのビーム形成技術が移動端末に適用され、当該ビーム形成技術を使用して、0°方向および180°方向のハート型の指向性を有するビームが生成され、三次元音声信号の収集が実施される。当該技術が三次元音場の収集に適用され、当該ビーム形成技術を使用して異なる方向のビームが得られ、当該ビームは、音声チャネルおよび音場収集システム5.1において、中央音声チャネル、左前方音声チャネル、右前方音声チャネル、左後方サラウンド音声チャネルおよび右後方サラウンド音声チャネルをシミュレートするために使用される。
現在のところ、二次元音場の収集のためのビーム形成技術を使用して移動端末上でシミュレートされた三次元音場では、二次元音場の収集のためのビーム形成技術が使用され、0°方向および180°方向のハート型の指向性を有するビームが生成されるので、シミュレートされた三次元音場の実際の再生結果において左方向と右方向との間の差が前方方向と後方方向との間の差よりも明らかであるという現象が起こり、その結果、シミュレートされた三次元音場は依然として二次元音場の特徴を有し、シミュレートされた三次元音場の質が比較的低くなる。
概要
本発明の実施形態は、端末を取囲む三次元音場において信号を収集および処理することができる音声信号処理方法および装置を提供する。
上記の目的を達成するために、本発明の実施形態は以下の技術的解決策を使用する。
第1の局面によれば、本発明の実施形態は、音声信号処理方法であって、
三次元音場から音声信号を移動端末によって取得するステップを含み、少なくとも3つのマイクロホンが上記移動端末に配設されており、1つのマイクロホンが少なくとも1つの方向の音声信号を受取るように構成され、上記音声信号処理方法はさらに、
上記取得された音声信号に従って、上記移動端末に対する音源の方向を取得するステップと、
上記移動端末に対する上記音源の上記方向および上記取得された音声信号に従って、空間オーディオ信号を得るステップとを含み、上記空間オーディオ信号は、上記三次元音場をシミュレートするために使用される、音声信号処理方法を提供する。第1の局面を参照して、第1の局面の第1の可能な実施態様において、上記取得された音声信号に従って、上記移動端末に対する音源の方向を取得するステップは、
上記移動端末上の上記マイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するステップを含み、上記移動端末上の上記マイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、上記取得するステップはさらに、
上記取得された到達時間差および上記移動端末上の上記移動端末上の上記マイクロホンの位置に従って、上記移動端末に対する上記音源の上記方向を得るステップを含む。
Figure 2016052117
Figure 2016052117
第1の局面の第2の可能な実施態様を参照して、第1の局面の第4の可能な実施態様において、上記取得された到達時間差および上記移動端末上の上記移動端末上の上記マイクロホンの位置に従って、上記移動端末に対する上記音源の上記方向を得るステップは、
以下に従って、上記移動端末に対する上記音源の上記方向θを取得するステップを含み、
Figure 2016052117
上記第1のマイクロホンおよび第2のマイクロホンは、上記移動端末の1つの面の対称軸上に位置し、それぞれ上記1つの面上の2つの平行な端縁に位置し、第3のマイクロホンおよび第4のマイクロホンは、上記移動端末の別の面の対称軸上に位置し、それぞれ上記別の面上の2つの平行な端縁に位置し、cは音速を表わし、(x,y)は上記第1のマイクロホンに対応する座標を表わし、(x,y)は上記第2のマイクロホンに対応する座標を表わし、(x,y)は上記第3のマイクロホンに対応する座標を表わし、(x,y)は上記第4のマイクロホンに対応する座標を表わす。
第1の局面または第1の局面の第1から第4の可能な実施態様のうちのいずれか1つに係る音声信号処理方法を参照して、第1の局面の第5の可能な実施態様において、上記空間オーディオ信号は、左方向の信号と、右方向の信号と、中央方向の信号と、左後方サラウンド信号と、右後方サラウンド信号とを少なくとも含み、
上記移動端末に対する上記音源の上記方向および上記取得された音声信号に従って、空間オーディオ信号を得るステップは、
上記移動端末に対する上記音源の上記方向を使用してゲイン調整パラメータを生成するステップを含み、上記ゲイン調整パラメータは、上記左方向の信号、上記右方向の信号および上記中央方向の信号に対応する第1のタイプのゲイン調整パラメータαと、上記左後方サラウンド信号および上記右後方サラウンド信号に対応する第1のタイプのゲイン調整パラメータαと、上記左方向の信号および上記左後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαと、上記右方向の信号および上記右後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαとを含み、さらに、上記移動端末に対する上記音源の上記方向について、θ∈[0,90)∪(270,360]の場合、α>αであり、θ∈(90,270)の場合、α<αであり、θ∈(0,180)の場合、α>αであり、θ∈(180,360)の場合、α<αであり、上記得るステップはさらに、
上記音声信号に従って、上記空間オーディオ信号における全ての方向の上記信号の初期値を取得するステップと、
上記ゲイン調整パラメータおよび上記空間オーディオ信号における全ての方向の上記信号の上記初期値に従って、上記左方向の信号、上記右方向の信号、上記中央方向の信号、上記左後方サラウンド信号および上記右後方サラウンド信号を生成するステップとを含む。
第1の局面の第5の可能な実施態様を参照して、第1の局面の第6の可能な実施態様において、上記空間オーディオ信号は、2チャネル信号をさらに含み、
上記方法はさらに、
上記2チャネル信号を生成するために、上記左方向の信号、上記右方向の信号、上記中央方向の信号、上記左後方サラウンド信号および上記右後方サラウンド信号をダウンミックスするステップを含む。
第1の局面の第5の可能な実施態様を参照して、第1の局面の第7の可能な実施態様において、上記移動端末に対する上記音源の上記方向を使用してゲイン調整パラメータを生成するステップは、
以下に従って、上記左方向の信号、上記右方向の信号および上記中央方向の信号に対応する上記第1のタイプのゲイン調整パラメータαを生成するステップと、
Figure 2016052117
以下に従って、上記左後方サラウンド信号および上記右後方サラウンド信号に対応する上記第1のタイプのゲイン調整パラメータαを生成するステップとを含み、
Figure 2016052117
αF,min、αF,med1、αF,max1、αF,med2、αF,max2、αB,min1、αB,med1、αB,min2、αB,med2およびαB,maxは、ゼロよりも大きな定数であり、αF,min<αF,med1<αF,max1、αF,min<αF,med2<αF,max2、αB,min1<αB,med1<αB,max、αB,min2<αB,med2<αB,max、αB,med1=αF,med1およびαB,med2=αF,med2であり、上記生成するステップはさらに、
以下に従って、上記左方向の信号および上記左後方サラウンド信号に対応する上記第2のタイプのゲイン調整パラメータαを生成するステップと、
Figure 2016052117
以下に従って、上記右方向の信号および上記右後方サラウンド信号に対応する上記第2のタイプのゲイン調整パラメータαを生成するステップとを含み、
Figure 2016052117
αL,med1、αL,max、αL,med2、αL,min、αR,med1、αR,min、αR,med2およびαR,maxは、ゼロよりも大きな定数であり、αL,min<αL,med1<αL,max、αL,min<αL,med2<αL,max、αR,min<αR,med1<αR,max、αR,min<αR,med2<αR,max、αL,med1=αR,med1およびαL,med2=αR,med2である。
第1の局面の第7の可能な実施態様を参照して、第1の局面の第8の可能な実施態様において、上記ゲイン調整パラメータおよび上記空間オーディオ信号における全ての方向の上記信号の上記初期値に従って、上記空間オーディオ信号における全ての方向の上記信号を生成するステップは、
以下に従って、上記左方向の信号SL,final(n)、上記中央方向の信号SC,final(n)、上記右方向の信号SR,final(n)、上記左後方サラウンド方向信号SLS,final(n)および上記右後方サラウンド信号SRS,final(n)を取得するステップを含み、
Figure 2016052117
(n)は上記左方向の信号の初期値を表わし、S(n)は上記中央方向の信号の初期値を表わし、S(n)は上記右方向の信号の初期値を表わし、SLS(n)は上記左後方サラウンド信号の初期値を表わし、SRS(n)は上記右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす。
Figure 2016052117
第1の局面の第9の可能な実施態様を参照して、第1の局面の第10の可能な実施態様において、ハート型の指向性を有するビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)を取得するステップは、
上記第1から上記第4のマイクロホンによって受取られる上記音声信号を使用して、ハート型の指向性を有するビームBFij(n)を取得するステップを含み、BFij(n)の最大指向性の点は、i番目のマイクロホンとj番目のマイクロホンとの接続線から上記i番目のマイクロホンに向かう方向にあり、BFij(n)の指向性のゼロ点は、上記i番目のマイクロホンと上記j番目のマイクロホンとの上記接続線から上記j番目のマイクロホンに向かう方向にあり、iおよびjは1、2、3または4に等しく、上記取得するステップはさらに、
以下に従って、ハート型の指向性を有する上記ビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)を取得するステップを含む。
Figure 2016052117
第1の局面の第7の可能な実施態様を参照して、第1の局面の第11の可能な実施態様において、上記ゲイン調整パラメータおよび上記空間オーディオ信号における全ての方向の上記信号の上記初期値に従って、上記空間オーディオ信号における全ての方向の上記信号を生成するステップは、
L,final(n)=S(n)*αに従って上記左方向の信号SL,final(n)を取得するステップと、
C,final(n)=S(n)に従って上記中央方向の信号SC,final(n)を取得するステップと、
R,final(n)=S(n)*αに従って上記右方向の信号SR,final(n)を取得するステップと、
LS,final(n)=SLS(n)*αに従って上記左後方サラウンド信号SLS,final(n)を取得するステップと、
RS,final(n)=SRS(n)*αに従って上記右後方サラウンド信号SRS,final(n)を取得するステップとを含み、
(n)は上記左方向の信号の初期値を表わし、S(n)は上記中央方向の信号の初期値を表わし、S(n)は上記右方向の信号の初期値を表わし、SLS(n)は上記左後方サラウンド信号の初期値を表わし、SRS(n)は上記右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす。
第2の局面によれば、本発明は、音声信号処理装置であって、
三次元音場から音声信号を取得するように構成された第1の取得モジュールを含み、少なくとも3つのマイクロホンが移動端末に配設されており、1つのマイクロホンが少なくとも1つの方向の音声信号を受取るように構成され、上記音声信号処理装置はさらに、
上記取得された音声信号に従って、上記移動端末に対する音源の方向を取得するように構成された第2の取得モジュールと、
上記移動端末に対する上記音源の上記方向および上記取得された音声信号に従って、空間オーディオ信号を得るように構成された第1の処理モジュールとを含み、上記空間オーディオ信号は、上記三次元音場をシミュレートするために使用される、音声信号処理装置を提供する。
第2の局面を参照して、第2の局面の第1の可能な実施態様において、上記第2の取得モジュールは、
上記移動端末上の上記マイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するように構成された第1の取得ユニットを含み、上記移動端末上の上記マイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、上記第2の取得モジュールはさらに、
上記取得された到達時間差および上記移動端末上の上記移動端末上の上記マイクロホンの位置に従って、上記移動端末に対する上記音源の上記方向を得るように構成された第2の取得ユニットを含む。
Figure 2016052117
第2の局面の第2の可能な実施態様を参照して、第2の局面の第4の可能な実施態様において、上記第2の取得ユニットは、
以下に従って、上記移動端末に対する上記音源の上記方向θを取得するように構成された第4の取得サブユニットを含み、
Figure 2016052117
上記第1のマイクロホンおよび第2のマイクロホンは、上記移動端末の1つの面の対称軸上に位置し、それぞれ上記1つの面上の2つの平行な端縁に位置し、第3のマイクロホンおよび第4のマイクロホンは、上記移動端末の別の面の対称軸上に位置し、それぞれ上記別の面上の2つの平行な端縁に位置し、cは音速を表わし、(x,y)は上記第1のマイクロホンに対応する座標を表わし、(x,y)は上記第2のマイクロホンに対応する座標を表わし、(x,y)は上記第3のマイクロホンに対応する座標を表わし、(x,y)は上記第4のマイクロホンに対応する座標を表わす。
第2の局面または第2の局面の第1から第4の可能な実施態様のうちのいずれか1つに係る音声信号処理装置を参照して、上記空間オーディオ信号は、左方向の信号と、右方向の信号と、中央方向の信号と、左後方サラウンド信号と、右後方サラウンド信号とを少なくとも含み、
上記第1の処理モジュールは、
上記移動端末に対する上記音源の上記方向を使用してゲイン調整パラメータを生成するように構成された第1の処理ユニットを含み、上記ゲイン調整パラメータは、上記左方向の信号、上記右方向の信号および上記中央方向の信号に対応する第1のタイプのゲイン調整パラメータαと、上記左後方サラウンド信号および上記右後方サラウンド信号に対応する第1のタイプのゲイン調整パラメータαと、上記左方向の信号および上記左後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαと、上記右方向の信号および上記右後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαとを含み、さらに、上記移動端末に対する上記音源の上記方向について、θ∈[0,90)∪(270,360]の場合、α>αであり、θ∈(90,270)の場合、α<αであり、θ∈(0,180)の場合、α>αであり、θ∈(180,360)の場合、α<αであり、上記第1の処理モジュールはさらに、
上記音声信号に従って、上記空間オーディオ信号における全ての方向の上記信号の初期値を取得するように構成された第2の処理ユニットと、
上記ゲイン調整パラメータおよび上記空間オーディオ信号における全ての方向の上記信号の上記初期値に従って、上記左方向の信号、上記右方向の信号、上記中央方向の信号、上記左後方サラウンド信号および上記右後方サラウンド信号を生成するように構成された第3の処理ユニットとを含む。
第2の局面の第4の可能な実施態様を参照して、第2の局面の第6の可能な実施態様において、上記空間オーディオ信号は、2チャネル信号をさらに含み、
上記装置はさらに、
上記2チャネル信号を生成するために、上記左方向の信号、上記右方向の信号、上記中央方向の信号、上記左後方サラウンド信号および上記右後方サラウンド信号をダウンミックスするように構成された第4の処理ユニットを含む。
本発明の実施形態において提供される音声信号処理方法および装置によれば、音声信号は、移動端末を取囲む三次元音場から取得されることができ、移動端末に対する全ての音源の方向が取得され、次いで、移動端末に対する音源の方向および音声信号を使用して、三次元音場をシミュレートするために使用される空間オーディオ信号が生成される。本発明において提供される解決策では、三次元音場をシミュレートするために使用される音声信号は、移動端末の要素を使用して収集および処理され得る。また、全ての方向の受取られた音源の移動端末に対する方向は、分析によって得られ、次いで、全ての方向の音源の移動端末に対する方向に従って、三次元音場の効果がシミュレートされる。先行技術における解決策では、0°および180°の2つの方向のビームのみを使用して三次元音場がシミュレートされる。しかし、本発明では、全ての方向の音源の移動端末に対する方向が取得され、音源は、0°および180°の2つの方向に限定されるものではない。したがって、シミュレートされた三次元音場において左方向と右方向との間の差が前方方向と後方方向との間の差よりも明らかであるという現象を軽減することができ、それによって、シミュレートされた三次元音場の質が向上する。
本発明の実施形態における技術的解決策をより明らかに説明するために、実施形態の説明に必要な添付の図面について以下で簡単に紹介する。明らかに、以下の説明では、添付の図面は本発明のいくつかの実施形態を示しているに過ぎず、依然として当業者は、創意工夫なしにこれらの添付の図面から他の図面を導き出すことができる。
本発明の実施形態に係る音声信号処理方法のフローチャートである。 本発明の実施形態に係る音声信号処理のアプリケーションシナリオの概略構造図である。 本発明の実施形態に係る音声信号処理のアプリケーションシナリオの概略構造図である。 本発明の実施形態に係る音声信号処理のアプリケーションシナリオの概略構造図である。 本発明の実施形態に係る音声信号処理のアプリケーションシナリオの概略構造図である。 本発明の実施形態に係る音声信号処理のアプリケーションシナリオの概略構造図である。 本発明の実施形態に係る別の音声信号処理方法のフローチャートである。 本発明の実施形態に係る音声信号処理方法の具体的な実施態様のフローチャートである。 本発明の実施形態に係る別の音声信号処理方法の具体的な実施態様のフローチャートである。 本発明の実施形態に係る音声信号処理のアプリケーションシナリオの概略構造図である。 本発明の実施形態に係る音声信号処理の別のアプリケーションシナリオの概略構造図である。 本発明の実施形態に係る音声信号処理のさらに別のアプリケーションシナリオの概略構造図である。 本発明の実施形態に係る音声信号処理方法のフローチャートである。 本発明の実施形態に係る別の音声信号処理方法のフローチャートである。 本発明の実施形態に係る音声信号処理装置の概略構造図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理装置の具体的な構造の概略図である。 本発明の実施形態に係る音声信号処理エンティティの概略構造図である。
実施形態の説明
以下では、本発明の実施形態における添付の図面を参照して、本発明の実施形態における技術的解決策について明らかにかつ完全に説明する。明らかに、記載されている実施形態は、本発明の実施形態のうちのいくつかに過ぎず、本発明の全ての実施形態であるわけではない。創意工夫なしに本発明の実施形態に基づいて当業者によって得られる全ての他の実施形態は、本発明の保護範囲内である。
本発明の実施形態は音声信号処理方法を提供し、図1に示されるように、当該方法は以下を含む。
ステップ101:移動端末が三次元音場から音声信号を取得し、少なくとも3つのマイクロホンが移動端末に配設されている。
1つのマイクロホンは、少なくとも1つの方向の音声信号を受取るように構成されている。
本発明のこの実施形態は、移動端末に適用され得て、当該移動端末にはマイクロホンが配置され、当該マイクロホンは、三次元音場を測定し、当該三次元音場から音声信号を取得し、強調処理のために当該音声信号を移動端末におけるプロセッサに送信するように構成され、また、強調の前および後に、格納のために移動端末におけるストレージに音声信号を送信し得る。具体的には、移動端末に配置されるマイクロホンは、全指向性マイクロホンであってもよく、または特定の指向性を有するマイクロホンであってもよい。例えば、MEMS(微小電気機械システム)マイクロホンまたはECM(エレクトレットコンデンサマイクロホン)マイクロホンが特に移動端末に配置されてもよい。
この実施形態では、移動端末にマイクロホンを配置するための態様が複数存在し得る。さまざまな配置態様において、移動端末上のマイクロホンの数量および位置は限定されるものではない。この実施形態では、説明のための例として、マイクロホンが4つの場合およびマイクロホンが3つの場合が使用される。例えば、移動端末には、図1aに示されるように、4つのマイクロホンが移動端末の4つの角にそれぞれ配設されてもよい。また、任意に、図1bに示されるように、4つのマイクロホンが移動端末の4つの側面にそれぞれ配設されてもよい。また、任意に、図1cに示されるように、1つのマイクロホンが移動端末の底部側、前方イヤホン付近、後方カメラ付近および後方底部側付近に各々配設されてもよい。別の例では、単純に3つのマイクロホンが移動端末に配設されてもよい。図1dに示されるように、2つのマイクロホンが移動端末の底部側に配設され、1つのマイクロホンが前方イヤホン付近に配設される。任意に、図1eに示されるように、1つのマイクロホンが移動端末の底部側、前方イヤホン付近および後方カメラ付近に各々配設されてもよい。
ステップ102:取得された音声信号に従って、移動端末に対する音源の方向を取得する。
移動端末は、マイクロホンを使用して、放出される音の供給源を推定し、移動端末に対する音源の方向を得る。この実施形態では、例えば最大出力パワーベースの制御可能なビーム形成技術または到達時間差ベースの位置決め技術または高分解能スペクトル推定ベースの位置決め技術に基づいて音源を推定するための方法が複数存在し得る。
また、音源の位置を推定する際、移動端末は、受取られた音声信号に対して強調処理をさらに行ってもよい。例えば、移動端末は、ビーム形成、空間予測または聴覚シナリオ分析などの技術的手段を使用して、全ての方向の強調された音声信号を得ることができる。例えば、ビーム形成によって音声信号を強調するために移動端末によって使用される具体的な方法としては、遅延和ビーム形成もしくはフィルタリング和ビーム形成などの固定ビーム形成技術、または、最小分散無ひずみ応答原理に基づく適応ビーム形成アルゴリズム、線形拘束最小分散ビーム形成もしくはサイドローブキャンセルアルゴリズムなどのアダプティブビーム形成技術、または差分ビーム形成技術が挙げられ得る。空間予測によって音声信号を強調するために移動端末によって使用される具体的な方法は、収集されることが見込まれるいくつかの方向の空間音声信号を予め設定するステップと、次いで、出力された強調された音声信号のノイズが最小であり、かつ、予測誤差がゼロに近付くように、事前にトレーニングされた最適なフィルタ群および空間予測技術を使用して、移動端末上の音声受信機によって受取られた全ての方向の音声信号を、出力されることが見込まれるいくつかの方向の予め設定された信号に変換するステップとを含み得る。この実施形態では、可聴シナリオ分析技術は、具体的にはブラインド音源分離アルゴリズムであってもよい。
2つの方向のビーム指向性を少なくとも有する音声信号が強調によって得られる。例えば1つのマイクロホンによって受取られた音声信号に対する強調処理によって得られる1つの方向のビーム指向性を有する音声信号は、移動端末の前方、後方、左側および右側などの異なる方向に音源から送られる全ての方向の音声信号として分化され得る。例えば、移動端末が受取られた音声信号に対して強調処理を行った後、左前方、右前方、左後方および右後方のビーム指向性をそれぞれ有する4つの方向の強調された音声信号が生成され、または、前方、後方、左方向および右方向のビーム指向性をそれぞれ有する4つの方向の強調された音声信号が生成される。また、この実施形態では、複数の方向の異なる指向性を有する音声信号は、特定のニーズに従って1つの特定の方向の音声信号に統合され得て、強調処理によって得られるビーム指向性を有する音声信号のビーム形状は、ハート型の指向性であってもよく、またはスーパーハート型であってもよく、または別の形状であってもよい。
ステップ103:移動端末に対する音源の方向および取得された音声信号に従って、空間オーディオ信号を得る。
空間オーディオ信号は、三次元音場をシミュレートするために使用される。三次元音場は、移動端末を取囲む特定の範囲の音場として理解されることができる。音源は、三次元音場においていかなる方向からも音声信号を送ることができ、当該音声信号は、移動端末によって受取られる。
例えば、移動端末は、移動端末に対する音源の方向および全ての方向の受取られた音声信号を使用して、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号を生成する。移動端末は、全ての方向の強調された音声信号を、5.1音声チャネル再生システムのシミュレートされた音場を形成するために使用される空間オーディオ信号に必要な合計6つの方向の音声信号にマッピングし、さらに、移動端末に対する音源の方向を使用して、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な6つの方向の音声信号の分離度を向上させ得る。例えば、移動端末は、移動端末に対する音源の方向に従って、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な音声信号の、各方向ごとのゲイン調整パラメータを計算し、ゲイン調整パラメータを使用して、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な音声信号を調整し得る。空間オーディオ信号は、左方向の信号、右方向の信号、中央方向の信号、左後方サラウンド信号および右後方サラウンド信号を少なくとも含む。
移動端末によって受取られる全ての方向の音声信号と、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な6つの方向の音声信号との間には複数の関係が存在し得る。例えば、移動端末によって受取られた音声信号は強調され、4つの方向の音声信号が出力され、当該4つの方向はそれぞれ、左前方、左後方、右前方および右後方であり、左前方方向の音声信号は、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な左方向の音声信号にマッピングされ、右前方方向の音声信号は、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な右方向の音声信号にマッピングされ、左前方方向の音声信号と右前方方向の音声信号との間で平均信号が取られ、当該平均信号は、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な中央方向の音声信号にマッピングされ、左後方方向の音声信号は、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な左後方サラウンド音声信号にマッピングされ、右後方方向の音声信号は、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な右後方サラウンド音声信号にマッピングされ、左前方方向、左後方方向、右前方方向および右後方方向の音声信号の間で平均値が取られ、当該平均値に対して150Hzローパスフィルタリング処理が行われて、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な超低音信号を得る。
別の例では、移動端末によって受取られた音声信号は強調され、4つの方向の音声信号、すなわちそれぞれ前方、後方、左方向および右方向の4つの方向の音声信号が出力され、左方向および前方方向の音声信号の平均信号が、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な左方向の音声信号にマッピングされ、右方向および前方方向の音声信号の平均信号が、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な右方向の音声信号にマッピングされ、前方方向の音声信号が、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な中央方向の音声信号にマッピングされ、左方向および後方方向の音声信号の平均信号が、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な左後方サラウンド音声信号にマッピングされ、右方向および後方方向の音声信号の平均信号が、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な右後方サラウンド音声信号にマッピングされ、前方方向、後方方向、左方向および右方向の音声信号の間で平均値が取られ、当該平均値に対して150Hzローパスフィルタリング処理が行われて、5.1音声チャネル再生システムのシミュレートされた音場に使用される空間オーディオ信号に必要な超低音信号を得る。
本発明のこの実施形態において提供される音声信号処理方法によれば、音声信号は、移動端末の三次元音場から取得されることができ、移動端末に対する全ての音源の方向が取得され、次いで、移動端末に対する音源の方向および音声信号を使用して、三次元音場をシミュレートするために使用される空間オーディオ信号が得られる。本発明において提供される解決策では、三次元音場をシミュレートするために使用される音声信号は、移動端末の要素を使用して収集および処理され得る。また、全ての方向の受取られた音源の移動端末に対する方向は、分析によって得られ、次いで、全ての方向の音源の移動端末に対する方向に従って、三次元音場の効果が強調される。先行技術における解決策では、ビームのみを使用して三次元音場がシミュレートされる。しかし、本発明では、全ての方向の音源の移動端末に対する方向が取得され、さらに、当該方向についての情報を使用してビーム形成に対してゲイン調整が行われる。したがって、シミュレートされた三次元音場において左方向と右方向との間の差が前方方向と後方方向との間の差よりも明らかであるという現象を軽減することができ、それによって、シミュレートされた三次元音場の質が向上する。
この実施形態では、移動端末に対する音源の方向を取得するために移動端末によって使用される方法が複数存在し得る。例えば、位置決め技術を使用して、移動端末および音源の役割を果たす移動端末の空間座標が取得されてもよく、移動端末および音源の役割を果たす移動端末の空間座標に従って、移動端末に対する音源の方向が決定されてもよい。しかし、移動端末を位置決めするプロセスはネットワーク帯域幅を占有する必要があり、位置決めプロセスは特定の遅延を有する。この実施形態では、移動端末は、移動端末に対する複数の方向の音源の方向を取得する必要があり、移動端末に対する音源の方向は、到達時間差ベースの位置決め技術を使用して取得され得る。したがって、図2に示されるように、ステップ102の具体的な実施態様は以下を含み得る:
ステップ1021:移動端末上のマイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得する。
移動端末上のマイクロホンは、少なくとも4つの方向の音声信号を受取るように構成されている。
Figure 2016052117
ステップ1022:取得された到達時間差および移動端末上の移動端末上のマイクロホンの位置に従って、移動端末に対する音源の方向を得る。
移動端末にマイクロホンを配置するための態様の違いによって、移動端末に対する音源の方向を取得するために移動端末によって使用される具体的な態様が複数存在し得る。
例えば、移動端末上で、第1のマイクロホンおよび第4のマイクロホンは同一の側に位置し、第1のマイクロホンおよび第2のマイクロホンは同一の側に位置し、cは音速を表わし、dは第1のマイクロホンの中心点と第4のマイクロホンの中心点との間の距離を表わし、dは第2のマイクロホンの中心点と第3のマイクロホンの中心点との間の距離に等しく、hは第1のマイクロホンの中心点と第2のマイクロホンの中心点との間の距離を表わし、hは第3のマイクロホンの中心点と第4のマイクロホンの中心点との間の距離に等しく、αは移動端末の対角線と第1のマイクロホンおよび第4のマイクロホンが位置する角度の側との間の夾角を表わす。
図2aに示されるように、ステップ1022は、具体的にはステップ10221〜10222として実施され得る。
Figure 2016052117
別の例では、別の移動端末上で、第1のマイクロホンおよび第2のマイクロホンは、移動端末の1つの面の対称軸上に位置し、それぞれ当該1つの面上の2つの平行な端縁に位置し、第3のマイクロホンおよび第4のマイクロホンは、移動端末の別の面の対称軸上に位置し、それぞれ当該別の面上の2つの平行な端縁に位置し、cは音速を表わし、(x,y)は第1のマイクロホンに対応する座標を表わし、(x,y)は第2のマイクロホンに対応する座標を表わし、(x,y)は第3のマイクロホンに対応する座標を表わし、(x,y)は第4のマイクロホンに対応する座標を表わす。
図2bに示されるように、ステップ1022は、具体的にはステップ10223として実施され得る。
ステップ10223:以下に従って、移動端末に対する音源の方向θを取得する。
Figure 2016052117
例えば、この実施形態では、図2cに示されるように、移動端末にマイクロホンを設置するための態様は、移動端末の4つの角にマイクロホンをそれぞれ設置するというものであってもよく、移動端末上の4つのマイクロホンは、三次元音場の音声信号を取得する役割を担う。次いで、取得された音声信号を使用して音源の位置が推定され、取得された音声信号に対してゲイン処理が行われる。
Figure 2016052117
次いで、到達時間差、移動端末上のマイクロホンの設置位置およびマイクロホンの位置間の関係に従って、音源と移動端末との間の入射角、すなわち移動端末に対する音源の方向θが計算される。具体的な計算プロセスは以下の通りであり、
Figure 2016052117
cは、音速を表わし、一般に340m/sであり、dは、マイクロホン1とマイクロホン4との間を距離を表わし、マイクロホン2とマイクロホン3との間の距離に等しく、hは、マイクロホン1とマイクロホン2との間の距離を表わし、マイクロホン3とマイクロホン4との間の距離に等しい。
別の例において、この実施形態では、図2dに示されるように、移動端末にマイクロホンを設置するための態様は、移動端末の底部側、前方イヤホン付近、後方カメラ付近および後方底部側付近にそれぞれ1つのマイクロホンを設置するというものであってもよく、各マイクロホンは、三次元音場の音声信号を取得する役割を担う。次いで、取得された音声信号を使用して音源の位置が推定され、取得された音声信号に対してゲイン処理が行われる。
Figure 2016052117
次いで、到達時間差、移動端末上のマイクロホンの設置位置およびマイクロホンの位置間の関係に従って、音源の入射角、すなわち移動端末に対する音源の方向θが計算される。図2eでは、マイクロホン1の座標は(x,y)であり、マイクロホン2の座標は(x,y)であり、マイクロホン3の座標は(x,y)であり、マイクロホン4の座標は(x,y)であるとされる。具体的には、移動端末に対する音源の方向θと到達時間差との関係は、以下の通りであり、
Figure 2016052117
cは、音速を表わし、一般に340m/sである。
さらに、この実施形態では、移動端末に対する音源の方向が取得された後、取得された移動端末に対する音源の方向に従って、各音声チャネルにおける信号のゲイン調整パラメータをさらに計算する必要がある。したがって、図3に示されるように、ステップ103は、具体的にはステップ1031として実施され得る。
ステップ1031:移動端末に対する音源の方向を使用してゲイン調整パラメータを生成する。
ゲイン調整パラメータは、左方向の信号、右方向の信号および中央方向の信号に対応する第1のタイプのゲイン調整パラメータαと、左後方サラウンド信号および右後方サラウンド信号に対応する第1のタイプのゲイン調整パラメータαと、左方向の信号および左後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαと、右方向の信号および右後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαとを含み、さらに、移動端末に対する音源の方向について、θ∈[0,90)∪(270,360]の場合、α>αであり、θ∈(90,270)の場合、α<αであり、θ∈(0,180)の場合、α>αであり、θ∈(180,360)の場合、α<αである。
ステップ1031は、具体的にはステップ1031a、1031b、1031cおよび1031dを含む。
ステップ1031a:以下に従って、左方向の信号、右方向の信号および中央方向の信号に対応する第1のタイプのゲイン調整パラメータαを生成する。
Figure 2016052117
ステップ1031b:以下に従って、左後方サラウンド信号および右後方サラウンド信号に対応する第1のタイプのゲイン調整パラメータαを生成し、
Figure 2016052117
αF,min、αF,med1、αF,max1、αF,med2、αF,max2、αB,min1、αB,med1、αB,min2、αB,med2およびαB,maxは、ゼロよりも大きな定数であり、αF,min<αF,med1<αF,max1、αF,min<αF,med2<αF,max2、αB,min1<αB,med1<αB,max、αB,min2<αB,med2<αB,max、αB,med1=αF,med1およびαB,med2=αF,med2である。
ステップ1031c:以下に従って、左方向の信号および左後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαを生成する。
Figure 2016052117
ステップ1031d:以下に従って、右方向の信号および右後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαを生成し、
Figure 2016052117
αL,med1、αL,max、αL,med2、αL,min、αR,med1、αR,min、αR,med2およびαR,maxは、ゼロよりも大きな定数であり、αL,min<αL,med1<αL,max、αL,min<αL,med2<αL,max、αR,min<αR,med1<αR,max、αR,min<αR,med2<αR,max、αL,med1=αR,med1およびαL,med2=αR,med2である。
本発明のこの実施形態では、音源の位置についての推定に従って、移動端末に対する音源の方向についての情報が得られ、各音声チャネルにおける信号のゲイン調整パラメータが計算され、次いで、対応するゲイン調整パラメータを各音声チャネルの信号に乗算することによって最終的な5.1チャネルサラウンド音声出力信号が得られる。一般に、5.1音声チャネル信号の左方向、中央方向、右方向、左後方サラウンド方向および右後方サラウンド方向のゲインに対しては調整を行う必要がある。もちろん、左方向、右方向、左後方サラウンド方向および右後方サラウンド方向のゲインに対してのみ調整が行われてもよい。
ステップ1032:音声信号に従って、空間オーディオ信号における全ての方向の信号の初期値を取得し、S(n)は左方向の信号の初期値を表わし、S(n)は中央方向の信号の初期値を表わし、S(n)は右方向の信号の初期値を表わし、SLS(n)は左後方サラウンド信号の初期値を表わし、SRS(n)は右後方サラウンド信号の初期値を表わす。
さらに、音声信号に従って空間オーディオ信号における全ての方向の信号の初期値を取得するステップは、ハート型の指向性を有するビームを取得することによって行われる計算を必要とする。ハート型の指向性を有するビームは、第1のマイクロホンから第4のマイクロホンによって受取られる音声信号に対するビーム形成アルゴリズムを使用して得られ得る。ステップ1032は、具体的には以下のように実施され得る。
ステップ1032b:第1から第4のマイクロホンによって受取られる音声信号を使用して、ハート型の指向性を有するビームBFij(n)を取得し、BFij(n)の最大指向性の点は、i番目のマイクロホンとj番目のマイクロホンとの接続線からi番目のマイクロホンに向かう方向にあり、BFij(n)の指向性のゼロ点は、i番目のマイクロホンとj番目のマイクロホンとの接続線からj番目のマイクロホンに向かう方向にあり、iおよびjは1、2、3または4に等しい。
ステップ1032b:以下に従って、ハート型の指向性を有するビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)を取得する。
Figure 2016052117
ハート型の指向性を有するビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)が取得され、BF(n)の最大指向性は(0,90°)の範囲内であり、BFLS(n)の最大指向性は(90°,180°)の範囲内であり、BFRS(n)の最大指向性は(180°,270°)の範囲内であり、BF(n)の最大指向性は(270°,360°)の範囲内である。
Figure 2016052117
例えば、図2cに示されるアプリケーションシナリオでは、音源の位置が推定されるのと同時に、移動端末に設置されたマイクロホンによって収集された複数の方向のオリジナル音声信号に対して強調処理をさらに行う必要がある。本明細書では差分ビーム形成方法が使用される。一次差分ビーム形成アルゴリズムによれば、対角線上にあるマイクロホン1およびマイクロホン3のオリジナル入力信号を使用して生成される2つの方向のハート型の指向性を有するビームは、BF(n)およびBFLS(n)と示され、また、対角線上にあるマイクロホン2およびマイクロホン4のオリジナル入力信号を使用して生成される2つの方向のハート型の指向性を有するビームは、BF(n)およびBFRS(n)と示され、BF(n)、BF(n)、BFLS(n)およびBFRS(n)は、強調処理後に得られる複数の方向の信号である。
別の例において、図2dおよび図2eに示されるアプリケーションシナリオでは、音源の位置が推定されるのと同時に、移動端末に設置されたマイクロホンによって収集されたマルチチャネルのオリジナル入力信号に対して強調処理をさらに行う必要がある。本明細書では差分ビーム形成方法が使用される。具体的には、一次差分ビーム形成アルゴリズムによれば、マイクロホン1およびマイクロホン4のオリジナル入力信号を使用して生成される2つの方向のハート型の指向性を有するビームは、BF14(n)およびBF41(n)と示され、BF14(n)の最大指向性の点は、マイクロホン1に向かう方向にあり、BF14(n)の指向性のゼロ点は、マイクロホン4に向かう方向にあり、BF41(n)の最大指向性の点は、マイクロホン4に向かう方向にあり、BF41(n)の指向性のゼロ点は、マイクロホン1に向かう方向にある。マイクロホン2およびマイクロホン3のオリジナル入力信号を使用して生成される2つの方向のハート型の指向性を有するビームは、BF23(n)およびBF32(n)と示され、BF23(n)の最大指向性の点は、マイクロホン2に向かう方向にあり、BF23(n)の指向性のゼロ点は、マイクロホン3に向かう方向にあり、BF32(n)の最大指向性の点は、マイクロホン3に向かう方向にあり、BF32(n)の指向性のゼロ点は、マイクロホン2に向かう方向にある。マイクロホン1およびマイクロホン2のオリジナル入力信号を使用して生成される2つの方向のハート型の指向性を有するビームは、BF12(n)およびBF21(n)と示され、BF12(n)の最大指向性の点は、マイクロホン1に向かう方向にあり、BF12(n)の指向性のゼロ点は、マイクロホン2に向かう方向にあり、BF21(n)の最大指向性の点は、マイクロホン2に向かう方向にあり、BF21(n)の指向性のゼロ点は、マイクロホン1に向かう方向にある。マイクロホン3およびマイクロホン4のオリジナル入力信号を使用して生成される2つの方向のハート型の指向性を有するビームは、BF34(n)およびBF43(n)と示され、BF34(n)の最大指向性の点は、マイクロホン3に向かう方向にあり、BF34(n)の指向性のゼロ点は、マイクロホン4に向かう方向にあり、BF43(n)の最大指向性の点は、マイクロホン4に向かう方向にあり、BF43(n)の指向性のゼロ点は、マイクロホン3に向かう方向にある。強調処理後に得られる複数のチャネルにおける信号がBF(n)、BF(n)、BFLS(n)およびBFRS(n)と示されるとすると、ビーム間の関係は以下の通りである。
Figure 2016052117
この実施形態では、ハート型の指向性を有するビームは、差分ビーム形成方法を使用して得られ、当該ハート型の指向性を有するビームを使用して、空間オーディオ信号における全ての方向の信号の初期値を取得することができ、そのため、空間オーディオ信号における全ての方向の信号を後に計算することができる。したがって、ステップ1032の実施が完了した後に、以下がさらに含まれる。
ステップ1033:ゲイン調整パラメータおよび空間オーディオ信号における全ての方向の信号の初期値に従って、空間オーディオ信号における全ての方向の信号を生成する。
ステップ1033は、具体的にはステップ1033aとして実施され得る。
ステップ1033a:以下に従って、左方向の信号SL,final(n)、中央方向の信号SC,final(n)、右方向の信号SR,final(n)、左後方サラウンド方向信号SLS,final(n)および右後方サラウンド信号SRS,final(n)を取得し、
Figure 2016052117
(n)は左方向の信号の初期値を表わし、S(n)は中央方向の信号の初期値を表わし、S(n)は右方向の信号の初期値を表わし、SLS(n)は左後方サラウンド信号の初期値を表わし、SRS(n)は右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす。
例えば、図2cに示されるアプリケーションシナリオでは、音源の位置についての推定の結果、複数のチャネルにおける強調された信号および再生システムのタイプに従って、空間オーディオ信号に対して復元を行って最終的な空間オーディオ出力信号を得るための対応する方法が選択される。
再生システムが5.1チャネルサラウンド音声システムである場合には、4つの方向の強調された出力信号は、5.1チャネルサラウンド音声システムによる再生に必要な6つの方向の信号にマッピングされる必要があり、また、音源の位置についての推定の結果に従って、マッピング後に得られる6つの方向の信号に対して空間音場強調調整が行われ、その結果、最終的な出力信号が得られる。具体的には、5.1音声チャネル信号における左方向の信号としてBF(n)が直接使用され得て、5.1音声チャネル信号における右方向の信号としてBF(n)が直接使用され得て、中央方向の信号としてBF(n)およびBF(n)の平均が取られ得て、5.1音声チャネル信号における左後方サラウンド信号としてBFLS(n)が直接使用され得て、5.1音声チャネル信号における右後方サラウンド信号としてBFRS(n)が直接使用され得て、4つの方向の信号BF(n)、BF(n)、BFLS(n)およびBFRS(n)の平均値が取られ得て、次いで、当該平均値に対して150Hzローパスフィルタリング処理が行われて、5.1音声チャネル信号における超低音信号を得る。
音源の位置についての推定によって得られる、移動端末に対する音源の方向θに従って、各方向の信号のゲイン調整パラメータが計算される。対応するゲイン調整パラメータを各音声チャネルの信号に乗算することによって、最終的な5.1チャネルサラウンド音声出力信号が得られる。最終的な5.1チャネルサラウンド音声出力信号において、左方向の信号はSL,final(n)と表わされ、中央方向の信号はSC,final(n)と表わされ、右方向の信号はSR,final(n)と表わされ、左後方サラウンド信号はSLS,final(n)と表わされ、右後方サラウンド信号はSRS,final(n)と表わされ、以下の通りである。
Figure 2016052117
再生システムがステレオスピーカである場合には、音源の位置についての推定によって得られる、移動端末に対する音源の方向θに従って、第2のタイプのゲイン調整パラメータが計算され得る。最終的な5.1チャネルサラウンド音声出力信号において、左方向の信号はSL,final(n)と表わされ、中央方向の信号はSC,final(n)と表わされ、右方向の信号はSR,final(n)と表わされ、左後方サラウンド信号はSLS,final(n)と表わされ、右後方サラウンド信号はSRS,final(n)と表わされ、以下の通りである。
Figure 2016052117
次いで、左方向の信号SL,final(n)、中央方向の信号SC,final(n)、右方向の信号SR,final(n)、左後方サラウンド信号SLS,final(n)および右後方サラウンド信号SRS,final(n)などの空間音場強調調整後に得られる出力信号は、ステップ1034を実行することによって、2チャネル信号にダウンミックスされて、出力され得る。
別の例において、図2dおよび図2eに示されるアプリケーションシナリオでは、音源の位置についての推定の結果、複数のチャネルにおける強調された信号および再生システムのタイプに従って、空間オーディオ信号に対して復元を行って最終的な空間オーディオ出力信号を得るための対応する方法が選択される。
再生システムが5.1チャネルサラウンド音声システムである場合には、4つの方向の強調された出力信号は、5.1チャネルサラウンド音声システムによる再生に必要な6つの方向の信号にマッピングされる必要があり、また、音源の位置についての推定の結果に従って、マッピング後に得られる6つの方向の信号に対して空間音場強調調整が行われ、その結果、最終的な出力信号が得られる。具体的には、5.1音声チャネル信号における左方向の信号としてBF(n)が直接使用され得て、5.1音声チャネル信号における右方向の信号としてBF(n)が直接使用され得て、中央方向の信号としてBF(n)およびBF(n)の平均が取られ得て、5.1音声チャネル信号における左後方サラウンド信号としてBFLS(n)が直接使用され得て、5.1音声チャネル信号における右後方サラウンド信号としてBFRS(n)が直接使用され得て、4つの方向の信号BF(n)、BF(n)、BFLS(n)およびBFRS(n)の平均値が取られ得て、次いで、当該平均値に対して150Hzローパスフィルタリング処理が行われて、5.1音声チャネル信号における超低音信号を得る。
音源の位置についての推定によって得られる、移動端末に対する音源の方向θに従って、各音声チャネルにおける信号のゲイン調整パラメータが計算される。対応するゲイン調整パラメータを各音声チャネルの信号に乗算することによって、最終的な5.1チャネルサラウンド音声出力信号が得られる。最終的な5.1チャネルサラウンド音声出力信号において、左方向の信号はSL,final(n)と表わされ、中央方向の信号はSC,final(n)と表わされ、右方向の信号はSR,final(n)と表わされ、左後方サラウンド信号はSLS,final(n)と表わされ、右後方サラウンド信号はSRS,final(n)と表わされ、以下の通りである。
Figure 2016052117
再生システムがステレオスピーカである場合には、音源の位置についての推定によって得られる、移動端末に対する音源の方向θに従って、第2のタイプのゲイン調整パラメータが計算され得る。最終的な5.1チャネルサラウンド音声出力信号において、左方向の信号はSL,final(n)と表わされ、中央方向の信号はSC,final(n)と表わされ、右方向の信号はSR,final(n)と表わされ、左後方サラウンド信号はSLS,final(n)と表わされ、右後方サラウンド信号はSRS,final(n)と表わされ、以下の通りである。
Figure 2016052117
次いで、左方向の信号SL,final(n)、中央方向の信号SC,final(n)、右方向の信号SR,final(n)、左後方サラウンド信号SLS,final(n)および右後方サラウンド信号SRS,final(n)などの空間音場強調調整後に得られる出力信号は、ステップ1034を実行することによって、2チャネル信号にダウンミックスされて、出力され得る。
ハート型の指向性を有するビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)のアプリケーションシナリオでは、ハート型の指向性を有するビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)がステップ1032b〜1032bに従って得られた後、ステップ1033が以下のように実施され得る:
ステップ1033b:SL,final(n)=S(n)*αに従って左方向の信号SL,final(n)を取得し、
ステップ1033b:SC,final(n)=S(n)に従って中央方向の信号SC,final(n)を取得し、
ステップ1033b:SR,final(n)=S(n)*αに従って右方向の信号SR,final(n)を取得し、
ステップ1033b:SLS,final(n)=SLS(n)*αに従って左後方サラウンド信号SLS,final(n)を取得し、
ステップ1033b:SRS,final(n)=SRS(n)*αに従って右後方サラウンド信号SRS,final(n)を取得し、
(n)は左方向の信号の初期値を表わし、S(n)は中央方向の信号の初期値を表わし、S(n)は右方向の信号の初期値を表わし、SLS(n)は左後方サラウンド信号の初期値を表わし、SRS(n)は右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす。
本発明のこの実施形態において提供される音声信号処理方法によれば、音声信号は、移動端末の三次元音場から取得されることができ、移動端末に対する全ての音源の方向が取得され、次いで、移動端末に対する音源の方向および音声信号を使用して、三次元音場をシミュレートするために使用される空間オーディオ信号が得られる。本発明において提供される解決策では、三次元音場をシミュレートするために使用される音声信号は、移動端末の要素を使用して収集および処理され得る。また、全ての方向の受取られた音源の移動端末に対する方向は、分析によって得られ、次いで、全ての方向の音源の移動端末に対する方向に従って、三次元音場の効果が強調される。先行技術における解決策では、ビームのみを使用して三次元音場がシミュレートされる。しかし、本発明では、全ての方向の音源の移動端末に対する方向が取得され、さらに、当該方向についての情報を使用してビーム形成に対してゲイン調整が行われる。したがって、シミュレートされた三次元音場において左方向と右方向との間の差が前方方向と後方方向との間の差よりも明らかであるという現象を軽減することができ、それによって、シミュレートされた三次元音場の質が向上する。
さらに、この実施形態では、空間オーディオ信号は、2チャネル信号をさらに含み、移動端末に対する音源の方向が取得された後、2チャネル信号を生成するために、左方向の信号、右方向の信号、中央方向の信号、左後方サラウンド信号および右後方サラウンド信号をさらにダウンミックスする必要がある。したがって、図3aに示されるように、ステップ103は、具体的にはステップ1034として実施され得る。
ステップ1034:2チャネル信号を生成するために、左方向の信号、右方向の信号、中央方向の信号、左後方サラウンド信号および右後方サラウンド信号をダウンミックスする。
例えば、再生システムがイヤホンである場合には、N個の方向の強調された出力信号が、5.1チャネルサラウンド音声システムにおける再生のための左方向、中央方向、右方向、左後方サラウンド方向および右後方サラウンド方向の信号にマッピングされる必要があり、また、音源の位置についての推定の結果に従って、上記の方法に従ってマッピングが行われた後に得られる5つの方向の信号に対して空間音場強調調整が行われ、その結果、空間音場強調調整後の出力信号が得られる。イヤホン再生システムでは、空間音場強調調整後に得られる出力信号は、2チャネル信号にダウンミックスされる必要がある。1つの任意のダウンミックス方法は、国際電気通信連合規格の5.1チャネルサラウンド音声を2チャネル信号にダウンミックスするための方法である。別の方法は、左方向、右方向、左後方サラウンド方向および右後方サラウンド方向の信号に対してそれぞれ畳み込みを行う必要があり、ダウンミックスの前に対応する角度の頭部伝達関数が実行され、次いでダウンミックスが行われるというものであり、その結果、信号ダウンミックス後の前方方向、後方方向、左方向および右方向の空間分離度を向上させることができる。
本発明のこの実施形態において提供される音声信号処理方法によれば、音声信号は、移動端末の三次元音場から取得されることができ、移動端末に対する全ての音源の方向が取得され、次いで、移動端末に対する音源の方向および音声信号を使用して、三次元音場をシミュレートするために使用される空間オーディオ信号が得られる。本発明において提供される解決策では、三次元音場をシミュレートするために使用される音声信号は、移動端末の要素を使用して収集および処理され得る。また、全ての方向の受取られた音源の移動端末に対する方向は、分析によって得られ、次いで、全ての方向の音源の移動端末に対する方向に従って、三次元音場の効果が強調される。先行技術における解決策では、ビームのみを使用して三次元音場がシミュレートされる。しかし、本発明では、全ての方向の音源の移動端末に対する方向が取得され、さらに、当該方向についての情報を使用してビーム形成に対してゲイン調整が行われる。したがって、シミュレートされた三次元音場において左方向と右方向との間の差が前方方向と後方方向との間の差よりも明らかであるという現象を軽減することができ、それによって、シミュレートされた三次元音場の質が向上する。
本発明の実施形態は、音声信号処理装置40の構造を提供し、図4に示されるように、装置40は、
三次元音場から音声信号を取得するように構成された第1の取得モジュール41を含み、少なくとも3つのマイクロホンが移動端末に配設されており、1つのマイクロホンが少なくとも1つの方向の音声信号を受取るように構成され、装置40はさらに、
取得された音声信号に従って、移動端末に対する音源の方向を取得するように構成された第2の取得モジュール42と、
移動端末に対する音源の方向および取得された音声信号に従って、空間オーディオ信号を得るように構成された第1の処理モジュール43とを含み、空間オーディオ信号は、三次元音場をシミュレートするために使用される。
図4aに示されるように、第2の取得モジュール42は、
移動端末上のマイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するように構成された第1の取得ユニット421を含み、移動端末上のマイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、第2の取得モジュール42はさらに、
取得された到達時間差および移動端末上の移動端末上のマイクロホンの位置に従って、移動端末に対する音源の方向を得るように構成された第2の取得ユニット422を含む。
Figure 2016052117
図4dに示されるように、移動端末に対する音源の方向が取得された後、第2の取得ユニット422はさらに、
以下に従って、移動端末に対する音源の方向θを取得するように構成された第4の取得サブユニット4223を含み、
Figure 2016052117
第1のマイクロホンおよび第2のマイクロホンは、移動端末の1つの面の対称軸上に位置し、それぞれ当該1つの面上の2つの平行な端縁に位置し、第3のマイクロホンおよび第4のマイクロホンは、移動端末の別の面の対称軸上に位置し、それぞれ当該別の面上の2つの平行な端縁に位置し、cは音速を表わし、(x,y)は第1のマイクロホンに対応する座標を表わし、(x,y)は第2のマイクロホンに対応する座標を表わし、(x,y)は第3のマイクロホンに対応する座標を表わし、(x,y)は第4のマイクロホンに対応する座標を表わす。
さらに、空間オーディオ信号は、左方向の信号と、右方向の信号と、中央方向の信号と、左後方サラウンド信号と、右後方サラウンド信号とを少なくとも含む。
図4eに示されるように、第1の処理モジュール43は、
移動端末に対する音源の方向を使用してゲイン調整パラメータを生成するように構成された第1の処理ユニット431を含み、ゲイン調整パラメータは、左方向の信号、右方向の信号および中央方向の信号に対応する第1のタイプのゲイン調整パラメータαと、左後方サラウンド信号および右後方サラウンド信号に対応する第1のタイプのゲイン調整パラメータαと、左方向の信号および左後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαと、右方向の信号および右後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαとを含み、また、移動端末に対する音源の方向について、θ∈[0,90)∪(270,360]の場合、α>αであり、θ∈(90,270)の場合、α<αであり、θ∈(0,180)の場合、α>αであり、θ∈(180,360)の場合、α<αであり、第1の処理モジュール43はさらに、
音声信号に従って、空間オーディオ信号における全ての方向の信号の初期値を取得するように構成された第2の処理ユニット432と、
ゲイン調整パラメータおよび空間オーディオ信号における全ての方向の信号の初期値に従って、左方向の信号、右方向の信号、中央方向の信号、左後方サラウンド信号および右後方サラウンド信号を生成するように構成された第3の処理ユニット433とを含む。
さらに、空間オーディオ信号は、2チャネル信号をさらに含み、図4fに示されるように、装置40はさらに、
2チャネル信号を生成するために、左方向の信号、右方向の信号、中央方向の信号、左後方サラウンド信号および右後方サラウンド信号をダウンミックスするように構成された第4の処理ユニット434を含む。
任意に、上記の実施態様に基づいて、以下が第1の処理ユニット431にさらに含まれていてもよい。図4gに示されるように、第1の処理ユニット431は、
以下に従って、左方向の信号、右方向の信号および中央方向の信号に対応する第1のタイプのゲイン調整パラメータαを生成するように構成された第1の処理サブユニット4311と、
Figure 2016052117
以下に従って、左後方サラウンド信号および右後方サラウンド信号に対応する第1のタイプのゲイン調整パラメータαを生成するように構成された第2の処理サブユニット4312とを含み、
Figure 2016052117
αF,min、αF,med1、αF,max1、αF,med2、αF,max2、αB,min1、αB,med1、αB,min2、αB,med2およびαB,maxは、ゼロよりも大きな定数であり、αF,min<αF,med1<αF,max1、αF,min<αF,med2<αF,max2、αB,min1<αB,med1<αB,max、αB,min2<αB,med2<αB,max、αB,med1=αF,med1およびαB,med2=αF,med2であり、第1の処理ユニット431はさらに、
以下に従って、左方向の信号および左後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαを生成するように構成された第3の処理サブユニット4313と、
Figure 2016052117
以下に従って、右方向の信号および右後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαを生成するように構成された第4の処理サブユニット4314とを含み、
Figure 2016052117
αL,med1、αL,max、αL,med2、αL,min、αR,med1、αR,min、αR,med2およびαR,maxは、ゼロよりも大きな定数であり、αL,min<αL,med1<αL,max、αL,min<αL,med2<αL,max、αR,min<αR,med1<αR,max、αR,min<αR,med2<αR,max、αL,med1=αR,med1およびαL,med2=αR,med2である。
空間オーディオ信号における全ての方向の信号は、第3の処理ユニット433に従って生成され、図4hに示されるように、第3の処理ユニット433は、
以下に従って、左方向の信号SL,final(n)、中央方向の信号SC,final(n)、右方向の信号SR,final(n)、左後方サラウンド方向信号SLS,final(n)および右後方サラウンド信号SRS,final(n)を取得するように構成された第5の処理サブユニット4331を含み、
Figure 2016052117
(n)は左方向の信号の初期値を表わし、S(n)は中央方向の信号の初期値を表わし、S(n)は右方向の信号の初期値を表わし、SLS(n)は左後方サラウンド信号の初期値を表わし、SRS(n)は右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす。
Figure 2016052117
第6の処理サブユニット4321は、具体的には、第1から第4のマイクロホンによって受取られる音声信号を使用して、ハート型の指向性を有するビームBFij(n)を取得するように構成され、BFij(n)の最大指向性の点は、i番目のマイクロホンとj番目のマイクロホンとの接続線からi番目のマイクロホンに向かう方向にあり、BFij(n)の指向性のゼロ点は、i番目のマイクロホンとj番目のマイクロホンとの接続線からj番目のマイクロホンに向かう方向にあり、iおよびjは1、2、3または4に等しく、第6の処理サブユニット4321はさらに、
以下に従って、ハート型の指向性を有するビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)を取得するように構成される。
Figure 2016052117
図4jに示されるように、第3の処理ユニット433はさらに、
L,final(n)=S(n)*αに従って左方向の信号SL,final(n)を取得するように構成された第7の処理サブユニット4332と、
C,final(n)=S(n)に従って中央方向の信号SC,final(n)を取得するように構成された第8の処理サブユニット4333と、
R,final(n)=S(n)*αに従って右方向の信号SR,final(n)を取得するように構成された第9の処理サブユニット4334と、
LS,final(n)=SLS(n)*αに従って左後方サラウンド信号SLS,final(n)を取得するように構成された第10の処理サブユニット4335と、
RS,final(n)=SRS(n)*αに従って右後方サラウンド信号SRS,final(n)を取得するように構成された第11の処理サブユニット4336とを含み、
(n)は左方向の信号の初期値を表わし、S(n)は中央方向の信号の初期値を表わし、S(n)は右方向の信号の初期値を表わし、SLS(n)は左後方サラウンド信号の初期値を表わし、SRS(n)は右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす。
本発明のこの実施形態において提供される音声信号処理装置によれば、音声信号は、移動端末の三次元音場から取得されることができ、移動端末に対する全ての音源の方向が取得され、次いで、移動端末に対する音源の方向および音声信号を使用して、三次元音場をシミュレートするために使用される空間オーディオ信号が生成される。本発明において提供される解決策では、三次元音場をシミュレートするために使用される音声信号は、移動端末の要素を使用して収集および処理され得る。また、全ての方向の受取られた音源の移動端末に対する方向は、分析によって得られ、次いで、全ての方向の音源の移動端末に対する方向に従って、三次元音場の効果が強調される。先行技術における解決策では、ビームのみを使用して三次元音場がシミュレートされる。しかし、本発明では、全ての方向の音源の移動端末に対する方向が取得され、さらに、当該方向についての情報を使用してビーム形成に対してゲイン調整が行われる。したがって、シミュレートされた三次元音場において左方向と右方向との間の差が前方方向と後方方向との間の差よりも明らかであるという現象を軽減することができ、それによって、シミュレートされた三次元音場の質が向上する。
本発明の実施形態は、音声信号処理装置50の構造をさらに提供する。図5に示されるように、音声信号処理装置50は、CPUなどの少なくとも1つのプロセッサ501と、少なくとも1つのネットワークポート502または別のユーザポート503と、メモリ504と、少なくとも1つの通信バス505とを含んでいる。通信バス505は、構成要素間の接続および通信を実施するように構成されている。任意に、ユーザポート503がさらに含まれており、ユーザポート503は、ディスプレイ、キーボードまたは(マウス、トラックボール(trackball)もしくはタッチパネルもしくはタッチディスプレイスクリーンなどの)クリック装置を含む。メモリ504は、高速RAMメモリを含んでいてもよく、または不揮発性メモリ(non-volatile memory)、例えば少なくとも1つのディスクメモリをさらに含んでいてもよい。メモリ504は、任意に、上記のプロセッサ501から遠く離れて位置する少なくとも1つの記憶装置を含んでいてもよい。
いくつかの実施態様では、メモリ504は、以下の要素、実行可能なモジュールもしくはデータ構造、またはそのサブセット、またはその拡張セットを格納し、以下の要素とは、さまざまなシステムプログラムを含み、さまざまなベーシックサービスを実施し、ハードウェアベースのタスクを処理するように構成されたオペレーティングシステム5041と、さまざまなアプリケーションプログラムを含み、さまざまなアプリケーションサービスを実施するように構成されたアプリケーションプログラム5042とである。
プロセッサ501は、三次元音場から音声信号を取得するように構成され、少なくとも3つのマイクロホンが移動端末に配設されており、1つのマイクロホンが少なくとも1つの方向の音声信号を受取るように構成され、プロセッサ501はさらに、
取得された音声信号に従って、移動端末に対する音源の方向を取得するように構成され、
移動端末に対する音源の方向および取得された音声信号に従って、空間オーディオ信号を得るように構成され、空間オーディオ信号は、三次元音場をシミュレートするために使用される。
プロセッサ501はさらに、移動端末上のマイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するように構成され、移動端末上のマイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、プロセッサ501はさらに、
取得された到達時間差および移動端末上の移動端末上のマイクロホンの位置に従って、移動端末に対する音源の方向を得るように構成される。
Figure 2016052117
プロセッサ501は、具体的には、以下に従って、移動端末に対する音源の方向θを取得するように構成され、
Figure 2016052117
第1のマイクロホンおよび第2のマイクロホンは、移動端末の1つの面の対称軸上に位置し、それぞれ当該1つの面上の2つの平行な端縁に位置し、第3のマイクロホンおよび第4のマイクロホンは、移動端末の別の面の対称軸上に位置し、それぞれ当該別の面上の2つの平行な端縁に位置し、cは音速を表わし、(x,y)は第1のマイクロホンに対応する座標を表わし、(x,y)は第2のマイクロホンに対応する座標を表わし、(x,y)は第3のマイクロホンに対応する座標を表わし、(x,y)は第4のマイクロホンに対応する座標を表わす。
空間オーディオ信号は、左方向の信号と、右方向の信号と、中央方向の信号と、左後方サラウンド信号と、右後方サラウンド信号とを少なくとも含む。
プロセッサ501は、具体的には、移動端末に対する音源の方向および取得された音声信号に従って、空間オーディオ信号を得るように構成され、
移動端末に対する音源の方向を使用してゲイン調整パラメータを生成することを含み、ゲイン調整パラメータは、左方向の信号、右方向の信号および中央方向の信号に対応する第1のタイプのゲイン調整パラメータαと、左後方サラウンド信号および右後方サラウンド信号に対応する第1のタイプのゲイン調整パラメータαと、左方向の信号および左後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαと、右方向の信号および右後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαとを含み、また、移動端末に対する音源の方向について、θ∈[0,90)∪(270,360]の場合、α>αであり、θ∈(90,270)の場合、α<αであり、θ∈(0,180)の場合、α>αであり、θ∈(180,360)の場合、α<αであり、
音声信号に従って、空間オーディオ信号における全ての方向の信号の初期値を取得することと、
ゲイン調整パラメータおよび空間オーディオ信号における全ての方向の信号の初期値に従って、左方向の信号、右方向の信号、中央方向の信号、左後方サラウンド信号および右後方サラウンド信号を生成することとを含む。
装置50において、空間オーディオ信号は、2チャネル信号をさらに含み、
プロセッサ501はさらに、
2チャネル信号を生成するために、左方向の信号、右方向の信号、中央方向の信号、左後方サラウンド信号および右後方サラウンド信号をダウンミックスするように構成される。
任意に、上記の実施態様に基づいて、プロセッサ501はさらに、
以下に従って、左方向の信号、右方向の信号および中央方向の信号に対応する第1のタイプのゲイン調整パラメータαを生成するように構成され得て、
Figure 2016052117
以下に従って、左後方サラウンド信号および右後方サラウンド信号に対応する第1のタイプのゲイン調整パラメータαを生成するように構成され得て、
Figure 2016052117
αF,min、αF,med1、αF,max1、αF,med2、αF,max2、αB,min1、αB,med1、αB,min2、αB,med2およびαB,maxは、ゼロよりも大きな定数であり、αF,min<αF,med1<αF,max1、αF,min<αF,med2<αF,max2、αB,min1<αB,med1<αB,max、αB,min2<αB,med2<αB,max、αB,med1=αF,med1およびαB,med2=αF,med2であり、プロセッサ501はさらに、
以下に従って、左方向の信号および左後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαを生成するように構成され得て、
Figure 2016052117
以下に従って、右方向の信号および右後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαを生成するように構成され得て、
Figure 2016052117
αL,med1、αL,max、αL,med2、αL,min、αR,med1、αR,min、αR,med2およびαR,maxは、ゼロよりも大きな定数であり、αL,min<αL,med1<αL,max、αL,min<αL,med2<αL,max、αR,min<αR,med1<αR,max、αR,min<αR,med2<αR,max、αL,med1=αR,med1およびαL,med2=αR,med2である。
プロセッサ501はさらに、以下に従って、左方向の信号SL,final(n)、中央方向の信号SC,final(n)、右方向の信号SR,final(n)、左後方サラウンド方向信号SLS,final(n)および右後方サラウンド信号SRS,final(n)を取得するように構成され、
Figure 2016052117
(n)は左方向の信号の初期値を表わし、S(n)は中央方向の信号の初期値を表わし、S(n)は右方向の信号の初期値を表わし、SLS(n)は左後方サラウンド信号の初期値を表わし、SRS(n)は右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす。
Figure 2016052117
さらに、ハート型の指向性を有するビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)を取得することは、
第1から第4のマイクロホンによって受取られる音声信号を使用して、ハート型の指向性を有するビームBFij(n)を取得することを含み、BFij(n)の最大指向性の点は、i番目のマイクロホンとj番目のマイクロホンとの接続線からi番目のマイクロホンに向かう方向にあり、BFij(n)の指向性のゼロ点は、i番目のマイクロホンとj番目のマイクロホンとの接続線からj番目のマイクロホンに向かう方向にあり、iおよびjは1、2、3または4に等しく、上記取得することはさらに、
以下に従って、ハート型の指向性を有するビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)を取得することを含む。
Figure 2016052117
プロセッサ501はさらに、具体的には、
L,final(n)=S(n)*αに従って左方向の信号SL,final(n)を取得するように構成され、
C,final(n)=S(n)に従って中央方向の信号SC,final(n)を取得するように構成され、
R,final(n)=S(n)*αに従って右方向の信号SR,final(n)を取得するように構成され、
LS,final(n)=SLS(n)*αに従って左後方サラウンド信号SLS,final(n)を取得するように構成され、
RS,final(n)=SRS(n)*αに従って右後方サラウンド信号SRS,final(n)を取得するように構成され、
(n)は左方向の信号の初期値を表わし、S(n)は中央方向の信号の初期値を表わし、S(n)は右方向の信号の初期値を表わし、SLS(n)は左後方サラウンド信号の初期値を表わし、SRS(n)は右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす。
本発明のこの実施形態において提供される音声信号処理装置によれば、音声信号は、移動端末の三次元音場から取得されることができ、移動端末に対する全ての音源の方向が取得され、次いで、移動端末に対する音源の方向および音声信号を使用して、三次元音場をシミュレートするために使用される空間オーディオ信号が生成される。本発明において提供される解決策では、三次元音場をシミュレートするために使用される音声信号は、移動端末の要素を使用して収集および処理され得る。また、全ての方向の受取られた音源の移動端末に対する方向は、分析によって得られ、次いで、全ての方向の音源の移動端末に対する方向に従って、三次元音場の効果が強調される。先行技術における解決策では、ビームのみを使用して三次元音場がシミュレートされる。しかし、本発明では、全ての方向の音源の移動端末に対する方向が取得され、さらに、当該方向についての情報を使用してビーム形成に対してゲイン調整が行われる。したがって、シミュレートされた三次元音場において左方向と右方向との間の差が前方方向と後方方向との間の差よりも明らかであるという現象を軽減することができ、それによって、シミュレートされた三次元音場の質が向上する。
本明細書における実施形態は全て漸進的な態様で記載されており、実施形態の中の同一または同様の部分についてはこれらの実施形態を参照することができ、各実施形態は他の実施形態との相違点に焦点を当てている。特に、装置実施形態は、基本的には方法実施形態と同様であり、そのため簡単に記載されており、関連する部分については、方法実施形態における一部の説明を参照することができる。
実施形態における方法のプロセスのうちの全てまたはいくつかが、関連のハードウェアに指示するコンピュータプログラムによって実行され得るということを当業者は理解することができる。当該プログラムは、コンピュータ読取可能記憶媒体に格納され得る。プログラムが実行されると、実施形態における方法のプロセスが実行される。上記の記憶媒体としては、磁気ディスク、光ディスク、リードオンリメモリ(Read-Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)などが挙げられ得る。
上記の説明は、単に本発明の具体的な実施形態に過ぎず、本発明の保護範囲を限定するよう意図したものではない。本発明に開示されている技術範囲内で当業者によって容易に理解されるいかなる変形例または置換例も、本発明の保護範囲に含まれるものとする。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に準拠するものとする。
上記の目的を達成するために、本発明の実施形態は以下の技術的解決策を使用する。
第1の局面によれば、本発明の実施形態は、音声信号処理方法であって、
三次元音場から音声信号を移動端末によって取得するステップを含み、少なくとも3つのマイクロホンが上記移動端末に配設されており、1つのマイクロホンが少なくとも1つの方向の音声信号を受取るように構成され、上記音声信号処理方法はさらに、
上記取得された音声信号に従って、上記移動端末に対する音源の方向を取得するステップと、
上記移動端末に対する上記音源の上記方向および上記取得された音声信号に従って、空間オーディオ信号を得るステップとを含み、上記空間オーディオ信号は、上記三次元音場をシミュレートするために使用される、音声信号処理方法を提供する。第1の局面を参照して、第1の局面の第1の可能な実施態様において、上記取得された音声信号に従って、上記移動端末に対する音源の方向を取得するステップは、
上記移動端末上の上記マイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するステップを含み、上記移動端末上の上記マイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、上記取得するステップはさらに、
上記取得された到達時間差および上記移動端末上の上記マイクロホンの位置に従って、上記移動端末に対する上記音源の上記方向を得るステップを含む。
Figure 2016052117
第1の局面の第2の可能な実施態様を参照して、第1の局面の第4の可能な実施態様において、上記取得された到達時間差および上記移動端末上の上記マイクロホンの位置に従って、上記移動端末に対する上記音源の上記方向を得るステップは、
以下に従って、上記移動端末に対する上記音源の上記方向θを取得するステップを含み、
第1の局面の第7の可能な実施態様を参照して、第1の局面の第8の可能な実施態様において、上記ゲイン調整パラメータおよび上記空間オーディオ信号における全ての方向の上記信号の上記初期値に従って、上記空間オーディオ信号における全ての方向の上記信号を生成するステップは、
以下に従って、上記左方向の信号SL,final(n)、上記中央方向の信号SC,final(n)、上記右方向の信号SR,final(n)、上記左後方サラウンド信号SLS,final(n)および上記右後方サラウンド信号SRS,final(n)を取得するステップを含み、
第2の局面を参照して、第2の局面の第1の可能な実施態様において、上記第2の取得モジュールは、
上記移動端末上の上記マイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するように構成された第1の取得ユニットを含み、上記移動端末上の上記マイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、上記第2の取得モジュールはさらに、
上記取得された到達時間差および上記移動端末上の上記マイクロホンの位置に従って、上記移動端末に対する上記音源の上記方向を得るように構成された第2の取得ユニットを含む。
ステップ1022:取得された到達時間差および移動端末上のマイクロホンの位置に従って、移動端末に対する音源の方向を得る。
ステップ1033は、具体的にはステップ1033aとして実施され得る。
ステップ1033a:以下に従って、左方向の信号SL,final(n)、中央方向の信号SC,final(n)、右方向の信号SR,final(n)、左後方サラウンド信号SLS,final(n)および右後方サラウンド信号SRS,final(n)を取得し、
図4aに示されるように、第2の取得モジュール42は、
移動端末上のマイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するように構成された第1の取得ユニット421を含み、移動端末上のマイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、第2の取得モジュール42はさらに、
取得された到達時間差および移動端末上のマイクロホンの位置に従って、移動端末に対する音源の方向を得るように構成された第2の取得ユニット422を含む。
空間オーディオ信号における全ての方向の信号は、第3の処理ユニット433に従って生成され、図4hに示されるように、第3の処理ユニット433は、
以下に従って、左方向の信号SL,final(n)、中央方向の信号SC,final(n)、右方向の信号SR,final(n)、左後方サラウンド信号SLS,final(n)および右後方サラウンド信号SRS,final(n)を取得するように構成された第5の処理サブユニット4331を含み、
プロセッサ501はさらに、移動端末上のマイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するように構成され、移動端末上のマイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、プロセッサ501はさらに、
取得された到達時間差および移動端末上のマイクロホンの位置に従って、移動端末に対する音源の方向を得るように構成される。
Figure 2016052117
プロセッサ501はさらに、以下に従って、左方向の信号SL,final(n)、中央方向の信号SC,final(n)、右方向の信号SR,final(n)、左後方サラウンド信号SLS,final(n)および右後方サラウンド信号SRS,final(n)を取得するように構成され、
ステップ1033は、具体的にはステップ1033aとして実施され得る。以下を含む。
ステップ1033a:以下に従って、左方向の信号SL,final(n)、中央方向の信号SC,final(n)、右方向の信号SR,final(n)、左後方サラウンド信号SLS,final(n)および右後方サラウンド信号SRS,final(n)を取得し、
例えば、再生システムがイヤホンである場合には、N個の方向の強調された出力信号が、5.1チャネルサラウンド音声システムにおける再生のための左方向、中央方向、右方向、左後方サラウンド方向および右後方サラウンド方向の信号にマッピングされる必要があり、また、音源の位置についての推定の結果に従って、上記の方法に従ってマッピングが行われた後に得られる5つの方向の信号に対して空間音場強調調整が行われ、その結果、空間音場強調調整後の出力信号が得られる。イヤホン再生システムでは、空間音場強調調整後に得られる出力信号は、2チャネル信号にダウンミックスされる必要がある。1つの任意のダウンミックス方法は、国際電気通信連合規格の5.1チャネルサラウンド音声を2チャネル信号にダウンミックスするための方法である。別の方法は、左方向、右方向、左後方サラウンド方向および右後方サラウンド方向の信号に対して、ダウンミックスの前に対応する角度の頭部伝達関数とそれぞれに畳み込みを行う必要があり、次いでダウンミックスが行われるというものであり、その結果、信号ダウンミックス後の前方方向、後方方向、左方向および右方向の空間分離度を向上させることができる。

Claims (15)

  1. 音声信号処理方法であって、
    三次元音場から音声信号を移動端末によって取得するステップを備え、少なくとも3つのマイクロホンが前記移動端末に配設されており、1つのマイクロホンが少なくとも1つの方向の音声信号を受取るように構成され、前記音声信号処理方法はさらに、
    前記取得された音声信号に従って、前記移動端末に対する音源の方向を取得するステップと、
    前記移動端末に対する前記音源の前記方向および前記取得された音声信号に従って、空間オーディオ信号を得るステップとを備え、前記空間オーディオ信号は、前記三次元音場をシミュレートするために使用される、音声信号処理方法。
  2. 前記取得された音声信号に従って、前記移動端末に対する音源の方向を取得するステップは、
    前記移動端末上の前記マイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するステップを備え、前記移動端末上の前記マイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、前記取得するステップはさらに、
    前記取得された到達時間差および前記移動端末上の前記移動端末上の前記マイクロホンの位置に従って、前記移動端末に対する前記音源の前記方向を得るステップを備える、請求項1に記載の音声信号処理方法。
  3. Figure 2016052117
  4. Figure 2016052117
  5. 前記取得された到達時間差および前記移動端末上の前記移動端末上の前記マイクロホンの位置に従って、前記移動端末に対する前記音源の前記方向を得るステップは、
    以下に従って、前記移動端末に対する前記音源の前記方向θを取得するステップを備え、
    Figure 2016052117
    前記第1のマイクロホンおよび第2のマイクロホンは、前記移動端末の1つの面の対称軸上に位置し、それぞれ前記1つの面上の2つの平行な端縁に位置し、第3のマイクロホンおよび第4のマイクロホンは、前記移動端末の別の面の対称軸上に位置し、それぞれ前記別の面上の2つの平行な端縁に位置し、cは音速を表わし、(x,y)は前記第1のマイクロホンに対応する座標を表わし、(x,y)は前記第2のマイクロホンに対応する座標を表わし、(x,y)は前記第3のマイクロホンに対応する座標を表わし、(x,y)は前記第4のマイクロホンに対応する座標を表わす、請求項3に記載の音声信号処理方法。
  6. 前記空間オーディオ信号は、左方向の信号と、右方向の信号と、中央方向の信号と、左後方サラウンド信号と、右後方サラウンド信号とを少なくとも備え、
    前記移動端末に対する前記音源の前記方向および前記取得された音声信号に従って、空間オーディオ信号を得るステップは、
    前記移動端末に対する前記音源の前記方向を使用してゲイン調整パラメータを生成するステップを備え、前記ゲイン調整パラメータは、前記左方向の信号、前記右方向の信号および前記中央方向の信号に対応する第1のタイプのゲイン調整パラメータαと、前記左後方サラウンド信号および前記右後方サラウンド信号に対応する第1のタイプのゲイン調整パラメータαと、前記左方向の信号および前記左後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαと、前記右方向の信号および前記右後方サラウンド信号に対応する第2のタイプのゲイン調整パラメータαとを備え、さらに、前記移動端末に対する前記音源の前記方向について、θ∈[0,90)∪(270,360]の場合、α>αであり、θ∈(90,270)の場合、α<αであり、θ∈(0,180)の場合、α>αであり、θ∈(180,360)の場合、α<αであり、前記得るステップはさらに、
    前記音声信号に従って、前記空間オーディオ信号における全ての方向の前記信号の初期値を取得するステップと、
    前記ゲイン調整パラメータおよび前記空間オーディオ信号における全ての方向の前記信号の前記初期値に従って、前記左方向の信号、前記右方向の信号、前記中央方向の信号、前記左後方サラウンド信号および前記右後方サラウンド信号を生成するステップとを備える、請求項1から5のいずれか1項に記載の音声信号処理方法。
  7. 前記空間オーディオ信号は、2チャネル信号をさらに備え、
    前記方法はさらに、
    前記2チャネル信号を生成するために、前記左方向の信号、前記右方向の信号、前記中央方向の信号、前記左後方サラウンド信号および前記右後方サラウンド信号をダウンミックスするステップを備える、請求項6に記載の音声信号処理方法。
  8. 前記移動端末に対する前記音源の前記方向を使用してゲイン調整パラメータを生成するステップは、
    以下に従って、前記左方向の信号、前記右方向の信号および前記中央方向の信号に対応する前記第1のタイプのゲイン調整パラメータαを生成するステップと、
    Figure 2016052117
    以下に従って、前記左後方サラウンド信号および前記右後方サラウンド信号に対応する前記第1のタイプのゲイン調整パラメータαを生成するステップとを備え、
    Figure 2016052117
    αF,min、αF,med1、αF,max1、αF,med2、αF,max2、αB,min1、αB,med1、αB,min2、αB,med2およびαB,maxは、ゼロよりも大きな定数であり、αF,min<αF,med1<αF,max1、αF,min<αF,med2<αF,max2、αB,min1<αB,med1<αB,max、αB,min2<αB,med2<αB,max、αB,med1=αF,med1およびαB,med2=αF,med2であり、前記生成するステップはさらに、
    以下に従って、前記左方向の信号および前記左後方サラウンド信号に対応する前記第2のタイプのゲイン調整パラメータαを生成するステップと、
    Figure 2016052117
    以下に従って、前記右方向の信号および前記右後方サラウンド信号に対応する前記第2のタイプのゲイン調整パラメータαを生成するステップとを備え、
    Figure 2016052117
    αL,med1、αL,max、αL,med2、αL,min、αR,med1、αR,min、αR,med2およびαR,maxは、ゼロよりも大きな定数であり、αL,min<αL,med1<αL,max、αL,min<αL,med2<αL,max、αR,min<αR,med1<αR,max、αR,min<αR,med2<αR,max、αL,med1=αR,med1およびαL,med2=αR,med2である、請求項6に記載の音声信号処理方法。
  9. 前記ゲイン調整パラメータおよび前記空間オーディオ信号における全ての方向の前記信号の前記初期値に従って、前記空間オーディオ信号における全ての方向の前記信号を生成するステップは、
    以下に従って、前記左方向の信号SL,final(n)、前記中央方向の信号SC,final(n)、前記右方向の信号SR,final(n)、前記左後方サラウンド方向信号SLS,final(n)および前記右後方サラウンド信号SRS,final(n)を取得するステップを備え、
    Figure 2016052117
    (n)は前記左方向の信号の初期値を表わし、S(n)は前記中央方向の信号の初期値を表わし、S(n)は前記右方向の信号の初期値を表わし、SLS(n)は前記左後方サラウンド信号の初期値を表わし、SRS(n)は前記右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす、請求項8に記載の音声信号処理方法。
  10. Figure 2016052117
  11. ハート型の指向性を有するビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)を取得するステップは、
    前記第1から前記第4のマイクロホンによって受取られる前記音声信号を使用して、ハート型の指向性を有するビームBFij(n)を取得するステップを備え、BFij(n)の最大指向性の点は、i番目のマイクロホンとj番目のマイクロホンとの接続線から前記i番目のマイクロホンに向かう方向にあり、BFij(n)の指向性のゼロ点は、前記i番目のマイクロホンと前記j番目のマイクロホンとの前記接続線から前記j番目のマイクロホンに向かう方向にあり、iおよびjは1、2、3または4に等しく、前記取得するステップはさらに、
    以下に従って、ハート型の指向性を有する前記ビームBF(n)、BF(n)、BFLS(n)およびBFRS(n)を取得するステップを備える、
    Figure 2016052117
    請求項10に記載の音声信号処理方法。
  12. 前記ゲイン調整パラメータおよび前記空間オーディオ信号における全ての方向の前記信号の前記初期値に従って、前記空間オーディオ信号における全ての方向の前記信号を生成するステップは、
    L,final(n)=S(n)*αに従って前記左方向の信号SL,final(n)を取得するステップと、
    C,final(n)=S(n)に従って前記中央方向の信号SC,final(n)を取得するステップと、
    R,final(n)=S(n)*αに従って前記右方向の信号SR,final(n)を取得するステップと、
    LS,final(n)=SLS(n)*αに従って前記左後方サラウンド信号SLS,final(n)を取得するステップと、
    RS,final(n)=SRS(n)*αに従って前記右後方サラウンド信号SRS,final(n)を取得するステップとを備え、
    (n)は前記左方向の信号の初期値を表わし、S(n)は前記中央方向の信号の初期値を表わし、S(n)は前記右方向の信号の初期値を表わし、SLS(n)は前記左後方サラウンド信号の初期値を表わし、SRS(n)は前記右後方サラウンド信号の初期値を表わし、nはサンプリング点数を表わす、請求項8に記載の音声信号処理方法。
  13. 音声信号処理装置であって、
    三次元音場から音声信号を取得するように構成された第1の取得モジュールを備え、少なくとも3つのマイクロホンが移動端末に配設されており、1つのマイクロホンが少なくとも1つの方向の音声信号を受取るように構成され、前記音声信号処理装置はさらに、
    前記取得された音声信号に従って、前記移動端末に対する音源の方向を取得するように構成された第2の取得モジュールと、
    前記移動端末に対する前記音源の前記方向および前記取得された音声信号に従って、空間オーディオ信号を得るように構成された第1の処理モジュールとを備え、前記空間オーディオ信号は、前記三次元音場をシミュレートするために使用される、音声信号処理装置。
  14. 前記第2の取得モジュールは、
    前記移動端末上の前記マイクロホンによって受取られる1つの方向の音声信号と別の方向の音声信号との間の到達時間差を取得するように構成された第1の取得ユニットを備え、前記移動端末上の前記マイクロホンは、少なくとも4つの方向の音声信号を受取るように構成され、前記第2の取得モジュールはさらに、
    前記取得された到達時間差および前記移動端末上の前記移動端末上の前記マイクロホンの位置に従って、前記移動端末に対する前記音源の前記方向を得るように構成された第2の取得ユニットを備える、請求項13に記載の音声信号処理装置。
  15. Figure 2016052117
JP2015113909A 2014-08-29 2015-06-04 音声信号処理方法および装置 Pending JP2016052117A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410439142.8A CN105451151B (zh) 2014-08-29 2014-08-29 一种处理声音信号的方法及装置
CN201410439142.8 2014-08-29

Publications (1)

Publication Number Publication Date
JP2016052117A true JP2016052117A (ja) 2016-04-11

Family

ID=53434189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015113909A Pending JP2016052117A (ja) 2014-08-29 2015-06-04 音声信号処理方法および装置

Country Status (5)

Country Link
US (1) US9439019B2 (ja)
EP (1) EP2991382B1 (ja)
JP (1) JP2016052117A (ja)
KR (1) KR101724514B1 (ja)
CN (1) CN105451151B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448693A (zh) * 2016-09-05 2017-02-22 华为技术有限公司 一种语音信号处理方法及装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170236547A1 (en) * 2015-03-04 2017-08-17 Sowhat Studio Di Michele Baggio Portable recorder
US9583113B2 (en) * 2015-03-31 2017-02-28 Lenovo (Singapore) Pte. Ltd. Audio compression using vector field normalization
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
CN105407443B (zh) * 2015-10-29 2018-02-13 小米科技有限责任公司 录音方法及装置
US11722821B2 (en) * 2016-02-19 2023-08-08 Dolby Laboratories Licensing Corporation Sound capture for mobile devices
CN105548955A (zh) * 2016-03-04 2016-05-04 上海易景信息科技有限公司 一种快速室内声源定向装置及方法
US10356514B2 (en) 2016-06-15 2019-07-16 Mh Acoustics, Llc Spatial encoding directional microphone array
US10477304B2 (en) 2016-06-15 2019-11-12 Mh Acoustics, Llc Spatial encoding directional microphone array
US10451719B2 (en) * 2016-06-22 2019-10-22 Loose Cannon Systems, Inc. System and method to indicate relative location of nodes in a group
CN109417668A (zh) * 2016-07-05 2019-03-01 索尼公司 声场形成装置和方法、以及程序
US10034083B2 (en) * 2016-09-21 2018-07-24 International Business Machines Corporation Crowdsourcing sound captures to determine sound origins and to predict events
WO2018096582A1 (ja) * 2016-11-22 2018-05-31 三菱電機株式会社 劣化個所推定装置、劣化個所推定システム及び劣化個所推定方法
CN106782584B (zh) * 2016-12-28 2023-11-07 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
CN109218920B (zh) * 2017-06-30 2020-09-18 华为技术有限公司 一种信号处理方法、装置及终端
US10310082B2 (en) * 2017-07-27 2019-06-04 Quantenna Communications, Inc. Acoustic spatial diagnostics for smart home management
US9866308B1 (en) * 2017-07-27 2018-01-09 Quantenna Communications, Inc. Composite WiFi and acoustic spatial diagnostics for smart home management
US10656268B2 (en) * 2017-07-27 2020-05-19 On Semiconductor Connectivity Solutions, Inc. Acoustic spatial diagnostics for smart home management
CN108269582B (zh) * 2018-01-24 2021-06-01 厦门美图之家科技有限公司 一种基于双麦克风阵列的定向拾音方法及计算设备
GB2572368A (en) 2018-03-27 2019-10-02 Nokia Technologies Oy Spatial audio capture
CN108769874B (zh) * 2018-06-13 2020-10-20 广州国音科技有限公司 一种实时分离音频的方法和装置
CN111383655B (zh) * 2018-12-29 2023-08-04 嘉楠明芯(北京)科技有限公司 一种波束形成方法、装置及计算机可读存储介质
CN109769181B (zh) * 2019-01-28 2020-08-25 努比亚技术有限公司 一种扬声器出音孔、终端及扬声器出音孔控制方法
CN110103867A (zh) * 2019-05-09 2019-08-09 贵安新区新特电动汽车工业有限公司 声音强度调整方法及装置
CN110225445A (zh) * 2019-05-22 2019-09-10 上海德衡数据科技有限公司 一种处理声音信号实现三维声场听觉效果的方法及装置
CN118235431A (zh) * 2022-10-19 2024-06-21 北京小米移动软件有限公司 空间音频采集方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007235334A (ja) * 2006-02-28 2007-09-13 Victor Co Of Japan Ltd オーディオ装置及び指向音生成方法
JP2009055137A (ja) * 2007-08-23 2009-03-12 Casio Hitachi Mobile Communications Co Ltd 携帯端末装置
JP2014501064A (ja) * 2010-10-25 2014-01-16 クゥアルコム・インコーポレイテッド マルチマイクロフォンを用いた3次元サウンド獲得及び再生

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPO099696A0 (en) * 1996-07-12 1996-08-08 Lake Dsp Pty Limited Methods and apparatus for processing spatialised audio
TWM273904U (en) 2004-08-19 2005-08-21 Inventec Appliances Corp Mobile phone with stereo recording functions
US8488796B2 (en) * 2006-08-08 2013-07-16 Creative Technology Ltd 3D audio renderer
JP5397131B2 (ja) * 2009-09-29 2014-01-22 沖電気工業株式会社 音源方向推定装置及びプログラム
US9857451B2 (en) * 2012-04-13 2018-01-02 Qualcomm Incorporated Systems and methods for mapping a source location
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9445174B2 (en) * 2012-06-14 2016-09-13 Nokia Technologies Oy Audio capture apparatus
CN102707262A (zh) * 2012-06-20 2012-10-03 太仓博天网络科技有限公司 一种基于麦克风阵列的声源定位系统
CN202818484U (zh) 2012-08-21 2013-03-20 徐丙川 会议通信装置和系统
CN103634561A (zh) 2012-08-21 2014-03-12 徐丙川 会议通信装置和系统
WO2014090277A1 (en) * 2012-12-10 2014-06-19 Nokia Corporation Spatial audio apparatus
CN103064061B (zh) * 2013-01-05 2014-06-11 河北工业大学 三维空间声源定位方法
CN103778657B (zh) * 2014-02-28 2017-01-25 中山大学 一种基于空间剖分的声线束追踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007235334A (ja) * 2006-02-28 2007-09-13 Victor Co Of Japan Ltd オーディオ装置及び指向音生成方法
JP2009055137A (ja) * 2007-08-23 2009-03-12 Casio Hitachi Mobile Communications Co Ltd 携帯端末装置
JP2014501064A (ja) * 2010-10-25 2014-01-16 クゥアルコム・インコーポレイテッド マルチマイクロフォンを用いた3次元サウンド獲得及び再生

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOSEPH H. DIBIASE ET AL.: "Robust Localization in Reverberant Rooms", MICROPHONE ARRAYS, JPN7017001842, 2001, pages 157 - 180, XP055204652, ISSN: 0003696028, DOI: 10.1007/978-3-662-04619-7_8 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448693A (zh) * 2016-09-05 2017-02-22 华为技术有限公司 一种语音信号处理方法及装置
CN106448693B (zh) * 2016-09-05 2019-11-29 华为技术有限公司 一种语音信号处理方法及装置

Also Published As

Publication number Publication date
EP2991382B1 (en) 2017-04-19
US9439019B2 (en) 2016-09-06
CN105451151B (zh) 2018-09-21
KR20160026652A (ko) 2016-03-09
CN105451151A (zh) 2016-03-30
KR101724514B1 (ko) 2017-04-07
EP2991382A1 (en) 2016-03-02
US20160066117A1 (en) 2016-03-03

Similar Documents

Publication Publication Date Title
JP2016052117A (ja) 音声信号処理方法および装置
RU2663343C2 (ru) Система, устройство и способ для совместимого воспроизведения акустической сцены на основе адаптивных функций
US9877133B2 (en) Sound collection and reproduction system, sound collection and reproduction apparatus, sound collection and reproduction method, sound collection and reproduction program, sound collection system, and reproduction system
JP5878549B2 (ja) 幾何ベースの空間オーディオ符号化のための装置および方法
US9271081B2 (en) Method and device for enhanced sound field reproduction of spatially encoded audio input signals
KR102207035B1 (ko) 고차 앰비소닉 오디오 신호로부터 스테레오 라우드스피커 신호를 디코딩하기 위한 방법 및 장치
KR101555416B1 (ko) 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법
RU2633134C2 (ru) Устройство и способ формирования множества параметрических звуковых потоков и устройство и способ формирования множества сигналов акустической системы
KR20090051614A (ko) 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
KR20130116271A (ko) 다중 마이크에 의한 3차원 사운드 포착 및 재생
Oreinos et al. Objective analysis of ambisonics for hearing aid applications: Effect of listener's head, room reverberation, and directional microphones
EP4005246A1 (en) Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
CN111819862A (zh) 音频编码设备和方法
Fernandez et al. A spatial enhancement approach for binaural rendering of head-worn microphone arrays
Shabtai et al. Spherical array beamforming for binaural sound reproduction
Omoto et al. Hypotheses for constructing a precise, straightforward, robust and versatile sound field reproduction system
Choi Extension of perceived source width using sound field reproduction systems
JP2015119393A (ja) 音響信号受聴装置
Oreinos et al. Objective analysis of higher-order Ambisonics sound-field reproduction for hearing aid applications

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170728

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171205