JP6844149B2 - 利得調整装置および利得調整プログラム - Google Patents

利得調整装置および利得調整プログラム Download PDF

Info

Publication number
JP6844149B2
JP6844149B2 JP2016164153A JP2016164153A JP6844149B2 JP 6844149 B2 JP6844149 B2 JP 6844149B2 JP 2016164153 A JP2016164153 A JP 2016164153A JP 2016164153 A JP2016164153 A JP 2016164153A JP 6844149 B2 JP6844149 B2 JP 6844149B2
Authority
JP
Japan
Prior art keywords
gain
frequency
frequency spectrum
level difference
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016164153A
Other languages
English (en)
Other versions
JP2018031897A (ja
Inventor
紗友梨 香村
紗友梨 香村
太郎 外川
太郎 外川
猛 大谷
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016164153A priority Critical patent/JP6844149B2/ja
Priority to US15/672,405 priority patent/US10014838B2/en
Priority to EP17186408.5A priority patent/EP3288030B1/en
Publication of JP2018031897A publication Critical patent/JP2018031897A/ja
Application granted granted Critical
Publication of JP6844149B2 publication Critical patent/JP6844149B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、利得調整装置および利得調整プログラムに関する。
複数の異なる音源から目的の音源のみを抽出する技術として、バイナリマスキング処理技術がある。バイナリマスキング処理技術は、複数のマイクで音声を取得し、それぞれのマイクで取得した音声の大きさの比較に基づき、音源を分離する技術である。
音源分離の精度を向上させるには、音源分離処理前に各マイクの利得の校正を行うことが望ましい。例えば特許文献1では、音源から利得調整用の校正信号を出力し、校正の基準となる基準マイクでの校正信号の受信感度を基準値として、他の校正対象のマイクの受信感度を比較する。この比較結果に基づき各マイクの校正用情報を作成することにより、複数のマイクのそれぞれの利得を調整する。
特開2007−129373号公報 国際公開第2012/023268号公報 特開2005−077731号公報
しかしながら、音源から音声が送信されている間に、音源からマイクまでの音声伝達経路に人や荷物などの障害物が侵入すると、マイクで受信される音声は障害物の影響を受ける。受信開始後の障害物の影響により、あらかじめマイクの利得を校正していても、マイクで取得した音声の大小関係が変化することにより、音源分離の精度は低下する。
開示の技術は、音声伝達経路の状態が時間的に変化しても取得した音声の大小関係の変化を押さえることを目的とする。
上述した課題を解決し、目的を達成するため、利得調整装置は、複数の出力装置からそれぞれ出力される音声信号を周波数スペクトルにそれぞれ変換する周波数変換部と、前記周波数スペクトルの比較結果に基づき、前記周波数スペクトルの推定レベル差値を算出するレベル差推定部と、前記周波数スペクトルおよび前記推定レベル差値に基づき、前記周波数スペクトルに対する利得をそれぞれ算出する利得算出部と、発話者から前記出力装置までの伝達過程における所定周波数での減衰量に対する各周波数での減衰量の比率である、減衰量比を記憶する減衰量比記憶部と、を有し、前記利得算出部は、前記周波数スペクトル、前記推定レベル差値、および前記減衰量比に基づき前記周波数スペクトルに対する利得を算出する
本件の開示する利得調整装置および利得調整方法の一つの態様によれば、音声伝達経路の状態が時間的に変化しても取得した音声の大小関係の変化を押さえることができるという効果を奏する。
図1は、第1の実施形態における、利得調整装置の利用形態の一例を示す概念図である。 図2は、コンピュータ12のハードウェアブロック図の一例である。 図3は、自動利得調整装置17の機能ブロック図の一例である。 図4は、自動利得調整装置17における利得調整処理フローの一例である。 図5は、周波数変換部20および21において用いられる変数の一覧である。 図6は、発話状態推定部22において用いられる変数の一覧である。 図7は、レベル差推定部23において用いられる変数の一覧である。 図8は、雑音推定部25、26において用いられる変数の一覧である。 図9は、利得算出部24において用いられる変数の一覧である。 図10は、利得付加部27、28および逆変換部29、30により用いられる変数の一覧である。 図11は、第2の実施形態における、自動利得調整装置の機能ブロック図の一例である。 図12は、入力音声の数を3つにした場合の自動利得調整装置の機能ブロック図の一例である。 図13は自動利得調整装置17bにおける利得調整処理フローの一例である。 図14は、周波数変換部20、21、52において用いられる変数の一覧である。 図15は、発話状態推定部22bにおいて利得算出処理を実行するかどうかを決定するための状態変動フラグである。 図16は、発話状態推定部22bにおいて用いられる変数の一覧である。 図17は、レベル差推定部23bにおいて用いられる変数の一覧である。 図18は、減衰量比記憶部51bにおいて記憶された各周波数におけるスペクトルの減衰量比テーブルである。 図19は、利得算出部24bにおいて用いられる変数の一覧である。 図20は、利得付加部27a、28a、53で用いられる変数の一覧である。 図21は、利得調整装置を用いた音声収集システムの一構成例である。 図22は自動利得調整を行わない場合の音声処理を表すものである。 図23は自動利得調整を行った場合の音声処理を表すものである。
以下、本発明の実施形態について具体的に説明する。
(第1の実施形態)
図1は、第1の実施形態における、利得調整装置の利用形態の一例を示す概念図である。図1の概念図は、話者10、話者11、マイク1、マイク2、コンピュータ12を有する。図1において、話者10の近傍にマイク1が設置され、話者11の近傍にマイク2が設置されている。話者10および話者11により発話された音声は、マイク1およびマイク2により受信される。話者10および話者11は音声を出力する音源の例である。マイク1およびマイク2は、受信した音声を電気信号に変換し、変換した電気信号をコンピュータ12に入力する。マイク1およびマイク2は、例えばあらかじめ録音された音声信号を出力する出力装置であってもよい。利得調整装置は、例えばコンピュータ12にインストールされたソフトウェアプログラムとして機能的に実現される。
図2は、コンピュータ12のハードウェアブロック図の一例である。コンピュータ12は、AD変換部15、AD変換部16、演算処理部14、記憶媒体100を有する。
AD変換部15およびAD変換部16はそれぞれ、マイク1およびマイク2から入力されたアナログの電気信号をデジタル信号に変換し出力する。演算処理部14は、記憶媒体100等に記憶されたプログラムを実行し、自動利得調整装置17、音声処理部18、音声ファイル変換部19を機能的に実現する。演算処理部14は例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などであってもよい。また自動利得調整装置17、音声処理部18、音声ファイル変換部19はそれぞれ、論理回路およびアナログ回路によりハードウェアで実装してもよい。図2において音声処理部18および音声ファイル変換部19は自動利得調整装置17と別個の構成としているが、自動利得調整装置17が音声処理部18および音声ファイル変換部19を含む構成であってもよい。
自動利得調整装置17は、AD変換部15およびAD変換部16から入力されたデジタル信号に基づき、音声信号が劣化しないように利得の調整を自動的に実行する。自動利得調整装置17は、調整した利得に基づき、入力されたデジタル信号の振幅を調整し、調整後のデジタル信号を出力する。
音声処理部18は、自動利得調整装置17から出力されたデジタル信号に対し、音源分離処理を実行する。音源分離処理技術には、例えば前述のバイナリマスキング処理技術がある。音声処理部18は、音源分離した話者10および話者11により発話された音声に対応するデジタル信号を出力する。
音声ファイル変換部19は、入力されたデジタル信号を音声ファイルに変換し出力する。記憶媒体100は音声ファイル変換部19から入力された音声ファイルを記憶する。
以上の通りコンピュータ12は、演算処理部14にプログラムを実行させることにより、自動利得調整機能を実現することが出来る。
図3は、自動利得調整装置17の機能ブロック図の一例である。自動利得調整装置17は、周波数変換部20および21、発話状態推定部22、レベル差推定部23、利得算出部24、雑音推定部25および26、利得付加部27および28、逆変換部29および30を有する。
周波数変換部20および21は、入力された音声信号を周波数変換し、音声スペクトルを出力する。周波数変換には、例えばSTFT(Short Time Discrete Fourier Transform:短時間離散フーリエ変換)処理がある。周波数変換には、z変換や離散コサイン変換を適用してもよい。本実施例において周波数変換部20は、入力された音声信号x1(t)をSTFT処理し、音声スペクトルX1(l,k)を出力する。ここで、tは時間、lはフレーム番号、kは周波数帯域を示す。同様に、周波数変換部21は、入力された音声信号x2(t)をSTFT処理し、音声スペクトルX2(l,k)を出力する。
発話状態推定部22は、入力された音声スペクトルX1(l,k)およびX2(l,k)に基づき、フレーム番号lごとに話者10または話者11のいずれが発話しているかを推定する。発話状態推定22は、それぞれのフレーム番号での推定結果をC(l)として出力する。発話状態の推定には、例えば”マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション”、信学論、Vol.J95-D、No.9、pp.1749-1758(2012)に開示されている話者ダイアライゼーション技術などを用いて行うことが出来る。
レベル差推定部23は、話者10または話者11のいずれか一方が発話している場合の推定レベル差を算出する。レベル差推定部23は、話者10に対応して算出した推定レベル差をD1(l)、話者11に対応して算出した推定レベル差をD2(l)として出力する。
雑音推定部25および26は、入力された音声スペクトルX1(l,k)およびX2(l,k)に対し、背景雑音スペクトルを推定し、推定された背景雑音スペクトルN1(l,k)およびN2(l,k)を出力する。本実施例における背景雑音スペクトルを推定する技術として、例えば"Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. Acoust., Speech, Signal Process., vol.27, pp.113-120, Apr. 1979に開示された技術を用いてもよい。
利得算出部24は、入力された推定結果C(l)、推定結果D1(l)およびD2(l)、音声スペクトルX1(l,k)およびX2(l,k)、および背景雑音スペクトルN1(l,k)およびN2(l,k)に基づいて利得を算出し、算出した利得G1(l,k)およびG2(l,k)を出力する。
利得付加部27および28は、利得算出部24により算出された利得に基づき、音声スペクトルに利得を付加する。利得付加部27は、音声スペクトルX1(l,k)、背景雑音スペクトルN1(l,k)および利得G1(l,k)を入力とし、推定音声スペクトルS1(l,k)を出力する。また利得付加部28は、音声スペクトルX2(l,k)、背景雑音スペクトルN2(l,k)および利得G2(l,k)を入力とし、推定音声スペクトルS2(l,k)を出力する。
逆変換部29および30は、入力された音声スペクトルを逆フーリエ変換し、音声信号を出力する。逆変換部29は、入力された推定音声スペクトルS1(l,k)を逆フーリエ変換し、推定音声信号s1(t)を出力する。逆変換部30は、入力された推定音声スペクトルS2(l,k)を逆フーリエ変換し、推定音声信号s2(t)を出力する。
以上の通り自動利得調整装置17は、入力された音声信号に基づき利得を推定し、推定された利得に基づき、推定音声信号を出力することが出来る。音声処理部18は推定音声信号に基づき音源分離処理を行うことにより、音声伝達経路の時間的変化によらず、音源分離精度を維持することが出来る。
図4は自動利得調整装置17における利得調整処理フローの一例である。利得調整処理はプロセッサによりプログラムを実行することにより実現してもよいし、論理回路によりハードウェアで実現してもよい。
自動利得調整装置17は、2つの音声信号を受信すると(ステップS11)、受信した音声信号をそれぞれフーリエ変換し、音声スペクトルを生成する(ステップS12)。
利得の調整は頻繁に行うと処理負荷が大きくなるため、例えば録音開始の初めの一定期間を初期区間として利得調整処理を実行すればよい。そこで自動利得調整装置17は、フーリエ変換処理の対象として選択した区間が、初期区間内か否かを判定する(ステップS13)。選択した区間が初期区間内である場合(ステップS13:YES)、自動利得調整装置17はステップS14からステップS17までの利得算出処理を実行する。選択した区間が初期区間内でない場合(ステップS13:NO)、自動利得調整装置17は利得算出処理を実行しない。本実施例において、分析開始点pは時間Tずつインクリメントしている。よって自動利得調整装置17は、分析開始点pの値を参照することにより、録音開始時刻からの経過時間を算出し、初期区間内かどうかを判定することが出来る。
利得算出処理において自動利得調整装置17は、いずれの話者が発話しているかを推定する発話推定処理を実行する(ステップS14)。自動利得調整装置17は、推定した発話者に基づき、それぞれの話者のスペクトルレベル差を推定する(ステップS15)。自動利得調整装置17は、それぞれの話者の音声スペクトルに基づき、背景雑音スペクトルを推定する(ステップS16)。自動利得調整装置17は、発話状態の推定結果およびレベル差の推定結果に基づき、補正利得を算出する(ステップS17)。
自動利得調整装置17は、利得補正処理を実行した場合には、補正利得を音声スペクトルに付加し、推定音声スペクトルを生成する(ステップS18)。自動利得調整装置17は、利得付加時に推定した背景雑音スペクトルを考慮することにより、利得調整後の推定音声スペクトルの精度を向上させることが出来る。
自動利得調整装置17は、利得調整後の推定音声スペクトルを逆フーリエ変換し、推定音声信号を生成する(ステップS19)。
自動利得調整装置17は、外部から録音終了指示のコマンドを受信している場合には、録音終了と判断し(ステップS20:YES)、利得調整処理を終了する。自動利得調整装置17は、外部から録音終了指示のコマンドを受信していない場合には(ステップS20:NO)、利得調整を開始する区間を後ろにずらすし(ステップS21)、次の区間において、ステップS11以降の利得調整処理を再び実行する。
以上の通り自動利得調整装置17は、受信した2つの音声信号に対し、利得調整処理を実行することが出来る。
図5は、周波数変換部20および21において用いられる変数の一覧である。図5において、列31は各変数の変数名を示す。列32は列31の各変数に対応する変数の内容を示す。
変数tは、音声信号の任意の時間を示す。変数pは、音声信号に対する分析開始時間を示す。変数Tは、音声信号の所定の区間を1フレームと定義した場合のフレーム長を示す。変数lは、分析開始時間pからフレーム長Tごとに音声信号を区切った場合のフレームの順番であるフレーム番号を示す。変数kは、音声信号を音声スペクトルに変換した場合の、スペクトルの各周波数を示す。変数nは、処理対象の音声信号が何番目のマイクから入力された音声信号であるかを示す番号である。変数xn(t)は、n番目のマイクから入力された音声信号を示す。変数Xn(l,k)は、n番目のマイクから入力された音声信号を周波数変換した音声信号スペクトルを示す。
周波数変換部20、21は、STFT処理により音声信号から音声スペクトルを生成する場合、フレームごとに区分された各音声信号xn(t-T)~xn(t)をそれぞれSTFT処理し、Xn(l,k)(k=0,1,...,T-1)を出力する。STFT処理を行う対象のフレームの移動は、例えばフレーム長の半分だけ時間をシフトするハーフ・オーバーラップを用いることで、窓関数による減衰の影響を除去することが出来る。
図6は、発話状態推定部22において用いられる変数の一覧である。図6において、列33は各変数の変数名を示す。列34は列33の各変数に対応する変数の内容を示す。
変数C(l)は、l番目のフレームにおける発話状態の推定結果を示す。発話状態推定部22は、例えば前述の話者ダイアライゼーション技術を用い、フレーム番号lにおいて、マイク1とマイク2のいずれのマイク側の話者が発話しているかを推定する。発話状態推定部22は、第1の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=1を出力する。発話状態推定部22は、第2の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=2を出力する。発話状態推定部22は、全てのマイクにおける入力音声レベルが近いためいずれの話者が発話しているか推定できない場合、またはいずれの話者からも発話されていないと推定した場合には、C(l)=0を出力する。
図7は、レベル差推定部23において用いられる変数の一覧である。図7において、列35は各変数の変数名を示す。列36は列35の各変数に対応する変数の内容を示す。
変数d(l)は、第1または第2の入力音声を受信するマイク付近の話者が発話している場合の、フレーム番号lにおける入力信号X1(l,k)とX2(l,k)とのレベル差の周波数方向の平均値であり、以下の式により算出される。
Figure 0006844149
変数Dn(l,k)は、第nの入力音声を受信するマイク付近の話者が発話しているときの推定レベル差を示す。第1の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=1の場合、推定レベル差D1(l)は、以下の式により算出する。
Figure 0006844149
また、第2の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=2の場合、推定レベル差D2(l)は、以下の式により算出する。
Figure 0006844149
推定レベル差Dn(l,k)の算出式において、変数αは所定の平滑化係数を示す。平滑化係数を用いて平滑化することにより、瞬時的なレベル差ではなく、長期的なレベル差を見ることで、突発的なノイズなどの影響を軽減することが出来る。平滑化係数を大きくするほど、瞬時の影響が大きくなるため、ノイズの影響を受けやすくなる一方、話者位置など環境の変化には強くなる。よって、発話環境において突発的なノイズの発生量が多い場合には平滑化係数小さく(α=0.01程度に)設定し、話者位置などの環境の変化が大きい場合には平滑化係数を大きく(α=0.1程度に)設定するのが望ましい。
以上の算出処理によりレベル差推定部23は、一方が発話している場合の各マイクにより受信されるレベルのレベル差を推定することが出来る。
図8は、雑音推定部25、26において用いられる変数の一覧である。図8において列37は各変数の変数名を示す。列38は列37の各変数に対応する変数の内容を示す。
変数Nn(l,k)は、n番目のマイクの入力音声に対する背景雑音スペクトルを示す。背景雑音スペクトルNn(l,k)はそれぞれ、音声スペクトルXn(l,k)に対して推定処理を行う。背景雑音スペクトルの推定には、例えば"Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. Acoust., Speech, Signal Process., vol.27, pp.113-120, Apr. 1979に開示された技術が用いられる。
図9は、利得算出部24において用いられる変数の一覧である。図9において列39は各変数の変数名を示す。列40は列39の各変数に対応する変数の内容を示す。
変数Vn(l,k)は、n番目のマイクの入力音声に対する補正量を示す。変数Gn(l,k)はn番目のマイクの入力音声に対する利得を示す。TH1は有音判定閾値である。有音判定閾値とは、各マイクから入力される音声の信号レベルが背景雑音ノイズレベルに対して十分大きいか否かを判定するための閾値である。各マイクから入力される音声の信号レベルと背景雑音レベルとの比SNRは、SNR=Xn(l,k)/Nn(l,k)により算出される。
SNR>TH1かつC(l)=1の場合、補正量Vn(l,k)はそれぞれ、V1(l,k)=a×V1(l-1,k)+(1-a)×(d(l)-D1(l,k))/2、V2(l,k)= a×V1(l-1,k)-(1-a)×(d(l)-D1(l,k))/2により算出される。ここで係数aは補正量の平滑化係数であり、過去の利得算出値の影響度を決める。係数aの値を大きくするほど、過去の利得算出値の影響が大きくなるため、環境変化が小さい場合は係数aの値を大きくすることにより、ノイズの影響を小さくすることができる。一方、環境変化が大きい場合は、係数aの値を小さくすることにより、環境変化への追従速度を上げることができる。
SNR>TH1かつC(l)=2の場合、補正量Vn(l,k)はそれぞれ、V1(l,k)=a×V1(l-1,k)+(1-a)×(d(l)-D2(l,k))/2、V2(l,k)= a×V1(l-1,k)-(1-a)×(d(l)-D2(l,k))/2により算出される。
SNR>TH1かつC(l)=0の場合、いずれの話者も発話していると推定できるレベルの音声がマイクに入力されていないため、補正量はVn(l,k)=Vn(l-1,k)とする。
SNR≦TH1の場合、背景雑音レベルが支配的であるため、V1(l,k)=V2(l,k)=0とする。
以上の通りSNRおよびC(l)の条件ごとに算出した補正量Vn(l,k)に基づき利得算出部24は、n番目のマイクの利得Gn(l,k)について、Gn(l,k)=1-Vn(l,k)/Xn(l,k)により算出する。利得算出部24は、算出した利得Gn(l,k)を利得付加部27、28へそれぞれ出力する。
図10は、利得付加部27、28および逆変換部29、30により用いられる変数の一覧である。図10において列41は各変数の変数名を示す。列42は列41の各変数に対応する変数の内容を示す。
変数Sn(l,k)は、n番目のマイクの入力音声に対し算出された利得を付加した推定音声スペクトルを示す。変数sn(t)は、n番目のマイクに対応する推定音声スペクトルSn(l,k)をフーリエ逆変換した推定音声信号を示す。
利得付加部27、28は、入力された利得Gn(l,k)、音声スペクトルXn(l,k)、および背景雑音スペクトルNn(l,k)に基づき推定音声スペクトルSn(l,k)を出力する。推定音声スペクトルSn(l,k)は、Sn(l,k)=max{Gn(l,k)×Xn(l,k),Nn(l,k)}により算出される。
逆変換部29、30はそれぞれ、入力された推定音声スペクトルSn(l,k)をフーリエ逆変換し、推定音声信号sn(t)を出力する。
以上の通り自動利得調整装置17は、n番目のマイクに入力された音声信号に対し利得調整処理を行い、推定音声信号を出力することが出来る。
(第2の実施形態)
図11は、第2の実施形態における、自動利得調整装置の機能ブロック図の一例である。自動利得調整装置17aは、周波数変換部20および21、発話状態推定部22a、レベル差推定部23a、利得算出部24a、減衰量比記憶部51a、利得付加部27aおよび28a、逆変換部29および30を有する。
図11の自動利得調整装置17aについて、図3の自動利得調整装置17と同一機能を有する構成には同一記号を付し、その説明を省略する。
発話状態推定部22aは、図3における発話状態推定部22と同様に、入力された音声スペクトルX1(l,k)およびX2(l,k)に基づき、フレーム番号lごとに話者10または話者11のいずれが発話しているかを推定する。発話状態推定部22aは、それぞれのフレーム番号での推定結果をC(l)として出力する。発話状態推定部22aは、状態変動フラグF(l-1,k)の値に基づき、状態変動検知処理を行うか否かを決定する。状態変動フラグは状態変動の有無の判定結果を示すフラグである。状態変動フラグの詳細は後述する。
レベル差推定部23aは、図3におけるレベル差推定部23と同様に、話者10または話者11のいずれか一方が発話している場合の推定レベル差を算出する。レベル差推定部23aは、話者10に対応して算出した推定レベル差をDA1(l)、話者11に対応して算出した推定レベル差をDA2(l)として出力する。
減衰量比記憶部51aは、あらかじめ自動利得調整装置17aを利用する環境下において、それぞれの話者と同位置から白色雑音を放射し、周波数変換部20、21から出力される各入力音声スペクトルを測定する。減衰量比記憶部51aは、測定した入力音声スペクトルに基づき、所定の周波数(例えば1kHz)と各周波数のスペクトルの比を減衰量比Rn(k)として記憶する。
利得算出部24aは、入力された推定結果C(l)、推定結果DA1(l)およびDA2(l)、音声スペクトルX1(l,k)およびX2(l,k)、および減衰量比記憶部51aから読み出したRn(k)に基づいて利得を算出し、算出した利得GA1(l,k)およびGA2(l,k)を出力する。
利得付加部27aおよび28aは、利得算出部24aにより算出された利得に基づき、音声スペクトルに利得を付加する。利得付加部27aは、音声スペクトルX1(l,k)、および利得GA1(l,k)を入力とし、推定音声スペクトルSA1(l,k)を出力する。また利得付加部28aは、音声スペクトルX2(l,k)、および利得GA2(l,k)を入力とし、推定音声スペクトルSA2(l,k)を出力する。
逆変換部29および30は、入力された音声スペクトルを逆フーリエ変換し、音声信号を出力する。逆変換部29は、入力された推定音声スペクトルSA1(l,k)を逆フーリエ変換し、推定音声信号sa1(t)を出力する。逆変換部30は、入力された推定音声スペクトルSA2(l,k)を逆フーリエ変換し、推定音声信号sa2(t)を出力する。
以上の通り自動利得調整装置17aは、入力された音声信号に基づき利得を推定し、推定された利得に基づき、推定音声信号を出力することが出来る。音声処理部18は推定音声信号に基づき音源分離処理を行うことにより、音声伝達経路の時間的変化によらず、音源分離精度を維持することが出来る。
図12は、入力音声の数を3つにした場合の自動利得調整装置の機能ブロック図の一例である。図12における自動利得調整装置17bは、図11における自動利得調整装置17aに対し、入力音声x3(t)を処理するための周波数変換部52、利得付加部53、および逆変換部54を追加した構成となっている。また自動利得調整装置17bにおいて、発話状態推定部22b、レベル差推定部23b、利得算出部24bは新たに入力音声x3(t)に対応する入力音声スペクトルX3(l,k)を受信する。自動利得調整装置17bにおいて、発話状態推定部22b、レベル差推定部23b、利得算出部24bにおいて、入力音声スペクトルXn(l,k)に対する処理はXn(l,k)ごとに独立しているため、入力音声の数を増やす場合には、発話状態推定部22b、レベル差推定部23b、利得算出部24bにおいて処理する入力音声スペクトルの数を増やせばよい。また、第2の実施形態に限らず、第1の実施形態における図3においても同様に、入力音声数に応じて発話状態推定部22、レベル差推定部23、利得算出部24において処理する入力音声スペクトルの数を増やすことにより、2以上の入力音声に対応した利得調整処理をすることが出来る。
以下に自動利得調整装置17bにおける動作の詳細を記載する。自動利得調整装置17bは自動利得調整装置17aの構成をすべて含んでおり、同一名称を付したブロックは同一の機能を有するため、自動利得調整装置17aについての詳細な説明は省略する。
図13は自動利得調整装置17bにおける利得調整処理フローの一例である。利得調整処理はプロセッサによりプログラムを実行することにより実現してもよいし、論理回路によりハードウェアで実現してもよい。
自動利得調整装置17bは、入力音声である音声信号を受信すると(ステップS31)、受信した音声信号をフーリエ変換等によってそれぞれ周波数変換し、音声スペクトルを生成する(ステップS32)。
利得の調整は頻繁に行うと処理負荷が大きくなるため、例えば音声スペクトルの変動量が所定の閾値よりも大きい場合に利得調整処理を実行すればよい。そこで自動利得調整装置17bは、フーリエ変換処理の対象として選択した区間で、利得調整の必要がある状態変動が有るか否かを判定する(ステップS33)。状態変動が有った場合(ステップS33:YES)、自動利得調整装置17bはステップS34からステップS37までの利得算出処理を実行する。状態変動が無かった場合(ステップS33:NO)、自動利得調整装置17は利得算出処理を実行しない。
利得算出処理において自動利得調整装置17bは、いずれの話者が発話しているかを推定する発話推定処理を実行する(ステップS34)。自動利得調整装置17bは、推定した発話者に基づき、それぞれの話者のスペクトルレベル差を推定する(ステップS35)。自動利得調整装置17bは、あらかじめ記録した減衰量比を減衰量比記憶部から読み出す(ステップS36)。自動利得調整装置17bは、発話状態の推定結果および減衰量比に基づき、補正利得を算出する(ステップS37)。
自動利得調整装置17bは、利得補正処理を実行した場合には、補正利得を音声スペクトルに付加し、推定音声スペクトルを生成する(ステップS38)。自動利得調整装置17bは、利得算出時にあらかじめ記録した減衰量比を参照することにより、利得算出時における演算負荷を軽減することが出来る。
自動利得調整装置17bは、利得調整後の推定音声スペクトルを逆フーリエ変換し、推定音声信号を生成する(ステップS39)。
自動利得調整装置17bは、外部から録音終了指示のコマンドを受信している場合には、録音終了と判断し(ステップS40:YES)、利得調整処理を終了する。自動利得調整装置17bは、外部から録音終了指示のコマンドを受信していない場合には(ステップS40:NO)、利得調整を開始する区間を後ろにずらすし(ステップS41)、次の区間において、ステップS32以降の利得調整処理を再び実行する。
以上の通り自動利得調整装置17bは、受信した音声信号に対し、利得調整処理を実行することが出来る。
図14は、周波数変換部20、21、52において用いられる変数の一覧である。図14において、列61は各変数の変数名を示す。列62は列61の各変数に対応する変数の内容を示す。
変数tは、音声信号の任意の時間を示す。変数pは、音声信号に対する分析開始時間を示す。変数Tは、音声信号の所定の区間を1フレームと定義した場合のフレーム長を示す。変数lは、分析開始時間pからフレーム長Tごとに音声信号を区切った場合のフレームの順番であるフレーム番号を示す。変数kは、音声信号を音声スペクトルに変換した場合の、スペクトルの各周波数を示す。変数nは、処理対象の音声信号が何番目のマイクから入力された音声信号であるかを示す番号である。変数xn(t)は、n番目のマイクから入力された音声信号を示す。変数Xn(l,k)は、n番目のマイクから入力された音声信号を周波数変換した音声信号スペクトルを示す。変数Nn(l,k)は、n番目のマイクから入力された音声信号の背景雑音スペクトルを示す。
周波数変換部20、21、52は、STFT処理により音声信号から音声スペクトルを生成する場合、フレームごとに区分された各音声信号xn(t-T)~xn(t)をそれぞれSTFT処理し、Xn(l,k)(k=0,1,...,T-1)を出力する。
図15は、発話状態推定部22bにおいて利得算出処理を実行するかどうかを決定するための状態変動フラグを示す。列63は状態変動フラグを示す変数F(l-1,k)を示す。列64は列63の変数の内容を示す。状態変動フラグは利得算出部24bから出力され、発話状態推定部22bおよびレベル差推定部23bに入力される。状態変動フラグの値は1フレーム以上前の入力音声スペクトルに基づいて判定する。例えば、推定レベル差DAn(l-x, k)からDAn(l,k)までの回帰直線の傾きを算出し、傾きがあらかじめ設定した閾値よりも小さくなれば状態変動していないと判定することが出来る。また、推定レベル差DAn(l,k)の算出式の初期値を大きく設定した場合と小さく設定した場合で開始し、両者の値が一定値以内に収まる場合には状態変動していないと判定することもできる。
発話状態推定部22b、レベル差推定部23b、および利得算出部24bは、状態変動フラグの値に応じて、フレーム番号lにおける利得算出処理を実行するかどうかを決める。F(l-1,k)=1の場合、所定値を上回る状態変動が発生したものとして、発話状態推定部22b、レベル差推定部23b、および利得算出部24bは利得算出処理を実行する。
一方、F(l-1,k)=0の場合には、利得算出処理が必要な状態変動は発生していないと判定し、発話状態推定部22b、レベル差推定部23b、および利得算出部24bにおける利得算出処理を実行せず、1フレーム前の補正量および利得に基づき利得付加処理を行う。
以上の通り状態変動フラグの値に応じて利得算出処理を実行することにより、自動利得調整装置17bの消費電力を押さえつつ、精度の高い利得調整を行うことが出来る。
図16は、発話状態推定部22bにおいて用いられる変数の一覧である。図16において、列65は各変数の変数名を示す。列66は列65の各変数に対応する変数の内容を示す。
変数C(l)は、l番目のフレームにおける発話状態の推定結果を示す。発話状態推定部22bは、状態変動フラグF(l-1,k)の値が1の場合、発話状態推定処理を実行する。発話状態推定部22bは、例えば前述の話者ダイアライゼーション技術を用い、フレーム番号lにおいて、いずれのマイク側の話者が発話しているかを推定する。発話状態推定部22bは、第1の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=1を出力する。発話状態推定部22bは、第2の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=2を出力する。発話状態推定部22bは、第3の入力音声を受信するマイク付近の話者が発話していると推定した場合には、C(l)=3を出力する。発話状態推定部22bは、全てのマイクへの入力レベルが近いためいずれの話者が発話しているか推定できない場合、またはいずれの話者からも発話されていないと推定した場合には、C(l)=0を出力する。
図17は、レベル差推定部23bにおいて用いられる変数の一覧である。図17において、列67は各変数の変数名を示す。列68は列67の各変数に対応する変数の内容を示す。
変数dnm(l,k)は、第nの入力音声に基づく音声スペクトルXn(l,k)と、第mの入力音声に基づく音声スペクトルXm(l,k)との瞬時のレベル差を示す。n、mはそれぞれマイクの数に対応する整数であり、n≠mである。利得自動調整装置17bにおいて、マイクの数は3であるから、第1の入力音声に対する第2、第3の入力音声とのレベル差の式はそれぞれ、d12(l,k)=X1(l,k)-X2(l,k)、d13(l,k)=X1(l,k)-X3(l,k)となる。なお、本実施形態においては音声スペクトルX1(l,k)に対する他の音声スペクトルとのレベル差を利用する場合について記載するが、他の音声スペクトルX2(l,k)やX3(l,k)を基準としたレベル差を利用してもよいし、これらのレベル差を複合的に利用して推定レベル差を算出してもよい。
変数DAn(l,k)は、第nの入力音声を受信するマイク付近の話者が発話しているときの推定レベル差を示す。第1の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=1の場合、推定レベル差DA1(l)は、DA1(l)=(1-β)DA1(l-1,k)+βd12(l,k)となる。第2の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=2の場合、推定レベル差DA2(l)は、DA2(l)=(1-β)DA2(l-1,k)+βd12(l,k)となる。第3の入力音声を受信するマイク付近の話者が発話している場合、すなわちC(l)=3の場合、推定レベル差DA3(l)は、DA3(l)=(1-β)DA3(l-1,k)+βd13(l,k)となる。
推定レベル差DAn(l,k)の算出式において、変数βは所定の平滑化係数を示す。平滑化係数を用いて平滑化することにより、瞬時的なレベル差ではなく、長期的なレベル差を見ることで、突発的なノイズなどの影響を軽減することが出来る。平滑化係数を大きくするほど、瞬時の影響が大きくなるため、ノイズの影響を受けやすくなる一方、話者位置など環境の変化には強くなる。よって、発話環境において突発的なノイズの発生量が多い場合には平滑化係数小さく(β=0.01程度に)設定し、話者位置などの環境の変化が大きい場合には平滑化係数を大きく(β=0.1程度に)設定するのが望ましい。
以上の算出処理によりレベル差推定部23bは、一方が発話している場合の各マイクにより受信されるレベルのレベル差を推定することが出来る。
図18は、減衰量比記憶部51bにおいて記憶された各周波数におけるスペクトルの減衰量比テーブルである。図18において、列69は各周波数の値を示す。列70は列69の各周波数に対応するスペクトルの減衰量比を示す。
減衰量比テーブルは、本発明を利用する環境下においてあらかじめ準備する。減衰量比テーブルの作成にはまず、話者と同位置から白色雑音を放射し、各マイクに対応する入力音声スペクトルを測定する。次に、各マイクに対応する入力音声スペクトルについて、所定の周波数に対する各周波数のスペクトルの比を減衰量比Rn(k)として算出し減衰量比記憶部51bに格納する。減衰量比Rn(k)において、nは第nの入力音声を受信するマイクに対応する。
図19は、利得算出部24bにおいて用いられる変数の一覧である。図19において列71は各変数の変数名を示す。列72は列71の各変数に対応する変数の内容を示す。
変数VAn(l,k)は、n番目のマイクの入力音声に対する補正量を示す。変数rn(l,k)はn番目のマイクにおける実測の減衰量比を示す。TH2は実測の減衰量比と減衰量記憶部に記憶した減衰量比との差分を評価するための所定の閾値である。閾値TH2の値は補正処理中に値をスイープしながら、最適値を探してもよい。変数Yは補正量を計算する際の補正係数である。補正係数Yは実測の減衰量比と減衰量記憶部51に記憶した減衰量比との差分にどれだけの重み付けをするかを決める係数である。
発話している音源が1つである場合の実測の減衰量比rn(l,k)は、r1(l,k)=DA1(l,k)/DA1(l,k_1kHz)、r2(l,k)=DA2(l,k)/DA2(l,k_1kHz)、r3(l,k)=DA3(l,k)/DA3(l,k_1kHz)により算出することが出来る。ここで、変数k_1kHzは、周波数1kHzに対応する帯域番号を示す。前述の通り本実施例では、減衰量比を計算する際の基準周波数を1kHzと定めているためである。
利得算出部24bは、実測の減衰量比rn(l,k)と減衰量比記憶部51に記憶した減衰量比との大小関係に基づき、以下の通り補正量VAn(l,k)を算出する。また利得算出部は、実測の減衰量比rn(l,k)と減衰量比記憶部51に記憶した減衰量比との大小関係に基づき、変動フラグF(l,k)の値を決定する。
|rn(l,k)-Rn(k)|>TH2の場合、VAn(l,k)=VAn(l-1,k)-Y{rn(l,k)-Rn(k)}、F(l,k)=1
|rn(l,k)-Rn(k)|≦TH2の場合、VAn(l,k)=VAn(l-1,k)、F(l,k)=0
利得算出部24bは利得GAn(l,k)について、算出した補正量VAn(l,k)に基づき、GAn(l,k)=1-VAn(l,k)/Xn(l,k)により算出する。
利得算出部24bは、算出した利得GAn(l,k)をそれぞれの入力音声に対応する利得付加部27a、28a、53に出力する。また利得算出部24bは決定した変動フラグF(l,k)の値を発話状態推定部22bおよびレベル差推定部23bに出力する。
以上の通り利得算出部24bは、あらかじめ基準となる減衰量比を記憶しておくことにより、精度を維持しつつ利得算出に要する演算量を削減することが出来る。
図20は、利得付加部27a、28a、53で用いられる変数の一覧である。図20において列73は各変数の変数名を示す。列74は列73の各変数に対応する変数の内容を示す。
変数ξnは、第nの入力音声に対する利得付加演算における、利得GAn(l,k)に対する所定の倍率を示す。倍率ξnは、VAn(l,k)=VA1(l-1,k)の場合、すなわち補正量の変動がない場合は、ξn=1とする。また、VAn(l,k)≠VA1(l-1,k)の場合、すなわち補正量の変動が有る場合は、ξn=0.5とし、補正量の変動の影響を小さくする。以上の通り変数ξnを適切に設定することにより、入力音声に瞬時に発生した大きな変動を緩和することが出来る。
変数SAn(l,k)は、第nのマイク入力に対する利得付加後の推定スペクトルを示す。利得付加部27a、28a、53は、利得算出部24bから入力された利得GAn(l,k)に基づき入力音声スペクトルを補正し、推定スペクトルSAn(l,k)を出力する。各推定スペクトルSAn(l,k)は、SAn(l,k)=Xn(l,k)×ξn×GAn(l,k)により算出される。
本実施例では利得算出部24bにより利得GAn(l,k)を算出後、推定スペクトルSAn(l,k)を計算しているが、利得付加部27a、28a、53に補正量VAn(l,k)を入力し、VAn(l,k)に基づき推定スペクトルSAn(l,k)を演算してもよい。これにより、利得GAn(l,k)の演算による利得算出部24bの演算負荷を軽減することが出来る。
図21は、利得調整装置を用いた音声収集システムの一構成例である。図21において音声収集システム3は、マイク1、2、収録装置129、インターネット網140、およびサーバ13を有する。
マイク1、2は話者10および話者11の発話をそれぞれ受信する。マイク1、2は受信した入力音声を収録装置129に送信する。
収録装置129はAD変換部15、16、演算処理部14、送信部81を有する。AD変換部15、16はマイク1、2から受信したアナログ信号の入力音声をそれぞれデジタル信号に変換する。演算処理部14は、AD変換部15、16でデジタル信号に変換された入力音声をデジタル信号処理し、音声ファイルを生成する。送信部81は生成された音声ファイルをインターネット網に送信する。
インターネット網140は複数の通信装置が優先または無線で接続可能なインターネット通信網の概念図である。本実施例においてインターネット網140は、収録装置129から受信した音声ファイルをサーバ13に送信する。
サーバ13は、受信部82、自動利得調整装置17、音源分離部83、記憶媒体100を有する。受信部82は、インターネット網140から送信された音声ファイルを受信する。自動利得調整装置17は、前述の実施例にかかる自動利得調整装置17、17a、または17bのいずれであってもよい。自動利得装置17は受信部82により受信された音声ファイルの利得を調整し出力する。音源分離部83は利得調整された音声ファイルをそれぞれの話者に対応する音源に分離する。音源分離部83は分離した音源を記憶媒体100に書き込む。
以上の通り、自動利得調整装置17をインターネット網140に接続されたサーバに設置することにより、同じくインターネット網140に接続された複数の収録装置129から送信される音声ファイルを利得調整すると共に一元管理することが出来る。
図22は自動利得調整を行わない場合の音声処理を表すものである。図22における話者10、マイク1、2は図21における符号と同一のものを表す。グラフ91は話者10の音声をフーリエ変換した音声スペクトルである。グラフ92は話者10からマイク1への伝達関数を表す。グラフ92において周波数がf1のときに伝達関数の値が大きく減少している。グラフ93は話者10からマイク2への伝達関数を表す。グラフ93における大きさG2は、グラフ92における大きさG1よりも小さいが、グラフ92における周波数f2での大きさは、G2よりも小さい。
グラフ94においてスペクトルX1はマイク1から出力された音声スペクトルを示し、スペクトルX2はマイク2から出力された音声スペクトルを示す。マイク1、2において、伝達関数が周波数に対して常にG1、G2で一定であれば、音声スペクトルX1は音声スペクトルX2よりも常に大きくなる。しかしながら図22の例では、話者10からマイク1への伝達関数が周波数f1において大きく減衰しているため、グラフ94の周波数f1においても、音声スペクトルX2が音声スペクトルX1よりも大きくなっている。
例えば図21における音源分離部83は、音声スペクトルの大小関係に基づき音源を分離するため、伝達関数の減衰等により大小関係が逆転すると、音源が正しく分離できず、音声ファイルの品質劣化の原因となる。
図23は自動利得調整を行った場合の音声処理を表すものである。図23において、グラフ95は図22におけるグラフ94と同一の条件で取得された音声スペクトルである。グラフ96は自動利得調整装置17により利得調整を行った後の音声スペクトルである。グラフ95の周波数f1において、音声スペクトルX2が音声スペクトルX1よりも大きくなっているが、グラフ96では利得調整により周波数f1における音声スペクトルX1が他の周波数における大小関係と同様に音声スペクトルX2よりも大きくなっている。グラフ97は利得調整後の音声スペクトルに対し音源分離処理を行った結果を示す。利得調整により音声スペクトルの大小関係を正常な状態に修正したことにより、グラフ97の通り歪の無い音声スペクトルを抽出することが出来る。
なお、前述した利得調整処理をコンピュータに実行させるコンピュータプログラム、およびそのプログラムを記録した、非一時的なコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、非一時的なコンピュータ読み取り可能な記録媒体は、例えばSDメモリカードなどのメモリカードである。なお、前記コンピュータプログラムは、前記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。
1、2:マイク
3:音声収集システム
12:コンピュータ
13:サーバ
14:演算処理部
15、16:AD変換部
17:自動利得調整装置
18:音源処理部
19:音声ファイル変換部
20、21:周波数変換部
22:発話状態推定部
23:レベル差推定部
24:利得算出部
25、26:雑音推定部
27、28:利得付加部
29、30:逆変換部

Claims (4)

  1. 複数の出力装置からそれぞれ出力される音声信号を周波数スペクトルにそれぞれ変換する周波数変換部と、
    前記周波数スペクトルの比較結果に基づき、前記周波数スペクトルの推定レベル差値を算出するレベル差推定部と、
    前記周波数スペクトル、および前記推定レベル差値に基づき、前記周波数スペクトルに対する利得をそれぞれ算出する利得算出部と、
    発話者から前記出力装置までの伝達過程における所定周波数での減衰量に対する各周波数での減衰量の比率である、減衰量比を記憶する減衰量比記憶部と、
    を有し、
    前記利得算出部は、前記周波数スペクトル、前記推定レベル差値、および前記減衰量比に基づき前記周波数スペクトルに対する利得を算出する、利得調整装置。
  2. 複数の出力装置からそれぞれ出力される音声信号を周波数スペクトルにそれぞれ変換する周波数変換部と、
    前記周波数スペクトルが単数音源からの音声信号を含む区間における前記周波数スペクトルに基づき、前記周波数スペクトルの推定レベル差値を算出するレベル差推定部と、
    前記周波数スペクトル、および前記推定レベル差値に基づき、前記周波数スペクトルに対する利得をそれぞれ算出する利得算出部と、
    前記利得算出部により算出された利得に応じて利得調整された前記周波数スペクトルに対し音源分離処理を実行することにより、前記周波数スペクトルにおいて前記単数音源に所望信号以外の音声信号を含む区間において、前記所望信号を抽出する音声処理部をさらに備える
    利得調整装置。
  3. 複数の出力装置からそれぞれ出力される音声信号の利得を調整する装置の利得調整プログラムであって、前記装置に、
    前記複数の出力装置からそれぞれ出力される前記音声信号を周波数スペクトルにそれぞれ周波数変換し、
    前記周波数スペクトルの比較結果に基づき、前記周波数スペクトルの推定レベル差値を算出し、
    発話者から前記出力装置までの伝達過程における所定周波数での減衰量に対する各周波数での減衰量の比率である減衰量比と、前記周波数スペクトルと、および前記推定レベル差値とに基づき、前記周波数スペクトルの利得を算出する、
    処理を実行させる、利得調整プログラム。
  4. 複数の出力装置からそれぞれ出力される音声信号の利得を調整する装置の利得調整プログラムであって、前記装置に、
    前記複数の出力装置からそれぞれ出力される前記音声信号を周波数スペクトルにそれぞれ周波数変換し、
    前記周波数スペクトルが単数音源からの音声信号を含む区間における前記周波数スペクトルに基づき、前記周波数スペクトルの推定レベル差値を算出し、
    前記周波数スペクトル、および前記推定レベル差値に基づき、前記周波数スペクトルに対する利得をそれぞれ算出し、
    前記算出された利得に応じて利得調整された前記周波数スペクトルに対し音源分離処理を実行することにより、前記周波数スペクトルにおいて前記単数音源に所望信号以外の音声信号を含む区間において、前記所望信号を抽出する、
    処理を実行させる、利得調整プログラム。
JP2016164153A 2016-08-24 2016-08-24 利得調整装置および利得調整プログラム Active JP6844149B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016164153A JP6844149B2 (ja) 2016-08-24 2016-08-24 利得調整装置および利得調整プログラム
US15/672,405 US10014838B2 (en) 2016-08-24 2017-08-09 Gain adjustment apparatus and gain adjustment method
EP17186408.5A EP3288030B1 (en) 2016-08-24 2017-08-16 Gain adjustment apparatus and gain adjustment method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016164153A JP6844149B2 (ja) 2016-08-24 2016-08-24 利得調整装置および利得調整プログラム

Publications (2)

Publication Number Publication Date
JP2018031897A JP2018031897A (ja) 2018-03-01
JP6844149B2 true JP6844149B2 (ja) 2021-03-17

Family

ID=59631662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016164153A Active JP6844149B2 (ja) 2016-08-24 2016-08-24 利得調整装置および利得調整プログラム

Country Status (3)

Country Link
US (1) US10014838B2 (ja)
EP (1) EP3288030B1 (ja)
JP (1) JP6844149B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009259B (zh) * 2018-10-08 2022-09-16 杭州海康慧影科技有限公司 一种音频处理方法和装置
CN110060690B (zh) * 2019-04-04 2023-03-24 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN112929790B (zh) * 2021-01-20 2022-02-01 四川湖山电器股份有限公司 一种单发双收红外话筒音量自适应电路

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3619461B2 (ja) * 2001-02-08 2005-02-09 日本電信電話株式会社 多チャネル雑音抑圧装置、その方法、そのプログラム及びその記録媒体
JP4457221B2 (ja) 2003-08-29 2010-04-28 学校法人早稲田大学 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
JP2007129373A (ja) 2005-11-01 2007-05-24 Univ Waseda マイクロフォン感度調整方法およびそのシステム
JP2007266937A (ja) * 2006-03-28 2007-10-11 Pioneer Electronic Corp 案内音声ミキシング装置
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
JP4906908B2 (ja) * 2009-11-30 2012-03-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
JP5645393B2 (ja) * 2009-11-30 2014-12-24 キヤノン株式会社 音声信号処理装置
KR101670313B1 (ko) * 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
JP5532518B2 (ja) * 2010-06-25 2014-06-25 ヤマハ株式会社 周波数特性制御装置
WO2012023268A1 (ja) 2010-08-16 2012-02-23 日本電気株式会社 多マイクロホン話者分類装置、方法およびプログラム
KR101305373B1 (ko) * 2011-12-16 2013-09-06 서강대학교산학협력단 관심음원 제거방법 및 그에 따른 음성인식방법
US9674607B2 (en) 2014-01-28 2017-06-06 Mitsubishi Electric Corporation Sound collecting apparatus, correction method of input signal of sound collecting apparatus, and mobile equipment information system

Also Published As

Publication number Publication date
EP3288030B1 (en) 2019-08-07
JP2018031897A (ja) 2018-03-01
EP3288030A1 (en) 2018-02-28
US20180062597A1 (en) 2018-03-01
US10014838B2 (en) 2018-07-03

Similar Documents

Publication Publication Date Title
KR100860805B1 (ko) 음성 강화 시스템
US8473291B2 (en) Sound processing apparatus, apparatus and method for controlling gain, and computer program
JP4279357B2 (ja) 特に補聴器における雑音を低減する装置および方法
GB2577824A (en) Earbud speech estimation
KR100883712B1 (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
US8509451B2 (en) Noise suppressing device, noise suppressing controller, noise suppressing method and recording medium
US9082411B2 (en) Method to reduce artifacts in algorithms with fast-varying gain
US8126176B2 (en) Hearing aid
US8391471B2 (en) Echo suppressing apparatus, echo suppressing system, echo suppressing method and recording medium
JP6668995B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP6844149B2 (ja) 利得調整装置および利得調整プログラム
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN112272848A (zh) 使用间隙置信度的背景噪声估计
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
CN111508512A (zh) 语音信号中的摩擦音检测
JP2008005094A (ja) エコー抑圧方法、装置、エコー抑圧プログラム、記録媒体
JP5076974B2 (ja) 音処理装置およびプログラム
JP4478045B2 (ja) エコー消去装置、エコー消去方法、エコー消去プログラムおよびその記録媒体
JP7013789B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2005157086A (ja) 音声認識装置
CN112133320A (zh) 语音处理装置及语音处理方法
JP2017009657A (ja) 音声強調装置、および音声強調方法
JP6729186B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
CN115240700B (zh) 一种声学设备及其声音处理方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20180528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200518

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201218

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20201218

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210104

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210208

R150 Certificate of patent or registration of utility model

Ref document number: 6844149

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150