JP2018006826A - 音声信号処理装置および音声信号処理方法 - Google Patents

音声信号処理装置および音声信号処理方法 Download PDF

Info

Publication number
JP2018006826A
JP2018006826A JP2016126937A JP2016126937A JP2018006826A JP 2018006826 A JP2018006826 A JP 2018006826A JP 2016126937 A JP2016126937 A JP 2016126937A JP 2016126937 A JP2016126937 A JP 2016126937A JP 2018006826 A JP2018006826 A JP 2018006826A
Authority
JP
Japan
Prior art keywords
processing
audio signal
unit
sound
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016126937A
Other languages
English (en)
Other versions
JP2018006826A5 (ja
JP6818445B2 (ja
Inventor
恭平 北澤
Kyohei Kitazawa
恭平 北澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016126937A priority Critical patent/JP6818445B2/ja
Priority to US15/630,723 priority patent/US10219076B2/en
Publication of JP2018006826A publication Critical patent/JP2018006826A/ja
Publication of JP2018006826A5 publication Critical patent/JP2018006826A5/ja
Application granted granted Critical
Publication of JP6818445B2 publication Critical patent/JP6818445B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • H04R29/002Loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Abstract

【課題】 リアルタイム再生においても所定の音声を欠損させない音声信号処理装置を提供すること。
【解決手段】 音声信号処理装置は、複数のエリアを有する空間において収音する収音手段と、収音した複数のエリアの音声の音声信号に所定の処理を行う処理手段と、所定の条件に基づいて当該複数のエリアの音声信号の処理順序または音声再生部への音声信号の送信順序を設定する設定手段と、設定された前記処理順序または送信順序に従って、前記処理または音声信号送信を行う制御手段と、を備える。
【選択図】 図1

Description

本発明は音声信号処理装置および音声信号処理方法に関する。
従来、空間を複数のエリアに分割してエリアごとの音声を取得(収音)する技術が知られている(特許文献1)。近年では、より指向性の高い収音技術が提案され、遠方の音声をクリアに録音・強調することが可能になってきている(特許文献2)。特許文献2のように、より指向性が鋭く、遠距離の音声まで録音可能なマイクを使って目的エリアの収音をすると、かなり広範囲な空間を細かいエリアに分けて収音することが可能になる。
特開2014−72708号公報 特開2012−165189号公報
しかしながら、広範囲な空間を細かいエリアに分割してエリアごとに収音すると、収音エリア数が多くなる。エコー除去やノイズ除去などの音声信号処理は収音エリアごとに行うので、収音エリア数が増加すると、音声信号処理量も増加する。収音エリア数が多い場合に、収音した音声をリアルタイム再生しようとすると、音声信号処理が間に合わず音声データが欠損してしまう(音声が途切れてしまう)可能性がある。
本発明は上記した従来技術の課題を解決するために考案されたものであり、音声信号処理終了までの時間が限られているリアルタイム再生においても所定(所望)の音声を欠損させない音声信号処理装置を提供することを目的とする。
本発明の1つの態様によれば、複数のエリアを有する空間において収音する収音手段と、収音した複数のエリアの音声の音声信号に所定の処理を行う処理手段と、所定の条件に基づいて当該複数のエリアの音声信号の処理順序または音声再生部への音声信号の送信順序を設定する設定手段と、設定された前記処理順序または送信順序に従って、前記処理または音声信号送信を行う制御手段と、を備える音声信号処理装置が提供される。
本発明によれば、所定の条件に基づいて設定した順序で音声信号の処理または送信を行うので、リアルタイム再生においても所定(所望)の音声が欠損することはない。
実施形態1の音声信号処理装置の機能構成を示すブロック図。 実施形態1の音声信号処理を示すフローチャート。 実施形態1の音声信号処理装置のハードウェア構成を示すブロック図。 実施形態2の音声信号処理システムの構成を示すブロック図。 実施形態2の音声信号処理を示すフローチャート。 実施形態3の撮影処理システムの構成を示すブロック図。 実施形態3における音声の分離状況を説明する図。 実施形態3の音声信号処理を示すフローチャート。
以下、本発明の音声信号処理装置の実施形態を、添付図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。実施形態の構成は、本発明が適用される装置の仕様や各種条件(使用条件、使用環境等)によって適宜修正又は変更され得る。なお、以下の記載においては、同一の構成については、同じ符号を付して説明する。本明細書において、音声とは、人の発する声に限定されず、人や動物の声はもとより楽音や環境音などの音一般を意味する。
実施形態1
実施形態1の音声信号処理装置は、音響システムの一部であるとして説明をする。音響システムは、例えばスポーツ中継などにおいて、リアルタイム放送(生放送)と、リアルタイム放送とは異なる視点(カメラの向き)のリプレイ放送とを行う中継システムに用いられる音響システムである。
(音声信号処理装置の構成)
図1は音声信号処理装置10の構成を示す機能ブロック図である。音声信号処理装置10は、マイクアレイ11、音源分離部12、処理順序制御部13、音声信号処理部14、記憶部15、リアルタイム再生用信号生成部16およびリプレイ再生用信号生成部17を有する。音声信号処理装置10の各構成要素は、バス18により相互接続されている。音声信号処理装置10は、有線または無線により、再生装置19に接続されている。
マイクアレイ11は複数のマイクロホンからなる。マイクアレイ11は、音源分離部12に接続されている。マイクアレイ11は、空間の音声をマイクロホンで収音し、収音した音声の音声信号をA/D変換したのち、音源分離部12へ出力する。マイクアレイ11は、収音部である。
音源分離部12は、マイクアレイ11から入力された音声信号を用いて空間をN(N>1)のエリアに分割するように音源分離処理を行う。音源分離処理は、処理フレームごと、つまり所定の時間(時間間隔、時間単位)ごとに行われる。音源分離部12は、例えば前記所定の時間ごとにビームフォーミング処理を行い、エリア(a)ごとの音声信号を取得する。取得した音声信号は、時間(t)情報と共に処理順序制御部13へ出力される。
処理順序制御部13は、音源分離部12から時間(t)およびエリア(a)ごとの音声信号S(t,a)を受け取る。処理順序制御部13は、音声信号S(t,a)から取得した時間およびエリアの情報に基づいて、音声信号処理部14における時間およびエリアごと音声信号処理の順番(順序)を制御する信号を出力する。例えば、処理順序制御部13は、取得した時間の音声について隣接するエリア同士を比較し、あるエリアの音声信号が隣接するエリアの音によってマスキングされるか否かを判定する。判定の結果、マスキングされてしまうエリアについて、処理順序制御部13は、音声信号処理の順序を遅らせるように設定する。本実施形態では、マスキングされるエリアは重要度(優先度)が低いと考える。つまり、処理順序制御部13は、複数のエリアについて優先度を決定し、優先度の高いエリアの音声信号処理順序を早くし(優先し)、優先度の低いエリアの音声信号処理を遅くするという設定をする。処理順序制御部13は、処理順序を設定する手段である。処理順序は、重要度(優先度)の高い方から低い方へ設定される。処理順序制御部13は、マスキングされるかどうかという所定の条件に基づいて、エリアごとの音声信号の処理順序を設定している。
音声信号処理部14は、例えばマイクロプロセッサなどの処理装置からなる。音声信号処理部14は、処理順序制御部13の出力信号(音声信号処理の順序を制御・設定する信号)を受け取る。また、音声信号処理部14は、音声信号処理装置10の処理量(負荷状態)を逐次モニタリングする。音声信号処理部14は、時間およびエリアごとの音声信号を、音声信号処理の順序の制御信号(設定信号)に従って処理する。音声信号処理部14で行われる処理は、例えば収音部(マイクアレイ11)からエリアまでの距離による影響を補正するための遅延補正処理、ゲイン補正処理、エコー除去処理などを含む。本実施形態において、音声信号処理部14で行われる複数の処理(遅延補正処理、ゲイン補正処理、エコー除去処理など)の順序は、固定されているとする。
(処理装置の処理量が所定量より小さい場合)
処理装置の処理量(負荷)が所定量より小さい場合、ある処理フレームの全エリアの音声信号の処理が所定時間内に終了可能である。この場合、音声信号処理部14は、全エリアについてすべての処理をした音声信号を、リアルタイム再生用信号生成部16および記憶部15へ出力する。ある処理フレームの全エリアの音声信号の処理が音声信号処理部14において所定時間内に終了可能であれば、リアルタイム再生用信号生成部16は全エリアについてすべての処理がなされたリアルタイム再生用信号を生成することができる。
(処理装置の処理量が所定量以上の場合)
処理装置の処理量が所定量以上の場合、ある時間(ある処理フレーム)の全エリアの音声信号を処理すると、リアルタイム再生用信号が生成できなくなる。処理装置の処理量が所定量以上である場合、音声信号処理部14は以下のような信号処理を行う。
音声信号処理部14ではリアルタイム再生までの残時間と、各処理終了までにかかる時間などを管理している。各処理に係る時間は処理装置の負荷に応じて変化するため、処理終了までの時間は処理装置の負荷に応じて変化する。リアルタイム再生までの残時間よりも処理終了までの時間が長くなってしまった場合、音声信号処理部14は一部の処理を行っていないエリアの音声信号をリアルタイム再生用信号生成部16および記憶部15へ出力する。リアルタイム再生までの残時間よりも処理終了までの時間が長くなってしまった場合とは、すべての処理を行うとすると、リアルタイム再生に間に合わない場合である。この場合、処理順序制御部13が設定した処理順序に従って、重要度(優先度)の高い順に、リアルタイム再生に間に合う範囲で(リアルタイム再生に間に合うと判定されたエリアについて)、すべての処理が行われる。そして、処理後の音声信号がリアルタイム再生用信号生成部16および記憶部15へ出力される。一方、リアルタイム再生に間に合わないと判定されたエリアについては、一部の処理を行わずにリアルタイム再生用信号生成部16および記憶部15へ出力される。一部の処理を行わないとは、例えば、3つの処理を行うべきであったのに、1つの処理が行われないことを意味する。3つの処理には優先順位が付けられており、処理が間に合わない場合には、後段の処理から処理を行わないようにする。行われなかった処理の情報は処理待ちリストに記録される。例えば処理待ちリストには処理が行われなかったエリア、時間、そして行われなかった処理の内容が記載される。
音声信号処理部14は、すべてのエリアの処理がリアルタイム再生に間に合うか否かを判定しているので、所定時間内にすべてのエリアの音声信号の処理が実行可能か否かを判定していると言える。また、所定時間内にすべてのエリアの音声信号の処理が実行できない場合、処理が実行できなかったエリアの情報は、記憶部15に記憶される。
音声信号処理部14では処理負荷に余裕ができた時点で記憶部15から上述した処理待ちリストに基づき、一部処理を行っていないエリアの音声信号を取得し、残りの処理を施し、記憶部15へ出力する。処理が終わったものについては処理待ちリストから削除される。
記憶部15は、例えばHDD、SSD、メモリのような記憶装置で、音声信号処理部14から出力された音声信号を時間とエリアに対応づけて記憶する。
リアルタイム再生用信号生成部16は、音声信号処理部14から得たエリアごとの音声をミキシングすることでリアルタイム再生用の信号を生成し、当該信号を再生装置19に出力する。例えば、リアルタイム再生用信号生成部16は、外部から時間に応じて変化する空間内の仮想の聴取点(聴取者の位置)と、仮想の聴取者の向きと、再生環境の情報とを取得し音源のミキシングを行う。再生環境とは、例えば、リアルタイム再生用信号生成部16で生成した信号を再生する再生装置19の種類(スピーカか、ヘッドホンかなど)を意味する。
リプレイ再生用信号生成部17は、時刻を指定されてリプレイ再生が要求された場合に、該当する時刻の音声データを記憶部15から取得し、リアルタイム再生用信号生成部16と同様の処理を行い出力する。つまり、リプレイ再生用信号生成部17は、記憶部15から得たエリアごとの音声信号をミキシングすることでリプレイ再生用の信号を生成し、当該音声信号を再生装置19に出力する。
(音声信号処理のフロー)
図2(A)から図2(C)は、本実施形態の音声信号処理装置10が実行する処理を示すフローチャートである。
図2(A)は、収音からリアルタイム再生用信号を生成するまでのフローを示す。図2(A)に示されているように、はじめに、マイクアレイ11により、空間内の音声の収音が行われる(S1)。収音された各チャンネルの音声の音声信号は、マイクアレイ11から音源分離部12へ出力される。
次に、音源分離部12は、あらかじめ設定された境界(前記空間を分割するための情報)に基づき前記空間を分割したエリアごとの音源を取得するための音源分離を行う(S2)。分離されたエリアごとの音声信号は、音源分離部12から処理順序制御部13へ出力される。
次に、処理順序制御部13は、分離音解析(S3)および処理順序設定(S4)を行う。より詳しくは、処理順序制御部13による分離音解析(S3)では、入力されたエリアごとの音声信号を用いて、対象エリアの音声信号とその周辺エリアの音声信号との比較を行い、対象エリアの音声が周辺エリアの音声にマスキングされるか否かを解析・判定する。この解析の結果に基づいて、処理順序制御部13による処理順序設定(S4)では、エリアごとの音声信号の処理順序が設定される。処理順序を設定されたエリアごとの音声信号は、処理順序制御部13から音声信号処理部14へ出力される。処理順序設定は、処理順序制御と称してもよい。
続いて、音声信号処理部14は、入力されたエリアごとの音声信号の処理がリアルタイム出力(再生)に間に合うか否かを判定する(S5)。より詳しくは、音声信号処理部14は、音声信号処理装置10の負荷状態を逐次モニタリングし、負荷状態に応じてリアルタイム出力に間に合うか否かを判定する(S5)。つまり、S5において、音声信号処理部14は、信号処理の処理量が所定量以上であるかを判定する。音声信号処理装置10の負荷が軽く処理が間に合う場合(S5:Yes)、音声信号処理部14は、全てのエリアに対応する音声信号に対して処理を行う。S6では全てのエリアに対応する音声信号に対して処理を行うので、図2(A)のS6は「全部処理」と記載してある。その後、音声信号処理部14は、処理後の音声信号をリアルタイム再生用信号生成部16および記憶部15へ出力する。音声信号処理装置10の負荷が軽い場合とは、負荷が所定量より低い場合のことである。処理が(リアルタイム再生に)間に合うとは、処理が所定時間内に終了することである。
S5の判定がNoの場合、音声信号処理部14は、処理順序制御部13で設定された順序に基づいて処理順序が遅い一部のエリアの音声信号は処理を行わずに、音声信号をリアルタイム再生用信号生成部16と記憶部15へ出力する(S9)。それとともに処理が行われなかったエリアの情報は処理待ちリストに記録される。図2(A)では、S5の判断がNoの場合、一部のエリアの音声は処理を行わないので、S9は「一部を除いた処理」と記載している。S9では、リアルタイム再生に間に合う範囲で、処理順序の早い順に処理を行うので、処理順序が早いエリアの音声信号にはすべての処理が実行される。
S6またはS9の後、リアルタイム再生用信号生成部16により、リアルタイム再生用の音声のミキシングが行われる(S7)。リアルタイム再生用にミキシングされた音声(信号)は、リアルタイム再生用信号として、外部の再生装置19に出力される。なお、リアルタイム再生用信号は、再生装置19に出力せずに、放送用信号として音声信号処理装置10から他の機器に出力(送信)されてもよい。
その後、記憶部15により、入力された各エリアの音声信号の記録が行われる(S8)。
なお、リプレイ再生用の音声信号は、記憶部15のエリアごとの音声信号を用いて作成される。
次に、図2(B)を用いて、図2(A)のS9の後に、音声信号処理装置10の負荷が小さくなった場合の処理を説明する。より詳しくは、リアルタイム再生に処理が間に合わなかったために、一部の処理が行われていないエリアの音声信号が記憶部15に記録された後に、音声信号処理装置10の負荷が減少した場合の処理を説明する。一部の処理が行われていない例として、遅延補正処理、ゲイン補正処理およびエコー除去処理を行うべきであったが、エコー除去処理が行われていない場合を説明する。
音声信号処理部14は、音声信号処理装置10の負荷が所定量より小さくなると、処理待ちリストに基づいて記憶部15から未処理状態のエリアの音声信号の読み出しを行う(S11)。このステップは、一部のエリアの信号処理であるので、図2(B)では「一部読み出し」と記載してある。
続いて、音声信号処理部14は、処理待ちリストに記録されている処理(音声信号処理部14において実施されていなかったエコー除去処理)を行う(S12)。本実施形態では、遅延補正処理およびゲイン補正処理は行われているがエコー除去処理が行われていなかったエリアの音声信号に対して、エコー除去処理のみを行う。エコー除去処理が行われた音声信号は、記憶部15へ出力される。
記憶部15は、入力されたエリアの音声信号を以前のデータ(音声信号)に上書きし記録する(S13)。
図2(C)は、リプレイ再生が要求された場合の処理フローを示している。リプレイ再生が要求されると、リプレイ再生用信号生成部17は、記憶部15からリプレイ時間に対応したエリアごとの音声信号を読み出す(S21)。
続いてリプレイ再生用信号生成部17は、リプレイ再生用の音声信号のミキシングを行う(S22)。リプレイ再生用にミキシングされた音声信号は、再生装置19へ出力されるか放送用信号として他の機器に出力される。
(実施形態1の効果)
以上説明したように、本実施形態の音声信号処理装置10は、エリアごとの音声信号に基づいてエリアごとの信号処理順序を制御(設定)することで、重要度(優先度)の高いエリアに対して確実に音声処理を行いリアルタイム放送することができる。より詳しくは、音声信号処理部14における信号処理の処理量が所定量以上である場合、従来の手法では、リアルタイム再生時に音声が欠損する可能性があった。これに対し、本実施形態では、音声信号処理部14における信号処理の処理量が所定量以上である場合、リアルタイム再生に間に合う範囲で、処理順序が早い順に音声信号処理部14による信号処理を全部行って、音声信号を音声再生部に供給している。よって、重要度の高いエリアについてはすべての音声処理を行って、リアルタイム再生されるようにしている。
また、本実施形態では、リアルタイム再生時にはすべての音声処理が間に合わなかったエリア(重要度の低いエリア)に対しても、後にすべての音声処理を行うので、リプレイ再生時には、完全に音声処理された音声信号を使って再生音を生成できる。
(変形例)
なお、本実施形態においてマイクアレイ11はマイクロホンからなるとしたが、マイクロホンと反射板などの構造物との組み合わせからなってもよい。
またマイクアレイ11で使用するマイクロホンは、無指向性マイクロホンであってもよいし、指向性マイクロホンであってもよいし、それらの組み合わせでもよい。つまり、マイクアレイ11は、少なくとも1つの指向性マイクホンを含んでよい。
本実施形態において音源分離部12はビームフォーミングを用いてエリアごとの音声収音を行ったが、その他の音源分離の手法を用いてもよい。例えばエリアごとのパワースペクトル密度(PSD)を推定し、推定したPSDに基づいてウィナーフィルタによる分離を行ってもよい。PSDは、Power Spectral Densityの略である。
本実施形態において処理順序制御部13は、対象エリアと隣接エリアと比較した場合のマスキングに応じて処理順序を設定したが、処理順序の設定には他の情報・条件を用いてもよい。例えば、イベントの発生するエリアが早く処理されるように設定してもよい。より具体的には、スポーツならゴールの付近が早く処理されるように設定してよいし、街中ならば交差点の付近等多くの人や車が通過する場所が早く処理されるように設定してもよい。あるいは、エリアからの収音により取得した音声信号の特徴に基づいて処理順序を設定してもよい。例えば、音声信号処理装置10は、エリアの収音信号(音声信号)に人の声を表す音声信号が含まれているか否かを判定する手段を備え、人の声の有無に応じて処理順序を早くする(優先する)ようにしてもよい。あるいは、エリアの収音信号(音声信号)のレベル同士を比較し、比較結果に基づいて、レベルの高いエリアの音声信号の処理順序を早くするようにしてもよい。
あるいはリアルタイム再生用信号生成で設定される仮想の聴取点(仮想の聴取者の位置)および仮想の聴取者の向きに応じて処理順序を制御(設定)するようにしてもよい。例えば、仮想の聴取点からの距離が近いエリアの収音信号ほど処理の順序を早くしてもよい。またマスキングの影響を比較する場合、隣接するエリアと比較するのではなく、聴取点と聴取者の向きから所定の角度範囲を設定してその中のエリアに対してマスキングの影響を比較するようにしてもよい。その際、仮想の聴取点からの距離に応じて遅延補正や音量補正を行った後マスキングの比較をするとよい。この場合、音声信号処理装置10は、マイクアレイ11からそれぞれのエリアまでの距離を取得する距離取得部を備える。
また本実施形態において処理順序制御部13は複数の処理(遅延補正、ゲイン補正、エコー除去処理など)に対して同一の処理順序を設定した(処理順序は固定されていた)が、収音状況(長距離収音、短距離収音等)に応じて異なる処理順序を設定してもよい。一般に、マイクアレイから収音エリアまでの距離が遠い(長い)ほどエコーの影響が強いと考えられる。したがってマイクアレイから収音エリアまでの距離が遠いときは(長距離収音)、遅延補正処理やゲイン補正処理よりもエコー除去処理の順序を早くするという設定をする。しかしながら、マイクアレイから収音エリアまでの距離が近いときは(短距離収音)、エコー除去処理の処理順序は遅くしてもよい。その場合、エリアに対する遅延補正処理やゲイン補正処理などはエコー除去処理よりも処理順序が早くなるように設定する。さらに上述のような複数の条件に応じて、複合的に処理順序を決定してもよい。
本実施形態において音声信号処理部14は、遅延補正処理、ゲイン補正処理およびエコー除去を行うとしたが、他の処理も行ってもよい。例えば、音声信号処理部14は、エリアごとの雑音除去処理などを行ってもよい。
また、上記した実施形態では、音声信号処理部14の処理量が所定量以上の場合、処理順序の遅いエリアについては一部の処理を行わないという説明をしたが、すべての処理を行わないようにしてもよい。
本実施形態においてリプレイ再生用信号生成部17とリアルタイム再生用信号生成部16は同様の処理(ミキシング)を行うとした。しかしリプレイ再生用信号生成部17とリアルタイム再生用信号生成部16では異なるミキシングをしてもよい。例えば、リアルタイム再生用信号生成部16には音声信号処理部14において処理を行っていない音声が入力される可能性があるため、リアルタイム再生用信号生成部16は、処理の実施済みか否かに応じてミキシングのレベル(クオリティ)を変えてもよい。例えば処理を行っていない音声が入力された場合、アルタイム再生用信号生成部16はミキシングのレベルを下げてもよい。
図1の構成ではマイクアレイ11が音声信号処理装置10に含まれているが、マイクアレイ11は音声信号処理装置10に含まれなくてもよい。その場合、音源分離部12は外部装置であるマイクアレイ11から音声信号を受け取る。
(ハードウェア構成)
図1に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、たとえば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。さらに、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
図3は音声信号処理装置10のハードウェア構成の一例を示す図である。この例において、音声信号処理装置10は、CPU10a、RAM10b、ROM10c、外部メモリ10d、通信インターフェース(I/F)10e、表示部10f、入力部10g及びマイクアレイ11を有する。CPU10aは、RAM10b、ROM10c、外部メモリ10d等に格納されたプログラムを実行することにより、上記した実施形態1の音声信号処理装置10の各部の機能を実現することができる。音声信号処理装置10は、CPU10aが必要なプログラムを読み出して実行することにより、図2に示す各処理を実現することができる。通信I/F10eは、外部の装置や機器との通信を行うインターフェースである。音声信号処理装置10は、通信I/F10eを介して、図1の再生装置19と通信することができる。表示部10fは、各種ディスプレイにより構成することができる。表示部10fは、例えば、音源分離処理の分離状況を表示することができる。入力部10gは、キーボード、ポインティングデバイス(マウスなど)、タッチパネルおよび各種スイッチにより構成することができる。ユーザは、入力部10gを用いて、音声信号処理装置10にリプレイ再生を要求することができる。なお、音声信号処理装置10は、エリア内に存在する被写体の撮像を行う撮像部をさらに備えてもよい。
実施形態2
実施形態1ではマイクアレイ11と音声信号処理部14とリアルタイム再生用信号生成部16とリプレイ再生用信号生成部17とが1つの装置10に含まれる構成を説明したが、本発明はこのような構成に限定されない。例えば、マイクアレイと音声信号処理部とを1つの装置に含むようにし、再生用信号生成部は当該装置から分離した構成(システム)でも実施することができる。また、マイクアレイは指向性マイクアレイを採用してもよい。指向性マイクアレイで収音した音声の音声信号は、直ちに、音声信号処理部で処理してもよい。このような構成を有する音声信号処理システムを、実施形態2として説明する。なお、実施形態1と同様な構成部には同じ参照符号を付ける。
(音声信号処理システム20の構成)
図4は実施形態2の音声信号処理システム20の構成を示すブロック図である。音声信号処理システム20は、収音処理部20aと再生信号生成部20bとを有する。収音処理部20aと再生信号生成部20bは、有線もしくは無線で相互接続されており、互いに有線通信手段もしくは無線通信手段によってデータの送受信を行う。
収音処理部20aは、指向性マイクアレイ21、音声信号処理部22、伝送順序(送信順序)制御部23、送信部24および第1記憶部25を有する。第1記憶部25は未送信リストを保持している。収音処理部20aの各構成部は、バス18aにより相互接続されている。
指向性マイクアレイ21は、例えば複数のショットガンマイクなどからなり、空間をN(N>1)のエリアに分割した各エリアの音声を収音するように配置される。収音したエリアごとの音声は、A/D変換されたのち、所定の時間フレームサイズごとに音声信号処理部22へ出力される。
音声信号処理部22は、実施形態1の音声信号処理部14のように遅延補正処理、ゲイン補正処理、雑音除去処理およびエコー除去処理などを行う。処理を行ったエリアごとの音声信号は、音声信号処理部22から伝送順序制御部23へ出力される。
伝送順序制御部23は、実施形態1の処理順序制御部13と同様に、エリアの音声のマスキングの影響や、エリアの音声のレベル(大小)、エリアの音声の特徴量、エリアの音声の定常性などから伝送順序を制御(設定)する。伝送順序制御部23は、たとえば、時間tおよびエリアaにおける音声信号S(t,a)の非定常性を判定する。所定の時間区間内に非定常音が発生している場合、伝送順序制御部23は、そのエリアにおいて重要なイベントが発生している可能性が高いと判断し、非定常音の頻度が大きい順に伝送を行うように伝送順序を設定する。つまり、非定常音の頻度が大きいエリアは重要度(優先度)が高いエリアであると考える。本実施形態の伝送順序制御部23は、非定常音の頻度の大きさという所定の条件に基づいて、複数のエリアについて優先度を決め、優先度の高いエリアの伝送順序を早くし(優先し)、優先度の低いエリアの伝送順序を遅くするという設定をする。
さらに、伝送順序制御部23は、収音処理部20aと再生信号生成部20bとの間の信号伝送量と、設定された伝送順序(音声信号送信の順序)とに基づいて、音声信号S(t,a)がリアルタイム再生(放送)に間に合うか否かをエリアごとに判定する。この判定は、例えば、収音処理部20aと再生信号生成部20bとの間の信号伝送量が所定量以上いか否かにより行われる。リアルタイム再生に間に合うと判定されたエリアの音声信号は、伝送順序制御部23から送信部24へ出力される。一方、間に合わないと判定されたエリアの音声信号(信号伝送量が所定量以上の場合であって、伝送順序が遅いエリアの音声信号)は、伝送順序制御部23から第1記憶部25へ出力される。送信されなかった音声データは、第1記憶部25内の未送信リストで管理(記憶)される。つまり、送信部24からの音声信号の送信量が所定量以上である場合、送信順序が遅いエリアについては、送信部24による送信を行わないようにしている。
収音処理部20aと再生信号生成部20bとの信号伝送量が所定量よりも小さくなると、伝送順序制御部23は、第1記憶部25に記憶された未送信のエリアの音声信号を読み出し、送信部24へ出力する。
送信部24は、伝送順序制御部23から入力されたエリアごとの音声信号を再生信号生成部20bへ順次送信する。再生信号生成部20bは音声再生部と称することができる。
再生信号生成部20bは、受信部26、リアルタイム再生用信号生成部27、第2記憶部28およびリプレイ再生用信号生成部29を有する。再生信号生成部20bの各構成部は、バス18bにより相互接続されている。
受信部26は、送信部24から出力された音声信号を受信し、音声信号をリアルタイム再生用信号生成部27および第2記憶部28へ出力する。
リアルタイム再生用信号生成部27、第2記憶部28およびリプレイ再生用信号生成部29は、実施形態1のリアルタイム再生用信号生成部16、記憶部15およびリプレイ再生用信号生成部17とほぼ同様の機能を有するので、説明を省略する。
(音声信号処理システム20の処理フロー)
次に、音声信号処理システム20の処理フローを、図5(A)から図5(C)を参照して説明する。
図5(A)に示すように、はじめに、指向性マイクアレイ21において空間内の音の収音が行われる(S31)。収音された各エリアの音声の音声信号は、指向性マイクアレイ21から音声信号処理部22へ出力される。
入力された音声信号に対して、音声信号処理部22は遅延補正などの処理を行う(S32)。処理された音声信号は、音声信号処理部22から伝送順序制御部23へ出力される。
伝送順序制御部23は、入力された処理済み音声信号を用いてエリアごとの音声の非定常性の検出(検知)を行う(S33)。つまり、伝送順序制御部23において、エリアごとの音声信号に非定常音を表す音声信号が含まれているか否かを検知する非定常音検知が行われる。
また、伝送順序制御部23は、S33の非定常音検知の結果に応じて伝送順序を設定する(S34)。伝送順序制御部23は、例えば、非定常音が検知されたエリアについて伝送順序が早くなるよう(優先されるよう)にエリアごとの音声信号の伝送順序を設定する。
さらに、伝送順序制御部23は、処理済の音声信号の伝送がリアルタイム再生に間に合うかの判定(S35)を行う。より詳しくは、エリアごとの(に)順番が設定されたデータ(音声信号)について、伝送順序制御部23は、送信部24と受信部26との間の通信負荷状態に応じて、音声信号の伝送完了までの時間を推定し、リアルタイム再生に間に合うか否かを判定する。判定結果に基づいて、リアルタイム再生に間に合うと判定された場合、当該エリアの音声データ(音声信号)は伝送順序制御部23から送信部24へ出力される。そして、送信部24は、エリアの音声データを受信部26に送信する(S36)。
受信部26は、送信部24から送信されたエリアの音声信号を受信する(S37)。受信されたエリアの音声信号は、受信部26からリアルタイム再生用信号生成部27および第2記憶部28へ出力される。
S38およびS39は、実施形態1のS17およびS18(図2)と同様のため、説明は省略する。
一方、S35において処理済の音声信号の伝送(音声信号送信)がリアルタイム再生に間に合わないと判定された場合、当該エリアの音声データ(音声信号)は、伝送順序制御部23から第1記憶部25へ出力され、第1記憶部25に記録される(S40)。音声データは、第1記憶部25において、処理フレーム番号(もしくは時間)、どのエリアの音であるか等が分かるように記録される。つまり第1記憶部25内で、音声データは所定の情報と紐づけられて記録(記憶)される。
次に、図5(A)のステップS35において処理音声伝送がリアルタイム再生に間に合わなかった場合で、当該エリアの音声信号が第1記憶部25に記録された場合の処理を図5(B)に基づいて説明する。
伝送順序制御部23は、送信部24と受信部26との間の伝送負荷が所定量より小さくなると、第1記憶部25から未送信のエリアの音声信号の読み出しを行う(S41)。読み出しは、音声信号のフレーム番号の小さいものから行う。つまり、読み出しは、より古い時間の音声信号から行う。読み出された音声信号は、伝送順序制御部23から送信部24へ出力される。
S42はS36と同様のため説明を省略する。
S42の後、受信部26において音声データを受信する(S43)。受信した音声データは、受信部26から第2記憶部28に出力される。
S44はS39と同様のため説明を省略する。
リプレイ再生が要求された場合の処理フローは図5(C)に示されている。この処理フローのS51とS52は実施形態1のS21とS22(図2(C))と同様のため説明を省略する。
(実施形態2の効果)
以上説明したように、実施形態2では、エリアごとの音声信号の非定常性(非定常音の発生頻度)に基づいて音声信号の伝送順序を制御・設定することで、より重要度の高いエリアに対して、確実に音声処理を行った音声信号でリアルタイム放送することができる。より詳しくは、送信部24から受信部26への信号送信量が所定量以上である場合、従来の手法ではリアルタイム再生時に音声が欠損する可能性がある。これに対し、本実施形態では、リアルタイム再生に間に合う範囲で、設定された送信順序に従って音声信号を送信部24から送信している。そして、送信順序が遅いエリアについては送信部24による送信を行わないようにしている。よって、重要度の高いエリア(送信順序が早いエリア)については、確実に音声信号が受信部26により受信されてリアルタイム再生用信号生成部27に届くようになっている。このように、実施形態2の信号処理システム20では、重要度の高い音声信号はリアルタイム再生に間に合うように音声再生部に送信される。
また、本実施形態では、リアルタイム再生には伝送(送信)が間に合わなかったエリア(重要度の低いエリア)に対しても、後に音声信号を受信部26に送信するので、リプレイ再生時には、すべてのエリアの音声信号音を使って再生音を生成できる。
(変形例)
なお、実施形態2ではエリアごとの音声の収音には指向性マイクアレイ21を用いたが、実施形態1のようにマイクアレイを用いて収音した後、音源分離を行ってもよい。また、無指向性のマイクロホンを、設定したエリアそれぞれの略中心に配置して音声を取得するようにしてもよい。
図4の構成では指向性マイクアレイ21が収音処理部20aに含まれているが、指向性マイクアレイ21は収音処理部20aに含まれなくてもよい。その場合、音声信号処理部22は外部装置である指向性マイクアレイ21から音声信号を受け取る。
実施形態3
実施形態1では音声信号のみを処理する音声信号処理装置を説明したが、本発明は音声信号と映像信号を処理するシステムでも実施することができる。音声信号処理と映像信号処理が可能なシステムを、撮影処理システムと称して、以下に説明する。なお、本実施形態の撮影処理システムは音声映像出力システムと称することもできる。また、実施形態1と同様な構成部には同じ参照符号を付ける。
図6は撮影処理システム30の構成を示すブロック図である。撮影処理システム30は、音声収音制御装置30aと映像撮影制御装置30bとを有する。音声収音制御装置30aと映像撮影制御装置30bは、バス18により相互接続されている。
音声収音制御装置30aは、マイクアレイ31、分離順序制御部32、音源分離部33、記憶部34、リアルタイム再生用信号生成部35、リプレイ再生用信号生成部36および分離状況表示部37を有する。音声収音制御装置30aの各構成部は、バス18により相互接続されている。
マイクアレイ31は実施形態1のマイクアレイ11と同様であるので、マイクアレイ31の説明は省略する。
分離順序制御部32は、後述する撮像部41が撮像した映像を複数のエリア(例えば、エリアA、B、C、…)に分割し、分割したエリア内に例えば人、車、楽器のような音源となりうる被写体があるか否かを判定する。判定結果に基づいて、分離順序制御部32は、音源分離処理の処理順序を設定する。より詳しくは、エリア内に音源となりうる被写体があった場合、分離順序制御部32は、当該エリアの音源分離処理の処理順序(順番)を早くするように設定する。エリア内に音源となりうる被写体が複数ある場合(例えば、エリア内に人が複数人いる場合)、分離順序制御部32は、被写体の数に応じて音源分離処理の処理順序を早くするように設定する。例えば、エリアAに1人の被写体がいて、エリアBに5人の被写体がいた場合、エリアBの音源分離処理がエリアAの音源分離処理より早くなるように処理順序を設定する。つまり、被写体の数が多いエリアは、音源候補となる物体(者・物)が多いので、重要度(優先度)の高いエリアであると考える。本実施形態の分離順序制御部32は、所定の条件に基づいて、複数のエリアについて優先度を決め、優先度の高いエリアの分離順序を早くし、優先度の低いエリアの分離順序を遅くするという設定をする。
また、分離順序制御部32は、後述するリプレイ設定部44においてリプレイ再生が設定されると、リプレイ再生(放送)の開始時刻、終了時刻、リプレイ放送までの残り時間、リプレイでの視点(カメラの向き)などをリプレイ設定部44から受信する。そして、受信した情報に基づいて、分離順序制御部32は、音源分離処理の処理順序を再設定する。より詳しくは、分離順序制御部32は、後述する未分離リストを参照し、リプレイ開始からリプレイ終了までの間の未分離エリアを抽出する。そして、抽出されたエリアの音源分離処理順序が早くなる(優先される)ように音源分離処理の処理順序を再設定する。なお、リプレイ再生が設定された時点においてもリアルタイム再生のための音源分離処理が行われている場合は、リプレイ再生の処理はリアルタイム再生の処理を邪魔しないように実行される。そのため、リプレイ再生が設定された場合のリプレイ再生処理とリアルタイム再生処理の割合を、予め設定しておいてもよい。例えば、リプレイ再生が設定された場合、リアルタイム再生処理は全エリアのうち処理優先順位の80%に対して実行され、残りの時間はリプレイ再生処理に充てる(リプレイ再生処理は、残りの20%に対して実行される)ようにしてもよい。
分離順序制御部32は、設定した音源分離処理の処理順序の情報を音源分離部33および分離状況表示部37へ出力する。
音源分離部33は、分離順序制御部32から入力された処理順序に従って音源分離処理を行う。音源分離処理の内容は、実施形態1と同様であるため説明を省略する。本実施形態の音源分離部33は、さらに、音源分離処理の処理量(負荷状態)を監視し、指定された順序どおりにエリアの音声(音源)の分離処理を行い、全エリアの音源分離処理がリアルタイム再生に間に合うかを判定する。リアルタイム再生に間に合わないと判定した場合、音源分離部33は、一部の音声信号の音源分離処理を行わず、当該音声信号に関する情報を未分離リストとして分離順序制御部32へ出力する。より詳しくは、リアルタイム再生に間に合う範囲で、処理順序の早い順に(重要度の高い順に)音源分離処理を行い、処理順序の遅いエリアについては音源分離処理を行わない。未分離リストには音源分離処理しなかった音声信号のエリアや時間などの情報(時間情報は処理フレーム番号などの時間に対応する情報でもよい)が記録される。音源分離処理された音声信号は、音源分離部33からリアルタイム再生用信号生成部35および記憶部34へ出力される。
未分離リストの音声については、音源分離処理の負荷が所定値よりも低くなった時点で、未分離リストに記録されている情報により特定される音声信号が、記憶部34から音源分離部33によって読み出される。音源分離部33は、当該音声信号を分離処理し、再度、記憶部34へ出力(記録)する。音源分離処理が実行された音声信号のエリアおよび時間の情報は、未分離リストから削除される。
記憶部34は、マイクアレイ31に接続されており、マイクアレイ31が収音した全てのチャンネルの音声は、記憶部34に記録される。また記憶部34は、音源分離部33にも接続されており、音源分離部33で分離された音声信号はエリアおよび時間と対応づけられて記憶部34に記録される。
リアルタイム再生用信号生成部35は、後述するリアルタイム視点切替部43からの視点(カメラの向き)切替に応じた音声信号を生成し、当該音声信号を再生装置19aへ出力する。本実施形態の再生装置19aは、音声の再生と映像の再生を行うことができる。
リプレイ再生用信号生成部36は、後述するリプレイ設定部44からの視点およびリプレイの開始時刻と終了時刻に応じて、記憶部34から該当する時間のエリアごとの分離音声信号を取得する。そして、リプレイ再生用信号生成部36は、当該分離音声信号をリプレイ再生音声信号として、再生装置19aに出力する。
分離状況表示部37は表示装置であり、分離順序制御部32に接続されており、未分離リストから時間ごとのエリアの音声の分離状況を表示する。図7(A)は、分離状況表示部37の表示画面60の一例を示している。表示画面60は、タイムバー61、タイムカーソル62、分離終了割合表示63、全体エリア表示64、未分離エリア65および分離済みエリア66を有する。
タイムバー61は、現在までの録音時間を表すバーで、タイムカーソル62の位置が表示画面の時間を表す。分離終了割合表示63は、全エリア中何割のエリアの分離処理が終了しているか表示する。図7(A)の例ではエリアは40個あり、その中、20個のエリアの分離処理が終了しているため、分離終了割合表示63は50%となっている。全体エリア表示64は、対象としているエリア全体を示す。
全体エリア表示64内の小さな四角がエリア分割を表しており、分離処理が終わっていないエリアは白いエリア(未分離エリア)65として表示され、分離処理が終わっているエリアは黒いエリア(分離済みエリア)66として表示されている。未分離エリア65と分離済みエリア66は、違いが分かる形で表示する。
映像撮影制御装置30bは、撮像部41、画像記憶部42、リアルタイム視点切替部43およびリプレイ設定部44を有する。映像撮影制御装置30bの各構成部は、バス18により相互接続されている。
撮像部41は、複数のカメラ(図示せず)を有する。各カメラは、動画を撮影(撮像)することができる。撮像部41は、マイクアレイ31で収音する全てのエリア含む空間を撮像する。撮像した映像(画像)は、撮像部41から画像記憶部42へ出力される。
画像記憶部42は、記憶装置であり、撮影した全カメラ分の画像を記録(記憶)する。
リアルタイム視点切替部43は、例えば撮像部41の複数台のカメラを切り替えるスイッチャーであり、切り替えた(選択された)カメラの映像をリアルタイム映像出力として再生装置19aへ出力する。また、リアルタイム視点切替部43は、切り替えたカメラの視点情報をリアルタイム再生用信号生成部35へ出力する。
リプレイ設定部44は、リプレイの開始時刻、リプレイの終了時刻、リプレイを放送する時刻、リプレイの映像視点などを設定する。リプレイ設定部44は、設定した情報に基づいて画像記憶部42から映像を読み出し、リプレイ映像出力として再生装置19aへ出力する。さらに、リプレイ設定部44は、設定した情報を分離順序制御部32およびリプレイ再生用信号生成部36へ出力する。
(撮影処理システム30の処理フロー)
図8(A)と図8(B)は、本実施形態の撮影処理システム30の動作および処理を説明するフローチャートである。なお、以下の説明において、リアルタイム視点切替部43は、所定のタイミングで(S73)、撮像部41のカメラを切り替える(カメラは複数あり、現在使用しているカメラ以外のカメラを選択するという意)とする。
図8(A)に基づいて、リアルタイム再生を行う場合を説明する。
まず、マイクアレイ31において収音が行われ(S61)、撮像部41において撮像が行われる(S71)。マイクアレイ31を介して取得された音声データ(音声信号)は、記憶部34および音源分離部33へ出力される。撮像部41を介して取得された画像データ(画像信号)は、画像記憶部42、リアルタイム視点切替部43および分離順序制御部32へ出力される。
次に、記憶部34に入力された音声データは、記憶部34に記録される(S62)。また、画像記憶部42に入力された画像データは、画像記憶部42に記録される(S72)。
続いて、分離順序制御部32は、入力された画像データからエリアごとの音源となりうる被写体を検出する(S63)。分離順序制御部32は、例えば、顔認識技術やオブジェクト認識技術により被写体の検出を行う。
さらに分離順序制御部32は、S63において検出されたエリアごとの音源となりうる被写体の数に基づいて、音源分離の順序を設定する(S64)。つまり、本実施形態では、音源位置情報に基づいて音源分離の順序を設定している。設定された音源分離の順序は、分離順序制御部32から音源分離部33へ出力される。
次に、音源分離部33において音源分離の処理負荷状況に応じてリアルタイム再生に全エリアの音源分離処理が間に合うか否かを判定する(S65)。この判定はエリアごと行われる。つまり、リアルタイム再生に間に合う範囲で、分離順序の早い順に、どのエリアまで音源の分離処理を行うかを判定する(決める)。
S65において音源分離処理がリアルタイム再生に間に合うと判定されたエリアは、マイクアレイ31から入力された複数チャンネルの音声信号を用いて音源分離処理される(音源分離部33が、エリアの音声信号を分離して抽出する)(S66)。分離されたエリアの音声信号は、音源分離部33から記憶部34およびリアルタイム再生用信号生成部35へ出力される。
記憶部34は、S66で生成されたエリアの分離音声の音声信号を記録する(S67)。
ここで、リアルタイム視点切替部43により、視点の切り替えが行われたとする(S73)。この視点切替により、別のカメラが選択される。切り替えられた視点情報は、リアルタイム視点切替部43からリアルタイム再生用信号生成部35へ出力される。
リアルタイム再生用信号生成部35は、音源分離部33から入力されたエリアごとの分離音(音声信号)とリアルタイム視点切替部43から入力された視点情報とに基づいて、リアルタイム再生用の音声信号を生成する(S68)。S68におけるリアルタイム再生用の音声信号の生成は、図8ではリアルタイムレンダリングと記載した。
最後に、S68で生成されたリアルタイム再生用の音声信号とS73の視点切替により選択されたカメラの映像とが、再生装置19aに出力される(S69、S74)。
なお、S65においてリアルタイム再生に音源分離処理が間に合わないと判定されたエリアについては、未分離の時間情報とエリア情報が未分離リストに記録(追加)されることにより、未分離リストが生成される(S70)。
続いて図8(B)を用いてリプレイ設定部44においてリプレイが設定された場合のフローを説明する。
はじめにリプレイ設定部44においてリプレイの設定が行われる(S81)。設定されたリプレイ開始時刻、終了時刻、視点情報などは、リプレイ設定部44から分離順序制御部32とリプレイ再生用信号生成部36へ出力される。
続いて、分離順序制御部32は、未分離リストの確認を行う(S82)。分離順序制御部32は、未分離リストからリプレイ時間に含まれる未分離エリアの情報を抽出する。そして、分離順序制御部32は、抽出した未分離エリアの情報に基づいて、分離順序を再設定する(S83)。再設定された分離順序は、分離順序制御部32から音源分離部33へ出力される。その後、音源分離(S84)と記録(S85)が実行される。S84は図8(A)のS66と同様な処理であり、S85は図8(A)のS67と同様な処理であるので、詳細は省略する。
続いて、リプレイ再生用信号生成部36は、リプレイ設定部44からの入力に基づいて、記憶部34から該当する時間およびエリアの音声信号を読み出す(S86)。
一方、リプレイ設定部44は、画像記憶部42から、リプレイ時間および視点(選択されているカメラ)に対応する映像(画像データ)を読み出す(S87)。
続いて、リプレイ再生用信号生成部36は、リプレイ再生用信号を生成する(S88)。S88におけるリプレイ再生用の音声信号の生成は、図8ではリプレイレンダリングと記載した。
最後に、S88で生成された音声信号は、リプレイ音声出力として、リプレイ再生用信号生成部36から再生装置19aに出力される(S89)。また、この音声信号と同期して、S87で読み出された映像データは、リプレイ設定部44からリプレイ映像出力として再生装置19aに出力される(S90)。
(実施形態3の効果)
本実施形態によれば、音源位置情報に応じて音源分離の順序を設定することで、処理負荷によってすべてのエリアの音源分離がリアルタイム再生に間に合わない場合でも、音源(候補)のあるエリアの音声信号は優先的に音源分離され音声信号を取得できる。音源候補のあるエリアは、重要度の高いエリアである。したがって、本実施形態によれば、重要度の高いエリアの音声信号を欠くことなくリアルタイム音声再生を行うことができる。
(変形例)
なお、本実施形態において分離順序制御部32は撮像部41で撮像した映像を元に分離順序を制御したが、分離順序制御部32はその他の情報を元に分離順序を制御・設定してもよい。例えば、撮影処理システム30は、マイクアレイ31からエリアまでの距離を取得する距離取得部をさらに備えてもよい。そして、分離順序制御部32は、距離取得部が取得した距離に基づいて、分離順序を制御してもよい。マイクアレイ31から遠いエリアと近いエリアでは音声の伝搬にかかる時間が異なる。つまり、遠いエリアの音声は伝搬にかかる時間が長いので、遅延量が大きくなる。よって、通りエリアの音声については、分離処理を急ぐ必要がある。そこで、分離順序制御部32は、マイクアレイ31からの距離が遠いエリアほど処理のタイミングを早くするという設定をしてもよい。
テレビ放送などの生中継では、時間調整や不慮の事態に対応するため、実際の撮影から一定時間の遅延(例えば、数秒から数分程度の遅延)を持たせて放送するようなシステム(技法)が知られている。そのようなシステムを用いた場合、分離順序制御部32は撮像部41で撮像した遅延時間分の映像に含まれる事象に応じて分離順序を制御してもよい。例えば、スポーツの試合のライブ中継において2分の遅延を持たせて放送する場合、2分間の試合展開から注目領域を設定して、その注目領域に応じて各エリアの分離順序を制御してもよい。
また、音声の連続性を確保するため、分離順序制御部32は音源分離部33の音源分離の結果からエリアごとの複数の処理フレームの平均音量を取得し、当該平均音量に基づいて音源分離の順序を制御してもよい。例えば、過去(直近の)の所定数のフレームのエリアごとの平均音量から、当該エリアに音源が存在する度合い(音源存在度)を推定し、音源存在度の高いエリアの処理順序を早くなるように設定してもよい。また音源は移動する可能性があるため、音源存在度の高いエリアの周辺も処理順序が早くなるように設定されてもよい。
本実施形態において記憶部34は、マイクアレイ31が収音した全てのチャンネルの音声の音声信号を記録したが、撮影時間やマイクロホンの数によっては音声信号の記録量が大きくなってしまう可能性がある。記録量があまり大きくなるのを防ぐために、記憶部34は、全エリアの分離処理が行われた時間に対応する音声信号を削除してもよい。
本実施形態において、分離状況表示部37の表示画面60(図7(A))は、分離処理が完了しているか否かの表示を白黒で行ったが、分離順序制御部32で設定された分離順序を表示してもよい。例えば、図7(B)に示すように、表示画面60において、エリア表示の中に、分離順序を示す数字(図中、1〜13の数字)が表示されてもよい。あるいは、図7(B)の1〜13の数字の代わりに(または1〜13の数字に加えて)、分離順序に応じたカラー(グラデーションを含む)を用いた表示をしてもよい。
また、分離状況表示部37は、図7(A)または図7(B)の表示画面60に、リアルタイム再生時の視点、リプレイ再生時の視点、被写体の位置などを重ねて表示するようにしてもよい。さらに、分離状況表示部37は、図7(A)または図7(B)の全エリア表示64を、実際の空間の画像に重ねて表示してもよい。
なお、分離状況表示部37による表示は、図7(A)や図7(B)のような表示に限定されず、処理の状態(分離状況)が分かるような表示であればよい。例えば、図7(C)のように、分離状況は、分離終了パーセント(分離終了割合表示)を縦軸とし、時間を横軸にしたグラフで示してもよい。図7(C)は、分離終了パーセントを時系列に折れ線グラフで表示したものであり、シンプルな形式で分離状況を示している。
本実施形態では分離状況表示部37は表示機能だけを有するとしたが、ユーザインタフェース機能も有してもよい。例えば、表示画面60がタッチパネルを構成し、当該タッチパネルが分離順序制御部32に対するユーザインタフェースとして機能してもよい。このような構成にすると、例えば、ユーザが表示画面60上の未分離エリア65を少なくとも1つ選択し、タイムカーソル62を用いて時間区間を選択することで、指定されたエリアおよび指定された時間区間の分離の順序を早くできるようになる。
図6に示した構成には、遅延補正、ゲイン補正、エコー除去等を行う音声信号処理部(図1の音声信号処理部14と同様な処理部)が含まれていないが、必要に応じて、例えば、音源分離部33と記憶部34の間に音声信号処理部を設けてもよい。
図6の構成ではマイクアレイ31が音声収音制御装置30aに含まれているが、マイクアレイ31は音声収音制御装置30aに含まれなくてもよい。その場合、音源分離部33は外部装置であるマイクアレイ31から音声信号を受け取る。
(他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラム(コンピュータプログラム)を、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(たとえば、ASIC)によっても実現可能である。
10…音声信号処理装置、11…マイクアレイ、12…音源分離部、13…処理順序制御部、14…音声信号処理部、15…記憶部、16…リアルタイム再生用信号生成部

Claims (20)

  1. 複数のエリアを有する空間において収音する収音手段と、
    収音した複数のエリアの音声の音声信号に所定の処理を行う処理手段と、
    所定の条件に基づいて当該複数のエリアの音声信号の処理順序または音声再生部への音声信号の送信順序を設定する設定手段と、
    設定された前記処理順序または送信順序に従って、前記処理または音声信号送信を行う制御手段と、
    を備えることを特徴とする音声信号処理装置。
  2. 所定時間内にすべてのエリアの音声信号の処理または送信が実行可能か否かを判定する判定手段をさらに備え、
    前記設定手段は、前記判定手段の判定結果に応じて、前記処理順序または送信順序を設定することを特徴とする請求項1に記載の音声信号処理装置。
  3. 前記所定時間内にすべてのエリアの処理が実行できない場合、処理が実行できなりエリアの情報を記憶する記憶手段をさらに備えることを特徴とする請求項1または2に記載の音声信号処理装置。
  4. 前記エリアごとの音声を比較する比較手段をさらに備え、
    前記設定手段は、前記比較手段の比較結果に基づいて前記処理順序または送信順序を設定することを特徴とする請求項1〜3のいずれか1項に記載の音声信号処理装置。
  5. 前記比較手段の比較結果は、対象エリアの音声が他のエリアの音声によってマスキングされるか否かであることを特徴とする請求項4に記載の音声信号処理装置。
  6. 前記設定手段は、前記エリアごとの音声信号のレベルに基づいて前記処理順序または送信順序を設定することを特徴とする請求項1〜3のいずれか1項に記載の音声信号処理装置。
  7. 前記設定手段は、前記エリアごとの音声信号に声を表す音声信号が含まれているか否かに基づいて前記処理順序または送信順序を設定することを特徴とする請求項1〜3のいずれか1項に記載の音声信号処理装置。
  8. 前記設定手段は、前記エリアごとの音声信号に非定常音を表す音声信号が含まれているか否かに基づいて前記処理順序または送信順序を設定することを特徴とする請求項1〜3のいずれか1項に記載の音声信号処理装置。
  9. 前記設定手段は、前記収音手段から各エリアまでの距離に基づいて前記処理順序または送信順序を設定することを特徴とする請求項1〜3のいずれか1項に記載の音声信号処理装置。
  10. 全ての収音エリアを撮像することができる撮像手段をさらに備え、
    前記設定手段は、前記撮像手段が取得した画像からエリアごとの音源となりうる被写体の数を検出し、検出した被写体の数に基づいて前記処理順序または送信順序を設定することを特徴とする請求項1〜3のいずれか1項に記載の音声信号処理装置。
  11. 前記設定手段は、前記空間内で発生した事象に基づいて前記処理順序または送信順序を設定することを特徴とする請求項1〜3のいずれか1項に記載の音声信号処理装置。
  12. 前記所定の処理は、前記収音手段で収音した音声の音声信号に対する遅延補正処理、ゲイン補正処理およびエコー除去処理を含むことを特徴とする請求項1〜11のいずれか1項に記載の音声信号処理装置。
  13. 前記所定の処理は、前記収音手段で収音した音声の音声信号を前記エリアごとに音源分離する処理であることを特徴とする請求項1〜11のいずれか1項に記載の音声信号処理装置。
  14. 前記音声再生部は、リアルタイム再生をすることができ、前記判定手段は、音声信号の処理または送信がリアルタイム再生に間に合うか否かに基づいて、前記判定を行うことを特徴とする請求項2に記載の音声信号処理装置。
  15. 前記所定時間内にすべてのエリアの音声信号の処理が実行可能か否かは、前記処理手段の処理量が所定量以上であるか否かにより決められることを特徴とする請求項2に記載の音声信号処理装置。
  16. 前記収音手段は複数のマイクロホンを有することを特徴とする請求項1〜15のいずれか1項に記載の音声信号処理装置。
  17. 前記複数のマイクロホンは、少なくとも1つの指向性マイクロホンを含むことを特徴とする請求項16に記載の音声信号処理装置。
  18. 請求項1〜17のいずれか1項に記載した音声信号処理装置と、
    前記音声処理装置の収音手段で収音したエリアごとの音声の音声信号を、前記空間内の視点に基づいてミキシングするミキシング手段と、
    を備えることを特徴とする音響システム。
  19. 複数のエリアを有する空間において収音された音声の音声信号に所定の処理を行うステップと、
    所定の条件に基づいて当該複数のエリアの音声信号の処理順序または音声再生部への音声信号の送信順序を設定するステップと、
    設定された前記処理順序または送信順序に従って、前記処理または音声信号送信を行うステップと、
    を有することを特徴とする音声信号処理方法。
  20. コンピュータを請求項1〜17のいずれか1項に記載の音声信号処理装置の各手段として機能させるためのプログラム。
JP2016126937A 2016-06-27 2016-06-27 音データ処理装置および音データ処理方法 Active JP6818445B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016126937A JP6818445B2 (ja) 2016-06-27 2016-06-27 音データ処理装置および音データ処理方法
US15/630,723 US10219076B2 (en) 2016-06-27 2017-06-22 Audio signal processing device, audio signal processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016126937A JP6818445B2 (ja) 2016-06-27 2016-06-27 音データ処理装置および音データ処理方法

Publications (3)

Publication Number Publication Date
JP2018006826A true JP2018006826A (ja) 2018-01-11
JP2018006826A5 JP2018006826A5 (ja) 2019-08-08
JP6818445B2 JP6818445B2 (ja) 2021-01-20

Family

ID=60675123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016126937A Active JP6818445B2 (ja) 2016-06-27 2016-06-27 音データ処理装置および音データ処理方法

Country Status (2)

Country Link
US (1) US10219076B2 (ja)
JP (1) JP6818445B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087661A (zh) * 2018-10-23 2018-12-25 南昌努比亚技术有限公司 语音处理方法、装置、系统及可读存储介质
JP2023519421A (ja) * 2020-03-31 2023-05-10 華為技術有限公司 オーディオノイズ除去方法および装置
GB2601114A (en) * 2020-11-11 2022-05-25 Sony Interactive Entertainment Inc Audio processing system and method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009139592A (ja) * 2007-12-05 2009-06-25 Sony Corp 音声処理装置、音声処理システム及び音声処理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5395822B2 (ja) 2011-02-07 2014-01-22 日本電信電話株式会社 ズームマイク装置
JP5482854B2 (ja) 2012-09-28 2014-05-07 沖電気工業株式会社 収音装置及びプログラム
US9460732B2 (en) * 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
GB2514184B (en) * 2013-05-17 2016-05-04 Canon Kk Method for determining a direction of at least one sound source from an array of microphones

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009139592A (ja) * 2007-12-05 2009-06-25 Sony Corp 音声処理装置、音声処理システム及び音声処理プログラム

Also Published As

Publication number Publication date
US20170374463A1 (en) 2017-12-28
US10219076B2 (en) 2019-02-26
JP6818445B2 (ja) 2021-01-20

Similar Documents

Publication Publication Date Title
US10848889B2 (en) Intelligent audio rendering for video recording
US8218033B2 (en) Sound corrector, sound recording device, sound reproducing device, and sound correcting method
CN112165590B (zh) 视频的录制实现方法、装置及电子设备
US10734029B2 (en) Signal processing apparatus, signal processing method, and non-transitory computer-readable storage medium
CN104995681A (zh) 多声道音频数据的视频分析辅助产生
US11677925B2 (en) Information processing apparatus and control method therefor
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
US10998870B2 (en) Information processing apparatus, information processing method, and program
JP6818445B2 (ja) 音データ処理装置および音データ処理方法
CN113676592A (zh) 录音方法、装置、电子设备及计算机可读介质
CN113596240B (zh) 录音方法、装置、电子设备及计算机可读介质
CN114531564A (zh) 处理方法及电子设备
JP4165615B2 (ja) 画像表示装置、画像表示方法、プログラム、及び記録媒体
CN113225646B (zh) 音视频监控方法、装置、电子设备及存储介质
US10511927B2 (en) Sound system, control method of sound system, control apparatus, and storage medium
CN112165591B (zh) 一种音频数据的处理方法、装置及电子设备
WO2023231787A9 (zh) 音频处理方法和装置
US10547961B2 (en) Signal processing apparatus, signal processing method, and storage medium
JP6835205B2 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP6821390B2 (ja) 音響処理装置、音響処理方法及びプログラム
JP2013183280A (ja) 情報処理装置、撮像装置、及びプログラム
CN113542466A (zh) 音频处理方法、电子设备及存储介质
US10020903B2 (en) Method, device, and non-transitory computer-readable recording medium for supporting relay broadcasting using mobile device
CN113676593B (zh) 视频录制方法、装置、电子设备及存储介质
JP2004064700A (ja) 画像分類装置、画像分類方法、プログラム、及び記録媒体、並びに画像分類システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201228

R151 Written notification of patent or utility model registration

Ref document number: 6818445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151